needhelp
← 返回博客

SubQ:亚二次方 LLM,1200 万 Token 上下文,成本降低 1000 倍

作者 needhelp
SubQ
亚二次方
大语言模型
稀疏注意力
长上下文
AI架构

Subquadratic SubQ LLM

2026 年 5 月 5 日,一家名为 Subquadratic 的迈阿密初创公司从 stealth 模式中横空出世,带来一个大胆的声明:他们的模型 SubQ 是首个真正基于亚二次方架构的大语言模型,能够在单个上下文窗口中处理 1200 万个 Token,而计算成本仅为当前主流模型的零头。

业界反应迅速——且两极分化。

Subquadratic 是什么?

Subquadratic 是一家 AI 基础设施公司,成立于 2026 年,总部位于佛罗里达州迈阿密。由 CEO Justin Dangel 和前 Meta GenAI 负责人 CTO Alexander Whedon 领导,该公司完成了 2900 万美元种子轮融资,估值高达 5 亿美元

投资阵容堪称创业界全明星:Tinder 联合创始人 Justin Mateen、前 SoftBank Vision Fund 合伙人 Javier Villamizar,以及 Anthropic、OpenAI、Stripe、Brex 的早期投资者。

融资公告

核心创新:亚二次方稀疏注意力(SSA)

其核心卖点是 SSA(Subquadratic Sparse Attention),一种从根本上改变模型随上下文长度扩展方式的稀疏注意力机制。

二次方问题

标准 Transformer 注意力机制的复杂度为 O(n²)——上下文翻倍,计算量翻四倍。在 100 万 Token 时,仅注意力计算就需要数万亿次操作。这就是为什么大多数模型将上下文限制在 128K 或 200K Token。

亚二次方解决方案

SSA 用基于内容的稀疏选择机制取代了密集注意力矩阵。模型不再将每个 Token 与其他所有 Token 比较,而是动态选择需要关注的 Token,将复杂度降低到接近线性的 O(n) 扩展。

这与之前的稀疏注意力方法(如 Mamba、RWKV 或 DeepSeek 使用的)不同,因为:

  1. 基于内容的选择——根据相关性而非固定模式选择 Token
  2. 完全亚二次方——整个架构(而非仅注意力部分)都针对线性扩展优化
  3. 可训练的稀疏性——模型在预训练过程中学习哪些关系重要

结果:Subquadratic 声称在 1200 万 Token 时,相比标准 Transformer 模型,注意力计算量减少了 约 1000 倍

基准测试表现

Subquadratic 发布了三项基准测试结果:

基准SubQ 得分对比
SWE-Bench Verified81.8%Opus 4.6: 80.8%
RULER 128K(长上下文检索)95.0%Opus 4.6: 94.8%
MRCR v2(100 万 Token 检索)65.9%GPT-5.5: 74.0%, Gemini 3.1 Pro: 26.3%

在 100 万 Token 级别,SubQ 在 MRCR v2 上大幅超越 Gemini 3.1 Pro(65.9% 对比 26.3%),尽管仍落后于 GPT-5.5(74.0%)。RULER 的结果尤为亮眼——128K 上下文下 95% 的准确率,与 Claude Opus 4.6 持平,而成本据称低 约 300 倍(8 美元对比约 2600 美元)。

基准对比

产品:三种方式使用 SubQ

Subquadratic 推出了三款产品,目前均为内测阶段:

1. SubQ API

兼容 OpenAI 的 API 端点,提供 100 万 Token 的生产级上下文窗口。开发者只需最小限度的代码修改即可切换到 SubQ。

2. SubQ Code

CLI 编码代理,可将整个代码库加载到上下文中。无需 RAG 分块,SubQ Code 能完整读入你的仓库并整体推理。

免费的长上下文研究工具——可以理解为拥有百万 Token 记忆的 Perplexity。早期测试者报告可以上传整本书籍或技术文档进行分析。

SubQ 产品套件

成本论证

最具冲击力的是经济层面的主张。Subquadratic 的每任务成本分析:

任务SubQClaude Opus成本比
RULER 128K8 美元~2600 美元便宜约 325 倍
SWE-Bench~0.50 美元~5 美元便宜约 10 倍
MRCR v2 1M~50 美元~15000 美元(估)便宜约 300 倍

如果这些数字成立,影响将是巨大的:以前经济上不可行的长上下文任务(分析整个代码库、处理完整法律文档、审阅整篇学术论文)将变得日常化。

质疑声:为什么研究人员要求实证

并非所有人都信服。AI 研究界提出了几个担忧:

1. 无技术论文

Subquadratic 尚未发表经同行评审的论文或完整技术报告。官网显示”论文即将发布”——这被许多研究人员视为危险信号。

2. 闭源权重

模型未开源。没有权重或可复现的技术规格,独立验证无从谈起。

3. 基准测试范围狭窄

仅发布三项基准测试,全都偏向长上下文或编码任务。没有通用推理(MMLU、GPQA)、数学(MATH、GSM8K)或多模态基准的结果。

4. 研究与生产之间存在差距

研究配置下 MRCR v2 得分 83%,但生产 API 得分为 65.9%——17 个百分点的差距引发了对测评对象的质疑。

5. 单次运行结果

发布的结果缺少置信区间。在 ML 基准测试中,单次运行可能因方差而产生误导。

之前的亚二次方尝试(Mamba、RWKV、Hyena、S4)在小规模上展现了潜力,但未能在完全生产规模上匹配 Transformer 的质量。业界正在观望 SubQ 能否打破这一规律。

“Subquadratic 的主张要么是自 ‘Attention Is All You Need’ 以来最重要的 AI 架构突破——要么是一场资金充沛的海市蜃楼。没有中间地带。” —— VentureBeat 报道中引用的 AI 研究人员

什么是确认的,什么不是

我们来区分已确认的事实和未经证实的声明:

已确认:

  • 2900 万美元种子轮,估值约 5 亿美元 ✅
  • 团队包括前 Meta GenAI 负责人 Alexander Whedon ✅
  • 公司于 2026 年 5 月 5 日 stealth 出道 ✅
  • API 和产品以内测形式存在 ✅

未证实:

  • 1200 万 Token 生产级上下文 ❌(仅研究配置)
  • 1000 倍计算量降低 ❌(无独立审计)
  • 基准测试可复现 ❌(无论文,无权重)
  • 生产可靠性 ❌(内测阶段,测试者有限)

路线图:下一步

Subquadratic 制定了激进的路线图:

  • 2026 年 Q3:扩大 API 访问,发布 SDK
  • 2026 年 Q4:目标实现 5000 万 Token 上下文窗口
  • 2027 年:企业后训练工具

公司已明确表示没有计划开源 SubQ 的权重,将定位为商业 API 提供商。

为什么这很重要

即使存在质疑,SubQ 仍然是 AI 发展中的一个重要时刻:

  1. 二次方屏障是 Transformer 架构最后的重大约束。谁能攻克亚二次方扩展,谁就能解锁全新的应用场景。

  2. 长上下文改变一切。在 100 万 Token 以上,AI 代理可以一次性处理整个代码库、法律案件、学术文献或商业文档——无需 RAG、无需分块、不会丢失上下文。

  3. 经济学迫使我们关注。即使 SubQ 只实现了声称效果的 10%,对长上下文任务而言仍然比现有方法更便宜。

  4. 竞争压力是健康的。无论 SubQ 是真是假,这股热潮会推动每个实验室加速自己的亚二次方研究。

结论

Subquadratic 的 SubQ 是 2026 年最具影响力——也最具争议——的 AI 发布之一。如果经得起验证,SSA 可能从根本上重塑 AI 经济学,让百万 Token 上下文变得经济实惠且无处不在。如果不能,它将加入一长串未能成功扩展的架构名单。

独立验证将在未来几个月到来。在此之前,对 SubQ 最好的态度是:真诚的好奇心加健康的怀疑态度。

可以确定的是:亚二次方 AI 的竞赛已经正式开始。

参考来源

分享本页