SubQ:亚二次方 LLM,1200 万 Token 上下文,成本降低 1000 倍
2026 年 5 月 5 日,一家名为 Subquadratic 的迈阿密初创公司从 stealth 模式中横空出世,带来一个大胆的声明:他们的模型 SubQ 是首个真正基于亚二次方架构的大语言模型,能够在单个上下文窗口中处理 1200 万个 Token,而计算成本仅为当前主流模型的零头。
业界反应迅速——且两极分化。
Subquadratic 是什么?
Subquadratic 是一家 AI 基础设施公司,成立于 2026 年,总部位于佛罗里达州迈阿密。由 CEO Justin Dangel 和前 Meta GenAI 负责人 CTO Alexander Whedon 领导,该公司完成了 2900 万美元种子轮融资,估值高达 5 亿美元。
投资阵容堪称创业界全明星:Tinder 联合创始人 Justin Mateen、前 SoftBank Vision Fund 合伙人 Javier Villamizar,以及 Anthropic、OpenAI、Stripe、Brex 的早期投资者。
核心创新:亚二次方稀疏注意力(SSA)
其核心卖点是 SSA(Subquadratic Sparse Attention),一种从根本上改变模型随上下文长度扩展方式的稀疏注意力机制。
二次方问题
标准 Transformer 注意力机制的复杂度为 O(n²)——上下文翻倍,计算量翻四倍。在 100 万 Token 时,仅注意力计算就需要数万亿次操作。这就是为什么大多数模型将上下文限制在 128K 或 200K Token。
亚二次方解决方案
SSA 用基于内容的稀疏选择机制取代了密集注意力矩阵。模型不再将每个 Token 与其他所有 Token 比较,而是动态选择需要关注的 Token,将复杂度降低到接近线性的 O(n) 扩展。
这与之前的稀疏注意力方法(如 Mamba、RWKV 或 DeepSeek 使用的)不同,因为:
- 基于内容的选择——根据相关性而非固定模式选择 Token
- 完全亚二次方——整个架构(而非仅注意力部分)都针对线性扩展优化
- 可训练的稀疏性——模型在预训练过程中学习哪些关系重要
结果:Subquadratic 声称在 1200 万 Token 时,相比标准 Transformer 模型,注意力计算量减少了 约 1000 倍。
基准测试表现
Subquadratic 发布了三项基准测试结果:
| 基准 | SubQ 得分 | 对比 |
|---|---|---|
| SWE-Bench Verified | 81.8% | Opus 4.6: 80.8% |
| RULER 128K(长上下文检索) | 95.0% | Opus 4.6: 94.8% |
| MRCR v2(100 万 Token 检索) | 65.9% | GPT-5.5: 74.0%, Gemini 3.1 Pro: 26.3% |
在 100 万 Token 级别,SubQ 在 MRCR v2 上大幅超越 Gemini 3.1 Pro(65.9% 对比 26.3%),尽管仍落后于 GPT-5.5(74.0%)。RULER 的结果尤为亮眼——128K 上下文下 95% 的准确率,与 Claude Opus 4.6 持平,而成本据称低 约 300 倍(8 美元对比约 2600 美元)。
产品:三种方式使用 SubQ
Subquadratic 推出了三款产品,目前均为内测阶段:
1. SubQ API
兼容 OpenAI 的 API 端点,提供 100 万 Token 的生产级上下文窗口。开发者只需最小限度的代码修改即可切换到 SubQ。
2. SubQ Code
CLI 编码代理,可将整个代码库加载到上下文中。无需 RAG 分块,SubQ Code 能完整读入你的仓库并整体推理。
3. SubQ Search
免费的长上下文研究工具——可以理解为拥有百万 Token 记忆的 Perplexity。早期测试者报告可以上传整本书籍或技术文档进行分析。
成本论证
最具冲击力的是经济层面的主张。Subquadratic 的每任务成本分析:
| 任务 | SubQ | Claude Opus | 成本比 |
|---|---|---|---|
| RULER 128K | 8 美元 | ~2600 美元 | 便宜约 325 倍 |
| SWE-Bench | ~0.50 美元 | ~5 美元 | 便宜约 10 倍 |
| MRCR v2 1M | ~50 美元 | ~15000 美元(估) | 便宜约 300 倍 |
如果这些数字成立,影响将是巨大的:以前经济上不可行的长上下文任务(分析整个代码库、处理完整法律文档、审阅整篇学术论文)将变得日常化。
质疑声:为什么研究人员要求实证
并非所有人都信服。AI 研究界提出了几个担忧:
1. 无技术论文
Subquadratic 尚未发表经同行评审的论文或完整技术报告。官网显示”论文即将发布”——这被许多研究人员视为危险信号。
2. 闭源权重
模型未开源。没有权重或可复现的技术规格,独立验证无从谈起。
3. 基准测试范围狭窄
仅发布三项基准测试,全都偏向长上下文或编码任务。没有通用推理(MMLU、GPQA)、数学(MATH、GSM8K)或多模态基准的结果。
4. 研究与生产之间存在差距
研究配置下 MRCR v2 得分 83%,但生产 API 得分为 65.9%——17 个百分点的差距引发了对测评对象的质疑。
5. 单次运行结果
发布的结果缺少置信区间。在 ML 基准测试中,单次运行可能因方差而产生误导。
之前的亚二次方尝试(Mamba、RWKV、Hyena、S4)在小规模上展现了潜力,但未能在完全生产规模上匹配 Transformer 的质量。业界正在观望 SubQ 能否打破这一规律。
“Subquadratic 的主张要么是自 ‘Attention Is All You Need’ 以来最重要的 AI 架构突破——要么是一场资金充沛的海市蜃楼。没有中间地带。” —— VentureBeat 报道中引用的 AI 研究人员
什么是确认的,什么不是
我们来区分已确认的事实和未经证实的声明:
已确认:
- 2900 万美元种子轮,估值约 5 亿美元 ✅
- 团队包括前 Meta GenAI 负责人 Alexander Whedon ✅
- 公司于 2026 年 5 月 5 日 stealth 出道 ✅
- API 和产品以内测形式存在 ✅
未证实:
- 1200 万 Token 生产级上下文 ❌(仅研究配置)
- 1000 倍计算量降低 ❌(无独立审计)
- 基准测试可复现 ❌(无论文,无权重)
- 生产可靠性 ❌(内测阶段,测试者有限)
路线图:下一步
Subquadratic 制定了激进的路线图:
- 2026 年 Q3:扩大 API 访问,发布 SDK
- 2026 年 Q4:目标实现 5000 万 Token 上下文窗口
- 2027 年:企业后训练工具
公司已明确表示没有计划开源 SubQ 的权重,将定位为商业 API 提供商。
为什么这很重要
即使存在质疑,SubQ 仍然是 AI 发展中的一个重要时刻:
-
二次方屏障是 Transformer 架构最后的重大约束。谁能攻克亚二次方扩展,谁就能解锁全新的应用场景。
-
长上下文改变一切。在 100 万 Token 以上,AI 代理可以一次性处理整个代码库、法律案件、学术文献或商业文档——无需 RAG、无需分块、不会丢失上下文。
-
经济学迫使我们关注。即使 SubQ 只实现了声称效果的 10%,对长上下文任务而言仍然比现有方法更便宜。
-
竞争压力是健康的。无论 SubQ 是真是假,这股热潮会推动每个实验室加速自己的亚二次方研究。
结论
Subquadratic 的 SubQ 是 2026 年最具影响力——也最具争议——的 AI 发布之一。如果经得起验证,SSA 可能从根本上重塑 AI 经济学,让百万 Token 上下文变得经济实惠且无处不在。如果不能,它将加入一长串未能成功扩展的架构名单。
独立验证将在未来几个月到来。在此之前,对 SubQ 最好的态度是:真诚的好奇心加健康的怀疑态度。
可以确定的是:亚二次方 AI 的竞赛已经正式开始。