Gated DeltaNet-2:解耦擦除与写入,线性注意力的范式突破
注意力的瓶颈
标准 Softmax 注意力机制有一个根本性问题:平方级复杂度。对于长度为 N 的序列,注意力需要计算 N×N 对交互,这意味着处理长文档时,内存和计算量的增长不可持续。
这也是为什么即便是最新的 GPT-5 和 Claude Opus 4.7 也有实际的上下文长度限制——所有人都在急切寻找替代方案。
graph LR
A[输入序列<br/>N个Token] --> B[Softmax注意力<br/>O(N²)内存]
B --> C[KV缓存<br/>无限增长]
C --> D[解码瓶颈]
A2[输入序列<br/>N个Token] --> B2[线性注意力<br/>O(N)内存]
B2 --> C2[固定大小状态<br/>恒定内存]
C2 --> D2[高效解码]
style A fill:#ff6b6b,color:#fff
style D fill:#ff6b6b,color:#fff
style A2 fill:#51cf66,color:#fff
style D2 fill:#51cf66,color:#fff
线性注意力是目前最具竞争力的替代方案。它不存储完整的 N×N 注意力矩阵,而是将历史信息压缩到一个固定大小的循环状态中——就像随身携带一本笔记本,而不是一座图书馆。序列混合成本从 O(N²) 降至 O(N),解码阶段使用恒定内存。
核心问题:擦除与写入的耦合
但线性注意力引入了一个更微妙的问题:如何编辑已压缩的记忆?
将这个循环状态想象成一块白板。每个新 Token 需要:
- 擦除与当前查询相关的过时信息
- 写入新的关联
此前的模型——Gated DeltaNet 和 Kimi Delta Attention (KDA)——使用单一标量门控来控制两个操作。这就像用同一个旋钮同时调节淋浴的水温和水压:能用,但你无法独立优化每一维度。
论文的核心洞见:擦除旧内容(key 侧)和提交新内容(value 侧)是本质不同的操作,不应该共享控制器。
Gated DeltaNet-2:解耦方案
NVIDIA 研究团队(Ali Hatamizadeh、Yejin Choi、Jan Kautz)提出了 Gated DeltaNet-2,通过两个独立的通道级门控来分离擦除和写入通路:
| 组件 | 符号 | 作用 |
|---|---|---|
| 擦除门 | b_t | 控制擦除多少旧内容(key 侧) |
| 写入门 | w_t | 控制提交多少新内容(value 侧) |
| 通道级衰减 | 继承自 KDA | 每个通道独立的自适应遗忘率 |
flowchart TD
subgraph Previous["此前方案"]
X1[输入Token] --> G1[单一标量门控]
G1 --> E1[擦除旧内容]
G1 --> W1[写入新内容]
E1 -.->|"耦合控制"| W1
end
subgraph GD2["Gated DeltaNet-2"]
X2[输入Token] --> EG[擦除门 b_t<br/>通道级]
X2 --> WG[写入门 w_t<br/>通道级]
EG --> E2[擦除旧内容<br/>key侧]
WG --> W2[写入新内容<br/>value侧]
E2 --> S[更新后状态]
W2 --> S
end
style Previous fill:#ffe0e0
style GD2 fill:#e0ffe0
这种分离意味着模型可以保留旧关联的同时积极写入新内容,或者彻底清除过时上下文而仅轻微更新——这在标量门控下是不可能做到的。
泛化层级
Gated DeltaNet-2 是此前工作的严格泛化:
- KDA = b_t 和 w_t 坍缩为同一标量时的 GDN-2
- Gated DeltaNet = 通道级衰减也坍缩为标量时的 KDA
- DeltaNet = 无门控的原始版本
这意味着 Gated DeltaNet-2 可以表达前代模型的任何行为,同时拥有它们根本缺乏的能力。
技术创新
除了架构贡献,论文还引入了三项关键的技术创新以支持实际训练:
1. 分块 WY 算法
长序列训练需要分块并行化。团队推导出了一种分块公式,将通道级衰减吸收到非对称擦除因子中,在不损失通道级动态特性的前提下实现高效并行训练。
2. 门控感知的反向传播
通过门控机制的标准反向传播可能存在数值不稳定。门控感知的反向传播保持了通过独立擦除门和写入门的梯度流,从而支持大规模稳定训练。
3. 快速权重更新视角
更新规则被重新表述为快速权重系统,揭示了此前 DeltaNet 公式中不明显的与 Hebbian 学习和元学习的深层联系。
实验结果
在 1.3B 参数、100B FineWeb-Edu Token 的训练规模下,Gated DeltaNet-2 与以下模型进行了全面对比:
- Mamba-2
- Gated DeltaNet
- Kimi Delta Attention (KDA)
- Mamba-3 变体
语言建模与推理
| 基准测试 | Mamba-2 | Gated DeltaNet | KDA | Mamba-3 | GDN-2 |
|---|---|---|---|---|---|
| 语言建模 PPL | 基线 | 提升 | 提升 | 提升 | 最优 |
| 常识推理 | 基线 | 有竞争力 | 有竞争力 | 有竞争力 | 最优 |
| 多键检索 | 弱 | 中等 | 中等 | 中等 | 最强 |
杀手级基准:RULER 大海捞针
这是 Gated DeltaNet-2 真正大放异彩的地方。RULER 基准测试模型在极长上下文中找到特定信息的能力——类似于在一个足球场大小的干草堆中找到一根针。
Gated DeltaNet-2 在这些长上下文检索任务上取得了最强的综合结果,在多键检索评估设置上尤为突出——模型需要找到并关联多个分散的事实。
xychart-beta
title "长文本检索性能 (RULER基准)"
x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
y-axis "准确率 (%)" 0 --> 100
bar [62, 71, 74, 69, 88]
图表:基于论文报告的 RULER 基准趋势示意。Gated DeltaNet-2 相较所有基线有显著跃升。
为什么重要
这些影响超越了学术基准:
- LLM 推理成本:O(1) 解码内存意味着长对话和文档处理的 API 调用更便宜
- 检索增强生成 (RAG):更好的多键检索直接提升需要从多个文档片段综合信息的 RAG 系统
- 端侧 AI:固定大小的状态使得在内存受限设备上运行有能力的模型成为可能
- 科学文献处理:模型可以无需摘要技巧就有效处理整篇论文、专利或法律文档
代码与可复现性
实现在 GitHub 上开源:NVlabs/GatedDeltaNet-2,已获得 12,300+ Star。仓库包含预训练检查点、训练脚本和评估框架代码。
展望
Softmax 注意力统治的时代可能正在走向终点。随着线性注意力架构的不断成熟——借助独立擦除/写入门控、通道级衰减和分块训练等创新——我们正在接近一个临界点:Transformer 的 O(N²) 税不再是为性能必须付出的代价。
Gated DeltaNet-2 表明,精心的架构设计而非粗暴的规模扩展,可以释放 LLM 处理长上下文的巨大效率提升。下一个挑战:将这些架构扩展到 70B+ 参数规模,同时保持其效率优势。