Gated DeltaNet-2：解耦擦除与写入，线性注意力的范式突破

注意力的瓶颈

标准 Softmax 注意力机制有一个根本性问题：平方级复杂度。对于长度为 N 的序列，注意力需要计算 N×N 对交互，这意味着处理长文档时，内存和计算量的增长不可持续。

这也是为什么即便是最新的 GPT-5 和 Claude Opus 4.7 也有实际的上下文长度限制——所有人都在急切寻找替代方案。

graph LR
    A[输入序列<br/>N个Token] --> B[Softmax注意力<br/>O(N²)内存]
    B --> C[KV缓存<br/>无限增长]
    C --> D[解码瓶颈]

    A2[输入序列<br/>N个Token] --> B2[线性注意力<br/>O(N)内存]
    B2 --> C2[固定大小状态<br/>恒定内存]
    C2 --> D2[高效解码]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

线性注意力是目前最具竞争力的替代方案。它不存储完整的 N×N 注意力矩阵，而是将历史信息压缩到一个固定大小的循环状态中——就像随身携带一本笔记本，而不是一座图书馆。序列混合成本从 O(N²) 降至 O(N)，解码阶段使用恒定内存。

核心问题：擦除与写入的耦合

但线性注意力引入了一个更微妙的问题：如何编辑已压缩的记忆？

将这个循环状态想象成一块白板。每个新 Token 需要：

擦除与当前查询相关的过时信息
写入新的关联

此前的模型——Gated DeltaNet 和 Kimi Delta Attention (KDA)——使用单一标量门控来控制两个操作。这就像用同一个旋钮同时调节淋浴的水温和水压：能用，但你无法独立优化每一维度。

论文的核心洞见：擦除旧内容（key 侧）和提交新内容（value 侧）是本质不同的操作，不应该共享控制器。

Gated DeltaNet-2：解耦方案

NVIDIA 研究团队（Ali Hatamizadeh、Yejin Choi、Jan Kautz）提出了 Gated DeltaNet-2，通过两个独立的通道级门控来分离擦除和写入通路：

组件	符号	作用
擦除门	b_t	控制擦除多少旧内容（key 侧）
写入门	w_t	控制提交多少新内容（value 侧）
通道级衰减	继承自 KDA	每个通道独立的自适应遗忘率

flowchart TD
    subgraph Previous["此前方案"]
        X1[输入Token] --> G1[单一标量门控]
        G1 --> E1[擦除旧内容]
        G1 --> W1[写入新内容]
        E1 -.->|"耦合控制"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[输入Token] --> EG[擦除门 b_t<br/>通道级]
        X2 --> WG[写入门 w_t<br/>通道级]
        EG --> E2[擦除旧内容<br/>key侧]
        WG --> W2[写入新内容<br/>value侧]
        E2 --> S[更新后状态]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

这种分离意味着模型可以保留旧关联的同时积极写入新内容，或者彻底清除过时上下文而仅轻微更新——这在标量门控下是不可能做到的。

泛化层级

Gated DeltaNet-2 是此前工作的严格泛化：

KDA = b_t 和 w_t 坍缩为同一标量时的 GDN-2
Gated DeltaNet = 通道级衰减也坍缩为标量时的 KDA
DeltaNet = 无门控的原始版本

这意味着 Gated DeltaNet-2 可以表达前代模型的任何行为，同时拥有它们根本缺乏的能力。

技术创新

除了架构贡献，论文还引入了三项关键的技术创新以支持实际训练：

1. 分块 WY 算法

长序列训练需要分块并行化。团队推导出了一种分块公式，将通道级衰减吸收到非对称擦除因子中，在不损失通道级动态特性的前提下实现高效并行训练。

2. 门控感知的反向传播

通过门控机制的标准反向传播可能存在数值不稳定。门控感知的反向传播保持了通过独立擦除门和写入门的梯度流，从而支持大规模稳定训练。

3. 快速权重更新视角

更新规则被重新表述为快速权重系统，揭示了此前 DeltaNet 公式中不明显的与 Hebbian 学习和元学习的深层联系。

实验结果

在 1.3B 参数、100B FineWeb-Edu Token 的训练规模下，Gated DeltaNet-2 与以下模型进行了全面对比：

Mamba-2
Gated DeltaNet
Kimi Delta Attention (KDA)
Mamba-3 变体

语言建模与推理

基准测试	Mamba-2	Gated DeltaNet	KDA	Mamba-3	GDN-2
语言建模 PPL	基线	提升	提升	提升	最优
常识推理	基线	有竞争力	有竞争力	有竞争力	最优
多键检索	弱	中等	中等	中等	最强

杀手级基准：RULER 大海捞针

这是 Gated DeltaNet-2 真正大放异彩的地方。RULER 基准测试模型在极长上下文中找到特定信息的能力——类似于在一个足球场大小的干草堆中找到一根针。

Gated DeltaNet-2 在这些长上下文检索任务上取得了最强的综合结果，在多键检索评估设置上尤为突出——模型需要找到并关联多个分散的事实。

xychart-beta
    title "长文本检索性能 (RULER基准)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "准确率 (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

图表：基于论文报告的 RULER 基准趋势示意。Gated DeltaNet-2 相较所有基线有显著跃升。

为什么重要

这些影响超越了学术基准：

LLM 推理成本：O(1) 解码内存意味着长对话和文档处理的 API 调用更便宜
检索增强生成 (RAG)：更好的多键检索直接提升需要从多个文档片段综合信息的 RAG 系统
端侧 AI：固定大小的状态使得在内存受限设备上运行有能力的模型成为可能
科学文献处理：模型可以无需摘要技巧就有效处理整篇论文、专利或法律文档

代码与可复现性

实现在 GitHub 上开源：NVlabs/GatedDeltaNet-2，已获得 12,300+ Star。仓库包含预训练检查点、训练脚本和评估框架代码。

论文：arXiv:2605.22791

展望

Softmax 注意力统治的时代可能正在走向终点。随着线性注意力架构的不断成熟——借助独立擦除/写入门控、通道级衰减和分块训练等创新——我们正在接近一个临界点：Transformer 的 O(N²) 税不再是为性能必须付出的代价。

Gated DeltaNet-2 表明，精心的架构设计而非粗暴的规模扩展，可以释放 LLM 处理长上下文的巨大效率提升。下一个挑战：将这些架构扩展到 70B+ 参数规模，同时保持其效率优势。