needhelp
← 返回博客

Gated DeltaNet-2:解耦擦除与写入,线性注意力的范式突破

作者 needhelp
attention-mechanism
linear-attention
transformer
llm
long-context
deep-learning

注意力的瓶颈

标准 Softmax 注意力机制有一个根本性问题:平方级复杂度。对于长度为 N 的序列,注意力需要计算 N×N 对交互,这意味着处理长文档时,内存和计算量的增长不可持续。

这也是为什么即便是最新的 GPT-5 和 Claude Opus 4.7 也有实际的上下文长度限制——所有人都在急切寻找替代方案。

graph LR
    A[输入序列<br/>N个Token] --> B[Softmax注意力<br/>O(N²)内存]
    B --> C[KV缓存<br/>无限增长]
    C --> D[解码瓶颈]

    A2[输入序列<br/>N个Token] --> B2[线性注意力<br/>O(N)内存]
    B2 --> C2[固定大小状态<br/>恒定内存]
    C2 --> D2[高效解码]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

线性注意力是目前最具竞争力的替代方案。它不存储完整的 N×N 注意力矩阵,而是将历史信息压缩到一个固定大小的循环状态中——就像随身携带一本笔记本,而不是一座图书馆。序列混合成本从 O(N²) 降至 O(N),解码阶段使用恒定内存。

核心问题:擦除与写入的耦合

但线性注意力引入了一个更微妙的问题:如何编辑已压缩的记忆?

将这个循环状态想象成一块白板。每个新 Token 需要:

  1. 擦除与当前查询相关的过时信息
  2. 写入新的关联

此前的模型——Gated DeltaNet 和 Kimi Delta Attention (KDA)——使用单一标量门控来控制两个操作。这就像用同一个旋钮同时调节淋浴的水温和水压:能用,但你无法独立优化每一维度。

论文的核心洞见:擦除旧内容(key 侧)和提交新内容(value 侧)是本质不同的操作,不应该共享控制器。

Gated DeltaNet-2:解耦方案

NVIDIA 研究团队(Ali Hatamizadeh、Yejin Choi、Jan Kautz)提出了 Gated DeltaNet-2,通过两个独立的通道级门控来分离擦除和写入通路:

组件符号作用
擦除门b_t控制擦除多少旧内容(key 侧)
写入门w_t控制提交多少新内容(value 侧)
通道级衰减继承自 KDA每个通道独立的自适应遗忘率
flowchart TD
    subgraph Previous["此前方案"]
        X1[输入Token] --> G1[单一标量门控]
        G1 --> E1[擦除旧内容]
        G1 --> W1[写入新内容]
        E1 -.->|"耦合控制"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[输入Token] --> EG[擦除门 b_t<br/>通道级]
        X2 --> WG[写入门 w_t<br/>通道级]
        EG --> E2[擦除旧内容<br/>key侧]
        WG --> W2[写入新内容<br/>value侧]
        E2 --> S[更新后状态]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

这种分离意味着模型可以保留旧关联的同时积极写入新内容,或者彻底清除过时上下文而仅轻微更新——这在标量门控下是不可能做到的。

泛化层级

Gated DeltaNet-2 是此前工作的严格泛化:

  • KDA = b_t 和 w_t 坍缩为同一标量时的 GDN-2
  • Gated DeltaNet = 通道级衰减也坍缩为标量时的 KDA
  • DeltaNet = 无门控的原始版本

这意味着 Gated DeltaNet-2 可以表达前代模型的任何行为,同时拥有它们根本缺乏的能力。

技术创新

除了架构贡献,论文还引入了三项关键的技术创新以支持实际训练:

1. 分块 WY 算法

长序列训练需要分块并行化。团队推导出了一种分块公式,将通道级衰减吸收到非对称擦除因子中,在不损失通道级动态特性的前提下实现高效并行训练。

2. 门控感知的反向传播

通过门控机制的标准反向传播可能存在数值不稳定。门控感知的反向传播保持了通过独立擦除门和写入门的梯度流,从而支持大规模稳定训练。

3. 快速权重更新视角

更新规则被重新表述为快速权重系统,揭示了此前 DeltaNet 公式中不明显的与 Hebbian 学习和元学习的深层联系。

实验结果

1.3B 参数100B FineWeb-Edu Token 的训练规模下,Gated DeltaNet-2 与以下模型进行了全面对比:

  • Mamba-2
  • Gated DeltaNet
  • Kimi Delta Attention (KDA)
  • Mamba-3 变体

语言建模与推理

基准测试Mamba-2Gated DeltaNetKDAMamba-3GDN-2
语言建模 PPL基线提升提升提升最优
常识推理基线有竞争力有竞争力有竞争力最优
多键检索中等中等中等最强

杀手级基准:RULER 大海捞针

这是 Gated DeltaNet-2 真正大放异彩的地方。RULER 基准测试模型在极长上下文中找到特定信息的能力——类似于在一个足球场大小的干草堆中找到一根针。

Gated DeltaNet-2 在这些长上下文检索任务上取得了最强的综合结果,在多键检索评估设置上尤为突出——模型需要找到并关联多个分散的事实。

xychart-beta
    title "长文本检索性能 (RULER基准)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "准确率 (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

图表:基于论文报告的 RULER 基准趋势示意。Gated DeltaNet-2 相较所有基线有显著跃升。

为什么重要

这些影响超越了学术基准:

  1. LLM 推理成本:O(1) 解码内存意味着长对话和文档处理的 API 调用更便宜
  2. 检索增强生成 (RAG):更好的多键检索直接提升需要从多个文档片段综合信息的 RAG 系统
  3. 端侧 AI:固定大小的状态使得在内存受限设备上运行有能力的模型成为可能
  4. 科学文献处理:模型可以无需摘要技巧就有效处理整篇论文、专利或法律文档

代码与可复现性

实现在 GitHub 上开源:NVlabs/GatedDeltaNet-2,已获得 12,300+ Star。仓库包含预训练检查点、训练脚本和评估框架代码。

论文:arXiv:2605.22791

展望

Softmax 注意力统治的时代可能正在走向终点。随着线性注意力架构的不断成熟——借助独立擦除/写入门控、通道级衰减和分块训练等创新——我们正在接近一个临界点:Transformer 的 O(N²) 税不再是为性能必须付出的代价。

Gated DeltaNet-2 表明,精心的架构设计而非粗暴的规模扩展,可以释放 LLM 处理长上下文的巨大效率提升。下一个挑战:将这些架构扩展到 70B+ 参数规模,同时保持其效率优势。

分享本页