needhelp
← ブログに戻る

Gated DeltaNet-2:線形アテンションにおける消去と書き込みの分離

著者 needhelp
attention-mechanism
linear-attention
transformer
llm
long-context
deep-learning

アテンションのボトルネック

すべてのTransformerを支える標準的なSoftmaxアテンション機構には根本的な問題があります:二次関数的な計算量です。長さNの系列に対して、アテンションはN×Nのペアワイズ相互作用を計算するため、長い文書の処理ではメモリと計算リソースが持続不可能な速度で消費されます。

これがGPT-5やClaude Opus 4.7でさえ実用的なコンテキスト制限がある理由であり、誰もが代替手段の開発を急いでいる理由です。

graph LR
    A[入力系列<br/>Nトークン] --> B[Softmaxアテンション<br/>O(N²)メモリ]
    B --> C[KVキャッシュ<br/>無制限に増加]
    C --> D[デコードの<br/>ボトルネック]

    A2[入力系列<br/>Nトークン] --> B2[線形アテンション<br/>O(N)メモリ]
    B2 --> C2[固定サイズ状態<br/>定数メモリ]
    C2 --> D2[効率的な<br/>デコード]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

線形アテンションは最も有力な代替手段です。完全なN×Nアテンション行列を保存する代わりに、履歴を固定サイズの再帰状態に圧縮します——図書館の代わりに1冊のノートを持ち歩くようなものです。系列混合のコストはO(N²)からO(N)に低下し、デコードは定数メモリで動作します。

核心的問題:消去と書き込みの結合

しかし線形アテンションはより微妙な問題を導入します:圧縮されたメモリをどのように編集するか?

再帰状態をホワイトボードと考えてください。各新しいトークンは以下を行う必要があります:

  1. 現在のクエリに関連する古い情報を消去する
  2. 新しい関連付けを状態に書き込む

従来のモデル——Gated DeltaNetとKimi Delta Attention (KDA)——は単一のスカラーゲートを使用して両方の操作を制御します。これはシャワーの温度と水圧を1つのノブで調整するようなものです:機能はしますが、それぞれを独立して最適化することはできません。

論文の核心的洞察:古いコンテンツの消去(キー側)と新しいコンテンツのコミット(バリュー側)は本質的に異なる操作であり、コントローラーを共有すべきではない。

Gated DeltaNet-2:解決策

NVIDIAの研究者(Ali Hatamizadeh、Yejin Choi、Jan Kautz)はGated DeltaNet-2を発表しました。これは2つの独立したチャネル単位ゲートで消去と書き込みの経路を分離します:

コンポーネント記号役割
消去ゲートb_t古いコンテンツの削除量を制御(キー側)
書き込みゲートw_t新しいコンテンツのコミット量を制御(バリュー側)
チャネル単位の減衰KDAから継承チャネルごとの適応的忘却率
flowchart TD
    subgraph Previous["従来のアプローチ"]
        X1[入力トークン] --> G1[単一スカラーゲート]
        G1 --> E1[古いコンテンツを消去]
        G1 --> W1[新しいコンテンツを書き込み]
        E1 -.->|"結合された制御"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[入力トークン] --> EG[消去ゲート b_t<br/>チャネル単位]
        X2 --> WG[書き込みゲート w_t<br/>チャネル単位]
        EG --> E2[古いコンテンツを消去<br/>キー側]
        WG --> W2[新しいコンテンツを書き込み<br/>バリュー側]
        E2 --> S[更新された状態]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

汎化階層

Gated DeltaNet-2は先行研究を厳密に汎化します:

  • KDA = b_tとw_tが同じスカラーに縮退した場合のGDN-2
  • Gated DeltaNet = チャネル単位の減衰も縮退した場合のKDA
  • DeltaNet = ゲートのない元のバージョン

実験結果

1.3Bパラメータ100B FineWeb-Eduトークンで訓練されたGated DeltaNet-2の評価結果:

ベンチマークMamba-2Gated DeltaNetKDAMamba-3GDN-2
言語モデリングベース改善改善改善最良
常識推論ベース競争力あり競争力あり競争力あり最良
マルチキー検索弱い中程度中程度中程度最強

RULERベンチマーク

GDN-2が真価を発揮するのはここです。RULERは極端に長いコンテキストから特定の情報を見つける能力をテストします——サッカー場サイズの干し草の山から針を1本見つけるようなものです。

xychart-beta
    title "長文検索パフォーマンス (RULER)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "精度 (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

意義

  1. LLM推論コスト:O(1)デコードメモリにより長文処理APIが安価に
  2. RAG:マルチキー検索の改善がドキュメント合成を直接向上
  3. オンデバイスAI:固定サイズ状態でメモリ制約のあるデバイスでも高性能モデルが動作
  4. 科学文献処理:論文全体を要約トリックなしで処理可能に

コード:NVlabs/GatedDeltaNet-212,300+スター

論文:arXiv:2605.22791

このページをシェア