Gated DeltaNet-2:線形アテンションにおける消去と書き込みの分離
アテンションのボトルネック
すべてのTransformerを支える標準的なSoftmaxアテンション機構には根本的な問題があります:二次関数的な計算量です。長さNの系列に対して、アテンションはN×Nのペアワイズ相互作用を計算するため、長い文書の処理ではメモリと計算リソースが持続不可能な速度で消費されます。
これがGPT-5やClaude Opus 4.7でさえ実用的なコンテキスト制限がある理由であり、誰もが代替手段の開発を急いでいる理由です。
graph LR
A[入力系列<br/>Nトークン] --> B[Softmaxアテンション<br/>O(N²)メモリ]
B --> C[KVキャッシュ<br/>無制限に増加]
C --> D[デコードの<br/>ボトルネック]
A2[入力系列<br/>Nトークン] --> B2[線形アテンション<br/>O(N)メモリ]
B2 --> C2[固定サイズ状態<br/>定数メモリ]
C2 --> D2[効率的な<br/>デコード]
style A fill:#ff6b6b,color:#fff
style D fill:#ff6b6b,color:#fff
style A2 fill:#51cf66,color:#fff
style D2 fill:#51cf66,color:#fff
線形アテンションは最も有力な代替手段です。完全なN×Nアテンション行列を保存する代わりに、履歴を固定サイズの再帰状態に圧縮します——図書館の代わりに1冊のノートを持ち歩くようなものです。系列混合のコストはO(N²)からO(N)に低下し、デコードは定数メモリで動作します。
核心的問題:消去と書き込みの結合
しかし線形アテンションはより微妙な問題を導入します:圧縮されたメモリをどのように編集するか?
再帰状態をホワイトボードと考えてください。各新しいトークンは以下を行う必要があります:
- 現在のクエリに関連する古い情報を消去する
- 新しい関連付けを状態に書き込む
従来のモデル——Gated DeltaNetとKimi Delta Attention (KDA)——は単一のスカラーゲートを使用して両方の操作を制御します。これはシャワーの温度と水圧を1つのノブで調整するようなものです:機能はしますが、それぞれを独立して最適化することはできません。
論文の核心的洞察:古いコンテンツの消去(キー側)と新しいコンテンツのコミット(バリュー側)は本質的に異なる操作であり、コントローラーを共有すべきではない。
Gated DeltaNet-2:解決策
NVIDIAの研究者(Ali Hatamizadeh、Yejin Choi、Jan Kautz)はGated DeltaNet-2を発表しました。これは2つの独立したチャネル単位ゲートで消去と書き込みの経路を分離します:
| コンポーネント | 記号 | 役割 |
|---|---|---|
| 消去ゲート | b_t | 古いコンテンツの削除量を制御(キー側) |
| 書き込みゲート | w_t | 新しいコンテンツのコミット量を制御(バリュー側) |
| チャネル単位の減衰 | KDAから継承 | チャネルごとの適応的忘却率 |
flowchart TD
subgraph Previous["従来のアプローチ"]
X1[入力トークン] --> G1[単一スカラーゲート]
G1 --> E1[古いコンテンツを消去]
G1 --> W1[新しいコンテンツを書き込み]
E1 -.->|"結合された制御"| W1
end
subgraph GD2["Gated DeltaNet-2"]
X2[入力トークン] --> EG[消去ゲート b_t<br/>チャネル単位]
X2 --> WG[書き込みゲート w_t<br/>チャネル単位]
EG --> E2[古いコンテンツを消去<br/>キー側]
WG --> W2[新しいコンテンツを書き込み<br/>バリュー側]
E2 --> S[更新された状態]
W2 --> S
end
style Previous fill:#ffe0e0
style GD2 fill:#e0ffe0
汎化階層
Gated DeltaNet-2は先行研究を厳密に汎化します:
- KDA = b_tとw_tが同じスカラーに縮退した場合のGDN-2
- Gated DeltaNet = チャネル単位の減衰も縮退した場合のKDA
- DeltaNet = ゲートのない元のバージョン
実験結果
1.3Bパラメータ、100B FineWeb-Eduトークンで訓練されたGated DeltaNet-2の評価結果:
| ベンチマーク | Mamba-2 | Gated DeltaNet | KDA | Mamba-3 | GDN-2 |
|---|---|---|---|---|---|
| 言語モデリング | ベース | 改善 | 改善 | 改善 | 最良 |
| 常識推論 | ベース | 競争力あり | 競争力あり | 競争力あり | 最良 |
| マルチキー検索 | 弱い | 中程度 | 中程度 | 中程度 | 最強 |
RULERベンチマーク
GDN-2が真価を発揮するのはここです。RULERは極端に長いコンテキストから特定の情報を見つける能力をテストします——サッカー場サイズの干し草の山から針を1本見つけるようなものです。
xychart-beta
title "長文検索パフォーマンス (RULER)"
x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
y-axis "精度 (%)" 0 --> 100
bar [62, 71, 74, 69, 88]
意義
- LLM推論コスト:O(1)デコードメモリにより長文処理APIが安価に
- RAG:マルチキー検索の改善がドキュメント合成を直接向上
- オンデバイスAI:固定サイズ状態でメモリ制約のあるデバイスでも高性能モデルが動作
- 科学文献処理:論文全体を要約トリックなしで処理可能に
コード:NVlabs/GatedDeltaNet-2 — 12,300+スター