Gated DeltaNet-2: Löschen und Schreiben in der linearen Aufmerksamkeit entkoppeln
Der Aufmerksamkeits-Engpass
Der standardmäßige Softmax-Aufmerksamkeitsmechanismus, der jeden Transformer antreibt, hat ein grundlegendes Problem: quadratische Komplexität. Für eine Sequenz der Länge N berechnet die Aufmerksamkeit N×N paarweise Interaktionen, was bedeutet, dass die Verarbeitung langer Dokumente Speicher und Rechenleistung in nicht nachhaltigem Tempo verbraucht.
Deshalb haben selbst Modelle wie GPT-5 und Claude Opus 4.7 praktische Kontextgrenzen — und deshalb sucht jeder nach Alternativen.
graph LR
A[Eingabesequenz<br/>N Token] --> B[Softmax-Aufmerksamkeit<br/>O(N²) Speicher]
B --> C[KV-Cache<br/>unbegrenztes Wachstum]
C --> D[Dekodierungs-<br/>Engpass]
A2[Eingabesequenz<br/>N Token] --> B2[Lineare Aufmerksamkeit<br/>O(N) Speicher]
B2 --> C2[Feste Zustandsgröße<br/>konstanter Speicher]
C2 --> D2[Effiziente<br/>Dekodierung]
style A fill:#ff6b6b,color:#fff
style D fill:#ff6b6b,color:#fff
style A2 fill:#51cf66,color:#fff
style D2 fill:#51cf66,color:#fff
Lineare Aufmerksamkeit ist der führende Kandidat. Statt einer vollständigen N×N-Aufmerksamkeitsmatrix wird der Verlauf in einem rekurrenten Zustand fester Größe komprimiert — wie ein Notizbuch statt einer Bibliothek. Die Sequenzmischung sinkt von O(N²) auf O(N), und die Dekodierung nutzt konstanten Speicher.
Das Kernproblem: Löschen und Schreiben koppeln
Aber lineare Aufmerksamkeit führt ein subtileres Problem ein: Wie bearbeitet man einen komprimierten Speicher?
Stellen Sie sich den rekurrenten Zustand als Whiteboard vor. Jeder neue Token muss:
- Veraltete Informationen löschen, die für die aktuelle Anfrage relevant sind
- Neue Assoziationen schreiben
Frühere Modelle — Gated DeltaNet und Kimi Delta Attention (KDA) — verwenden ein einziges skalares Gate zur Steuerung beider Operationen. Das ist wie ein einziger Knopf für Temperatur und Wasserdruck in einer Dusche: es funktioniert, aber man kann nicht jeden Aspekt unabhängig optimieren.
Die zentrale Erkenntnis des Papers: Altes Löschen (Key-Seite) und Neues Schreiben (Value-Seite) sind grundlegend verschiedene Operationen, die keinen gemeinsamen Controller teilen sollten.
Gated DeltaNet-2: Die Lösung
Forscher von NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) stellten Gated DeltaNet-2 vor, das die Lösch- und Schreibpfade mit zwei unabhängigen kanalweisen Gates trennt:
| Komponente | Symbol | Rolle |
|---|---|---|
| Lösch-Gate | b_t | Steuert, wie viel alter Inhalt gelöscht wird (Key-Seite) |
| Schreib-Gate | w_t | Steuert, wie viel neuer Inhalt gespeichert wird (Value-Seite) |
| Kanalweiser Zerfall | von KDA geerbt | Adaptive Vergessensrate pro Kanal |
flowchart TD
subgraph Previous["Frühere Ansätze"]
X1[Eingabe-Token] --> G1[Einzelnes skalares Gate]
G1 --> E1[Alten Inhalt löschen]
G1 --> W1[Neuen Inhalt schreiben]
E1 -.->|"gekoppelte Steuerung"| W1
end
subgraph GD2["Gated DeltaNet-2"]
X2[Eingabe-Token] --> EG[Lösch-Gate b_t<br/>kanalweise]
X2 --> WG[Schreib-Gate w_t<br/>kanalweise]
EG --> E2[Alten Inhalt löschen<br/>Key-Seite]
WG --> W2[Neuen Inhalt schreiben<br/>Value-Seite]
E2 --> S[Aktualisierter Zustand]
W2 --> S
end
style Previous fill:#ffe0e0
style GD2 fill:#e0ffe0
Generalisierungshierarchie
Gated DeltaNet-2 verallgemeinert die bisherigen Arbeiten streng:
- KDA = GDN-2 wenn b_t und w_t zum gleichen Skalar kollabieren
- Gated DeltaNet = KDA wenn auch der kanalweise Zerfall kollabiert
- DeltaNet = die ursprüngliche Version ohne Gates
Experimentelle Ergebnisse
Mit 1,3 Mrd. Parametern, trainiert auf 100 Mrd. FineWeb-Edu-Token:
| Benchmark | Mamba-2 | Gated DeltaNet | KDA | Mamba-3 | GDN-2 |
|---|---|---|---|---|---|
| Sprachmodellierung | Basis | verbessert | verbessert | verbessert | am besten |
| Commonsense-Reasoning | Basis | konkurrenzfähig | konkurrenzfähig | konkurrenzfähig | am besten |
| Multi-Key-Suche | schwach | moderat | moderat | moderat | am stärksten |
Der RULER-Benchmark
Hier glänzt GDN-2 wirklich. RULER testet die Fähigkeit, spezifische Informationen in extrem langen Kontexten zu finden — wie eine Nadel im Heuhaufen von der Größe eines Fußballfeldes.
xychart-beta
title "Langkontext-Suchleistung (RULER)"
x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
y-axis "Genauigkeit (%)" 0 --> 100
bar [62, 71, 74, 69, 88]
Warum das wichtig ist
- Inferenzkosten: O(1) Dekodierungsspeicher = günstigere APIs für lange Konversationen
- RAG: Bessere Multi-Key-Suche verbessert RAG-Systeme direkt
- On-Device-KI: Feste Zustandsgröße ermöglicht leistungsfähige Modelle auf speicherbeschränkten Geräten
- Wissenschaftliche Literatur: Vollständige Verarbeitung von Papers ohne Zusammenfassungstricks
Code: NVlabs/GatedDeltaNet-2 — 12.300+ Sterne
Paper: arXiv:2605.22791