Gated DeltaNet-2: Löschen und Schreiben in der linearen Aufmerksamkeit entkoppeln

Der Aufmerksamkeits-Engpass

Der standardmäßige Softmax-Aufmerksamkeitsmechanismus, der jeden Transformer antreibt, hat ein grundlegendes Problem: quadratische Komplexität. Für eine Sequenz der Länge N berechnet die Aufmerksamkeit N×N paarweise Interaktionen, was bedeutet, dass die Verarbeitung langer Dokumente Speicher und Rechenleistung in nicht nachhaltigem Tempo verbraucht.

Deshalb haben selbst Modelle wie GPT-5 und Claude Opus 4.7 praktische Kontextgrenzen — und deshalb sucht jeder nach Alternativen.

graph LR
    A[Eingabesequenz<br/>N Token] --> B[Softmax-Aufmerksamkeit<br/>O(N²) Speicher]
    B --> C[KV-Cache<br/>unbegrenztes Wachstum]
    C --> D[Dekodierungs-<br/>Engpass]

    A2[Eingabesequenz<br/>N Token] --> B2[Lineare Aufmerksamkeit<br/>O(N) Speicher]
    B2 --> C2[Feste Zustandsgröße<br/>konstanter Speicher]
    C2 --> D2[Effiziente<br/>Dekodierung]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

Lineare Aufmerksamkeit ist der führende Kandidat. Statt einer vollständigen N×N-Aufmerksamkeitsmatrix wird der Verlauf in einem rekurrenten Zustand fester Größe komprimiert — wie ein Notizbuch statt einer Bibliothek. Die Sequenzmischung sinkt von O(N²) auf O(N), und die Dekodierung nutzt konstanten Speicher.

Das Kernproblem: Löschen und Schreiben koppeln

Aber lineare Aufmerksamkeit führt ein subtileres Problem ein: Wie bearbeitet man einen komprimierten Speicher?

Stellen Sie sich den rekurrenten Zustand als Whiteboard vor. Jeder neue Token muss:

Veraltete Informationen löschen, die für die aktuelle Anfrage relevant sind
Neue Assoziationen schreiben

Frühere Modelle — Gated DeltaNet und Kimi Delta Attention (KDA) — verwenden ein einziges skalares Gate zur Steuerung beider Operationen. Das ist wie ein einziger Knopf für Temperatur und Wasserdruck in einer Dusche: es funktioniert, aber man kann nicht jeden Aspekt unabhängig optimieren.

Die zentrale Erkenntnis des Papers: Altes Löschen (Key-Seite) und Neues Schreiben (Value-Seite) sind grundlegend verschiedene Operationen, die keinen gemeinsamen Controller teilen sollten.

Gated DeltaNet-2: Die Lösung

Forscher von NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) stellten Gated DeltaNet-2 vor, das die Lösch- und Schreibpfade mit zwei unabhängigen kanalweisen Gates trennt:

Komponente	Symbol	Rolle
Lösch-Gate	b_t	Steuert, wie viel alter Inhalt gelöscht wird (Key-Seite)
Schreib-Gate	w_t	Steuert, wie viel neuer Inhalt gespeichert wird (Value-Seite)
Kanalweiser Zerfall	von KDA geerbt	Adaptive Vergessensrate pro Kanal

flowchart TD
    subgraph Previous["Frühere Ansätze"]
        X1[Eingabe-Token] --> G1[Einzelnes skalares Gate]
        G1 --> E1[Alten Inhalt löschen]
        G1 --> W1[Neuen Inhalt schreiben]
        E1 -.->|"gekoppelte Steuerung"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[Eingabe-Token] --> EG[Lösch-Gate b_t<br/>kanalweise]
        X2 --> WG[Schreib-Gate w_t<br/>kanalweise]
        EG --> E2[Alten Inhalt löschen<br/>Key-Seite]
        WG --> W2[Neuen Inhalt schreiben<br/>Value-Seite]
        E2 --> S[Aktualisierter Zustand]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

Generalisierungshierarchie

Gated DeltaNet-2 verallgemeinert die bisherigen Arbeiten streng:

KDA = GDN-2 wenn b_t und w_t zum gleichen Skalar kollabieren
Gated DeltaNet = KDA wenn auch der kanalweise Zerfall kollabiert
DeltaNet = die ursprüngliche Version ohne Gates

Experimentelle Ergebnisse

Mit 1,3 Mrd. Parametern, trainiert auf 100 Mrd. FineWeb-Edu-Token:

Benchmark	Mamba-2	Gated DeltaNet	KDA	Mamba-3	GDN-2
Sprachmodellierung	Basis	verbessert	verbessert	verbessert	am besten
Commonsense-Reasoning	Basis	konkurrenzfähig	konkurrenzfähig	konkurrenzfähig	am besten
Multi-Key-Suche	schwach	moderat	moderat	moderat	am stärksten

Der RULER-Benchmark

Hier glänzt GDN-2 wirklich. RULER testet die Fähigkeit, spezifische Informationen in extrem langen Kontexten zu finden — wie eine Nadel im Heuhaufen von der Größe eines Fußballfeldes.

xychart-beta
    title "Langkontext-Suchleistung (RULER)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "Genauigkeit (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

Warum das wichtig ist

Inferenzkosten: O(1) Dekodierungsspeicher = günstigere APIs für lange Konversationen
RAG: Bessere Multi-Key-Suche verbessert RAG-Systeme direkt
On-Device-KI: Feste Zustandsgröße ermöglicht leistungsfähige Modelle auf speicherbeschränkten Geräten
Wissenschaftliche Literatur: Vollständige Verarbeitung von Papers ohne Zusammenfassungstricks

Code: NVlabs/GatedDeltaNet-2 — 12.300+ Sterne

Paper: arXiv:2605.22791