needhelp
← Zurück zum Blog

Gated DeltaNet-2: Löschen und Schreiben in der linearen Aufmerksamkeit entkoppeln

von needhelp
attention-mechanism
linear-attention
transformer
llm
long-context
deep-learning

Der Aufmerksamkeits-Engpass

Der standardmäßige Softmax-Aufmerksamkeitsmechanismus, der jeden Transformer antreibt, hat ein grundlegendes Problem: quadratische Komplexität. Für eine Sequenz der Länge N berechnet die Aufmerksamkeit N×N paarweise Interaktionen, was bedeutet, dass die Verarbeitung langer Dokumente Speicher und Rechenleistung in nicht nachhaltigem Tempo verbraucht.

Deshalb haben selbst Modelle wie GPT-5 und Claude Opus 4.7 praktische Kontextgrenzen — und deshalb sucht jeder nach Alternativen.

graph LR
    A[Eingabesequenz<br/>N Token] --> B[Softmax-Aufmerksamkeit<br/>O(N²) Speicher]
    B --> C[KV-Cache<br/>unbegrenztes Wachstum]
    C --> D[Dekodierungs-<br/>Engpass]

    A2[Eingabesequenz<br/>N Token] --> B2[Lineare Aufmerksamkeit<br/>O(N) Speicher]
    B2 --> C2[Feste Zustandsgröße<br/>konstanter Speicher]
    C2 --> D2[Effiziente<br/>Dekodierung]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

Lineare Aufmerksamkeit ist der führende Kandidat. Statt einer vollständigen N×N-Aufmerksamkeitsmatrix wird der Verlauf in einem rekurrenten Zustand fester Größe komprimiert — wie ein Notizbuch statt einer Bibliothek. Die Sequenzmischung sinkt von O(N²) auf O(N), und die Dekodierung nutzt konstanten Speicher.

Das Kernproblem: Löschen und Schreiben koppeln

Aber lineare Aufmerksamkeit führt ein subtileres Problem ein: Wie bearbeitet man einen komprimierten Speicher?

Stellen Sie sich den rekurrenten Zustand als Whiteboard vor. Jeder neue Token muss:

  1. Veraltete Informationen löschen, die für die aktuelle Anfrage relevant sind
  2. Neue Assoziationen schreiben

Frühere Modelle — Gated DeltaNet und Kimi Delta Attention (KDA) — verwenden ein einziges skalares Gate zur Steuerung beider Operationen. Das ist wie ein einziger Knopf für Temperatur und Wasserdruck in einer Dusche: es funktioniert, aber man kann nicht jeden Aspekt unabhängig optimieren.

Die zentrale Erkenntnis des Papers: Altes Löschen (Key-Seite) und Neues Schreiben (Value-Seite) sind grundlegend verschiedene Operationen, die keinen gemeinsamen Controller teilen sollten.

Gated DeltaNet-2: Die Lösung

Forscher von NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) stellten Gated DeltaNet-2 vor, das die Lösch- und Schreibpfade mit zwei unabhängigen kanalweisen Gates trennt:

KomponenteSymbolRolle
Lösch-Gateb_tSteuert, wie viel alter Inhalt gelöscht wird (Key-Seite)
Schreib-Gatew_tSteuert, wie viel neuer Inhalt gespeichert wird (Value-Seite)
Kanalweiser Zerfallvon KDA geerbtAdaptive Vergessensrate pro Kanal
flowchart TD
    subgraph Previous["Frühere Ansätze"]
        X1[Eingabe-Token] --> G1[Einzelnes skalares Gate]
        G1 --> E1[Alten Inhalt löschen]
        G1 --> W1[Neuen Inhalt schreiben]
        E1 -.->|"gekoppelte Steuerung"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[Eingabe-Token] --> EG[Lösch-Gate b_t<br/>kanalweise]
        X2 --> WG[Schreib-Gate w_t<br/>kanalweise]
        EG --> E2[Alten Inhalt löschen<br/>Key-Seite]
        WG --> W2[Neuen Inhalt schreiben<br/>Value-Seite]
        E2 --> S[Aktualisierter Zustand]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

Generalisierungshierarchie

Gated DeltaNet-2 verallgemeinert die bisherigen Arbeiten streng:

  • KDA = GDN-2 wenn b_t und w_t zum gleichen Skalar kollabieren
  • Gated DeltaNet = KDA wenn auch der kanalweise Zerfall kollabiert
  • DeltaNet = die ursprüngliche Version ohne Gates

Experimentelle Ergebnisse

Mit 1,3 Mrd. Parametern, trainiert auf 100 Mrd. FineWeb-Edu-Token:

BenchmarkMamba-2Gated DeltaNetKDAMamba-3GDN-2
SprachmodellierungBasisverbessertverbessertverbessertam besten
Commonsense-ReasoningBasiskonkurrenzfähigkonkurrenzfähigkonkurrenzfähigam besten
Multi-Key-Sucheschwachmoderatmoderatmoderatam stärksten

Der RULER-Benchmark

Hier glänzt GDN-2 wirklich. RULER testet die Fähigkeit, spezifische Informationen in extrem langen Kontexten zu finden — wie eine Nadel im Heuhaufen von der Größe eines Fußballfeldes.

xychart-beta
    title "Langkontext-Suchleistung (RULER)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "Genauigkeit (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

Warum das wichtig ist

  1. Inferenzkosten: O(1) Dekodierungsspeicher = günstigere APIs für lange Konversationen
  2. RAG: Bessere Multi-Key-Suche verbessert RAG-Systeme direkt
  3. On-Device-KI: Feste Zustandsgröße ermöglicht leistungsfähige Modelle auf speicherbeschränkten Geräten
  4. Wissenschaftliche Literatur: Vollständige Verarbeitung von Papers ohne Zusammenfassungstricks

Code: NVlabs/GatedDeltaNet-212.300+ Sterne

Paper: arXiv:2605.22791

Diese Seite teilen