Gated DeltaNet-2 : Dissocier l'Effacement et l'Écriture dans l'Attention Linéaire

Le Goulot d’Étranglement de l’Attention

Le mécanisme standard d’attention softmax qui alimente chaque Transformer à un problème fondamental : une complexité quadratique. Pour une séquence de longueur N, l’attention calcule N×N interactions par paires, ce qui signifie que le traitement de longs documents consomme mémoire et calcul à un rythme insoutenable.

C’est pourquoi des modèles comme GPT-5 et Claude Opus 4.7 ont des limites pratiques de contexte — et pourquoi tout le monde cherche des alternatives.

graph LR
    A[Séquence d'entrée
N tokens] --> B[Attention Softmax
O(N²) mémoire]
    B --> C[Cache KV
croissance illimitée]
    C --> D[Goulot
de décodage]

    A2[Séquence d'entrée
N tokens] --> B2[Attention Linéaire
O(N) mémoire]
    B2 --> C2[État de taille fixe
mémoire constante]
    C2 --> D2[Décodage efficace]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

L’attention linéaire est le principal concurrent. Au lieu de stocker une matrice d’attention N×N complète, elle compresse l’historique dans un état récurrent de taille fixe — comme transporter un carnet au lieu d’une bibliothèque. Le coût de mélange de séquences passe de O(N²) à O(N), et le décodage utilise une mémoire constante.

Le Problème Central : Lier Effacement et Écriture

Mais l’attention linéaire introduit un problème plus subtil : comment éditer une mémoire compressée ?

Pensez à l’état récurrent comme à un tableau blanc. Chaque nouveau token doit :

Effacer les informations obsolètes pertinentes à la requête actuelle
Écrire de nouvelles associations dans l’état

Les modèles précédents — Gated DeltaNet et Kimi Delta Attention (KDA) — utilisent une seule porte scalaire pour contrôler les deux opérations. C’est comme utiliser un seul bouton pour régler la température et la pression de l’eau dans une douche : ça fonctionne, mais on ne peut pas optimiser chaque aspect indépendamment.

L’intuition centrale de l’article : effacer l’ancien contenu (côté clé) et enregistrer le nouveau contenu (côté valeur) sont des opérations fondamentalement différentes qui ne devraient pas partager un contrôleur.

Gated DeltaNet-2 : La Solution

Des chercheurs de NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) ont présenté Gated DeltaNet-2, qui sépare les voies d’effacement et d’écriture avec deux portes indépendantes par canal :

Composant	Symbole	Rôle
Porte d’effacement	b_t	Contrôle la quantité d’ancien contenu à supprimer (côté clé)
Porte d’écriture	w_t	Contrôle la quantité de nouveau contenu à enregistrer (côté valeur)
Décroissance par canal	héritée de KDA	Taux d’oubli adaptatif par canal

flowchart TD
    subgraph Previous["Approches Précédentes"]
        X1[Token d'entrée] --> G1[Porte scalaire unique]
        G1 --> E1[Effacer l'ancien contenu]
        G1 --> W1[Écrire le nouveau contenu]
        E1 -.->|"contrôle lié"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[Token d'entrée] --> EG[Porte d'effacement b_t
par canal]
        X2 --> WG[Porte d'écriture w_t
par canal]
        EG --> E2[Effacer l'ancien contenu
côté clé]
        WG --> W2[Écrire le nouveau contenu
côté valeur]
        E2 --> S[État mis à jour]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

Hiérarchie de Généralisation

Gated DeltaNet-2 généralise strictement les travaux antérieurs :

KDA = GDN-2 quand b_t et w_t se réduisent au même scalaire
Gated DeltaNet = KDA quand la décroissance par canal se réduit également
DeltaNet = la version originale sans portes

Résultats Expérimentaux

Avec 1,3 milliard de paramètrès entraînés sur 100 milliards de tokens FineWeb-Edu :

Benchmark	Mamba-2	Gated DeltaNet	KDA	Mamba-3	GDN-2
Modélisation du langage	base	amélioré	amélioré	amélioré	meilleur
Raisonnement de bon sens	base	compétitif	compétitif	compétitif	meilleur
Recherche multi-clé	faible	modéré	modéré	modéré	le plus fort

Le Benchmark RULER

C’est là que GDN-2 brille vraiment. RULER teste la capacité à trouver des informations spécifiques dans des contextes extrêmement longs — comme trouver une aiguille dans une botte de foin de la taille d’un terrain de football.

xychart-beta
    title "Performance de Recherche Longue Distance (RULER)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "Précision (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

Pourquoi C’est Important

Coûts d’inférence : Mémoire O(1) en décodage = APIs moins chères
RAG : Une meilleure recherche multi-clé améliore directement les systèmes de synthèse documentaire
IA embarquée : Un état de taille fixe permet d’exécuter des modèles performants sur des appareils à mémoire limitée
Littérature scientifique : Traitement de documents entiers sans astuces de résumé

Code : NVlabs/GatedDeltaNet-2 — 12 300+ étoiles

Article : arXiv:2605.22791