Gated DeltaNet-2 : Dissocier l'Effacement et l'Écriture dans l'Attention Linéaire
Le Goulot d’Étranglement de l’Attention
Le mécanisme standard d’attention softmax qui alimente chaque Transformer a un problème fondamental : une complexité quadratique. Pour une séquence de longueur N, l’attention calcule N×N interactions par paires, ce qui signifie que le traitement de longs documents consomme mémoire et calcul à un rythme insoutenable.
C’est pourquoi des modèles comme GPT-5 et Claude Opus 4.7 ont des limites pratiques de contexte — et pourquoi tout le monde cherche des alternatives.
graph LR
A[Séquence d'entrée<br/>N tokens] --> B[Attention Softmax<br/>O(N²) mémoire]
B --> C[Cache KV<br/>croissance illimitée]
C --> D[Goulot<br/>de décodage]
A2[Séquence d'entrée<br/>N tokens] --> B2[Attention Linéaire<br/>O(N) mémoire]
B2 --> C2[État de taille fixe<br/>mémoire constante]
C2 --> D2[Décodage efficace]
style A fill:#ff6b6b,color:#fff
style D fill:#ff6b6b,color:#fff
style A2 fill:#51cf66,color:#fff
style D2 fill:#51cf66,color:#fff
L’attention linéaire est le principal concurrent. Au lieu de stocker une matrice d’attention N×N complète, elle compresse l’historique dans un état récurrent de taille fixe — comme transporter un carnet au lieu d’une bibliothèque. Le coût de mélange de séquences passe de O(N²) à O(N), et le décodage utilise une mémoire constante.
Le Problème Central : Lier Effacement et Écriture
Mais l’attention linéaire introduit un problème plus subtil : comment éditer une mémoire compressée ?
Pensez à l’état récurrent comme à un tableau blanc. Chaque nouveau token doit :
- Effacer les informations obsolètes pertinentes à la requête actuelle
- Écrire de nouvelles associations dans l’état
Les modèles précédents — Gated DeltaNet et Kimi Delta Attention (KDA) — utilisent une seule porte scalaire pour contrôler les deux opérations. C’est comme utiliser un seul bouton pour régler la température et la pression de l’eau dans une douche : ça fonctionne, mais on ne peut pas optimiser chaque aspect indépendamment.
L’intuition centrale de l’article : effacer l’ancien contenu (côté clé) et enregistrer le nouveau contenu (côté valeur) sont des opérations fondamentalement différentes qui ne devraient pas partager un contrôleur.
Gated DeltaNet-2 : La Solution
Des chercheurs de NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) ont présenté Gated DeltaNet-2, qui sépare les voies d’effacement et d’écriture avec deux portes indépendantes par canal :
| Composant | Symbole | Rôle |
|---|---|---|
| Porte d’effacement | b_t | Contrôle la quantité d’ancien contenu à supprimer (côté clé) |
| Porte d’écriture | w_t | Contrôle la quantité de nouveau contenu à enregistrer (côté valeur) |
| Décroissance par canal | héritée de KDA | Taux d’oubli adaptatif par canal |
flowchart TD
subgraph Previous["Approches Précédentes"]
X1[Token d'entrée] --> G1[Porte scalaire unique]
G1 --> E1[Effacer l'ancien contenu]
G1 --> W1[Écrire le nouveau contenu]
E1 -.->|"contrôle lié"| W1
end
subgraph GD2["Gated DeltaNet-2"]
X2[Token d'entrée] --> EG[Porte d'effacement b_t<br/>par canal]
X2 --> WG[Porte d'écriture w_t<br/>par canal]
EG --> E2[Effacer l'ancien contenu<br/>côté clé]
WG --> W2[Écrire le nouveau contenu<br/>côté valeur]
E2 --> S[État mis à jour]
W2 --> S
end
style Previous fill:#ffe0e0
style GD2 fill:#e0ffe0
Hiérarchie de Généralisation
Gated DeltaNet-2 généralise strictement les travaux antérieurs :
- KDA = GDN-2 quand b_t et w_t se réduisent au même scalaire
- Gated DeltaNet = KDA quand la décroissance par canal se réduit également
- DeltaNet = la version originale sans portes
Résultats Expérimentaux
Avec 1,3 milliard de paramètres entraînés sur 100 milliards de tokens FineWeb-Edu :
| Benchmark | Mamba-2 | Gated DeltaNet | KDA | Mamba-3 | GDN-2 |
|---|---|---|---|---|---|
| Modélisation du langage | base | amélioré | amélioré | amélioré | meilleur |
| Raisonnement de bon sens | base | compétitif | compétitif | compétitif | meilleur |
| Recherche multi-clé | faible | modéré | modéré | modéré | le plus fort |
Le Benchmark RULER
C’est là que GDN-2 brille vraiment. RULER teste la capacité à trouver des informations spécifiques dans des contextes extrêmement longs — comme trouver une aiguille dans une botte de foin de la taille d’un terrain de football.
xychart-beta
title "Performance de Recherche Longue Distance (RULER)"
x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
y-axis "Précision (%)" 0 --> 100
bar [62, 71, 74, 69, 88]
Pourquoi C’est Important
- Coûts d’inférence : Mémoire O(1) en décodage = APIs moins chères
- RAG : Une meilleure recherche multi-clé améliore directement les systèmes de synthèse documentaire
- IA embarquée : Un état de taille fixe permet d’exécuter des modèles performants sur des appareils à mémoire limitée
- Littérature scientifique : Traitement de documents entiers sans astuces de résumé
Code : NVlabs/GatedDeltaNet-2 — 12 300+ étoiles
Article : arXiv:2605.22791