needhelp
← Retour au blog

Gated DeltaNet-2 : Dissocier l'Effacement et l'Écriture dans l'Attention Linéaire

par needhelp
attention-mechanism
linear-attention
transformer
llm
long-context
deep-learning

Le Goulot d’Étranglement de l’Attention

Le mécanisme standard d’attention softmax qui alimente chaque Transformer a un problème fondamental : une complexité quadratique. Pour une séquence de longueur N, l’attention calcule N×N interactions par paires, ce qui signifie que le traitement de longs documents consomme mémoire et calcul à un rythme insoutenable.

C’est pourquoi des modèles comme GPT-5 et Claude Opus 4.7 ont des limites pratiques de contexte — et pourquoi tout le monde cherche des alternatives.

graph LR
    A[Séquence d'entrée<br/>N tokens] --> B[Attention Softmax<br/>O(N²) mémoire]
    B --> C[Cache KV<br/>croissance illimitée]
    C --> D[Goulot<br/>de décodage]

    A2[Séquence d'entrée<br/>N tokens] --> B2[Attention Linéaire<br/>O(N) mémoire]
    B2 --> C2[État de taille fixe<br/>mémoire constante]
    C2 --> D2[Décodage efficace]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

L’attention linéaire est le principal concurrent. Au lieu de stocker une matrice d’attention N×N complète, elle compresse l’historique dans un état récurrent de taille fixe — comme transporter un carnet au lieu d’une bibliothèque. Le coût de mélange de séquences passe de O(N²) à O(N), et le décodage utilise une mémoire constante.

Le Problème Central : Lier Effacement et Écriture

Mais l’attention linéaire introduit un problème plus subtil : comment éditer une mémoire compressée ?

Pensez à l’état récurrent comme à un tableau blanc. Chaque nouveau token doit :

  1. Effacer les informations obsolètes pertinentes à la requête actuelle
  2. Écrire de nouvelles associations dans l’état

Les modèles précédents — Gated DeltaNet et Kimi Delta Attention (KDA) — utilisent une seule porte scalaire pour contrôler les deux opérations. C’est comme utiliser un seul bouton pour régler la température et la pression de l’eau dans une douche : ça fonctionne, mais on ne peut pas optimiser chaque aspect indépendamment.

L’intuition centrale de l’article : effacer l’ancien contenu (côté clé) et enregistrer le nouveau contenu (côté valeur) sont des opérations fondamentalement différentes qui ne devraient pas partager un contrôleur.

Gated DeltaNet-2 : La Solution

Des chercheurs de NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) ont présenté Gated DeltaNet-2, qui sépare les voies d’effacement et d’écriture avec deux portes indépendantes par canal :

ComposantSymboleRôle
Porte d’effacementb_tContrôle la quantité d’ancien contenu à supprimer (côté clé)
Porte d’écriturew_tContrôle la quantité de nouveau contenu à enregistrer (côté valeur)
Décroissance par canalhéritée de KDATaux d’oubli adaptatif par canal
flowchart TD
    subgraph Previous["Approches Précédentes"]
        X1[Token d'entrée] --> G1[Porte scalaire unique]
        G1 --> E1[Effacer l'ancien contenu]
        G1 --> W1[Écrire le nouveau contenu]
        E1 -.->|"contrôle lié"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[Token d'entrée] --> EG[Porte d'effacement b_t<br/>par canal]
        X2 --> WG[Porte d'écriture w_t<br/>par canal]
        EG --> E2[Effacer l'ancien contenu<br/>côté clé]
        WG --> W2[Écrire le nouveau contenu<br/>côté valeur]
        E2 --> S[État mis à jour]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

Hiérarchie de Généralisation

Gated DeltaNet-2 généralise strictement les travaux antérieurs :

  • KDA = GDN-2 quand b_t et w_t se réduisent au même scalaire
  • Gated DeltaNet = KDA quand la décroissance par canal se réduit également
  • DeltaNet = la version originale sans portes

Résultats Expérimentaux

Avec 1,3 milliard de paramètres entraînés sur 100 milliards de tokens FineWeb-Edu :

BenchmarkMamba-2Gated DeltaNetKDAMamba-3GDN-2
Modélisation du langagebaseamélioréamélioréaméliorémeilleur
Raisonnement de bon sensbasecompétitifcompétitifcompétitifmeilleur
Recherche multi-cléfaiblemodérémodérémodéréle plus fort

Le Benchmark RULER

C’est là que GDN-2 brille vraiment. RULER teste la capacité à trouver des informations spécifiques dans des contextes extrêmement longs — comme trouver une aiguille dans une botte de foin de la taille d’un terrain de football.

xychart-beta
    title "Performance de Recherche Longue Distance (RULER)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "Précision (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

Pourquoi C’est Important

  1. Coûts d’inférence : Mémoire O(1) en décodage = APIs moins chères
  2. RAG : Une meilleure recherche multi-clé améliore directement les systèmes de synthèse documentaire
  3. IA embarquée : Un état de taille fixe permet d’exécuter des modèles performants sur des appareils à mémoire limitée
  4. Littérature scientifique : Traitement de documents entiers sans astuces de résumé

Code : NVlabs/GatedDeltaNet-212 300+ étoiles

Article : arXiv:2605.22791

Partager cette page