Gated DeltaNet-2: Separando Borrado y Escritura en la Atención Lineal
El Cuello de Botella de la Atención
El mecanismo estándar de atención softmax que impulsa cada Transformer tiene un problema fundamental: complejidad cuadrática. Para una secuencia de longitud N, la atención calcula N×N interacciones por pares, lo que significa que procesar documentos largos consume memoria y cómputo a un ritmo insostenible.
Por eso modelos como GPT-5 y Claude Opus 4.7 tienen límites prácticos de contexto — y por eso todos compiten por encontrar alternativas.
graph LR
A[Secuencia de entrada<br/>N tokens] --> B[Atención Softmax<br/>O(N²) memoria]
B --> C[KV Cache<br/>crecimiento ilimitado]
C --> D[Cuello de botella<br/>de decodificación]
A2[Secuencia de entrada<br/>N tokens] --> B2[Atención Lineal<br/>O(N) memoria]
B2 --> C2[Estado fijo<br/>memoria constante]
C2 --> D2[Decodificación eficiente]
style A fill:#ff6b6b,color:#fff
style D fill:#ff6b6b,color:#fff
style A2 fill:#51cf66,color:#fff
style D2 fill:#51cf66,color:#fff
La atención lineal es el principal contendiente. En lugar de almacenar una matriz de atención N×N completa, comprime el historial en un estado recurrente de tamaño fijo — como llevar una libreta en lugar de una biblioteca. El costo de mezcla de secuencias baja de O(N²) a O(N), y la decodificación usa memoria constante.
El Problema Central: Acoplar Borrado y Escritura
Pero la atención lineal introduce un problema más sutil: ¿cómo editar una memoria comprimida?
Piensa en el estado recurrente como una pizarra. Cada nuevo token necesita:
- Borrar información obsoleta relevante para la consulta actual
- Escribir nuevas asociaciones en el estado
Los modelos anteriores — Gated DeltaNet y Kimi Delta Attention (KDA) — usan una única puerta escalar para controlar ambas operaciones. Es como usar una sola perilla para ajustar temperatura y presión del agua en una ducha: funciona, pero no puedes optimizar cada una independientemente.
La idea central del artículo: borrar contenido antiguo (lado key) y guardar contenido nuevo (lado value) son operaciones fundamentalmente diferentes que no deberían compartir un controlador.
Gated DeltaNet-2: La Solución
Investigadores de NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) presentaron Gated DeltaNet-2, que separa las vías de borrado y escritura con dos puertas independientes por canal:
| Componente | Símbolo | Función |
|---|---|---|
| Puerta de borrado | b_t | Controla cuánto contenido antiguo eliminar (lado key) |
| Puerta de escritura | w_t | Controla cuánto contenido nuevo guardar (lado value) |
| Decaimiento por canal | heredado de KDA | Tasa de olvido adaptativa por canal |
flowchart TD
subgraph Previous["Enfoques Anteriores"]
X1[Token de entrada] --> G1[Puerta escalar única]
G1 --> E1[Borrar contenido antiguo]
G1 --> W1[Escribir contenido nuevo]
E1 -.->|"control acoplado"| W1
end
subgraph GD2["Gated DeltaNet-2"]
X2[Token de entrada] --> EG[Puerta de borrado b_t<br/>por canal]
X2 --> WG[Puerta de escritura w_t<br/>por canal]
EG --> E2[Borrar contenido antiguo<br/>lado key]
WG --> W2[Escribir contenido nuevo<br/>lado value]
E2 --> S[Estado actualizado]
W2 --> S
end
style Previous fill:#ffe0e0
style GD2 fill:#e0ffe0
Esta separación permite al modelo mantener asociaciones antiguas mientras escribe agresivamente nuevas, o limpiar completamente el contexto obsoleto mientras actualiza ligeramente — algo imposible bajo el régimen de puerta escalar.
Jerarquía de Generalización
Gated DeltaNet-2 generaliza el trabajo previo:
- KDA = GDN-2 cuando b_t y w_t colapsan al mismo escalar
- Gated DeltaNet = KDA cuando el decaimiento por canal también colapsa
- DeltaNet = la versión original sin puertas
Esto significa que GDN-2 puede expresar cualquier comportamiento de sus predecesores añadiendo capacidades que fundamentalmente no poseen.
Innovaciones Técnicas
Más allá de la arquitectura, el artículo introduce tres avances técnicos clave:
1. Algoritmo WY por Bloques
Entrenar en secuencias largas requiere dividir en bloques para paralelismo. El equipo derivó una formulación por bloques que absorbe el decaimiento por canal en factores de borrado asimétricos, permitiendo entrenamiento paralelo eficiente sin perder la dinámica por canal.
2. Retropropagación Consciente de Puertas
La retropropagación estándar a través de mecanismos de puerta puede ser numéricamente inestable. La retropropagación consciente de puertas preserva el flujo de gradientes a través de las puertas independientes de borrado y escritura.
3. Vista de Actualización de Pesos Rápidos
La regla de actualización se reformula como un sistema de pesos rápidos, revelando conexiones con el aprendizaje Hebbiano y el meta-aprendizaje que estaban ocultas en formulaciones anteriores.
Resultados Experimentales
Con 1.3B parámetros entrenados en 100B tokens de FineWeb-Edu, Gated DeltaNet-2 se evaluó contra:
- Mamba-2
- Gated DeltaNet
- Kimi Delta Attention (KDA)
- Variantes de Mamba-3
| Prueba | Mamba-2 | Gated DeltaNet | KDA | Mamba-3 | GDN-2 |
|---|---|---|---|---|---|
| Modelado de Lenguaje | base | mejorado | mejorado | mejorado | mejor |
| Razonamiento de Sentido Común | base | competitivo | competitivo | competitivo | mejor |
| Recuperación Multi-clave | débil | moderado | moderado | moderado | más fuerte |
La Prueba Definitiva: RULER
Aquí es donde Gated DeltaNet-2 realmente brilla. La prueba RULER evalúa la capacidad de encontrar información específica en contextos extremadamente largos — como encontrar una aguja en un pajar del tamaño de un estadio.
GDN-2 logra los resultados generales más sólidos en estas tareas, con mejoras particularmente notables en recuperación multi-clave — donde el modelo debe encontrar y asociar múltiples datos dispersos.
xychart-beta
title "Rendimiento en Recuperación de Contexto Largo (RULER)"
x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
y-axis "Precisión (%)" 0 --> 100
bar [62, 71, 74, 69, 88]
Por Qué Es Importante
- Costos de Inferencia: Memoria O(1) en decodificación significa APIs más baratas para conversaciones largas y procesamiento de documentos
- RAG: Mejor recuperación multi-clave mejora directamente los sistemas que sintetizan información de múltiples secciones de documentos
- IA en Dispositivos: El estado de tamaño fijo permite ejecutar modelos capaces en dispositivos con memoria limitada
- Procesamiento de Literatura Científica: Los modelos pueden procesar artículos completos, patentes o documentos legales sin trucos de resumen
Código
Repositorio open source: NVlabs/GatedDeltaNet-2 — 12,300+ estrellas. Incluye checkpoints pre-entrenados, scripts de entrenamiento y código de evaluación.
Paper: arXiv:2605.22791