Gated DeltaNet-2: Separando Borrado y Escritura en la Atención Lineal

El Cuello de Botella de la Atención

El mecanismo estándar de atención softmax que impulsa cada Transformer tiene un problema fundamental: complejidad cuadrática. Para una secuencia de longitud N, la atención calcula N×N interacciones por pares, lo que significa que procesar documentos largos consume memoria y cómputo a un ritmo insostenible.

Por eso modelos como GPT-5 y Claude Opus 4.7 tienen límites prácticos de contexto — y por eso todos compiten por encontrar alternativas.

graph LR
    A[Secuencia de entrada<br/>N tokens] --> B[Atención Softmax<br/>O(N²) memoria]
    B --> C[KV Cache<br/>crecimiento ilimitado]
    C --> D[Cuello de botella<br/>de decodificación]

    A2[Secuencia de entrada<br/>N tokens] --> B2[Atención Lineal<br/>O(N) memoria]
    B2 --> C2[Estado fijo<br/>memoria constante]
    C2 --> D2[Decodificación eficiente]

    style A fill:#ff6b6b,color:#fff
    style D fill:#ff6b6b,color:#fff
    style A2 fill:#51cf66,color:#fff
    style D2 fill:#51cf66,color:#fff

La atención lineal es el principal contendiente. En lugar de almacenar una matriz de atención N×N completa, comprime el historial en un estado recurrente de tamaño fijo — como llevar una libreta en lugar de una biblioteca. El costo de mezcla de secuencias baja de O(N²) a O(N), y la decodificación usa memoria constante.

El Problema Central: Acoplar Borrado y Escritura

Pero la atención lineal introduce un problema más sutil: ¿cómo editar una memoria comprimida?

Piensa en el estado recurrente como una pizarra. Cada nuevo token necesita:

Borrar información obsoleta relevante para la consulta actual
Escribir nuevas asociaciones en el estado

Los modelos anteriores — Gated DeltaNet y Kimi Delta Attention (KDA) — usan una única puerta escalar para controlar ambas operaciones. Es como usar una sola perilla para ajustar temperatura y presión del agua en una ducha: funciona, pero no puedes optimizar cada una independientemente.

La idea central del artículo: borrar contenido antiguo (lado key) y guardar contenido nuevo (lado value) son operaciones fundamentalmente diferentes que no deberían compartir un controlador.

Gated DeltaNet-2: La Solución

Investigadores de NVIDIA (Ali Hatamizadeh, Yejin Choi, Jan Kautz) presentaron Gated DeltaNet-2, que separa las vías de borrado y escritura con dos puertas independientes por canal:

Componente	Símbolo	Función
Puerta de borrado	b_t	Controla cuánto contenido antiguo eliminar (lado key)
Puerta de escritura	w_t	Controla cuánto contenido nuevo guardar (lado value)
Decaimiento por canal	heredado de KDA	Tasa de olvido adaptativa por canal

flowchart TD
    subgraph Previous["Enfoques Anteriores"]
        X1[Token de entrada] --> G1[Puerta escalar única]
        G1 --> E1[Borrar contenido antiguo]
        G1 --> W1[Escribir contenido nuevo]
        E1 -.->|"control acoplado"| W1
    end

    subgraph GD2["Gated DeltaNet-2"]
        X2[Token de entrada] --> EG[Puerta de borrado b_t<br/>por canal]
        X2 --> WG[Puerta de escritura w_t<br/>por canal]
        EG --> E2[Borrar contenido antiguo<br/>lado key]
        WG --> W2[Escribir contenido nuevo<br/>lado value]
        E2 --> S[Estado actualizado]
        W2 --> S
    end

    style Previous fill:#ffe0e0
    style GD2 fill:#e0ffe0

Esta separación permite al modelo mantener asociaciones antiguas mientras escribe agresivamente nuevas, o limpiar completamente el contexto obsoleto mientras actualiza ligeramente — algo imposible bajo el régimen de puerta escalar.

Jerarquía de Generalización

Gated DeltaNet-2 generaliza el trabajo previo:

KDA = GDN-2 cuando b_t y w_t colapsan al mismo escalar
Gated DeltaNet = KDA cuando el decaimiento por canal también colapsa
DeltaNet = la versión original sin puertas

Esto significa que GDN-2 puede expresar cualquier comportamiento de sus predecesores añadiendo capacidades que fundamentalmente no poseen.

Innovaciones Técnicas

Más allá de la arquitectura, el artículo introduce tres avances técnicos clave:

1. Algoritmo WY por Bloques

Entrenar en secuencias largas requiere dividir en bloques para paralelismo. El equipo derivó una formulación por bloques que absorbe el decaimiento por canal en factores de borrado asimétricos, permitiendo entrenamiento paralelo eficiente sin perder la dinámica por canal.

2. Retropropagación Consciente de Puertas

La retropropagación estándar a través de mecanismos de puerta puede ser numéricamente inestable. La retropropagación consciente de puertas preserva el flujo de gradientes a través de las puertas independientes de borrado y escritura.

3. Vista de Actualización de Pesos Rápidos

La regla de actualización se reformula como un sistema de pesos rápidos, revelando conexiones con el aprendizaje Hebbiano y el meta-aprendizaje que estaban ocultas en formulaciones anteriores.

Resultados Experimentales

Con 1.3B parámetros entrenados en 100B tokens de FineWeb-Edu, Gated DeltaNet-2 se evaluó contra:

Mamba-2
Gated DeltaNet
Kimi Delta Attention (KDA)
Variantes de Mamba-3

Prueba	Mamba-2	Gated DeltaNet	KDA	Mamba-3	GDN-2
Modelado de Lenguaje	base	mejorado	mejorado	mejorado	mejor
Razonamiento de Sentido Común	base	competitivo	competitivo	competitivo	mejor
Recuperación Multi-clave	débil	moderado	moderado	moderado	más fuerte

La Prueba Definitiva: RULER

Aquí es donde Gated DeltaNet-2 realmente brilla. La prueba RULER evalúa la capacidad de encontrar información específica en contextos extremadamente largos — como encontrar una aguja en un pajar del tamaño de un estadio.

GDN-2 logra los resultados generales más sólidos en estas tareas, con mejoras particularmente notables en recuperación multi-clave — donde el modelo debe encontrar y asociar múltiples datos dispersos.

xychart-beta
    title "Rendimiento en Recuperación de Contexto Largo (RULER)"
    x-axis ["Mamba-2", "Gated DeltaNet", "KDA", "Mamba-3", "GDN-2"]
    y-axis "Precisión (%)" 0 --> 100
    bar [62, 71, 74, 69, 88]

Por Qué Es Importante

Costos de Inferencia: Memoria O(1) en decodificación significa APIs más baratas para conversaciones largas y procesamiento de documentos
RAG: Mejor recuperación multi-clave mejora directamente los sistemas que sintetizan información de múltiples secciones de documentos
IA en Dispositivos: El estado de tamaño fijo permite ejecutar modelos capaces en dispositivos con memoria limitada
Procesamiento de Literatura Científica: Los modelos pueden procesar artículos completos, patentes o documentos legales sin trucos de resumen

Código

Repositorio open source: NVlabs/GatedDeltaNet-2 — 12,300+ estrellas. Incluye checkpoints pre-entrenados, scripts de entrenamiento y código de evaluación.

Paper: arXiv:2605.22791