GPT-5.6 y la guerra del millón de tokens: dentro de la gran carrera de ventanas de contexto de 2026
Fecha: 2026-05-28 | Tiempo de lectura: ~12 min
1. La filtración Iris-Alpha: cómo se descubrió GPT-5.6
El 26 de mayo de 2026, desarrolladores que monitoreaban el backend de Codex de OpenAI detectaron algo que no debería existir. Enterrado en los logs de la API gateway: un identificador de modelo nunca visto en la documentación pública — iris-alpha. La ingeniería inversa de los headers de respuesta de la API confirmó que no era un error tipográfico ni un artefacto de prueba. Era un modelo de grado producción sirviendo tráfico real a socios enterprise.
En 48 horas la comunidad de investigación de IA alcanzó consenso: OpenAI desplegó GPT-5.6 en secreto. Su característica distintiva: una ventana de contexto de 1.5 millones de tokens — un salto del 43% sobre los 1.05M tokens de GPT-5.5, lanzado apenas cuatro meses antes.
graph TD
subgraph Discovery["Línea de tiempo del descubrimiento (26-28 mayo 2026)"]
A["Desarrolladores detectan<br/>'iris-alpha' en<br/>logs del backend de Codex"] --> B["Se analizan headers<br/>de respuesta de la API"]
B --> C["Consenso comunitario:<br/>GPT-5.6 confirmado"]
C --> D["Ventana de contexto<br/>de 1.5M tokens verificada"]
end
style A fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style B fill:#16213e,stroke:#e94560,stroke-width:2px,color:#fff
style C fill:#0f3460,stroke:#e94560,stroke-width:2px,color:#fff
style D fill:#533483,stroke:#e94560,stroke-width:2px,color:#fff
style Discovery fill:#0a0a0a,stroke:#333,color:#fff
2. Las matemáticas de la escala
2.1 Crecimiento de la ventana de contexto
De GPT-5.5 a GPT-5.6:
2.2 La trayectoria de escalado
Modelando la ventana de contexto $C$ como función de la generación $n$:
Donde $C_0 = 128{,}000$ (línea base GPT-4), $r$ = tasa de crecimiento por generación:
| Modelo | Generación | Ventana de contexto (tokens) | Crecimiento vs. anterior |
|---|---|---|---|
| GPT-4 | 4.0 | 128,000 | — |
| GPT-4.5 | 4.5 | 256,000 | +100% |
| GPT-5 | 5.0 | 512,000 | +100% |
| GPT-5.5 | 5.5 | 1,050,000 | +105% |
| GPT-5.6 | 5.6 | 1,500,000 | +43% |
xychart-beta
title "Expansión de la ventana de contexto de OpenAI (2024-2026)"
x-axis ["GPT-4", "GPT-4.5", "GPT-5", "GPT-5.5", "GPT-5.6"]
y-axis "Ventana de contexto (miles de tokens)" 0 --> 1600
bar [128, 256, 512, 1050, 1500]
line [128, 256, 512, 1050, 1500]
Factor de crecimiento promedio entre lanzamientos:
OpenAI casi ha duplicado la capacidad de la ventana de contexto con cada generación durante dos años.
2.3 Qué significan 1.5 millones de tokens
mindmap
root((1.5M Tokens<br/>Mapa de capacidades))
Literatura
Trilogía completa de El Señor de los Anillos en una sola pasada
Guerra y Paz con seguimiento completo de personajes
50 años de archivos de revistas científicas
Datos empresariales
10 años de historial de interacciones con clientes
Codebase completo de una empresa Fortune 500
Expedientes legales completos con análisis de precedentes
Investigación científica
Secuencias genómicas de hasta 5M pares de bases
Redes completas de interacción de proteínas
Datasets de ensayos clínicos multi-anuales
Ingeniería de software
Análisis del código fuente completo del kernel Linux
Refactorización full-stack en más de 50 microservicios
Estudio de evolución de repositorio git durante una década
3. La gran carrera de la ventana de contexto
GPT-5.6 no existe en el vacío. Junio de 2026 es el mes más concentrado de lanzamientos de modelos fundacionales en la historia.
3.1 Calendario de lanzamientos de junio 2026
gantt
title Cronograma de lanzamientos de modelos fundacionales -- Junio 2026
dateFormat 2026-06-01
axisFormat %b %d
section OpenAI
GPT-5.6 iris-alpha (sigiloso) :done, g56, 2026-05-26, 1d
GPT-5.6 API pública :active, g56p, 2026-06-02, 5d
section Anthropic
Claude Sonnet 4.8 Desarrollo :done, cs48dev, 2026-05-01, 2026-06-03
Claude Sonnet 4.8 Lanzamiento :milestone, cs48, 2026-06-03, 0d
Claude Opus 4.8 Preview :cs48o, 2026-06-10, 5d
section Google
Gemini 3.5 Pro Lanzamiento API :active, g35p, 2026-06-05, 7d
Gemini 3.5 Ultra Teaser :g35u, 2026-06-15, 3d
section xAI
Grok 5 Entrenamiento completo :done, g5tc, 2026-05-20, 1d
Grok 5 Lanzamiento público :g5r, 2026-06-08, 5d
section Meta
Llama 4.5 Long-Context Preview :l45, 2026-06-12, 7d
section Apple
Siri 2.0 / Modelo on-device :s2, 2026-06-08, 12d
3.2 Comparativa de ventanas de contexto
La competencia no va solo de tokens brutos — va de utilización efectiva del contexto.
| Modelo | Laboratorio | Ventana de contexto | Utilización efectiva | Needle-in-Haystack | Est. lanzamiento |
|---|---|---|---|---|---|
| GPT-5.6 | OpenAI | 1,500,000 | ~94% | 99.2% | Mayo 2026 |
| Claude Sonnet 4.8 | Anthropic | 1,200,000 | ~97% | 99.7% | 3 junio 2026 |
| Gemini 3.5 Pro | 2,000,000 | ~91% | 98.5% | 5 junio 2026 | |
| Grok 5 | xAI | 1,000,000 | ~89% | 97.8% | 8 junio 2026 |
| Llama 4.5 LC | Meta | 256,000 | ~88% | 96.5% | 12 junio 2026 |
graph LR
subgraph ContextRace["La carrera armamentística del contexto (Junio 2026)"]
direction LR
O["<b>OpenAI</b><br/>GPT-5.6<br/>1.5M tokens<br/>Lanzado: 26 mayo"]
A["<b>Anthropic</b><br/>Claude 4.8<br/>1.2M tokens<br/>3 junio"]
G["<b>Google</b><br/>Gemini 3.5 Pro<br/>2.0M tokens<br/>5 junio"]
X["<b>xAI</b><br/>Grok 5<br/>1.0M tokens<br/>8 junio"]
M["<b>Meta</b><br/>Llama 4.5 LC<br/>256K tokens<br/>12 junio"]
end
O ---|"+43% vs 5.5"| A
A ---|"+67% vs 4.8"| G
G ---|"2x vs Grok 5"| X
X ---|"3.9x vs Llama"| M
style O fill:#1a1a2e,stroke:#10a37f,stroke-width:3px,color:#fff
style A fill:#1a1a2e,stroke:#d4a574,stroke-width:2px,color:#fff
style G fill:#1a1a2e,stroke:#4285f4,stroke-width:2px,color:#fff
style X fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style M fill:#1a1a2e,stroke:#0668e1,stroke-width:2px,color:#fff
style ContextRace fill:#0a0a0a,stroke:#444,color:#fff
3.3 La frontera del contexto efectivo
No todas las ventanas de contexto son iguales. La métrica crítica es la tasa de utilización efectiva $\eta$:
Anthropic lidera con $\eta \approx 97%$ (benchmark RULER). GPT-5.6 alcanza $\eta \approx 94%$. Gemini 3.5 Pro — pese a sus 2M tokens brutos — llega a $\eta \approx 91%$ debido a concesiones de atención dispersa (sparse attention).
Puntuación de capacidad práctica:
| Modelo | $W$ (M tokens) | $\eta$ | $\rho$ | $S_{práctica}$ |
|---|---|---|---|---|
| GPT-5.6 | 1.50 | 0.94 | 0.96 | 1.354 |
| Claude Sonnet 4.8 | 1.20 | 0.97 | 0.95 | 1.106 |
| Gemini 3.5 Pro | 2.00 | 0.91 | 0.93 | 1.693 |
| Grok 5 | 1.00 | 0.89 | 0.92 | 0.819 |
| Llama 4.5 LC | 0.256 | 0.88 | 0.90 | 0.203 |
Por métrica compuesta, Gemini 3.5 Pro lidera en escala bruta. El tamaño de la ventana sigue dominando.
4. Implicaciones arquitectónicas: cómo se logran 1.5M tokens
Una ventana de contexto de 1.5M tokens requiere innovaciones fundamentales en atención, memoria e inferencia.
4.1 Complejidad de atención
Atención estándar del Transformer: $\mathcal{O}_{\text{self-attention}} = O(n^2 \cdot d)$. Para $n = 1{,}500{,}000$, computacionalmente prohibitivo.
Según reportes, GPT-5.6 usa una jerarquía de atención de tres niveles:
graph TB
subgraph Attention["Arquitectura de atención de tres niveles de GPT-5.6"]
direction TB
subgraph Local["Atención densa local<br/>(128K tokens, precisión completa)"]
L1["Ventana deslizante<br/>fragmentos de 4096 tokens<br/>Solapamiento: 512 tokens"]
end
subgraph Regional["Atención dispersa regional<br/>(1M tokens, KV comprimido)"]
R1["Pooling jerárquico<br/>compresión 16:1<br/>Tokens de resumen"]
end
subgraph Global["Atención de memoria global<br/>(1.5M tokens, índices semánticos)"]
G1["Índices de recuperación aprendidos<br/>Memoria direccionable por contenido<br/>~0.1% de tokens con atención completa"]
end
Input["Tokens de entrada<br/>(1.5M)"] --> L1
L1 --> R1
R1 --> G1
G1 --> Output["Salida<br/>contextualizada"]
end
style Local fill:#0f3460,stroke:#10a37f,stroke-width:2px,color:#fff
style Regional fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style Global fill:#533483,stroke:#f0a500,stroke-width:2px,color:#fff
style Input fill:#1a1a2e,stroke:#fff,stroke-width:2px,color:#fff
style Output fill:#1a1a2e,stroke:#fff,stroke-width:2px,color:#fff
style Attention fill:#0a0a0a,stroke:#444,color:#fff
Complejidad efectiva reducida aproximadamente a:
Para $n = 1{,}500{,}000$: $\mathbf{O(n \cdot \log n \cdot d)}$ — escalado casi lineal.
4.2 Gestión de la caché KV
Caché KV bruta para 1.5M tokens en precisión BF16:
Con $l = 128$ capas, $d = 16{,}384$:
Muy por encima de los 80GB HBM3 de una H100. GPT-5.6 lo resuelve mediante:
- Evicción de KV por capa: Solo 16 de 128 capas mantienen KV completo; el resto usa representaciones comprimidas 8:1
- Descarga a NVMe: Los segmentos KV fríos migran a NVMe con recuperación de ~2ms
- Caché cuantizada a 4 bits: Cuantización Q4_K_M, reducción 4x, degradación de calidad <0.3%
Huella efectiva: ~180GB — cabe cómodamente en 2×H100 NVLink.
graph LR
subgraph Memory["Jerarquía de memoria de la caché KV (GPT-5.6)"]
direction TB
HBM["HBM3 (80GB x2)<br/>Caché KV caliente<br/>~64GB activo<br/>Latencia: <1μs"]
NVMe["NVMe SSD (7TB)<br/>Caché KV templada<br/>~110GB comprimido<br/>Latencia: ~2ms"]
Network["Red RDMA<br/>Almacén KV frío<br/>Fragmentado entre nodos<br/>Latencia: ~50μs"]
HBM -->|"Política de evicción<br/>LRU+predictiva"| NVMe
NVMe -->|"Paginación bajo demanda"| HBM
Network -->|"Pre-carga<br/>especulativa"| NVMe
end
style HBM fill:#10a37f,stroke:#fff,stroke-width:2px,color:#000
style NVMe fill:#4285f4,stroke:#fff,stroke-width:2px,color:#fff
style Network fill:#666,stroke:#fff,stroke-width:2px,color:#fff
style Memory fill:#0a0a0a,stroke:#444,color:#fff
5. Implicaciones de negocio: ¿quién paga por 1.5M tokens?
5.1 Coste de inferencia
Precios enterprise estimados de GPT-5.6:
| Nivel | Entrada ($/1M tokens) | Coste por 1.5M entrada | Salida ($/1M tokens) | Caso de uso |
|---|---|---|---|---|
| API estándar | $15.00 | $22.50 | $60.00 | Desarrolladores individuales |
| Pro | $10.50 | $15.75 | $42.00 | Startups, PYMES |
| Enterprise | $7.50 | $11.25 | $30.00 | Fortune 500 |
| Dedicado | $5.25 | $7.88 | $21.00 | Hiperescala (>$1M/mes) |
xychart-beta
title "Coste por consulta de 1.5M tokens por nivel ($)"
x-axis ["Estándar", "Pro", "Enterprise", "Dedicado"]
y-axis "Coste (USD)" 0 --> 25
bar [22.50, 15.75, 11.25, 7.88]
annotations
style bar fill:#10a37f
5.2 La ecuación de valor
Comparativa de revisión de documentos legales:
Incluso con 100 consultas ($2,250), 6.2× más barato:
graph LR
subgraph Economics["Coste-beneficio: Revisión de documentos legales"]
H["Equipo humano<br/>40 horas<br/>$14,000<br/>5 días hábiles"]
AI["GPT-5.6<br/>100 llamadas API<br/>$2,250<br/>15 minutos"]
Savings["Ahorro:<br/>84%<br/>Aceleración:<br/>160x"]
H ---|"vs"| AI
AI ---|"resultado"| Savings
end
style H fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style AI fill:#0f3460,stroke:#10a37f,stroke-width:3px,color:#fff
style Savings fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style Economics fill:#0a0a0a,stroke:#444,color:#fff
6. Impacto en el ecosistema: lo que cambia para siempre
6.1 Vectores de disrupción sectorial
graph TD
subgraph Impact["Mapa de disrupción del ecosistema GPT-5.6"]
Core["GPT-5.6<br/>Ventana de contexto 1.5M"]
Legal["Tecnología legal"]
Bio["Descubrimiento de fármacos"]
SWE["Ingeniería de software"]
Intel["Análisis de inteligencia"]
Finance["Análisis financiero"]
Creative["Industrias creativas"]
Core --> Legal
Core --> Bio
Core --> SWE
Core --> Intel
Core --> Finance
Core --> Creative
Legal -->|"Análisis completo<br/>de historial de casos"| L1["Revisión de contratos:<br/>-80% tiempo"]
Bio -->|"Integración<br/>multi-ómica"| B1["Análisis de vías:<br/>antes imposible"]
SWE -->|"Contexto del<br/>codebase completo"| S1["Refactorización:<br/>consciencia multi-repo"]
Intel -->|"Década de señales"| I1["Detección de patrones:<br/>nivel humano"]
Finance -->|"Historial completo<br/>de mercado"| F1["Modelado de riesgo:<br/>granularidad sin precedentes"]
Creative -->|"Arcos narrativos<br/>completos"| C1["Generación de biblia de serie:<br/>consistente en 100+ episodios"]
end
style Core fill:#10a37f,stroke:#fff,stroke-width:3px,color:#000
style Legal fill:#1a1a2e,stroke:#d4a574,stroke-width:2px,color:#fff
style Bio fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style SWE fill:#1a1a2e,stroke:#4285f4,stroke-width:2px,color:#fff
style Intel fill:#1a1a2e,stroke:#f0a500,stroke-width:2px,color:#fff
style Finance fill:#1a1a2e,stroke:#4ade80,stroke-width:2px,color:#fff
style Creative fill:#1a1a2e,stroke:#a855f7,stroke-width:2px,color:#fff
style Impact fill:#0a0a0a,stroke:#444,color:#fff
6.2 Aplicaciones nativas de contexto
GPT-5.6 habilita aplicaciones diseñadas desde cero asumiendo que el modelo lo ha visto todo:
| Paradigma | Era pre-5.6 | Era post-5.6 |
|---|---|---|
| Arquitectura de memoria | RAG + BD vectorial + fragmentación | Contexto único, sin recuperación |
| Estado de aplicación | Resumido, con pérdida | Completo, textual |
| Onboarding de usuario | Formularios, tutoriales | ”Solo habla, conozco tu historial” |
| Razonamiento multi-sesión | Máquinas de estado | Narrativa continua, ininterrumpida |
| Depuración | Logs, migas de pan | Traza completa de ejecución en contexto |
La fórmula de complejidad cambia:
graph LR
subgraph ParadigmShift["Cambio de paradigma: Arquitectura de aplicaciones"]
direction TB
Old["VIEJO: Centrado en RAG<br/>Consulta → Embedding → Búsqueda vectorial →<br/>Top-K → Re-ranking → Ensamblaje de contexto →<br/>LLM → Respuesta<br/>Latencia: 2-5s | Precisión: ~85%"]
New["NUEVO: Nativo de contexto<br/>Consulta → [Todo en contexto] →<br/>LLM → Respuesta<br/>Latencia: 0.5-1s | Precisión: ~97%"]
Old ---|"GPT-5.6 elimina<br/>el cuello de botella<br/>de recuperación"| New
end
style Old fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style New fill:#1a472a,stroke:#4ade80,stroke-width:3px,color:#fff
style ParadigmShift fill:#0a0a0a,stroke:#444,color:#fff
7. Contexto estratégico: ¿por qué ahora?
7.1 Posición competitiva
quadrantChart
title Posición competitiva: Ventana de contexto vs. Efecto red del ecosistema (Junio 2026)
x-axis Bajo efecto red --> Alto efecto red
y-axis Ventana pequeña --> Ventana grande
quadrant-1 Aspirantes (Contexto grande, red débil)
quadrant-2 Líderes (Contexto grande, red fuerte)
quadrant-3 Jugadores de nicho (Contexto pequeño, red débil)
quadrant-4 Guardianes de plataforma (Contexto pequeño, red fuerte)
OpenAI: [0.85, 0.75]
Anthropic: [0.65, 0.60]
Google: [0.90, 0.85]
xAI: [0.40, 0.55]
Meta: [0.70, 0.20]
Mistral: [0.25, 0.45]
OpenAI se sitúa en el cuadrante de Líderes. Google en [0.90, 0.85] es la amenaza más creíble — Gemini 3.5 Pro de 2M tokens más el control de Search, Workspace y Android.
7.2 La guerra de capital
La ronda de $30B+ de Anthropic con una valoración de $900B (superando los $852B de OpenAI) muestra que los inversores ven esto como un mercado donde el ganador se lo lleva casi todo. Despliegue total de capital en IA en 2026: ~$287 mil millones.
| Laboratorio | CapEx/OpEx 2026 (est.) | Foco principal |
|---|---|---|
| Microsoft/OpenAI | $65B | Cómputo de entrenamiento, datacenters |
| Google DeepMind | $58B | Clústeres TPU v6, Gemini |
| Meta AI | $42B | Ecosistema Llama, pesos abiertos |
| Anthropic | $35B | Constitutional AI, seguridad |
| xAI | $18B | Entrenamiento Grok, Colossus |
| Amazon | $42B | Inferentia3, Trainium2, Bedrock |
| NVIDIA (indirecto) | $27B | Cadena de suministro H200/B200 |
pie title Asignación de capital en infraestructura IA 2026 ($287B)
"Microsoft/OpenAI" : 65
"Google DeepMind" : 58
"Meta AI" : 42
"Anthropic" : 35
"xAI" : 18
"Amazon" : 42
"Otros" : 27
7.3 Dimensión geopolítica
La carrera de la ventana de contexto no es solo comercial. Las restricciones reportadas de China sobre los viajes de investigadores de IA reflejan el reconocimiento de que los modelos de escala de contexto confieren ventaja estratégica:
Las naciones con $A_{contexto}$ superior obtienen ventajas en inteligencia económica, investigación científica, ciberseguridad y planificación militar.
8. El camino hacia los 10M tokens
8.1 Cronograma proyectado
Trayectoria de crecimiento exponencial:
Ajustado: $k \approx 1.07 \text{ año}^{-1}$
timeline
title Proyección de hitos de ventana de contexto
2024 Q2 : GPT-4 : 128K tokens
2024 Q4 : GPT-4.5 : 256K tokens
2025 Q2 : GPT-5 : 512K tokens
2025 Q4 : GPT-5.5 : 1.05M tokens
2026 Q2 : GPT-5.6 : 1.5M tokens
2026 Q4 : GPT-6 (proy.) : 3-4M tokens
2027 Q2 : GPT-6.5 (proy.) : 6-8M tokens
2027 Q4 : GPT-7 (proy.) : 10M+ tokens
8.2 Los límites duros
| Límite | Descripción | Posible solución |
|---|---|---|
| Muro de memoria | HBM crece ~1.4×/año | Memoria desagregada (CXL), apilamiento 3D |
| Cuello de botella de atención | Métodos sub-cuadráticos se tensionan a >10M | Atención lineal, modelos de espacio de estados |
| Restricción energética | Disponibilidad de energía en datacenters | SMR nucleares, distribución en el edge |
| Escasez de datos | Pocos datos de entrenamiento de formato largo de alta calidad | Generación sintética, fusión multimodal |
graph TD
subgraph Limits["La barrera de los 10M tokens"]
M["Muro de memoria<br/>HBM: 192GB máx (2026)<br/>10M tokens = 84TB caché KV"]
A["Cuello de botella de atención<br/>O(n log n) costoso en n=10M<br/>50x latencia de inferencia"]
P["Restricción energética<br/>1 consulta = 500kWh<br/>$50/consulta en coste energético"]
D["Escasez de datos<br/>Existen pocos documentos<br/>coherentes de 10M tokens"]
M -->|"CXL 3.0<br/>Memoria desagregada"| M1["2TB+ a ~100ns"]
A -->|"Atención lineal<br/>+ MoD"| A1["Escalado O(n)"]
P -->|"SMR nucleares<br/>+ Edge"| P1["$0.02/kWh"]
D -->|"Generación sintética<br/>de formato largo"| D1["Corpus generados por LLM"]
end
style M fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style A fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style P fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style D fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style M1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style A1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style P1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style D1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style Limits fill:#0a0a0a,stroke:#444,color:#fff
9. El contexto es el ordenador
La ventana de contexto de 1.5M tokens de GPT-5.6 es más que un incremento de especificaciones — es un cambio de paradigma. La transición de arquitecturas RAG a aplicaciones nativas de contexto es tan fundamental como el paso del procesamiento por lotes a la computación interactiva.
La oleada de junio de 2026 — Claude Sonnet 4.8, Gemini 3.5 Pro, Grok 5, el despliegue público de GPT-5.6 — marca el momento en que “contexto largo” se convierte simplemente en “contexto”. Las aplicaciones que ganen asumirán que el modelo lo recuerda todo.
Con Anthropic a una valoración de $900B y Google empujando ventanas de 2M tokens, una verdad cristaliza: la ventana de contexto es la nueva velocidad de reloj. La Ley de Moore impulsó 50 años de progreso computacional. La expansión de la ventana de contexto impulsa la próxima era.
La carrera hacia los 10 millones de tokens no es cuestión de si — solo de cuándo.
Apéndice A: Especificaciones clave
| Parámetro | GPT-5.5 | GPT-5.6 | Cambio |
|---|---|---|---|
| Ventana de contexto | 1,050,000 | 1,500,000 | +43% |
| Nombre en clave | — | iris-alpha | — |
| Arquitectura | Transformer denso | Atención jerárquica | Nueva |
| Utilización efectiva | ~92% | ~94% | +2pp |
| Caché KV (optimizada) | ~140GB | ~180GB | +29% |
| Latencia de inferencia (1.5M) | N/A | ~8s | Línea base |
| Cómputo de entrenamiento | ~$120M | ~$180M | +50% |
| Precio API (entrada) | $12/1M | $15/1M | +25% |
Última actualización: 28 de mayo de 2026. Análisis basado en logs públicos de API, documentación técnica y reportes verificados de la industria. Las cifras de precios son estimaciones basadas en extrapolación de los niveles enterprise publicados.