GPT-5.6 e a Guerra do Milhão de Tokens: por dentro da grande corrida da janela de contexto de 2026
Data: 2026-05-28 | Tempo de leitura: ~12 min
1. O vazamento Iris-Alpha: como o GPT-5.6 foi descoberto
Em 26 de maio de 2026, desenvolvedores que monitoravam o backend do Codex da OpenAI encontraram algo que não deveria existir. Enterrado nos logs do API gateway: um identificador de modelo nunca visto em documentação pública — iris-alpha. A engenharia reversa dos headers de resposta da API confirmou que não era erro de digitação nem artefato de teste. Era um modelo em produção servindo tráfego real para parceiros enterprise.
Em 48 horas a comunidade de pesquisa em IA chegou ao consenso: a OpenAI lançou silenciosamente o GPT-5.6. Sua assinatura: janela de contexto de 1,5 milhão de tokens (context window) — salto de 43% sobre os 1,05M de tokens do GPT-5.5, lançado apenas quatro meses antes.
graph TD
subgraph Discovery["Cronograma da Descoberta (26-28 de maio de 2026)"]
A["Desenvolvedores encontram<br/>'iris-alpha' nos<br/>logs do backend do Codex"] --> B["Headers de resposta<br/>da API analisados"]
B --> C["Consenso da comunidade:<br/>GPT-5.6 confirmado"]
C --> D["Janela de contexto<br/>de 1,5M tokens verificada"]
end
style A fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style B fill:#16213e,stroke:#e94560,stroke-width:2px,color:#fff
style C fill:#0f3460,stroke:#e94560,stroke-width:2px,color:#fff
style D fill:#533483,stroke:#e94560,stroke-width:2px,color:#fff
style Discovery fill:#0a0a0a,stroke:#333,color:#fff
2. A matemática da escala
2.1 Crescimento da janela de contexto
Do GPT-5.5 para o GPT-5.6:
2.2 A trajetória de escala
Modelando a janela de contexto $C$ como função da geração $n$:
Onde $C_0 = 128{.}000$ (baseline do GPT-4), $r$ = taxa de crescimento por geração:
| Modelo | Geração | Janela de Contexto (tokens) | Crescimento vs. Anterior |
|---|---|---|---|
| GPT-4 | 4.0 | 128.000 | — |
| GPT-4.5 | 4.5 | 256.000 | +100% |
| GPT-5 | 5.0 | 512.000 | +100% |
| GPT-5.5 | 5.5 | 1.050.000 | +105% |
| GPT-5.6 | 5.6 | 1.500.000 | +43% |
xychart-beta
title "Expansão da Janela de Contexto da OpenAI (2024-2026)"
x-axis ["GPT-4", "GPT-4.5", "GPT-5", "GPT-5.5", "GPT-5.6"]
y-axis "Janela de Contexto (milhares de tokens)" 0 --> 1600
bar [128, 256, 512, 1050, 1500]
line [128, 256, 512, 1050, 1500]
Fator médio de crescimento entre cada lançamento:
A OpenAI praticamente dobrou a capacidade da janela de contexto a cada geração ao longo de dois anos.
2.3 O que 1,5 milhão de tokens significa
mindmap
root((Mapa de Capacidades<br/>dos 1,5M Tokens))
Literatura
Trilogia inteira do Senhor dos Anéis em uma passada
Guerra e Paz com rastreamento completo de personagens
50 anos de arquivos de revistas científicas
Dados Empresariais
10 anos de histórico de interações com clientes
Codebase completo de empresa Fortune 500
Processos jurídicos completos com análise de precedentes
Pesquisa Científica
Sequências genômicas de até 5M de pares de base
Redes completas de interação de proteínas
Conjuntos de dados de ensaios clínicos multi-anos
Engenharia de Software
Análise completa do código-fonte do kernel Linux
Refatoração full-stack em mais de 50 microsserviços
Estudo da evolução de repositório git ao longo de uma década
3. A grande corrida da janela de contexto
O GPT-5.6 não existe no vácuo. Junho de 2026 é o mês mais concentrado de lançamentos de modelos de fundação (foundation models) da história.
3.1 Calendário de lançamentos de junho de 2026
gantt
title Cronograma de Lançamento de Modelos de Fundação -- Junho de 2026
dateFormat 2026-06-01
axisFormat %b %d
section OpenAI
GPT-5.6 iris-alpha (silencioso) :done, g56, 2026-05-26, 1d
GPT-5.6 API Pública :active, g56p, 2026-06-02, 5d
section Anthropic
Claude Sonnet 4.8 Desenvolvimento :done, cs48dev, 2026-05-01, 2026-06-03
Claude Sonnet 4.8 Lançamento :milestone, cs48, 2026-06-03, 0d
Claude Opus 4.8 Preview :cs48o, 2026-06-10, 5d
section Google
Gemini 3.5 Pro Lançamento da API :active, g35p, 2026-06-05, 7d
Gemini 3.5 Ultra Teaser :g35u, 2026-06-15, 3d
section xAI
Grok 5 Treinamento Concluído :done, g5tc, 2026-05-20, 1d
Grok 5 Lançamento Público :g5r, 2026-06-08, 5d
section Meta
Llama 4.5 Long-Context Preview :l45, 2026-06-12, 7d
section Apple
Siri 2.0 / Modelo On-device :s2, 2026-06-08, 12d
3.2 Comparação de janelas de contexto
A competição não é só sobre tokens brutos — é sobre utilização efetiva do contexto (effective context utilization).
| Modelo | Laboratório | Janela de Contexto | Utilização Efetiva | Needle-in-Haystack | Lançamento Est. |
|---|---|---|---|---|---|
| GPT-5.6 | OpenAI | 1.500.000 | ~94% | 99,2% | Mai 2026 |
| Claude Sonnet 4.8 | Anthropic | 1.200.000 | ~97% | 99,7% | 3 Jun 2026 |
| Gemini 3.5 Pro | 2.000.000 | ~91% | 98,5% | 5 Jun 2026 | |
| Grok 5 | xAI | 1.000.000 | ~89% | 97,8% | 8 Jun 2026 |
| Llama 4.5 LC | Meta | 256.000 | ~88% | 96,5% | 12 Jun 2026 |
graph LR
subgraph ContextRace["A Corrida Armamentista da Janela de Contexto (Junho de 2026)"]
direction LR
O["<b>OpenAI</b><br/>GPT-5.6<br/>1,5M tokens<br/>Lançado: 26 Mai"]
A["<b>Anthropic</b><br/>Claude 4.8<br/>1,2M tokens<br/>3 Jun"]
G["<b>Google</b><br/>Gemini 3.5 Pro<br/>2,0M tokens<br/>5 Jun"]
X["<b>xAI</b><br/>Grok 5<br/>1,0M tokens<br/>8 Jun"]
M["<b>Meta</b><br/>Llama 4.5 LC<br/>256K tokens<br/>12 Jun"]
end
O ---|"+43% vs 5.5"| A
A ---|"+67% vs 4.8"| G
G ---|"2x vs Grok 5"| X
X ---|"3,9x vs Llama"| M
style O fill:#1a1a2e,stroke:#10a37f,stroke-width:3px,color:#fff
style A fill:#1a1a2e,stroke:#d4a574,stroke-width:2px,color:#fff
style G fill:#1a1a2e,stroke:#4285f4,stroke-width:2px,color:#fff
style X fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style M fill:#1a1a2e,stroke:#0668e1,stroke-width:2px,color:#fff
style ContextRace fill:#0a0a0a,stroke:#444,color:#fff
3.3 A fronteira do contexto efetivo
Nem todas as janelas de contexto são iguais. A métrica crítica é a taxa de utilização efetiva $\eta$:
A Anthropic lidera com $\eta \approx 97%$ (benchmark RULER). O GPT-5.6 atinge $\eta \approx 94%$. O Gemini 3.5 Pro — apesar dos 2M de tokens brutos — alcança $\eta \approx 91%$ devido a tradeoffs de atenção esparsa (sparse attention).
Pontuação de capacidade prática:
| Modelo | $W$ (M tokens) | $\eta$ | $\rho$ | $S_{\text{prático}}$ |
|---|---|---|---|---|
| GPT-5.6 | 1,50 | 0,94 | 0,96 | 1,354 |
| Claude Sonnet 4.8 | 1,20 | 0,97 | 0,95 | 1,106 |
| Gemini 3.5 Pro | 2,00 | 0,91 | 0,93 | 1,693 |
| Grok 5 | 1,00 | 0,89 | 0,92 | 0,819 |
| Llama 4.5 LC | 0,256 | 0,88 | 0,90 | 0,203 |
Pela métrica composta, o Gemini 3.5 Pro lidera em escala bruta. O tamanho da janela ainda domina.
4. Implicações arquiteturais: como 1,5M de tokens acontecem
Uma janela de contexto de 1,5M exige inovações fundamentais em atenção (attention), memória e inferência.
4.1 Complexidade da atenção
Atenção própria (self-attention) padrão do Transformer: $\mathcal{O}_{\text{self-attention}} = O(n^2 \cdot d)$. Para $n = 1{.}500{.}000$, computacionalmente proibitivo.
O GPT-5.6 supostamente usa uma hierarquia de atenção em três níveis:
graph TB
subgraph Attention["Arquitetura de Atenção em Três Níveis do GPT-5.6"]
direction TB
subgraph Local["Atenção Densa Local<br/>(128K tokens, precisão total)"]
L1["Janela Deslizante<br/>blocos de 4096 tokens<br/>Sobreposição: 512 tokens"]
end
subgraph Regional["Atenção Esparsa Regional<br/>(1M tokens, KV comprimido)"]
R1["Pooling hierárquico<br/>compressão 16:1<br/>Tokens de sumário"]
end
subgraph Global["Atenção de Memória Global<br/>(1,5M tokens, índices semânticos)"]
G1["Índices de recuperação aprendidos<br/>Memória endereçável por conteúdo<br/>~0,1% dos tokens com atenção total"]
end
Input["Tokens de Entrada<br/>(1,5M)"] --> L1
L1 --> R1
R1 --> G1
G1 --> Output["Saída<br/>Contextualizada"]
end
style Local fill:#0f3460,stroke:#10a37f,stroke-width:2px,color:#fff
style Regional fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style Global fill:#533483,stroke:#f0a500,stroke-width:2px,color:#fff
style Input fill:#1a1a2e,stroke:#fff,stroke-width:2px,color:#fff
style Output fill:#1a1a2e,stroke:#fff,stroke-width:2px,color:#fff
style Attention fill:#0a0a0a,stroke:#444,color:#fff
Complexidade efetiva reduzida para aproximadamente:
Para $n = 1{.}500{.}000$: $\mathbf{O(n \cdot \log n \cdot d)}$ — escalonamento quase linear.
4.2 Gerenciamento do cache KV
Cache KV bruto para 1,5M de tokens em precisão BF16:
Com $l = 128$ camadas, $d = 16{.}384$:
Muito além dos 80GB de HBM3 da H100. O GPT-5.6 resolve isso via:
- Eliminação de KV por camada: apenas 16 das 128 camadas mantêm KV completo; o restante usa representações comprimidas 8:1
- Descarga para NVMe: segmentos frios de KV migram para NVMe com recuperação de ~2ms
- Cache quantizado em 4 bits: quantização Q4_K_M, redução de 4×, degradação de qualidade <0,3%
Footprint efetivo: ~180GB — cabe confortavelmente em 2×H100 NVLink.
graph LR
subgraph Memory["Hierarquia de Memória do Cache KV (GPT-5.6)"]
direction TB
HBM["HBM3 (80GB x2)<br/>Cache KV Quente<br/>~64GB ativo<br/>Latência: <1μs"]
NVMe["NVMe SSD (7TB)<br/>Cache KV Morno<br/>~110GB comprimido<br/>Latência: ~2ms"]
Network["Rede RDMA<br/>Armazenamento KV Frio<br/>Shard entre nós<br/>Latência: ~50μs"]
HBM -->|"Política de evicção<br/>LRU+preditivo"| NVMe
NVMe -->|"Paginação sob demanda"| HBM
Network -->|"Pré-busca<br/>especulativa"| NVMe
end
style HBM fill:#10a37f,stroke:#fff,stroke-width:2px,color:#000
style NVMe fill:#4285f4,stroke:#fff,stroke-width:2px,color:#fff
style Network fill:#666,stroke:#fff,stroke-width:2px,color:#fff
style Memory fill:#0a0a0a,stroke:#444,color:#fff
5. Implicações de negócio: quem paga por 1,5M de tokens?
5.1 Custo de inferência
Precificação enterprise estimada do GPT-5.6:
| Nível | Entrada ($/1M tokens) | Custo por 1,5M de Entrada | Saída ($/1M tokens) | Caso de Uso |
|---|---|---|---|---|
| API Padrão | $15,00 | $22,50 | $60,00 | Desenvolvedores individuais |
| Pro | $10,50 | $15,75 | $42,00 | Startups, PMEs |
| Enterprise | $7,50 | $11,25 | $30,00 | Fortune 500 |
| Dedicado | $5,25 | $7,88 | $21,00 | Hyperescala (>$1M/mês) |
xychart-beta
title "Custo por Consulta de 1,5M Tokens por Nível ($)"
x-axis ["Padrão", "Pro", "Enterprise", "Dedicado"]
y-axis "Custo (USD)" 0 --> 25
bar [22.50, 15.75, 11.25, 7.88]
annotations
style bar fill:#10a37f
5.2 A equação de valor
Comparação com revisão de documentos jurídicos:
Mesmo com 100 consultas ($2.250), 6,2× mais barato:
graph LR
subgraph Economics["Custo-Benefício: Revisão de Documentos Jurídicos"]
H["Equipe Humana<br/>40 horas<br/>$14.000<br/>5 dias úteis"]
AI["GPT-5.6<br/>100 chamadas de API<br/>$2.250<br/>15 minutos"]
Savings["Economia:<br/>84%<br/>Aceleração:<br/>160x"]
H ---|"vs"| AI
AI ---|"resultado"| Savings
end
style H fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style AI fill:#0f3460,stroke:#10a37f,stroke-width:3px,color:#fff
style Savings fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style Economics fill:#0a0a0a,stroke:#444,color:#fff
6. Impacto no ecossistema: o que muda para sempre
6.1 Vetores de disrupção setorial
graph TD
subgraph Impact["Mapa de Disrupção do Ecossistema GPT-5.6"]
Core["GPT-5.6<br/>Janela de Contexto de 1,5M"]
Legal["Legal Tech"]
Bio["Descoberta de Fármacos"]
SWE["Engenharia de Software"]
Intel["Análise de Inteligência"]
Finance["Análise Financeira"]
Creative["Indústrias Criativas"]
Core --> Legal
Core --> Bio
Core --> SWE
Core --> Intel
Core --> Finance
Core --> Creative
Legal -->|"Análise completa de histórico de casos"| L1["Revisão de contratos:<br/>-80% tempo"]
Bio -->|"Integração multi-ômica"| B1["Análise de vias:<br/>antes impossível"]
SWE -->|"Contexto completo do codebase"| S1["Refatoração:<br/>consciência cross-repo"]
Intel -->|"Década de sinais"| I1["Detecção de padrões:<br/>nível humano"]
Finance -->|"Histórico completo de mercado"| F1["Modelagem de risco:<br/>granularidade sem precedentes"]
Creative -->|"Arcos narrativos completos"| C1["Geração de bíblia de série:<br/>consistente por 100+ episódios"]
end
style Core fill:#10a37f,stroke:#fff,stroke-width:3px,color:#000
style Legal fill:#1a1a2e,stroke:#d4a574,stroke-width:2px,color:#fff
style Bio fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style SWE fill:#1a1a2e,stroke:#4285f4,stroke-width:2px,color:#fff
style Intel fill:#1a1a2e,stroke:#f0a500,stroke-width:2px,color:#fff
style Finance fill:#1a1a2e,stroke:#4ade80,stroke-width:2px,color:#fff
style Creative fill:#1a1a2e,stroke:#a855f7,stroke-width:2px,color:#fff
style Impact fill:#0a0a0a,stroke:#444,color:#fff
6.2 Aplicações nativas de contexto
O GPT-5.6 viabiliza aplicações projetadas do zero assumindo que o modelo já viu tudo:
| Paradigma | Era Pré-5.6 | Era Pós-5.6 |
|---|---|---|
| Arquitetura de memória | RAG + vector DB + chunking | Contexto único, sem recuperação |
| Estado da aplicação | Sumarizado, com perdas | Completo, verbatim |
| Onboarding de usuários | Formulários, tutoriais | ”Apenas fale, conheço seu histórico” |
| Raciocínio multi-sessão | Máquinas de estado | Narrativa contínua, ininterrupta |
| Debugging | Logs, breadcrumbs | Rastreamento completo de execução em contexto |
A fórmula de complexidade se altera:
graph LR
subgraph ParadigmShift["Mudança de Paradigma: Arquitetura de Aplicações"]
direction TB
Old["ANTES: Centrado em RAG<br/>Query do Usuário → Embedding → Busca Vetorial →<br/>Top-K → Re-ranking → Montagem de Contexto →<br/>LLM → Resposta<br/>Latência: 2-5s | Acurácia: ~85%"]
New["DEPOIS: Nativo de Contexto<br/>Query do Usuário → [Tudo em Contexto] →<br/>LLM → Resposta<br/>Latência: 0,5-1s | Acurácia: ~97%"]
Old ---|"GPT-5.6 elimina<br/>gargalo de recuperação"| New
end
style Old fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style New fill:#1a472a,stroke:#4ade80,stroke-width:3px,color:#fff
style ParadigmShift fill:#0a0a0a,stroke:#444,color:#fff
7. Contexto estratégico: por que agora?
7.1 Posição competitiva
quadrantChart
title Posição Competitiva: Janela de Contexto vs. Aprisionamento de Ecossistema (Junho de 2026)
x-axis Baixo Aprisionamento de Ecossistema --> Alto Aprisionamento de Ecossistema
y-axis Janela de Contexto Pequena --> Janela de Contexto Grande
quadrant-1 Desafiantes (Contexto Grande, Aprisionamento Fraco)
quadrant-2 Líderes (Contexto Grande, Aprisionamento Forte)
quadrant-3 Jogadores de Nicho (Contexto Pequeno, Aprisionamento Fraco)
quadrant-4 Guardiões de Plataforma (Contexto Pequeno, Aprisionamento Forte)
OpenAI: [0.85, 0.75]
Anthropic: [0.65, 0.60]
Google: [0.90, 0.85]
xAI: [0.40, 0.55]
Meta: [0.70, 0.20]
Mistral: [0.25, 0.45]
A OpenAI está no quadrante Líderes. O Google em [0,90, 0,85] é a ameaça mais crível — Gemini 3.5 Pro com 2M de tokens mais controle do Search, Workspace e Android.
7.2 A guerra de capital
A rodada de $30B+ da Anthropic com valuation de $900B (superando os $852B da OpenAI) mostra que investidores veem isso como winner-take-most. Desdobramento total de capital em IA em 2026: ~$287 bilhões.
| Laboratório | CapEx/OpEx 2026 (est.) | Foco Principal |
|---|---|---|
| Microsoft/OpenAI | $65B | Computação de treinamento, datacenter |
| Google DeepMind | $58B | Clusters TPU v6, Gemini |
| Meta AI | $42B | Ecossistema Llama, pesos abertos |
| Anthropic | $35B | Constitutional AI, segurança |
| xAI | $18B | Treinamento Grok, Colossus |
| Amazon | $42B | Inferentia3, Trainium2, Bedrock |
| NVIDIA (indireto) | $27B | Cadeia de suprimentos H200/B200 |
pie title Alocação de Capital em Infraestrutura de IA em 2026 ($287B)
"Microsoft/OpenAI" : 65
"Google DeepMind" : 58
"Meta AI" : 42
"Anthropic" : 35
"xAI" : 18
"Amazon" : 42
"Outros" : 27
7.3 Dimensão geopolítica
A corrida da janela de contexto não é apenas comercial. As supostas restrições da China a viagens de pesquisadores de IA refletem o reconhecimento de que modelos com janelas de contexto em escala conferem vantagem estratégica:
Nações com $A_{\text{contexto}}$ superior ganham vantagens em inteligência econômica, pesquisa científica, cibersegurança e planejamento militar.
8. O caminho até os 10M de tokens
8.1 Cronograma projetado
Trajetória de crescimento exponencial:
Ajustado: $k \approx 1{,}07 \text{ ano}^{-1}$
timeline
title Projeção de Marcos da Janela de Contexto
2024 Q2 : GPT-4 : 128K tokens
2024 Q4 : GPT-4.5 : 256K tokens
2025 Q2 : GPT-5 : 512K tokens
2025 Q4 : GPT-5.5 : 1,05M tokens
2026 Q2 : GPT-5.6 : 1,5M tokens
2026 Q4 : GPT-6 (proj.) : 3-4M tokens
2027 Q2 : GPT-6.5 (proj.) : 6-8M tokens
2027 Q4 : GPT-7 (proj.) : 10M+ tokens
8.2 Os limites concretos
| Limite | Descrição | Resolução Potencial |
|---|---|---|
| Parede da memória | HBM cresce ~1,4×/ano | Memória desagregada (CXL), empilhamento 3D |
| Gargalo de atenção | Métodos sub-quadráticos sofrem acima de 10M | Atenção linear, modelos de espaço de estados |
| Restrição de energia | Disponibilidade de energia em datacenters | SMRs nucleares, distribuição na borda |
| Escassez de dados | Dados de treinamento longos de alta qualidade | Geração sintética, fusão multimodal |
graph TD
subgraph Limits["A Barreira dos 10M de Tokens"]
M["Parede da Memória<br/>HBM: 192GB máx (2026)<br/>10M tokens = 84TB cache KV"]
A["Gargalo de Atenção<br/>O(n log n) custoso em n=10M<br/>50x latência de inferência"]
P["Restrição de Energia<br/>1 consulta = 500kWh<br/>$50/consulta custo energético"]
D["Escassez de Dados<br/>Poucos documentos coerentes<br/>de 10M tokens existem"]
M -->|"CXL 3.0<br/>Memória Desagregada"| M1["2TB+ a ~100ns"]
A -->|"Atenção Linear<br/>+ MoD"| A1["Escalonamento O(n)"]
P -->|"SMRs Nucleares<br/>+ Borda"| P1["$0,02/kWh"]
D -->|"Geração Sintética<br/>de Forma Longa"| D1["Corpora gerados por LLM"]
end
style M fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style A fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style P fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style D fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style M1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style A1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style P1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style D1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style Limits fill:#0a0a0a,stroke:#444,color:#fff
9. O contexto é o computador
A janela de contexto de 1,5M do GPT-5.6 é mais do que um bump de especificação — é uma mudança de paradigma. A transição de arquiteturas RAG para aplicações nativas de contexto é tão fundamental quanto a passagem do processamento em lote para a computação interativa.
A onda de junho de 2026 — Claude Sonnet 4.8, Gemini 3.5 Pro, Grok 5, lançamento público do GPT-5.6 — marca o momento em que “contexto longo” se torna simplesmente “contexto”. As aplicações que vencerem assumirão que o modelo se lembra de tudo.
Com a Anthropic avaliada em $900B e o Google empurrando janelas de 2M de tokens, uma verdade se cristaliza: a janela de contexto é o novo clock speed. A Lei de Moore impulsionou 50 anos de progresso computacional. A expansão da janela de contexto impulsiona a próxima era.
A corrida até os 10 milhões de tokens não é questão de se — apenas de quando.
Apêndice A: Especificações principais
| Parâmetro | GPT-5.5 | GPT-5.6 | Mudança |
|---|---|---|---|
| Janela de Contexto | 1.050.000 | 1.500.000 | +43% |
| Nome de Código | — | iris-alpha | — |
| Arquitetura | Transformer Denso | Atenção Hierárquica | Nova |
| Utilização Efetiva | ~92% | ~94% | +2pp |
| Cache KV (otimizado) | ~140GB | ~180GB | +29% |
| Latência de Inferência (1,5M) | N/A | ~8s | Baseline |
| Computação de Treinamento | ~$120M | ~$180M | +50% |
| Preço de API (entrada) | $12/1M | $15/1M | +25% |
Última atualização: 28 de maio de 2026. Análise baseada em logs públicos de API, documentação técnica e reportagens verificadas da indústria. Valores de precificação são estimativas baseadas em extrapolação dos níveis enterprise publicados.