GPT-5.6 и война за миллион токенов: гонка контекстных окон 2026 года — взгляд изнутри
Дата: 28 мая 2026 | Время чтения: ~12 мин
1. Утечка Iris-Alpha: как обнаружили GPT-5.6
26 мая 2026 года разработчики, мониторившие бэкенд Codex от OpenAI, заметили то, чего не должно было существовать. В логах API-шлюза скрывался идентификатор модели, никогда не встречавшийся в публичной документации — iris-alpha. Обратная инженерия заголовков API-ответов подтвердила: это не опечатка и не тестовый артефакт. Это была модель production-уровня, обслуживающая живой трафик корпоративных партнёров.
За 48 часов исследовательское сообщество пришло к консенсусу: OpenAI тихо развернула GPT-5.6. Ключевая характеристика: контекстное окно (context window) на 1,5 миллиона токенов — скачок на 43% относительно 1,05 млн токенов GPT-5.5, запущенной всего четыре месяца назад.
graph TD
subgraph Discovery["Хронология обнаружения (26-28 мая 2026)"]
A["Разработчики замечают<br/>'iris-alpha' в логах<br/>бэкенда Codex"] --> B["Анализ заголовков<br/>API-ответов"]
B --> C["Консенсус сообщества:<br/>GPT-5.6 подтверждена"]
C --> D["Контекстное окно 1,5M<br/>токенов верифицировано"]
end
style A fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style B fill:#16213e,stroke:#e94560,stroke-width:2px,color:#fff
style C fill:#0f3460,stroke:#e94560,stroke-width:2px,color:#fff
style D fill:#533483,stroke:#e94560,stroke-width:2px,color:#fff
style Discovery fill:#0a0a0a,stroke:#333,color:#fff
2. Математика масштаба
2.1 Рост контекстного окна
От GPT-5.5 к GPT-5.6:
2.2 Траектория масштабирования
Моделируем контекстное окно $C$ как функцию поколения $n$:
Где $C_0 = 128{,}000$ (базовый уровень GPT-4), $r$ — темп роста за поколение:
| Модель | Поколение | Контекстное окно (токенов) | Рост к пред. |
|---|---|---|---|
| GPT-4 | 4.0 | 128 000 | — |
| GPT-4.5 | 4.5 | 256 000 | +100% |
| GPT-5 | 5.0 | 512 000 | +100% |
| GPT-5.5 | 5.5 | 1 050 000 | +105% |
| GPT-5.6 | 5.6 | 1 500 000 | +43% |
xychart-beta
title "Расширение контекстного окна OpenAI (2024-2026)"
x-axis ["GPT-4", "GPT-4.5", "GPT-5", "GPT-5.5", "GPT-5.6"]
y-axis "Контекстное окно (тыс. токенов)" 0 --> 1600
bar [128, 256, 512, 1050, 1500]
line [128, 256, 512, 1050, 1500]
Средний коэффициент роста между релизами:
OpenAI почти удваивала ёмкость контекстного окна с каждым поколением на протяжении двух лет.
2.3 Что означают 1,5 миллиона токенов
mindmap
root((1,5M токенов<br/>Карта возможностей))
Литература
Вся трилогия "Властелин колец" за один проход
"Война и мир" с полным отслеживанием персонажей
50 лет архивов научных журналов
Корпоративные данные
10 лет истории взаимодействия с клиентами
Полная кодовая база компании из Fortune 500
Полные судебные дела с прецедентным анализом
Научные исследования
Геномные последовательности до 5 млн пар оснований
Полные сети белок-белковых взаимодействий
Многолетние массивы клинических испытаний
Разработка ПО
Анализ всего исходного кода ядра Linux
Полный рефакторинг 50+ микросервисов
Изучение эволюции git-репозитория за десятилетие
3. Великая гонка контекстных окон
GPT-5.6 существует не в вакууме. Июнь 2026 — самый насыщенный месяц запусков фундаментальных моделей в истории.
3.1 График релизов — июнь 2026
gantt
title График запуска фундаментальных моделей — июнь 2026
dateFormat 2026-06-01
axisFormat %b %d
section OpenAI
GPT-5.6 iris-alpha (скрытый) :done, g56, 2026-05-26, 1d
GPT-5.6 публичный API :active, g56p, 2026-06-02, 5d
section Anthropic
Claude Sonnet 4.8 разработка :done, cs48dev, 2026-05-01, 2026-06-03
Claude Sonnet 4.8 релиз :milestone, cs48, 2026-06-03, 0d
Claude Opus 4.8 превью :cs48o, 2026-06-10, 5d
section Google
Gemini 3.5 Pro запуск API :active, g35p, 2026-06-05, 7d
Gemini 3.5 Ultra тизер :g35u, 2026-06-15, 3d
section xAI
Grok 5 обучение завершено :done, g5tc, 2026-05-20, 1d
Grok 5 публичный релиз :g5r, 2026-06-08, 5d
section Meta
Llama 4.5 Long-Context превью :l45, 2026-06-12, 7d
section Apple
Siri 2.0 / На устройстве :s2, 2026-06-08, 12d
3.2 Сравнение контекстных окон
Конкуренция идёт не только за сырые токены — ключевой параметр: эффективное использование контекста (effective context utilization).
| Модель | Лаборатория | Контекстное окно | Эффект. исп. | Поиск иголки* | Оценка релиза |
|---|---|---|---|---|---|
| GPT-5.6 | OpenAI | 1 500 000 | ~94% | 99,2% | Май 2026 |
| Claude Sonnet 4.8 | Anthropic | 1 200 000 | ~97% | 99,7% | 3 июня 2026 |
| Gemini 3.5 Pro | 2 000 000 | ~91% | 98,5% | 5 июня 2026 | |
| Grok 5 | xAI | 1 000 000 | ~89% | 97,8% | 8 июня 2026 |
| Llama 4.5 LC | Meta | 256 000 | ~88% | 96,5% | 12 июня 2026 |
*Needle-in-Haystack — тест «поиск иголки в стоге сена»: способность модели находить конкретную информацию в огромном контексте.
graph LR
subgraph ContextRace["Гонка контекстных окон (июнь 2026)"]
direction LR
O["<b>OpenAI</b><br/>GPT-5.6<br/>1,5M токенов<br/>Запуск: 26 мая"]
A["<b>Anthropic</b><br/>Claude 4.8<br/>1,2M токенов<br/>3 июня"]
G["<b>Google</b><br/>Gemini 3.5 Pro<br/>2,0M токенов<br/>5 июня"]
X["<b>xAI</b><br/>Grok 5<br/>1,0M токенов<br/>8 июня"]
M["<b>Meta</b><br/>Llama 4.5 LC<br/>256K токенов<br/>12 июня"]
end
O ---|"+43% к 5.5"| A
A ---|"+67% к 4.8"| G
G ---|"2× к Grok 5"| X
X ---|"3,9× к Llama"| M
style O fill:#1a1a2e,stroke:#10a37f,stroke-width:3px,color:#fff
style A fill:#1a1a2e,stroke:#d4a574,stroke-width:2px,color:#fff
style G fill:#1a1a2e,stroke:#4285f4,stroke-width:2px,color:#fff
style X fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style M fill:#1a1a2e,stroke:#0668e1,stroke-width:2px,color:#fff
style ContextRace fill:#0a0a0a,stroke:#444,color:#fff
3.3 Граница эффективного контекста
Не все контекстные окна равны. Критическая метрика — коэффициент эффективного использования (effective utilization rate) $\eta$:
Anthropic лидирует с $\eta \approx 97%$ (бенчмарк RULER). GPT-5.6 достигает $\eta \approx 94%$. Gemini 3.5 Pro — несмотря на 2M сырых токенов — показывает $\eta \approx 91%$ из-за компромиссов разреженного внимания (sparse attention).
Оценка практической способности:
| Модель | $W$ (M токенов) | $\eta$ | $\rho$ | $S_{practical}$ |
|---|---|---|---|---|
| GPT-5.6 | 1,50 | 0,94 | 0,96 | 1,354 |
| Claude Sonnet 4.8 | 1,20 | 0,97 | 0,95 | 1,106 |
| Gemini 3.5 Pro | 2,00 | 0,91 | 0,93 | 1,693 |
| Grok 5 | 1,00 | 0,89 | 0,92 | 0,819 |
| Llama 4.5 LC | 0,256 | 0,88 | 0,90 | 0,203 |
По композитной метрике Gemini 3.5 Pro лидирует за счёт грубой силы масштаба. Размер окна по-прежнему доминирует.
4. Архитектурные последствия: как достигаются 1,5M токенов
Контекстное окно в 1,5M токенов требует фундаментальных инноваций в механизмах внимания (attention), памяти и инференса.
4.1 Сложность внимания
Стандартное self-attention трансформера: $\mathcal{O}_{\text{self-attention}} = O(n^2 \cdot d)$. Для $n = 1{,}500{,}000$ — вычислительно запретительно.
GPT-5.6, по имеющимся данным, использует трёхуровневую иерархию внимания (three-tier attention hierarchy):
graph TB
subgraph Attention["Архитектура трёхуровневого внимания GPT-5.6"]
direction TB
subgraph Local["Локальное плотное внимание<br/>(128K токенов, полная точность)"]
L1["Скользящее окно<br/>Чанки по 4096 токенов<br/>Перекрытие: 512 токенов"]
end
subgraph Regional["Региональное разреженное внимание<br/>(1M токенов, сжатые KV)"]
R1["Иерархический пулинг<br/>Сжатие 16:1<br/>Суммарные токены"]
end
subgraph Global["Глобальное внимание через память<br/>(1,5M токенов, семантические индексы)"]
G1["Обученные индексы извлечения<br/>Контентно-адресуемая память<br/>~0,1% токенов с полным вниманием"]
end
Input["Входные токены<br/>(1,5M)"] --> L1
L1 --> R1
R1 --> G1
G1 --> Output["Контекстуализированный<br/>вывод"]
end
style Local fill:#0f3460,stroke:#10a37f,stroke-width:2px,color:#fff
style Regional fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style Global fill:#533483,stroke:#f0a500,stroke-width:2px,color:#fff
style Input fill:#1a1a2e,stroke:#fff,stroke-width:2px,color:#fff
style Output fill:#1a1a2e,stroke:#fff,stroke-width:2px,color:#fff
style Attention fill:#0a0a0a,stroke:#444,color:#fff
Эффективная сложность снижена примерно до:
Для $n = 1{,}500{,}000$: $\mathbf{O(n \cdot \log n \cdot d)}$ — почти линейное масштабирование.
4.2 Управление KV-кешем
Сырой KV-кеш (Key-Value cache) для 1,5M токенов в точности BF16:
При $l = 128$ слоёв, $d = 16{,}384$:
Далеко за пределами 80 ГБ HBM3 ускорителя H100. GPT-5.6 решает эту проблему через:
- Послойное вытеснение KV: только 16 из 128 слоёв хранят полный KV; остальные используют сжатые представления 8:1
- Выгрузка на NVMe: холодные сегменты KV мигрируют на NVMe со временем извлечения ~2 мс
- 4-битное квантование кеша: квантизация Q4_K_M, сжатие в 4 раза, деградация качества <0,3%
Эффективный объём: ~180 ГБ — комфортно размещается на 2×H100 NVLink.
graph LR
subgraph Memory["Иерархия памяти KV-кеша (GPT-5.6)"]
direction TB
HBM["HBM3 (80 ГБ ×2)<br/>Горячий KV-кеш<br/>~64 ГБ активно<br/>Задержка: <1 мкс"]
NVMe["NVMe SSD (7 ТБ)<br/>Тёплый KV-кеш<br/>~110 ГБ сжато<br/>Задержка: ~2 мс"]
Network["Сеть RDMA<br/>Холодное KV-хранилище<br/>Шардирование по узлам<br/>Задержка: ~50 мкс"]
HBM -->|"Политика вытеснения<br/>LRU+предиктивная"| NVMe
NVMe -->|"Подкачка по требованию"| HBM
Network -->|"Предзагрузка<br/>спекулятивная"| NVMe
end
style HBM fill:#10a37f,stroke:#fff,stroke-width:2px,color:#000
style NVMe fill:#4285f4,stroke:#fff,stroke-width:2px,color:#fff
style Network fill:#666,stroke:#fff,stroke-width:2px,color:#fff
style Memory fill:#0a0a0a,stroke:#444,color:#fff
5. Бизнес-последствия: кто платит за 1,5M токенов?
5.1 Стоимость инференса
Оценка корпоративных цен GPT-5.6:
| Тариф | Вход ($/1M токенов) | Стоимость 1,5M входа | Выход ($/1M токенов) | Сценарий |
|---|---|---|---|---|
| Standard API | $15,00 | $22,50 | $60,00 | Индивидуальные разработчики |
| Pro | $10,50 | $15,75 | $42,00 | Стартапы, SMB |
| Enterprise | $7,50 | $11,25 | $30,00 | Fortune 500 |
| Dedicated | $5,25 | $7,88 | $21,00 | Гиперскейлеры (>$1M/мес) |
xychart-beta
title "Стоимость запроса на 1,5M токенов по тарифам ($)"
x-axis ["Standard", "Pro", "Enterprise", "Dedicated"]
y-axis "Стоимость (USD)" 0 --> 25
bar [22.50, 15.75, 11.25, 7.88]
annotations
style bar fill:#10a37f
5.2 Уравнение ценности
Сравнение для проверки юридических документов:
Даже при 100 запросах ($2 250) — в 6,2 раза дешевле:
graph LR
subgraph Economics["Затраты-выгода: проверка юридических документов"]
H["Команда людей<br/>40 часов<br/>$14 000<br/>5 рабочих дней"]
AI["GPT-5.6<br/>100 API-вызовов<br/>$2 250<br/>15 минут"]
Savings["Экономия:<br/>84%<br/>Ускорение:<br/>160×"]
H ---|"vs"| AI
AI ---|"результат"| Savings
end
style H fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style AI fill:#0f3460,stroke:#10a37f,stroke-width:3px,color:#fff
style Savings fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style Economics fill:#0a0a0a,stroke:#444,color:#fff
6. Влияние на экосистему: что меняется навсегда
6.1 Векторы disruption в индустрии
graph TD
subgraph Impact["Карта disruption экосистемы GPT-5.6"]
Core["GPT-5.6<br/>Контекстное окно 1,5M"]
Legal["Юридические технологии"]
Bio["Поиск лекарств"]
SWE["Разработка ПО"]
Intel["Анализ разведданных"]
Finance["Финансовый анализ"]
Creative["Креативные индустрии"]
Core --> Legal
Core --> Bio
Core --> SWE
Core --> Intel
Core --> Finance
Core --> Creative
Legal -->|"Полный анализ истории дел"| L1["Проверка контрактов:<br/>-80% времени"]
Bio -->|"Интеграция мульти-омикс"| B1["Анализ метаболических путей:<br/>ранее невозможен"]
SWE -->|"Контекст всей кодовой базы"| S1["Рефакторинг:<br/>осведомлённость между репо"]
Intel -->|"Десятилетие сигналов"| I1["Обнаружение паттернов:<br/>на уровне человека"]
Finance -->|"Полная история рынка"| F1["Моделирование рисков:<br/>беспрецедентная детализация"]
Creative -->|"Полные нарративные арки"| C1["Генерация библии сериала:<br/>консистентность 100+ эпизодов"]
end
style Core fill:#10a37f,stroke:#fff,stroke-width:3px,color:#000
style Legal fill:#1a1a2e,stroke:#d4a574,stroke-width:2px,color:#fff
style Bio fill:#1a1a2e,stroke:#e94560,stroke-width:2px,color:#fff
style SWE fill:#1a1a2e,stroke:#4285f4,stroke-width:2px,color:#fff
style Intel fill:#1a1a2e,stroke:#f0a500,stroke-width:2px,color:#fff
style Finance fill:#1a1a2e,stroke:#4ade80,stroke-width:2px,color:#fff
style Creative fill:#1a1a2e,stroke:#a855f7,stroke-width:2px,color:#fff
style Impact fill:#0a0a0a,stroke:#444,color:#fff
6.2 Контекстно-ориентированные приложения
GPT-5.6 позволяет создавать приложения, изначально спроектированные исходя из того, что модель уже видела всё:
| Парадигма | Эпоха до 5.6 | Эпоха после 5.6 |
|---|---|---|
| Архитектура памяти | RAG + векторная БД + чанкинг | Единый контекст, без извлечения |
| Состояние приложения | Суммаризированное, с потерями | Полное, дословное |
| Онбординг пользователя | Формы, туториалы | «Просто говори, я знаю твою историю» |
| Многосессионное рассуждение | Конечные автоматы | Непрерывный, неразрывный нарратив |
| Отладка | Логи, breadcrumbs | Полный трейс выполнения в контексте |
Формула сложности смещается:
graph LR
subgraph ParadigmShift["Смена парадигмы: архитектура приложений"]
direction TB
Old["СТАРОЕ: RAG-центричное<br/>Запрос → Эмбеддинг → Векторный поиск →<br/>Top-K → Ре-ранжирование → Сборка контекста →<br/>LLM → Ответ<br/>Задержка: 2-5с | Точность: ~85%"]
New["НОВОЕ: Контекстно-ориентированное<br/>Запрос → [Всё в контексте] →<br/>LLM → Ответ<br/>Задержка: 0,5-1с | Точность: ~97%"]
Old ---|"GPT-5.6 устраняет<br/>узкое место извлечения"| New
end
style Old fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style New fill:#1a472a,stroke:#4ade80,stroke-width:3px,color:#fff
style ParadigmShift fill:#0a0a0a,stroke:#444,color:#fff
7. Стратегический контекст: почему сейчас?
7.1 Конкурентная позиция
quadrantChart
title Конкурентная позиция: контекстное окно vs. привязка к экосистеме (июнь 2026)
x-axis Низкая привязка к экосистеме --> Высокая привязка к экосистеме
y-axis Малое контекстное окно --> Большое контекстное окно
quadrant-1 Претенденты (Большой контекст, Слабая привязка)
quadrant-2 Лидеры (Большой контекст, Сильная привязка)
quadrant-3 Нишевые игроки (Малый контекст, Слабая привязка)
quadrant-4 Стражи платформ (Малый контекст, Сильная привязка)
OpenAI: [0.85, 0.75]
Anthropic: [0.65, 0.60]
Google: [0.90, 0.85]
xAI: [0.40, 0.55]
Meta: [0.70, 0.20]
Mistral: [0.25, 0.45]
OpenAI находится в квадранте Лидеров. Google на позиции [0,90, 0,85] — самая серьёзная угроза: Gemini 3.5 Pro на 2M токенов плюс контроль над Search, Workspace и Android.
7.2 Война капиталов
Раунд Anthropic на $30B+ при оценке $900B (превышающей $852B OpenAI) показывает: инвесторы рассматривают это как рынок, где победитель получает почти всё. Общий объём капитала в ИИ за 2026: ~$287 миллиардов.
| Лаборатория | Капитальные/операционные расходы 2026 (оценка) | Основной фокус |
|---|---|---|
| Microsoft/OpenAI | $65B | Вычислительные мощности, дата-центры |
| Google DeepMind | $58B | Кластеры TPU v6, Gemini |
| Meta AI | $42B | Экосистема Llama, открытые веса |
| Anthropic | $35B | Constitutional AI, безопасность |
| xAI | $18B | Обучение Grok, Colossus |
| Amazon | $42B | Inferentia3, Trainium2, Bedrock |
| NVIDIA (косвенно) | $27B | Цепочка поставок H200/B200 |
pie title Распределение капитала в ИИ-инфраструктуру 2026 ($287B)
"Microsoft/OpenAI" : 65
"Google DeepMind" : 58
"Meta AI" : 42
"Anthropic" : 35
"xAI" : 18
"Amazon" : 42
"Прочие" : 27
7.3 Геополитическое измерение
Гонка контекстных окон — не только коммерция. Сообщения об ограничениях Китая на поездки ИИ-исследователей отражают признание: модели масштаба контекстного окна дают стратегическое преимущество:
Страны с превосходящим $A_{context}$ получают преимущества в экономической разведке, научных исследованиях, кибербезопасности и военном планировании.
8. Дорога к 10M токенов
8.1 Прогнозируемый график
Траектория экспоненциального роста:
Подгонка: $k \approx 1{,}07 \text{ год}^{-1}$
timeline
title Прогноз вех контекстного окна
2024 Q2 : GPT-4 : 128K токенов
2024 Q4 : GPT-4.5 : 256K токенов
2025 Q2 : GPT-5 : 512K токенов
2025 Q4 : GPT-5.5 : 1,05M токенов
2026 Q2 : GPT-5.6 : 1,5M токенов
2026 Q4 : GPT-6 (прогноз) : 3-4M токенов
2027 Q2 : GPT-6.5 (прогноз) : 6-8M токенов
2027 Q4 : GPT-7 (прогноз) : 10M+ токенов
8.2 Жёсткие ограничения
| Ограничение | Описание | Потенциальное решение |
|---|---|---|
| Стенка памяти | HBM растёт ~1,4×/год | Дезагрегированная память (CXL), 3D-стекинг |
| Бутылочное горлышко внимания | Субквадратичные методы напрягаются при >10M | Линейное внимание (linear attention), модели пространства состояний |
| Ограничение по энергии | Доступность энергии для дата-центров | Ядерные SMR, распределение на периферию |
| Дефицит данных | Высококачественные длинные обучающие данные | Синтетическая генерация, мультимодальное слияние |
graph TD
subgraph Limits["Барьер 10M токенов"]
M["Стенка памяти<br/>HBM: макс. 192 ГБ (2026)<br/>10M токенов = 84 ТБ KV-кеш"]
A["Бутылочное горлышко внимания<br/>O(n log n) дорого при n=10M<br/>Задержка инференса ×50"]
P["Ограничение по энергии<br/>1 запрос = 500 кВт·ч<br/>$50/запрос на энергию"]
D["Дефицит данных<br/>Мало когерентных документов<br/>длиной 10M токенов"]
M -->|"CXL 3.0<br/>Дезагрегированная память"| M1["2 ТБ+ при ~100 нс"]
A -->|"Линейное внимание<br/>+ MoD"| A1["Масштабирование O(n)"]
P -->|"Ядерные SMR<br/>+ Периферия"| P1["$0,02/кВт·ч"]
D -->|"Синтетическая<br/>длинноформатная генерация"| D1["Корпусы, сгенерированные LLM"]
end
style M fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style A fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style P fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style D fill:#5c2a2a,stroke:#e94560,stroke-width:2px,color:#fff
style M1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style A1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style P1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style D1 fill:#1a472a,stroke:#4ade80,stroke-width:2px,color:#fff
style Limits fill:#0a0a0a,stroke:#444,color:#fff
9. Контекст — это компьютер
Контекстное окно GPT-5.6 на 1,5M токенов — не просто прирост спецификаций. Это смена парадигмы. Переход от RAG-архитектур к контекстно-ориентированным приложениям столь же фундаментален, как переход от пакетной обработки к интерактивным вычислениям.
Июньская волна 2026 — Claude Sonnet 4.8, Gemini 3.5 Pro, Grok 5, публичный rollout GPT-5.6 — отмечает момент, когда «длинный контекст» становится просто «контекстом». Приложения-победители будут исходить из того, что модель помнит всё.
С оценкой Anthropic в $900B и Google, продвигающей окна на 2M токенов, кристаллизуется одна истина: контекстное окно — это новая тактовая частота. Закон Мура определял 50 лет прогресса вычислений. Расширение контекстного окна определяет следующую эпоху.
Гонка к 10 миллионам токенов — не вопрос «если». Только «когда».
Приложение A: Ключевые спецификации
| Параметр | GPT-5.5 | GPT-5.6 | Изменение |
|---|---|---|---|
| Контекстное окно | 1 050 000 | 1 500 000 | +43% |
| Кодовое имя | — | iris-alpha | — |
| Архитектура | Плотный трансформер | Иерархическое внимание | Новое |
| Эффективное использование | ~92% | ~94% | +2 п.п. |
| KV-кеш (оптимизированный) | ~140 ГБ | ~180 ГБ | +29% |
| Задержка инференса (1,5M) | Н/Д | ~8 с | Базовый уровень |
| Вычислительные затраты на обучение | ~$120M | ~$180M | +50% |
| Цена API (вход) | $12/1M | $15/1M | +25% |
Последнее обновление: 28 мая 2026. Анализ основан на публичных логах API, технической документации и верифицированных отраслевых отчётах. Ценовые оценки являются extrapolation на основе опубликованных корпоративных тарифов.