GPT-5.6 и война за миллион токенов: гонка контекстных окон 2026

Дата: 2026-05-28 | Чтение: ~12 мин

1. Утечка Iris-Alpha: как обнаружили GPT-5.6

26 мая 2026 года разработчики, мониторящие бэкенд Codex от OpenAI, заметили нечто, чего не должно было существовать. В логах API-гейта: идентификатор модели, никогда не встречавшийся в публичной документации — iris-alpha. Обратная разработка заголовков API подтвердила — это не опечатка. Это продакшен-модель, обслуживающая live-трафик enterprise-партнеров.

За 48 часов сообщество пришло к консенсусу: OpenAI тихо развернула GPT-5.6. Особенность: контекстное окно в 1.5 миллиона токенов — на 43% больше GPT-5.5.

2. Математика масштаба

Рост контекстного окна

Модель	Поколение	Окно (токенов)	Рост
GPT-4	4.0	128,000	–
GPT-4.5	4.5	256,000	+100%
GPT-5	5.0	512,000	+100%
GPT-5.5	5.5	1,050,000	+105%
GPT-5.6	5.6	1,500,000	+43%

Что значит 1.5 миллиона токенов

1,500,000 токенов ≈ 1,125,000 слов ≈ 4,500 страниц

Это позволяет:

Всю трилогию «Властелина колец» за один проход
«Война и мир» с полным отслеживанием персонажей
10 лет истории взаимодействия с клиентами
Полный исходный код ядра Linux
Геномные последовательности до 5M пар оснований

3. Великая гонка контекстных окон

GPT-5.6 существует не в вакууме. Июнь 2026 — самый насыщенный месяц запусков foundation-моделей в истории.

Модель	Лаборатория	Окно	Эффективность	Релиз
GPT-5.6	OpenAI	1,500,000	~94%	Май 2026
Claude Sonnet 4.8	Anthropic	1,200,000	~97%	3 июня
Gemini 3.5 Pro	Google	2,000,000	~91%	5 июня
Grok 5	xAI	1,000,000	~89%	8 июня
Llama 4.5 LC	Meta	256,000	~88%	12 июня

Google лидирует по сырому объему, Anthropic по эффективности использования.

4. Архитектурные последствия

Стандартное self-attention Transformer: O(n²·d). Для n=1,500,000 — вычислительно запретительно.

GPT-5.6 использует трехуровневую иерархию внимания:

Локальное плотное внимание (128K токенов, полная точность)
Региональное разреженное внимание (1M токенов, сжатый KV)
Глобальное внимание с семантическими индексами (1.5M токенов)

Эффективная сложность: O(n·log n·d) — почти линейное масштабирование.

Управление KV-кэшем: сырой KV-кэш для 1.5M токенов ~12.6 TB. Решение: слойная эвiction (16 из 128 слоев хранят полный KV), NVMe offloading, 4-битное квантование. Эффективный объем: ~180GB.

5. Бизнес-последствия

Тариф	Вход ($/1M токенов)	1.5M вход ($)
Standard	$15.00	$22.50
Pro	$10.50	$15.75
Enterprise	$7.50	$11.25

При 100 запросах: в 6.2 раза дешевле человека для юридического анализа документов.

6. Влияние на экосистему

GPT-5.6 делает возможными приложения, спроектированные с нуля в расчете на то, что модель видела все:

Парадигма	До 5.6	После 5.6
Память	RAG + векторная БД	Один контекст без поиска
Состояние	Сжатое, с потерями	Полное, дословное
Онбординг	Формы, туториалы	«Просто говори»
Отладка	Логи, breadcrumbs	Полный трейс в контексте

7. Стратегический контекст

OpenAI в квадранте Лидеров. Google [0.90, 0.85] — самый серьезный конкурент.

Общий объем AI-капитала в 2026: ~$287 млрд:

Лаборатория	Капекс/Опекс
Microsoft/OpenAI	$65B
Google DeepMind	$58B
Anthropic	$35B
Meta AI	$42B

8. Путь к 10M токенов

Прогноз: 10M+ токенов к концу 2027.

Ограничения: память (HBM растет 1.4x/год), внимание (субквадратические методы), энергия (доступность дата-центров), данные (мало связных документов на 10M токенов).

9. Контекст — это компьютер

1.5M контекстное окно GPT-5.6 — больше чем бамп характеристик. Это смена парадигмы. Переход от RAG-архитектур к контекстно-нативным приложениям так же фундаментален, как переход от пакетной обработки к интерактивным вычислениям.

Июнь 2026 — волна Claude Sonnet 4.8, Gemini 3.5 Pro, Grok 5, GPT-5.6 — знаменует момент, когда «длинный контекст» становится просто «контекстом». Приложения, которые победят, будут предполагать, что модель помнит все.

Гонка к 10 миллионам токенов — не если, а когда.

Последнее обновление: 28 мая 2026. Цены — экстраполяция из опубликованных корпоративных тарифов.