GPT‑5.5 от OpenAI: полный обзор новой агент‑модели 2026 года

Содержание:

1. Общая характеристика 2. История выпуска 3. Архитектура и базовые параметры 4. Ценообразование и доступность 5. Бенчмарки и производительность 6. Агентные возможности 7. Работа с длинным контекстом 8. Применение в профессиональных областях 9. Сравнение с конкурентами 10. Безопасность и этические аспекты 11. Реакция сообщества и индустрии 12. Примечания 13. Литература и источники

23 апреля 2026 года OpenAI официально представила GPT-5.5 — революционную агент-модель, которая поднимает ИИ на новый уровень автономности и интеллекта. Это не просто эволюция предыдущих версий, а полноценная платформа для создания «агентов», способных самостоятельно планировать, исполнять задачи и взаимодействовать с внешним миром.

Если GPT-4o был шагом к мультимодальности, то GPT-5.5 фокусируется на агентности: модель теперь может разбивать сложные запросы на шаги, использовать инструменты и даже корректировать себя в реальном времени. В этой статье разберём ключевые фичи, возможности, ограничения и перспективы внедрения.

Краткая WIKI-информация о GPT-5.5:

Идентификация

Разработчик	OpenAI
Кодовое имя	Spud
Тип	LLM, агентная, мультимодальная

Доступность

ChatGPT/Codex	23 апреля 2026
API / GitHub	24 апреля 2026
Тарифы	Plus, Pro, Business, Enterprise

Технические параметры

Контекст API	1 000 000 токенов
Контекст Codex	400 000 токенов
Архитектура	Decoder-only Transformer
Параметры	не раскрыты
Модальности	Текст + изображения

Цены (API)

Вход / 1M	$5,00
Выход / 1M	$30,00
Pro вход / 1M	$30,00
Pro выход / 1M	$180,00
Batch / Flex	×0,5 цены
Priority	×2,5 цены

Ключевые бенчмарки

Terminal-Bench 2.0	82,7% (SOTA)
GDPval	84,9%
Expert-SWE	73,1%
SWE-Bench Pro	58,6%
OSWorld-Verified	78,7%
FrontierMath T4	35,4%
FrontierMath T4 Pro	39,6%
CyberGym	81,8%
BrowseComp Pro	90,1%
BigLaw Bench	91,7%
AA Intelligence	60 / 100

GPT-5.5 (от англ. Generative Pre-trained Transformer 5.5) — проприетарная мультимодальная языковая модель (LLM) компании OpenAI, выпущенная 23 апреля 2026 года. Внутреннее кодовое название модели — «Spud» («Картофель»). [1]

GPT-5.5 является первой полностью переобученной базовой моделью (fully retrained base model) OpenAI со времён GPT-4.5: все промежуточные релизы GPT-5.1, 5.2, 5.3 и 5.4 представляли собой итерации пост-тренировки на одном и том же фундаменте. Следствием этого является то, что разрыв в производительности между GPT-5.4 и GPT-5.5 значительно превышает то, что предполагает номер версии. [2]

Модель позиционируется как наиболее интеллектуальная и интуитивная в линейке OpenAI, специально оптимизированная для агентного выполнения сложных многошаговых задач: программирования, научных исследований, операционной работы с компьютером и профессионального «knowledge work».

1. Общая характеристика

GPT-5.5 доступна в ChatGPT (тарифы Plus, Pro, Business, Enterprise), в агентной среде Codex и через OpenAI API. Для наиболее требовательных сценариев предусмотрена конфигурация GPT-5.5 Pro — та же базовая модель, использующая параллельные вычисления на этапе инференса для достижения более высокой точности. [1]

«Это новый класс интеллекта. Это большой шаг к более агентным и интуитивным вычислениям… GPT-5.5 — более быстрый и острый мыслитель при меньшем числе токенов, способный автономно справляться с многоэтапными рабочими процессами при минимальном участии пользователя.»

— Грег Брокман, президент OpenAI, брифинг для прессы, 23 апреля 2026.

2. История выпуска

Выпуску GPT-5.5 предшествовала интенсивная конкуренция на рынке frontier-моделей. 16 апреля 2026 года Anthropic выпустила Claude Opus 4.7, вернув себе лидерство в бенчмарке SWE-Bench Pro (64,3%). Ровно через неделю OpenAI ответила релизом GPT-5.5.

Промежуток между GPT-5.4 (5 марта 2026) и GPT-5.5 составил около семи недель — ещё одно свидетельство резко возросшего темпа публикации frontier-моделей. [8]

23 апреля 2026 — начало развёртывания в ChatGPT (Plus, Pro, Business, Enterprise) и Codex. 24 апреля 2026 — появление в OpenAI API (GPT-5.5 и GPT-5.5 Pro); в тот же день модель стала доступна в GitHub Copilot для тарифов Pro+, Business и Enterprise. [9] Модель также доступна через сторонних API-провайдеров: OpenRouter, ofox, Fello AI и др. [4]

3. Архитектура и базовые параметры

3.1 Архитектурный каркас

GPT-5.5 сохраняет декодерную трансформерную архитектуру (decoder-only) классической схемы авторегрессивных языковых моделей. Точное число параметров официально не раскрывается; по косвенным признакам модель относится к классу frontier с оценкой «сотни миллиардов — триллион». [2]

Ключевое отличие от GPT-5.4 и более ранних версий серии 5.x состоит в том, что архитектура, тренировочный корпус и целевые функции были полностью переработаны, а не улучшены методами пост-тренировки. Именно поэтому разрыв в производительности значительно превышает то, что обычно подразумевает инкрементальный номер версии. [7]

Модель обучена на GPU Nvidia; по данным Nvidia, её новые чипы снижают стоимость инференса моделей уровня GPT-5.5 до 35 раз на токен по сравнению с более ранними поколениями. [6]

3.2 Контекстное окно

API: 1 миллион токенов (≈ 750 000 слов, около 3000 страниц текста) — позволяет загружать целые кодовые базы среднего размера, многостраничные научные статьи, юридические своды или финансовые документы без чанкинга.

Codex: 400 000 токенов — компромисс между пропускной способностью агрессивного кеширования и стоимостью параллельных сессий. ChatGPT: по неофициальным данным, ≈ 922 000 токенов. [2]

3.3 Модальности

Входные данные: текст и изображения.
Выходные данные: текст.
Генерация изображений улучшена по сравнению с GPT-5.4 — в частности, рендеринг читаемого текста внутри изображений.

4. Ценообразование и доступность

GPT-5.5 стала самой дорогой моделью OpenAI на момент релиза: цена за 1 млн токенов удвоилась по сравнению с GPT-5.4. Вместе с тем за счёт токеновой эффективности (модель использует примерно на 40% меньше токенов на типовые задачи Codex) эффективная стоимость использования растёт примерно на 20%, а не на 100%. [3]

Ценообразование и доступность

Тариф	Направление	Цена за 1 млн токенов
GPT-5.5	Вход	$5
GPT-5.5	Выход	$30
GPT-5.5 Pro	Вход	$30
GPT-5.5 Pro	Выход	$180
Batch / Flex	Вход + Выход	×0,5 от стандартной цены
Priority	Вход + Выход	×2,5 от стандартной цены

По данным Artificial Analysis Intelligence Index, GPT-5.5 (medium) достигает того же балла интеллекта, что Claude Opus 4.7 (max), примерно за четверть стоимости (~$1 200 против ~$4 800). Gemini 3.1 Pro Preview показывает близкие результаты при ≈ $900. [3]

5. Бенчмарки и производительность

Бенчмарки и производительность - Интеллект

Бенчмарки и производительность - Скорость

5.1 Ключевые результаты

Бенчмарк	GPT-5.5	Сравнение
Terminal-Bench 2.0	82,7%	SOTA; Claude Opus 4.7: 69,4%
GDPval	84,9%	Claude Opus 4.7: 80,3%
Expert-SWE	73,1%	GPT-5.4: 68,5%
SWE-Bench Pro	58,6%	⚠️ Claude Opus 4.7 лидирует: 64,3%
FrontierMath T4	35,4% (Pro: 39,6%)	Claude Opus 4.7: 22,9%
OSWorld-Verified	78,7%	Claude Opus 4.7: 78,0%
CyberGym	81,8%	GPT-5.4: 79,0%
BrowseComp (Pro)	90,1%	Claude Opus 4.7: 79,3%

Независимая платформа Artificial Analysis оценила GPT-5.5 (xhigh) в 60 баллов на Intelligence Index (средневзвешенное по 10 бенчмаркам) — на 3 пункта выше Claude Opus 4.7 и Gemini 3.1 Pro Preview (оба — 57 баллов). [3]

Terminal-Bench 2.0 — сравнение моделей

FrontierMath Tier 4 — сложная математика

5.2 Где GPT-5.5 не лидирует

Результаты GPT-5.5 неоднородны: модель уступает конкурентам в ряде ключевых тестов:

На SWE-Bench Pro Claude Opus 4.7 набирает 64,3% против 58,6%; на SWE-Bench Verified — 87,6% (GPT-5.5 не оценивалась).
На MCP-Atlas Opus 4.7 — 77,3% против 75,3%, на MMMLU — 91,5% против 83,2%, на Finance Agent v1.1 — 64,4% против 61,5%.
На HLE (без инструментов) GPT-5.5 (41,4%) существенно уступает Claude Mythos Preview (56,8%). [3][5]

Аналитики фиксируют чёткую закономерность: GPT-5.5 лидирует в бенчмарках планирования и исполнения (Terminal-Bench, OSWorld, долгосрочный кодинг), тогда как Claude Opus 4.7 сохраняет превосходство в бенчмарках точечного разрешения кода и многоязычного понимания.

Модели конкурируют на разных осях.

5.3 Проблема галлюцинаций

По данным Artificial Analysis, на бенчмарке AA-Omniscience GPT-5.5 (xhigh) демонстрирует рекордную точность (57%), но одновременно рекордный уровень галлюцинаций — 86%.

Для сравнения: Claude Opus 4.7 (max) галлюцинирует в 36% случаев, Gemini 3.1 Pro Preview — в 50%.

Artificial Analysis, на бенчмарке AA-Omniscience GPT-5.5

GPT-5.5 более уверенно даёт правильные ответы, когда знает ответ, но чаще уверенно ошибается, когда не знает. Для агентных рабочих процессов это существенный риск: уверенное неверное действие опаснее, чем остановка и запрос уточнения. [12]

Вместе с тем реальный опыт корпоративных пользователей расходится с данными бенчмарка. CIO Bank of New York Ли-Эн Расселл, тестировавшая модель перед релизом, сообщила о «скачке в качестве ответов» и заметном снижении галлюцинаций — что критически важно для высокорегулируемого финансового учреждения. [8]

6. Агентные возможности

OpenAI позиционирует GPT-5.5 не как усовершенствованный чат-бот, а как первый шаг к полноценному агентному ИИ — системе, способной понимать сложные неструктурированные цели, формулировать план, использовать инструменты (терминал, браузер, файловую систему, API), проверять собственные промежуточные результаты, адаптироваться к неопределённости и продолжать работу без повторного вмешательства пользователя.

6.1 Агентный кодинг в Codex

Codex — агентная среда программирования OpenAI — является основной площадкой для демонстрации возможностей GPT-5.5. Токеновая эффективность при этом критична: на типовых задачах Codex GPT-5.5 использует на 40% меньше токенов, чем GPT-5.4, при том же качестве результата.

Expert-SWE — внутренний бенчмарк OpenAI для долгосрочных задач со средним расчётным временем выполнения человеком 20 часов — GPT-5.5 решает с результатом 73,1% против 68,5% у GPT-5.4. [2]

«Первая кодинг-модель, обладающая серьёзной концептуальной ясностью. GPT-5.4 не могла понять, как переписать сломанную систему. GPT-5.5 смогла.»

— Дэн Шиппер, CEO Every

«GPT-5.5 смержила ветку с сотнями изменений фронтенда и рефакторинга в основную ветку, которая тоже существенно изменилась, — за один подход, примерно за 20 минут.»

— Пьетро Скирано, CEO MagicPath

NVIDIA, развернувшая Codex для более чем 10 000 сотрудников, сообщила о сокращении циклов отладки с дней до часов и о том, что многонедельные эксперименты теперь выполняются за одну ночь.

Вице-президент по корпоративным вычислениям Nvidia Джастин Бойтано охарактеризовал GPT-5.5 как «директора штаба», помогающего управлять цепочками агентов, действующих как виртуальные сотрудники. [6]

6.2 Computer Use

На бенчмарке OSWorld-Verified (78,7%), оценивающем реальные операции с операционной системой — навигацию по интерфейсу, работу с файлами, запуск приложений — GPT-5.5 незначительно превосходит Claude Opus 4.7 (78,0%) и заметно опережает GPT-5.4 (75,0%). [2][3]

7. Работа с длинным контекстом

GPT-5.5 демонстрирует качественный скачок в извлечении информации из длинных документов. На тесте MRCR v2 (8-игольный поиск в контексте 512K–1M токенов) точность составляет примерно 74% против 36,6% у GPT-5.4 — улучшение более чем вдвое. [8]

Практические сценарии: анализ полных репозиториев; чтение научных монографий и многотомных обзоров за один проход; работа с многотомными юридическими и нормативными сводами; обработка годовых отчётов, проспектов эмиссий и материалов due diligence.

8. Применение в профессиональных областях

Юриспруденция

В оценках Harvey Legal AI на BigLaw Bench GPT-5.5 набирает 91,7% против 91,0% у GPT-5.4; 43% задач выполнены на «идеальном» уровне. Эксперты отмечают улучшенную организацию вывода, использование структурированных заголовков и более точные ссылки на документы.

Научные исследования и математика

GPT-5.5 показывает существенное улучшение на FrontierMath (35,4% на Tier 4 против 27,1% у GPT-5.4 и 22,9% у Claude Opus 4.7). Внутренние эксперименты OpenAI указывают на способность модели помогать в математических доказательствах (в частности, в теории чисел Рэмси). Фиксируются также улучшения в генетике, количественной биологии и биоинформатике.

Knowledge Work

GDPval — внутренний бенчмарк OpenAI, оценивающий модель по 44 профессиям «знаниевого труда»: от финансового анализа до юридического консультирования. Результат 84,9% отражает способность GPT-5.5 выполнять экономически ценные задачи. Внутри OpenAI Codex уже применяется департаментами разработки ПО, финансов, коммуникаций, маркетинга, data science и управления продуктами.

9. Сравнение с конкурентами

GPT-5.5 сильнее Opus 4.7
✅ Terminal-Bench 2.0: 82,7% vs 69,4% (+13 п.п.)
✅ FrontierMath Tier 4: 35,4% vs 22,9% (в 1,5×)
✅ GDPval: 84,9% vs 80,3%
✅ CyberGym: 81,8% vs 73,1%
✅ BrowseComp Pro: 90,1% vs 79,3%
✅ MRCR v2 (длинный контекст)
✅ Стоимость: в ~4× дешевле на сопоставимом уровне

Opus 4.7 сильнее GPT-5.5
❌ SWE-Bench Pro: 64,3% vs 58,6%
❌ MMMLU: 91,5% vs 83,2%
❌ MCP-Atlas: 77,3% vs 75,3%
❌ Finance Agent v1.1: 64,4% vs 61,5%
❌ Галлюцинации: 36% vs 86%

Claude Mythos Preview (Anthropic, гейтированный доступ) демонстрирует результаты выше GPT-5.5 на 6 из 9 общих бенчмарков: SWE-Bench Pro 77,8%, HLE без инструментов 56,8%, HLE с инструментами 64,7%, GraphWalks 80,0%. Однако Mythos Preview доступен только ограниченному кругу партнёров. [7]

Gemini 3.1 Pro (Google) уступает GPT-5.5 в большинстве бенчмарков. Преимущества Google: контекстное окно до 2 млн токенов, нативная мультимодальность и существенно более низкая цена ($12 за 1 млн выходных токенов против $30 у GPT-5.5).

10. Безопасность и этические аспекты

OpenAI характеризует набор защитных мер GPT-5.5 как «наиболее строгий на сегодняшний день». Перед выпуском модель прошла полный пакет оценок по Preparedness Framework, включая красное тестирование в области кибербезопасности и биологии, а также получила обратную связь от почти 200 доверенных партнёров. [10]

Классификация по уровню риска в рамках Preparedness Framework — «Высокий» (High) по биологическим, химическим и кибербезопасностным возможностям — та же, что у предшественников; критический уровень не достигнут.

Впервые OpenAI ввела уровневую политику доступа к модели по соображениям кибербезопасности, ограничивая определённые сценарии в зависимости от уровня риска. Для верифицированных исследователей введена программа Trusted Access for Cyber с расширенным доступом к кибербезопасностным функциям.

Показатель управляемости цепочки мышления (CoT controllability) у GPT-5.5 ниже, чем у GPT-5.4 Thinking: модель с меньшей вероятностью способна скрывать ход рассуждений от мониторинговых систем, что OpenAI расценивает как желательное свойство. [11]

Специфические риски возросшей агентности: автономные действия в файловой системе и коде повышают вероятность нежелательных модификаций при неточно поставленной задаче; уровень галлюцинаций 86% опасен в производственных агентных сценариях без human-in-the-loop; удвоение цены API усиливает неравенство доступа между хорошо финансируемыми и бюджетными исследовательскими группами.

11. Реакция сообщества и индустрии

Hacker News: разработчики указали, что реальный разрыв между 5.4 и 5.5 значительно больше, чем предполагает номер версии, поскольку это полное переобучение, а не пост-тренировочный апгрейд. [7]

VentureBeat охарактеризовал релиз как «не картошку» («It’s No Potato»): GPT-5.5 задаёт новый стандарт агентного ИИ, хотя отрыв от Claude Mythos Preview на Terminal-Bench 2.0 оказался минимальным (82,7% против 82,0% у Mythos в базовой конфигурации).

TechCrunch описал GPT-5.5 как наиболее явный шаг OpenAI к консолидированному «AI super app», поглощающему повседневные компьютерные задачи. [8]

Reddit: пользователи отметили лимит в 200 сообщений GPT-5.5 в неделю для тарифа Plus как существенное снижение эффективного объёма использования по сравнению с GPT-5.4. [10]

Исследовательское сообщество сосредоточилось на вопросах методологии оценки агентных ИИ, прозрачности и верификации автономно сгенерированных результатов.

12. Примечания

Точное количество параметров официально не раскрыто; по косвенным признакам — «сотни миллиардов — триллион».
Контекстное окно 1 млн токенов доступно только через API; в Codex — 400K; в ChatGPT — ≈ 922K (неофициально).
GPT-5.5 Pro использует ту же базовую модель, что и GPT-5.5, с параллельными вычислениями test-time compute для повышения точности.
Уровень галлюцинаций 86% замерен на бенчмарке AA-Omniscience и отражает склонность к уверенным неверным ответам; не следует путать с общей фактической точностью на задачах с известным ответом.
GPT-5.5 является первой полностью переобученной базовой моделью OpenAI с GPT-4.5; предыдущие версии 5.1–5.4 — пост-тренировочные итерации на том же фундаменте.

13. Литература и источники

[1] OpenAI. Introducing GPT-5.5. openai.com/index/introducing-gpt-5-5/ (23 апр. 2026).
[2] OpenAI. GPT-5.5 System Card. openai.com/index/gpt-5-5-system-card/ (обновлено 24 апр. 2026).
[3] Artificial Analysis. GPT-5.5 is the New Leading AI Model. artificialanalysis.ai (23 апр. 2026).
[4] Fello AI. GPT-5.5 Released: Everything You Need to Know. felloai.com (24 апр. 2026).
[5] ofox.ai. GPT-5.5: First Fully Retrained Base Model Since GPT-4.5. ofox.ai (24 апр. 2026).
[6] Axios / Mills M., Fried I. OpenAI releases «Spud» GPT-5.5 model. axios.com (23 апр. 2026).
[7] VentureBeat. OpenAI’s GPT-5.5 Is Here and It’s No Potato. venturebeat.com (23 апр. 2026).
[8] Fortune. OpenAI launches GPT-5.5 just weeks after GPT-5.4. fortune.com (23 апр. 2026).
[9] GitHub Changelog. GPT-5.5 is generally available for GitHub Copilot. github.blog/changelog/ (24 апр. 2026).
[10] CNBC. OpenAI announces latest artificial intelligence model. cnbc.com (23 апр. 2026).
[11] OpenAI. GPT-5.5 System Card — Deployment Safety Hub. deploymentsafety.openai.com/gpt-5-5 (2026).
[12] Handy J. Model Drop: GPT-5.5. handyai.substack.com (23 апр. 2026).
[13] TechCrunch. OpenAI ChatGPT GPT-5.5 AI Model Superapp. techcrunch.com (23 апр. 2026).
[14] NVIDIA Blog. OpenAI Codex GPT-5.5 AI Agents. blogs.nvidia.com (24 апр. 2026).