GPT-5.2 Pro — лучший ИИ для математики. Результаты теста FrontierMath

Содержание:

GPT-5.2: От 2% до 29% — год невероятного прогресса Цена гениальности OpenAI

Представьте себе задачу, над которой профессиональный математик бьётся несколько дней. Теперь представьте, что искусственный интеллект чат ГПТ решает её за минуты.

Ещё год назад это было фантастикой, но сегодня — это реальность, подтверждённая цифрами.

GPT-5.2: От 2% до 29% — год невероятного прогресса

Всего 12 месяцев назад лучшие языковые модели справлялись лишь с 2% задач на FrontierMath — самом строгом экзамене по математике для ИИ. Казалось, до серьёзных результатов ещё далеко. Но 30 декабря 2025 года произошло то, что многие называют «математическим Саппоро»: GPT-5.2 Pro от OpenAI набрала 29,2% в самой сложной категории Tier 4.

Для сравнения: предыдущий лидер, Gemini 3 Pro от Google, показал 18,8%. А модель Claude Opus 4.5 от Anthropic решила только две задачи из 48, набрав скромные 4,2%.

Что такое FrontierMath и почему Tier 4 — это высшая лига?

FrontierMath — не обычный тест. Это собрание нескольких сотен оригинальных задач, созданных и проверенных профессиональными математиками.

Уровень Tier 4 включает 50 особо сложных задач из:

Теории чисел
Алгебраической геометрии
Теории категорий
Других разделов высшей математики

На типичную задачу этого уровня у исследователя уходит несколько часов, на самые трудные — несколько дней. GPT-5.2 Pro решила 14 из 48 таких задач. Для ИИ это все равно что выиграть чемпионат мира по шахматам, играя вслепую.

Не только вершина, но и основа

На более простых уровнях (Tier 1-3) картина тоже впечатляет:

GPT-5.2 Thinking (специальная «размышляющая» версия): 40,7%
Gemini 3 Pro: 37,6%
Claude Opus 4.5: около 21%

Производительность модели искусственного интеллекта на FrontierMath

Интересно, что «просто» GPT-5.2 Pro показывает на этих уровнях результат хуже, чем её «размышляющая» версия — 28,4%. Это говорит о важности специализированных подходов к решению задач.

Цена гениальности OpenAI

Такие способности не дешёвы. OpenAI просит $21 за миллион входных токенов и $168 за миллион выходных для GPT-5.2 Pro — это одна из самых дорогих моделей на рынке.

Для сравнения: более простые модели стоят в разы дешевле. Но, судя по всему, за возможность получить «сверхчеловеческого математика» в аренду многие готовы платить.

Уже не теория: реальные доказательства

Прогресс вышел за рамки лабораторных тестов. В недавней работе исследователей Марка Селке и Стивена Ина все доказательства по проблеме монотонности в статистической теории обучения были получены вариантами GPT-5.2 Pro. Люди только формулировали задачи и проверяли результаты.

На Reddit активно обсуждается прогноз исследователя из xAI о появлении «сверхчеловеческого математика» к июню 2026 года. Учитывая, что всего за год прогресс составил от 2% до 29%, это уже не кажется фантастикой.

Что дальше?

Резкий скачок в математических способностях ИИ открывает новые горизонты:

Ускорение научных исследований
Помощь в решении ранее не поддававшихся проблем
Новые методы обучения математике
Возможность проверки человеческих доказательств

Конечно, ИИ ещё далеко до полного понимания математики как науки — он решает задачи, но не создаёт новые теории. Однако темпы прогресса заставляют задуматься: а что будет через ещё год? Если динамика сохранится, к концу 2026 года ИИ может решать большинство задач уровня Tier 4.

Математика всегда считалась эталоном человеческого мышления. Теперь у нас появился серьёзный конкурент. И судя по всему, он только разминается.