12 сентября 2024 года компания OpenAI официально представила свои новейшие усовершенствованные модели GPT-o1, которые значительно улучшили научные, кодовые и математические возможности. Новые модели, названные OpenAI o1, OpenAI o1-preview и OpenAI o1-mini, доступны с сегодняшнего дня для пользователей ChatGPT Plus, а модель o1-mini планируется выпустить для бесплатных пользователей Chat GPT позднее.
OpenAI стала одним из главных лидеров эры генеративного ИИ. Разработанный компанией ChatGPT является одним из самых популярных и широко используемых примеров генеративного ИИ, основанного на семействе больших языковых моделей GPT, или LLM. По состоянию на сентябрь 2024 года основными моделями, используемыми в ChatGPT, являются GPT-4o и GPT-3.5.
В течение нескольких недель в августе и в сентябре 2024 года распространялись сообщения о новой модели от OpenAI под кодовым названием «Strawberry». Изначально было неясно, является ли Strawberry преемником GPT-4o или чем-то другим.
Но сегодня, тайна скрывавшаяся за Strawberry, развеялась с официальным запуском моделей OpenAI o1, включая o1-preview и o1-mini.
Что такое OpenAI GPT-o1?
OpenAI o1 — это семейство LLM от OpenAI, которое было оптимизировано с улучшенной функциональностью рассуждений.
Модели o1 изначально задумывались как предварительные модели, разработанные для того, чтобы предоставить пользователям, а также OpenAI, другой тип опыта работы с LLM, чем модель GPT-4o. Как и все LLM OpenAI, o1 является моделью-трансформером. С ее помощью можно обобщать контент, генерировать новый контент, отвечать на вопросы и писать код приложения.

В отличие от предыдущих моделей OpenAI, модели o1 созданы для того, чтобы лучше рассуждать. То есть вместо того, чтобы просто как можно быстрее дать ответ и использовать базовый трансформаторный подход к взвешиванию и пониманию того, какое слово или слова относятся друг к другу, o1 «думает» о том, какой подход является правильным для решения проблемы.
Процесс рассуждения о заданной проблеме в ответ на запрос пользователя призван обеспечить потенциально более точный ответ на некоторые типы сложных запросов. В отличие от предыдущих моделей, серия o1 тратит больше времени на обработку информации перед ответом. Модели o1 нацелены на решение сложных задач, требующих многоэтапных рассуждений и сложных стратегий решения проблем.
Основная стратегия, используемая OpenAI для рассуждений, — это побуждение к цепочке мыслей, когда модель шаг за шагом решает проблему в итеративном режиме. При разработке o1 использовались передовые методы обучения, такие как обучение с подкреплением.
Первоначальный запуск в сентябре 2024 года включал две модели:
- OpenAI o1-preview — отлично справляется со сложными задачами.
- OpenAI o1-mini — представляет собой более компактную и экономичную версию o1.
Что может OpenAI o1?
OpenAI o1 может выполнять множество задач, как и любая другая GPT-модель OpenAI — например, отвечать на вопросы, обобщать контент и генерировать новый контент.
Как продвинутая модель рассуждений, GPT-o1 особенно хорошо подходит для определенных задач и случаев использования, включая следующие:
- Расширенные рассуждения. Модели o1 оптимизированы для сложных задач рассуждения, особенно в области STEM (наука, технологии, инженерия и математика).
- Мозговой штурм и разработка идей. Расширенные способности модели к рассуждениям делают ее полезной для генерирования творческих идей и решений в различных контекстах.
- Научные исследования. Модели o1 идеально подходят для различных типов научно-исследовательских задач. Например, o1 может аннотировать данные секвенирования клеток и обрабатывать сложные математические формулы, необходимые в таких областях, как квантовая оптика.
- Кодирование. По данным OpenAI, модели o1 эффективно генерируют и отлаживают код, демонстрируя высокие результаты в таких бенчмарках, как HumanEval и Codeforces. Модели также эффективны при построении и выполнении многоэтапных рабочих процессов для разработчиков.
- Математика. По данным OpenAI, o1 превосходит предыдущие модели компании в математических тестах. В отборочном экзамене Международной математической олимпиады (IMO) o1 показал точность 83 %, в то время как GPT-4o — 13 %. Математические возможности o1 были проверены с высокими результатами и в других конкурсах по математике, включая Американский пригласительный экзамен по математике (AIME). Потенциально математические возможности модели могут быть использованы для создания сложных математических формул для физиков.
- Самостоятельная проверка фактов. Модели o1 могут самостоятельно проверять факты, повышая точность своих ответов.

Впечатляющая производительность модели OpenAI o1 в бенчмарк-тестах
Одним из наиболее значимых аспектов моделей OpenAI o1 является их производительность в строгих бенчмарк-тестах. Например:
- В Международной математической олимпиаде (IMO) модель OpenAI o1 набрала впечатляющие 83 %, в то время как GPT-4o — всего 13 %.
- В конкурсе Codeforces новая модель достигла 89-го процентиля, в то время как GPT-4o остался на 11-м процентиле.
Дополнительные бенчмарки еще больше подчеркивают возможности модели o1:
- Бенчмарк MMLU: OpenAI o1 набрал 92,3 балла.
- Бенчмарк MATH: OpenAI o1 показал замечательный результат — 94,8 балла.
OpenAI утверждает, что в задачах, требующих серьезных рассуждений, модели o1 вплотную приблизились к результатам человеческих экспертов, что является значительным скачком в технологии искусственного интеллекта.

Как использовать OpenAI o1
Пользователи и организации могут использовать модели o1 несколькими способами.
- Пользователи ChatGPT Plus и Team. Модели o1-preview и o1-mini доступны непосредственно для пользователей ChatGPT Plus и Team с 12 сентября. Пользователи могут выбрать модель вручную в подборщике моделей.
- Пользователи ChatGPT Enterprise и Education. OpenAI обязался предоставить доступ к обеим моделям с 19 сентября 2024 года.
- Бесплатные пользователи ChatGPT. На момент запуска бесплатные пользователи ChatGPT не имеют доступа к моделям o1. В будущем OpenAI планирует предоставить доступ к o1-mini всем бесплатным пользователям.
- Разработчики API. Разработчики могут получить доступ к o1-preview и o1-mini через API OpenAI.
- Сторонние сервисы. Многие сторонние сервисы сделали модели доступными, включая Microsoft Azure AI Studio и GitHub Models.
Рассуждения с OpenAI o1
Каковы ограничения OpenAI o1
Как предварительный набор моделей для ранней итерации нового типа LLM, он имеет ряд ограничений, в том числе следующие:
- Недостаток функций. На момент запуска в моделях o1 отсутствуют возможности просмотра веб-страниц, обработки изображений и загрузки файлов.
- Ограничения API. На момент запуска существует целый ряд ограничений на API, ограничивающих модели. Вызов функций и потоковая передача данных изначально не поддерживаются. Также на этапе предварительного просмотра ограничен доступ к параметрам завершения чата.
- Время отклика. Пользователи OpenAI привыкли ожидать быстрых ответов с минимальными задержками. Но модели o1 изначально медленнее предыдущих из-за более тщательных процессов рассуждения.
- Ограничения скорости. Для пользователей ChatGPT Plus или Team OpenAI изначально ограничила использование o1-preview до 30 сообщений в неделю, а для 01-mini — до 50 сообщений в неделю. 16 сентября 2024 года OpenAI увеличил лимит для o1-preview до 50 сообщений в неделю, а для o1-mini — до 50 сообщений в день.
- Стоимость. Для пользователей API OpenAI o1 стоит дороже, чем предыдущие модели, включая GPT-4o.
Как OpenAI o1 повышает безопасность
В рамках выпуска моделей o1 OpenAI также публично выпустила Системную карту — документ, описывающий оценку безопасности и рисков, которые были проведены во время разработки модели. В нем подробно описано, как модели оценивались с помощью разработанной OpenAI системы оценки рисков в таких областях, как кибербезопасность, убеждение и автономность модели.
- Цепные рассуждения. Модели o1 используют крупномасштабное обучение с подкреплением для проведения сложных рассуждений перед ответом. Это позволяет им совершенствовать процесс генерации и распознавать ошибки. В результате они могут лучше следовать конкретным рекомендациям и политикам модели, что повышает их способность предоставлять безопасный и подходящий контент.
- Повышенная устойчивость к джейлбрейку. Модели o1 демонстрируют значительные улучшения в противостоянии джейлбрейку. В бенчмарке Strong Reject, который проверяет устойчивость к распространенным атакам из литературы, o1-preview и o1-mini показали лучшие результаты, чем GPT-4o.
- Улучшено соблюдение контентной политики. В тесте Challenging Refusal Evaluation, который проверяет способность модели отклонять небезопасный контент по таким категориям, как домогательства, разжигание ненависти и незаконная деятельность, o1-preview получает оценку «небезопасно» 0,934, что выше, чем у GPT-4o — 0,713.
- Улучшенное смягчение предвзятости. На эталоне Bias Benchmark для оценки качества, который проверяет демографическую справедливость, o1-preview выбирает правильный ответ в 94 % случаев на однозначные вопросы, по сравнению с 72 % у GPT-4o. Модели также демонстрируют улучшенную производительность при оценке использования расы, пола и возраста при принятии решений, при этом o1-preview в целом превосходит GPT-4o.
- Четкий мониторинг безопасности. Резюме цепочки мыслей, предоставляемые моделями o1, предлагают новый подход к мониторингу безопасности. При анализе 100 000 синтетических подсказок только 0,79 % ответов o1-preview были отмечены как потенциально обманчивые, причем большинство из них были скорее галлюцинациями, чем намеренным обманом.
GPT-4o против OpenAI o1
В таблице представлено сравнение моделей GPT-4o и o1 от OpenAI и показан ряд различий между ними.
| Модель | GPT-4o | GPT-о1 |
| Дата выхода | Май 13, 2024 | 12 сентября 2024 |
| Варианты моделей | Одна модель | Два варианта: o1-preview и o1-mini |
| Способности к рассуждению | Хорошая производительность | Улучшенные рассуждения, особенно в областях STEM |
| Показатели эффективности | 13% на математической олимпиаде | 83% на математической олимпиаде, точность на уровне доктора философии в STEM |
| Мультимодальные возможности | Работает с текстом, изображениями, аудио и видео | В основном ориентирован на работу с текстом и развивает возможности работы с изображениями |
| Контекстное окно | 128K токенов | 128K токенов |
| Скорость | В два раза быстрее предыдущих моделей | Меньше за счет большего количества процессов рассуждения |
| Стоимость (за миллион токенов) | Вход: $5; Выход: $15 | o1-preview: $15 вход, $60 выход; o1-mini: $3 вход, $12 выход |
| Доступность | Широко доступны все продукты OpenAI | Ограниченный доступ для конкретных пользователей |
| Функции | Включает просмотр веб-страниц, загрузку файлов | Не хватает некоторых функций GPT-4o, таких как просмотр веб-страниц |
| Безопасность и выверенность | Уделено внимание мерам безопасности | Улучшены меры безопасности, повышена устойчивость к джейлбрейку |