Новый чатбот ChatGPT o1 от OpenAI отлично разбирается в науке и побеждает ученых-докторов наук в сложных научных тестах. Но он может «галлюцинировать» больше, чем его предшественники.
Исследователи, помогавшие тестировать новую модель большого языка OpenAI o1, говорят, что она представляет собой большой шаг вперед с точки зрения полезности чатботов для науки.
«В моей области квантовой физики она дает значительно более подробные и связные ответы», чем предыдущая модель компании, GPT-4o, говорит Марио Кренн, руководитель лаборатории искусственных ученых в Институте Макса Планка по науке о свете в Эрлангене, Германия.
Кренн был одним из нескольких ученых в «красной команде», которая тестировала предварительную версию o1 для OpenAI, технологической компании из Сан-Франциско (Калифорния), подвергая бота испытаниям и проверяя его на безопасность.
С момента публичного запуска Chat GPT в 2022 году большие языковые модели, на которых работают такие чат-боты, стали в среднем больше и лучше, с большим количеством параметров, или узлов принятия решений, большими наборами обучающих данных и более сильными способностями в различных стандартизированных тестах, или бенчмарках.
OpenAI утверждает, что серия o1 — это шаг вперед в подходе компании. Отличительной особенностью этой модели искусственного интеллекта (ИИ), по мнению наблюдателей, является то, что она проводит больше времени на определенных этапах обучения и дольше «думает» над своими ответами, что делает ее более медленной, но более способной — особенно в тех областях, где правильные и неправильные ответы могут быть четко определены.
Компания добавляет, что o1 «может решать сложные задачи и решать более трудные проблемы, чем предыдущие модели в области науки, кодирования и математики». На данный момент o1-preview и o1-mini — более компактная и экономичная версия, подходящая для кодирования, — доступны для платных клиентов и некоторых разработчиков на пробной основе. Компания не раскрывает подробностей о том, сколько параметров и какая вычислительная мощность лежит в основе моделей o1.
Победа ChatGPT o1 над докторами наук
Эндрю Уайт, химик из FutureHouse, некоммерческой организации в Сан-Франциско, которая занимается вопросами применения ИИ в молекулярной биологии, говорит, что наблюдатели были удивлены и разочарованы общим отсутствием улучшений в способности чат-ботов поддерживать научные задачи за последние полтора года, с момента публичного выпуска GPT-4. Серия o1, по его словам, изменила ситуацию.
Следующий уровень модели GPT o1: Диаграмма показывает, что новейшая крупная языковая модель OpenAI o1, превосходит предыдущую лучшую модель GPT-4o, в стандартизированном тесте

Поразительно, но o1 стала первой большой языковой моделью, победившей ученых уровня доктора философии в самой сложной серии вопросов — «бриллиантовом» наборе — в тесте под названием Graduate-Level Google-Proof Q&A Benchmark (GPQA). OpenAI утверждает, что ее ученые набрали чуть менее 70 % в GPQA Diamond, а o1 — 78 %, причем особенно высокий результат — 93 % — был получен в области физики. По словам Дэвида Рейна, который входил в состав команды, разработавшей GPQA, это «значительно выше, чем у самого лучшего из представленных чатботов».
Сейчас Рейн работает в некоммерческой организации Model Evaluation and Threat Research, расположенной в Беркли, Калифорния, которая занимается оценкой рисков ИИ.
«Мне кажется правдоподобным, что это представляет собой значительное и фундаментальное улучшение основных возможностей модели в области рассуждений», — добавляет он.
OpenAI также протестировала o1 на отборочном экзамене к Международной математической олимпиаде. Его предыдущая лучшая модель, GPT-4o, правильно решила только 13 % задач, в то время как o1 набрал 83 %.
Цепочка мышления OpenAI o1
OpenAI o1 работает, используя логическую цепочку: в попытке решить задачу он проговаривает про себя ряд шагов рассуждений, корректируя их по ходу дела.

OpenAI решила скрыть детали каждой конкретной цепочки мыслей — отчасти потому, что цепочка может содержать ошибки или социально неприемлемые «мысли», а отчасти для того, чтобы защитить секреты компании, связанные с тем, как работает модель. Вместо этого o1 предоставляет пользователю реконструированное резюме своей логики, а также свои ответы. По словам Уайта, пока неясно, будет ли полная цепочка мыслей, если ее раскрыть, похожа на человеческие рассуждения.
Новые возможности не обходятся без компромиссов. Например, OpenAI сообщает, что, по некоторым данным, модели o1 галлюцинируют — придумывают неправильные ответы — чаще, чем их предшественники (хотя внутреннее тестирование компании показало несколько меньшую частоту галлюцинаций для o1).
Ученые из «красной команды» отметили множество способов, с помощью которых o1 помогла разработать протоколы для научных экспериментов, но OpenAI утверждает, что тестировщики также «обратили внимание на отсутствие информации о безопасности, относящейся к вредным действиям, например, не указали на взрывоопасные предметы или предложили неподходящие методы сдерживания химических веществ, что указывает на непригодность модели для решения задач физической безопасности с высоким риском».
«Она все еще не идеальна и не настолько надежна, чтобы вы не захотели тщательно проверять ее», — говорит Уайт.
Он добавляет, что o1 больше подходит для руководства экспертами, чем новичками. По его словам, «новичок не сможет сразу проверить протокол, созданный с помощью o1, и понять, что он „не соответствует действительности“».
Решатели научных задач
Кренн считает, что o1 ускорит развитие науки, помогая просканировать литературу, увидеть, чего не хватает, и предложить интересные направления для будущих исследований. Он успешно подключил o1 к разработанному им инструменту под названием SciMuse. «Это создает гораздо больше интересных идей, чем GPT-4 или GTP-4o», — говорит он.
Кайл Кабасарес, специалист по изучению данных из Института экологических исследований района залива в Моффетт-Филд, Калифорния, использовал o1 для воспроизведения некоторых кодов из своего докторского проекта, в котором рассчитывалась масса черных дыр.
«Я был просто в восторге», — говорит он, отмечая, что o1 потребовалось около часа, чтобы выполнить то, на что у него ушли многие месяцы.
Кэтрин Браунштейн, генетик из Бостонской детской больницы в Массачусетсе, говорит, что в настоящее время больница тестирует несколько систем искусственного интеллекта, включая o1-preview, для решения таких задач, как установление связи между характеристиками пациента и генами редких заболеваний. По ее словам, o1 «более точен и предоставляет варианты, которые, как мне казалось, невозможно получить от чатбота».
Красиво, без воды. Все по делу. Четко!!