Когда люди оценивают результаты работы языковой модели, получаются умные чат-боты. OpenAI утверждает, что добавление ИИ в цикл поможет сделать их еще умнее и надежнее.
Одним из ключевых компонентов, обеспечивших Chat GPT бешеный успех, была армия людей-тренеров, которые давали модели искусственного интеллекта, стоящей за ботом, указания о том, что считать хорошими и плохими результатами. Теперь OpenAI утверждает, что добавление еще большего количества искусственного интеллекта для помощи людям-тренерам может помочь сделать ИИ-помощников умнее и надежнее.
При разработке ChatGPT компания OpenAI впервые использовала метод обучения с подкреплением и обратной связью с человеком, или RLHF (рус. ОПОО). Эта техника использует данные, полученные от людей-тестеров, для тонкой настройки модели ИИ, чтобы ее вывод был более последовательным, менее неприятным и более точным. Оценки, выставляемые тестировщиками, поступают в алгоритм, который управляет поведением модели. Эта техника оказалась крайне важной как для повышения надежности и полезности чат-ботов, так и для предотвращения их неправильного поведения.

RLHF действительно работает очень хорошо, но у нее есть несколько ключевых ограничений, — говорит Нэт МакАлис, исследователь из OpenAI, участвующий в новой работе. С одной стороны, человеческая обратная связь может быть непоследовательной. С другой стороны, даже опытным людям может быть трудно оценить чрезвычайно сложные результаты, такие как сложный программный код». Кроме того, процесс может оптимизировать модель таким образом, что результаты будут казаться убедительными, а не точными.
OpenAI разработала новую модель, доработав свою самую мощную модель GPT-4
OpenAI разработала новую модель, доработав свою самую мощную модель GPT-4, чтобы помочь людям, которым предстоит оценивать код. Компания обнаружила, что новая модель, получившая название CriticGPT, способна находить ошибки, которые пропускают люди, и что человеческие судьи считают ее критику кода более точной в 63 процентах случаев. В будущем OpenAI планирует распространить этот подход не только на код.
«Мы начинаем работу над интеграцией этой техники в наш стек чатов RLHF», — говорит МакАлис. Он отмечает, что подход несовершенен, так как CriticGPT может ошибаться и из-за галлюцинаций, но добавляет, что методика может помочь сделать модели OpenAI и инструменты вроде ChatGPT более точными за счет уменьшения ошибок при обучении людей. Он также добавляет, что эта методика может оказаться решающей для того, чтобы помочь моделям ИИ стать намного умнее, поскольку она может позволить людям помочь обучить ИИ, который превосходит их собственные возможности. «А поскольку модели продолжают становиться все лучше и лучше, мы подозреваем, что людям понадобится больше помощи», — говорит МакАлис.
Новая методика — одна из многих, которые сейчас разрабатываются для улучшения больших языковых моделей и выжимания из них больше возможностей. Это также часть усилий, направленных на то, чтобы ИИ вел себя приемлемым образом, даже когда он становится все более способным.
Ранее в этом месяце компания Anthropic, конкурент OpenAI, основанная бывшими сотрудниками OpenAI, объявила о создании более способной версии своего чатбота под названием Claude, благодаря усовершенствованию режима обучения модели и данных, которые ей предоставляются. Anthropic и OpenAI также недавно рассказали о новых способах проверки моделей ИИ, чтобы понять, как они приходят к своему результату, чтобы лучше предотвратить нежелательное поведение, например, обман.
Новая методика может помочь OpenAI обучать все более мощные модели ИИ
Новая методика может помочь OpenAI обучать все более мощные модели ИИ, обеспечивая при этом их достоверность и соответствие человеческим ценностям, особенно если компания успешно применит ее не только в коде, но и в других областях. OpenAI заявила, что обучает свою следующую крупную модель ИИ, и компания, очевидно, стремится показать, что она серьезно относится к обеспечению ее поведения.
Это произошло после того, как была распущена известная команда, занимавшаяся оценкой долгосрочных рисков, связанных с ИИ. Эту команду возглавлял Илья Суцкевер, соучредитель компании и бывший член совета директоров, который ненадолго вытеснил генерального директора Сэма Олтмена из компании, после чего отказался от своих слов и помог ему вернуть контроль. Несколько членов этой команды с тех пор критиковали компанию за рискованные действия, поскольку она спешит разработать и коммерциализировать мощные алгоритмы искусственного интеллекта.

Дилан Хэдфилд-Менелл, профессор Массачусетского технологического института, изучающий способы согласования ИИ, говорит, что идея о том, чтобы модели ИИ помогали обучать более мощные модели, возникла уже давно. «Это вполне естественное развитие событий», — говорит он.
Хэдфилд-Менелл отмечает, что исследователи, первоначально разработавшие методы, используемые в RLHF, обсуждали подобные идеи несколько лет назад. По его словам, еще предстоит выяснить, насколько применимой и мощной она окажется в целом. «Возможно, это приведет к большим скачкам в индивидуальных способностях, а в долгосрочной перспективе станет ступенькой к более эффективной обратной связи», — говорит он.