Большие языковые модели (LLM) GPT-4 и чат-бот ChatGPT стали доступными инструментами для генерации англоязычных текстов в различных форматах. Ранее GPT-4 показала хорошие результаты, когда ее применяли к вопросам из нескольких стандартизированных экзаменов.
Однако перед использованием GPT-4 в качестве справочного ресурса необходимо провести дальнейшую оценку достоверности и точности ответов GPT-4 в различных областях знаний. Здесь мы оценили работу GPT-4 на девяти выпускных экзаменах по биомедицинским наукам (семь из них — вслепую) и обнаружили, что оценки GPT-4 превышают средние оценки студентов в семи из девяти случаев и превышают все оценки студентов на четырех экзаменах. GPT-4 показал отличные результаты в вопросах с заполнением пустого места, краткими ответами и эссе, а также правильно ответил на несколько вопросов о цифрах, взятых из опубликованных рукописей.
И наоборот, GPT-4 плохо справился с вопросами с рисунками, содержащими симулированные данные, и с вопросами, требующими ответа от руки. Два набора ответов GPT-4 были отмечены как плагиат на основании схожести ответов, а некоторые модельные ответы включали подробные галлюцинации. Помимо оценки эффективности GPT-4, мы обсуждаем закономерности и ограничения в возможностях GPT-4 с целью информирования о разработке будущих академических экзаменов в эпоху чатботов.
Введение
Методы искусственного интеллекта (ИИ) на основе больших языковых моделей (LLM) стали оказывать значительное и разрушительное влияние на многие языковые задачи, которые традиционно были прерогативой исключительно человека. В ноябре 2022 года OpenAI выпустила чат-бота Chat Generative Pre-Trained Transformer (ChatGPT) для широкой публики через веб-интерфейс, обеспечив широкий доступ к GPT-3.5 LLM и резко снизив барьеры для его использования. GPT-3.5 усовершенствовал своих предшественников, внедрив концепции «обучения с подкреплением и обратной связью с человеком» из родственной модели OpenAI InstructGPT что позволило ему давать ответы, более соответствующие намерениям запросов, чем его предшественники.
Чат GPT ознаменовала собой заметный рост очевидных возможностей LLM и была признана многими как значительное улучшение по сравнению с другими доступными моделями. С момента своего появления ChatGPT и другие LLM (Google Gemini, Perplexity) способствовали широкому внедрению технологии генерации текстов для решения задач в различных областях и сферах деятельности.
Одним из ярких примеров является быстрое внедрение ChatGPT студентами университетов для написания эссе и выполнения заданий, что нарушило многие существующие парадигмы оценки в высшем образовании.
Одним из основных улучшений GPT-3.5 по сравнению с предшественниками является его способность отвечать на большую долю вопросов фактологически верными ответами, содержащими логически последовательные рассуждения. Модель GPT-4, выпущенная OpenAI в марте 2023 года (вскоре после этого она была включена в качестве опции в ChatGPT), еще больше развивает эту способность, улучшая генерацию ответов, содержащих поэтапное логическое и критическое мышление. Учитывая, что модели GPT были разработаны как инструменты общего назначения для создания человекоподобного текста, интересно предположить, что последующие итерации ChatGPT могут функционировать как способные «движки ответов» для доступа к фактической информации и ее форматирования.
Однако одним из известных ограничений моделей GPT (и LLM в целом) является их склонность к «галлюцинациям», когда модель выдает ответы с вымышленной или неверной информацией с той же уверенностью, что и фактические правильные ответы. Эта особенность обусловлена природой разработки и обучения этих моделей: их основной функцией является изучение шаблонов слов в англоязычном тексте и стохастическая природа, в которой генерируются ответы LLM.
Одним из ярких примеров галлюцинаций ChatGPT является генерация реалистичных ссылок на вымышленные источники, что уже привело к тому, что сгенерированные GPT ссылки на несуществующие судебные дела были представлены в юридической записке в Нью-Йорке (хотя ChatGPT теперь сопровождает некоторые вымышленные ссылки отказом от ответственности).
Поскольку ChatGPT и GPT-4 продемонстрировали значительный потенциал и уже используются в дисциплинах, требующих точных результатов, очень важно охарактеризовать качество ответов в различных областях знаний. С этой целью в качестве эталонов базы знаний и возможностей модели использовались результаты LLM по вопросам с множественным выбором из стандартизированных экзаменов как по широкому кругу вопросов, так и по конкретным дисциплинам. К ним относятся экзамен для юристов и лицензионные медицинские экзамены США (USMLE) по медицине. На этих экзаменах модель GPT-3.5 получила неудовлетворительную оценку на экзамене для адвокатов, а на экзаменах на получение лицензии на медицинскую деятельность — оценку на уровне или близкую к проходному порогу.
В отличие от нее, модель GPT-4 получила проходной балл на экзамене по праву (на уровне 90-го процентиля) и примерно на 20 процентных пунктов превысила проходной порог для вопросов медицинского экзамена USMLE, что является значительным улучшением, учитывая короткий промежуток времени между выпуском этих моделей.
Использовались и другие оценки обучающихся, в том числе вопросы по генетике человека, учебные программы подготовки врачей, отдельные экзаменационные вопросы, а также вопросы из профессиональных сертификатов и экзаменов в комиссии по нескольким медицинским специальностям. Однако стандартизированные экзамены часто имеют обширные учебные ресурсы, доступные в Интернете для обучающихся, включая большие наборы примеров вопросов и ответов.
Поскольку эти учебные материалы могли быть включены в тренировочные данные GPT-4, такие как Common Crawl, стандартизированные экзамены могут не дать точной оценки базы знаний и возможностей модели в конкретной области. Кроме того, если наборы оценочных данных в значительной степени зависят от «образцов» вопросов для конкретной оценки, набор вопросов (и, соответственно, результаты) может не отражать глубину и распределение тем в реальном экземпляре соответствующего экзамена. Поэтому для оценки эффективности GPT-4 вне контекста стандартизированных экзаменов необходимо использовать другие эталоны.
В данном исследовании мы оценили способность GPT-4 отвечать на вопросы девяти выпускных экзаменов для научных стажеров в области биомедицинских наук. В этой области академические курсы, необходимые для получения степени доктора философии (Ph.D.), обычно включают вопросы со свободным ответом, требующие как фоновых знаний, так и навыков критического мышления. Поэтому мы ожидаем, что эти экзамены станут надежным критерием способности GPT-4 давать правильные и логически последовательные ответы на вопросы экспертного уровня. Мы изучаем влияние нескольких стилей запросов GPT-4 (шаблонов подсказок) и напрямую сравниваем результаты с успеваемостью студентов. Чтобы уменьшить потенциальную предвзятость при оценке ответов GPT-4, в большинстве экзаменов оценивание проводится вслепую.
В большинстве случаев мы обнаружили, что один или все наборы ответов GPT-4 соответствуют или превышают средний балл студентов по предмету, а по нескольким предметам все оценки GPT-4 превышают все оценки студентов. Мы также описываем примеры, когда ответы GPT-4 плохо соотносятся с оценками студентов, и случаи, когда похожие ответы были отмечены как плагиат.
Эти результаты дают возможность оценить возможности и точность ответов GPT-4 в научных контекстах, сосредоточившись на широком спектре биомедицинских дисциплин с использованием типов вопросов, не относящихся к стандартным экзаменационным материалам. Кроме того, наша оценка способности GPT-4 отвечать на экзаменационные вопросы для выпускников помогает определить дизайн будущих экзаменов в эпоху чат-ботов и смягчить потенциальное злоупотребление студентами LLM.
Результаты работы GPT на выпускных экзаменах
Курсы-участники
Для участия в исследовании было набрано девять курсов, охватывающих такие области, как вирусология, микробиология, клеточная физиология, генетика и геномика, биоинформатика, молекулярная биология, эпидемиология рака, биостатистика и генетическая этика. Ответы на экзаменационные вопросы GPT-4 были получены с использованием 1-3 различных подходов параллельно, как показано в таблице 1.
Для подхода «GPT4-Simple» мы использовали минимальную подсказку перед тем, как предоставить GPT4 экзаменационные вопросы, в то время как для подходов «GPT4-Expert» и «GPT4-Short» мы использовали шаблон подсказки персоны с инструкцией выступить в роли «эксперта» в соответствующей области и включали обширные инструкции по длине и оформлению ответа, как показано на рис. 1.
Рисунок №1: Шаблоны промптов, используемые для запросов GPT-4

Экзаменационные вопросы в основном содержали краткий ответ (от 1/4 до 1/2 страницы), а также вопросы типа «заполни пустое место», «эссе» и «диаграмма-рисунок». Некоторые вопросы включали в себя графический научный рисунок или диаграмму в качестве ключевой информации.
Поскольку на момент проведения исследования мультимодальный ввод данных в модели GPT еще не был общедоступен, каждый рисунок или диаграмма были преобразованы в текстовое описание для заданий. Для каждого курса от одного до трех наборов ответов GPT-4 оценивались преподавателями курса в том же формате, что и студентами-выпускниками (N = 2-8), причем в 7 из 9 экзаменов слепое оценивание проводилось параллельно с экзаменами студентов.
После выставления оценок (и снятия ослепления) преподаватели предоставили анонимную информацию об успеваемости студентов для сравнения с оценками GPT-4 и ответили на вопросы анкеты, в которой высказывались мнения о GPT-4 и его возможном будущем влиянии на академические курсы.
Таблица №1: Выпускные курсы с экзаменами, сданные GPT-4
| Курс | Тип экзамена | Оценивание | Доступ | Формат |
|---|---|---|---|---|
| GMS6035 Advanced Virology II: РНК- вирусы | Финал | Частичный | ChatGPT | Документ |
| GMS6038: генетика и физиология бактерий | Финал | Нет | API GPT-4 | Текст |
| GMS6473: Фонд. Физики. и развлечений. Геномика | Финал | Полный | API GPT-4 | Текст |
| PHC7007: Эпидемиология рака | Финал | Полный | API GPT-4 | Текст |
| GMS6231: Геномика и биоинформатика | Первокурсники | Полный | API GPT-4 | Текст |
| PCB5065: Продвинутая генетика | Первокурсники | Полный | API GPT-4 | Текст |
| BCH6415: Адв. Молекулярная и клеточная биология | Первокурсники | Полный | API GPT-4 | Текст |
| GMS6221: Генетическая этика | Первокурсники | Полный | API GPT-4 | Текст |
| PHC6052: введение. к биостатистическим методам | Первокурсники | Полный | API GPT-4 | Текст |
Результаты экзамена GPT-4
Сравнивая индивидуальные оценки по курсу GPT-4 с результатами работы студентов, можно сказать, что ответы GPT-4 на 7 из 9 экзаменов (77 %) были оценены на уровне или выше среднего студенческого балла, превысив результаты всех студентов в 4 из 9 случаев (44 %), как показано на рис. 2 и в Дополнительной таблице 1.

Для GMS6231 (Геномика и биоинформатика) два набора ответов, сгенерированных GPT-4, первоначально получили 100% баллов, но были отмечены как плагиат на основании высокой степени сходства между ответами (итоговый балл — 0%). Подробная информация о конкретном контексте и оценках по каждому экзамену представлена в Дополнительных данных.
В целом, средние показатели GPT-4 по всем курсам (с использованием исходных баллов по GMS6231) немного превышали средние показатели по курсу для каждого подхода (от +0,3% до +3,2%), хотя эти различия не были статистически значимыми (от p = 0,62 до p = 0,92), как показано в Дополнительной таблице 1. Показатели между шаблонами подсказок GPT4-Simple и GPT4-Expert также существенно не различались: GPT4-Simple оказался выше GPT4-Expert в 2/8 случаев, когда использовались оба шаблона (N = 8, p = 1,0). Аналогично, GPT4-Simple превысил оценку GPT4-Short в 2/3 случаев, но разница не была статистически значимой (N = 3, p = 0,36).
Выполнение вопросов, содержащих рисунки
Хотя большинство экзаменов состояло исключительно из текстовых вопросов, два экзамена содержали вопросы с рисунками, которые были переведены в текст для ввода в GPT-4, как описано в Методике. На каждом из этих экзаменов показатели GPT-4 были ниже среднего уровня студентов. В GMS6035 (Advanced Virology II: RNA Viruses) GPT-Expert набрал на -0,14% меньше среднего студенческого балла, а в PCB5065 (Advanced Genetics) GPT4-Simple и GPT4-Expert набрали на -37,65% и -34,65% меньше среднего студенческого балла, соответственно (Дополнительная таблица 1).
Чтобы проверить, соответствуют ли экзамены с включением рисунков значительному изменению показателей модели, мы разделили экзамены на те, в которых присутствовали рисунки, и те, в которых они отсутствовали. Сравнивались средние групповые показатели разницы в баллах GPT-4 (разница между средним баллом студента и средним баллом GPT-4) при наличии одной или нескольких фигур в вопросах (N = 2, -18,14 % ± 25,47 % по сравнению со средним баллом студента [среднее ± среднеквадратичное]) и без фигур (N = 7, +7,79 % ± 8,08 % по сравнению со средним баллом студента), и разница между группами оказалась статистически не значимой (p = 0,38, коэффициент дисперсии 9,93).
Чтобы проверить, содержит ли база знаний GPT-4 информацию о конкретных опубликованных научных рисунках, был выполнен ряд исследовательских запросов. В одном из вопросов, получившем полную оценку GPT4-Expert, требовалось интерпретировать рисунок из исследования 2016 года Брунера и др. о дефектных провирусах ВИЧ. Когда ChatGPT (GPT-4) попросили предоставить описание этого рисунка, он ответил, что не имеет доступа к этой информации, но предоставил предположение о предполагаемом содержании, которое близко соответствовало реальному рисунку.
Интересно, что дальнейшие повторные запросы с использованием API GPT-4 дали смесь аналогичных отрицаний того, что модель может предоставить эту информацию (N = 15/25), перемежающихся с отчетливыми, очень подробными галлюцинаторными описаниями вымышленного рисунка, приписываемого публикации (N = 10/25), которые часто сопровождались интерпретацией значимости вымышленных результатов.
Результаты опроса
После выставления оценок преподавателям участвующих курсов были предоставлены опросники восприятия с вопросами в свободной форме о влиянии GPT-4 на образование. Большинство респондентов выразили удивление качеством ответов GPT-4 (N = 7/13), и значительное большинство выразило обеспокоенность тем, что LLM будут использоваться студентами для генерации ответов, даже если это будет запрещено (N = 10/13).
Ответы относительно будущего влияния GPT-4 на обучение студентов были неоднозначными: респонденты предположили, что GPT-4 может стать эффективным фактологическим ресурсом или инструментом для обобщения текста, но в то же время выразили опасения, что использование этого инструмента может помешать развитию творческих способностей студентов, умения писать и навыков критического мышления.
Обсуждение
Недавнее появление таких способных чат-ботов, как ChatGPT, привело к быстрому внедрению возможностей ИИ по созданию текстов во многих областях и уже начало менять парадигмы в научном образовании. Удобная доступность GPT-4 и других моделей LLM теперь позволяет людям из широкого круга областей получить доступ к языковым инструментам ИИ без предыдущего опыта в этой области.
Для студентов и специалистов в области биомедицинских наук (как и во многих других областях знаний) возможность получить экспертную «машину ответов», способную четко и правильно отвечать на научные вопросы, весьма привлекательна. Однако, учитывая, что модели LLM могут убедительно представлять неверную информацию и не гарантируют правильных ответов, возможности и надежность этих новых методов нуждаются в тщательной проверке перед широким применением для этих целей.
В нашем исследовании мы обнаружили, что GPT-4 справляется с экзаменами по биомедицинским наукам на уровне выше среднего или исключительного студента-выпускника. GPT-4 отлично справился с текстовыми вопросами с кратким ответом и заполнением пустого места, а также получил самые высокие оценки за множественные вопросы с эссе.
Однако мы также обнаружили, что GPT-4 плохо справляется с вопросами, основанными на рисунках с моделируемыми данными, и с инструкциями к вопросам, требующим ответа от руки. В ходе изучения базы знаний GPT-4 мы дополнительно наблюдаем случаи детального моделирования галлюцинаций научных фигур с реалистичной суммарной интерпретацией этих результатов. В совокупности эти результаты демонстрируют возможности и потенциал использования LLM в качестве инструмента в науке, но также показывают необходимость осторожности при использовании текущих итераций GPT-4 и ChatGPT для генерации текста, содержащего фактические утверждения и интерпретации.
Результаты экзаменов по GPT-4
На большинстве экзаменов один или несколько вариантов ответов GPT-4 соответствовали средним показателям студентов курса в 7 из 9 экзаменов и превышали все оценки студентов в 4 из 9 случаев. Однако результаты работы GPT-4 не были одинаково высокими: ответы GPT-4 показали низкие результаты на экзамене, который включал в себя обширную интерпретацию научных цифр смоделированных данных и рисунков: 41,6% для GPT4-Simple и 44,6% для GPT4-Expert по сравнению с 79,3% ± 10,10% студентов.
Поскольку в период сбора данных (март-май 2023 г.) ChatGPT и GPT-4 допускали только текстовый ввод, этот результат представляет собой потенциальное ограничение нашего подхода к предоставлению модели неинтерпретированных описаний рисунков, и точность модели может быть повышена, если рисунки описаны на специфическом для данной области или техническом языке, который, вероятно, можно найти в соответствующих учебных данных. Учитывая недавнее расширение возможностей ввода изображений в GPT-4 (и ChatGPT), текущая и будущие версии модели могут обладать большей способностью отвечать на вопросы, содержащие научные рисунки, используя прямой ввод изображений рисунков в модель, что должно быть изучено в дальнейшей работе.
Однако GPT-4 справился не со всеми вопросами, содержащими рисунки. Продвинутый экзамен по вирусологии содержал 7 из 13 вопросов, основанных на интерпретации рисунков, и GPT4-Expert получил на этом экзамене 91,0% баллов, что почти соответствует среднему показателю студентов — 91,14%. Одно из возможных отличий в этом результате по сравнению с экзаменом по углубленной генетике заключается в том, что надписи, прилагаемые к рисункам на экзамене по углубленной вирусологии, были более подробными, включая полную подпись к рисунку в одном случае, что дало GPT-4 больше материала для интерпретации вопросов.
Кроме того, рисунки в вопросах по продвинутой вирусологии были выбраны из опубликованных журнальных статей, которые могли быть включены в обучающие данные модели. Например, в одном из вопросов упоминается исследования 2016 года Брунера и др. о дефектных провирусах ВИЧ, причем текстовое описание этого рисунка было подготовлено и предоставлено ChatGPT вместе с текстом вопроса. За этот вопрос GPT4-Expert получил полную оценку. Хотя база знаний GPT-4, по-видимому, не содержала данных о конкретном рисунке, она позволила угадать содержание рисунка в наших исследовательских запросах.
Галлюцинации GPT-4 при интерпретации научных рисунков
Наше исследование модельных знаний о научных фигурах также дало интересный пример модельных галлюцинаций. Использование паттерна личности GPT4-Expert для запроса описания рисунка Брунера и др. сначала привело к убедительной галлюцинации вымышленного рисунка.
После 24 повторных попыток выполнить тот же запрос еще 9 ответов содержали аналогичные описания галлюцинаторных фигур (с разным содержанием), приписываемых Брунеру и другим, а остальные содержали либо просьбы описать фигуру, либо отрицание того, что модель может предоставить такую информацию. Такой разброс в ответах на фактический запрос подчеркивает стохастическую природу ответов LLM и демонстрирует риск полагаться на современные языковые модели как на источник информации.
Частота возникновения таких галлюцинаций может быть связана с параметром «температуры» модели, который напрямую влияет на случайность в ответах модели12. Поскольку этот параметр может играть важную роль как в правильности ответов, так и в обнаружении сгенерированных LLM экзаменационных ответов, в дальнейшей работе следует изучить его влияние на точность ответов на фактологические вопросы.
Влияние шаблонов запросов на оценки GPT-4
Поскольку содержание и стиль ответов на GPT могут зависеть от конкретных инструкций к запросу, мы сравнили влияние двух различных шаблонов подсказок на оценки. Это были «нулевой» шаблон подсказки (GPT4-Simple) и два варианта шаблона «персона» (GPT4-Expert и GPT4-Short), как показано на рис. 1. Последовательные экзаменационные вопросы также задавались по возможности в одном и том же контекстном окне GPT-4, неявно следуя схеме подсказки «цепочка мыслей», в которой ответы на предыдущие вопросы могут повлиять на ответ на следующий вопрос.
Хотя эта стратегия была использована для оптимизации работы GPT-4 в целом по каждому соответствующему экзамену (и имитирует потенциальный реальный случай использования), в будущей работе можно сравнить работу, когда GPT-4 предоставляются отдельные экзаменационные вопросы в независимых сессиях запросов.
Вопреки нашим ожиданиям, шаблон подсказки, использованный для запроса GPT-4, не оказал существенного влияния на оценку ответов. Шаблон GPT4-Simple, содержащий минимальное предисловие к вопросам, получил схожие оценки с шаблоном GPT4-Expert, содержащим обширные инструкции по работе в качестве эксперта в данной области, включая инструкции по форматированию и длине ответа (полные тексты подсказок приведены в Дополнительных методах). С качественной точки зрения, хотя ответы в этих методах различались по формату в соответствии с инструкциями, они часто субъективно казались очень похожими по содержанию. При анализе уровня оценки Флеша-Кинкейда ответов на вопрос-пример оба метода дали ответы на уровне среднего образования: GPT4-Simple — 15,1, а GPT4-Expert — 18,6.
Эти результаты могут означать перспективу использования этой модели в качестве «движка ответов», предполагая, что точность научных ответов модели не будет сильно зависеть от того, будет ли модель проинструктирована действовать как «эксперт». Однако существует и альтернативная возможность того, что в данном случае на ответы повлияли формулировки экспертного уровня в конкретном тексте экзаменационных вопросов, которые могли вызвать определенный тип (и, возможно, точность) ответа. Таким образом, прежде чем использовать этот метод для этих целей, необходимо провести дополнительные исследования для оценки достоверности ответов в нескольких доменах с повторными запросами.
Подход GPT4-Short был разработан в ответ на наши первоначальные наблюдения о том, что ответы GPT-4 были более многословными, чем мог бы дать студент, даже если бы ему были даны конкретные инструкции по длине и краткости ответа, как в случае с подсказкой GPT4-Expert. Поэтому мы разработали стратегию использования отдельного шаблона подсказки GPT4-Expert, но затем итеративно направили GPT-4 на сокращение каждого ответа примерно до 65 % от первоначального объема (рис. 1).
С качественной точки зрения, такой подход приводил к тому, что ответы более точно соответствовали длине ответа студента, но часто приводил к потере потенциально важных деталей из ответов, а не к увеличению «краткости», которая может наблюдаться у студента, пытающегося написать эффективно за ограниченное время. Кроме того, этот процесс не привел к значительному снижению уровня оценки по шкале Флеша-Кинкейда в примерах ответов: 18,6 баллов для GPT4-Expert и 16,1 баллов для GPT4-Short, как показано в Дополнительных данных.
В курсе «Эпидемиология рака» ответы GPT4-Simple и GPT4-Expert показались особенно многословными, и GPT4-Short получил более высокий балл по сравнению с ними (GPT4-Short: 74,3% против GPT4-Simple: 70,0% и GPT4-Expert: 70,0%). Однако на двух других курсах GPT4-Short получил оценку на ~13% ниже, чем GPT4-Simple и GPT4-Expert, причем в комментариях преподавателя указывалось на отсутствие деталей в нескольких ответах, которые не были отмечены в соответствующих оценках GPT4-Expert.
Использование ChatGPT в высшем образовании
По нашим наблюдениям, ChatGPT находит все большее применение как среди преподавателей, так и среди студентов. Преподаватели используют ChatGPT для создания названий презентаций, содержания слайдов, экзаменационных вопросов и написания рекомендательных писем. Студенты активно используют ChatGPT в качестве справочного ресурса для создания практических тестов, цифровых флэш-карт, создания мнемоник для запоминания, поиска анекдотической информации и краткого изложения журнальных статей и рисунков.
Однако мы также наблюдали, как студенты использовали ChatGPT для выполнения заданий, таких как написание эссе и исследовательских работ, обобщение журнальных статей, проведение статистического анализа и создание решений для задач по программированию. После снятия ослепления с результатов GPT-4 большинство преподавателей, ответивших на опросы, выразили как удивление качеством ответов GPT-4 на научные вопросы экспертного уровня, так и беспокойство по поводу потенциального использования студентами LLM.
Поскольку использование студентами методов генеративного текста для выполнения заданий может препятствовать развитию необходимых навыков критического мышления, решения проблем и письма, методы академического обучения и оценки должны быть адаптированы для сохранения эффективности и целостности в свете возможностей моделей GPT-4, продемонстрированных в данном исследовании (а также будущих, усовершенствованных моделей LLM).
Тенденции в ответах на вопросы GPT-4
Помимо оценки возможностей GPT-4, наши результаты дают представление о модификации оценок студентов по мере роста возможностей и доступности чат-ботов для LLM. Программа UF Genetics and Genomics Graduate Program требует от всех студентов первого курса PhD сдачи комплексных экзаменов по пяти обязательным курсам первого года обучения (Advanced Genetics, Introduction to Biostatistics, Ethics in Genetics, Genomics and Bioinformatics и Advanced Molecular and Cellular Biology).
Эти экзамены пишутся и оцениваются преподавателями курсов первого года обучения. В мае 2023 года после проверки двух экзаменационных ответов, сгенерированных GPT-4, в дополнение к студенческим экзаменам, преподаватели курсов встретились с администраторами программы, чтобы разблокировать и обсудить результаты, а также обсудить способы «защиты от GPT» будущих экзаменов.
До разблокировки большинство преподавателей правильно угадывали, какие ответы были сгенерированы GPT. Преподаватели отметили несколько тенденций, отличающих ответы GPT-4 от ответов студентов:
- Ответы GPT-4 на вопросы, требующие интерпретации экспериментальных данных, были длинными, чрезмерно многословными и часто включали точную, но незапрашиваемую информацию и/или объясняли простые идеи, которые были очевидны, но не требовались для ответа, например, описание квадратного графика или теста ANOVA.
- В ответах на эссе, состоящих из нескольких параграфов, в разных наборах ответов GPT-4 использовалась явно схожая организация и формулировки, например, первый параграф начинался со слов «В данном исследовании…», а последний — с «В заключении/резюме…». Эти различия позволили преподавателям провести четкое различие между ответами GPT-4 и студентов.
- Ответы GPT-4 на вопросы, требующие интерпретации смоделированных экспериментальных данных, единообразно получали наихудшие оценки, например, «0 — нет подсказки».
- И наоборот, ответы GPT-4 на вопрос эссе по базовым знаниям «Объясните, как нуклеотидное разнообразие, измеренное в популяции, связано с ее эффективным размером и скоростью мутаций у вида» получили отличные оценки.
- Ответы GPT-4 на вопросы, которые требовали от студентов нарисовать или интерпретировать диаграмму или произвести расчеты на основе диаграммы с моделируемыми данными, как правило, получали самые низкие баллы.
- Ответы GPT-4 на вопросы с кратким ответом были правильными на 100 %.
- Ответы GPT-4 на многоэтапные статистические вопросы были правильными на 100%. Преподаватель полагал, что включение многоступенчатых и коротких вопросов, которые ссылаются на информацию, полученную только в предыдущих вопросах, затруднит правильные ответы в GPT-4, но это предположение оказалось неверным.
- В двух из пяти вопросов эссе ответы GPT-4 получили наивысшие оценки.
- Ответы GPT-4 на вопросы эссе, которые требовали от студентов включения и ссылок на конкретные материалы курса, получили более низкие оценки, чем ответы студентов.
- Ответы на вопросы эссе по этике приносили хорошие оценки (B и B+), но оценивались преподавателем, проводившим оценку, как общие, безвкусные или лишенные убежденности. В них часто не было четкой позиции (хотя занятие позиции было частью вопроса), отсутствовали четкие рассуждения, конкретные примеры, подтверждающие тезисы, и общая последовательность действий.
Вопрос эссе по геномике и биоинформатике, ответы GPT-4 на который были отмечены как плагиат, касался конкретного метода (Perturb-seq и протеомика одной клетки) и соответствующей журнальной статьи, в которой студентов просили объяснить подход, ограничения и последние достижения. В целом ответы GPT-4 на вопросы эссе отличались настолько, что преподаватели не думали, что их писал один и тот же человек — более четкие инструкции в вопросах в случае с плагиатом могли побудить ответы GPT-4 принять более схожие формулировки и организацию ответов.
Интересно, что в аналогичном вопросе, в котором ссылались на конкретный метод и соответствующую журнальную статью, но также включали аннотацию статьи, ответы GPT-4 получили самые высокие оценки за вопрос, не вызывая опасений в плагиате.
Модификация экзаменов для эпохи чат-ботов
Учитывая значительную способность моделей LLM отвечать на вопросы по логике и рассуждениям на экзаменах по биомедицинским наукам, отмеченную в нашем исследовании, мы принимаем ряд рекомендаций по адаптации оценок для наших будущих курсов. Важно отметить, что многие из наших наблюдений о формате, длине и стиле ответов, рассмотренных выше, основаны на оценке неотредактированных ответов, предоставленных GPT-4.
Как и в случае с другими неоригинальными источниками эссе и экзаменационных ответов, достаточно мотивированный студент мог использовать первоначальный черновик ответа ChatGPT и адаптировать его, чтобы он соответствовал его собственному голосу и был выдержан в требуемом объеме. Кроме того, для принятия мер по подозрению в плагиате требуются прямые доказательства, а окончательное обнаружение контента LLM остается серьезной проблемой.
Таким образом, в рекомендациях по повышению устойчивости вопросов к GPT для наших курсов мы сосредоточились на систематических препятствиях и разработке вопросов, а не на выявлении шаблонов и форматировании. Для очных и дистанционных экзаменов мы считаем, что использование политики «без устройств» и/или защищенных сред тестирования должно предотвращать доступ к LLM так же, как и к другим запрещенным источникам информации.
Для очных экзаменов и заданий на эссе мы принимаем следующие рекомендации:
- Составлять вопросы, включающие сложные рисунки, основанные на смоделированных данных, которые необходимо интерпретировать или использовать в качестве части ответа (в нашем исследовании GPT-4 получил низкие баллы по вопросам, основанным на смоделированных данных, представленных в виде рисунков).
- Составляйте вопросы, требующие от студентов нарисовать рисунок в качестве части ответа.
- Избегайте вопросов с короткими ответами или вопросов, требующих базовых, элементарных знаний, которые легко найти в Интернете.
В дополнение к этим предложениям мы рассмотрели и другие способы, с помощью которых LLM-методы могут быть обойдены или обнаружены, если они используются студентами для генерации ответов.
Однако после дальнейшего обсуждения мы определили, что каждый из этих способов можно обойти (список приведен ниже):
1. В вопросах для эссе требуйте от студентов ссылаться на различные материалы курса, например, слайды лекций.
- Этой стратегии можно противостоять, скопировав/вставив текст соответствующего материала курса в ChatGPT или использовав программный скрипт для подачи слайдов курса в качестве фона для вопроса в API OpenAI.
2. Требуйте, чтобы ответы содержали конкретные ссылки на опубликованные журнальные статьи.
- Студенты могут итеративно направлять ChatGPT на включение информации из конкретных ссылок, копируя рефераты или абзацы по мере необходимости.
GPT-4 как справочный ресурс
Несмотря на то, что методы генеративного текста, вероятно, станут неотъемлемым инструментом во многих областях будущего, важно оценить возможности LLM по многим темам и типам ответов, прежде чем полагаться на эти новые инструменты для получения точной информации. Это особенно актуально для использования LLM в образовании или в качестве справочного ресурса, так как полностью ложные ответы могут быть практически неотличимы от фактов.
Высокая точность, которую мы наблюдаем в ответах GPT-4 на экзаменационные вопросы выпускников, демонстрирует способность модели генерировать правильные ответы на многие научные вопросы экспертного уровня. Однако GPT-4 плохо справился с вопросами, содержащими текстовые описания смоделированных данных, и мы наблюдали несколько случаев подробных галлюцинаций GPT-4, когда его спрашивали о научном ресурсе.
Общий высокий уровень эффективности GPT-4 на экзаменах также указывает на то, что формат многих научных экзаменов может потребовать адаптации, чтобы уменьшить соблазн для студентов незаконно обратиться к этому легкодоступному ресурсу. Таким образом, хотя мы считаем, что пользователи не должны полагаться исключительно на современные LLM, такие как GPT-4, в качестве источников справочной информации, подобные модели могут вскоре стать удобными и надежными экспертными ресурсами во всех науках.
Методы
Включенные курсы и формат экзамена
Преподаватели 9 курсов по биомедицинским наукам в Университете Флориды (UF) согласились принять участие в исследовании после набора по электронной почте. Экзамены, включенные в исследование, проводились с марта по май 2023 года для студентов курсов либо лично на бумажном носителе, либо через защищенную веб-систему для проведения тестов, либо через рассылку текстового документа, в котором ответы заполнялись студентом в незащищенной среде.
Экзаменационные вопросы в основном были составлены в стиле короткого ответа (от 1/4 до 1/2 страницы), также включали вопросы с заполнением пустого места, эссе и рисование диаграмм. Несколько вопросов включали научный рисунок или диаграмму в качестве вспомогательной информации.
Метод и форматирование вопросов GPT-4
Ответы на вопросы для одного экзамена (GMS6035: Advanced Virology II: RNA Viruses final examination) были сгенерированы с помощью интерактивного использования GPT-4 через ChatGPT. Для остальных курсов использовался API OpenAI для запроса GPT-4 с помощью пользовательского скрипта, написанного на Python3.8 с использованием модуля OpenAI python.
Запросы на экзаменационные вопросы были сделаны к модели «gpt-4» между 2023-05-06 и 2023-06-16 с помощью openai.ChatCompletion.create(model=’gpt-4′, prompt=[prompts]) из модуля OpenAI python со значениями по умолчанию для других параметров вызова. Этот скрипт и примеры результатов предоставлены на GitHub. Ответы для каждой комбинации экзамена и шаблона подсказки генерировались с помощью независимых чат-сессий с ChatGPT или независимых сессий доступа к API OpenAI.
Для экзаменов, проводимых на бумаге, экзаменационные вопросы переписывались в текстовую форму одним из сотрудников исследования. Для экзаменов, распространяемых в цифровом виде, содержание экзаменационных вопросов копировалось из исходного текстового документа и преобразовывалось в обычный текст для ввода в соответствующий метод запроса.
Если в вопросе не был указан предполагаемый объем ответа, объем предполагаемого ответа (1/2 страницы, 1/3 страницы и т. д.) определялся по пустому месту после вопроса в соответствующем экзаменационном бланке, и рядом с идентификатором вопроса помещалась аннотация, указывающая на предполагаемый объем ответа в запросах к GPT-4.
Поскольку на момент проведения исследования мультимодальные изображения для GPT-4 не были общедоступны, вопросы, содержащие рисунки, были изменены путем замены каждого рисунка на соответствующее текстовое описание в вопросе. Чтобы избежать предвзятости со стороны персонала исследования, рисунки не интерпретировались и описывались путем создания текстового описания каждой формы, цвета, метки, номера и надписи на рисунке и их взаимного расположения. Также включались любые текстовые описания рисунков.
Шаблоны промптов GPT-4
Содержание и стиль ответов, предоставляемых моделями GPT, могут зависеть от конкретных инструкций, содержащихся в запросе. Таким образом, мы сравнили параллельное использование трех вариантов двух различных стилей инструкций (шаблонов подсказок), чтобы проследить их потенциальное влияние на результаты оценки.
Оценивались следующие варианты:
- GPT4-Simple — шаблон промпта «нулевого выстрела», в котором каждый вопрос напрямую задавался GPT-4 без конкретных инструкций по формату экзаменационного ответа;
- GPT4-Expert — шаблон персоны, в котором GPT-4 инструктировался отвечать как эксперт в области знаний теста с конкретными инструкциями по оформлению ответа;
- GPT4-Short — шаблон персоны, включающий те же инструкции, что и GPT4-Expert, но с последующими инструкциями в последующем запросе по сокращению каждого ответа на 65 %.
Последовательные экзаменационные вопросы задавались по возможности в одном и том же контекстном окне GPT-4, также имплицитно следуя шаблону подсказки «цепочка мыслей», где ответы на предыдущие вопросы могут повлиять на ответ на текущий вопрос. Пример каждой использованной схемы подсказки приведен в разделе «Дополнительные методы».
Форматирование и оценивание ответов GPT-4
После создания ответов GPT-4 ответы GPT-4 были скопированы в соответствующий документ в соответствии с форматом экзамена. Поскольку сотрудники исследования имеют значительный опыт в изучении тем данного исследования, наши процедуры были разработаны таким образом, чтобы минимизировать добавление предвзятости в ответы GPT-4 путем точного копирования ответов GPT-4 в экзаменационные бланки.
Если ответы включали компонент рисования от руки, сотрудник исследования рисовал схему, следуя инструкциям, представленным в ответе GPT-4, как можно точнее, чтобы исключить свои собственные релевантные фоновые знания, при этом любые соответствующие ответы на один и тот же вопрос из разных подходов (GPT4-Simple и т. д.) рисовались другим сотрудником исследования.
На всех экзаменах ответы, подготовленные с помощью GPT-4, были либо вписаны от руки в экзаменационный бланк, либо скопированы в соответствующие места, чтобы соответствовать стилю ответов студентов. Любые нарисованные от руки диаграммы для ответов были сфотографированы и включены в бланк ответов в качестве изображения, чтобы соответствовать стилю ответов студентов.
По мере возможности, учитывая логистические ограничения, источники ответов были «слепыми» для преподавателей, выставляющих оценки, при этом оценка семи экзаменов (и части еще одного) проводилась параллельно со студентами соответствующего курса с использованием «слепых» идентификаторов. Описание привязки экзаменов приведено в табл. 1.
Сбор данных об успеваемости студентов
Для сбора информации об успеваемости студентов на включенных экзаменах исследование было определено протоколом IRB202301291 Совета по институциональному надзору Университета Флориды как исключающее исследования, поэтому информированное согласие не требовалось и не собиралось. В
се соответствующие методы проводились в соответствии с действующими инструкциями и правилами. Затем у директоров курсов была собрана анонимная информация об оценках студентов, соответствующих экзаменам, сданным по GPT-4.
Преобразование буквенных оценок в цифровые
При необходимости буквенные оценки, выставленные за экзамены студентам и GPT-4, переводились в цифровые путем выбора среднего балла из диапазона, традиционно используемого учебным персоналом для выставления оценок (с округлением до ближайшего целого числа). Рубрики: «A+/A»: 96, «A-«: 92, «B+»: 89, «B»: 85, «B-«: 82, «C+»: 79, «C»: 76, «C-«: 72.
Статистический анализ
Анализ данных по оценкам проводился в Microsoft Excel 365. Средние арифметические значения наборов оценок рассчитывались с помощью функции =AVERAGE(), а выборочные стандартные отклонения — с помощью функции =STDEV.S(). Для сравнения средних оценок студентов с оценками GPT-4 и между наборами оценок GPT-4 проводились парные Т-тесты с двумя хвостами с помощью =T.TEST([Range1], [Range2],).
Разница в баллах («GPT4-Expert Diff» и т. д.) рассчитывалась путем вычитания среднего экзаменационного балла студента из соответствующего балла GPT-4. Для сравнения средних оценок GPT-4 между условиями с рисунком и без рисунка сначала рассчитывалась средняя разница баллов GPT-4 для каждого экзамена с помощью функции =AVERAGE() для всех значений разницы баллов GPT-4 для каждого соответствующего экзамена.
Затем выборочная дисперсия в наборах средних вычислялась с помощью =VAR.S() для каждого условия, а отношение дисперсий между наборами вычислялось с помощью =([Var1]/[Var2]). Для сравнения между условиями был выбран двухфакторный t-тест с неравной дисперсией, который рассчитывался с помощью функции =T.TEST([Range1], [Range2]).
Опросы
Для сбора мнений преподавателей был разработан инструмент опроса, который был определен протоколом ET00018705 Совета по институциональному надзору Университета Флориды как исключающий исследования, поэтому информированное согласие не требовалось и не собиралось. Все соответствующие методы проводились в соответствии с действующими правилами и нормами.
Данный инструмент был предоставлен преподавателям курса после выставления оценок и снятия ослепления результатов GPT-4 и студентов. Инструмент исследования был разработан в виде серии вопросов со свободным текстом. Для обобщения ответов на вопросы, сотрудники исследования оценивали основную тему каждого ответа. Если ответ однозначно относился к категории «да против нет» или «положительный против отрицательного», он учитывался как таковой, в противном случае он помечался как «неопределенный» или «другой» в зависимости от конкретного вопроса.
Исследовательские запросы к ChatGPT и GPT-4
Исследовательские запросы к GPT-4 через ChatGPT, как показано на Дополнительном рис. 1, были выполнены в период с 2023-06-27 по 2023-07-11, как указано на каждом соответствующем рисунке, через chat.openai.com.
Для исследовательских запросов на знание моделей рисунков, выполняемых через OpenAI API, была выбрана модель «gpt-4-0314», чтобы отразить модель, используемую в вопросах экзамена по продвинутой вирусологии. Запросы выполнялись с помощью пользовательского скрипта в период с 2023-07-16 по 2023-08-25 с использованием процедуры.
Примеры ответов GPT-4 для каждого шаблона запроса
Для образца экзаменационного вопроса, представленного в Дополнительных данных, примеры ответов для каждой подсказки были сгенерированы через доступ к модели OpenAI API «gpt-4» с помощью пользовательского скрипта 2023-07-16 с использованием процедуры, описанной выше (см. раздел «Доступность данных»).
Уровень оценки по шкале Флеша-Кинкейда для каждого ответа был рассчитан с помощью Microsoft Word 365. Каждый ответ копировался в отдельный документ, и для расчета уровня оценки ответа использовался инструмент Review (вкладка) → Editor (кнопка) → Document stats (кнопка).
Подготовка рукописи
Рисунки для рукописи создавались с помощью Graphpad Prism и Microsoft PowerPoint с использованием цветов, выбранных из цветовой схемы Bang Wong, дружественной для слепых53. Текстовое редактирование осуществлялось с помощью Microsoft Word и EndNote. При подготовке текста данной рукописи не использовались LLM или чат-боты.
Доступность данных
Скрипт Python3, используемый для запроса к API OpenAI, и примеры результатов доступны на сайте https://github.com/dstrib/GPT4_Biomed_Assessment и через Zenodo54. Конкретные экзаменационные вопросы, использованные в исследовании, могут быть доступны по запросу с разрешения профессора, предоставившего вопрос.
Индивидуальные оценки студентов не включены в доступные данные исследования в целях обеспечения конфиденциальности.