Появление больших языковых моделей (LLM), таких как ChatGPT, знаменует собой ключевой прогресс в области искусственного интеллекта, меняющий ландшафт анализа и обработки данных. Имитируя общественное мнение, ChatGPT демонстрирует многообещающие результаты в содействии разработке государственной политики.
Однако сохраняются проблемы, связанные с его применимостью во всем мире и тенденциозностью в демографических показателях и темах. В нашем исследовании используются социально-демографические данные из исследования мировых ценностей для оценки эффективности ChatGPT в различных контекстах. Результаты указывают на значительные различия в показателях, особенно при сравнении стран. Модели лучше работают в западных, англоязычных и развитых странах, особенно в Соединенных Штатах, по сравнению с другими.
Различия также проявляются между демографическими группами, демонстрируя предубеждения, связанные с полом, этнической принадлежностью, возрастом, образованием и социальным классом. Исследование дополнительно выявляет тематические предубеждения при моделировании политики и окружающей среды. Эти результаты подчеркивают необходимость повышения репрезентативности LLM и устранения погрешностей, обеспечивая их справедливую и эффективную интеграцию в исследования общественного мнения наряду с традиционными методологиями.
Общественное мнение имеет решающее значение
Общественное мнение имеет решающее значение для формирования политических решений, особенно в демократических обществах, где оно отражает предпочтения, озабоченности и приоритеты электората (Burstein, 2003). Этот цикл обратной связи позволяет директивным органам оставаться настроенными на потребности своих избирателей, способствуя подотчетности и быстрому управлению (Хатчингс, 2005). Хотя традиционные методы сбора общественного мнения, такие как опросы и интервью, дают ценную информацию, они сталкиваются с такими проблемами, как низкий процент ответов, потенциальная предвзятость и трудности в достижении репрезентативности. Например, длительные опросы, в частности, рискуют снизить вовлеченность респондентов из-за их обширного характера (Диллион и др., 2023).
К счастью, недавние достижения в области искусственного интеллекта (ИИ), особенно больших языковых моделей (LLM), таких как ChatGPT, предлагают новый подход к дополнению традиционных методов сбора общественного мнения, поскольку они способны быстро отвечать на множество вопросов (Lee et al., 2023). Эта эффективность в сочетании со способностью обрабатывать и анализировать обширные текстовые данные позволяет LLM выявлять информацию об общественных настроениях, которую часто упускают из виду обычные методы (Ray, 2023).
Роль генеративных LLM в социальных науках получает все большее признание благодаря их многогранному применению. Как отмечает Коринек (2023), эти модели играют важную роль в различных задачах психологической науки, включая редактирование научных статей и облегчение обзоров литературы. В области образования Коуэн и Табаррок (2023) демонстрируют, как магистры права могут имитировать ответы экспертов или создавать конкретных персонажей для углубления понимания сложных предметов, таких как экономика.
Недавние исследования подчеркивают потенциал LLMS в анализе общественного мнения. Например, Аргайл и др. (2023) продемонстрировали способность ChatGPT точно отражать реакции различных подгрупп людей, особенно в контексте поведения на президентских выборах. Была замечена заметная корреляция между реакциями человека и реакциями, генерируемыми LLM, называемыми ‘кремниевыми образцами’. Аналогичным образом, Ли и др. (2023) обнаружили, что LLM могут предсказывать общественное мнение о глобальном потеплении. Однако Ли и др. (2023) подчеркнули необходимость включения в LLMS более широкого спектра переменных, включая психологические факторы, для более точного моделирования мнений по сложным вопросам, таким как глобальное потепление.
Кроме того, Ахер и др. (2023) и Хортон (2023) исследовали способность LLMs имитировать конкретных персонажей, демонстрируя мастерство ChatGPT в воспроизведении экспериментов с участием людей с подробным демографическим анализом. В дополнение к этому исследования, проведенные Brand et al. (2023) и Park et al. (2023), подчеркнули умение ChatGPT моделировать поведение потребителей и действия людей в различных сценариях. В совокупности эти исследования подчеркивают сложные возможности моделирования LLM, таких как ChatGPT, отмечая их значительную роль и расширяющееся влияние в исследованиях общественного мнения.
Хотя использование LLMS, таких как ChatGPT, в социальных науках является многообещающим, три важные проблемы требуют дальнейшего изучения:
C1) Глобальная применимость и надежность LLMS. Широкое использование опросов в США в существующих исследованиях (Argyle et al., 2023; Lee et al., 2023) отражает данные ChatGPT об обучении, ориентированном на английский язык. Это оставляет нас с неопределенностью относительно эффективности модели в ориентировании и точном отражении общественного мнения в различных культурных, языковых и экономических контекстах. Этот пробел в понимании создает серьезную проблему при оценке применимости и надежности LLM, таких как ChatGPT, для анализа общественного мнения в глобальном масштабе.
C2) Демографические искажения в LLMs. Предубеждения, связанные с полом, расой, образованием, возрастом и доходом, присущие магистрантам права из-за обучения использованию интернет-контента, могут недостаточно отражать различные точки зрения. Например, Мартин (2023) предположил, что в ответах ChatGPT наблюдается тенденция отдавать предпочтение либеральным и привилегированным точкам зрения. Следовательно, выявление и устранение конкретных областей несправедливого представительства, особенно с точки зрения социально-экономического разнообразия, заслуживает дальнейших исследований для обеспечения справедливого развития искусственного интеллекта.
C3) Сложность и вариативность выбора при моделировании LLM. Существует заметный пробел в исследованиях при оценке LLM, таких как ChatGPT, на предмет их способности воспроизводить процесс принятия сложных решений по различным темам. Этот пробел охватывает ограниченное понимание адаптируемости моделей к различным динамикам принятия решений, таким как экологические или политические проблемы, и влияние повышенной сложности выбора на точность моделирования. Устранение этого пробела важно для оценки границ и эффективности LLM в разнообразных и сложных социальных контекстах.
Целью исследования является решение этих проблем с помощью тройственного подхода.
Во-первых, мы исследуем влияние различий в культурном, языковом и экономическом развитии на точность моделирования ИИ (для C1). Эта цель напрямую устраняет пробел, связанный с преобладанием англоязычных и американо-ориентированных данных в моделях искусственного интеллекта. В исследовании оценивается, как эти искажения влияют на репрезентацию общественного мнения в различных контекстах и их последующее влияние на политические решения в разных странах.
Опираясь на этот фундамент, вторая цель — проанализировать последствия демографических искажений в рамках моделирования искусственного интеллекта (для C2). Эта цель направлена на понимание того, как демографические искажения в ИИ влияют на инклюзивность и репрезентативность государственной политики, обеспечивая точное отражение различных демографических перспектив.
Наконец, мы оцениваем точность моделирования искусственного интеллекта в различных вопросах и исследуем идеологические предубеждения и сложность выбора в политических последствиях (для C3). Это предполагает целенаправленное изучение трех аспектов: различий в точности моделирования ИИ между такими темами, как экологические и политические проблемы, влияния идеологических предубеждений на моделирование, связанное с политикой, и влияния сложности выбора на точность моделирования.
Эти исследования необходимы для гарантии того, что политика, основанная на искусственном интеллекте, основана на реалистичном, непредвзятом и всестороннем понимании сложных социальных проблем.
Вклад этой статьи резюмируется следующим образом: Теоретическая значимость этого исследования заключается в его потенциале обогатить теории общественного мнения путем изучения параллелей и расхождений между человеческими предубеждениями при формировании общественного мнения и предубеждениями искусственного интеллекта при моделировании общественного мнения. Это дает представление о роли искусственного интеллекта и его потенциальном влиянии на государственную политику.
На эмпирическом уровне исследование направлено на эмпирический анализ предубеждений, связанных с культурой, языком, экономикой, демографией и темами в смоделированных искусственным интеллектом общественных мнениях. Он направлен на то, чтобы подчеркнуть сложности и вызовы, с которыми сталкиваются инструменты искусственного интеллекта при точном представлении различных точек зрения.
Признавая проблемы этичного повышения ценности искусственного интеллекта, особенно при отражении разнообразия и сложности глобальных общественных мнений, результаты этого исследования служат основой для создания более сложных приложений искусственного интеллекта в государственной политике. Это подчеркивает необходимость разработки политики, основанной на сбалансированном и инклюзивном представлении общественного мнения, что необходимо для эффективного управления в таких областях, как охрана окружающей среды, экономическое развитие и политические процессы.
Материалы и методы искусственного интеллекта (LLM)
Инструмент: ChatGPT
Достижения в области искусственного интеллекта и обработки естественного языка (NLP) привели к разработке LLM, которые меняют ландшафт создания контента и генерации текстов (Мэтью, 2023). ChatGPT, яркий пример таких моделей, разработанный OpenAI, стоит на переднем крае этой трансформации. Построенный на архитектуре генеративного предварительно обученного трансформатора (GPT), ChatGPT превосходно отражает языковые возможности, подобные человеческим (Chan, 2023). Он использует обширные наборы данных для генерации контекстуально соответствующих ответов, демонстрируя мощь LLM в понимании и генерации детализированного текста (Ray, 2023).
Вдохновленные методом Аргайла и др. (2023), мы используем ChatGPT для генерации «Данных кремниевой выборки’ для оценки соответствия между моделируемыми ответами и реальными результатами опроса в различных исследовательских условиях.
Источник данных опроса
Исследование мировых ценностей (WVS), начатое в 1981 году, охватывает социокультурные, политические и моральные ценности по всему миру, охватывая почти 100 стран и представляя около 90% населения планеты (Инглхарт и др., 2014). Стандартный опросник WVS обеспечивает согласованность данных по различным языковым, экономическим и культурным регионам, что делает его ценным для сравнительного анализа, подобного нашему.
Это единообразие имеет решающее значение в нашем исследовании для отнесения любых различий в ответах, смоделированных искусственным интеллектом, к интерпретации ИИ, а не к различиям в формулировке вопросов. Кроме того, вопросник WVS охватывает широкий спектр тем, включая экономические, политические, религиозные и социальные ценности, что делает его полезным для различных областей исследований.
Это позволяет сравнивать ответы на потенциально предвзятые темы, такие как экологические проблемы и политические вопросы, оценивая предвзятость моделирования искусственного интеллекта по различным темам. Более того, благодаря опросу почти 400 000 респондентов, WVS является одним из крупнейших исследований такого рода (Инглхарт и др., 2014). В нем представлены подробные демографические данные по каждому респонденту, что важно для изучения искажений демографической репрезентации при моделировании искусственного интеллекта и того, насколько хорошо модели искусственного интеллекта отражают общественное мнение в различных подгруппах.
В этом исследовании мы используем данные Шестой волны WVS (2010-2014). Время проведения опроса варьировалось в зависимости от страны; оно проводилось в Японии в 2010 году, Соединенных Штатах в 2011 году, Швеции в 2011 году, Сингапуре в 2012 году, Южной Африке в 2013 году и Бразилии в 2014 году.
Входные параметры моделирования искусственного интеллекта
Целевые переменные
Первая целевая переменная, V81, оценивает расстановку приоритетов между экономикой и окружающей средой. Респондентам предлагается выбрать одно из утверждений: 1. Акцент на защите окружающей среды, 2. Акцент на экономическом росте, 3. Нет ответа на вопрос о приоритетах охраны окружающей среды в сравнении с экономическими. Эта переменная в основном использовалась в первых двух исследованиях, посвященных сравнениям по странам и демографическим искажениям. Вопросы опроса для этой и нижеприведенных переменных доступны в таблице S3 в Дополнительных материалах.
Вторая целевая переменная — это поведение избирателей на политических выборах, измеряемое с помощью вопроса V228: “Если бы завтра были общенациональные выборы, за какую партию из этого списка вы бы проголосовали?” Респонденты могут выбирать из основных политических партий в своей стране, наряду с такими вариантами, как неопределенность или отказ от голосования. Например, в Соединенных Штатах варианты включают 1. Демократ, 2. Республиканец, 3. Другая партия и 4. Нет ответа / Не знаю / Я бы не голосовал. Эта переменная введена в третьем исследовании, где для тематического сравнения используются как экологические, так и политические вопросы.
Демографические переменные. Ключевые демографические переменные включают этническую принадлежность (V254), пол (V240), возраст (V242), уровень образования (V248) и социальный класс (V238). Варианты этнической принадлежности зависят от конкретной страны и отражают основные этнические группы для соответствующих стран. Пол кодируется как 1 для мужчин и 2 для женщин. Возраст является постоянной переменной. Уровни образования варьируются от отсутствия формального образования до университетского диплома. Социальный класс самоидентифицируется с такими вариантами, как высший класс, средний класс или низший класс.
Ковариаты. Для решения проблемы окружающей среды мы выбираем ковариаты, которые часто включаются в экологические опросы и имеют прецедент в предыдущих исследованиях (Lee et al., 2023), в том числе:
- Членство в экологических организациях (V30): оценивается активное (2), неактивное (1) или нечленство (0) в различных организациях, включая экологические.
- Экологическое сознание (V78): измеряет идентификацию респондентов с утверждением “Для этого человека важна забота об окружающей среде; заботиться о природе и экономить жизненные ресурсы”. Ответы варьируются от 1 (очень похоже на меня) до 6 (совсем не похоже на меня).
- Финансовая поддержка экологических организаций (V82): Эта переменная запрашивает пожертвования экологическим организациям за последние два года, кодируется как 1 (да) и 2 (нет).
- Участие в экологических демонстрациях (V83): Эта переменная оценивает участие в экологических демонстрациях за последние два года, ответы кодируются как 1 (да) и 2 (нет).
- Доверие к экологическим организациям (V122): Этот параметр измеряет уровни доверия к экологическим организациям, варьирующиеся от большого доверия (1) до полного отсутствия (4).
Как упоминалось в ограничении, существует несколько ковариат, связанных с политическим вопросом. Мы определили только одну ковариату, которая является политической идеологией (V95): в политических вопросах люди говорят о ‘левых’ и «правых»., если 1 означает крайне левых, а 10 — крайне правых, куда бы вы поместили свои взгляды?
Процесс моделирования LLM
Настройка модели и API
В нашем исследовании используется модель GPT-3.5 Turbo, поскольку GPT-3.5 обладает превосходной эффективностью при обработке больших объемов данных и возможностями более быстрого реагирования, что необходимо для наших обширных исследований в области моделирования. Более того, несмотря на общепринятое мнение о том, что человеческая мораль является сложным аспектом для понимания языковыми моделями, Рассел (2019) и Диллион и др. (2023) обнаружили заметное соответствие между ответами GPT-3.5 и моральными суждениями человека. Это соответствие GPT-3.5 может помочь повысить точность и актуальность наших симуляций при воспроизведении сложных этических соображений человека. Обратите внимание, что мы признаем, что наши выводы специфичны для версии используемой языковой модели и не обязательно отражают возможности или предубеждения всех LLM.
Влияние настроек температуры на результаты языковой модели варьируется в зависимости от задачи. Как отмечают Боеларт и др. (2024), в сценариях, где ответы ограничены заранее определенными вариантами, такими как в наших экспериментах, колебания температуры оказывают минимальное влияние на результаты. Это контрастирует с задачами генерации полного ответа, где температура может влиять на вероятность следующего символа. Несмотря на ограниченное влияние в нашем случае, мы следуем рекомендациям Гильерме и Винченци (2023) и Дэвиса и др. (2024), которые предполагают, что более низкие температуры дают более стабильные результаты. Следовательно, мы установили температуру OpenAI API равной 0.2 для нашего моделирования опроса.
Оперативный дизайн
Мы используем формат в стиле интервью для генерации ответов искусственного интеллекта, имитирующих участников-людей. Процесс начинается с преобразования необработанных данных опроса, включая демографическую информацию и другие ковариаты, в формат, понятный модели искусственного интеллекта. Мы присваиваем определенные коды каждому демографическому признаку, а затем переводим эти коды в описательные предложения. Например, ‘V240-1’ переводится как “Вы мужчина”. Эти предложения формируют всеобъемлющий демографический профиль для каждого респондента, начиная с “Пожалуйста, предположите, что вы …” Что касается целевого вопроса, наш подход отличается в разных исследованиях. Первоначально мы фокусируемся исключительно на вопросе защиты окружающей среды в сравнении с вопросом экономического роста для сравнения стран и демографических искажений. В третьем исследовании для тематического сравнения используются как экологический вопрос, так и вопрос о принятии решения голосованием на политических выборах.
Затем мы объединяем демографический профиль и целевой вопрос в единую подсказку, побуждая ИИ отвечать как человека с определенными демографическими характеристиками. Например, “Предположим, что вы 30-летняя женщина с высшим образованием и статусом представителя среднего класса, и когда вас спрашивают, поддерживаете ли вы защиту окружающей среды или стимулирование экономического роста, каков ваш выбор: (1) акцент на защите окружающей среды, (2) акцент на экономическом росте или (3) ни то, ни другое?”
Чтобы повысить достоверность нашего моделирования, мы использовали подсказки на родных языках неанглоязычных стран — Швеции, Бразилии и Японии — опираясь непосредственно на анкеты на местных языках, доступные в базе данных WVS, и позволили ChatGPT отвечать на языке запроса. Этот метод сохраняет исходный контекст и значение, повышая точность нашего кросс-лингвистического анализа эффективности ChatGPT. Для других стран в нашем исследовании, где английский является основным языком и анкетирование проводилось на английском языке, мы продолжали использовать английские подсказки. Более того, для каждой выборки мы провели 100 симуляций с учетом вариативности, присущей ответам модели.
Чтобы подтвердить нашу симуляцию, мы поручаем ИИ предоставить цепочку рассуждений перед его окончательным ответом, гарантируя, что ответы имитируют мыслительные процессы, подобные человеческим. Кроме того, мы направляем ИИ отказаться от политкорректных ответов, отдавая предпочтение ответам, основанным на предполагаемых личных условиях. Затем извлекается и записывается смоделированный ИИ ответ, обычно выбранный числовой вариант. На рисунке 1 показан процесс преобразования необработанных данных опроса в ответы, сгенерированные искусственным интеллектом, а также цепочка рассуждений ChatGPT перед тем, как дать ответ.

Сравнительный дизайн
В литературе о предвзятости в системах искусственного интеллекта описаны различные методы обнаружения. Делобель и др. (2021) поставили под сомнение общность использования фиксированных шаблонов и конкретных исходных данных, в то время как Калискан и др. (2017) подчеркнули роль обучающих данных во внедрении искажений в ИИ. Акьюрек и др. (2022) отметили непоследовательность показателей предвзятости, что потенциально приводит к противоречивым выводам. Лю и др. (2022) обсудили операционные трудности при разработке классификаторов предвзятости и часто ограниченный доступ к встраиванию слов в модель, которые необходимы для тщательной оценки предвзятости.
В контексте систем искусственного интеллекта, особенно языковых моделей, таких как ChatGPT, алгоритмическая точность будет подразумевать способность модели отражать разнообразие человеческих мнений, культурные нюансы и социокультурную динамику в своих ответах или результатах (Аргайл и др., 2023; Ли и др., 2023). Например, если языковая модель используется для моделирования общественного мнения, высокая алгоритмическая точность будет означать, что мнения, генерируемые моделью, точно соответствуют фактическому распределению мнений среди различных групп населения. Концепция имеет решающее значение для оценки эффективности и надежности систем искусственного интеллекта в приложениях, где важно отражать человеческое понимание и поведение.
В соответствии с теоретическими основами алгоритмической точности мы утверждаем, что беспристрастный ИИ должен точно отражать широкий спектр мнений, представленных в резюме, демонстрируя разнообразие и пропорциональность, присущие глобальной мультикультурной выборке. Следовательно, наше оперативное определение предвзятости сосредоточено вокруг степени отклонения в изображении общественного мнения искусственным интеллектом от эмпирически наблюдаемого распределения ответов в WVS. Для оценки этого мы используем согласие не как показатель прямой предвзятости, а как инструмент для оценки степени соответствия между ответами ChatGPT и фактическими результатами WVS.
Таким образом, выявление искажений проистекает из сравнительного анализа, который тщательно изучает показатели согласия в различных странах, демографических сегментах и тематических областях. Изучая различия в показателях согласия между этими группами, мы определяем, какие модели наиболее точно отражают данные обследованных групп населения, а какие могут демонстрировать признаки предвзятости. Более высокий уровень согласия в определенных группах, в отличие от других, предполагает меньшую склонность к предвзятости в репрезентациях моделью мнений этих конкретных групп.
Оценка культурных, лингвистических и экономических предубеждений
Культурные, лингвистические и экономические предубеждения в моделях искусственного интеллекта, таких как ChatGPT, в первую очередь проистекают из их обучающих данных через Интернет, которые сильно искажены в сторону конкретных культур, языков и экономических перспектив (Ray, 2023). Стратегический выбор Японии, Сингапура, США, Южной Африки, Швеции и Бразилии для данного исследования, как подробно описано в таблице 1, направлен на охват широкого спектра культурных, экономических и языковых контекстов. Это облегчает тщательный анализ эффективности и предубеждений ChatGPT в различных глобальных условиях.

В этой таблице шесть стран классифицированы по их культурному происхождению, экономическому статусу и доминирующим языкам для контекстуализации набора данных, используемого для имитационного анализа ChatGPT.
Оценка демографической предвзятости
В исследовании исследуется наличие гендерных, расовых, возрастных, образовательных и доходных искажений в моделях искусственного интеллекта, таких как ChatGPT, вероятно, происходящих из-за искажений в данных обучения (Ray, 2023). Мы оцениваем эти искажения с помощью моделирования взаимодействия с ChatGPT между различными демографическими группами в Соединенных Штатах, в частности, анализируя реакцию на экологические проблемы.
Сложность и вариативность выбора
Мы продолжаем рассматривать потенциальную идеологическую предвзятость в моделях искусственного интеллекта, таких как ChatGPT (Ray, 2023). Это влечет за собой изучение трех ключевых аспектов: разницы в точности моделирования ИИ по таким темам, как экологические и политические проблемы, наличие идеологических предубеждений по разным темам и то, как сложность выбора влияет на точность моделирования.
Анализ данных
Для измерения соответствия между моделируемыми ответами и реальными результатами опроса в нашем анализе в первую очередь используется Kappa Коэна, надежный показатель с поправкой на случайное совпадение, обеспечивающий таким образом более точную оценку ответов ChatGPT по сравнению с реальными результатами опроса. Значение Каппа, равное 1, указывает на полное согласие, в то время как значение 0 указывает на отсутствие согласия, выходящего за рамки того, что ожидается случайно. Отрицательные значения указывают на меньшее согласие, чем ожидалось случайно.
В поддержку Kappa Коэна мы также используем V Крамера, который измеряет силу связи между двумя номинальными переменными независимо от размера таблицы, предлагая значения от 0 (отсутствие связи) до 1 (идеальная связь). Этот метод дополняет Kappa, оценивая общее соответствие между переменными.
Наконец, мы оцениваем соответствие пропорций, фундаментальный показатель, определяющий процент случаев, когда два оценщика предоставляют идентичные классификации. Хотя этот метод дает простой расчет согласия, ему не хватает возможности учесть случайное совпадение. Следовательно, высокий уровень согласия не обязательно означает существенную ассоциацию, поскольку он может просто отражать случайное совпадение. Это ограничение делает согласование пропорций дополнительным инструментом, а не центральным элементом нашего анализа, особенно по сравнению с Kappa Коэна и Cramer V.
В совокупности эти статистические методы обеспечивают тщательную аналитическую основу. Однако мы сосредоточены на Kappa Коэна за его надежную корректировку на случайность, жизненно важный фактор при анализе моделей реагирования искусственного интеллекта. Мы провели 100 симуляций для расчета согласия с каждым респондентом и использовали среднее значение этих расчетов в качестве общего уровня согласия для каждого запроса. Этот метод уменьшил вариативность ответов модели, получив более надежную консенсусную оценку.
Результаты
Это исследование дало представление о возможностях и ограничениях LLM, таких как ChatGPT, для моделирования общественного мнения в различных культурных, экономических, лингвистических, демографических и тематических контекстах. Наши результаты подчеркивают, что, хотя LLMS обещают воспроизводить общественное мнение, особенно в таких контекстах, как Соединенные Штаты, где обучающие данные модели более надежны, существуют заметные ограничения в ее глобальной применимости и надежности. Более того, наш анализ в Соединенных Штатах выявил несправедливую репрезентацию определенных демографических групп. Это несоответствие предполагает, что нынешние LLM, включая ChatGPT, могут по своей сути иметь искажения, на которые влияет демографическая репрезентация в их данных об обучении. Недопредставленность или искаженное представление определенных групп, особенно маргинализированных сообществ, вызывает опасения по поводу справедливого использования LLM в исследованиях общественного мнения. Наконец, исследование показывает, что ChatGPT больше предпочитает либеральный выбор в политическом, чем экологическом моделировании, что точность его моделирования политического поведения выше, чем сложных экологических решений, и что повышенная сложность выбора снижает точность моделирования модели. Эти результаты подчеркивают важность устранения присущих им предубеждений и включения более разнообразных учебных материалов в модели искусственного интеллекта для надежного применения в различных темах и странах.
Сравнительное исследование в разных странах
На рисунке 2 представлено распределение значений kappa Коэна по каждой стране, полученное на основе 100 итераций моделирования. Рассчитано и представлено среднее значение этих результатов. Рисунок 3 иллюстрирует различия в способности ChatGPT моделировать ответы на опросы в разных странах на основе оценки Коэна Kappa. Более высокий балл показывает более высокий уровень согласия при моделировании. Результаты по двум другим показателям – V Кремера и Пропорциональному согласию – доступны в таблице S1 в Дополнительных материалах.
Этот рисунок иллюстрирует изменчивость и центральную тенденцию в статистике Kappa Коэна на основе 100 симуляций для шести разных стран: США, Швеции, Сингапура, Бразилии, Японии и Южной Африки. Графики плотности демонстрируют распределение значений каппа, в то время как пунктирные вертикальные линии указывают среднее значение каппа для каждой страны, обеспечивая ориентир для центрального расположения данных в каждом наборе симуляций.

Соединенные Штаты демонстрируют умеренный балл Коэна Kappa 0,239, что указывает на достаточно хорошую имитацию ответов на опросы. С другой стороны, низкие значения Каппа Коэна в Японии и Южной Африке, равные 0,024 и 0,006 соответственно, подчеркивают существенные ограничения точности модели в этих контекстах. Несоответствие предполагает, что текущие допущения моделирования, такие как равномерное влияние культурных, экономических и социальных факторов в разных странах, могут быть ошибочными, указывая на то, что эти элементы недостаточно интегрированы или взвешены в модели.
Чтобы лучше понять взаимосвязь, мы преобразовали ключевые аспекты — культуру, экономику и язык — в бинарные переменные, используя схему 0 и 1, как подробно описано в таблице 2. Культурное происхождение кодируется как “Западное” (1) или “Не западное» (0), экономический статус — как “Развитый» (1) или “Развивающийся» (0), а доминирующий язык — как “английский» (1) или “неанглийский” (0). Каждая из этих шести стран уникальным образом представляет собой код, сформированный путем объединения трех категорий.

Мы используем коэффициенты корреляции Пирсона для выявления линейных взаимосвязей между различными факторами и результатами моделирования ChatGPT. Эти коэффициенты, которые варьируются от -1 до 1, объясняют как силу, так и тип этих взаимосвязей. Коэффициенты, близкие к 1 или -1, обозначают сильные положительные или отрицательные корреляции соответственно, тогда как коэффициент, близкий к 0, указывает на отсутствие значимой корреляции.
На рисунке 4 показаны корреляции между различными показателями результатов моделирования и бинарными категориями культурного происхождения, доминирующего языка и экономического статуса. На тепловой карте темно-синий цвет указывает на сильную положительную корреляцию, тогда как более светлый синий цвет предполагает более слабую положительную корреляцию. Анализ тепловой карты подчеркивает существенное влияние культуры на точность моделирования ChatGPT с высокой корреляцией Коэна Каппа 0,971, что указывает на сильную прогностическую взаимосвязь. В дополнение к этому, также заметна корреляция с V Кремера и согласием пропорций, зафиксированная на уровне 0,942 и 0,789 соответственно, что усиливает ключевую роль культуры. Напротив, экономические факторы демонстрируют умеренную корреляцию через значение Каппа Коэна 0,557, предполагая, что их влияние значительно, но не столь выражено. Более того, язык демонстрирует свое влияние с помощью корреляции Коэна Каппа 0,101, подтверждая его актуальность, хотя и в меньшей степени, чем культурные и экономические факторы. Эти корреляции подчеркивают важность интеграции различных социокультурных и экономических соображений для повышения точности моделирования ChatGPT при отражении общественного мнения.

Демографическая представленность в Соединенных Штатах
Поскольку предыдущий результат показывает, что эффективность ChatGPT при моделировании ответов на опросы наиболее заметна в Соединенных Штатах, мы продолжим изучение представленности демографической субпопуляции в этой стране, используя вопрос опроса по экологическим проблемам. Здесь мы выделяем результаты Kappa Коэна, используя рис. 5, поскольку наш анализ с использованием Kappa Коэна, V Кремера и Соглашения о пропорциях продемонстрировал согласованную закономерность. Соответствующие результаты двух других измерений приведены в таблице S2 в Дополнительных материалах.

На рисунке 5 показаны отчетливые закономерности в согласовании смоделированных и реальных ответов ChatGPT в демографических группах США относительно приоритета экономики и окружающей среды. Мужчины демонстрируют несколько более высокое согласие и ассоциативность, чем женщины. Среди этнических групп белые и представители других этнических групп демонстрируют более надежное соответствие. Старшие возрастные группы демонстрируют заметно более сильное соответствие, что указывает на возрастную изменчивость. С точки зрения социального класса высший и средний классы более точно соответствуют моделированию. Кроме того, группа с университетским образованием демонстрирует более точную согласованность ответов, что предполагает корреляцию между высшим образованием и предсказуемостью ответов.
Эти тенденции согласуются с данными Dillion et al. (2023), которые заметили, что модели GPT, как правило, отражают точки зрения людей с более высокими доходами и образованием. Кроме того, обзор Рэя (2023) подтверждает наши выводы относительно гендерных и этнических предубеждений. Однако наше исследование расходится, когда речь заходит о возрастной репрезентации; мы обнаруживаем, что старшие возрастные группы больше соответствуют Turbo-3.5 от ChatGPT. Напротив, Сантуркар и др. (2023) отметили, что демография старше 65 лет плохо представлена современными языковыми моделями. Это несоответствие может быть связано с конкретными используемыми моделями, поскольку каждая из них может обладать уникальными искажениями (Dillion et al., 2023), влияющими на репрезентативность разных возрастных групп.
Более того, в то время как предыдущие исследования (Dillion et al., 2023; Ray, 2023) в основном рассматривали политические вопросы, наше исследование распространяется на проблемы окружающей среды. Это не только подтверждает существование этих демографических искажений, но и предполагает их повсеместное распространение в различных сферах. Это подразумевает более распространенную проблему несправедливого представления различных демографических субпопуляций в моделях искусственного интеллекта, требующую тщательного рассмотрения и действий.
Сравнительный анализ результатов, связанных с темой
Точность моделирования политических и экологических проблем
Мы сравниваем точность моделирования ChatGPT по двум различным вопросам в Соединенных Штатах: защита окружающей среды в сравнении с экономическим развитием и политические решения при голосовании. Исследование Ли и др. (2023) успешно прогнозирует политические результаты, используя исключительно демографические данные, предлагая более простой процесс принятия решений по сравнению с экологическими проблемами, которые кажутся менее предсказуемыми только на основе демографии. Мы оцениваем это путем сравнения политических решений и решений по охране окружающей среды, как с дополнительными ковариатами, так и без них. Наш сравнительный анализ политических и экологических решений включал различные наборы ковариат: пять для экологических решений, включая членство в экологических организациях, экологическое сознание, финансовую поддержку экологических организаций, участие в экологических демонстрациях и доверие к экологическим организациям; и один для политических решений, политическая идеология. Чтобы обеспечить прямое сравнение различных вариантов ответов в первоначальном опросе для V228 и V81, наше исследование было сосредоточено исключительно на респондентах, которые голосовали либо за “демократов”, либо за “республиканцев” в вопросе о политическом голосовании (Lee et al., 2023). Эта бинарная категоризация также была применена к моделированию ChatGPT. Аналогичным образом, в отношении экологических проблем мы ограничили наш анализ участниками, которые отдавали предпочтение экономическим или экологическим приоритетам, обеспечивая единообразную структуру бинарных вариантов, чтобы изолировать эффективность модели от сложности ответов.
Таблица 3 показывает, что политическое моделирование демонстрирует более высокую точность по сравнению с моделированием окружающей среды, как с ковариатами, так и без ковариат. Эта неотъемлемая предсказуемость политического поведения подтверждается Ли и др. (2023), которые обнаружили, что демография сама по себе является сильным предиктором. При сравнении с использованием ковариат политические симуляции моделируются с использованием только одной ковариаты, тогда как экологические симуляции включают несколько ковариат, но все равно не достигают сопоставимой точности. Это несоответствие предполагает дополнительные сложности при моделировании процесса принятия решений по окружающей среде. Таким образом, наше исследование подтверждает идею о том, что моделирование процесса принятия решений по окружающей среде по своей сути является более сложной задачей, чем прогнозирование политического поведения.

Идеологическая предвзятость при моделировании ChatGPT по различным темам
Мы исследовали потенциальную предвзятость ChatGPT к либеральным идеологиям при моделировании, связанном с экологическими проблемами и голосованием на выборах. Мы определили приоритетность охраны окружающей среды как либеральную позицию в экологических диалогах и голосование за Демократическую партию как либеральный вариант в политических дискуссиях. Чтобы оценить идеологические тенденции модели, мы проанализировали частоту либеральных выборов в симуляциях по обеим темам, сопоставив их с фактическими результатами опроса. Признавая более широкий спектр вариантов в политических вопросах, мы нормализовали ответы, чтобы уменьшить любое потенциальное усиление предвзятости из-за более широкого набора политических выборов.
В таблице 4 представлена разница в -6,10% в либеральной доле по экологическим вопросам, свидетельствующая о том, что при моделировании меньшее количество моделируемых респондентов были склонны выбирать либеральный вариант по сравнению с фактическими результатами опроса, что указывает на консервативное отклонение. И наоборот, при моделировании политических проблем либеральный выбор увеличился на 16,33%, что указывает на большее число моделируемых респондентов, отдающих предпочтение либеральному выбору по сравнению с данными опроса, что свидетельствует о либеральных наклонностях. Наши выводы согласуются с исследованием, проведенным Мартином (2023) и Диллионом с соавторами (2023), которые предположили, что ChatGPT склонен проявлять предвзятость к либеральным точкам зрения в политических вопросах. Более того, наше исследование выходит за рамки этого, показывая, что идеологическая предрасположенность ChatGPT варьируется в зависимости от конкретной обсуждаемой темы моделирования.

Влияние разнообразия выбора на точность моделирования
Сосредоточившись исключительно на политическом вопросе, мы сравнили ответы ChatGPT между сценариями с двумя и четырьмя вариантами. В таблице 5 прослеживается четкая тенденция: по мере увеличения количества вариантов соответствие моделирования ожидаемым результатам уменьшается. Это говорит о том, что способность ChatGPT соответствовать целевому распределению уменьшается при более сложных наборах выбора. Этот вывод согласуется с исследованием Ли и др. (2023), в котором подчеркивается, что большая сложность выбора ставит под сомнение точность искусственного интеллекта при моделировании процесса принятия решений. Это подчеркивает критическую роль количества выбора во влиянии на производительность модели искусственного интеллекта при моделировании.

Обсуждение
В нашем исследовании оценивается эффективность ChatGPT в анализе общественного мнения с учетом географических, демографических и тематических аспектов. В совокупности эти измерения проливают свет на сильные и ограниченные стороны LLMS в точном отражении различных общественных мнений. Демонстрируя точность отражения взглядов в Соединенных Штатах, симуляции выявляют предубеждения и ограничения, особенно в представлении социально незащищенных подгрупп, незападных и развивающихся стран, а также в поддержании идеологического нейтралитета по темам. Это подчеркивает необходимость сбалансированного и осторожного подхода к интеграции LLMS с традиционными методами исследования, обеспечивающими всестороннее и репрезентативное понимание разнообразных общественных мнений.
Глобальная применимость и надежность LLMS
Исследование выявляет заметные различия в точности моделирования ChatGPT в разных странах, подчеркивая более высокую согласованность с Соединенными Штатами по сравнению с другими. Этот вывод согласуется с исследованием Диллиона и др. (2023), которое показало, что языковые модели, такие как GPT, более искусны в предоставлении общих оценок о западных носителях английского языка. Это объясняется преобладанием западноанглийских выражений в обучающих данных таких моделей. Дальнейший анализ показывает, что культурное происхождение является основным фактором, влияющим на эти различия, за которым следуют доминирующий экономический статус и язык.
Хотя использование языка является наиболее интуитивным фактором, поскольку языковые модели, такие как ChatGPT, обучаются в основном на текстовых данных, его влияние на точность моделирования выходит за рамки простого лингвистического понимания. Язык, насыщенный культурными и контекстуальными нюансами, служит каналом для передачи более широких социокультурных и экономических реалий. Страны с более высоким экономическим статусом часто имеют более обширное цифровое присутствие, поскольку их граждане с большей вероятностью имеют доступ в Интернет и публикуют контент. Это приводит к увеличению и разнообразию набора данных из этих регионов, повышая способность модели точно моделировать сценарии и понимать контент, специфичный для этих областей. Аналогичным образом, культурные нормы, ценности и контекст существенно влияют на использование языка и стили общения. Поскольку культурные выражения и контексты сильно различаются по всему миру, набор данных, состоящий преимущественно из контента западных культур, может привести к предвзятому отношению к этим культурам.
В заключение, эффективность языковых моделей, таких как ChatGPT, в отражении глобальных перспектив зависит от трех факторов: глубины культуры, экономического развития и использования языка. Эти элементы в совокупности формируют разнообразие и репрезентативность обучающих данных, тем самым влияя на способность модели точно отражать глобальный опыт и учитывать его. Очевидные географические различия в эффективности моделей подчеркивают опасения по поводу универсальной применимости LLM в различных аналитических контекстах. Это особенно заметно в сценариях, включающих точки зрения из незападных, экономически менее развитых или неанглоязычных регионов, где репрезентация в данных обучения заметно отсутствует. Для повышения глобальной применимости и надежности ChatGPT в анализе общественного мнения необходимо разнообразить учебные данные и учитывать более разнообразные культурные, социально-экономические и лингвистические аспекты.
Демографические искажения при моделировании искусственного интеллекта
Наблюдаемые демографические различия в симуляциях ChatGPT, особенно в Соединенных Штатах, подчеркивают значительный перекос в сторону представления мужчин, лиц с высшим образованием и представителей высших социальных классов. Такое неравномерное представление отражает более широкую проблему демографической предвзятости в ИИ, отражая предубеждения, существующие в человеческих обществах. Наши выводы согласуются с недавними исследованиями, которые подчеркивают проблемы использования LLM для имитации различных ответов на опросы людей. Лю и др. (2022) и Лян и др. (2021), Алон-Баркат и Бусуйок (2023) последовательно показывают, что модели GPT, как правило, чрезмерно отражают взгляды, соответствующие либеральной, высокодоходной и хорошо образованной демографии. Бисби и др. (2024) обнаружили, что результатам LLM часто не хватает разнообразия и они демонстрируют большую предвзятость, чем фактические данные опроса, особенно недопредставленность мнений меньшинств. Боэлаерт и др. (2024) вводят концепцию «машинного смещения», чтобы проиллюстрировать, как LLM не в состоянии охватить разнообразие человеческой популяции, вытекающее как из обучающих данных, так и из технических конфигураций моделей.
Этот феномен моделей искусственного интеллекта, отражающих предвзятость человека, можно объяснить характером их обучающих данных, которые преимущественно поступают из источников, где эти демографические группы более активны и заметны (Chan, 2023). Поскольку модели искусственного интеллекта извлекают уроки из существующих данных, они непреднамеренно увековечивают и усиливают искажения, присутствующие в этих данных.
Наличие предвзятости в ИИ становится все более очевидным при изучении тем исследований, которые мы изучаем. Наше исследование экологических проблем, которые обычно считаются нейтральными и менее вызывающими разногласия, все еще выявляет предвзятость в симуляциях ИИ. Это заслуживает внимания, особенно по сравнению с распространенными предубеждениями, наблюдаемыми в политически заряженных дискуссиях. Это подчеркивает, что предвзятость ИИ не ограничивается такими спорными или поляризованными областями, как политика. Вместо этого они также затрагивают более универсально значимые темы, еще больше подчеркивая широко распространенный и глубоко укоренившийся характер этих предубеждений.
Такая закономерность вызывает опасения по поводу того, что модель искусственного интеллекта усиливает социальные предубеждения, усиливая голоса и без того доминирующих групп, потенциально оттесняя менее представленные сообщества. Тенденция ChatGPT отражать существующие социальные структуры и предвзятость в своих результатах подчеркивает критические проблемы инклюзивности и справедливости инструментов искусственного интеллекта в исследованиях общественного мнения. Это требует тщательного изучения интеграции искусственного интеллекта в исследования общественного мнения, обеспечения разнообразного и сбалансированного представления данных, генерируемых искусственным интеллектом.
Тематический уклон в искусственном интеллекте
Наше исследование также выявляет явные различия в точности моделирования ChatGPT политических и экологических проблем. Полученные результаты показывают, что прогнозы политического поведения, даже если они основаны исключительно на демографических данных, более точны по сравнению с прогнозами экологических проблем. Это согласуется с исследованиями Ли и др. (2023), предполагающими, что принятие политических решений может быть более простым и предсказуемым на основе демографических данных. Напротив, принятие экологических решений, по-видимому, связано с более сложными и разнообразными факторами, выходящими за рамки демографических показателей. Наше исследование, однако, подчеркивает ограниченность нашего набора данных, особенно в контексте политического моделирования. Разрыв в точности по сравнению с предыдущими исследованиями, в которых использовался более широкий диапазон ковариат, такими как исследование Аргайла и др. (2023), подчеркивает важность всеобъемлющих данных для повышения точности прогнозирования.
Кроме того, наши результаты выявляют идеологические предубеждения в симуляциях ChatGPT, с консервативным уклоном в экологических сценариях и либеральным уклоном в политических симуляциях, что согласуется с исследованием Мотоки и др. (2024) о леворадикальном уклоне в пользу демократов в США. Разница в предвзятости в различных тематических областях поднимает критические вопросы о влиянии, формирующем модели реагирования ChatGPT. Это предполагает, что обучающие данные модели могут быть пропитаны идеологическими пристрастиями, влияющими на ее результаты в контексте конкретной темы. Это крайне важно для исследователей и практиков, использующих искусственный интеллект для анализа общественного мнения, подчеркивая необходимость учета потенциальных погрешностей при моделировании, генерируемом искусственным интеллектом, особенно в политически окрашенных темах.
Исследование также показывает, что сложность вариантов выбора в симуляциях влияет на точность ChatGPT. С увеличением количества вариантов ответа соответствие модели ожидаемым результатам уменьшается. Это наблюдение согласуется с предыдущими исследованиями (Lee et al., 2023), в которых подчеркивается, что модели искусственного интеллекта сталкиваются с проблемами при моделировании принятия решений с большей сложностью выбора. Это понимание имеет решающее значение для разработки и интерпретации симуляций на основе искусственного интеллекта, предполагая необходимость тщательного рассмотрения количества вариантов и структуры для обеспечения точности прогнозов, генерируемых искусственным интеллектом.
Больше перспектив
Наш анализ подтверждает наличие множества факторов, влияющих на способность магистров права точно моделировать различные точки зрения. К ним относятся ограниченное разнообразие обучающих данных, которое может привести к смещению модели в сторону чрезмерно представленных культур; архитектурные ограничения, препятствующие детальному пониманию культуры; и решающая роль оперативного проектирования в определении результатов. Кроме того, врожденные погрешности в данных могут искажать представления модели. В нашем исследовании мы стремились минимизировать внешние различия, последовательно используя одну и ту же модель ChatGPT и стандартизированные запросы в разных странах. Этот методический подход позволил нам провести сравнительный анализ с уменьшением количества смешивающих факторов, сосредоточив внимание на влиянии внутренних переменных, в частности данных обучения. Наши выводы проливают свет на внутренние факторы, влияющие на производительность LLMS. Что касается будущей работы, изучение влияния дальнейшей диверсификации данных об обучении и совершенствования архитектуры модели могло бы дать более глубокое представление о расширении представления LLMs о глобальной перспективе.
LLM обладают потенциалом адаптировать свои результаты для отражения нюансов конкретных стран путем включения названий стран в подсказки. Эта возможность проистекает из семантических вложений, которые кодируют слова и фразы, включая названия стран, в плотные векторы, фиксирующие контекстуальные значения. Когда запрос включает страну, реакция модели более точно соответствует установкам и перспективам, связанным с этой страной. Однако мы наблюдаем, что эффективность такого согласования для конкретной страны варьируется, в значительной степени в зависимости от того, насколько модель использует соответствующие данные.
Чтобы изучить эту возможность, мы провели дополнительный эксперимент с использованием вопроса о политических выборах. Мы использовали данные из Соединенных Штатов (волна 6), но изменили подсказки, чтобы указать, что респонденты были из Японии. Полученные в результате низкие значения по Каппе Коэна, V Крамера и Пропорциональному соглашению предполагают, что ответы магистров права в значительной степени зависят от контекста конкретной страны (таблица приложения S4), подтверждающие наше наблюдение о том, что модель может отражать различия в контексте стран, но степень этого отражения зависит от данных обучения модели и конкретной страны, о которой идет речь.
Кроме того, чтобы оценить временную согласованность результатов LLM, мы сравнили смоделированные ответы с использованием данных из Соединенных Штатов (волна 7) в 2017 году с данными из волны 6. Наши результаты показали стабильную точность моделирования в течение этих периодов времени, что предполагает некоторую степень долгосрочной жизнеспособности ответов, генерируемых LLM. Это наблюдение согласуется с исследованиями Аргайла и др. (2023), которые также обнаружили высокую степень соответствия между сообщенными пропорциями двухпартийных президентских выборов среди респондентов GPT-3 и ANES. Подробные результаты этих экспериментов включены в таблицу приложения S4.
Последствия для политики и управления
Изучение потенциала ChatGPT как дополнительного инструмента к традиционным методам исследования государственной политики требует рассмотрения рисков и ограничений, проиллюстрированных в нашем исследовании. Наличие культурных, экономических, лингвистических и демографических искажений при моделировании LLM, таких как в ChatGPT, создает серьезную проблему для разработки справедливой политики. Если политика формируется на основе предвзятого моделирования с помощью искусственного интеллекта, они рискуют упустить из виду потребности и перспективы различных слоев населения, особенно в регионах, не говорящих по-английски, и с культурным разнообразием. Это может привести к политике, которая непреднамеренно усугубит существующее неравенство.
Что еще более важно, использование LLM для моделирования общественного мнения вызывает серьезные этические проблемы, особенно с точки зрения конфиденциальности и потенциального злоупотребления. Поскольку магистры права обучаются работе с огромными объемами данных, включая личную информацию, которой делятся онлайн, возникают опасения по поводу угроз конфиденциальности. Чтобы обеспечить права отдельных лиц на неприкосновенность частной жизни, магистры права должны получать и использовать данные этичным и ответственным образом. Кроме того, серьезную озабоченность вызывает потенциальное злоупотребление моделированием общественного мнения, созданным LLM. Если эти симуляции будут представлены как подлинные общественные мнения без надлежащего раскрытия их природы, созданной искусственным интеллектом, они могут быть использованы для манипулирования общественным дискурсом и принятием решений, что приведет к распространению дезинформации, усилению предвзятых точек зрения и подрыву демократических процессов.
Чтобы снизить эти риски, крайне важно уделять приоритетное внимание инклюзивности и справедливости при разработке искусственного интеллекта. Диверсификация обучающих наборов данных для охвата широкого спектра языков, культур и демографического фона необходима для обеспечения того, чтобы инструменты искусственного интеллекта, такие как ChatGPT, могли точно и справедливо представлять мировое общественное мнение. Этот подход требует совместных усилий разработчиков и исследователей для выявления и устранения присущих моделям искусственного интеллекта искажений. Такие согласованные усилия жизненно важны для создания инструментов искусственного интеллекта в качестве надежных вспомогательных средств при формулировании государственной политики.
Кроме того, исследование подчеркивает этическую и социальную ответственность разработчиков и пользователей ИИ в государственном управлении. Использование ИИ в управлении требует критического понимания его ограничений и потенциальных искажений. Политики и исследователи должны проявлять осторожность при интерпретации данных, генерируемых искусственным интеллектом, следя за тем, чтобы они дополняли, а не заменяли традиционные методы сбора общественного мнения. Кроме того, важно установить четкие руководящие принципы и регламенты для использования LLM в исследованиях общественного мнения, обеспечивая прозрачность, подотчетность и защиту общественных интересов. Такой ответственный подход может позволить эффективно использовать потенциал искусственного интеллекта, что приведет к формулированию политики, которая будет справедливой, действенной и действительно отражающей разнообразный спектр общественных мнений.
Подводя итог, можно сказать, что, хотя ChatGPT предлагает многообещающие возможности для улучшения исследований в области государственной политики, его интеграция требует сбалансированного, этичного и инклюзивного подхода для полной реализации его преимуществ при одновременном снижении рисков.
Ограничения
В нашем исследовании признаются три основных ограничения. Первое ограничение относится к временной и контекстуальной значимости нашего исследования. Это особенно важно, учитывая динамичный характер общественного мнения и непрерывное развитие технологий искусственного интеллекта. В предыдущем исследовании (Argyle et al., 2023) были исследованы временные возможности языковых моделей, таких как GPT-3, оценивалась их способность поддерживать точность при анализе данных, выходящих за рамки их обучения. Например, Аргайл и др. (2023) исследовали алгоритмическую точность GPT-3 с данными за 2020 год, которые выходят за рамки ограничения на обучение в 2019 году. Такой анализ важен, поскольку он оценивает эффективность модели с течением времени, давая представление о ее долгосрочной жизнеспособности.
Однако наше исследование не включает этот временной анализ из-за ограниченности наших данных. Пятилетний интервал между исследованиями мировых ценностей означает, что у нас нет доступа к данным по США после 2021 года, что совпадает с прекращением обучения для программы ChatGPT Turbo-3.5. Следовательно, мы не можем оценить, как повышается точность моделирования ChatGPT с учетом свежих данных из периодов, выходящих за рамки его обучения. Обратите внимание, что различия во временных рамках набора данных и итерациях возможностей модели могут приводить к разным результатам эксперимента.
Это ограничение ограничивает наше понимание способности модели адаптироваться к новым событиям и сдвигам в общественном мнении, произошедшим со времени последнего набора данных. Однако такие различия не умаляют нашей основной идеи, поскольку наш анализ сосредоточен на сравнении относительной эффективности LLM при моделировании перспектив конкретной страны. Устранение этого ограничения зависит от доступности обновленных данных опроса, которые позволили бы провести более комплексный временной анализ и повысить достоверность наших выводов.
Вторым ограничением нашего исследования является сфокусированный анализ на одной модели искусственного интеллекта, Turbo-3.5 от ChatGPT, а не сравнительная оценка различных моделей. Признавая, что каждая модель искусственного интеллекта имеет свой собственный набор присущих ей предубеждений (Диллион и др., 2023), мы сосредоточились на Turbo-3.5, чтобы провести углубленное изучение ее процессов рассуждения.
Мы стремились к углубленному изучению способности этой модели поддерживать согласованность в своих результатах, а не к широкому, но менее подробному сравнению между несколькими моделями. Учитывая масштаб и глубину этого анализа, сравнение нескольких моделей выходило за рамки нашего исследования. Однако сравнительное изучение различных моделей искусственного интеллекта, в том числе тех, возможности которых превосходят Turbo-3.5, представляет собой значительную возможность для будущих исследований. Такой сравнительный анализ мог бы позволить выявить предубеждения и особенности, характерные для конкретной модели, способствуя знанию факторов, влияющих на эффективность LLM при моделировании общественного мнения в различных контекстах.
Третье ограничение относится к ограниченному ковариационному анализу. Хотя мы включили в наше исследование несколько ковариат, особенно в контексте окружающей среды, более всестороннее изучение влияния дополнительных ковариат на эффективность LLM еще больше укрепило бы наши выводы. Как подчеркивается Ли и др. (2023), интеграция более широкого спектра ковариат, включая психологические и социальные факторы, может заметно повысить точность моделирования искусственного интеллекта. Это особенно актуально в сложных областях, где на принятие решений влияет широкий спектр факторов, помимо демографических показателей.
К сожалению, из-за ограниченной доступности ковариат в нашем наборе данных мы не смогли включить более широкий диапазон ковариат в анализ по различным темам. Чтобы обеспечить сопоставимость по шести странам, участвовавшим в нашем исследовании, мы отобрали только те вопросы и связанные с ними ковариаты, которые были постоянно доступны для всех шести стран. Это ограничение особенно повлияло на политическую сферу, где соответствующие ковариаты были ограничены.
Тем не менее, учитывая, что основное внимание в нашем исследовании уделяется относительной эффективности LLM в моделировании общественного мнения, это не умаляет нашего основного вклада в выявление различий в показателях между странами и демографическими группами. Будущие исследования, изучающие более широкий спектр ковариат для повышения точности прогнозирования LLM, могли бы еще больше улучшить как теоретические основы, так и практическое внедрение методов моделирования в исследованиях общественного мнения.
Направления будущих исследований
Как обсуждалось выше, ограничения нашего исследования могут быть устранены в ходе будущих исследований временных возможностей LLM, проведения сравнительного анализа нескольких LLM, а также выявления и тестирования различных влиятельных ковариат. Кроме того, необходимы дальнейшие исследования в других областях для повышения эффективности и надежности LLM в этой области.
Одним из важнейших аспектов является расширение глобальных масштабов моделирования общественного мнения на основе LLM. Текущее исследование ограничено сравнением по шести странам. Включение большего числа стран в будущие исследования могло бы дать более глубокое представление об оптимизации LLM для анализа общественного мнения в различных национальных контекстах.
Это расширение позволило бы получить более полное представление о том, как LLM могут быть эффективно адаптированы к различным глобальным перспективам и условиям, повышая их применимость и надежность в международных контекстах. Охватывая более широкий круг стран с различным культурным, экономическим и языковым опытом, исследователи могут выявить нюансы эффективности LLM в разных регионах и разработать стратегии по смягчению потенциальных предубеждений и ограничений.
Более того, в будущих исследованиях можно было бы более подробно изучить тематические искажения при моделировании LLM. Хотя в нашем исследовании кратко рассматриваются эти предубеждения, был бы полезен более углубленный анализ того, как различные типы вопросов, такие как фактические, основанные на мнении и гипотетические, влияют на эффективность LLM. Например, исследователи могли бы изучить потенциал использования LLM для генерации гипотетических сценариев или контрфактов, что позволило бы провести более глубокий анализ того, как общественное мнение может измениться при различных обстоятельствах.
Сравнивая точность моделирования для различных типов вопросов и изучая, как присущие каждому типу характеристики влияют на способность модели генерировать точные и контекстуально релевантные ответы, исследователи могут лучше понять эффективность LLM в различных тематических областях. Эти знания помогли бы определить потенциальные области для улучшения подготовки и архитектуры модели, что привело бы к более надежному моделированию общественного мнения.
Заключение — потенциал LLM (искусственного интеллекта)
Используя ChatGPT для создания кремниевых образцов, это исследование подчеркивает потенциал LLM в обогащении исследований общественного мнения, но также подчеркивает настоятельную необходимость устранения их ограничений. Наши результаты подчеркивают, что, хотя LLMS обещают воспроизводить общественное мнение, особенно в таких контекстах, как Соединенные Штаты, где обучающие данные модели более надежны, существуют заметные ограничения в ее глобальной применимости и надежности. Более того, наш анализ в Соединенных Штатах выявил несправедливую репрезентацию определенных демографических групп. Это несоответствие предполагает, что нынешние LLM, включая ChatGPT, могут по своей сути иметь искажения, на которые влияет демографическая репрезентация в их данных об обучении.
Недопредставленность или искаженное представление определенных групп, особенно маргинализированных сообществ, вызывает опасения по поводу справедливого использования LLM в исследованиях общественного мнения. Наконец, исследование показывает, что ChatGPT больше предпочитает либеральный выбор в политическом, чем экологическом моделировании, что точность его моделирования политического поведения выше, чем сложных экологических решений, и что повышенная сложность выбора снижает точность моделирования модели. Эти результаты подчеркивают важность устранения присущих им предубеждений и включения более разнообразных учебных материалов в модели искусственного интеллекта для надежного применения в различных темах и странах.
В заключение, это исследование подчеркивает потенциал LLMS в обогащении исследований общественного мнения, но также подчеркивает настоятельную необходимость устранения их ограничений. Для эффективного и справедливого использования LLM в государственном управлении и разработке политики крайне важно повысить их культурное и языковое разнообразие, смягчить присущие им предубеждения и обеспечить этичное и ответственное использование данных обучения и моделирования общественного мнения. Будущие исследования должны быть сосредоточены на повышении репрезентативности наборов данных для обучения, обогащении ковариационного и тематического анализа и разработке методологий для оценки и уменьшения погрешностей при моделировании LLM. Цель состоит в том, чтобы информация, получаемая с помощью таких инструментов искусственного интеллекта, была всеобъемлющей, справедливой и действительно отражала разнообразную палитру глобальных общественных мнений.
