Если вы знаете, как ответить на этот вопрос, вы умнее, чем ChatGPT!

Последнее обновление: 2024/06/21 at 8:28 ПП

Опубликовано 21.06.2024

2 Мин. чтение

Содержание:

Сможете ли вы найти ответ?ИИ не могут правильно ответить на этот простой логический вопрос.

Исследователи протестировали множество моделей искусственного интеллекта на простом логическом вопросе, и почти все они потерпели неудачу.

Сможете ли вы найти ответ?

Как вы считаете, превосходит ли искусственный интеллект человеческий? Это не предмет из программы бакалавриата по философии, а вопрос, который мы с полным основанием можем задать себе, видя ослепительный прогресс этой технологии. В некоторых областях он даже пугает.

Например, ИИ легко выпускается из медицины и уже используется для выявления заболеваний, которые не удается обнаружить многим специалистам. Все очень просто: искусственный интеллект может быть более человечным, чем мы.

Однако исследование организации LAION показывает, что до господства машин еще далеко. Было протестировано множество языковых моделей: GPT-3.5, GPT-4 vision и GPT-4o от OpenAI, Claude 3 Opus от Anthropic, Gemini от Google, Meta’s LlamaMixtral от Mistral…

Протокол тестирования очень прост, поскольку заключается в ответе на так называемую проблему «Алиса в стране чудес». Почти все потерпели неудачу.

ИИ не могут правильно ответить на этот простой логический вопрос.

Вот как задается вопрос: «У Алисы есть [X] братьев, а также [Y] сестер. Сколько сестер у брата Алисы?». Используется несколько вариаций, и ответы ИИ поражают воображение. Ллама 3 из Меты получила ответ «У Алисы четыре брата и одна сестра», и он объясняет, что у каждого брата есть… только одна сестра, сама Алиса. За исключением того, что у них по 2 брата, Алиса и другая упомянутая сестра. Хуже всего то, что ИИ погружается в свои объяснения с убежденностью.

Как отмечается в исследовании, «[…] модели также выражают чрезмерную уверенность в своих ошибочных решениях, предоставляя при этом зачастую абсурдные объяснения […], чтобы оправдать и поддержать обоснованность своих явно ошибочных ответов, делая их правдоподобными».

В итоге только GPT-4o выходит с отличием, отвечая правильно в 65 % случаев, в зависимости от выбранных формулировок. Эти результаты тем более удивительны, что протестированные языковые модели получили хорошие баллы MMLU — «многозадачного понимания языка», оценивающего способность ИИ решать задачи.

Исследователи не объясняют это расхождение, но указывают на необходимость пересмотреть результаты измерений.