Исследователи протестировали множество моделей искусственного интеллекта на простом логическом вопросе, и почти все они потерпели неудачу.
Сможете ли вы найти ответ?
Как вы считаете, превосходит ли искусственный интеллект человеческий? Это не предмет из программы бакалавриата по философии, а вопрос, который мы с полным основанием можем задать себе, видя ослепительный прогресс этой технологии. В некоторых областях он даже пугает.
Например, ИИ легко выпускается из медицины и уже используется для выявления заболеваний, которые не удается обнаружить многим специалистам. Все очень просто: искусственный интеллект может быть более человечным, чем мы.
Однако исследование организации LAION показывает, что до господства машин еще далеко. Было протестировано множество языковых моделей: GPT-3.5, GPT-4 vision и GPT-4o от OpenAI, Claude 3 Opus от Anthropic, Gemini от Google, Meta’s LlamaMixtral от Mistral…
Протокол тестирования очень прост, поскольку заключается в ответе на так называемую проблему «Алиса в стране чудес». Почти все потерпели неудачу.
ИИ не могут правильно ответить на этот простой логический вопрос.
Вот как задается вопрос: «У Алисы есть [X] братьев, а также [Y] сестер. Сколько сестер у брата Алисы?». Используется несколько вариаций, и ответы ИИ поражают воображение. Ллама 3 из Меты получила ответ «У Алисы четыре брата и одна сестра», и он объясняет, что у каждого брата есть… только одна сестра, сама Алиса. За исключением того, что у них по 2 брата, Алиса и другая упомянутая сестра. Хуже всего то, что ИИ погружается в свои объяснения с убежденностью.
Как отмечается в исследовании, «[…] модели также выражают чрезмерную уверенность в своих ошибочных решениях, предоставляя при этом зачастую абсурдные объяснения […], чтобы оправдать и поддержать обоснованность своих явно ошибочных ответов, делая их правдоподобными».
В итоге только GPT-4o выходит с отличием, отвечая правильно в 65 % случаев, в зависимости от выбранных формулировок. Эти результаты тем более удивительны, что протестированные языковые модели получили хорошие баллы MMLU — «многозадачного понимания языка», оценивающего способность ИИ решать задачи.
Исследователи не объясняют это расхождение, но указывают на необходимость пересмотреть результаты измерений.