Тестирование моделей Claude 3 Opus vs GPT-4 vs Gemini 1.5 Pro AI
- Модель Claude 3 Opus способна, но в нашем тестировании она и близко не подошла к победе над GPT-4 и Gemini 1.5 Pro.
- Модель Opus не показывает высоких результатов в тестах на логику и отстает от GPT-4 и Gemini 1.5 Pro.
- Однако, как показывает практика, есть специализированные области, где Claude 3 может показать лучшие результаты, чем его аналоги.
Компания Anthropic утверждает, что Claude 3 Opus наконец-то обошла модель GPT-4 от OpenAI в популярных бенчмарках. Чтобы проверить эти заявления, мы провели детальное сравнение между Claude 3 Opus, GPT-4 и Gemini 1.5 Pro.
Если вы хотите узнать, как модель Claude 3 Opus проявляет себя в продвинутых рассуждениях, математике, работе с длинными контекстными данными, анализе изображений и т. д., читайте нашу статью.
1. Тест с яблоками на логическое мышление нейросетей
Сегодня у меня 3 яблока, вчера я съел одно яблоко. Сколько яблок у меня сейчас?

Начнем с популярного теста «Яблоко», который оценивает способность LLM к рассуждениям. В этом тесте модель Claude 3 Opus отвечает правильно и говорит, что у вас сейчас три яблока. Однако, чтобы получить правильный ответ, нам пришлось установить системную подсказку, добавив, что вы — интеллектуальный помощник, который является экспертом в продвинутых рассуждениях.
Без системной подсказки модель Opus давала неверный ответ. А вот онлайн нейросеть Gemini 1.5 Pro и GPT-4 давали правильные ответы, что соответствует нашим предыдущим тестам.
Победители: Gemini 1.5 Pro и GPT-4
2. Рассчитайте время
Если на сушку 15 полотенец под солнцем уходит 1 час, то сколько времени потребуется на сушку 20 полотенец?

В этом тесте мы пытаемся обмануть модели ИИ, чтобы проверить, проявляют ли они хоть какие-то признаки интеллекта. И, к сожалению, Claude 3 Opus проваливает тест, как и Gemini 1.5 Pro. Мы также добавили в системную подсказку, что вопросы могут быть каверзными, поэтому думайте с умом. Однако модель Opus углубилась в математику, придя к неверному выводу.
В нашем предыдущем сравнении GPT-4 также дал неверный ответ в этом тесте. Однако после публикации наших результатов GPT-4 стал выдавать разные результаты, часто неправильные, а иногда и правильные. Сегодня утром мы снова запустили тот же тест, и GPT-4 выдал неверный результат, даже когда ему было сказано не использовать интерпретатор кода.
Победитель: Нет
3. Оцените вес
Что тяжелее — килограмм перьев или фунт стали?

Далее мы попросили все три модели ИИ ответить, тяжелее ли килограмм перьев, чем фунт стали. И что ж, Claude 3 Opus дал неверный ответ, сказав, что фунт стали и килограмм перьев весят одинаково.
Модели ИИ Gemini 1.5 Pro и GPT-4 ответили правильно. Килограмм любого материала будет весить тяжелее, чем фунт стали, так как масса килограмма примерно в 2,2 раза тяжелее фунта.
Победитель: Gemini 1.5 Pro и GPT-4
4. Решите задачу по математике
Если x и y — это разряд десятков и разряд единиц, соответственно, в произведении 725 278 * 67 066, то каково значение x + y. Можете ли вы объяснить самое простое решение без вычисления целого числа?

В следующем вопросе мы попросили модель Claude 3 Opus решить математическую задачу без вычисления целого числа. И она снова потерпела неудачу. Каждый раз, когда мы запускали подсказку, с системной подсказкой или без нее, она в той или иной степени давала неверные ответы.
Мы были рады увидеть результат Claude 3 Opus в 60,1 % в бенчмарке MATH, опередив GPT-4 (52,9 %) и Gemini 1.0 Ultra (53,2 %).
Похоже, что при наличии цепочки мыслей можно добиться лучших результатов от модели Claude 3 Opus. На данный момент, при нулевых подсказках, GPT-4 и Gemini 1.5 Pro дали правильный ответ.
Победитель: Gemini 1.5 Pro и GPT-4
5. Следование инструкциям пользователя
Сгенерируйте 10 предложений, которые заканчиваются словом «яблоко».

Когда дело доходит до выполнения инструкций пользователя, модель Claude 3 Opus демонстрирует замечательные результаты. Она фактически свергла все модели искусственного интеллекта. Когда ее просят сгенерировать 10 предложений, заканчивающихся словом «яблоко», она генерирует 10 совершенно логичных предложений, заканчивающихся словом «яблоко».
Для сравнения, GPT-4 генерирует девять таких предложений, а Gemini 1.5 Pro показывает худшие результаты, не сумев сгенерировать даже трех таких предложений. Мы бы сказали, что если вы ищете модель ИИ, для которой следование инструкциям пользователя имеет решающее значение для выполнения задачи, то Claude 3 Opus — это отличный вариант.
Мы увидели это в действии, когда пользователь X попросил Claude 3 Opus следовать многочисленным сложным инструкциям и создать главу книги по видео Tokenizer Андрея Карпати. Модель Opus отлично справилась с задачей и создала прекрасную главу книги с инструкциями, примерами и соответствующими изображениями.
Победитель: Claude 3 Opus
6. Тест «Иголка в стоге сена» (NIAH)
Компания Anthropic была одной из тех, кто заставлял модели ИИ поддерживать большое контекстное окно. В то время как Gemini 1.5 Pro позволяет загружать до миллиона токенов (в предварительном просмотре), Claude 3 Opus поставляется с контекстным окном в 200 тысяч токенов. Согласно внутренним данным NIAH, модель Opus нашла иглу с точностью более 99 %.

В нашем тесте с 8 тыс. лексем Claude 3 Opus не смог найти иглу, в то время как GPT-4 и Gemini 1.5 Pro легко нашли ее. Мы также провели тест на Claude 3 Sonnet, но он снова оказался неудачным.
Нам необходимо провести более тщательное тестирование моделей Claude 3, чтобы понять их производительность при работе с длинными контекстными данными. Но пока ситуация для Anthropic выглядит не лучшим образом.
Победитель: Gemini 1.5 Pro и GPT-4
7. Угадай фильм (тест на зрение)

Claude 3 Opus — мультимодальная модель, и она также поддерживает анализ изображений. Поэтому мы добавили кадр из демонстрации Gemini от Google и попросили его угадать фильм. И он дал правильный ответ: «Завтрак у Тиффани». Отличная работа Anthropic!
GPT-4 также угадал название фильма, но, как ни странно, Gemini 1.5 Pro дал неверный ответ. Не знаю, что готовит Google. Тем не менее, обработка изображений Claude 3 Opus довольно хороша и находится на одном уровне с GPT-4.
Победитель: Claude 3 Opus и GPT-4
Вердикт по сравнительному тестированию нейросетей Claude 3, GPT-4 и Gemini 1.5 Pro AI
После однодневного тестирования модели Claude 3 Opus она кажется способной, но не справляется с задачами, в которых от нее ожидается превосходство. В наших тестах на здравый смысл модель Opus не показала хороших результатов и уступила GPT-4 и Gemini 1.5 Pro. За исключением следования инструкциям пользователя, она плохо справляется с NIAH (что должно быть ее сильной стороной) и математикой.
Не забывайте также, что Anthropic сравнил результаты Claude 3 Opus с первоначальными показателями GPT-4, которые были опубликованы в марте 2023 года. При сравнении с последними бенчмарками GPT-4 Claude 3 Opus проигрывает GPT-4, как отметил Толга Бильге на сайте X.

Тем не менее у Claude 3 Opus есть свои сильные стороны. Один из пользователей X сообщил, что Claude 3 Opus смог перевести с русского на черкесский (редкий язык, на котором говорят очень немногие), используя лишь базу данных пар переводов. Кевин Фишер также поделился, что Claude 3 понимает нюансы квантовой физики на уровне доктора философии. Другой пользователь продемонстрировал, что Claude 3 Opus осваивает аннотацию к собственным типам за одну попытку, лучше, чем GPT-4.
Таким образом, помимо эталонных и сложных вопросов, есть специализированные области, в которых Claude 3 может показать лучшие результаты.
Так что ознакомьтесь с моделью Claude 3 Opus и посмотрите, подходит ли она для вашего рабочего процесса. Если у вас возникнут вопросы, сообщите нам об этом в разделе комментариев ниже.