OpenAI только что представила GPT-4 Omni (сокращенно GPT-4o), новый вид модели ИИ, с которой вы можете общаться в режиме реального времени с помощью голосового общения, видеопотока с вашего телефона и текста.
По словам компании, модель будет запущена в течение следующих нескольких недель и будет бесплатной для всех пользователей как через приложение GPT, так и через веб-интерфейс. Пользователи, подписавшиеся на платные уровни OpenAI, которые начинаются от 20 долларов в месяц, смогут делать больше запросов.
Новая бесплатная флагманская «омнимодель» компании выглядит как усовершенствованная версия таких помощников, как Siri или Alexa.
Технический директор OpenAI Мира Мурати провела живую демонстрацию нового релиза за день до того, как Google представит свои собственные достижения в области ИИ на своей флагманской конференции I/O во вторник, 14 мая.

GPT-4 предлагал аналогичные возможности, предоставляя пользователям множество способов взаимодействия с предложениями OpenAI в области ИИ. Но он объединял их в отдельные модели, что приводило к увеличению времени отклика и, предположительно, к более высоким вычислительным затратам. Теперь GPT-4o объединил эти возможности в единую модель, которую Мурати назвал «омнимоделью». По ее словам, это означает более быструю реакцию и более плавный переход от одной задачи к другой.
В результате, как показала демонстрация компании, получится разговорный помощник, похожий на Siri или Alexa, но способный отвечать на гораздо более сложные запросы.
«Мы смотрим на будущее взаимодействия между нами и машинами», — говорит Мурати, рассказывая о демонстрации. «Мы считаем, что GPT-4o действительно смещает эту парадигму в будущее сотрудничества, где это взаимодействие становится гораздо более естественным».
Оценка новой модели GPT-4 Omni
В традиционных бенчмарках GPT-4o достигает уровня GPT-4 Turbo в текстовом анализе, рассуждениях и кодировании, а также устанавливает новые высокие показатели в многоязыковом анализе, аудио и зрении.

1. Улучшенное рассуждение: GPT-4o установил новый высокий балл 88,7% на 0-shot COT MMLU (вопросы на общие знания). Все эти оценки были получены с помощью новой библиотеки простых оценок (открывается в новом окне). Кроме того, в традиционном 5-этапном no-CoT MMLU GPT-4o установил новый высокий результат — 87,2%.

2. Производительность аудио ASR: GPT-4o значительно повышает производительность распознавания речи по сравнению с Whisper-v3 на всех языках, особенно на языках с низкими ресурсами.

3. Производительность аудиоперевода: GPT-4o устанавливает новый уровень в области перевода речи и превосходит Whisper-v3 в бенчмарке MLS.

4. M3Exam: Эталон M3Exam, это многоязычная оценка и оценка зрения, состоящая из вопросов с множественным выбором из стандартизированных тестов других стран, которые иногда включают рисунки и диаграммы. GPT-4o превосходит GPT-4 по этому эталону на всех языках.

5. Пробы на понимание зрения: GPT-4o достигает современной производительности в бенчмарках на визуальное восприятие. Все тесты на понимание зрения являются 0-выборочными, а MMMU, MathVista и ChartQA — 0-выборочными CoT.
Варианты применения новой модели GPT-4o
Баррет Зоф и Марк Чен, оба исследователи из OpenAI, рассказали о нескольких вариантах применения новой модели. Больше всего впечатляет ее способность вести диалог в реальном времени.
Вы можете прервать модель во время ее ответов, и она остановится, послушает и скорректирует курс.
1. OpenAI продемонстрировала возможность изменять тон модели. Чен попросил модель прочитать сказку на ночь «о роботах и любви», быстро переключившись на более драматичный голос. Модель становилась все более театральной, пока Мурати не потребовал от нее быстро перейти к убедительному голосу робота (с чем она прекрасно справилась). Несмотря на то что во время разговора предсказуемо возникали короткие паузы, пока модель обдумывала, что сказать дальше, он выделялся как удивительно естественный разговор ИИ.
2. Модель также может решать визуальные задачи в режиме реального времени. Используя свой телефон, Зоф снял, как он пишет уравнение алгебры (3x + 1 = 4) на листе бумаги, а GPT-4o следует за ним. Он попросил программу не давать ответы, а направлять его, как это сделал бы учитель.
«Первый шаг — получить все члены с x на одной стороне», — сказала модель дружелюбным тоном. «Что, по-твоему, мы должны сделать с этим плюсом?»
3. По словам Мурати, GPT-4o будет хранить записи о взаимодействии пользователей с ней, то есть модель «теперь имеет ощущение непрерывности всех ваших разговоров». Среди других преимуществ — перевод в реальном времени, возможность поиска по вашим разговорам с моделью и поиск информации в режиме реального времени.
Как и положено живой демонстрации, не обошлось без заминок и сбоев. Голос GPT-4o мог неловко вклиниться во время разговора. Оказалось, что он комментирует наряды одного из ведущих, хотя его об этом не просили. Но он прекрасно оправился, когда демонстраторы указали модели на ее ошибку. Похоже, что модель способна быстро реагировать и помогать в нескольких средах, которые другие модели пока не объединяют так эффективно.
Ранее многие из наиболее мощных функций OpenAI, такие как рассуждения с помощью изображений и видео, находились за платной защитой. В GPT-4o они впервые будут открыты для широкой публики, хотя пока неясно, сколько взаимодействий вы сможете провести с моделью, прежде чем с вас снимут деньги.
OpenAI утверждает, что платные подписчики «по-прежнему будут иметь в пять раз больше возможностей, чем бесплатные пользователи».