Bitget App
Торгуйте разумнее
Купить криптоРынкиТорговляФьючерсыБотыEarnКопитрейдинг
ИИ выражает эмоции, видит и поет: OpenAI представила улучшенную версию GPT-4

ИИ выражает эмоции, видит и поет: OpenAI представила улучшенную версию GPT-4

Incrypted2024/05/14 07:55
Автор:Maryna Hlaiboroda
  • Компания OpenAI представила мультимодальную модель GPT-4o.
  • Алгоритм способен принимать на вход текст, аудио или изображения и выдавать данные во всех трех форматах.
  • В ближайшие недели модель станет доступна для всех, включая бесплатных пользователей.
  • OpenAI также анонсировала обновление пользовательского веб-интерфейса ChatGPT и настольную версию чат-бота для macOS.

Лаборатория OpenAI представила новую мультимодальную модель искусственного интеллекта GPT-4o. По данным компании, эта технология ― еще один шаг к «гораздо более естественному взаимодействию человека с компьютером».

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

Буква «o» в названии означает omni ― GPT-4o способна принимать на вход любую комбинацию текста, аудио и изображений и выдавать данные во всех трех форматах. Модель также умеет распознавать эмоции, позволяет прерывать себя в процессе речи и может реагировать так же быстро, как и человек во время беседы.

По словам технического директора стартапа Миры Мурати, новый алгоритм обеспечивает интеллект «уровня GPT-4», но обладает лучшими возможностями в различных модальностях и средах.

«[…] Последние пару лет мы были сосредоточены на повышении интеллекта моделей. Это первый раз, когда мы делаем огромный шаг вперед, когда дело касается простоты использования», ― отметила она.

Во время презентации OpenAI продемонстрировала работу GPT-4o. Алгоритм в прямом эфире перевел между английским и итальянским языками, помог исследователю решить линейное уравнение в реальном времени на бумаге и дал рекомендации по глубокому дыханию руководителю лаборатории.

Отличие от предшественников

Предыдущий «ведущий и самый продвинутый» алгоритм GPT-4 Turbo мог анализировать изображения и текст для выполнения задач вроде извлечения написанного из картинок или описания содержимого на них. Но GPT-4o добавляет обработку речи.

Из-за того, что новая модель обучена использованию трех форматов данных, входная и выходная информация обрабатывается одной и той же нейронной сетью. Предшественники ― GPT-3.5 и GPT-4 ― позволяли пользователям задавать вопросы голосом, а затем транскрибировали звук в текст. Это лишало речь интонаций и эмоций и делало взаимодействие более медленным.

Благодаря GPT-4o использование ChatGPT стало похоже на общение с помощником.

Например, при разговоре с чат-ботом, базирующимся на новой модели, его можно прервать во время ответа. Согласно OpenAI, алгоритм обеспечивает реакцию «в реальном времени» и может даже улавливать нюансы звучания пользователя, генерируя в ответ голоса «в различных эмоциональных стилях», включая пение.

Улучшенные «зрение», язык и речь

GPT-4o расширяет возможности ChatGPT в плане зрения. Получив фотографию или экран рабочего стола, чат-бот теперь способен быстро отвечать на связанные с ними вопросы, начиная от «что происходит в этом программном коде?» и заканчивая «какая марка рубашки на этом человеке?».

По словам Мурати, в будущем эти функции будут развиваться. Хотя GPT-4o способна просматривать изображение меню на иностранном языке и переводить его, позже модель позволит ChatGPT, например, «смотреть» спортивную игру в прямом эфире и объяснять ее правила.

В лаборатории заявили, что новый алгоритм более многоязычен ― он может понимать около 50 языков.

Согласно компании, через API OpenAI и Azure OpenAI Service от Microsoft новая модель работает в два раза быстрее, распространяется дешевле и менее ограничена по скорости в сравнении с GPT-4 Turbo.

Пока поддержка голоса в API GPT-4o не распространяется на всех клиентов. Ссылаясь на риск неправомерного использования в компании отметили, что сперва запустят эту функцию для «небольшой группы доверенных партнеров» в ближайшие недели.

OpenAI предоставит новую модель для всех, включая бесплатных пользователей ChatGPT, в течение следующих недель. Владельцы премиум-подписок Plus и Team получат к ней доступ с «в пять раз меньшим» ограничением по количеству обращений.

Новый веб-интерфейс и приложение для ChatGPT

Лаборатория объявила о запуске обновленного пользовательского веб-интерфейса ChatGPT с «более диалоговым» главным экраном и макетом сообщений.

Также OpenAI представила настольную версию чат-бота для macOS, доступ к которой платные пользователи получат начиная с сегодняшнего дня. Версия для Windows появится позже в этом году.

Настольное приложение ChatGPT, используемое в задаче кодирования. Данные: OpenAI.

Кроме того, бесплатные пользователи ChatGPT получат доступ к GPT Store ― библиотеке и инструментам для создания сторонних чат-ботов с ИИ. Также им откроют некоторые ранее платные опции ChatGPT вроде функции «памяти».

Ранее СМИ утверждали, что 13 мая OpenAI представит поисковую систему на базе искусственного интеллекта.

0

Дисклеймер: содержание этой статьи отражает исключительно мнение автора и не представляет платформу в каком-либо качестве. Данная статья не должна являться ориентиром при принятии инвестиционных решений.

PoolX: вносите активы и получайте новые токены.
APR до 12%. Аирдропы новых токенов.
Внести!

Вам также может понравиться

Stacks-базирующаяся Alex Lab возместит пользователям убытки после эксплойта на $8,3 миллиона, так как токен упал на 45%

Краткий обзор: Alex Lab, протокол Bitcoin DeFi на блокчейне Stacks, заявил, что полностью возместит своим пользователям убытки, используя средства казначейства, после эксплойта на сумму $8,3 миллиона в пятницу. Собственный токен протокола упал на 45% в ответ на эксплойт, в котором команда Alex обвинила ошибку в логике смарт-контракта протокола. Alex Lab ранее подвергался атаке в мае 2024 года на сумму $4,3 миллиона, в которой он обвинил северокорейскую группу Lazarus. Процесс восстановления после той атаки все еще не завершен.

The Block2025/06/07 22:57
Stacks-базирующаяся Alex Lab возместит пользователям убытки после эксплойта на $8,3 миллиона, так как токен упал на 45%

BiT Global, связанная с Джастином Саном, прекращает судебное разбирательство с Coinbase, связанное с wBTC

Адвокаты BiT Global отозвали иск против Coinbase, связанный с делистингом токена wrapped Bitcoin (wBTC) этой компанией всего через два месяца после запуска конкурирующего токена cbBTC. Иск был отклонен с предубеждением, что означает невозможность его повторного предъявления; согласно соглашению, обе компании оплатят свои собственные судебные издержки.

The Block2025/06/07 22:57
BiT Global, связанная с Джастином Саном, прекращает судебное разбирательство с Coinbase, связанное с wBTC

15-дневная полоса приносит Ethereum ETF рекордное значение совокупного притока

Краткий обзор: Американские спотовые ETF на Ethereum демонстрируют положительные притоки на протяжении последних 15 торговых дней подряд, что привело к их наивысшему зафиксированному совокупному уровню притока с момента запуска. Спотовые ETF на Bitcoin, которые достигли своего рекорда в конце мая, с тех пор потеряли более $1 миллиарда в стоимости.

The Block2025/06/07 19:49
15-дневная полоса приносит Ethereum ETF рекордное значение совокупного притока