OpenAI представила оновлення своєї мовної моделі GPT-4 під назвою GPT-4o. У своєму блозі компанія зазначила, що можливості GPT-4o будуть впроваджуватися поетапно, але вже зараз нова флагманська модель здатна працювати з аудіо, відео та текстом у реальному часі.
Можливості GPT-4o:
Мультимодальність: Літера «о» в назві означає “omni” (всебічний), що вказує на мультимодальність GPT-4o. Це означає, що модель може генерувати контент або розуміти команди голосом, текстом або за допомогою зображень.
Швидкість реакції: GPT-4o може реагувати на аудіозапити лише за 232 мілісекунди (в середньому 320 мілісекунд), що відповідає часу реакції людини під час розмови.
Натуральне спілкування: Модель спілкується голосом, подібно до людини, змінюючи інтонації.
Запам’ятовування бесід: GPT-4o запам’ятовує бесіди з користувачем.
Продуктивність: Модель відповідає продуктивності GPT-4 Turbo для англійського тексту та коду.
Покращена підтримка мов: Значно покращено роботу з текстом іншими мовами (загалом підтримується 50, зокрема й українська).
Генерація 3D-об’єктів: Модель може генерувати 3D-об’єкти.
Аналіз зображень: GPT-4o значно краще сприймає та аналізує зображення, зокрема графіки, діаграми та скриншоти, порівняно з попередніми моделями.
Безкоштовний доступ: Модель буде безкоштовною для всіх користувачів, а платні користувачі й надалі матимуть уп’ятеро більші обсяги обробки.
API для розробників: Розробники матимуть доступ до API, який вдвічі швидший і вдвічі дешевший.
Повний список можливостей моделі можна знайти у блозі OpenAI. Під час демонстрації GPT-4o співробітники OpenAI спілкувалися з нею голосом, демонструючи її здатність розуміти тон і напрямок бесіди, а також природність у розмовах та навіть вміння жартувати.