special

13 травня OpenAI провела презентацію

GPT-4 Omni, або просто GPT-4o , одночасно працює з текстом, картинками, відео та аудіо. Раніше в ChatGPT для кожного формату діяли різні нейромережеві моделі – це впливало на швидкість відповідей та якість результатів. Виходить, нове покоління фактично винайшло те, що зветься мультимодальністю в сучасних нейромережах.

У презентації окремо зробили акцент на можливостях GPT-4o як голосовий помічник. Нейросеть емоційно розмовляє, використовує різні інтонації і навіть має харизму — розробники неодноразово надсилалися до фільму «Вона» . Розкажу, що показали на презентації, які є сценарії використання моделі та де її можна спробувати.

Що може GPT-4o?

Ось чим GPT-4o відрізняється від попередніх моделей.

  • 🗣️ Голосовий асистент розпізнає мову та підтримує діалоги в реальному часі. Взаємодія відбувається природніше, ніж раніше: час відгуку аудіозапити становить середньому 0,3 секунди, що можна порівняти зі швидкістю реакції людини.
  • Нейросеть говорить не роботизованим монотонним голосом, а сміється, виражає емоції, змінює інтонації і навіть співає.
  • 📹 Розпізнавання відео та зображень. GPT-4o краще аналізує та інтерпретує візуальні дані. Вона розпізнає об'єкти, дії та сцени у відео. Наприклад, модель змогла транскрибувати ролик та виділити різних спікерів із запису зустрічі. Раніше нейромережа працювала лише зі статичними зображеннями: картинками, скріншотами, фото.
  • 📈 Мультимодальність. Модель приймає на вході та генерує на виході будь-які комбінації тексту, аудіо та зображень. Вона працює за принципом end-to-end , що означає, що всі види інформації обробляються однією нейромережею.
  • 📄 Обробка тексту відповідає рівню GPT-4 Turbo під час роботи англійською. Іншими мовами роботу суттєво покращили.
  • 🗂️ Збільшене контекстне вікно. Нейросети можна «годувати» великі обсяги інформації. На презентації вона підтримувала розмову протягом семи хвилин, а на прикладах на сайті OpenAI зробила короткий переказ 40-хвилинного відео.
  • 🌅 Покращена робота із зображеннями. Нейросеть створює текст практично без артефактів, а також консистентних персонажів у різних позах та 3D-моделі.

Як можна використовувати модель - корисні демосценарії?

OpenAI показала на презентації кілька варіантів використання можливостей нової моделі. Ось деякі з них:

  1. Спілкуватися як із другом. Нейросітка у прямому ефірі подивилася на співробітника OpenAI і зрозуміла, що він у піднесеному настрої. А потім спитала, чому він так радіє, і зніяковіла, коли той сказав, що проводить презентацію її можливостей. Подивитися демо
  2. Вивчати мови. Нейросети можна показати різні об'єкти та попросити перекладати іншою мовою. Наприклад, у деморолику GPT-4o показали фрукти, ручки та плюшеву іграшку – вона переклала все правильно. Подивитися демо
  3. Перекладати у реальному часі. Нейросітка попросили допомогти в розмові дівчини та англомовного хлопця. Коли GPT-4o чула італійську мову, одразу перекладала англійською, і навпаки. Подивитися демо
  4. Оцінити образ. Співробітник OpenAI запитав, чи досить він добре виглядає для походу на співбесіду, - GPT-4o порекомендувала йому зачесатися. Коли той одягнув капелюх, нейромережа сказала, що він виглядає несерйозно, і порадила його зняти. Подивитися демо
  5. Провести гру «Камінь, ножиці, папір». Двоє людей грали, а GPT-4o виступала коментатором: розпізнавала, що вони показують, озвучувала всі дії та оголосила переможця. Подивитися демо
  6. Навчати математиці. Нейросеть попросили допомогти з тригонометричним рівнянням, але не відповідати відразу, а навчити підлітка вирішувати його самостійно. GPT-4o провела кроки, виправила помилки і привела до правильної відповіді. Подивитися демо
  7. Співати. Співробітниця OpenAI попросила нейромережі вигадати пісню про Сан-Франциско і заспівати її кількома голосами одночасно. GPT-4o виконала пісню а капела: генерувати інструментальну музику вона не може. Подивитися демо

Created/Updated: 16.05.2024