OpenAI представи мощния мултимодален модел на генеративен изкуствен интелект (ИИ) GPT-4o, който ще бъде внедрен в нейните решения за разработчици и потребители в следващите седмици. Буквата “о” в названието GPT-4o означава omni (всестранен), което указва на мултимодалност на GPT-4o.
Техническият директор на OpenAI Мира Мурати съобщи в хода на презентацията на продукта, че GPT-4o има интелекта на GPT-4, но с по-високи възможности за работа с текст и изображения, както и с аудио. “GPT-4o възприема глас, текст и визуални образи. Това е важно, тъй като ние мислим за бъдещето взаимодействие между хората и машините”.
Неговият предшественик – GPT-4 Turbo се обучаваше на съчетания на изображения и текст. Той може да анализира изображения и текст за изпълнение на такива задачи, като извличане на текст от снимки и даже описание на съдържанието на тези изображения. На свой ред GPT-4o добавя към тези възможности и реч.
GPT-4o ще позволи значително да се подобри работата на ИИ чат-бота ChatGPT. Последният отдавна поддържа гласов режим, в който отговорите на чат-бота се разшифроват с използване на модела за преобразуване на текста в реч, но GPT-4o подобрява тази функция, позволявайки на потребителите да взаимодействат с чат-бота повече като с асистент. Например, ако му се зададе въпрос и бъде прекъснат, когато той отговаря. Според OpenAI, моделът GPT-4o осигурява реакция в реално време и може да улавя емоции в гласа на потребителя, генерирайки в отговор глас “в различни емоционални стилове” в съответствие с текущата ситуация.
GPT-4o подобрява и визуалните възможности на ChatGPT. На базата на предложена снимка или изображение на десктоп, ChatGPT може бързо да отговори на съпътстващи въпроси – от “Какво става в този програмен код” до “Каква марка риза носи този човек”.
По-нататък възможностите на модела ще се разширяват. Ако сега GPT-4o позволява, например, да се превежда заснето меню на друг език, в бъдеще с негова помощ ChatGPT ще може да “гледа” спортен мач в директен ефир и да ви обяснява правилата.
GPT-4o вече е достъпен както за платените, така и за безплатните потребители на ChatGPT, но за абонатите на платените абонаменти ChatGPT Plus и Team ограничението за количество съобщения ще е 5 пъти по-голямо. При превишаване на лимита ChatGPT автоматично ще се превключва към GPT-3.5 за безплатните потребители и към GPT-4 за платените.
При взаимодействие с GPT-4o за безплатните потребители на ChatGPT ще станат достъпни някои функции, които преди бяха само за платените абонати. В частност, обновеният чат-бот може да търси информация не само в своя ИИ модел, но и в интернет. Освен това, ще може да анализира графика, да работи с потребителски данни и да създава графики, да работи с потребителски изображения и файлове, както и по-добре да запомня предишните взаимодействия на потребителя. Безплатните потребители ще получат и достъп до GPT Store.
OpenAI съобщи, че GPT-4o поддържа повече езици с по-добра производителност. В API на OpenAI GPT-4o е два пъти по-бърз, в сравнение с GPT-4 (в частност GPT-4 Turbo), двойно по-евтин е и има по-високи лимити по скорост.
Към момента поддръжката на гласово общуване не е включена в API на GPT-4o за всички клиенти. OpenAI пояснява, че поради риск от неправилно използване в близките седмици се планира да се пусне поддръжка на новите аудио възможности на GPT-4o само за малка група доверени партньори.