☰

GPT-4o登場！實時語音視頻交互震撼全場或推動AI應用打開商業化空間

北京時間週二（5月14日）凌晨，美國人工智能研究公司OpenAI在線上舉辦了“春季更新”活動。OpenAI在活動中發佈了新旗艦模型“GPT-4o”，“可以實時對音頻、視覺和文本進行推理。”據介紹，新模型使ChatGPT能夠處理50種不同的語言，同時提高了速度和質量。

GPT-4o是邁向更自然人機交互的一步，與現有模型相比，GPT-4o在圖像和音頻理解方面尤其出色。GPT-4o可以在232毫秒內對音頻輸入做出反應，與人類在對話中的反應時間相近。在錄播視頻中，兩位高管做出了演示：機器人能夠從急促的喘氣聲中理解“緊張”的含義，並且指導他進行深呼吸。開源證券發佈研報稱，國內AI多模態模型不斷躍遷，或持續賦能IP開發、影視、音樂、教育、營銷等領域降本提效，拉動對音視頻語料的需求，並衍生全新變現模式，建議繼續佈局多模態AI應用。

據財聯社主題庫顯示，相關上市公司中：

值得買的“AI問答機器人”將採用對話形式與用戶進行交互，用戶只需通過自然語言描述自己的購物需求或問題，機器人即可智能分析並給出相應的購物建議或鏈接。

奧飛娛樂在互動易平臺上表示，目前其持有光年無限5%股權，光年無限有自己的AI對話機器人產品——圖靈機器人開放平臺。公司上線AI對話小程序“喜羊羊與灰太狼+”，定位兒童用戶，提供親子陪伴體驗。

GPT-4o登場！實時語音視頻交互震撼全場 或推動AI應用打開商業化空間

相關資訊

GPT-4o登場！實時語音視頻交互震撼全場或推動AI應用打開商業化空間