GPT-4o登場!實時語音視頻交互震撼全場 或推動AI應用打開商業化空間
北京時間週二(5月14日)凌晨,美國人工智能研究公司OpenAI在線上舉辦了“春季更新”活動。OpenAI在活動中發佈了新旗艦模型“GPT-4o”,“可以實時對音頻、視覺和文本進行推理。”據介紹,新模型使ChatGPT能夠處理50種不同的語言,同時提高了速度和質量。
GPT-4o是邁向更自然人機交互的一步,與現有模型相比,GPT-4o在圖像和音頻理解方面尤其出色。GPT-4o可以在232毫秒內對音頻輸入做出反應,與人類在對話中的反應時間相近。在錄播視頻中,兩位高管做出了演示:機器人能夠從急促的喘氣聲中理解“緊張”的含義,並且指導他進行深呼吸。開源證券發佈研報稱,國內AI多模態模型不斷躍遷,或持續賦能IP開發、影視、音樂、教育、營銷等領域降本提效,拉動對音視頻語料的需求,並衍生全新變現模式,建議繼續佈局多模態AI應用。
據財聯社主題庫顯示,相關上市公司中:
值得買的“AI問答機器人”將採用對話形式與用戶進行交互,用戶只需通過自然語言描述自己的購物需求或問題,機器人即可智能分析並給出相應的購物建議或鏈接。
奧飛娛樂在互動易平臺上表示,目前其持有光年無限5%股權,光年無限有自己的AI對話機器人產品——圖靈機器人開放平臺。公司上線AI對話小程序“喜羊羊與灰太狼+”,定位兒童用戶,提供親子陪伴體驗。