GPT-4o掀新一輪AI競賽 國產大模型哪家更“全能”?

(原標題:GPT-4o掀新一輪AI競賽 國產大模型哪家更“全能”?)

自2024年年初Sora的爆火、再到最近OpenAI發佈的“全能”大模型GPT-4o,多模態能力已成爲AI行業新焦點。

5月14日,OpenAI發佈了新一代旗艦大模型GPT-4o(“o”即omni,意爲“全能”),標誌着AI技術在多模態能力上的重大突破。GPT-4o不僅在文本、音頻和圖像的理解上具備了流暢的輸入、輸出能力,更是在人機交互體驗上實現了質的飛躍,其快速響應和情感表達能力讓人印象深刻。

如果說2023年用戶對AI大模型的印象還停留在“聊天機器人”這樣單一的功能,進入到2024年,多模態能力的提升,能夠讓人工智能技術更好的幫助人類提高工作效率。

在國內,AI大模型的競爭日益激烈。3月18日,月之暗面宣佈其對話式AI助手產品Kimi智能助手支持200萬字的無損上下文輸入,隨後,百度文心一言宣佈免費開放200萬—500萬長文本能力,阿里通義千問直接上線1000萬字長文本,360也官宣內測500萬字長文本。訊飛星火、商湯日日新大模型也在4月進行了多項能力的升級;就在5月15日,字節跳動發佈“豆包大模型”家族,將大模型使用成本從以分計價推進到以釐計價。可見,國產大模型都在通過比拼技術或價格優勢,來在這場大模型競賽中爭得一席之地。

筆者注意到,最近一份評測報告中,就以日常辦公、生活等使用場景爲維度,對多款國產大模型進行了實測。評測所選取了六家國產大模型:Kimi、文心一言、通義千問、訊飛星火、商湯商量、智譜清言,分別選取了租房合同、汽車保險賠付、撰寫報告提綱、輔導孩子作業等幾個場景中,從而考察大模型在長文本、圖片、視頻等多種格式的文檔理解、問答、輸出能力,即“多模態”能力,以及邏輯推理、數學能力,也就是大模型是否“聰明”。

在日常生活中,除了需要處理長文檔,還會有許多的拍照、錄像、長視頻資料,而當前的大模型已經開始具備處理這些複雜信息,做提煉整理的能力,能夠極高的提升辦公效率。在做數學題方面,大模型也能夠生成解題思路,成爲學生的學習助手。

GPT-4o的發佈爲AI行業樹立了新的標杆,而國產大模型的快速發展也讓我們看到了追趕甚至超越國際先進水平的可能。在多模態AI的賽道上,國產AI正以強勁的勢頭不斷前行。然而,作爲普通用戶,我們也希望,國產大模型的發展應當更多地關注用戶需求,而不能偏離實際使用場景。AI技術的進步應當服務於用戶的實際體驗,而非單純的技術自嗨。只有在深入瞭解並解決用戶痛點的基礎上,國產AI大模型才能在國際競爭中站穩腳跟,推動AI技術在各個領域的應用落地。