11項指標擊敗GPT-4o!360攢局讓16家大模型聯手作戰

終於,國產大模型能在綜合能力上也能與GPT-4o一決雌雄了。

在12項指標的測試中,這個模型有11項都超過了GPT-4o,綜合能力則高出了10個百分點。

而且在詩詞賞析等中文特色領域優勢更加明顯,“最難中文Benchmark”弱智吧也有重大突破。

不過,這並不是一家大模型廠商單打獨鬥的結果,而是由16家廠商組成的“聯合戰隊”。

戰隊的發起者是360,除了自己參與外,包括BAT在內的大廠有百度、火山引擎、騰訊、阿里巴巴、華爲,國產大模型“五小虎”,智譜AI、月之暗面、MiniMax、百川智能、零一萬物,還有五家頭部垂類廠商,商湯科技、科大訊飛、好未來、幻方量化、面壁智能,總計16家廠商都已悉數到齊。(注:以上排名不分先後)

現在,這個“聯合戰隊”已經被請進了產品——在AI助手當中,所有用戶都能免費使用。

在 AI助手當中,16家廠商的大模型已齊聚一堂,可以在同一平臺直接對話,想選哪個就選哪個。

而且中途還可以隨時切換模型,系統會記住前面的上下文,讓後面的模型繼續完成對話。

比如在下面這個對話窗口中,我們問了智譜9.11和9.8哪個大,然後就把模型切換成了星火,直接問是怎麼比的。

從對話中可以看出,後面換上來的星火準確地得知了“怎麼比的”這四個字問的是小數大小的比較。

當然,針對同一問題,也可以直接召喚出另一家的模型現場PK。

在模型PK的同時,我們也能看到更多的信息或答案,不僅可以讓答案更詳盡,還能交叉驗證。

舉個例子,我們提出了關於電視劇《雍正王朝》中兩個角色關係的問題,問題首先提給了智譜。

接着我們又讓文心一言也來回答一下,看看能不能獲取到更多的信息,結果智譜的回答沒有錯,文心一言則給出了更爲詳細的補充。

更關鍵的是360 AI助手針對選擇困難症患者,或者不清楚哪個模型更合適的用戶也極爲友好。

只要選擇“AI助手”本體作爲對話模型,系統就會根據對話內容判斷你的意圖,然後根據任務類型自動匹配最合適的模型。

比如在完成寫作類任務的時候,AI助手就會給我們分配擅長文案的豆包。

遇到編程問題,就會召喚代碼能力較強的DeepSeek。

以邏輯推理爲主的問題,可能會讓智譜來應對。

當然界面中所展示的任務分類比較具有概括性,實際運行過程中AI助手還對任務進行了更細粒度的劃分。

另外,在選擇模型的同時,AI助手還會先進行聯網搜索。

所以,使用AI助手的另一個好處就是可以獲得最新的信息,而不必擔心模型的知識庫更新時間。

針對一些常見任務,AI助手平臺還準備了專用的助手,能夠更好地實現這些功能。

除了在網頁中使用,AI助手還有另外兩大入口——桌面和360安全瀏覽器。

比如在360安全瀏覽器中,安裝好AI助手插件,在瀏覽網頁時就會在右下角看到一個懸浮球。

點擊一下就可以在右側邊欄中召喚出AI助手,寫作時也可以在同一個窗口中快速和AI對話了。

另外在鼠標劃過懸浮球時,上方還會出現一個新的按鈕,點擊之後就可以對當前瀏覽的頁面進行一鍵總結。

頁面裡的細節內容,也可以向AI助手提問。

而且還支持總結英文內容。

另外就是針對頁面中的個別詞句,選中後會出現AI助手的工具條,可以對選中部分進行翻譯、解釋,或聯網檢索更多相關信息。

桌面端則依託360安全衛士實現,功能與瀏覽器相似,但把劃詞召喚的範圍從網頁擴展到了整個系統。

那麼在AI助手的背後,又運用了什麼樣的技術呢?

實際上,這種根據需求調度大模型的用法,也剛好是360推出的一項新技術——CoE(Collaboration-of-Experts),即專家協同架構。

我們知道,很多國產模型在單項指標上都打平甚至超越了OpenAI,但論綜合實力,差距就顯現出來了。

而360的思路,是改變這種“單打獨鬥”的模式,構建大模型“專家集羣”,組成混合大模型,從而各取所長,以“聯合戰隊”的方式迎戰GPT-4o。

結果,基於360 CoE架構的、由16家國產大模型組成的混合大模型在12項指標的測試中取得了80.49分的綜合成績,超越了GPT-4o的69.22分。

而且除了代碼以外,其餘11項指標均優於GPT-4o。

特別是在“弱智吧”和詩詞賞析這類比較具有中文特色的問題上,CoE的領先優勢更加明顯。

相比於MoE(Mixture-of-Experts,混合專家)架構,360的CoE模型在速度、智能和成本三個層次上都擁有顯著的優勢。

CoE通過意圖識別和任務調度,最優化推理資源分配,提升效率,降低成本,推理成本下降90%。

爲了能夠以最高效的方式對CoE架構中的模型進行調度,至少有兩方面的工作不可或缺。

一是對這些模型能力的全面評估,只有這樣,才能瞭解每個模型所擅長的領域,知道應該給模型分配什麼樣的任務。

爲此,360對專家庫中的模型在12個領域的表現進行了全方位測試,摸清了模型的特色能力。

△除GPT-4o外,其餘模型名稱已隱去

另一個方面,就是用戶意圖的解讀了——對任務需求的理解,顯然是分配模型不可或缺的基礎。

基於過去10年在做搜索引擎時積累的技術和數據,360訓練出了能識別超過1億種意圖分類的專用模型。

除了技術功底,我們不禁還想問,360是如何組局,讓15家大模型廠商“盡入轂中”的呢?

360公司創始人兼董事長周鴻禕介紹,衆廠商願意合作的出發點在於大模型投資巨大,只有有人用纔有可能覆蓋成本,才能不斷改進產品。

而360擁有大量用戶,可以開放桌面和瀏覽器兩大明星場景,可以給這些模型帶來龐大的用戶羣體。

相比於插件,這兩個入口讓用戶離大模型的能力非常近,而大模型今天最大的需求恰恰就是接近場景和用戶,用戶才能使用。

另外,集成式的AI助手規避了單個大模型的能力短板,各取所長能夠超過GPT-4o,這就給了廠商一個讓用戶接觸使用的機會,未來還會釋放出更多的場景。

可以說,360 AI助手的這種模式,是AGI到來前一種很好的提升模型水平的方案,對提高AI滲透率也有所裨益。

最近,國內的大模型廠商開始形成共識,變得更加開放,紛紛提供的更便宜的Token API。

所以,360對桌面和瀏覽器這兩個入口的開放,不僅是爲了“聚天下英才”,也是在順應這種走向開放的大趨勢。

站在更高的層次上,360還希望實現AI向着更多人的普惠。

周鴻禕認爲,AI並不是會不淘汰人,而是會淘汰不懂得用AI的人;而對於會用的人來說,AI將是強有力的工具。

但同時,AI本身也不應該居高臨下,而是應該讓願意學習它的人都有機會掌握。

這就是360所講的AI普惠——讓所有人能夠享受AI帶來的能力,避免落後於AI時代。

AI助手傳送門:https://bot.360.com