拒絕刷題刷榜,智源研究院測了下140多個大模型的真實水平

21世紀經濟報道記者白楊 北京報道

5月17日,智源研究院正式推出智源評測體系,併發布了覆蓋國內外140餘個大模型的評測結果。

據瞭解,智源研究院的此次評測分別從主觀、客觀兩個維度考察了語言模型的簡單理解、知識運用、推理能力、數學能力、代碼能力、任務解決、安全與價值觀七大能力;針對多模態模型則主要評估了多模態理解和生成能力。

評測結果顯示,在中文語境下,國內頭部語言模型的綜合表現已接近國際一流水平,但存在能力發展不均衡的情況。

在多模態理解圖文問答任務上,國產模型表現突出。國產多模態模型在中文語境下的文生圖能力與國際一流水平差距較小;而多模態模型的文生視頻能力上,對比各家公佈的演示視頻長度和質量,Sora有明顯優勢。

具體而言,語言模型主觀評測結果顯示,在中文語境下,字節跳動豆包Skylark2、OpenAI GPT-4排名前兩位。在語言模型客觀評測中,OpenAI GPT-4、百川智能Baichuan3分別位列第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進入語言模型主客觀評測前五。

多模態理解模型客觀評測結果顯示,圖文問答方面,阿里巴巴通義Qwen-vl-max與上海人工智能實驗室InternVL-Chat-V1.5先後領先於OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能實驗室Intern-XComposer2-VL-7B緊隨其後。

多模態生成模型文生圖評測結果顯示,OpenAI DALL-E3位列第一,智譜華章CogView3、Meta-Imagine分居第二、第三,百度文心一格、字節跳動doubao-Image次之。多模態生成模型文生視頻評測結果顯示,OpenAI Sora、Runway、愛詩科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。

這裡需要指出的是,Mdjourney因爲基本無法理解中文提示詞,因此排名靠後;而Sora僅能使用其官方公佈的prompts和視頻片段與其他模型生成的視頻進行對比評測,評測結果存在一定的偏差。

智源研究院院長王仲遠在接受21世紀經濟報道記者採訪時表示,“現在整個行業百花齊放,但也面臨非常多挑戰。作爲一名AI的研究者,我自己都分不清楚哪家模型強哪家模型弱。所以行業需要一家對大模型技術有深刻理解以及充足經驗,並且是一家中立、客觀、公正的第三方機構來做一次全面評測。”

資料顯示,成立於2018年的智源研究院,是一家非營利研究機構,旨在推動人工智能領域發展政策、學術思想、理論基礎、頂尖人才與產業生態的創新。

2020年10月,智源研究院就啓動了大模型的研發工作,其2021年3月發佈的悟道1.0,是當時中國首個以及世界最大的大模型。

此前,智源研究院也牽頭成立了IEEE大模型評測標準小組P3419,組織20餘家企業及學者參與大模型標準建設,同時作爲《人工智能預訓練模型評測指標與方法》國家標準草案的共建單位,智源此次的模型評測也借鑑了該標準,並採取客觀評測統一規則與主觀評測多重校驗打分相結合的方法。

王仲遠表示,現在市面上絕大多數的評測都是開卷考,這讓很多大模型可以去刷榜、刷題,導致評測結果無法客觀公正地反映這些模型的真實水平。“這不利於行業的發展,我們尤其擔心出現劣幣驅逐良幣。”

所以,智源研究院此次評測做了非常嚴格的限制,以確保評測過程中不受到任何干擾,同時,此次評測使用20餘個數據集、超8萬道考題。其中主觀題4000餘道,均來源於智源自建原創未公開並保持高頻迭代的主觀評測集。

另外對於這次評測,王仲遠也坦言,評測結果仍會有一定的侷限性。比如本次評測主要集中於通用大模型的評測,未覆蓋到垂直領域大模型,並且是側重於在中文語境下的評估。

除此之外,這次評測各模型廠商發佈的最新版本截至2024年4月20日,所以不代表各個廠商最新發布的模型性能表現。

“科學權威公正開放,是智源評測的最高綱領。接下來,智源將攜手生態合作伙伴繼續共建完善評測體系,促進模型性能的優化以及在多元複雜場景下的產業落地。”王仲遠說。