☰

國產大模型被抄襲事件告終斯坦福團隊致歉並撤下模型面壁：知錯能改，善莫大焉

出品｜本站科技《態度》欄目

作者｜丁廣勝

斯坦福Llama3-V團隊的終於向面壁智能團隊正式道歉。

事情緣起於5月29日，斯坦福大學的一個研究團隊發佈了一個名爲Llama3V的模型，號稱只要500美元就能訓練出一個 SOTA 多模態模型，且效果比肩 GPT-4V、Gemini Ultra 與 Claude Opus。

一時間備受關注，該AI團隊背景豪華。3名作者擁有斯坦福大學、特斯拉、SpaceX的名校和企業背景。

但讓人大跌眼鏡的是，Llama3V與中國AI企業面壁智能在5月發佈的8B多模態開源小模型MiniCPM-Llama3-V 2.59高度重合。

6月2日，有人在 Llama3-V的 Github 項目下提出質疑，但留言很快被刪除。而後，事件引起面壁智能團隊注意。

面壁團隊通過測試，發現斯坦福大模型項目Llama3-V與MiniCPM一樣，可以識別出“清華簡”戰國古文字，“不僅對得一模一樣、連錯得都一模一樣”。

最後，斯坦福Llama3-V團隊的兩位作者Siddharth Sharma和 Aksh Garg在X上就抄襲行爲向面壁智能團隊正式道歉，並表示會將Llama3-V模型撤下。

事件各方表態

面壁智能CEO李大海針對斯坦福團隊的Llama3V項目與面壁小鋼炮的相似案例談到，這項工作是團隊同學耗時數個月，從卷帙浩繁的清華簡中一個字一個字掃描下來，並逐一進行數據標註，融合進模型中的。更加tricky的是，兩個模型在高斯擾動驗證後，在正確和錯誤表現方面都高度相似。

李大海無奈的說道，技術創新不易，每一項工作都是團隊夜以繼日的奮鬥結果，也是以有限算力對全世界技術進步與創新發展作出的真誠奉獻。我們希望團隊的好工作被更多人關注與認可，但不是以這種方式。

“我們對這件事深表遺憾！一方面感慨這也是一種受到國際團隊認可的方式，另一方面也呼籲大家共建開放、合作、有信任的社區環境。一起加油合作，讓世界因AGI的到來變得更好！”

對此，面壁智能聯合創始人、首席科學家劉知遠也作出迴應。

劉知遠表示，已經比較確信Llama3-V是對我們MiniCPM-Llama3-V 2.5套殼，比較有意思的證據是MiniCPM-Llama3-V 2.5研發時內置了一個彩蛋，就是對清華簡的識別能力。這是我們從清華簡逐字掃描並標註的數據集，並未公開，而Llama3-V展現出了一模一樣的清華簡識別能力，連做錯的樣例都一樣。

“人工智能的飛速發展離不開全球算法、數據與模型的開源共享，讓人們始終可以站在SOTA的肩上持續前進。我們這次開源的 MiniCPM-Llama3-V 2.5就用到了最新的Llama3作爲語言模型基座。而開源共享的基石是對開源協議的遵守，對其他貢獻者的信任，對前人成果的尊重和致敬。”

劉知遠指出，Llama3-V團隊無疑嚴重破壞了這一點。他們在受到質疑後已在Huggingface刪庫，該團隊三人中的兩位也只是斯坦福大學本科生，未來還有很長的路，如果知錯能改，善莫大焉。

劉知遠談到，這次事件還讓我感慨的是過去十幾年科研經歷的斗轉星移。回想2006年我讀博時，大家的主要目標還是能不能在國際頂級會議上發篇論文；到2014年我開始做老師時，就只有獲得國際著名會議的最佳論文等重要成果，纔有機會登上系裡的新聞主頁；2018年BERT出來時，我們馬上看到了它的變革意義，做出了知識增強的預訓練模型ERNIE發在ACL 2019上，當時以爲已經站到國際前沿了；2020年OpenAI發佈了1700+億參數GPT-3，讓我們清醒認識到與國際頂尖成果的差距，知恥而後勇開始了“大模型”的探索；2022年底OpenAI推出的ChatGPT，讓大衆真切感受到AI領域國內外的差距，特別是2023年Llama等國際開源模型發佈後，開始有“國外一開源、國內就自研”說法；而到了2024年的今天，我們也應該看到國內大模型團隊如智譜-清華GLM、阿里Qwen、DeepSeek和麪壁-清華OpenBMB正在通過持續的開源共享，在國際上受到了廣泛的關注和認可，這次事件也算側面反映我們的創新成果也一直受到國際關注。

他提到，從橫向來看，我們顯然仍與國際頂尖工作如Sora和GPT-4o有顯著差距；同時，從縱向來看，我們已經從十幾年的nobody，快速成長爲人工智能科技創新的關鍵推動者。面向即將到來的AGI時代，我們應該更加自信積極地投身其中。

何爲面壁小鋼炮

今年5月，面壁小鋼炮 MiniCPM 系列，再次推出最強端側多模態模型 MiniCPM-Llama3-V 2.5，且支持30+ 多種語言。

MiniCPM 是以「以小博大」著稱的旗艦端側模型，也不斷推新端側多模態能力天花板—— MiniCPM-Llama3-V 2.5實現了「以最小參數，撬動最強性能」的最佳平衡點。

（OpenCompass 榜單變化顯示小參數、高性能模型成爲趨勢）

從評測結果看，MiniCPM-Llama3-V 2.5以8B 端側模型參數量級，貢獻了驚豔的 OCR（光學字符識別）SOTA 成績，以及端側模型中的最佳多模態綜合成績與幻覺能力水平。

在綜合評測權威平臺 OpenCompass 上，MiniCPM-Llama3-V 2.5以小博大，綜合性能超越多模態“巨無霸” GPT-4V 和 Gemini Pro。

OCR（光學字符識別）是多模態大模型最重要的能力之一，也是考察多模態識別與推理能力的硬核指標。新一代 MiniCPM-Llama3-V 2.5在 OCR 綜合能⼒權威榜單 OCRBench 上，越級超越了 GPT-4o、GPT-4V、Claude 3V Opus、Gemini Pro 等標杆模型，實現了性能 SOTA。

在評估多模態大模型性能可靠性的重要指標——幻覺能力上，MiniCPM-Llama3-V 2.5在 Object HalBench 榜單上超越了 GPT-4V 等衆多模型（注：目標幻覺率應爲0）。

在旨在評估多模態模型的基本現實世界空間理解能力的 RealWorldQA 榜單上，MiniCPM-Llama3-V 2.5再次超越 GPT-4V 和 Gemini Pro，這對8B 模型而言難能可貴。

值得注意的是，該模型首次進行端側系統加速，MiniCPM-Llama3-V 2.5已高效部署手機。

在圖像編碼方面，面壁首次整合 NPU 和 CPU 加速框架，並結合顯存管理、編譯優化技術，在 MiniCPM-Llama3-V 2.5圖像編碼方面實現了150倍加速提升。

在語言模型推理方面，目前開源社區的報告結果中，Llama 3語言模型在手機端側的解碼速度在0.5 token/s 上下，相比之下，多模態大模型的端側運行面臨着更大的效率挑戰，經過 CPU、編譯優化、顯存管理等優化方式，面壁將 MiniCPM-Llama3-V 2.5在手機端的語言解碼速度提升到3-4 token/s。

有別於常見的中英雙語模型，MiniCPM-Llama3-V2.5可支持30+ 多種語言，包括德語、法語、西班牙語、意大利語、俄語等主流語言，基本覆蓋一帶一路國家。

總結起來就是，通過一系列自研技術，小鋼炮系列開創的高清圖像識別（1344 * 1344分辨率）、強大 OCR 能力等，仍得到延續。8B 體量的新一代 MiniCPM-Llama3-V 2.5，仍帶來一系列驚豔亮點。

- 最強端側多模態綜合性能：超越多模態巨無霸 Gemini Pro 、GPT-4V

- OCR 能力 SOTA！180萬像素更清晰，難圖長圖長文本精準識別

- 量化後僅8G顯存，4070顯卡輕鬆推理，並可在手機端以6-8tokens/s 速度高效運行；

- 圖像編碼快150倍！首次端側系統級多模態加速；

- 支持30+ 多種語言

作爲面壁小鋼炮系列的最新模型，MiniCPM-Llama3-V 2.5在主流評測基準的多模態綜合性能達到了 GPT-4V 水平，具有優秀的 OCR 能力、任意長寬比高清圖理解能力、可信回答能力和多語言交互能力。

面壁方面表示，通過一系列端側優化技術，該模型可以在手機端部署及高效運行。MiniCPM-Llama3-V 2.5展示出了端側多模態大模型的巨大潛力，相信在不久的將來，會有更多更加強力的大模型出現在用戶移動端，提供可靠安全的智能服務，提升用戶生活工作效率，惠及更多應用場景。

國產大模型被抄襲事件告終 斯坦福團隊致歉並撤下模型 面壁：知錯能改，善莫大焉

相關資訊

國產大模型被抄襲事件告終斯坦福團隊致歉並撤下模型面壁：知錯能改，善莫大焉