☰

大模型端側部署，我們來聊點不一樣的

出品 | 虎嗅科技組

頭圖 | 虎嗅拍攝

從去年下半年開始，幾乎所有硬件廠商都達成了一項默契：抱緊AI。

手機廠商認爲這是繼功能機和智能機後的“第三次變革”；PC廠商則要更加興奮，因爲他們所在的行業，過去十餘年間都未曾感受過技術變革帶來的紅利。在一票大語言模型的帶動下，“端側AI”開始反覆被提及，儘管這個概念誕生還不滿一年。

在手機和PC廠商的敘事中，端側AI不僅能夠提升日常使用及辦公效率，還是隱私保護和數據安全的最優解，甚至有廠商指出，端側AI可以讓每個用戶擁有屬於自己的“個人大模型”。

暫且不說這些理念是否存在“先射箭子後畫靶子 ”之嫌，一個需要被前置討論的問題是：大模型如何在端側完成部署？

以手機端爲例，目前發佈且有實際演示的模型中，10億參數量Stable Diffusion已經可以在搭載驍龍芯片的手機上運行，但再大一些的模型，比如讓手機廠商們心心念唸的Llama 2，其130億參數規模跑在手機端就非常吃力，這還是在不考慮功耗問題的前提下。

也就是說，目前的大模型，有相當一部分根本無法打破端側產品在硬件上的掣肘，畢竟雲端算力可以通過增加機櫃和GPU的方式提高，但手機和PC顯然不具備這樣的條件。

針對這個問題，3月31日，虎嗅科技組主辦的“2024 AI內參會”上，邀請到了面壁智能CTO曾國洋，極客邦科技副總裁、TGO鯤鵬會總經理楊攀針對端側AI和AGI行業的技術實踐及應用場景展開了討論。

今年2月，面壁智能發佈了20億參數的開源端側模型MiniCPM，在多個主流評測榜單中，該模型中英文分均超過Mistral-7B開源模型，甚至優於Llama 2-13B。

另外，該公司表示，該模型支持消費級顯卡如1080Ti參數微調，以及主流手機處理器端側推理。

在大模型從業者們瘋狂堆砌參數的當下，面壁智能爲何會選擇另闢蹊徑地去主攻一款小模型？

在內參會上，曾國洋就這一問題做出了回答：把MiniCPM稱之爲小模型可能不太準確，較爲合適的名稱應該是“更高效的模型”，就是在有限的資源內去把模型做得更好。

“如果簡單地將模型參數規模做大的話，它確實會隨着scaling law出現效果的提升，但它單一維度的提升是低效的。我們在研究出一個更優化的方法之後，其實是可以隨着參數擴大，讓模型爆發出一種更明顯的增長。”曾國洋表示。

這裡需要解釋下scaling law的概念。即模型的最終性能主要與訓練計算量、模型參數量和數據大小三者相關，而與模型的具體結構（層數/深度/寬度）基本無關。研發人員可以通過它在固定資源預算中，如額定的GPU數量、訓練數據量或是訓練時長下，匹配模型的最佳大小，且無需經歷昂貴的試錯。

面壁智能的思路就是，在遵循scaling law的情況下，對模型的細節進行更好的優化，使其在同等成本下達到更好的效果。

而成本問題也可能是未來端側AI發展的最核心的推手。可以做個假設，如果未來在大模型領域出現了某個超級應用，會有上百萬，乃至上千萬人同時在線，用戶都在雲端使用模型的話，僅算力帶寬這一項成本，對於創業團隊來說都是難以承受的。

在今年2月MiniCPM發佈會現場，面壁智能CEO李大海曾做過測算，用一臺搭配驍龍855芯片的手機在本地端跑大模型，按照運行 5 年計算，每秒 7.5 tokens，那麼 170 萬 tokens 的推理成本僅需人民幣 1 元，成本僅爲 Mistral-Medium 的百分之一。

這裡有處有趣的細節是，驍龍855是高通於2018年發佈的終端SoC，用於演示似乎有些過於落後了。

曾國洋在AI內參會現場的發言，大概解釋了這一問題：行業內有個誤區是手機等終端的算力不夠，但真正的瓶頸其實是顯存帶寬不夠。曾國洋認爲，隨着端側模型的落地，未來硬件層面可能會迎來一波升級。

“我覺得未來一到兩年的時間，我們有機會看到一個相當於GPT3.5的模型跑在手機上。”曾國洋表示。

無論是目前已經被大規模投入使用的雲側AI，還是行業內正在佈局的端側AI，亦或是兩種混合部署，最終都指向行業翹首企盼的終極目標——AGI（通用人工智能）。

AGI聽起來距離我們還很遙遠，但無論是黃仁勳還是山姆·奧特曼都不止一次地表示過，AGI最快將在5年內問世。那麼在當下，人工智能的創業者們該如何面對這即將到來的行業內的最大變數？

極客邦科技副總裁、TGO鯤鵬會總經理楊攀認爲，經歷了互聯網時代和AIGC時代的創業者們很可能會陷入對兩大路徑的依賴當中：對移動互聯網的路徑依賴限制對AGI原生應用的想象，對雲計算的路徑依賴限制對OpenAI生態位定位的預判。

“業務負責人們需要思考的是，在不依賴當前AGI技術實現水平的情況下，對未來6-18個月的產品功能和市場變化做出預測。”楊攀表示，最終還是要落在場景上而不是功能上，因爲後者很容易被AI所碾壓。

正如一個無比現實的問題是，今年有望發佈的GPT5，其能力可能會直接將部分應用甚至是行業覆蓋掉。

如何避免被GPT5摺疊？在楊攀看來，無論大模型能力有多麼強大，最終它還是要同物理世界打交道，還是要接入外部的數據，如果你是數據的提供方，就會成爲它堅實的夥伴。

因此AI創業者們必須要審視手中的項目是否具備數據優勢，是否能給大模型提供數字世界或是物理世界的接口，以及同其他系統能力打交道的接口。

“相較於過去我們所熟知的程序，AI擅長的其實是模糊數據的處理，而這正是過去人類所擅長的工作。”楊攀補充道。

相關資訊