大模型端側部署,我們來聊點不一樣的

出品 | 虎嗅科技組

頭圖 | 虎嗅拍攝

從去年下半年開始,幾乎所有硬件廠商都達成了一項默契:抱緊AI。

手機廠商認爲這是繼功能機和智能機後的“第三次變革”;PC廠商則要更加興奮,因爲他們所在的行業,過去十餘年間都未曾感受過技術變革帶來的紅利。在一票大語言模型的帶動下,“端側AI”開始反覆被提及,儘管這個概念誕生還不滿一年。

在手機和PC廠商的敘事中,端側AI不僅能夠提升日常使用及辦公效率,還是隱私保護和數據安全的最優解,甚至有廠商指出,端側AI可以讓每個用戶擁有屬於自己的“個人大模型”。

暫且不說這些理念是否存在“先射箭子後畫靶子 ”之嫌,一個需要被前置討論的問題是:大模型如何在端側完成部署?

以手機端爲例,目前發佈且有實際演示的模型中,10億參數量Stable Diffusion已經可以在搭載驍龍芯片的手機上運行,但再大一些的模型,比如讓手機廠商們心心念唸的Llama 2,其130億參數規模跑在手機端就非常吃力,這還是在不考慮功耗問題的前提下。

也就是說,目前的大模型,有相當一部分根本無法打破端側產品在硬件上的掣肘,畢竟雲端算力可以通過增加機櫃和GPU的方式提高,但手機和PC顯然不具備這樣的條件。

針對這個問題,3月31日,虎嗅科技組主辦的“2024 AI內參會”上,邀請到了面壁智能CTO曾國洋,極客邦科技副總裁、TGO鯤鵬會總經理楊攀針對端側AI和AGI行業的技術實踐及應用場景展開了討論。

今年2月,面壁智能發佈了20億參數的開源端側模型MiniCPM,在多個主流評測榜單中,該模型中英文分均超過Mistral-7B開源模型,甚至優於Llama 2-13B。

另外,該公司表示,該模型支持消費級顯卡如1080Ti參數微調,以及主流手機處理器端側推理。

在大模型從業者們瘋狂堆砌參數的當下,面壁智能爲何會選擇另闢蹊徑地去主攻一款小模型?

在內參會上,曾國洋就這一問題做出了回答:把MiniCPM稱之爲小模型可能不太準確,較爲合適的名稱應該是“更高效的模型”,就是在有限的資源內去把模型做得更好。

“如果簡單地將模型參數規模做大的話,它確實會隨着scaling law出現效果的提升,但它單一維度的提升是低效的。我們在研究出一個更優化的方法之後,其實是可以隨着參數擴大,讓模型爆發出一種更明顯的增長。”曾國洋表示。

這裡需要解釋下scaling law的概念。即模型的最終性能主要與訓練計算量、模型參數量和數據大小三者相關,而與模型的具體結構(層數/深度/寬度)基本無關。研發人員可以通過它在固定資源預算中,如額定的GPU數量、訓練數據量或是訓練時長下,匹配模型的最佳大小,且無需經歷昂貴的試錯。

面壁智能的思路就是,在遵循scaling law的情況下,對模型的細節進行更好的優化,使其在同等成本下達到更好的效果。

而成本問題也可能是未來端側AI發展的最核心的推手。可以做個假設,如果未來在大模型領域出現了某個超級應用,會有上百萬,乃至上千萬人同時在線,用戶都在雲端使用模型的話,僅算力帶寬這一項成本,對於創業團隊來說都是難以承受的。

在今年2月MiniCPM發佈會現場,面壁智能CEO李大海曾做過測算,用一臺搭配驍龍855芯片的手機在本地端跑大模型,按照運行 5 年計算,每秒 7.5 tokens,那麼 170 萬 tokens 的推理成本僅需人民幣 1 元,成本僅爲 Mistral-Medium 的百分之一。

這裡有處有趣的細節是,驍龍855是高通於2018年發佈的終端SoC,用於演示似乎有些過於落後了。

曾國洋在AI內參會現場的發言,大概解釋了這一問題:行業內有個誤區是手機等終端的算力不夠,但真正的瓶頸其實是顯存帶寬不夠。曾國洋認爲,隨着端側模型的落地,未來硬件層面可能會迎來一波升級。

“我覺得未來一到兩年的時間,我們有機會看到一個相當於GPT3.5的模型跑在手機上。”曾國洋表示。

無論是目前已經被大規模投入使用的雲側AI,還是行業內正在佈局的端側AI,亦或是兩種混合部署,最終都指向行業翹首企盼的終極目標——AGI(通用人工智能)。

AGI聽起來距離我們還很遙遠,但無論是黃仁勳還是山姆·奧特曼都不止一次地表示過,AGI最快將在5年內問世。那麼在當下,人工智能的創業者們該如何面對這即將到來的行業內的最大變數?

極客邦科技副總裁、TGO鯤鵬會總經理楊攀認爲,經歷了互聯網時代和AIGC時代的創業者們很可能會陷入對兩大路徑的依賴當中:對移動互聯網的路徑依賴限制對AGI原生應用的想象,對雲計算的路徑依賴限制對OpenAI生態位定位的預判。

“業務負責人們需要思考的是,在不依賴當前AGI技術實現水平的情況下,對未來6-18個月的產品功能和市場變化做出預測。”楊攀表示,最終還是要落在場景上而不是功能上,因爲後者很容易被AI所碾壓。

正如一個無比現實的問題是,今年有望發佈的GPT5,其能力可能會直接將部分應用甚至是行業覆蓋掉。

如何避免被GPT5摺疊?在楊攀看來,無論大模型能力有多麼強大,最終它還是要同物理世界打交道,還是要接入外部的數據,如果你是數據的提供方,就會成爲它堅實的夥伴。

因此AI創業者們必須要審視手中的項目是否具備數據優勢,是否能給大模型提供數字世界或是物理世界的接口,以及同其他系統能力打交道的接口。

“相較於過去我們所熟知的程序,AI擅長的其實是模糊數據的處理,而這正是過去人類所擅長的工作。”楊攀補充道。