對話面壁智能李大海:AGI是一場馬拉松,我們不急於當破風者

文|武靜靜

編輯|蘇建勳

“AGI是一場馬拉松”,在2023年的一次晨跑中,這句話突然閃現在面壁智能CEO李大海的腦海中。

作爲一名馬拉松愛好者,李大海知道,長跑關鍵不在起跑,而是在節奏控制和體力分配。彼時,百模大戰愈演愈烈,更多人關心的是“爆發力”和“速度”,所有科技公司都以百米衝刺的勁頭,往GPT-3.5乃至更遠的方向狂飆。

“我們不急於一開始當那個破風的人。”李大海曾和身邊的人談起他的思考,“而是要從全局出發,考量整個系統的優化,和過程中節能的策略,跑到最後纔是勝利。”

2023年底,面壁智能的一次總結會上,一個詞語被頻繁提起——“高效”。

面壁智能首席科學家劉知遠和CTO曾國洋對這一關鍵詞已司空見慣。

劉知遠團隊是中國探索AI大模型的第一波人,當時訓練和應用大模型極其燒錢,讓很多研究者望而卻步——如何從零開始,建立訓練、微調到推理應用的全流程,如何把每一塊顯卡、每一個參數的作用都發揮到極致,這些都是卡在眼前的一道道難關,而提升“效率”成了當時大模型研究起步的關鍵點。

這樣的情況下,劉知遠團隊將大模型這塊硬骨頭啃了下來,2020年12月,通過全棧自研的技術,劉知遠、黃民烈與韓文弢帶領的團隊發佈了全球第一個中文開源大模型「CPM」——這是面壁CPM大模型的前身,也是中國第一個大模型項目“悟道”大模型的前傳。

2021年初,在智源研究院籌備“悟道”大模型項目過程中,劉知遠團隊也作爲主力參與,並圍繞更“高效”的方向預訓練大模型。

可以說,在面壁創立之前,“高效”就是烙印在這支團隊骨子裡的印記。

那次總結會上最末的提煉環節,劉知遠脫口而出:“高效和通用就是AI可持續發展和應用的本質,也是面壁做大模型的核心。”

團隊一拍即合,將“高效”作爲面壁構建大模型的第一性原理。李大海回看認爲,這場AGI馬拉松長跑中,面壁也真正釐清了自己節奏和步調。

所以,面對日益激烈的競爭,當下的李大海反而多了些篤定。對於面壁是誰,要做什麼,往哪兒去,也有了更多信心。

在和李大海的對談中,我們感受到另一種“現實主義”的樣本和敘事視角——在這場以大模型之名搭建的碩大棋局中,不只有最快拿到大筆融資和瘋狂燒資源的大玩家才能參與對弈,焦點之外,一些低調務實的創業公司亦坐於牌桌——他們未能拿到最頂級的錢和資源,但仍在精心佈局“攻防策略”,努力把每一顆“棋子”發揮出最大的價值,下出別具辨識度的招式。

在與「36氪」一個多小時的聊天中,相比AGI終局這樣的話題,李大海更樂意談論大模型的落地和實踐,他說了22次“落地”和“高效”,提了16次“市場”,談及最近令他有成就感的事:“有人自發在國產芯片上跑面壁新的‘小鋼炮’系列端側大模型,還有人把模型跑在了手機上。”

在當下的大模型創業浪潮中,面壁希望兼顧技術理想和現實主義,“高效”成了貫穿始終的關鍵詞,用李大海的話,就是“讓大模型用更快的速度,更低的成本,同等的數據量跑出更好的效果。”

如今,各家公司都在如何實現AGI的實現路徑上給出不同的解題思路,在2023年和36氪的對話中,月之暗面創始人楊植麟就強調,長文本將是制約大模型落地的關鍵因子;在今年2月和階躍星辰CEO姜大昕的對談中,他給的思路是“單模態—多模態—多模理解和生成的統一—世界模型—AGI(通用人工智能)。

對於Scaling Law,面壁加了一重“效率”層面的理解,“在同樣的時間、同等參數量的條件下實現更優的大模型 Scaling Law,比如把模型知識壓縮的效率做到極致,把更多的高質量數據壓縮進一個更小更優的模型中。”

在落地層面,目前面壁圍繞“更經濟”“更高效”這條路,選擇優先在to B場景挖掘大模型的落地機會。公司已攜手招商銀行、金山辦公、知乎等合作伙伴,將大模型與Agent技術部署落地於金融、教育、政務、智能終端等應用場景。

李大海不認可所謂的技術信仰派和市場信仰派論調,他覺得“太極端了”,面壁要走的也不是某一條路,而是如何做好市場和技術這道乘法題,打造“更高效、更經濟的AGI”。

讓AGI更高效和更經濟是個誘人的方向,但實現起來非常艱難,就連OpenAI也在想方設法解決這些難題。OpenAI CEO奧爾特曼在最近一次和OpenAI COO布拉德·萊特凱普的對談中提到,他們可以將非常高質量的 AI 技術成本降至接近零,但不確定因素依舊很多,“沒有足夠的計算資源,世界供應和需求失衡,工程化問題導致計算成本非常高等都是問題”。

對於面壁和知乎的關係,李大海也不諱直言,“外界對我們和知乎的關係有誤解”,他透露,雙方只在數據層面有深度合作,但雙方的產品都由各自的團隊進行設計和研發,面壁會給予更多如何用好模型的建議,但不介入具體的業務。

多年的創業經歷也讓他有足夠的心力去面對更多的質疑和不被理解。“不被理解很正常,這也代表着面壁走在技術前沿。假如一個新路線,剛提出就得到一致認同,那這個idea該有多平庸!”

以下是36氪和李大海對話實錄,經編輯整理:

面壁智能煉大模型第一性原理:打造更“高效”的AGI

36氪:當下,有很多在探討技術信仰派和市場信仰派這兩種主張,面壁站哪邊?

李大海:我覺得不能走極端,所謂的“技術信仰派”和“市場信仰派”,只是兩個重心。純粹的技術信仰派,本質上就是個研究院,純粹的市場信仰,會類似一個“特別薄皮沒有餡兒”的公司,兩個都不可取。

哪怕OpenAI也不是純技術派,雖然他們的技術積累深厚、對技術方向的把握很好,但同時也非常關注市場,ChatGPT在產品體驗上是非常好的,是否推出Sora以及什麼時候推,時機把握也都很有火候。

面壁肯定是一個更以技術爲內核,但同時要非常關注市場的團隊。做大模型一定是要有一個重心,重心是技術,但是不能沒有對市場和對用戶的敬畏。需要邊打磨技術,同時格外重視PMF。

36氪:面壁一直是這種“兩條腿走路”的發展路徑?

李大海:“兩條腿走路”這個詞不太準確,好像是說我不知道哪一邊是對的,就兩邊都往前走,看哪邊是對的。

我們的理解是,技術和市場的結合是一個乘法關係,你有技術,但也不能藐視市場,否則做出來就是個研究院,沒有哪個公司是靠研究院成功的。

但如果你沒有核心技術,光想着做市場也不行,現在的大模型時代裡,技術就是公司最核心的東西。

36氪:面壁對AGI的理解和其他家有什麼不同?

李大海:如果談的是AGI的終態,大家差別不會特別大。AGI最終是一個通用的人工智能,它能在現實世界和虛擬世界裡的大部分任務上都比人類做的更好。

不同的地方在於每家公司通往AGI的實現路徑上,哪個事情先做,哪個事情後做,每家公司都有自己的認知、理解和選擇的不同。

面壁現階段的選擇就是“高效”,沿着這條路徑,能夠更快、更可持續地向AGI發展。尤其,今天大家普遍認爲,現有人類積累的訓練數據將接近枯竭,接下來的競爭在於誰的合成數據更多。從我個人角度來看,現有的數據已經足夠培養出全球各行各業的人才,關鍵問題不在合成數據,而在於更高的模型學習效率。

宏觀來看,如果沿着當前的主流思路進行AGI探索,不僅需要海量的高質量數據,還會很快遇到能源供應方面的瓶頸。中國是過去十年世界上少有的電力供應持續增長的國家,這爲我們做大模型帶來了優勢,但環境壓力對全人類社會的影響巨大。在這種背景下,要廣泛落地AGI,技術對環境帶來的作用力,會讓環境形成反作用力最終會回到企業身上。

36氪:面壁對Scaling Law的理解跟其他家有什麼不一樣?

李大海:我們在探索一條更加“高效”的Scaling Law增長曲線,讓大模型用更快的速度、更低的成本,同等的數據量跑出更好的效果。

Scaling Law表達的是,大模型的智能會隨着模型規模、訓練算力、和數據的擴大而提升。在Scaling Law中,相對於“把模型做大”,我們更關心如何讓模型“有效訓練更多數據”,這纔是更本質的東西。

模型訓練本質上是一個知識壓縮的過程——把大量優質數據壓縮到模型裡,形成一定的“智能”。給定同樣多的數據,如果用更高的壓縮比,更小的訓練算力,把數據中蘊含的知識壓縮到一個更小的模型裡,那就是更“高效”的訓練。

我們相信,這個知識壓縮的過程是否高效與優質,會成爲驗證模型公司技術實力的重要指標。

36氪:壓縮比更高帶來的具體價值體現在什麼地方?

李大海:它意味着更高的訓練迭代效率,更低的推理成本,完成相同的模型推理能力。

壓縮比更高對大模型落地、真正地實現AGI至關重要。在to B的私有化部署實踐中,模型大小對於客戶的決策的影響很大,因爲機器會成爲模型採購之外很大的成本。

在to C業務中也是一樣,因爲GPU推理成本較高,導致,大模型原生產品的單個DAU的技術成本是傳統移動互聯網業務技術成本的十倍以上,這對於追求ROI的業務模式是很大的挑戰。

另一個例子是端側。端側是大模型規模化擴展和應用落地的關鍵場景,比如把大模型部署到手機、汽車和PC上。但因爲終端的算力和發熱、續航能力,模型必然會在尺寸和計算量上受限,所以我們必須在端側模型中壓縮大量知識,並在模型上集成更多適配端側場景的模型能力。

從技術發展的角度來看,在通往AGI這條路上,更高的壓縮比也能幫助我們在更短的時間內實現趕超GPT-4目標,讓AGI到來的成本降下來,速度提上去。

36氪:怎麼理解你前面所說的“高效”的Scaling law路徑,具體指的是什麼?

李大海:我們對“高效”的理解有三個方向。第一是高效的訓練。幾個月前發佈的MiniCPM,實際上是完全驗證了面壁高效模型訓練模式的徹底跑通。

過去一年,我們在“高效”這條路上進行了大量的工作,進行了上千次“模型沙盒”實驗,對大模型訓練過程進行精準建模、預測,實現同等參數性能更優、同等性能參數更小效果。最終,以2B的參數量,實現了超越 Mistral-7B,越級比肩 Llama2-13B,乃至更大的幾十倍規模模型的模型性能。要達到同樣的效果,國外其他模型用了遠比我們的多得多的訓練語料。

36氪:另外兩個方向是什麼?

李大海:另外兩個是高效的落地和高效的推理。

高效的落地方向,面壁主要以Agent技術爲核心,同行都評價面壁是大模型公司裡最懂Agent的公司。2023年,我們就對外強調Agent很重要,併發布了大模型驅動下的Al Agent單體智能、羣體智能和智能體應用框架產品,我們的ChatDev智能體軟件開發平臺今年也得到知名人工智能學者吳恩達的點贊,在紅杉大會上做了特別推薦。

高效推理指的是目前面壁在前沿探索的端雲協同的技術。

爲什麼端雲協同很重要?因爲終端擁有大量分散的計算資源,比如手機、汽車等終端設備。把這些計算資源用起來,讓雲端和終端,一大一小的兩個模型協同工作,共同爲用戶提供完整的服務,可以大大降低推理成本,解決能耗大、可靠性低、時延長、用戶隱私安全等等問題。

36氪:除了“高效”之外,大模型還有很多工程化的難題,也有公司現在不考慮高效,先想法設法達到OpenAI的水平,這也是一種選擇。

李大海:大模型是一項系統工程,AGI實現的過程會角逐出最優解決方案。我們想挑戰難而正確的事。

36氪:把高效提到公司的戰略層面,這個決策是在碰撞中形成的,還是最早這麼規劃的?

李大海:面壁創始團隊在day one就非常關注效率。2021年初,我們團隊就一直圍繞高效做很多事情。隨着工作的展開,從外部的視野觀察,發現確實相比其他模型團隊的AGI方法論有比較明顯的特色,逐漸形成了更清晰的自我認知。

36氪:當時“高效”這個方向是誰最先提出來的?

李大海:是知遠。從一開始的“悟道”大模型項目,他領銜的方向就一直強調“高效”。

36氪:你和劉知遠做決策時各自分工是什麼?

李大海:經營戰略方向主要是我來制定,比如現階段的商業化方向和節奏等,技術戰略方向主要由知遠決定。

Agent能幫助大模型解決落地最後一公里難題

36氪:爲什麼面壁要押注Agent,Agent爲什麼重要?

李大海:在當前這個階段,大模型落地還有最後一公里問題,Agent可以解決這個問題,更準確的說,Agent不一定能完全解決,但能非常顯著地提升大模型落地的效率。

在具體落地中,Agent能夠更好地與企業客戶的環境相結合,它們可以調用客戶的工具,並與客戶的私有知識更好地結合,而無需進行微調。其次,這些技術還能進一步挖掘出模型能力,反哺模型性能提升。Agent這兩個方面的價值,讓大模型得以更高效地落地。

我們開始做Agent研究比斯坦福小鎮還要早,那時候還沒有“Agent”這個提法,我們就在講,如何讓工具自主學習並去使用工具。2023年初,團隊就發表了一篇Agent相關的論文《ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs》。

36氪:目前市場上,大家對於Agent的認知和它能做的事情的理解已經形成共識嗎?

李大海:對Agent的理解在“是什麼What”層面上在慢慢的形成共識。但是在“怎麼做How”的層面,大家的認知差別還蠻大的。

36氪:差別在什麼地方?

李大海:比如多智能體協同這些技術怎麼往下去落地,這個層面上現在還處於很早期。

在單體智能方面,通過RAG與外部知識庫交互、使用既定流程進行工作已經逐漸形成了收斂的最佳實踐,也是相對容易做到的。但我們認爲多體智能纔是未來,單體智能的基礎不是單個的Agent,而是Multi Agent(多Agent)背後的模型,未來他們在場景中價值會被逐步放大。

36氪:過去一年融資過程中,投資人提出了哪些不一樣的觀點?

李大海:現在市場上,行業裡有很多非共識。我不去評論其他人的觀點。但從整個人類探索AGI的角度上,這是好事,百家爭鳴,大家有不同的路徑去試錯,效率更高。

現在所有人距離AGI都很遠,還在馬拉松的前幾公里,這個階段不需要追求整個社會的共識。我們希望選擇一條更高效的路徑,爲AGI提出一個成本更低的方案。

36氪:你怎麼面對不被理解和質疑的聲音?

李大海:當走得足夠前沿的時候,不被立即理解是正常現象,做創新首先要有一顆大心臟。假如一些階段性的不理解我們都消化不了,那這家公司可能壓根也不配參與AGI的角逐。

面壁一直是個喜歡打先手的團隊,走得很靠前。前行者不應該尋求大多數人的理解,但我們希望尋求歷史的驗證結果。譬如,我們對技術路線的選擇,每次都在很早的時間選對了正確方向。

我們是中國真正最早做大模型的團隊,先kick off了“悟道”大模型的前身項目,2020年就發了國內首箇中文大模型;2022年,ChatGPT還沒火之前,團隊已經在B站上開設了專門的公開課講解大模型,那個時候根本沒人看,到2023年觀看人數已經超100萬;2023年我們又開始探索Agent,理解的人也不多,但你看,後面大家都越來越認同了。越來越有信心,因爲結果說明一切。

這個市場上其實還是有很多懂技術的投資人,他們很認可我們的價值。投資本來就是在早期非共識中找到有價值的公司的過程。一定是少數人的選擇。如果是共識,就不是一個能夠得到超額回報的機會了。

大模型商業化:B端優先級更高,更關注PMF

36氪:目前面壁整體的商業化的進展情況怎麼樣?

李大海:整體項目進展順利,效率比較高。

2023年,我們和招商銀行、金山辦公、知乎的合作持續加深,併成功拓展了更多客戶,服務了更廣泛的客戶羣體,包括義烏小商品市場集團、易慧智能(易車網)等。今年我們將更加專注於與這些合作伙伴的深入合作,推動大模型更深入地融入客戶場景。

36氪:這些都是B端客戶,我們C端和B端商業化的優先級是什麼?

李大海:B端在給我們持續貢獻收入,我們希望能把優勢場景打透,把模型高效、低成本落地給紮實做下來。

C端會先探索,目前大模型PMF遠未找到成熟方向。在移動互聯網時代,當移動手機首次出現,經過了2-3年時間,才真正出現成功的大規模用戶產品。新產品都需要經歷技術與用戶需求理解、相互匹配的過程。儘管這個過程可能需要兩到三年,但那些最終成功的公司都是在一開始就進行了相關的努力。因此,我們在C端也在持續進行探索。

36氪:你之前有很多搜索等互聯網產品方面的經驗,對於大模型原生的超級應用,是如何理解的?

李大海:AGI未來超級應用可以向兩個方向發展:首先是虛擬數字世界,未來會出現類似元宇宙那樣的開放世界,在這裡AI應用將發揮巨大價值;在現實世界,AGI技術與機器人的結合是重要方向,機器人會超越手機,成爲一個全新的、強大的超級終端。

AGI原生應用將極大地改變以AI爲代表的機器與人的交互方式,甚至改變人與機器之間的關係。目前,人們使用機器的方式更像在使用工具,我相信未來機器將不僅僅是工具,更是聰明的夥伴,甚至會擔任我們的導師。這種從工具到夥伴的轉變,標誌着人機關係本質上的變化。

36氪:Sora發佈的時候,我們團隊對這個技術的理解和當時的態度是什麼?

李大海:Sora是文生視頻技術,是在研究怎麼生成更好的可被消費的內容,我們認可這個技術,但它跟我想要走的方向不是一個方向。我們希望聚焦。

36氪:用其他大模型公司產品時,發現回答中信源有三條文章都來自知乎的,面壁跟知乎之間這種深度合作是排它的嗎?

李大海:知乎是中國最高質量的內容平臺之一。在大模型訓練方面,面壁獲得了知乎的正式授權,知乎把全量的不涉及用戶隱私的公開數據都獨家授權給我們了。所以在訓練模型的第一天,面壁就拿到了中國最高質量的數據,這個是我們模型訓練的優勢。

我們跟知乎的合作是深入的,在模型訓練上有很多合作,不過對於模型如何應用到產品中,則有各自的規劃。目前知乎App也上線AI搜索的功能,搜索質量也還不錯。

36氪:面壁和知乎的深度合作中,如果面壁把知乎中某些應用排在優先級更高的位置,是否影響面壁整體的節奏?

李大海:我們的合作主要集中在模型的開發上,知乎內部的應用是由知乎團隊自己負責。知乎本身具備強大的技術實力,他們有能力把模型用好,面壁並不會介入到知乎產品的研發中,這種合作對面壁的模型研發節奏並沒有影響。

36氪:國外的開源技術進展會導致整體中國技術相對落後嗎?

李大海:在OpenAI完全閉源之前,AI行業已經建立了一個基於開源和開放的繁榮社區,這種開源精神極大推動了行業快速發展。

開源不僅促進了相互學習和借鑑,還加速了技術水平的整體提升,是一種技術層面的互相切磋和促進。歷史上,如Google發佈的Bert模型,被廣泛應用並促進了技術的提升。OpenAI的一系列工作,也是建立在Google的Transformer等工作基礎上的,這證明了開源開放的重要性。

面壁智能也會堅定地擁抱開源。我們最近兩個月連續研發了MiniCPM 1和2,並且非常開放地分享了我們的心得,也希望這些知識能夠促進整個行業的發展。這種開放的精神最終將惠及所有人。

36氪:舉一個例子,萬一Meta下一個開源的產品強於GPT4了,那豈不是之前國內公司很多都白做了?

李大海:競爭是殘酷直白的,沒有特點的模型確實沒有價值。但訓練模型的一時落後不代表的團隊的一世落後。

中國工程師們既聰明又努力,一時一刻的落後,都是暫時的,在訓練模型過程中積累的數據處理能力和基礎模型能力對於公司來說極其珍貴,它們都能夠有效地促進應用的實際落地,成爲這些公司寶貴的資產。

接下來更重要的是,每個公司都要想清楚自己的模型和產品的差異化,真正給用戶或客戶帶來價值,才能一直留在通向AGI的牌桌上。

36氪:接下來面壁最重要的事情是什麼?

李大海:之前行業談論自動駕駛的時候,有一個詞叫“沿途下蛋”,大模型技術也一樣,不同的是,大模型就是一個隨時可以沿途下蛋的事物,我們的目標雖然是AGI,但從day one開始就可以有產品。

所謂的超級應用,就是槓桿最大的那個產品。還它還沒有出現之前,還有很多事可做。面壁一方面技術要不斷地往前滾,一方面也要下幾顆“金蛋”讓大家看到AGI孵化出殼前長什麼樣子。

36氪:大模型相關的領域,你還有哪些困惑或者是最想得到解答的問題?

李大海:相比困惑,我更願意說興奮。在這個偉大的技術與文明變革週期,會將最值得探索的Big Question送到我們面前,讓所有這個時代最聰明的頭腦一齊提出自己的思考和解法。你不知道哪一天,哪個人,提出的哪個想法,就會深刻改變未來技術與人類的發展走向,偉大的想法也許就誕生在你的團隊、你的朋友之中。太多的問題需要思考,但每分每秒都令人振奮。

具體有幾個,比如,是否還有比Transformer架構更好的選擇?比圖靈測試更有效的測試大模型智能的方式是什麼?以及我們正在思考的關於“高效訓練”的問題:世界擁有的所有數據是否足夠訓練出 AGI水平的智能?AGI的能耗是否能做到和人類大腦可比?這些問題都非常有趣,關鍵不在於誰能夠給出這些問題的答案,很多時候偉大不可被計劃,但我們應該與同行們一起努力,探索這些問題的過程就非常享受。

歡迎來聊~