DeepSeek V3爆火背後:“AI界拼多多”能否複製?

2024年底,DeepSeek(深度求索)再次憑藉模型性能在行業中掀起一個小高潮。

這家獨立於大模型“六小虎”格局之外、不容行業所忽視的公司,發佈了新一代MoE模型DeepSeek-V3首個版本並同步開源。V3擁有6710億參數,其中激活參數爲370億,在14.8萬億token上進行了預訓練。

從DeepSeek公開披露的信息來看,在知識類任務(MMLU, MMLU-Pro, GPQA, SimpleQA)上,V3接近當前表現最好的Claude-3.5-Sonnet-1022,在代碼能力上同樣稍好於後者,而在數學能力上,V3已明顯領先其他開閉源模型,包括Qwen2.5 72B-Inst,LIama3.1 405B-Inst,GPT-4o 0513。

這已經是一個足夠好的開源模型,但真正讓其受到大量關注的,是DeepSeek在技術論文中表示,DeepSeek-V3模型總訓練成本爲557.6萬美元,完整訓練消耗了278.8萬個GPU小時,幾乎是同等性能水平模型訓練所需十分之一。這讓它在海內外再度爆火。

事實上,大模型在2024年第一場API價格戰正是由DeepSeek開啓。彼時,其“MoE架構+MLA(Multi-head Latent Attention)技術”在降低大模型使用成本上發揮了重要作用。如今看來,這項創新在DeepSeek手中完成了穩定延續。

至此,同行業的大模型廠商更需審慎對待這家作風低調、輸出穩定的公司,不知何時,它就會發起一場商業奇襲。

“AI拼多多”模式能否複製

根據海外調研機構SemiAnalysis的數據,OpenAI GPT-4訓練成本高達6300萬美元,而DeepSeek-V3只有前者十分之一不到。這讓行業首先開始思考這種低成本模式是否可複製。

自從英偉達高端GPU顯卡在中國大陸遭禁後,算力不足始終是擺在國內AI公司面前的一大難題。

相比於國外微軟、Meta、特斯拉等科技巨頭動輒購入10萬張英偉達顯卡搭建算力中心訓練AI模型,國內擁有1萬張以上顯卡的公司屈指可數。DeepSeek背後的開發公司幻方就是其中之一,2023年在接受36氪專訪時,幻方創始人樑文鋒稱“公司已囤有1萬張英偉達A100顯卡”。

而DeepSeek-V3此次的特別之處在於僅用少量卡就完成了模型訓練。

據官方論文介紹,DeepSeek-V3訓練使用了2048張英偉達H800 GPU(注:H800GPU爲H100 GPU被禁後面向中國大陸推出的特供版,性能約爲其一半),這些GPU通過英偉達高速互聯網絡NVLink和InfiniBand連接搭建成AI算力集羣。

作爲性能對標模型,Meta旗下的開源模型Llama-3.1(模型參數量與訓練數據大致相當)則動用了超過16000張英偉達H100GPU,業內估計訓練成本高達數億美元。

Meta AI科學家田淵棟在X(原推特)平臺上盛讚DeepSeek V3的低成本訓練方法是“黑科技”。特斯拉前人工智能和自動駕駛視覺總監、著名AI研究學者Andrej Karpathy轉發了DeepSeek的論文,並評價說“如果DeepSeek V3能夠通過各項評估,就證明了在資源有限的情況下,開發出性能強大的大語言模型是有可能的”。

目前,降低AI模型開發成本已經是最重要的行業趨勢之一。過去一年,OpenAI仍然未發佈行業期待已久的下一代模型GPT-5,而是發佈了GPT-4o、4o mini等一系列低成本的輕量化模型。山姆·奧特曼(Sam Altman)也表示,部署和維護高級AI模型造成了OpenAI的運營成本不斷上升,無論是出於公司持續運營的需要,還是實現AI人人可用的目標,都需要進一步降低成本。

而對於國內來說,先進算力受限國內AI公司必須直面的現實。

從2023年開始,國內掀起了智算中心的基建熱潮。但由於當前國產GPU在單卡性能不足,與英偉達產品相比至少存在1至2代的差距,國內建設智算中心時需要通過堆更多的GPU來實現所需的算力,這不僅加大了建設難度,又進一步拉高了成本。一位參與過國產智算中心建設的AI公司負責人曾告訴記者,目前真正有能力建設萬卡智算中心的廠商寥寥無幾,國內算力建設的首要目標仍然增加供給,保障“能用”。

如何在算力受限的情況下降低模型成本,DeepSeek的“AI拼多多”模式給行業提供了一種可能。

根據DeepSeek開發團隊介紹,V3模型採用了模型壓縮、專家並行訓練、FP8混合精度訓練等一系列創新技術降低成本。這些技術對於行業探索一條低成本的訓練模式具有借鑑意義,但要複製並不容易。

國內一家AI芯片公司創始人告訴記者,DeepSeek這次用到的FP8訓練技術是一個亮點。FP8是一種使用8位浮點數表示的格式,相比於傳統的16位(FP16)和32位(FP32)浮點數,FP8是一種新興的低精度訓練方法,通過減少數據表示所需的位數。顯著降低了內存佔用和計算需求。目前除了DeepSeek,國內公司如零一萬物,國外的谷歌、Inflection AI都已將這種技術引入模型訓練與推理中。

上述芯片公司創始人稱,引入FP8後,也有可能導致模型計算導致在某些情況下精度不足,造成性能不穩定,需要開發團隊去進一步調優。“FP8接下來很有希望成爲一種行業趨勢,會有更多的算力芯片廠商提供原生的FP8算力”。

另一位GPU芯片公司CEO認爲,DeepSeek V3作爲DeepSeek第三代模型,模型開發本身涉及大量的計算資源和數據支持,而幻方能夠爲其儲備上萬張英偉達顯卡用於算力基建,這對許多中小型團隊或公司來說都是一個障礙。

但在他看來,最核心、也最難複製的是人才儲備。DeepSeek核心架構用到的技術都具有相當高的創新門檻,前期開發和後期的調優升級都需要人才積累。

DeepSeek在人才儲備上也獨具特點。據創始人樑文峰此前接受採訪時介紹,DeepSeek V2模型的開發團隊沒有海外回來的人,都是一批本土的“Top高校的應屆畢業生、沒畢業的博四、博五實習生,以及些畢業才幾年的年輕人”,小米近期被報道以千萬年薪招聘DeepSeek研究員、V2模型的開發團隊成員羅福莉直接證明了這些年輕人才的價值。

樑文峰稱,頂尖人才在中國是被低估的,而正因爲DeepSeek“做最難的創新”,創新對於頂級人才具有特殊的吸引力。

技術圍牆背後的商業想象力

總體而言,在算力基礎和訓練技巧之外,DeepSeek-V3在技術上的核心亮點仍然是高效的架構設計,也就是在V2身上便得到驗證的MoE+MLA。

DeepSeekMoE採用了更細粒度的專家分配和共享專家機制,每個MoE層包含1個共享專家和256個路由專家,以確保計算的高效;MLA通過低秩壓縮技術減少了推理時的Key-Value緩存,提高了推理效率。

與此同時,DeepSeek-V3首次引入了無輔助損失的負載均衡策略。傳統方法中,強制負載均衡將導致模型性能下降,但通過爲每個專家引入偏置項,動態調整路由決策,可以確保專家負載均衡。

實際上,一個大模型的架構設計與其想要達成的目標高度相關,因此並不能泛泛而談其他模型廠商如何跟進這套技術策略。

但如果按照同等目標而言,一名大模型行業從業者對界面新聞記者表示,“MoE+MLA”雖然難,但是能夠復現,在V3中,更難的是無輔助損失的負載均衡策略,因爲它需要以一個訓練得足夠好的MoE模型爲前提。“這個比較看模型訓練的能力,就算DeepSeek的人手把手教也不一定能搞定。”

面對DeepSeek-V3的爆火,也有觀點提出應該冷靜看待,不要過度神話。

一名AI大模型投資人表示,DeepSeek-V3的確是現在看來最好的開源模型。尤其在國內,它最直接可對標的是通義千問模型系列,從技術實現來看,其更大總參數對概念的建模更精準,更小的激活量又讓推理成本更低。

但在GPT-4發佈近兩年後,整個開源模型框架及算法系統也在同步迭代,他認爲DeepSeek-V3所達成的效果可以視爲順其自然的事情。

相比而言,更值得思考的是DeepSeek的商業觸角會向哪片領域進一步延伸。

目前,DeepSeek仍以開源模型API接口爲主服務開發者和企業,在更具體的ToB(企業端)和ToC(用戶端)應用場景,它還沒有明確動作,但在部分層面也有跡可循。

據記者瞭解,在第三方招聘平臺上,幻化量方在衆多系統及算法研發崗位中釋放出了“DeepSeek-客戶端研發”、“DeepSeek C端產品的視覺引導者”,以及面向Web端及移動端AI產品的“UI視覺設計師”等。

其中,客戶端研發崗要求負責DeepSeek iOS及安卓開發工作。而視覺產品崗在“期望特質”中描述到,“能在某個大主題的背景下細化創作,比如我們的App可以是交互偏向的人文關懷、或者去突出科技感、也可能會走偏向辦公效率的方向。”

這意味着,DeepSeek或許已經在籌備自己的C端產品,並且有明確的應用方向。

從模型層面來看,DeepSeek-V3作爲開源模型,在數學和代碼兩項能力上已經非常突出,在補齊產品端能力後,或將在相關領域迅速形成自己的獨特優勢。另外,公司對於AGI(通用人工智能)目標的追求明確,團隊必定會不斷拉昇基座模型性能。

也就是說,儘管還看不清DeepSeek的最終抉擇,但它自身具備的模型實力和成本優勢,無論切入哪一個領域都可能對同賽道公司形成壓力。

“從根本上來說,DeepSeek對沒有找到自己核心場景的大模型公司都是一個巨大的威脅。”前述投資人表示。