年終盤點|從“造錘子”到“找釘子”,大模型這一年走慢了嗎?

大模型這一年有哪些關鍵詞?

從不同的從業者那裡,第一財經記者收到的回答包括視頻模型Sora、推理模型GPT-o1,年中的Token(詞元)價格戰,以及百花齊放的落地。

2023年,楓清科技(Fabarta)在尋找場景落地,但創始人高雪峰的感受是,去年市場對落地的關注度並沒有那麼高,“大家都還是追捧着頭部大模型,推出新的版本,更大的參數、聊天更好、更順暢等等這件事情上。”他發現,去年大的企業還都是隨便拿一個商用大模型來做嘗試。

但今年風向變了,大家發現大模型得用起來纔有價值。有大模型企業傳出放棄做預訓練大模型,轉做相應的產品。“得讓大家能真正用起來,不論是大B還是C端的場景,一定得用起來才能知道好壞,才能促進迭代,要不然就是供在那,沒有任何意義和價值。”高雪峰感受到更多客戶願意合作了。

在Scaling Law(尺度定律)這條路線上,行業開始出現分歧,一方面是大規模預訓練價格不菲,投入產出比並不確定,另一方面,關於預訓練“撞牆”、大模型放緩的討論也越來越多,從24年年初開始有論文提出模型能力提升速度隨着參數規模的擴大而放緩,到11月,OpenAI前首席科學家伊利亞·蘇茨克維爾(Ilya Sutskever)在公開場合表示,簡單地增加數據和計算能力來擴大當前模型規模的時代已經結束。

但伊利亞沒被傳開的後半句是,“現在重要的是擴大正確的規模”,有人認爲OpenAI轉向推理模型是迭代放緩的證明,也有行業人士認爲這是“Scale”的範式變了,從預測下一個Token到用強化學習的方法去“Scale”。

矛盾似乎充斥着AI的2024年,大模型一邊揹負着巨大期望,一邊接受着現實的拷打。邁過2024年,我們需要抱着什麼樣的信心去看待通往AGI(通用人工智能)的歷程?

大模型慢了嗎

2024年初,大家還在驚歎於Sora讓“現實不存在了”,感慨生成式AI改變世界的速度,擔心自己被AI替代,但到年末,大家開始發現人工智能並不智能,通往AGI的道路受阻,GPT-5沒有在預期中出現,行業質疑大模型是否走慢了。

回顧這一年,跬智信息(Kyligence)聯合創始人兼 CTO李揚印象最深刻的是,Sora、GPT-o1以及馬斯克大力投入的Grok。“一方面是激烈地爭奪,另一方面整體大模型能力似乎又放緩。”

2023年,馬斯克旗下的xAI推出了Grok系列模型,爲了讓其後來居上,一向激進的馬斯克大手筆屯了10萬張英偉達GPU卡建立AI集羣,並在年底融了一輪60億美元的資金,用於繼續購買英偉達顯卡以擴大其集羣。

過去幾年,大模型參數從千億級到萬億級以至十萬億級,預訓練的成本越來越高,成爲資本驅動的遊戲。Anthropic創始人達里奧·阿莫迪(Dario Amodei)曾在播客裡談到,正在訓練的一些模型的成本接近 10 億美元,且這個數字未來還會上漲,未來三年可能會達到 100億美元至1000億美元。

在高昂的成本和不確定的投入產出比下,越來越多公司開始衡量預訓練的性價比,尤其在預訓練有可能“撞牆”的趨勢下。

李揚認爲,大模型在放緩是不爭的事實,行業既有樂觀也有悲觀派,他們在某種角度上都正確,只是發言的層次不同。樂觀派通常表示AI整體大方向正確,沒有人會反對。但針對GPT和Transformer的技術路線,他認爲這個路線有自己的天花板。

“半年或者一年前大家仍然有猶豫,但目前只需要觀察所有大模型廠商目前的產品到哪裡,以OpenAI爲代表,推出下一代大模型的速度受阻,只關注這一結果,可以清楚他們一定遇到了技術阻力。”李揚表示。

在今年6月演講時,金沙江創投主管合夥人朱嘯虎曾談及GPT-5一直“跳票”時就表示,“硅谷也高度懷疑GPT-5還有沒有,即使出來在覈心推理能力上還有沒有顯著的提高,這是很不確定的東西,今年年底是一個驗金石。”他判斷,大模型演化速度有放緩趨勢。

但在這一點上,行業尚未達成共識,不少從業者並不認爲迭代速度在放緩。

MiniMax副總裁劉華告訴記者,2024年仍是大模型飛速發展的一年,目前技術沒有看到上限。“我們不太同意大模型‘撞牆’的說法,也沒有感受到Scaling Law放緩。相反,我們今年看到更多模型研發方向。以往Scaling Law大家認爲就是訓練階段的Scaling Law,今年突然發覺大模型推理也有Scaling Law了。”劉華說。

另一名頭部大模型廠商研發人員告訴記者,他感受到近半年來大模型技術也沒有走慢,全世界對大模型的研發投入還在高速增長,進展也一直有,只不過不算突破性進展。

“之所以有些人認爲走慢了,是因爲突破性的進展不是天天有,即便有突破性進展也不是每個都能出圈。業界仍然在向上觸摸原本技術路線的天花板,可能快到瓶頸期了,需要新的突破。”上述研發人員告訴記者,可以肯定的是,現在大模型進化的幅度小於從GPT-3到GPT-4之間的幅度,所以GPT-5才一直沒有出來。不過,這不意味着突破性進展不會到來,現在誰也說不準,是不是GPT-5明年就推出了、突破性進展很快就出現了。

此前一家AI初創企業的創始人也對第一財經表示,大模型技術迭代保持着2018年以來的增速,那一年基於Transformer架構的大規模語言模型預訓練開始流行。“大家之所以有這樣的感覺(技術迭代放緩)是因爲大衆是在2022年底、2023年初第一次看到這個技術,做了很多短時間的learning和追趕,追趕當然比較快。”

“行業還在飛速發展,只不過國內有點滯後。”大模型生態社區OpenCSG(開放傳神)創始人陳冉對第一財經表示,模型天天變,不變的是數據沉澱,他認爲,行業數據纔是關鍵,不是預訓練。

行業大致的共識是,大模型在數據語料上面遇到了瓶頸,“互聯網上的人類語料是基本原料,已經耗盡了,雖然模型變大了,但是輸入沒有變得更多,無法學習新知識。”李揚認爲。

一名大模型開發人員也告訴記者,現在業界已經在用合成數據應對自然數據即將用盡的挑戰,不過使用合成數據能在多大程度提升模型表現,現在業界並不確定。

在瑞銀證券中國科技軟件分析師張維璇看來,大模型的scaling law是否變緩,GPT-5什麼時候可以出來,大家都還沒有很明確的解答。她也認爲,現在卡點不是在算力上面,而是在數據上面。

“所以會有很多新的技術方向是如何利用合成數據,如何在post-training(後訓練)這個階段進一步加強模型推理的能力,這是新的金礦。”張維璇認爲,未來post-training這個金礦會被更多地挖掘,就和最開始scaling law在預訓練這個階段挖金山一樣。

大模型是不是走慢了不能下定論,不過,即便速度放緩,李揚也並不認爲這是一個問題。從技術人員的角度來看,所有技術都具有侷限性,基於GPT和Transformer框架技術的侷限性屬於正常且並不意外。“人也不能無限學習,爲什麼我們找到的第一代通用智能就能實現無限學習,我原本就沒有這個預期,我認爲它並非缺點。”

如果將機器訓練比作人類學習,這個問題可以變成,人能否在無限的學習中變得更聰明,李揚認爲,人也在某個領域存在知識上的瓶頸,如果人無法無限學習並變得更聰明,爲什麼基於模式識別的大模型就一定可以?“大模型目前可能在‘大專’遇到了瓶頸,未來仍然有一定的發展空間,只是提升的速度沒有以前快。”

對國內大模型行業來說,遇到瓶頸、迭代速度放緩是個好消息,跑得快的人跑得慢了,在一個很好的時間窗口中國內可以縮短與海外的差距。從商業落地中的感受來看,李揚認爲,現在海內外的差距已經不如一年前那麼大了,追近了不少。

範式變了

在關於大模型速度放緩的爭論中,一個關鍵的點是OpenAI於9月發佈的推理模型GPT-o1,這一模型擅長處理複雜的推理任務,尤其是在科學、技術、工程和數學(STEM)領域,其評測分數都遠遠超過GPT-4o。

GPT-5並沒有出現,但出現了GPT-o1,有人認爲這是迭代速度放緩的信號,也有不少業內人士認爲,o1是轉向了另一個方向的“Scale”,將計算資源從大規模預訓練數據集重新分配到訓練和推理階段,也就是說,Scaling Law在大模型推理側繼續有效。

GPT-o1的推出沒有引起像年初Sora那麼大的反響,高雪峰認爲,這是圈內和圈外的區別。Sora的效果更直接,GPT-o1並不那麼直觀,但自從GPT-o1這一模型推出來之後,驗證了整個行業的發展趨勢。在推理與概率預測的技術體系上,已經朝着更加綜合和平衡的方向上轉移了。

“今年很明顯,已經不去從千億模型到萬億模型到十萬億模型的智能涌現發展了,而是回過頭來改進推理模型。很多人會覺得這件事,無外乎是原來AlphaGO 這種推理能力的剪枝提升,做一些優化,技術上沒有太大的創新,但是在我看來這是一個方向性的變化。”高雪峰表示,之前有人堅持Transformer 的Scaling law是未來,是一切,現在不會有人這麼說了,接下來要做推理能力、強化學習方向的Scaling law。

行業有類似看法的人不在少數。月之暗面創始人楊植麟在11月的媒體交流中提到,大模型的範式會產生一些變化,從原來的“next-token prediction”(預測下一個詞)到強化學習,讓AI具備思考的能力。

“今天Scale得差不多的時候,會發現再加更多的算力,並不一定能直接解決問題,核心是沒有高質量的數據,幾十G的Token是人類互聯網積累了20多年的上限。這個時候要做的事情,是通過算法的改變繞過瓶頸。”楊植麟表示。

現在整個行業遇到的問題是,加更多的卡也不一定能看到直接的提升,在楊植麟看來,“好算法就是與Scaling做朋友,如果算法能夠釋放Scaling的潛力,它就會持續變得更好。”因此,強化學習是接下來很重要的一個趨勢,它改變大模型學習的方式,讓其能持續“Scale”。

有大模型廠商研發人員告訴記者,年內值得關注的新路線就是強化學習技術下的Scaling Law和推理階段的Scaling Law,也就是o1提出來的路線。現在業界都嘗試在推理階段用更多Token來搜尋更復雜問題的答案,大家都已經知道思路了,只不過還做不到OpenAI那麼好的效果,也還不知道這條新路線後面的天花板有多高。

拋開技術迭代不談,推理模型這一方向也是行業大勢所趨。在複雜行業的落地中,大模型的幻覺和思維邏輯能力一直是一個阻礙,包括此前大模型分不出“9.9和9.11哪個大”這一典型問題。行業認爲,AI一定要具備可解釋性、推理能力,再加上儘可能地減少幻覺,疊加數據的能力才能解決生產力的問題,這是做推理模型的必要性。

追隨OpenAI的腳步,對標o1系列,國內也有衆多廠商和機構在年底發佈數學推理模型,包括阿里通義、DeepSeek、月之暗面、上海人工智能實驗室等。

上海人工智能實驗室青年科學家陳愷此前在接受第一財經採訪時表示,強大的推理能力是邁向通用人工智能的重要基礎。“目前大模型的頭部機構都有研發和發佈推理模型的計劃,因爲推理能力是大模型智能水平的重要體現,也是面向複雜應用場景的必備能力。”

在具體應用上,一般的大模型可以在讀完一份財報之後幫忙整理其中的關鍵信息,如果是具備強推理能力的模型,未來就可以像分析師一樣幫助分析財報中的數據,給出合理的研究和預測。

在強調做數學推理模型的重要性時,楊植麟有個理性又感性的表達,他引用物理學家伽利略的一句話表示,“宇宙是由數學這門語言書寫而成的”,宇宙的很多規律是通過數學來刻畫的,數學是宇宙的基石。這種遙遠的相似性或許有助於邁向通用人工智能。

但另一個思考在於,推理模型也可能出現問題。360集團創始人周鴻禕就指出, OpenAI用強化學習、思維鏈慢思考的方式做o1,“但慢思考也有問題,當你發現它跨了一個專業學科後(表現不一樣),o1解數學、物理題可以,造航空發動機不行。”

周鴻禕的判斷是,OpenAI的這條路長期看目標正確,但這像“造原子彈”,只有把大模型變成“茶葉蛋”才能走進千行百業,引發工業革命。同時,通用AGI可能也是僞命題,AI要再進化就要學習人類掌握的獨特的知識,走專業化的道路。

今年“找釘子”

年初有一個說法是,2024年是AI落地的元年,高雪峰不完全認可這一觀點,此前已經有很多AI圖片生成、AI換臉等應用出現,他認爲,這些都是生成式人工智能的落地體現。

“我覺得不是 AI 落地元年,而是行業精準場景和人工智能技術融合的元年。”這一年,高雪峰走訪了各個大的國央企,看到越來越多企業都在幹這件事,企業在推動真正能夠帶來生產力提升的場景,每個企業都在研究,哪些場景能落地,去調研、嘗試,再推廣、反饋和改進。

如果說去年廠商在不斷迭代大模型是“造錘子”,今年行業更重要的是“找準釘子”。

楓清科技是企業級AI平臺型的初創公司,高雪峰因爲看到了生成式AI迭代過程中基礎層的機會,從阿里雲出走創業。楓清科技對接的主要是大B端的客戶,去年他們接觸的大企業還在觀望,隨便做一些嘗試。但今年,願意洽談合作的客戶更多了,高雪峰對記者提到,有頭部央企與楓清科技有較爲頻繁地接觸,至少有兩三家有合同已簽約落地。

綜合楓清科技與國央企的合作經驗,高雪峰觀察到,企業正在經歷從以模型爲中心向Data-Centric(以數據爲中心)的重要轉型,更多去處理本地的數據,將數據轉化爲知識,再結合模型能力賦能 AI 應用。

今年高雪峰有一個明顯的感受是,聊一個大型國央企基本上會對他們感興趣,“相比去年,今年已經不用先談預算了,用兩個星期嘗試了一下效果,比原來要好,就可以深入場景討論平臺落地具體的規劃。”雖然時間週期也長,但是很明顯的是,成功率很高。

站在大模型開發商的角度,劉華髮現,今年大模型應用拓寬了。

劉華表示,去年國內就有AI辦公產品,能寫文章、做PPT,如果按滿分100分打分,這種產品創作的文學作品雖然不到90分,但也有70分了。此外,今年大模型還從一個只會寫文章的“文科生”變成能力比較全面的模型,以公司的語音服務產品爲例,該產品在中文環境下已能提供如同GPT-4o一般的即時服務。從B端和C端看,大模型也已經催生了一些比較好的產品。

劉華以公司大模型目前的應用場景舉例:音樂、視頻模型已被用於製作廣告;與保險公司合作的智能體能在客戶來電時把保單賠付流程走完;AI藥師助手能在醫藥零售場景提供用藥建議;公司的大模型驅動了聯想AI PC的聯想小天語音;C端的AI內容社區產品在國外已有付費會員。

不過,從演進的進程看,目前的大模型並非終局。劉華說,大模型對社會的影響可以類比爲當年電力、蒸汽機發明的影響,與電力、蒸汽機相似,這波大模型技術迭代、演進並非一兩年內就能完成。

在這些場景落地背後,今年還有兩個重要的助推因素,一個是年中大模型的Token價格戰,另一個是兩會期間“AI+”首次寫進《政府工作報告》。

今年5月,以幻方量化、智譜開篇,首先將模型價格下降數倍,隨後雲廠商加入迅速掀起價格戰。字節豆包主力模型將其在企業市場的定價做到0.0008元/千tokens,喊出較行業平均價格便宜99.3%。“通義千問9款模型齊降價,擊穿全球底價”,彼時阿里雲宣佈。

對於大模型降價,有行業人士覺得這是惡性競爭,但從客觀結果來看,這降低了用戶對於大模型的使用成本,帶動了更多應用的落地。

“從年初幾十元每百萬token的定價,到年中價格的競爭潮下,很多主力模型的價格可以降到1元每百萬token的水平。再到今年9月可以看到進一步下降,甚至有一些降到了3毛錢百萬token。”張維璇觀察到。

高雪峰認爲,這一價格戰有利於大的 AI 場景生態的發展,因爲大家更容易運用公共雲的資源,可以做更豐富的場景嘗試,“很多人用得起,可以開始自己打造一些場景化應用”。

另一方面,從高雪峰的角度看來,更大的事件是“AI+”寫進《政府工作報告》,這尚屬首次。在談到“科技創新實現新的突破”時,報告中提到“人工智能、量子技術等前沿領域創新成果不斷涌現”,要深化大數據、人工智能等研發應用,開展“人工智能+”行動。

“這代表了各個行業的龍頭企業一定要做 AI 的轉型,包括民企,央企和國企,要把‘AI+’和場景連接在一起,對我們來說就是一個巨大的機會,因爲我們就是幹這件事,於是我們開始將注意力集中到大B的場景建設上。”高雪峰對記者表示。

瑞銀證券在年初發布了一份關於中國AI行業的大報告,在其中他們認爲中國AI長期發展的潛力是被低估的。中國AI應用的滲透率有望從明年起加速,由AI帶動的軟件、雲服務市場,可能在未來五年預估的複合增長率可以達到35%以上。

這一觀點背後的支撐在於,從模型性能方面,基於一些公開測試集benchmark的評分來看,中國的國產大模型廠商的性能水平已經接近了GPT-4的水平,在一些垂直應用的領域,如數學、AI Agent等能力上,很多大模型廠商通過監督微調、強化學習等等方式,就算不增加大算力的前提下,大模型的準確度也可以得到不斷地加強。同時中國有非常活躍的AI開源社區、開發者,還有廣泛的應用場景,這些都在不斷幫助國內大模型性能日拱一卒。

張維璇還分享了一個數據是,瑞銀觀察到中國前十大C端的AI移動應用月活加起來超過了一個億,在她看來,這已經是很大的月活體量。從6月Token價格下降開始計算,大模型的API日均調用量到現在增長了大概8倍,“確實看到中國AI的使用率在不斷地提高”。

站在年底,怎麼看明年AI行業的機會?

據瑞銀的分析,過去AI最先帶動是基礎設施層面的公司,包括AI加速卡、GPU、存儲、網絡通信設備、雲的提供商等,接下來他們認爲,可能PaaS層(平臺層)很多工具的軟件廠商會陸續受益,包括一些數據的中臺、數據工具的提供商、AI應用的性能檢測、安全的服務提供商等。

張維璇認爲,上述這些環節的企業可能會受益於AI從大模型訓練往推理端、應用端走的過程。從美國相關上市公司最新財報看到,這些公司AI收入貢獻明顯獲得了加速。