大模型,何時迎來大轉折?
在經歷了上半年密集的技術和產品發佈後,下半年的AI圈顯得有些平靜,不再有如Sora這樣引發轟動的產品,在GPT-4o之後,行業引領者OpenAI也遲遲沒有大動作。不少行業人士認爲,技術的迭代放緩了。
在亞布力企業家夏季年會上,獵豹移動董事長傅盛提出一個觀點,AI浪潮已出現泡沫跡象,從大模型出現在大衆視野以來,已過去近一年的時間,但最頂級大模型的模型沒有明顯提升。“客觀來說,誰家大模型有什麼優勢,基本尚屬‘一家之言’,用戶用起來沒有感覺到太大差別。”他認爲,當前大模型同質化嚴重。
在與MiniMax創始人閆俊傑的交流中,關於瓶頸與轉折點他提到,現在所有模型錯誤率都是20%的量級,“真正的變革是,什麼時間點有一個模型可以把錯誤率降低到個位數,這會是一個非常本質的變化。”未來大模型能否成功,傅盛也認爲,大模型的天花板能否再上一個臺階很重要。
“至暗時刻覺得技術很重要”
這一輪的生成式AI是一場掀起巨大浪潮的社會生產力革命,傅盛認爲,這波浪潮今天已經呈現出明顯的泡沫跡象。
何爲“泡沫”,傅盛認爲,一方面是模型能力沒有明顯提升。“在一個以科技爲核心的技術浪潮中,這是不太正常的。”每次寫不同的東西,傅盛都會用好幾個大模型互相比較,“有時候這個大模型更好用,有時那個更好用,當前大模型的同質化很嚴重。”
其次,說了這麼久人工智能,“但真正的Killer APP(殺手級應用)並沒有出現,不僅在C端沒有出現,B端也未能出現。很多行業大模型都說自己有不少應用,但真正提效的並不多。”傅盛說,想要將大模型真正變成一個明顯能提效的應用,還很有難度。
潑了盆冷水的同時,傅盛補充表示,泡沫不見得會使大模型發展崩塌,因爲有點泡沫很正常,互聯網早期也曾出現泡沫。
在今年6月演講時,金沙江創投主管合夥人朱嘯虎曾談及GPT-5一直“跳票”時表示,“硅谷也高度懷疑GPT-5還有沒有,即使出來在覈心推理能力上還有沒有顯著的提高,這是很不確定的東西,今年年底是一個驗金石。”他判斷,大模型演化速度有放緩趨勢,而迭代曲線放緩以後,應用層的機會就會更多。
不過,在波形智能創始人姜昱辰看來,大模型技術迭代其實並沒有放緩,而是保持着2018年以來的增速,那一年基於Transformer架構的大規模語言模型預訓練開始流行。從博士的自然語言處理研究到大模型創業,姜昱辰更早開始經歷這輪大模型技術演化的進程。
“大家之所以有這樣的感覺(技術迭代放緩)是因爲大衆是在2022年底、2023年初第一次看到這個技術,做了很多短時間的learning和追趕,追趕當然比較快。”姜昱辰對第一財經表示,把OpenAI做出來的技術學一遍,不叫“技術迭代”。
雖然行業此前有一句“沒有應用的大模型一文不值”廣爲傳播,但在很多從業者看來,大模型的技術同樣重要,因爲更好的應用一定建立在更好的技術之上,技術和應用是一個相互轉化的串聯關係。
在MiniMax剛剛過去的夥伴日活動上,閆俊傑在討論中提到,“至暗時刻會覺得技術很重要。”
很多時候做技術時,並沒有真正意識到技術爲什麼重要。閆俊傑舉例表示,用戶感受到的東西可能來自於一些產品細節,或者一些品牌,技術本身是好多個環節在一起,尤其在繁榮時期,可能分不清什麼是主,什麼是次,“當在某些時間點遇到瓶頸的時候,拋開所有的表象東西,會意識到技術纔是最終提升的來源。”
“技術做不好的時候,發現所有東西都是問題,當技術做好了,似乎所有問題都被掩蓋了,”閆俊傑表示,技術是一家科技公司最核心的要素這件事,儘管已深刻意識到,偶爾還是在繼續犯錯誤,“這個是我在多次至暗時刻裡最有共性的一件事。”
做技術也是一件非常奢侈的事,“如果看一眼我們每個月的賬單還是會非常心疼的。”在採訪中,說到這話時,閆俊傑幾次看向了MiniMax技術總監韓景濤,也就是“賬單的製造者”。
因爲做技術可能會失敗,研發投入很大,閆俊傑此前很多時候會想要不要走點捷徑,但實踐經驗會證明,走捷徑就會被“打臉”,“這個事在我這發生可能超過十次了。”
“一個東西要實驗三次才能成功,第三次實驗成功的時候,會想前面兩次是不是可以不用做,就像吃包子吃三個會吃飽,就會想是不是前兩個不用吃是一樣的。”閆俊傑表示,這是做技術時一個比較容易犯的錯誤。
在各種關於模型技術細節的排行榜上,或許GPT-4o的跑分不常出現在第一,甚至會在中間,但在MiniMax基於真實客戶的測試集中,OpenAI的GPT-4o是遙遙領先的。
在大模型時代,如何判斷技術的好壞,大衆很迷惑,企業同樣覺得很難,但這個點很重要,因爲技術的評價標準會決定模型的迭代方向,如果指標本身不對迭代方向可能就錯了。
閆俊傑提到,MiniMax目前的一個辦法是,基於MiniMax開發平臺的3萬多個開發者和付費客戶,在他們的場景上構建一個真實使用的測試集,有些客戶對他們的場景非常看重,要求保證產品的效果,基於這些客戶真實使用的評測是較爲客觀的。
“這個測試集上所有國產化模型相比GPT-4o都相差較多,其他排行榜基本上GPT-4o都要排到中間去了,但是在我們的排行榜上確實GPT-4o排在最靠前。”閆俊傑提到,國內所有模型都與GPT-4o有本質的差距,且越難的問題差距越大。按照這個評估方式,國產模型的提升空間還很大。
靜待下一轉折點
大模型的下一個轉折點在哪裡?衆多創業者有不同的答案,有人認爲是錯誤率的降低,有人覺得是個性化的模型,有人認爲關鍵在於小算力訓練出大模型,背後或許意味着架構的改進。
朱嘯虎曾提到,今年的大模型本身還是有很多錯誤,且出來的結果不可控,今天落地最困難的是,場景下怎麼解決錯誤問題、可控問題。
現在所有的模型錯誤率都在20%左右,即兩位數的錯誤率,有時驚豔,有時不靠譜,閆俊傑認爲,這也是制約模型處理複雜任務的原因,“真正的變革是,什麼時間點有一個模型可以將錯誤率降低到個位數。”這是能增加用戶使用深度的核心手段。
複雜任務往往需要多個步驟“相乘”,較高的錯誤率導致失敗率的指數增加。閆俊傑表示,即便是GPT-4這樣的模型也無法支持非常靈活的Agent(智能體),這並不是因爲Agent框架寫得不夠好,產品做得不好,最根本的原因是模型本身不夠好。
但現在可以看到的是,每家公司有了算力,無論是OpenAI、谷歌還是Meta,都在加碼算力。Meta CEO扎克伯格曾在社交媒體上表示,要建立一個大規模的計算基礎設施,到2024年底,這一設施將包括35萬張英偉達H100顯卡,業界預估這或許將耗費近百億美元。
算法也在進步,OpenAI在2023年只能做出來GPT-4,但2024年能做GPT-4o,雖然性能差不多,速度快了近10倍。
“計算量多了不止10倍,算法也快了10倍時,沒有道理說訓練不出來一個更好的模型。”閆俊傑提到,“如果Scaling law(尺度定律)是對的,未來這個模型一定會出現,標誌就是個位數的錯誤率。”
在傅盛看來,降低錯誤率同樣重要。“今天的大模型有20%-30%的知識幻覺,而且‘它不知道自己不知道’,這是在企業應用上非常重要的一大卡點。”想要真正落地一個應用,得用大量工程化的手段去解決以前通用人工智能認爲它能幹的活,這中間是有差距的。
問及大模型技術的下一個轉折點,姜昱辰給了一個不一樣的答案,她認爲是“個性化”的技術。
“ToB的創業者會覺得錯誤率降低很重要,因爲企業級、工業級場景中要的是極高準確率,而在消費場景中,要的是‘懂你’的個人助手。因此,對ToC創業者來說,個性化技術更重要。”對於不同的答案,姜昱辰解釋,ToB和ToC不同的場景下會有不同的感知。
從難度上來說,大模型幻覺是概率模型固有的,不容易解決,但個性化大模型確實是技術層面可行的。姜昱辰提到,波形智能目前在做的是這個方向,主要的難點是算法,中間需要知道的是,這樣的個性化生成式模型需要什麼用戶信息,如何用於模型自進化。
深思考創始人楊志明則認爲,下一個轉折點是,如何利用小算力訓練出大模型、做好大模型的推理,在這背後,當下主流的Transformer架構需要堆積算力,“性價比太低”。架構的改進或許是重要的方向。
值得期待的是,近日有消息稱,OpenAI將在今年秋天推出代號爲“草莓”(Strawberry)的新模型。作爲核心技術突破,草莓可能集成在ChatGPT內,幫助解決當前AI聊天機器人難以完成的複雜任務,如數學和編程問題。此外,草莓更會“思考”,在解決強主觀性問題上更擅長。
“草莓”是前菜,消息人士透露,OpenAI正在開發下一代大型語言模型Orion(獵戶座),草莓將爲其生成高質量訓練數據,以幫助減少大模型幻覺問題。能否突破瓶頸,帶領行業進入下一轉折點,最大的可能性還在OpenAI。