“百模大戰”打了一年: 應用企業仍在摸着石頭過河

“百模大戰”過去近一年,最初涌入基礎大模型領域的潮水,漸漸向大模型應用領域傾斜。

僅在過去一個月,就發生了太多事情:國內大模型廠商掀起價格戰,嚮應用開發者拋出橄欖枝,聯發科等芯片廠商向開發者開放合作,OpenAI和谷歌發佈會上,能聽會看的AI助手則搭載於電腦和手機,引發關於多模態應用的想象。

但時至今日,能轉起大模型商業化齒輪的,似乎仍以互聯網大廠既有業務爲主。典型如谷歌,其搜索引擎並未如業界最初估計的一般被大模型顛覆,既有的廣告業務則率先受益於大模型,第一季度廣告收入增長約70億美元。大廠之外,原生的大模型爆款應用依舊稀缺。

隨着大模型價格戰燃起,創業基礎大模型團隊不得不面臨更激烈的競爭環境。商業化行之有效地應用將會是制勝的關鍵。而對於有意在大模型創業潮中分一杯羹的應用開發者而言,不僅選擇基礎模型是一個挑戰,要構建什麼樣的商業模式、切入什麼細分市場也是考驗。

近日第一財經記者採訪多名大模型應用開發者和技術人員瞭解到,開發者已在不同細分領域尋找機會,但大模型本身的能力和算力限制仍形成阻力。相比文本大模型,視頻生成模型邁向成熟將是一條更遠的道路。

摸着石頭過河

AI客服創業團隊創始人章程(化名)告訴記者,今年客戶需求明顯提升,對大模型的認知從完全沒有,到能形成一定的判斷,大模型B端的商業效果一定程度上被證明,說明今年可能是大模型應用爆發的元年。但C端的很多場景,現在還沒看到核心的產品。

一些大模型應用企業還在摸着石頭過河。

杭州萌嘉網絡科技有限公司創始人、CEO盧向東去年年底開始創業,公司的產品TorchV AI主要幫助企業客戶建立基於大模型的應用。因爲團隊熟悉相關市場且有經驗,開始創業後,公司很快拿下第一個客戶訂單,目前試用客戶已超200家,產品接入近10個國內大模型,包括開源和閉源。

盧向東感受到,市場需求旺盛,但不少潛在客戶對大模型還處在學習和了解階段。“有一類客戶需求很明確,他們佈局得早,想明白要什麼,大部分則是處於FOMO(害怕錯過)心態,他們更多想聽其他案例的解決方案,在可接受的情況下推進合作。”

盧向東表示,很多潛在客戶想看到案例,希望團隊可以幫企業“頭腦風暴”或做創意性方案,而不是隻提供開箱即用的技術。

同樣面向To B市場,近期接受第一財經等媒體採訪時,騰訊雲副總裁、騰訊雲智能負責人吳運聲也講到大模型能力與市場認知之間的割裂,他發現,在過去一年間遇到的很大困難在於,企業客戶對大模型有過高預期。“技術發展有階段性,而業務處理會遇到很多具體問題。這是客戶業務需求和大模型能力匹配的問題。客戶希望我們可以一下子滿足所有需求,而我們應該一步一步來。”他表示。

除了市場還在逐漸接受大模型之外,對於大模型應用會在什麼賽道跑出來,投資機構似乎也不是很肯定。盧向東告訴記者,去年投資機構更偏向對頭部公司做較大額度投資,今年對於較小的創業公司也有分配策略。已有20多個投資機構前來接觸公司,他了解到,有些機構直接表明還是前期瞭解階段,他們手裡握有的資金不多,又不能錯過機會,當下是在持續關注市場。相比於有國資背景的投資機構,風投機構如今出手速度不會很快。

“我對於大模型應用是謹慎的。從基本面看,生成式AI絕對有價值。但一個新的科技突破發生後,行業裡大部分人都能賺錢嗎?並不是。”在互聯網大廠和創投機構有多年從業經歷的王先(化名)告訴記者。他的考慮是,這一波大模型浪潮跟上一波AI浪潮很像,上一波即便是AI“四小龍”,已上市的邁向盈利依然艱難。以往AI創業公司得到血淋淋的教訓,例如曾賣得很好的AI產品受開源衝擊後變成“白菜價”。這一波大模型創業公司有步後塵的可能,同時面臨互聯網巨頭的競爭。

“生成式AI的投資沒有形成共識。”王先告訴記者,未來大部分需求可能會被互聯網巨頭吞掉,同等條件下,客戶傾向於選擇大公司的機率更高,創業公司要在垂直賽道有深厚背景,拿到足夠且便宜的數據,未來才更有機會跟巨頭拉開差距。

進入市場後,要怎麼樣才能撬開需求並構建競爭壁壘,盧向東如今也在思考這個問題。“上個月之前,我們沒考慮過要做什麼細分市場。當時各行各業的需求都找上來,‘海納百川’是好的選擇。我們的團隊以往對一些行業瞭解不深,所以先拋一個基礎產品吸引客戶,再逐漸瞭解行業痛點和剛需。”盧向東告訴記者,後續團隊還是要收窄關注領域,讓產業方向更明確,也有利於人員調配和品牌勢能建立。目前初步選的兩個領域是能源和銀行,考慮了客戶支付能力和落地前景。

成本足夠低了嗎?

除了“做什麼”的問題,大模型應用開發者目前感受到主要掣肘仍是在於算力、成本和模型能力。

盧向東告訴記者,現在最大的問題不是模型本身,而是顯卡。國內高端顯卡缺乏,團隊希望部署多模態模型,受制於現有顯卡能力不夠。辦公室只有幾塊消費級的英偉達4090顯卡,而現在可替代的其他品牌AI芯片易用性還不如英偉達。如果不自己購置顯卡而選擇在雲上租賃,價格則太貴。

綠聯科技近期也嘗試在私有云NAS(網絡附加存儲)系統內置本地自學習AI模型,用於輔助圖片整理等。綠聯NAS私有云產品總監魏婷告訴記者,NAS可存大量數據且長時間運行,用戶可用自己的數據調校AI,訓練不需聯網。這是搭載大模型的好處。但該公司同時對擴大AI應用較爲謹慎,除了文生視頻等功能未達到能穩定使用階段的原因外,爲了凸顯AI功能而堆砌高性能顯卡,價格可能也不爲用戶所接受。

章程則告訴記者。目前其感受到的難點在於大模型能力還不夠、成本偏高。

“大模型剛出來時,我們有過高期待,認爲它什麼都能做,後來發現,大模型只能達到一個初級專業客服的水平。大模型可以解決百分之五六十的問題,剩餘的還要人協助。”章程表示,該團隊用了GPT-4、Claude 3和谷歌、Mistral旗下模型,一個月爲調用大模型花費數萬美元,成本壓力不小。從近期大模型廠商的進展看,他認爲多模態能力有了進步,但落地應用時若使用多模態能力,面臨成本過高的問題。

近期國內多款大模型雲端API(接口)調用價格下降甚至免費,這是否會明顯降低成本?盧向東認爲效果有限,一個原因是國內不少企業希望數據存留在本地,在本地部署模型,團隊更多客戶也是如此,這種情況下使用開源模型,無須雲端調用。

隨着更多國內大模型降價,章程近期則計劃建一套測試體系,以測試免費或更便宜的模型能否達到GPT-4六七成的水平,再考慮更換模型。“免費或者變成原本50%、30%的價格,我們就有動力用這個模型,我最擔心的是這些模型性能不夠好,例如回覆返回時間過長、返回結果不符合期待。”章程告訴記者,公司已採用的大模型包括開源和閉源,在嚴苛的商業場景中,閉源收費的GPT-4因其較強的推理能力還是難以取代。

相比文生文大模型,業內分析人士認爲視頻生成模型要做好不僅更難,開放應用的成本也更高。“Sora一直沒出來,大家推測是因爲跟文本大模型一樣開放使用的話,成本太高。視頻大模型的體量至少是文本的10倍。”萬興科技董事長吳太兵告訴記者,公司的大模型產品天幕近期也只是公測,且是邀請公測,基於成本原因,現階段完全放開不太現實。

多模態應用落地有多遠?

在近日一場行業活動上,記者看到了多模態大模型應用搭載於端側設備的嘗試。走到一臺手機面前,選擇一個模板,手機攝像頭拍下的人物將可以成爲另一種風格,或是“女扮男裝”,或是套上明星臉,或是更換髮型。行業人士告訴記者,這種簡單的圖片生成功能在手機端側就可以實現,現在手機算力可支持70億參數大模型,再往上可能是100多億。但相比雲端,手機算力始終有限。

算力之外,要推動多模態應用落地,模型本身也要達到一定的成熟度。今年年初OpenAI推出Sora,從當時放出的視頻看,Sora還未能很好地展現一些物理世界的特性,例如視頻中杯子摔倒了卻不會碎。至今Sora未開放公測,Sora演示視頻是否有人爲參與、是否經歷多次調整剪輯,則多次受到質疑。

“視頻生成大模型算法成熟度還有限,此外,視頻生成大模型要真‘算’,沒有開源的模型,需要實打實對數據進行處理。”就爲何企業對視頻生成模型的市場參與度低於文本大模型,吳太兵告訴記者。他認爲,Sora把大家的期望值拉得很高,但做好視頻大模型很難。相比文本大模型理解人類,視頻大模型需要理解的是世界,即便是人類自身,也沒有完全理解世界。

企業投入做視頻生成模型並不簡單,一個例證是,一年多前國內掀起大語言模型“百模大戰”,但Sora面世後,跟進視頻生成大模型的玩家卻不多。吳太兵表示,相比文本大模型花幾千萬元就可以做,對於視頻模型而言,幾個億的資金估計纔剛剛能起步。目前,視頻大模型的商業模式還沒有完全跑通,付費意願也是需要考慮的問題。視頻大模型與應用深度捆綁、不做通用型模型,採用漸進式做法,將是比較可持續的路線。

“除了架構需要成熟外,視頻大模型相比圖片大模型維度更多,要求的計算資源也更多,這是目前比較大的困難。Sora要生成一個視頻需要分鐘級的時間,而且良品率沒那麼高。” 騰訊混元大模型文生圖技術負責人蘆清林告訴記者,視頻大模型一個要點是如何生成質感很好的視頻,目前的情況是生成時間還很短、視頻分辨率不足,以至於很多場景很難應用。

從應用上看,多模態中的文生圖模型似乎更容易落地。今年五一期間,一款提供黏土濾鏡的AI圖像軟件Remini走紅。據七麥數據,5月1日該應用在國內iPhone上的下載量達28萬,但5月下旬起每日下載量下滑至1萬以下,沒有顯現出大爆款的潛質。旗下有Stable Diffusion文生圖明星產品的初創公司Stability AI,似乎也未找到很好的商業模式,頻頻傳出團隊動盪、資金緊張、考慮被收購的消息。

“文生圖模型的應用點比較多,但我不認爲它的商業化應用會比較清晰。很多玩法已經出來了,但這不代表它未來有很強的商業化能力,我們還在摸索階段。目前我們沒有看到一個很強的AI原生產品能有很好的商業化表現。” 蘆清林告訴記者。

記者瞭解到,與文本大模型技術路線逐漸收斂至Transformer不同,文生圖技術仍在迭代過程,從Stable Diffusion向Diffusion、Transformer融合的技術路線(如DiT)演進,業內公司和產品仍在探索與適應。

或許不得不承認,從大模型智能涌現的閃亮一刻到大模型真正改變世界,這段路上更多的是棘手的工程化和商業化問題,這些具體的問題如何解決,才決定了爆款應用何時到來。