百度沈抖:大模型讓「AI普惠」的前景終於被看到

1879年,當愛迪生測試的燈絲終於持久點亮時,他思考的下一個問題是:怎樣才能讓更多人用上電?

白熾燈的誕生,並沒有立即讓全人類即刻享受到夜間生活的自由。在那個年代,只有摩根和範德比爾特家族才裝得起龐大的家用蒸汽發電機。直到1882年9月,愛迪生在紐約曼哈頓珍珠街鋪設了第一張電網,僅用一座發電站,就能給一平方英里內的普通住戶提供電能。

無數人見證了這一歷史時刻,兩位美國記者這樣描述道:“昨天晚上,紐約市珍珠街的85戶家庭和商店內外出現燈火輝煌的景象,400盞電燈點亮了整條街,改變了街坊居民夜晚的生活,也爲人類文明史掀開了新的一頁。”

每一項革命性的技術誕生後,人類都需要探尋技術走向“普惠”的方法。1947年晶體管橫空出世,但直到集成電路被髮明,芯片才逐步推廣民用;1969年計算機網絡的雛形便已萌芽,但需要等到蒂姆·伯納斯-李在90年代定義萬維網,互聯網才真正地走進全世界的每一個角落。

同樣,在AGI引領的第四次工業革命裡,一個課題擺在行業先驅面前:如何讓主流大衆更快的用上AI?

早在本輪AI浪潮爆發之前,“AI普惠”便是百度智能雲的十六字方針——「深入行業、聚焦場景、雲智一體、AI普惠」其中的核心目標。但對於百度集團執行副總裁、百度智能雲事業羣總裁沈抖來說,這個目標在去年5月他剛接手百度智能雲業務時,呈現出來的是一種過於“碎片化”的圖景。

百度集團執行副總裁、百度智能雲事業羣總裁沈抖

這種“碎片化”根源於傳統判別式AI的基因——針對每一個問題,都要生成一個能力來解決,通用性較差。這導致AI落地時出現了傳統軟件行業的固有頑疾——需求不夠標準化,項目制大行其道,乙方常常淪爲高科技施工隊。沈抖回憶道:“那時候AI在不同的場景裡面非常碎片化,做起來很累,很難找到能夠依靠規模化帶動業務的場景。”

而當大模型開啓AGI的終局之路後,“AI普惠”終於能看到一個標準化和規模化的前景——大模型的通用能力能夠跨場景來解決問題,如同電力一樣,發電廠和電網並不需要區分下游居民的需求到底是照明,還是製冷。

通用端帶來的這一變化足以令人驚喜,沈抖定位大模型的價值在於把系統與人真正串聯起來,當大模型成爲應用的底座之後,將從根本上改變開發的範式。大模型的加碼,讓天平從代碼能力驅動、理解程序語言向創意驅動、理解應用需求一側傾斜,“AI普惠”在應用供給端將極大豐富,人人皆可成爲開發者的時代已經到來。

在推開智能革命的大門時,百度攜帶了強大的先發優勢——從算力層的AI芯片崑崙芯,到框架層的飛槳,到模型層的文心大模型,再到應用層的工業、政務等產業應用,百度“全棧”優勢明顯,因此在「AI普惠」方面,業界需要百度率先趟出一條路來。

即使過去互聯網時代下走過的每一步讓百度在全鏈條上都有佈局,但面對大模型能力泛化下所展現的全新商業圖景,沈抖直言“以一家之力是絕對幹不過來的”,在他看來生態的打造至關重要。

一個更繁榮的應用生態會將更多物種包容其中。第一類“物種”便是插件,OpenAI已經打了頭陣,如同今天手機廠商與各類APP應用之間相輔相成,大模型企業與插件之間也將呈現強相互依賴與增強的關係。第二類是大量的生態夥伴,“普惠”本身源於更好解決應用問題,從技術到應用的“最後一公里問題”,依賴於生態夥伴協助交付。

沈抖給了很凝練的總結,如果把前者視爲是開發者生態的能力聚合,後者則是協助大模型做好面向應用的直接交付,但還有第三類,就是把大模型當成一種能力直接強化客戶現有服務。百度要把模型能力送到企業面前,是爲了便利企業更好地把自己的服務能力送到客戶面前。

在過去半年裡,我們調研發現企業對於大模型的需求真實且強烈,“降本”和“提效”的渴望寫在每一個希望穿越週期的老闆臉上。但對大多數人來說,接觸大模型的場景僅限於聊天機器人。如何在企業內部落地幾十上百億參數的大模型,是一件令人興奮但又令人生畏的事情。

而百度針對這個問題交出的第一張答卷,就是百度智能雲千帆大模型平臺。

千帆大模型平臺顧名思義,是一個提供各類模型和工具的“一站式平臺”,其核心目標是幫助企業降低大模型的使用成本,因此千帆平臺覆蓋了從數據管理、模型訓練、評估測試、落地部署等全流程開發環境和工具鏈,能夠最大程度地縮短企業使用大模型的學習曲線。

爲了滿多樣化的需求,考慮到不同模型有場景的適配性,千帆平臺不僅支持百度自家的文心大模型,還接入Llama2、ChatGLM、MPT、Falcon等四十多個大模型,是目前支持第三方模型最多的平臺。

正如沈抖的觀察:“目前開源模型雖然很多,但不是每個模型都值得大家去試用,不然在早期會造成很大的資源浪費。”所以千帆內每一個模型的入庫,會綜合“模型效果、安全性、可商用”三個角度提前做好篩選。

在試用千帆平臺時,我們還可以看到百度智能云爲“AI普惠”所進行的諸多努力,比如平臺上有多達103款Prompt模板,涵蓋對話、編程、電商、翻譯等多個場景,可以迅速上手;再比如預置了41個高質量的、有行業特色的數據集,客戶在做模型微調的時候,只要點幾個按鈕就可以完成微調、提高模型效果。

這些努力的確擊中了下游企業的痛點,千帆大模型平臺自3月27日開啓測試以來,月活企業數已近萬家,覆蓋金融、製造、能源、政務、交通等行業的400多個場景。百度則跟來自衆多垂直行業的上百家客戶進入深度接觸,勾勒出企業的落地路徑和需求畫像。

在9月5號舉辦的2023百度雲智大會上,無數專家和客戶雲集北京,沈抖代表百度智能雲宣佈了千帆大模型平臺的2.0全面升級。

在千帆2.0平臺上,我們看到百度帶來了更多“AI普惠”的工具,比如大幅增強了平臺模型對中文的理解能力,全面提升了訓練和推理性能,算力服務和安全能力也做了大幅度的提升。在雲智大會上,百度智能雲更是直接推出了針對數字政府、金融、工業、交通等四個領域的全面解決方案,他們的共同點是都基於大模型進行了重構。

我們在2023雲智大會召開期間採訪了沈抖,此時正值文心一言剛剛面向全社會用戶開放,僅在第一天就足足回答了3342萬個問題,“文心一言App”更是登上AppStore免費榜榜首。百度的大模型技術底座,在超預期的C端流量下經受住了第一次“全民考驗”。

能頂住這一次流量大考,離不開過去半年在成本端的持續努力,沈抖給出了一個直觀的數據,文心大模型的推理速度已經較發佈初期提升了 30 多倍,推理成本也實現了大幅下降,這都是百度能夠承載得了這麼大的用戶量的主要原因。現在的百度稍顯從容,沈抖還打趣地說,“流量涌入是幸福的‘煩惱’,可以來得更猛烈些”。

當然,對於大模型在B端的落地,沈抖在樂觀中也保持謹慎,他在訪談中坦言,很多客戶對大模型的能力上限、邊界、成本、交付、需求方式都還沒有統一認知,在行業早期可能依然需要用項目制的方式來幫客戶理解它——百度看起來已經做好了打這種陣地戰的準備。

潛在的困難,的確不會削弱宏大進程裡的每一份決心。在AGI這片新大陸被發現之後,全球科技海面上都是一副千帆競渡、百舸爭流的景象。因此“千帆”這個名字恰如其分——帶領同行者共同抵達彼岸,是每一輪技術革命裡的先行者,都必須要承擔的歷史使命。

站在新的科技樹面前,百度也有自己的星辰大海。他們一手握住大模型的技術端,一手是多年to C、to B產品端的開發經驗,在這輪應用端開發上一直強調着“AI原生思維”。打造AI原生產品,強調重構而不是接入,比“AI普惠”本身更多了一些技術視角下獨有的理想主義。

而提到百度的大模型戰略,則是to C、to B兩條腿走路。

沈抖認爲,對話框式應用一定不是大模型的最終產品形態。面向C端,百度已在積極研究可落地的產品形態和商業模式。基於大模型重構C端產品,百度網盤、百度文庫重構後用戶使用粘性、會員付費率都有很大提高,文心一言APP、百度搜索,也佈局了大模型應用新入口。面向B端,則是通過打造大模型平臺,服務好To B市場,“應用上,無論誰的成功都是大模型的成功”。

倒回到二十多年前,沈抖在清華讀研究生的方向就是人工智能,與當前的方向“高度一致”。在百度多年,沈抖一直參與和負責核心業務,2022年5月擔任百度智能雲事業羣總裁後,很快就迎來了一次新的浪潮,在百度這艘潮流最前沿的航船上,沈抖在採訪中直言自己“很興奮,也很幸運”。

作爲智能雲業務的負責人,沈抖的視角往往會更深入一步。從應用層向下深入大模型,一定繞不開更底層關於資源配置的思考,目前算力端已經在從CPU雲向GPU雲遷移。而不論從何種角度出發,成本優化、算力部署、模式遷移,都會是來自技術與商業的雙重挑戰。

在千帆競發的大航海時代,沈抖還有哪些思考?百度智能雲還有哪些佈局和規劃?我們把與沈抖的對話全文整理如下。

大語言模型帶來產品端的想象,纔剛剛開始

硅基研習社:探討技術奇點來臨總是一個令人興奮的話題,大模型狂飆30、100、200天的記錄,見證了情緒曲線的衝高與回落。當我們看到大衆的熱情與好奇逐漸迴歸冷靜,文心一言的開放數據又讓我們眼前一亮。

這一天對國內大模型廠商或許有不一樣的意義,大模型能力繼續向前進化,從技術到產品,圍繞產品端的競爭號角已然吹響。OpenAI讓我們看到了很多可能性,國內大模型在產品形態演進和商業模式摸索上,也一定會帶來更多類似移動互聯網時代下的驚喜。而這變革的前夜,纔剛剛浮露晨曦。

Q:近日外界對大模型的討論有所降溫,關注重心也從好奇轉向了務實落地。百度作爲國內第一家對外全面開放大模型C端應用的公司,您怎麼看待文心一言開放當日的數據情況?是意料之中還是意料之外?

沈抖:當天實際回答量達到了3342萬,其實比我們預期要高。數據是我從系統裡直接截取的,發到羣裡後大家原封不動地呈現給了外界,絕對真實。

而且用戶規模大、溝通輪數多也是這次的特點。整個過程中大家不是隻問一兩句話就走了,而是經過了多輪的對話,從這個角度看用戶的熱情還在。

Q:面對用戶大量涌入參與對話,百度在算力端做了什麼準備?成本和後臺的運維能力怎麼樣?

沈抖:大模型本身就是資源密集型的技術範式。當天規模雖然大,但得益於我們在推理端做了大幅優化,推理速度相比3月文心一言開啓內測提升了30多倍,成本大幅降低。但從訓練到推理,技術進步還沒有到天花板,成本會繼續降低。

其實擁有更多的用戶都是“幸福的煩惱”,算力資源是需要長期投入的,我們也有不錯的算力儲備。

Q:藉助這次文心一言開放,百度對C端的廣泛觸達才真正開始。回到關於產品本身的思考,目前C端接觸到大模型相關產品多以對話的形態出現,而產品端作爲一切技術的匯集點,您認爲大模型面向C端的價值會以什麼樣的產品形態產生?

沈抖:產品端Robin(注:百度創始人、董事長兼 CEO 李彥宏)一直有個要求,一定要用AI原生思維來重構所有產品,打造AI原生產品。不是接入,而是要把它變成AI原生,至於最後的交互形態是什麼,還會不斷迭代。

而現在定性大模型的產品形態還尚早,對比移動互聯網時期,大語言模型技術更強大,應用的邊界範圍更寬泛,產品形態還遠未到收斂的階段。

在移動生態剛出現時,可以用SoLoMo(Social、Local、Mobile,利用社交媒體、地理定位服務和移動終端設備來提供更好的用戶體驗)做清晰地定義,但對於大模型,目前還無法用幾個關鍵詞去定義大語言模型產品。

Q:ChatGPT的產品形態和訂閱制的收費模式,對於國內的大模型產品設計和商業模式推進是否有借鑑意義?

沈抖:OpenAI是技術驅動的公司,用戶體驗肯定不是它的強項。目前它的產品形態也只是早期狀態,接下來產品迭代速度會非常快。

面向C端商業化的機會,國內會有自己的變現方式,常見的是廣告、電商、遊戲三大路徑,還會演變出新的路徑。

打個比方,如果你願意一個月花兩千塊錢僱一個助理,那當 AI 能做助理 1/10 的事情,比如幫你制定旅遊行程、預定機票和酒店、甚至調動打車和外賣軟件等,你會不會願意花兩百塊?

當產品真正能創造價值後,用戶就願意爲它買單,但不一定是會員付費的形式,也可能是交易佣金或其它方式。今天我們看得見的產品形態主要是對話,但將來會有更多的產品形態,一款面向C端的產品,就是產品形態決定了變現的方式。

Q:支持產品發展的底層技術很關鍵,外界對於百度底座大模型的發展也非常關心,在技術端您目前關注的重點是什麼?

沈抖:首要問題,是生成式AI能力向上還能摸多高,以及我們怎麼把它做得更好。雖然文心一言現在的評測結果還不錯,但它還遠沒有到達優秀人類語言理解的上限。如何快速提升這方面能力,肯定是我們第一位思考的問題。

其次是模型到底怎麼能夠真正用起來、在哪些場景下能夠更高效地用起來。還有硬件端,整個模型訓練的優化是軟硬一體的優化,其中涉及到的技術都很關鍵,萬卡集羣的組織、效率、保障,真正底層的工作是大家看不到的,但又極其重要。

千帆大模型平臺,讓用戶把模型真正用起來

硅基研習社:“AI普惠”的唯一目標,是讓大模型更好、更便捷地爲大衆所用,如同使用水與電,成爲一種理所當然的習慣。而現在擺在所有互聯網大廠與AI企業的第一道門檻,是怎麼讓用戶先用上大模型。

C端、B端、大型客戶、中小客戶,行業客戶的專有需求、業務提煉的通用需求,從客戶端到場景端只要你想排列組合,需求的複雜層次完全超乎想象。但這也正是重注大模型企業們所必須面對的問題,如何利用自有大模型與開源大模型去更好服務客戶,值得期待各家的排兵佈陣策略。

Q:作爲潛在用戶,以我們內容公司爲例,我們也想用大模型來幫助實現文章創作和內容生成,千帆大模型平臺會如何幫助這些沒有配置程序員的公司來落地大模型應用和降低成本?

沈抖:這是非常好的問題,事實上,這就是我們做千帆平臺的原因。

這次大模型在 B 端落地的特點是大公司先行,很多客戶都是金融機構、能源機構、教育機構等。它們有一個明顯的特點是需要私有化部署,但這樣門檻很高,還要自己培養一堆技術人員迭代模型,可能會減慢大模型生效的時間。

反倒像中小公司,大概率不會排斥使用公有云。例如您提到的內容創作需求,如果需要定製,可以在千帆上直接調用API,可以做封裝,也可以通過微調形成您的寫作風格,幾乎零代碼打造自己的模型。我們做千帆的目的,就是要降低大模型的部署門檻、推動大模型的廣泛應用。

Q:千帆大模型平臺引入了四十多個第三方大模型,包括LLaMA、Falcon等,百度引入的目的是什麼?

沈抖:在目前或相當長一段時間內,不管是出於模型的場景適配性、還是客戶的心理需求,企業都希望能嘗試不同的模型。從這個角度來講,我們也需要提供第三方模型。

目前模型雖然很多,但我不認爲每個模型都值得大家去試用,不然在早期會是很大的資源浪費。百度在開源模型篩選時會有自己的原則,要求選擇的模型相對比較優秀、易用。

Q:這些三方開源大模型,它們與平臺的適配、優化都是百度團隊調好的嗎?

沈抖:對,模型跟底層的GPU計算框架的適配都是我們的團隊去做優化。針對一些海外模型,千帆也會做中文能力增強,然後提供升級版本供大家使用。

Q:千帆大模型平臺作爲開放平臺,目前已支持如LLaMA等第三方大模型的接入,未來會進一步開放嗎?是會類似Hugging face那樣接入更多的數據集和開源模型,還是會繼續經過選擇和調優後上架呢?

沈抖:我們希望千帆大模型平臺能夠幫助大家降低大模型的使用門檻。無論是直接用或微調,在現階段,我們會提供第三方的模型。千帆目前主要能力是兩條路徑:

第一條路徑是基於“文心一言”進行發展。隨着“文心一言”的快速發展,支持大家用好“文心一言”是千帆最主要的職責之一。在大模型發展早期,模型有場景適配性,在不同場景下需要不同的模型來解決問題。因此,用戶也需要第三方的模型。現在國內模型數量很多很多,所以百度在支持模型的時候會有篩選原則。

第二條路徑是爲客戶和開發者提供一站式的模型服務。即通過千帆平臺選擇模型、微調模型、部署模型,然後爲客戶提供服務,一站式地把模型從挑選到應用的全生命週期完成,這也是千帆要比Hugging face做得更深的地方。

Hugging face確實廣度足夠,但它本身不是雲平臺,需要依賴AWS或者是其他雲平臺去提供算力,計算資源不是它的優勢。而且它不是端到端的,模型建設完以後要部署下去,此時如果規模不大的話用處就不大,規模大了推理成本又很關鍵。

這也是爲什麼,文心一言自發布以來一直在持續地進化迭代,推理速度達到了原來的30多倍,推理成本也實現了大幅下降。

千帆大模型平臺不只是解決選模型的問題,而是要解決把模型真正用起來的問題,包括數據、訓練、調優、Prompt工程,以及應用搭建等一系列問題,還要充分考慮到成本和效率。

Hugging face提供各種各樣的模型,卻不是一個純粹大模型的平臺,而千帆是一個聚焦大模型的平臺。在未來一段時間裡多模型並存的情況下,用戶需要更好的社區來討論、選擇模型,而我們基於希望大家真正用好大模型爲出發點,打造了千帆大模型平臺。

從IaaS到MaaS,從CPU雲到GPU雲,大模型將重塑雲業務

硅基研習社:爲什麼“AI普惠”在今天具備了實現的可能性?大模型作爲一種新的底層操作系統,讓雲業務從零散、瑣碎的項目狀態走向可通用、可規模化,這不僅是給雲業務帶來了新生,更是讓大家看到了走向AGI的曙光,讓AI變得更AI。

技術端的突破帶來了應用層更多的可能性,毫無疑問,當程序語言、代碼能力可以進一步被自然語言所取代時,技術封裝進通用的一層越厚,越能支撐人創意的發揮。當更多的個體參與其中,多樣化的物種必將塑造更繁榮的AI生態。

Q:正如之前您提到,應用層產品形態會如何演進有很多可能性,但目前看來,不論產品形態如何都需要調用大模型的API,請問未來的應用是不是都要基於大模型來驅動?

沈抖:大模型會成爲一個新時代的操作系統,成爲應用的基礎底座。

以往人和人打交道、人和機器打交道時,使用語言作爲溝通方式或指令,以此將系統和人串聯起來。以前電腦不懂自然語言,所以需要大家生成一套形式語言,再變成程序語言,通過程序員編寫程序代碼以實現交互。

如今大語言模型“破解”了自然語言,它就既能理解自然語言,同時還能轉化成程序語言。應用開發的範式就將發生根本變化,不再是代碼能力驅動,而是人的創意驅動。人對應用需求的理解會變得非常關鍵。

另外,大模型也有把系統串聯起來的能力。像現在插件的出現,也就是獨立完成某種能力、等待被調用的組件,大模型可以把插件組合起來完成一個特定的任務。這都會進一步改變開發範式。

Q:這一驅動模式的轉變,雲計算本身是否會產生巨大的變化?

沈抖:技術發展的脈絡是越來越高級。換句話講,離底層越來越遠,越來越不需要關注細節,封裝越來越好,有大量的人在背後把這些活給幹了。這本身也是雲貢獻的價值。

早期的CPU雲貢獻的價值,就是客戶不用自己買機器一個一個卡綁,它封裝得越來越好、可以在上邊直接用。隨着大模型時代到來,「AI 加速芯片」GPU 慢慢成爲算力中心,算力增長速度遠遠超過 CPU。這會加速我們從 CPU 雲向 GPU 雲的切換。

在 GPU 雲的時代,最終我們會把雲的能力進一步封裝,不讓底層暴露出來,形成更高級的交互形態,直接對接大模型的 API。今天的雲還是給工程師開發的,交互形態還不夠徹底,但未來底層的工程師會減少,更多人會往上層走。這是一個大幅的變化。

Q:我們看到雲裡面的廠商,包括移動、電信,每一家關於AGI的技術儲備差距還是比較大的,雲的行業格局會不會因爲AGI發生變化?聚焦到雲業務本身,AGI會爲百度智能雲發展帶來什麼驚喜?

沈抖:如果沒有大模型的話,百度的雲會打得非常吃力。我們一直強調「深入行業、聚焦場景、雲智一體、AI普惠」,百度智能雲想要做的就是把AI放到整個to B的服務中,讓它成爲一個增長點。

過去傳統的人工智能非常碎片化,所謂判別式AI,是針對一個問題生成一個能力,通用性很差。由於無法規模化,所以都是項目制,毛利非常低。這次生成式AI出來以後,我們看到它的通用性非常好,一下子可以解決很多問題。

而且在應用層往下基本都是統一的,哪怕需要微調、需要插件,都是標準化的動作。這跟之前非常碎片化的AI應用完全不一樣。這本身就是雲業務的巨大變化,所謂的IaaS變成了MaaS。

Q:在這個時代,大模型所對應如此大的泛化能力要落到商業中,恐怕百度自己也是幹不過來的,百度怎麼看待自己在雲整個生態中的位置,以及如何理解生態關聯的利益機制?

沈抖:以百度一家之力是絕對幹不過來的。不是恐怕幹不過來,是絕對幹不過來。

首先,插件一定會是非常繁榮的生態,它和大模型之間是相輔相成的。插件要從大模型中獲取流量,大模型又需要插件能力的支持,就像今天假設手機上沒有微信、抖音 ,用戶可能都不用它了。

其次,在面向終端客戶的應用上,無論是私有云部署、還是通過千帆這樣的平臺級方案,最終一定需要生態夥伴完成最後一公里交付的問題,比如金蝶、用友、軟通動力等。它們有特別熟悉的客戶和業務流程,最終需求都會被它集成。

總結一下,一是開發生態的能力聚合、二是幫大模型做交付的合作伙伴、三是用大模型強化自身服務的客戶,這都是生態。

Q:如果大模型能打通所有插件解決問題,這是不是變相實現了互聯互通?

沈抖:其實依然沒有。實際上,這些 APP 現在也都存在於同一個手機上、同一個應用程序裡,它照樣沒有實現互聯互通。將來在大模型基座上,美團接進來、滴滴接進來,但它們還是沒有互通的。

互聯互通應該指的是數據打通,你的數據我可以訪問、我的數據你可以訪問。但在大模型底座下,我們只是願意跟這個中樞對話,但我們插件彼此之間並沒有對話。

Q:這種不互聯互通的情況,會不會導致開發者不能流暢地實現跨資源調度?這會是中國大模型開發生態的缺陷嗎?

沈抖:我覺得主要的原因是沒放開、流量規模沒起來。比如文心一言一下子有了 3000 多萬的流量,開發者一算可能 1% 是自己的,那也有 30 萬的訪問了,他就會決定來幹。

Q:智能雲業務這段時間一定也接觸了很多B端客戶,目前在客戶端佈局上有遇到什麼問題嗎?

沈抖:大模型在早期有很大的不確定性,今天,很多客戶對大模型的能力上限、邊界、成本、交付、需求方式都還沒有統一認知。短時間內,我們還不能保證客戶都到公有云上來,肯定還是先通過項目制的方式去做。

但即使是這樣的項目制,也跟以前的項目制不一樣。比如我給你私有化部署了模型,它更像是 Windows 或者是 office,先是 95 版,接着是 97 版,又來了 2000 版,你得不斷的升級。看似我給你一個光盤裝到家裡了,實際上你得不斷地訂閱。這跟原來搭建的也不一樣。

Q:未來對百度智能雲的發展增速有什麼樣的預期?

沈抖:百度智能雲現在就接近兩百億的盤子,還相對比較小。在大模型的加持下,我們的客戶需求變得很旺盛,現在都忙不過來。不過要想真正讓用戶用起來、做好交付,還需要一個過程。

國內大語言模型,未來一年內會加速收斂

硅基研習社:在AGI的“宇宙大爆炸”節點,在大模型的產品形態演變前夜,在國內大模型競爭的焦灼戰時點,一個由遠及近的視角也讓我們的思考迴歸現實。

國內大模型入局者衆多,光大模型的名字可能就已過百。但一切美好展望都必須有落地檢驗的一刻,行業還是通用、開源還是閉源,交卷的鈴聲已經越來越近了。

Q:現在大模型層出不窮,您怎麼看大模型接下來的競爭格局?

沈抖:今天市面上有非常多模型,但我認爲它們很多都會迅速消失。

現在很多模型之所以還存在,是因爲很多人還不知道它的好壞。反正誰也試不了,誰也用不了,一測排名還挺靠前。但隨着模型的放開,優劣更容易評判了。今天這些做大模型的,你給他三千萬個問題輸進去試試,估計一大半都得幹趴下。

這會導致流量的逐步集中,頭部模型更容易形成規模效應,從而進一步分攤模型研發的成本,差距會進一步拉大。

Q:關聯到對開源的討論,開源一定程度上攤薄了企業部署大模型的成本,您對開源技術未來的發展怎麼看?

沈抖:如果不能很好地承擔起大模型成本,那麼(開源)是無源之水、無根之木,終歸有一天會出問題。

大模型跟傳統的開源軟件不同,傳統的開源軟件大部分情況下,一個人參與開源,其投入是他自己的時間成本,開發者寫代碼升級功能,就可以很快check in,提高開源軟件能力。但在大模型來看,LLaMA開源發佈後,國內無論多少人用LLaMA,他們開發的內容始終無法check in回去,數據、算力、能力放不回去。

因此,開源難度很大。如今很多大模型的開源玩法與傳統開源有一點相似的地方,用開源來吸引用戶的注意力,用戶可以在上面試用。但綜合來看,大模型生態的繁榮應該以應用和原生AI應用作爲支撐。

Q:關於開源有沒有可能出現類似於Red Hat(開源解決方案供應商,後被IBM收購)與IBM那種關係?互聯網企業巨頭有算力、研發的能力,但還有資金實力雄厚的企業其實也不甘心,他們就像傳統的IBM,可能會跟LLaMA結合起來去做,這樣就有資金在背後支持,同時行業也有數據和商業模式。

沈抖:不排除這種可能性,開源肯定是會長期存在。大模型熱度高,國內從大型企業、中小企業、初創企業都願意爲之進行投入。

大模型很貴,但對於大企業來講並不是無法克服的問題。一些企業自身的應用場景很多,在這階段自研大模型的私有化部署需求存在,不論效果的好壞,至少不用依賴外部。現在的大模型可以做到60分來解決一大部分問題,難點在於是否能做到90分、95分。

隨着大模型下一步的發展,對大語言模型感興趣的人會跨很多行業,從人工智能、計算機到心理學等等,這是非常受關注的領域。我認爲開源不會成爲非常完整閉環的商業模式,大概率不會是主流,但不妨礙開源會長期存在。

全文完,感謝您的閱讀。

編輯:戴老闆

視覺設計:疏睿

責任編輯:陳暢