大模型“煉丹”容易“修仙”難:獵戶星空跨越AI應用鴻溝|甲子光年

傅盛帶領公司,正在攪動AI數據服務行業的一池春水。

作者|王藝

大模型狂飆700天,真正能實現落地應用的卻寥寥無幾。

國聯證券曾經做過統計,在A股全部上市公司的2023年財報中,有883家公司提到了生成式AI業務,但是超過一半的一級行業滲透率不超過10%;生成式AI在A股上市公司的整體滲透率也不足20%。

很多企業在落地大模型的過程中,遇到的問題都是共性的,包括明確有商業價值的場景有限、缺乏人才導致模型落地工程化能力不足等。

但上述問題還只是小問題。如果站在整個To B市場企業數字化的角度看,我們會發現,阻礙中國大模型落地應用的,仍然是模型能力的不足:數學推理能力差、資源利用效率不足、行業知識缺失導致模型性能不佳……等種種原因阻礙着大模型商業化落地的發展,而造成這些現象的最核心原因,是缺乏高質量數據集。

衆所周知,數據、算力和算法,是支撐大模型發展的三大基石。在如今十萬卡集羣緊鑼密鼓建設、英偉達GPU“一年一迭代”的情況下,算力的供應儼然已不成問題;GPT-4、Llama、Claude等主流模型演進的過程中,Transformer架構的地位也依然堅挺;而數據,則成爲了各個大模型廠商之間競爭的關鍵——數據作爲大模型的“燃料”,其質量、多樣性與規模直接決定了大模型性能的天花板,尤其是訓練流程的後兩個階段(SFT與RLHF,詳見《》)。

這也讓AI數據服務成爲了一個火熱的賽道。隨着大模型的開發的火熱,衆多企業紛紛涌入這個賽道。這其中不僅有科技巨頭和專業數據服務商,更是不乏很多初創公司,其中就包括估值138億美元、在全球AI初創公司中的估值排名僅次於OpenAI的Scale AI。

這其中,科技巨頭擁有客戶資源,專業型數據服務商擁有低成本的人力服務優勢,創業公司則“重技術,輕人力”。然而,在這個領域,同時具備客戶資源、技術優勢和對用戶需求精準洞察的公司卻不多,獵戶星空是這之中少有的一個。

11月27日,獵戶星空聯合聚雲科技舉辦了題爲《Data Ready for Al,MoE大模型發佈暨商業閉環分享》媒體見面會。獵戶星空正式發佈了自主研發的Orion-MoE8×7B大模型,並攜手聚雲科技推出了基於該大模型的數據服務產品——AI數據寶AirDS(AI-Ready Data Service)。

一家以AI技術驅動的公司,正在攪動AI數據服務行業的一池春水。

1.既要效果好,又要速度快

在大模型發展到高度成熟與精細化的今天,卷參數、卷算力、卷價格的時代已經遠去,大模型企業之間的競爭已經演變成了對客戶需求瞭解程度的競爭。誰能將用戶的業務場景和私有數據融合得更好,誰就能在激烈的大模型競爭中勝出。

MoE模型的優點早在2023年12月Mistral 8×7B發佈的時候就已經被市場驗證,隨後各個公司的MoE架構模型也發了一茬又一茬。那爲什麼到了2024年底,獵戶星空還要發佈MoE模型?

這與獵戶星空的戰略有關。作爲一家成立於2016年的公司,獵戶星空在2022年之前相繼推出了智能語音交互產品豹小秘、智能室內導航產品招財豹、機械臂智咖大師等服務機器人,又在2024年1月發佈了自研的“爲企業應用而生”的百億參數大語言基座模型Orion-14B,精準踩中了AI的每一波技術浪潮。

獵戶星空發展歷程,圖源:獵戶星空

可以說,獵戶星空是一家完整經歷了AI 1.0和AI 2.0兩個時代的公司。

長年AI行業的經歷和經年累月服務To B客戶的經驗,讓獵戶星空在打磨自己技術能力的同時,也對用戶需求有了更精準的洞察。

在服務客戶的過程中,獵戶星空發現,很多行業客戶不具備訓練自己模型的能力;而具備模型訓練能力的客戶,在模型的使用上又存在問題,比如在高頻交付場景下模型效率低下、反應遲鈍等,或者是頻繁調用大模型導致成本過高的問題。

除了通過加大算力、訓練數據量、參數量更大、能力更強的模型,解決這一問題的最好辦法,是將模型稀疏化,將任務分解成不同的子任務並由不同的“專家”網絡來處理這些子任務的架構,也就是所謂的MoE(Mixture of Experts,混合專家)模型。

相較於傳統的dense(稠密)模型,MoE模型通過採用專家網絡的稀疏激活機制,顯著減少了每次前向傳播所需的計算量,可以有效加快訓練速度、降低運行延遲;由於每次只激活一小部分專家進行工作,MoE模型實際上使用的參數量遠少於同等規模的稠密模型,可以用更少的有效參數達到相似甚至更好的性能;此外,在模型的可擴展性、靈活性、適應性、能源效率等方面,MoE模型也有更明顯的優勢。

Transformer模型中MoE層的圖示 圖源《A Survey on Mixture of Experts》,Weilin Cai等

獵戶星空認爲,模型並非越大越好,匹配企業需求的更好。由此,在本次大會上,獵戶星空發佈了Orion-MoE 8x7B模型。這款大模型是獵戶星空自主研發的開源混合架構專家大模型,擁有8×70億參數,採用了生成式混合專家的設計,涵蓋了中文、英語、日語、韓語等多種語言,展現出卓越的性能。

就“爲什麼2024年底,獵戶星空還要發佈MoE模型?"問題,獵戶星空首席科學家韓堃給出了具體解答。他表示,獵戶星空做MoE模型,主要是客戶需求驅動。

“其實我們在今年年初發布Orion-14B模型之後,很快我們就和一些企業客戶打造了一系列AI產品,包括AI超級帶教、DecisionAI等。在這一過程中,我們對客戶需求有了更進一步的瞭解,也知道了客戶最想要什麼樣的模型去構建它的AI應用,其實就是一句話:既要效果好,又要速度快。”韓堃說。

韓堃表示,MoE模型的架構其實在2022年之前就有了,2022年ChatGPT掀起大模型的浪潮之後,雖然市面上的MoE模型越來越多,但是絕大多數都是海外廠商,如Google、Meta、Mistral等推出的,這些廠商的模型能力還不錯,但是在語言能力、推理速度等方面表現稍差。“所以一方面基於客戶的需求,另一方面考慮到技術的迭代,我們在今年上半年就開始從數據方面做準備,經過幾個月的訓練迭代,正式推出了我們的MoE模型。”韓堃說。

在主流的公開基準評測中,Orion-MoE8×7B與同規模參數級別的基座大模型對比,各項評測指標均表現優異,特別是在多語言能力方面展現出強大實力。此外,在推理速度方面也表現搶眼,顯著高於同等參數規模的稠密模型。

Orion-MoE 8×7B多語種能力突出,圖源:獵戶星空

Orion-MoE 8×7B推理速度顯著優於Qwen2.5-32B,圖源:獵戶星空

2.大模型“煉丹”容易“修仙”難

正如前文提到的,儘管模型能力在不斷增強,但是真正決定大模型廠商孰勝孰負的,是對客戶需求的理解程度。

在國內越來越內卷的情況下,越來越多企業選擇出海尋求商業增長機會。比如支付寶通過與當地金融機構合作、設立子公司、提供數字支付解決方案等方式,積極拓展國際市場;比亞迪在歐洲、北美、東南亞等地設有生產基地和銷售網絡,成爲全球領先的新能源汽車製造商之一。

大模型時代到來之後,很多出海企業希望通過大模型賦能自己的業務,紛紛給自己的海外業務平臺上了大模型。但是在將大模型落地出海業務的過程中,出海企業遇到了各種各樣的問題,比如有通信行業企業在將大模型落地海外業務的時候遇到了語言本地化、翻譯不準確的問題,也有互聯網娛樂企業在海外業務中遇到了模型“聽不懂人話”、無法實現準確的指令遵循等問題。

之所以造成這些問題,和出海企業不瞭解用戶需求、以及模型能力不足、數據質量不夠有很大關係。

在獵豹移動董事長兼CEO、獵戶星空董事長傅盛看來,大模型之間的競爭,本質上就是數據的競爭。“算力總體上就是買英偉達的,主要是看有沒有錢;算法大家做地其實都差不多,只要第一版算法不太差,最後就看機遇;但只有數據,是一層沒人願意捅破的窗戶紙。”傅盛說。

傅盛表示,在算力和算法很難做出差異化的當下,今天大模型行業真正的壁壘來自數據。如何把高質量數據找出來、和應用高度結合,是決定大模型公司成敗的關鍵。

“我跟朱嘯虎私下聊,他說現在整個互聯網上所有能夠應用於訓練的數據是20個T,20T訓進去之後就沒有數據了,參數量上來也不行。很多廠商想了一個辦法是用GPT-4的模型把數據做自動化標註,然後再餵給模型,後來發現大模型咀嚼過的數據剛開始用挺好的,用得多了大模型會變傻。”傅盛說,“今天你能看到一些模型質量不錯,核心都在數據上,如果大家讀Llama2的論文,會發現他們花很大的篇幅講如何提高數據的質量。”

傅盛所言非虛。儘管當下中國已經有不少企業基於大模型開發應用,但是在應用的“能用”與“好用”之間,橫亙着一條巨大的鴻溝,很多企業在基於大模型搭建AI應用的時候,發現幻覺問題很嚴重,正確率上不去,尤其是將應用與具體行業場景適配的時候,更加難以推動。獵戶星空認爲,根本原因出在大模型和應用之間的“鏈接”,也就是AI數據服務。

圖源:獵戶星空

“今天企業裡面的數據是多模態的,比如我們有大量的PDF文件,這裡面可能有大量的數據是沉默的;有大量的視頻、音頻,這裡面所有的講話也是沉默的。這些都是數據,實際上都沒有爲AI的使用做好準備。”獵豹移動副總裁童寧說。

爲了解決這些問題,獵戶星空基於研發MoE大模型對數據訓練的認知理解和能力積累,攜手獵豹移動旗下聚雲科技共同推出大模型數據服務產品——AI數據寶AirDS(AI-Ready Data Service),爲全球化企業提供更爲高效、精準的AI數據服務支持,助力其在AI應用落地過程中實現“最後一公里”的突破。

圖源:獵戶星空

具體而言,AI數據寶AirDS提供全方位的大模型數據服務,涵蓋數據收集、清洗、標註、提示詞工程以及評估等環節。針對要訓練自己模型的客戶,AI數據寶會提供一套專屬的服務,將用戶的數據放到自己的系統裡做用戶和微調;針對要做應用的客戶,AI數據寶會幫助用戶準備好配對的數據(原始數據和期望值),並在數據的清洗、標註、提示詞和評估等一系列工作流上進行優化,幫助用戶免去一切數據層面的後顧之憂。

例如,在移動通信終端領域,AI數據寶AirDS通過收集多場景、多語⾔數據,完成開發測試平臺,優化prompt⼯程,提升⼤模型針對用戶需求的數據返回準確率;

圖源:獵戶星空

還有,通過開發⼤模型⾃動化⼯具測試平臺以及prompt⼯程,AI數據寶AirDS實現了移動終端多語⾔用戶之間語⾳交互翻譯,準確率大幅提升;

圖源:獵戶星空

在互聯網娛樂領域,AI數據寶AirDS服務讓用戶可通過⾃然語⾔交互實現⼤模型對外部互聯⽹應⽤API的調⽤。

圖源:獵戶星空

在這些案例之外,AI數據寶還服務於了新能源汽車、互聯網金融、出海消費零售等行業的多箇中國領先出海品牌,幫助客戶顯著提升了AI應用的效果與效率。

3.整合各方優勢,構建商業閉環

爲什麼AI數據寶是獵戶星空聯合聚雲科技共創發佈的呢?

獵豹移動高級副總裁孫明焱在溝通會上表示,AI數據寶AirDS是基於獵豹移動在多個領域的既有基因和顯著優勢推出的,這些基因和優勢包括出海全球化經驗、應用開發能力、AI機器人和大模型行業實踐與技術積累。

作爲中國第一批成功出海的互聯網企業,獵豹移動憑藉工具應用開拓了全球市場。近年來,獵豹移動戰略轉型從傳統的ToC業務轉向以AI和大模型爲核心的ToB業務,並通過控股獵戶星空,進一步加強了在AI服務機器人和AI大模型領域的佈局。

在獲取客戶需求層面,獵豹移動旗下的聚雲科技功不可沒:

聚雲科技是一家行業領先的企業出海一站式雲服務解決方案提供商,是亞馬遜雲科技在中國首批獲得生成式AI能力認證的高級諮詢合作伙伴,同時在今年以滿分成績通過亞馬遜雲科技MSP認證 Renewal。

作爲全球雲管理領域的引領者,聚雲科技擁有超過十年的出海運維經驗,已在包括遊戲、電商、金融、人工智能、教育、汽車、手機等行業及領域,成功服務多家企業客戶,客戶名單中不乏500強企業。客戶中包括如WPS、塗鴉、Notta、老虎證券、歐稅通等衆多聲名卓著的中國品牌,深刻掌握着客戶在雲端的GenAI應用需求。

圖源:獵戶星空

在AI數據服務能力層面,獵豹移動控股的獵戶星空相較於市場同行也有充分的競爭優勢:

目前中國的AI數據服務市場上,有科技巨頭、創業公司和專業型基礎數據服務商三類玩家。其中,專業型基礎數據服務商大多“重人力,輕技術”,多依賴衆包或外包模式起家,能夠滿足部分低端需求,但整體欠缺算法能力;創業公司則“重技術、輕人力”,從智能化標註工具的小賽道切入,逐漸形成全棧式交付能力;相比之下,科技巨頭不算入局最早的,但卻是起點最高的,擁有充足的人才、資金和技術儲備, 能夠強勢整合平臺資源,加速技術研發。

在這其中,獵戶星空更像是科技巨頭和創業公司的結合體——不僅自己訓大模型、有大模型數據服務能力,其兄弟公司聚雲科技更是擁有大量服務行業大型客戶的經驗,爲獵戶星空更好地獲取客戶真實需求提供了幫助;同時,獵戶星空從去年開始就進行大模型和AI應用的研發,擁有相應的技術能力。與此同時,獵戶星空還是業內唯一對外開放數據能力的廠商。

獵戶星空在AI數據服務方面的優勢 圖源:獵戶星空

可以說,在AI數據服務方面,獵戶星空擁有端到端全鏈條的技術能力,比大模型公司更開放,比傳統數據公司更懂AI。

會議尾聲,獵戶星空還宣佈與香港大學計算與數據科學學院簽訂了合作協議,雙方將聯合研發用於課程教學場景的AI應用教育工具,並開展“專注具身智能相關的課程項目”,共同推動AI技術在應用領域的普及與應用。香港大學作爲國際化的高等學府,相信可以爲獵戶星空帶來新的視角和創新思路,增強其在AI領域的創新能力和競爭力,提升獵戶星空的國際影響力。

業界對大模型產業化落地的探索時間已然不短,也嘗試過MaaS平臺、智能體等各種各樣的解法,但鮮少有企業能讓大模型應用在產業場景裡真正跑起來、融入工作流、產生實際價值。鉛華洗盡,只有當人們發現大模型的本質仍然是數據工程、數據決定了大模型的真正價值時,像獵戶星空這樣既懂用戶需求、又有技術積累的公司纔會被真正看到。

(封面圖來源:AI生成)‍