算力能否像水和空氣一樣賦能百業?

*本文爲《半月談內部版》2024年第10期內容

浙江杭州宣佈每年“算力券”總額提升至2.5億元;內蒙古烏蘭察布正打造“全國算力保障基地”綠色低碳先行示範區;江蘇選擇爲數據立法,擬明確支持經營主體開放數據;湖南發佈工作要點,擬釋放數據要素價值……近段時間,各地相繼推出政策措施,搶抓風口,聚焦“算力”和“數據”。伴隨人工智能進入競速跑階段,上述兩大關鍵詞將成爲推動產業發展的關鍵基礎設施和基本要素。

構建新質算力基礎設施

作爲人工智能發展的重要“底座”,2024年世界人工智能大會匯聚了諸多頭部企業,並帶來最新智算成果。接受半月談記者採訪的業內人士認爲,算力市場將在很長一段時間內呈現供不應求態勢,構建新質算力基礎設施將成爲未來必爭之地,能—算—數—網(即能源、算力、數據、網絡)一體化發展時代或將來臨。

商湯智能產業研究院院長田豐認爲,隨着各種垂類、端類大模型成比例地增加,市場對算力的需求將處於井噴狀態。算力在短期或者中期都將是新質生產力。一位行業資深人士對半月談記者說:“在國內通用大模型還未出現絕對領先者的當下,產業各方對垂直模型的應用市場更加關注。從新近通過模型備案的數量看,垂直模型的比例越來越高。如何率先進入應用市場,搶佔先機,後續再迭代升級,是當前的關注重點。對於算力的需求將會更貼近用戶,使用邊緣算力池實現應用推理將成爲常態。”

7月6日,世界人工智能大會參觀者在訊飛星火大模型演示屏前體驗交流。新華社記者方喆攝

更加普惠和綠色環保的算力將快速增長,像水和空氣一樣賦能千行百業。

不少公司近期推出的智算產品都與此息息相關。商湯科技帶來國內訓練大模型的先進基礎設施,SenseCore商湯大裝置總算力規模高達12000petaFLOPS(算力單位:每秒千萬億次浮點運算),可支撐超過20個千億超大模型同時訓練。中國電信推出雲驍智算平臺,實現了A100 93%的算效。無問芯穹發佈了大規模模型的異構分佈式混合訓練系統,千卡異構混合訓練集羣算力利用率最高達到了97.6%。

田豐表示,市場上將出現越來越多的節能芯片和更高密度芯片,算力將更加綠色環保。人工智能行業從單純的模型計算步入實打實的應用階段,對於新質算力基礎設施的需求也在不斷增加。

高質量數據打下底座

未來,AI模型趨於複雜,並開始處理文本、音頻、圖像和視頻等各種類型數據,對快速數據處理的需求變得更加迫切。多家企業對此已提出相應方案。如星環科技的企業級多模態知識存儲與服務,包括大數據與雲平臺、星環分佈式交易型數據庫(Transwarp KunDB)、分佈式分析型數據庫(Transwarp ArgoDB)等,助力企業打造新一代一站式多模型數字底座。

中國電信則爲此打造了數鏈智網(DCAN)。半月談記者獲悉,數鏈智網是指中國電信依託雲、網、數、智、安資源稟賦和基礎優勢,統一構建的數據要素能力體系,涵蓋“星海”大數據產品矩陣、“靈澤”數據要素鏈服務、“銀河”數據跨境流通解決方案等三大板塊。

值得注意的是,當下,大模型在垂直行業應用時,許多企業通過私有化部署來應對數據安全挑戰,這不僅增加企業的運維和服務成本,還影響對外服務的效率和質量,且不利於多方數據跨領域、跨行業高效融合。

6月26日,上海,2024MWC上海世界移動通信大會。

在螞蟻集團副總裁兼首席技術安全官、螞蟻密算董事長韋韜看來,數據供給決定了大模型應用能力的上限,而隱私計算技術決定了數據跨域供給的上限。當大模型從通用走向專業應用,從技術想象力走向產業的生產力,必須解決高質量數據集稀缺與專業數據阻滯的挑戰,否則,大模型作爲“智力引擎”,只會陷入空轉。今後,高價值數據要深度融合,須以密態方式進行安全流轉。“我們希望聯合產業合作伙伴,把螞蟻集團多年來在密態計算技術上的探索和創新,以開源和產品化的形式對外開放,爲實體經濟和中小微企業創造新的價值,讓數據價值的流動像自來水一樣即開即用。”韋韜說。

星環科技創始人、CEO孫元浩表示,爲了解決AI大模型中文語料治理等數據問題、大模型安全可控的問題,以及垂類全流程安全可控問題等,星環科技推出大模型運營平臺(Sophon LLMOps),提供一站式的大模型基礎平臺。同時加快模型和語料研發,推出大模型“無涯”,形成了大語言模型在行業的落地與合規安全的方法和實踐。此外,星環科技還積極推進數據要素相關研發,數據要素流通平臺Navier和數據安全管理平臺Defensor等都已投入應用。

警惕數據瓶頸與算力浪費

目前,我國算力佈局仍較爲分散。一位行業資深專家表示,除了模型訓練之外,異構芯片單集羣以及跨集羣的聯合訓練是當前算力領域重要的堵點問題,也是熱點問題。如果把閒散算力綜合利用,解決中國算力佈局分散、芯片企業多點分佈的現狀,需要產業各方大力推進。核心問題是異構芯片的聯合訓練效率如何逼近單類芯片的訓練效率。

這背後顯示出全國一體化算力市場建設的緊迫性。半月談記者發現,一些公司已通過自身平臺,探索局部一體化。無問芯穹宣佈,其Infini-AI雲平臺已集成大模型異構千卡混訓能力,是全球首個可進行單任務千卡規模異構芯片混合訓練的平臺,具備萬卡擴展性,支持包括AMD、華爲昇騰、天數智芯、沐曦、摩爾線程、NVIDIA六種異構芯片在內的大模型混合訓練。

7月5日,上海浦東,2024世界人工智能大會,星環科技展出其全系列的AI+Infra平臺及工具,無涯大模型。

大模型向下深入紮根行業,必須破解高質量數據供給的挑戰。專業數據往往分散在不同的機構、企業中,並且由於價值大、保密要求高而難以流動。此外,在企業、大模型廠商和用戶之間存在信任壁壘,企業擔心數據對外泄露,大模型廠商擔心模型資產安全,用戶擔心個人數據和隱私風險。

中金公司的報告認爲,數據很可能是人工智能發展的瓶頸。一方面,大模型越來越依賴數據。大模型所使用的數據量已經從GB級別增長到TB(1TB=1024GB)級別。截至2024年3月,大模型使用的詞元數量已達到40萬億級別。另一方面,對於大模型訓練,不僅需要一般的數據,高質量數據更不可或缺。高質量數據一般具有完整性、一致性、有效性、準確性、及時性,是更加結構化、有邏輯性的數據,如書籍、報告等。中金公司認爲,高質量數據可以更好地模擬客觀世界,使模型預測的分佈更加接近真實世界的數據分佈,從而提升模型的效果。而使用低質量的數據會產生“垃圾進,垃圾出”的效果,對於模型能力沒有提升,反而可能有害。

除此以外,金融方面的支持仍有較大空間。田豐表示,相比美國新一波的AI雲計算公司,國內金融市場對本土AI算力企業的支持還非常薄弱,但這也是機會。一旦有了大金融加持,中國的算力基礎設施將日新月異,“算賦百業”不再只是設想。

半月談記者:王宙潔 宋薇萍

原標題:《算力能否像水和空氣一樣賦能百業?

新質算力,必爭之地》