存力,AI升級的新動力
搶算力,已經成爲當下科技公司、以及希望應用AI的諸多公司的頭等大事。大算力,大力出奇跡。但實際上,只搶算力,是不夠的。
雖然高端顯卡產能還是緊俏,但算力逐步普及的同時,要想發揮算力的效果,還要搶存力。
關於存算的關係,最容易想起來的就是做飯了。好的算力,就是好的大廚,廚藝高超、同時掌七八個勺也沒問題;而內存就是炒鍋,廚子再厲害,只有一個炒鍋,也只能一道道做菜。
當然,實際的存儲,要比炒鍋複雜多了。但就像人離不開炒菜,人類的發展也離不開存儲。存儲,不僅是數據倉庫,也是生產力。而存力的升級,正爲大模型進化帶來加速,也成爲企業之間競爭的重要要素。
存儲,也是生產力
存儲,一直是人類發展的重要加速器。
比如在文本領域,原始社會時,部落就學會在石壁作畫來記錄、存儲信息,使得零散瑣碎的經驗,逐漸成爲代代流傳的知識。
隨後,文字的出現,是人類文明“算法”的提升;活字印刷術、算盤等等工具出現,可以稱爲“算力”的飛躍;而從甲骨、毛皮、竹簡再到紙張,這就是“存力”的升級。紙張的出現,大幅加速了知識傳播,作爲知識的載體,相當於爲人類整體增加了智力光環,生產力大幅提升。
比如在聲音領域。黑膠唱片,提升了對聲音記錄的精準度,也通過便捷的存儲、讀取,讓音樂走向大衆。隨後也有了磁帶、CD光盤等等存儲方式。在視覺領域,從記錄在紙張上的圖畫,到膠片、光盤,存儲技術提升,不僅改善了畫面的豐富度,也帶來了全新的展現方式,比如電影的出現。
而今,所有的存儲都走向了數字化,技術進步更在加速。存量在指數級增長,一張光盤,可以存下一個圖書館的所有書籍。越大的內存、緩存,也爲CPU高效發揮提供保障。當互聯網、移動互聯網成爲趨勢時,分佈式存儲、雲存儲也應運而生,存儲不僅更加便捷,也爲企業節省成本。
在人類發展的不同時期,都有不同的存儲技術出現,成爲重要的生產力。既和當時的算力相匹配,也時常引領着算力發展,成爲算力、算法提升的基礎。
而在當下,算力的大力出奇跡,讓AI呈現出了涌現,數學家、程序員、科學家、設計師、研發人員等等都開始用AI來高效輔助工作。毫無意外,AI依然會逐漸普及,深入社會各個層面,解鎖新的生產力。而存力升級,也將會加速AI的發展。
AI發展,存力越來越重要
隨着算力性能提升、產能逐漸釋放,對於AI而言,存力升級越來越重要。
首先,量是不夠的。 我國算力在提升,但存力卻依然相對滯後。而且,在大模型時代,文本只是TB級,但多模態則是PB級要求,量級顯著提升。從單模態走向多模態,存儲需求量大幅增加。
其次,質是有要求的。 就像不是所有的顯卡纔算得上高端,被搶購;也不是所有的存儲,都能被稱爲“存力”。生產力,必須順應新趨勢、解決新挑戰,“過五關斬六將”。而大模型的發展則爲存儲帶來了諸多變化和要求。
比如,通用大模型的數據樣本是多模態的,包含多種類型的數據,包括文本、圖像、音頻、視頻等等,對存儲提出不同要求。
這些數據來源不一,協議也多樣,同時有很強的異構性,具有不同的結構和特徵。就像文本是序列數據,而圖像則是矩陣數據,沒有顯著的序列特徵。而文本的分析、圖像的分類,也呈現了差異化、多樣性。
粗糙打個比方,就相當於倉庫裡既要放需要冷凍的海鮮,又要放需要適溫的蔬菜,還要放需要保持熱度的雞湯,這比只做個大冰庫要麻煩多了。
再比如,大模型的生成式依靠海量數據加速訓練,規模大、訓練時間長,而且DL網絡層多、連接多。每層都需要存儲權重、偏置闡述,激活函數、輸入輸出數據、模型結構等等也需要存儲,這就對存儲帶寬和I/O性能提出了更高要求。這也是HBM存儲產品被大量採購的原因。
這個道理也簡單,洗車場再大,入口如果只有一個窄門,那也是無濟於事,浪費資源。數據加載要又快又大又好。
另外,由於數據量持續更新,因此對存儲集羣的可靠穩定性、安全性,也都要求更高。在數據流通方面,也要能夠做到數據流動和統一管理,不能是“一潭死水”,而是“數據活水”。
同時,在節能減排的大趨勢下,能耗也是一個“緊箍咒”。存儲系統,在數據中心能耗中佔比爲35%,不能存力升級了、能耗卻超標了。
總結而言,存儲面臨的狀況就是:數據量更大、類型更復雜、性能高標準、穩定嚴要求;乾的越來越多,但“吃”的卻不能增加。
這得虧是存儲,要換成人早撂挑子了。但顯而易見的是,對企業而言,存儲不升級,算力空閒置,AI受影響,競爭有劣勢。那麼,越來越重要的存力,該怎麼升級呢?
一體化,讓生產力一直高效
沒有撂挑子的研發工程師們,還真的把存儲的要求,給解決了。中科曙光提出了 “六個一”的存力一體化方案,正爲AI發展按下加速鍵。
9月1日,“數字中國萬里行-西部(重慶)科學城先進數據中心暨曙光存儲一體化存力方案發布”活動正式舉辦。活動上,武漢光電國家研究中心吳非教授、中國計算機行業協會信息存儲與安全專委會秘書長陽小珊、中國 E 企研究院創始人張廣彬、中科曙光存儲事業部副總經理張新鳳共同發佈曙光存儲一體化存力方案。
當下存儲面臨的是GPU、CPU、TPU、AI等異構、複雜的業務場景,即使AI計算也要面對多模態數據樣本,非常需要有統一的支撐能力。中科曙光就提出異構融合方案,通過支持全類別存儲協議,實現多協議數據在多場景下的智能適配融合,爲不同計算場景的AI提供支持。
面對深度學習網絡層數多、連接多的痛點,曙光存儲發佈了業內首創的XDS加速技術,可實現智能芯片以直接數據訪問的方式,提高訓練過程中數據集的加載及處理速度。
同時,無論AI的訓練、還是推理,都需要存儲集羣有穩定、持續的服務。中科曙光提出了數據安全一體化理念,基於近20年的積累,形成了硬件、軟件、技術、生態等四個層面的安全體系,以及通過“部件、節點、系統、方案”的四級機制來保障可靠性。同時,也提供智能化技術更細膩管理存儲資源。
大模型冠名“大”,不只是參數規模、算力需求提升,能耗也會相應增加了,因此,在節能減排的大趨勢下,綠色一體化也是AI企業、數據中心的核心要求。對此,2022年,中科曙光就發佈了當前也是業界首款液冷存儲,存儲節點PUE值下降到1.2以下;而針對不同數據中心的實際狀況,也提供了不同的改造方案。
這“六個一”總結起來就是,“多場景”、“跨區域”、“全週期”、“多維度”、“一棧式”與“全鏈條”。這六個一,是中科曙光多年的經驗積累、對客戶需求的關切、對產業趨勢的把握,將當前面臨的挑戰,實現了一一對應的方案。一體化的存力產品,可謂是買的越多、省的越多。
某AI科技公司就採用了中科曙光的一體化存力,用於大模型訓練。分佈式全閃存儲節點,提供PB級高性能存儲資源池,450GB/s+帶寬,500萬+ IOPS。極致性能,讓大模型進化更快。
西部(重慶)科學城先進數據中心,作爲全國一體化大數據中心首個落成的重要樞紐節點,也是中科曙光存力一體化方案良好實踐之一。在自動駕駛等領域,一體化方案也正逐漸普及。
增效、降本、安全,讓存儲走向存力,存力,變成促進AI發展的生產力。
尾聲
科技的發展,並不是一條線,而是一個森林式的生態,需要每個角落、每個維度,同時,每個角度、每個維度也都會跟隨着進化。
就像AI發展,要算法、數據、算力。算法的改良,爲AI指明方向;而超大算力的大力出奇跡,纔有了涌現;但出奇跡的算力要發揮最佳效用,也需要存力跟上腳步、甚至提前準備;存力的發展,又會帶來封力,也就是封裝領域的升級要求。
因此,在科技生態裡,每個角落都值得探索,做好每個角落的事情,都是機遇。
作者:遠川科技組
視覺設計:疏睿
責任編輯:李墨天