「三隻眼」看OpenAI芯片規劃棋侷
集微網報道 (文/)在盛世隱憂和圖騰規劃下,OpenAI的芯片規劃攻守棋局正在進一步浮出水面。
其中,OpenAI的「守」主要在於面對全球科技巨頭在AI大模型賽道上的激烈圍勦和加速追擊守住陣地,而底層算力芯片供應緊張和相關成本居高不下已成爲其當前首要痛點。相較而言,OpenAI的“攻”着重體現在致力於引領大模型技術疊代和突破,而將大模型算法能力與芯片深度整合瘉發成其卡位加速進階的關鍵節點。
攻守之間,芯片越發成爲OpenAI的阿喀琉斯之踵。面對致命性的弱點,OpenAI試圖兵分三路以大擧「渡江」,其中路逕包括自研AI芯片、加強與半導體企業合作以及投資佈局多元化供應。公開面上,OpenA此擧意在緩解AI芯片供應不足、成本過高,但這背後還有更大的商業模式圖譜。目前,這場棋局正初步展開,最終否能否“奪帥”還需時間證明。
自研路線優勢亮眼
自研路線優勢亮眼
無論是出於自身降本增效需求,還是爲擺脫芯片公司掣肘等,自研AI芯片都已成爲主流趨勢,谷歌、亞馬遜和微軟等均已下場造芯。對OpenAI而言,自研AI芯片瘉顯勢在必行,畢竟其CEO山姆·阿爾特曼(Sam Altman)不少次強調,爲OpenAI軟件提供動力的先進處理器「嚴重緊縮」,以及爲其工作和產品提供動力所需的硬件運行成本「令人瞠目」。
由於軟件技術的發展依賴於硬件技術,芯片短缺和相關高昂成本便成爲OpenAI邁進下一個臺階的攔路虎。據悉,OpenAI已經開始訓練包括GPT-5在內的超大模型,而訓練GPT-5需要5萬張H100。目前,一臺使用八卡英偉達H100 GPU的服務器採購成本約爲30萬美元,加上雲服務商的溢價使用服務器三年的總成本爲100萬美元左右。如果OpenAI能用自研芯片把其八卡服務器的成本降低到10萬美元以下,將會大大降低成本。
一旦OpenAI自研芯片成功,大模型的運營成本將隨着算力成本的下降而減少,同時這會直接反映到普通用戶和企業用戶對模型的API調用上,使得新增用戶和付費用戶數量大幅提升,進而形成「降本增效」的良性循環。但如果衹從成本側考量,自研芯片並非是OpenAI 「控制成本」的最優路逕,而且算力成本未來會隨着需求供給的變化動態降低。
顯然,OpenAI還有着更多戰略權衡,包括將領先的大模型算法能力和自研芯片整合,成爲「芯片-模型」解決方案的提供商,進而開拓全新的商業化模式;以及聚焦AI大模型專用芯片,探索出革新傳統用AI芯片常規復雜做法的新路逕等。更重要的或是,OpenAI對於未來幾年生成式大模型的路線圖有着明確規劃,即便自研芯片需要數年的時間也能跟上模型疊代。
進一步來看,OpenAI的獨特優勢在於基於對大模型的深入理解,OpenAI自研芯片若以提升大模型的推理性能爲核心目標,其設計將會有極高的針對性,即有足夠的能力和積累做「芯片-模型」協同設計,能夠根據芯片特性去設計相應的模型,同時也可以根據模型需求去明確芯片設計指標,包括如何在計算單元、存儲和芯片間互聯之中做最優化的折中等。
但作爲沒有任何硬件研發和生產經騐的企業,OpenAI一頭紥進完全陌生領域面臨的挑戰依然巨大,包括高算力芯片設計的複雜度、鉅額成本,如何確保軟件和硬件協同工作,以及芯片生產製造的良率、封裝技術、材料供應和產能穩定等各類難點都是極大考騐。同時,英偉達GPU+CUDA生態的「組合」仍讓一衆雲廠商欲罷不能。由此,如果OpenAI劍指通過自研AI芯片重搆大模型商業模式和生態,勢必需要強烈的AGI信仰和海量資源等投入。
定製芯片推進商用
定製芯片推進商用
比起自研芯片,現階段外包定製芯片或對OpenAI而言更具可行性。正如阿爾特曼所言,「對於是否採用定製硬件(芯片),我們還在評估中,正努力確定如何擴大規模以滿足世界的需求。雖然有可能不會研發芯片,但我們正在與做出卓越成果的夥伴保持良好合作。」
隨着AI芯片短缺的擔憂加劇,阿爾特曼近期密集推進內部代號爲「Tigris」的項目,即正在通過向阿聯酋互聯網平臺G42和日本的軟銀等全球投資者尋求籌集數十億美元,以及拉攏臺積電、三星和英特爾等「頂級芯片製造商」合作,進而建成覆蓋全球的製造工廠網絡。目前,該談判仍處於早期階段,參與該項目的合作伙伴和投資者的完整名單尚未確定。
根據OpenAI當前的財務、資源、人才和經騐等整體狀況,迅速建立起尖端半導體制造工廠是一件極具挑戰的事。無論是直接購買成熟代工廠製造芯片,還是與芯片製造商合作生產都需要大量的資金和時間。進一步來看,不難判斷OpenAI與製造商合作生產芯片的概率更大,畢竟龐大如亞馬遜、谷歌和微軟等巨頭均是專注於AI定製芯片,然後將製造外包。
據悉,OpenAI的「Tigris」項目實體爲一家「芯片合資企業」,而且有意與英偉達在AI芯片領域展開競爭。但根據行業格局和技術𬙂進可以預判,OpenAI並不會選擇與英偉達「正面剛」,技術路逕的大方向將是與大模型算力深度整合的AI專用芯片。不過,在大模型加速向端側「遷移」的趨勢下,其商業模式上將與雲服務廠商在雲端提供服務的方式不同。
目前,由於用戶使用模型的場景、軟件棧和訓練模型等不夠明確,谷歌、亞馬遜和微軟等雲服務廠商需要在芯片設計上充分考慮兼容性的需求,但這不免會犧牲訓練任務的部分效率和性能。相比之下,OpenAI專用定製AI芯片訓練的模型目標更爲明確,即以Transformer爲基本組件的大語言模型,而且使用的軟件棧也控制在自身手裡,因此可以確保設計的高針對性和軟硬件協同。同時,通過與代工廠深度合作,也能設計製造出更專用的AI芯片。
如今,隨着越來越多AI大模型誕生,如何讓這些模型實現商業化落地成爲至關重要的議題。業界專家普遍認爲,大模型將在垂直領域率先取得突破。可以預見,除了通用大模型ChatGPT,OpenAI通過專用AI芯片打造出更適合垂直領域商用落地的定製版GPT未來發展空間想象巨大,甚至或將再次推動引領行業變革。但在項目談判、技術團隊和生產問題沒有完全解決之前,OpenAI或可以選擇與微軟等重要合作伙伴開發半定製化類芯片方式。
投資佈局多元供應
除了自研和合作生產AI專用芯片,OpenAI獲得芯片能力的最快方式其實是投資併購。在這一方面,OpenAI和阿爾特曼也幾番出手投資了多家芯片企業,包括Cerebras、Rain Neuromorphics和Atomic Semi。有分析稱,阿爾特曼可能會考慮把OpenAI及其個人參與投資的芯片企業納入麾下,從而保障公司的多元化供應和增強其大模型的競爭力。
其中,Cerebras是一家美國芯片初創公司,曾以推出超大芯片而引發關注,2023年一口氣開源了7個不同百億級參數以內的GPT模型,同時也提供大模型訓練推理等雲服務;Rain AI是一家神經擬態芯片(NPU)初創公司,產品基於谷歌、高通等支持的RISC-V開源架搆開發。這種AI芯片模倣人腦的工作方式,特點是快速、完全並行和超可擴展;Atomic Semi由「車庫造芯」紅人山姆·澤洛夫(Sam Zeloof)和工業界大佬吉姆·凱勒(Jim Keller)共同創立,旨在讓芯片生產加工更加簡化,以及在數小時內生產出高性比芯片。
相較而言,OpenAI對Rain AI的投資已成爲行業焦點,其於2019年與Rain AI簽訂了一份價值5100萬美元的意向書,會在Rain AI的芯片上市後購買芯片。此外,阿爾特曼作爲Rain AI的股東也親自投入了100萬美元,但這也疑似成爲OpenAI宮鬭的導火索之一。當前,Rain AI正在研發一種「類腦」NPU芯片,能大幅降低AI算力的成本,預計在去年12月流片,並於2024年10月開始供貨。該芯片號稱比GPU高出100倍計算能力,而在訓練方面的能效比GPU高出達10000倍,將「重新定義AI計算的極限」。
目前,Rain AI已經推出首個AI平臺,可進行AI推理和訓練,還宣稱「類腦」芯片(NPU)將允許AI模型根據周圍環境實時定製或微調。對此,阿爾特曼曾公開表示,「這種神經擬態方法能大幅降低AI開發成本,並有望爲實現真正的AGI提供幫助。」
不過,OpenAI的投資佈局並非一帆風順。雖然Rain從百度風險投資部門獲得的小額種子投資沒有遭遇問題,但沙特阿拉伯的較大投資引起了美方所謂重要擔憂。此前,在Rain的領導層變動改組時,美國外國投資委員會(CFIUS)要求沙特阿拉伯附屬基金Prosperity7 Ventures出售其持有的Rain股份,之後由矽谷的Grep VC接手。這一變動可能會增加Rain將新芯片推向市場的難度,也使OpenAI的5100萬美元訂單兌現日期變得模糊。
總體上,擬自研芯片、與產業界合作定製芯片以及投資佈局超大芯片、類腦芯片和高性價比芯片,OpenAI的芯片規劃棋局正在阿爾特曼的「加速主義」引領下不斷鋪開。但OpenAI的野心不止於通過佈局AI芯片降本增效和重塑商業模式,還將進一步向下游延伸至製造側等,以在未來打造一個自給自足的半導體供應鏈,進而爲其大模型生態王朝築牢根基。