爲何阿里雲、亞馬遜都要“卷”雲計算基礎架構?

元宇宙是不是僞概念不知道,但今天世界已成爲數字世界卻是不爭事實,人們生活、工作和學習都離不開各種數字技術加持,而數字世界的底層則是依託於雲的計算基礎設施,說得更具體一點,就是芯片、存儲、網絡等計算資源“堆砌”起來的計算基礎設施。

計算,是數字世界運轉的基礎,如同太陽之於地球。

在雲計算出現前,計算機的底層計算中心是CPU以及圍繞CPU這一中心的GPU、存儲、網絡等等被CPU調撥的計算資源。在雲計算出現後,傳統計算架構體系變得捉襟見肘,因其面向的是一個個物理設備,而云計算則先後經歷分佈式+虛擬化、資源池化兩個階段,事實上已在底層構建起一個超級計算機,客戶付費後可對資源按需租用,然而這種模式是昔日計算架構體系設計者未曾考慮到的,存在很多問題。在數字化時代來臨後,更多、更大、更碎的數據,實時、海量、多變的計算場景,給計算提出全新要求,特別是高性能、密集型、高韌性以及低碳化,傳統的CPU計算架構如同“小馬拉大車”一樣倍感吃力。

這些年,國外的Amazon、微軟以及國內的阿里雲,諸多雲計算巨頭們都在探索全新的適用於或專屬於雲的計算體系,最新的成果來自於阿里雲。

6月13日,阿里雲對外發布CIPU,其全稱爲阿里雲基礎設施處理器(Cloud infrastructure Processing Units),即專用於新型雲計算中心的計算管控和加速中心。

在傳統計算架構中,CPU承載這一功能,既負責核心計算同時負責網絡、存儲等資源的調撥管控。CPU是主,其他資源是從;CPU是中心,其他資源則是外圍。

依託CPU的計算架構難以支撐當下的雲計算需求,一方面,雲計算應對的數據密集型計算越來越多,以CPU爲中心的架構導致計算和網絡傳輸之間的時延較大。另一方面,數據中心內部的數據遷移量增多,以CPU爲中心的架構無法提供高帶寬。CPU限制着雲計算的低延時與高帶寬能力,也導致了許多常見應用通過雲計算實現難度變大,比如實時音視頻通訊、元宇宙XR以及正在崛起的自動駕駛等IoT雲邊融合應用。開發者要實現這些應用需要想方設法,開發週期、開發難度、計算成本均顯著增加,行業也出現了專門解決雲計算平臺與應用場景間的鴻溝的PaaS類服務商。

解鈴還須繫鈴人,要解決以CPU爲中心架構的問題,需要對這一體系改組和重構。阿里雲的最新解是另起爐竈,把管控中心從服務器內部的CPU,上移至服務器外的CIPU。

在CIPU中,傳統CPU的功能只是其功能子集,在計算資源上支持傳統CPU即插即用、虛擬化和硬件加固隔離,同時支持GPU、異構計算;在存儲資源上整合SSD存儲加速,網絡資源上整合RDMA網絡加速,且均支持虛擬化、轉發加速、硬件加解密等功能。

在CIPU架構下,向下接入的是物理的計算、存儲、網絡資源,快速雲化並進行硬件加速;向上接入飛天雲操作系統,通過規模化應用RDMA網絡技術,讓訪問雲端比訪問本地硬盤還要快。當數據中心或雲計算中心應用CIPU後,就可以解決當前正面臨的帶寬、時延、性能、能耗等核心問題,進而更好地支撐不同的雲上業務,助力產業數字化升級,更好地支持已出現、未出現的科技創新應用。

看一組官方數據。

基於CIPU和飛天的新一代雲計算架構體系在通用計算、大數據、人工智能等核心場景的計算測試中展現了優越的性能:

雲計算廠商都宣稱自身的計算架構有着顯著的提升,最終的檢驗者是開發者。阿里雲CIPU+飛天的新一代雲計算架構體系最終效果如何,市場會給出答案,因爲倘若這套架構真的可以克服以CPU爲中心的計算架構在雲計算上的不足,獲得如此強大的效能提升,對開發者來說將意味着更好用、實用、實惠的資源,對阿里雲來說則是產品具備更強性價比,這依然是雲計算市場的核心競爭力。

衆所周知,不論什麼場景下的計算都離不開軟硬件的有效結合,芯片的性能一定要有軟件系統算法來吃掉。摩爾定律要生效就要有市場需求來驅動,有些芯片性能不再遵循摩爾定律不是技術天花板到了,而是對於市場而言,已性能過剩。而芯片性能被吃掉,有兩種方式:

一種是生態,最經典的莫過於Window-Intel構建的“WinTel陣營”,當時Intel CEO安迪·格魯夫不斷讓芯片性能升級,被微軟CEO比爾·蓋茨不斷龐大的Windows等系統軟件給吃掉,這被稱爲“安迪比爾定律”,WinTel聯盟讓Intel芯片不斷進步的同時,限制其他芯片的發展,移動時代高通(以及ARM陣營)與Android同樣形成類似聯盟。

另一種是自產自銷,如蘋果A處理器,華爲海思,因爲是自家產品,將應用場景與處理器深度結合,就可以發揮出最強性能,現在蘋果A系列、M系列處理器已讓Intel、高通們壓力山大。阿里雲的“飛天+CIPU”就是雲計算領域的“iOS+A處理器”搭檔模式,iOS和A處理器都是面向移動設備而生。飛天+CIPU都是面向雲計算而生。

2009年,阿里雲推出前,阿里就決定要自主研發大規模分佈式計算操作系統“飛天”,這是一款專門面向雲計算的操作系統,不是搭載在單個設備上,而是可以調動分佈在全球的百萬級服務器對其進行管控調度。如今飛天與CIPU軟硬件結合,阿里雲重新定義了雲計算的計算體系架構。

CIPU本質上只是將不同的能力封裝在一起——計算、存儲和網絡資源以及對應的加速技術行業早已應用多年。

封裝並不少見,在個人計算中CPU在不斷增加核心數的同時,也在封裝更多能力,比如這兩年流行的AI芯片將GPU等計算單元整合在一起強化本地化的AI計算,Intel在日前再度重申未來幾年將用更新的製造工藝和封裝技術整合高性能 CPU 和 GPU 到一個芯片。

在雲計算領域,巨頭們的探索同樣已有多年曆史。

正如阿里雲智能總裁張建鋒在發佈CIPU時總結的那樣,10多年裡雲計算髮展走過兩個階段,第一階段是分佈式和虛擬化技術替代大型機、小型機,核心解決的是擴展性問題,企業不再需要自建機房維護,從買到租按需擴容,使用的計算資源實質上依然是一臺臺主機。第二階段出現資源池化技術,通過計算存儲分離架構,將計算、存儲、網絡資源分別池化,突破規模和穩定性的瓶頸,可提供了超大規模的雲計算服務。

“分佈式+虛擬化”和“資源池化”兩個階段都是通過軟件定義的方法對計算、存儲和網絡資源進行優化,以CPU爲中心的計算架構的體系沒變,只不過被雲計算企業用軟件去定義,讓計算資源聚合起來發揮規模效應等雲的優勢,就像阿里雲飛天做的。然而這樣的模式已經很難適應今天這個時代,因爲計算需求變了,更多的行業、更多的客戶,更多的業務,全新的場景(如雲邊融合、音視頻直播、元宇宙XR等等)都在上雲,結果就是更加海量密集的數據以及對應的AI計算等需求,這些對雲計算的低時延、高帶寬、低碳化需求更高,傳統架構已很難甚至無法滿足。

阿里雲很早就意識到以CPU爲中心的傳統架構支持雲計算只會日益艱難,因此2015年就成立專門的技術攻堅團隊,2017年推出業內首款虛擬化損耗爲零的神龍雲服務器,其基於CPU+FPGA方案實現對裸金屬虛擬化的支持,做出了性能超越物理機的裸金屬服務器,此後神龍雲服務器迭代到第四代,已經做到徹底消除“數據中心稅”,且性能大幅提升。

雲計算在虛擬化後應用依然跑在主機上,主機要劃撥部分CPU和內存資源去運行Dom0也就是特權虛擬機(其他虛擬機的管理者和控制者),這導致10%-30%的計算資源無法被售賣,增加了雲計算成本,這部分成本就是“數據中心稅”。

不過,單靠神龍雲服務器依然有很多問題難以解決。客戶對高帶寬、低延時、低碳化要求更高,然而網絡和存儲卻受限於主機側CPU的性能,雲計算服務商只能不斷增加CPU核心數或增加計算頻率,然而CPU核心數受限於摩爾定律成本巨大,而增加計算頻率則會增加發熱與功耗進而增加運營成本,這些都不符合客戶的核心利益訴求。

在阿里雲探索神龍服務器、彈性RDMA、自研RISC-V指令集芯片等核心技術時,全球雲計算巨頭自然沒有閒着。

亞馬遜2015年收購以色列芯片公司Annapurna labs後,面向雲計算基礎設施研發定製芯片,2018年發佈第一代Amazon Graviton 處理器,支持該處理器的A1成爲AWS上第一個基於Arm的實例,此後不斷迭代,2021年12月採用5nm工藝的Graviton 3發佈,性能、能耗等表現都有顯著提升,可更好地支持科學計算、機器學習和媒體編碼等工作負載。不過,亞馬遜努力的方向依然是CPU本身,通過定製手段將這套傳統計算架構體系性能發揮得更好。微軟也被曝出要給雲計算服務器開發定製芯片,今年還挖到了蘋果半導體專家Mike Filippo從事處理器研發工作。

谷歌的方案則是另起爐竈,不再採用CPU和GPU這樣的通用芯片,不用FPGA技術,而是定製適合特定計算場景的專用芯片:TPU芯片,服務於谷歌AI計算。TPU全稱是Tensor Processing Unit即張量處理單元,爲谷歌機器學習平臺Tensorflow量身定製,相較於通用芯片更適合跑神經網絡,有報道稱谷歌TPU芯片在機器學習測試中超過英特爾至強CPU和英偉達GPU一個數量級。此外,谷歌也有轉爲YouTube等視頻應用打造的視頻解碼芯片,如Argos。針對特定計算場景定製全新架構的芯片,這是谷歌的做法,它可以更好地滿足部分場景下的計算需求,但未能一勞永逸。

亞馬遜基於ARM架構的定製芯片模式未能解決“以CPU爲中心的計算架構在支持雲計算場景存在的先天不足”,而谷歌的場景化定製模式更是難以解決這個時代海量、複雜的通用計算難題。

亞馬遜與谷歌的做法,阿里雲前些年一直在做,也推出了AI芯片含光800和CPU處理器倚天710。正是因爲有神龍雲服務器、彈性RDMA以及平頭哥芯片的積累,阿里雲纔可以在今天推出“CIPU+飛天”的全新架構,想要一勞永逸地構建適應AI時代的雲計算架構體系:以CIPU爲中心,與飛天系統軟硬件結合,深度整合三大資源(計算、存儲和網絡)進而實現更高性能、更低延時、更大帶寬、更低功耗的計算,適應高性能計算、實時化計算、數據密集型計算等主流新場景。

儘管CIPU承載着未來雲計算的“計算管控與加速核心”的角色,不過這更像是一個去中心化的架構,CPU不再是主,網絡、存儲也不再是從,不同資源不再互相依賴意味着不會再有瓶頸。CIPU架構也可支持CPU、GPU等不同芯片以及ARM、X86等不同架構,使得不同計算資源或體系互補。

在發佈CIPU時,張建鋒表示阿里雲2022年最重要策略是“B2B”,就是“Back to Basic”,迴歸本質,我們看到阿里雲在最近一個財年首次實現年度盈利,並強調要從追求規模增長到追求高質量增長,這是其不再追求規模第一後的“迴歸技術本質”。

發佈CIPU表明阿里雲重倉算力,將雲計算的本質“計算”給做好,即以客戶爲中心給其提供更極致的算力服務,而要做到這一點離不開回歸技術這一本質,因爲技術是雲計算的根,資源、渠道、服務、品牌等等只能是枝葉,只有根扎得深,纔可能枝繁葉茂,阿里雲的Back to Basic有多重深意。

張建鋒說阿里雲要“堅持在技術的長征路上”,這樣說是因爲阿里雲成立時就是技術立業,在業務中死磕技術,用技術驅動業務。從去IOE到飛天系統到建中臺再到斥巨資建達摩院系統性佈局基礎前沿技術,一次次技術佈局,都是阿里雲的爬雪山、過草地。

實際上,CIPU並不是從0到1被阿里雲設計出來的,而是基於此前多年自研迭代的神龍、彈性RDMA、芯片等核心技術,不斷深入垂直整合演進出的結果。如同蘋果做iPhone手機,前幾代用的是自己的系統,卻是Intel的處理器,直到2010年的iPhone 4才上馬A4處理器,這是iPhone大衆化的開始,移動互聯網時代才真正來臨。自研處理器並形成“iOS+A”的計算架構,蘋果讓移動計算徹底走出PC計算的“陰影”,在能耗等維度不再有缺陷,一勞永逸地解決了移動設備面臨的底層問題。同理,阿里雲也是想要靠底層技術來攻克雲計算一直面臨的架構難題。

技術的問題用技術解決,這也是阿里雲一直堅持的路線。2009年決定自主研發系統飛天時,阿里雲有很多開源雲平臺可選。從時間、成本、風險維度來考量,用成熟的開源系統是最佳選擇,不過,爲了確保對每一行代碼有控制力,可隨時隨地無間斷升級且實現水平擴展,阿里雲卻選擇了更難的技術路線,自主研發,阿里雲技術研發負責人蔣江偉後來曾對媒體覆盤說:“如果不是自主研發,我們根本無法應對雙11 32.5萬筆/秒的交易創建峰值。”

雲端操作系統是一個宏大的工程,阿里自研充滿坎坷。經歷長達三年的技術攻關、數次推倒重來,飛天和阿里雲終於迎來大成,2013年阿里雲發佈飛天5K集羣,成爲全球首家調動服務器集羣超過5000臺的雲計算廠商;2017年飛天已可將遍佈全球的百萬級服務器連成一臺超級計算機。基於飛天,阿里雲可以給客戶提供全球領先的計算能力,在向數據中心、智能平臺延展時遊刃有餘。如今與CIPU結合形成雲計算新架構,將進一步提升阿里雲的核心競爭力。

飛天式的技術自研路線一次次奏效,如自研數據庫系統,如平頭哥“鑄劍”的RISC-V處理器玄鐵910、雲端AI推理芯片含光800,如神龍雲服務器。技術的“底子”或者說“BASIC”正是阿里雲一騎絕塵的關鍵。Gartner數據顯示,2021年全球雲計算IaaS市場份額中阿里雲排名全球第三,已連續六年實現份額增長;亞太市場第一,市場份額爲25.53%。

不只是阿里雲,今天3A(Amazon AWS、微軟Azure和Aliyun)雲計算頭部玩家都在不約而同地重注底層技術,因爲所有人都知道,技術纔是雲計算長跑中唯一的決勝力。阿里雲在保持核心技術領先的同時,更將助力中國在雲計算賽道擁有核心技術話語權,正如張建鋒所言:“雲計算越來越接近進入下一個時代——全新的架構定義,全新的軟件界面,硬件加速。我們錯過了PC時代,但云這個時代大家起步是一樣的。現在是重新定義雲的窗口期,如果我們定義好了,中國就可以在下一個技術時代有自己的一席之地。”