☰

雲端原生超級運算已經到來：什麼是雲端原生超級電腦？

雲端原生超級運算是超級運算領域的下一個大事。如今這個大事件已經到來，助力我們應對最棘手的高效能運算（HPC）和人工智慧（AI）應用。

英國劍橋大學正在當地建構一臺雲端原生超級電腦；美國有兩個研究團隊正在分別開發雲端原生超級運算的關鍵軟體。

洛斯阿拉莫斯國家實驗室（Los Alamos National Laboratory）與統一通訊框架聯盟（Unified Communication Framework Consortium）合作，正助力實現加速資料演算法的能力。俄亥俄州立大學正更新訊息傳遞介面（MPI）軟體以強化科學模擬。

NVIDIA正透過最新的DGX SuperPOD向全球用戶提供雲端原生超級電腦。DGX SuperPOD包含NVIDIA BlueField-2資料處理器（data processing unit，DPU）等關鍵組成，現在已經投入生產。

那麼，什麼是雲端原生超級運算？就像Reese的花生醬夾心巧克力一樣，雲端原生超級運算融合了兩項業界領先的技術優點。雲端原生超級電腦融合了高效能運算的強大運算力和雲端服務的安全性與易用性。

換個角度看，雲端原生超級運算提供一個效能強如TOP500超級電腦的HPC雲端，它在不犧牲應用效能的同時允許多個用戶安全共享。

雲端原生超級電腦有兩個關鍵功能。首先，它允許多個用戶共享一臺超級電腦，同時確保每個用戶的應用安全性和私密性。這種能力被稱爲「多租戶隔離」，在當今的商業雲端運算服務中十分普遍，但一般不會出現在技術和科學應用的HPC系統中，因爲在這些系統中，裸機的效能是首要考量，而安全服務會降低系統效率。

其次，雲端原生超級電腦使用DPU來處理儲存、租戶隔離安全和系統管理等任務。這樣可以卸載CPU，使其專注於處理用戶的應用程式任務，從而最大化系統的整體效能。

如此一來，超級電腦便能在不損失效能的情況下實現雲端原生服務。DPU未來將能處理更多的卸載任務，從而使系統在運行HPC和AI應用保持最高的運行效率。

雲端原生超級電腦如何運行？

如今，超級電腦通常有兩個「大腦」，CPU和加速器（一般爲GPU）。加速器集結了數千個處理核心，可爲AI和HPC作業負載中最重要的平行運算提供加速。CPU是針對需要快速序列處理的演算法而設計的，但隨着其管理的系統日益龐大且日漸複雜，通訊的層數不斷增加，導致CPU的負擔越來越重。

雲端原生超級電腦導入第三個「大腦」DPU，協助建構更快、更高效的系統。DPU能夠卸載安全、通訊、儲存等需要由現代系統管理的工作。

在傳統的超級電腦中，運行中的運算任務有時不得不停下來等待CPU去處理通訊任務，這是業界熟知的問題，被稱爲系統雜訊。

在雲端原生超級電腦中，運算和通訊是平行處理的。這就像在高速公路上開設第三條車道一樣，能夠讓所有流量變得更加順暢。

俄亥俄州立大學MVAPICH實驗室是HPC通訊領域的專業機構，該實驗室的早期測試顯示，在雲端原生超級電腦執行某些HPC作業的速度是傳統電腦的1.4倍。該實驗室展示結果亦顯示，雲端原生超級電腦與既有HPC系統在運算和通訊功能中達到100％重疊，且效能高出99％。

劍橋大學研究運算服務部門總監Paul Calleja表示，我們正在打造歐洲第一臺科研雲端原生超級電腦，以雲端原生的InfiniBand服務提供裸機效能。按照2020年 11月TOP500榜單，這套系統躋身前100名，它將使我們的研究人員能夠運用超級運算架構領域的最新成果來充分優化他們的應用。

HPC專家正爲雲端原生超級電腦的進一步發展鋪路。

統一通訊框架聯盟總監Steve Poole表示，由業界和學界頂尖成員組成的UCF聯盟正在打造能實現未來雲端原生超級運算所需的生產級通訊框架和開放標準。」該聯盟的成員包括來自Arm、IBM、NVIDIA、美國國家實驗室和多所美國大學的代表。

俄亥俄州立大學計算機科學與工程系教授暨網路運算實驗室主任Dhabaleswar K.Panda表示，我們的測試顯示，雲端原生超級電腦的架構效率能夠進一步提升超級電腦的HPC效能，並實現新的安全功能。

相關資訊