NVIDIA進一步解釋Blackwell架構細節 更高效能輸出維持運算組合彈性

▲以單一「Grace」CPU搭配兩組「Blackwell」GPU組成的GB200 Superchip

針對此次揭曉的「Blackwell」顯示架構,NVIDIA在會後解釋此顯示架構細節,並且說明分別推出B100、B200與GB200 Superchip三種加速運算元件設計。

NVIDIA執行長黃仁勳說明,「Blackwell」顯示架構是在挑戰物理極限的情況下,同時考量實際效能與成本之間效益平衡所打造產品。

「Blackwell」顯示架構是針對兆級規模參數量的人工智慧需求打造,本身以臺積電客製化4nm製程生產,並且能借由單一GPU設計對應20 PetaFLOPS算力表現,結合此GPU設計的Superchip涵蓋2080億組電晶體,分別可在訓練效率相比先前推出的「Hopper」提升4倍,推論運算效率則可提高30倍,而能源使用效率更提升25倍。

架構方面,「Blackwell」整合第二代Transformer人工智慧引擎、可對應FP4/FP6低位元浮點運算的Tensor Core設計,並且對應第五代NVLink連接技術,最多可同時與576組GPU連動,支援每秒達800GB的資料解壓速率,以及更安全資料加密保護機制,更可確保運作穩定性。

另外,「Blackwell」也以兩組光罩對應Die裸晶核心單元構成的特殊設計,內部則以每秒10TB資料傳輸速率方式的NVLink-HBI介面進行溝通,並且能以單一GPU形式運作。

NVIDIA執行長黃仁勳說明,「Blackwell」顯示架構是在挑戰物理極限的情況下,同時考量實際效能與成本之間效益平衡所打造產品。因此將兩組Die裸晶核心單元組成單一GPU,顯然是在既有製程技術良率與製造成本之間取得平衡,並且透過組合堆疊方式提高「Blackwell」顯示架構運算效能。

▲「Blackwell」顯示架構設計,可以看見透過相同資料傳輸量設計,讓整個「GPU」運算加速更快

「Blackwell」在FP8運算模式可對應10 PetaFLOPS算力表現,而在FP4運算模式則可對應20 PetaFLOPS算力表現,本身則整合192GB容量、支援每秒8TB資料傳輸量的HBM3e高密度記憶體,並且能透過NVLink以每秒1.8TB速率交換資料內容。

爲了進一步提升「Blackwell」在多模運作人工智慧應用效率,NVIDIA也透過HDR Infiniband傳輸介面提供每秒可達100 GByte的資料傳輸效率,藉此能讓大規模運算叢集中的每15組GPU運算資料進行同步,並且搭配第五代NVLink設計讓多達576組GPU構成運算節點的運算內容維持正確。

分別推出B100、B200與GB200 Superchip三種加速運算元件設計

而目前以「Blackwell」顯示架構打造加速運算元件設計,分別區分B100、B200,以及結合單組「Grace」CPU與兩組「Blackwell」GPU構成的GB200 Superchip。

其中,B100、B200均搭載總容量達192GB的HBM3e高密度記憶體,對應每秒8TB資料傳輸量,同時與GPU本身對應資料傳輸量相同,因此在顯示架構上可以對應更快資料處理效率。

至於B100、B200兩者最大差異在於運作功耗不同,前者最高功耗爲700W,可藉由空冷散熱形式運作,同時也能直接用在H100加速元件設計對應HGX機架空間內,後者功耗則在一般情況下對應1000W,依然可透過空冷形式運作,但能否用於H200既有對應機架空間則要看情況,至於若將功耗進一步提高至1200W,就必須以水冷形式運作,因此對應機架就必須重新設計。

▲可透過功耗、組合差異對應不同效能輸出

GB200 Superchip主要針對人工智慧訓練加速打造,以全水冷形式運作

GB200 Superchip就必須以全水冷形式運作,但好處在於能減少極佔空間的散熱模組,並且透過水冷系統維持運作穩定性,對比運作功耗爲10.2kW、8U機架設計的DGX H100系統,在接近運算效能情況下,所對應占據空間將降低爲八分之一,同時也能以水冷系統降低熱交換所需空間,以及運作時所產生噪音等問題。

若以H100算力爲基礎,GB200 Superchip的算力爲6倍,約可處理GPT-3 1750億組參數量,而對應處理多模特定領域算力表現則可達30倍,可處理多達1.8兆參數規模。

透過NVLink將36組GB200 Superchip串接成的GB200 NVL72,可在訓練對應720 PFLOPS算力表現,推論算力則可達1440 PFLOPS,同時可對應27兆組參數規模,多節點傳輸頻寬可達每秒130TB,最高可對應每秒260TB傳輸量。

▲將36組GB200 Superchip串接成的GB200 NVL72

另外,將8組GB200 NVL72串接的話,則可建構DGX BG200 Superpod,整合288組「Grace」CPU與576組「Blackwell」GPU構成,並且包含240TB高速記憶體容量,在FP4運算模式可對應11.5 ExaFLOPS算力表現,並且發揮30倍推論效率、4倍訓練效率,同時提升25倍能源使用效率。

保持組合彈性,但在人工智慧發展趨勢下更傾向Arm架構組合

以目前來看,NVIDIA依然在「Blackwell」顯示架構維持組合彈性,可選擇與x86架構CPU或Arm架構CPU組合,而在B100設計上也能相容既有H100對應機架使用,B200在特定情況下也能相容使用既有機架,藉此維持其佈署應用升級彈性,同時也在運算效能有相當程度提升表現。

但如果是要對應人工智慧佈署應用的話,NVIDIA表示當前最佳組合還是Arm架構CPU,主要還是受限於x86架構CPU對應I/O埠等通道設計,以及NVLink可對應連接數量上限,加上採用x86架構CPU還有額外散熱系統建置需求,因此目前用於人工智慧推論等訓練,依然會主推搭配「Grace」CPU的組合。

▲透過NVLink增加可同時連接GPU數量,讓人工智慧訓練速度更快

《原文刊登於合作媒體mashdigi,聯合新聞網獲授權轉載。》