英偉達繼續努力,希望推動AI融入包括HPC在內的一切領域

來源:至頂網

本週一,英偉達發佈了多款全新工具和框架,用以增強實時流體動力學模擬、計算化學、天氣預報以及藥物開發等任務的運行速度,而依託的正是當前大家最喜愛的流行詞:AI。

此番公告強調了英偉達的持續努力,即不僅要使用其GPU加速以往長期運行在CPU之上的高性能計算(HPC)工作負載,同時要減少機器學習技術在各平臺上完成這些工作負載所消耗的時間和算力。

根據英偉達數據中心產品營銷主管Dion Harris的介紹,即使是少量模糊數學元素的引入,也能給這些工作負載帶來巨大的性能提升。

在計算化學方面,英偉達表示與未經AI加速的純GPU工作負載運行模式相比,使用其AI加速的Alchemi容器或NIM能夠將1600萬種化學結構的計算速度提升100倍。

有些朋友可能不太熟悉,簡而言之,NIM是英偉達的推理微服務,屬於包含實現預期目標所需要的全部框架、庫及依賴項的容器鏡像。在推出後不久,NIM就迅速成爲英偉達打包其軟件產品的首選方式。

本屆SC24大會上公佈的其他NIM,還包括用於CorrDiff和FourCastNet天氣模型的Earth-2容器以及用於蛋白質模擬的DiffDock 2.0。

在另一個示例中,Harris介紹了英偉達的計算機輔助工程kOmniverse藍圖,其使用多套AI模型來實現對流體動力學計算等任務的實時模擬。

Harris宣稱,“傳統來講,針對一輛汽車的模擬往往需要數週、甚至幾個月的時間。”

憑藉巨大的效率提升以及極低的精度損失,英偉達已經說服高性能計算軟件巨頭Ansys將這些框架集成到其流體模擬平臺當中。

Harris表示,“Altair、Cadence、西門子等公司正在探索如何將這些藍圖整合到自己的服務和產品當中,從而縮短設計週期。”

當然,在高性能計算中使用混合精度及AI來解決體量更大、複雜度更高的問題,其實也不算是什麼新鮮事。研究氣候模型的研究人員早就在關注這類方法並得到了不少前景光明的結果。然而,讓更廣泛的高性能計算社區轉向這種思維方式,無疑更符合英偉達業務的利益定位。

AI技術的騰飛正爲英偉達的數據中心業務帶來鉅額收入,而這種趨勢又被反映在該公司的設計決策當中。Blackwell就是典型案例,在雙精度計算方面,其最新一代GPU與Superchips只能說是好壞參半。一方面,FP64矢量性能提升至45萬億次;但在矩陣數學方面,該芯片與H100和H200相比反而略有倒退。

這也導致英偉達相對於AMD處於競爭劣勢。AMD不僅爲那些拒絕轉型的頑派高性能計算用例製造CPU,而且其GPU和APU也承諾提供更高的性能。MI325X可以說是與英偉達Blackwell最具可比性的GPU型號,其在雙精度下擁有81萬億悅鈴 矢量與163萬億次矩陣計算性能。

在另一方面,英偉達明顯是通過犧牲精度的方式換取更極致的FLOPS浮點運算性能,其頂配Blackwell GPU在FP4下可提供20千萬億次算力。

由此可見,英偉達擁有一套明確的高性能計算戰略:與其在小從市場上跟AMD奮力爭奪,不如說服軟件供應商在適當條件下,將模糊矩陣數學和適度的雙精度性能相結合往往效果更佳。

這對英偉達來說也並不是一條新路。自從2007年首次公佈CUDA以來,該公司對高性能計算社區的貢獻不僅體現在超級計算領域,同時也對企業和雲計算領域GPU的崛起都產生了積極影響。

在高性能計算領域被基於CPU的架構所主導的時代,要進入該領域必須構建新的框架並調整軟件以在GPU上運行。

從各個方面來看,英偉達並沒有放棄其傳統戰略,只是在軟件的具體應用方面迸發出了更多創意,而且在對於機器學習的應用也依舊具有實效。總而言之,英偉達現階段的思路仍然是沿用現有框架並盡一切可能加速計算。

最新的案例就是cuPyNumeric,屬於無處不在的NumPy庫的“替代方案”。

Harris表示,“NumPy是Python開發人員進行數學模型計算的基礎庫,目前被超過500萬科學行業開發者使用,僅上個月的下載量就達到3億次。”但他也同時承認,儘管NumPy普及度極高,但在多GPU集羣中的庫擴展方面卻遭遇到不小的挑戰。

英偉達宣稱,cuPyNumeric能夠將NumPy程序自動擴展至規模更大的集羣,且無需藉助底層分佈式計算庫。

英偉達本週還擴展了對其量子系統CUDA-Q平臺中加速動態模擬的支持。Harris表示,“依託GPU對這些全面量子比特模擬進行加速,研究人員可以測試新的量子處理器設計方案。以往對50種設計迭代進行模擬可能需要一年左右的時間,但現在大家可以在不到一個小時內輕鬆完成。”

谷歌正是首批將CUDA-Q應用於英偉達EOS超級計算機以運行大規模量子模擬的公司之一。