Intel正式發佈Gaudi 3 AI加速器:1200W功耗!性價比兩倍於NVIDIA H100
早在4月份,Intel就宣佈了新一代AI加速器Gaudi 3,現在它終於發佈了,詳細的規格參數也已出爐,競爭對手直指NVIDIA H100 GPU加速器,當然後者的Blackwell系列也要上量了。
Gaudi 3的規格提升幅度堪稱跨越式的,製造工藝從臺積電7nm來到臺積電5nm,MME(矩陣乘法引擎)從2個增加到8個,雖然每個MME內部的TPC(張量處理核心)從12個減少到8個,但是總數從24個大幅增加到了64個,另外媒體解碼器差從8個增至14個。
內置SRAM緩存容量翻番至96MB,帶寬翻倍至12.8TB/s。
核心性能方面,MME BF16/FP8都是1835 TFlops(每秒1.835億億次),矢量BF16則是28.8 TFlops(每秒28.8萬億次),分別提升了3.2倍、1.1倍、1.6倍。
HBM2E高帶寬內存容量從96GB增加到128GB(八顆),帶寬也順應增加來到驚人的3.7TB/s。
24個200Gb RDMA網絡接口,雙向網絡互連帶寬1.2TB/s,主機接口峰值雙向帶寬128GB/s,系統總線升級爲PCIe 5.0 x16。
按照官方說法,Gaudi 3對比NVIDIA H100,LLM大模型推理性能領先50%、訓練時間快40%,性價比則是對手的2倍。
開發方面,無縫兼容PyTorch框架、Hugging Face Transformer和擴散模型。
Gaudi 3加速器提供三種部署形態,一是OAM 2.0標準夾層卡,被動散熱峰值功耗900W,液冷散熱峰值功耗1200W,支持48個112Gb PAM4SerDes網絡鏈接。
二是HLB-325通用基板,支持八顆Gaudi 3,具體功耗未披露。
三是HL-338擴展卡,PCIe 5.0 x16接口,被動散熱峰值功耗600W,還可以四卡互連。
Intel此前已宣佈,IBM將會在其雲服務中部署Gaudi 3加速器。
另有消息稱,Gaudi 3加速器也有中國特供版,其中OAM模組、PCIe模組的峰值功耗都限制至450W,算力自然也會大打折扣,但暫無更進一步說法。