國產AI芯片算力:幸好我們有華爲,不幸的是只有華爲
一、算力對比:
算力簡單對比: H100/H800 ≈ 5 * 910B ≈5 * A800/A100 ≈ 10 * H20/L20
國產AI訓練芯片以華爲昇騰系列爲代表。華爲2018年首發昇騰B310推理芯片;2019年發佈昇騰910芯片,然後被制裁,直到2023年發佈昇騰910B芯片;2023年科大訊飛公佈其使用昇騰910B的星火一體機,據科大訊飛信息,華爲910B芯片算力可以對標A100;其後,百度爲200臺服務器訂購了1600片昇騰910B。
A800(PCIe/SXM)
A100(PCIe/SXM)
華爲Ascend 910B
H800(PCIe/SXM)
H100(PCIe/SXM)
L20(PCIe)
H20(PCIe/SXM)
深算一號
年份
2022
2020
2023
2022
2022
2023
2023
21H1
工藝
7nm
7nm
7nm
4nm
4nm
4nm
4nm
7nm
架構
Ampere
Ampere
HUAWEI Da Vinci
Hopper
Hopper
Ada Lovelace
Hopper
TDP
300/400W
300/400W
400W
350/700W
275W
400W
350W
GPU內存
80G HMB2e
80G HMB2e
80G HMB2e
80G HMB3
80G HMB3
48G DDR6
80G HMB3
32G
GPU互聯(一對一)
NVLINNK 400GB/s
PCIe Gen4 64GB/sNVLINNK 600GB/s
HCCS 56GB/s
NVLINNK 400GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
PCIe Gen4 64GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
PCIe Gen4 16GB/s
GPU互聯(一對多)
NVLINNK 400GB/s
PCIe Gen4 64GB/sNVLINNK 600GB/s
HCCS 392GB/s
NVLINNK 400GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
PCIe Gen4 64GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
xGMI*2,184GB/s
FP32
19.5 TFLOPS
19.5 TFLOPS
51/67 TFLOPS
59.8 TFLOPS
44 TFLOPS
TP32(TensorFloat)
156/312 TFLOPS
156/312 TFLOPS
756/989 TFLOPS
59.8 TFLOPS
74 TFLOPS
BFLOAT16 TensorCore
156/312 TFLOPS
156/312 TFLOPS
119/119 TFLOPS
148/148 TFLOPS
FP16 TensorCore
312/624 TFLOPS
312/624 TFLOPS
320 TFLOPS
1513/1979TFLOPS
FP8 TensorCore
不支持
不支持
640 TFLOPS
3026/3958 TFLOPS
INT8 TensorCore
624/1248 TFLOPS
624/1248 TFLOPS
640 TFLOPS
3026/3958 TFLOPS
239/239 TFLOPS
296/296 TFLOPS
二、國內AI芯片格局將鉅變
2024年,英偉達在中國的AI芯片市場份額將大幅下滑,從90%下降到57%,國產算力份額將上升到43%,其中華爲昇騰系列是國產AI算力的絕對主力,將從8%上升到35%。
年份
2022年
2023
2024
英偉達
85%
90%
57%
華爲
10%
8%
35%
國產其他
5%
2%
8%