國產AI芯片算力:幸好我們有華爲,不幸的是只有華爲

一、算力對比:

算力簡單對比: H100/H800 ≈ 5 * 910B ≈5 * A800/A100 ≈ 10 * H20/L20

國產AI訓練芯片以華爲昇騰系列爲代表。華爲2018年首發昇騰B310推理芯片;2019年發佈昇騰910芯片,然後被制裁,直到2023年發佈昇騰910B芯片;2023年科大訊飛公佈其使用昇騰910B的星火一體機,據科大訊飛信息,華爲910B芯片算力可以對標A100;其後,百度爲200臺服務器訂購了1600片昇騰910B。

A800(PCIe/SXM)

A100(PCIe/SXM)

華爲Ascend 910B

H800(PCIe/SXM)

H100(PCIe/SXM)

L20(PCIe)

H20(PCIe/SXM)

深算一號

年份

2022

2020

2023

2022

2022

2023

2023

21H1

工藝

7nm

7nm

7nm

4nm

4nm

4nm

4nm

7nm

架構

Ampere

Ampere

HUAWEI Da Vinci

Hopper

Hopper

Ada Lovelace

Hopper

TDP

300/400W

300/400W

400W

350/700W

275W

400W

350W

GPU內存

80G HMB2e

80G HMB2e

80G HMB2e

80G HMB3

80G HMB3

48G DDR6

80G HMB3

32G

GPU互聯(一對一)

NVLINNK 400GB/s

PCIe Gen4 64GB/sNVLINNK 600GB/s

HCCS 56GB/s

NVLINNK 400GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 64GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 16GB/s

GPU互聯(一對多)

NVLINNK 400GB/s

PCIe Gen4 64GB/sNVLINNK 600GB/s

HCCS 392GB/s

NVLINNK 400GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 64GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

xGMI*2,184GB/s

FP32

19.5 TFLOPS

19.5 TFLOPS

51/67 TFLOPS

59.8 TFLOPS

44 TFLOPS

TP32(TensorFloat)

156/312 TFLOPS

156/312 TFLOPS

756/989 TFLOPS

59.8 TFLOPS

74 TFLOPS

BFLOAT16 TensorCore

156/312 TFLOPS

156/312 TFLOPS

119/119 TFLOPS

148/148 TFLOPS

FP16 TensorCore

312/624 TFLOPS

312/624 TFLOPS

320 TFLOPS

1513/1979TFLOPS

FP8 TensorCore

不支持

不支持

640 TFLOPS

3026/3958 TFLOPS

INT8 TensorCore

624/1248 TFLOPS

624/1248 TFLOPS

640 TFLOPS

3026/3958 TFLOPS

239/239 TFLOPS

296/296 TFLOPS

二、國內AI芯片格局將鉅變

2024年,英偉達在中國的AI芯片市場份額將大幅下滑,從90%下降到57%,國產算力份額將上升到43%,其中華爲昇騰系列是國產AI算力的絕對主力,將從8%上升到35%。

年份

2022年

2023

2024

英偉達

85%

90%

57%

華爲

10%

8%

35%

國產其他

5%

2%

8%