
輝達 (NVIDIA) 發表 Blackwell 架構 AI 晶片 B200 首個 Llama 2 70B 大模型 MLPerf Inference 4.1 測試結果,顯示 B200 性能較上代 Hopper H100 提升四倍,即性能提升 300%。AMD 也公佈八個 MI300X GPU 在相同測試成績,整合八個 H100 與輝達 DGX H100 相當的成績,這也顯示了 AI 晶片市場的競爭激烈。
具體來說,單個輝達 Blackwell B200 GPU 在 AI 推理測試中,可以每秒生成 10,755 個 Token。另外,在離線參考測試中,則可以每秒生成 11,264 個 Token。作為比較,雖然採用 4 個 Hopper H100 GPU 的伺服器提供了接近的結果,但是單個 H00 GPU 每秒生成的 Token 數則僅有 B200 GPU 的約 1/4。這也證明了輝達的說法,即單個 Blackwell B200 GPU 的速度,達到了單個 Hopper H100 GPU 的約 3.7 至 4 倍。
而針對這樣的測試數字、市場進行了相關分析。首先,輝達的 Blackwell B200 處理器使用的是 FP4 精度,因為其第五代 Tensor Core 支持該格式,而採用 Hopper 的 H100 則僅支持和使用 FP8。雖然 MLPerf 指南允許這些不同的格式,但 Blackwell B200 中的 FP4 性能使其相比 FP8 傳輸量增加了一倍,因此這是需要注意的重要事項。
接下來,輝達在使用單個 B200 與四個 H100 GPU 對比方面似乎有些差異。因為,擴展從來都不是完美的,因此單個 GPU 往往是 GPU 性能的最佳情況。而 MLPerf 4.1 並沒有列出單個 GPU H100 結果,只有一個 B200 結果,這使得它們之間的比較並不公平。然而,單個 H200 的性能達到了每秒 4,488 個 Token,這代表著 B200 在該特定測試中,速度達到了 H100 的 2.5 倍,即快了150%。
再者,雙方之間 HBM 容量和頻寬差異也是影響因素,並且存在很大的跨代差異。測試的 B200 GPU 配備 180GB HBM3E 記憶體,而 H100 SXM 配備 80GB HBM,H200 則是配備 96GB HBM3 和高達 144GB 的 HBM3E。其中,具有 96GB HBM3 的單個 H200 在離線模式下僅達到了 3,114 個 Token。因此,數位格式、GPU 數量、記憶體容量和配置都存在差異,這些差異就會影響其測試出來的結果。而且,許多差異僅僅是因為 Blackwell B200 是一款具有更新架構的新晶片,所以進一步都影響了其最終測試性能表現。
回到配備 141GB HBM3E 記憶體的輝達 H200 上,它不僅在以 Llama 2 70B 大型語言模型為特色的生成式 AI 基準測試中也表現出色,而且在數據中心類別的每一項測試中都表現出色。再來看,AMD公佈同樣的 MLPerf Inference 4.1 測試,其 MI300X 的成績。使用搭配 AMD Genoa CPU 及 8 個 MI300X 的伺服器,在測試中性能達到了每秒 21,028 個 Token,而在離線參考測試中,性能達到了每秒 223,514 個 Token。至於,使用 AMD Turin CPU 及 8 個 MI300X 的伺服器,測試中性能達到了每秒 22,021 個 Token,在離線參考測試中,性能達到了 24,110 個 Token。
這樣的結果,代表使用 8 個 MI300X 的系統達到了接近輝達 DGX H100 系統的成績,差異大概在 2-3% 以內,也代表在測試中,單個 MI300X GPU 的性能達到了與輝達 H100 GPU 相當的水準。而綜合比較單個 AMD MI300X 與輝達 H200 和 B200 的 MLPerf Inference 4.1 測試成績來看,輝達 B200 的成績也是遙遙領先於 MI300X 和 H200,其性能平均達到了 MI300X 的 4 倍左右,也達到了 H200 的約 2.5 倍左右。這也進一步凸顯了輝達 B200 性能的領先性。
同樣需要指出的是,AMD MI300X 配備了更大的 192GB HBM,而 B200 則是 180GB HBM。不過,MI300X 的 TDP 功耗為 750W,但輝達 H200 和 B200 的 TDP 功耗則高達 1,000W。
(首圖來源:科技新報攝)