打破 16 項 AI 性能紀錄，Nvidia A100 GPU 要無人能敵？

7 月 30 日，MLPerf 組織發布第 3 個版本 MLPerf Training v0.7 基準測試（Benchmark）結果。輝達（Nvidia）基於今年 5 月最新 Ampere 架構 A100 Tensor Core GPU，和 HDR InfiniBand 達成多個 DGX A100 系統互聯的龐大集群──DGX SuperPOD 系統，性能方面開創了 8 個全新里程碑，共打破 16 項紀錄。

打破 MLPerf Training 最新基準測試 16 項紀錄

MLPerf 是 2018 年 5 月成立的行業基準測試組織，在 AI 備受關注的當下，獲得晶片巨頭和 AI 晶片公司、AI 業界的廣泛關注。為了讓機器學習處理器的基準測試也像 CPU，MLPerf 組織囊括業界所有知名企業和機構，如英特爾、Nvidia、Google、亞馬遜、阿里巴巴和百度、微軟、史丹佛大學等。

巨頭公司樂於透過 MLPerf 的成績證明自家 AI 實力，平頭哥半導體去年 11 月 MLPerf 首版基準測試成績公布後，就強調自主研發的 AI 晶片含光 800 在 Resnet50 基準測試獲得單晶片性能第一。

身為 AI 領軍者，Nvidia 自然也不會錯過 MLPerf 基準測試。2018 年 12 月，Nvidia 首次在 MLPerf 訓練基準測試創下 6 項紀錄，次年 7 月 Nvidia 再創 8 項紀錄。最新 MLPerf Training v0.7 基準測試，有兩項新測試和一項經大幅修訂的測試。

基準測試之一排名推薦系統性能。推薦系統是日益普及的 AI 任務。另一項基準測試是測試使用 BERT 的對話式 AI，BERT 是現有最複雜的神經網路模型之一。還有強化學習測試使用 Mini-go 和全尺寸 19×19 圍棋棋盤，是本輪最複雜的測試，內容涵蓋遊戲到訓練等多項操作。

Nvidia 是唯一一家在 MLPerf Training v0.7 測試均採用市售商品的公司。其他大多數提交的是預覽類（preview category），預計需幾個月後才會面市。使用研究類產品，可能長時間都不會面市。

此次提交結果的 9 家公司，除 Nvidia 外，還有 6 家公司多家生態系統合作夥伴也提交基於 Nvidia GPU 的 MLPerf 測試結果。包括 3 家雲端服務提供商（阿里雲、Google 雲和騰訊雲）和 3 家伺服器製造商（戴爾、富士通和浪潮）。

18 個月內做到 AI 性能 4 倍提升

創造紀錄的 Nvidia DGX SuperPOD 系統是基於 Ampere 架構及 Volta 架構。之前曾報導，5 月發表的最近 Ampere 架構 GPU A100 基於台積電 7 奈米製程，面積高達 826 平方公釐，整合 540 億個晶體管。比起 Volta 架構高達 20 倍的性能提升，並可同時滿足 AI 訓練和推理的需求。

▲ A100 對比 V100。

由 8 個安培 A100 GPU 打造的 NVIDIA DGX A100 AI 系統單節點性能，達創紀錄的 5petaflops。

此次，Nvidia 在 Selene 執行系統 MLPerf 測試，Selene 是基於 DGX SuperPOD 的內部集群。DGX SuperPOD 是針對大規模 GPU 集群的公共參考架構，可在數週內完成部署。

根據測試結果，相較首輪 MLPerf 訓練測試使用的基於 V100 GPU 系統，如今 DGX A100 系統能以相同吞吐率，18 個月內做到 4 倍性能提升。

取得里程碑的原因除了強大硬體，還有兩大關鍵──軟體和網路連接。

A100 GPU 搭配 CUDA-X 庫的軟體更新，支援透過 Mellanox HDR 200Gb/s InfiniBand 網路構建的擴展集群。HDR InfiniBand 可達成極低延遲和高數據吞吐量，同時透過可擴展分層聚合和縮減協議（SHARP）技術，提供智慧深度學習計算加速引擎。

Nvidia A100 能否無人能敵？

Nvidia A100 發表後，有業界人士表示 GPU 性能又上一階，AI 晶片新創公司想超越 Nvidia 的難度又增加了。

但相比硬體超越，軟硬體生態才是巨頭公司更大的優勢。據悉，透過最新軟體優化，基於 NVIDIA V100 的 DGX-1 系統也可達成 2 倍性能提升。

就此次最新基準測試而言，提交基於 Nvidia GPU 的 MLPerf 測試結果的公司大多採用 Nvidia 的軟體中心 NGC 容易，以及參賽用的公開框架。另外，包括 MLPerf 合作夥伴等近 20 家雲端服務提供商和 OEM 組成的生態系統，已採用或計劃採用 A100 GPU 打造線上實例、伺服器和 PCIe 卡。

Nvidia 表示，A100 進入市場的速度也比以往 Nvidia 的 GPU 更快，發布初期用於 Nvidia 的第三代 DGX 系統，正式發表 6 週後，A100 就登陸 Google Cloud。

當然，Nvidia 也透過更多行業軟體吸引用戶。比如 5 月，Nvidia 發表兩個應用框架──對話用式 AI 的 Jarvis 和用於推薦系統的 Merlin。還有針對汽車業市場的NVIDIA DRIVE、醫療健康市場的 Clara、機器人技術市場的 Isaac 及零售／智慧城市市場的 Metropolis。

性能和生態都極佳的 A100，能讓 Nvidia 在 AI 市場無敵手嗎？又價格會是阻礙嗎？

（本文由雷鋒網授權轉載；首圖來源：Nvidia）