打破 16 項 AI 性能紀錄,Nvidia A100 GPU 要無人能敵?

作者 | 發布日期 2020 年 08 月 03 日 9:00 | 分類 AI 人工智慧 , GPU , 零組件 line share follow us in feedly line share
打破 16 項 AI 性能紀錄,Nvidia A100 GPU 要無人能敵?


7 月 30 日,MLPerf 組織發布第 3 個版本 MLPerf Training v0.7 基準測試(Benchmark)結果。輝達(Nvidia)基於今年 5 月最新 Ampere 架構 A100 Tensor Core GPU,和 HDR InfiniBand 達成多個 DGX A100 系統互聯的龐大集群──DGX SuperPOD 系統,性能方面開創了 8 個全新里程碑,共打破 16 項紀錄。 

打破 MLPerf Training 最新基準測試 16 項紀錄

MLPerf 是 2018 年 5 月成立的行業基準測試組織,在 AI 備受關注的當下,獲得晶片巨頭和 AI 晶片公司、AI 業界的廣泛關注。為了讓機器學習處理器的基準測試也像 CPU,MLPerf 組織囊括業界所有知名企業和機構,如英特爾、Nvidia、Google、亞馬遜、阿里巴巴和百度、微軟、史丹佛大學等。

巨頭公司樂於透過 MLPerf 的成績證明自家 AI 實力,平頭哥半導體去年 11 月 MLPerf 首版基準測試成績公布後,就強調自主研發的 AI 晶片含光 800 在 Resnet50 基準測試獲得單晶片性能第一。

身為 AI 領軍者,Nvidia 自然也不會錯過 MLPerf 基準測試。2018 年 12 月,Nvidia 首次在 MLPerf 訓練基準測試創下 6 項紀錄,次年 7 月 Nvidia 再創 8 項紀錄。最新 MLPerf Training v0.7 基準測試,有兩項新測試和一項經大幅修訂的測試。

基準測試之一排名推薦系統性能。推薦系統是日益普及的 AI 任務。另一項基準測試是測試使用 BERT 的對話式 AI,BERT 是現有最複雜的神經網路模型之一。還有強化學習測試使用 Mini-go 和全尺寸 19×19 圍棋棋盤,是本輪最複雜的測試,內容涵蓋遊戲到訓練等多項操作。

Nvidia 是唯一一家在 MLPerf Training v0.7 測試均採用市售商品的公司。其他大多數提交的是預覽類(preview category),預計需幾個月後才會面市。使用研究類產品,可能長時間都不會面市。

此次提交結果的 9 家公司,除 Nvidia 外,還有 6 家公司多家生態系統合作夥伴也提交基於 Nvidia GPU 的 MLPerf 測試結果。包括 3 家雲端服務提供商(阿里雲、Google 雲和騰訊雲)和 3 家伺服器製造商(戴爾、富士通和浪潮)。

18 個月內做到 AI 性能 4 倍提升

創造紀錄的 Nvidia DGX SuperPOD 系統是基於 Ampere 架構及 Volta 架構。之前曾報導,5 月發表的最近 Ampere 架構 GPU A100 基於台積電 7 奈米製程,面積高達 826 平方公釐,整合 540 億個晶體管。比起 Volta 架構高達 20 倍的性能提升,並可同時滿足 AI 訓練和推理的需求。

▲ A100 對比 V100。

由 8 個安培 A100 GPU 打造的 NVIDIA DGX A100 AI 系統單節點性能,達創紀錄的 5petaflops。

此次,Nvidia 在 Selene 執行系統 MLPerf 測試,Selene 是基於 DGX SuperPOD 的內部集群。DGX SuperPOD 是針對大規模 GPU 集群的公共參考架構,可在數週內完成部署。

根據測試結果,相較首輪 MLPerf 訓練測試使用的基於 V100 GPU 系統,如今 DGX A100 系統能以相同吞吐率,18 個月內做到 4 倍性能提升。

取得里程碑的原因除了強大硬體,還有兩大關鍵──軟體和網路連接。

A100 GPU 搭配 CUDA-X 庫的軟體更新,支援透過 Mellanox HDR 200Gb/s InfiniBand 網路構建的擴展集群。HDR InfiniBand 可達成極低延遲和高數據吞吐量,同時透過可擴展分層聚合和縮減協議(SHARP)技術,提供智慧深度學習計算加速引擎。

Nvidia A100 能否無人能敵?

Nvidia A100 發表後,有業界人士表示 GPU 性能又上一階,AI 晶片新創公司想超越 Nvidia 的難度又增加了。

但相比硬體超越,軟硬體生態才是巨頭公司更大的優勢。據悉,透過最新軟體優化,基於 NVIDIA V100 的 DGX-1 系統也可達成 2 倍性能提升。

就此次最新基準測試而言,提交基於 Nvidia GPU 的 MLPerf 測試結果的公司大多採用 Nvidia 的軟體中心 NGC 容易,以及參賽用的公開框架。另外,包括 MLPerf 合作夥伴等近 20 家雲端服務提供商和 OEM 組成的生態系統,已採用或計劃採用 A100 GPU 打造線上實例、伺服器和 PCIe 卡。

Nvidia 表示,A100 進入市場的速度也比以往 Nvidia 的 GPU 更快,發布初期用於 Nvidia 的第三代 DGX 系統,正式發表 6 週後,A100 就登陸 Google Cloud。

當然,Nvidia 也透過更多行業軟體吸引用戶。比如 5 月,Nvidia 發表兩個應用框架──對話用式 AI 的 Jarvis 和用於推薦系統的 Merlin。還有針對汽車業市場的NVIDIA DRIVE、醫療健康市場的 Clara、機器人技術市場的 Isaac 及零售/智慧城市市場的 Metropolis。

性能和生態都極佳的 A100,能讓 Nvidia 在 AI 市場無敵手嗎?又價格會是阻礙嗎?

(本文由 雷鋒網 授權轉載;首圖來源:Nvidia