全球 TOP10 超級電腦,其中 8 台都選 NVIDIA 的三大原因

作者 | 發布日期 2020 年 06 月 29 日 8:45 | 分類 GPU , 電腦 Telegram share ! follow us in feedly


6 月 22 日是一年一度的高性能計算大會 ISC,6 月 23 日又逢超級電腦 TOP500 榜單更新時間。根據 TOP500 剛發表的超級電腦 TOP500 榜單,中國 226 台位列第一,美國 114 台名列第二,日本以 30 台位居第三。

▲ 2020 年 6 月更新的 TOP500 超級電腦系統排名。(Source:TOP500

細看最新榜單,可發現 TOP10 的超級電腦有 8 台採用 NVIDIA GPU、InfiniBand 網路技術,或同時採用 2 種技術。TOP500 榜單的系統有 333 套(約 66%)採用 NVIDIA 技術。

▲ TOP500 超級電腦系統採用 NVIDIA GPU、Mellanox 網路技術,或同時採用 2 種技術數量。(Source:NVIDIA blog,下同)

3 年前的 2017 年 6 月,TOP500 榜單使用 NVIDIA 和 Mellanox(NVIDIA 以 69 億美元收購)的系統為 203 套,不到 TOP500 超級電腦系統的一半。為什麼在超級電腦領域 NVIDIA 進展如此迅猛?TOP100 超級電腦為何要選 NVIDIA?

高速數據互聯技術普及

NVIDIA 願意以高價收購 Mellanox 的重要原因是高速數據傳輸在大數據時代越來越重要,超級電腦系統尤其明顯。自 2019 年 11 月以來,TOP500 榜單使用 HDR InfiniBand 的系統數量幾乎增加 1 倍,共有 141 台超級電腦使用 InfiniBand,自 2019 年 6 月以來增長了 12%。

如今,TOP500 榜單將近 74% 的全新 InfiniBand 系統採用 NVIDIA Mellanox HDR 200G InfiniBand,這是智慧高速數據互聯技術迅速普及的體現。另外,在 TOP500 超級電腦,有 305 套系統使用 NVIDIA Mellanox InfiniBand 和 Ethernet 網路(約 61%)。

▲ InfiniBand 為排名前 10 的超級電腦的 7 台提速。

ISC 期間,NVIDIA 又宣布推出 Mellanox UFM Cyber​​-AI 平台,新平台運用 AI 分析技術檢測安全威脅和運行問題並預測網路故障,大幅減少 InfiniBand 數據中心的停機時間。

收購 Mellanox 和智慧高速數據互聯迅速普及是讓 NVIDIA 產品在 TOP500 榜單比例迅速提升的關鍵,但超級電腦系統性能更是關鍵。

超高性能系統像積木一樣搭建

特別是,當下 AI 和分析已成為科學計算的新需求,全球各地的研究者都正使用深度學習和數據分析預測各種最具潛力的領域,進而開展實驗。GTC2020 時 NVIDIA 就表示,位於美國阿貢國家實驗室的研究者使用 24 台 NVIDIA DGX A100 系統組成的集群掃描數十億種藥物,尋找 COVID-19 的治療方法。

NVIDIA 最新發表的安培(Ampere)架構 GPU A100 正是推動超級電腦系統選用 NVIDIA 產品的關鍵之一。在一台 6U 伺服器整合 8 顆 A100 GPU 及 NVIDIA Mellanox HDR InfiniBand 網路技術的 NVIDIA DGX A100 AI 系統,單節點性能達創紀錄的 5 petaflops。由 140 台 DGXA100 系統組成的新一代 DGX SuperPOD 的 AI 算力更是高達 700petaflop。

這對競爭已到百萬兆級超級電腦而言,意義重大,且這系統有很好的擴展性。輝達表示,DGX SuperPOD 架構設計展示如何像搭積木使用高性能 NVIDIA Mellanox InfiniBand 交換機連接 20 台 DGX A100 系統。4 名操作人員僅需不到 1 小時,就能組裝一套 20 台系統組成的 DGX A100 集群,創建出性能可達 2petaflops 的系統。

據悉,透過添加 NVIDIA Mellanox InfiniBand 交換機層,NVIDIA 工程師將 14 套分別配置 20 台 DGX A100 系統的模組相接,打造出 Selene。Selene 系統有:

  • 280 台 DGX A100 系統。
  • 2,240 顆 NVIDIA A100 GPU。
  • 494 台 NVIDIA Mellanox Quantum 200G InfiniBand 交換機。
  • 56 TB/s 的網路架構。
  • 7PB 的高性能全快閃記憶體。

Selene 最重要的性能規格之一是提供超過 1exaflops 的 AI 性能,且在 TPCx-BB 關鍵數據分析基準測試,使用 16 台 DGX A100 系統就創造了新紀錄,性能表現高其他系統 20 倍。

ISC 2020 期間,NVIDIA 還宣布推出 PCIe 版本的 A100,為的是補充 5 月發表的 4 卡和 8 卡 NVIDIA HGX A100 配置,這樣,伺服器製造商就能提供從內建單個 A100 GPU 的系統到內建 10 個以上 GPU 伺服器,進一步滿足超級電腦系統構建需求。

除了性能,TOP500 超級電腦系統也非常關注能耗,這也是 NVIDIA 吸引超級電腦系統製造商的另一大原因。

能效平均提升 2.8 倍

根據 NVIDIA 的說法,能效方面 TOP500 超級電腦使用 NVIDIA GPU 的系統與不使用的相比,能效(以 gigaflops/watt 為單位)平均高出 2.8 倍。最能證明這優勢的是上述提到的 NVIDIA 內部研究集群新成員 Selene。

(Source:TOP500

據悉,Selene 在 Linpack 基準測試以 27.5petaflops 的性能表現,在最新 Green500 榜單排名第二,TOP500 榜單排名第七。Selene 的功耗為 20.5gigaflops/watt,與 Green500 榜單的第一名相差不大,但排名第一的 MN-3 系統體積更小,性能表現排在第 394 位。

▲ NVIDIA GPU 平均提高 TOP500 超級電腦能效 2.8 倍。(Source:NVIDIA blog,下同)

值得一提的是,Selene 是 TOP100 系統唯一突破 20gigaflops/watt 能效表現大關的系統,也是全球性能排名第二的工業超級電腦,僅次於義大利能源巨頭 Eni SpA 的 No.6 系統。

而 Selene 能效比 TOP500 系統的平均表現,比未使用 NVIDIA GPU 的超級電腦系統高 6.8 倍。這種性能和能效是歸功於 A100 GPU 的第三代 Tensor Core 核心,最新一代 Tensor Core 可為傳統的 64 位元數學模擬及精準度較低的 AI 工作提供加速。

小結

高性能計算處理器是一家公司產品性能領導力的體現,更是生態實力的體現。輝達在 ISC 2020 期間宣布,今年夏天預計有 30 款搭載 A100 的伺服器上市,年底還會有 20 多款系統上市。包括華碩、Atos、思科、Dell Technologies、富士通、技嘉科技、HPE、浪潮、聯想、One Stop Systems、Quanta / QCT 和 Supermicro。

黃仁勳在 GTC2020 強調,DGX A100 系統可實現高利用率和低總擁有成本。當以高售價廣為人知的 NVIDIA 高性能 GPU 開始強調總體擁有成本和能效時,對市場的其他競爭者而言無疑是個壞消息,這也正是吸引更多超級電腦系統使用 NVIDIA 產品的關鍵因素。

並且,NVIDIA 也推出為安培架構和 A100 優化的軟體支持,包括 CUDA 11、50 多個 CUDA-X 庫的新版本;多模式對話式 AI 服務框架 NVIDIA Jarvis;深度推薦應用框架 NVIDIA Merlin;RAPIDS 開源數據科學軟體庫套件及 NVIDIA HPC SDK。

正在透過軟硬體產品幫助開發者構建並加速 HPC、基因組學、5G、數據科學、機器人學等領域的應用的 NVIDIA,未來重點的提升方向會在哪?

(本文由 雷鋒網 授權轉載;首圖來源:NVIDIA blog

延伸閱讀: