比 Frontier 快了 10 倍,AMD 與 HPE 聯手打造效能達 2 exaFLOPS 的全球最快超級電腦

作者 | 發布日期 2020 年 03 月 05 日 12:45 | 分類 GPU , 伺服器 , 晶片 Telegram share ! follow us in feedly


AMD 與慧與科技(HPE;Hewlett Packard Enterprise)於週三表示將聯手打造主要用來測試核子武器的全球最快超級電腦。這台名為「El Capitan」的美國能源部(Department of Energy,DOE)超級電腦將會安裝在勞倫斯利佛摩國家實驗室(Lawrence Livermore National Laboratory,LLNL),運算速度可達每秒 2 百萬兆次浮點運算(2 exaFLOPS),比當前效能最強大的超級電腦快了 10 倍,預計 2023 年正式上線服役。

早在去年 8 月,美國能源部和克雷公司(Cray,現屬 HPE 的一部分)就宣布了名為 El Capitan 的第三台美國百萬兆級(Exascale)超級電腦計畫。該系統預定於 2023 年初安裝在 LLNL 實驗室中,主要供美國國家核子安全總署(National Nuclear Security Administration,NNSA)使用,該單位將超級電腦用於核子武器建模。

DOE 和 HPE 週三下午宣布了這台超級電腦的架構細節,表明 AMD 將同時提供 CPU 和加速器(GPU),並對這台超級電腦的效能估計進行修正。7 個月前,「El Capitan」原本的效能估計為 1.5 exaFLOPS,如今因為一些配置變更,DOE 預估該系統在完全安裝後將能達到 2 exaFLOPS,成為美國當前最快的百萬兆級系統。

El Capitan 是 Frontier 的衍生物,但青出於藍勝於藍

整體而言,El Capitan 是 DOE 旗下 CORAL-2 超級電腦計畫的第二套系統。與類似的 Frontier 系統一樣,El Capitan 價格也高達 6 億美元,其目的是為了確保美國在百萬兆級時代之超級電腦的領先地位。LLNL 實驗室將使用該系統來取代他們目前的 IBM Power 9 + NVIDIA Volta 超級電腦 Sierra。在效能上,El Capitan 將比其所取代的系統快 16 倍。LLNL 實驗室將它主要用在核子武器建模上(以取代真槍實彈的實際測試),同時也會應用到其他領域研究系統之「再利用」(Secondary Use)上,特別是會應用到機器學習的領域上。

El Capitan 是 AMD 成功拿下第二回百萬兆級超級電腦大單的代表作,該公司還為橡樹嶺國家實驗室(Oak Ridge National Laboratory,ORNL)提供了 1.5 exaFLOPS 「Frontier」系統的 CPU 和 GPU。實際上,從硬體的角度來看,高水準的 El Capitan 看起來與 Frontier 非常相似。Cray 是 El Capitan 和 Frontier 這兩個系統的主要承包商,兩者皆屬 Cray Shasta 系統,採用 AMD 處理器、Cray 機櫃和 Slingshot 互連技術。

在 CPU 方面,AMD 將提供標準版的 Zen 4 架構 Genoa EPYC 處理器,由於它是比當前 AMD 產品還要晚兩代的最新處理器,所以目前相關技術細節仍然很少,但可以確定的是,該處理器將支援 Infinity Fabric 3 次世代記憶體,並承諾能提供更前瞻的單執行緒與多執行緒效能。

在 GPU 方面,AMD 和 Cray 仍在繼續密切合作,雖然確定將支援採用新架構的次世代 AMD GPU,但目前仍然沒有新 GPU 名稱及其他技術細節的資訊。目前可以確定的是,該 GPU 將支援次世代高頻寬記憶體(High Bandwidth Memory,HBM)技術,並支援混合式精確運算(Mixed Precision Computing),以提高深度學習效能。

支援採用統一記憶體架構的 IF 3.0 及 Cray Slingshot 互連技術

在互連性上,和 Frontier 一樣的,El Capitan 將以 4:1 的配置運行,每顆 CPU 連接 4 顆 GPU。透過 Infinity Fabric 3.0(IF 3.0)的支援,AMD 承諾將進一步改善晶片間頻寬與延遲。然而,最有趣的聲明莫過於 IF 3.0 裝置節點將支援跨 CPU 與 GPU 的統一記憶體架構(Unified Memory),其不僅能促進系統程式設計效益,還能在運行異質工作負載時提升系統效能。

如同前述的,Cray 自家的 Slingshot 互連技術能將節點串聯在一起。不僅如此,Slingshot 並支援自適性路由、擁塞管理和服務品質(QoS)功能。其互連速度可達每埠 200Gb / s 的效能表現,透過個別刀鋒伺服器為刀鋒上每顆 GPU 提供合併的單一連接埠,其他節點便能直接對 GPU 記憶體進行資料的讀寫。此外,在系統布局上,El Capitan 預計使用的電力不到 40 百萬瓦(MW),DOE 透露屆時的實際耗電量將會更低。

整體而言,El Capitan 標誌著 AMD 在百萬兆級超級電腦訂單爭奪戰中的第二回重大勝利,AMD 去年才剛剛憑藉 Frontier 首次拿下超級電腦大單,而 Cray 則同時涉足美國 3 項百萬兆級系統的建置作業。因此,這對兩家供應商來說都是展現並宣傳自己堅強實力與品牌的巨大勝利。

(首圖來源:LLNL 實驗室