Hot Chips 2023》Nvidia Grace CPU 的核心:Arm Neoverse V2

作者 | 發布日期 2023 年 09 月 06 日 7:50 | 分類 GPU , 處理器 line share follow us in feedly line share
Hot Chips 2023》Nvidia Grace CPU 的核心:Arm Neoverse V2


「Arm 伺服器」在博通(Broadcom)、高通(Qualcomm)、AMD、三星(Samsung)等老牌半導體巨頭及 Calxeda 和 Applied Micro 等新創公司,經歷多次失敗嘗試,以及 Cavium 憑借 ThunderX 和 ThunderX2 取得極為有限的成績後,才漸有起色。這些年來,以 AWS 的 Graviton 家族為代表,Arm 指令集相容伺服器晶片發展極為迅速,預估銷售總額達總市場 10%,扣除 CISC 大型主機和數量越來越少的 RISC / Unix 伺服器,其餘還是 x86 雙雄的天下。

Arm 在 2018 年 10 月推出「雲端到邊緣基礎設施」Neoverse 產品線,包括最佳性能的 V 系列、可擴展效率的 N 系列、功耗面積縮減最佳化的 E 系列,並在 2020 年 9 月宣布將「極致效能」Neoverse V1(高效能運算、雲端運算和 AI / ML 加速型工作負載)和「高擴展性效能」Neoverse N2(高擴展度的雲端運算與基礎設施)導入發展藍圖。這些 Neoverse 體系 IP 都是針對台積電特定製程量身訂做,並混合 Arm 其他 IP,使伺服器晶片製造商更容易快速研發產品。Arm 對 Neoverse 的承諾是「每年推出一個新 Arm 伺服器平台,並每代產品提高起碼 30% 性能」。

▲ Arm Neoverse 發展藍圖,這也是時下 Arm 指令集相容伺服器處理器的基礎,不知道蘋果會不會共襄盛舉。

故單晶片與單執行緒一直是 Arm Neoverse V 系列最受看重的性能指標,像使用 Arm Neoverse V1 的 AWS Graviton3 就是最好例證。2022 年 9 月 15 日 Arm 宣布 Arm Neoverse 再添新成員,同時推出代號「Demeter」的 Neoverse V2 和 Neoverse E2,再度擴大伺服器晶片版圖,前者更是由 Nvidia Grace CPU 率先採用,內建 72 個 Neoverse 核心,但當時 Arm 並未透露 Neoverse V2 效能提升幅度。今年 Hot Chips 2023(第 35 屆),Arm 終於公開 Neoverse V2 技術細節,並以 SPEC CPU 整數測試項目,預估每環節變化對性能的影響,看起來頗酷。

▲ Arm Neoverse 的現況,除了因 Nvidia 倍受注目的 Neoverse V2,本屆 Hot Chips 有另外一場整合大量 Neoverse N2 核心與其他功能 IP 以加速產品開發、適用 Chiplet 的 CSS(Compute Subsystem)N2 議程,留待筆者另一篇文章介紹。

▲ Neoverse V2 核心微架構的全貌,經過多年發展,Arm「本家」核心也走到「每個時脈週期可解碼六個指令,並派發八個微指令(uOp)給執行單元」規模,即使看似落後蘋果好幾年。

▲ Arm 以 SPEC CPU 2017 整數運算項目為基礎,抽絲剝繭陳述每個改進環節的效能提升幅度,整體增加 13% 並減少 10.5% 系統快取記憶體(SLC)誤失率。

▲ Neoverse V2 製程從台積電 7 奈米縮小成 5 奈米,儘管 L2 快取容量倍增(1MB→2MB),但功耗僅增加 17%,晶粒面積也大致相同。

▲ 理所當然的,Neoverse V2「平台」可藉 CMN-700 互連匯流排,增加核心數量、擴充快取容量並連接其他功能 IP 區塊,但像 PCIe Gen5 和 CXL 就需要另外購買。

▲ Arm 以 SPEC CPU 2017 整數運算為 Neoverse V2 評估基準,單執行緒和多執行緒吞吐量相較 Neoverse V1,個別成長 13% 與 17.3%。

▲ 快取記憶體也有 13%~18% 效能提升。

▲ 網頁與 Proxy 伺服器則介於 20%~32%,成長顯著。

▲ 受惠於大幅改進的分支預測和指令預先擷取,分支密集資料可激增 35%~104% 效能,並減少 80% 分支預測錯誤與 70% 無用預先擷取。

▲ 人工智慧正夯,Arm 亦不可免俗強調 AI 應用,執行機械學習 XGBoost(eXtreme Gradient Boosting)極限梯度增强算法時,提升幅度高達 67%~114%。

▲ 這就是如假包換的頂上決戰:144 核心 Nvidia Grace CPU Superchip 對上兩顆 AMD EPYC 9654(總計 192 核心)和兩顆英特爾 Xeon 8480+(共 112 核心),相同功耗,吞吐量大致可達 AMD 兩倍,更不用講看來只是沙包的英特爾了。

▲ 這就是總結。

  • 相對 Neoverse V1,Neoverse V2 提升 13% SPEC CPU 2017 整數運算效能,據不同工作負載,可提高 15%~100%。
  • 人工智慧相關應用,最多可達兩倍效能,含 XGBoost 最高 114%(平均 83%)。
  • Nvidia Grace CPU Superchip 痛宰 x86 雙雄的頂規伺服器 CPU。

毫無疑問的,AWS、阿里巴巴和 Google 這些雲端巨頭陸續自研 Arm 指令集相容處理器後(Google 謠傳 2025 年開始使用兩款資料中心晶片),Arm 的伺服器 CPU IP 就是縮短產品研發時程的好幫手,也有充分理由相信,Nvidia Grace CPU Superchip 也注定不會是唯一採用 Arm Neoverse V2 的產品,應該有很多專案已在路上了。

(首圖來源:Arm

延伸閱讀: