「Arm 伺服器」在博通(Broadcom)、高通(Qualcomm)、AMD、三星(Samsung)等老牌半導體巨頭及 Calxeda 和 Applied Micro 等新創公司,經歷多次失敗嘗試,以及 Cavium 憑借 ThunderX 和 ThunderX2 取得極為有限的成績後,才漸有起色。這些年來,以 AWS 的 Graviton 家族為代表,Arm 指令集相容伺服器晶片發展極為迅速,預估銷售總額達總市場 10%,扣除 CISC 大型主機和數量越來越少的 RISC / Unix 伺服器,其餘還是 x86 雙雄的天下。
Arm 在 2018 年 10 月推出「雲端到邊緣基礎設施」Neoverse 產品線,包括最佳性能的 V 系列、可擴展效率的 N 系列、功耗面積縮減最佳化的 E 系列,並在 2020 年 9 月宣布將「極致效能」Neoverse V1(高效能運算、雲端運算和 AI / ML 加速型工作負載)和「高擴展性效能」Neoverse N2(高擴展度的雲端運算與基礎設施)導入發展藍圖。這些 Neoverse 體系 IP 都是針對台積電特定製程量身訂做,並混合 Arm 其他 IP,使伺服器晶片製造商更容易快速研發產品。Arm 對 Neoverse 的承諾是「每年推出一個新 Arm 伺服器平台,並每代產品提高起碼 30% 性能」。
▲ Arm Neoverse 發展藍圖,這也是時下 Arm 指令集相容伺服器處理器的基礎,不知道蘋果會不會共襄盛舉。
故單晶片與單執行緒一直是 Arm Neoverse V 系列最受看重的性能指標,像使用 Arm Neoverse V1 的 AWS Graviton3 就是最好例證。2022 年 9 月 15 日 Arm 宣布 Arm Neoverse 再添新成員,同時推出代號「Demeter」的 Neoverse V2 和 Neoverse E2,再度擴大伺服器晶片版圖,前者更是由 Nvidia Grace CPU 率先採用,內建 72 個 Neoverse 核心,但當時 Arm 並未透露 Neoverse V2 效能提升幅度。今年 Hot Chips 2023(第 35 屆),Arm 終於公開 Neoverse V2 技術細節,並以 SPEC CPU 整數測試項目,預估每環節變化對性能的影響,看起來頗酷。
▲ Arm Neoverse 的現況,除了因 Nvidia 倍受注目的 Neoverse V2,本屆 Hot Chips 有另外一場整合大量 Neoverse N2 核心與其他功能 IP 以加速產品開發、適用 Chiplet 的 CSS(Compute Subsystem)N2 議程,留待筆者另一篇文章介紹。
▲ Neoverse V2 核心微架構的全貌,經過多年發展,Arm「本家」核心也走到「每個時脈週期可解碼六個指令,並派發八個微指令(uOp)給執行單元」規模,即使看似落後蘋果好幾年。
▲ Arm 以 SPEC CPU 2017 整數運算項目為基礎,抽絲剝繭陳述每個改進環節的效能提升幅度,整體增加 13% 並減少 10.5% 系統快取記憶體(SLC)誤失率。
▲ Neoverse V2 製程從台積電 7 奈米縮小成 5 奈米,儘管 L2 快取容量倍增(1MB→2MB),但功耗僅增加 17%,晶粒面積也大致相同。
▲ 理所當然的,Neoverse V2「平台」可藉 CMN-700 互連匯流排,增加核心數量、擴充快取容量並連接其他功能 IP 區塊,但像 PCIe Gen5 和 CXL 就需要另外購買。
▲ Arm 以 SPEC CPU 2017 整數運算為 Neoverse V2 評估基準,單執行緒和多執行緒吞吐量相較 Neoverse V1,個別成長 13% 與 17.3%。
▲ 快取記憶體也有 13%~18% 效能提升。
▲ 網頁與 Proxy 伺服器則介於 20%~32%,成長顯著。
▲ 受惠於大幅改進的分支預測和指令預先擷取,分支密集資料可激增 35%~104% 效能,並減少 80% 分支預測錯誤與 70% 無用預先擷取。
▲ 人工智慧正夯,Arm 亦不可免俗強調 AI 應用,執行機械學習 XGBoost(eXtreme Gradient Boosting)極限梯度增强算法時,提升幅度高達 67%~114%。
▲ 這就是如假包換的頂上決戰:144 核心 Nvidia Grace CPU Superchip 對上兩顆 AMD EPYC 9654(總計 192 核心)和兩顆英特爾 Xeon 8480+(共 112 核心),相同功耗,吞吐量大致可達 AMD 兩倍,更不用講看來只是沙包的英特爾了。
▲ 這就是總結。
- 相對 Neoverse V1,Neoverse V2 提升 13% SPEC CPU 2017 整數運算效能,據不同工作負載,可提高 15%~100%。
- 人工智慧相關應用,最多可達兩倍效能,含 XGBoost 最高 114%(平均 83%)。
- Nvidia Grace CPU Superchip 痛宰 x86 雙雄的頂規伺服器 CPU。
毫無疑問的,AWS、阿里巴巴和 Google 這些雲端巨頭陸續自研 Arm 指令集相容處理器後(Google 謠傳 2025 年開始使用兩款資料中心晶片),Arm 的伺服器 CPU IP 就是縮短產品研發時程的好幫手,也有充分理由相信,Nvidia Grace CPU Superchip 也注定不會是唯一採用 Arm Neoverse V2 的產品,應該有很多專案已在路上了。
(首圖來源:Arm)
延伸閱讀:
- 雲端是未來,那 ARM 在伺服器市場到底有沒有搞頭?
- 一樣是 ARM 架構,為何蘋果行動裝置處理器效能就是壓下其他人?
- 從 2017 年 Hot Chips 29 一窺晶片業界現況與趨勢
- 充滿傳奇色彩且對後世影響深遠的 Alpha 處理器
- 時代的眼淚系列:繁華落盡的 SPARC 處理器
- 促使 Nvidia 大手筆購併 Arm 的原因是什麼?
- Nvidia Smart NIC 不單是 Arm 與 GPU 送做堆,而是「掀起革命一角推翻 x86」的起點
- 現在是 AMD 進攻 ARM 伺服器的好時機嗎?
- 英特爾與 AMD 的 x86 伺服器戰爭編年史
- 如果英特爾自己重新打造 ARM 處理器會發生什麼事
- 回顧歷史夢幻處理器:RISC 諸神的最後榮光
- 一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(上)
- 一覽處理器廠商的「人工智慧推論加速單元」:智慧手機篇(下)