AMD 與甲骨文擴大合作，首批 2026 年第三季部署 5 萬顆 Instinct MI450 GPU

晶片大廠 AMD 與雲端服務供應商 Oracle 在 Oracle AI World 大會上，共同宣布大幅擴展雙方長期且跨世代的合作，協助客戶顯著擴展 AI 能力與相關部署計畫。奠基於多年來的共同創新成果，Oracle Cloud Infrastructure (OCI) 將成為首批合作夥伴，提供搭載 AMD Instinct MI450 系列 GPU 的公共 AI 超級叢集，首批將於 2026 年第 3 季部署 50,000 個 GPU，並計劃於 2027 年及未來持續擴大規模。

AMD 表示，此項合作奠基於 AMD 與 Oracle 先前共同努力的成果，為終端客戶在 OCI 上提供 AMD Instinct GPU 平台，始於 2024 年推出搭載 AMD Instinct MI300X 的運算型態（shape），並將進一步擴展至當前搭載 AMD Instinct MI355X GPU 的 OCI Compute 正式上市。而這些服務將部署於 Zettascale 等級的 OCI 超級叢集之中。

隨著新世代 AI 模型不斷超越現有 AI 叢集的極限，市場對大規模 AI 運算容量的需求正加速增長。為訓練與運行這些工作負載，客戶需具備極致規模與效率的靈活且開放式運算解決方案。OCI 計劃中的全新 AI 超級叢集將由 AMD「Helios」機架設計挹注動能，結合 AMD Instinct MI450 系列 GPU、代號為「Venice」的新一代 AMD EPYC CPU，以及代號為「Vulcano」的新一代 AMD Pensando 先進網路技術。這套垂直最佳化的機架級架構，目標為大規模 AI 訓練與推論提供極致效能、擴展性與能源效率。

Oracle Cloud Infrastructure 執行副總裁 Mahesh Thiagarajan 表示，我們的客戶正在建構世界上最前瞻性的 AI 應用，需要強大、可擴展且高效能的基礎設施。透過結合 AMD 最新的處理器創新技術、OCI 安全靈活的平台以及由 Oracle Acceleron 推動的先進網路技術，客戶可以自信地突破極限。透過我們與 AMD 從 EPYC 到 AMD Instinct 加速器長達 10 年的合作，我們將持續攜手為 AI 時代提供最佳性價比、開放、安全且可擴展的雲端基礎，以滿足客戶對新時代 AI 的需求。

AMD 執行副總裁暨資料中心解決方案事業群總經理 Forrest Norrod 則是指出，AMD 與Oracle 持續引領雲端 AI 的創新節奏。憑藉 AMD Instinct GPU、EPYC CPU 和先進的 AMD Pensando 網路技術，Oracle 客戶獲得強大的新功能，可用於訓練、微調和部署新一代 AI 應用。AMD 與 Oracle 共同透過為大規模 AI 資料中心打造的開放、最佳化且安全的系統，加速 AI 發展。

AMD 強調，搭載 Instinct MI450系列 GPU 的運算型態，目的在提供高效能且靈活的雲端部署選項，並具備廣泛的開源支援。這為客戶運行當今最先進的語言模型、生成式 AI 和高效能運算（HPC）工作負載提供理想的基礎。

透過 OCI 上的 AMD Instinct MI450 系列 GPU，客戶將能受惠於：

1. 突破性的運算與記憶體技術：透過增加 AI 訓練模型的記憶體頻寬，協助客戶加速成果產出、處理更複雜的工作負載，並降低模型分割的需求。每個 AMD Instinct MI450 系列 GPU 將提供高達 432 GB 的 HBM4 記憶體與 20 TB/s 的記憶體頻寬，讓客戶能夠在記憶體內完整訓練與推論比前一代大 50% 的模型。

2. AMD 最佳化的「Helios」機架設計：透過高密度、液冷式設計的 72 個 GPU 機架，讓客戶在大規模部署中兼顧最佳化效能密度、成本與能源效率。AMD 「Helios」機架設計整合 UALoE 向上擴展連接性，以及基於乙太網路並符合超高速乙太網路聯盟（UEC）標準的向外擴展網路，以最小化叢集與機架之間的延遲並最大化吞吐量。

3. 強大的前端節點：透過採用代號為「Venice」的新一代 AMD EPYC CPU，強化作業編排與資料處理，協助客戶最大化叢集利用率並簡化大規模工作流程。此外，EPYC CPU 將提供機密運算功能和內建安全功能，以端對端保護敏感的 AI工作負載。

4. DPU 加速的融合網路：以線速資料擷取提升大規模 AI 與雲端基礎設施效能並強化安全態勢。基於完全可程式化的 AMD Pensando DPU 技術，DPU 加速的融合網路提供資料中心運行新世代 AI 訓練、推論和雲端工作負載所需的安全性和效能。

5. AI 向外擴展網路：讓客戶能夠利用超高速分散式訓練與最佳化集體通訊，搭配具備未來性的開放式網路架構。每個 GPU 可配備多達 3 個 800 Gbps的AMD Pensando “Vulcano” AI 網路卡（AI-NIC），為客戶提供支援先進 RoCE 和 UEC 標準的無損、高速且可程式化連接能力。

6. 創新的 UALink 和 UALoE 網路架構：協助客戶有效延展工作負載、緩解記憶體瓶頸，並編排大型的數兆參數模型。此可擴展架構能最小化傳輸跳數與延遲，且無需透過 CPU 路由，並透過 UALoE 網路架構傳輸的 UALink 協定，實現機架內 GPU 之間直接且硬體一致的網路互連與記憶體共享。UALink 是專為 AI 加速器打造的開放式高速互連標準，並獲得廣泛產業體系支持。因此，客戶將享有在基於開放標準的基礎設施上運行最嚴苛 AI 工作負載所需的靈活性、擴展性與可靠性。

7. 開源 AMD ROCm 軟體堆疊：透過為客戶提供開放、靈活的程式設計環境，涵蓋主流框架、函式庫、編譯器和執行環境，實現快速創新、提供供應商選擇自由，並簡化現有 AI 和 HPC 工作負載的遷移。

8. 進階分割與虛擬化：透過細粒度 GPU 和叢集分割、SR-IOV 虛擬化技術以及強大的多租戶能力，讓客戶根據工作負載需求分配 GPU，安全且高效地共享叢集資源。

AMD 還強調，為提供大規模建構、訓練與推論 AI 的客戶更多選擇，OCI 同步宣布搭載 AMD Instinct MI355X GPU 的 OCI Compute 正式上市。這些服務將在可擴展至 131,072 個 GPU 的 Zettascale 等級 OCI 超級叢集中提供。搭載 AMD Instinct MI355X的運算型態具備高性價比、雲端部署靈活性與開源相容性。

(首圖來源：Oracle 官網)