AI 軍備競賽持續,全球最大的科技公司都盡可能擴大業務規模,而 AMD 最近在採訪中提到一個相當雄心勃勃的目標,即擁有約 120 萬 GPU 的 AI 叢集(AI cluster),這相當於當今最強大超級電腦中 GPU 數量的 20 多倍,也代表下一代 AI 訓練系統在規模、功率和成本都有相當大轉變。
AMD 資料中心業務副總裁兼總經理 Forrest Norrod 接受媒體 The Next Platform 訪談時透露這個數字。被問到客戶考慮最大 AI 叢集數字,Norrod 直接說出 120 萬 GPU 這個數字範圍內,並補充是單台電腦。
這理論數字過於龐大,能否實現仍有待商榷,不過 Norrod 表示,各間公司都在考慮未來 AI 相關專案上投入數百億甚至上千億美元。AMD 以 Epyc 驅動的橡樹嶺國家實驗室 Frontier 超級電腦,在最新公布的 Top500 全球超級電腦排行榜中再度穩坐全球最快超級電腦,成本為 6 億美元。不過,這台超級電腦也只有 37,888 個 MI250X GPU,因此擁有 120 萬個 GPU 的電腦實際更困難。
至於在 GPU 與 NVIDIA 的競爭問題,Norrod 指出,AMD 已經占資料中心 CPU 市場 30%,GPU 領域能否有如此多占比仍持懷疑態度。他表示,NVIDIA 是市場主導者,考慮該公司在硬體、CUDA 軟體都占據主導地位,這是個艱鉅的任務。
(首圖來源:AMD )