輝達(NVIDIA)宣布 xAI 在美國田納西州孟菲斯市使用 NVIDIA Spectrum-X 乙太網路平台打造出規模龐大、搭載 10 萬個 NVIDIA Hopper Tensor 核心 GPU 的 Colossus 超級電腦叢集。
NVIDIA Spectrum-X平台為多租戶、超大規模AI工廠提供卓越性能而設計,使用標準乙太網路做為其遠端直接記憶體存取(RDMA)網路。
Colossus是全球最大的人工智慧超級電腦,用於訓練xAI的Grok系列大型語言模型,並為X Premium用戶提供聊天機器人功能。xAI正在將Colossus的規模擴大一倍,總計將搭載20萬個NVIDIA Hopper GPU。
xAI與NVIDIA在短短122天內就建置出相關配套設施與Colossus這具最先進的超級電腦,這種規模的系統通常要用到幾個月到幾年的時間建置。從安裝第一個機架到開始訓練AI僅歷時19天。
NVIDIA表示,Colossus超級電腦在訓練規模極為龐大的Grok模型時,展現出前所未有的網路效能。在所有三層網路結構中,系統都未因流量碰撞而出現應用程式延遲或封包遺失的情況。Colossus超級電腦藉由Spectrum-X壅塞控制功能,保有95%的資料輸送量;標準乙太網路會無法大規模達到這樣的效能水準,會造成上千次的流量碰撞,又只能提供60%的資料輸送量。