訓練 Grok 3 模型恐要 10 萬顆 H100 GPU,耗掉一座小城市用電量

作者 | 發布日期 2024 年 04 月 10 日 18:16 | 分類 AI 人工智慧 , GPU , 伺服器 line share follow us in feedly line share
訓練 Grok 3 模型恐要 10 萬顆 H100 GPU,耗掉一座小城市用電量


特斯拉、xAI 創辦人暨執行長馬斯克(Elon Musk)對 AGI(Artificial General Intelligence,通用人工智慧)發展做出大膽預測,並討論 AI 產業面臨的兩大挑戰。

馬斯克日前透過 X 平台(前身為 Twitter)與挪威央行投資管理公司(Norges Bank Investment Management)執行長坦根(Nicolai Tangen)線上對談,預測 AGI 最快 2025 年或 2026 年超越人類智慧,但需要大量 GPU 訓練,同時需要大量電力供應 GPU 運算。

隨著 Grok 1.5 釋出,xAI 正在訓練下一代大型語言模型 Grok 2,預計可在 5 月完成訓練。馬斯克透露,訓練 Grok 2 需要多達 20,000 顆 NVIDIA H100 GPU,到了 Grok 3 以後模型需要 100,000 顆 H100 GPU。

進一步看,H100 GPU 充分利用時功耗約 700W,因此 100,000 顆 GPU 用於 AI 和 HPC 工作負載,可能消耗高達 70 兆瓦。由於這些 GPU 需要伺服器和冷卻系統來運行,可以肯定地是,擁有 100,000 顆 H100 GPU 的資料中心消耗約 100 兆瓦的電力,相當於一座小城市的用電量。

馬斯克強調,目前 GPU 供應短缺已是重大障礙,但電力供應在未來一兩年內將變得越來越棘手,這樣的雙重限制凸顯出 AI 技術演進、運算需求激增所面臨的挑戰。

(首圖來源:shutterstock)