AI 運算受限電力?微軟工程師:同州部署超過 10 萬片 H100,電網就會崩潰

作者 | 發布日期 2024 年 03 月 28 日 9:15 | 分類 AI 人工智慧 , 能源科技 , 軟體、系統 line share follow us in feedly line share
AI 運算受限電力?微軟工程師:同州部署超過 10 萬片 H100,電網就會崩潰


隨著 AI 運算要求越來越快,能源也成為值得擔憂的議題。雖然 Open AI 的 GPT-5 尚未發布,但目前有消息稱 OpenAI 似乎已著手訓練 GPT-6,而外傳 7 月發布 Llama 3 的 Meta,也有望提早至 6 月推出。

AI 新創 OpenPipe 聯合創辦人 Kyle Corbitt 在社群平台 X 上分享,GPT-5 有望 4 月下旬發布,Meta Llama 3 則是 6 月發布,以打敗另一間法國小新創 Mistral。

接著 Corbitt 發布另篇文章,表示與微軟工程師討論有關 GPT-6 的訓練集群項目及在新版本中遇到的問題。該位工程師抱怨對不同區域的 GPU 之間無限級別鏈接(infiniband-class links),實在非常痛苦。

Corbitt 續問「為何不將訓練集群集中同一個區域?」對方回應有嘗試過,但無法在同一州(a single state)下放置超過 10 萬片 H100 GPU,否則會導致電網癱瘓。

目前不確定微軟工程師所提到的 a single state 是指同一州,還是指同一個狀態,但據市調機構 Factorial Funds報告顯示,OpenAI 的文字生成影片模型 Sora 一個月內使用 4,200 至 10,500 片 H100 GPU,其中單個 H100 能在約12 分鐘內生成一個一分鐘影片,或者每小時約 5 個一分鐘影片。而在 Sora 高峰時期需要 72 萬個 H100 GPU。換言之,Sora 高峰時期如果訓練集群擺放在同個位置,可能是七個州的電網崩潰。

Corbitt 指出,不確定新 GPT 版本叫 GPT-5、GPT-4.5 還是帶企業擴展的 GPT-4J。但不可否認的是,越強大的AI 出來,開發這些模型的成本也就越來越高,面臨的環境問題也越大。

Open AI 剛剛免費發布 GPT-4 Turbo,目前已知 GPT-5 計畫今年稍晚時發布。

(首圖來源:shutterstock)

延伸閱讀: