AI 運算受限電力？微軟工程師：同州部署超過 10 萬片 H100，電網就會崩潰

隨著 AI 運算要求越來越快，能源也成為值得擔憂的議題。雖然 Open AI 的 GPT-5 尚未發布，但目前有消息稱 OpenAI 似乎已著手訓練 GPT-6，而外傳 7 月發布 Llama 3 的 Meta，也有望提早至 6 月推出。

AI 新創 OpenPipe 聯合創辦人 Kyle Corbitt 在社群平台 X 上分享，GPT-5 有望 4 月下旬發布，Meta Llama 3 則是 6 月發布，以打敗另一間法國小新創 Mistral。

GPT-5 AND LLAMA 3 TIMELINE LEAKS

Highest confidence rumors I’ve heard are late April for GPT-5 and early June for Llama 3 (expected to beat Mistral at all sizes).

Anyone hear something different? Reply in thread to confirm.

— Kyle Corbitt (@corbtt) March 25, 2024

接著 Corbitt 發布另篇文章，表示與微軟工程師討論有關 GPT-6 的訓練集群項目及在新版本中遇到的問題。該位工程師抱怨對不同區域的 GPU 之間無限級別鏈接（infiniband-class links），實在非常痛苦。

Corbitt 續問「為何不將訓練集群集中同一個區域？」對方回應有嘗試過，但無法在同一州（a single state）下放置超過 10 萬片 H100 GPU，否則會導致電網癱瘓。

Spoke to a Microsoft engineer on the GPT-6 training cluster project. He kvetched about the pain they’re having provisioning infiniband-class links between GPUs in different regions.

Me: “why not just colocate the cluster in one region?"
Him: “Oh yeah we tried that first. We…

— Kyle Corbitt (@corbtt) March 25, 2024

目前不確定微軟工程師所提到的 a single state 是指同一州，還是指同一個狀態，但據市調機構 Factorial Funds報告顯示，OpenAI 的文字生成影片模型 Sora 一個月內使用 4,200 至 10,500 片 H100 GPU，其中單個 H100 能在約12 分鐘內生成一個一分鐘影片，或者每小時約 5 個一分鐘影片。而在 Sora 高峰時期需要 72 萬個 H100 GPU。換言之，Sora 高峰時期如果訓練集群擺放在同個位置，可能是七個州的電網崩潰。

Corbitt 指出，不確定新 GPT 版本叫 GPT-5、GPT-4.5 還是帶企業擴展的 GPT-4J。但不可否認的是，越強大的AI 出來，開發這些模型的成本也就越來越高，面臨的環境問題也越大。

Open AI 剛剛免費發布 GPT-4 Turbo，目前已知 GPT-5 計畫今年稍晚時發布。

（首圖來源：shutterstock）