人工智慧 GPU 工作壓力也很大，平均壽命落在 1~3 年

外媒報導，現在各大科技大廠爭相砸大錢購買的資料中心 GPU，其壽命可能只有 1~3 年。至於，GPU 真實壽命會落在 1~3 年的哪個時間點上，具體取決於其利用率的狀況。

根據 Tom’s hardware 引用一位任職於 Alphabet 的高級專家說法，由於 GPU 承擔了 AI 訓練和推理的所有繁重工作，因此它們一直處於相當大的工作執行狀態之下，因此比其他零組件更快地退化。

報導表示，在雲端服務提供商 (CSP) 運營的資料中心中，用於 AI 工作執行的 GPU 利用率約當在 60%~70% 之間。而根據 Alphabet 生成式 AI 架構師的說法，以這種利用率來計算，GPU 通常可以存活 1~2 年，最多達到 3 年的時間。不過，這樣的說法並沒有辦法被進一步的確認，所以事實是不是如此還有待時間來證明。然而，這樣的說法似乎是仍有積分可信度，因為現代用於 AI 和 HPC 應用的資料中心 GPU 通常能耗達到 700W 或以上，這長時間工作對晶片來說是巨大的壓力。

報導指出，有一種方式可以延長 GPU 的壽命，就是減少其利用率。然而，這意味著它們會更慢的折舊，並延長收回成本的時間，這對業務來說並不是一件好事。因此，大多數雲端服務提供商更願意以高利用率來使用他們旗下部署的 GPU。

事實上，2024 年剛開始之際，Meta 發表了一份研究報告指出，Llama 3 405B 的模型是在由 16,384 個輝達 H100 80GB GPU 驅動的叢集上進行訓練的。而該集群的模型的浮點運算利用率 (MFU) 約為 38%（使用 BF16）。但在 54 天的訓練期間，有 419 次不可預知的故障。其中有有 148 次，占比約 30.1% 的故障是由各種 GPU 故障，其中包括 NVLink 故障所引起的，而有另外的占比約 17.2% 的 72 次是由 HBM3 記憶體故障所引起。

這個 Meta 的設結果似乎對輝達 H100 GPU 的使用狀況非常有利。因為 GPU 及其記憶體在 Meta 統計比例下的速度出現故障，那麼這些 GPU 的年化故障率將約為 9%，而這些 GPU 在 3 年內的年化故障率將約為 27%。不過，要注意的是，這些 GPU 可能會在頻繁的使用一年後，將可能更頻繁地出現故障。

(首圖來源：輝達)