人工智慧 GPU 工作壓力也很大,平均壽命落在 1~3 年

作者 | 發布日期 2024 年 10 月 28 日 19:15 | 分類 AI 人工智慧 , GPU , IC 設計 line share Linkedin share follow us in feedly line share
人工智慧 GPU 工作壓力也很大,平均壽命落在 1~3 年


外媒報導,現在各大科技大廠爭相砸大錢購買的資料中心 GPU,其壽命可能只有 1~3 年。至於,GPU 真實壽命會落在 1~3 年的哪個時間點上,具體取決於其利用率的狀況。

根據 Tomshardware 引用一位任職於 Alphabet 的高級專家說法,由於 GPU 承擔了 AI 訓練和推理的所有繁重工作,因此它們一直處於相當大的工作執行狀態之下,因此比其他零組件更快地退化。

報導表示,在雲端服務提供商 (CSP) 運營的資料中心中,用於 AI 工作執行的 GPU 利用率約當在 60%~70% 之間。而根據 Alphabet 生成式 AI 架構師的說法,以這種利用率來計算,GPU 通常可以存活 1~2 年,最多達到 3 年的時間。不過,這樣的說法並沒有辦法被進一步的確認,所以事實是不是如此還有待時間來證明。然而,這樣的說法似乎是仍有積分可信度,因為現代用於 AI 和 HPC 應用的資料中心 GPU 通常能耗達到 700W 或以上,這長時間工作對晶片來說是巨大的壓力。

報導指出,有一種方式可以延長 GPU 的壽命,就是減少其利用率。然而,這意味著它們會更慢的折舊,並延長收回成本的時間,這對業務來說並不是一件好事。因此,大多數雲端服務提供商更願意以高利用率來使用他們旗下佈署的 GPU。

事實上,2024 年剛開始之際,Meta 發表了一份研究報告指出,Llama 3 405B 的模型是在由 16,384 個輝達 H100 80GB GPU 驅動的叢集上進行訓練的。而該集群的模型的浮點運算利用率 (MFU) 約為 38%(使用 BF16)。但在 54 天的訓練期間,有 419 次不可預知的故障。其中有有 148 次,占比約 30.1% 的故障是由各種 GPU 故障,其中包括 NVLink 故障所引起的,而有另外的占比約 17.2% 的 72 次是由 HBM3 記憶體故障所引起。

這個 Meta 的設結果似乎對輝達 H100 GPU 的使用狀況非常有利。因為 GPU 及其記憶體在 Meta 統計比例下的速度出現故障,那麼這些 GPU 的年化故障率將約為 9%,而這些 GPU 在 3 年內的年化故障率將約為 27%。不過,要注意的是,這些 GPU 可能會在頻繁的使用一年後,將可能更頻繁地出現故障。

(首圖來源:官網)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》