綜合外媒 Business Insider、Tom′s Hardware 報導,有關 NVIDIA GB200 NVL72 伺服器機架過熱問題被誇大了,其實 Blackwell 散熱設計問題已解決。
Semianalysis 首席分析師 Dylan Patel 向 Business Insider 表示,Blackwell 設計問題已存在數月之久,目前基本上已解決,過熱問題被誇大了。
引發多間供應商返工的冷卻系統問題只是輕微改變,不過 Blackwell 的冷卻故障對 NVIDIA 大型 72 個伺服器機架尤其成問題,耗電量可達 120kW。
由於機架設計缺陷,NVIDIA 必須重新評估設計,原因是機架內 GPU 過熱,導致 GB200 硬體出貨出現問題,設計變更也造成額外延後。
NVIDIA B200 是適用 AI 工作負載最強大的處理晶片。以 GB200 超級晶片為例,可配置的 TDP 高達數千瓦,峰值定額功率達 2,700 瓦;然而,這使空氣冷卻幾乎無法在標準機架安裝規格下使用,公司最新 Blackwell GPU 必須改採液冷技術,連同資料中心都必須改造其伺服器場,以容納支援液冷伺服器所需的基礎設施。
雖然 NVIDIA 可藉由製造速度較慢的氣冷式 GPU 解決問題,但為了 AI GPU 軍備競賽保持領先地位,NVIDIA 仍不計成本將效能放在首位,這也是為何輝達選擇製造需要數千瓦電力的 GPU 犧牲氣冷的原因。
NVIDIA 72 個 Blackwell 散熱問題顯然是小問題,並已解決,目前只有 NVIDIA 旗艦 72 個處理器伺服器機架出現問題。
(首圖來源:NVIDIA)