外媒 The Information 的報導,輝達新一代 Blackwell 架構 AI 晶片在高容量的機架伺服器中存在嚴重的過熱問題。而這些問題導致輝達的設計調整與計畫延期,使 Google、 Meta 和微軟等主要客戶對能否按計畫部署搭載 Blackwell 架構 AI 晶片的伺服器感到擔憂。
報導引用知情人士說法,Blackwell 架構 AI 晶片專為 AI 和高性能計算(HPC)所設計,但 72 個處理器伺服器出現過熱問題,此類伺服器每個機架功耗最高可達 120 KW。過熱問題迫使輝達多次修改機架設計,不僅限制晶片性能,還可能損壞硬體。客戶因此擔心,這些問題會延後資料中心的伺服器部署時程。
為解決問題,輝達要求供應商調整機架設計,並與合作夥伴一起最佳化散熱系統。儘管這種工程改進是大規模技術常有的步驟,但也延後產品交貨時間。輝達發言人回應,正與雲端運算服務提供商密切合作,設計調整屬於正常研發流程一部分,輝達希望合作確保最終產品性能和可靠性達到預期,同時加緊解決技術瓶頸。
修正後 Blackwell 架構 AI 晶片最快 2025 年 1 月底出貨。Google、Meta、微軟等科技大廠依賴輝達的 AI 晶片訓練 AI 模型。延期交貨對這些客戶的研發計畫和產品的影響自然不可避免。
(首圖來源:科技新報攝)