根據外媒 The Information 的報導,輝達新一代 Blackwell 架構 AI 晶片在高容量的機架伺服器中存在嚴重的過熱問題。而這些問題導致輝達的設計調整與計畫延期,使 Google、 Meta 和微軟等主要客戶對能否按計畫部署搭載 Blackwell 架構 AI 晶片的伺服器感到擔憂。
報導引用知情人士的說法報導指出,Blackwell 架構 AI 晶片專為 AI 和高性能計算(HPC)所設計,但在配置 72 個處理器的伺服器中出現過熱問題,此類伺服器每個機架功耗最高可達 120 KW。而過熱問題迫使輝達多次修改機架設計,不僅限制了晶片性能,還可能損壞硬體。客戶因此擔心,這些技術問題會延遲資料中心的伺服器部署時程。
報導表示,為解決問題,輝達要求供應商調整機架設計,並與合作夥伴一起優化散熱系統。儘管這種工程改進是大規模技術發布中經常有的步驟,但也進一步延遲了產品交貨時間。輝達發言人針對此事回應指出,公司正與雲端運算服務提供商密切合作,而設計調整屬於正常研發流程的一部分,輝達希望通過這種合作,確保最終產品在性能和可靠性方面達到預期,同時加緊解決技術瓶頸。
至於,修正後的 Blackwell 架構 AI 晶片預計最快 2025 年 1 月底出貨。由於 Google、Meta、微軟等科技大廠依賴輝達的 AI 晶片訓練其強大的 AI 模型。因此,延期交貨對這些客戶的研發計畫和產品發布造成的影響自然將會是不可避免。
(首圖來源:科技新報攝)