

隨著生成式 AI 與大語言模型熱潮來襲,資料中心對高效能運算(HPC)的需求激增,推升 AI 伺服器朝向高密度、高功耗的架構發展,對散熱的需求也遠超過現有氣冷的極限。然而,下一個階段的液冷散熱,將面臨哪些技術瓶頸?
由於 NVIDIA GB200 使得熱設計功耗(TDP)拉升到 2,700 瓦特,已超過氣冷解熱極限 750 瓦特,若要突破解熱極限,光用風扇氣體降溫已經不夠,需要用液體來降溫。
研調機構 TrendForce 調查指出,隨著 NVIDIA Blackwell 新平台開始出貨以及全球 ESG 意識提升,加上 CSP 加速布建 AI 伺服器,將帶動散熱方案從氣冷轉向液冷形式。同時,美系外資大摩也預估,NVIDIA 在資料中心的 GPU 散熱系統需求到 2027 年時,將創造價值 48 億美元商機,誰可以讓AI 伺服器有效率降溫,將成為 AI 供應鏈比拚重點。
到達氣冷散熱極限後,液冷散熱是什麼?
目前散熱模組分為「氣冷散熱」和「液冷散熱」兩種,其中氣冷散熱就是用空氣做為媒介,透過熱介面材料、均熱片(VC)或熱導管等中間材料,由散熱片或風扇與空氣對流進行散熱,然而風扇帶來的震動跟噪音,也會對資料中心帶來負面影響。

至於「液冷散熱」(Liquid cooling)技術,常分為「直接液冷」(Direct Liquid Cooling,簡稱DLC),主要有「直接晶片液冷」(Direct-to-Chip Cooling,即 D2C)以及下一代的「浸沒式液冷」(immersion cooling)等方式。
「直接晶片液冷」是將冷卻液直接傳送到伺服器內部熱源,透過冷板直接安裝到處理器上(冷卻液在其中流動),再將熱量從設備中傳導出去,以達到高效冷卻的效果。當熱能傳導到冷卻液後,冷卻液會沿著管線流出伺服器,透過冷卻液分配單元 (CDU)進行冷卻,最終流回伺服器內再循環。

▲ CDU 是液冷系統中的重要元件,負責將冷卻劑或水均勻地分配到整個系統中。(Source:KAORI)
若熱交換器安裝在伺服器機櫃內,把熱能排放到空氣中,稱為「液對氣」(Liquid to Air)方案,可部署於傳統氣冷機房,也是現有資料中心在氣冷散熱的物理極限下,所因應的對策;若是將冷卻液傳送到伺服器機房的液體冷卻管線,透過設施的冷卻管路與散熱機制統一排熱,則是「液對液」(Liquid to Liquid)方案,散熱效能更佳,但需要專為液冷伺服器所設計的特殊機房。
不管是「液對氣」還是「液對液」方案,目前主要必須解決的是漏液跟漏液偵測問題。
燒燙燙 AI 伺服器最佳解:浸沒式冷卻技術
其中,最受矚目的浸沒式液冷(Immersion cooling)散熱技術,又可分為「單相浸沒式液冷」與「兩相浸沒式液冷」。業界人士透露,單相和雙相的差異在於是否出現「相變」(Phase transition),即液態變氣態、或氣態變固態等,而在液冷解決方案,主要都是液態變氣態的循環。
浸沒式冷卻是透過將伺服器直接浸泡在不導電的液體中,將零組件產生的熱能傳導給流體,不需要散熱鰭片、導熱銅管或風扇等冷卻零件,溫度上升的液體會透過循環冷卻方式,再回流繼續吸收熱能,有助於提升資料中心的能源效率。

▲ 單相浸沒式液冷散熱透過熱交換器進行冷熱水交換,沒有涉及相變化。(Source:弓海企業)
「單相浸沒式液冷」(Single-Phase)是將伺服器及其他 IT 設備浸沒至導熱的介電液體槽中,流體不會改變其形態,始終保持為液態。透過冷卻液分配裝置(Coolant Distribution Unit,簡稱 CDU)推動液體槽內的流體循環,進一步將導熱液抽送到水箱外的熱交換器,將熱量傳遞到第二級冷卻迴路,例如建築物冷水循環系統、或外部的空氣。

▲ 兩相浸沒式液冷散熱透過蒸發、凝結等相變化進行冷卻。(Source:弓海企業)
「兩相浸沒式液冷」(Two-Phase)則是將伺服器浸沒至不導電的冷卻液中,透過冷卻液與發熱零件直接接觸,帶走設備的熱能;同時由於液體低溫蒸發的過程,將熱從液體池內轉移到池外空間,再透過冷凝管等熱交換裝置,使蒸汽再次冷卻凝結流回水槽中。
業界人士透露,雖然浸沒式液冷的散熱效率更好,但是面臨一些問題待克服,如浸泡的液體大多是不可燃、不導電的油,過去主要是 3M 供貨,但因這種油內含氟化合物,可能對環境造成污染,並對生態系統造成損害,目前 3M 已停產,還有部分中國廠會供貨,其他廠商仍在思考解決方案。

▲ 「兩相浸沒式液冷」直接以 L10 進行浸泡(黃框處),採用此解決方案需重新設計機架和機櫃。(Source:弓海企業)
一般來說,伺服器的代工製造分成不同階段,根據上圖示意圖可知,浸沒式液冷所浸泡的伺服器(黃框處)並非過去熟知的 L11 階段(即多台伺服器整合與機架),而是將該系統在 L10 階段時就直接浸泡,因此其 L11 階段直接是浸沒式版本。

▲ 伺服器代工製程階段。(Source:Medium)
業界人士指出,另一大問題是機架整合問題,當資料中心要採用浸沒式散熱解決方案時,必須重新設計機架和機櫃,無法無痛更換機櫃,勢必將付出時間與成本。因此,客戶採用仍需要時間,也造成推廣上的阻力。
除了冷卻液的問題,浸沒式散熱的機櫃體積很大,重量超過一公噸以上,機房還要夠大足以容納浸沒槽,並且樓地板承重量還要達標才行,後續還有電子零組件能否長時間浸泡在冷卻液、後續維修與成本等,也都是未來值得留意的狀況。

▲ 廣運曾展出雙相浸沒式冷卻系統。(Source:科技新報)
液冷散熱市場升溫,預期 2025 滲透率有望倍增至 24%
雖然目前中國阿里巴巴和中東地區的資料中心已嘗試採用浸沒式散熱,大都還是小規模的試驗為主,預期目前仍以液對氣(L2A)方式為主。

▲ 以冷卻效率來說,浸沒式冷卻仍比氣冷要好。(Source:技嘉)
根據 MarketsandMarkets 市場研究報告,全球散熱解決方案的市場規模預計到 2028 年將達到 193 億美元,年複合成長率(CAGR)約 9.7%。其中,液冷散熱市場產值將達 124 億美元、CAGR 高達 25.8%。
TrendForce 也預期,隨著 GB200 機櫃方案於 2025 年正式放量出貨,有望帶動整體 AI 晶片的液冷散熱滲透率,從 2024 年的 11% 提升至 2025 年的 24%。此外,隨著全球政府及監管機構對於 ESG 意識逐漸提升下,將加速帶動散熱方案由氣冷轉液冷形式發展,預期液冷方案滲透率逐年攀升,促使電源供應廠商、散熱業者及系統整合廠等競相投入AI液冷市場,形成新的產業競合態勢。
(首圖來源:科技新報)