ChatGPT 大腦 AI 伺服器是什麼?拆解台廠提供哪一塊主要零組件

作者 | 發布日期 2025 年 06 月 09 日 8:00 | 分類 AI 人工智慧 , ChatGPT , GPU line share Linkedin share follow us in feedly line share
Loading...
ChatGPT 大腦 AI 伺服器是什麼?拆解台廠提供哪一塊主要零組件

當你每次向 ChatGPT 提問,數秒內得到答案的背後,其實是 AI 伺服器的高速運算,而一台售價高達 300 萬美元的機櫃,通常配置多台 AI 伺服器,拆解其主要零組件,包含 GPU、CPU、HBM 記憶體、主機板、電源、散熱、機殼,儘管目前 AI 伺服器僅占整體伺服器出貨比重不到 10%,但 2026 年有望達到 15%,而台灣生產全球 90% 的 AI 伺服器,扮演關鍵零組件的重要角色。

AI 伺服器是什麼?

AI 伺服器是指專為處理 AI 工作負載需求而打造的伺服器,諸如電腦視覺、聊天機器人與生成式 AI,並為處理複雜 AI 訓練及推論,進而設計的先進運算系統,為處理大量數據,搭載高效能專用硬體,執行複雜的 AI 運算。

AI 伺服器與通用伺服器差異?

通用伺服器:主要用於數據存放與處理,搭載中央處理器(CPU)、記憶體(RAM)和硬碟(HDD 或 SSD)。

AI 伺服器:主要進行複雜與高速的運算,進一步搭載圖形處理器(GPU)、張量處理器(TPU),或是特殊應用晶片(ASIC)與現場可程式化邏輯閘陣列晶片(FPGA),並採用高頻寬記憶體(HBM)和 NVMe 技術存儲系統。

從成本來看,通用伺服器依規格不同,價格從數萬元至數十萬元不等,以 x86 架構的伺服器來說,成本約為 1 萬美元,而根據 Raymond James 證券估計,NVIDIA H100 單顆成本約 3,320 美元,代表一台搭載 8 顆 NVIDIA H100 的 AI 伺服器,成本約為 26,560 美元。

為什麼 NVIDIA 具 AI 領導地位?

GPU 是 AI 伺服器的核心,而 NVIDIA 是全球最大的 GPU 製造商之一,並擁有專為 AI 設計的軟硬體與生態系一條龍策略,相較於一般的 GPU,NVIDIA 的資料中心 GPU 完全針對 AI 性能做最佳化應用。

NVIDIA 幾乎每兩年推出新一代架構,依序為 Fermi、Kepler、Maxwell、Pascal、Volta、Ampere、Hopper、Blackwell,因此最新的 Blackwell 系列被稱為「第八代架構」,不斷突破 AI 訓練效能,搶先支援最新 AI 技術。

NVIDIA Blackwell 系列晶片

NVIDIA 第八代 Blackwell 系列晶片,包括專為高效能運算(HPC)與 AI 推論設計的 B100,以及在 B100 的基礎上進行升級,提供更高的運算效能與能效的 B200,還有基於 B102 晶片,採用單一單晶片設計,適用於中國市場的 B200A。

進階的是將兩顆 B200 GPU 與一顆 Grace CPU 結合的 GB200,以及在機架規模設計中連接 36 個 GB200 超級晶片,包含 72 顆 Blackwell GPU 和 36 顆 Grace CPU,適用於大型 AI 訓練與推論工作負載的 GB200 NVL72 機架級系統。

拆解 AI 伺服器供應鏈

以 NVIDIA GB200 NVL72 機架級系統來說,售價 300 萬美元,重達 1~2 噸的機櫃,拆解其主要零組件,包含 GPU、CPU、HBM 記憶體、主機板、電源、散熱、機殼,代工大廠主要在台灣、越南等地生產 L6 主板,出口至墨西哥組裝 L10,再將伺服器整機出貨至美國。

NVIDIA GB200 NVL72 價格如此高昂,主要是因為超級晶片 GB200 售價介於 6 萬至 7 萬美元,而整個機架級系統就需要連接 36 個,占整體價格達 80% 左右,供應鏈涵蓋台積電日月光金像電台光電欣興嘉澤台達電雙鴻奇鋐鴻海廣達緯穎等廠商。

針對 GB200 機架伺服器,法人表示,廣達與鴻海為前兩大供應商,市占率各超過 35%,再來是緯穎,根據 CoWoS-L 擴產計畫,2024 年僅有極少量的 GB200 交貨,但從今年第一季開始增加至每月數百台機架,接著將逐季成長,直到每家廠商出貨量達到數千台,代表真正進入量產階段。

 

在 Instagram 查看這則貼文

 

TechNews 科技新報(@technewsinside)分享的貼文

AI 伺服器 L1 至 L12 是什麼?

所謂的 AI 伺服器 L1 至 L12 指的是製程階段,代工廠為了分工協作,所開發的商業模式與交付方式,其中 L6、L10、L11、L12 是台灣伺服器代工廠最常切入的製程階段,通常技術層次較高,代表競爭力越強,可進攻雲端客戶的整套解決方案,例如鴻海、廣達、緯穎等。 

  • L1:零件製造,包括非塗漆零件和零件等級的模具製造
  • L2:零件組裝
  • L3:組裝電子零組件進機殼裡
  • L4:所有 L3 搭載電源供應器、柔性扁平排線及背板
  • L5:所有 L4 連接外殼零組件、整合式電纜,並經過 I/O 測試
  • L6:整合主機板,進行通電測試,成為「伺服器準系統」
  • L7:整合附加卡至伺服器準系統,並做通電測試
  • L8:整合硬碟至伺服器準系統,並做通電測試
  • L9:整合 CPU 和記憶體至伺服器準系統,並做通電測試
  • L10:完整組裝伺服器,並進行全系統和零件級別的測試、作業系統/軟體集成交付
  • L11:節點式組裝、測試及作業系統加載,再組裝到全電纜網路機架中測試
  • L12:把單一 L11 的機架組裝成多個機架,包含具有完整軟體載入、驗證和最佳化所有網路

從代工廠來看,英業達在 L6 整合主機板階段的市占達六成,為全球主要的 AI 伺服器主機板供應商之一,而廣達在 L6 階段的市占達兩成,並積極擴展 L10、L11 及 L12 階段,至於鴻海則在 L10 至 L12 階段提供一站式解決方案,包含組裝伺服器到整機交付的完整製程。

最新 GB300 升級

以 GB300 機櫃來看,相較 GB200 的零組件,採用台積電 4NP 製程,計算效能比 B200 系列提升 50%採用台積電 4NP 製程,計算效能比 B200 系列提升 50%,12-Hi HBM3E 內存堆棧提供 288GB 內存容量與 8TB/s 頻寬,支援更大批量與更長序列處理。

高效網路 800G ConnectX-8 NIC 提供雙倍橫向擴展頻寬,配備 48 個 PCIe 通道,優化大型集群效能,TDP 達 1.4kW,較 B200 增加 200W,要求更先進散熱解決方案,全面採用液冷散熱系統,因應高密度算力需求,整合備援電力模組(BBU)與可能的超級電容技術,確保電源穩定性。

AI 供應鏈現況

GB200 先前一直受到供應瓶頸,包括 Cable Cartridge 良率不足、組裝廠中後段生產的學習曲線過慢、水冷良率持續修正等,導致原先預計正式量產的時程從 3 月大幅遞延,但在輝達新測試軟體正式轉交給組裝廠後,鴻海、廣達等組裝廠的 GB200 組裝及測試速度大幅度提升。

法人預估,GB200 的 4 月總出貨量約為 800~900 櫃,預計 5 月達到 2,800~3,000 櫃,上半年可望出貨量達到 7,000 櫃,其中 GB200 的代工廠主要由鴻海為主,廣達為輔,GB300 則會以廣達為主,組裝廠預計將會在 6 月完成設計圖,並開始測試 GB300,若一切順利將在 11~12 月小量出貨。

下世代 AI 伺服器

資料中心電力基礎設施往高壓直流邁進,第三代半導體與液冷散熱將成主流,由於系統效率等問題達到物理極限,輝達直接將 13.8kV 交流電網電力,轉換爲 800V 高壓直流(HVDC),以支援 2027 年起的 Vera Rubin 與 Rubin Ultra 全新平台所啟用的 1 兆瓦(MW)以上電力。

藉此滿足不斷成長的 AI 伺服器機架需求,而隨著 AI 算力不斷擴張,當功率增加至 200kW 以上時,舊架構因功率密度、銅材需求和使用固態變壓器(SST)和工業級整流器,消除多個交流/直流和直流/直流轉換步驟,預計將帶起 GaN 與 SiC 功率元件需求。

新一波崛起力量「ASIC」

ASIC 的全名是「Application Specific Integrated Circuit」,意指為特定應用設計的晶片,這與通用型 CPU(中央處理器)或 MCU(微處理器)不同,ASIC 專注於單一特定應用,主要是針對特定任務專門定製的晶片,提供更量身打造的雲端服務,通常具有比 GPU 更高的性能與更低的功耗。

隨著 AI 計算需求增加,功耗問題持續加劇,CSP(雲端服務供應商)正面臨高成本與高功耗的營運挑戰,因此 ASIC 已成為重要的解決方案,意味著亞馬遜(Amazon)和 Google 可以減少對 NVIDIA GPU 的依賴,並藉由設計自有 ASIC 來提升其資料中心的計算效率。 

(首圖來源:科技新報)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》