台積電 4 奈米打造輝達 Blackwell 架構 GPU,建構迄今最強 GB200

作者 | 發布日期 2024 年 03 月 19 日 6:40 | 分類 AI 人工智慧 , GPU , IC 設計 line share follow us in feedly line share
台積電 4 奈米打造輝達 Blackwell 架構 GPU,建構迄今最強 GB200


GPU 大廠輝達 19 日清晨在美國加州聖荷西召開的 GTC 2024,發表號稱迄今最強 AI 晶片 GB200,今年稍晚出貨。GB200 採新 Blackwell 架構 GPU,輝達創辦人暨執行長黃仁勳表示,兩年前 Hopper 架構 GPU 已非常出色,但現在需要更強大的 GPU。

輝達每兩年更新頻率,升級一次 GPU 架構,大幅提升 AI 晶片性能。輝達 2022 年發表 Hopper 架構 H100 AI 晶片後,引領全球 AI 市場風潮。如今再推採 Blackwell 架構的 AI 晶片性能更強大,更擅長處理 AI 任務,Blackwell 架構是以數學家 David Harold Blackwell 之名命名。

黃仁勳表示,Blackwell 架構 GPU 的 AI 運算性能在 FP8 及 NEW FP6 都可達 20petaflops,是前一代 Hopper 架構運算性能 8petaflops 的 2.5 倍。NEW FP4 更可達 40petaflops,是前代 Hopper 架構 GPU 運算性能 8petaflops 5 倍。取決於各種 Blackwell 架構 GPU 設備的記憶體容量和頻寬配置,工作運算執行力的實際性能可能會更高。黃仁勳強調,有額外處理能力,使人工智慧企業訓練更大更複雜的模型。

Blackwell 架構 GPU 的體積龐大,採台積電 4 奈米(4NP)打造,整合兩個獨立製造的裸晶(Die),共 2,080 億個電晶體,透過 NVLink 5.0 介面像拉鏈綁住晶片。輝達用 10TB/sec NVLink 5.0 連接兩塊裸晶,官方稱介面為 NV-HBI。Blackwell complex 的 NVLink 5.0 介面為 1.8TB 頻寬,是前代 Hopper 架構 GPU  NVLink 4.0 介面速度的兩倍。

輝達最新 GB200 AI 晶片,含兩個 Blackwell GPU 和一個 Arm 架構 Grace CPU,推理模型性能比 H100 提升 30 倍,成本和能耗降至 25 分之一。

輝達還對有大型需求的企業提供伺服器成品,提供完整伺服器出貨,如 GB200 NVL72 伺服器,提供 36 個 CPU 和 72 個 Blackwell 架構 GPU,完善一體水冷散熱方案,可實現總計 720petaflops 的 AI 訓練性能或 1,440petaflops 推理性能。電纜長度累計近 2 英里,共 5,000 條獨立電纜。

亞馬遜 AWS 計畫採購 2 萬片 GB200 晶片組建的伺服器集群,部署 27 兆個參數模型。除了亞馬遜 AWS,DELL、 Alphabet、Meta、微軟、OpenAI、Oracle 和 TESLA 成為 Blackwell 系列的採用者之一。

(首圖來源:影片截圖)