NVIDIA 多元產品分攻 AI 訓練、推理需求,迎戰 CSP 自研 ASIC 規模升級

作者 | 發布日期 2026 年 03 月 18 日 15:50 | 分類 AI 人工智慧 , GPU , Nvidia line share Linkedin share follow us in feedly line share
Loading...
NVIDIA 多元產品分攻 AI 訓練、推理需求,迎戰 CSP 自研 ASIC 規模升級

根據 TrendForce 最新 AI server 研究,在大型雲端服務供應商(CSP)加大自研晶片力道的情況下,NVIDIA 於 GTC 2026 大會改為著重各領域的 AI 推理應用落地,有別於以往專注雲端 AI 訓練市場。其推動 GPU、CPU 以及 LPU 等多元產品軸線分攻 AI 訓練、AI 推理需求,並藉由 Rack 整合方案帶動供應鏈成長。

TrendForce表示,隨著以Google、Amazon等CSP為首的自研晶片態勢擴大,預估ASIC AI server占整體AI server的出貨比例將從2026年的27.8%,上升至2030年的近40%。

為鞏固在AI市場的領導地位,NVIDIA採取的其中一項策略為積極推動GB300、VR200等整合CPU、GPU的整櫃式方案,強調可擴展至AI推理應用。本次在GTC發表的Vera Rubin被定義為高度垂直整合的完整系統,涵蓋七款晶片和五款機櫃。

觀察Rubin供應鏈進度,預計2026年第二季記憶體原廠可提供HBM4給Rubin GPU搭載使用,助NVIDIA於第三季前後陸續出貨Rubin晶片。至於NVIDIA GB300、VR200 Rack系統出貨進程,前者已於2025年第四季取代GB200成為主力,預估至2026年出貨占比將達近80%,而VR200 Rack約於2026年第三季底可望逐步展開出貨量能,後續發展仍須視ODM實際進度而定。

另外,AI從生成跨入代理模型時代,在生成Token的解碼(Decode)階段面臨嚴重的延遲與記憶體頻寬瓶頸。為此,NVIDIA整合Groq團隊技術,推出專為低延遲推理設計的Groq 3 LPU,單顆內建500MB SRAM、整機櫃可達128GB。

然而,LPU本身的記憶體容量無法容納Vera Rubin等級的龐大參數與KV Cache。NVIDIA因此於本次GTC提出「解耦合推理」(Disaggregated Inference)架構,透過名為Dynamo的AI工廠作業系統,將推理流水線一分為二:處理代理型AI時,須進行大量數學運算並儲存龐大KV Cache的Pre-fill、Attention運算階段,交由具備極高吞吐量與巨量記憶體的Vera Rubin執行。而受限於頻寬且對延遲極度敏感的解碼與Token生成階段,則直接卸載至擴充了巨量記憶體的LPU機櫃上。

在供應鏈進度上,第三代Groq LP30由Samsung代工,已進入全面量產階段,預計於2026年下半年正式出貨,未來更規畫於下一代Feynman架構中推出效能更高的LP40晶片。

(首圖來源:shutterstock)

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》