TOC
AI 新工業革命!
黃仁勳:AI 推理迎「十億倍」成長
TechNews
11月專題
全球 AI 浪潮席捲,GPU 大廠 NVIDIA 執行長黃仁勳在訪談中,全面闡述 AI 未來發展藍圖,並直言 AI 已從語言模型應用邁向一場正在進行的工業革命,並預測 AI 推理需求將出現「十億倍」的爆炸式成長,進而重塑全球科技生態與經濟格局。
AI 推論和 AI 訓練 差在哪?
瞭解推論與訓練的根本區別
「訓練」就像是漫長的學習與深造,投入大量資料與運算資源,目的是為了打造一個知識淵博、判斷精準的大腦。而「推論」,則是這位專家步入社會、解決真實問題的實戰時刻。它追求的不再是窮盡知識,而是在毫秒之間做出反應,以最高的效率與速度,展現 AI 的真正價值。隨著模型能力發強大,AI 運算重心已從訓練轉向推論。
黃仁勳表示,AI 計算主由過去的單一成長模式,擴展為三大定律,包括預訓練、後訓練與推理。
隨著 AI 運算需求重心從一次性的訓練階段,慢慢轉向持續性且高頻發生的推論(Inference)階段。這場轉變不僅催生了專為 AI 推論設計的新晶片,更在記憶體與儲存領域,帶來一場以「總體擁有成本」(TCO)為核心的異構與分層架構革命。
AI 推論運作流程
從資料到部署關鍵 6 大步驟
01.資料彙整與清理
識別內外部資料集,移除重複數據與格式問題。
01.資料彙整與清理
識別內外部資料集,移除重複數據與格式問題。
02.選擇合適模型
平衡模型複雜度、輸出需求與運算資源。
03.優化 AI 訓練
改善模型
提升輸出準確度,同時降低延遲與運算成本。
03.逐步優化 AI 訓練改善模型
提升輸出準確度,同時降低延遲與運算成本。
04.執行模型推理
導入新數據進行推斷,檢視準確性與潛在偏差。
05.輸出結果後處理
過濾、整合並剔除不勝善或無效的輸出結果。
05.輸出結果後處理
過濾、整合並剔除不勝善或無效的輸出結果。
06.規模化部署
系統化導入業務流程,並進行全面的使用者訓練。
就深度學習領域來說,模型訓練(Training)與模型推論(Inference)是兩個截然不同的階段,兩者對 GPU 和記憶體的需求限制大相徒庭。訓練階段對記憶體的需求極為苛刻,模型大小通常要再乘上 3-6 倍的額外需求。相較之下,模型推論階段,特別是長情境任務,雖然也需要龐大的記憶體頻寬,但更崇重於快速存取大量模型參數。
專為「長情境」AI 推論設計:NVIDIA 推 Rubin CPX GPU
新一代推論加速器的突破性創新
Rubin CPX GPU 產品公告
AI 應用百花齊放,AI Inference 成為下一個主戰場,與 AI Training 相比,推論更貼近終端應用。面對推論市場的龐大商機,NVIDIA 宣布推出 Rubin CPX GPU,專為大規模情境推論打造新一代 GPU,將與 Rubin GPU 和 Vera CPU 協同工作,以加速特定的工作負載,預期 2026 年底上市。
點擊看完整內容
01
NVIDIA 的 Rubin CPX GPU 主要就是專為長上下文推理而設計
採用 128 GB GDDR7 記憶體,而非過去常使用的 HBM 記憶體,這能使這款 GPU 價格更實惠,且可加速處理要求最嚴苛、基於情境的工作負載。
02
Rubin CPX 提供多種配置選項
包括 Vera Rubin NVL144 CPX,可結合 NVIDIA Quantum-X800 InfiniBand 橫向擴展運算架構,或者搭配採用 Spectrum-XGS 乙太網路技術和 ConnectX-9 SuperNIC 的 Spectrum-X 乙太網路平台整合。
03
軟硬體高度整合
Rubin CPX 完全支持 NVIDIA 的 AI 生態系統,且 AI 模型與產品開發者不需要透過手動方式,將推論的「上下文階段」和「生成階段」在 GPU 之間進行分割,即可在 Rubin NVL144 CPX 機架級解決方案上運行。
推論應用對記憶體需求強勁,黃仁勳駁斥 AI 泡沫化風險
TrendForce 最新研究,未來兩年 AI 基礎設施的建置重心將更偏向支持高效能的 inference 服務,在傳統大容量 HDD 嚴重供不應求的情況下,CSP 業者紛紛轉向 NAND Flash 供應商尋求解方。
催生專為 inference AI 設計的 Nearline SSD(近線固態硬碟),以滿足市場的迫切需求。特別是大容量 QLC SSD 出貨量可能在 2026 年出現爆發性增長,NAND Flash 市場迎來結構性復甦機會。
TrendForce 預估,2025 年第四季整體企業級 SSD 合約價季增 5%-10%。
QLC SSD 明年將迎來爆發性成長?
點擊看完整內容
SSD完勝HHD圖
NAND Flash 應用邁向多元:訓練與推論並行
除了在 inference AI 應用,NAND Flash 供應商為擴大在 AI training 應用的市占率,也同步發表 HBF(High Bandwidth Flash)產品,已形成兩種不同的技術路線。由 SanDisk 主導的陣營,採用 HBM 與 HBF 結合的混合式設計,旨在兼顧龐大容量與極致效能,滿足AI模型訓練中對資料吞吐量和容量的雙重需求。
AI 推論記憶體破局者?
點擊看完整內容
HBF技術圖
Inference 對算力和儲存帶來需求改變
AI Inference 流程包含 Prefill 與 Decode 兩大階段,市場通常用單一 AI 晶片跑完,但這種「一體適用」的設計造成資源上的浪費。為提升 Inference 效率,「硬體分離」(SPAD)概念誕生。 在 AI Inference 需求大幅提升的情況下,CSP 紛紛擁抱自研 ASIC 的道路,為其他雲端客戶提供更具性價比的 AI 算力選擇,而過往稱霸模型訓練的 Nvidia 也沒忽略這個趨勢的轉變,推出了 Nvidia Rubin CPX 應戰。目前 Google 與 Meta 為 ASIC 陣營耕耘 Inference 最積極廠商。
點擊看完整內容
AI 生態系供應鏈