面對資料上限瓶頸，混合式架構如何強化推理力？

隨著生成式 AI 邁入多模態應用，推論階段的資料處理量呈指數級成長，傳統單一記憶體架構已難以兼顧高頻寬與大容量需求。半導體業界正加速推動「分層儲存架構」，透過整合 HBM、高頻寬快閃記憶體（HBF）與企業級 SSD（eSSD）來突破瓶頸。例如，NVIDIA 預計推出的 Rubin CPX 轉向採用 GDDR7 以優化總體擁有成本，而 SK 海力士與 SanDisk 則聯手開發 HBF，利用 3D 堆疊技術將 NAND 直接與 GPU 連接。這種混合架構讓推論系統能在維持高 IOPS 的同時，容納更龐大的模型參數，正式宣告 AI 基礎設施進入以推論效率為核心的新戰場。

業者轉向混合式架構的核心動機在於「總體擁有成本（TCO）」的極致優化。過去單純追求算力的競賽，在面對數十億用戶的即時推論需求時，昂貴且容量受限的 HBM 已成為財務與技術的雙重負擔。透過將 HBM 定位為高速快取，並引入成本更低、容量達 8 至 16 倍的 HBF 作為模型儲存層，企業能在不犧牲太多延遲的前提下，大幅降低大規模部署的門檻。這場變革將重塑記憶體產業鏈，從單純的組件供應轉向系統級的異構整合。未來，邊緣運算與資料中心將因這種分層邏輯而產生更明確的規格分流，掌握 HBF 與量化技術整合能力的廠商，將在推論時代擁有更高的議價權與市場主導力。

面對資料上限瓶頸，混合式架構如何強化推理力？

參考資料

從訓練進入推論時代，人工智慧應用需求帶動記憶體市場改變

AI 記憶體架構正形成一個全新的三層級體系