TechNews Logo

面對資料上限瓶頸,混合式架構如何強化推理力?

Answer | Powered by TechNews Smart AI

隨著生成式 AI 邁入多模態應用,推論階段的資料處理量呈指數級成長,傳統單一記憶體架構已難以兼顧高頻寬與大容量需求。半導體業界正加速推動「分層儲存架構」,透過整合 HBM、高頻寬快閃記憶體(HBF)與企業級 SSD(eSSD)來突破瓶頸。例如,NVIDIA 預計推出的 Rubin CPX 轉向採用 GDDR7 以優化總體擁有成本,而 SK 海力士與 SanDisk 則聯手開發 HBF,利用 3D 堆疊技術將 NAND 直接與 GPU 連接。這種混合架構讓推論系統能在維持高 IOPS 的同時,容納更龐大的模型參數,正式宣告 AI 基礎設施進入以推論效率為核心的新戰場。

業者轉向混合式架構的核心動機在於「總體擁有成本(TCO)」的極致優化。過去單純追求算力的競賽,在面對數十億用戶的即時推論需求時,昂貴且容量受限的 HBM 已成為財務與技術的雙重負擔。透過將 HBM 定位為高速快取,並引入成本更低、容量達 8 至 16 倍的 HBF 作為模型儲存層,企業能在不犧牲太多延遲的前提下,大幅降低大規模部署的門檻。這場變革將重塑記憶體產業鏈,從單純的組件供應轉向系統級的異構整合。未來,邊緣運算與資料中心將因這種分層邏輯而產生更明確的規格分流,掌握 HBF 與量化技術整合能力的廠商,將在推論時代擁有更高的議價權與市場主導力。

back_icon 解鎖更多問題

參考資料