隨著 AI 進入多 Agent 協作時代,推論需求預計在 2026 年超越訓練,帶動非 HBM 架構如 HBF(高頻寬快閃記憶體)與 CXL 擴展技術崛起。目前 HBM 面臨良率僅五至六成且成本高昂的瓶頸,促使英特爾、軟銀成立 Saimemory 研發堆疊式 DRAM,力求在 2027 年推出耗電減半、容量翻倍的替代方案。同時,華為與 Enfabrica 等業者正透過 UCM 技術與專用網路晶片,讓 AI 運算能直接對接成本更低的 DDR5 或 SSD,以解決多 Agent 運作時所需的 TB 級資料吞吐壓力,打破單一記憶體規格的壟斷局面。
記憶體階層化(Tiered Storage)已成為 AI 普及化的經濟必然。多 Agent 時代強調長文本處理與複雜決策,這類「KV 快取」需求對記憶體容量的渴望遠超頻寬。HBM 雖快,但其物理堆疊上限與極高單價,難以支撐企業地端或邊緣端的大規模部署。非 HBM 架構的競爭力核心在於「性價比」與「可擴展性」,透過 HBF 存放深層知識、DDR5 處理熱數據,能有效降低總體擁有成本(TCO)。這不僅是技術路徑的選擇,更是為了打破輝達與三大記憶體廠的產能壟斷,讓 AI 應用從雲端高牆走向百業落地的關鍵轉折。