輝達斥資約 200 億美元取得 Groq 的 LPU 技術授權,說明其正積極卡位推論市場,也讓外界高度關注,未來輝達將如何在自家平台上導入並運用 LPU 架構?
什麼是 LPU,它的強項在哪?
首先我們大致了解一下,什麼是 LPU?LPU 與 GPU、TPU 最大的差異,在於其記憶體架構。現行 GPU 與 TPU 在訓練與推論時,大多仰賴 HBM 作為主要記憶體,雖然容量充足,但在延遲與能耗表現上仍存在一定代價。
相較之下,Groq 的 LPU 是以 SRAM 為核心設計。根據法人資料,每顆晶片內建約 230 MB 的 SRAM,頻寬高達約 80 TB/s。由於資料幾乎都能在晶片內部完成存取與運算,大幅降低資料搬移成本,使 AI 在推論階段能以更低延遲、更高能效即時回應使用者問題,這也是 LPU 架構在推論市場備受關注的主因。
輝達如何整合 LPU 到自家 GPU?
根據 Wccftech 報導與相關專家分析,輝達並非單純引入 LPU 架構,而是評估將其整合進下一代 Feynman GPU 之中。
市場推測,輝達可能透過先進封裝方式,將 LPU 與大量 SRAM 以獨立晶粒形式,堆疊在 Feynman GPU 的運算核心之上。這類設計預期將會用到台積電的混合鍵合(Hybrid Bonding)或 SoIC 技術,以實現高頻寬、低功耗的晶粒間連接。
這樣的構想,也讓外界聯想到 AMD 在 CPU 上採用的 3D V-Cache 技術,輝達若要在 GPU 上導入 LPU 與 SRAM,也被認為可能採取類似的分工與堆疊策略。
構想美好,但困難重重
不過,這樣的整合方式仍面臨多項技術挑戰。首先是 SRAM 的微縮能力有限,若大量 SRAM 使用先進製程,將顯著推高製造成本;其次是散熱問題,高密度 GPU 再疊加長時間運作的推論單元,對熱管理與封裝設計提出更高要求。
更關鍵的,則是軟體層面的相容性。CUDA 長期建立在高度抽象化的執行模型之上,開發者無需關心底層記憶體配置;但 LPU 則強調固定執行順序與明確的記憶體管理,兩者在設計哲學上存在落差。
如何在同一平台中讓 GPU 與 LPU 協同運作,仍有賴輝達在編譯器與軟體堆疊上的深度調整。值得注意的是,輝達近期推出的 CUDA Tile,是否有助於降低 LPU 軟體開發門檻,仍有待後續觀察。
雖然整合 LPU 與 GPU 看似充滿技術門檻,但相關問題應該都在輝達評估範圍之內。未來是否會透過新的架構設計、封裝方式或軟體工具來化解這些挑戰,仍有待實際產品與技術進展驗證,也為 AI 推論硬體的下一步發展留下不少想像空間。
(首圖來源:Unsplash)






