代理 AI 重塑晶片架構！「成本才是王道」，ASIC、CPU 與記憶體牆成新戰場

輝達（NVIDIA）執行長黃仁勳今年說過「推論 AI 時代才剛開始」，過去兩年 AI 運算需求已增加百萬倍，顯示產業正快速進入以推論為核心的新階段。這番說法也應證了近期業界走勢，從過去的追求算力轉移至高效推論，並穩步朝向「代理 AI」發展。

在 AI 發展初期，為了縮短大語言模型（LLM）的開發週期，企業不計代價搶購 NVIDIA H100 等高效能 GPU，以進行模型訓練（Training），而隨著模型逐漸成熟並大規模商業化部署，運算重心已逐漸轉向模型推論（Inference）。

AI 訓練是高吞吐量、長時間持續的矩陣運算，相當仰賴 GPU；推論除了重視一定算力外，還要同時處理記憶體頻寬、延遲控制及大規模併發需求，「每瓦效能」變得更加重要。由於通常以秒為單位衡量，任何延遲都會直接影響使用者體驗。

對於雲端服務供應商（CSP）來說，推論成本決定 AI 應用的獲利能力。除了 NVIDIA 依然占據主導地位外，包括 AWS Inferentia、Google TPU 以及 Groq 的 LPU 等專為推論優化的 ASIC 晶片正如雨後春筍般湧現，試圖在推論賽道上分一杯羹。

代理 AI、推論帶動 ASIC 和 CPU 需求

從目前產業發展看，過去各大 CSP 積極投入自研 ASIC，由於業者更了解自身模型架構與應用需求，能針對特定工作負載設計專用晶片。相較通用 GPU，自研 ASIC 在大規模、重複性的 AI 推論場景中，能以更低功耗與更低成本承載龐大使用者流量。

同時，代理 AI 的出現，也讓計算任務的性質發生變化，也讓「CPU」重新回到大眾眼簾。雖然 GPU 擅長處理大規模並行的神經網路運算，但對於代理 AI 所需的邏輯判斷與分支預測，CPU 具有無可替代的優勢，這也促使英特爾、AMD 需求變高。

代理 AI 需要晶片在極短時間內完成大規模的數據交換，當 AI 思考一步步指令時，數據必須在處理器、記憶體與網路介面之間傳輸，使得「記憶體牆」（Memory Wall）與通訊延遲成為考驗。

研調機構 TrendForce 指出，AI 從生成跨入代理模型時代，在生成 Token 的解碼（Decode）階段面臨嚴重的延遲與記憶體頻寬瓶頸。

許多公司開始從記憶體牆找突破口，如部分廠商開始布局不同類型晶片間可共享記憶體資源、高速互連的「CXL記憶體」技術，另外公司從快取找解決方案，如 NVIDIA 和 Google TurboQuant 都透過不同壓縮技術，來顯著降低 AI 推理成本並提升運行速度。

為了布局代理 AI 商機，NVIDIA 先前與 AI 晶片新創 Groq 達成一項價值 200 億美元的非獨家技術授權協議，並推出主打低延遲推論的 Groq 3 LPU 加速器，以滿足 AI 代理系統對低延遲與大規模上下文處理的需求。此外，NVIDIA 去年也針對龐大的 AI 推論市場推出 Rubin CPX GPU，顯示其正積極卡位代理型 AI 與推論運算帶來的新一波商機。

AI 推論普及真正關鍵不是算力，而是成本控制

資策會 MIC 產業顧問鄭凱安表示，代理式 AI 本質上還是 AI 的延伸應用。若從推論應用來看，目前最重要的核心其實是「成本」，如果要讓 AI 應用真正普及、持續擴展，「成本一定是最關鍵的因素之一」。現階段多數 AI 推論場景，主要落在 AIoT 終端裝置，因此價格必須具備競爭力。若使用過於昂貴的晶片或高階記憶體，整體解決方案成本過高，應用就很難真正落地。因此，目前高階 GPU 並不太適合大量導入推論端應用。

鄭凱安指出，一般推論裝置搭配的記憶體，也未必會使用 HBM，更多可能是 GDDR，甚至是客製化記憶體方案，因此市場會逐漸形成區隔。然而，推論市場最大的挑戰仍然是成本控制。短期內「晶片與記憶體共同封裝」不一定會成為主流，因為先進封裝價格依然偏高。即使記憶體採用成熟製程製造，整體封裝成本仍不低，很多系統可能還是會採用載板或 PCB 電路板的方式來整合。

鄭凱安預期，短期來看，「模組化」會是 AI 推論快速擴張的重要方向，原因在於成本較容易控制，同時在規格尚未完全定型前，也能保有產品彈性。否則若太早投入 ASIC 開發，一旦出貨量不足，開發成本可能難以攤提。只要產品空間允許，很多應用其實都能採用這類架構，如機器人、機械手臂、自駕車或 AMR（自主移動機器人）等較大型終端設備，都可能透過板級模組化方式來導入 AI 運算。而走向模組化架構，多半會以傳統封裝為主。

（首圖來源：Unsplash）