英特爾、AMD 共推 ACE 規格，奠定 CPU AI 運算統一基礎

英特爾（Intel）與 AMD 於 6 月 20 日公布 x86 架構下的 ACE（AI Compute Extensions）規格，為 CPU 端的 AI 與機器學習運算建立更統一的技術基礎。這份由 Intel 與 AMD 共同釋出的規範，重點鎖定矩陣乘法與低精度資料格式處理，目標是在不完全依賴 GPU 的情況下，讓 x86 處理器更有效率地執行 AI 工作負載。

ACE 的設計是在既有 AVX10 向量架構上，加入專門用於矩陣乘法的硬體單元與相關資料搬移、處理機制，讓矩陣運算不再只是透過一般向量指令「繞路」完成。相較於傳統做法，ACE 以更貼近矩陣資料流的方式處理乘加運算；在相同輸入向量數量下，ACE 在理論上可比 AVX10 提供多達 16 倍的運算量（但實際加速仍視各家具體硬體實作而定），同時降低指令開銷與記憶體頻寬壓力。

這項規格也著眼於軟體生態的統一性。由於 ACE 被設計成與硬體實作無關，PyTorch、TensorFlow 等框架可望用更一致的程式路徑支援不同 x86 平台，而不必針對各家 CPU 的 AVX 支援程度重複維護多套實作。ACE 原生支援多種機器學習常用的資料型態（包括 INT8、INT32、FP8、FP16、FP32、BF16），並原生支援 Open Compute Project 的 MX 區塊縮放（block-scaled）格式。開發者也能在部分需要即時反應的 AI 工作中，將原本常交由 NPU 處理的工作復原至 CPU 上執行，進而受益於 x86 上更一致的目標指令集。

隨著 ACE 規格與相關實作逐步成熟，x86 平台在 AI PC 與伺服器上的角色，可能不再只是配置運算，而是開始提供更具一致性的 CPU 端 AI 加速能力。

（首圖來源：shutterstock）