AI 運算需要什麼？ Intel：當然是強悍的處理器

Intel 先前推出 Xeon Scalable 系列伺服器專用處理器，包含白金、黃金、銀、銅等不同等級產品，取代先前 E7、E5、E3 命名方式，並能帶來高於前代產品 1.73 倍的綜合效能表現，在深度學習方面更有 2.2 倍的效能表現，相當適合用於人工智慧領域，Intel 也說明了人工智慧的效能需求與一般運算有何不同。

AI 在做什麼

最近 AI（人工智慧）的發展有爆炸性成長，如影像辨識、語音辨識、自然語言處理等需求，都可以透過 AI 處理。而深度學習也是 AI 技術的其中一環，它是種執行機器學習的技術，能將大量數據輸入機器，並透過演算法分析數據，讓機器從中學習判斷或預測事物的能力。

以影像辨識為例，輸入的影像會經過許多稱為「層」的數學運算過程，每「層」運算都能讓系統分析影像的特徵，當第一「層」運算完成後，就會將分析結果傳到下一「層」，如此迭代運算直到最後一「層」。

在運算過成中，系統內的類神精網路（Neural Network）會透過正向傳播演算法（Forward Propagation）學習圖像的特徵與計算權重，並透過反向傳播演算法（Backward Propagation）比對輸入資料與演算誤差，修正錯誤。

在深度學習中，輸入的圖像通常是一組數量龐大的圖庫，並以平行處理方式同時進行大量運算，使用者可在訓練過程調校參數，提高訓練的準確度與速度。當訓練完成後，我們就能利用 AI 進行圖像分類，讓 AI 自動將圖像分類或是加上標籤（Tag）。這個動作稱為深度學習推論（Deep Learning Inference），是相當重要的效能指標。

▲ 深度學習領域的類神經網路，是模仿生物大腦結構和功能的數學模型。

Xeon Scalable 處理器衝著 AI 而來

了解深度學習的概念後，就可以開始看看 Intel 如何強化 Xeon Scalable 處理器的效能，來提升深度學習的效率。

類神精網路運作時的摺積運算基本上就是矩陣相乘，因此能以每秒進行的單精度通用矩陣乘法（Single Precision General Matrix Multiply，SGEMM）或通用矩陣乘法（Integer General Matrix Multiply，IGEMM）運算次數，來評估處理器的效能表現。相較 Broadwell 世代 Xeon 處理器，Xeon Platinum 8180 能帶來 2.3 倍 SGEMM 效能，以及 3.4 倍 INT8 IGEMM4 效能，有效提升深度學習效率。

此外 Xeon Scalable 也支援 AVX-512 指令集，能同時進行兩組 512 bit 融合乘加（Fused-Multiply Add，FMA）運算，吞吐量是 AVX、AVX2 的兩倍，根據 Intel 內部測試，在同一個處理器開啟 AVX-512，可帶來 1.65 倍效能提升。

另一方面，由於深度學習仰賴龐大的資料，所以記憶體存取能力也是效能表現的重要關鍵。每顆 Xeon Scalable 都支援 6 通道 DDR4 記憶體，以及新的網狀架構（Mesh Architecture），STREAM Triad 效能測試中，記憶體頻寬高達 211GB/s，此外大容量的快取記憶體也對效能有正面助益。

除了硬體方面，Intel 也以開源形式提供深度神精網路（Deep Neural Networks）運算用的函數庫，方便使用者利用 Neon、TensorFlow、Caffe、theano、torch 等軟體框架開發 AI 程式，透過軟體最佳化的方式進一步提升效能。

雖然我們這種一般使用者不會直接使用 Xeon Scalable 處理器，但仍可使用許多與 AI 相關的多雲端服務，因此還是能間接享受 Xeon Scalable 的強悍效能。