AI 運算需要什麼? Intel:當然是強悍的處理器

作者 | 發布日期 2017 年 11 月 03 日 7:30 | 分類 AI 人工智慧 , 伺服器 , 晶片 follow us in feedly

Intel 先前推出 Xeon Scalable 系列伺服器專用處理器,包含白金、黃金、銀、銅等不同等級產品,取代先前 E7、E5、E3 命名方式,並能帶來高於前代產品 1.73 倍的綜合效能表現,在深度學習方面更有 2.2 倍的效能表現,相當適合用於人工智慧領域,Intel 也說明了人工智慧的效能需求與一般運算有何不同。



AI 在做什麼

最近 AI(人工智慧)的發展有爆炸性成長,如影像辨識、語音辨識、自然語言處理等需求,都可以透過 AI 處理。而深度學習也是 AI 技術的其中一環,它是種執行機器學習的技術,能將大量數據輸入機器,並透過演算法分析數據,讓機器從中學習判斷或預測事物的能力。

以影像辨識為例,輸入的影像會經過許多稱為「層」的數學運算過程,每「層」運算都能讓系統分析影像的特徵,當第一「層」運算完成後,就會將分析結果傳到下一「層」,如此迭代運算直到最後一「層」。

在運算過成中,系統內的類神精網路(Neural Network)會透過正向傳播演算法(Forward Propagation)學習圖像的特徵與計算權重,並透過反向傳播演算法(Backward Propagation)比對輸入資料與演算誤差,修正錯誤。

在深度學習中,輸入的圖像通常是一組數量龐大的圖庫,並以平行處理方式同時進行大量運算,使用者可在訓練過程調校參數,提高訓練的準確度與速度。當訓練完成後,我們就能利用 AI 進行圖像分類,讓 AI 自動將圖像分類或是加上標籤(Tag)。這個動作稱為深度學習推論(Deep Learning Inference),是相當重要的效能指標。

Xeon Scalable 處理器衝著 AI 而來

了解深度學習的概念後,就可以開始看看 Intel 如何強化 Xeon Scalable 處理器的效能,來提升深度學習的效率。

類神精網路運作時的摺積運算基本上就是矩陣相乘,因此能以每秒進行的單精度通用矩陣乘法(Single Precision General Matrix Multiply,SGEMM)或通用矩陣乘法(Integer General Matrix Multiply,IGEMM)運算次數,來評估處理器的效能表現。相較 Broadwell 世代 Xeon 處理器,Xeon Platinum 8180 能帶來 2.3 倍 SGEMM 效能,以及 3.4 倍 INT8 IGEMM4 效能,有效提升深度學習效率。

此外 Xeon Scalable 也支援 AVX-512 指令集,能同時進行兩組 512 bit 融合乘加(Fused-Multiply Add,FMA)運算,吞吐量是 AVX、AVX2 的兩倍,根據 Intel 內部測試,在同一個處理器開啟 AVX-512,可帶來 1.65 倍效能提升。

另一方面,由於深度學習仰賴龐大的資料,所以記憶體存取能力也是效能表現的重要關鍵。每顆 Xeon Scalable 都支援 6 通道 DDR4 記憶體,以及新的網狀架構(Mesh Architecture),STREAM Triad 效能測試中,記憶體頻寬高達 211GB/s,此外大容量的快取記憶體也對效能有正面助益。

除了硬體方面,Intel 也以開源形式提供深度神精網路(Deep Neural Networks)運算用的函數庫,方便使用者利用 Neon、TensorFlow、Caffe、theano、torch 等軟體框架開發 AI 程式,透過軟體最佳化的方式進一步提升效能。

雖然我們這種一般使用者不會直接使用 Xeon Scalable 處理器,但仍可使用許多與 AI 相關的多雲端服務,因此還是能間接享受 Xeon Scalable 的強悍效能。

(本文由 T客邦 授權轉載;首圖來源:Intel)