AI 加速器自學組裝指南（一）──基本架構

隨著人工智慧議題越來越熱門，越來越多人開始投入 Python 或 R 語言的學習，且透過各種強大的開源套件如 Tensorflow、Keras 、Caffe、Torch、Scikit-learn，大幅降低了我們進入機器學習及深度學習的門檻。不少初心者想問，該使用怎樣的硬體環境才能加速訓練資料的時間？如果你或你的公司打算建構一個 AI 運行環境，本文或許能帶給大家一點幫助，少走點冤枉路；也歡迎有經驗的你，在文章下面留言給予大家更多建議。

筆者公司開展了幾個 AI 專案，有幸從頭到尾參與了 AI server 的選擇、設定、測試、執行，從用 i5 CPU 優化、1050、1080Ti 到 NVIDIA 最頂規的 P100，當中問了一些強者也爬了不少文，這篇文章試圖收斂下當初挑選的守則，當做小小的回報。AI 世界軟硬體神人太多，期望拋磚引玉激起更多討論，也歡迎強人不吝指教。

當跑深度學習（DL）、機器學習（ML）實驗，模型太大、層數或神經元過多，一般電腦可能需要花半天、數天甚至以週為單位才能完成，或者發現錯誤。對公司而言，效率不彰絕對不是件好事；對初學者而言，trial and error 來來回回的時間過長，其實很容易感到挫折，如果能加速實驗進程，快速得到回饋並修正，對於這領域的學習與研究也會有較快的進展。

如何為自己的模型加速？

如果你是個初踏入 ML、DL 的初心者，學會 Python/R 不久，想試著建構模型，微軟設置了 Azure Machine Learning Studio 這個平台，使用介面相當直覺，也可以直接套用微軟本身提供的演算法模組修改參數就好，可以輕鬆將模型建置起來。而亞馬遜、Google 也提供類似的服務。

如果你的模型並非圖像辨識相關，有沒有顯卡加速對你而言其實關係不大。加以，若你使用的語言是 Python 及英特爾的 CPU，英特爾推出加速庫「Intel Distribution for Python」，其實就能得到不錯的提升。前英特爾高級工程師 James Reinders 先前還出來背書，使用四核心 i5 的 iMAC，透過加速庫效能提升了 20 倍。

但如果你跑的是 CNN 、RNN、 Reinforcement Learning 等 neural network 模型，苦於模型運算龐大，或想參加 Kaggle、WebVision 一類競賽（很可惜今年 ImageNet 是最後一屆），這篇文章或對你有所幫助。

如果是要自己組來玩玩，讓你的實驗模型跑得動、可以參加競賽，價格差不多在台幣 5~10 萬元之間可以搞定，這個價格不是絕對，現有設備規格、預算、模型大小……都是變動因素，甚至你不需要重新組台電腦，只需要加張顯卡就已夠用。

GPU 加速該怎麼挑？

目前在跑 CNN 使用 GPU 加速一般多直接選擇 NVIDIA 顯卡，倒非 AMD 效能較差，而是 NVIDIA 的 CUDA 在軟硬、CPU / GPU 整合上做了不少努力，CPU / GPU 原始碼的轉換用 C 或 C++ 就可以上手，較不需要複雜的轉換和修改，對許多新手玩家而言，入門門檻較 AMD 採 Open CL 低一點。

在預算有限的情況下，買一張 20 萬的 P100 來跑你的模型，未必是唯一的選擇，到底如何挑選一張最符合效益的顯卡？

先講 RAM，基本上 3GB RAM 絕對不夠，如果參加一些 Kaggle 等常規競賽，6GB RAM 其實就已足夠。但 GPU 最重要的還是看其記憶體頻寬（Memory Bandwidth）與 GFLOPs。

記憶體頻寬決定了 GPU 輸出效率，記憶體頻寬為時脈與介面頻寬的乘積。簡單來說，時脈就像水流速度，介面頻寬是水管的寬窄，而在一定時間內水管通過的水流量就是記憶體頻寬，如果記憶體頻寬不夠，即便記憶體容量（水桶）再大，也是徒然。對平行運算而言，記憶體頻寬尤其重要，而這點，GPU 比 CPU 優秀得多，也是為什麼平行運算多拿 GPU 加速的原因。

除了直接看時脈、介面頻寬來檢視記憶體頻寬，維基其實查得到 NVIDIA 與 AMD 所有 GPU 的公版設定與測試數值，透過這兩張表檢視顯卡的參數，其實一目了然。

GFLOPs 代表顯卡的運算速度，從部落客 Guanghan Ning’s 整理的列表，可看出以 Giga 為單位，NVIDIA 系列顯卡，每秒最高可進行的浮點運算次數性價比，基本上，1080 或 1070 系列 C/P 值其實相當不錯。

（Source： Guanghan Ning）

對 GPU 的挑選守則曾在 Kaggle 取得名次的 Tim Dettmers，撰寫了一篇文章《Which GPU(s) to Get for Deep Learning》（中譯版本）寫了他試過 NIVDIA 甚至英特爾 Xeon Phi 為加速器的經驗，以及 NIVDIA 各產品線 GPU 的詳細比較，或許會給你更多靈感。

軟硬整合才是大關鍵

顯卡的選擇除了單看硬體規格，更重要的還要看你選擇的平台，是否與顯卡最適配，無論你先決定顯卡還是平台，絕對都要考慮到適配問題。香港浸會大學副教授褚曉文為首的團隊，對於 TensorFlow、Caffe、Torch、CNTK 等深度學習框架做了性能測試報告，可看出在 i7、E5、GTX 980/1080、Tesla K80 等硬體環境下，不同 batch size、不同模型的加速狀況，如果你是跑圖像 model，可參考 alexnt 的測試結果，文字 model lstm 則是一個不錯的參考依據。除了平台、和硬體的適配，顯卡跟主機板 PCIe 合不合也需注意。