FPGA 保持彈性同時擁有 ASIC 級 AI 效能，可能嗎？

AI 語音助理和 AI 影像最佳化是離我們最近的 AI 應用，然而這只是 AI 能力初級體現，未來 AI 將以目前難以想像的方式改變我們的生活。AI 的重要推動力之一，不同類別的 AI 處理器正努力滿足 AI 的需求，但依舊無法滿足 AI 不斷更新的演算法。圍繞 AI 晶片的創新因此成為熱點。

總部位於美國加州的 Achronix 為滿足 AI 和機器學習需求，推出一款融合 ASIC 核心效率的全新類別 FPGA。

到底是什麼推動 AI 晶片創新？

AI 發展的三大要素是算力、演算法和大數據，而這一輪 AI 熱潮興起的關鍵原因就是深度神經網路演算法流行。不過，由於 AI 還處於初級，深度學習演算法不僅種類多樣，且不斷演化。另外，數據的類別也十分多樣，包含整型和浮點型，以及每種數據類別的不同精確度，這對晶片的通用性都提出要求。

▲ AI 處理器的硬體挑戰。

但是，晶片通用也就意味著算力難以做到極致，且不同數據類別和精確度對處理器的效能的要求又不相同，想要同時滿足算力和通用性的要求，半導體製程提升是最直接的方法。過去 30 年，摩爾定律帶來顯著的計算能力提升，半導體製程從微米跨越到奈米級，如今電腦處理速度也能達每秒千萬億次（1,015FLOPS）。

2018 年，10 奈米和 7 奈米的晶片開始量產，但 CMOS 元件的橫向大小接近幾奈米，厚度只有幾個原子層，想要繼續靠製程提升電晶體密度帶來處理效能顯著提升，技術難度越來越高，成本也讓越來越多晶片公司卻步。

除了半導體製程，當運算能力達到一定程度，存取記憶體的速度無法跟上運算部件消耗數據的速度，再增加運算部件也無法充分利用，這個馮諾依曼架構的瓶頸（記憶體牆）也阻礙了 AI 晶片算力提升。

顯然，不斷更新的演算法、不同 AI 模型的數據類別需求、與日俱增的數據量，都推動承載 AI 演算法的 AI 晶片不斷創新。

FPGA 如何與 ASIC 融合？

目前，CPU、GPU、FPGA、ASIC 都認為是廣義的 AI 晶片，從 CPU 到 ASIC，晶片通用性降低，但效能依次增強，其中，GPU 憑並列計算的優勢成為目前最成功的 AI 晶片。FPGA 為不少 AI 晶片公司 ASIC 晶片驗證的偏好，也在 AI 晶片市場占據一定地位，但成本對大規模應用是個挑戰。

▲ Achronix Semiconductor 總裁兼首席執行長 Robert Blake。

此時，如果有兼具 ASIC 的效能和 FPGA 彈性的 AI 處理器，應該是非常有競爭力的產品，但得解決多個挑戰。Achronix Semiconductor 總裁兼首席執行長 Robert Blake 接受媒體採訪時表示：「最新發表的 Achronix Speedster7t 是靈活的 FPGA 技術與 ASIC 核心效率的融合，提供全新的 FPGA+ 晶片種類，這代表我們建立在 4 個架構代系的硬體和軟體開發基礎上的創新和積澱，以及與用戶之間的密切合作。」

Robert 指出，這款新產品 3 年前就開始規劃，過程中工程團隊完全重新構建整個 FPGA 架構，要平衡片上處理、互連和外部輸入匯出介面（I/O），以達成資料密集型應用吞吐量最大化，適合高頻寬需求的應用，比如邊緣和基於伺服器的 AI / ML、網路處理和儲存。

架構改進讓 FPGA 更適合 AI 計算

要讓 FPGA 具備 ASIC 等級效能，首先需要提升算力。正如前面所說，先進半導體製程對處理器效能的提升非常關鍵，因此 Speedster7t 採用台積電 7 奈米 FinFET 製程。我們知道 7 奈米製程的流片成本非常高昂，著是否意味著這款 7 奈米 FPGA+ 只針對雲端市場？Robert 表示，在高階應用市場，無論 AI 訓練還是推理，對效能和延遲要求都很高，需要 7 奈米製程。當然，除了雲端，針對邊緣市場會有更小且成本更低的產品，滿足不用應用和不同市場。

半導體製程明確後，想讓 FPGA 適合深度學習演算法，還需要改進架構。Robert 表示，傳統基於 DSP 的 FPGA 計算單元設計 DSP、LUTs、儲存單元分開，布線也限制效能，不僅無法高效支援 AI 模型的不同數值精度，還要消耗其餘邏輯的儲存資源。

「我們採用的方法是改進傳統架構，設計出 MLP 單元，採用陣列式乘累積計算架構，每個乘累加單元（MAC）支援最多 32 個乘法器，達成可配置計算。同時，MLP 單元整合分別針對浮點和整型資料的 MAC，可支援 4~24 位整點格式和高效浮點模式。且計算單元與緩衝區單元緊密相鄰，可做到更複雜的演算法，並不需要使用複雜布線，確保以 750MHz 最高效能將資料傳到 MLP。」Robert 指出。

Robert 表示，MLP 的效率比傳統 FPGA 效能提升 5 倍，使這款 FPGA 能以每秒兆次運算數量為單位（TOPS）。演算法不斷改變，但底層需求都一樣，他們希望建立很好的硬體底層，讓演算法無論怎麼改變，需求都可滿足。

用片上網路解決資料挑戰

計算能力提高可透過增加 MAC，但算力提升之後，能否解決資料傳送的挑戰決定 AI 處理器的最終效能。據介紹，Speedster7t 器件是唯一支援 GDDR6 記憶體的 FPGA，且最多支援 8 個 GDDR6 控制器，支援 4Tbps 的 GDDR6 累加頻寬，能以 HBM 一半成本提供與 HBM 等效的儲存頻寬。

另外，Speedster7t 還有 72 個高效能的 SerDes，可達到 1~112Gbps 速度，Robert 強調已經過矽片驗證。還有帶前向糾錯（FEC）的硬體 400G 乙太網路 MAC，支援 4x 100G 和 8x 50G 規格，每個控制器有 8 個或 16 個通道的硬體 PCI Express Gen5 控制器。為了應付 400G 乙太網路資料的處理需求，Achronix 採用分割數據並列處理的方法。

但這些最先進和更多頻寬只能解決晶片與外部資料交換，晶片內部效率提升才是關鍵。這就是 Achronix 這款新產品架構的另一大關鍵創新，高頻寬二維片上網（NOC）。Robert 將架構中可橫跨和垂直跨越 FPGA 邏輯陣列的 NOC 比喻為城市街道系統的高速公路。NOC 每一行或每一列都可當作兩個 256 位實現，單向、工業標準的 AXI 通道，工作頻率為 2Ghz，同時可為每個方向提供 512Gbps 的數據流量。

他進一步表示，專屬二維 NOC 極簡化高速資料行動，確保資料流輕鬆定向到整個 FPGA 架構中任何自訂處理引擎。最重要的是，NOC 消除了傳統 FPGA 使用程式化路線和邏輯尋找表資源在整個 FPGA 中行動資料流出現的擁塞和效能瓶頸。不僅可提高 Speedster7t FPGA 的總頻寬容量，還能降低功耗同時提高有效 LUT 容量。

除了硬體，AI 時代軟硬體的重要性更多人關注。據 Robert 透露，Achronix 的軟體和硬體投資相當，且在公司創立時很大的優勢就是軟體技術，這也是他們今天能做到高規格的重要原因。

但 Robert 也強調，底層軟體非常重要，如果 NOC 軟體做不好，就很難真正提升。目前針對 Speedster7t 的 ACE 設計工具現已提供支援，今年第三季會發表將 TensorFlow、Caffe2 等框架 AI 模型轉換到晶片的工具。第一批用於評估的器件和開發板將於 2019 年第四季提供。

另據了解，安全性方面，Speedster7t FPGA 系列可用最先進的位元流安全保護功能應對。產品批量化支援方面，Achronix 在 Speedcore eFPGA IP 採用與 Speedster7t FPGA 使用的同一種技術，可支援從 Speedster7t FPGA 到 ASIC 無縫轉換。當使用 Speedcore eFPGA IP 將Speedster7t FPGA 轉換為 ASIC 時，用戶有望節省高達 50% 功耗並降低 90% 成本。

哪種處理器會在 AI 競爭勝出？

既然功耗和成本都能顯著降低，那是否意味 Achronix 新推出的 FPGA+ 將成為 AI 晶片的主流？Robert 表示，CPU、GPU、FPGA、ASIC 每類晶片都有技術長處，並且 AI 晶片的市場在增長，所有的晶片類別都會受益。僅看 FPGA，根據市場調研公司 Semico Research 的預測，人工智慧應用 FPGA 的市場規模將在未來 4 年增長 3 倍，達 52 億美元。

但有觀點認為，隨著 AI 演算法成熟，未來市場需要的是最通用和最專屬的 AI 處理器，FPGA 將失去優勢。Robert 表示，隨著 AI 發展，晶片發生一些變化，ASIC 也需要一些程式化能力，而我們現在也在 FPGA 增加 ASIC 屬性，因此未來 FPGA 和 ASIC 都可能不再是傳統定義。

更進一步，FPGA 會在哪些市場現出優勢？Robert 從產品出廠指出，FPGA 器件方面主要是雲端、網路加速及機器學習，IP 主要還是 5G、汽車及儲存。當然，還需要根據用戶回饋和需求，推出效能和架構都最適合用戶的 FPGA 產品。