Nvidia 的新 GPU 來了,FPGA 和 ASIC 要扔掉嗎?

作者 | 發布日期 2017 年 05 月 12 日 14:33 | 分類 GPU , 晶片 , 零組件 follow us in feedly

美國時間 5 月 10 日,Nvidia CEO 黃仁勳在開發者大會 GTC2017 上發表 新一代 GPU 架構 Volta,首款核心為 GV100,採用台積電 12nm 製程,最大亮點是成倍提升了推理性能,意欲在目前稱霸機器學習訓練場景的基礎上,在推理場景也成為最佳商用選擇。



GV100 GPU

據了解,Volta 架構 GV100 GPU 採用台積電(TSMC)12nm FFN 製程,具有 5,120 個 CUDA 核心。相比上一代 16nm 製程的 Pascal 架構 GPU GP100,晶體管數目增加了 38%,達到了驚人的 211 億個;核心面積也繼續增加 33%,達到令人生畏的 815mm 2,約等於一個 Apple Watch 的面積,據黃仁勳稱,這樣的面積已經達到了製程極限。隨著核心的增大,GV100 的單、雙精度浮點性能也大幅提升了 41%。然而這還不是重點,為了滿足 GPU 在機器學習中的性能需求,Volta 架構中引入了新的張量運算指令 Tensor Core,讓機器學習中訓練速度提升約 3 倍、推理性能提升約 10 倍(相比上一代自家 GPU GP100)。

GV100 搭載在 TESLA V100 開發板上亮相,配合來自三星的 16GB HBM2 顯存,顯存頻寬也達到了 900GB/s 之高。

根據現場演講 PPT,推理場景下,V100 比上一代搭載 GP100 CPU 的 P100 板卡,圖像處理能力提升了約 10 倍,延遲也下降了約 30%。在這樣的性能提升之下,GPU 已經可以讓 FPGA 和 ASIC 幾乎沒有用武之地,在商用場景中幾乎滿足全部計算需求。

DGX-1V、DGX Station

隨著 GV100 GPU 發表,Nvidia 的深度學習超級電腦也進行了升級。舊款 DGX-1 把原有 Pascal GPU 升級為 Volta GPU,名字也更新為 DGX-1V。它內建 8 塊 Tesla V100 開發板,合計顯存 128G、運算能力為 960 Tensor TFLOPS,即將邁入下一個時代。黃仁勳表示,過去 Titan X 需花費 8 天訓練的神經網路,用 DGX-1V 只需 8 個小時。它相當於是「把 400 個伺服器裝進一個盒子裡」。

DGX Station 則是縮小版的 DGX-1V,黃仁勳稱其為「Personal DGX」,堪稱是終極個人深度學習電腦,各方面指標均為 DGX-1V 的一半,但仍然已經非常強大。Nvidia 內部使用 DGX Station 已經很久,每個工程師要嘛有 DGX-1V,要嘛有 DGX Station,再要嘛兩個都有。既然它確實能夠滿足工程師的需求,Nvidia 決定把這款產品推廣到大眾市場。

Nvidia 意圖透過 GV100 完全稱霸機器學習硬體市場

據了解,機器學習中需要用到高計算性能的場景有兩種,一種是訓練,透過反覆計算來調整神經網路架構內的參數;另一種是推理,用已經確定的參數批量化解決預定任務。而在這兩種場景中,共有 3 種硬體在進行競爭,GPU、FPGA 和 ASIC。

GPU(以前是 Graphics Processing Unit 圖形計算單元,如今已經是 General Processing Unit 通用計算單元)具有高的計算能力、高級開發環境、不影響機器學習演算法切換的優點,雖然同等計算能力下能耗最高,但仍然在演算法開發和機器學習訓練場景中佔據絕對的市場地位。

FPGA(Field-Programmable Gate Array,現場可程式邏輯門陣列)是一種半成型的硬體,需要透過程式語言定義其中的單元配置和鏈接架構才能進行計算,相當於也具有很高的通用性,功耗也較低,但開發成本很高、不便於隨時修改,訓練場景下的性能不如 GPU。

ASIC(Application Specific Integrated Circuits,特殊應用積體電路)是根據確定的演算法設計製造的專用電路,看起來就是一塊普通的晶片。由於是專用電路,可以高效低能耗地完成設計任務,但是由於是專用設計的,所以只能執行本來設計的任務,在做出來以後想要改變演算法是不可能的。Google 的 TPU(Tensor Processing Unit 張量處理單元)就是一種介於 ASIC 和 FPGA 之間的晶片,只有部分的可定制性,目的是對確定演算法的高效執行。

所以目前的狀況是,雖然 GPU 在演算法開發和機器學習訓練場景中佔有絕對地位;但是由於 FPGA 和 ASIC 在任務和演算法確定的情況下,在長期穩定大規模執行(推理)方面有很大優勢,所以 GPU 跟 FPGA 和 ASIC 之間還算互有進退,尤其 GPU 相同性能下功耗很高,對大規模計算中心來說電費都是很高的負擔。但隨著 GV100 對推理計算能力的約 10 倍提升,商用場景下已經沒有必要為了推理場景更換硬體了,同一套 GPU 可以在訓練場景的計算能力和推理場景的計算能力,同時達到同功耗下最佳,還具有最好的拓展和修改能力,簡直別無所求。

面對提升如此明顯的 GPU,一眾投身機器學習硬體的 FGPA 和 ASIC 廠商前景令人擔憂。也許現在唯一能讓他們鬆口氣的就是 GV100 GPU 的量產出貨時間要到 2017 年第三、四季。等 2018 年,希望大規模部署後的 GV100 能用成倍提升後的性能給我們帶來新的驚喜。

(本文由 雷鋒網 授權轉載)

延伸閱讀:

關鍵字: , , , , ,