nVidia 新 GPU 架構 Volta 發表,為人工智慧注入一針強心劑

作者 | 發布日期 2017 年 05 月 11 日 12:00 | 分類 AI 人工智慧 , GPU , 晶片 follow us in feedly

今年的 GTC 2017(GPU Technology Conference 2017)中,Nvidia CEO 黃仁勳帶來了全新的 GPU 架構 Volta。1.5 倍的雙精度浮點數計算效能提升,以及採用特化架構所帶來的 12 倍人工智慧計算效能提升,為計算市場帶來震撼的消息。



Nvidia 在 2016 年的 GTC 中,便發表了新的 GPU 架構 Pascal。其中,讓人印象最深刻的,莫過採用 8 張 Tesla P100 的人工智慧訓練機 DGX-1。一台機器便帶來以往需要數台伺服器才能達到的效能,為人工智慧發展帶來新氣象。

然而,短短的一年間,Nvidia 又帶來新消息──新的 GPU 架構 Volta。強悍的 R&D 團隊,將其主要競爭對手遠遠拋在後頭。同時,也讓世人見識到,在後莫爾定律的年代,GPU 將承接 CPU 的發展速度,推進電腦的計算效能。

新技術突破,奠定 Volta 於人工智慧的王者之姿

這次 Volta 架構帶來數個新技術。 其中,最重要的莫過 Tenser Core。其他還有細部硬體架構調整、第 2 代 NVLink 以及新軟體支援,讓 Nvidia 在人工智慧領域扮演領導者。

首先,從硬體架構來看,這次 GPU 架構和前一代 P100 相比,V100 將整數計算單元和浮點數計算單元獨立出來,讓整數計算和浮點數計算可同時運行,物盡其用。此外,每個 SM(Streaming Multiprocessor)中新增 8 個 Tensor Core,讓 Volta 帶來 12 倍的訓練提升以及 6 倍的決策加速。

究竟 Tensor Core 是如何運作的呢?首先,假設我們要求解兩個 4×4 矩陣相乘再加上一個 4×4 矩陣,如下圖,那將會產生 4×4×4 個乘法計算需求。在採用 Tensor Core 之前,需要執行 4 次 4×4 矩陣相乘並相加,相當花時間。

在新 Tensor Core 中,由於一個 Tensor Core 是 4×4×4 的特化計算元件,讓 GPU 可同時執行 4×4×4 個矩陣相乘並相加,如下圖所示。藉此達到更多計算加速。這就是 Nvidia 對人工智慧所發展的殺手鐧。

新舊架構比一比,效能三級跳

那麼 Volta 和 Pascal 究竟有什麼差異呢,就讓我們攤開所有細節來比一比吧!

從上表中可輕易了解更多 CUDA Core 讓 Volta 在純計算效能上,帶來將近 50% 的效能提升。新 HBM2 帶來更多記憶體頻寬,盡可能滿足平行計算的資料需求。更重要的是,Volta 採用新的台積電 12 奈米製程,讓 Volta 的 TDP 維持在和 P100 一樣的 300W。

此外,在人工智慧領域中,藉由 Tensor Processor,Volta 的計算能力更一舉突破每秒百兆次運算的門檻。新 Volta GPU 的發表,讓逐漸捉襟見肘的計算效能獲得緩和。

(首圖來源:Nvidia) 

關鍵字: , , ,