Nvidia 發表 TensorRT 3 可程式化推理加速器,比起 CPU 能實現高達 40 倍吞吐率

作者 | 發布日期 2017 年 09 月 27 日 17:15 | 分類 AI 人工智慧 , 網路 , 處理器 follow us in feedly

9 月 26 日,在 Nvidia GPU 技術峰會上,Nvidia 創始人兼 CEO 黃仁勳正式發表 TensorRT 3 神經網路推理加速器。據官方介紹,TensorRT 3 能極大改善處理性能,削減從雲端到邊緣裝置(自動駕駛汽車、機器人等)的推理開銷。TensorRT 3 是在 Volta GPU 實現最優推理性能的關鍵,比起 CPU 它能實現高達 40 倍的吞吐量,時延在 7ms 之內。目前,對於 Nvidia 開發者計畫成員,現在有針對 Tesla GPU(P4, P100, V100)和 Jetson 嵌入式平台的 TensorRT 3 提供免費下載。



關於 TensorRT

據了解,Nvidia TensorRT 是一種高性能神經網路推理引擎,用於在生產環境中部署深度學習應用程序。應用有圖像分類、分割和目標檢測,提供的幀 / 秒速度比只有 CPU 的推理引擎高 14 倍。

TensorRT 是世界上第一款可程式化推理加速器,能加速現有和未來的網路架構,TensorRT 可編譯到廣泛的目標 CUDA GPU 中,從 120 TOPS 到 1 TOPS,從 250 瓦到低於 1 瓦。

它包含一個為優化在生產環境中部署的深度學習模型而創建的資料庫,可獲取經過訓練的神經網路(通常使用 32 位元或 16 位元數據),並針對降低精度的 INT8 運算來優化這些網路。

為何 TensorRT 3 有著無可比擬的地位,他提到了以下幾點:

  1. 網路設計呈爆發性增長:AI 推理平台必須具備可程式化性才能執行種類繁多且不斷演進的網路架構;新的架構、更深的網路、新的分層設計會繼續提升 CNN 的性能。
  2. 智慧機器呈爆發性增長:AI 智慧會發展到 2,000 萬台雲端伺服器、上億台汽車和製造機器人中;最終,以兆計的物聯網裝置和感測器將智慧地監測一切,從心率和血壓監測,到需維修裝置的震動監測;AI 推理平台必須可擴展,以解決大量計算的性能、功耗和成本需求。

TensorRT 3 新的亮點如下:

  • 相較 Tesla P100,在 Tesla V100 上能實現 3.7 倍的加速,時延在 7ms 之內。
  • 在 Tesla V100 上進行優化和配置 TensorFlow 模型時,比起 TensorFlow 框架能實現 18 倍的推理加速。
  • 輕鬆使用 Python API 接口,生產力得到極大改進。

黃仁勳在現場介紹,

TensorRT 3 的性能非常卓越,在 Volta 上執行的 TensorRT3 在圖像分類方面比最快的 CPU 還要快 40 倍,在語言翻譯方面則要快 140 倍。

另外,現場他還提到,神經網路的響應時間或處理延時會對服務質量造成直接影響,在 V100 上執行的 TensorRT 在處理圖像是可實現 7ms 的延時,在處理語音是延時不到 200ms,這是標準雲端服務的理想目標,單靠 CPU 是無法實現的。

TensorRT 3 能支援 Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer 等所有的深度學習框架,將 TensorRT 3 和 Nvidia 的 GPU 結合起來,能在所有的框架中進行超快速和高效的推理傳輸,支持圖像和語言辨識、自然語言處理、可視化搜尋和個性化推薦等 AI 服務。

AI 新紀元

另外,在演講中,黃仁勳提到,現在已是計算新紀元,包括 TensorRT 在內的 Nvidia 多個平台已被 BAT 等多家科技巨頭採用:

  • 目前,Nvidia TensorRT 已經被 BAT、科大訊飛、京東所採用。
  • 除了 TensorRT,Nvidia Tesla V100 AI 平台已被 BAT、華為、浪潮和聯想在內的中國領軍 IT 公司採用。
  • Nvidia AI 城市平台已被阿里巴巴、海康威視、大華和華為所採用,以解決最大規模的 AI 和推理難題之一。

另外,黃仁勳在現場正式發表全球首款自主機器處理器 Xavier,這是迄今為止最複雜的 SoC,將於 2018 年第一季向早期接觸的合作夥伴提供,在 2018 年第四季全面推出。這個處理器的發表將揭開人工智慧時代新篇章。

除了 Xavier,他們也發表了一個虛擬機器人仿真環境 Isaac Lab。談及為何要創造這個自主機器系統,他提到,

教機器人與外部世界互動和執行複雜的任務一直是個未解決的難題,但相信隨著深度學習和 AI 的突破,這個問題最終必將得到解決。在機器人學習執行具體任務的過程中,他們可能會對周邊的事物造成損壞,並且需要很長的訓練週期。因此,需要創造一個可供機器人學習的虛擬世界──看起來像真實世界,並遵守物理學定律,機器人可以在其中超即時地學習。

在現場,他也強調,Nvidia 將會全力推進「統一架構」CUDA GPU 計算。透過 Inception 計畫,將支援 1,900 家初創公司創建 AI 未來。

究竟 Nvidia 能讓 AI 跨進怎樣的未來,拭目以待!

(本文由 雷鋒網 授權轉載;首圖來源:Nvidia) 

關鍵字: , , , ,