1.2 毫秒!Nvidia TensorRT 8 運行 BERT-Large 推理創紀錄

作者 | 發布日期 2021 年 07 月 23 日 8:00 | 分類 AI 人工智慧 , GPU , 處理器 Telegram share ! follow us in feedly


自今年 5 月 TensorRT 8-EA 版(Early Access,嘗鮮版)發表後,Nvidia 終於在 20 日發表 TensorRT 8 正式版。

支援Nvidia GPU平台的深度學習推理框架,TensorRT 8正式版與以往版本相比,能在1.2毫秒內運行全球廣為採用的基於transforemer模型之一BERT-Large,即將語言查詢推理時間縮短至上一版一半,創下最新紀錄,為搜尋引擎、廣告推薦和聊天機器人的AI模型提供支援。

Nvidia聲稱,TensorRT8不僅針對transformer突破性最佳化,還新增其他兩項關鍵特性,突破AI推理。

推理時間縮短至1.2毫秒,速度提升1倍

「AI模型以指數級的速度增長,很多公司不得不縮減模型大小以追求回應速度。Nvidia 2016年推出的TensorRT可幫助這些企業擴大規模,提升精確度。」AI軟體部的產品管理總監Kari Briski回顧TensorRT推出背景時說。

TensorRT是Nvidia自家深度學習推理框架,模型推理過程可將Pytorch、TensorFlow等其他框架訓練好的模型轉化為TensorRT格式,再使用TensorRT推理引擎運行,提升模型在GPU的運行速度。支援更多模型和進一步縮短推理時間,提高推理速度是廣大AI軟體開發者對TensorRT升級的普遍期望。

2019年,黃仁勳在GTC China發表TensorRT 7。相比只支援30多種模型的TensorRT 5,TensorRT 7支援各種類型RNN、Transformer和CNN,支援多達1千多種不同類型的計算變換和優化,還能讓推理時間縮短至0.3秒,為此黃仁勳稱為「最大飛躍」。

這次更新的TensorRT 8版本,雖然升級「飛躍」程度比不上從5.0版本到7.0版本的升級,但也有一定程度更新。Nvidia宣稱,TensorRT 8各項最佳化為語言帶來創紀錄速度,能在1.2毫秒內運行全球廣為採用的基於transforemer模型之一BERT-Large,幫助企業將模型擴大1倍或2倍,提高精確度。

落實到應用,這種推理速度能讓對話式AI更智慧,互動應用程式性能也能提升。

新增兩項核心技術,是推理速度提升的關鍵

憑藉TensorRT提升模型在Nvidia GPU的運行速度,主要得益於TensorRT一系列最佳化:

  • 權重與啟動精確度校準:透過將模型量化為INT8更提升輸送量,同時保持高精確度,力求精確度和輸送量的最大平衡。
  • 層與張量融合:透過融合內核節點,最佳化GPU視訊記憶體和頻寬使用。
  • 內核自動調整:基於目標GPU選擇最佳的數據層和演算法。
  • 動態張量顯存:更大限度減少視訊記憶體佔用,為張量高效重複利用記憶體。
  • 多流執行:並行處理多個輸入流的可擴展設計。

簡單而言,就是在力求以低混合精確度提升輸送量的同時,減少計算和記憶體存取,合併網路層。

TensorRT 8版本,Nvidia又新加入兩個關鍵特性,以突破AI推理性能。一是稀疏性,TensorRT 8精確度推理時,降低深度學習模型部分權重,減少模型所需頻寬和記憶體,提升效率時使開發者减少計算操作並加速神經網路。此技術能幫助NVIDIA Ampere架構GPU性能提升。

二是量化感知訓練。開發者使用訓練好的模型,以INT8精確度推理,且不會造成精確度損失,大大減少計算和儲存成本,在Tensor Core核心上高效推理。

TensorRT誕生第五年,下載次數近250萬次

推理模型的速度優勢讓TensorRT廣受歡迎。五年來有醫療、汽車、金融和零售等各領域27,500家企業,超過25萬名開發者下載使用TensorRT,累計次數近250萬次。

GE醫療是TensorRT消費者之一,使用TensorRT助力加速早期檢測疾病的關鍵工具:超音波計算機視覺創新,使臨床醫生透過職能醫療解決方案提供最高品質的護理。

GE醫療心血管超聲首席工程師Erik Steen表示:「臨床醫生需要花費寶貴時間選擇和評估超音波圖。Vivid Patient Care Elevated Release專案研發過程,希望透過Vivid E95掃描器執行自動心臟視圖檢測。心臟檢視演算法將選擇合適的圖像分析心壁運動。TensorRT憑著即時推理能力,提高視圖檢測演算法性能,同時縮短研發產品上市時間。」

開源AI技術的領導者Hugging Face也與Nvidia密切合作,產品總監Jeff Boudier表示,透過TensorRT 8,Hugging Face在BERT實現1毫秒推理延遲,十分期待今年稍晚為客戶提供新性能。

TensorRT 8已全面上市,免費提供Nvidia計劃開發者成員,用戶能從TensoRT GitHub庫取得最新版外掛程式、解析器和樣本開放原始程式碼。

(本文由 雷鋒網 授權轉載;首圖來源:科技新報)