1.2 毫秒！Nvidia TensorRT 8 運行 BERT-Large 推理創紀錄

自今年 5 月 TensorRT 8-EA 版（Early Access，嘗鮮版）發表後，Nvidia 終於在 20 日發表 TensorRT 8 正式版。

支援Nvidia GPU平台的深度學習推理框架，TensorRT 8正式版與以往版本相比，能在1.2毫秒內運行全球廣為採用的基於transforemer模型之一BERT-Large，即將語言查詢推理時間縮短至上一版一半，創下最新紀錄，為搜尋引擎、廣告推薦和聊天機器人的AI模型提供支援。

Nvidia聲稱，TensorRT8不僅針對transformer突破性最佳化，還新增其他兩項關鍵特性，突破AI推理。

推理時間縮短至1.2毫秒，速度提升1倍

「AI模型以指數級的速度增長，很多公司不得不縮減模型大小以追求回應速度。Nvidia 2016年推出的TensorRT可幫助這些企業擴大規模，提升精確度。」AI軟體部的產品管理總監Kari Briski回顧TensorRT推出背景時說。

TensorRT是Nvidia自家深度學習推理框架，模型推理過程可將Pytorch、TensorFlow等其他框架訓練好的模型轉化為TensorRT格式，再使用TensorRT推理引擎運行，提升模型在GPU的運行速度。支援更多模型和進一步縮短推理時間，提高推理速度是廣大AI軟體開發者對TensorRT升級的普遍期望。

2019年，黃仁勳在GTC China發表TensorRT 7。相比只支援30多種模型的TensorRT 5，TensorRT 7支援各種類型RNN、Transformer和CNN，支援多達1千多種不同類型的計算變換和優化，還能讓推理時間縮短至0.3秒，為此黃仁勳稱為「最大飛躍」。

這次更新的TensorRT 8版本，雖然升級「飛躍」程度比不上從5.0版本到7.0版本的升級，但也有一定程度更新。Nvidia宣稱，TensorRT 8各項最佳化為語言帶來創紀錄速度，能在1.2毫秒內運行全球廣為採用的基於transforemer模型之一BERT-Large，幫助企業將模型擴大1倍或2倍，提高精確度。

落實到應用，這種推理速度能讓對話式AI更智慧，互動應用程式性能也能提升。

新增兩項核心技術，是推理速度提升的關鍵

憑藉TensorRT提升模型在Nvidia GPU的運行速度，主要得益於TensorRT一系列最佳化：

權重與啟動精確度校準：透過將模型量化為INT8更提升輸送量，同時保持高精確度，力求精確度和輸送量的最大平衡。
層與張量融合：透過融合內核節點，最佳化GPU視訊記憶體和頻寬使用。
內核自動調整：基於目標GPU選擇最佳的數據層和演算法。
動態張量顯存：更大限度減少視訊記憶體佔用，為張量高效重複利用記憶體。
多流執行：並行處理多個輸入流的可擴展設計。

簡單而言，就是在力求以低混合精確度提升輸送量的同時，減少計算和記憶體存取，合併網路層。

TensorRT 8版本，Nvidia又新加入兩個關鍵特性，以突破AI推理性能。一是稀疏性，TensorRT 8精確度推理時，降低深度學習模型部分權重，減少模型所需頻寬和記憶體，提升效率時使開發者减少計算操作並加速神經網路。此技術能幫助NVIDIA Ampere架構GPU性能提升。

二是量化感知訓練。開發者使用訓練好的模型，以INT8精確度推理，且不會造成精確度損失，大大減少計算和儲存成本，在Tensor Core核心上高效推理。

TensorRT誕生第五年，下載次數近250萬次

推理模型的速度優勢讓TensorRT廣受歡迎。五年來有醫療、汽車、金融和零售等各領域27,500家企業，超過25萬名開發者下載使用TensorRT，累計次數近250萬次。

GE醫療是TensorRT消費者之一，使用TensorRT助力加速早期檢測疾病的關鍵工具：超音波計算機視覺創新，使臨床醫生透過職能醫療解決方案提供最高品質的護理。

GE醫療心血管超聲首席工程師Erik Steen表示：「臨床醫生需要花費寶貴時間選擇和評估超音波圖。Vivid Patient Care Elevated Release專案研發過程，希望透過Vivid E95掃描器執行自動心臟視圖檢測。心臟檢視演算法將選擇合適的圖像分析心壁運動。TensorRT憑著即時推理能力，提高視圖檢測演算法性能，同時縮短研發產品上市時間。」

開源AI技術的領導者Hugging Face也與Nvidia密切合作，產品總監Jeff Boudier表示，透過TensorRT 8，Hugging Face在BERT實現1毫秒推理延遲，十分期待今年稍晚為客戶提供新性能。

TensorRT 8已全面上市，免費提供Nvidia計劃開發者成員，用戶能從TensoRT GitHub庫取得最新版外掛程式、解析器和樣本開放原始程式碼。

（本文由雷鋒網授權轉載；首圖來源：科技新報）