NVIDIA、Arm 與英特爾三雄聯手,發表 FP8 規格加速 AI 運算

作者 | 發布日期 2022 年 09 月 16 日 11:30 | 分類 AI 人工智慧 , 半導體 , 處理器 Telegram share ! follow us in feedly


為了加速 AI 訓練、推理發展,NVIDIA、英特爾(Intel)以及 Arm 三雄聯手,近日共同發表 FP8 Formats for Deep Learning 白皮書,期能透過 8 位元浮點運算的格式來改善運算效能,並將當成 AI 通用的交換格式,提升深度學習訓練推理速度;而此一白皮書也已提交給電機電子工程師協會(Institute of Electrical and Electronics Engineers,IEEE)。

NVIDIA 表示,AI 發展需要跨硬體、軟體平台的全面創新,以解決神經網路日益成長的運算需求。而提高效率的其中一個關鍵是使用較低精確的數字格式改善運算效能,同時降低記憶體使用並最佳化頻寬互聯。為此,目前業界已由 32 位元降至 16 位元,如今甚至已轉向 8 位元。

NVIDIA 認為,擁有一種共通的交換格式,將能推動軟體與硬體平台的互動,進而加快 AI 運算發展。也因此,NVIDIA、英特爾和 Arm 攜手合作,共同撰寫 FP8 Formats for Deep Learning 白皮書,透過描述 8 位元浮點運算規格,提供一個共同的交換格式加速 AI 訓練、推理。

NVIDIA 進一步解釋,FP8 規範有兩個變體,分別是 E5M2 和 E4M3,可最大限度減少與現有的 IEEE 754 浮點格式的偏差,能為 AI 訓練、推理發展帶來更大的自由度,得以在硬體與軟體間取得良好平衡,以改善開發者的生產效率。

根據實驗結果,廣泛的訓練架構如 Transformer,FP8 訓練的準確性都類似 16 位元結果,但卻有更佳效能。譬如 NVIDIA Hopper 便利用新的 FP8 格式,BERT 高精度模型實現 4.5 倍加速。

NVIDIA 強調,與英特爾、Arm 合作撰寫 FP8 Formats for Deep Learning 白皮書,是希望透過開放、免費授權的方式,提供通用、可維持準確性的交換格式,以加速 AI 發展,並讓 AI 模型在所有硬體平台都有一致高效表現。

(首圖來源:NVIDIA

關鍵字: , , , ,