Hot Chips 2023》來自中國的墨芯英騰 AI 推論加速器

作者 | 發布日期 2023 年 10 月 03 日 7:50 | 分類 IC 設計 , 半導體 , 處理器 line share follow us in feedly line share
Hot Chips 2023》來自中國的墨芯英騰 AI 推論加速器


歷屆 Hot Chips 總不乏中國廠商身影,人工智慧晶片戰場也不例外。創立於 2018 年、總部位於深圳的墨芯(Moffett),2022 年 3 月 22 日發表兩款雲端資料中心 AI 推論計算卡:SparseOne S100 和 SparseMegatron S300,搭載墨芯首顆處理器英騰(Antoum),是全球首款高達 4~32 倍稀疏率的 AI 計算晶片。墨芯創始團隊來自卡內基美隆大學頂尖 AI 科學家,Moffett 是矽谷校區地名,中文名稱「墨芯」是致敬中國科學家鼻祖墨子。

墨芯技術特點在「稀疏化(Sparsity) 計算」,思路源於人腦工作方式,雖然大腦有數百億個神經元,但工作時功耗卻非常低,因工作時只需用到少部分神經元。稀疏化計算過程類似抽走積木的疊疊樂,即確保 AI 模型不會坍塌同時,透過最佳化模型抽走部分參數,以減少矩陣運算計算量並節約記憶體容量和頻寬。

據墨芯創辦人王維說法,近年晶片算力發展逐漸跟不上算力需求,目前 AI 算力需求是每 3.5 個月就要翻倍,但摩爾定律卻是 18 個月,算力供需明顯高度不平衡。

以自然語言模型 GPT-3 為例,GPT-3 擁有超過 1,700 億個參數,若使用 GPU 執行模型,需十張 Nvidia A100,但若用稀疏化計算,一張墨芯 SparseOne S30 就可讓 GPT-3 跑起來,節省成本。

換言之,需改變傳統算力供給模式,開發工具等軟體更重於硬體,人員構成上,墨芯軟硬體開發人員比例為 6:4,軟體投入更多人才。

目前 AI 王者 Nvidia A100 與 H100 首次讓 Tensor Core(張量核心)支援兩倍稀疏率,墨芯卻可做到最大 32 倍。英騰處理器有獨特稀疏計算單元(SPU,Sparse Processing Unit)深度稀疏張量核心(Deep Sparse Tensor Core),可負載均衡下平行計算,且只處理非零值,大幅提高計算單元利用率,減少功耗和延遲。

▲ Nvidia 從 A100 和 H100 開始支援稀疏率 50%(兩倍)的 2:4 稀疏模式,每個連續四個值,有兩個必須為 0,這樣可花一半時間完成相同有效計算。當然,如果無法確保良好準確性,性能就沒有意義,所以 Nvidia 開發簡單訓練流程,讓開發者輕鬆產生與密集網路的準確性匹配的 2:4 結構稀疏網路。

SparseOne S100 的設定對手是尺寸半高半長的 Nvidia T4,執行 ResNet-50 模型(深度 50 層卷積神經網路)算力達 31,031fps,算力超過 Nvidia T4 六倍,功耗不到一半。SparcemMegatron S300 則對決全高全長 Nvidia A10 / A30,算力更高達 99,591fps。

接著 2022 年 9 月 MLPerf Inference v2.1 最新結果,SparseOne S30 計算卡 Open Division 測試環境,以 95,784fps 單卡算力奪得 ResNet-50 全球第一名。墨芯 S30 運算卡執行 BERT-Large 高精度自然語言模型(99.9%)時,算力達 3,837sps,是 Nvidia A100 兩倍,僅次 Nvidia H100。

4 月初 MLPerf Inference v3.0 的 ResNet-50 模型,SparseOne S40(似乎尚未公開)和 SparseOne S30,分別拿下單卡算力(127,375fps)和整機四卡算力(383,520fps)冠軍,也創造「12 奈米戰勝 4 奈米」的奇蹟。

讓我們好好瞧瞧 Hot Chips 2023(第 35 屆)亮相的英騰處理器。

十年前爆發式成長的計算機視覺,近年看到大型語言模型開始普及。

▲ 不同應用模型也有不同大小。通常計算機視覺體積都很小,但輸入量卻很大,大型語言模型相反。

▲ 英騰可同時滿足兩者需求。

▲ 張量有稀疏性,因運算過程自然會出現 0 值。

▲ 稀疏性可能以不同型態出現在不同地方。

▲ 墨芯利用編譯感測模擬器了解如何讓處理器利用模型稀疏性。

▲ 英騰單晶片架構圖,有四核 Arm 處理器執行 Linux 作業系統。共有 32 個 SPU,支援 BF16 和 INT8 資料格式。四個 NNCore 子系統,個別有八個 SPU 與不同應用需求的特定加速器(觸發、TOPK、Transpose、嵌入式查找、圖像預處理、圖像後處理),共享總計 82MB 容量的內建 SRAM。

▲ 英騰的靈魂:SPU。

▲ SPU 叢集架構的資料傳輸路徑,SPU 底層是 8×9 乘積和陣列單元。

▲ 可處理 INT8 和 BF16 資料格式的向量處理單元。

▲ 特定應用加速器。

▲ 四個 NNCore 子系統的連結架構。

▲ 英騰可混合多種稀疏性以加速大型語言模型。

▲ 英騰採 12 奈米製程(沒提代工廠是哪間),晶粒面積 340 平方公釐,時脈 800MHz,SPU 密集吞吐量為 14.7TFLOPS 和 29.5TOPS,32 倍稀疏性條件下,可實現相當於 471.8TFLOPS 和 943.6TOPS 性能,VPU BF16 吞吐量則為 3.7TFLOPS。有專用視訊編解碼引擎(四個解碼,一個編碼),便於多路串流的視訊處理應用。八個 JPEG 圖片解碼器能以 1,600FPS 速度解碼 1080p JPEG 圖像。界面為 PCIe Gen 3 x16,20GB LPDDR4x 記憶體,理論頻寬 84GB/s,功耗僅 70W。

▲ 據不同英騰數量,墨芯推出不同規格的 SparseOne 加速卡。

▲ 墨芯 SparseRT 軟體開發環境,對應現有機器學習框架,如 TensorFlow、PyTorch、ONNX 和 MXNet。

▲ 最關鍵的技術:墨芯 SparceOPT 模型壓縮工具提供 AI 模型 4~32 倍稀疏壓縮,如此就可用更少硬體執行更大模型。

平心而論,墨芯選擇「稀疏化計算」路線,在百家爭鳴的人工智慧處理器市場,算極為罕見的特例,但這方向能否成為主流、有機會改變 Nvidia GPU 拚命賣的現況,倒是值得慢慢觀察。至於墨芯團隊究竟有多少「台灣因素」,在此不論,就留待有興趣的讀者慢慢考察。

(首圖來源:墨芯