Hot Chips 2023》來自中國的墨芯英騰 AI 推論加速器

歷屆 Hot Chips 總不乏中國廠商身影，人工智慧晶片戰場也不例外。創立於 2018 年、總部位於深圳的墨芯（Moffett），2022 年 3 月 22 日發表兩款雲端資料中心 AI 推論計算卡：SparseOne S100 和 SparseMegatron S300，搭載墨芯首顆處理器英騰（Antoum），是全球首款高達 4~32 倍稀疏率的 AI 計算晶片。墨芯創始團隊來自卡內基美隆大學頂尖 AI 科學家，Moffett 是矽谷校區地名，中文名稱「墨芯」是致敬中國科學家鼻祖墨子。

墨芯技術特點在「稀疏化（Sparsity）計算」，思路源於人腦工作方式，雖然大腦有數百億個神經元，但工作時功耗卻非常低，因工作時只需用到少部分神經元。稀疏化計算過程類似抽走積木的疊疊樂，即確保 AI 模型不會坍塌同時，透過最佳化模型抽走部分參數，以減少矩陣運算計算量並節約記憶體容量和頻寬。

據墨芯創辦人王維說法，近年晶片算力發展逐漸跟不上算力需求，目前 AI 算力需求是每 3.5 個月就要翻倍，但摩爾定律卻是 18 個月，算力供需明顯高度不平衡。

以自然語言模型 GPT-3 為例，GPT-3 擁有超過 1,700 億個參數，若使用 GPU 執行模型，需十張 Nvidia A100，但若用稀疏化計算，一張墨芯 SparseOne S30 就可讓 GPT-3 跑起來，節省成本。

換言之，需改變傳統算力供給模式，開發工具等軟體更重於硬體，人員構成上，墨芯軟硬體開發人員比例為 6：4，軟體投入更多人才。

目前 AI 王者 Nvidia A100 與 H100 首次讓 Tensor Core（張量核心）支援兩倍稀疏率，墨芯卻可做到最大 32 倍。英騰處理器有獨特稀疏計算單元（SPU，Sparse Processing Unit）深度稀疏張量核心（Deep Sparse Tensor Core），可負載均衡下平行計算，且只處理非零值，大幅提高計算單元利用率，減少功耗和延遲。

▲ Nvidia 從 A100 和 H100 開始支援稀疏率 50%（兩倍）的 2：4 稀疏模式，每個連續四個值，有兩個必須為 0，這樣可花一半時間完成相同有效計算。當然，如果無法確保良好準確性，性能就沒有意義，所以 Nvidia 開發簡單訓練流程，讓開發者輕鬆產生與密集網路的準確性匹配的 2：4 結構稀疏網路。

SparseOne S100 的設定對手是尺寸半高半長的 Nvidia T4，執行 ResNet-50 模型（深度 50 層卷積神經網路）算力達 31,031fps，算力超過 Nvidia T4 六倍，功耗不到一半。SparcemMegatron S300 則對決全高全長 Nvidia A10 / A30，算力更高達 99,591fps。

接著 2022 年 9 月 MLPerf Inference v2.1 最新結果，SparseOne S30 計算卡 Open Division 測試環境，以 95,784fps 單卡算力奪得 ResNet-50 全球第一名。墨芯 S30 運算卡執行 BERT-Large 高精度自然語言模型（99.9%）時，算力達 3,837sps，是 Nvidia A100 兩倍，僅次 Nvidia H100。

4 月初 MLPerf Inference v3.0 的 ResNet-50 模型，SparseOne S40（似乎尚未公開）和 SparseOne S30，分別拿下單卡算力（127,375fps）和整機四卡算力（383,520fps）冠軍，也創造「12 奈米戰勝 4 奈米」的奇蹟。

讓我們好好瞧瞧 Hot Chips 2023（第 35 屆）亮相的英騰處理器。

▲ 十年前爆發式成長的計算機視覺，近年看到大型語言模型開始普及。

▲ 不同應用模型也有不同大小。通常計算機視覺體積都很小，但輸入量卻很大，大型語言模型相反。

▲ 英騰可同時滿足兩者需求。

▲ 張量有稀疏性，因運算過程自然會出現 0 值。

▲ 稀疏性可能以不同型態出現在不同地方。

▲ 墨芯利用編譯感測模擬器了解如何讓處理器利用模型稀疏性。

▲ 英騰單晶片架構圖，有四核 Arm 處理器執行 Linux 作業系統。共有 32 個 SPU，支援 BF16 和 INT8 資料格式。四個 NNCore 子系統，個別有八個 SPU 與不同應用需求的特定加速器（觸發、TOPK、Transpose、嵌入式查找、圖像預處理、圖像後處理），共享總計 82MB 容量的內建 SRAM。

▲ 英騰的靈魂：SPU。

▲ SPU 叢集架構的資料傳輸路徑，SPU 底層是 8×9 乘積和陣列單元。

▲ 可處理 INT8 和 BF16 資料格式的向量處理單元。

▲ 特定應用加速器。

▲ 四個 NNCore 子系統的連結架構。

▲ 英騰可混合多種稀疏性以加速大型語言模型。

▲ 英騰採 12 奈米製程（沒提代工廠是哪間），晶粒面積 340 平方公釐，時脈 800MHz，SPU 密集吞吐量為 14.7TFLOPS 和 29.5TOPS，32 倍稀疏性條件下，可實現相當於 471.8TFLOPS 和 943.6TOPS 性能，VPU BF16 吞吐量則為 3.7TFLOPS。有專用視訊編解碼引擎（四個解碼，一個編碼），便於多路串流的視訊處理應用。八個 JPEG 圖片解碼器能以 1,600FPS 速度解碼 1080p JPEG 圖像。界面為 PCIe Gen 3 x16，20GB LPDDR4x 記憶體，理論頻寬 84GB/s，功耗僅 70W。