
美中貿易戰,美國對中國人工智慧 (AI) 晶片出口管制越嚴格,日前甚至傳出川普政府也要管制降規版 H20 晶片出口,讓製造商輝達 (NVIDIA) 提列 55 億美元庫存損失。但中國 AI 市場需求依舊強烈,華為積極推出昇騰 (Ascend) 系列晶片填補市場空缺,最近出現華為昇騰系列晶片與 DeepSeek 模型結合的一體機分析文,市場可一窺性能與跟主流產品的差異。
昇騰系列晶片與 DeepSeek 模型結合的一體機,昇騰 910B 晶片採 7 奈米,FP16 算力為 280TFLOPS,INT8 算力到 140TOPS。昇騰 910C 採中芯國際 (SMIC) N+2 製程,FP16 算力約 320TFLOPS,約能碰到輝達 H100 的 60%~70% 性能。
一體機架構以分散式設計為主。晶片由昇騰 910B 或 910C 搭配鯤鵬 920 CPU。記憶體為 NVMe SSD,單機容量可達 16TB。外部連結傳輸的網路架構,藉 200Gbps 頻寬 RoCE v2 支援大規模叢集。RoCE 網路能在非均勻 Bruck 演算法設計下,使叢集通訊效率提升 50%,網路成本占比降至 20% 以下。
除了硬體架構,一體機 MindSpore 框架協助模型訓練和和進行設備的微調。CANN 軟體棧最佳化讓推理效率提升 30%。而 CANN 支援 ACL 介面,開發者也可以藉此來自訂高性能算子,針對特定產業的需求進行運作。而支援多卡平行的情況下,藉由 HCCL 庫來達到高效通訊的目的。
文章列出價格,32B 版約 30 萬至 50 萬人民幣,671B 版 300 萬至 500 萬元。訓練與推理整合一體機,以 200 萬人民幣計算,高階產品可能超過 1,000 萬人民幣,較輝達約 2,000 萬人民幣 H100 解決方案,成本降了 60%~70%。
服務處理的 API 定價,DeepSeek-V3 輸入每百萬 token 為 1 人民幣,R1 輸出每百萬 token 為 16 人民幣,遠低於 OpenAI。成本優勢加上中國市場對 AI 算力需求孔急,應會推出免費版,吸引中小企業試用。
(首圖來源:華為)