華為昇騰晶片整合 DeepSeek 推一體機，效能最高約 H100 七成強攻中國市場

美中貿易戰，美國對中國人工智慧 (AI) 晶片出口管制越嚴格，日前甚至傳出川普政府也要管制降規版 H20 晶片出口，讓製造商輝達 (NVIDIA) 提列 55 億美元庫存損失。但中國 AI 市場需求依舊強烈，華為積極推出昇騰 (Ascend) 系列晶片填補市場空缺，最近出現華為昇騰系列晶片與 DeepSeek 模型結合的一體機分析文，市場可一窺性能與跟主流產品的差異。

昇騰系列晶片與 DeepSeek 模型結合的一體機，昇騰 910B 晶片採 7 奈米，FP16 算力為 280TFLOPS，INT8 算力到 140TOPS。昇騰 910C 採中芯國際 (SMIC) N+2 製程，FP16 算力約 320TFLOPS，約能碰到輝達 H100 的 60%~70% 性能。

一體機架構以分散式設計為主。晶片由昇騰 910B 或 910C 搭配鯤鵬 920 CPU。記憶體為 NVMe SSD，單機容量可達 16TB。外部連結傳輸的網路架構，藉 200Gbps 頻寬 RoCE v2 支援大規模叢集。RoCE 網路能在非均勻 Bruck 演算法設計下，使叢集通訊效率提升 50%，網路成本占比降至 20% 以下。

除了硬體架構，一體機 MindSpore 框架協助模型訓練和和進行設備的微調。CANN 軟體棧最佳化讓推理效率提升 30%。而 CANN 支援 ACL 介面，開發者也可以藉此來自訂高性能算子，針對特定產業的需求進行運作。而支援多卡平行的情況下，藉由 HCCL 庫來達到高效通訊的目的。

文章列出價格，32B 版約 30 萬至 50 萬人民幣，671B 版 300 萬至 500 萬元。訓練與推理整合一體機，以 200 萬人民幣計算，高階產品可能超過 1,000 萬人民幣，較輝達約 2,000 萬人民幣 H100 解決方案，成本降了 60%~70%。

服務處理的 API 定價，DeepSeek-V3 輸入每百萬 token 為 1 人民幣，R1 輸出每百萬 token 為 16 人民幣，遠低於 OpenAI。成本優勢加上中國市場對 AI 算力需求孔急，應會推出免費版，吸引中小企業試用。

(首圖來源：華為)