降低 CUDA 生態系依賴,DeepSeek 新模型獲華為昇騰、寒武紀、海光支援

作者 | 發布日期 2025 年 10 月 02 日 11:14 | 分類 AI 人工智慧 , 中國觀察 , 半導體 line share Linkedin share follow us in feedly line share
Loading...
降低 CUDA 生態系依賴,DeepSeek 新模型獲華為昇騰、寒武紀、海光支援

中國 AI 公司 DeepSeek 發表最新模型 DeepSeek-V3.2-Exp 之際,為華為昇騰(Ascend)晶片及其 CANN(Compute Architecture for Neural Networks)運算架構提供最佳化。此舉代表 DeepSeek 重心轉移,確保先進模型能在中國製 AI 加速器運行,不再一味依賴 NVIDIA CUDA 生態系。

隨著 DeepSeek-V3.2-Exp 發表,華為昇騰團隊及相關的 vLLM-Ascend 社群迅速整合新模型。在 vLLM-Ascend 的儲存庫中,新的項目概述昇騰 NPU 的自訂安裝步驟與內核封裝,以支援新模型。CANN 團隊也發表推理部署指南,使新模型能在華為晶片上部署。

其他中國晶片供應商相繼支援,包括寒武紀更新 vLLM-MLU 分支以相容 DeepSeek-V3.2-Exp,宣稱其推理引擎與新模型的稀疏注意力機制結合,可降低長序列處理成本。海光也表示其 DCU 加速器透過 DTK 軟體堆疊進行調校,可做到「零等待」(zero-wait)部署。

同時,推理框架 SGLang 確認 DeepSeek-V3.2-Exp 可支援多種後端(包含昇騰在內),而 DeepSeek 在 GitHub 的說明則暗示,新模型推出時可達到與 vLLM 相當的相容性。DeepSeek 也提及高階語言 TileLang 與 CUDA 內核,並建議研究人員開發原型時以 TileLang 為主。實際上,這意味著同一個模型檔案經過少量調整,就能在 NVIDIA GPU 與中國加速器之間部署。

此一採用速度之快,凸顯中國 AI 生態系正在為無法理所當然取得 NNVIDIA 硬體的未來做準備。雖然 NVIDIA 的 CUDA 在訓練與推理領域保持主導地位,但 DeepSeek 最新版本是少數中國公司在發表首日即為非 CUDA 軟體堆疊提供最佳化的產品。

(首圖來源:Unsplash

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》