DeepSeek-V4 月初推出,定價每百萬 token 僅 0.3 美元,比 GPT 旗艦模型便宜十倍多,也較 Claude Opus 4.6 便宜約 16 倍,開源 AI 正式進入兆參數時代。新模型加入 Engram 條件記憶架構,支援 100 萬 token 超長上下文窗口,寫程式與推理測試成績直逼頂尖閉源模型,各大企業技術主管或重新考慮 AI 供應商。
兆參數架構,推理成本不升反跌
DeepSeek-V4 採混合專家(MoE)架構,總參數量約達 1 兆。每 token 推理過程只觸發約 32 億個參數,比上代 V3 的 37 億參數更少。模型規模擴大約 50%,單次推理成本卻不升反跌。V4 採 Top-16 路由機制,數百個專家子網路每次觸發 16 個,平衡運算效率與表達能力。
訓練成本也是關鍵。V3 訓練成本約 600 萬美元,OpenAI 訓練 GPT-4 估計花費逾 1 億美元,差距極大。DeepSeek-V4 輸入定價為每百萬 token 0.3 美元,輸出定價為 0.5 美元。
AI 開支省九成,實測數據見真章
以每月處理 10 億 token 計算,DeepSeek-V4 無快取費用約 300 美元,啟用快取後更低至 30 美元。若用 GPT 旗艦模型執行相同工作量,估計需 2,500 美元,Claude Opus 4.6 標準輸入定價計算約需 5,000 美元,兩者成本相差 10~150 倍。
網路流傳「Claude Opus 4.6 每月 15,000 美元」說法,其實與舊版 Claude Opus 4 定價混淆。wavespeed.ai 實測分析,V4 性能明顯提升,SWE-Bench 分數由 V3 的 69% 升至 81%,但定價只比 V3.2 高約 15%。
基準測試逼近閉源模型,Engram 記憶架構發功
目前流出 V4 預發表基準測試數據尚未經第三方證實。報告指 SWE-Bench Verified 軟體工程任務得分達 81%,HumanEval+ 程式產生約 90%,GPQA Diamond 研究生級科學推理約 88%。Claude Opus 4.6 在 SWE-Bench Verified 達到 81.42%,兩者表現相近,但每百萬 token 成本相差 16 倍。
關鍵在 Engram 條件記憶架構。官方文件顯示,新架構能在超過 100 萬 token 的超長上下文高效檢索。V4 特別適合處理超長文件、程式庫分析或跨對話記憶等企業應用。evolink.ai 分析,DeepSeek 2 月就將基礎設施上下文窗口由 128K 擴展至 100 萬 token,早為 V4 生產環境做準備。
採華為晶片,需考量地緣政治風險
V4 背後硬體策略涉及地緣政治因素。路透社 3 日引述 The Information 報導,V4 完全以華為最新晶片運行,故 DeepSeek 直接與華為及寒武紀合作,重寫模型底層程式碼。Nvidia 並未獲 V4 早期測試機會,打破業界慣例。
阿里巴巴、字節跳動及騰訊等中國科技巨頭已為 V4 採購數十萬顆華為最新昇騰 950PR 晶片,需求激增推動晶片價格上漲約 20%。Reddit 有開源情報報告,指 V4 多次延期,部分原因是華為昇騰 910B 硬體早期訓練過程故障,才順延至今年 4 月。企業考慮採用 V4 時,要同時評估供應鏈風險與資料合法要求。
開源策略吸引企業自設伺服器
DeepSeek 預定以 Apache 2.0 授權開源發布 V4 權重。Apache 2.0 允許企業在自家伺服器部署,消除 API 風險,企業也可按業務需求微調模型,解決資料主權疑慮,因金融、醫療、法律等監管嚴格行業要求更高。
V4 落地,企業技術主管要面對的問題,已由「開源夠不夠用」變成「閉源模型高昂收費是否合理」。particula.tech 市場數據,DeepSeek 與千問合計占全球 AI 市場約 15% 份額,一年前僅 1%。
DeepSeek-V4 打破市場定價慣例。當成本相差最高 150 倍,繼續選擇 GPT 或 Claude 似乎不再理所當然。但便宜要付別的代價,V4 依賴華為晶片,加上基準測試數據仍未經獨立查實,實際應用表現仍有待觀察,企業想享受低成本開源模型好處,就要先搞清楚如何取得法規與地緣政治風險之間平衡,這不再是單純的科技測試,而是真金白銀的商業決策。
(本文由 Unwire Pro 授權轉載;首圖來源:Unsplash)






