
中國 DeepSeek(深度求索)邁向下一代 AI 歷程中,更新一款實驗版本「DeepSeek-V3.2-Exp」。
DeepSeek 透過 Hugging Face 平台介紹最新 DeepSeek-V3.2-Exp,它採用一種名為 DeepSeek Sparse Attention(DSA)新技術,作為邁向新一代架構的中間步驟。
DeepSeek 今年以推理模型 DeepSeek-R1 震驚矽谷,計劃推出新產品鞏固在中國 AI 產業的領先地位。DeepSeek-V3.2-Exp 在 DeepSeek-V3.1-Terminus 基礎上加入一種稀疏注意力機制,即 DSA,針對長篇文本的訓練和推理效率進行改善與驗證。
DeepSeek-V3.2-Exp 採用 DSA,凸顯 DeepSeek 尋求降低訓練成本與難度的方法,尤其是被限制取得 NVIDIA 晶片資源的情況下。DeepSeek 創辦人梁文鋒今年以此主題與他人合著一篇論文,闡述開發者如何將軟體創新與校準後的硬體結合,以減少運算需求。
降低成本讓 DeepSeek 的模型具競爭力,DeepSeek 將 API 價格砍半甚至更多,加入其他中國新創公司以大幅降價吸引開發者的行列。值得一提的是,中國 AI 晶片廠商華為與寒武紀宣布,產品將支援 DeepSeek 最新模型更新。
DeepSeek 也表示,最新模型支援 FP8 精度,同時正在努力支援 BF16。模型要處理數以百萬的數值,使用像 FP8 與 BF16 這類較小的格式可在速度與精度之間取得平衡,在受限硬體上執行大型語言模型變得更容易。雖然 FP8 準度不高,但對許多 AI 任務而言很有用,BF16 則被認為訓練模型時更為精確。
💻 API Update
🎉 Lower costs, same access!
💰 DeepSeek API prices drop 50%+, effective immediately.🔹 For comparison testing, V3.1-Terminus remains available via a temporary API until Oct 15th, 2025, 15:59 (UTC Time). Details: https://t.co/3RNKA89gHR
🔹 Feedback welcome:… pic.twitter.com/qEdzcQG5bu— DeepSeek (@deepseek_ai) September 29, 2025
▲ 採用 DSA,使 DeepSeek-V3.2-Exp 提高長篇文本性能並降低運算成本。
(首圖來源:shutterstock)