DS 開源推理加速框架 DSpark，推理速度最高提升 85%

綜合港媒及中媒報導，中國人工智慧（AI）新創公司 DeepSeek（深度求索，簡稱 DS）團隊聯合北京大學於 27 日發布論文《DSpark：基於置信度調度的推測解碼與半自回歸生成》，DeepSeek 創始人梁文鋒位列作者名單，這是繼 6 月中旬完成 500 億人民幣融資後，DeepSeek 首次開源新成果。

論文介紹了其推理加速框架DSpark，意在解決大語言模型在高併發場景下的推理效率瓶頸；該框架採用半自回歸生成架構，融合高吞吐並行生成與輕量級串行校驗，並引入置信度調度驗證機制，可根據系統負載動態調整驗證長度。

在論文中，團隊開源了DSpark模型權重，並同步發布了面向推測解碼、由算法驅動的訓練代碼倉庫DeepSpec。目前，DeepSeek已將DSpark部署到DeepSeek-V4線上服務系統中，並基於真實用戶流量評估其實際性能；結果顯示，相較於現有生產環境基線系統MTP-1，在相同輸送量條件下，DSpark將用戶端生成速度提升了60%-85%，高併發場景下有效吞吐量翻4倍。

此外，DeepSeek也將此一框架部署在其他模型上，以阿里旗下的Qwen3-4B、8B、14B三個模型為例，相較於自回歸草稿模型，DSpark平均單輪可接受Token長度分別提升了30.9%、26.7%、30%；相較於並行草稿模型，DSpark分別提升了16.3%、18.4%、18.3%。

（本文由 MoneyDJ新聞授權轉載；首圖來源：Unsplash）