靈活控制 GPU 運算資源,DeepSeek 開源釋出 DeepEP、FlashMLA

作者 | 發布日期 2025 年 02 月 25 日 16:34 | 分類 AI 人工智慧 , GPU line share Linkedin share follow us in feedly line share
靈活控制 GPU 運算資源,DeepSeek 開源釋出 DeepEP、FlashMLA

來自中國的 DeepSeek(深度求索)自 24 日展開為期 5 天的「開源週」,計劃開源 5 個程式庫,希望以完全透明的方式分享該團隊的開發進展,為開源社群做出貢獻。

「開源週」來到第 2 天,DeepSeek 發表 DeepEP,是一套用於 MoE(Mixture of Experts Models,混合專家模型)訓練和推理的開源 EP(expert parallelism)通訊程式庫,它提供高吞吐量和低延遲的全互連 GPU 核心。它還支援低精度運算,包括 FP8。

為了與 DeepSeek-V3 論文提及的演算法一致,DeepEP 提供一組針對非對稱領域頻寬轉發進行最佳化的核心,例如從 NVLink 領域轉發數據到 RDMA 領域,這些核心具有很高的吞吐量,適合訓練和推理預填任務。對於延遲性較敏感的推理解碼,DeepEP 包括一組具有純 RDMA 的低延遲核心,以最大程度減少延遲。

DeepSeek 可說是是一項專門為多 GPU 系統實現高吞吐量、低延遲數據交換所設計的工具,以靈活控制 GPU 資源。

▲ DeepSeek 發表用於 MoE 訓練和推理的開源 EP 通訊程式庫「DeepEP」。

值得關注還有第 1 天所發表的 FlashMLA,是針對 NVIDIA Hopper 架構 GPU 進行最佳化的高效 MLA(Multi-Head Latent Attention,多頭潛在注意力)解碼核心,涵蓋 H100、H200、H800,不僅將 AI 推理的記憶體頻寬推升至 3000 GB/s 的驚人水準,更有高達 580 TFLOPS 的運算性能。

換個角度來看,FlashMLA 使 GPU 運算方式最佳化、推理速度提升,可使像是 H800 的推理性能提升 2~3 倍。

▲ 針對 NVIDIA Hopper 架構 GPU 進行最佳化的「FlashMLA」。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》