
來自中國的 DeepSeek(深度求索)自 24 日展開為期 5 天的「開源週」,計劃開源 5 個程式庫,希望以完全透明的方式分享該團隊的開發進展,為開源社群做出貢獻。
「開源週」來到第 2 天,DeepSeek 發表 DeepEP,是一套用於 MoE(Mixture of Experts Models,混合專家模型)訓練和推理的開源 EP(expert parallelism)通訊程式庫,它提供高吞吐量和低延遲的全互連 GPU 核心。它還支援低精度運算,包括 FP8。
為了與 DeepSeek-V3 論文提及的演算法一致,DeepEP 提供一組針對非對稱領域頻寬轉發進行最佳化的核心,例如從 NVLink 領域轉發數據到 RDMA 領域,這些核心具有很高的吞吐量,適合訓練和推理預填任務。對於延遲性較敏感的推理解碼,DeepEP 包括一組具有純 RDMA 的低延遲核心,以最大程度減少延遲。
DeepSeek 可說是是一項專門為多 GPU 系統實現高吞吐量、低延遲數據交換所設計的工具,以靈活控制 GPU 資源。
🚀 Day 2 of #OpenSourceWeek: DeepEP
Excited to introduce DeepEP – the first open-source EP communication library for MoE model training and inference.
✅ Efficient and optimized all-to-all communication
✅ Both intranode and internode support with NVLink and RDMA
✅…— DeepSeek (@deepseek_ai) February 25, 2025
▲ DeepSeek 發表用於 MoE 訓練和推理的開源 EP 通訊程式庫「DeepEP」。
值得關注還有第 1 天所發表的 FlashMLA,是針對 NVIDIA Hopper 架構 GPU 進行最佳化的高效 MLA(Multi-Head Latent Attention,多頭潛在注意力)解碼核心,涵蓋 H100、H200、H800,不僅將 AI 推理的記憶體頻寬推升至 3000 GB/s 的驚人水準,更有高達 580 TFLOPS 的運算性能。
換個角度來看,FlashMLA 使 GPU 運算方式最佳化、推理速度提升,可使像是 H800 的推理性能提升 2~3 倍。
🚀 Day 1 of #OpenSourceWeek: FlashMLA
Honored to share FlashMLA – our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production.
✅ BF16 support
✅ Paged KV cache (block size 64)
⚡ 3000 GB/s memory-bound & 580 TFLOPS…— DeepSeek (@deepseek_ai) February 24, 2025
▲ 針對 NVIDIA Hopper 架構 GPU 進行最佳化的「FlashMLA」。
(首圖來源:shutterstock)