AMD 宣布 Instinct GPU 支援 DeepSeek-V3 模型

處理器大廠 AMD 宣佈，Instinct GPU 整合 DeepSeek 最新 DeepSeek-V3 模型，並最佳化 SGLang 效能。

AMD 表示，此次融合將有助於加速尖端人工智慧 (AI) 應用和體驗的發展。並指出，DeepSeek-V3 是一個開放原始碼的多模式 AI 模型，目的在為開發人員提供無與倫比的效能和效率。無縫整合處理文字和視覺資料的高級功能，DeepSeek-V3 為生產力樹立新標竿，推動創新並使開發人員創建尖端 AI 應用程式。

AMD 指出，DeepSeek-V3 模型是強大的混合專家 (MoE) 語言模型，共 671B 個參數，每個標記啟動 37B 個參數。為了達成高效推理和經濟訓練，DeepSeek-V3 採多頭潛在注意力 (MLA) 和 DeepSeekMoE 架構，是前身 DeepSeek-V2 的一部分。

此外，DeepSeek-V3 率先採無輔助損失的負載平衡策略，並設定多個 token 預測訓練目標，性能更強。DeepSeek-V3 允許開發人員使用高級模型，利用記憶體功能同時處理文字和視覺資料，廣泛存取最新進展，並為開發人員提供更多功能。DeepSeek-V3 大多數基準測試都取得最佳表現，尤其數學和程式碼任務。

AMD 強調，Instinct GPU 加速器改變多模式 AI 模型格局，如 DeepSeek-V3，它需要大量的運算資源和記憶體頻寬來處理文字和視覺資料。AMD Instinct GPU 在這些領域表現出色。而且，在 DeepSeek-V3 開發的關鍵階段利用 AMD ROCm 軟體和 AMD Instinct GPU 加速器進一步加強了與 AMD 的長期合作以及對 AI 開放軟體方法的承諾。AMD 的可擴展基礎架構，也使得開發人員能夠建立強大的視覺推理和理解應用程式。

至於，ROCm 中廣泛的 FP8 支援則可以顯著改善運行 AI 模型的過程，尤其是在推理方面。它有助於解決與更多讀寫格式相關的記憶體瓶頸和高延遲問題等關鍵問題，進一步能夠在相同的硬體約束內處理更大的模型或數量，從而達成更有效率的訓練和推理過程。此外，FP8 降低精度計算可以減少資料傳輸和計算的延遲。AMD ROCm 在其生態系統中擴展了對 FP8 的支持，從而提高了從框架到庫等各個方面的效能和效率。

(首圖來源：科技新報攝)