DeepSeek-R1 模型背後的科學，AI 推理技術細節登《自然》

17 日，來自中國杭州的人工智慧新創公司 DeepSeek 的工程師們揭示了其開源 AI 推理模型 DeepSeek-R1 背後的深層科學。自今年 1 月發布以來，DeepSeek-R1 因採用創新的多階段訓練流程和開源透明策略，迅速成為 OpenAI 領先推理模型 o1-1217 的強勁競爭者。

DeepSeek團隊在《自然》期刊發表的論文中詳細介紹了該模型的訓練過程。其核心技術是基於大規模強化學習，並且首次在大型模型中引入基於規則的獎勵工程，該方法優於傳統的神經網路獎勵模型，顯著提升了AI的推理能力。該模型利用了先進的FP8混合精度訓練、混合專家模型架構（MoE）及多層注意力機制(MLA)，成功融合了之前被忽略的技術，突破了傳統AI訓練瓶頸。

DeepSeek-R1首創長鏈條思維推理法（Chain-of-Thought），使AI能夠以多步邏輯鏈的方式逐步推導問題答案，在數學、編碼和邏輯推理等多項基準測試中表現優異，與OpenAI o1不分伯仲。此外，研究團隊觀察到複雜推理模式能透過純強化學習自然生成，無需明確編程，這一推理行為的涌現，為通用人工智慧的發展提供重要啟示。

為了進一步推廣應用，DeepSeek還採用知識蒸餾技術，將模型壓縮至僅1.5億參數的輕量版，依然保持卓越的推理表現，降低了AI部署的硬體成本。

DeepSeek公司秉持完全開源的理念，公開分享了DeepSeek-R1所有權重和訓練代碼，使全球研究者和企業能共同探索下一代人工智慧技術。