DeepSeek-R1 模型背後的科學,AI 推理技術細節登《自然》

作者 | 發布日期 2025 年 09 月 18 日 10:00 | 分類 AI 人工智慧 , 中國觀察 line share Linkedin share follow us in feedly line share
Loading...
DeepSeek-R1 模型背後的科學,AI 推理技術細節登《自然》

17 日,來自中國杭州的人工智慧新創公司 DeepSeek 的工程師們揭示了其開源 AI 推理模型 DeepSeek-R1 背後的深層科學。自今年 1 月發布以來,DeepSeek-R1 因採用創新的多階段訓練流程和開源透明策略,迅速成為 OpenAI 領先推理模型 o1-1217 的強勁競爭者。

DeepSeek團隊在《自然》期刊發表的論文中詳細介紹了該模型的訓練過程。其核心技術是基於大規模強化學習,並且首次在大型模型中引入基於規則的獎勵工程,該方法優於傳統的神經網路獎勵模型,顯著提升了AI的推理能力。該模型利用了先進的FP8混合精度訓練、混合專家模型架構(MoE)及多層注意力機制(MLA),成功融合了之前被忽略的技術,突破了傳統AI訓練瓶頸。

DeepSeek-R1首創長鏈條思維推理法(Chain-of-Thought),使AI能夠以多步邏輯鏈的方式逐步推導問題答案,在數學、編碼和邏輯推理等多項基準測試中表現優異,與OpenAI o1不分伯仲。此外,研究團隊觀察到複雜推理模式能透過純強化學習自然生成,無需明確編程,這一推理行為的涌現,為通用人工智慧的發展提供重要啟示。

為了進一步推廣應用,DeepSeek還採用知識蒸餾技術,將模型壓縮至僅1.5億參數的輕量版,依然保持卓越的推理表現,降低了AI部署的硬體成本。

DeepSeek公司秉持完全開源的理念,公開分享了DeepSeek-R1所有權重和訓練代碼,使全球研究者和企業能共同探索下一代人工智慧技術。

(首圖來源:Unsplash

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》