DeepSeek-V3 上個月才亮相,能量來源 DeepSeek-R1 系列終於發表。20 日 DeepSeek 在 Huggingface 上傳 R1 系列技術報告和其他資訊。
DeepSeek介紹,這次公開三組模型:1. DeepSeek-R1-Zero,直接將RL用於基礎模型,沒有任何SFT數據。2. DeepSeek-R1,經過數千個長思想鏈(CoT)示例微調的檢查點開始應用RL。3. 從DeepSeek-R1蒸餾推理能力到小型密集模型。
DeepSeek-R1在AIME2024獲79.8%成績,略高於OpenAI-o1-1217。MATH-500獲97.3%驚人成績,表現與OpenAI-o1-1217相當,並明顯優於其他模型。編碼任務,DeepSeek-R1表現出專家水準,Codeforces獲2029 Elo評級,競賽優於96.3%的人類。工程相關任務,DeepSeek-R1表現略優於OpenAI-o1-1217。
RL is all you need
技術報告披露的路線,最讓人驚歎的是R1-Zero訓練法。
DeepSeek-R1放棄預訓練大模型來說必不可少甚至最關鍵的技巧:SFT。SFT(微調)簡單說,就是先用大量人工標準資料訓練,再以強化學習讓機器自己進步,RL(強化學習)簡單說就是讓機器照某些思考鏈產生數據自己調整學習。 SFT是ChatGPT成功關鍵,而R1-Zero用強化學習取代SFT。
且效果看起來不錯。報告顯示,強化學習後,DeepSeek-R1-Zero性能穩定提升,如AIME 2024,DeepSeek-R1-Zero平均pass@1得分從15.6%躍升至令人印象深刻的71.0%,達到OpenAl-o1-0912相當的性能,突顯RL演算法最佳化模型的有效性。
R1-Zero當然也有問題,因完全沒有人類監督,會在某些時候陷入混亂,故DeepSeek以冷啟動和多階段RL改善訓練流程,在R1-Zero基礎上訓練出更有人性的R1。技巧有:
- 引入冷啟動數據:DeepSeek-R1-Zero可讀性和語言混雜問題,DeepSeek-R1引入數千條高品質冷啟動數據以微調,提升模型可讀性和多語言處理力。
- 兩階段強化學習:兩輪強化學習不斷最佳化推理模式,同時遵循人類偏好,提升多任務通用性。
- 增強型監督微調:強化學習收斂時,結合拒絕採樣(Rejection Sampling)和多領域資料庫,強化寫作、問答和角色扮演等非推理力。
R1系列與OpenAI的GPT甚至o系列相比,對待「有監督數據」都很激進。不過這也合理,當模型重點從「和人類互動」變成「數理邏輯」,前者有大量現成數據,但後者很多都是停在大腦的抽象思考,沒有現成資料可用,尋找奧數大師一個個羅列和標註大腦解題思路,顯然又貴又耗時,讓機器自己產生某種同樣存在電腦裡的數據也較合理。
論文另一個有趣地方,是R1-Zero訓練過程出現湧現時刻,DeepSeek稱為「aha moment」。
DeepSeek-R1-Zero自我進化展現顯著特點:計算能力提升,複雜行為會自動出現,如模型會「反思」,即重新審視評估之前步驟,還會探索解決問題的替代方法。這行為並非程式設計,而是模型與強化學習環境互動後的產物,增強模型推理力,更高效精準解決複雜任務。
這突顯強化學習的力量和美麗:與其明確教模型如何解決問題,只需提供正確激勵,AI就會自動開發解決方案。這頓悟時刻有力提醒強化學習解鎖AI新階段的潛力,為更自動適應的模型鋪路。
歡迎大家一起來蒸餾
DeepSeek說所有重點不在R1模型技巧或成績,而是蒸餾。
「今天發表DeepSeek-R1,同步開源模型權重。DeepSeek-R1遵循MIT License,允許用戶以蒸餾技術用R1訓練其他模型。DeepSeek-R1上線API,開放思維鏈輸出,設置’model=’deepseek-reasoner"即可調用。DeepSeek官網與App同步更新上線。」這是官方頭幾句話。
DeepSeek在R1基礎上,用Qwen和Llama蒸餾幾個模型,配合市面模型尺寸最主流需求。DeepSeek沒有閉門造車,而是用兩個生態最強大、能力最強的開源模型架構,Qwen和Llama架構相對簡潔,並有高效權重參數管理機制,適合在大模型(如DeepSeek-R1)執行高效推理能力蒸餾。蒸餾過程不需要修改模型架構,減少開發成本,且直接在Qwen和Llama蒸餾訓練比從頭訓練同規模模型節省更大量計算資源,同時可重複用高品質參數初始化。
這是DeepSeek的如意算盤,且打得還不錯。
「我們在開源DeepSeek-R1-Zero和DeepSeek-R1兩個660B模型時,以DeepSeek-R1輸出蒸餾六小模型開源給社群,32B和70B多項功能都能媲美OpenAI o1-mini。」
技術方面給業界不小啟發:
對小模型來說,蒸餾優於直接強化學習:從DeepSeek-R1蒸餾得到的小模型多個推理基準(如AIME 2024和MATH-500)表現優於小模型直接強化學習。大模型學到的推理模式因蒸餾能有效傳遞下去。
DeepSeek比OpenAI更有活力
如果概述R1系列,DeepSeek用巨大算力和各類資源,訓練出強大底層模型R1-Zero,訓練時直接拋棄GPT系列為代表的SFT等預訓練技巧,幾乎全部依賴強化學習,做出僅靠自己反思就有泛功能的模型。但全是自我反思,R1-Zero有時會雜亂,為了好用,DeepSeek再以其他技巧對齊現實,改造出R1。在此基礎上,不是自己蒸餾小模型而是用最流行開源框架蒸餾出幾個最合適尺寸模型。且所有過程都開源,DeepSeek不僅顯出強烈自成一派路線和風格,還和OpenAI正面交鋒。
OpenAI o系列陸續傳出的訓練方法,對「對齊」只延續GPT風格,OpenAI負責訓練安全和對齊的研究員曾透露,所謂安全和與人類對齊,其實就是提高模型能力。但o3預告後,安全對齊研究員卻集體離職,讓OpenAI有點遮遮掩掩,外界看起來就是放慢速度,且活力降低。
故DeepSeek異軍突起更讓人期待,因看起來比OpenAI更有活力。
從DeepSeek-R系列看,對齊放在R1訓練階段,R1-Zero更像只追求用極致強化學習練出強大邏輯。人類回饋也沒有混在最初R1-Zero資料裡訓練。
將「基礎模型」和實用模型分開,最初GPT3和InstructGPT就是這種思路,不過基礎能力和人類偏好分開兩階段完成,現在是偏好更抽象基礎邏輯和更強調實用性能和性價比。這也是為什麼V3語文類能力不強。與追上o1相比,DeepSeek-R1-Zero證明後能力,和用它蒸餾出來的V3,以及這次又用Llama和Qwen蒸餾出幾個小參數模型能力,才是一系列動作的關鍵。
與人類互動這件事,ChatGPT在GPT4基礎上大突破,但OpenAI選擇立刻閉源,而DeepSeek-V3因有DeepSeek-R1的強大才能突破,DeepSeek選擇開源,讓大家一起突破。DeepSeek威脅到OpenAI是真的,看來AI競爭會越來越有趣。
(本文由 品玩 授權轉載;首圖來源:DeepSeek / OpenAI)