不,你無法用 600 萬美元複製一個 DeepSeek R1

作者 | 發布日期 2025 年 01 月 28 日 10:56 | 分類 AI 人工智慧 , 中國觀察 line share Linkedin share follow us in feedly line share
不,你無法用 600 萬美元複製一個 DeepSeek R1

中國 AI 新創企業 DeepSeek 最新發布的 R1 模型震驚美國股市,關鍵在於其相對低廉的訓練成本,不過深入分析其過程就知道,並不是花 600 萬美元就能複製一個相同的模型。

無論華爾街玩的是什麼套路,DeepSeek R1 模型真正讓人驚歎的,是它極度便宜的訓練成本,根據 DeepSeek 宣稱,訓練成本僅 557.6 萬美元,幾乎是其他科技巨頭大型語言模型的十分之一成本,這個費用也差不多是一位 AI 主管的年薪而已。

這個驚人的宣示實際上未必如此驚天動地,我們需要一步步拆解他們的模型訓練方式,就能了解其中奧妙。

首先,DeepSeek 和 R1 模型並非一步登天,R1 模型的訓練費用其實和去年底發佈的 V3 模型相同,而 V3 模型中的多數功能又和 2024 年初發佈的 V2 模型共用。

在 V2 模型裡,他們導入了兩個重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了多重專家混合(Mixture of Experts),和 ChatGPT4 一樣,他們將訓練出的 AI 分為多種專家,根據對話內容調用合適領域的專家,以達成更精準而高效率的回應。後者則是多頭潛在注意力機制(Multi-Head Latent Attention),在 AI 對話中,需要載入模型和文本,每個 token 需要對應的 key 和 value,MLA 則能夠壓縮 value 的儲存空間,進而減少記憶體需求。

▲DeepSeek V3 模型架構圖。(Source:Github

到了 V3 模型,他們再根據以上基礎,導入負載平衡和多重 token 預測機制,進一步提升訓練效率,根據 DeepSeek 宣稱,訓練 V3 模型總共使用 278.8 萬 H800 GPU 工時,依每工時 2 美元推算,整體訓練成本就是 557.6 萬美元。

而 R1 模型的訓練成本據稱與 V3 模型相同,換言之,想要做出 R1 模型,並不是拿 H800 跑 280 萬個工時就能做出來,還必須有前置研究、反覆實驗和前置演算法架構。

相反地,從目前實測結果來看 DeepSeek R1 的表現與 ChatGPT O1 確實不相上下,甚至有自己的優勢,既然 DeepSeek 是開源架構,就代表其他科技巨頭可以用相似的模組,投入上百萬或上千萬個更高階的 H100 GPU 工時去訓練模組,如此則能獲得十倍於 DeepSeek R1 的成果。

從這個角度來看,你覺得 NVIDIA 有什麼好緊張的嗎?

(首圖來源:NVIDIA

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》