遠低於競爭對手！中國 DeepSeek 公布 R1 訓練成本僅 29.4 萬美元

中國 AI 開發商 DeepSeek 表示，其 R1 模型訓練成本僅 29.4 萬美元，遠低於美國競爭對手公布的數字。路透社認為，這篇發表在《自然》（Nature）期刊同行評審文章中的論文，勢必再次掀起外界對北京 AI 競賽中的討論。

DeepSeek 在 1 月推出「低成本 AI 系統」，震撼全球，市場當時擔心新模型威脅 NVIDIA 在內的 AI 地位，紛紛拋售科技股。但之後該公司及其創辦人梁文峰大多淡出大眾視野，僅發布少量新產品更新。

根據《自然》雜誌，梁文峰為共同作者之一，指出 DeepSeek 專注推論能力的 R1 模型訓練成本為 29.4 萬美元，使用了 512 顆 NVIDIA H800 晶片。

美國 AI 巨頭 OpenAI 執行長 Sam Altman 曾於 2023 年表示，基礎模型的訓練成本遠高於 1 億美元，但他從未公布過具體數字。

不過，美國官員質疑，即使面對出口管制，DeepSeek 仍取得大量的 H100，而 NVIDIA 當時則回應，DeepSeek 使用的是中國特規版、合法取得的 H800，非 H100。

這次《自然》雜誌的補充資料中， DeepSeek 首次承認確實持有 A100 ，並表示在研發前期便使用這些晶片。該論文寫道，「在對 DeepSeek-R1 研究中，曾利用 A100 進行小模型實驗的準備工作。在初始階段後，R1 隨後在一個由 512 顆 H800 晶片組成的叢集上，總計訓練了 80 小時」。

美國白宮高階顧問與其他美國 AI 人士先前指控，DeepSeek 刻意將 OpenAI 的模型提煉（distilled）成自己的模型，對此，DeepSeek 也首度回應，認為提煉能在大幅降低訓練與運行成本的同時，帶來更佳的模型效能，讓更多人使用 AI 技術，因為這些模型原本需消耗大量能源與算力資源。

據報導，「提煉」是讓一個 AI 系統透過學習另一個 AI 系統的結果，間接獲得前者在投入大量時間與算力建構模型時所積累的成果，而無需承擔相同的成本。DeepSeek 也表示，它在部分自家提煉版本模型中使用 Meta 的開源 Llama AI 模型。

DeepSeek 在《自然》論文中則指出，其 V3 模型的訓練數據依賴於抓取的網頁，而其中包含相當多由 OpenAI 模型生成的回答，這可能導致基礎模型間接從其他強大模型中獲取知識。但 DeepSeek 表示，這並非刻意為之，而是偶然情況。OpenAI 則尚未對此事進行回應。