遠低於競爭對手!中國 DeepSeek 公布 R1 訓練成本僅 29.4 萬美元

作者 | 發布日期 2025 年 09 月 19 日 18:27 | 分類 AI 人工智慧 , 中國觀察 line share Linkedin share follow us in feedly line share
Loading...
遠低於競爭對手!中國 DeepSeek 公布 R1 訓練成本僅 29.4 萬美元

中國 AI 開發商 DeepSeek 表示,其 R1 模型訓練成本僅 29.4 萬美元,遠低於美國競爭對手公布的數字。路透社認為,這篇發表在《自然》(Nature)期刊同行評審文章中的論文,勢必再次掀起外界對北京 AI 競賽中的討論。

DeepSeek 1 月推出「低成本 AI 系統」,震撼全球,市場當時擔心新模型威脅 NVIDIA 在內的 AI 地位,紛紛拋售科技股。但之後該公司及其創辦人梁文峰大多淡出大眾視野,僅發布少量新產品更新。

根據《自然》雜誌,梁文峰為共同作者之一,指出 DeepSeek 專注推論能力的 R1 模型訓練成本為 29.4 萬美元,使用了 512 NVIDIA H800 晶片。

美國 AI 巨頭 OpenAI 執行長 Sam Altman 曾於 2023 年表示,基礎模型的訓練成本遠高於 1 億美元,但他從未公布過具體數字。

不過,美國官員質疑,即使面對出口管制,DeepSeek 仍取得大量的 H100,而 NVIDIA 當時則回應,DeepSeek 使用的是中國特規版、合法取得的 H800,非 H100

這次《自然》雜誌的補充資料中, DeepSeek 首次承認確實持有 A100 ,並表示在研發前期便使用這些晶片。該論文寫道,「在對 DeepSeek-R1 研究中,曾利用 A100 進行小模型實驗的準備工作。在初始階段後,R1 隨後在一個由 512 H800 晶片組成的叢集上,總計訓練了 80 小時」。

美國白宮高階顧問與其他美國 AI 人士先前指控,DeepSeek 刻意將 OpenAI 的模型提煉(distilled)成自己的模型,對此,DeepSeek 也首度回應,認為提煉能在大幅降低訓練與運行成本的同時,帶來更佳的模型效能,讓更多人使用 AI 技術,因為這些模型原本需消耗大量能源與算力資源。

據報導,「提煉」是讓一個 AI 系統透過學習另一個 AI 系統的結果,間接獲得前者在投入大量時間與算力建構模型時所積累的成果,而無需承擔相同的成本。DeepSeek 也表示,它在部分自家提煉版本模型中使用 Meta 的開源 Llama AI 模型。

DeepSeek 在《自然》論文中則指出,其 V3 模型的訓練數據依賴於抓取的網頁,而其中包含相當多由 OpenAI 模型生成的回答,這可能導致基礎模型間接從其他強大模型中獲取知識。但 DeepSeek 表示,這並非刻意為之,而是偶然情況。OpenAI 則尚未對此事進行回應。

(首圖來源:Unsplash

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》