一推出震憾世界!DeepSeek 是什麼,為何引爆「低成本 AI 革命」?

作者 | 發布日期 2025 年 01 月 28 日 15:32 | 分類 AI 人工智慧 , 中國觀察 , 半導體 line share Linkedin share follow us in feedly line share
一推出震憾世界!DeepSeek 是什麼,為何引爆「低成本 AI 革命」?

中國 AI 新創公司 DeepSeek 推出號稱低成本、高效能、媲美 OpenAI 的 AI 模型,震撼業界,許多投資人擔心中國 AI 模型將對 NVIDIA 等 AI 巨頭造成威脅,導致該公司收盤價大跌 17%,市值蒸發逾 19 兆元,創下華爾街股票單日市值跌幅最大紀錄。

為何 DeepSeek 引起轟動?

業界消息傳出,DeepSeek 去年 12 月底發布 DeepSeek-V3 模型,訓練成本不到 557 萬美元,且採用 AI 算力閹割版的 NVIDIA H800 晶片;上週又發布推理模型 DeepSeek R1,模型能力與 OpenAI 的推理模型o1 相當,吸引全球 AI 圈的注意。

當 OpenAI 於 2022 年底發布 ChatGPT 時,引起中國科技公司的熱烈迴響,他們積極創建自己的 AI 聊天機器人。然而,在百度發布第一個中文聊天機器人後,中國企業普遍對於中美兩國在人工智慧能力的差距感到失望。

然而,DeepSeek 模型的品質和成本效益,動搖市場對 AI 產業「高成本=高效能」的既有認知。DeepSeek 指出,DeepSeek-V3 和 DeepSeek-R1 這兩個模型獲得矽谷高層和美國科技公司工程師的一致好評,它們與 OpenAI 和Meta 最先進模型不相上下,使用成本也較低。

DeepSeek-R1 最大版本包含 6,710 億個參數。此外,公司還提供多個簡化版本,參數範圍從 15 億到 700 億不等,其中最小的版本甚至可以在筆記本電腦上運行。

矽谷創投家兼特朗普顧問 Marc Andreessen 將DeepSeek-R1描述為「人工智慧的斯普特尼克(Sputnik)時刻」,這是指是蘇聯於1957年先於美國發射的人造衛星。他認為,DeepSeek是人工智慧領域「最令人驚嘆、最令人印象深刻的突破之一」。

DeepSeek 創辦人、背後公司是誰?

根據中國企業記錄,DeepSeek 是一間總部位於杭州的新創公司,控股股東是創立程式交易對沖基金的「幻方量化」(High-Flyer)的聯合創辦人、有「少年股神」之稱的梁文鋒。

DeepSeek 於 2023 年 7 月成立,但其 AI 助理應用程式直到 1 月 10 日才在美國發布。

目前還不清楚幻方量化對 DeepSeek 投資額,根據中國企業紀錄,幻方量化和 DeepSeek 的辦公室設在同一棟大樓,同樣擁有用於訓練 AI 模型晶片相關專利。

有趣的是,梁文鋒 2024 年 7 月接受英文出版物 The China Academy 採訪時,他對自己之前開發的人工智慧模型版本引發的反應感到驚訝,「我們沒想到定價會成為如此敏感的問題。我們只是按照自己的節奏,計算成本,並根據此設定的價格」。

DeepSeek 訓練成本真的那麼低?

根據 DeepSeek 官方微信帳號的文章,DeepSeek-R1 使用成本比 OpenAI o1 機型便宜 20 到 50 倍,主要取決不同任務。此外,據美國 AI 公司 Scale AI 執行長 Alexandr Wang 接受 CNBC 採訪時表示,DeepSeek 擁有 5 萬顆 NVIDIA H100 晶片,但他不會公開這些資料,因為這違反美國出口禁令。DeepSeek 沒對指控進行回應。

Bernstein 分析師在報告中指出,DeepSeek V3 模型的總訓練成本不明,但遠高於該公司所說的 558 萬美元用於運算能力。

DeepSeek 如何使用較少晶片進行大量運算?

根據美國頂尖 AI 工程師的說法,DeepSeek的研究論文提出不同過往的方式來降低晶片使用量,簡單來說是讓晶片分析數據時更有效率。

先進 AI 系統需歸納文字、圖片、影音等大量數據來學習技能,DeepSeek則把這些數據分析工作分配給多個不同模型,每個模型負責特定領域,在維持高效數據處理的同時還縮短運算時間。

哪裡可以下載 DeepSeek?

目前這項 App 可以在蘋果 App Store 及其網站下載,並超過 OpenAI 的 ChatGPT,成為下載量最高的免費應用程式。不過該公司表示,由於服務受大規模惡意攻擊,將暫時限制用戶註冊,目前暫時只支援中國手機用戶註冊。

中國當局、其他 AI 對手如何看待 DeepSeek?

DeepSeek 的成功已引起中國政治界的注意,在 DeepSeek-R1 向大眾發布的當日,中媒新華社報導,創辦人梁文鋒出席由中國國務院總理李強主持的商人和專家閉門研討會。梁文鋒的出現可能意味 DeepSeek 的成功加強中國克服美國出口管制、實現人工智慧等戰略產業自給自足目標。

目前 OpenAI、Meta 等頂尖開發商的研究人員正仔細分析 DeepSeek 模型,以尋找可借鑑之處。其中,Meta 已籌組四個「戰情室」,其中兩個小組聚焦於研究如何降低訓練和運作DeepSeek 的成本。

 OpenAI 的執行長 Sam Altman 指出,DeepSeek 的 R1 模型是一款令人印象深刻的型號,特別是在他們能提供的價格方面。OpenAI 將提供更好模型、也將發布新版本,而且有新的競爭對手是相當令人振奮的事情。

(首圖來源:DeepSeek)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》