訓練成本不到 600 萬美元,中國 AI 公司開源 DeepSeek-V3 新模型

作者 | 發布日期 2024 年 12 月 30 日 12:59 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
訓練成本不到 600 萬美元,中國 AI 公司開源 DeepSeek-V3 新模型

中國幻方成立的 AI 研究公司 DeepSeek,近日發表並開源全新 DeepSeek-V3 模型,引發業界討論,可能是目前市場上最強大的開源模型。

DeepSeek-V3 是一款強大的 MoE(Mixture of Experts Models,混合專家模型),使用 MoE 架構僅啟動選定的參數,以便準確處理給定的任務。DeepSeek-V3 可以處理一系列以文字為基礎的工作負載和任務,例如根據提示指令來編寫程式碼、翻譯、協助撰寫論文和電子郵件等。

DeepSeek 宣稱 DeepSeek-V3 是在包含 14.8 兆 token 資料集進行預訓練,不只資料集龐大,DeepSeek-V3 參數規模也非常龐大,有 6,710 億參數(671B),大約是 Llama 3.1 4,050 億參數(405B)的 1.6 倍。DeepSeek 也說明,Hugging Face 平台上的 DeepSeek-V3 模型總參數為 6,850 億參數(685B),其中包括 6,710 億參數的主模型權重以及 140 億參數的 MTP 模組權重。

根據 DeepSeek 的內部基準測試,DeepSeek-V3 性能勝過可下載的「開放」模型和只能透過 API 存取的「封閉」模型,例如在稱為 Codeforces 的線上程式設計挑戰賽,DeepSeek-V3 表現,勝過如 Meta Llama 3.1 405B、OpenAI GPT-4o 及阿里巴巴通義千問 Qwen2.5 72B。

▲ DeepSeek-V3 性能優於其他開源模型,且能媲美領先的封閉模型性能。(Source:GitHub

DeepSeek 在大約 2 個月內,使用專為中國市場設計的 NVIDIA H800 GPU 訓練 DeepSeek-V3,更宣稱只花 557 萬美元完成訓練,相比 Meta 訓練 Llama 3.1 估計投資超過 5 億美元,DeepSeek 的技術大幅省下成本。

▲ OpenAI 共同創辦人 Andrej Karpathy 對 DeepSeek-V3 提出看法。

幻方的創始團隊在 2015 年組成,從零開始探索全自動化交易,到了 2015 年創立幻方量化,依靠數學與 AI 進行量化投資。2019 年註冊成立幻方 AI,致力於 AI 演算法與基礎應用研究,隨後自行研發幻方「螢火一號」AI 叢集,配備 500 張顯卡、使用 200Gbps 高速網路互連,2020 年「螢火一號」正式投入使用、2021 年投資 10 億人民幣進一步推出「螢火二號」。

幻方在 2023 年 4 月宣布成立一家研究公司即 DeepSeek,探索 AGI(Artificial General Intelligence,通用人工智慧)的本質。推出 DeepSeek-V3 之前,DeepSeek 11 月底推出 DeepSeek-R1 模型,是對 OpenAI o1 模型所做的回應。

▲ 有人直接提問,結果 DeepSeek 直接回答它是以 GPT-4 為基礎來進行架構訓練。

網路上也有人發現 DeepSeek 似乎直接用了 OpenAI 的 GPT-4 來進行模型架構訓練,也不免引發這樣的方式是否合理外,也顯示 AI  語言模型之間競爭激烈,在交叉運用下,各模型之間的落差也可能逐步縮小,先行者的優勢可能會因而遞減。

 

(首圖來源:Image by Freepik

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》