中國幻方成立的 AI 研究公司 DeepSeek,近日發表並開源全新 DeepSeek-V3 模型,引發業界討論,可能是目前市場上最強大的開源模型。
DeepSeek-V3 是一款強大的 MoE(Mixture of Experts Models,混合專家模型),使用 MoE 架構僅啟動選定的參數,以便準確處理給定的任務。DeepSeek-V3 可以處理一系列以文字為基礎的工作負載和任務,例如根據提示指令來編寫程式碼、翻譯、協助撰寫論文和電子郵件等。
DeepSeek 宣稱 DeepSeek-V3 是在包含 14.8 兆 token 資料集進行預訓練,不只資料集龐大,DeepSeek-V3 參數規模也非常龐大,有 6,710 億參數(671B),大約是 Llama 3.1 4,050 億參數(405B)的 1.6 倍。DeepSeek 也說明,Hugging Face 平台上的 DeepSeek-V3 模型總參數為 6,850 億參數(685B),其中包括 6,710 億參數的主模型權重以及 140 億參數的 MTP 模組權重。
根據 DeepSeek 的內部基準測試,DeepSeek-V3 性能勝過可下載的「開放」模型和只能透過 API 存取的「封閉」模型,例如在稱為 Codeforces 的線上程式設計挑戰賽,DeepSeek-V3 表現,勝過如 Meta Llama 3.1 405B、OpenAI GPT-4o 及阿里巴巴通義千問 Qwen2.5 72B。
▲ DeepSeek-V3 性能優於其他開源模型,且能媲美領先的封閉模型性能。(Source:GitHub)
DeepSeek 在大約 2 個月內,使用專為中國市場設計的 NVIDIA H800 GPU 訓練 DeepSeek-V3,更宣稱只花 557 萬美元完成訓練,相比 Meta 訓練 Llama 3.1 估計投資超過 5 億美元,DeepSeek 的技術大幅省下成本。
DeepSeek (Chinese AI co) making it look easy today with an open weights release of a frontier-grade LLM trained on a joke of a budget (2048 GPUs for 2 months, $6M).
For reference, this level of capability is supposed to require clusters of closer to 16K GPUs, the ones being… https://t.co/EW7q2pQ94B
— Andrej Karpathy (@karpathy) December 26, 2024
▲ OpenAI 共同創辦人 Andrej Karpathy 對 DeepSeek-V3 提出看法。
幻方的創始團隊在 2015 年組成,從零開始探索全自動化交易,到了 2015 年創立幻方量化,依靠數學與 AI 進行量化投資。2019 年註冊成立幻方 AI,致力於 AI 演算法與基礎應用研究,隨後自行研發幻方「螢火一號」AI 叢集,配備 500 張顯卡、使用 200Gbps 高速網路互連,2020 年「螢火一號」正式投入使用、2021 年投資 10 億人民幣進一步推出「螢火二號」。
幻方在 2023 年 4 月宣布成立一家研究公司即 DeepSeek,探索 AGI(Artificial General Intelligence,通用人工智慧)的本質。推出 DeepSeek-V3 之前,DeepSeek 11 月底推出 DeepSeek-R1 模型,是對 OpenAI o1 模型所做的回應。
▲ 有人直接提問,結果 DeepSeek 直接回答它是以 GPT-4 為基礎來進行架構訓練。
網路上也有人發現 DeepSeek 似乎直接用了 OpenAI 的 GPT-4 來進行模型架構訓練,也不免引發這樣的方式是否合理外,也顯示 AI 語言模型之間競爭激烈,在交叉運用下,各模型之間的落差也可能逐步縮小,先行者的優勢可能會因而遞減。
- DeepSeek’s new AI model appears to be one of the best ‘open’ challengers yet
- DeepSeek open-sources new AI model with 671B parameters
- DeepSeek-V3, ultra-large open-source AI, outperforms Llama and Qwen on launch
(首圖來源:Image by Freepik)