
開發 AI 聊天機器人 Kimi 的中國新創公司月之暗面(Moonshot AI),11 日發表一款開源模型「Kimi K2」,在數學、編碼及代理任務方面有著亮眼表現,可說是向 OpenAI、Anthropic 的專有模型發起挑戰。
Kimi K2 採用混合專家模型(Mixture of Experts Models,MoE)架構,擁有 1 兆參數量,其中 320 億參數為啟用狀態。月之暗面針對 Kimi K2 推出兩種版本:供研究人員和開發者使用的基礎模型「Kimi-K2-Base」,以及針對對話和代理體驗最佳化的微調版本「Kimi-K2-Instruct」。
「Kimi K2 不僅能回答,還能展開行動。」月之暗面透過官方部落格文章表示,「有了 Kimi K2,先進的代理智慧比以往任何時候更加開放、容易取得,我們迫不及待想看到你的成果。」
Kimi K2 最大特色在於代理能力經過最佳化,能夠自主使用工具、撰寫與執行程式碼,及在無需人類干預下完成多步驟任務的能力。面對基準測試,Kimi-K2-Instruct 在程式碼代理評估的產業標準 SWE-Bench Verified 達到 65.8% 準確率,超越大多數開源方案,並能達到部分專有模型的水準。
在可能最貼近實際編碼的 LiveCodeBench 上,Kimi-K2-Instruct 達到 53.7% 準確率,領先 Claude 4 Opus 47.4%、DeepSeek-V3 46.9%、GPT-4.1 44.7%、Gemini 2.5 Flash 44.7%。有關數學測試方面,Kimi-K2-Instruct 在 MATH-500 取得 97.4%,領先 Gemini 2.5 Flash、Claude 4 Opus 及 GPT-4.1,凸顯月之暗面掌握競爭對手未能破解的數學推理核心。
🚀 Hello, Kimi K2! Open-Source Agentic Model!
🔹 1T total / 32B active MoE model
🔹 SOTA on SWE Bench Verified, Tau2 & AceBench among open models
🔹Strong in coding and agentic tasks
🐤 Multimodal & thought-mode not supported for nowWith Kimi K2, advanced agentic intelligence… pic.twitter.com/PlRQNrg9JL
— Kimi.ai (@Kimi_Moonshot) July 11, 2025
▲ 月之暗面開源釋出 Kimi K2 新模型。
月之暗面技術文件顯示,有個細節或許比模型基準測試更具意義,那就是團隊開發了 MuonClip 優化程式,能夠穩定地訓練兆級參數模型,而且沒有訓練不穩定性。
訓練不穩定性一直是大型語言模型開發的隱性成本,迫使各家公司重啟昂貴的訓練流程、實施高成本的安全措施,甚至為了避免失效選擇次優表現。月之暗面的解決方案透過重新調整查詢和關鍵投射的權重矩陣,直接從源頭解決注意力指數爆炸問題。這麼做經濟效益驚人,如果 MuonClip 優化程式能夠廣泛應用,這項技術將能大幅降低模型訓練成本。
月之暗面一邊開源 Kimi K2,一邊以極具競爭力的 API 定價,低於如 OpenAI、Anthropic,凸顯其深謀遠慮的市場策略。如此一來,如果競爭對手追隨月之暗面的定價,將會壓縮利潤,若不跟進,客戶可能轉向同級表現但成本更低的方案。
隨著 Transformer 架構成熟、訓練技術普及,競爭優勢已從單純能力,轉向部署效率、成本效益及生態系所帶來的好處。月之暗面將 Kimi K2 定位為下一代 AI 應用的基礎,而非單純只是更好用的 AI 聊天機器人。
- Moonshot AI’s Kimi K2 outperforms GPT-4 in key benchmarks — and it’s free
- Kimi-K2 is the next open-weight AI milestone from China after Deepseek
- Chinese unicorn Moonshot launches AI model Kimi K2 in red-hot open-source market
(首圖來源:shutterstock)