AI 新星再起!中國新創月之暗面開源 Kimi K2 模型,代理能力提升

作者 | 發布日期 2025 年 07 月 14 日 18:29 | 分類 AI 人工智慧 line share Linkedin share follow us in feedly line share
Loading...
AI 新星再起!中國新創月之暗面開源 Kimi K2 模型,代理能力提升

開發 AI 聊天機器人 Kimi 的中國新創公司月之暗面(Moonshot AI),11 日發表一款開源模型「Kimi K2」,在數學、編碼及代理任務方面有著亮眼表現,可說是向 OpenAI、Anthropic 的專有模型發起挑戰。

Kimi K2 採用混合專家模型(Mixture of Experts Models,MoE)架構,擁有 1 兆參數量,其中 320 億參數為啟用狀態。月之暗面針對 Kimi K2 推出兩種版本:供研究人員和開發者使用的基礎模型「Kimi-K2-Base」,以及針對對話和代理體驗最佳化的微調版本「Kimi-K2-Instruct」。

「Kimi K2 不僅能回答,還能展開行動。」月之暗面透過官方部落格文章表示,「有了 Kimi K2,先進的代理智慧比以往任何時候更加開放、容易取得,我們迫不及待想看到你的成果。」

Kimi K2 最大特色在於代理能力經過最佳化,能夠自主使用工具、撰寫與執行程式碼,及在無需人類干預下完成多步驟任務的能力。面對基準測試,Kimi-K2-Instruct 在程式碼代理評估的產業標準 SWE-Bench Verified 達到 65.8% 準確率,超越大多數開源方案,並能達到部分專有模型的水準。

在可能最貼近實際編碼的 LiveCodeBench 上,Kimi-K2-Instruct 達到 53.7% 準確率,領先 Claude 4 Opus 47.4%、DeepSeek-V3 46.9%、GPT-4.1 44.7%、Gemini 2.5 Flash 44.7%。有關數學測試方面,Kimi-K2-Instruct 在 MATH-500 取得 97.4%,領先 Gemini 2.5 Flash、Claude 4 Opus 及 GPT-4.1,凸顯月之暗面掌握競爭對手未能破解的數學推理核心。

▲ 月之暗面開源釋出 Kimi K2 新模型。

月之暗面技術文件顯示,有個細節或許比模型基準測試更具意義,那就是團隊開發了 MuonClip 優化程式,能夠穩定地訓練兆級參數模型,而且沒有訓練不穩定性。

訓練不穩定性一直是大型語言模型開發的隱性成本,迫使各家公司重啟昂貴的訓練流程、實施高成本的安全措施,甚至為了避免失效選擇次優表現。月之暗面的解決方案透過重新調整查詢和關鍵投射的權重矩陣,直接從源頭解決注意力指數爆炸問題。這麼做經濟效益驚人,如果 MuonClip 優化程式能夠廣泛應用,這項技術將能大幅降低模型訓練成本。

月之暗面一邊開源 Kimi K2,一邊以極具競爭力的 API 定價,低於如 OpenAI、Anthropic,凸顯其深謀遠慮的市場策略。如此一來,如果競爭對手追隨月之暗面的定價,將會壓縮利潤,若不跟進,客戶可能轉向同級表現但成本更低的方案。

隨著 Transformer 架構成熟、訓練技術普及,競爭優勢已從單純能力,轉向部署效率、成本效益及生態系所帶來的好處。月之暗面將 Kimi K2 定位為下一代 AI 應用的基礎,而非單純只是更好用的 AI 聊天機器人。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》