小米開源首個推理大模型 Xiaomi MiMo,測試得分超越 OpenAI

作者 | 發布日期 2025 年 04 月 30 日 15:44 | 分類 AI 人工智慧 , 中國觀察 line share Linkedin share follow us in feedly line share
Loading...
小米開源首個推理大模型 Xiaomi MiMo,測試得分超越 OpenAI

小米今(30 日)宣布開源首個為推理(Reasoning)而生的大模型「Xiaomi MiMo」,此模型聯動預訓練和後訓練,全面提升了推理能力。

小米指出,MiMo 是一款具備類人推理能力的大模型,類似於中國新創深度求索(DeepSeek)此前發佈的 DeepSeek-R1。該公司強調,將致力於開發具有人類水準智慧的通用人工智慧(AGI)。

根據「小米大模型」公眾號訊息,MiMo 在數學推理(AIME 24-25)和程式碼競賽(LiveCodeBench v5)公開測評集上,僅用 7B 的參數規模,超越 OpenAI 的閉源推理模型 o1-mini 以及阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。

小米指出,MiMo 模型推理能力的提升,是由預訓練和後訓練階段中數據和演算法等多層面的創新驅動。

在預訓練部分,核心是讓模型見過更多推理模式,分為數據和訓練。從數據方面,著重挖掘富推理語料,並合成約200B tokens推理數據;在訓練方面,則進行三階段訓練,逐步提升訓練難度,總訓練 25T tokens。

在後訓練部分,核心是高效穩定的強化學習演算法和框架,分為演算法和框架。在演算法方面,提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題,並引入Easy Data Re-Sampling策略,以穩定RL訓練;框架方面,設計 Seamless Rollout 系統,使得 RL 訓練加速 2.29 倍,驗證加速 1.96 倍。

隨著DeepSeek-R1引發業界強化學習(RL)共創潮,DeepSeek-R1-Distill-7B和 Qwen2.5-32B 已成為廣泛使用的強化學習起步模型。在相同 RL 訓練數據情況下,MiMo-7B 的數學及代碼領域的強化學習潛力顯著領先。

值得注意的是,MiMo-7B 全系列模型均已開源。據了解,MiMo 來自小米全新成立不久的「小米大模型 Core 團隊」的初步嘗試,並稱「2025 年雖看似是大模型逐夢的後半程,但我們堅信 AGI 的征途仍漫長」。

小米在阿里巴巴發佈新一代通義千問模型 Qwen3 的隔日推出MiMo,凸顯中國科技企業間愈發激烈的 AI 競爭態勢。

(首圖來源:shutterstock)

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》