小米開源首個推理大模型 Xiaomi MiMo，測試得分超越 OpenAI

小米今（30 日）宣布開源首個為推理（Reasoning）而生的大模型「Xiaomi MiMo」，此模型聯動預訓練和後訓練，全面提升了推理能力。

小米指出，MiMo 是一款具備類人推理能力的大模型，類似於中國新創深度求索（DeepSeek）此前發佈的 DeepSeek-R1。該公司強調，將致力於開發具有人類水準智慧的通用人工智慧（AGI）。

根據「小米大模型」公眾號訊息，MiMo 在數學推理（AIME 24-25）和程式碼競賽（LiveCodeBench v5）公開測評集上，僅用 7B 的參數規模，超越 OpenAI 的閉源推理模型 o1-mini 以及阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。

小米指出，MiMo 模型推理能力的提升，是由預訓練和後訓練階段中數據和演算法等多層面的創新驅動。

在預訓練部分，核心是讓模型見過更多推理模式，分為數據和訓練。從數據方面，著重挖掘富推理語料，並合成約200B tokens推理數據；在訓練方面，則進行三階段訓練，逐步提升訓練難度，總訓練 25T tokens。

在後訓練部分，核心是高效穩定的強化學習演算法和框架，分為演算法和框架。在演算法方面，提出Test Difficulty Driven Reward來緩解困難演算法問題中的獎勵稀疏問題，並引入Easy Data Re-Sampling策略，以穩定RL訓練；框架方面，設計 Seamless Rollout 系統，使得 RL 訓練加速 2.29 倍，驗證加速 1.96 倍。

隨著DeepSeek-R1引發業界強化學習（RL）共創潮，DeepSeek-R1-Distill-7B和 Qwen2.5-32B 已成為廣泛使用的強化學習起步模型。在相同 RL 訓練數據情況下，MiMo-7B 的數學及代碼領域的強化學習潛力顯著領先。

值得注意的是，MiMo-7B 全系列模型均已開源。據了解，MiMo 來自小米全新成立不久的「小米大模型 Core 團隊」的初步嘗試，並稱「2025 年雖看似是大模型逐夢的後半程，但我們堅信 AGI 的征途仍漫長」。

小米在阿里巴巴發佈新一代通義千問模型 Qwen3 的隔日推出MiMo，凸顯中國科技企業間愈發激烈的 AI 競爭態勢。

（首圖來源：shutterstock）