小米开源其首个推理大模型 Xiaomi MiMo，对标 OpenAI o1-mini

摘要：在预训练阶段，小米团队着重挖掘富含推理模式的语料，并合成了约 200B tokens 的推理数据。训练过程采用三阶段策略，逐步提升训练难度，累计训练了 25T tokens，这一训练量在同等规模模型中处于领先水平。

4 月 30 日，小米大模型团队宣布开源其首个为推理而生的大模型「Xiaomi MiMo」。

据介绍，MiMo 推理能力的提升，得益于预训练和后训练阶段在数据和算法等多层面的创新。

在预训练阶段，小米团队着重挖掘富含推理模式的语料，并合成了约 200B tokens 的推理数据。训练过程采用三阶段策略，逐步提升训练难度，累计训练了 25T tokens，这一训练量在同等规模模型中处于领先水平。

在后训练阶段，小米团队提出了 “Test Difficulty Driven Reward” 机制，有效解决了困难算法问题中奖励稀疏的问题，同时引入 “Easy Data Re - Sampling” 策略，显著提升了强化学习训练的稳定性。在框架层面， “Seamless Rollout” 系统使得强化学习训练速度提升 2.29 倍，验证速度提升 1.96 倍。

在数学推理（AIME24 - 25）和代码竞赛（LiveCodeBenchv5）公开测评集中，参数规模仅 7B 的 MiMo，已经在性能上超越了 OpenAI 的闭源推理模型 o1 - mini 以及阿里 Qwen 更大规模的开源推理模型 QwQ - 32B - Preview。