小米开源其首个推理大模型 Xiaomi MiMo,对标 OpenAI o1-mini

360影视 国产动漫 2025-04-30 14:44 8

摘要:在预训练阶段,小米团队着重挖掘富含推理模式的语料,并合成了约 200B tokens 的推理数据。训练过程采用三阶段策略,逐步提升训练难度,累计训练了 25T tokens,这一训练量在同等规模模型中处于领先水平。​

4 月 30 日,小米大模型团队宣布开源其首个为推理而生的大模型「Xiaomi MiMo」。

据介绍,MiMo 推理能力的提升,得益于预训练和后训练阶段在数据和算法等多层面的创新。

在预训练阶段,小米团队着重挖掘富含推理模式的语料,并合成了约 200B tokens 的推理数据。训练过程采用三阶段策略,逐步提升训练难度,累计训练了 25T tokens,这一训练量在同等规模模型中处于领先水平。​

在后训练阶段,小米团队提出了 “Test Difficulty Driven Reward” 机制,有效解决了困难算法问题中奖励稀疏的问题,同时引入 “Easy Data Re - Sampling” 策略,显著提升了强化学习训练的稳定性。在框架层面, “Seamless Rollout” 系统使得强化学习训练速度提升 2.29 倍,验证速度提升 1.96 倍。​

在数学推理(AIME24 - 25)和代码竞赛(LiveCodeBenchv5)公开测评集中,参数规模仅 7B 的 MiMo,已经在性能上超越了 OpenAI 的闭源推理模型 o1 - mini 以及阿里 Qwen 更大规模的开源推理模型 QwQ - 32B - Preview。​

图源:小米大模型

小米方面表示,MiMo 诞生之初探索的核心问题,就是如何激发模型的推理潜能。在当前大模型技术快速发展的背景下,尽管模型在语言生成等方面取得了一定进展,但在复杂推理任务上仍面临挑战。小米希望通过 MiMo 的研发,推动模型在推理能力上的突破。​

作为小米新近成立的小米大模型 Core 团队的首个重要对外成果,Xiaomi MiMo - 7B 系列模型已全部开源至HuggingFace:https://huggingface.co/XiaomiMiMo

图源:小米大模型

所有技术细节详见技术报告:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

免责声明:

1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。

2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

来源:前方智能AI

相关推荐