小米大模型为何问世即巅峰？关键在于千万年薪挖DeepSeek女天才～

摘要：根据此前每日经济新闻和财联社等多家媒体的报道，4月30日“小米大模型”公众号消息，小米开源首个为推理（Reasoning）而生的大模型「XiaomiMiMo」，联动预训练到后训练，全面提升推理能力。

根据此前每日经济新闻和财联社等多家媒体的报道，4月30日“小米大模型”公众号消息，小米开源首个为推理（Reasoning）而生的大模型「XiaomiMiMo」，联动预训练到后训练，全面提升推理能力。

至此，小米AI大模型横空出世，并且一经问世就在数学推理能力和代码能力上表现相当出色。

根据小米公众号的介绍，小米大模型在数学推理（AIME24-25）和代码竞赛（LiveCodeBenchv5）公开测评集上，MiMo仅用7B的参数规模，超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。

毫不夸张的说，小米大模型简直是问世即巅峰。

值得一提的是，尽管小米AI团队已经多达几千人、且称他们一直很低调没过多宣传；但是，小米曾多次宣称不会发展类似于chatgpt这样的推理大模型。

但是事到如今，小米不仅发展了AI推理大模型，并且还取得了巨大的成功；究其关键原因，可能还是从deepest挖过来的一个关键人才是核心，要不然小米前面这么多年都没有大模型推出，而且之前小米多次强调说不会推出像openai那种大模型。

2024年12月21日，新浪财经援引第一财经报道称，DeepSeek研发团队天才女成员罗福莉将以千万年薪加盟小米，领导AI大模型团队。随后，中华网、搜狐网、36氪等媒体跟进报道，强调雷军亲自参与挖角，薪酬达千万元级别。-

据报道，罗福莉曾经在DeepSeek-V2大模型研发中的关键角色（MoE架构与强化学习技术）。

罗福莉带来的MoE架构与强化学习技术，直接改写了小米大模型的技术路线。

在DeepSeek-V2中，罗福莉主导的MLA（Multi-head Latent Attention）架构将推理显存需求压缩至传统模型的1/5~1/100。这一技术被应用于小米MiMo-7B，使其在70亿参数规模下，推理能耗仅为阿里320亿参数模型的1/5，且能在骁龙8 Gen4芯片上流畅运行。

罗福莉在DeepSeek-V2中提出的GRPO算法（组相对策略优化）被引入小米后，通过移除KL散度损失、动态采样等策略，使MiMo的强化学习训练速度提升2.29倍。这一技术突破让MiMo-7B-RL在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）中，以70亿参数超越OpenAI o1-mini和阿里QwQ-32B-Preview。

古话说，千军易得，一将难求！正是因为前DeepSeek天才研发成员罗福莉的加盟，才使得小米能够在短时间内复刻类似DeekSeek大模型那样的成功！

不得不说，小米还是舍得砸钱，动辄千万年薪挖DeepSeek天才员工，试问谁不动心呢？

不过，这也证明DeepSeek团队核心成员简直太强悍了，个个都是天才选手，太牛了！

来源：御今说

标签：模型小米年薪 deepseek moe

本文地址：https://news.43u.com.cn/a/1417247.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!