小米大模型为何问世即巅峰?关键在于千万年薪挖DeepSeek女天才~

360影视 动漫周边 2025-05-02 19:45 2

摘要:根据此前每日经济新闻和财联社等多家媒体的报道,4月30日“小米大模型”公众号消息,小米开源首个为推理(Reasoning)而生的大模型「XiaomiMiMo」,联动预训练到后训练,全面提升推理能力。

小米大模型为何问世即巅峰?关键在于千万年薪挖DeepSeek女天才~

根据此前每日经济新闻和财联社等多家媒体的报道,4月30日“小米大模型”公众号消息,小米开源首个为推理(Reasoning)而生的大模型「XiaomiMiMo」,联动预训练到后训练,全面提升推理能力。

至此,小米AI大模型横空出世,并且一经问世就在数学推理能力和代码能力上表现相当出色。

根据小米公众号的介绍,小米大模型在数学推理(AIME24-25)和代码竞赛(LiveCodeBenchv5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭源推理模型o1-mini和阿里Qwen更大规模的开源推理模型QwQ-32B-Preview。

毫不夸张的说,小米大模型简直是问世即巅峰。

值得一提的是,尽管小米AI团队已经多达几千人、且称他们一直很低调没过多宣传;但是,小米曾多次宣称不会发展类似于chatgpt这样的推理大模型。

但是事到如今,小米不仅发展了AI推理大模型,并且还取得了巨大的成功;究其关键原因,可能还是从deepest挖过来的一个关键人才是核心,要不然小米前面这么多年都没有大模型推出,而且之前小米多次强调说不会推出像openai那种大模型。

2024年12月21日,新浪财经援引第一财经报道称,DeepSeek研发团队天才女成员罗福莉将以千万年薪加盟小米,领导AI大模型团队。随后,中华网、搜狐网、36氪等媒体跟进报道,强调雷军亲自参与挖角,薪酬达千万元级别。-

据报道,罗福莉曾经在DeepSeek-V2大模型研发中的关键角色(MoE架构与强化学习技术)。

罗福莉带来的MoE架构与强化学习技术,直接改写了小米大模型的技术路线。

在DeepSeek-V2中,罗福莉主导的MLA(Multi-head Latent Attention)架构将推理显存需求压缩至传统模型的1/5~1/100。这一技术被应用于小米MiMo-7B,使其在70亿参数规模下,推理能耗仅为阿里320亿参数模型的1/5,且能在骁龙8 Gen4芯片上流畅运行。

罗福莉在DeepSeek-V2中提出的GRPO算法(组相对策略优化)被引入小米后,通过移除KL散度损失、动态采样等策略,使MiMo的强化学习训练速度提升2.29倍。这一技术突破让MiMo-7B-RL在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)中,以70亿参数超越OpenAI o1-mini和阿里QwQ-32B-Preview。

古话说,千军易得,一将难求!正是因为前DeepSeek天才研发成员罗福莉的加盟,才使得小米能够在短时间内复刻类似DeekSeek大模型那样的成功!

不得不说,小米还是舍得砸钱,动辄千万年薪挖DeepSeek天才员工,试问谁不动心呢?

不过,这也证明DeepSeek团队核心成员简直太强悍了,个个都是天才选手,太牛了!

来源:御今说

相关推荐