小米多模态大模型MiMo-VL开源，官方称多方面领先Qwen2.5-VL-7B

摘要：Xiaomi MiMo 官方公众号今日发文宣布，小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示，其在图片、视频、语言的通用问答和理解推理等多个任务上，大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B，并且在 GUI Ground

IT之家 5 月 30 日消息，Xiaomi MiMo 官方公众号今日发文宣布，小米多模态大模型 Xiaomi MiMo-VL 现已正式开源。官方表示，其在图片、视频、语言的通用问答和理解推理等多个任务上，大幅领先同尺寸标杆多模态模型 Qwen2.5-VL-7B，并且在 GUI Grounding 任务上比肩专用模型，为 Agent 时代而来。

MiMo-VL-7B 在保持 MiMo-7B 纯文本推理能力的同时，在多模态推理任务上，仅用 7B 参数规模，在奥林匹克竞赛（OlympiadBench）和多个数学竞赛（MathVision、MathVerse）大幅领先 10 倍参数大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview，也超越闭源模型 GPT-4o。

在评估真实用户体验的内部大模型竞技场中，MiMo-VL-7B 超越 GPT-4o，成为开源模型第一。

其能够完成复杂图片推理和问答等任务，在长达 10 多步的 GUI 操作上，MiMo-VL-7B 也展示了不错的潜力，甚至能帮你加购小米 SU7 至心愿单。

其采用了高质量的预训练数据以及创新的混合在线强化学习算法（Mixed On-policy Reinforcement Learning, MORL）：

多阶段预训练：

收集、清洗、合成了高质量的预训练多模态数据，涵盖图片-文本对、视频-文本对、GUI 操作序列等数据类型，总计 2.4T tokens。通过分阶段调整不同类型数据的比例，强化长程多模态推理的能力。

混合在线强化学习：

混合文本推理、多模态感知 + 推理、RLHF 等反馈信号，并通过在线强化学习算法稳定加速训练，全方位提升模型推理、感知性能和用户体验。

MiMo-VL-7B 已开源 RL 前后两个模型，IT之家附开源链接：https://huggingface.co/XiaomiMiMo 及相关技术报告：https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf

MiMo-VL-7B 支持 50 + 测评任务的框架也已经开源至 GitHub：https://github.com/XiaomiMiMo/lmms-eval

来源：IT之家一点号

标签：模型小米官方模态开源

本文地址：https://news.43u.com.cn/a/1860784.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!