Ai2开源MolmoAct机器人AI模型:三重空间感知,赋能具身机器人动作规划

360影视 欧美动漫 2025-08-16 19:54 1

摘要:近日,研究机构Ai2宣布,在GitHub上开源了其MolmoAct机器人的“行动推理模型”(ARM)。这一模型专为具身机器人场景设计,旨在解决机器人在三维空间中的动作规划和理解难题。

近日,研究机构Ai2宣布,在GitHub上开源了其MolmoAct机器人的“行动推理模型”(ARM)。这一模型专为具身机器人场景设计,旨在解决机器人在三维空间中的动作规划和理解难题。

与以往依赖文字描述推导动作的视觉语言行动模型(VLA)不同,MolmoAct针对语言难以准确表达三维环境深度和距离关系的局限,采取了创新的解决方案。在模型的第一阶段,它首先利用VQVAE预训练生成空间感知Token,这些Token不仅包含几何结构信息,还蕴含位置信息,有助于准确评估物体间的距离,为后续动作规划奠定基础。

进入第二阶段,MolmoAct在图像空间中生成一系列路径点,这些路径点作为任务的中间目标,能够直观展示动作执行的顺序。随后,在第三阶段,这些路径点被转化为机器人末端执行器或机械爪的低层马达指令,并根据机器人的运动学配置进行动作解码,从而实现精准的动作执行。

研究团队在SimplerEnv模拟测试环境中对MolmoAct进行了验证,结果显示,MolmoAct-7B在训练集未见的任务中成功率高达72.1%,优于Physical Intelligence、谷歌、微软和英伟达等实验室的对照模型。在LIBERO模拟平台的多任务与终身学习测试中,经过高效的参数微调,MolmoAct的平均成功率更是提升至86.6%。相较于业界AI机器人大模型,MolmoAct的训练成本显著降低,预训练仅需2630万样本和256颗H100 GPU,大约1天即可完成;微调则只需64颗H100 GPU,约2小时即可。

MolmoAct还具备降低机器人操作风险和提升可解释性的功能。在执行动作前,它会将内部规划的运动轨迹叠加到输入图像上,用户可以直接查看并修正动作方案。用户还可以通过平板等设备手绘标注目标姿态或路径,模型能够即时整合这些标注并进行相应调整,从而进一步提升动作的准确性和安全性。

目前,Ai2已在GitHub上同步开源了MolmoAct-7B的完整资源,供其他研究团队在不同机器人平台和任务中进行验证与优化。这一举措无疑将为机器人领域的研究和发展注入新的活力。

来源:ITBear科技资讯

相关推荐