谷歌发布Gemini Robotics On-Device,实现机器人AI模型本地化运行

360影视 欧美动漫 2025-06-25 11:38 4

摘要:谷歌 DeepMind 于 6 月 24 日正式发布了 Gemini Robotics On-Device 模型,这是一个专为机器人设计的人工智能系统,最大的特点是可以完全在机器人设备本地运行,无需依赖云端连接,从而赋予机器人前所未有的自主性与灵活性。

谷歌 DeepMind 于 6 月 24 日正式发布了 Gemini Robotics On-Device 模型,这是一个专为机器人设计的人工智能系统,最大的特点是可以完全在机器人设备本地运行,无需依赖云端连接,从而赋予机器人前所未有的自主性与灵活性。

此前,包括谷歌在内的许多机器人系统,都采用一种混合架构:在机器人上部署一个较小的模型以处理快速响应,同时将需要复杂推理和规划的“重脑力活”交由云端强大的服务器处理。这种方式虽然可行,但其弊端也显而易见。它不仅对网络连接的稳定性和速度提出了极高要求,任何网络延迟或中断都可能导致机器人反应迟缓甚至停摆;同时,将传感器数据(尤其是来自家庭或医疗等隐私敏感环境的视觉数据)上传至云端,也引发了持续的隐私和安全顾虑。

新发布的 Gemini Robotics On-Device 模型,正是为了解决这些核心痛点而生。它是一个完全集成的视觉语言动作(VLA,vision-language-action model)模型,能够同时处理视觉输入、自然语言指令和动作输出。这一切复杂的“思考”过程,如今都可以在机器人自身的计算单元上完成。

谷歌 DeepMind 的机器人技术主管 Carolina Parada 在介绍中解释道,这一进步得益于 Gemini 模型本身强大的多模态理解能力。“这就像 Gemini 能够写诗、总结文章、编写代码一样。”她表示,“它同样能够生成机器人的动作。”这种生成式的 AI 能力,使得机器人不再局限于通过强化学习对特定任务进行漫长而刻板的训练,而是能够对全新的、从未见过的指令和场景进行泛化理解和响应,极大地提升了机器人的通用性。

与前代需要云端协同的 Gemini Robotics 系统相比,On-Device 模型在自主性上实现了质的飞跃。它让机器人摆脱了网络的束缚,能够在网络信号不佳甚至完全没有网络的“离线”环境中独立工作。这为其在一些特殊场景的应用打开了想象空间,例如在偏远地区的勘探、信号被屏蔽的工厂车间,或是在对数据隐私有极高要求的医疗保健环境中辅助病人。在这些场景下,本地化处理不仅保证了操作的连续性和可靠性,也确保了所有敏感数据都保留在设备本地,最大限度地保护了隐私。

在性能方面,即使完全在本地运行,Gemini Robotics On-Device 在多项泛化能力基准测试中,其表现也已非常接近需要云端支持的、更强大的旗舰版 Gemini Robotics 模型,并显著优于之前的其他本地化模型。它不仅能完成像折叠衣物、整理手提袋这类日常任务,甚至可以应对“系鞋带”这种对机器人来说历来是巨大挑战的精细操作。

图丨基准测试结果(来源:DeepMind)

更值得关注的是该模型的可适应性和通用性。谷歌强调,Gemini Robotics On-Device 是其首个开放给开发者进行微调的机器人 VLA 模型,开发者可以根据自己的特定需求和应用场景,对模型进行定制化训练。研究表明,仅需 50 到 100 个新的任务演示(通常通过遥操作机器人完成),模型就能快速学习并掌握新技能,展现出强大的“快速任务适应”能力。

为了证明其跨平台的通用性,谷歌展示了该模型在不同物理机器人上的应用成果。虽然模型最初主要在谷歌自家的 ALOHA 双臂机器人上进行训练,但团队成功地将其适配到了多种第三方机器人上,包括德国 Franka Emika 公司的双臂协作机器人,以及由 Apptronik 公司开发的备受瞩目的人形机器人 Apollo。在演示中,Apollo 机器人在接收到“把黑色 T 恤放进礼品袋”或“把魔方放进礼品袋”等指令后,能够准确地识别目标物体并完成相应的操作。

不过,除了对其能力的赞许,许多网友也对其安全性产生了担忧。当一个强大的 AI 模型被赋予了控制物理实体的能力后,如何确保其行为安全、可控、可预测,便成为重中之重。Parada 坦言,生成式 AI 在输出上存在一定的随机性,这在聊天机器人中可能只是生成一些无伤大雅的怪异文本,但对于一个物理机器人而言,则可能引发严重的安全问题。

对此,谷歌强调,他们发布的 On-Device 模型本身只是一个核心的 VLA,并不包含完整的安全框架。谷歌建议并推荐开发者复制其内部团队所采用的多层安全策略。这包括将本地模型与标准的 Gemini Live API 连接,利用其内建的安全层进行语义和内容审查,以过滤掉不安全或不恰当的指令。同时,至关重要的是,开发者需要在机器人硬件层面部署一个低级别的安全控制器,对机器人的动作范围、力度等关键参数进行实时监控和限制,作为最后一道防线。谷歌也鼓励开发者利用其发布的语义安全基准和进行“红队演练”(red-teaming),在部署前充分暴露和修复模型的潜在安全漏洞。

目前,谷歌已经启动了一个“受信任的测试者计划”,邀请感兴趣的开发者和研究人员申请使用全新的 Gemini Robotics On-Device 模型及其配套的软件开发工具包。该工具包还集成了 MuJoCo 物理模拟器,方便开发者在部署到真实机器人之前,在虚拟环境中进行大量的测试和调试。

从长远来看,这次发布的模型还只是一个开始。Parada 透露,当前的 Gemini Robotics 模型是基于 Gemini 2.0 版本构建的,而谷歌的机器人团队通常比核心的 Gemini 模型开发进度晚一个版本。考虑到最新的 Gemini 2.5 的性能提升,其下一代机器人模型的性能也有望将获得提升。

参考资料:

1.https://deepmind.google/discover/blog/gemini-robotics-on-device-brings-ai-to-local-robotic-devices/

来源:DeepTech深科技一点号

相关推荐