Gemini Robotics新模型发布，机器人更聪明、动作更精细

摘要：为使AI在实体世界对人类有所帮助，Google DeepMind推出2款以Gemini 2.0为基础的全新模型──Gemini Robotics、Gemini Robotics-ER，为新一代机器人创建基础。

为使AI在实体世界对人类有所帮助，Google DeepMind推出2款以Gemini 2.0为基础的全新模型──Gemini Robotics、Gemini Robotics-ER，为新一代机器人创建基础。

Gemini Robotics是一款视觉-语言-动作（vision-language-action，VLA）模型，即使之前没有受过相关训练，Gemini Robotics能够理解当下场景、做出反应。

Google DeepMind机器人部门负责人Carolina Parada表示，Gemini Robotics借鉴Gemini对多模态世界的理解，并增加物理动作作为新的输出方式，用于直接控制机器人。

机器人采用的AI模型主要需要三个特质：它必须具通用性，能够适应不同的场景；它需要互动性，意味着能够理解并对指令或环境的变化快速回应；它还要有敏捷性，能够做到人们用手和手指所做的事，像是小心翼翼地操控物体。为此Gemini Robotics在这三个特质取得具体进展，不仅能够处理当下场景，与人和环境的互动表现也很出色，能准确执行特定动作，比方说将纸折叠、打开瓶盖等。

“虽然过去我们分别在这三个领域的通用机器人技术取得进展，但现在我们用单一模型大幅提升这三方面的表现。这使我们能够构建更有能力、更敏捷且更能适应环境变化的机器人”，Carolina Parada表示。

不只如此，Google DeepMind还推出Gemini Robotics-ER（embodied reasoning），模型具有先进的空间理解能力，能够理解复杂且动态的现实世界；Gemini Robotics-ER更能执行控制机器人所需的所有步骤，例如感知、状态判断、空间理解及生成程序代码，比起Gemini 2.0能有2-3倍的成功率。

举例来说，当桌上摆满食物、想要整理时，机器人需要确切知道每个物品的位置，还需要懂得打开餐盒、抓取物品并准确放入餐盒。这是Gemini Robotics-ER期望做到的AI推理。这款模型专为机器人研发人员设计，可与现有的底层控制器（控制机器人动作的系统）连接，让他们能够运用由Gemini Robotics-ER驱动的能力。

Google DeepMind公开Gemini Robotics研究成果。

安全性方面，Google DeepMind正在开发一种分层方法，Gemini Robotics-ER也被训练来评估特定场景下某些潜在动作是否安全。Google DeepMind还推出新的基准测试和框架，以促进AI产业中的安全性研究。

值得关注的是，Google DeepMind正与机器人开发商Apptronik合作，运用Gemini 2.0打造新一代人形机器人；同时选定值得信赖的测试伙伴一同合作，指导Gemini Robotics-ER的未来，包括Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools等公司。

Gemini Robotics应用范例。

来源：十轮网

标签： gemini robotics geminirobotics

本文地址：https://news.43u.com.cn/a/728856.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!