摘要:为使AI在实体世界对人类有所帮助,Google DeepMind推出2款以Gemini 2.0为基础的全新模型──Gemini Robotics、Gemini Robotics-ER,为新一代机器人创建基础。
为使AI在实体世界对人类有所帮助,Google DeepMind推出2款以Gemini 2.0为基础的全新模型──Gemini Robotics、Gemini Robotics-ER,为新一代机器人创建基础。
Gemini Robotics是一款视觉-语言-动作(vision-language-action,VLA)模型,即使之前没有受过相关训练,Gemini Robotics能够理解当下场景、做出反应。
Google DeepMind机器人部门负责人Carolina Parada表示,Gemini Robotics借鉴Gemini对多模态世界的理解,并增加物理动作作为新的输出方式,用于直接控制机器人。
机器人采用的AI模型主要需要三个特质:它必须具通用性,能够适应不同的场景;它需要互动性,意味着能够理解并对指令或环境的变化快速回应;它还要有敏捷性,能够做到人们用手和手指所做的事,像是小心翼翼地操控物体。为此Gemini Robotics在这三个特质取得具体进展,不仅能够处理当下场景,与人和环境的互动表现也很出色,能准确执行特定动作,比方说将纸折叠、打开瓶盖等。
“虽然过去我们分别在这三个领域的通用机器人技术取得进展,但现在我们用单一模型大幅提升这三方面的表现。这使我们能够构建更有能力、更敏捷且更能适应环境变化的机器人”,Carolina Parada表示。
不只如此,Google DeepMind还推出Gemini Robotics-ER(embodied reasoning),模型具有先进的空间理解能力,能够理解复杂且动态的现实世界;Gemini Robotics-ER更能执行控制机器人所需的所有步骤,例如感知、状态判断、空间理解及生成程序代码,比起Gemini 2.0能有2-3倍的成功率。
举例来说,当桌上摆满食物、想要整理时,机器人需要确切知道每个物品的位置,还需要懂得打开餐盒、抓取物品并准确放入餐盒。这是Gemini Robotics-ER期望做到的AI推理。这款模型专为机器人研发人员设计,可与现有的底层控制器(控制机器人动作的系统)连接,让他们能够运用由Gemini Robotics-ER驱动的能力。
Google DeepMind公开Gemini Robotics研究成果。
安全性方面,Google DeepMind正在开发一种分层方法,Gemini Robotics-ER也被训练来评估特定场景下某些潜在动作是否安全。Google DeepMind还推出新的基准测试和框架,以促进AI产业中的安全性研究。
值得关注的是,Google DeepMind正与机器人开发商Apptronik合作,运用Gemini 2.0打造新一代人形机器人;同时选定值得信赖的测试伙伴一同合作,指导Gemini Robotics-ER的未来,包括Agile Robots、Agility Robotics、Boston Dynamics、Enchanted Tools等公司。
Gemini Robotics应用范例。
来源:十轮网