Google 推出两款全新 AI 机器人控制模型

360影视 欧美动漫 2025-03-13 16:44 2

摘要:Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER,这两款模型专门用于为自主机器提供动力。

Google LLC 今天推出了两款全新的人工智能模型 - Gemini Robotics 和 Gemini Robotics-ER,这两款模型专门用于为自主机器提供动力。

这些算法基于该公司的 Gemini 2.0 系列大语言模型。Gemini 2.0 于去年 12 月推出,不仅可以处理文本,还能处理包括视频在内的多模态数据。这种多模态处理能力使新的 Gemini Robotics 和 Gemini Robotics-ER 模型能够分析机器人摄像头捕捉的画面,从而做出决策。

Gemini Robotics 被描述为一个视觉-语言-动作模型。据 Google 介绍,配备该模型的机器人可以根据自然语言指令执行复杂任务。例如,用户可以要求 AI 将纸张折叠成折纸形状,或将物品放入 Ziploc 袋中。

传统上,教导工业机器人执行新任务需要手动编程。这项工作不仅需要专业技能,还会消耗大量时间。为了简化机器人配置过程,Google 的研究人员在设计 Gemini Robotics 时特别注重其通用性。该公司表示,这款 AI 可以执行在训练过程中未曾学习过的任务,从而减少手动编程的需求。

为了测试 Gemini Robotics 对新任务的响应能力,Google 使用 AI 泛化基准进行评估。结果表明,该算法的性能是早期视觉-语言-动作模型的两倍多。根据 Google 的说法,Gemini Robotics 不仅能执行未经训练的任务,还能在环境条件发生变化时调整其执行方式。

Google DeepMind 机器人部门负责人 Carolina Parada 在博客文章中详细说明:"如果物体从机器人手中滑落,或有人移动了物品位置,Gemini Robotics 能够快速重新规划并继续执行任务 —— 这对于在充满意外的现实世界中运行的机器人来说是一项至关重要的能力。"

公司今天推出的另一个 AI 模型 Robotics-ER 主要针对空间推理能力。空间推理指的是机器人在执行任务前必须进行的一系列复杂计算。例如,拿起一个咖啡杯需要机器人手臂找到杯柄并计算最佳抓取角度。

在制定任务执行计划后,Gemini Robotics-ER 利用 Gemini 2.0 的编程能力将计划转换为配置脚本。这个脚本用于对安装了该 AI 的机器人进行编程。如果某个任务对 Gemini Robotics-ER 来说过于复杂,开发者可以通过"少量人工示范"来教导它最佳执行方案。

Parada 写道:"Gemini Robotics-ER 可以直接执行控制机器人所需的所有步骤,包括感知、状态估计、空间理解、规划和代码生成。在这种端到端的场景中,该模型的成功率比 Gemini 2.0 高出 2-3 倍。"

Google 将向多个合作伙伴提供 Gemini Robotics-ER,其中包括人形机器人初创公司 Apptronik Inc.,该公司上个月获得了 3.5 亿美元融资,Google 也参与其中。Google 将与 Apptronik 合作开发配备 Gemini 2.0 的人形机器人。

来源:至顶网

相关推荐