Google 新型机器人 AI 能够折叠精致的折纸,并能安全关闭拉链袋

360影视 欧美动漫 2025-03-13 16:16 2

摘要:周三,Google DeepMind 宣布推出两款新的机器人控制 AI 模型:Gemini Robotics 和 Gemini Robotics-ER。该公司表示,这些模型将帮助各种形状和大小的机器人更有效且精细地理解和交互物理世界,为未来诸如人形机器人助手等

周三,Google DeepMind 宣布推出两款新的机器人控制 AI 模型:Gemini Robotics 和 Gemini Robotics-ER。该公司表示,这些模型将帮助各种形状和大小的机器人更有效且精细地理解和交互物理世界,为未来诸如人形机器人助手等应用铺平道路。

值得注意的是,尽管机器人平台的硬件似乎在稳步发展 (好吧,也许并非总是如此),但开发一个能够安全、精确地自主驾驭这些机器人应对新场景的 AI 模型仍然困难重重。业界所谓的"具身 AI"是 Nvidia 等公司的一个重大目标,它仍是一个圣杯,有潜力将机器人转变为物理世界中的通用劳动力。

沿着这个方向,Google 的新模型在其 Gemini 2.0 大语言模型的基础上,增加了专门用于机器人应用的功能。Gemini Robotics 包含了 Google 称之为"视觉-语言-动作" (VLA) 的能力,使其能够处理视觉信息、理解语言命令并生成物理动作。相比之下,Gemini Robotics-ER 专注于"具身推理",具有增强的空间理解能力,让机器人专家可以将其连接到现有的机器人控制系统中。

例如,使用 Gemini Robotics,你可以要求机器人"拿起香蕉放入篮子中",它将使用摄像头视图识别香蕉,引导机械臂成功完成动作。或者你可以说"折一只折纸狐狸",它会运用折纸知识和如何小心折纸的能力来完成任务。

2023 年,我们报道了 Google 的 RT-2,它通过使用互联网数据来帮助机器人理解语言命令并适应新场景,在未见过的任务上的表现比其前代提高了一倍,这代表了向更通用机器人能力迈出的重要一步。两年后,Gemini Robotics 似乎又取得了重大突破,不仅能够理解该做什么,还能执行 RT-2 明确无法处理的复杂物理操作。

虽然 RT-2 仅限于重复使用已经练习过的物理动作,但据报道,Gemini Robotics 展示了显著增强的灵巧性,能够完成此前不可能的任务,如折纸和将零食装入拉链袋。从仅能理解命令的机器人到能够执行精细物理任务的机器人,这一转变表明 DeepMind 可能已经开始解决机器人领域最大的挑战之一:让机器人将其"知识"转化为现实世界中的谨慎、精确动作。

更好的泛化结果 据 DeepMind 称,新的 Gemini Robotics 系统展示了更强的泛化能力,即执行未经专门训练的新任务的能力,相比其之前的 AI 模型有显著提升。在其公告中,公司称 Gemini Robotics "在综合泛化基准测试中的表现比其他最先进的视觉-语言-动作模型提高了一倍以上"。泛化很重要,因为能够适应新场景而无需针对每种情况进行特定训练的机器人,将来可以在不可预测的现实环境中工作。

这一点很重要,因为人们对目前人形机器人的实用性和实际能力仍持怀疑态度。Tesla 去年 10 月发布了 Optimus Gen 3 机器人,声称能够完成许多物理任务,但在公司承认其炫目演示中的几个机器人是由人类远程控制后,人们对其自主 AI 能力的真实性产生了疑虑。

在这里,Google 正在尝试打造真正的产品:一个通用型机器人大脑。带着这个目标,公司宣布与德克萨斯州奥斯汀的 Apptronik 合作,"利用 Gemini 2.0 打造下一代人形机器人"。虽然主要在名为 ALOHA 2 的双手机器人平台上进行训练,但 Google 表示 Gemini Robotics 可以控制不同类型的机器人,从研究用的 Franka 机械臂到更复杂的人形系统,如 Apptronik 的 Apollo 机器人。

虽然人形机器人方法对 Google 的生成式 AI 模型来说是一个相对较新的应用 (从这一轮基于大语言模型的技术来看),但值得注意的是,Google 此前在 2013-2014 年间收购了几家机器人公司 (包括制造人形机器人的 Boston Dynamics),但后来又将它们出售。与 Apptronik 的新合作似乎是一种全新的人形机器人研究方式,而不是那些早期努力的直接延续。

其他公司也一直在努力研发人形机器人硬件,如 Figure AI (该公司在 2024 年 3 月为其人形机器人获得了大量资金) 和前面提到的前 Alphabet 子公司 Boston Dynamics (去年 4 月推出了灵活的新型 Atlas 机器人),但能让机器人真正有用的 AI "驱动程序"尚未出现。在这方面,Google 还通过"可信测试者"计划向 Boston Dynamics、Agility Robotics 和 Enchanted Tools 等公司提供了 Gemini Robotics-ER 的有限访问权限。

安全性和局限性 在安全性考虑方面,Google 提到采用"分层、整体的方法",保持传统的机器人安全措施,如碰撞避免和力量限制。公司描述了受艾萨克·阿西莫夫机器人三定律启发而开发的"机器人宪法"框架,并发布了一个毫不意外地被称为"ASIMOV"的数据集,以帮助研究人员评估机器人动作的安全影响。

这个新的 ASIMOV 数据集代表了 Google 试图创建标准化方法,以评估机器人安全性,超越了物理伤害预防的范畴。该数据集似乎旨在帮助研究人员测试 AI 模型对机器人在各种场景中可能采取的行动的潜在后果的理解程度。根据 Google 的公告,该数据集将"帮助研究人员严格衡量机器人行为在现实场景中的安全影响"。

公司尚未宣布新 AI 模型的可用时间表或具体商业应用,这些模型仍处于研究阶段。虽然 Google 分享的演示视频展示了 AI 驱动能力的进步,但受控的研究环境仍然留下了这些系统在不可预测的现实环境中实际表现如何的开放性问题。

来源:至顶网

相关推荐