谷歌“世界模型”大升级！一张图生成任意虚拟世界，无限训练AI智能体

摘要：在人工智能（AI）领域中，如何为智能体创建高质量的训练和评估环境，一直是推动具身智能研究的重要课题。然而，目前大多数环境生成方法在多样性、交互性和可控性方面仍存在局限。今日凌晨，Google Deepmind 推出了大型基础世界模型 Genie 2，其能够生成

在人工智能（AI）领域中，如何为智能体创建高质量的训练和评估环境，一直是推动具身智能研究的重要课题。然而，目前大多数环境生成方法在多样性、交互性和可控性方面仍存在局限。今日凌晨，Google Deepmind 推出了大型基础世界模型 Genie 2，其能够生成各种可控制动作、可玩的 3D 环境，可用于训练和评估具身智能体。基于单个提示图像，人类或 AI 智能体可以使用键盘和鼠标输入与之互动。游戏在 AI 研究领域中扮演着重要角色。游戏的吸引力、独特的挑战组合和可量化的进展使其成为安全测试和推进 AI 能力的理想环境。据悉，Genie 2 的推出将使未来的智能体能够在无限的新世界中进行训练和评估。这项研究也为开发交互原型体验的新型创意工作流程铺平了道路。基础世界模型的新兴能力到目前为止，世界模型在很大程度上局限于建模狭窄的领域。Genie 1 提出了一种生成各种 2D 世界的方法。而今日凌晨推出的 Genie 2 则进一步在通用性上实现巨大飞跃，可以生成种类繁多的丰富 3D 世界。Genie 2 是一个世界模型，这意味着它可以模拟虚拟世界，包括采取任何动作（例如跳跃、游泳等）的后果。它是在大规模视频数据集上进行训练的，并且与其他生成模型一样展示了各种大规模的新兴能力，例如对象交互、复杂的角色动画、物理以及建模并预测其他智能体行为的能力。任何人都可以用文字描述他们想要的世界，选择他们最喜欢的想法，然后进入这个新创建的世界并与之互动（或让 AI 智能体在其中接受训练或评估）。在每个步骤中，人类或智能体提供键盘和鼠标操作，然后 Genie 2 模拟下一个观察结果。Genie 2 可以生成长达 1 分钟的一致世界，大多数示例持续 10-20 秒。智能响应按键操作Genie 2 可以智能地响应键盘上的按键操作，识别角色并正确移动。例如，在下面的示例中模型必须弄清楚箭头键应该移动机器人而不是树木或云朵。生成反事实（counterfactuals）Genie 2 可以从同一起始帧生成不同的轨迹，这意味着可以为训练智能体模拟反事实体验。在每一行中，每个视频都从同一帧开始，但人类玩家采取的动作不同。长视野记忆Genie 2 能够记住视野中不再存在的世界部分，并在它们再次可见时准确呈现。生成长视频Genie 2 可以动态生成新的合理内容，并在长达一分钟的时间内维持一致的世界。多样化环境Genie 2 可以创建不同的视角，例如第一人称视角、等距视图或第三人称驾驶视频。3D结构Genie 2 会创建复杂的 3D 视觉场景。模拟对象相互作用Genie 2 能模拟各种物体的相互作用，例如爆破气球、打开门和射击炸药桶。角色动画Genie 2 学习了如何为不同类型的角色制作动画来执行不同的活动。NPCGenie 2 能够模拟其他智能体，甚至与它们进行复杂的交互。10. 使用真实世界图像进行播放Genie 2 还可以通过现实世界的图像进行提示，可以模拟风中摇曳的草或河中流动的水。此外， Genie 2 还可以模拟水、烟雾、重力、灯光和反射等效果。Genie 2 支持快速原型设计Genie 2 可轻松快速地制作各种交互体验的原型，使研究人员能够快速尝试新的环境来训练和测试 AI 具身智能体。例如用 Imagen 3 生成不同图像提示 Genie 2，使其生成模拟纸飞机、龙、鹰、降落伞飞行之间的差异，并测试 Genie 对不同对象的动画效果如何。得益于 Genie 2 的分布式泛化能力，概念艺术和绘图可以转化为完全交互式的环境。这使得艺术家和设计师能够快速制作原型，从而推动环境设计的创意过程，进一步加速研究。在世界模型中行动的 AI 智能体借助 Genie 2 快速创建丰富多样的 AI 智能体训练环境，研究人员可以生成训练阶段未曾见过的评估任务。以下展示了一个与游戏开发者合作开发的 SIMA 智能体示例，其在 Genie 2 基于单张图片提示生成的全新环境中，按指令完成任务。SIMA 智能体旨在通过自然语言指令，在各种 3D 游戏世界中完成任务。在这一示例中，研究人员使用 Genie 2 生生成了包含两个门（一个蓝色，一个红色）的 3D 环境，并向 SIMA 智能体提供了指令，要求其打开每扇门。任务执行过程中，SIMA 通过键盘和鼠标控制虚拟角色，而 Genie 2 负责生成游戏画面。也可以使用 SIMA 来帮助评估 Genie 2 的性能。例如通过指示 SIMA 环顾四周并探索房屋后面来测试 Genie 2 生成一致环境的能力。虽然这项研究仍处于早期阶段，智能体和环境生成能力都还有很大的改进空间，但 Google DeepMind 相信 Genie 2 是解决安全训练具体智能体的结构性问题的途径，同时实现迈向 AGI 所需的广度和通用性。扩散世界模型Genie 2 是一种自回归潜变量扩散模型，基于大规模视频数据集进行训练。视频经过自动编码器处理后，其潜在帧会被传递到一个大型 transformer 动态模型中进行处理，该模型采用与大语言模型相似的因果掩码进行训练。在推理阶段，Genie 2 能够以自回归的方式进行采样，通过逐帧处理单个动作和过去的潜在帧来生成结果。同时，模型使用无分类器引导（Classifier-free guidance）的方法以提升动作的可控性。据介绍，博客中的示例均由未经蒸馏的基础模型生成，以展示模型的潜力。经过蒸馏的版本则可以实现实时运行，但会以一定的输出质量降低为代价。