谷歌发布世界模型Genie 2！一键生成3D游戏，人和AI都能玩

摘要：AGI竞赛愈演愈烈！就在OpenAI宣布将于未来12天直播新发布和demo前，昨夜，Google DeepMind发布大型基础世界模型Genie 2，能生成各种可控制动作、可玩的3D环境，还可以用于训练和评估具身agent。

作者 | ZeR0
编辑 | 漠影

智东西12月5日报道，AGI竞赛愈演愈烈！就在OpenAI宣布将于未来12天直播新发布和demo前，昨夜，Google DeepMind发布大型基础世界模型Genie 2，能生成各种可控制动作、可玩的3D环境，还可以用于训练和评估具身agent。

只要给一张提示图像，Genie 2就能按照你输入的文本提示，生成对应的交互式虚拟世界。无论是人类还是AI agent，都可以使用键盘和鼠标来在由AI生成的3D游戏世界里探索和互动。

Genie 2是一个自回归潜在扩散模型，训练于大型视频数据集。经过自动编码器后，视频中的潜在帧被传递到大型Transformer动力学模型。该模型使用与大语言模型类似的因果掩码进行训练。

在推理时，Genie 2能以自回归方式进行采样，逐帧获取单个动作和过去的潜在帧。Google DeepMind使用CFG（无分类器指导，classifier-free guidance）来提高动作可控性。

博客文章放出大量由未蒸馏的基础模型生成的视频示例，来展示Genie 2在行动控制、生成反设事实、长视界记忆、长视频生成、多样环境、3D结构、物体交互、复杂角色动画、NPC、物理、烟雾、光影、快速原型设计方面的效果与优势。蒸馏版本支持实时交互，但运行时的视觉质量会降低些。

输入真实世界的照片后，它也能很好模拟一些物理规律，比如可模拟风中摇曳的草或河中流动的水。

此前世界模型在很大程度上局限于建模狭窄的领域。Genie 1引入了一种生成各种2D世界的方法。Genie 2则进一步在通用性上取得进展，可以生成种类繁多的丰富3D世界。

以下是与Genie 2互动的一些示例视频。模型会使用文生图模型Imagen 3生成的单个图像，按照提示词生成一个可交互的3D世界。人或agent进行键鼠操作，进入这个新创建的世界并与之互动。Genie 2可以生成长达1分钟的一致世界，大多数示例持续10-20秒（本文将部分视频示例转成gif动图并只截取片段，完整视频请到原博客文章查看）。

1、智能响应键盘按键操作

Genie 2可以智能地响应键盘上的按键操作，正确地识别并移动角色。比如下图中的几个示例，模型必须能弄清楚方向按键对应要移动的是机器人，而不是画面中的树、云等其他物体。

树林里的一个可爱的人形机器人。

古埃及的人形机器人。

紫色星球上的机器人的第一视角。

大城市阁楼公寓中的机器人的第一视角。

2、生成反设事实

Genie 2可以从同一起始帧生成不同的轨迹，为训练agent模拟不同事实的体验。在每一行中，每个视频都从同一帧开始，但人类玩家采取的动作不同，生成的画面内容也响应不同。