谷歌邀马斯克联手做AI游戏！DeepMind版Sora是个3D游戏引擎

摘要：与此前研究相比，Genie 2拥有长期记忆，即使玩家把视角转开，再回来时也可稳定渲染世界中已存在的部分。

梦晨发自凹非寺
量子位 | 公众号 QbitAI

下一代世界模型炸场，一张图生成无限多样的3D游戏世界。

谷歌推出Genie 2，可响应键鼠操作，可玩、可控制。

与此前研究相比，Genie 2拥有长期记忆，即使玩家把视角转开，再回来时也可稳定渲染世界中已存在的部分。

游戏世界中还可以有其他AI NPC存在，与玩家控制的角色进行复杂交互。

这意味着任何人都可以用文字描述他们想要的世界，选择最喜欢的呈现方式，然后进入这个世界并与之互动！

这下，沉迷《暗黑破坏神4》的马斯克都觉得很酷，随后DeepMind创始人Hassabis邀请他一起做个AI游戏。

关键马部长他还真答应了～

结合马斯克此前声称，xAI将开办一家AI游戏工作室，两者联手的可能性还真不低。

不过谷歌DeepMind搞这项研究，可不光是为了给人类玩游戏的——

Genie 2可用于训练和评估具身智能体，通过创建丰富多样的环境，可以生成AI在训练期间没见过的评估任务。

比如通过文字指令，训练智能体打开正确的门。

谷歌表示尽管这项研究仍处于早期阶段，在智能体和环境生成能力方面仍有大量改进空间……

但我们相信Genie 2是解决在安全训练具身智能体的同时，满足实现通往通用人工智能（AGI）所需的广度和通用性要求。

此前，世界模型研究在很大程度上仅限于建模一个狭窄的领域，比如一个模型只能模拟《我的世界》像素风格游戏的Oasis。

谷歌在Genie 1中实现了生成多样2D世界的方法。

Genie 2则完成了向生成丰富3D世界的飞跃，展示了世界模型的涌现能力，包括对象交互、复杂的角色动画、物理模拟，以及建模并预测其他智能体行为的能力。

从同一帧出发，但玩家的操作不同，可以生成不同的运动轨迹。

这意味着可以模拟反事实体验（counterfactual experiences）用于训练智能体，也就是从“假如当时采取另一种行动会怎样”中获得经验。

智能体还可以在3D世界中学会与其他对象交互，如气球挨打就会爆。

实现这一切，靠的依然是扩散模型。

Genie 2是一种自回归潜空间扩散模型，在大型视频数据集上训练。

（是谁拥有Youtube里上亿小时的游戏视频数据，我不说）

经过自编码器处理后，视频的Lantent frames被传递到一个大型Transformer动力学模型，该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时，Genie 2可以自回归方式采样，对单个操作和过去的帧逐帧执行，使用classifier-free guidance来提高操作可控性。

此外，谷歌还透露，现在给出的视频示例都是由为蒸馏的模型生成，以展示可能性。

蒸馏模型可以做到实时控制，但会降低输出质量。

就在2天前，李飞飞创业公司World Labs也推出了从单个图像生成3D世界技术。

这个大佬们都在押注的方向，真的要火了～

参考链接：
[1]https://x.com/elonmusk/status/1864388977866006639
[2]https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

— 完 —

来源：量子位一点号

标签：谷歌马斯克 sora

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!