谷歌邀马斯克联手做AI游戏!DeepMind版Sora是个3D游戏引擎

摘要:与此前研究相比,Genie 2拥有长期记忆,即使玩家把视角转开,再回来时也可稳定渲染世界中已存在的部分。

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

下一代世界模型炸场,一张图生成无限多样的3D游戏世界

谷歌推出Genie 2,可响应键鼠操作,可玩、可控制。

与此前研究相比,Genie 2拥有长期记忆,即使玩家把视角转开,再回来时也可稳定渲染世界中已存在的部分。

游戏世界中还可以有其他AI NPC存在,与玩家控制的角色进行复杂交互。

这意味着任何人都可以用文字描述他们想要的世界,选择最喜欢的呈现方式,然后进入这个世界并与之互动!

这下,沉迷《暗黑破坏神4》的马斯克都觉得很酷,随后DeepMind创始人Hassabis邀请他一起做个AI游戏。

关键马部长他还真答应了~

结合马斯克此前声称,xAI将开办一家AI游戏工作室,两者联手的可能性还真不低。

不过谷歌DeepMind搞这项研究,可不光是为了给人类玩游戏的——

Genie 2可用于训练和评估具身智能体,通过创建丰富多样的环境,可以生成AI在训练期间没见过的评估任务。

比如通过文字指令,训练智能体打开正确的门。

谷歌表示尽管这项研究仍处于早期阶段,在智能体和环境生成能力方面仍有大量改进空间……

但我们相信Genie 2是解决在安全训练具身智能体的同时,满足实现通往通用人工智能(AGI)所需的广度和通用性要求。

此前,世界模型研究在很大程度上仅限于建模一个狭窄的领域,比如一个模型只能模拟《我的世界》像素风格游戏的Oasis

谷歌在Genie 1中实现了生成多样2D世界的方法。

Genie 2则完成了向生成丰富3D世界的飞跃,展示了世界模型的涌现能力,包括对象交互、复杂的角色动画、物理模拟,以及建模并预测其他智能体行为的能力。

从同一帧出发,但玩家的操作不同,可以生成不同的运动轨迹。

这意味着可以模拟反事实体验(counterfactual experiences)用于训练智能体,也就是从“假如当时采取另一种行动会怎样”中获得经验。

智能体还可以在3D世界中学会与其他对象交互,如气球挨打就会爆。

实现这一切,靠的依然是扩散模型。

Genie 2是一种自回归潜空间扩散模型,在大型视频数据集上训练。

(是谁拥有Youtube里上亿小时的游戏视频数据,我不说)

经过自编码器处理后,视频的Lantent frames被传递到一个大型Transformer动力学模型,该模型使用与大型语言模型类似的因果掩码进行训练。

在推理时,Genie 2可以自回归方式采样,对单个操作和过去的帧逐帧执行,使用classifier-free guidance来提高操作可控性。

此外,谷歌还透露,现在给出的视频示例都是由为蒸馏的模型生成,以展示可能性。

蒸馏模型可以做到实时控制,但会降低输出质量。

就在2天前,李飞飞创业公司World Labs也推出了从单个图像生成3D世界技术。

这个大佬们都在押注的方向,真的要火了~

参考链接:
[1]https://x.com/elonmusk/status/1864388977866006639
[2]https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/

— 完 —

来源:量子位一点号

相关推荐