谷歌DeepMind新突破：Genie 2一键构建3D交互世界，人与AI共探虚拟新境

摘要：在AI竞赛日益激烈的当下，Google DeepMind再次推出了其最新的研究成果——Genie 2，一款能够生成各种可操控动作、可供玩耍的3D环境的大型基础世界模型。这一消息的发布，恰好赶在了OpenAI即将在未来12天内直播新发布和演示之前，为AI领域再添

在AI竞赛日益激烈的当下，Google DeepMind再次推出了其最新的研究成果——Genie 2，一款能够生成各种可操控动作、可供玩耍的3D环境的大型基础世界模型。这一消息的发布，恰好赶在了OpenAI即将在未来12天内直播新发布和演示之前，为AI领域再添一把火。

据了解，Genie 2只需一张提示图像，就能根据用户输入的文本提示，生成对应的交互式虚拟世界。无论是人类还是AI代理，都可以使用键盘和鼠标在由AI生成的3D游戏世界中自由探索和互动。这种前所未有的交互体验，无疑为AI领域的研究和应用带来了全新的可能性。

Genie 2的核心是一个自回归潜在扩散模型，它在大型视频数据集上进行训练。通过自动编码器处理后，视频中的潜在帧被传递到大型Transformer动力学模型中。该模型采用与大语言模型类似的因果掩码进行训练，使得在推理时，Genie 2能够以自回归方式采样，逐帧获取单个动作和过去的潜在帧。为了提高动作的可控性，Google DeepMind还使用了CFG（无分类器指导）技术。

在Genie 2的博客文章中，展示了大量由未蒸馏的基础模型生成的视频示例，这些示例充分展示了Genie 2在行动控制、生成反设事实、长视界记忆、长视频生成、多样环境、3D结构、物体交互、复杂角色动画、NPC（非玩家角色）、物理、烟雾、光影以及快速原型设计等方面的卓越效果与优势。尽管蒸馏版本支持实时交互，但在运行时的视觉质量会略有降低。

Genie 2在模拟真实世界环境方面展现出了超强的空间记忆能力。它能够记住视野中不再存在的世界部分，并在它们再次可见时准确呈现。Genie 2还能够从同一起始帧生成不同的轨迹，为训练AI代理提供了模拟不同事实体验的可能性。

在与Genie 2互动的过程中，用户可以体验到智能响应键盘按键操作、生成反设事实、长视界记忆以及使用新生成的内容生成长视频等多种功能。例如，用户可以通过键盘和鼠标控制一个可爱的机器人，在由Genie 2生成的3D世界中自由移动和互动。Genie 2还能够模拟各种物体的相互作用，如爆破气球、打开门和射击炸药桶等。

除了以上功能外，Genie 2还能够模拟其他AI代理，甚至与它们进行复杂的交互。同时，它还能够模拟各种物理现象，如水效果、烟雾效果、重力以及灯光等。这些功能使得Genie 2成为了一个极具潜力的训练和评估具身AI代理的平台。

Google DeepMind表示，尽管这项研究仍处于早期阶段，但Genie 2已经展现出了解决安全训练具体AI代理的结构性问题的潜力。同时，它也为实现迈向通用人工智能（AGI）所需的广度和通用性迈出了重要的一步。未来，Google DeepMind将继续在通用性和一致性方面改进Genie的世界生成能力，为构建更通用的AI系统和代理做出贡献。

来源：ITBear科技资讯

标签：交互谷歌deepmind genie

本文地址：https://news.43u.com.cn/a/121496.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!