DeepMind的Genie 2能够生成看起来像视频游戏的互动世界

摘要：DeepMind推出的Genie 2是一款先进的AI模型，旨在生成多样化的可玩3D世界。作为Genie的继任者，Genie 2能够根据单张图片和文本描述生成互动场景，增强用户体验。该模型经过视频训练，能够准确模拟物体交互、光照、物理效果及NPC行为，其视觉质量

DeepMind推出的Genie 2是一款先进的AI模型，旨在生成多样化的可玩3D世界。作为Genie的继任者，Genie 2能够根据单张图片和文本描述生成互动场景，增强用户体验。该模型经过视频训练，能够准确模拟物体交互、光照、物理效果及NPC行为，其视觉质量与AAA级视频游戏相似。尽管DeepMind未透露具体的数据来源，但其使用YouTube视频进行训练引发了知识产权方面的关注，可能涉及未授权复制问题。此外，Genie 2可以从不同视角生成连贯的场景，持续时间可达一分钟，场景的连贯性通常在10到20秒之间。

DeepMind，谷歌旗下的人工智能研究组织，推出了一款突破性的模型——Genie 2，旨在创造几乎无限多样的可玩3D世界。该模型是早前发布的Genie的继任者，后者于2024年初亮相。Genie 2能够根据单张图片和文本描述（例如：“森林中的可爱类人机器人”）生成一个互动且实时的场景。这一功能与其他公司的发展相一致，包括李飞飞的World Labs和以色列初创公司Decart。

DeepMind声称，Genie 2能够生成“丰富多样的3D世界”。用户可以通过鼠标或键盘进行跳跃和游泳等操作。该模型经过视频训练，使其能够准确模拟物体交互、动画、光照、物理、反射以及非可玩角色（NPC）的行为。Genie 2生成的许多模拟的视觉质量与AAA级视频游戏相似，这可能归因于模型的训练数据，其中包括流行游戏标题的实况播放。然而，出于竞争原因，DeepMind并未透露其数据来源方法的详细信息。

围绕Genie 2的潜在知识产权（IP）影响引发了重要问题。作为谷歌的子公司，DeepMind可以不受限制地访问YouTube，该公司此前曾表示其服务条款允许在模型训练中使用YouTube视频。然而，这引发了关于Genie 2是否有效地创造了对其分析的视频游戏的未授权复制品的担忧。这一问题最终可能需要法律上的澄清。此外，DeepMind声称Genie 2能够从不同视角生成一致的世界，例如第一人称和等距视图，持续时间可达一分钟，大多数场景的连贯性保持在10到20秒之间。