摘要:DeepMind推出的Genie 2是一款先进的AI模型,旨在生成多样化的可玩3D世界。作为Genie的继任者,Genie 2能够根据单张图片和文本描述生成互动场景,增强用户体验。该模型经过视频训练,能够准确模拟物体交互、光照、物理效果及NPC行为,其视觉质量
DeepMind推出的Genie 2是一款先进的AI模型,旨在生成多样化的可玩3D世界。作为Genie的继任者,Genie 2能够根据单张图片和文本描述生成互动场景,增强用户体验。该模型经过视频训练,能够准确模拟物体交互、光照、物理效果及NPC行为,其视觉质量与AAA级视频游戏相似。尽管DeepMind未透露具体的数据来源,但其使用YouTube视频进行训练引发了知识产权方面的关注,可能涉及未授权复制问题。此外,Genie 2可以从不同视角生成连贯的场景,持续时间可达一分钟,场景的连贯性通常在10到20秒之间。
DeepMind,谷歌旗下的人工智能研究组织,推出了一款突破性的模型——Genie 2,旨在创造几乎无限多样的可玩3D世界。该模型是早前发布的Genie的继任者,后者于2024年初亮相。Genie 2能够根据单张图片和文本描述(例如:“森林中的可爱类人机器人”)生成一个互动且实时的场景。这一功能与其他公司的发展相一致,包括李飞飞的World Labs和以色列初创公司Decart。
DeepMind声称,Genie 2能够生成“丰富多样的3D世界”。用户可以通过鼠标或键盘进行跳跃和游泳等操作。该模型经过视频训练,使其能够准确模拟物体交互、动画、光照、物理、反射以及非可玩角色(NPC)的行为。Genie 2生成的许多模拟的视觉质量与AAA级视频游戏相似,这可能归因于模型的训练数据,其中包括流行游戏标题的实况播放。然而,出于竞争原因,DeepMind并未透露其数据来源方法的详细信息。
围绕Genie 2的潜在知识产权(IP)影响引发了重要问题。作为谷歌的子公司,DeepMind可以不受限制地访问YouTube,该公司此前曾表示其服务条款允许在模型训练中使用YouTube视频。然而,这引发了关于Genie 2是否有效地创造了对其分析的视频游戏的未授权复制品的担忧。这一问题最终可能需要法律上的澄清。此外,DeepMind声称Genie 2能够从不同视角生成一致的世界,例如第一人称和等距视图,持续时间可达一分钟,大多数场景的连贯性保持在10到20秒之间。
来源:老孙科技前沿一点号