摘要:当地时间8月5日,谷歌DeepMind最新研发的AI技术“Genie 3”被誉为一项革命性的突破,有望彻底改变虚拟世界生成、机器人训练以及娱乐产业的未来。这项技术能够通过简单的文本提示,在约3秒内生成一个可交互的、逼真的3D虚拟世界,达到720p分辨率,且具备
当地时间8月5日,谷歌DeepMind最新研发的AI技术“Genie 3”被誉为一项革命性的突破,有望彻底改变虚拟世界生成、机器人训练以及娱乐产业的未来。这项技术能够通过简单的文本提示,在约3秒内生成一个可交互的、逼真的3D虚拟世界,达到720p分辨率,且具备实时交互和环境一致性等特性。Genie 3不仅适用于游戏和虚拟现实(VR)领域,还为机器人和自动驾驶汽车的训练提供了无限可能的模拟环境。
Youtube人气大V蒂姆·斯卡夫(Tim Scarfe)通过对DeepMind研究团队的独家采访,详细介绍了Genie 3的创新功能、潜在应用以及未来前景。以下是采访全文内容摘要:
主持人:大家好,今天我们带来一项全球独家报道,我认为这是我见过的最令人震撼的技术,简直让人兴奋不已!上周,我在伦敦谷歌DeepMind的办公室亲眼见证了这项技术的演示。这项技术可能成为下一个价值万亿美元的产业,也可能是虚拟现实的杀手级应用。谷歌DeepMind近期表现极为出色,甚至连Gemini Deepthink都无法统计其成功次数。
今天,我们将讨论一类全新的AI模型——生成式交互环境。它们不同于传统游戏引擎、模拟器或生成式视频模型,但又融合了三者的特性。它们本质上是一个可交互的世界模型和视频生成器,你可以连接游戏控制器或其他任何控制器。DeepMind定义“世界模型”为一种能够模拟环境动态的系统,其一致性是自然浮现的,没有任何显式编程。
这听起来有些不可思议:一个随机采样的神经网络如何能生成一致的、类似真实世界的地图?还记得1996年的Quake引擎吗?它需要显式地编程物理规则和交互逻辑。而这一代AI系统直接从视频数据中学习现实世界的动态。
你可以实时控制世界中的代理。生成式世界模型的出现源于手写模拟器的局限性,即便是DeepMind最先进的XLAND平台,专为通用代理训练设计,仍然显得卡通化,局限于特定领域的规则,显得生硬。想象一下,如果你能通过简单的文本提示生成任何交互式世界来训练代理,那会怎样?
01.Genie 1到Genie 2的演进主持人:去年我在国际机器学习大会(ICML)采访了DeepMind团队成员阿什利·爱德华兹(Ashley Edwards)。当时他介绍了Genie 1,基于3万小时的2D平台游戏录像训练而成。生成下一帧时,远处的物体移动速度比近处物体慢,这种效果模拟了深度感。这种能力出乎意料,模型竟然能如此快速地理解物理世界。
Genie 1的核心创新是时空视频标记器,将原始视频转化为可处理标记;还有一个潜在动作模型,无需标签数据就能发现有意义的控制动作;以及一个自回归动态模型,预测未来状态。潜在动作模型是一种无监督动作学习,Genie 1发现了八种离散动作,这些动作在不同环境中保持一致,仅通过分析帧间变化实现。
这让我震惊!从离线游戏片段中训练怎么可能做到这一点?更令人惊讶的是,它还具备类似2.5D视差的涌现能力。
仅仅10个月后,Genie 2问世,具备3D能力,接近实时性能,视觉保真度大幅提升,模拟了逼真的光照效果,如烟雾、火焰、水流、重力等,几乎涵盖了真实游戏中的所有元素。它甚至拥有可靠的记忆功能:你看向别处再回头,物体依然在原位。这位是谷歌DeepMind开放性团队研究科学家杰克·帕克·霍尔德(Jack Parker Holder)。
霍尔德:这是我们团队在加州某地拍摄的照片。我们将这张照片输入Genie,生成一个可交互的游戏世界。所有后续像素都由生成式AI模型生成。有人在实际操作,按下W键向前移动,从那一刻起,每一帧都由AI生成。
主持人:去年,由施洛米·弗鲁克特(Shlomi Fruchter)领导的DeepMind以色列团队,展示了基于扩散模型的Doom引擎模拟,称为“游戏引擎”。Doom几乎成了一个迷因,能在计算器、烤面包机上运行。但现在,神经网络可以实时逐帧生成Doom游戏,显示生命值,允许射击角色、开门、导航地图。虽然偶尔有些小故障,但这简直不可思议!它能在单个TPU上以25帧每秒运行,唯一的局限是只能模拟Doom。
02.Genie 3:从文本生成逼真的交互世界主持人:上周我们来到伦敦,DeepMind的团队成员向我们展示了Genie 3的演示。我简直不敢相信自己的眼睛!分辨率达到720p,足以让人沉浸其中。它是实时的,能模拟逼真的现实世界体验,持续数分钟而不会丢失上下文。其中一位团队成员参与了VO3的开发,他们似乎将Genie架构与VO结合,创造出一种“超级增强版VO”。
与Genie 1和2不同,Genie 3的输入是文本提示,而非图像,这增加了灵活性,但无法直接基于现实照片生成。一个主要特点是环境的多样性、长时预测能力以及可提示的世界事件。例如,在滑雪坡场景中,你可以输入“一名穿Genie 3 T恤的滑雪者出现”或“一只鹿跑下山坡”,这些事件就会发生。
他们表示,这对模拟自动驾驶汽车的罕见事件非常有用。但我在想,这会不会是“无限乌龟”问题?如何编写一个程序来提示可能无限多的罕见事件?他们展示了一个无人机在湖边飞行的例子,令人惊叹,但我注意到缺少鸟类。你能通过提示加入鸟类吗?
DeepMind团队认为,具身智能体的“第37步”时刻尚未到来,即智能体发现全新现实世界策略的时刻。他们将Genie 3视为实现这一目标的关键。但现实世界充满创造性,事件不断分支生长。未来可能会有一个外循环使系统更开放,但目前Genie 3严格按照提示生成,自身不具备创造性。
Genie 3目前仅支持单一代理体验,但多代理系统正在开发中。我最期待的是全新的交互娱乐模式,像是“YouTube 2.0”。DeepMind认为,机器人模拟训练是真正的突破。人类认知的奇迹在于我们通过模拟世界避免了昂贵的物理实验,这与Genie的理念类似。
为什么要在现实中训练?模拟任何场景就够了,就像《黑镜》中的情节。Genie 2的生成持续约20秒,而Genie 3能持续数分钟,错误越来越难以察觉。Genie 2并非实时,需等待数秒,图像分辨率低,记忆有限。而Genie 3彻底改变了这一切。
霍尔德:Genie 3可维持数分钟的连贯交互环境。
主持人:他们对架构细节较为谨慎,可能是因为这可能是万亿美元的商机,Meta首席执行官马克·扎克伯格(Mark Zuckberg)可能会虎视眈眈。我担心他会拿着支票簿说:“来吧,1亿美元,加入我!”扎克,拜托,别这样做!他们在做伟大的工作,留给他们空间吧。我开玩笑说,如果你在学Unreal引擎,可能得考虑转行了。但谷歌团队很务实,认为这是一种不同的技术,各有优劣。这仍是一个神经网络,有很多局限性,但可以轻松生成交互式动态图形,类似于Unreal引擎5.6的趋势。我需要解雇我的动态图形设计师吗?维多利亚,用户能用Genie 3吗?
DeepMind团队成员维多利亚(Victoria):目前不行。这仍是研究原型,出于安全考虑,将通过测试计划逐步开放。在新闻发布会上,有人问能否生成古代战斗场景,弗鲁克特说模型未训练过相关数据,暂时无法做到。
主持人:DeepMind称,模型改进会减少错误、提高准确性。训练数据或包含YouTube所有视频及更多内容,其对此持谨慎态度。计算需依赖TPU网络,估计需大量算力,但演示流畅,输入提示后约3秒即可进入世界。DeepMind还提到,Genie可训练智能体,智能体反过来能改进Genie 3,形成良性循环。比如模拟过马路时,人会观察司机信号再决定行动,智能体也需类似模拟。
你们能介绍一下Genie 3吗?
弗鲁克特:我是谷歌DeepMind的研究主任,参与了VO项目,过去11年在谷歌工作,近期专注于多模态扩散模型。Genie 3是我们最先进的世界模型,能预测环境演变及代理动作的影响。它实现高分辨率、长时预测和更好的一致性,全程实时,允许代理或用户自由导航和交互。
霍尔德:我是DeepMind开放性团队的研究科学家,最初研究开放式学习,近期专注于世界模型。在伦敦,我们向你展示了Genie 3,我认为这是我见过的最令人震撼的技术,可能是范式转变的时刻。
03.核心概念:什么是“世界模型”?主持人:Genie 3太不可思议了!但先回顾一下Genie 2吧?
霍尔德:Genie 2是我们两年研究的成果,称为基础世界模型。过去的世界模型仅模拟单一环境,Genie 1首次实现通过提示创建全新世界,但分辨率低,仅能交互几秒,需图像提示。Genie 2训练于更广泛的3D环境,分辨率从90p提升到360p,接近现代水平,但仍未完全成熟。我们想验证这种方法的扩展性,Genie 3将其推向新高度:720p,实时交互,令人惊叹。
主持人:就像已故的苹果联合创始人史蒂夫·乔布斯(Steve Jobs)说的,触摸屏有种魔力,交互性带来魔力。你们展示的演示太震撼了!逼真的视觉效果,像VO的融合,能理解现实世界,构建交互式基础模型。你能分享一些例子吗?
弗鲁克特:视频模型某种程度上是世界模型,但无法交互。Genie 3解决了这一局限,逐帧生成体验,用户或智能体可控制方向,探索非预定义的轨迹。例如,智能体可返回之前访问的地点,环境保持一致,这是非常出色的能力。
04.生成世界一致性的挑战主持人:Genie 2已有些物体持续性和一致性,但Genie 3更进一步。Genie 2使用了时空变换器,类似ViT,以及潜在动作模型,从非交互数据推断动作空间,再输入动态模型。Genie 3的架构能透露什么?
弗鲁克特:由于交互性,模型不是自回归的,需逐帧生成,并参考之前所有帧。例如,在礼堂中重访某地,模型需确保一致性。这种一致性是涌现的,没有显式3D表示,与神经辐射场或高斯飞溅不同,这种涌现能力令人惊讶。
主持人:Genie 2已能模拟视差和光照,但你参与的Doom模拟更让我震惊。1993年的Doom是约翰·卡马克的杰作,现在神经网络无需显式世界模型,仅通过像素空间生成游戏。这太不可思议了!
弗鲁克特:我小时候玩过Doom,也参与过游戏引擎开发。这项目让我感到圆满,我们用GPU或TPU生成一致的3D环境,与传统游戏引擎运行在相同硬件上。我们尝试用扩散模型实时模拟游戏环境,完全生成像素,仅接受用户输入。起初不确定是否可行,但成功时非常激动。实时交互激发了人们的想象力,让人感觉能真正走进生成的世界。我们希望将其推向更高质量、更通用的模拟。
主持人:关键问题是,Genie 2的动态模型使用蒙版GIT,迭代运行。如何解释随机神经网络生成一致世界的现象?我看向别处再回头,物体仍在原位,这对子符号随机模型来说不奇怪吗?
霍尔德:类似语言模型,世界模型需保持某些基本一致性。语言模型在事实性内容上保持一致,新内容才有随机性。在Genie生成的世界中,新物体可能有随机性,但一旦生成,就保持一致,这是大规模训练的涌现属性。
05.如何衡量世界模型的质量?主持人:2018年大卫·哈(David Ha)的世界模型定义为模拟系统动态。如何衡量其质量?
弗鲁克特:衡量世界模型质量很困难,尤其是视觉生成,质量主观。语言模型可用困惑度或下游任务表现评估,但世界模型主要关注视觉交互。质量取决于使用场景,我们的目标是让AI智能体在模拟环境中交互。模拟对AI至关重要,现实世界实验耗时长、成本高,如药物开发或机器人组装。Genie 3推动了模拟的边界。
主持人:我最近采访了一家初创公司,他们设想一个机器人策略市场,因现实数据稀缺,人们可共享策略。而你们提出通过世界基础模型生成特定场景的机器人策略。这正确吗?
霍尔德:是的,机器人通常在受限环境中部署,如精心布置的公寓,缺乏现实世界的随机性。现有模拟器可模拟物理,但无法模拟天气、其他代理或动物。Genie 3的世界知识超越物理,包括其他代理行为,如鹿群跑下山坡。这对大规模部署机器人至关重要,可安全模拟现实场景,避免真实世界中的风险。
主持人:为了训练机器人策略,可能需要课程学习和多样性,逐步增加复杂性,如加入穿Gemini T恤的人或汽车。这需要元过程控制复杂性梯度,类似佛罗里达大学计算机科学教授肯·斯坦利(Ken Stanley)的POET论文。这种直觉合理吗?
弗鲁克特:目前还难以确定Genie 3在AI研究中的具体应用。我们看到其他生成模型有意外发现的能力,如VO能读取照片上的文字并遵循空间指令。我们希望通过社区反馈探索Genie 3的潜力。
06.开放性:人类技能与提示创造力主持人:我很喜欢开放性研究。目前,通用提示会得到简单结果,而计算机图形专家用高度具体提示生成新颖内容。现实世界总能产生新奇事件,Genie 3目前生成特定场景,缺乏随机事件,如飞机飞过。这是正确的吗?
霍尔德:是的,Genie 3高度依赖文本提示,但这不是局限,而是优势。人类通过高质量提示创造酷炫世界,放大创造力。像POET这样的研究受限于简单环境,而Genie 3利用语言引导生成,结合人类知识定义“有趣”内容。
弗鲁克特:人类对有趣事物的定义驱动创新。例如,生成玻璃水果切割的ASMR视频,这种新奇性源于提示。Genie 3的丰富性从简短提示中涌现,未来可能通过多步创造过程,由人类和AI协作生成更复杂体验。
07.未来:下一代YouTube或VR?主持人:社交媒体上,提示共享推动了创造性探索。这可能是下一个YouTube或虚拟现实形式,类似哲学中的“体验机器”,让人沉浸其中不愿离开。我们能共创这样的世界吗?
霍尔德:类似Pickbreeder实验(基于交互式进化计算的在线实验平台,旨在通过用户引导的进化算法生成复杂的图像或创意内容),简单的图像进化带来意外创意。Genie 3提供了一个新平台,可能带来意想不到的创新,但具体方向尚难预测。
主持人:肯·斯坦利认为神经进化可探索有趣领域,Pickbreeder像是人类模仿学习,反映我们的认知约束。你认为纯神经网络模拟世界能像人类一样理解世界吗?
弗鲁克特:我们现在主要生成像素和音频,但人类体验远超视觉和听觉,包括物理交互和空间感。Genie 3与真实模拟仍有差距,但人们可协作探索世界,未来可能更进一步。
08.下一步:多智能体模拟主持人:多智能体模拟是个重要方向。人类通过语言和文化实现信息快速传播。Genie 3的多智能体模拟能积累信息,发展出复杂动态吗?
霍尔德:目前Genie 3由单智能体控制,其他智能体行为嵌入模型权重中,如人群避让或车辆合理移动。智能体可从中学习社交线索,如过马路时观察司机行为,类似人类心智理论。这对安全训练智能体至关重要,但模型尚未从智能体经验中学习。
弗鲁克特:智能有多种形式,Genie 3的模拟能力与人类不同。人类无法像Genie 3一样输出像素,但可想象事件并规划。我们将Genie与Gemini结合,两种模型协同工作,完成新任务。
主持人:神经网络计算能力有限,如模拟解魔方可能因计算不足而失败。能否开发可变计算版本,针对复杂任务增加思考时间?
霍尔德:这是一个有趣问题。未来可能需要结合能写代码或解决数学问题的模型。目前我们聚焦视觉和物理模拟,但智能体可从模型中学习隐式物理知识。
弗鲁克特:从实用角度看,构建单一模型涵盖所有智能方面面临工程和硬件约束。实时性要求快速生成帧,限制了模型容量。我们需根据应用需求权衡能力。
主持人:模拟到现实的差距如何?
霍尔德:当前所谓“模拟到现实”更像是“模拟到实验室”。只有像Genie 3这样逼真的世界模拟工具,才能真正解决现实世界中人与其他代理的复杂交互问题。
主持人:非常感谢你们的分享!对Unreal引擎开发者来说,可能是时候考虑新方向了。再次感谢!
来源:雷霆战神王