NVIDIA Research 开发的模型实现了快速、高效的动态场景重建

摘要:NVIDIA Research 与马里兰大学合作开发的 AI 模型 QUEEN 将内容直播带入全新的维度。有了 QUEEN,直播自由视角视频有望成为现实,也就是说,观众可以从任意视角体验 3D 场景。

这个被称为 QUEEN 的模型支持低带宽、高质量的场景生成,可用于工业机器人操作、3D 视频会议和直播等流媒体应用。

NVIDIA Research 与马里兰大学合作开发的 AI 模型 QUEEN 将内容直播带入全新的维度。有了 QUEEN,直播自由视角视频有望成为现实,也就是说,观众可以从任意视角体验 3D 场景。

QUEEN 可用于构建沉浸式直播应用,例如教授烹饪等技能、让球迷就像身处球场一样从任意视角观看比赛,或者在工作场所举行更加身临其境的视频会议。QUEEN 也能用于工业环境,帮助操作员远程操控仓库或工厂中的机器人。

该模型在本月于温哥华举行的年度 AI 盛会 NeurIPS 上进行了展示。

NVIDIA 研究总监、杰出研究科学家 Shalini De Mello 表示:“要想近乎实时地直播自由视角视频,就必须同时重建和压缩 3D 场景。QUEEN 巧妙地平衡了压缩率、视觉质量、编码时间和渲染时间等各种因素,从而创建了一个优化的流程,为视觉质量和可直播性树立了新的标杆。”

通过减少渲染量,重复利用

和循环利用等方式实现高效直播

自由视角视频通常使用来自各种摄像角度拍摄的视频素材制作而成,例如多机位拍摄、仓库里的一组安防摄像头或是办公室中的视频会议摄像头系统。

以往用于生成自由视角视频的 AI 方法要么占用过多的内存用于直播,要么为了缩小文件大小而牺牲视觉质量,而 QUEEN 在两者之间取得了平衡。即便是存在火花、火焰或毛茸动物的动态场景,也能轻松地把高质量的视频内容从主机服务器传输到客户端设备。而且,与之前的方法相比,它还能够更快地渲染视频内容以进行直播。

在大多数真实环境中,场景中的许多元素都是静止不动的。在视频中,这意味着某个帧中的大部分像素与其它帧中的像素相同。为了节省计算时间,QUEEN 跟踪并重复使用这些静态区域的渲染,从而腾出资源来专注于重建那些随时间变化的内容。

研究人员使用了一块 NVIDIA Tensor Core GPU,在多个基准测试中评估 QUEEN 的性能,他们发现该模型的表现在一系列指标上都优于目前最先进的在线自由视角视频制作方法。对于从不同角度拍摄同一场景的 2D 视频,通常只需不到五秒的训练时间,就能以每秒约 350 帧的速度渲染自由视角视频。

同时实现高速度和高视觉质量,这意味着音乐会和体育赛事转播能够提供身临其境般的虚拟现实体验或比赛集锦的即时回放。

在仓库场景中,机器人操作员可以利用 QUEEN,在操纵物体时更精准地测量深度。在视频会议中,例如 SIGGRAPH 和 NVIDIA GTC 大会上的 3D 视频会议 demo,它可以帮助主持人演示烹饪或折纸等场景,同时让观众可以选择最适合自己学习的视角。

NVIDIA 为 NeurIPS 制作和撰写了 50 多篇学术海报和论文,QUEEN 是其中之一。这些学术海报和论文介绍了在模拟、机器人和医疗等领域具有巨大应用前景的开创性 AI 研究成果。

首次介绍了 GAN 模型的论文《生成式对抗网络》在 NeurIPS 2024 大会上荣获“时间检验奖”。该论文被引用超过 8.5 万次,其中一个作者是 NVIDIA 的杰出工程师 Bing Xu。欢迎收听以下 AI 播客,该论文的主要作者、DeepMind 研究科学家 Ian Goodfellow 在其中介绍了更多相关信息:

了解有关 NVIDIA Research 参加 NeurIPS 大会的更多信息,请访问:

NVIDIA Research 在全球拥有数百名科学家和工程师,专注于 AI、计算机图形学、计算机视觉、自动驾驶汽车和机器人等领域的研究,欢迎查看他们的最新研究成果:

大型语言模型、模拟和建模、边缘 AI 等领域的学术科研人员可以申请 NVIDIA 学术资助计划。

来源:NVIDIA英伟达中国

相关推荐