摘要:在计算机视觉领域,从单一图像或视频中估计三维几何信息(如深度和表面法线)一直是一个基础但充满挑战的任务。2025年5月30日,由香港大学的杨天阳(Yang-Tian Sun)、余欣(Xin Yu)、黄一华(Yi-Hua Huang)和齐晓娟(Xiaojuan
在计算机视觉领域,从单一图像或视频中估计三维几何信息(如深度和表面法线)一直是一个基础但充满挑战的任务。2025年5月30日,由香港大学的杨天阳(Yang-Tian Sun)、余欣(Xin Yu)、黄一华(Yi-Hua Huang)和齐晓娟(Xiaojuan Qi),北京航空航天大学的黄泽桓(Zehuan Huang)以及VAST的郭元辰(Yuan-Chen Guo)、杨子仪(Ziyi Yang)和曹延培(Yan-Pei Cao)共同撰写的研究论文《UniGeo: Taming Video Diffusion for Unified Consistent Geometry Estimation》在arXiv预印本平台(arXiv:2505.24521v1)上发表。这篇论文提出了一个创新的框架,巧妙地利用视频扩散模型来实现跨帧一致的几何信息估计。有兴趣深入了解的读者可以通过https://sunyangtian.github.io/UniGeo-web/访问项目主页。
想象一下,当你拿着手机围绕一个物体拍摄视频时,你的大脑能够自然地理解这个物体的三维形状和空间位置关系。但对计算机来说,这个任务却异常困难。过去的方法通常是逐帧处理视频,导致不同帧之间的几何信息(如深度和表面法线)不一致,就像几个不同的人各自描述同一个物体,却给出矛盾的细节描述。这种不一致性问题严重影响了后续的三维重建和场景理解任务。
一、研究背景与创新点
近年来,利用扩散模型预训练得到的先验知识来辅助单目几何估计的方法(如深度和法线估计)引起了研究者们的广泛关注。想象一下,扩散模型就像一个看过无数场景的经验丰富的专家,通过大量的数据学习到了世界是什么样子。比如Marigold和GeoWizard这样的方法已经证明,经过微调的基于扩散的图像生成器能够在深度和法线预测任务中取得卓越的性能。这些发现表明,图像生成模型从大规模数据集中学习到的先验知识可以增强几何估计的准确性和泛化能力。
然而,当我们直接将基于图像的几何估计方法逐帧应用到视频中时,往往会导致明显的不一致性。要解决这个问题,最近的一些工作如DepthCrafter和ChronoDepth尝试利用视频扩散模型的一致性先验来进行深度估计,将视频帧作为条件输入,同时预测摄像机坐标系下的跨帧深度作为输出。
尽管这些方法取得了一定进展,但几何属性(如深度和表面法线)所需的一致性与RGB视频帧的一致性存在根本性差异。例如,视频先验通常会强制相同物体在不同帧中的外观相似,而其深度和法线则会随着相机运动而变化。这种差异可能导致几何预测不准确。此外,RGB条件通过通道级的拼接引入到视频扩散模型中,这改变了与预训练模型相比的输入格式,需要架构修改并且难以充分利用视频扩散先验的潜力。
UniGeo团队的核心创新在于,他们发现预训练的视频生成模型天生具备提取帧间一致性的能力。他们通过注意力权重可视化证明了这一点:当模型处理视频序列时,它能够自动识别不同帧中相同区域的对应关系。这种内在的对应能力启发他们重新思考视频几何估计问题:如果我们能够以合适的方式利用这种对应关系,是否可以获得更加一致的几何估计结果?
二、UniGeo方法的核心设计
基于上述观察,研究团队提出了UniGeo框架,它将基于视频的几何估计任务(包括全局位置和表面法线)重新表述为一个视频生成问题。具体来说,他们采取了以下创新设计:
首先,他们提出在共享的全局坐标系统中表示几何属性。这就像是让所有人使用同一个地图和坐标系统来描述位置,而不是各自使用相对于自己的位置来描述。这种方法自然地对齐了跨帧的几何对应关系,反映了RGB视频中的一致性。相比之下,现有方法估计以相机为中心的坐标系中的几何形状,这本质上会导致不一致性。
想象一下,如果你从不同角度拍摄同一个物体,传统方法会以"我离物体多远"(相对于相机)来描述深度。而UniGeo则会说"这个点在空间中的绝对位置是什么",无论你从哪个角度拍摄,那个点的全局坐标都是固定的。这种表示方法使得几何信息天然地保持一致性。
其次,他们巧妙地解决了如何将RGB信息融入预训练视频扩散模型的问题。与其将RGB输入堆叠在通道维度上作为条件(这种方法会使预训练的视频扩散模型错位),他们提出将RGB帧作为统一视频序列中的额外输入处理。具体来说,他们将RGB帧与带噪声的几何序列一起组织,使模型能够直接适应视频扩散模型,无需架构修改。
想象一下,这就像是给模型看一个特殊的视频,这个视频的前半部分是普通的RGB画面,后半部分是对应的几何属性(如深度或法线)。模型通过学习前半部分和后半部分的关系,来预测正确的几何信息。
更精妙的是,研究团队提出了一种共享位置编码策略,重用来自图像的位置嵌入并将它们应用于几何属性。他们观察到,注意力权重在不同帧之间自然地捕获对应关系,这些权重受到标记位置嵌入的强烈影响。通过重用位置嵌入,他们确保了图像和几何属性之间的精确对齐,有效地利用了预训练模型的帧间对应关系学习能力。
这就像是在不同的照片上贴上相同编号的标签,告诉模型:"这些标签相同的地方其实是同一个物体的不同角度视图"。这样,模型就能更好地建立不同帧之间的对应关系。
最后,为了有效利用可用的训练数据集学习泛化模型,他们探索了训练单个网络来同时预测多个几何属性。他们的创新公式使这些任务共享相同的学习对应关系,允许它们相互加强。令人惊讶的是,实验结果表明,这种多任务方法不仅提供了在统一模型中推断多个属性的额外优势,而且优于针对特定任务单独训练的网络。
这就像一个人同时学习绘画和雕塑,两种技能会相互促进,让他对三维形状的理解更加全面。同样,当模型同时学习预测位置和法线时,它对物体几何形状的理解也会更加完整。
三、实验与结果分析
UniGeo团队在多个数据集上进行了大量实验,以验证他们方法的有效性。他们的训练数据包括:Hypersim(一个室内多视图数据集,提供位置和法线标签),InteriorNet(一个室内视频数据集,提供位置和法线监督)以及MatrixCity(一个室外视频数据集,提供法线数据)。
在测试阶段,他们选择了ScanNet++和7scenes数据集进行评估,这两个数据集都是真实场景数据集,在训练过程中未被使用。对于ScanNet++,每帧的注释几何属性是由高功率LiDAR传感器扫描的网格重新渲染的,可用于深度和法线评估。7scenes则用于重建点云评估。
让我们来看看在法线估计任务上的表现。团队使用了角度误差作为评估指标,计算预测法线与真实法线之间的角度误差。他们报告了平均和中位角度误差,数值越低表示精度越高。此外,他们还测量了角度误差小于11.25°的像素百分比,这个值越高表示精度越好。
在ScanNet++数据集上,UniGeo的平均角度误差为18.15,中位角度误差为7.91,角度误差小于11.25°的像素百分比为63.38%。这一结果优于现有的方法,如Marigold(平均误差20.93,中位误差11.36,11.25°准确率53.31%)、GeoWizard(平均误差21.33,中位误差12.61,11.25°准确率49.23%)以及E2E FT(平均误差18.32,中位误差8.22,11.25°准确率65.02%)。
对于深度/半径估计,由于深度通常定义为相机坐标系中3D坐标的z值,为了将其转换为一致的几何属性,团队使用了3D点到全局坐标系原点的距离("半径")作为替代,这与GT通过最小二乘拟合对齐。他们报告了平均绝对相对误差(AbsRel)、均方根误差(RMSE)以及对齐预测半径与GT之比小于1.25的像素百分比(δ1准确率)。
在这一任务上,UniGeo的AbsRel为10.2,δ1准确率为90.5%,优于Video Depth Anything(AbsRel为13.5,δ1准确率为86.2%)和GeoWizard(AbsRel为11.5,δ1准确率为89.6%)等方法。
值得注意的是,与其他方法不同,UniGeo不需要相机参数作为输入,这进一步证明了利用视频扩散模型先验的优势。
在视频重建任务中,由于UniGeo直接预测统一坐标系中每个帧像素的几何属性,它可以直接应用于重建。与无姿态的基于图像的重建方法(如Dust3R和Spann3R)相比,UniGeo在7scenes数据集上取得了具有竞争力的性能,尽管它使用的训练数据明显少于竞争方法。
四、UniGeo的突破意义与应用前景
UniGeo的研究意义在于,它首次实现了从视频数据同时预测多个几何属性(如半径、法线)的能力,确保全局一致性,适合直接用于重建任务。与基于图像的方法相比,该方法无需额外的相机信息就能获得更优的性能,并提供与在大规模数据集上训练的模型相当的重建质量。
特别值得一提的是,尽管UniGeo仅在静态数据上训练,但由于受益于视频扩散先验,它能够对某些动态场景进行稳健的泛化。这意味着,即使场景中有移动的物体,UniGeo也能相对准确地估计几何信息,这对于真实世界的应用(如增强现实和自动驾驶)非常重要。
从应用角度看,UniGeo可以广泛应用于虚拟现实/增强现实(VR/AR)、机器人技术和自动驾驶等领域。例如,在AR应用中,它可以帮助更准确地放置虚拟物体;在机器人导航中,它可以提供更一致的环境理解;在自动驾驶中,它可以提高对周围环境的感知能力。
UniGeo的局限性在于,由于存储限制,它一次只能处理有限长度的视频片段。拼接多个短片段的结果时可能会导致累积误差。将长期记忆集成到当前框架中仍然是一个开放的研究问题。此外,高计算成本限制了微调到较低分辨率(512×384),有时会导致模糊的伪影。未来的工作应探索高效的模型蒸馏技术,以更好地捕捉帧间一致性,增强几何预测和整体输出质量。
五、深入理解UniGeo的技术原理
为了更深入地理解UniGeo的工作原理,我们需要了解扩散模型的基本概念。扩散模型是一类通过迭代去噪过程对特定数据分布进行建模的模型。在前向过程中,不同级别的高斯噪声被逐步添加到数据点中,生成一个噪声样本序列。去噪模型的目标是逐渐逆转这个过程,通过预测噪声并从有噪声的样本中去除它。
在UniGeo中,研究团队利用了视频扩散模型的变体——扩散变换器(DiT)。与传统的U-Net架构相比,DiT在生成质量和灵活性方面表现出色。它首先将视频潜在表示进行分块处理,将它们转换为标记,然后将它们连接成一个长序列进行去噪。
UniGeo的创新之处在于,它不是将RGB条件与几何表示在通道维度上拼接,而是将它们作为一个统一的序列处理。具体来说,给定RGB视频序列和相应的几何序列,它首先使用预训练的VAE编码器提取它们的潜在表示。然后,它将噪声添加到目标几何标记中,并将RGB标记与带噪声的几何标记在标记维度上连接,形成一个扩展的标记序列。
在DiT网络的前向过程中,自注意力机制应用于整个序列,使特征能够在RGB和几何属性之间充分交换。为了获得预测的去噪几何结果,它只保留输出序列的后半部分,并使用VAE解码器将其解码到像素空间。
更重要的是,UniGeo提出了共享位置编码(SPE)策略,它重用RGB标记的位置嵌入,并将它们应用于几何标记。这种方法有效地强制空间对齐,并将帧间一致性传递到几何估计中,导致RGB条件和预测几何图之间的一致性更好。与通道连接相比,这种方法不需要修改去噪网络的输入特征,提供了更灵活的微调机制。
此外,UniGeo还采用了单步确定性训练方法。基于最近在微调图像扩散模型用于几何估计的研究,他们发现视频扩散模型也可以作为单步确定性模型进行微调用于几何估计。具体来说,他们不再在训练期间随机采样时间步t,而是将t固定为T。此外,他们将高斯噪声替换为其期望值(即零),并将其与RGB潜在表示一起输入模型。视频扩散模型经过微调,以MSE损失匹配GT几何属性的潜在表示。这种方法不仅显著降低了计算成本,还产生了更准确的几何预测。
六、UniGeo的应用与未来展望
UniGeo的出现为三维视觉领域带来了新的可能性。传统上,从单目图像或视频估计几何信息的任务充满挑战,尤其是在保持跨帧一致性方面。UniGeo通过充分利用预训练视频扩散模型中的先验知识,提供了一种新的范式,能够产生全局一致的几何估计。
在实际应用中,UniGeo可以用于多种场景:
在增强现实中,准确的深度和法线估计对于虚拟物体与真实环境的自然融合至关重要。UniGeo提供的一致几何估计可以显著提高AR体验的质量,使虚拟物体能够正确地遮挡或被真实物体遮挡,同时对光线和阴影做出适当反应。
在机器人导航中,一致的三维场景理解对于路径规划和障碍物避免至关重要。UniGeo可以帮助机器人从普通RGB相机获取的视频中构建连贯的环境地图,而无需昂贵的深度传感器。
在内容创作领域,从视频重建三维模型对于虚拟制作和视觉效果至关重要。UniGeo简化了这一过程,允许艺术家和内容创作者从常规视频中直接重建高质量的三维场景。
对于未来的研究方向,UniGeo团队建议:
开发集成长期记忆的机制,以处理更长的视频序列而不引入累积误差。这可能涉及设计新的架构或训练策略,使模型能够保持长期的全局一致性。
探索高效的模型蒸馏技术,以捕获帧间一致性,同时减少计算需求。这可能使UniGeo能够处理更高分辨率的输入,并产生更详细的几何估计。
扩展UniGeo以更好地处理动态场景,包括移动物体和变形物体。虽然当前模型已经显示出对某些动态场景的泛化能力,但这一方向仍有很大的改进空间。
将UniGeo与其他三维理解任务集成,如语义分割和实例分割,以提供更全面的场景理解。这可能涉及设计新的多任务学习框架,同时保持几何估计的高质量。
总之,UniGeo代表了视频几何估计领域的重要突破,通过巧妙地利用预训练视频扩散模型的内在一致性,它实现了跨帧一致的几何属性预测。这不仅推进了计算机视觉的基础研究,还为各种实际应用开辟了新的可能性。随着相关技术的进一步发展,我们可以期待在不久的将来看到更多基于UniGeo的创新应用。
来源:至顶网一点号