摘要:近期,三维视觉领域的基础模型取得了显著进展,尤其是在处理长序列图像输入以进行三维重建方面。然而,这些模型在推理效率上常常面临巨大挑战。厦门大学和上海交通大学的研究者们提出了一种名为FastVGGT的免训练加速方法,它能在不牺牲重建质量的前提下,将最先进的视觉几
近期,三维视觉领域的基础模型取得了显著进展,尤其是在处理长序列图像输入以进行三维重建方面。然而,这些模型在推理效率上常常面临巨大挑战。厦门大学和上海交通大学的研究者们提出了一种名为 FastVGGT 的免训练加速方法,它能在不牺牲重建质量的前提下,将最先进的视觉几何Transformer(VGGT)的推理速度提升 4倍 以上,并有效缓解了长序列场景下的误差累积问题。
近年来,从视觉输入中推断三维几何结构的技术取得了巨大突破,从传统的基于优化的迭代式流程转向了端到端的神经网络。其中,VGGT (Visual Geometry Transformer) 是一个里程碑式的工作,它采用基于Transformer的前馈架构,能够直接从多视图图像中回归出相机参数、深度图和点云轨迹等关键三维属性,实现了高度稳定和精确的三维重建。
然而,VGGT的强大能力也伴随着巨大的计算成本。其核心依赖于全局注意力机制(Global Attention),用于捕捉所有输入帧之间的复杂几何关系。随着输入图像序列长度的增加,这种机制的计算复杂度会呈二次方增长,迅速成为性能瓶颈。
如上图所示,对VGGT推理时间的组件分析表明,当输入帧数从20增加到200时,全局注意力模块的耗时占比急剧上升,成为主要的计算开销。此外,全局注意力机制在长序列中容易累积误差,导致预测结果发生漂移。这些限制使得VGGT难以应用于需要处理成百上千张图像的大规模场景。
为了解决这一问题,研究者们深入分析了VGGT的注意力图,并发现了一个关键现象:不同Token(可以理解为图像块的特征表示)的注意力模式表现出高度的相似性。
上图展示了VGGT中六个代表性Token(包括相机Token和几个图像Token)在不同网络深度(Block)的全局注意力图。可以清晰地看到,在每个阶段,不同Token的注意力模式都惊人地相似。这种现象通常被称为“Token坍塌”,意味着全局计算中存在大量冗余。
这一发现启发了本文的核心思想:既然存在冗余,我们是否可以通过合并相似的Token来减少计算量,从而在不牺牲性能的前提下加速推理?
基于上述观察,研究者们提出了 FastVGGT,一个无需重新训练即可加速VGGT推理的框架。其核心是一种为三维视觉任务量身定制的Token合并(Token Merging)策略。
该方法巧妙地将Token分为三类:
目标Token (Destination/dst tokens): 作为代表性的“锚点”,它们会完整地参与全局注意力计算。源Token (Source/src tokens): 这些是冗余的Token,它们不会直接参与全局注意力计算,而是会被合并到与之最相似的目标Token中。显著Token (Salient tokens): 类似于传统匹配算法中的关键点,这些Token对于建立跨视图对应关系至关重要,因此它们被排除在合并过程之外,直接参与注意力计算以保证重建的稳定性。具体的Token划分和合并流程如下:
参考Token选择 (Reference Token Selection): VGGT将第一帧图像作为整个场景的世界坐标系。因此,第一帧的所有Token都被指定为目标Token,以确保全局空间一致性。显著Token选择 (Salient Token Selection): 为了保留精细的几何细节和全局一致性,FastVGGT采用固定步长采样策略,在每个帧中保留约10%的Token作为显著Token,让它们直接参与注意力计算。均匀Token采样 (Uniform Token Sampling): 在剩余的Token中,采用基于区域的随机采样策略,在每个图像帧内均匀地选择目标Token和源Token,避免在局部区域过度压缩信息。Token合并与解合并 (Token Merging and Unmerging): 在注意力计算之前,每个源Token会根据特征相似度(余弦相似度)找到一个最匹配的目标Token,并通过平均池化与之合并。在注意力计算之后,通过一个确定性的“解合并”操作将结果复制回源Token的位置,从而恢复原始的分辨率以进行后续的密集预测(如深度图生成)。通过这种方式,FastVGGT将全局注意力计算的复杂度从 O(N²) 降低到 O((N/r)²),其中 N 是Token总数,r 是合并比率,从而实现了显著的加速。
研究者们在ScanNet、7-Scenes和NRGBD等多个标准三维重建基准数据集上对FastVGGT进行了广泛评估。
在提出最终方案之前,论文首先验证了直接应用2D领域中常见的Token合并策略(如随机采样和固定步长采样)的效果。
如上表所示,虽然这些简单策略能够减少推理时间,但它们也导致了重建误差(CD,Chamfer Distance)的大幅增加,未能保持VGGT原有的高精度性能。这证明了为三维几何任务设计专门的Token合并策略的必要性。
FastVGGT在处理长序列输入时表现尤为出色。
上表展示了在ScanNet-50数据集上使用不同长度图像序列进行点云重建的结果。可以看到:
对于 1000张 图像的超长序列,原始的VGGT会因内存溢出(OOM)而无法运行(即使是VRAM优化后的VGGT*版本也需要724.6秒)。而FastVGGT仅需 180.7秒,实现了 4倍 的加速,同时重建误差(CD)甚至从0.471降低到了 0.425,这表明该方法还缓解了长序列中的误差累积。在500、300和100张图像的设置下,FastVGGT同样在保持甚至提升精度的同时,带来了显著的速度提升。在NRGBD数据集上的结果也验证了FastVGGT的泛化能力,在不同采样步长下均取得了与基线相当或更好的性能,同时时间开销大幅减少。
相机位姿估计性能除了三维重建,FastVGGT在相机位姿估计任务上也表现优异。
上图直观地比较了FastVGGT和VGGT在ScanNet-50数据集上的相机轨迹估计结果。可以看到,FastVGGT的轨迹(蓝色)与真实轨迹(gt,绿色)的贴合度更高,而VGGT的轨迹(红色)则出现了更明显的漂移。这进一步证明了FastVGGT在处理长序列时的鲁棒性。
消融实验为了验证设计选择的有效性,论文进行了一系列消融研究。
上表展示了不同Token划分策略的效果。结果表明,同时使用参考帧(Reference)和显著Token(Salient)的策略(d)取得了最佳性能,验证了精心设计的划分策略的必要性。
另一组实验探讨了合并比率和合并起始模块的影响。结果显示,采用 90% 的高合并比率,并从第0个模块就开始合并,可以在精度和效率之间取得最佳的平衡。
04 总结与贡献FastVGGT的提出具有重要的实践价值,其主要贡献可以总结为:
首次将Token合并技术引入前馈式视觉几何架构: 论文通过深入分析VGGT的性能瓶颈和注意力冗余,首次成功地将Token合并这一高效技术应用于复杂的三维重建任务。提出一种免训练的高效加速方法: FastVGGT是一个即插即用的加速模块,它不需要任何额外的训练或微调,可以直接应用于预训练好的VGGT模型,极大地降低了使用门槛。实现了显著的性能提升: 在处理1000张图像的长序列时,FastVGGT实现了超过 4倍 的推理加速,同时有效抑制了误差累积,提升了重建质量和位姿估计的鲁棒性。为大规模三维视觉应用铺平道路: 通过解决长序列输入的效率瓶颈,FastVGGT使得基于Transformer的大规模三维重建模型在真实世界应用中变得更加实用。总而言之,FastVGGT为如何扩展和加速三维视觉基础模型提供了一个简单、有效且极具启发性的解决方案,展示了Token合并技术在三维领域的巨大潜力。
来源:极市平台