摘要:长久以来,我们使用相机捕捉世界的瞬间,无论拍摄的是简单的白墙还是繁忙的街景,每张照片在计算机看来都被强制转换为相同长度的数据表示。这就像是无论你要记录一个简单的购物清单还是整部战争与和平,都被要求使用恰好100个单词一样不合理。加州大学圣地亚哥分校、加州大学伯
这篇发表于arXiv预印本平台(arXiv:2506.03643v2)的研究由林俊毛(Lingjun Mao)、Rodolfo Corona、Xin Liang、严文浩(Wenhao Yan)和唐子能(Zineng Tang)共同完成,他们开发的动态视觉编码器DOVE(Dynamic Output Vision Encoder)能够根据图像的复杂度生成长短不一的表示序列。想象一下,一张简单的白墙照片可能只需要20个"视觉单词"就能描述清楚,而一个杂乱的客厅可能需要150个"视觉单词"才能准确表达。DOVE正是这样工作的,它根据图像的复杂性动态调整表示长度,就像我们在日常生活中,描述简单事物用简短语句,描述复杂事物则需要更详细的解释。
在视觉表示学习领域,现有的方法大多会将图像转换为固定长度的序列,这就像是强制每个人无论说什么内容都必须使用相同数量的单词。研究团队指出,这种做法忽略了一个基本事实:不同图像包含的信息量是不同的。例如,一个杂乱的房间(比如你忘记打扫的卧室)天然比一面空白的墙包含更多的视觉信息,因此理应使用更多的表示单元来描述。
DOVE的核心创新在于它能够生成"结束符号"(EOS,就像句子结束时的句号),在表示序列中的任何位置终止输出。系统会在训练过程中同时优化图像重建质量和EOS标记的预测,根据重建误差动态决定需要多少个表示单元。当系统认为已经捕捉到足够的图像信息时,就会生成EOS标记,从而产生长度可变的表示序列。
研究结果令人惊喜。与固定长度的表示方法相比,DOVE能够在使用更少表示单元的同时,保持甚至提高图像重建质量。在分类、问答等下游任务中,DOVE明显优于其他自编码器方法,即使使用远少于对手的表示单元也能表现出更强的语义理解能力。
此外,研究团队还开发了DOVE的一个变种——Q-DOVE,它能够根据文本查询生成条件化的表示。想象你问"图中有几个人?",Q-DOVE会集中精力表示图像中与人相关的区域,忽略背景中的无关细节。这种查询条件化的表示进一步提高了表示效率,平均可以节省68%的表示单元,同时展现出更强的语义理解能力。
一、DOVE:动态视觉编码器的工作原理
想象你是一位专业摄影师,需要描述不同场景的照片。对于一张简单的蓝天白云照片,你可能只需几句话就能描述清楚;而对于一张繁忙的城市街景,则需要更多细节和描述。DOVE系统正是基于这样的直觉设计的——复杂图像需要更多的"描述词",简单图像只需少量"描述词"。
DOVE的架构由四个主要组件构成:VQGAN编码器、变换器(Transformer)动态标记生成器、变换器标记解码器和VQGAN解码器。整个过程像是一条信息处理流水线,让我们用做菜的过程来理解它:
首先,VQGAN编码器就像厨师初步处理食材,它将原始图像转换为初步的表示序列。接着,时间编码(就像菜谱中的步骤编号)被添加到这些表示中。然后,动态标记生成器(相当于主厨)开始工作,它能够根据当前已经生成的信息决定是否继续添加更多细节,或者认为"菜已经做好了"并生成一个"结束"标记。最后,标记解码器和VQGAN解码器(像是装盘和最终调味)将这些表示转回为可视图像。
系统通过联合训练方式优化两个关键目标:图像重建质量和动态长度控制。图像重建使用均方误差、感知损失和轻量级对抗性损失的组合,确保重建图像既准确又自然。动态长度控制则通过比较当前重建损失与平均重建损失来实现:如果当前损失较高(意味着需要更多表示单元来改善重建),系统会推迟生成EOS标记;如果损失已经较低(表明当前表示单元已足够),系统则会鼓励生成EOS标记。
这种自适应机制使DOVE能够智能地分配计算资源——为复杂图像提供更多表示单元,为简单图像分配较少单元。研究团队发现,大多数图像的表示长度都小于100个单元,只有极少数复杂图像需要接近最大限制的256个单元。这意味着平均而言,DOVE能够显著减少处理图像所需的计算资源,同时保持甚至提升表示质量。
二、查询条件化:让AI"看"得更有重点
人类视觉是一个主动的、任务驱动的过程。当我们试图回答"桌子上有几个苹果?"这样的问题时,我们会自然地将注意力集中在桌子区域,而忽略图像中的其他部分。基于这种人类视觉系统的特性,研究团队开发了DOVE的查询条件化变体——Q-DOVE。
Q-DOVE接受文本查询作为输入,并学习将重建注意力集中在与查询相关的图像区域。这就像是在告诉系统:"嘿,看看这个特定区域,这里有你需要回答问题的关键信息。"在训练过程中,Q-DOVE学习使用更多资源表示查询相关区域,同时对无关区域使用更少资源。
具体来说,Q-DOVE在训练时接收图像、文本查询和与答案相关的边界框数据。系统会增加对边界框内区域重建质量的权重,同时大幅降低对框外区域的重建要求。这种有针对性的训练策略使Q-DOVE能够进一步减少生成的表示单元数量,平均可以节省约68%的单元,同时在下游视觉-语言任务中展现出更强的性能。
值得注意的是,Q-DOVE在推理时只需要图像和查询文本,不需要边界框信息。这意味着它已经学会了如何根据查询自动找到图像中的相关区域——就像我们人类在回答问题时自然而然地将注意力集中在相关视觉区域一样。
三、实验结果:更少的信息单元,更好的理解能力
研究团队在多个层面评估了DOVE的性能,包括重建质量、表示长度分布以及在下游视觉语言任务中的有效性。结果显示,DOVE不仅能够显著减少表示单元数量,还能捕获更丰富的语义信息。
在图像重建质量方面,随着表示单元数量的增加,DOVE的重建质量稳步提升。即使在使用相对较少的表示单元时(如32或64个),DOVE也能产生结构上和语义上较为忠实的重建结果。这与另一种动态视觉编码器ALIT形成鲜明对比,后者在低表示单元数量时会产生严重的对象变形。例如,当表示单元限制为32个时,ALIT重建的变色龙和甲虫会出现明显的变形,而DOVE则能保持结构完整性,只是细节略显模糊。
在分类任务中,DOVE作为一个现成的、冻结的骨干网络在CIFAR-100、ImageNet-100和STL-10等三个标准识别基准上进行了评估。研究发现,随着表示单元数量的增加,DOVE和ALIT的分类准确率都稳步提升。然而,DOVE始终以显著优势超越所有其他视觉表示方法。即使仅使用32个表示单元,DOVE也能实现比所有竞争方法更高的分类准确率。研究团队将这一优势归因于DOVE的动态重建训练目标,这使模型能够在表示学习过程中捕获额外的语义信息。
在视觉问答评估中,研究人员将不同的视觉编码器集成到视觉语言模型中,并在多个基准测试上评估它们的性能。结果显示,配备DOVE的视觉语言模型在所有数据集上显著优于其他模型,而集成Q-DOVE则进一步提高了准确率。通过利用DOVE的EOS标记作为截断点,系统能够在保持与完整256个表示单元相当的性能的同时,大幅减少表示单元数量。对于Q-DOVE,研究者尝试了两种输入策略:提供实际问题或直接输入"null"。虽然"null"设置在性能上略优于问题引导策略,但问题引导策略能够在保持相当准确率的同时进一步减少表示单元长度。
此外,研究团队还对模型的推理时间和浮点运算量进行了测量。结果表明,DOVE和ALIT都能通过缩短视觉表示序列长度有效减少浮点运算量。然而,由于ALIT使用循环蒸馏(通过对VQGAN标记进行多次传递生成动态标记),其推理速度受到不利影响,尽管序列长度减少。相比之下,DOVE依靠单次前向传递,因此推理速度更快。
四、语义的自然浮现:意外的发现
通过之前的实验,研究团队观察到DOVE生成的视觉表示在分类和下游多模态任务中显著优于固定长度的自编码器表示方法。在本节中,他们进一步探索了这种语义涌现现象。
研究者通过对模型隐藏层而非生成的视觉标记进行线性探测,评估了学习表示的质量。他们在七个基准数据集上比较了DOVE、Q-DOVE和其他固定长度自编码器表示方法:CIFAR-10、CIFAR-100、DTD(可描述纹理数据集)、FGVC(细粒度视觉分类)、Food101、STL-10和SUN397。对于Q-DOVE,他们将所有文本查询设置为"null"以模拟无条件设置。
结果表明,DOVE在所有数据集上以大幅优势持续超越其他方法,而Q-DOVE则进一步提高了DOVE的性能。为了深入了解学习表示的结构,研究者应用主成分分析(PCA)进行降维并在图像空间中可视化结果。如图8所示,与VQGAN相比,DOVE产生了语义上更连贯的分割,而Q-DOVE则展现出更强的语义对齐和清晰度。
这种语义的自然浮现令人惊讶,因为DOVE原本只是被设计用来根据图像复杂性生成变长表示的。研究团队推测,这可能是因为动态长度训练迫使模型更加高效地编码语义信息,从而学习到了更有意义的表示结构。简单来说,当系统被要求"精打细算"地使用表示单元时,它学会了更聪明地组织信息,自然地形成了更有语义意义的结构。
五、相关工作与DOVE的创新点
在深入了解DOVE的工作原理和实验结果后,我们来看看它与现有研究的关系,以及它带来的独特创新。
图像表示学习是计算机视觉的基础,现有的方法大致分为两类:语义特征学习(如CLIP、DINO)和基于自编码器的图像标记化(如VQGAN、VAE)。这些方法都旨在生成固定长度的序列。然而,研究表明视觉标记存在信息冗余问题。DOVE团队推测,不同图像具有不同的复杂度,因此可以用不同长度的标记序列进行重建。
与标记剪枝和压缩方法不同,这些方法通过在变换器层之间迭代减少要处理的标记集来降低计算成本,DOVE产生可变数量的标记,允许它直接集成到模型预训练和微调流程中。另一些工作通过在输入级别压缩标记集来降低计算成本。Perceiver架构使用变换器将输入标记压缩为更小的固定潜在标记集。类似地,TiTok将图像块压缩为小型潜在标记集,然后量化用于图像重建或其他下游任务。
与DOVE最接近的是ALIT,它使用循环过程将2D标记蒸馏为1D潜在标记集。虽然这种迭代过程允许图像以可变数量的标记表示,但这只是通过事后分析证明的,ALIT并未提出在推理时动态确定表示图像所需标记数量的自动方法。DOVE的关键创新之一是使用动态EOS预测机制,该机制在推理时用于根据图像和下游任务复杂性生成每个图像的可变长度标记序列。DOVE使用并行变换器前向传递生成可变数量的标记,这比ALIT的循环公式更高效。
六、结论与未来展望
DOVE代表了视觉表示学习的一个重要进步。通过根据图像复杂性动态生成可变长度的标记序列,它解决了固定长度表示方法中的效率和语义理解问题。研究结果表明,DOVE不仅能够显著减少处理图像所需的计算资源,还能捕获更丰富的语义信息,在分类和视觉语言任务中展现出强大的性能。
从更广泛的角度来看,DOVE的设计理念反映了一个更为普遍的趋势:计算系统应该适应内容的复杂性,而不是强制内容适应系统的固定结构。就像人类在描述简单和复杂场景时自然地使用不同长度的描述一样,AI系统也应该具备这种灵活性。
查询条件化变体Q-DOVE进一步扩展了这一理念,通过根据用户查询动态调整图像表示,实现了更高效、更有针对性的视觉语义提取。这种方法不仅提高了计算效率,还增强了系统理解用户意图的能力,为更自然、更智能的人机交互奠定了基础。
未来的研究方向可能包括将DOVE的动态表示理念扩展到其他模态,如音频和视频;探索更复杂的条件化策略,使系统能够根据更广泛的上下文信息调整表示;以及研究如何将DOVE集成到更大规模的多模态系统中,以提高整体效率和性能。
值得一提的是,这项研究成果的代码和检查点已在https://dove-encoder.github.io/dove-encoder开放获取,这将有助于社区进一步探索和扩展这一创新技术。对于那些对计算机视觉和多模态学习感兴趣的研究者和开发者来说,DOVE提供了一个有价值的新工具,帮助他们构建更高效、更智能的视觉理解系统。
来源:至顶网一点号