摘要:与以往基于CNN与有限目标类型的Re-ID综述不同,来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于Transformer在Re-ID中日益增长的应用研究,深入分析Transformer的优势所在,总结了Transformer在四个广泛研究
作者丨新智元
来源丨新智元
编辑丨极市平台
目标重识别(Object Re-identification,简称Re-ID)旨在跨不同时间和场景识别特定对象。
近年来,基于Transformer的Re-ID改变了该领域长期由卷积神经网络(CNN)主导的格局,不断刷新性能记录,取得重大突破。
与以往基于CNN与有限目标类型的Re-ID综述不同,来自武汉大学、中山大学以及印第安纳大学的研究人员全面回顾了近年来关于Transformer在Re-ID中日益增长的应用研究,深入分析Transformer的优势所在,总结了Transformer在四个广泛研究的Re-ID方向上的应用,同时将动物加入Re-ID目标类型,揭示Transformer架构在动物Re-ID应用的巨大潜力。
论文地址:http://arxiv.org/abs/2401.06960
项目地址:https://github.com/mangye16/ReID-Survey
Transformer架构方法打破CNN架构性能记录
Transformer以优异性能满足各种Re-ID任务的需求,提供一种强大、灵活且统一的解决方案。
研究人员将现有工作分类为基于图像/视频的Re-ID、数据/标注受限的Re-ID、跨模态Re-ID及特殊Re-ID场景,详细阐述Transformer在应对这些领域中各种挑战时所展现的优势。
考虑到无监督Re-ID的流行趋势,研究人员提出了新的Transformer基线——UntransReID,在单模态/跨模态任务实现最先进性能。
一般的Re-ID流程
针对尚未被充分探索的动物Re-ID领域,研究人员还设计了标准化的基准测试,进行广泛的实验以探讨Transformer在这一任务中的适用性,促进未来研究。最后,讨论了一些在大模型时代中重要但尚未深入研究的开放性问题。
Transformer在backbone层依靠注意力机制,具有全局、局部和时空关系的通用建模能力,有助于在图像/视频Re-ID任务中轻松提取全局、细粒度和时空信息。
Transformer在图像Re-ID的应用
架构优化:设计特殊的Transformer架构,如金字塔结构、层次聚合等,或改进注意力机制。Re-ID特定设计:利用视觉Transformer具备注意力机制和图像块嵌入的特性,捕捉局部区分性信息。通过Transformer中的编码器-解码器结构实现某些关键信息的解耦。根据不同目标类型的结构先验和任务特性进行Transformer架构设计。图像Re-ID方法设计的不同Transformer架构
应用Transformer进行后处理:许多应用Transformer的视频Re-ID方法为混合架构,先利用CNN模型提取特征,再使用Transformer模型进一步处理。通过Transformer的自注意力机制,捕捉序列中的长期依赖关系和上下文信息。纯Transformer架构:为克服混合架构中CNN导致的长距离信息获取受限,一些研究尝试探索纯Transformer架构在视频Re-ID中的应用。Transformer为无监督学习提供更多可能。Transformer能够对更强大、更通用的模型进行广泛自监督预训练,以应对数据或标注受限的Re-ID任务。标注受限场景通常采取无监督Re-ID,而数据受限则主要通过领域泛化Re-ID解决。
自监督预训练:一类针对无监督Re-ID中Transformer应用的研究关注自监督预训练。Transformer模型对大规模无标签数据具有强大可扩展性,其结构的灵活性提供了更多样化的自监督范式。无监督领域自适应:Transformer在无监督领域自适应(UDA)问题中受到的关注有限。对于行人Re-ID,Wang等人借助Transformer实现不同身体部位之间的细粒度领域对齐。对于车辆Re-ID,一项工作通过联合训练策略,令Transformer自适应地关注每个域中车辆的判别部分。Transformer提供了统一的架构,有效处理不同模态的数据。多头注意力机制可在各种特征空间和全局语境中聚合特征。高度适应性的编码器-解码器结构可容纳不同类型的输入和输出。因此Transformer特别适合在跨模态Re-ID中建立模态间关联,促进多模态信息的融合。
可见光-红外Re-ID旨在匹配白天的可见光图像与夜间的红外图像。因红外图像缺乏颜色与光照条件,视觉Transformer可更好地捕捉模态不变特征并具备更强的鲁棒性。视觉Transformer的结构及其注意力机制可在patch级别轻松建立局部跨模态关联。现有可见光-红外Re-ID方法聚焦于学习模态共享特征,将特征分解为模态特定特征和共享模态特征,在特征层面进行模态对齐。
文本-图像Re-ID为跨模态检索任务,根据文本描述在图像库中识别目标。作为Transformer架构在多模态应用中的里程碑,对比语言-图像预训练(CLIP)等大型多模态预训练模型使该领域取得显著进展。近期,CLIP已成为下游文本-图像Re-ID任务中的有力工具。
素描-图像Re-ID与骨架Re-ID均属于跨模态匹配任务,前者基于艺术家或业余者绘制的素描,后者则基于姿态估计生成的骨架图。Transformer擅长提取全局特征,在素描-图像Re-ID中表现突出。对于骨架Re-ID,可利用Transformer对骨架点构成的图结构进行全关系建模。
在实际应用需求的推动下,Re-ID领域出现一系列特殊应用场景。Transformer被初步应用于这些复杂挑战,体现了卓越的可扩展性和适应性。
遮挡Re-ID: 遮挡Re-ID场景下,图片中的识别目标被部分遮挡,导致身份信息难以完整提取。近年来基于Transformer的方法在这一场景取得显著成效,其核心策略包括提取局部区域特征。
换衣Re-ID: 在长期Re-ID场景中,行人可能会以未知方式更换衣物,以服装外观为主导的判别性特征表示将失效。Lee等人在换装Re-ID场景下对不同的特征提取主干网络进行评估,Transformer架构相较于CNN表现出显著性能优势。
以人为中心的任务: 以人为中心的通用模型旨在将包括行人检测、姿态估计、属性识别和人体解析在内的多个人体相关任务整合到同一框架中,从而相互促进,提升如Re-ID这类下游任务的性能。
行人检索: 行人检索是一种端到端方法,通过多任务学习同时解决行人检测与Re-ID这两个目标冲突的问题。将多尺度Transformer架构引入行人检索方案可实现查询层面的实例级匹配。
群体Re-ID: 群体Re-ID利用群体中的上下文信息来匹配在同一个群体中的个体,面临群体成员变动与布局变化等挑战。传统方法在位置建模方面存在不足,利用Transformer的位置嵌入机制可更好地处理群体级别的布局特性。
无人机Re-ID: 与固定摄像头相比,无人机在高度与视角上快速变化,导致图像更为复杂。在鸟瞰图像中分析车辆与行人时,显著的边界框尺寸差异与物体方向不确定性是关键挑战。除了纯无人机视角Re-ID外,还有研究重点关注空中与地面视角的跨域匹配。
特殊Re-ID场景
研究人员提出了一个单模态/跨模态的常规无监督Re-ID基线UntransReID。
无监督Re-ID基线UntransReID
单模态无监督Re-ID: 研究人员在无监督训练过程中设计了一种面向patch级别的mask增强策略。在数据增强过程中采用一系列learnable tokens来mask部分图像patch,并在训练过程中建立原始特征与掩码特征之间的对应关系,将此作为监督信号来引导模型学习。
跨模态无监督Re-ID: 针对可见光-红外跨模态行人Re-ID,研究人员设计了一种双流Transformer结构,包含两个面向特定模态的patch嵌入层以及一个模态共享的Transformer。为进一步提升模态的泛化能力,在可见光通道中引入随机通道增强作为额外的输入,实现联合训练。
实验结果分析: 对于单模态无监督Re-ID,UntransReID取得了与当前最先进方法相当的性能。跨模态Re-ID现有先进方法大多基于CNN且需要复杂的跨模态关联设计,UntransReID在多个可见光-红外Re-ID数据集上凭借简洁的设计实现了最先进的性能。
表1 基于CNN/Transformer的有监督/无监督方法的实验结果
表2 可见光-红外跨模态基线在RegDB和SYSU-MM01上的实验结果
动物Re-ID研究人员特别探讨了动物Re-ID领域研究现状,总结近年来的动物Re-ID数据集和基于深度学习的动物Re-ID方法,为动物Re-ID制定统一的实验标准,并评估在此背景下使用Transformer的可行性,为未来的研究奠定坚实基础。
近年来的动物Re-ID数据集
基于全局图像的方法: 许多现有研究借鉴行人Re-ID的传统方法,将完整的动物图像输入深度神经网络以获取可靠的特征表示。
基于局部区域的方法: 一些工作在数据采集与特征提取阶段关注动物的关键部位,例如牛的头部、大象耳朵、鲸鱼尾巴以及海豚的鳍等。
基于辅助信息的方法: Zhang等人以牦牛头部左右朝向的简化姿态为辅助监督信号,强化特征表示;Li等人借助姿态关键点估计将老虎图像划分为多个身体部位进行局部特征学习。
研究人员使用多种先进的通用Re-ID方法进行了广泛动物Re-ID实验。实验评估了基于CNN架构的BoT方法和基于Transformer架构的TransReID、RotTrans方法。基于Transformer架构的方法在多数情形下表现更优,本实验证明了Transformer在动物Re-ID应用的可行性与巨大潜力。
最先进的Re-ID方法在多个动物数据集上的评估结果
将大语言模型(LLM)与Re-ID任务深度融合正成为热门研究方向。通过生成或理解视觉数据的文本描述,LLM可在细粒度语义提取、无标记数据的利用以及模型泛化能力提升等方面为Re-ID提供有力支持。
满足多模态、多目标的实际应用场景是Re-ID未来的重要诉求。Transformer在多模态数据融合和大模型训练中表现出突出能力,可用于同时处理视觉、文本乃至更多元的信息,从而建立模态无关、任务统一的通用Re-ID模型。
视频监控、智能安防等场景要求实时性与轻量级部署,在保持Transformer鲁棒性的同时需要减少计算开销。有效迁移通用预训练模型的知识到特定Re-ID任务,应对大规模动态更新中的灾难性遗忘问题,这些也是未来亟待解决的课题。
来源:极市平台