摘要:在计算机视觉领域,显著对象检测(SOD)任务已经取得了显著进展,旨在识别和分割图像中最视觉突出的对象。然而,一个更具挑战性的任务是显著对象排名检测(SRD),它不仅要求识别显著对象,还需要根据它们的显著程度进行排名。现有的SRD数据集大多基于鼠标轨迹数据构建,
Advancing Saliency Ranking with Human Fixations: Dataset, Models and Benchmarks
基于人类注视点的显著对象排名研究进展:数据集、模型与基准
研究背景
在计算机视觉领域,显著对象检测(SOD)任务已经取得了显著进展,旨在识别和分割图像中最视觉突出的对象。然而,一个更具挑战性的任务是显著对象排名检测(SRD),它不仅要求识别显著对象,还需要根据它们的显著程度进行排名。现有的SRD数据集大多基于鼠标轨迹数据构建,这种方式不足以准确捕捉人类视觉感知的复杂性。
研究意义
本研究提出了基于人类真实注视点的SRD数据集(SIFR),并使用该数据集来训练和评估模型,以更贴近真实的视觉注意过程。此外,研究还提出了一种新的模型QAGNet,该模型利用查询特征在嵌套图中进行显著对象排名,为SRD任务提供了强大的基线方法。这一研究不仅有助于推动SRD领域的发展,还能为图像标注、图像裁剪和自动驾驶等下游任务提供更有价值的信息。
文献综述
显著对象检测(SOD):SOD任务旨在突出显示场景中最视觉上有趣或重要的对象。现有的方法主要依赖于深度学习模型,并取得了显著成果。然而,这些方法通常不区分不同显著对象的重要性。
显著对象排名检测(SRD):SRD任务在SOD的基础上进一步要求对显著对象进行排名。现有的SRD数据集大多基于鼠标轨迹数据构建,这存在多种问题,如鼠标动作受自愿控制、与眼动在不同参考框架中处理等。此外,这些方法往往只考虑高度显著的对象,忽略了显著性较低的对象。
相关数据集:现有的SRD数据集如ASSR、IRSR和COCO-SalRank均存在局限性,如场景复杂度不足、显著对象数量有限或标注不准确等。
具体方法
数据集构建:
图像选择:从MS-COCO数据集中选择包含至少三个前景对象的图像。
注视点记录与过滤:使用眼动追踪系统记录参与者的自由观看行为,并通过速度基方法将注视点分组为注视事件,同时过滤掉持续时间较短的注视点和首次注视点。
显著对象阈值与标注:结合现有MS-COCO标注、Mask R-CNN和人工标注来识别和标注显著对象,确保每个显著对象都具有高质量的标注。
模型提出(QAGNet):
多尺度显著实例查询提取(SQE):从图像中提取多尺度特征图,并通过transformer解码器生成显著实例查询特征。
QAGNet架构:利用查询特征在嵌套图中进行显著对象排名。嵌套图包括单尺度图(SSG)、多尺度图(MSG)和全局关系图(GRG),通过代表性聚合(RA)和代表性反馈(RF)阶段逐步精炼和聚合特征。
排名预测:最终的特征表示被送入排名头,预测每个显著对象的相对显著性排名分数。
ASSR和IRSR数据集的局限性
内容:图2通过具体例子展示了ASSR和IRSR数据集中存在的问题,如显著对象的缺失、合并错误或注释错误。关键点:显著对象的缺失:在某些场景中,关键显著对象(如广告牌和屏幕)未被注释。对象的合并:不同显著对象可能被错误地合并为一个对象并赋予相同的显著排名。注释错误:某些不显著的对象可能被错误地注释为显著对象。三个SRD数据集的数值比较
内容:图3通过柱状图和折线图展示了SIFR、ASSR和IRSR三个数据集在图像数量、实例数量、每幅图像中的显著实例数量以及实例尺度等方面的统计比较。关键点:图像和实例数量:SIFR数据集包含最多的图像和实例数量。显著实例数量:SIFR数据集中每幅图像平均包含更多的显著实例。实例尺度:SIFR数据集中包含更多小尺度实例,可能给SRD模型带来更大的挑战。SIFR数据集的示例
内容:图4展示了SIFR数据集中的三个示例图像,包括注视点图、多边形注释和真值图。关键点:注视点图:通过颜色编码的注视点表示观察者对图像中不同区域的注视时间。多边形注释:对每个显著实例进行实例级多边形注释。真值图:根据注视点数量对显著对象进行排名,并分配不同的显著值。QAGNet架构
内容:图5展示了提出的QAGNet(查询作为图网络)的整体架构和详细结构。关键点:多尺度显著实例查询提取(SQE):从输入图像中提取多尺度特征图,并通过变压器解码器生成显著实例查询。QAG层:通过构建三级嵌套图(单尺度图、多尺度图和全局关系图)来捕捉每个显著实例的排名感知特征。排名头:最终的特征表示被输入到排名头中,以预测所有显著实例的相对显著排名分数。这些图像通过直观的方式展示了SIFR数据集的特点、与其他数据集的比较、数据集的示例以及提出的QAGNet模型的架构,有助于理解论文的核心内容和贡献。
描述:
图6展示了QAGNet中使用的三层嵌套图结构,包括单尺度图(SSG)、多尺度图(MSG)和全局关系图(GRG)。
意义:
这种三层嵌套图结构使得QAGNet能够捕捉到每个显著实例的多尺度特征以及它们之间的关系,从而更准确地进行显著性排名。
公式7描述了全局关系图(GRG)节点的更新过程。它将所有多尺度图(MSG)代表节点z 1,···,z N作为输入,在全局关系图的上下文中通过GNN层更新这些节点,得到最终的排名感知实例代表ˆz 1,···,ˆz N。
描述:
图7展示了QAGNet与其他SRD方法在提出的数据集上的定性比较结果。
意义:
定性比较结果证明了QAGNet在处理复杂场景和生成高质量显著性排名图方面的有效性。
来源:PaperBot