使得低数据量点监督训练work!西科大推出Sparse

360影视 欧美动漫 2025-04-19 00:54 2

摘要:Sparse Generation提供了一种“non-network”的点监督目标检测新框架,在数据集 MS COCO-val、SIMD、RSOD-aircraft、RSOD-oiltank 上,较先前的SOTA方法,实验结果显示出显著的优势。

论文:

代码:

Sparse Generation提供了一种“non-network”的点监督目标检测新框架,在数据集 MS COCO-val、SIMD、RSOD-aircraft、RSOD-oiltank 上,较先前的SOTA方法,实验结果显示出显著的优势。

点弱监督对象检测的现有伪标签生成方法在低数据量和高密度物体检测任务中不足。此方法将生成弱监督伪标签视为模型的稀疏输出,并提出了一种稀疏生成伪标签的解决方案。该方法采用三个处理阶段(映射、掩码、回归),通过3个稀疏参数得到稀疏的张量,从而间接获得更高质量的伪标签,解决了低数据量时模型的预测密集化问题。此外,提出了基于透视的匹配方法,为预测缺失的实例提供合理的伪标签。

1. 引言

使用点监督的目标检测在最近几年得到了广泛的关注。但是现有点监督目标检测(PSOD)框架,在低数据量下无法有效生成可实用的伪标签。现有方法在低数据量和密集实例检测任务中,容易出现局部聚焦与密集预测结果等问题,此文章认为先前的方法主要存在以下两点问题:

1)使用生成网络的缺点:一些方法如 GroupRCNN、 P2BNet、PLUG使用额外的网络专门负责生成伪标签,本研究发现他们的网络输出在低训练数据量下是一个密集的集合,并容易出现局部聚焦问题。这些问题通常表现为重叠的预测框、在实例上遗漏的预测。使用这些不精确的伪标签进行反复优化,可能无法获得更好的检测性能。此外,使用额外的伪标签生成网络显得冗余,需要消耗更多的计算资源和时间。

2)缺乏对伪标签的直接回归。现有的一些方法采用了匹配/过滤机制来选择或分配伪标签。然而,这些方法缺乏对伪标签的直接学习和回归,并不能充分体现所有预测结果中存在的全局信息。虽然实例的密集预测结果大多不准确,但这些伪标签在一定程度上代表了检测网络的决策趋势。本研究认为,将这些伪框映射到特征空间,并在相对有限的数据量上进行回归,可以产生更合理的伪标签生成结果。

本章从限制点监督目标检测在低数据量下的根源性问题出发,提出了稀疏生成方法,从而减少密集的预测结果和局部聚焦问题带来的影响。稀疏生成采用非网络化思想,对伪标签生成设计了三个处理阶段。在mapping映射阶段中,有效地获得具有空间维度信息的密集伪标签的表示;mask掩模阶段构造一个密集张量映射,尽可能覆盖整个实例,以减少局部聚焦;regression回归阶段从密集分布中计算边界框位置,并对最终的伪框进行细化,从而得到伪标签的稀疏输出。同时,非网络的方法减少了计算资源的消耗。

2. 方法

图1.它采用了非网络的方法和对伪标签的直接回归。在三个处理阶段中,稀疏生成方法通过构造初始张量,优化其 3 个参数,得到稀疏张量,解决模型在低数据量检测中的密集预测问题。此外,透视平均距离匹配(PADM)使用透视规则来匹配缺失的预测框。在点弱监督目标检测中,本研究认为在低数据量及目标密集型检测任务中,来自网络的密集结果输出和局部聚焦问题会极大地影响检测器性能。为了解决局部聚焦的问题,掩模阶段覆盖尽可能多的属于同一实例的伪框,在其各自掩模的范围内得到一个具有热分布特性的边界框分布图。在回归阶段,该算法从之前获得的边界框特征图中计算出伪框的最终边界位置。回归阶段通过对少量的具有完整框标注的标签进行回归,从而细化边界框位置。

为了使伪标签稀疏,首先需要有效地表示边界框的信息和分布情况。在mapping阶段,使用阶梯函数,提出了一种简单的映射方法,这一步骤负责反映密集伪标签的空间维度信息。 为了解决局部聚焦问题,在mask掩模阶段,算法尽可能多的覆盖属于同一实例的伪框,在其各自掩模的范围内得到一个具有热分布特性的边界框分布图。在回归阶段,本算法从之前获得的边界框分布图中计算出实例的最终边框位置。回归阶段将 3 个参数根据少量的完整标注框进行回归,以细化框的边界位置。此外,为了解决在某些实例上的预测缺失问题,提出透视平均距离匹配。使用图像中的透视原理,对每个实例中缺失的预测匹配更合理的伪标签。

2.1.Mapping stage

在所提出的方法中,首先需要少量的监督标注数据来训练基于卷积神经网络(CNN)的检测器的初始模型,以便进行伪标签预测。这些少量的监督标注数据需要整体上满足独立同分布(i.i.d.),确保初始模型能够在有限的标注数据上,学习到数据集各个类别实例的特征表示,一定程度上减轻类别不平衡问题带来的影响。通过初始模型的训练, 检测器在其余所有未标注的图像上生成密集伪标签(Dense Pseudo Labels, DPL),这些伪标签包含了目标在图像中的位置和大小信息。 将这些密集伪标签映射为一个个张量(Tensor)。具体而言,每个张量需要清晰地 体现出伪标签框的尺寸特征,以便算法能够更准确地利用伪标签的空间维度信息。然而,由于此时检测器的预测能力不足,伪标签尺寸可能存在较大的差异,一些超大跨度的伪框可能会对映射后张量的数值分布产生显著影响,从而出现极端值。为了减少这些超大跨度伪框对张量分布的干扰,每个张量被设计为在其中心区域具有较大的数值,而在边缘区域则具有较小的数值。这种设计基于一个直观的假设:目标的中心区域通常包含更多的语义信息,而边缘区域的信息相对较少。通过在张量中心赋予较大的值,可以更准确地反映目标的核心特征,同时通过降低边缘区域的数值,减少超大跨度伪框对张量分布的负面影响。

从检测器得到的伪标签通过一个阶梯函数 S(xi,yi,li)被映射到张量中:

2.2. Mask stage

为了反映每个伪框在特征空间中的相对位置,在整个图像的尺度上,对每个获得的张量 IT 进行零填充操作。将对应图像中同类别数量为 n 的所有填充后张量 IT'求和,得到一个具有热力分布特性的张量 ST:

为了避免不同实例下伪标签框之间的干扰,用掩模张量 MT 覆盖张量 ST。掩模张量的大小由同一图片同类中的平均伪标签框长度 APL 决定,这里需要确保它大于此时处理图像中实例的高度宽度。这里使用平均伪标签框长度的原因是基于同类相邻标签的均匀化趋势的假设,本研究的实验结果也证实了这一策略的有效性。参数 w1、 w2 负责控制 MT 的尺寸(w, h)。对于每一个张量MT中的元素MT(i, j):

所获得的掩模张量 MT 使用点标签标注的坐标(xi yi)来填充到整个图像尺度对应的大小。被填充张量 MTi'与每个张量 STi 做 Hadamard 乘积,得到掩模覆盖后的张量 AMT:

张量 AMT 被分别铺平到两个一维张量 Mx,My 上。Mx 和 My 的列数量分别是 n 和m。对于 Mx 和 My 中的每个元素有:

2.3. Regression Stage

使用参数 R 作为百分比,预测边界框位置(PBL)函数分别在 Mx 和 My 张量上计算边界框的位置。 然后,将点标注的信息与预测边界框位置(PBL)函数预测的结果相结合,得到单个实例的伪标签。随后,算法将基于有限数量的完整框监督标注数据对参数进行优化。 其损失函数 Loss 定义为:

2.4. Perspective average distance matching

当完整框标注数据量有限时,检测器在某些实例上可能会出现预测缺失现象,即无法为某些实例生成对应的伪框,这会导致检测器的性能显著下降。基于透视原理,提出了一种利用已被预测出的伪标签来指导未被预测实例的伪框匹配方法,从而弥补因数据量不足导致的预测缺失问题。具体而言,该方法根据点标注的位置将伪框分成上间隙区域、下间隙区域。在一个具体的图像中,上间隙和下间隙区域中伪框对应的点标签位置范围,被限制在 y 轴方向上 40 个像素间隔内。具体地,上间隙区域包含图像中最顶部点标注位置向下 40 个像素内的点标签所对应的伪框,下间隙区域包含图像中最底部点标记位置向上 40 个像素内的点标签所对应的伪框。分别计算间隔距离为 d 的上间隙区域和下间隔区域中伪框的平均大小 avegu 和 avegd,使用透视原理匹配每个点标记位置 yi 对应的伪框宽度和高度。将上间隙区域的平均伪框大小 avegu,和下间隙区的平均伪框大小 avegd 之间的平均变化量作为梯度 g,认为其可以代表伪框在图像中的大小 lenthi 的分布:

3. EXPERIMENTS

为了全面评估稀疏生成在低数据量下的性能,我们选择了四个数据集:MS COCO val set(5000张图像)、RSOD、SIMD和一个自建的Bullet Hole数据集。选择经典的 YOLOV5s来代表基于 CNN 架构网络的检测器。在 4 个数据集:自建弹孔数据集 Bullet-Hole、MS COCO、RSOD、SIMD 上, 从监督框标注中选择标注框中心到其边框长度距离 20%范围内的随机点,作为点标签数据。使用利用单卡 RTX4070 GPU 对随机选择的少量图像进行完整框标注的监督训练, 得到一个预训练模型,利用该模型对整个数据集的图像进行预测,获得密集伪标签 (DPL)。将点标签和密集伪标签(DPL)输入稀疏生成方法,获得稀疏伪标签(SPL)。 然后用得到的稀疏伪标签对检测器进行训练,得到训练结果。方法分别在 AMD Ryzen5500 CPU 和单卡 RTX4070 GPU 上运行了实验。所有实验均采用了训练集与验证集 10:1 的划分比例,对训练和验证数据进行随机抽样。所有的实验结果都采用了多次训练结果的平均值。P2BNet、GroupRCNN和PLUG分别使用他们的官方设置分别进行 12、24 和 12 轮的训练,所提出的方法只训练了 1 轮。使用每种方法生成的伪标签,训练 Yolov5s,直到其 mAP 指标不再提升为止。

5 结论

本文分析了以往方法在低数据量点弱监督目标检测任务中的缺点。使用基于 CNN 的网络专门生成伪标签,其输出结果仍将是一个相对密集的集合,且容易出现局部聚焦问题。使用这些伪标签子集作为模型训练的监督,会降低模型的性能。提出了一种非网络化的伪标签稀疏性方法,它只有三个参数,只需训练一轮就能获得较好的点弱监督目标检测性能。

来源:热情的菠萝g2

相关推荐