打破单一视角!融合红外和可见光,YOLO算法实现全天候无人机检测

360影视 国产动漫 2025-04-08 09:12 1

摘要:无人机或无人驾驶飞行器传统上用于军事任务、战争和间谍活动。然而,由于涉及安全和检查、转运、研究目的和娱乐性无人机飞行的多种工业应用,无人机的使用量大幅增加。公共场所无人机活动量的增加要求采取监管行动,以保护隐私和安全。因此,对非法无人机活动(如侵占边界)的检测

论文题目:Drone Detection and Tracking with YOLO and a Rule-based Method

论文链接:https://arxiv.org/pdf/2502.05292

摘要

无人机或无人驾驶飞行器传统上用于军事任务、战争和间谍活动。然而,由于涉及安全和检查、转运、研究目的和娱乐性无人机飞行的多种工业应用,无人机的使用量大幅增加。公共场所无人机活动量的增加要求采取监管行动,以保护隐私和安全。因此,对非法无人机活动(如侵占边界)的检测就变得十分必要。这类检测任务通常由深度学习模型自动完成,而深度学习模型是在有注释的图像数据集上训练出来的。本文以之前的工作为基础,扩展了一个已发布的开源数据集。本文对整个数据集进行了描述和分析。该数据集用于训练YOLOv7深度学习模型及其一些次要变体,并提供了结果。由于检测模型基于单一图像输入,因此使用了一个简单的基于交叉相关的跟踪器,以减少视频中的检测下降并提高跟踪性能。最后,对整个无人机检测系统进行了总结。

系统概述

本节将介绍图1所示的系统概述。放置在5G室外网络覆盖的校园区域内的摄像头会记录飞行中的无人机,并将拍摄到的视频流传输到室内网络。然后,计算机接收传输,并运行无人机检测算法。检测结束后,计算机可显示检测结果或将其进一步传输到另一台机器。为了发送或接收视频,使用了GStreamer多媒体应用框架。构建的GStreamer流水线主要包括通过UDP发送和接收数据、处理和转换、编码和解码以及缓冲。接收到的数据流由Docker容器中定制的预训练YOLOv7模型处理,该容器内置了支持GStreamer的Python OpenCV。最后,显示结果。

数据集

为了创建数据集,我们使用三个不同的摄像头录制了无人机飞行视频,然后通过各种方法提取帧并对其进行标注。以下各小节简要介绍了这一过程。

视频记录

原始数据集是使用FLIR Scion OTM366红外摄像机和配备变焦镜头(25-150毫米)的InfraTec VarioCAM HD Z(图像分辨率分别为640×480像素和1024×768像素)在大学足球场和威廉斯堡港口拍摄的无人机视频构建的。在上述地点用索尼α6000摄像机录制彩色视频,图像分辨率为1920×1080像素。最初的视频是由每台摄像机从多个角度独立录制的,有些视频是在不同的日子录制的。

最后,将所有摄像机安装在一个可转向的三脚架上,在海港录制额外的视频。与最初录制的视频相比,新视频包含了更多的背景信息,而且所有摄像机在录制无人机时的视角都非常相似。图2显示了摄像机拍摄的一些示例图像。图3显示了三脚架上的相机设置。图4也显示了各个地点的图像示例。

数据集标注

LabelImg图形标注工具用于人工标注从视频记录中提取的彩色图像中的无人机。注释采用Pascal VOC格式。使用基于简单边界框跟踪方法的自动注释脚本来加速注释过程,然后对错误的检测结果进行人工修正。对于难以发现的无人机,要么不予标注,要么标注为困难示例。在对初始红外和彩色数据集进行人工标注后,将使用基础YOLO模型对其进行训练。

训练好的模型将用于在使用FLIR红外和彩色图像构建的第二个数据集中检测无人机。根据检测结果生成初始注释,并手动纠正错误注释。由于特征匹配被证明非常具有挑战性且不一致,因此自动配准方法效果不佳。取而代之的是根据多次试验手动生成一个变换矩阵,然后对无人机周围的小局部区域进行更简单的基于交叉相关的匹配。当配准结果不佳时,图像对将被丢弃。在多通道图像中,图像对中的背景会相互偏移,但对于单类分类任务来说,这种问题的影响应该较小。

数据集分析

之前的数据集已包含66,438张图像和71,520架注释无人机。在2,617幅图像中没有无人机。在10,130个案例中,注释的无人机被标记为难以辨认,因为它几乎无法与背景地面区分开来,或者大部分在图像之外。使用红外图像制作的数据集最初分为普通图像和困难图像,具体取决于由于杂波、遮挡或严重模糊而导致的无人机可见度。在这项工作中,选择了相对容易的图像,在这些图像中,肉眼基本可以看到无人机。但值得注意的是,正常图像集中确实包含大量具有挑战性的图像,这些图像中无人机被部分遮挡/模糊,或者无人机与背景之间的对比度不大。此外,由于部分图像模糊或无人机非常小,模型训练过程中使用的最终图像总数会进一步减少。

彩色图像数据集共包含37,508张图片,其中有37,842架注释过的无人机。在这种情况下,无人机难以察觉的情况根本不会被标注。所有图像都用于训练模型。

最后,从港口的最终记录中生成的附加数据集包括40059张红外图像和彩色图像。不过,这个数据集并不用于训练任何模型。相反,我们尝试根据预先训练好的模型的检测结果对红外图像和彩色图像进行配准,这样无人机的位置就能相对吻合,图像也能合并为4通道图像数据。由于红外图像和彩色图像的特征以及图像质量不同,传统的图像处理和配准算法无法可靠地找到正确的变换和投影。由于三脚架上的相机在跟踪无人机时的同步不完美和相对移动幅度较小,手动配准图像的尝试也变得十分困难。这导致大多数图像的背景不匹配。表 I 提供了所有数据集的概览。

图5和图6分别显示了红外图像和彩色图像单个像素上用于训练的注释无人机平均位置热图。热图中的黑色像素代表无人机未到达的位置。从图5中可以看出,与边界相比,无人机的平均位置在图像中心附近更为突出,这主要是由于手持式FLIR摄像机能够舒适地跟踪无人机。无人机出现在边界附近的原因是InfraTec摄像机较重,难以以所需的速度转向。最小边界框的大小为128像素,最大边界框的大小为230886像素。平均边界框大小约为7472像素。

与边界相比,彩色图像中无人机更多出现在图像中心。与FLIR摄像机类似,索尼α6000也易于操控和跟踪无人机。最小的边界框大小为44像素,最大的边界框大小为368954像素。平均边界框大小约为9794像素。上述所有尺寸都是根据1280×1280像素的参考图像尺寸计算得出的,这是后一部分中使用的YOLO模型的默认输入尺寸。

基于深度学习的无人机探测

在对YOLO系列中的多个CNN架构和基于EfficientDet的CNN架构进行初步应用后,得出的结论是YOLOv7是性能最佳的模型,尤其是在推理速度方面YOLOv7模型是在COCO数据集上预先训练的,训练时使用预先训练的权重进行初始化。与之前的YOLO 型类似,YOLOv7的架构可分为骨干、颈部和头部结构。

除了YOLOv7的基础结构外,我们还试验了一组模拟模块和几个变压器模块,以了解检测精度的提高是否足以抵消计算量的增加。新增模块如图7所示。第一个模块是通道关注(CAT)模块,该模块用于许多计算机视觉任务,其中每个输入特征图都有一个标量值或重要性分数加权,该分数是在训练过程中学到的。

像素注意力(PxAT)模块对特征图的每个像素而不是整个特征图进行加权,在图像去噪等特定计算机视觉任务中表现更好。补丁关注(PAT)模块将每个特征图划分为一定大小的补丁,并学习该层每个特征图中某个区域的重要性得分。这类模块试图对特征图进行去相关处理,以减少冗余并改善其相对变化。变换器模块在自然语言处理和大型语言模型中特别受欢迎,因为它们能高效识别连续数据中的模式。在计算机视觉任务的深度学习中,它们的使用也在多个应用中显示出显著的改进,因为它们通常能更好地改进对特征图上更显著特征或冗余结构的检测。具有多头注意力结构的经典变换器模块最初用于此类任务。这些多头模块的计算成本通常很高,尤其是在视觉应用模型中。因此,我们尝试使用移位窗口变换器(SWIN),它比普通变换器更快。在特征图分辨率降低的多个阶段,上述所有模块都被添加到金字塔骨干网中。不过,与CAT和PxAT相比,使用的PAT和SWIN变换模块较少,因为它们的参数复杂度和内存开销较高。整个红外和彩色图像数据集的子集分为训练集和验证集。表II提供了相应的信息。约22%的红外数据集和19%的彩色数据集用于验证。训练数据集和验证数据集的图像划分相当均匀,两个地点的图像都出现在训练数据集和验证数据集中。不过,训练数据集中的某些背景在验证数据集中并不存在,反之亦然。

在彩色图像数据集上对不同架构进行了初步实验,结果列于表III,其中显示了不同交集大于联合(IOU)阈值下的平均精度(MAPIOU=0.5和 MAPIOU=0.5:0.95)值和以毫秒为单位的平均处理时间。从结果可以看出,通道和像素注意力模块提高了平均精度值,但推理时间略有增加。斑块注意模块增加的推理时间更多,而SWIN模块则导致推理时间大幅增加。减少层数或头数可以减少变压器模块的推理时间,但精度结果并不比更简单的注意力模块更好。事实上,根据检测要求,基础模型在某些情况下可能就足够了,特别是与良好的跟踪算法结合使用时。然而,由于通道注意模块被认为整体性能略好,因此我们继续使用通道注意模块。

使用红外图像和彩色图像分别训练模型。表IV显示了红外数据集和彩色数据集的验证结果。从结果中可以看出,精度指标相对较好,处理速度也足够快,可以进行实时检测。不过,在视频或直播流中使用模型时,帧与帧之间会出现检测下降,特别是在环境或对比度突然变化时。

图8显示了部分检测实例。带有置信度分数的黄色方框表示检测到。YOLOv7在单张图像上的表现大多是可靠的,但也有少数例外情况。如图8b所示,在某些帧上,当阈值较高时,置信度分数的下降会导致假阴性。另一方面,如图8d中的红框所示,也可能出现高置信度分数的假阳性,尤其是在具有与无人机类似结构的红外图像中。

基于规则的跟踪方法

尽管YOLOv7在成功检测方面表现相对较好,但在某些帧之间,由于置信度突然下降或某种程度的遮挡,无人机检测失败。为了改善由于置信度突然变化而导致的检测失败,我们提出了一种基于规则或条件的简单方法。该方法可按以下步骤描述:

选择一个高置信度阈值(confh)和一个低置信度阈值(confl)。保留高于confl的边界框,而仅将高于confh 的边界框视为有效边界框。该方法等待第一个或多个有效检测。第一个或多个有效检测将作为参考。这些边框和边框周围稍大的区域将被选中用于交叉相关函数。这一帧成为上一帧。新帧或当前帧的边界框最初会登记到之前的有效检测中,并选择相应的边界框(基于邻近度、IOU和大小的一个或多个边界框)。如果找到了当前帧的新边界框,且其置信度高于confh,则无需其他步骤。如果新边界框的置信度得分低于confh但高于confl,那么也会对边界框进行预测。这种预测是通过前一帧中的相应边界框和从新帧中裁剪的边界框周围区域的交叉相关方法完成的。根据估计的偏移,生成当前帧的预测边界框,并计算与新边界框的交集大于联合(IOU)值。如果IOU值高于某个阈值,则新的边界框被视为有效,其置信度分数会被之前的高置信度分数所取代。如果上一步计算出的IOU值低于阈值,那么如果交叉相关值高于给定的阈值,则可以认为预测的边界框是有效的。如果上述情况没有发生,则物体要么被遮挡,要么未被检测到。任何相应边界框的置信分值都会被替换为0。

在上述方法中,可以尝试使用不同的阈值。与仅使用YOLOv7相比,在YOLOv7基础上运行的建议方法成功地检测到了更多无人机,并减少了检测下降。改进的程度取决于对不同阈值的选择,根据视频的不同,检测到的无人机数量通常会增加2%到10%不等。图9显示了一个例子,与仅使用YOLOv7相比,该方法检测到了更多的无人机。 然而,由于置信度分数非常低,仍有很多检测不成功的情况。虽然该系统依赖于YOLO对每帧进行初始检测,但任何低于低阈值(confl)的置信度分数都会导致跟踪中断。该方法基于一个先验帧,如果加入多个先验帧,就能更准确地预测无人机的位置和移动情况。

在室内计算机上运行无人机飞行视频,显示器上显示的视频由放置在一定距离的USB摄像机记录。录制的视频同时从室内网络传输到室外网络,并被连接到5G网络和运行容器化模型的笔记本电脑接收。如图10所示,模型检测到无人机并将其显示在屏幕上。 该测试在一天内多次进行。在笔记本电脑上,帧速率达到15帧/秒,没有任何明显的卡顿。观察到大约350毫秒的延迟,这主要是由USB摄像头、GStreamer管道(抖动缓冲器)中的参数设置以及笔记本电脑上运行的检测模型和Nvidia RTX3050处理单元造成的。不过,还需要根据实际使用场景和精确测量设置建立适当的测试装置。

如果你也想要进行模型训练或模型改进,Coovally平台满足你的要求!

Coovally平台整合了国内外开源社区1000+模型算法各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。

而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码

平台链接:https://www.coovally.com

如果你想要另外的模型算法数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!

结论

这项工作是我们之前基于YOLOv7的无人机探测系统相关工作的延续。该任务所需的数据已扩展到包含注释的彩色图像和多通道图像数据集。我们对整个数据集进行了描述和分析,并使用红外和彩色图像数据集来训练基于YOLOv7的多个CNN模型。他们的评估结果表明,在无人机检测方面的表现相当可靠,偶尔会出现由于置信度下降而导致的假阴性或假阳性,尤其是在红外图像中。他们提出了一种基于规则或条件的简单方法,以减少检测误差并改善跟踪效果。提出多通道数据集的目的是,与单一图像源相比,多通道数据集应能提高检测性能。由于该数据集是由预先训练好的YOLO模型生成的,因此不应通过使用同一模型进行再训练来评估其性能。在未来的工作中,应使用不同的模型对数据集进行训练,并对结果进行比较。考虑到在多种图像类型中进行图像注册所面临的挑战,使用带有多个传感器的相机系统可能是合适的,这些传感器都经过精确校准、对齐和同步。对于实时无人机检测系统,应利用真实场景和精确测量设置构建实验装置。

来源:小码科普君

相关推荐