摘要:建筑行业是公认的高危行业,和制造业一起被列为工伤事故和死亡事故最多的领域(根据欧盟和美国官方数据)。在工地上,头部受伤尤其危险——虽然只占普通工伤的7%,但在致命事故中,竟然超过30%都是头部受伤。这是必须重视的安全隐患。
导读
建筑行业是公认的高危行业,和制造业一起被列为工伤事故和死亡事故最多的领域(根据欧盟和美国官方数据)。在工地上,头部受伤尤其危险——虽然只占普通工伤的7%,但在致命事故中,竟然超过30%都是头部受伤。这是必须重视的安全隐患。
很多建筑工地工人由工头和额外的安全检查员直接监督,这些检查员负责执行安全规则。然而,由于人数悬殊,持续监督根本无法实现。自2016年来,将头部受伤识别为影响建筑工地安全的重要因素,促使全球范围内对个人防护装备的管理进行了法律规范。这些法规要求雇主为员工提供个人防护措施。>>更多资讯可加入CV技术群获取了解哦~
摘要
近年来,基于视觉的施工现场安全系统中,深度学习方法受到了广泛关注。然而,目前仍缺乏一种可靠的方法来建立监督下的施工人员与其基本个人防护装备(如安全帽)之间的关联。为解决这一问题,本文提出了一种结合目标检测、关键点定位和简单规则推理的全新深度学习方法。在测试中,该方案超越了基于不同实例相对边界框位置的先前方法,以及直接检测安全帽佩戴者与非佩戴者的方法。与上述方法相比,该方案在MS COCO风格的整体AP上达到了67.5%,而上述方法分别为66.4%和66.3%;在安全帽未佩戴者的类别特定AP上,该方案达到了64.1%,而上述方法分别为63.0%和60.3%。结果表明,深度学习方法与人类可解释的规则基于算法的结合更适合检测未佩戴安全帽的人员。
论文题目:
Hard hat wearing detection based on head keypoint localization
论文链接:
本文提出了一种新型安全帽佩戴检测方法。该方法将目标检测与关键点定位相结合,并融入基于规则的推理。与现有的人体姿态估计模型不同,本模型通过训练直接定位人员头部,同时识别人员与安全帽的实例。这种独特的建模方式为确定工人与其头部防护装备之间的正确关系提供了途径。同时,该方法采用简单的人类可理解规则实现这一目标。此外,它克服了当前方法的局限性:直接安全帽佩戴检测受高类间相似性影响,而基于边界框相对位置的解决方案缺乏可靠建立工人与安全帽关系所需的信息。这使得该方法在检测未佩戴安全帽的人员方面表现更佳。从建筑安全角度来看,后者至关重要,因为检测未佩戴安全帽的人才是真正的任务。我们认为,此类研究对于基于深度学习的可靠建筑工地安全系统的发展至关重要。
研究方法
问题陈述
用于检测安全帽佩戴情况的解决方案大多属于以下两类:
检测人员或人员与安全帽,根据规则或其它模型在不同步骤中确定是否佩戴头部防护装置。将佩戴安全帽者与未佩戴者作为独立类别进行检测。这两类方法均存在自身问题。
第一类方案的主要问题在于建立人员与安全帽之间的正确关联关系。基于边界框相对位置的推理似乎过于简单,无法准确捕捉这一关联,而基于距离阈值的解决方案也无法在所有情况下正确设置该阈值。
第二类方案则面临严重的类间相似性问题。戴安全帽的人和不戴安全帽的人实际上都是“人”类别的子类别。这一问题在子类别分类中广为人知,因为开发能够正确区分子类别之间细微差异的模型更为困难,在本例中即安全帽的存在与否。正因如此,该组中表现最佳的模型实际上是通过检测人类头部而非整个人来实现的,这使得它们不适合直接从经过良好训练的人体检测模型中进行迁移学习。
此外,在两种情况下,研究人员倾向于忽略人体部分被检测或头部被遮挡的情景,且无法判断该人体是否佩戴头部防护装备。在大多数情况下,该人体会被错误地分类为未佩戴安全帽的工人。一个典型例子是Pictor-v3数据集,其中即使仅能看到腰部以下的人员,也被标注为未佩戴安全帽,而实际上无法确定其佩戴状态。这是严重疏漏,使得此类解决方案无法实际应用,因为核心问题是可靠地识别未遵守安全规则的人员。
基于关键点的安全帽佩戴检测
为解决基于安全帽和人员检测以及错误的局部对象分类的方案所面临的挑战,我们提出了一种基于头部关键点定位的新方法来检测安全帽佩戴者(图1)。在深度学习中,关键点被理解为图像中的兴趣点。其最大优势在于对变换不变,因此不会受缩放影响。
关键点应用最常见的场景是人体姿态估计,其中关键点代表人体关节。然而,与现有的人体姿态估计模型不同,我们仅定义一个关键点来表示人类头部的定位。这种模型构造使我们能够正确建立安全帽与安全帽佩戴者之间的关系,并通过算法1中提出的简单规则基于算法实现。
实现
所提解决方案基于在Mask R-CNN论文中首次描述的通用区域卷积神经网络(GRCNN)框架实现(图2)。这一对Faster R-CNN的自然且灵活的扩展,使创建能够同时执行多种任务的模型成为可能。在此情况下,任务包括目标检测和关键点定位(使其成为Keypoint R-CNN)。
架构
实现了三个模型,每个模型都采用不同的骨干网络,并集成了特征金字塔网络。其中两个主网络基于ResNet架构,层深度分别为50和101(分别标记为R50和R101),另一个基于ResNeXt架构,层深度为101,块数量为32,深度为8(标记为X101)。
网络头部通过结合标准的Faster R-CNN与FPN分类和边界框回归分支以及关键点卷积-反卷积上采样分支构建。关键点R-CNN头部的详细架构如图3所示。
数据集
本研究采用公开可用的数据集进行模型训练与测试。该数据集包含7035张不同尺寸的图像,其中训练集包含5269张图像,测试集包含1766张图像。训练集的平均图像尺寸为358×476像素,测试集为360×480像素,其中332×499像素的图像在两部分中均为最大群体。数据集两部分的图像尺寸分布详细情况如图4所示。
由于现有标注与我们的解决方案不兼容,对安全帽和人头关键点检测进行了标注,这导致了超过5.5万个对象实例以MS COCO格式呈现。训练集和测试集的详细分解,按类别和子类别按边界框面积划分,如表1所示。
与原始标注相比,我们的数据集在训练部分增加了近4000个人实例,在测试部分增加了超过1300个人实例。这一差异可能源于小型实例的数量,因为原始数据集包含的人头部标注比整个人轮廓更小。
千款模型+海量数据,开箱即用!
在Coovally平台上汇聚国内外开源社区超1000+热门模型,覆盖YOLO系列、Transformer、ResNet等主流视觉算法。同时集成300+公开数据集,包含论文中提出的建筑工地安全帽检测数据集,另外还涵盖图像分类、目标检测、语义分割等场景,一键下载即可投入训练,彻底告别“找模型、配环境、改代码”的繁琐流程!
获取方式:
点击链接:www.coovally.com
添加客服小助手,发送关键词【建筑工地安全帽检测数据集】即可获取!
实验训练
迁移学习作为深度学习中的一种流行技术,被用于加速训练过程。所有主模型均基于在MS COCO 2017数据集上通过人体姿态估计任务训练约37个 epoch 的模型权重初始化,并在该数据集上取得了接近最先进模型的性能。此外,主模型的前两层被冻结,因为它们提取的通用特征无需重新训练。
每个模型随后在Xie等(2017)数据集的标注训练集上以批量大小为4进行5万步训练,相当于约38个训练 epoch。采用以下数据增强方法:图像可随机水平翻转、垂直翻转或同时沿两个轴翻转。此外,较短边可随机调整为640、672、704、736、768或800像素。同时,较长边的尺寸不得超过1333像素。图5展示了每个模型在训练步骤中测量的损失函数值和分类准确率。
原始数据集被划分为训练集和测试集,并保持不变。与在验证集上监控损失函数值不同,模型在训练和测试集上每5000次训练迭代进行评估,以确保最终模型避免过拟合。所有模型在训练集和测试集上计算的MS COCO AP如图6所示。
检测结果
检测结果表明所有三个模型均训练良好,其AP50均超过90%,AP超过60%。其中R50模型表现最弱,R101模型稍优,而X101模型明显优于前两者——这表明更深的骨干网络能带来更好的性能表现。表2汇总了各模型在MS COCO标准下的整体及类别特定指标完整数据。
分析类别特定结果时可发现,各模型在安全帽类别上的AP表现较差(见表2)。人员检测性能更优并不意外,因为训练数据集中人员实例数量更多。此外,这些模型源自仅针对人员检测训练的预训练模型,故存在此类偏差实属预期。但需要指出的是,AP50指标的差异并不显著,且作为比人体更小的目标,安全帽在APS和APM指标上反而取得了更高分数。
人员检测对比
表8对比了前述Faster R-CNN模型与同步检测安全帽和人员实例的Keypoint R-CNN模型(即第4节中的X101模型)在人员检测上的表现。数据显示,当将Faster R-CNN的所有检测实例视为单一类别时,Keypoint R-CNN在人员检测上略胜一筹,但优势并不显著。值得注意的是,与掩码分支不同,增加关键点检测分支通常会降低目标检测性能,因此理论上Faster R-CNN应优于Keypoint R-CNN。
这种性能差异应与前文所述的高类间相似性问题相关联:检测器因专注于学习安全帽这类细微特征,反而削弱了对人员整体特征的识别能力。该现象在高IoU阈值条件下更为明显(图8),表现为召回率上升时精确度更快下降。
安全帽佩戴检测对比
为对比最终模型在安全帽佩戴检测中的表现,我们对Faster R-CNN也进行了检测阈值调整实验。该模型在决策阈值为83%时达到最高F1分数87.6%。
表9的对比结果显示,除APS指标外,Keypoint R-CNN均小幅领先或(AP50指标上)持平Faster R-CNN。类别细分数据表明,性能差异完全源自安全帽非佩戴者的检测效果——这意味着Keypoint R-CNN以牺牲佩戴者检测精度为代价,换取了更均衡的整体表现。
如果你也想要进行模型的开发或者训练,Coovally满足你——作为新一代AI开发平台,为研究者和产业开发者提供极简高效的AI训练与优化体验!
无需代码,训练结果即时可见!
在Coovally平台上,上传数据集、选择模型、启动训练无需代码操作,训练结果实时可视化,准确率、损失曲线、预测效果一目了然。无需等待,结果即训即看,助你快速验证算法性能!
从实验到落地,全程高速零代码!
无论是学术研究还是工业级应用,Coovally均提供云端一体化服务:
免环境配置:直接调用预置框架(PyTorch、TensorFlow等);免复杂参数调整:内置自动化训练流程,小白也能轻松上手;高性能算力支持:分布式训练加速,快速产出可用模型;无缝部署:训练完成的模型可直接导出,或通过API接入业务系统。平台链接:
无论你是算法新手还是资深工程师,Coovally以极简操作与强大生态,助你跳过技术鸿沟,专注创新与落地。访问官网,开启你的零代码AI开发之旅!
讨论
本文提出的解决方案针对当前文献中安全帽检测方法存在的主要问题进行了改进。该方法基于对人员和安全帽的分离检测,从而避免了安全帽佩戴者/非佩戴者检测中存在的类内相似性问题。此外,这种分离检测方式可以直接迁移来自训练有素的人员检测模型的知识,使得模型更易于训练和部署。通过引入头部关键点检测,我们仅需基于简单、可人为解释的规则算法即可判定安全帽佩戴状态。更重要的是,该方法无需依赖距离阈值或额外特征(如肩膀、髋部或面部)来建立工人与安全帽的关联。这一特性使我们的解决方案更具灵活性,能够在其他方法无法获取辅助信息的场景下正常运作。
在测试中,本方法超越了基于人员与安全帽边界框相对位置的先前方案,也优于直接检测安全帽佩戴者与非佩戴者的方法。其MS COCO格式的总体平均精度(AP)达到67.5%,而上述两种方法的AP分别为66.4%和66.3%。在安全帽非佩戴者这一特定类别的检测上,本方案AP达到64.1%,对比其他方法的63.0%和60.3%——这一性能提升尤为重要,因为检测违规未佩戴安全帽的工人才是实际应用中的核心需求。
为全面评估方案性能与局限,我们还分析了原始检测结果(图9展示了部分标注实例的图像)。大多数错误源于安全帽或人员检测失败(图9b、c、e)。另一个问题与头部关键点检测相关:研究发现即使头部不可见的实例也会被检测出关键点(图9f),这是由于数据集中此类样本极少导致的。但令人意外的是,系统在极小尺度下仍能准确定位头部关键点(图9c、e),这反而导致新问题——当工人实例尺寸过小时,其对应安全帽尺寸会更小以致无法检测,影响了小尺度下的安全帽佩戴判定。
结论与未来工作
本文提出了一种基于人员检测、安全帽检测及头部关键点定位协同作用的安全帽佩戴检测新方法。这种独特组合能准确建立目标实例间的关联关系,有效区分佩戴者与非佩戴者。实验结果表明,该方法在性能上超越了基于人员与安全帽边界框相对位置的方案,也优于直接检测佩戴状态的方案。更重要的是,其主要优势体现在安全帽非佩戴者的检测上——这正是此类解决方案最关键的环节,因为系统核心价值在于识别安全隐患。深度对比分析证实,本方法有效规避了类内相似性问题,且通过引入头部关键点检测,将复杂决策简化为可人为解释的规则,避免了传统决策树方法难以提供直观结果的缺陷。
然而,可靠检测非佩戴者仅是构建深度学习支持的工地安全监控系统的第一步。要实现有效管理,系统还需识别违规人员身份以便实施警告、处罚或补充安全培训。基于人脸检测的方案无法解决该问题——当工人面部不可见时将失效。更可行的方案是结合Zhao等(2019)提出的方法,在安全规则检测的同时进行人脸识别,通过多视角实时追踪实现人员身份绑定。
这引出了硬件部署的核心挑战:当前研究极少关注工地实时部署所需的基础设施。在GPU价格波动的背景下尤为关键——单纯依赖云端处理并不现实,多路高清视频流实时传输既需要极速网络,又会产生海量待分析数据。可行的解决方案是采用面向边缘计算的高效算法:近期既有通用轻量化架构,也有嵌入式专用方案已开始在施工安全领域应用此类技术。将这些算法与专用设备结合,可构建分布式计算系统:每个节点从数据输入端开始渐进式分析,既降低数据传输压力,又减少硬件资源需求。
来源:小码科普君