摘要:在烟草、食品包装等行业,每个商品上的彩色二维码不仅是防伪溯源的关键,更是企业品牌信誉的“生命线”。然而,高速喷印过程中产生的飞墨、漏印等缺陷,可能导致消费者扫码失败,甚至引发市场混乱。传统检测方法效率低、精度不足,如何快速精准地揪出缺陷?昆明理工大学团队提出了
在烟草、食品包装等行业,每个商品上的彩色二维码不仅是防伪溯源的关键,更是企业品牌信誉的“生命线”。然而,高速喷印过程中产生的飞墨、漏印等缺陷,可能导致消费者扫码失败,甚至引发市场混乱。传统检测方法效率低、精度不足,如何快速精准地揪出缺陷?昆明理工大学团队提出了一种ResNet34-TE融合模型,将准确率提升至96.8%,单张检测仅需15.59毫秒!这项技术如何实现突破?一起来看!
论文题目:基于 ResNet34-TE 的喷印可变彩色二维码缺陷检测
论文链接:https://m.researching.cn/articles/OJ51cfaa07be72ca83
现有方法主要依赖两类技术:
传统图像处理:如模板匹配、边缘检测,但适应性差,难以应对复杂多变的缺陷。AI算法:如CNN模型擅长局部特征提取,却对全局信息(如长距离边缘、细微色差)捕捉不足。尤其在高速产线上,多颜色干扰的彩色二维码缺陷检测,传统方法往往“顾此失彼”——要么误判背景纹理,要么忽略细微缺陷。
模型构建
研究团队创新性地将ResNet34(残差网络)与Transformer编码器结合,优势互补。
关键技术亮点:
轮廓检测预处理:通过RGB-HSV颜色转换、高斯滤波和Canny边缘检测,精准提取二维码区域,消除背景干扰。模型结构优化:舍弃平均池化层,减少位置信息丢失;引入位置编码和分类标记,增强缺陷空间感知。ResNet
通过增加网络深度可以提高模型提取特征的能力,理论上在分类任务中能取得更高的准确率,然而随着网络层数不断堆叠下去,会导致梯度消失或者梯度爆炸问题出现,影响网络性能,使训练效果变差。针对上述问题,He 等提出 ResNet,其核心结构是残差模块(residual block),能将信息从浅层传递到深层,使网络在增加层数的同时保证性能不会下降。残差模块结构如图 4 所示。
输入x,经过卷积提取特征后得到F(x),引入快捷连接(shortcut)后,得到的输出 y=F(x)+x,当 F(x)=0 时,y=x,卷积层做恒等映射。模块中还包括批归一化(BN)和 ReLU 激活函数操作,用于加快训练速度,增强模型的泛化能力,同时对抗梯度消失和梯度爆炸等问题。考虑到较浅层网络对图像特征的提取能力比较有限,较深层网络引入的模型参数较多,会增加计算量使得迭代速度变慢,因此选择 ResNet34 作为基准模型。
ResNet34-TE 分类模型
ResNet34 由 33 个卷积层和 1 个全连接层组成,还包括池化层。其中,平均池化使用取平均的方式来聚合特征信息,能显著减小特征图的空间尺寸和参数计算量,但同时也会丢弃输入区域的具体位置信息,无法提供局部细节的位置和空间关系。彩色二维码为 V4版本,即 33×33 模块,尺寸为 1 cm×1 cm,单个模块尺寸仅有 303 μm,对细微缺陷特征的有效提取非常重要。因此,以 ResNet34 模型作为特征提取的主干网络,舍弃平均池化层,用Transformerencoder 层代替,对特征的不同位置提供不同的注意,并进行全局建模。ResNet34-TE 模型框架如图 5(a)所示,ResNet34-TE模 型 中 的 layerl~layer4 分 别 包 括 3、4、6、3 个残差模块 ,考虑数据集不够充 裕的问题 ,在 basicblock 的 第2 个 BN 层后加入 dropout,减小模型过拟合风险。其中,layer2~layer4 的第 1 个残差模块需要将输出和输入的数据维度转换成相同的,采用方式②做下采样(downsample),每层 layer 之间不用改变特征维度,采用方式①传递,残差模块结构如图 5(b)所示。引入的Transformerencoder层包括展平卷积层输出序列(flatten)、分类标记(class token)、同维向量拼接(Concat)、位置编码(position embedding),以及编码器块(encoder block),具体结构如图 5(c)所示。
Transformerencoder 层
位置编码位置编码为输入序列中的每个位置提供位置信息,以捕捉序列中位置顺序的相关性,绝对位置编码可提供精确位置信息,在处理图像全局信息和可扩展性方面具有优势,使用绝对位置编码,即正弦和余弦函数生成位置编矩阵[L d],L 表示序列的最大长度,d表示位置编码维度。位置编码矩阵中的每个位置(ppos,i ),ppos 表示目标在序列中的位置,i 表示维度索引,k 代表向量索引,计算公式如下:
在 VIT 模型中,需要通过 patch embedding 将图像切块展平,再进行位置编码。对于彩色二维码缺陷识别任务,ResNet34-TE 中残差网络可以达到相同的目的,且对局部特征的提取效果会更好,因此,不需要使用 patch embedding。位置编码过程如图 6 所示,输入彩色二维码图像经过ResNet34后展平,叠加一个class token,在每个 token 采用一个可训练参数进行位置嵌入,最后输入编码器中。
编码器将基本结构 encoder block 重复堆叠 N 次,结构中主要包括:层归一化(LN)、多头注意力机制(multihead attention)和多层感知块(MLP),残差连接将输入序列与多头注意力机制的输出相加,如图 7(a)所示。
层归一化:通过对每个样本的特征进行归一化来解决神经网络中内部协变量位移问题,加速神经网络的训练,使模型更加稳健。对输入的彩色二维码样本特征图 xi ∈ RB×C×H×W,B 为批处理大小,C 为通道数,H 和 W 分别表示特征图的高度和宽度,沿通道维度计算均值 μ 和方差 σ 2,用特征样本减去均值再除以方差进行归一化,引入缩放参数 γ 和平移参数 β,得到层归一化的特征数据。相关计算公式如下:
多头注意力机制:并行使用多个自注意力机制模块处理输入序列,通过融合不同角度的注意力,捕捉不同的关注点和特征,学习到不同特征的相关性,提供更丰富的信息,过滤全局的无用信息,选择出对当前任务目标更加重要的细节信息,减小神经网络计算能力和优化算法的限制,结构如图 7(b)所示。
自注意力机制采用缩放点积模型进行注意力判别,对输入序列 X { x1,x 2…,xn }进行线性映射,即与3个可学习参数 W Q、W K和W V 相乘,得到查询项(query)、键项(key)和值项(value):Q = XW Q,K =XW K,V = XW V。将 Q 与 K 相乘计算向量之间的相似性得分,引入缩放因子dk来控制得分范围,用Softmax函数对相似性得分进行归一化得到注意力权重,最后加权求和得到输出。自注意力公式如下:
多头注意力机制将查询项、键项和值项均分为 h个头,每个注意力头有与之对应的参数 W,独立计算向量之间的相似性,再将 h 个注意力头的结果拼接融合得到最后的输出,实现过程如下:
多层感知块:由全连接层、GeLU激活函数和dropout组成,结构如图 7(c)所示。在编码器结构中,该网络在 selfattention 层之后,用于对输入的特征进行非线性变换和特征提取。对完成每个注意力头计算后拼接的序列张量,计算过程如下:
式中:W1 和 W2 为两个线性映射矩阵;b1 和 b 2 为偏移量;G 为 GeLU 非线性激活函数。在全连接层,神经元计算得到加权和,第 1 个全连接层会把输入节点个数成倍扩大,第 2 个全连接层还原回原节点个数,GeLU 函数在激活中引入随机正则的思想,本质上是dropout、zoneout 和 ReLU 的融合。
通过引入非线性关系,使模型能学习到更加复杂的特征,在标准正态分布下,计算公式如下:
算法流程
首先,把尺寸归一化为 3×224×224 的彩色二维码缺陷图像的 RGB 三通道图像输入模型,经过核大小为 7×7 的卷积层进行 BN 处理和 ReLU 激活函数操作,随后通过最大池化层下采样,再顺序通过各个layer 层提取特征。卷积后特征图的维度是通道数、高度、宽度,即[512,7,7],不符合编码器的输入要求,通过 flatten 操作将特征图的高度和宽度调整成一个维度,即[512,49],展平后的二维矩阵输入 encoder 层,叠加一个 class token 进行拼接,在特征序列上进行位置编码,融合特征和位置信息。为保证输入和输出特征维度匹配,在编码器中设置位置编码维度 d=49,多头注意力机制 nhead=7,encoder block 堆叠 5 次,最终通过全连接层,并使用 Softmax 分类器得到类别概率。模型算法流程如图 8 所示,C 为特征通道数,k 为卷积核大小,s为步长,p 为填充量。彩色二维码缺陷的四分类任务使用交叉熵损失函数来训练模型,公式如下:
式中:k 为类别数量;y 为类别真实值;y͂为类别预测值。
在损失函数中添加 L2 正则化范数的惩罚项来控制参数大小,权重衰减公式如下:
式中:λ 是正则化参数;ω 为更新的权重参数;n 为参数的数量。修改后的损失函数可以在训练过程中平衡模型的拟合能力和泛化能力,提高模型的性能和稳定性。
采用 Softmax 分类器得到各类缺陷的分类概率,计算公式如下:
式中:Si表示第 i个类别的概率值;m 为向量长度。
Coovally AI模型训练与应用平台
如果你也想要进行模型训练或模型改进,Coovally平台满足你的要求!
Coovally平台整合了国内外开源社区1000+模型算法和各类公开识别数据集,无论是YOLO系列模型还是Transformer系列视觉模型算法,平台全部包含,均可一键下载助力实验研究与产业应用。
而且在该平台上,无需配置环境、修改配置文件等繁琐操作,一键上传数据集,使用模型进行训练与结果预测,全程高速零代码!
具体操作步骤可参考:YOLO11全解析:从原理到实战,全流程体验下一代目标检测
平台链接:https://www.coovally.com
如果你想要另外的模型算法和数据集,欢迎后台或评论区留言,我们找到后会第一时间与您分享!
实验与分析
不同模型比较将所提模型ResNet34-TE与AlexNet、VGG16、MobileNetV2,ShuffleNetV2,ResNet34、ResNet50、EfficientNetB0 和 MobileViT 进行对比,评估所提模型在彩色二维码缺陷数据集上的分类性能和效果。各模型在验证集上的损失和准确率曲线如图 9 所示。
ResNet34、ResNet50、EfficientNetB0 和 MobileViT 网络 模 型 的 准 确 率 都达到90%以上。其中,CNN 与Transformer的混合模型 MobileViT 的准确率达到96.37%,为对比网络的最高值。所提 ResNet34-TE模型的准确率达到96.8%,相较于ResNet34,准确率 高了5.28百分点。同时其精确率、召回率和F1-score分别提升 4. 93 百分点、5. 02 百分点和 4. 97 百分点,且都高于其他对比模型。在单张平均检测速度方面,相比改进前提高约5. 86%,虽然略慢于 AlexNet、ShuffleNetV2 和 MobileNetV2,但准确率较这 3 个模型分别提高了 30. 48 百分点、16. 92 百分点和 5. 9 百分点。由于 ResNet34-TE 减去了原模型 ResNet34 中平均池化层需要计算的参数,卷积层经过特征提取后连接 Transformerencoder 层,因此所提模型参数计算量比原来有明显下降。在印刷质量检测过程中,小张品检机的机速可达265 m/min,对喷印二维码质量的检测速度达到小盒10 万~12 万/h、条盒 3 万~4 万/h,所提方法的检测精度与速度满足实际生产要求。综合评价,所提ResNet34-TE模型在此次分类任务上减小了模型大小,还兼顾了检测精度和检测速度,综合性能更优。
模型验证
为进一步验证模型的分类效果,用混淆矩阵查看测试集上各类别分类结果,得到所提模型与原模型ResNet34在每类缺陷上的识别精确率、召回率和F1-score 评价指标。两个模型的混淆矩阵如图 10 所示,实验结果如表 3 所示。
由图 10 可知,改进模型在识别飞墨缺陷时,减少了糊墨蹭脏缺陷的误判;在识别糊墨蹭脏缺陷时,消除了对飞墨缺陷的误判;在识别拉线缺陷时,误检为糊墨蹭脏缺陷的数量降低了 2 百分点;在识别漏印缺陷时,消除了对拉线缺陷的误判,并且对漏印缺陷全部识别正确。
根据表 3 的实验结果:对于比较明显的漏印缺陷,改进前后模型的识别效果相差无几;对于较细微的拉线缺陷,改进后的模型在准确率、召回率和 F1-score 上分别提升了 6百分点、2百分点和 4百分点;在颜色相似、更细微的糊墨蹭脏缺陷和飞墨缺陷上,改进后的模型提升更高,准确率提高 11 百分点和 6 百分点、召回率提高10百分点和6百分点、F1-score提高9百分点和7百分点。虽然企业的质检工作是在标准光源下进行的,但由于生产车间存在多种变化因素,检测过程难免受到不确定光照的影响,因此将测试集中每类缺陷进行分组,实验验证模型的泛化能力。其中,飞墨、糊墨蹭脏、拉 线 和 漏 印 缺 陷 分 别 对 应 a、b、c 和 d 组 ,分 别 在-30% 光强、标准光源和+30% 光强条件下,用所提模型进行缺陷预测,部分样本预测结果如图 11 所示。计算各组缺陷在不同光照条件下的识别准确率与平均准确率,不同光照测试结果如表 4 所示。从表 4 中可分析出,当光照环境变暗或变亮,模型对各类缺陷的识别准确率会有略微下降,但都能维持较好的识别效果,模型在+30% 光照条件下的识别抗干扰能力略强于在-30% 光照条件下的。所提模型的抗光照干扰能力较优,在强光或者暗光环境下的识别性能仍然较好。
消融实验
以 encoder block 堆叠深度进行消融实验,验证所提模型改进的合理性。分别取 encoder block 的深度为1、2、3、4、5、6、7,使用与前文相同的参数设置训练网络,得到堆叠不同深度下模型的准确率、损失值和模型大小,实验结果如表 5 所示。随着 encoder block 堆叠层数的增加,模型参数量也随之增加,随着堆叠层数的增加,模型的准确率逐渐提升,收敛损失值呈下降趋势,在堆叠 5 次时模型准确率达到最高,从堆叠第 6 次开始 ,模型性能开始下降。实验结果表明,encoderblock 堆叠 5 次时性能最好,准确率达到 96. 8%,因此所提模型在 Transformerencoder中使用5次encoderblock叠加最合理。
GradCAM 热力图
为了更加直观展示所提模型的识别效果,从测试集抽取原图像,使用 GradCAM方法绘制改进前后网络的最后一层可视化热力图,查看网络内部特征选取和分类的决策依据,如图 12 所示。分析图 12 发现:ResNet34 提取到的缺陷特征存在提取不完全的情况;ResNet34-TE 通过融合 Transformer 编码器结构后,能更有效地定位到缺陷区域,例如对拉线缺陷和糊墨蹭脏缺陷的提取更加完全,同时对缺陷的判别区域更加集中,例如飞墨缺陷和漏印缺陷。可视化结果表明,所提模型能够学习到更全面和细微的特征信息,体现了网络改进的有效性。
公开数据集上对比
采用公开缺陷检测数据集 NEUDET 验证所提模型的通用性,该数据集收集了 1800 张热轧带钢表面的6 种典型缺陷:轧制氧化皮(Rs)、斑块(Pa)、开裂(Cr)、点蚀表面(Ps)、内含物(In)和划痕(Sc),每类缺陷包含300 张分辨率为 200 pixel×200 pixel 的灰度图像,如图 13 所示。
实验按照4∶1划分数据集,经过100个epoch训练,在测试集上验证各模型的分类性能,实验结果如表 6 所示。从实验结果可看出,所提模型在公开缺陷检测 数据集上的准确率达到98.86%,相比原模型ResNet34 提高了2.34百分点,与主流缺陷检测网络相比取得了更好的效果。
结论
为了解决喷印可变彩色二维码缺陷分类难和检测效率低的问题,结合残差网络和 Transformer 结构的优点,提出一种基于 ResNet34 融合 Transformer 结构的缺陷识别模型 ResNet34- TE,提高了对多颜色干扰、复杂性高的细粒度喷印缺陷识别准确率和检测效率。构建了喷印可变彩色二维码缺陷数据集,采用基于形状轮廓检测的预处理方法有效提取目标区域;所提模型ResNet34 为 特 征 提 取 主 干 网 络 ,用 Transformer-encoder 层捕捉图像的全局特征信息和缺陷细节,增加对粒度空间信息的关注度。实验结果表明,ResNet34-TE 在构建的数据集上的识别准确率和检测速度均比改进前有所提升,与其他经典网络相比,所提模型对细微缺陷特征的识别更有优势,在 NEU—DET 数据集上与其他主流方法相比取得了较好的分类效果,具有一定的泛化性。但 ResNet34- TE 也存在一些不足,网络结构可以进一步完善,今后将采集更多其他缺陷类别的彩色二维码缺陷数据并优化模型,提取更具有判别力的特征,进行更加广泛和细致的缺陷识别。
来源:小码科普君