摘要:蓝莓是能为果园种植户带来高经济收益的水果之一。识别不同成熟度的蓝莓果实,对于帮助果园种植户规划农药施用、预估产量以及高效开展采摘作业具有重要的经济意义。用于果园自动化产量预估的视觉系统在识别不同成熟阶段的水果方面受到了越来越多的关注。
从此不迷路
计算机视觉研究院
计算机视觉研究院专栏
Column of Computer Vision Institute
蓝莓是能为果园种植户带来高经济收益的水果之一。识别不同成熟度的蓝莓果实,对于帮助果园种植户规划农药施用、预估产量以及高效开展采摘作业具有重要的经济意义。用于果园自动化产量预估的视觉系统在识别不同成熟阶段的水果方面受到了越来越多的关注。
01
简介
然而,由于存在诸如多变的户外光照、与周围树冠相似的颜色、成像距离以及自然环境中的遮挡等干扰因素,开发可靠的视觉方法来识别不同成熟度的蓝莓果实仍然是一项严峻的挑战。
本研究构建了一种YOLO-BLBE(蓝莓)模型,并结合创新的I-MSRCR(改进的带颜色恢复的多尺度视网膜增强算法,即ImprovedMSRCR(Multi-ScaleRetinexwithColorRestoration))方法,以准确识别不同成熟度的蓝莓果实。通过I-MSRCR算法增强了原始图像中蓝莓果实的颜色特征,该算法是在传统MSRCR算法的基础上,通过调整颜色恢复因子的比例进行改进的。嵌入了CA(坐标注意力,即coordinateattention)机制模块的GhostNet模型取代了YOLOv5s模型原来的主干网络,构成了YOLO-BLBE模型的主干部分。双向特征金字塔网络(BIFPN,即BidirectionalFeaturePyramidNetwork)结构应用于YOLO-BLBE模型的颈部网络,并且使用Alpha-EIOU作为模型的损失函数来确定和筛选候选框。
02 背景及动机
近年来,全球蓝莓产量不断增长,使其成为世界上经济意义第二大的软性水果。在过去十年中,美国作为世界领先的蓝莓生产国,其蓝莓产量占全球蓝莓供应量的50%。蓝莓是一种具有高营养价值和经济价值的浆果。成熟度作为一个关键的表型特征,与蓝莓果实采摘的难易程度以及总产量密切相关。它还可以作为一个有价值的指标,用于跟踪浆果的生长情况并改进作物管理措施。通过监测果园中蓝莓果实的成熟程度,果农可以了解蓝莓的生长状况,从而能够预估产量并采取适当的农艺措施。与识别单一类别的水果相比,识别不同成熟程度的水果可以为机器人的路径规划和避障提供指导,以实现连续作业。
改进后的YOLOv3模型,采用了优化的损失函数,在检测密集排列且有阴影的番茄果实时取得了良好的检测效果。使用YOLOv4模型对猕猴桃进行识别,并根据遮挡程度对其进行分类,有助于避免选择严重遮挡的果实进行采摘。开发了I-YOLOv4-tiny模型来识别不同成熟度的蓝莓果实,在遮挡和光照条件不均匀的复杂场景中,其平均准确率达到了96.24%。改进后的YOLOMuskmelon模型在水果检测领域实现了良好的检测速度。通过向训练数据集中添加马赛克数据,使用改进后的YOLOv5s模型可以提高对小目标番茄的识别准确率。改进后的YOLOv7模型成功解决了由于苹果果实密度高、严重遮挡和重叠导致的识别准确率低的问题。改进后的YOLOv8模型用于识别荔枝母枝并计算采摘点,以指导采摘机器人的操作。
基于上述挑战和启发,本文使用了一种结合颜色特征的改进YOLOv5s模型,即YOLO-BLBE模型,来识别自然环境中不同成熟度的蓝莓果实。
03 新框架分析
数据集构成
本研究的图像数据集包括自然图像和合成图像。这该研究是Tan等人2018年发表的论文的后续研究与上一篇论文中使用的相同的自然图像数据集。信息和自然图像的采集细节可以在论文中找到。生成合成蓝莓图像的过程如下图颜色所示使用I-MSRCR算法增强原始蓝莓图像部分。彩色增强图像和原始图像是手动提取的水果部分和背景,分别使用Photoshop2018。TIhe合成图像是通过将颜色增强的蓝莓果实叠加到背景上获得的原始蓝莓图像。
通过旋转、平移、翻转和缩放,扩充了自然图像数据集和合成图像数据集。数据集的总数扩充到了1452张图像。数据集被划分为训练集、验证集和测试集,其比例分别为70%、15%和15%。数据集中包含的图像类型以及每种类型的图像数量列于下表中。
数据集中的一些具有代表性的图像下图所示。
改进的多尺度Retinex颜色恢复(I-MSRCR)算法
多尺度Retinex颜色恢复(MSRCR)算法是一种图像处理技术,它能够在保留图像细节的同时,减轻诸如阴影和高光等图像失真问题。然而,该算法过程复杂、耗时,对噪声敏感,并且容易出现颜色失真的情况。本研究提出了一种改进的多尺度Retinex颜色恢复(I-MSRCR)算法,以增强蓝莓果实的颜色特征。选取了处于三个不同生长阶段(成熟、半成熟和未成熟)的五张蓝莓果实代表性图像。通过直方图分析、颜色均值计算以及手动选择等多种方法,确定了蓝莓果实每个生长阶段最具代表性的颜色值。如下图a所示,采用五种代表性颜色梯度拼接的方法创建了一条完整的梯度色带,以模拟蓝莓果实成熟过程中的原色变化。构建了与该梯度色带相对应的RGB颜色曲线,如下图b所示。
上图数据集中的代表性图像。(a–d)分别为自然图像数据集中的轻微遮挡、严重遮挡、逆光和过曝情况;(e,f)分别为合成图像数据集中的轻微遮挡和严重遮挡情况;(g)天空;(h)陆地。
YOLO-BLBE模型的构建
基于I-MSRCR算法的蓝莓图像颜色增强如下图所示。第一步,将输入的蓝莓彩色图像从RGB颜色空间转换为CIELab*(国际照明委员会亮度色度)颜色空间。
提出的YOLO-BLBE模型是基于YOLOv5s的网络架构构建的,YOLOv5s是一种轻量级模型,具有快速的检测速度,可用于识别不同成熟度的蓝莓果实。
YOLO-BLBE模型的骨干网络
将GhostNet模型和CA模块相结合,取代了YOLOv5模型的骨干网络,从而形成了YOLO-BLBE模型的骨干网络。GhostNet模型的结构以及图像在GhostNet模型中的处理流程如下图所示。
图像输入到GhostNet模型后,通过使用少量大小为3×3的卷积核进行初步卷积来提取输入图像的初步特征。初步卷积的结果分为两部分,一部分进行映射,另一部分包含α1、α2、…、αn等初步卷积特征图,对其进行深度卷积。将两部分的结果合并,得到输出特征图。
YOLO-BLBE模型在骨干网络的末端添加了CA模块。如下图所示,通过两个池化层XAvg和YAvg,将输入特征图编码并聚合到图像的每个通道上。将两个方向的特征图进行拼接,然后进行二维卷积。接着进行批量归一化和拆分操作,对拆分后的特征图像使用大小为1×1的卷积核进行卷积。通过使用Sigmoid函数处理拆分后的特征图像来输出注意力向量。
YOLO-BLBE模型
整体网络架构和图像处理流程如下图所示。输入的原始蓝莓彩色图像在RGB色彩空间中被划分为三个颜色通道。三个颜色通道在骨干网络中处理后,得到原始图像的初步特征图。初步特征图在颈部网络(NeckNetwork)中处理后,得到特征金字塔图。特征金字塔图在预测网络中处理后,输出带有置信度框的原始图像。
04 实验分析
下图不同颜色通道比例下,原始蓝莓果实与颜色增强后蓝莓果实的像素颜色值分布。在已发表的文章中可以找到类似的结果和讨论,比如通过调整颜色通道的比例或组成来帮助区分不同成熟度的水果。
下图展示了使用不同数据集训练的YOLO-BLBE模型在不同拍摄距离下的识别结果及对比。所有识别结果的置信度都大于0.81,这表明在不同拍摄距离下对蓝莓果实的识别没有显著差异。这也意味着所提出的YOLO-BLBE模型在不同拍摄距离下具有稳定的识别性能。然而,在图a、c所示的近距离拍摄情况下,使用自然图像和合成图像训练的YOLO-BLBE模型的识别置信度高于仅使用自然图像训练的YOLO-BLBE模型。例如,如图c所示,蓝莓果实A和B的识别置信度分别为0.98和0.99,高于图a中蓝莓果实A的识别置信度0.95和蓝莓果实B的识别置信度0.96。
在图b、d中也能看到相同的结果。如图d所示,蓝莓果实C、D和E的识别置信度分别为0.93、0.89和0.89,高于图b中蓝莓果实C的识别置信度0.89、蓝莓果实D的识别置信度0.81和蓝莓果实E的识别置信度0.83。图中所示的蓝莓果实A到E属于不同的成熟度和遮挡程度,对比结果表明,通过使用自然图像和合成图像进行训练,YOLO-BLBE模型在识别不同成熟度和遮挡程度的蓝莓果实时,性能能够得到提升。这也间接验证了I-MSRCR算法在增强蓝莓果实表面颜色特征方面的有效性。
通过观察下图所示的结果,可以发现当训练轮数(epoch)超过150次后,YOLO-BLBE模型的mAP曲线趋于稳定。与其他模型相比,YOLO-BLBE模型的mAP曲线平滑,收敛速度快,并且mAP曲线的最终收敛值高于其他模型,这表明YOLO-BLBE模型结构与训练数据集匹配良好,使得训练YOLO-BLBE模型较为容易,也说明该模型具有出色的网络性能。
使用近距离单簇蓝莓图像和远距离多簇蓝莓图像来测试不同深度学习模型的识别性能,识别结果如上图所示。
对YOLO-BLBE模型在自然环境中识别不同成熟度蓝莓果实的性能进行了评估。使用过曝图像、背光图像、近距离单簇图像、远距离多簇图像以及严重遮挡的密集果实图像来测试YOLO-BLBE模型的性能。识别结果如上图所示。
通过观察在过曝和背光环境下的实验结果,发现YOLO-BLBE模型能够完整识别所有不同成熟度的蓝莓果实。这表明该模型通过与所提出的I-MSRCR算法相结合,能够适应不同的光照环境。原因在于I-MSRCR算法在颜色恢复过程中减弱了光照的影响,并保留了蓝莓果实的大部分表面颜色特征,从而能够提升YOLO-BLBE模型的识别性能。在一篇已发表的文章中也发现了类似的结果,即通过合理改善果实表面颜色能够提高模型的识别准确率。YOLO-BLBE模型在检测近距离单簇图像、远距离多簇图像以及严重遮挡的密集果实图像时都表现出准确的识别结果,这反映了该模型识别被遮挡果实和小果实的能力。所提出的Alpha-EIOU损失函数的优势在于使用三种不同的交并比(IOU)损失函数来判断预测框是否保留,这提高了模型避免漏检严重遮挡小果实的能力。这也意味着所提出的模型具有良好的性能架构。在文章中也发现了通过改进损失函数来增强模型对严重遮挡目标果实识别能力的类似结果。
转载请联系本公众号获得授权
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!🔗
来源:横横爱动漫