首页 > 论文范文 > 工程工业论文 > 电力工业论文 > 基于改进YOLOv6模型的微特电机电枢表面缺陷检测

基于改进YOLOv6模型的微特电机电枢表面缺陷检测

2024-09-23 64 上传者：管理员

摘要：针对传统工业存在对微特电机电枢表面缺陷检测任务人工成本高、工作量大的问题，提出了一种改进YOLOv6模型的微特电机表面缺陷检测算法。首先，在主干网络加入SimAM注意力模块，加强网络信息传递，提高模型对特征的敏感程度；其次，Neck端使用GSConv新型卷积方式，以减少模型计算量；最后，使用CIoU损失函数解决GIoU损失函数的局限性，以提升模型检测精度。将所提改进算法在微特电机表面缺陷检测公开数据集上MASS-DET上进行训练并测试，实验结果表明，改进后的算法检测精度优于原算法，其中缺陷检测结果的mAP值和mAR值分别提升了4.7%和2.5%。同时相比于一些其他目前先进的目标检测算法在精度和速度上均有提升，证明了改进算法的有效性。

关键词：
GSConv
YOLOv6
损失函数
注意力机制
缺陷检测
加入收藏

微特电机被广泛应用于智能手机的振动器，办公自动化设备，智能家居等，微特电机已经与现代生活密不可分。因此，微特电机具有广阔的市场需求，每年在自动化生产线上生产大量的微特电机。在微特电机生产过程中，电枢表面与磁铁和轴承组装成壳体，机器任何部分的早期故障都可能产生连锁反应并导致其缺陷，某些电枢缺陷会影响微电机的正常运行，最终导致智能设备无法使用。因此对电枢缺陷进行实时准确的识别具有重要的应用价值。

传统的电枢缺陷识别方法大都为人工检测，存在着主观性强、人力成本高昂、效率低等问题，已不能满足目前微特电机业务大幅增长的需要，对微特电机生产产线进行智能化和自动化升级，开发高精准的电枢缺陷识别方案成为亟需解决的问题。

微特电机电枢的缺陷主要存在于其表面，利用机器视觉对工业产品进行检测是一种合理的检测手段。目前，深度学习在图像分类和目标检测领域取得了出色表现，而卷积神经网络则是深度学习最具代表性的方法之一。早期的微特电机电枢表面缺陷检测研究大多基于图像分类算法FENG等[1-2]基于ResNet-101网络和特征金字塔结构(feature pyramid networks, FPN)搭建了一种双通道表面检测系统，并采用图像对比策略自动检测电枢的焊接表面，以改善负样本中数据分布多样、学习困难的问题，同时该网络包含注意力机制，能充分利用标准视场下图片的空间相关性。LI等[3]提出了一种基于BiFPN的多维特征融合方法，在FPN的不同特征融合层中引入了注意力机制，对不同通道的重要性进行调整，增强了模型的表达能力。但是图像分类算法只能判断图片中是否包含缺陷，无法定位到缺陷位置，也无法对缺陷种类进行细分，而真实情况下一张图片中经常包含多种缺陷。因此，最新的研究开始尝试使用目标检测算法来解决这一问题。ZHANG等[4]为该领域贡献了公开数据集MASS-DET,并基于FSAF(feature selective anchor-free)网络[5]设计了一种基于目标检测的电枢表面缺陷检方法。

基于深度学习的目标检测模型主要分为两类，两阶(two-stage)模型和单阶段(one-stage)模型。

图1 改进后的YOLOv6网络

前者通过各种算法生成目标的待检区(region proposal),然后通过卷积神经网络对目标进行准确分类和定位，如RCNN[6]、Fast RCNN[7]、Faster RCNN[8]、Mask RCNN[9]。one-stage直接将目标的定位问题转换为回归问题进行处理，是端到端的实现方式，如YOLO系列(YOLOv3[10]、YOLOv4[11],YOLOv5)、SSD等。YOLOv6是目前图像识别与目标检测领域较为先进的深度学习方法，尽管YOLOv6[12]算法框架在常见任务场景(如车辆检测和行人检测)中表现出色。但是，目前，将YOLOv6模型用于微特电机电枢表面缺陷检测的研究较少，它在进行微特电机电枢表面缺陷检测时，容易受微小缺陷目标的影响，出现目标特征信息丢失、特征提取不充分的情况。导致检测精度较低，检测准确率还有很大的提升空间。

受上述文献的启发，本文提出一种改进YOLOv6模型的微特电机电枢表面缺陷检测算法。主要对YOLOv6做出3点改进：首先，在主干网络加入SimAM注意力模块，加强网络信息传递，提高模型对特征的敏感程度；其次，Neck端使用GSConv新型卷积方式，以减少模型计算量；最后，使用CIoU(complete intersection over union)损失函数解决GIoU(generalized intersection over union)损失函数的局限性，以提升模型检测精度。

1、YOLOv6算法介绍

多年来，YOLO系列一直是高效目标检测的行业标准。YOLOv6是美团视觉智能部在吸收了最新的网络设计、训练策略、测试技术、量化和优化方法后，结合自己的想法和实践，研发的一款目标检测框架，致力于工业应用。YOLOv6的网络结构主要分为骨干(Backbone)、颈部(Neck)和头部(Head)三个部分。Backbone部分主要是采用结构重参数化风格的EfficientRep进行特征提取；Neck部分采用特征金字塔结构Rep-PAN进行特征融合；Head部分采用解耦头结构分别对不同尺度的特征图进行分类及位置回归。除了网络结构上的改进，作者还对训练策略进行了改进，应用了Anchor-free无锚范式。为了获得更多高质量的正样本，YOLOv6引入了SimOTA算法动态分配正样本，进一步提高检测精度。根据模型的深度和宽度，可将YOLOv6细分为YOLOv6n、YOLOv6t、YOLOv6s、YOLOv6m和YOLOv6l等多个版本。其中，YOLOv6n具有最小的深度和宽度，其余版本均是在其基础上增加深度和宽度。为了平衡算法的精度和速度，本工作选择YOLOv6s作为基准模型。

2、改进后的YOLOv6算法

改进后的YOLOv6算法如图1所示，主要针对YOLOv6中的Backbone和Neck部分进行改进。本节将依次介绍SimAM模块、GSConv模块以及CIoU损失函数。图中灰色模块为新增模块。

2.1 SimAM模块

主干网络(backbone)构成了整个神经网络架构中的核心部分，负责提取输入数据的特征表示。主干网络通常由多个层次或模块组成，用于逐渐提取数据中的抽象特征，以便用于后续任务。YOLOv6的Backbone部分主要是采用结构重参数化风格的EfficientRep进行特征提取，该网络是在RepVGG网络结构的基础上进行改进的，这个网络结构的主要特点是采用分离卷积和扩张卷积的组合方式使得网络训练时间减少同时准确率也有所提高。

然而，微特电机监控图像背景相当复杂，蕴含了各式各样的特征信息，但并不是所有特征信息都值得模型关注。为了抑制背景的重要性，获取对缺陷目标更关键的信息，通过在Backbone部分引入一种注意力模块SimAM,使模型获得缺陷目标的空间信息和通道间的关系，进而提高复杂背景下模型的特征提取能力和目标定位能力。同时，SimAM在不增加原始网络参数的情况下，为特征图推断三维注意力权重，并且SimAM的实现简单，不超过十行代码即可实现，具有一定的灵活性。SimAM结构如图2 所示。

图2 SimAM模块

SimAM是一种带有三维权重的注意模块，因为在人类的脑细胞中，一维的通道注意力和二维的空间注意力是共存的，共同促进视觉处理过程中的信息选择。SimAM的原理主要是评估每个神经元的重要性，而在神经科学中，具有空域抑制效应的神经元应当赋予更高的重要性，最简单的寻找重要神经元的方法是度量神经元之间的线性可分离性。因此，研究者定义了如下能量函数：

式中：t为目标神经元，x为相邻神经元，λ为超参数，e*能量越低表明神经元与相邻的区分度越高，神经元的重要程度也越高。最后通过1/e*对神经元根据重要性进行加权，整个过程可以表示为：

2.2 GSConv卷积

为了加速预测的计算速度，CNN中的馈送图像几乎必须在Backbone中经历类似的转换过程：空间信息逐步向通道传输。并且每次特征图的空间(宽度和高度)压缩和通道扩展都会导致语义信息的部分丢失。密集卷积计算最大限度地保留了每个通道之间的隐藏连接，而稀疏卷积则完全切断了这些连接。GSConv尽可能地保留这些连接。但是如果在模型的所有阶段都使用它，模型的网络层会更深，进而加剧对数据流的阻力和显著增加推理时间。当这些特征图走到Neck时，它们已经变得细长(通道维度达到最大，宽高维度达到最小),不再需要进行变换。因此，更好的选择是仅在Neck使用GSConv。在这个阶段，冗余重复信息少，不需要压缩，GSConv模块效果更好。

YOLOv6的Neck部分采用特征金字塔结构Rep-PAN进行特征融合，这个阶段的特征图已经变得细长(通道维度达到最大，宽高维度达到最小)。本研究在Neck端使用GSConv代替普通卷积操作，无需额外操作即可取得明显的精度增益。GSConv, 一个轻量级的卷积块，以降低计算成本，其流程图如图3b所示。该卷积方式的主要思想是使用均匀混合(Shuffle)操作，将标准卷积生成的信息渗透到深度可分离卷积生成的信息中，使用较低的时间损耗尽可能保留通道之间的信息交互。

图3 两种卷积模型对比

2.3 CIoU损失函数

CIoU(complete intersection over union loss)损失函数是一种用于目标检测任务的损失函数。它是对传统的IoU(intersection over union)进行改进，可以更准确地度量物体边界框之间的相似度。CIoU损失函数相较于GIoU(generalized intersection over union)和SIoU(smoothed intersection over union)具有以下优点：CIoU考虑了目标边界框的中心点距离、宽高比例以及重叠区域与包围框的比例等因素。这使得CIoU能够更全面地评估两个边界框之间的相似度，对于包含不同尺度、形状和角度的目标对象更具有区分度；传统的IoU在边界框完全重叠的情况下梯度突变，导致训练不稳定。CIoU通过引入边界框之间的交集和补集面积来平滑梯度计算，使得梯度更加稳定，减少了训练过程中的震荡；由于CIoU在考虑中心点距离和宽高比例时引入了归一化的因子，它能够更好地鼓励边界框的准确定位。这一特性使得在目标检测任务中，CIoU可以更好地指导模型对目标边界框的定位精度进行训练。综上所述，CIoU损失函数相较于GIoU,在目标检测任务中能够提供更全面、更稳定的梯度计算，并且能够更好地鼓励准确的目标定位，从而在特定场景下取得更好的性能。

一个优秀的回归定位损失应该考虑3种几何参数：重叠面积、中心点距离、长宽比。CIoU就是在DIoU的基础上增加了检测框尺度的loss, 增加了长和宽的loss, 这样预测框就会更加的符合真实框。CIoU损失函数的表达式为：

式中：α和v为长宽比，w、h和wgt、hgt分别为预测框的高宽和真实框的高宽。因此CIoU的三项恰好对应IoU、中心点距离、长宽比的计算。

3、实验与分析

在本节中，将依次介绍实验所使用的数据、评价指标、实验环境，最后对实验结果进行展示和分析。

3.1 实验数据准备

本文使用公开的微特电机表面缺陷检测数据集(micro armature solder surface defect detection, MASS-DET)[4],主要研究微特电机的电枢表面缺陷。每个电枢有3个要检测的表面，因此使用3个远心镜头相机来捕获单个电枢表面的焊料表面。考虑到电枢的尺寸较小，以及视场、焦点、景深的影响，选择3台130w像素的工业相机和一个工作距离为110 mm的远心镜头。该数据集共包含6种缺陷：轴略裸露(slightly bare shaft, SBS)、铜线卡长锡(copper wire stuck long tin, CWLT)、焊料不足(insufficient solder, IS)、黑斑(black patches, BP)、铜线卡锡头(copper wire stuck tin bead, CWTB)、锡头(tin bead, TB)。这6种缺陷的示意图如图4所示，可以看出不同类型的缺陷在视觉特征大小上呈现出极大的差异，比如缺陷SBS和TB的特征要比缺陷IS和BP小的多。并且特征形状上也呈现出细长型、不规则型和圆型等多种类型。这6种缺陷样本含量分布如图5所示，从图中可以看出，视觉特征小的缺陷TB,在训练集和测试集中的含量较低，给检测任务带来挑战。该数据集共包含1135张像素为350×84的图片样本。在该实验中，训练集包含794张图片，测试集包含341张图片。为了保证对比试验的公平性，因此在所有实验中并未采用数据增强策略。

图4 微特电机表面缺陷的6种类型

图5 MASS-DET数据集各缺陷在训练集和测试集中的分布情况

3.2 评价指标

本小节介绍使用到的评价指标为：

参数量(Params):参数量是指模型中的可学习参数的总数。参数量越大，模型的表示能力越强，但也意味着模型需要更多的计算资源和存储空间。

复杂度(GFLOPs):复杂度是指执行模型所需的浮点运算量。复杂度的计算通常以(giga floating point operations per second)GFLOPs为单位，复杂度越高，模型的计算负荷越大。

检测速度(FPS):检测速度是指模型在处理图像时能够达到的帧率，即每秒处理的图像数量。检测速度越高，模型能够更快地实时处理图像，对于实时应用来说更具优势。

平均准确率AP(average precision):AP是指不同类别目标检测中单一类别检测精度的平均值，AP越大，说明目标检测的准确性越高。

平均准确率均值mAP(mean average precision):mAP是AP在所有类别上的平均值，用于综合评估模型在所有目标类别上的性能。

平均召回率均值mAR(mean average recall):mAR是对目标检测模型召回率的平均值，较高的mAR值意味着模型能够检测到更多的真实目标。

3.3 实验环境

本文实验基于Ubuntu 18.04操作系统，实验环境为Python3.8,CUDA11.3及PyTorch1.10.1,使用NVIDIA GeForce GTX 1050 Ti GPU加速模型训练。使用OpenmmLab的开源项目mmdetection和mmyolo。实验设置优化器为随机梯度下降算法(stochastic gradient descent, SGD),初始学习率为0.01,权重衰减系数为0.000 5,动量为0.937,最大迭代轮数为300,图片大小统一调整为350×350。为了不改变图片的纵横比，采用灰度补充的方式对图片进行扩充。

3.4 结果对比与分析

3.4.1 消融实验

为了抑制微特电机监控图像背景的重要性，获取对缺陷目标更关键的信息，本研究在Backbone部分引入一种注意力模块SimAM。同时，为了减小网络的参数量和推理速度，本研究在网络的Neck端使用GSConv代替普通卷积操作。为了验证所提的改进SimAM和GSConv对微特电机表面缺陷检测的优化作用，以YOLOv6s为基准模型，使用MASS-DET数据集在测试集上对各模块进行消融实验，其实验结果如表1和表2所示。如表1所示，使用SimAM模块来改进YOLOv6s比原始的YOLOv6s在指标mAP和mAR上分别增长了1.3和0.9。尽管使用GSConv卷积替代原本的Conv卷积没有显著地提升网络地整体精度，但是使得网络的复杂度和参数量分别减少了0.023和0.12。并且，使用SimAM模块可以是网络更加关注难以检测的样本，比如SBS和TB等小样本，如表2所示。

表1 各模块消融实验总体结果

表2 各模块消融实验对每种缺陷的结果

3.4.2 注意力机制对比试验

为了进一步验证SimAM的有效性，分别将其与其他注意力机制SA(shuffle attention)、CBAM(convolutional block attention module)、ECA(efficient channel attention)进行横向比较，实验保证使用4种注意力机制的网络达到最优学习状态，如图6所示。实验结果如表3所示，使用SimAM改进的YOLOv6s不仅在整体精度上比其它3种注意力机制要高，并且复杂度和推理速度也要更快。具体来说，融合了SimAM的YOLOv6要比融合了CBAM的YOLOv6s在mAP和mAR上分别高了4.6%和2.2%。同时，推理速度比融合了SE和ECA的YOLOv6s分别快了8和5.5 img/s。

图6 不同注意力模块对网络收敛速度的影响

表3 不同注意力模块对比结果

3.4.3 损失函数对比试验

为了进一步验证CIoU的有效性，分别将其与其他损失函数GIoU和SIoU进行横向比较，实验结果如表4所示。尽管原工作使用GIoU和SIoU训练的YOLOv6在COCO数据集上实现了最佳的效果，但是经过实验发现，使用CIoU训练的YOLOv6更加适合本工作面对的任务：微特电机表面缺陷检测。具体来说，在MASS-DET数据集上，使用CIoU训练的YOLOv6比使用GIoU和SIoU训练出的网络在mAP上分别高了1.0和0.9,在mAR上分别高了0.4和0.9。因此可见CIoU损失函数更加适合微特电机表面缺陷检测任务。

表4 各损失函数对比实验结果

3.4.4 与现有方法对比试验

为了验证改进算法的性能，在MASS-DET数据集上将其分别与Faster RCNN、RetinaNet、YOLOv3、FSAF、ATSS、Sparse RCNN和YOLOv8等目前的一些先进目标检测算法进行对比实验。为了进行公平的对比，本文所使用的对比模型均没有使用图像增强策略来影响网络精度。实验结果如表5所示，可以清楚地观察到改进版YOLOv6在少参数的情况下实现了最高的精度。改进版YOLOv6借助轻量化主干网络EfficientRep和一阶段的检测策略，以及使用的轻量化注意力模块SimAM,在检测速度、复杂度和参数量等方面表现出色。具体而言，改进版YOLOv6比RetinaNet和YOLOv3提高了19.3 FPS和14.0 FPS的检测速度。在复杂度方面，相较于Faster RCNN和Sparse RCNN,改进版YOLOv6分别降低了9.912 Gflops和21.249 Gflops的复杂度。而在参数量上，相较于FSAF和ATSS,改进版YOLOv6分别减少了19.059 M和14.935 M的参数量。虽然在检测速度和网络容量方面不及最新的算法YOLOv8,但改进版YOLOv6在mAP和mAR上分别超过了YOLOv8算法6.0%和2.2%。最后，为了对检测结果进行可视化，选择了最新的目标检测网络YOLOv8进行对比，如图7所示。改进版YOLOv6能够准确地检测出微特点电机表面上各种缺陷。使用Grad-CAM算法生成了YOLOv8和改进版YOLOv6回归分支上的热力图，如图8所示。从图中可以看出，改进版YOLOv6对于细小缺陷的识别更为敏感。

图7 不同方法检测结果可视化

图8 不同方法热力图对比

表5 与现有方法对比结果

4、结束语

本文通过优化YOLOv6算法，引入SimAM注意力机制和GSConv模块，以及应用CIoU损失函数，在微特电机电枢表面缺陷检测中取得了显著的成果。经过改进之后，模型的检测精度得到了大幅提升，mAP和mAR分别提高了4.7%和2.5%。此外，改进后的算法也满足了实时性要求，达到了55.6 img/s。这一改进可以使得微特电机电枢表面缺陷检测更加准确和高效，从而有望在实际应用中发挥重要作用。目前，该研究仍在使用全监督式的训练方法。然而，手动标记数据集是一项耗时的任务。为了解决这一难题，该研究计划在未来采用半监督的训练方式，使用部分有标签的数据和大量无标签的数据来训练模型，在拥有更少标签的情况下仍获得良好的检测效果，从而提高模型的普适性。

基金资助:四川省重点研发项目(2022YFG0058); 四川省科技厅苗子工程项目(2022008);

文章来源:杜佳奇,肖杰,朱高义,等.基于改进YOLOv6模型的微特电机电枢表面缺陷检测[J].组合机床与自动化加工技术,2024,(09):108-112+117.