2023-09-05
117
上传者:管理员
摘要:针对传统的目标检测网络存在参数量大、检测速度慢等不足,在计算资源受限的设备上难以满足实时性需求的问题,提出一种改进的YOLOv4-tiny目标检测算法,使用Bneck_E替换主特征提取网络的CSP结构,在深层特征提取网络中,增加轻量级注意力机制——高效通道注意力(ECA)机制,采用双向特征融合,用深度可分离卷积对浅层特征下采样,提高对小目标的检测精度。在PASCAL VOC数据集上实验表明,该算法平均精度均值(mAP)提高了4.4%,帧率(FPS)提升了8.9%,模型大小仅为YOLOv4-tiny的36%,有利于在嵌入式设备上部署运行。
加入收藏
引言
自2013年以来,卷积神经网络(convolutional neural network, CNN)逐渐取代了传统目标检测算法成为主流的方法,Girshick R等人提出的R-CNN(Regions with CNN)[1]是第一个成功将深度学习应用到目标检测上的算法;随后提出的Fast R-CNN[2]、Faster R-CNN[3]在检测速度上不断提高,但还远远满足不了实时性的需求。直到2016年,Redmon J等人提出了YOLO(you only look once)[4]算法,将目标检测问题看成一个回归问题,对输入图片进行分块,并行地对每一块区域运行目标检测算法,极大地提高了目标检测的速度。同年,Liu W等人在此基础上提出了SSD(single shot multibox detector)[5],利用多尺度特征提取,对低分辨率的图像同样能达到较高的检测识别精度。
YOLOv4[6]是YOLO系列的改进模型,引入了CSP(cross stage partial)DarkNet53网络,在检测精度和速度上均有较大提升。但较大的参数量使其在计算资源受限的设备上进行目标检测时,难以满足实时性的需求。因此,网络层数更少、检测速度更快的YOLOv4-tiny被提出。但模型的网络层数减少,使得提取到的特征有限,在检测精度上有一定降低。因此需要设计一种轻量、高效的网络结构,来更好地平衡检测速度和精度。王兵等人[7]通过增加Max Moudle结构获取更多有效局部特征,引入自上而下多尺度特征融合来提高口罩检测准确率。曹远杰等人[8]以GhostNet残差结构作为主特征提取网络,有效降低了网络参数量。但这些改进通常用于特定目标检测当中,在复杂场景或多种目标检测中,检测精度和模型大小仍需要进一步平衡。
本文使用改进后的Bneck_E作为YOLOv4-tiny的主特征提取网络,利用深度可分离卷积替换深层网络中的普通卷积,在特征金字塔网络(feature pyramid network, FPN)[9]结构中加入自上而下的多尺度特征融合,同时引入轻量级注意力模块对重要特征通道标记,提升网络检测精度的同时降低参数量。
1、网络结构与原理
1.1 YOLOv4-tiny网络结构
YOLOv4-tiny网络结构如图1所示。为了提升网络的推理速度,YOLOv4-tiny将CSPDarkNet53中的激活函数Mish更换为计算量更小的LeakyReLU,同时大幅减少了特征提取网络层数,在主特征提取网络中分别使用3次CBL和CSP结构对图片进行下采样。CBL结构使用LeakyReLU作为激活函数的标准卷积层,CSP结构则对输入特征进行拆分,仅对其中的50 %进行卷积和残差操作,另50 %与输出特征相加,在减少计算量的同时保证了检测精度。
图1 YOLOv4-tiny网络结构
在深层特征提取网络中,去除了YOLOv4中的空间金字塔池化(spatial pyramid pooling, SPP)结构,网络仅采用2个不同尺度的特征层进行分类与回归预测。同时对FPN结构也进行一定程度的简化,在13×13的特征图上采样(upsampling)与26×26的特征图融合后,将YOLOv4中的5次标准卷积替换为1次CBL,大幅减少了计算量,加快了网络推理速度。YOLOv4-tiny通过利用简化的FPN结构对语义信息更加丰富的深层特征进行Upsampling与浅层特征融合,有效提高了网络的检测精度,也避免引入过多的参数量。
1.2轻量级注意力机制
挤压与激励(squeeze and excitation, SE)[10]注意力机制是目前常用的一种通道注意力机制,通过全连接(fully connected, FC)层生成对应特征通道的权值,但两次非线性的FC层不可避免会引入大量参数和计算量,尤其在通道数较多的深层特征中。
近年来一些学者提出了轻量级注意力机制,如高效通道注意力(efficient channel attention, ECA)机制[11]以及混合空间和通道注意力机制的SA-Net(shuffle attention network)[12]。SA-Net引入了Shuffle单元将输入特征分组,并对每个分组后的特征拆分,分别提取空间注意力和通道注意力,使得SA-Net有着较低的计算量和良好的性能。但通道分组会带来过多的并行计算,这对于仅有CPU的小型设备会造成额外的计算开销。ECA则使用大小为k的一维卷积来获取局部相邻通道间的信息,k根据输入通道数自适应调整。相较于SE结构的FC层,一维卷积带来的参数量几乎可以忽略。ECA结构如图2所示。
图2 ECA机制
2、网络设计与改进
2.1 Bneck_E结构
轻量级CNN结构如SqueezeNet[13]、ShuffleNet[14]、MobileNet[15]等网络,在参数量和准确度上均有较好的表现。其中,MobileNet使用的深度可分离卷积能够在替换标准3×3卷积时,令参数量至少降低9倍,同时不会造成特征信息的丢失,ShuffleNet则对输入特征进行分组,分别进行卷积操作,再利用Shuffle结构进行通道混合,保证不同特征通道间的信息交互。
YOLOv4-tiny中的CSP结构通过拆分输入特征以达到减少参数的目的,不可避免地造成下采样过程中部分通道信息的丢失,而主特征提取网络层数的缩减也不利于深层特征信息的提取。本文使用MobileNetv3[16]的瓶颈(bottle neck, Bneck)结构替换原网络的CSP及CBL结构,替换后的特征提取网络共1层标准卷积,15层包含Bneck结构的卷积,有效增加特征提取网络层数。Bneck结构利用1×1点卷积对输入特征通道进行扩张,通过深度可分离卷积提取特征,SE注意力结构会获取每一个通道的权重,通过与特征图相乘完成重要通道的标记。逆残差结构在输入时对特征图进行升维,有效提高了特征通道数,降低了通道数对特征提取的限制,同时,不会引入多余的参数。在网络中添加的SE注意力模块,则能使网络更有效地提取重要的特征信息。使用Bneck结构可以有效提升模型检测精度,网络参数量相比传统卷积网络还会有所降低。
但更深的特征提取网络,以及SE注意力机制中2次FC层都不可避免地带来更大的计算复杂度和参数量,因此,本文提出一种改进的Bneck_E结构,具体结构如图3所示。将原网络中的SE-Net替换为轻量级注意力机制ECA,可以有效地减少使用Bneck带来的参数量,降低网络层数增加对模型速度的影响。在表1中对比了特征提取网络中包含SE和ECA的特征层参数量,可以看出,Bneck_E结构的参数量有较大幅度的降低,更适合用于轻量级的目标检测网络中提取特征信息。
图3 Bneck_E结构
表1部分特征层参数量对比
2.2改进FPN结构
YOLOv4-tiny在深层特征提取网络中,利用FPN结构获取2个尺度特征图的预测框结果,将深层特征上采样与浅层特征融合,以获取不同尺度的特征,用包含LeakyReLU的CBL结构提取特征。虽然FPN结构简单且有较低的计算量,但2个尺度的特征非常有限,自下而上的特征融合,忽略了浅层特征中丰富的位置信息,不利于网络对小目标的感知。由于本文使用MobileNetE作为主特征提取网络后网络深度增加,使得浅层特征中包含的位置细节被进一步压缩,因此,本文提出一种优化的FPN结构。
利用ECA注意力机制对输出的3个不同尺度的特征通道进行加权,标记特征图中重要通道。在FPN中增加52×52的浅层特征,通过下采样与深层特征融合,提升网络对小目标的检测精度。52×52的浅层特征并不用于分类与回归预测。由于加入了自上而下的特征融合,在特征下采样中使用了深度可分离卷积代替标准3×3卷积,并增加注意力机制,提高下采样时对重要通道的关注,有效地降低了下采样操作带来的参数量,且提高了网络检测精度。本文模型如图4所示。
图4本文模型
在表2中对比了使用不同类型特征融合网络的模型大小和均值平均精度(mean average precision, mAP)。mAP为平均精度(average precision, AP)的均值,可以看出,仅有自下而上特征融合的FPN结构,模型预测精度最低,增加自下而上多尺度融合的PANet(path aggregation network)结构,虽然mAP有一定提升,但模型大小有较大上升。结合深度可分离卷积进行下采样和ECA机制的FPNE,保留了双向特征融合,同时具有较高的检测精度和最低的参数量。
表2不同类型的特征融合网络对比
2.3损失函数
模型的损失函数包括类别损失、置信度损失和边界框回归损失,其中,边界框回归损失通常使用交并比(intersection over union, IoU)来计算预测框和真实框IoU,但当边界框之间没有相交时,IoU的值会一直为0,无法优化未重叠的边界框。在YOLOv3中,有人提出使用GIoU(generalized IoU)作为边界框回归损失函数,GIoU的公式如下
3、实验
3.1实验数据与环境
本文实验数据使用VOC2007和VOC2012作为训练数据集,共16 551张图片,包含20个类别。使用VOC2007的test部分作为测试集,共4 952张图片。实验环境使用Ubuntu18.04操作系统,显卡2080ti, CPU为Intel®i7—10750H处理器。深度学习框架使用TensorFlow,训练参数Batchsize为16,初始学习率为0.001,随迭代次数不断减小,epoch设为100。
3.2实验结果与分析
本文使用mAP和帧率(frame per second, FPS)作为实验结果评价指标,本文模型在VOC测试集中的aeroplane, cat, train, bus, dog, horse, cow, motorbike, bird, sofa, bicycle, person, tvmonitor, car, boat, diningtable, sheep, chair, pottedplant, bottle分别为0.95,0.94,0.94,0.93,0.92,0.89,0.87,0.85,0.83,0.83,0.83,0.82,0.77,0.75,0.73,0.72,0.66,0.64,0.62,0.59。可以看出:本文模型在20个类别的检测精度中,总体检测精度较高,基本满足实际检测需求。
在表3中,对比了YOLOv4-tiny和使用MobileNetv3、Bneck_E、FPNE不同网络结构后在VOC07+12数据集中训练和测试的效果,所使用的实验环境均一致。
通过对比发现,在使用MobileNetv3作为主特征提取网络后,mAP有较大提升,但参数量下降幅度不大,检测速度仅有略微提升。实验表明:利用Bneck结构增加特征提取网络深度,能有效提升模型检测精度,但对检测速度提升不大。在引入Bneck_E后有效减少了模型参数量,模型大小仅为12.7 MB,检测速度有大幅提升,但检测精度有一定下降。而本文模型mAP达到80.37 %,且模型大小仅有8.3 MB,虽然FPNE结构对检测速度有一定影响,但基本满足实际使用需求。因此,本文提出的模型,在检测精度和速度上较YOLOv4-tiny均有明显提升,有较好的效果。
表3实验结果对比
4核的Arm Cortex-A72处理器,主频为1.5 GHz,是一种小型嵌入式设备。由表4可知,YOLOv4虽然在准确率上高于其他轻量级模型,但在无GPU的小型嵌入式设备上检测耗时过长,难以满足实际需求。而本文模型相较于YOLOv4-tiny在检测单张图片耗时上降低了约12.3 %,实验表明,本文模型更适用于部署在嵌入式设备上。
表4树莓派检测效果对比
在图5中,对比了YOLOv4-tiny和本文模型实际检测效果,可以看出本文模型相比YOLOv4-tiny能够识别出更多的小目标,在目标较多的复杂场景下漏检率低于YOLOv4-tiny,有较好的检测效果。
图5实际检测结果对比
4、结束语
本文提出了一种改进的YOLOv4-tiny,针对原特征提取网络层数较少,无法有效提取到深层特征信息的问题,提出使用轻量级注意力机制的Bneck_E代替CSP结构,增加网络深度的同时降低了参数量。为增加网络对小目标的感知,在主特征提取网络后引入ECA机制,结合PANet的双向尺度的特征融合,使用深度可分离卷积对浅层特征进行下采样,与深层特征融合,有效提升了模型检测精度,且并未引入过多参数。在VOC数据集中的实验表明,本文模型较YOLOv4-tiny, mAP提升了4.4 %,模型大小仅为其36 %,FPS达到了103,满足实际使用的实时性需求。对各类目标均有较好的检测效果,具有较好的通用性。
参考文献:
[1] 王兵,乐红霞,李文璟,等.改进YOLO轻量化网络的口置检测算法[J].计算机工程与应用,2021,57(8):62-69.
[2] 曹远杰,高瑜翔.基于GhostNet残差结构的轻量化饮料识别网络[J].计算机工程,2022,48(3):310-314.
基金资助:贵州省科技计划资助项目(黔科合基础[2019]1130号,黔科合支撑[2020]2Y007号);
文章来源:李秉涛,何勇,袁琳琳.基于ECA和YOLOv4的轻量级目标检测网络设计[J].传感器与微系统,2023,42(09):100-104.
分享:
脑机接口(brain-computer interfaces,BCI)旨在为大脑和外部设备(计算机或其他电子设备)之间建立直接通信,而不依赖于任何肌肉或外周神经.BCI技术的应用有助于患有肌萎缩性侧索硬化、脑卒中、脑瘫、脊髓损伤等“闭锁综合征”的病患恢复日常交流和生活的能力.
2024-12-07随着我国公路建设的蓬勃发展,高速公路的隧道数量持续增加。当前,我国高速公路隧道主要采用人工巡检方式。尽管这种方式具有一定的便利性,如设备操作简单、巡检流程灵活以及问题处理及时等,但在实践中却面临诸多挑战。由于隧道内车流密集、空间有限且环境质量较差,使设备的日常维护和事故排查工作变得异常困难。
2024-10-14随着高速公路网络的日益庞大,其运营管理和维护保养工作也面临着前所未有的挑战,特别是在隧道等复杂路段,由于其特殊的环境和构造,安全问题尤为突出。因此,利用先进的技术手段,提高隧道的巡检效率和质量,已成为当前高速公路管理领域亟待解决的问题。传统的隧道巡检主要依赖人工完成。
2024-10-14随着建筑行业的快速发展,电梯的安装质量直接关系到乘客的生命安全。因此,对电梯安装质量的检测有重要意义。传统的电梯安装质量检测方法依赖于人工目视检查和简单的工具测量,容易受到人为因素和环境因素的影响,难以保证检测的准确性和可靠性。本研究旨在探讨计算机视觉技术在电梯安装质量检测中的应用,通过分析电梯安装质量检测的特点和需求。
2024-06-25在数字化时代,电力企业面临巨大挑战和机遇[1]。客户需求激增,市场竞争激烈,迫使电力企业寻求创新和改进[2]。为应对这一挑战,基于Hadoop大数据框架的电力智能客服辅助决策系统成为解决方案,助力电力企业提升客户服务质量和运营效率[3]。
2024-06-06目前,中药饮片的识别分类方法主要还停留在人工阶段,需要大量的专业人才,费时费力。随着科学技术的进步,利用计算机视觉技术进行中药饮片的识别是未来社会的发展趋势[1]。随着人工智能技术的不断发展,它给各行各业的发展带来了日新月异的变化[2]。通过神经网络提取中药饮片的特征参数,建立识别分类模型进行分析,使得中药饮片识别也变得不再那么困难。
2024-01-17ChatGPT全称是Chat Generative Pre-trained Transformer, 是OpenAI公司于2022年11月发布的一款聊天机器人程序。ChatGPT能根据用户提出的问题,经人工标注数据集训练的算法智能生成回答内容,而不仅仅只是加工现有内容。它能够像人类一样自然地进行对话,并且具备完成各种任务的能力,包括邮件撰写、视频脚本创作、文案编写、翻译以及代码生成等。
2024-01-16汉字的结构复杂、形态多样,每个汉字都具有结构的唯一性,汉字骨架作为汉字字形的重要拓扑描述具有重要意义。汉字骨架生成广泛应用于字形技术[1]、汉字识别[2]、汉字生成[3]等汉字信息处理领域。汉字骨架可由一段书写序列进行表示,与图像表示相比,序列格式的汉字骨架包含更多的动态信息,如时间顺序、轨迹等,这些信息对汉字的笔画连接、拓扑结构等有更为清晰的描述,同时书写序列可以很容易地转换为图像[4]。
2024-01-03图像融合是信息融合的一个分支。红外传感器抗干扰能力强,但其空间分辨率较低,缺少纹理细节。可见光图像具有更多细节信息和高分辨率,但在光照很弱或物体被遮挡的情况下效果不好[1]。为了利用可见光和红外图像的互补信息,红外和可见光图像融合非常必要,现已广泛应用于众多领域中[2]。
2024-01-03国际石油勘验领域由于受行业划分的缘故,各系统之间难以兼容,使井场内部形成了一个个的信息孤岛。为了实现不同施工主体之间数据信息的兼容共享与远程控制,甲方在招投标合同及其澄清中明确地规定了乙方必须能够提供WITSML(Well Site Information Transfer Standard Markup Language,井场信息传输标准标记语言)数据流。
2023-09-25人气:5468
人气:5205
人气:4385
人气:3386
人气:3116
我要评论
期刊名称:计算机应用与软件
期刊人气:3649
主管单位:上海市科学院
主办单位:上海市计算技术研究所,上海计算机软件技术开心中心
出版地方:上海
专业分类:计算机
国际刊号:1000-386X
国内刊号:31-1260/TP
邮发代号:4-379
创刊时间:1984年
发行周期:月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:1.079
影响因子:0.408
影响因子:0.260
影响因子:0.727
影响因子:0.489
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!