91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于改进ResNet的多标签胸部X光图像分类

  2025-01-06    136  上传者:管理员

摘要:针对目前胸部X光图像分类方法存在X光特异性特征表达不充分、高频图像特征提取效果差、疾病样本数量不平衡等问题,提出一种基于改进ResNet的多标签胸部X光图像分类方法(multi-label chest X-ray image classification based on improved ResNet, MLC-ResNet)。首先,设计一个多尺度特征提取和融合模块,以获取更丰富的特征信息;其次,将八度卷积替换为残差结构中的普通卷积,解决X光特异性特征表达不充分问题;再次,为改善高频特征提取效果,在ResNet中引入改进后的多层感知器(multilayer perception, MLP),更好地揭示图像的细节和整体结构,增加分类性能;最后,使用加权交叉熵损失函数增加样本数较少的类别权重,改善样本分布不平衡问题。在ChestX-Ray14和CheXpert数据集上进行实验测试,其平均AUC分别是0.858 7和0.844 7,相较于ResNet分类算法分别提高了4.47%和3.20%。通过与现有方法的对比实验,进一步证明MLC-ResNet模型具有更好的性能。

  • 关键词:
  • CXR
  • ResNet
  • 加权交叉熵损失函数
  • 多层感知器
  • 胸部X光图像
  • 加入收藏

随着深度学习技术和大规模标注数据集的发展,生物医学图像处理的研究也越来越受到重视。作为临床诊断中最实用的技术,胸部X 射线(chest X-ray, CXR)检查是目前用于识别各种肺部、心脏疾病、乳腺癌和其他胸部相关疾病最为广泛的方法之一。医生通过X光图像识别出病灶和判断疾病的种类,有效提高了诊断的准确率和效率,但人工方式需要耗费大量的时间和精力从复杂的影像图像中提取病理信息并判断患者的患病类型,给医疗资源造成很大的压力,同时医师主观决策会影响诊断的客观性。因此,计算机辅助诊断(computer aided diagnosis, CAD)[1]是解决这个问题的有效方法。早期的CAD技术是基于传统机器学习分类方法。Kumar等[2]利用经过预训练的ImageNet处理肺结节图像,并使用传统分类器进行分类,但是预处理的ImageNet模型学习到的特征存在不同的分布和统计特性,影响模型性能。尽管机器学习在胸部图像分类领域取得了一些成果,但是仍存在严重依赖人工标记,在网络训练过程中存在计算代价高、处理流程复杂等问题。近年来,深度学习迅速发展,并在计算机视觉领域表现优异。深度学习使用卷积神经网络在不同层次上自动学习从低级到高级的图像特征,弥补了传统技术需要人工设计和选取特征这一缺陷。

目前基于深度学习的计算机辅助诊断在乳腺癌检测、肺结节分类、肺炎疾病分类等方面已经取得较好的效果。AlexNet是多标签图像分类的开篇之作,可以更好地捕捉图像中的特征,从而更精确地对图像进行分类,但AlexNet在训练过程中需要大量的数据增强技术,导致参数量急剧增加[3]。针对这个问题,Huang等[4]提出DenseNet网络,通过引入密集连接,使得模型可以充分利用之前层的特征信息,加强了特征传递和信息流动;Anna等[5]提出SENet(squeeze-and-excitation networks),在多标签分类任务中,可以帮助模型自动关注和强调与标签相关的区域和特征,但模型比较复杂,训练时间较长。Wang等[6]在对ChestX-Ray14数据集进行分类时,研究了几种预训练模型的性能,研究表明,ResNet网络[7]优于研究中考虑的其他模型,但传统的ResNet网络仅对全连接层进行微调,未考虑其他网络层的特征信息,因此,需要考虑设计经过优化的特征提取模块。Teixeira等[8]利用现有的预训练深度学习模型和Grad-CAM方法构建模型,但未注重X光图像的特异性表达。

因此,在现有的X光图像多标签数据集分类研究中,主要存在样本不平衡问题以及X光图像特异性特征表达不充分、高频特征提取效果差等问题。针对上述问题,本文提出一种改进ResNet的多标签胸部X光图像分类模型。在模型特征提取阶段设计一个多尺度特征提取和融合模块,以获取更丰富的特征表示;设计八度卷积残差模块,旨在提取病灶的特异性特征;在模型中引入改进后的多层感知器模块(DMLP),使得模型在通过MLP利用高频特征获取更多的信息和细节的同时,可以有效减少参数数量和计算量,提高模型的计算效率;最后,使用加权交叉熵损失函数,以改善样本不平衡问题。


1、多标签胸部X光图像分类


1.1 基于传统方法的分类

机器学习算法可以实现人类决策过程的自动化,同时保证了一定的正确率。K-最近邻(k-nearest neighbors, KNN)、决策树(decision tree)、支持向量机(support vector machine, SVM)和神经网络是构建算法适配的常见方法。Ahmad等[9]侧重于利用各种分类器检测多标签胸部图像的感染区域,其中分类器包括贝叶斯、K近邻和基于规则的分类器,并使用各种评估标准来评估性能,但仍未考虑不同类型之间的非线性关系,使模型不能使用复杂的数据模式。Rezaei等[10]在多层核极限学习机的每一层中使用了基础内核的线性组合,但未考虑特征与标签之间映射关系。Mehrang等[11]设计了基于多标签和分层分类的监督机器学习分类,并使用logistics回归、随机森林和极端梯度提升作为候选分类器,其中不同分离器有不同的分类效果,但传统的机器学习算法通常需要人工选择和提取特征,且需要专业领域知识和经验,使得传统算法的应用受限。

1.2 基于深度学习的分类

基于经典CNN的网络通常使用原始网络、简单的变体和深度学习等通用技术直接对胸部图像进行分类。例如Liu等[12]提出一种新的课程学习范式,通过添加高优先级异常,并通过训练来构建局部类别以形成新的训练集,但未考虑样本数量分布不平衡问题;Jin等[13]引入了一种新的加权聚焦欧几里得距离度量损失函数,动态地增加少样本的权重,但没有关注不同疾病之间的特征关系,导致分类性能下降;Guan等[14]使用命名为ConsultNet的双分支架构来学习判别特征,同时实现自动关注疾病关键区域和自适应捕捉不同疾病特征之间的内在关系,但存在模型参数量过大的问题。

在深度学习模型中加入注意力机制,以捕获疾病的关键区域也是当前研究的一个重要方向。例如Jiang等[15]通过自注意力机制捕获短距离和远程视觉信息,使用多层重叠贴片嵌入对图像进行标记、零填充的动态位置前馈对位置进行编码,但未考虑患病区域重叠导致在对图像进行标记时,出现漏标或误标的情况;Chen等[16]利用了通道注意力模块和空间注意力模块,可选择性地增强与病变区域高度相关的特征。


2、模型改进


2.1 MLC-ResNet网络架构

ResNet是一种深度神经网络结构,广泛用于计算机视觉任务[7]。该网络通过引入残差模块和残差连接的方式解决了梯度消失问题,进而可以训练更深的网络来提升网络的性能。尽管ResNet对图像分类任务表现出色,但对X光图像特异性表达不够敏感,无法捕捉X光图像中不同疾病特征的复杂性,而且ResNet在训练时面临容易偏向样本数量较多的类别,对样本数量较少的类别表现较差,从而降低了整体的分类性能。

因此,本文在ResNet50的基础上提出一种改进的MLC-ResNet算法,其模型框架如图1所示。MLC-ResNet主要包含6层,第1层的卷积核大小为7×7,首先输入大小为224×224的图像,经过第1层卷积后得到大小为56×56的特征图,然后将得到的特征图输入到多尺度特征提取和融合模块中。多尺度特征提取和融合模块由不同的卷积和池化层组成,以获取不同尺度的特征图并进行特征融合,扩大感受野,获取更加丰富的特征表示。第2层包含1个步长为2的卷积层和3个八度卷积残差模块,得到28×28的特征图。八度卷积残差模块是用八度卷积替换残差结构中的普通卷积,可以更好地提取不同疾病的特异性特征信息。第3层、第4层和第5层都包含最大池化层、卷积层和八度卷积残差模块,负责提取不同层次的特征信息并进一步降采样,同时保留更多特征信息。第6层再经过DMLP模块,使得MLP利用细节特征信息的同时,减少模型的参数量,降低计算复杂度。最后,进入全局平均池化层和全连接层输出最终预测结果。

图1 MLC-ResNet模型框架

2.2 多尺度特征提取和融合模块

为了解决特征图中的重要信息未被充分利用的问题,本文设计多尺度特征提取和融合模块(multi-scale feature extraction and fusion module, MSF),其由不同尺度的卷积核和池化操作构成,用于适应不同大小的输入特征图,提取输入特征图中重要的特征信息,同时减少特征图的空间维度,减少计算量和参数量,然后采用不同步长的普通卷积层保留不同尺度的特征,扩大感受野。

MSF模块包括2个最大池化层和1个卷积分支,如图2所示。在全局最大池化层中,先经过一个3×3的卷积进行特征提取,再经过最大池化层将特征图尺寸调整到固定大小,提取输入特征图中重要的特征。卷积分支包括1×1卷积层、3×3卷积层和7×7卷积层,采用不同步长的普通卷积方式缩小特征图,有效整合、保留不同尺度的局部特征信息。同时,在每个卷积后使用BN处理和ReLu激活函数。最后,对每个分支的特征进行级联拼接,得到输出特征。多特征提取和融合过程为:

图2 MSF结构图

式中:Xt表示输出特征,Xi表示输入特征,PGAP表示全局最大池化,f表示卷积,σ表示特征拼接。公式(2)和公式(3)分别表示2个最大池化层,公式(4)表示卷积分支。

2.3 八度卷积

普通卷积的所有输入和输出特征映射具有相同的空间分辨率,其中一些特征映射表示空间冗余的低频信息,导致参数和计算量较大。同时,普通卷积在处理低频特征时容易丢失细节信息,对低频部分的处理不够精确。八度卷积通过引入低频和高频分支,同时处理多尺度的特征,以解决上述问题。它将输入特征图分为低频和高频分支,低频分支在下采样后得到更粗糙的特征图用于提取全局信息,而高频分支保留更加精细的细节,这样可以显著减少计算量,并且更能够捕捉多尺度特征。八度卷积具体运算过程如图3所示。

图3 八度卷积运算过程

由图3可知,八度卷积将特征图X转化成2个不同分辨率的分量:低频分量XL与高频分量XH,卷积核也分成2个分量:W=(WH,WL)。首先对高频分量进行卷积操作,得到特征图YH→H,为了实现高低频特征之间的有效通信,需要将在低频分量上进行卷积和上采样后的信息YL→H更新到高频分量上。同样地,低频分量进行卷积操作得到特征图YL→L, 将高频分量进行平均池化操作和卷积操作,得到特征图YH→L,实现高频向低频的信息更新,最终按元素相加,得到输出特征图Y=(YH,YL)。具体过程可表示为:

式中:XL表示低频分量,XH表示高频分量,f(X;W)表示参数为W的卷积,upsample(f(XL;WL→H),2)表示通过最近插值进行的系数为2的上采样操作,

pool(XH,2)表示核大小为2×2且步长为2的平均池化操作,YH→H、YL→L表示频内更新,YH→L、YL→H表示频间通信。

本文以ResNet50为基础,将ResNet50网络中的残差模块替换成八度卷积残差结构,其中八度卷积残差结构如图4所示。

图4 八度卷积残差结构

2.4 DMLP

高分辨率特征图包含更多细节和局部信息,导致特征图中存在复杂的关系,且高频特征图通常会增加模型的参数量,也会增加模型的复杂度和计算量。MLP可以通过多层非线性映射提取更加复杂和抽象的特征,与高频特征进行结合,可以充分发掘高频特征的表达能力,更好地区分不同类别之间的差异,提高模型的准确性和减少过拟合的风险,但MLP会导致模型的参数量增加,对计算资源要求较高。

因此,本文在MLP中加入深度可分离卷积,通过将传统的卷积分为深度卷积和点卷积,从而减少参数数量和计算量,提高模型的计算效率;通过捕捉不同通道之间的特征关系,从而增加模型的表达能力,提高运算速度。在全连接层前后添加Dropout层,通过引入正则化来减轻过拟合的问题。具体结构如图5所示。

图5 DMLP结构图

2.5 加权交叉熵损失函数

ChestX-Ray14数据集仍存在疾病数量严重不平衡,有些类别的样本数量较少,这可能导致模型更偏向于预测数量较多的类别,导致训练不充分,产生偏差。为了解决这个问题,本文引用了加权交叉熵损失函数,如公式(7)。加权交叉熵损失函数通过为不同类别的样本赋予不同的权重,对样本进行加权处理,从而解决样本不平衡问题。具体来说,加权交叉熵损失函数会为数量较少的类别分配较大的权重,使得较少的类别在损失计算中得到更大程度的关注和重视。

式中:s为类别,ns为样本数量,ys为类别数量,pl为预测概率,wk为类别权重,y

为第i个样本属于类别s的数量,lk=ysi为第i个样本属于类别s的真实标签值,pl(y=k|y

)为第i个样本属于类别s的预测概率值。


3、实验结果与分析


3.1 数据集

为了验证模型的性能和效果,本文采用由美国国立卫生研究院(NIH)发布的胸部X射线数据集ChestX-Ray14[17]以及公开的胸片数据集CheXpert[18]作为实验所用数据集。其中,ChestX-Ray14数据集包括30 805例患者的112 120张正面X光图像,图像大小为1 024×1 024。每张图像都被标记为一种或多种常见的胸部疾病标签,例如心脏肥大、肺不张、肺气肿等。CheXpert数据集是多标签数据集,包括来自64 540名患者的223 414张胸片正面和侧面X射线扫描图像。CheXpert数据集存在一个使用自然语言处理(NLP)进行标记的训练集,其中每个病理情况被标记为存在、不存在或不确定。此外,该数据集还包括一个有234张图像的手工标注的验证集和一个包含668张图像的隐藏手工标注的测试集。数据集中疾病种类分布情况如图6所示。

3.2 实验环境与参数配置

本实验使用PyTorch深度学习框架搭建、训练模型,实验环境为Windows11;软件环境为PyCharm2023、Pytorch1.11、Python3.8、CUDA11.3;CPU为Intel(R) Xeon(R) Platinum8255C CPU @2.50GH ;GPU为Nvidia4090。实验输入的图像尺寸为1 024×1 024,批训练处理量为32,初始学习率为0.001,使用Adam优化器进行优化,共训练300轮。

3.3 评价指标

在计算机辅助诊断中,为了选择客观公正的指标对比算法的性能,业界通常采用受试者特征(receiver operating characteristic, ROC)曲线来表现算法的识别能力。ROC的计算和混淆矩阵相关,混淆矩阵如表1所示。

图6 数据集疾病种类数量

表1混淆矩阵

表1中NTP为真正例数,表示预测为阳性,实际也是阳性的样本数;NFP为假正例数,表示预测是阳性,实际是阴性的样本数;NFN为假反例数,表示预测为阴性,实际为阳性的样本数;NTN为真反例数,表示预测为阴性,实际也为阴性的样本数。

ROC曲线的横轴表示假阳率(false positive rate, FPR),纵轴表示真阳率(true positive rate, TPR),FPR和TPR的计算公式为:

ROC曲线下的面积(area under the curve of roc, AUC)用于比较分类模型的性能,现广泛应用于医学图像分类算法的评估中,ROC曲线越接近1,AUC的值越大,说明算法性能越好,分类效果越好。

分类模块的准确率ACC用于衡量模型在分类任务中的整体预测准确性,准确率公式表示为

精确率P是在总体样本中,模型预测正确的样本数量与总样本数量的比率。精确率公式表示

分类模型的召回率R即预测为正的样本数量占实际为正的样本数量的比重,召回率公式表示为

F1是一种常用的综合评价指标,用于平衡分类模型的准确率和召回率,F1的公式表示为

3.4 ChestX-Ray14数据集上实验结果对比分析

图7 ROC曲线图

本文对肺不张、心脏肥大、肺实变、水肿、积液、肺气肿、纤维化、疝气、渗透、肿块、肺结节、胸膜增厚、肺炎、气胸等14种胸部疾病分类的ROC曲线如图7所示。由图7可以看出,每种疾病的ROC曲线均在图中左上方,其中,肺气肿、疝气和积液的AUC都大于0.9,平均的AUC为0.858 7,说明模型的整体分类性能较好。

模型在ChestX-Ray14数据集上的准确率和F1值如表2所示,平均准确率为0.801 5,平均F1为0.807 4。准确率和F1作为AUC值的补充指标,进一步说明本文方法分类性能的优异性。

表2ChestX-Ray14数据集上的准确率和F1值

将ChestX-Ray14数据集分为训练集、验证集、测试集,并遵循7∶2∶1的比例划分数据集,与5种方法进行对比,具体对比结果如表3所示。

由表3可以看出,本文方法与其他5种方法相比,14种胸部疾病的平均AUC值有较大提高,平均AUC最多提高了0.039 7。本文方法与文献[19]相比,平均AUC提高了0.039 7;本文方法与文献[20]相比,平均AUC提高了0.016 7,其中肺炎疾病提升幅度最大,提高了0.099 7;本文方法和文献[21]相比,平均AUC提高了0.032 7,其中肺实变和肺炎疾病提升较为明显,分别提高了0.130 4和0.129 7;本文方法与文献[22]相比,平均AUC提高了0.021 2,其中肺炎疾病提升较为明显,提高了0.098 6;本文方法与文献[23]相比,平均AUC提高了0.027 7,其中肺实变和积液提升最为明显,分别提高了0.098 4和0.071 5。

3.5 CheXpert数据集上实验结果对比分析

为了验证模型的泛化能力,在CheXpert数据集上测试了本文模型。CheXpert数据集上实验结果如表4所示。由表4可以看出,大部分疾病的AUC接近0.9,平均的AUC为0.844 7,说明模型的整体分类效果好;每种疾病的ACC以及F1值几乎大于0.8,说明模型对每种疾病的预测效果都好。

将CheXpert数据集分为训练集、验证集、测试集,遵循7∶2∶1的比例划分数据集,与3种方法进行对比,具体对比结果如表5所示。

表3本文与5种方法的AUC对比结果

由表5可以看出,本文方法与其他3种方法相比,14种胸部疾病的平均AUC值有较大的提高,平均AUC最多提高了0.085 7。本文方法与文献[24]相比,平均AUC提高了0.012 0,其中肺不张和心脏纵隔扩大疾病提升幅度最大,分别提高了0.078 6和0.083 0;本文方法与文献[25]相比,平均AUC提高了0.080 7,其中肺炎疾病提升幅度最大,提高了0.158 0;本文方法与文献[26]相比,平均AUC提高了0.085 7。

3.6 消融实验

为了评估模型骨干网络的先进性及MSF模块、DMLP模块的有效性,本文在ChestX-Ray14数据集上进行消融实验。分别移除各个模块,在同等条件下测试移除后模型的AUC值,并进行对比,结果如表6所示。

表6消融实验结果

由表6数据可知,添加MSF模块的网络模型由于扩大感受野,可以获取更多全局信息,相比原模型的平均AUC提高了0.018 6;通过使用八度卷积替换残差结构中的普通卷积后,平均AUC提高了0.017 0;通过引入DMLP模块,使模型更好地提取高频信息,平均AUC提高了0.019 1;最终,模型的平均AUC为0.858 7,相比原模型提高了0.044 7。同理,模型在CheXpert数据集上进行实验,得到的平均AUC为0.844 7,相比原模型提高了0.032 0。


4、结束语


本文提出一种基于改进ResNet的多标签胸部X光图像分类方法。首先设计一个多尺度特征提取和融合模块以提取不同尺度的特征信息并进行融合;其次通过八度卷积残差结构,提取不同疾病的特异性信息;然后通过引入DMLP模块,获取更加高效的高频特征信息;最后将获得的特征输出进行分类预测。采用ChestX-Ray14和CheXpert数据集进行实验,结果表明本文方法的平均AUC分别达到85.87%和84.47%。与其他分类方法相比,本方法获得了更高的分类性能,从而验证了本文方法的有效性。


参考文献:

[19]李锵,王旭,关欣.一种结合三重注意力机制的双路径网络胸片疾病分类方法[J].电子与信息学报,2023,45(4):1412-1425.


基金资助:国家自然科学基金项目(61170060);


文章来源:方燕燕,陈辉.基于改进ResNet的多标签胸部X光图像分类[J].山东理工大学学报(自然科学版),2025,39(02):1-9.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

电子与信息学报

期刊名称:电子与信息学报

期刊人气:5258

期刊详情

主管单位:中国科学院

主办单位:中国科学院电子学研究所,国家自然科学基金委员会信息科学部

出版地方:北京

专业分类:科技

国际刊号:1009-5896

国内刊号:11-4494/TN

邮发代号:2-179

创刊时间:1979年

发行周期:月刊

期刊开本:大16开

见刊时间:一年半以上

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定