首页 > 论文范文 > 医药卫生论文 > 影像检验论文 > 影像工程论文 > 基于双向多层级交互网络的肺部CT图像分类

基于双向多层级交互网络的肺部CT图像分类

2025-06-19 52 上传者：管理员

摘要：近年来,基于局部窗口的Self-Attention机制在视觉分类任务中表现突出｡然而,由于存在感受野有限和建模能力弱的问题,其在处理复杂数据时效果不佳｡肺部CT图像中的特征复杂多样,包括结节的形状､大小､密度等,给深入挖掘数据中的深层次特征带来挑战｡针对这些问题,文中提出了一个全新的双向多层级交互网络模型Bi-directionalMulti-levelInteractionVisionTransformer(Bi-MIViT)｡该网络通过双向多层级交互机制有效融合空间和通道信息,从而显著提升特征提取的准确性和全面性｡在Transformer分支中,引入了高效的级联组注意力机制,旨在丰富注意力头特征的多样性,并增强模型对关键信息的捕捉能力｡同时,在卷积神经网络(ConvolutionalNeuralNetworks,CNNs)分支中,通过设计DPblock,并利用点卷积(Point-WiseConvolution,PW)和深度卷积(Depth-WiseConvolution,DW)深入挖掘局部信息,以优化模型的表达能力｡此外,深度特征提取模块(DeepFeatureExtraction,DFE)的建立增强了特征传播和复用,提高了数据利用效率,实现了实质性的性能改进｡实验结果显示,在公开的COVID19-CT数据集和私有的LUAD-CT数据集上,所提算法优于对比的8种方法,实现了准确分类｡

关键词：
Transformer
分类
卷积神经网络
双向多层级交互
肺部CT图像
加入收藏

1､引言

在全球范围内,肺部疾病已成为严重威胁人类健康的主要因素之一.在21世纪,因肺癌､新冠肺炎等肺部疾病而死亡的人不计其数.肺癌是全球癌症相关死亡的主要原因之一[1],而肺腺癌是其中最常见的亚型之一,占比约40%,对患者的生存率有着显著影响.另一方面,新冠肺炎作为一种全球性流行病,迅速蔓延,给全球卫生系统带来了巨大挑战,对肺部健康造成了严重威胁.对新冠肺炎和肺腺癌病理分型的诊断判别是指导其治疗策略及评估患者预后的关键.

过去几年,VisionTransformer[2](ViT)及其变体[3G8]在计算机视觉领域展示了卓越的性能,通过使用多头注意力机制进行远程建模,实现了全局感受野覆盖.然而,它相对缺乏卷积神经网络中的归纳偏置,并且表现出相对较弱的泛化能力,弥补这一缺陷需要大量训练样本和数据增强策略.在处理中小型数据集时,ViT常常难以完全提取数据中的潜在规律和特征,这最终会影响其测试性能.为了应对这些挑战,SwinTransformer[9]利用基于窗口的多头注意力(WGMSA)引入归纳偏置,同时降低计算成本.然而,它的注意力主要集中在局部窗口内的信息,这导致其感受野有限,难以充分理解全局和局部信息之间的相关性.类似地,Twins[10]也利用局部窗口来提高效率.为了便于跨窗口通信,该方法对整个图像中采样的特征进行额外的自关注计算.同样,ShuffleTransformer[11]利用局部窗口并通过转换补丁进行跨窗口通信.然而,这些局部注意力模型只利用了图像空间局部性.MFELA[12]提出了基于全局和局部分支的增强局部注意力,但性能受数据质量的影响较大.ELSA[13]提出了包含Hadamard注意力和ghosthead的增强局部自注意力,QnA[14]提出了新的移位不变局部注意力层,但这两种方法仍难以捕获远程依赖关系.总之,虽然每种方法都对解决ViT的性能限制或有效地捕获远程依赖关系做出各自的贡献,但在远程建模能力与多尺度信息融合方面仍有进一步改进的空间.为了扩大局部窗口自注意力的感受野,提高其在中小型数据集上的性能,本文介绍了一种基于CNN和Transformer双并行分支的双向多层级交互的网络BiGdirectionalMultiGlevelInteractionVisionTransformer(BiGMIViT).本文提出了一个创新的双向多层级交互模块BiGdirectionalMultiGlevelInteractionModule(BiGMIModule),以解决局部窗口自注意力感受野有限的问题.在该模块中,Transformer分支采用高效的级联组注意力(CascadedGroupAttention,CGA)[15],通过融合不同分支的通道和空间信息,增强了注意力头输入特征的多样性.卷积神经网络分支采用以PW[16G17]和DW[18G19]为核心的DPBlock结构,有效提取图像中的局部特征.PW主要负责通道维度上的信息整合和转换,而DW专注于捕捉空间维度上更详细的纹理和边缘信息.针对ViT在中小型数据集上性能不佳的问题,本文设计了一个深度特征提取(DeepFeatureExtraction,DFE)模块,以实现特征充分利用,有效挖掘图像中的潜在信息.本文算法充分融合了通道和空间信息,增强了特征提取能力,为解决局部窗口自注意力感受野有限的问题提供了新的途径.综上所述,本文的主要贡献如下:

1)提出了一个基于CNN和Transformer的双向多层级交互网络模型,为Transformer和CNN分支的通道和空间维度提供了互补线索.

2)设计了深度特征提取(DFE)模块和双向多层级交互(BiGMI)模块.前者在模块内的不同层之间建立了紧密的连接,有助于增强模型捕获信息的能力.后者则利用双向多层级通道交互和空间交互,解决了局部注意力感受野有限的问题.

3)从多家医院收集并创建了一个新的肺腺癌数据集(命名为LUADGCT),其中包括来自234例临床病例的8956个CT切片,分为两类:肺微浸润腺癌(MIA)和肺原位腺癌(AIS).

4)在公开的COVIDGCT数据集和LUADGCT数据集上进行了大量实验,结果表明,本文算法优于现有的8种方法,实现了肺部CT图像的准确分类.

2､本文方法

本章将先介绍BiGMIViT的总体流程和具体结构.然后,本文将详细解释所提出的DFE模块和包含双向多层级交互的BiGMI模块,并分析这两个模块的特点和优势.需要注意的是,BiGMI模块通过逐层交互融合两分支的信息,有效捕捉和利用不同通道和空间之间的关联,为两个分支的特征学习提供了互补的线索.

2.1整体结构

图1给出了所提方法的总体架构.本文设计了一种用于细粒度特征提取和重建的DFE模块.首先,该模块采用密集连接[20],允许每一层直接接收来自前序所有层的输出,从而实现对图像信息的全面提取.然后,利用反卷积结构[21]对特征图进行重构,并将其恢复至原始大小,以优化后续模块对图像特征的学习效果.接着,将重构的特征图送入BiGMI模块,该模块包含CNN和Transformer两个并行分支.在CNN分支中,处理后的特征图被完整输入以捕捉图像的局部细节特征.然而,在Transformer分支中,特征图将按通道进行拆分,然后分别通过级联组注意力的每个注意力模块.BiGMI模块在两分支间逐层引入空间和通道交互模块,以实现CNN和Transformer分支中特征的深度融合与高效利用.通过这种设计,可以逐层提取不同粒度的特征信息,以提高模型对图像的理解能力.接下来将详细说明DFE模块和BiGMI模块的具体实现细节,以进一步展示BiGMIViT在图像特征提取和融合方面的优势.

图1BiGMIViT概述

2.2深度特征

提取模块DFE模块的架构如图1(b)所示.它主要由DT模块､DV模块和卷积池化模块组成.DT模块由密集(Dense)模块和过渡(Transition)层组成,其中Dense模块实现功能如式(1)所示,其中i表示该层的索引.Ti(