首页 > 论文范文 > 医药卫生论文 > 肿瘤科论文 > 胰腺癌论文 > 基于深度卷积和三向注意力感知的胰腺分割算法

基于深度卷积和三向注意力感知的胰腺分割算法

2025-01-24 112 上传者：管理员

摘要：针对胰腺分割任务中因体积较小且解剖结构复杂带来的挑战，提出一种级联的3D胰腺分割网络（CPS-Net）。CPS-Net由两部分组成：第一部分采用ResUNet快速定位胰腺区域，第二部分使用融合深度卷积（DCB）和三向注意力感知模块（ToSA）的网络来细化分割结果。DCB通过逐层提取多尺度特征，显著增强胰腺与周围组织之间的区分能力。而ToSA则结合轴向注意力、平面注意力和窗口注意力机制，全面捕捉胰腺在复杂背景中的细节结构。CPS-Net在NIH公开数据集上的Dice相似性系数、阳性预测值、敏感性和Hausdorff距离指标分别达到（87.42±1.58）%、（87.42±3.52）%、（87.74±4.58）%和（0.22±0.08）mm。实验结果表明，CPS-Net表现优于当前主流分割网络，显著提升胰腺分割精度。

关键词：
三向注意力
早期诊断
深度卷积
级联网络
胰腺
加入收藏

胰腺癌是一种恶性程度极高的肿瘤，由于早期难以发现，患者常在晚期才被诊断出来，5年生存率仅为11%［1］。为提高早期诊断率，计算机断层扫描（CT）和磁共振成像（MRI）等医学影像技术尤为重要，其中CT图像中的肿块是胰腺癌的直接征兆［2］。因此，自动准确的胰腺分割对检测异常体积变化和监测病理生长至关重要。然而，精确分割面临三大挑战：胰腺在CT图像中的占比极小（小于0.5%［3］），形状和大小的个体差异大，以及胰腺与邻近组织的强度相似，难以区分其边界。许多研究致力于实现胰腺分割自动化［4］。早期的传统方法，如统计形状建模［5］、水平集技术［6］和基于图谱的方法［7］常依赖于预定义的特征或阈值，但在应对胰腺外观和形状的显著变化时表现有限。近年来，深度学习在医学图像基于深度卷积和三向注意力感知的胰腺分割算法一般来说，现有的用于胰腺分割任务的深度学习框架可以分为两种：一阶段方法和二阶段方法［10］。一阶段方法直接在图像上分割器官，二阶段方法则先定位器官，再对定位区域进行分割。在一阶段胰腺分割中，Cai等［11］通过卷积神经网络（CNN）和卷积长短期记忆网络［12］，直接对二维图像进行胰腺分割。然而，由于胰腺的体积较小（小于整个CT体积的0.5%［13］），深度学习模型易受腹部CT中大比例非目标区域干扰，导致分割效果不佳。为了应对这一问题，二阶段方法应运而生，这类方法专注于胰腺区域，在第二阶段进行更加精细的分割。例如，Xue等［14］采用粗到细的策略，使用级联全卷积神经网络作为粗分割网络来初步定位，再在检测到的胰腺区域内进一步细化分割结果。然而，这些技术通常依赖于传统卷积，缺乏对全局上下文的捕捉，难以建模长距离语义关系。为了解决现有方法的不足，本研究提出新颖的二阶段级联分割方法，引入深度卷积（DCB）和三向注意力感知模块（ToSA），进一步提升分割准确性。CPS-Net包括两个阶段：第一阶段粗分割，利用基础分割网络3DResUNet［15］对胰腺区域进行初步定位；第二阶段细分割，对定位区域进行精细分割。在第二阶段的分割网络中，编码器采用大卷积核的DCB以增强特征提取，并引入ToSA，用于捕捉更为精细的空间特征关系，从而提高胰腺边界分割精度和全局上下文信息的表达能力。

1、方法

1.1网络框架

本文提出的CPS-Net框架如图1所示，是一个级联的二阶段胰腺分割网络，首先自动定位胰腺区域，然后对其进行精细分割。由于胰腺体积较小，通常仅占腹部CT图像的0.5%，而原始CT图像包含较大区域，因此设计级联框架。第一阶段利用3DResUNet（记为N1）对整个腹部CT图像进行初步分割，定位胰腺区域。第二阶段通过集成ToSA的深度卷积网络（记为N2），对定位区域进行精细分割。

图1 CPS-Net架构图

1.2胰腺区域定位

本文设计的N1用于在原始CT图像中快速定位胰腺，为N2提供精确分割的输入区域。为节约计算资源，第一阶段采用3DResUNet作为基础分割网络，如图1所示。该网络包含编码器和解码器路径，与U-Net［16］类似。编码器通过2×2×2的最大池化层实现下采样，解码器使用反卷积层进行上采样，并通过跳跃连接将编码器特征传递至解码器，以帮助恢复分辨率和重建图像- 383DResUNet结合ResNet（残差网络）［17］和U-Net架构，在卷积层间引入残差连接，有助于在深层网络中更好地传播梯度，避免梯度消失，同时保留每一层的输入信息，从而提升模型的表现力和稳定性。鉴于训练样本较少，CPS-Net采用图像块裁剪的训练方式，而非全图训练。具体来说，将原始图像裁剪为96×96×96的小块输入N1进行训练；测试阶段则使用滑动窗口策略对同样大小的图像块进行推理，得到粗略的胰腺分割结果。随后，通过形态学操作确定胰腺区域中心点，并从原始CT图像中裁剪出大小为256×256×128的区域，以覆盖整个胰腺。裁剪后的图像块将作为输入，进入第二阶段的N2进行精细分割。

1.3胰腺精细分割

在级联框架的第二阶段N2中，基于N1提供的定位区域，CPS-Net采用一个集成ToSA模块的深度卷积网络进行精确胰腺分割，如图1所示。编码器中使用大感受野的DCB以增强特征提取能力，随后通过ToSA模块引导网络聚焦于关键信息，优化特征表达，提高分割精度。

1.3.1 DCB

DCB的结构如图1所示，包含一个深度卷积层和深度卷积缩放模块（DCS）。在编码路径中，首先通过卷积核为7×7×7的投影层计算输入区域的特征图，接着将其输入DCB中。多项研究表明，大卷积核的深度卷积能够有效提取具有大感受野的特征，实现多尺度特征表示［18］。具体来说，DCB先通过7×7×7的深度卷积层提取特征，再进入DCS。深度卷积是一种特殊的卷积方法，它对每个通道独立进行卷积处理，而不进行跨通道的运算。在DCS中，使用1×1×1的深度卷积层将每个通道的特征扩展到原维度的4倍，经过GELU激活后，再缩小回原始通道维度，类似于多层感知机（MLP）。深度卷积将计算分解到每个通道中，计算量和内存需求都显著减少。这种设计丰富特征表达，同时相比MLP提高计算效率。因此，DCB的输出Z可以定义为：Y = DWC(LN ( X ) ) + X（1）Z = DCS(LN (Y ) ) + Y（2）其中，LN( )表示层归一化，DWC( )表示深度卷积，DCS( )表示深度卷积缩放。编码器的每一层都由两个串联的DCB模块组成。为了捕获更广泛的上下文信息，每个编码器块后加入核大小为2×2×2、步幅为2的下采样层。该下采样层将特征图的空间分辨率减半，使模型能够聚焦于更全局的特征，提高分割的整体表现。

1.3.2 ToSA

为增强网络对全局上下文信息的捕捉能力并提升分割性能，CPS-Net引入ToSA。与卷积操作不同，自主注意力机制可以在图像中同时关注远距离的区域，学习全局信息并对图像中的每个位置进行准确的分割预测。受文献［19］的启发，本文通过轴向注意力MHAZ、平面注意力MHAXY和窗口注意力MHAW提高空间注意力的计算效率，如图1所示。MHAZ模拟垂直方向（轴向）特征token之间的长距离依赖关系，捕捉图像垂直轴上不同位置之间的相关性。MHAXY在每个二维切片内建模长距离依赖，能够捕捉切片内全局特征间的关系，提升切片内的分割精度。MHAW则通过滑动窗口机制，在局部三维窗口内进行注意力建模，捕捉窗口内部的局部相关性，从而在降低全局注意力计算量的同时，保留一定的全局信息建模能力。对于MHAZ和MHAXY，本文采用可学习的绝对位置编码，使模型能够通过训练自动学习这些维度上各位置的特征表示。而MHAW使用相对位置编码，适应滑动窗口机制，强调窗口内部不同特征间的相对关系。这种编码方式关注特征间的相对位置，而非固定位置，有助于局部特征的精细建模。当输入为x时，最终的注意力计算公式为：MHA(y)=MHAZ(y) +MHAXY(y) +MHAW(y)，其中y=LN(PE(x))，PE( )表示对输入进行patch embedding操作，将其展平并映射为嵌入向量。因此，ToSA模块的输出z可以表示为：z = MLP(LN (y)) + y（3）y = MHA (LN (PE ( x ) ) ) + PE ( x )（4）其中，MLP( )表示多层感知机。通过这种方式，模型能够在捕捉不同维度特征时，以较少的计算量获取全局特征的依赖关系，提升空间感知能力。

1.4损失函数

为了提高分割的精确度，本文使用Dice损失函数（DiceLoss）和交叉熵损失函数（CELoss）的组合。Dice损失基于Dice系数，旨在最大化预测结果和真实标签的重叠。交叉熵损失通过评估预测的概率分布与真实分布的差异来指导模型学习。结合这两者的优势，模型能够通过DiceLoss优化全局重叠度，同时通过CELoss优化局部像素分类准确性。组合的损失函数定义为：TotalLoss =αDiceLoss +βCELoss（5）其中，α和β为权重系数，控制两种损失在总损失中的贡献。本文设置α=β=1。

1.5实验数据

本文实验使用公开的NIH胰腺分割数据集，包含80例腹部增强三维CT扫描图像，采集设备为飞利第1期谭璐露,等.基于深度卷积和三向注意力感知的胰腺分割算法- 39 -浦和西门子MDCT扫描仪（管电压120 kVp），图像大小为512×512×（181~466），层厚为1.5~2.5 mm。数据集被划分为75%的训练集和25%的测试集，其中训练集中随机抽取大约10%的数据用作验证集。由于数据量较小，为防止模型过拟合，实验采用多种数据增强策略，如随机旋转、强度偏移和缩放。在数据预处理阶段，CT图像的像素值范围调整到75~175 HU，以更好地显示腹部器官。随后进行归一化，将像素值缩放至［0, 1］区间，以增加收敛速度。

1.6评价指标

本文使用Dice相似性系数（DSC）、阳性预测值（PPV）、敏感性（SEN）和Hausdorff距离（HD）等指标评估方法的性能。DSC量化了分割结果与真实标签的匹配程度，取值为0~1，值越接近1表示分割效果越好。PPV也称为精确率（Precision），用于衡量预测正确的正例中有多少是真正的正例。SEN又称为召回率（Recall），用于评估真实正例中有多少被正确识别。HD则用于衡量预测结果与真实胰腺边界之间的最大距离，以评估分割边界的准确性。各指标的计算公式如下：DSC = 2TP2TP + FP + FN（6）PPV = TPTP + FP（7）SEN = TPTP + FN（8）HD ( X, Y ) = max (HD ( X, Y ), HD (Y, X ) )（9）其中，TP表示真阳例，即真实为正类且被模型预测为正类的样本。FP表示假阳例，即真实为负类但被模型预测为正类的样本。FN表示假阴例，即真实为正类但被模型预测为负类的样本。

1.7实验设置

为了应对GPU内存限制，本文在输入模型之前对大尺寸3D图像进行随机裁剪，裁剪后的图像块大小为96×96×96。所有实验均基于PyTorch框架进行，使用AdamW优化方法对训练过程进行优化。在训练过程中，批量大小设定为2，初始学习率为0.000 1，每经过50轮训练后将学习率减半，用于加快模型的收敛速度并提高训练的稳定性。

1.8统计学方法

采用SPSS 26.0软件对数据进行处理，符合正态分布的计量资料用均数±标准差表示，组间两两比较采用配对样本t检验。P<0.05为差异有统计学意义。

2、结果

2.1对比实验

为了验证CPS-Net的优越性，本文与该领域几种SOTA分割模型PankNet［20］、SwinUNETR［21］、NestedFormer［22］、TransBTS［23］在NIH数据集上进行对比实验，如表1所示。为确保对比方法的公平性与有效性，所有模型均在相同的级联分割框架下进行实验，并且在第一阶段中统一采用相同的分割网络。对比实验结果表明，CPS-Net在多个指标上表现突出，DSC、PPV、SEN、HD等指标达到（87.42±1.58）%、（87.42±3.52）%、（87.74±4.58）%、（0.22±0.08）mm。对比实验的可视化结果（图2）进一步表现CPS-Net在捕捉胰腺细微结构和形态特征方面的优势，整体分割质量和精确度显著提升。

表1 CPS-Net与其他方法在NIH数据集上的量化结果分析

2.2消融实验

为了验证CPS-Net的有效性，本文进行消融实验分析其主要组成部分的贡献：（1）级联网络框架；（2）DCB；（3）ToSA。首先，为验证二阶段级联网络框架的有效性，本文在消融实验中去除了第一阶段的胰腺定位，将原始CT图像直接输入第二阶段的精细分根据表2可知，尽管PPV略有下降，但SEN有所提升，表明网络在PPV与SEN之间达到了更佳的性能权衡，体现出其在分割任务中的优化能力。其次，为评估DCB模块的贡献，本文将使用DCB模块的方法与基于常规CNN编码器的分割网络进行对比。根据表3可知，包含DCB模块的网络在分割效果上表现最佳，表明大卷积核和深度卷积模块有助于增强特征提取能力并提高分割精度。同时，通过对比引入ToSA的方法，进一步验证其在建模全局依赖关系和细化分割边界上的显著优势，从而提升了整体分割性能。

图2 CPS-Net与其他方法的胰腺分割可视化结果对比

表2 CPS-Net二阶段级联网络框架的消融实验分析

表3 CPS-Net网络中DCB和ToSA模块的消融实验分析

3、讨论

本文提出一种新颖的胰腺自动分割框架（CPS-Net），有助于医生快速、精确地定位胰腺区域，提高影像分析的效率，为胰腺疾病的检测和诊断提供有力支持。本文方法采用二阶段级联的网络框架，并引入深度第1期谭璐露,等.基于深度卷积和三向注意力感知的胰腺分割算法- 41 -卷积模块和ToSA。对比实验结果显示，与其他方法相比，CPS-Net在多个量化指标上（如DSC、PPV、SEN等）取得最优结果。通过配对t检验，确认CPS-Net性能提升的统计学显著性。可视化结果表明，本文方法预测的胰腺区域与人工标注的胰腺区域更加接近，分割精确性显著提升。消融实验的结果进一步表明，二阶段级联框架、DCB和ToSA的引入均对提升胰腺分割准确性方面发挥重要作用。本文方法存在一定的局限性，主要包括以下几个方面：（1）数据集的多样性不足，本文主要依赖于单一来源的影像数据，可能限制模型在不同患者和设备上的泛化能力；（2）模型的计算复杂度较高，在资源受限的环境下应用可能受到一定制约；（3）ToSA的引入虽然提升分割效果，但也增加模型训练时间和推理延迟。因此，在未来的工作中，计划通过扩展多源、多模态的数据集进行模型训练，优化模型结构以降低计算复杂度，并探索更高效的注意力机制以提升模型的实时性和适用性。

基金资助:国家自然科学基金(62471214);

文章来源:谭璐露,冯前进.基于深度卷积和三向注意力感知的胰腺分割算法[J].中国医学物理学杂志,2025,42(01):37-42.