2024-09-09
118
上传者:管理员
摘要:3D医学图像分割是实现医学影像诊断、手术规划和治疗跟踪的前提与基础。腹部器官在影像上轮廓复杂、界限相对模糊,针对以上问题,提出了一种基于图卷积和有效自注意力的3D腹部器官分割网络。首先,在编码器端加入有效自注意力模块,有效地学习空间通道特征表示。其次,采用动态图卷积捕获腹部器官间的动态拓扑信息,同时有效突出腹部器官的特征。最后,在编码器端加入跳跃连接,融合不同分辨率的特征信息。实验结果表明,该方法在Amos22数据集上取得了较好的分割结果。
加入收藏
医学图像分割是将原始图像划分为不同的类别,然后提取感兴趣区域的过程。准确的医学图像分割,是医学图像分析和临床诊断中必不可少的前提与基础。医学图像分割可以为器官形状和大小测量提供视觉显示,这对于疾病的早期检测和诊断具有重要意义[1-2]。然而,受医学图像采集设备的影响,腹部器官和组织之间的灰度值差异接近,导致器官与周围组织之间的界限相对模糊。此外,不同患者的器官之间存在显著的个体差异,使得医学图像分割成为一项具有挑战性的任务。为了应对这一挑战,学者们提出了许多分割方法,包括基于阈值优化的分割方法[3]、基于机器学习的分割方法[4]和基于统计形状模型的分割方法[5]。然而,这些方法依赖于手工特征,并且特征表达能力有限。本文针对以上问题,通过采用有效自注意力提取空间与通道的特征,利用动态图卷积捕获腹部器官间的动态拓扑信息,同时有效突出腹部器官的特征,解决类间相似性和类内差异性的问题。该方法在Amos22数据集上实现了3D腹部器官的精准分割,并取得了较好的结果。
1、相关工作(Relation work)
近年来,深度学习(DL)方法被广泛用于解决医学图像分割问题,特别是基于卷积神经网络(CNN)的方法,在医学图像分割方面取得了重大的进展。例如,全卷积网络(FCN)[6]及其变体(例如U-Net[7]、U-Net++[8]等)在医学图像分割方面取得了较大的成功。此外,U形网络结构和跳跃连接也越来越受到研究人员的关注。尽管基于CNN的方法被广泛使用,但是由于其局部感知和共享权重偏差,所以网络仍然受到视野有限的影响,缺乏对远程特征相关性进行建模的能力。
近年来,许多研究试图通过使用Transformer编码器解决上述问题,Transformer是一种基于注意力的模型,最初用于自然语言处理任务中序列到序列的预测[9-10]。在医学图像分割中,CHEN等[11]首次应用Transformer改进医学图像的分割结果。CAO等[12]将Swin Transformer应用于编码器和解码器。在编码器中,实现了从局部到全局的自关注,在解码器中,特征图被上采样到与输入分辨率相同的尺寸,实现了像素级分割。MILLETARI等[13]提出了一种基于体积、全卷积神经网络的三维图像分割方法,模型在前列腺MRI图像上进行了端到端训练,并实现了一次预测整个体积的分割。ZHOU等[14]提出了一种3D Transformer,采用3种类型的注意力机制解决CNN缺乏远程建模能力的问题,基于局部和全局体积的自注意力集中于构建特征金字塔并提供大的感受野,跳跃注意力负责弥补编码器和解码器之间的差距。HATAMIZADEH等[15]将Transformer作为编码器用于学习输入体积的序列表示,有效地捕获了全局多尺度信息,并将不同分辨率的解码器特征跳跃连接到解码器,从而得出最终的语义分割。这是首个专门为3D图像提出的Transformer分割模型,其在多器官分割的BTCV(Multi-Atlas Labeling Beyond The Cranial Vault)挑战赛和医学分割十项全能数据集(MSD)上展现出了最先进的性能。
目前,腹部器官分割已成为医学影像领域的研究热点,然而大多数研究主要聚焦于单器官分割任务,例如对肝脏、肾脏和胰腺等单个器官的分割。由于不同患者多器官的外观个体差异很大,因此多器官分割比单个器官分割更具挑战性。图卷积网络(GCN)[16]通过将特征映射到拓扑图的节点和边上,能够敏感地捕获样本之间的动态变化[17],因此被广泛应用于深度学习任务中。此外,GCN通过可学习的参数,能够动态地调整不同区域特征的重要程度,这种机制有利于高效提取空间信息,进而提升模型在深度学习任务中的性能。因此,医学图像分割需要利用GCN捕获不同分割类别之间的动态拓扑关系。
2、方法(Methods)
2.1网络结构
图1展示了本文方法的网络架构,该网络采用了经典的“U”形结构,主要分为编码器、解码器和图卷积3个部分。编码器端主要包含两个模块,即卷积模块(CNN Block)和有效自注意力模块(ET Block),卷积模块采用3D深度卷积提取特征,有效自注意力模块通过使用空间自注意力和通道自注意力对空间与通道维度上的信息进行编码,有效地学习丰富的空间通道特征表示,在每一阶段的后面都采用Patch Merging进行下采样。在网络底部,先通过区域池化模块(Region Pooling)将特征图投影为图表示,其中每个节点都代表不同的器官类型,随后进行图卷积运算,区域反池化模块(Region Unpooling)将图卷积计算后的图表示重新投影为语义图像表示。编码器和解码器之间通过跳跃连接传递信息,用于合并不同分辨率的输出,旨在恢复下采样操作期间丢失的空间信息,从而预测更精确的输出。与编码器类似,解码器也包含4个阶段,其中每个解码器阶段都包含一个上采样层,使用Patch Expanding将特征图的分辨率提高两倍,通道数量减少至上一层的50%。因此,将最后一个解码器的输出与卷积特征图进行融合,旨在恢复空间信息并增强特征表示,从而提升模型的分割性能。
图1本文方法的网络架构
2.2有效自注意力模块
有效自注意力模块包含空间自注意力模块和通道自注意力模块,该模块网络结构如图2所示。首先,空间自注意力模块将自注意力的复杂度从二次降低为线性,并学习空间之间的特征;其次,将输出结果输入通道自注意力模块,通道自注意力模块有效地学习通道特征图之间的相互依赖关系。两个注意力模块计算如下:
分别表示空间和通道自注意力图。SA是空间自注意力模块,CA是通道自注意力模块。在空间自注意力模块中通过将复杂度从O(n2)降低到O(np),在学习空间信息的同时也降低了部分参数,其中n是标记的数量(像素点个数),p是投影向量的维度,n≫p。空间注意力定义如下:
其中:Qspatial=WQX,Kspatial=WKX,Vspatial=WVX,WQ、WK、WV为权重矩阵,负责把输入投影到不同的大小。
图2有效自注意力模块网络结构
通道自注意力模块通过在通道特征图之间的通道维度执行点积运算,有效地捕获了特征通道之间的相互依赖性。通过使用Qchannel和Kchannel权重矩阵,计算通道的Vchannel。通道自注意力定义如下:
其中,Qchannel、Kchannel、Vchannel的值与空间自注意力得到的Qspatial、Kspatial、Vspatial的方法类似,只是投影的维度不同。
2.3区域池化模块
语义特征提取器通过区域池化模块和区域反池化模块生成语义图像表示,区域池化结构如图3所示。区域池化模块旨在将高级图像表示投影为图表示,进而利用图卷积(GCN)进行处理,以实现更有效的图像特征提取和分析。将无向图定义为G=(V,E),其中V表示顶点,E表示边,
本文使用高级图像表示x∈Euclid Math TwoRA@dhw×c作为语义特征提取器的输入,其中c、d、h、w是高级图像表示的通道数、深度、高度和宽度。区域池化模块生成所有n个顶点的图表示FG∈ℝn×m,其中m是每个v∈V的特征维度,节点数n等于数据集的对象类别的数量,FG为图G的节点表示。
图3区域池化结构
区域池化模块将特征图x∈Euclid Math TwoRA@dhw×c生成FG∈Euclid Math TwoRA@n×m的图结构,如图3左侧所示。每个节点v∈V表示为所有体素特征的加权平均值,其中每个体素的权重与该体素属于节点v对应类别的概率成正比,属于n个类别的体素的概率矩阵计算如下:
P=softmax(XW1) (5)
其中:W1∈Euclid Math TwoRA@c×n是一个可训练的权重矩阵,Pi,j∈P表示第i个体素属于第j个类别的概率,得到的图表示就是所有体素的加权平均:
FG=H2XW2(6)
其中:W2∈Euclid Math TwoRA@c×m是一个可训练的权重矩阵,用于为所有体素生成新的表示;FG的每一行都是图G中的一个节点表示;H2∈Euclid Math TwoRA@n×dhw是权重矩阵,计算如下:
其中:上标T表示转置操作,H1∈Euclid Math TwoRA@dwh×n是归一化因子,所有行都相同,每行都是P沿其行的总和。
区域反池化模块用于将语义图表示FS=Euclid Math TwoRA@n×m重新投影到图像表示。如图3右侧所示,本文采用由公式(5)计算的概率矩阵P乘以图卷积神经网络(GCN)生成的语义图表示。
FI=PFS(8)
其中:FI∈Euclid Math TwoRA@dwh×m的每一行表示一个体素特征,体素特征是节点特征的加权平均,其中每个节点的权重是该体素属于该节点对应类别的概率。将FI重塑为形状为m×d×h×w的特征图,然后进行1×1×1的卷积,产生最终的语义图像特征F∈Euclid Math TwoRA@c×d×h×w。
2.4腹部器官图卷积SGCN
为了充分捕获腹部器官之间的动态拓扑信息,同时有效突出腹部器官的特征,本文采用了动态图卷积(DGCN)。在进行图卷积之前,将大小为x∈Euclid Math TwoRA@dhw×c的特征图转换为图结构。如图4所示,特征图经过区域池化后转换为n维的列向量W。在图运算中,邻接矩阵是描述拓扑相关性的重要工具,为了获得通道之间的拓扑相关性,需要将列向量W输入邻接矩阵激活函数,然后乘以可学习的参数矩阵,以保证邻接矩阵的动态性能。邻接矩阵A∈Euclid Math TwoRA@n×n可以计算为
其中:wi、wj是w中的第i和j个元素,T表示邻接矩阵激活函数,Θ∈Euclid Math TwoRA@n×n表示可学习的动态参数矩阵。公式(9)中的邻接矩阵激活函数是一个范围为0~1的连续函数,可以将得到的器官节点权重向量映射到对角线元素为1的矩阵,矩阵中除对角线以外的元素表示对应通道之间的边的权重节点。由公式(10)动态调整连接权值,利用Θ参数微调拓扑关系,得到邻接矩阵。在图卷积网络中,每个节点都有一个对应的特征向量。本文将单个节点的特征重塑为G×1,作为图数据中对应节点的特征。至此,一个有n个节点的图数据G就构建完成了,每个节点包含一个维度为G×1的特征向量。
图4图卷积网络结构
3、实验与结果(Experiments and results)
3.1数据集与实验设置
为了评估提出的网络结构的学习能力和泛化能力,本文采用公开数据集Amos22对腹部医学图像分割任务进行了实验,并将本文的实验结果与SOTA(State-Of-The-Art)方法进行了比较。Amos22提供了500次CT和100次MRI扫描的数据信息,并带有15个腹部器官的体素级标注,包括右肾、左肾、胆囊、胃、主动脉、膀胱、前列腺/子宫、脾脏、下腔静脉、胰腺、右肾上腺、食道、肝脏、左肾上腺、十二指肠等,表1为Amos22数据集的元信息。
表1 Amos22数据集元信息
本文实验基于Python 3.9和Pytorch 1.7.0实现,使用翻转和旋转等操作增加训练采样中的数据多样性,在具有24 GB内存的3090Ti GPU上训练模型,其中初始学习率设置为0.05,默认优化器是SGD,动量设置为0.9,权重衰减设置为0.000 1,训练Epoch数为30 000。本文使用平均Dice-Similarity系数(DSC)和Hausdorff距离(HD)评估分割的准确性,具体的公式如下所示:
其中:Gi和Pi分别表示体素i的真实值和预测值。G′和P′分别表示真实点集和预测点集。DSC对内部填充敏感,而HD对分段边界敏感。损失函数如下所示:
其中:W和H是图像的长度和宽度,y(h,w)表示图像,
表示特定像素位置(h,w)处的输出预测,C对应于数据集中的类别数。
3.2实验结果对比
表2显示了本文方法在Amos22数据集上多器官分割结果的DSC值。为了验证该方法的有效性,本文将其与现有医学图像分割方法进行比较,包括Unet[7]、TransUnet[11]、nn-Unet[18]、nnFormer[14]、UNETR[15]。表2中加粗的数据表示最好的结果,*表示本文训练的结果,相关论文没有提供在此数据集上的训练结果。由表2的数据可知,应用本文方法获得的多器官分割结果的平均DSC值优于比较的方法。具体来说,本文方法的分割结果在其中12个器官中实现了最高的DSC,包括脾、左肾、右肾、食道、肝、胃、主动脉、下腔静脉、胰腺、十二指肠、膀胱、前列腺。与之前基于2D的方法(Unet、TransUnet)相比,本文方法在所有的分割部位都达到了最好的结果。值得注意的是,本文方法在对胆囊、右肾上腺(R)、左肾上腺(L)的分割中表现不佳,这可能是因为胆囊等器官在医学图像上表现的比较小,经过多次下采样后,细节信息消失不见。然而,本文方法在综合预测方面表现最好,这归功于本文提出的图卷积神经网络捕获了腹部器官间的动态拓扑信息及在研究中进行了有效自注意力机制长距离的建模。
表2在Amos22数据集上与SOTA分割方法比较结果
图5显示了3个医学图像分割网络和本文方法之间的直观比较。可以观察到本文的方法比其他方法取得了更好的结果。在例子1中,由于分割的器官结构比较简单,所以本文方法与其他3种方法相比,结果差距并不是很大,只是在边缘的细节有略微改进,但是在例子3中,由于分割器官局部复杂且分割类别较多,所以其他3种方法在胃上的分割结果均出现了细微的错误。同样的现象在例子4中也可以看到,本文方法在肝脏的分割中取得了较好的结果。
图5在Amos22上对比分割结果
为了进一步验证本文方法的有效性,本文对分割结果进行了3D重建,分割结果3D可视化如图6所示。在例子1中,本文方法和nnFormer都取得了比较好的结果,但TransUNet在三维空间中错误地分割了许多分散小点,这是因为TransUNet采用输入2D切片的方法处理3D医学数据集,割裂了数据集在空间上的信息。在例子2中可以明显看出,虽然nnFormer在大多数器官分割结果上与本文的方法相似,但是在脾分割结果的三维表面上存在小坑。综上所述,除了一些噪声和局部细节损失,本文的分割结果非常接近真实值。
图6分割结果3D可视化
如图7所示,在Amos22数据集下,本文方法展示了最快的收敛速度,而且随着迭代次数的增加,依然保持最好的分割精度。
图7网络训练结果
3.3消融实验结果
为了证明有效注意力机制(ET)、图卷积神经网络(GCN)和区域池化(Region Pooling)的有效性,本文通过逐步删除以上模块进行了详细的测试。在不同的模块组合设置下,获得了本文方法的6种变体,分别表示为“Baseline”“Baseline+ET”“Baseline+GCN”“Baseline+GCN+Region Pooling”“Baseline+GCN+ET”“Baseline+GCN+ET+Region Pooling”。如表3所示,有效注意力模块、图卷积神经网络和区域池化模块在Amos22数据集上应用后,均能够有效提升性能。本文的Baseline采用3DUnet架构,与Baseline相比,在编码器中应用有效自注意力(Baseline+ET)在DSC上提高了0.65百分点,在HD95上降低了1.94 mm。在网络底部中融合图卷积(Baseline+GCN)的结果将DSC提高了1.33百分点,将HD95降低了4.84 mm。通过在Baseline中结合区域池化和图卷积(Baseline+GCN+Region Pooling),性能比仅使用图卷积模块有了显著提高。通过将图卷积和有效自注意力(Baseline+GCN+ET)相结合,实验结果相较于使用单个模块有一定的提高。通过对3个模块的有效集成,本文方法(Baseline+GCN+ET+Region Pooling)获得了最好的结果,消融实验有力地证明了该方法融合各模块的有效性。
表3模型结构对结果影响的消融实验
4、结论(Conclusion)
本文提出了一种新颖的3D医学图像分割网络模型,整体结构是在“U”形网络的基础上融合了图卷积神经网络和有效自注意力机制。有效自注意力机制在提供更大的感受野的同时,降低了一部分参数量,有效自注意力机制主要分为空间自注意力和通道自注意力,空间自注意力学习空间变换的区域特征,通道自注意力学习通道特征图之间的相互依赖关系。在编码器的底部采用区域池化提取高级语义特征,将高级图像表示投影为图表示。通过图卷积神经网络充分捕获腹部器官间的动态拓扑信息,同时有效突出腹部器官的特征。在上采样过程中,通过跳跃连接获取编码器的信息,以恢复图像至原始大小。实验结果表明,相较于以前基于2D切片的医学图像分割方法,本文方法在Amos22数据集上的表现有着较大的改进。
参考文献:
[10]池亚平,岳梓岩,林雨衡.基于Transformer的SM4算法工作模式识别[J].计算机工程,2023,49(9):109-117.
基金资助:国家自然科学基金(62101497);浙江省基础公益研究计划项目(LTGY23F010001);
文章来源:王川,李杨,魏波,等.基于图卷积网络和有效自注意力的3D腹部器官图像分割方法[J].软件工程,2024,27(09):50-55.
分享:
食管心房起搏术(EsophagealAtrialPacing,EAP)系一种基于食管与心房相邻解剖特征的诊疗技术,心房外源电刺激诱发或终止心律失常的检测方法[1]。该操作微创程度较低、安全性较好且易于重复进行,在临床诊断及治疗多种心律失常领域逐渐被采纳应用[2]。然而,EAP可能引发心脏传导系统受激或受损,因此诱发术后心电图异常波形及并发症[3]。
2025-09-04近几十年来,青少年SPM的发病率呈现持续上升的趋势[1],这引起了广泛的关注和研究。有关青少年SPM的研究已经扩展到多个领域,包括呼吸科学、心脏血管疾病和放射学等。其发病机制尚未完全阐明,但已有多项研究表明该疾病的发生与肺部解剖结构的异常有关。
2025-08-29急性心肌梗死可导致胸痛和心律失常等并发症。有研究表明,大约25%的急性心肌梗死幸存者可发生心力衰竭。因此,对急性心肌梗死患者早期预测心力衰竭的发生有利于疾病的早期干预。超声心动图能够检测负荷状态下局部室壁运动异常,间接估量心肌缺血,评估心功能受损,但其灵敏度和准确性较低,具有一定的局限性。
2025-08-20放射影像设备在临床医学诊断中扮演着至关重要的角色。然而,设备在运行过程中难免会出现各种故障,这会影响诊断准确性。文献就如何准确识别放射影像设备的故障做出了研究。文献[4]引入GP惩罚因子来提高生成样本的质量。文献采用GcForest算法对模型进行训练并识别设备的故障类型。
2025-08-15胃癌作为一类消化道恶性肿瘤,是引起肿瘤相关死亡的主要原因之一。由于胃癌初期症状表现不典型,且缺乏完善的筛查体系,大多患者以腹痛、食欲减退、消瘦等临床症状就诊,初诊时疾病已处于进展期状态,经影像学检查或胃镜检查提示癌组织侵犯至胃壁肌层,胃壁增厚、溃疡及胃腔狭窄等作为主要的影像学特征[1]。
2025-07-22右向左分流(right-to-leftshunt,RLS)主要包括卵圆孔未闭(patentforamenovale,PFO)所致的心内分流和肺静脉来源的心外分流[1]。研究表明RLS与隐源性脑卒中、偏头痛、短暂性脑缺血发作等多种临床疾病密切相关[2-3],因此RLS的准确诊断对病因探究及治疗策略制订具有重要意义。
2025-07-18图像配准在遥感数据分析与医学图像处理中至关重要,尤其在医学领域,它对于病灶定位、诊疗跟踪、手术指导和医疗计划制定具有重大意义。为提高医学图像配准精度,研究者们不断探索新方法。例如,潘英杰等人结合困难形变感知机和基于视觉变换器的级联多阶层配准网络模型,有效地解决了复杂图像的配准问题,提高了配准精度。
2025-07-09CT扫描技术,自20世纪70年代起便成为临床诊断的重要工具,每年在中国进行超过1.5亿次。在远程医疗中,CT技术有助于为边远地区提供及时诊断,促进资源均衡和医疗服务提升[2]。尽管如此,远程CT应用面临挑战,包括大容量影像数据的传输、质量和安全问题。
2025-06-25随着社会整体物质生活水平的提升,糖尿病发病率逐年上升。我国目前糖尿病患者以 2 型糖尿病(type 2 diabetes mellitus,T2DM)为主,高发人群为老年人群,根据最新报道,中国有超过 12% 的人群患有糖尿病,T2DM是心血管疾病的独立危险因素,且心血管疾病是 T2DM 患者死亡的主要原因 。
2025-06-11脑卒中具有发病率高、复发率高、致残率高、死亡率高的特点,患者发病后需及时进行临床诊断,并根据诊断结果开展针对性治疗,以保障患者生命安全。磁共振是临床诊断脑卒中的常见方法之一,具有操作简便、诊断准确率高的特点,但该检查的用时相对较长,对患者在检查过程中的配合度要求较高,故如何提高患者的配合度尤为重要。
2025-06-03人气:5204
人气:3814
人气:3383
人气:1334
人气:1330
我要评论
期刊名称:软件工程
期刊人气:960
主管单位:辽宁省教育厅
主办单位:东北大学,计算软件国家工程研究中心
出版地方:辽宁
专业分类:计算机
国际刊号:2096-1472
国内刊号:21-1603/TP
邮发代号:8-198
创刊时间:1985年
发行周期:月刊
期刊开本:大16开
见刊时间:4-6个月
影响因子:1.079
影响因子:0.408
影响因子:0.260
影响因子:0.727
影响因子:0.489
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!