首页 > 论文范文 > 医药卫生论文 > 影像检验论文 > 影像职称论文 > 对比学习驱动的医学影像分割单源域泛化

对比学习驱动的医学影像分割单源域泛化

2024-06-03 174 上传者：管理员

摘要：医学影像分割中极为常见的域偏移问题会导致深度网络应用于新目标域时遭遇性能下降。为此，本文提出了一个单源域泛化训练框架ContraSDG。该框架基于对比学习，使用单源域训练数据。通过消除深度网络对风格信息的依赖，使其专注于语义信息的学习，从而学习出鲁棒的特征表示，达到提升泛化能力的目的。实验结果表明，对于医学影像跨域分割任务，本文方法能够较大幅度地提高分割性能。

关键词：
像方式
医学影像分割
单源域泛化
域偏移
源域数据
加入收藏

1、引言

近年来，深度神经网络在医学影像分割领域取得了巨大成功。对于在同一数据分布下进行训练和测试，其分割的准确性极高，甚至可以超过人类专家[1]。然而，当将经过源域数据训练的模型应用于存在数据分布偏差的新目标域时，深度神经网络的分割性能会下降。这种现象被称为域偏移问题。在现实应用场景中，由于不同的成像方法，数据特征是普遍不同的，因此域偏移问题在医学影像领域极为常见。由于域偏移问题的存在，在某一成像方式下训练好的模型往往只能在该成像方式下使用，在其他成像方式下使用时效果往往不尽如人意，分割错误百出，无法满足临床需要。

临床实践中，单一成像方式所提供的信息有限，医生往往需要根据多种不同的成像方式得到的影像来综合评判病人的病情。如果针对每一成像方式都训练出一个模型，则需要对每一成像方式收集数据、执行标注。由于医学数据用于训练的过程受到伦理、法律等问题的阻碍，因此这个过程漫长且复杂。此外，医学影像的尺寸通常较大，而标注又必须由具备相关专业知识的医生完成，费时费力。因此，以有监督训练的方式解决域偏移问题成本高昂，而以更低成本解决域偏移问题受到了人们的广泛关注。

近年来，解决域偏移问题的主流方法包括无监督域适应及域泛化。

现有无监督域适应工作主要是基于对抗训练来完成，通过图像外观转化技术来转变源域或目标域的外观[2,3]，或是对抗训练技术来对齐跨域特征分布空间。但无监督域适应要求收集目标域的数据用于训练。为了进一步降低成本，研究者们针对域泛化方法也进行了研究。

相较于无监督域适应，域泛化方法仅要求使用源域数据进行训练，去除了对目标域数据的依赖。域泛化方法又分为多源域泛化与单源域泛化。

多源域泛化的目标是从多个源域中学习到域不变的特征。主流的技术路线包括元学习、风格迁移等[4,5]。

相较于多源域泛化要求使用多个源域进行训练，单源域泛化仅需使用单个源域进行训练。这种方法可以进一步降低应用的条件。在单源域泛化现有研究中，研究者们集中于输入影像层面的研究，设计出了各种各样的数据增强方法来提高数据的多样性。在医学影像分割中，Su等人提出局部与全局的两部分数据增强[6]，进一步提高数据的多样性。Zhou等人通过非线性变化来增强数据的多样性[7]，并提出双批归一化（batch normalization）来分别针对类似源域与不似源域的两类数据。

尽管取得了不错的结果，但这些方法仅仅通过输入数据的多样化来提升泛化能力，忽略了对域不变特征的学习。这导致了模型所学特征的泛化能力取决于所生成数据的多样性。在生成数据下所学的特征表示，仅仅是这些生成域之间的共同特征表示，并非域不变的特征表示。如需保证此类方法对泛化能力的支撑，所采用的数据增强函数必须能产生足够多样的数据，从而覆盖到未知目标域的外观。然而，过度的多样性与数据的真实性是冲突的，即过度的多样性往往带来数据的失真，从而误导模型，损害分割精度。目前的研究并没有一个很好的方法能够在保证多样性的情况下还保持数据的真实性，只能在这两个方面进行此消彼长的取舍。因此，当域偏移问题严重时，这类数据增强方法的泛化能力有限。

为了进一步增强模型在单源域泛化场景下的泛化能力，本文提出ContraSDG，一个基于对比学习的单源域泛化训练框架。图1是跨域医学影像的可视化（上图为影像，下图为对应标签）。从图1可以看到，相同的解剖结构在CT(Computer Tomography）与MRI(Magnetic Resonance Imaging）这两个模态下，影像的强度、对比度有较大变化，是域特定的信息。而解剖结构的形状是相似的，是域不变的信息。

图1 跨域医学影像的可视化

因此，ContraSDG的设计思路在于约束模型过滤风格等域特定信息，学习域不变信息，从而使得模型将决策规则建立于通用的解剖结构等语义信息上，提升泛化能力。如此，即使输入影像无法覆盖到未知目标域的分布，模型也能够在未知目标域上有好的表现。

2、方法

给定有标签的单源域训练数据{Xs,Ys}，不可见的目标域测试数据{Xu,Yu}，分割网络S（由编码器以及解码器构成），其中，Y是X对应的真值掩码。医学影像分割中单源域泛化任务的目标是用来自单个源域的训练数据{Xs,Ys}来训练S，并评估训练后的S在未知的目标域数据{Xu,Yu}上像素级分类的精度。

与现有研究致力于从输入影像层面完成域泛化工作不同，ContraSDG着力于从特征层面完成域泛化，显式的约束模型过滤域特定信息，学习域不变的特征。

ContraSDG示意图如图2所示。给定来自某一数据域的两张输入影像xs1、xs2，该框架首先对xs1进行数据增强，生成影像xs1a；随后，将三张影像输入到分割主干网络中，并从编码器中提取出中间层的特征图。在特征图中，特征图fs2的风格信息被嵌入到特征图fs1中，然后通过对比学习范式约束fs1a与fs1具有相似的表征，fs1与fs2具有疏离的表征。最后，将特征图送入解码器，生成分割预测结果，来完成有监督的训练。

图2 ContraSDG示意图

2.1正负样本对的构造

在对比学习任务中，关键的步骤是制造正负样本对。

在ContraSDG中，给定两张来自源域的训练图片xs1与xs2，该框架首先对xs1进行数据增强，得到xs1a，值得注意的是，如果增强后的图片与原图风格的差别过小，模型对风格的过滤能力可能较差，影响泛化能力。因此xs1与xs1a需要在风格上有很大的不同，使模型能更好地过滤风格信息。为了生成风格差异较大的影像，数据增强函数选用了随机卷积层（每次迭代都从1{3,5,}中随机抽样一个数作为卷积层的核大小），结构如图3所示。从图3可以看到，原图与增强后的图具有很大的风格差异。

图3 数据增强函数示意图

经过数据增强操作后，将xs1、xs2与xs1a送入分割网络S，从S的中间层能提取出它们在网络中的表征（特征图）fs1、fs2与fs1a。随后，为了生成语义信息不同但风格相同的特征图，运用风格转化的常用方法AdaIN来改变特征图的风格信息。AdaIN表示如公式(1)所示。

具体的，首先分别计算fs1与fs2的均值与方差，得到µ、σ与β、α；随后将fs2的风格信息按公式(1)嵌入fs1，即fs1=IN(fs1)。由此，fs1的风格信息得到了转换。此时，fs1与fs2的语义信息不同、风格信息相同，作为负样本对；fs1与fs1a的语义信息相同、风格信息不同，作为正样本对。

2.2对比学习训练框架

图4 对比学习范式示意图

在获取上述样本对后，利用它们完成对比学习任务。对比学习任务就是聚集相同特质的表征，疏离不同特质的表征。由于特征图是对输入图像的高度抽象表征，特征图的像素点也涵盖了几何结构等信息。而相比于对整张特征图进行建模所需处理的大量信息，以像素点进行建模所需处理的信息大量减少，能显著降低计算量，因此，对比学习的对象选用了特征图中的像素点p（像素点的维度为1*1*C,C为通道数），对比学习范式如图4所示。

给定3.1节中得到的特征图f s1、fs1a与f s2，首先从中随机采样出相同空间位置的像素点fps1、fps1a，并从f s2中随机采样出N个随机的像素点fps2，其中，p代表随机采样到的空间位置。之后，将这些采样出的像素点送入H（一个两层的MLP），将每个像素点映射为K维向量，则有与

然后，将q、q+、q-进行L2归一化，从而保证数据运算的稳定。并设立一个（N+1）的分类问题，采用InfoNCE损失来形成该问题的范式，如公式(2)所示。

其中，温度系数τ用于控制损失的平滑度。与现有对比学习研究的普遍设置相同，τ设为0.07。在这个范式下，q与+q是具有相同语义信息、不同风格信息的两个点，需要被聚集；而q与-q是具有不同语义信息、相同风格信息的两个点，需要被疏离。因此，随着学习的进行，这个范式实质上就是约束模型只对语义信息进行表征，对风格信息采取过滤的方式，从而提取出域不变的特征。

为了更全面地过滤域特定信息，ContraSDG采取了多层的对比学习，即来自网络中不同层的多个特征像素点都被送入对比学习范式进行学习。正式的，给每个参与对比学习的层记为t∈{1,2,...,T}，每个随机采样到的像素点位置记为p∈{1,2,...,P}，给定来自t层、位置p的特征像素点与将它们送入H，并进行L2归一化，得到向量随后将这些向量送入公式(2),得到总体的多层对比学习损失函数，可由公式(3)表示：

其中，P\p＿t包括从t层中除p外的所有采样到的空间位置。在多层次的约束下，模型能够全面的过滤域特定信息，完成对域不变特征的学习。

2.3分割一致性约束

为了进一步促进模型提取域不变的特征，对同一语义信息的输出结果进行一致性约束。具体的，将xs1与其增强后的影像xs1a输入分割网络，可以得到预测值ps1和ps1a。随后，对这两个预测值通过均方差损失进行一致性约束，如公式(4)所示。

2.4总体训练框架

在有监督训练方面，ContraSDG采用由Dice损失和交叉熵损失组成的混合损失。Dice损失用于解决医学影像分割中类不平衡问题的常见损失，表达式如公式(5)所示：

其中，P是预测值，Y是相应的真值标签。

总体有监督损失函数表示为公式(6)。

其中，S为分割网络，ys1为xs1与xs1a为对应真值，ce表示多类别交叉熵损失。

综合对比学习损失、有监督训练损失以及一致性约束损失，ContraSDG的总体损失表示为公式(7):

在测试时，将测试数据x⊂X u直接送入分割网络，没有其他后处理操作。值得注意的是，ContraSDG能与各种深度网络兼容，是一个即插即用的框架。

3、实验过程与结果

3.1实验配置

使用跨模态、跨序列两个分割任务来验证ContraSDG的有效性。

(1）跨模态腹部分割，包括20例三维CT样本与30例三维T2-SPIR MRI样本[8,9]。

(2）跨序列心脏分割[10]，包括45例三维bSSFP MRI样本与45例三维LGE MRI样本。

为了与现有方法进行公平比较，对这两个数据集的处理均遵循了Cheng等人的处理方法[11]。分割主干网络采用了骨干网络为Efficientnet-b2的UNet[12,13]，与现有其他研究所采用的分割主干网络相同。在数据划分中，源域的所有数据都用于训练，目标域20%的样本作为验证集，80%的样本作为测试集。由于样本是三维的，而所采用分割主干网络要求二维的训练数据，实际操作时从每个三维样本中取出切片（Slice）来进行训练和测试。

表1 腹部数据集比较结果

表2 心脏数据集比较结果

ContraSDG进行了5k次训练迭代，学习率采用了余弦退火学习率衰减策略，初始学习率设置为0.0004。

在一张16GV100GPU上进行ContraSDG训练。为了加快训练速度，最大化GPU显存的利用，批大小（Batch size）设置为16。在分割网络中，每个下采样层得到的特征图都被用于对比学习模块，总共有四个下采样层，各层像素点最多为65536，最小为4096。为了平衡采样到的信息与计算量，随机采样的像素点的数量N是512,MLP映射后的向量维度是256。

Dice系数用于评估性能。该系数是按每个三维样本（将二维预测结果还原为所属三维样本）进行计算的。

3.2对比实验

本文的对比方法包括对目标域进行有监督训练的上限指标、不做域泛化相关操作的经验风险最小化（empirical risk minimization,ERM)基线指标，同时，还与几个最新的方法进行了比较，包括RSC[14]、MixStyle[5]、RandConv[15]、AdvBias[16]、CSDG[11]。由于单源域泛化的挑战性，医学影像中对这方面的研究还较少，前四个工作是在自然图像上的工作，后两个工作是医学影像上的工作。其中，Cutout随机移除训练图像中的某些块，希望模型学习的特征能够有更强的鲁棒性。RSC认为在训练中，具有最大梯度的特征是不鲁棒的特征，并将它们移除。MixStyle混合跨域样本的特征统计值，来合成新的数据域。RandConv通过引入随机卷积层来合成新数据域。AdvBias通过生成对抗样本来增强数据。CSDG采用类似RandConv的结构来生成新数据域，并对增强后的样本重采样来消除相关性。

表1和表2展示了两个数据集四个单源域适应任务的比较结果。从表1和表2中可以看到，经验风险基线与有监督上限有较大的差距，体现了所采用数据集有较严重的域偏移问题。而在ContraSDG框架下训练的结果相较于基线具有极大的提升，表明ContraSDG解决域偏移问题的有效性。不仅如此，ContraSDG还大幅超过了其他方法的性能。

图5 腹部数据集中CT影像分割结果（第一行）和MRI影像分割结果（第二行）

多数数据增强方法在域偏移较小的场景下（心脏LGE-bSSFP、腹部CT-MRI）有较好的表现，但在域偏移较大的场景（腹部MRI-CT、心脏bSSFP-LGE）下表现较差。而ContraSDG在各个任务上都有较好的表现，说明ContraSDG对域不变特征的学习进一步增强了分割网络的泛化能力。

图5是在腹部数据集上的分割可视化结果，从左到右分别是原始测试图像、ERM的结果、ContraSDG的结果、有监督训练的结果和真值。肝脏、右肾、左肾和脾脏这四个器官分别用青色、黄色、蓝色和紫色表示。

从图5中可以看到，ERM在四张影像上都大面积的错误分割，例如第一行的右肾、第二行的脾脏。然而，在ContraSDG的分割结果上，这些原本大面积的错误都得到了正确的分割。此外，ContraSDG的结果与有监督的结果以及真值都很好的吻合，从视觉相似度上看几乎一致。

为了得出更可靠的结论，本文对ContraSDG、ERM、有监督、CSDG这四个方法进行了统计显著性的实验。以四个域泛化任务中，各个器官的Dice值（不包括平均值）作为样本值，每个方法共包括十四个样本值。随后，对ContraSDG与其余三个方法进行T检验，求得结果如下：ContraSDG与ERM的p值为0.00104;ContraSDG与CSDG的p值为0.00171;ContraSDG与有监督的p值为0.00180。

这表明，在统计学上，ContraSDG在精度上显著优于CSDG与ERM。此外，有监督显著优于ContraSDG，这也说明ContraSDG仍然存在改进的空间。部分缺陷在于ContraSDG依赖于AdaIN来转化特征图的风格信息，但AdaIN对风格信息的转换并不完全。因此，正样本对的风格信息仍部分相似，这导致对比学习任务可以由风格信息的匹配完成，导致模型无法完全学到域不变特征，因此在目标域的表现不如有监督方式。

3.3消融实验

本节进行消融实验来评估ContraSDG各个设计的价值。这个实验是以腹部CT作为源域训练模型，而训练后的模型是在腹部MRI上进行测试。

表3 ContraSDG的消融实验

第一行的实验方案是模型只进行随机卷积层数据增强。后续几行的实验都以第一行的方案为基础，添加不同的特征表示学习约束模块。

第二行的实验方案是添加对比学习范式，但负样本没有经过特征风格转化操作。相较于第一行，该方案的平均Dice值提升了0.68%，表明对比学习范式有助于特征表示能力的提升。

第三行的实验方案是将对比学习范式改为余弦相似度损失，并引入ContraSDG的样本对构造方法。余弦相似度损失用于拉近正样本对，疏离负样本对。尽管该方案没有利用对比学习，但相较于第二行使用了对比学习范式的方案，该方案的平均Dice值提升了0.78%。这说明通过引导模型过滤风格信息，学习语义信息，有助于泛化能力提升。

在常规的正负样本对构造方法中，负样本对具有明显的风格差异，而正样本对具有相似的风格，通过区分风格信息，模型就能够轻松完成正负样本对的区分。由于风格信息在不同数据域下是不同的，因此模型无法从中学习到泛化能力强的表征。而在ContraSDG中，模型必须过滤风格信息才能完成正负样本对的对比学习任务。这提升了所学特征表示的泛化能力，因此，在目标域上具有更好的分割结果。

第四行实验方案即是ContraSDG，结合了样本对构造方法以及对比学习范式。该实验方案取得了最好的效果，相较于只进行数据增强有2.83%的提升，再次说明了进行特征操作的必要性以及价值。将该行与前三行综合对比，说明ContraSDG中的样本对构造方法能够与对比学习范式相得益彰，增强对域不变特征的学习能力。

4、结语

本文提出了一个单源域泛化框架ContraSDG。与之前研究以输入影像多样化为着力点，采用数据增强完成泛化的方式不同，ContraSDG着力于特征层面的操作，包括新的正负样本对生成方式来生成正负样本对，并以对比学习的范式来完成正样本对的拉近与负样本对的疏离。通过该对比学习范式，深度网络能够过滤域特定信息，学习域不变特征，进而提高泛化能力，出色地完成单源域泛化的任务。

参考文献:

[1]梁礼明,詹涛,雷坤,等.多分辨率融合输入的U型视网膜血管分割算法.电子与信息学报, 2023, 45(5):1795-1806

基金资助:福建省自然科学基金(No.2022J01574)资助;

文章来源:肖榕.对比学习驱动的医学影像分割单源域泛化[J].福建电脑,2024,40(06):1-7.