91学术服务平台

您好,欢迎来到91学术官网!站长邮箱:91xszz@sina.com

发布论文

论文咨询

基于多距离测度异质集成学习的结肠病理图像细粒度分类研究

  2024-06-18    99  上传者:管理员

摘要:结肠病理学图像的细粒度分类对癌症治疗和预后评估都具有重要意义。然而,结肠病理学图像尤其是其组织学亚型图像在形态上极为相似,通过人工的方法进行高精度识别面临着巨大的挑战。而基于单个模型的计算机辅助诊断方法容易产生预测偏差。为此,提出了多距离测度异质集成学习的细粒度分类方法对结肠病理学微卫星状态进行分型预测。该方法分别通过余弦距离、曼哈顿距离与欧氏距离在潜在空间上度量每个基学习器输出的置信分数与理想解的差距,来集成不同基学习器的预测,再通过融合这些距离来提高模型的整体决策性能。实验结果表明,该方法在结肠病理学图像细粒度分类任务上,分类准确率、精确率、召回率与F-1分值都达到了94%以上,为病理学图像的亚型分类提供了新的视角。

  • 关键词:
  • 微卫星分型
  • 病理图像
  • 细粒度分类
  • 距离测度
  • 集成学习
  • 加入收藏

1、引言


根据国际癌症研究机构发布的统计数据显示,2020年全球约有1 930万新发癌症病例和1 000万死亡病例,其中结直肠癌新发病例和死亡病例约占10.0%和9.4%。我国2022年癌症新发病例与死亡病例约为482万和321万,其中结直肠癌的新发与死亡病例约占12.29%和9.63%。这些数据表明,结直肠癌已经逐渐成为影响人口健康的重要因素[1,2,3]。客观准确地诊断结直肠病理学图像,特别是细粒度分类对结直肠癌的治疗和预后评估具有重要意义。结直肠癌微卫星不稳定(MSI)状态的筛查技术主要有免疫组织化学法(IHC)、多重荧光聚合酶链反应(PCR)检测微卫星位点和基于二代测序(NGS)平台的MSI算法[4],IHC主要是利用抗体与抗原的关系来检测肿瘤组织中错配修复(MMR)蛋白表达情况,虽然可以直接鉴定出导致MSI发生的MMR缺陷基因,但由于某些MMR基因错义突变会导致MMR蛋白功能损失而抗原性被保留,从而在临床的判读中出现一定的假阳性问题。PCR是直接检测MSI状态的常用方法,它将肿瘤细胞与正常细胞的PCR法检测所得的结果进行比较来确定肿瘤细胞的MSI状态,是当前MSI检测公认的“金标准”,然而全国能开展该项检测的病理科却相对较少。此外,基于NGS的MSI检测可以同时捕获多段基因组序列,利用其中已有的微卫星位点完成MSI状态评估,可以在提高分子诊断效率的同时降低样本用量。然而,该方法识别有良好区分性的微卫星位点需要优秀的算法和大量样本验证,在重复序列捕获和测序中极易受到实验环节中干扰因素的影响,因此需要寻求新的低成本且广泛适用的诊断分析方法用于MSI或结直肠癌患者的MMR检测任务。基于深度学习的方法不但可以对病理学图像进行分类,而且对细微特征有较高的灵敏度,已经在脑肿瘤、乳腺癌以及结直肠癌等一些重大疾病的辅助诊断中取得较大的突破[5,6,7,8,9,10,11,12],在癌变微卫星状态分类任务的研究中也取得了一定进展[13,14,15,16,17,18]。然而,目前对于癌变微卫星状态分类的数据集多为全载玻片图像(WSI)。Cao等[13]提出了一种图像块可能性聚合模型,获取全载玻片图像中的感兴趣(ROI)区域之后裁剪得到图像块,利用卷积神经网络预测每个图像块的MSI可能性后,使用直方图和单词袋的方法进一步提取特征向量训练贝叶斯分类器与梯度增强决策树,完成对全载玻片图像MSI状态的预测。Kather等[14]使用自动胃肠肿瘤检测器将肿瘤组织与正常组织区分开后,针对每种肿瘤类型训练了一个残差网络ResNet18网络模型用于MSI检测。Yamashita等[15]构建了MSINet网络架构,先使用组织类型分类器将全载玻片图像归属的组织类别判断出来,而后用MSI预测模型计算该全载玻片图像的MSI的概率。Lee等[16]提出了一种用于全载玻片图像(WSI)的微卫星状态分类的两阶段分类算法,第一阶段使用FPN网络先对数据图像进行分割,第二阶段利用经典的卷积神经网络对分割得到的小图像块进行分类预测,最后使用投票法完成对全载玻片图像的微卫星状态判别。对于只有图像块信息而没有全载玻片图像的上下文信息的数据来说,需要提取更丰富的特征信息完成高精度分类,Sai Venkatesh等[17]基于多个不同的预训练模型,提出了一种改进的ResNet网络模型,用于自动提取病理学图像块特征并完成微卫星状态(MSS和MSI)的分型任务,精度约为89.81%,F-1分值为0.917 8。Khan等[18]在预训练的Xception网络架构上进行迁移学习,对微卫星状态的测试分类精度达到90.17%。然而,上述模型仅采用单个卷积神经网络进行微卫星状态分型,这类方法对于差异较小的病理学图像预测效果有限。因此,本文考虑使用集成学习的方法对细粒度图像块进行特征提取,从而获得更加丰富的、能够互相补充的多重特征信息。

集成学习是在多个基学习器联合训练的基础上,选择任务导向的集成策略来进行综合预测,充分利用不同基学习器提取特征的互补性,得到比单个基学习器更高的精度和更强的泛化能力。目前,集成策略可以分为同质集成和异质集成两种。基于同质集成的方法,通过调整数据分布来差异化同质基学习器的模型,再通过Bagging或Boosting的集成策略来提高模型整体的预测性能。然而,同质集成中基学习器的架构和算法都是相同的,只通过改变输入基学习器的数据分布对集成模型进行优化,由于存在一定的随机性从而导致其性能受限。而异质集成的方法从模型的角度来考虑集成学习的多样性,每个基学习器采用不同的模型,通过不同的模型架构和算法进行特征提取和建模,再选择任务导向的集成学习策略,最大程度地利用异质基学习器的优势,从而获得性能更强、鲁棒性更高的“强”学习器。目前经典的异质集成方式已经用于组织病理学图像的分析领域。例如,Xue等[19]设计了基于4个基学习器的异质集成方法并采用多数投票的集成策略对宫颈癌组织病理学图像进行分类,在良性细胞和恶性细胞的二分类实验中准确率达到了98.37%;Bashir等[20]提出了基于加权投票的异质集成方法,结合5个基学习器进行预测,在乳腺癌良恶性二分类数据集上的最佳准确率为97.42%。然而只是将病灶进行是否癌变的诊断不能满足临床实际以及预后评估的需求,进一步提供细粒度的分类为针对性治疗和预后评估提供有效手段。因此,Sarwar等[21]将基于平均概率的集成策略用于细粒度图像分类,该方法结合15种不同的基学习器完成对宫颈癌组织病理学图像的分类,在是否癌变的二分类任务中准确率达到了98.57%,而在细粒度亚型分类中,准确率仅为78.86%。此外,Win等[22]构建了基于Bagging的集成模型对宫颈癌组织病理学图像进行分类,利用多数投票法结合5种基分类器的结果得到最终预测,该方法完成了良恶性和亚型的分类实验,在对良恶细胞的二分类中准确率达到了98.27%,对亚型细粒度分类的任务准确率仅为90.84%。然而,上述集成模型只是采用基于类别标签的投票策略对基学习器的预测概率进行整合,然后直接对样本进行预测,均没有考虑模型预测结果的类别概率(置信分数),这导致模型对差异较小的亚型分类的精确度不高。为更好地利用子模型预测结果的置信分数,Manna等[23]提出了一种基于模糊排序的集成方法对宫颈癌组织病理学图像进行分类,该方法将DenseNet169,Xception和InceptionV3 3个基学习器输出的置信分数通过一个组合非线性函数分别映射至高维空间中,来确定置信分数在决策中的模糊排序,再通过和规则融合模糊排序值来确定集成模型的最终预测。该方法通过非线性映射增强了置信分数的表达,但对于基学习器的置信分数仅采用单一的和规则进行融合可能会使不同基学习器间的互补信息利用得不够充分。为解决上述问题,本文提出了基于多距离测度异质集成学习的结肠病理图像细粒度分型方法,采用余弦距离、曼哈顿距离和欧氏距离3个距离测度集成基学习器输出的置信分数得到模型最终预测,主要贡献如下:

1)设计使用3个异质基学习器的集成模型,从多个潜在空间提取不同微卫星状态病理学图像的特征进行分类;

2)提出了多距离测度集成学习模型,在不同潜在空间中融合基学习器输出的置信分数来提升模型的预测性能。

基于深度学习的微卫星状态分型预测方法,可以从病理图像中自主学习数据特征指导亚型分类而无需使用免疫组织化学检测等方法,其实时性好、预测精度高,可以作为现有方法的有效补充。

本文第1章主要介绍了当前结直肠癌微卫星状态的主要筛查技术以及深度学习在这些重大疾病的辅助诊断中取得的进展;第2章详细介绍了提出的多距离测度异质集成学习模型架构与算法;第3章介绍了数据集并对该方法的实验结果进行了分析与讨论;最后总结全文。


2、多距离测度异质集成学习模型架构与算法


2.1 深度模型集成架构

图1为基于多距离测度异质集成学习模型的整体框架图。由图可知,该模型由3个基学习器组成,分别是InceptionV3[24],DenseNet169[25]和InceptionResNetV2[26]。InceptionV3采用不同大小的感受野来捕获输入图像的特征信息,并通过卷积分解来降低模型的参数量;DenseNet169通过建立模型浅层特征与深层特征的密集连接,能够同时学习图像的低级特征与高级特征,并对特征进行融合后再进行预测;InceptionResNetV2通过在Inception模型中引入深度残差模块,通过跳层连接将Inception中基本模块的输出添加到下一层的输入,该模型在Inception网络的基础上加快了模型的收敛速度,同时有效防止了梯度消失问题;这3个模型在ImageNet数据集上均已表现出优异的预测性能。因此,本文在对基学习器进行预训练的基础上,通过迁移学习将上述3个基学习器用于医学图像分析。为了能够使设计的网络更适用于结直肠癌组织病理学图像的细粒度分类任务,本文的异质集成学习模型在每个基学习器后通过扩展的网络层以代替原来的全连接层以进行模型微调。即在3个预训练的网络输出端分别使用128个大小为3×3的卷积核进行进一步特征提取;再采用最大池化层对所提取的特征进行压缩,从而有效降低数据维度与模型复杂度,同时也有效防止了模型的过拟合;最大池化层后面是连接全连接层(Fully-connected)并使用Relu激活函数,这里全连接层神经元数目为100。网络输出层设置为两个节点,通过softmax函数将网络输出映射到[0,1]范围内。

图1 基于多距离测度异质集成学习模型的整体框架

本文采用的3个基学习器在病理学图像识别中各有特点。InceptionV3通过多个卷积核来模拟不同大小的感受野,再通过不同感受野并行运算捕获上下文信息最后沿通道维拼接完成不同尺度的特征融合,因此该模型可以通过捕获病理学图像的上下文信息来增加特征的多样性,从而有效识别细粒度图像。DenseNet网络架构与其他两个基学习器不同,它采用密集连接机制,将各层得到的特征沿通道维拼接,从而实现特征的融合。该方法融合了模型提取到的低级特征和高级特征来进行综合预测,不但可以减缓因网络层加深造成的梯度消失现象,而且能够得到更多的区分性特征来对输入数据进行分类。该网络架构主要由特征密集块(Dense Block)和特征转换模块(Transition Block)两部分组成。对于一个l层的DenseNet网络架构,第l层的输入接收前面l-1层的所有特征信息的融合,其表达式为:

xl=Hl([x0,x1,…,xl-1]) (1)

其中,Hl(·)表示非线性映射函数,包括卷积、池化以及正则化等组合操作;[x0,x1,…,xl-1]表示前l-1层沿通道拼接操作。此外,DenseNet的转换模块(Transition block)用来连接相邻的两个相同尺寸的特征密集块,通过减少特征通道数量与特征尺寸大小来压缩特征向量,解决在网络加深的同时模型参数量与特征维度也会随之增加的问题,从而提高模型效率。InceptionResNetV2网络结合了Inception网络与残差连接的优势,在Inception架构的基础上添加残差连接将前一级输入与其输出进行元素级相加,能够加速网络收敛,缓和因网络加深而带来的梯度消失现象,从而提升网络性能。

2.2 多距离测度集成学习算法

本文提出了基于多距离测度异质集成学习的网络架构,即训练多个基学习器模拟病理专家集中决策的过程,利用基学习器的异质性实现特征互补,以增强集成模型的细粒度分类性能和泛化能力。这里采用余弦距离、曼哈顿距离与欧氏距离3种距离测度在不同的潜在空间上融合基分类器输出的置信分数,从而得到最终的预测结果。对于二分类任务,用x表示输入样本,y表示每个样本对应的标签,(xi,yi)即为每个样本输入模型架构的数据格式,那么数据集可表示为由全部样本X与其所对应的标签Y组成的集合(X,Y)={(x1,y1),(x2,y2),…,(xn,yn)}。基于多距离测度异质集成学习的网络,对3个基学习器输出的类别预测概率通过多距离测度的集成策略来进行预测。具体方法为:对于特定样本xi,第m个分类器将其预测为第j类的置信分数用符号Pjm(xi)表示(其中,m=1,2,…,M;代表基学习器的个数),其范围为[0,1];而理想值为基学习器对特定的类所能产生的最高分数,即‘1’。那么,对于特定的样本xi,将其预测为第j类,利用基学习器得到的样本预测置信分数矩阵为Pj(xi)=(Pj1(xi),P

(xi)),而其真实标签向量为1={1}Mm=1。通过余弦距离、曼哈顿距离和欧氏距离在不同维度上衡量样本真实值与模型预测概率的差异。这里用符号DCj(xi),D

(xi)分别表示余弦距离、曼哈顿距离和欧氏距离3种测度,其计算式为:

对3个测度采用乘积规则融合为多距离测度后,多距离测度最小的一类即为模型预测结果。这里,多距离测度作为一种去模糊化的方式,乘积规则将量级不同的3种距离测度值标准化为同一量级从而做出最终预测,使决策过程更具鲁棒性,该过程可以表示为:

其中,Mj(xi)为多距离测度,它表示对余弦距离、曼哈顿距离和欧氏距离3个测度的融合;

为样本xi经多距离测度集成学习模型得到的最终预测结果。算法1描述了所提出的多距离测度集成学习算法。


3、实验结果与分析


3.1 数据集

本文采用的数据集为80 000张大小为224×224的互不交叠的结肠癌病理学图像。其中微卫星不稳定型(MSI)病理图像和微卫星稳定型(MSS)病理图像各40 000张。实验中,先将两种类型的微卫星状态图像各取4 000张作为测试集,用于客观真实地评价训练所得模型的性能;其余72 000张图像随机打乱后按照8∶2的比例分为训练集和验证集,用于训练集成学习模型并验证模型性能。图2为两种不同微卫星状态的组织病理学图像。由图可知,这两种结肠癌亚型的特征较为相似,对于病理学医生而言,通过肉眼进行准确分辨具有较大的挑战性。

图2 结肠癌的MSI和MSS病理图像

3.2 数据处理

数据集在进入网络模型前,先进行归一化处理,将像素值缩放到[0,1]范围内,其次通过翻转、缩放与旋转操作对数据进行数据增强处理以增加训练样本的多样性。对数据进行预处理之后,通过设计的集成模型架构中的基学习器模块进行特征提取,它包含多个卷积层和池化层的堆叠,逐渐提取更高级的抽象特征,对于本文的细粒度图像分类任务,在训练时为每个样本分配一个正确的标签,按3.1节中所提比例将所有的数据集划分为训练集、验证集和测试集,然后根据设置的批量尺寸大小,在每个训练迭代中生成一个批次的样本,将所有数据分批输入到各基学习器中进行训练,对于各基学习器的输出结果,通过提出的多距离测度算法进行融合,从而得到模型的集成结果。

3.3 结果和实验细节

基于多距离测度异质集成学习方法的实验结果如表1和图3所示。表1中采用准确率Accuracy、精确率Precision、召回率Recall以及F1分值4个指标来对模型进行评价。图3(a)-图3(c)分别给出了3个基学习器测试结果的混淆矩阵,图3(d)给出了基于多距离测度异质集成学习模型得到的混淆矩阵。在实验过程中,设置初始学习率为0.001,图像批量尺寸为32,优化算法为Adam, 通过交叉熵损失函数控制模型收敛。训练迭代次数设置为100轮,由结果可知,与单个模型相比,本文提出的基于多距离测度异质集成学习模型在分类结果的准确率提高了0.15%~3.38%,精确率提高了0.15%~3.36%,召回率提高了0.15%~3.38%,F1分值提高了0.15%~3.38%,这表明基于多距离测度异质集成学习模型的性能优于单个模型。这是由于提出的集成模型能够通过不同的距离测度在多个潜在空间衡量基学习器预测概率与理想解的差距,从而降低了只采用单个模型导致样本错误分类的可能性,从而提高了模型的预测精度和鲁棒性。

表1 多距离测度的集成学习模型与单个基学习器的对比结果

图3 混淆矩阵

3.4 统计分析

为了统计分析所提出的集成模型架构对架构中基学习器的可行性,采用McNemar 统计检验进行非参数假设检验,比较两个模型是否存在显著性差异。在 McNemar 检验中,零假设是两个分类器在测试集上具有相似的错误比例,用“p-value” 表示两个模型相似的概率,为了拒绝模型相似的零假设,给定显著性水平α,设置该值为0.05,若“p-value”小于预先设定的显著性水平α,则可以拒绝两个模型相似的零假设,认为所比较的两个模型在统计上是不同的,即模型具有显著性差异。从表2可以得出结论,在测试数据集中,零假设被拒绝,即集成模型与各基学习器明显不同,存在显著性差异。

表2 提出的集成模型与基学习器之间的McNemar检验结果

3.5 讨论

表3列出了Manna等[23]所提出的基于模糊排序的集成方法在结肠癌组织病理学图像微卫星状态分型数据集上的表现,与该模型相比,本文方法在准确率、精确率、召回率与F1分值4个评价指标上均提升了10%以上。这是由于Manna等[23]提出的集成架构是采用一个组合非线性函数将3个基学习器输出的预测概率映射至同一潜在空间来确定预测概率在决策中的模糊排序,再通过和规则对模糊排序值求和后,将和最小值对应的类作为集成模型最终的预测结果。该方法在不同基学习器集成时仅使用单一和规则对模型输出预测概率的映射值进行处理,对3个基学习器的互补信息利用不够充分,当基学习器出现错误分类时,集成模型不能及时将其纠正。此外,为使模型快速收敛节约时间成本,该模型还冻结了基学习器中的预训练层,仅依靠后续自定义的全连接层与Dropout层等完成训练,这也将大大影响模型的性能。尤其是微卫星状态这种差异较小的病理学图像,由于其低级特征较为相似,冻结预训练层会导致细粒度图像特征信息不能被很好地捕获。本文的集成模型利用3种距离测度从不同空间维度融合3个异质基学习器的置信分数,从而实现对样本的综合预测,在考虑基学习器互补性的同时,还考虑了多维空间中不同距离测度的特征描述,使集成模型能够充分利用异质基学习器捕获的特征信息,进而提升模型的预测性能。实验结果表明,所提模型在微卫星分类的任务上取得了较好的分类精度,图4给出了本文模型与SOTA模型的对比。由图可知,相比其他模型,基于多距离测度异质集成学习模型的性能都得到了提升。此外,与Sai Venkatesh等[17]和Khan等[18]只使用单个卷积神经网络进行分类相比,本文方法更好地融合了多个模型的特点来完成集成模型的建构,在提升了模型预测性能的同时泛化能力也得到了改善。

表3 Manna提出的模型的表现

表4-表7分别列出了基于多距离测度异质集成学习模型对MSS样本与MSI样本进行测试的结果。其中,表4、表6为本文中基分类器的预测概率值,即置信分数Pjm(xi)。由表可知,对于这些微卫星分型图像,每个基分类器的预测概率值差异较小,因此较难分辨,如果使用单个分类器,很容易发生误判。表5、表7列出了基于多距离测度异质集成学习模型得到的3个单一距离测度值及其融合结果,即D

(xi)和Mj(xi),将Mj(xi)最小的一类作为最终预测结果,即

对MSS而言,表4中显示模型DenseNet169与InceptionResNetV2两者预测结果为MSS,但模型InceptionV3的预测结果为MSI,本文通过使用多距离测度量化3个基学习器输出的类别置信分数与理想标签之间的差距,再通过式(5)得到该图像分别为MSS和MSI的多距离测度值分别为0.011,0.023。由式(6)可知,该样本预测结果为MSS,与标签结果一致。表5中的数据表明,提出的多距离测度异质集成学习模型可以将基学习器InceptionV3的错误预测进行纠正,从而得到正确的预测结果,这增强了模型决策的鲁棒性与可靠性。与表4、表5类似,表6、表7为所提出的基于多距离测度异质集成学习模型对MSI样本的测试结果,其中表6列出了3个基学习器对样本的类别预测概率,可以看出InceptionResNetV2在对样本预测时产生了误判,而在表7中,通过多距离测度异质集成学习模型对3个基学习器的类别概率进行融合后,实现了对微卫星状态的精准预测。

表4 基分类器对特定MSS样本的预测结果

表5 多距离测度异质集成预测结果

表6 基分类器对特定MSI样本的预测结果

表7 多距离测度异质集成预测结果

结束语本文提出了一种基于多距离测度异质集成学习模型,实现了结肠病理图像亚型分类,本文方法融合了来自InceptionV3,DenseNet169以及InceptionResNetV2 3个基学习器的预测概率,通过考虑模型输出结果的置信分数问题,采用3种不同距离测度量化3个基学习器对特定的类的预测概率值与理想解的差异,最后使用乘积规则通过多距离测度对3个基学习器进行集成,利用不同模型与算法间的互补性提高了模型在结肠组织病理学图像微卫星分型中的准确率,在一定程度上解决了单个深度学习模型因自身结构局限性导致的网络性能难以突破的问题。实验结果表明,本文提出的集成算法在4项性能指标上均达到了94%以上,且各评价指标也均优于单个模型,这证实了本文提出的集成方法的可行性,为实现高精度的组织病理学图像的细粒度分类任务奠定了理论基础。


基金资助:国家自然科学基金(11804209); 山西省自然科学基金(201901D211173,202103021223411); 山西省高等学校科技创新资助项目(2019L0064)~~;


文章来源:梁美彦,范莹莹,王琳.基于多距离测度异质集成学习的结肠病理图像细粒度分类研究[J].计算机科学,2024,51(S1):361-367.

分享:

91学术论文范文

相关论文

推荐期刊

网友评论

加载更多

我要评论

肿瘤学杂志

期刊名称:肿瘤学杂志

期刊人气:2013

期刊详情

主管单位:浙江省卫生和计划生育委员会

主办单位:浙江省肿瘤医院,浙江省抗癌协会

出版地方:浙江

专业分类:医学

国际刊号:1671-170X

国内刊号:33-1266/R

邮发代号:32-37

创刊时间:1977年

发行周期:月刊

期刊开本:大16开

见刊时间:10-12个月

论文导航

查看更多

相关期刊

热门论文

【91学术】(www.91xueshu.com)属于综合性学术交流平台,信息来自源互联网共享,如有版权协议请告知删除,ICP备案:冀ICP备19018493号

微信咨询

返回顶部

发布论文

上传文件

发布论文

上传文件

发布论文

您的论文已提交,我们会尽快联系您,请耐心等待!

知 道 了

登录

点击换一张
点击换一张
已经有账号?立即登录
已经有账号?立即登录

找回密码

找回密码

你的密码已发送到您的邮箱,请查看!

确 定