首页 > 论文范文 > 医药卫生论文 > 肿瘤科论文 > 肿瘤综合论文 > 深度学习的胰腺黏液性和浆液性囊性肿瘤的多源特征分类模型

深度学习的胰腺黏液性和浆液性囊性肿瘤的多源特征分类模型

2024-03-14 198 上传者：管理员

摘要：术前精准预测胰腺囊性肿瘤的类型，对制定个体化诊疗方案具有重要的临床价值．针对胰腺浆液性和黏液性囊性肿瘤的分类鉴别问题，本文探讨了基于深度学习的多源特征分类模型在胰腺囊性肿瘤的术前辅助诊断中的应用．首先，通过深度学习和影像组学技术从分割图像中提取深度学习特征和影像组学特征，并对病例的临床特征进行评估和量化，然后采用最小绝对收缩选择算子（LASSO）及交叉验证的方法筛选特征，随之构建出两个多源特征模型，即影像组学联合深度学习（RAD＿DL）模型、临床特征联合RAD＿DL(Clinical＿RAD＿DL)模型，把传统的影像组学（RAD）模型和深度学习（DL）模型作为对照，最后选用支持向量机（SVM）、自适应提升算法（ADAboost）、随机森林（Random Forest）以及逻辑回归（Logistic）进行分类．采用准确率、召回率、精确率、曲线下面积（AUC）值以及精确率和召回率的调和平均数（F1值）作为评价指标，比较上述4种不同特征模型的分类效能，用校准曲线和决策曲线来评估其临床应用价值．结果显示Clinical＿RAD＿DL特征模型的分类效能表现最佳，准确率是0.923 1，召回率是0.882 4，精确率是0.882 0,F1是0.882 2,AUC是0.912 6，校准曲线和决策曲线显示出Clinical＿RAD＿DL特征模型的临床应用价值是最高的．实验表明基于深度学习的多源特征分类模型，对胰腺黏液性和浆液性囊性肿瘤具有较好的分类效果，可以为临床上精准诊疗提供帮助．

关键词：
临床特征
影像组学
深度学习
磁共振成像(MRI)
胰腺囊性肿瘤
加入收藏

随着腹部横断面成像的普及，胰腺囊性肿瘤（PCN）的检出率也呈逐年上升的趋势．中国胰腺囊性肿瘤诊断指南中指出，51.1%的患者缺乏典型的胰腺疾病相关症状[1]，这就为疾病的早期诊疗带来了困难．而且，部分PCN具有恶变的风险，其中，胰腺浆液性囊性肿瘤（SCN）一般为良性，胰腺黏液性囊性肿瘤（MCN）具有恶变潜能，二者的术前精确诊断对于制定个性化评估方案具有重要意义．据2023年癌症统计数据报道，胰腺癌的死亡率是最高的．MCN和SCN的精确分类，对于胰腺良恶性肿瘤的早期诊疗具有重要的临床意义，同时为良性患者避免不必要的手术切除．

磁共振成像（MRI）是评估PCN的首要成像方式，医生的诊断依据取决于MRI的形态特征．目前，MCN和SCN人工分类主要有两个难点：首先，MCN和SCN前期并没有胰腺疾病相关的症状，大多患者是偶然发现，这为临床上的早期确诊带来困难；再者，MCN和SCN的影像学特征相似，二者差异较小，容易引起误诊．临床上，传统的PCN分类很大程度上依赖于医生的经验，而仅凭临床症状和影像学特征无法对PCN进行准确的检测和诊断，且医生手工分类主观性较强，不同的医生诊断结果可能存在差异[2,3]，因此结合计算机技术辅助医生诊断的需求日益增长．

近年来，基于深度学习和影像组学的方法是研究PCN良恶性的热点[4]．最近的研究发现，深度学习和影像组学对胰腺肿瘤的个体化评估有很大贡献，如肿瘤检测、分类以及良恶性判别等[5,6,7,8,9,10].Zhang等[11]开发并验证了基于卷积神经网络（CNN）的迁移学习模型，该模型使用两个独立的可切除胰腺导管腺癌（PDAC）队列来预测PDAC患者的总体生存．Nguon等[9]使用残差网络（Res Net50）实现了一个区分MCN和SCN的CNN模型．当训练选定的层时，使用预训练的迁移学习模型进行微调训练．该网络模型的准确率为0.827 5，曲线下面积（AUC）得分为0.88．尽管这些发现证实了深度学习和影像组学用于评估PCN的可行性[7,12]，但由于大多数研究中包含的数据集较少，且研究的方法较为单一，使得影像组学模型的适用性可能受到限制．因此，胰腺囊性病变需要积累更多的研究数据．

以往的研究大多是单独使用影像组学的方法，或者单独使用深度学习的方法，对MCN和SCN进行分类，虽然都展现出了较好的分类能力，但二者之间是否存在互补的关系还有待研究．本研究旨在构建基于深度学习的多源图像特征分类模型，以区分MCN和SCN，对患者进行个体化评估．

1、实验部分

1.1 一般资料

本研究使用的数据集来自长海医院在2011年至2021年期间接收的172例PCN患者，其中包含65个MCN病例以及107个SCN病例，所有患者均提供书面知情同意书．经病理学证实的107例SCN患者有男性45例，女性62例，平均年龄（48.7±15.1）岁，65例MCN患者中有男性23例，女性42例，平均年龄为（51.9±12.5）岁．

1.2 MRI扫描

所有患者均使用3.0 T系统（Signa Excite 3.0T,GE Healthcare,Milwaukee,USA）进行MRI检查．所有患者仰卧位，相控阵接收器线圈覆盖上腹部，屏气单次快速自旋回波轴位T2加权序列（TR/TE=6 316/87 ms；视野=360×420 mm2；矩阵=224×270；层厚=5 mm；层间距=1 mm).

评估所有PCN的MRI临床特征：(A)肿瘤的位置（胰头、胰体和胰尾）；(B)大小（感兴趣区（ROI）的像素体积）；(C)患者性别；(D)患者年龄（连续变量），将这些临床特征作为初步的诊断依据．

1.3 基于深度学习的多源特征分类方法

在MCN和SCN的分类模型当中，使用深度学习特征联合影像组学特征集构建RAD＿DL多源特征模型，使用添加了临床特征的RAD＿DL特征集构建Clinical＿RAD＿DL多源特征模型．为了探究多源特征分类模型的效能，还使用深度学习特征和传统影像组学特征构建DL特征模型和RAD特征模型．此外，还分别使用SVM、ADAboost、Random Forest和Logistic分类器来训练4种特征模型，使用准确度、召回率、精确率、AUC和F1值等指标评估4种特征模型的分类效能．本研究的流程图如图1所示．

图1 基于深度学习的多源特征模型建模流程

1.3.1 图像分割

肿瘤的分割在ITK-snap（版本3.8.0）软件上进行，所有MR图像都由3名经长海医院委员会认证的腹部放射科医生分析，在肿瘤的最大横断面上绘制ROI，在绘制ROI时需特别注意避免胰腺血管、导管和伪影．为了减少ROI分割的误差，由不同的放射科医生独立对图像进行分割，再由十年腹部诊断经验的医师进行评定．图2(a)和图2(b)分别是MCN和SCN的分割图像．

图2 MCN和SCN的分割图像.(a)腹腔轴位T2WI显示MCN呈高信号，其边界规则；(b)腹腔轴位T2WI显示SCN呈高信号，其边界不规则

1.3.2 深度学习特征及影像组学特征提取

本研究基于Res Net50网络来提取深度学习特征，采用python软件包Tensor Flow（版本2.1.0）的keras（版本2.3.1）下的Res Net50构建CNN网络．Res Net50由残差模块（residual module）组成总共有50层，残差模块包括3个卷积层，其中包括标准的卷积层、批量归一化层和激活层，可以实现对输入特征映射的高速和高质量转换，通过避免较浅层特征的丢失，可以更好的提取图像对深层特征[13]，其主要思想是通过残差连接来解决网络过深而出现的梯度消失问题[14]．胰腺在图像中没有固定的形态，结构极为复杂，Res Net50网络因其深度、高度分层和卷积模块的设计，在提取PCN的深度学习特征时，有着明显的优势．Res Net50的网络结构如图2所示．在预训练中加入迁移学习，减少模型过拟合．对该网络随机初始化各层的参数，学习率为0.000 1，衰减率为0.000 1，批数据大小为20，动量为0.9，训练了1 000个循环．

图2 Res Net50提取深度学习特征过程，图中包含4个卷积块（Conv）、平均池化层（Av-pool）以及全连接层（fc)

影像组学特征类型包括20个形状(Shape)特征、18个一阶（First order）特征、24个灰度共生矩阵（gray level co-occurrence matrix,GLCM）、14个灰度相关矩阵（gray level dependence matrix,GLDM)、16个灰度游程矩阵（gray level run length matrix,GLRLM）、16个灰度区域大小矩阵（gray level size zone matrix,GLSZM）和5个邻域灰度差矩阵（neighborhood gray tone difference matrix,NGTDM）共7类特征以及小波变换特征．使用3D-slicer软件中的pyradiomics插件对ROI提取影像组学特征，软件提取的特征包含113个原始图像纹理特征和744个小波变换特征共857个特征．

1.3.3 标准化及特征筛选

使用SPSS25.0软件对临床资料做单因素逻辑回归分析和多因素逻辑回归分析，将临床资料中既符合单因素逻辑回归分析又符合多因素逻辑回归分析的特征纳入到后续处理．利用python3.9将影像组学特征及深度学习特征分别进行标准化处理[12]，应用LASSO对影像组学特征和深度学习特征分别进行筛选，10折交叉验证的方法用来寻找训练集中最优的拟合参数l（l表示L1正则化的惩罚力度）．LASSO的主要原则是通过最小化正则化之后的损失函数，实现对回归系数的稀疏化，保留对目标变量的预测具有显著影响的特征．LASSO的损失函数如(1)式所示：

其中，n表示样本数，X表示样本目标向量，w表示L1正则化，y表示样本特征矩阵．(1)式右边的第1项是LASSO的均方误差（mean square error,MSE），第2项是添加了L1正则化的惩罚因子，通过调整l值，控制L1正则化程度，使LASSO模型的MSE最小化以确定最佳的系数估计，保留对结果影响较大的特征，其余系数衰减为0.

1.3.4 基于深度学习的多源特征模型构建与评估

使用pycharm2018软件构建分类模型并对模型进行评估．将患者按照约7:3划分为训练集（n=120）和测试集（n=52），将筛选获得的数据集构建RAD、DL、RAD＿DL以及Clinical＿RAD＿DL特征模型．使用SVM、ADAboost、Random Forest以及Logistic Regression分类器进行分类，采用网格搜索和控制变量结合的方法优化各分类器的参数，使用准确率（Accuracy）、召回率（Recall）、精确率（Precision）以及F1值来评价模型的分类效能，最后绘制受试者工作曲线（receiver operating characteristic,ROC）曲线，计算AUC值，利用Delong检验来分析不同模型的ROC曲线间的差异（p<0.05认为差异有统计学意义），最后建立校准曲线和决策曲线进一步评估模型的拟合效果和临床应用价值．

准确率是模型正确分类样本数占总样本数的比例，计算公式如下：

召回率指正确分类的正样本数占实际为正样本数的比例，计算公式如下：

精确率指正确分类的正样本数占预测为正样本数的比例，计算公式如下：

F1值综合考虑了精确率和召回率，是评价分类器性能的综合指标，计算公式如下：

其中(2)～(4)式中TP、FP、TN和FN分别表示真阳性、假阳性、真阴性与假阴性．

单因素逻辑回归分析是用来衡量单个临床特征和分类变量之间的差异，多因素逻辑回归分析是用来衡量多个因素和分类变量之间的差异，评价临床特征的p值和比值比（odds ratio,OR值）．当p值小于0.05，表示特征和变量之间有显著性差异；p值大于0.05，则表示特征和变量之间没有显著性差异，不具有统计学意义．当OR值大于1，表示特征和变量之间存在正相关性，该特征是危险因素；OR值等于1，表示特征和变量之间不相关；OR值小于1，表示特征和变量之间存在负相关性，该特征是安全因素．

2、结果与讨论

2.1 SCN和MCN分类结果

2.1.1 基于单（多）因素逻辑回归分析的临床特征筛选

对所有临床特征进行单因素逻辑回归分析以及多因素逻辑回归分析，临床特征对分类变量的相关性分析，单因素逻辑回归分析显示年龄特征（p>0.05）不具有统计学意义，肿瘤的体积大小（OR=1）不是PCN分类的危险因素，位置特征（p<0.05,OR=2.22,95%置信区间（95%CI)=[1.47,3.34]）以及性别特征（p<0.05,OR=6.30,95%CI=[1.82,21.82]）是PCN分类的危险因素，肿瘤位置特征OR值为2.22，即在胰头比在胰体上PCN分化成MCN的概率提升2.22倍，肿瘤位置在胰体比在胰尾上PCN分化成MCN的概率提升2.22倍，女性患有MCN是男性患有MCN的6.30倍．单因素逻辑回归分析的结果列于表1.

表1 MCN和SCN的临床特征单因素逻辑回归分析

将位置特征和性别特征纳入到多因素逻辑回归分析，多因素逻辑回归分析显示位置特征（p<0.05,OR=2.12,95%CI=[1.39,3.24]）和性别特征（p<0.05,OR=5.58,95%CI=[1.57,19.84]）是PCN分类的危险因子，结果表明，肿瘤位置在胰头比在胰体上PCN分化成MCN的概率提升2.12倍，肿瘤位置在胰体比在胰尾上PCN分化成MCN的概率提升2.12倍，女性患有MCN是男性患有MCN的5.58倍．多因素逻辑回归分析的结果列于表2当中。

表2 MCN和SCN的临床特征多因素逻辑回归分析

2.1.2 基于LASSO回归算法的深度学习特征和影像组学特征筛选

对深度学习特征做标准化处理，10折交叉验证下选择LASSO拟合过程中均方误差最小的参数l，此时l=6.55´10-2,LASSO筛选得到4个系数不为0的深度学习特征；对影像组学特征先标准化处理[15]，然后使用t检验从856个特征中筛选得到196个特征，再使用LASSO及10折交叉验证的方法，当LASSO算法的均方误差最小时，参数l=4.94´10-2，筛选得到10个系数不为0的影像组学特征．图3(a)和图3(d)分别是对影像组学和深度学习特征做筛选得到的LASSO模型的均方误差图，图3(b)和图3(e)分别是对影像组学和深度学习特征做筛选得到的特征系数收敛图，图3(c)和图3(f)分别是对影像组学和深度学习特征做筛选得到的特征系数图．将保留的深度学习特征以及影像组学特征用于构建MCN和SCN的多源特征分类模型．

2.1.3 多源特征模型的分类效能及评价

本文基于深度学习的方法构建了MCN和SCN的多源特征分类模型．为了发掘该多源特征模型的分类性能，建立了RAD、DL、RAD＿DL、Clinical＿RAD＿DL特征模型，具体的各模型的效能详见表3.Clinical＿RAD＿DL特征模型在准确率（0.923 1）、精确率（0.882 0）、AUC(0.912 6）和F1(0.882 2）等多个指标上表现最好．Clinical＿RAD＿DL特征模型的准确率更高，说明该模型可以更好地对PCN患者进行分类；精确率更高，这代表着更少的误诊和漏诊；虽然Clinical＿RAD＿DL特征模型的召回率（0.882 4）并不是最高，但是从综合指标F1值来看，该模型有着最佳的综合性能；Clinical＿RAD＿DL特征模型的AUC值最高，能够反映该模型很好的分类能力．进一步表明，结合临床特征、影像组学特征以及深度学习特征的多源特征模型在分类MCN和SCN中具有优良的效能，且多源特征模型可进一步提高PCN良恶性的鉴别效能．图4(a)、图4(b)、图4(c)和图4(d)分别是4种分类器在RAD、DL、RAD＿DL以及Clinical＿RAD＿DL特征模型中的ROC曲线．

图3 (a)对影像组学特征做筛选得到的LASSO模型MSE图．通过调整l值使MSE达到最小，以确定最佳l值；(b)对影像组学特征进行筛选的最优特征系数收敛图；(c) LASSO筛选的影像组学特征权重图，Skewness.1表示偏度，Busyness.1表示复杂度，MCC.2表示形态学相关系数，Dependence Variance.2表示依赖性差异度，Idn.4表示逆差分矩，Correlattion.7表示相关性；(d)对深度学习特征做筛选得到的LASSO模型MSE图；(e)对深度学习特征进行筛选的最优特征系数收敛图；(f) LASSO筛选的深度学习特征权重图

表3 特征模型在4种分类器中的效能

图4 4个特征模型以及各分类器的ROC曲线．横坐标是假阳性率（fpr），纵坐标是真阳性率（tpr),4个分类器分别为SVM（支持向量机）、ADAboost（自适应提升算法）、Random Forest（随机森林）以及Logistic（逻辑回归）．(a) RAD特征模型的ROC曲线；(b) DL特征模型的ROC曲线；(c) RAD＿DL特征模型的ROC曲线；(d) Clinical＿RAD＿DL特征模型的ROC曲线

本文基于深度学习构建的多源特征模型准确率最高可达0.923 1,AUC值达0.912 6，高于Liang等[16]将影像组学-DL评分和影像学特征纳入到融合的SCN鉴别诊断模型当中的准确率（0.856 0），以及Wang等[17]基于深度学习特征和影像组学特征构建的腋淋巴结（ALN）诊断模型中SVM分类器最高的AUC值（0.87）.主要的原因是，本研究结合了3种不同来源的PCN的特征，即临床特征、深度学习特征和影像组学特征，以此构建的多源特征模型有更丰富的特征信息，能够更全面的评估PCN；其次，本文对多个分类器都做了调参优化，并对多个分类器进行比较分析；最后，本文选取的深度学习特征提取网络是Res Net50网络，并在训练过程中加入迁移学习和残差模块，缓解深层网络出现的梯度消失问题，减小训练误差．

Delong检验如表4所示，结果显示Clinical＿RAD＿DL特征模型仅相对于DL特征模型（p=0.029）有统计学意义上的更高效能，与RAD＿DL特征模型（p=0.069）、RAD特征模型（p=0.051）之间没有统计学意义上的显著差异．Clinical＿RAD＿DL特征模型的分类效能需要进一步检验，后续采取校准曲线和决策曲线综合评价Clinical＿RAD＿DL特征模型的分类效能．

表4 比较Clinical＿RAD＿DL特征模型和不同模型效能差异的Delong检验的p值

单因素逻辑回归分析和多因素逻辑回归分析获取了差异较大的临床特征，基于LASSO算法获得了最佳的深度学习特征和影像组学特征，使用这些临床特征、深度学习特征和影像组学特征绘制了如图5所示的校准曲线和决策曲线，以便于观察模型的拟合效果和临床价值．

图5 校准曲线和决策曲线.(a) RAD、DL、RAD＿DL和Clinical＿RAD＿DL特征模型的校准曲线.横坐标表示PCN分类模型的预测概率（PCN-predicted Probability），纵坐标表示实际概率（Observed Probability);(b) RAD、DL、RAD＿DL和Clinical＿RAD＿DL特征模型的决策曲线.横坐标表示高风险阈值（High Risk Threshold），纵坐标表示模型的净收益（Net Benefit),All曲线表示全部预测成MCN的净收益，None曲线表示全部预测成SCN的净收益

在校准曲线中，C值用来度量各模型对MCN预测值与实际值一致性的比例，取值范围是0到1之间，其中1表示完美的一致性，0.5表示随机预测．C值越高，表明该模型的分类准确率越高，参与分类的特征和机器学习分类器的拟合度越高，分类性能越好．结果显示，DL特征模型（C=0.78,95%CI=[0.71,0.85]),RAD特征模型（C=0.89,95%CI=[0.84,0.94]),RAD＿DL特征模型（C=0.93,95%CI=[0.90,0.97]),Clinical＿RAD＿DL特征模型（C=0.94,95%CI=[0.90,0.97]），这表明Clinical＿RAD＿DL特征模型的特征拟合度最优，模型对MCN和SCN分类的准确度最好．在决策曲线中，阈值范围在0.06～0.98内，4个分类模型的净效益均高于完全预测成MCN或者完全预测成SCN．并且Clinical＿RAD＿DL特征模型的决策曲线最靠近坐标轴的右上方，从图5(b)中，当阈值范围在0.06～0.73之间，RAD＿DL与Clinical＿RAD＿DL的预测能力比较接近，但是在高范围阈值0.73～0.83内，Clinical＿RAD＿DL特征模型的预测能力更强．综上，针对MCN和SCN的分类问题，Clinical＿RAD＿DL特征模型的分类性能最好，临床应用价值最高．

2.2 讨论

本研究采用影像组学和深度学习的方法构建了MCN和SCN的分类模型．使用Res Net50网络提取深度学习特征时，添加了迁移学习，减少模型过拟合带来的影响，面对复杂的PCN图像提取更高级别的深度学习特征．以表3中各组表现最好的分类器为例，Clinical＿RAD＿DL特征模型比RAD特征模型的准确率提高12%,AUC值提高14%;Clinical＿RAD＿DL特征模型比DL特征模型中的准确率提高20%,AUC值提高6%;Clinical＿RAD＿DL特征模型比RAD＿DL特征模型的准确率提高9%,AUC值提高8%．深度学习特征和影像组学特征的联合已被证明优于单纯的深度学习或单纯的影像组学[18]，我们的实验结果也表明深度学习特征和影像组学特征可能存在互补性．

本研究发现，位置特征和性别特征可以提高SCN和MCN分类的准确率，以前的研究结果也表明，临床特征可以存在于SCN和MCN的分类模型中，甚至可以在非典型SCN和MCN的分类模型中发挥作用[19]，这与本研究中的RAD＿DL模型和Clinical＿RAD＿DL模型的分类效能比较的结果保持一致．位置和性别是改进分类模型的重要特征[20]，这是因为影像组学特征和深度学习特征不具有位置和性别特征，而肿瘤的位置和患者的性别作为成像特征的补充可以提高模型的分类效能．据图5(b)所示，Clinical＿RAD＿DL模型更接近图像的右上角，说明该模型具有更高的临床应用价值．

作为一项回顾性研究，本文还存在以下几点不足：（1）尽管本文包含了大量的PCN病例，但这仍然是一项单中心研究，分类模型的泛化能力还需进一步验证；（2）为了方便临床使用，本文使用的数据是二维单层面数据，相比于三维数据，可能会丢失有关肿瘤异质性的问题；（3）本文仅对PCN的T2WI数据进行建模，PCN的分类标准仍需要根据不同的成像方式进行探讨．今后，我们将在其他磁共振序列图像的基础上，进一步研讨胰腺囊性病变的分类模型，以满足临床个性化治疗的需要．

3、结论

本文针对胰腺浆液性和黏液性囊性肿瘤的分类鉴别问题，建立了基于深度学习的多源特征分类模型，用于PCN的术前辅助诊断．采用深度学习方法和影像组学技术提取深度学习特征和影像组学特征，并对病例的临床特征进行评估和量化，然后采用LASSO及交叉验证的方法分别对深度学习特征和影像组学特征进行筛选，最后构建出两个多源特征模型，即RAD＿DL模型和Clinical＿RAD＿DL模型，并把RAD模型和DL模型作为对照分析，结果表明Clinical＿RAD＿DL具有较好的分类效果．

文章来源:徐真顺,袁小涵,黄子珩等.基于深度学习的胰腺黏液性和浆液性囊性肿瘤的多源特征分类模型[J].波谱学杂志,2024,41(01):19-29.