摘要:快速准确识别病原菌在防止传染病的传播、帮助对抗抗菌素耐药性和改善病人预后方面起着关键作用。拉曼光谱结合机器学习算法能够简单快捷地对病原菌进行无标记检测。然而,病原菌种类和表型繁多,并且深度学习需要依赖大量样本训练,而收集大批量病原菌拉曼光谱劳神费力,且易受荧光等因素影响。针对上述问题,提出一种基于WGAN-GP数据增强方法和ResNet结合的病原菌拉曼光谱检测模型。采用五种常见眼科病原菌的拉曼光谱。将采集到的原始数据归一化作为ResNet和传统卷积神经网络(1D-CNN)的输入,将经过SG滤波、 airPLS基线校正、 PCA降维等预处理后的数据作为K近邻(KNN)的输入,对比分析发现ResNet模型效果最优,其分类精度可达96%;搭建Wasserstein生成式对抗网络加梯度惩罚模型(WGAN-GP),生成大量与真实数据相似的高分辨率光谱数据。同时与偏移法、深度卷积生成式对抗神经网络(DCGAN)2种数据增强方法进行比对,证明WGAN-GP的可靠性;为验证生成数据可以丰富数据多样性,进而提高分类精度,将扩充后的数据集重新放入ResNet进行训练,最终WGAN-GP结合ResNet的分类准确率提高到99.3%。结果表明:基于ResNet的分类模型无需复杂数据预处理,在开发效率和分类精度上均有提高;改进的WGAN-GP模型适用于拉曼光谱数据增强,解决了传统数据增强方法生成光谱的有效性与类别准确性不匹配的问题,相比于GAN提高了训练过程的速度和稳定性;利用表面增强拉曼光谱技术(SERS)结合WGANGP-ResNet模型对病原菌拉曼光谱分类,减少了对大量训练数据的需求,有利于快速学习和分析低信噪比的拉曼光谱,并将光谱采集时间缩减到1/10。在临床快速、免培养鉴别病原菌方面具有重要研究意义与应用价值。
近年来, 电子设备盛行造成许多眼部伤害, 使眼部更容易遭受细菌的感染。 长期以来, 我国对于眼科病原菌的鉴别工作主要是在分子层面上[1],利用眼外伤或眼部炎症的样本以及一些医学环境的标本进行细菌培养, 根据其形态特征、 生化形状表现以及相关免疫反应来进行鉴别。 这些方法大多涉及复杂的取样过程, 并具有破坏性。 因此, 迫切需要一种适用于临床简单快捷的病原菌鉴别方法。
拉曼光谱[2]是应用于分子结构研究的一种分析方法, 它的出现弥补了红外光谱在非极性分子检测上的缺陷, 它提供的图谱分辨率高, 峰形尖锐, 并具有便携、 快速且无损的检测优点, 在食品[3]、 材料[4]、 考古[5]等多个领域均有广泛应用。 同样在医学领域,SERS适用于尿液、 血液、 组织液等临床样品, 在单细胞精度获取药敏表型图谱, 其图谱含有丰富真实的细菌生化信息[6]。SERS只需少量病原菌生物样品, 即可进行无标记、 非接触、 无损的原位检测, 且无需前置处理, 降低了操作难度, 提高临床检测速度, 已被用作细菌种类鉴别的“化学指纹图谱”。
机器学习结合拉曼光谱进行物质定性分析已成为目前光谱分析中的常用方法[7,8],然而, 数据预处理步骤繁琐、 性能较差、 泛化能力有限依然是多数光谱分类方法的普遍问题。CNN已成功地应用于计算机视觉、 语音识别等领域。 它可直接从原始数据中提取隐秘的特征, 无需复杂数据预处理。Ho等证明ResNet可以准确地对低信噪比的拉曼光谱进行分类[9]。 但是这种相对深层的网络更需要通过大量样本数据学习。
数据增强方法可有效扩充小数量级样本使深度学习算法更广泛的使用。 与传统数据增强方法如偏移法, 随机线性叠加等相比, 基于生成式对抗网络(GAN)方法[10]生成的光谱能够更好的保留原始特征。Yu等证实GAN可以有效产生与真实光谱相似的数据[11],李灵巧等验证GAN扩充的数据集可有效提高分类模型精度[12],但GAN训练不稳定, 时常出现模式崩塌等问题, 而本文改进的WGAN-GP[13]可有效解决此问题。
本文提出一种利用SERS与WGAN-GP和ResNet结合进行病原菌鉴别的新方法。SERS可以在秒或毫秒级别对显微镜下的少量病原菌进行拉曼光谱采集, 并将采集到的数据放入WGAN-GP中生成大量光谱数据, 再使用扩充数据集训练ResNet,生成分类模型, 为实现满足临床需求的病原菌快速检测打下基础。
1、实验部分
1.1数据采集与处理
实验采集的五种眼科病原菌分别是铜绿假单胞菌(Pae 45)、 金黄色葡萄球菌(Sau 386)、YG 175、YG 194、 淋病奈瑟菌(N.gonorrhoeae)。 均是导致常见眼科疾病的病原菌, 并且均来自于自然实验环境下的菌株。
实验使用的拉曼光谱仪为生物检测级别的智能型共聚焦拉曼光谱仪HOOKW P300,激发光源波长为785 nm,积分设为5 s,积分次数设为自动, 激发功率最大强度为6 mW,采用1 200 gr·mm-1光栅, 光谱范围均为441~1 808 cm-1。 每种病原菌有100个样本, 每个样本采集3次光谱数据取平均值, 共采取500个拉曼光谱数据。 图1为五种拉曼光谱数据归一化后的图像。
图1五种眼科病原菌的拉曼光谱图像
五种光谱图形状十分相似。 为匹配机器学习算法, 对全部光谱数据采用去除宇宙射线,SG平滑滤波,airPLS基线校正,PCA数据降维, 归一化进行数据预处理, 而经过验证, 运用卷积的深度学习网络对只进行归一化处理的原始数据具有更优分类性能。
1.2 ResNet模型建立与训练
分类网络改编自ResNet模型, 使简单网络成为ResNet的主要结构是层之间的残差连接, 分为恒等映射(identity)投影映射(projection)。 包含一个残差连接的几层网络合并为一个残差块, 图2显示了本文所改进的残差块(Residual block),而源自输入并连接到残差块末端的弯曲箭头就是残差连接。
图2残差结构中的残差块
将残差块中的卷积层、BN层和最大池化层的2D结构改为1D,使之适用于一维光谱数据。 经反复实验, 最终将经典残差结构数量由3、4、6、3缩减到1、1、1、1,为了提高模型泛化能力, 实验中在平均池化层(Avgpool)后按照0.2的比例将部分神经元随机舍弃(Dropout)。 全连接层的输出张量(out_features)设为样本类别数5。 具体网络结构如表1。
表1 ResNet1D结构
训练参数初始输入特征层的in_channel调整为32, batch_size为16。 采用Adam优化器, 学习率设为0.000 2,迭代训练次数为30次。 残差网络在训练过程中可以视为一个整体, 无需手动干预, 自动迭代求得模型最优解。 损失函数采用预测值和真实值的交叉熵, 数学描述如式(1)
式(1)中,z=[z0,…, zC-1]是一个概率分布,zi表示样本为第i类的概率,C表示该样本的标签, 当训练越准确其真实标签的概率就越大, 即z[C]越大,loss值越小。 从而模型的鲁棒性就越好。
1.3 WGAN-GP模型建立与训练
WGAN-GP的原理与GAN类似, 都是基于生成网络(G)与判别网络(D)的相互博弈来优化模型进而生成理想数据。WGAN致力于最小化生成的数据分布和实际数据分布之间的Wasserstein距离。 这种技术比GAN使用的KL散度或JS散度提供了更高的稳定性。WGAN-GP通过使用梯度惩罚项(Gradient Penalty)替代权重裁剪来改进WGAN,以鼓励判别器梯度满足1-Lipschitz约束[13],数学描述如式(2)。
生成网络主要由一个卷积核为1*64的一维转置卷积(ConvTranspose1d)和4个上采样块组成, 每个上采样块包含一个1*4转置卷积和一个BatchNorm1d,使用ReLU和Tanh激活函数, 具体网络参数如表2。
表2生成网络参数
判别网络由4个鉴别块和一个大小为64的全局卷积组, 由于梯度惩罚项(Gradient Penalty)是对每个样本独立地施加梯度惩罚, 而BN层会使同一batch中的输入拥有相同的均值和方差, 无法正确求出每个输入样本的梯度。 因此, 判别块中使用LN层(LayerNorm)替换BN层,LN在特征维度进行归一化, 对不同的输入样本有不同的均值和方差。 使用LeakyReLU激活函数。
表3判别网络参数
随着训练次数的增加,D的判别能力会得到提高, 从而迫使G生成更真实的数据, 经过反复博弈, 最终达到纳什平衡[14],具体网络结构如图3。
图3改进的WGAN-GP网络结构示意图
WGAN-GP的生成器中高斯噪音初始长度设为100。 判别器激活函数中leak斜度设为0.2。 选用RMSprop优化器, 参数设置为0.000 1。batch_size调整为16。 判别器训练2次后生成器训练1次, 可使训练效果达到最佳, 迭代200个epoch,设置为每50次保存一次生成数据至本地, 并自动绘制前8个新生成光谱数据的图像, 用以查看当前数据生成情况。 将五种拉曼光谱数据分别输入WGAN-GP模型, 最终每种样本分别生成200个, 总计1 000个生成数据。
整个模型的训练, 首先对判别器进行2次训练给定判别参数, 生成器输入为100个服从正态分布的随机噪声z,经由转置卷积进行特征提取和生成, 并将特征层的长度不断放大, 最终与真实数据长度相同, 即生成与真实数据分布相似的数据。 将真实样本和生成样本形成联合分布, 采样后两者作差, 将得到的Wasserstein距离与梯度惩罚项加权合并, 得到判别器loss,再根据loss对生成器进行训练, 如此循环。 其公式描述如式(2)
如上文算法描述,D尽可能拉大真假样本分数差距, 希望梯度和变化幅度越大越好, 而G反之。 其中λ为梯度惩罚参数, 可以用来调节惩罚力度,t为[0.1]之间的一个随机数, 用来使一对真假样本分别按t的比例加和来生成, 再将xr代入最终得到WGAN-GP的损失函数。
2、结果与讨论
本实验分为前、 中、 后三个部分。 前阶段分别使用KNN、CNN、ResNet对未进行数据扩充的原始光谱数据集中进行检测分类; 中期分别使用偏移法、DCGAN、WGAN-GP进行数据增强, 并筛选出合格的生成数据对原训练集进行扩充, 得到三种方法扩充后的数据集; 最后阶段再次使用ResNet模型对不同扩充数据集进行分类。
2.1原数据集分类结果分析
经反复对比实验, 最终决定按7∶3的比例将五种病原菌拉曼光谱随机划分训练集和测试集, 即每种target各选取70个数据, 共350个样本数据作为训练集, 其余每种target30个数据, 共150个样本数据作为测试集。 使用KNN、CNN、ResNet三种机器学习算法对五种原始数据集进行分类, 准确率如表4。
表4原始数据集分类准确率对比
由表4可知ResNet模型分类准确率最高, 相比于浅层CNN模型和传统机器学习具有更强的特征提取和分类能力, 并且可以省去特征提取环节, 因此选用ResNet作为最终的光谱分类模型。
2.2数据增强模型训练结果分析
分别使用偏移法、DCGAN和WGAN-GP生成每种样本各200个生成数据。 如图4所示, 对于每个样本, 生成光谱和真实光谱的平均光谱, 可以达到肉眼无法分辨的程度。 其中灰色阴影部分是由生成的最大值和最小值形成的面积。
图4生成光谱与真实光谱的平均光谱对比
由于是对一维拉曼光谱数据进行重塑, 因此不宜使用SSIM、PSNR等常用图像评价指标。 由于单独使用ResNet模型已达到96%的准确率, 借鉴对抗生成原理, 直接使用训练好的ResNet模型来进行筛选, 并且选取分类正确且相似度95%以上的作为合格数据, 表5为三种数据增强方法各自的生成数据合格量。
表5数据增强合格数据量
由表5可以看出WGAN-GP模型的训练精度要优于DCGAN,且远好于传统数据增强方法。 传统方法数据的特征丢失严重, 数据的有效性低, 导致大部分生成数据并不属于其原类别。DCGAN模型训练不稳定, 随样本特征明显程度波动, 且实验过程中多次出现模式崩塌现象, 导致生成数据全部为噪声。
结果表明,WGAN-GP可用于病原菌拉曼光谱的数据增强, 且较好的保留了原光谱的有效信息。 同时大幅节省了光谱采集时间, 专业的研究人员收集1 000个拉曼光谱大约需要10 h,而应用此方法生成光谱可以在1小时内完成。
2.3扩充数据集分类结果分析
经过多次实验, 最终在合格样本中选取每种样本各100个, 放入训练集, 而测试集不变。 如此可保证测试集全部为真实且未参与训练的数据, 从而保证模型对真实样本分类结果的可靠性。 分别将三种光谱数据增强方法扩充的训练集替换ResNet中原有的训练集, 再依次进行训练, 此时, 训练集与测试集的比例为8.5∶1.5,总计1 000个数据。 图5包含ResNet结合三种数据增强方法分类准确率对比。
图5训练集和测试集的分类准确率对比图
偏移法由于生成数据有效性与类别准确性不匹配的问题, 导致分类准确性反而降低。 基于WGAN-GP方法扩充的数据集与ResNet结合后, 训练集准确率达到100%,测试集准确率提高到99.3%,测试集loss为三者最低的0.073。 其模型性能明显优于其他两种数据增强方法结合ResNet所构建的分类模型。
结果表明, 拉曼光谱结合WGAN-GP和ResNet可以在单细胞水平上准确识别病原菌。WGAN-GP生成的拉曼光谱数据可以更好地扩充样本多样性, 使训练更为充分, 从而使分类更为准确。
3、结 论
提出了一种基于WGAN-GP和ResNet结合拉曼光谱进行病原菌鉴别的新方法。 研究表明: 单独使用基于ResNet的光谱分类模型相比于传统机器学习和普通CNN具有更高的分类精度, 并且不需要复杂的特征提取环节, 模型参数量较少, 对硬件性能要求不高;
为解决病原菌拉曼光谱数据难采集的问题, 提出了一种全新的数据增强方法,WGAN-GP可以为大多数现有的深度学习方法快速生成大量高分辨率的拉曼光谱, 并提高其预测精度, 从而实现只需获取少量光谱样本的快速鉴别;
最终拉曼光谱结合WGAN-GP和ResNet模型对病原菌分类的准确率达到99.3%,实现了在不损害细胞的溶液中快速识别单个细菌细胞。 据设想, 当该模型与自动化系统结合时, 有望在数小时内一键完成对少量病原菌样本准确、 无损害的快速识别。 而不需要细菌培养, 满足临床需求, 降低医疗成本, 也节省了诊断和治疗时间, 并且可以很容易地扩展到其他领域, 如材料鉴定、 信号分析、 语音识别, 或其他光谱技术, 如核磁共振、 红外或质谱。
基金资助:国家自然科学基金面上项目(61975028)资助;
文章来源:孟星志,刘亚秋,刘丽娜.拉曼光谱结合WGANGP-ResNet算法鉴别病原菌种类[J].光谱学与光谱分析,2024,44(02):542-547.
分享:
全切片扫描(whole slide imaging,WSI)是采用数字扫描仪扫描传统的病理切片,采集高分辨率数字图像,再通过计算机将碎片化图像进行无缝拼接整合,制作成为整张数字图像的一项技术[1]。病理科医师可以像使用显微镜那样在计算机屏幕上对数字图像进行任意比例的放大、缩小及任意方向的移动浏览,并进行进一步分析,所以WSI也被称为“虚拟显微镜”。
2024-04-19病理学教学是一门研究疾病发生原因、发病机制、病理改变及转归的医学学科,其以多门基础医学学科内容为基础,并能够为临床医学领域提供疾病诊治的基础理论,在医学教学中有承前启后作用,是医学资格考试中不可或缺的一项重要课程[1]。而良好的教学方法是保障医学教学效果的一项必要基础,研究证实线上线下混合式教学法对提升医学胚胎学、组织学等教学效果均有积极作用[2,3]。
2024-04-19乳腺癌是发生于乳腺上皮或导管上皮的恶性肿瘤,为女性较为常见的恶性肿瘤之一,病因尚不完全清楚,其发病率呈逐年上升趋势,严重影响女性的身心健康与生命安全。在乳腺癌免疫组化分子分型中,癌细胞对雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体-2(HER-2)均呈阴性表达的乳腺癌亚型被称作三阴型乳腺癌(TNBC)[1]。
2024-03-25口腔组织病理学是口腔医学教育中重要的基础学科,具有较强的理论性和实践性,是基础医学与临床医学的重要连接桥梁[1]。口腔组织病理学的理论课程相对枯燥乏味,学生易形成学习疲劳感和厌恶感[2],而实验课中通过镜下观看组织细胞的形态结构,可以很好地帮助学生改善这些问题。在以往的实验课教学过程中发现,学生不仅对需要学习的组织结构感兴趣,对照课本知识点不断寻找相关的组织结构,不确定处咨询教师,同时还对组织切片中的异常结构(情况)充满好奇并咨询教师,而他们所好奇的异常结构(情况),绝大多数是在石蜡组织切片制片或染色过程
2024-03-25近年来, 电子设备盛行造成许多眼部伤害, 使眼部更容易遭受细菌的感染。 长期以来, 我国对于眼科病原菌的鉴别工作主要是在分子层面上, 利用眼外伤或眼部炎症的样本以及一些医学环境的标本进行细菌培养, 根据其形态特征、 生化形状表现以及相关免疫反应来进行鉴别。 这些方法大多涉及复杂的取样过程, 并具有破坏性。
2024-02-20乳腺癌是发生于乳腺上皮或导管上皮的恶性肿瘤,为女性较为常见的恶性肿瘤之一,病因尚不完全清楚,其发病率呈逐年上升趋势,严重影响女性的身心健康与生命安全。在乳腺癌免疫组化分子分型中,癌细胞对雌激素受体(ER)、孕激素受体(PR)和人表皮生长因子受体-2(HER-2)均呈阴性表达的乳腺癌亚型被称作三阴型乳腺癌(TNBC)[1]。
2024-02-18乳腺实性乳头状癌(solid papillary carcinoma of the breast,SPC)是一种少见的导管内乳头状肿瘤,在亚洲人群中占原发性乳腺癌的1%~2%[1]。SPC具有独特的病理学特征和生物学行为,2019年第5版世界卫生组织(World Health Organization,WHO)乳腺肿瘤分类系统将其分为原位SPC及浸润性SPC[2,3]。SPC患者总体预后良好,是否具有侵袭性决定其预后和治疗方案[1,4]。
2024-02-18透明病理是一种从数字病理学发展而来的新的病理学理论,其概念是由浙江大学教授田梅和张宏等首次于2021年在《欧洲核医学与分子影像杂志》中提出。文章指出,透明病理旨在利用分子影像的优势来解决传统病理中活检有创取样、有限取样且离体组织缺少代谢信息和灌注信息等问题。
2023-10-24《教育部2022年工作要点》提出实施教育数字化战略行动,强化需求牵引,深化融合、创新赋能、应用驱动,积极发展“互联网+教育”,加快推进教育数字转型和智能升级。《国家职业教育改革实施方案》要求,适应“互联网+职业教育”发展需求,运用现代信息技术改进教学方式方法,推进虚拟工厂等网络学习空间建设和普遍应用。
2023-07-05热休克蛋白(HSP)是生物体在各种应激状态下产生的一组在结构上高度保守的特殊蛋白,可使受损蛋白恢复正常结构及功能以抵御有害刺激,保护细胞存活及适应外界环境变化。HSP根据其分子量大小可分为:HSP110、HSP90、HSP70、HSP60以及小热休克蛋白(sHSP)[1,2]。sHSP的分子量为12~43kDa,具有ATP激酶活性,C端都具有高度保守的α-晶体蛋白结构域(ACD)。
2022-05-28人气:3680
人气:3044
人气:2633
人气:2525
人气:2292
我要评论
期刊名称:光谱学与光谱分析
期刊人气:1625
主管单位:中国科学技术协会
主办单位:中国光学学会
出版地方:北京
专业分类:科学
国际刊号:1000-0593
国内刊号:11-2200/O4
邮发代号:82-68
创刊时间:1981年
发行周期:月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.735
影响因子:0.645
影响因子:0.874
影响因子:0.385
影响因子:0.111
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!