首页 > 论文范文 > 医药卫生论文 > 眼科论文 > 眼科职称论文 > 基于残差网络的无监督角膜视频分割算法

基于残差网络的无监督角膜视频分割算法

2024-04-07 8 上传者：管理员

摘要：基于角膜形变计算出一系列生物力学特性参数是训练早期圆锥角膜分类模型的数据基础，因此圆锥角膜轮廓分割的精确性直接影响着早期圆锥角膜分类模型的准确性。本文提出了一种基于残差网络的无监督角膜视频分割方法。通过统一的网格化采样提取一组锚点被同序列视频帧所共用，从而减小网络模型学习特征表示的计算量并且提高了计算效率。同时设计了一个正则化分支对原有的视频集进行相似性转换来解决可能存在的退化解问题。与已有的无监督视频分割任务相比，本实验模型使用了少量的训练数据，但却取得了更高的分割精度和计算效率。

关键词：
分割算法
圆锥角膜
残差网络
退化解
锚点
加入收藏

随着医疗水平的不断提高，医生的临床经验和主观判断不能完全作为疾病诊断的依据，医学图像分割的精准度和相关的生物力学数据提取的准确性对病情的诊断起着至关重要的作用。早期发现圆锥角膜病变并及时进行干预，可维持较好的视力防止病情恶化。圆锥角膜的早期诊断较为困难，评估过程中需要通过全面分析角膜的生物力学数据来得出最终判断[1],因此对角膜医学图像进行分割的精准度便尤为重要。

为了更高效地完成图像分割任务，国内外已有很多研究人员提出了各具特点的分割算法，并将其应用到不同的场景中。罗钧等[2]对基于自适应的分割算法进行改进，提出了一种二维的阈值分割方法，该方法根据图像的局部特征分别采用不同的阈值完成图像分割。吕铭轩等[3]基于分水岭算法提出一种改进的分割方法，并成功应用于细胞菌斑图像的分割中。李茂民等[4]提出一种新的人像分割方法，该方法将遗传算法和阈值分割相结合，对灰度像素的特征向量进行编码，结合聚类算法完成图像分割。SHEN等[5]提出了一种基于全卷积网络的冠状动脉分割方法，整体的框架是将卷积神经网络(convolutional neural network, CNN)中的全连接层换成反卷积层，通过网络内的编码器学习图像的深度特征，然后通过译码器恢复空间维度，从而实现对目标图像的像素级预测分割。

CAELLES等[6]提出了一种新的图像分割算法OSVOS(one-shot video object segmentation),解决了半监督视频中的目标分割任务，在给定第一帧掩码的情况下，将视频中的目标对象与背景分离。KUMAR等[7]提出了一种基于强化学习(reinforcement learning, RL)的语义分割策略，并且在该方法中选用一种用于主动学习的深度Q网络(deep Q-network, DQN),使其适应语义分割问题的大规模性质。肖等提出了一种新的MoNet(mobile networks and applications)模型，利用相邻帧之间的时间信息，将视频中运动对象的特征关联起来，从而加强目标帧的表示[8]。

LU等[9]提出了一种多粒度视频目标分割网络来解决无监督分割问题，其通过学习在不同粒度的视频帧的特征表示，来提高网络对视频的理解能力，从而提高网络的分割精度。JIA等[10]提出了一种基于超像素和图神经网络的无监督图像语义分割算法，该算法利用图神经网络学习超像素之间的关系，从而实现对图像的语义分割。ZHOU等[11]提出了一种基于目标感知的无监督视频多目标分割算法，旨在自动地对视频中的多个目标进行分割和跟踪。通过使用基于时空一致性的关联模型来预测目标的关联情况，从而提高了目标跟踪和分割的准确性和鲁棒性。REN等[12]提出了一种基于循环变换的无监督视频目标分割算法，通过反复对视频帧进行变换来生成多个版本的图像，并通过自监督的方式学习不同版本的图像之间的互逆关系，以实现无需人工标注的视频目标分割。YANG等[13]提出了一种新的方法来改善无监督视频对象分割的性能。该方法利用了运动和外观的协同作用，通过联邦学习来实现更准确的对象分割。

综上所述，以上方法在应用于角膜图像分割时存在以下问题：1) 前期的传统方法虽然在当时取得了不错的效果，但相比目前的深度学习网络，无论是分割精度还是计算效率都存在着很大的差距[14];2) 在实际处理的过程中发现，现阶段使用的有监督网络模型[15]和半监督网络模型[16,17]极其依赖预训练网络以及图片像素级数据标注，会提高任务的时间成本同时其经济成本也很高；3) 现阶段无监督视频或者图像分割算法，由于深度学习网络层数的增加，在训练过程中往往会产生退化解问题，导致最终的分割效率降低。

本文针对角膜视频特性提出了一种无监督的角膜视频分割方法。该方法通过全卷积的网络结构对视频帧进行特征提取，对每个视频序列的参考帧进行锚点取样，最终实现对角膜的分割，在兼顾分割精度的同时极大地提高了计算效率。

1、角膜视频分割方法

本文提出的视频中的角膜分割方法整体结构如图1所示。首先，将角膜视频转换成视频帧序列；转换后的角膜视频帧序列存在5个固定的信息区域，需要裁剪背景像素将其覆盖；通过高斯滤波的方法将视频帧进行降噪处理；最后，将处理好的图片进行图像增强作为模型两个分支的输入，最终实现角膜图像的分割。

图1 角膜视频分割方法结构图

1.1 数据处理

本文使用的数据都是通过可视化角膜生物力学分析仪(corneal visualised scheimpflug technology, Corvis-ST)得到的角膜视频，由于受到医生的操作技能、灯光照射等因素的影响导致视频分辨率低、存在噪声，极大降低分割精度。需要对视频数据进行一系列的预处理操作，其中主要包括视频帧处理、图像裁剪、图像降噪、图像增强等环节。

对角膜视频进行分割的实质就是分割视频中每一帧图像，分割后的视频帧中需要去除冗余信息。使用掩码矩阵对视频中的个人信息进行精准定位覆盖，可以提高角膜图像分割的准确性，效果如图2所示。

图2 预处理后的图像

本实验是通过全卷积的方式来学习特征表示的，在进行网络训练的过程中发现，该网络往往会产生退化解问题，从而导致模型在训练后达不到预期的分割效果。为了解决训练中产生的退化解问题，本文对数据集进行数据增强，根据角膜视频数据的特点，本文选择对降噪后的角膜图像提取随机多尺度的图像，并进行移动和水平翻转的相似变换，矩阵变换表示为T(·):

式中，x、y分别表示像素点的横纵坐标，s表示缩放因子，θ表示图像旋转的角度，t表示图像平移的距离。将相似变换后的图像作为正则化分支的输入得到伪标签进行自监督训练，不断提高网络模型的分割精度。

1.2 网络模型的设计

为了解决角膜视频的分割问题，本实验在对数据集预处理的过程中发现，角膜视频存在以下特性：

1) 语义内容的相关不变性：在角膜视频中表现为从开始帧到结束帧所表现的语义内容是不会发生改变的，也就是说单个视频中的语义内容一直是同一个角膜；

2) 语义内容的时间持久性：即在每一个视频中，相邻时间帧的角膜形态的变化是很微小的，因此在同一个视频中，时间相近的视频帧可以共享参考帧的锚点。

根据角膜视频数据的特性，本文提出了一种基于残差结构的无监督视频分割方法，网络的整体框架如图3所示。在主分支和正则分支中处理同一组视频序列的两个不同版本，正则化分支的目的是防止以全卷积方式学习特征表示时产生的退化解问题。当主分支接收原始视频帧时，还需要将这些帧的相似变换版本提供给正则分支，通过特征提取器进行特征提取得到多维的特征张量k,∈Rb,T,K(b表示批处理的数量，T是从视频序列中选择的帧数，K表示特征张量的维度，k和

分别表示主分支和正则化分支提取到的特征张量),对特征张量k进行聚类得到锚点q,通过计算k和q的相似度进行特征嵌入得到伪标签进行自训练。

1.2.1 特征提取

实验过程中，主分支和正则化分支分别以预处理后的视频帧(图2)和数据增强后的视频帧作为输入，然后通过特征提取器得到两个不同的特征张量k和,为了提高网络模型的计算效率，特征提取器采用全卷积的方式，通过CNN的参数共享机制，从而使模型的参数量大大减少，提高模型的计算效率。具体来说就是将视频帧序列处理得到256×256的图像作为模型的输入，经过步长为2的7×7的卷积运算和3×3的下采样池化操作得到64×64×64的特征张量，进入剩余的4个通道数为64、128、256、512的双层残差块继续提取特征，最终得到8×8×512的特征张量k和特征提取器的网络模型如图4所示(图4(a)中的4种残差块结构分别对应特征提取器(图4(b))的4种不同通道的残差块)。

图3 模型整体架构图

图4 特征提取器结构图

1.2.2 锚点取样

为了提高模型的训练效率，采用基于聚类的采样方法，对于批处理中的每个视频序列，需要随机抽样一帧并将其定义为该视频序列的参考帧。根据角膜视频数据的特性2),同一视频序列的视频帧共享其语义内容，因此利用随机选取的参考帧提取一组视频级特征在相邻的视频帧之间共享。如图5所示，该过程需要在特征张量k上定义一个大小为4×4的空间均匀网格，并且通过网格聚类算法为每一个网格单元提取一个特征样本，这是为了更好地收集空间上不同的特征。最终得到16个512维的特征嵌入，并把它称为锚点q,并将上述的锚点采样这一步骤定义为q=GN(k)[10](N为均匀网格的大小，本实验设为4)。

图5 锚点取样图

1.2.3 训练过程

在主分支中提取锚点q,并计算特征张量k和q之间的相对距离，用来评定锚点q和特征k的相似程度。这一过程使用了softmax函数对锚点q和特征张量k的余弦相似度进行计算得到v,即一个大小为(b×T×h×w)(b×N2)的距离矩阵，通过将参考帧的锚点在同一视频序列中共用，使网络模型的内存需求和计算成本大量减少。相似度v的计算如式(2)所示：

式中，h、w分别表示视频帧的高度和宽度，τ是一个标量参数，i、j、l表示索引。

正则分支中需要通过特征张量

和主分支中提取的锚点q来计算相似度v′,其与v′的计算方式相同，如式(3)所示：

对于正则化分支中得到的v′使用argmax函数进行计算得到伪标签

从而用于网络模型的自训练(锚点q是从主分支中提取并与正则分支共享使用的)。计算式为：

由于正则化分支的输入是通过将主分支的输入视频帧进行相似变换T(·)操作得到的，所以需要对主分支上的相似度v与正则化分支得到的伪标签进行空间对齐，即伪标签

与T(v)在空间上是对应的，自监督损失函数可以表示为：

式中，R表示从参考帧中提取的特征索引集。

2、实验结果及分析

本文实验在64位系统的Ubuntu20.04.6下，硬件方面采用一个12 GB的Titan X GPU,使用ResNet-18作为特征提取器的骨干网络，将学习率设为0.000 1、参数τ=0.05。从自建数据集中选取70%的数据作为训练集，30%的数据作为测试集，先对视频预处理然后进行数据增强，从而作为两个分支的输入进行训练。为了评估该实验模型的分割精度，本文在相同的角膜视频数据集上与MAST算法(memory-augmented self-supervised tracker)[18]、CRW算法(contrastive random walk)[19]两种无监督视频分割算法进行了对比实验。根据角膜视频数据的特性并且参考相关文献，该实验以交并比 (intersection over union, IoU)、训练迭代次数(#)以及网络训练持续时间(Δt)作为评价指标对模型的分割精度进行评估。

#表示模型训练具体需要迭代多少次，Δt则表示训练从开始到结束具体需要多少时间。IoU通过衡量预测框与真实框之间的重叠程度来评估模型的性能，其计算式为：

式中，A表示真实图像的目标对象，B表示预测图像的目标对象。

通过Corvis ST角膜视频数据作为输入，对上述的两种算法模型以及本文的模型进行对比实验所得结果如表1所示(d表示天，h表示小时)。

表1 实验结果

通过对上述实验结果的分析，以30%的测试集作为输入，分别选取视频的第10帧、20帧、30帧、40帧作为参考帧得到的可视化结果如图6所示(上面为无监督目标跟踪算法MAST的可视化结果，下面为本算法的可视化结果图)。

图6 可视化结果对比

3、结论

本文从角膜视频数据的特性出发，提出了一种高效并且鲁棒的无监督视频分割方法，用于从无数据标注的角膜视频中学习密集的特征表示。该实验通过设计正则化分支来解决退化解问题和实现网络模型的自训练，并且本文的方法具有快速的训练收敛性和较高的数据效率。通过进行对比实验发现，该模型在使用相同的角膜视频数据集进行训练的情况下，本实验结果表现出来的视频目标分割精度和计算效率明显优于之前的MAST算法和CRW算法。

参考文献:

[1]刘艳,刘凤连,吴剑武,等.基于MLP神经网络的圆锥角膜辅助诊断[J].光电子·激光,2022,33(11):1201-1206.

[2]罗钧,杨永松,侍宝玉.基于改进的自适应差分演化算法的二维Otsu多阈值图像分割[J].电子与信息学报,2019,41(8):2017-2024.

[3]吕铭轩,陈兆学.基于改进分水岭算法的结核感染T细胞菌斑检测[J].智能计算机与应用,2022,12(1):45-52.

[4]李茂民,邹臣嵩.基于改进遗传算法的阈值图像分割方法[J].软件工程,2022,25(1):37-40.

[8]陈加,陈亚松,李伟浩,等.深度学习在视频对象分割中的应用与展望[J].计算机学报,2021,44(3):609-631.

[14]李康生,刘凤连,吴剑武,等.基于Corvis ST医学影像的角膜轮廓提取算法[J].光电子·激光,2023,34(2):208-213.

基金资助:南开大学眼科学研究院开放基金(NKYKD202209);温州市重大科技创新攻关项目(ZG2022011);温州理工学院科技计划研究重点项目(KY202204)资助项目;

文章来源:白金帅,刘凤连,李婧,等.基于残差网络的无监督角膜视频分割算法[J].光电子·激光,2024,35(05):499-505.