摘要:基于角膜形变计算出一系列生物力学特性参数是训练早期圆锥角膜分类模型的数据基础,因此圆锥角膜轮廓分割的精确性直接影响着早期圆锥角膜分类模型的准确性。本文提出了一种基于残差网络的无监督角膜视频分割方法。通过统一的网格化采样提取一组锚点被同序列视频帧所共用,从而减小网络模型学习特征表示的计算量并且提高了计算效率。同时设计了一个正则化分支对原有的视频集进行相似性转换来解决可能存在的退化解问题。与已有的无监督视频分割任务相比,本实验模型使用了少量的训练数据,但却取得了更高的分割精度和计算效率。
随着医疗水平的不断提高,医生的临床经验和主观判断不能完全作为疾病诊断的依据,医学图像分割的精准度和相关的生物力学数据提取的准确性对病情的诊断起着至关重要的作用。早期发现圆锥角膜病变并及时进行干预,可维持较好的视力防止病情恶化。圆锥角膜的早期诊断较为困难,评估过程中需要通过全面分析角膜的生物力学数据来得出最终判断[1],因此对角膜医学图像进行分割的精准度便尤为重要。
为了更高效地完成图像分割任务,国内外已有很多研究人员提出了各具特点的分割算法,并将其应用到不同的场景中。罗钧等[2]对基于自适应的分割算法进行改进,提出了一种二维的阈值分割方法,该方法根据图像的局部特征分别采用不同的阈值完成图像分割。吕铭轩等[3]基于分水岭算法提出一种改进的分割方法,并成功应用于细胞菌斑图像的分割中。李茂民等[4]提出一种新的人像分割方法,该方法将遗传算法和阈值分割相结合,对灰度像素的特征向量进行编码,结合聚类算法完成图像分割。SHEN等[5]提出了一种基于全卷积网络的冠状动脉分割方法,整体的框架是将卷积神经网络(convolutional neural network, CNN)中的全连接层换成反卷积层,通过网络内的编码器学习图像的深度特征,然后通过译码器恢复空间维度,从而实现对目标图像的像素级预测分割。
CAELLES等[6]提出了一种新的图像分割算法OSVOS(one-shot video object segmentation),解决了半监督视频中的目标分割任务,在给定第一帧掩码的情况下,将视频中的目标对象与背景分离。KUMAR等[7]提出了一种基于强化学习(reinforcement learning, RL)的语义分割策略,并且在该方法中选用一种用于主动学习的深度Q网络(deep Q-network, DQN),使其适应语义分割问题的大规模性质。肖等提出了一种新的MoNet(mobile networks and applications)模型,利用相邻帧之间的时间信息,将视频中运动对象的特征关联起来,从而加强目标帧的表示[8]。
LU等[9]提出了一种多粒度视频目标分割网络来解决无监督分割问题,其通过学习在不同粒度的视频帧的特征表示,来提高网络对视频的理解能力,从而提高网络的分割精度。JIA等[10]提出了一种基于超像素和图神经网络的无监督图像语义分割算法,该算法利用图神经网络学习超像素之间的关系,从而实现对图像的语义分割。ZHOU等[11]提出了一种基于目标感知的无监督视频多目标分割算法,旨在自动地对视频中的多个目标进行分割和跟踪。通过使用基于时空一致性的关联模型来预测目标的关联情况,从而提高了目标跟踪和分割的准确性和鲁棒性。REN等[12]提出了一种基于循环变换的无监督视频目标分割算法,通过反复对视频帧进行变换来生成多个版本的图像,并通过自监督的方式学习不同版本的图像之间的互逆关系,以实现无需人工标注的视频目标分割。YANG等[13]提出了一种新的方法来改善无监督视频对象分割的性能。该方法利用了运动和外观的协同作用,通过联邦学习来实现更准确的对象分割。
综上所述,以上方法在应用于角膜图像分割时存在以下问题:1) 前期的传统方法虽然在当时取得了不错的效果,但相比目前的深度学习网络,无论是分割精度还是计算效率都存在着很大的差距[14];2) 在实际处理的过程中发现,现阶段使用的有监督网络模型[15]和半监督网络模型[16,17]极其依赖预训练网络以及图片像素级数据标注,会提高任务的时间成本同时其经济成本也很高;3) 现阶段无监督视频或者图像分割算法,由于深度学习网络层数的增加,在训练过程中往往会产生退化解问题,导致最终的分割效率降低。
本文针对角膜视频特性提出了一种无监督的角膜视频分割方法。该方法通过全卷积的网络结构对视频帧进行特征提取,对每个视频序列的参考帧进行锚点取样,最终实现对角膜的分割,在兼顾分割精度的同时极大地提高了计算效率。
1、角膜视频分割方法
本文提出的视频中的角膜分割方法整体结构如图1所示。首先,将角膜视频转换成视频帧序列;转换后的角膜视频帧序列存在5个固定的信息区域,需要裁剪背景像素将其覆盖;通过高斯滤波的方法将视频帧进行降噪处理;最后,将处理好的图片进行图像增强作为模型两个分支的输入,最终实现角膜图像的分割。
图1 角膜视频分割方法结构图
1.1 数据处理
本文使用的数据都是通过可视化角膜生物力学分析仪(corneal visualised scheimpflug technology, Corvis-ST)得到的角膜视频,由于受到医生的操作技能、灯光照射等因素的影响导致视频分辨率低、存在噪声,极大降低分割精度。需要对视频数据进行一系列的预处理操作,其中主要包括视频帧处理、图像裁剪、图像降噪、图像增强等环节。
对角膜视频进行分割的实质就是分割视频中每一帧图像,分割后的视频帧中需要去除冗余信息。使用掩码矩阵对视频中的个人信息进行精准定位覆盖,可以提高角膜图像分割的准确性,效果如图2所示。
图2 预处理后的图像
本实验是通过全卷积的方式来学习特征表示的,在进行网络训练的过程中发现,该网络往往会产生退化解问题,从而导致模型在训练后达不到预期的分割效果。为了解决训练中产生的退化解问题,本文对数据集进行数据增强,根据角膜视频数据的特点,本文选择对降噪后的角膜图像提取随机多尺度的图像,并进行移动和水平翻转的相似变换,矩阵变换表示为T(·):
式中,x、y分别表示像素点的横纵坐标,s表示缩放因子,θ表示图像旋转的角度,t表示图像平移的距离。将相似变换后的图像作为正则化分支的输入得到伪标签进行自监督训练,不断提高网络模型的分割精度。
1.2 网络模型的设计
为了解决角膜视频的分割问题,本实验在对数据集预处理的过程中发现,角膜视频存在以下特性:
1) 语义内容的相关不变性:在角膜视频中表现为从开始帧到结束帧所表现的语义内容是不会发生改变的,也就是说单个视频中的语义内容一直是同一个角膜;
2) 语义内容的时间持久性:即在每一个视频中,相邻时间帧的角膜形态的变化是很微小的,因此在同一个视频中,时间相近的视频帧可以共享参考帧的锚点。
根据角膜视频数据的特性,本文提出了一种基于残差结构的无监督视频分割方法,网络的整体框架如图3所示。在主分支和正则分支中处理同一组视频序列的两个不同版本,正则化分支的目的是防止以全卷积方式学习特征表示时产生的退化解问题。当主分支接收原始视频帧时,还需要将这些帧的相似变换版本提供给正则分支,通过特征提取器进行特征提取得到多维的特征张量k,∈Rb,T,K(b表示批处理的数量,T是从视频序列中选择的帧数,K表示特征张量的维度,k和
分别表示主分支和正则化分支提取到的特征张量),对特征张量k进行聚类得到锚点q,通过计算k和q的相似度进行特征嵌入得到伪标签进行自训练。
1.2.1 特征提取
实验过程中,主分支和正则化分支分别以预处理后的视频帧(图2)和数据增强后的视频帧作为输入,然后通过特征提取器得到两个不同的特征张量k和,为了提高网络模型的计算效率,特征提取器采用全卷积的方式,通过CNN的参数共享机制,从而使模型的参数量大大减少,提高模型的计算效率。具体来说就是将视频帧序列处理得到256×256的图像作为模型的输入,经过步长为2的7×7的卷积运算和3×3的下采样池化操作得到64×64×64的特征张量,进入剩余的4个通道数为64、128、256、512的双层残差块继续提取特征,最终得到8×8×512的特征张量k和特征提取器的网络模型如图4所示(图4(a)中的4种残差块结构分别对应特征提取器(图4(b))的4种不同通道的残差块)。
图3 模型整体架构图
图4 特征提取器结构图
1.2.2 锚点取样
为了提高模型的训练效率,采用基于聚类的采样方法,对于批处理中的每个视频序列,需要随机抽样一帧并将其定义为该视频序列的参考帧。根据角膜视频数据的特性2),同一视频序列的视频帧共享其语义内容,因此利用随机选取的参考帧提取一组视频级特征在相邻的视频帧之间共享。如图5所示,该过程需要在特征张量k上定义一个大小为4×4的空间均匀网格,并且通过网格聚类算法为每一个网格单元提取一个特征样本,这是为了更好地收集空间上不同的特征。最终得到16个512维的特征嵌入,并把它称为锚点q,并将上述的锚点采样这一步骤定义为q=GN(k)[10](N为均匀网格的大小,本实验设为4)。
图5 锚点取样图
1.2.3 训练过程
在主分支中提取锚点q,并计算特征张量k和q之间的相对距离,用来评定锚点q和特征k的相似程度。这一过程使用了softmax函数对锚点q和特征张量k的余弦相似度进行计算得到v,即一个大小为(b×T×h×w)(b×N2)的距离矩阵,通过将参考帧的锚点在同一视频序列中共用,使网络模型的内存需求和计算成本大量减少。相似度v的计算如式(2)所示:
式中,h、w分别表示视频帧的高度和宽度,τ是一个标量参数,i、j、l表示索引。
正则分支中需要通过特征张量
和主分支中提取的锚点q来计算相似度v′,其与v′的计算方式相同,如式(3)所示:
对于正则化分支中得到的v′使用argmax函数进行计算得到伪标签
从而用于网络模型的自训练(锚点q是从主分支中提取并与正则分支共享使用的)。计算式为:
由于正则化分支的输入是通过将主分支的输入视频帧进行相似变换T(·)操作得到的,所以需要对主分支上的相似度v与正则化分支得到的伪标签进行空间对齐,即伪标签
与T(v)在空间上是对应的,自监督损失函数可以表示为:
式中,R表示从参考帧中提取的特征索引集。
2、实验结果及分析
本文实验在64位系统的Ubuntu20.04.6下,硬件方面采用一个12 GB的Titan X GPU,使用ResNet-18作为特征提取器的骨干网络,将学习率设为0.000 1、参数τ=0.05。从自建数据集中选取70%的数据作为训练集,30%的数据作为测试集,先对视频预处理然后进行数据增强,从而作为两个分支的输入进行训练。为了评估该实验模型的分割精度,本文在相同的角膜视频数据集上与MAST算法(memory-augmented self-supervised tracker)[18]、CRW算法(contrastive random walk)[19]两种无监督视频分割算法进行了对比实验。根据角膜视频数据的特性并且参考相关文献,该实验以交并比 (intersection over union, IoU)、训练迭代次数(#)以及网络训练持续时间(Δt)作为评价指标对模型的分割精度进行评估。
#表示模型训练具体需要迭代多少次,Δt则表示训练从开始到结束具体需要多少时间。IoU通过衡量预测框与真实框之间的重叠程度来评估模型的性能,其计算式为:
式中,A表示真实图像的目标对象,B表示预测图像的目标对象。
通过Corvis ST角膜视频数据作为输入,对上述的两种算法模型以及本文的模型进行对比实验所得结果如表1所示(d表示天,h表示小时)。
表1 实验结果
通过对上述实验结果的分析,以30%的测试集作为输入,分别选取视频的第10帧、20帧、30帧、40帧作为参考帧得到的可视化结果如图6所示(上面为无监督目标跟踪算法MAST的可视化结果,下面为本算法的可视化结果图)。
图6 可视化结果对比
3、结论
本文从角膜视频数据的特性出发,提出了一种高效并且鲁棒的无监督视频分割方法,用于从无数据标注的角膜视频中学习密集的特征表示。该实验通过设计正则化分支来解决退化解问题和实现网络模型的自训练,并且本文的方法具有快速的训练收敛性和较高的数据效率。通过进行对比实验发现,该模型在使用相同的角膜视频数据集进行训练的情况下,本实验结果表现出来的视频目标分割精度和计算效率明显优于之前的MAST算法和CRW算法。
参考文献:
[1]刘艳,刘凤连,吴剑武,等.基于MLP神经网络的圆锥角膜辅助诊断[J].光电子·激光,2022,33(11):1201-1206.
[2]罗钧,杨永松,侍宝玉.基于改进的自适应差分演化算法的二维Otsu多阈值图像分割[J].电子与信息学报,2019,41(8):2017-2024.
[3]吕铭轩,陈兆学.基于改进分水岭算法的结核感染T细胞菌斑检测[J].智能计算机与应用,2022,12(1):45-52.
[4]李茂民,邹臣嵩.基于改进遗传算法的阈值图像分割方法[J].软件工程,2022,25(1):37-40.
[8]陈加,陈亚松,李伟浩,等.深度学习在视频对象分割中的应用与展望[J].计算机学报,2021,44(3):609-631.
[14]李康生,刘凤连,吴剑武,等.基于Corvis ST医学影像的角膜轮廓提取算法[J].光电子·激光,2023,34(2):208-213.
基金资助:南开大学眼科学研究院开放基金(NKYKD202209);温州市重大科技创新攻关项目(ZG2022011);温州理工学院科技计划研究重点项目(KY202204)资助项目;
文章来源:白金帅,刘凤连,李婧,等.基于残差网络的无监督角膜视频分割算法[J].光电子·激光,2024,35(05):499-505.
分享:
随着医疗水平的不断提高,医生的临床经验和主观判断不能完全作为疾病诊断的依据,医学图像分割的精准度和相关的生物力学数据提取的准确性对病情的诊断起着至关重要的作用。早期发现圆锥角膜病变并及时进行干预,可维持较好的视力防止病情恶化。圆锥角膜的早期诊断较为困难,评估过程中需要通过全面分析角膜的生物力学数据来得出最终判断[1],因此对角膜医学图像进行分割的精准度便尤为重要。
2024-04-07睑缘炎是睑缘皮脂溢出造成的眼睑缘、睫毛毛囊及其附属腺体慢性或亚急性化脓性炎症[1]。发病时眼睑组织疼痛、充血、水肿等症状明显[2],甚至引起角膜病变[3],不同程度并发角结膜病变及干眼[4],导致睑缘肥厚变形、睑缘外翻、泪溢等,严重影响患者正常生活质量。中医学把睑缘炎归属为 “睑弦赤烂、风弦赤眼、迎风赤烂 ”范畴,其病机主要是风湿热邪上犯客睑,治法应祛风清热除湿[5]。
2024-03-20眼病是对视觉系统(眼球及与其相关联的组织)有关疾病的总称,目前我国眼病患者数量持续增长,门诊患者数量从2012年的8740万人次攀升至2021年的13380万人次,而眼科疾病的治疗研究却相对发展缓慢[1]。中医对眼病的认识由来已久,在殷商时期,眼病以甲骨文形式开始出现,并将眼病称之为“疾目”[2]。
2024-03-01目前研究发现,大脑皮层主要存在谷氨酸能兴奋性投射神经元和γ-氨基丁酸(GABA)能抑制性中间神经元(INs)[1]。GABA-INs在大脑皮层中的占比相对较少,在人脑皮层中仅占30%~45%,在猕猴脑皮层中占20%~25%[2],在小鼠和大鼠脑皮层中占20%~30%[3,4,5],但由于其短树突的形态特点,主要产生局部神经回路,故对大脑皮层中兴奋性/抑制性网络平衡的维持至关重要。
2024-01-31白内障主要病理改变是晶状体混浊,是眼科常见疾病之一,也是全球重要致盲性疾病之一。目前统计在世界范围内发病率约25%,发病人群主要是老年人,治疗方式首选手术。有研究证实炎性损伤和氧自由基损伤都参与晶状体的损伤机制。由于白内障患者多为老年人,手术风险较高且耐受性较差,所以其术后免疫功能、抗氧化功能及生活质量与患者精神状态密切相关。
2020-09-12糖尿病视网膜病变是糖尿病最为严重、常见且对视力功能有严重影响的眼部并发症,是糖尿病患者致盲的主要原因之一。视网膜病变后视神经元凋亡是导致患者视功能不佳甚至失明的主要原因,故找到一种抑制视网膜病变后光感受器细胞凋亡的方法,对改善糖尿病视网膜病变患者的视功能及降低失明风险意义重大。
2020-09-12miRNA为短链的非编码内源性保守的微小RNA分子,其通过抑制靶基因的转录或翻译过程及调控信号通路的活性,在疾病的发生发展中具有重要作用。miR-221在机体多种肿瘤中均出现表达失调,其在糖尿病引起的疾病中也有重要作用,但是其在糖尿病视网膜病变中的功能及作用机制研究甚少。
2020-09-11糖尿病性视网膜病变是糖尿病患者最常见的眼部微血管并发症,也是成年人视力损害的主要原因,常导致视力下降、视野缺损、玻璃体积血,严重者甚至出现牵拉性视网膜脱离,最终失明。DR的主要病理改变包括晚期病理性视网膜新生血管生成,其机制受体内多种血管生成相关因子的影响,继发视网膜脱离和玻璃体积血等是患者视力丧失的主要因素。
2020-09-10钙离子是哺乳动物神经细胞内的重要信使,可以介导多种细胞内信号转导通路,在调控神经元的功能方面发挥关键作用。钙信号在明确的细胞亚区发挥其高度特异性的功能,特别是在大脑视皮层中更能反映神经元的活性,因此对神经元进行钙信号的检测对研究视皮层功能尤其重要。双光子显微镜在皮层浅层区域钙信号检测方面具有独特优势。
2020-09-10白内障是我国最常见的致盲性眼病。白内障超声乳化吸除联合人工晶状体植入术是目前白内障复明的首选术式,具有手术切口小、前房反应轻、术后恢复快、角膜散光小等优点。但仍有部分患者即使手术顺利完成,也常因各种原因在术后未能达到理想视觉质量。黄斑囊样水肿(CME)是白内障术后人工晶状体眼较常见的并发症之一,影响术后视觉质量。
2020-09-10人气:16754
人气:14146
人气:13065
人气:12829
人气:11676
我要评论
期刊名称:国际眼科杂志
期刊人气:4170
主管单位:中国陕西省卫生健康委员会
主办单位:中华医学会西安分会
出版地方:陕西
专业分类:医学
国际刊号:1672-5123
国内刊号:61-1419/R
邮发代号:52-239
创刊时间:2000年
发行周期:月刊
期刊开本:大16开
见刊时间:10-12个月
影响因子:1.255
影响因子:1.553
影响因子:0.873
影响因子:0.800
影响因子:0.583
400-069-1609
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!