摘要:图像修复是近年来的研究热点,根据已获得的图像内容恢复丢失的图像内容,在传统文化作品修复、图像编辑等领域应用广泛。本文对近年来该领域相关研究进行综述,首先从传统图像修复方法出发,分析其存在的问题,重点对基于深度学习的图像修复方法进行概述,包括基于卷积神经网络、生成对抗网络、循环神经网络的图像修复方法,介绍各种方法的原理与结构,总结基于深度学习的各类方法的适用范围及优缺点,最后对未来的研究方向及重点提出展望。
加入收藏
一、绪论
通过已知区域修复丢损区域的图像修复方法起源于手工匠对损坏艺术品的修复技术,即以局部信息为基础进行扩散修复,研究者们也由此提出了基于偏微分方程的早期图像修复算法,偏微分方程算法采用的是扩散的思想,将图像传输过程中丢失区域附近的数据通过扩散到来修复丢损区域,比如Bertalmio等人提出BSCB模型,将受损区域周围的有效信息平整扩展到受损区域;再如Chan等人提出TV模型、CDD模型等,TV模型虽然考虑到自然图像的平滑性,但是没有考虑到图像的几何特征,所以Chan等人又在其中加入曲率,提出CDD模型,一定程度上解决了TV模型不能满足视觉连通的缺点。基于偏微分方程的图像修复方法,可以对小范围破损的图像进行很好的修复,还能同时修复多个破损领域,但是对于大范围信息缺失的图像,修复结果却不能让人满意,随着图像修复在生物医学、人脸图像修复等新领域的应用,对修复图像的质量要求也越来越高,研究者提出了动态加权匹配的图像修复算法,更好得利用了图像的已知信息,提高了图像修复质量,利用局部平均灰度熵快速图像修复算法[1]来加快计算机执行修复的速度结构信息、连接边缘,之后再修复纹理成分,可提高图像结构、纹理等的一致性。除此之外,Criminisi等人也提出一种基于块的修复技术,算法速度得到了很大提升。
二、基于深度学习的图像修复方法
随着深度学习算法的逐步完善和发展,研究者开始将深度学习算法应用于图像修复领域。1998年的经典网络LeNet的提出被认为是卷积神经网络的起始,由于计算机计算能力有限,LeNet在图像修复领域未被广泛应用,此后研究者们相继提出AlexNet、VGG-NET、ResNet等卷积神经网络,基于深度学习的图像修复模型最初多以上述结构为基础,利用卷积神经网络来训练数据,高效预测图像的结构,但在图像修复的纹理细节方面不尽人意。考虑到卷积神经网络存在的局限性,有研究者将生成式对抗网络应用于图像修复领域:Goodfellow于2014年提出生成对抗网络,由生成器和判别器构成,生成器从给定噪声中合成数据,判别器分辨合成数据和真实数据的相似程度,如果计算生成的样本图像与待修复区域图像足够相似,即可达到图像修复的目的。随着深度学习在图像修复领域工作的开展,循环神经网络已经在对无标志图像自动生成中得到应用,将其和卷积神经网络结合用于图像修复的研究也取得了进一步的研究成果。
(一)基于卷积神经网络的图像修复模型
1.卷积神经网络概述以及原理
卷积神经网络(CNN)作为最早的二维图像识别传感器,采用监督学习的方式,每一层是由多个独立神经元组成的二维平面,如经典的LeNet-5结构,数据依次通过输入层、卷积层1、池化层1、卷积层2、池化层2、全连接层1、激活函数层、全连接层2、输出层,此类结构可以层层提取特征,最后利用全连接层完成若干个分类任务。卷积神经网络的部分同层神经元到下一层的权值设置相同,即权值共享,在训练数据时会降低模型复杂性,把庞大的图像修复问题降维处理。
图1LeNet-5结构
2.基于卷积自编码的图像修复方法
CNN进行图像修复存在监督学习的困难,Masci提出的卷积自编码则有效解决了该问题,Pathak等人命名提出ContextEncoder网络,编码器逐渐增加图像的尺度,解码器则是一个逆过程,学习全局图像特征和推断损失部分,利用L2损失和对抗损失来修复图像,但是在对抗损失训练时考虑的是预测值和实际像素值之间的欧式距离,得到的图像缺少完整的纹理细节,在图像修补边缘可以看到明显的痕迹,进一步研究人员将Encoder-Decoder网络结构中的对抗损失称作局部对抗损失,又增加一项对抗损失:全局对抗损失。此外,优化方案的提出也解决了很多问题:结合图像内容与纹理的多尺度CNN匹配方法,整体架构分为内容网络和结构网络[2];在上下文编码器中加入Global context discriminator和Local context discriminator,从全局一致性和在局部一致性来判别生成效果的好坏,并利用快速匹配方法融入全图。
(二)基于生成式对抗网络的图像修复模型
1.生成式对抗网络概述以及原理
生成式对抗网络(GAN)受零和博弈启发,包括生成模型G和判别模型D,其结构如图2,生成模型G将输入的信息经过极大似然估计的参数转化成指定样本,而判别模型D用来判断G中的图像数据是否为真实数据,通过交替训练让这两个模型同时得到增强,使生成器产生的数据逼近真实数据分布,由于判别器的存在,最终会达到纳什均衡。
图2GAN结构
2.基于生成式对抗网络图像修复方法
基于GAN图像修复方法训练过程不稳定,为了提高训练的稳定性,Mirza提出了CGAN,通过把无监督的GAN变成半监督或者有监督的模型,增加网络结构的约束性,引入另一个条件变量y,和GAN原有的输入合并为一个向量,训练过程的稳定性得到了极大程度的提高。研究人员在无监督学习领域仍然对GAN模型提出改进:2015年Radford等人提出DCGAN,深度卷积生成对抗网络仍由生成模型G和判别模型D构成[2],在卷积特征上消除全连接层,利用转置卷积网络实现低维度噪声得到高纬度图像的目的。近年来研究者们针对GAN在图像修复方面的研究又提出一种基于生成对抗网络的图像分布补全算法[3]:预补全模型对图像初步补全、还原低维结构信息,增强补全模型还原高维纹理结构信息。
(三)基于循环神经网络的图像修复模型
1.循环神经网络概述以及原理
循环神经网络(RNN)与传统的神经网络模型比较:传统的神经网络模型层与层之间是全连接的,每层之间的节点是无连接的,而RNN的每一个序列当前的输出与前面的输出也有关,RNN会对前面的信息进行记忆并应用于当前输出的计算中。
图3RNN结构图
2.基于循环神经网络图像修复方法
基于RNN的这种网络结构,可以将时间序列对应到图像的像素分布,补全缺失区域时可以按照两个空间维度来预测像素信息,下一个像素点的预测是基于之前所生成的像素点。谷歌提出PixelRNN模型用于图像修复[5],其由12个二维LSTM组成,用卷积一次性计算数据在一个空间维度的状态。传统LSTM在每一行做卷积,DiagonalBiLSTM在图像的对角做卷积,同时引入了残差连接,帮助12层的LSTM深度训练。由于RNN网络计算的复杂性,因此基于循环神经网络图像修复方法较少,对于基于RNN的图像修复方法需要设计更为合理的网络模型来实现。
三、总结与展望
本文通过对基于深度学习的几种图像修复模型进行总结,概括出基于深度学习的三种图像修复方法的特点:CNN研究较为广泛,但是对于纹理修复却存在不足;GAN可应用于缺失大量数据的图像修复,但是GAN的训练阶段的不稳定性问题需要更加深入的研究来解决;RNN处理序列数据方面有着较为优异的表现,但是对于大样本数据的处理却不太出色。基于对现有方法讨论总结,可以看出深度学习在图像修复领域得到应用,本文对基于深度学习的图像修复方法研究提出了以下展望:在基于深度学习的图像修复方法中,深度学习网络的设计和训练过程中的损失函数的选择是其重要的内容,选择合适的损失函数在提高图像修复质量的同时也会加快深度学习的训练速度,图像修复质量的提高还可以通过减少噪声模型深度来解决,因此在未来工作中设计出更加完善的去噪模型也尤为重要,如何设计具有普适性的修复网络,提高修复结果的准确性,还需要更加深入的研究。
参考文献:
[1]张晴,林家骏,刘云翔.基于局部平均灰度熵的快速图像修复算法[J].计算机应用与软件,2014,31(10):206-208+223.
[2]李天成,何嘉.一种基于生成对抗网络的图像修复算法[J].计算机应用与软件,2019,36(12):195-200+267.
[3]王一鸣.基于生成对抗网络的图像修复算法研究[D].北京交通大学,2019.
[4]王鑫磊.基于深度卷积生成对抗网络的图像修复研究与应用[D].重庆大学,2018.
[5]强振平,何丽波,陈旭,徐丹.深度学习图像修复方法综述[J].中国图象图形学报,2019,24(03):447-463.
赵然.基于深度学习的图像修复方法综述[J].科技风,2020(18):130+137.
分享:
脑机接口(brain-computer interfaces,BCI)旨在为大脑和外部设备(计算机或其他电子设备)之间建立直接通信,而不依赖于任何肌肉或外周神经.BCI技术的应用有助于患有肌萎缩性侧索硬化、脑卒中、脑瘫、脊髓损伤等“闭锁综合征”的病患恢复日常交流和生活的能力.
2024-12-07随着我国公路建设的蓬勃发展,高速公路的隧道数量持续增加。当前,我国高速公路隧道主要采用人工巡检方式。尽管这种方式具有一定的便利性,如设备操作简单、巡检流程灵活以及问题处理及时等,但在实践中却面临诸多挑战。由于隧道内车流密集、空间有限且环境质量较差,使设备的日常维护和事故排查工作变得异常困难。
2024-10-14随着高速公路网络的日益庞大,其运营管理和维护保养工作也面临着前所未有的挑战,特别是在隧道等复杂路段,由于其特殊的环境和构造,安全问题尤为突出。因此,利用先进的技术手段,提高隧道的巡检效率和质量,已成为当前高速公路管理领域亟待解决的问题。传统的隧道巡检主要依赖人工完成。
2024-10-14随着建筑行业的快速发展,电梯的安装质量直接关系到乘客的生命安全。因此,对电梯安装质量的检测有重要意义。传统的电梯安装质量检测方法依赖于人工目视检查和简单的工具测量,容易受到人为因素和环境因素的影响,难以保证检测的准确性和可靠性。本研究旨在探讨计算机视觉技术在电梯安装质量检测中的应用,通过分析电梯安装质量检测的特点和需求。
2024-06-25在数字化时代,电力企业面临巨大挑战和机遇[1]。客户需求激增,市场竞争激烈,迫使电力企业寻求创新和改进[2]。为应对这一挑战,基于Hadoop大数据框架的电力智能客服辅助决策系统成为解决方案,助力电力企业提升客户服务质量和运营效率[3]。
2024-06-06目前,中药饮片的识别分类方法主要还停留在人工阶段,需要大量的专业人才,费时费力。随着科学技术的进步,利用计算机视觉技术进行中药饮片的识别是未来社会的发展趋势[1]。随着人工智能技术的不断发展,它给各行各业的发展带来了日新月异的变化[2]。通过神经网络提取中药饮片的特征参数,建立识别分类模型进行分析,使得中药饮片识别也变得不再那么困难。
2024-01-17ChatGPT全称是Chat Generative Pre-trained Transformer, 是OpenAI公司于2022年11月发布的一款聊天机器人程序。ChatGPT能根据用户提出的问题,经人工标注数据集训练的算法智能生成回答内容,而不仅仅只是加工现有内容。它能够像人类一样自然地进行对话,并且具备完成各种任务的能力,包括邮件撰写、视频脚本创作、文案编写、翻译以及代码生成等。
2024-01-16汉字的结构复杂、形态多样,每个汉字都具有结构的唯一性,汉字骨架作为汉字字形的重要拓扑描述具有重要意义。汉字骨架生成广泛应用于字形技术[1]、汉字识别[2]、汉字生成[3]等汉字信息处理领域。汉字骨架可由一段书写序列进行表示,与图像表示相比,序列格式的汉字骨架包含更多的动态信息,如时间顺序、轨迹等,这些信息对汉字的笔画连接、拓扑结构等有更为清晰的描述,同时书写序列可以很容易地转换为图像[4]。
2024-01-03图像融合是信息融合的一个分支。红外传感器抗干扰能力强,但其空间分辨率较低,缺少纹理细节。可见光图像具有更多细节信息和高分辨率,但在光照很弱或物体被遮挡的情况下效果不好[1]。为了利用可见光和红外图像的互补信息,红外和可见光图像融合非常必要,现已广泛应用于众多领域中[2]。
2024-01-03国际石油勘验领域由于受行业划分的缘故,各系统之间难以兼容,使井场内部形成了一个个的信息孤岛。为了实现不同施工主体之间数据信息的兼容共享与远程控制,甲方在招投标合同及其澄清中明确地规定了乙方必须能够提供WITSML(Well Site Information Transfer Standard Markup Language,井场信息传输标准标记语言)数据流。
2023-09-25人气:5468
人气:5125
人气:3650
人气:3389
人气:2746
我要评论
期刊名称:计算机学报
期刊人气:5688
主管单位:中国科学院
主办单位:中国科学院计算技术研究所,中国计算机学会
出版地方:北京
专业分类:计算机
国际刊号:0254-4164
国内刊号:11-1826/TP
邮发代号:2-833
创刊时间:1978年
发行周期:月刊
期刊开本:大16开
见刊时间:一年半以上
影响因子:0.000
影响因子:0.599
影响因子:0.335
影响因子:0.419
影响因子:0.422
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!