首页 > 论文范文 > 社会科学论文 > 文化论文 > 短视频论文 > 基于运动补偿方法在视频压缩方面的应用研究

基于运动补偿方法在视频压缩方面的应用研究

2021-10-08 179 上传者：管理员

摘要：目的动态视频所占据的空间过大,若要快速和在有限的空间去传送,则必须要对动态视频进行压缩;方法通过帧与帧之间存在冗余性,以及后面的帧可以通过运动补偿的方法来得到预测帧;结果通过matlab进行仿真,得到相关的图片数据得到压缩后的预测帧;实验验证通过运动补偿的方法可以得到后面相关帧,并且起到压缩的作用。

关键词：
冗余性
动态视频
压缩
视频压缩
运动补偿
加入收藏

从智能手机发展以来，人们对娱乐生活的追求日益增多，其中包括各种小视频，手机的存储值也越来越大，从刚开始的512M，当时还另外增添内存卡，否则没办法拍照，或者下载音乐，到2013年末开始的4G的普及内存到目前达到256G，目前大家运用手机频率比较多是拍照片，视频，抖音等，另外普通电视视频已经满足不了人眼的视觉，人们开始追逐3D电视，而目前是3D电视目前发展的瓶颈期，因为3D电视会产生两倍的数据量，怎样满足于3D电视在直播时能快速的将两倍数据传送到千家万户的接收端，除了等待5G快速的传输，最重要的还是需要将这些视频数据有效的压缩。

1、视频压缩的重要性

视频的特点的主要是类型复杂、信息量大、实时性和交互性强，例如分辨率640×480，颜色24位(bit)的彩色电视图像，若每秒种播放30帧，连续播放30分钟，需要存储容量46.3GB，转为分辨率为1080P，颜色为32位，每秒钟播放30帧，播放更长的时间，可以想象出所需的流量会更多，视频在压缩的依据是根据帧间、帧与帧之间的冗余性，一帧图像相邻像素之间具有相关性，在对静态图像做DCT变换之前，会将静态图像的每个像素减去128，这样像素值除了集中在少数的低频中，高频的部分变得很小，在做量化后，高频得部分大部分为零，从而压缩了一帧图像，而动态视频是根据人眼得特性，1秒钟需传送45帧以上的静态图片就会产生动态的感觉，我们国家采用PAL制电视标准，每秒传送25帧，隔行扫描，而一秒钟传送的25帧图片也具有相关性，有时这25帧都有可能是相同的，视频压缩的原理就是把时域的冗余性给去掉，运用这一特性对图像做运动补偿的压缩。

2、运动补偿的方法

2.1全搜索法

块匹配算法的原理是对当前帧中，每一个图像块去找最匹配块，而此匹配块是当前帧的之前的编码帧，具体的方法是以当前块的像素点的中心为中心，上下左右各找w个像素点，形成长和宽为（2w+1）的窗口，此方法称为全搜索方法，则每个当前块需要找（2w+1)2个匹配块，如果w=16，则需要搜索1089个窗口，在目前视频编码中很少用全搜索方法，虽然精度高，但是运算量大。其中的一个搜索标准为绝对差值和(SAD),如公式（1）所示。

2.2三步法和新三步法

假如窗口半径w=7，若用全搜索方法需要（2w+1)2=225,即需要225次比较才能找到最合适匹配块，三步法的过程是假如搜索a像素，以a点为中心，与周围8个点，加上a点本身去匹配，假如b点最匹配，半径缩小原来的一半，变为3，继续找周围的8个点去匹配，假如找到c点最为匹配，半径又缩小原来的一半，变为1，继续与周围8个点进行匹配，这样一共匹配25次，与全搜索相比较，它匹配的次数要少的多，如图1所示。在三步法的搜索过程中，首先以a点为中心的8个点是均匀分布，这种搜索模板在块运动范围比较小的情况下，这种搜索模板效率就较低，可能最佳的匹配点离a点较近，即在搜索点的空洞中，所以用三步法搜索就会漏掉。

在现实的世界中，视频变换时光滑的，比较缓慢的，搜索最佳匹配的点应在当前点的周围，是一个比较小的范围，所以新三步搜索法在设计时区别三步法有两种：第一种是在中心点的附近再加8个点；第二种是增加了两个退出机制，第一个退出机制是在匹配过程中，a点即为最佳匹配点，则直接退出，第二个退出机制是在匹配过程发现最佳匹配点在中心位置附件的8个点中的一个，再以此点，再在周围匹配一次，然后退出。所以新三步法在搜索过程中最糟糕的搜索次数为33此（25+8），一般情况都是小于25次。

2.3四步法和菱形搜索法

四步法搜索法的方式同样w=7，搜索a点最佳匹配的块，刚开始它以5*5模块中搜索，如果发现a点为它最匹配的块，则以a点为中心在它附近再搜索8个点，这次搜索为最少的一共为17(9+8）次搜索，如果搜索的最佳匹配点不在中心，而是在角点c上，则以c点为中心，再次匹配，此次匹配需要搜索5次，再次搜索，最佳匹配点依然在角点e上，又一次匹配，需要5次，发现匹配点在角点f上，缩小半径，再次匹配需要匹配8次，所以在这种角点上需要匹配的次数为27次（9+5+5+8），在角点的匹配次数是最多的。如果刚开始以a点为中心最佳匹配的点在边角g点上，以g点为中心再次匹配，依次类推，详图见图2所示，所以四步搜索法搜索的范围在17～27次。

菱形搜索法与四步搜索法是类似的，只是搜索的形状不在是正方形，而是菱形的形状，另外实验过程中发现搜索需要依赖于视频，如果视频变换的比较块，可能需要大的搜索模块，如果视频变化较小，如新闻类，购物类，像这种背景是几乎不变的，需要的搜索模板就较小，52.76%～98.7%的视频在找到对应的匹配块，是以该点为中心，以2个像素为半径的圆上。

3、视频压缩的过程

3.1帧内编码

帧内编码比较灵活，因为编码只对帧内编码，如果该帧的场景比较复杂，则分配给该帧的比特率就较多，反之，分配的比特率就较少，由于每一帧都不依赖于前后帧，所以想提取每一帧都比较简单。在解压缩的过程中，如果一个数据包（t时刻）丢了，可以通过t-1和t+1两帧做平均值，得到t时刻的图片，帧内编码由于编码没有考虑到帧间的冗余性，所以总的压缩率比较低，像我们经常在网上看到的视频格式为AVI，它的压缩方式即为帧内编码。

3.2帧间编码[2]

由于图像间存在很多的冗余性，将这些冗余给去掉，就起到图像压缩的过程，如图4所示，当t=1时，不存在参考帧，直接对该图片DCT变换、量化，在量化后，马上又对此帧做去量化，DCT逆变换，此时就形成了压缩帧～x)1(,接下来传送第二帧，将x(2)与～x)1(做运动估计、运动补偿得到残差r，接下来对残差r做DCT变换、量化、去量化、DCT逆变换Q[r(t)]，第三帧的预测帧应该等于第二帧的预测帧与残差量化之和。依次类推剩下的图片，当前MPEG、H.264的压缩模式都时通过此方法得到的。