CN102291582B

CN102291582B - 一种基于运动补偿精化的分布式视频编码方法

Info

Publication number: CN102291582B
Application number: CN201110281532.3A
Authority: CN
Inventors: 杨波; 门爱东; 邸金红; 陈晓博; 叶锋; 张鑫明; 肖贺; 范曼曼; 秦雯
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2011-09-21
Filing date: 2011-09-21
Publication date: 2014-04-23
Anticipated expiration: 2031-09-21
Also published as: CN102291582A

Abstract

本发明涉及一种基于运动补偿精化的分布式视频编码方法，包括以下步骤：(1)在编码端将视频序列分成关键帧和WZ帧，然后对WZ帧进行DCT变换、量化和Turbo编码；(2)在解码端，关键帧采用H.264帧内解码，使用改进的三维递归运动搜索方法产生前向和后向运动补偿图像，然后采用运动补偿内插法生成边信息解码WZ帧。本发明设计合理，采用改进的三维递归搜索运动方法(3DRS)，能够有效地善初始边信息(SI)质量；同时采用时空边界匹配算法(STBMA)实现对边信息的精化，其充分利用空间和时间的平滑性能来获取更精确的运动矢量，具有更好的率失真性能。

Description

一种基于运动补偿精化的分布式视频编码方法

技术领域

本发明属于视频压缩技术领域，尤其是一种基于运动补偿精化的分布式视频编码方法。

背景技术

随着网络技术、无线技术和计算机技术的飞速发展，近来涌现出许多具有崭新特点的多媒体应用设备，如无线视频传感器监控网络、移动摄像手机和便携式摄像机等，这些多媒体应用设备在存储容量、计算能力和功率资源等方面都受到很大的限制，需要简单的编码器以节省功率。

分布式视频编码（Distributed Video Coding，DVC）将耗时耗功率的运动估计/补偿从编码端移到解码端，具有与传统的帧内编码方式相似的低编码复杂度以及远远高于帧内压缩性能的特点，为以上应用场合提供了很好的解决方案。DVC是基于Slepian和Wolf提出的分布式无损编码理论与Wyner和Ziv提出的使用解码端边信息的有损编码理论，前者的主要思想是对视频帧在编码端进行独立编码而在解码端进行联合译码，这样就避免了在编码端进行帧间预测编码，从而降低编码端的复杂度；后者的主要思想是在解码端使用已译码的视频帧来产生边信息，使用边信息来利用当前帧与边信息之间的相关性来对当前帧进行译码。目前比较典型的分布式视频编解码方案，如图1所示，主要是基于像素域的Wyner-Ziv视频编解码框架、基于DCT变换域的Wyner-Ziv视频编解码框架和PRISM视频编解码框架。前两种编码方案是由斯坦福大学的BerndGirod研究小组提出的，其分布式视频编码方案主要是基于帧层并在解码端通过反馈信道来进行速率控制的；第三种编码方案是由加利福尼亚大学的KannanRamehandran研究小组提出的，其分布式视频编码方案PRISM是根据该视频编码的几个特点命名的，其中P表示高效(Power-efficient)，R表示鲁棒(Robust)，I表示高压缩率（hIgh-compression），SM表示综合多媒体编码(Syndrome-basedMultimedia coding)，PRISM视频编码是基于块层并在编码端进行码率控制的。

DVC的技术难点在于如何在解码端生成精确的边信息。一方面，在Slepian-Wolf压缩环节，边信息越精确，需要的信道码的校验比特越少，因而压缩性能越好；另一方面，在量化重构中，DVC中的量化重构值取期望值E(x|y)，当边信息y在x的量化区间时，将y作为x的重构值，否则，在x的量化区间中取与y最接近的值为x的重构，所以说，边信息越精确，量化重构值越接近于主信息的原始值。目前提出了很多算法用来提高DVC系统的性能：Dong YoonKim等提出了一种使用种子块生成边信息的算法，当SI接近于目标图像，在解码端可以取得图像更好的重建图像，从而提高压缩比；Marco Cagnazzo等提出了一个新颖的差分运动估计算法，它可以应用于WZ视频编码方案的解码端，而无需增加编码速率；虽然这些算法可以在一定程度上提高DVC的压缩性能，但是，在仍然存在边信息质量差和率失真性能低等问题。

发明内容

本发明的目的在于克服现有技术的不足，提出一种能够提高边信息质量和率失真性能的基于运动补偿精化的分布式视频编解码方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于运动补偿精化的分布式视频编码方法，包括以下步骤：

⑴在编码端将视频序列分成关键帧和WZ帧，然后对WZ帧进行DCT变换、量化和Turbo编码；

所述WZ帧为棋盘格式分割的WZ帧，WZ帧内包括间隔分布的子集X_2i ¹和X_2i ²，且：X_2i=X_2i ¹+X_2i ²；

⑵在解码端，关键帧采用H.264帧内解码，使用改进的三维递归运动搜索方法产生前向和后向运动补偿图像，然后采用运动补偿内插法生成边信息解码WZ帧；具体包括以下步骤：

①从编码端传来的信息与Y_2i ¹一起进行解码得到

进而得到一个新的边信息

其中，Y_2i ¹和Y_2i ²分别表示X_2i ¹和X_2i ²的边信息,X_2i ¹和X_2i ²分别表示间隔分布的子集X_2i ¹和X_2i ²；

②在已知

Y_2i和Y′_2i的情况下，采用时空边界匹配算法对X_2i ²进行运动补偿精化，得到新的边信息

所述时空边界匹配算法用来获取精确的运动矢量，该算法采用如下描述时间和空间平滑特性的失真函数：16

D_{ST} = Σ_{i = 1}^{16} α \times D_{ST}^{spatial} (i) + (1 - α) \times D_{ST}^{temporal} (i)

i＝1

上式中：

D_{ST}^{temporal} (i) \frac{1}{16} Σ_{j = 1}^{16} | \hat{Y} {(m v^{cn})}_{j}^{OUT} (i) - Y_{j}^{OUT} (i) |

D_{ST}^{spatial} (i) = \frac{1}{16} Σ_{j = 1}^{16} | &dtri; (Δ Y_{j}^{IN} (i)) \cdot \overset{&RightArrow;}{n_{j}} (i) | \times k_{j} (i)

\overset{&RightArrow;}{n_{j}} (i) = \frac{{&dtri;}^{&perp;} Y_{j}^{IN} (i)}{| {&dtri;}^{&perp;} Y_{j}^{IN} (i) |}

k_{j} (i) = \frac{&dtri; Y_{j}^{IN} (i)}{| &dtri; (Δ Y_{j}^{IN} (i)) |}

其中，α是一个权重参数，取0-1间的一个实数；mv^cn是候选运动矢量；

是参考帧OUT预测块边界的第j个值；和

分别是是当前帧中内边界块和外边界块的第j个Y值；k_j(i)是一个比例因子，表示内边界块的第j个预测边界像素的方向；

是梯度算子；

是运算符，其方向与梯度方向正交；

是拉普拉斯算子；

③将新的边信息

进行解码得到

④将

和

合并得到重建的WZ帧。

本发明的优点和积极效果是：

本发明设计合理，采用改进的三维递归搜索运动方法（3DRS），能够有效地善初始边信息（SI）质量；同时采用时空边界匹配算法（STBMA）实现对边信息的精化，其充分利用空间和时间的平滑性能来获取更精确的运动矢量，具有更好的率失真性能。

附图说明

图1为传统分布式视频编码框架图；

图2为本发明所提出的分布式视频编码框架图；

图3为基于棋盘格局的WZ帧分类示意图；

图4为三维递归搜索运动方法的空间与时间预测块的相对位置示意图；

图5为时空边界匹配方法（STBMA）中运动补偿块示意图；

图6为实例Foreman序列的RD性能结果图；

图7为实例News序列的RD性能结果图。

具体实施方式

以下结合附图对本发明实施例做进一步详述：

一种基于运动补偿精化的分布式视频编码方法，从两个方面提高分布式视频编解码总体的率失真性能，主要是在解码端使用改进的三维递归运动搜索方法（3DRS）和时空边界匹配算法（Spatio-temporal Boundary MatchingAlgorithm,STBMA）来获得更精确的运动矢量，进而得到较好的边信息。下面详细说明本发明所提出的分布式视频编码方法。

一种基于运动补偿精化的分布式视频编码方法，如图2所示，包括以下步骤：

步骤1：在编码端将视频序列分成关键帧和WZ帧，然后对WZ帧进行DCT变换、量化和Turbo编码；

在本步骤中，将编码段将视频序列分成两种帧格式，其中关键帧采用H.264帧内编码，WZ帧为棋盘格式分割的WZ帧，如图3所示，WZ帧内包括间隔分布的子集X_2i ¹和X_2i ²，且：X_2i=X_2i ¹+X_2i ²。

步骤2：在解码端，关键帧采用H.264帧内解码，使用改进的三维递归运动搜索方法（3DRS）产生前向和后向运动补偿图像，然后采用运动补偿内插法生成边信息解码WZ帧。

在本步骤中，使用改进的三维递归运动搜索方法用于对解码端运动矢量进行搜索，该三维递归运动搜索方法可以作出更为精确的运动估计和运动补偿算法，从而有效提高边信息的质量，用于对解码端运动矢量的搜索。与全搜索运动估计相比，3DRS获得这个运动域是一个更接近于真实运动场的运动矢量。3DRS包括以下步骤：

1、在关键帧

和关键帧

之间进行前向递归搜索，拥有最小SAD值的参考块对应运动矢量即为当前预测块的前向运动矢量Vf；

在进行递归搜索时，设关键帧为当前预测帧，

为参考帧，CS_a和CS_b为关键帧

中的初始参考块，CS_c、CS_d、CS_e和CS_f为关键帧

中的初始参考块，此6个候选预测参考块的位置如图4所示，其具体递归搜索过程如下：

⑴计算初始参考块CS_a及其四个邻块与当前预测块的绝对误差和（SAD）值，计算公式如下：

将SAD最小的块做为新的参考块并标为CS_a，重复上述过程（迭代）直到CS_a位置不再改变；

⑵对其他5个候选参考块CS_b、CS_c、CS_d、CS_e和CS_f分别重复第一步的动作直到其位置都不再移动，此时认为6个候选预测分支都已聚合；

⑶在所有的分支都收敛后，6个分支的最小SAD值是块的运动矢量，此时，编码端只需要计算一个来自解码端的候选运动矢量，拥有最小SAD值的参考块对应运动矢量即为当前预测块的前向运动矢量，记为V_f。

2、在关键帧

和关键帧

之间进行后向递归搜索，关键帧

为参考帧，

为当前预测帧，通过递归搜索得到预测块的后向运动矢量V_b；

后向递归搜索过程与向前递归搜索过程完全一致，与前向递归搜索不同的是，此时关键帧

为参考帧，

为当前预测帧，通过递归搜索得到预测块的后向运动矢量V_b。

⑶在获得了前向运动矢量和后向运动矢量后，基于连续帧运动矢量平滑的假设，按照如下公式计算处于可信度较低区域的边信息宏块的新运动矢量V：

V = \frac{V_{f} + V_{b}}{2} .

在解码处理时，采用运动补偿内插法生成边信息解码WZ帧，具体包括以下处理过程：

⑴从编码端传来的信息与Y_2i ¹一起进行解码得到

进而得到一个新的边信息

⑵在已知

Y_2i和的情况下，采用时空边界匹配算法对X_2i ²进行运动补偿精化，得到新的边信息

⑶将新的边信息进行解码得到

⑷将

和

合并得到重建的WZ帧。

在上述处理过程中，采用时空边界匹配算法用来获取精确的运动矢量。由于一般的边界匹配算法只考虑了空间的平滑性，而时空边界匹配算法则充分运用了时间和空间的平滑性，来获取精确的运动矢量，以达到精化边信息的目的。该算法定义了一种描述时间和空间平滑特性的失真函数，该失真因素由空间失真和时间失真两个因素决定，该失真函数定义如下：

D_{ST} = Σ_{i = 1}^{16} α \times D_{ST}^{spatial} (i) + (1 - α) \times D_{ST}^{temporal} (i)

上式中：α是一个权重参数，取0-1间的一个实数。

如图5所示，和定义如下：

D_{ST}^{temporal} (i) = \frac{1}{16} Σ_{j = 1}^{16} | \hat{Y} {(m v^{cn})}_{j}^{OUT} (i) - Y_{j}^{OUT} (i) |

D_{ST}^{spatial} (i) = \frac{1}{16} Σ_{j = 1}^{16} | &dtri; (Δ Y_{j}^{IN} (i)) \cdot \overset{&RightArrow;}{n_{j}} (i) | \times K_{j} (i)

其中：

\overset{&RightArrow;}{n_{j}} (i) = \frac{{&dtri;}^{&perp;} Y_{j}^{IN} (i)}{| {&dtri;}^{&perp;} Y_{j}^{IN} (i) |}

k_{j} (i) = \frac{&dtri; Y_{j}^{IN} (i)}{| &dtri; (Δ Y_{j}^{IN} (i)) |}

上式中，mv^cn是候选运动矢量；

是参考帧OUT预测块边界的第j个值；

和

分别是是当前帧中内边界块和外边界块的第j个Y值；k_j(i)是一个比例因子，

表示内边界块的第j个边界像素的方向；

是梯度算子；是运算符，其方向与梯度方向正交；

是拉普拉斯算子。

是用来度量候选MV时间连续性的，

的值小表示候选MV的时间连续性比较好。

是用来度量候选MV的空间连续性的，

的值小表示候选MV的空间连续性比较好。候选MV包括零矢量、参考帧的联合定位MV以及相邻块的MV。使得失真DST最小的MV即是最终的用于边信息运动补偿精化的运动矢量。

下面使用实例对本发明进行验证。实例验证中采用的仿真环境为matlab.R2007b，仿真实验分别选用标准视频序列库中Foreman序列和News序列进行测试，这两个视频序列都采用CIF(352×288)格式。奇数帧被编码为关键帧而偶数帧为WZ帧。权值参数α设定为0.5。

表格1给出了set2的边信息的PSNR。

本发明提出的算法与文献（A.Aaron,S.Rane,E.Setton and B.Girod.“Transform-domain Wyner-Ziv codec for video”,in Proc.SPIE VisualCommunication and Image Processing,San Jose,CA,Jan.2004.）和文献（HongbinLiu,Xiangyang Ji,Debin Zhao,Bo Wu,Wen Gao.“Distributed Video Coding usingblock based checkerboard pattern splitting algorithm”.The26^th Picture CodingSymposium2007,PCS2007,Lisbon,Portugal,Nov.2007.）的算法进行了比较。从表1中可以看出，新提出的算法与文献[5]的算法相比可以产生0.7-1.4dB增益，与文献[10]相比可以产生0.1-0.4dB的增益。

图6和图7显示了Foreman和News序列的失真性能。率失真（RD：RateDistortion）曲线只考虑WZ帧亮度分量的平均码率及平均峰值信噪比(PSNR)值。从图中可以看出，本发明提出的方法对于Foreman和News序列都有明显改善。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。