CN102026013B

CN102026013B - 基于仿射变换的立体视频匹配方法

Info

Publication number: CN102026013B
Application number: CN2010105942171A
Authority: CN
Inventors: 杜歆; 张飞; 陈国赟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2010-12-18
Filing date: 2010-12-18
Publication date: 2012-05-23
Anticipated expiration: 2030-12-18
Also published as: CN102026013A

Abstract

本发明公开了一种基于仿射变换的立体视频匹配方法。该方法用于对双目摄像机拍摄得到的立体视频进行立体匹配，包括以下步骤：1）提取当前帧图像和前一帧图像的特征点并进行匹配，求取当前帧图像到前一帧图像的仿射变换矩阵；2）根据仿射变换矩阵，将当前帧图像的像素点投影到前一帧；3）计算前后帧匹配点的像素差，以检测当前帧图像中的静止区域；4）计算当前帧图像的初始匹配代价；5）更新当前帧图像静止区域的匹配代价；6）计算当前帧图像的视差图。本发明利用了视频帧之间的仿射约束关系，使得当前帧视差同时受前一帧视差的约束，有效地减弱了噪声等对视差精度的影响；提高了视差在视频中的稳定性，保证了视差图序列在时域上的稳定性。

Description

基于仿射变换的立体视频匹配方法

技术领域

本发明涉及一种立体视频匹配的方法，特别是涉及一种基于仿射变换的立体视频匹配方法。

背景技术

立体匹配方法是计算机视觉中的研究热点，其产生的视差图在三维重建、视频视点合成、图像分层、图像渲染等方面有广泛的应用价值。尤其是当前3D电影的兴起和迅速发展，标志着能够有效改善用户真实性体验的三维立体显示时代的到来。跟传统的平面显示相比，三维立体显示可以让用户有身临其境的感觉，增强了场景的渲染力、生动性和刺激感，如3D足球播放技术，让用户仿佛有置身现场的感觉，并且可以从各个角度观看全场。

然而要得到良好的三维立体显示的效果，需要解决很多问题：数据传送量增大、观看视点少、个体用户的体验要求等等。如果传送多个视点的视频，会极大地增加数据传送量，对带宽是一种挑战，因此可以选择传送少量视点和视点视差图的方式来减少数据量，然后在终端用“视点图＋视差图”的方式生成新的视点，这样可以同时解决数据量增大和视点少的问题。各个用户对三维场景感知的要求会有差别，同时观看的距离、屏幕大小的区别也会对场景的显示深度有影响，因此在实现三维显示过程中，应该容许用户交互地根据个人对立体感知的要求，调节场景的显示深度。而调节场景显示深度的实质是调节视频之间的视差，从而得到视频的视差图是必备的步骤。有了视频视差图后，根据用户的调节，动态地以一定规则更改视差值，再重新生成新的视频源。从这些技术上的要求可以看出，视频视差图的求取是三维立体显示的一个关键步骤。

视频的立体匹配方法大致可以分成两种方向：一是将视频的每一帧视为纯粹的图像，用图像的立体匹配方法得到每一帧的视差图；另一种是充分利用视频帧之间的关系，在图像立体匹配的基础之上加入视频帧信息和约束。本发明提出了基于视频帧之间的仿射变换关系的立体匹配方法，利用连续帧的约束，对当前帧中的静止场景用前一帧的视差值作为初始值，并更新当前帧的匹配代价值，然后再用图像立体匹配方案得到视差图。

发明内容

本发明的目的在于提出一种基于仿射变换的立体视频匹配方法，充分利用了视频帧之间的仿射变换关系，用前一帧的视差信息约束当前帧的视差值，不但提高了求取当前帧初始视差图的准确度，还有效地保证了视差图序列在时域上的稳定性。

本发明采用的技术方案是：

利用立体视频前后帧之间的时域信息，计算仿射变换矩阵，在立体视频当前帧的单帧图像立体匹配方法基础上，增加视频帧之间的仿射变换约束；下列步骤中，步骤4）用立体视频的左路当前帧和立体视频的右路当前帧进行匹配得到初始匹配代价，其余步骤分别对立体视频的左路视频和立体视频的右路视频分别单独相同的实施步骤如下：

1）提取当前帧和前一帧的图像特征点，并进行图像特征点匹配，求取仿射变换矩阵；

2）根据步骤1）得到的仿射变换矩阵，将当前帧图像中的像素点投影到前一帧，并对非整数坐标的投影像素点进行插值运算，得到当前帧图像的像素点在前一帧图像上的投影点；

3）根据步骤2）得到的投影点，计算当前帧图像的像素点和其在前一帧图像上的投影点的像素值的差，以检测当前帧图像中的静止区域像素点；

4）计算当前帧图像的初始匹配代价；

5）计算更新匹配代价的权重系数，包括前后帧图像视差的整体相似度和相邻视差值的权重递变函数值；

6）根据步骤4）中当前帧图像的初始匹配代价，以及步骤5）中的权重系数，更新当前帧静止区域像素点的匹配代价，对运动区域像素点的匹配代价则保持不变；

7）计算左路当前帧图像视差图和右路当前帧图像视差图。

2、所述的根据图像特征点匹配，求取仿射变换矩阵，包括以下步骤：

2.1）用Harris角点检测方法，分别提取当前帧

Figure 2010105942171100002DEST_PATH_IMAGE002

和前一帧

的图像特征点；

2.2）对提取的两个图像特征点进行匹配；

2.3）根据匹配结果，计算当前帧到前一帧的仿射变换矩阵

。

3、所述的将当前帧中的像素点投影到前一帧，并对非整数坐标的投影像素点进行插值运算，是指当前帧中的像素坐标

按照所求取的仿射变换矩阵

，投影到前一帧

中坐标为

处，若像素坐标

不是整数，则用

中相邻像素进行双线性插值，得到该点的像素值

。

4、所述的计算当前帧图像的像素点和其在前一帧图像上的投影点的像素值的差，以检测当前帧图像中的静止区域像素点，是指对当前帧图像坐标为

的像素值

和经过仿射变换投影到前一帧坐标为

的像素值

，在一定窗口内求SAD值（绝对差值和）：

，其中

表示SAD值。若

小于一个特定的阈值

，则判定当前帧坐标为

的像素点为静止区域点；反之，则为运动区域点。

5、所述的计算当前帧图像的初始匹配代价，是指用基于局部窗口匹配的SAD方法对立体视频当前帧的左图和右图进行匹配，分别得到当前帧左图的的初始匹配代价

和当前帧右图的初始匹配代价

。

6、所述的更新权重系数中的前后帧图像视差的整体相似度系数，包括以下步骤：

1）对立体视频的当前帧的左右图像提取Harris特征点并进行匹配；

2）对立体视频的前一帧的左右图像提取Harris特征点并进行匹配；

3）用直方图分别统计当前帧匹配特征点的视差以及前一帧匹配特征点的视差，然后得到视差直方图的相似度系数

，其中

为直方图维度，

为预设的一常量，

和分别为当前帧和前一帧匹配点的归一化视差直方图分布。

7、所述的更新权重系数中的相邻视差值的权重递变函数值，是指用权重递变函数

计算当前帧图像中坐标为处的视差

在其通过仿射变换投影到前一帧图像中坐标为

处的视差

的一个变化区间

内的各个候选视差的权重系数。

8、所述的更新静止区域像素的匹配代价，是指对当前帧图像静止区域中坐标为的像素，更新其匹配代价；计算包括以下步骤：

1）计算当前帧图像坐标为

处像素的初始匹配代价

；

2）更新当前帧图像静止区域中坐标为的像素的匹配代价：

其中，为前后帧图像视差的整体相似度系数，

为权重递变函数，

为预设的常量，表示视差变化范围。

9、所述的计算左路当前帧图像视差图和右路当前帧图像视差图，是指对当前帧图像中坐标为

处的像素的匹配代价

，用匹配代价最小的原则选择该像素的视差值：

其中是视差

的变换区间，

为当前帧图像中坐标为

的像素的视差值。

本发明具有的有益效果是：

本发明提高了视差图的精度，由于充分利用视频帧之间的仿射约束关系，使得当前帧的视差同时受前一帧视差的约束，有效地减弱了噪声等对视差精度的影响；提高了视差在视频中的稳定性，保证了视差图序列在时域上的稳定性。

附图说明

图1是基于仿射变化的视差立体匹配方法的总体流程图。

图2是当前帧像素投影到前一帧的示意图。

具体实施方式

以下结合附图和实施例对本发明进行进一步的说明。

图1给出了基于仿射变换的视频立体匹配方法的总体流程图。

如图1所示，在步骤101中，分别对立体视频的左路视频和右路视频求取当前帧图像到前一帧图像

的仿射变换矩阵

和

。具体步骤为：

1）用Harris角点检测方法，分别提取当前帧图像

和前一帧图像

的Harris图像特征点；

有关Harris角点检测方法，可参见参考文献[1]：

[1] C. Harris and M. Stephens. A combined corner and edge detector. Proceedings of the 4th Alvey Vision Conference, pp. 147-151.

2）用NCC（Normalized Cross Correlation）方法对提取的Harris角点进行匹配；

有关NCC匹配方法，可参见参考文献[2]：

[2] P. Smith, D. Sinclair, R. Cipolla, K. Wood. Effective corner matching. British Machine Vision Conference, pp. 545–556

3）根据角点匹配结果，计算当前帧图像到前一帧图像的仿射变换矩阵：

上式中，

表示在当前帧图像

中的Harris角点坐标，

表示在前一帧图像

中的匹配Harris角点的坐标。

4）分别对立体视频的左路视频和右路视频实施上述步骤1）～3），得到左路视频当前帧图像到前一帧图像的仿射变换矩阵

和右路视频当前帧图像到前一帧图像的仿射变换矩阵

。

如图1所示，在步骤102中，分别将立体视频的左路视频和右路视频的当前帧像素投影到前一帧上。如图2所示，设当前帧图像上的点像素坐标为

，其在前一帧图像上的投影点像素坐标为

，则

，

，

。若

不是位于整数坐标点，则用双线性插值方法得到该投影点的像素值

。

有关双线性插值可参考文献[3]：

[3] Rafael C. Gonzalez, Richard E. Woods. Digital Image Processing, Second Endition. Gatesmark Publishing.

如图1所示，在步骤103中，分别检测立体视频的左路视频和右路视频当前帧中的静止区域。对于当前帧图像

坐标为的像素点和其在前一帧图像中的仿射变换投影点

，计算它们的像素SAD值：

上式中，

表示SAD窗口尺寸，

表示对像素的RGB颜色通道分别进行SAD计算并累加，

表示像素SAD值。

如果

小于一个预先设定的阈值

，则判定当前帧图像

中坐标为

的像素点为静止区域点，否则为运动区域点。

如图1所示，在步骤104中，用基于局部窗口匹配的SAD方法对立体视频的左路当前帧图像和右路当前帧图像进行匹配，分别得到左路当前帧图像的初始匹配代价

和右路当前帧图像的初始匹配代价

。

有关基于局部窗口匹配的SAD方法可参考文献[4]:

[4] Daniel Scharstein, Richard Szeliski. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms. International journal of computer vision, pp. 7-42.

如图1所示，在步骤105中，用立体视频中的左路视频前一帧图像的视差值来约束左路视频当前帧图像中属于静止区域的像素点的匹配代价，用立体视频中的右路视频前一帧图像的视差值来约束右路视频当前帧图像中属于静止区域的像素点的匹配代价。其具体步骤包括：

1）计算更新匹配代价的权重系数中的前后帧图像视差的整体相似度系数

，包括以下步骤：和相邻视差值的权重递变函数

：

a）对立体视频的当前帧的左右图像提取Harris特征点并进行匹配，得到当前帧图像匹配点对的视差分布

；

b）对立体视频的前一帧的左右图像提取Harris特征点并进行匹配，得到前一帧图像匹配点对的视差分布

；

c）对和

分别进行直方图统计，然后分别归一化，得到匹配点视差的归一化直方图分布

和

，可通过以下公式表示：

其中

和

分别表示当前帧图像视差直方图的最小值和最大值，

和

分别表示前一帧图像视差直方图的最小值和最大值。

d）计算前后帧图像视差的整体相似度系数：

其中

为直方图维度，

为预设的一常量。

2）计算更新匹配代价的权重系数中的相邻视差值的权重递变函数

。计算当前帧图像中坐标为

处的视差

在其通过仿射变换投影到前一帧图像中坐标为

处的视差

的一个变化区间内的各个候选视差的权重系数：

。

3）更新当前帧图像静止区域像素的匹配代价

。对步骤103中得到的当前帧图像静止区域像素点，根据仿射变换关系，用其在前一帧图像中的对应投影点视差

来约束当前帧图像的视差

，并更新步骤104中得到的初始匹配代价

：

对于当前帧图像运动区域的像素点，则保持其匹配代价不变。

4）分别对立体视频的左路视频和右路视频实施上述步骤3），得到左路视频当前帧图像的匹配代价和右路视频当前帧图像的匹配代价

。

如图1所示，在步骤106中，对步骤104中得到立体视频的左路视频当前帧图像的匹配代价和右路视频当前帧图像的匹配代价

，分别应用匹配代价最小（WTA）原则，得到左路视频当前帧图像的视差图和右路当前帧图像的视差图：

其中

表示当前帧图像视差

的变化区间，

表示左路视频当前帧图像坐标为

的像素的视差值，

表示右路视频当前帧图像坐标为

的像素的视差值。

有关WTA原则可参考文献[4]：

Claims

1.一种基于仿射变换的立体视频匹配方法，其特征在于：利用立体视频前后帧之间的时域信息，计算仿射变换矩阵，在立体视频当前帧的单帧图像立体匹配方法基础上，增加视频帧之间的仿射变换约束；下列步骤中，步骤4)用立体视频的左路视频当前帧和立体视频的右路视频当前帧进行匹配得到初始匹配代价，其余步骤对立体视频的左路视频和立体视频的右路视频分别单独地实施相同的步骤，实施步骤如下：

1)提取当前帧和前一帧的图像特征点，并进行图像特征点匹配，求取仿射变换矩阵；

2)根据步骤1)得到的仿射变换矩阵，将当前帧图像中的像素点投影到前一帧，并对非整数坐标的投影像素点进行插值运算，得到当前帧图像的像素点在前一帧图像上的投影点；

3)根据步骤2)得到的投影点，计算当前帧图像的像素点和其在前一帧图像上的投影点的像素值的差，以检测当前帧图像中的静止区域像素点；

4)计算当前帧图像的初始匹配代价；

5)计算更新匹配代价的权重系数，包括前后帧图像视差的整体相似度和相邻视差值的权重递变函数值；

6)根据步骤4)中当前帧图像的初始匹配代价，以及步骤5)中的权重系数，更新当前帧静止区域像素点的匹配代价，对运动区域像素点的匹配代价则保持不变；

7)计算当前帧图像的视差图；

所述的更新权重系数中的前后帧图像视差的整体相似度系数，包括以下步骤：

1)对立体视频的当前帧的左右图像提取Harris特征点并进行匹配；

2)对立体视频的前一帧的左右图像提取Harris特征点并进行匹配；

3)用直方图分别统计当前帧匹配特征点的视差以及前一帧匹配特征点的视差，然后得到视差直方图的相似度系数

其中N为直方图维度，σ_s为预设的一常量，

和

分别为当前帧和前一帧匹配点的归一化视差直方图分布；

所述的更新权重系数中的相邻视差值的权重递变函数值，是指用权重递变函数g(d_c)计算当前帧图像中坐标为(x_c，y_c)处的视差d_c在其通过仿射变换投影到前一帧图像中坐标为(x_c′，y_c′)处的视差d_p的一个变化区间[d_p-n，d_p+n]内的各个候选视差的权重系数；

所述的更新静止区域像素的匹配代价，是指对当前帧图像静止区域中坐标为(x_c，y_c)的像素，更新其匹配代价；计算包括以下步骤：

1)计算当前帧图像坐标为(x_c，y_c)处像素的初始匹配代价Cost_init(x_c，y_c，d_c)；

2)更新当前帧图像静止区域中坐标为(x_c，y_c)的像素的匹配代价：

\underset{d_{c} &Element; [d_{p} - n, d_{p} + n]}{Cost (x_{c}, y_{c}, d_{c})} = \frac{{Cost}_{init} (x_{c}, y_{c}, d_{c})}{1 + α_{h} g (d_{c})}

其中，α_h为前后帧图像视差的整体相似度系数，g(d_c)为权重递变函数，n为预设的常量，表示视差变化范围；

计算更新匹配代价的权重系数中的相邻视差值的权重递变函数g(d_c)，计算当前帧图像中坐标为(x_c，y_c)处的视差d_c在其通过仿射变换投影到前一帧图像中坐标为(x_c′，y_c′)处的视差d_p的一个变化区间[d_p-n，d_p+n]内的各个候选视差的权重系数：

g (d_{c}) = \frac{1}{\sqrt{2 π}} e^{\frac{{(d_{c} - d_{p})}^{2}}{2}}, d_{c} &Element; [d_{p} - n, d_{p} + n];

所述的计算当前帧图像的视差图，是指对当前帧图像中坐标为(x_c，y_c)处的像素的匹配代价Cost(x_c，y_c，d_c)，用匹配代价最小的原则选择该像素的视差值：

d (x_{c}, y_{c}) = \underset{d_{c} &Element; D}{\arg \min} (Cost (x_{c}, y_{c}, d_{c}))

其中D是视差d_c的变换区间，d(x_c，y_c)为当前帧图像中坐标为(x_c，y_c)的像素的视差值。

2.根据权利要求1所述的一种基于仿射变换的立体视频匹配方法，其特征在于：所述的根据图像特征点匹配，求取仿射变换矩阵，包括以下步骤：

2.1)用Harris角点检测方法，分别提取当前帧f_c和前一帧f_p的图像特征点；

2.2)对提取的两个图像特征点进行匹配；

2.3)根据匹配结果，计算当前帧到前一帧的仿射变换矩阵H。

3.根据权利要求1所述的一种基于仿射变换的立体视频匹配方法，其特征在于：所述的将当前帧中的像素点投影到前一帧，并对非整数坐标的投影像素点进行插值运算，是指当前帧f_c中的像素坐标(x_c，y_c)按照所求取的仿射变换矩阵H，投影到前一帧f_p中坐标为(x_c′，y_c′)处，若像素坐标(x_c′，y_c′)不是整数，则用f_p中相邻像素进行双线性插值，得到该点的像素值f_p(x_c′，y_c′)。

4.根据权利要求1所述的一种基于仿射变换的立体视频匹配方法，其特征在于：所述的计算当前帧图像的像素点和其在前一帧图像上的投影点的像素值的差，以检测当前帧图像中的静止区域像素点，是指对当前帧图像坐标为(x_c，y_c)的像素值f_c(x_c，y_c)和经过仿射变换投影到前一帧坐标为(x_c′，y_c′)的像素值f_p(x_c′，y_c′)，在一定窗口内求SAD值(绝对差值和)：

其中C_SAD表示SAD值；若C_SAD小于一个特定的阈值C₀，则判定当前帧坐标为(x_c，y_c)的像素点为静止区域点；反之，则为运动区域点。

5.根据权利要求1所述的一种基于仿射变换的立体视频匹配方法，其特征在于，所述的计算当前帧图像的初始匹配代价，是指用基于局部窗口匹配的SAD方法对立体视频当前帧的左图和右图进行匹配，分别得到当前帧左图的的初始匹配代价Cost_Linit(x_c，y_c，d_c)和当前帧右图的初始匹配代价Cost_Rinit(x_c，y_c，d_c)。