CN109598754B

CN109598754B - 一种基于深度卷积网络的双目深度估计方法

Info

Publication number: CN109598754B
Application number: CN201811151718.5A
Authority: CN
Inventors: 侯永宏; 许贤哲; 吕华龙; 王丽君
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2020-03-17
Anticipated expiration: 2038-09-29
Also published as: CN109598754A

Abstract

本发明涉及一种基于深度卷积网络的双目深度估计方法，包括：S1、搭建多尺度连接网络模型；将经过特征提取塔得到的左图特征与右图特征做变换，得到像素点之间的相关性；采用一维搜索构建匹配成本；将双目图像到深度图的映射看作分类问题，像素点的深度为其所有可能深度和该深度可能性的加权和；S2、对数据集进行零均值归一化处理，得到利于深度卷积网络处理的训练集；S3、根据多尺度连接网络模型，设置训练参数，以最小化损失函数为优化目标，利用最优化手段对多尺度连接网络模型进行训练，找到最优的模型参数；S4、将待处理的图像输入多尺度连接网络模型中，得到对应的深度图。

Description

一种基于深度卷积网络的双目深度估计方法

技术领域：

本发明属于计算机视觉领域，具体来说设计一种基于深度卷积网络的双目图像深度估计。

技术背景：

深度估计作为计算机视觉的基础任务，在自主机器人设计及图像三维重建等领域具有重要作用。深度估计即根据输入的待估计图像估计出图像中各像素点的深度，目前根据使用的摄像头个数可以分为单目估计方法和双目估计方法。

双目估计方法使用两台经过校准的摄像头，从两个不同的视角观测同一物体。找到不同视角下的同一空间点，计算出对应像素点间的视差，然后通过三角测量即可将视差转换为深度。双目估计方法本质的问题是找出不同视角图像中的同一空间点，目前的对应点搜索算法主要思路为：利用如SAD等块匹配算法，将双目图像转换为两图对应点的匹配代价。然后根据匹配代价找出对应点，计算出视差。利用视差和标定好的相机参数，计算出对应像素点的深度。

然而现有的深度估计方法，通常仅依赖于图像中的局部信息，易受到噪声和光照变化的影响，导致估计的深度值不精确，估计出的深度图边缘模糊，不利于后续对深度信息的利用。

发明内容：

本发明提供了一种基于深度卷积网络的双目深度估计方法，利用所述双目深度估计方法优化了局部信息提取，且充分利用全局纹理信息，得到的深度值更加精确，且对噪声、光照变化等不敏感，具有更高的可靠性。技术方案如下：

一种基于深度卷积网络的双目深度估计方法，包括步骤如下：

S1、搭建多尺度连接网络模型，该模型包括多个不同的卷积层、反卷积层、激活层、线性上采样层和跨尺度特征连接，所有卷积层和反卷积层的卷积核大小都为3×3；从第一层到第十层构成一个特征提取塔，对输入的双目图像分别提取高级特征，且左图和右图的特征提取塔权值共享；特征提取塔的第四层、第七层、第十层为局部纹理采样模块，该模块由一层步长为2的卷积层和一层空洞间隙为1的空洞卷积并行组成；

将经过特征提取塔得到的左图特征f_l与右图特征f_r做如下式的变换：

该公式表示：左图特征以x_l为中心、k为半径的特征块与右图特征以x_r为中心、k为半径的特征块进行卷积得到两像素点x_l、x_r之间的相关性c(x_l，x_r)；

利用x_l、x_r之间的相关性，采用一维搜索构建匹配成本，即对左图特征f_l中以x_l为中心、k为半径的特征块，计算右图特征f_r中与x_l同一行的特征块之间的相关性，且搜索范围为d；于是构成H×W×d的矩阵作为匹配成本；利用卷积对该匹配成本进行特征提取，形成匹配成本特征，提供给后续的深度回归层；

将双目图像到深度图的映射看作分类问题，先使用softmax函数将每个像素点的匹配成本特征C_d转换成概率分布，再使用下式进行深度回归：

其中，

表示预测像素点的深度，D_max表示需要估计的最大视差，d为对应于深度概率分布σ(-C_d)的各个深度值，即该像素点的深度为其所有可能深度和该深度可能性的加权和；

多尺度连接网络的第十三层、十六层、二十层为步长为2的反卷积层，将上一层的匹配成本特征扩张一倍，再利用上述的深度回归方法分别得到四分之一、二分之一和全分辨率的深度图；

将深度回归前的匹配成本特征使用双线性上采样，扩张一倍分辨率，与下一级的匹配成本特征串联，得到信息更丰富的匹配成本特征。

S2、对数据集进行零均值归一化处理，得到利于深度卷积网络处理的训练集。

S3、根据多尺度连接网络模型，设置训练参数，以最小化损失函数为优化目标，利用最优化手段对多尺度连接网络模型进行训练，找到最优的模型参数。

S4、将待处理的图像输入多尺度连接网络模型中，得到对应的深度图。

S3中的步骤如下：网络模型的初始化权重使用(-1，1)之间的均匀分布随机生成，将训练集中的真实深度图下采样到四分之一，二分之一分辨率，对多尺度连接网络中估计出来的四分之一，二分之一和全分辨率深度估计进行监督，使用smoothl1函数作为多尺度连接网络的损失函数，采用adam优化算法对模型参数进行优化，找到最优的模型参数。

本发明具有以下优点：发明的双目深度估计方法基于深度卷积网络，通过多尺度连接增大了网络对于不同尺度特征的学习能力，减少了多层下采样到上采样之间的信息丢失，对轮廓细节有更好的估计能力。显式的利用了双目深度估计的多视角优势，构建匹配成本，增强了深度估计的抗噪声能力。局部纹理采样模块结合卷积和空洞卷积，增大局部感受野，提高了网络对纹理的感知能力。本发明中将图像深度估计过程分为模型训练和估计过程，在训练阶段利用最优化手段优化模型参数，实现了端到端的训练和估计，简化了双目深度估计流程，方便系统的部署和使用。

附图说明：

图1为本发明实施例一种基于深度卷积网络的双目深度估计方法的模型结构图。

具体实施方法：

为使本发明的方案更加清楚明了，便于实施，同时凸显本发明的优点及目的，对实施方案作详细的阐述与说明。

本实例提供了一种基于深度卷积网络的双目深度估计方法，利用了双目摄像头多视角的特点，借助深度卷积网络的强大学习能力，构建了从输入双目图像到输出深度图像的映射。本实例中构建了局部纹理采样模块，增强了网络的细节的感知能力，帮助估计出具有纹理细节的深度图。本实例中采用多尺度连接方法，在不同尺度上恢复深度图，增强网络的抗噪声能力，减少了下采样到上采样过程中的信息丢失，增强深度估计的准确性。

S1、搭建多尺度连接网络模型，该模型包括多个不同的卷积层、反卷积层、激活层、线性上采样层和跨尺度特征连接：

本实例中双目摄像头作为输入传感器，输出左相机坐标系下或右相机坐标系下的深度图。为了说明方便，本文中所要估计的深度图为左相机坐标系下的深度图。双目深度估计方法中的输入为左右视角的RGB三通道图，输出为单通道深度图。为了采用监督学习方法对多尺度连接网络模型进行训练，训练集需要有左右视角的RGB图和对应的深度图。模型搭建过程中，首先考虑到为了模型的实时性能，必须使用尽可能少的模型参数，于是所有的卷积层、空洞卷积层和反卷积层都使用3×3的核。考虑到对图像局部纹理的感知，于是加入了卷积层和空洞卷积层的并联模块，提升模型感受野。为了增强对全局纹理和轮廓细节的深度估计能力，本实例中采用多尺度连接，先让模型具备小尺度上的深度估计能力，再通过长距离的特征连接逐步加入富含细节的低级特征和上一尺度的匹配成本对小尺度估计结果逐步细化，最后恢复到输入图像的分辨率大小。本例中每个卷积层后的激活函数选用修正线性单元ReLU函数：

f(x)＝max(0，x)

ReLU激活函数在深度卷积网络中能够更好的传递误差的梯度，帮助模型更快的收敛，能够有效地防止梯度弥散。

借助人的学习模式的启发，网络模型的学习也需要一个从易到难的过程。本例中的网络模型为了减少计算量，同时提取更高级的特征表示，在特征提取塔中设置了三次局部特征提取模块，最终得到原图八分之一分辨率的特征图。本例中左图和右图的特征提取塔是权值共享的，极大地减少了模型的参数。利用如下的相关性操作：

计算左图特征和右图特征的相关性。理论上以x_l为中心的左图特征块能够和右图所有特征块进行相关操作，遍历计算左图中一点到右图中所有点的匹配特征。借助双目深度估计的极线约束这个特点，本例中仅计算同一行的特征块之间的匹配特征，且步长限制在40像素。这样得到

的匹配特征。该矩阵可以看做特征块在不同深度上的匹配成本，进而选择将深度回归看做分类问题，在每个像素位置将矩阵分解，可以得到每个像素块在不同视差上的匹配成本。深度回归时，首先利用softmax函数

将匹配成本转换成深度的概率分布，然后利用

加权求和的方式得到更加稳定的深度估计

将深度估计看做分类问题，可以更好的将上一尺度的概率分布信息加入到下一尺度的深度估计中。每个尺度下的深度估计都由训练集中的真实深度图下采样到同一分辨率进行监督，于是将小尺度的匹配成本进行三线性上采样后加入到下一更大尺度中去，就是上一尺度的深度估计基础上，进一步细化深度估计，得到更精确，细节更丰富的深度估计，直到估计出全分辨率的深度图。

S2、对输入图像进行零均值归一化处理，得到利于深度卷积网络处理的训练集：

本实例中选取人工合成数据集SceneFlow和真实环境下的KITTI2015数据集中的部分数据作为训练数据，包括双目摄像头的左图和右图和对应的深度图。因为本例中使用基于深度卷积网络的双目深度估计方法估计左图中像素的深度，所以只需要训练集中的左图的深度图。深度卷积网络的训练需要大量的数据，大数据集SceneFlow数据集中包含39000张960×540分辨率的双目图像和对应的深度图，能够满足深度卷积网络的训练需求。然而由于SceneFlow数据集为人工合成数据，为了加强模型在日常生活场景中的应用效果，本例中选择将模型在KITTI2015数据集上进行微调，以适应真实场景。KITTI2015数据集包含200张双目图像和对应的稀疏深度图。训练过程中，为了加快网络训练速度，本例将输入图片进行零均值归一化，然后将输入图片和深度图随机裁剪成256×512分辨率大小，而实际使用时对输入图片的大小不做要求。模型中的参数初始化使用(-1，1)之间的均匀分布随机生成，足够的随机性可以增强网络的性能。本例中训练时的具体参数设置如下：

参数名	参数值
		输入图像分辨率	256×512
批大小(batch_size)	6
		迭代次数(Sceneflow)	67000
迭代次数(KITTI2015)	3000
		学习率(Sceneflow)	0.001
学习率(KITTI2015)	0.0001
		搜索范围(d)	40
最大视差(D<sub>max</sub>)	192

S3、根据多尺度连接网络模型，设置训练参数。以最小化损失函数为优化目标，利用最优化手段对多尺度连接网络模型进行训练，找到最优的模型参数：

本例中使用smooth_L1损失函数：

其中，

d_i表示训练集中像素点的真实深度值，

表示多尺度连接网络对该像素点深度的估计值。

smooth_L1损失函数对于平滑深度图，得到更加均匀的深度估计有良好的作用。本例中使用Adam优化方法优化卷积核的参数，达到最小化损失函数的目的。Adam算法优化过程可归纳为：每迭代一次，利用梯度的样本均值估计和样本平方均值估计动态调整每个参数的学习率，使得训练时参数比较平稳，减少了网络训练的难度。

S4、将待处理的图像输入多尺度连接网络模型中，得到对应的深度图：

本实施例中的双目深度估计方法，基于深度卷积网络，充分利用了双目视觉系统多视角的特点，结合传统的双目深度估计方法，获得了良好的深度估计能力。本例中的卷积核大小都为3×3，极大地减少了模型参数量，同时加入局部纹理采样模块提高了模型的感受野，使模型具有较好的深度细节估计能力。本例中的多尺度连接模仿了人的学习过程，从易到难一步步提高深度估计的精确度和分辨率，最终输出全分辨率的精确深度估计。本例中的多尺度连接网络模型，充分利用图像纹理和多尺度信息，不仅提高了深度估计的准确性，更增强了网络模型的抗噪声能力。本例中使用合成大数据集SceneFlow进行预训练，再采用KITTI2015数据集进行微调，使网络在日常真实场景中也有很高的精度，证明了本发明具有良好的通用性。

以上所述，仅为本发明专利较佳的实施例，但本发明专利的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明专利所公开的范围内，根据本发明专利的技术方案及其发明专利构思加以等同替换或改变，都属于本发明专利的保护范围。

Claims

1.一种基于深度卷积网络的双目深度估计方法，包括步骤如下：

其中，

将深度回归前的匹配成本特征使用双线性上采样，扩张一倍分辨率，与下一级的匹配成本特征串联，得到信息更丰富的匹配成本特征；

S2、对数据集进行零均值归一化处理，得到利于深度卷积网络处理的训练集；

S3、根据多尺度连接网络模型，设置训练参数，以最小化损失函数为优化目标，利用最优化手段对多尺度连接网络模型进行训练，找到最优的模型参数；

2.根据权利要求1所述的方法，其特征在于，S3中的步骤如下：网络模型的初始化权重使用(-1,1)之间的均匀分布随机生成，将训练集中的真实深度图下采样到四分之一，二分之一分辨率，对多尺度连接网络模型中估计出来的四分之一，二分之一和全分辨率深度估计进行监督，使用smoothl1函数作为多尺度连接网络模型的损失函数，采用adam优化算法对模型参数进行优化，找到最优的模型参数。