CN110443842B

CN110443842B - 基于视角融合的深度图预测方法

Info

Publication number: CN110443842B
Application number: CN201910671267.6A
Authority: CN
Inventors: 杨鑫; 王诚斌; 张肇轩; 尹宝才; 朴星霖
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2022-02-15
Anticipated expiration: 2039-07-24
Also published as: CN110443842A

Abstract

本发明属于计算机视觉技术领域，尤其涉及基于视角融合的深度图预测方法。本发明基于视角融合的方式生成单视角彩色图片的相邻多视角的深度图，建立了多视角融合深度图预测网络模型，预测出单视角彩色图片的深度信息。以视角生成的方式，深入分析了点云、体素、深度图等不同三维表达方式之间的客观联系，基于深度图生成与融合的方式进行深度图的预测过程。使用相邻视角的深度信息可以帮助推测出当前视角下的深度信息，相较于直接对彩色图片进行端到端的预测方式，视角生成的方式能利用更加广泛的信息完成深度图的预测任务。

Description

基于视角融合的深度图预测方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于多视角融合对深度图预测的方法。

背景技术

深度图预测的目标为估计单张彩色图对应的深度值，该任务一直是计算机视觉领域的热门研究问题。深度图作为存储距离信息的二维图片，在三维建模、增强现实、机器人感知、场景识别与分割等相关任务中有重要作用。深度图预测工作主要存在以下几个挑战：其一，如何能提供精确的像素点对应关系是该任务的一大难点。其二：该任务是一个不定解的问题，如果没有一定的条件限制，仅仅输入单张彩色图片，可能得到无限多的场景深度图片；其三：要完成该任务需解决场景对象尺寸不匹配的问题，即真实场景中对象比例与深度图预测存在不匹配的问题。

一系列相关算法被提出以完成深度图预测任务，Saxena等利用传统机器学习算法中的线性回归与马尔可夫链进行深度图预测，但该算法需在水平方向上进行图片配准。Hoiem等采用间接预测方式，通过对彩色图片的逐个像素进行分类完成简单的三维建模任务。Karsch等利用基于SIFT的KNN转移机制预测静态深度前景图，该算法在一定程度上提高了准确度，但需要整个数据集在训练过程中能被访问，并且需要大量的时间进行配准。

三维场景重建是计算机视觉与图形学领域中的重点研究方向。近年来，随着硬件设备不断地更新换代，采集难度不断降低、采集精度随之提高。基于此，多个三维数据库得以建立以使用数据驱动的方式帮助三维重建。根据视角数目的不同，室内场景建模任务可分为多视角建模方式与单视角建模方式。多视角建模主要从多张深度图中归纳场景信息，并将信息进行融合以完成场景建模。单视角建模主要从单视角出发以推测出场景完整的结构信息。与直接建模方式有所区别，大量研究人员通过间接的方式完成场景建模，即通过对包含有三维信息的深度图进行预测以间接完成场景建模任务。根据预测方式的不同，可分为直接在二维空间中进行深度图预测与利用二维与三维空间的联系来进行深度图预测。下面将从基于多视角场景建模、基于单视角场景建模与单视角深度图预测三个方面分别进行阐述。

随着深度学习的不断发展，大量基于数据驱动与自编码网络的算法被提出，用以进行深度预测。Konda等训练了一个基于功能的自编码模型，从视频图片中预测深度图，但是，该算法需要获取采集的视频帧与帧之间的位移偏差。Eigen、Liu等使用卷积神经网络进行深度图预测。为了解决卷积神经网络中下采用操作导致的分辨率降低的情况。Laina提出与传统有区别的上采样操作。Xu算法将条件随机场融入到卷积神经网络中并实现端到端的重建。Fu提出扩张卷积以提高深度图预测的精度。Hu通过提取卷积神经网络不同层的特征，利用较低层的局部特征与高级别的全局特征进行连接以得到全面的、综合的特征以预测深度图。虽然上述算法利用不同的方式提高了预测的精度，但是对于场景中一些小细节的预测并不是非常准确，往往有一些扭曲与模糊的情况存在。

发明内容

深度图是存储距离信息的二维图片，是将三维场景在二维空间进行表达的方式。深度图在三维建模、场景分割与功能理解等应用中有重要作用，并且，由于其规则化的表达方式，便于进行卷积、下采样等操作，使其更易于与神经网络相结合，为解决与三维场景相关的任务提供了新的解决思路。在三维建模问题中，深度相机可直接采集到深度信息进而完成建模过程。但是，在某些特定应用场景或某些条件苛刻的环境下，机器人首先不具备采集多张深度图的条件，如：军事侦察、救灾救援。其次，深度相机在采集一些较光滑的表面时会出现深度值缺失的问题，这将极大的影响建模质量。彩色图与深度图相比，采集难度更低、采集精度更高、包含的信息更丰富。彩色图作为更具有一般化的场景表达方式，数据丰富，更便于进行研究，近年来，机器学习与深度学习的发展更是为彩色图相关的任务提供了算法支撑。因此，专利为解决单张彩色信息条件下对三维信息进行精确复原，设计了一个基于视角融合的深度图预测方法。

本发明的技术方案：

基于视角融合的深度图预测方法，所述的深度图预测方法由两个模块共同完成，两个模块分别是多视角生成模块和多视角融合模块，具体步骤如下：

(1)多视角生成模块

在生成多视角深度图之前，首先将输入的初始彩色图像输入至点云生成模块得到单视角三维点云场景，其次将初始彩色图像输入至基于体素的单视角建模网络生成单视角体素场景，之后选择特定视角分别对单视角三维点云场景与单视角体素场景进行所选视角下的投影，得到精度高但信息不完整的点云深度图与结构完整但精度低的体素深度图，并将两张深度图作为深度图补全网络的输入；最后借助体素深度图的辅助，深度图补全网络对不完整的点云深度图进行补全，生成特定视角下的高精度且完整点云深度图；通过重复以上过程，生成与初始视角相邻的特定视角下的多张完整点云深度图，为下一步的多视角融合网络提供输入；

(1.1)点云生成模块

点云生成模块由粗精度预测网络和精细化预测网络组成；

粗精度预测网络基于VGG16网络结构，整个网络由5个卷积层、1个全连接层及1个上采样层组成，其中，前6层的网络结构与VGG16网络相同，最后的上采样层输出的分辨率为初始输入的一半；粗精度预测网络将初始的彩色图像作为输入，经过卷积层的特征提取以及全连接层的特征映射，提取初始彩色图像的特征信息，并将其映射至高维度空间，再将特征信息进行上采样得到分辨率为输入分辨率一半的粗精度预测特征图；

精细化预测网络由5个卷积层及1个上采样层构成，第一个卷积层的卷积核大小为9x9，其余4层的卷积核大小为5x5；精细化预测网络的输入为初始的彩色图像以及粗精度预测网络输出的粗精度预测特征图，将上述两张图串联至一起，输入至精细化预测网络，经过5个卷积层的特征提取操作以及最后的上采样操作，最终的到精细化的预测图，对此预测图直接进行反投影操作，即得到初始彩色图像所对应的单视角三维点云场景；

(1.2)基于体素的单视角建模网络

基于体素的单视角建模网络由布局预测网络与目标预测网络构成；

布局预测网络使用基于跳连接的自编码网络，其中，自编码器由6个卷积块构成，每个卷积块由2个卷积层组成；解码器使用5个上采样层；布局预测网络使用端到端的方式来进行单独训练，并使用基于L1损失的目标函数对网络进行训练；自编码器部分将不同分辨率的单张彩色图片作为输入，经过三个自编码器的卷积操作，得到不同类别的特征，通过特征融合与级联的方式彩色图片的低维度特征被映射到高维度特征空间；在映射的过程中，每个卷积层的特征通道数增加，分辨率逐渐降低；之后通过解码器预测出场景中对象三维模型，在解码器的上采样过程种，每个上采样层不断减少通道的数目，同时不断提高输出的分辨率；

目标预测网络基于体素对场景目标进行表达，体素的分辨率为32的三次方；目标预测网络的三个编码器分别为高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器；其中，高分辨率特征编码器与低分辨率特征编码器使用卷积神经网络将原始图片进行高维度特征提取，并且在逐层卷积之后使用ROI下采样操作进行显著性特征提取；具体的说：高分辨率特征编码器由ResNet18模型的前3个残差块、1个ROI下采样层和2个包含300个单元的全连接层组成；低分辨率特征编码器由ResNet18模型的前4个残差块与2个包含300个单元的全连接层组成；目标对象特征编码器由3个拥有50个单元的全连接层构成；高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器得到的特征经过连接后形成高维度特征向量，高维度特征向量最终通过2个包含300个单元的全连接层进行计算得到高纬度最终特征；目标预测网络的解码器使用5个上卷积层进行场景空间的体素建模，建模的精度为32的三次方；解码器将编码器得到的高纬度最终特征进行上采样，得到最终的单视角体素场景；

(1.3)特定视角的点云场景投影

以单视角三维点云场景为中心，建立三维坐标系，点云的正朝向为坐标系x轴正方向，点云的上朝向为坐标系z轴的正方向；将此三维坐标系转化为球坐标系，选取(r,90°,-30°)，(r,90°,30°)，(r,75°,-30°)，(r,75°,30°)为点云投影所需的相机位置，其中r根据点云规模不同选取适当的半径值，相机正朝向指向坐标系原点，相机上朝向与z轴正方向一致或垂直于相机正朝向并指向z轴正方向，以上，生成了深度图预测所需的4个特定相机视角；选取其中的某个视角，将单视角三维点云场景与单视角体素场景在此视角下投影，即得到此视角下的点云深度图及体素深度图；

(1.4)深度图补全网络

深度补全网络由基于跳连接的自编码器和解码器组成，其中，自编码器由两个分支组成，均由7个局部卷积层组成，第一个局部卷积层的卷积核大小为7x7，第二与第三层为5x5，其余均为3x3；第一个自编码器分支输入点云与体素深度图对以及输入深度图所对应的掩膜图，掩膜图分辨率与输入深度图分辨率一致，其中每个像素点有(0,1)两种取值，掩膜图中值为0的区域表示输入深度图的相对应区域没有信息，需要被补全，掩膜图中值为1的区域表示输入深度图的相对应区域完整不需要被补全，将上述点云与体素深度图对及相应的掩膜图输入至编码器的第一个分支，通过局部卷积的操作，最终得到输入深度图的高维度的特征表达；第二个自编码器分支输入初始彩色图像，在同样的局部卷积操作后，得到了彩色图像的高维特征表达，此时，将此二个高维特征表达串联至一起，一同输入至解码器中；

解码器由7个局部卷积块组成，每个局部卷积块均由上采样层和卷积核大小为1x1的局部卷积层构成；将上述串联至一起的特征信息输入至解码器中，经过逐层的上采样以及局部卷积操作，最终解码器输出补全后的点云深度图；对4个特定视角下投影出的点云深度图分别进行上述补全操作，即得到4张与初始视角相邻的完整高精度点云深度图；

(2)多视角融合模块

多视角融合模块由自编码器与解码器组成，其中，自编码器的结构由两个分支组成，第一个分支的结构基于ResNet18的结构，只是将该网络结构最后的平均池化层与线性转换层删除；第二个分支的结构与VGG16网络的结构一致；将多视角生成模块所补全的4张完整高精度点云深度图串联至一起，输入至自解码器的第一个分支中，进行高维度特征提取，同时将初始彩色图输入至第二个分支中，借助VGG16网络充分挖掘图片中代表性信息的作用，对彩色图像中所含的颜色信息与结构进行编码，将两个分支得到的高维度特征信息串联至一起，输入至解码器中以进行多视角深度图融合后图像的预测；

解码器部分由1个卷积层和5个上采样模块组成，其中前4个上采样模块由1个滤波器尺寸为2x2的上采样层与1个卷积核大小为5x5的反卷积层组成，最后1个上采样模块由1个卷积核大小为3x3的卷积层和1个双线性上采样层组成；解码器的输入为自编码器得到的高维度特征信息，首先经过一次卷积操作，再经过4个重复的上采样模块以提高分辨率，最后经过卷积和双线性上采样的操作，得到最终的融合后的深度图预测结果。

基于体素的单视角建模网络的损失函数由三部分构成：

(1.1.1)场景目标对象损失

目标预测网络的最终输出为场景中目标对象的体素网格，是由解码器将高维度向量映射到体素空间得到的；场景目标对象损失函数设定为预测体素与真值体素之间的交叉熵损失以衡量网络预测准确度，设预测得出的场景对象为

真值体素为V，K为场景体素表达中所有体素块的数量，

表示编号为k的预测体素块，V_k表示编号为k的真值体素块，k从1取到K，则损失函数表示为：

(1.1.2)旋转与尺度缩放损失

目标预测网络对目标对象进行方向性与尺度的约束，目标对象的旋转度以单位正则化四元数来表征；类比于分类任务，将旋转向量分为24类并预测每一类k_d的概率，设k为容器的真值，损失函数设定为负的似然函数，损失函数表示为：

(1.1.3)目标对象的平移与尺度缩放损失函数表示如下：

其中，t与c分别代表真值的选择平移系数，

与

表示预测的结构；

(1.1.4)场景预测模块损失

布局预测网络使用L1目标函数来进行约束，其中

代表预测的场景布局，HH代表真实的场景的布局，损失函数表示如下：

单视角建模网络在SUNCG数据集上进行训练，数据集中的标注项包括目标对象包围盒与三维结构信息；单视角体素建模网络使用前景概率f代表包围盒中的对象属于前景与背景的概率，将包围盒分为前景与背景，用β⁺与β^-分别代表前景与背景的包围盒集合，总体目标函数表示如下：

∑_b∈β+(L_V+L_q+L_t+L_c-ln(f))+∑_b∈β-ln(1-f) (6)

单视角建模网络使用ResNet18进行模型参数初始化；ResNet18模型在ILSVRC数据集上进行了预训练。

局部卷积操作指在卷积神经网络中卷积核对只针对某些特定区域进行卷积操作，需要卷积的区域由掩膜矩阵来确定，公式如下表示：

其中，X为在目前卷积层中的输入特征图，x'表示对输入X进行卷积操作后得到的特征值，W为卷积核的权重矩阵，b为相应的偏置值；M代表相应的二值掩膜矩阵；⊙代表逐个像素的乘积，I代表与掩膜矩阵尺寸相同且值全为1的单位矩阵，公式(7)中显示：卷积操作只在掩膜矩阵中值为1的部分进行操作；

在每一个部分卷积操作之后，掩膜矩阵更新的方式如下：

其中，m'表示掩膜矩阵中与特征值x'相对应的掩膜值；当卷积过程中当特征图中的某一个像素点存在有效值时，掩膜矩阵中该位置的数值就更新为1。

深度图补全网络的损失函数主要包含4个部分，分别是像素预测损失、风格损失、感知损失与平滑度损失，具体如下：

(a)像素预测损失是对预测精确度的度量，由两个损失组成，分别是缺失区域的损失与有效区域的损失，损失函数表示如下：

L_{h ole}＝||(1-M)·(I_out-I_gt)||₁ (9)

L_valid＝||M·(I_out-I_gt)||₁ (10)

其中，M矩阵中值为0的区域表示所输入的点云深度图中对应的区域需要被补全，深度图补全网络的输出为I_out，深度图的真值为I_gt；其中，L_hole代表缺失区域的损失，即代表缺失区域的预测精确度，L_valid代表非缺失区域的损失，代表富含信息区域的预测精确度，其中两项损失均为L1约束项；

(b)感知损失损失函数表示如下：

I_comp＝(1-M)·I_out+M·I_gt) (12)

其中，I_comp表示I_out与I_gt组合后的深度图像，

表示使用VGG16网络对I进行特征提取操作后第n层网络所输出的特征表达，感知损失函数L_perceptual通过计算I_comp和I_out的特征表达与I_gt的特征表达之间的L1距离，衡量所生成的深度图预测结果在更高语义层次上的准确程度；

(c)风格损失的损失函数通过约束每个特征图之间的自相关矩阵以达到预测图片与真值之间的风格的一致性；风格损失定义为两部分，由如下两个损失函数组成：

其中，

表示I_out对应的风格损失函数，

表示I_comp对应的风格损失函数，K_n是一个卷积层的归一化参数，其值为1/C_nH_nW_n；C_n、H_n、W_n分别表示VGG16网络中第n层网络的特征图通道数量、特征图的高度及特征图的宽度；

(d)平滑度损失函数L_tv由如下公式表示：

其中，

表示I_comp中坐标为(i，j)的像素点的值，P集合表示对输入点云深度图的缺失区域进行半径为1的扩张后得到的像素点的集合；

总的损失函数表示如下：

其中的超参数α、β、γ、δ、ε需要根据任务的不同需求进行验证得到。

所述(1.2)中，ROI下采样操作指在对初始特征图进行下采样之前，先将初始特征图均匀划分为4x4的子特征图，分别对16张子特征图进行最大池化操作；再将初始特征图均匀划分为2x2的子特征图，再分别对4张子特征图进行最大池化操作；最终对初始特征图直接进行最大池化操作，从而对初始特征图的每个通道均得到16+4+1共21个特征值。

本发明的有益效果：

(1)基于视角融合的方式生成单视角彩色图片的相邻多视角的深度图，建立了多视角融合深度图预测网络模型，预测出单视角彩色图片的深度信息。

(2)以视角生成的方式，深入分析了点云、体素、深度图等不同三维表达方式之间的客观联系，基于深度图生成与融合的方式进行深度图的预测过程。

(3)使用相邻视角的深度信息可以帮助推测出当前视角下的深度信息，相较于直接对彩色图片进行端到端的预测方式，视角生成的方式能利用更加广泛的信息完成深度图的预测任务。

附图说明

图1是基于视角融合的深度图预测流程图；图中将单视角彩色图片作为输入，经过视角生成模块生成多个随机视角的深度图，并利用视角融合模块将相邻视角进行融合以完成深度图预测任务。

图2深度预测效果图；其中第一行(a-1)至(a-5)为输入的单视角彩色图，第二行(b-1)至(b-5)为本实验结果，第三行(c-1)至(c-5)为Eigen D提出的基于多尺度卷积神经网络的深度图预测模型。第四行(d-1)至(d-5)为Xu等提出的基于多尺寸条件随机场的深度图预测算法实验效果图，从图中可看出，该算法对场景的边缘信息预测精度较差，并且对于场景中对象的细节较为不敏感预测精度较差，并且对于墙面、地面、桌面等较大面积的空间包围区域，往往会出现大面积预测不准确的情况出现。图中的第五行(e-1)至(e-5)为真值深度图

图3深度预测训练集图片；图中展示了5个不同场景的训练数据，第一列(a-1)至(d-1)为相应场景的彩色图片，第二列(a-2)至(d-2)通过手动抠图而得到的深度图，第三列(a-3)至(d-3)为同一视角下的体素场景图，第四列(a-4)至(d-4)为掩模图，第五列(a-5)至(d-5)为相应视角下的真值图

本发明的有益效果：

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

基于视角融合的深度图预测方法，通过模块实现，步骤如下：

(1)多视角生成模块

在本专利提出的深度图预测框架中，视角生成模块的作用是在视角参数已知的条件下，生成多张与当前视角相邻的深度图。在生成多视角深度图之前，首先利用点云生成算法得到单视角的三维点云场景，其次利用基于体素的三维场景建模网络生成同一视角的体素场景，最后，通过特定视角的场景渲染分别得到信息缺失与结构完整的深度图对，并将其作为生成网络的输入。视角生成模块在体素场景的辅助下，对点云场景渲染的深度图进行补全，生成新视角深度图。通过重复上述过程，生成与初始视角相邻的多张深度图，为下一步的多视角融合网络提供输入。本发明提出的生成网络结构与Liu提出的网络结构类似，由于本专利解决的问题为输入为单视角彩色图片，为了充分利用这一信息，本发明使用VGG网络深入提取彩色图的颜色特征以帮助深度图的进行补全。

(1.1)基于体素的单视角建模网络：

在多视角生成模块中，单视角体素建模网络起到了重要的作用。其生成的体素场景可以提供完整的结构信息以帮助生成多视角深度图，为下一步深度图融合网络提供强有力的线索。单视角体素建模网络输入为单视角彩色图片，输出为三维体素场景。本发明的单视角体素建模网络借鉴Tulsiani提出的网络结构，利用不同分辨率的彩色图与对象位置信息作为输入，首先通过并行的特征提取自编码网络得到不同类别的场景特征，接着，通过特征融合将不同类别的特征进行压缩与级联，最后经过解码网络分别预测场景中布局信息与对象信息，并将两者融合生成最终的体素场景。基于体素的单视角建模网络由布局预测网络与目标预测网络构成。

布局预测网络使用基于跳连接的自编码网络，网络的编码器部分将分辨率的彩色图片作为输入。自编码器由6个卷积块构成，每个卷积块由2个卷积层组成，经过编码器的卷积操作，彩色图片的低维度特征被映射到高维度特征空间。在此过程中，每个卷积层的特征通道数增加，分辨率逐渐降低。接着，解码器使用5个上采样层，上采样过程不断减少通道的数目，同时不断提高输出的分辨率。布局预测网络使用端到端的方式来进行单独训练，并使用基于L1损失的目标函数对网络进行训练。场景目标预测网络是基于多源输入的自编码网络。网络将不同分辨率的单张彩色图片作为输入，通过三个自编码器得到不同类别的特征，通过特征融合与级联的方式得到高维度的特征向量，通过解码器预测出场景中对象三维模型。目标预测网络基于体素对场景目标进行表达，体素的分辨率为32的三次方。网络的三个编码器分别为高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器。其中，高分辨率与低分辨率特征编码器使用卷积神经网络将原始图片进行高维度特征提取，并且在逐层卷积之后使用Ross Girshick所提出的ROI下采样操作进行显著性特征提取。具体的说，高分辨率编码器使用Christian Szegedy所提出的ResNet18模型的前3个残差块与1个ROI下采样层与2个包含300个单元的全连接层组成，低分辨率编码器由ResNet18模型的前4个残差块与2个包含300个单元的全连接层组成。目标对象特征编码器使用3层全连接层，将场景中目标对象的位置信息进行编码。目标对象编码器由3个拥有50个单元的全连接层构成。高分辨率、低分辨率、目标对象编码器得到的特征经过连接后形成高维度特征向量，为了使高维特征向量更加具有一般性，网络通过2个包含300个单元的全连接层进行计算得到最终特征。解码器将编码器得到的高维度特征进行上采样以得到最终的体素场景。具体来说，解码器使用5个上卷积层进行场景空间的体素建模，建模的精度为32的三次方。

基于体素的单视角建模网络的损失函数由三部分构成，分别为场景目标预测网络的体素对象交叉熵损失、旋转与尺寸缩放损失及布局预测网络中的场景预测损失，损失函数的设定如以下：

(1.1.1)场景目标对象损失

目标预测网络的最终输出为场景中目标对象的体素网格，是由解码器将高维度向量映射到体素空间得到的。场景目标对象损失函数设定为预测体素与真值体素之间的交叉熵损失以衡量网络预测准确度，假定预测得出的场景对象用符号

表示，真值体素用符号V_n表示，则损失函数可表示为：

(1.1.2)旋转与尺度缩放损失

目标预测网络对目标对象进行方向性与尺度的约束。目标对象的旋转度以单位正则化四元数来表征。为便于训练，将此过程类比于分类任务，将旋转向量分为24类并预测每一类k的概率，假设k代表容器的真值，损失函数设定为负的似然函数，损失函数可表示为：

(1.1.3)目标对象的平移与尺度缩放损失函数可表示如下：

其中t代表与c分别代表真值的选择平移系数。

与

表示预测的结构。

(1.1.4)场景预测模块损失

布局预测网络场景布局预测使用L1目标函数来进行约束，其中

代表预测的场景布局，H代表真实的场景的布局，损失函数可表示如下：

本发明采用的体素建模网络在SUNCG数据集上进行训练，数据集中的标注项主要包括目标对象包围盒与三维结构信息。为了处理包围盒，建模网络使用前景概率f代表包围盒中的对象属于前景与背景的概率，将包围盒分为前景与背景，如果用β⁺与β^-分别代表前景与背景的包围盒集合，总体目标函数可表示如下：

单视角体素建模网络使用resnet-18进行模型参数初始化。resnet-18模型在ILSVRC数据集上进行了预训练。该网络在SUNCG数据集上进行训练，网络使用了400000张渲染图片进行训练，在训练之前首先获得相应的包围盒信息。

(1.2)视角生成网络结构：

在本专利提出的深度图预测框架中，视角生成网络主要通过深度图补全的方式生成特定视角下的深度图，为下一步视角融合网络提供相邻视角的深度信息以进行深度值的预测。相较于以往的深度图预测算法，如Barnes利用深度值缺失像素周边的信息完成预测，这些算法通常将缺失的区域作为卷积计算的一部分从而降低预测的精度。本发明的视角生成网络借鉴Liu提出的彩色图补全算法，并在该网络的基础上提取彩色图片的特征以帮助网络能准确的对深度值进行预测。为避免深度值不存在的像素影响最后的预测结果，多视角生成网络使用部分卷积操作，只对深度图中有效区域进行卷积，并且在上采样过程中使用最近邻居结点上采样方式。为了表示像素点的缺失与存在状态，网络使用掩膜图来表示缺失与存在的部分并将其与深度图作为网络的输入。随着网络的层数加深，掩膜图中信息缺失的区域会不断减少，以达到不断缩小预测区域范围的目的。最后，本专利提出的生成网络使用了跳连接操作，将编码器中不同的特征图与解码器中的特征图进行连接，以补充因不断的卷积与池化操作而丢失的重要信息。

部分卷积操作指在卷积神经网络中卷积核对只针对某些特定区域进行卷积操作，需要卷积的区域由掩膜矩阵来确定。其公式如下表示：

其中W为卷积过滤器中的权值，其中b为相应的偏置值。X为在目前卷积层中的特征值，M代表相应的二值掩膜矩阵。式中1代表逐个像素的乘积，1代表与掩膜矩阵一样尺寸的全为1的尺寸矩阵，从这个公式看出，卷积操作只在掩膜为1的部分进行操作。

在每一个部分卷积操作之后，掩膜更新的方式如下：

当某一个像素存在有效深度值时，掩膜矩阵中该位置的数值就更新为1，可视为有效的像素点。

视角生成网络使用VGG来提取彩色图的特征以丰富编码器的特征向量，VGG网络能充分挖掘图片中具有代表性的信息，加入二维特征网络目的是将单视角中对象的颜色信息与结构进行编码以帮助深度图生成过程中，对不存在的区域进行更好的预测。

视角生成网络的损失函数主要包含4个部分，分别是像素损失、有效区域损失、风格损失、感知损失与平滑度损失。下面具体描述每个损失函数：像素预测损失主要是对预测的精确度进行衡量，像素损失由两个损失组成，分别是缺失区域的损失与有效区域的损失，损失函数表示如下：

L_hole＝||(1-M)·(I_out-I_gt)||₁ (9)

L_valid＝||M·(I_out-I_gt)||₁ (10)

其中，I_in代表信息缺失的图片，M代表掩膜矩阵(其中0代表洞)，生成网络的输出为I_out，深度图的真值为I_gt。其中，L_hole代表缺失部分预测的损失，即代表缺失区域网络预测精确度，L_valid代表正常区域的损失，主要表示富含信息区域的预测的精确度，其中两项损失均为L1约束项。

生成网络的感知损失使用Connelly Barnes提出的约束函数，损失函数可表示如下：

其中I_out代表生成网络的输出，I_comp代码原始图片中将信息不存在的区域全部设定为真值，感知损失函数通过计算I_comp与I_out与I_gt之间的L1距离，并将这些预测得到的图片在vgg-16网络上进行低维度与高维度空间的映射。其中，

可表示为vgg16网络的不同的层数，本实验中选择网络中的第一、第二、第三下采样层。

生成网络引入风格损失项目，损失函数的设定类似于Gatys[80]中提出的损失函数，通过约束每个特征图之间的自相关矩阵以达到预测图片与真值之间的风格的一致性。损失函数可表示为：

其中高维度的特征

操作将分辨率为(H_nW_n)*C_n的输入得到C_n*C_n的gram矩阵，K_n是一个卷积层的归一化参数，其值为1/C_nH_n。生成网络将风格损失也定义为两部分，分别为网络的预测输出I_out与经过真值填充的I_comp两部分。

为了衡量生成的像素区域与周围像素区域的平滑度，定义了平滑度损失。平滑度损失项可表示为公式(14)：

其中P信息缺失像素的1像素扩张区域，其中L_tv代表临近点的相关损失。其中I_comp表示将网络输出的图片中将非洞的区域设为真值图。

综上所述：总的损失函数表示如下：

其中的超参数是在1000张验证集图片上确定的。

(2)多视角融合模块：

在本专利提出的深度图预测框架中，多视角融合模块的自编码器使用Ma提出的基于ResNet的编码器进行高维度特征提取。本专利采用该编码器主要有两个原因，其一：根据大量的实验表明，在完成二维视觉任务时，神经网络的深度对任务的精准度有着很大的影响，浅层网络的抽象能力不佳。但是随着网络的深度逐渐增加，梯度消失的现象越来越明显，网络的训练效果不佳并且往往难以收敛，如何能权衡网络深度与训练难度之间的关系成为选择网络的重要标准。其二：ResNet引入了残差网络结构，通过残差网络，不仅能增加网络的深度，同时由于引入了多路径组合网络结构，能有效的避免梯度消失的情况发生。残差网络可视为多种路径组合的网络结构，其中包含了重多并行子网络，相当于一个多人投票系统。为了便于进行特征提取，本发明将该网络的最后一层平均池化操作与线性转换层删除，直接与卷积层进行连接。

本专利使用Laina提出的网络结构作为解码器部分，解码器的输入为编码器得到高维度特征，首先经过一次卷积操作，再经过4个重复的上采样单元以提高分辨率。其中每个上采样单元由一个上采样层与反卷积层造成，其中上采样层过滤器尺寸为2*2，反卷积层过滤器的尺寸为5*5，每个操作块与一个激活函数相连接。经过4次上采样之后，最后经过卷积核为3*3的卷积层再经过双线性上采样的操作，最终得到预测的结果。

(3)实验设置与实验过程

本发明专利的深度图预测框架在实验准备与实施阶段主要包括三方面工作，首先是数据集的制作，为视角生成与视角融合网络提供训练数据；其次是网络的训练，分别对生成网络与融合网络进行单独训练与联合训练。

(3.1)数据集的制作

本发明提出的生成网络的输入分别为同一视角下彩色图片、体素建模渲染深度图、点云场景渲染深度图及相应的掩膜图。为训练生成网络，本发明使用SUNCG数据集作为原始数据并利用随机孔洞生成算法生成带有信息缺失的深度图。本发明的视角融合网络输入为多张视角相邻的深度图，为了完成训练过程，本发明使用SUNCG数据集作为原始数据，通过随机渲染的方式生成多组深度图。为满足生成网络的训练，需提供带有信息缺失的深度图，本发明在SUNCG数据集的基础上，使用数据裁剪的方式生成带有信息缺失的深度图。本发明采用Sundaram[81]提出的算法，随机选取矩形区域进行裁剪与删减以制作带有信息缺失的深度图。为了更符合实际情况的孔洞分布，本发明收集各种各样尺寸的孔洞掩膜，在30000张深度图的基础上，随机生成相应的掩膜图。为避免由于在边缘出现空洞的情况而出现的信息的补全效果不佳。数据集保证空洞至少与像素的边框需要50个像素的距离。为了进一步模拟真实的空洞，本发明根据尺寸大小的不同，分为6个掩膜类别，其中的尺寸范围从小到大分别为(0.01,0.1)，(0.1,0.2)，(0.2,0.3)，(0.3,0.4)，(0.4,0.5)，(0.5,0.6)，每个类别包含5000张深度图。在训练期间，为了增加训练集的数目，本发明采用数据集中随机裁剪、扩张、旋转的操作增加了训练集的容量。由于本专利提出的深度图预测框架基于多个视角深度融合的方式，为训练该网络需获取丰富的多视角深度图。为了获取相应的数据，本发明在生成网络数据集中随机选择20000个场景，首先进行三维建模，再利用多视角渲染的方式得到单个场景多张深度图。

(3.1)实验过程

将网络在文本制作的数据集上面进行训练，训练阶段经过了100轮次的迭代，网络的学习率设定为0.0001，并且，其中权重衰减为每5轮次减少百分之10。为了增加训练集的数量：本发明采用了多种视角增值的方式，分别有翻转、旋转、亮度变化等方式，以下分别介绍视角增值的具体操作：

翻转：对于训练集中每一个三通道深度图，有百分之50的概率对图片进行翻转。

旋转：对于训练集中每一个三通道深度图，随机在[-5，5]度之间进行旋转操作。

亮度变换：图片在[0.6，1.4]的参考值之间对图片的亮度进行变换。

在经过上述数据增值操作以后，每次训练过程中送入8组图片作为训练集的输入。本次训练的过程耗时25个小时。网络在平台上进行网络结构的搭建，使用python语言进行代码的编写，在显存上进行网络的训练过程。其中，网络的前半部分在ImageNet网络上进行预训练，通过在ImageNet的预训练过程，获得模型的初始化参数。训练过程采用Adam优化器进行训练。在测试阶段，网络训练完成之后，得到了相应的模型参数。针对测试集合中的任意一张彩色图片，首先经过多视角生成网络得到与当前视角相邻的三个视角的深度图，紧接着，将此三个视角的深度图送入多视角融合网络中以预测得到单视角彩色图片的深度信息。

Claims

1.基于视角融合的深度图预测方法，其特征在于，所述的深度图预测方法由两个模块共同完成，两个模块分别是多视角生成模块和多视角融合模块，具体步骤如下：

(1)多视角生成模块

(1.1)点云生成模块

点云生成模块由粗精度预测网络和精细化预测网络组成；

精细化预测网络由5个卷积层及1个上采样层构成，第一个卷积层的卷积核大小为9x9，其余4层的卷积核大小为5x5；精细化预测网络的输入为初始的彩色图像以及粗精度预测网络输出的粗精度预测特征图，将上述两张图串联至一起，输入至精细化预测网络，经过5个卷积层的特征提取操作以及最后的上采样操作，最终得到精细化的预测图，对此预测图直接进行反投影操作，即得到初始彩色图像所对应的单视角三维点云场景；

(1.2)基于体素的单视角建模网络

布局预测网络使用基于跳连接的自编码网络，其中，自编码器由6个卷积块构成，每个卷积块由2个卷积层组成；解码器使用5个上采样层；布局预测网络使用端到端的方式来进行单独训练，并使用基于L1损失的目标函数对网络进行训练；自编码器部分将不同分辨率的单张彩色图片作为输入，经过三个自编码器的卷积操作，得到不同类别的特征，通过特征融合与级联的方式彩色图片的低维度特征被映射到高维度特征空间；在映射的过程中，每个卷积层的特征通道数增加，分辨率逐渐降低；之后通过解码器预测出场景中对象三维模型，在解码器的上采样过程中，每个上采样层不断减少通道的数目，同时不断提高输出的分辨率；

目标预测网络基于体素对场景目标进行表达，体素的分辨率为32的三次方；目标预测网络的三个编码器分别为高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器；其中，高分辨率特征编码器与低分辨率特征编码器使用卷积神经网络将原始图片进行高维度特征提取，并且在逐层卷积之后使用ROI下采样操作进行显著性特征提取；具体的说：高分辨率特征编码器由ResNet18模型的前3个残差块、1个ROI下采样层和2个包含300个单元的全连接层组成；低分辨率特征编码器由ResNet18模型的前4个残差块与2个包含300个单元的全连接层组成；目标对象特征编码器由3个拥有50个单元的全连接层构成；高分辨率特征编码器、低分辨率特征编码器、目标对象特征编码器得到的特征经过连接后形成高维度特征向量，高维度特征向量最终通过2个包含300个单元的全连接层进行计算得到高维度最终特征；目标预测网络的解码器使用5个上卷积层进行场景空间的体素建模，建模的精度为32的三次方；解码器将编码器得到的高维度最终特征进行上采样，得到最终的单视角体素场景；

(1.3)特定视角的点云场景投影

(1.4)深度图补全网络

(2)多视角融合模块

2.根据权利要求1所述的基于视角融合的深度图预测方法，其特征在于，基于体素的单视角建模网络的损失函数由三部分构成：

(1.1.1)场景目标对象损失

真值体素为V，K为场景体素表达中所有体素块的数量，

(1.1.2)旋转与尺度缩放损失

(1.1.3)目标对象的平移与尺度缩放损失函数表示如下：

其中，t与c分别代表真值的选择平移系数，

与

表示预测的结构；

(1.1.4)场景预测模块损失

布局预测网络使用L1目标函数来进行约束，其中

3.根据权利要求1或2所述的基于视角融合的深度图预测方法，其特征在于，

在每一个部分卷积操作之后，掩膜矩阵更新的方式如下：

4.根据权利要求1或2所述的基于视角融合的深度图预测方法，其特征在于，深度图补全网络的损失函数主要包含4个部分，分别是像素预测损失、风格损失、感知损失与平滑度损失，具体如下：

L_hole＝||(1-M)·(I_out-I_gt)||₁ (9)

L_valid＝||M·(I_out-I_gt)||₁ (10)

(b)感知损失损失函数表示如下：

I_comp＝(1-M)·I_out+M·I_gt (12)

其中，I_comp表示I_out与I_gt组合后的深度图像，

其中，

表示I_out对应的风格损失函数，

(d)平滑度损失函数L_tv由如下公式表示：

其中，

总的损失函数表示如下：

5.根据权利要求3所述的基于视角融合的深度图预测方法，其特征在于，深度图补全网络的损失函数主要包含4个部分，分别是像素预测损失、风格损失、感知损失与平滑度损失，具体如下：

L_hole＝||(1-M)·(I_out-I_gt)||₁ (9)

L_valid＝||M·(I_out-I_gt)||₁ (10)

(b)感知损失损失函数表示如下：

I_comp＝(1-M)·I_out+M·I_gt (12)

其中，I_comp表示I_out与I_gt组合后的深度图像，

其中，

表示I_out对应的风格损失函数，

(d)平滑度损失函数L_tv由如下公式表示：

其中，

总的损失函数表示如下：

6.根据权利要求1、2或5所述的基于视角融合的深度图预测方法，其特征在于，所述(1.2)中，ROI下采样操作指在对初始特征图进行下采样之前，先将初始特征图均匀划分为4x4的子特征图，分别对16张子特征图进行最大池化操作；再将初始特征图均匀划分为2x2的子特征图，再分别对4张子特征图进行最大池化操作；最终对初始特征图直接进行最大池化操作，从而对初始特征图的每个通道均得到16+4+1共21个特征值。

7.根据权利要求3所述的基于视角融合的深度图预测方法，其特征在于，所述(1.2)中，ROI下采样操作指在对初始特征图进行下采样之前，先将初始特征图均匀划分为4x4的子特征图，分别对16张子特征图进行最大池化操作；再将初始特征图均匀划分为2x2的子特征图，再分别对4张子特征图进行最大池化操作；最终对初始特征图直接进行最大池化操作，从而对初始特征图的每个通道均得到16+4+1共21个特征值。

8.根据权利要求4所述的基于视角融合的深度图预测方法，其特征在于，所述(1.2)中，ROI下采样操作指在对初始特征图进行下采样之前，先将初始特征图均匀划分为4x4的子特征图，分别对16张子特征图进行最大池化操作；再将初始特征图均匀划分为2x2的子特征图，再分别对4张子特征图进行最大池化操作；最终对初始特征图直接进行最大池化操作，从而对初始特征图的每个通道均得到16+4+1共21个特征值。