CN115564639A

CN115564639A - 背景虚化方法、装置、计算机设备和存储介质

Info

Publication number: CN115564639A
Application number: CN202211253073.2A
Authority: CN
Inventors: 张玏; 刘挺; 刘洛麒
Original assignee: Xiamen Meitu Technology Co Ltd
Current assignee: Xiamen Meitu Technology Co Ltd
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-01-03

Abstract

本申请涉及一种背景虚化方法、装置、计算机设备和存储介质，涉及图像处理技术领域。所述方法包括：确定原视频中各视频帧分别对应的深度图；针对每个视频帧，对视频帧和相邻视频帧进行光流估计，得到视频帧和相邻视频帧之间的光流图；其中，相邻视频帧与视频帧相邻，光流图反映视频帧和相邻视频帧中像素的运动情况；根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图；根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像；根据各视频帧分别对应的背景虚化图像，得到目标视频。采用本方法能够有效解决背景虚化的局限性。

Description

背景虚化方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理技术领域，特别是涉及一种背景虚化方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术和多媒体技术的不断发展，图像背景虚化方法广泛应用于图像处理中。其中，对图像进行虚化的目的是让虚化后的图像获得更大景深的拍摄效果，例如可以提高图像的美感，或者提高图像的安全性。

目前，背景虚化的方法通常只能根据单帧图像的深度信息对其进行背景虚化，不能运用在对视频进行背景虚化的场景中，因此存在较大的局限性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对视频进行背景虚化的背景虚化方法、装置、计算机设备和存储介质，有效解决背景虚化的局限性。

第一方面，本申请提供了一种背景虚化方法。所述方法包括：

确定原视频中各视频帧分别对应的深度图；

针对每个视频帧，对视频帧和相邻视频帧进行光流估计，得到视频帧和相邻视频帧之间的光流图；其中，相邻视频帧与视频帧相邻，光流图反映视频帧和相邻视频帧中像素的运动情况；

根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图；

根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像；

根据各视频帧分别对应的背景虚化图像，得到目标视频。

第二方面，本申请还提供了一种背景虚化装置。所述装置包括：

图像确定单元，用于确定原视频中各视频帧分别对应的深度图；

光流估计单元，用于针对每个视频帧，对视频帧和相邻视频帧进行光流估计，得到视频帧和相邻视频帧之间的光流图；其中，相邻视频帧与视频帧相邻，光流图反映视频帧和相邻视频帧中像素的运动情况；

图像平滑单元，用于根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图；

背景虚化单元，用于根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像；

视频确定单元，用于根据各视频帧分别对应的背景虚化图像，得到目标视频。

在一些实施例中，图像确定单元还用于对原视频中各视频帧进行深度估计，得到各视频帧对应的初始深度图；根据各初始深度图和预设的图像采集参数重建三维场景模型；确定各视频帧中的平面区域；根据各视频帧中的平面区域分别对三维场景模型进行平面矫正，得到各视频帧对应的矫正后的三维场景模型；根据各矫正后的三维场景模型，确定各视频帧各自对应的深度图。

在一些实施例中，图像确定单元还用于根据图像采集参数，将每个视频帧中的平面区域映射至三维空间，得到每个视频帧对应的区域点云数据；

在三维空间中，使用三维场景模型的点云数据分别对每个视频帧对应的区域点云数据进行点云配准，得到各视频帧对应的配准点云数据；将各视频帧对应的配准点云数据分别合并至三维场景模型的点云数据中，得到各视频帧对应的融合点云数据；根据各视频帧对应的融合点云数据重建三维场景模型，得到各视频帧对应的矫正后的三维场景模型。

在一些实施例中，图像确定单元还用于根据图像采集参数分别将各矫正后的三维场景模型映射至二维空间，得到各视频帧各自对应的深度图。

在一些实施例中，图像平滑单元还用于根据光流图确定视频帧的各像素分别在相邻视频帧中对应的像素位置；

根据视频帧的各像素分别在相邻视频帧中对应的像素位置，将视频帧的各像素映射至相邻视频帧，得到光流映射图；

根据光流映射图对深度图进行加权平滑，得到深度平滑图。

在一些实施例中，深度平滑图中的深度信息包括深度平滑图中各像素的像素深度值，背景虚化单元还用于针对每个深度平滑图，根据深度平滑图中各像素的像素深度值与平均深度值之间的差异，确定深度平滑图中各像素对应的虚化权重因子；其中，平均深度值是深度平滑图的指定对焦区域中各像素的像素深度值的平均值，虚化权重因子用于指示各像素的虚化程度；针对每个视频帧，根据视频帧的深度平滑图中各像素对应的虚化权重因子，对视频帧进行背景虚化处理，得到视频帧对应的背景虚化图像。

在一些实施例中，背景虚化单元还用于针对每个视频帧，根据每个视频帧的深度平滑图中各像素对应的虚化权重因子，确定视频帧中各像素对应的模糊核尺寸；

通过视频帧中各像素对应的模糊核尺寸，分别对视频帧进行不同程度的模糊处理，得到视频帧对应的背景虚化图像。

第三方面，本申请还提供了一种计算机设备，计算机设备包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述视频分割方法中的步骤。

第四方面，本申请还提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序被处理器执行时实现上述视频分割方法中的步骤。

第五方面，本申请还提供了一种计算机程序产品，计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现上述视频分割方法中的步骤。

上述背景虚化方法、装置、计算机设备、存储介质和计算机程序产品，确定原视频中各视频帧分别对应的深度图；针对每个视频帧，对视频帧和与视频帧相邻的相邻视频帧进行光流估计，得到反映视频帧和相邻视频帧中各像素的运动情况的光流图，能够增加各视频帧的背景虚化的稳定性；根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图，使得各视频帧之间的虚化效果更加流畅；根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像；根据各视频帧分别对应的背景虚化图像，得到目标视频，由于各视频帧的深度图在上述过程中经过了光流和平滑处理，因此基于各深度图进行背景虚化后得到的目标视频更加连贯和稳定。即，本申请的背景虚化不仅可以对视频进行背景虚化，有效解决背景虚化的局限性，还能够提高生成的目标视频的稳定性。

附图说明

图1为一些实施例中背景虚化方法的流程示意图；

图2为另一些实施例中背景虚化方法的流程示意图；

图3为另一些实施例中背景虚化方法的流程示意图；

图4为一些实施例中背景虚化装置的结构框图；

图5为本申请实施例提供的一些计算机设备的内部结构图；

图6为本申请实施例提供的另一些计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一些实施例中，如图1所示，提供了一种视频分割方法，本实施例以该方法应用于计算机设备进行举例说明，可以理解的是，该计算机设备可以是服务器或终端，该方法可以由服务器或终端单独实现，也可以通过服务器和终端之间的交互来实现。本实施例中，该方法包括以下步骤：

步骤102，确定原视频中各视频帧分别对应的深度图。

其中，可以将原视频可以拆分成多个视频帧，每个视频帧则是原视频中最小单位的单幅影像画面，其通常以图像的形式表示。

深度图，也被称为距离图，是指将图像采集设备采集到的场景中各点的深度值或者距离值作为像素值的图像，它直接反映了场景中可见表面的几何形状。

具体地，计算机设备可以直接获取原视频中预先确定好的各视频帧分别对应的深度图，还可以对原视频中的各视频帧进行深度估计，得到各视频帧分别对应的深度图。其中，各深度图各自携带不同的景深信息，即深度信息。

步骤104，针对每个视频帧，对视频帧和相邻视频帧进行光流估计，得到视频帧和相邻视频帧之间的光流图。

其中，相邻视频帧与视频帧相邻，相邻视频帧可以是视频帧的前一帧，也可以是视频帧的后一帧。

光流，是指时变图像中模式运动速度，因为当目标物体在运动时，它在图像上对应点的亮度模式也在运动。光流表达了图像的变化，由于它包含了目标物体运动的信息，因此用来确定目标物体的运动情况。

光流估计，指的是根据两张连续帧的图像去估计两帧图像之间的光流。

光流图，反映视频帧和相邻视频帧中像素的运动情况。即，光流图可以反映视频帧中的像素到达相邻视频帧中相应像素位置所需要在垂直或水平等至少一个方向上的移动距离。可以理解，记视频帧为第t帧，视频帧的前一帧为第t-1帧，视频帧的后一帧为t+1帧，则第t帧和第t-1帧之间的光流图可以反映出第t-1帧的像素经过水平和垂直移动多少距离后可以达到第t帧的相应像素位置，第t帧和第t+1帧之间的光流图可以反映出第t+1帧的像素经过水平和垂直移动多少距离后可以达到第t帧的相应像素位置。

具体地，针对每个视频帧，计算机设备可以对视频帧和该视频帧的前一帧进行光流估计，得到该视频帧到前一帧之间的反向光流图。或者，针对每个视频帧，计算机设备还可以对视频帧和该视频帧的后一帧进行光流估计，得到该视频帧到后一帧的正向光流图。即，计算机设备可以进行光流估计，得到反向光流图或正向光流图中的至少一种。

可以理解，在视频帧为第一帧的情况下，由于该视频帧没有前一帧，所以通常是对该视频帧和后一帧进行光流估计，得到该视频帧到后一帧的正向光流图。在视频帧为最后一帧的情况下，由于该视频帧没有后一帧，所以通常是对该视频帧和前一帧进行光流估计，得到该视频帧到前一帧之间的反向光流图。

步骤106，根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图。

具体地，针对每个视频帧，计算机设备可以将视频帧到前一帧之间的反向光流图映射回该视频帧，得到更新后的视频帧，根据更新后的视频帧对该视频帧对应的深度图进行平滑，得到深度平滑图。或者，针对每个视频帧，计算机设备还可以将视频帧到后一帧之间的正向光流图映射回该视频帧，得到更新后的视频帧，并根据更新后的视频帧对该视频帧对应的深度图进行平滑，得到深度平滑图。

步骤108，根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像。

其中，背景虚化就是使景深变浅，使焦点聚集在主题上。

具体地，计算机设备根据每个视频帧的深度平滑图中的深度信息，确定对每个视频帧中各像素进行背景虚化的虚化程度，根据每个视频帧中的各像素进行背景虚化的虚化程度对每个视频帧中的各像素进行不同程度的模糊处理，以得到每个视频帧分别对应的背景虚化图像。

步骤110，根据各视频帧分别对应的背景虚化图像，得到目标视频。

目标视频，指的是对原视频进行背景虚化后所得到的视频。

可以理解，各视频帧都各自记录有其在原视频中的时序信息，该时序信息用于指示对应的视频帧在原视频中具体某个时间点的影像画面。

具体地，计算机设备根据各视频帧各自对应的时序信息，将各视频帧分别对应的背景虚化图像按照原视频中的时间顺序排列，形成完整的目标视频。

上述背景虚化方法，确定原视频中各视频帧分别对应的深度图；针对每个视频帧，对视频帧和与视频帧相邻的相邻视频帧进行光流估计，得到反映视频帧和相邻视频帧中各像素的运动情况的光流图，能够增加各视频帧的背景虚化的稳定性；根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图，使得各视频帧之间的虚化效果更加流畅；根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像；根据各视频帧分别对应的背景虚化图像，得到目标视频，由于各视频帧的深度图在上述过程中经过了光流和平滑处理，因此基于各深度图进行背景虚化后得到的目标视频更加连贯和稳定。即，本申请的背景虚化不仅可以对视频进行背景虚化，有效解决背景虚化的局限性，还能够提高生成的目标视频的稳定性。

在一些实施例中，步骤102具体包括但不限于包括：对原视频中各视频帧进行深度估计，得到各视频帧对应的初始深度图；根据各初始深度图和预设的图像采集参数重建三维场景模型；确定各视频帧中的平面区域；根据各视频帧中的平面区域分别对三维场景模型进行平面矫正，得到各视频帧对应的矫正后的三维场景模型；根据各矫正后的三维场景模型，确定各视频帧各自对应的深度图。

其中，深度估计就是估计视频帧中物体的深度，也即估计该视频帧中每个像素相对于图像采集设备的距离。

图像采集参数，为图像采集设备的内外参，由于本申请中的内外参只是一个中间变量，不对最终结果产生决定性影响，因此对于任何输入都可以设置成固定的图像采集设备的焦距，然后再根据输入的视频帧的分辨率设置成像平面的中心坐标，通过焦距和中心坐标这两种参数组成图像采集设备的内外参矩阵，或者内参矩阵进行三维重建。

平面区域，指的是视频帧中的大片区域，例如视频帧中的桌面、地面或墙面等中的至少一种。

具体地，首先，计算机设备对原视频中的各视频帧进行深度估计，得到各视频帧对应的初始深度图。其次，计算机设备根据各初始深度图和预设的图像采集参数进行三维重建，即将各初始深度图映射到三维场景中，得到重建后的三维场景模型。接着，计算机设备通过对各视频帧进行平面区域检测，得到各视频帧中的平面区域。此外，计算机设备还根据检测出的各视频帧中的平面区域分别对三维场景模型进行平面矫正，得到各视频帧对应的矫正后的三维场景模型。最后，计算机设备根据各矫正后的三维场景模型，确定各视频帧各自对应的深度图。本申请通过对各视频帧进行深度估计，并且在深度估计的基础上对初始深度图进行进一步的矫正，基于矫正后得到的深度图进行背景虚化处理，能够提升背景虚化的效果。

在一些实施例中，可通过图2的三维重建与深度矫正模块对各视频帧进行三维场景重建，并对三维场景模型进行矫正，以根据各矫正后的三维场景模型，确定各视频帧各自对应的深度图。

在一些实施例中，如图2所示，计算机设备可通过本申请的深度估计模块对各连续的视频帧或者单张图像进行深度估计。其中，深度估计模块包括门控模块和深度估计模型。

在一些实施例中，当计算机设备对各连续的视频帧进行深度估计时，由于深度估计模块具有可以进行循环处理的门控模块，所以该深度估计模块在各连续视频帧的输入下可以隐式地存储之前视频帧的信息，以提高对各视频帧进行深度估计后输出的各初始深度图的稳定性和连贯性。

可以理解，门控模块是专为视频输入所设计的模块，该模块会隐式地存储之前的视频帧的一些信息，并为下一帧的虚化结果提供指导。如果在针对单个图像进行背景虚化的场景下没有关闭门控模块的话，在连续调用本方法时，则可能会导致上一张图像的一些虚化信息残留到下一张图像上，但由于两张图像本身可能是没有关联的，这就会导致下一张图像的虚化结果出现问题。基于以上情况，本申请则考虑对单张图像进行深度估计时，需要关闭门控模块，直接通过深度估计模型对单张图像进行深度估计，得到其对应的初始深度图。

在一些实施例中，对深度估计模块进行训练的过程可以包括以下步骤：首先，确定使用三维样本图在第一训练阶段训练得到的初始深度估计模型。其次，确定待训练的中间深度估计模型，该中间深度估计模型是在初始深度估计模型的基础上附加门控模块得到的。接着，固定该中间深度估计模型中在第一训练阶段得到的模型参数，使用具有时序性的图像序列对该中间深度估计模型进行第二训练阶段的迭代训练，得到基础深度估计模型。最后，使用小于预设阈值的学习率，对第二训练阶段训练得到的基础深度估计模型进行第三训练阶段的微调训练，得到最终的深度估计模型。可以理解，深度估计模型是通过深度学习技术训练得到的用于深度估计的神经网络模型。

具体地，首先，建立一个神经网络模型，并使用大量由3D摄像头采集到的彩色图像或彩色图像对应的深度图像对神经网络模型进行训练，直到该神经网络模型收敛，以得到第一训练阶段的初始深度估计模型。需要说明的是，在该阶段的训练中，各图像可以按照随机的顺序输入到神经网络模型中进行模型训练。

其次，为初始深度估计模型附加一个门控模块，得到待训练的中间深度估计模型。

接着，固定中间深度估计模型在第一训练阶段得到的模型参数，并继续对中间深度估计模型进行训练直至其收敛，以得到第二训练阶段的基础深度估计模型。需要说明的是，在该阶段的训练中，各图像可以按照时序，也就是按照各图像被采集时的时间顺序连续地输入到中间深度估计模型中进行模型训练。

最后，放开基础深度估计模型的所有模型参数，使用小于预设阈值的学习率对基础深度估计模型进行微调。在该阶段的训练中，可以按照一个批次的随机顺序，一个批次的连续顺序的输入方式，将各图像交替地输入到基础深度估计模型中进行模型训练，得到训练好的深度估计模型。其中，训练好的深度估计模型可直接对各连续视频帧或者单张图像进行深度估计。

需要说明的是，由于本申请需要同时兼顾视频输入和单张图像输入这两种场景。对于视频输入，需要连续的视频帧序列对深度估计模型进行训练。但是，如果所有的训练数据都是连续的，深度估计模型容易对前几帧的数据产生依赖，导致用于单张图片输入时对其进行深度估计的效果变差，因此采用两种输入方式相结合的形式训练，可以增强深度估计模型的性能。

在一些实施例中，重建三维场景模型的过程包括：如果初始深度图对应的视频帧是原视频中的第一帧，则可以根据自定义的图像采集参数直接对其进行三维重建，得到三维场景模型。如果初始深度图对应的视频帧不是原视频中的第一帧，则以多帧重建的方式，将其合并到三维场景中，得到对应帧的三维场景模型。

需要说明的是，在初始深度图对应的视频帧是原视频中的第一帧的情况下，可以使用匹配立方体算法(Marching Cubes)对其进行三维重建。具体地，可以先将初始深度图通过图像采集设备的内外参矩阵或者内参矩阵转化成点云数据，然后将整个点云空间划分成若干个小立方体，并在每个立方体内计算点云等值面穿过该立方体的形式，以此生成属于该立方体的小面片，最后将所有的小面片组合起来，就得到了重建后的三维场景模型。在初始深度图对应的视频帧不是原视频中的第一帧的情况下，可以使用自定义的图像采集参数将其转换为点云数据，然后利用匹配立方体算法对其进行三维重建，得到新的三维场景模型。

在一些实施例中，如图2所示，计算机设备可通过本申请的大平面检测模块对各视频帧进行平面区域检测，得到各视频帧中的平面区域。可以理解，大平面检测模块是通过平面检测模型来检测平面区域的。

在一些实施例中，对平面检测模型进行训练的过程可以包括：建立一个用于进行平面检测的待训练模型，并使用大量的经过标注的、带有平面分割掩码的彩色图像对待训练模型进行训练，直到其收敛，得到训练好的平面检测模型。其中，对图像进行标注指的是用分割的方式标注图像中平面区域的位置，即标注出图像中哪些像素属于平面，哪些像素不属于平面。可以理解，平面检测模型是通过深度学习技术训练得到的用于平面检测的神经网络模型。

在一些实施例中，步骤“根据各视频帧中的平面区域分别对三维场景模型进行平面矫正，得到各视频帧对应的矫正后的三维场景模型”具体包括但不限于包括：根据图像采集参数，将每个视频帧中的平面区域映射至三维空间，得到每个视频帧对应的区域点云数据；在三维空间中，使用三维场景模型的点云数据分别对每个视频帧对应的区域点云数据进行点云配准，得到各视频帧对应的配准点云数据；将各视频帧对应的配准点云数据分别合并至三维场景模型的点云数据中，得到各视频帧对应的融合点云数据；根据各视频帧对应的融合点云数据重建三维场景模型，得到各视频帧对应的矫正后的三维场景模型。

其中，点云配准指的是找到一个合适的旋转角度和平移系数，使区域点云数据在经过旋转和平移后能够和三维场景的点云数据最大程度地重合。

配准点云数据，指的是对每个视频帧对应的区域点云数据在点云配准过程中，对原本的区域点云数据进行更新后得到的点云数据。

具体地，首先，计算机设备根据小孔相机模型，在已知该视频帧对应的深度图和图像采集参数的前提下，将二维空间中的每个视频帧中的平面区域的各个像素点映射至三维空间中组成对应的点云数据，以得到每个视频帧对应的区域点云数据。其次，计算机设备将三维场景模型离散化后转换成点云数据，在三维空间中，将每个视频帧对应的区域点云数据和其对应的三维场景模型中的各个点云数据进行点云配准，得到各视频帧对应的配准点云数据。接着，计算机设备将各视频帧对应的配准点云数据分别合并到各自对应的三维场景的点云数据中，得到各视频帧对应的融合点云数据。最后，计算机设备根据各视频帧对应的融合点云数据重建三维场景模型，该重建后的三维场景模型就是各视频帧对应的矫正后的三维场景模型。需要说明的是，由于配准点云数据是从平面区域转换来的，所以其通常会比三维场景的点云数据更加平整，因此可以通过配准点云数据实现对三维场景模型的平面矫正，基于矫正后的三维场景模型得到的深度图对各视频帧进行背景虚化，能够进一步提升背景虚化的效果。

在一些实施例中，步骤“根据各矫正后的三维场景模型，确定各视频帧各自对应的深度图”具体包括但不限于包括：根据图像采集参数分别将各矫正后的三维场景模型映射至二维空间，得到各视频帧各自对应的深度图。

具体地，计算机设备根据重建三维场景所使用到的相同的图像采集参数，将各矫正后的三维场景模型反向映射回二维空间中，得到各视频帧各自对应的、且在初始深度图的基础上进一步进行矫正的深度图，通过矫正的深度图对各视频帧进行背景虚化，能够使背景虚化的效果更为自然。

在一些实施例中，步骤106具体包括但不限于包括：根据光流图确定视频帧的各像素分别在相邻视频帧中对应的像素位置；根据视频帧的各像素分别在相邻视频帧中对应的像素位置，将视频帧的各像素映射至相邻视频帧，得到光流映射图；根据光流映射图对深度图进行加权平滑，得到深度平滑图。

具体地，针对每个视频帧，计算机设备根据光流图，得到视频帧中所有像素到相邻视频帧中像素的运动情况，进一步确定视频帧的各像素分别在相邻视频帧中对应的像素位置。接着，计算机根据视频帧的各像素分别在相邻视频帧中相应的像素位置，将视频帧的各像素移动到相邻视频帧中对应的像素位置上，以上像素的移动过程就是视频帧各像素的映射过程，映射完成后得到光流映射图。最后，计算机设备将光流映射图中的各个像素与视频帧对应的深度图进行对应，以实现对多帧深度图进行帧与帧之间的平滑操作，得到平滑后的深度平滑图，使基于深度平滑图对各视频帧进行背景虚化的所得到的目标视频的效果更为平滑和自然。

在一些实施例中，还可通过图2所示的光流平滑模块对每个视频帧进行光流估计以及加权平滑，得到平滑后的深度平滑图。

在一些实施例中，深度平滑图中的深度信息包括深度平滑图中各像素的像素深度值，步骤108具体包括但不限于包括：针对每个深度平滑图，根据深度平滑图中各像素的像素深度值与平均深度值之间的差异，确定深度平滑图中各像素对应的虚化权重因子；针对每个视频帧，根据视频帧的深度平滑图中各像素对应的虚化权重因子，对视频帧进行背景虚化处理，得到视频帧对应的背景虚化图像。

其中，平均深度值是深度平滑图的指定对焦区域中各像素的像素深度值的平均值，虚化权重因子用于指示各像素的虚化程度。

指定对焦区域，指的是对于某个视频帧，用户事先指定需要对视频帧中的某个区域进行对焦，则该区域即为指定对焦区域。

具体地，针对每个深度平滑图，计算机设备根据深度平滑图中各像素的像素深度值与平均深度值之间的差异，即根据各像素的像素深度值与平均深度值之差，再取绝对值后归一化到[0,1]之间，就得到各像素所对应的用于判断虚化程度的虚化权重因子。针对每个视频帧，计算机设备根据视频帧的深度平滑图中各像素对应的虚化权重因子，对视频帧中的各个像素进行不同程度的背景虚化处理，得到视频帧对应的背景虚化图像。

在一些实施例中，针对每个视频帧，其深度平滑图中各像素的像素深度值与平均深度值之间的差异A可通过公式(1)进行计算：

其中，

即为原视频中第t帧的视频帧所对应的深度平滑图，具体指代深度平滑图中的各个像素。d指的是第t帧的视频帧中指定对焦区域中所有深度值的平均值，abs指的是取绝对值操作。

需要说明的是，将公式(1)计算的结果进行归一化后所得到的值就是用于判断虚化程度的虚化权重因子，其可以用虚化权重因子图进行表示，通过虚化因子图，就能够对视频帧中的各个像素进行不同程度的背景虚化处理，得到视频帧对应的背景虚化图像。

在一些实施例中，可通过图2的自适应虚化模块对各深度平滑图进行背景虚化，得到多个背景虚化图像。

在一些实施例中，步骤“针对每个视频帧，根据视频帧的深度平滑图中各像素对应的虚化权重因子，对视频帧进行背景虚化处理，得到视频帧对应的背景虚化图像”具体包括但不限于包括：针对每个视频帧，根据每个视频帧的深度平滑图中各像素对应的虚化权重因子，确定视频帧中各像素对应的模糊核尺寸；通过视频帧中各像素对应的模糊核尺寸，分别对视频帧进行不同程度的模糊处理，得到视频帧对应的背景虚化图像。

其中，模糊核是卷积核的一种，模糊核实际上就是一个矩阵，清晰图像与模糊核卷积后导致图像变得模糊，因此叫模糊核。可以理解，在模糊核尺寸不同的情况下，则基于该模糊核进行模糊处理的程度也不相同。

具体地，针对每个视频帧，计算机设备根据每个视频帧的深度平滑图中各像素对应的虚化权重因子，确定视频帧中各像素对应的模糊核尺寸。接着，计算机设备通过视频帧中各像素对应的模糊核尺寸，分别对视频帧中的每个像素或者不同深度的图像区域设置不同的模糊核尺寸，以此对视频帧进行不同程度的模糊处理，得到视频帧对应的景深多样且效果自然的背景虚化图像。其中，上述的图像区域泛指视频帧中的某个区域。

在一些实施例中，由于视频帧中的每一个像素的深度值不一定相同，因此通过深度值计算出的每一个像素的虚化权重因子也不一定相同，所以可以对每一个像素都设置不同的模糊核尺寸。在实际应用中，为了进一步提高处理效率，可以考虑将视频帧中模糊核尺寸相近的像素合并成一块区域，以此实现区域分块，基于各区域设置不同的模糊核尺寸，以基于区域分别进行不同的背景虚化处理。

在一些实施例中，如图3所示，本申请的背景虚化方法具体还包括但不限于包括以下步骤：

步骤302，对原视频中各视频帧进行深度估计，得到各视频帧对应的初始深度图。

步骤304，根据各初始深度图和预设的图像采集参数重建三维场景模型。

步骤306，确定各视频帧中的平面区域。

步骤308，根据图像采集参数，将每个视频帧中的平面区域映射至三维空间，得到每个视频帧对应的区域点云数据。

步骤310，在三维空间中，使用三维场景模型的点云数据分别对每个视频帧对应的区域点云数据进行点云配准，得到各视频帧对应的配准点云数据。

步骤312，将各视频帧对应的配准点云数据分别合并至三维场景模型的点云数据中，得到各视频帧对应的融合点云数据。

步骤314，根据各视频帧对应的融合点云数据重建三维场景模型，得到各视频帧对应的矫正后的三维场景模型。

步骤316，根据图像采集参数分别将各矫正后的三维场景模型映射至二维空间，得到各视频帧各自对应的深度图。

步骤318，针对每个视频帧，对视频帧和相邻视频帧进行光流估计，得到视频帧和相邻视频帧之间的光流图。

步骤320，根据光流图确定视频帧的各像素分别在相邻视频帧中对应的像素位置。

步骤322，根据视频帧的各像素分别在相邻视频帧中对应的像素位置，将视频帧的各像素映射至相邻视频帧，得到光流映射图。

步骤324，根据光流映射图对深度图进行加权平滑，得到深度平滑图。

步骤326，针对每个深度平滑图，根据深度平滑图中各像素的像素深度值与平均深度值之间的差异，确定深度平滑图中各像素对应的虚化权重因子。

步骤328，针对每个视频帧，根据每个视频帧的深度平滑图中各像素对应的虚化权重因子，确定视频帧中各像素对应的模糊核尺寸。

步骤330，通过视频帧中各像素对应的模糊核尺寸，分别对视频帧进行不同程度的模糊处理，得到视频帧对应的背景虚化图像。

步骤332，根据各视频帧分别对应的背景虚化图像，得到目标视频。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的背景虚化方法的背景虚化装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个背景虚化装置实施例中的具体限定可以参见上文中对于背景虚化方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种背景虚化装置，包括：图像确定单元402、光流估计单元404、图像平滑单元406、背景虚化单元408和视频确定单元410，其中：

图像确定单元402，用于确定原视频中各视频帧分别对应的深度图；

光流估计单元404，用于针对每个视频帧，对视频帧和相邻视频帧进行光流估计，得到视频帧和相邻视频帧之间的光流图；其中，相邻视频帧与视频帧相邻，光流图反映视频帧和相邻视频帧中像素的运动情况；

图像平滑单元406，用于根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图；

背景虚化单元408，用于根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像；

视频确定单元410，用于根据各视频帧分别对应的背景虚化图像，得到目标视频。

上述背景虚化装置，确定原视频中各视频帧分别对应的深度图；针对每个视频帧，对视频帧和与视频帧相邻的相邻视频帧进行光流估计，得到反映视频帧和相邻视频帧中各像素的运动情况的光流图，能够增加各视频帧的背景虚化的稳定性；根据光流图对视频帧所对应的深度图进行平滑，得到深度平滑图，使得各视频帧之间的虚化效果更加流畅；根据每个视频帧的深度平滑图中的深度信息，对视频帧进行背景虚化处理，得到每个视频帧分别对应的背景虚化图像；根据各视频帧分别对应的背景虚化图像，得到目标视频，由于各视频帧的深度图在上述过程中经过了光流和平滑处理，因此基于各深度图进行背景虚化后得到的目标视频更加连贯和稳定。即，本申请的背景虚化不仅可以对视频进行背景虚化，还能够提高生成的目标视频的稳定性。

在一些实施例中，图像确定单元402还用于对原视频中各视频帧进行深度估计，得到各视频帧对应的初始深度图；根据各初始深度图和预设的图像采集参数重建三维场景模型；确定各视频帧中的平面区域；根据各视频帧中的平面区域分别对三维场景模型进行平面矫正，得到各视频帧对应的矫正后的三维场景模型；

根据各矫正后的三维场景模型，确定各视频帧各自对应的深度图。

在一些实施例中，图像确定单元402还用于根据图像采集参数，将每个视频帧中的平面区域映射至三维空间，得到每个视频帧对应的区域点云数据；在三维空间中，使用三维场景模型的点云数据分别对每个视频帧对应的区域点云数据进行点云配准，得到各视频帧对应的配准点云数据；将各视频帧对应的配准点云数据分别合并至三维场景模型的点云数据中，得到各视频帧对应的融合点云数据；根据各视频帧对应的融合点云数据重建三维场景模型，得到各视频帧对应的矫正后的三维场景模型。

在一些实施例中，图像确定单元402还用于根据图像采集参数分别将各矫正后的三维场景模型映射至二维空间，得到各视频帧各自对应的深度图。

在一些实施例中，图像平滑单元406还用于根据光流图确定视频帧的各像素分别在相邻视频帧中对应的像素位置；根据视频帧的各像素分别在相邻视频帧中对应的像素位置，将视频帧的各像素映射至相邻视频帧，得到光流映射图；根据光流映射图对深度图进行加权平滑，得到深度平滑图。

在一些实施例中，深度平滑图中的深度信息包括深度平滑图中各像素的像素深度值，背景虚化单元408还用于针对每个深度平滑图，根据深度平滑图中各像素的像素深度值与平均深度值之间的差异，确定深度平滑图中各像素对应的虚化权重因子；其中，平均深度值是深度平滑图的指定对焦区域中各像素的像素深度值的平均值，虚化权重因子用于指示各像素的虚化程度；针对每个视频帧，根据视频帧的深度平滑图中各像素对应的虚化权重因子，对视频帧进行背景虚化处理，得到视频帧对应的背景虚化图像。

在一些实施例中，背景虚化单元408还用于针对每个视频帧，根据每个视频帧的深度平滑图中各像素对应的虚化权重因子，确定视频帧中各像素对应的模糊核尺寸；

上述背景虚化装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储与背景虚化相关的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种背景虚化方法。

在一些实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种背景虚化方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。本领域技术人员可以理解，图5和图6中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种背景虚化方法，其特征在于，包括：

确定原视频中各视频帧分别对应的深度图；

针对每个视频帧，对所述视频帧和相邻视频帧进行光流估计，得到所述视频帧和所述相邻视频帧之间的光流图；其中，所述相邻视频帧与所述视频帧相邻，所述光流图反映所述视频帧和所述相邻视频帧中像素的运动情况；

根据所述光流图对所述视频帧所对应的深度图进行平滑，得到深度平滑图；

根据每个所述视频帧的深度平滑图中的深度信息，对所述视频帧进行背景虚化处理，得到每个所述视频帧分别对应的背景虚化图像；

根据所述各视频帧分别对应的背景虚化图像，得到目标视频。

2.根据权利要求1所述的方法，其特征在于，所述确定原视频中各视频帧分别对应的深度图，包括：

对原视频中各视频帧进行深度估计，得到所述各视频帧对应的初始深度图；

根据各所述初始深度图和预设的图像采集参数重建三维场景模型；

确定所述各视频帧中的平面区域；

根据所述各视频帧中的平面区域分别对所述三维场景模型进行平面矫正，得到所述各视频帧对应的矫正后的三维场景模型；

根据各所述矫正后的三维场景模型，确定所述各视频帧各自对应的深度图。

3.根据权利要求2所述的方法，其特征在于，所述根据所述各视频帧中的平面区域分别对所述三维场景模型进行平面矫正，得到所述各视频帧对应的矫正后的三维场景模型，包括：

根据所述图像采集参数，将每个所述视频帧中的平面区域映射至三维空间，得到每个所述视频帧对应的区域点云数据；

在三维空间中，使用所述三维场景模型的点云数据分别对每个所述视频帧对应的区域点云数据进行点云配准，得到各所述视频帧对应的配准点云数据；

将各所述视频帧对应的配准点云数据分别合并至所述三维场景模型的点云数据中，得到各所述视频帧对应的融合点云数据；

根据各所述视频帧对应的融合点云数据重建三维场景模型，得到所述各视频帧对应的矫正后的三维场景模型。

4.根据权利要求2所述的方法，其特征在于，所述根据各所述矫正后的三维场景模型，确定所述各视频帧各自对应的深度图，包括：

根据所述图像采集参数分别将各所述矫正后的三维场景模型映射至二维空间，得到所述各视频帧各自对应的深度图。

5.根据权利要求1所述的方法，其特征在于，所述根据所述光流图对所述视频帧所对应的深度图进行平滑，得到深度平滑图，包括：

根据所述光流图确定所述视频帧的各像素分别在所述相邻视频帧中对应的像素位置；

根据所述视频帧的各像素分别在所述相邻视频帧中对应的像素位置，将所述视频帧的各像素映射至所述相邻视频帧，得到光流映射图；

根据所述光流映射图对所述深度图进行加权平滑，得到深度平滑图。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述深度平滑图中的深度信息包括所述深度平滑图中各像素的像素深度值；

所述根据每个所述视频帧的深度平滑图中的深度信息，对所述视频帧进行背景虚化处理，得到每个所述视频帧分别对应的背景虚化图像，包括：

针对每个所述深度平滑图，根据所述深度平滑图中各像素的像素深度值与平均深度值之间的差异，确定所述深度平滑图中各像素对应的虚化权重因子；其中，所述平均深度值是所述深度平滑图的指定对焦区域中各像素的像素深度值的平均值，所述虚化权重因子用于指示各像素的虚化程度；

针对每个视频帧，根据所述视频帧的深度平滑图中各像素对应的虚化权重因子，对所述视频帧进行背景虚化处理，得到所述视频帧对应的背景虚化图像。

7.根据权利要求6所述的方法，其特征在于，所述针对每个视频帧，根据所述视频帧的深度平滑图中各像素对应的虚化权重因子，对所述视频帧进行背景虚化处理，得到所述视频帧对应的背景虚化图像，包括：

针对每个视频帧，根据每个所述视频帧的深度平滑图中各像素对应的虚化权重因子，确定所述视频帧中各像素对应的模糊核尺寸；

通过所述视频帧中各像素对应的模糊核尺寸，分别对所述视频帧进行不同程度的模糊处理，得到所述视频帧对应的背景虚化图像。

8.一种背景虚化装置，其特征在于，包括：

光流估计单元，用于针对每个视频帧，对所述视频帧和相邻视频帧进行光流估计，得到所述视频帧和所述相邻视频帧之间的光流图；其中，所述相邻视频帧与所述视频帧相邻，所述光流图反映所述视频帧和所述相邻视频帧中像素的运动情况；

图像平滑单元，用于根据所述光流图对所述视频帧所对应的深度图进行平滑，得到深度平滑图；

背景虚化单元，用于根据每个所述视频帧的深度平滑图中的深度信息，对所述视频帧进行背景虚化处理，得到每个所述视频帧分别对应的背景虚化图像；

视频确定单元，用于根据所述各视频帧分别对应的背景虚化图像，得到目标视频。

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。