CN109952760A

CN109952760A - 多视图场景流拼接

Info

Publication number: CN109952760A
Application number: CN201780070864.2A
Authority: CN
Inventors: 戴维·盖洛普; 罗伯特·舍恩伯格
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2016-12-30
Filing date: 2017-10-20
Publication date: 2019-06-28
Also published as: US20180192033A1; WO2018125369A1

Abstract

一种多视图场景流拼接方法，所述方法包括通过多个相机捕获来自三维(3D)场景的图像，并且将捕获的图像拼接在一起以生成既是360度全景的也是立体的虚拟现实视频。所述多个相机捕获视频帧序列，其中每个相机提供所述3D场景的不同视点。所述序列的每个图像像素被投影到3D空间中，以生成多个3D点。通过对一组同步参数进行优化，可以生成立体图像对，以合成来自任何视点的视图。在一些实施例中，所述一组同步参数包括：用于所述多个视频帧中的每个的深度图、表示一段时间内3D空间中的所述多个3D点中的每一个3D点的移动的多个运动矢量、以及一组时间校准参数。

Description

多视图场景流拼接

技术领域

本公开总体上涉及一种图像捕获和处理，且更具体地，涉及一种将图像拼接在一起以生成虚拟现实视频。

背景技术

立体像技术通过模拟立体视觉在静止图像或视频图像中创建立体感效应(illusion of depth)，从而通过模拟视差来增强深度感知。为了观察深度，需要场景的相同部分的两个图像，一个图像将由左眼观察，而另一个图像将由用户的右眼观察。因此，被称为立体图像对的一对这样的图像包括场景的来自两个不同视点的两个图像。当通过相应的眼睛同时观察时，两个图像之间的每个场景点的观察方向上的角度差异的不同提供了深度的感知。在一些立体像相机系统中，两个相机被用于各自从不同的视点进行捕获场景。相机配置生成了两个独立但重叠的视图，所述视图捕获了在由两个相机捕获的两个图像中可见的元素的三维(3D)特征。

通过捕获多个图像并将其拼接(例如，马赛克(mosaicing))在一起以组成全景或全方向图像，来生成具有水平伸长视野直到360度的全视图的全景图像。能够在延伸的平面表面上、圆柱形表面上、或球形表面上生成全景图。全方向图像具有围绕视点的360度视图(例如，360度全景)。全向立体声(ODS)系统结合了一对立体声全方位图像，以生成既是全360度全景且立体的投影。这种ODS投影对于生成允许观察者在任何方向上观看的360度虚拟现实(VR)视频是有用的。

附图说明

通过参考附图，可以更好地理解本公开，并且其众多特征和优点对于本领域技术人员而言是显而易见的。在不同附图中使用相同的附图标记表示相似或相同的项目。

图1是根据一些实施例的全方向立体声系统的图。

图2是图示根据一些实施例的多视图合成(synthesis)的示例性实施例的图。

图3是根据一些实施例的用于多视图合成的替换实施例的立体图。

图4是图示根据一些实施例的视频帧中的时间分量的图。

图5是图示根据一些实施例的拼接全方向立体声的方法的流程图。

图6是图示根据一些实施例的图1的全方向立体声系统的电子处理装置的示例实现方式的图。

具体实施方式

图1到图6图示通过多个相机捕获周围三维(3D)场景的多视图图像并且将相机捕获的图像拼接在一起以生成是360度全景的且立体的虚拟现实视频。相机通常具有重叠的视野，使得场景的各部分能够由多个相机各自从场景的不同视点进行捕获。通过并入来自多个相机的空间信息，诸如通过将图像中的像素(表示场景中的特定点的每个像素)与来自相机的还已经捕获了场景中的该特定点的所有其它图像相对应，能够改善渲染的视频帧的像素之间的空间平坦度。视频的性质进一步引入了由于场景改变和/或在场景中随时间推移而移动的对象导致的时间分量。应当考虑与跨越时间并且其中对象能够移动的视频相关联的时间信息以随时间推移提供用于改进的时间一致性。理想地，所有相机都将同步，使得能够识别来自不同相机的一组帧，所述帧都是在同一时间点进行拍摄的。然而，这种精细校准并不总是可行的，从而导致由不同相机捕获的图像帧之间的时间差。由于一些相机的滚动快门，能够引入额外的时间失真。

在一些实施例中，可以通过利用多个相机获取多个视频帧的序列来生成时间相干视频。每个相机捕获提供场景的不同视点的视频帧的序列。使来自视频帧的像素从每个视频帧中的二维(2D)像素坐标投影到3D空间中，以生成其在3D坐标空间中的位置的点云。可以优化一组同步参数，以通过计算场景中可见的每个点的3D位置和3D运动来确定场景流。在一些实施例中，所述一组同步参数包括：用于多个视频帧中的每个的深度图、表示一段时间内3D空间中的多个3D点中的每一个的移动的多个运动矢量、以及一组时间校准参数。基于优化同步参数以确定场景流，能够将场景渲染到任何视图中，包括用于虚拟现实视频的ODS视图。此外，场景流数据可以用于在任何时间处渲染场景。

图1图示根据一些实施例的全方向立体声(ODS)系统100。所述系统100包括多个相机102(1)到102(N)，所述多个相机102(1)到102(N)被安装在圆形构造中并且指向周围的3D场景104。每个相机102(1)到102(N)捕获场景104的图像的序列(例如，视频帧)和场景104中的任何对象(未示出)。每个相机具有相对于场景104的不同的视点或姿势(即，位置和取向)。虽然图1图示具有十六个相机(即，N＝16)的示例实现方式，但是受益于本公开的本领域普通技术人员应当显而易见的是，系统100中的相机的数目“N”能够包括任何数目的相机，并且可以考虑诸如每个相机的水平视野、圆形构造的半径R等参数。此外，本领域普通技术人员将认识到的是，全方向立体声系统不限于本文所描述的圆形配置，并且各种实施例能够包括不同的数目和布置(例如，相对于彼此定位在不同平面上的相机)。例如，在替换实施例中，ODS系统能够包括围绕球形外壳而不是如图1中图示的单平面、圆形构造安装的多个相机。

在一些实施例中，全方向立体声成像使用圆形投影，其中左眼图像和右眼图像二者共享相同的图像表面106(由于图像的二维性质，称为“图像圈”或可选地“圆柱形图像表面”)。为了使能立体像感觉，左眼的视点(V_L)和右眼的视点(V_R)位于内部观察圈108的相对侧上，所述内部观察圈108具有近似于用户的眼睛之间的瞳孔距离的直径。因此，观察圈108上的每个点限定其自身的视点和观察方向二者。观察点在正切于观察圈108的线上。因此，能够对圆形构造的半径R进行选择，使得来自相机的光线正切于观察圈108。左眼图像使用在观察圈108的顺时针方向上的正切线上的光线(例如，光线114(1)到114(3))；右眼图像使用在逆时针方向上的光线(例如，光线116(1)到116(3))。因此，ODS投影是多视角的，并且能够概念化为来自围绕观察圈108旋转360度的一对眼睛的图像的马赛克。

这些相机102中的每一个具有如由虚线112L(i)和112R(i)表示的特定视野110(i)(其中i＝1...N)，所述虚线112L(i)和112R(i)限定其相应视野的外边缘。为清楚起见，图1中图示仅用于相机102(1)到102(4)的视野110(i)。用于每个相机的视野110(i)与至少一个其它相机的视野重叠，以形成立体像视野。能够将来自两个相机的图像提供给观察者的眼睛的视点(例如，来自第一相机到V_L的图像，以及来自第二相机到V_R的图像)作为用于在重叠的视野中提供对象的立体视图的立体像对。例如，相机102(1)和102(2)具有立体像视野110(1、2)，其中相机102(1)的视野110(1)与相机102(2)的视野110(2)重叠。此外，重叠的视野不限于在仅两个相机之间共享。例如，相机102(1)的视野110(1)、相机102(2)的视野110(2)、和相机102(3)的视野110(3)全部重叠在重叠的视野110(1、2、3)处。

相机图像中的每个像素与空间中的光线，并且捕获沿着该光线行进到相机的光。来自三维场景104的不同部分的光线被引导到由相机102捕获的2D图像的不同像素部分，其中捕获3D场景104的相机102中的每个相对于其相应的视野110(i)从不同视点是可见的。由相机102捕获的的光线作为2D图像正切于观察圈108。换句话说，从3D场景104到图像表面106的投影沿着正切于观察圈108的光线发生。在具有圆形投影模型的情况下，如果能够捕获来自每个视点的所有方向的光线，则能够提供用于任何观察方向的立体图像对，以提供用于既是立体的又覆盖场景104的360度覆盖范围的全视野覆盖范围。然而，由于相机102呈圆形构造的固定性质，因此并不是所有视点均可以捕获。

在图1的实施例中，能够通过分别由相机102(1)和102(2)捕获的光线114(1)和116(1)提供用于在一个特定方向上的视点V_L和V_R的立体图像对。类似地，能够通过分别由相机102(2)和102(3)捕获的光线114(3)和116(3)提供用于在另一方向上的视点V_L和V_R的立体图像对。然而，通过光线114(2)和116(2)提供的用于视点V_L和V_R的立体图像对并不是由相机102中的任一个捕获的。因此，视图插值能够被用于确定对象的由两个相邻的相机捕获的图像之间的一组一致性和/或移动的速度，以合成这些相机之间的中间视图。光流提供关于来自第一图像的像素如何移动以变成第二图像中的像素的信息，并且能够被用来生成两个图像之间的任何中间视点。例如，视图插值能够被应用于由如通过相机102(1)捕获的光线114(1)和如通过相机102(2)捕获的光线114(3)表示的图像，以合成由光线114(2)表示的图像。类似地，视图插值能够应用于由如通过相机102(2)捕获的光线116(1)和如通过相机102(3)捕获的光线116(3)表示的图像，以合成由光线116(2)表示的图像。然而，基于光学流的视图插值能够仅应用于一对图像，以生成两个相机之间的视图。

由于重叠的视野(例如，通过相机102(1)到102(3)重叠的视野110(1、2、3))，因此不止两个相机102能够捕获场景104的相同部分。因为视图插值和光学流仅适用在两个图像之间，所以由第三相机捕获的图像提供关于场景104中的对象的额外的数据，所述额外的数据无法利用更精确的中间视图合成。此外，视图插值要求相机102定位在单个平面中，诸如定位在图1中图示的圆形构造中。使用这些相机合成的任何中间视图将同样地沿着该同一个平面被定位，从而将通过ODS系统生成的图像和/或视频限制为三个自由度(即，仅头部旋转)。

在一些实施例中，诸如本文所描述的以及相关于图6进一步详细描述的，ODS系统100还包括可通信地联接到相机102的电子处理装置118。电子处理装置118通过将图像中的像素(表示场景104中的特定点的每个像素)与来自还已经捕获了场景104中的那个特定点的相机的所有其它图像相对应，从而使用多视图合成(即，不止两个图像用于生成视点)来生成视点。对于任何给定视图(即，由这些相机102(i)中的一个捕获的图像)，电子处理装置118确定那个点在场景104中的3D位置。此外，电子处理装置118生成深度图，所述深度图将深度距离映射到用于任何给定视图的每个像素。在一些实施例中，电子处理装置118采用点在空间中的3D位置以及其深度信息，以反向得出(back out)空间中的该3D点并投影出该点将落在2D空间中的任何视点处(例如，在沿着图像表面106的相机102之间的视点处或在相机102的为较高/较低、向后/向前、或向左/向右的位置处)，从而将由ODS系统生成的图像和/或视频扩展到六个自由度(即，头部旋转和平移二者)。

图2是示出根据一些实施例的多视图合成的图。每个视图202、204和206表示由不同相机(例如，图1的相机102中的一个)捕获的不同图像。对于视图中的每个像素，下面参考图6描述的电子处理装置118计算像素在场景208内的3D空间(即，场景点)中的位置，表示从视图到3D位置的距离的深度值，以及表示该场景点随时间推移的移动的3D运动矢量。如图2中所示，电子处理装置118确定图像202的像素p₁(t₁)、图像204的p₂(t₁)、和图像206的p₃(t₁)，它们中的每一个与第一时间t₁处的场景点P(t₁)相对应。对于第二时间t₂，已经转移了该场景点在3D空间中的位置。图像202的像素p₁(t₂)、图像204的p₂(t₂)、和图像206的p₂(t₂)各自与在第二时间t₂处的场景点P(t₂)相对应。运动矢量V表示随着从时间t₁到t₂的推移场景点在3D空间中的移动。像素p₁、p₂和p₃在其相应视图202到206中的光学流由v₁、v₂和v₃来表示。虽然在将单个2D像素投影到3D空间中的上下文中进行了描述，但是本领域普通技术人员将认识到，本文所描述的公开内容能够应用于每个图像的所有像素，以生成3D点云并且随着时间推移进一步确定3D点云的3D运动场。流场描述了随着时间推移场景中的每个点处的3D运动，并且通常被称为“场景流”。

电子处理装置118生成用于每个图像的深度图(未示出)，各自生成的深度图含有与(例如，场景中的被捕获作为图像中的像素的点的)2D像素与那个点在3D空间中的位置之间的距离有关的深度信息。在笛卡尔坐标系中，深度图中的每个像素限定Z轴上的位置，其中其相对应的图像像素将在3D空间中。在一个实施例中，电子处理装置118使用立体声分析来计算深度信息，以确定场景208中的每个像素的深度，如本领域通常所知的。深度图的生成能够包括计算归一化的互相关(NCC)，以创建图像补丁(例如，图像中的像素或像素区域)与阈值之间的比较，从而确定是否已经找出用于像素的最佳深度值。

在图2中，电子处理装置118使相同场景的图像成对为立体对，以创建深度图。例如，电子处理装置118使在时间t₁处捕获的图像202与在时间t₁处捕获的图像204成对，以生成用于其相应图像的深度图。电子处理装置118执行立体声分析，并且确定深度信息，诸如图像202的作为远离相对应的场景点P(t₁)的距离Z₁(t₁)的像素p₁(t₁)，以及图像204的作为远离相对应的场景点P(t₁)的距离Z₂(t₁)的像素p₂(t₁)。电子处理装置118附加地使在时间t₁捕获的图像204与在时间t₁捕获的图像206成对，以确认用于图像204的像素p₂(t₁)的先前确定的深度值并且还确定深度信息，诸如图像206的作为远离相对应的场景点P(t₁)的距离Z₃(t₁)的像素p₃(t₁)。

如果针对对象的每个2D图像点生成了正确的深度值，则除非视图中的一个被另一个对象阻挡，否则将与那个2D点相对应的像素从图像中的每个投影出来到3D空间中将落在3D空间中的同一个对象上。基于该深度信息，电子处理装置118能够将场景点P反投影出来到用于任何给定视点的合成的图像中(例如，从场景点的3D位置追踪到那个点落在图像的2D像素内的位置)，在本文中一般称为“多视图合成”。如图2中所示，电子处理装置118将场景点P(t₁)从其在3D空间中的位置反投影出来到图像210的像素p₄(t₁)，因此提供场景208的不同视点。与图像202到206不同，图像210不是由任何相机捕获的；电子处理装置118使用场景点的3D位置和表示场景点与其在三个或更多个图像202到206中的相对应的像素之间的距离的深度值来合成图像210。类似地，电子处理装置118将场景点P(t₁)从其在3D空间中的位置反投影出来到图像212的像素p₅(t₁)，以合成场景208的不同视点。在各种实施例中，电子处理装置118使用图像210和212中的一个或多个作为一对立体声图像的部分或全部，以生成场景208的立体像视图。

在图1的ODS系统100的上下文中，图像210和212分别与没有由任何相机捕获的光线114(2)和116(2)相对应。本领域普通技术人员将认识到的是，虽然在合成共享相同的水平平面并且沿着图像表面106定位在物理相机之间的图像的上下文中描述了本实施例，但是诸如下面相关于图3进一步详细描述的其它实施例能够包括多视图图像合成，所述多视图图像合成生成不共享同一水平平面、相对于图像表面106是倾斜的、和/或从相机102向后/向前平移。

图3是根据一些实施例的用于多视图合成的替换实施例的立体图。与图1的系统100类似，多个相机(未示出)以与内部观察圈302同心的圆形构造的方式被安装。每个相机朝向周围的3D场景304并且捕获场景304的图像的序列(例如，视频帧)以及场景304中的任何对象(未示出)。每个相机捕获相对于场景304的不同的视点或姿势(即，位置和取向)，其中视图306表示由这些相机中的一个捕获的图像。在一个实施例中，相机和图像306与观察圈302水平地共面，诸如相关于图1更加详细地描述的。虽然出于清楚的目的图3中示出了仅一个图像306，但是本领域普通技术人员将认识到，数个附加的相机以及其相对应的视图/图像也将与观察圈302水平地共面。

与图2中先前描述的多视图合成类似，下面参考图6描述的电子处理装置118确定捕获的图像306的像素p₁(t₁)、第二捕获的图像(未示出)的p₂(t₁)、和第三捕获的图像(未示出)的p₃(t₁)，它们中的每一个与第一时间t₁处的场景点P(t₁)相对应。电子处理装置118生成用于每个图像的深度图(未示出)，各自生成的深度图含有与2D像素(例如，场景304中被捕获作为图像306中的像素p₁(t₁)的点)和那个点在3D空间中的位置(例如，场景点P(t₁))之间的距离有关的深度信息。在笛卡尔坐标系中，深度图中的每个像素限定Z轴中的位置，在该位置处其相对应的图像像素将在3D空间中。在一个实施例中，电子处理装置118执行立体声分析，以确定每个像素在场景304中的深度，如本领域通常所知的。

在一些实施例中，电子处理装置118采用点在空间中的3D位置以及其深度信息，以反投影出空间中的那个3D点并投影出那个点将落在2D空间中的任何视点处。如图3中所示，电子处理装置118将场景点P(t₁)从其在3D空间中的位置反投影到图像308的像素p₄(t₁)，从而提供场景304的不同视点。与图像306(以及未示出的第二图像和第三图像)不同，图像308不是由任何相机捕获的；电子处理装置118使用场景点的3D位置和表示场景点与其在三个或更多个图像(第一图像306和未示出的第二/第三图像)中的相对应的像素之间的距离的深度值来合成图像308。类似地，电子处理装置118将场景点P(t₁)从其在3D空间中的位置反投影到图像310的像素p₅(t₁)，以提供场景304的不同视点。在各种实施例中，电子处理装置118使用图像308和310中的一个或多个作为一对立体声图像的部分或全部，以生成场景304的立体像视图。

与图2的合成图像对比，合成的图像308和310不与计算了场景点坐标和深度图的图像(例如，图像306)共享同一个水平平面。实际上，电子处理装置118将合成的图像308和310相对于图像306垂直地向下(即，沿y轴)平移。如果观察者正在站直的同时观察者的眼睛与观察圈302重合，则当观察者例如蹲下时，电子处理装置118将合成的图像308和310呈现给观察者的眼睛用于进行立体像视图。类似地，如本文所描述使用多视图合成来合成的任何图像能够相对于图像306垂直地向上(即，沿y轴)平移。当观察者例如踮着脚走或另外抬起观察者的视平线时，电子处理装置118将向上平移的图像呈现给观察者用于进行立体像视图。如先前相对于图2所讨论的，电子处理装置118还合成共享同一个水平平面并且平移到图像306的左侧和/或右侧(即，沿x轴)的图像，以合成用于视点的不是由任何相机物理地捕获的图像。在其它实施例中，电子处理装置118合成向图像306的后和/或向图像306的平移(即，沿z轴)的图像，以生成用于视点的立体图像对，所述视点可以从那个捕获图像306的物理相机向前或向后。当观察者例如向前/向后和/或从一侧到另一侧时，电子处理装置118将这些图像呈现给观察者的眼睛，用于进行立体像视图。因此，能够将图1到图2的观察圈中的有限的三个自由度(仅头部旋转)扩展为观察柱面312内的六个自由度(即，头部旋转和平移二者)。

电子处理装置118使用来自与观察圈302同心的图像(例如，如所示出的图像306)的图像/视频帧数据和深度数据来将2D像素投影出去到3D空间中(即，以生成点云数据)，如关于图2进一步描述的。换句话说，当观察者偏转和/或晃动其头部或向上和向下看时，电子处理装置118使用3D点云数据合成视点，以允许改进的立体视觉和视差。所述点云表示场景的3D模型，并且能够供观察者逐帧播放，以不仅观察时全方向的且立体二者的真人动作，而且还允许该观察者在诸如观察柱面312的有限体积内移动他们的头部通过3D空间。

由于其基于视频的性质，场景304和场景304中的对象随着时间推移在帧与帧之间改变和/或移动。应当考虑与跨越时间并且其中对象能够移动的视频相关联的时间信息，以随时间推移提供用于改进的时间一致性。理想地，所有相机(例如，图1的相机102)都将同步，使得能够识别来自不同相机的一组帧，所述帧都是在同一时间点拍摄的。然而，这种精细校准并不总是可行的，其会导致由不同相机捕获的图像帧之间的时间差。由于一些相机的滚动快门，可能会引入更多的时间失真。

图4是示出根据一些实施例的视频帧中的时间分量的图。成像相机(例如，图1的相机102)中的一个或多个可以包括滚动快门相机，借此从图像传感器的一侧到另一侧，一次一行、或者一次一个行子集地顺序扫描相机的图像传感器。在一些实施例中，从顶部到底部顺序扫描图像，使得在帧的顶部处捕获的图像数据是在与其处捕获帧的底部处的图像数据的时间不同的时间点处捕获的。其它实施例能够包括从左侧扫描到右侧、从右侧扫描到左侧、从底部扫描到顶部等。

例如，图1的相机102捕获图4中的图像/视频帧400(来自第一视点的多个视频帧中的一个)中的像素行402到418中的每个，不是通过在单个瞬间拍摄整个场景的快照，而是通过跨场景垂直扫描。换句话说，相机102不会在完全相同的瞬间捕获了场景的图像帧400的所有部分，从而致使快速移动的对象的失真效果。例如，当对象从图像的一侧移动到另一侧并且在不同的时间处暴露于图像400的不同部分时，倾斜在成像的对象在一个方向上对角地弯曲时发生。为了进行说明，当在从t₁到t₂的时间步长上捕获图4中从左向右快速移动的对象420的图像时，相机102的第一相机在略微不同的时间处捕获图像帧400中的每个像素行402到418。第一相机在时间t₁处捕获像素行402，在时间t_1.1处捕获像素行404，依此类推，其中第一相机在时间t_1.8处捕获最终像素行418。然而，由于对象420的移动速度，对象420的左边缘在时间t_1.1到t_1.7之间向右移动三个像素，从而导致倾斜视图。

此外，除了在不同时间处捕获的图像(例如，图像帧400)的像素行之外，由于不同相机之间缺乏精确同步，因此还可以在不同时间处捕获来自不同相机的图像帧(和像素行)。为了进行说明，相机102的第二相机从时间t_1.1到t_1.9捕获图像帧422(来自第二视点的多个视频帧中的一个)的像素行402-418，并且相机102的第三相机从图4中的时间t_1.2到t₂捕获图像帧424(来自第三视点的多个视频帧中的一个)的像素行402到418。虽然可以在不同时间处捕获不同图像帧(例如，图像帧400、422和424)和/或不同像素行402到418中的各个像素，但是电子处理装置118能够通过优化滚动快门参数(例如，开始捕获图像的时间偏移量和相机扫描通过像素行的速度)来应用时间校准，以校正滚动快门效果并且及时同步图像像素，如下面参考图5更加详细地讨论。这允许电子处理装置118从具有滚动快门和/或非同步相机的相机生成同步视频数据。

电子处理装置118使来自各种像素行的图像数据和来自各种视点的多个视频帧同步，以在不同的时间步长上计算对象420的3D结构(例如，3D点云参数化在3D空间中的对象)，并且还计算场景流，其中运动矢量描述这些3D点在不同的时间步长上的移动(例如，诸如先前参考图2更加详细地描述)。基于描述场景流的场景点数据和运动矢量426，电子处理装置118计算对象420的诸如在时间t₁到t₂之间的、用于中间时间步长的3D位置。

此外，电子处理装置118使用场景点和场景流数据针对任何视点和/或在任何时间将对象420从3D空间反投影到2D空间中以渲染全局快门图像。为了进行说明，电子处理装置118通过渲染全局图像428来采集场景流数据(例如，如运动矢量426所描述的)以为滚动快门效果进行校正，所述全局图像428表示所有像素是在时间t_1.1处从第一视点捕获的图像帧。类似地，电子处理装置118渲染全局图像430，所述全局图像430表示所有具有在时间t_1.7处从第一视点捕获的其像素的图像帧。虽然图4中在渲染与物理相机共享相同视点的全局快门图像的背景下进行了描述，但是本领域普通技术人员将认识到可以渲染任何任意视点，诸如先前相关于图3所讨论的。

图5是图示根据一些实施例的拼接ODS视频的方法500的流程图。方法500在框502处通过利用多个相机获取多个视频帧序列开始。每个相机捕获视频帧序列，所述视频帧序列提供场景的不同视点，诸如上面相关于图1的相机102所描述的。在一些实施例中，多个相机被安装在圆形构造中并且指向周围的3D场景。每个相机捕获场景的图像的序列(例如，视频帧)和场景中的任何对象。在一些实施例中，多个相机使用滚动快门捕获图像，由此从图像传感器的一侧到另一侧顺序地一次一行地扫描相机的图像传感器。能够从顶部到底部顺序地扫描图像，使得在帧的顶部处捕获的图像数据是在与其处捕获帧的底部处的图像数据的时间不同的时间点处捕获的。此外，多个相机中的每一个能够在时间上彼此不同步，使得每个相机的捕获的帧之间存在时间差异。

在框504处，电子处理装置118将多个视频帧序列中的每个图像像素投影到三维(3D)空间中，以生成多个3D点。电子处理装置118将来自视频帧的像素从每个视频帧中的二维(2D)像素坐标投影到3D空间中，以生成其位置在3D坐标空间中的点云，诸如关于图2更详细地描述的。在一些实施例中，电子处理装置118将像素投影到3D空间中以生成3D点云。

在框506处，电子处理装置118优化一组同步参数以通过计算场景中可见的每个点的3D位置和3D运动来确定场景流。场景流表示3D点云随时间推移的3D运动场并且表示场景中的每个点处的3D运动。所述一组同步参数包括：用于多个视频帧中的每个的深度图、表示一段时间内3D空间中的多个3D点中的每一个的移动的多个运动矢量、以及一组时间校准参数。

在一些实施例中，电子处理装置118通过坐标下降法来优化同步参数以最小化能量函数。能量函数使用以下公式(1)表示：

E({o_j},{r_j},{Z_j,k},{V_j,k})＝∑_{{j,k,p(m,n)∈N图片}}C_图片(I_j,k(p),I_m,n(P_m(U_j(p,Z_j,k(p),V_j,k(p)))))+∑_{{j,k,(m,n)∈N平滑}}C_平滑(Z_j,k(p),Z_j,m(n))+C_s(V_j,k(p),V_j,k(p),V_j,m(n)) (1)

其中N_图片和N_平滑表示邻近相机、像素和视频帧的集合。C_图片和C_平滑分别表示标准图片一致性和平滑度术语(例如，L2或Huber指标)。

为了优化同步参数(例如，深度图和运动矢量)，电子处理装置118确定C_图片，使得根据深度和运动估计值投影到3D点的任何像素将以类似的像素值投影到任何相邻图像中的像素上。此外，电子处理装置118确定C_平滑，使得与图像中的每个像素相关联的深度和运动值将与那个图像内和跨其它图像/视频帧的深度和运动值相类似。

在公式(1)中，I_j,k(p)表示由相机j以视频帧k捕获的图像I的像素p的颜色值。Z_j,k(p)表示为相机j以视频帧k计算的与图像I相对应的深度图的像素p的深度值。V_j,k(p)表示用于相机j和视频帧k的场景流场的像素p的3D运动矢量。P_j(X,V)表示具有3D运动矢量V的3D点X投影到相机j中。P_j(X)表示标准静态场景相机投影，等同于P'_j(X,0)。U_j(p,z,v)表示用于相机j的具有深度z和3D运动v的像素p的投影(例如，从2D像素到3D点)。U_j(p,z)表示标准静态场景反投影，等同于U'_j(p,z,0)。

相机投影术语P取决于根据以下公式(2)的滚动快门速度r_j和同步时间推移o_j：

[p_xp_y]^T＝P'_j(X+(o_j+dt)*V) (2)

其中p_y＝dt*r_j且0<＝dt<1/帧速率。电子处理装置118对时间偏移量dt求解，以确定何时通过滚动快门对移动的3D点进行成像。在一些实施例中，电子处理装置118针对纯线性相机(即，没有镜头失真的相机)以闭合形式求解时间偏移量dt。在其它实施例中，如通常所知，电子处理装置118以数字方式对时间偏移量dt求解。

类似地，反投影术语U取决于根据以下公式(3)的同步参数：

U_j(p,z,t)＝U'_j(p,z)+(o_j+p_y/r_j)*v (3)

在一些实施例中，电子处理装置118通过交替地优化用于多个视频帧中的每个视频帧的深度图和多个运动矢量中的一个来优化同步参数。电子处理装置118隔离要优化的深度图和运动矢量参数，并且通过估计用于一个图像的深度图开始。随后，电子处理装置118在为另一图像、深度图和其相关联的运动矢量重复该过程之前，估计用于与那个图像的像素相关联的3D点的运动矢量。电子处理装置118为所有图像和相机重复该交替优化过程，直到能量函数收敛到最小值为止。

类似地，电子处理装置118通过估计开始捕获多个视频帧中的每个时的时间偏移和滚动快门速度(即，捕获多个视频帧中的每个的像素行的速度)的滚动快门校准参数来优化同步参数。诸如滚动快门速度等同步参数是能量函数中的自由变量。在一个实施例中，电子处理装置118利用同步参数的初始估计值来优化框506的优化过程。例如，可以根据用于捕获图像的相机(例如，图1的相机102)的制造商规格来估计滚动快门速度，并且可以基于从不同的相机捕获的视频之间的音频同步来估计每个帧的捕获之间的时间偏移量。

与针对深度图和运动矢量描述的坐标下降法优化类似，电子处理装置118隔离滚动快门校准参数中的一个或多个并且在针对一个或多个滚动快门校准参数进行优化的同时保持所有其它变量恒定。在一个实施例中，利用滚动快门校准参数的初始估计值来对框506的优化过程播种，使得电子处理装置118能够延迟这些参数的优化，直到通过将能量函数收敛到最小值而优化了所有其它变量(例如，深度图和运动矢量)为止。在其它实施例中，电子处理装置118在优化滚动快门校准参数之前优化深度图和运动矢量参数。本领域普通技术人员将认识到，虽然本文在经由坐标下降执行优化的上下文中描述了实施例，但是在不脱离本公开的范围的情况下可以应用任何数目的优化技术。

基于优化同步参数以确定场景流，电子处理装置118能够从任何视图渲染场景，包括用于虚拟现实视频的ODS视图。此外，电子处理装置118使用场景流数据来在空间和时间二者上相干的任何时间处渲染场景的视图。在一个实施例中，电子处理装置118在一个时间点处渲染场景的视点的全局快门图像。在另一实施例中，电子处理装置118渲染立体图像对(例如，立体图像对中的每个具有略微不同的场景视点)以提供立体像视频。电子处理装置118还能够将渲染的图像拼接在一起，以生成ODS视频。

图6是图示根据至少一些实施例的电子处理装置118的示例硬件实现方式的图。在描述的示例中，电子处理装置118包括处理器602和非暂时性计算机可读存储介质604(即，存储器604)。处理器602包括一个或多个处理器内核606。能够将电子处理装置118并入多种电子装置中的任何一个中，所述多种电子装置诸如服务器、个人计算机、平板电脑、机顶盒、游戏系统等。处理器602通常被配置为执行操纵处理器602的电路以执行限定任务的软件。存储器604通过存储由处理器602使用的数据来促进这些任务的执行。在一些实施例中，软件包括在非暂时性计算机可读存储介质604上存储或以其它方式有形地实施的一组或多组可执行指令。软件能够包括指令和某些数据，所述指令和某些数据当由一个或多个处理器内核606执行时，操纵一个或多个处理器内核606以执行上述技术的一个或多个方面。非暂时性计算机可读存储介质604能够包括例如磁盘或光盘存储装置、固态存储装置，诸如闪速存储器、高速缓冲存储器、随机存取存储器(RAM)、或一个或多个其它非易失性存储装置等。在非暂时性计算机可读存储介质604上存储的可执行指令可以是由一个或多个处理器内核606解释或以其它方式可执行的源代码、汇编语言代码、目标代码、或其它指令格式。

非暂时性计算机可读存储介质604可以包括在使用期间可由计算机系统访问以向计算机系统提供指令和/或数据的任何存储介质或存储介质的组合。这种存储介质能够包括但不限于光学介质(例如，光盘(CD)、数字通用光盘(DVD)、蓝光光盘)、磁性介质(例如，软盘、磁带、或磁性硬盘驱动器)、易失性存储器(例如，随机存取存储器(RAM)或高速缓冲存储器)、非易失性存储器(例如，只读存储器(ROM)或闪速存储器)、或基于微机电系统(MEMS)的存储介质。非暂时性计算机可读存储介质606可以嵌在计算系统(例如，系统RAM或ROM)中，固定地附接到计算系统(例如，磁性硬盘驱动器)，可移除地附接到计算系统(例如，基于光盘或通用串行总线(USB)的闪速存储器)，或经由有线或无线网络(例如，网络可访问存储装置(NAS))联接到计算机系统。

应当注意的是，并非需要上述一般描述的所有活动或要素，特定活动或装置的一部分可能不需要，并且可以执行一个或多个其它活动，或者包括除了所描述的要素以外的其它要素。此外，列出活动的顺序不一定是它们的执行顺序。而且，已经参考特定实施例描述了这些概念。然而，本领域普通技术人员认识到，在不脱离如下面的权利要求所阐述的本公开的范围的情况下，可以进行各种修改和改变。因此，说明书和附图应被视为具有说明性而非限制性含义，并且所有这些修改意图包括在本公开的范围内。

上面已经针对特定实施例描述了益处、其它优点和问题的解决方案。然而，益处、优点、问题的解决方案以及可能导致任何益处、优点或解决方案发生或变得更加明显的任何特征不应被解释成是任何或所有权利要求项的关键、必需或必要特征。此外，上面公开的特定实施例仅是说明性的，因为所公开的主题可以以受益于本文的教示的本领域技术人员显而易见的不同但等效的方式进行修改和实践。除了在下面的权利要求中描述的之外，不意图对本文示出的构造或设计的细节进行限制。因此显而易见的是，可以改变或修改上面公开的特定实施例，并且所有这些变化都被认为在所公开的主题的范围内。因此，本文寻求的保护如下面的权利要求中所阐述。

Claims

1.一种方法，包括：

利用多个相机获取视频帧的多个序列，其中，每个相机提供场景的不同视点；

使所述视频帧的多个序列的每个图像像素投影到三维(3D)空间中以生成多个3D点；

对一组同步参数进行优化，其中，所述一组同步参数包括：用于多个视频帧中的每一个视频帧的深度图、表示一段时间内3D空间中的所述多个3D点中的每一个3D点的移动的多个运动矢量、以及一组时间校准参数；以及

基于所优化的一组同步参数来生成立体图像对。

2.根据权利要求1所述的方法，其中，所述多个相机使用滚动快门来捕获图像，并且其中，所述多个相机中的每一个相机在时间上彼此不同步。

3.根据权利要求1或2所述的方法，还包括：

渲染所述场景的视点的全局快门图像。

4.根据任何前述权利要求所述的方法，还包括：

从所述场景的多个视点渲染一组图像，并且将所述一组图像拼接在一起以生成虚拟现实视频。

5.根据任何前述权利要求所述的方法，其中，对所述一组同步参数进行优化包括通过坐标下降进行优化以最小化能量函数。

6.根据任何前述权利要求所述的方法，其中，对所述一组同步参数进行优化包括交替地优化用于所述多个视频帧中的每一个视频帧的所述深度图和所述多个运动矢量中的一个。

7.根据任何前述权利要求所述的方法，其中，对所述一组同步参数进行优化包括：估计开始捕获所述多个视频帧中的每一个视频帧时的时间偏移量和捕获所述多个视频帧中的每一个视频帧的像素行的速度的滚动快门校准参数。

8.一种实施一组可执行指令的非暂时性计算机可读介质，所述一组可执行指令用于操纵至少一个处理器来：

基于所优化的一组同步参数来生成立体图像对。

9.根据权利要求8所述的非暂时性计算机可读介质，其中，所述一组可执行指令包括用于使用滚动快门来捕获图像的指令，并且其中，所述多个相机中的每一个相机在时间上彼此不同步。

10.根据权利要求8或9所述的非暂时性计算机可读介质，其中，所述一组可执行指令还包括用于以下的指令：渲染所述场景的视点的全局快门图像。

11.根据权利要求8至10中的任一项所述的非暂时性计算机可读介质，其中，所述一组可执行指令还包括用于以下的指令：从所述场景的多个视点渲染一组图像，并且将所述一组图像拼接在一起以生成虚拟现实视频。

12.根据权利要求8至11中的任一项所述的非暂时性计算机可读介质，其中，所述用于对所述一组同步参数进行优化的指令包括通过坐标下降进行优化以最小化能量函数的指令。

13.根据权利要求8至12中的任一项所述的非暂时性计算机可读介质，其中，所述用于对所述一组同步参数进行优化的指令还包括用于交替地优化用于所述多个视频帧中的每一个视频帧的所述深度图和所述多个运动矢量中的一个的指令。

14.根据权利要求8至12中的任一项所述的非暂时性计算机可读介质，其中，所述用于对所述一组同步参数进行优化的指令还包括用于估计开始捕获所述多个视频帧中的每一个视频帧时的时间偏移量和捕获所述多个视频帧中的每一个视频帧的像素行的速度的滚动快门校准参数的指令。

15.一种电子装置，包括：

多个相机，所述多个相机中的每一个相机捕获视频帧的多个序列，其中，每个相机提供场景的不同视点；以及

处理器，所述处理器被配置为：

基于所优化的一组同步参数来生成立体图像对。

16.根据权利要求15所述的电子装置，其中，所述多个相机使用滚动快门捕获图像，并且其中，所述多个相机中的每一个相机在时间上彼此不同步。

17.根据权利要求15或16所述的电子装置，其中，所述处理器还被配置为渲染所述场景的视点的全局快门图像。

18.根据权利要求15至17中的任一项所述的电子装置，其中，所述处理器还被配置为交替地优化用于所述多个视频帧中的每一个视频帧的所述深度图和所述多个运动矢量中的一个。

19.根据权利要求15至18中的任一项所述的电子装置，其中，所述处理器还被配置为通过估计开始捕获所述多个视频帧中的每一个视频帧时的时间偏移量和捕获所述多个视频帧中的每一个的像素行的速度的滚动快门校准参数来对所述一组同步参数进行优化。

20.根据权利要求15至19中的任一项所述的电子装置，其中，所述处理器还被配置为：从所述场景的多个视点渲染一组图像，并且将所述一组图像拼接在一起以生成虚拟现实视频。