CN111788601A

CN111788601A - 图像处理设备、编码装置、解码装置、图像处理方法、程序、编码方法和解码方法

Info

Publication number: CN111788601A
Application number: CN201880090216.8A
Authority: CN
Inventors: 菅野尚子; 田中润一
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-01
Filing date: 2018-07-23
Publication date: 2020-10-16
Also published as: TW201946027A; US11508123B2; US20200410754A1; KR20200116947A; TWI702568B; JP2019153863A; EP3759683A1; WO2019167300A1; JP7119425B2; BR112020017315A2; EP3759683B1

Abstract

一种图像处理设备，其响应于由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组以及指示该对象相对于至少一个距离测量装置的三维位置的深度信息，该图像处理设备包括：帧选择单元，其被配置成选择连续图像组的集合；模型生成单元，其被配置成针对图像组的集合中的每个图像组，根据由两个或更多个间隔开的图像捕获装置同时捕获的图像以及根据深度信息来生成三维模型，并且将纹理映射到所生成的三维模型；以及合成单元，其被配置成通过将由模型生成单元生成的三维模型叠加在预定背景上来生成关于频闪图像视点的频闪图像。

Description

图像处理设备、编码装置、解码装置、图像处理方法、程序、编码方法和解码方法

相关申请的交叉引用

本申请要求于2018年3月1日提交的日本优先权专利申请JP2018-036225的权益，其全部内容通过引用并入本文。

技术领域

本公开内容涉及图像处理设备、编码装置、解码装置、图像处理方法、程序、编码方法和解码方法。

背景技术

提出了用于生成频闪合成图像的各种处理(例如，参见PTL 1)。

引用列表

专利文献

PTL 1

JP 2007-259477A

发明内容

技术问题

在这样的领域中，期望执行适当的用于生成期望的频闪合成图像的处理。

期望提供例如用于生成包括3D模型的频闪合成视频的图像处理设备、编码装置、解码装置、图像处理方法、程序、编码方法和解码方法。

问题的解决方案

本公开内容提供，例如，

一种图像处理设备，包括：

获取单元，其获取通过在第一时间点处捕获被摄体而获得的多个视点图像、通过在第二时间点处捕获被摄体而获得的多个视点图像以及通过在第三时间点处捕获被摄体而获得的多个视点图像；以及

图像生成单元，其基于各个时间点的被摄体位置来生成合成3D模型，该合成3D模型包括基于第一时间点至第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的在各个时间点处的被摄体的3D模型。

本公开内容提供，例如，

一种编码装置，包括：

编码单元，其通过基于第一时间点至第三时间点的各个时间点处的被摄体位置，根据预定编码方法，对基于第一时间点、第二时间点和第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从3D模型转换的2D图像数据和指示2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个、以及指示各个时间点的3D模型相互不干扰的标志进行编码，来生成编码数据。

本公开内容提供，例如，

一种解码装置，包括：

解码单元，其基于第一时间点至第三时间点的各个位置处的被摄体位置，对编码数据进行解码，所述编码数据包括基于第一时间点、第二时间点和第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从3D模型转换的2D图像数据和指示2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个、获取视点图像的图像捕获装置的摄像机参数以及视点图像的背景图像，其中

解码单元基于背景图像和摄像机参数来生成包括3D模型的合成3D模型，并且基于合成3D模型从图像分离预定时间点的被摄体。

本公开内容提供，例如，

一种图像处理方法，包括以下步骤：

使获取单元获取通过在第一时间点处捕获被摄体而获得的多个视点图像、通过在第二时间点处捕获被摄体而获得的多个视点图像以及通过在第三时间点处捕获被摄体而获得的多个视点图像；以及

使图像生成单元基于各个时间点的被摄体位置来生成合成3D模型，该合成3D模型包括基于第一时间点至第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的在各个时间点处的被摄体的3D模型。

本公开内容提供，例如，

一种用于使计算机执行图像处理方法的程序，该图像处理方法包括以下步骤：

本公开内容提供，例如，

一种编码方法，包括：

使编码单元通过基于第一时间点至第三时间点的各个时间点处的被摄体位置，根据预定编码方法，对基于第一时间点、第二时间点和第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从3D模型转换的2D图像数据和指示2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个以及指示各个时间点的3D模型相互不干扰的标志进行编码，来生成编码数据。

本公开内容提供，例如，

一种解码方法，包括：

使解码单元基于第一时间点至第三时间点的各个位置处的被摄体位置，对编码数据进行解码，所述编码数据包括基于第一时间点、第二时间点和第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从3D模型转换的2D图像数据和指示2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个、获取视点图像的图像捕获装置的摄像机参数以及视点图像的背景图像；以及

使解码单元基于背景图像和摄像机参数来生成包括3D模型的合成3D模型，并且基于合成3D模型从图像分离预定时间点的被摄体。

本公开内容还提供了图像处理设备，其响应于包含对象的表示的连续图像，该图像处理设备包括：

干扰检测单元，用于检测干扰，所述干扰表示连续图像中的对象的表示之间的交叠；

帧选择单元，其被配置成选择连续图像的集合，使得在所选择的图像的集合中的对象的表示之间的检测到的干扰小于阈值干扰；以及

合成单元，其被配置成根据所选择的图像的集合生成频闪图像。

本公开内容还提供了一种图像处理方法，包括以下步骤：

接收包含对象的表示的连续图像；

检测干扰，所述干扰表示连续图像中的对象的表示之间的交叠；

选择连续图像的集合，使得在所选择的图像的集合中的对象的表示之间的检测到的干扰小于阈值干扰；以及

根据所选择的图像的集合生成频闪图像。

本公开内容还提供了图像处理设备，其响应于对象的连续捕获的图像和指示对象相对于至少一个距离测量装置的三维位置的深度信息，该图像处理设备包括：

帧选择单元，其被配置成选择连续图像的集合；以及

合成单元，其被配置成通过叠加所选择的图像的集合的至少一部分来生成关于频闪图像视点的频闪图像，使得在对象的所选择的图像的集合之中，对象的图像按照对象距频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的对象的成对图像，其中对象的较早图像具有比对象的较晚图像更小的距频闪图像视点的距离，更接近频闪图像视点的对象的较早图像被显示为比对象的较晚图像更靠近前景。

本公开内容还提供了一种图像处理方法，包括以下步骤：

接收对象的连续捕获图像和指示对象相对于至少一个距离测量装置的三维位置的深度信息；

选择连续图像的集合；以及

通过叠加所选择的图像的集合的至少一部分来生成关于频闪图像视点的频闪图像，使得在对象的所选择的图像的集合之中，对象的图像按照对象距频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的对象的成对图像，其中对象的较早图像具有比对象的较晚图像更小的距频闪图像视点的距离，更接近频闪图像视点的对象的较早图像被显示为比对象的较晚图像更靠近前景。

本公开内容还提供了一种图像处理设备，其响应于由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组和指示对象相对于至少一个距离测量装置的三维位置的深度信息，该图像处理设备包括：

帧选择单元，其被配置成选择连续图像组的集合；以及

模型生成单元，其被配置成针对图像组的集合中的每个图像组，根据由两个或更多个间隔开的图像捕获装置同时捕获的图像以及根据深度信息来生成三维模型，并且将纹理映射到所生成的三维模型；

合成单元，其被配置成通过将由模型生成单元生成的三维模型叠加在预定背景上来生成关于频闪图像视点的频闪图像。

本公开内容还提供了一种图像处理方法，包括以下步骤：

接收由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续的图像组和指示对象相对于至少一个距离测量装置的三维位置的深度信息；

选择连续图像组的集合；以及

针对图像组的集合中的每个图像组，根据由两个或更多个间隔开的图像捕获装置同时捕获的图像以及根据深度信息来生成三维模型；

将纹理映射到所生成的三维模型；

通过将三维模型叠加在预定背景上来生成关于频闪图像视点的频闪图像。

本公开内容还提供了一种图像处理设备，其响应于提供对象的表示的连续图像和指示对象相对于至少一个距离测量装置的三维位置的深度信息，该图像处理设备包括：

帧选择单元，其被配置成选择连续图像的集合；以及

合成单元，其被配置成根据所选择的图像的集合生成关于频闪图像视点的频闪图像；

其中，当对于所选择的图像的至少一对，对象的三维位置比阈值分离度更近时，合成单元被配置成使用针对图像的对象的表示中的至少一些的显示位置来生成频闪图像，所述显示位置与相应的捕获的图像的显示位置不同。

本公开内容还提供了一种图像处理方法，包括以下步骤：

接收提供对象的表示的连续图像和指示对象相对于至少一个距离测量装置的三维位置的深度信息；

选择连续图像的集合；以及

根据所选择的图像的集合生成关于频闪图像视点的频闪图像；

其中，当对于所选择的图像的至少一对，对象的三维位置比阈值分离度更近时，生成步骤包括使用针对与相应的捕获的图像的显示位置不同的那些图像的对象的表示中的至少一些的显示位置来生成频闪图像。

上面定义的方法可以由计算机软件实现，当计算机执行该计算机软件时，该计算机软件使计算机执行相应的方法。这样的计算机软件可以例如由非暂态机器可读介质存储。

发明的有益效果

根据本公开内容的至少一个实施方式，可以生成包括3D模型的频闪合成视频。注意，本公开内容不必限于本文描述的有利效果，并且可以具有本公开内容中描述的任何有利效果。此外，示例性的有利效果不旨在限制本公开内容的内容。

附图说明

[图1]图1A和图1B是在描述实施方式中要考虑的问题时所参照的图。

[图2]图2A和图2B是在描述实施方式中要考虑的问题时所参照的图。

[图3]图3是在描述实施方式中要考虑的问题时所参照的图。

[图4]图4是在描述实施方式中要考虑的问题时所参照的图。

[图5]图5A和图5B是在描述实施方式中要考虑的问题时所参照的图。

[图6]图6A和图6B是在描述实施方式中要考虑的问题时所参照的图。

[图7]图7是用于描述根据实施方式的图像处理设备的配置示例的框图。

[图8]图8是示出根据实施方式的由图像处理设备执行的处理示例的流程的流程图。

[图9]图9是用于描述根据实施方式的数据集的示例的图。

[图10]图10A和图10B是在描述确定存在被摄体的移动的过程时所参照的图。

[图11]图11A和图11B是示意性地示出确定不存在被摄体的移动的情况的图。

[图12]图12是在描述确定存在被摄体的移动的过程的另一示例时所参照的图。

[图13]图13是在描述确定存在被摄体的移动的过程的另一示例时所参照的图。

[图14]图14A和图14B是示意性地示出在被摄体之间的干扰程度等于或小于预定值的示例的图。

[图15]图15是示意性地示出其中被摄体之间的干扰程度大于预定值的示例的图。

[图16]图16是示出通过该实施方式的处理获得的3D频闪合成视频的示例的图。

[图17]图17是示出根据实施方式的传输系统的配置示例的框图。

[图18]图18是用于描述根据实施方式的由传输系统执行的处理的示例的图。

[图19]图19是用于描述根据实施方式的由传输系统执行的处理的另一示例的图。

[图20]图20是用于描述根据实施方式的由传输系统执行的处理的另一示例的图。

[图21]图21是用于描述根据实施方式的由传输系统执行的处理的另一示例的图。

[图22]图22A和图22B是示出普通轮廓图像的示例的图。

[图23]图23A和图23B是示出根据实施方式的轮廓图像的示例的图。

[图24]图24是示意性地示出自由视点图像捕获系统的示例的图。

[图25]图25是在描述传输系统的接收侧执行的处理时所参照的图。

[图26]图26A至图26C是在描述从组成多个轮廓图像的轮廓图像中提取特定轮廓的过程时所参照的图。

[图27]图27是用于描述在使用普通方法显示3D模型时要考虑的问题的图。

[图28]图28是在描述根据实施方式的显示3D频闪合成视频的方法的示例时所参照的图。

[图29]图29A至图29C是在描述根据实施方式的显示3D频闪合成视频的方法的另一示例时所参照的图。

具体实施方式

在下文中，将参照附图来描述本公开内容等的实施方式。注意，按如下顺序给出描述。

<与实施方式和要考虑的问题相关的技术>

<实施方式>

图像处理单元的配置示例

实施方式的处理流程

传输系统

显示示例

<修改>

<与实施方式和要考虑的问题相关的技术>

首先，为了便于理解本公开内容，将描述与实施方式和要考虑的问题相关的技术。注意，在说明书所需的范围内也将讨论实施方式的概述。

通常，执行使用图像捕获装置(摄像机)的频闪摄影。频闪摄影是叠加和合成由定点摄像机拍摄的视频在特定时间点t与时间点t’之间的范围内的帧(例如，包括一个对象或多个对象的表示或图像)以表示和理解移动被摄体的轨迹等的方法。将通过频闪摄影获得的2维图像(在下文中适当地称为2D频闪合成视频)显示给用户。

获得2D频闪合成视频要考虑的问题之一是其招致手动操作。例如，尽管在被摄体的移动速度恒定的情况下，可以通过以恒定的时间间隔使帧稀疏来无任何交叠地表示被摄体的移动，但是当被摄体的移动速度降低时，可能发生不适当的交叠。在这种情况下，用户必须手动地执行选择要被稀疏的帧的操作。因此，期望自动地生成频闪合成视频而无需这种手动操作。

顺便提及，可以使用从布置成围绕被摄体的多个图像捕获装置获得的2维图像数据片段等来生成与被摄体的3维形状相对应的3D数据。在本实施方式中，可以使用作为被摄体的3维形状的3D模型来生成频闪合成视频(在下文中适当地称为3D频闪合成视频)(稍后将描述这些处理的细节)。

作为一个示例，可以使用通过基于时间信息在各个时间点处叠加3D模型来生成3D频闪合成视频的方法。下面将描述在该方法中要考虑的问题。如图1A所示，将考虑在时间点t1至时间点t3对象(3维对象)AA朝向观看者移动的情况。注意，时间点t1在时间点t2和时间点t3之前，并且时间点t2在时间点t3之前。另外，尽管图1A和图1B示意性地示出圆柱形对象AA，但是对象AA可以具有任意形状。

图1B示出了3D频闪合成视频，其中基于时间信息来叠加在各个时间点处的对象AA。在对象AA朝向观看者移动的情况下，即使当仅基于时间信息来生成3D频闪合成视频时也不会出现问题。

接下来，如图2A所示，将考虑对象AA在时间点t1至时间点t3处远离观看者的情况。在这种情况下，如果仅基于时间信息来创建3D频闪合成视频，则获得其中时间上较晚的对象被顺序覆写的3D频闪合成视频。例如，如图2B所示，在3D频闪合成视频的后侧显示在较早时间点处观看者附近的对象AA，而在3D频闪合成视频的前侧显示在较晚时间点处远离观看者的对象AA，这是不适当的。因此，需要考虑这一点。

图3是示出在基于时间信息优先生成3D频闪合成视频的情况下，对象的3维位置未以叠加方式正确表示的状态的图。如图3所示，将考虑球形对象AB随着时间的流逝(时间点t0、t1、符号188\f“符号”\11、t4)从观看者的位置远离的情况。当基于时间信息优先生成3D频闪合成视频时，获得其中将时间点t4处的对象AB(也就是说，位于远离观看者的对象AB)显示为主被摄体的视频。

因此，在本实施方式中，如图4所示，在正面显示位于距观看者最近的被摄体的对象(在本示例中时间点t0处的对象AB)。尽管稍后描述细节，但是在本实施方式中，使用对象AB的深度信息来生成3D频闪合成视频。这种技术(将在下面进一步描述)提供了图像处理方法的示例，该图像处理方法包括以下步骤：接收对象的连续捕获图像和指示对象相对于至少一个距离测量装置的三维位置的深度信息；选择连续图像的集合；以及通过叠加所选择的图像的集合的至少一部分，生成关于频闪图像视点的频闪图像，使得在对象的所选择的图像的集合之中，对象的图像按照对象距频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的对象的成对图像(其中对象的较早图像具有比对象的较晚图像更小的距频闪图像视点的距离)，更接近频闪图像视点的对象的较早图像被显示为比对象的较晚图像更靠近前景。

将描述当仅使用时间信息生成3D频闪合成视频时要考虑的另一个问题。如图5A所示，将考虑对象AB的移动速度改变的情况。例如，如图5A所示，将考虑在时间点3处对象AB的移动速度发生变化的情况(具体而言，移动速度降低的情况)。图5B是图5A中所示的对象AB的轨迹的侧视图。在这种情况下，当通过以恒定间隔简单地叠加对象AB来生成3D频闪合成视频时，在对象AB的移动速度改变的情况下，各个时间点处的对象AB相互干扰，并且获得部分不适当的视频。

因此，在本实施方式中，例如，确定在各个时间点处的对象AB(或者换言之，连续图像中的对象AB的表示)是否3维地相互干扰，并且在干扰发生的情况下对象不被叠加，而在干扰不发生的情况下对象被叠加。这是检测干扰的示例，干扰表示连续图像中的对象的表示之间的交叠。通过这种处理，如图6A和图6B中示意性地示出的，例如通过选择连续图像的集合使得在所选择的图像的集合中的对象的表示之间的检测到的干扰小于阈值干扰，可以获得适当的3D频闪合成视频。注意，无干扰可能意味着干扰程度为0，并且可能意味着干扰程度等于或小于阈值(例如，10％)。因此，在示例中，阈值干扰可以表示零干扰。在其他示例中，阈值干扰可以表示对象的表示的图像区域的预定比例(例如，在对象大小在表示之间不同的情况下，较大的图像区域)的交叠。例如，预定比例可以是10％。

然后，可以根据所选择的图像的集合生成频闪图像。

因此，这提供了图像处理方法的示例，包括：接收包含对象的表示的连续图像；检测干扰，所述干扰表示连续图像中的对象的表示之间的交叠；

选择连续图像的集合，使得在所选择的图像的集合中的对象的表示之间的检测到的干扰小于阈值干扰；以及根据所选择的图像的集合生成频闪图像。

另外，一般地，已知称为时间经过(子弹时间)的视频表示方法，其对特定时间点t进行切片，使得观看者可以从自由视点观看该时刻的被摄体。在相关技术中，观看者仅从自由视点观看特定时间点t处的被摄体。然而，根据本实施方式，由于生成了通过合成时间点t至时间点t'的3D模型而获得的3D频闪合成视频，因此可以实现时间点t至时间点t'处的时间经过表示。

考虑到上述问题，将详细描述本公开内容的实施方式。

<实施方式>

图像处理设备的配置示例

在本实施方式中，使用自由视点图像捕获系统，其包括被布置成围绕被摄体的多个(至少两个)图像捕获装置。作为示例，自由视点图像捕获系统具有六个图像捕获装置。六个图像捕获装置通过在同步的定时处捕获至少部分相同的被摄体的移动图像的2维图像数据，来获得与各个图像捕获装置的布置位置(视点)相对应的图像(视点图像)。

此外，根据本实施方式的自由视点图像捕获系统具有能够测量到被摄体的距离的距离测量装置。距离测量装置例如被设置在每个图像捕获装置中，并且例如生成与图像捕获装置相同视点的深度图像数据。六个图像捕获装置中只有一些可以具有距离测量装置。此外，距离测量装置可以是与图像捕获装置不同的装置。在这种情况下，距离测量装置可以生成与图像捕获装置的视点不同的深度图像数据。根据本实施方式的自由视点图像捕获系统具有四个距离测量装置。距离测量装置可以是例如飞行时间(TOF)装置或光检测和测距(LiDAR)装置。获得距离信息的摄像机(立体摄像机)可以被用作距离测量装置。

因此，该设备提供了包括一组装置的示例，该组装置提供：两个或更多个图像捕获装置，其被布置成使得连续图像包括从各个不同图像捕获视点捕获的图像组；以及一个或更多个距离测量装置。注意，在该组装置内，一个或更多个图像捕获装置可以包括距离测量装置的功能(例如，以立体或其他深度摄像机的形式)以及/或者距离测量装置可以是与图像捕获装置分开的装置。

多个图像捕获装置可以捕获连续图像组(例如在任何时间处的一个图像前置装置)，这些图像组可以一起同步或者在它们之间下面要描述的装置可以检测同步偏移。

每个图像捕获装置具有图像处理装置以及诸如图像捕获元件的已知组成元件，和诸如CPU的控制单元以及显示器。注意，只有一些图像捕获装置可以具有图像处理装置。此外，图像处理装置可以是能够以有线或无线方式与每个图像捕获装置通信而不是被嵌入在图像捕获装置中的独立装置例如个人计算机。

图7是用于描述根据本实施方式的图像处理设备(图像处理设备1)的配置示例的框图。例如，图像处理设备可以被实现为在计算机软件的控制下操作的可编程处理器或处理设备，当由这样的设备执行时，所述计算机软件使所述设备执行本文描述的方法中的一个或更多个。计算机软件可以由非暂态机器可读介质(例如磁盘或光盘、闪存、只读存储器等)存储。例如，图像处理设备1具有摄像机校准单元11、帧同步单元12、背景差异提取单元13、3D频闪合成确定单元14、干扰检测单元15、帧选择单元16、3D模型生成单元17和3D频闪合成单元18。

摄像机校准单元11在预定时间点处接收六个2维图像数据片段(由六个图像捕获装置获取的2维图像数据)。例如，摄像机校正单元11接收通过在某个时间点t1处捕获被摄体而获得的多个(在本实施方式中为六个)视点图像、通过在其他时间点t2处捕获图像而获得的六个视点图像以及通过在又一其他视点t3处捕获被摄体而获得的六个视点图像。注意，在本实施方式中，尽管摄像机校准单元11用作获取单元，但是视点图像被输入到的接口可以用作获取单元。另外，在本实施方式中，尽管假设通过在时间点t1处捕获被摄体获得的多个视点图像没有同步偏移，但是视点图像可以具有同步偏移。对于通过在时间点t2和时间点t3处捕获被摄体而获得的多个视点图像也是如此。

从3D频闪合成单元18输出3D频闪合成视频。也就是说，3D频闪合成单元18例如基于在时间点t1至时间点t3处的被摄体位置来生成合成3D模型(也就是说，3D频闪合成视频)，该合成3D模型包括在基于时间点t1至时间点t3中的至少两个时间点处的多个视点图像生成的在各个时间点(时间点t1至时间点t3中的至少两个时间点)处的被摄体的3D模型。

将描述各个组成元件。摄像机校准单元11使用摄像机参数针对输入的2维图像数据执行校准。注意，摄像机参数的示例包括内部参数和外部参数。内部参数是摄像机特有的参数，并且例如通过计算摄像机镜头的畸变、图像传感器与镜头之间的倾斜(畸变像差系数)、图像中心和图像(像素)大小来获得内部参数。内部参数的使用使由于透镜光学系统而失真的图像能够被校正为正确的图像。另一方面，如本实施方式那样，在存在多个摄像机的情况下，通过计算多个摄像机之间的位置关系来获得外部参数。外部参数是通过在世界坐标系中计算透镜的中心坐标(平移)和透镜光轴的方向(旋转)而获得的。

使用棋盘的Zhang方法被认为是与摄像机校准相关的方法。自然地，除Zhang的方法之外的方法也可以用作摄像机校准方法。例如，可以使用捕获3维对象的图像以获得参数的方法、捕获朝向摄像机的两个直接发射光束的图像以获得参数的方法、使用投影仪投影特征点以使用投影图像获得参数的方法、扫掠发光二极管(LED)光以捕获点光源的图像以获得参数的方法等。

帧同步单元12将六个图像捕获装置中的一个设置为基础图像捕获装置，并且将其余的图像捕获装置设置为参考图像捕获装置。帧同步单元12基于从摄像机校正单元11提供的参考摄像机的2维图像数据和基准摄像机的2维图像数据，按每个参考摄像机的毫秒级检测参考摄像机的2维图像数据相对于基准摄像机的同步偏移。存储与检测到的同步偏移有关的信息，并且基于该信息适当地执行的校正处理。(因此在这些示例中，帧同步单元12可用于检测图像组之间的同步偏移)。

背景差异提取单元13针对每个2维图像数据片段从背景分离被摄体，以生成被称为轮廓图像的2值图像，其中，例如，被摄体的轮廓被表示为黑色，而其他区域被表示为白色。背景差异提取单元13可以实时地生成轮廓图像，并且可以在移动图像的捕获结束之后生成形成移动图像的每帧的轮廓图像。

3D频闪合成确定单元14确定在后级上3D频闪合成单元18是否可以执行3D频闪合成。在本实施方式中，在存在被摄体的移动的情况下，3D频闪合成确定单元14确定可以执行3D频闪合成。存在被摄体的移动的情况是被摄体的移动量是预定量或更大的情况。注意，根据被摄体的大小、形状等适当地设置用于确定移动的存在的阈值。注意，即使在不存在被摄体的移动的情况下也可以生成3D频闪合成视频。

因此，在示例中，可以提供确定单元，该确定单元根据被摄体的位置的改变来确定被摄体的移动的存在，其中，合成单元被配置成在确定单元确定存在被摄体的移动情况下生成频闪图像。

干扰检测单元15基于由背景差异提取单元13生成的轮廓图像或3D模型来检测被摄体的干扰程度。在本实施方式中，在干扰程度为0的情况下(也就是说，被摄体互相不干扰)以及在干扰程度等于或小于预定值的情况下(在下文中，这些情况将统称为干扰程度等于或小于预定值的情况)，生成3D频闪合成视频。

帧选择单元16选择其中干扰检测单元15已经确定干扰程度等于或小于预定值的帧。

3D模型生成单元17基于各个图像捕获装置的视点和各个图像捕获装置的参数，使用2维图像数据和深度图像数据，基于可视外壳等执行建模，以创建网格。然后，3D模型生成单元17基于预定的颜色信息对网格执行纹理映射，以生成作为映射结果的3D模型。例如，3D模型生成单元17基于在预定时间点处的各个图像捕获装置的视点和各个图像捕获装置的参数，使用2维图像数据和深度图像数据实时地生成3D模型。

因此，在示例中，模型生成单元17可以被配置成检测与图像组中的各个图像相对应的可视外壳的交集。

在示例中，模型生成单元17可以被配置成生成表示对象的网格并且对所生成的网格执行纹理映射。

因此，在这种情况下，设备1提供了图像处理设备的示例，该图像处理设备响应于由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组以及指示对象相对于至少一个距离测量装置的三维位置的深度信息，该图像处理设备包括：帧选择单元16，其被配置成选择连续图像组的集合；以及模型生成单元17，其被配置成针对图像组集合中的每个图像组，根据由两个或更多个间隔开的图像捕获装置同时捕获的图像以及根据深度信息来生成三维模型，并且将纹理映射到所生成的三维模型；合成单元18，其被配置成通过将由模型生成单元生成的三维模型叠加在预定背景上来生成关于频闪图像视点的频闪图像。

在示例中，设备1可以执行图像处理方法，该图像处理方法包括以下步骤：接收由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组和指示该对象相对于至少一个距离测量装置的三维位置的深度信息；选择连续图像组的集合；针对图像组的集合中的每个图像组，根据由两个或更多个间隔开的图像捕获装置同时捕获的图像以及根据深度信息来生成三维模型；

将纹理映射到所生成的三维模型；通过将三维模型叠加在预定背景上来生成关于频闪图像视点的频闪图像。

3D频闪合成单元18显示由3D模型生成单元17生成的多个3D模型，以叠加在预定背景上，从而生成并输出3D频闪合成视频。

因此，图7的设备提供了响应于包含对象的表示的连续图像的图像处理设备的示例，该图像处理设备包括：干扰检测单元(例如单元15)，用于检测干扰，所述干扰表示连续图像中的对象的表示之间的交叠；帧选择单元(例如单元16)，其被配置成选择连续图像的集合，使得在所选择的图像的集合中的对象的表示之间的检测到的干扰小于阈值干扰；以及合成单元(例如单元18)，其被配置成根据所选择的图像的集合生成频闪图像。

注意，例如，在包括在图像捕获装置中的显示器上显示所生成的3D频闪合成视频。3D频闪合成视频可以被显示在与图像捕获装置不同的装置中包括的显示器上。这种显示器的示例包括个人计算机的显示器、电视装置的显示器、创建虚拟现实(VR)的装置的显示器等。此外，显示器可以是所谓的投影映射装置，其投影存在于空间中的对象并且将视频投影在对象上。

实施方式的处理流程

接下来，将描述在本实施方式中执行的处理的流程的示例。图8是示出处理的流程的流程图。除非另外特别说明，否则图8所示的流程图中的处理由图像处理设备1执行。

(处理的概要)

在步骤ST11中，将包括由自由视点图像捕获系统获取的2维图像数据的数据(在下文中适当地称为数据集)输入到图像处理设备1。在步骤ST12中，图像处理设备1确定被摄体的移动。在步骤ST13中，图像处理设备1基于步骤ST12中的确定结果来确定是否可以执行3D频闪合成。这里，在确定不能执行3D频闪合成的情况下，流程进行到步骤ST16，并且不执行与3D频闪合成相关的处理。在步骤ST13确定可以执行3D频闪合成的情况下，流程进行到步骤ST14。在步骤ST14中，图像处理设备1选择建模目标帧。在步骤ST15中，图像处理设备1基于在步骤ST14中选择的帧来执行3D频闪合成以生成3D频闪合成视频。

(步骤ST11的处理)

将详细描述各个处理。在步骤ST11中，将数据集输入到图像处理设备1。本实施方式的数据集包括由自由视点图像捕获系统获取的2维图像数据、由距离测量装置获取的对象的深度信息以及摄像机参数。

图9示出由自由视点图像捕获系统获取的2维图像数据的示例。图9示出通过在时间点t0与时间点t7之间的时段中六个图像捕获装置以同步方式执行捕获所获得的2维图像数据的示例。在该示例中，被摄体AD是人。例如，2维图像数据IM10、IM20、SYMBOL188\f“符号”\s11、IM60的片段是通过在时间点t0处六个图像捕获装置进行同步捕获而获得的。2维图像数据IM17、IM27、SYMBOL188\f“符号”\s11、IM67的片段是通过在时间点t7处六个图像捕获装置进行同步捕获而获得的。注意，根据图像捕获装置的帧速率(例如，60帧每秒(fps)、120fps等)来设置时间点t(因此在这些示例中，两个或更多个图像捕获装置被布置成彼此同步地捕获图像)。

(步骤ST12的处理)

在步骤ST12中，图像处理设备1确定对象的移动。具体地，3D频闪合成确定单元14基于包括在数据集中的对象的深度信息(距离信息)来确定被摄体的移动。

图10A和图10B是用于描述由3D频闪合成确定单元14执行的确定被摄体的移动的处理的示例的示意图。图10A和图10B中的AS1至AS4分别指示距离测量装置。另外，在图10A和图10B中，作为示例示出作为溜冰场上的溜冰者的被摄体AE。

如图10A所示，在某个时间点t0处，深度信息d1由距离测量装置AS1测量。类似地，深度信息d2由距离测量装置AS2测量，深度信息d3由距离测量装置AS3测量，以及深度信息d4由距离测量装置AS4测量。

然后，如图10B所示，在被摄体AE在比时间点0(t＝0)较晚的时间点t’(t＝t’)处移动的情况下，深度信息d1、d2、d3和d4变化。通过检测该变化，可以确定被摄体AE的移动的存在。例如，在多个深度信息d1、d2、d3、d4中的至少一个的变化等于阈值或者大于阈值的情况下，确定存在被摄体AE的移动。另一方面，如图11A和图11B所示，在时间点0和时间点t’处由距离测量装置AS1至AS4获取的距离信息没有变化的情况(包括变化等于或小于阈值的情况)下，确定不存在被摄体AE的移动。

注意，根据被摄体的形状和大小来适当地设置用于确定移动的存在的深度信息的变化程度(也就是说，用于确定移动的存在的深度信息的阈值)。

注意，在本实施方式中，尽管描述了使用四个距离测量装置AS1至AS4的示例，但是可以使用一个距离测量装置，并且可以基于由距离测量装置获得的深度信息的变化来确定被摄体的移动的存在。此外，可以基于点状数据(也称为点云)的出现频率而不是深度信息来确定被摄体的移动的存在。通过使用距离测量装置或点云信息来检测作为3维对象的被摄体的位置或移动，可以以简单的方式来确定被摄体的移动。

将描述在自由视点图像捕获系统不具有诸如距离测量装置的传感器的情况下确定被摄体AE的移动的方法。例如，如图12所示，基于时间点t和时间点t’的2维图像数据生成轮廓图像。在这种情况下，可以适当地稀疏t与时间点t’之间的时间点，以限制要用于生成轮廓图像的2维图像数据。此外，在被摄体AE在轮廓图像中没有交叠的情况下，可以确定被摄体AE已经移动。

另外，使用透视投影原理来测量在特定图像捕获装置的位置处的轮廓的尺寸。例如，如图13所示，根据透视投影，以大尺寸拍摄近对象(例如，圆柱对象BB)，而以小尺寸拍摄远对象。在轮廓的尺寸的变化等于或大于阈值的情况下，可以确定对象已经移动。

除了这些方法之外，在被摄体是人的情况下，可以通过执行面部检测处理等来检测人的特征点，并且可以基于特征点的移动结果来确定被摄体的移动的存在。此外，可以基于已知方法来检测被摄体的运动矢量，并且可以根据检测结果来确定被摄体的移动的存在。此外，被摄体可以具有标记，并且可以通过检测标记的移动来确定被摄体的移动。这种标记的示例包括在可见光区域以外的波长区域中清晰可见的回射材料、发射器等。

另外，可以使用仅由自由视点图像捕获系统的多个图像捕获装置之中的预定图像捕获装置获得的2维图像数据(包括基于其的轮廓图像)来确定被摄体的移动。

(步骤ST13的处理)

在步骤ST13中，3D频闪合成确定单元14确定是否可以执行3D频闪合成。无论视频是2维(2D)还是3维(3D)的，频闪合成视频的优点之一在于，可以理解被摄体的移动轨迹。因此，在步骤ST12确定存在被摄体的移动的情况下，3D频闪合成确定单元14确定可以执行3D频闪合成。

注意，即使在不存在被摄体的移动的情况下，仍可以执行3D频闪合成。但是，在这种情况下，所获得的3D频闪合成视频具有在特定区域中交叠的多个3D模型，并且不可能获得有意义的3D频闪合成视频。然而，即使在这种情况下，也可以通过修改显示方法来获得有意义的3D频闪合成视频。注意，稍后将描述显示方法的细节。

(步骤ST14的处理)

在步骤ST14中，选择在生成(建模)3D模型时要使用的多个视点图像(也就是说，帧)。例如，由图像处理设备1的干扰检测单元15和帧选择单元16执行步骤ST14。尽管可以使用构成数据集的全部2维图像数据片段生成3D模型，但是在本实施方式中，考虑处理负荷、获得的3D频闪合成视频的可视性等，选择生成3D模型时使用的帧。具体地，在时间方向上稀疏形成数据集的2维图像数据片段。注意，在特定时间点t同步捕获的六个2维图像数据片段被稀疏。换言之，使用在特定时间点t处的六个2维图像数据片段的集合作为单位来选择要用于生成3D模型的数据的集合和要被稀疏的帧的集合。

干扰检测单元15通过例如参考被摄体在轮廓图像中的位置来检测指示在不同时间点(例如，之前和之后的时间点)处捕获的被摄体之间的交叠程度的干扰程度。图14A示出在被摄体之间不存在交叠的情况(干扰程度＝0)。图14B示出在被摄体之间存在交叠的情况。干扰检测单元15将检测到的干扰程度输出到帧选择单元16。

帧选择单元16通过参考干扰程度来适当地稀疏数据集的2维图像数据，更具体地，使得从干扰检测单元15输出的干扰程度等于或小于阈值(例如，10％)。另外，在本实施方式中，帧选择单元16将指示被摄体之间没有干扰(也就是说，干扰程度等于或小于阈值)的标志附加到稀疏之后的数据集(也就是说，包括要用于3D建模的2维图像数据的数据集)。

注意，在上述示例中，尽管已经描述了使用轮廓图像的轮廓检测干扰程度的示例，但是优选地使用被摄体之间的3维干扰程度来确定被摄体在3维空间中的交叠程度。例如，3D模型生成单元17基于在特定时间点处的六个轮廓图像来生成3D模型。也以类似的方式生成在其他时间点处的3D模型。通过比较3D模型在3维空间中的位置，可以检测3维空间中的3D模型之间的干扰程度。

注意，当使用3D模型确定3维空间中的交叠时，3D模型可以是伪3D模型。伪3D模型是基于例如与所有视点(在本实施方式中，六个图像捕获装置)之中的一些视点相对应的轮廓图像的3D模型，并且可以根据该模型计算干扰程度。伪3D模型具有比3D模型更粗糙的形状，并且可以比3D模型更快地生成，但是可以高速地确定干扰程度。此外，可以仅在边界框(可以创建3D模型的空间，并且作为示例，该空间与图像捕获装置的图像捕获范围相对应)的位置处确定干扰程度，并且在这种情况下，获得类似的优点。这提供了以下示例，在该示例中模型生成单元17被配置成根据连续图像生成被摄体的三维模型，并且在该示例中干扰检测单元被配置成检测关于围绕所生成的三维模型的一个或更多个边界框的干扰。

另外，可以在帧选择单元16选择了2维图像数据片段之后生成与2维图像数据的各个片段相对应的轮廓图像。

另外，帧选择单元16可以首先在时间方向上以相等间隔对帧进行稀疏，然后基于干扰程度对帧进行稀疏。这提供了示例，在该示例中帧选择单元16被配置成根据中间图像的集合的预定时间间隔来选择中间图像的集合(该中间图像的集合是图像中的一些但不是全部)，并且根据中间图像的集合的图像之间的检测到的干扰来从中间图像的集合选择图像集合。

另外，与上述示例类似，可以基于3维空间中存在交叠(也就是说，逻辑上确定为0或1)来确定干扰程度，并且可以基于阈值(例如，交叠程度为10％或更小)来确定干扰程度。然而，使用阈值的方法是优选的，因为可以控制被摄体的干扰程度。此外，可以基于基于面部识别等的结果(被摄体的大小、形状等)和对图像捕获装置设置的模式来动态地改变干扰程度的阈值。

另外，如图15所示，例如，即使在从横向方向看被摄体AE的情况下确定被摄体AE互相干扰，也可以在从上方看被摄体AE的情况下确定被摄体AE的干扰程度等于或小于阈值。因此，可以基于由能够在多个图像捕获装置之中适当地确定被摄体的干扰程度的图像捕获装置(例如，设置在天花板上的能够从上方捕获被摄体的图像的图像捕获装置)获得的2维图像数据(或基于其的轮廓图像)来确定被摄体之间的干扰程度。因此，这提供了示例(其中两个或更多个摄像机从相应的视点捕获图像)，在该示例中，干扰检测单元15被配置成针对图像捕获视点中的一个或更多个图像捕获视点来检测在所选择的图像集合中的对象的表示之间的检测到的干扰是否小于阈值干扰。

因此，在实施方式中，帧选择单元可以被配置成选择图像组，以供模型生成单元用来生成包括在频闪图像中的在3维空间中相互不干扰的相应3D模型。在实施方式中，帧选择单元被配置成检测干扰程度，所述干扰程度是指示基于多个预定视点图像生成的3D模型与基于多个其他视点图像生成的3D模型之间的3维空间中的交叠程度的信息。

(步骤ST15的处理)

在步骤ST15中，执行3D频闪合成处理。例如，3D频闪合成处理由3D模型生成单元17和3D频闪合成单元18执行。3D模型生成单元17使用与由帧选择单元16选择的在某个时间点t处的六个2维图像数据片段相对应的六个轮廓图像来生成3D模型。类似地，3D模型生成单元17使用与由帧选择单元16选择的在另一时间点处的六个2维图像数据片段相对应的六个轮廓图像来生成3D模型。然后3D频闪合成单元18将所生成的相应3D模型映射到预定背景的预定位置以生成如图16所示的3D频闪合成视频。注意，尽管由于图示的限制，图16将被摄体AE图示为2维模型，但是被摄体实际上被显示为3D模型。此外，尽管图16示出其中3D模型在3D频闪合成视频中相互不干扰的示例，但是一些3D模型可能相互干扰。如上所述，3D频闪合成视频的3维空间中的干扰程度仅需等于或小于预定值。

注意，3D频闪合成单元18可以合成t与t’之间的时间点的图像以一次生成3D模型。例如，沿时间方向为各个对应的图像捕获装置(各个视点)合成与由帧选择单元16选择的帧(2维图像数据)相对应的轮廓图像。然后，获得针对各个图像捕获装置而合成的六个轮廓图像(在下文中适当地称为合成轮廓图像)。可以使用这六个合成轮廓图像一次生成3D模型。在本实施方式中，由于在被摄体之间的干扰程度等于或小于预定值的情况下生成3D模型，因此可以基于合成轮廓图像一次生成3D模型。由于该处理，可以执行并行处理，并且因此可以缩短处理。

如上所述，根据本实施方式，可以自动生成3D频闪合成视频。此外，由于通过考虑被摄体之间的干扰程度来生成3D频闪合成视频，因此可以生成适当的3D频闪合成视频而无需手动选择要稀疏的帧。此外，观看者可以从自由视点观看被摄体在时间点t与时间点t’之间的变化。

在图3和图4的讨论的上下文中，设备10提供了的图像处理设备的示例，该图像处理设备响应于对象的连续捕获的图像和指示对象相对于至少一个距离测量装置的三维位置的深度信息，该图像处理设备包括：帧选择单元16，其被配置成选择连续图像的集合；以及

合成单元18，其被配置成通过叠加所选择的图像的集合的至少一部分来生成关于频闪图像视点的频闪图像，使得在对象的所选择的图像的集合之中，对象的图像按照对象距频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的对象的成对图像，其中对象的较早图像具有比对象的较晚图像更小的距频闪图像视点的距离，更接近频闪图像视点的对象的较早图像被显示为比对象的较晚图像更靠近前景。

传输系统

接下来，将描述根据本实施方式的传输系统。本申请人已经提出了在WO2017/082076A中公开的技术作为用于有效地传输3D数据的方法。在该提议中公开的内容可以应用于本公开内容。

(传输系统的概述)

考虑到先前提出的技术，将描述根据本实施方式的传输系统。图17示出根据实施方式的传输系统(在下文中适当地称为传输系统100)。传输系统100包括3维数据捕获装置101、转换装置102和作为发送侧装置的编码装置103。此外，传输系统100包括解码装置201、转换装置202和作为接收侧装置的3维数据显示装置203。

自由视点图像捕获系统可以用作3维数据捕获装置101。也就是说，由3维数据捕获装置101获得由各个图像捕获装置捕获的深度图像数据和2维图像数据。

另外，每个图像捕获设备中包括的图像处理装置1使用各个图像捕获装置的视点的2维图像数据和深度图像数据以及各个图像捕获装置的内部参数和外部参数基于可视外壳等来执行建模以创建网格。图像处理装置1生成几何信息(几何形状)作为被摄体的3维数据，该几何信息指示形成所创建的网格的各个点(顶点)的3维位置和各个点的连接(多边形)以及网格的2维图像数据。

注意，例如在Saied Moezzi，Li-Cheng Tai，Philippe Gerard的“Virtual ViewGeneration for3D Digital Video”，加州大学，圣地亚哥，和Takeo Kanade以及PeterRander，P.J.Narayanan，“Virtualized Reality：Constructing Virtual Worlds fromReal Scenes”中公开了用于根据多个视点的2维图像数据和深度图像数据生成3维数据的方法的细节。

转换装置102将与预定的显示图像生成方法相对应的多个视点的虚拟摄像机的内部参数和外部参数设置为摄像机参数。然后，转换装置102基于摄像机参数将从各个图像捕获装置提供的3维数据转换为2维图像数据和深度图像数据，并且生成与预定显示图像生成方法相对应的多个视点的2维图像数据和深度图像数据。转换装置102将所生成的2维图像数据和深度图像数据提供给编码装置103。

注意，例如在Masayuki Tanimoto的“Realizing the Ultimate VisualCommunication”IEICE技术报告，CS，通信方案，110(323)，73-78，2010-11-25等中公开了根据3维数据生成多个视点的2维图像数据和深度图像数据的3D CG技术的细节。

在本说明书中，尽管假设2维图像数据的视点与深度图像数据的视点相同，但是2维图像数据和深度图像数据的视点和视点的数量可以不同。此外，2维图像数据和深度图像数据的视点和视点的数量可以与图像捕获装置的摄像机的视点和视点的数量相同或不同。

编码装置103从由各个图像捕获装置提供的3维数据(在下文中称为遮挡3维数据)中提取从与预定显示图像生成方法相对应的多个视点不可见的遮挡区域的3维数据。然后，包括在编码装置103中的编码单元(未示出)基于预定编码方法针对元数据执行编码处理，元数据包括与预定显示图像生成方法相对应的多个视点的2维图像数据和深度图像数据、遮挡3维数据以及作为关于虚拟摄像机的信息的摄像机相关信息(例如，每个视点的摄像机参数)。编码方法的示例包括多视角和深度视频编码(MVC)方法、AVC方法、HEVC方法等。

在编码方法是MVCD方法的情况下，所有视点的二维图像数据和深度图像数据被共同编码。因此，生成一个编码流，该编码流包括二维图像数据和深度图像数据的编码数据和元数据。在这种情况下，元数据中的摄像机参数被设置在编码流的参考显示信息SEI中。此外，与元数据中的深度图像数据有关的信息被设置在深度表示信息SEI中。

另一方面，在编码方法是AVC方法或HEVC方法的情况下，分别对各个视点的深度图像数据和2维图像数据进行编码。因此，生成包括各个视点的2维图像数据和元数据的各个视点的编码流以及包括各个视点的深度图像数据的元数据和编码数据的各个视点的编码流。在这种情况下，例如，元数据被设置在每个编码流的用户未注册SEI中。此外，使编码流和摄像机参数等相关联的信息被包括在元数据中。

注意，使编码流和摄像机参数等相关联的信息可以不被包括在元数据中，但是仅与编码流相对应的元数据可以被包括在编码流中。

编码装置103将编码流发送到解码装置201。注意，在本说明书中，尽管元数据以被设置在编码流中的状态被发送，但是元数据也可以与编码流分开被发送。

解码装置201中包括的解码单元(未示出)接收从编码装置103发送的编码流，并根据与编码方法相对应的方法对编码流进行解码。解码单元将作为解码结果获得的多个视点的2维图像数据和深度图像数据以及元数据给转换装置202。

转换装置202根据多个视点的2维图像数据和深度图像数据生成3D模型，以生成其中3D模型被映射到预定背景上的显示图像数据。然后，转换装置202将显示图像数据提供给3维数据显示装置203。

3维数据显示装置203被配置为2维头戴式显示器、2维监视器、3维头戴式显示器、3维监视器等。3D数据显示装置203基于所提供的显示图像数据来显示3D频闪合成视频。注意，可以将单独的3D模型表示(例如，显示)为独立的模型，而不是3D频闪合成视频。

(传输系统中3D模型的生成)

图18以更简化的方式示出传输系统100。在发送侧，生成3D模型，并且将3D模型转换为2维图像数据(包括RGB等的颜色信息)和深度图像数据。2维图像数据、深度图像数据等由编码装置103编码并被发送。

当在发送侧生成3D模型时，可以使用上述3D模型生成方法。在发送侧确定发送片段由3D频闪合成视频表示的情况下，可以减少帧的数量。也就是说，如上所述，在本实施方式中，由于当生成3D模型时由帧选择单元16选择要用于生成3D模型的帧，所以可以减少传输数据的片段的数量。例如，即使在自由视点图像捕获系统中获得120帧的情况下，由于为了3D频闪合成而稀疏帧，因此要发送的帧的数量也小(例如，12帧)。注意，在所示的示例中，尽管2维图像数据、深度图像数据和元数据被编码和发送，但是3D模型本身(也就是说，在接收侧可以从其再现3D模型的3维数据)可以根据预定的编码方法被编码并被发送。在接收侧，在发送3D模型的情况下，可以基于相应的2维图像数据来执行纹理映射。

注意，在接收侧，可以通过基于从发送侧发送的2维图像数据和深度图像数据生成3维数据，并且执行与3维数据相对应的3维对象关于自由视点的透视投影，来生成自由视点的2维图像数据。因此，即使在从发送侧发送3D模型的情况下，也可以在接收侧生成与3D模型相对应的2维图像数据。

注意，如图19所示，3D频闪合成标志可以被包括在传输数据(编码数据)中。接收侧可以仅在3D频闪合成标志被包括在从发送侧发送的数据中的情况下，或者在该标志是“1”(或“0”)的情况下，执行生成3D频闪合成视频的处理。

另外，在不存在3D频闪合成标志的情况下，可以确定接收侧是否能够生成3D频闪合成视频。例如，如图20所示，仅从发送侧发送2维图像数据。接收侧使用已知的图像处理获得2维图像数据中的被摄体的深度信息。另外，接收侧执行生成3D模型的处理，并且确定是否可以生成3D频闪合成视频。在可以生成3D频闪合成视频的情况下，可以生成3D频闪合成视频。

(分离对象的方法)

注意，如图21所示，如上所述，在被摄体之间的干扰程度等于或小于预定值的情况下，可以附加指示被摄体在3维空间中相互不干扰的标志。通过发送这样的标志，可以在接收侧分离对象。将更详细地描述该分离。

图22A示出球形被摄体AF如何在时间点t0与时间点t2之间移动。图22B示出在各个时间点与被摄体AF对应的轮廓图像。通常，生成与被摄体AF在各个时间点处的位置相对应的轮廓图像SI1至SI3。

图23A类似于图22A示出球形被摄体AF如何在时间点t0与时间点t2之间移动。在本实施方式中，如图23B所示，例如，可以生成其中合成了轮廓图像SI1至SI3的合成轮廓图像SI4。

这里，如图24所示，将考虑使用围绕被摄体AF的五个图像捕获装置捕获随着时间t的流逝而移动的被摄体AF的自由视点图像捕获系统。当发送由自由视点图像捕获系统获得的2维图像数据等时，背景图像也与指示被摄体在3维空间中相互不干扰的标志一起被发送，如图25所示。注意，摄像机参数包括3维位置中各个图像捕获装置的位置。此外，图25中的2维图像数据和深度图像数据可以是包括颜色信息的3D模型。

在接收侧，通过参考背景图像和摄像机参数，可以生成与3D频闪合成视频相对应的轮廓图像。轮廓图像的示例在图26A中被示为轮廓图像SI5至SI9。此外，在接收侧，例如，通过参考背景图像，也可以在特定时间点处从轮廓图像SI5中分离与被摄体AF相对应的轮廓。

可以通过在摄像机视点上对3D模型进行重新投影来实现轮廓的分离。将描述分离轮廓的方法的示例。可视外壳方法(视觉体积相交方法)使用由多个摄像机捕获的轮廓图像来生成3D对象(网格)。例如，利用由图24所示的使用五个图像捕获装置的自由视点图像捕获系统获得的合成轮廓图像SI5来生成可视外壳。在该状态下，三个对象粘在一起(三个圆柱水平粘在一起)。随后，使用合成轮廓图像SI6切割可视外壳。以这种方式，3D对象被分离成三个对象。将直到合成轮廓图像SI9的轮廓图像以该顺序投影到可视外壳的立方体，从而获得三个球体。如果可以根据图像数据(对象的光线信息)生成可视外壳，则如果摄像机参数是已知的，那么可以将3D对象的深度重新投影到摄像机。也就是说，当将每个对象的深度信息重新投影到摄像机时，可以识别由摄像机拍摄的形状。此外，当深度被转换为逻辑2值信息0和1时，获得分离的轮廓。这样，可以分离轮廓。

另外，还可以基于包括在特定时间点处的分离的轮廓图像来生成独立的3D模型。此外，在可以检测被摄体AF的运动矢量的情况下，可以在特定时间点处内插被摄体AF的位置。这样，可以生成包括在被摄体AF的内插位置处的轮廓的轮廓图像，并且基于该轮廓图像来生成3D模型。

以这种方式，当传输系统100附加指示被摄体互相不干扰的标记时，发送侧仅需要发送例如特定时间点t至时间点t’的一个合成轮廓图像，并且可以减少发送数据量。接收侧可以生成轮廓图像，其中基于一个合成轮廓图像分离各个时间点的被摄体。此外，可以基于所生成的轮廓图像来生成3D模型。接收侧可以将生成的3D模型显示为独立的模型，并且可以显示通过将在各个时间点处生成的3D模型叠加在预定背景上而生成的3D频闪合成视频。

显示示例

接下来，将描述3D频闪合成视频的各个3D模型的显示示例。注意，例如，通过3D频闪合成单元18执行稍后将描述的显示相关控制。在本实施方式中，尽管3D频闪合成单元18被描述为显示控制单元的示例，但是图像处理设备1可以具有与3D频闪合成单元18不同的显示控制单元。

在一些示例中，显示控制单元在显示装置上显示频闪图像，其中，显示控制单元被配置成在被摄体的位置的改变量等于或小于预定值的情况下，显示通过将3D模型的显示位置布置在与原始位置不同的位置处而生成的频闪图像。

(第一显示示例)

在第一显示示例中，在被摄体远离观看者移动的情况下，最新的被摄体(对象)(也就是说，位于较深侧的被摄体)被显示为比其他被摄体更清晰可见。例如，在图27所示的3D频闪合成视频中，最新的被摄体(在所示示例中时间点t4的被摄体)不可见或不容易可见。因此，如图28所示，最新的被摄体被显示为清晰可见。例如，在较早时间点捕获的被摄体(在所示示例中，时间点t0至时间点t3的被摄体)被显示为半透明线框或粗糙点云。此外，被摄体的密度可以逐渐增加，使得最新被摄体(时间点t4的被摄体)的密度高于较早被摄体(时间点t0的被摄体)的密度。通过该显示，观看者可以清楚地观看较深侧的3D模型。

(第二显示示例)

在第二显示示例中，所生成的3D模型被显示在与其原始位置不同的位置处。如上所述，即使在不存在被摄体的移动的情况下或者在被摄体的移动量等于或小于预定值的情况下，也可以生成3D频闪合成视频。在这种情况下，当所生成的3D模型被简单地设置在其原始位置时，3D模型可能集中在特定区域上，如图29A中示意性地示出的。

因此，在各个时间点处生成3D模型，并且重新布置3D模型，使得3D模型的显示位置与其原始位置不同(也就是说，3D模型之间的干扰程度等于或小于预定值)，从而生成3D频闪合成视频。例如，如图29B所示，生成3D频闪合成视频，其中生成的3D模型以圆形方向被布置以便位于与其原始位置不同的位置。(这是示例，其中合成单元被配置成使用沿着诸如圆形路径的预定显示路径的那些图像的对象表示的显示位置来生成频闪图像)。

此外，如图29C所示，可以生成3D频闪合成视频，其中生成的3D模型以横向方向被布置以便位于与其原始位置不同的位置。注意，在以这种方式调整多个3D模型的布置的情况下，一些3D模型的位置可以与其原始位置相同。

因此，这些布置提供了图像处理设备1的示例，该图像处理设备1响应于提供对象的表示的连续图像以及指示对象相对于至少一个距离测量装置的三维位置的深度信息，该图像处理设备包括：

帧选择单元，其被配置成选择连续图像的集合；以及合成单元，其被配置成根据所选择的图像的集合来生成关于频闪图像视点的频闪图像；其中，当对于至少一对所选择的图像，对象的三维位置比阈值分离度更近时，合成单元被配置成使用针对与相应的捕获的图像的显示位置不同的那些图像的对象的表示中的至少一些的显示位置来生成频闪图像。

这样的图像处理设备可以执行图像处理方法，该图像处理方法包括以下步骤：接收提供对象的表示的连续图像和指示该对象相对于至少一个距离测量装置的三维位置的深度信息；选择连续图像的集合；以及根据所选择的图像集合来生成关于频闪图像视点的频闪图像；其中，当对于至少一对选择的图像，对象的三维位置比阈值分离度更近时，生成步骤包括使用针对与相应的捕获的图像的显示位置不同的那些图像的对象的至少一些表示的显示位置来生成频闪图像。

注意，在存在多个不同被摄体(例如，足球运动员或篮球运动员)的情况下，可以通过跟踪特定被摄体或设置用于标识每个被摄体的标志等来生成各个被摄体的3D频闪合成视频。

<修改>

尽管已经详细描述了本公开内容的实施方式，但是本公开内容的内容不限于这些实施方式，并且可以基于本公开内容的技术精神来实现各种改变和修改。

可以通过装置、方法、程序、系统等来实现本公开内容。例如，用于执行实施方式中描述的功能的程序可以是可下载的，并且不具有实施方式中描述的功能的装置可以下载并安装该程序。通过这样做，该装置可以执行实施方式中描述的控制。本公开内容可以由分发这种程序的服务器来实现。另外，在实施方式和修改中描述的内容可以被适当地相互组合。

本公开内容可以采用由以下编号的项定义的组成元件：

项1

一种图像处理设备，包括：

获取单元，其获取通过在第一时间点处捕获被摄体而获得的多个视点图像、通过在第二时间点处捕获所述被摄体而获得的多个视点图像以及通过在第三时间点处捕获所述被摄体而获得的多个视点图像；以及

图像生成单元，其基于各个时间点的被摄体位置来生成合成3D模型，所述合成3D模型包括基于所述第一时间点至所述第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的在各个时间点处的被摄体的3D模型。

项2

根据项1所述的图像处理设备，还包括：

确定单元，其根据所述被摄体的位置改变来确定所述被摄体的移动的存在，其中，

所述图像生成单元在所述确定单元确定存在所述被摄体的移动的情况下生成所述合成3D模型。

项3

根据项1所述的图像处理设备，还包括：

选择单元，其选择在生成所述3D模型时要使用的多个视点图像。

项4

根据项3所述的图像处理设备，其中，

在生成所述3D模型时要使用的多个视点图像是由所述选择单元通过参考至少不同时间点处的被摄体之间的干扰程度而选择的图像。

项5

根据项4所述的图像处理设备，其中，

所述干扰程度是指示基于多个预定视点图像生成的3D模型与基于多个其他视点图像生成的3D模型之间的3维空间中的交叠程度的信息。

项6

根据项4所述的图像处理设备，其中，

所述干扰程度是指示在基于多个预定视点图像之中的一些视点图像生成的伪3D模型与基于多个其他视点图像之中的一些视点图像生成的伪3D模型之间的3维空间中的交叠程度的信息。

项7

根据项1所述的图像处理设备，其中，

在所述合成3D模型中包括的各个3D模型之间的3维空间中的干扰程度等于或小于预定值。

项8

根据项7所述的图像处理设备，其中，

在所述合成3D模型中包括的各个3D模型在3维空间中相互不干扰。

项9

根据项1所述的图像处理设备，其中，

基于在对应时间点处实时地获得的多个视点图像来生成所述3D模型。

项10

根据项1所述的图像处理设备，其中，

基于通过在各个视点处合成各个时间点的多个视点图像而获得的合成图像来生成所述3D模型。

项11

根据项1所述的图像处理设备，其中，

基于通过从所述视点图像分离所述被摄体和背景而获得的轮廓图像来生成所述3D模型。

项12

根据项1所述的图像处理设备，还包括：

显示控制单元，其在显示装置上显示所述合成3D模型。

项13

根据项12所述的图像处理设备，其中，

所述显示控制单元显示在所述合成3D模型中包括的多个3D模型之中的在时间上较晚的3D模型，以比其他3D模型更清晰地可见。

项14

根据项12所述的图像处理设备，其中，

所述显示控制单元在所述被摄体的位置的变化量等于或小于预定值的情况下，显示通过将所述3D模型的显示位置布置在与原始位置不同的位置处而生成的合成3D模型。

项15

一种编码装置，包括：

编码单元，其通过基于第一时间点至第三时间点的各个时间点处的被摄体位置，根据预定编码方法，对基于所述第一时间点、第二时间点和所述第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从所述3D模型转换的2D图像数据和指示所述2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个以及指示各个时间点的3D模型相互不干扰的标志进行编码，来生成编码数据。

项16

一种解码装置，包括：

解码单元，其基于第一时间点至第三时间点的各个位置处的被摄体位置，对编码数据进行解码，所述编码数据包括基于所述第一时间点、第二时间点和所述第三时间点的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从3D模型转换的2D图像数据和指示所述2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个、获取视点图像的图像捕获装置的摄像机参数以及所述视点图像的背景图像，其中，

解码单元基于所述背景图像和摄像机参数来生成包括3D模型的合成3D模型，并且基于所述合成3D模型从图像分离预定时间点的被摄体。

项17

一种图像处理方法，包括以下步骤：

使获取单元获取通过在第一时间点处捕获被摄体而获得的多个视点图像、通过在第二时间点处捕获所述被摄体而获得的多个视点图像以及通过在第三时间点处捕获所述被摄体而获得的多个视点图像；以及

使图像生成单元基于各个时间点的被摄体位置来生成合成3D模型，所述合成3D模型包括基于所述第一时间点至所述第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的在各个时间点处的被摄体的3D模型。

项18

一种用于使计算机执行图像处理方法的程序，所述图像处理方法包括以下步骤：

项19

一种编码方法，包括：

使编码单元通过基于第一时间点至第三时间点的各个时间点处的被摄体位置，根据预定编码方法，对基于所述第一时间点、第二时间点和所述第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从所述3D模型转换的2D图像数据和指示所述2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个以及指示各个时间点的3D模型相互不干扰的标志进行编码，来生成编码数据。

项20

一种解码方法，包括：

使解码单元基于第一时间点至第三时间点的各个位置处的被摄体位置，对编码数据进行解码，所述编码数据包括基于所述第一时间点、第二时间点和所述第三时间点中的至少两个时间点中的各个时间点的多个视点图像生成的每个时间点的被摄体的3D模型、从所述3D模型转换的2D图像数据和指示所述2D图像数据中包括的被摄体的深度的深度图像数据中的至少一个、获取视点图像的图像捕获装置的摄像机参数以及所述视点图像的背景图像；以及

使解码单元基于所述背景图像和所述摄像机参数来生成包括3D模型的合成3D模型，并且基于所述合成3D模型从图像分离预定时间点的被摄体。

本公开内容可以采用由以下另一组编号的项定义的组成元件：

1.一种图像处理设备，其响应于包含对象的表示的连续图像，所述图像处理设备包括：

干扰检测单元，用于检测干扰，所述干扰表示所述连续图像中的对象的表示之间的交叠；

帧选择单元，其被配置成选择所述连续图像的集合，使得在所选择的图像的集合中的对象的表示之间的检测到的干扰小于阈值干扰；以及

2.根据项1所述的设备，其中，所述阈值干扰表示零干扰。

3.根据项1所述的设备，其中，所述阈值干扰表示所述对象的表示的图像区域的预定比例的交叠。

4.根据项1所述的设备，其中，所述预定比例是10％。

5.根据以上项中任一项所述的设备，其中，所述帧选择单元被配置成根据中间图像的集合的预定时间间隔来选择作为所述图像中的一些但不是全部的中间图像的集合，并且根据所述中间图像的集合中的图像之间的检测到的干扰来从所述中间图像的集合中选择图像集合。

6.根据以上项中任一项所述的设备，包括模型生成器，其用于根据所述连续图像生成所述对象的三维模型，并且其中，所述干扰检测单元被配置成检测关于围绕所生成的三维模型的一个或更多个边界框的干扰。

7.根据前述项中任一项所述的设备，包括一组装置，所述一组装置提供：

两个或更多个图像捕获装置，其被布置成使得所述连续图像包括从各个不同图像捕获视点捕获的图像组；以及

一个或多个距离测量装置。

8.根据项7所述的设备，其中，所述干扰检测单元被配置成检测对于所述图像捕获视点中的一个或更多个图像捕获视点，在所选择的图像集合中的所述对象的表示之间检测到的干扰是否小于所述阈值干扰。

9.一种图像处理方法，包括以下步骤：

接收包含对象的表示的连续图像；

检测干扰，所述干扰表示所述连续图像中的对象的表示之间的交叠；

根据所选择的图像的集合生成频闪图像。

10.一种计算机软件，当由计算机执行时，所述计算机软件使所述计算机执行项10的方法。

11.一种存储根据项10的计算机软件的非暂态机器可读介质。

12.一种图像处理设备，其响应于对象的连续捕获图像和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像的集合；以及

合成单元，其被配置成通过叠加所选择的图像的集合的至少一部分来生成关于频闪图像视点的频闪图像，使得在所述对象的所选择的图像的集合之中，所述对象的图像按照所述对象距所述频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的所述对象的成对图像，其中所述对象的较早图像具有比对象的较晚图像更小的距所述频闪图像视点的距离，更接近所述频闪图像视点的所述对象的较早图像被显示为比所述对象的较晚图像更靠近前景。

13.根据项12所述的设备，包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。

14.一种图像处理方法，包括以下步骤：

接收对象的连续捕获图像和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息；

选择所述连续图像的集合；以及

通过叠加所选择的图像的集合的至少一部分来生成关于频闪图像视点的频闪图像，使得在所述对象的所选择的图像的集合之中，所述对象的图像按照所述对象距频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的所述对象的成对图像，其中所述对象的较早图像具有比所述对象的较晚图像更小的距频闪图像视点的距离，更接近所述频闪图像视点的所述对象的较早图像被显示为比所述对象的较晚图像更靠近前景。

15.一种计算机软件，当由计算机执行时，所述计算机软件使所述计算机执行项14的方法。

16.一种存储根据项15的计算机软件的非暂态机器可读介质。

17.一种图像处理设备，其响应于由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组以及指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像组的集合；以及

合成单元，其被配置成通过将由所述模型生成单元生成的三维模型叠加在预定背景上来生成关于频闪图像视点的频闪图像。

18.根据项17所述的设备，包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。

19.根据项18所述的设备，其中，所述两个或更多个图像捕获装置被布置成彼此同步地捕获图像。

20.根据项18所述的设备，包括帧同步单元，所述帧同步单元用于检测一组图像之间的同步偏移。

21.根据项17至20中任一项所述的设备，其中，所述模型生成单元被配置成检测与一组图像中的各个图像相对应的可视外壳的交集。

22.根据项17至21中任一项所述的设备，其中，所述模型生成单元被配置成生成表示所述对象的网格，并且对所生成的网格执行纹理映射。

23.一种图像处理方法，包括以下步骤：

接收由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续的图像组和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息；

选择所述连续图像组的集合；以及

针对所述图像组的集合中的每个图像组，根据由所述两个或更多个间隔开的图像捕获装置同时捕获的图像以及根据所述深度信息来生成三维模型；

将纹理映射到所生成的三维模型；

通过将所述三维模型叠加在预定背景上来生成关于频闪图像视点的频闪图像。

24.一种计算机软件，当由计算机执行时，所述计算机软件使所述计算机执行项23的方法。

25.一种存储根据项24的计算机软件的非暂态机器可读介质。

26.一种图像处理设备，其响应于提供对象的表示的连续图像和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像的集合；以及

其中，当对于所选择的图像中的至少一对，所述对象的三维位置比阈值分离度更近时，所述合成单元被配置成使用针对与相应的捕获的图像的显示位置不同的那些图像的对象的表示中的至少一些的显示位置来生成频闪图像。

27.根据项26所述的设备，包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。

28.根据项26或项27所述的设备，其中，所述合成单元被配置成使用针对沿预定显示路径的那些图像的对象的表示的显示位置来生成所述频闪图像。

29.一种图像处理方法，包括以下步骤：

选择连续图像的集合；以及

其中，当对于所选择的图像的至少一对，所述对象的三维位置比阈值分离度更近时，生成步骤包括使用针对与相应的捕获的图像的显示位置不同的那些图像的对象的表示中的至少一些的显示位置来生成频闪图像。

30.一种计算机软件，当由计算机执行时，所述计算机软件使所述计算机执行项29的方法。

31.一种存储根据项30的计算机软件的非暂态机器可读介质。

本公开内容可以采用由以下另一组编号的项定义的组成元件：[项1]

一种图像处理设备，其响应于由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像组的集合；

模型生成单元，其被配置成针对所述图像组的集合中的每个图像组，根据由所述两个或更多个间隔开的图像捕获装置同时捕获的图像以及根据所述深度信息来生成三维模型，并且将纹理映射到所生成的三维模型；以及

项2

根据项1所述的图像处理设备，其中，

所述帧选择单元被配置成选择图像组用于供所述模型生成单元使用以生成包括在所述频闪图像中的在3维空间中相互不干扰的相应3D模型。

项3

根据项4所述的图像处理设备，其中，

所述帧选择单元被配置成检测干扰程度，所述干扰程度是指示基于多个预定视点图像生成的3D模型与基于多个其他视点图像生成的3D模型之间的3维空间中的交叠程度的信息。

项4

根据项1所述的图像处理设备，还包括：

确定单元，所述确定单元根据所述被摄体的位置改变来确定所述被摄体的移动的存在，其中，

所述合成单元被配置成在所述确定单元确定所述被摄体的移动存在情况下生成所述频闪图像。

项5

根据项1所述的图像处理设备，还包括：

显示控制单元，其在显示装置上显示所述频闪图像，其中，所述显示控制单元配置成在所述被摄体的位置的改变量等于或小于预定值的情况下，显示通过将所述3D模型的显示位置布置在与原始位置不同的位置处而生成的频闪图像。

项6

根据项1所述的设备，包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。

项7

根据项6所述的设备，其中，所述两个或更多个图像捕获装置被布置成彼此同步地捕获图像。

项8

根据项6所述的设备，包括帧同步单元，所述帧同步单元用于检测一组图像之间的同步偏移。

项9

根据项1、项6、项7和项8中任一项所述的设备，其中，所述模型生成单元被配置成检测与一组图像中的各个图像相对应的可视外壳的交集。

项10

根据项1、项6、项7、项8和项9中任一项所述的设备，其中，所述模型生成单元被配置成生成表示所述对象的网格，并且对所生成的网格执行纹理映射。

项11

一种图像处理方法，包括以下步骤：

选择所述连续图像组的集合；以及

将纹理映射到所生成的三维模型；

项12

一种图像处理设备，包括：

项13

一种图像处理设备，其响应于对象的连续捕获图像和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择连续图像的集合；以及

合成单元，其被配置成通过叠加所选择的图像的集合的至少一部分来生成关于频闪图像视点的频闪图像，使得在所述对象的所选择的图像的集合之中，所述对象的图像按照所述对象所述距频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的所述对象的成对图像，其中所述对象的较早图像具有比所述对象的较晚图像更小的距所述频闪图像视点的距离，更接近所述频闪图像视点的所述对象的较早图像被显示为比所述对象的较晚图像更靠近前景。

项14

根据项13所述的设备，包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。

项15

一种图像处理设备，其响应于提供对象的表示的连续图像和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像的集合；以及

其中，当对于所选择的图像中的至少一对，所述对象的三维位置比阈值分离度更近时，所述合成单元被配置成使用针对与相应的捕获图像的显示位置不同的那些图像的对象的表示中的至少一些的显示位置来生成所述频闪图像。

项16

根据项15或项16所述的设备，其中，所述合成单元被配置成使用针对沿预定显示路径的那些图像的对象的表示的显示位置来生成频闪图像。

项17

一种图像处理设备，其响应于包含对象的表示的连续图像，所述图像处理设备包括：

项18

根据项17的设备，包括模型生成器，用于根据所述连续图像生成所述对象的三维模型，并且其中，所述干扰检测单元被配置成检测关于围绕所生成的三维模型的一个或更多个边界框的干扰。

项19

根据项17所述的设备，其中，所述阈值干扰表示所述对象的表示的图像区域的预定比例的交叠。

项20

根据项17所述的设备，包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。

本领域的技术人员应当理解，根据设计要求和其他因素，可以进行各种修改、组合、子组合和改变，只要该修改、组合、子组合和改变在所附权利要求或其等同物的范围内。

附图标记列表

1 图像处理设备

11 摄像机校准单元

14 3D频闪合成确定单元

15 干扰检测单元

16 帧选择单元

17 3D模型生成单元

18 3D频闪合成单元

100 传输系统

101 编码装置

201 解码装置

Claims

1.一种图像处理设备，其响应于由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像组的集合；

2.根据权利要求1所述的图像处理装置，其中，

所述帧选择单元被配置成选择图像组用于供所述模型生成单元使用以生成包括在所述频闪图像中的在三维空间中相互不干扰的相应三维模型。

3.根据权利要求4所述的图像处理装置，其中，

所述帧选择单元被配置成检测干扰程度，所述干扰程度是指示基于多个预定视点图像生成的三维模型与基于多个其他视点图像生成的三维模型之间的三维空间中的交叠程度的信息。

4.根据权利要求1所述的图像处理装置，还包括：

所述合成单元被配置成在所述确定单元确定所述被摄体的移动存在的情况下生成所述频闪图像。

5.根据权利要求1所述的图像处理装置，还包括：

显示控制单元，其在显示装置上显示所述频闪图像，其中，所述显示控制单元被配置成在所述被摄体的位置的改变量等于或小于预定值的情况下，显示通过将所述三维模型的显示位置布置在与原始位置不同的位置处而生成的频闪图像。

6.根据权利要求1所述的设备，所述图像处理设备包括一组装置，所述一组装置提供：

两个或更多个图像捕获装置，所述两个或更多个图像捕获装置被布置成使得所述连续图像包括从各个不同的图像捕获视点捕获的图像组；以及

一个或更多个距离测量装置。

7.根据权利要求6所述的设备，其中，所述两个或更多个图像捕获装置被布置成彼此同步地捕获图像。

8.根据权利要求6所述的设备，所述设备包括帧同步单元，所述帧同步单元用于检测一组图像之间的同步偏移。

9.根据权利要求1所述的设备，其中，所述模型生成单元被配置成检测与一组图像中的各个图像相对应的可视外壳的交集。

10.根据权利要求1所述的设备，其中，所述模型生成单元被配置成生成表示所述对象的网格，并且对所生成的网格执行纹理映射。

11.一种图像处理方法，包括以下步骤：

接收由两个或更多个间隔开的图像捕获装置同时捕获的对象的连续图像组和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息；

选择所述连续图像组的集合；以及

将纹理映射到所生成的三维模型；

12.一种图像处理装置，包括：

图像生成单元，其基于所述第一时间点至所述第三时间点中的至少两个时间点中的各个时间点的被摄体位置来生成合成三维模型，所述合成三维模型包括基于所述各个时间点的多个视点图像生成的在所述各个时间点处的被摄体的三维模型。

13.一种图像处理设备，其响应于对象的连续捕获图像和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像的集合；以及

合成单元，其被配置成通过叠加所选择的图像的集合的至少部分来生成关于频闪图像视点的频闪图像，使得在所述对象的所选择的图像的集合之中，所述对象的图像按照所述对象距所述频闪图像视点的距离的顺序排列，其中，对于在不同时间点处的所述对象的成对图像，更接近所述频闪图像视点的所述对象的较早图像被显示为比所述对象的较晚图像更靠近前景，其中，在所述成对图像中所述对象的较早图像具有比所述对象的较晚图像更小的距所述频闪图像视点的距离。

14.根据权利要求13所述的设备，所述设备包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。

15.一种图像处理设备，其响应于提供对象的表示的连续图像和指示所述对象相对于至少一个距离测量装置的三维位置的深度信息，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像的集合；以及

其中，当对于所选择的图像中的至少一对图像，所述对象的三维位置比阈值分离度更近时，所述合成单元被配置成使用针对与相应的捕获图像的显示位置不同的那些图像的对象的表示中的至少一些的显示位置来生成所述频闪图像。

16.根据权利要求15所述的设备，其中，所述合成单元被配置成使用针对沿预定显示路径的那些图像的对象的表示的显示位置来生成频闪图像。

17.一种图像处理设备，其响应于包含对象的表示的连续图像，所述图像处理设备包括：

帧选择单元，其被配置成选择所述连续图像的集合，使得在所选择的图像集合中的对象的表示之间的检测到的干扰小于阈值干扰；以及

18.根据权利要求17所述的设备，所述设备包括模型生成器，所述模型生成器用于根据所述连续图像生成所述对象的三维模型，并且其中，所述干扰检测单元被配置成检测关于围绕所生成的三维模型的一个或更多个边界框的干扰。

19.根据权利要求17所述的设备，其中，所述阈值干扰表示所述对象的表示的所述图像区域的预定比例的交叠。

20.根据权利要求17所述的设备，所述设备包括一组装置，所述一组装置提供：

一个或更多个距离测量装置。