CN101662693B

CN101662693B - 多视点媒体内容的发送和播放方法、装置及系统

Info

Publication number: CN101662693B
Application number: CN200810146721.8A
Authority: CN
Inventors: 詹五洲; 王东琦; 刘源
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd; Huawei Device Shenzhen Co Ltd
Priority date: 2008-08-27
Filing date: 2008-08-27
Publication date: 2014-03-12
Anticipated expiration: 2028-08-27
Also published as: WO2010022658A1; CN101662693A

Abstract

本发明实施例公开一种多视点媒体内容的播放和发送方法、装置及系统，涉及媒体内容播放技术。为解决现有技术在进行视点切换以后，音频信号与切换后的视点所对应的视频图像可能不匹配的问题而发明。本发明提供的技术方案为：一种多视点媒体内容的播放方法，包括：接收多视点媒体内容；当进行视点切换时，生成切换后的视点信息；根据所述视点信息和多视点媒体内容，生成与该视点信息对应的视频信号和对应的音频信号；同步输出所述视频信号和音频信号。本发明实施例提供的多视点媒体内容的播放和发送方法、装置及系统可以应用在具有多视点媒体内容播放功能的系统中。

Description

多视点媒体内容的发送和播放方法、装置及系统

技术领域

本发明涉及通信领域，尤其涉及一种多视点媒体内容的发送和播放方法、装置及系统。

背景技术

多视点媒体内容是指由多视点视频信息和音频信息组成的媒体内容。其中，所述多视点视频信息是指使用多个摄像机，从不同角度对同一场景进行同步拍摄获得的多个视频流组成的视频信息。在多视点媒体内容的播放端，观看者可以通过选择不同的视点，从不同角度观看所述多视点媒体内容。

但在多视点媒体内容的播放端，声音源的播放方向是固定不变的，即对所述多视点媒体内容进行视点切换以后，观看者观看到的视频信号和听到的音频信号之间可能存在角度差，使得视频信号与音频信号不匹配。例如：如图1所示，观看者P从三个不同的视点(对应的角度分别为∠α、∠β和∠γ)观看同一个场景中的同一个人物，得到所述三个视点对应的视频信号A、B和C，在图1中，声音源位于S处(角度为∠α)，当观看者选择角度为∠α的视点进行观看时，视频信号A与音频信号(从声音源S发出)的角度相同，此时视频信号A与音频信号相匹配；当观看者选择角度为∠β或者∠γ的视点进行观看时，视频信号B或者C和音频信号(从声音源S发出)之间存在角度差，视频信号和音频信号不匹配。

发明内容

本发明的实施例提供一种多视点媒体内容的发送和播放方法、装置及系统，能够在切换视点以后，使视频信号与音频信号的播放方向匹配。

为达到上述目的，本发明的实施例采用如下技术方案：

一种多视点媒体内容的播放方法，包括：接收多视点媒体内容，其中，所述多视点媒体内容包括：多视点的视频信息以及该视频信息的三维信息，和音频信息以及该音频信息的音源位置信息，所述三维信息包括所述多视点视频信息的深度信息以及相邻视点视频信息之间的视差信息；当进行视点切换时，生成切换后的视点信息；根据所述视点信息和多视点媒体内容，生成与该视点信息对应的视频信号和对应的音频信号；同步输出所述视频信号和音频信号。

一种多视点媒体内容的播放装置，包括：

媒体内容接收单元，用于接收多视点媒体内容，其中，所述多视点媒体内容包括：多视点的视频信息以及该视频信息的三维信息，和音频信息以及该音频信息的音源位置信息，所述三维信息包括所述多视点视频信息的深度信息以及相邻视点视频信息之间的视差信息；

视点信息生成单元，用于当进行视点切换时，生成切换后的视点信息；

信号生成单元，用于根据所述视点信息生成单元生成的视点信息，以及媒体内容接收单元接收的多视点媒体内容，生成与该视点信息对应的视频信号和对应的音频信号；

同步输出单元，用于同步输出所述信号生成单元生成的视频信号和音频信号。

一种多视点媒体内容的播放系统，包括：

多视点媒体内容发送装置，用于对接收到的多视点的视频信息以及从多个不同位置接收到的音频信息进行处理，获取所述视频信息的三维信息以及所述音频信息的音源位置信息，将所述多视点的视频信息以及该视频信息的三维信息，和所述音频信息以及该音频信息的音源位置信息进行编码，生成多视点媒体内容后发送，其中，所述三维信息包括所述多视点视频信息的深度信息以及相邻视点视频信息之间的视差信息；

多视点媒体内容播放装置，用于接收所述多视点媒体内容发送装置发送的多视点媒体内容，当进行视点切换时，生成切换后的视点信息，根据该视点信息以及接收到的多视点媒体内容，生成对应的视频信号和音频信号，同步输出所述视频信号和音频信号。

本发明实施例提供的多视点媒体内容的发送和播放方法、装置及系统，由于发送端发送的多视点媒体内容中包含了多视点视频信息的三维信息以及音频信息的音源位置信息，所以播放端能够根据切换后的视点信息以及接收到的多视点媒体内容，生成与该视点信息对应的视频信号和音频信号，解决了现有技术由于音频信号是固定不变的，在进行视点切换以后，音频信号与切换后视点所对应的视频信号不匹配的问题。

图1为现有技术中观看者从三个不同视点观看多视点媒体内容的示意图；

图2为本发明实施例提供的多视点媒体内容的发送方法流程图一；

图3为本发明实施例提供的多视点媒体内容的发送方法流程图二；

图4为本发明实施例提供的多视点媒体内容的播放方法流程图；

图5为本发明实施例提供的多视点媒体内容的发送装置结构示意图一；

附图说明

图6为本发明实施例提供的多视点媒体内容的发送装置结构示意图二；

图7为本发明实施例提供的多视点媒体内容的播放装置结构示意图一；

图8为本发明实施例提供的多视点媒体内容的播放装置结构示意图二；

图9为本发明实施例提供的多视点媒体内容的播放系统结构示意图一；

图10为本发明实施例提供的多视点媒体内容的播放系统结构示意图二。

具体实施方式

如图2所示，本发明实施例提供的多视点媒体内容的发送方法，包括：

步骤201，根据多视点的视频信息，获取所述视频信息的三维信息；

在本实施例中，所述多视点的视频信息是通过一个摄像机组拍摄获得的，该摄像机组包括一个以上位于不同视点的摄像机，所述步骤201可以对所述多视点的视频信息进行三维信息处理，获得该多视点视频信息的三维信息，其中，该三维信息可以包括：所述多视点视频信息的深度信息以及相邻视点视频信息之间的视差信息等；

步骤202，根据从多个不同位置接收到的音频信息，获得所述音频信息的音源位置信息；

在本实施例中，所述从多个不同位置接收到的音频信息是通过一个麦克风阵列获得的，该麦克风阵列包括多个位于不同位置的麦克风，所述步骤202可以对所述通过麦克风阵列获得的音频信息使用波束形成等阵列信号处理技术进行处理，获得所述音频信息的音源位置信息；

在本实施例中，所述音频信息中可能包括一个以上的音源信号，此时，所述步骤202获得的音频信息的音源位置信息为每个音源信号对应的音源位置信息；

步骤203，将所述多视点的视频信息以及该视频信息的三维信息，和所述音频信息以及该音频信息的音源位置信息进行编码，生成多视点媒体内容后发送。

本发明实施例提供的的多视点媒体内容的发送方法，由于其发送的多视点媒体内容中包含多视点视频信息的三维信息以及音频信息的音源位置信息，所以，为播放端在视点切换以后生成切换后视点对应的视频信号和音频信号提供了条件。

当本发明实施例提供的多视点媒体内容的发送方法应用在双向系统中时，如应用在会场中，如图3所示，在如图2所示的步骤202之前，还可以包括：

步骤200a，获取播放的多视点媒体内容的音频信号；

步骤200b，根据所述获取的播放的多视点媒体内容的音频信号，对所述从多个不同位置接收到的音频信息进行回声抵消处理。

所述步骤200a和200b可以位于所述步骤201之前，也可以位于所述步骤201之后，在本实施例中，如图3所示，所述步骤200a和200b位于步骤201之前。

本发明实施例提供的多视点媒体内容的发送方法，由于对接收到的音频信息进行了回声抵消处理，使得在双向系统中，播放端播放的音频信号不会对发送端接收到的音频信息产生干扰。

如图4所示，本发明实施例提供的多视点媒体内容的播放方法，包括：

步骤401，接收多视点媒体内容；

在本实施例中，所述步骤401可以通过网络接收多视点媒体内容发送端发送多视点媒体内容；所述多视点媒体内容可以包括：视频信息以及该视频信息的三维信息(如：深度信息或者视差信息等)，和音频信息以及该音频信息的音源位置信息等，其中，所述视频信息由一个以上视点拍摄获得的视频流组成，所述音频信息包括至少一个音源信息，所述音频信息的音源位置信息是指每个音源的位置信息；

步骤402，当进行视点切换时，生成切换后的视点信息，包括：接收用户通过遥控器或者其他输入设备发送的视点切换信息；根据所述视点切换信息以及所述多视点媒体内容中视频信息的三维信息，生成切换后的视点信息；

步骤403，根据所述视点信息和多视点媒体内容，生成与该视点信息对应的视频信号和对应的音频信号；

理论上来讲，所述多视点媒体内容中包含的视频信息应该由所有视点拍摄获得的视频流组成，然而，出于拍摄成本的考虑，实际上所述多视点媒体内容中包含的视频信息仅由几个关键视点拍摄获得的视频流组成，例如：所述视频信息是由从景物的前面、左侧面、右侧面和后面拍摄获得的视频流组成；

综上所述，在本实施例中，所述步骤403具体是利用与切换后的视点相邻的两个关键视点的视频信息以及该视频信息之间的视差信息，使用虚拟视点合成算法，合成所述切换后的视点对应的视频信号；

在本实施例中，所述步骤403生成与视点信息对应的音频信号的步骤可以包括：首先，根据所述步骤402中获得的切换以后的视点信息，以及所述多视点媒体内容中音频信息的音源位置信息，生成与该视点信息对应的音频信息的音源位置信息；然后，根据所述生成的音频信息的音源位置信息以及所述多视点媒体内容中包含的音频信息，使用波前合成技术，生成与该视点信息对应的音频信号；当然，所述步骤403也可以采用其他类似于波前合成技术的三维音频播放技术生成与切换后的视点对应的音频信号，此处，不对其他情况进行赘述；

当所述音频信息中包括一个以上的音源时，所述步骤403需要为每个音源分别生成与切换后的视点对应的音源位置信息；

步骤404，同步输出步骤403中生成的视频信号和音频信号。

进一步地，本发明实施例提供的多视点媒体内容的播放方法，在所述步骤403之后，还可以包括：将所述与切换后的视点对应的音频信号进行回声抵消处理的步骤。

本发明实施例提供的多视点媒体内容的播放方法，能够根据切换后的视点信息以及接收到的多视点媒体内容，生成与该视点信息对应的视频信号和音频信号，解决了现有技术由于音频信号是固定不变的，在进行视点切换以后，音频信号与切换后视点所对应的视频信号位置之间存在角度差，使得播放的音频信号与视频信号不匹配的问题，实现了音频信号与视频信号同步切换的目的，提高了用户观看所述多视点媒体内容的真实感和临场感。

与上述本发明实施例提供的多视点媒体内容的发送方法相对应地，如图5所示，本发明实施例还提供一种多视点媒体内容的发送装置，包括：

视频信息处理单元501，用于根据多视点视频信息，获取所述视频信息的三维信息；

音频信息处理单元502，用于根据从多个不同位置接收到的音频信息，获得所述音频信息的音源位置信息；

多视点媒体内容生成单元503，用于将所述多视点的视频信息以及所述视频信息处理单元501获得的所述多视点视频信息的三维信息，和所述音频信息以及所述音频信息处理单元502获得的所述音频信息的音源位置信息进行编码，生成多视点媒体内容后发送。

进一步地，如图6所示，本发明实施例提供的多视点媒体内容的发送装置，还可以包括：

音频信号获取单元504，用于获取播放的多视点媒体内容的音频信号；

回声抵消处理单元505，用于根据所述回声抵消信息接收单元504获取的播放的音频信号，对所述从多个不同位置接收到的音频信息进行回声抵消处理；

所述音频信息处理单元502，还用于对所述回声抵消处理单元505处理以后的音频信息进行处理，获取该音频信息的三维信息。

本发明实施例提供的的多视点媒体内容的发送装置，由于其发送的多视点媒体内容中包含多视点视频信息的三维信息以及音频信息的音源位置信息，所以，为播放端在视点切换以后生成切换后视点对应的视频信号和音频信号提供了条件。

如图7所示，本发明实施例提供的多视点媒体内容的播放装置，包括：

媒体内容接收单元701，用于接收多视点媒体内容；

在本实施例中，所述媒体内容接收单元701可以通过网络接口，从网络上接收发送端经过处理以后的多视点媒体内容；所述多视点媒体内容可以包括：视频信息以及该视频信息的三维信息(如：深度信息或者视差信息等)，和音频信息以及该音频信息的音源位置信息等，其中，所述视频信息由一个以上视点拍摄获得的视频流组成，所述音频信息包括至少一个音源信息，所述音频信息的音源位置信息是指每个音源的位置信息；

视点信息生成单元702，用于当进行视点切换时，生成切换后的视点信息；

信号生成单元703，用于根据所述视点信息生成单元702生成的视点信息，以及媒体内容接收单元701接收的多视点媒体内容，生成与该视点信息对应的视频信号和音频信号；

同步输出单元704，用于同步输出所述信号生成单元703生成的视频信号和音频信号。

进一步地，如图8所示，所述视点信息生成单元702可以包括：

切换信息获取单元7021，用于获取视点切换信息；

第一生成单元7022，用于根据所述切换信息获取单元7021获取的视点切换信息，以及所述多视点媒体内容中包含的视频信息的三维信息，生成切换后的视点信息。

进一步地，如图8所示，所述信号生成单元703包括音频信息生成单元7031，该音频信号生成单元7031可以包括：

位置信息生成单元70311，用于根据所述视点信息生成单元702生成的视点信息，以及所述多视点媒体内容中包含的音频信息的音源位置信息，生成与所述视点信息对应的音频信息的音源位置信息；

第二生成单元70312，用于根据所述多视点媒体内容中包含的音频信息以及位置信息生成单元70311生成的与所述视点信息对应的音频信息的音源位置信息，生成与所述视点信息对应的音频信号。

进一步地，如图8所示，所述多视点媒体内容的播放装置，还可以包括：

回声抵消处理单元705，用于将所述与视点信息对应的音频信号进行回声抵消处理。

本发明实施例提供的多视点媒体内容的播放装置，能够根据切换后的视点信息以及接收到的多视点媒体内容，生成与该视点信息对应的视频信号和音频信号，解决了现有技术由于音频信号是固定不变的，在进行视点切换以后，音频信号与切换后视点所对应的视频信号位置之间存在角度差，使得音频信号与视频信号不匹配的问题，实现了音频与视频同步切换的目的，提高了用户观看所述多视点媒体内容的真实感和临场感。

如图9所示，本发明实施例提供的多视点媒体内容的播放系统，包括：

多视点媒体内容发送装置901，用于对接收到的多视点的视频信息以及从一多个不同位置接收到的音频信息进行处理，获取所述视频信息的三维信息以及所述音频信息的音源位置信息，将所述多视点的视频信息以及该视频信息的三维信息，和所述音频信息以及该音频信息的音源位置信息进行编码，生成多视点媒体内容后发送；

多视点媒体内容播放装置902，用于接收所述多视点媒体内容发送装置901发送的多视点媒体内容，当进行视点切换时，生成切换后的视点信息，根据该视点信息以及接收到的多视点媒体内容，生成对应的视频信号和音频信号，同步输出所述视频信号和音频信号。

进一步地，当本发明实施例提供的多视点媒体内容的播放系统为一个双向通信系统时，如会场，如图10所示，所述多视点媒体内容的播放系统，还可以包括：

回声抵消装置903，用于接收所述多视点媒体内容播放装置902生成的音频信号，将该音频信号发送给多视点媒体内容发送装置901；

所述多视点媒体内容发送装置901，还用于根据所述回声抵消装置903发送的音频信号，对从多个不同位置接收到的音频信息进行回声抵消处理。

本发明实施例提供的多视点媒体内容的播放系统，能够根据切换后的视点信息以及接收到的多视点媒体内容，生成与该视点信息对应的视频信号和音频信号，解决了现有技术由于音频信号是固定不变的，在进行视点切换以后，音频信号与切换后视点所对应的视频信号位置之间存在角度差，使得音频信号与视频信号不匹配的问题，实现了音频与视频同步切换的目的，提高了用户观看所述多视点媒体内容的真实感和临场感。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一计算机可读存储介质中，如ROM/RAM、磁碟或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种多视点媒体内容的播放方法，其特征在于，包括：

接收多视点媒体内容，其中，所述多视点媒体内容包括：多视点的视频信息以及该视频信息的三维信息，和音频信息以及该音频信息的音源位置信息，所述三维信息包括所述多视点视频信息的深度信息以及相邻视点视频信息之间的视差信息；

当进行视点切换时，生成切换后的视点信息；

根据所述视点信息和多视点媒体内容，生成与该视点信息对应的视频信号和对应的音频信号；

同步输出所述视频信号和音频信号；

所述根据所述视点信息和多视点媒体内容，生成与该视点信息对应的视频信号包括：利用与切换后的视点相邻的两个关键视点的视频信息以及该视频信息之间的视差信息，使用虚拟视点合成算法，合成所述切换后的视点对应的视频信号。

2.根据权利要求1所述的多视点媒体内容的播放方法，其特征在于，所述生成切换后的视点信息包括：

获取视点切换信息；

根据所述视点切换信息和视频信息的三维信息，生成切换后的视点信息。

3.根据权利要求1所述的多视点媒体内容的播放方法，其特征在于，所述根据所述视点信息和多视点媒体内容，生成与该视点信息对应的音频信号包括：

根据所述视点信息和所述音频信息的音源位置信息，生成与所述视点信息时应的音频信息的音源位置信息；

根据所述音频信息以及与所述视点信息对应的音频信息的音源位置信息，生成与所述视点信息对应的音频信号。

4.根据权利要求1所述的多视点媒体内容的播放方法，其特征在于，所述根据所述视点信息和多视点媒体内容，生成与该视点信息对应的视频信号和对应的音频信号之后，还包括：将所述与视点信息对应的音频信号进行回声抵消处理。

5.一种多视点媒体内容的播放装置，其特征在于，包括：

同步输出单元，用于同步输出所述信号生成单元生成的视频信号和音频信号；

所述信号生成单元，还用于利用与切换后的视点相邻的两个关键视点的视频信息以及该视频信息之间的视差信息，使用虚拟视点合成算法，合成所述切换后的视点对应的视频信号。

6.根据权利要求5所述的多视点媒体内容的播放装置，其特征在于，所述视点信息生成单元包括：

切换信息获取单元，用于获取视点切换信息；

第一生成单元，用于根据所述切换信息获取单元获取的视点切换信息，以及所述多视点媒体内容中包含的视频信息的三维信息，生成切换后的视点信息。

7.根据权利要求5所述的多视点媒体内容的播放装置，其特征在于，所述信号生成单元包括音频信号生成单元，该音频信号生成单元包括：

位置信息生成单元，用于根据所述视点信息生成单元生成的视点信息，以及所述多视点媒体内容中包含的音频信息的音源位置信息，生成与所述视点信息对应的音频信息的音源位置信息；

第二生成单元，用于根据所述多视点媒体内容中包含的音频信息以及位置信息生成单元生成的与所述视点信息对应的音频信息的音源位置信息，生成与所述视点信息对应的音频信号。

8.根据权利要求5所述的多视点媒体内容的播放装置，其特征在于，还包括：

回声抵消处理单元，用于将所述与视点信息对应的音频信号进行回声抵消处理。

9.一种多视点媒体内容的播放系统，其特征在于，包括：

多视点媒体内容发送装置，用于对接多视点的视频信息以及从多个不同位置接收到的音频信息进行处理，获取所述视频信息的三维信息以及所述音频信息的音源位置信息，将所述多视点的视频信息以及该视频信息的三维信息，和所述音频信息以及该音频信息的音源位置信息进行编码，生成多视点媒体内容后发送，其中，所述三维信息包括所述多视点视频信息的深度信息以及相邻视点视频信息之间的视差信息；

多视点媒体内容播放装置，用于接收所述多视点媒体内容发送装置发送的多视点媒体内容，当进行视点切换时，生成切换后的视点信息，根据该视点信息以及接收到的多视点媒体内容，生成对应的视频信号和音频信号，同步输出所述视频信号和音频信号；

所述多视点媒体内容播放装置，还用于利用与切换后的视点相邻的两个关键视点的视频信息以及该视频信息之间的视差信息，使用虚拟视点合成算法，合成所述切换后的视点对应的视频信号。

10.根据权利要求9所述的多视点媒体内容的播放系统，其特征在于，还包括：

回声抵消装置，用于接收所述多视点媒体内容播放装置生成的音频信号，将该音频信号发送给多视点媒体内容发送装置；

所述多视点媒体内容发送装置，还用于根据所述回声抵消装置发送的音频信号，对从多个不同位置接收到的音频信息进行回声抵消处理。