CN113891233B

CN113891233B - 信号处理设备和方法、及计算机可读存储介质

Info

Publication number: CN113891233B
Application number: CN202111146300.7A
Authority: CN
Inventors: 辻实; 知念徹; 畠中光行
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2017-11-14
Filing date: 2018-10-31
Publication date: 2024-04-09
Anticipated expiration: 2038-10-31
Also published as: CN111316671B; JP7192786B2; JPWO2019098022A1; KR102548644B1; US20230336935A1; US20210176581A1; EP3713255A1; WO2019098022A1; RU2020114250A; EP3713255A4; CN111316671A; US11722832B2; RU2020114250A3; CN113891233A; KR20200087130A

Abstract

本申请提供了一种信号处理设备和方法、及计算机可读存储介质。该信号处理设备设置有：显示单元，基于供应的内容的视频的图像数据显示内容创建工具的显示屏幕，显示屏幕上显示有POV图像，POV图像是从收听空间中的收听者的视点观看的收听空间的图像；定位位置确定单元，获取与从在显示单元上显示的收听空间中的收听位置观看的每个音轨的声音的声像的定位位置相关联的信息，并且确定每个音轨的声音的声像的定位位置；增益计算单元，基于由定位位置确定单元确定的定位位置，计算相对于每个音轨的音频数据的每个声道的增益值；以及生成单元，基于获取的与定位位置相关联的信息和计算的增益值，来生成并输出至少包括内容的音频数据的比特流。

Description

信号处理设备和方法、及计算机可读存储介质

本申请是PCT申请号为PCT/JP2018/040425、申请日为2018年10月31日、发明名称为“信号处理设备和方法以及程序”的PCT申请的中国国家阶段申请的分案申请，该中国国家阶段申请进入国家阶段日为2020年4月30日、国家申请号为201880071368.3。

技术领域

本技术涉及信号处理设备和方法以及程序，更具体地，涉及可以容易地确定声像的定位位置的信号处理设备和方法以及程序。

背景技术

近年来，基于对象的音频技术引起了人们的关注。

在基于对象的音频中，对象音频数据包括相对于音频对象的波形信号和指示音频对象的定位信息的元信息，该音频对象的定位信息由距作为预定参考的收听位置的相对位置表示。

然后，基于元信息，通过例如基于矢量的幅度平移(VBAP)将音频对象的波形信号渲染为期望数量的声道的信号，并进行再现(例如，参见非专利文献1和2)。

在基于对象的音频中，可以在创建音频内容时在三维空间上沿各个方向布置音频对象。

例如，在用于Tools的Dolby Atoms Panner插件(参见例如非专利文献3)中，可以在3D图形的用户界面上指定音频对象的位置。利用该技术，通过将在用户界面上显示的虚拟空间的图像上的位置指定为音频对象的位置，可以在三维空间上沿任意方向定位音频对象的声音的声像。

另一方面，相对于传统双声道立体声的声像的定位通过称为平移(panning)的技术来调整。例如，通过经由用户界面(UI)改变预定音轨相对于左右双声道的比例比来确定声像要定位在左右方向上的位置。

现有技术文献

专利文献

非专利文献1：ISO/IEC 23008-3Information technology-High efficiencycoding and media delivery in heterogeneous environments-Part 3:3D audio非专利文献2：Ville Pulkki，“Virtual Sound Source Positioning Using Vector BaseAmPLitude Panning”，Journal of AES，Vol.45，No.6，PP.456-466，1997

非专利文献3：Dolby Laboratories，Inc.，“Authoring for Dolby Atmos(R)Cinema Sound Manual”，[在线]，[2017年10月31日检索]，互联网<httPs://www.dolby.com/us/en/technologies/dolby-atmos/authoring-for-dolby-atmos-cinema-sound-manual.Pdf>

发明内容

本发明要解决的问题

然而，利用前述技术，难以容易地确定声像的定位位置。

即，在基于对象的音频和双声道立体声的任一种情况下，音频内容的创建者不能直观地指定声像相对于内容的声音的实际收听位置的定位位置。

例如，利用Pro Tools的Dolby Atoms Panner插件，三维空间上的任何位置都可以指定为声像的定位位置。但当从实际收听位置观看指定的位置时，却无法知道声像的定位位置所在位置。

同样，当在双声道立体声的情况下指定比例比时，也难以直观地掌握比例比与声像的定位位置之间的关系。

因此，创建者反复调整声像的定位位置，并在该定位位置处收听声音，以确定最终的定位位置。因此，需要一种经验感来减少这种定位位置调整的次数。

特别地，在将声音的定位位置调整到视频的情况下，例如，人的声音被定位在屏幕上所示的人的嘴的位置处以使声音从视频的嘴中出来，难以在用户界面上准确和直观地指定定位位置。

本技术是鉴于这种情况而做出的，并且使能够容易地确定声像的定位位置。

解决问题的办法

本技术的一方面的信号处理设备包括：获取单元，被配置为获取与在显示从收听位置观看到的收听空间的状态下指定的收听空间中的音频对象的声像的定位位置相关联的信息；以及生成单元，被配置为基于与定位位置相关联的信息生成比特流。

本技术的一个方面的信号处理方法或程序包括以下步骤：获取与在显示从收听位置观看到的收听空间的状态下指定的收听空间中的音频对象的声像的定位位置相关联的信息；并且基于与定位位置相关联的信息生成比特流。

在本技术的一个方面中，获取与在显示从收听位置观看到的收听空间的状态下为指定的收听空间中的音频对象的声像的定位位置相关联的信息；并且基于与定位位置相关联的信息生成比特流。

本发明的效果

根据本技术的一个方面，可以容易地确定声像的定位位置。

注意，本文描述的效果不一定是有限的，而也可以是本公开中描述的任何效果。

附图说明

图1是解释编辑图像和声像定位位置的确定的图。

图2是解释增益值的计算的图。

图3是示出信号处理设备的配置示例的图。

图4是解释定位位置确定处理的流程图。

图5是示出设置参数的示例的图。

图6是示出POV图像和俯视图像的显示示例的图。

图7是解释定位位置标记的布置位置的调整的图。

图8是解释定位位置标记的布置位置的调整的图。

图9是示出扬声器的显示示例的图。

图10是解释位置信息的插值的图。

图11是解释定位位置确定处理的流程图。

图12是示出计算机的配置示例的图。

具体实施方式

下面参考附图描述应用了本技术的实施例。

<第一实施例>

<关于现有技术>

本技术在图形用户界面(GUI)上指定声像的定位位置，该图形用户界面(GUI)模拟其中从收听位置通过视点拍摄(Point of view shot)(下文简称POV)再现内容的收听空间，以便能够容易地确定声像的定位位置。

因此，例如，在用于音频内容的创建工具中，可以实现能够容易地确定声音定位位置的用户界面。特别地，在基于对象的音频的情况下，可以实现能够容易地确定音频对象的位置信息的用户界面。

首先，将描述内容是包括静止图像或运动图像以及伴随视频的左右双声道声音的视频的情况。

在这种情况下，例如，在内容创建中，可以使用可视且直观的用户界面容易地确定根据视频的声音的定位。

这里，作为具体示例，假设存在内容的音频数据，即作为音轨的鼓、电吉他以及两把原声吉他的总共四个乐器的音频数据轨道。此外，假设存在包括那些乐器和作为主体的乐器演奏者的内容的视频。

而且，假设左声道扬声器在收听者从内容的声音的收听位置观看时水平角为30度的方向上，并且右声道扬声器在从收听位置观看时水平角为-30度的方向上。

注意，本文使用的水平角是指指示水平方向上的位置(即当在从收听位置处的收听者观看的左右方向上的位置)的角度。例如，指示在水平方向上的收听者的正前方的方向上的位置的水平角是0度。此外，假设指示从收听者观看的左侧方向上的位置的水平角是正角度，并且指示从收听者观看的右侧方向上的位置的水平角是负角度。

现在，考虑确定用于左右声道输出的内容的声音的声像的定位位置。

在这种情况下，在本技术中，例如，图1所示的编辑图像P11在内容创建工具的显示屏幕上显示。

编辑图像P11是收听者在收听内容的声音时观看的图像(视频)，并且例如，包括内容的视频的图像显示为编辑图像P11。

在该示例中，乐器的演奏者在编辑图像P11中的内容的视频上显示为主体。

即，这里，编辑图像P11示出鼓演奏者PL11、电吉他演奏者PL12、第一原声吉他演奏者PL13以及第二原声吉他演奏者PL14。

此外，编辑图像P11还显示用于演奏者PL11至PL14的演奏的诸如鼓、电吉他、原声吉他的乐器。这些乐器可以说是音频对象，该音频对象是基于音轨的声音的声源。

注意，在下面，当两个原声吉他彼此区分时，由演奏者PL13使用的原声吉他也称作原声吉他1，而由演奏者PL14使用的原声吉他也称为原声吉他2。

这种编辑图像P11也用作用户界面(即输入界面)。在编辑图像P11上，还显示用于指定每一个音轨的声音的声像的定位位置的定位位置标记MK11至MK14。

这里，定位位置标记MK11至MK14分别指示鼓、电吉他、原声吉他1以及原声吉他2的音轨的声音的声像定位位置。

特别地，被选择为定位位置调整目标的电吉他的音轨的定位位置标记MK12被突出显示，并且以与未被选择的音轨的定位位置标记的格式不同的显示格式显示。

内容创建者将所选择的音轨的定位位置标记MK12移动到编辑图像P11上的任意位置，使得该音轨的声音的声像可以定位在定位位置标记MK12的位置处。换言之，可以将内容的视频上的任意位置(即收听空间上的任意位置)指定为音轨的声音的声像的定位位置。

在本示例中，与乐器相对应的音轨的声音的定位位置标记MK11至MK14布置在演奏者PL11至PL14的乐器的位置处，并且每一个乐器的声音的声像定位在演奏者的乐器的位置处。

在内容创建工具中，当通过指定定位位置标记的显示位置来指定每一个音轨的声音的定位位置时，基于定位位置标记的显示位置来计算关于音轨(音频数据)的左声道和右声道的每一个的增益值。

即，基于指示编辑图像P11上的定位位置标记的位置的坐标来确定音轨的左声道和右声道的比例比，并且从确定结果获得左声道和右声道中的每一个声道的增益值。注意，在此，由于在左右双声道上执行分配，因此仅考虑编辑图像P11上的左右方向(水平方向)，而不考虑定位位置标记在上下方向上的位置。

具体地说，例如，基于水平角来获得增益值，该水平角指示从图2所示的收听位置观看的水平方向上的每一个定位位置标记的位置。注意，与图1中的那些相对应的图2的部分由相同的附图标记表示，并且适当地省略描述。此外，在图2中，为了便于观看图，省略了定位位置标记的图。

在本示例中，在收听位置O的前方的位置(即其上显示编辑图像P11的屏幕的中心位置O')是编辑图像P11，并且屏幕在左右方向上的长度(即编辑图像P11在左右方向上的视频宽度)是L。

此外，演奏者PL11至PL14在编辑图像P11上的位置(即用于演奏者演奏的乐器的位置)是位置PJ1至PJ4。特别地，在本示例中，由于定位位置标记布置在各个演奏者的乐器的位置处，所以定位位置标记MK11至MK14的位置是位置PJ1至PJ4。

此外，在显示编辑图像P11的屏幕上的图中左端的位置是位置PJ5，而屏幕上的图中右端的位置是位置PJ6。这些位置PJ5和PJ6也是布置左右扬声器的位置。

现在，在图中，假设从左右方向上的中心位置O'观看的指示位置PJ1至PJ4中的每一个位置的坐标是X₁至X₄。特别地，这里，假设从中心位置O'观看的位置PJ5的方向是正方向，而从中心位置O'观看的位置PJ6的方向是负方向。

因此，例如，从中心位置O'到位置PJ1的距离是指示位置PJ1的坐标X₁。

此外，假设从收听位置O观看位置PJ1至PJ4的水平方向(即指示图中的左右方向上的位置的角度)是水平角θ₁至θ₄。

例如，水平角θ₁是连接收听位置O和中心位置O'的直线与连接收听位置O和位置PJ1的直线之间的角度。特别地，这里，左方向是从图中的收听位置O观看时水平角的正角度的方向，右方向是从图中的收听位置O观看时水平方向的负角度的方向。

此外，如上所述，指示左声道扬声器的位置的水平角是30度，并且指示右声道扬声器的位置的水平角是-30度。因此，位置PJ5的水平角为30度，并且位置PJ6的水平角是-30度。

由于左声道扬声器和右声道扬声器布置在屏幕的左右端，所以编辑图像P11的视角(即内容视频的视角)也是±30度。

在这种情况下，每一个音轨(音频数据)的比例比(即左声道和右声道中的每一个声道的增益值)由从收听位置O观看时的声像的定位位置的水平角来确定。

例如，指示鼓的音轨的位置PJ1的水平角θ₁可以从指示从中心位置O'观看的位置PJ1的坐标X₁和视频宽度L通过下式(1)表示的计算来获得。

[数学式1]

因此，可通过以下公式(2)和(3)获得用于将基于鼓的音频数据(音轨)的声音的声像定位在由水平角θ₁指示的位置PJ1处的左右声道的增益值GainL₁和GainR₁。注意，增益值GainL₁是左声道的增益值，并且增益值GainR₁是右声道的增益值。

[数学式2]

[数学式3]

在内容再现时，鼓的音频数据乘以增益值GainL₁，并且基于所得的音频数据从左声道扬声器输出声音。此外，增益值GainR₁乘以鼓的音频数据，并且基于所得的音频数据从右声道扬声器输出声音。

然后，鼓的声音的声像被定位在位置PJ1，即内容的视频中的鼓(演奏者PL11)的位置。

不仅针对鼓的音轨，还针对其它的音轨：电吉他、原声吉他1以及原声吉他2执行与公式(1)至(3)类似的计算，以计算左右声道中的每一个的增益值。

即，基于坐标X₂和视频宽度L，获得电吉他的音频数据的左右声道的增益值GainL₂和GainR₂。

此外，基于坐标X₃和视频宽度L，获得原声吉他1的音频数据的左右声道的增益值GainL₃和GainR₃，并且基于坐标X₄和视频宽度L，获得原声吉他2的音频数据的左右声道的增益值GainL₄和GainR₄。

注意，在假设左右声道的扬声器位于屏幕末端之外的情况下(即在左右扬声器之间的距离L_spk大于视频宽度L的情况下)，通过利用公式(1)中的距离L_spk替换视频宽度L来执行计算就足够了。

以上述方式，在创建左右双声道内容时，可以使用直观的用户界面来容易地确定与内容的视频相匹配的声音的声像定位位置。

(信号处理设备的配置示例)

接下来，将描述应用了上述本技术的信号处理设备。

图3是示出应用了本技术的信号处理设备的实施例的配置示例的图。

图3所示的信号处理设备11包括输入单元21、记录单元22、控制单元23、显示单元24、通信单元25以及扬声器单元26。

输入单元21包括叠加在显示单元24上的开关、按钮、鼠标、键盘、触摸面板等，并且将与作为内容创建者的用户的输入操作相对应的信号供应到控制单元23。

记录单元22例如包括诸如硬盘的非易失性存储器，并且记录从控制单元23供应的音频数据等，并且将所记录的数据供应到控制单元23。注意，记录单元22可以是可从信号处理设备11拆卸的可移除记录介质。

控制单元23控制整个信号处理设备11的操作。控制单元23包括定位位置确定单元41、增益计算单元42以及显示控制单元43。

定位位置确定单元41基于从输入单元21供应的信号确定每一个音轨(即每一个音频数据的声音的声像)的定位位置。

换言之，定位位置确定单元41可以说能够起到获取单元的作用，该获取单元获取与从在显示单元24上显示的收听空间中的收听位置观看的音频对象(诸如乐器)的声音的声像的定位位置相关联的信息，并且确定定位位置。

这里，与声像的定位位置相关联的信息例如是指示从收听位置观看的音频对象的声音的声像的定位位置的位置信息、用于获得该位置信息的信息等。

增益计算单元42基于由定位位置确定单元41确定的定位位置，来计算相对于每一个音频对象(即音轨)的音频数据的每一个声道的增益值。显示控制单元43控制显示单元24以控制图像等在显示单元24上的显示。

此外，控制单元23也用作生成单元，该生成单元基于与由定位位置确定单元41获取的定位位置相关联的信息和由增益计算单元42计算出的增益值，来生成并输出至少包括内容的音频数据的输出比特流。

显示单元24包括例如液晶显示面板，并且在显示控制单元43的控制下显示诸如POV图像的各种图像等。

通信单元25经由诸如互联网的有线或无线通信网络与外部设备通信。例如，通信单元25接收从外部设备发送的数据并将该数据供应至控制单元23，或者将从控制单元23供应的数据发送到外部设备。

扬声器单元26包括例如具有预定声道配置的扬声器系统的每一个声道的扬声器，并且基于从控制单元23供应的音频数据来再现(输出)内容的声音。

<定位位置确定处理的描述>

接下来，将描述信号处理设备11的操作。

即，下面将参考图4的流程图描述由信号处理设备11执行的定位位置确定处理。

在步骤S11中，显示控制单元43使显示单元24显示编辑图像。

例如，当响应于内容创建者的操作而从输入单元21向控制单元23供应指示内容创建工具的激活的信号时，控制单元23激活内容创建工具。此时，控制单元23根据需要从记录单元22读出由内容创建者指定的内容的视频的图像数据和附加到该视频的音频数据。

然后，显示控制单元43根据内容创建工具的激活而向显示单元24供应用于显示包括编辑图像的内容创建工具的显示屏幕(窗口)的图像数据，并使显示屏幕被显示。这里，编辑图像例如是其中指示基于每一个音轨的声音的声像定位位置的定位位置标记叠加在内容的视频上的图像。

显示单元24基于从显示控制单元43供应的图像数据来显示内容创建工具的显示屏幕。因此，例如，包括图1所示的编辑图像P11的屏幕在显示单元24上显示为内容创建工具的显示屏幕。

当显示包括编辑图像的内容创建工具的显示屏幕时，内容创建者操作输入单元21以从内容的音轨(音频数据)中选择要调整声像的定位位置的音轨。然后，将与内容创建者的选择操作相对应的信号从输入单元21供应到控制单元23。

例如，音轨的选择可以通过例如在与显示屏幕上的编辑图像分开显示的音轨的时间线上指定在期望的再现时间的期望的音轨来执行，或者通过直接指定显示的定位位置标记来执行。

在步骤S12中，定位位置确定单元41基于从输入单元21供应的信号来选择声像的定位位置要被调整的音轨。

当定位位置确定单元41选择待调整声像的定位位置的音轨时，显示控制单元43使显示单元24根据选择结果，以不同于其他定位位置标记的显示格式来显示与所选择的音轨相对应的定位位置标记。

当与所选择的音轨相对应的定位位置标记以不同于其它定位位置标记的显示格式显示时，内容创建者操作输入单元21以将目标定位位置标记移动到任意位置，从而指定声像的定位位置。

例如，在图1所示的示例中，内容创建者通过将定位位置标记MK12的位置移动到任意位置来指定电吉他声音的声像定位位置。

然后，由于与内容创建者的输入操作相对应的信号从输入单元21供应至控制单元23，显示控制单元43根据从输入单元21供应的信号使显示单元24移动定位位置标记的显示位置。

此外，在步骤S13中，定位位置确定单元41基于从输入单元21供应的信号确定待调整的音轨的声音的声像的定位位置。

即，定位位置确定单元41从输入单元21获取指示编辑图像中的定位位置标记的位置的信息(信号)，该信息响应于内容创建者的输入操作而输出。然后，定位位置确定单元41基于获取到的信息，确定编辑图像(即内容的视频)上的由目标定位位置标记指示的位置作为声像的定位位置。

此外，根据声像的定位位置的确定，定位位置确定单元41生成指示定位位置的位置信息。

例如，在图2所示的示例中，假设定位位置标记MK12已移动到位置PJ2。在这种情况下，定位位置确定单元41基于获取到的坐标X₂执行类似于上述公式(1)的计算，并且计算水平角θ₂作为指示电吉他的音轨的声像的定位位置的位置信息，换言之，指示作为音频对象的演奏者PL12(电吉他)的位置的位置信息。

在步骤S14中，增益计算单元42基于作为在步骤S13中确定定位位置的结果而获得的位置信息的水平角，计算在步骤S12中选择的音轨的左声道和右声道的增益值。

例如，在步骤S14中，执行类似于上述公式(2)和(3)的计算，以计算左声道和右声道的增益值。

在步骤S15中，控制单元23确定是否结束声像的定位位置的调整。例如，在内容创建者操作输入单元21以指示输出内容(即内容创建)的结束时的情况下，在步骤S15中确定声像的定位位置的调整要结束。

在步骤S15中确定了声像的定位位置的调整尚未结束的情况下，处理返回到步骤S12，并且重复上述处理。即，针对新选择的音轨调整声像的定位位置。

另一方面，在步骤S15中确定了要结束声像的定位位置的调整的情况下，处理进行到步骤S16。

在步骤S16中，控制单元23输出基于每一个对象的位置信息的输出比特流，换言之，基于在步骤S14的处理中获得的增益值的输出比特流，并且定位位置确定处理结束。

例如，在步骤S16中，控制单元23将音频数据乘以在步骤S14的处理中获得的增益值，以生成针对内容的每一个音轨的左声道和右声道音频数据。此外，控制单元23将获得的相同声道的音频数据相加以获得左声道和右声道中的每一个的最终音频数据，并且输出包括所得音频数据的输出比特流。这里，输出比特流可以包括内容的视频的图像数据。

此外，输出比特流的输出目的地可以是任意输出目的地，诸如记录单元22、扬声器单元26或外部设备。

例如，包括内容的音频数据和图像数据的输出比特流可以供应至记录单元22、可移除记录介质等并记录在记录单元22、可移除记录介质等上，或者作为输出比特流的音频数据可以供应至扬声器单元26，并且可以再现内容的声音。此外，例如，包括内容的音频数据和图像数据的输出比特流可以供应至通信单元25，并且可以通过通信单元25将输出比特流发送到外部设备。

此时，例如，在输出比特流中包括的内容的音频数据和图像数据可以通过预定编码方法编码，也可以不通过预定编码方法编码。此外，当然可以生成包括例如每一个音轨(音频数据)、步骤S14中获得的增益值以及内容的视频的图像数据的输出比特流。

如上所述，信号处理设备11显示编辑后的图像，根据用户(内容创建者)的操作移动定位位置标记，并且基于定位位置标记指示的位置(即定位位置标记的显示位置)来确定声像的定位位置。

以这种方式，内容创建者可以通过在观看编辑图像的同时简单地执行将定位位置标记移动到期望位置的操作来容易地确定(指定)声像的适当定位位置。

<第二实施例>

<POV图像显示>

顺便提及，在第一实施例中，已描述了其中内容的音频(声音)是左右双声道的输出的示例。然而，本技术不限于此，并且也可应用于其中声像定位在三维空间中的任意位置处的基于对象的音频。

下文，将描述其中本技术已应用于以三维空间中的声像定位为目标的基于对象的音频(下文，简称为基于对象的音频)的情况。

这里，假设内容的声音包括音频对象的声音，并且类似于上述示例，音频对象包括鼓、电吉他、原声吉他1以及原声吉他2。此外，假设内容包括每一个音频对象的音频数据和与音频数据相对应的视频的图像数据。注意，内容的视频可以是静止图像或运动图像。

利用基于对象的音频，声像可以在三维空间的任意方向上定位。因此，假设即使在涉及视频的情况下，声像也定位在视频存在的范围之外的位置(即在视频中看不到的位置)处。换言之，因为定位声像的自由度较高，所以难以根据视频准确地确定声像的定位位置，并且在知道视频在三维空间中的位置后，需要指定声像的定位位置。

因此，根据本技术，对于基于对象的音频的内容，首先，在内容创建工具中设置内容再现环境。

这里，再现环境例如是由内容创建者假设的再现内容的诸如房间的三维空间(即收听空间)。当设置再现环境时，通过参数指定房间(收听空间)的尺寸、作为观看/收听内容的观看者/收听者(即内容的声音的收听者)的位置的收听位置、其上显示内容的视频的屏幕的形状、屏幕的布置位置等。

例如，图5所示的参数由内容创建者指定为用于指定再现环境的参数(下文，也称作设置参数)，这些参数是在设置再现环境时指定的。

在图5所示的示例中，确定作为收听空间的房间的尺寸的“深度”、“宽度”和“高度”被指示为设置参数，并且这里，房间的深度为“6.0m”、房间的宽度为“8.0m”、并且房间的高度为“3.0m”。

此外，作为收听者在房间(收听空间)中的位置的“收听位置”被指示为设置参数，并且收听位置被设置为“房间的中央”。

此外，确定其上显示内容的视频的屏幕(显示设备)的形状(即房间(收听空间)中的显示屏幕的形状)的“尺寸”和“纵横比”被示出为设置参数。

设置参数“尺寸”指示屏幕的尺寸、“纵横比”指示屏幕(显示屏幕)的纵横比。这里，屏幕的尺寸为“120英寸”，而屏幕的纵横比为“16：9”。

此外，图5将确定屏幕的位置的“前和后”、“左和右”以及“上和下”示为与屏幕相关的设置参数。

这里，设置参数“前和后”是当在收听空间(房间)中的收听位置处的收听者看向参考方向时，从收听者到屏幕的前后方向上的距离，并且在本示例中，设置参数“前和后”的值是“在收听位置的前方2m”。即屏幕布置在收听者前方2m处。

此外，设置参数“左和右”是在收听空间(房间)中的收听位置处从面向参考方向的收听者观看的屏幕的左右方向上的位置，并且，在本示例中，设置参数“左和右”的设置(值)是“中央”。即，布置屏幕使得屏幕的中心在左右方向上的位置在收听者的正前方。

设置参数“上和下”是在收听空间(房间)的收听位置处从面向参考方向的收听者观看屏幕在上下方向上的位置，并且，在本示例中，设置参数“上和下”的设置(值)是“屏幕的中心是收听者的耳朵的高度”。即，布置屏幕使得屏幕的中心在上下方向上的位置是收听者耳朵的高度的位置。

在内容创建工具中，根据上述设置参数在显示屏幕上显示POV图像等。即，在显示屏幕上，以3D图形显示通过设置参数模拟收听空间的POV图像。

例如，在图5所示的设置参数的情况下，图6所示的屏幕显示为内容创建工具的显示屏幕。注意与图1的部分相对应的图6中的部分由相同的附图标记表示，并且适当地省略描述。

在图6中，窗口WD11显示为内容创建工具的显示屏幕。在该窗口WD11中，显示POV图像P21和俯视图像P22，POV图像P21是从收听者的视点观看的收听空间的图像，俯视图像P22是以鸟瞰观看收听空间时获得的图像。

在POV图像P21中，显示从收听位置观看的作为收听空间的房间的墙壁等，并且在房间中的收听者前方的位置处布置有其上叠加了内容的视频的屏幕SC11。在POV图像P21中，几乎原样地再现了从实际收听位置观看的收听空间。

具体地，屏幕SC11是具有如图5所示的设置参数所指定的16：9的纵横比和120英寸的尺寸的屏幕。此外，屏幕SC11布置在图5所示的由设置参数“前和后”、“左和右”以及“上和下”确定的收听空间中的位置处。

在屏幕SC11上，显示作为内容的视频中的主体的演奏者PL11至PL14。

此外，POV图像P21也显示定位位置标记MK11至MK14。在本示例中，这些定位位置标记位于屏幕SC11上。

注意，在图6中，示出了其中在收听者的视线方向是预定参考方向(即收听空间的前方方向(下文，也称为参考方向))的情况下显示POV图像P21的示例。然而，内容创建者可以通过操作输入单元21将收听者的视线方向改变为任意方向。当收听者的视线方向改变时，在改变的视线方向上的收听空间的图像在窗口WD11中显示为POV图像。

此外，更具体地说，POV图像的视点位置不仅可以设置在收听位置处，也可以设置在靠近收听位置的位置处。例如，在POV图像的视点位置被设置为靠近收听位置的位置的情况下，收听位置总是显示在POV图像的前方。

因此，即使在视点位置与收听位置不同的情况下，观看POV图像的内容创建者也可以容易地掌握已显示的POV图像以哪个位置作为视点位置。

另一方面，俯视图像P22是作为收听空间的整个房间的图像(即以鸟瞰观看的收听空间的图像)。

特别地，在收听空间的图中，在由箭头RZ11指示的方向上的长度是由图5所示的设置参数“深度”指示的收听空间的深度的长度。类似地，在由箭头RZ12指示的方向上的收听空间的长度是由图5所示的设置参数“宽度”指示的收听空间的宽度的长度，并且在由RZ13指示的方向上的收听空间的长度是由图5所示的设置参数“高度”指示的收听空间的高度。

此外，在俯视图像P22上显示的点O指示由图5所示的设置参数“收听位置”指示的位置(即收听位置)。下文，点O也特别地被称作收听位置O。

如上所述，通过将其中显示了收听位置O、屏幕SC11以及定位位置标记MK11至MK14的整个收听空间的图像显示为俯视图像P22，内容创建者可以适当地掌握收听位置O、屏幕SC11、演奏者以及乐器(音频对象)之间的位置关系。

内容创建者在观看以这种方式显示的POV图像P21和俯视图像P22的同时操作输入单元21，并且将关于各个音轨的定位位置标记MK11至MK14移动到期望位置，从而指定声像的定位位置。

以这种方式，类似于图1的情况，内容创建者可以容易地确定(指定)声像的适当的定位位置。

图6所示的POV图像P21和俯视图像P22也用作类似于图1所示的编辑图像P11的情况的输入界面。并且通过指定POV图像P21或俯视图像P22的任意位置，可以指定每一个音轨的声音的声像定位位置。

例如，当内容创建者操作输入单元21等以在POV图像P21上指定期望位置时，在该位置处显示定位位置标记。

在图6所示的示例中，类似于图1的情况，定位位置标记MK11至MK14在屏幕SC11上的位置(即在内容的视频上的位置)处显示。因此，应当理解，每一个音轨的声音的声像定位在与该声音相对应的视频的每一个主体(音频对象)的位置处。换言之，可以看出，实现了根据内容的视频的声像定位。

注意，在信号处理设备11中，例如，定位位置标记的位置由具有收听位置O作为原点(参考)的坐标系的坐标来管理。

例如，在以收听位置O为原点的坐标系是极坐标的情况下，定位位置标记的位置由指示从收听位置O观看的水平方向(即左右方向)上的位置的水平角、指示从收听位置O观看的垂直方向(即上下方向)上的位置的垂直角、以及指示从收听位置O到定位位置标记的距离的半径来表示。

注意，下面继续给出描述，假设定位位置标记的位置由水平角、垂直角以及半径(即由极坐标)表示，但是定位位置标记的位置可以由以收听位置O为原点的三维直角坐标系等的坐标表示。

在定位位置标记以这种方式由极坐标表示的情况下，可以例如以下面描述的方式执行收听空间中的定位位置标记的显示位置的调整。

即，当内容创建者通过点击等操作输入单元21等以在POV图像P21上指定期望位置时，在该位置处显示定位位置标记。具体地，例如，定位位置标记显示在由内容创建者在具有绕收听位置O的半径为1的球面上指定的位置处。

此外，此时，例如，如图7所示，显示了从收听位置O沿收听者视线方向延伸的直线L11，并且在该直线L11上显示待处理的定位位置标记MK11。注意与图6中的部分相对应的图7中的部分由相同的附图标记表示，并且适当地省略说明。

在图7所示的示例中，与鼓的音轨相对应的定位位置标记MK11是待处理的目标(即待调整声像的定位位置的目标)，并且定位位置标记MK11显示在沿收听者的视线方向延伸的直线L11上。

内容创建者可以通过例如在作为输入单元21的鼠标上执行滚轮操作，而将定位位置标记MK11移动到直线L11上的任意位置。换言之，内容创建者可以调整从收听位置O到定位位置标记MK11的距离(即指示定位位置标记MK11的位置的极坐标的半径)。

此外，内容创建者也可以通过操作输入单元21来将直线L11的方向调整为任意方向。

通过这种操作，内容创建者可以将定位位置标记MK11移动到收听空间中的任意位置。

因此，例如，内容创建者可以相对于作为与音频对象相对应的主体的位置的内容的视频的显示位置(即屏幕SC11的位置)，将定位位置标记的位置在从收听者观看时的近侧或远侧移动。

例如，在图7所示的示例中，鼓的音轨的定位位置标记MK11位于从收听者观看时的屏幕SC11的远侧，电吉他的音轨的定位位置标记MK12位于从收听者观看时的屏幕SC11的近侧。

此外，原声吉他1的音轨的定位位置标记MK13和原声吉他2的音轨的定位位置标记MK14位于屏幕SC11上。

如上所述，在应用本技术的内容创建工具中，例如，以屏幕SC11的位置为参考，声像被定位在深度方向上的任意位置处，诸如当从收听者观看时的距该位置的近侧或远侧，并且距离感可以被控制。

例如，在基于对象的音频中，以收听者的位置(收听位置)为原点的极坐标的位置坐标被处理为音频对象的元信息。

在参考图6和图7描述的示例中，每一个音轨是音频对象的音频数据，并且每一个定位位置标记是音频对象的位置。因此，指示定位位置标记的位置的位置信息可以是作为音频对象的元信息的位置信息。

然后，当再现内容时，如果基于作为音频对象的元信息的位置信息来渲染音频对象(音轨)，则音频对象的声音的声像可以定位在由该位置信息指示的位置(即由定位位置标记指示的位置)处。

在渲染时，例如，基于位置信息，通过VBAP方法计算与用于再现的扬声器系统的每一个扬声器声道成比例的增益值。即，由增益计算单元42计算音频数据的每一个声道的增益值。

然后，使音频数据乘以计算出的各个声道的增益值中的每一个以成为那些声道的音频数据。此外，在存在多个音频对象的情况下，将针对那些音频对象而获得的相同声道的音频数据相加以获得最终音频数据。

当扬声器基于以这种方式获得的每一个声道的音频数据来输出声音时，音频对象的声音的声像被定位在由作为元信息的位置信息所指示的位置处(即定位位置标记处)。

因此，特别是当屏幕SC11上的位置被指定为定位位置标记的位置时，在再现实际内容时，声像被定位在内容的视频上的位置。

注意，作为如图7所示的定位位置标记的位置，可以指定任何位置，诸如与屏幕SC11上的位置不同的位置。因此，构成作为元信息的位置信息的指示从收听者到音频对象的距离的半径，可以用作在再现内容的声音时用于控制距离感的信息。

例如，假设在信号处理设备11中再现内容的情况下，在作为鼓的音频数据的元信息的位置信息中包括的半径是参考值(例如，1)的两倍的值。

在这种情况下，例如，如果控制单元23通过将鼓的音频数据乘以增益值“0.5”来执行增益调节，则鼓的声音变小，并且可以实现距离感控制，使得鼓的声音仿佛是从比参考距离的位置更远的位置听到。

注意，通过增益调整的距离感控制仅仅是使用在位置信息中包括的半径的距离感控制的示例，并且距离感控制可以通过任何其它方法来实现。通过执行这种距离感控制，例如，音频对象的声音的声像可以被定位在诸如再现屏幕的近侧或远侧的期望位置处。

另外，例如，在运动图像专家组(MPEG)-H 3D音频标准中，可以将内容创建侧的再现屏幕尺寸作为元信息发送到用户侧(即内容再现侧)。

在这种情况下，当内容创建侧的再现屏幕的位置和尺寸不同于内容再现侧的再现屏幕上的位置和尺寸时，在内容再现侧校正音频对象的位置信息，并且音频对象的声音的声像可以定位在再现屏幕上的适当位置处。因此，同样在本技术中，例如，指示图5所示的屏幕的位置、尺寸、布置位置等的设置参数可以用作音频对象的元信息。

此外，在参考图7给出的描述中，描述了定位位置标记的位置是存在于收听者前方的屏幕SC11的近侧或远侧的位置以及是屏幕SC11上的位置的示例。然而，定位位置标记的位置不限于收听者前方的位置，而是可以是屏幕SC11之外的诸如收听者的侧面、后方、上方或下方的任何位置。

例如，如果在从收听者观看时定位位置标记的位置被设置为屏幕SC11的框架之外的位置，则当实际再现内容时，音频对象的声音的声像被定位在存在内容的视频的范围之外的位置处。

此外，已经描述了其上显示内容的视频的屏幕SC11在从收听位置O观看时在参考方向上的例子的情况。但是，屏幕SC11不仅可以布置在参考方向上，也可以布置在从面向参考方向的收听者观看时在诸如后面、上方、下方、左侧、右侧的任何方向上，或者可以在收听空间中布置多个屏幕。

如上所述，可以在内容创建工具中沿任意方向改变POV图像P21的视线方向。换言之，收听者可以绕收听位置O环顾四周。

因此，内容创建者可以操作输入单元21，以在参考方向是前方方向时指定诸如侧面或后面的任意方向作为POV图像P21的视线方向，从而将定位位置标记布置在每一个方向上的任意位置。

因此，例如，如图8所示，可以将POV图像P21的视线方向改变为屏幕SC11的右端之外的方向，并且在该方向上布置新音轨的定位位置标记MK21。注意，与图6或图7的部分相对应的图8中的部分由相同的附图标记表示，并且适当地省略说明。

在图8的示例中，作为音频对象的语音音频数据被添加为新的音轨，并且显示基于所添加的音轨来指示声音的声像定位位置的定位位置标记MK21。

这里，在从收听者观看时，定位位置标记MK21布置在屏幕SC11之外的位置处。因此，当再现内容时，收听者感知到语音是从内容的视频中看不到的位置听到的。

注意，在假设从面向参考方向的收听者观看时屏幕SC11布置在侧面或后侧位置的情况下，屏幕SC11被布置在侧面或后侧位置，并且在屏幕SC11上显示其中显示内容的视频的POV图像。在这种情况下，如果在屏幕SC11上布置每一个定位位置标记，则在再现内容时，每一个音频对象(乐器)的声音的声像将被定位在视频位置处。

如上所述，内容创建工具仅通过在屏幕SC11上布置定位位置标记，就可以容易地实现与内容的视频匹配的声像定位。

此外，如图9所示，可以对POV图像P21或俯视图像P22执行用于内容再现的扬声器的布局显示。注意，与图6的部分相对应的图9中的部分由相同的附图标记表示，并且适当地省略说明。

在图9所示的示例中，在POV图像P21上，显示包括在收听者的前左侧的扬声器SP11、在收听者的前右侧的扬声器SP12、以及在收听者的前上侧的扬声器SP13的多个扬声器。类似地，在俯视图像P22上显示包括扬声器SP11至SP13的多个扬声器。

这些扬声器是构成在内容再现时使用的由内容创建者假设的扬声器系统的各个声道的扬声器。

内容创建者通过操作输入单元21来指定扬声器系统的诸如7.1声道或22.2声道的声道配置，使得具有指定的声道配置的扬声器系统的每一个扬声器可以显示在POV图像P21和俯视图像P22上。即，可以在收听空间中以叠加的方式显示指定的声道配置的扬声器布局。

在基于对象的音频中，通过使用VBAP方法基于每一个音频对象的位置信息执行渲染，可以支持各种扬声器布局。

在内容创建工具中，通过在POV图像P21和俯视图像P22上显示扬声器，内容创建者可以在视觉上容易地掌握扬声器、定位位置标记(即音频对象)以及内容的视频的显示位置(即屏幕SC11)与收听位置O之间的位置关系。

因此，内容创建者可以使用在POV图像P21或俯视图像P22上显示的扬声器作为辅助信息以用于调整音频对象的位置(即定位位置标记的位置)，并将定位位置标记布置在更合适的位置。

例如，在内容创建者创建商业内容时，内容创建者经常使用其中扬声器被密集布置的诸如22.2声道的扬声器布局作为参考。在这种情况下，例如，内容创建者选择22.2声道作为声道配置并且在POV图像P21或俯视图像P22上显示声道的扬声器就足够了。

另一方面，例如，在内容创建者是普通用户的情况下，内容创建者经常使用其中扬声器被粗略布置的诸如7.1声道的扬声器布局。在这种情况下，例如，内容创建者选择7.1声道作为声道配置并且在POV图像P21或俯视图像P22上显示声道的扬声器就足够了。

在其中使用扬声器被粗略布置的诸如7.1声道的扬声器布局的情况下，根据音频对象的声音的声像被定位的位置，存在在该位置附近没有扬声器并且声像的定位被模糊的可能性。为了清晰地定位声像，优选地，定位位置标记位置布置在扬声器附近。

如上所述，在内容创建工具中，任意一者可被选择为扬声器系统的声道配置，并且具有所选择的声道配置的扬声器系统的每一个扬声器可以显示在POV图像P21或俯视图像P22上。

因此，内容创建者根据由内容创建者假设的扬声器布局，使用在POV图像P21或俯视图像P22上显示的扬声器作为辅助信息，并且可以将定位位置标记布置在诸如扬声器附近的位置的更合适的位置。即，内容创建者可以在视觉上掌握扬声器布局对音频对象的声像定位的影响，并且在考虑与视频和扬声器的位置关系的同时，适当调整定位位置标记的布置位置。

而且，内容创建工具可以在音轨(音频数据)的每一个再现时间为每一个音轨指定定位位置标记。

例如，如图10所示，假设定位位置标记MK12的位置在预定的再现时间t1和随后的再现时间t2根据电吉他的演奏者PL12的移动而改变。注意与图6的部分相对应的图10中的部分由相同的附图标记表示，并且适当地省略说明。

在图10中，演奏者PL12'和定位位置标记MK12'表示在再现时间t2的演奏者PL12和定位位置标记MK12。

例如，假设电吉他的演奏者PL12在内容的视频上的预定再现时间t1位于箭头Q11所示的位置，并且内容创建者已经将定位位置标记MK12布置在与演奏者PL12的位置相同的位置。

此外，假设在再现时间t1之后的再现时间t2，电吉他的演奏者PL12已移动到由内容的视频上的箭头Q12指示的位置，并且在再现时间t2，内容创建者已将定位位置标记MK12'布置在与演奏者PL12'相同的位置。

这里，假设内容创建者在再现时间t1与再现时间t2之间的另一再现时间没有特别指定定位位置标记MK12的位置。

在这种情况下，定位位置确定单元41执行插值处理以确定定位位置标记MK12在再现时间t1与再现时间t2之间的另一再现时间的位置。

在插值处理时，例如，基于指示在再现时间t1的定位位置标记MK12的位置的位置信息和指示在再现时间t2的定位位置标记MK12'的位置的位置信息，将三个分量：水平角、垂直角以及半径中的每一个视为位置信息，经过线性插值以获得指示在再现时间的定位位置标记MK12的位置的位置信息的每一个分量的值。

注意，如上所述，即使在位置信息由三维直角坐标系中的坐标表示的情况下，类似于位置信息由极坐标表示的情况，针对诸如x坐标、y坐标以及z坐标的每一个坐标分量执行线性插值。

以这种方式，当通过插值处理获得再现时间t1和再现时间t2之间的另一再现时间的定位位置标记MK12的位置信息时，在再现内容时，电吉他的声音(即音频对象的声音)的声像的定位位置也根据视频上的电吉他的演奏者PL12的位置的移动而移动。因此，可以获得其中声像位置平滑地移动而没有不适感的自然内容。

<定位位置确定处理的描述>

接下来，如参考图6至图10所述，在本技术的情况中信号处理设备11的操作已应用于基于对象的音频。即，下面将参考图11中的流程图来描述信号处理设备11的定位位置确定处理。

在步骤S41中，控制单元23设置再现环境。

例如，当内容创建工具被激活时，内容创建者操作输入单元21以指定图5所示的设置参数。然后，控制单元23基于响应于内容创建者的操作而从输入单元21提供的信号，来确定设置参数。

因此，例如，确定了收听空间的尺寸、收听空间中的收听位置、其上显示内容的视频的屏幕的尺寸和纵横比、收听空间中的屏幕的布置位置等。

在步骤S42中，显示控制单元43基于在步骤S41中确定的设置参数和内容的视频的图像数据来控制显示单元24，并且使显示单元24显示包括POV图像的显示屏幕。

因此，例如，显示包括图6所示的POV图像P21和俯视图像P22的窗口WD11。

此时，根据在步骤S41中设置的设置参数，显示控制单元43在POV图像P21和俯视图像P22中绘制收听空间(房间)的墙壁等，或者在由设置参数确定的位置处显示具有由设置参数确定的尺寸的屏幕SC11。此外，显示控制单元43使在屏幕SC11的位置处显示内容的视频。

此外，在内容创建工具中，可以选择是否在POV图像和俯视图像上显示构成扬声器系统的扬声器(更具体地，模拟扬声器的图像)，或者在显示扬声器的情况下选择扬声器系统的声道配置。内容创建者根据需要操作输入单元21，以指示是否显示扬声器或选择扬声器系统的声道配置。

在步骤S43中，控制单元23基于响应于内容创建者的操作而从输入单元21供应的信号等来确定是否在POV图像和俯视图像上显示扬声器。

在步骤S43中确定不显示扬声器的情况下，不执行步骤S44的处理，并且随后处理进行到步骤S45。

另一方面，在步骤S43中确定要显示扬声器的情况下，随后处理进行到步骤S44。

在步骤S44中，显示控制单元43使显示单元24以声道配置的扬声器布局在POV图像和俯视图像上显示具有由内容创建者选择的声道配置的扬声器系统的每一个扬声器。因此，例如图9所示的扬声器SP11和扬声器SP12显示在POV图像P21和俯视图像P22上。

当通过步骤S44中的处理已显示扬声器时，或者当在步骤S43中确定不显示扬声器时，在步骤S45中，定位位置确定单元41基于从输入单元21供应的信号选择要针对声像的定位位置进行调整的音轨。

例如，在步骤S45中，执行类似于图4的步骤S12的处理的处理，选择期望音轨中的预定再现时间作为声像定位调整的目标。

在选择调整声像定位的目标之后，内容创建者随后操作输入单元21以在收听空间中将定位位置标记的布置位置移动到任意位置，并指定与定位位置标记相对应的音轨的声音的声像定位位置。

此时，显示控制单元43基于响应于内容创建者的输入操作而从输入单元21供应的信号，使显示单元24移动定位位置标记的显示位置。

在步骤S46中，定位位置确定单元41基于从输入单元21供应的信号，确定待调整的音轨的声音的声像的定位位置。

即，定位位置确定单元41从输入单元21获取指示从收听空间上的收听位置观看的定位位置标记的位置的信息(信号)，并且确定获取的信息所指示的位置作为声像的定位位置。

在步骤S47中，定位位置确定单元41基于步骤S46中的确定结果，生成指示待调整的音轨的声音的声像的定位位置的位置信息。例如，位置信息是由基于收听位置的极坐标表示的信息。

以这种方式生成的位置信息是指示与待调整的音轨相对应的音频对象的位置的位置信息。即，在步骤S47中获得的位置信息是音频对象的元信息。

注意，作为元信息的位置信息可以是如上所述的极坐标(即水平角、垂直角以及半径)或者可以是直角坐标。此外，在步骤S41中设置的指示屏幕的位置和尺寸、布置位置等的设置参数也可以是音频对象的元信息。

在步骤S48中，控制单元23确定是否结束声像的定位位置的调整。例如，在步骤S48中，执行类似于图4中的步骤S15的情况的确定处理。

在步骤S48中确定声像的定位位置的调整尚未结束的情况下，处理返回到步骤S45，并且重复上述处理。即，针对新选择的音轨调整声像的定位位置。注意，在这种情况下，在改变了是否显示扬声器的设置的情况下，根据该改变显示扬声器或不显示扬声器。

另一方面，在步骤S48中确定要结束声像的定位位置的调整的情况下，处理进行到步骤S49。

在步骤S49中，定位位置确定单元41适当地针对每一个音轨执行插值处理，并且针对未指定声像的定位位置的再现时间，获得该再现时间的声像的定位位置。

例如，如参考图10所述，针对预定的音轨，由内容创建者指定在再现时间t1和再现时间t2的定位位置标记的位置，并且假设针对再现时间之间的另一再现时间内未指定定位位置标记的位置。在这种情况下，通过步骤S47的处理，针对再现时间t1和再现时间t2生成位置信息，但是针对再现时间t1和再现时间t2之间的另一再现时间，位置信息处于未生成的状态。

因此，定位位置确定单元41基于预定音轨的再现时间t1的位置信息和再现时间t2的位置信息，执行诸如线性插值的插值处理，并生成另一再现时间的位置信息。通过针对每一个音轨执行这种方式的插值处理，可以针对所有音轨的所有再现时间获得位置信息。注意，在参考图4所述的定位位置确定处理中，可以执行类似于步骤S49的插值处理，以获得未指定再现时间的位置信息。

在步骤S50中，控制单元23输出基于每一个音频对象的位置信息的输出比特流(即基于在步骤S47或步骤S49的处理中获得的位置信息的输出比特流)，并且定位位置确定处理结束。

例如，在步骤S50中，控制单元23基于作为音频对象的元信息而获得的位置信息和每一个音轨，通过VBAP方法执行渲染，并且生成具有预定声道配置的每一个声道的音频数据。

然后，控制单元23输出包括获得的音频数据的输出比特流。这里，输出比特流可以包括内容的视频的图像数据。

类似于参考图4所述的定位位置确定处理的情况，输出比特流的输出目的地可以是诸如记录单元22、扬声器单元26或外部装置的任意输出目的地。

即，例如，包括内容的音频数据和图像数据的输出比特流可以供应至并记录在记录单元22、可移动记录介质上，或者作为输出比特流的音频数据可以供应至扬声器单元26，并且可以再现内容的声音。

此外，不执行渲染处理，并且将在步骤S47或步骤S49中获得的位置信息用作指示音频对象的位置的元信息，可以生成包括音频数据、内容的图像数据、以及元信息当中的至少音频数据的输出比特流。

此时，控制单元23根据预定编码方法适当地编码音频数据、图像数据以及元信息，并且包括已编码的音频数据、图像数据以及元信息的编码比特流可以生成为输出比特流。

特别地，该输出比特流可以供应至记录单元22等并记录在记录单元22等上，或者该输出比特流可以供应至通信单元25，并且可以通过通信单元25将输出比特流发送到外部设备。

如上所述，信号处理设备11显示POV图像，根据内容创建者的操作移动定位位置标记，并且基于定位位置标记的显示位置确定声像的定位位置。

以这种方式，内容创建者可以简单地通过在观看POV图像的同时执行将定位位置标记移动到期望位置的操作来容易地确定(指定)声像的适当定位位置。

如上所述，根据本技术，针对左右双声道的音频内容，并且特别地，针对以三维空间中的声像定位为目标的基于对象的音频的内容，例如，可以在内容创建工具中容易地设置平移以将声像定位在视频上的特定位置处，或定位音频对象的位置信息。

<计算机的配置示例>

顺便地，上述一系列处理可以由硬件执行，并且也可以由软件执行。在由软件执行该系列处理的情况下，将构成该软件的程序安装在计算机中。这里，计算机包括安装在专用硬件中的计算机，例如通过安装各种程序可以执行各种功能的通用个人计算机等。

图12是示出其中由程序执行上述一系列处理的计算机的硬件的配置示例的框图。

在计算机中，中央处理单元(CPU)501、只读存储器(ROM)502、随机存取存储器(RAM)503通过总线504互连。

输入/输出接口505还连接到总线504。输入单元506、输出单元507、记录单元508、通信单元509以及驱动器510连接到输入/输出接口505。

输入单元506包括键盘、鼠标、麦克风、图像传感器等。输出单元507包括显示器、扬声器等。记录单元508包括硬盘、非易失性存储器等。通信单元509包括网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除记录介质511。

在以上述方式配置的计算机中，执行上述一系列处理，例如，使得CPU 501经由输入/输出接口505和总线504将在记录单元508中存储的程序加载到RAM 503中并执行该程序。

可以通过将要由计算机(CPU 501)执行的程序记录在例如作为封装介质等的可移除记录介质511上来提供该程序。此外，可以经由诸如局域网、互联网或数字卫星广播的有线或无线传输介质来提供程序。

在计算机中，当可移除记录介质511安装在驱动器510上时，程序可以经由输入/输出接口505安装在记录单元508上。此外，程序可以经由有线或无线传输介质由通信单元509接收，并且可以安装在记录单元508上。此外，程序可以预安装在ROM 502或记录单元508上。

注意，由计算机执行的程序可以是沿着本说明书中描述的顺序按时间顺序处理的程序，或者可以是并行处理的程序，或者在例如实施调用时所需的定时处理的程序。

此外，本技术的实施例不限于前述实施例，而可以在不脱离本技术的要旨的范围内进行各种改变。

例如，本技术可以采用其中一功能经由网络由多个设备共享并共同处理的云计算的配置。

此外，上述流程图中描述的每一个步骤都可以由单个设备执行，或者由多个设备共享并执行。

此外，在单个步骤包括多段处理的情况下，在单个步骤中包括的多段处理可以由单个装置执行，或者可以由多个装置分割并执行。

此外，本技术可以如下配置。

(1)

一种信号处理设备，包括：

获取单元，被配置为获取与在显示从收听位置观看的收听空间的状态下指定的收听空间中的音频对象的声像的定位位置相关联的信息；以及

生成单元，被配置为基于与定位位置相关联的信息生成比特流。

(2)

根据(1)所述的信号处理设备，其中，

生成单元通过将与定位位置相关联的信息作为音频对象的元信息来生成比特流。

(3)

根据(2)所述的信号处理设备，其中，

比特流包括音频对象的音频数据和元信息。

(4)

根据(1)至(3)中任一项所述的信号处理设备，其中，

与定位位置相关联的信息是指示收听空间中的定位位置的位置信息。

(5)

根据(4)所述的信号处理设备，其中，

位置信息包括指示从收听位置到定位位置的距离的信息。

(6)

根据(4)或(5)所述的信号处理设备，其中，

定位位置是在显示布置在收听空间中的视频的屏幕上的位置。

(7)

根据(4)至(6)中任一项所述的信号处理设备，其中，

获取单元基于在第一时间的位置信息和在第二时间的位置信息，通过插值处理获取在第一时间与第二时间之间的第三时间的位置信息。

(8)

根据(1)至(7)中任一项所述的信号处理设备，还包括：

显示控制单元，被配置为控制从收听位置或靠近收听位置的位置观看到的收听空间的图像的显示。

(9)

根据(8)所述的信号处理设备，其中，

显示控制单元使预定声道配置的扬声器系统的每一个扬声器以预定声道配置的扬声器布局显示在图像上。

(10)

根据(8)或(9)所述的信号处理设备，其中，

显示控制单元使指示定位位置的定位位置标记显示在图像上。

(11)

根据(10)所述的信号处理设备，其中，

显示控制单元响应于输入操作而使定位位置标记的显示位置移动。

(12)

根据(8)至(11)中任一项所述的信号处理设备，其中，

显示控制单元使在图像上显示一屏幕，在该屏幕上显示布置在收听空间中且包括与音频对象相对应的主体的视频。

(13)

根据(8)至(12)中任一项所述的信号处理设备，其中，

图像是POV图像。

(14)

一种通过信号处理设备进行的信号处理方法，包括：

获取与在显示从收听位置观看到的收听空间的状态下指定的收听空间中的音频对象的声像的定位位置相关联的信息；并且

基于与定位位置相关联的信息生成比特流。

(15)

一种程序，使计算机执行包括以下步骤的处理：

基于与定位位置相关联的信息生成比特流。

参考符号列表

11信号处理设备、21输入单元、23控制单元、24显示单元、25通信单元、26扬声器单元、41定位位置确定单元、42增益计算单元、43显示控制单元。

Claims

1.一种信号处理设备，包括：

显示单元，被配置为基于供应的内容的视频的图像数据来显示内容创建工具的显示屏幕，所述显示屏幕上显示有视点拍摄POV图像，所述POV图像是从收听空间中的收听者的视点观看的所述收听空间的图像，所述收听空间是由内容创建者假设的再现所述内容的三维空间，所述内容包括所述视频和多个音轨，

定位位置确定单元，被配置为获取与从在所述显示单元上显示的所述收听空间中的收听位置观看的每一个音轨的声音的声像的定位位置相关联的信息，并且确定每一个音轨的声音的声像的定位位置，所述信息响应于所述内容创建者的输入操作而供应；

增益计算单元，被配置为基于由所述定位位置确定单元确定的所述定位位置，来计算相对于每一个音轨的音频数据的每一个声道的增益值；以及

生成单元，被配置为基于由所述定位位置确定单元获取的与定位位置相关联的所述信息和由所述增益计算单元计算出的所述增益值，来生成并输出至少包括所述内容的音频数据的比特流。

2.根据权利要求1所述的信号处理设备，其中，生成并输出至少包括所述内容的音频数据的所述比特流包括：

将每一个所述音轨的音频数据乘以计算的对应的增益值，以生成针对所述内容的每一个音轨的左声道和右声道的新音频数据，

将针对所有音轨生成的相同声道的新音频数据相加以获得左声道和右声道中的每一个的最终音频数据，并且

输出包括所述最终音频数据的比特流。

3.根据权利要求2所述的信号处理设备，其中，

所述比特流包括每一个声道的所述最终音频数据和针对每一个所述音轨确定的所述定位位置的位置信息。

4.根据权利要求3所述的信号处理设备，其中，

所述位置信息包括指示从所述收听者的收听位置到所述定位位置的距离的信息。

5.根据权利要求1所述的信号处理设备，其中，

所述定位位置是在布置在所述收听空间中的显示所述视频的屏幕上的位置。

6.根据权利要求1所述的信号处理设备，其中，

所述定位位置确定单元针对每一个音轨，基于在第一时间的位置信息和在第二时间的位置信息，通过插值处理获取在所述第一时间与所述第二时间之间的第三时间的位置信息。

7.根据权利要求1所述的信号处理设备，还包括：

显示控制单元，被配置为向所述显示单元供应所述视频的所述图像数据并且控制从所述收听者的收听位置观看到的所述收听空间的图像的显示。

8.根据权利要求7所述的信号处理设备，其中，

所述显示控制单元使预定声道配置的扬声器系统的每一个扬声器以所述预定声道配置的扬声器布局显示在所述POV图像上。

9.根据权利要求7所述的信号处理设备，其中，

所述显示控制单元使指示所述音轨的声像的所述定位位置的定位位置标记显示在所述POV图像上。

10.根据权利要求9所述的信号处理设备，其中，

所述显示控制单元响应于输入操作而使所述定位位置标记的显示位置移动。

11.根据权利要求7所述的信号处理设备，其中，

所述显示控制单元使在所述POV图像上显示一屏幕，在所述屏幕上显示布置在所述收听空间中且包括与所述音轨对应的音频对象相对应的主体的所述视频。

12.一种信号处理方法，包括：

基于供应的内容的视频的图像数据来显示内容创建工具的显示屏幕，所述显示屏幕上显示有视点拍摄POV图像，所述POV图像是从收听空间中的收听者的视点观看的所述收听空间的图像，所述收听空间是由内容创建者假设的再现所述内容的三维空间，所述内容包括所述视频和多个音轨，

获取与从所显示的所述收听空间中的收听位置观看的每一个音轨的声音的声像的定位位置相关联的信息，并且确定每一个音轨的声音的声像的定位位置，所述信息响应于所述内容创建者的输入操作而供应；

基于所确定的所述定位位置，来计算相对于每一个音轨的音频数据的每一个声道的增益值；以及

基于获取的与定位位置相关联的所述信息和计算出的所述增益值，来生成并输出至少包括所述内容的音频数据的比特流。

13.根据权利要求12所述的信号处理方法，其中，生成并输出至少包括所述内容的音频数据的所述比特流包括：

输出包括所述最终音频数据的比特流。

14.一种计算机可读存储介质，存储有程序，所述程序在被包括所述介质的计算机执行时使所述计算机执行根据权利要求12或13所述的方法。