CN111630592A

CN111630592A - 用于编码、解码、场景处理和与基于DirAC的空间音频编码有关的其它过程的装置、方法和计算机程序

Info

Publication number: CN111630592A
Application number: CN201880077928.6A
Authority: CN
Inventors: 纪尧姆·福克斯; 于尔根·赫勒; 法比安·库奇; 斯蒂芬·朵拉; 马库斯·马特拉斯; 奥利弗·迪尔加特; 奥立弗·乌博尔特; 弗罗林·吉多; 斯特凡·拜尔; 沃尔夫冈·杰格斯
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2017-10-04
Filing date: 2018-10-01
Publication date: 2020-09-04
Anticipated expiration: 2038-10-01
Also published as: TW201923744A; AU2021290361A1; AU2018344830A8; MX2020003506A; JP7564295B2; TWI834760B; US11368790B2; AR117384A1; RU2020115048A3; KR20200053614A; ES2907377T3; CA3219566A1; SG11202003125SA; KR102700687B1; AU2018344830B2; CA3076703A1; CN111630592B; TWI700687B; US11729554B2; RU2759160C2

Abstract

一种用于生成组合的音频场景的描述的装置，包括：输入接口(100)，用于接收第一格式的第一场景的第一描述和第二格式的第二场景的第二描述，其中第二格式不同于第一格式；格式转换器(120)，用于将第一描述转换为通用格式，并且当第二格式不同于通用格式时将第二描述转换为通用格式；以及格式组合器(140)，用于组合通用格式的第一描述和通用格式的第二描述，以获得所述组合的音频场景。

Description

用于编码、解码、场景处理和与基于DirAC的空间音频编码有关的其它过程的装置、方法和计算机程序

技术领域

本发明涉及音频信号处理，尤其涉及音频场景的音频描述的音频信号处理。

背景技术

在三个维度上传输音频场景需要应对多个声道，这通常会导致传输大量数据。此外，3D声音可以以不同的方式表示：传统的基于声道的声音，其中每个传输声道与扬声器位置相关联；通过音频对象传送的声音，可以独立于扬声器位置而在三个维度上被定位；以及基于场景的声音(或高保真度立体声响复制，Ambisonics)，其中音频场景由一组系数信号表示，这些信号是空间正交基函数(例如，球谐函数)的线性权重。与基于声道的表示相比，基于场景的表示独立于特定的扬声器设置，并且可以在任何扬声器设置上进行再现，但会在解码器处产生额外的渲染过程。

对于这些格式中的每一个，已经开发了专用编码方案，以有效地存储或以低比特率传输音频信号。例如，MPEG环绕是用于基于声道的环绕声的参数编码方案，而MPEG空间音频对象编码(SAOC)是专用于基于对象的音频的参数编码方法。在最近的标准MPEG-H阶段2中也提供了用于Ambisonics高阶的参数编码技术。

在这种情况下，在使用并需要支持音频场景的全部三种表示(基于声道的音频、基于对象的音频和基于场景的音频)的情况下，需要设计一种通用方案，以设计允许对全部三种3D音频表示进行高效参数编码的通用方案。此外，需要能够编码、传输和再现由不同音频表示的混合组成的复杂音频场景。

定向音频编码(DirAC)技术[1]是一种分析和再现空间声音的有效方法。DirAC根据到达方向(DOA)和每个频段测得的扩散度使用声场的以感知为动机的表示(perceptually motivated representation)。它基于如下假设：在某个时刻和一个临界频带，听觉系统的空间分辨率仅限于解码一个方向提示和耳间相干性的另一提示。然后通过使两个流交叉淡入淡出来在频域中表示空间声音：非定向扩散流和定向非扩散流。

DirAC最初用于录制的B格式的声音，但也可以用作混合不同音频格式的通用格式。DirAC已经扩展为用于处理[3]中的传统环绕声格式5.1。在[4]中还提出了合并多个DirAC流。此外，除B格式以外，DirAC被扩展为还支持麦克风输入[6]。

但是，缺少通用构思来使DirAC成为3D下音频场景的通用表示，该通用表示也能够支持音频对象的概念。

以前很少有人考虑在DirAC中处理音频对象。在[5]中将DirAC用作空间音频编码器SAOC的声学前端，作为用于从多个源的混合中提取多个讲话者的盲源分离。但是，没有想到将DirAC本身用作空间音频编码方案，并直接处理音频对象及其元数据，且可能将它们组合在一起并将它们与其他音频表示组合在一起。

发明内容

本发明的目的是提供一种应对并处理音频场景和音频场景描述的改善型构思。

该目的通过权利要求1的用于生成对组合的音频场景的描述的装置、权利要求14的生成对组合的音频场景的描述的方法或权利要求15的相关计算机程序来实现。

此外，该目的通过权利要求16的用于执行多个音频场景的合成的装置、权利要求20的用于执行多个音频场景的合成的方法或根据权利要求21的相关计算机程序来实现。

该目的通过权利要求22的音频数据转换器、权利要求28的用于执行音频数据转换的方法或权利要求29的相关计算机程序来实现。

此外，该目的通过权利要求30的音频场景编码器、权利要求34的对音频场景进行编码的方法或权利要求35的相关计算机程序来实现。

此外，该目的通过权利要求36的用于执行音频数据的合成的装置、权利要求40的用于执行音频数据的合成的方法或权利要求41的相关计算机程序来实现。

本发明的实施例涉及围绕定向音频编码范例(DirAC)建立的3D音频场景的通用参数编码方案，是用于空间音频处理的以感知为动机的技术。最初，DirAC旨在分析音频场景的B格式记录。本发明旨在将其能力扩展为有效处理任何空间音频格式，例如，基于声道的音频、Ambisonics、音频对象或它们的混合。

对于任何扬声器布局和耳机，都可以轻松生成DirAC再现。本发明还扩展了这种能力，以附加地输出Ambisonics、音频对象或格式的混合。更重要的是，本发明使用户有可能能够操控音频对象并例如在解码器端实现对话增强。

上下文：DirAC空间音频编码器的系统概述

在下面，呈现了一种为沉浸式语音和音频服务(IVAS)而设计的基于DirAC的新型空间音频编码系统的概述。这种系统的目的在于能够应对代表音频场景的不同空间音频格式，并以低比特率对其进行编码，并在传输之后尽可能忠实地再现原始音频场景。

该系统可以接受音频场景的不同表示作为输入。可以通过旨在在不同扬声器位置处再现的多声道信号、听觉对象以及描述对象随时间的位置的元数据，或表示在收听者或参考位置处的声场的一阶或高阶Ambisonics格式，来捕获输入音频场景。

优选地，该系统基于3GPP增强语音服务(EVS)，这是因为期望该解决方案以低延迟运行，以实现移动网络上的会话服务。

图9是支持不同音频格式的基于DirAC的空间音频编码的编码器端。如图9所示，编码器(IVAS编码器)能够支持分别或同时呈现给系统的不同音频格式。音频信号可以是听觉性质的、被麦克风拾取的信号、或电学性质的，应将其传输到扬声器。支持的音频格式可以是多声道信号、一阶和高阶Ambisonics分量以及音频对象。还可以通过组合不同的输入格式来描述复杂的音频场景。然后将所有音频格式传输到DirAC分析180，DirAC分析180提取完整音频场景的参数表示。到达方向和每个时频单位测量的扩散度形成参数。DirAC分析之后是空间元数据编码器190，其对DirAC参数进行量化和编码以获得低比特率参数表示。

与参数一起，对从不同源获得的下混频信号160或音频输入信号进行编码，以由常规音频核心编码器170进行传输。在这种情况下，采用基于EVS的音频编码器对下混频信号进行编码。下混频信号包含不同的声道，称为传输声道：取决于目标比特率，该信号可以是例如四系数信号组成的B格式信号、立体声对或一个单声道下混频音。编码的空间参数和编码的音频比特流在通过通信声道发送之前被复用。

图10是传送不同音频格式的基于DirAC的空间音频编码的解码器。在图10所示的解码器中，传输声道由核心解码器1020解码，而DirAC元数据在与经解码的传输声道一起被传送到DirAC合成220、240之前首先被解码1060。在这个阶段(1040)，可以考虑不同的选择。可以要求直接在任何扬声器或耳机配置上播放音频场景，这在常规DirAC系统(图10中的MC)中通常是可能的。另外，还可以要求将场景渲染为Ambisonics格式，以对场景进行其他进一步操作，例如，旋转、反射或移动(图10中的FOA/HOA)。最后，解码器可以如在编码器端呈现的那样传递各个对象(图10中的对象)。

音频对象也可以还原，但是对于听众来说，通过对象的交互操作来调整渲染的混音更为有趣。典型的对象操控是调整对象的水平、均衡或空间位置。例如，通过这种交互特征，使得有可能进行基于对象的对话增强。最后，有可能输出原始格式，如在编码器输入处呈现的那样。在这种情况下，它可能是音频声道和对象的混合体，或者是Ambisonics和对象的混合体。为了实现多声道和Ambisonics分量的单独传输，可以使用所描述系统的几个实例。

本发明的优点在于：特别是，根据第一方面，建立了一种块架，以便通过通用格式将不同的场景描述组合成组合的音频场景，该通用格式允许组合不同的音频场景描述。

该通用格式例如可以是B格式，或者可以是压力/速度信号表示格式，或者优选地也可以是DirAC参数表示格式。

该格式是压缩格式，该格式一方面附加地允许大量的用户交互，且另一方面对于表示音频信号的所需比特率而言是有用的。

根据本发明的另一方面，可以通过组合两个或更多个不同的DirAC描述来有利地执行多个音频场景的合成。这些不同的DirAC描述都可以通过在参数域中组合场景来进行处理，或者通过分别渲染每个音频场景，并然后已经在频谱域中(备选地，在时域中)根据各个DirAC描述呈现的音频场景组合来进行处理。

该过程允许对不同音频场景进行非常有效且高质量的处理，这些音频场景将被组合为单个场景表示，尤其是单个时域音频信号。

本发明的另一方面的优点在于：得到了一种特别有用的音频数据转换器，该音频数据转换器用于将对象元数据转换为DirAC元数据，其中该音频数据转换器可以在第一、第二或第三方面的块架中使用，或者也可以是彼此独立地应用。音频数据转换器允许有效地将音频对象数据(例如，音频对象的波形信号)和相应的位置数据(通常，相对于时间的，以表示再现设置中音频对象的特定轨迹)有效地转换为非常有用且紧凑的音频场景描述，尤其是DirAC音频场景描述格式。尽管具有音频对象波形信号和音频对象位置元数据的典型音频对象描述与特定的再现设置有关，或者通常与某个再现坐标系有关，但是DirAC描述的特别有用之处在于它与收听者或麦克风的位置有关且完全不受扬声器设置或再现设置的任何限制。

因此，从音频对象元数据信号生成的DirAC描述附加地允许音频对象的非常有用的、紧凑的且高质量的组合，不同于与其他音频对象组合技术(例如，空间音频对象编码或再现设置中的对象的振幅平移)。

根据本发明的另一方面的音频场景编码器在提供具有DirAC元数据的音频场景以及具有音频对象元数据的音频对象的组合表示中特别有用。

特别地，在这种情况下，对于高交互性而言特别有用和有利，以便生成一方面具有DirAC元数据且另一方面具有对象元数据的组合元数据描述。因此，在这个方面，对象元数据不与DirAC元数据组合，而是被转换为类似于DirAC的元数据，使得对象元数据针对性地(at direction)或者附加地包括单个对象的距离和/或扩散度以及对象信号。因此，对象信号被转换为类似DirAC的表示，使得允许对第一音频场景和该第一音频场景内的附加对象的DirAC表示的非常灵活的处理，并使之成为可能。因此，例如，由于一方面特定对象的相应传输声道和另一方面DirAC样式参数仍然可用的事实，可以非常有选择地处理特定对象。

根据本发明的另一方面，一种用于执行音频数据合成的装置或方法特别有用，这是因为提供了一种操控符，用于操控一个或多个音频对象的DirAC描述、多声道信号的DirAC描述、或一阶Ambisonics信号或更高Ambisonics信号的DirAC描述。并且，然后使用DirAC合成器来合成被操控的DirAC描述。

该方面具有特别的优点，即，在DirAC域中非常有用和高效地执行了针对任何音频信号的任何特定操作，即，通过操控DirAC描述的传输声道或通过替代地操控DirAC描述的参数数据。与在其他域中进行的操控相比，这种修改在DirAC域中执行实际上更为有效和实用。特别地，可以在DirAC域中特别地执行与位置有关的加权操作，作为优选操控操作。因此，在特定实施例中，在DirAC域中的对应信号表示的转换，然后在DirAC域内执行操作对于现代音频场景处理和操控而言是特别有用的应用场景。

附图说明

随后将参照实施例的附图讨论优选实施例，在附图中：

图1a是根据本发明的第一方面的用于产生组合的音频场景的描述的装置或方法的优选实施方式的块图；

图1b是生成组合的音频场景的一种实现方式，其中通用格式是压力/速度表示；

图1c是生成组合的音频场景的优选实施方式，其中DirAC参数和DirAC描述是通用格式；

图1d是图1c中的组合器的优选实施方式，其示出了用于实现不同音频场景或音频场景描述的DirAC参数的组合器的两种不同替代方式；

图1e是生成组合的音频场景的优选实施方式，其中通用格式是B格式，其作为Ambisonics表示的示例；

图1f是在例如图1c或图1d的上下文中有用的或在关于元数据转换器的第三方面的上下文中有用的音频对象/DirAC转换器的图示；

图1g是在DirAC描述中的5.1多声道信号的示例性图示；

图1h是在编码器和解码器侧的上下文中将多声道格式转换为DirAC格式的另一图示；

图2a示出了根据本发明的第二方面的用于执行多个音频场景的合成的装置或方法的实施例；

图2b示出了图2a的DirAC合成器的优选实施方式；

图2c示出了具有渲染信号组合的DirAC合成器的另一实施方式；

图2d示出了在图2b的场景组合器221之前或在图2c的组合器225之前连接的选择性操控器的实施方式；

图3a是根据本发明的第三方面的用于执行音频数据转换的装置或方法的优选实施方式；

图3b是也在图1f中示出的元数据转换器的优选实施方式；

图3c是用于执行通过压力/速度域进行音频数据转换的另一实施方式的流程图；

图3d示出了用于在DirAC域内执行组合的流程图；

图3e示出了用于组合不同的DirAC描述(例如，关于本发明的第一方面的图1d所示)的优选实施方式；

图3f示出了对象位置数据到DirAC参数表示的转换；

图4a示出了根据本发明的第四方面的用于生成包括DirAC元数据和对象元数据的组合元数据描述的音频场景编码器的优选实施方式；

图4b示出了关于本发明的第四方面的优选实施例；

图5a示出了根据本发明的第五方面的用于执行音频数据的合成的装置或相应方法的优选实施方式；

图5b示出了图5a的DirAC合成器的优选实施方式；

图5c示出了图5a的操控器的过程的另一替代方案；

图5d示出了用于实现图5a的操控器的另一过程；

图6示出了音频信号转换器，该音频信号转换器用于根据单信号和到达方向信息(即，根据示例性DirAC描述，其中扩散度例如设置为零)生成包括全向分量和X、Y和Z方向上的定向分量的B格式表示；

图7a示出了对B格式麦克风信号的DirAC分析的实施方式；

图7b示出了根据已知过程的DirAC合成的实施方式；

图8示出了流程图，该流程图用于示出尤其是图1a实施例的其他实施例；

图9是支持不同音频格式的基于DirAC的空间音频编码的编码器端；

图10是传送不同音频格式的基于DirAC的空间音频编码的解码器；

图11是基于DirAC的编码器/解码器的系统概述，该编码器/解码器将不同的输入格式组合成组合的B格式；

图12是基于DirAC的编码器/解码器的系统概述，该编码器/解码器在压力/速度域中进行组合；

图13是基于DirAC的编码器/解码器的系统概述，其将DirAC域中的不同输入格式以及在解码器侧进行对象操控的可能性进行组合；

图14是基于DirAC的编码器/解码器的系统概述，其通过DirAC元数据组合器将解码器侧的不同输入格式进行组合；

图15是基于DirAC的编码器/解码器的系统概述，其在DirAC合成中将解码器侧的不同输入格式进行组合；以及

图16a-图16f示出了在本发明的第一至第五方面的上下文中的有用音频格式的几种表示。

具体实施方式

图1a示出了用于产生组合的音频场景的描述的装置的优选实施例。该装置包括输入接口100，用于接收第一格式的第一场景的第一描述和第二格式的第二场景的第二描述，其中第二格式不同于第一格式。该格式可以是任何音频场景格式，例如从图16a至图16f示出的任何格式或场景描述。

图16a例如示出了对象描述，该对象描述通常包括(编码的)对象1波形信号(例如，单声道)和与对象1的位置相关的相应元数据，其中该信息通常针对每个时间帧或时间帧组是给定的，且对象1波形信号是经过编码的。如图16a所示，可以包括第二对象或另一对象的相应表示。

另一种选择可以是对象描述，其包括作为单信号的对象下混频、具有两个声道的立体声信号或具有三个或更多声道的信号以及相关的对象元数据，例如，对象能量、每个时间/频率档的相关信息以及(可选)对象位置。然而，对象位置也可以在解码器侧作为典型渲染信息给出，因此，可以由用户修改。例如，图16b中的格式可以被实现为众所周知的SAOC(空间音频对象编码)格式。

场景的另一描述在图16c中被示为具有第一声道、第二声道、第三声道、第四声道或第五声道的编码表示或非编码表示的多声道描述，其中第一声道可以是左声道L，第二声道可以是右声道R，第三声道可以是中央声道C，第四声道可以是左环绕声道LS，且第五声道可以是右环绕声道RS。自然地，多声道信号可以具有更少或更多的声道数量，例如立体声声道只有两个声道、5.1格式有六个声道、或者7.1格式有八个声道等。

多声道信号的更有效表示如图16d所示，其中声道下混频(例如，单声道下混频或立体声下混频或具有两个以上声道的下混频)与参数侧信息相关联，作为通常针对每个时间段和/或频率段的声道元数据。例如，可以根据MPEG环绕标准来实现这种参数表示。

音频场景的另一表示可以是例如由全向信号W和定向分量X、Y、Z组成的B格式，如图16e所示。这将是一阶信号或FoA信号。如本领域中已知的，高阶Ambisonics信号(即，HoA信号)可以具有其他分量。

与图16c和图16d的表示相比，图16e的表示是不依赖于某个扬声器设置但描述在某个(麦克风或听众)位置所经历的声场的表示。

另一种这样的声场描述是DirAC格式，例如，如图16f所示。DirAC格式通常包括DirAC下混频信号，该信号是单声道或立体声或任何下混频信号或传输信号以及相应的参数侧信息。该参数侧信息例如是每个时间/频率段的到达方向信息，并且可选地，是每个时间段/频率段的扩散信息。

图1a的输入接口100的输入例如可以是关于图16a至图16f所示的那些格式中的任何一种。输入接口100将相应的格式描述转发到格式转换器120。格式转换器120被配置用于将第一描述转换为通用格式，并当第二格式不同于通用格式时将第二描述转换为相同的通用格式。但是，当第二格式已经是通用格式时，则格式转换器仅将第一描述转换为通用格式，这是因为第一描述的格式不同于通用格式。

因此，在格式转换器的输出处，或者通常在格式组合器的输入处，确实存在通用格式的第一场景的表示和相同的通用格式的第二场景的表示。由于两个描述现在都包含在一个相同的通用格式中的事实，因此格式组合器现在可以组合第一描述和第二描述以获得组合的音频场景。

根据图1e中所示的实施例，格式转换器120被配置为将第一描述转换为第一B格式信号，例如，如图1e中的127所示，并计算用于第二描述的B格式表示，如图1e中的128所示。

然后，格式组合器140被实现为分量信号加法器，在146a处示出用于W分量加法器，在146b处示出用于X分量加法器，在146c处示出用于Y分量加法器，并在146d处示出用于Z分量加法器。

因此，在图1e的实施例中，组合的音频场景可以是B格式表示，然后B格式信号可以用作传输声道，并且然后可以经由图1a的传输声道编码器170进行编码。因此，关于B格式信号的组合的音频场景可以直接输入到图1a的编码器170中以生成编码的B格式信号，然后可以通过输出接口200输出该B格式信号。在这种情况下，不需要任何空间元数据，但是以四个音频信号(即，全向分量W和定向分量X、Y、Z)的编码表示为代价。

备选地，通用格式是压力/速度格式，如图1b所示。为此，格式转换器120包括用于第一音频场景的时间/频率分析器121和用于第二音频场景或通常具有数字N的音频场景的时间/频率分析器122，其中N是整数。

然后，对于由频谱转换器121、122生成的每个这样的频谱表示，如123和124所示计算压力和速度，然后将格式组合器配置为一方面通过将由块123、124生成的相应压力信号进行求和来计算合计压力信号。并且，附加地，每个块123、124也计算单独的速度信号，并且可以将速度信号加在一起以获得组合的压力/速度信号。

取决于实施方式，不一定必须执行块142、143中的过程。取而代之的是，组合或“合计”的压力信号和组合或“合计”的速度信号可以类似于图1e中的B格式信号那样被编码，并且该压力/速度表示可以再次通过图1a的编码器170被编码，并可以随后被发送到解码器而没有关于空间参数的任何附加侧信息，这是因为组合的压力/速度表示已经包括了用于在解码器侧获得最终渲染的高质量声场的必要空间信息。

然而，在一个实施例中，优选地是对由块141生成的压力/速度表示执行DirAC分析。为此，计算强度矢量142，并在块143中，计算来自强度矢量的DirAC参数，然后，获得组合的DirAC参数作为组合的音频场景的参数表示。为此，实现图1a的DirAC分析器180以执行图1b的块142和143的功能。并且，优选地，DirAC数据附加地在元数据编码器190中经受元数据编码操作。元数据编码器190通常包括量化器和熵编码器，以便减少传输DirAC参数所需的比特率。

连同编码的DirAC参数一起，还传输编码的传输声道。编码的传输声道是由图1a的传输声道生成器160生成的，该传输声道生成器160可以例如实现为如图1b所示的用于从第一音频场景生成下混频的第一下混频生成器161和用于根据第N个音频场景生成下混频的第N个下混频生成器162。

然后，通常通过直接相加在组合器163中组合下混频声道，并且组合的下混频信号然后是由图1a的编码器170编码的传输声道。组合的下混频可以例如是立体声对，即，立体声表示的第一声道和第二声道，或者可以是单声道，即单声道信号。

根据图1c所示的另一实施例，完成格式转换器120中的格式转换，以将每个输入音频格式直接转换为DirAC格式作为通用格式。为此，格式转换器120在用于第一场景的相应块121和用于第二场景或其他场景的块122中再次形成时频转换或时频分析。然后，从125和126所示的相应音频场景的频谱表示中得出DirAC参数。块125和126中的过程的结果是DirAC参数，其包括每个时间/频率图块的能量信息，每个时间/频率图块的到达方向信息eDOA以及每个时间/频率图块的扩散信息ψ。然后，格式组合器140被配置为直接在DirAC参数域中执行组合，以便生成用于扩散的组合DirAC参数ψ和用于到达方向的组合eDOA。特别地，能量信息E1和EN是组合器144所需要的，但不是格式组合器140生成的最终组合参数表示的一部分。

因此，将图1c与图1e进行比较可以看出，当格式组合器140已经在DirAC参数域中执行了组合时，DirAC分析器180是不必要的并且未被实现。取而代之的是，格式组合器140的输出(即，图1c中的块144的输出)直接转发到图1a的元数据编码器190，并从那里转发到输出接口200，使得经编码的空间元数据(尤其是，经编码的组合DirAC参数)包含在输出接口200输出的经编码的输出信号中。

此外，图1a的传输声道生成器160可以已经从输入接口100接收用于第一场景的波形信号表示和用于第二场景的波形信号表示。这些表示被输入到下混频生成器块161、162中，并且在块163中将结果相加以获得如图1b所示的组合的下混频。

图1d示出了相对于图1c的类似表示。然而，在图1d中，音频对象波形被输入到针对音频对象1的时间/频率表示转换器121和针对音频对象N的时间/频率表示转换器122。另外，元数据连同频谱表示一起输入到DirAC参数计算器125、126中，如图1c所示。

然而，图1d提供了关于组合器144的优选实施方式如何操作的更详细的表示。在第一备选方案中，组合器对每个单独的对象或场景的单个扩散执行能量加权相加，并且针对每个时间/频率图块的组合DoA进行相应的能量加权计算，如备选方案1的下方等式中所示。

但是，也可以执行其他实现。特别是，另一种非常有效的计算方法是将组合DirAC元数据的扩散度设置为零，并将根据特定音频对象计算的在特定时间/频率图块中具有最高能量的到达方向选择作为针对每个时间/频率图块的到达方向。优选地，如关于图16a或16b所示，当输入接口中的输入是相应地被表示为每个对象的波形或单信号的单独的音频对象以及诸如位置信息的相应元数据时，图1d中的过程更合适。

然而，在图1c的实施例中，音频场景可以是图16c、图16d、图16e或图16f所示的任何其他表示。然后，元数据可以存在或不存在，即，图1c中的元数据是可选的。但是，然后，对于某些场景描述(例如，图16e中的Ambisonics场景描述)计算通常有用的扩散度，然后，与图1d的第二种选择相比，组合参数的方式的第一种选择是优选的。因此，根据本发明，格式转换器120被配置为将高阶Ambisonics或一阶Ambisonics格式转换为B格式，其中高阶Ambisonics格式在被转换为B格式之前被截断。

在另一实施例中，格式转换器被配置为将对象或声道投影在参考位置上的球谐函数上，以获得投影信号，并且其中格式组合器被配置为组合投影信号以获得B格式系数，其中对象或声道位于空间中的指定位置，并距参考位置具有可选的单独距离。对于将目标信号或多声道信号转换为一阶或高阶Ambisonics信号，此过程特别有效。

在另一替代方案中，格式转换器120被配置为执行DirAC分析，该DirAC分析包括对B格式分量的时频分析以及对压力和速度矢量的确定，然后格式组合器被配置为组合不同的压力/速度矢量，且格式组合器还包括DirAC分析器180，用于从组合压力/速度数据中导出DirAC元数据。

在另一备选实施例中，格式转换器被配置为直接从音频对象格式的对象元数据中提取DirAC参数作为第一或第二格式，其中用于DirAC表示的压力矢量是对象波形信号并且方向是从对象在空间中的位置而得到的，或扩散是直接在对象元数据中给出的或被设置为例如零值的默认值。

在另一实施例中，格式转换器被配置为将从对象数据格式导出的DirAC参数转换为压力/速度数据，并且格式组合器被配置为将压力/速度数据与从对一个或多个不同音频对象的不同描述得出的压力/速度数据进行组合。

然而，在关于图1c和1d示出的优选实施方式中，格式组合器被配置为直接组合由格式转换器120导出的DirAC参数，使得由图1a的块140生成的组合的音频场景已经是最终结果，且图1a中所示的DirAC分析器180并不是必需的，这是因为格式组合器140输出的数据已经是DirAC格式。

在另一实施方式中，格式转换器120已经包括用于一阶Ambisonics或高阶Ambisonics输入格式或多声道信号格式的DirAC分析器。此外，格式转换器包括用于将对象元数据转换为DirAC元数据的元数据转换器，并且例如在图1f中以150示出了这种元数据转换器，该元数据转换器再次在块121中操作时间/频率分析，并且在147处所示计算每个时间帧每个频段的能量，在图1f的块148处所示计算到达方向，并在图1f的块149所示计算扩散度。并且，元数据由组合器144组合以用于组合各个DirAC元数据流，优选地，通过如图1d实施例的两个备选方案之一示例性示出的加权相加。

多声道的声道信号可以直接转换为B格式。然后，可以通过常规DirAC处理所获得的B格式。图1g示出了到B格式的转换127以及随后的DirAC处理180。

参考文献[3]概述了执行从多声道信号到B格式的转换的方法。原则上，将多声道音频信号转换为B格式很简单：虚拟扬声器被定义为位于扬声器布局的不同位置处。例如，对于5.0布局，扬声器以+/-30度和+/-110度的方位角放置在水平面上。然后，将虚拟的B格式麦克风定义为位于扬声器的中心，并执行虚拟录音。因此，通过对5.0音频文件的所有扬声器声道求和来创建W声道。然后可以总结用于得到W和其他B格式系数的过程：

其中s_i是在由方位角θ_i和仰角

定义的扬声器位置处的处于空间中的多声道信号，其中每个扬声器和w_i是距离的加权函数。如果距离不可用或只是被忽略，则w_i＝1。尽管如此，此简单技术由于其是不可逆的过程而受到限制。此外，由于扬声器通常分布不均匀，因此在随后的DirAC分析进行的估计中存在偏差，该偏差朝着扬声器密度最高的方向。例如，在5.1布局中，由于前部的扬声器比后部的扬声器多，因此前部会有偏差。

为了解决这个问题，在[3]中提出了另一种技术，用于用DirAC处理5.1多声道信号。然后，最终的编码方案将如图1h所示，其中示出了B格式转换器127、如通常相对于图1中的元素180和其他元素190、1000、160、170、1020和/或220、240所述的DirAC分析器180。

在另一实施例中，输出接口200被配置为向组合格式添加用于音频对象的单独的对象描述，其中该对象描述包括方向、距离、扩散度或任何其他对象属性中的至少一个，该对象在所有频段上具有单个方向，并且是静止的或比速度阈值移动得慢。

相对于关于图4a和图4b讨论的本发明的第四方面，进一步详细地描述了该特征。

第一编码备选方案：通过B格式或等效表示来组合和处理不同的音频表示。

可以通过将所有输入格式转换为如图11所示的组合B格式，来实现设想的编码器的第一实现方式。

图11：基于DirAC的编码器/解码器的系统概述，将不同的输入格式组合为组合的B格式由于DirAC最初是为分析B格式信号而设计的，因此该系统会将不同的音频格式转换为组合的B格式信号。首先将格式各自转换为(120)B格式信号，随后通过将它们的B格式分量W、X、Y、Z求和来将其组合。一阶Ambisonics(FOA)分量可以被标准化并重新排序为B格式。假设FOA为ACN/N3D格式，则B格式输入的四个信号可以通过以下方式获得：

其中

表示阶数为l且索引为m，-l≤m≤+l的Ambisonics分量。由于FOA分量完全包含在高阶Ambisonics格式中，因此HOA格式只需要在转换为B格式之前被截断即可。

由于对象和声道在空间中具有确定的位置，因此可以将每个单独的对象和声道投影到中心位置(例如，记录位置或参考位置)处的球形谐波(SH)上。投影的总和允许以单个B格式组合不同的对象和多个声道，然后可以通过DirAC分析对其进行处理。然后，B格式系数(W，X，Y，Z)由下式给出：

其中s_i是在由方位角θ_i和仰角

定义的位置处的处于空间中的独立信号，其中w_i是距离的加权函数。如果距离不可用或仅被忽略，则w_i＝1。例如，独立信号可以对应于位于给定位置的音频对象，或者与在指定位置处的扬声器声道相关联的信号。

在需要阶数高于一阶的Ambisonics表示的应用中，可以通过额外考虑高阶分量来扩展上面针对一阶呈现的Ambisonics系数生成。

传输声道发生器160可以直接接收多声道信号，对象波形信号和高阶Ambisonics分量。传输声道生成器将通过对输入声道进行下混频来减少要传输的输入声道的数量。这些声道可以像在MPEG环绕声中那样以单声道或立体声下混频的方式混合在一起，而对象波形信号可以以无源方式求和成单下混频。此外，还可以从高阶Ambisonics中提取低阶表示或通过对立体声下混频或空间的任何其他部分进行波束成形来创建低阶表示。如果从不同输入格式获得的下混频彼此兼容，则可以通过简单的加法运算将它们组合在一起。

备选地，传输声道生成器160可以接收与传达给DirAC分析的格式相同的组合B格式。在这种情况下，分量的子集或波束成形(或其他处理)的结果形成要被编码并传输到解码器的传输声道。在所提出的系统中，需要常规的音频编码，该常规的音频编码可以基于但不限于标准的3GPP EVS编解码器。3GPP EVS是首选的编解码器选择，这是因为3GPP EVS具有高质量地以低比特率对语音信号或音乐信号进行编码的能力，同时要求相对较低的延迟以实现实时通信。

在非常低的比特率下，要发送的声道数量必须限制为一个，因此仅发送B格式的全向麦克风信号W。如果比特率允许，则可以通过选择B格式分量的子集来增加传输声道的数量。备选地，可以将B格式信号组合到转向到空间的特定分区的波束形成器160中。例如，可以将两个心形设计为指向相反的方向，例如指向空间场景的左侧和右侧：

然后可以通过联合立体声编码对这两个立体声声道L和R进行有效编码170。然后，DirAC合成将在解码器端充分利用这两个信号来渲染声音场景。可以设想其他波束成形，例如，可以将虚设心形麦克风指向给定方位角θ和仰角

的任何方向：

可以设想形成传输声道的其他方式，其携带比单个单声道传输声道更多的空间信息。

备选地，可以直接发送B格式的4个系数。在那种情况下，可以直接在解码器端提取DirAC元数据，而无需传输空间元数据的额外信息。

图12示出了用于组合不同输入格式的另一种替代方法。图12也是基于DirAC的编码器/解码器的系统概述，其在压力/速度域中进行组合；

多声道信号分量和Ambisonics分量二者都输入到DirAC分析123、124。对于每种输入格式，将执行DirAC分析，包括对B格式分量wⁱ(n)，xⁱ(n)，yⁱ(n)，zⁱ(n)的时频分析以及对压力和速度矢量的确定：

Pⁱ(n，k)＝Wⁱ(k，n)

Uⁱ(n，k)＝Xⁱ(k，n)e_x+Yⁱ(k，n)e_y+Zⁱ(k，n)e_z

其中i是输入的索引，而k和n是时频图块的时间频率索引，且e_x，e_y，e_z表示笛卡尔单位矢量。

P(n，k)和U(n，k)是计算DirAC参数(即，DOA和扩散度)所必需的。DirAC元数据组合器可以利用一起播放的N源得到它们的压力和粒子速度的线性组合，这些压力和粒子速度可以在单独播放时进行测量。然后通过以下公式得出组合的数量：

通过组合强度矢量的计算来计算143组合的DirAC参数：

其中

表示复数共轭。组合声场的扩散度由下式给出：

其中，E{.}表示时间平均算符，c表示声速，且E(k，n)表示声场能量，表示如下：

到达方向(DOA)通过单位矢量表示e_DOA(k，n)，单位矢量定义为：

如果输入音频对象，则可以直接从对象元数据中提取DirAC参数，而压力矢量Pⁱ(k，n)是对象本质(波形)信号。更准确地说，方向是直接从空间中的对象位置得出的，而扩散度是直接在对象元数据中给出的，或者——如果无法提供——则可以默认设置为零。从DirAC参数中，压力和速度矢量直接由下式给出：

然后，通过将压力和速度矢量相加来获得对象的组合或具有不同输入格式的对象的组合，如前所述。

总之，在压力/速度域中执行不同输入贡献(Ambisonics、声道、对象)的组合，然后将结果随后转换为方向/扩散DirAC参数。理论上，在压力/速度域中进行操作与在B格式中操作等效。与前一种方法相比，该替代方法的主要好处是可以根据[3]中针对环绕声格式5.1提出的每种输入格式来优化DirAC分析。

在组合的B格式或压力/速度域中进行这种融合的主要缺点是在处理链的前端进行的转换已成为整个编码系统的瓶颈。实际上，将音频表示从高阶Ambisonics、对象或声道转换为(一阶)B格式信号已经造成很大的空间分辨率损失，此后无法恢复。

第二编码备选方案：DirAC域中的组合和处理

为了避免将所有输入格式转换为组合的B格式信号的局限性，本替代方案建议直接从原始格式导出DirAC参数，然后在DirAC参数域中对其进行组合。图13给出了这种系统的总体概述。图13是基于DirAC的编码器/解码器的系统概述，其将DirAC域中的不同输入格式以及在解码器侧进行对象操控的可能性进行组合。

在下文中，我们还可以将多声道信号的各个声道视为编码系统的音频对象输入。然后，对象元数据随时间是静态的，并表示扬声器的位置和与听众位置有关的距离。

此替代解决方案的目的是避免将不同的输入格式的系统组合成组合的B格式或等效表示。目的在于组合DirAC参数之前先对其进行计算。然后，该方法避免了由于组合而导致的方向和扩散度估计上的任何偏差。此外，它可以在DirAC分析期间或在确定DirAC参数时最佳地利用每个音频表示的特性。

DirAC元数据的组合发生在为每种输入格式确定DirAC参数、扩散度、方向以及所传输的传输声道中包含的压力之后(125、126、126a)。DirAC分析可以从中间B格式估计参数，该中间B格式通过转换输入格式来获得，如前所述。备选地，可以有利地估计DirAC参数，而无需经过B格式而是直接从输入格式进行估计，这可以进一步提高估计精度。例如，在[7]中，建议直接根据高阶Ambisonics估计扩散度。在音频对象的情况下，图15中的简单元数据转换器150可以从对象元数据方向提取每个对象的扩散度。

如[4]中所提出的，可以实现将多个DirAC元数据流组合成单个组合的DirAC元数据流144。对于某些内容，最好直接从原始格式估计DirAC参数，而不是在执行DirAC分析之前先将其转换为组合的B格式。实际上，当转换为B格式[3]时或当组合不同的信号源时，参数、方向和扩散度可能会存在偏差。此外，此替代方案允许

另一个更简单的选择可以通过根据不同源的能量对不同源的参数进行加权来求其平均：

对于每个对象，仍可能从编码器向解码器发送其自身的方向以及可选的距离、扩散度或任何其他相关的对象属性，作为传输比特流的一部分(例如，参见图4a、图4b)。这种额外的辅助信息将丰富组合的DirAC元数据，并使解码器可以分别复原和/或操控对象。由于对象在所有频带上都具有单个方向，并且可以被认为是静态的或缓慢移动的，因此与其他DirAC参数相比，额外信息所需的更新频率较低，并且仅会产生非常低的附加比特率。

在解码器端，可以按照[5]中的说明进行定向滤波以操控对象。定向滤波基于短时频谱衰减技术。它通过零相位增益函数在频谱域中执行，该函数取决于对象的方向。如果对象的方向作为辅助信息发送，则方向可以包含在比特流中。否则，该方向也可以是由用户交互式地给出的。

第三备选方案在解码器侧的组合

备选地，可以在解码器侧执行该组合。图14是基于DirAC的编码器/解码器的系统概述，其通过DirAC元数据组合器将解码器侧的不同输入格式进行组合。在图14中，基于DirAC的编码方案以比先前更高的比特率工作，但允许传输单独的DirAC元数据。在进行DirAC合成220、240之前，在解码器中组合144不同的DirAC元数据，如在例如[4]中提出地那样。DirAC元数据组合器144还可以获取单个对象的位置，以便在DirAC分析中对对象进行后续操作。

图15是基于DirAC的编码器/解码器的系统概述，其在DirAC合成中将解码器侧的不同输入格式进行组合。如果比特率允许，则可以通过为每个输入分量(FOA/HOA、MC、对象)发送自己的下混频信号及其关联的DirAC元数据，来进一步增强在图15中提出的系统。尽管如此，不同的DirAC流在解码器处共享通用的DirAC合成220、240以降低复杂度。

图2a示出了根据本发明的另一方面(第二方面)的用于执行多个音频场景的合成的构思。图2a所示的装置包括输入接口100，该输入接口100用于接收第一场景的第一DirAC描述和用于接收第二场景的第二DirAC描述以及一个或多个传输声道。

此外，提供了DirAC合成器220，用于在频谱域中合成多个音频场景，以获得代表多个音频场景的频谱域音频信号。此外，提供了频谱域-时域转换器214，其将频谱域音频信号转换为时域，以便输出例如可以由扬声器输出的时域音频信号。在这种情况下，DirAC合成器配置为执行扬声器输出信号的渲染。备选地，音频信号可以是能够输出到耳机的立体声信号。此外，备选地，频谱域-时域转换器214输出的音频信号可以是B格式声场描述。所有这些信号(即，用于两个以上声道的扬声器信号、耳机信号或声场描述)都是时域信号，用于进一步处理，例如由扬声器或耳机输出，或用于在声场描述(例如，一阶Ambisonics信号或高阶Ambisonics信号)的情况下进行传输或存储。

此外，图2a的设备还包括用于在频谱域中控制DirAC合成器220的用户接口260。另外，可以将一个或多个传输声道与第一和第二DirAC描述一起提供给要使用的输入接口100，在这种情况下，第一和第二DirAC描述是为每个时间/频率图块提供到达方向和可选附加地扩散度信息的参数描述。

通常，输入到图2a中的接口100的两个不同的DirAC描述描述了两个不同的音频场景。在这种情况下，DirAC合成器220被配置为执行这些音频场景的组合。该组合的一种备选方案在图2b中示出。此处，场景组合器221被配置为在参数域中组合两个DirAC描述，即，在块221的输出处组合参数以获得组合的到达方向(DoA)参数，以及可选地，组合的扩散参数。然后将该数据引入到DirAC渲染器222中，该DirAC渲染器222额外接收一个或多个传输声道，以便声道以获得频谱域音频信号222。DirAC参数数据的组合是如图1d所示优选执行的，并且如相对于该图且特别是相对于第一备选方案所描述的那样执行。

如果输入到场景组合器221中的两个描述中的至少一个包括零的扩散值或根本没有扩散值，则可以附加地应用第二备选方案，如在图1d的上下文中讨论地那样。

在图2c中示出了另一备选方案。在该过程中，借助于针对第一描述的第一DirAC渲染器223和针对第二描述的第二DirAC渲染器224来渲染单独的DirAC描述，并且在块223和224的输出处，第一和第二频谱域音频信号是可用的，并且这些第一和第二频谱域音频信号在组合器225内组合，以在组合器225的输出处获得频谱域组合信号。

示例性地，第一DirAC渲染器223和第二DirAC渲染器224被配置为生成具有左声道L和右声道R的立体声信号。然后，组合器225被配置为组合来自块223的左声道和来自块224的左声道以获得组合的左声道。另外，将来自块223的右声道与来自块224的右声道相加，并且结果是在块225的输出处的组合的右声道。

对于多声道信号的单个声道，执行类似的过程，即，单独添加单个声道，以便将来自DirAC渲染器223的相同声道始终添加到另一个DirAC渲染器的相应声道，依此类推。例如，对于B格式或更高级的Ambisonics信号，也执行相同的过程。例如，当第一DirAC渲染器223输出信号W、X、Y、Z信号，而第二DirAC渲染器224输出类似的格式时，则组合器将这两个全向信号进行组合以获得组合的全向信号W，并且还针对相应的分量执行相同的过程以便最终获得X、Y和Z组合的分量。

此外，如已经关于图2a概述的，输入接口被配置为接收针对音频对象的额外的音频对象元数据。该音频对象可以已经包含在第一DirAC描述或第二DirAC描述中，或者与第一DirAC描述和第二DirAC描述分开。在这种情况下，DirAC合成器220被配置为选择性地操控额外的音频对象元数据或与该额外的音频对象元数据有关的对象数据，以例如基于额外的音频对象元数据或基于从用户接口260获得的用户给定方向信息来执行定向滤波。备选地或附加地，并且如图2d所示，DirAC合成器220被配置为在频谱域中执行零相位增益函数，该零相位增益函数取决于音频对象的方向，其中如果将对象的方向作为辅助信息发送，则将方向包含在该比特流中；或者其中从用户接口260接收到方向。作为图2a中的可选功能，输入到接口100中的额外的音频对象元数据反映了仍针对每个单独的对象从编码器向解码器发送其自己的方向及可选的距离、扩散度和任何其他相关对象属性作为传输比特流一部分的可能性。因此，额外的音频对象元数据可以与已经包括在第一DirAC描述或第二DirAC描述中的对象有关，或者可以是未包括在第一DirAC描述和第二DirAC描述中的附加对象。

但是，尽管典型的音频对象的扩散度为零(即集中于其实际位置，导致集中且特定的到达方向，这对于所有频段是不变的且相对于帧速率也是静止的或移动缓慢的)，但最好具有已是DirAC样式的额外的音频对象元数据，即，到达方向信息和可选的扩散度信息。因此，由于这种对象在所有频带上都具有单个方向，并且可以被认为是静态的或缓慢移动的，因此与其他DirAC参数相比，额外信息所需的更新频率较低，并且因此仅会产生非常低的附加比特率。举例来说，虽然第一DirAC描述和第二DirAC描述具有针对每个频谱带和每个帧的DoA数据和扩散数据，但额外的音频对象元数据仅需要用于所有频带的单个DoA数据，并且在优选实施例中，仅用于每第二帧(优选地，每第三帧、每第四帧、每第五帧、或每第十帧的该数据。

此外，对于通常在编码器/解码器系统的解码器侧的解码器中所包括的DirAC合成器220中执行的定向滤波，在图2b的备选方案中，DirAC合成器可以在进行场景组合之前在参数域内执行定向滤波，或在场景组合之后再次执行定向滤波。但是，在这种情况下，定向滤波将应用于组合场景，而不是单独的描述。

此外，在第一或第二描述中不包括音频对象而是包括其自己的音频对象元数据的情况下，如选择性操控器所示的定向滤波可以仅选择性地应用于额外的音频对象，其中存在针对额外的音频对象的额外音频对象元数据，而不会影响第一或第二DirAC描述或组合的DirAC描述。对于音频对象本身，或者存在表示对象波形信号的单独的传输声道，或者在下混频的传输声道中包括对象波形信号。

例如，如图2b中所示的选择性操控可以例如以如下方式进行：特定到达方向由图2d中引入的音频对象的方向给出，其包括在比特流中作为辅助信息或接收自用户接口。然后，基于用户给定的方向或控制信息，用户可以例如概述从某个方向开始，音频数据将被增强或将被衰减。因此，所考虑对象的对象(元数据)被放大或衰减。

在实际波形数据作为从图2d的左侧引入到选择操控器226中的对象数据的情况下，音频数据将根据控制信息而实际上被衰减或增强。但是，在对象数据除了到达方向和可选的扩散度或距离之外还具有其他能量信息的情况下，那么在需要针对对象进行衰减的情况下，将减小针对对象的能量信息，或在需要放大对象数据的情况下，将增加能量信息。

因此，定向滤波是基于短时频谱衰减技术的，并且它通过零相位增益函数在频谱域中执行，该函数取决于对象的方向。如果对象的方向作为辅助信息发送，则方向可以包含在比特流中。否则，该方向也可以是由用户交互式地给出的。自然地，同一过程不仅可以应用于单个对象，其中该单个对象由通常由针对所有频段的DoA数据和相对于帧速率具有较低更新率的DoA数据提供的额外音频对象元数据给定和反映，且还由对象的能量信息给出；但是定向滤波也可以根据情况应用于独立于第二DirAC描述的第一DirAC描述或反之亦然，或可以应用于组合的DirAC描述。

此外，应当注意，关于额外音频对象数据的特征也可以应用在关于图1a至图1f所示的本发明的第一方面中。然后，图1a的输入接口100附加地接收额外音频对象数据，如关于图2a讨论地，并且格式组合器可以实现为用户接口260控制的频谱域的DirAC合成器220。

此外，如图2所示的本发明的第二方面与第一方面的不同之处在于：输入接口已经接收到两个DirAC描述，即，具有相同格式的声场的描述，因此，对于第二方面，第一方面的格式转换器120不是必需的。

另一方面，当图1a的格式组合器140的输入由两个DirAC描述组成时，则格式组合器140可以如关于图2a所示的第二方面所讨论的那样实现，或者，备选地，图2a的设备220、240可以如关于第一方面的图1a的格式组合器140所讨论的那样实现。

图3a示出了音频数据转换器，其包括用于接收具有音频对象元数据的音频对象的对象描述的输入接口100。此外，输入接口100之后是元数据转换器150，该元数据转换器150也对应于关于本发明的第一方面讨论的用于将音频对象元数据转换为DirAC元数据的元数据转换器125、126。图3a音频转换器的输出由用于发送或存储DirAC元数据的输出接口300构成。输入接口100可以另外接收输入到接口100中的第二箭头所示的波形信号。此外，输出接口300可以被实现为通常将波形信号的编码表示引入到由框300输出的输出信号中。如果音频数据转换器被配置为仅转换包括元数据的单个对象描述，则输出接口300还提供该单个音频对象的DirAC描述以及通常编码的波形信号作为DirAC传输声道。

特别地，音频对象元数据具有对象位置，并且DirAC元数据具有相对于从对象位置导出的参考位置的到达方向。特别地，元数据转换器150、125、126被配置为将从对象数据格式导出的DirAC参数转换为压力/速度数据，并且元数据转换器被配置为对该压力/速度数据进行DirAC分析，例如，如图3c的由块302、304、306组成的流程图所示。为此，由块306输出的DirAC参数具有比从由块302获得的对象元数据导出的DirAC参数更好的质量，即，是增强的DirAC参数。图3b示出了相对于特定对象的参考位置的对象位置到到达方向的转换。

图3f示出了用于解释元数据转换器150的功能的示意图。元数据转换器150接收由矢量P表示的对象在坐标系中的位置。此外，与DirAC元数据相关的参考位置由同一坐标系中的矢量R给出。因此，到达方向矢量DoA从矢量R的尖端延伸到矢量B的尖端。因此，通过从对象位置P矢量减去参考位置R矢量来获得实际的DoA矢量。

为了具有由矢量DoA指示的归一化DoA信息，将矢量差除以矢量DoA的大小或长度。此外，并且如果这是必要和预期的，则也可以将DoA矢量的长度包括在由元数据转换器150生成的元数据中，使得对象与参考点的距离也附加地包括在元数据中，以便还可以基于对象距参考位置的距离来执行对该对象的选择性操控。特别地，图1f的提取方向块148也可以如关于图3f所讨论的那样操作，尽管也可以应用用于计算DoA信息以及可选地距离信息的其他备选方案。此外，如已经关于图3a所讨论的，图1c或1d中示出的块125和126可以以与关于图3f所讨论的相似的方式操作。

此外，图3a的设备可以被配置为接收多个音频对象描述，且元数据转换器被配置为将每个元数据描述直接转换为DirAC描述，然后，元数据转换器被配置为组合各个DirAC元数据描述以获得组合的DirAC描述作为图3a中所示的DirAC元数据。在一个实施例中，通过使用第一能量计算320针对第一到达方向的加权因子并通过使用第二能量计算322针对第二到达方向的加权因子，来执行组合，其中，由与相同时间段/频率段有关的块320、332来处理到达方向。然后，在块324中，如关于图1d中的项目144所讨论的，执行加权加法。因此，图3a所示的过程表示图1d的第一备选方案的实施例。

但是，相对于第二种备选方案，该过程将是将所有扩散度都设置为零或较小的值，并且对于时间段/频率段，考虑针对该时间段/频率段给出的所有不同的到达方向值考虑，并且将最大到达方向值选择为该时间段/频率段的组合的到达方向值。在其他实施例中，只要第二最大到达方向值与最大到达方向值的能量信息相差不大，也可以选择第二最大到达方向值。选择到达方向值，该到达方向的能量是该时频段的不同贡献的能量中最大能量，或者是第二大或第三大能量。

因此，参照图3a至图3f描述的第三方面与第一方面的不同之处在于：第三方面对于将单个对象描述转换为DirAC元数据也是有用的。备选地，输入接口100可以接收相同对象/元数据格式的几个对象描述。因此，不需要关于图1a的第一方面讨论的任何格式转换器。因此，图3a的实施例在接收使用不同的对象波形信号的两个不同的对象描述和不同对象元数据作为输入到格式组合器140的第一场景描述和第二描述的上下文中是有用的，元数据转换器150、125、126或148的输出可以是具有DirAC元数据的DirAC表示，因此，同样不需要图1的DirAC分析器180。然而，传输声道编码器170、元数据编码器190、关于与图3a的下混频器163相对应的传输声道产生器160的其他元件可以在第三方面的上下文中使用，且在该上下文中，图3a的输出接口300对应于图1a的输出接口200。因此，关于第一方面给出的所有相应描述也同样适用于第三方面。

图4、图4b在用于执行音频数据合成的装置的上下文中示出了本发明的第四方面。特别地，该装置具有输入接口100，用于接收具有DirAC元数据的音频场景的DirAC描述，并且附加地用于接收具有对象元数据的对象信号。图4b所示的该音频场景编码器还包括元数据生成器400，该元数据生成器400用于生成一方面包括DirAC元数据且另一方面包括对象元数据的组合的元数据描述。DirAC元数据包括单个时间/频率图块的到达方向，而对象元数据包括单个对象的方向或附加地距离或扩散度。

特别地，输入接口100被配置为附加地接收与音频场景的DirAC描述相关联的传输信号，如图4b所示，并且输入接口被附加地配置为接收与对象信号相关联的对象波形信号。因此，场景编码器还包括用于对传输信号和对象波形信号进行编码的传输信号编码器，并且传输编码器170可以对应于图1a的编码器170。

特别地，生成组合的元数据的元数据生成器140可以如关于第一方面、第二方面或第三方面所讨论的那样配置。并且，在优选实施例中，元数据生成器400被配置为针对对象元数据生成每个时间的单个宽带方向(即，针对特定时间帧)，并且元数据生成器被配置为相较于DirAC元数据较不频繁地刷新每个时间的单个宽带方向。

关于图4b讨论的过程允许具有组合的元数据，该组合的元数据具有用于完整DirAC描述的元数据并附加地具有用于附加音频对象的但为DirAC格式的元数据，因此可以通过同时执行如已经针对第二方面讨论的选择性定向滤波或修改来执行非常有用的DirAC渲染。

因此，本发明的第四方面，特别是元数据生成器400表示特定格式转换器，其中通用格式是DirAC格式，并且输入是关于图1a讨论的第一格式的第一场景的DirAC描述，且第二场景是单个对象信号或组合的对象信号，诸如SAOC对象信号。因此，格式转换器120的输出表示元数据生成器400的输出，但是与通过两个备选方案之一的元数据的实际特定组合相反，例如，如关于图1d所讨论的，对象元数据包含在输出信号中，即，与DirAC描述的元数据分开的“组合的元数据”，以允许对对象数据进行选择性修改。

因此，在图4a的右侧的项目2处指示的“方向/距离/扩散度”对应于输入到图2a的输入接口100中的额外音频对象元数据，但是在图4a的实施例中，仅用于单个DirAC描述。因此，从某种意义上讲，可以说图2a表示图4a、图4b中所示的编码器的解码器侧实施方式，前提是图2a设备的解码器侧仅接收单个DirAC描述和由元数据生成器400在与“额外音频对象元数据”相同的比特流内生成的对象元数据。

因此，当编码的传输信号具有与DirAC传输流分开的对象波形信号的单独表示时，可以对额外目标数据进行完全不同的修改。并且，然而，传输编码器170将数据(即，用于DirAC描述的传输声道和来自对象的波形信号两者)下混频，那么分离将不太理想，但是借助于附加的对象能量信息，甚至相对于DirAC描述与组合的下混频声道和对象的选择性修改是可用的。

图5a至5d代表在用于执行音频数据的合成的装置的上下文中的本发明的第五方面的又一个方面。为此，提供了输入接口100，用于接收一个或多个音频对象的DirAC描述和/或多声道信号的DirAC描述和/或一阶Ambisonics信号和/或更高阶Ambisonics信号的DirAC描述，其中DirAC描述包括一个或多个对象的位置信息或一阶Ambisonics信号或高阶Ambisonics信号的辅助信息或多声道信号的位置信息，作为辅助信息或来自用户接口。

特别地，操控器500被配置为操控一个或多个音频对象的DirAC描述、多声道信号的DirAC描述、一阶Ambisonics信号的DirAC描述或高阶Ambisonics信号的DirAC描述，获得操控的DirAC描述。为了合成该操控的DirAC描述，DirAC合成器220、240被配置用于合成该操控的DirAC描述以获得合成的音频数据。

在优选实施例中，DirAC合成器220、240包括如图5b所示的DirAC渲染器222和随后连接的频谱域-时域转换器240，该频谱域-时域转换器240输出操控的时域信号。特别地，操控器500被配置为在DirAC渲染之前执行与位置有关的加权操作。

特别是，当DirAC合成器配置为输出一阶Ambisonics信号或高阶Ambisonics信号或多声道信号的多个对象时，DirAC合成器被配置为针对每个对象或一阶或高阶Ambisonics信号的每个分量或多声道信号的每个声道使用单独的频谱域-时域转换器，如图5d在块506、508所示。如块510中概述的，然后假设所有信号都采用共同格式，即兼容格式，则将相应的单独转换的输出相加。

因此，在图5a的输入接口100接收多于一个(即两个或三个)表示的情况下，如关于图2b或图2c中已经讨论地，在参数域中，可以如块502所示分别操控每个表示，然后，可以如块504中概述的那样对每个操控的描述执行合成，然后可以如关于图5d中的块510所讨论的那样在时域中添加该合成。备选地，可以在频谱域中已经将各个DirAC合成过程在频谱域中的结果相加，然后也可以使用单个时域转换。特别地，操控器500可以被实现为相对于图2d所讨论的操控器或之前相对于任何其他方面所讨论的操控器。

因此，本发明的第五方面提供了关于以下事实的重要特征：当输入非常不同的声音信号的单独DirAC描述时，以及当如关于图5a的块500所讨论的那样执行对该单独描述的某种操控时，其中，操控器500的输入可以是包括仅一种格式的任何格式的DirAC描述，而第二方面则专注于接收至少两个不同的DirAC描述，或者例如，第四方面一方面与DirAC描述的接收有关，另一方面与对象信号描述有关。

随后，参考图6。图6示出了用于执行不同于DirAC合成器的合成的另一种实现方式。例如，当声场分析仪针对每个源信号生成单独的单声道信号S和原始到达方向时，且当根据转换信息计算出新的到达方向时，则图6中的Ambisonics信号生成器430例如将用于生成声源信号的声场描述(即，单声道信号S)，但是由水平角θ或仰角θ和方位角φ组成的新到达方向(DoA)数据。然后，由图6的声场计算器420执行的过程将例如针对具有新的到达方向的每个声源生成例如一阶Ambisonics声场表示，然后可以根据声场到新参考位置的距离使用缩放因子执行针对每个声源的进一步修改，然后来自各个声源的所有声场可以相互叠加，以最终获得修改后的声场，同样是例如与某个新参考位置有关的Ambisonics表示。

当解释为由DirAC分析器422处理的每个时间段/频率段代表某个(带宽受限)声源时，可以使用Ambisonics信号发生器430代替DirAC合成器425，以通过使用该时间段/频率段的下混频信号或压力信号或全向分量作为图6的“单声道信号S”，来针对每个时间段/频率段生成完整的Ambisonics表示。然后，在频率-时域转换器426中的针对W、X、Y、Z分量中的每一个的单独频率-时间转换将导致与图6所示的声场描述不同的声场描述。

随后，如本领域已知的，给出关于DirAC分析和DirAC合成的进一步解释。图7a示出了最初公开的DirAC分析仪，例如，在2009年的IWPASH的文献“Directional Audio Coding”中。DirAC分析器包括一组频带滤波器1310、能量分析器1320、强度分析器1330、时间平均块1340以及扩散度计算器1350和方向计算器1360。在DirAC中，分析和合成二者都在频域中执行。有几种方法可以将声音分为各个频段，每个频段都具有不同的属性。最常用的频率变换包括短时傅立叶变换(STFT)和正交镜滤波器组(QMF)。除了这些之外，还自由设计具有针对任何特定目而优化的任意滤波器的滤波器组。方向分析的目标是在每个频带上估计声音的到达方向，并估计声音是否同时从一个或多个方向到达。原则上，这可以通过多种技术来执行，但是，已经发现对声场的能量分析是合适的，如图7a所示。当从单个位置捕获一维、二维或三维中的压力信号和速度信号时，可以执行能量分析。在一阶B格式信号中，全向信号称为W信号，该信号已按比例缩小2的平方根倍。声压可以估计为

以STFT域表示。

X声道、Y声道和Z声道具有沿Cartesian轴定向的偶极子的方向图，它们共同形成矢量U＝[X，Y，Z]。该矢量估计声场速度矢量，并且也以STFT域表示。计算声场的能量E。B格式信号的捕获既可以通过定向麦克风的重合定位，也可以通过一组紧密间隔的全向麦克风来实现。在某些应用中，麦克风信号可以在计算域中形成，即，被模拟。声音的方向被定义为强度矢量I的相反方向。该方向在传输的元数据中被表示为相应的角度方位角和仰角值。还使用强度矢量和能量的期望算符来计算声场的扩散度。该方程式的结果是一个介于0和1之间的实数值，它表示声能是来自一个方向(扩散度为零)还是来自所有方向(扩散度为1)。当可以获得完整的3D或更少维度的速度信息时，此过程是合适的。

图7b示出了DirAC合成，该DirAC合成再次具有一组频带滤波器1370、虚拟麦克风块1400、直接/扩散合成器块1450、以及某个扬声器设置或虚拟预期扬声器设置1460。附加地，使用扩散度增益变换器1380、基于矢量的幅度平移(VBAP)增益表块1390、麦克风补偿块1420、扬声器增益平均块1430和用于其他声道的分配器1440。在这种带有扬声器的DirAC合成中，图7b中所示的高质量版本的DirAC合成接收所有B格式信号，其中针对扬声器设置1460的每个扬声器方向计算了虚拟麦克风信号。所利用的方向图通常是偶极子。然后根据元数据以非线性方式修改虚拟麦克风信号。低比特率版本的DirAC未在图7b中显示，但是，在这种情况下，仅传输一个音频声道，如图6所示。处理上的差异在于：所有虚拟麦克风信号将被替换为接收到的单个声道的音频。虚拟麦克风信号分为两个流：扩散流和非扩散流，分别对其进行处理。

通过使用矢量基振幅平移(VBAP)，将非扩散声音再现为点源。在平移中，在与扬声器特定的增益因子相乘之后，单声道声音信号被应用于扬声器的子集。使用扬声器设置信息和指定的平移方向计算增益因子。在低比特率版本中，仅将输入信号平移到元数据所隐含的方向。在高质量版本中，每个虚拟麦克风信号都与相应的增益因子相乘，从而在平移时产生相同的效果，但是不太容易出现任何非线性伪像。

在很多情况下，定向元数据会经历突然的时间变化。为避免伪像，通过VBAP计算的扬声器的增益因数可以通过时间积分进行平滑，其中与频率相关的时间常数等于每个频带的大约50个周期。这有效地消除了伪像，但是，在大多数情况下，方向变化不会被感知为比没有平均的情况更慢。合成扩散声音的目的是创建环绕听众的声音感知。在低比特率版本中，扩散流通过对输入信号进行解相关并从每个扬声器中进行再现来进行再现。在高质量版本中，扩散流的虚拟麦克风信号在某种程度上已经不相干，并且它们只需要进行轻微的去相关。与低比特率版本相比，此方法可为环绕混响和环境声音提供更好的空间质量。对于带耳机的DirAC合成，DirAC针对非扩散流在听众周围配置了一定量的虚拟扬声器，而针对扩散流配置了一定数量的扬声器。虚拟扬声器被实现为输入信号与测量到的头部相关传递函数(HRTF)的卷积。

随后，给出了关于不同方面(尤其是关于图1a所讨论的第一方面的其他实施方式)的其他普遍关系。通常，本发明涉及使用通用格式组合不同格式的不同场景，其中该通用格式例如可以是如例如图1a的项目120、140中讨论地B格式域、压力域/速度域或元数据域。

当不是直接以DirAC通用格式进行组合时，则如先前关于图1a的项目180所讨论的，在编码器中的传输之前，以一种备选方案执行DirAC分析802。

然后，在DirAC分析之后，如先前相对于编码器170和元数据编码器190所讨论的那样对结果进行编码，并且经由由输出接口200生成的编码输出信号来发送编码结果。然而，在另一备选方案中，当图1a的块160的输出和图1a的块180的输出转发到DirAC渲染器时，结果可以由图1a的设备直接渲染。因此，图1a的设备将不是特定的编码器设备，而将是分析器和相应的渲染器。

在图8的右分支中示出了另一备选方案，其中执行从编码器到解码器的传输，并且，如块804所示，在传输之后即在解码器端执行DirAC分析和DirAC合成。当使用图1a的备选方案时，即，编码输出信号是没有空间元数据的B格式信号时，该过程就是这种情况。在块808之后，可以渲染结果以供重放，或者备选地，结果甚至可以被编码并被再次发送。因此，很明显的是关于不同方面定义和描述的本发明过程是高度灵活的，并且可以很好地适应于特定的使用情况。

本发明的第一方面通用的基于DirAC的空间音频编码/渲染

可以单独地或同时地对多声道信号、Ambisonics格式和音频对象进行编码的基于DirAC的空间音频编码器。

相比现有技术的优势和优点

·针对最相关的浸入式音频输入格式的通用的基于DirAC的空间音频编码方案

·对于不同输出格式对不同输入格式的通用的音频渲染

本发明的第二方面在解码器侧组合两个或多个DirAC描述

本发明的第二方面设计在频谱域中组合并渲染两个或更多个DirAC描述。

相比现有技术的优势和优点

·高效的且精确的DirAC流组合

·允许使用DirAC普遍地表示任何场景，并在参数域或频谱域中有效地组合不同流。

·在频谱域中对各个DirAC场景或组合场景的高效且直观的场景操控，并被操控的组合场景的随后到时域的转换

本发明的第三方面音频对象转换到DirAC域

本发明的第三方面涉及将对象元数据并可选的对象波形信号直接转换到DirAC域，且在一个实施例中，将若干对象组合为对象表示。

相比现有技术的优势和优点

·仅通过音频对象元数据的元数据编码器进行高效且精确的DirAC元数据估计

·允许DirAC对涉及一个或多个音频对象的复杂音频场景进行编码

·用于通过DirAC来将音频对象编码为完整音频场景的单个参数表示的有效方法

本发明的第四方面组合对象元数据和常规DirAC元数据

本发明的第三方面解决用构成由DirAC参数表示的组合的音频场景的各个对象的方向且可选的距离或扩散度来修改DirAC元数据该额外信息易于被编码，这是因为它主要包括针对每个时间单元的单个宽带方向，并且它相比于其他DirAC参数较不频繁地被刷新，这是因为对象可以被假设为是静止的或以较小步幅移动。

相比现有技术的优势和优点

·仅通过音频对象元数据的元数据编码器进行高效且精确的DirAC元数据估计。

·通过在DirAC域中高效地组合的音频对象的元数据来通过DirAC编码音频对象的更有效方法

·用于通过有效地组合的音频对象的音频表示来通过DirAC将音频对象编码为音频场景的单个参数表示的有效方法

本发明的第五方面在DirAC合成中操控对象MC场景和FOA/HOA C

第四方面涉及解码器侧，并利用音频对象的已知位置。位置可以由用户通过交互接口来给定，并且也可以作为额外的付诸信息包含在比特流中。

目的是能够通过单独改变对象的属性(例如水平、均衡和/或空间位置)来操控包含多个对象的输出音频场景。还可以设想对对象进行完全滤波，或从组合流中重新复原各个对象。

可以通过共同处理DirAC元数据的空间参数、对象的元数据、交互式用户输入(如果存在)以及传输声道中携带的音频信号，实现对输出音频场景的操控。

相比现有技术的优势和优点

·允许DirAC在解码器端输出音频对象，如在编码器的输入端所呈现的那样。

·允许DirAC再现通过应用增益、旋转或…来操控各个音频对象

·功能需要最少的附加计算工作量，这是因为它只需要在DirAC合成结束时在渲染和合成滤波器组之前进行与位置有关的加权操作即可(附加对象输出针对每个对象输出仅需要一个附加合成滤波器组)。

所有参考文献通过引用全文并入本文：

[1]V.Pulkki，M-V Laitinen，J Vilkamo，J Ahonen，T Lokki and T

“Directional audio coding-pereeption-based reproduction ofspatial sound”，International Workshop on the Principles and Application onSpatial Hearing，Nov.2009，Zao；Miyagi，Japan.

[2]Ville Pulkki.“Virtual souree positioning using vector baseamplitude panning”.J.Audio Eng.Soc.，45(6)：456{466，June 1997.

[3]M.V.Laitinen and V.Pulkki，″Converting 5.1 audio recordings to B-format for directional audio coding reproduction，″2011 IEEE InternationalConferenee on Acoustics，Speech and Signal Processing(ICASSP)，Prague，2011，pp.61-64.

[4]G.Del Galdo，F.Kuech，M.Kallinger and R.Schultz-Amling，″Efficientmerging of multiple audio streams for spatial sound reproduction inDirectional Audio Coding，″2009 IEEE International Conferenee on Acoustics，Speech and Signal Processing，Taipei，2009，pp.265-268.

[5]Jürgen HERRE，CORNELIA FALCH，DIRK MAHNE，GIOVANNI DEL GALDO，MARKUSKALLINGER，AND OLIVER THIERGART，“Interactive Teleconfereneing CombiningSpatial Audio Object Coding and DirAC Technology”，J.Audio Eng.Sec.，Vol.59，No.12，2011 December.

[6]R.Schultz-Amling，F.Kuech，M.Kallinger，G.Del Galdo，J.Ahonen，V.Pulkki，“Planar Microphone Array Processing for the Analysis andReproduction of Spatial Audio using Directional Audio Coding，”AudioEngineering Seciety Convention 124，Amsterdam，The Netherlands，2008.

[7]Daniel P.Jarrett and Oliver Thiergart and Emanuel A.P.Habets andParrick A.Naylor，“Coherenee-Based Diffuseness Estimation in the SphericalHarmonic Domain”，IEEE 27th Convention of Electrical and Electronics Engineersin Israel(IEEEI)，2012.

[8]美国专利9,015,051。

在其他实施例中，本发明尤其是相对于第一方面以及还相对于其他方面提供了不同的备选方案。这些备选方案如下：

首先，在B格式域中组合不同的格式，然后在编码器中进行DirAC分析或将组合的声道传输到解码器，并在其中进行DirAC分析和合成。

其次，在压力域/速度域中组合不同的格式，并在编码器中进行DirAC分析。备选地，将压力/速度数据传输到解码器，并在解码器中完成DirAC分析，并在解码器中完成合成。

第三，在元数据域中组合不同的格式，并将单个DirAC流发送到解码器，或在组合它们之前将若干DirAC流发送到解码器并在解码器中进行组合。

此外，本发明的实施例或方面与以下方面有关：

首先，根据上述三种备选方案组合不同的音频格式。

其次，对已经具有相同格式的两个DirAC描述执行接收、组合和渲染。

第三，实现了将目标数据“直接转换”为DirAC数据的特定目标到DirAC转换器。

第四，除了常规DirAC元数据之外的对象元数据以及这两种元数据的组合；两种数据并排存在于比特流中，但音频对象也以DirAC元数据样式进行描述。

第五，在将输出音频(扬声器)信号转换到时域之前，将对象和DirAC流单独地发送到解码器，并在解码器中有选择地操控对象。

这里要提到的是，如前所述的所有备选方案或方面以及由所附权利要求书中的独立权利要求限定的所有方面可以是单独使用的，即，除了预期的备选方案、目的或独立权利要求外，没有任何其他备选方案或目的。然而，在其他实施例中，两个或多个备选方案或方面或独立权利要求可以彼此组合，并且在其他实施例中，所有方面或替代方案和所有独立权利要求可以彼此组合。

被创造编码的音频信号可以存储在数字存储介质或非暂时性存储介质上，或可以在诸如无线传输介质或有线传输介质(例如，互联网)的传输介质上传输。

虽然已经在装置的上下文中描述了一些方面，但是将清楚的是，这些方面还表示对应方法的描述，其中，块或设备对应于方法步骤或方法步骤的特征。类似地，在方法步骤上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。

取决于某些实现要求，可以在硬件中或在软件中实现本发明的实施例。实现方式可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行，与可编程计算机系统协作(或能够协作)，使得执行相应方法。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，其能够与可编程计算机系统协作以便执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。

其他实施例包括存储在机器可读载体或非暂时性存储介质上的用于执行本文描述的方法之一的计算机程序。

换言之，本发明方法的实施例因此是具有程序代码的计算机程序，该程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，该计算机程序用于执行本文所述的方法之一。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传送。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，该计算机程序用于执行本文所述的方法之一。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。

上述实施例对于本发明的原理仅是说明性的。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围来限制而不是由借助对本文的实施例的描述和解释所给出的具体细节来限制。

Claims

1.一种用于生成组合的音频场景的描述的装置，包括：

输入接口(100)，用于接收第一格式的第一场景的第一描述和第二格式的第二场景的第二描述，其中所述第二格式不同于所述第一格式；

格式转换器(120)，用于将所述第一描述转换为通用格式，并当所述第二格式不同于所述通用格式时将所述第二描述转换为所述通用格式；以及

格式组合器(140)，用于组合所述通用格式的第一描述和所述通用格式的第二描述，以获得所述组合的音频场景。

2.根据权利要求1所述的装置，

其中，所述第一格式和所述第二格式是从包括一阶Ambisonics格式、高阶Ambisonics格式、通用格式、DirAC格式、音频对象格式和多声道格式的格式的组中选择的。

3.根据权利要求1或2所述的装置，

其中，所述格式转换器(120)被配置为将所述第一描述转换为第一B格式信号表示，并将所述第二描述转换为第二B格式信号表示；以及

其中，所述格式组合器(140)被配置为通过单独组合所述第一B格式信号表示和所述第二B格式信号表示的各个分量，来组合所述第一B格式信号表示和所述第二B格式信号表示。

4.根据前述权利要求之一所述的装置，

其中，所述格式转换器(120)被配置为将所述第一描述转换为第一压力/速度信号表示，并将所述第二描述转换为第二压力/速度信号表示；以及

其中，所述格式组合器(140)被配置为通过单独组合所述第一压力/速度信号表示和所述第二压力/速度信号表示的各个分量来组合所述压力/速度信号表示以获得组合的压力/速度信号表示。

5.根据前述权利要求之一所述的装置，

其中，所述格式转换器(120)被配置为将所述第一描述转换为第一DirAC参数表示，并当所述第二描述不同于DirAC参数表示时，将所述第二描述转换为第二DirAC参数表示；以及

其中，所述格式组合器(140)被配置为通过单独组合所述第一DirAC参数表示和所述第二DirAC参数表示的各个分量来组合所述第一DirAC参数表示和所述第二DirAC参数表示，以获得组合的音频场景的组合的DirAC参数表示。

6.根据权利要求5所述的装置，

其中，所述格式组合器(140)被配置为针对表示所述组合的音频场景的时频图块生成到达方向值，或针对所述时频图块生成到达方向值和扩散度值。

7.根据前述权利要求之一所述的装置，

还包括DirAC分析器(180)，用于分析所述组合的音频场景以导出所述组合的音频场景的DirAC参数，

其中，所述DirAC参数包括针对表示所述组合的音频场景的时频图块的到达方向值，或针对所述时频图块的到达方向值和扩散度值。

8.根据前述权利要求之一所述的装置，

还包括传输声道发生器(160)，用于从所述组合的音频场景或从所述第一场景和所述第二场景生成传输声道信号，以及

传输声道编码器(170)，用于对传输声道信号进行核心编码，或者

其中所述传输声道发生器(160)被配置为使用指向左方位置或右方位置的波束形成器，来分别从一阶Ambisonics或更高阶Ambisonics格式的所述第一场景或所述第二场景生成立体声信号，或

其中所述传输声道发生器(160)被配置为通过对多声道表示中的三个或更多个声道进行下混频，来从多声道表示的所述第一场景或所述第二场景生成立体声信号，或者

其中所述传输声道发生器(160)被配置为通过使用对象的位置来平移每个对象，或通过使用指示哪个对象处于哪个立体声声道的信息来将对象下混频为立体声下混频，来从音频对象表示的所述第一场景或所述第二场景生成立体声信号；或者

其中所述传输声道发生器(160)被配置为仅将所述立体声信号的左声道添加到左下混频传输声道，并仅添加所述立体声信号的右声道以获得右传输声道，或者

其中所述通用格式是B格式，并且其中所述传输声道生成器(160)被配置为处理组合的B格式表示以导出传输声道信号，其中所述处理包括执行波束成形操作或提取B格式信号的分量子集(例如，全向分量)作为所述单声道传输声道，或者

其中所述处理包括使用所述全向信号和具有B格式的相反符号的Y分量进行波束成形，以计算左和右声道，或者

其中所述处理包括使用B格式的所述分量和给定的方位角和给定的仰角的波束成形操作，或者

其中所述传输声道发生器(160)被配置为向所述传输声道编码器提供所述组合的音频场景的B格式信号，其中所述格式组合器(140)输出的所述组合的音频场景中不包括任何空间元数据。

9.根据前述权利要求之一所述的装置，还包括：

元数据编码器(190)，

用于对所述组合的音频场景中描述的DirAC元数据进行编码以获得编码的DirAC元数据，或者

用于对从所述第一场景导出的DirAC元数据进行编码以获得第一编码的DirAC元数据，并用于对从所述第二场景导出的DirAC元数据进行编码以获得第二编码的DirAC元数据。

10.根据前述权利要求之一所述的装置，还包括：

输出接口(200)，用于产生表示所述组合的音频场景的编码的输出信号，该输出信号包括编码的DirAC元数据和一个或多个编码的传输声道。

11.根据前述权利要求之一所述的装置，

其中所述格式转换器(120)被配置为将高阶Ambisonics或一阶Ambisonics格式转换为所述B格式，其中所述高阶Ambisonics格式在被转换为所述B格式之前被截断，或者

其中所述格式转换器(120)被配置为将对象或声道投影在参考位置上的球谐函数上，以获得投影信号，并且其中所述格式组合器(140)被配置为组合所述投影信号以获得B格式系数，其中所述对象或所述声道位于空间中的指定位置处，并距参考位置具有可选的单独距离，或者

其中所述格式转换器(120)被配置为执行DirAC分析，所述DirAC分析包括对B格式分量的时频分析以及对压力和速度矢量的确定，并且其中所述格式组合器(140)被配置为组合不同的压力/速度矢量，并且其中所述格式组合器(140)还包括DirAC分析器，用于从组合的压力/速度数据中导出DirAC元数据，或者

其中所述格式转换器(120)被配置为从音频对象格式的对象元数据中提取DirAC参数作为所述第一格式或所述第二格式，其中所述压力矢量是所述对象波形信号且所述方向是从在空间中的所述对象位置导出的，或扩散度是直接在所述对象元数据中给出的或被设置为例如零值的默认值，或者

其中所述格式转换器(120)被配置为将从所述对象数据格式导出的DirAC参数转换为压力/速度数据，并且所述格式组合器(140)被配置为将所述压力/速度数据与从一个或多个不同音频对象的不同描述导出的压力/速度数据进行组合，或者

其中所述格式转换器(120)被配置为直接导出DirAC参数，并且其中所述格式组合器(140)被配置为组合DirAC参数以获得所述组合的音频场景。

12.根据前述权利要求之一所述的装置，其中所述格式转换器(120)包括：

DirAC分析器(180)，用于一阶Ambisonics或高阶Ambisonics输入格式或多声道信号格式；

元数据转换器(150、125、126、148)，用于将对象元数据转换为DirAC元数据，或将具有时不变位置的多声道信号转换为所述DirAC元数据；以及

元数据组合器(144)，用于通过加权加法来组合各个DirAC元数据流或组合来自多个流的到达方向元数据，所述加权加法是根据关联的压力信号能量的能量来进行加权的；或者用于通过加权加法来组合来自若干流的扩散度元数据，所述加权加法是根据关联的压力信号能量的能量来进行加权的，或者

其中所述元数据组合器(144)被配置为针对第一场景的第一描述的时间/频率段计算能量值和到达方向值，并且针对第二场景的第二描述的时间/频率段计算能量值和到达方向值，并且其中所述格式组合器(140)被配置为将第一能量与第一到达方向值相乘并与第二能量值和第二到达方向值的乘积相加以获得所述组合的到达方向值，或者，备选地，从第一到达方向值和第二到达方向值中选择与较高能量相关联的到达方向值作为所述组合的到达方向值。

13.根据前述权利要求之一所述的装置，

还包括：输出接口(200，300)被配置为向所述组合的格式添加针对音频对象的单独的对象描述，其中所述对象描述包括方向、距离、扩散度或任何其他对象属性中的至少一个，其中所述对象在所有频段上具有单个方向，并且是静止的或比速度阈值移动得慢。

14.一种生成组合的音频场景的描述的方法，包括：

接收第一格式的第一场景的第一描述并接收第二格式的第二场景的第二描述，其中所述第二格式不同于所述第一格式；

将所述第一描述转换为所述通用格式，并当所述第二格式不同于所述通用格式时将所述第二描述转换为所述通用格式；以及

组合通用格式的第一描述和通用格式的第二描述，以获得所述组合的音频场景。

15.一种计算机程序，当运行在计算机或处理器上时，用于执行根据权利要求14所述的方法。

16.一种用于执行多个音频场景的合成的装置，包括：

输入接口(100)，用于接收第一场景的第一DirAC描述并用于接收第二场景的第二DirAC描述及一个或多个传输声道；以及

DirAC合成器(220)，用于在频谱域中合成所述多个音频场景，以获得代表所述多个音频场景的频谱域音频信号；以及

频谱域-时域转换器(240)，用于将所述频谱域音频信号转换到时域。

17.根据权利要求16所述的装置，其中所述DirAC合成器包括：

场景组合器(221)，用于将所述第一DirAC描述和所述第二DirAC描述组合为组合的DirAC描述；以及

DirAC渲染器(222)，用于使用一个或多个传输声道渲染所述组合的DirAC描述以获得所述频谱域音频信号，或者

其中所述场景组合器(221)被配置为针对第一场景的第一描述的时间/频率段计算能量值和到达方向值，并且针对第二场景的第二描述的时间/频率段计算能量值和到达方向值，并且其中所述场景组合器(221)被配置为将第一能量与第一到达方向值相乘并与第二能量值和第二到达方向值的乘积相加以获得所述组合的到达方向值，或者，备选地，在第一到达方向值和第二到达方向值中选择与较高能量相关联的到达方向值作为所述组合的到达方向值。

18.根据权利要求16所述的装置，

其中所述输入接口(100)被配置为接收用于DirAC描述的单独的传输声道和单独的DirAC元数据，

其中所述DirAC合成器(220)被配置为使用相应DirAC描述的传输声道和元数据来渲染每个描述，以获得每个描述的频谱域音频信号，并组合每个描述的所述频谱域音频信号以获得所述频谱域音频信号。

19.根据权利要求16至18之一所述的装置，其中，所述输入接口(100)被配置为接收音频对象的额外的音频对象元数据，以及

其中所述DirAC合成器(220)被配置为基于包括在所述对象元数据中的对象数据或基于用户给定的方向信息，选择性地操控所述额外的音频对象元数据或与所述元数据有关的对象数据，以执行定向滤波，或者

其中所述DirAC合成器(220)被配置为在频谱域中执行零相位增益函数(226)，所述零相位增益函数取决于音频对象的方向，其中如果将对象的方向作为辅助信息发送，则将所述方向包含在比特流中，或者其中从用户接口接收所述方向。

20.一种用于执行多个音频场景的合成的方法，包括：

接收第一场景的第一DirAC描述并接收第二场景的第二DirAC描述及一个或多个传输声道；以及

在频谱域中合成所述多个音频场景，以获得表示所述多个音频场景的频谱域音频信号；以及

将所述频谱域音频信号频谱时间转换到时域。

21.一种计算机程序，当运行在计算机或处理器上时，所述计算机程序用于执行根据权利要求20所述的方法。

22.一种音频数据转换器，包括：

输入接口(100)，用于接收具有音频对象元数据的音频对象的对象描述；

元数据转换器(150，125，126，148)，用于将所述音频对象元数据转换为DirAC元数据；以及

输出接口(300)，用于发送或存储所述DirAC元数据。

23.根据权利要求22所述的音频数据转换器，其中所述音频对象元数据具有对象位置，并且其中所述DirAC元数据具有相对于基准位置的到达方向。

24.根据权利要求22或23之一所述的音频数据转换器，

其中所述元数据转换器(150、125、126、148)被配置为将从对象数据格式导出的DirAC参数转换为压力/速度数据，并且其中所述元数据转换器(150、125、126、148)被配置为对所述压力/速度数据应用DirAC分析。

25.根据权利要求22至24之一所述的音频数据转换器，

其中所述输入接口(100)被配置为接收多个音频对象描述，

其中所述元数据转换器(150、125、126、148)被配置为将每个对象元数据描述转换为各个DirAC数据描述，以及

其中所述元数据转换器(150、125、126、148)被配置为组合各个DirAC元数据描述以获得组合的DirAC描述作为所述DirAC元数据。

26.根据权利要求25所述的音频数据转换器，其中所述元数据转换器(150、125、126、148)被配置为通过以下方式来组合各个DirAC元数据描述，其中每个元数据描述包括到达方向元数据或到达方向元数据和扩散度元数据：通过加权加法分别组合来自不同元数据描述的到达方向元数据，其中所述加权加法是根据关联的压力信号能量的能量进行加权的；或者通过加权加法组合来自不同DirAC元数据描述的扩散度元数据，其中所述加权加法是根据关联的压力信号能量的能量进行加权的，或者备选地，从第一到达方向值和第二到达方向值中选择与最高能量相关联的到达方向值作为所述组合的到达方向值。

27.根据权利要求22至26之一所述的音频数据转换器，

其中，所述输入接口(100)被配置为除了接收所述对象元数据之外，还接收针对每个音频对象的音频对象波形信号，

其中，所述音频数据转换器还包括下混频器(163)，用于将所述音频对象波形信号下混频成一个或多个传输声道，以及

其中，所述输出接口(300)被配置为与所述DirAC元数据相关联地发送或存储所述一个或多个传输声道。

28.一种用于执行音频数据转换的方法，包括：

接收具有音频对象元数据的音频对象的对象描述；

将所述音频对象元数据转换为DirAC元数据；以及

传输或存储所述DirAC元数据。

29.一种计算机程序，当运行在计算机或处理器上时，所述计算机程序用于执行根据权利要求28所述的方法。

30.一种音频场景编码器，包括：

输入接口(100)，用于接收具有DirAC元数据的音频场景的DirAC描述，并用于接收具有对象元数据的对象信号；

元数据生成器(400)，用于生成包括所述DirAC元数据和所述对象元数据的组合的元数据描述，其中所述DirAC元数据包括各个时频图块的到达方向，并且所述对象元数据包括各个对象的方向或附加地包括各个对象的距离或扩散度。

31.根据权利要求30所述的音频场景编码器，其中所述输入接口(100)被配置为接收与所述音频场景的DirAC描述相关联的传输信号，并且其中所述输入接口(100)被配置为接收与所述对象信号相关联的对象波形信号，以及

其中所述音频场景编码器还包括用于对所述传输信号和所述对象波形信号进行编码的传输信号编码器(170)。

32.根据权利要求30和31之一所述的音频场景编码器，

其中所述元数据生成器(400)包括如权利要求12至27中任一项所述的元数据转换器(150、125、126、148)。

33.根据权利要求30至32之一所述的音频场景编码器，

其中所述元数据生成器(400)被配置为针对所述对象元数据生成每个时间的单个宽带方向，并且所述元数据生成器被配置为与所述DirAC元数据相比较不频繁地刷新所述每个时间的单个宽带方向。

34.一种对音频场景进行编码的方法，包括：

接收具有DirAC元数据的音频场景的DirAC描述，并接收具有音频对象元数据的对象信号；以及

生成包括所述DirAC元数据和所述对象元数据的组合的元数据描述，其中所述DirAC元数据包括各个时频图块的到达方向，并且其中所述对象元数据包括各个对象的方向或附加地包括各个对象的距离或扩散度。

35.一种计算机程序，当运行在计算机或处理器上时，所述计算机程序用于执行根据权利要求34所述的方法。

36.一种用于执行音频数据的合成的装置，包括：

输入接口(100)，用于接收一个或多个音频对象或多声道信号或一阶Ambisonics信号或更高阶Ambisonics信号的DirAC描述，其中所述DirAC描述包括所述一个或多个对象的位置信息、或所述一阶Ambisonics信号或所述高阶Ambisonics信号的辅助信息、或所述多声道信号的位置信息，作为辅助信息或来自用户接口；

操控器(500)，用于操控所述一个或多个音频对象、所述多声道信号、所述一阶Ambisonics信号或所述高阶Ambisonics信号的所述DirAC描述，以获得操控的DirAC描述；以及

DirAC合成器(220、240)，用于合成所述操控的DirAC描述以获得合成的音频数据。

37.根据权利要求36所述的装置，

其中所述DirAC合成器(220、240)包括DirAC渲染器(222)，用于使用所述操控的DirAC描述来执行DirAC渲染以获得频谱域音频信号；以及

频谱域时域转换器(240)，用于将所述频谱域音频信号转换到时域。

38.根据权利要求36或37所述的装置，

其中所述操控器(500)被配置为在DirAC渲染之前执行与位置有关的加权操作。

39.根据权利要求36至38之一所述的装置；

其中所述DirAC合成器(220、240)被配置为输出多个对象或一阶Ambisonics信号或高阶Ambisonics信号或多声道信号，并且其中所述DirAC合成器(220、240)被配置为针对每个对象或者一阶Ambisonics信号或高阶Ambisonics信号的每个分量或针对多声道信号的每个声道使用单独的频谱域时域转换器(240)。

40.一种用于执行音频数据的合成的方法，包括：

接收一个或多个音频对象或多声道信号或一阶Ambisonics信号或高阶Ambisonics信号的DirAC描述，其中所述DirAC描述包括所述一个或多个对象、或所述多声道信号的位置信息、或所述一阶Ambisonics信号或、所述高阶Ambisonics信号的附加信息，作为辅助信息或用于用户接口；

操控所述DirAC描述以获得操控的DirAC描述；以及

合成所述操控的DirAC描述以获得合成的音频数据。

41.一种计算机程序，当运行在计算机或处理器上时，所述计算机程序用于执行根据权利要求40所述的方法。