CN102460573B

CN102460573B - 音频信号译码器、对音频信号译码的方法

Info

Publication number: CN102460573B
Application number: CN201080028673.8A
Authority: CN
Inventors: 奥利弗·黑尔慕斯; 科尔内利娅·法尔克; 于尔根·赫莱; 约翰内斯·希尔珀特; 法尔科·里德鲁施; 列昂尼德·特伦蒂夫
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-06-24
Filing date: 2010-06-23
Publication date: 2014-08-20
Anticipated expiration: 2030-06-23
Also published as: TW201108204A; US20120177204A1; RU2558612C2; JP2012530952A; AR077226A1; CA2855479C; CA2766727C; HK1170329A1; CN103474077B; RU2012101652A; AU2010264736B2; AU2010264736A1; CA2766727A1; EP2535892A1; JP5678048B2; CN103474077A; BRPI1009648A2; US8958566B2; PL2535892T3; MX2011013829A

Abstract

一种音频信号译码器，用以根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态，该音频信号译码器包括：对象分离器，被配置为分解该下混信号表示型态，以根据该下混信号表示型态及使用该对象相关的参数信息中的至少一部分提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息，及描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息。该音频信号译码器还包括音频信号处理器，被配置为接收该第二音频信息，以及根据该对象相关的参数信息处理该第二音频信息，以获得该第二音频信息的已处理的版本。该音频信号译码器还包括音频信号组合器，被配置为组合该第一音频信息与该第二音频数据的已处理的版本，以获得该上混信号表示型态。

Description

音频信号译码器、对音频信号译码的方法

技术领域

根据本发明的实施方式涉及用以根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态的一种音频信号译码器。

根据本发明的其它实施方式涉及用以根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态的一种方法。

根据本发明的其它实施方式涉及一种计算机程序。

根据本发明的若干实施方式涉及一种进阶的卡拉OK/独唱SAOC系统。

背景技术

在现代音频系统，期望以比特率有效方式传送与储存音频信息。此外，经常期望使用房间内空间分散的二扬声器或甚至更多扬声器来重制一音频内容。在此种情况下，期望探勘此种多扬声器配置的能力来允许使用者可在空间上识别不同音频内容或单一音频内容的不同项目。此项目的可通过将不同音频内容分开地分配至不同的扬声器而达成。

换言之，在音频处理、音频传输及音频储存技术领域，越来越期望处理多信道内容而改善听觉感受。使用多信道音频内容给使用者带来显著改善。举例言之，可获得三维空间的听觉感受，其带来娱乐用途上改善的使用者的满足。但多信道音频内容也可用于专业领域，例如用于电话会议用途，原因在于通过使用多信道音频回放，可改良扬声器的识别性。

但也期望音频质量与比特率要求间有妥善折衷，以免因多信道应用造成过度资源负荷。

最近，已经提出了用于含多个音频对象的音频场景的比特率有效传输及/或储存的参数技术，例如双声道提示编码(I型)(参见例如参考文献[BCC])、联合来源编码(参见例如参考文献[JSC])、及MPEG空间音频对象编码(SAOC)(参见例如参考文献[SAOC1]、[SAOC2])。

这些技术是针对知觉上重构期望的输出音频场景而非通过波形匹配。

图8示出此种系统(此处：MPEG SAOC)的系统综览。图8示出的MPEG SAOC系统800包括SAOC编码器810及SAOC译码器820。该SAOC编码器810接收多个对象信号x₁至x_N，其可表示为例如时域信号或时频域信号(例如，呈傅利叶转换的转换系数集合形式，或呈QMF次频带信号形式)。SAOC编码器810典型地也接收与对象信号x₁至x_N相关联的下混系数d₁至d_N。下混系数的分开集合可供下混信号的各信道利用。SAOC编码器810典型地被配置为通过根据相关联的下混系数d₁至d_N组合对象信号x₁至x_N而获得下混信号信道。典型地，具有比对象信号x₁至x_N更少的下混信道。为了允许(至少近似允许)在SAOC译码器820该端的对象信号的分开(或分开处理)，SAOC编码器810提供一个或多个下混信号(标示为下混信道)812及旁信息814两者。旁信息814描述对象信号x₁至x_N的特性，以便允许译码器端的特定对象处理。

SAOC译码器820被配置为接收一个或多个下混信号812及旁信息814两者。此外，SAOC译码器820典型地被配置为接收使用者互动信息及/或使用者控制信息822，其描述期望的描绘设定值。举例言之，使用者互动信息/使用者控制信息822可描述扬声器设定值及由对象信号x₁至x_N所提供的这些对象期望的空间位置。

SAOC译码器820被配置为提供例如多个已译码的上混信道信号至这些上混信道信号可与多扬声器描绘配置的个别扬声器相关联。SAOC译码器820例如可包含对象分离器820a，其被配置为基于一个或多个下混信号812及旁信息814，至少近似重构对象信号x₁至x_N，借此获得重构的对象信号820b。但该重构的对象信号820b可能略为偏离原先对象信号x₁至x_N，例如，原因在于由于比特率限制而旁信息814可能并非相当足以用于完美重构。SAOC译码器820可进一步包括混合器820c，其可被配置为接收该重构的对象信号820b及使用者互动信息及/或使用者控制信息822，以及基于此而提供上混信道信号至混合器820c可经组配来使用该使用者互动信息及/或使用者控制信息822而判定个别重构的对象信号820b对上混信道信号至的贡献。使用者互动信息及/或使用者控制信息822例如可包含描绘信息(也标识为描绘系数)，其判定个别重构的对象信号820b对上混信道信号至的贡献。

但须注意于多个实施例中，对象的分开(通过图8的对象分离器820a指示)与混合(通过图8的混合器820c指示)在一个单一步骤中执行。为了达成此项目的，可运算总参数，其描述将一个或多个下混信号812直接映像至上混信道信号至这些参数可基于旁信息814及使用者互动信息及/或使用者控制信息822运算。

现在参考图9a、9b及9c，将说明基于下混信号表示型态及对象相关的旁信息用以获得上混信号表示型态的不同装置。图9a示出包括SAOC译码器920的MPEG SAOC系统900的方块示意图。SAOC译码器920包括对象译码器922及混合器/描绘器926作为分开的功能区块。该对象译码器922根据下混信号表示型态(例如，呈以时域或时频域表示的一个或多个下混信号形式)及对象相关的旁信息(例如，呈对象母数据形式)而提供多个重构的对象信号924。混合器/描绘器926接收与多数N个对象相关联的重构的对象信号924，及基于此信号而提供一个或多个上混信道信号928。在SAOC译码器920中，对象信号924的提取与混合/描绘分开执行，其允许对象译码功能与混合/描绘功能分开，但带来相当高的运算复杂度。

现在参考图9b，将简短讨论另一种MPEG SAOC系统930，其包括SAOC译码器950。SAOC译码器950根据下混信号表示型态(例如，呈一个或多个下混信号形式)及对象相关的旁信息(例如，呈对象母数据形式)而提供多个上混信道信号958。SAOC译码器950包括组合型对象译码器及混合器/描绘器，其被配置为在联合混合处理中获得上混信道信号958而未分开对象译码与混合/描绘，其中，这些用于联合上混处理的参数取决对象相关的旁信息及描绘信息两者。联合上混处理也取决于下混信息，其被视为该对象相关的旁信息的一部分。

综上所述，上混信道信号958的提供可以一步式处理或两步式处理执行。

现在参考图9c，将说明一种MPEG SAOC系统960。SAOC系统960包括SAOC至MPEG环绕转码器980而非SAOC译码器。

SAOC至MPEG环绕转码器包括旁信息转码器982，其被配置为接收对象相关的旁信息(例如，呈对象母数据形式)，以及可选地，一个或多个下混信号的信息及描绘信息。旁信息转码器也被配置为基于所接收的数据而提供MPEG环绕旁信息984(例如，呈MPEG环绕比特流形式)。如此，旁信息转码器982被配置为考虑描绘信息，以及可选地，有关一个或多个下混信号内容的信息，而将自该对象编码器所释出的对象相关的(参数)旁信息转换成信道相关的(参数)旁信息984。

可选地，该SAOC至MPEG环绕转码器980可被配置为操纵例如由下混信号表示型态所描述的一个或多个下混信号而获得已经操纵的下混信号表示型态988。但可删除下混信号操纵器986，使得SAOC至MPEG环绕转码器980的输出下混信号表示型态988与SAOC至MPEG环绕转码器的输入下混信号表示型态相同。若基于SAOC至MPEG环绕转码器980的输入下混信号表示型态，信道相关的MPEG环绕旁信息984不允许提供期望的听觉感受(在某些描绘系列可能为此种情况)，则可使用下混信号操纵器986。

如此，SAOC至MPEG环绕转码器980提供下混信号表示型态988及MPEG环绕旁信息984，因而使用接收MPEG环绕旁信息984及下混信号表示型态988的MPEG环绕译码器，可产生多个上混信道信号，这些信号表示根据输入SAOC至MPEG环绕转码器980的描绘信息的音频对象。

综上所述，可使用用来译码经SAOC编码的音频信号的不同构想。在某些情况下，使用SAOC译码器，其根据下混信号表示型态及对象相关的参数旁信息而提供上混信道信号(例如，上混信道信号928、958)。此种构想的实例可参考第9a及9b图。另外，经SAOC编码的音频信息可经转码来获得下混信号表示型态(例如，下混信号表示型态988)及信道相关的旁信息(例如，信道相关的MPEG环绕旁信息984)，其可由MPEG环绕译码器用来提供期望的上混信道信号。

在MPEG SAOC系统800中，其系统综览提供于图8，一般处理以频率选择方式进行，而在各频带内可描述如下：

·N个输入音频对象信号x₁至x_N经下混作为SAOC编码器处理的一部分。用于单声道下混，下混系数以d₁至d_N表示。此外，SAOC编码器810提取描述输入音频对象的特性的旁信息814。用于MPEG SAOC，相对于彼此的对象功率关系为此种旁信息的最基本形式。

·下混信号812及旁信息814经传送及/或储存。为了达到该目的，下混音频信号可使用众所周知的知觉音频编码器诸如MPEG-1层II或层III(亦称「.mp3」)、MPEG进阶音频编码(AAC)、或任何其它音频编码器压缩。

·在接收端，SAOC译码器820在构想上尝试使用所传送的旁信息814(及当然，一个或多个下混信号812)而转存该原先对象信号(「对象分离」)。这些近似的对象信号(也称作为重构的对象信号820b)然后使用描绘矩阵而混合成由M个音频输出信道(其例如可以上混信道信号至表示)的一标靶场景。用于单声道输出，描绘矩阵系数系以r₁至r_N表示。

·有效地，罕见执行(或甚至未曾执行)对象信号的分离，原因在于分离步骤(以对象分离器820a指示)及混合步骤(以混合器820C)两者组合成单一转码步骤，其经常导致运算复杂度的大减。

已经发现此种体系极度有效，无论就传送比特率(只需传送数个下混信道加若干旁信息而非N个离散对象音频信号或离散系统)及运算复杂度 (处理复杂度主要涉及输出信道数目而非音频对象数目)而言都如此。对接收端的使用者的其他优点包括其选择描绘设定值(单声道、立体声、环绕音效、虚拟头戴式耳机回放等)的选择自由度及使用者互动性特征：描绘矩阵，及如此输出场景可由使用者根据其意愿、个人偏好或其它标准而以互动方式设定与改变。举例言之，可自共同位在一个空间区的一组群中定位该消息源(发话者)来最大化与其它消息源的区别。这种互动性系经由提供译码器使用者接口来达成。

对各个所传送的声音对象，可调整其相对位准及(用于非单声道描绘)描绘的空间位置。当使用者改变相关的图形使用者接口(GUI)滑动件的位置(例如：对象位准(level)＝+58分贝，对象位置＝-30度)时可能实时出现。

但发现难以在此种系统中处理不同型音频对象的音频对象。具体地，发现若欲处理的音频对象总数未经预先测定，则难以处理不同型音频对象的音频对象，例如与不同的旁信息相关联的音频对象。

有鉴于此种情况，本发明的一目的在于形成一种构想，其允许包括下混信号表示型态及对象相关的参数信息的音频信号的运算有效和弹性译码，其中，该对象相关的参数信息描述了二个或多个不同型音频对象的音频对象。

发明内容

该目的通过独立权利要求所定义的一种用以根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态的音频信号译码器、一种用以根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态的方法、及一种计算机程序而实现。

根据本发明的一实施方式形成一种用以根据下混信号表示型态及对象相关的参数信息提供上混信号表示型态的音频信号译码器。该音频信号译码器包括配置为分解该下混信号表示型态的对象分离器，其根据该下混信号表示型态提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息，和描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息。该音频信号译码器还包括配置为接收该第二音频信息及根据该对象相关的参数信息而处理该第二音频信息的音频信号处理器，以获得该第二音频信息的已处理的版本。该音频信号译码器还包括配置为组合该第一音频信息与该第二音频信息的该已处理的版本的音频信号组合器，以获得该上混信号表示型态。

本发明的关键构想为可以级联结构获得不同型音频对象的有效处理，其允许在由该对象分离器所执行的第一处理步骤中使用至少部分对象相关的参数信息来分离不同型音频对象，及其允许通过该音频信号处理器根据至少部分对象相关的参数信息，执行第二处理步骤的额外空间处理。

发现自下混信号表示型态提取包含第二音频对象类型的音频对象的第二音频信息可以以中等复杂度执行，即使有较大量的第二音频对象类型的音频对象也如此。此外，发现一旦第二音频信息与描述这些第一音频对象类型的音频对象的第一音频信息分开时，可有效执行第二音频对象类型的音频对象的空间处理。

此外，发现若第二音频对象类型的音频对象的对象-个别处理延迟至该音频信号处理器，而未与第一音频信息及第二音频信息的分开的同时执行，则通过对象分离器执行用以分离第一音频信息及第二音频信息的处理演绎法则可以以较低复杂度执行。

在优选实施方式中，音频信号译码器被配置为根据下混信号表示型态、对象相关的参数信息、及与由该下混信号表示型态所表示的一音频对象子集相关联的剩余信息而提供上混信号表示型态。在此种情况下，该对象分离器被配置为根据该下混信号表示型态及使用至少部分该对象相关的参数信息及剩余信息而分解该下混信号表示型态，以提供描述与剩余信息相关联的第一音频对象类型的一个或多个音频对象(例如，前景对象FGO)的第一集合的该第一音频信息，及描述并未与剩余信息相关联的第二音频对象类型的一个或多个音频对象(例如，背景对象BGO)的第二集合的该第二音频信息。

本实施方式基于发现除了对象相关的参数信息外，经由使用剩余信息，可获得描述该第一音频对象类型的音频对象的第一集合的第一音频信息与描述该第二音频对象类型的音频对象的第二集合的第二音频信息间的特别准确分开。发现在多种情况下，单纯使用对象相关的参数信息将导致失真，其可经由使用剩余信息显著减少或甚至完全消除。例如，剩余信息描述剩余失真，即使第一音频对象类型的音频对象仅使用对象相关的参数信息分离，预期仍将保有该剩余失真。剩余信息典型地通过音频信号编码器估算。经由应用剩余信息，可改良该第一音频对象类型的音频对象与该第二音频对象类型的音频对象间的分开。

如此允许获得第一音频信息及第二音频信息，而该第一音频对象类型的音频对象与该第二音频对象类型的音频对象间有特别良好的分开，而其又允许当在音频信号处理器处理该第二音频信息时，达成第二音频对象类型的音频对象的高质量空间处理。

在优选实施方式中，因而对象分离器被配置提供音频信息使得第一音频对象类型的音频对象强调超过第一音频信息中的第二音频对象类型的音频对象。对象分离器也被配置为提供音频信息使得第二音频对象类型的音频对象强调超过第二音频信息中的第一音频对象类型的音频对象。

在优选实施方式中，音频信号译码器被配置为执行两步式处理，使得在音频信号处理器中该第二音频信息的处理在描述该第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息与描述该第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息间分开之后进行。

在优选实施方式中，音频信号处理器被配置为根据与该第二音频对象类型的音频对象相关联的对象相关的参数信息，及与该第一音频对象类型的音频对象相关联的对象相关的参数信息独立无关地处理该第二音频信息。如此，可获得第一音频对象类型的音频对象与第二音频对象类型的音频对象的分开处理。

在优选实施方式中，该对象分离器被配置为使用该下混信号表示型态的一个或多个下混信号信道与一个或多个剩余信道的线性组合来获得该第一音频信息及该第二音频信息。在此种情况下，其中该对象分离器被配置为根据与该第一音频对象类型的这些音频对象相关联的下混参数、及根据该第一音频对象类型的这些音频对象的信道预测系数而执行该线性组合来获得组合参数。该第一音频对象类型的音频对象的信道预测系数的运算例如可考虑第二音频对象类型的音频对象为单共享音频对象。如此，分离处理可以以够小的运算复杂度达行，其例如与第二音频对象类型的音频对象的数目几乎独立无关。

在优选实施方式中，该对象分离器施加描绘矩阵至该第一音频信息来将该第一音频对象类型的音频对象映像至该上混音频信号表示型态的音频信道上。可如此进行的原因在于对象分离器可提取个别表示该第一音频对象类型的音频对象的分开的音频信号。如此，可将该第一音频对象类型的音频对象直接映像至该上混信号表示型态的音频信道上。

在优选实施方式中，音频处理器被配置为根据描绘信息、对象相关的协方差信息、下混信息来执行该第二音频信息的立体声前处理而获得该上混音频信号表示型态的音频信道。

如此该第二音频对象类型的音频对象的立体声处理与该第一音频对象类型的音频对象与该第二音频对象类型的音频对象间的分开分离。如此，该第一音频对象类型的音频对象与该第二音频对象类型的音频对象间的有效分开不受立体声处理影响(或降级)，该处理典型地导致音频对象分配于多个音频信道上，而未提供高度对象分开，而例如使用剩余信息可在对象分离器获得对象的高度分开。

在另一优选实施方式中，该音频处理器被配置为根据描绘信息、对象相关的协方差信息及下混信息而执行第二音频信息的后处理。这种形式的后处理允许在音频场景中第二音频对象类型的音频对象的空间定置。虽然如此，由于级联构想，音频处理器的运算复杂度可维持足够低，原因在于该音频处理器无需考虑与第一音频对象类型的音频对象相关联的对象相关的参数信息。

此外，可通过音频处理器执行不同型处理，例如单声道至双声道处理、单声道至立体声处理、立体声至双声道处理、或立体声至立体声处理。

在优选实施方式中，该对象分离器被配置为将并未关联剩余信息的第二音频对象类型的音频对象处理成单一音频对象。此外，该音频信号处理器被配置为考虑对象专一性描绘参数而调整第二音频对象类型的这些音频对象对该上混信号表示型态的贡献。如此，该第二音频对象类型的音频对象由该对象分离器视为单一音频对象，其显著减低了对象分离器的复杂度，同时也允许具有独特剩余信息，其与该第二音频对象类型的音频对象相关联的描绘信息独立无关。

在优选实施方式中，该对象分离器被配置为对多个第二音频对象类型的音频对象获得一个或二个共享对象电平差值。该对象分离器被配置为使用该共享对象位准差值用于信道预测系数的运算。此外，该对象分离器被配置为使用该信道预测系数而获得表示该第二音频信息的一个或二个音频信道。为了获得共享对象位准差值，第二音频对象类型的音频对象可通过对象分离器作为单一音频对象有效处理。

在优选实施方式中，该对象分离器被配置为对多个第二音频对象类型的音频对象获得一个或二个共享对象位准差值；及该对象分离器被配置为使用该共享对象位准差值用于一矩阵的元的运算。及该对象分离器被配置为使用该能量模式映像矩阵而获得表示该第二音频信息的一个或多个音频信道。再次，该共享对象位准差值允许通过该对象分离器来进行该第二音频对象类型的音频对象的运算上有效的共享处理。

在优选实施方式中，该对象分离器被配置为若发现有两个该第二音频对象类型的音频对象，则根据该对象相关的参数信息而选择性地获得与第二音频对象类型的这些音频对象相关联的该共享对象间相关值，以及若发现有多于或少于两个该第二音频对象类型的音频对象，则设定与第二音频对象类型的这些音频对象相关联的该共享对象间相关值为零。对象分离器被配置为使用与该第二音频对象类型的音频对象相关联的该共享对象间相关值而获得表示该第二音频信息的一个或多个音频信道。使用这种办法，如果可以高运算效率获得，即如果存在两个该第二音频对象类型的音频对象，则采用对象间相关值。否则有运算要求来获得对象间相关值。如此，若有多于或少于两个第二音频对象类型的音频对象，将与该第二音频对象类型的音频对象相关联的对象间相关值设定为零，则就听觉感受及运算复杂度而言可获得良好折衷。

在优选实施方式中，该音频信号处理器被配置为根据(至少部分)该对象相关的参数信息而描绘该第二音频信息，以获得第二音频对象类型的这些音频对象的经描绘的表示型态作为该第二音频信息的已处理的版本。在此种情况下，可与该第一音频对象类型的音频对象独立无关而作描绘。

在优选实施方式中，对象分离器被配置为提供第二音频信息使得该第二音频信息描述多于两个该第二音频对象类型的音频对象。根据本发明的实施方式允许弹性调整第二音频对象类型的音频对象数目，此项调整通过处理的级联结构显著获得协助。

在优选实施方式中，该对象分离器被配置为获得表示多于两个该第二音频对象类型的音频对象的一信道音频信号表示型态或二信道音频信号表示型态作为第二音频信息。具体言之，比较对象分离器需要处理多于两个第二音频对象类型的音频对象的情况，该对象分离器的复杂度可维持显著较低。虽然如此，发现其为第二音频对象类型的音频对象使用一个或二个音频信号信道的运算上有效的表示型态。

在优选实施方式中，音频信号处理器被配置为考虑与多于两个第二音频对象类型的音频对象相关联的对象相关的参数信息，而根据(至少部分)对象相关的参数信息来接收第二音频信息及处理第二音频信息。如此，通过音频处理器执行对象个别处理，而对第二音频对象类型的音频对象，未通过对象分离器执行这种对象个别处理。

在优选实施方式中，该音频译码器被配置为自该对象相关的参数信息的配置信息提取对象总数信息及前景对象数目信息。该音频译码器也被配置为经由形成该对象总数信息与该前景对象数目信息间的差而判定该第二音频对象类型的音频对象数目。如此，达成第二音频对象类型的音频对象数目的有效传讯。此外，此种构想提供有关第二音频对象类型的音频对象数目的高度弹性。

在优选实施方式中，该对象分离器被配置为使用与该第一音频对象类型的N_eao音频对象相关联的对象相关的参数信息而获得表示(优选个别地)该第一音频对象类型的N_eao音频对象的N_eao音频信号作为第一音频信息，及获得表示该第二音频对象类型的N-N_eao音频对象的一个或二个音频信号作为第二音频信息，将该第二音频信息的N-N_eao音频对象处理作为单一一信道或二信道音频对象。该音频信号处理器被配置为使用与该第二音频对象类型的N-N_eao音频对象相关联的对象相关的参数信息而个别描绘由该第二音频对象类型的一个或二个音频信号所表示的N-N_eao音频对象。如此，该第一音频对象类型的音频对象与该第二音频对象类型的音频对象间的音频对象分离与随后该第二音频对象类型的音频对象的处理分开。

根据本发明的实施方式形成一种用以根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态的方法。

根据本发明的另一实施方式形成一种用以执行该方法的计算机程序。

附图说明

随后将参考所附的附图而说明根据本发明的实施例，附图中：

图1示出根据本发明实施方式的一种音频信号译码器的方块示意图；

图2示出根据本发明实施方式的另一音频信号译码器的方块示意图；

图3a及图3b示出可用作本发明实施方式中对象分离器的一种剩余处理器的方块示意图；

图4a至4e图示出根据本发明实施方式的可用于音频信号译码器的音频信号处理器的方块示意图；

图4f示出一种SAOC转码器处理模式的方块图；

图4g示出一种SAOC译码器处理模式的方块图；

图5a示出根据本发明实施方式的一种音频信号译码器的方块示意图；

图5b示出根据本发明实施方式的另一音频信号译码器的方块示意图；

图6a示出表示试听测试设计描述的表；

图6b示出表示待测系统的表；

图6c示出表示试听测试项目及描绘矩阵的表；

图6d示出用于卡拉OK/独唱型描绘试听测试的平均MUSHRA分数的图形表示；

图6e示出用于传统描绘试听测试的平均MUSHRA分数的图形表示；

图7示出根据本发明实施方式的用以提供上混信号表示型态的一种方法的流程图；

图8示出参考MPEG SAOC系统的方块示意图；

图9a示出使用分开的译码器及混合器的参考SAOC系统的方块示意图；

图9b示出使用整合式译码器及混合器的参考SAOC系统的方块示意图；及

图9c示出使用SAOC至MPEG转码器的参考SAOC系统的方块示意图。

图10示出根据本发明另一实施方式的SAOC编码器的方块示意图。

具体实施方式

1.根据图1的音频信号译码器

图1示出根据本发明实施方式的一种音频信号译码器100的方块示意图。

音频信号译码器100被配置为接收对象相关的参数信息110及下混信号表示型态112。该音频信号译码器100被配置为根据该下混信号表示型态及该对象相关的参数信息110而提供上混信号表示型态120。该音频信号译码器100包括对象分离器130，其被配置为根据该下混信号表示型态112及使用该对象相关的参数信息110的至少一部分将该下混信号表示型态112分解以提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息132及描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息134。该音频信号译码器100还包括音频信号处理器140，其被配置为接收第二音频信息134及根据该对象相关的参数信息112的至少一部分而处理该第二音频信息以获得该第二音频信息134的已处理的版本142。该音频信号译码器100还包括音频信号组合器150，其被配置为组合该第一音频信息132与该第二音频信息134的已处理的版本142而获得该上混信号表示型态120。

音频信号译码器100实施下混信号表示型态的级联处理，其以组合方式表示该第一音频对象类型的音频对象及该第二音频对象类型的音频对象。

在由该对象分离器130所执行的第一处理步骤中，使用该对象相关的参数信息110，描述第二音频对象类型的音频对象的第二集合的该第二音频信息与描述第一音频对象类型的音频对象的第一集合的该第一音频信息132分开。但第二音频信息134典型为以组合方式描述该第二音频对象类型的音频对象的音频信息(例如，一信道音频信号或二信道音频信号)。

在第二处理步骤中，音频信号处理器140根据该对象相关的参数信息处理第二音频信息134。如此，音频信号处理器140可执行该第二音频对象类型的音频对象的对象个别处理或描绘，这些音频对象典型由第二音频信息134所描述，及该步骤典型地并未由对象分离器130实施。

如此，虽然第二音频对象类型的音频对象优选未以对象个别方式由对象分离器130处理，但在由音频信号处理器140执行的第二处理步骤中，第二音频对象类型的音频对象确实以对象个别方式处理(例如，以对象个别方式描绘)。如此，由对象分离器130执行的第一音频对象类型的音频对象与第二音频对象类型的音频对象间的分离与随后由音频信号处理器140执行的第二音频对象类型的音频对象的对象个别处理分开。如此，由对象分离器130所执行的处理实质上与第二音频对象类型的音频对象数目无关。此外，第二音频信息134的格式(例如，一信道音频信号或二信道音频信号)典型地与第二音频对象类型的音频对象数目无关。如此，可变更第二音频对象类型的音频对象数目而无需修改对象分离器130结构。换言之，第二音频对象类型的音频对象视为单一(例如，一信道音频信号或二信道音频信号)音频对象处理，对该对象由对象分离器140获得共享对象相关的参数信息(例如，与一个或二个音频信道相关联的共享对象位准差值)。

据此，根据图1的音频信号译码器100可处理可变量目的第二音频对象类型的音频对象而无需做对象分离器130的结构修改。此外，由对象分离器130及音频信号处理器140可应用不同的音频对象处理演绎法则。如此例如，可由对象分离器130使用剩余信息执行音频对象的分离，其允许使用剩余信息而特别好地分离不同音频对象，该剩余信息组成用以改良对象分离质量的旁信息。相反地，音频信号处理器140可执行对象个别处理而未使用剩余信息。举例言之，音频信号处理器140可被配置为执行已知空间音频对象编码(SAOC)型音频信号处理而描绘不同的音频对象。

2.根据图2的音频信号译码器

下文中将说明根据本发明实施方式的音频信号译码器200。此音频信号译码器200的方块示意图在图2中示出。

音频译码器200被配置为接收下混信号210、所谓的SAOC比特流212、描绘矩阵信息214，以及可选地，头相关传送功能(HRTF)参数信息216。音频信号译码器200还被配置为提供输出/MPS下混信号220及(可选地)MPS比特流222。

2.1.音频信号译码器200的输入信号及输出信号

下文中，将说明有关音频信号译码器200的输入信号及输出信号的各项细节。

下混信号200例如可为一信道音频信号或二信道音频信号。下混信号210例如可由下混信号的已编码表示型态导出。

空间音频对象编码比特流(SAOC比特流)212例如可包含对象相关的参数信息。举例言之，SAOC比特流212可包含例如呈对象位准差参数OLD形式的对象位准差信息、呈对象间相关性参数IOC形式的对象间相关性信息。

此外，SAOC比特流212可包含下混信息，其说明如何使用下混处理而基于多数音频对象信号已经提供下混信号。举例言之，SAOC比特流可包含下混增益参数DMG及(可选地)下混信道位准差参数DCLD。

描绘矩阵信息214例如可描述不同音频对象如何由音频译码器描绘。举例言之，描绘矩阵信息214描述音频对象的部署至输出/MPS下混信号220的一个或多个信道。

头相关传送功能(HRTF)参数信息216可进一步说明导出双声道头戴式耳机信号的传送功能。

输出/MPEG环绕下混信号(也简称为「输出/MPS下混信号」)220表示例如呈时域音频信号表示型态或频域音频信号表示型态的一个或多个音频信道。或单独形成、或组合包含描述输出/MPS下混信号220的映像状况的MPEG环绕参数的可选MPEG环绕比特流(MPS比特流)222而形成上混信号表示型态。

2.2.音频信号译码器200的结构及功能

下文中，将说明可执行SAOC转码器的功能或SAOC译码器的功能的音频信号译码器200结构的进一步细节。

音频信号译码器200包括下混处理器230，其被配置为接收下混信号210及基于该信号而提供输出/MPS下混信号220。下混处理器230也被配置为接收至少部分SAOC比特流信息212及至少部分描绘矩阵信息214。此外，下混处理器230也接收得自参数处理器250的已处理的SAOC参数信息240。

参数处理器250被配置为接收SAOC比特流信息212、描绘矩阵信息214，以及可选地，头相关传送功能参数信息260，以及基于此而提供载有MPEG环绕参数的MPEG环绕比特流222(若需MPEG环绕参数，例如在转码操作模式中如此为真)。此外，参数处理器250提供已处理的SAOC信息240(若需此种已处理的SAOC信息)。

下文中，将说明下混处理器230的结构及功能的进一步细节。

下混处理器230包含剩余处理器260，其被配置为接收下混信号210及基于此提供描述所谓增强的音频对象(EAO)的第一音频对象信号262，EAO可被视为第一音频对象类型的音频对象。该第一音频对象信号包含一个或多个音频信道且可视为第一音频信息。剩余处理器260也被配置为提供第二音频对象信号264，该信号描述第二音频对象类型的音频对象且可视为第二音频信息。第二音频对象信号264可包含一个或多个信道，典型地包含描述多数音频对象的一或二音频信道。典型地，第二音频对象信号可描述甚至多于两个第二音频对象类型的音频对象。

下混处理器230还包括SAOC下混前处理器270，其被配置为接收第二音频对象信号264及基于此而提供该第二音频对象信号264的已处理的版本272，其可视为第二音频信息的已处理的版本。

下混处理器230还包括音频信号组合器280，其被配置为接收第一音频对象信号262及第二音频对象信号264的已处理的版本272，以及基于这些信号而提供输出/MPS下混信号220，其可单独或与(选择性)相对应的MPEG环绕比特流222共同被视为上混信号表示型态。

下文中，将讨论下混处理器230的个别单元的功能的进一步细节。

剩余处理器260被配置为分开地提供第一音频对象信号262及第二音频对象信号264。为了达成此项目的，剩余处理器260可被配置为施加至少部分SAOC比特流信息212。举例言之，剩余处理器260可被配置为评估与第一音频对象类型的音频对象相关联的对象相关的参数信息，亦即所谓「增强的音频对象」EAO。此外，剩余处理器260可被配置为描述第二音频对象类型的音频对象例如，俗称所谓的「未经增强的音频对象」的总体信息。剩余处理器260还可被配置为评估设置于SAOC比特流信息212中的剩余信息，用以分离增强的音频对象(第一音频对象类型的音频对象)与未经增强的音频对象(第二音频对象类型的音频对象)。剩余信息例如可编码时域剩余信号，该信号应用来获得增强的音频对象与未增强的音频对象间的特别利落分开。此外，可选地，剩余处理器260评估至少部分描绘矩阵信息214(例如)以测定增强的音频对象分配至第一音频对象信号262的这些音频信道。

SAOC下混前处理器270包括信道重分配器274，其被配置为接收一个或多个第二音频对象信号264的音频信道，以及基于此而提供一个或多个(典型为两个)已处理的第二音频对象信号272的音频信道。此外，SAOC下混前处理器270包括一去相关信号提供器276，其被配置为接收一个或多个第二音频对象信号264的音频信道，以及基于此而提供一个或多个去相关信号278a、278b，其加至由信道重分配器274所提供的信号，以获得第二音频对象信号264的已处理的版本272。

有关SAOC下混处理器的进一步细节将讨论如下。

音频信号组合器280组合第一音频对象信号262与第二音频对象信号的已处理的版本272。为了达成此项目的，可执行逐信道组合。如此，获得输出/MPS下混信号220。

参数处理器250被配置为获得(选择性的)MPEG环绕参数，其考虑描绘矩阵信息214，以及可选地，HRTF参数信息216，基于SAOC比特流而组成上混信号表示型态的MPEG环绕比特流222。换言之，SAOC参数处理器252被配置为将由SAOC比特流信息212所描述的对象相关的参数信息转译成信道相关参数信息，其通过MPEG环绕比特流222作说明。

下文中，将举出第2图所示SAOC转码器/译码器架构的结构的简短综论。空间音频对象编码(SAOC)为参数多数对象编码技术。该技术被设计用于以包含M个信道的音频信号(例如，下混音频信号210)发送多个音频对象。连同此种反向可兼容的下混信号，发送(例如，使用SAOC比特流信息212)对象参数，其允许重新形成及操纵原先对象信号。SAOC编码器(未显示于此处)产生于其输入端的对象信号的下混，及提取这些对象参数。可处理的对象数目原则上并无限制。对象参数经量化，及有效编码成SAOC比特流212。下混信号210可经压缩及发送而无需更新既有的编码器及基础结构。对象参数或SAOC旁信息在低比特率旁信道例如，下混比特流的附属数据部分发送。

在译码器端，输入对象被重组及描绘至某个数目的回放信道。包含各个对象的再现位准及摇摄位置的描绘信息为使用者供应或可提取自SAOC比特流(例如，作为预设信息)。描绘信息可为时间变量。输出信号情况可自单信道至多信道(例如，5.1)及与输入对象数目及下混信道数目二者皆无关。对象的双声道描绘可包括虚拟对象位置的方位角及高度。除了位准及摇摄修改外，可选的效应接口允许对象信号的先进操纵。

对象本身可为单声道信号、立体声信号、及多信道信号(例如，5.1信道)。典型下混配置为单声道及立体声。

下文中，将解释图2所示的SAOC转码器/译码器的基本结构。本文所述的SAOC转码器/译码器根据期望的输出信道配置可作为孤立译码器或作为自SAOC至MPEG环绕比特流的转码器。在第一操作模式，输出信号被配置为单声道、立体声或双声道，以及使用二输出信道。在此种第一情况下，SAOC模块可以译码器模式操作，而SAOC模块输出信号为脉冲码调变输出信号(PCM输出信号)。在第一情况下，无需MPEG环绕译码器。反而上混信号表示型态只包含输出信号220，同时可免除MPEG环绕比特流222的提供。在第二情况下，输出信号配置为有多于两个输出信道的多信道配置。SAOC模块可以转码器模式操作。在此种情况下，SAOC模块输出信号可包含正混信号220及MPEG环绕比特流222，如图2所示。如此，需要MPEG环绕译码器，以便获得终音频信号表示型态供由扬声器输出。

图2示出了SAOC转码器/译码器架构的基本结构。剩余处理器216使用SAOC比特流信息212所含的剩余信息从输入下混信号210中提取增强的音频对象。SAOC下混前处理器270处理规则音频对象(其为例如未经增强的音频对象，亦即在SAOC比特流信息212中并未传送剩余信息的音频对象)。增强的音频对象(以第一音频对象信号262表示)及经处理的规则音频对象(例如，以第二音频对象信号264的已处理的版本272表示)被组合成用于SAOC译码器模式的输出信号220或用于SAOC转码器模式的MPEG环绕下混信号220。有关处理方块的细节说明如下。

3.剩余处理器及能量模式处理器的架构及功能

下文中，将说明有关剩余处理器的细节，例如其可取代音频信号译码器100的对象分离器130或音频信号译码器200的剩余处理器260的功能。用于此项目的，图3a及图3b示出了此种剩余处理器300的方块示意图，其可取代对象分离器130或剩余处理器260的作用。图3a示出的细节比图3b少。然而，下文说明应用至根据图3a的剩余处理器300，以及应用至根据图3b的剩余处理器380。

剩余处理器300被配置为接收SAOC下混信号310，其可相当于图1的下混信号表示型态112或图2的下混信号表示型态210。剩余处理器300被配置为基于此而提供描述一个或多个增强的音频对象的第一音频信息320，其可例如相当于第一音频信息132或相当于第一音频对象信号262。又，剩余处理器300可提供描述一个或多个其它音频对象(例如，未经增强的音频对象，对其未能取得剩余信息)的第二音频信息322，其中该第二音频信息322可相当于第二音频信息134或相当于第二音频对象信号264。

剩余处理器300包括1对N/2对N单元(OTN/TTN单元)，其接收SAOC下混信号310，也接收SAOC数据及剩余信息332。1对N/2对N单元330也提供增强的音频对象信号334，其描述含于SAOC下混信号310的增强的音频对象(EAO)。又，1对N/2对N单元330提供第二音频信息322。剩余处理器300还包括描绘单元340，其接收增强的音频对象信号334及描绘矩阵信息342，及基于此信息而提供第一音频信息320。

下文中，将说明由剩余处理器300执行的增强的音频对象处理(EAO处理)的更多细节。

3.1剩余处理器300的操作引言

有关剩余处理器300的功能，须注意SAOC技术允许只以极为有限方式，就其位准放大/衰减而言，个别操纵多个音频对象而未显著减低所得声音质量。特殊「卡拉OK型」应用场景要求特定对象典型为主唱的完全(或几乎完全)遏止，但仍保持背景音景的知觉质量无损。

典型应用例含有多至四个增强的音频对象(EAO)信号，其可例如表示两个独立立体声对象(例如，准备在译码器端移除的两个独立立体声对象)。

须注意(一个或多个)质量增强的音频对象(或更精确言之，与增强的音频对象相关联的音频信号贡献)包括在SAOC下混信号310中。典型地，与(一个或多个)增强的音频对象相关联的音频信号贡献由音频信号编码器所执行的下混处理而与其它音频对象亦即未经增强的音频对象相关联的音频信号贡献混合。又，须注意多个增强的音频对象相关联的音频信号贡献也典型地由音频信号编码器所执行的下混而重迭或混合。

3.2SAOC架构支持增强的音频对象

下文中，将说明有关剩余处理器300的细节。增强的音频对象处理结合1对N/2对N单元，取决于SAOC下混模式。1对N处理单元专用于单声道下混信号，而2对N处理单元系专用于立体声下混信号310。这两个单元表示自ISO/IEC 23003-1：2007为已知的2对2框(TTT框)的一般性且经增强的修改。在编码器中，规则信号及EAO信号经组合成下混信号。采用OTN^-1/TTN^-1处理单元(其为1对N处理单元的颠倒或2对N处理单元的颠倒)来产生及编码相对应的剩余信号。

通过OTN/TTN单元330，使用SAOC旁信息及所结合的剩余信号，而自SAOC下混信号310恢复EAO信号及规则信号。所恢复的EAO(通过增强的音频对象信号334描述)被反馈入描绘单元340，其表示(或提供)相对应描绘矩阵之积(通过描绘矩阵信息342描述)及OTN/TTN单元的所得输出信号。规则音频对象(通过第二音频信息322描述)传送至SAOC下混前处理器，例如SAOC下混前处理器270供进一步处理。图3a及图3b示出剩余处理器的大体结构，亦即剩余处理器的架构。

剩余处理器输出信号320、322被运算为

X_OBJ＝M_OBJX_res，

X_EAO＝A_EAOM_EAOX_res，

其中，X_OBJ表示规则音频对象(亦即非EAO)的下混信号，而X_EAO为用于SAOC译码模式的经描绘的EAO输出信号或用于SAOC转码模式的相对应的EAO下混信号。

剩余处理器可以以预测(使用剩余信息)模式或能量(不含剩余信息)模式操作。扩展的输入信号X_res据此定义：

此处X例如表示下混信号表示型态310的一个或多个信道，其可于表示多信道音频内容的比特流中传送。res表示一个或多个剩余信号，其可通过表示多信道音频内容的比特流描述。

OTN/TTN处理通过矩阵M表示，而EAO处理器系以矩阵A_EAO表示。

OTN/TTN处理矩阵M根据EAO操作模式(亦即预测或能量)定义为

OTN/TTN处理矩阵M表示为

M = (\frac{M_{OBJ}}{M_{EAO}}),

此处矩阵M_OBJ涉及规则音频对象(亦即非EAO)和M_EAO，以增强的音频对象(EAO)。

在一些实施方式中，一个或多个多信道背景对象(MBO)可通过剩余处理器300以相同方式处理。

多信道背景对象(MBO)为MPS单声道或立体声下混信号其为SAOC下混信号的一部分。与使用个别SAOC对象用于多信道信号的各个信道相反，MBO使用允许SAOC更有效地处理多信道对象。在MOB情况下，SAOC额外管理信息变低，原因在于MBO的SAOC参数只涉及下混信道而非全部上混信道。

3.3其它定义

3.3.1信号及参数的维度

下文中，将简短讨论信号及参数的维度以供了解不同计算的执行频次。

针对每个时隙n及每个混成次频带(可为频率次频带)k定义音频信号。针对各个参数时隙1及处理频带m定义相对应的SAOC参数。随后混成与参数域间的映射通过表A.31ISO/IEC 23003-1：2007载明。此后，全部计算就某些时间/频带指数执行，及对各个所导入的变量暗示相对应的维度。

但下文中，时间及频率频带指数偶尔将被省略来保持标记的精简。

3.3.2矩阵A_EAO的计算

EAO前置描绘矩阵A_EAO根据输出信道数目(亦即单声道、立体声或双声道)定义为

尺寸1×N_EAO之矩阵及尺寸2×N_EAO的矩阵定义为

A_{1}^{EAO} = D_{16}^{EAO} M_{ren}^{EAO},

D_{16}^{EAO} = (\begin{matrix} w_{1}^{EAO} & w_{2}^{EAO} & w_{3}^{EAO} & w_{3}^{EAO} & w_{1}^{EAO} & w_{2}^{EAO} \end{matrix}),

A_{2}^{EAO} = D_{26}^{EAO} M_{reb}^{EAO},

D_{26}^{EAO} = (\begin{matrix} w_{1}^{EAO} & 0 & \frac{w_{3}^{EAO}}{\sqrt{2}} & \frac{w_{3}^{EAO}}{\sqrt{2}} & w_{1}^{EAO} & 0 \\ 0 & w_{2}^{EAO} & \frac{w_{3}^{EAO}}{\sqrt{2}} & \frac{w_{3}^{EAO}}{\sqrt{2}} & 0 & w_{2}^{EAO} \end{matrix}),

此处描绘次矩阵与EAO描绘相对应(及描述增强的音频对象期望的映像至上混信号表示型态的信道)。

使用相对应的EAO矩阵元及使用4.2.2.1章节的方程式，根据与增强的音频对象相关联的描绘信息运算值。

在双声道描绘的情况下，矩阵通过章节4.1.2的方程式定义，相对应的标靶双声道描绘矩阵只含有EAO相关矩阵元。

3.4剩余模式中OTN/TTN矩阵元的计算

下文中，将讨论典型包含一个或二个音频信道的SAOC下混信号310如何映像至典型包含一个或多个增强的音频对象信道的增强的音频对象信号334及典型包含一个或二个规则音频对象信道的第二音频信息322。

1对N单元或2对N单元330的功能例如可使用矩阵向量乘法实施，因此描述增强的音频对象信号334的信道及第二音频信息322的信道二者的向量经由描述SAOC下混信号310的信道及(选择性地)一个或多个剩余信号的向量与矩阵M_Prediction或M_Energy相乘获得。如此，矩阵M_Prediction或M_Energy的测定为自SAOC下混信号310导出第一音频信息320及第二音频信息322的重要步骤。

概括来说，OTN/TTN上混处理程序以用于预测模式之矩阵M_Prediction或用于能量模式的矩阵M_Energy表示。

基于能量的编码/译码程序设计用于下混信号的非波形保留编码。如此，用于相对应能量模式的OTN/TTN上混矩阵并未依靠特定波形，反而只描述输入音频对象的相对能量分配，容后详述。

3.4.1预测模式

对预测模式，矩阵M_Prediction使用矩阵所含的下混信息及得自矩阵C的CPC数据定义：

M_{prediction} = {\tilde{D}}^{- 1} C .

至于若干SAOC模式，扩展的下混矩阵及CPC矩阵C具有下列维度及结构：

3.4.1.1立体声下混模式(TTN)

用于立体声下混模式(TTN)(例如，对基于二规则音频对象信道及N_EAO增强的音频对象信道的立体声下混情况)，(扩展的)下混矩阵及CPC矩阵C可如下获得：

使用立体声下混，各个EAOj保有两个CPC c_j，0及c_j，1获得矩阵C。

剩余处理器输出信号运算为

X_{OBJ} = M_{OBJ}^{Prediction} (\begin{matrix} l_{0} \\ \frac{r_{0}}{{res}_{0}} \\ \cdot \\ \cdot \\ \cdot \\ {res}_{N_{EAO} - 1} \end{matrix}),

X_{EAO} = A^{EAO} M_{EAO}^{Prediction} (\begin{matrix} l_{0} \\ \frac{r_{0}}{{res}_{0}} \\ \cdot \\ \cdot \\ \cdot \\ {res}_{N_{EAO} - 1} \end{matrix}) .

如此，获得二信号y_L、y_R(其可以X_OBJ表示)，其表示一个或二个或甚至多于二个规则音频对象(也标明为非扩展的的音频对象)。又，获得表示N_EAO增强的音频对象的N_EAO信号(以X_EAO表示)。这些信号基于两个SAOC下混信号l₀、r₀及N_EAO剩余信号res₀至res_NEAO-1获得，其将编码于SAOC旁信息例如作为对象相关的参数信息之一部分。

须注意信号y_L及y_R可等于信号322，及信号y_0，EAO至y_NEAO-1，EAO(其系以X_EAO表示)可等于信号320。

矩阵A^EAO为描绘矩阵。矩阵A^EAO的元可描述例如增强的音频对象对增强的音频对象信号334(X_EAO)的信道的映像。

如此，矩阵A^EAO的适当选择允许描绘单元340的功能的选择性整合，因而描述SAOC下混信号310的信道(l₀，r₀)及一个或多个剩余信号(res₀，...，res_NEAO-1)的向量与矩阵的乘法，可直接获得第一音频信息320的表示型态X_EAO。

3.4.1.2单声道下混模式(OTN)：

下文中，将对其中SAOC下混信号310只包含一个信号信道的情况，说明增强的音频对象信号320(或另外，增强的音频对象信号334)及规则音频对象信号322的导出。

对单声道下混模式(OTN)(基于一个规则音频对象信道及N_EAO增强的音频对象信道的单声道下混)，(扩展的)下混矩阵及CPC矩阵C可如下获得：

使用单声道下混，一个EAOj通过只有一个系数c_j预测，获得矩阵C。根据如下提供的关系式(章节3.4.1.4)例如自SAOC参数(例如，得自SAOC数据322)获得全部矩阵元c_j。

剩余处理器输出信号运算为

X_{OBJ} = M_{OBJ}^{Prediction} (\begin{matrix} \frac{d_{0}}{{res}_{0}} \\ \cdot \\ \cdot \\ \cdot \\ {res}_{N_{EAO} - 1} \end{matrix}),

X_{EAO} = A^{EAO} M_{EAO}^{Prediction} (\begin{matrix} \frac{d_{0}}{{res}_{0}} \\ \cdot \\ \cdot \\ \cdot \\ {res}_{N_{EAO} - 1} \end{matrix}) .

输出信号X_OBJ例如包含描述规则音频对象(非增强的音频对象)的一个信道。输出信号X_EAO例如包含一、二、或甚至多个描述增强的音频对象的信道(优选地，描述增强的音频对象的N_EAO信道)。此外，该等信号等于信号320、322。

3.4.1.3逆转扩展的下混矩阵的计算

矩阵为扩展的下混矩阵的逆矩阵，C暗示CPC。

矩阵为扩展的下混矩阵的逆矩阵，可计算为

{\tilde{D}}^{- 1} = \frac{{\tilde{d}}_{i, j}}{den} .

矩阵元 (例如，尺寸6×6的扩展的下混矩阵的逆矩阵 )使用下列数值所导出：

{\tilde{d}}_{1,1} = 1 + Σ_{j = 1}^{4} n_{j}^{2},

{\tilde{d}}_{1,2} = - (Σ_{j = 1}^{4} m_{j} n_{j}),

{\tilde{d}}_{1,3} = m_{1} + m_{1} n_{2}^{2} + m_{1} n_{3}^{2} + m_{1} n_{4}^{2} - m_{2} n_{1} n_{2} - m_{3} n_{1} n_{3} - m_{4} n_{1} n_{4},

{\tilde{d}}_{1,4} = m_{2} + m_{2} n_{1}^{2} + m_{2} n_{3}^{2} + m_{2} n_{4}^{2} - m_{1} n_{2} n_{1} - m_{3} n_{2} n_{3} - m_{4} n_{2} n_{4},

{\tilde{d}}_{1,5} = m_{3} + m_{3} n_{1}^{2} + m_{3} n_{2}^{2} + m_{3} n_{4}^{2} - m_{1} n_{3} n_{1} - m_{2} n_{3} n_{2} - m_{4} n_{3} n_{4},

{\tilde{d}}_{1,6} = m_{4} + m_{4} n_{1}^{2} + m_{4} n_{2}^{2} + m_{4} n_{3}^{2} - m_{1} n_{4} n_{1} - m_{2} n_{4} n_{2} - m_{3} n_{4} n_{3},

{\tilde{d}}_{2,2} = 1 + Σ_{j = 1}^{4} m_{j}^{2},

{\tilde{d}}_{2,3} = n_{1} + n_{1} m_{2}^{2} + n_{1} m_{3}^{2} + n_{1} m_{4}^{2} - m_{1} m_{2} n_{2} - m_{1} m_{3} n_{3} - m_{1} m_{4} n_{4},

{\tilde{d}}_{2,4} = n_{2} + n_{2} m_{1}^{2} + n_{2} m_{3}^{2} + n_{2} m_{4}^{2} - m_{2} m_{1} n_{1} - m_{2} m_{3} n_{3} - m_{2} m_{4} n_{4},

{\tilde{d}}_{2,5} = n_{3} + n_{3} m_{1}^{2} + n_{3} m_{2}^{2} + n_{3} m_{4}^{2} - m_{3} m_{1} n_{1} - m_{3} m_{2} n_{2} - m_{3} m_{4} n_{4},

{\tilde{d}}_{2,6} = n_{4} + n_{4} m_{1}^{2} + n_{4} m_{2}^{2} + n_{4} m_{3}^{2} - m_{4} m_{1} n_{1} - m_{4} m_{2} n_{2} - m_{4} m_{3} n_{3},

{\tilde{d}}_{3,3} = - 1 - Σ_{j = 2}^{4} m_{j}^{2} - Σ_{j = 2}^{4} n_{j}^{2} - m_{3}^{2} n_{2}^{2} - m_{4}^{2} n_{2}^{2} - m_{2}^{2} n_{3}^{2} - m_{4}^{2} n_{3}^{2} - m_{2}^{2} n_{4}^{2} - m_{3}^{2} n_{4}^{2} + 2 m_{2} m_{3} n_{2} n_{3} + 2 m_{2} m_{4} n_{2} n_{4} + 2 m_{3} m_{4} n_{3} n_{4}

, {\tilde{d}}_{3,4} = m_{1} m_{2} + n_{1} n_{2} + m_{3}^{2} n_{1} n_{2} + m_{4}^{2} n_{1} n_{2} + m_{1} m_{2} n_{3}^{2} + m_{1} m_{2} n_{4}^{2} - m_{2} m_{3} n_{1} n_{3} - m_{1} m_{3} n_{2} n_{3} - m_{2} m_{4} n_{1} n_{4} - m_{1} m_{4} n_{2} n_{4},

{\tilde{d}}_{3,5} = m_{1} m_{3} + n_{1} n_{3} + m_{2}^{2} n_{1} n_{3} + m_{4}^{2} n_{1} n_{3} + m_{1} m_{3} n_{2}^{2} + m_{1} m_{3} n_{4}^{2} - m_{2} m_{3} n_{1} n_{2} - m_{1} m_{2} n_{2} n_{3} - m_{3} m_{4} n_{1} n_{4} - m_{1} m_{4} n_{3} n_{4},

{\tilde{d}}_{3,6} = m_{1} m_{4} + n_{1} n_{4} + m_{2}^{2} n_{1} n_{4} + m_{3}^{2} n_{1} n_{4} + m_{1} m_{4} n_{2}^{2} + m_{1} m_{4} n_{3}^{2} - m_{2} m_{4} n_{1} n_{2} - m_{3} m_{4} n_{1} n_{3} - m_{1} m_{2} n_{2} n_{4} - m_{1} m_{3} n_{4} n_{3},

{\tilde{d}}_{4,4} = - 1 - Σ_{\underset{j &NotEqual; 2}{j = 1}}^{4} m_{j}^{2} - Σ_{\underset{j &NotEqual; 2}{j = 1}}^{4} n_{j}^{2} - m_{3}^{2} n_{1}^{2} - m_{4}^{2} n_{1}^{2} - m_{1}^{2} n_{3}^{2} - m_{4}^{2} n_{3}^{2} - m_{1}^{2} n_{4}^{2} - m_{3}^{2} n_{4}^{2} + 2 m_{1} m_{3} n_{1} n_{3} + 2 m_{1} m_{4} n_{1} n_{4} + 2 m_{3} m_{4} n_{3} n_{4},

{\tilde{d}}_{4,5} = m_{2} m_{3} + n_{2} n_{3} + m_{1}^{2} n_{2} n_{3} + m_{4}^{2} n_{2} n_{3} + m_{2} m_{3} n_{1}^{2} + m_{2} m_{3} n_{4}^{2} - m_{1} m_{3} n_{1} n_{2} - m_{1} m_{2} n_{1} n_{3} - m_{3} m_{4} n_{2} n_{4} - m_{2} m_{4} n_{3} n_{4},

{\tilde{d}}_{4,6} = m_{2} m_{4} + n_{2} n_{4} + m_{1}^{2} n_{2} n_{4} + m_{3}^{2} n_{2} n_{4} + m_{2} m_{4} n_{1}^{2} + m_{2} m_{4} n_{3}^{2} - m_{1} m_{4} n_{1} n_{2} - m_{3} m_{4} n_{2} n_{3} - m_{1} m_{2} n_{1} n_{4} - m_{2} m_{3} n_{3} n_{4},

{\tilde{d}}_{5,5} = - 1 - Σ_{\underset{j &NotEqual; 3}{j = 1}}^{4} m_{j}^{2} - Σ_{\underset{j &NotEqual; 3}{j = 1}}^{4} n_{j}^{2} - m_{2}^{2} n_{1}^{2} - m_{4}^{2} n_{1}^{2} - m_{1}^{2} n_{2}^{2} - m_{4}^{2} n_{2}^{2} - m_{1}^{2} n_{4}^{2} - m_{2}^{2} n_{4}^{2} + 2 m_{1} m_{2} n_{1} n_{2} + 2 m_{1} m_{4} n_{1} n_{4} + 2 m_{2} m_{4} n_{2} n_{4},

{\tilde{d}}_{5,6} = m_{3} m_{4} + n_{3} n_{4} + m_{1}^{2} n_{3} n_{4} + m_{2}^{2} n_{3} n_{4} + m_{3} m_{4} n_{1}^{2} + m_{3} m_{4} n_{2}^{2} - m_{1} m_{4} n_{1} n_{3} - m_{2} m_{4} n_{2} n_{3} - m_{1} m_{3} n_{1} n_{4} - m_{2} m_{3} n_{2} n_{4},

{\tilde{d}}_{6,6} = - 1 - Σ_{j = 1}^{3} m_{j}^{2} - Σ_{j = 1}^{3} n_{j}^{2} - m_{2}^{2} n_{1}^{2} - m_{3}^{2} n_{1}^{2} - m_{1}^{2} n_{2}^{2} - m_{3}^{2} n_{2}^{2} - m_{1}^{2} n_{3}^{2} - m_{2}^{2} n_{3}^{2} + 2 m_{1} m_{2} n_{1} n_{2} + 2 m_{1} m_{3} n_{1} n_{3} + 2 m_{2} m_{3} n_{2} n_{3},

den = 1 + Σ_{j = 1}^{4} m_{j}^{2} + Σ_{j = 1}^{4} n_{j}^{2} + m_{2}^{2} n_{1}^{2} + m_{3}^{2} n_{1}^{2} + m_{4}^{2} n_{1}^{2} + m_{1}^{2} n_{2}^{2} + m_{3}^{2} n_{2}^{2} + m_{4}^{2} n_{2}^{2} + m_{1}^{2} n_{3}^{2} + m_{2}^{2} n_{3}^{2} + m_{4}^{2} n_{3}^{2} + m_{1}^{2} n_{4}^{2} + m_{2}^{2} n_{4}^{2} +

+ m_{3}^{2} n_{4}^{2} - 2 m_{1} m_{2} n_{1} n_{2} - 2 m_{1} m_{3} n_{1} n_{3} - 2 m_{2} m_{3} n_{2} n_{3} - 2 m_{1} m_{4} n_{1} n_{4} - 2 m_{2} m_{4} n_{2} n_{4} - 2 m_{3} m_{4} n_{3} n_{4} .

扩展的下混矩阵的系数m_j及n_j意指对右及左下混信道每个EAO j的下混值为

m_j＝d_0，EAO(j)，n_j＝d_1，EAO(j).

下混矩阵D的矩阵元d_i，j使用下混增益信息DMG及(选择性)下混信道位准差信息DCLD获得，DCLD包含在SAOC信息332，其例如通过对象相关的参数信息110或SAOC比特流信息212表示。

对立体声下混情况，具有矩阵元d_i，j(i＝0，1；j＝0，...，N-1)的尺寸2×N的下混矩阵D自DMG及DCLD参数获得为

d_{0, j} = 10^{{0.05 DMG}_{j}} \sqrt{\frac{10^{{0.1 DCLD}_{j}}}{1 + 10^{{0.1 DCLD}_{j}}}},

d_{1, j} = 10^{{0.05 DMG}_{j}} \sqrt{\frac{1}{1 + 10^{{0.1 DCLD}_{j}}}} .

对单声道下混情况，具有矩阵元d_i，j(i＝0；j＝0，...，N-1)的尺寸1×N的下混矩阵D由DMG参数获得为

d_{0, j} = 10^{{0.05 DMG}_{j}} .

此处，去量化的下混参数DMG_j及DCLD_j例如自参数旁信息110或SAOC比特流信息212获得。

函数EAO(j)决定输入音频对象信道指数与EAO信号间的映像：

EAO(j)＝N-1-j，j＝0，...，N_EAO-1.

3.4.1.4矩阵C的计算

矩阵C暗示CPC且自所传送的SAOC参数(亦即OLD、IOC、DMG及DCLD)导出为

c_{j, 0} = (1 - λ) {\tilde{c}}_{j, 0} + {λγ}_{j, 0},

c_{j, 1} = (1 - λ) {\tilde{c}}_{j, 1} + {λγ}_{j, 1} .

换言之，经约束的CPC系根据加上方程式获得，其可视为约束演绎法则。但经约束的CPC也可使用不同的限制办法(约束演绎法则)而自该等预测系数及导出，或可设定为等于及值。

须注意矩阵元c_j，1(及可基于其来求出矩阵元c_j，1的中间量)典型地只要求下混信号是否为立体声下混信号。

CPC受以下限制函数的约束

γ_{j, 1} = \frac{m_{j} {OLD}_{L} + n_{j} e_{L, R} - Σ_{i = 0}^{N_{EAO} - 1} m_{i} e_{i, j}}{2 ({OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} m_{i} m_{k} e_{i, k})},

γ_{j, 2} = \frac{n_{j} {OLD}_{R} + m_{j} e_{L, R} - Σ_{i = 0}^{N_{EAO} - 1} n_{i} e_{i, j}}{2 ({OLD}_{R} + Σ_{i = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} n_{i} n_{k} e_{i, k})},

加权因子λ被确定为

λ = {(\frac{P_{LoRo}^{2}}{P_{Lo} P_{Ro}})}^{8},

对一个特定EAO信道j＝0...N_EAO-1，未受约束的CPC估算为

{\tilde{c}}_{j, 0} = \frac{P_{LoCo, j} P_{Ro} - P_{RoCo, j} P_{LoRo}}{P_{Lo} P_{Ro} - P_{LoRo}^{2}},

{\tilde{c}}_{j, 1} = \frac{P_{RoCo, j} P_{Lo} - P_{LoCo, j} P_{LoRo}}{P_{Lo} P_{Ro} - P_{LoRo}^{2}} .

能量P_Lo、P_Ro、P_LoRo、P_LoCoj及P_RoCoj运算为

P_{Lo} = {OLD}_{L} + Σ_{j = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} m_{j} m_{k} e_{j, k},

P_{Ro} = {OLD}_{R} + Σ_{j = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} n_{j} n_{k} e_{j, k},

P_{LoRo} = e_{L, R} + Σ_{j = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} m_{j} n_{k} e_{j, k},

P_{LoCo, j} = m_{j} {OLD}_{L} + n_{j} e_{L, R} - m_{j} {OLD}_{j} - Σ_{\underset{i &NotEqual; j}{i = 0}}^{N_{EAO} - 1} m_{i} e_{i, j},

P_{RoCo, j} = n_{j} {OLD}_{R} + m_{j} e_{L, R} - n_{j} {OLD}_{j} - Σ_{\underset{i &NotEqual; j}{i = 0}}^{N_{EAO} - 1} n_{i} e_{i, j},

协方差矩阵e_i，j以下述方式定义：具有矩阵元e_i，j的尺寸N×N的协方差矩阵E表示原先信号协方差矩阵E≈SS^*的近似值，得自OLD及IOC参数为

e_{i, j} = \sqrt{{OLD}_{i} {OLD}_{j}} {IOC}_{i, j} .

此处，例如自参数旁信息110或自SAOC比特流信息212获得去量化对象参数OLD_i、IOC_i，j。

此外，e_L，R例如可得自

e_{L, R} = \sqrt{{OLD}_{L} {OLD}_{R}} {IOC}_{L, R} .

参数OLD_L、OLD_R及IOC_L，R与规则(音频)对象相对应且可使用下混信息导出：

{OLD}_{L} = Σ_{i = 0}^{N - N_{EAO} - 1} d_{0, i}^{2} {OLD}_{i},

{OLD}_{R} = Σ_{i = 0}^{N - N_{EAO} - 1} d_{1, i}^{2} {OLD}_{i},

{IOC}_{L, R} = \{\begin{matrix} {IOC}_{0,1}, & N - N_{EAO} = 2, \\ 0, & otherwise . \end{matrix}

如此可知，在立体声下混信号(其优选暗示二信道音频对象信号)的情况下，对规则音频对象运算两个共享对象位准差值OLD_L及OLD_R。相反地，在一信道(单声道)下混信号(其优选地暗示一信道音频对象信号)的情况下，对规则音频对象只运算一个共享对象位准差值OLD_L。

可知第一(在二信道下混信号的情况下)或唯一(在一信道下混信号的情况下)共享对象位准差值OLD_L经由将具有音频对象指数i的规则音频对象的贡献加至SAOC下混信号310的左信道(或唯一信道)而获得。

第二共享对象位准差值OLD_R(其用于二信道下混信号的情况下)经由将具有音频对象指数i的规则音频对象的贡献加至SAOC下混信号310的右信道而获得。

例如考虑当获得SAOC下混信号310的左信道信号时描述施加至具有音频对象指数i的规则音频对象的下混增益的下混增益d_0，i，及以OLD_i值表示的具有音频对象i的规则音频对象的对象位准，计算规则音频对象(具有音频对象指数i＝0至i＝N-N_EAO-1)对SAOC下混信号710的左信道信号(或唯一信道信号)的贡献OLD_L。

同理，使用当形成SAOC下混信号310的右信道信号时描述施加至具有音频对象指数i的规则音频对象的下混增益的下混系数d_1，i，及与具有音频对象i的规则音频对象相关联的位准信息OLD_i，获得共享对象位准差值OLD_R。

如此可知，数量P_Lo、P_Ro、P_LoRo、P_LoCoj及P_RoCoj的计算方程式并未于个别规则音频对象间分配，反而仅只使用共享对象位准差值OLD_L、OLD_R，借此将规则音频对象(具有音频对象指数i)视为单一音频对象。

又，除非有两个规则音频对象，否则与规则音频对象相关联的对象间相关值IOC_L，R设定为零。

协方差矩阵e_i，j(及e_L，R)定义如下：

具有矩阵元e_i，j的尺寸NxN的协方差矩阵E表示原先信号协方差矩阵E≈SS^*的近似值且系得自OLD及IOC参数为

e_{i, j} = \sqrt{{OLD}_{i} {OLD}_{j}} {IOC}_{i, j} .

举例言之，

e_{L, R} = \sqrt{{OLD}_{L} {OLD}_{R}} {IOC}_{L, R},

其中，OLD_L及OLD_R及IOC_L，R如上文所说明地那样计算。

此处，去量化对象参数获得为

OLD_i＝D_OLD(i，l，m)，IOC_i，j＝D_IOC(i，j，l，m)，

其中D_OLD及D_IOC为包含对象位准差参数及对象间相关参数的矩阵。

3.4.2.能量模式

下文中，将说明另一个构想，其可用来分开扩展的的音频对象信号320及规则音频对象(未经扩展的的音频对象)信号322，及其可与SAOC下混信号310的非波形保留音频编码结合使用。

换言之，基于能量的编码/译码程序设计用于下混信号的非波形保留编码。如此，用于相对应能量模式的OTN/TTN上混矩阵并非依靠特定波形，但只说明输入音频对象的相对能量分配。

又，可使用此处讨论的构想，称作为「能量模式」构想，而未传送剩余信号信息。再次，规则音频对象(未经增强的音频对象)被视为具有一个或二个共享对象位准差值OLD_L、OLD_R的单一一信道或二信道音频对象处理。

用于能量模式，矩阵M_Energy使用下混信息及OLD定义，容后详述。

3.4.2.1.立体声下混模式(TTN)的能量模式

在立体声(例如，基于两个规则音频对象信道及N_EAO增强的音频对象信道的立体声下混信号)的情况下，矩阵及根据下列方程式而由相对应的OLD获得，

M_{OBJ}^{Eenrgy} = (\begin{matrix} \sqrt{\frac{{OLD}_{L}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} & 0 \\ 0 & \sqrt{\frac{{OLD}_{R}}{{OLD}_{R} + Σ_{i = 0}^{N_{EAO} - 1} n_{i}^{2} {OLD}_{i}}} \end{matrix})

M_{EAO}^{Energy} = (\begin{matrix} \sqrt{\frac{m_{0}^{2} {OLD}_{0}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} & \sqrt{\frac{n_{0}^{2} {OLD}_{0}}{{OLD}_{R} + Σ_{i = 0}^{N_{EAO} - 1} n_{i}^{2} {OLD}_{i}}} \\ \cdot & \cdot \\ \cdot & \cdot \\ \cdot & \cdot \\ \sqrt{\frac{m_{N_{EAO} - 1}^{2} {OLD}_{N_{EAO} - 1}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} & \sqrt{\frac{n_{N_{EAO} - 1}^{2} {OLD}_{N_{EAO} - 1}}{{OLD}_{R} + Σ_{i = 0}^{N_{EAO} - 1} n_{i}^{2} {OLD}_{i}}} \end{matrix})

剩余处理器输出信号系运算为

X_{OBJ} = M_{OBJ}^{Energy} (\begin{matrix} l_{0} \\ r_{0} \end{matrix}),

X_{EAO} = A^{EAO} M_{EAO}^{Energy} (\begin{matrix} l_{0} \\ r_{0} \end{matrix}) .

由信号X_OBJ表示的信号y_L、y_R描述规则音频对象(及可等于信号322)；及由信号X_EAO描述的信号y_0，EAO至y_NEAO-1，EAO描述增强的音频对象(其可等于信号334或信号320)。

若单声道上混信号期望用于立体声下混信号的情况，例如可由前处理器270基于二信道信号X_OBJ执行2对1处理。

3.4.2.2.单声道下混模式(OTN)的能量模式

在单声道(例如，基于一个规则音频对象信道及N_EAO增强的音频对象信道的单声道下混信号)的情况下，矩阵及根据下列方程式由相对应的OLD获得，

M_{OBJ}^{Energy} = (\sqrt{\frac{{OLD}_{L}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}}),

M_{EAO}^{Energy} = (\begin{matrix} \sqrt{\frac{m_{0}^{2} {OLD}_{0}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} \\ \cdot \\ \cdot \\ \cdot \\ \sqrt{\frac{m_{N_{EAO} - 1}^{2} {OLD}_{N_{EAO} - 1}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} \end{matrix}) .

剩余处理器输出信号运算为

X_{OBJ} = M_{OBJ}^{Energy} (d_{0}),

X_{EAO} = A^{EAO} M_{EAO}^{Energy} (d_{0}) .

经由施加矩阵及至单信道SAOC下混信号310的表示型态(此处以d₀表示)，可获得单一规则音频对象信号322(以X_OBJ表示)及N_EAO经增强的音频对象信道320(以X_EAO表示)。

若二信道(立体声)上混信号期望用于一信道(单声道)下混信号的情况，例如可由前处理器270基于二信道信号X_OBJ执行1对2处理。

4.SAOC下混前处理器的架构及操作

下文中，将对若干译码操作模式及若干转码操作模式二者说明SAOC下混前处理器270的操作。

4.1译码模式的操作

4.1.1引言

下文中，将说明使用与各个音频对象相关联的SAOC参数及摇摄信息(例如，或描绘信息)而获得输出信号的方法。第4g图显示SAOC译码器495且由SAOC参数处理器496及下混处理器497所组成。

须注意SAOC译码器494可用于处理规则音频对象，及因此可接收第二音频对象信号264或规则音频对象信号322或第二音频信息134作为下混信号497a。如此，下混处理器497可提供第二音频对象信号264的已处理的版本272或第二音频信息134的已处理的版本142作为其输出信号497b。据此，下混处理器497可扮演SAOC下混前处理器270的角色，或音频信号处理器140的角色。

SAOC参数处理器496可扮SAOC参数处理器252的角色，结果提供下混信息496a。

4.1.2下混处理器

下文中，属于音频信号处理器140的一部分且于第2图的实施方式中标示为「SAOC下混前处理器」270而于SAOC译码器495标示为497的下混处理器容后详述。

用于SAOC系统的译码器模式，下混处理器(表示于混成QMF域)的输出信号142、272、497b如ISO/IEC 23003-1：2007所述馈至相对应的合成滤波器排组(未在图1及图2中示出)，获得终输出PCM信号。虽然如此，下混处理器的输出信号142、272、497b典型地组合表示增强的音频对象的一个或多个音频信号132、262。此项组合可在相对应的合成滤波器排组之前执行(使得组合下混处理器之输出信号及表示增强的音频对象的一个或多个信号的组合信号输入合成滤波器排组)。另外，唯有在合成滤波器排组处理后，下混处理器的输出信号才可与表示增强的音频对象的一个或多个信号组合。如此，上混信号表示型态120、220可为QMF域表示型态或PCM域表示型态(或任何其它适当表示型态)。下混处理例如结合单声道处理、立体声处理，及若有所需，随后的双声道处理。

下混处理器270、497的输出信号 (也标示为142、272、497b)自单声道下混信号X(也标示为134、264、497a)及去相关的单声道下混信号X_d运算为

\hat{X} = GX + P_{2} X_{d} .

去相关的单声道下混信号X_d运算为

X_d＝decorrFunc(X).

去相关的信号X_d自ISO/IEC 23003-1：2007，子条款6.6.2所述的去相关器形成。遵照此方案，根据ISO/IEC 23003-1：2007中的表A.26至表A.29，bsDecorrConfig＝＝0配置须使用于去相关器指数X＝8。如此，decorrFunc()表示去相关处理程序：

X_{d} = (\begin{matrix} x_{1 d} \\ x_{2 d} \end{matrix}) = (\begin{matrix} decorrFunc ((\begin{matrix} 1 & 0 \end{matrix}) P_{1} X) \\ decorrFunc \begin{matrix} ((\begin{matrix} 0 & 1 \end{matrix}) P_{1} X) \end{matrix} \end{matrix}) .

以双声道输出信号为例，自SAOC数据导出上混参数G及P₂，描绘信息及HRTF参数应用至下混信号X(及X_d)，获得双声道输出信号参考图2组件符号270，此处示出下混处理器的基本结构。

尺寸2×N的标靶双声道描绘矩阵A^l，m由矩阵元听组成。各个矩阵元例如由SAOC参数处理器从HRTF参数及具有矩阵元的描绘矩阵导出。标靶双声道描绘矩阵A^l，m表示全部音频输入对象y与期望的双声道输出信号间的关系。

a_{y, 1}^{l, m} = Σ_{i = 0}^{N_{HRTF} - 1} m_{y, i}^{l, m} H_{i, L}^{m} \exp (j \frac{φ_{i}^{m}}{2}),

a_{y, 2}^{l, m} = Σ_{i = 0}^{N_{HRTF} - 1} m_{y, i}^{l, m} H_{i, R}^{m} \exp (- j \frac{φ_{i}^{m}}{2}) .

对各个处理频带m，HRTF参数以及表示。可取得HRTF参数的空间位置以指数i决定特征。这些参数在ISO/IEC 23003-1：2007中有说明。

4.1.2.1综论

下文中，将参考第4a及4b图说明有关下混处理的综论，图中示出下混处理的方块代表图，该下混处理可由音频信号处理器140或由SAOC参数处理器252与SAOC下混前处理器270的组合，或由SAOC参数处理器496与SAOC下混前处理器497的组合执行。

现在参考图4a，下混处理接收描绘矩阵M、对象位准差信息OLD、对象间相关性信息IOC、下混增益信息DMG及(选择性的)下混信道位准差信息DCLD。根据图4a的下混处理400基于描绘矩阵M获得描绘矩阵A，例如使用M至A的映射。又，协方差矩阵E的元例如如上文讨论，依对象位准差信息OLD及对象间相关性信息IOC获得。同理，下混矩阵D的元依下混增益信息DMG及下混信道位准差信息DCLD获得。

期望的协方差矩阵F的元f依描绘矩阵A及协方差矩阵E获得。又，标量值v依协方差矩阵E及下混矩阵D(或依其元)获得。

二信道的增益值P_L、P_R依期望的协方差矩阵F及标量值v的元获得。又，信道间相位差值依期望的协方差矩阵F的元f获得。旋转角α也考虑例如常数c，依期望的协方差矩阵F的元f获得。此外，第二旋转角β 例如依信道增益P_L、P_R及第一旋转角α获得。矩阵G的元例如依二信道的增益值P_L、P_R及亦依信道间相位差值及可选地，旋转角α、β获得。同理，矩阵P₂的元依该等值P_L、P_R、 α、β中的部分或全部测定。

下文中，将说明如何针对不同处理模式获得如上文讨论的由下混处理器应用的矩阵G及/或P₂(或其元)。

4.1.2.2单声道至双声道「x-1-b」处理模式

下文中，将讨论一种处理模式，其中规则音频对象以单一信道下混信号134、264、322、497a表示及其中期望双声道描绘。

上混参数G^l，m及运算为

G^{l, m} = (\begin{matrix} p_{L}^{l, m} \exp (j \frac{φ_{C}^{l, m}}{2}) \cos (β^{l, m} + α^{l, m}) \\ P_{R}^{l, m} \exp (- j \frac{φ_{C}^{l, m}}{2}) \cos (β^{l, m} - α^{l, m}) \end{matrix}),

P_{2}^{l, m} = (\begin{matrix} P_{L}^{l, m} \exp (j \frac{φ_{C}^{l, m}}{2}) \sin (β^{l, m} + α^{l, m}) \\ P_{R}^{l, m} \exp (- j \frac{φ_{C}^{l, m}}{2}) \sin (β^{l, m} - α^{l, m}) \end{matrix}) .

左及右输出信道的增益及为

P_{L}^{l, m} = \sqrt{\max (\frac{f_{1,1}^{l, m}}{v^{l, m}}, ϵ^{2})},

P_{R}^{l, m} \sqrt{\max (\frac{f_{2,2}^{l, m}}{v^{l, m}}, ϵ^{2})} .

具有矩阵元的尺寸2×2的期望的协方差矩阵F^l，m表示为

F^l，m＝A^l，mE^l，m(A^l，m)^*.

标量v^l，m运算为

v^l，m＝D^lE^l，m(D^l)^*+ε².

信道间相位差表示为

φ_{C}^{l, m} = \{\begin{matrix} \arg (f_{1,2}^{l, m}), & 0 \leq m \leq 11, & ρ_{C}^{l, m} &GreaterEqual; 0.6, \\ 0, & otherwise . \end{matrix}

信道间相干性运算为

ρ_{C}^{l, m} = \min (\frac{| f_{1,2}^{l, m} |}{\sqrt{\max (f_{1,1}^{l, m} f_{2,2}^{l, m}, ϵ^{2})}}, 1) .

旋转角α^l，m及β^l，m表示为

α^{l, m} = \{\begin{matrix} \frac{1}{2} \arccos (ρ_{C}^{l, m} \cos (\arg (f_{1,2}^{l, m}))), & 0 \leq m \leq 11 & ρ_{C}^{l, m} < 0.6, \\ \frac{1}{2} \arccos (ρ_{C}^{l, m}), & otherwise . \end{matrix}

β^{l, m} = \arctan (\tan (α^{l, m}) \frac{P_{R}^{l, m} - P_{L}^{l, m}}{P_{L}^{l, m} + P_{R}^{l, m} + ϵ}) .

4.1.2.3单声道至立体声「x-1-2」处理模式

下文中，将说明一种处理模式，其中规则音频对象以单信道信号134、264、222表示，及其中期望立体声描绘。

在立体声输出信号的情况下，可应用「x-1-b」处理模式而未使用HRTF信息。其进行方式可通过导出描绘矩阵A的全部矩阵元获得：

a_{1, y}^{l, m} = m_{Lf, y}^{l, m},

a_{2, y}^{l, m} = m_{Rf, y}^{l, m} .

4.1.2.4单声道至单声道「x-1-1」处理模式

下文中，将说明一种处理模式，其中规则音频对象以单信道信号134、264、322、497a表示，及其中期望规则音频对象的二信道描绘。

在单声道输出信号的情况下，可应用「x-1-2」处理模式，具有下列元：

a_{l, y}^{l, m} = m_{C, y}^{l, m},

a_{2, y}^{l, m} = 0

4.1.2.5立体声至双声道「x-2-b」处理模式

下文中，将说明一种处理模式，其中规则音频对象以二信道信号134、264、322、497a表示，及其中期望规则音频对象的双声道描绘。

上混参数G^l，m及运算为

G^{l, m} = (\begin{matrix} P_{L}^{l, m, 1} \exp (j \frac{φ^{l, m, 1}}{2}) \cos (β^{l, m} + α^{l, m}) & P_{L}^{l, m, 2} \exp (j \frac{φ^{l, m, 2}}{2}) \cos (β^{l, m} + α^{l, m}) \\ P_{R}^{l, m, 1} \exp (- j \frac{φ^{l, m, 1}}{2}) \cos (β^{l, m} - α^{l, m}) & P_{R}^{l, m, 2} \exp (- j \frac{φ^{l, m, 2}}{2}) \cos (β^{l, m} - α^{l, m}) \end{matrix}),

P_{2}^{l, m} = (\begin{matrix} P_{L}^{l, m} \exp (j \frac{\arg (c_{1,2}^{l, m})}{2}) \sin (β^{l, m} + α^{l, m}) \\ P_{R}^{l, m} \exp (- j \frac{\arg (c_{1,2}^{l, m})}{2}) \sin (β^{l, m} - α^{l, m}) \end{matrix}) .

左及右输出信道的相对应增益及为

P_{L}^{l, m, x} = \sqrt{\max (\frac{f_{1,1}^{l, m, x}}{v^{l, m, x}}, ϵ^{2})},

P_{R}^{l, m, x} = \sqrt{\max (\frac{f_{2,2}^{l, m, x}}{v^{l, m, x}}, ϵ^{2})},

P_{L}^{l, m} = \sqrt{\max (\frac{c_{1,1}^{l, m}}{v^{l, m}}, ϵ^{2})},

P_{R}^{l, m} = \sqrt{\max (\frac{c_{2,2}^{l, m}}{v^{l, m}}, ϵ^{2})} .

具有矩阵元的尺寸2×2的期望的协方差矩阵F^l，m，x表示为

F^l，m，x＝A^l，mE^l，m，x(A^l，m)^*.

具有「干」双声道信号的矩阵元的尺寸2×2的协方差矩阵c^lm，估算为

C^{l, m} = {\tilde{C}}^{l, m} D^{l} E^{l, m} {(D^{l})}^{*} {({\tilde{G}}^{l, m})}^{*},

此处

{\tilde{G}}^{l, m} = (\begin{matrix} P_{L}^{l, m, 1} \exp (j \frac{φ^{l, m, 1}}{2}) & P_{L}^{l, m, 2} \exp (j \frac{φ^{l, m, 2}}{2}) \\ P_{R}^{l, m, 1} \exp (- j \frac{φ^{l, m, 1}}{2}) & P_{R}^{l, m, 2} \exp (- j \frac{φ^{l, m, 2}}{2}) \end{matrix}) .

相对应的标量v^l，m，x及v^l，m运算为

v^l，m，x＝D^l，xE^l，m(D^l，x)^*+ε²，v^l，m＝(D^l，1+D^l，2)E^l，m(D^l，1+D^l，2)^*+ε².

具有矩阵元的尺寸1×N的下混矩阵D^l，x发现为

d_{i}^{l, 1} = 10^{{0.05 DMG}_{i}^{l}} \sqrt{\frac{10^{{0.1 DCLD}_{i}^{l}}}{1 + 10^{{0.1 DCLD}_{i}^{l}}}},

d_{i}^{l, 2} = 10^{{0.05 DMG}_{i}^{l}} \sqrt{\frac{1}{1 + 10^{{0.1 DCLD}_{i}^{l}}}} .

具有矩阵元的尺寸2×N的下混矩阵D^l发现为

d_{x, i}^{l} = d_{i}^{l, x} .

具有矩阵元的矩阵E^l，m，x由如下关系式导出

e_{i, j}^{l, m, x} = e_{i, j}^{l, m} (\frac{d_{i}^{l, x}}{d_{i}^{l, 1} + d_{i}^{l, 2}}) (\frac{d_{j}^{l, x}}{d_{j}^{l, 1} + d_{j}^{l, 2}}) .

信道间相位差表示为

φ^{l, m, x} = \{\begin{matrix} \arg (f_{1,2}^{l, m, x}), & 0 \leq m \leq 11, & ρ_{C}^{l, m} &GreaterEqual; 0.6, \\ 0, & otherwise . \end{matrix}

ICC 及运算为

ρ_{T}^{l, m} = \min (\frac{| f_{1,2}^{l, m} |}{\sqrt{\max (f_{1,1}^{l, m} f_{1,2}^{l, m}, ϵ^{2})}}, 1),

ρ_{C}^{l, m} = \min (\frac{| c_{1,2}^{l, m} |}{\sqrt{\max (c_{1,1}^{l, m} c_{2,2}^{l, m}, ϵ^{2})}}, 1) .

旋转角α^l，m及β^l，m表示为

α^{l, m} = \frac{1}{2} (\arccos (ρ_{T}^{l, m}) - \arccos (ρ_{C}^{l, m})),

β^{l, m} = \arctan (\tan (α^{l, m}) \frac{P_{R}^{l, m} - P_{L}^{l, m}}{P_{L}^{l, m} + P_{R}^{l, m}}) .

4.1.2.6立体声至立体声「x-2-2」处理模式

下文中，将说明一种处理模式，其中规则音频对象以二信道(立体声)信号134、264、322、497a表示，及其中期望二信道(立体声)描绘。

在立体声输出信号的情况下，直接应用立体声前处理，将说明于章节4.2.2.3如下。

4.1.2.7立体声至单声道「x-2-1」处理模式

下文中，将说明一种处理模式，其中规则音频对象以二信道(立体声)信号134、264、322、497a表示，其中期望一信道(单声道)描绘。

在单声道输出信号的情况下，立体声前处理以单一主动描绘矩阵元应用，将说明于章节4.2.2.3如下。

4.1.2.8结论

再次参考图4a及图4b，说明一种处理，其可应用至扩展的的音频对象与规则音频对象分开后表示规则音频对象的一信道或二信道信号134、264、322、497a。图4a及图4b说明该项处理，其中图4a及图4b的处理差异在于可选参数调整被引入处理的不同阶段。

4.2.以转码模式操作

4.2.1引言

下文中，将说明用于标准顺应性MPEG环绕比特流(MPS比特流)中组合SAOC参数及摇摄与各个音频对象(或优选地与各个规则音频对象)相关联的信息(或描绘信息)的方法。

SAOC转码器490在图4f中示出，由SAOC参数处理器491及应用于立体声下混信号的下混处理器492组成。

SAOC转码器490例如可取代音频信号处理器140的功能。替代地，当与SAOC参数处理器252组合时，SAOC转码器490可替代SAOC下混前处理器270的功能。

举例言之，SAOC参数处理器491可接收SAOC比特流491a，其相当于对象相关的参数信息110或SAOC比特流212，音频信号处理器140可接收描绘矩阵信息491b，其可包含在对象相关的参数信息110中，或其可相当于描绘矩阵信息214。SAOC参数处理器491也提供下混处理信息 491c(可相于信息240)至下混处理器492。此外，SAOC参数处理器491可提供MPEG环绕比特流(或MPEG环绕参数比特流)491d，其包含与MPEG环绕标准兼容的参数环绕信息。MPEG环绕参数比特流491d例如可为第二音频信息的已处理的版本142的一部分，或例如可为MPS比特流222的一部分或取而代之。

下混处理器492被配置为接收下混信号492a，其优选为一信道下混信号或二信道下混信号，及其优选地相当于第二音频信息134，或相当于第二音频对象信号264、322。下混处理器492也可提供MPEG环绕下混信号492b，其相当于(或为其一部分)第二音频信息134的已处理的版本142，或相当于(或为其一部分)第二音频对象信号264的已处理的版本272。

但组合MPEG环绕下混信号492b与增强的音频对象信号132、262有多种不同方式。组合可在MPEG环绕域执行。

但另外，包含规则音频对象的MPEG环绕参数比特流491d及MPEG环绕下混信号492b的MPEG环绕表示型态可通过MPEG环绕译码器转换回多信道时域表示型态或多信道频域表示型态(个别表示不同的声道)，及随后可组合增强的音频对象信号。

须注意转码模式包含一个或多个单声道下混处理模式及一个或多个立体声下混处理模式。但下文中，将只说明立体声下混处理模式，原因在于规则音频对象的处理以立体声下混处理模式较为复杂。

4.2.2立体声下混(「x-2-5」)处理模式中的下混处理

4.2.2.1引言

下一节将说明立体声下混状况的SAOC转码模式。

得自SAOC比特流的对象参数(对象位准差OLD、对象间相关性IOC、下混增益DMG及下混信道位准差DCMD)根据描绘信息对MPEG环绕比特流转码成空间(优选为信道相关的)参数(信道位准差CLD、信道间相关性ICC、信道预测系数CPC)。下混系根据对象参数及描绘矩阵修改。

现在参考图4c、图4d及图4e，将说明处理特别为下混修改的综论。

图4c示出了用于修改下混信号例如描述一个或优选地多个规则音频对象的下混信号134、264、322、492a所执行的处理的方块表示图。如由图4c、图4d及图4e可知，处理接收描绘矩阵M_ren、下混增益信息DMG、下混信道位准差信息DCLD、对象位准差OLD、及对象间相关性IOC。描绘矩阵可选地由参数调整修改，如图4c所示。下混矩阵D的元依下混增益信息DMG及下混信道位准差信息DCLD获得。相干矩阵E的元依对象位准差OLD及对象间相关性IOC获得。此外，矩阵J可依下混矩阵D及相干矩阵E，或依其元获得。随后，矩阵C₃可依描绘矩阵M_ren、下混矩阵D、相干矩阵E及矩阵J获得。矩阵G可依矩阵D_TTT获得，后者可为具有预定元的矩阵，及也依矩阵C₃获得。矩阵G可选地可经修改来获得已修改的矩阵G_mod。矩阵G或修改版本的G_mod可用于自第二音频信息134、264、492a导出第二音频信息134、264的已处理的版本142、272、492b(其中，该第二音频信息134、264以X标示，而其已处理的版本142、272以标示)。

下文中，将讨论执行来获得MPEG环绕参数的对象能量的描绘。又，将说明立体声前处理，执行该立体声前处理以获得表示规则音频对象的第二音频信息134、264、492a的已处理的版本142、272、492b。

4.2.2.2对象能量的描绘

转码器根据如通过描绘矩阵M_ren所述的标靶描绘而决定MPS译码器的参数。六个信道标靶协方差以F标示且表示为

F = {YY}^{*} = M_{ren} S {(M_{ren} S)}^{*} = M_{ren} ({SS}^{*}) M_{ren}^{*} = M_{ren} {EM}_{ren}^{*} .

转码处理可在构想上划分为两部分。在一个部分，对左、右及中信道执行三信道描绘。在此阶段，获得下混修改的参数及MPS译码器的TTT框的预测参数。在另一部分，测定用于前方信道与环绕信道间用于描绘的CLD参数及ICC参数(OTT参数，左前-左环绕，右前-右环绕)。

4.2.2.2.1描绘成左、右及中信道

在此阶段，确定控制描绘成由前信号及环绕信号所组成的左及右信道。这些参数说明MPS解码C_TTT(MPS译码器的CPC参数)的TTT框的预测矩阵及下混转换器矩阵G。

C_TTT为由已修改的下混获得标靶描绘的预测矩阵：

C_{TTT} \hat{X} = C_{TTT} GX \approx A_{3} S .

A₃为尺寸3xN的已缩小的描绘矩阵，说明分别描绘成左、右及中信道。其被获得为A₃＝D₃₆M_ren，而6对3部分下混矩阵D₃₆定义为

D_{36} = (\begin{matrix} w_{1} & 0 & 0 & 0 & w_{1} & 0 \\ 0 & w_{2} & 0 & 0 & 0 & w_{2} \\ 0 & 0 & w_{3} & w_{3} & 0 & 0 \end{matrix}) .

部分下混权值w_p，p＝1，2，3被调整，使得w_p(y_2p-1+y_2p)的能量等于能量||y_2p-1||²+||y_2p||²之和直至极限因子。

w_{1} = \frac{f_{1, 1} + f_{5,5}}{f_{1,1} + f_{5,5} + {2 f}_{1,5}},

w_{2} = \frac{f_{2,2} + f_{6,6}}{f_{2,2} + f_{6,6} + {2 f}_{2,6}},

w₃＝0.5，

其中，f_i，j表示F的矩阵元。

用于期望的预测矩阵C_TTT及下混前处理矩阵G的估算，发明人定义尺寸3×2的预测矩阵C₃，结果导致标靶描绘

C₃X≈A3S.

此种矩阵经由考虑正规方程式(normal equation)而导出

C₃(DED^*)≈A₃ED^*.

正规方程式的解获得给定的对象协方差模型的标靶输出的最佳可能波形匹配。G及C_TTT现在经由解出方程组获得

C_TTTG＝C₃.

为了避免计算J＝(DED^＊)^-1项时的数值问题，J系经修改。首先求出J之特征值λ_1，2，解出det(J-λ_1，2I)＝0。

特征值以递减(λ₁≥λ₂)顺序分类，及根据前述方程式计算与较大特征值相对应的特征向量。确定位于正x平面(第一矩阵元为正)中。第二特征向量由第一特征向量以负90度旋转获得：

J = (v_{1} v_{2}) (\begin{matrix} λ_{1} & 0 \\ 0 & λ_{2} \end{matrix}) {(v_{1} v_{2})}^{*} .

加权矩阵由下混矩阵D及预测矩阵C₃算出，W＝(D diag(C₃))。

因C_TTT为MPS预测参数c₁及c₂的函数(如ISO/IEC 23003-1：2007定义)，C_TTTG＝C₃以下述方式改写来找出函数的驻点。

Γ (\begin{matrix} {\tilde{c}}_{1} \\ {\tilde{c}}_{2} \end{matrix}) = b,

带有Γ＝(D_TTTC₃)W(D_TTTC₃)^*及b＝GWC₃v，，

其中，

D_{TTT} = (\begin{matrix} 1 & 0 & 1 \\ 0 & 1 & 1 \end{matrix})

及v＝(11-1)。

若Γ未提供唯一解(det(Γ)＜10^-3)，则选择位于最接近于导致TTT通过的点的点。至于第一步骤，Γ的列i经选择γ＝[γ_i，1γ_i，2]，其中各矩阵元含有最大能量，如此γ_i，1 ²+γ_i，2 ²≥γ_j，1 ²+γ_j，2 ²，j＝1，2。然后其解被确定为

(\begin{matrix} {\tilde{c}}_{1} \\ {\tilde{c}}_{2} \end{matrix}) = (\begin{matrix} 1 \\ 1 \end{matrix}) - 3 y,

其中

y = \frac{b_{i, 3}}{(\underset{j = 1,2}{Σ} {(γ_{i, j})}^{2}) + ϵ} γ^{T} .

若所得及的解在定义为 (如ISO/IEC 23003-1：2007定义)的预测系数容许范围之外，则将根据如下计算。

首先定义点集合，x_p为：

x_{p} &Element; [\begin{matrix} (\begin{matrix} \min (3, \max (- 2, - \frac{{- 2 γ}_{1,2} - b_{1}}{γ_{1,1} + ϵ})) \\ - 2 \end{matrix}), & (\begin{matrix} \min (3, \max (- 2, - \frac{{3 γ}_{1,2} - b_{1}}{γ_{1,1} + ϵ})) \\ 3 \end{matrix}) \\ (\begin{matrix} - 2 \\ \min (3, \max (- 2, - \frac{{- 2 γ}_{2,1} - b_{2}}{γ_{2,2} + ϵ})) \end{matrix}), & (\begin{matrix} 3 \\ \min (3, \max (- 2, - \frac{{3 γ}_{2,1} - b_{2}}{γ_{2,2} + ϵ})) \end{matrix}) \end{matrix}],

及距离函数，

distFunc (x_{p}) = x_{p}^{*} {Γx}_{p 1} - {2 bx}_{p} .

然后预测参数根据下式定义：

(\begin{matrix} {\tilde{c}}_{1} \\ {\tilde{c}}_{2} \end{matrix}) = \arg \min_{x &Element; x_{p}} (distFunc (x))

预测参数根据下式约束：

c_{1} = (1 - λ) {\tilde{c}}_{1} + {λγ}_{1},

c_{2} = (1 - λ) {\tilde{c}}_{2} + {λγ}_{2},

其中，λ、γ₁及γ₂被定义为

γ_{1} = \frac{{2 f}_{1,1} + {2 f}_{5,5} - f_{3,3} + f_{1,3} + f_{5,3}}{{2 f}_{1,1} + {2 f}_{5,5} + {2 f}_{3,3} + {4 f}_{1,3} + {4 f}_{5,3}},

γ_{2} = \frac{{2 f}_{2,2} + {2 f}_{6,6} - f_{3,3} + f_{2,3} + f_{6,3}}{{2 f}_{2,2} + {2 f}_{6,6} + {2 f}_{3,3} + {4 f}_{2,3} + {4 f}_{6,3}},

λ = {(\frac{{(f_{1,2} + f_{1,6} + f_{5,2} + f_{5,6} + f_{1,3} + f_{5,3} + f_{2,3} + f_{6,3} + f_{3,3})}^{2}}{(f_{1,1} + f_{5,5} + f_{3,3} + {2 f}_{1,3} + {2 f}_{5,3}) (f_{2,2} + f_{6,6} + f_{3,3} + {2 f}_{2,3} + {2 f}_{6,3})})}^{8} .

对MPS译码器，CPC及相对应的ICC_TTT提供如下

D_{CPC_1}＝c₁(l，m)，D_{CPC_2}＝c₂(l，m)及

4.2.2.2.2前信道与环绕信道间的描绘

决定前信道与环绕信道间的描绘的参数可自标靶协方差矩阵F直接估算

{CLD}_{a, b} = {10 \log}_{10} (\frac{\max (f_{a, a}, ϵ^{2})}{\max (f_{b, b}, ϵ^{2})}),

{ICC}_{a, b} = \frac{\max (f_{a, b}, ϵ^{2})}{\sqrt{\max (f_{a, a}, ϵ^{2}) \max (f_{b, b}, ϵ^{2})}},

具有(a，b)＝(1，2)及(3，4)。

对每个OTT框h，MPS参数以下述形式提供

{CLD}_{h}^{l, m} = D_{CLD} (h, l, m)

及

{ICC}_{h}^{l, m} = D_{ICC} (h, l, m) .

4.2.2.3立体声处理

下文中，将说明规则音频对象信号134至64、322的立体声处理。立体声处理用来基于规则音频对象的二信道表示型态而导出对一般表示型态142、272的处理。

立体声下混信号X以规则音频对象信号134、264、492a表示，被处理成经修改的下混信号其以经处理的规则音频对象信号142、272表示：

\hat{X} = GX,

其中

G＝D_TTTC₃＝D_TTTM_renED^*J.

得自SAOC转码器的终立体声输出信号经由X与已去相关的信号组分根据下式算出：

\hat{X} = G_{Mod} X + P_{2} X_{d},

其中去相关的信号X_d如前述求出，混合矩阵G_mod及P₂根据如下求出。

首先，定义描绘上混误差矩阵为

R = A_{diff} {EA}_{diff}^{*},

其中

A_diff＝D_TTTA₃-GD，

此外，定义所预测信号的协方差矩阵为

\hat{R} = (\begin{matrix} {\hat{r}}_{1,1} & {\hat{r}}_{1,2} \\ {\hat{r}}_{2,1} & {\hat{r}}_{2,2} \end{matrix}) = {GDED}^{*} G^{*} .

随后增益向量g_vec计算为：

g_{vec} = (\min (\sqrt{\max (\frac{{\hat{r}}_{1,1} + r_{1,1} + ϵ^{2}}{r_{1,1} + ϵ^{2}}, 0)}, 1.5) \min (\sqrt{\max (\frac{{\hat{r}}_{2,2} + r_{2,2} + ϵ^{2}}{r_{2,2} + ϵ^{2}}, 0)}, 1.5)),

及混合矩阵G_Mod表示为：

G_{Mod} = \{\begin{matrix} diag (g_{vec}) G, & r_{1,2} > 0, \\ G, & otherwise . \end{matrix}

同理，混合矩阵P₂表示为：

P_{2} = \{\begin{matrix} (\begin{matrix} 0 & 0 \\ 0 & 0 \end{matrix}), & r_{1,2} > 0, \\ v_{R} diag (W_{d}), & otherwise . \end{matrix}

为了导出v_R及W_d，R的特征方程式被解出：

det(R-λ_1，2I)＝0，获得特征值λ₁及λ₂。

解出如下方程组可求出R的相对应特征向量v_R1及v_R2：

(R-λ_1，2I)v_R1，R2＝0.

特征值以递减(λ₁≥λ₂)顺序分类，及根据前述方程式计算与较大特征值相对应的特征向量。确定位于正x平面(第一矩阵元为正)中。第二特征向量通过以负90度旋转第一特征向量得到：

R = (v_{R 1} v_{R 2}) (\begin{matrix} λ_{1} & 0 \\ 0 & λ_{2} \end{matrix}) {(v_{R 1} v_{R 2})}^{*} .

结合P₁＝(11)G，R_d可根据下式计算：

R_{d} = (\begin{matrix} r_{d 11} & r_{d 12} \\ r_{d 21} & r_{d 22} \end{matrix}) = diag (P_{1} ({DED}^{*}) P_{1}^{*}),

获得

w_{d 1} = \min (\sqrt{\frac{λ_{1}}{r_{d 1} + ϵ}}, 2),

w_{d 2} = \min (\sqrt{\frac{λ_{2}}{r_{d 2} + ϵ}}, 2),

最终获得混合矩阵，

P_{2} = (\begin{matrix} v_{R 1} & v_{R 2} \end{matrix}) (\begin{matrix} w_{d 1} & 0 \\ 0 & w_{d 2} \end{matrix}) .

4.2.2.4双声道模式

SAOC转码器可允许混合矩阵P₁、P₂及预测矩阵C₃根据上频率范围的另一方案计算。此种替代方案特别有用于下混信号，此处上频率范围由非波形保留编码演绎法则例如高效AAC的SBR编码。

用于上参数频带，以bsTttBandsLow≤pb＜numBands定义，P₁、P₂及C₃须根据下述替代方案计算：

\{\begin{matrix} P_{1} = (\begin{matrix} 0 & 0 \\ 0 & 0 \end{matrix}), \\ P_{2} = G . \end{matrix}

分别定义能量下混信号及能量标靶向量：

\{\begin{matrix} e_{dmx} = (\begin{matrix} e_{dmx 1} \\ e_{dmx 2} \end{matrix}) = diag ({DED}^{*}) + ϵI, \\ e_{tar} = (\begin{matrix} e_{tar 1} \\ e_{tar 2} \\ e_{tar 3} \end{matrix}) = diag (A_{3} {EA}_{3}^{*}), \end{matrix}

及帮助矩阵

T = (\begin{matrix} t_{1,1} & t_{1,2} \\ t_{2,1} & t_{2,2} \\ t_{3, 1} & t_{3,2} \end{matrix}) = A_{3} D^{*} + ϵI .

然后计算增益向量

g = (\begin{matrix} g_{1} \\ g_{2} \\ g_{3} \end{matrix}) = (\begin{matrix} \sqrt{\frac{e_{tar 1}}{t_{1,1}^{2} e_{dmx 1} + t_{1,2}^{2} e_{dmx 2}}} \\ \sqrt{\frac{e_{tar 2}}{t_{2,1}^{2} e_{dmx 1} + t_{2,2}^{2} e_{dmx 2}}} \\ \sqrt{\frac{e_{tar 3}}{t_{3,1}^{2} e_{dmx 1} + t_{3,2}^{2} e_{dmx 2}}} \end{matrix}),

最终获得新预测矩阵

C_{3} = (\begin{matrix} g_{1} t_{1,1} & g_{1} t_{1,2} \\ g_{2} t_{2,1} & g_{2} t_{2,2} \\ g_{3} t_{3,1} & g_{3} t_{3,2} \end{matrix}) .

5.组合型EKS SAOC译码/转码模式、根据图10的编码器及根据图5a、图5b的系统

下文中，将对组合型EKS SAOC处理方案作简短说明。提出优选的「组合型EKS SAOC」处理方案，其中，EKS处理通过级联方案而被复合到规则SAOC译码/转码链中。

5.1.根据图5的音频信号编码器

在第一步骤，专用于EKS处理(增强式卡拉OK/独唱处理)的对象标示为前景对象(FGO)，其数目N_FGO(也标示为N_EAO)由比特流变量「bsNumGroupsFGO」决定。该比特流变量可如上文说明例如包含在SAOC比特流中。

为了生成比特流(在音频信号编码器中)，全部输入对象N_obj的参数被重新排序，使得在各种情况下前景对象FGO包含最末N_FGO(或可替换地，N_EAO)，例如对于[N_obj-N_FGO≤i≤N_obj-1]的OLD_i。

由例如背景对象BGO或未经增强的音频对象的剩余对象，以「规则SAOC样式」产生下混信号，其同时用作为背景对象BGO。接下来，背景对象及前景对象于「EKS处理样式」下混，及自各个前景对象提取出剩余信息。藉此方式，无需导入额外处理步骤。如此无需改变比特流语法。

换言之，在编码器端，未经增强的音频对象区别与经增强的音频对象。提供表示规则音频对象(未经增强的音频对象)的一信道或二信道规则音频对象下混信号其，其中，存在一、二或甚至多个规则音频对象(未经增强的音频对象)。该一信道或二信道规则音频对象下混信号然后组合一个或多个经增强的音频对象信号(例如可为一信道信号或二信道信号)而获得组合增强的音频对象的音频信号及规则音频对象下混信号的共享下混信号(例如可为一信道下混信号或二信道下混信号)。

下文中，将参考图10简短说明这种级联编码器，该图示出了根据本发明实施方式的SAOC编码器1000的方块示意图。SAOC编码器1000包括第一SAOC下混器1010，其典型为未提供剩余信息的SAOC下混器。SAOC下混器1010被配置为自规则(未经增强的)音频对象接收多个N_BGO音频对象信号1012。又，SAOC下混器1010被配置为基于规则音频对象信号1012提供规则音频对象下混信号1014，使得规则音频对象下混信号1014根据下混参数组合规则音频对象信号1012。SAOC下混器1010也提供规则音频对象SAOC信息1016，其描述规则音频对象信号及下混信号。举例言之，规则音频对象SAOC信息1016可包含描述由SAOC下混器1010所执行的下混的下混增益信息DMG及下混信道位准差信息DCLD。此外，规则音频对象SAOC信息1016可包含描述由规则音频对象信号1012所说明的规则音频对象间的关系的对象位准差信息及对象相关信息。

编码器1000还包括第二SAOC下混器1020，其典型地被配置为提供剩余信息。该第二SAOC下混器1020优选地被配置为接收一个或多个经增强的音频对象信号1022，还接收规则音频对象下混信号1014。

第二SAOC下混器1020也被配置为基于已增强的音频对象信号1022及规则音频对象下混信号1014而提供共享SAOC下混信号1024。当提供该共享SAOC下混信号时，第二SAOC下混器1020典型地将规则音频对象下混信号1014处理成为单一一信道或二信道对象信号。

第二SAOC下混器1020还被配置为提供已增强的音频对象SAOC信息，其描述例如与该已增强的音频对象相关的下混信道位准差值DCLD、与该已增强的音频对象相关的对象位准差值OLD、及与该已增强的音频对象相关的对象相关值IOC。此外，第二SAOC下混器1020优选地被配置为提供与各个已增强的音频对象相关的剩余信息，使得与该已增强的音频对象相关的剩余信息描述原先个别已增强的音频对象信号与，使用下混信息DMG、DCLD及对象信息OLD、IOC而可提取自下混信号的预期个别已增强的音频对象信号间的差。

音频编码器1000极为适合与此处所述音频译码器协力合作。

5.2.根据图5a的音频信号译码器

下文中，将说明图5a所示方块示意图的组合型EKS SAOC译码器500的基本结构。

根据图5a的音频译码器500被配置为接收下混信号510、SAOC比特流信息512及描绘矩阵信息514。音频译码器500包括已增强的卡拉OK/独唱处理及前景对象描绘阶段520，其被配置为提供描述已描绘的前景对象的第一音频对象信号562，及描述背景对象的第二音频对象信号564。前景对象可为例如所谓的「已增强的音频对象」，而背景对象例如可为所谓的「规则音频对象」或「未经增强的音频对象」。音频译码器500还包括规则SAOC译码阶段570，其被配置为接收第二音频对象信号562，及基于此而提供第二音频对象信号564的已处理的版本572。音频译码器500还包括组合器580，其被配置为组合该第一音频对象信号562及第二音频对象信号564的已处理的版本572而获得输出信号520。

下文中，将就若干进一步细节讨论音频译码器500的功能。在SAOC解码/转码端，上混处理导致级联方案，首先包括已增强的卡拉OK-独唱处理系统(EKS处理)来将该下混信号分解成背景对象(BGO)及前景对象(FGO)。对该背景对象要求的对象位准差(OLD)及对象相关性(IOC)自该对象及下混信息(二者皆为对象相关的参数信息，且皆典型地包含在SAOC比特流)导出：

{OLD}_{L} = Σ_{i = 0}^{N - N_{FGO} - 1} d_{0, i}^{2} {OLD}_{i}

{OLD}_{R} = Σ_{i = 0}^{N - N_{FGO} - 1} d_{1, i}^{2} {OLD}_{i},

{IOC}_{LR} = \{\begin{matrix} {IOC}_{0,1}, & N - N_{FGO} = 2, \\ 0, & otherwise . \end{matrix}

此外，此一步骤(典型地由EKS处理及前景对象描绘520执行)包括将前景对象映像至终输出信道(使得例如第一音频对象信号562为其中该前景对象映射至一个或多个信道的各者的多信道信号)。背景对象(典型地包含多个所谓的「规则音频对象」)由规则SAOC译码处理(或另外，在某些情况下，由SAOC转码处理)而描绘成相对应的输出信道。此项处理例如可由规则SAOC译码570执行。终混合阶段(例如，组合器580)提供在输出端已描绘的前景对象与背景对象信号的期望组合。

此种组合型EKS SAOC系统代表规则SAOC系统与其EKS模式的全部有利性质的组合。此种办法允许使用所提示的系统，对传统(中等描绘)及卡拉OK/独唱类似(极端描绘)回放状况使用相同比特流而达成相对应的效能。

5.3.根据图5b的一般性结构

下文中，将参考图5b说明组合型EKS SAOC系统590的一般结构，该图示出了此种一般组合型EKS SAOC系统的方块示意图。图5b的组合型EKS SAOC系统590也视为音频译码器。

组合型EKS SAOC系统590被配置为接收下混信号510a、SAOC比特流信息512a及该描绘矩阵信息514a。又，组合型EKS SAOC系统590被配置为基于此而提供输出信号520a。

组合型EKS SAOC系统590包括SAOC型处理阶段I 520a，其接收下混信号510a、SAOC比特流信息512a(或其至少一部分)、及描绘矩阵信息514a(或其至少一部分)。具体言之，SAOC型处理阶段I 520a接收第一阶段对象位准差值(OLD)。SAOC型处理阶段I 520a提供描述第对象集合的一个或多个信号562a(例如，第一音频对象型音频对象)。SAOC型处理阶段I 520a还提供描述第二对象集合的一个或多个信号564a。

组合型EKS SAOC译码器还包括SAOC型处理阶段II 570a，其被配置为接收描述第二对象集合的一个或多个信号564a及基于此提供使用包括在SAOC比特流信息512a的第二阶段对象位准差、还至少部分描绘矩阵信息514而描述第三对象集合的一个或多个信号572a。组合型EKSSAOC系统还包括组合器580a，其可为例如加法器，来经由组合描述第对象集合的一个或多个信号562a及描述第三对象集合(其中该第三对象集合可为第二对象集合的已处理的版本)的一个或多个信号570a而提供输出信号520a。

综上所述，图5b示出了本发明又一实施方式中参考如上图5a所述基本结构的一般形式。

6.组合型EKS SAOC处理方案的构想评估

6.1测试方法、设计及项目

本主观试听测试在设计用来允许高质量试听的隔音试听室进行。回放使用头戴式耳机(STAX SRλPro附有Lake-People D/A转换器及STAXSRM监视器)执行。测试方法遵照空间音频验证测试所使用的标准程序，基于用于中间质量音频主观评比的「附有隐藏式参考及锚的多重刺激」(MUSHRA)方法进行。

共有八位试听者参与测试。全部个体都可被视为有经验的试听者。根据MUSHRA方法，指示试听者比较全部测试状况与参考状况。由基于计算机的MUSHRA程序以0至100分的等级记录主观响应。允许各项目间的瞬间切换。进行MUSHRA测试来评估提供试听测试设计说明的图6a的表所述考虑的SAOC模式及所提出方法的知觉效能。

相对应之下混信号使用AAC核心编码器以128kbps的比特率编码。为了评比所提示的EKS SAOC系统的知觉质量，对图6b的表所述的两个不同描绘测试状况，相对于规则SAOC RM系统(SAOC参考模型系统)及目前EKS模型(增强的卡拉OK-独唱模式)做比较。

有20kbps比特率的剩余编码应用于目前EKS模式及所提示的组合型EKS SAOC系统。须注意用于目前EKS模式，需在实际编码/译码程序之前，产生立体声背景对象(BGO)，原因在于此种模式对输入对象的数目及类型有限制。

用于执行测试的试听测试材料及相对应的下混及描绘参数已经选自文件[2]所述征求提案(CfP)集合音频项目。「卡拉OK 」及「传统」描绘应用状况的相对应数据可参考图6c的表，该表说明试听测试项目及描绘矩阵。

6.2试听测试结果

以图解验证所得试听测试结果的简短综论可参考图6d及图6e，其中图6d示出卡拉OK/独唱型描绘试听测试的平均MUSHRA分数，及图6e示出传统描绘试听测试的平均MUSHRA分数。图标示出了全部试听者对每一项目的平均MUSHRA分数等级及对全部所评估项目的统计平均值连同相关的95％置信度区间。

基于所进行的试听测试结果，可获得下列结论：

·图6d表示目前EKS模式与用于卡拉OK型应用的组合型EKSSAOC系统的比较。对全部测试项目，观察到此二系统间并无显著效能差异(就统计意义而言)。由此项观察，获得结论：组合型EKS SAOC系统可有效探勘达EKS模式效能的剩余信息。也须注意规则SAOC系统(不含余数)的效能低于另二系统。

·图6e表示对传统描绘状况，目前规则SAOC系统与组合型EKSSAOC系统的比较。对全部所测试的项目，此二系统效能在统计上为相同。如此验证组合型EKS SAOC系统用于传统描绘状况的适当功能。

因此，获得结论：所提示的组合EKS模式与规则SAOC的统一系统，保有对相对应描绘型式的主观音频质量的优点。

考虑下述事实，所提示的组合型EKS SAOC系统不再限制BGO对象，反而具有规则SAOC模式的全然弹性的描绘能力，且可使用相同比特流用于全部各型描绘，显然可优异地结合入MPEG SAOC标准。

7.根据图7的方法

下文中，将参考图7说明一种根据下混信号表示型态及对象相关的参数信息而提供上混信号表示型态的方法，该图显示此种方法的流程图。

方法700包括分解下混信号表示型态的步骤710，其根据下混信号表示型态及至少部分对象相关的参数信息，而提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息、及描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息。方法700也包括根据该对象相关的参数信息处理第二音频信息而获得该第二音频信息的已处理的版本的步骤720。

方法700还包括组合第一音频信息与该第二音频信息的已处理的版本而获得上混信号表示型态的步骤730。

根据图7的方法可由本文中就本发明装置讨论的任何特征及功能补充。又，方法700获得本文中关于本发明装置讨论的优点。

8.替代实施例

虽然已经在装置的上下文中说明若干个方面，但显然这些方面也表示相对应方法的说明，其中方块或装置与方法步骤或方法步骤的特征相对应。同理，方法步骤的上下文中中说明的方面相也表示方块或相对应装置的项目或特征的说明。部分或全部方法步骤可通过(或使用)硬件装置例如，微处理器、可程序规划的计算机或电子电路执行。在若干实施方式中，最重要方法步骤中某一者或多者可通过这种装置执行。

本发明编码音频信号可储存于数字储存媒体，或者可在传输媒体诸如无线传输媒体或有线传输媒体(例，如因特网)上传送。

根据某些实施例要求而定，本发明的实施方式可于硬件或软件实施。实施可使用数字储存媒体执行，这些媒体诸如软盘、DVD、蓝光盘、CD、 ROM、PROM、EPROM、EEPROM或闪存，其具有可电子式读取控制信号储存于其上，而与可程序规划的计算机系统协力合作(或可协力合作)，因而可执行个别方法。因此，数字储存媒体可为可计算机读取式。

根据本发明的若干实施例包括具有可电子式读取的控制信号的数据载体，其可与可程序规划的计算机系统协力合作，因而可执行此处所述方法中的一个。

大致上，本发明的实施方式可实施为带有程序代码的计算机程序产品，当该计算机程序产品在计算机上运行时，该程序代码可操作用以执行这些方法中的一个。该程序代码例如可储存于可机器读取的载体上。

其它实施方式包含用以执行储存于可机器读取的载体上的本文所述方法中的一个的计算机程序。

换言之，因此本发明方法的实施方式为一种带有程序代码的计算机程序，用以当该计算机程序在计算机上运行时，可执行此处所述方法中的一个。

因而本发明方法的又一实施方式为一种包含用以执行此处所述方法中的一个该计算机程序记录于其上的数据载体(或数字储存媒体，或可计算机读取媒体)。该数据载体、数字储存媒体或已记录的媒体典型为有形具体及/或非传输性。

因此，本发明的又一实施例为表示用以执行此处所述方法中的一个的数据流或信号序列。该数据流或信号序列例如可被配置为通过数据通讯连结，例如通过因特网传送。

又一实施方式包括一种处理装置例如计算机或可程序规划逻辑装置，其被配置为或适用于执行此处所述方法中的一个。

又一实施方式包括一种计算机，其上安装有可用以执行本文中所述方法中的一个的程序。

在若干实施方式中，可程序规划逻辑装置(例如现场可规划闸极数组)可用来执行本文所述方法的部分或全部功能。在若干实施方式中，现场可规划栅极数组可与微处理器协力合作来执行本文中所述方法中的一个。一般而言，该等方法优选地通过硬件装置执行。

前述实施方式仅供举例说明本发明的原理。须了解本文所述配置及细节的修改与变化为本领域其他技术人员显然易知。因此本发明仅受审查中的权利要求范围所限而非受用以说明与解释本文的实施方式而呈示的特定细节所限。

9.结论

下文中，将简短摘述根据本发明的组合型EKS SAOC系统的若干方面及优点。用于卡拉OK及独唱回放状况，SAOC EKS处理模式排它地支持背景对象/前景对象及这些对象组群的任意混合物(以描绘矩阵定义)二者的重制。

另外，第一模式被视为EKS处理的主要目的，而后者提供额外弹性。

已经发现EKS功能的一般化结果涉及组合EKS与规则SAOC处理模式，致力于获得一个统一系统。这种统一系统的展望为：

·单一利落的SAOC译码/转码结构；

·用于EKS及规则SAOC模式两者的一个比特流；

·对包括该背景对象(BGO)的输入对象数目无限制，使得无需在SAOC编码阶段之前产生该背景对象；以及

·支持用于前景对象的剩余编码，获得要求卡拉OK/独唱回放状况时增强的知觉质量。

这些优点可通过本文所述的该统一系统获得。

参考文献

[1]ISO/IEC JTCI/SC29/WGIl(MPEG)，Document N8853，″Call for Proposals on Spatial Audio Object Coding″，79th MPEG Meeting，Marrakech，January 2007.

[2]ISO/IEC JTCI/SC29fWGII(MPEG)，Document N9099，″Final Spatial Audio Object Coding Evaluation Procedures and Criterion″，80th MPEG Meeting，San Jose，April 2007.

[3]ISO/IEC JTCI/SC29/WGII(MPEG)，Document N9250，″Report on Spatial Audio Object Coding RMO Selection″，81st MPEG Meeting，Lausanne，July 2007.

[4]ISO/IEC JTCI/SC29fWGIl(MPEG)，Document M15123，″Infon-nation and Verification Results for CE on Karaoke/Solo system improving the performance of MPEG SAOC RM0″，83rd MPEG Meeting，Antalya，Turkey，January 2008.

[5]ISO/IEC JTCI/SC29/WGII(MPEG)，Document N10659，″Study on ISO/IEC 23003-2：200x Spatial Audio Object Coding(SAOC)″，88thMPEG Meeting，Maui，USA，April 2009.

[6]ISO/IEC JTCI/SC29/WGll(MPEG)，Document M10660，″Status and Workplan on SAOC Core Experiments″，88th MPEG Meeting，Maui，USA，April 2009.

[71EBU Technical recommendation：″MUSHRA-EBU Method for Subjective Listening Tests of Intermediate Audio Quality″，Doe.B/AlMO22，October 1999.

[8]ISO/IEC 23003-1：2007，Information technology-MPEG audio technologies-Part 1：MPEG Surround.

Claims

1.一种音频信号译码器(100；200；500；590)，用以根据下混信号表示型态(112；210；510；510a)和对象相关的参数信息(110；212；512；512a)提供上混信号表示型态，所述音频信号译码器包括：

对象分离器(130；260；520；520a)，被配置为分解所述下混信号表示型态，以根据所述下混信号表示型态及使用所述对象相关的参数信息的至少一部分提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息(132；262；562；562a)，和描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息(134；264；564；564a)，

其中，所述第二音频信息为以组合方式描述所述第二音频对象类型的所述音频对象的音频信息；

音频信号处理器，被配置为接收所述第二音频信息(134；264；564；564a)，以及根据所述对象相关的参数信息处理所述第二音频信息，以获得所述第二音频信息的已处理的版本(142；272；572；572a)；以及

音频信号组合器(150；280；580；580a)，被配置为组合所述第一音频信息与所述第二音频信息的所述已处理的版本，以获得所述上混信号表示型态；

其中，所述音频信号译码器被配置为根据与通过所述下混信号表示型态所表示的音频对象子集相关联的剩余信息提供所述上混信号表示型态，

其中，所述对象分离器被配置为根据所述下混信号表示型态及使用所述剩余信息来分解所述下混信号表示型态，以提供描述与剩余信息相关联的第一音频对象类型的一个或多个音频对象的第一集合的所述第一音频信息，和描述并未与剩余信息相关联的第二音频对象类型的一个或多个音频对象的第二集合的所述第二音频信息；

其中，所述音频信号处理器被配置为考虑与所述第二音频对象类型的多于两个的音频对象相关联的对象相关的参数信息而处理所述第二音频信息，以执行所述第二音频对象类型的音频对象的单独对象处理；以及

其中，所述剩余信息描述剩余失真，如果所述第一音频对象类型的音频对象仅使用对象相关的参数信息分离，所述剩余失真被认为是存在的。

2.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述对象分离器被配置为提供所述第一音频信息，使得所述第一音频对象类型的一个或多个音频对象被强调超过所述第一音频信息中的所述第二音频对象类型的音频对象，以及

其中，所述对象分离器被配置为提供所述第二音频信息，使得所述第二音频对象类型的音频对象被强调超过所述第二音频信息中的所述第一音频对象类型的音频对象。

3.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述音频信号处理器被配置为根据与所述第二音频对象类型的所述音频对象相关联的对象相关的参数信息(110；212；512；512a)而与所述第一音频对象类型的所述音频对象相关联的对象相关的参数信息(110；212；512；512a)独立无关地来处理所述第二音频信息(134；264；564；564a)。

4.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述对象分离器被配置为使用所述下混信号表示型态的一个或多个下混信号信道与一个或多个剩余信道的线性组合来获得所述第一音频信息(132；262；562；562a,X_EAO)及所述第二音频信息(134；264；564；564a,X_OBJ)，其中，所述对象分离器被配置为根据与所述第一音频对象类型的所述音频对象(m₀…m_NEAO-1；n₀…n_NEAO-1)相关联的下混参数、及根据所述第一音频对象类型的所述音频对象的信道预测系数(c_j，0，c_j，1)而执行所述线性组合来获得组合参数。

5.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述对象分离器被配置为根据

X_{OBJ} = M_{OBJ}^{Prediction} (\begin{matrix} l_{0} \\ \frac{r_{0}}{{res}_{0}} \\ . \\ . \\ . \\ {res}_{N_{EAO} - 1} \end{matrix})

X_{EAO} = A^{EAO} M_{EAO}^{Prediction} (\begin{matrix} l_{0} \\ \frac{r_{0}}{{res}_{0}} \\ . \\ . \\ . \\ {res}_{N_{EAO} - 1} \end{matrix})

获得所述第一音频信息及所述第二音频信息，

其中，

M^{Prediction} = {\tilde{D}}^{- 1} C,

其中，

M^{Prediction} = (\frac{M_{OBJ}^{Prediction}}{M_{EAO}^{Prediction}})

其中，X_OBJ表示所述第二音频信息的信道；

其中，X_EAO表示所述第一音频信息的对象信号；

其中，表示扩展的下混矩阵的逆矩阵；

其中，C描述表示多个信道预测系数的矩阵；

其中，l₀及r₀表示所述下混信号表示型态的信道；

其中，res₀至表示剩余信道；以及

其中，A^EAO为EAO预描绘矩阵，其元描述增强的音频对象到增强的音频对象的信号X_EAO的信道的映射；

其中，所述对象分离器被配置为获得逆下混矩阵作为扩展的下混矩阵的逆矩阵，其中被定义为

其中，所述对象分离器被配置为获得矩阵C为

其中，m₀至为与第一下混信道中所述第一音频对象类型的所述音频对象相关联的下混值；

其中，n₀至为与第二下混信道中所述第一音频对象类型的所述音频对象相关联的下混值；

其中，所述对象分离器被配置为计算所述预测系数及为

{\tilde{c}}_{j, 0} = \frac{P_{LoCo, j} P_{Ro} - P_{RoCo, j} P_{LoRo}}{P_{Lo} P_{Ro} - P_{LoRo}^{2}}

{\tilde{c}}_{j, 1} = \frac{P_{RoCo, j} P_{Lo} - P_{LoCo, j} P_{LoRo}}{P_{Lo} P_{Ro} - P_{LoRo}^{2}};

其中，所述对象分离器被配置为使用约束演绎法则而自所述预测系数及导出受约束的预测系数c_j,0及c_j,1，或使用所述预测系数及作为所述预测系数c_j,0及c_j,1；

其中，能量P_Lo、P_Ro、P_LoRo、P_LoCo,j及P_RoCo,j被定义为

P_{Lo} = {OLD}_{L} + Σ_{j = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} m_{j} m_{k} e_{j, k}

P_{Ro} = {OLD}_{R} + Σ_{j = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} n_{j} n_{k} e_{j, k}

P_{LoRo} = {OLD}_{L, R} + Σ_{j = 0}^{N_{EAO} - 1} Σ_{k = 0}^{N_{EAO} - 1} m_{j} n_{k} e_{j, k}

P_{LoCo, j} = m_{j} {OLD}_{L} + n_{j} e_{L, R} - m_{j} {OLD}_{j} - Σ_{\underset{i &NotEqual; j}{i = 0}}^{N_{EAO} - 1} m_{i} e_{i, j}

P_{RoCo, j} = {n_{j} OLD}_{R} + m_{j} e_{L, R} - n_{j} {OLD}_{j} - Σ_{j = 0}^{N_{EAO} - 1} n_{j} e_{j, k}

其中，参数OLD_L、OLD_R与第二音频对象类型的音频对象相对应，且根据

{OLD}_{L} = Σ_{i = 0}^{N - N_{EAO} - 1} d_{0, i}^{2} {OLD}_{i},

{OLD}_{R} = Σ_{i = 0}^{N - N_{EAO} - 1} d_{1, i}^{2} {OLD}_{i},

定义，

其中，d_0,i及d_1,i为与所述第二音频对象类型的所述音频对象相关联的下混值；

其中，OLD_i为与所述第二音频对象类型的所述音频对象相关联的对象位准差值；

其中，N为音频对象的总数；

其中，N_EAO为所述第一音频对象类型的音频对象的数目；

其中，e_i,j及e_L,R为自对象位准差参数及对象间相关性参数所导出的协方差值；以及

其中，e_i,j与所述第一音频对象类型的一对音频对象相关联，而e_L,R与所述第二音频对象类型的一对音频对象相关联。

6.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述对象分离器被配置为根据

X_{OBJ} = M_{OBJ}^{Prediction} (\begin{matrix} d_{0} \\ \frac{r_{0}}{{res}_{0}} \\ . \\ . \\ . \\ {res}_{N_{EAO} - 1} \end{matrix})

X_{EAO} = A^{EAO} M_{EAO}^{Prediction} (\begin{matrix} \frac{d_{0}}{{res}_{0}} \\ . \\ . \\ . \\ {res}_{N_{EAO} - 1} \end{matrix})

获得所述第一音频信息及所述第二音频信息，

其中，

M^{Prediction} = {\tilde{D}}^{- 1} C,

其中，

M^{Prediction} = (\frac{M_{OBJ}^{Prediction}}{M_{EAO}^{Prediction}})

其中，X_OBJ表示所述第二音频信息的信道；

其中，X_EAO表示所述第一音频信息的对象信号；

其中，表示为扩展的下混矩阵的逆矩阵；

其中，C描述表示多个信道预测系数的矩阵；

其中，d₀表示所述下混信号表示型态的信道；

其中，res₀至表示剩余信道；及

其中，A^EAO为EAO预描绘矩阵。

7.根据权利要求6所述的音频信号译码器，其中，所述对象分离器被配置为获得逆下混矩阵作为扩展的下混矩阵的逆矩阵，被定义为

其中，所述对象分离器被配置为获得矩阵C为

其中，m₀至为与所述第一音频对象类型的所述音频对象相关联的下混值；以及

其中，c₀至是信道预测系数；和

其中，N_EAO为所述第一音频对象类型的音频对象的数目。

8.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述对象分离器被配置为根据

X_{OBJ} = M_{OBJ}^{Energy} (\begin{matrix} l_{0} \\ r_{0} \end{matrix})

X_{EAO} = A^{EAO} M_{EAO}^{Energy} (\begin{matrix} l_{0} \\ r_{0} \end{matrix})

获得所述第一音频信息及所述第二音频信息，

其中，X_OBJ表示所述第二音频信息的信道；

其中，X_EAO表示所述第一音频信息的对象信号；

其中，l₀及r₀表示所述下混信号表示型态的信道；

其中，

M_{OBJ}^{Energy} = (\begin{matrix} \sqrt{\frac{{OLD}_{L}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} & 0 \\ 0 & \sqrt{\frac{{OLD}_{R}}{{OLD}_{R} + Σ_{i = 0}^{N_{EAO} - 1} n_{i}^{2} {OLD}_{i}}} \end{matrix})

M_{EAO}^{Energy} = (\begin{matrix} \sqrt{\frac{m_{0}^{2} {OLD}_{0}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} & \sqrt{\frac{n_{0}^{2} {OLD}_{0}}{{OLD}_{R} + Σ_{i = 0}^{N_{EAO} - 1} n_{i}^{2} {OLD}_{i}}} \\ . & . \\ . & . \\ . & . \\ \sqrt{\frac{m_{N_{EAO} - 1}^{2} {OLD}_{N_{EAO} - 1}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} & \sqrt{\frac{n_{N_{EAO} - 1}^{2} {OLD}_{N_{EAO} - 1}}{{OLD}_{R} + Σ_{i = 0}^{N_{EAO} - 1} n_{i}^{2} {OLD}_{i}}} \end{matrix})

其中，OLD_i为与所述第一音频对象类型的所述音频对象相关联的对象位准差值；

其中，OLD_L及OLD_R为与所述第二音频对象类型的所述音频对象相关联的共享对象位准差值；以及

其中，A^EAO为EAO预描绘矩阵，

其中，N_EAO为所述第一音频对象类型的音频对象的数目。

9.根据权利要求1所述的音频信号译码器，其中，所述对象分离器被配置为根据

X_{OBJ} = M_{OBJ}^{Energy} (d_{0})

X_{EAO} = A^{EAO} M_{EAO}^{Energu} (d_{0})

获得所述第一音频信息及所述第二音频信息，

其中，X_OBJ表示所述第二音频信息的信道；

其中，X_EAO表示所述第一音频信息的对象信号；

其中，

M_{OBJ}^{Energy} = (\begin{matrix} \sqrt{\frac{{OLD}_{L}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} \end{matrix})

M_{EAO}^{Energy} = (\begin{matrix} \sqrt{\frac{m_{0}^{2} {OLD}_{0}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} \\ . \\ . \\ . \\ \sqrt{\frac{m_{N_{EAO} - 1}^{2} {OLD}_{N_{EAO} - 1}}{{OLD}_{L} + Σ_{i = 0}^{N_{EAO} - 1} m_{i}^{2} {OLD}_{i}}} \end{matrix})

其中，m₀至为与所述第一音频对象类型的所述音频对象相关联的下混值；

其中，OLD_L为与所述第二音频对象类型的所述音频对象相关联的共享对象位准差值；以及

其中，A^EAO为EAO预描绘矩阵；

其中，所述和被用于单个SAOC下混信号的表示型态d₀，

其中，N_EAO为所述第一音频对象类型的音频对象的数目。

10.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述对象分离器被配置为施加描绘矩阵至所述第一音频信息(132；262；562；562a)而将所述第一音频信息的对象信号映像至所述上混信号表示型态(120；220；222；562；562a)的音频信道上。

11.根据权利要求1所述的音频信号译码器(100；200；500；590)，其中，所述音频信号处理器(140；270；570；570a)被配置为根据描绘信息、对象相关的协方差信息(E)、下混信息(D)来执行所述第二音频信息(134；264；564；564a)的立体声预处理，以获得所述第二音频信息的已处理的版本的音频信道。

12.根据权利要求11所述的音频信号译码器(100；200；500；590)，其中，所述音频信号处理器(140；270；570；570a)被配置为根据描绘信息及协方差信息来执行立体声处理，以将所述第二音频信息(134；264；564；564a)的经估算的音频对象贡献(ED^*JX)映像至所述上混信号表示型态的多个信道上。

13.根据权利要求11所述的音频信号译码器，其中，所述音频信号处理器被配置为根据描绘上混误差信息(R)及一个或多个去相关的信号强度缩放值(w_d1,w_d2)而将基于所述第二音频信息的一个或多个音频信道获得的去相关的音频信号贡献(P₂X_d)加至所述第二音频信息，或加至自所述第二音频信息所导出的信息。

14.根据权利要求1所述的音频信号译码器，其中，所述音频信号处理器(140；270；570；570a)被配置为根据描绘信息(A)、对象相关的协方差信息(E)及下混信息(D)执行第二音频信息(134；264；564；564a)的后处理。

15.根据权利要求14所述的音频信号译码器，其中，所述音频信号处理器被配置为考虑头相关的传送功能，执行所述第二音频信息的单声道至双声道处理，以将所述第二音频信息的一单信道映像到所述上混信号表示型态的二信道上。

16.根据权利要求14所述的音频信号译码器，其中，所述音频信号处理器被配置为执行所述第二音频信息的单声道至立体声处理，以将所述第二音频信息的单信道映像至所述上混信号表示型态的二信道上。

17.根据权利要求14所述的音频信号译码器，其中，所述音频信号处理器被配置为考虑头相关的传送功能，以执行所述第二音频信息的立体声道至双声道处理，以将所述第二音频信息的二信道映像到所述上混信号表示型态的二信道上。

18.根据权利要求14所述的音频信号译码器，其中，所述音频信号处理器被配置为执行所述第二音频信息的立体声道至立体声道处理，以将所述第二音频信息的二信道映像到所述上混信号表示型态的二信道上。

19.根据权利要求1所述的音频信号译码器，其中，所述对象分离器被配置为将并无剩余信息相关联的所述第二音频对象类型的音频对象处理为单一音频对象，以及

其中，所述音频信号处理器(140；270；570；570a)被配置为考虑与所述第二音频对象类型的音频对象相关联的对象专一性描绘参数而调整所述第二音频对象类型的音频对象对所述上混信号表示型态的贡献。

20.根据权利要求1所述的音频信号译码器，其中，所述对象分离器被配置为对第二音频对象类型的多个音频对象获得一个或二个共享对象位准差值(OLD_L，OLD_R)；以及

其中，所述对象分离器被配置为使用所述共享对象位准差值用于信道预测系数(CPC)的计算；以及

其中，所述对象分离器被配置为使用所述信道预测系数获得表示所述第二音频信息的一个或二个音频信道。

21.根据权利要求1所述的音频信号译码器，其中，所述对象分离器被配置为对第二音频对象类型的多个音频对象获得一个或二个共享对象位准差值(OLD_L，OLD_R)；以及

其中，所述对象分离器被配置为使用所述共享对象位准差值用于矩阵(M)的元的计算；以及

其中，所述对象分离器被配置为使用所述矩阵(M)获得表示所述第二音频信息的一个或多个音频信道。

22.根据权利要求1所述的音频信号译码器，其中，所述对象分离器被配置为若发现有所述第二音频对象类型的两个音频对象，则根据所述对象相关的参数信息而选择性地获得与所述第二音频对象类型的音频对象相关联的共享对象间相关值(IOC_L,R)，以及若发现有所述第二音频对象类型的多于或少于两个的音频对象，则设定与所述第二音频对象类型的音频对象相关联的所述共享对象间相关值为零；以及

其中，所述对象分离器被配置为使用所述共享对象间相关值用于矩阵(M)的元的计算；以及

其中，所述对象分离器被配置为使用与所述第二音频对象类型的音频对象相关联的所述共享对象间相关值获得表示所述第二音频信息的一个或多个音频信道。

23.根据权利要求1所述的音频信号译码器，其中，所述音频信号处理器被配置为根据所述对象相关的参数信息描绘所述第二音频信息，以获得所述第二音频对象类型的音频对象的经描绘的表示型态作为所述第二音频信息的已处理的版本。

24.根据权利要求1所述的音频信号译码器，其中，所述对象分离器被配置为提供所述第二音频信息，使得所述第二音频信息描述所述第二音频对象类型的多于两个的音频对象。

25.根据权利要求24所述的音频信号译码器，其中，所述对象分离器被配置为获得表示所述第二音频对象类型的多于两个的音频对象的一信道音频信号表示型态或二信道音频信号表示型态作为所述第二音频信息。

26.根据权利要求1所述的音频信号译码器，其中，所述音频信号处理器被配置为考虑与所述第二音频对象类型的多于两个的音频对象相关联的对象相关的参数信息，接收所述第二音频信息及处理所述第二音频信息。

27.根据权利要求1所述的音频信号译码器，其中，所述音频信号译码器被配置为自所述对象相关的参数信息的配置信息(SAOCSpecificConfig)提取对象总数信息(bsNumGroupsFGO)及前景对象数目信息(bsNumObjectss)，及通过形成所述对象总数信息与所述前景对象数目信息间的差来判定所述第二音频对象类型的音频对象数目。

28.根据权利要求1所述的音频信号译码器，其中，所述对象分离器被配置为使用与所述第一音频对象类型的N_EAO音频对象相关联的对象相关的参数信息获得表示所述第一音频对象类型的N_EAO音频对象的N_EAO音频信号(X_EAO)作为第一音频信息，及获得表示所述第二音频对象类型的N-N_EAO音频对象的一个或二个音频信号(X_OBJ)作为第二音频信息，将所述第二音频信息的N-N_EAO音频对象处理为单一信道或二信道音频对象；以及

其中，所述音频信号处理器被配置为使用与所述第二音频对象类型的N-N_EAO音频对象相关联的对象相关的参数信息而个别描绘通过一个或二个所述第二音频对象类型的音频信号所表示的N-N_EAO音频对象。

29.一种用以根据下混信号表示型态及对象相关的参数信息来提供上混信号表示型态的方法，所述方法包括：

分解所述下混信号表示型态，以根据所述下混信号表示型态及使用所述对象相关的参数信息的至少一部分提供描述第一音频对象类型的一个或多个音频对象的第一集合的第一音频信息，和描述第二音频对象类型的一个或多个音频对象的第二集合的第二音频信息，其中，所述第二音频信息为以组合方式描述所述第二音频对象类型的所述音频对象的音频信息；以及

根据所述对象相关的参数信息处理所述第二音频信息，以获得所述第二音频信息的已处理的版本；以及

组合所述第一音频信息与所述第二音频信息的已处理的版本，以获得所述上混信号表示型态；

根据与通过所述下混信号表示型态所表示的音频对象子集相关联的剩余信息提供所述上混信号表示型态，

其中，根据所述下混信号表示型态及使用所述剩余信息来分解所述下混信号表示型态，以提供描述与剩余信息相关联的第一音频对象类型的一个或多个音频对象的第一集合的所述第一音频信息，和描述并未与剩余信息相关联的第二音频对象类型的一个或多个音频对象的第二集合的所述第二音频信息；

其中，考虑与所述第二音频对象类型的多于两个的音频对象相关联的对象相关的参数信息，执行所述第二音频对象类型的音频对象的单独对象处理；以及