CN103119846B

CN103119846B - 利用对白水平归一化对音频流进行混合

Info

Publication number: CN103119846B
Application number: CN201180045923.3A
Authority: CN
Inventors: 亚历山大·格罗舍尔; 菲利普·A·威廉斯; 雅雷·A·库柏; 沃尔夫冈·A·席尔德巴赫
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2010-09-22
Filing date: 2011-09-06
Publication date: 2016-03-30
Anticipated expiration: 2031-09-06
Also published as: US20130170672A1; HK1186585A1; CN103119846A; JP2013543599A; EP2619904B1; EP2619904A1; CA2809040A1; KR20130060334A; AU2011305913A1; UA105590C2; CA2809040C; ES2502468T3; BR112013005958B1; BR112013005958A2; MY168735A; MX2013002878A; KR101538623B1; IL224868A; SG188470A1; AU2011305913B2

Abstract

一种用于对音频信号进行混合的方法，该方法通过相对于主导信号调节非主导信号的声音水平来将主导信号的声音水平在混合中维持恒定以保持混合信号的一致感知声音水平。该方法还包括接收指示主信号和关联信号之间的可调平衡的混合平衡输入。该方法还包括根据混合平衡输入和混合元数据来识别主导信号，根据混合元数据，还可以直接根据缩放信息来确定用于非主导信号的适当的缩放因子，而不需要对要混合的音频信号进行任何分析或测量。该方法还包括相对于主导信号对非主导信号进行缩放以及将经缩放的非主导信号与主导信号组合成混合信号。

Description

利用对白水平归一化对音频流进行混合

相关申请的交叉引用

本申请要求于2010年9月22日提交的美国专利临时申请第61/385,428号的优先权，其全部内容通过引用合并到本文中。

技术领域

本申请涉及音频信号领域。具体地，涉及音频信号的混合。

背景技术

将元数据随音频信号包含在一起使得对用户收听体验方面有了显著的提升。对于舒适的用户体验，一般期望不同节目的一般声音水平（soundlevel）或响度是一致的。然而，不同节目的音频信号通常源于不同的源、由不同的制作者进行控制并且可以包含多样的内容：从语音对白到音乐再到具有低频效果的电影配乐。声音水平的变化的该可能性使得在回放期间跨越这些各种节目而维持相同的一般声音水平具有挑战性。实际上，收听者不期望感觉有以下需要：当从一个节目切换到另一个节目的时候，由于不同的节目的感知声音水平不同而调节回放音量以将一个节目相对于另一个节目调节至较大声或较安静。改变音频信号以维持节目之间的一致声音水平的技术一般被称为信号校平（signalleveling）。在对白音轨的上下文中，关于感知声音水平的测量被称为对白水平，其基于音频信号的加权平均水平。通常利用指示相对于数字满刻度的分贝（dB）水平的对白归一化（dialnorm）参数来指定对白水平。

在过去，处理音频信号的广播方对于诸如电影配音（soundtrack）的下述音频信号存在特别的问题，该音频信号的音频水平在其他节目的音频水平上下浮动，尤其是那些可以随着时间的推移而发生显著变化的音频，例如对白。随着数字音频、多声道音频以及特别是将元数据与音频信号包括在一起的能力的发展，制作者和音频工程师现在有广泛的选择来指定设置，该设置可以作为元数据嵌入在信号中，以精确地指定各种回放系统的回放水平。这些设置甚至可以在后期制作阶段提供，因此广播方可以传递非常一致的音频信号并且确保最重要的音频元素传达到最终用户。

类似地，当对音频信号进行混合时，对于舒适的用户体验，还期望在将音频输入信号混合为单个信号时也保持相同的感知声音水平。实现此目标的一种技术是使得输入信号包括指定对信号进行混合时应该如何对信号进行缩放的混合元数据。

很多当前的音频标准允许内容制作者将与主音频信号耦合的关联音频信号包括在内，包括随关联音频信号一起的时变元数据。例如，内容制作者可以使用这种关联音频信号提供具有导演解说的轨道。伴随关联信号的元数据精确地指定内容制作者希望在组合回放的混合期间如何对主轨道的音频信号进行调节。例如，E-AC-3（杜比数字+）和高效高级音频编码（HE-AAC）是提供这种混合元数据的标准的两个例子。有关详细信息，参见描述E-AC-3的“ETSITS102366v1.2.1(2008-08):DigitalAudioCompression(AC-3,Enhanced-AC-3)Standard”，或参见描述高效高级音频编码（HE-AAC）的“ETSITS101154V1.9.1(2009-09):DigitalVideoBroadcasting(DVB);SpecificationfortheuseofVideoandAudioCodinginBroadcastingApplicationsbasedontheMPEG-2TransportStream”。两者的全部内容都通过引用合并到本文中。

然而，用户可能希望偏离随关联信号一起发送的元数据所指定的制作者提供的设置。例如，看电影的同时激活导演解说的用户在回放期间的某些点上可以决定其宁愿听到制作者为了不覆盖导演解说而可能在元数据中指示在混合过程中要被衰减的原始对白。

因而，需要提供以下调节：在使得用户能够调节输入音频信号的混合的同时还通过维持混合信号的感知声音水平来提供舒适的用户体验。此外，还需要提供以下调节：在即使来自元数据的缩放信息和外部用户输入可能随时间变化的情况下，在对输入音频信号进行混合的同时维持混合信号的一致感知声音水平，使得不需要对混合信号进行另外的校平。

发明内容

对混合元数据的使用使得内容制作者能够精确地控制和指定在回放期间应该如何组合信号。从而，能够在通过由元数据提供的缩放信息进行混合之前对输入音频信号的声音水平或对白水平进行归一化，以适当地对输入到混合器的每个信号进行缩放来实现一致的感知声音水平。以这种方式，通过与信号一起提供的元数据中所包含的缩放信息来在混合期间对构成混合信号的每个输入信号的相对水平进行控制。实际上，此技术通常涉及对要被混合的一个主信号和一个或更多个关联信号的识别。顾名思义，主信号是标准信号，而关联信号是与其各自的主信号以某种方式有关的信号。因此，在对主信号和关联信号进行混合时，元数据则提供主信号相对于关联信号的缩放信息。

例如，通常作为特殊功能，制作者可以包括作为与电影一起的关联信号的“导演解说”音轨，在其中用户可以听见实时覆盖在电影上的导演解说。从而，用户可以观看同时具有导演解说和带有原始音频的电影。在回放期间，这种关联信号往往例如在如机顶盒的终端用户装置上与原始电影的主音频信号进行混合。然而，电影的主音频信号的其他对白、效果以及音乐可能非常大声从而掩盖了关联音频。因而，有时通常期望减小或衰减电影的主音频信号以使得导演解说能够超过主音频而被正确地理解。例如，可以通过提供伴随附加关联音频信号的元数据来完成主音频信号的衰减，其中元数据精确地指定衰减主信号的方式和程度。

此外，可能需要该衰减是时变的。例如，在动作电影中，在非常大声的场景期间，当对信号进行混合时大幅度地衰减主音频信号可能是必需的，上述非常大声的场景可能包括该主音频信号可以包括例如带有刺耳的轮胎声的高速行驶的汽车或爆炸的飞机和导弹等方面，在上述场景中，终端用户很难从关联信号中听清楚导演解说。例如，导演可能想说明动作场景中的大爆炸是如何完成的，包括导线和专用远程摄像机，以及各方面是如何同步的，全部解说都是在场景在背景中运行时进行的。这种情况下，内容制作者可能甚至希望在仍旧保持对白的一般声音水平的同时更大幅度地衰减低频效果。换句话说，某些种类的主音频的高声音水平有时可以阻碍导演解说。其他时候，例如电影中安静亲密的场景，导演可以希望保持电影的满声音水平，例如使得终端用户可以准确地听见电影的关键场景中重要消息的耳语。

然而，用户可能想要调节由内容制作者提供的设置的能力。例如，观看带有激活的导演解说的电影的用户在回放期间的某些点可以决定其宁愿更注重听原始对白、音乐、声音和效果而不是导演解说。然而，因为制作者的元数据设置可能指示在混合过程中主信号应该被大幅度地衰减以不覆盖导演解说，所以用户没有直接的方法来修改由内容制作者提供的混合设置（用户当然可以增大音量以更好的听到被衰减的声音，但是随之而来的不期望的影响是其他未衰减的声音也会变的更大声）。因而，需要提供一种定制输入信号的混合的方法。

为了实现该功能，可以为用户提供输入控制以调整主信号和关联信号之间的平衡。然而，因为混合明显地影响声音水平，所以在没有进一步测量的情况下可以在处理过程中容易地去调节（de-adjust）声音水平，从而导致当从具有由用户输入调整的混合信号的节目切换至具有未混合的音频信号的节目时响度跳变。此外，因为元数据和用户输入可能都是时变的，如果不小心处理，混合信号的感知声音水平也可能是时变的。因而，还需要在混合期间对主输入信号和关联输入信号进行缩放，以使得节目的混合信号的感知声音水平保持恒定。

根据一个方面，公开了一种方法，该方法能够通过将主导信号的声音水平在混合中保持恒定以及调节非主导信号相对于主导信号的声音水平来维持混合信号的一致感知声音水平。该方法还包括接收指示主信号和关联信号之间可调平衡的混合平衡输入。该方法还包括基于混合平衡输入和混合元数据来识别主导信号。该方法还可以进一步包括在不需要对要被混合的音频信号的进行任何分析或测量的情况下直接根据缩放信息确定非主导信号的合适的缩放因子。因为这些技术不要求音频信号的任何分析或测量，所以与必须对信号进行采样或执行计算密集的计算的硬件系统相比，实现该技术所要求的硬件可以简单得多。同样地，因为不必动态地采样或分析大量数据就可得到全部数据，所以可以相对容易地实现实时混合。

根据该第一方面，提供了将两个输入音频信号混合为具有一致感知声音水平的单个混合音频信号的方法。该混合方法的第一步骤涉及接收主输入音频信号、接收关联输入音频信号、接收包含缩放信息的混合元数据以及接收指示主信号和关联信号之间的可调平衡的混合平衡输入。根据这些输入，基于混合元数据提供的缩放信息和混合平衡输入来识别主导信号。然后相对于主导信号来对非主导信号进行缩放。最终，将主导信号与经缩放的非主导信号组合为混合信号。因而，通过使用混合平衡输入，该方法通过使得用户能够选择主导信号以及非主导信号相对于主导信号的缩放水平来使得用户能够影响混合，同时通过相对于主导信号对非主导信号进行缩放来将混合信号的感知声音水平保持恒定。

根据另一个方面，可以通过信号的加权平均水平来表示声音水平。还可以将声音水平表示为信号的对白水平。因而，该方法可以涉及将两个输入音频信号混合为具有一致感知对白水平的单个混合音频信号。此外，可以通过与每个信号相关联的对白归一化值来测量对白水平。通常将对白归一化设置为用于控制解码器增益的元数据参数。根据标准文献ETSITS102366v1.2.1，“对白归一化”元数据参数是范围从1至31（保留0值）的5位码。该码应该被解释为相对于满刻度的范围从-1dB至-31dB的水平。根据对白归一化元数据参数，可以确定缩放因子。该缩放因子相当于（31-对白归一化）dB。因而，当对白归一化值1指示缩放因子为-30dB时，对白归一化值31指示缩放因子为0dB。简而言之，对白归一化是从31至1的整数值，其中值31指示解码器增益保持为1，而值1指示要将解码器增益减小30dB。

假设主导信号的声音水平保持一致，则非主导信号的水平的任何变化将较不明显，而混合信号的感知声音水平以及感知对白水平应该保持一致。优选地，应该适当地对输入信号进行归一化。此外，当进行混合时，应该关注输入信号的内容对白归一化以保持一致的感知对白水平。为得到最佳结果，应该适当地设置输入信号的内容对白归一化，通常设置为指示单位增益的对白归一化值31。然而，不需要总是将对白归一化设置为31，而优选地，对白归一化应该已经应用于两个输入信号。在混合期间，通常不对主导信号进行缩放，而通过所确定的缩放因子对非主导输入信号进行缩放。因此，在给出来自混合元数据的缩放信息和混合平衡输入的情况下，在根据该方法对对白音频进行混合后，主导信号的对白水平将会保持一致而非主导信号相对于主导信号的对白水平将会是适当的。

根据另一个方面，混合平衡输入还可以包括提供从非常大的负值到非常大的正值的值的外部用户输入，从而在混合处理期间使得混合以期望的量偏爱关联信号或主信号。一般地，混合平衡输入可以是正实数或负实数。此混合平衡输入使得用户在混合两个输入信号时能够如所期望的来调节所关注的期望信号。此外，混合平衡输入使得用户能够精确地指定在混合过程中非主导信号相对于主导信号的衰减，通常使得用户能够从不衰减至完全衰减的完整范围中选择。本文所描述的方法的应用使得用户能够将混合结果平滑地从主信号的完全衰减切换到关联信号的完全衰减。

根据一个方面，该方法还可以包括确定用于对非主导信号进行缩放的缩放因子的步骤，其中，直接根据混合元数据中包含的缩放信息和混合平衡输入来确定该缩放因子。该方法于是还可以包括利用所确定的缩放因子对非主导信号进行缩放。此外，混合元数据可以包括指示相对于关联信号对主信号进行缩放的缩放因子的主信号的元数据缩放因子，并且混合元数据可以可选地包括指示用于相对于主信号对关联信号进行缩放的缩放因子的关联信号的元数据缩放因子。缩放因子还可以包括dB值。因为信号的参考声音水平通常指定为对白归一化设置31，所以为得到最佳结果，输入信号也应该具有对白归一化设置31。

该方法也还可以包括通过执行以下比较来识别主导信号的步骤，假设没有关联信号的元数据缩放因子：在混合平衡输入的值大于来自混合元数据的主信号的元数据缩放因子的情况下，将关联信号确定为主导信号；否则将主信号确定为主导信号。如果将关联信号识别为主导信号，该方法还包括确定主信号的缩放因子，该缩放因子被计算为来自混合元数据的主信号的元数据缩放因子和混合平衡输入的差。可替代地，如果将主信号识别为主导信号，该方法还包括确定关联信号的缩放因子，该缩放因子被计算为混合平衡输入和主信号的来自混合元数据的元数据缩放因子的差。

在也存在关联信号的元数据缩放因子的情况下，该方法也还可以包括通过执行以下比较来识别主导信号的步骤。可以通过从主信号的元数据缩放因子中减去关联信号的元数据缩放因子来通过来自混合元数据的关联信号的元数据缩放因子调节来自混合元数据的主信号的元数据缩放因子。在混合平衡输入的值大于经调节缩放因子的情况下，则将关联信号确定为主导信号；否则将主信号确定为主导信号。如果将关联信号识别为主导信号，该方法还可以包括确定主信号的缩放因子，该缩放因子被计算为经调节缩放因子和混合平衡输入之间的差。可替代地，如果将主信号识别为主导信号，则该方法还可以包括确定关联信号的缩放因子，该缩放因子被计算为混合平衡输入和经调节缩放因子之间的差。

通过基于哪个信号被确定为主导信号来确定非主导信号的缩放因子并且对输入信号进行混合，能够在将混合信号的感知声音水平保持为恒定的同时仍然允许对关注信号的调节以及非主导信号的相应的缩放两者。换言之，信号中的至少之一始终是作为关注信号的主导信号。因为一般不对主导信号进行缩放，所以无论基于混合平衡输入和元数据提供的混合缩放因子的组合相对于主导信号将非主导信号衰减了多少，相对于其他节目而言，维持了混合信号的声音水平。

在某些情况下，输入信号可以由多个声道的音频数据组成。在替代的实施方式中，可以针对主输入信号的每个声道来确定单独的缩放因子。于是在混合期间可以通过非主导信号的每个声道的相应确定的缩放因子对非主导信号的每个声道进行缩放，并且如在前一实施方式中那样，保持主导信号不被缩放。因而，信号还可以包括多个声道，其中混合元数据于是还可以包括主信号相对于关联信号的主要元数据缩放因子和主信号的每个声道的关于关联信号的元数据缩放因子。

信号的多个声道可以包括具有左、右、中置、左环绕、右环绕和低频效果（LFE）声道的环绕声道。例如，多个声道可以包括5.1多声道信号、3.1多声道信号、13.1多声道信号或其他多声道信号。

对于包括低频效果（LFE）声道的多声道信号，该方法还可以包括将LFE声道的缩放因子计算为LFE元数据缩放因子和主信号的其他声道的最大元数据缩放因子中的最小值。此特征旨在阻止LFE声道太过强烈地主导混合信号。

对于包括多个声道的输入信号特别有用的是，该方法还可以包括如下根据混合平衡输入和主信号的元数据缩放因子以及关联信号的元数据缩放因子来识别主导信号。该方法涉及将最大次要元数据缩放因子确定为主信号的除低频效果（LFE）声道外的全部声道的全部元数据缩放因子中的最大值。因而，LFE声道如果存在，也不用于确定最大次要元数据缩放因子。该方法还包括计算该最大次要元数据缩放因子和主信号的主要元数据缩放因子的和。然后，如果混合平衡输入值大于该和，则将关联信号确定为主导信号；否则，将主信号确定为主导信号。可替代地，在关联信号的元数据缩放因子也存在的情况下，上面对主导信号的确定是通过比较混合平衡输入是否大于该和而小于关联信号的元数据缩放因子来确定的。

此外，在将关联信号确定为主导信号的情况下，该方法还包括计算主信号的每个声道的缩放因子，该缩放因子被计算为主信号的主要元数据缩放因子加上对应的主声道的元数据缩放因子减去混合平衡输入。

在将主信号确定为主导信号以及没有关联信号的元数据缩放因子的情况下，该方法还可以包括确定关联信号的缩放因子，该缩放因子被计算为混合平衡输入的值减去主信号的主要元数据缩放因子与最大次要元数据缩放因子的和，该最大次要元数据缩放因子是主信号的除低频效果（LFE）声道（如果存在LFE声道）之外的全部声道的全部元数据缩放因子中的最大值。

在将主信号确定为主导信号以及存在关联信号的元数据缩放因子的情况下，该方法还可以包括确定关联信号的缩放因子，该缩放因子被计算为混合平衡输入的值加上关联信号的元数据缩放因子减去主信号的主要元数据缩放因子和最大次要元数据缩放因子的和，该最大次要元数据缩放因子是主信号的除低频效果（LFE）声道（如果存在LFE声道）之外的全部声道的全部元数据缩放因子中的最大值。

该方法还可以包括确定主信号的每个声道的缩放因子，该缩放因子被计算为主声道的主要缩放因子加上主声道的缩放因子减去主要主缩放因子与最大次要元数据缩放因子的和，所述次要最大元数据缩放因子是主信号的除低频效果（LFE）声道（如果存在LFE声道）之外的全部声道的全部元数据缩放因子中的最大值。

根据另外的方面，信号可以包括杜比数字+（DD+）或杜比脉冲信号。同样地，信号可以被编码为E-AC-3、MPEG-4HE-AAC、aacPlus、AC-3、MPEG-1Layer2、MPEG-4AAC、MPEG-4音频信号的任何派生信号或其他类似的音频编码格式。从而，元数据可以包括用于混合DD+信号的ES（基本流）水平混合元数据，例如根据ETSITS102366V1.2.1Ch.E.1.2.2.的混合元数据。该ES水平元数据还可以包括多声道信号的各声道的缩放因子：extpgmscl、extpgmlscl、extpgmrscl、extpgmcscl、extpgmlsscl、extpgmrsscl、extpgmlfescl，分别对应于主要缩放因子和左声道的缩放因子、右声道的缩放因子、中置声道的缩放因子、左环绕声道的缩放因子、右环绕声道的缩放因子以及低频效果（LFE）声道的缩放因子。可选地，ES水平元数据还可以包括panmean值。可选地，ES水平元数据还可以包括对应于关联信号的缩放因子的pgmscl值。在与DD+信号有关的很多情况下，虽然各种元数据标准和实施在变化，但是可以使用关联信号对混合元数据进行编码或将混合元数据嵌入在关联信号中。例如，混合数据与MPEG-4HE-AAC一起传播但不是严格地在位于该音频数据内。因此，上述技术的应用不应该仅限于混合元数据被包含在关联信号中的情况。

根据另一个方面，元数据可以包括用于对脉冲/HE-AAC信号以及E-AC-3音频信号、MPEG-4HE-AAC音频信号、aacPlus音频信号、AC-3音频信号、MPEG-1Layer2音频信号、MPEG-4AAC音频信号或MPEG-4音频信号的任意派生信号进行混合的PES（打包基本流）水平混合元数据，例如，根据ETSITS101154V1.9.1AnnexE2的混合元数据。该PES水平元数据还可以包括多声道信号的各声道的缩放因子：AD-fade-byte、AD-gain-byte-center、AD-gain-byte-front、AD-gain-byte-surround或AD-pan-byte，分别对应于主要缩放因子和中心的缩放因子、前置的缩放因子、环绕的缩放因子以及平移（pan）。在涉及脉冲信号的很多情况下，混合元数据可以直接与关联信号相关联。例如，混合元数据和关联信号可以在同一流中或相关流中一起传输。然而，本文所述技术的应用不应该以任何方式限于这些情况，并且所述技术只要求接收提供主信号相对于关联信号的缩放信息的混合元数据。

根据另一个方面，该方法还可以包括以下限制：除非关联信号为单声道，否则关联信号不包括没有出现在主信号中的声道。例如，单声道信号可以由指示该信号仅具有中心声道的“音频编码模式”或acmod值1来指示。尽管如此，关联信号还可以包括单声道和LFE声道，其中将关联信号的LFE声道与主信号的LFE声道混合，并且将关联信号的单声道在主信号的主声道上进行平移，其中平移涉及根据指定应该如何分配信号的值例如“panmean”值，来将信号划分或分配至多个声道上。

根据另一个方面，当主声道不是单声道并且从而具有左声道和右声道而关联信号为单声道（即，没有立体、环绕或左右成分）时，关联信号的元数据还可以包括平移元数据信息。例如，这种平移元数据信息可以由混合元数据中的元数据键“panmean”来提供。该方法于是包括使用平移值来将单声道关联信号平移至对应的混合信号的左声道和右声道上，其中panmean值指定可以根据其来计算每个声道的缩放因子的方向。ETSITS102366v1.2.1标准的章节“E.4.3.5Panning”还提供了应用panmean值的细节。根据本说明书，panmean确定声道关联信号要出现在经解码的主信号的“空间”内的有效角，0度为中心，正负90度指示完全平移到左侧或右侧。平移可以应用于如3.1、5.1和13.1等各种多声道信号。panmean的精确范围是0到239，表示以1.5度为步长从0到358.5度，并且其中0度是中心扬声器的方向。例如，会使用以下缩放因子对5.1多声道信号的5个非LFE声道应用panmean值121：0.078左,0.997中心,0右,0.734左环绕以及0.679右环绕。

在又一种替代的实施方式中，另外的缩放因子可以应用于主导信号。可以根据元数据、根据另外的输入控制或根据混合装置中的固定值来确定该缩放因子。然而，也可以根据对输入信号的实时分析来确定该缩放因子以更进一步改善对恒定感知声音水平的保持。另一种替代方案是根据位流元数据例如利用对白归一化来得出另外的缩放因子。在某些情况下，缩放因子为1，这使得根据本实施方式的混合信号输出与先前实施方式的输出相同。然而，在其他情况下，缩放因子不为1，并且根据本实施方式的混合信号输出会与先前实施方式的输出不同。然而，无论使用哪种实施方式，主导流的对白水平会保持一致，以确保混合信号的感知对白水平保持一致。从而，根据另一个方面，还可以通过对主导信号应用缩放因子来对主导信号进行缩放。例如，主导信号的该另外的缩放可以用来当输入信号在混合前没有被归一化时考虑在混合装置内集成对输入音频信号的归一化。

根据另一个方面，该方法还可以包括验证输入信号的内容对白归一化被适当地设置并且在不满足此条件的情况下可能提供指示的步骤。

根据另一个方面，还提供了应用上述对信号进行混合的方法的信号混合装置。类似地，还提供了应用上述对信号进行混合的方法的解码器。

根据另一个方面，还提供了存储执行任何上述方法的步骤的计算机可读指令的处理器可读存储介质。类似地，还提供了一种包括可执行指令的处理器可读程序产品，当在处理器上执行上述可执行指令时，上述可执行指令用于执行上述任何方法。

根据另一个方面，还提供了用于将输入音频信号混合为具有一致感知声音水平的单个混合音频信号。该装置包括用于接收主输入音频信号、关联输入音频信号以及带有缩放信息的混合元数据的接收器。该装置还包括指示主信号与关联信号之间的可调节平衡的混合平衡输入。该装置还包括配置为识别主导信号、对输入信号进行缩放以及将信号组合为混合信号的混合器。通过分析混合元数据提供的缩放信息以及混合平衡输入来识别主导信号，并且相对于主导信号对非主导信号进行缩放。此外，还提供了用于将输入的音频信号混合为具有一致感知声音水平的单个混合音频信号的装置，其中直接根据来自混合元数据的缩放信息以及混合平衡输入来确定非主导信号的缩放因子。利用所确定的缩放因子对非主导信号进行缩放，并且将主导信号与经缩放的非主导信号组合为混合信号。

根据另一个方面，提供了将输入音频信号混合为具有一致感知声音水平的单个混合音频信号的装置，该装置还被配置为接收与关联输入音频信号集成在一起的混合元数据。该装置的混合平衡输入还可以包括提供从非常大的负值到非常大的正值的值的外部用户输入。该装置的接收器还可以配置为接收多声道信号，其中混合单元被配置为对多声道信号进行混合。

设计上述技术以保持混合信号的一致感知声音水平。因为这些技术也可以被描述为信号校平，所以对信号进行缩放的上述技术还可以被视为信号水平的校平和调节。因此，为了基于上述技术所实现的结果来概括对信号进行混合的方法的主题，应该对输入信号进行缩放以使得主信号的缩放和关联信号的缩放之间的结果缩放水平差本质上是主信号的混合元数据缩放因子与混合平衡输入值的总和。同样，如果存在关联信号的混合元数据缩放因子，那么主信号的缩放和关联信号的缩放之间的结果缩放水平差本质上是主信号的混合元数据缩放因子和关联信号的混合元数据缩放因子的差与混合平衡输入值的总和。

利用上述方法，内容作者能够随时影响主信号和关联信号之间的水平差。因此，终端用户也能够随时影响主信号和关联信号之间的水平差。此外，当混合平衡输入处于中立设置0时，按照内容作者所指定的来精确地对信号进行混合。本文描述的技术贯穿混合平衡输入的范围来提供平滑控制，上述范围从作为唯一信号的主信号（其中关联信号被完全衰减）一直到关联信号是在回放中出现的唯一信号的另一个极端（其中主信号被完全衰减）。尽管如此，主导信号被校平，意味着无论混合元数据或混合平衡输入的值如何，当切换至另一节目或从另一节目切换时收听者都不应该感知到声音水平的显著变化。因而，对于对白音频，由于主导对白与主导信号相关联，所以用户可以选择关注对白并且主导对白总是被校平。

包括如本专利申请中概述的示例和实施方式的方法和装置可以独立使用或与本文献中公开的其他方法和装置结合使用。而且，本专利申请中概述的方法和装置的全部方面可以进行任意组合。特别是，对于本领域技术人员来说显而易见地，权利要求的特征可以以任意的方式相互组合。

附图说明

下面参照附图通过使用示例对本发明进行说明，其中示例由以下附图示出：

图1A：示出不同音频节目的声音水平。

图1B：示出不同音频节目在校平后的声音水平。

图2：示出具有混合器的机顶盒的框图。

图3：示出对主导信号进行识别并且对输入信号进行混合的过程图。

图4：示出对主导信号进行识别以及混合的流程图。

图5A：示出混合元数据缩放因子为-10dB的情况下主信号和关联信号的缩放因子的曲线图。

图5B：示出在混合平衡输入为+5dB的情况下对图5A的混合元数据缩放因子为-10dB情况下的主信号和关联信号的缩放因子进行读取的示例。

图5C：示出在混合平衡输入为-15dB的情况下对图5A的混合元数据缩放因子=-10dB情况下的主信号和关联信号的缩放因子进行读取的示例。

图6：示出5.1多声道信号的混合的信号框图。

图7A：示出对5.1多声道信号进行混合的示例的流程图。

图7B：示出针对图7的步骤703的用于确定LFE声道的缩放因子的流程图。

图8：示出用于对5.1多声道主信号与1.1关联信号（单声道+LFE）进行混合的信号框图。

具体实施方式

将音频元数据嵌入到数字音频流例如数字广播环境中是一个常见概念。这种元数据是“关于数据的数据”，即关于流中数字音频的数据。元数据可以向音频解码器提供关于如何再现音频的信息。这种元数据通常与数字音频位流一起发送。该元数据为内容制作者提供了空前的能力以将最高质量的音频递送给在一系列收听环境中的消费者。也提供了允许消费者调节其设置以最佳地适应其收听环境的选择。

本文描述的技术可以应用于大范围的音频信号格式和编码方案。为了应用该方法，信号只需具有伴随着音频信号的提供混合信息的元数据。输入信号可以是单声道，但常常会具有多个声道，例如，公知的5.1多声道信号具有6个声道：左、右、中心、左环绕、右环绕以及LFE（低频效果）。允许这样的混合元数据的这样的音频信号格式的两个示例是杜比数字+（DD+或E-AC-3（增强AC-3））和高效高级音频编码（HE-AAC）。

杜比数字+（DD+或E-AC-3（增强AC-3））是一种基于AC-3编解码器的增强编码系统的数字音频压缩方案。E-AC-3支持上至编码比特率为6.144Mbit/s峰值处的13个全范围音频声道。例如，文献ETSITS102366v1.2.1详细描述了DD+元数据，例如，“E1.3.1.17extpgmscl：外部节目缩放因子-6位：在某些应用中，两个比特流可以一起进行解码和混合。该字段指定在混合期间应该应用于外部节目（即，单独的位流或独立子流中携带的节目）的缩放因子。该字段使用与pgmscl相同的缩放”。最相关的混合元数据包括以下元数据键：extpgmscl、extpgmlscl、extpgmrscl、extpgmcscl、extpgmlsscl、extpgmrsscl、extpgmlfescl、pgmscl。在某些情况下，例如当关联音频信号为单声道时，还可以使用元数据键panmean。

高效高级音频编码（HE-AAC）是被定义为ISO/IEC14496-3中的MPEG-4音频配置文件（audioprofile）的数字音频的有损数据压缩方案。该方案是为例如流式音频的低比特率应用而优化的低复杂度AAC（AACLC）的扩展。HE-AAC版本1配置文件（HE-AACv1）使用谱带复制（SBR）来增强频域的压缩效率。HE-AAC版本2配置文件（HE-AACv2）将SBR与参量立体声（PS）结合来增强立体声信号的压缩效率。该方案是AACplus编解码器的标准化以及改进版本。最相关的混合元数据包括以下元数据键：AD_fade_byte、AD_gain_byte_center、AD_gain_byte_front、AD_gain_byte_surround以及AD_pan_byte。HE-AAC用于例如DAB+和数字无线电调幅联盟的数字无线电标准中。

为了充分利用其能力，内容作者或制作者应该扎实地掌握通常在制作或后期制作期间添加的音频元数据。

如背景技术部分中所述，为了保持不同节目的一致声音水平，大多数现代音频信号包括用于缩放音频信号的元数据，例如对白水平。这种缩放使得每个信号能够以允许高质量和良好压缩的同时还维持相同的声音水平的形式来适当地表示。图1a示出没有这种校平或对白水平归一化的不同节目的示例。如从图中可以看到，节目的声音水平不同，使得收听者当从一个节目切换至另一个节目时可以感知不同的声音水平。图1a示出例如在用户切换频道或在t0、t1、t2和t3时刻发送新节目的情况下，4个不同的节目S1、S2、S3和S4的声音水平。横轴示出时间的前进而纵轴示出声音水平。水平线A1示出从时间t0运行至时间t1的节目S1的声音水平。水平线A2、A3和A4类似地分别示出从时间t1运行至t2、t2运行至t3以及t3运行至t4的节目S2、S3和S4的声音水平。可以看出，声音水平A1高于声音水平A2、A3以及A4。

为校正声音水平的这种差异，将节目信号校平，或缩放为共用基准水平。因而，图1b示出校平为共用基准声音水平后的节目信号。信号的基准声音水平通常表示为在元数据中常常指定为对白归一化设置31的加权平均水平。如在图1b中可以看出，声音水平Al'、A2'、A3'以及A4'全部相同。因而，用户在节目之间切换时感受不到显著的声音水平变化。

很多新的音频信号格式现在也考虑将一个或更多个关联信号与主信号一起分组。可以基于装置设置或用户选择来例如在回放期间激活这些音频信号。通常，该激活涉及将关联信号与其相应的主信号进行组合。将信号组合成一个信号的该组合被称为混合。例如，制作者可以在例如DVD视频上的电影配音上设置导演解说轨道。收听者于是可以使用机顶盒或DVD播放器来激活该关联轨道，从而将该关联轨道与主信号进行叠加和混合。为了保持与其他节目相同的感知声音水平，这种关联信号通常包含指定应该如何混合信号的元数据。该混合元数据通过提供如何对信号进行混合的具体细节，常常也包括指定对多声道信号进行混合的细节的选项，以使得制作者能够精确地控制信号的混合。

虽然混合元数据描述了制作者预想的混合水平，但是有时收听者可能具有关于应该如何混合信号的不同希望。从而，收听者可以决定其想要其他信号作为“关注对白”。因而，“关注对白”是应该在混合信号中占主导地位的信号。然而，此“关注对白”具有一定的主观性。内容作者具有哪个信号应该被关注的想法，但是用户也期望对哪个信号应该被关注进行一定的控制。根据本申请的的教示，可以通过提供用于调节主信号和关联信号的混合的混合平衡控制输入来实现“用户关注”的指示。

从而，对于用户想要通过调节混合信号调节来偏离由元数据指定的信号加权以偏爱一个信号或另一个信号的情况下，实施方式包括提供混合平衡输入以使得能够进行混合平衡输入的输入。该混合平衡控制使得用户能够指示信号之一应该更多地存在于混合信号中以及该信号应该以何种程度占优。另外，此混合平衡输入给了用户对关注信号的即时控制。在标准位置中，混合平衡控制是中立的，其指示应该按照元数据所指定的来进行混合。当混合平衡控制向一个方向（在此实施方式中，向负方向）转动时，使得主信号相对于关联信号较大声。当平衡控制向另一方向（在此实施方式中，向正方向）转动时，使得关联信号相对于主信号较大声。

然而，当使用这种混合平衡控制或混合平衡输入来增大或减小主信号及关联信号的水平时，很可能会因此而改变混合信号的声音水平或感知对白水平。因而，在具有和不具有激活的关联信号的节目之间的切换很可能再次导致如图1a中描述的那种不期望的情形。因而，需要提供一种在混合平衡输入的影响下对关联信号和主信号进行混合的技术，以使得还能将混合信号的感知声音水平保持恒定。

本文描述的技术可以以很多实施方式来实现，例如机顶盒、便携式或非便携式音频播放器、混合装置、DVD播放器、电视、智能手机或用于计算机系统的TV接收装置。此外，可以用硬件系统和软件系统的组合来实现各个方面。将基于包括根据本文描述的技术的混合器的机顶盒来更加详细地描述一个具体实施方式的各部件。图2中示出该具体化机顶盒。机顶盒200包括接收器209、混合器204以及处理器205。虽然此示例以这些部件来示出，但是本文描述的技术的应用不应限于此确切的配置。例如，接收器209可以集成在混合器204中；此外，机顶盒200不需要处理器，这是因为该功能可以由传统的电子电路来执行。在此示例中，机顶盒200的接收器209被配置为接收主输入信号201和关联输入音频信号202，包括相应的元数据。在某些情况下，可能需要进一步适配接收器以接收可以单独传输或编码的混合元数据。如必要的话，可以进一步配置接收器209以根据对信号的编码来对输入信号201、202以及相应的混合元数据202a进行解码。另外，机顶盒200和混合器204还被配置为接收混合平衡控制输入203。可选地，接收器209也可以被配置为对混合平衡控制输入203执行特别的解码。针对混合平衡控制输入203的另外特征和精确实现有多种选择。例如，机顶盒200可以将该输入与遥控装置链接以使得用户能够经由通过遥控装置访问的菜单来设置该混合平衡水平。当然，机顶盒200或其遥控器可以使用专用元件，例如输入拨号盘、加减键或类似的输入装置来实现混合平衡控制输入。机顶盒200和混合器204当然也可以被配置为接收作为来自另一系统或装置的信号的混合平衡输入203。在任何情况下，主导信号206是由混合器205的处理器204基于主输入信号201、关联输入音频信号202、混合元数据202a以及混合平衡控制输入203来识别的输入信号。因而，非主导信号207是没有被确定为主导信号206的另一输入信号。于是经缩放非主导信号207s是缩放后的非主导信号207。最后，主导信号206和经缩放非主导信号207s被混合为混合信号208。

图3中示出了基于图2的配置来实现音频信号的混合的目标的一个示例解决方案。因而，输入由主输入信号201、关联输入信号202和混合平衡控制输入203组成。首先，在步骤301中，由混合器204、机顶盒200和/或接收器209接收主输入信号201。在步骤302中，接收包括混合元数据202a的关联输入信号202。应该注意的是，在关联信号202中包括混合元数据202a仅用于此示例，而不应该解释为限制该技术的应用，因为其他标准和信号编码格式可以与之不同。在步骤303中，接收混合平衡输入203。这些步骤包括信号的格式可能要求的任何特别的解码。接下来，在步骤304中，来自混合元数据202a的缩放信息和混合平衡控制输入203用于根据要混合的输入信号201、202来识别主导信号206。因为不需要任何高性能的计算、测量、深入分析或对输入信号的采样，此步骤可以由普通的电子装置或电路来执行。然后，在可选步骤305中，可以直接根据混合元数据202a和混合平衡输入203来确定非主导信号207的缩放因子。在步骤306中，对非主导信号207进行缩放。在步骤305中基于混合元数据202a和混合平衡输入203确定非主导信号的缩放因子的情况下，步骤306包括根据步骤305中确定的缩放因子对非主导信号207的缩放。最终，在步骤307中，经缩放非主导信号207s与主导信号206组合为结束步骤308的混合信号。

另外的实施方式包括可选步骤305，用于直接基于混合元数据202a和混合平衡输入203来确定非主导信号207的缩放因子。图4示出该另外的实施方式的该确定的流程图。主导信号206的识别是基于混合平衡输入203和混合元数据202a进行的。在某些情况下，混合元数据还可以包含关联信号的缩放因子。如果存在此元数据值，那么可以将其用来调节用于对信号进行混合的元数据因子。因而，在可选步骤401中，可以通过从主信号的缩放因子中减去关联信号的缩放因子来调节主信号的缩放因子。在步骤402中，比较混合平衡输入203的值和经调节的元数据缩放因子。在未在步骤401中调节缩放因子的情况下，比较混合平衡输入203的值和来自混合元数据202a的主信号的缩放因子。在混合平衡输入203大于混合元数据缩放因子202a的“是”的情况下，则在步骤403y中将关联信号202确定为主导信号206而主信号201为非主导信号207。否则，在混合平衡输入203小于等于混合元数据缩放因子202a的“否”的情况下，则在步骤403n中将主信号201确定为主导信号207而关联信号202为非主导信号207。步骤403y和步骤403n后面都有然后对非主导信号207进行缩放的步骤404。在步骤405中，将主导信号206与经缩放非主导信号207s组合以形成步骤406的混合信号208。

图5示出在将关联信号202和主信号201混合时，要应用于主信号201和关联信号202的缩放因子的具体示例的曲线图。在该示例中，关联信号202的混合元数据202a的缩放因子指定应该将主信号201缩放-10dB。当主信号201与关联信号202进行混合时，用于缩放主信号201的这个-10dB的缩放因子指示在控制期间内容制作者设置的期望混合关系。图5的横轴示出从负无穷变化至正无穷的混合平衡输入203。纵轴自下至上指示以dB为单位从-∞dB到0dB的缩放因子。图5的两个曲线图示出针对混合平衡输入从-∞dB到+∞dB的全部值（混合平衡输入的值在横轴上）绘制的两个输入信号的缩放因子。一个用虚线而另一个用点线的两个线图分别表示主信号201的缩放因子和关联信号202的缩放因子。因而，用虚线的曲线图501a、501b示出主信号而用点线的曲线图502a、502b示出关联信号。可以看出，当混合平衡输入203处于其中立设置即0dB时，平衡输入203无效而且缩放因子如元数据202a中所指定的：在此示例中，指定的元数据缩放因子为-10dB，其指示主信号相对于关联信号的衰减量，因此关联信号202为主导信号206并且不被缩放，而对主信号201根据元数据缩放因子-10dB进行缩放。然而，如从图中可看出的，如果平衡输入203比混合元数据缩放因子更负向，即小于-10dB，那么主信号201变为主导信号206。此外，通过标签501a、501b和502a、502b来进一步在图5中指示输入信号中的哪个是主导信号，其中水平线501a在主输入信号201为主导信号206时表示主输入信号201，对角线501b在主输入信号201为非主导信号207时表示主输入信号201，横线502b在关联输入信号202为主导信号206时表示关联输入信号202，并且对角线502a在关联输入信号202为非主导信号207时表示关联输入信号202。

对于读取图5中的情况的缩放因子的具体示例，图5a示出对于混合平衡输入203的值为+5dB的情况下的缩放因子，如图5中所示，主信号的混合元数据缩放因子为-10dB。根据该图，可以看出主信号201的缩放因子501a为-15dB，即-10dB-5dB=-15dB。关联信号202的缩放因子502a为0dB。因为关联信号202为主导信号206，所以预期关联信号202的缩放因子为1。因此，如果平衡输入203增加以偏爱关联信号202，那么关联信号202仍然为主导信号206，不对关联信号202进行缩放而只对主信号201进行缩放。

另一方面，图5b示出混合平衡输入203的值为-15dB的情况下的缩放因子，如图5所示，主信号的混合元数据缩放因子为-10dB。根据该图，可以看出主信号的缩放因子501b为0dB因此不对主信号201进行缩放，这是因为主信号为主导信号206并且通过-5dB即-15dB-(-10db)=-5dB的关联缩放因子502b对关联信号202进行缩放。

此外，根据图5A、5B和5C，可以看出当混合平衡输入203被设置为正无穷时，主信号201完全被衰减而关联信号202没有被缩放。相反地，当混合平衡输入203被设置为负无穷时，主信号201没有被缩放而关联信号202被完全衰减。

本文描述的方法还可以应用于对多声道信号进行混合。因为多声道信号的混合元数据可以具有很多不同的形式，这是由于普通多声道信号（例如立体声的2个声道、单声道+LFE的2个声道、3.1的4个声道、5.1的6个声道以及13.1的14个声道）可以具有2至14个不同的声道，所以这里将通过使用通用元数据键来描述该方法。实际上，本领域技术人员需要将以下列出的适合于信号使用的具体编码的通用元数据进行替换。因而，以下将使用通用术语“sclmain”、“scl[ch]”和“pan”，其中“sclmain”是主要缩放因子；“scl[ch]”是其中[ch]为声道的索引的每个单独声道的缩放因子，而“pan”是指示应该如何将各声道应用于具有不同个数的声道的混合体的可选值（例如，如何将单声道信号应用于5.1信号，例如，以单声道信号的50%在左声道上、50%在右声道上或0%在其他声道上；或着单声道信号的60%在左声道上、40%在中心声道上并且0%在右声道、LFE声道以及各环绕声道上）。

表1示出混合元数据的广义表示（对于ES和PES是共同的），其中第一列示出通用元数据键、第二列示出ES（例如，杜比数字+或DD+）的对应元数据，而第三列示出PES（例如，杜比脉冲或DVB）的对应元数据：

表1

对于以下段落和以下伪代码，表达式“pref”指示调节主信号201和关联信号202之间的平衡的混合平衡输入值203。混合平衡控制输入203值应该在[-∞…+∞]的范围内，其中-∞导致关联信号202的完全衰减；作为中立值的0导致根据混合元数据202a进行混合，而+∞导致主信号201的完全衰减。

以涉及5.1多声道主信号201和5.1多声道关联信号202为例，多声道信号的技术的应用产生以下伪代码，其中gainA和gainM[ch]分别为应用于关联信号202的有效增益或缩放因子和主信号201的各声道。

以下伪代码在dB域运行。

对输入信号的每个声道执行该伪代码。

从而，当混合平衡在其最大值+∞dB时，关联信号201为主导信号206，因此主信号201被完全衰减，并且混合信号208基本上是未缩放的关联信号202。与此相反，当混合平衡在其最小值-∞dB时，主信号201为主导信号206，因此关联信号202被完全衰减，并且混合信号208基本上是未缩放的主信号201。

应该注意的是，在该详细示例中，在主信号为主导信号的情况下，也可以稍微缩放主导信号（else子句中的行gainM[ch]=sclmain+scl[ch]–mainscltotal）。这使得该算法避免将正增益应用于可能具有DD+元数据的主信号。最终结果应该是主要的最大声的声道被限制到0dB，该结果粗略地与主导信号应该具有增益1的一般原则相匹配。

为了将该伪代码应用于具体的元数据标准，必须用适当的元数据项来替代例如scl[ch]的通用变量。因而，基于信号的具体形式，包括声道的个数、编码类型以及信号中可用的元数据，本领域技术人员能够针对具体情况映射适当地广义的元数据键。对于某些具体情况，不是全部上面列出的元数据键都会是相关的。例如，对于将两个5.1多声道信号进行混合，本领域技术人员能够将平移元数据确定为不存在或应该被忽略，因为关联信号已经包含与主信号完全相同的声道。

对于关联信号202为单声道而主信号201不是单声道的情况，平移增益可能需要应用于关联信号201。这种情况下，如果关联信号201有LFE声道，那么该LFE声道可以被像上述伪代码中所述的那样混合为scl[lfe]。

对于利用ES水平混合元数据来混合DD+，应该使用以下ES水平混合元数据键：extpgmscl,panmean,extpgmlscl,extpgmrscl,extpgmcscl,extpgmlsscl,extpgmrsscl,extpgmlfescl,pgmscl。

一般而言，在混合过程中不需要全部其他混合元数据。元数据键dmxscl可以另外地用于下混合，其中下混合是将信号映射为具有不同声道个数的形式。表示关联信号的缩放因子的元数据键pgmscl可以被另外用于在混合过程中调节主声道的元数据缩放因子。对于上述伪代码，变量sclasso表示pgmscl。根据伪代码的行：if(pref>mainscltotal-sclasso)可以看出，表示DD+中的元数据键pgmscl的sclasso因此影响确定主导信号的if比较，这是因为在与pref比较之前从mainscltotal减去了sclasso。然而，对sclasso的使用是可选的，并且如果sclasso不存在或不期望用该值，那么pref只与mainscltotal进行比较。

对于利用PES水平混合元数据来混合杜比脉冲/HE-AAC，例如在DVB中，应该使用以下ES水平混合元数据键：

AD-gain-byte-center,AD-gain-byte-front,AD-gain-byte-surround。

为得到最佳结果，

[AD-gain-byte-center+AD-fade-byte],

[AD-gain-byte-front+AD-fade-byte],

[AD-gain-byte-surround+AD-fade-byte]

中的每个的最大结果增益都不应高于+12dB，并且应该对这些有效增益以最高增益不超过12dB的方式进行归一化，同时应该保持AD-gain-byte-center,AD-gain-byte-front,AD-gain-byte-surround之间的关系，即

AD-fade-byte=min(l2dB,AD-fade-byte+max(AD-gain-byte-center,AD-gain-byte-front,AD-gain-byte-surround))。

图6示出将5.1多声道主信号610与包括混合元数据640的5.1多声道关联信号620，例如杜比数字+（DD+或E-AC-3（增强AC-3））信号，进行混合的混合器600的进一步实施方式。输入包括混合平衡输入601、主信号610和带有混合元数据640的关联信号620。在此示例中，输入主信号610和输出混合信号630都是5.1多声道信号，其包括6个声道：左、右、中心、左环绕、右环绕以及LFE（低频效果）。因而主输入信号610包括6个声道：左611、右612、中心613、左环绕614、右环绕615以及LFE（低频效果）616。关联信号620也包括6个声道：左621、右622、中心623、左环绕624、右环绕625以及LFE（低频效果）626。混合元数据640也包括主要缩放因子647和6个声道的缩放因子：左641、右642、中心643、左环绕644、右环绕645以及LFE（低频效果）646。在某些情况下，混合元数据还可以包括关联信号的缩放因子648。如果关联信号的此缩放因子不存在，那么忽略该缩放因子或以1或0dB来对待。混合器600还配置为接收来自混合平衡输入601的输入。基于混合元数据640和混合平衡输入601，每个声道的缩放因子651、652、653、654、655、656基于以上伪代码中的逻辑来确定，该逻辑也在图7A中示出，图7A是描述如何确定每个声道的缩放因子的流程图。根据混合缩放因子651、652、653、654、655、656来缩放输入信号的每个声道，其中主要的缩放发生在非主导信号上，而对主导信号只进行最低限度的缩放或根本不缩放。最终，经缩放声道信号660和670的对应声道被组合成为混合声道，于是6个混合声道631、632、633、634、635、636包括5.1混合输出信号630。从而，输出混合5.1信号630也包括6个声道：左631、右632、中心633、左环绕634、右环绕635以及LFE（低频效果）616，其中每个声道都根据图7A的逻辑进行计算。

图7A示出描述将5.1多声道输入主信号610与5.1多声道输入关联信号620进行混合的图6的示例的流程图，其中如果主信号610为主导信号206，那么也会稍微缩放主导信号206。如图6中所示，输入包括混合平衡输入601、主信号610以及带有混合元数据640的关联信号620，其中输入信号和经混合输出信号630是5.1多声道信号。因而，信号610、620、630包括6个声道并且混合元数据640包括主要缩放因子647和6个声道的缩放因子：左641、右642、中心643、左环绕644、右环绕654以及LFE（低频效果）646。在某些情况下，混合元数据640还可以包括关联信号的缩放因子sclasso648。如果sclasso648不存在或不期望在混合过程中使用sclasso648，则sclasso648取值为0dB并且不对其他缩放因子做任何调节。在步骤701中，将5个“正常声道”：左641、右642、中心643、左环绕644以及右环绕645的最大缩放因子确定为“maxscl”。然后在步骤702中，计算sclmain647和maxscl之和作为mainscltotal，其中sclmain647是混合元数据的主要缩放因子，maxscl是正常声道的缩放因子：641、642、643、644、645的最大值。图7A中对确定LFE缩放因子的步骤703进行了更详细的描述。

图7B示出提供与混合两个5.1多声道信号的图7A的示例有关的确定LFE声道的缩放因子的图7A的步骤703的细节的流程图。在步骤703a中，将LFE声道的混合元数据646与图7A的步骤701中确定的其他声道的最大缩放因子maxscl进行比较。如果LFE缩放因子646大于等于maxscl，那么在步骤703y中，将LFE声道的缩放因子gain[lfe]656确定为maxscl。否则，在否的情况下，在步骤703n中，将LFE声道的缩放因子gain[lfe]656确定为来自LFE声道的混合元数据的缩放因子646。然后在步骤703c中，根据步骤703y或步骤703n中计算的值来确定gain[lfe]656。然后将要应用于LFE声道的用于对数据进行混合的缩放因子gain[lfe]656用于图7A的步骤707n和步骤707y中。

然后，继续描述图7A，在步骤704中，将混合平衡控制输入601的值pref与mainscltotal减去sclasso648进行比较，其中sclasso648是关联信号的缩放因子。应该注意的是，sclasso648可以不存在或被忽略，在这种情况下，将pref只与mainscltotal进行比较。例如，对于DD+信号，元数据键pgmscl与sclasso648对应。如果pref602大于mainscltotal减去sclasso648，那么在步骤705y中，确定关联信号620为主导信号206。于是在步骤706y中，因为关联信号为主导信号，所以没有关联信号的增益，因此关联信号的增益为1，或0dB，指示关联信号没有被缩放。然后在步骤707y中，全部声道（左、右、中心、左环绕、右环绕以及LFE）的主信号的每个声道的增益gainM[ch]651、653、653、654、655被确定为主要缩放因子sclmain647以及正常声道的缩放因子scl[ch]641、642、643、644、645的总和减去pref602减去sclasso。对主信号的全部6个声道重复进行步骤707y中的计算。

如果步骤704中的判断结果为否，即pref602不大于mainscltotal，那么在步骤705n中，确定主信号为主导信号。然后在步骤706n中，将关联信号的增益因子gainA确定为pref602减去mainscltotal加上sclasso648。在此具体示例的特殊情况下，即使主信号610被确定为主导信号也会对主信号610进行缩放，并且主信号620的每个声道的缩放因子651、652、653、654、655、656被计算为sclmain647加上对应声道的缩放因子scl[ch]641、642、643、644、645减去mainscltotal。因而，在步骤707n中，全部声道（左、右、中心、左环绕、右环绕以及LFE）的主信号的每个声道的增益gainM[ch]651、652、653、654、655被确定为sclmain647和scl[ch]641、642、643、644、645的总和减去mainscltotal。对全部6个声道重复进行步骤707n中的计算。来自步骤706y、707y、706n和707n的增益以及输入信号620、610之后被送入步骤708，在步骤708根据所确定的缩放因子651、652、653、654、655、656对主信号611、612、613、614、615、616和关联信号621、622、623、624、625、626进行缩放。应该注意的是，在通常情况下，只对主导信号进行缩放，而在此特殊情况下，也可以对非主导信号进行缩放。然后在步骤709中，将每个声道的经缩放关联信号670和经缩放主信号660混合成为6个混合声道631、632、633、634、635、636，其中对6个声道中的每个重复执行步骤709。最终，在步骤710中，将6个混合声道631、632、633、634、635、636组合成为单个信号以包括步骤711的5.1混合输出信号630。

图8示出将5.1多声道主信号810和例如杜比数字+（DD+或E-AC-3（增强AC-3））信号的包括混合元数据840的2声道（单声道+LFE）关联信号820进行混合的混合器800的进一步实施方式。输入包括混合平衡输入801、主信号810以及带有混合元数据840的关联信号820。在此示例中，输入的主信号810和输出的混合信号830都是包括6个声道：左、右、中心、左环绕、右环绕以及LFE（低频效果）的5.1多声道信号。因而，主输入信号810包括6个声道：左811、右812、中心813、左环绕814、右环绕815以及LFE（低频效果）816。单声道+LFE关联信号820只包括两个声道：中心823和LFE（低频效果）826。混合元数据840也包括下述元数据，该元数据带有主要缩放因子847的缩放值和6个声道的缩放值：左841、右842、中心843、左环绕844、右环绕845以及LFE（低频效果）846。混合器800还被配置为从混合平衡输入801接收输入。基于混合元数据840和混合平衡控制输入801，每个声道的缩放因子：851、852、853、854、855、856基于以上伪代码中的逻辑来确定，该逻辑也在图7中示出，图7是描述如何确定每个声道的缩放因子的流程图。根据混合缩放因子，对非主导输入信号207的每个声道进行缩放，其中，通常根本不会对主导信号206进行缩放或在特殊情况下至进行最低限度的缩放。Panmean值用于将关联信号的单声道+LFE声道的单声道平移为5.1声道。Panmean是表示以1.5度为步长的0度到358.5度的从0到239的值，其中0度是中心扬声器的方向。关于应用panmean的更详细的描述，见ETSITS102366v1.2.1的“E.4.3.5Panning”部分。最终，针对每个声道将两个经缩放输入信号的6个声道对两两组合为6个混合声道831、832、833、834、835、836。于是这6个混合声道831、832、833、834、835、836包括5.1混合输出信号830。因而，输出混合5.1信号830也包括6个声道：左831、右832、中心833、左环绕834、右环绕835以及LFE（低频效果）836，其中每个声道根据图7的逻辑进行计算。

通常，虽然混合信号的声道模式在例如下混合的后续步骤中当然会发生变化，但是为得到最好的结果，混合信号的声道模式应该与解码的主音频信号相同。虽然该技术支持任意大（和小）值，但是对于大多数情况，期望混合平衡输入的值小，通常最大10dB。

在某些情况下，主信号和关联信号的声道个数可以不同。这种情况下，仍然可以应用本文所描述的技术，其中可以将输入声道中的某些映射至混合信号的声道，该混合信号的声道可以存在或不存在于输入信号中。为得到最好的结果，关联信号应该只包含主信号中也存在的声道定位，除非关联信号为单声道（acmod1），或者关联信号的声道可以被适当地映射至主信号的声道。同样，优选地，只有主信号也包含低频效果声道（LFE）时，LFE声道才应该存在于关联信号中。否则，在混合过程中应该忽略关联信号的LFE声道。同样，如果关联信号为单声道+LFE，优选地，该LFE应该被混合在主音频LFE上，并且优选地该单声道应该被平移到主音频信号的各主声道上。

通常，对于混合过程而言优选的是：对输入信号进行归一化。可以在确定主导信号之前或之后应用归一化，因为结果相同。实际上，优选的，确保输入信号的内容对白归一化值被正确设置，并且在混合之前主信号和关联信号都处于对白水平31。接着，被视为“关注信号”的主导信号的水平理想地也应该以对白归一化31从混合器输出。如果输入信号没有被归一化，那么通常在混合之前进行归一化，并且必要时对混合信号进行归一化，然而该技术也可以在不归一化的情况下应用。

当对多声道信号进行混合时，优选地，输出信号中的sch[ch]之间的关系应该被保持。然而，如果scl[lfe]具有比全部其他scl[ch]更高的值（默认为所发送的或0），那么应该对其他scl[ch]的最大值进行修改。

应该注意的是，如ETSITS101154V1.9.1的“E.2”部分和ETSITS102366V1.2.1,AnnexE.（也见DVB蓝皮书A0001r8）所定义的，对于杜比脉冲信号，混合元数据通常包括在子音频流中。不考虑元数据如何在流信号中发送或分组，只要混合元数据可用，本文所描述的技术仍然可以应用。因而，所描述的实施方式和示例可以被适当地适配为处理此种情况。

上述具有包含导演解说的关联轨道的示例仅是一个示例。然而，与信号中包含的内容无关，该技术可以应用于主信号和关联信号的任何混合体。例如，第一信号可以包含直播体育节目而第二信号提供本地解说和/或替代语言的解说。这里有信号可以被如何分布的多个可能性。例如，第一信号可以是没有解说的普通声轨而第二信号可以是本地解说。

本文描述的技术的进一步使用情况可以涉及用于听力障碍的单独轨道，其中关联信号包含特别的增强以提升对白的可理解性。类似地，作为对视觉受损的观看者的帮助，关联信号可以包含场景内容的语音讲解。

然而，本文描述的技术不仅限于对白，而也可以应用于例如音乐的所有种类的音频信号，这是因为该技术是基于感知声音水平。例如，关于音乐，关联轨道可以包含嗓音或附加的音乐的叠加乐器轨道；换句话说，主轨道可以是只记录钢琴和原声吉他的基础乐器轨道，第一关联轨道可以包含嗓音叠加，第二关联轨道包含摇滚乐与电吉他和低音吉他，而第三轨道具有带硬快速低音节拍的电子舞曲（techno）叠加。这种情况下，内容作者会有机会指定用来指定每个关联轨道要被如何混合的期望混合特征，并且本文描述的技术会允许收听者通过调整混合信号的平衡输入来定制这些设置。作为另一个例子，该技术还可以应用于音乐信号，其中不同的声道包含不同的音乐方面，例如像弦乐器或打击乐器的乐器以及声乐，其中经由元数据和混合平衡输入来对不同的声道进行混合。

本文描述的技术依赖混合信号中的主导信号的确定。因而，要被确定为主导信号的信号接收最高的合成增益。除了通过使用混合平衡输入控制来保持混合信号的恒定感知声音水平，用户还可以随时控制混合平衡。此外，增益变化也贯穿整个范围。

虽然已经通过具体的例子示出了本文描述的技术，例如包含对白轨道的混合多声道信号，但是这些技术不限于这些例子或实施方式，这是因为只要可以使用混合元数据和混合平衡输入来确定混合信号的主导信号，该技术就可以同等地应用于主信号和关联信号具有非常不同的成分的情况。

在本文档中，描述了用于混合音频信号的多种方法和配置。利用这些方法和/或例如信号混合器的装置，在允许调节主信号和关联信号之间的平衡的情况下，可以保持混合信号的一致感知声音水平。因为可以通过相对简单和基本的电子装置利用伴随输入信号的元数据实时地执行计算，所以可以不进行高性能处理或不对输入信号进行采样或分析的情况下执行该方法。

应该注意的是，描述和附图仅仅对所提出的方法和系统的原理进行了说明。因而，可以理解的是，虽然本文中没有明确描述或示出，本领域技术人员能够设计出各种配置，这些配置实施所提出的方法和系统的原理并且被看作是本文档的公开内容的一部分。此外，本文中列举所提出的方法和装置原理、方面以及实施方式及其具体示例的全部陈述旨在包含其等同方案。

此外，本文列举的全部示例主要的明确目的旨在仅用于教示目的以帮助读者理解所提出的方法和装置的原理和发明者提出的促进本领域的理念，并且应被解释为不限于这些具体列举的示例和条件。

此外，应该注意的是，本文中任何框图表示实施本发明的原理的说明性装置的概念视图。类似地，可以理解的是，任何流程图、流程图解、状态转移图、伪代码等表示各种过程，这些过程基本上可以在计算机可读取介质中表示，因此无论这些计算机或处理器是否被明确示出，都由该计算机或处理器执行这些过程。

Claims

1.一种用于将两个输入音频信号混合为单个混合音频信号同时保持所述混合音频信号的感知声音水平的方法，所述方法包括：

接收主输入音频信号；

接收关联输入音频信号，其中所述关联输入音频信号与所述主输入音频信号耦合；

接收混合元数据，所述混合元数据包含用于对所述主输入音频信号进行缩放的缩放信息并且指定应该如何对所述主输入音频信号和所述关联输入音频信号进行混合以生成处于所述感知声音水平的混合音频信号，其中来自所述混合元数据的所述缩放信息包括用于所述主输入音频信号的、用于相对于所述关联输入音频信号来缩放所述主输入音频信号的元数据缩放因子；

接收混合平衡输入，所述混合平衡输入指示所述主输入音频信号和所述关联输入音频信号之间的可调平衡，其中所述混合平衡输入包括允许偏离按照在所述混合元数据中指定的、所述主输入音频信号和所述关联输入音频信号在所述混合音频信号中的加权的缩放信息；

根据所述混合平衡输入和由所述混合元数据提供的所述缩放信息，将所述主输入音频信号或所述关联输入音频信号识别为主导信号，其中相应的另一个所述输入音频信号则被识别为非主导信号，并且其中通过将所述混合平衡输入与用于所述主输入音频信号的所述元数据缩放因子进行比较来识别所述主导信号；

相对于所述主导信号来对所述非主导信号进行缩放；以及

将经缩放的非主导信号与所述主导信号进行组合来生成所述混合音频信号。

2.根据权利要求1所述的方法，还包括：

基于所述混合平衡输入和来自所述混合元数据的所述缩放信息来确定用于缩放所述非主导信号的第一缩放因子；

其中所确定的第一缩放因子用于缩放所述非主导信号。

3.根据权利要求2所述的方法，其中

如果所述混合平衡输入的值大于来自所述混合元数据的用于所述主输入音频信号的所述元数据缩放因子，

则将所述关联输入音频信号确定为所述主导信号；

否则，将所述主输入音频信号确定为所述主导信号。

4.根据权利要求2所述的方法，其中，如果将所述关联输入音频信号识别为所述主导信号，则所述方法还包括：

将用于所述主输入音频信号的所述第一缩放因子计算为来自所述混合元数据的用于所述主输入音频信号的所述元数据缩放因子减去所述混合平衡输入的值。

5.根据权利要求2所述的方法，其中如果将所述主输入音频信号识别为所述主导信号，则所述方法还包括：

将用于所述关联输入音频信号的所述第一缩放因子计算为所述混合平衡输入的值减去来自所述混合元数据的用于所述主输入音频信号的所述元数据缩放因子。

6.根据权利要求2所述的方法，其中所述混合元数据被包含在所述关联输入音频信号中。

7.根据权利要求2所述的方法，其中所述主输入音频信号包括多个音频声道。

8.根据权利要求7所述的方法，其中所述混合元数据还包括：

用于所述主输入音频信号相对于所述关联输入音频信号的主要元数据缩放因子；以及

用于所述主输入音频信号的不同声道相对于所述关联输入音频信号的一个或更多个声道元数据缩放因子。

9.根据权利要求1所述的方法，其中所述元数据缩放因子包括dB值。

10.根据权利要求8所述的方法，其中通过将所述混合平衡输入的值与用于所述主输入音频信号的所述主要元数据缩放因子和所述声道元数据缩放因子进行比较来识别所述主导信号，以及

如果所述混合平衡输入的值大于用于所述主输入音频信号的所述主要元数据缩放因子与所述主输入音频信号的全部所述声道的全部所述声道元数据缩放因子中的最大值之和，

则将所述关联输入音频信号确定为所述主导信号；

否则，将所述主输入音频信号确定为所述主导信号。

11.根据权利要求10所述的方法，其中如果将所述关联输入音频信号识别为所述主导信号，则所述方法还包括：

计算用于所述主输入音频信号的每个声道的声道缩放因子，其中用于声道的所述声道缩放因子是用于所述主输入音频信号的所述主要元数据缩放因子加上用于所述主输入音频信号的相应声道的所述声道元数据缩放因子减去所述混合平衡输入的值。

12.根据权利要求10所述的方法，其中如果将所述主输入音频信号识别为所述主导信号，则所述方法还包括：

确定用于所述关联输入音频信号的所述第一缩放因子，将用于所述关联输入音频信号的所述缩放因子计算为：所述混合平衡输入的值减去用于所述主输入音频信号的所述主要元数据缩放因子与用于所述主输入音频信号的全部所述声道的全部所述声道元数据缩放因子中的最大值之和；以及

确定用于所述主输入音频信号的每个声道的声道缩放因子，将用于所述主输入音频信号的每个声道的所述声道缩放因子计算为：用于所述主输入音频信号的所述主要元数据缩放因子加上用于所述主输入音频信号的对应声道的所述声道元数据缩放因子减去所述主要元数据缩放因子与用于所述主输入音频信号的所述声道的全部所述声道元数据缩放因子中的最大值之和。

13.根据权利要求10所述的方法，其中用于确定所述主导信号的所述元数据缩放因子还包括用于所述关联输入音频信号的、能够用作调节的缩放因子，其中从用于所述主输入音频信号的所述元数据缩放因子中减去用于所述关联输入音频信号的所述缩放因子以确定所述主导信号。

14.根据权利要求1所述的方法，其中所述感知声音水平基于所述主输入音频信号和所述关联输入音频信号的加权平均水平。

15.根据权利要求1所述的方法，其中所述感知声音水平基于所述主输入音频信号和所述关联输入音频信号的对白水平。

16.根据权利要求15所述的方法，其中所述对白水平被测量为对白归一化。

17.根据权利要求1至16中任一项所述的方法，其中所述主输入音频信号和所述关联输入音频信号被编码为杜比脉冲信号。

18.根据权利要求1至16中任一项所述的方法，其中所述主输入音频信号和所述关联输入音频信号被编码为E-AC-3、MPEG-4HE-AAC、aacPlus、AC-3、MPEG-1Layer2、MPEG-4AAC音频信号或MPEG-4音频信号的任何派生信号。

19.根据权利要求10所述的方法，其中所述主输入音频信号包括称为LFE声道的低频效果声道，并且其中对于用于所述主输入音频信号的全部所述声道的全部所述声道元数据缩放因子中的最大值而言，不考虑所述LFE声道，以使得：

如果所述混合平衡输入的值大于用于所述主输入音频信号的所述主要元数据缩放因子与用于所述主输入音频信号的除LFE声道之外的全部所述声道的全部所述声道元数据缩放因子中的所述最大值之和，

则将所述关联输入音频信号确定为所述主导信号；

否则，将所述主输入音频信号确定为所述主导信号。

20.根据权利要求12所述的方法，其中所述主输入音频信号包括称为LFE声道的低频效果声道，并且其中对于用于所述主输入音频信号的全部所述声道的全部所述声道元数据缩放因子中的所述最大值而言，不考虑所述LFE声道，使得通过以下方式来将所述主输入音频信号识别为所述主导信号：

确定用于所述关联输入音频信号的所述第一缩放因子，将用于所述关联输入音频信号的所述缩放因子计算为：所述混合平衡输入的值减去用于所述主输入音频信号的所述主要元数据缩放因子与用于所述主输入音频信号的除所述LFE声道之外的全部所述声道的全部所述声道元数据缩放因子中的所述最大值之和；以及

确定用于所述主输入音频信号的每个声道的所述声道缩放因子，将用于所述输入音频信号的每个声道的所述声道缩放因子计算为：用于所述主输入音频信号的所述主要元数据缩放因子加上用于所述主输入音频信号的对应声道的所述声道元数据缩放因子减去所述主要元数据缩放因子与用于所述主输入音频信号的除所述LFE声道之外的所述声道的全部所述声道元数据缩放因子中的所述最大值之和。

21.根据权利要求8至16中任一项所述的方法，其中用于所述关联输入音频信号的所述混合元数据还包括平移元数据信息，所述关联输入音频信号包括单声道信号并且所述主输入音频信号包括立体声或多声道信号，

其中根据所述平移元数据信息将所述关联输入音频信号与所述主输入音频信号的所述声道进行混合。

22.根据权利要求1至16中任一项所述的方法，其中所述混合平衡输入包括提供从负值到正值的值的外部用户输入。

23.根据权利要求7所述的方法，其中所述主输入音频信号的所述多个音频声道和多声道的所述关联输入音频信号包括具有左声道、右声道、中心声道、左环绕声道、右环绕声道以及称为LFE声道的低频效果声道的环绕信号。

24.根据权利要求23所述的方法，其中所述多声道的所述主输入音频信号和所述关联输入音频信号包括5.1多声道信号、3.1多声道信号或13.1多声道信号。

25.根据权利要求19所述的方法，其中所述关联输入音频信号包括单声道和LFE声道，其中将所述关联输入音频信号的所述LFE声道与所述主输入音频信号的所述LFE声道进行混合，并且根据平移元数据信息将所述关联输入音频信号的所述单声道在主输入音频信号的所述声道上进行平移。

26.一种用于对信号进行混合的装置，所述装置应用根据权利要求1至16中任一项所述的用于将两个输入音频信号混合为单个混合音频信号同时保持所述混合音频信号的感知声音水平的方法。

27.一种解码器，所述解码器应用根据权利要求1至16中任一项所述的方法来将两个输入音频信号解码为单个混合音频信号同时保持一致的感知声音水平。

28.一种用于将输入音频信号混合为单个混合音频信号同时保持所述混合音频信号的感知声音水平的装置，所述装置包括：

接收器，用于接收主输入音频信号、关联输入音频信号和混合元数据；其中所述关联输入音频信号与所述主输入音频信号耦合；其中所述混合元数据包括用于缩放所述主输入音频信号的缩放信息；其中所述缩放信息指定应该如何对所述主输入音频信号和所述关联输入音频信号进行混合，以生成处于所述感知声音水平的混合音频信号；其中来自所述混合元数据的所述缩放信息包括用于所述主输入音频信号的、用于相对于所述关联输入音频信号对所述主输入音频信号进行缩放的元数据缩放因子；

混合平衡输入，其指示所述主输入音频信号和所述关联输入音频信号之间的可调平衡；其中所述混合平衡输入包括允许偏离按照在所述混合元数据中指定的、所述主输入音频信号和所述关联输入音频信号在所述混合音频信号中的加权的缩放信息；以及

混合单元，被配置为根据所述混合平衡输入和由所述混合元数据提供的所述缩放信息来将所述主输入音频信号或所述关联输入音频信号识别为主导信号，其中然后将相应的另一个所述输入音频信号识别为非主导信号；并且其中通过将所述混合平衡输入与用于所述主输入音频信号的所述元数据缩放因子进行比较来识别所述主导信号；

其中所述混合单元还被配置成：相对于所述主导信号来缩放所述非主导信号；以及将经缩放的非主导信号与所述主导信号进行组合以生成所述混合音频信号。

29.根据权利要求28所述的装置，其中，直接根据所述混合平衡输入和来自所述混合元数据的所述缩放信息来确定用于所述非主导信号的第一缩放因子；

利用所确定的第一缩放因子对所述非主导信号进行缩放；以及

将经缩放的非主导信号与所述主导信号组合为所述混合音频信号。

30.根据权利要求28或29所述的装置，其中将所述混合元数据与所述关联输入音频信号集成在一起。

31.根据权利要求28或29所述的装置，其中所述混合平衡输入还包括提供从负值到正值的值的外部用户输入。

32.根据权利要求28或29所述的装置，其中所述接收器还被配置为接收多声道主输入音频信号和多声道关联输入音频信号，并且所述混合单元被配置为对所述多声道主输入音频信号和所述多声道关联输入音频信号进行混合。