CN101569092A

CN101569092A - 用于处理音频数据的系统

Info

Publication number: CN101569092A
Application number: CNA2007800477432A
Authority: CN
Inventors: W·P·J·德布鲁恩; D·W·E·肖本
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2006-12-21
Filing date: 2007-12-14
Publication date: 2009-10-28
Also published as: US20100046765A1; JP2010513974A; WO2008078232A1

Abstract

一种用于处理多通道音频回放系统(100)的音频数据(106)的设备(110)，包括：识别单元(115)、提取单元(120)和求平均单元(125)。识别单元识别音频数据(106)的片段，所述音频数据(106)的片段与所选择的通道(101到103)之一相关，并属于参考音频类。提取单元(120)提取所识别的片段的音频性质。求平均单元(125)基于所提取的所识别的片段的音频性质，在预定时间段上估计该通道(101)的音频性质的平均值。

Description

用于处理音频数据的系统

技术领域

本发明涉及用于处理音频数据的设备。

此外，本发明涉及多通道音频回放装置。

本发明还涉及处理音频数据的方法。

此外，本发明涉及程序单元。

此外，本发明涉及计算机可读介质。

背景技术

音频回放设备变得越来越重要。特别地，越来越多的用户购买包括多个扬声器的音频播放器和其他娱乐设备。

当观看电视时普遍的烦恼来源是不同通道的响度可能显著变化的事实。当各通道之间切换(“转换(zapping)”)时这特别明显和令人烦恼。当在与相同家庭娱乐系统(如DVD播放器、VCR、TV、硬盘记录器或无线电调谐器)连接的不同声源之间切换时、或当在无线电或因特网无线电上的各通道之间切换时出现类似的效应。

传统上，可通过使得用户能够手动设置并存储每个单独的通道的级别偏移来处理这样的问题。然而，这是非常用户不友好的、麻烦的过程，结果，消费者几乎从不使用该特征。其他解决方案试图通过使用某种类似压缩器的电路/处理来维持恒定的响度。然而，这具有若干缺点。首先，压缩经常导致由增益的连续变化引起的听得见的泵浦伪信号(pumping artifact)。其次，不期望以相同的响度再现所有不同类型的内容，因为这移除了节目材料的所有动态特性(dynamics)。

US 2004/0044525公开了通过将音频信息的片段分类为语音或非语音，而获得包含语音和其他类型的音频材料的音频信号的响度的指示。估计语音片段的响度，并且使用该估计得到响度的指示。响度的指示可用于控制音频信号级别，使得减少不同节目之间的语音响度的变化。

然而，根据US2004/0044525的响度差异的均衡的质量可能仍然是不足的。

发明内容

本发明的目的在于实现用户友好的音频性质控制。

为了实现上面定义的目的，提供了根据独立权利要求的用于处理音频数据的设备、处理音频数据的方法、程序单元、以及计算机可读介质。从属权利要求定义了有利实施例。

根据本发明的示例性实施例，提供了一种用于对多通道音频回放系统的音频数据进行处理的设备，所述设备包括：识别单元，其适配为识别音频数据的片段，所述音频数据的片段与所选择的所述通道之一相关，并属于参考音频类；提取单元，其适配为提取所识别的片段的音频性质；以及求平均单元，其适配为基于所提取的识别的片段的音频性质，估计所述通道的音频性质的长期平均。

根据本发明的另一示例性实施例，提供了一种多通道音频回放装置，该装置包括具有上述特征的、用于处理音频数据的设备。

根据本发明的另一示例性实施例，提供了一种用于处理多通道音频系统的音频数据的方法，所述方法包括：识别所述音频数据的片段，所述音频数据的片段与所选择的所述通道之一相关，并属于参考音频类；提取所识别的片段的音频性质；并且基于所提取的识别的片段的音频性质，估计所述通道的音频性质的长期平均。

根据本发明的另一示例性实施例，提供了一种程序单元(例如，源代码或可执行代码形式的软件库)，当由处理器执行时，所述程序单元适配为控制或执行具有上述特征的处理音频数据的方法。

根据本发明的另一示例性实施例，提供了一种计算机可读介质(例如，CD、DVD、USB棒、软盘或硬盘)，其中存储有计算机程序，当由处理器执行时，所述计算机程序适配为控制或执行具有上述特征的处理音频数据的方法。

根据本发明实施例的音频数据处理可通过计算机程序(即，通过软件)、或通过使用一个或多个专用电子优化电路(即，通过硬件)、或以混合形式(即，通过软件组件和硬件组件)实现。

术语“多通道音频回放系统”可具体表示允许用户聆听多个不同音频通道之一的内容的任何音频再现系统(其可实现为装置或过程)。示例是电视设备，其中用户可在每个都提供可再现的音频内容的多个广播通道之间进行选择。同样，在无线电设备中，可选择不同通道之一。其中可再现因特网无线电流的基于Web的系统也可提供多个通道。此外，立体声系统可允许从不同介质(如CD、DVD、无线电和卡带)再现音频内容。

术语“音频数据的片段”可表示音频数据的各部分、诸如具有共同(音频)性质的音频间隔或音频帧。音频片段的序列形成完整的音频流。

术语“参考音频类”可表示由一个或多个音频性质准则定义的音频内容的特定类。这样的分类可具体包括语音和非语音片段之间的区分。这样的分类还可包括不同音乐流派(如古典、流行、爵士等)之间的区分。例如在R.M.Aarts和Robert Toonen Dekkers的“Areal-time speech-music discriminator”(J.Audio Eng.Soc.，47(9)：720-725，1999年9月)中公开了分类的过程。

术语“音频性质”可表示音频内容的特性，其对人类听者对于再现的音频内容的感受有影响。示例是响度、频率分布等。

术语“长期平均”表示在预定时间段上对于特定通道检测音频性质的平均值。所述时间段可选择得充分长，使得可获得对于该通道的平均音频性质值的充分的统计可靠性。这可包括在用户已经切换到特定通道的多个间隔内测量音频性质。充分长的时间可以是分钟大小的量级(例如，1分钟或30分钟)，并且范围可以到天、或甚至月的大小的量级，例如，用户连续一天观看一通道，或用户在几天甚至更长时间内有中断地选择一通道。

根据本发明的示例性实施例，在用户已经切换到的通道的音频流中识别音频语音片段。语音片段可以是用于得到平均响度值的有意义的内容源。因此，对于特定通道在不同语音时段上取响度的平均可用作对由特定通道再现的音频内容的实际响度的度量。可在充分长期的时间上确定该响度或任何其他音频相关性质的(算术或中值)平均值。例如，每当用户切换到一通道时，可执行测量，并且用更新的平均值替代实际的平均值。该平均值可以是一通道的典型值，并且在不同通道之间可能显著不同，然后可以将该平均值与参考值比较(该参考值可以是用户定义的、预定的或通过对不同通道的平均值进行平均产生的)，并且可基于该比较执行增益校正，以衰减或放大特定通道的响度，从而提供各种通道之间的幅度均衡。

本发明的一个示例性方面是这样的事实：在从当前通道切换到另一通道之后，可存储当前的长期平均，当用户下次切换回到该通道时，可取回该长期平均，此后求平均处理从该存储的值起继续。这是有利的，因为这可确保在一定时间后，可能达到稳定状态，其中存储的值实际表示每个通道的平均语音响度。US 2004/0044525A1的传统系统不允许获得这些优点。

从制作到广播，在电视网络内缺少严格实施的响度规范，这导致各通道/节目之间不一致的响度级别。利用语音内容的客观响度度量来规范化输入的广播音频，可提供模拟实时系统来抑制所感受到的与不一致的通道间响度级别关联的烦恼。根据本发明的示例性实施例，可以提供一种用于均衡通道间响度差别的系统。因此，可提供能够对于所有节目/源再现相同的主观响度级别的系统。

根据本发明的示例性实施例，可提供用于电视和家庭娱乐系统的自动通道间响度均衡。可通过逐片段的音频分析以将参考类型内容(例如，语音)识别为响度的参考和响度的测量，来获得这样的自动通道间响度均衡。此外，可能对每个通道计算该参考内容的响度的长期平均。然后，可能跨越各通道将参考内容类型的响度均衡到参考响度级别。

根据本发明的示例性实施例，提供了一种用于处理至少一个音频通道的音频信号的设备。所述设备可包括分类器，其适配为将音频信号的片段分类为是否是特定类型的内容(例如，语音片段或非语音片段)。此外，可提供用于检查该特定类型的内容以得到该特定类型的内容的响度信息的装置。求平均装置可适配为执行响度信息的长期平均。

求平均装置可适配为执行响度信息的累积平均处理。当激活通道时，累积平均处理可从之前存储的音频通道的响度信息的平均值继续。根据示例性实施例，可评估响度以外的其他信号特性(特定类型的信息)，例如，频谱(用于所有通道的频谱的自动均衡)、动态范围、和/或空间性质(例如，立体声扩展)。

在另一实施例中，当激活音频通道时，在开始对该通道的声音输出之前，可从存储器中取回所存储的该通道的平均响度值，并且将该平均响度值与参考响度值比较，该参考响度值对于所有通道都是相同的。

在另一实施例中，可将增益校正应用到该通道的音频信号，这补偿了在所取回的该通道的平均响度值和参考值之间的差别。

因此，因为这将导致所有通道的整体响度对齐，所以可以在所有通道上，用相同的响度同时再现相同类型的内容(例如，语音对话)，与此同时保留了原始音频信号和不同类型的内容的动态特性。

本发明的示例性实施例的示例性应用领域是电视设备、家庭娱乐系统、(车辆/移动)无线电设备等。

根据本发明的示例性实施例，可提供用于电视和家庭娱乐系统的自动通道间响度均衡。这可防止当观看电视时普遍的烦恼来源，即，不同通道的响度显著变化。根据本发明的示例性实施例，可使用特定类型的内容(例如，语音对话)作为响度的参考，并且可执行对于所有通道均衡该类内容的响度。这可通过跟踪和存储每个通道的参考类型的内容的典型片段的长期平均响度级别来完成。基于对应存储的参考类型的内容的平均级别，将单独的增益应用到每个通道，使得在一定初始适配时段后，参考类型的内容的输出响度在不同通道上将基本恒定。

因此，可以得到，因为这将导致所有通道的整体响度对齐，所以可在所有通道上以相同响度自动再现相同类型的内容(例如，语音对话)，与此同时保留了原始音频信号和不同类型的内容的动态特性。

因为一般选择语音的响度，使得语音可被理解但不太大声，所以语音对话可以是非常适于用作参考的类型的内容。而且，语音的响度可具有直接的解释；中度到高度响度的耳语声意味着人接近，而低响度的喊叫声意味着人遥远。

根据本发明的示例性实施例，音频分类可用于识别特定的音频类(例如，语音)的片段。仅使用与该特定的音频类有关的那些片段来在各通道上估计和均衡响度是可能的。因此，可提供全自动的(即，不需要用户动作)且非常健壮的系统，其中用户指定参考通道可能不是必须的。根据本发明的示例性实施例，通过在不同内容类型之间进行区分来估计响度。为此，可识别特定的音频类的不同片段。

在从当前通道切换到另一通道后，可存储当前的长期平均值，并且当用户下次切换回到该通道时，可取回该长期平均值，此后求平均处理从该存储的值起继续。这可以是有利的，因为这可以确保在一定时间后，可能达到稳定的状态，其中存储的值实际表示每个通道中的平均语音响度。因此，可能与电视的绝对音量设置相独立地，系统地移除各通道之间的相对响度差。因为确定和移除的响度差是不同通道的固有特性，所以不需要用户的动作(不过任选地，可启用用户定义的操作)。该系统因此可以是全自动的，并且不必涉及用户偏好。

此外，可能使用语音分类器来识别音频信号中的语音片段，并且各通道相对于彼此的响度均衡可仅基于语音片段的响度测量。换句话说，在根据本发明示例性实施例的系统中，语音可用作参考类型的内容，并且可能对各个通道进行增益偏移，使得对于所有通道，语音的响度是相等的。当切换到通道之后，在对该通道输出任何声音之前，可以立即应用该通道的增益偏移，使得用户注意不到任何增益变化。

根据示例性实施例，可能在切换到下一通道时存储当前通道的增益偏移，立即从存储器取回和应用下一通道的增益偏移，并且从所取回的值开始对该下一通道继续求平均处理，使得在一定时间之后(在几周/天/小时/分钟或更少时间的范围内)所有通道的增益偏移可收敛到稳定值。

根据示例性实施例，当切换到另一通道时，可能存储第一通道的“累积平均”语音响度。此后，在下一次切换到第一通道时，可从存储器取回该存储的值。从该时刻可继续求平均处理，直到出现到另一通道的下一切换为止。在切换时刻可立即(或实际上在已经进行实际切换之前)应用增益校正，即，用户注意不到。因此，可能的是只要观看通道就累计数据，并且在切换到该通道时，基于该累计的数据应用增益偏移。

当激活通道时，在开始对该通道的声音输出之前，可取回所存储的该通道的平均响度值，并且将其与参考响度值比较，该参考响度值对所有通道是相同的。将增益校正应用到该通道的音频信号，这补偿了取回的该通道的平均响度值和参考值之间的差别。增益校正可应用到信号链中响度估计器之后的点，否则可能发生处理信号的平均响度没有适当地收敛到参考响度值。

根据另一实施例，可能通过将其交叉连接(cross-link)到元数据系统(如图文电视)来进一步改进该系统。例如，诸如“朋友”的电视节目在各个通道上的响度应当是相等的，因此可能得到进一步改进的精度。此外，对于甚至相同通道上的不同节目也可确定和存储若干增益。

接下来，将说明该设备的另外的示例性实施例。然而，这些实施例也适用于多通道音频回放装置、方法、程序单元和计算机可读介质。

参考音频类可以是语音，特别是纯语音。对于音频内容通道的平均响度，语音可以是非常有意义的音频数据类，这可导致快速产生可靠的平均值。

音频性质可包括响度、频谱、动态范围或空间音频性质。可能均衡这些或其他音频性质中的一个或多个。

求平均单元可适配为通过用提取的识别片段的音频性质(连续)更新之前估计的该通道的平均值，估计该通道的音频性质的长期平均。换句话说，在用户已经激活通道的每个时段中，可在后台执行求平均过程。因此，可获得音频参数的适当的时间平均的均衡。

该设备还包括(例如，增益)校正单元，其适配为基于该通道的音频性质的长期平均和音频性质的参考值的比较，校正该通道的音频性质。参考值可以是在一些或所有通道上平均的音频性质的值。可选地，参考值可以是固定的，或可以由用户定义以便符合用户偏好。

增益校正单元可适配为在激活该通道进行音频回放之后，尤其在开始激活的通道的音频回放之前，校正该通道的音频性质。因此，用户将识别不到已经对新通道应用了用于调整响度或任何其他音频参数的增益校正，致使该系统是用户友好的。

该设备还可包括可靠度估计单元，其适配为估计可靠度参数，所述可靠度参数指示所述通道的所述音频性质的所估计的长期平均的统计可靠度。例如，在已经购买电视设备后，使用时间少，并且该系统可能还没有达到稳定的均衡。具有指示可靠度的参数可允许避免由还没有处于均衡的系统所导致的干扰伪信号。

(增益)校正单元可适配为将所述通道的所述音频性质校正为依赖于所估计的可靠度参数的程度/量。例如，当所估计的可靠度参数低于阈值(该阈值可以是用户定义的或固定的)时，增益校正单元可根据第一程度(其可依赖于可靠度参数的确切值)校正所述通道的所述音频性质，并且可适配为当所估计的/实际可靠度参数已经达到所述阈值时，根据第二程度校正所述通道的所述音频性质。第二程度可以是常数值，并且可以比第一程度大。因此，可靠度的量可影响校正量。可靠度越小，要执行的校正越小。

增益校正单元可适配为依赖于估计的可靠度参数调节该阈值。因此，该阈值可以是连续增加的(或减少的)，使得该系统是自适应的。

求平均单元可适配为通过以时间相关的方式对所识别的片段的所提取的音频性质的贡献进行加权，来估计所述通道的所述音频性质的长期平均。例如，与非常早估计的音频性质贡献相比，可用更大或更小的加权因子对非常近提取的音频性质值加权。

识别单元可适配为同时识别与多个通道有关的所述音频数据的片段。该系统可能与在不同通道之间切换的用户相独立地在后台运行。根据这样的实施例，该系统可以连续监视各个通道，或根据多路复用方案执行这样的监视。这可允许甚至对不经常激活的通道具有更好的平均值。

识别单元可适配为识别与所选择的所述通道之一的子通道的仅仅一部分有关的所述音频数据的片段。例如，回放设备可以是具有六个扬声器的5.1音频系统。在这样的实施例中，可能仅仅一个扬声器对语音有显著贡献。因此，使用该一个子通道(或子通道的一部分)进行增益估计就足够了，这可减少处理工作并可增加结果的意义。

识别单元可适配为在通道的激活和去激活之间的每个时间间隔内识别所述音频数据的片段。特别地，当用户切换到特定电视通道时，可开始识别例程。当用户切换到另一电视通道时，可终止关于之前的通道的识别例程，然后可以开始关于新通道的新的识别例程。

音频设备的音频处理组件和再现单元之间的通信可以以有线方式(例如，使用电缆)或以无线方式(例如，经由WLAN、红外通信或蓝牙)执行。

音频设备可以实现为游戏设备、膝上型计算机、便携式音频播放器、DVD播放器、CD播放器、基于web的媒体播放器、互联网无线电设备、公共娱乐设备、MP3播放器、Hi-Fi系统、交通工具娱乐设备、车辆娱乐设备、便携式视频播放器、医疗通信系统、身体佩戴的设备、音频会议系统、视频会议系统或助听设备，或能够从多于一个源通道接收音频的任何其他电子设备。“车辆娱乐设备”可以是用于汽车的hi-fi系统。

然而，尽管根据本发明实施例的系统主要打算促进声音或音频数据的回放，但是还可能将该系统用于音频数据和视觉数据的组合。例如，本发明实施例可以在如使用扬声器的视频播放器或家庭影院系统的视听应用中实现。

本发明上面定义的各方面和其他各方面将从下面要描述的实施例的示例而显而易见，并且通过参照这些实施例的示例来进行说明。

附图说明

以下将参照实施例的示例更详细地描述本发明，但是本发明不限于实施例的示例。

图1示出根据本发明的示例性实施例的音频数据处理系统。

具体实施方式

附图中的图示是示意性的。

在下面，参照图1，将说明根据本发明的示例性实施例的电视设备100。

电视设备100允许用户在第一广播通道101、第二广播通道102和第三广播通道103之间进行选择。如遥控单元的用户接口104可允许用户操作开关105，以选择不同通道101到103之一。

在图1所示的场景中，选择第一通道101。根据由第一通道101提供的内容流，要再现音频数据106。该音频数据106被发送到用于放大音频数据106的幅度的可调放大器107，以便随后回放。

放大控制信号108定义幅度放大，并且由多通道音频回放装置100中用于处理音频数据106的设备110产生。

设备110包括识别单元105，其被适配为识别与选择的通道101、102、103之一相关并属于参考音频类的音频数据106的片段。更具体地，识别单元115识别音频信号106内的语音片段，并且选择这些语音片段以用于进一步分析。

提供了提取单元120，其提取识别的语音片段的响度值。这可基于对所选择的语音片段的音频幅度或强度的分析来完成。

求平均单元125基于所提取的识别的语音片段的响度，估计第一通道101的响度的长期算术平均。其被提供音频信号106的语音片段的响度值，并相应地更新数据库135中的之前存储的通道101的响度的长期平均。

该长期算术平均信息可提供到增益校正单元130。增益校正单元130产生控制信号108。调节器单元130将该长期平均与在参考单元140(其可以是存储器)中存储的参考值比较，并且基于该测量来设置控制信号108，该控制信号10用于执行音频信号106的增益校正。

然后将对应修改的音频信号150提供到压缩器单元155，并从该压缩器单元155提供到第二可调放大器160。主音量单元165产生用于控制压缩器155和第二可调放大器160的控制信号166，第二可调放大器160用于经由扬声器170提供输出数据167，扬声器170产生指示对应的放大后的音频数据167的声波。

系统100包括以分钟大小的量级的时间常数操作的第一部分180、和以毫秒大小的量级的时间参数操作的第二部分190。

图1的第一部分180中所示的长期处理使用语音响度测量单元115、120，测量输入信号106的语音级别，所述语音响度测量单元115、120在执行客观响度测量之前，首先识别语音片段。调节器130返回增益输出，以补偿在测量的语音级别和参考单元140中存储的参考值之间的差别。为了防止用户感觉到音量的变化，可在通道的起始期间进行适配。在通道/源101到103之间的切换后，将最后的平均值存储在存储器135中，并且当重新选择通道/源101到103时，取回该最后的平均值。

图1中的第二部分190中的短期处理对输入信号应用压缩，以便抑制响度的任何短突发。

在切换到某个通道101到103后，通过调节器块130，从存储器135读取表示该通道101中的语音对话片段的平均响度级别的值。将该平均语音响度值与在参考单元140中存储的参考响度级别进行比较，该参考响度级别是期望的语音对话的响度级别(相对于0dB，0dB对应于最大响度，即，数字系统中的0dBfs)，该参考响度级别是恒定的，并且对所有通道101到103相同。参考单元140的该参考值可被设置为在广播行业中使用的相同的参考对话响度级别。通过将所存储的所选择的通道101的平均语音响度级别和参考响度级别比较，通过单元130计算增益因子，该单元130将所选择的通道101的语音响度级别规范化到参考值。在将该通道的音频信号106连接到音频输出单元170之前，将该增益应用到所选择的通道101的输入音频信号106，所以用户注意不到增益变化。

从已经操作开关105的时刻起，通过具有下述两个功能的语音响度测量块115、120连续分析输入的音频信号106：首先，其识别输入音频信号中包含纯语音(即，没有背景噪声、音乐等的语音)的部分；其次，其测量所识别的语音片段的响度级别。这可例如实现为简单的均方根信号级别测量算法。

所测量的当前语音信号的响度值可由调节器块130、125用来对该通道101更新平均语音响度值。这样，在任何时刻，平均响度级别值表示自从第一次分析该通道起(典型地，在购买电视后第一次选择该通道时)已经对该通道分析的所有语音对话片段的平均响度级别。最后，在切换到不同的通道后，将当前通道101的更新的平均语音响度值写到存储器135，并且在用户下一次切换到通道101时可取回该值，以适配增益。

这样，在一定初始适配时间段之后，将达到每个通道101到103的语音响度级别的稳定的平均，并且可自动将每个通道101到103的响度规范化到参考响度级别。

可选地，设备110可包括可靠度估计单元143，其被适配为估计可靠度参数，所述可靠度参数指示所估计的通道101的音频性质的长期平均的统计可靠度。可靠度估计单元143可从数据库135接收关于长期平均的信息，并且可将对应的可靠度数据转发到调节器块139，以便在产生控制信号108时考虑它。

通常来说，语音分类算法可分析音频信号，并输出该信号应当被分类为语音的概率。这意味着，在识别处理中可能涉及一定量的不确定性，并且需要选择概率阈值，以用于判断是否将片段处理为语音。如果将该阈值选择得非常低，则可能将几乎所有真实的语音片段识别为语音，风险是还将不是由纯语音组成的片段不正确地识别为语音。这将导致平均语音响度级别的不正确估计。另一方面，如果将该阈值设置为高的值，则不正确地将片段识别为语音的风险降低，其折衷是没有将一些真实的语音片段识别为语音，这在本申请中意味着平均语音响度级别值到真实平均值的相对慢的适配。然而，可能期望获得可靠的平均语音级别估计，而不是快速的适配。因此，典型地可将该阈值选择得足够高，以确保存在非常少的不正确的语音识别，使得可以忽略对平均语音响度级别估计的影响。

在已经开始通道的分析处理后的初始时间段(典型地，在购买电视不久后的时段)，每个通道的平均语音响度级别的估计仅仅基于有限量的数据，特别是对于不经常观看的通道更是如此。这意味着，即使利用相对高的阈值，估计也不是那么可靠。不期望使用不可靠的估计来适配通道的增益，因为这在最坏情况的场景下可能实际上增加各通道之间的响度差别。

为了避免这种情况发生，在本发明实施例中，增益修改的量根据平均语音响度级别的估计的可靠度来做出。也就是说，在平均语音响度级别的估计的可靠度仍然低于某一阈值期间，并不完全应用所计算的增益规范化因子，而仅应用依赖于估计的可靠度的、所述增益规范化因子的某个百分比(在0％和100％之间)，所述增益规范化因子是由将平均语音响度级别的估计与参考值的比较而产生的。仅仅在充分量的数据可用从而使得平均的估计达到某一可靠度时，才完全应用所计算的增益规范化因子(例如，100％)。

将语音识别的阈值设置为高的值可能期望获得平均语音响度的可靠估计，这可能具有适配可能相当慢的缺点，因为仅仅将几乎确定它们由纯语音组成的片段用于更新平均响度值。这意味着仅仅在购买电视后相当的时间量之后，消费者才开始注意到自动响度均衡功能的好处，特别是对于仅仅偶尔观看的通道更是如此。

为了消除该问题，在本发明实施例中，可使得阈值是适应性的。首先，从第一次使用电视起，当还不存在可用的语音响度数据时，阈值可设置为低的值，使得语音响度数据很快变为可用，以开始平均响度级别的估计。在该第一时段中获得的数据可包含不是纯语音的片段，因此估计的可靠度还不是非常好。然而，随着时间过去，当平均的估计所依据的数据量增加时，阈值缓慢地增加，使得随着时间流逝，用于更新平均的估计的数据的可靠度、以及因此估计自身的可靠度增加。可选地，随着更多(并且更可靠的)数据变得可用，可丢弃在初始阶段获得的数据，以便甚至更加增大估计的可靠度。

该实施例可与之前的实施例组合，也就是说，当阈值仍然低时(因此平均的估计的可靠度也低)，仅仅应用所计算的增益规范化因子的某一百分比，随着阈值达到其最大值，百分比增加到100％。

根据另一示例性实施例，来自最近过去的仅仅有限量的语音响度级别测量用于估计通道的平均语音响度级别(例如，通过限制从最近的片段开始在时间上回溯而使用的片段的长度的总和，或通过限制在当前时刻之前所包括的绝对时间段)。这具有这样的优点：该系统能够适应于每个通道的长期平均语音响度级别的长期变化，并且当使用适应性(增加的)阈值时，如上所述，在一段时间之后，平均语音响度的估计将仅基于高度可靠的数据。

在另一实施例中，可能利用这样的事实：电视可能包含两个或更多个单独的调谐器，以便启用“画中画”类型的功能性。可利用第二调谐器(以及其他的调谐器)作为背景处理执行所有通道的语音响度级别的连续循环分析，而不是仅仅分析当前正观看的通道的语音响度。这可具有这样的优点：对所有通道，而不是仅仅对经常观看的通道(如同仅仅单个调谐器的情况)，到稳定的平均语音响度级别估计的适配将是快速的。

为了增加该系统的可靠度和/或适配速度，关于某个信号包含或不包含语音的概率的外部信息可用作一种“预处理器”。例如，当该系统的输入源之一包含5.1环绕声内容时(例如，广播数字环绕声节目材料的电视通道或连接到家庭娱乐机的DVD播放器)，将在5.1信号的中央音频通道中获得几乎所有的语音。在此情况下，仅使用中央通道来确定该输入源的平均语音响度级别是有意义的。在此情况下，所计算的得到的增益补偿因子可局部应用到该5.1信号，而不是仅应用到中央通道，因为这可能扰乱中央通道和其他通道之间的平衡。

尽管已经在附图和前面的描述中详细图示和描述了本发明，但是这样的图示和描述要被认为是说明性或示例性的，而非限制性的；本发明不限于所公开的实施例。

根据对附图、公开内容和所附权利要求书的研究，实践所要求保护的本发明的本领域技术人员可以理解和实现对所公开的实施例的其他变化。在权利要求书中，词语“包括”不排除其他元件或步骤，并且不定冠词“一”不排除复数。单个处理器或其他单元可实现权利要求书中记载的若干项功能。某些特征在相互不同的从属权利要求中记载的事实不表示这些特征的组合不能被有利地使用。计算机程序可存储/分发在如光存储介质或固态介质的适当介质上，所述介质与其他硬件一起提供或作为其他硬件的一部分提供，但所述计算机程序还可以以其他形式分发，如经由因特网或其他有线或无线电信系统。权利要求书中的任何参考符号不应被解释为限制范围。还应当注意，权利要求书中的参考符号不应当解释为限制权利要求书的范围。

Claims

1.一种用于处理多通道音频回放系统(100)的音频数据(106)的设备(110)，所述设备(110)包括：

识别单元(115)，其适配为识别所述音频数据(106)的片段，所述音频数据(106)的片段与所选择的所述通道(101到103)之一相关，并属于参考音频类；

提取单元(120)，其适配为提取所识别的片段的音频性质；

求平均单元(125)，其适配为基于所提取的所识别的片段的音频性质，估计所述通道(101)的所述音频性质在预定时间段上的平均值。

2.根据权利要求1的设备(110)，

其中所述参考音频类是语音音频内容。

3.根据权利要求1的设备(110)，

其中所述音频性质包括由下述项组成的组中的至少一个：响度、频率分布、动态范围和空间音频性质。

4.根据权利要求1的设备(110)，

其中所述预定时间段是选择所述通道的时间段。

5.根据权利要求1的设备(110)，

其中所述预定时间段覆盖选择所述通道的两个或更多个时间段。

6.根据权利要求1的设备(110)，

其中所述估计还基于之前估计的所述通道(101)的平均值。

7.根据权利要求1的设备(110)，

包括校正单元(130)，适配为基于所述通道(101)的所述音频性质的所述平均值和所述音频性质的参考值的比较，校正所述通道(101)的所述音频性质。

8.根据权利要求7的设备(110)，

其中所述音频性质的所述参考值是由下述项组成的组中的一个：在所述通道(101到103)上平均的所述音频性质的值、用户定义的值和预定值。

9.根据权利要求8的设备(110)，

其中所述校正单元(130)适配为在激活所述通道(101)以用于音频回放后，具体地在开始所激活的通道(101)的音频回放之前，校正所述通道(101)的所述音频性质。

10.根据权利要求1的设备(110)，

包括可靠度估计单元(143)，其适配为估计可靠度参数，所述可靠度参数指示所述通道(101)的所述音频性质的所估计的平均值的统计可靠度。

11.根据权利要求7或10的设备(110)，

其中所述校正单元(130)适配为将所述通道(101)的所述音频性质校正为依赖于所估计的可靠度参数的量。

12.根据权利要求11的设备(110)，

其中所述校正单元(130)适配为当所估计的可靠度参数低于阈值时，根据第一量校正所述通道(101)的所述音频性质，并且适配为当所估计的可靠度参数已经达到所述阈值时，根据第二量校正所述通道(101)的所述音频性质。

13.根据权利要求1的设备(110)，

其中所述求平均单元(125)适配为通过基于已经处理相应片段的时间对所提取的所识别的片段的音频性质的贡献进行加权，来估计所述通道(101)的所述音频性质的所述平均值。

14.根据权利要求1的设备(110)，

其中所述识别单元(115)适配为同时识别与多个所述通道(101到103)有关的所述音频数据(106)的片段。

15.根据权利要求1的设备(110)，

其中所述识别单元(115)适配为识别与所选择的所述通道(101到103)之一的子通道的仅仅一部分有关的所述音频数据(106)的片段。

16.根据权利要求1的设备(110)，

其中所述识别单元(115)适配为在通道(101到103)的激活和去激活之间的每个时间间隔内识别所述音频数据(106)的片段。

17.一种多通道音频回放装置(100)，

包括权利要求1的用于处理音频数据(106)的设备(110)。

18.根据权利要求17的多通道音频回放装置(100)，

其中所述通道(101到103)包括由下述项组成的组中的至少一个：不同的电视广播通道、不同的无线电广播通道、以及分配到所述多通道音频回放装置的不同音频回放模块的不同音频通道。

19.根据权利要求17的多通道音频回放装置(100)，实现为由下述项组成的组中的至少一个：音频环绕系统、移动电话、头戴式式耳机、扬声器、助听器、电视设备、视频记录器、监视器、游戏设备、膝上型计算机、音频播放器、DVD播放器、CD播放器、基于web的媒体播放器、互联网无线电设备、公共娱乐设备、MP3播放器、Hi-Fi系统、交通工具娱乐设备、车辆娱乐设备、医疗通信系统、身体佩戴的设备、语音通信设备、家庭影院系统、家庭剧场系统、音频服务器、音频客户端、平面电视装置、环境创建设备、亚低音扬声器、以及音乐厅系统。

20.一种用于处理多通道音频系统(100)的音频数据(106)的方法，所述方法包括：

识别所述音频数据(106)的片段，所述音频数据(106)与所述通道(101到103)的所选择的一个相关，并属于参考音频类；

提取所识别的片段的音频性质；

基于所提取的所识别的片段的音频性质，估计所述通道(101)的所述音频性质在预定时间段上的平均值。

21.一种程序单元，当其由处理器(110)执行时，适配为控制或执行权利要求20的处理音频数据(106)的方法。

22.一种计算机可读介质，其中存储计算机程序，当由处理器(110)执行时，所述计算机程序适配为控制或执行权利要求20的处理音频数据(106)的方法。