CN112437957B

CN112437957B - 用于全面收听的强加间隙插入

Info

Publication number: CN112437957B
Application number: CN201980046995.6A
Authority: CN
Inventors: C·G·海因斯; G·N·狄金斯
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2018-07-27
Filing date: 2019-07-26
Publication date: 2024-09-27
Anticipated expiration: 2039-07-26
Also published as: US11195539B2; JP7195344B2; EP3830823B1; JP2021531675A; WO2020023856A1; US20210304782A1; EP3830823A1; CN112437957A

Abstract

一种全面收听方法，包括以下步骤：在回放信号中插入至少一个强加间隙(从而生成经修改的回放信号)，并且在所述经修改的回放信号的回放期间，使用回放环境中麦克风的输出来监测所述回放环境中的非回放内容(例如，包括通过生成背景噪声估计)。可选地，所述方法包括生成所述回放信号，包括通过使用监测非回放内容的结果(例如，背景噪声估计)对输入信号进行处理(例如，执行噪声补偿)。其他方面是被配置为执行所述全面收听方法的任何实施例的系统。

Description

用于全面收听的强加间隙插入

相关申请的交叉引用

本申请要求2018年7月27日提交的美国专利申请第62/711,012号的优先权的权益，所述美国专利申请的全部内容通过引用结合于本文中。

技术领域

本发明涉及用于在音频信号回放(playback)环境中执行全面收听(pervasivelistening)(例如，估计背景噪声)，以及可选地还使用全面收听的结果(例如，噪声估计)来生成或处理音频信号(例如，对音频信号执行噪声补偿)以进行回放的系统和方法。在一些实施例中，全面收听包括在回放信号中(例如，在回放信号的所选频带中)引入至少一个间隙，从而生成经修改的回放信号，并且在经修改的回放信号的回放期间执行全面收听。

背景技术

在本文中，“全面收听”方法(例如，由在适当编程的处理器上运行的全面收听应用程序来实施)表示这样的方法，所述方法包括：监测回放环境中除了(响应于音频回放信号)从回放环境中的任何扬声器中发出的回放声音之外的声音，以及可选地还响应于监测的至少一个结果而生成或修改音频回放信号(例如，出于在某些方面改善音频内容的回放的目的)。被监测的声音在本文中有时被称为“非回放声音”。非回放声音被回放环境中的至少一个麦克风捕获。回放环境中可能(但不一定)存在一个或多个人类用户，并且可以实施全面收听以改善(多个)这种用户的回放体验。表述“全面收听器”在本文中有时用来表示被配置为执行全面收听方法的系统或设备(例如，适当编程的处理器)。

典型的全面收听方法不会为了检测或表征回放环境中的短暂事件(例如，短词语音的话语)而监测非回放声音，其中在此上下文中，“短暂”事件表示持续时间少于约0.5秒的事件。然而，在一些情况下，可以以旨在检测或表征回放环境中的持续时间少于0.5秒(例如，200毫秒或更少)的短暂事件的方式来实施全面收听器对非回放声音的监测。由全面收听器监测的非回放声音的示例包括(但不限于)背景噪声或在长于人类用户的单个短话语的时间尺度上的在回放环境中的至少一个人类用户的语音(或指示至少一个人类用户的活动或存在的其他声音)。例如，非回放声音可以是由人类用户操作的真空吸尘器发出的声音，或者是长时话音命令的话语。

全面收听可以包括对非回放声音的观察的积累(随时间推移，例如，每个观察是在不同频带中的不同间隙的时间间隔期间进行的)，以创建对非回放声音的某个方面的统计推断或估计。全面收听器的一些实施方式可以使用(根据本发明的实施例插入到回放信号中的)强加间隙(forced gap)来监测在强加间隙“中”发生的非回放声音，其意义是所述非回放声音在存在间隙的(多个)频带中的间隙的时间间隔期间发生。例如，全面收听器的一些实施方式可以使用(根据本发明的实施例插入到回放信号中的)强加间隙来从三个(或其他小数量的)强加间隙中的每个间隙(各间隙在不同频带中)中能量的突然、同期(即，在单个短时间隔内)的开始来推断短暂发生或非回放声音事件的发生，其中在每个间隙中检测到的能量是出乎意料且基本上不大可能(考虑到全面收听器作为在多个不同频带中的每个频带中积累观察的结果而确定的统计数据)的量的能量。

在使用(根据本发明的实施例插入的)强加间隙的全面收听器的示例中，40个不同的频带可用于间隙的插入，并且每4个相继频带中插入至少一个强加间隙以允许全面收听器通过检测每个间隙中的非回放声音来估计非回放声音的全频谱。在典型的实施方式中，这可能需要插入10到20个强加间隙的序列，每个强加间隙的持续时间为约20ms至100ms。因此，可能需要至少约200毫秒(200ms)至2秒来获得估计(通过监测所记录的强加间隙序列中的非回放声音)。在一些所考虑的实施例中，全面收听器将需要从约0.5秒至1秒的范围中的时间来通过监测强加间隙序列中的非回放声音来确定非回放声音的估计(在全频率范围内)。

又例如，如果窄频带中的非回放声音要由全面收听器检测，则全面收听器可能需要多达约4秒来检测所述非回放声音(例如，在非回放声音马上就要开始之前在所述频带中强加了间隙的情况下)。在典型的实施方式中(有40个频带可用于插入强加间隙，每个间隙的持续时间为约100ms)，可能需要多达约2秒(平均)来检测频带中的任何频带中的非回放声音。

在回放信号在至少一个频带中是安静的情况下(根据本发明的实施例，即使没有在这种频带中插入任何强加间隙)，即使没有强加间隙插入，全面收听器也有可能检测到非常短暂事件或非回放声音事件(例如，持续时间比本文中提到的任何示例短得多的事件)。

随着进入家庭和工作场所的始终在收听的智能扬声器设备的数量迅速增加，对于以下的需求正在增加：设备了解更多有关其环境使得所述设备可以提供更好的体验并且对用户更有帮助。一种这样的功能就是噪声补偿(全面收听方法的示例)。噪声补偿确保收听器始终听到音乐和话音助手的语音，而不论环境噪声条件如何。智能话音助手还必须在各种不利的声学环境中收听新用户请求。

当设备正在回放音乐和其他音频内容时，估计回放环境中的环境条件和活动的任务明显更困难，因为设备会听到自己的声音(“回声”问题)和背景活动。声学回声消除(此问题的标准提议解决方案)是对在设备麦克风处接收回声的方式进行建模以使得回声可以被去除从而留下表示背景场景的残差信号的过程。由于回声消除是计算成本昂贵的任务，其随着设备中存在的回放声道和麦克风的数量的增加而复杂度增大，因此期望成本较低的设备和具有多声道扬声器配置的设备要求麦克风能力而仅有弱的或不存在的回声消除可用，这并非不合理。较便宜和较低成本的设备还更易于佩戴，并且更贴近用户，因为它们更便携并且可以放置在家庭或工作场所的更多位置中。

便携式电子设备的普及意味着人们在许多不同的环境中每天都在与音频互动。例如，听音乐、看娱乐内容、听可听通知和指示、以及参与话音呼叫。发生这些活动的收听环境经常会固有地嘈杂，并且背景噪声条件会不断变化，这会损害收听体验的享受性和可懂度。将用户置于响应于变化的噪声条件而手动调整回放水平的循环中会使用户从收听任务中分散注意力，并增加了参与音频收听任务所需的认知负担。

噪声补偿的媒体回放(NCMP)通过调整正在播放的任何媒体的音量以使其适合于媒体正在被回放所处的噪声条件来缓解此问题。NCMP的概念是众所周知的，并且许多出版物都声称已经解决了如何有效地实施NCMP的问题。

尽管称为“主动噪声消除”的相关领域试图通过声波的再现来物理消除干扰噪声，但NCMP调整回放音频的水平，以使得在存在背景噪声的情况下能够在回放环境中听到调整后的音频，并且声音清晰。

在NCMP的任何实际实施方式中的主要挑战是自动确定收听者所体验的当前背景噪声水平，尤其是正在通过扬声器播放媒体内容的情况下，在这种情况下，背景噪声和媒体内容在声学上高度耦合。涉及麦克风的解决方案面临着媒体内容和噪声条件一起被观察(被麦克风检测到)的问题。

图1示出了实施NCMP的典型音频回放系统。所述系统包括内容源1，所述内容源输出指示音频内容(在本文中有时被称为媒体内容或回放内容)的音频信号并将所述音频信号提供给噪声补偿子系统2。音频信号旨在进行回放以(在环境中)生成指示音频内容的声音。音频信号可以是扬声器馈送(并且噪声补偿子系统2可以被耦接并且被配置为通过调整扬声器馈送的回放增益而对其施加噪声补偿)，或者系统的另一元件可以响应于音频信号而生成扬声器馈送(例如，噪声补偿子系统2可以被耦接并且被配置为响应于音频信号而生成扬声器馈送，并通过调整扬声器馈送的回放增益将噪声补偿施加于扬声器馈送)。

图1的系统还包括如图所示耦接的噪声估计子系统5、用于对音频信号(或在子系统2中生成的音频信号的经噪声补偿版本)进行响应的至少一个扬声器3(被耦接并且被配置为发出指示媒体内容的声音)、以及麦克风4。在操作中，麦克风4和扬声器3处于回放环境(例如房间)中，并且麦克风4生成指示环境中的背景(环境)噪声和媒体内容的回声两者的麦克风输出信号。噪声估计子系统5(在本文中有时被称为噪声估计器)耦接到麦克风4，并且被配置为使用麦克风输出信号来生成对环境中(多个)当前背景噪声水平的估计(图1的“噪声估计”)。噪声补偿子系统2(在本文中有时被称为噪声补偿器)被耦接并且被配置为通过响应于噪声估计子系统5产生的噪声估计而调整音频信号(例如，调整音频信号的回放增益)(或调整响应于音频信号而生成的扬声器馈送)来施加噪声补偿，从而生成指示经补偿的媒体内容的经噪声补偿的音频信号(如图1所指示的)。通常，子系统2调整音频信号的回放增益，使得响应于调整后的音频信号发出的声音在存在背景噪声(如由噪声估计子系统5估计的)的情况下在回放环境中是可听见的并且是清晰的。

如将在下文描述的，可以根据本发明的一类实施例来(与强加间隙插入一起)使用在实施噪声补偿的音频回放系统中使用的背景噪声估计器(例如，图1的噪声估计器5)。

许多出版物都已涉及经噪声补偿的媒体回放(NCMP)的问题，并且补偿背景噪声的音频系统可以在许多方面取得成功。

已经提出了在没有麦克风的情况下替代地使用其他传感器(例如，在汽车的情况下为速度计)执行NCMP。然而，这种方法不如实际上测量了收听者体验的干扰噪声水平的基于麦克风的解决方案有效。还已经提出了依靠位于与指示回放内容的声音解耦的声学空间中的麦克风来执行NCMP，但是这种方法对于许多应用都受到禁止性的限制。

上一段中提到的NCMP方法没有尝试使用还捕获了回放内容的麦克风来准确测量噪声水平，因为在麦克风捕获的回放信号与噪声估计器感兴趣的噪声信号混合时出现“回声问题”。与之相对，这些方法要么通过约束它们所施加的补偿以致不形成不稳定的反馈回路，要么通过测量某种程度上预测收听者所体验的噪声水平的其他内容，而尽量忽略该问题。

还已经提出了通过尝试使回放内容与麦克风输出信号进行相关并且从麦克风输出中减去麦克风所捕获的回放内容(被称为“回声”)的估计来解决从(指示背景噪声和回放内容两者的)麦克风输出信号估计背景噪声的问题。麦克风捕获声音时生成的指示从(多个)扬声器发出的回放内容X和背景噪声N的麦克风输出信号的内容可以表示为WX+N，其中，W是由发出指示回放内容的声音的(多个)扬声器、麦克风以及所述声音从所述(多个)扬声器传播到所述麦克风的环境(例如，房间)确定的传递函数。例如，在学术上提出的用于估计噪声N的方法(将参考图2进行描述)中，线性滤波器W’被适配为促进对回声(由麦克风捕获的回放内容)WX的估计W’X以从麦克风输出信号中减去。即使系统中存在非线性，但由于计算成本，滤波器W’的非线性实施方式也很少实施。

图2是用于实施上述常规方法(有时被称为回声消除)的系统的图，所述方法用于估计在(多个)扬声器发出指示回放内容的声音的环境中的背景噪声。将回放信号X呈现给环境E中的扬声器系统S(例如，单个扬声器)。麦克风M位于同一环境E中，并且环境E中存在背景噪声N，以及通常还有至少一个人类用户(收听者)L。响应于回放信号X，扬声器系统S发出声音，该声音(与环境E中存在的任何环境噪声N一起)到达麦克风M。麦克风输出信号是Y＝WX+N，其中，W表示传递函数，所述传递函数是扬声器系统S、回放环境E和麦克风M的组合响应。由图2的系统实施的总体方法用于使用各种自适应滤波器方法中的任何方法从Y和X自适应地推导传递函数W。如图2所示，线性滤波器W’被自适应地确定为传递函数W的近似。麦克风信号M指示的回放信号内容(“回声”)被估计为W’X，并且从Y中减去W’X得到对噪声N的估计Y’＝WX-W’X+N。如果估计中存在正偏差，则与Y’成比例地调整X的水平会产生反馈回路。Y’的增大进而增大X的水平，这会向N的估计(Y’)中引入向上偏差，从而进而增大X的水平，以此类推。这种形式的解决方案将严重依赖于自适应滤波器W’使得从Y中减去W’X以从麦克风信号M中去除大量回声WX的能力。

为了保持图2的系统稳定，通常需要对信号Y’进行进一步滤波。由于本领域中多数噪声补偿实施例都表现出平庸的性能，因此多数解决方案通常可能会将噪声估计向下偏置并引入积极的时间平滑以保持系统稳定。这是以减小动作补偿和非常缓慢的动作补偿为代价的。

用于补偿环境噪声条件的噪声补偿(例如，自动将扬声器回放内容校平)是众所周知且期望的特征，但尚未令人信服地实施。使用麦克风来测量环境噪声条件还测量了扬声器的回放内容，这对实施噪声补偿所需的噪声估计(例如，在线噪声估计)提出了重大挑战。本发明的一些实施例是噪声估计方法和系统，所述方法和系统以改进的方式(包括将强加间隙插入到回放信号中)生成可用于执行噪声补偿(例如，以实施经噪声补偿的媒体回放的许多实施例)的噪声估计。

由于回声消除是计算成本昂贵的任务，其随着设备中存在的回放声道和麦克风的数量的增加而复杂度增大，因此期望成本较低的设备和具有多声道扬声器配置的设备要求噪声补偿能力而仅有弱的或不存在的回声消除可用，这并非不合理。较便宜和较低成本的设备还更易于佩戴，并且更贴近用户，因为它们更便携并且可以放置在家庭或工作场所中的更多位置中。此类别的设备是使用噪声补偿的最佳候选项，因为所述设备可以通过接近度便利性来优化用户听到的声音。

在音频信号的时间处(或时间间隔中)，频带中的采样间隙或“间隙”(下文进行定义)是在回放和捕获时间和频率片段中的音频信号的音频内容之后可以指示回放环境中的背景噪声的时间和频率片段。当(回放环境中的)设备处于静音而不播放任何音频内容时，在回放环境中捕获的声音的所有时间和频率片段都可以指示回放环境中的背景噪声。当音频内容(例如，音乐内容)由设备进行回放时，环境中每个麦克风的输出都会受到噪声的破坏。

上文引用的美国临时专利申请第62/663,302号描述了一种用于在噪声估计的上下文中检测和利用采样间隙的方法和系统，执行或不执行回声消除。当这种系统在执行回声消除的情况下执行噪声估计时，残差消除信号(例如，下文讨论的图2的信号Y’或图12的M’res)典型地具有许多间隙，并且一般而言，系统的性能与内容无关。当这种系统在没有回声消除的情况下执行噪声估计时，噪声估计的质量(并且因此在使用所估计的噪声进行了噪声补偿的内容的回放期间的用户体验)变得与内容有关，因为内容中间隙的类型和频率影响噪声估计的质量。在两种情况下(具有和不具有回声消除)，在美国申请第62/663,302号中描述的方法和系统都能够利用可用间隙(在回放内容中，或者在回放内容和残差消除信号中)来估计背景噪声水平。发明人已经认识到，关于噪声估计(例如，在美国申请第62/663,302号中描述的类型的噪声估计)或另一种全面收听方法，“强加”间隙以出现在回放内容中的新颖步骤可以改善噪声估计(尤其是在没有回声消除或具有弱回声消除的情况下执行噪声估计时)或其他全面收听方法的性能。

发明内容

在一类实施例中，本发明是一种全面收听方法，所述方法包括以下步骤：

将至少一个间隙插入到音频回放信号的至少一个所选频带中(例如，在所选时间间隔中将每个所述间隙插入到音频回放信号的所选频带中)以生成经修改的回放信号；

在响应于所述经修改的回放信号而在回放环境中发出声音期间，使用所述回放环境中的麦克风来生成麦克风输出信号，其中，所述声音指示所述经修改的回放信号的回放内容，并且所述麦克风输出信号指示所述回放环境中的非回放声音和所述回放内容；以及

响应于所述经修改的回放信号和所述麦克风输出信号，监测所述回放环境中的所述非回放声音(典型地，包括通过生成对所述回放环境中的所述非回放声音的至少一方面的估计)。

优选地，插入每个间隙(在所选时间间隔中插入到所述回放信号的所选频带中)，以试图(即，以预期的方式)使得(在响应于所述经修改的回放信号而在所述回放环境中发出的声音中)由于插入所述间隙而产生的任何伪像(artifact)在所述回放环境中对于用户具有低的感知度，并且通过执行所述监测的全面收听器而具有较高的可识别性。优选地，插入每个间隙(在所选时间间隔中插入到所选频带中)，使得响应于所述经修改的回放信号而在所述回放环境中发出的声音可由所述用户感知，而不会由于插入所述间隙而产生任何显著的伪像，其意义是由于间隙插入而产生的任何感知的伪像对于应用而言是合理的(不会过度地令人反感)。例如，在典型的实施例中，对于人类用户而言，由于间隙插入而产生的任何伪像都不比通过音频的MP3编码引入到音频中的任何伪像更可感知。

在典型的实施例中，所述全面收听方法是噪声估计方法，所述麦克风输出信号指示所述回放环境中的背景噪声，并且所述监测包括响应于所述经修改的回放信号和所述麦克风输出信号而生成所述回放环境中的背景噪声估计。

典型地，所述监测包括响应于所述经修改的回放信号和所述麦克风输出信号，生成对所述回放环境中的非回放声音的至少一方面的估计，并且所述方法还包括以下步骤：响应于对所述回放环境中的所述非回放声音的至少一方面的所述估计(例如，试图改善所述音频回放信号的所述内容的回放)来生成所述音频回放信号(例如，在还执行对非回放声音的监测的全面收听子系统中)。

在一些实施例中，基于紧迫性(例如，响应于指示紧迫性的紧迫性值)或对间隙的需要(例如，在回放信号的至少一个特定频带中)，将每个间隙插入到回放信号中。在一些实施例中，基于对(例如，所述回放信号的一组频带中的每个频带中的)间隙(即，对间隙插入的紧迫性)的需要(例如，响应于指示所述需要的紧迫性值)，并且基于在回放信号中(例如，在特定时间间隔下，在所述回放信号的至少一个特定频带中)插入间隙的预期感知效果(例如，响应于指示插入间隙的预期感知效果的感知自由度值)(例如，以包括平衡对间隙的紧迫性和插入间隙的预期感知效果的方式)，将每个间隙插入到所述回放信号中。

在一些实施例中，所述方法包括以下步骤：

确定指示所述回放信号的一组频带中的每个频带的概率的概率分布；以及

根据所述概率分布，随机选择所述组中的所述频带中的至少一个频带，并且在所述频带中的所述至少一个频带中的每个频带中插入间隙。在一些这种实施例中，所述概率分布基于对所述回放信号的所述一组频带中的每个所述频带中的间隙的需要(即，插入间隙的紧迫性)。在一些这种实施例中，所述概率分布基于将间隙插入到所述回放信号的所述一组频带中的每个所述频带中的预期感知效果。在一些这种实施例中，所述概率分布基于对所述回放信号的所述一组频带中的每个所述频带中的间隙的需要和将所述间隙插入到每个所述频带中的预期感知效果。

在典型的实施例中，全面收听(例如，噪声估计或噪声补偿)方法包括响应于所述麦克风输出信号和所述经修改的回放信号而生成紧迫性值(即，指示紧迫性值的(多个)信号或数据)的步骤。在一些这种实施例中，所述紧迫性值指示对所述回放信号的一组频带中的每个频带中的间隙的需要(即，插入间隙的紧迫性)，并且对所述每个频带中的间隙的需要基于自所述频带中出现前一间隙以来所经过的时间。典型地，将每个间隙插入到所述回放信号中至少部分地基于所述紧迫性值(例如，响应于所述紧迫性值而执行)。

在一些(但不是全部)实施例中，对非回放声音的监测包括响应于所述麦克风输出信号和所述经修改的回放信号而执行回声消除。

在一些实施例中，对非回放声音的监测包括生成背景噪声估计，所述方法还包括响应于背景估计而生成音频回放信号(例如，在还执行对非回放声音的监测的全面收听子系统中)(例如，以试图改善音频回放信号的内容的回放)的步骤，并且生成所述音频回放信号的步骤包括响应于所述背景估计而对输入音频信号执行噪声补偿。

本发明的各方面包括一种被配置(例如，被编程)为执行本发明方法或其步骤的任何实施例的系统，以及一种实施数据的非暂态存储的有形非暂态计算机可读介质(例如，磁盘或其他有形存储介质)，所述有形非暂态计算机可读介质存储了用于执行(例如，可运行以执行)本发明方法或其步骤的任何实施例的代码。例如，本发明系统的实施例可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何操作，包括本发明方法或其步骤的实施例。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行本发明方法(或其步骤)的实施例。

附图说明

图1是实施经噪声补偿的媒体回放(NCMP)的音频回放系统的框图。

图2是根据称为回声消除的常规方法从麦克风输出信号生成噪声估计的常规系统的框图。通过捕获回放环境中的声音(指示回放内容)和噪声来生成麦克风输出信号。

图3是通过执行本发明方法的实施例已在其中插入了强加间隙的经修改的音频信号的频谱图。

图4是作为频率的函数的频带增益的曲线图，该频带增益根据本发明的一些实施例被施加到音频信号的频带以将间隙强加到频带中信号的音频内容中。增益(和间隙)具有中心频率f₀和带宽B。根据本发明的实施例，可以将间隙的深度设置(例如，通过内插)为0dB与-Z dB之间的期望值。

图5是作为时间的函数的频带增益的轮廓，所述频带增益被施加到音频信号的频带以将间隙(图4中所示的相同间隙)强加到频带中信号的音频内容中。指示了间隙的三个时间间隔t1、t2和t3。

图6是图示了根据本发明的一些实施例的在其中插入间隙的音频信号的带划分结构(包括49个频带)的示例的曲线图。

图7是被配置为将间隙(强加间隙)插入到音频信号中的本发明的全面收听系统的实施例的框图。

图8是被配置为将间隙(强加间隙)插入到音频信号中的本发明的全面收听系统的另一个实施例的框图。

图9是被配置为将间隙(强加间隙)插入到音频信号中的本发明的全面收听系统的另一个实施例的框图。

图10是被配置为将间隙(强加间隙)插入到音频信号中的本发明的全面收听系统的另一个实施例的框图。

图11是本发明系统的实施例的框图，所述系统用于为麦克风输出信号的每个频带生成背景噪声估计，并且使用噪声估计对输入音频信号执行噪声补偿以生成经补偿的音频信号，包括通过将间隙(强加间隙)插入到经补偿的音频信号中。

图12是图11的系统的示例实施方式的更详细的框图。

图13是图12的系统的噪声估计子系统37的实施方式的示例的框图。

图14是回放内容的当前经带划分的能量(曲线E)和回放内容的感知掩蔽曲线(曲线M)的曲线图，对于49个指数间隔的频带(频带0到频带48)中的每一个频带，每个曲线被绘制为以dB为单位的能量(在竖直轴线上指示)与频带(在水平轴线上指示)的函数。

图15是本发明的强加间隙施加器的实施例的框图。

符号和术语

贯穿本公开，包括在权利要求中，音频信号中(以及音频信号的回放内容中)的“间隙(gap)”表示信号中缺失(例如，至少一个频带中的)回放内容(或回放内容的电平小于预定值)的时间(或时间间隔)。音频信号可以具有经带划分的频域表示(在信号的一系列时间或时间间隔中的每一个中)，所述经带划分的频域表示包括一组不同频带中的每个频带中的频域回放内容(在每个时间或时间间隔处)，并且所述音频信号在频带中的至少一个频带中可以具有间隙(在音频信号的时间或时间间隔处)。

贯穿本公开，包括在权利要求中，“扬声器(speaker)”和“扩音器(loudspeaker)”同义地用于表示由单个扬声器馈送(speaker feed)驱动的任何发声换能器(或一组换能器)。典型的一组耳机包括两个扬声器。扬声器可以被实施为包括多个换能器(例如，低音扬声器(woofer)和高音扬声器(tweeter))，这些换能器全部由单个公共扬声器馈送来驱动(扬声器馈送可以在耦接到不同换能器的不同电路分支中经历不同的处理)。

贯穿本公开，包括在权利要求中，在广义上使用“对”信号或数据进行操作的表达(例如，对信号或数据进行滤波、缩放、变换或施加增益)来表示直接对信号或数据进行操作或对信号或数据的已处理版本(例如，在对其进行操作之前已进行了初步滤波或预处理的信号版本)进行操作。

贯穿本公开，包括在权利要求中，在广义上使用表达“系统”来表示设备、系统或子系统。例如，实施解码器的子系统可以被称为解码器系统，并且包括这种子系统的系统(例如，响应于多个输入而生成X个输出信号的系统，其中，所述子系统生成其中M个输入，而其他X-M个输入是从外部源接收的)也可以被称为解码器系统。

贯穿本公开，包括在权利要求中，在广义上使用术语“处理器”来表示可编程或以其他方式可配置(例如，用软件或固件)为对数据(例如，音频、或视频或其他图像数据)执行操作的系统或设备。处理器的示例包括现场可编程门阵列(或其他可配置集成电路或芯片组)、被编程和/或以其他方式被配置为对音频或其他声音数据执行流水线式处理的数字信号处理器、可编程通用处理器或计算机，以及可编程微处理器芯片或芯片组。

贯穿本公开，包括在权利要求中，术语“耦接(couples)”或“被耦接(coupled)”用于指直接或间接连接。因此，如果第一设备耦接至第二设备，则所述连接可以通过直接连接或者通过经由其他设备和连接的间接连接实现。

具体实施方式

本发明的许多实施例在技术上是可能的。对于本领域普通技术人员而言，阅读了本公开之后，如何实施这些实施例是显而易见的。这里参考图3至图14描述了本发明的系统和方法的一些实施例。

根据本发明的典型实施例，将间隙(被称为“强加”间隙)插入到音频回放信号中，以引入音频回放内容的有意失真，以便提供对要监测的背景噪声(或回放环境中的其他非回放声音)的认知。典型地，将强加间隙人为地插入到特定频带中，在所述频带中，对应的噪声(或其他非回放声音)估计已过时(例如，使得可以根据美国临时专利申请第62/663,302号中描述的间隙置信度框架自动使用强加间隙)。在一些实施例中，仔细地在感知上掩蔽失真，即使引入了强加间隙也可以提供良好质量的收听体验，并且即使不使用回声消除器，也可以以与内容无关的方式实施响应性噪声估计(或其他全面收听方法)。

在一些实施例中，在回放信号中插入一系列强加间隙，每个强加间隙处于回放信号的不同频带(或一组频带)中，以允许全面收听器监测在每个强加间隙“中”发生的非回放声音，其意义在于，非回放声音发生在出现间隙的时间间隔期间以及插入间隙的(多个)频带中。图3是通过执行本发明的实施例已在其中插入了这种强加间隙的经修改的音频回放信号的频谱图的示例。更具体地，为了生成图3的频谱图，对音频回放信号执行本发明方法的实施例，以在其频带中引入强加间隙(例如，图3所示的间隙G1、G2和G3)，从而生成经修改的音频回放信号。在图3所示的频谱图中，沿水平轴线的位置指示时间，而沿竖直轴线的位置指示在某个时刻处经修改的音频回放信号的内容的频率。每个小区域(以具有竖直和水平坐标的点为中心的每个这种区域)中的点密度指示在对应的频率和时刻下经修改的音频回放信号的内容的能量(密度较大的区域指示具有更大能量的内容，并且密度较小的区域指示具有更低能量的内容)。因此，间隙G1在比间隙G2或G3出现的时间(即出现间隙G2或G3的时间间隔)更早的时间(即，时间间隔中)出现，并且间隙G1被插入到了比已插入间隙G2或G3的频带更高的频带中。

根据本发明的典型实施例，将强加间隙引入到回放信号中与单工(simplex)设备操作不同，在所述单工设备操作中，设备暂停内容回放流(例如，以便更好地收听用户和用户的环境)。根据本发明的典型实施例将强加间隙向回放信号中的引入被优化以显著降低(或消除)在回放期间由引入的间隙引起的伪像的可感知性，优选地使得强加间隙对用户没有或仅有最小的可感知影响，但使得回放环境中麦克风的输出信号指示强加间隙(例如，因此可以利用间隙来实施全面收听方法)。通过使用根据本发明的典型实施例引入的强加间隙，即使不使用声学回声消除器，全面收听系统也可以监测非回放声音(例如，指示回放环境中背景活动和/或噪声的声音)。

参考图4和图5，接下来描述可以插入音频回放信号的频带中的参数化强加间隙的示例，以及用于选择这种强加间隙的参数的标准。参数化强加间隙是使用频带衰减的回放内容衰减G，其在时间和频率两者上的轮廓类似于图4和图5所示的轮廓。通过在由中心频率f₀(图4所示)和带宽B(也如图4所示)定义的频率范围(“带”)上对回放信号施加衰减G来强加间隙，其中衰减作为频带中(即，在频带内的每个频率仓中)的每个频率处的时间的函数而变化，其轮廓类似于图5所示。衰减G(作为跨频带的频率的函数)的最大值可以控制为从0dB(在频带的最低频率处)增大到中心频率f₀处的最大衰减(抑制深度)Z(如图4所示)，并且(随着高于中心频率的频率增大)降低到0dB(在频带的最高频率处)。

图4是指示作为频率(即，频率仓)的函数的频带衰减G的轮廓的图，其被施加到音频信号的频率分量以将间隙强加到频带中信号的音频内容中。音频信号可以是回放信号(例如，多声道回放信号的声道)，并且音频内容可以是回放内容。

图5是作为时间的函数的频带衰减G的轮廓，其被施加到中心频率f₀处的频率分量以将图4中所指示的间隙强加到频带中信号的音频内容中。对于频带中的每个其他频率分量，作为时间的函数的频带增益的轮廓与图5所示的轮廓类似，但图5的抑制深度Z被内插抑制深度kZ取代，其中k为范围从0到1的因子(作为频率的函数)，使得kZ具有图4的轮廓。对于每个频率分量，还从0dB到抑制深度kZ(例如，在中心频率处，如图5所示，k＝1)内插衰减G(作为时间的函数)，例如以减小由于引入间隙而导致的音乐伪像。这后一个内插的三个区域(时间间隔)t1、t2和t3如图5所示。

因此，当对于特定频带(即，以中心频率f₀为中心的频带，如图4所示)发生间隙强加操作时，施加到频带中的每个频率分量(即，施加到频带内的每个仓)的衰减G遵循如图5所示的轨迹。以0dB开始，衰减在t1秒中下降到深度-kZ dB，在所述深度保持t2秒，并且最后在t3秒中上升回到0dB。总时间t1+t2+t3的选择应考虑用于分析麦克风馈送的任何频率变换的时间分辨率，以及对用户而言不太烦扰的合理持续时间。

本发明的典型实施例根据预定的、固定的带划分结构插入强加间隙，所述带划分结构覆盖音频回放信号的全频谱，并且包括B_计数个频带(其中B_计数是数量，例如，B_计数＝49)。为了在频带中的任何频带中强加间隙，在频带中施加频带衰减。具体地，对于第j个频带，在由频带限定的频率区域上施加衰减Gj。在确定频带的数量和每个频带的宽度时，折衷存在于感知影响(具有间隙的较窄频带更好，因为它们典型地具有较小的感知影响)与间隙的有用性(具有间隙的较宽频带更好地用于实施噪声估计(和其他全面收听方法)以及在全频谱的所有频带中，例如，响应于背景噪声或回放环境状态的变化，减少收敛到新的噪声估计(或通过全面收听监测的其他值)所需的时间(“收敛”时间))之间。如果一次只能强加有限数量的间隙，则在大量小频带中顺序地强加间隙(比在较少数量的较大频带中顺序地强加间隙)所花费的时间更长，从而导致更长的收敛时间。较大的频带(具有间隙)一次提供许多关于背景噪声的信息(或通过全面收听监测的其他值)，但具有较大的感知影响。

图6图示了回放信号的带划分结构的示例，其中B_计数等于49，并且其中49个频带中的25个频带中的每个频带的中心频率沿水平轴线被指示，所述带划分结构已被确定为上文描述的折衷的合理中间立场。图6的结构的每个频带具有与其相关联的预定间隙，其中间隙的最大抑制深度(在频带内的每个仓中)由图6的右侧处的图中的暗色程度指示(以下文说明的方式)。图6的频带的宽度被选择为随频率的增大而对数增大(与临界频带一样)，并且每个频带中的强加间隙的宽度(以及作为每个频带中的强加间隙的中心的仓数量)也被选择为随频率的增大而对数增大。这促进了与在此区域中操作以执行感知音频处理的其他部件的互操作性。在临界带划分结构之后，对数分布的带划分结构高效利用了较少数量的频带。在图6的每个频带内(例如，具有中心频率7109.4Hz的频带)，存在256个频率仓(在图6的左侧沿竖直轴线指示)。对于每个仓，存在相关联的抑制深度kZ，所述抑制深度是施加到这种仓中的回放内容的最大抑制(如上文参考图4和图5描述的)，其中Z对应于图5中的值Z，并且k是范围从0到1(作为相关频带内的仓的频率的函数)的比例因子。对于每个频带内的每个仓，比例系数k由图6右侧处的图中的暗色程度指示。因此，中心频率为7109.4Hz的频带的最大比例因子k＝1出现在频率相对较低的仓中(在约第70个仓中)，并且中心频率为17859.4Hz的频带的最大比例因子k＝1出现在频率相对较高的仓中(在约第180个仓中)。

当评估在回放内容的频带中引入强加间隙(参考图4和图5讨论的类型的强加间隙)的感知影响时，针对每个频带，参考上文讨论的三个定时参数t1、t2、t3和深度Z以及频带的数量B_计数是有用的。在本发明的典型的实施例中，这些参数具有默认值，以及最小值和最大值，如下表1所指示的：

表1：用于在回放信号的频带中强加间隙的参数的示例。

优选地，根据从用于插入强加间隙的预定带划分结构(例如，图6的带划分结构)进行的离散选择和要插入强加间隙的所选时间间隔，引入每个(在回放内容的频带中)所引入的强加间隙。

为了实施本发明的典型实施例，关于应在回放信号的一组B_计数个频带中的哪个(哪些)离散频带中强加(多个)间隙，以及应何时强加每个这种间隙，作出选择。接下来，讨论与这种选择相关的因素，包括量化和平衡以下两者的方法：

1.对在频带中强加间隙的需要(在本文中有时被称为“紧迫性”的因素)；以及

2.强加间隙会具有感知影响的程度(在本文中有时被称为“感知自由度”的因素)。

在本发明的一些实施例中，针对回放信号的B_计数个频带中的每个频带确定紧迫性和感知自由度估计，以试图以最小化整体紧迫性并且获得可接受的低的(例如，最小化)感知代价(例如，在非最佳的统计意义上)的方式插入强加间隙。例如，这可以如下实施。在B_计数个可能的结果上定义了离散概率分布P(即，定义了在特定时间选择B_计数个频带中的每一个频带的概率)。每个时间间隔w_f一次，对此分布P进行随机采样以选择在其中(在对应的时间间隔内)插入强加间隙(例如，具有如参考图4、图5和图6所描述的参数)的频带。通过从分布中进行随机选择，可以降低间隙的感知影响，因为会产生不那么可预测和结构化的音频伪像。分布P可以以多种不同方式中的任何一种被确定。优选地，分布P平衡并且优先化对要强加的间隙具有高需求(紧迫性)并且一旦被强加则具有低感知影响的频带。例如，一种这样的分布是：

其中，

P′_k＝δ*U_k+(1-δ)*F_k，

并且其中，U_k和F_k分别是指示第“k”个频带的紧迫性和感知自由度的值，P’_k是选择第“k”个频带的(非归一化)概率，δ是指示紧迫性和感知自由度考虑的相对重要性的参数，并且求和是在所有频带上进行的(使得P_k是第“k”个频带的P’_k的归一化版本)。

图7是被配置为借助于(由全面收听子系统71实施的)全面收听方法在音频信号(有时被称为音频回放信号)中插入强加间隙的系统的框图。全面收听子系统71在本文中有时被称为“全面收听器”。图7的系统的强加间隙施加子系统(强加间隙施加器)70被耦接并且配置为在音频回放信号中插入强加间隙。典型地，音频回放信号包括K个声道(每个声道指示不同的回放内容声道)，其中，K是正整数，并且强加间隙施加器70被配置为分析这些声道，并且在一系列时间间隔中的每个时间间隔期间，在所述声道中的一个或多个声道中强加间隙。因此，从强加间隙施加子系统70输出的K个音频回放声道可以在其中具有强加间隙。

输入到强加间隙施加子系统70的音频信号的每个声道指示音频内容(在本文中有时被称为媒体内容或回放内容)，并且旨在经历回放以(在环境E中)生成指示音频内容的声音。从强加间隙施加子系统70输出的音频信号的每个声道可以是扬声器馈送，或者系统的另一个元件可以响应于从强加间隙施加子系统70输出的音频信号的每个声道而生成扬声器馈送。在回放环境E中，将K个扬声器馈送断言给扬声器系统S(包括至少一个扬声器)。

全面收听子系统71(在一些实施方式中，其是在适当编程的处理器上运行的全面收听应用程序)被耦接并且配置为监测回放环境E中除了从环境E中的(响应于(多个)扬声器馈送的)扬声器系统S发出的回放声音之外的声音(“非回放”声音)。具体地，环境E中的麦克风M捕获环境E中的声音，并且向全面收听子系统71断言指示所捕获的声音的麦克风输出信号Mic。所捕获的声音包括从扬声器系统S发出的回放声音，以及可以是或包括背景噪声的非回放声音，和/或环境E中的至少一个人类用户L的语音(或指示所述至少一个人类用户的活动或仅其存在的其他声音)。

通过监测环境E中的由根据本发明已插入到回放内容中的强加间隙(即，在与强加间隙相对应的频带和时间间隔中)揭示的非回放声音，全面收听子系统71的性能相对于其在不插入强加间隙的情况下可以获得的性能得到改善。

可选地，全面收听子系统71被耦接并且还被配置为响应于由所述全面收听子系统71执行的监测的至少一个结果而生成音频回放信号，所述音频回放信号被输入到强加间隙施加器70(例如，出于在某个方面改善扬声器系统S进行的音频信号回放的目的)。全面收听子系统71可以通过修改输入音频回放信号来生成音频回放信号(例如，如要在下文描述的图8的系统的全面收听子系统72那样)。例如，在一些实施方式中，全面收听子系统71被耦接并且配置为对输入音频信号(典型地包括K个回放内容声道)执行处理(例如，噪声补偿)以生成输入到强加间隙施加器70(例如，如要在下文描述的图8的系统的全面收听子系统72那样)的经处理音频回放信号(典型地包括K个经处理回放内容声道)。将经处理音频回放信号提供给强加间隙施加器70，并且强加间隙施加器的输出是(或用于生成)断言给扬声器子系统S的一组K个扬声器馈送。

扬声器系统S(包括至少一个扬声器)被耦接并被配置为响应于由强加间隙施加子系统70的输出确定的每个扬声器馈送而(在回放环境E中)发出声音。强加间隙施加子系统70的输出可以由单个回放声道或者两个或更多个回放声道构成。在典型的操作中，扬声器系统S的每个扬声器接收指示强加间隙施加子系统70的输出的不同声道的回放内容的扬声器馈送。作为响应，扬声器系统S在回放环境E中发出声音。典型地，声音被存在于环境E中的至少一个用户(L)感知。

图7的麦克风输出信号“Mic”是使用麦克风M生成的，所述麦克风M与扬声器系统S存在于相同的声学空间(图7的环境E)中，并且其中典型地还存在至少一个用户(人类收听者)L。

全面收听子系统71被提供有麦克风输出信号Mic。响应于麦克风输出信号Mic，全面收听子系统71监测(或尝试监测)环境E中的非回放声音。非回放声音是除扬声器系统S发出的声音之外的声音。例如，非回放声音可以是背景噪声和/或由用户L说出的声音(或由用户的活动引起的声音)。全面收听子系统71还被提供有从强加间隙施加子系统70输出的K个声道(其可以包括强加间隙)。提供给全面收听子系统71的K个声道在本文中有时被称为“回声参考”的K个声道。每个回声参考声道可以包含已由强加间隙施加子系统70自动强加到其中以帮助全面收听子系统71执行其监测任务的强加间隙。

在典型的实施方式中，强加间隙施加器70响应于指示插入间隙的紧迫性(在多个频带中的每一个中，在一系列时间间隔中的每一个中)的紧迫性数据值而在音频回放信号中插入间隙。在一些实施方式中，强加间隙施加器70使用针对频带中的每个频带的紧迫性的预定固定估计(例如，如上文描述的类型的概率分布所指示的)或由强加间隙施加器70(例如，基于输入到强加间隙施加器70的回放信号，以及可选地还基于由强加间隙施加器70进行强加间隙插入的历史)生成的针对每个频带的(在时间间隔中的每一个时间间隔中的)紧迫性估计来确定紧迫性数据值。

图8是被配置为借助于(由全面收听子系统72实施的)全面收听方法在音频回放信号中插入强加间隙的另一个系统的框图。图8的系统与图7的系统相同，除了图8的全面收听子系统72(如图所示耦接)取代了图7的全面收听子系统71，并且全面收听子系统72生成输入到强加间隙施加器70的回放信号(例如，通过修改作为输入提供给全面收听子系统72的输入音频回放信号)。

全面收听子系统72(在一些实施方式中，其是在适当编程的处理器上运行的全面收听应用程序)被耦接并且配置为监测回放环境E中的非回放声音。非回放声音是在环境E中除(响应于断言到所述扬声器系统S的(多个)扬声器馈送)从扬声器系统S发出的回放声音之外的声音。具体地，环境E中的麦克风M捕获环境E中的声音，并且向全面收听子系统72断言指示所捕获的声音的麦克风输出信号Mic。所捕获的声音包括从扬声器系统S发出的回放声音，以及非回放声音。非回放声音可以是或包括背景噪声，和/或环境E中的至少一个人类用户L的语音(或指示所述至少一个人类用户L的活动或仅其存在的其他声音)。

通过监测环境E中的由根据本发明由强加间隙施加子系统70插入到回放内容中的强加间隙(即，在与强加间隙相对应的频带和时间间隔中)揭示的非回放声音，全面收听子系统72的性能相对于其在不插入强加间隙的情况下可以获得的性能得到改善。

全面收听子系统72还被耦接并且配置为响应于由所述全面收听子系统72执行的监测的至少一个结果，对输入音频信号(典型地包括K个回放内容声道)执行音频信号处理(例如，噪声补偿)，以生成输入到强加间隙施加器70的经处理音频回放信号(典型地包括K个经处理回放内容声道)(例如，出于在某个方面改善扬声器系统S进行的音频信号回放的目的)。将经处理音频回放信号提供给强加间隙施加器70，并且强加间隙施加器的输出是(或用于生成)断言给扬声器子系统S的一组K个扬声器馈送。全面收听子系统72的实施方式的一个示例是噪声补偿子系统62以及下文要描述的图11的系统的噪声估计子系统64。

图9是被配置为借助于(由全面收听子系统73实施的)全面收听方法在音频回放信号中插入强加间隙的另一个系统的框图。图9的系统与图7的系统相同，除了图9的全面收听子系统73(如图所示耦接)取代了图7的全面收听子系统71。

在图9的系统中，强加间隙施加器70响应于由全面收听子系统73断言到所述强加间隙施加器70的紧迫性信号U进行操作，使得全面收听子系统73基于对回放信号中的间隙的需要来控制强加间隙插入。期望的是，全面收听子系统73的不同实施方式将对麦克风输出信号Mic的频带中的间隙的质量和数量有不同的要求。例如，在全面收听器73实施取决于在回放环境E中用户L的语音话语出现或不出现的全面收听方法的情况下，全面收听器73将仅对在典型的语音频率范围内出现的间隙感兴趣。典型地，紧迫性信号U指示一系列紧迫性值集合[U₀，U₁，...U_N]，其中，N是强加间隙施加子系统70可以在其中插入强加间隙(即，其中每个频带中插入一个强加间隙)的(回放信号的全频范围的)频带的预定数量，并且U_i是强加间隙施加子系统70可以在其中插入强加间隙的第“i”个频带的紧迫性值。每个紧迫性值集合(对应于时间)中的紧迫性值可以根据用于确定紧迫性的本发明方法的任何实施例来生成，并且指示(由强加间隙施加子系统70)在N个频带中(在当时)插入强加间隙的紧迫性。

在全面收听子系统73的一些实施方式中，紧迫性信号U指示由定义对N个频带中的每个频带进行间隙插入的概率的概率分布确定的固定(时间不变量)紧迫性值集合[U₀，U₁，...U_N]。因此，响应于这种固定的紧迫性值集合，强加间隙施加子系统70进行操作以在具有较低紧迫性值(即，由概率分布确定的较低概率值)的那些频带中插入(平均)较少的强加间隙，并且在具有较高紧迫性值(即，较高概率值)的那些频带中插入(平均)较多的强加间隙。在全面收听子系统73的一些实施方式中，紧迫性信号U指示一系列紧迫性值集合[U₀，U₁，...U_N]，例如，该系列中针对每个不同时间的不同紧迫性值。每个这种不同紧迫性值集合可以通过针对不同时间中的每个时间的不同概率分布来确定。下文更详细地描述紧迫性信号U和由此指示的紧迫性值的各种示例。

图7、图8和图9的实施例(例如，图7、图8和图9中的每一个的全面收听子系统)可以(但不是必须)实施声学回声消除。图10是被配置为借助于(由全面收听子系统76实施的)全面收听方法在音频回放信号中插入强加间隙的另一个系统的框图。图10的系统与图9的系统相同，除了图10的全面收听子系统76(如图所示耦接)取代了图9的全面收听子系统73，并且图10的实施例包括回声消除子系统(回声消除器)74，所述回声消除子系统对麦克风输出信号Mic执行回声消除，例如，以试图防止无意的回声泄漏穿过系统。强加间隙施加子系统70的输出(其可以包括强加间隙)作为回声参考被提供给回声消除器74。在典型的实施方式中，回声消除器74如图12的系统的下文描述的元件26、32、34和35那样实施。替代性地，回声消除器74可以以另一种(例如，传统)方式实施。

图11是噪声补偿系统的框图，所述噪声补偿系统包括噪声估计子系统(噪声估计器)64、噪声补偿增益施加子系统(噪声补偿子系统)62和强加间隙施加子系统(强加间隙施加器)70。图11的系统是上文描述的图8的系统的实施方式的示例，其中噪声补偿子系统62与图11的噪声估计器64一起对应于(并且实施)图8的全面收听子系统72，并且其中噪声估计器64被配置为向强加间隙施加器70提供紧迫性信号U。紧迫性信号U可以是上文参考图9提及的或本文其他地方描述的任何类型。在图11的系统中，强加间隙施加子系统70响应于紧迫性信号U进行操作，使得噪声估计器64基于对回放信号中间隙的需要来控制强加间隙插入。

噪声补偿系统(例如，图11的噪声补偿系统)可以在弱回声消除或不存在回声消除的情况下起作用(例如，当如上文参考的美国临时专利申请第62/663,302号中描述的那样实施时)，但是可能遭受依赖于内容的响应时间，尤其是在音乐、电视和电影内容的情况下。噪声补偿系统响应回放环境中背景噪声轮廓的变化所花费的时间对用户体验至关重要，这比实际噪声估计的准确性更为重要。当回放内容提供很少或没有提供瞥见背景噪声的间隙时，即使当噪声条件发生变化时，噪声估计也会保持固定。虽然在噪声估计频谱中内插和输入缺失值典型地是有帮助的，但噪声估计频谱的大区域仍然有可能被锁定并且变得陈旧。

图11的系统的强加间隙施加器70的典型实施例能够操作以提供(回放信号中的)强加间隙，所述强加间隙(在强加间隙施加器70的输出的每个感兴趣频带中)发生得足够频繁，使得可以足够频繁地更新背景噪声估计(通过噪声估计器64)，以响应回放环境E中背景噪声N的轮廓的典型变化。强加间隙施加子系统70被配置为在从噪声补偿子系统62输出的经补偿音频回放信号(具有K个声道，其中K为正整数)中引入强加间隙。噪声估计器64被配置为在经补偿音频回放信号的每个声道中搜索间隙(包括由强加间隙施加子系统70插入的强加间隙)，并且针对出现间隙的频带(以及在时间间隔中)生成噪声估计。噪声估计器64还被配置为使用关于检测到的间隙的所得信息来生成(并且向强加间隙施加子系统63断言)紧迫性信号，所述紧迫性信号的紧迫性值跟踪在经补偿音频回放信号的频带中插入强加间隙的紧迫性。

在没有强加间隙施加子系统70的情况下，图11的系统类似于传统的噪声补偿系统(例如，图1的系统)，其中噪声估计器64接受麦克风馈送Mic(回放环境E中麦克风M的输出)和经补偿音频回放信号的参考(回放环境E中扬声器系统S的输入)。在噪声估计子系统64中生成的噪声估计被提供给噪声补偿子系统62，所述噪声补偿子系统将补偿增益施加到(来自内容源22的)输入回放信号23，以将其每个频带拉平到期望的回放电平。经噪声补偿的音频回放信号(从噪声补偿子系统62输出)和每频带的紧迫性度量(由噪声估计子系统64输出的紧迫性信号指示)被提供给强加间隙施加器70，所述强加间隙施加器在经补偿回放信号中强加间隙(优选地根据优化过程)。向扬声器系统S的每个扬声器提供(多个)扬声器馈送，每个扬声器馈送指示(从强加间隙施加器70输出的)经噪声补偿的回放信号的不同声道的内容。

尽管图11的系统的一些实施方式可以作为其执行的噪声估计的元件执行回声消除(例如，如图12的元件26、32、34和35所实施的那样)，但是图11的系统的其他实施方式不执行回声消除。在图11中未具体示出用于实施回声消除的元件。

在图11中，未示出信号的典型实施的时域到频域(和/或频域到时域)变换，但是出于方便，施加噪声补偿增益(在噪声补偿子系统62中)、分析用于间隙强加的内容(在噪声估计器64和/或强加间隙施加器70中)以及插入强加间隙(通过强加间隙施加器70)典型地在同一变换域中实施，其中在回放或进一步编码以进行传输之前，将所得的输出音频重新合成为PCM(时域)音频。

通过使用强加间隙施加器70，(相对于在不使用强加间隙施加器70的情况下会出现的间隙的数量)典型地增加了(从图11的系统的噪声补偿子系统62输出的)经补偿回放信号的每个声道中的间隙的数量，以显著降低对由图11的系统实施的任何回声消除器的需求，并且在一些情况下甚至完全消除了对回声消除的需要。

在图7至图11中的任何一个的系统中，可以在强加间隙施加器70与扬声器系统S之间实施例如时域峰值限制或扬声器保护等简单的后处理电路。然而，具有提升和压缩扬声器馈送的能力的后处理具有消除或降低由强加间隙施加器插入的强加间隙的质量的潜力，并且因此，这些类型的后处理优选地在强加间隙施加器70之前的信号处理路径中的某一点处被实施。

接下来描述图12，图12是图11的系统的示例实施方式的更详细的框图。图12的系统被配置为生成对回放环境E中的背景噪声的估计，并使用所述噪声估计对输入音频信号进行噪声补偿。图13是图12的噪声估计子系统37的实施方式的示例的框图。

图12的噪声估计子系统37被配置为生成回放环境E中的背景噪声的估计(典型地是一系列噪声估计，每个噪声估计对应于不同的时间间隔)。图12的系统还包括噪声补偿子系统62，所述噪声补偿子系统被耦接并且被配置为使用从噪声估计子系统37输出的噪声估计(或者在后处理子系统39进行操作以修改从噪声估计子系统37输出的噪声估计的情况下从后处理子系统39输出的这种噪声估计的后处理版本)对输入音频信号23(来自来源22)进行噪声补偿，以生成输入信号23的经噪声补偿版本(回放信号25)。强加间隙施加子系统70被配置为(响应于从噪声估计子系统37向其提供的紧迫性信号U)将强加间隙插入到噪声补偿子系统62的输出中，从而生成回放信号25(所述回放信号的每个声道可以在其中插入有强加间隙)。

图12的强加间隙施加子系统70与图11的强加间隙施加子系统70相同，并且已经参考图11描述了噪声补偿子系统62的操作。图12的紧迫性信号U与图11的紧迫性信号U相同，并且图12的噪声估计子系统37可以被配置为以本文描述的用于生成紧迫性信号的方式中的任何一种(例如，以图11的噪声补偿子系统62可以被配置为生成紧迫性信号U的方式中的任何一种)生成信号U。

图12的噪声补偿子系统62与图11的噪声补偿子系统62相同，并且已经参考图11描述了噪声补偿子系统62的操作。

图12的系统包括内容源22，所述内容源被耦接并且被配置为输出音频信号23，并且将所述音频信号23提供给噪声补偿子系统62。信号23指示音频内容(在本文中有时被称为媒体内容或回放内容)的至少一个声道，并且旨在经历回放以(在环境E中)生成指示音频内容的每个声道的声音。音频信号23可以是扬声器馈送(或在多声道回放内容的情况下为两个或更多个扬声器馈送)，并且噪声补偿子系统62可以被耦接并被配置为通过调整扬声器馈送的回放增益来对每个这种扬声器馈送施加噪声补偿。替代性地，系统的另一个元件可以响应于音频信号23而生成扬声器馈送(或多个扬声器馈送)(例如，噪声补偿子系统62可以被耦接并且被配置为响应于音频信号23而生成至少一个扬声器馈送，并且通过调整扬声器馈送的回放增益来对每个扬声器馈送施加噪声补偿，以使回放信号25由至少一个经噪声补偿的扬声器馈送构成)。在图12的系统的操作模式中，噪声补偿子系统62不执行噪声补偿，从而使得回放信号25的音频内容与信号23的音频内容相同(除了由强加间隙施加子系统70插入的任何强加间隙修改的程度之外)。

扬声器系统S(包括至少一个扬声器)被耦接并且被配置为响应于回放信号25而(在回放环境E中)发出声音。信号25可以由单个回放声道构成，或者可以由两个或更多个回放声道构成。在典型的操作中，扬声器系统S的每个扬声器接收指示信号25的不同声道的回放内容的扬声器馈送。作为响应，扬声器系统S响应于(多个)扬声器馈送而(在回放环境E中)发出声音。所述声音作为输入信号23的回放内容的经噪声补偿版本被(环境E中的)用户(人类收听者)L感知到。

接下来，参考图12，描述方法和系统的实施例，所述方法和系统用于为回放内容的多个不同频带中的每个频带计算背景噪声水平的一系列估计。应当理解，图12的元件(不包括回放环境E、扬声器系统S、麦克风M和用户L)可以在处理器中或作为处理器来实施，其中，这种元件中执行信号(或数据)处理操作的那些元件(包括本文中被称为子系统的那些元件)以软件、固件或硬件来实施。

麦克风输出信号(例如，图12的信号“Mic”)是通过使用占用与用户(例如，图12的用户L)相同的声学空间(图12的环境E)的麦克风(例如，图12的麦克风M)来生成的。可能会使用两个或更多个麦克风(例如，将其各个输出组合在一起)来生成麦克风输出信号，并且因此，术语“麦克风”在本文中在广义上用于表示单个麦克风或者被操作用于生成单个麦克风输出信号的两个或更多个麦克风。麦克风输出信号指示声学回放信号(从图12的扬声器系统S发出的声音的回放内容)和竞争性背景噪声两者，并且被变换(例如，通过图12的时频变换元件32)为频域表示，从而生成频域麦克风输出数据，并且将频域麦克风输出数据带划分(banded)(例如，通过图12的元件33)到功率域中，从而产生麦克风输出值(例如，图12的值M’)。对于每个频带，使用校准增益G来调整值中的对应值(值M’之一)的水平，以产生调整后的值M。需要施加校准增益G来校正数字回放信号(值S’)与数字化麦克风输出信号水平(值M’)中的水平差。下面讨论通过测量自动确定G(针对每个频带)的方法。

对回放内容(其通常是多声道回放内容)的每个声道(例如，图12的经噪声补偿信号25的每个声道)进行频率变换(例如，通过图12的时频变换元件26，优选地使用由变换元件32执行的相同变换)，从而生成频域回放内容数据。对(所有声道的)频域回放内容数据进行下混(在信号25包括两个或更多个声道的情况下)，并且所得到的单个频域回放内容数据流被带划分(例如，通过图12的元件27，优选地使用由元件33执行的相同的带划分操作来生成值M’)以产生回放内容值S’(例如，图12的值S’)。考虑到硬件的任何时延(例如，由于A/D和D/A转换)，值S’还应该在时间上被延迟(在这些值根据本发明的实施例被处理之前)。此调整可以被认为是粗略调整。

图12的系统可以包括：回声消除器34，所述回声消除器34如图所示被耦接并且被配置为通过对从元件26和32输出的频域值进行回声消除来生成经回声消除噪声估计值；以及带划分子系统35，所述带划分子系统被耦接并被配置为对从回声消除器34输出的经回声消除噪声估计值(残差值)进行频带划分，以生成经带划分的经回声消除的噪声估计值M’res(包括每个频带的值M’res)。

在信号25是多声道信号(包括Z个回放声道)的情况下，回声消除器34的典型实施方式(从元件26)接收多个频域回放内容值流(每个声道一个流)，并且针对每个回放声道对滤波器W’_i(对应于图2的滤波器W’)进行适配。在这种情况下，麦克风输出信号Y的频域表示可以表示为W₁X+W₂X+...+W_ZX+N，其中，每个W_i是Z个扬声器中不同扬声器(第“i”个扬声器)的传递函数。回声消除器34的这种实施方式从麦克风输出信号Y的频域表示中减去每个W’_iX估计(每个声道一个估计)，以生成与图2的经回声消除噪声估计值Y’相对应的单个经回声消除噪声估计(或“残差”)值流。

回声消除器34用来生成经回声消除噪声估计值所使用的每个自适应滤波器(即，由回声消除器34实施的每个自适应滤波器，其对应于图2的滤波器W’)的滤波器系数在带划分元件36中被进行带划分。从元件36向子系统43提供经带划分的滤波器系数，以供子系统43使用以生成供噪声估计子系统37使用的增益值G。

可选地，回声消除器34被省略(或不进行操作)，并且因此不向带划分元件36提供自适应滤波器值，并且不从36向子系统43提供经带划分的自适应滤波器值。在这种情况下，子系统43在不使用经带划分的自适应滤波器值的情况下以(下述)方式之一生成增益值G。

如果使用回声消除器(即，如果图12的系统包括并使用如图12所示的元件34和35)，则从回声消除器34输出的残差值被带划分(例如，在图12的带划分子系统35中)，以产生经带划分的噪声估计值M’res。将(由子系统43生成的)校准增益G施加于值M’res(即，增益G包括一组特定于频带的增益，每个频带一个增益，并且将每个特定于频带的增益施加到对应频带中的值M’res)，以使信号(由值M’res指示)进入与回放信号(由值S’指示)相同的水平域。对于每个频带，使用校准增益G来调整值M’res中的对应值的水平，以产生调整后的值Mres。

如果未使用回声消除器(即，如果回声消除器34被省略或不进行操作)，则将(在图12和图13的描述中的)值M’res替换为值M’。在这种情况下，将经带划分的值M’(来自元件33)断言为图13的增益级12的输入(代替图13所示的值M’res)以及图13的增益级11的输入。(由图13的增益级12)将增益G施加于值M’以生成调整后的值M，并且调整后的值M(而不是如图13所示的调整后的值Mres)由子系统20(利用间隙置信度值)以与调整后的值Mres相同(而非替代)的方式进行处理，以生成噪声估计。

在典型的实施方式中(包括图13所示的实施方式)，噪声估计子系统37被配置为对回放内容值S’进行最小值跟随，以在噪声估计值M’res的调整后的版本(Mres)中定位间隙(即，由调整后的版本(Mres)确定间隙)。优选地，这以将参考图13描述的方式来实施。

在图13所示的实施方式中，噪声估计子系统37包括一对最小值跟随器(13和14)，这两个最小值跟随器都以相同大小的分析窗口来操作。最小值跟随器13被耦接并且被配置为在值S’上运行，以产生指示值S’(在每个分析窗口中)的最小值的值S_min。最小值跟随器14被耦接并且被配置为在值Mres上运行以产生指示值Mres(在每个分析窗口中)的最小值的值M_resmin。由于在回放内容中的间隙(例如，由强加间隙施加子系统70插入的强加间隙)中值S’、M和Mres至少是大致经时间对准的(通过回放内容值S’与麦克风输出值M的比较指示出的)，因此：

可以确信地认为值Mres(回声消除器残差)中的最小值指示回放环境中的噪声估计；并且

可以确信地认为值M(麦克风输出信号)中的最小值指示回放环境中的噪声估计。

在除回放内容的间隙期间之外的时间，值Mres(或值M)中的最小值可能并不指示回放环境中的准确噪声估计。

响应于麦克风输出信号(M)和S_min的值，子系统16生成间隙置信度值。样本聚合器子系统20被配置为使用M_resmin的值(或者，在没有进行回声消除的情况下，使用M的值)作为候选噪声估计，并且使用(由子系统16生成的)间隙置信度值作为候选噪声估计的可靠性的指示。

更具体地，图13的样本聚合器子系统20进行操作以将候选噪声估计(M_resmin)以通过间隙置信度值(其已在子系统16中生成)加权的方式组合在一起，以便为每个分析窗口(即，聚合器20的分析窗口，其具有如图13所指示的长度τ2)产生最终噪声估计，其中，与指示低间隙置信度的间隙置信度值相对应的加权候选噪声估计不赋予权重，或者被赋予的权重比与指示高间隙置信度的间隙置信度值相对应的加权候选噪声估计权重更低。因此，子系统20使用间隙置信度值来输出一系列噪声估计(一组当前噪声估计，对于每个分析窗口的每个频带包括一个噪声估计)。

子系统20的一个简单示例是(间隙置信度加权样本的)最小值跟随器，例如，仅当相关联的间隙置信度高于预定阈值时才包括分析窗口中的候选样本(M_resmin的值)的最小值跟随器(即，如果样本M_resmin的间隙置信度等于或大于阈值，则子系统20将权重“一”赋予该样本M_resmin，并且如果样本M_resmin的间隙置信度小于阈值，则子系统20将权重“零”赋予该样本M_resmin)。子系统20的其他实施方式以其他方式聚合间隙置信度加权样本(M_resmin的值，每个值均在分析窗口中通过间隙置信度值中的对应间隙置信度值被加权)(例如，确定间隙置信度加权样本的平均值或以其他方式聚合间隙置信度加权样本)。聚合间隙置信度加权样本的子系统20的示例性实施方式是(或者包括)线性插值器/单极平滑器，其更新速率由间隙置信度值控制。

子系统20可以在输入样本(M_resmin的值)低于(由子系统20确定的)当前噪声估计的时间采用忽略间隙置信度的策略，以便即使没有可用的间隙也跟踪噪声条件下的下降。

优选地，子系统20被配置为在低间隙置信度的间隔期间有效地保持噪声估计，直到由间隙置信度确定的新的采样时机出现为止。例如，在子系统20的优选实施方式中，当子系统20确定当前噪声估计(在一个分析窗口中)并且然后(由子系统16生成的)间隙置信度值指示回放内容中存在间隙的低置信度(例如，间隙置信度值指示低于预定阈值的间隙置信度)时，子系统20继续输出所述当前噪声估计，直到(在新的分析窗口中)间隙置信度值指示回放内容中存在间隙的更高置信度(例如，间隙置信度值指示高于阈值的间隙置信度)，此时，子系统20生成(并输出)更新的噪声估计。根据本发明的优选实施例，通过这样使用间隙置信度值来生成噪声估计(包括通过在低间隙置信度的间隔期间保持噪声估计直到由间隙置信度确定的新的采样时机出现)，而不是仅依赖于从最小值跟随器14输出的候选噪声估计值作为一系列噪声估计(而不确定和使用间隙置信度值)或以传统方式以其他方式生成噪声估计，所有采用的最小值跟随器分析窗口的长度(即τ1，最小值跟随器13和14中的每一个的分析窗口长度，以及τ2，在聚合器20被实施为间隙置信度加权样本的最小值跟随器的情况下聚合器20的分析窗口长度)可以比传统方法减少大约一个数量级，从而提高了当确实存在间隙时噪声估计系统可以跟踪噪声条件的速度。

如本文所述，噪声估计器37优选地还被配置为生成并且(向强加间隙施加器70)报告指示紧迫性值的紧迫性信号U。本文描述了这种紧迫性信号的示例(以及可以生成这种示例的方式)。

再次参考图12，更详细地描述噪声估计系统的实施方式(图12所示)的附加元件。如上所述，使用由噪声估计子系统37产生的噪声估计频谱(由噪声补偿子系统62)对回放内容23执行噪声补偿。噪声补偿子系统62的输出被提供给强加间隙施加器70，所述强加间隙施加器(在典型操作中)在其每个声道中插入强加间隙，从而生成经噪声补偿的回放内容25。从经噪声补偿的回放内容25确定的扬声器馈送在回放环境E中通过扬声器系统S播放给人类收听者(例如，用户L)。麦克风M与人类收听者在相同的声学环境(环境E)中接收环境(周围)噪声和回放内容(回声)两者。

经噪声补偿的回放内容25(在元件26中)被变换，并且(在元件27中)被下混和频带划分以产生值S’。麦克风输出信号(在元件32中)被变换并(在元件33中)被带划分以产生值M’。如果采用了回声消除器(34)，则来自回声消除器的残差信号(经回声消除噪声估计值)(在元件35中)被带划分以产生值Mres’。

子系统43根据麦克风到数字的映射来确定(每个频带的)校准增益G，所述麦克风到数字的映射捕获对于每个频带在数字域中被分接并提供给噪声估计器的点处的回放内容(例如，时-频域变换元件26的输出)与如由麦克风所接收的回放内容之间的水平差。增益G的每一组当前值从子系统43提供给噪声估计器37。

子系统43可以访问以下三个数据源中的至少一个：

出厂预设增益(存储在存储器40中)；

在先前的会话期间(由子系统43)生成(并存储在存储器41中)的增益G的状态；

在存在并正在使用AEC(例如，回声消除器34)的情况下经带划分的AEC滤波器系数能量(例如，确定由回声消除器实施的对应于图2的滤波器W’的自适应滤波器的能量)。这些经带划分的AEC滤波器系数能量(例如，从带划分元件36提供给图12的系统中的子系统43的能量)用作增益G的在线估计。

如果不采用AEC(例如，如果所采用的图12的系统的版本不包括回声消除器34)，则子系统43从存储器40或41中的增益值生成校准增益G。

因此，在一些实施例中，子系统43被配置为使得图12的系统通过确定供噪声估计子系统37施加到回放信号、麦克风输出信号和回声消除残差值的校准增益(例如，根据由带划分元件36提供的经带划分的AEC滤波器系数能量)来进行自校准，以实施噪声估计。

再次参考图12，可选地(在后处理子系统39中)对由噪声估计器37产生的一系列噪声估计进行后处理，包括通过对所述一系列噪声估计进行以下操作中的一个或多个：

从部分更新的噪声估计中对缺失的噪声估计值进行缺失值处理(imputation)；

约束当前噪声估计的形状以保持音质；以及

约束当前噪声估计的绝对值。

由子系统43进行的用于确定增益值G的麦克风到数字的映射捕获(对于每个频带的)在数字域中被分接以提供给噪声估计器的点处的回放内容(例如，时频域变换元件26的输出)与如麦克风所接收的回放内容之间的水平差。该映射主要由扬声器系统和麦克风的物理分离和特性以及声音再现和麦克风信号放大中使用的电放大增益来确定。

在最基本的情况下，麦克风到数字的映射可以是预存储的出厂调节，其可以在对设备样本的生产设计期间进行测量，并且然后重新用于所有正在生产的这种设备。

当使用AEC(例如，图12的回声消除器34)时，对麦克风到数字的映射的更复杂的控制是可能的。可以通过获取(由回声消除器确定的)自适应滤波器系数的大小并将它们一起进行带划分来确定增益G的在线估计。对于足够稳定的回声消除器设计，以及在对估计的增益(G’)进行足够的平滑处理的情况下，这种在线估计可以与离线预先准备的出厂校准一样好。这使得可以使用估计的增益G’代替出厂调节。计算估计的增益G’的另一个益处是，可以测量并考虑每个设备与出厂默认值之间的任何偏差。

虽然估计的增益G’可以代替出厂确定的增益，但是一种用于确定每个频带的增益G的稳健方法(其将出厂增益和在线估计增益G’结合在一起)如下：

G＝max(min(G′，F+L)，F-L)

其中，F是频带的出厂增益，G’是频带的估计的增益，并且L是与出厂设置的最大允许偏差。所有增益均以dB为单位。如果值G’长时间超出指示范围，则可能表示硬件故障，并且噪声补偿系统可能会决定退回到安全行为。

可以使用对根据本发明的实施例(例如，通过图12的系统的元件37)生成的一系列噪声估计(例如，通过图12的系统的元件39)进行的后处理步骤来维持较高质量的噪声补偿体验。例如，迫使噪声频谱符合特定形状以便去除峰值的后处理可以帮助防止补偿增益以不愉快的方式使回放内容的音质失真。

本发明的噪声估计方法和系统的一些实施例的方面是(例如，由图12的系统的元件39的实施方式进行的)后处理，例如，实施缺失值处理策略以更新(对于一些频带)由于回放内容中缺少间隙而已经过时的旧噪声估计的后处理，尽管对其他频带的噪声估计已进行了足够的更新。在足够数量的间隙(包括通过强加间隙施加器70的操作插入的强加间隙)持续可用并且频带很少过时的实施例中，过时值缺失值处理可能不是必需的。

如上所述，强加间隙施加器70的操作可以使内容25中存在足够数量的间隙(包括强加间隙)，以允许实施图12的系统的不包括回声消除器的版本。从噪声补偿系统中去除回声消除器令人期望地：

节省了大量的开发时间，因为回声消除器需要大量时间和研究用以调节来确保消除性能和稳定性；

节省了计算时间，因为(用于实施回声消除的)大型自适应滤波器组通常会消耗大量资源，并且经常需要高精度算法来运行；以及

去除了在麦克风信号与回放音频信号之间共享时钟域和进行时间校准的需要。回声消除依赖于回放信号和记录信号都要在同一音频时钟上同步。

(例如，在没有回声消除的情况下，根据本发明的任何典型实施例实施的)噪声估计器可以以增加的块速率(block rate)/较小的FFT大小运行，以进一步节省复杂性。在频域中进行的回声消除通常需要窄频率分辨率。

当根据本发明的一些实施例使用回声消除来生成噪声估计(包括通过将强加间隙插入到回放信号中)时，可以在不损害用户体验的情况下降低回声消除器的性能(当用户收听使用根据本发明的这种实施例生成的噪声估计来实施的经噪声补偿回放内容时)，因为回声消除器仅需要进行足够的消除以揭示回放内容中的间隙(包括强加间隙)，并且不需要为回放内容峰值维持高ERLE(“ERLE”在这里表示回声返回损耗增强，即回声消除器去除了多少回声(以dB为单位)的度量)。

接下来，描述用于确定紧迫性值或指示紧迫性值的信号(U)的方法(其可以在本发明的全面收听方法的许多不同实施例中的任何实施例中实施)。

频带的紧迫性值指示对要在频带中强加间隙的需要。提出了三种用于确定紧迫性值U_k的策略，其中U_k表示在频带k中插入强加间隙的紧迫性，并且U表示包含一组B_计数个频带中的所有频带的紧迫性值的向量：

U＝[U₀，U₁，U₂，...]。

第一策略(在本文中有时被称为方法1)确定固定的紧迫性值。此方法是最简单的，其简单地允许紧迫性向量U成为预定的固定量。当与固定的感知自由度度量一起使用时，这可以用于实施随时间随机插入强加间隙的系统。图7或图8的系统足以实施此方法，因为所述方法不需要由全面收听应用程序供应的时间相关的紧迫性值。因此：

U＝[u₀，u₁，u₂，...，u_X]

其中X＝B_计数，并且每个值u_k(对于k在从k＝1到k＝B_计数的范围中)是“k”频带的预定固定紧迫性值。将所有u_k设置为1.0将在所有频带中表达同等程度的紧迫性。

第二策略(在本文中有时被称为方法2)确定紧迫性值，所述紧迫性值取决于自前一间隙出现以来所经过的时间。典型地，可以预期，随着时间推移，紧迫性会逐渐增大，并且一旦强加间隙或现有间隙导致全面收听结果发生更新(例如，背景噪声估计更新)，就返回为低紧迫性。

因此，每个频带(频带k)中的紧迫性值U_k可以是自在频带k中(被全面收听器)看到间隙以来的秒数。因此：

U_k(t)＝min(t-t_g，U_max)

其中t_g是对于频带k看到最后一个间隙的时间，并且U_max是将紧迫性限制为最大大小的调节参数。应当注意，t_g可以基于起初存在于回放内容中的间隙的存在来更新。可以通过(例如，在图7或图8的系统中的)强加间隙施加器或通过(例如，图9、图10、图11或图12的系统中的)全面收听子系统以这种方式计算紧迫性。如果紧迫性是通过全面收听子系统计算的，则对于所述子系统，关于什么被认为是间隙的标准可能是更适当的(与紧迫性是在外部确定的相比)。例如，在噪声补偿中，回放环境中的当前噪声条件确定了输出回放信号中什么被认为是间隙。也就是说，与环境更嘈杂的情况相比，当发生间隙的环境安静时，回放信号必须更安静。同样，当实施取决于用户在回放环境中的语音话语出现或不出现的全面收听方法时，通常由人类语音占据的频带的紧迫性通常将更为重要。

第三策略(在本文中有时被称为方法3)确定基于事件的紧迫性值。在这种语境下，“基于事件”表示依赖于回放环境外部的或者在回放环境中检测到或推断已发生的某个事件或活动(或对信息的需要)。随着新用户行为的开始或回放环境条件的变化，由全面收听子系统确定的紧迫性可能会突然变化。例如，这种变化可能导致全面收听器迫切需要观察背景活动，以便作出决定，或者快速将回放体验调整为新的条件，或者实施总体紧迫性或期望的密度和每个频带中的间隙之间的时间的变化。下表2提供了多个上下文和场景的示例以及对应的基于事件的紧迫性变化：

表2

第四策略(在本文中有时被称为方法4)使用方法1、方法2和方法3中的两种或更多种的组合来确定紧迫性值。例如，方法1、方法2和方法3中的每一种都可以组合为联合策略，通过以下类型的通用公式表示：

U_k(t)＝u_k*min(t-t_g，U_max)*V_k

其中u_k是控制每个频带的相对重要性的固定的无单位加权系数，V_k是响应于需要快速更改紧迫性的上下文或用户行为的变化而调节的标量值，并且上文定义了t_g和U_max。典型地，在正常操作下，值V_k被预期保持为值1.0。

接下来，描述用于确定感知自由度值(或指示所述感知自由度值的信号)以供强加间隙施加器用于在回放信号中插入强加间隙的方法(其可以在本发明的全面收听方法的许多不同实施例中的任何一个中实施)。

在此上下文中，“F”被定义为指示感知自由度值f_k的“感知自由度”信号，其中，当在某个时间点在对应频带k中强加间隙的感知影响较低时，这种感知自由度值中的每一个具有相对较大的量值，并且当在某个时间点在频带k中强加间隙的感知影响较高时，这种感知自由度值中的每一个具有相对较小的量值(小于所述相对较大的量值)。例如，感知自由度值f_k可以是由第“k”个频带中的强加间隙引入的感知失真的倒数。

第一策略确定固定的感知自由度值。例如，“F”可以是预定的固定向量：

F＝[f₀，f₁，f₂，...，f_X]

其中X＝B_计数(可以插入强加间隙的可用频带数量)并且值f_k(对于k在k＝1到k＝B_计数的范围中)是“k”频带的预定的固定感知自由度值。尽管对于所有f_k，f_k＝1.0的平坦结构将平等地对待所有频带(其意义是响应于相同的感知自由度值，强加间隙将不会优先插入到频带中的特定频带中)，但实际上不同的频带在感知能力上会具有内在的差异。特别地，低于1kHz和高于6kHz的频带中插入的间隙比这些频率之间的间隙在感知上的影响更大。考虑到这种现象的固定的感知自由度向量在强加间隙插入的一些实施方式中可能是有效的。

第二策略使用感知掩蔽曲线确定感知自由度值。在这种策略中，插入到回放内容流中的强加间隙可以被认为是一种失真。在一组离散频率仓中选择要在其中放置失真的频率仓(或频带)也是在信息隐藏和有损音频编解码器领域中遇到的一个问题。信息隐藏和有损音频压缩领域的技术人员将熟悉感知掩蔽曲线的概念。这种曲线有助于指示人类收听者无法听到因添加噪声而导致的失真。

存在用于确定利用任何数量的心理声学效果的感知掩蔽曲线的许多已知的方法。例如，两种这样的方法是频率掩蔽和时间掩蔽。这些方法的示例在以下中被描述：Swanson,M.D.,Kobayashi,Mei和Tewfik,Ahmed(1998),Multimedia Data-Embedding andWatermarking Technologies[多媒体数据嵌入和水印技术],Proceedings of the IEEE[电气与电子工程师协会会报],第86卷,第6期,第1064-1087页。

为了根据第二策略计算f_k值，引入感知掩蔽曲线M，所述曲线具有跨B_计数个频带的离散值。图14是回放内容的当前经带划分的能量(曲线E)和回放内容的感知掩蔽曲线(曲线M)的示例，对于49个指数间隔的频带(频带0到频带48)中的每一个，每个曲线被绘制为以dB为单位的能量(在竖直轴线上指示)与频带(在水平轴线上指示)的函数。与能量E高于掩蔽曲线M的频带相比，能量E低于掩蔽曲线M的频带中的回放内容的修改在感知上更为听不到。因此，采取曲线的值之间的距离(针对第“k”个频带)作为第“k”个频带的感知自由度f_k：

f_k＝M_k-E_k。

接下来，描述用于根据感知掩蔽计算来确定感知自由度值的示例实施例。在示例中，经带划分的回放内容能量(E_k)为：

E＝[E₀，E₁，E₂，...]，并且

目的是为频带产生掩蔽阈值(M_k)：

M＝[M₀，M₁，M₂，...]

使得作为第“k”个频带的感知自由度值自由度f_k的差M_k-E_k(针对第“k”个频带)是与第“k”个频带中的强加间隙的可感知性成反比的值。在此，掩蔽阈值的定义不保证插入强加间隙的不可感知性。周知的是在已经利用受控信号和条件证明和证实了不可感知性的场景中如何使用掩蔽曲线，然而感知自由度的计算仅要求曲线指示(indicative of)这一点，而不是规范性的(normative)。

大声的信号具有掩蔽在频率上附近的较安静的信号的能力，这种现象被称为“频率掩蔽”(或“频谱掩蔽”或“同时掩蔽”)。在示例中，将频率掩蔽的概念应用于经带划分的能量E，以通过根据以下算法扩展能量来确定掩蔽阈值M_k：

M₀＝E₀，

M_k＝max(E_k-1*s_k-1，E_k)对于频带k＝1，2，...，B_计数-1，并且

M_k＝max(M_k+1*s_k+1，M_k)对于频带k＝0，1，...，B_计数-2，

其中顺序地执行这些行(在每次执行期间，更新M_k中的值“k”)，并且其中s_k是从心理声学模型得到的扩展因子。扩展因子典型地与对应频带的带宽成比例。对于具有增大的带宽的对数间隔的频带，通常以下简单的线性近似就足够了：

其中

大声信号的回放具有掩蔽此后不久发生的较安静信号的回放的能力，这种现象被称为“时间掩蔽”。在示例中，通过将衰减指数施加到经带划分的能量来对时间掩蔽进行建模。在示例中，根据以下算法，施加前向时间掩蔽来确定掩蔽曲线的掩蔽阈值M_k,t(针对时间t的不同值的每条曲线)，其中M_k,t是针对时间t的曲线的频带k的掩蔽阈值，所述算法将截断到上文确定的掩蔽阈值M_k中的每一个的T个先前值的指数施加到模型：

针对每个不同的频带索引k，

其中针对每个频带k对该频带的T个项(针对时间t的值M_k，以及针对T-1个先前时间中的每一个的值M_k)取最大值(“max( )”)。上文表达式中的参数α是指数的衰减速率，所述衰减速率将取决于系统的块速率/采样速率。达到0.1dB/ms的衰减速率的值α是合理的默认值α。

确定掩蔽阈值的示例方法可选地包括加强掩蔽曲线的步骤。在此步骤中，对于低能量带，掩蔽曲线被加强(emphasized)以将曲线向上抬起，当使用加强曲线以用于插入间隙时，这通常会获得好的结果。此最后的步骤是可选的，并且如果(非加强)掩蔽曲线对于强加间隙的施加过于保守，则所述最后的步骤是有用的。加强步骤的典型实施方式是将每个先前确定的值M_k替换为以下加强值：

接下来，描述根据本发明的一些实施例实施的概率性强加间隙插入的典型方面。

一旦已经计算或以其他方式确定了紧迫性和感知自由度值，就将所述紧迫性和感知自由度值进行组合(在强加间隙插入的一些实施例中)，以形成(上述)离散概率分布P：

P′_k＝δ*U_k+(1-δ)*F_k

其中参数δ控制紧迫性(U_k)相对于感知自由度(F_k)的相对重要性。这种概率分布便于调节和控制。

在每个分析帧中，用于选择要(使用前一段落的概率分布)在其中插入强加间隙的回放信号的频带的算法的示例如下：

1.计算或以其他方式确定当前分析帧的值U_k和F_k(可选地，限制值U_k使得所述值不超过值Uma_x)；

2.计算(分布P的)值P_k，从所述值中选择(抽取)频带以用于强加间隙插入；并且

3.如果自上次强加间隙以来经过了至少T_p秒，则

a.从分布P中随机抽取N个频带，以及

b.丢弃U_k低于阈值U_min或F_k高于阈值F_min的任何频带，以及

c.在步骤3a和步骤3b之后，在剩余的频带中启动间隙强加。

通过从分布P中随机选择，避免间隙的结构化图案，否则所述结构化图案将产生其自己的可感知伪像。步骤3b最终降低了实际产生的间隙数量，但是具有重要的优势，即非常易于调节，并且与系统的感知成本高度相连。下表阐述了示例方法中参数的值的典型默认值，以优化总体分布形状以便具有降低的可感知的影响和对紧迫性的及时响应。

接下来，参考图15，描述本发明的强加间隙施加器的实施例(例如，图7、图8、图9、图10、图11或图12的强加间隙施加器70的实施例)。如图15所示，图15是强加间隙施加器的这种实施例的框图，到强加间隙施加器的输入是音频回放信号的K个声道(例如，当图15的系统实施图8的强加间隙施加器70时，已从图8的全面收听子系统72输出的K个声道)。图15的系统包括下混和带划分子系统80，所述下混和带划分子系统80被配置为将K个输入声道下混为单声道馈送并且对单声道馈送进行带划分，从而针对单声道馈送的一组B_计数个频带中的每一个频带的每个时间间隔确定回放能量值。子系统80的输出被提供给感知掩蔽子系统81，所述感知掩蔽子系统81被配置为计算感知自由度信号F，所述感知自由度信号指示针对每个时间间隔的B_计数个频带中的每一个频带的感知自由度值F_k。子系统81可以被配置为确定感知自由度值F_k，使得所述感知自由度值是本文描述的感知自由度值的示例中的任何示例。

子系统81的输出被提供给概率分布子系统82，所述概率分布子系统被配置为确定概率分布P(例如，固定的时间不变的分布，或在对应于单声道馈送的不同时间间隔的时间处更新的分布)。根据概率分布，可以由子系统83随机抽取一组N个频带(例如，针对单声道馈送的每个时间间隔的一组N个频带)，使得子系统84可以在每一组抽取的频带中插入强加间隙。子系统82典型地被配置为生成(并且可选地，针对单声道馈送的多个不同时间间隔中的每一个时间间隔更新)概率分布P以使其为以下形式的分布(其在本公开中在上文进行了描述)：

其中，

P′_k＝δ*U_k+(1-δ)*F_k，

并且其中，F_k是由子系统81(例如，针对相关时间间隔)确定的感知自由度值，U_k是指示每个频带的紧迫性的值(即，U_k是第“k”个频带的紧迫性值)，P’_k是选择第“k”个频带的(非归一化)概率，δ是指示紧迫性和感知自由度考虑的相对重要性的参数，并且在所有频带上求和(使得P_k是第“k”个频带的P’_k的归一化版本)。

在一些实施方式中，从外部源(例如，图9的全面收听子系统73或图11的噪声估计子系统64)向子系统82提供指示紧迫性值U_k的经带划分的紧迫性信号U(例如，针对回放信号的时间间隔)。外部源通常是全面收听器(例如，智能话音助手、噪声估计器或背景活动分类器)。替代性地，子系统82被配置为确定紧迫性值U_k(例如，针对回放信号的时间间隔)，例如使得所述紧迫性值是本文描述的紧迫性值的任何示例。子系统82被配置为对紧迫性值U_k和感知自由度值F_k进行组合，以确定(并且在一些情况下，更新)概率分布P。

子系统83被耦接并且被配置为从由子系统82确定的(针对对应的时间间隔的)概率分布P中随机地选择(抽取)一组N个频带(一次针对单声道馈送的每个时间间隔)，并且典型地还检查每一组抽取的频带中的频带均满足(具有上文描述的类型的)最低要求F_min和U_min。如果对应于抽取的频带的紧迫性值U_k或感知自由度值F_k不满足最低要求F_min和U_min的相关要求，则通常将该频带丢弃(不将强加间隙插入其中)。

子系统83被配置为向间隙施加子系统84通知要在其中插入强加间隙的每一组频带(针对由子系统80确定的单声道馈送的每个时间间隔有一组)。响应于每个这种通知，子系统84被配置为在已经被通知的每个频带中(在适当的时间间隔期间)插入强加间隙。每个强加间隙的插入包括要施加的强加间隙增益G的计算，以及将这些增益施加到(每个声道的)适当的频带和时间间隔中的回放内容的K个声道，从而在可以在回放期间(由全面收听器)监测非回放声音的每个这种声道中插入强加间隙。

接下来，假设用于确定紧迫性值的方法(即上文描述的方法1、方法2、方法3和方法4)的不同选择和用于确定感知自由度值的方法(即，上文描述的用于确定固定的感知自由度值的方法，以及上文描述的用于使用至少一条掩蔽曲线确定感知自由度值的方法)的不同选择，描述典型的强加间隙施加系统行为。表3(如下文所示)比较了强加间隙施加系统的针对确定紧迫性和感知自由度值的方法的所指示选择的典型行为。

表3

下表描述了强加间隙插入的不同实施例的各方面，所述方面可以依赖于不同类型的掩蔽以低的感知成本来插入强加间隙。这些方面包括在一些实施例中可用于成形和创建用于计算感知自由度的感知掩蔽曲线的因素。

本发明的一些实施例的各方面包括以下内容：

出于改善全面收听方法的性能(使用本地麦克风捕获回放声音和非回放声音两者)的目的，用于将强加采样间隙插入到回放内容中而不会对用户产生重大的感知影响的方法和系统；

用于基于紧迫性或需要而将强加采样间隙插入到回放内容中的方法和系统；

用于通过使用掩蔽曲线基于相对感知影响将强加采样间隙插入到回放内容中的方法和系统；

用于基于间隙插入的相对感知影响与间隙插入的紧迫性之间的平衡将强加采样间隙插入到回放内容中的方法和系统；

出于改善全面收听方法的性能(与打断闪避(barge-in ducking)或暂停回放音频相对照)，用于将强加采样间隙插入到回放内容中的方法和系统，借助于此，强加采样间隙的定义参数与噪声估计的分量未更新的持续时间成比例地被确定，和/或借助于此，强加采样间隙的定义参数通过优化过程被确定，所述优化过程通过考虑时间上和空间上与回放音频信号的接近度来最小化强加间隙的感知影响；

通过使用强加采样间隙来扩展噪声补偿功能的方法和系统，借助于此，用于在回放内容中强加间隙的存在的触发器自动链接到自噪声估计的分量已更新以来所经过的持续时间，和/或借助于此，通过辅助设备或用户需求来请求用于在回放内容中强加间隙的存在的触发器；

扩展噪声补偿功能和/或背景声音感知的方法和系统，包括通过强加间隙插入，使用感知模型来实现强加间隙插入的影响，例如，与对插入强加间隙的累积的需要或期望进行平衡。

接下来，描述实施噪声补偿的本发明系统(例如，图11或图12的系统)的实施例的操作的示例。当由于回放内容中缺少采样间隙而导致由系统(例如，由图11的噪声估计子系统64)确定的噪声估计出现粘滞时，则可以呈现三种情形：

1.噪声条件提高，而估计粘滞；

2.噪声条件降低，而估计粘滞；或者

3.噪声条件持续，而估计粘滞。

在情况3中(当噪声条件持续时)，系统将继续以先前确定的方式执行补偿，但是由于系统无法将此情况与其他情况区分开，因此考虑情况3期间的强加间隙的影响。

下文描述的表4列出了三种情形的评估，其中引入强加间隙来对抗由于回放内容中缺少可用采样间隙而带来的陈旧噪声估计。

表4

情况1和情况2预期将是短暂的事件，仅持续至系统重新收敛(使用插入的强加间隙)以达到准确的噪声估计所花费的时间。情况1应该迅速重新收敛，因为即使很小的间隙也将帮助系统找到增大的噪声条件。由于补偿系统中的正反馈(其对降低噪声估计以考虑稳定性更加青睐)，因此情况2也应迅速重新收敛。情况3将是系统的稳定状态，只要内容密集且间隙不足。因此，对于情况3，应主要考虑强加间隙对音频质量的影响。

表4示出了紧迫性与强加间隙的潜在可感知性之间的趋势。较高的紧迫性通常暗示系统正在努力听取背景条件，因此回放内容的信噪比(SNR)高。回放内容与背景噪声的较高SNR将提供较少的掩蔽，从而增加了强加间隙更易于感知的机会。

本发明方法的示例性实施例包括以下：

E1.一种全面收听方法，包括以下步骤：

将至少一个间隙插入到音频回放信号的至少一个所选频带中，以生成经修改的回放信号；

在响应于所述经修改的回放信号而在回放环境中发出声音期间，使用所述回放环境中的麦克风来生成麦克风输出信号，其中，所述声音指示所述经修改的回放信号的回放内容，并且所述麦克风输出信号指示所述回放环境中的非回放声音以及所述回放内容；以及

响应于所述经修改的回放信号和所述麦克风输出信号而监测所述回放环境中的所述非回放声音。

E2.如E1所述的方法，其中，将每个所述间隙插入到所述音频回放信号的所选时间间隔中的所选频带中，以试图使得在响应于所述经修改的回放信号而在所述回放环境中发出的声音中，由于插入所述间隙而产生的任何伪像对于所述回放环境中的用户具有低的感知度，并且在执行所述监测期间具有高的可识别性。

E3.如E1所述的方法，其中，将每个所述间隙插入到所述音频回放信号的所选时间间隔中的所选频带中，使得响应于所述经修改的回放信号而在所述回放环境中发出的声音能够被所述用户感知，而不存在由于插入所述间隙而产生的任何显著的伪像。

E4.如E1所述的方法，其中，将每个所述间隙插入到所述音频回放信号的所选频带中，并且每个所述所选频带是通过使用感知自由度值实施的从所述音频回放信号的一组频带中进行选择而被确定的，所述感知自由度值指示在所述一组频带中的每个频带中插入间隙的预期感知效果。

E5.如E4所述的方法，其中，根据至少一个频率掩蔽考虑来确定所述感知自由度值，使得当所述感知自由度值之一是接近所述一组频带的峰值能量带的近峰值带的近峰值时，对于距离所述峰值能量带比所述近峰值带更远的频带，所述感知自由度值中的每一个指示比所述近峰值更大的预期感知效果。

E6.如E4所述的方法，其中，根据至少一个时间掩蔽考虑来确定所述感知自由度值，使得当所述音频回放信号指示至少一个大声回放声音事件时，所述感知自由度值中的针对在所述大声回放声音事件之后不久发生的所述音频回放信号的第一时间间隔的那些感知自由度值指示比所述感知自由度值中的针对所述音频回放信号的第二时间间隔的那些感知自由度值更低的预期感知效果，其中，所述第二时间间隔晚于所述第一时间间隔。

E7.如E1所述的方法，其中，所述全面收听方法是噪声估计方法，所述麦克风输出信号指示所述回放环境中的背景噪声，并且所述监测包括响应于所述经修改的回放信号和所述麦克风输出信号而生成所述回放环境中的背景噪声估计。

E8.如E1所述的方法，其中，所述监测包括响应于所述经修改的回放信号和所述麦克风输出信号而生成对所述回放环境中的所述非回放声音的至少一方面的估计，并且其中，所述方法还包括以下步骤：

响应于对所述回放环境中的所述非回放声音的至少一方面的所述估计来生成所述音频回放信号。

E9.如E1所述的方法，其中，每个所述间隙基于所述回放信号的至少一个频带中的对间隙的需要而被插入到所述回放信号中。

E10.如E9所述的方法，其中，响应于指示在所述回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值而将每个所述间隙插入到所述回放信号中。

E11.如E9所述的方法，其中，响应于指示在所述回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个所述间隙插入到所述回放信号中。

E12.如E9所述的方法，其中，以包括平衡间隙插入的紧迫性和预期感知效果的方式，使用指示在所述回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述回放信号的至少一个特定时间间隔中在所述回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个所述间隙插入到所述回放信号中。

E13.如E1所述的方法，包括以下步骤：

根据所述概率分布，随机选择所述组中的所述频带中的至少一个频带，并且在所述频带中的所述至少一个频带中的每个频带中插入间隙。

E14.如E13所述的方法，其中，所述概率分布基于所述回放信号的所述一组频带中的每个所述频带中的对间隙的需要。

E15.如E13所述的方法，其中，所述概率分布基于所述回放信号的所述一组频带中的每个所述频带中的对间隙的需要和在所述每个频带中插入所述间隙的预期感知效果。

E16.如E1所述的方法，包括以下步骤：

响应于所述麦克风输出信号和所述经修改的回放信号而生成紧迫性值，其中，所述紧迫性值指示所述回放信号的一组频带中的每个频带中的对间隙的需要，所述对间隙的需要基于自所述每个频带中出现前一间隙以来所经过的时间，并且其中，将每个间隙插入到所述回放信号中至少部分地基于所述紧迫性值。

E17.如E1所述的方法，其中，监测所述非回放声音包括生成背景噪声估计，其中，所述方法还包括以下步骤：

响应于所述背景估计而生成所述音频回放信号，包括通过响应于所述背景估计而对输入音频信号执行噪声补偿来进行该生成。

E18.一种系统，包括：

麦克风，所述麦克风被定位并且配置为在回放环境中发出声音期间生成麦克风输出信号，其中，所述声音指示经修改的回放信号的回放内容，并且所述麦克风输出信号指示所述回放环境中的非回放声音以及所述回放内容；

强加间隙施加子系统，所述强加间隙施加子系统被耦接以接收音频回放信号，并且被配置为将至少一个间隙插入到所述音频回放信号的至少一个所选频带中，从而生成所述经修改的回放信号；以及

全面收听子系统，所述全面收听子系统被耦接以接收所述麦克风输出信号和所述经修改的回放信号，并且被配置为响应于所述经修改的回放信号和所述麦克风输出信号而监测所述回放环境中的所述非回放声音。

E19.如E18所述的系统，其中，所述强加间隙施加子系统被配置为将每个所述间隙插入到所述音频回放信号的所选时间间隔中的所选频带中，以试图使得在响应于所述经修改的回放信号而在所述回放环境中发出的声音中，由于插入所述间隙而产生的任何伪像对所述回放环境中的用户具有低的感知度，并且在执行所述监测期间具有高的可识别性。

E20.如E18所述的系统，其中，所述强加间隙施加子系统被配置为将每个所述间隙插入到所述音频回放信号的所选频带中，包括通过使用感知自由度值从所述音频回放信号的一组频带中选择每个所述所选频带来进行该插入，所述感知自由度值指示在所述一组频带中的每个频带中插入间隙的预期感知效果。

E21.如E20所述的系统，其中，已经根据至少一种频率掩蔽考虑确定了所述感知自由度值。

E22.如E20所述的系统，其中，已经根据至少一种时间掩蔽考虑确定了所述感知自由度值。

E23.如E18所述的系统，其中，所述麦克风输出信号指示所述回放环境中的背景噪声，并且所述全面收听子系统被配置为响应于所述经修改的回放信号和所述麦克风输出信号而生成对所述回放环境中的所述背景噪声的估计。

E24.如E18所述的系统，其中，所述全面收听子系统被耦接并且配置为：

响应于所述经修改的回放信号和所述麦克风输出信号而生成对所述回放环境中的所述非回放声音的至少一方面的估计；以及

响应于对所述回放环境中的所述非回放声音的至少一方面的所述估计而生成所述音频回放信号。

E25.如E18所述的系统，其中，所述强加间隙施加子系统被配置为基于所述回放信号的至少一个频带中的对间隙的需要，将每个所述间隙插入到所述回放信号中。

E26.如E25所述的系统，其中，所述强加间隙施加子系统被配置为响应于指示在所述回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，将每个所述间隙插入到所述回放信号中。

E27.如E25所述的系统，其中，所述强加间隙施加子系统被配置为响应于指示在所述回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个所述间隙插入到所述回放信号中。

E28.如E25所述的系统，其中，所述强加间隙施加子系统被配置为以包括平衡间隙插入的紧迫性和预期感知效果的方式，使用指示在所述回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述回放信号的至少一个特定时间间隔中在所述回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个所述间隙插入到所述回放信号中。

E29.如E18所述的系统，其中，所述强加间隙施加子系统被配置为：

E30.如E29所述的系统，其中，所述概率分布基于所述回放信号的所述一组频带中的每个所述频带中的对间隙的需要。

E31.如E29所述的系统，其中，所述概率分布基于所述回放信号的所述一组频带中的每个所述频带中的对间隙的需要和在所述每个频带中插入所述间隙的预期感知效果。

E32.如E18所述的系统，其中，所述全面收听子系统被配置为：

响应于所述麦克风输出信号和所述经修改的回放信号而生成紧迫性值，其中，所述紧迫性值指示所述回放信号的一组频带中的每个频带中的对间隙的需要，所述对间隙的需要基于自所述每个频带中出现前一间隙以来所经过的时间，并且其中，所述强加间隙施加子系统被耦接以接收所述紧迫性值并且被配置为以至少部分地基于所述紧迫性值的方式将每个所述间隙插入到所述回放信号中。

E33.如E18所述的系统，其中，所述全面收听子系统被耦接并且配置为：

监测所述非回放声音，包括通过生成背景噪声估计来进行该监测，以及

本发明的各方面包括一种被配置(例如，被编程)为执行本发明方法的任何实施例的系统或设备，以及一种存储用于实施本发明方法或其步骤的任何实施例的代码的有形计算机可读介质(例如，盘)。例如，本发明系统可以是或者包括可编程通用处理器、数字信号处理器或微处理器，所述可编程通用处理器、数字信号处理器或微处理器用软件或固件编程为和/或以其他方式被配置为对数据进行多种操作中的任何操作，包括本发明方法或其步骤的实施例。这种通用处理器可以是或者包括计算机系统，所述计算机系统包括输入设备、存储器和处理子系统，所述处理子系统被编程(和/或以其他方式被配置)为响应于向其断言的数据而执行本发明方法(或其步骤)的实施例。

本发明系统的一些实施例(例如，图15的系统的一些实施方式，或者图12的系统的元件62、70、26、27、34、32、33、35、36、37、39和43、或图7的系统的元件70和71、或图8的系统的元件70和72、或图9的系统的元件70和73、或图10的系统的元件70、74和76或图11的系统的元件62、70和64)被实施为可配置(例如，可编程)数字信号处理器(DSP)，所述数字信号处理器被配置(例如，被编程并以其他方式配置)为对(多个)音频信号执行所需的处理，包括执行本发明方法的实施例。替代性地，本发明系统的实施例(例如，图15的系统的一些实施方式，或者图12的系统的元件62、70、26、27、34、32、33、35、36、37、39和43、或图7的系统的元件70和71、或图8的系统的元件70和72、或图9的系统的元件70和73、或图10的系统的元件70、74和76或图11的系统的元件62、70和64)被实施为通用处理器(例如，个人计算机(PC)或其他计算机系统或微处理器，其可以包括输入设备和存储器)，所述通用处理器用软件或固件编程和/或以其他方式配置为执行包括本发明方法的实施例的多种操作中的任何操作。替代性地，本发明系统的一些实施例的元件被实施为被配置(例如，被编程)为执行本发明方法的实施例的通用处理器或DSP，并且所述系统还包括其他元件(例如，一个或多个扬声器和/或一个或多个麦克风)。被配置为执行本发明方法的实施例的通用处理器通常将耦接到输入设备(例如，鼠标和/或键盘)、存储器和显示设备。

本发明的另一方面是一种计算机可读介质(例如，盘或其他有形存储介质)，所述计算机可读介质存储用于执行本发明方法或其步骤的任何实施例的代码(例如，可执行以执行本发明方法或其步骤的任何实施例的编码器)。

虽然在本文中已经描述了本发明的具体实施例和本发明的应用，但是对于本领域普通技术人员而言清楚的是，在不脱离在本文中描述的并要求保护的本发明的范围的情况下，可以对本文所述的实施例和应用进行许多改变。应当理解，虽然已经示出和描述了本发明的某些形式，但是本发明不限于所描述和示出的具体实施例或所描述的具体方法。

Claims

1.一种全面收听方法，包括以下步骤：

将至少一个间隙插入到音频回放信号的所选时间间隔中的至少一个所选频带中，以生成经修改的回放信号；

2.如权利要求1所述的方法，其中，将每个间隙插入到所述音频回放信号的所述所选时间间隔中的所选频带中，以试图使得在响应于所述经修改的回放信号而在所述回放环境中发出的声音中，由于插入所述间隙而产生的任何伪像对于所述回放环境中的用户具有低的感知度并且在执行对所述非回放声音的所述监测期间具有高的可识别性。

3.如权利要求1或2所述的方法，其中，将每个间隙插入到所述音频回放信号的所选时间间隔中的所选频带中，使得响应于所述经修改的回放信号而在所述回放环境中发出的声音能够被用户感知，而不存在由于插入所述间隙而产生的任何显著的伪像。

4.如权利要求1或2所述的方法，其中，将每个间隙插入到所述音频回放信号的所选频带中，并且每个所述所选频带是通过使用感知自由度值实施的从所述音频回放信号的一组频带中进行选择来确定的，所述感知自由度值指示在所述一组频带中的每个频带中插入间隙的预期感知效果。

5.如权利要求4所述的方法，其中，根据至少一个频率掩蔽考虑来确定所述感知自由度值，使得当所述感知自由度值之一是接近所述一组频带的峰值能量带的近峰值带的近峰值时，对于比所述近峰值带距离所述峰值能量带更远的频带，所述感知自由度值中的每一个指示比所述近峰值所指示的更大的预期感知效果。

6.如权利要求4所述的方法，其中，根据至少一个时间掩蔽考虑来确定所述感知自由度值，使得当所述音频回放信号指示至少一个大声回放声音事件时，所述感知自由度值中的针对在所述大声回放声音事件之后不久发生的所述音频回放信号的第一时间间隔的那些感知自由度值指示比所述感知自由度值中的针对所述音频回放信号的第二时间间隔的那些感知自由度值所指示的更低的预期感知效果，其中，所述第二时间间隔晚于所述第一时间间隔。

7.如权利要求1或2所述的方法，其中，所述全面收听方法是噪声估计方法，所述麦克风输出信号指示所述回放环境中的背景噪声，并且对所述非回放声音的所述监测包括响应于所述经修改的回放信号和所述麦克风输出信号而生成所述回放环境中的背景噪声估计。

8.如权利要求1或2所述的方法，其中，对所述非回放声音的所述监测包括响应于所述经修改的回放信号和所述麦克风输出信号而生成对所述回放环境中的所述非回放声音的至少一方面的估计，并且其中，所述方法还包括以下步骤：

9.如权利要求1或2所述的方法，其中，每个间隙基于所述音频回放信号的至少一个频带中的对间隙的需要而被插入到所述音频回放信号中。

10.如权利要求9所述的方法，其中，响应于指示在所述音频回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值而将每个间隙插入到所述音频回放信号中。

11.如权利要求9所述的方法，其中，响应于指示在所述音频回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述音频回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个间隙插入到所述音频回放信号中。

12.如权利要求9所述的方法，其中，以包括平衡间隙插入的紧迫性和预期感知效果的方式，使用指示在所述音频回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述音频回放信号的至少一个时间间隔中在所述音频回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个间隙插入到所述音频回放信号中。

13.如权利要求1或2所述的方法，包括以下步骤：

确定指示所述音频回放信号的一组频带中的每个频带的概率的概率分布；以及

根据所述概率分布，随机选择所述一组频带中的所述频带中的至少一个频带，并且在所述频带中的所述至少一个频带中的每个频带中插入间隙。

14.如权利要求13所述的方法，其中，所述概率分布基于所述音频回放信号的所述一组频带中的每个所述频带中的对间隙的需要。

15.如权利要求13所述的方法，其中，所述概率分布基于所述音频回放信号的所述一组频带中的每个所述频带中的对间隙的需要和插入所述间隙的预期感知效果。

16.如权利要求1或2所述的方法，包括以下步骤：

响应于所述麦克风输出信号和所述经修改的回放信号而生成紧迫性值，其中，所述紧迫性值指示所述音频回放信号的一组频带中的每个频带中的对间隙的需要，所述对间隙的需要基于自所述每个频带中出现前一间隙以来所经过的时间，并且其中，将每个间隙插入到所述音频回放信号中至少部分地基于所述紧迫性值。

17.如权利要求1或2所述的方法，其中，对所述非回放声音的所述监测包括生成背景噪声估计，其中，所述方法还包括以下步骤：

响应于所述背景噪声估计而生成所述音频回放信号，包括通过响应于所述背景噪声估计而对输入音频信号执行噪声补偿来进行该生成。

18.一种全面收听系统，包括：

强加间隙施加子系统，所述强加间隙施加子系统被耦接以接收音频回放信号，并且被配置为将至少一个间隙插入到所述音频回放信号的所选时间间隔中的至少一个所选频带中，从而生成所述经修改的回放信号；以及

19.如权利要求18所述的系统，其中，所述强加间隙施加子系统被配置为将每个间隙插入到所述音频回放信号的所述所选时间间隔中的所选频带中，以试图使得在响应于所述经修改的回放信号而在所述回放环境中发出的声音中，由于插入所述间隙而产生的任何伪像具有对于所述回放环境中的用户的低感知度，并且在执行对所述非回放声音的所述监测期间具有高的可识别性。

20.如权利要求18或19所述的系统，其中，所述强加间隙施加子系统被配置为将每个间隙插入到所述音频回放信号的所选频带中，包括通过使用感知自由度值从所述音频回放信号的一组频带中选择每个所述所选频带来进行该插入，所述感知自由度值指示在所述一组频带中的每个频带中插入间隙的预期感知效果。

21.如权利要求20所述的系统，其中，已经根据至少一种频率掩蔽考虑而确定了所述感知自由度值。

22.如权利要求20所述的系统，其中，已经根据至少一种时间掩蔽考虑而确定了所述感知自由度值。

23.如权利要求18或19所述的系统，其中，所述麦克风输出信号指示所述回放环境中的背景噪声，并且所述全面收听子系统被配置为响应于所述经修改的回放信号和所述麦克风输出信号而生成对所述回放环境中的所述背景噪声的估计。

24.如权利要求18或19所述的系统，其中，所述全面收听子系统被耦接并且配置为：

25.如权利要求18或19所述的系统，其中，所述强加间隙施加子系统被配置为基于所述音频回放信号的至少一个频带中的对间隙的需要而将每个间隙插入到所述音频回放信号中。

26.如权利要求25所述的系统，其中，所述强加间隙施加子系统被配置为响应于指示在所述音频回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值而将每个间隙插入到所述音频回放信号中。

27.如权利要求25所述的系统，其中，所述强加间隙施加子系统被配置为响应于指示在所述音频回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述音频回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个间隙插入到所述音频回放信号中。

28.如权利要求25所述的系统，其中，所述强加间隙施加子系统被配置为以包括平衡间隙插入的紧迫性和预期感知效果的方式，使用指示在所述音频回放信号的一组频带中的每个频带中进行间隙插入的紧迫性的紧迫性值，并且基于在所述音频回放信号的至少一个时间间隔中在所述音频回放信号的所述一组频带中的所述每个频带中插入间隙的预期感知效果，将每个间隙插入到所述音频回放信号中。

29.如权利要求18或19所述的系统，其中，所述强加间隙施加子系统被配置为：

30.如权利要求29所述的系统，其中，所述概率分布基于所述音频回放信号的所述一组频带中的每个所述频带中的对间隙的需要。

31.如权利要求29所述的系统，其中，所述概率分布基于所述音频回放信号的所述一组频带中的每个所述频带中的对间隙的需要和插入所述间隙的预期感知效果。

32.如权利要求18或19所述的系统，其中，所述全面收听子系统被配置为：

响应于所述麦克风输出信号和所述经修改的回放信号而生成紧迫性值，其中，所述紧迫性值指示所述音频回放信号的一组频带中的每个频带中的对间隙的需要，所述对间隙的需要基于自所述每个频带中出现前一间隙以来所经过的时间，并且其中，所述强加间隙施加子系统被耦接以接收所述紧迫性值并且被配置为以至少部分地基于所述紧迫性值的方式将每个所述间隙插入到所述音频回放信号中。

33.如权利要求18或19所述的系统，其中，所述全面收听子系统被耦接并且配置为：

34.一种存储程序的计算机可读介质，所述程序包括代码，所述代码用于执行如权利要求1-17中任一项所述的方法。

35.一种计算机程序产品，包括程序，所述程序包括代码，所述代码用于执行如权利要求1-17中任一项所述的方法。