CN104685563A

CN104685563A - 用于嘈杂环境噪里的回放的音频信号整形

Info

Publication number: CN104685563A
Application number: CN201380045072.1A
Authority: CN
Inventors: 苏环宇; 安东尼·苏
Original assignee: Zhi Yin Co
Current assignee: Quality Sound Communication Technology Shenzhen Co ltd
Priority date: 2012-09-02
Filing date: 2013-08-25
Publication date: 2015-06-03
Anticipated expiration: 2033-08-25
Also published as: US20140064509A1; US9299333B2; EP2891150A2; IN2015DN01465A; US20140064508A1; US9208767B2; US20140064507A1; WO2014035845A3; US9208766B2; EP2891150A4; CN104685563B; WO2014035845A2

Abstract

本发明提供一种在环境噪音条件下自适应地增强语音和其它音频信号用户感知质量或体验质量(QoE)的方法。该方法包括连续不断地确定环境噪音的特征以捕捉噪音时变的特点，并自适应地确定最佳信号整形用来提升音频或语音信号质量从而最适合地补偿由环境噪音导致的影响。该方法还包括使用无限脉冲响应(IIR)滤波器来实现的低时延信号整形技术；多级自动增益控制(AGC)；控制限幅模块，保证采样在一定的范围；并输出改进后的信号使其通过扬声器或其它类似机制回放。

Description

用于嘈杂环境噪里的回放的音频信号整形

相关申请的交叉引用

本专利申请要求于2012年9月2日由安东尼·J·苏提交的题为“音频回放系统的自适应信号整形”的临时申请号61/696216和于2012年9月7日由安东尼·J·苏提交的题为“使用IIR滤波器实现低时延自适应信号整形”的临时申请号61/697807优先权为。上述引用的临时专利申请被视为完全包含在本专利申请里。

技术领域

本发明涉及音频信号处理领域，更准确地说涉及噪音环境里提升音频信号回放质量的解决方案。

背景技术

自从手机的出现，手机用户总会碰到典型问题。当用户在嘈杂的环境中通话时，如在行驶的汽车里，或嘈杂的酒吧里等，一般都很难听清、听懂对方。即使对方是在安静的环境里，而且说话的语音质量很高也是如此。导致这一困难的原因是，人的听觉系统要求音频或语音信号能量至少高于环境噪音一定的额度才能保证足够的可懂度。此外，通讯行业广为人知的另一现象是，音频或语音信号能量还要有更高的能量才能让人觉得有舒适的通话质量。尽管这些指标并不容易量化，但这种现象是很容易证明的，例如在一辆高速行驶的汽车里为了让音乐欣赏舒适，用户会将音量调得远比汽车静止时大。同样的现象，在嘈杂的环境中人们常常会喊叫着与对方交谈，而这样的喊叫对话生成的音量比在安静的环境里正常交谈要高很多。

从用户的角度而言，手机的设计和制造是为了再现远端呼叫者的声音并保持一定质量的“真实度”。而这种真实度是假设用户通话的环境是在家中或办公室等相对安静的环境。例如国际电联标准委员会(ITU-T)在制定给通讯设备如移动电话使用的语音编解码国际标准时使用信噪比(SNR)20dB或15dB作为典型"噪音"环境测试条件。遗憾的是，在现实生活中，这样理想的环境并不总能得到保证，用户经常必须在非常嘈杂的条件下进行对话，此时用户听见的质量或通话的体验质(QoE)不可避免地会恶化。目前用户的唯一选择是将手机音量调到最大，但如果这还不能保证较为满意的通话，他们通常会非常无奈地选择提前终止电话。

在个人信息娱乐/通讯行业，便携式产品如苹果任天堂和索尼的都会由于类似上述环境噪音的影响而导致用户的体验降低。当环境噪音较强时，目前用户的唯一选择是将音量调高到设备的最大回放能力。这不仅不理想，还可能有危害，尤其对年幼的用户，因为年轻的孩子最有可能使用这种类型的娱乐设备，而在嘈杂的环境中长时间被迫使用最大音量必然导致他们听力系统的永久性损害。

因此，业界迫切需要有效的在噪音环境里不是仅仅通过提高回放音量来提升用户体验的解决方案(计算机程序)。

发明内容

本发明克服以前技术的弱点，提出一种基于音频或语音信号能量和频谱整形技术，自适应调整音频或语音信号来补偿由环境噪音导致的影响从而提高用户在噪音环境里体验值QOE的系统和方法。在本发明的首选实施中，用无限脉冲响应线性滤波器(IIR)来实现频谱及能量的调整。这一方案的优点是时延非常短，对移动电话等应用非常有利。而在其它实施中，可以使用不同的信号整形技术如通过快速傅里叶变换(FFT)实现的频谱领域的调整，或是使用有限脉冲响应线性滤波器(FIR)。在一些对时延不敏感的应用，如音乐欣赏系统等，这些替代技术都是可行的。无论如何，使用任何不同的信号频谱整形技术并不代表背离本发明包含的范围和广度。同时，由于信号能量的变化，使用多级自动增益控制(AGC)技术提供合适的增益，连同精心设计的限幅技术，可以进一步保持某些低能量信号的可懂度。

在实例中，本发明可用来实现提高手机或信息娱乐终端用户体验值的低时延自适应信号整形技术。应用于远端语音信号或局部重新复制的音频信号的整形技术以该远端语音或重新复制的音频信号通过扬声器或耳机回放之前的近端环境噪音的特点为依据。可以预料这种技术可以用在任何用户可能在嘈杂环境里听音频信号的应用，如汽车音响系统，火车或飞机里的广播系统等。在此所使用的术语"远端音频信号"指的是远端语音信号，或是由信息娱乐终端或MP3播放器等本地生成的音频信号。

在本发明的实施例中，自适应信号整形技术会根据环境噪音的特征来改变从远端发来的语音信号或是局部重新生成的音频信号的音量或频谱，这些噪音特征包含噪音强度、噪音类型如车里的稳态噪音，或是大街上、机场里、嘈杂的餐馆、或其它类似的公共场所里的快速变化的噪音。

在本发明的方面，信号调整是由从一组预先准备好的滤波器中根据需要选出的具有最理想的频谱修改特征的滤波器完成。预先准备好的滤波器例子可以是一组IIR滤波器。按照本发明，IIR滤波器可以提供所需的频谱和信号能量调整而不增加太多时延，从而实现低时延信号整形。同时，为了保持一些低能量信号的可懂度，实施本发明的实例中使用多级自动增益控制(AGC)技术，连同精心设计的限幅技术。

本发明的其它方面在下面通过对插图的解释和细节的描述自然会变得更加一目了然。

附图说明

图1A是可使用本发明的多种不同方案的典型移动电话系统的方框图。

图1B是可使用本发明的多种不同方案的典型音频信号播放器的方框图。

图2A/2B分别显示更详细的移动电话和音频回放系统复制音频/语音的流程图。

图3阐述由于环境噪音的增加导致用户语音质量体验下降的典型原因。

图4A描述在低噪音和强噪音环境下最为理想的信号整形特征

图4B显示一组适用于本发明的信号整形滤波器特征

图5展示环境噪音所具有的典型时变特征

图6A展示用本发明来实现的一个典型自适应调整移动终端接收到的远端数字语音的方法和系统的流程及框图。

图6B展示用本发明来实现的另一个典型自适应调整移动终端接收到的远端数字语音的方法和系统的流程及框图。

图7展示用本发明来实现的一个典型自适应调整移动终端接收到的远端模拟语音的方法和系统的流程及框图。

图8A和8B展示用本发明来实现的各种典型自适应调整音乐欣赏设备重新生成的数字音频信号的方法和系统的流程及框图。

图9展示用本发明来实现的另一个典型自适应调整音乐欣赏设备重新生成的模拟音频信号的方法和系统的流程及框图。

图10描述典型的基于FFT频谱整形技术的时延增加。

图11描述典型的基于FIR滤波器频谱整形技术的时延增加。

图12描述典型的基于IIR滤波器频谱整形技术的时延增加。

图13描述一个本发明中使用了多级增益的实施例。

图14描绘一个可以实现本发明的计算机系统。

具体实施方式

本发明可在此通过功能模块组件和各种处理步骤进行描述。这些功能模块可以以任何数量的硬件组件或软件单元通过配置来实现指定的功能。例如，本发明可以使用各种集成电路元件，如存储器元件，数字信号处理单元，逻辑单元，数据表格等，在一个或多个微处理器或其它控制装置的控制下实现各种功能。此外，本领域技术人员会明白，本发明与任何数据和语音传输协议完全兼容，所以在此描述的系统仅仅是本发明的一个示范性应用。

在本文中描述的任何具体实现只是为了更好地介绍本发明以及其最佳工作模式，不应该被理解成为对本发明的任何形式的限制。为了简化起见，传统的技术如信号处理，数据传输，信令，分组交换传输，网络控制，及其它系统功能(以及系统的各个操作部件)可能不会在这里详细介绍，但熟练的从业人员应该对它们有足够的了解。此外，图中的各种元件之间的连接线是示范性的连接不同组件的功能关系和/或物理连接。应该指出的是，许多替代或附加功能关系或物理连接可以在一个实际的通信系统应用里实现。

图1A示出一个典型的移动电话/个人通讯系统，其中移动电话110和130，通过它们之间的一定的无线和有线连接手段111，112和113耦合在一起。当远端用户对着麦克风说话时，语音信号被麦克风截取，其生成模拟远端语音信号102。根据移动电话、无线接入/传输系统必须支持的任意无线通标准，该语音信号102然后由远端的移动电话发射机103接收，其通过无线/有线连接将语音信号发送给近端移动电话130。一旦被近端移动电话130收到，语音信号将先被转换回其模拟形式，其被称为接收到的远端语音模拟信号(简称远端语音)138，然后通过扬声器或耳机回放。使用近端手机的用户，如在嘈杂的酒吧或在行驶中的车辆里的情况中，可能会或不会受到环境噪音131的影响。应该指出的是，近端环境噪音131将被近端移动电话的麦克风截取，以作为近端移动电话发射机133的麦克风输入信号132的一部分。

图1B显示了一个典型的音频回放系统160如MP3播放器。音频媒体文件存储在某种存储器161，如硬盘，存储卡等。当用户决定播放一个音频文件，媒体文件将被从存储器161中送给音频信号再生系统162，其再生通过扬声器或耳机回放的音频信号165。使用音频回放系统的用户，如在嘈杂的酒吧或在行驶中的车辆里的情况中，可能会或不会受到环境噪音的影响。

图2A描绘一个典型移动电话系统中在数字到模拟转换器(D/A)210之前和之后由近端手机收到的远端语音。值得注意的是，几乎所有的现代移动电话系统都是基于数字信号传输，接收到的远端语音信号首先是以数字信号形式230存在，之后通过D/A转换器210转换回模拟信号形式235。模拟远端语音然后馈送到一个可调音量放大器237再被传递到扬声器或耳机。图2B描绘用于音频重放系统中类似的信号处理路径。

在这里的例子里，数字远端语音信号采样率，接收到的数字远端语音采样率和近端噪音采样率被假定是相同的，在典型的通信系统通常这一假设是成立的。使用相同的采样率能简化语音处理同时避免需要在时间上调整语音样本。因此，为简单起见，在对实施例描述时，我们假设不同信号的采样速率相等。然而在实践中，如果采样率彼此不同，则众所周知的技术，例如到音频信号重新上采样或重新下采样可以用执行以确保音频样本在时间上的一致性。这些技术是本领域技术人员所熟悉的，从而包含在本发明的范围内。因此，相同采样率音频系统例子的使用不应被解释为限制本发明的范围和广度。

现在参照图3，可以看出语音信号310的典型频谱具有非常明显的特点：在高频率区域的能量明显低于在低频率区域的能量。而典型环境噪音的频谱320在高于1.5kHz的区域几乎是平的。

由于这种明显的频谱差异，在低能量环境噪音时，语音信号的能量在整个频谱基本上都能保持在噪音整个频谱330之上，因此环境噪音导致的影响是轻微的，没有必要进行特殊的信号修改。然而，随着噪音水平的增加，交叉(即噪音能量大于语音信号能量)的发生将频繁的出现在高频率区域，如图340所示，使语音中的高频信号分量部分或完全变得不能被人的听觉系统听见。

在很强环境噪音的严重情况下，有必要保持语音信号的频谱处于噪音之上从而使得对话或享受仍然可能，特别是在影响人类听懂度或人类感知的关键频段390。修改信号的一种常用的方法是简单的增加音量(或放大器增益)。遗憾的是，所有的手机或便携娱乐设备都只有一定增加音量的能力，此外，通过简单放大生成的过高能量的低频信号会让人的听觉系统生成烦扰，甚至有害因为永久性损害可能出现。所以更有利的方法是：在噪音增强时，利用一个自适应的信号整形技术对语音或音频信号进行调整从而提高影响听力的关键频段390的能量。

图4A描述一个实现本发明的案例中信号整形的两个极端情况。在这个例子里一个移动电话和语音信号采样率为8千赫兹(KHz)，所以频率带通是4KHz。对于低噪音情况430，使用的是几乎不改变频谱或能量的滤波器410。结果是对语音信号没有任何改变，因为此时语音信号总是高于环境噪音，所以没有整形的必要。

另一方面对于高噪音情况440，一个强势的频谱整形滤波器450，及其相关的增益因子被用来优化语音信号。对于高噪音情况440期望的结果是大幅度感知增强的语音信号441。

应该指出的是，在本发明的一个实施例中，利用如上文440中提到的强势信号整形，所生成的信号，相对低频率区域(200Hz到1kHz之间)而言，将在高频区(1.5kHz到3kHz之间)有一个明显增加的能量，与原始信号相比，有时称之为频谱倾斜452，或频谱整形增益451。例如，当远端语音频谱在低频区域有一个-18dB的峰和高频区有一个-45dB的峰，即27dB的差异。经过强信号整形后，差异可以降低为12dB甚至更少，导致在感知敏感频带有15dB以上的增益，从而提高在强噪音环境下变形后语音信号的感知质量。

由于可听见的环境噪音通常的各种特征的范围都很广，例如它的能量范围可以从-10dBm到-50dBm，本发明的一个示范性实施例使用12个预制信号整形滤波器，每一个都设计成适合于一定范围内的环境噪音。值得注意的是，当环境噪音很低时，例如在-60dBm或以下，其影响变得几乎听不见。因此没有理由担心在这个范围内对用户感知的影响。

在本发明的其它实施例中，可以选择限制到音频信号实施的最大频谱倾斜或频谱整形增益，例如根据不同的应用情况，任何大于2-3dB的增益已经可以生成明显的效果。

在本发明的另一实施例即图4B中，一组预制的信号整形滤波器的频谱整形增益可以逐渐从0dB 471提高到25dB以上474，其中一些滤波器只能增加频谱整形增益约1-3db范围，例如472，其它滤波器能够增加频谱整形增益达20-25dB范围474，而剩下的滤波器覆盖中间范围473。

滤波器系数可以存储在存储设备如移动电话的本地存储单元或其它存储装置。可替换地，在本发明的另一实施例中，简单规则可以生成并且使用，使得实时或“即时”计算所需的滤波器系数。例如，在本发明的一个示范性实现中，同样阶数的IIR滤波器被用来实现信号整形，而一个技术熟练的从业人员知道，任何两个这样的线性滤波器的线性组合也是线性滤波器。

在本发明的另一实施例中音频回放系统的音频信号采样率为44.1kHz或类似，频谱整形滤波器以及环境噪音都需要妥善安排以支持这样的采样率。在该领域技术熟练的人都能理解，这些安排可以在不背离本发明主要步骤的基础上实现。

环境噪音的另一个特征是随时间而变化如图5所示。常见的是噪音有较低的时候501，快速变化的时候502，各种中等程度504或强噪音阶段503，505。根据实际的环境噪音强度与特征，理想的或最适合用于远端语音信号的整形也应该随着时间而变化。在本发明的另一实施例中，自适应系统的使用更适合于这一时变环境噪音的特征。

图6A描述一个使用于根据本发明的一个实施方式的移动电话的自适应语音信号整形系统600实施例。数字远端语音信号630由移动电话接收电路610重新再生。近端噪音信号632持续由近端手机麦克风获取，不时与近端用户生成的近端语音掺合在一起。近端噪音的特点，如能量和或表示的频谱信息的参数，通过信号处理模块601被确定。近端噪音特征通过模块602检查以确定环境噪音是否与最后一次确定有变化。如果没有变化，没有更新环境噪音参数的必要，噪音检测模块回到环境噪音监测模式。然而，如果环境噪音发生了变化，那么新的噪音参数将被保存603，之后模块601回到监测环境噪音。

储存在603的噪音参数由模块605用来确定增强远端语音信号整形滤波器组中的最佳选择，在一组至少有一个预定的或预存储的整形滤波器604中利用或不利于相关音量调整系数(能量增益)，利用或不利于相关音量调整系数来增强前端语音信号。除了最佳信号整形滤波器之外，模块605可以另外或改为从一组至少一个预定的或预存储的自动增益控制(AGC)中选择自动增益控制(AGC)，该组具有变化的增益量，其可用于增强模块606中的远端语音信号630。一个本发明的示范性实施例中使用AGC的进一步细节在下文结合图13来描述。

在其决定中，模块605有可能考虑某些远端语音信号特征，如信号强度，频谱，信号的类型(即仅语音信号，或仅音乐信号，或两者都有)，和远端语音中含有的远端噪音等级。当信号整形滤波器和能量增益的选择做出后，下一步是整形滤波器模块606将选择的滤波器和能量增益用来调整远端语音信号，然后输出到数字模拟转换器620。

如前所述，更换信号整形滤波器的触发点是当环境噪音特征发生改变，如它的等级或类型，因此，在本发明的一个低复杂度示范实现中，可以将模块602，603，和605组合在一起。

对于熟悉信号处理的技术人员来说，许多方法可以用来实现在此描述的信号整形技术，而且本发明不局限于任何特定的实现范例中描述的信号整形技术，包括但不限于以下内容：

前文提到的信号整形可以在时域通滤波器或中频域使用基于FFT的方法来实现，以达到类似或相似的信号频谱及音量的调整。

图6B描述一个图6A中示范实施的一个微小变形，即图案是相同的，唯一不同是以一个"规则产生模块"608替代滤波器及可选AGC存储模块604。当信号整形在频域或时域实现，优选的频谱变形或整形滤波器可以按照一定规则608本地生成，而不是从一组存储在存储模块604的预定的或预存储的有限整形滤波器或频谱修改的候选方案组中选出一个。没有增益因子的滤波相当于利用被设置为单位值1的增益来滤波。

在本发明为移动电话应用的另一实施例图7中，模拟远端语音735从移动电话的D/A(模数)转换器送入自适应信号整形系统700中的重采样的A/D(数模)转换器730，其产生重新采样的数字远端语音信号730。在400中余下的处理与上面描述的自适应信号整形系统600相同，唯一例外的是，从整形滤波模块的输出被先送到D/A转换器740，其最后输出整形后的模拟远端语音信号736给音量放大器。

图8A，8B和9展示实现本发明的用于各种信息娱乐设备的三个实例。前面例子中所描述的原理可以完全相同的方式使用在这些例子中，差别是信息娱乐设备，如便携式游戏设备，平板电脑等代替了手机。例如本发明的原理可以用来自适应地调整在嘈杂环境中回放的视频游戏的音频输出。同样，本发明的原理可以用来自适应地调整在嘈杂环境中回放的电影或音乐节目的音频输出。事实上，当在一个嘈杂环境里回放时以上例子中的任何音频信号都可以被视为“远端语音”而被自适应地整形。这里提到的自适应信号整形技术是在图8A，8B和9中自适应信号整形系统600中实现的。可以想象还有许多其它能够使用本发明原理的实施例，这对有经验的从业人员应该是一目了然的。

另一个体现本发明的优选方案通过图8B来描述。在这个例子中，代替使用环境噪信号强度832来决定信号整形程度，用户音量控制器83被用来达到用户所需的感知回放音量。例如，一些信息娱乐设备或音频播放器可能不包括麦克风或其它输入手段来检测环境噪音强度。而在其它情况下，即使音频输入能力是具备的，允许用户控制提供的信号整形更为有利。无论如何，如图8B所示，用户音量设置等级输入给自适应信号整形系统600，并且用于根据本发明的原则来确定要完成的信号整形的量。应该指出，这个概念可以用在任何应用，包括系统，如带有麦克风监测近端噪音832的移动电话。音量大小设置840可以作为独立的指标或与环境噪音832组合，如在此描述的任何一个实现本发明的案例，包括任何在图6至图9中描述的实例。

在另一实施本发明的案例中，用于指示近端噪音832的输入可能并非是麦克风。例如，如上所述，在轿车里或者其它的移动环境如公交车、船或飞机里经历的环境噪音一般与速度成比例地增加。在一个实例中，代替使用一个麦克风来监测环境噪音832，另一个输入装置用于监视用户速度，并且然后被自适应信号整形系统600使用来根据本发明的原理决定信号整形强度。这样的输入设备可以包括例如，加速度计和GPS设备等，其中许多已经出现在手机和其它信息娱乐设备里。因此，用其它输入来指示近端噪音832，无论是直接还是间接的，都可以用在本发明的另一些实施例中而不违背这里描述的原理。因此，使用其它输入来直接或间接指示用户所处环境噪音强度不应被理解为限制本发明的范围和广度。

图10说明一个基于FFT的频谱整形流程。行业内众所周知，由于FFT是分块处理的技术，语音输入信号必须组成不同处理模块1003。由于它的特殊性，常用的重叠相加技术通常用于基于FFT的频谱整形：包括采取一个大于处理尺寸1003的FFT尺寸1004，从而实现前后两个处理模块之间额外的信号采样，以至于处理块之间的输出样本可以平滑的过渡，防止可能生成的波形突变导致不理想的语音质量下降1005。由于这种特殊的安排，一个基于FFT的频谱整形技术引入的时延增加等于所使用的FFT尺寸1006。在移动电话通信系统里两手机之间的时延已经非常可观，额外大幅度增加时延很难被接受。

图11描述用FIR滤波器进行频谱整形的典型时延增加。为了保证一定的频谱整形能力，FIR滤波器的冲击响应(也就是滤波器系数本身)1008通常都比较长。由于冲击响应的峰值通常是在滤波器1007中间，FIR滤波器对应的输出点一般认为是在滤波器长度的中间。为了产生输出采样Yi，高达Xi+(N-1)/2的输入采样必须可用1110，其中N是FIR滤波器的长度(通常为奇数)。换言之，FIR滤波器生成的时延增加是(N-1)/2个采样1109。如前所述，这增加的时延是不期望的。

图12描述本发明的一个案例中具有一定频谱整形能力的IIR滤波器例子的冲击响应1210。可以看出，冲击响应的峰值在出现在最初的几个采样里，因此在最坏的情况下，IIR滤波器所造成的额外的时延只有几个采样。因此，使用这种方案相比传统方法或其它方案有显着的优势。应该指出的是，一些无关的IIR滤波器的设计与本发明所涉及的只为实现频谱整形而设计的滤波器可以有非常不同的特点冲击响应特征。

由于最终的电话线路衰减或其它变化，例如当远端说话者暂态远离远端麦克风，收取到的远端信号可能会时不时有强度上的变化。虽然这种变化在某些情况下可能是有利的，比如可以传递一些远端语音信号中微妙的信息，尤其是当环境噪音很低，远端语音中这些低能量部分对近端用户仍然是可听见、可理解时。但是，当近端的噪音强度大时，有些低能量信号将完全不可能被听见。在这种情况下，更可取的或是必须的是使用自动增益控制(AGC)来保持低能量信号的清晰度。

图13示出本发明的实施例中的多阶AGC。在优选实施例中，AGC与信号整形滤波器联合使用来实现如图6中模块606所示的整形滤波。例如，当环境噪音强度被确定为低时，图6中最佳信号整形判断模块605可能决定不使用任何整形471(图4)或仅采用低幅度整形472用于重建的远端信号。在这种情况下，可能也不需要使用任何AGC从而维持弱信号中捕获的微妙信息。当噪音强度变高，不同增益的AGC 1302和1303可以用来适当的放大低能量信号以便维持信号的可理解度。在极端高强度环境噪音的情况下，最好就是让某些信号采样超过消峰值(最大输出采样值，由于音频采样的数值表示)，也可以使用大增益AGC 1304。然而，因为移动电话或便携信息娱乐终端常用的D/A转换器只支持16位数字的PCM(脉冲编码调制)采样作为输入，输出采样的最大数值应小于2¹⁵-1＝32767，或大于-32767。仔细处理消峰很重要：以防止由于潜在的信号符号变化生成不必要的失真，在本发明的示范实施例中，当采样的值将超过上限或下限时，采样将取略低于极限的值。原因是一些D/A转换器可以在最大数字输入时生成不稳定的输出。

本发明可以使用硬件，软件或它们的组合来实现，也可以用计算机系统或其它处理系统来实现。电脑和其他处理系统有多种形式，包括无线移动手机，便携式音乐播放器，信息娱乐终端，平板电脑，笔记本电脑，台式电脑等。事实上，在实施例中，本发明涉及一种能够执行这里描述的功能的计算机系统。计算机系统例子1401如图14所示。计算机系统1401包括或多个处理器，如处理器1404。处理器1404连接到通信总线1402。各种软件实施例子通过本实例计算机系统来描述。在阅读本说明后，熟练的行业人士应该明白如何在其它计算机系统或计算机结构上实施本发明。

计算机系统1401还包括主存储器1406，最好是随机存取存储器(RAM)，也包括辅助存储器1408。辅助存储器1408可以包括，例如，硬盘驱动器1410或可移动存储驱动器1412，代表磁盘或磁带驱动器，光盘驱动器等。可移动存储驱动1412以众所周知的方式读取或写入可移动存储单元1414。可移动存储单元1414，代表磁性或光学媒体如磁盘或磁带等，由可移动存储驱动器1412来读写。非常清楚，可移动存储单元1414含有计算机可用的存储介质并储存了计算机软件和/或数据。

在其它实施例中，辅助存储器1408可以包括其它类似的用于允许计算机程序或其它指令被加载到计算机系统1401的装置。这样的装置可以包括，例如可去除存储单元1422和接口1420。这样的例子可以包括USB闪存盘和界面，程序盒和盒接口(如视频游戏设备中可见的)，其他类型可去除存储器芯片和相应的插座，如SD卡等，以及其它可移动存储单元1422和接口1420，允许软件和数据从可移动存储单元1422传送到计算机系统1401。

计算机系统1401还包括通信接口1424。通信接口1424允许软件和数据在计算机系统1401和外部设备之间进行传输。通信接口1424的例子可以包括调制解调器，网络接口(如以太网卡)，通信端口，PCMCIA插槽和卡等。通过通信接口1424传输的软件和数据可以是电子、电磁、光学或其它信号并能够被通信接口1424接收到。这些信号1426通过通道1428提供给通信接口。这个通道1428承载信号1426并可以使用电线或电缆、光纤、电话线、蜂窝电话连接、WiFi或移动的RF连接、和其它通讯渠道。

在本文中，术语“计算机程序介质”和“计算机可用介质”被用来泛指媒体如可移动存储装置1412，安装在硬盘驱动器1410的硬盘，和信号1426。这些计算机程序产品是为给计算机系统1401提供软件或代码。

计算机程序(也称为计算机控制逻辑或代码)存储在主存储器和/或辅助存储器1408。计算机程序也可以通过通信接口1424接收。这样的计算机程序，当被执行时，使计算机系统1401执行本发明的功能。特别是，计算机程序，当被执行时，使处理器1404执行本发明的功能。因此，这样的计算机程序是计算机系统的1401控制器。

在将本发明以软件实施的案例中，该软件可以存储在计算机程序产品并通过可移动存储驱动器1412，硬盘驱动器1410或通信接口1424加载到计算机系统1401。当被处理器1404执行时，控制逻辑(软件)使处理器1404实现这里描述的本发明的功能。

在另一个实施例中，本发明的实现主要是通过硬件，例如使用硬件部件如特定应用集成电路(ASIC)。硬件状态机的实现以便执行所述功能对熟练的行业人士是清楚的。

在另一个实施例中，本发明是通过硬件和软件的组合来实现。

尽管前文描述了本发明的各种实施例，它们应该被理解为只是范例而非限制。因此，本发明的广度和范围应该不受上述任何一个示范性实施例的限制，而只应该按符合下列权利要求及其对应项来界定。

Claims

1.一种用于改善在嘈杂环境中的设备上回放的远端音频信号的质量的方法，所述设备具有扬声器和麦克风，所述方法包括以下步骤：

通过麦克风监测近端噪音音频信号；

从所述近端噪音音频信号确定近端噪音特征；

基于所述近端噪音特征识别最佳信号整形滤波器；

应用所述最佳信号整形滤波器到远端音频信号以产生优化的远端音频信号；

输出优化的远端音频信号给扬声器。

2.如权利要求1所述的方法，进一步包括存储多个预定信号整形滤波器的步骤；并且

所述识别步骤通过基于近端噪音特征从多个预定信号整形滤波器中选择一个来执行。

3.如权利要求2所述的方法，当在所述应用步骤中应用于远端音频信号时，所述多个预定信号整形滤波器中的每个实现不同的频谱整形增益增加。

4.如权利要求1所述的方法，其中，识别所述最佳信号整形滤波器中的一个，以使得当在所述应用步骤中应用于远端音频信号时，优化后的远端音频信号的频谱能量在预定的人耳感知的预定频带内的频率上高于所述近端噪音音频信号的频谱能量。

5.如权利要求1所述的方法，其中所述最优整形滤波器是无限脉冲响应滤波器。

6.如权利要求1所述的方法，进一步包括采用一组规则基于所述近端音频特征实时生成所述最佳信号整形滤波器的步骤。

7.如权利要求6所述的方法，其中所述规则被设计为生成所述最佳信号整形滤波器，使得当在所述应用步骤中用于远端音频信号时，所述优化后的远端音频信号的频谱能量在预定的人耳感知预定频带内的频率上高于近端噪音音频信号的频谱能量。

8.如权利要求1所述的方法，其中所述近端噪音特征包括所述近端噪音信号的频谱信息的参数。

9.如权利要求8所述的方法，进一步包括在储存设备上存储用于表示近端噪音特征的所述参数的步骤。

10.如权利要求1所述的方法，其中远端音频信号是语音信号。

11.如权利要求1所述的方法，其中远端音频信号是音乐信号。

12.一种用于改善在嘈杂环境中的设备上回放的远端音频信号的质量的方法，所述设备具有扬声器和麦克风，所述方法包括以下步骤：

通过麦克风监测近端噪音音频信号；

从所述近端噪音音频信号确定近端噪音特征；

从远端音频信号确定远端音频信号特征；

基于所述近端噪音特征和所述远端音频信号特征识别最佳信号整形滤波器；

输出优化的远端音频信号给扬声器。

13.如权利要求12所述的方法，进一步包括存储多个预定信号整形滤波器的步骤；并且

基于近端噪音特征和远端音频特征，通过从多个预定信号整形滤波器中选择一个来执行识别最佳信号整形滤波器的所述步骤。

14.如权利要求12所述的方法，进一步包括采用一组规则基于所述近端噪音特征和所述远端音频特征实时生成所述最佳信号整形滤波器的步骤。

15.一种用于改善在嘈杂环境中的设备上回放的远端音频信号的质量的方法，所述设备具有扬声器和麦克风，所述方法包括以下步骤：

通过麦克风监测近端噪音音频信号；

从所述近端噪音音频信号确定近端噪音特征；

基于所述近端噪音特征识别最佳信号整形滤波器；

基于所述近端噪音特征识别最佳自动增益控制；

应用所述最佳信号整形滤波器和所述最佳自动增益控制到远端音频信号以产生优化的远端音频信号；

输出优化的远端音频信号给扬声器。

16.如权利要求15所述的方法，进一步包括存储多个预定的自动增益控制的步骤；并且

通过基于近端噪音的特征识别所述多个自动增益控制中的一个来执行识别最佳自动增益控制的所述步骤。

17.如权利要求15所述的方法，其中所述最佳自动增益控制被识别为，使得当在所述应用步骤中用于远端音频信号时，所述优化后的远端音频信号的频谱能量在预定的人耳感知预定频带的频率上内高于近端噪音音频信号的频谱能量。

18.如权利要求15所述的方法，进一步包括基于所述近端音频特征使用一个或多个规则实时产生所述最佳自动增益控制的步骤。

19.如权利要求15所述的方法，其中设备是移动电话。

20.如权利要求15所述的方法，其中设备是便携游戏系统。

21.如权利要求15所述的方法，其中喇叭是耳机。

22.如权利要求15所述的方法，其中设备是便携音乐播放器。

23.如权利要求15所述的方法，其中设备是个人数字信息娱乐终端。

24.一种用于改善在嘈杂环境中回放的远端语音信号的感知质量的移动电话系统，所述系统包括：

能够监测近端噪音信号的麦克风；

特征分析模块，用于从所述近端噪音信号确定近端噪音特征；

第一存储装置，用于存储表示所述近端噪音特征的数据；

选择模块，用于基于所述近端噪音特征识别用于优化所述远端语音信号的最佳信号整形滤波器；

滤波整形模块，用于应用所述最佳信号整形滤波器到远端语音信号以生成优化的远端语音信号；和

数字到模拟转换器，用于输出所述优化的远端语音信号给扬声器以便噪音环境里的优化回放。

25.如权利要求24所述的方法，进一步包括第二存储装置，用于存储多个预定信号整形滤波器；并且

所述选择模块基于所述近端噪音特征从所述第二存储器中选择最佳整形滤波器。

26.如权利要求25所述的方法，其中所述多个预定信号整形滤波器被设计是为当被所述滤波整形模块应用于所述远端语音信号时，每个预定信号整形滤波器导致不同的频谱整形增益增加。

27.如权利要求24所述的方法，其中所述最佳信号整形滤波器被识别为使得当在所述滤波整形模块中用于远端音频信号时，所述优化后的远端音频信号的频谱能量在预定的人耳感知预定频带内的频率上高于近端噪音信号的频谱能量。

28.如权利要求24所述的方法，其中所述最优整形滤波器是无限脉冲响应滤波器。

29.如权利要求24所述的方法，进一步包括规则生成器模块，用于基于所述近端噪音特征实时生成所述最佳信号整形滤波器。

30.如权利要求29所述的方法，其中所述规则被设计为生成所述最佳信号整形滤波器，使得当在所述滤波整形模块中用于远端音频信号时，所述优化后的远端音频信号的频谱能量在预定的人耳感知预定频带内的频率上高于近端噪音音频信号的频谱能量。

31.如权利要求24所述的方法，其中所述近端噪音特征包括用于表示近端噪音信号的频谱信息的参数。

32.一种用于改善在嘈杂环境中回放的远端语音信号的感知质量的移动电话系统，所述系统包括：

能够监测近端噪音信号的麦克风；

移动电话接收机电路，用于接收远端语音信号；

特征分析模块，用于从所述近端噪音信号确定近端噪音特征和从远端语音信号确定远端语音特征；

第一存储装置，用于存储表示所述近端噪音特征和所述远端噪音特征的数据；

选择模块，用于基于所述近端噪音特征和所述远端语音特征识别用于优化所述远端语音信号的最佳信号整形滤波器；

33.一种用于改善在嘈杂环境中回放的远端语音信号的感知质量的移动电话系统，所述系统包括：

能够监测近端噪音信号的麦克风；

第一存储装置，用于存储表示所述近端噪音特征的数据；

选择模块，用于基于所述近端噪音特征识别用于优化远端语音信号的最佳自动增益控制和最佳信号整形滤波器；

滤波整形模块，用于应用所述最佳信号整形滤波器和所述最佳自动增益控制到远端语音信号以产生优化的远端语音信号；和

34.如权利要求32所述的方法，进一步包括第二存储装置，用于存储多个预定自动增益控制；并且

所述选择模块基于所述近端噪音特征从所述第二存储器中选择所述最佳自动增益控制。

35.如权利要求33所述的方法，其中所述多个预定自动增益控制被设计为当被所述滤波整形模块应用于所述远端语音信号时，每个预定自动增益控制提供不同的增益增加。

36.如权利要求32所述的方法，其中所述最佳自动增益控制被识别为使得当在所述滤波整形模块中应用于远端语音信号时，所述优化后的远端音频信号的频谱能量在预定的人耳感知预定频带内的频率上高于近端噪音音频信号的频谱能量。

37.如权利要求32所述的系统，进一步包括规则生成器模块，用于基于所述近端噪音特征实时生成所述最佳自动增益控制。

38.一种用于改善在嘈杂环境中回放的所生成音乐信号的感知质量的便携音乐系统，所述系统包括：

能够监测近端噪音信号的麦克风；

第一存储装置，用于存储表示所述近端噪音特征的数据；

选择模块，用于基于所述近端噪音特征识别用于优化所生成的音乐信号的最佳信号整形滤波器；

滤波整形模块，用于应用所述最佳信号整形滤波器到生成的音乐信号以产生优化的音乐回放信号；和

数字到模拟转换器，用于输出所述优化的音乐回放信号给扬声器以便噪音环境里的优化回放。

39.一种用于改善在嘈杂环境中的数字信息娱乐终端上回放的音频信号的感知质量的系统，所述系统包括：

能够监测近端噪音信号的麦克风；

第一存储装置，用于存储表示所述近端噪音特征的数据；

选择模块，用于基于近端噪音特征识别用于优化所生成的音乐信号的最佳信号整形滤波器；

滤波整形模块，用于应用所述最佳信号整形滤波器到音频信号以产生优化的音频回放信号；和

40.一种用于改善在嘈杂环境中的便携音频终端上回放的音频信号的感知质量的系统，所述系统包括：

用户音量控制；

输入装置，用于显示所述用户音量控制器上的设置；

选择模块，用于基于所述设置识别用于优化所述音频回放的最佳信号整形滤波器；

滤波整形模块，用于应用所述最佳信号整形滤波器到音频信号以生成优化的音频回放信号；和

41.一个非暂态计算机程序产品，其包括具有储存在其中的计算机程序逻辑的计算机可用介质，所述计算机程序逻辑能使计算机处理装置提高在嘈杂环境中的设备上回放的远端音频信号质量，所述设备有一个扬声器和一个麦克风，所述计算机程序产品包括：

通过麦克风监测近端噪音的音频信号的代码；

从近端噪音音频信号确定近端噪音特征的代码；

基于近端噪音特征识别最佳信号整形滤波器的代码；

将所述最佳信号整形滤波器应用用于远端音频信号以产生优化的远端音频信号的代码；

将所述优化的远端音频信号输出到扬声器的代码。

42.如权利要求41所述的非暂态计算机程序产品，进一步包括用于存储多个预定信号整形滤波器的代码；并且

其中识别最佳信号整形滤波器的代码包括基于近端噪音特征从多个预定信号整形滤波器中选择一个的代码。

43.如权利要求41所述的非暂态计算机程序产品，其中当被所述应用代码应用于远端音频信号时，所述多个预定信号整形滤波器中的每个都提供不同的频谱整形增益增加。

44.如权利要求41所述的非暂态计算机程序产品，其中所述最佳信号整形滤波器中的一个被识别为当被所述应用代码应用于远端音频信号使，使得优化后的远端音频信号的频谱能量在预定的人耳感知敏感频带内的频率上高于近端噪音音频信号的频谱能量。

45.如权利要求41所述的非暂态计算机程序产品，其中最优整形滤波器是无限脉冲响应滤波器。

46.如权利要求41所述的非暂态计算机程序产品，进一步包括用于定义一组规则以基于近端音频特征实时产生最佳信号整形滤波器的代码。

47.如权利要求46所述的非暂态计算机程序产品，其中所述规则被设计为生成最佳信号整形滤波器以使得当被所述应用代码应用于远端音频信号时，优化后的远端音频信号的频谱能量在预定的人耳感知敏感频带内的频率上高于近端噪音音频信号的频谱能量。

48.如权利要求41所述的非暂态计算机程序产品，其中近端噪音特征包括用于表示近端噪音信号的频谱信息的参数。

49.如权利要求48所述的非暂态计算机程序产品，进一步包括用于在储存设备中存储表示所述近端噪音特征的所述参数的代码。

50.如权利要求41所述的非暂态计算机程序产品，其中远端音频信号是语音信号。

51.如权利要求41所述的非暂态计算机程序产品，其中远端音频信号是音乐信号。

52.一个非暂态计算机程序产品，其包括具有储存在其中的计算机程序逻辑的计算机可用介质，所述计算机程序逻辑能使计算机处理装置提高在嘈杂环境中的设备上回放远端音频信号的质量，所述设备有一个扬声器和一个麦克风，所述计算机程序产品包括：

通过麦克风监测近端噪音的音频信号的代码；

从近端噪音音频信号确定近端噪音特征的代码；

从远端音频信号确定远端音频信号特征的代码；

基于近端噪音特征和远端音频信号特征识别最佳信号整形滤波器的代码；

将所述最佳信号整形滤波器应用于远端音频信号以产生优化的远端音频信号的代码；

将所述优化的远端音频信号输出到扬声器的代码。

53.如权利要求52所述的非暂态计算机程序产品，进一步包括用于存储多个预定信号整形滤波器的代码；并且

其中识别最佳信号整形滤波器的代码包括基于近端噪音特征和远端音频信号特征从多个预定信号整形滤波器中选择一个的代码。

54.如权利要求53所述的非暂态计算机程序产品，进一步包括定义一组规则以基于近端音频特征和远端音频信号特征实时生成最佳信号整形滤波器的代码。

55.一个非暂态计算机程序产品，其包括具有储存在其中的计算机程序逻辑的计算机可用介质，所述计算机程序逻辑能使计算机处理装置提高在嘈杂环境中的设备上回放远端音频信号的质量，所述设备有一个扬声器和一个麦克风，所述计算机程序产品包括：

通过麦克风监测近端噪音的音频信号的代码；

从近端噪音音频信号确定近端噪音特征的代码；

基于近端噪音特征识别最佳信号整形滤波器的代码；

基于近端噪音特征识别最佳自动增益控制的代码；

将所述最佳信号整形滤波器和最佳自动增益控制应用于远端音频信号以产生优化的远端音频信号的代码；

将所述优化的远端音频信号输出到扬声器的代码。

56.如权利要求55所述的非暂态计算机程序产品，进一步包括用于存储多个预定自动增益控制的代码；并且

其中识别最佳自动增益控制的代码包括基于近端噪音特征和远端音频信号特征从多个预定自动增益控制中选择一个的代码。