CN104981866A

CN104981866A - 用于确定立体声信号的方法

Info

Publication number: CN104981866A
Application number: CN201380072679.9A
Authority: CN
Inventors: 克里斯托弗·富勒; 大卫·维雷特; 郎玥
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-01-04
Filing date: 2013-01-04
Publication date: 2015-10-14
Anticipated expiration: 2033-01-04
Also published as: KR20150103252A; US20160234621A1; KR101694225B1; US9521502B2; WO2014106543A1; EP2941770B1; EP2941770A1; CN104981866B

Abstract

本发明涉及一种用于确定输出立体声信号(Y₁、Y₂)的方法(200)，其包括：基于第一输入音频信道信号(m₁)和第二输入音频信道信号(m₂)的经滤波版本的差确定(201)第一差分信号(x₁)以及基于所述第二输入音频信道信号(m₂)和所述第一输入音频信道信号(m₁)的经滤波版本的差确定第二差分信号(x₂)；基于所述第一差分信号(x₁)确定(203)第一功率谱(P₁)以及基于所述第二差分信号(x₂)确定第二功率谱(P₂)；确定(205)第一加权函数(W₁)和第二加权函数(W₂)作为所述第一功率谱(P₁)和所述第二功率谱(P₂)的函数；其中所述第一加权函数(W₁)和所述第二加权函数(W₂)包括指数函数；以及通过所述第一加权函数(W1)来滤波(207)第一信号以获得所述输出立体声信号(Y₁、Y₂)的第一输出音频信道信号(Y₁)，第一信号代表所述第一输入音频信道信号(m₁)和所述第二输入音频信道信号(m₂)的第一组合以及通过所述第二加权函数(W₂)来滤波第二信号以获得所述输出立体声信号(Y₁、Y₂)的第二输出音频信道信号(Y₂)，第二信号代表所述第一输入音频信道信号(m₁)和所述第二输入音频信道信号(m₂)的第二组合。

Description

用于确定立体声信号的方法

技术领域

本发明涉及用于确定立体声信号的方法、计算机程序和装置。

背景技术

立体声麦克风通常使用两个指向性麦克风元件来直接记录适合于立体声播放的信号。指向性麦克风是取决于所涉及的模型从某一方向或多个方向获取声音的麦克风，例如，心形指向或8字形指向麦克风。指向性麦克风昂贵且难以嵌入小型设备中。因此，在移动设备中通常使用全向性麦克风元件。全向性或非指向性麦克风的响应在三维上通常被认为是完整的球体。然而，通过全向性麦克风产生的立体声信号仅具有极小的左右信号间距。实际上，归因于在两个全向性麦克风之间具有仅几厘米的小距离，因此立体图像宽度由于信道之前的能量差和时延差小而相反地受到限制。能量差和时延差被称为空间线索并且如在1997年美国剑桥麻省理工学院出版社出版的J.布劳尔特(J.Blauert)的“空间听觉：人类声定位的心理物理学(Spatial Hearing:The Psychoacoustics of Human SoundLocalization)”中所解释空间线索会直接影响空间感知。因此，已提出将全向性麦克风信号转换成具有更大间距的立体声信号的技术，如通过2010年第129届音频工程学会大会预印本中的C.福勒(C.Faller)的“两个小间距全向性麦克风信号到xy立体声信号的转换(Conversion of two closelyspaced omnidirectional microphone signals to an xy stereo signal)”示出。

两个全向性麦克风信号可以转换成两个一阶差分信号以产生具有更大左右间距的立体声信号，如通过美国声学学会杂志，17(3)，192至198页的奥尔森(Olson)、H.F(1946年)在‘梯度麦克风’中证实。此过程100在图1中说明。M1和M2表示两个全向性麦克风。通过计算来自第一麦克风M1的信号m₁(t)与来自第二麦克风M2的时延τ的信号M₂(t)之间的差信号来获得一阶差分信号x1和x2。自由场校正滤波(h)随后应用于差信号m₁(t-τ)-m₂(t)和m₂(t-τ)-m₁(t)。

先前描述的方法的缺点在于，差分信号在低频率处具有低信噪比且在较高频率处具有频谱缺陷。在2010年第129届音频工程学会大会预印本中的C.福勒(C.Faller)的“两个小间距全向性麦克风信号到xy立体声信号的转换(Conversion of two closely spaced omnidirectional microphonesignals to an xy stereo signal)”中提出的技术尝试通过仅将差分信号(x₁和x₂)用于计算增益滤波来避免这些问题，所述技术随后应用于原始麦克风信号(m₁和m₂)并且实现良好SNR(信噪比)以及减少的频谱缺陷。

然而，此技术限于特定立体图像或特定录音场景。

发明内容

本发明的目标是提供一种用于捕获或处理立体声信号的改进的技术。

此目标通过独立权利要求的特征得以实现。进一步的实施形式通过从属权利要求、说明书以及图式清楚可见。

本发明是基于以下发现：以上常规技术不可能调整所捕获或所处理的立体声信号的立体声宽度。增益滤波计算用于提供固定的立体图像，其无法经修改以控制立体图像或无法由用户在线改变。因此，在不将立体声麦克风放置在最佳位置处的情况下立体声麦克风不会产生最佳立体声信号。例如，必须手动地选择麦克风到待录音的目标的距离，使得包围所述目标的区段具有与立体声麦克风捕获的区段相对应的角。

本发明进一步基于以下发现：应用宽度控制提供用于捕获或处理立体声信号的改进的技术。通过使用直接控制输入立体声信号的立体声宽度的额外的控制参数，在待录音的目标的位置跨越对应立体图像宽度的情况下立体声信号可以变得更窄或更宽。此控制参数还可以称为立体声宽度控制参数。对于控制立体声宽度，差分信号统计可以通过将指数参数引入到加权函数并且修改指数参数而视需要容易地进行调整或修改。

为了详细描述本发明，将使用以下术语、缩写以及符号：

M1、M2：第一(左)和第二(右)麦克风。

m₁、m₂：第一和第二输入音频信道信号，例如，第一和第二麦

克风信号。

x₁、x₂： m₁和m₂的第一和第二差分信号。

P₁(k,i),

P₂(k,i)：第一(左)和第二(右)差分信号的功率谱，

X₁(k,i),

X₂(k,i)：第一(左)和第二(右)差分信号的频谱，

Y₁(k,i),

Y₂(k,i)：第一(左)和第二(右)立体声输出信号的频谱，

Y₁、Y₂：第一(左)和第二(右)输出音频信道信号

W₁(k,i),

W₂(k,i)：第一(左)和第二(右)加权函数，例如，第一(左)

和第二(右)立体声增益滤波，

β：立体声宽度控制参数，

D(k,i)：扩散声混响，

Φ(k,i)：第一(左)差分信号与第二(右)差分信号之间的归

一化互相关，

L：左输出信号或左输出音频信道信号，

R：右输出信号或右输出音频信道信号，

STFT：短时傅里叶变换，

SNR：信噪比，

BCC：双耳线索编码，

CLD：信道电平差

ILD：信道间电平差，

ITD：信道间时间差，

ICC：信道间相干性/互相关，

QMF：正交镜像滤波器。

根据第一方面，本发明涉及一种用于基于输入立体声信号确定输出立体声信号的方法，所述输入立体声信号包括第一输入音频信道信号和第二输入音频信道信号，所述方法包括：基于第一输入音频信道信号和第二输入音频信道信号的经滤波版本的差确定第一差分信号以及基于第二输入音频信道信号和第一输入音频信道信号的经滤波版本的差确定第二差分信号；基于第一差分信号确定第一功率谱以及基于第二差分信号确定第二功率谱；确定第一和第二加权函数作为第一和第二功率谱的函数；其中第一和第二加权函数包括指数函数；以及通过第一加权函数来滤波第一信号以获得输出立体声信号的第一输出音频信号，第一信号代表第一输入音频信道信号和第二输入音频信道信号的第一组合以及通过第二加权函数来滤波第二信号以获得输出立体声信号的第二输出音频信道信号，第二信号代表第一输入音频信道信号和第二输入音频信道信号的第二组合。

通过将指数函数用作用于第一和第二加权函数的额外参数，可以取决于指数函数的指数控制立体声信号的立体声宽度。因此，可以仅通过控制立体声宽度且不需要将麦克风放置在最佳位置处或调整麦克风的相对位置和/或定向而最佳地捕获或处理立体声信号。

在根据第一方面的方法的第一可能实施形式中，第一信号是第一输入音频信道信号并且第二信号是第二输入音频信道信号。

当滤波第一和第二输入音频信道信号时，滤波易于实施。

在根据第一方面本身或根据第一方面的第一实施形式的方法的第二可能实施形式中，第一信号是第一差分信号并且第二信号是第二差分信号。

当滤波第一和第二差分信号时，所述方法提供具有改进的左右间距立体声信号。

在根据第一方面的第二实施形式的方法的第三可能实施形式中，指数函数的指数处于0.5与2之间。

对于指数1，使用第一和第二差分信号的立体声宽度；对于大于1的指数，图像变得更宽；对于小于1的指数，图像变得更窄。图像宽度因此可以灵活地受到控制。因此，指数还可以称为“立体声宽度控制参数”。在替代实施形式中，选择指数的其它范围，例如，在0.25与4之间、在0.2与5之间、在0.1与10之间等。然而，从0.5至2的范围已被具体示为很好地拟合立体声宽度的人类感知。

在根据第一方面本身或根据第一方面的前述实施形式的任一者的方法的第四可能实施形式中，确定第一和第二加权函数包括：通过归一化函数归一化第一功率谱的指数版本；以及通过归一化函数归一化第二功率谱的指数版本，其中归一化函数是基于第一功率谱的指数版本和第二功率谱的指数版本的总和。

通过由相同的归一化函数归一化功率谱，左信道与右信道之间的功率比保存在立体声信号中。当使用用于计算功率谱的短时平均时，改进声学效果。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第五可能实施形式中，第一和第二加权函数取决于第一和第二麦克风信号的扩散声的功率谱，具体而言是第一和第二麦克风信号的混响声音。

因此所述方法允许考虑不合需要的信号，例如，扩散声。加权函数可以使不合需要的信号衰减，由此改进立体声信号的感知和质量。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第六可能实施形式中，第一和第二加权函数取决于第一差分信号与第二差分信号之间的归一化互相关。

当使用数字信号处理技术时易于计算差分信号之间的归一化互相关函数。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第七可能实施形式中，第一和第二加权函数取决于第一和第二功率谱的最小值。

功率谱的最小值可以用作指示麦克风信号的混响的测量。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第八可能实施形式中，确定第一加权函数(W₁)和第二加权函数(W₂)包括：

W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}

和

W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}},

或包括：

W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}

和

W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}},

其中P₁(k,i)表示第一功率谱，P₂(k,i)表示第二功率谱，W₁(k,i)表示相对于第一功率谱的加权函数，W₂(k,i)表示相对于第二功率谱的加权函数，D(k,i)是根据D(k,i)＝Φ(k,i)min(P₁(k,i),P₂(k,i))确定的扩散声的功率谱，其中Φ(k,i)是第一差分信号与第二差分信号之间的归一化互相关，g是增益因子，β是指数函数的指数，k是时间索引并且i是频率索引。

所述方法通过加宽和噪音控制提供麦克风信号的增益滤波。所获得的立体声信号表征为改进的左右间距和噪音减少特性。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第九可能实施形式中，所述方法进一步包括：基于输出立体声信号的第一输出音频信道信号和第二输出音频信道信号确定空间线索，具体而言，是信道电平差、信道间时间差、信道间相位差和信道间相干性/互相关中的一者。

所述方法可以应用于使用空间线索编码的编码器/解码器中的参数立体声信号。当经解码立体声信号的差分信号统计通过指数函数修改时，经解码立体声信号的语音质量得到改进。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第十可能实施形式中，第一输入音频信道信号和第二输入音频信道信号源自全向性麦克风或通过使用全向性麦克风获得。

全向性麦克风并不昂贵且它们易于嵌入类似移动设备、智能电话和平板计算机的小型设备中。将前述方法中的任一者应用于源自全向性麦克风的任何输入立体声信号以及其对应的输入音频信道信号具体而言允许改进感知到的立体声宽度。例如，输入立体声信号可以是由全向性麦克风在施加其它音频编码步骤之前直接捕获的原始立体声信号，或经重构立体声信号，例如，通过对经编码立体声信号进行解码重构，其中使用从全向性麦克风捕获的立体声信号获得经编码立体声信号。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第十一可能实施形式中，第一输入音频信道信号的经滤波版本是第一输入音频信道信号的时延版本并且第二输入音频信道信号的经滤波版本是第二输入音频信道信号的时延版本。

麦克风信号的滤波通过调整时延而允许灵活的左右间距。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第十二可能实施形式中，第一输入音频信道信号是第一麦克风的第一麦克风信号，并且第二输入音频信道信号是第二麦克风的第二麦克风信号。例如，第一麦克风和第二麦克风可以是全向性麦克风。

例如，在应用例如源编码或空间编码等有损音频编码之前，将前述方法中的任一者用于确定麦克风信号上的输出立体声信号允许改进任何连续立体声编码的质量以及经解码立体声信号的感知到的立体声质量，因为除无损编码之外的任何编码通常伴随着丢失包含在由麦克风捕获的原始立体声信号中的空间信息。

具体而言针对靠近彼此安排的全向性麦克风，例如如针对移动终端的内置全向性麦克风，将前述方法中的任一者用于确定在由全向性麦克风在应用例如源编码或空间编码等的有损音频编码之前捕获的麦克风信号上的输出立体声信号具体而言允许改进编码的质量以及经解码立体声信号的感知到的立体声宽度。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第十三可能实施形式中，指数函数的指数值是固定的或可调整的。

指数函数的固定指数值允许以固定方式使输出立体声信号的感知到的立体声宽度变窄或变宽。指数函数的可调整指数值允许基于用户输入经由用户接口灵活地(例如，自动地或手动地)调整输出立体声信号的感知到的立体声宽度。

在根据第一方面本身或根据第一方面的前述实施形式中的任一者的方法的第十四可能实施形式中，所述方法进一步包括：经由用户接口设定或修正指数函数的指数值。

根据第二方面，本发明涉及一种具有用于在计算机上运行时执行根据第一方面本身或第一方面的实施形式中的任一者的方法的程序代码的计算机程序或计算机程序产品。

根据第三方面，本发明涉及一种用于基于输入立体声信号确定输出立体声信号的装置，所述输入立体声信号包括第一输入音频信道信号和第二输入音频信道信号，所述装置包括处理器，用于通过应用根据第一方面本身或根据第一方面的实施形式中的任一者的方法从第一输入音频信道信号和第二输入音频信道信号中产生输出立体声信号。

所述装置可以是经调适以执行根据第一方面本身或根据第一方面的实施形式中的任一者的方法的任何设备。例如，所述装置可以是经调适以通过外部或内置麦克风捕获输入立体声信号且通过执行根据第一方面本身或根据第一方面的实施形式中的任一者的方法确定输出立体声信号的移动设备。例如，所述装置还可以是网络设备或任何其它设备，所述设备连接到通过经编码或非经编码方式捕获或提供立体声信号的设备且经调适以后处理从此捕获设备接收到的立体声信号作为输入立体声信号以通过执行根据第一方面本身或根据第一方面的实施形式中的任一者的方法确定输出立体声信号。

在根据第三方面的装置的第一可能实施形式中，所述装置包括：存储器，用于存储控制立体声信号的宽度的宽度控制参数，所述宽度控制参数由第一加权函数用于加权第一功率谱并且由第二加权函数用于加权第二功率谱；以及/或者用户接口，用于提供宽度控制参数。

常规装置的存储器可以用于存储宽度控制参数。现有用户接口可以用于提供宽度控制参数。可替代地，滑动器可以用于实现易于实施的用户接口。因此，用户能够控制立体声宽度，由此改进其体验质量。

在根据第三方面本身或根据第三方面的第一实施形式的装置的第二可能实施形式中，宽度控制参数是应用于第一和第二功率谱的指数，所述指数处于0.5与2之间的范围中。

在0.5与2之间的范围是用于控制立体声宽度的最佳范围。

所述装置提供一种用以在从一对麦克风中产生立体声信号，或具体而言从一对全向性麦克风中产生后处理立体声信号时改变立体声宽度的方式。麦克风可以集成到装置中，例如，集成到移动设备中，或者它们可以在外部并且经由例如头戴式耳机集成，从而向移动设备提供左和右麦克风信号。用于捕获输入立体声信号的两个麦克风之间的距离越小，通过本发明的实施形式提供的输出立体声信号的感知到的立体声宽度的可能改进就越大。

根据第四方面，本发明涉及一种用于捕获立体声信号的方法，所述方法包括：接收第一和第二麦克风信号；产生第一和第二差分信号；估计第一和第二频谱；通过应用指数计算经修改频谱；基于经修改频谱计算第一和第二增益滤波作为加权函数；以及将增益滤波应用于第一和第二麦克风信号以获得第一和第二输出音频信道信号。

根据第五方面，本发明涉及一种用于计算立体声信号的方法，所述方法包括：根据左和右麦克风信号计算左和右差分麦克风信号；计算差分麦克风信号的功率；将指数应用于所述功率；计算用于左和右麦克风信号的增益因子；以及将所述增益因子应用于左和右麦克风信号。

本文中描述的方法、系统和设备可以实施为在数字信号处理器(DSP)、微控制器或任何其它侧处理器中的软件或实施为专用集成电路(ASIC)内的硬件电路。

本发明可以实施于数字电子电路或计算机硬件、固件、软件或其组合中，例如，实施于常规移动设备的可用硬件或专用于处理本文所描述的方法的新硬件中。

附图说明

本发明的其它实施例将相对于以下图式描述，其中：

图1示出用于产生立体声信号的常规方法的示意图；

图2示出根据实施形式的用于确定输出立体声信号的方法200的示意图；

图3示出根据实施形式的用于使用宽度控制确定输出立体声信号的方法300的示意图；

图4示出根据实施形式的例如移动设备的装置400的示意图；以及

图5示出根据实施形式的计算参数立体声信号的例如移动设备的装置500的示意图。

具体实施方式

下文将描述本发明的实施形式，其中第一输入音频信道信号是第一麦克风的第一麦克风信号并且第二输入音频信道信号是第二麦克风的第二麦克风信号。

图2示出根据实施形式的用于确定输出立体声信号的方法200的示意图。

根据第一麦克风的第一麦克风信号和第二麦克风的第二麦克风信号确定输出立体声信号。方法200包括基于第一麦克风信号和第二麦克风信号的经滤波版本的差确定201第一差分信号以及基于第二麦克风信号和第一麦克风信号的经滤波版本的差确定第二差分信号。方法200包括基于第一差分信号确定203第一功率谱以及基于第二差分信号确定第二功率谱。方法200包括确定205第一和第二加权函数作为第一和第二功率谱的函数；其中第一和第二加权函数包括指数函数。方法200包括通过第一加权函数来滤波207第一信号以获得输出立体声信号的第一输出音频信道信号，第一信号代表第一和第二麦克风信号的第一组合以及通过第二加权函数来滤波第二信号以获得输出立体声信号的第二输出音频信道信号，第二信号代表第一和第二麦克风信号的第二组合。

在方法200的实施形式中，第一信号是第一麦克风信号并且第二信号是第二麦克风信号。在方法200的另一实施形式中，第一信号是第一差分信号并且第二信号是第二差分信号。在方法200的实施形式中，指数函数的指数或指数值处于0.5与2之间。在方法200的实施形式中，确定第一和第二加权函数包括：通过归一化函数归一化第一功率谱的指数版本；以及通过归一化函数归一化第二功率谱的指数版本，其中归一化函数是基于第一功率谱的指数版本和第二功率谱的指数版本的总和。在方法200的实施形式中，第一和第二加权函数取决于第一和第二麦克风信号的扩散声的功率谱，具体而言第一和第二麦克风信号的混响声音。在方法200的实施形式中，第一和第二加权函数取决于第一差分信号与第二差分信号之间的归一化互相关。在方法200的实施形式中，第一和第二加权函数取决于第一和第二功率谱的最小值。在方法200的实施形式中，确定第一(W₁)加权函数和第二(W₂)加权函数包括：

W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}

和

W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}},

或包括：

W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}

和

W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}},

其中P₁(k,i)表示第一功率谱，P₂(k,i)表示第二功率谱，W₁(k,i)表示相对于第一功率谱的加权函数，W₂(k,i)表示相对于第二功率谱的加权函数，D(k,i)是根据D(k,i)＝Φ(k,i)min(P₁(k,i),P₂(k,i))确定的扩散声的功率谱，其中Φ(k,i)是第一差分信号与第二差分信号之间的归一化互相关，g是增益因子，β是指数，k是时间索引并且i是频率索引。下文关于图3更详细地描述此类加权函数。

在方法200的实施形式中，所述方法进一步包括：基于立体声信号的第一和第二信道确定空间线索，具体而言，信道电平差、信道间时间差、信道间相位差和信道间相干性/互相关中的一者。在方法200的实施形式中，第一和第二麦克风是全向性麦克风。在方法200的实施形式中，第一麦克风信号的经滤波版本是第一麦克风信号的时延版本并且第二麦克风信号的经滤波版本是第二麦克风信号的时延版本。

图3示出根据实施形式的用于使用宽度控制确定输出立体声信号的方法300的示意图。

根据第一麦克风M₁的第一麦克风信号m₁和第二麦克风M₂的第二麦克风信号m₂确定输出立体声信号Y₁、Y₂。方法300包括基于第一麦克风信号m₁和第二麦克风信号m₂的经滤波版本的差确定第一差分信号x₁以及基于第二麦克风信号m₂和第一麦克风信号m₁的经滤波版本的差确定第二差分信号x₂。通过处理块A表示确定差分信号x₁和x₂。方法300包括基于第一差分信号x₁确定第一功率谱P₁以及基于第二差分信号x₂确定第二功率谱P₂。方法300包括通过加权函数加权第一功率谱P₁和第二功率谱P₂，从而获得经加权第一功率谱W₁和经加权第二功率谱W₂。通过处理块B表示确定功率谱P₁和P₂并且加权功率谱P₁和P₂以获得经加权功率谱W₁和W₂。加权是基于加权控制参数β，例如，指数。方法300包括基于经加权第一功率谱W₁调整第一增益滤波C₁以及基于经加权第二功率谱W₂调整第二增益滤波C₂。方法300包括通过第一增益滤波C₁滤波第一麦克风信号m₁以及通过第二增益滤波C₂滤波第二麦克风信号m₂以获得输出立体声信号Y₁、Y₂。方法300对应于上文关于图2描述的方法200。

上文关于图1描述的压力梯度信号m₁(t-τ)-m₂(t)和m₂(t-τ)-m₁(t)可以潜在地为有用立体声信号。然而，在低频率处噪音被放大，因为图1中描绘的自由场响应校正滤波h(t)在低频率处放大噪音。为了避免输出立体声信号中的经放大低频噪音，压力梯度信号x₁(t)和x₂(t)不直接用作信号，而仅它们的统计用于估计(时间变体)应用于原始麦克风信号m₁(t)和m₂(t)以产生输出立体声信号Y₁(t)、Y₂(t)的滤波。

下文考虑时间离散信号，而时间t用离散时间索引n替代。信号，例如x₁(t)的时间离散短时傅里叶变换(STFT)表示被表示为X₁(k,i)，其中k是时间索引且i是频率索引。在图3中，仅指示对应的时间信号。在方法300的实施形式中，方法300的第一步骤包括将STFT应用到来自两个全向性麦克风M1和M2的输入信号m₁(t)和m₂(t)。在方法300的实施形式中，块A对应于上文关于图1描述的一级差分信号x₁和x₂的计算。

左和右立体声输出信号的STFT频谱如下进行计算：

Y₁(k,i)＝W₁(k,i)M₁(k,i)

Y₂(k,i)＝W₂(k,i)M₂(k,i)， (1)

其中M₁(k,i)和M₂(k,i)是原始全向性麦克风信号m₁(t)和m₂(t)的STFT表示并且W₁(k,i)和W₂(k,i)是在下文中描述的滤波。

左和右差分信号x₁和x₂的功率谱被估计为

\begin{matrix} P_{1} (k, i) = E {X_{1} (k, i) X_{1}^{*} (k, i)} \\ P_{2} (k, i) = E {X_{2} (k, i) X_{2}^{*} (k, i)}, \end{matrix} - - - (2)

其中*表示共轭复数并且E{.}是短时平均运算。

基于P₁(k,i)和P₂(k,i)，立体声增益滤波如下进行计算：

\begin{matrix} W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}} \\ W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}, \end{matrix} - - - (3)

其中指数β控制立体声宽度。对于β＝1，使用差分信号的立体声宽度；对于β>1，图像变得更宽；并且对于β<1，图像变得更窄。在实施形式中，β在0.5与2之间的范围中进行选择。

在实施形式中，估计例如噪音或混响等不合需要的信号的功率谱。在实施形式中，扩散声(混响)如下进行估计：

D(k,i)＝Φ(k,i)min(P₁(k,i),P₂(k,i))， (4)

其中Φ(k,i)表示在左差分信号x₁与右差分信号x₂之间的归一化互相关。基于这些估计，左增益滤波W₁(k,i)和右增益滤波W₂(k,i)如下进行计算：

\begin{matrix} W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}} \\ W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}, \end{matrix} - - - (5)

其中表示提供到不合需要的信号以使其衰减的增益并且L表示以dB为单位的衰减。

图4示出根据实施形式的例如移动设备的装置400的示意图。

移动设备400包括用于根据由第一麦克风M1提供的第一麦克风信号m₁和由第二麦克风M2提供的第二麦克风信号m₂确定输出立体声信号L、R的处理器401。处理器401经调适以应用关于图2描述的方法200或关于图3描述的方法300的实施形式中的任一者。在实施形式中，移动设备400包括用于接收宽度控制参数β的宽度控制构件403，从而控制输出立体声信号L、R的宽度。宽度控制参数β由加权函数用于加权上文关于图3所描述的第一功率谱P₁和第二功率谱P₂。

在移动设备400的实施形式中，宽度控制构件403包括用于存储宽度控制参数β的存储器。在移动设备400的实施形式中，宽度控制构件403包括用于提供宽度控制参数β的用户接口。在移动设备400的实施形式中，宽度控制参数β是应用于第一功率谱P₁和第二功率谱P₂的指数，指数β处于在0.5与2之间的范围中。

在实施形式中，麦克风M1、M2是全向性麦克风。两个全向性麦克风M1、M2连接到应用立体声转换方法的系统。在实施形式中，所述麦克风是安装在连接到移动设备400的耳机上的麦克风。在实施形式中，移动设备是智能手机或平板计算机。

在实施形式中，上文关于图2和3描述的方法200、300应用于移动设备400中，以便改进和控制立体声录音的立体声宽度。在实施形式中，宽度控制参数β存储在存储器中作为由移动设备400的制造商提供的预定或固定参数。在替代实施形式中，从使用户能够调整立体声宽度的用户接口获得宽度控制参数β。在实施形式中，用户通过滑动器控制立体声宽度。在实施形式中，滑动器将参数β控制在0.5与2之间。

在实施形式中，移动设备400是例如以下设备中的一者：蜂窝电话、智能手机、平板计算机、笔记本、便携式游戏设备、例如录音电话机或录音机等的录音设备、例如相机或摄影机等的录像设备。

图5示出根据实施形式的用于计算参数立体声信号504的例如移动设备的装置500的示意图。

移动设备500包括用于从由第一麦克风M1提供的第一麦克风信号m₁和由第二麦克风M2提供的第二麦克风信号m₂中产生参数立体声信号504的处理器501。处理器501经调适以应用关于图2描述的方法200或关于图3描述的方法300的实施形式中的任一者。在实施形式中，移动设备500包括用于接收宽度控制参数β的宽度控制构件503，从而控制参数立体声信号504的宽度。宽度控制参数β由加权函数用于加权上文关于图3或图2所描述的第一功率谱P₁和第二功率谱P₂。处理器501可以包括与上文关于图4所描述的处理器401相同的功能性。宽度控制构件503可以对应于上文关于图4所描述的宽度控制构件403。

例如全向性麦克风的两个麦克风M₁、M₂基于低比特率立体声编码连接到移动设备500。此编码/解码范例可以使用称为“双耳线索编码”(BCC)的立体声信号的参数表示，其在2004年瑞士洛桑联邦理工学院(EPFL)哲学博士C.福勒(C.Faller)发表的论文编号3062的“空间音频的参数编码(Parametric Coding of Spatial Audio)”中详细提出。在此文档中描述了参数空间音频编码方案。此方案是基于对于听觉空间图像的感知相关的信道间线索的提取和编码以及多信道音频信号的单声道或立体声表示的编码。信道间线索是也称为信道电平差(CLD)的信道间电平差(ILD)、还可以通过信道间相位差(IPD)呈现的信道间时间差(ITD)以及信道间相干性/互相关(ICC)。信道间线索可以基于输入信号的子带表示来提取，例如，通过使用常规短时傅里叶变换(STFT)或经复杂调制的正交镜像滤波器(QMF)。子带以遵循模拟人类听觉系统的频率分解的非均匀频率分解的参数带进行分组。通过矩阵化原始多信道音频信号来获得单声道或立体声下混信号502。随后使用常规的目前先进技术单声道或立体声音频编码器对此下混信号502进行编码。在实施形式中，移动设备500使用常规的目前先进技术音频编码器输出下混信号502或经编码下混信号。

在实施形式中，单声道下混信号502根据2004年瑞士洛桑联邦理工学院(EPFL)哲学博士C.福勒(C.Faller)发表的论文编号3062的“空间音频的参数编码(Parametric Coding of Spatial Audio)”计算出。或者，使用其它下混方法。在实施形式中，信道电平差每子带计算为：

C L D [b] = 10 \log_{10} \frac{Σ_{k = k_{b}}^{k_{b + 1} - 1} M_{1} [k] M_{1}^{*} [k]}{Σ_{k = k_{b}}^{k_{b + 1} - 1} M_{2} [k] M_{2}^{*} [k]}, - - - (6)

根据以下公式调适：

C L D [b] = 10 \log_{10} \frac{Σ_{k = k_{b}}^{k_{b + 1} - 1} Y_{1} [k] Y_{1}^{*} [k]}{Σ_{k = k_{b}}^{k_{b + 1} - 1} Y_{2} [k] Y_{2}^{*} [k]} - - - (7)

以考虑立体声宽度控制。Y₁[k]、Y₂[k]对应于由上文关于图2至4所描述的实施形式确定的输出立体声信号的两个输出音频信道信号。在另外包括参数音频编码的实施形式中，(经修改)立体声信号Y₁[k]、Y₂[k]用作中间信号Y₁[k]、Y₂[k]以计算随后作为立体声参数信号或辅助信息504与下混信号502一起输出的空间线索(CLD、ICC和ITD)。

宽度控制参数β可以存储在存储器中作为由移动设备500的制造商提供的预定参数。或者，从使用户能够调整立体声宽度的用户接口获得宽度控制参数β。用户可以通过举例来说使用将参数β控制在0.5与2之间的滑动器来控制立体声宽度。

尽管已基于实施方案主要描述本发明的实施方案(方法、计算机程序和装置)，其中第一输入音频信道信号是第一麦克风的第一麦克风信号并且第二输入音频信道信号是第二麦克风的第二麦克风信号，但是本发明的实施方案不限于此。本发明的实施形式可以适用于先前经编码和解码(例如)用于立体声信号的传输或存储的任何输入立体声信号或并非如此。在经编码输入立体声信号的情况下，本发明的实施方案可以包括解码经编码立体声信号，即，在确定差分信号之前重构来自经编码立体声信号的第一和第二输入音频信道信号等。在其它实施形式中，第一输入和输出音频信道信号可以是左输入和输出音频信道信号并且第二输入和输出音频信道信号可以是右输入和输出音频信道信号，或反之亦然。指数函数的指数值可以是固定的或可调整的，在这两种情况下所述值处于包含或排除值1的值的范围中，其中小于1的值允许使输出立体声信号的立体声宽度变窄并且大于1的值允许使输出立体声信号的立体声宽度变宽。指数的值可以处于从0.5至2的范围内。在替代实施形式中，指数的值可以处于从0.25至4、从0.2至5或从0.1至10等的范围内。

尽管装置的实施方案已例如基于图4和5主要描述用于移动设备，但是装置的实施形式可以是经调适以执行根据第一方面本身的方法的实施形式中的任一者或根据第一方面的实施形式中的任一者的任何设备。例如，所述装置可以是经调适以通过外部或内置麦克风捕获输入立体声信号且通过执行根据第一方面本身或根据第一方面的实施形式中的任一者的方法确定输出立体声信号的移动设备。例如，所述装置还可以是网络设备或任何其它设备，所述设备连接到通过经编码或非经编码方式捕获或提供立体声信号的设备且经调适以后处理从此捕获设备接收到的立体声信号作为输入立体声信号以通过执行根据上述实施形式中的任一者的方法确定输出立体声信号。

通过阅读以上内容，所属领域的技术人员将清楚地了解，提供多种方法、系统、记录媒体上的计算机程序及其类似者。

本发明还支持包含计算机可执行代码或计算机可执行指令的计算机程序产品，这些计算机可执行代码或计算机可执行指令在执行时使至少一个计算机执行本文中所描述的执行和计算步骤。

通过以上启示，对于所属领域技术人员来说，许多替代方案、修改和变体是显而易见的。当然，所属领域的技术人员容易认识到，除了本文中所描述的那些应用之外，还存在本发明的许多应用。虽然本发明已参考一个或多个具体实施例描述，但是所属领域的技术人员认识到，在不脱离本发明的范围的情况下可以对其作出许多改变。因此，应理解，在所附权利要求书及其等效物的范围内，可以用不同于本文中具体描述的方式来实践本发明。

Claims

1.一种用于基于输入立体声信号(m₁、m₂)确定输出立体声信号(Y₁、Y₂)的方法(200)，所述输入立体声信号包括第一输入音频信道信号(m₁)和第二输入音频信道信号(m₂)，所述方法包括：

基于所述第一输入音频信道信号(m₁)和所述第二输入音频信道信号(m₂)的经滤波版本的差确定(201)第一差分信号(x₁)，以及基于所述第二输入音频信道信号(m₂)和所述第一输入音频信道信号(m₁)的经滤波版本的差确定第二差分信号(x₂)；

基于所述第一差分信号(x₁)确定(203)第一功率谱(P₁)以及基于所述第二差分信号(x₂)确定第二功率谱(P₂)；

确定(205)第一加权函数(W₁)和第二加权函数(W₂)作为所述第一功率谱(P₁)和所述第二功率谱(P₂)的函数；其中所述第一加权函数(W₁)和所述第二加权函数(W₂)包括指数函数；以及

通过所述第一加权函数(W₁)来滤波(207)第一信号以获得所述输出立体声信号(Y₁、Y₂)的第一输出音频信道信号(Y₁)，所述第一信号代表的是所述第一输入音频信道信号(m₁)和所述第二输入音频信道信号(m₂)的第一组合，以及通过所述第二加权函数(W₂)来滤波第二信号以获得所述输出立体声信号(Y₁、Y₂)的第二输出音频信道信号(Y₂)，所述第二信号代表的是所述第一输入音频信道信号(m₁)和所述第二输入音频信道信号(m₂)的第二组合。

2.根据权利要求1所述的方法(200)，其中所述第一信号是所述第一输入音频信道信号(m₁)并且所述第二信号是所述第二输入音频信道信号(m₂)。

3.根据权利要求1所述的方法(200)，其中所述第一信号是所述第一差分信号(x₁)并且所述第二信号是所述第二差分信号(x₂)。

4.根据权利要求1至3中的任一权利要求所述的方法(200)，其中所述指数函数的指数(β)处于0.5与2之间。

5.根据前述权利要求中的任一权利要求所述的方法(200)，其中所述确定所述第一加权函数(W₁)和所述第二加权函数(W₂)包括：

通过归一化函数归一化所述第一功率谱(P₁)的指数版本；以及

通过所述归一化函数归一化所述第二功率谱(P₂)的指数版本，

其中所述归一化函数是基于所述第一功率谱(P₁)的所述指数版本和所述第二功率谱(P2)的所述指数版本的总和。

6.根据前述权利要求中的任一权利要求所述的方法(200)，其中所述第一加权函数(W₁)和所述第二加权函数(W₂)取决于所述第一输入音频信道信号(m₁)和所述第二输入音频信道信号(m₂)的扩散声的功率谱，具体而言，是所述第一输入音频信道信号(m₁)和所述第二输入音频信道(m₂)的混响声。

7.根据前述权利要求中的任一权利要求所述的方法(200)，其中所述第一加权函数(W₁)和所述第二加权函数(W₂)取决于所述第一差分信号(x₁)与所述第二差分信号(x₂)之间的归一化互相关。

8.根据前述权利要求中的任一权利要求所述的方法(200)，其中所述第一加权函数(W₁)和所述第二加权函数(W₂)取决于所述第一功率谱(P₁)和所述第二功率谱(P₂)的最小值。

9.根据前述权利要求中的任一权利要求所述的方法(200)，其中所述确定所述第一加权函数(W₁)和所述第二加权函数(W₂)包括：

W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}

和

W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}},

或包括：

W_{1} (k, i) = \sqrt{\frac{P_{1}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}}

和

W_{2} (k, i) = \sqrt{\frac{P_{2}^{β} (k, i) + (g - 1) D^{β} (k, i)}{P_{1}^{β} (k, i) + P_{2}^{β} (k, i)}},

其中P₁(k,i)表示所述第一功率谱，P₂(k,i)表示所述第二功率谱，W₁(k,i)表示相对于所述第一功率谱的所述加权函数，W₂(k,i)表示相对于所述第二功率谱的所述加权函数，D(k,i)是根据D(k,i)＝Φ(k,i)min(P₁(k,i),P₂(k,i))确定的扩散声的功率谱，其中Φ(k,i)是所述第一差分信号与所述第二差分信号之间的归一化互相关，g是增益因子，β是所述指数函数的指数，k是时间索引并且i是频率索引。

10.根据前述权利要求中的任一权利要求所述的方法(200)，其进一步包括：

基于所述输出立体声信号(Y₁、Y₂)的所述第一输出音频信道信号(Y₁)和所述第二输出音频信道信号(Y₂)确定空间线索，具体而言，是信道电平差、信道间时间差、信道间相位差和信道间相干性/互相关中的一者。

11.根据前述权利要求中的任一权利要求所述的方法(200)，其中所述第一输入音频信道信号(m₁)的所述经滤波版本是所述第一输入音频信道信号(m₁)的时延版本，并且其中所述第二输入音频信道信号(m₂)的所述经滤波版本是所述第二输入音频信道信号(m₂)的时延版本。

12.根据前述权利要求中的任一权利要求所述的方法(200)，其中所述第一输入音频信道信号(m₁)是第一麦克风(M₁)的第一麦克风信号(m₁)并且所述第二输入音频信道信号(m₂)是第二麦克风(M₂)的第二麦克风信号(m₂)。

13.根据权利要求12所述的方法(200)，其中所述第一麦克风(M₁)和所述第二麦克风(M₂)是全向性麦克风。

14.一种具有程序代码的计算机程序，当在计算机上运行时所述程序代码用于执行根据前述权利要求中的任一权利要求所述的方法。

15.一种用于基于输入立体声信号(m₁、m₂)确定输出立体声信号(Y₁、Y₂；L、R)的装置(400)，所述输入立体声信号包括第一输入音频信道信号(m₁)和第二输入音频信道信号(m₂)，所述装置包括：

处理器(401)，其用于通过应用根据权利要求1至13中的任一权利要求所述的方法(200)从所述第一输入音频信道信号(m₁)和所述第二输入音频信道信号(m₂)中产生所述输出立体声信号(Y₁、Y₂；L、R)。

16.根据权利要求15所述的装置(400)，其包括：

存储器，其用于存储控制所述立体声信号的宽度的宽度控制参数(β)，所述宽度控制参数由第一加权函数(W₁)用于加权第一功率谱(P₁)并且由第二加权函数(W₂)用于加权第二功率谱(P₂)；以及/或者

用户接口，其用于提供所述宽度控制参数(β)。

17.根据权利要求15或权利要求16所述的装置(400)，其中所述宽度控制参数(β)是应用于所述第一功率谱(P₁)和所述第二功率谱(P₂)的指数，所述指数(β)处于0.5与2之间的范围内。

18.根据权利要求15至17中的任一权利要求所述的装置(400)，其中所述装置是移动设备(400)，其包括第一麦克风(M₁)和第二麦克风(M₂)，并且其中所述第一输入音频信道信号(m₁)是所述第一麦克风(M₁)的第一麦克风信号(m₁)并且所述第二输入音频信道信号(m₂)是所述第二麦克风(M₂)的第二麦克风信号(m₂)。