CN102576531B

CN102576531B - 用于处理多信道音频信号的方法、设备

Info

Publication number: CN102576531B
Application number: CN200980161903.5A
Authority: CN
Inventors: J·奥扬佩雷
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2009-10-12
Filing date: 2009-10-12
Publication date: 2015-01-21
Anticipated expiration: 2029-10-12
Also published as: WO2011045465A1; EP2489036A1; CN102576531A; US9311925B2; EP2489036A4; EP2489036B1; US20120195435A1

Abstract

本发明涉及一种方法和设备，其中至少部分第一信道的音频信号和部分第二信道的音频信号的样本被用来产生音频信号的稀疏表示，以增加编码效率。在示例实施例中，一个或多个音频信号是输入，并且相关的听觉线索在时频平面中被确定。相关的听觉线索被合并以形成听觉神经元映射。所述一个或多个音频信号被变换到变换域，并且听觉神经元映射被用来形成所述一个或多个音频信号的稀疏表示。

Description

用于处理多信道音频信号的方法、设备

技术领域

本发明涉及有关处理多信道音频信号的方法、设备和计算机程序。

背景技术

空间音频场景由音频源和环绕收听者的周围环境组成。空间音频场景的周围环境分量可以包括由房间效应导致的周围背景噪声，即，由于音频源所处的空间的属性导致的音频源的混响，和/或听觉空间内的一（多）个其他周围环境声音源。听觉意象由于来自音频源的声音到达的方向和混响而被感知。人能够使用来自左耳和右耳的信号捕获三维意象（image）。因此，使用置于接近耳鼓的麦克风来记录音频意象足以捕获空间音频意象。

在音频信号的立体声编码中，两个音频信号被编码。在很多情况下，音频信道至少部分时间可以具有相当相似的内容。因此，可以通过将信道一起编码来高效地执行音频信号的压缩。这导致了整体的比特率，其可以低于独立对信道进行编码所需的比特率。

通常使用的低比特率立体声编码方法已知为参数化立体声编码。在参数化立体声编码中，使用单声道编码器和立体声信号的参数化表示对立体声信号进行编码。参数化立体声编码器将单声道信号计算为输入信号的线性组合。输入信号的组合还可以称为下混频（downmix）信号。可以使用常规的单声道音频编码器对单声道信号进行编码。除了创建单声道信号并对其进行编码，编码器还提取立体声信号的参数化表示。参数可以包括关于电平差、相位（或时间）差和输入信道间的相干性的信息。在解码器侧，利用该参数化的信息从已解码单声道信号重新创建立体声信号。参数化立体声可以视为强化立体声编码的改进版本，其中仅提取信道间的电平差。

参数化立体声编码可以概括成任意数量的信道的多信道编码。在具有任意数量的输入信道的一般情况下，参数化编码过程提供具有信道数量比输入信号小的下混频信号，以及提供有关（例如）电平/相位差以和输入信道间的相关性的信息的参数化表示，以使得实现基于下混频信号的多信道信号的重构。

另一常见的尤其是用于较高比特率的立体声编码方法，是已知的中-侧立体声，其可以缩写为M/S立体声。中-侧立体声编码将左信道和右信道转换成中间信道和侧信道。中间信道是左信道和右信道之和，而侧信道则是左信道和右信道的差。这两个信道被独立地编码。在足够准确的量化的情况下，中-侧立体声相对良好地保留了原始音频意象而没有引入严重的伪像（artifact）。另一方面，对于高质量再现的音频，所需的比特率仍旧处于相当高的电平。

像参数化编码那样，M/S编码也可以从立体声编码概括为对任意数量的信道的多信道编码。在多信道的情况下，典型地对信道对执行M/S编码。例如，在5.1信道配置中，前左信道和前右信道可形成第一对并使用M/S方案来编码，而后左信道和后右信道可形成第二对并且也使用M/S方案来编码。

存在得益于高效多信道音频处理和编码能力的多个应用，例如“环绕声音”利用5.1或7.1信道格式。得益于高效多信道音频处理和编码的另一示例是多视图音频处理系统，其可以包括例如多视图音频捕获、分析、编码、解码/重构和/或呈现组件。在多视图音频处理系统中，例如从多个空间接近的麦克风获取的信号被用来捕获捕获音频场景，其中，所有麦克风都相对于正向轴指向不同的角度。所捕获的信号可能被处理并被发送（或者可替代地，被存储以用于以后的消费）到呈现侧，端用户在该呈现侧可基于他/她的偏好从多视图音频场景选择听觉视图。呈现部分于是根据与所选听觉视图对应的多视图音频场景提供一（多）个经过下混频的信号。为了使得能够实现通过网络的传输或存储媒介中的存储，可能需要应用压缩方案来满足网络或存储空间需求的限制。

与多视图音频场景相关联的数据速率经常如此的高，以致于可能需要对信号进行压缩编码和相关的处理，以便使得能够实现通过网络的传输或存储。此外，有关所需传输带宽的类似挑战本质上对于任何多信道音频信号仍然有效。

通常，多信道音频是多视图音频的子集。在某种意义上，多信道音频编码解决方案可以应用到多视图音频场景，尽管它们对于诸如两信道立体声或5.1或7.1信道格式的标准扬声器布置的编码是更加优化的。

例如，已经提出了以下多信道音频编码方案。高级音频编码（AAC）标准定义了信道成对的编码类型，其中，输入信道被分成信道对，并且将高效的心理声学引导编码应用到每一个信道对。该编码类型更多地面向高比特率编码。通常，心理声学引导编码关注于保持量化噪声低于掩蔽阈值，即，人耳听不见。这些模型即使在单信道信号的情况下也典型地在计算上十分复杂，更不必说具有相对多数目的输入信道的多信道信号了。

对于低比特率编码，已经对于其中小量侧信息被添加到主信号的多项技术调整了很多技术方案。主信号典型地是和信号或输入信道的一些其他线性组合，并且侧信息被用来在解码侧使得主信号的空间化能够回到多信道信号。

虽然在比特率上是高效的，但是这些方法典型地在重构的信号中缺少周围环境或空间感的量。对于存在体验，即，对于在那里的感觉，重要的是围绕的周围环境在接收端对于收听者来说也被如实还原。

发明内容

根据本发明的一些示例实施例，高数量的输入信道可以以降低的比特率以高质量被提供给端用户。当被应用到多视图音频应用时，其使得端用户能够从音频场景选择不同的听觉视图，其中，所述音频场景以存储/传输高效的方式包含针对该音频场景的多个听觉视图。

在一个示例实施例中，提供了一种基于对音频场景的听觉线索分析的多信道音频信号处理方法。在该方法中，在时频平面确定听觉线索的路径。这些听觉线索的路径被称为听觉神经元映射。该方法在频域变换中使用多带宽窗口分析，并合并频域变换分析的结果。听觉神经元映射被转化成稀疏表示格式，基于该稀疏表示格式，可以为多信道信号生成稀疏表示。

本发明的一些示例实施例允许为多信道信号创建稀疏表示。稀疏表示本身在任何待编码信号中都是非常有吸引力的属性，因为它能直接转化成需要被编码的一些频域样本。在（信号的）稀疏表示中，频域样本的数量（也被称为频率槽）可被极大地降低，这对编码方法有直接的含义：可以显著地降低数据速率而没有质量下降，或者显著地提高质量而没有数据速率的增加。

必要时，可以将输入信道的音频信号数字化以形成音频信号的样本。样本可以例如以一个输入帧可包含表示10ms或20ms音频信号时段的样本的方式，被布置到输入帧。输入帧还可以被组织成可交迭或可不交迭的分析帧。可以利用一个或多个分析窗口对分析帧进行窗口化（windowed），例如，利用高斯窗口和衍生高斯窗口，并使用时域到频域变换将分析帧变换到频域。这种变换的示例是短时傅里叶变换（STFT）、离散傅里叶变换（DFT）、改进的离散余弦变换（MDST）、改进的离散正弦变换（MDST）和正交镜象滤波（QMF）。

根据本发明的第一方面，提供了一种方法，包括：

-输入一个或多个音频信号；

-确定相关的听觉线索；

-至少部分地基于所述相关的听觉线索来形成听觉神经元映射；

-将所述一个或多个音频信号变换到变换域；以及

-使用所述听觉神经元映射来形成所述一个或多个音频信号的稀疏表示。

根据本发明的第二方面，提供了一种设备，包括：

-用于输入一个或多个音频信号的部件；

-用于确定相关的听觉线索的部件；

-用于至少部分地基于所述相关的听觉线索来形成听觉神经元映射的部件；

-用于将所述一个或多个音频信号变换到变换域的部件；以及

-用于使用所述听觉神经元映射来形成所述一个或多个音频信号的稀疏表示的部件。

根据本发明的第三方面，提供了一种设备，包括：

-输入元件，用于输入一个或多个音频信号；

-映射听觉神经元模块，用于确定相关的听觉线索以及用于至少部分地基于所述相关的听觉线索来形成听觉神经元映射；

-第一变换器，用于将所述一个或多个音频信号变换到变换域；以及

-第二变换器，用于使用所述听觉神经元映射来形成所述一个或多个音频信号的稀疏表示。

根据本发明的第四方面，提供了一种计算机程序产品，其包括计算机程序代码，所述代码被配置为通过至少一个处理器引起所述设备：

-输入一个或多个音频信号；

-确定相关的听觉线索；

-将所述一个或多个音频信号变换到变换域；以及

附图说明

以下将参考附图更详细地解释本发明，其中

附图1描绘了多视图音频捕获和呈现系统的示例；

附图2描绘了本发明的说明性示例；

附图3描绘了本发明的端到端框图的示例实施例；

附图4描绘了根据本发明实施例的高层框图；

附图5a和5b分别描绘了时域中高斯窗口的示例以及高斯窗口的第一衍生的示例；

附图6描绘了附图5a和5b的第一衍生高斯窗口和高斯的频率响应；

附图7描绘了根据本发明的示例实施例用于对多视图音频信号进行编码的设备；

附图8描绘了根据本发明的示例实施例用于对多视图音频信号进行解码的设备；

附图9描绘了音频信号的帧的示例；

附图10描绘了其中可以应用本发明的装置的示例；

附图11描绘了其中可以应用本发明的装置的另一示例；以及

附图12描绘了根据本发明的示例实施例的方法的流程图。

具体实施方式

以下将描述通过利用本发明对多视图音频信号进行编码和解码的设备的示例实施例。附图1中示出多视图音频捕获和呈现系统的示例。在此示例性框架设置中，多个紧密隔开的麦克风104（其可能全部都相对于正向轴指向不同的角度）用来通过设备1记录音频场景。麦克风104具有极性模式，该极性模式说明了麦克风104将音频信号转换成电信号的灵敏度。附图1中的球面105仅是说明性的，是麦克风的极性模式的非限制性示例。于是，被组合并压缩100成多视图格式的所捕获的信号，经由例如通信网络被发送110到呈现侧120，或者可替换地，被存储到存储装置中以用于后续消费或用于后续递送至另外的装置，其中，端用户可基于他/她的偏好从可用的多视图音频场景选择听觉视图。呈现设备130于是从与所选听觉视图对应的多麦克风录音，提供140一（多）个经过下混频的信号。为了实现通过通信网络110的传输，可应用压缩方案来满足通信网络110的约束。

应当注意，所发明的技术可用于任何多信道音频，不仅仅是多视图音频，以便满足比特率和/或质量约束和要求。因此，所发明的用于处理多信道信号的技术可用于，例如，双信道立体声音频信号、双音道音频信号、5.1或7.2信道音频信号等。

注意，所采用的麦克风设置可以被使用，其中，多信道信号源于不同于附图1的示例中示出的麦克风设置的该被采用的麦克风设置。不同麦克风设置的示例包括多信道设置（例如4.0、5.1或7.2信道配置）、具有彼此接近放置（例如在直线轴上）的多个麦克风的多麦克风设置、根据期望的模式/密度设置在表面（诸如球面或半球面的表面）上的多个麦克风、放置在随机（但是已知）位置中的一组麦克风。被用来捕获信号的有关麦克风设置的信息可传送到或可不传送到呈现侧。此外，在一般多信道信号的情况下，还可以通过将来自多个音频源的信号组合成单一多信道信号，或者将单信道或多信道输入信号处理成具有不同数量的信道的信号，来人工生成信号。

附图7示出设备或电子装置1的示例电路的示意性框图，其可包含根据本发明实施例的编码器或编解码器。电子装置可以例如是移动终端、无线通信系统的用户装备、任意其他通信装置、以及个人计算机、音乐播放器、音频录音装置等。

附图2示出本发明的说明性示例。附图2左手侧上的绘图200示出具有数十毫秒持续时间的信号的频域表示。在应用了听觉线索分析201之后，频率表示可被变换成稀疏的表示格式202，在稀疏的表示格式中，一些频域样本被变成或在其他情况下被标记为零值或其他小的值，以便能够节约编码比特率。通常，零估值的样本或具有相对小的值的样本比非零估值的样本或具有相对大值的样本更容易编码，结果是节省编码的比特率。

附图3示出端到端环境中本发明的示例实施例。听觉线索分析201作为在对稀疏多信道音频信号进行编码301并将其发送110到接收端以用于解码302和重构之前的预处理步骤来应用。作为适于该目的的编码技术的非限制性示例的是高级音频编码（AAC）、HE-AAC、和ITU-T G.718。

附图4示出根据本发明实施例的高层框图，并且附图12描绘了根据本发明示例实施例的方法的流程图。首先，输入信号（附图12中的块121）的信道被传递给映射听觉神经元模块401，其在时域平面确定相关的听觉线索（块122）。这些线索保留有关时间上声音特性的详细信息。该线索使用加窗（windowing）402和采用多带宽窗口的时间到频率域变换403技术（例如短期时间到频率域变换STFT）来计算。听觉线索被组合404（块123）以形成听觉神经元映射，该映射描述了用于感知处理的音频场景的相关听觉线索。应当注意，还可以应用除离散傅里叶变换DFT以外的其他变换。可以使用诸如改进的离散余弦变换（MDST）、改进的离散正弦变换（MDST）和正交镜象滤波（QMF）或任意其他等同的频率变换的变换。接下来，输入信号的信道被转换成频域表示400（块124），该频域表示可能与用于映射听觉神经元模块401内的信号变换的频域表示相同。使用映射听觉神经元模块401中使用的频域表示可以提供例如减少计算负载方面的好处。最后，信号的频域表示400被变换405（块125）成稀疏表示格式，该稀疏表示格式仅保留至少部分地基于由映射听觉神经元模块401提供的听觉神经元映射已被标识为对于听觉感知重要的那些频率样本。

接下来，更详细地解释根据本发明示例实施例的附图4的组件。

加窗402和时间到频率域变换403框架操作如下。多信道输入信号的信道首先被加窗402，并且时间到频率域变换403根据以下公式被应用到每个经过加窗的段：

Y_{m} [k, l, wp (i)] = | Σ_{n = 0}^{N - 1} ({w 1}_{wp (i)} [n] \cdot x_{m} [n + l \cdot T] \cdot e^{- j \cdot w_{k} \cdot n}) |

Z_{m} [k, l, wp (i)] = | Σ_{n = 0}^{N - 1} ({w 2}_{wp (i)} [n] \cdot x_{m} [n + l \cdot T] \cdot e^{- j \cdot w_{k} \cdot n}) | - - - (1)

其中，m是信道索引，k是频率槽（frequency bin）索引，I是时间帧索引，w1[n]和w2[n]是N点分析窗口，T是连续分析窗口间的跳大小，以及k是DFT大小。参数wp描述加窗带宽参数。作为示例，可以使用值wp={0.5，1.O，...，3.5}。在本发明的其他实施例中，可以采用与以上示例不同的值和/或不同数量的带宽参数值。第一窗口w1是高斯窗口，第二窗口w2是高斯窗口的第一衍生物，被定义为：

\begin{matrix} {w 1}_{p} [n] = e^{- {(\frac{t}{sigma})}^{2},} \\ {w 2}_{p} [n] = - 2 \cdot {w 1}_{p} [n] \cdot \frac{t}{{sigma}^{2}}, \\ sigma = \frac{S \cdot p}{1000}, \\ t = - \frac{N}{2} + 1 + n \end{matrix} - - - (2)

其中S是输入信号的采样率，在赫兹公式（2）中对于0≤n＜N进行重复。

附.和5b分别示出第一窗口w1和第二窗口w2的窗口函数。用来生成附图的窗口函数参数是：N=512，S=48000，并且P=1.5。附图6将附图5a 的窗口的频率响应显示为实曲线，将附图5b的窗口的频率响应显示为虚曲线。从附图6可以看出，窗口函数具有不同的频率选择性特性，频率选择性特性是用在一（多）个听觉神经元映射中的计算的特征。

可以使用公式（1）确定听觉线索，该公式（1）以在每个迭代循环之后都更新听觉线索的方式，利用具有不同带宽的分析窗口被迭代地计算。更新可以通过以下动作来执行：合并相应的频域值，例如，通过将所确定的分析窗口带宽参数wp的使用相邻值相乘，以及将合并的值添加到来自之前迭代循环的相应听觉线索值。XY_m[k，l=XY_m[k，l]+Y_m[k，l，wp(i)]·Y_m[k，lwp(i-1)]XZ_m[k，l]=XZ_m[k，l]+Z_m[k，l，wp(i)]·Z_m[k，1，wp(i-1)]

听觉线索XY_m和XZ_m在开始时被初始化为0，并且Y_m[k，l，wp(-1)]和Z_m[k，l，wp(-1)]也被初始化为零值向量。针对0≤i＜length(wp)来计算公式（3）。通过使用多带宽分析窗口和对得到的输入信号的频域表示进行相交（intersect），来得到改进的对听觉线索的检测。该多带宽方法强调稳定的线索，因此，可能与感知处理相关。

于是，听觉线索XY_m和XZ_m被合并，以便为多信道输入信号创建听觉神经元映射W[k，l]如下：W[k，l]=max(X₀[k，l]，X₁[k，l]，...，X_M-1，[k，l])X_m[k，l]=0.5·(XY_m[k，l]+XZ_m[k，l]) (4)

其中，M是输入信号的信道的数量，并且max（）是返回其输入值的最大值的运算符。因此，针对每个频率槽和时间帧索引的听觉神经元映射是与给定槽和时间线索的输入信号的信道对应的听觉线索的最大值。此外，每个信道的最终听觉线索是根据公式（3）为信号计算的线索值的平均。

应该注意，在本发明的另一实施例中，分析窗口可以是不同的。可存在超过两个的分析窗口，和/或窗口可以不同于高斯类型的窗口。作为示例，窗口的数目可以是3、4或者更多。另外，可以使用处于不同带宽的一组固定的一（多）个窗口函数，例如正弦曲线窗口、汉明窗口或Kaiser-Bessel（凯塞贝塞尔）导出窗口。

接下来，在子块400中，输入信号的信道被转换成频域表示。让第m个输入信号x_m的频率表示为Xf_m。在子块405中，该表示现在可被变换成如下的稀疏表示格式：

E_{m} [l] = Σ_{ll = l_{1}_start}^{l_{1}_end - 1} Σ_{n = 0}^{\frac{N}{2}} {Xf}_{m} {[n, ll]}^{2}

{thr}_{m} [l] = median (W [0, . . ., \frac{N}{2} - 1, l_{2}_start], . . ., W [0, . . ., \frac{N}{2} - 1, l_{2}_end])

l₁_start=l，l₁_end=l₁_start+2l₂_start=max(0，l-15)，l₂_end=l₂_start+15 (5)

其中，median（）是返回其输入值的中位值的运算符。E_m[l]表示在覆盖从l₁_start开始到l₁_end结束的时间帧索引的窗口上计算的频域信号的能量。在此示例实施例中，该窗口从当前时间帧F0延伸到下一个时间帧F₊₁（附图9）。在其他实施例中，可以采用不同的窗口长度。thr_m[l]表示信道m的听觉线索阈值，其定义了信号的稀疏性。此示例中的阈值初始被设为对于每个信道都是相同的值。在此示例实施例中，用来确定听觉线索阈值的窗口从过去的15个时间帧延伸到当前时间帧并延伸到接下来的15个时间帧。实际的阈值被计算为用来基于听觉神经元映射确定听觉线索阈值的窗口中的值的中位数。在其他实施例中，可以采用不同的窗口长度。

在本发明的一些实施例中，可以调节信道m的听觉线索阈值thr_m[l]，以便将瞬时信号段考虑在内。以下伪码说明了该过程的示例：

1

r_{m} [l] = \frac{E_{m} [l]}{E_{m} [l - 1]}

2

3 ifr_m[l]＞2.0orh_m＞0

4

5 iff_m[l]＞2.0

6 h_m=6

7 9ain_m=0.75

8 E_save_m=E_m[l]

9 end

10

11 ifr_m[l]＜=2.0

12 ifE_m[l]*0.25＜E_save_m||h_m，==0

13 h_m=0；

14 E_save_m=0；

15 Else

16 h_mmax(O，h_m-1)；

17 End

18 End

19 thr_m[l]=gain_m*thr_m[l]；

20 Else

21 gdin_m=min(gain_m+0.05，1.5)；

22 thr_m[l]=thrm[l]*gain_m；

23 end

其中，h_m和E_撇ve_m被初始化为零，gain_m和E_m[-1]在开始时分别被初始化为单位元素。在第1行中，计算当前能量值和前一能量值间的比值，以便评估连续时间帧间的信号电平是否急剧增加。如果检测到急剧的电平增加（即，电平增加超过预定的阈值，该阈值在此示例中被设为3dB，但是也可以使用其他值），或者如果需要应用阈值调节而不管电平变化（h_m>0），则听觉线索阈值被修改以更好地满足感知听觉需求，即，输出信号中的稀疏度被放宽（从第3行起开始）。每次检测到急剧的电平增加，多个变量都被重置（行5-9），以控制阈值修改的退出条件。当频域信号的能量下降了开始电平以下的特定值时（在此示例中为-6dB，也可以使用其他值），或者在从检测到急剧的电平增加以来已经经过了足够多的时间帧（在此示例实施例中为超过6个时间帧，也可以使用其他值）的情况下，退出条件（行12）被触发。通过用变量gain_m与听觉线索阈值相乘，来修改听觉线索阈值（行19和22）。在不需要阈值修改的情况下，就急剧的电平增加rm[l]而言，gain_m的值被逐渐地增加到其被允许的最大值（行21）（在此示例中为1.5，也可以使用其他值），在走出具有急剧电平增加的段的情况下，再次改善了感知听觉的需求。

在本发明是一个实施例中，根据以下公式计算针对输入信号的信道的频域表示的稀疏表示Xfs_m：

\begin{matrix} {Xf        s}_{m} [k, l] = \{\begin{matrix} {Xf}_{m} [k, l], & w [k, ll > {thr}_{m} [l] \\ 0, & otherwise \end{matrix}, , l_{0}_start \leq ll < l_{0}_end- - - - (6) \\ l_{0}_start = \max (0, l - 1), l_{0}_end = l_{0}_start + 2 \end{matrix}

因此，对过去的时间帧F_-1和目前的时间帧F₀扫描听觉神经元映射，以便创建输入信号的信道的稀疏表示信号。

音频信道的稀疏表示可被如此编码，或者设备1可以执行输入信道的稀疏表示的下混频，使得待发送和/或存储的音频信道信号的数量小于音频信道信号的原始数量。

在本发明的实施例中，可以仅对输入信道的子集确定稀疏表示，或者可以对输入信道的多个子集确定不同的听觉神经元映射。这使得能够为输入信道的多个子集应用不同质量和/或压缩需求。

虽然本发明的上述示例实施例处理多信道信号，但是本发明还可以应用到单声道（单信道）信号，因为根据本发明的处理可以用来降低速率，这允许可能利用不太复杂的编码和量化方法。取决于音频信号的特性，在示例实施例中可获得30-60%之间的数据减少（即，信号中零或小值样本的数量）。

以下将参考附图7的框图来描述根据本发明的示例实施例的设备1。设备1包括第一接口1.1，用于输入来自多个音频信道2.1-2.m的多个音频信号。虽然在附图7中描绘了5个音频信道，但是显然，音频信道的数量也可以是2个、3个、4个或者多于5个。一个音频信道的信号可以包括来自一个音频源或者来自多于一个音频源的音频信号。音频源可以是如附图1中的麦克风105、收音机、电视、MP3播放器、DVD播放器、CDROM播放器、合成器、个人计算机、通信装置、音乐器具等。换言之，与本发明一起使用的音频源不限于特定种类的音频源。还应当注意到，音频源不需要彼此相似，而是不同音频源的不同组合是可行的。

来自音频源2.1-2.m的信号在模数转换器3.1-3.m中被转换成数字样本。在该示例实施例中，对于每个音频源都存在一个模数转换器，但是通过使用比每个音频源一个更少的模数转换器来实现模数转换也是可能的。通过使用一个模式转换器3.1来执行所有音频源的模数转换是可能的。

如有必要，通过模数转换器3.1-3.m形成的样本被存储到存储器4。存储器4包括多个存储器节4.1-4.m以用于每个音频源的样本。这些存储器节4.1-4.m可以实现在同一存储器装置中或者实现在不同的存储器装置中。例如，存储器或者存储器的一部分还可以是例如处理器6的存储器。

样本被输入到听觉线索分析块401以用于分析，并被输入到变换块400以用于时间到频率的分析。可例如通过匹配滤波器（诸如正交镜像滤波器群）、通过离散福利叶变换等，来执行时间到频率变换。如上文所公开的，通过使用多个样本，即，在某一时刻的一组样本，来执行分析。这样的多个样本组还可以被称为帧。在示例实施例中，样本的一帧表示时域中音频信号的20ms部分，但是还可以使用其他长度，例如10ms。

可以通过编码器14以及通过信道编码器15来对信号的稀疏表示进行编码，以产生用于通过发射器16经由通信信道17的传输或者直接到接收器20的传输的信道已编码信号。还可能的是，稀疏表示或经过编码的稀疏表示可被存储到存储器4中或者另外的存储介质中，以用于以后的取出和解码（块126）。

发送与经过编码的音频信号有关的信息并不总是必要的，但是将经过编码的音频信号存储到诸如存储器卡、存储器芯片、DVD盘、CDROM等存储装置也是可能的，信息以后可以从该存储装置提供给解码器21，以用于音频信号和周围环境的重构。

例如，模数转换器3.1-3.m可以被实现为单独的组件或者实现在诸如数字信号处理器（DSP）的处理器6内。映射听觉神经元模块401、加窗块402、时间频率域变换块403、合并器404和变换器405还可以通过硬件组件来实现或者实现为处理器6的计算机代码，或者实现为硬件组件和计算机代码的组合。还可能的是，其他元件可以实现在硬件中或者实现为计算机代码。

设备1可针对每个音频信道包括映射听觉神经元模块401、加窗块402、时间到频率域变换块403、合并器404和变换器405，其中，并行地处理每个信道的音频信号是可能的，或者可以通过相同的电路来处理两个或多个音频信道，其中至少部分连续或时间交织的操作被应用到对音频信道的信号的处理。

计算机代码可以存储到诸如代码存储器18的存储装置中，其可以是存储器4的一部分，或者与存储器4相分离，或者存储到另一类数据载体。代码存储器18或其一部分也可以是处理器6的存储器。计算机代码可以通过装置的制造阶段来存储或者单独地存储，其中可以通过例如从网络、从像存储器卡、CDROM或DVD的数据载体的下载，来将计算机代码递送到装置。

虽然附图7描绘了模数转换器3.1-3.m，但是设备1也可以在没有它们的情况下构造，或者可以不采用设备中的模数转换器3.1-3.m来确定数字样本。因此，多信道信号或者单信道信号可以以数字形式提供给设备1，其中，设备1可以直接使用这些信号来执行处理。例如，这样的信号可以之前被存储到存储媒介中。还要提及的是，设备1也可以被实现为包括时间到频率域转换部件400、映射听觉神经元部件401和加窗部件402或其他用于处理一（多）个信号的部件的模块。例如，该模块可以被布置为与诸如编码器14、信道编码器15和/或发射器16和/或存储器4和/或存储介质70的其他元件合作。

当经过处理的信息被存储到存储介质70中时，其在附图7中用箭头71示出，存储介质70可以被分布给例如想要重现存储在存储介质70中的一（多）个信号的用户，例如回放音乐、电影的配音等。

接下来，将参考附图8的框图描述根据本发明示例实施例执行在解码器21中的操作。通过接收器20来接收位流并且，如果必要，信道解码器22执行信道解码以重构携带信号的稀疏表示以及与音频信号相关的可能其他经过编码的信息的一（多）个位流。

解码器21包括音频解码块24，其将收到的信息考虑在内，并针对输出（例如，到一（多）个扬声器30.1、30.2、30.q的输出）重现每个信道的音频信号。

解码器21还可以包括处理器29和用于存储数据和/或计算机代码的存储器28。

还可能的是，用于解码的设备21的一些元件还可以是实现在硬件中或者实现为计算机代码，并且该计算机代码可以被存储到存储装置中（诸如代码存储器28.2，该代码存储器28.2可以是存储器28的一部分或者与存储器28相分离）或者存储到另一种数据载体。代码存储器28.2或其一部分还可以是解码器21的处理器29的存储器。计算机代码可以通过装置的制造阶段来存储或者被单独地存储，其中，可以通过例如从网络、从像存储器卡、CDROM或DVD的数据载体的下载，来将计算机代码递送到装置。

在附图10中，描绘了其中可以应用本发明的装置50的示例。该装置可以例如是音频录音装置、无线通信装置、诸如便携式计算机的计算机装备等。装置50包括其中可以实现本发明的至少一些操作的处理器6、存储器4、用于输入来自多个音频源2.1-2.m的音频信号的一组输入元件1.1、用于将模拟音频信号转换成数字音频信号的一个或多个A/D转换器、用于对音频信号的稀疏表示进行编码的音频编码器、以及用于发送来自装置50的信息的发射器16。

在附图11中，描绘了其中可以应用本发明的装置60的示例。装置60可以是例如音频播放装置，例如MP3播放器、CDROM播放器、DVD播放器等。装置60还可以是无线通信装置、诸如便携式计算机的计算机装备等。装置60包括其中可以实现本发明的至少一些操作的处理器29、存储器28、用于输入来自例如可包括接收器的另外的装置、来自存储介质70和/或来自能够输出经过合并的音频信号和与经过合并的音频信号相关的参数的另一元件的经过合并的音频信号和与经过合并的音频信号相关的参数的输入元件20。装置60还可以包括用于对经过合并的音频信号进行解码的音频解码器24，以及用于将合成后的音频信号输出到扬声器30.1-30.q的多个输出元件。

在本发明的一个示例实施例中，可以使装置60获知在编码侧发生的稀疏表示处理。解码器于是可以使用稀疏信号正在被解码的指示，来评定重构的信号的质量，并可能将该信息传递给呈现侧，该呈现侧于是可能将整体信号质量指示给用户（例如，收听者）。该评定可以例如，将零估值的频率槽的数量与光谱槽的总数量进行比较。如果二者的比低于阈值，例如低于0.5，则这可能意味着正在使用低比特率，并且多数样本应当被设置为零以满足比特率限制。

权利要求中陈述的权利要求元素的组合可以以许多不同的方式来改变，并且仍在本发明的各种实施例的范围内。

如在此申请中使用的，术语“电路”指代所有以下内容：

（a）仅硬件电路实现（例如仅在模拟和/或数字电路中的实现），以及

（b）电路和软件（和/或固件）的组合，例如：（i）一（多）个处理器的组合，或者（ii）一（多）个处理器/软件（包括一（多）个数字信号处理器）、软件和一（多）个存储器的多个部分，其一起工作以便引起诸如移动电话、服务器、计算机、音乐播放器、音频录音装置等的设备来执行各种功能，以及

（c）诸如一（多）个微处理器或者一（多）个微处理器的一部分的电路，其需要软件或固件来运行，即使该软件或固件不是物理上存在。

对“电路”的该定义适用于此申请中该术语的所有使用，包括在任意权利要求中的使用。作为又一示例，如在此申请中所使用的，术语“电路”还将覆盖仅处理器（或多个处理器）的实现，或者部分处理器以及它（或它们）所附的软件和/或固件的实现。术语“电路”还将覆盖，例如并且如果适用于特定权利要求元素的话，用于移动电话的基带集成电路或者应用处理器集成电路，或者服务器、蜂窝网络装置、或其他网络装置中类似的集成电路。

本发明不仅限于上述实施例，而是可以在所附权利要求的范围内变化。

Claims

1.一种用于处理音频信号的方法，包括：

-输入用于音频场景的一个或多个音频信号；

-通过对所述一个或多个音频信号进行加窗，其中所述加窗包括不同带宽的第一加窗和第二加窗，以及将经过加窗的音频信号变换到变换域，来确定相关的听觉线索，所述相关的听觉线索保留有关时间上音频信号的详细信息；

-至少部分地基于所述相关的听觉线索来形成听觉神经元映射，以描述音频场景的相关听觉线索；

-将所述一个或多个音频信号变换到所述变换域；以及

-使用所述听觉神经元映射形成所述一个或多个音频信号的稀疏表示。

2.根据权利要求1所述的方法，其中，所述第一加窗包括使用具有不同带宽的第一类型的两个或更多个窗口，并且其中，所述第二加窗包括使用具有不同带宽的第二类型的两个或更多个分析窗口。

3.根据权利要求2所述的方法，所述确定进一步包括，对于所述一个或多个音频信号的每个音频信号：

-合并从所述第一加窗得到的经过变换的加窗的音频信号；

-合并从所述第二加窗得到的经过变换的加窗的音频信号。

4.根据权利要求1所述的方法，所述确定进一步包括将针对所述一个或多个音频信号的每一个所确定的相应听觉线索进行合并。

5.根据权利要求1所述的方法，所述变换包括使用离散傅里叶变换。

6.根据权利要求1至5中任一项所述的方法，所述加窗包括使用公式：

其中m是音频信号索引，

k是频率槽索引，

i是时间帧索引，

w1[n]和w2[n]是N点分析窗口，

T是连续分析窗口间的跳大小，

其中K是变换大小，以及

wp描述加窗带宽参数。

7.根据权利要求1至5中任一项所述的方法，所述形成包括确定相应的相关听觉线索的最大值。

8.根据权利要求6所述的方法，所述形成包括确定相应的相关听觉线索的最大值。

9.根据权利要求1至5和8中任一项所述的方法，所述使用包括基于所述听觉神经元映射来确定听觉线索阈值。

10.根据权利要求6所述的方法，所述使用包括基于所述听觉神经元映射来确定听觉线索阈值。

11.根据权利要求9所述的方法，其中所述确定听觉线索阈值包括，基于一个或多个听觉神经元映射的相应值的中位数来确定阈值。

12.根据权利要求10所述的方法，其中所述确定听觉线索阈值包括，基于一个或多个听觉神经元映射的相应值的中位数来确定阈值。

13.根据权利要求10至12中任一项所述的方法，其中所述确定听觉线索阈值进一步包括响应于瞬时信号段对阈值进行调节。

14.根据权利要求10至12中任一项所述的方法，其中，所述稀疏表示至少部分地基于所述听觉线索阈值来确定。

15.根据权利要求1至5、8、10至12中任一项所述的方法，其中，所述一个或多个音频信号包括多信道音频信号。

16.一种用于处理音频信号的设备，包括：

-用于输入用于音频场景的一个或多个音频信号的部件；

-用于确定相关的听觉线索的部件，所述相关的听觉线索保留有关时间上音频信号的详细信息，所述用于确定相关的听觉线索的部件被配置用于：

-对所述一个或多个音频信号进行加窗，其中所述加窗包括不同带宽的第一加窗和第二加窗；以及

-将经过加窗的音频信号变换到变换域；

-用于至少部分地基于所述相关的听觉线索来形成听觉神经元映射，以描述音频场景的相关听觉线索的部件；

-用于将所述一个或多个音频信号变换到所述变换域的部件；以及

-用于使用所述听觉神经元映射形成所述一个或多个音频信号的稀疏表示的部件。

17.根据权利要求16所述的设备，其中，所述第一加窗包括使用具有不同带宽的第一类型的两个或更多个窗口，并且其中，所述第二加窗包括使用具有不同带宽的第二类型的两个或更多个分析窗口。

18.根据权利要求17所述的设备，其中，用于确定的所述部件进一步被配置用于，对于所述一个或多个音频信号的每一个：

-合并从所述第一加窗得到的经过变换的加窗的音频信号；

-合并从所述第二加窗得到的经过变换的加窗的音频信号。

19.根据权利要求16所述的设备，用于确定的所述部件进一步被配置用于将针对所述一个或多个音频信号的每一个所确定的相应的听觉线索进行合并。

20.根据权利要求16所述的设备，被配置为在所述变换中使用离散傅里叶变换。

21.根据权利要求16至20中任一项所述的设备，其中，用于确定的所述部件被配置用于在所述加窗中使用公式：

其中，m是音频信号索引，

k是频率槽索引，

i是时间帧索引，

w1[n]和w2[n]是N点分析窗口，

T是连续分析窗口间的跳大小，

其中，K是变换大小，以及

wp描述加窗带宽参数。

22.根据权利要求16至20中任一项所述的设备，其中，用于形成听觉神经元映射的所述部件被配置用于确定相应的相关听觉线索的最大值。

23.根据权利要求21所述的设备，其中，用于形成听觉神经元映射的所述部件被配置用于确定相应的相关听觉线索的最大值。

24.根据权利要求16至20、23中任一项所述的设备，其中，用于使用听觉神经元映射的所述部件被配置用于基于所述听觉神经元映射来确定听觉线索阈值。

25.根据权利要求21所述的设备，其中，用于使用听觉神经元映射的所述部件被配置用于基于所述听觉神经元映射来确定听觉线索阈值。

26.根据权利要求24所述的设备，其中，用于确定听觉线索阈值的所述部件被配置用于基于一个或多个听觉神经元映射的相应值的中位数来确定阈值。

27.根据权利要求25所述的设备，其中，用于确定听觉线索阈值的所述部件被配置用于基于一个或多个听觉神经元映射的相应值的中位数来确定阈值。

28.根据权利要求25至27中任一项所述的设备，其中，用于确定听觉线索阈值的所述部件进一步被配置用于响应于瞬时信号段，对阈值进行调整。

29.根据权利要求25至27中任一项所述的设备，被配置用于至少部分地基于所述听觉线索阈值来确定所述稀疏表示。

30.根据权利要求16至20、23、25至27中任一项所述的设备，其中，所述一个或多个音频信号包括多信道音频信号。

31.一种用于处理音频信号的设备，包括：

-输入元件，用于输入用于音频场景的一个或多个音频信号；

-映射听觉神经元模块，用于确定相关的听觉线索，所述相关的听觉线索保留有关时间上音频信号的详细信息；以及所述映射听觉神经元模块用于至少部分地基于所述相关的听觉线索来形成听觉神经元映射，以描述音频场景的相关听觉线索，其中所述映射听觉神经元模块被配置为通过以下内容来确定修改的听觉线索：

-对所述一个或多个音频信号进行加窗，其中，所述加窗包括不同带宽的第一加窗和第二加窗；以及

-将经过加窗的音频信号变换到变换域；

-第二变换器，用于使用所述听觉神经元映射以便形成所述一个或多个音频信号的稀疏表示。

32.根据权利要求31所述的设备，其中，所述第一加窗包括使用具有不同带宽的第一类型的两个或更多个窗口，并且其中，所述第二加窗包括使用具有不同带宽的第二类型的两个或更多个分析窗口。

33.根据权利要求32所述的设备，其中，所述映射听觉神经元模块进一步被配置用于，针对所述一个或多个音频信号的每一个：

-合并从所述第一加窗得到的经过变换的加窗的音频信号；

-合并从所述第二加窗得到的经过变换的加窗的音频信号。

34.根据权利要求31所述的设备，所述映射听觉神经元模块进一步被配置用于将针对所述一个或多个音频信号的每一个所确定的相应的听觉线索进行合并。

35.根据权利要求31所述的设备，其被配置用于在所述变换中使用离散傅里叶变换。

36.根据权利要求31至35中任一项所述的设备，其中，所述映射听觉神经元模块被配置用于在所述加窗中使用公式：

其中，m是音频信号索引，

k是频率槽索引，

i是时间帧索引，

w1[n]和w2[n]是N点分析窗口，

T是连续分析窗口间的跳大小，

其中，K是变换大小，以及

wp描述加窗带宽参数。

37.根据权利要求31至35中任一项所述的设备，其中，所述映射听觉神经元模块被配置用于确定相应的相关的听觉线索的最大值。

38.根据权利要求36所述的设备，其中，所述映射听觉神经元模块被配置用于确定相应的相关的听觉线索的最大值。

39.根据权利要求31至34和38中任一项所述的设备，其中，所述第二变换器包括确定器，其用于基于所述听觉神经元映射来确定听觉线索阈值。

40.根据权利要求35所述的设备，其中，所述第二变换器包括确定器，其用于基于所述听觉神经元映射来确定听觉线索阈值。

41.根据权利要求39所述的设备，其中，所述确定器被配置用于基于一个或多个听觉神经元映射的相应值的中位数来确定阈值。

42.根据权利要求40所述的设备，其中，所述确定器被配置用于基于一个或多个听觉神经元映射的相应值的中位数来确定阈值。

43.根据权利要求40或42中任一项所述的设备，其中，所述确定器进一步被配置用于响应于瞬时信号段，对阈值进行调整。

44.根据权利要求40至42中任一项所述的设备，其被配置用于至少部分地基于所述听觉线索阈值来确定所述稀疏表示。