WO2018133056A1

WO2018133056A1 - 一种声源定位的方法和装置

Info

Publication number: WO2018133056A1
Application number: PCT/CN2017/072014
Authority: WO
Inventors: 孙学京; 张兴涛; 张晨
Original assignee: 北京时代拓灵科技有限公司
Priority date: 2017-01-22
Filing date: 2017-01-22
Publication date: 2018-07-26
Also published as: US20190342688A1; US10856094B2

Abstract

一种声源定位的方法和装置，该方法包括：通过位于不同平面的麦克风阵列获得M路预设格式的音频信号（S100）；对M路预设格式的音频信号进行预处理，将其投影到同一平面，得到N路音频信号，其中，M≥N（S200）；对处理后的N路音频信号，逐路进行时频变换，得到N路音频信号的频域信号（S300）；进一步计算频域信号的协方差矩阵并进行平滑处理（S400）；对平滑处理后的协方差矩阵进行特征值分解（S500）；根据最大特征值对应的特征向量估计声源方向，得到声源方位参数（S600）。该方法能够结合高度信息进行DOA检测，可以有效提高DOA检测的准确度。

Description

一种声源定位的方法和装置

技术领域

本发明涉及声源定位技术领域，具体涉及一种声源定位的方法和装置。

背景技术

声源定位早在20世纪七八十年代就已经开始被广泛研究，随着科学技术的发展，各个领域对于音频质量的追求越来越高，音频研究的对象由最初的单路(mono)，逐渐过渡到立体声(stereo)、环绕声(surround)以及3D(3-dimensional)音频。不同于单路音频，多路音频通常是通过麦克风阵列得到的。目前基于波达方向(Direction of Arrival,DOA)估计的麦克风阵列声源定位技术是很多领域的研究热点，广泛应用在声呐、视频电话会议、人工智能、地震研究、语音追踪与识别、监控装置等方面。

现有DOA方法主要是对位于同一平面的麦克风阵列进行检测，通过对输入的多路音频的频域信号的协方差矩阵进行特征值分解，进一步根据最大特征值对应的特征向量来估计声源的方向。具体步骤为：

a)获得位于同一平面的多路音频信号；

b)逐路进行时频变换，得到多路音频信号的频域信号，进一步计算特定频段内的协方差矩阵并进行平滑处理。

其中，时频变换可以采用离散傅里叶变换(Discrete Fourier Transform，DFT)、快速傅里叶变换(Fast Fourier Transformation，FFT)、修正离散余弦变换(Modified Discrete Cosine Transform，MDCT)等技术实现；

协方差矩阵计算公式为：

其中，n表示音频信号中音频帧的标号；k表示频域信号中频点的标号；X(n,k)为第n帧中第k个频点值组成的矩阵，具体为X(n,k)＝[X₁(n,k) X₂(n,k) …]，X_i,i＝1,2,...为音频信号的频域信号；k_l和k_u分别为协方差矩阵计算的起始频点和截止频点。平滑处理为：

其中，α为平滑因子，且α＝0.9。

c)对平滑后的协方差矩阵进行特征值分解，得到特征值和对应的特征向量；

d)根据最大特征值对应的特征向量估计声源方向，得到声源方位参数。

对于包含了高度信息的3D音频，因其麦克风阵列没有位于同一平面，直接采用上述现有DOA方法会忽略高度信息引起的误差，导致DOA检测结果不准确。

发明内容

鉴于现有技术的不足，本发明的目的在于提供一种声源定位的方法和装置。针对通过位于不同平面的麦克风阵列获得的预设格式的音频信号，结合高度信息进行DOA检测，有效提高DOA检测的准确度，用以解决现有DOA方法检测结果不准确的问题。

本发明技术方案如下：

一种声源定位的方法，其中，所述方法包括如下步骤：

步骤1、通过位于不同平面的麦克风阵列获得M路预设格式的音频信号，所述M为正整数；

步骤2、对所述M路预设格式的音频信号进行预处理，将其投影到同一平面，得到N路音频信号，所述N为正整数，且M≥N；

步骤3、对处理后的所述N路音频信号，逐路进行时频变换，得到N 路音频信号的频域信号；

步骤4、计算所述频域信号的协方差矩阵，并对所述协方差矩阵进行平滑处理；

步骤5、对所述平滑处理后的协方差矩阵进行特征值分解，得到N个特征值和对应的特征向量；

步骤6、根据最大特征值对应的特征向量估计声源方向，得到声源方位参数。

进一步地，所述步骤1中的M＝4,所述预设格式的音频信号为Ambisonic A格式音频信号，具体为位于不同平面的4路音频信号(LFU、RFD、LBD、RBU)。

进一步地，所述步骤2中的所述预处理具体过程为：

通过转换矩阵A将所述4路AmbisonicA格式音频信号转换为3路(N＝3)位于同一平面上的音频信号(L、R、S)：

其中，所述转换矩阵

所述A的元素a₁₁,a₁₂,......,a₃₄的值为常数，由不同声源场景确定。

进一步地，所述步骤2中的所述预处理过程为：

通过转换矩阵A将所述4路Ambisonic A格式音频信号转换为4路(N＝4)位于同一平面上的音频信号(F、R、B、L)：

其中，所述转换矩阵

所述φ为高度角，f(φ)为与φ有关的函数。

进一步地，当麦克风阵列拾取音频时，如果声源位于中间位置(φ＝0°)，所述转换矩阵

所述A的元素a₁₁,a₁₂,......,a₄₄的值为常数，由不同声源场景确定。

进一步地，所述步骤2中的所述预处理过程为：

步骤21、通过转换矩阵A将所述4路Ambisonic A格式音频信号转换为Ambisonic B格式音频信号(W、X、Y、Z)：

其中，所述转换矩阵

所述A的元素a₁₁,a₁₂,......,a₃₄的值为常数，由不同声源场景确定；

步骤22、基于所述B格式音频信号中的Z信号的能量估计发散度参数；

步骤23、判断发散度是否大于设定的阈值；

步骤24、若是，采用3路(N＝3)音频信号(L、R、S)估计声源方向；

若否，采用4路(N＝4)音频信号估计声源方向。

进一步地，所述步骤3中的时频变换可以采用离散傅里叶变换 (Discrete Fourier Transform，DFT)、快速傅里叶变换(Fast Fourier Transformation，FFT)、或修正离散余弦变换(Modified Discrete Cosine Transform，MDCT)实现。

进一步地，所述步骤6中的所述估计声源方向具体过程为：

根据所述最大特征向量，用所述最大特征向量和导向矢量内积，搜索所述内积值最大时对应的索引值，所述索引值对应的即为所述声源方向。

进一步地，所述步骤3中将得到的频域信号划分为若干个子带；

所述步骤4针对每一子带分别计算其协方差矩阵并进行平滑处理；

所述步骤5分别对所述平滑处理后的若干子带的协方差矩阵进行特征值分解，得到每一子带协方差矩阵的N个特征值和对应的特征向量；

所述步骤6对所述每一子带根据最大特征值对应的特征向量估计声源方向，并结合各子带声源方向检测结果，得到声源方位参数。

一种声源定位的装置，所述装置包括预设格式的音频信号获取单元、信号预处理单元、时频变换单元、频域信号处理单元和声源方位估计单元，其中，

所述预设格式的信号获取单元，用于通过位于不同平面的麦克风阵列获取M路预设格式的音频信号，并将所述位于M路预设格式的音频信号发送给所述信号预处理单元；

所述信号预处理单元，用于对接收的所述M路预设格式的音频信号进行预处理，将其投影到同一平面，得到N路音频信号，并将所述N路音频信号发送到所述时频变换单元；

所述时频变换单元，用于对接收到的所述N路音频信号逐路进行时频变换，得到所述N路音频信号的频域信号；

所述频域信号处理单元，用于对所述频域信号进行处理，计算所述频域信号的协方差矩阵并进行平滑处理，进一步对上述协方差矩阵进行特征值分解，将得到的特征值和特征向量发送到所述声源方位估计单元；

所述声源方位估计单元，用于根据所述特征值中的最大特征值对应的特征向量估计声源方向，得到声源方位参数。

本发明方法和装置具有如下优点：

结合高度信息进行DOA检测，可以有效提高DOA检测的准确度，并可以根据Z信号的能量估计得到的发散度参数对输入的多路音频自适应进行DOA检测和判断DOA检测的准确性，能够排除高度信息引起的误差，有效提高水平方向分辨率。

附图说明

图1是本发明一较佳实施方式中声源定位的方法流程示意图。

图2是本发明一较佳实施方式中四路音频信号的示意图。

图3是本发明另一较佳实施方式中声源定位的方法流程示意图。

图4是本发明另一较佳实施方式中声源定位的方法流程示意图。

图5是本发明另一较佳实施方式中声源定位的方法流程示意图。

图6是本发明一较佳实施方式中声源定位的装置功能单元图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都应当属于本发明保护的范围。

请参阅图1，本发明实施方式提供一种声源定位的方法，所述方法包括如下步骤：

步骤S100、通过位于不同平面的麦克风阵列获得M路预设格式的音频信号。

在本实施方式中，所述M路预设格式的音频信号可以是4路 Ambisonic A格式音频信号(LFU、RFD、LBD、RBU)，请参阅图2。

步骤S200、对所述M路预设格式的音频信号进行预处理，将其投影到同一平面，得到N路音频信号。

在本实施方式中，请参阅图3，可以通过转换矩阵A将4路Ambisonic A格式音频信号转换为3路(N＝3)位于同一平面上的音频信号(L、R、S)：

其中，转换矩阵

A的元素a₁₁,a₁₂,......,a₃₄的值为常数，由不同声源场景确定。

将Ambisonic A格式音频信号转换为LRS格式音频信号，能够排除高度信息引起的误差，得到更准确的检测结果。

在本发明的一个实施方式中，请参阅图4，还可以通过转换矩阵A将4路Ambisonic A格式音频信号转换为4路(N＝4)位于同一平面上的音频信号(F、R、B、L)：

其中，转换矩阵

所述φ为高度角，f(φ)为与φ有关的函数。

当麦克风阵列拾取音频的时候，如果声源位于中间位置，此时拾取的音频是没有高度信息(φ＝0°)，转换矩阵

A的元素a₁₁,a₁₂,......,a₄₄的值为常数，由不同声源场景确定。

采用四路音频检测方式，可以有效提高水平方向分辨率。

步骤S300、对处理后的所述N路音频信号，逐路进行时频变换，得到N路音频信号的频域信号。

在本实施方式中，时频变换可以采用离散傅里叶变换(Discrete Fourier Transform，DFT)、快速傅里叶变换(Fast Fourier Transformation，FFT)、或修正离散余弦变换(Modified Discrete Cosine Transform，MDCT)实现。

步骤S400、计算所述频域信号的协方差矩阵，并对上述协方差矩阵进行平滑处理。

在本实施方式中，协方差矩阵的计算，可以设置在特定的频段，也可以在将整个频带划分为子带后，分别计算各个子带的协方差矩阵。

对于特定频段的协方差矩阵计算公式为：

其中，n表示音频信号中音频帧的标号；k表示频域信号中频点的标号；X(n,k)为第n帧中第k个频点值组成的矩阵，具体为X(n,k)＝[X₁(n,k) X₂(n,k) … X_N(n,k)]，X_i,i＝1,2,...,N为音频信号的频域信号；k_l和k_u分别为协方差矩阵计算的起始频点和截止频点。

平滑处理为：

其中，α为平滑因子，可以设置为固定值，例如α＝0.9，也可以根据音频信号的特性自适应选取。

步骤S500、对平滑后处理后的协方差矩阵进行特征值分解，得到N个特征值和对应的特征向量。

步骤S600、根据最大特征值对应的特征向量估计声源方向，得到声源方位参数。

在本实施方式中，可以根据最大特征值对应的特征向量估计声源方向具体方法为：

用最大特征向量和导向矢量内积，搜索内积值最大时对应的索引值，索引值对应的即为所述声源方向。

所述导向矢量为：

其中，K为导向矢量的阶数，通常根据定位精度来确定。

对于3路音频信号，p_k,k＝1,2,...,K的值由下式确定：

对于4路音频信号，p_k,k＝1,2,...,K的值由下式确定：

最大特征向量V和导向矢量P内积D为：

在本发明实施方式中，还可以将所述步骤S300中得到的频域信号划分为若干个子带；步骤S400针对每一子带分别计算其协方差矩阵并进行平滑处理；步骤S500分别对所述平滑处理后的若干子带的协方差矩阵进行特征值分解，得到每一子带协方差矩阵的N个特征值和对应的特征向量；步骤S600对所述每一子带根据最大特征值对应的特征向量估计声源方向，并结合各子带声源方向检测结果，得到声源方位参数。

本发明实施方式还可以根据发散度参数对输入的4路Ambisonic A格式音频信号自适应进行DOA检测，请参阅图5，具体步骤如下：

步骤S100、通过位于不同平面的麦克风阵列获得4路Ambisonic A格式音频信号(LFU、RFD、LBD、RBU)。

步骤S200、对4路Ambisonic A格式音频信号进行预处理，将其投影到同一平面，得到同一平面的4路B格式音频信号(W、X、Y、Z)，并根据所述4路B格式音频信号，判断是采用3路(N＝3)音频(L、R、S)还是4路(N＝4)音频估计声源方向。

在本实施方式中，具体预处理步骤如下：

步骤S201、通过转换矩阵A将所述4路Ambisonic A格式信号转换为Ambisonic B格式音频(W、X、Y、Z)：

其中，所述转换矩阵

A的元素a₁₁,a₁₂,......,a₄₄的值为常数，由不同声源场景确定；

步骤S202、基于所述B格式音频信号中的Z信号的能量估计发散度参数；

步骤S203、判断发散度是否大于一定阈值，其中，所述阈值根据不同的场景由经验值设定。

在本发明实施方式中，所述阈值的取值范围可以为[0.3,0.6]；

步骤S204、若是，则采用3路(N＝3)音频信号(L、R、S)估计声源方向；

若否，采用4路(N＝4)音频信号估计声源方向。

步骤S400、计算频域信号的协方差矩阵并进行平滑处理。

步骤S500、对平滑处理后的协方差矩阵进行特征值分解，得到N个特征值和对应的特征向量。

在本实施方式中，根据最大特征值对应的特征向量估计声源方向具体方法为：

在本实施方式中，发散度参数还可以作为DOA结果可信度的一个参考，当发散度参数较小时，DOA结果可信度较大；当发散度参数较大时，DOA结果可信度较小。

本实施方式基于Z信号的能量估计得到的发散度参数对输入的多路音频自适应进行DOA检测，可以在较低的复杂度下提升方位检测的准确性。

请参阅图6，一种声源定位的装置，包括预设格式的音频信号获取单元100、信号预处理单元200、时频变换单元300、频域信号处理单元400和声源方位估计单元500。

预设格式的音频信号获取单元100，用于通过位于不同平面的麦克风阵列获取M路预设格式的音频信号，并将M路预设格式的音频信号发送给信号预处理单元200。

信号预处理单元200，用于对接收到的M路预设格式的音频信号进行预处理，将其投影到同一平面，得到N路音频信号，并将N路音频信号发送到时频变换单元300。

时频变换单元300，用于对接收到的N路音频信号逐路进行时频变换，得到N路音频信号的频域信号，并将N路音频信号的频域信号发送到频域信号处理单元400。

频域信号处理单元400，用于对N路音频信号的频域信号进行处理，计算频域信号的协方差矩阵并进行平滑处理，进一步对上述协方差矩阵进行特征分解，将得到的特征值和特征向量发送到声源方位估计单元500。

声源方位估计单元500，用于根据特征值中的最大特征值对应的特征向量估计声源方向，得到声源方位参数。

本实施方式公开的装置将位于不同平面的Ambisonic音频信号投影到同一平面上并进行检测，可以有效提高DOA检测的准确度。

上面对本发明的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述，本发明的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些另选的实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本发明旨在包括在此已经讨论过的本发明的所有替代、修改、和变化，以及落在上述发明的精神和范围内的其它实施方式。

Claims

一种声源定位的方法，其特征在于，所述方法包括如下步骤：

步骤1、通过位于不同平面的麦克风阵列获得M路预设格式的音频信号，所述M为正整数；

步骤2、对所述M路预设格式的信号进行预处理，将其投影到同一平面，得到N路音频信号，所述N为正整数，且M≥N；

步骤3、对处理后的所述N路音频信号，逐路进行时频变换，得到N路音频信号的频域信号；

步骤4、计算所述频域信号的协方差矩阵，并对所述协方差矩阵进行平滑处理；

步骤5、对所述平滑处理后的协方差矩阵进行特征值分解，得到N个特征值和对应的特征向量；

步骤6、根据最大特征值对应的特征向量估计声源方向，得到声源方位参数。
如权利要求1所述的声源定位的方法，其特征在于，所述步骤1中的M＝4，所述M路预设格式的音频信号为Ambisonic A格式音频信号，具体为位于不同平面的4路音频信号(LFU、RFD、LBD、RBU)。
如权利要求2所述的声源定位的方法，其特征在于，所述步骤2中的所述预处理具体过程为：

通过转换矩阵A将所述4路Ambisonic A格式音频信号转换为3路(N＝3)位于同一平面上的音频信号(L、R、S)：

其中，所述转换矩阵
所述A的元素a₁₁,a₁₂,......,a₃₄的值为常数，由不同声源场景确定。
如权利要求2所述的声源定位的方法，其特征在于，所述步骤2中的所述预处理过程为：

通过转换矩阵A将所述4路Ambisonic A格式音频信号转换为4路(N＝4)位于同一平面上的音频信号(F、R、B、L)：

其中，所述转换矩阵
所述φ为高度角，f(φ)为与φ有关的函数。
如权利要求4所述的声源定位的方法，其特征在于，当麦克风阵列拾取音频时，如果声源位于中间位置(φ＝0°)，所述转换矩阵为
所述A的元素a₁₁,a₁₂,......,a₄₄的值为常数，由不同声源场景确定。
如权利要求2所述的声源定位的方法，其特征在于，所述步骤2中的所述预处理过程为：

步骤21、通过转换矩阵A将所述4路Ambisonic A格式音频信号转换为Ambisonic B格式音频信号(W、X、Y、Z)：

其中，所述转换矩阵
所述A的元素a₁₁,a₁₂,......,a₄₄的值为常数，由不同声源场景确定；

步骤22、基于所述B格式音频信号中的Z信号的能量估计发散度参数；

步骤23、判断发散度是否大于设定的阈值；

步骤24、若是，采用3路(N＝3)音频信号(L、R、S)估计声源方向；

若否，采用4路(N＝4)音频信号估计声源方向。
如权利要求1所述的声源定位的方法，其特征在于，所述步骤3中的时频变换可以采用离散傅里叶变换DFT、快速傅里叶变换FFT或修正离散余弦变换MDCT实现。
如权利要求1所述的声源定位的方法，其特征在于，所述步骤6中的所述估计声源方向具体过程为：

根据所述最大特征向量，用所述最大特征向量和导向矢量内积，搜索所述内积值最大时对应的索引值，所述索引值对应的即为所述声源方向。
如权利要求1所述的声源定位的方法，其特征在于，

所述步骤3中将得到的频域信号划分为若干个子带；

所述步骤4分别计算若干个子带的协方差矩阵并进行平滑处理；

所述步骤5分别对所述平滑处理后的若干子带的协方差矩阵进行特征值分解，得到每一子带协方差矩阵的N个特征值和对应的特征向量；

所述步骤6对所述每一子带根据最大特征值对应的特征向量估计声源方向，并结合各子带声源方向检测结果，得到声源方位参数。
一种声源定位的装置，所述装置包括预设格式的音频信号获取单元、信号预处理单元、时频变换单元、频域信号处理单元和声源方位估计单元，其特征在于，

所述预设格式的音频信号获取单元，用于通过位于不同平面的麦克风阵列获取M路预设格式的音频信号，并将所述M路预设格式的音频信号发送给所述信号预处理单元，所述M为正整数；

所述信号预处理单元，用于对接收的所述M路预设格式的音频信号进行预处理，将其投影到同一平面，得到N路音频信号，并将所述N路音频信号发送到所述时频变换单元，所述N为正整数，且M≥N；

所述时频变换单元，用于对接收到的所述N路音频信号逐路进行时频变换，得到所述N路音频信号的频域信号；

所述频域信号处理单元，用于对所述频域信号进行处理，计算所述频域信号的协方差矩阵并进行平滑处理，进一步对上述协方差矩阵进行特征值分解，将得到的特征值和特征向量发送到所述声源方位估计单元；

所述声源方位估计单元，用于根据所述特征值中的最大特征值对应的特征向量估计声源方向，得到声源方位参数。