CN104599679A

CN104599679A - 一种基于语音信号构造聚焦协方差矩阵的方法及装置

Info

Publication number: CN104599679A
Application number: CN201510052368.7A
Authority: CN
Inventors: 陈喆; 殷福亮; 张梦晗
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2015-05-06
Also published as: WO2016119388A1

Abstract

本发明公开了一种基于语音信号构造聚焦协方差矩阵的方法及装置：确定麦克风阵列采集语音信号时采用的采样频点；针对确定出的采样频点中的任意一个采样频点，计算在任意一个采样频点采集到语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵，并将第一协方差矩阵、聚焦变换矩阵、聚焦变换矩阵的共轭转置矩阵的乘积，作为在任意一采样频点采集到的语音信号的聚焦协方差矩阵；将计算得到的在各个采样频点分别采集得到的语音信号的聚焦协方差矩阵之和，作为语音信号的聚焦协方差矩阵，在该方案中，在构造聚焦协方差矩阵时，不需要预测声源的入射角度，而预测声源的入射角时存在误差，因此，提高了构造的聚焦协方差矩阵的准确度。

Description

一种基于语音信号构造聚焦协方差矩阵的方法及装置

技术领域

本发明涉及语音信号处理技术领域，特别涉及一种基于语音信号构造聚焦协方差矩阵的方法及装置。

背景技术

麦克风阵列与单麦克风相比，除了能利用声源的时域和频域信息外，还能利用声源的空间信息，因此，具有抗干扰能力强、应用灵活等优点，在解决声源定位、语音增强、语音识别等问题方面具有较强的优势，目前已广泛用于音视频会议系统、车载系统、助听装置、人机交互系统、机器人系统、安防监控、军事侦察等领域。

在基于麦克风阵列的语音处理技术中，往往需要知道声源的数目，这样才能获得较高的处理性能；如果声源数目未知，或者假设的声源数目过多或过少，则对麦克风阵列获取的语音的处理结果的准确性就会下降。

为了提高对麦克风阵列获取的语音的处理结果的准确度，提出了计算声源的方法，在计算声源的过程中，需要构造聚焦协方差矩阵，但是，目前在构造聚焦协方差矩阵的过程中需要预测声源的入射角度，再根据预测的入射角度构造聚焦协方差矩阵，并估算声源的数目，但是，如果预测出的声源的入射角度误差较大的话，构造得到的聚焦协方差矩阵的准确度较低。

发明内容

本发明实施例提供一种基于语音信号构造聚焦协方差矩阵的方法及装置，用以解决现有技术中存在的构造得到的聚焦协方差矩阵的准确度较低的缺陷。

本发明实施例提供的具体技术方案如下：

第一方面，提供一种基于语音信号构造聚焦协方差矩阵的方法，包括：

确定麦克风阵列采集语音信号时采用的采样频点；

针对确定出的采样频点中的任意一个采样频点，计算在所述任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及所述聚焦变换矩阵的共轭转置矩阵，并将所述第一协方差矩阵、所述聚焦变换矩阵、所述聚焦变换矩阵的共轭转置矩阵的乘积，作为在所述任意一采样频点采集到的语音信号的聚焦协方差矩阵；

将计算得到的在各个采样频点分别采集得到的语音信号的聚焦协方差矩阵之和，作为所述麦克风阵列采集到的语音信号的聚焦协方差矩阵。

结合第一方面，在第一种可能的实现方式中，计算所述第一协方差矩阵，具体包括：

采用如下方式计算所述第一协方差矩阵：

\hat{R} (k) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k) X_{i}^{H} (k), k = 0, . . . . . ., N - 1

其中，所述表示所述第一协方差矩阵、所述k表示所述任意一采样频点、所述P表示所述麦克风阵列采集所述语音信号的帧的数量、所述X_i(k)表示所述麦克风阵列在任意一帧及所述任意一采样频点时的离散傅里叶变换DFT值、所述表示所述X_i(k)的共轭转置矩阵、所述N表示任意一帧包括的采样频点的数量，任意两个不同帧所包括的采样频点的数量均相同。

结合第一方面，及第一方面的第一种可能的实现方式，在第二种可能的实现方式中，计算所述聚焦变换矩阵之前，还包括：

确定所述麦克风阵列采集语音信号时采用的采样频点的聚焦频点；

计算所述麦克风阵列在所述聚焦频点采集到的语音信号的第二协方差矩阵；

计算所述聚焦变换矩阵，具体包括：

对所述第一协方差矩阵分解特征值，得到第一特征向量矩阵，并对所述第一特征向量矩阵进行共轭转置，得到所述第一特征向量矩阵的共轭转置矩阵；

对所述第二协方差矩阵分解特征值，得到第二特征向量矩阵；

将所述第一特征向量矩阵的共轭转置矩阵、所述第二特征向量矩阵的乘积，作为所述聚焦变换矩阵。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，计算所述第二协方差矩阵，具体包括：

采用如下方式计算所述第二协方差矩阵：

\hat{R} (k_{0}) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k_{0}) X_{i}^{H} (k_{0})

其中，所述表示所述第二协方差矩阵、所述k₀表示所述聚焦频点、所述P表示所述麦克风阵列采集所述语音信号的帧的数量、所述X_i(k₀)表示所述麦克风阵列在任意一帧及所述聚焦频点时的DFT值、所述表示所述X_i(k₀)的共轭转置矩阵。

结合第一方面的第二种或者第三种可能的实现方式，在第四种可能的实现方式中，对所述第一协方差矩阵分解特征值，具体包括：

采用如下方式对所述第一协方差矩阵分解特征值：

\hat{R} (k) = U (k) Λ U^{H} (k)

其中，所述表示所述第二协方差矩阵、所述U(k)表示所述的第二特征向量矩阵、所述Λ表示所述的特征值按从大到小顺序排列所构成的对角矩阵、所述U^H(k)表示所述U(k)的共轭转置矩阵。

结合第一方面的第二种至第四种可能的实现方式，在第五种可能的实现方式中，对所述第二协方差矩阵分解特征值，具体包括：

采用如下方式对所述第二协方差矩阵分解特征值：

\hat{R} (k_{0}) = U (k_{0}) Λ_{0} U^{H} (k_{0})

其中，所述表示所述第二协方差矩阵、所述U(k₀)表示所述的第二特征向量矩阵、所述Λ₀表示所述的特征值按从大到小顺序排列所构成的对角矩阵、所述U^H(k₀)表示所述U(k₀)的共轭转置矩阵。

结合第一方面的第一种至第五种可能的实现方式，在第六种可能的实现方式中，所述X_i(k)形式如下：

X_i(k)＝[X_i1(k),X_i2(k),......,X_iL(k)]^T,i＝0,1,2,......,P-1

其中：X_i1(k)表示所述麦克风阵列的第1个阵元在第i帧及第k个采样频点时的DFT值、X_i2(k)表示所述麦克风阵列的第2个阵元在第i帧及第k个采样频点时的DFT值、X_iL(k)表示所述麦克风阵列的第L个阵元在第i帧及第k个采样频点时的DFT值、所述L为所述麦克风阵列包括的阵元的数量。

第二方面，提供一种基于语音信号构造聚焦协方差矩阵的装置，包括：

确定单元，用于确定麦克风阵列采集语音信号时采用的采样频点；

第一计算单元，用于针对确定出的采样频点中的任意一个采样频点，计算在所述任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及所述聚焦变换矩阵的共轭转置矩阵，并将所述第一协方差矩阵、所述聚焦变换矩阵、所述聚焦变换矩阵的共轭转置矩阵的乘积，作为在所述任意一采样频点采集到的语音信号的聚焦协方差矩阵；

第二计算单元，用于将计算得到的在各个采样频点分别采集得到的语音信号的聚焦协方差矩阵之和，作为所述麦克风阵列采集到的语音信号的聚焦协方差矩阵。

结合第二方面，在第一种可能的实现方式中，所述第一计算单元在计算所述第一协方差矩阵时，具体为：

采用如下方式计算所述第一协方差矩阵：

\hat{R} (k) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k) X_{i}^{H} (k), k = 0, . . . . . ., N - 1

结合第二方面，及第二方面的第一种可能的实现方式，在第二种可能的实现方式中，所述确定单元还用于，确定所述麦克风阵列采集语音信号时采用的采样频点的聚焦频点；

所述第一计算单元还用于，计算所述麦克风阵列在所述聚焦频点采集到的语音信号的第二协方差矩阵；

所述第一计算单元在计算所述聚焦变换矩阵时，具体为：

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述第一计算单元在计算所述第二协方差矩阵时，具体为：

采用如下方式计算所述第二协方差矩阵：

\hat{R} (k_{0}) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k_{0}) X_{i}^{H} (k_{0})

结合第二方面的第二种或者第三种可能的实现方式，在第四种可能的实现方式中，所述第一计算单元在对所述第一协方差矩阵分解特征值时，具体为：

采用如下方式对所述第一协方差矩阵分解特征值：

\hat{R} (k) = U (k) Λ U^{H} (k)

结合第二方面的第二种至第四种可能的实现方式，在第五种可能的实现方式中，所述第一计算单元在对所述第二协方差矩阵分解特征值时，具体为：

采用如下方式对所述第二协方差矩阵分解特征值：

\hat{R} (k_{0}) = U (k_{0}) Λ_{0} U^{H} (k_{0})

结合第二方面的第一种至第五种可能的实现方式，在第六种可能的实现方式中，所述X_i(k)形式如下：

X_i(k)＝[X_i1(k),X_i2(k),......,X_iL(k)]^T,i＝0,1,2,......,P-1

本发明有益效果如下：

本发明实施例提供的基于语音信号构造聚焦协方差矩阵的主要思想为：确定麦克风阵列采集语音信号时采用的采样频点；针对确定出的采样频点中的任意一个采样频点，计算在任意一个采样频点采集到语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵，并将第一协方差矩阵、聚焦变换矩阵、聚焦变换矩阵的共轭转置矩阵的乘积，作为在任意一采样频点采集到的语音信号的聚焦协方差矩阵；将计算得到的在各个采样频点分别采集得到的语音信号的聚焦协方差矩阵之和，作为语音信号的聚焦协方差矩阵，在该方案中，在构造聚焦协方差矩阵时，不需要预测声源的入射角度，而预测声源的入射角时存在误差，因此，本发明实施例提供的方案提高了构造的聚焦协方差矩阵的准确度。

附图说明

图1A为本发明实施例中基于语音信号构造聚焦协方差矩阵的流程图；

图1B为本发明实施例中帧移示意图；

图1C为本发明实施例提供的计算声源的数目与CSM-GDE计算声源的数目的一种对比示意图；

图1D为本发明实施例提供的计算声源的数目与CSM-GDE计算声源的数目的另一种对比示意图；

图2为本发明实施例中基于语音信号构造聚焦协方差矩阵的实施例；

图3A为本发明实施例中基于语音信号构造聚焦协方差矩阵的装置的一种结构示意图；

图3B为本发明实施例中基于语音信号构造聚焦协方差矩阵的装置的一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字母“/”，一般表示前后关联对象是一种“或”的关系。

下面结合说明书附图对本发明优选的实施方式进行详细说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

下面结合附图对本发明优选的实施方式进行详细说明。

参阅图1A所示，本发明实施例中，基于语音信号构造聚焦协方差矩阵的流程如下：

步骤100：确定麦克风阵列采集语音信号时采用的采样频点；

步骤110：针对确定出的采样频点中的任意一个采样频点，计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵，并将第一协方差矩阵、聚焦变换矩阵、聚焦变换矩阵的共轭转置矩阵的乘积，作为在任意一采样频点采集到的语音信号的聚焦协方差矩阵；

步骤120：将计算得到的在各个采样频点分别采集得到的语音信号的聚焦协方差矩阵之和，作为麦克风阵列采集到的语音信号的聚焦协方差矩阵。

本发明实施例中，为了提高构造出的聚焦协方差矩阵的准确度，在获取麦克风阵列在任意一采样频点采集到的语音信号之后，计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵之前，还包括如下操作：

对采集到的语音信号进行预加重处理；

此时，计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵，可选的，可以采用如下方式：

对在任意一个采样频点采集到的语音信号进行预加重处理；

计算经过预加重处理后的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵。

本发明实施例中，可选的，可以采用如下方式对语音信号进行预加重处理：

\hat{x} (k) = x (k) - ax (k - 1), k = 0,1,2, . . . . . ., N - 1

(公式一)

其中，为对在第k个采样频点采集到的语音信号进行预加重处理后的语音信号、x(k)为在第k个采样频点采集到的语音信号、x(k-1)为在第k-1个采样频点采集到的语音信号、N为采样频点的数量、a为预加重系数，可选的，取a＝0.9375。

其中，可选的，x(k)的形式如公式二所示：

X_i(k)＝[X_i1(k),X_i2(k),......,X_iL(k)]^T,i＝0,1,2,......,P-1 (公式二)

其中：X_i1(k)表示麦克风阵列的第1个阵元在第i帧及第k个采样频点时的DFT值、X_i2(k)表示麦克风阵列的第2个阵元在第i帧及第k个采样频点时的DFT值、……、X_iL(k)表示麦克风阵列的第L个阵元在第i帧及第k个采样频点时的DFT值、L为麦克风阵列包括的阵元的数量、P表示麦克风阵列采集语音信号的帧的数量。

本发明实施例中，为了提高构造出的聚焦协方差矩阵的准确度，获取麦克风阵列在任意一采样频点采集到的语音信号之后，计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵之前，还包括如下操作：

对采集到的语音信号进行分帧处理；

计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵时，可选的，可以采用如下方式：

对在任意一个采样频点采集到的语音信号进行分帧处理；

计算进行分帧处理后的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵。

本发明实施例中，在进行分帧处理时，采用交叠的方式进行分帧，即前后两帧产生交叠，交叠的部分称为帧移，可选的，选取帧移为帧长的一半，分帧交叠如图1B所示。

本发明实施例中，为了进一步提高构造出的聚焦协方差矩阵的准确度，在对接收的语音信号在进行分帧处理后，需要对进行分帧处理后的语音信号进行加窗处理。

对进行分帧处理后的语音信号进行加窗处理时可以采用如下方式：

将进行分帧处理后的语音信号与Hamming窗函数w(n)相乘。其中，可选的，Hamming窗函数w(n)如公式三所示：

w (k) = 0.54 - 0.46 \cos (π \frac{2 k + 1}{N}), k = 0, . . . . . ., N - 1

(公式三)

其中，k为任意一采样频点，N表示任意一帧包括的采样频点的数量，任意两个不同帧所包括的采样频点的数量均相同。

在实际应用中，麦克风阵列采集到的语音信号可能有些信号是目标对象发出的语音信号，有些信号是非目标对象发出的语音信号，例如：在开会时，在主讲人讲话之前，有一些噪音，这些噪音是非目标对象发出的语音信号，而在主讲人开始讲话时，此时麦克风阵列采集到的语音信号就是目标对象发出的语音信号，而根据这些目标对象发出的语音信号构造出的聚焦协方差矩阵的准确度较高，因此，本发明实施例中，在获取麦克风阵列采集到的语音信号之后，计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵之前，还包括如下操作：

计算在任意一个采样频点、在任意一帧采集到的语音信号的能量值；

确定对应的能量值达到预设能量门限值的语音信号所在的帧；

计算在任意一个采样频点、及确定的帧采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵。

本发明实施例中，计算第一协方差矩阵的方式有多种，可选的，可以采用如下方式：

采用如下方式计算第一协方差矩阵：

\hat{R} (k) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k) X_{i}^{H} (k), k = 0, . . . . . ., N - 1

(公式四)

其中，表示第一协方差矩阵、k表示任意一采样频点、P表示麦克风阵列采集语音信号的帧的数量、X_i(k)表示麦克风阵列在任意一帧及任意一采样频点时的DFT(Discrete Fourier Transform，离散傅里叶变换)值、表示X_i(k)的共轭转置矩阵、N表示任意一帧包括的采样频点的数量，任意两个不同帧所包括的采样频点的数量均相同。

本发明实施例中，在计算聚焦变换矩阵之前，还包括如下操作：

确定麦克风阵列采集语音信号时采用的采样频点的聚焦频点；

计算麦克风阵列在聚焦频点采集到的语音信号的第二协方差矩阵；

此时，在计算聚焦变换矩阵时，可选的，可以采用如下方式：

对第一协方差矩阵分解特征值，得到第一特征向量矩阵，并对第一特征向量矩阵进行共轭转置，得到第一特征向量矩阵的共轭转置矩阵；

对第二协方差矩阵分解特征值，得到第二特征向量矩阵；

将第一特征向量矩阵的共轭转置矩阵、第二特征向量矩阵的乘积，作为聚焦变换矩阵。

本发明实施例中，在计算第二协方差矩阵时，可选的，可以采用如下方式：

采用如下方式计算第二协方差矩阵：

\hat{R} (k_{0}) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k_{0}) X_{i}^{H} (k_{0})

(公式五)

其中，表示第二协方差矩阵、k₀表示聚焦频点、P表示麦克风阵列采集语音信号的帧的数量、X_i(k₀)表示麦克风阵列在任意一帧及聚焦频点时的DFT值、表示X_i(k₀)的共轭转置矩阵。

本发明实施例中，对第一协方差矩阵分解特征值时，可选的，可以采用如下方式：

采用如下方式对第一协方差矩阵分解特征值：

\hat{R} (k) = U (k) Λ U^{H} (k)

(公式六)

其中，表示第二协方差矩阵、U(k)表示的第二特征向量矩阵、Λ表示的特征值按从大到小顺序排列所构成的对角矩阵、U^H(k)表示U(k)的共轭转置矩阵。

本发明实施例中，对第二协方差矩阵分解特征值时，可选的，可以采用如下方式：

采用如下方式对第二协方差矩阵分解特征值：

\hat{R} (k_{0}) = U (k_{0}) Λ_{0} U^{H} (k_{0})

(公式七)

其中，表示第二协方差矩阵、U(k₀)表示的第二特征向量矩阵、Λ₀表示的特征值按从大到小顺序排列所构成的对角矩阵、U^H(k₀)表示U(k₀)的共轭转置矩阵。

本发明实施例中，可选的，X_i(k)形式如公式二所示。本发明实施例中，在计算得到聚焦协方差矩阵后，可以根据得到的聚焦协方差矩阵计算声源数目，在根据得到的聚焦协方差矩阵计算声源数目时，可选的，可以采用如下方式：

采用盖尔圆准则根据得到的聚焦协方差矩阵计算声源数目。例如：在室内环境，房间大小为10m×10m×3m，八个顶点坐标分别为(0,0,0)、(0,10,0)、(0,10,2.5)、(0,0,2.5)、(10,0,0)、(10,10,0)、(10,10,2.5)和(10,0,2.5)。10个麦克风组成的均匀直线阵列分布在(2,4,1.3)和(2,4.9,1.3)两点间，阵元间距为0.1m，阵元为各向同性的全向性麦克风，6个说话人位置分别为(8,1,1.3)、(8,2.6,1.3)、(8,4.2,1.3)、(8,5.8,1.3)、(8,7.4,1.3)和(8,9,1.3)，假设背景噪声为高斯白噪声。使用Image仿真模型对麦克风阵列和说话人话音进行处理，以8kHz采样频率对语音信号进行采样，获取麦克风阵列接收信号。折叠重采样的系数γ＝0.8，迭代次数为20。说话人语音信号时长足够长，每次实验中取不同数据进行50次测试，检测概率如下所示：

(公式八)

如果实际说话人数目为2，任意一帧包括128个采样频点，帧数量为100，盖尔圆准则中的参数D(K)＝0.7，信噪比从-5dB变化到5dB，步长为1dB时，采用本发明实施例提供的方法构造出的聚焦协方差矩阵的方法与现有的CSM(Coherent Signal Subspace Method,相干信号子空间方法)-GDE(GerschgorinDisk Estimator,盖尔圆盘估计法)方法的检测概率随信噪比的对比如图1C所示。由图1C可已看出，CSM-GDE方法在信噪比为0dB时，检测概率可达到0.9，在信噪比为4dB时，检测概率可达到1。本发明提供的方案在信噪比小于0dB时，与CSM-GDE方法相比，正确检测概率有较大提升；在信噪比为-3dB时，检测概率达到0.9，在信噪比为-3dB时，正确检测概率即可达到1。

如果实际说话人数目为2，信噪比为10dB，任意一帧包括128个采样频点，帧数量从5变化到70，步长为5时，采用本发明实施例提供的方法构造出的聚焦协方差矩阵的方法与现有的CSM-GDE方法检测概率随帧数量的对比如图1D所示。由图1D可知，CSM-GDE方法在帧数量为40时，检测概率可达到0.9，在帧数量为65时，检测概率可达到1。本发明方案在帧数量小于50时，与CSM-GDE方法相比，检测概率有较大提升；在帧数量为25时，检测概率达到0.9，在帧数量为50时，检测概率即可达到1。

表1给出了根据本发明方案提供的构造聚焦协方差矩阵计算声源数目的方法与CSM-GDE计算声源数目的方法在不同说话人数目情况下的性能比较。在该实验中，实际说话人数目为2，信噪比为10dB，子帧长度为128点，帧数量为100。由表1可知，在实际说话人数目为2和3时，本发明方案提供的构造聚焦协方差矩阵计算声源数目的方法与CSM-GDE计算声源数目的方法检测概率都可达到1，当实际说话人数目大于3时，随说话人数目增加检测概率逐渐下降，说话人数目相同情况下，根据本发明方案提供的构造聚焦协方差矩阵计算声源数目的方法较CSM-GDE计算声源数目的方法具有更高的检测概率。

表1 检测概率随实际说话人数目的变化

实际说话人数目	2个	3个	4个	5个	6个
						CSM-GDE	1	1	0.94	0.84	0.66
本发明方案	1	1	0.98	0.90	0.72

本发明实施例中，采用盖尔圆准则根据得到的聚焦协方差矩阵计算声源数目为本技术领域中比较常用的方式，在此不再进行详述。

为了更好地理解本发明实施例，以下给出具体应用场景，针对基于语音信号构造聚焦协方差矩阵的过程，做出进一步详细描述，如图2所示：

步骤200：确定麦克风阵列采集语音信号时采用的采样频点为100个：采样频点0、采样频点1、采样频点2、……、采样频点99；

步骤210：针对采样频点,0，计算针对采样频点0的第一协方差矩阵；

步骤220：确定100个采样频点的聚焦频点；

步骤230：计算麦克风阵列在聚焦频点采集到的语音信号的第二协方差矩阵；

步骤240：对第一协方差矩阵分解特征值，得到第一特征向量矩阵，并对第一特征向量矩阵进行共轭转置，得到第一特征向量矩阵的共轭转置矩阵；

步骤250：对第二协方差矩阵分解特征值，得到第二特征向量矩阵；

步骤260：将第一特征向量矩阵的共轭转置矩阵、第二特征向量矩阵的乘积，作为聚焦变换矩阵，并对聚焦变换矩阵进行共轭转置，得到聚焦变换矩阵的共轭转置矩阵；

步骤270：将第一协方差矩阵、聚焦变换矩阵、聚焦变换矩阵的共轭转置矩阵的乘积，作为在采样频点0采集到的语音信号的聚焦协方差矩阵；

步骤280：按照计算针对采样频点0的聚焦协方差矩阵的方式计算其他采样频点的聚焦协方差矩阵，并将针对每一个采样频点的聚焦协方差矩阵之和，作为麦克风阵列采集到的语音信号的聚焦协方差矩阵。

基于上述相应方法的技术方案，参阅图3A所示，本发明实施例提供一种基于语音信号构造聚焦协方差矩阵的装置，该装置包括确定单元30、第一计算单元31，及第二计算单元32，其中：

确定单元30，用于确定麦克风阵列采集语音信号时采用的采样频点；

第一计算单元31，用于针对确定出的采样频点中的任意一个采样频点，计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵，并将第一协方差矩阵、聚焦变换矩阵、聚焦变换矩阵的共轭转置矩阵的乘积，作为在任意一采样频点采集到的语音信号的聚焦协方差矩阵；

第二计算单元32，用于将计算得到的在各个采样频点分别采集得到的语音信号的聚焦协方差矩阵之和，作为麦克风阵列采集到的语音信号的聚焦协方差矩阵。

可选的，第一计算单元31在计算第一协方差矩阵时，具体为：

采用如下方式计算第一协方差矩阵：

\hat{R} (k) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k) X_{i}^{H} (k), k = 0, . . . . . ., N - 1

其中，表示第一协方差矩阵、k表示任意一采样频点、P表示麦克风阵列采集语音信号的帧的数量、X_i(k)表示麦克风阵列在任意一帧及任意一采样频点时的离散傅里叶变换DFT值、表示X_i(k)的共轭转置矩阵、N表示任意一帧包括的采样频点的数量，任意两个不同帧所包括的采样频点的数量均相同。

进一步的，确定单元30还用于，确定麦克风阵列采集语音信号时采用的采样频点的聚焦频点；

第一计算单元31还用于，计算麦克风阵列在聚焦频点采集到的语音信号的第二协方差矩阵；

第一计算单元31在计算聚焦变换矩阵时，具体为：

对第二协方差矩阵分解特征值，得到第二特征向量矩阵；

可选的，第一计算单元31在计算第二协方差矩阵时，具体为：

采用如下方式计算第二协方差矩阵：

\hat{R} (k_{0}) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k_{0}) X_{i}^{H} (k_{0})

可选的，第一计算单元31在对第一协方差矩阵分解特征值时，具体为：

采用如下方式对第一协方差矩阵分解特征值：

\hat{R} (k) = U (k) Λ U^{H} (k)

可选的，第一计算单元31在对第二协方差矩阵分解特征值时，具体为：

采用如下方式对第二协方差矩阵分解特征值：

\hat{R} (k_{0}) = U (k_{0}) Λ_{0} U^{H} (k_{0})

可选的，X_i(k)形式如下：

X_i(k)＝[X_i1(k),X_i2(k),......,X_iL(k)]^T,i＝0,1,2,......,P-1

其中：X_i1(k)表示麦克风阵列的第1个阵元在第i帧及第k个采样频点时的DFT值、X_i2(k)表示麦克风阵列的第2个阵元在第i帧及第k个采样频点时的DFT值、……、X_iL(k)表示麦克风阵列的第L个阵元在第i帧及第k个采样频点时的DFT值、L为麦克风阵列包括的阵元的数量。

如图3B所示，为本发明实施例提供的基于语音信号构造聚焦协方差矩阵的装置的另一种结构示意图，包括至少一个处理器301，通信总线302，存储器303以及至少一个通信接口304。

其中，通信总线302用于实现上述组件之间的连接并通信，通信接口304用于与外部设备连接并通信。

其中，存储器303用于存储有可执行的程序代码，处理器301通过执行这些程序代码，以用于：

确定麦克风阵列采集语音信号时采用的采样频点；

针对确定出的采样频点中的任意一个采样频点，计算在任意一个采样频点采集到的语音信号的第一协方差矩阵、聚焦变换矩阵，及聚焦变换矩阵的共轭转置矩阵，并将第一协方差矩阵、聚焦变换矩阵、聚焦变换矩阵的共轭转置矩阵的乘积，作为在任意一采样频点采集到的语音信号的聚焦协方差矩阵；

将计算得到的在各个采样频点分别采集得到的语音信号的聚焦协方差矩阵之和，作为麦克风阵列采集到的语音信号的聚焦协方差矩阵。

可选的，处理器301计算第一协方差矩阵时，具体为：

采用如下方式计算第一协方差矩阵：

\hat{R} (k) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k) X_{i}^{H} (k), k = 0, . . . . . ., N - 1

进一步的，处理器301计算聚焦变换矩阵之前，还包括：

计算聚焦变换矩阵，具体包括：

对第二协方差矩阵分解特征值，得到第二特征向量矩阵；

可选的，处理器301计算第二协方差矩阵时，具体为：

采用如下方式计算第二协方差矩阵：

\hat{R} (k_{0}) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k_{0}) X_{i}^{H} (k_{0})

其中，表示第二协方差矩阵、k₀表示聚焦频点、P表示麦克风阵列采集语音信号的帧的数量、X_i(k₀)表示麦克风阵列在任意一帧及聚焦频点时的

DFT值、X_i ^H(k₀)表示X_i(k₀)的共轭转置矩阵。

可选的，处理器301对第一协方差矩阵分解特征值时，具体为：

采用如下方式对第一协方差矩阵分解特征值：

\hat{R} (k) = U (k) Λ U^{H} (k)

可选的，处理器301对第二协方差矩阵分解特征值时，具体为：

采用如下方式对第二协方差矩阵分解特征值：

\hat{R} (k_{0}) = U (k_{0}) Λ_{0} U^{H} (k_{0})

本发明实施例中，可选的，X_i(k)形式如下：

X_i(k)＝[X_i1(k),X_i2(k),......,X_iL(k)]^T,i＝0,1,2,......,P-1

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于语音信号构造聚焦协方差矩阵的方法，其特征在于，包括：

确定麦克风阵列采集语音信号时采用的采样频点；

2.如权利要求1所述的方法，其特征在于，计算所述第一协方差矩阵，具体包括：

采用如下方式计算所述第一协方差矩阵：

\hat{R} (k) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k) X_{i}^{H} (k), k = 0, . . . . . ., N - 1

3.如权利要求1或2所述的方法，其特征在于，计算所述聚焦变换矩阵之前，还包括：

计算所述聚焦变换矩阵，具体包括：

4.如权利要求3所述的方法，其特征在于，计算所述第二协方差矩阵，具体包括：

采用如下方式计算所述第二协方差矩阵：

\hat{R} (k_{0}) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k_{0}) X_{i}^{H} (k_{0})

5.如权利要求3或4所述的方法，其特征在于，对所述第一协方差矩阵分解特征值，具体包括：

采用如下方式对所述第一协方差矩阵分解特征值：

\hat{R} (k) = U (k) Λ U^{H} (k)

6.如权利要求3-5任一项所述的方法，其特征在于，对所述第二协方差矩阵分解特征值，具体包括：

采用如下方式对所述第二协方差矩阵分解特征值：

\hat{R} (k_{0}) = U (k_{0}) Λ_{0} U^{H} (k_{0})

7.如权利要求2-6任一项所述的方法，其特征在于，所述X_i(k)形式如下：

X_i(k)＝[X_i1(k),X_i2(k),......,X_iL(k)]^T,i＝0,1,2,......,P-1

8.一种基于语音信号构造聚焦协方差矩阵的装置，其特征在于，包括：

9.如权利要求8所述的装置，其特征在于，所述第一计算单元在计算所述第一协方差矩阵时，具体为：

采用如下方式计算所述第一协方差矩阵：

\hat{R} (k) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k) X_{i}^{H} (k), k = 0, . . . . . ., N - 1

10.如权利要求8或9所述的装置，其特征在于，所述确定单元还用于，确定所述麦克风阵列采集语音信号时采用的采样频点的聚焦频点；

所述第一计算单元在计算所述聚焦变换矩阵时，具体为：

11.如权利要求10所述的装置，其特征在于，所述第一计算单元在计算所述第二协方差矩阵时，具体为：

采用如下方式计算所述第二协方差矩阵：

\hat{R} (k_{0}) = \frac{1}{P} Σ_{i = 1}^{P} X_{i} (k_{0}) X_{i}^{H} (k_{0})

12.如权利要求10或11所述的装置，其特征在于，所述第一计算单元在对所述第一协方差矩阵分解特征值时，具体为：

采用如下方式对所述第一协方差矩阵分解特征值：

\hat{R} (k) = U (k) Λ U^{H} (k)

13.如权利要求10-12任一项所述的装置，其特征在于，所述第一计算单元在对所述第二协方差矩阵分解特征值时，具体为：

采用如下方式对所述第二协方差矩阵分解特征值：

\hat{R} (k_{0}) = U (k_{0}) Λ_{0} U^{H} (k_{0})

14.如权利要求9-13任一项所述的装置，其特征在于，所述X_i(k)形式如下：

X_i(k)＝[X_i1(k),X_i2(k),......,X_iL(k)]^T,i＝0,1,2,......,P-1