CN112863521B

CN112863521B - 一种基于互信息估计的说话人识别方法

Info

Publication number: CN112863521B
Application number: CN202011546522.3A
Authority: CN
Inventors: 陈晨; 肜娅峰; 陈德运
Original assignee: Harbin University of Science and Technology
Current assignee: Harbin University of Science and Technology
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-07-05
Anticipated expiration: 2040-12-24
Also published as: CN112863521A

Abstract

本发明公开了一种基于互信息估计的说话人识别方法，解决了说话人身份特征区分性不强及识别系统错误率高的问题。在训练时，先对语音提取语谱图，将其作为VGG‑M网络的输入；然后对训练数据进行随机的三元组采样，获取正负样本进行互信息估计，并利用基于互信息估计的目标函数训练网络。在识别时，利用训练好的VGG‑M网络提取测试语音与目标说话人语音对应的嵌入特征；然后计算上述两个嵌入特征间的余弦距离，并将其作为说话人的匹配得分；将得分与设定的阈值比较，判断测试语音是否来自目标说话人。该方法能够有效利用正负样本对应的说话人特征间的互信息，以此优化网络训练并降低系统的错误率。本发明可以应用于说话人识别领域。

Description

一种基于互信息估计的说话人识别方法

技术领域

本发明属于说话人识别技术领域，具体涉及一种基于互信息估计的说话人识别方法。

背景技术

近年来，生物信息识别技术逐渐成为一种方便快捷的身份信息验证方式。语音是人们最常用最直接的一种交流方式，把从语音中获取到的每个人独特的生理特征称之为“声纹”。由于每个人的发声器官以及发音习惯有着个体上的差异性，致使每个人的声纹都不同，具有其唯一性。因此可以从说话人的语音信号中提取出其特有的生物特征，作为可唯一认证的身份信息。

随着深度学习在图像处理、语音识别等领域的快速发展，基于深度学习的方法正逐渐应用于说话人识别领域。其中，d-vector方法通过利用深度神经网络(Deep NeuralNetwork，DNN)来提取帧级嵌入(Embedding)特征，并将一段语音中全部帧级特征的均值作为这段语音的d-vector特征。X-vector方法则利用时延神经网络(Time-Delay NeuralNetwork，TDNN)提取语音帧的上下文相关信息，然后采用统计池化层计算帧级特征的统计量，并从网络的最后一个隐藏层中提取出x-vector特征。在此基础上，通过在帧级层上采用多尺度卷积方法，能够从不同的感受野中获取更多的说话人信息；通过将TDNN与统计池化层相结合，则能够获取更具表示能力的说话人特征。此外，视觉几何组-中等(VisualGeometry Group-Medium，VGG-M)网络与深度残差网络(Deep Residual Network，ResNet)等方法均能够通过学习更复杂的网络架构来进行说话人特征表示。

特征表示是无监督学习中一项很重要的任务，使用深度神经网络的目的就是为了学习到一个有效的特征表示。近年来，图像处理领域中很多研究内容都逐渐开始关注使用互信息来进行无监督的表示学习。其中，神经网络互信息估计(Mutual InformationNerual Estimation，MINE)方法利用神经网络的梯度下降法可以实现高维连续随机变量之间的互信息估计，并且使用Kullback-Leibler散度的对偶表示——Donsker-Varadhan表示，将神经网络的互信息估计转化为最大化Donsker-Varadhan表示的下界。Deep Infomax方法通过最大化图像的局部特征与高层的全局特征之间的互信息来无监督地学习特征表示。除此之外，在场景识别中，对比多视图编码(Contrastive Multiview Coding，CMC)方法则是通过选取同一场景的不同视图来对比，最大化同一场景的视图之间的互信息，即让同一场景视图生成的特征表示尽可能接近，这样来基于所提取特征之间的相似度来判断场景的相似度。在语音处理领域中，对比预测编码(Contrastive Predictive Coding，CPC)方法利用原始语音信号数据，通过训练自回归模型，最大化未来的语音信号与当前信号编码之间的互信息，来训练得到一个具有较高表达能力的特征表示，使得该特征表示不仅能尽可能地保留原信号的重要信息，也能具有一定的预测能力。

目前在说话人识别研究领域中，研究者们在无监督的说话人识别任务中已经取得了一定的成果。然而，直接利用深度神经网络进行无监督学习并提取说话人特征时，无法判断经网络判断提取到的说话人特征表示是否具有独特性，是否具有较高的表示能力。因此，可以利用互信息估计来优化网络的训练过程，以实现使用深度神经网络提取到更具表示能力的特征，这具有重要的研究意义与应用价值。

发明内容

本发明的目的是为提高目前经神经网络所提取到的说话人特征的表示能力，并降低说话人识别系统的等错误率，而提出了一种基于互信息估计的说话人识别方法。

本发明为解决上述技术问题采取的技术方案是：一种基于互信息估计的说话人识别方法，该方法包括以下步骤：

步骤1、对数据集中所有语音进行预处理并提取语谱图特征；

步骤2、在训练阶段，首先对语音提取语谱图，将其作为VGG-M网络的输入；然后对训练数据进行随机的三元组采样，从而获取正负样本对；最后对正负样本对进行互信息估计，并利用基于互信息估计的目标函数进行网络训练，更新网络参数；

步骤3、利用训练好的VGG-M网络提取测试语音与目标说话人语音对应的表示说话人身份特征的嵌入特征向量；

步骤4、计算测试语音与目标说话人语音对应的嵌入特征之间的余弦距离，并将其作为说话人匹配的得分；

步骤5、将上述说话人匹配得分与设定的判定阈值比较，判断测试语音是否来自目标说话人。

进一步地，所述步骤1的具体过程为：

对输入的语音信号进行预加重、分帧与加窗操作，然后进行傅里叶变换得到频谱；对频谱进行取模、求对数操作，获得语谱图特征。

进一步地，所述步骤2的具体过程为：

步骤2-1、将训练集语音的语谱图特征作为VGG-M网络的输入，其中VGG-M网络的基本组成主要有卷积层、池化层与全连接层；VGG-M网络采用多个卷积层与池化层来进行特征表示，其中池化层采用最大池化，并且卷积之后的激活函数采用修正线性单元(RectifiedLinear Unit，ReLU)函数；经过多层卷积层与池化层的组合特征表示后，再由平均池化层得到句级特征表示，并最终经过全连接层得到说话人语音对应的嵌入特征。

对训练数据的嵌入特征进行随机的三元组采样得到z_a、z_p、z_n，分别表示为z_a＝f(x_a|Θ)、z_p＝f(x_p|Θ)、z_n＝f(x_n|Θ)，并构成正样本对(z_a,z_p)∈Z_p、负样本对(z_a,z_n)∈Z_n。其中，f表示VGG-M网络，Θ为VGG-M网络的参数；x_a、x_p、x_n分别表示嵌入特征z_a、z_p、z_n所对应语音的语谱图特征，Z_p表示正样本集，Z_n表示负样本集。

步骤2-2、对正负样本对(z_a,z_p)、(z_a,z_n)进行互信息估计，并利用基于互信息估计的目标函数进行网络训练，更新网络参数。通过最大化目标函数L(Θ)来优化网络训练过程，即最大化正样本集Z_p与负样本集Z_n之间的互信息，可以使得经网络提取的说话人嵌入特征构成的正样本对(z_a,z_p)的距离得分更大，负样本对(z_a,z_n)的距离得分更小，以学习到更为合适的说话人特征表示。

进一步地，所述步骤3的具体过程为：

测试语音与目标说话人语音对应的语谱图特征为x_test与x_target，它们经过训练好的VGG-M网络提取到的说话人嵌入特征可以表示为z_test＝f(x_test|Θ)与z_target＝f(x_target|Θ)。

进一步地，所述步骤4的具体过程为：

采用余弦距离打分方法计算说话人嵌入特征z_test与z_target之间的匹配得分S(z_test,z_target)。

进一步地，所述步骤5的具体过程为：

将说话人匹配得分S(z_test,z_target)与设置的判定阈值S比较，若得分S(z_test,z_target)大于等于阈值S，则认为测试语音来自于目标说话人；否则当得分S(z_test,z_target)小于阈值S时，则认为测试语音与目标语音不是来自同一个说话人。

有益效果

本发明的有益效果在于：本发明提出了一种基于互信息估计的说话人识别方法，能够有效利用正负样本对应的说话人身份特征，通过最大化正样本集与负样本集分布之间的互信息来优化网络训练，可以使得经神经网络提取的说话人特征更具有代表性。经在官方说话人识别实验数据集VoxCeleb1上的实验验证，采用等错误率(Equal Error Rate，EER)作为评价指标。与经典的方法相比，本发明方法显著降低了说话人识别系统的EER。

附图说明

为使本发明的目的、技术方案与优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为基于互信息估计的说话人识别流程图；

图2为本发明方法使用的VGG-M网络结构图；

图3为本发明方法在不同训练次数时对应的EER变化曲线图；

图4为在数据库VoxCeleb1上本发明方法(命名为MI-max VGG-M)与其他方法的等错误率对比图。

具体实施方式

下面将通过实施例并结合附图，对本发明中的技术方案进行详细清楚的描述，所描述的实施例仅是本发明的一部分实施例。

实施例：

本发明采取的技术方案是一种基于互信息估计的说话人识别方法，该方法包括以下步骤：

步骤1、对数据集中所有语音进行预处理并提取语谱图特征；

在本实施例中，所述步骤1的具体过程为：

对输入的语音信号进行预加重、分帧与加窗操作；其中，语音信号的采样率为16000Hz，预加重系数设置为0.97，窗长为25ms，帧移为10ms。然后进行快速傅里叶变换(Fast Fourier Transform，FFT)，FFT的点数设置为512；对频谱进行取模、求对数操作，获得语谱图特征。将说话人的语音分成每3s一段，那么就能得到3s语音段对应的512×300维语谱图特征。

在本实施例中，所述步骤2的具体过程为：

步骤2-1、将训练集语音的语谱图特征作为VGG-M网络的输入，其中，VGG-M网络的基本组成主要有卷积层、池化层与全连接层，具体结构如图2所示。VGG-M网络采用多个卷积层与池化层来进行特征表示，其中池化层采用最大池化，并且卷积之后的激活函数采用ReLU函数；经过多层卷积层与池化层的组合特征表示后，经过平均池化层得到段级特征表示，并最终经过全连接层得到说话人语音对应的嵌入特征；全连接层的节点数设置为1024个，因此得到的嵌入特征维度为1024维。

对训练数据的嵌入特征进行随机的三元组采样得到z_a、z_p、z_n，分别表示为z_a＝f(x_a|Θ)、z_p＝f(x_p|Θ)、z_n＝f(x_n|Θ)，并构成正样本对(z_a,z_p)∈Z_p、负样本对(z_a,z_n)∈Z_n。其中，f表示VGG-M网络，Θ为VGG-M网络的参数；x_a、x_p、x_n分别表示嵌入特征z_a、z_p、z_n所对应语音的语谱图特征；Z_p表示正样本集，Z_n表示负样本集。

步骤2-2、对正负样本对(z_a,z_p)、(z_a,z_n)进行互信息估计，并利用基于互信息估计的目标函数进行网络训练，更新网络参数。训练VGG-M网络的优化器采用随机梯度下降(Stochastic Gradient Descent，SGD)算法，初始的学习率设置为0.01，最终的学习率设置为0.0001，训练次数设置为60次。

基于互信息估计的目标函数具体可以表示为：

其中，d(z_a,z_p)与d(z_a,z_n)分别表示为说话人嵌入特征对(z_a,z_p)与(z_a,z_n)之间距离打分函数，此处使用余弦距离打分方法，其公式如下：

其中，<·表示内积，||表示模。

通过最大目标函数L(Θ)来优化网络训练过程，即最大化正样本集Z_p与负样本集Z_n之间的互信息，可以使得经网络提取的说话人嵌入特征构成的正样本对(z_a,z_p)的距离得分更大，负样本对(z_a,z_n)的距离得分更小，以学习到更为合适的说话人特征表示。

在本实施例中，所述步骤3的具体过程为：

测试语音与目标说话人语音对应的语谱图特征为x_test与x_target，它们经过训练好的VGG-M网络提取到的说话人嵌入特征可以表示为z_test＝f(x_test|Θ)与z_target＝f(x_target|Θ)；

在本实施例中，所述步骤4的具体过程为：

采用余弦距离打分方法计算说话人嵌入特征z_test与z_target之间的匹配得分S(z_test,z_target)，其计算方式可表示为：

在本实施例中，所述步骤5的具体过程为：

将说话人匹配得分S(z_test,z_target)与设置的阈值S比较，若得分S(z_test,z_target)大于等于阈值S，则认为测试语音来自于目标说话人；否则当得分S(z_test,z_target)小于阈值S时，则认为测试语音与目标语音不是来自同一个说话人。

在官方说话人识别实验数据库VoxCeleb1上进行实验验证，采用等错误率(EER)作为评价指标。结果表明，与经典的方法相比，本发明方法显著降低了说话人识别系统的EER。本发明方法(命名为MI-max VGG-M)随训练次数的增加，EER变化情况如图3所示，该方法在第52次训练时EER达到最低为6.68％。如图4所示，与其他方法相比，MI-max VGG-M方法的EER明显降低。由实验结果可见，本发明所采用的基于互信息估计的说话人识别方法，可以通过最大化正负样本分布之间的互信息来优化网络训练过程，以提取到更具表示能力的说话人特征。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。因此，凡依据本发明所揭示的原理、思路所作的等同变化，仍属于本发明的保护范围之内。

Claims

1.一种基于互信息估计的说话人识别方法，其特征在于，所述方法包括如下步骤：

步骤1、对数据集中所有语音进行预处理并提取语谱图特征；

步骤2、在训练阶段，首先对语音提取语谱图，将其作为VGG-M网络的输入；然后对训练数据进行随机的三元组采样，从而获取正负样本对；最后对正负样本对进行互信息估计，并利用基于互信息估计的目标函数进行网络训练，更新网络参数；所述基于互信息估计的目标函数为：

其中，Z_p表示正样本集，Z_n表示负样本集；d(z_a,z_p)与d(z_a,z_n)分别表示为说话人嵌入特征对(z_a,z_p)与(z_a,z_n)之间距离打分函数；

2.根据权利要求1所述的一种基于互信息估计的说话人识别方法，其特征在于，所述步骤1的具体过程为：

3.根据权利要求1所述的一种基于互信息估计的说话人识别方法，其特征在于，所述步骤2的具体过程为：

步骤2-1、将训练集语音的语谱图特征作为VGG-M网络的输入，其中VGG-M网络的基本组成主要有卷积层、池化层与全连接层；VGG-M网络采用多个卷积层与池化层来进行特征表示，其中池化层采用最大池化，并且卷积之后的激活函数采用修正线性单元(RectifiedLinear Unit，ReLU)函数；经过多层卷积层与池化层的组合特征表示后，再由平均池化层得到句级特征表示，并最终经过全连接层得到说话人语音对应的嵌入特征；

对训练数据的嵌入特征进行随机的三元组采样得到z_a、z_p、z_n，分别表示为z_a＝f(x_a|Θ)、z_p＝f(x_p|Θ)、z_n＝f(x_n|Θ)，并构成正样本对(z_a,z_p)∈Z_p、负样本对(z_a,z_n)∈Z_n；其中，f表示VGG-M网络，Θ为VGG-M网络的参数；x_a、x_p、x_n分别表示嵌入特征z_a、z_p、z_n所对应语音的语谱图特征；

步骤2-2、对正负样本对(z_a,z_p)、(z_a,z_n)进行互信息估计，并通过最大化目标函数L(Θ)来优化网络训练过程，即最大化正样本集Z_p与负样本集Z_n之间的互信息，可以使得经网络提取的说话人嵌入特征构成的正样本对(z_a,z_p)的距离得分d(z_a,z_p)更大，负样本对(z_a,z_n)的距离得分更小，以学习到更为合适的说话人特征表示。

4.根据权利要求3所述的一种基于互信息估计的说话人识别方法，其特征在于，所述步骤2-2中的距离得分函数d(z_a,z_p)与d(z_a,z_n)的计算方式采用余弦距离打分方法，其公式如下：

其中，<·>表示内积，||·||表示模。

5.根据权利要求1所述的一种基于互信息估计的说话人识别方法，其特征在于，所述步骤3的具体过程为：

6.根据权利要求1所述的一种基于互信息估计的说话人识别方法，其特征在于，所述步骤4的具体过程为：

7.根据权利要求1所述的一种基于互信息估计的说话人识别方法，其特征在于，步骤5的具体过程为：