CN110164452A

CN110164452A - 一种声纹识别的方法、模型训练的方法以及服务器

Info

Publication number: CN110164452A
Application number: CN201811179856.4A
Authority: CN
Inventors: 李娜; 陀得意
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-10
Filing date: 2018-10-10
Publication date: 2019-08-23
Anticipated expiration: 2038-10-10
Also published as: CN110289003B; US20210050020A1; EP3866163A4; WO2020073694A1; JP7152514B2; CN110289003A; EP3866163A1; US11508381B2; JP2021527840A; CN110164452B

Abstract

本发明公开了一种声纹识别的方法，包括：获取待识别的目标语音信息；通过语音识别模型获取目标语音信息的目标特征信息，语音识别模型为根据第一损失函数以及第二损失函数训练得到的，第一损失函数属于归一化指数函数，第二损失函数属于中心化函数；根据目标特征信息以及注册特征信息确定声纹识别结果，注册特征信息为待识别对象的语音信息在通过语音识别模型之后得到的。本发明中还提供了一种模型训练的方法以及服务器。本发明中利用归一化指数函数和中心化函数对语音识别模型进行联合优化，能够减少来自同一说话人深度特征之间的类内变化。采用两种函数同时监督和学习语音识别模型，可使深度特征具有更好的区分性，从而提升识别性能。

Description

一种声纹识别的方法、模型训练的方法以及服务器

技术领域

本发明涉及人工智能技术领域，尤其涉及一种声纹识别的方法、模型训练的方法以及服务器。

背景技术

网络信息技术的高速发展使人们能够方便地获得各种信息，随之也产生了信息安全问题。由于越来越多的涉及信息安全保密的场所需要可靠的身份认证系统，因此基于指纹、虹膜、人脸、手写签名以及语音的身份认证技术都在应用需求的推动下得到了很大的发展。语音是身份信息的重要载体，与人脸和指纹等其他生物特征相比，语音的获取成本低廉，使用简单，便于远程数据采集，且基于语音的人机交流界面更为友好，因此说话人识别技术成为重要的自动身份认证技术。近年来，说话人识别技术在智能家居领域中的身份认证、语音支付及个性化推荐中有着越来越重要的应用价值。

目前，基于卷积神经网络(Convolutional Neural Network，CNN)训练得到的系统可以对说话人进行识别。这类系统通常对短语音截取固定时长的音频，将该音频转换为图片后输入至CNN网络进行训练，通过预定义的softmax损失函数来调整整个网络。

然而，基于softmax损失函数的系统，在训练过程中，容易出现过拟合现象，也就是在训练集上的性能表现较好，但是对于未训练过的测试集而言，其性能表现较差。

发明内容

本发明实施例提供了一种声纹识别的方法、模型训练的方法以及服务器，利用归一化指数函数和中心化函数对声纹识别模型进行联合优化，能够减少来自同一说话人深度特征之间的类内变化。采用两种函数同时监督和学习声纹识别模型，可使深度特征具有更好的区分性，从而提升识别性能。

有鉴于此，本发明的第一方面提供了一种声纹识别的方法，包括：

获取待识别的目标语音信息；

通过声纹识别模型获取所述目标语音信息的目标特征信息，其中，所述声纹识别模型为根据第一损失函数以及第二损失函数训练得到的，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数；

根据所述目标特征信息以及注册特征信息确定声纹识别结果，其中，所述注册特征信息为待识别对象的语音信息在通过所述声纹识别模型之后得到的。

本发明的第二方面提供了一种模型训练的方法，包括：

获取待训练语音信息集合，其中，所述待训练语音信息集合包括至少一个对象所对应的语音信息；

根据所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，其中，所述模型调节函数包括所述第一损失函数以及第二损失函数，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数；

根据所述模型调节函数训练得到声纹识别模型。

本发明的第三方面提供了一种服务器，包括：

获取模块，用于获取待识别的目标语音信息；

所述获取模块，还用于通过声纹识别模型获取所述目标语音信息的目标特征信息，其中，所述声纹识别模型为根据第一损失函数以及第二损失函数训练得到的，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数；

确定模块，用于根据所述获取模块获取的所述目标特征信息以及注册特征信息确定声纹识别结果，其中，所述注册特征信息为待识别对象的语音信息在通过所述声纹识别模型之后得到的。

本发明的第四方面提供了一种服务器，包括：

获取模块，用于获取待训练语音信息集合，其中，所述待训练语音信息集合包括至少一个对象所对应的语音信息；

确定模块，用于根据所述获取模块获取的所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，其中，所述模型调节函数包括所述第一损失函数以及第二损失函数，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数；

训练模块，用于根据所述确定模块确定的所述模型调节函数训练得到声纹识别模型。

本发明的第五方面提供了一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待识别的目标语音信息；

根据所述目标特征信息以及注册特征信息确定声纹识别结果，其中，所述注册特征信息为待识别对象的语音信息在通过所述声纹识别模型之后得到的；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本发明的第六方面提供了一种服务器，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述模型调节函数训练得到声纹识别模型；

本发明的第七方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种声纹识别的方法，首先服务器获取待识别的目标语音信息，然后服务器通过声纹识别模型获取目标语音信息的目标特征信息，其中，声纹识别模型为根据第一损失函数以及第二损失函数训练得到的，第一损失函数属于归一化指数函数，第二损失函数属于中心化函数，服务器再根据目标特征信息以及注册特征信息确定声纹识别结果，其中，注册特征信息为待识别对象的语音信息在通过声纹识别模型之后得到的。通过上述方式，利用归一化指数函数和中心化函数对声纹识别模型进行联合优化，归一化指数函数作为损失函数，能够有效提升深度特征空间中不同说话人之间的区分性，而中心化函数作为损失函数，能够进一步减少来自同一说话人深度特征之间的类内变化。采用两种损失函数同时监督和学习声纹识别模型，可以使得深度特征具有更好的区分性，从而提升识别性能。

附图说明

图1为本发明实施例中声纹识别系统的一个架构示意图；

图2为本发明实施例中声纹识别的方法一个实施例示意图；

图3为本发明实施例中确定声纹识别结果的一个流程示意图；

图4为本发明实施例中基于余弦相似度确定声纹识别结果的一个示意图；

图5为本发明实施例中模型训练的方法一个实施例示意图；

图6为本发明实施例中对语音信息进行预处理的一个流程示意图；

图7为本发明实施例中卷积神经网络的一个总体结构示意图；

图8为本发明实施例中卷积神经网络的一个部分结构示意图；

图9为本发明实施例中验证集应用于不同网络的正确率对比示意图；

图10为本发明实施例中服务器的一个实施例示意图；

图11为本发明实施例中服务器的另一个实施例示意图；

图12为本发明实施例中服务器的一个结构示意图。

具体实施方式

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本发明可以应用于声纹识别场景，根据识别任务的不同，说话人识别可以分为说话人辨认(Speaker Identification)和说话人确认(Speaker Verification)两类。说话人辨认的目标是判断一段待测语音为已知注册说话人集合中的哪一个，是一对多的识别问题。而说话人确认的目标是判断待测语音是否为已注册的一个目标说话人所说，是一对一的确认问题。说话人辨认在已注册的说话人范围内进行，属于闭集识别问题，随着注册人数的增加，算法复杂度变大，系统性能下降。而说话人确认的每次测试只与一个目标说话人有关，是个开集识别问题，系统性能受人数多少影响不大。

其中，根据对语音信息的要求，说话人识别又可以分为与文本相关(Text-dependent)和与文本无关(Text-independent)两类。前者要求注册和测试语音具有相同的语义，应用于说话人比较配合的场所，由于相同的语义内容可以为识别系统提供更多的补充信息，所以这种类型的系统的识别效果较好，系统性能对语音时长的变化不敏感，在时长较短时，也能保持较高的准确性。而后者则不关注语音信号中的语义内容，和前者相比，限制因素较少，应用更灵活广泛，但由于语义内容不受限制，在训练和测试阶段会出现语音类失配的现象，这种类型的系统识别难度大且性能较差，要获得较好的识别性能，需要大量的训练语料。文本无关的说话人识别系统的性能随着测试语音的时长变短而快速下降，使得用户体验较差。

为了使得识别系统能够更好地适用于不同长度的语音信息，本发明提出了一种说话人识别的方法。该方法应用于图1所示的识别系统，请参阅图1，图1为本发明实施例中识别系统的一个架构示意图，如图所示，用于可以通过终端设备发起声纹识别请求(比如说一段语音)，服务器接收终端设备发送的声纹识别请求之后，根据训练得到的声纹识别模型可以对说话人进行确认，即判断说话人是否为已经注册过的说话人，由此生成声纹识别结果。需要说明的是，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机以及个人电脑(personal computer，PC)，此处不做限定。

下面将从服务器的角度，对本发明中声纹识别的方法进行介绍，请参阅图2，本发明实施例中声纹识别的方法一个实施例包括：

101、获取待识别的目标语音信息；

本实施例中，说话人通过终端设备发出一段语音，其中，这段语音即为待识别的目标语音信息，由终端设备将待识别的目标语音信息发送至服务器。

102、通过声纹识别模型获取目标语音信息的目标特征信息，其中，声纹识别模型为根据第一损失函数以及第二损失函数训练得到的，第一损失函数属于归一化指数函数，第二损失函数属于中心化函数；

本实施例中，服务器将待识别的目标语音信息输入至声纹识别模型，然后由该声纹识别模型输出对应的目标特征信息，其中，声纹识别模型是由第一损失函数——归一化指数函数(softmax损失函数)，以及第二损失函数——中心化函数(center损失函数)共同训练得到。

其中，损失函数度量的是预测值与真实值之间的差异，softmax损失函数。

103、根据目标特征信息以及注册特征信息确定声纹识别结果，其中，注册特征信息为待识别对象的语音信息在通过声纹识别模型之后得到的。

本实施例中，在服务器在识别说话人的过程中，不但需要提取待识别语音信息的特征，还需要计算测试得分，最后根据测试得分确定声纹识别结果。为了便于介绍，请参阅图3，图3为本发明实施例中确定声纹识别结果的一个流程示意图，如图所示，声纹识别模型可以为训练好的卷积神经网络(Convolutional Neural Network，CNN)，首先将注册语音和测试语音分割为较小的语音片段序列，如果语音太短，就采用拼接方式生成合适时长的语音片段，将语音片段输入至声纹识别模型。然后通过统计平均层得到注册语音所对应的注册特征信息，并且通过统计平均层得到测试语音所对应的目标特征信息。这里的注册特征信息以及目标特征信息均属于句子水平的深度特征。接下来，L2-Norm层进一步对注册特征信息以及目标特征信息进行规整，其中，L2-Norm层是指欧几里德距离之和。最后采用余弦距离或者概率线性判别分析(Probabilistic Linear Discriminant Analysis，PLDA)分类器来计算测试得分。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供模型训练的方法第一个可选实施例中，根据目标特征信息以及注册特征信息确定声纹识别结果，可以包括：

根据目标特征信息以及注册特征信息计算余弦相似度；

若余弦相似度达到第一相似度阈值，则确定目标语音信息属于待识别对象的语音信息；

若余弦相似度未达到第一相似度阈值，则确定目标语音信息不属于待识别对象的语音信息。

本实施例中，提供了一种判断说话人是否属于已经注册过的一个说话人的方法。具体地，利于余弦相似度进行评分的实现过程为，对于得到的注册特征信息而言，如果是训练数据得到的，将属于同一个对象的特征信息归为一类，并计算出这一类的平均值，该平均值即为注册特征信息。对于需要评分的目标特征信息而言，可以计算出两个特征信息的余弦相似度，根据余弦相似度确定识别结果。

为了便于介绍，请参阅图4，图4为本发明实施例中基于余弦相似度确定声纹识别结果的一个示意图，如图所示，先求得向量a和向量b的夹角θ，并得出夹角θ对应的余弦值cosθ，此余弦值就可以用来表征这两个向量的相似性。夹角越小，余弦值越接近于1，它们的方向更加吻合，则越相似。余弦相似度即用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。

如果余弦相似度(比如0.9)达到第一相似度阈值(比如0.8)，则确定目标语音信息属于待识别对象的语音信息。如果余弦相似度(比如0.7)未达到第一相似度阈值(比如0.8)，则确定目标语音信息不属于待识别对象的语音信息。

需要说明的是，在实际应用中，除了可以采用上述介绍的余弦相似度确定声纹识别结果以外，还可以采用欧几里得距离、明可夫斯基距离、曼哈顿距离、切比雪夫距离、马哈拉诺比斯距离、皮尔森相关系数或者Jaccard相似系数进行相似度检测。

其次，本发明实施例中，在根据目标特征信息以及注册特征信息确定声纹识别结果的过程中，可以先根据目标特征信息以及注册特征信息计算余弦相似度，若余弦相似度达到第一相似度阈值，则确定目标语音信息属于待识别对象的语音信息。若余弦相似度未达到第一相似度阈值，则确定目标语音信息不属于待识别对象的语音信息。通过上述方式，余弦相似度是从方向上区分差异，主要用于采用用户对内容评分来区分用户的相似度和差异，同时修正了用户间可能存在的度量标准不统一的问题，从而有利于提升声纹识别结果的可靠性。

可选地，在上述图2对应的实施例的基础上，本发明实施例提供模型训练的方法第二个可选实施例中，根据目标特征信息以及注册特征信息确定声纹识别结果，可以包括：

通过概率线性判别分析PLDA分类器计算目标特征信息与注册特征信息之间的对数似然比；

若对数似然比达到第二相似度阈值，则确定目标语音信息属于待识别对象的语音信息；

若对数似然比未达到第二相似度阈值，则确定目标语音信息不属于待识别对象的语音信息。

本实施例中，提供了另一种判断说话人是否属于已经注册过的一个说话人的方法。具体地，利于PLDA分类器进行评分的实现过程为，

在声纹识别领域中，我们假设训练数据语音由I个说话人的语音组成，其中，每个说话人有J段自己不同的语音。那么，我们定义第i个说话人的第j条语音为X_ij，然后，根据因子分析，定义X_ij的生成模型为：

x_ij＝u+Fh_i+Gw_ij+ε_ij；

这个模型可以看成两个部分，等号右边前两项只跟说话人有关而跟说话人的具体某一条语音无关，称为信号部分，这描述了说话人类间的差异。等号右边后两项描述了同一说话人的不同语音之间的差异，称为噪音部分。这样，我们用了这样两个假想变量来描述一条语音的数据结构。这两个矩阵F和G包含了各自假想变量空间中的基本因子，这些因子可以看做是各自空间的特征向量。比如，F的每一列就相当于类间空间的特征向量，G的每一列相当于类内空间的特征向量。而两个向量可以看做是分别在各自空间的特征表示，比如h_i就可以看做是X_ij在说话人空间中的特征表示。在识别打分阶段，如果两条语音的h_i特征相同的似然度越大，那么这两条语音就更确定地属于同一个说话人。

PLDA的模型参数一个有4个，分别是数据均值u，空间特征矩阵F和G，噪声协方差ε。模型的训练过程采用经典的最大期望算法迭代求解。

其次，本发明实施例中，在根据目标特征信息以及注册特征信息确定声纹识别结果的过程中，可以先通过PLDA分类器计算目标特征信息与注册特征信息之间的对数似然比，若对数似然比达到第二相似度阈值，则确定目标语音信息属于待识别对象的语音信息。若对数似然比未达到第二相似度阈值，则确定目标语音信息不属于待识别对象的语音信息。通过上述方式，采用PLDA作为信道补偿算法，其信道补偿能力比传统的线性判别分析分类器更好，从而有利于提升声纹识别结果的可靠性。

下面将从服务器的角度，对本发明中模型训练的方法进行介绍，请参阅图5，本发明实施例中模型训练的方法一个实施例包括：

201、获取待训练语音信息集合，其中，待训练语音信息集合包括至少一个对象所对应的语音信息；

本实施例中，首先由服务器获取待训练的语音信息集合，在该语音信息集合中需要包含至少一个对象的语音信息。

具体地，服务器还需要对待训练语音信息集合中的各个语音信息进行预处理，请参阅图6，图6为本发明实施例中对语音信息进行预处理的一个流程示意图，如图所示，具体地：

步骤S1中，首先需要对待训练语音信息集合中的各个语音信息进行语音活动检测(Voice Activity Detection，VAD)，目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用，可以有利于减少用户感觉到的端到端的时延。

在进行静音检测时有两个问题需要注意：一是背景噪声问题，即如何在较大的背景噪声中检测静音；二是前后沿剪切问题。所谓前后沿剪切就是还原语音时，由于从实际讲话开始到检测到语音之间有一定的判断门限和时延，有时语音波形的开始和结束部分会作为静音被丢掉，还原的语音会出现变化，因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。

步骤S2中，预加重的目的是提升高频部分，对语音信息的高频部分进行加重，去除口唇辐射的影响，增加语音的高频分辨率使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱。原因是因为对于语音信号来说，语音的低频段能量较大，能量主要分布在低频段，语音的功率谱密度随频率的增高而下降，这样，鉴频器输出就会高频段的输出信噪比明显下降，从而导致高频传输衰弱，使高频传输困难，这对信号的质量会带来很大的影响。因此，在传输之前把信号的高频部分进行加重，然后接收端再去重，能够提高信号传输质量。

步骤S3中，每帧信号通常要与一个平滑的窗函数相乘，让帧两端平滑地衰减到零，这样可以降低傅里叶变换后旁瓣的强度，取得更高质量的频谱。对每一帧，选择一个窗函数，窗函数的宽度就是帧长。常用的窗函数有矩形窗、汉明窗、汉宁窗以及高斯窗等。

步骤S4中，由于信号在时域上的变换通常很难看出信号的特性，所以通常将它转换为频域上的能量分布来观察，不同的能量分布，就能代表不同语音的特性。所以在乘上汉明窗后，每帧还需再经过快速傅里叶变换以得到在频谱上的能量分布。

步骤S5中，在经过快速傅里叶变换之后，将其通过一组梅尔(Mel)滤波器就得到Mel频谱，再取对数，至此完成对语音信息的预处理，从而生成特征向量。

202、根据待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，其中，模型调节函数包括第一损失函数以及第二损失函数，第一损失函数属于归一化指数函数，第二损失函数属于中心化函数；

本实施例中，服务器根据经过预处理之后的语音信息生成第一损失函数和第二损失函数，联合第一损失函数和第二损失函数得到模型调节函数，利用模型调节函数可以对声纹识别模型进行调节。

其中，声纹识别模型是由第一损失函数——归一化指数函数(softmax损失函数)，以及第二损失函数——中心化函数(center损失函数)共同训练得到。

203、根据模型调节函数训练得到声纹识别模型。

本实施例中，服务器根据得到的模型调节函数训练和学习得到声纹识别模型。并且在收到待识别的语音识别信息之后，将将待识别的目标语音信息输入至声纹识别模型，然后由该声纹识别模型输出对应的目标特征信息。

本发明实施例中，提供了一种模型训练的方法，即服务器先获取待训练语音信息集合，其中，待训练语音信息集合包括至少一个对象所对应的语音信息，然后，服务器根据待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，其中，模型调节函数包括第一损失函数以及第二损失函数，第一损失函数属于归一化指数函数，第二损失函数属于中心化函数。最后，根据模型调节函数训练得到声纹识别模型。通过上述方式，利用归一化指数函数和中心化函数对声纹识别模型进行联合优化，归一化指数函数作为损失函数，能够有效提升深度特征空间中不同说话人之间的区分性，而中心化函数作为损失函数，能够进一步减少来自同一说话人深度特征之间的类内变化。采用两种损失函数同时监督和学习声纹识别模型，可以使得深度特征具有更好的区分性，从而提升识别性能。

可选地，在上述图5对应的实施例的基础上，本发明实施例提供模型训练的方法第一个可选实施例中，根据待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，可以包括：

通过卷积神经网络CNN确定每个语音信息的深度特征；

根据待训练语音信息集合中每个对象所对应的语音信息获取连接层权重矩阵；

根据每个语音信息的深度特征以及连接层权重矩阵确定第一损失函数。

本实施例中，服务器采用基于Inception-ResNet结构的深度CNN生成模型调节函数。为了便于理解，请参阅图7，图7为本发明实施例中卷积神经网络的一个总体结构示意图，如图所示，整个结构中包含了子模块Inception-ResNet-A、Inception-ResNet-B、Inception-ResNet-C、Reduction-A以及Reduction-B。其中，对于模块A1和模块A2而言，具体包括了如图8所示的结构，请参阅图8，图8为本发明实施例中卷积神经网络的一个部分结构示意图，考虑到输入语音信息的特点，在第一个卷积层采用了非对称卷积核，由此可以对时间轴方向做更大幅度的卷积。

基于改进的Inception-ResNet结构学习整句话的深度特征，在训练过程中，对每条语音截取固定时长的语音段以图片形式作为网络输入，结合给定训练好的网络，句子水平的说话人特征通过对输入语音段对应的说话人特征计算平均值得到。

其次，本发明实施例中，服务器根据待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数的方式可以为，先通过卷积神经网络CNN确定每个语音信息的深度特征，然后根据待训练语音信息集合中每个对象所对应的语音信息获取连接层权重矩阵，最后，根据每个语音信息的深度特征以及连接层权重矩阵确定第一损失函数。通过上述方式，为方案的实现提供了可行的实现方式，从而提升了方案的实用性和可行性。

可选地，在上述图5对应的第一个实施例的基础上，本发明实施例提供模型训练的方法第二个可选实施例中，根据每个语音信息的深度特征以及连接层权重矩阵确定第一损失函数，可以包括：

采用如下方式确定第一损失函数：

其中，L_s表示第一损失函数，x_i表示来自第y_i个对象的第i个深度特征，W_v表示连接层权重矩阵中的第v列，b_j表示第j类的偏差项，且每一类对应一个对象，M表示待训练语音信息集合所对应的训练集分组大小，N表示待训练语音信息集合所对应的对象个数。

本实施例中，介绍了一种计算第一损失函数的具体的方式。即采用如下公式进行计算：

其中，log函数的输入就是softmax的结果，而L_s表示的是softmax损失的结果，而wx+b表示全连接层的输出，因此，log的输入就表示x_i属于y_i类别的概率。

再次，本发明实施例中，提供了一种获取第一损失函数的具体方式，即根据根据每个语音信息的深度特征以及连接层权重矩阵确定第一损失函数。通过上述方式，提升了方案的可行性和可操作性。

可选地，在上述图5对应的实施例的基础上，本发明实施例提供模型训练的方法第三个可选实施例中，根据待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，可以包括：

通过卷积神经网络CNN确定每个语音信息的深度特征；

根据每个语音信息的深度特征计算深度特征梯度；

根据深度特征梯度以及第一语音均值计算第二语音均值；

根据每个语音信息的深度特征以及第二语音均值，确定第二损失函数。

本实施例中，将介绍第二损失函数——center损失函数的确定方式。在确定第二损失函数的过程中，需要利用小批量(mini-batch)梯度下降法，每次只拿总训练集的一小部分来训练，比如一共有5000个样本，每次拿100个样本来计算损失，然后更新参数。50次后完成整个样本集的训练，即为一轮训练。由于每次更新用了多个样本来计算损失，就使得损失的计算和参数的更新更加具有代表性。损失的下降更加稳定，同时mini-batch的计算，也减少了计算资源的占用。

在梯度下降法的求解过程中，只需求解损失函数的一阶导数，计算的代价比较小，这使得梯度下降法能在很多大规模数据集上得到应用。梯度下降法的含义是通过当前点的梯度方向寻找到新的迭代点。

其次，本发明实施例中，提供了一种获取第二损失函数的方式，即根据每个语音信息的深度特征计算深度特征梯度，根据深度特征梯度以及第一语音均值计算第二语音均值，最后根据每个语音信息的深度特征以及第二语音均值，确定第二损失函数。通过上述方式，能够为方案的实现提供合理的依据，从而提升方案的可行性和实用性。

可选地，在上述图5对应的第三个实施例的基础上，本发明实施例提供模型训练的方法第四个可选实施例中，根据每个语音信息的深度特征计算深度特征梯度，可以包括：

采用如下方式计算深度特征梯度：

其中，Δμ_j表示深度特征梯度，M表示待训练语音信息集合所对应的训练集分组大小，j表示类，且每一类对应一个对象，y_i表示第y_i个对象；

根据深度特征梯度以及第一语音均值计算第二语音均值，可以包括：

采用如下方式计算第二语音均值：

其中，t表示时刻，表示t+1时刻所对应的第二语音均值，表示t时刻所对应的第一个语音均值，表示t时刻所对应的深度特征梯度，α表示学习速率参数，且α的取值范围为大于或等于0，且小于或等于1；

根据每个语音信息的深度特征以及第二语音均值，确定第二损失函数，可以包括：

采用如下方式确定第二损失函数：

其中，L_c表示第二损失函数，x_i表示来自第y_i个对象的第i个深度特征，μ_yi表示来自y_i的深度区分特征均值。

本实施例中，介绍了一种计算第二损失函数的具体的方式。即采用如下公式进行计算：

其中，μ_yi代表来自说话人y_i的深度区分特征的均值。需要说明的是，各类均值是随着mini-batch单位进行更新的。在每个训练迭代步中，mini-batch中所出现的说话人的深度特征用于更新相应说话人的均值。均值更新的公式如下所示：

其中，center损失函数关于x_i的梯度为Δμ_j。一个batch中的每个样本的特征离特征的中心的距离的平方和要越小越好，也就是类内距离要越小越好。这就是center loss。

再次，本发明实施例中，提供了一种获取第二损失函数的具体方式。通过上述方式，从而提升方案的可行性和可操作性。

可选地，在上述图5以及图5对应的第一个至第四个实施例中任一项的基础上，本发明实施例提供模型训练的方法第五个可选实施例中，根据待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，可以包括：

根据待训练语音信息集合中每个对象所对应的语音信息确定第一损失函数；

根据待训练语音信息集合中每个对象所对应的语音信息确定第二损失函数；

根据第一损失函数以及第二损失函数，确定模型调节函数。

本实施例中，在服务器获取第一损失函数以及第二损失函数之后，将第一损失函数与第二损失函数进行联合处理，从而得到模型调节函数。

具体地，这里的第一损失函数为softmax损失函数，第二损失函数为center损失函数。如果只采用softmax损失函数来求损失，无论是训练数据集还是测试数据集，都能看出比较清晰的类别界限。如果在softmax损失函数的基础上在加入center损失函数，那么类间距离变大了，类内距离减少了。

进一步地，本发明实施例中，服务器根据待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，具体可以为，服务器先根据待训练语音信息集合中每个对象所对应的语音信息确定第一损失函数，然后服务器根据待训练语音信息集合中每个对象所对应的语音信息确定第二损失函数，最后根据第一损失函数以及第二损失函数，确定模型调节函数。通过上述方式，可以提升方案的可行性和可操作性。

可选地，在上述图5对应的第五个实施例的基础上，本发明实施例提供模型训练的方法第六个可选实施例中，根据第一损失函数以及第二损失函数，确定模型调节函数，可以包括：

采用如下方式确定模型调节函数：

L_t＝L_s+λL_c；

其中，L_t表示模型调节函数，L_s表示第一损失函数，L_c表示第二损失函数，λ表示控制参数。

本实施例中，介绍了一种计算模型调节函数的具体的方式。即采用如下公式进行计算：

其中，本发明所用损失函数为第一损失函数(softmax损失函数)和第二损失函数(center损失函数)的线性组合，第一损失函数的权重为1，第二损失函数的权重为λ。这里的M表示mini-batch所包含的样本数量，N表示类别数。

更进一步地，本发明实施例中，介绍了一种根据第一损失函数以及第二损失函数，确定模型调节函数的具体计算方式。通过上述方式，采用控制参数可以控制第一损失函数和第二损失函数之间的比重，从而有利于提升计算的可靠性，并且能够根据不同的应用进行调整，进而提升方案的灵活性。

为了验证本发明提供的声纹识别方法的应用效果，在大数据集上进行了验证对比，该数据集包含了来自2500说话人的760220句话，每个说话人平均有300句，该数据的平均时长为2.6s。我们将数据集分成训练集、验证集、和测试集三个部分。为了便于理解，请参阅表1，表1为不同网络的配置情况，

表1

网络简称	基础结构	损失函数	特征维度	输入最小时长
					Net1	Inception-ResNet-v1	Softmax+Center	120	1.5s
Net2	Inception-ResNet-v1	Softmax+Center	120	2.0s
					Net3	Inception-ResNet-v1	Softmax+Center	120	2.5s
Net4	本发明提供的网络	Softmax	40	1.5s
					Net5	本发明提供的网络	Softmax+Center	40	1.5s

其中，对于Inception-ResNet-v1网络，为了能保证该网络的正常训练，我们采用120维的log-mel特征作为该网络的输入。请参阅图9，图9为本发明实施例中验证集应用于不同网络的正确率对比示意图，如图所示，采用两种损失函数同时优化网络训练比单独的softmax损失更好，而且本发明的网络结构可以在输入特征维度更小，输入语音最小时长最短的情况下在验证集上达到最高的正确率。

下面将对本发明所提供的系统与基于深度神经网络(Deep Neural Network，DNN)/身份认证矢量(identity vector，i-vector)的系统进行对比，请参阅表2，表2为本发明提供的系统与DNN/ivector系统的性能比较示意。

表2

从表2中可以看出，本发明提供的声纹识别方法在短语音情况下明显优于现有DNN/Ivector方法，在长语音情况下，与DNN/Ivector的性能的差别不大，但是对于短语音情况而言，基于深度区分特征的说话人识别系统不需要繁杂的流程设计，因此，提升了方案的应用效率。

下面对本发明中的服务器进行详细描述，请参阅图10，图10为本发明实施例中服务器一个实施例示意图，服务器30包括：

获取模块301，用于获取待识别的目标语音信息；

所述获取模块301，还用于通过声纹识别模型获取所述目标语音信息的目标特征信息，其中，所述声纹识别模型为根据第一损失函数以及第二损失函数训练得到的，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数；

确定模块302，用于根据所述获取模块301获取的所述目标特征信息以及注册特征信息确定声纹识别结果，其中，所述注册特征信息为待识别对象的语音信息在通过所述声纹识别模型之后得到的。

本实施例中，获取模块301，获取待识别的目标语音信息，所述获取模块301通过声纹识别模型获取所述目标语音信息的目标特征信息，其中，所述声纹识别模型为根据第一损失函数以及第二损失函数训练得到的，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数，确定模块302根据所述获取模块301获取的所述目标特征信息以及注册特征信息确定声纹识别结果，其中，所述注册特征信息为待识别对象的语音信息在通过所述声纹识别模型之后得到的。

本发明实施例中，提供了一种服务器，首先服务器获取待识别的目标语音信息，然后服务器通过声纹识别模型获取目标语音信息的目标特征信息，其中，声纹识别模型为根据第一损失函数以及第二损失函数训练得到的，第一损失函数属于归一化指数函数，第二损失函数属于中心化函数，服务器再根据目标特征信息以及注册特征信息确定声纹识别结果，其中，注册特征信息为待识别对象的语音信息在通过声纹识别模型之后得到的。通过上述方式，利用归一化指数函数和中心化函数对声纹识别模型进行联合优化，归一化指数函数作为损失函数，能够有效提升深度特征空间中不同说话人之间的区分性，而中心化函数作为损失函数，能够进一步减少来自同一说话人深度特征之间的类内变化。采用两种损失函数同时监督和学习声纹识别模型，可以使得深度特征具有更好的区分性，从而提升识别性能。

可选地，在上述图10所对应的实施例的基础上，本发明实施例提供的服务器30的另一实施例中，

所述确定模块302，具体用于根据所述目标特征信息以及注册特征信息计算余弦相似度；

若所述余弦相似度达到第一相似度阈值，则确定所述目标语音信息属于所述待识别对象的语音信息；

若所述余弦相似度未达到所述第一相似度阈值，则确定所述目标语音信息不属于所述待识别对象的语音信息。

所述确定模块302，具体用于通过概率线性判别分析PLDA分类器计算所述目标特征信息与所述注册特征信息之间的对数似然比；

若所述对数似然比达到第二相似度阈值，则确定所述目标语音信息属于所述待识别对象的语音信息；

若所述对数似然比未达到所述第二相似度阈值，则确定所述目标语音信息不属于所述待识别对象的语音信息。

下面对本发明中的服务器进行详细描述，请参阅图11，图11为本发明实施例中服务器一个实施例示意图，服务器40包括：

获取模块401，用于获取待训练语音信息集合，其中，所述待训练语音信息集合包括至少一个对象所对应的语音信息；

确定模块402，用于根据所述获取模块401获取的所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，其中，所述模型调节函数包括所述第一损失函数以及第二损失函数，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数；

训练模块403，用于根据所述确定模块402确定的所述模型调节函数训练得到声纹识别模型。

本实施例中，获取模块401获取待训练语音信息集合，其中，所述待训练语音信息集合包括至少一个对象所对应的语音信息，确定模块402根据所述获取模块401获取的所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，其中，所述模型调节函数包括所述第一损失函数以及第二损失函数，所述第一损失函数属于归一化指数函数，所述第二损失函数属于中心化函数，训练模块403根据所述确定模块402确定的所述模型调节函数训练得到声纹识别模型。

可选地，在上述图11所对应的实施例的基础上，本发明实施例提供的服务器40的另一实施例中，

所述确定模块402，具体用于通过卷积神经网络CNN确定每个语音信息的深度特征；

根据所述待训练语音信息集合中每个对象所对应的语音信息获取连接层权重矩阵；

根据所述每个语音信息的深度特征以及所述连接层权重矩阵确定所述第一损失函数。

所述确定模块402，具体用于采用如下方式确定所述第一损失函数：

其中，所述L_s表示所述第一损失函数，所述x_i表示来自第y_i个对象的第i个深度特征，W_v表示所述连接层权重矩阵中的第v列，所述b_j表示第j类的偏差项，且每一类对应一个对象，所述M表示所述待训练语音信息集合所对应的训练集分组大小，所述N表示所述待训练语音信息集合所对应的对象个数。

再次，本发明实施例中，提供了一种获取第一损失函数的具体方式，即根据根据每个语音信息的深度特征以及连接层权重矩阵确定第一损失函数。通过上述方式，提升方案的可行性和可操作性。

根据所述每个语音信息的深度特征计算深度特征梯度；

根据所述深度特征梯度以及第一语音均值计算第二语音均值；

根据所述每个语音信息的深度特征以及所述第二语音均值，确定所述第二损失函数。

所述确定模块402，具体用于采用如下方式计算所述深度特征梯度：

其中，所述Δμ_j表示所述深度特征梯度，所述M表示所述待训练语音信息集合所对应的训练集分组大小，所述j表示类，且每一类对应一个对象，所述y_i表示第y_i个对象；

采用如下方式计算所述第二语音均值：

其中，所述t表示时刻，所述表示t+1时刻所对应的所述第二语音均值，所述表示t时刻所对应的所述第一个语音均值，所述表示t时刻所对应的所述深度特征梯度，所述α表示学习速率参数，且所述α的取值范围为大于或等于0，且小于或等于1；

采用如下方式确定所述第二损失函数：

其中，所述L_c表示所述第二损失函数，所述x_i表示来自第y_i个对象的第i个深度特征，所述μ_yi表示来自所述y_i的深度区分特征均值。

所述确定模块402，具体用于根据所述待训练语音信息集合中每个对象所对应的语音信息确定所述第一损失函数；

根据所述待训练语音信息集合中每个对象所对应的语音信息确定所述第二损失函数；

根据所述第一损失函数以及所述第二损失函数，确定所述模型调节函数。

所述确定模块402，具体用于采用如下方式确定所述模型调节函数：

L_t＝L_s+λL_c；

其中，所述L_t表示所述模型调节函数，所述L_s表示所述第一损失函数，所述L_c表示所述第二损失函数，所述λ表示控制参数。

图12是本发明实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processingunits，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

本发明实施例中，CPU 522用于执行如下步骤：

获取待识别的目标语音信息；

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

根据所述目标特征信息以及注册特征信息计算余弦相似度；

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

通过概率线性判别分析PLDA分类器计算所述目标特征信息与所述注册特征信息之间的对数似然比；

本发明实施例中，CPU 522用于执行如下步骤：

根据所述模型调节函数训练得到声纹识别模型。

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

通过卷积神经网络CNN确定每个语音信息的深度特征；

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

采用如下方式确定所述第一损失函数：

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

通过卷积神经网络CNN确定每个语音信息的深度特征；

根据所述每个语音信息的深度特征计算深度特征梯度；

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

采用如下方式计算所述深度特征梯度：

采用如下方式计算所述第二语音均值：

采用如下方式确定所述第二损失函数：

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

根据所述待训练语音信息集合中每个对象所对应的语音信息确定所述第一损失函数；

可选地，本发明实施例中，CPU 522具体用于执行如下步骤：

采用如下方式确定所述模型调节函数：

L_t＝L_s+λL_c；

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种声纹识别的方法，其特征在于，包括：

获取待识别的目标语音信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征信息以及注册特征信息确定声纹识别结果，包括：

根据所述目标特征信息以及注册特征信息计算余弦相似度；

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标特征信息以及注册特征信息确定声纹识别结果，包括：

4.一种模型训练的方法，其特征在于，包括：

根据所述模型调节函数训练得到声纹识别模型。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，包括：

通过卷积神经网络CNN确定每个语音信息的深度特征；

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个语音信息的深度特征以及所述连接层权重矩阵确定所述第一损失函数，包括：

采用如下方式确定所述第一损失函数：

7.根据权利要求4所述的方法，其特征在于，所述根据所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，包括：

通过卷积神经网络CNN确定每个语音信息的深度特征；

根据所述每个语音信息的深度特征计算深度特征梯度；

8.根据权利要求7所述的方法，其特征在于，所述根据所述每个语音信息的深度特征计算深度特征梯度，包括：

采用如下方式计算所述深度特征梯度：

所述根据所述深度特征梯度以及第一语音均值计算第二语音均值，包括：

采用如下方式计算所述第二语音均值：

所述根据所述每个语音信息的深度特征以及所述第二语音均值，确定所述第二损失函数，包括：

采用如下方式确定所述第二损失函数：

9.根据权利要求4至8中任一项所述的方法，其特征在于，所述根据所述待训练语音信息集合中每个对象所对应的语音信息确定模型调节函数，包括：

10.根据权利要求9所述的方法，其特征在于，所述根据所述第一损失函数以及所述第二损失函数，确定所述模型调节函数，包括：

采用如下方式确定所述模型调节函数：

L_t＝L_s+λL_c；

11.一种服务器，其特征在于，包括：

获取模块，用于获取待识别的目标语音信息；

12.一种服务器，其特征在于，包括：

13.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

获取待识别的目标语音信息；

14.一种服务器，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

根据所述模型调节函数训练得到声纹识别模型；

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至3中任一项所述的方法，或者执行如权利要求4至10中任一项所述的方法。