CN110610709A

CN110610709A - 基于声纹识别的身份辨别方法

Info

Publication number: CN110610709A
Application number: CN201910916553.4A
Authority: CN
Inventors: 王磊
Original assignee: Zhejiang Baiying Technology Co Ltd
Current assignee: Zhejiang Baiying Technology Co Ltd
Priority date: 2019-09-26
Filing date: 2019-09-26
Publication date: 2019-12-24

Abstract

本发明涉及语音识别领域，尤其涉及基于声纹识别的身份辨别方法，包括：基于语料库通过深度学习算法训练声纹模型；将用户的样本语音输入训练完成的声纹模型得到样本声纹特征向量，并将样本声纹特征向量注册到声纹数据库；采集用户接听时的外呼语音，通过vad算法实时将外呼语音进行分片处理，得到若干段语音；将分片处理后的外呼语音分别输入训练完成的声纹模型，得到对应的测试声纹特征向量；基于测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量，通过余弦相似度函数进行相似度计算；根据计算得到的相似度，判断外呼语音是否为同一用户所发出。本发明实现外呼过程中，判别机主是否有换人接听。

Description

基于声纹识别的身份辨别方法

技术领域

本发明涉及语音识别领域，尤其涉及基于声纹识别的身份辨别方法。

背景技术

声纹识别是根据语音中的波长、频率以及强度等百余种特征维度，识别说话人身份的一种人工智能技术。由于声纹识别具有安全可靠性，有着非常多的应用场景，如公共安全、金融、社保、智能硬件等多个领域。

随着人工智能的发展，人们对声纹识别系统的要求也在逐步提高，有更快的识别速度、更低的使用成本、更准确的识别。但是由于应用场景的不同，往往遇到很多问题，使用通用的声纹识别系统会导致识别结果不尽人意。

针对机器人智能外呼的场景，机器人无法识别通话过程中机主是否有换其他人来接听。

发明内容

为解决上述问题，本发明提出基于声纹识别的身份辨别方法，以判断通话过程中机主是否有换其他人来接听。

基于声纹识别的身份辨别方法，包括：

基于语料库通过深度学习算法训练声纹模型；

将用户的样本语音输入训练完成的声纹模型得到样本声纹特征向量，并将样本声纹特征向量注册到声纹数据库；

采集用户接听时的外呼语音，通过vad算法实时将外呼语音进行分片处理，得到若干段语音；

将分片处理后的外呼语音分别输入训练完成的声纹模型，得到对应的测试声纹特征向量；

基于测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量，通过余弦相似度函数进行相似度计算；

根据计算得到的相似度，判断外呼语音是否为同一用户所发出。

优选的，所述基于语料库训练声纹模型包括：

从特定说话人中选取一句话，标记为锚样本；

从同一说话人中选取的另外一句话，标记为正样本；

从不同说话人选取的一句话，标记为负样本；

将锚样本和正样本进行训练时，让其结果尽可能接近于1；

将锚样本和负样本进行训练时，让其结果尽可能接近于0。

所述基于语料库通过深度学习算法训练声纹模型还包括：

将划分好的样本放到到神经网络中的输入层进行训练；

为避免模型过早陷入局部最优点，在输出层加入softmax函数，对结果进行归一化处理；

并输入到交叉熵损失函数，得到模型的损失值；

通过反向传播不断迭代参数，使得模型的损失最小化，最终得到声纹模型。

优选的，所述将用户的样本语音输入训练完成的声纹模型得到样本声纹特征向量，并将样本声纹特征向量注册到声纹数据库包括：

获取用户的样本语音，通过训练完成的声纹模型得到样本声纹特征向量，获取对应的特征向量i-vector或d-vector；

对特征向量i-vector或d-vector求均值，得到用户的样本声纹特征向量；

将用户id和对应的样本声纹特征向量注册到声纹数据库。

优选的，所述基于测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量，通过余弦相似度函数进行相似度计算包括：

使用余弦相似度函数计算测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量相似度得到评估分数；

根据评估分数得到每段语音对应的评估分数向量；

再通过softmax层将分数进行归一化，转化为相似的概率。

优选的，所述根据计算得到的相似度，判断外呼语音是否为同一用户所发出包括：

当相似的概率大于等于设定阈值时，判断外呼语音为同一用户所发出；

当相似的概率小于设定阈值时，判断外呼语音为不同用户所发出。

本发明具备以下有益效果：

1.将用户的样本语音输入训练完成的声纹模型得到样本声纹特征向量，并将样本声纹特征向量注册到声纹数据库；采集用户接听时的外呼语音，通过vad算法实时将外呼语音进行分片处理，得到若干段语音；将分片处理后的外呼语音分别输入训练完成的声纹模型，得到对应的测试声纹特征向量；基于测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量，通过余弦相似度函数进行相似度计算；根据计算得到的相似度，判断外呼语音是否为同一用户所发出，从而判别外呼过程中，机主是否有换人接听；

2.通过深度学习算法训练声纹模型，无需考虑信道、设备等其他因素的干扰，从而保证了较高的辨别准确率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例一种基于声纹识别的身份辨别方法的流程图；

图2是本发明实施例一种基于声纹识别的身份辨别方法中步骤S2的流程图；

图3是本发明实施例一种基于声纹识别的身份辨别方法中步骤S5的流程图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

本发明的基本思想是基于语料库通过深度学习算法训练声纹模型；将用户的样本语音输入训练完成的声纹模型得到样本声纹特征向量，并将样本声纹特征向量注册到声纹数据库；采集用户接听时的外呼语音，通过vad算法实时将外呼语音进行分片处理，得到若干段语音；将分片处理后的外呼语音分别输入训练完成的声纹模型，得到对应的测试声纹特征向量；基于测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量，通过余弦相似度函数进行相似度计算；根据计算得到的相似度，判断外呼语音是否为同一用户所发出，从而判别外呼过程中，机主是否有换人接听。

基于以上构思，本发明实施例提出一种基于声纹识别的身份辨别方法，如图 1所示，包括以下步骤：

S1：基于语料库通过深度学习算法训练声纹模型；

S2：将用户的样本语音输入训练完成的声纹模型得到样本声纹特征向量，并将样本声纹特征向量注册到声纹数据库；

S3：采集用户接听时的外呼语音，通过vad算法实时将外呼语音进行分片处理，得到若干段语音；

S4：将分片处理后的外呼语音分别输入训练完成的声纹模型，得到对应的测试声纹特征向量；

S5：基于测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量，通过余弦相似度函数进行相似度计算；

S6：根据计算得到的相似度，判断外呼语音是否为同一用户所发出。

深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或语音识别)。

在本实施例中，通过深度学习算法训练声纹模型，无需考虑信道、设备等其他因素的干扰，从而保证了较高的辨别准确率。

在本实施例中，基于语料库通过深度学习算法训练声纹模型的方法为：

从特定说话人中选取一句话，标记为锚样本；从同一说话人中选取的另外一句话，标记为正样本；从不同说话人选取的一句话，标记为负样本；将锚样本和正样本进行训练时，让其结果尽可能接近于1；将锚样本和负样本进行训练时，让其结果尽可能接近于0。将锚样本和正样本进行训练时，我们要让其结果尽可能接近，即结果接近于1。将锚样本和负样本进行训练时，我们要让其结果尽可能远离，即结果接近于0。

准备好了训练数据，为了避免过训练时早陷入局部最优点，使用了Softmax+ 交叉熵预训练方法，最终得到声纹模型。具体的，首先将划分好的样本放到到神经网络中的输入层进行训练，为避免模型过早陷入局部最优点，在输出层加入 softmax函数，对结果进行归一化处理，并输入到交叉熵损失函数，得到模型的损失值，通过反向传播不断迭代参数、使得模型的损失最小化，最终得到最优的预训练模型，即声纹模型。

在本实施例中，如图2所示，将用户的样本语音输入训练完成的声纹模型得到样本声纹特征向量，并将样本声纹特征向量注册到声纹数据库的方法为：

S21：获取用户的样本语音，通过训练完成的声纹模型得到样本声纹特征向量，获取对应的特征向量i-vector或d-vector；

S22：对特征向量i-vector或d-vector求均值，得到用户的样本声纹特征向量；

S23：将用户id和对应的样本声纹特征向量注册到声纹数据库。

用户id与其样本声纹特征向量一一对应，并将用户id与其样本声纹特征向量注册到声纹数据库。当需要对另一用户进行身份辨别时，首先根据其用户id，在声纹数据库中搜索是否存在相同的用户id。当声纹数据库中存在相同的用户id时，说明该用户的声纹特征向量已经注册到声纹数据库；当声纹数据库中不存在相同的用户id时，说明该用户的声纹特征向量未注册到声纹数据库。若该用户在声纹数据库中已经注册有样本声纹特征量，则不需要进行声纹特征向量的提取。

为提高身份识别的准确度，在采集用户接听时的外呼语音后，通过vad算法实时将外呼语音进行分片处理，得到若干段语音。在本实施例中通过对每小段语音进行辨别，相对于一大段语音进行辨别，更能够实现身份的辨别。

在本实施例中，通过对外呼语音的实时采集以及实时的分片处理，从而实现对用户身份的实时识别。

在本实施例中，如图3所示，基于测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量，通过余弦相似度函数进行相似度计算的方法为：

S51：使用余弦相似度函数计算测试声纹特征向量与声纹数据库中该用户的样本声纹特征向量相似度得到评估分数；

S52：根据评估分数得到每段语音对应的评估分数向量；

S53：再通过softmax层将分数进行归一化，转化为相似的概率。

在本实施例中，根据计算得到的相似度，判断外呼语音是否为同一用户所发出的方法为：

每段语音通过上述步骤的处理均可以得到其相似的概率，通过与设定阈值的比较来判断该段语音是否为同一用户发出，并根据判断的结果在该段语音上打标，便于后续的追踪处理。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.基于声纹识别的身份辨别方法，其特征在于，包括：

基于语料库通过深度学习算法训练声纹模型；

2.根据权利要求1所述的基于声纹识别的身份辨别方法，其特征在于，所述基于语料库通过深度学习算法训练声纹模型包括：