CN110517695A

CN110517695A - 基于声纹的验证方法及装置

Info

Publication number: CN110517695A
Application number: CN201910860737.3A
Authority: CN
Inventors: 葛亮
Original assignee: Guowei Group (shenzhen) Co Ltd
Current assignee: Guowei Group (shenzhen) Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-11-29

Abstract

本发明公开了一种基于声纹的验证方法及装置。其中基于声纹的验证方法，包括步骤：采集至少一个用户的语音信息并提取各用户的语音特征存储至模型库中；随机生成验证密码供待验证用户朗读，并获取朗读语音；提取所述朗读语音中待验证的内容及语音特征，根据所述模型库以及验证密码对所述待验证的内容和语音特征进行验证，并得到验证结果。本发明是基于本地离线处理的声纹识别方法，每次的识别内容随机变化，并对验证语音信号进行活体检测，极大提升了用户验证的安全性。

Description

基于声纹的验证方法及装置

技术领域

本发明涉及身份验证技术，例如金融支付、门禁、电子锁设备等，尤其涉及基于声纹的身份验证技术，以及装载了该身份验证技术的计算机设备和存储设备。

背景技术

声纹识别目前已经应用在了很多领域，例如语音控制时，通过让用户说出指定的指令，从而针对该指定的指令来执行相应的动作，即该语音控制是基于内容相关的。也有的语音识别是通过提前录制好音频，之后相同的用户说出相同内容的音频，则识别通过，但是这种提前录制好的音频比较容易被破解，而且有的基于云端的验证技术，需要先将语音上传至网络，这个过程中可能会受到黑客的攻击，因此这种语音识别方式存在安全风险。

发明内容

为了解决现有技术中声纹验证安全度较低的技术问题，本发明提出了基于声纹的验证方法及装置。

本发明提出的基于声纹的验证方法，包括步骤：

步骤1，采集至少一个用户的语音信息并提取各用户的语音特征存储至模型库中；

步骤2，随机生成验证密码供待验证用户朗读，并获取朗读语音；

步骤3，提取所述朗读语音中待验证的内容及语音特征，根据所述模型库以及验证密码对所述待验证的内容和语音特征进行验证，并得到验证结果。

具体的，所述提取各用户的语音特征存储至模型库中具体包括：

将单个用户内容相同的至少两条语音信息分别切割成n段语音片段，每一个语音片段的内容为一个字符；

提取每一个语音片段的语音特征，将所有语音信息中内容相同的语音片段的语音特征进行对比，提取该用户对应内容的语音特征；

将每一个用户的所有不同内容的语音特征组合成所述用户的发声模型存储至模型库中。

优选的，当所述语音片段切割失败时，提醒用户并重新采集用户的所述语音信息。

优选的，所述验证密码由至少一个字符组成。

优选的，用于存储所述字符的词库的字符数量小于等于所述用户的语音信息对应的内容的字符数量。

在一个实施例中，所述步骤3具体包括：将所述朗读语音切割成m段待验证语音片段，每一个待验证语音片段的内容为一个字符，m≤n；提取每一个待验证语音片段的语音特征；将所述模型库中对应用户的语音片段根据所述验证密码的内容进行组合，并以组合后的顺序一一对应地与所述朗读语音的待验证语音片段进行语音特征匹配；若匹配到对应的用户，则匹配成功，否则匹配失败。

在另一个实施例中，所述步骤3具体包括：验证所述朗读语音的内容是否与所述验证密码的内容相同；若相同，则将所述朗读语音切割成m段待验证语音片段，每一个待验证语音片段的内容为一个字符，m≤n；提取每一个待验证语音片段的语音特征；将所述朗读语音的待验证语音片段与所述模型库中的对应用户的语音模型进行语音特征匹配；若匹配到对应的用户，则匹配成功，否则匹配失败。

优选的，当所述待验证语音片段切割失败时，提醒待验证用户并重新采集所述待验证用户的所述朗读语音。

优选的，当所述待验证用户匹配到对应的用户时，根据所述用户所拥有的权限，赋予该待验证用户对应的权限。

优选的，所述模型库和词库为本地的数据库。

本发明还提出了使用了上述技术方案所述的基于声纹的验证方法的装置，包括：用于采集所述语音信息和朗读语音的声音采集模块，用于提取所述语音信息和朗读语音的语音特征的特征提取模块，用于存储所述模型库和字符的存储模块，随机提取所述字符生成所述验证密码的密码生成模块，对所述朗读语音和验证密码进行匹配验证的验证模块。

本发明提出的计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述技术方案所述的基于声纹的验证方法。

本发明提出的包含计算机可执行指令的存储设备，所述包含计算机可执行指令的存储设备在由计算机处理器执行所述计算机可执行指令时实现上述技术方案所述的基于声纹的验证方法。

本发明通过麦克风等声音采集模块收集用户的语音信号，并且只在本地处理，不会泄露用户私人信息，并与网络隔离，极大增加了系统的安全性。本发明通过用户的声纹信息，识别出用户的独有生物特点，可以极大的保证用户的独有权限，在身份验证的场合有很大的应用价值。本发明基于有限词库的方法，提升了技术可行性以及用户体验，增强实用性，可在有限计算能力下保证验证的安全性，并用随机性内容防止信息泄露，在保障安全的前提下使身份验证更安全。

附图说明

下面结合实施例和附图对本发明进行详细说明，其中：

图1是本发明整体流程图。

图2是本发明的注册流程图。

图3是本发明的验证流程图。

具体实施方式

下面结合附图详细说明本发明的原理及实施例。

如图1至图3所示，本发明基于声纹的验证方法包括了注册和验证两个部分。

在注册时，本发明采集用户的语音信息并提取用户的语音特征存储至模型库中，具体的单个用户在进行注册时，需要用户按照要求至少说两遍来进行模型训练，提取该用户的生物特征，建立用户的发声模型并保存在本地的模型库。本发明具体可以通过以下步骤对一个或多个用户进行模型搭建。

（a）对验证装置进行唤醒，然后开始注册；

（b）对当前用户进行录音，录制至少两遍，获取至少两条语音信息作为输入信号；例如要求用户朗读0-9的数字两遍，然后生成两条相应的语音信息。

（c）对录制的语音信息进行降噪、切割等预处理，将语音信息切割成语音片段，每一个语音片段的内容为一个字符，这里所说的字符包括数字、字母、字和符号当中的至少一种。本实施例中，每条语音信息被分成10个单独数字的语音片段。当语音片段切割失败时，则提醒用户重新录音以便可以重新采集用户的语音信息，例如切分的段数不符合要求，则需要重新对用户进行录音；

（d）然后对每条语音信息进行特征提取，提取每一个语音片段的语音特征，将所有语音信息中内容相同的语音片段的语音特征进行对比，提取该用户对应内容的语音特征，本实施例中，将两个数字相同的语音片段的语音特征进行对比来提取用户对应内容的语音特征，例如，将0这个发音的两段语音片段进行对比来提取用户发出0时候的语音特征。

（e）将每一个用户的所有不同内容的语音特征组合成这个用户的发声模型，并存储在本地的模型库中。

在上述注册过程当中，并不限定于录入用户的数字发音，还可以录用用户的单词发音、字的发音、符号的发音等等，给出的字符也不限定于是只给出一次，例如，通过大数据分析，有些发音比较难以比较到特征时，也可以在一条语音信息中要求读好几次，来有利于提取出用户针对于该发音的语音特征。在比较时，本发明是把相同内容的语音片段进行对比，因此，即便是两条语音信息的语音片段，也有可能出现多于2条以上内容相同的语音片段，这个也是允许的。当然在通常情况下，一个内容比较两遍就可以了。下面以四口之家的4来进行注册实例之一的说明，需要每个用户在提示下说两段0到9的数字语音，对每段语音进行预处理，包括降噪与语音切割，再进行MFCC特征提取，保存为当前用户的两组语音特征数据，再用两组语音特征数据进行相识度计算，找出合适的阈值保存到当前用户的发声模型，用作验证数据，储存在模型库中。

用户完成了注册过程，就可以进行之后的验证过程，从而实现想要的控制。本发明的验证方法具有随机性，并不是从有限的词库中抽出一个事先准备好的数据来进行匹配。本发明是从词库中随机抽取至少一个字符，进行随机的排列组合形成验证密码，然后再对待验证用户的语音的内容与声纹进行匹配验证，属于一种半文本相关的验证方法。每次抽取的字符的数量可以是固定的，也可以是不固定的，本领域内技术人员根据需要来设定即可。

本发明的验证过程也需要语音信号输入，用户根据提示说出一段语音后，根据提前建立的用户的发声模型，对语音信号进行匹配与计算，得出待验证用户是否在用户模型库中，具体是哪一位用户，具体的验证过程如下。

（a）首先，唤醒验证装置；

（b）装置进入挑战-响应模式，从词库中随机生成验证密码供待验证用户朗读，并对用户的朗读进行录音获取朗读语音；验证密码由至少一个字符组成，在较优的情况下，验证密码的字符数量越多，装置可获得的发声信息就越多，这样判断也就更加精准，当然，验证密码的字符数量过多，又会造成装置的负担，因此，一般6-8个字符是最佳。词库就是用来存储生成验证密码的字符的，由于验证密码的排列组合以及字符数量均可以随机，因此本发明的词库中的字符数量的个数有限，例如仅仅是数字的场合下，词库只需要存储10个数字就可以了，通常情况下存储字符的词库的字符数量小于等于用户在注册时的语音信息对应的内容的字符数量，这样使得验证密码的内容尽可能多样化，但是装置的计算与匹配负担却是相对最小的。

（c）对朗读语音进行降噪、切割等预处理，具体将朗读语音切割成m段待验证语音片段，每一个待验证语音片段的内容为一个字符，假设注册时语音信息被切割的段数为n段，那么m≤n，n≥1。例如，验证密码的内容为8个字符时，这里朗读语音将被切割成8段待验证语音片段；当待验证语音片段切割失败时，提醒待验证用户，并重新采集待验证用户的朗读语音。

（e）提取朗读语音中待验证的内容及语音特征，根据之前建立的模型库以及验证密码对待验证的内容和语音特征进行验证，并得到验证结果。具体的是计算待验证用户与模型库中的数据的匹配程度，若是在阈值范围内，则验证通过；若是不在范围内，则当前的待验证用户的验证不通过。

这里具体涉及到两个实施例。

在第一个实施例中，本装置提取每一个待验证语音片段的语音特征；然后将模型库中对应用户的语音片段根据验证密码的内容进行组合，并以组合后的顺序一一对应地与朗读语音的待验证语音片段进行语音特征匹配。人数较少的时候，以上述一家四口为例，从四个人的发声模型中按照验证密码的内容挑选出相应的语音特征进行组合，然后将每个人的每个内容的语音特征与对应的待验证片段的语音特征进行比对，匹配看看具体是哪一个用户，若匹配到对应的用户，则匹配成功，否则匹配失败。若是模型库中人数众多的话，可以通过一些预先处理，进行相似度排序，从相似度比较高的发声模型中挑选出对应的数据来进行匹配，看看是否是模型库中的具体哪一位用户。

在第二个实施例中，我们也可以先验证用户的朗读语音的内容是否与验证密码的内容相同；若是相同再去进行特征对比，若是不同，则提示用户再次朗读来采集朗读语音，若是多次都不同，达到了预设的错误次数，则可以进行报警或其他处理。

具体对比时，只需要对比朗读语音的待验证语音片段对应的是模型库中哪一位用户，不需要再去按顺序组合模型库中的语音特征了。即将朗读语音的待验证语音片段与模型库中的对应用户的语音模型进行语音特征匹配（详细的与第一实施例相同），若匹配到对应的用户，则匹配成功，否则匹配失败。

当待验证用户匹配到对应的用户时，根据这个用户所拥有的权限，装置可以赋予该待验证用户对应的权限。

为了实现上述方法，本发明所提到的装置可以包括以下模块：用于采集注册时的语音信息以及验证时的朗读语音的声音采集模块（例如麦克风），用于提取语音信息和朗读语音的语音特征的特征提取模块，用于存储模型库和字符的存储模块，随机提取字符生成验证密码的密码生成模块，对朗读语音和验证密码进行匹配验证的验证模块。其中存储器是装置本身的硬件，因此，模型库和词库均为本地的数据库，不需要进行联网操作。通过本地离线处理的声纹识别方法，每次识别的内容随机变化，极大提升了用户验证的安全性。

除了具体的装置，本发明的方法基于计算机程序实现，本发明还保护计算机设备和存储设备，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时可以实现本发明的验证方法。同样包含计算机可执行指令的存储设备在由计算机处理器执行计算机可执行指令时实现本发明的验证方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于声纹的验证方法，其特征在于，包括步骤：

2.如权利要求1所述的基于声纹的验证方法，其特征在于，所述提取各用户的语音特征存储至模型库中具体包括：

3.如权利要求2所述的基于声纹的验证方法，其特征在于，当所述语音片段切割失败时，提醒用户并重新采集用户的所述语音信息。

4.如权利要求1所述的基于声纹的验证方法，其特征在于，所述验证密码由至少一个字符组成；用于存储所述字符的词库的字符数量小于等于所述用户的语音信息对应的内容的字符数量。

5.如权利要求2所述的基于声纹的验证方法，其特征在于，所述步骤3具体包括：

将所述朗读语音切割成m段待验证语音片段，每一个待验证语音片段的内容为一个字符，m≤n；

提取每一个待验证语音片段的语音特征；

将所述模型库中对应用户的语音片段根据所述验证密码的内容进行组合，并以组合后的顺序一一对应地与所述朗读语音的待验证语音片段进行语音特征匹配；

若匹配到对应的用户，则匹配成功，否则匹配失败。

6.如权利要求2所述的基于声纹的验证方法，其特征在于，所述步骤3具体包括：

验证所述朗读语音的内容是否与所述验证密码的内容相同；

若相同，则将所述朗读语音切割成m段待验证语音片段，每一个待验证语音片段的内容为一个字符，m≤n；

提取每一个待验证语音片段的语音特征；

将所述朗读语音的待验证语音片段与所述模型库中的对应用户的语音模型进行语音特征匹配；

若匹配到对应的用户，则匹配成功，否则匹配失败。

7.如权利要求5或6所述的基于声纹的验证方法，其特征在于，当所述待验证语音片段切割失败时，提醒待验证用户并重新采集所述待验证用户的所述朗读语音。

8.如权利要求1所述的基于声纹的验证方法，其特征在于，当所述待验证用户匹配到对应的用户时，根据所述用户所拥有的权限，赋予该待验证用户对应的权限。

9.如权利要求3所述的基于声纹的验证方法，其特征在于，所述模型库和词库为本地的数据库。

10.一种使用了如权利要求1至9任意一项所述的基于声纹的验证方法的装置，包括：用于采集所述语音信息和朗读语音的声音采集模块，用于提取所述语音信息和朗读语音的语音特征的特征提取模块，用于存储所述模型库和字符的存储模块，随机提取所述字符生成所述验证密码的密码生成模块，对所述朗读语音和验证密码进行匹配验证的验证模块。