CN109545227B

CN109545227B - 基于深度自编码网络的说话人性别自动识别方法及系统

Info

Publication number: CN109545227B
Application number: CN201810402685.0A
Authority: CN
Inventors: 王志锋; 段苏容; 左明章; 田元; 闵秋莎; 夏丹; 叶俊民; 陈迪; 罗恒; 姚璜
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2018-04-28
Filing date: 2018-04-28
Publication date: 2023-05-09
Anticipated expiration: 2038-04-28
Also published as: CN109545227A

Abstract

本发明属于声纹识别技术领域，公开了一种基于深度自编码网络的说话人性别自动识别方法及系统，利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型；提取注册数据的i‑vector；提取测试数据的i‑vector；训练深度自编码网络；模式匹配与识别，并进行模型评估。本发明将深度自编码网络应用于说话人性别识别中，将深度自编码网络强大的学习能力用于表征不同性别的说话人特征，不仅实现了特征的再提取，同时降低了特征维数，从而降低了分类运算时的复杂度。本发明提出的方法可进一步推广应用于说话人识别，尝试提高说话人识别系统的鲁棒性。

Description

基于深度自编码网络的说话人性别自动识别方法及系统

技术领域

本发明属于声纹识别技术领域，尤其涉及一种基于深度自编码网络的说话人性别自动识别方法及系统。

背景技术

目前，业内常用的现有技术是这样的:

说话人性别识别，是利用语音信号中含有的特定性别的说话人信息来自动识别说话者性别的一种生物认证技术，与说话人识别(声纹识别)类似。深度学习模拟了人类大脑处理信息时的分层结构，实质是以多个隐层连接的方式通过非线性变换实现对特征的逐层抽象，构建了从底层特征到高层概念的映射，具有更强大的学习能力。近年来在语音识别领域,深度神经网络(deep neuralnetwork,DNN)被成功应用于声学建模之中,使得语音识别性能有了里程碑式的进展。说话人识别领域也对如何使用DNN对说话人进行建模进行了诸多探索,但由于说话人的类别不固定,每个说话人的训练数据相对较少等问题,取得的效果都十分有限。

目前，深度学习算法应用于说话人识别领域可大致分为三个类别：基于特征提取的，基于映射的以及同时基于特征提取和映射的。第一种方法将深度学习算法应用于说话人注册阶段的特征提取，提取特征后利用传统说话人识别方法如GMM等完成识别映射。第二种方法利用传统方法中提取的声学特征如MFCC作为深度神经网络的输入，将深度神经网络作为分类器完成识别映射。第三种方法同时将深度神经网络应用于特征提取和分类两个阶段完成说话人识别的流程。在以上三大类别中，基于i-vector的方法取得了较好的效果，其中一种是将深度网络应用于i-vector的提取阶段，另一种是提取i-vector后再利用深度网络作为分类器完成最后的识别。本发明属于后一种，基于i-vector和深度网络分类器实现声纹识别。

综上所述，现有技术存在的问题是:

在基于i-vector的现有技术中，多应用深度信念网络(DBN)进行模型构建，没有利用深度自编码网络(SAE)对i-vector进行特征再提取并最终完成分类识别。

解决上述技术问题的意义:

本发明的意义在于，实现了基于i-vector的深度自编码网络说话人性别识别系统，利用深度自编码网络的表征能力进一步提取不同性别说话人的声纹信息,同时降低了特征维度，降低分类算法计算复杂度，该方法可进一步推广至说话人识别领域。

深层自编码器主要用于完成数据转换的学习任务,本质为无监督学习的非线性特征提取模型，学习过程由无监督预训练和有监督调优两阶段构成。最基本的自编码网络是一个关于中间层对称的前馈神经网络，包括输入层、输出层和一个隐层，其目标是实现期望输出与输入相同，即它的每一层都是输入的一种特征表示，可用于学习恒等映射并抽取无监督特征。经过多层训练后，自编码器就能从原始数据中提炼出精髓的特征，后可构建一个基于这部分精髓特征的神经网络，或是添加一个如SVM或LR的分类器，即可高效地实现分类。

发明内容

针对现有技术存在的问题，本发明提供了一种基于深度自编码网络的说话人性别自动识别方法及系统。

本发明是这样实现的，一种基于深度自编码网络的说话人性别自动识别方法包括：

训练阶段，首先对训练集语音信号进行预处理及Mel倒谱系数特征提取，后利用大量与特定说话人及信道无关的语音数据训练UBM通用背景模型；基于UBM通用背景模型和特定说话人的语音信号提取i-vector；利用自编码网络对i-vector进行特征再提取，同时降低i-vector维度，将表征后的特征作为分类器的输入(分类器可为神经网络或其他分类算法)完成识别分类。

测试阶段，用与训练阶段相同的方式对测试语音信号进行信号预处理、i-vector提取及自编码特征再提取，用训练好分类器进行分类，后利用分类准确性、AUC、MCC等不同的评价标准评估模型。

若将此方法用于说话人识别，只需将上述说话人性别语音信号换为一定数量的特定说话人语音信号，并对深度网络结构和评估标准作出相应调整即可实现。

进一步，所述的基于深度自编码网络的说话人性别自动识别方法，所述基于深度自编码网络的说话人性别自动识别方法具体包括：

步骤1：利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型；

步骤2：提取注册数据的i-vector；

步骤3：提取测试数据的i-vector；

步骤4：训练深度自编码网络；

步骤5：模式匹配与识别，并进行模型评估。

进一步，步骤1的具体实现包括以下子步骤：

步骤1.1：对与注册说话人及信道均无关的语音信号进行预处理，包括预加重、分帧、加窗；

步骤1.2：将步骤1.1中预处理后的信号提取Mel倒谱系数特征；

步骤1.3：对步骤1.2中得到的Mel倒谱特征进行全局倒谱均值、方差归一化。

步骤1.4：使用N个混合高斯模型对步骤1.3得到的Mel倒谱特征进行统计建模，利用EM算法得到有N个高斯分量的通用背景模型UBM，包括每个高斯分量的均值超矢量，权重及高斯分量协方差矩阵。

进一步，步骤2的具体实现包括以下子步骤：

步骤2.1：对注册语音信号进行预处理，包括预加重、分帧、加窗；

步骤2.2：将步骤2.1中预处理后的信号提取Mel倒谱系数特征；

步骤2.3：对步骤2.2中得到的Mel倒谱特征进行全局倒谱均值、方差归一化。

步骤2.4：利用步骤2.3得到的特征及步骤1得到的通用背景模型UBM，计算各语音段在UBM的各个GMM混合分量上的零阶和一阶充分统计量(Baum-Welch统计量)：

其中，

分别表示语音段k在第c个GMM混合分量上的零阶统计量、一阶统计量；

代表语音段k在时间索引t处的声学特征；

表示声学特征

对第c个GMM混合分量的后验概率；

步骤2.5：利用步骤2.4得到的充分统计量及步骤1得到的通用背景模型UBM的均值超矢量，通过极大似然估计计算得到全变化子空间T

M＝m+Tw

其中，M是包含说话人信息和信道信息的GMM均值超矢量；m是UBM的均值超矢量，与说话人和信道均无关；w为只包含说话人信息的低维矢量，即i-vector；

步骤2.6：利用步骤2.4得到的充分统计量、步骤1得到的通用背景模型UBM的均值超矢量以及步骤2.5得到的全变化子空间T进行i-vector提取。

进一步，步骤3的具体实现：对测试数据按照步骤2所涉步骤进行i-vector

提取。

进一步，步骤4的具体实现包括以下子步骤：

步骤4.1：对步骤2得到的特征进行最大最小归一化；

步骤4.2：对所有注册说话人的性别标签进行one-hot编码；

步骤4.3：构建深度自编码网络结构。

步骤4中，当得到训练后的深度自编码网络后，用步骤3得到的测试数据特征进行说话人性别自动识别并利用分类准确率、AUC、MCC三个指标进行模型评估。

本发明的另一目的在于提供一种基于深度自编码网络的说话人性别自动识别控制系统。

综上所述，本发明的优点及积极效果为：

为探索深度神经网络在声纹识别领域的应用，本发明提出一种基于i-vector和深度自编码网络的说话人自动性别方法，实现了深度自编码网络在该领域的应用，该方法可进一步推广应用于说话人识别。

本发明首次将深度自编码网络应用于声纹识别领域，利用深度自编码网络对特征进行再提取，降低了特征维度，从而降低了分类算法计算复杂度，是深度神经网络在该领域的一次探索；

本发明利用了深度神经网络的学习能力，进一步提取不同性别说话人的声纹信息，能提高识别系统的准确率；

本发明提出的方法在实验数据集上实现了98％的说话人性别分类准确率，AUC约为0.995，MCC约为0.96，而传统的基于基频说话人性别识别准确率仅为85％。

本发明将深度自编码网络应用于说话人性别识别中，将深度自编码网络强大的学习能力用于表征不同性别的说话人特征，不仅实现了特征的再提取，同时降低了特征维数，从而降低了分类运算时的复杂度。后期还可将此方法用于说话人识别，尝试提高说话人识别系统的鲁棒性。

附图说明

图1是本发明实施例提供的基于深度自编码网络的说话人性别自动识别方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供了一种基于i-vector和深度自编码网络的说话人性别识别方法。训练阶段，首先训练集语音信号进行预处理及Mel倒谱系数特征提取，后利用大量与特定说话人及信道无关的语音数据训练UBM通用背景模型；基于此UBM和特定说话人的Mel倒谱系数特征提取i-vector；用提取出的i-vector训练深度自编码网络实现男女二分类。测试阶段，用同样的方式进行信号预处理及i-vector提取，用训练好的深度网络进行分类，后利用分类准确性、AUC、MCC三种评价标准评估模型性能。本发明将深度自编码网络应用于说话人性别识别中，将深度自编码网络强大的学习能力用于表征不同性别的说话人特征，不仅实现了特征的再提取，同时降低了特征维数，从而降低了分类运算时的复杂度。后期还可将此方法用于说话人识别，尝试提高说话人识别系统的鲁棒性。

如图1，本发明实施例提供的基于深度自编码网络的说话人性别自动识别方法，包括以下步骤：

具体实现包括以下子步骤：

步骤1.2：将步骤1.1中预处理后的信号提取Mel倒谱系数特征；

步骤1.3：将步骤1.2中得到的Mel倒谱系数进行全局倒谱均值、方差归一化。

步骤1.4：使用N个混合高斯模型对步骤1.3得到的Mel倒谱系数进行统计建模，利用EM算法得到有N个高斯分量的通用背景模型UBM，包括每个高斯分量的均值超矢量，权重及高斯分量协方差矩阵。

本实施例中用与注册说话人及信道均无关的训练集语音信号训练UBM通用背景模型，UBM模型中的GMM混合数应当视实际情况而定，在训练过程中应当兼顾运行速度和准确度两个方面。同时，在训练时需要保证训练数据的均衡，即在该实例中训练数据集的男女比例均等。

步骤2：提取注册数据的i-vector；

具体实现包括以下子步骤：

步骤2.2：将步骤2.1中预处理后的信号提取Mel倒谱系数特征；

步骤2.3：将步骤2.2中得到的Mel倒谱系数进行全局倒谱均值、方差归一化。

其中，

代表语音段k在时间索引t处的声学特征；

表示声学特征

对第c个GMM混合分量的后验概率；

M＝m+Tw

本实施例中对注册集说话人语音进行特征提取，注册集说话人与UBM训练集说话人无重叠，以保证UBM模型拟合人的语音特征分布，特定说话人的注册语音信号覆盖不到的特征可用UBM中相似的特征分布来近似。

步骤3：提取测试数据i-vector；具体实现：对测试数据按照步骤2所涉步骤进行i-vector提取。

本实施例中从每个注册说话人的10句语音样本中取9句用于训练，1句作为测试句。

步骤4：训练深度自编码网络；

具体实现包括以下子步骤：

步骤4.1：对步骤2得到的特征进行最大最小归一化,将所有特征数据等比例缩放到0-1区间；

步骤4.2：对所有注册说话人的性别标签进行one-hot编码。其编码方法是在对N个状态进行编码时采用N位独立的状态寄存器，在调用时，N位中只有一位为有效编码。对此数据集而言只有0和1两个分类或状态，经过one-hot编码后，变为2个二元互斥特征，每次调用时只激活一种特征。

步骤4.3：构建深度自编码网络结构；

自编码网络是一种无监督学习算法，尝试逼近一个恒等函数：h_W,b(x)≈x，使得输出接近于输入，通常包括编码器和解码器两部分，可用两种变换

和ψ给出其定义：

ψ:F→X

编码过程是指把输入x∈R^m映射到隐含表示h(x)＝Rⁿ的过程，具体构造过程为：

z＝σ(Wx+b)

其中σ为激活函数，在非线性情况下通常取sigmoid函数或tanh函数等。W∈R^n×m为编码权值矩阵，b∈Rⁿ为编码偏置向量。

解码过程是指把隐含表示h(x)映射到输出层，以对输入x进行重建的过程，还原出与输入x尽可能相同的x′：

x′＝σ′(W′z+b′)

其中σ′为激活函数，含义与σ相同。W′∈R^m×n为解码权值矩阵，b′∈R^m为解码偏置向量。

则重构误差为

L(x,x′)＝||x-x′||²＝||x-σ′(W′(σ(Wx+b))+b′)||²

深度自编码网络是包含多个隐含层且关于中间层对称的自编码网络，包含一个输入层，2r-1个隐含层和一个输出层。设输入层包含m个神经元x＝(x₁,x₂,...,x_m)^T∈R^m；第k个隐层包含n_k＝n_2r-k个神经元(k＝1,2,...,2r-1)，相应隐含层向量为

输出层为x′＝(x₁′,x₂′,...,x_m′)^T∈R^m，则自编码网络的各层神经元激活输出可表示为：

x′＝σ′(W^2rh_2r-1+b^2r)

其中

为输入层与第1个隐含层间的权值矩阵，

为第k-1个隐层与第k个隐层之间的权值矩阵，

为第2r-1个隐层与输出层间的权值矩阵，b¹、b^k、b^2r为相应偏置向量。

训练时包括无监督预训练和有监督调优两个阶段，无监督预训练，从自编码器的输入层到中间层，把相邻两层看作一个受限玻尔兹曼机，其中每个受限玻尔兹曼机的输出是下一个紧邻受限玻尔兹曼机的输入，采用无监督学习算法(如CD算法、PCD算法等)逐层对所有受限玻尔兹曼机进行训练。从底层的受限玻尔兹曼机开始预训练权值矩阵W¹、可视层偏置a¹和隐含层偏置b¹；然后逐层把第k-1个隐含层和第k个隐含层看作一个受限玻尔兹曼机预训练相应的权值矩阵W^k及偏置a^k和b^k(1＜k≤r)；最后，当r＜k≤2r时，把预训练好的各个受限玻尔兹曼机反向堆叠，直接构造W^k＝(W^2r+1-k)^T和b^k＝a^2r+1-k，从而得到自编码器的所有初始化权值和偏置。对于上述训练方式，在训练每一层参数的时候，会固定其它各层参数保持不变。

完成无监督预训练后，再采用有监督学习算法对网络的全部参数进行调优。其中，有监督学习算法通常选用BP算法，或随机梯度下降算法、共轭梯度下降算法等，优化的目标函数可以为平方重构误差：

或交叉熵函数：

其中(x^l,y^l)(1≤l≤N)为N个训练样本，

为期望输出，

为实际输出。

为实现分类目的，需在自编码网络后加入单层神经网络或多层感知器。具体做法为，舍弃自编码网络的解码层，把最后一个编码层的输出作为分类神经网络的输入，分类错误的梯度值反向传播给编码层。

本实施例中深度自编码网络构架为四层网络结构，其中两层为自编码层，另外两层为感知器层。自编码网络的编码层将原始输入的400维特征映射压缩为40维，完成特征再提取的过程，感知器层利用40维特征再进行分类，最终输出为2个标签。自编码层利用均方误差作为损失函数，感知器层则使用交叉熵作为损失函数，实际使用中应视情况而定。

步骤5：模式匹配与识别；得到训练好的网络后，将步骤3中得到的测试i-vector作为深度自编码网络的输入，使其实现说话人性别的自动分类，并以分类准确率、AUC、MCC三个指标评估模型。

AUC(Area Under Curve)是一种常常用在二分类模型中的评价指标，定义为ROC曲线下的面积。ROC曲线是基于样本的真实类别和预测概率而作出的,x轴表示伪阳率--FPR(False Positive Rate)，y轴表示真阳率--TPR(True Positive Rate)，其定义为：

分类准确率Accuracy(ACC)定义为：

其中

·TP--真正类(True Positives)：被预测为正类的正样本

·FP--假正类(False Positives)：被预测为正类的负样本

·FN--假负类(False Negatives)：被预测为负类的正样本

·TN--真负类(True Negatives)：被预测为负类的负样本

ROC曲线在正负样本的分布有所变化时仍能够保持曲线自身的基本不变,当对完全随机的样本进行分类时，AUC接近0.5，AUC的值越接近1，则表示模型预测效果越佳。

MCC，即matthews相关系数,同样是一个适用于二分类模型的评价指标，其定义为：

MCC的取值范围为[-1,1]，若MCC＝-1表示完全相反的预测，MCC＝0表示随机预测，MCC＝1表示完美的预测，即若MCC越接近于1则表示模型的预测越好。

下面结合仿真实验对本发明作进一步描述。

该实验将本发明所述方法用于TIMIT数据库，UBM训练阶段，分别选取108个男性和72个女性共200人，每个说话人包含10句10s的语音信号，以256为帧长提取12阶MFCC参数，归一化之后训练含64个高斯分量的通用背景模型UBM。

i-vectore提取阶段，选取男女各77人(不同于训练UBM的200人)，每个说话人包含10句10s的语音信号，同样以256为帧长提取12阶MFCC参数，基于训练好的UBM提取零阶和一阶充分统计量，后计算维度为400的全变化子空间T，基于UBM和T完成i-vector的提取，得到400维的i-vector。

神经网络训练阶段，将每个说话人10个语音信号中的9个作为训练集，1个作为测试集，对所有特征进行最大最小归一化。设置标签男性标记为1，女性标记为0，并对标签进行one-hot编码。

本实验中分别构建了三层网络(一个自编码层和两个感知分类层)和四层网络(两个堆叠的自编码层和两个感知分类层)。三层网络，自编码网络训练次数5000，分类器训练次数10000，可实现96％的分类准确率，AUC为0.995，MCC为0.9097。四层网络，自编码网络训练次数7000，分类器训练次数25000，可实现98％的分类准确率，AUC为0.9886，MCC为0.961。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度自编码网络的说话人性别自动识别方法，其特征在于，所述基于深度自编码网络的说话人性别自动识别方法包括：

训练阶段，首先训练集语音信号进行预处理及Mel倒谱系数特征提取，后利用大量与特定说话人及信道无关的语音数据训练UBM通用背景模型；基于UBM通用背景模型和特定说话人的语音信号提取i-vector；用提取出的i-vector作为深度自编码网络的输入训练自编码器，进一步提炼特征，最后通过分类器实现不同说话人性别分类；

测试阶段，用与训练阶段相同的方式对测试语音信号进行预处理及i-vector提取，用训练好的深度自编码网络进行特征提炼和分类，后利用分类准确性、AUC、MCC三种评价标准评估模型；

所述基于深度自编码网络的说话人性别自动识别方法具体包括：

步骤一：利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型；

步骤二：提取注册数据的i-vector；

步骤三：提取测试数据的i-vector；

步骤四：训练深度自编码网络；

步骤五：模式匹配与识别，并进行模型评估；

步骤四，具体包括：

A)：对步骤二得到的特征进行最大最小归一化,将所有特征数据等比例缩放到0-1区间；