[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN109545227B - 基于深度自编码网络的说话人性别自动识别方法及系统 - Google Patents

基于深度自编码网络的说话人性别自动识别方法及系统 Download PDF

Info

Publication number
CN109545227B
CN109545227B CN201810402685.0A CN201810402685A CN109545227B CN 109545227 B CN109545227 B CN 109545227B CN 201810402685 A CN201810402685 A CN 201810402685A CN 109545227 B CN109545227 B CN 109545227B
Authority
CN
China
Prior art keywords
speaker
vector
ubm
steps
depth self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810402685.0A
Other languages
English (en)
Other versions
CN109545227A (zh
Inventor
王志锋
段苏容
左明章
田元
闵秋莎
夏丹
叶俊民
陈迪
罗恒
姚璜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN201810402685.0A priority Critical patent/CN109545227B/zh
Publication of CN109545227A publication Critical patent/CN109545227A/zh
Application granted granted Critical
Publication of CN109545227B publication Critical patent/CN109545227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明属于声纹识别技术领域,公开了一种基于深度自编码网络的说话人性别自动识别方法及系统,利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型;提取注册数据的i‑vector;提取测试数据的i‑vector;训练深度自编码网络;模式匹配与识别,并进行模型评估。本发明将深度自编码网络应用于说话人性别识别中,将深度自编码网络强大的学习能力用于表征不同性别的说话人特征,不仅实现了特征的再提取,同时降低了特征维数,从而降低了分类运算时的复杂度。本发明提出的方法可进一步推广应用于说话人识别,尝试提高说话人识别系统的鲁棒性。

Description

基于深度自编码网络的说话人性别自动识别方法及系统
技术领域
本发明属于声纹识别技术领域,尤其涉及一种基于深度自编码网络的说话人性别自动识别方法及系统。
背景技术
目前,业内常用的现有技术是这样的:
说话人性别识别,是利用语音信号中含有的特定性别的说话人信息来自动识别说话者性别的一种生物认证技术,与说话人识别(声纹识别)类似。深度学习模拟了人类大脑处理信息时的分层结构,实质是以多个隐层连接的方式通过非线性变换实现对特征的逐层抽象,构建了从底层特征到高层概念的映射,具有更强大的学习能力。近年来在语音识别领域,深度神经网络(deep neuralnetwork,DNN)被成功应用于声学建模之中,使得语音识别性能有了里程碑式的进展。说话人识别领域也对如何使用DNN对说话人进行建模进行了诸多探索,但由于说话人的类别不固定,每个说话人的训练数据相对较少等问题,取得的效果都十分有限。
目前,深度学习算法应用于说话人识别领域可大致分为三个类别:基于特征提取的,基于映射的以及同时基于特征提取和映射的。第一种方法将深度学习算法应用于说话人注册阶段的特征提取,提取特征后利用传统说话人识别方法如GMM等完成识别映射。第二种方法利用传统方法中提取的声学特征如MFCC作为深度神经网络的输入,将深度神经网络作为分类器完成识别映射。第三种方法同时将深度神经网络应用于特征提取和分类两个阶段完成说话人识别的流程。在以上三大类别中,基于i-vector的方法取得了较好的效果,其中一种是将深度网络应用于i-vector的提取阶段,另一种是提取i-vector后再利用深度网络作为分类器完成最后的识别。本发明属于后一种,基于i-vector和深度网络分类器实现声纹识别。
综上所述,现有技术存在的问题是:
在基于i-vector的现有技术中,多应用深度信念网络(DBN)进行模型构建,没有利用深度自编码网络(SAE)对i-vector进行特征再提取并最终完成分类识别。
决上述技术问题的意义:
本发明的意义在于,实现了基于i-vector的深度自编码网络说话人性别识别系统,利用深度自编码网络的表征能力进一步提取不同性别说话人的声纹信息,同时降低了特征维度,降低分类算法计算复杂度,该方法可进一步推广至说话人识别领域。
深层自编码器主要用于完成数据转换的学习任务,本质为无监督学习的非线性特征提取模型,学习过程由无监督预训练和有监督调优两阶段构成。最基本的自编码网络是一个关于中间层对称的前馈神经网络,包括输入层、输出层和一个隐层,其目标是实现期望输出与输入相同,即它的每一层都是输入的一种特征表示,可用于学习恒等映射并抽取无监督特征。经过多层训练后,自编码器就能从原始数据中提炼出精髓的特征,后可构建一个基于这部分精髓特征的神经网络,或是添加一个如SVM或LR的分类器,即可高效地实现分类。
发明内容
针对现有技术存在的问题,本发明提供了一种基于深度自编码网络的说话人性别自动识别方法及系统。
本发明是这样实现的,一种基于深度自编码网络的说话人性别自动识别方法包括:
训练阶段,首先对训练集语音信号进行预处理及Mel倒谱系数特征提取,后利用大量与特定说话人及信道无关的语音数据训练UBM通用背景模型;基于UBM通用背景模型和特定说话人的语音信号提取i-vector;利用自编码网络对i-vector进行特征再提取,同时降低i-vector维度,将表征后的特征作为分类器的输入(分类器可为神经网络或其他分类算法)完成识别分类。
测试阶段,用与训练阶段相同的方式对测试语音信号进行信号预处理、i-vector提取及自编码特征再提取,用训练好分类器进行分类,后利用分类准确性、AUC、MCC等不同的评价标准评估模型。
若将此方法用于说话人识别,只需将上述说话人性别语音信号换为一定数量的特定说话人语音信号,并对深度网络结构和评估标准作出相应调整即可实现。
进一步,所述的基于深度自编码网络的说话人性别自动识别方法,所述基于深度自编码网络的说话人性别自动识别方法具体包括:
步骤1:利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型;
步骤2:提取注册数据的i-vector;
步骤3:提取测试数据的i-vector;
步骤4:训练深度自编码网络;
步骤5:模式匹配与识别,并进行模型评估。
进一步,步骤1的具体实现包括以下子步骤:
步骤1.1:对与注册说话人及信道均无关的语音信号进行预处理,包括预加重、分帧、加窗;
步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征;
步骤1.3:对步骤1.2中得到的Mel倒谱特征进行全局倒谱均值、方差归一化。
步骤1.4:使用N个混合高斯模型对步骤1.3得到的Mel倒谱特征进行统计建模,利用EM算法得到有N个高斯分量的通用背景模型UBM,包括每个高斯分量的均值超矢量,权重及高斯分量协方差矩阵。
进一步,步骤2的具体实现包括以下子步骤:
步骤2.1:对注册语音信号进行预处理,包括预加重、分帧、加窗;
步骤2.2:将步骤2.1中预处理后的信号提取Mel倒谱系数特征;
步骤2.3:对步骤2.2中得到的Mel倒谱特征进行全局倒谱均值、方差归一化。
步骤2.4:利用步骤2.3得到的特征及步骤1得到的通用背景模型UBM,计算各语音段在UBM的各个GMM混合分量上的零阶和一阶充分统计量(Baum-Welch统计量):
Figure BDA0001646100150000041
Figure BDA0001646100150000042
其中,
Figure BDA0001646100150000043
分别表示语音段k在第c个GMM混合分量上的零阶统计量、一阶统计量;
Figure BDA0001646100150000044
代表语音段k在时间索引t处的声学特征;
Figure BDA0001646100150000045
表示声学特征
Figure BDA0001646100150000046
对第c个GMM混合分量的后验概率;
步骤2.5:利用步骤2.4得到的充分统计量及步骤1得到的通用背景模型UBM的均值超矢量,通过极大似然估计计算得到全变化子空间T
M=m+Tw
其中,M是包含说话人信息和信道信息的GMM均值超矢量;m是UBM的均值超矢量,与说话人和信道均无关;w为只包含说话人信息的低维矢量,即i-vector;
步骤2.6:利用步骤2.4得到的充分统计量、步骤1得到的通用背景模型UBM的均值超矢量以及步骤2.5得到的全变化子空间T进行i-vector提取。
进一步,步骤3的具体实现:对测试数据按照步骤2所涉步骤进行i-vector
提取。
进一步,步骤4的具体实现包括以下子步骤:
步骤4.1:对步骤2得到的特征进行最大最小归一化;
步骤4.2:对所有注册说话人的性别标签进行one-hot编码;
步骤4.3:构建深度自编码网络结构。
步骤4中,当得到训练后的深度自编码网络后,用步骤3得到的测试数据特征进行说话人性别自动识别并利用分类准确率、AUC、MCC三个指标进行模型评估。
本发明的另一目的在于提供一种基于深度自编码网络的说话人性别自动识别控制系统。
综上所述,本发明的优点及积极效果为:
为探索深度神经网络在声纹识别领域的应用,本发明提出一种基于i-vector和深度自编码网络的说话人自动性别方法,实现了深度自编码网络在该领域的应用,该方法可进一步推广应用于说话人识别。
本发明首次将深度自编码网络应用于声纹识别领域,利用深度自编码网络对特征进行再提取,降低了特征维度,从而降低了分类算法计算复杂度,是深度神经网络在该领域的一次探索;
本发明利用了深度神经网络的学习能力,进一步提取不同性别说话人的声纹信息,能提高识别系统的准确率;
本发明提出的方法在实验数据集上实现了98%的说话人性别分类准确率,AUC约为0.995,MCC约为0.96,而传统的基于基频说话人性别识别准确率仅为85%。
本发明将深度自编码网络应用于说话人性别识别中,将深度自编码网络强大的学习能力用于表征不同性别的说话人特征,不仅实现了特征的再提取,同时降低了特征维数,从而降低了分类运算时的复杂度。后期还可将此方法用于说话人识别,尝试提高说话人识别系统的鲁棒性。
附图说明
图1是本发明实施例提供的基于深度自编码网络的说话人性别自动识别方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供了一种基于i-vector和深度自编码网络的说话人性别识别方法。训练阶段,首先训练集语音信号进行预处理及Mel倒谱系数特征提取,后利用大量与特定说话人及信道无关的语音数据训练UBM通用背景模型;基于此UBM和特定说话人的Mel倒谱系数特征提取i-vector;用提取出的i-vector训练深度自编码网络实现男女二分类。测试阶段,用同样的方式进行信号预处理及i-vector提取,用训练好的深度网络进行分类,后利用分类准确性、AUC、MCC三种评价标准评估模型性能。本发明将深度自编码网络应用于说话人性别识别中,将深度自编码网络强大的学习能力用于表征不同性别的说话人特征,不仅实现了特征的再提取,同时降低了特征维数,从而降低了分类运算时的复杂度。后期还可将此方法用于说话人识别,尝试提高说话人识别系统的鲁棒性。
如图1,本发明实施例提供的基于深度自编码网络的说话人性别自动识别方法,包括以下步骤:
步骤1:利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型;
具体实现包括以下子步骤:
步骤1.1:对与注册说话人及信道均无关的语音信号进行预处理,包括预加重、分帧、加窗;
步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征;
步骤1.3:将步骤1.2中得到的Mel倒谱系数进行全局倒谱均值、方差归一化。
步骤1.4:使用N个混合高斯模型对步骤1.3得到的Mel倒谱系数进行统计建模,利用EM算法得到有N个高斯分量的通用背景模型UBM,包括每个高斯分量的均值超矢量,权重及高斯分量协方差矩阵。
本实施例中用与注册说话人及信道均无关的训练集语音信号训练UBM通用背景模型,UBM模型中的GMM混合数应当视实际情况而定,在训练过程中应当兼顾运行速度和准确度两个方面。同时,在训练时需要保证训练数据的均衡,即在该实例中训练数据集的男女比例均等。
步骤2:提取注册数据的i-vector;
具体实现包括以下子步骤:
步骤2.1:对注册语音信号进行预处理,包括预加重、分帧、加窗;
步骤2.2:将步骤2.1中预处理后的信号提取Mel倒谱系数特征;
步骤2.3:将步骤2.2中得到的Mel倒谱系数进行全局倒谱均值、方差归一化。
步骤2.4:利用步骤2.3得到的特征及步骤1得到的通用背景模型UBM,计算各语音段在UBM的各个GMM混合分量上的零阶和一阶充分统计量(Baum-Welch统计量):
Figure BDA0001646100150000071
Figure BDA0001646100150000072
其中,
Figure BDA0001646100150000073
分别表示语音段k在第c个GMM混合分量上的零阶统计量、一阶统计量;
Figure BDA0001646100150000074
代表语音段k在时间索引t处的声学特征;
Figure BDA0001646100150000075
表示声学特征
Figure BDA0001646100150000076
对第c个GMM混合分量的后验概率;
步骤2.5:利用步骤2.4得到的充分统计量及步骤1得到的通用背景模型UBM的均值超矢量,通过极大似然估计计算得到全变化子空间T
M=m+Tw
其中,M是包含说话人信息和信道信息的GMM均值超矢量;m是UBM的均值超矢量,与说话人和信道均无关;w为只包含说话人信息的低维矢量,即i-vector;
步骤2.6:利用步骤2.4得到的充分统计量、步骤1得到的通用背景模型UBM的均值超矢量以及步骤2.5得到的全变化子空间T进行i-vector提取。
本实施例中对注册集说话人语音进行特征提取,注册集说话人与UBM训练集说话人无重叠,以保证UBM模型拟合人的语音特征分布,特定说话人的注册语音信号覆盖不到的特征可用UBM中相似的特征分布来近似。
步骤3:提取测试数据i-vector;具体实现:对测试数据按照步骤2所涉步骤进行i-vector提取。
本实施例中从每个注册说话人的10句语音样本中取9句用于训练,1句作为测试句。
步骤4:训练深度自编码网络;
具体实现包括以下子步骤:
步骤4.1:对步骤2得到的特征进行最大最小归一化,将所有特征数据等比例缩放到0-1区间;
Figure BDA0001646100150000081
步骤4.2:对所有注册说话人的性别标签进行one-hot编码。其编码方法是在对N个状态进行编码时采用N位独立的状态寄存器,在调用时,N位中只有一位为有效编码。对此数据集而言只有0和1两个分类或状态,经过one-hot编码后,变为2个二元互斥特征,每次调用时只激活一种特征。
步骤4.3:构建深度自编码网络结构;
自编码网络是一种无监督学习算法,尝试逼近一个恒等函数:hW,b(x)≈x,使得输出接近于输入,通常包括编码器和解码器两部分,可用两种变换
Figure BDA0001646100150000082
和ψ给出其定义:
Figure BDA0001646100150000083
ψ:F→X
Figure BDA0001646100150000084
编码过程是指把输入x∈Rm映射到隐含表示h(x)=Rn的过程,具体构造过程为:
z=σ(Wx+b)
其中σ为激活函数,在非线性情况下通常取sigmoid函数或tanh函数等。W∈Rn×m为编码权值矩阵,b∈Rn为编码偏置向量。
解码过程是指把隐含表示h(x)映射到输出层,以对输入x进行重建的过程,还原出与输入x尽可能相同的x′:
x′=σ′(W′z+b′)
其中σ′为激活函数,含义与σ相同。W′∈Rm×n为解码权值矩阵,b′∈Rm为解码偏置向量。
则重构误差为
L(x,x′)=||x-x′||2=||x-σ′(W′(σ(Wx+b))+b′)||2
深度自编码网络是包含多个隐含层且关于中间层对称的自编码网络,包含一个输入层,2r-1个隐含层和一个输出层。设输入层包含m个神经元x=(x1,x2,...,xm)T∈Rm;第k个隐层包含nk=n2r-k个神经元(k=1,2,...,2r-1),相应隐含层向量为
Figure BDA0001646100150000091
输出层为x′=(x1′,x2′,...,xm′)T∈Rm,则自编码网络的各层神经元激活输出可表示为:
Figure BDA0001646100150000092
Figure BDA0001646100150000093
x′=σ′(W2rh2r-1+b2r)
其中
Figure BDA0001646100150000094
为输入层与第1个隐含层间的权值矩阵,
Figure BDA0001646100150000095
为第k-1个隐层与第k个隐层之间的权值矩阵,
Figure BDA0001646100150000096
为第2r-1个隐层与输出层间的权值矩阵,b1、bk、b2r为相应偏置向量。
训练时包括无监督预训练和有监督调优两个阶段,无监督预训练,从自编码器的输入层到中间层,把相邻两层看作一个受限玻尔兹曼机,其中每个受限玻尔兹曼机的输出是下一个紧邻受限玻尔兹曼机的输入,采用无监督学习算法(如CD算法、PCD算法等)逐层对所有受限玻尔兹曼机进行训练。从底层的受限玻尔兹曼机开始预训练权值矩阵W1、可视层偏置a1和隐含层偏置b1;然后逐层把第k-1个隐含层和第k个隐含层看作一个受限玻尔兹曼机预训练相应的权值矩阵Wk及偏置ak和bk(1<k≤r);最后,当r<k≤2r时,把预训练好的各个受限玻尔兹曼机反向堆叠,直接构造Wk=(W2r+1-k)T和bk=a2r+1-k,从而得到自编码器的所有初始化权值和偏置。对于上述训练方式,在训练每一层参数的时候,会固定其它各层参数保持不变。
完成无监督预训练后,再采用有监督学习算法对网络的全部参数进行调优。其中,有监督学习算法通常选用BP算法,或随机梯度下降算法、共轭梯度下降算法等,优化的目标函数可以为平方重构误差:
Figure BDA0001646100150000101
或交叉熵函数:
Figure BDA0001646100150000102
其中(xl,yl)(1≤l≤N)为N个训练样本,
Figure BDA0001646100150000103
为期望输出,
Figure BDA0001646100150000104
为实际输出。
为实现分类目的,需在自编码网络后加入单层神经网络或多层感知器。具体做法为,舍弃自编码网络的解码层,把最后一个编码层的输出作为分类神经网络的输入,分类错误的梯度值反向传播给编码层。
本实施例中深度自编码网络构架为四层网络结构,其中两层为自编码层,另外两层为感知器层。自编码网络的编码层将原始输入的400维特征映射压缩为40维,完成特征再提取的过程,感知器层利用40维特征再进行分类,最终输出为2个标签。自编码层利用均方误差作为损失函数,感知器层则使用交叉熵作为损失函数,实际使用中应视情况而定。
步骤5:模式匹配与识别;得到训练好的网络后,将步骤3中得到的测试i-vector作为深度自编码网络的输入,使其实现说话人性别的自动分类,并以分类准确率、AUC、MCC三个指标评估模型。
AUC(Area Under Curve)是一种常常用在二分类模型中的评价指标,定义为ROC曲线下的面积。ROC曲线是基于样本的真实类别和预测概率而作出的,x轴表示伪阳率--FPR(False Positive Rate),y轴表示真阳率--TPR(True Positive Rate),其定义为:
Figure BDA0001646100150000111
分类准确率Accuracy(ACC)定义为:
Figure BDA0001646100150000112
其中
·TP--真正类(True Positives):被预测为正类的正样本
·FP--假正类(False Positives):被预测为正类的负样本
·FN--假负类(False Negatives):被预测为负类的正样本
·TN--真负类(True Negatives):被预测为负类的负样本
ROC曲线在正负样本的分布有所变化时仍能够保持曲线自身的基本不变,当对完全随机的样本进行分类时,AUC接近0.5,AUC的值越接近1,则表示模型预测效果越佳。
MCC,即matthews相关系数,同样是一个适用于二分类模型的评价指标,其定义为:
Figure BDA0001646100150000113
MCC的取值范围为[-1,1],若MCC=-1表示完全相反的预测,MCC=0表示随机预测,MCC=1表示完美的预测,即若MCC越接近于1则表示模型的预测越好。
下面结合仿真实验对本发明作进一步描述。
该实验将本发明所述方法用于TIMIT数据库,UBM训练阶段,分别选取108个男性和72个女性共200人,每个说话人包含10句10s的语音信号,以256为帧长提取12阶MFCC参数,归一化之后训练含64个高斯分量的通用背景模型UBM。
i-vectore提取阶段,选取男女各77人(不同于训练UBM的200人),每个说话人包含10句10s的语音信号,同样以256为帧长提取12阶MFCC参数,基于训练好的UBM提取零阶和一阶充分统计量,后计算维度为400的全变化子空间T,基于UBM和T完成i-vector的提取,得到400维的i-vector。
神经网络训练阶段,将每个说话人10个语音信号中的9个作为训练集,1个作为测试集,对所有特征进行最大最小归一化。设置标签男性标记为1,女性标记为0,并对标签进行one-hot编码。
本实验中分别构建了三层网络(一个自编码层和两个感知分类层)和四层网络(两个堆叠的自编码层和两个感知分类层)。三层网络,自编码网络训练次数5000,分类器训练次数10000,可实现96%的分类准确率,AUC为0.995,MCC为0.9097。四层网络,自编码网络训练次数7000,分类器训练次数25000,可实现98%的分类准确率,AUC为0.9886,MCC为0.961。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于深度自编码网络的说话人性别自动识别方法,其特征在于,所述基于深度自编码网络的说话人性别自动识别方法包括:
训练阶段,首先训练集语音信号进行预处理及Mel倒谱系数特征提取,后利用大量与特定说话人及信道无关的语音数据训练UBM通用背景模型;基于UBM通用背景模型和特定说话人的语音信号提取i-vector;用提取出的i-vector作为深度自编码网络的输入训练自编码器,进一步提炼特征,最后通过分类器实现不同说话人性别分类;
测试阶段,用与训练阶段相同的方式对测试语音信号进行预处理及i-vector提取,用训练好的深度自编码网络进行特征提炼和分类,后利用分类准确性、AUC、MCC三种评价标准评估模型;
所述基于深度自编码网络的说话人性别自动识别方法具体包括:
步骤一:利用与注册说话人及信道均无关的语音信号训练UBM通用背景模型;
步骤二:提取注册数据的i-vector;
步骤三:提取测试数据的i-vector;
步骤四:训练深度自编码网络;
步骤五:模式匹配与识别,并进行模型评估;
步骤四,具体包括:
A):对步骤二得到的特征进行最大最小归一化,将所有特征数据等比例缩放到0-1区间;
Figure FDA0004131144100000011
B):对所有注册说话人的性别标签进行one-hot编码;编码方法为:在对N个状态进行编码时采用N位独立的状态寄存器,调用时,N位中只有一位为有效编码;此数据集只有0和1两个分类或状态,经过one-hot编码后,变为2个二元互斥特征,每次调用时只激活一种特征;
C):构建深度自编码网络结构;深度自编码网络包含一个输入层,2r-1个隐含层和一个输出层;输入层包含m个神经元x=(x1,x2,...,xm)T∈Rm;第k个隐层包含nk=n2r-k个神经元(k=1,2,...,2r-1);隐含层向量为
Figure FDA0004131144100000012
输出层为x′=(x1′,x2′,...,xm′)T∈Rm,自编码网络的各层神经元激活输出表示为:
Figure FDA0004131144100000013
Figure FDA0004131144100000014
x′=σ′(W2rh2r-1+b2r)
其中
Figure FDA0004131144100000023
为输入层与第1个隐含层间的权值矩阵,
Figure FDA0004131144100000024
为第k-1个隐层与第k个隐层之间的权值矩阵,
Figure FDA0004131144100000025
为第2r-1个隐层与输出层间的权值矩阵,b1、bk、b2r为相应偏置向量。
2.如权利要求1所述的基于深度自编码网络的说话人性别自动识别方法,其特征在于,步骤一,具体包括:
1):对与注册说话人及信道均无关的语音信号进行预处理,包括预加重、分帧、加窗;
2):将步骤1)中预处理后的信号提取Mel倒谱系数特征;
3):对步骤2)中得到的Mel倒谱特征进行全局倒谱均值、方差归一化;
4):使用N个混合高斯模型对步骤3)得到的Mel倒谱特征进行统计建模,利用EM算法得到有N个高斯分量的通用背景模型UBM,包括每个高斯分量的均值超矢量,权重及高斯分量协方差矩阵。
3.如权利要求1所述的基于深度自编码网络的说话人性别自动识别方法,其特征在于,步骤二,具体包括:
a):对注册语音信号进行预处理,包括预加重、分帧、加窗;
b):将步骤a)中预处理后的信号提取Mel倒谱系数特征;
c):将步骤b)中得到的Mel倒谱特征进行全局倒谱均值、方差归一化;
d):利用步骤c)得到的特征及步骤一得到的通用背景模型UBM,计算各语音段在UBM的各个GMM混合分量上的零阶和一阶充分统计量:
Figure FDA0004131144100000021
Figure FDA0004131144100000022
其中,
Figure FDA0004131144100000026
分别表示语音段k在第c个GMM混合分量上的零阶统计量、一阶统计量;
Figure FDA0004131144100000027
代表语音段k在时间索引t处的声学特征;
Figure FDA0004131144100000028
表示声学特征
Figure FDA0004131144100000029
对第c个GMM混合分量的后验概率;
e):利用步骤d)得到的充分统计量及步骤一得到的通用背景模型UBM的均值超矢量,通过极大似然估计计算得到全变化子空间TM=m+Tw
其中,M是包含说话人信息和信道信息的GMM均值超矢量;m是UBM的均值超矢量,与说话人和信道均无关;w为只包含说话人信息的低维矢量i-vector;
f):利用步骤d)得到的充分统计量、步骤一得到的通用背景模型UBM的均值超矢量以及步骤e)得到的全变化子空间T进行i-vector提取。
4.一种如权利要求1所述的基于深度自编码网络的说话人性别自动识别方法的基于深度自编码网络的说话人性别自动识别控制系统。
CN201810402685.0A 2018-04-28 2018-04-28 基于深度自编码网络的说话人性别自动识别方法及系统 Active CN109545227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810402685.0A CN109545227B (zh) 2018-04-28 2018-04-28 基于深度自编码网络的说话人性别自动识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810402685.0A CN109545227B (zh) 2018-04-28 2018-04-28 基于深度自编码网络的说话人性别自动识别方法及系统

Publications (2)

Publication Number Publication Date
CN109545227A CN109545227A (zh) 2019-03-29
CN109545227B true CN109545227B (zh) 2023-05-09

Family

ID=65830729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810402685.0A Active CN109545227B (zh) 2018-04-28 2018-04-28 基于深度自编码网络的说话人性别自动识别方法及系统

Country Status (1)

Country Link
CN (1) CN109545227B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109920435B (zh) * 2019-04-09 2021-04-06 厦门快商通信息咨询有限公司 一种声纹识别方法及声纹识别装置
CN110187321B (zh) * 2019-05-30 2022-07-22 电子科技大学 基于深度学习的复杂环境下雷达辐射源特征参数提取方法
CN110136726A (zh) * 2019-06-20 2019-08-16 厦门市美亚柏科信息股份有限公司 一种语音性别的估计方法、装置、系统及存储介质
CN110427978B (zh) * 2019-07-10 2022-01-11 清华大学 面向小样本学习的变分自编码器网络模型和装置
CN112331181B (zh) * 2019-07-30 2024-07-05 中国科学院声学研究所 一种基于多说话人条件下目标说话人语音提取方法
CN110473557B (zh) * 2019-08-22 2021-05-28 浙江树人学院(浙江树人大学) 一种基于深度自编码器的语音信号编解码方法
CN111161744B (zh) * 2019-12-06 2023-04-28 华南理工大学 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN111161713A (zh) * 2019-12-20 2020-05-15 北京皮尔布莱尼软件有限公司 一种语音性别识别方法、装置及计算设备
CN111798875A (zh) * 2020-07-21 2020-10-20 杭州芯声智能科技有限公司 一种基于三值量化压缩的vad实现方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2579332A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and system for detecting speaker change in a voice transaction
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
WO2017113680A1 (zh) * 2015-12-30 2017-07-06 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003036097A (ja) * 2001-07-25 2003-02-07 Sony Corp 情報検出装置及び方法、並びに情報検索装置及び方法
CN101833951B (zh) * 2010-03-04 2011-11-09 清华大学 用于说话人识别的多背景模型建立方法
US9502038B2 (en) * 2013-01-28 2016-11-22 Tencent Technology (Shenzhen) Company Limited Method and device for voiceprint recognition
US9978388B2 (en) * 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
KR101843074B1 (ko) * 2016-10-07 2018-03-28 서울대학교산학협력단 Vae를 이용한 화자 인식 특징 추출 방법 및 시스템
CN107784215B (zh) * 2017-10-13 2018-10-26 上海交通大学 基于智能终端的声音装置进行唇读的用户认证方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2579332A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and system for detecting speaker change in a voice transaction
CN104732978A (zh) * 2015-03-12 2015-06-24 上海交通大学 基于联合深度学习的文本相关的说话人识别方法
WO2017113680A1 (zh) * 2015-12-30 2017-07-06 百度在线网络技术(北京)有限公司 声纹认证处理方法及装置
CN107146615A (zh) * 2017-05-16 2017-09-08 南京理工大学 基于匹配模型二次识别的语音识别方法及系统

Also Published As

Publication number Publication date
CN109545227A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109545227B (zh) 基于深度自编码网络的说话人性别自动识别方法及系统
Liu et al. Deep feature for text-dependent speaker verification
US11908457B2 (en) Orthogonally constrained multi-head attention for speech tasks
CN110164452A (zh) 一种声纹识别的方法、模型训练的方法以及服务器
Mingote et al. Optimization of the area under the ROC curve using neural network supervectors for text-dependent speaker verification
CN112863521B (zh) 一种基于互信息估计的说话人识别方法
Bhardwaj et al. GFM-based methods for speaker identification
CN111091809B (zh) 一种深度特征融合的地域性口音识别方法及装置
CN111598113A (zh) 模型优化方法、数据识别方法和数据识别装置
CN111462762B (zh) 一种说话人向量正则化方法、装置、电子设备和存储介质
Lei et al. Speaker Recognition Using Wavelet Cepstral Coefficient, I‐Vector, and Cosine Distance Scoring and Its Application for Forensics
CN110246509B (zh) 一种用于语音测谎的栈式去噪自编码器及深度神经网络结构
Chakroun et al. A deep learning approach for text-independent speaker recognition with short utterances
CN113345464B (zh) 语音提取方法、系统、设备及存储介质
Azam et al. Speaker verification using adapted bounded Gaussian mixture model
Ivanko et al. An experimental analysis of different approaches to audio–visual speech recognition and lip-reading
CN115101077A (zh) 一种声纹检测模型训练方法及声纹识别方法
CN113450806A (zh) 语音检测模型的训练方法以及相关方法、装置、设备
Anand et al. Text-independent speaker recognition for Ambient Intelligence applications by using information set features
Mohammadi et al. Weighted X-vectors for robust text-independent speaker verification with multiple enrollment utterances
Deroy Exploiting Machine Learning Techniques for Unsupervised Clustering of Speech Utterances
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
Dennis et al. Generalized Hough transform for speech pattern classification
Namburi Speaker Recognition Based on Mutated Monarch Butterfly Optimization Configured Artificial Neural Network
Moonasar et al. A committee of neural networks for automatic speaker recognition (ASR) systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant