[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111161744B - 同时优化深度表征学习与说话人类别估计的说话人聚类方法 - Google Patents

同时优化深度表征学习与说话人类别估计的说话人聚类方法 Download PDF

Info

Publication number
CN111161744B
CN111161744B CN201911239006.3A CN201911239006A CN111161744B CN 111161744 B CN111161744 B CN 111161744B CN 201911239006 A CN201911239006 A CN 201911239006A CN 111161744 B CN111161744 B CN 111161744B
Authority
CN
China
Prior art keywords
layer
speaker
output
self
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911239006.3A
Other languages
English (en)
Other versions
CN111161744A (zh
Inventor
李艳雄
王武城
刘名乐
江钟杰
陈昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201911239006.3A priority Critical patent/CN111161744B/zh
Publication of CN111161744A publication Critical patent/CN111161744A/zh
Application granted granted Critical
Publication of CN111161744B publication Critical patent/CN111161744B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,步骤如下:对聚类语音样本进行预处理,提取I‑vector特征,训练卷积自编码网络并提取深度表征特征;根据深度表征特征构造初始类,得到类别数和初始类标签;在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,Softmax层用于估计说话人类别;将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数,迭代更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果,获得比传统方法更优的说话人聚类效果。

Description

同时优化深度表征学习与说话人类别估计的说话人聚类方法
技术领域
本发明涉及说话人聚类与声纹识别技术领域,具体涉及一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。
背景技术
近年来,随着深度学习技术的发展,声纹识别技术得到了飞跃进步。从传统的I-vector特征到基于深度特征变换的d-vector和x-vector特征,声纹识别已经从理论研究步入了实际应用,例如网络银行身份认证、犯罪侦查、机器人声纹唤醒、设备声纹解锁等等。
但训练一个大型的声纹识别模型除了需要充足的训练数据以外,还需要知道每个样本所对应的说话人是哪一个。在实际应用中,训练数据可能来自于电话录音,视频网站等途径,如果要将从这些途径获得的数据全部进行人工标注,需要非常高的人力成本,且标注结果极有可能存在偏差。因此,在未知样本类别的前提下,对大量未知说话人的样本进行聚类,将说话人聚类结果作为各语音样本的标签,降低人工标注成本。
发明内容
本发明的目的是为了解决现有说话人聚类方法存在的以下不足:特征提取步骤与说话人聚类步骤独立进行,所提取的特征对聚类算法并不友好,不能得到较优的聚类结果,利用深度卷积自编码网络提取特征的优越性,提供了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。
本发明的目的可以通过采取如下技术方案达到:
一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,包括以下步骤:
S1、对读入的待聚类语音样本进行预处理,提取I-vector特征;
S2、训练卷积自编码网络并从各语音样本提取深度表征特征;
S3、根据各语音样本的深度表征特征构造初始类;
S4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;
S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。
进一步地,在步骤S1中,对读入的待聚类语音样本进行预处理,提取I-vector特征的过程如下:
S1.1、将信号通过一阶高通滤波器进行预加重,并使用汉明窗进行分帧;
S1.2、对经过预处理的时域信号进行傅里叶变换,得到频域信号;
S1.3、对频域信号进行梅尔滤波并取对数能量谱,将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数MFCC特征(Mel Frequency Cepstral Coefficients,MFCC);
S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示:
Figure BDA0002305671830000021
其中ωm表示第m个高斯分量的权重,
Figure BDA0002305671830000022
pm(xt)表示高斯混合模型第m个高斯分量的分布函数:
Figure BDA0002305671830000031
其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:
Figure BDA0002305671830000032
用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωmmm}m=1,2,...,M;
S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。
进一步地,在步骤S2中,训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下:
S2.1、各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为
Figure BDA0002305671830000033
其中,
Figure BDA0002305671830000034
i=1,2,…,N是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,随机选取一定比例的编码器输出层的神经元并使之失活(置零),编码器各层的输出定义为:
Figure BDA0002305671830000035
其中,
Figure BDA0002305671830000041
是第i个语音样本在编码器第h层的深度表征特征,We h
Figure BDA0002305671830000042
是编码器第h层的权重和偏置,Dr[·]是随机失活操作,ψ(·)是激活函数,这里使用修正线性整流单元,定义为:
ψ(x)=max(0,x),
经编码、解码之后的输出记为
Figure BDA0002305671830000043
自编码网络的输入和输出是维度相同的矩阵,自编码网络的训练误差定义为输入和输出之间的均方误差:
Figure BDA0002305671830000044
在训练误差收敛之后退出训练,并保存联合优化框架的参数;
S2.2、去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练完毕的自编码网络,在编码器的终端输出对应的深度表征特征。
进一步地,在步骤S3中,根据各语音样本的深度表征特征构造初始类的具体过程如下:
S3.1、将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离;
S3.2、寻找各个类之间距离最近的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;
S3.3、重新计算上述新类和各个旧类之间的欧式距离;
S3.4、重复S3.2和S3.3,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。
进一步地,在步骤S4中,根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架的具体过程为:
S4.1、将S个说话人记作S个聚类簇,根据类别估计的结果,将S个簇依次标记为0,1,...,S-1,归属于同一个簇的样本具有相同的标签;
S4.2、为了给聚类算法提供更好的深度表征特征,在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层,构成单输入、双输出端的网络结构,如图2所示,其中,深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1,解码层3的另一输出端依次连接全连接层和Softmax层,特征输入到编码层1,解码层1的输出作为第二输出端口,Softmax层的输出端作为第一输出端口,其中,第一输出端口(即图2中“输出1”)是Softmax层的预测类别输出,第二输出端口(即图2中“输出2”)是解码层1对编码层1的特征输入的重构。
进一步地,所述的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层,且编码层1、编码层2、编码层3的输出端都进行随机失活操作。
进一步地,步骤S5中,将卷积自编码网络的重构误差与Softmax层的类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本的过程如下:
S5.1、联合优化框架的误差函数表达式如下:
Figure BDA0002305671830000051
其中,第一项
Figure BDA0002305671830000052
表示自编码网络重构误差,第二项
Figure BDA0002305671830000053
为聚类误差,α1和α2表示权重系数,调整这两个值使训练目标偏向于优化深度表征学习,为聚类算法生成更优的表征特征,pis和qis分别表示预测结果和标签中第i个样本的特征
Figure BDA0002305671830000061
属于第s个簇的概率,pis定义为:
Figure BDA0002305671830000062
其中,
Figure BDA0002305671830000064
是Softmax层的参数,T表示转置操作,qis定义为:
Figure BDA0002305671830000063
pi's表第i'个样本属于第s个簇的概率,pis'表示第i个样本属于第s'个簇的概率,pi's'表示第i'个样本属于第s'个簇的概率。
S5.2、使用梯度下降法迭代更新联合优化框架参数,随着联合优化框架参数的更新,深度表征特征也随之更新,Softmax层的预测输出结果也在不断改变,设置训练时的误差函数的阈值L0,当满足Loss<L0时退出训练,此时Softmax层的输出为最终说话人聚类结果。
本发明相对于现有技术具有如下的优点及效果:
1.本发明采用深度卷积自编码网络提取深度变换特征,比传统时频特征更有效刻画说话人的特性差异;
2.本发明采用深度神经网络学习框架进行说话人类别估计,从而实现说话人聚类,比传统的浅层说话人聚类模型具有更优的聚类性能;
3.本发明将深度表征学习步骤与说话人类别估计步骤联合迭代进行,所提取的深度表征特征对聚类算法友好,可以得到较优的聚类结果。
附图说明
图1是本发明公开的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法流程图;
图2是本发明公开的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法的联合优化框架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,包括以下步骤:
第一步:预处理并提取I-vector特征,步骤为:
将待聚类的语音样本读入,并通过一阶高通滤波器进行预加重,滤波器系数a为0.98,一阶高通滤波器的传递函数为:
H(z)=1-az-1
使用汉明窗进行分帧,每帧长度为25ms,10ms帧移;
对分帧后的信号xt(n)进行傅里叶变换,得到频域信号:
Figure BDA0002305671830000071
对频域信号进行梅尔滤波,其中,梅尔滤波器组含有M个三角形滤波器,每个滤波器的中心频率记为f(m),第m个三角形滤波器的频率响应定义为:
Figure BDA0002305671830000081
对梅尔滤波后的信号取对数能量谱:
Figure BDA0002305671830000082
进行离散余弦变换得到MFCC特征:
Figure BDA0002305671830000083
其中,ct(p)表示第t帧语音信号的第p阶梅尔频率倒谱系数。
第t帧语音的D维MFCC特征xt对应的似然概率可以用M个高斯分量加权表示:
Figure BDA0002305671830000084
其中ωm表示第m个高斯分量的权重,
Figure BDA0002305671830000085
pm(xt)表示高斯混合模型第m个高斯分量的分布函数:
Figure BDA0002305671830000086
其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:
Figure BDA0002305671830000087
用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωmmm}m=1,2,...,M。
基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。
第二步:训练深度卷积自编码网络并提取深度表征特征,步骤为:
各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为
Figure BDA0002305671830000091
其中,
Figure BDA0002305671830000092
是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,本发明摆脱传统的原始信号叠加高斯噪声的方法,在网络中通过令神经元随机失活的方式加入噪声,具体操作为:随机选取一定比例的编码器输出层的神经元并使之失活(置零),编码器各层的输出定义为:
Figure BDA0002305671830000093
其中,
Figure BDA0002305671830000094
是第i个语音样本在编码器第h层的深度表征特征,We h
Figure BDA0002305671830000095
是编码器第h层的权重和偏置。Dr[·]是随机失活操作,ψ(·)是激活函数,这里使用修正线性整流单元,定义为:
ψ(x)=max(0,x),。
经编码、解码之后的输出记为
Figure BDA0002305671830000096
自编码网络的输入和输出是维度相同的矩阵,自编码网络的训练误差定义为输入和输出之间的均方误差:
Figure BDA0002305671830000097
在训练误差收敛之后退出训练,并保存联合优化框架的参数;
去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练好的自编码网络,在编码器的终端输出对应的深度表征特征。
第三步:根据各语音样本的深度表征特征构造初始类,步骤为:
将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离:
Figure BDA0002305671830000101
其中ci和cj表示两个不相同的样本。
寻找各个类之间距离最近的两个类,即欧式距离最小的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;
重新计算上述新类和各个旧类之间的欧式距离;
重复前两步,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。
第四步:传统的聚类方法在原始特征的基础上一次聚类就输出结果,这样获取的结果不稳定,容易受噪声样本点的影响。本发明将聚类结果反馈回网络,利用聚类反馈的结果不断更新深度表征特征,使类别估计受噪声样本点的影响更小,结果更稳定。为了将聚类结果和网络训练结合,根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,步骤为:
将S个说话人记作S个聚类簇,根据类别估计的结果,将S个簇依次标记为0,1,...,S-1,归属于同一个簇的样本具有相同的标签;
为了给聚类算法提供更好的深度表征特征,在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层。这样便构成了单输入,双输出端的网络结构,如图2中网络结构示意图所示,深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1,解码层3的另一输出端依次连接全连接层和Softmax层,特征输入到编码层1,解码层1的输出作为第二输出端口,Softmax层的输出端作为第一输出端口,其中,第一输出端口是Softmax层的预测类别输出,第二输出端口是解码层1对编码层1的特征输入的重构。其中,编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层,且编码层1、编码层2、编码层3的输出端都进行随机失活操作。
第五步:将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件的步骤如下:
联合优化框架的误差函数表达式如下
Figure BDA0002305671830000111
其中,第一项
Figure BDA0002305671830000112
表示自编码网络重构误差,已在第二步中定义,第二项
Figure BDA0002305671830000113
为聚类误差,α1和α2表示权重系数,调整这两个值可以使训练目标偏向于优化深度表征学习,为聚类算法生成更好的表征特征。pis和qis分别表示预测结果和标签中第i个样本的特征
Figure BDA0002305671830000114
属于第s个簇的概率,pis定义为:
Figure BDA0002305671830000115
其中,
Figure BDA0002305671830000116
是Softmax层的参数,T表示转置操作。qis定义为:
Figure BDA0002305671830000117
pi's表第i'个样本属于第s个簇的概率,pis'表示第i个样本属于第s'个簇的概率,pi's'表示第i'个样本属于第s'个簇的概率。
使用梯度下降法迭代更新联合优化框架参数,随着联合优化框架参数的更新,深度表征特征也随之更新,Softmax层的预测输出结果也在不断改变。设置训练时的误差函数的阈值L0,当满足Loss<L0时退出训练,此时Softmax层的输出为最终说话人聚类结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (6)

1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,包括以下步骤:
S1、对读入的待聚类语音样本进行预处理,提取I-vector特征;
S2、训练卷积自编码网络并从各语音样本提取深度表征特征;
S3、根据各语音样本的深度表征特征构造初始类;
S4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;
S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本;
其中,所述的步骤S1中对读入的待聚类语音样本进行预处理,提取I-vector特征的过程如下:
S1.1、将信号通过一阶高通滤波器进行预加重,并使用汉明窗进行分帧;
S1.2、对经过预处理的时域信号进行傅里叶变换,得到频域信号;
S1.3、对频域信号进行梅尔滤波并取对数能量谱,将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数,即MFCC特征;
S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示:
Figure FDA0004080204740000011
其中ωm表示第m个高斯分量的权重,
Figure FDA0004080204740000021
pm(xt)表示高斯混合模型第m个高斯分量的分布函数:
Figure FDA0004080204740000022
其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:
Figure FDA0004080204740000023
用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωmmm}m=1,2,...,M;
S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。
2.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S2中训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下:
S2.1、各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为
Figure FDA0004080204740000024
其中,
Figure FDA0004080204740000025
是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,随机选取一定比例的编码器输出层的神经元并使之失活,编码器各层的输出定义为:
Figure FDA0004080204740000031
其中,
Figure FDA0004080204740000032
是第i个语音样本在编码器第h层的深度表征特征,
Figure FDA0004080204740000033
Figure FDA0004080204740000034
是编码器第h层的权重和偏置,Dr[·]是随机失活操作,ψ(·)是激活函数,这里使用修正线性整流单元,定义为:
ψ(x)=max(0,x),
经编码、解码之后的输出记为
Figure FDA0004080204740000035
自编码网络的输入和输出是维度相同的矩阵,自编码网络的训练误差定义为输入和输出之间的均方误差:
Figure FDA0004080204740000036
在训练误差收敛之后退出训练,并保存联合优化框架的参数;
S2.2、去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练完毕的自编码网络,在编码器的终端输出对应的深度表征特征。
3.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S3中,根据各语音样本的深度表征特征构造初始类的过程如下:
S3.1、将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离;
S3.2、寻找各个类之间距离最近的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;
S3.3、重新计算上述新类和各个旧类之间的欧式距离;
S3.4、重复S3.2和S3.3,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。
4.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S4中,根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架的过程如下:
S4.1、将S个说话人记作S个聚类簇,根据类别估计的结果,将S个簇依次标记为0,1,...,S-1,归属于同一个簇的样本具有相同的标签;
S4.2、在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层,构成单输入、双输出端的网络结构,其中,深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1,解码层3的另一输出端依次连接全连接层和Softmax层,特征输入到编码层1,解码层1的输出作为第二输出端口,Softmax层的输出端作为第一输出端口,其中,第一输出端口是Softmax层的预测类别输出,第二输出端口是解码层1对编码层1的特征输入的重构。
5.根据权利要求4所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层,且编码层1、编码层2、编码层3的输出端都进行随机失活操作。
6.根据权利要求2所述的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S5中,将卷积自编码网络的重构误差与Softmax层的类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本的过程如下:
S5.1、联合优化框架的误差函数表达式如下:
Figure FDA0004080204740000051
其中,第一项
Figure FDA0004080204740000052
表示自编码网络重构误差,第二项
Figure FDA0004080204740000053
为聚类误差,α1和α2表示权重系数,调整这两个值使训练目标偏向于优化深度表征学习,为聚类算法生成更优的表征特征,pis和qis分别表示预测结果和标签中第i个样本的特征Ivi属于第s个簇的概率,pis定义为:
Figure FDA0004080204740000054
其中,
Figure FDA0004080204740000055
是Softmax层的参数,T表示转置操作,qis定义为:
Figure FDA0004080204740000056
pi's表第i'个样本属于第s个簇的概率,pis'表示第i个样本属于第s'个簇的概率,pi's'表示第i'个样本属于第s'个簇的概率;
S5.2、使用梯度下降法迭代更新联合优化框架参数,随着联合优化框架参数的更新,深度表征特征也随之更新,Softmax层的预测输出结果也在不断改变,设置训练时的误差函数的阈值L0,当满足Loss<L0时退出训练,此时Softmax层的输出为最终说话人聚类结果。
CN201911239006.3A 2019-12-06 2019-12-06 同时优化深度表征学习与说话人类别估计的说话人聚类方法 Active CN111161744B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911239006.3A CN111161744B (zh) 2019-12-06 2019-12-06 同时优化深度表征学习与说话人类别估计的说话人聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911239006.3A CN111161744B (zh) 2019-12-06 2019-12-06 同时优化深度表征学习与说话人类别估计的说话人聚类方法

Publications (2)

Publication Number Publication Date
CN111161744A CN111161744A (zh) 2020-05-15
CN111161744B true CN111161744B (zh) 2023-04-28

Family

ID=70556447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911239006.3A Active CN111161744B (zh) 2019-12-06 2019-12-06 同时优化深度表征学习与说话人类别估计的说话人聚类方法

Country Status (1)

Country Link
CN (1) CN111161744B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111785283A (zh) * 2020-05-18 2020-10-16 北京三快在线科技有限公司 一种声纹识别模型训练方法、装置、电子设备及存储介质
CN111833885B (zh) * 2020-07-08 2023-08-01 太原科技大学 一种基于卷积模糊神经网络的音源识别方法
CN112309365B (zh) * 2020-10-21 2024-05-10 北京大米科技有限公司 语音合成模型的训练方法、装置、存储介质以及电子设备
CN112735435A (zh) * 2020-12-25 2021-04-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 具备未知类别内部划分能力的声纹开集识别方法
CN112863529B (zh) * 2020-12-31 2023-09-22 平安科技(深圳)有限公司 基于对抗学习的说话人语音转换方法及相关设备
CN113259388B (zh) * 2021-06-22 2021-11-12 贝壳找房(北京)科技有限公司 网络流量异常检测方法、电子设备及可读存储介质
CN114023336A (zh) * 2021-10-29 2022-02-08 北京百度网讯科技有限公司 模型训练方法、装置、设备以及存储介质
CN115101076B (zh) * 2022-05-26 2023-09-12 燕山大学 一种基于多尺度通道分离卷积特征提取的说话人聚类方法
CN118588161B (zh) * 2024-08-06 2024-09-27 吉林大学 一种产前筛查数据采集分析系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN110111797A (zh) * 2019-04-04 2019-08-09 湖北工业大学 基于高斯超矢量和深度神经网络的说话人识别方法
CN110289002A (zh) * 2019-06-28 2019-09-27 四川长虹电器股份有限公司 一种端到端的说话人聚类方法及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018107810A1 (zh) * 2016-12-15 2018-06-21 平安科技(深圳)有限公司 声纹识别方法、装置、电子设备及介质
CN106971713A (zh) * 2017-01-18 2017-07-21 清华大学 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
CN109545227A (zh) * 2018-04-28 2019-03-29 华中师范大学 基于深度自编码网络的说话人性别自动识别方法及系统
CN109346084A (zh) * 2018-09-19 2019-02-15 湖北工业大学 基于深度堆栈自编码网络的说话人识别方法
CN110111797A (zh) * 2019-04-04 2019-08-09 湖北工业大学 基于高斯超矢量和深度神经网络的说话人识别方法
CN110289002A (zh) * 2019-06-28 2019-09-27 四川长虹电器股份有限公司 一种端到端的说话人聚类方法及系统

Also Published As

Publication number Publication date
CN111161744A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111161744B (zh) 同时优化深度表征学习与说话人类别估计的说话人聚类方法
Villalba et al. State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations
CN109410917B (zh) 基于改进型胶囊网络的语音数据分类方法
CN105206270B (zh) 一种组合pca和rbm的孤立数字语音识别分类系统及方法
CN106952644A (zh) 一种基于瓶颈特征的复杂音频分割聚类方法
CN103345923B (zh) 一种基于稀疏表示的短语音说话人识别方法
JP6243858B2 (ja) 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム
CN111462729B (zh) 基于音素对数似然比和稀疏表征的快速语种识别方法
CN108694949B (zh) 基于重排序超向量和残差网络的说话人识别方法及其装置
CN111899757B (zh) 针对目标说话人提取的单通道语音分离方法及系统
CN108922559A (zh) 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN112053694A (zh) 一种基于cnn与gru网络融合的声纹识别方法
CN102945670A (zh) 一种用于语音识别系统的多环境特征补偿方法
Guo et al. Deep neural network based i-vector mapping for speaker verification using short utterances
CN113763965A (zh) 一种多重注意力特征融合的说话人识别方法
CN111341332A (zh) 基于深度神经网络的语音特征增强后置滤波方法
Sun et al. Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization
Wang et al. Robust speaker identification of iot based on stacked sparse denoising auto-encoders
CN106297768B (zh) 一种语音识别方法
Renisha et al. Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients
CN113851148A (zh) 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法
CN117672260A (zh) 一种音素模板的实时对抗样本生成方法及计算机可读介质
Adam et al. Wavelet based Cepstral Coefficients for neural network speech recognition
Tan et al. Bottleneck features from SNR-adaptive denoising deep classifier for speaker identification
CN112259107A (zh) 一种会议场景小样本条件下的声纹识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant