CN111161744B - 同时优化深度表征学习与说话人类别估计的说话人聚类方法 - Google Patents
同时优化深度表征学习与说话人类别估计的说话人聚类方法 Download PDFInfo
- Publication number
- CN111161744B CN111161744B CN201911239006.3A CN201911239006A CN111161744B CN 111161744 B CN111161744 B CN 111161744B CN 201911239006 A CN201911239006 A CN 201911239006A CN 111161744 B CN111161744 B CN 111161744B
- Authority
- CN
- China
- Prior art keywords
- layer
- speaker
- output
- self
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000013598 vector Substances 0.000 claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000005457 optimization Methods 0.000 claims abstract description 26
- 230000006870 function Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 239000000203 mixture Substances 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000009849 deactivation Effects 0.000 claims description 5
- 210000002569 neuron Anatomy 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 5
- 101100001674 Emericella variicolor andI gene Proteins 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 3
- 238000005315 distribution function Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000000415 inactivating effect Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000002620 method output Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,步骤如下:对聚类语音样本进行预处理,提取I‑vector特征,训练卷积自编码网络并提取深度表征特征;根据深度表征特征构造初始类,得到类别数和初始类标签;在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,Softmax层用于估计说话人类别;将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数,迭代更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果,获得比传统方法更优的说话人聚类效果。
Description
技术领域
本发明涉及说话人聚类与声纹识别技术领域,具体涉及一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。
背景技术
近年来,随着深度学习技术的发展,声纹识别技术得到了飞跃进步。从传统的I-vector特征到基于深度特征变换的d-vector和x-vector特征,声纹识别已经从理论研究步入了实际应用,例如网络银行身份认证、犯罪侦查、机器人声纹唤醒、设备声纹解锁等等。
但训练一个大型的声纹识别模型除了需要充足的训练数据以外,还需要知道每个样本所对应的说话人是哪一个。在实际应用中,训练数据可能来自于电话录音,视频网站等途径,如果要将从这些途径获得的数据全部进行人工标注,需要非常高的人力成本,且标注结果极有可能存在偏差。因此,在未知样本类别的前提下,对大量未知说话人的样本进行聚类,将说话人聚类结果作为各语音样本的标签,降低人工标注成本。
发明内容
本发明的目的是为了解决现有说话人聚类方法存在的以下不足:特征提取步骤与说话人聚类步骤独立进行,所提取的特征对聚类算法并不友好,不能得到较优的聚类结果,利用深度卷积自编码网络提取特征的优越性,提供了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。
本发明的目的可以通过采取如下技术方案达到:
一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,包括以下步骤:
S1、对读入的待聚类语音样本进行预处理,提取I-vector特征;
S2、训练卷积自编码网络并从各语音样本提取深度表征特征;
S3、根据各语音样本的深度表征特征构造初始类;
S4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;
S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本。
进一步地,在步骤S1中,对读入的待聚类语音样本进行预处理,提取I-vector特征的过程如下:
S1.1、将信号通过一阶高通滤波器进行预加重,并使用汉明窗进行分帧;
S1.2、对经过预处理的时域信号进行傅里叶变换,得到频域信号;
S1.3、对频域信号进行梅尔滤波并取对数能量谱,将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数MFCC特征(Mel Frequency Cepstral Coefficients,MFCC);
S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示:
其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:
用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωm,μm,Σm}m=1,2,...,M;
S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。
进一步地,在步骤S2中,训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下:
S2.1、各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为其中,i=1,2,…,N是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,随机选取一定比例的编码器输出层的神经元并使之失活(置零),编码器各层的输出定义为:
ψ(x)=max(0,x),
在训练误差收敛之后退出训练,并保存联合优化框架的参数;
S2.2、去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练完毕的自编码网络,在编码器的终端输出对应的深度表征特征。
进一步地,在步骤S3中,根据各语音样本的深度表征特征构造初始类的具体过程如下:
S3.1、将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离;
S3.2、寻找各个类之间距离最近的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;
S3.3、重新计算上述新类和各个旧类之间的欧式距离;
S3.4、重复S3.2和S3.3,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。
进一步地,在步骤S4中,根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架的具体过程为:
S4.1、将S个说话人记作S个聚类簇,根据类别估计的结果,将S个簇依次标记为0,1,...,S-1,归属于同一个簇的样本具有相同的标签;
S4.2、为了给聚类算法提供更好的深度表征特征,在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层,构成单输入、双输出端的网络结构,如图2所示,其中,深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1,解码层3的另一输出端依次连接全连接层和Softmax层,特征输入到编码层1,解码层1的输出作为第二输出端口,Softmax层的输出端作为第一输出端口,其中,第一输出端口(即图2中“输出1”)是Softmax层的预测类别输出,第二输出端口(即图2中“输出2”)是解码层1对编码层1的特征输入的重构。
进一步地,所述的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层,且编码层1、编码层2、编码层3的输出端都进行随机失活操作。
进一步地,步骤S5中,将卷积自编码网络的重构误差与Softmax层的类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本的过程如下:
S5.1、联合优化框架的误差函数表达式如下:
其中,第一项表示自编码网络重构误差,第二项为聚类误差,α1和α2表示权重系数,调整这两个值使训练目标偏向于优化深度表征学习,为聚类算法生成更优的表征特征,pis和qis分别表示预测结果和标签中第i个样本的特征属于第s个簇的概率,pis定义为:
pi's表第i'个样本属于第s个簇的概率,pis'表示第i个样本属于第s'个簇的概率,pi's'表示第i'个样本属于第s'个簇的概率。
S5.2、使用梯度下降法迭代更新联合优化框架参数,随着联合优化框架参数的更新,深度表征特征也随之更新,Softmax层的预测输出结果也在不断改变,设置训练时的误差函数的阈值L0,当满足Loss<L0时退出训练,此时Softmax层的输出为最终说话人聚类结果。
本发明相对于现有技术具有如下的优点及效果:
1.本发明采用深度卷积自编码网络提取深度变换特征,比传统时频特征更有效刻画说话人的特性差异;
2.本发明采用深度神经网络学习框架进行说话人类别估计,从而实现说话人聚类,比传统的浅层说话人聚类模型具有更优的聚类性能;
3.本发明将深度表征学习步骤与说话人类别估计步骤联合迭代进行,所提取的深度表征特征对聚类算法友好,可以得到较优的聚类结果。
附图说明
图1是本发明公开的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法流程图;
图2是本发明公开的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法的联合优化框架图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
如图1所示,本实施例公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,包括以下步骤:
第一步:预处理并提取I-vector特征,步骤为:
将待聚类的语音样本读入,并通过一阶高通滤波器进行预加重,滤波器系数a为0.98,一阶高通滤波器的传递函数为:
H(z)=1-az-1
使用汉明窗进行分帧,每帧长度为25ms,10ms帧移;
对分帧后的信号xt(n)进行傅里叶变换,得到频域信号:
对频域信号进行梅尔滤波,其中,梅尔滤波器组含有M个三角形滤波器,每个滤波器的中心频率记为f(m),第m个三角形滤波器的频率响应定义为:
对梅尔滤波后的信号取对数能量谱:
进行离散余弦变换得到MFCC特征:
其中,ct(p)表示第t帧语音信号的第p阶梅尔频率倒谱系数。
第t帧语音的D维MFCC特征xt对应的似然概率可以用M个高斯分量加权表示:
其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:
用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωm,μm,Σm}m=1,2,...,M。
基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。
第二步:训练深度卷积自编码网络并提取深度表征特征,步骤为:
各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为其中,是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,本发明摆脱传统的原始信号叠加高斯噪声的方法,在网络中通过令神经元随机失活的方式加入噪声,具体操作为:随机选取一定比例的编码器输出层的神经元并使之失活(置零),编码器各层的输出定义为:
ψ(x)=max(0,x),。
在训练误差收敛之后退出训练,并保存联合优化框架的参数;
去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练好的自编码网络,在编码器的终端输出对应的深度表征特征。
第三步:根据各语音样本的深度表征特征构造初始类,步骤为:
将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离:
其中ci和cj表示两个不相同的样本。
寻找各个类之间距离最近的两个类,即欧式距离最小的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;
重新计算上述新类和各个旧类之间的欧式距离;
重复前两步,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。
第四步:传统的聚类方法在原始特征的基础上一次聚类就输出结果,这样获取的结果不稳定,容易受噪声样本点的影响。本发明将聚类结果反馈回网络,利用聚类反馈的结果不断更新深度表征特征,使类别估计受噪声样本点的影响更小,结果更稳定。为了将聚类结果和网络训练结合,根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架,步骤为:
将S个说话人记作S个聚类簇,根据类别估计的结果,将S个簇依次标记为0,1,...,S-1,归属于同一个簇的样本具有相同的标签;
为了给聚类算法提供更好的深度表征特征,在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层。这样便构成了单输入,双输出端的网络结构,如图2中网络结构示意图所示,深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1,解码层3的另一输出端依次连接全连接层和Softmax层,特征输入到编码层1,解码层1的输出作为第二输出端口,Softmax层的输出端作为第一输出端口,其中,第一输出端口是Softmax层的预测类别输出,第二输出端口是解码层1对编码层1的特征输入的重构。其中,编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层,且编码层1、编码层2、编码层3的输出端都进行随机失活操作。
第五步:将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件的步骤如下:
联合优化框架的误差函数表达式如下
其中,第一项表示自编码网络重构误差,已在第二步中定义,第二项为聚类误差,α1和α2表示权重系数,调整这两个值可以使训练目标偏向于优化深度表征学习,为聚类算法生成更好的表征特征。pis和qis分别表示预测结果和标签中第i个样本的特征属于第s个簇的概率,pis定义为:
pi's表第i'个样本属于第s个簇的概率,pis'表示第i个样本属于第s'个簇的概率,pi's'表示第i'个样本属于第s'个簇的概率。
使用梯度下降法迭代更新联合优化框架参数,随着联合优化框架参数的更新,深度表征特征也随之更新,Softmax层的预测输出结果也在不断改变。设置训练时的误差函数的阈值L0,当满足Loss<L0时退出训练,此时Softmax层的输出为最终说话人聚类结果。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (6)
1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,包括以下步骤:
S1、对读入的待聚类语音样本进行预处理,提取I-vector特征;
S2、训练卷积自编码网络并从各语音样本提取深度表征特征;
S3、根据各语音样本的深度表征特征构造初始类;
S4、根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架;
S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本;
其中,所述的步骤S1中对读入的待聚类语音样本进行预处理,提取I-vector特征的过程如下:
S1.1、将信号通过一阶高通滤波器进行预加重,并使用汉明窗进行分帧;
S1.2、对经过预处理的时域信号进行傅里叶变换,得到频域信号;
S1.3、对频域信号进行梅尔滤波并取对数能量谱,将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数,即MFCC特征;
S1.4、第t帧语音样本的D维MFCC特征xt对应的似然概率用M个高斯分量加权表示:
其中μm和Σm分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵,对于所有语音帧X=[x1,...,xT],输出概率为:
用期望最大化算法训练高斯混合模型,获得模型参数
λ={ωm,μm,Σm}m=1,2,...,M;
S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量,采用期望最大化算法对T矩阵进行估计,并根据下面的公式得到I-vector特征:
M(j)=m+Tw(j),
其中,M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量,m是高斯混合模型的均值超矢量,w(j)则是第j个语音样本的I-vector特征矢量。
2.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S2中训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下:
S2.1、各语音样本表示为[v1,v2,...,vN],提取出的I-vector特征为其中,是K维的I-vector矢量,将N个K维的I-vector特征矢量作为卷积自编码网络的输入,为训练去噪自编码网络,随机选取一定比例的编码器输出层的神经元并使之失活,编码器各层的输出定义为:
ψ(x)=max(0,x),
在训练误差收敛之后退出训练,并保存联合优化框架的参数;
S2.2、去掉随机失活操作,将各语音样本的I-vector特征矢量输入训练完毕的自编码网络,在编码器的终端输出对应的深度表征特征。
3.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S3中,根据各语音样本的深度表征特征构造初始类的过程如下:
S3.1、将各语音样本的深度表征特征都作为一类,并计算每两个类之间的欧式距离;
S3.2、寻找各个类之间距离最近的两个类,把它们归成一类,并取上述两个类中的深度表征特征的均值作为合并后的新类;
S3.3、重新计算上述新类和各个旧类之间的欧式距离;
S3.4、重复S3.2和S3.3,直到当前聚类类别数等于给定类别数,获得初始类别估计的结果。
4.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S4中,根据初始类标签,在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架的过程如下:
S4.1、将S个说话人记作S个聚类簇,根据类别估计的结果,将S个簇依次标记为0,1,...,S-1,归属于同一个簇的样本具有相同的标签;
S4.2、在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层,构成单输入、双输出端的网络结构,其中,深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1,解码层3的另一输出端依次连接全连接层和Softmax层,特征输入到编码层1,解码层1的输出作为第二输出端口,Softmax层的输出端作为第一输出端口,其中,第一输出端口是Softmax层的预测类别输出,第二输出端口是解码层1对编码层1的特征输入的重构。
5.根据权利要求4所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层,且编码层1、编码层2、编码层3的输出端都进行随机失活操作。
6.根据权利要求2所述的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法,其特征在于,所述的步骤S5中,将卷积自编码网络的重构误差与Softmax层的类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件,得到各说话人的语音样本的过程如下:
S5.1、联合优化框架的误差函数表达式如下:
其中,第一项表示自编码网络重构误差,第二项为聚类误差,α1和α2表示权重系数,调整这两个值使训练目标偏向于优化深度表征学习,为聚类算法生成更优的表征特征,pis和qis分别表示预测结果和标签中第i个样本的特征Ivi属于第s个簇的概率,pis定义为:
pi's表第i'个样本属于第s个簇的概率,pis'表示第i个样本属于第s'个簇的概率,pi's'表示第i'个样本属于第s'个簇的概率;
S5.2、使用梯度下降法迭代更新联合优化框架参数,随着联合优化框架参数的更新,深度表征特征也随之更新,Softmax层的预测输出结果也在不断改变,设置训练时的误差函数的阈值L0,当满足Loss<L0时退出训练,此时Softmax层的输出为最终说话人聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239006.3A CN111161744B (zh) | 2019-12-06 | 2019-12-06 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911239006.3A CN111161744B (zh) | 2019-12-06 | 2019-12-06 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161744A CN111161744A (zh) | 2020-05-15 |
CN111161744B true CN111161744B (zh) | 2023-04-28 |
Family
ID=70556447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911239006.3A Active CN111161744B (zh) | 2019-12-06 | 2019-12-06 | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161744B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111785283A (zh) * | 2020-05-18 | 2020-10-16 | 北京三快在线科技有限公司 | 一种声纹识别模型训练方法、装置、电子设备及存储介质 |
CN111833885B (zh) * | 2020-07-08 | 2023-08-01 | 太原科技大学 | 一种基于卷积模糊神经网络的音源识别方法 |
CN112309365B (zh) * | 2020-10-21 | 2024-05-10 | 北京大米科技有限公司 | 语音合成模型的训练方法、装置、存储介质以及电子设备 |
CN112735435A (zh) * | 2020-12-25 | 2021-04-30 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 具备未知类别内部划分能力的声纹开集识别方法 |
CN112863529B (zh) * | 2020-12-31 | 2023-09-22 | 平安科技(深圳)有限公司 | 基于对抗学习的说话人语音转换方法及相关设备 |
CN113259388B (zh) * | 2021-06-22 | 2021-11-12 | 贝壳找房(北京)科技有限公司 | 网络流量异常检测方法、电子设备及可读存储介质 |
CN114023336A (zh) * | 2021-10-29 | 2022-02-08 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备以及存储介质 |
CN115101076B (zh) * | 2022-05-26 | 2023-09-12 | 燕山大学 | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 |
CN118588161B (zh) * | 2024-08-06 | 2024-09-27 | 吉林大学 | 一种产前筛查数据采集分析系统及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN109346084A (zh) * | 2018-09-19 | 2019-02-15 | 湖北工业大学 | 基于深度堆栈自编码网络的说话人识别方法 |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110289002A (zh) * | 2019-06-28 | 2019-09-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及系统 |
-
2019
- 2019-12-06 CN CN201911239006.3A patent/CN111161744B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018107810A1 (zh) * | 2016-12-15 | 2018-06-21 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、电子设备及介质 |
CN106971713A (zh) * | 2017-01-18 | 2017-07-21 | 清华大学 | 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 |
CN109545227A (zh) * | 2018-04-28 | 2019-03-29 | 华中师范大学 | 基于深度自编码网络的说话人性别自动识别方法及系统 |
CN109346084A (zh) * | 2018-09-19 | 2019-02-15 | 湖北工业大学 | 基于深度堆栈自编码网络的说话人识别方法 |
CN110111797A (zh) * | 2019-04-04 | 2019-08-09 | 湖北工业大学 | 基于高斯超矢量和深度神经网络的说话人识别方法 |
CN110289002A (zh) * | 2019-06-28 | 2019-09-27 | 四川长虹电器股份有限公司 | 一种端到端的说话人聚类方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111161744A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161744B (zh) | 同时优化深度表征学习与说话人类别估计的说话人聚类方法 | |
Villalba et al. | State-of-the-art speaker recognition with neural network embeddings in NIST SRE18 and speakers in the wild evaluations | |
CN109410917B (zh) | 基于改进型胶囊网络的语音数据分类方法 | |
CN105206270B (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
CN106952644A (zh) | 一种基于瓶颈特征的复杂音频分割聚类方法 | |
CN103345923B (zh) | 一种基于稀疏表示的短语音说话人识别方法 | |
JP6243858B2 (ja) | 音声モデル学習方法、雑音抑圧方法、音声モデル学習装置、雑音抑圧装置、音声モデル学習プログラム及び雑音抑圧プログラム | |
CN111462729B (zh) | 基于音素对数似然比和稀疏表征的快速语种识别方法 | |
CN108694949B (zh) | 基于重排序超向量和残差网络的说话人识别方法及其装置 | |
CN111899757B (zh) | 针对目标说话人提取的单通道语音分离方法及系统 | |
CN108922559A (zh) | 基于语音时频变换特征和整数线性规划的录音终端聚类方法 | |
CN112053694A (zh) | 一种基于cnn与gru网络融合的声纹识别方法 | |
CN102945670A (zh) | 一种用于语音识别系统的多环境特征补偿方法 | |
Guo et al. | Deep neural network based i-vector mapping for speaker verification using short utterances | |
CN113763965A (zh) | 一种多重注意力特征融合的说话人识别方法 | |
CN111341332A (zh) | 基于深度神经网络的语音特征增强后置滤波方法 | |
Sun et al. | Progressive multi-target network based speech enhancement with snr-preselection for robust speaker diarization | |
Wang et al. | Robust speaker identification of iot based on stacked sparse denoising auto-encoders | |
CN106297768B (zh) | 一种语音识别方法 | |
Renisha et al. | Cascaded Feedforward Neural Networks for speaker identification using Perceptual Wavelet based Cepstral Coefficients | |
CN113851148A (zh) | 一种基于迁移学习和多损失动态调整的跨库语音情感识别方法 | |
CN117672260A (zh) | 一种音素模板的实时对抗样本生成方法及计算机可读介质 | |
Adam et al. | Wavelet based Cepstral Coefficients for neural network speech recognition | |
Tan et al. | Bottleneck features from SNR-adaptive denoising deep classifier for speaker identification | |
CN112259107A (zh) | 一种会议场景小样本条件下的声纹识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |