CN111161744B

CN111161744B - 同时优化深度表征学习与说话人类别估计的说话人聚类方法

Info

Publication number: CN111161744B
Application number: CN201911239006.3A
Authority: CN
Inventors: 李艳雄; 王武城; 刘名乐; 江钟杰; 陈昊
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2023-04-28
Anticipated expiration: 2039-12-06
Also published as: CN111161744A

Abstract

本发明公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，步骤如下：对聚类语音样本进行预处理，提取I‑vector特征，训练卷积自编码网络并提取深度表征特征；根据深度表征特征构造初始类，得到类别数和初始类标签；在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架，Softmax层用于估计说话人类别；将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数，迭代更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本。本发明能同时得到优化的深度表征特征与说话人聚类结果，获得比传统方法更优的说话人聚类效果。

Description

同时优化深度表征学习与说话人类别估计的说话人聚类方法

技术领域

本发明涉及说话人聚类与声纹识别技术领域，具体涉及一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。

背景技术

近年来，随着深度学习技术的发展，声纹识别技术得到了飞跃进步。从传统的I-vector特征到基于深度特征变换的d-vector和x-vector特征，声纹识别已经从理论研究步入了实际应用，例如网络银行身份认证、犯罪侦查、机器人声纹唤醒、设备声纹解锁等等。

但训练一个大型的声纹识别模型除了需要充足的训练数据以外，还需要知道每个样本所对应的说话人是哪一个。在实际应用中，训练数据可能来自于电话录音，视频网站等途径，如果要将从这些途径获得的数据全部进行人工标注，需要非常高的人力成本，且标注结果极有可能存在偏差。因此，在未知样本类别的前提下，对大量未知说话人的样本进行聚类，将说话人聚类结果作为各语音样本的标签，降低人工标注成本。

发明内容

本发明的目的是为了解决现有说话人聚类方法存在的以下不足：特征提取步骤与说话人聚类步骤独立进行，所提取的特征对聚类算法并不友好，不能得到较优的聚类结果，利用深度卷积自编码网络提取特征的优越性，提供了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法。

本发明的目的可以通过采取如下技术方案达到：

一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，包括以下步骤：

S1、对读入的待聚类语音样本进行预处理，提取I-vector特征；

S2、训练卷积自编码网络并从各语音样本提取深度表征特征；

S3、根据各语音样本的深度表征特征构造初始类；

S4、根据初始类标签，在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架；

S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本。

进一步地，在步骤S1中，对读入的待聚类语音样本进行预处理，提取I-vector特征的过程如下：

S1.1、将信号通过一阶高通滤波器进行预加重，并使用汉明窗进行分帧；

S1.2、对经过预处理的时域信号进行傅里叶变换，得到频域信号；

S1.3、对频域信号进行梅尔滤波并取对数能量谱，将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数MFCC特征(Mel Frequency Cepstral Coefficients,MFCC)；

S1.4、第t帧语音样本的D维MFCC特征x_t对应的似然概率用M个高斯分量加权表示：

其中ω_m表示第m个高斯分量的权重，

p_m(x_t)表示高斯混合模型第m个高斯分量的分布函数：

其中μ_m和Σ_m分别表示高斯混合模型中第m个混合成分的均值矢量和协方差矩阵，对于所有语音帧X＝[x₁,...,x_T]，输出概率为：

用期望最大化算法训练高斯混合模型，获得模型参数

λ＝{ω_m,μ_m,Σ_m}m＝1,2,...,M；

S1.5、基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量，采用期望最大化算法对T矩阵进行估计，并根据下面的公式得到I-vector特征：

M(j)＝m+Tw(j)，

其中，M(j)是基于高斯混合模型最大后验概率计算得到的第j个语音样本均值超矢量，m是高斯混合模型的均值超矢量，w(j)则是第j个语音样本的I-vector特征矢量。

进一步地，在步骤S2中，训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下：

S2.1、各语音样本表示为[v₁,v₂,...,v_N]，提取出的I-vector特征为

其中，

i＝1,2,…,N是K维的I-vector矢量，将N个K维的I-vector特征矢量作为卷积自编码网络的输入，为训练去噪自编码网络，随机选取一定比例的编码器输出层的神经元并使之失活(置零)，编码器各层的输出定义为：

其中，

是第i个语音样本在编码器第h层的深度表征特征，W_e ^h和

是编码器第h层的权重和偏置，Dr[·]是随机失活操作，ψ(·)是激活函数，这里使用修正线性整流单元，定义为：

ψ(x)＝max(0,x)，

经编码、解码之后的输出记为

自编码网络的输入和输出是维度相同的矩阵，自编码网络的训练误差定义为输入和输出之间的均方误差：

在训练误差收敛之后退出训练，并保存联合优化框架的参数；

S2.2、去掉随机失活操作，将各语音样本的I-vector特征矢量输入训练完毕的自编码网络，在编码器的终端输出对应的深度表征特征。

进一步地，在步骤S3中，根据各语音样本的深度表征特征构造初始类的具体过程如下：

S3.1、将各语音样本的深度表征特征都作为一类，并计算每两个类之间的欧式距离；

S3.2、寻找各个类之间距离最近的两个类，把它们归成一类，并取上述两个类中的深度表征特征的均值作为合并后的新类；

S3.3、重新计算上述新类和各个旧类之间的欧式距离；

S3.4、重复S3.2和S3.3，直到当前聚类类别数等于给定类别数，获得初始类别估计的结果。

进一步地，在步骤S4中，根据初始类标签，在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架的具体过程为：

S4.1、将S个说话人记作S个聚类簇，根据类别估计的结果，将S个簇依次标记为0,1,...,S-1，归属于同一个簇的样本具有相同的标签；

S4.2、为了给聚类算法提供更好的深度表征特征，在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层，构成单输入、双输出端的网络结构，如图2所示，其中，深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1，解码层3的另一输出端依次连接全连接层和Softmax层，特征输入到编码层1，解码层1的输出作为第二输出端口，Softmax层的输出端作为第一输出端口，其中，第一输出端口(即图2中“输出1”)是Softmax层的预测类别输出，第二输出端口(即图2中“输出2”)是解码层1对编码层1的特征输入的重构。

进一步地，所述的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层，且编码层1、编码层2、编码层3的输出端都进行随机失活操作。

进一步地，步骤S5中，将卷积自编码网络的重构误差与Softmax层的类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本的过程如下：

S5.1、联合优化框架的误差函数表达式如下：

其中，第一项

表示自编码网络重构误差，第二项

为聚类误差，α₁和α₂表示权重系数，调整这两个值使训练目标偏向于优化深度表征学习，为聚类算法生成更优的表征特征，p_is和q_is分别表示预测结果和标签中第i个样本的特征

属于第s个簇的概率，p_is定义为：

其中，

是Softmax层的参数，T表示转置操作，q_is定义为：

p_i's表第i'个样本属于第s个簇的概率,p_is'表示第i个样本属于第s'个簇的概率，p_i's'表示第i'个样本属于第s'个簇的概率。

S5.2、使用梯度下降法迭代更新联合优化框架参数，随着联合优化框架参数的更新，深度表征特征也随之更新，Softmax层的预测输出结果也在不断改变，设置训练时的误差函数的阈值L₀，当满足Loss＜L₀时退出训练，此时Softmax层的输出为最终说话人聚类结果。

本发明相对于现有技术具有如下的优点及效果：

1.本发明采用深度卷积自编码网络提取深度变换特征，比传统时频特征更有效刻画说话人的特性差异；

2.本发明采用深度神经网络学习框架进行说话人类别估计，从而实现说话人聚类，比传统的浅层说话人聚类模型具有更优的聚类性能；

3.本发明将深度表征学习步骤与说话人类别估计步骤联合迭代进行，所提取的深度表征特征对聚类算法友好，可以得到较优的聚类结果。

附图说明

图1是本发明公开的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法流程图；

图2是本发明公开的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法的联合优化框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例公开了一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，包括以下步骤：

第一步：预处理并提取I-vector特征，步骤为：

将待聚类的语音样本读入，并通过一阶高通滤波器进行预加重，滤波器系数a为0.98，一阶高通滤波器的传递函数为：

H(z)＝1-az^-1

使用汉明窗进行分帧，每帧长度为25ms，10ms帧移；

对分帧后的信号xt(n)进行傅里叶变换，得到频域信号：

对频域信号进行梅尔滤波，其中，梅尔滤波器组含有M个三角形滤波器，每个滤波器的中心频率记为f(m),第m个三角形滤波器的频率响应定义为：

对梅尔滤波后的信号取对数能量谱：

进行离散余弦变换得到MFCC特征：

其中，c_t(p)表示第t帧语音信号的第p阶梅尔频率倒谱系数。

第t帧语音的D维MFCC特征x_t对应的似然概率可以用M个高斯分量加权表示：

其中ω_m表示第m个高斯分量的权重，

p_m(xt)表示高斯混合模型第m个高斯分量的分布函数：

用期望最大化算法训练高斯混合模型，获得模型参数

λ＝{ω_m,μ_m,Σ_m}m＝1,2,...,M。

基于高斯混合模型参数求解估计总变化子空间矩阵T所需要的充分统计量，采用期望最大化算法对T矩阵进行估计，并根据下面的公式得到I-vector特征：

M(j)＝m+Tw(j)，

第二步：训练深度卷积自编码网络并提取深度表征特征，步骤为：

各语音样本表示为[v₁,v₂,...,v_N]，提取出的I-vector特征为

其中，

是K维的I-vector矢量，将N个K维的I-vector特征矢量作为卷积自编码网络的输入，为训练去噪自编码网络，本发明摆脱传统的原始信号叠加高斯噪声的方法，在网络中通过令神经元随机失活的方式加入噪声，具体操作为：随机选取一定比例的编码器输出层的神经元并使之失活(置零)，编码器各层的输出定义为：

其中，

是第i个语音样本在编码器第h层的深度表征特征，W_e ^h和

是编码器第h层的权重和偏置。Dr[·]是随机失活操作，ψ(·)是激活函数，这里使用修正线性整流单元，定义为：

ψ(x)＝max(0,x)，。

经编码、解码之后的输出记为

去掉随机失活操作，将各语音样本的I-vector特征矢量输入训练好的自编码网络，在编码器的终端输出对应的深度表征特征。

第三步：根据各语音样本的深度表征特征构造初始类，步骤为：

将各语音样本的深度表征特征都作为一类，并计算每两个类之间的欧式距离：

其中c_i和c_j表示两个不相同的样本。

寻找各个类之间距离最近的两个类，即欧式距离最小的两个类，把它们归成一类，并取上述两个类中的深度表征特征的均值作为合并后的新类；

重新计算上述新类和各个旧类之间的欧式距离；

重复前两步，直到当前聚类类别数等于给定类别数，获得初始类别估计的结果。

第四步：传统的聚类方法在原始特征的基础上一次聚类就输出结果，这样获取的结果不稳定，容易受噪声样本点的影响。本发明将聚类结果反馈回网络，利用聚类反馈的结果不断更新深度表征特征，使类别估计受噪声样本点的影响更小，结果更稳定。为了将聚类结果和网络训练结合，根据初始类标签，在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架，步骤为：

将S个说话人记作S个聚类簇，根据类别估计的结果，将S个簇依次标记为0,1,...,S-1，归属于同一个簇的样本具有相同的标签；

为了给聚类算法提供更好的深度表征特征，在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层。这样便构成了单输入，双输出端的网络结构，如图2中网络结构示意图所示，深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1，解码层3的另一输出端依次连接全连接层和Softmax层，特征输入到编码层1，解码层1的输出作为第二输出端口，Softmax层的输出端作为第一输出端口，其中，第一输出端口是Softmax层的预测类别输出，第二输出端口是解码层1对编码层1的特征输入的重构。其中，编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层，且编码层1、编码层2、编码层3的输出端都进行随机失活操作。

第五步：将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件的步骤如下：

联合优化框架的误差函数表达式如下

其中，第一项

表示自编码网络重构误差，已在第二步中定义，第二项

为聚类误差，α₁和α₂表示权重系数，调整这两个值可以使训练目标偏向于优化深度表征学习，为聚类算法生成更好的表征特征。p_is和q_is分别表示预测结果和标签中第i个样本的特征

属于第s个簇的概率，p_is定义为：

其中，

是Softmax层的参数，T表示转置操作。q_is定义为：

使用梯度下降法迭代更新联合优化框架参数，随着联合优化框架参数的更新，深度表征特征也随之更新，Softmax层的预测输出结果也在不断改变。设置训练时的误差函数的阈值L₀，当满足Loss＜L₀时退出训练，此时Softmax层的输出为最终说话人聚类结果。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，包括以下步骤：

S1、对读入的待聚类语音样本进行预处理，提取I-vector特征；

S3、根据各语音样本的深度表征特征构造初始类；

S5、将卷积自编码网络的重构误差与Softmax层的说话人类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本；

其中，所述的步骤S1中对读入的待聚类语音样本进行预处理，提取I-vector特征的过程如下：

S1.3、对频域信号进行梅尔滤波并取对数能量谱，将对数能量谱经过离散余弦变换得到梅尔频率倒谱系数，即MFCC特征；

其中ω_m表示第m个高斯分量的权重，

p_m(x_t)表示高斯混合模型第m个高斯分量的分布函数：

用期望最大化算法训练高斯混合模型，获得模型参数

λ＝{ω_m,μ_m,Σ_m}m＝1,2,...,M；

M(j)＝m+Tw(j)，

2.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，所述的步骤S2中训练卷积自编码网络并从各语音样本提取深度表征特征的过程如下：

其中，

是K维的I-vector矢量，将N个K维的I-vector特征矢量作为卷积自编码网络的输入，为训练去噪自编码网络，随机选取一定比例的编码器输出层的神经元并使之失活，编码器各层的输出定义为：

其中，

是第i个语音样本在编码器第h层的深度表征特征，

和

ψ(x)＝max(0,x)，

经编码、解码之后的输出记为

3.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，所述的步骤S3中，根据各语音样本的深度表征特征构造初始类的过程如下：

S3.3、重新计算上述新类和各个旧类之间的欧式距离；

4.根据权利要求1所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，所述的步骤S4中，根据初始类标签，在卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层构成联合优化框架的过程如下：

S4.2、在深度卷积自编码网络的编码器输出层增加一个全连接层和一个Softmax层，构成单输入、双输出端的网络结构，其中，深度卷积自编码网络包括依次连接的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1，解码层3的另一输出端依次连接全连接层和Softmax层，特征输入到编码层1，解码层1的输出作为第二输出端口，Softmax层的输出端作为第一输出端口，其中，第一输出端口是Softmax层的预测类别输出，第二输出端口是解码层1对编码层1的特征输入的重构。

5.根据权利要求4所述的同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，所述的编码层1、编码层2、编码层3、解码层3、解码层2、解码层1均是卷积层，且编码层1、编码层2、编码层3的输出端都进行随机失活操作。

6.根据权利要求2所述的一种同时优化深度表征学习与说话人类别估计的说话人聚类方法，其特征在于，所述的步骤S5中，将卷积自编码网络的重构误差与Softmax层的类别估计交叉熵误差之和作为目标函数更新联合优化框架参数直到满足收敛条件，得到各说话人的语音样本的过程如下：

S5.1、联合优化框架的误差函数表达式如下：

其中，第一项

表示自编码网络重构误差，第二项

为聚类误差，α₁和α₂表示权重系数，调整这两个值使训练目标偏向于优化深度表征学习，为聚类算法生成更优的表征特征，p_is和q_is分别表示预测结果和标签中第i个样本的特征I_vi属于第s个簇的概率，p_is定义为：

其中，

是Softmax层的参数，T表示转置操作，q_is定义为：

p_i's表第i'个样本属于第s个簇的概率，p_is'表示第i个样本属于第s'个簇的概率，p_i's'表示第i'个样本属于第s'个簇的概率；