CN107068165B

CN107068165B - 一种语音转换方法

Info

Publication number: CN107068165B
Application number: CN201611267431.XA
Authority: CN
Inventors: 李燕萍; 吕中良; 崔立梅
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2016-12-31
Filing date: 2016-12-31
Publication date: 2020-07-24
Anticipated expiration: 2036-12-31
Also published as: CN107068165A

Abstract

本发明公开了一种语音转换方法，该系统首先通过对平行语料库进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练，得到语音转换所需的转换函数，然后使用该转换函数进行高质量的语音转换。本发明针对语音特征参数空间分布状况与高斯混合模型的相关关系，使用自适应高斯混合模型替代传统高斯混合模型，解决了高斯混合模型在进行语音特征参数分类时不精确的问题，并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合，构建了一种高质量语音转换系统，在语音转换领域具有实用价值。

Description

一种语音转换方法

技术领域

本发明涉及语音转换领域，特别涉及一种高质量语音转换系统及实现方法。

背景技术

语音转换是指改变源说话人的语音个性特征，使之具有目标说话人的语音个性特征，也即使一个人说的语音经过转换后听起来像是另一个人说的语音，同时保留语义。通常衡量语音转换的效果有两个指标：相似度(转换后的语音和目标说话人语音个性特征之间的相似度)和清晰度(转换后语音的音质效果)。

典型的语音转换方法有：以高斯混合模型(GMM,Gaussian Mixture Model)为代表的统计映射方法，该方法采用最小均方误差(MMSE,Minimum Mean Squared Error)准则，使得源说话人的语音经过转换后与目标语音之间的误差最小，从而实现了比较好的语音相似性转换，但转换后的音质不够理想；以频率弯折(FW,Frequency Warping)为代表的基于共振峰映射的语音频谱转换方法，它利用了人的声道的生理特性与共振峰参数的相关性，取得了良好的音质转换效果，但在语音相似度上转换效果差强人意。

在语音转换领域，学者Daniel Erro将GMM和FW技术相结合，实现了较高语音相似度和较好的音质效果的语音转换，然而Daniel Erro在语音转换中采用GMM对语音特征参数进行固定混合度的软分类训练，限制了语音转换效果提升空间，其原因在于未考虑到不同人的语音特征参数统计分布不同，而GMM混合度与特征参数统计分布密切相关。

发明内容

本发明目的是提供一种高质量语音转换方法，该系统考虑了不同人的语音特征参数统计分布的不同，提供一种能够根据目标说话人的不同，自适应的更改GMM训练得到的分类情况，实现了更佳的语音转换。本发明具有较好的实用价值，可用于电影配音、语音翻译、保密通信等领域。

本发明采取的技术方案为训练部分和转换部分，具体如下：

1)、训练部分步骤：

1-1)获取源说话人和目标说话人的平行语料库；

1-2)使用AHOcoder语音分析模型提取语音特征参数和对数基频；

1-3)对步骤1-2)中的语音特征参数进行VTLN和DTW；VTLN为声道长度归一化VocalTract Length Normalization；

1-4)使用EM算法进行SAGMM训练，得到SAGMM参数λ，P(X|λ)；SAGMM为自适应高斯混合模型Self-Adaptive Gaussian Mixture Model；

1-5)使用步骤1-4)中的后验条件概率矩阵P(X|λ)进行BLFW+AS训练，得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ)，从而构建BLFW+AS转换函数；使用对数基频的均值和方差建立源语音基音频率和目标语音基音频率之间的转换函数；BLFW+AS为双线性频率弯折和幅度调节Bilinear Frequency Warping+Amplitude Scaling；

2)、转换部分步骤：

2-1)输入待转换的源说话人语音；

2-2)使用AHOcoder语音分析模型提取特征参数和对数基频；

2-3)使用SAGMM和训练时得到的参数λ，求取后验条件概率矩阵；

2-4)将频率弯折因子α(x,λ)和幅度调节因子s(x,λ)代入BLFW+AS转换函数，求得转换后的特征参数；

2-5)将对数基频代入训练时得到的基频转换函数得到转换后的对数基频；

2-6)使用AHOdecoder语音合成模型将转换后的特征参数和对数基频合成转换后的语音。

其中：训练部分步骤1-4)中所述的高斯分类数是根据说话人语音特征参数的具体分布来决定的。

训练部分步骤1-5)中频率弯折因子和幅度调节因子是根据SAGMM训练得到的后验条件概率矩阵来训练得到的。

有益效果

1、本发明使用SAGMM和BLFW+AS相结合来实现语音转换系统，该系统能够根据不同说话人的语音特征参数分布，自适应调节GMM的分量数，实现了高质量的语音转换。

2、本发明实现了完整的高质量语音转换系统，因此语音转换的应用场景下具有实用效果。

附图说明

图1是本发明的训练部分原理图；

图2是本发明的转换部分原理图；

图3是本发明语音转换效果图。

具体实施方式

下面结合说明书附图对本发明作进一步的详细说明。

本发明所述高质量语音转换方法分为两个部分：训练部分用于得到语音转换所需的参数和转换函数，而转换部分用于实现源说话人语音转换为目标说话人语音。

1)、如图1训练部分实施步骤：

1-1)获取源说话人和目标说话人语音平行语料库，平行语料库的获取可采用卡内基梅隆大学的开源ARCTIC语料库或者自行录制；

1-2)本发明使用AHOcoder语音分析模型分别提取源说话人和目标说话人的语音梅尔倒谱系数(MFCC,Mel-Frequency Cepstral Coefficient)和对数基音频率参数logf₀；

1-3)对步骤(2)中的源和目标语音的MFCC参数进行声道长度归一化(VTLN,VocalTract Length Normalization)和动态时间规整(DTW,Dynamic Time Warping)；

1-4)建立SAGMM模型，采用期望最大化(EM,Expectation-Maximization)算法进行训练，并使用K-均值迭代方法得到EM训练的初始值。传统的高斯混合模型表示如下：

其中，X为P维的语音特征参数矢量，本发明中采用P＝39，P(w_i)表示各高斯分量的权重系数，且有

M为高斯分量的个数，N(X；μ_i；∑_i)表示高斯分量的P维联合高斯概率分布，表示如下：

其中μ_i为均值矢量，∑_i为协方差矩阵，λ＝{P(w_i),μ_i,Σ_i}，是GMM模型的模型参数，对λ的估算可以通过最大似然估计法(ML,Maximum Likelihood)实现,最大似然估计的目的在于使得条件概率P(X|λ)取得最大，对于语音特征参数矢量集合X＝{x_n,n＝1,2,...N}有：

此时：

λ＝arg_λmax(P(X|λ)) (4)

求解公式(4)可使用EM算法，随着EM计算过程中迭代条件满足P(X|λ^k)≥P(X|λ^k-1)，K是迭代的次数，直至模型参数λ。迭代过程中高斯分量权重系数P(w_i)、均值向量μ_i、协方差矩阵Σ_i的迭代公式如下：

在SAGMM训练中，首先需要对各高斯分量的权重系数、均值向量、协方差矩阵和特征参数矢量之间的欧式距离进行综合分析，动态的调整高斯混合度。其训练过程如下：

1.设定SAGMM初始混合数M,高斯分量权重系数阈值t₁,t₂，特征参数矢量之间欧式距离阈值D和协方差阈值σ。

2.使用K-均值算法初始化SAGMM。

3.使用EM算法进行迭代训练。

4.若训练得到的模型中某一高斯分量N(P(w_i)；μ_i；Σ_i)权重系数小于t₁，并且与其最邻近分量N(P(w_j),μ_j,Σ_i)之间的欧式距离小于阈值D，则认为这两个分量包含信息较少且成分相似，可对其进行合并处理：

此时，高斯分量个数变为M-1，返回步骤3进行下一次训练，若满足合并条件的高斯分量有多个，则选择最小距离的高斯分量进行合并。

5.若训练得到的模型中某一高斯分量(P(w_i),μ_i,∑_i)权重系数大于t₂，并且协方差矩阵中有至少一维的方差(协方差矩阵对角线上元素即为方差)大于σ，则认为该高斯分量包含过量信息，应将其分裂处理：

其中E为全1的列向量，n用于调节高斯分布，经过分裂后高斯分量个数变为M+1，如果满足分裂条件的高斯分量有多个，则选取权重系数最大的分量进行分裂，返回步骤3.进行下一次训练。

6.SAGMM训练结束，得到后验条件概率矩阵P(X|λ)，保存λ。

1-5)利用步骤(3)中得到的源语音特征参数X和目标语音特征参数Y以及步骤(4)中得到的后验条件概率矩阵P(X|λ)进行训练，得到频率弯折因子和幅度调节因子，从而构建双线性频率弯折(BLFW,Bilinear Frequency Warping)和幅度调节(AS,AmplitudeScaling)语音转换函数，表示如下：

F(x)＝W_α(x,λ)+s(x,λ) (11)

1-6)建立源语音基音频率和目标语音基音频率之间的转换关系：

其中μ,σ²用于表示对数基音频率logf₀的均值和方差。

1-7)通过以上步骤，我们建立了源和目标语音特征参数之间的转换关系---公式(11)，源语音和目标语音对数基音频率之间的转换关系---公式(15)。

2)、如图2转换部分，具体实施步骤：

2-1)输入待转换的源说话人语音；

2-2)使用AHOdecoder语音分析模型提取源说话人的语音39阶MFCC特征参数X以及源语音对数基音频率参数logf_0X；

2-3)利用SAGMM训练时得到的λ＝{P(w_i),μ_i,Σ_i}和步骤(2)中提取的特征参数X，代入公式(1)，得到后验条件概率矩阵P(X|λ)；

2-4)利用BLFW+AS训练时得到的频率弯折因子α(x,λ)和幅度调节因子s(x,λ)以及步骤(3)中得到的后验条件概率矩阵P(X|λ)，分别代入公式(11)、(12)、(13)和(14)后，得到转换后语音的MFCC特征参数Y；

2-5)利用步骤(2)中得到的源语音对数基音频率参数logf_0X，代入公式(15)，得到转换后语音的对数基音频率参数logf_0Y；

2-6)使用AHOdecoder语音合成模型将步骤(4)中的Y和步骤(5)中的logf_0Y作为输入得到转换后的语音，如图3。

以上所述，只是本发明为进行详细、示范性的说明而呈现的较佳实例，本领域技术人员根据上述具体实例，通过各种等同替换所得到的技术方案，均应包含在本发明的权利要求范围及其等同范围之内。

Claims

1.一种语音转换方法，其特征在于包括两个部分：训练部分和转换部分，具体如下：

1)、训练部分步骤：

1-1)获取源说话人和目标说话人的平行语料库；

1-2)使用AHOcoder语音分析模型提取语音特征参数和对数基频；

2)、转换部分步骤：

2-1)输入待转换的源说话人语音；

2-2)使用AHOcoder语音分析模型提取特征参数和对数基频；

2.根据权利要求1所述的一种语音转换方法，其特征在于，训练部分步骤1-4)中所述的参数λ是根据说话人语音特征参数的具体分布来决定的。

3.根据权利要求1所述的一种语音转换方法，其特征在于，训练部分步骤1-5)中频率弯折因子和幅度调节因子是根据SAGMM训练得到的后验条件概率矩阵来训练得到的。