[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107068165B - 一种语音转换方法 - Google Patents

一种语音转换方法 Download PDF

Info

Publication number
CN107068165B
CN107068165B CN201611267431.XA CN201611267431A CN107068165B CN 107068165 B CN107068165 B CN 107068165B CN 201611267431 A CN201611267431 A CN 201611267431A CN 107068165 B CN107068165 B CN 107068165B
Authority
CN
China
Prior art keywords
voice
training
lambda
conversion
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611267431.XA
Other languages
English (en)
Other versions
CN107068165A (zh
Inventor
李燕萍
吕中良
崔立梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201611267431.XA priority Critical patent/CN107068165B/zh
Publication of CN107068165A publication Critical patent/CN107068165A/zh
Application granted granted Critical
Publication of CN107068165B publication Critical patent/CN107068165B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/935Mixed voiced class; Transitions

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音转换方法,该系统首先通过对平行语料库进行自适应高斯混合模型和双线性频率弯折加幅度调节的训练,得到语音转换所需的转换函数,然后使用该转换函数进行高质量的语音转换。本发明针对语音特征参数空间分布状况与高斯混合模型的相关关系,使用自适应高斯混合模型替代传统高斯混合模型,解决了高斯混合模型在进行语音特征参数分类时不精确的问题,并将自适应高斯混合模型和双线性频率弯折加幅度调节相结合,构建了一种高质量语音转换系统,在语音转换领域具有实用价值。

Description

一种语音转换方法
技术领域
本发明涉及语音转换领域,特别涉及一种高质量语音转换系统及实现方法。
背景技术
语音转换是指改变源说话人的语音个性特征,使之具有目标说话人的语音个性特征,也即使一个人说的语音经过转换后听起来像是另一个人说的语音,同时保留语义。通常衡量语音转换的效果有两个指标:相似度(转换后的语音和目标说话人语音个性特征之间的相似度)和清晰度(转换后语音的音质效果)。
典型的语音转换方法有:以高斯混合模型(GMM,Gaussian Mixture Model)为代表的统计映射方法,该方法采用最小均方误差(MMSE,Minimum Mean Squared Error)准则,使得源说话人的语音经过转换后与目标语音之间的误差最小,从而实现了比较好的语音相似性转换,但转换后的音质不够理想;以频率弯折(FW,Frequency Warping)为代表的基于共振峰映射的语音频谱转换方法,它利用了人的声道的生理特性与共振峰参数的相关性,取得了良好的音质转换效果,但在语音相似度上转换效果差强人意。
在语音转换领域,学者Daniel Erro将GMM和FW技术相结合,实现了较高语音相似度和较好的音质效果的语音转换,然而Daniel Erro在语音转换中采用GMM对语音特征参数进行固定混合度的软分类训练,限制了语音转换效果提升空间,其原因在于未考虑到不同人的语音特征参数统计分布不同,而GMM混合度与特征参数统计分布密切相关。
发明内容
本发明目的是提供一种高质量语音转换方法,该系统考虑了不同人的语音特征参数统计分布的不同,提供一种能够根据目标说话人的不同,自适应的更改GMM训练得到的分类情况,实现了更佳的语音转换。本发明具有较好的实用价值,可用于电影配音、语音翻译、保密通信等领域。
本发明采取的技术方案为训练部分和转换部分,具体如下:
1)、训练部分步骤:
1-1)获取源说话人和目标说话人的平行语料库;
1-2)使用AHOcoder语音分析模型提取语音特征参数和对数基频;
1-3)对步骤1-2)中的语音特征参数进行VTLN和DTW;VTLN为声道长度归一化VocalTract Length Normalization;
1-4)使用EM算法进行SAGMM训练,得到SAGMM参数λ,P(X|λ);SAGMM为自适应高斯混合模型Self-Adaptive Gaussian Mixture Model;
1-5)使用步骤1-4)中的后验条件概率矩阵P(X|λ)进行BLFW+AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基音频率和目标语音基音频率之间的转换函数;BLFW+AS为双线性频率弯折和幅度调节Bilinear Frequency Warping+Amplitude Scaling;
2)、转换部分步骤:
2-1)输入待转换的源说话人语音;
2-2)使用AHOcoder语音分析模型提取特征参数和对数基频;
2-3)使用SAGMM和训练时得到的参数λ,求取后验条件概率矩阵;
2-4)将频率弯折因子α(x,λ)和幅度调节因子s(x,λ)代入BLFW+AS转换函数,求得转换后的特征参数;
2-5)将对数基频代入训练时得到的基频转换函数得到转换后的对数基频;
2-6)使用AHOdecoder语音合成模型将转换后的特征参数和对数基频合成转换后的语音。
其中:训练部分步骤1-4)中所述的高斯分类数是根据说话人语音特征参数的具体分布来决定的。
训练部分步骤1-5)中频率弯折因子和幅度调节因子是根据SAGMM训练得到的后验条件概率矩阵来训练得到的。
有益效果
1、本发明使用SAGMM和BLFW+AS相结合来实现语音转换系统,该系统能够根据不同说话人的语音特征参数分布,自适应调节GMM的分量数,实现了高质量的语音转换。
2、本发明实现了完整的高质量语音转换系统,因此语音转换的应用场景下具有实用效果。
附图说明
图1是本发明的训练部分原理图;
图2是本发明的转换部分原理图;
图3是本发明语音转换效果图。
具体实施方式
下面结合说明书附图对本发明作进一步的详细说明。
本发明所述高质量语音转换方法分为两个部分:训练部分用于得到语音转换所需的参数和转换函数,而转换部分用于实现源说话人语音转换为目标说话人语音。
1)、如图1训练部分实施步骤:
1-1)获取源说话人和目标说话人语音平行语料库,平行语料库的获取可采用卡内基梅隆大学的开源ARCTIC语料库或者自行录制;
1-2)本发明使用AHOcoder语音分析模型分别提取源说话人和目标说话人的语音梅尔倒谱系数(MFCC,Mel-Frequency Cepstral Coefficient)和对数基音频率参数logf0
1-3)对步骤(2)中的源和目标语音的MFCC参数进行声道长度归一化(VTLN,VocalTract Length Normalization)和动态时间规整(DTW,Dynamic Time Warping);
1-4)建立SAGMM模型,采用期望最大化(EM,Expectation-Maximization)算法进行训练,并使用K-均值迭代方法得到EM训练的初始值。传统的高斯混合模型表示如下:
Figure GDA0002410889100000031
其中,X为P维的语音特征参数矢量,本发明中采用P=39,P(wi)表示各高斯分量的权重系数,且有
Figure GDA0002410889100000032
M为高斯分量的个数,N(X;μi;∑i)表示高斯分量的P维联合高斯概率分布,表示如下:
Figure GDA0002410889100000033
其中μi为均值矢量,∑i为协方差矩阵,λ={P(wi),μii},是GMM模型的模型参数,对λ的估算可以通过最大似然估计法(ML,Maximum Likelihood)实现,最大似然估计的目的在于使得条件概率P(X|λ)取得最大,对于语音特征参数矢量集合X={xn,n=1,2,...N}有:
Figure GDA0002410889100000034
此时:
λ=argλmax(P(X|λ)) (4)
求解公式(4)可使用EM算法,随着EM计算过程中迭代条件满足P(X|λk)≥P(X|λk-1),K是迭代的次数,直至模型参数λ。迭代过程中高斯分量权重系数P(wi)、均值向量μi、协方差矩阵Σi的迭代公式如下:
Figure GDA0002410889100000035
Figure GDA0002410889100000041
Figure GDA0002410889100000042
Figure GDA0002410889100000043
在SAGMM训练中,首先需要对各高斯分量的权重系数、均值向量、协方差矩阵和特征参数矢量之间的欧式距离进行综合分析,动态的调整高斯混合度。其训练过程如下:
1.设定SAGMM初始混合数M,高斯分量权重系数阈值t1,t2,特征参数矢量之间欧式距离阈值D和协方差阈值σ。
2.使用K-均值算法初始化SAGMM。
3.使用EM算法进行迭代训练。
4.若训练得到的模型中某一高斯分量N(P(wi);μi;Σi)权重系数小于t1,并且与其最邻近分量N(P(wj),μji)之间的欧式距离小于阈值D,则认为这两个分量包含信息较少且成分相似,可对其进行合并处理:
Figure GDA0002410889100000044
此时,高斯分量个数变为M-1,返回步骤3进行下一次训练,若满足合并条件的高斯分量有多个,则选择最小距离的高斯分量进行合并。
5.若训练得到的模型中某一高斯分量(P(wi),μi,∑i)权重系数大于t2,并且协方差矩阵中有至少一维的方差(协方差矩阵对角线上元素即为方差)大于σ,则认为该高斯分量包含过量信息,应将其分裂处理:
Figure GDA0002410889100000051
其中E为全1的列向量,n用于调节高斯分布,经过分裂后高斯分量个数变为M+1,如果满足分裂条件的高斯分量有多个,则选取权重系数最大的分量进行分裂,返回步骤3.进行下一次训练。
6.SAGMM训练结束,得到后验条件概率矩阵P(X|λ),保存λ。
1-5)利用步骤(3)中得到的源语音特征参数X和目标语音特征参数Y以及步骤(4)中得到的后验条件概率矩阵P(X|λ)进行训练,得到频率弯折因子和幅度调节因子,从而构建双线性频率弯折(BLFW,Bilinear Frequency Warping)和幅度调节(AS,AmplitudeScaling)语音转换函数,表示如下:
F(x)=Wα(x,λ)+s(x,λ) (11)
Figure GDA0002410889100000052
Figure GDA0002410889100000053
Figure GDA0002410889100000054
1-6)建立源语音基音频率和目标语音基音频率之间的转换关系:
Figure GDA0002410889100000055
其中μ,σ2用于表示对数基音频率logf0的均值和方差。
1-7)通过以上步骤,我们建立了源和目标语音特征参数之间的转换关系---公式(11),源语音和目标语音对数基音频率之间的转换关系---公式(15)。
2)、如图2转换部分,具体实施步骤:
2-1)输入待转换的源说话人语音;
2-2)使用AHOdecoder语音分析模型提取源说话人的语音39阶MFCC特征参数X以及源语音对数基音频率参数logf0X
2-3)利用SAGMM训练时得到的λ={P(wi),μii}和步骤(2)中提取的特征参数X,代入公式(1),得到后验条件概率矩阵P(X|λ);
2-4)利用BLFW+AS训练时得到的频率弯折因子α(x,λ)和幅度调节因子s(x,λ)以及步骤(3)中得到的后验条件概率矩阵P(X|λ),分别代入公式(11)、(12)、(13)和(14)后,得到转换后语音的MFCC特征参数Y;
2-5)利用步骤(2)中得到的源语音对数基音频率参数logf0X,代入公式(15),得到转换后语音的对数基音频率参数logf0Y
2-6)使用AHOdecoder语音合成模型将步骤(4)中的Y和步骤(5)中的logf0Y作为输入得到转换后的语音,如图3。
以上所述,只是本发明为进行详细、示范性的说明而呈现的较佳实例,本领域技术人员根据上述具体实例,通过各种等同替换所得到的技术方案,均应包含在本发明的权利要求范围及其等同范围之内。

Claims (3)

1.一种语音转换方法,其特征在于包括两个部分:训练部分和转换部分,具体如下:
1)、训练部分步骤:
1-1)获取源说话人和目标说话人的平行语料库;
1-2)使用AHOcoder语音分析模型提取语音特征参数和对数基频;
1-3)对步骤1-2)中的语音特征参数进行VTLN和DTW;VTLN为声道长度归一化VocalTract Length Normalization;
1-4)使用EM算法进行SAGMM训练,得到SAGMM参数λ,P(X|λ);SAGMM为自适应高斯混合模型Self-Adaptive Gaussian Mixture Model;
1-5)使用步骤1-4)中的后验条件概率矩阵P(X|λ)进行BLFW+AS训练,得到频率弯折因子α(x,λ)和幅度调节因子s(x,λ),从而构建BLFW+AS转换函数;使用对数基频的均值和方差建立源语音基音频率和目标语音基音频率之间的转换函数;BLFW+AS为双线性频率弯折和幅度调节Bilinear Frequency Warping+Amplitude Scaling;
2)、转换部分步骤:
2-1)输入待转换的源说话人语音;
2-2)使用AHOcoder语音分析模型提取特征参数和对数基频;
2-3)使用SAGMM和训练时得到的参数λ,求取后验条件概率矩阵;
2-4)将频率弯折因子α(x,λ)和幅度调节因子s(x,λ)代入BLFW+AS转换函数,求得转换后的特征参数;
2-5)将对数基频代入训练时得到的基频转换函数得到转换后的对数基频;
2-6)使用AHOdecoder语音合成模型将转换后的特征参数和对数基频合成转换后的语音。
2.根据权利要求1所述的一种语音转换方法,其特征在于,训练部分步骤1-4)中所述的参数λ是根据说话人语音特征参数的具体分布来决定的。
3.根据权利要求1所述的一种语音转换方法,其特征在于,训练部分步骤1-5)中频率弯折因子和幅度调节因子是根据SAGMM训练得到的后验条件概率矩阵来训练得到的。
CN201611267431.XA 2016-12-31 2016-12-31 一种语音转换方法 Active CN107068165B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611267431.XA CN107068165B (zh) 2016-12-31 2016-12-31 一种语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611267431.XA CN107068165B (zh) 2016-12-31 2016-12-31 一种语音转换方法

Publications (2)

Publication Number Publication Date
CN107068165A CN107068165A (zh) 2017-08-18
CN107068165B true CN107068165B (zh) 2020-07-24

Family

ID=59623671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611267431.XA Active CN107068165B (zh) 2016-12-31 2016-12-31 一种语音转换方法

Country Status (1)

Country Link
CN (1) CN107068165B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038872B (zh) * 2017-12-22 2021-08-31 中国海洋大学 一种基于动静态目标检测与实时压缩感知追踪研究方法
CN108206024B (zh) * 2017-12-29 2021-06-25 河海大学常州校区 一种基于变分高斯回归过程的语音数据处理方法
CN111031386B (zh) * 2019-12-17 2021-07-30 腾讯科技(深圳)有限公司 基于语音合成的视频配音方法、装置、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
CN103035236A (zh) * 2012-11-27 2013-04-10 河海大学常州校区 基于信号时序特征建模的高质量语音转换方法
CN105206259A (zh) * 2015-11-03 2015-12-30 常州工学院 一种语音转换方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224648B2 (en) * 2007-12-28 2012-07-17 Nokia Corporation Hybrid approach in voice conversion

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101064104A (zh) * 2006-04-24 2007-10-31 中国科学院自动化研究所 基于语音转换的情感语音生成方法
CN103035236A (zh) * 2012-11-27 2013-04-10 河海大学常州校区 基于信号时序特征建模的高质量语音转换方法
CN105206259A (zh) * 2015-11-03 2015-12-30 常州工学院 一种语音转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Voice conversion algorithm based on Gaussian mixture model with dynamic frequency warping of STRAIGHT spectrum;Toda T, Saruwatari H, Shikano K;<Acoustics, Speech, and Signal Processing>;20011230;841-844 *
基于混合Gauss归一化的语音转换方法;宋鹏,王浩,赵力;《清华大学学报》;20130630;第53卷(第6期);757-761 *
采用模型自适应的语音转换方法;宋鹏,王浩,赵力;《信号处理》;20131030;第29卷(第10期);1294-1299 *

Also Published As

Publication number Publication date
CN107068165A (zh) 2017-08-18

Similar Documents

Publication Publication Date Title
CN107301859B (zh) 基于自适应高斯聚类的非平行文本条件下的语音转换方法
Saito et al. Non-parallel voice conversion using variational autoencoders conditioned by phonetic posteriorgrams and d-vectors
Alam et al. Multitaper MFCC and PLP features for speaker verification using i-vectors
Paul et al. Enhancing speech intelligibility in text-to-speech synthesis using speaking style conversion
CN107103914B (zh) 一种高质量的语音转换方法
Van Segbroeck et al. Rapid language identification
Tian et al. Correlation-based frequency warping for voice conversion
CN107068165B (zh) 一种语音转换方法
Ohtani et al. GMM-based bandwidth extension using sub-band basis spectrum model
Popa et al. Local linear transformation for voice conversion
Hwang et al. Incorporating global variance in the training phase of GMM-based voice conversion
Ming et al. CLOSE—a data-driven approach to speech separation
Liu et al. On the Use of Pitch Features for Disordered Speech Recognition.
Liu et al. Use of bimodal coherence to resolve the permutation problem in convolutive BSS
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
Saheer et al. Combining vocal tract length normalization with hierarchical linear transformations
Hwang et al. Alleviating the over-smoothing problem in GMM-based voice conversion with discriminative training.
Skosan et al. Modified segmental histogram equalization for robust speaker verification
Yamagishi et al. Adaptive training for hidden semi-Markov model [speech synthesis applications]
Ohtani et al. Non-parallel training for many-to-many eigenvoice conversion
Ahangar et al. Voice conversion based on a mixture density network
Ho et al. Non-parallel voice conversion with controllable speaker individuality using variational autoencoder
CN108510995B (zh) 面向语音通信的身份信息隐藏方法
Chadha et al. A comparison of Multi-Layer Perceptron and Radial Basis Function neural network in the voice conversion framework
Saheer et al. Implementation of VTLN for statistical speech synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant