[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN103035236A - 基于信号时序特征建模的高质量语音转换方法 - Google Patents

基于信号时序特征建模的高质量语音转换方法 Download PDF

Info

Publication number
CN103035236A
CN103035236A CN2012104904646A CN201210490464A CN103035236A CN 103035236 A CN103035236 A CN 103035236A CN 2012104904646 A CN2012104904646 A CN 2012104904646A CN 201210490464 A CN201210490464 A CN 201210490464A CN 103035236 A CN103035236 A CN 103035236A
Authority
CN
China
Prior art keywords
signal
kalman filter
parameters
parameter
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104904646A
Other languages
English (en)
Other versions
CN103035236B (zh
Inventor
徐宁
鲍静益
汤一彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tengruifeng Technology Co ltd
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN201210490464.6A priority Critical patent/CN103035236B/zh
Publication of CN103035236A publication Critical patent/CN103035236A/zh
Application granted granted Critical
Publication of CN103035236B publication Critical patent/CN103035236B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于信号时序特征建模的高质量语音转换方法,针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果。本发明提供的基于信号时序特征的高质量语音转换方法,充分利用了语音信号参数间的强烈相关性,通过模拟参数随时间变化的物理过程,构造了一种新型的混合式卡尔曼滤波器,并将其用于语音转换的参数映射过程,设计了一套特殊的、将卡尔曼滤波器参数与语音信号物理属性相关联的转换算法,实现说话人个性特征的变换。

Description

基于信号时序特征建模的高质量语音转换方法
技术领域
本发明涉及语音转换技术,是一种结合语音识别和语音合成技术,实现变换一个说话人的声音,使其听起来像另外某个特定的说话人声音的技术,尤其涉及一种基于信号时序特征建模的高质量语音转换方法。
背景技术
语音转换技术是语音信号处理领域近年来新兴的研究分支,涵盖了语音识别和语音合成等领域的内容,拟在保持语义内容不变的情况下,通过改变一个特定说话人(被称为源说话人)的话音个性特征,使他(或她)说的话被听者认为是另一个特定说话人(被称为目标说话人)说的话。语音转换的主要任务包括提取代表说话人个性的特征参数并进行数学变换,然后将变换后的参数重构成语音。在这过程中,既要保持重构语音的听觉质量,又要兼顾转换后的个性特征是否准确。
经过多年的发展,语音转换领域已经涌现出一些高效实用的算法,其中以高斯混合模型为代表的统计转换方法目前已俨然成为了该领域公认的标准。但是这类算法亦存在某些弊端,例如:人为假设数据满足独立同分布的条件,并在特征转换的过程中强制转换方式以逐帧的次序进行。这种忽略了帧间参数相关性的做法虽然极大的简化了问题,降低了求解难度,但是却违背了语音信号存在强相关性的事实,导致模型描述信号时变特性的能力下降,最终影响语音转换的效果。
针对上述问题,目前已存在一些应对方案。例如,比较典型的是利用“差分特征参数”的思想。所谓“差分特征参数”是指:在进行高斯混合模型建模时,将原先的联合特征矢量扩展成包含一阶差分的特征矢量。这样一来,帧间参数的渐变特性就被吸收进了新的特征参数,从而在一定程度上弥补了该模型缺乏对动态特性建模的缺陷。另一方面,为了彻底避免高斯混合模型固有的独立性假设的缺陷,一些新的语音转换方案开始采用隐马尔可夫模型作为基本映射模型。该模型的主要特点是可以精确地控制信号的时序特征,并且在物理层面上与语音信号的产生和转变有着莫大的联系。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种基于信号时序特征建模的高质量语音转换方法,通过混合式卡尔曼滤波器,给出了模型利用原始数据更新自身参数的算法;并在平行数据的条件下,将语音信号中包含的语义信息哈说话人个性信息分别赋予模型的隐层和显层,是一种在保持语义信息不便的条件下,灵活转换说话人个性信息的方法。
技术方案:为实现上述目的,本发明采用的技术方案为:
基于信号时序特征建模的高质量语音转换方法,针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果;具体包括如下步骤:
(1)采用语音分析模型对原始语音信号进行分析;
(2)从分析得到的参数中提取与音素相关的特征参数集合;
(3)对源和目标的特征参数集合进行归一化操作,实现参数集合的对齐;
(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型参数的训练和估计;
(5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征参数映射方法映射任意的语音信号参数;
(6)对转换后的特征参数进行反变换操作,即进行参数内插和相位补偿,最后用语音合成模型合成为高质量的语音;
上述步骤中,步骤(1)~(4)为训练步骤,步骤(5)~(6)为转换步骤;所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增一个隐层,所述隐层用于描述时序信号状态之间的渐变效果。
所述混合式卡尔曼滤波器,由于隐层能够使得每个时刻的观察变量均有可能处于不同的状态,对每个时刻观察到的变量通过计算状态概率、观测概率以及与之对应的后验概率,获得对不同时刻的观察变量数据底层属性的分类知识;利用获得的分类知识,设计变量转移规则,用以描述信号随时间变化的特征;利用贝叶斯推理,使模型参数的估计存在不确定性,即保留了每种状态的后验概率,从而形成了所谓的混合度。该混合式尔曼滤波器克服了经典卡尔曼滤波器在跟踪快变时序信号时出现的发散式困难,使得结果更加精确。
所述步骤(1)中的语音分析模型的工作过程包括如下步骤:
(a1)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计;
(a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(a3)在清音阶段,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。
与步骤(1)中的语音分析模型相对应的,步骤(6)中的语音合成模型的工作过程包括如下步骤:
(b1)将浊音部分信号的离散的谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真;
(b2)将清音部分信号的白噪声信号通过一个全极点滤波器,即可得到近似重构信号;
(b3)将浊音部分信号和清音部分信号进行叠加,即得到重构的语音信号。
所述步骤(2)包括从离散的谐波幅度值中估计出适用于语音转换任务的线谱频率系数工作过程,该工作过程包括如下步骤:
(b1)对离散的谐波幅度求取平方;
(b2)根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;
(b3)将线性预测系数转换为目标线谱频率系数。
所述步骤(3)中实现参数集合的对齐的对其准则为:对于两个不等长的特征参数序列,利用动态规划的思想将其中一者的时间轴非线性的映射到另一者的时间轴上,从而实现一对应的匹配关系;在现参数集合的对齐的过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数。
所述步骤(5)中的特征参数映射方法包括如下步骤:
(c1)充分利用平行数据的包含相同语义信息和不同说话人个性特征信息的特点,在假设隐层状态变量代表语义信息的基础上,保证源和目标各自的混合式卡尔曼滤波器的隐层结构处于共享状态;接着在期望最大化准则下估计观测层变量的统计特性;
(c2)在步骤(c1)的基础上,比较源和目标模型结构的差异性,将这种差异性视为说话人不同个性的一种体现;
(c3)结合卡尔曼滤波器描述时变信号的能力,将这种差异性从源的特征空间映射到目标的特征空间,从而完成参数的转换过程。
有益效果:本发明提供的基于信号时序特征的高质量语音转换方法,充分利用了语音信号参数间的强烈相关性,通过模拟参数随时间变化的物理过程,构造了一种新型的混合式卡尔曼滤波器,并将其用于语音转换的参数映射过程,设计了一套特殊的、将卡尔曼滤波器参数与语音信号物理屈性相关联的转换算法,实现说话人个性特征的变换。
附图说明
图1为混合式卡尔曼滤波器结构;
图2为本发明涉及的系统训练框图;
图3为本发明涉及的系统转换框图。
具体实施方式
下面结合附图对本发明作更进一步的说明。
基于信号时序特征建模的高质量语音转换方法,针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果;具体包括如下步骤:
(1)采用语音分析模型对原始语音信号进行分析;
(2)从分析得到的参数中提取与音素相关的特征参数集合;
(3)对源和目标的特征参数集合进行归一化操作,实现参数集合的对齐;
(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型参数的训练和估计;
(5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征参数映射方法映射任意的语音信号参数;
(6)对转换后的特征参数进行反变换操作,即进行参数内插和相位补偿,最后用语音合成模型合成为高质量的语音;
上述步骤中,步骤(1)~(4)为训练步骤,步骤(5)~(6)为转换步骤;所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增一个隐层,所述隐层用于描述时序信号状态之间的渐变效果。
本案是针对高斯混合模型在语音转换中存在的问题,提出一种新的解决方案,本案有两个关键点:一是设计了一种混合式的卡尔曼滤波器,并给出了模型利用原始数据更新自身参数的算法;二是在平行数据的条件下,将语音信号中包含的语义信息和说话人个性信息分别赋予模型的隐层和显层,提出了一种在保持语义信息不变的条件下,灵活转换说话人个性信息的方法。
混合式卡尔曼滤波器结构如图1所示。其中,加阴影的圆形表示观测变量,白色的方形表示隐变量。从图中可以明显看到:混合式卡尔曼滤波器有两个隐层,其中一层(以变量Z={z1,z2,…zt,…}表示)用来描述状态变量所屈的类别,是本发明的创新点之一。另外,X={x1,x2,…,xt,…}用来表示连续的状态变量,Y={y1,y2,…,yt,…}则表示观测变量本身。整个过程可以用下式表示:
xt=Atxt-1+wt    (1)
yt=Btxt+vt      (2)
其中:
At∈{Am,m=1,2,…M},B∈{Bm,m=1,2,…M}    (3)
wt∈{wm,m=1,2,…M},v∈{vm,m=1,2,…M}
联合(1)-(3)式说明:所有的参数均有M个类别。在每个时刻,该模型会从M个候选类别中预测出当前过程应该属于哪个类别,然后用该类别的模型参数拟合数据。假设wm和vm均服从均值为0,协方差分别为Qm和Rm的多维高斯分布,则整个未知模型参数集合可以表示为:Θ={Θ1,Θ2,…,Θm,…ΘM},其中Θm={Am,Bm,Qm,Rm}。
在本发明中,混合式卡尔曼滤波器的模型参数是通过期望最大化方法估计出来的,即将目标函数定义为:
Q(Θ,Θ(i-1))=E[logP(X,Y,Z 、Θ)|Y,Θ(i-1)]
=∫∫logP(X,Y,Z|Θ)·P(X,Z|Y,Θ(i-1))dXdZ    (4)
=∫∫logP(X,Y,Z|Θ)·P(X|Z,Y,Θ(i-1))·P(Z|Y,Θ(i-1))dXdZ
其中Θ(i-1)表示上次迭代过后得到的参数估计值,Θ表示本次待优化的参数集合。期望最大化的做法是通过循环迭代的方式估计模型参数值,即首先估计参数的均值,然后通过最优化求取最优值。逐次迭代,直到算法收敛。具体而言,(4)式可以等效为:
Q ( Θ , Θ ( i - 1 ) ) = Σ z { ∫ [ log P ( X , Y | Z , Θ ) + log P ( Z | Θ ) ] · P ( X | Y , Z , Θ ( i - 1 ) ) dX }
× P ( Z | Y , Θ ( i - 1 ) )
= Σ z { ∫ log P ( X , Y | Z , Θ ) · P ( X | Y , Z , Θ ( i - 1 ) ) dX + log P ( Z | Θ ) }
× P ( Z | Y , Θ ( i - 1 ) ) ( 5 )
= Σ z E [ log P ( X , Y | Z , Θ ) | Y , Z , Θ ( i - 1 ) ] · P ( Z | Y , Θ ( i - 1 ) )
+ Σ z log P ( Z | Θ ) · P ( Z | Y , Θ ( i - 1 ) )
= Q 1 + Q 2
下面的步骤分别对Q1和Q2进行优化。考虑到观测变量和隐变量均服从高斯分布的假设,因此将其代入Q1,可以得到如下结果:
A ^ m = ( Σ t = 2 T ω t m · E [ x t x t - 1 T ] ) ( Σ t = 2 T ω t m · E [ x t - 1 x t - 1 T ] ) - 1 - - - ( 6 )
B ^ m = ( Σ t = 1 T ω t m · E [ y t x t T ] ) ( Σ t = 1 T ω t m · E [ x t x t T ] ) - 1 - - - ( 7 )
Q ^ m = Σ t = 2 T ω t m · E [ ( x t - A ^ m x t - 1 ) ( x t - A ^ m x t - 1 ) T ] / Σ t = 2 T ω t m - - - ( 8 )
R ^ m = Σ t = 1 T ω t m E [ ( y t - B ^ m x t ) ( y t - B ^ m x t ) T ] / Σ t = 1 T ω t m - - - ( 9 )
另一方面,通过引入拉格朗日因子,对Q2求解约束问题,可以得到如下的结果:
ω t m = p ( m | y t , Θ ( i - 1 ) ) = p ( y t | m , Θ ( i - 1 ) ) · p ( m | Θ ( i - 1 ) ) Σ i = 1 M p ( y t | i , Θ ( i - 1 ) ) · p ( i | Θ ( i - 1 ) ) - - - ( 10 )
联立(6)-(10)式,最终可以得到本次模型参数的估计值。注意到上述公式中包含了对未知随机变量求取数学期望的操作。幸运的是,这些看似复杂的数学期望可以通过经典的卡尔曼前向和后向滤波公式推理得到。因此,整个问题就迎刃而解了。
综上所述,利用期望最大化方法估计混合式卡尔曼滤波器结构参数的步骤可以概括如下:①令迭代计数器i=0,随机初始化模型参数Θ(0),设定最大迭代步骤ζ;②令i=i+1,计算逐帧计算(6)-(9)式中包含的数学期望,并计算(10)式,最终代入(6)-(9)式,得估计的模型参数集合;③若迭代计数器i<ζ,则跳转到步骤②继续执行,否则终止算法程序。
本发明的创新之处二体现在:将上述混合式卡尔曼滤波器有机地嵌入语音转换系统,使其发挥作用。具体而言,考虑到所选用的数据库是平行数据库,因此必然包含相同的语义信息。现利用混合式卡尔曼滤波器的结构特征,从包含的隐层和显层中提取隐层信息,并认为该层信息是语义信息的等效表示,则说话人个性特征信息可以交给显层进行处理。基于这样一种假设,只需要对模型稍作修改,使得隐层知识共享,则源和目标的卡尔曼模型必将在建模的过程中体现出共同的语义特征和差异化的说话人个性特征。具体的操作步骤描述如下。
训练阶段:
①将源和目标的特征参数集合通过动态时引间规整算法进行对齐,使得对齐后的参数集合符合平行数据的要求。
②利用期望最大化算法估计源模型的参数,并反向求解隐层序列。对于隐层的每个节点,按所属类别的概率大小进行融合,即用各种可能性的线性组合来表征节点信息,最终获得训练阶段的源隐层序列的估计值。
③根据隐层信息共享的假设,训练阶段的目标隐层序列应该等于源隐层序列。因此,利用该隐层序列的估计值,并结合卡尔曼前向和后向滤波,可以得到关于目标模型的差异性信息。
转换阶段:
①通过语音分析模型的分析,获得转换阶段源特征参数序列。
②在给定特征参数序列以及训练得到的模型结构参数的基础上,推测隐层信息,即通过(1)式逐步迭代计算。当前时刻特征参数所屈类别可以近似用(10)式估计得到。
③将转换阶段的源隐层序列信息和训练阶段得到的目标模型参数结合起来,可以预测转换阶段目标观测序列,即迭代调用(2)式进行计算。在这过程中,需要进行融合操作,即根据后验概率的大小,将所有混合度的可能性加权求和。最终将融合后的观测值作为对预测结果的近似估计。
下面结合实例对本发明作进一步说明。
在训练阶段:
①源和目标人的语音通过谐波加随机模型进行分解,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值。具体细节描述如下:
a.对语音信号进行分帧,帧长20ms,帧重叠间隔10ms。
b.在每帧中,用自相关法估计基频,若该帧为清音帧,则设置基频等于零。
c.对于浊音帧(即基频不为零的帧),假设语音信号可以由一系列的正弦波叠加而成:
s h ( n ) = Σ l = - L L C l e j ω 0 n - - - ( 11 )
式中L为正弦波的个数,{Cl}为正弦波的复幅度。令sh表示sh(n)在一帧内的样点所组成的矢量,则(11)式可以改写成:
通过最小二乘算法可以确定以上的{Cl}:
ϵ = Σ n = - N 2 N 2 w 2 ( n ) · ( s ( n ) - s h ( n ) ) 2 - - - ( 13 )
其中s(n)是真实语音信号,w(n)是窗函数,一般取汉明窗。将窗函数也改写成矩阵形式:
Figure BDA00002471901000081
则最优的x可以这样得到:
WBx = Ws ⇒ x opt = B H W H Ws - - - ( 15 )
d.得到了{Cl},则谐波幅度和相位值如下:
Al=2|Cl|=2|C-l|,
Figure BDA00002471901000083
②由于原始谐波加噪声模型参数维数较高,不便于后续计算,因此必须对其进行降维。由于基频轨迹是一维参数,因此,降维的主要对象是声道幅度谱参数和相位参数。同时,降维的目标是将声道参数转化为经典的线性预测参数,进而产生适用于语音转换系统的线性谱频率参数。求解步骤如下:
a.分别求取离散的L个幅度值Al的平方,并将其认为是离散功率谱的采样值P(ωl)。
b.根据帕斯卡定律,功率谱密度函数和自相关函数是一对傅立叶变换对,即
Figure BDA00002471901000084
因此我们可以通过求解下式得到对线性预测参数系数的初步估值:
Figure BDA00002471901000085
其中a1,a2,…,ap是p阶线性预测参数系数。
c.将p阶线性预测参数系数代表的全极点模型转换成时域冲激响应函数h*[n]:
h * [ n ] = 1 L Re { Σ l 1 A ( e j ω l ) e j ω l n } - - - ( 18 )
其中 A ( e j ω l ) = A ( z ) | z = e jω l = 1 + a 1 z - 1 + a 2 z - 2 + . . . + a p z - p . 可以证明,h*和估计得到的自相关序列R*满足:
Σ i = 0 p a i R * ( n - i ) = h * [ - n ] - - - ( 19 )
在满足板仓-斋田距离(Itakura-Satio,IS)距离最小化的情况下,有真实的R和估计的R*的关系如下:
Σ i = 0 p a i R * ( n - i ) = Σ i = 0 p a i R ( n - i ) - - - ( 20 )
d.于是将(19)式代替(20)式,并重估计(17)式,有:
Figure BDA00002471901000092
e.用IS准则评估误差,如果误差大于设定的阈值,则重复步骤c~e。反之,则停止迭代。
得到的线性预测参数系数通过联立求解下面两个等式,转化为线性谱频率参数:
P(z)=A(z)+z-(p+1)A(z-1)    (22)
Q(z)=A(z)-z-(p+1)A(z-1)
③通过步骤②得到的源和目标的线性谱频率参数,用动态时间规整算法进行对齐。所谓的“对齐”是指:使得对应的源和目标的线性谱频率在设定的失真准则上具有最小的失真距离。这样做的目的是:使得源和目标人的特征序列在参数的层面上关联,便于后续统计模型学习其中的映射规律。动态时间规整算法步骤简要概述如下:
对于同一个语句的发音,假定源说话人的声学个性特征参数序列为
Figure BDA00002471901000093
而目标说话人的特征参数序列为
Figure BDA00002471901000094
且Nx≠Ny。设定源说话人的特征参数序列为参考模板,则动态时间规整算法就是要寻找时间规整函数使得目标特征序列的时间轴ny非线性地映射到源特征参数序列的时间轴nx,从而使得总的累积失真量最小,在数学上可以表示为:
其中
Figure BDA00002471901000097
表示第ny帧的目标说话人特征参数和第帧源说话人特征参数之间的某种测度距离。在动态时间规整的规整过程中,规整函数
Figure BDA00002471901000099
是要满足以下的约束条件的,有边界条件和连续性条件分别为:
Figure BDA000024719010000910
Figure BDA000024719010000911
Figure BDA00002471901000101
动态时间规整是一种最优化算法,它把一个N阶段决策过程化为N个单阶段的决策过程,也就是转化为逐一做出决策的N个子问题,以便简化计算。动态时间规整的过程一般是从最后一个阶段开始进行,也即它是一个逆序过程,其递推过程可以表示为:
D(ny+1,nx)=d(ny+1,nx)+min[D(ny,nx)g(ny,nx),D(ny,nx-1),D(ny,nx-2)]    (26)
其中,
Figure BDA00002471901000102
g(ny,nx)是为了ny,nx的取值满足时间规整函数的约束条件。
④计算平均基频比:认为源和目标的基频序列服从单高斯分布,然后估计高斯模型的参数,即均值μ和方差σ。
⑤将动态时间规整对齐后的特征参数作为混合式卡尔曼滤波器的输入,通过期望最大化方法学习其结构参数。同时,根据隐层信息共享的原则,推算出目标模型的结构参数。具体操作步骤见发明内容部分的描述。
在转换阶段:
①待转换的语音用谐波加噪声模型进行分析,得到基音频率轨迹和谐波声道谱参数的幅度值和相位值,该过程和训练阶段中的第一步相同。
②和训练阶段一样,将谐波加噪声模型参数转换为线性谱频率参数。
③利用训练阶段得到的有关基频的模型参数,设计基频转换函数为:
log f 0 ′ = μ y + σ y σ x ( log f 0 - μ x ) - - - ( 27 )
其中f′0是转换后的基频,μy,μx分别是训练出来的源和目标高斯模型的均值,同样,σy,σx分别是源和目标高斯模型的方差。
④将训练好的混合式卡尔曼滤波器看作泛函数,用于映射源特征参数。即将源线性谱频率参数作为输入,提供给该模型进行迭代预测,最终得到目标特征参数集合。具体步骤见发明内容的相关部分。
⑤将转换后的线性谱频率参数反变换为谐波加噪声模型系数,然后和修改后的基频轨迹一起合成转换后的语音,详细步骤如下:
a.将获得的
Figure BDA00002471901000104
用正弦模型的定义合成第k的语音,即:
b.为了减少帧间交替时产生的误差,采用叠接相加法合成整个语音,即对于任意相邻的两帧,有:
s ( kN + m ) = ( N - m N ) · s ( k ) ( m ) + ( m N ) · s ( k + 1 ) ( m - N ) , 0 ≤ m ≤ N - - - ( 29 )
其中N表示一帧语音中包含的样点数。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.基于信号时序特征建模的高质量语音转换方法,其特征在于:针对源和目标的平行数据,考虑对其时序特征进行建模和跟踪,利用混合式卡尔曼滤波器,并在期望最大化准则下估计模型结构参数,最终利用该模型映射语音的特征参数集合,实现高质量的语音转换效果;具体包括如下步骤:
(1)采用语音分析模型对原始语音信号进行分析;
(2)从分析得到的参数中提取与音素相关的特征参数集合;
(3)对源和目标的特征参数集合进行归一化操作,实现参数集合的对齐;
(4)将对齐的参数集合分别用作混合式卡尔曼滤波器的输入和输出,实现模型参数的训练和估计;
(5)将训练好的卡尔曼滤波器看作通用的泛函映射函数,基于特征参数映射方法映射任意的语音信号参数;
(6)对转换后的特征参数进行反变换操作,即进行参数内插和相位补偿,最后用语音合成模型合成为高质量的语音;
上述步骤中,步骤(1)~(4)为训练步骤,步骤(5)~(6)为转换步骤;所述混合式卡尔曼滤波器的结构为在经典的卡尔曼滤波器结构上新增一个隐层,所述隐层用于描述时序信号状态之间的渐变效果。
2.根据权利要求1所述的基于信号时序特征建模的高质量语音转换方法,其特征在于:所述步骤(1)中的语音分析模型的工作过程包括如下步骤:
(a1)对语音信号进行固定时长的分帧,用互相关法对基音频率进行估计;
(a2)在浊音信号部分设置一个最大浊音频率分量,用来划分谐波成分和随机成分的主能量区域;再利用最小二乘算法估计得到离散的谐波幅度值和相位值;
(a3)在清音阶段,利用经典的线性预测分析法对其进行分析,从而得到线性预测系数。
3.根据权利要求2所述的基于信号时序特征建模的高质量语音转换方法,其特征在于:所述步骤(2)包括从离散的谐波幅度值中估计出适用于语音转换任务的线谱频率系数工作过程,该工作过程包括如下步骤:
(b1)对离散的谐波幅度求取平方;
(b2)根据功率谱密度函数和自相关函数的一一对应关系,得到关于线性预测系数的托普里茨矩阵方程,求解该方程;
(b3)将线性预测系数转换为目标线谱频率系数。
4.根据权利要求1所述的基于信号时序特征建模的高质量语音转换方法,其特征在于:所述步骤(3)中实现参数集合的对齐的对其准则为:对于两个不等长的特征参数序列,利用动态规划的思想将其中一者的时间轴非线性的映射到另一者的时间轴上,从而实现一一对应的匹配关系;在现参数集合的对齐的过程中,通过迭代优化一个预设的累积失真函数,并限制搜索区域,最终获得时间匹配函数。
5.根据权利要求1所述的基于信号时序特征建模的高质量语音转换方法,其特征在于:所述步骤(5)中的特征参数映射方法包括如下步骤:
(c1)充分利用平行数据的包含相同语义信息和不同说话人个性特征信息的特点,在假设隐层状态变量代表语义信息的基础上,保证源和目标各自的混合式卡尔曼滤波器的隐层结构处于共享状态;接着在期望最大化准则下估计观测层变量的统计特性;
(c2)在步骤(c1)的基础上,比较源和目标模型结构的差异性,将这种差异性视为说话人不同个性的一种体现;
(c3)结合卡尔曼滤波器描述时变信号的能力,将这种差异性从源的特征空间映射到目标的特征空间,从而完成参数的转换过程。
6.根据权利要求2所述的基于信号时序特征建模的高质量语音转换方法,其特征在于:所述步骤(6)中的语音合成模型的工作过程包括如下步骤:
(b1)将浊音部分信号的离散的谐波幅度和相位值用作正弦信号的幅度值和相位值,并进行叠加;运用内插技术和相位补偿技术使得重构信号在时域波形上不产生失真;
(b2)将清音部分信号的白噪声信号通过一个全极点滤波器,即可得到近似重构信号;
(b3)将浊音部分信号和清音部分信号进行叠加,即得到重构的语音信号。
CN201210490464.6A 2012-11-27 2012-11-27 基于信号时序特征建模的高质量语音转换方法 Expired - Fee Related CN103035236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210490464.6A CN103035236B (zh) 2012-11-27 2012-11-27 基于信号时序特征建模的高质量语音转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210490464.6A CN103035236B (zh) 2012-11-27 2012-11-27 基于信号时序特征建模的高质量语音转换方法

Publications (2)

Publication Number Publication Date
CN103035236A true CN103035236A (zh) 2013-04-10
CN103035236B CN103035236B (zh) 2014-12-17

Family

ID=48022068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210490464.6A Expired - Fee Related CN103035236B (zh) 2012-11-27 2012-11-27 基于信号时序特征建模的高质量语音转换方法

Country Status (1)

Country Link
CN (1) CN103035236B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN105425319A (zh) * 2015-09-16 2016-03-23 河海大学 基于地面测量数据校正的降雨卫星暴雨同化方法
CN106782599A (zh) * 2016-12-21 2017-05-31 河海大学常州校区 基于高斯过程输出后滤波的语音转换方法
CN107068165A (zh) * 2016-12-31 2017-08-18 南京邮电大学 一种语音转换方法
CN107103914A (zh) * 2017-03-20 2017-08-29 南京邮电大学 一种高质量的语音转换方法
CN108681709A (zh) * 2018-05-16 2018-10-19 深圳大学 基于骨传导振动与机器学习的智能输入方法及系统
CN110097193A (zh) * 2019-04-28 2019-08-06 第四范式(北京)技术有限公司 训练模型的方法及系统和预测序列数据的方法及系统
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108613679B (zh) * 2018-06-14 2020-06-16 河北工业大学 一种移动机器人扩展卡尔曼滤波同步定位与地图构建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751921A (zh) * 2009-12-16 2010-06-23 南京邮电大学 一种在训练数据量极少条件下的实时语音转换方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ARANTZA DEL POZO: "Voice Source and Duration Modelling for Voice Conversion and Speech Repair", 《DISSERTATION SUBMITTED TO THE UNIVERSITY OF CAMBRIDGE》, 30 April 2008 (2008-04-30), pages 32 - 37 *
NING XU, ZHEN YANG, AND WEI-PING ZHU: "Modeling Articulatory Movements for Voice Conversion Using State Space Model", 《NATURAL COMPUTATION, 2009. ICNC "09. FIFTH INTERNATIONAL CONFERENCE ON》, vol. 5, 16 August 2009 (2009-08-16), pages 236 - 240 *
NING XU,ZHEN YANG,HAIYAN GUO: "Voice conversion with a strategy for separating speaker individuality using state-space model", 《WIRELESS COMMUNICATIONS, NETWORKING AND INFORMATION SECURITY (WCNIS), 2010 IEEE INTERNATIONAL CONFERENCE ON》, 27 June 2010 (2010-06-27), pages 298 - 301 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103413548B (zh) * 2013-08-16 2016-02-03 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN103413548A (zh) * 2013-08-16 2013-11-27 中国科学技术大学 一种基于受限玻尔兹曼机的联合频谱建模的声音转换方法
CN105425319B (zh) * 2015-09-16 2017-10-13 河海大学 基于地面测量数据校正的降雨卫星暴雨同化方法
CN105425319A (zh) * 2015-09-16 2016-03-23 河海大学 基于地面测量数据校正的降雨卫星暴雨同化方法
CN106782599A (zh) * 2016-12-21 2017-05-31 河海大学常州校区 基于高斯过程输出后滤波的语音转换方法
CN107068165A (zh) * 2016-12-31 2017-08-18 南京邮电大学 一种语音转换方法
CN107068165B (zh) * 2016-12-31 2020-07-24 南京邮电大学 一种语音转换方法
CN107103914A (zh) * 2017-03-20 2017-08-29 南京邮电大学 一种高质量的语音转换方法
CN107103914B (zh) * 2017-03-20 2020-06-16 南京邮电大学 一种高质量的语音转换方法
CN108681709A (zh) * 2018-05-16 2018-10-19 深圳大学 基于骨传导振动与机器学习的智能输入方法及系统
WO2019218725A1 (zh) * 2018-05-16 2019-11-21 深圳大学 基于骨传导振动与机器学习的智能输入方法及系统
CN108681709B (zh) * 2018-05-16 2020-01-17 深圳大学 基于骨传导振动与机器学习的智能输入方法及系统
CN110097193A (zh) * 2019-04-28 2019-08-06 第四范式(北京)技术有限公司 训练模型的方法及系统和预测序列数据的方法及系统
CN110880315A (zh) * 2019-10-17 2020-03-13 深圳市声希科技有限公司 一种基于音素后验概率的个性化语音和视频生成系统

Also Published As

Publication number Publication date
CN103035236B (zh) 2014-12-17

Similar Documents

Publication Publication Date Title
CN103035236B (zh) 基于信号时序特征建模的高质量语音转换方法
CN101751921B (zh) 一种在训练数据量极少条件下的实时语音转换方法
CN105023580B (zh) 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
Weninger et al. Single-channel speech separation with memory-enhanced recurrent neural networks
CN103531205B (zh) 基于深层神经网络特征映射的非对称语音转换方法
Sun et al. Unseen noise estimation using separable deep auto encoder for speech enhancement
Deng et al. Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition
CN102664003B (zh) 基于谐波加噪声模型的残差激励信号合成及语音转换方法
Du et al. Speaker augmentation for low resource speech recognition
CN114141238A (zh) 一种融合Transformer和U-net网络的语音增强方法
Wang et al. Neural harmonic-plus-noise waveform model with trainable maximum voice frequency for text-to-speech synthesis
CN110648684B (zh) 一种基于WaveNet的骨导语音增强波形生成方法
CN102568476B (zh) 基于自组织特征映射网络聚类和径向基网络的语音转换法
Juvela et al. Speaker-independent raw waveform model for glottal excitation
Saito et al. Text-to-speech synthesis using STFT spectra based on low-/multi-resolution generative adversarial networks
Fei et al. Research on speech emotion recognition based on deep auto-encoder
Saito et al. Voice conversion using input-to-output highway networks
Parmar et al. Effectiveness of cross-domain architectures for whisper-to-normal speech conversion
CN106782599A (zh) 基于高斯过程输出后滤波的语音转换方法
CN104392717A (zh) 一种基于声道谱高斯混合建模的快速语音转换系统及其方法
Tobing et al. Voice conversion with cyclic recurrent neural network and fine-tuned WaveNet vocoder
CN102436815B (zh) 一种应用于英语口语网络机考系统的语音识别装置
CN103886859B (zh) 基于一对多码书映射的语音转换方法
Liu et al. A novel pitch extraction based on jointly trained deep BLSTM recurrent neural networks with bottleneck features
Takamichi et al. Sampling-based speech parameter generation using moment-matching networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Xu Ningtao

Inventor after: Liu Pingsheng

Inventor after: Xie Daokuang

Inventor before: Xu Ning

Inventor before: Bao Jingyi

Inventor before: Tang Yibin

COR Change of bibliographic data
TR01 Transfer of patent right

Effective date of registration: 20160504

Address after: 518042 Guangdong city of Shenzhen province Futian District Che Kung Temple Cheonan Digital City Tienhsiang building 7B1

Patentee after: SHENZHEN TENGRUIFENG TECHNOLOGY CO.,LTD.

Address before: 213022 Changzhou Jin Ling North Road, Jiangsu, No. 200

Patentee before: CHANGZHOU CAMPUS OF HOHAI University

CB03 Change of inventor or designer information

Inventor after: Xu Ningtao

Inventor after: Liu Pingsheng

Inventor after: Xie Daokuang

Inventor before: Xu Ningtao

Inventor before: Liu Pingsheng

Inventor before: Xie Daokuang

COR Change of bibliographic data
PP01 Preservation of patent right
PP01 Preservation of patent right

Effective date of registration: 20190814

Granted publication date: 20141217

PD01 Discharge of preservation of patent
PD01 Discharge of preservation of patent

Date of cancellation: 20210814

Granted publication date: 20141217

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141217

Termination date: 20191127