[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN101710488A - 语音合成方法及装置 - Google Patents

语音合成方法及装置 Download PDF

Info

Publication number
CN101710488A
CN101710488A CN200910222899A CN200910222899A CN101710488A CN 101710488 A CN101710488 A CN 101710488A CN 200910222899 A CN200910222899 A CN 200910222899A CN 200910222899 A CN200910222899 A CN 200910222899A CN 101710488 A CN101710488 A CN 101710488A
Authority
CN
China
Prior art keywords
synthesized
waveform
key frame
frame
statement
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910222899A
Other languages
English (en)
Other versions
CN101710488B (zh
Inventor
凌震华
江源
胡郁
胡国平
刘庆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin Kexun Information Technology Co ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN2009102228990A priority Critical patent/CN101710488B/zh
Publication of CN101710488A publication Critical patent/CN101710488A/zh
Application granted granted Critical
Publication of CN101710488B publication Critical patent/CN101710488B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种语音合成方法及装置,用于利用预先建立的音库对输入的待合成语句进行语音合成,其中的方法包括:使用HMM模型预测待合成语句的声学参数,根据所述待合成语句的声学参数确定待合成语句中的关键帧;从音库中搜索合成所述关键帧所需的语音波形片段;对所述语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。本发明通过搜索音库得到关键帧处的合成样本,并通过内插得到关键帧间的各帧波形,可提高处理效率,并改善合成语音质量。

Description

语音合成方法及装置
技术领域
本发明涉及计算机技术领域,尤其提供一种语音合成方法及装置。
背景技术
语音合成系统或称为文语转换系统(Text-to-Speech,TTS),即将文字转化为语音的技术,它赋予计算机像人一样自如说话的能力,令人类与机器间的信息沟通更加舒服自然。随着技术的进步和社会的发展,语音合成技术一直在追求更高质量和更自然的效果。
当今语音合成技术有两大技术路线:1)基于隐马尔可夫模型(HiddenMarkov Model,HMM)的参数语音合成;2)基于单元挑选的波形拼接语音合成。二者各有特点,下面分别介绍:
1、基于HMM的参数语音合成方案
其基本思路是对语音信号进行参数化分解,并建立各参数对应的统计模型,合成时利用训练得到的统计模型预测待合成文本的语音参数,这些参数被输入参数合成器,最终得到合成的语音。此方法的优势体现在系统构建需要的数据量少,语种相关性弱,较少需要人工干预,合成语音平滑流畅,鲁棒性高,但是,基于HMM参数语音合成方法也有其先天不足:1)参数合成语音的音质不高:声学参数的提取会损失语音中的细节信息,令合成器输出带有较强的机器味,统计建模中的平滑效应进一步使得合成语音显得沉闷;2)合成语音的韵律过于平淡:基于统计模型的预测方法使得合成语音的韵律特征很稳定,这也使得合成语音的变化不够丰富,显得平淡。
2、基于单元挑选的波形拼接语音合成方案
其基本思路是根据输入文本信息,从标注好的语音库中挑选合适的单元(音节、音素、状态、帧等),拼接得到最终的合成语音。在方法最初提出时,受到音库容量以及单元调整算法性能的限制,造成合成语音自然度不高,随着计算机运算和存储能力的发展,运用更大规模的音库以及引入更精细的单元挑选策略,不连续现象得到了很大改善。但是,波形拼接语音合成方法仍存在以下不足:1)合成效果强依赖于音库规模:当音库中样本单元数量过少或者语境环境单一时,很可能出现挑选不到合适单元的情况,导致效果严重下降;2)音库的构建工作量大:一个大规模的音库制作周期较长,其中韵律和音段标注需要手工标注,最终使用的系统还需要专家人员的经验调整;3)拼接单元尺寸和音库样本难以平衡:选取大尺寸拼接单元时,合成音质高,但样本数量少、单元覆盖率低,可能会导致系统难以找到合适样本,选取小尺寸拼接单元时,样本数量少,可以降低音库规模,但所需挑选拼接单元数量多,合成效率下降。
因此,如何利用小容量音库实现较高质量的语音合成一直是亟待解决的问题。
在现有的使用小容量音库构建语音合成系统的方案中,有一种使用语音帧作为基本单元的单元挑选与波形拼接合成方法。此方法通过使用语音帧作为基本拼接单元,利用声学参数统计模型指导单元挑选,可以有效改善传统拼接合成方法在使用音素作为基本拼接单元处理小容量音库时存在的备选单元覆盖率不足的问题。但是由于此方法在进行合成时需要对待合成语句中每帧语音都进行挑选,造成单元挑选效率极低,难以满足实际应用需求,以一句10s的语音段为例,当取帧长为5ms时,一共需要对2000帧数据进行单元挑选,加上前后单元的波形拼接处理,计算消耗非常大,并且由于帧单元长度小,造成合成语音的平滑性较差,影响合成语音质量。
发明内容
本发明提供一种语音合成方法及装置,以解决基于小容量音库的语音合成效率低、质量不高的问题。
为此,本发明实施例采用如下技术方案:
一种语音合成方法,用于利用预先建立的音库对输入的待合成语句进行语音合成,包括:
利用HMM模型预测待合成语句的声学参数,根据所述待合成语句的声学参数确定待合成语句中的关键帧;
从音库中搜索合成所述关键帧所需的语音波形片段;
对所述语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
所述利用HMM模型预测待合成语句的声学参数包括:
确定HMM模型:提取所述音库中语音数据的声学参数,结合音库的上下文标注信息,训练声学参数的统计模型;根据待合成语句的上下文属性信息,得到时长、频谱和基频参数的目标HMM模型;
利用所述目标HMM模型对待合成语句的基频F0参数和线谱频率LSF参数进行预测。
所述根据所述待合成语句的声学参数确定待合成语句中的关键帧包括:
利用所述待合成语句的LSF参数,确定待合成语句的关键帧位置;
选定各关键帧一定数量的备选单元;
挑选最优的关键帧样本序列。
所述关键帧位置的选取准则是,在预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。
所述对所述语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成包括:
使用正弦分析方法提取关键帧的复数频谱包络;
通过时域内插得到关键帧之间各帧的复数频谱包络。
所述恢复波形得到合成语音包括:
利用各帧复数频谱包络以及结合预测的基频值,恢复出各帧的波形;
通过对各帧波形的加窗叠加,得到最终的合成语音。
一种语音合成装置,用于利用预先建立的音库对输入的待合成语音进行语音合成,包括:
关键帧确定单元,用于利用HMM模型预测待合成语句的声学参数,根据所述待合成语句的声学参数确定待合成语句中的关键帧;
波形片段搜索单元,用于从音库中搜索合成所述关键帧所需的语音波形片段;
波形处理单元,用于对所述语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
所述关键帧确定单元包括:
目标HMM模型确定子单元,用于提取所述音库中语音数据的声学参数,结合音库的上下文标注信息,训练声学参数的统计模型,并根据待合成语句的上下文属性信息,得到时长、频谱和基频参数的目标HMM模型;
声学参数预测子单元,利用所述目标HMM模型对待合成语句的F0和LSF参数进行预测;
关键帧选取子单元,根据所述待合成语句的LSF参数确定待合成语句中的关键帧。
所述关键帧选取子单元选取关键帧的准则是,在预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。
所述波形处理单元包括:
内插及拼接子单元,用于使用正弦分析方法提取关键帧的复数频谱包络,并通过时域内插得到关键帧之间各帧的复数频谱包络;
合成子单元,用于利用各帧复数频谱包络以及结合预测的基频值,恢复出各帧的波形,并通过对各帧波形的加窗叠加,得到最终的合成语音。
可见,本发明在语音合成时首先确定待合成语句中的关键帧位置,通过搜索音库得到关键帧的合成样本,并通过内插得到关键帧间的各帧波形,最终通过波形拼接合成语音。由此,由于选择的关键帧数量有限,因此与选择每个帧的现有方案而言,可以提高处理效率数倍以上,并结合波形内插处理的平滑作用,可以有效提升合成语音的长时平滑性,改善合成语音质量。
附图说明
图1为本发明语音合成方法流程图;
图2为本发明语音合成方法实施例流程图;
图3为本发明上下文相关音素5状态HMM的决策模型聚类示意图;
图4为本发明语音合成装置内部结构示意图。
具体实施方式
与现有使用语音帧作为基本单元的单元挑选与波形拼接合成方法不同,本发明只对关键帧而不是全部帧做挑选,因此可以提高处理效率数倍以上,结合波形内插处理的平滑作用,可以有效提升合成语音的长时平滑性,改善合成语音质量。
参见图1,为本发明语音合成方法流程图,包括:
S001:使用HMM模型预测待合成语句的声学参数,根据待合成语句的声学参数确定待合成语句中的关键帧;
S002:从音库中搜索合成关键帧所需的语音波形片段;
S003:对语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
本发明的整体算法框架如图2所示,本发明方法实施例的步骤如下:
1)提取音库中语音数据的声学参数
101)提取基频(F0)参数
102)提取线谱频率(LSF)参数
103)计算F0和LSF的一阶二阶动态参数
2)结合音库的上下文标注信息,训练声学参数的统计模型
201)训练频谱和基频参数的HMM模型
202)训练状态时长参数的概率模型
3)目标语音参数预测和关键帧确定
301)根据待合成句文本属性信息,得到时长、频谱、基频参数的目标HMM模型
302)利用目标模型进行时长、频谱、基频参数的预测
303)确定待合成句中的关键帧位置
4)关键帧挑选
401)通过预选步骤,选定每个关键帧一定数量的备选单元
402)通过动态规划搜索挑选最优的关键帧样本序列
5)关键帧间内插与波形拼接合成
501)使用正弦分析方法提取关键帧的复数频谱包络
502)通过时域内插得到关键帧之间各帧的复数频谱包络
6)恢复波形拼接合成
601)由各帧复数频谱包络,结合预测基频值,恢复各帧波形
602)通过对各帧波形的加窗叠加,得到最终合成语音
各步骤的具体实施方案如下:
步骤101:利用自相关函数法提取音库中每句语音的基频(F0),例如,设定帧移为5ms。
步骤102:利用格型法提取音库中每句语音的线性预测系数(LPC),设定帧移为5ms,预测阶数24阶,再通过多项式求根法将LPC参数转为线谱频率(LSF)参数。
步骤103:计算F0和LSF的一阶和二阶差分参数。假设
Figure G2009102228990D00061
表示步骤101与步骤102中分析得到的第t帧语音的LSF(或F0)参数,则其对应的一阶差分参数
Figure G2009102228990D00062
与二阶差分参数动态参数
Figure G2009102228990D00063
的计算公式为:
Δx s t = 0.5 x s t - 0.5 x s t-1
Δ 2 x s t = x s t + 1 - 2 x s t + x s t - 1
最终第t帧完整的LSF(或F0)特征向量表示为 x t = [ x s t T , Δx s t T , Δ 2 x s t T ] T , 其中符号T表示矩阵转置操作。
步骤201:训练频谱和基频参数的HMM模型。使用的特征为步骤103给出的每帧完整LSF与F0特征;模型结构为五状态从左到右各态历经的拓扑形式;每个状态的观测概率密度函数使用单高斯分布来表示;以音素为建模单位,并对其依据所在的上下文环境进行模型扩展;使用基于最大似然准则的Baum-Welch算法进行模型训练;通过基于最小描述长度(MDL)准则训练决策树对上下文扩展后的音素频谱与基频模型进行聚类,如图3所示。
步骤202:训练状态时长的概率模型。使用步骤201中的频谱与基频模型训练结果,通过强制对齐(Force Alignment)对音库中语音进行HMM状态的自动切分,基于切分结果训练状态时长的单高斯概率模型,同样构建决策树对上下文扩展模型后的状态时长模型进行聚类。
步骤301:待合成文本经文本分析器得到其上下文属性信息,再通过各模型聚类决策树确定待合成句对应的目标状态时长模型和目标LSF与F0参数HMM模型。
步骤302:利用步骤301中给出的各参数目标模型,通过结合动态特性的最大似然参数生成算法来预测待合成句的LSF与F0参数序列。其中预测的LSF参数序列用于步骤303确定句中关键帧位置,预测的F0参数序列用于步骤601合成时的语音基频调整。
步骤303:确定合成语中的关键帧位置。关键帧选取的准则是在步骤302预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。假设预测得到的LSF参数序列为[a1,a2,....,aT],T为总帧数,at,t∈[1,T]为每帧对应的24维LSF矢量;m1,m2,....,mK为K个关键帧位置,那么第t帧通过前后关键帧内插得到的LSF参数可以表示为:
a &OverBar; t = a m k &phi; k ( t ) + a m k + 1 ( 1 - &phi; k ( t ) ) , m k &le; t < m k + 1
其中φk(t)表示使用第k个关键帧恢复第t帧时使用的线性内插函数:
φ(t)=(mk+1-t)/(mk+1-mk)
定义第t帧的LSF参数恢复误差为:
E(t)=||at-at||2
通过逐段最小化恢复误差可以确定各关键帧位置,其算法如下:
Step1)令关键帧数目K=2,关键帧位置m1=1,m2从m1+1至总帧数T逐一循环,直到有某一帧t∈(m1,m2)对应E(t)大于预先设定的门限值ε=5e-4时跳出循环,计算m2=m2-1;如果循环至m2=T时仍不存在E(t)>ε,t∈(m1,m2)的帧,则令m2=T,关键帧搜索过程结束退出;
Step2)n从mK+1至总帧数T逐一循环,直到有某一帧t∈(mK,n)对应E(t)大于预先设定的门限值ε时跳出循环,计算n=n-1;如果循环至n=T时仍不存在E(t)>ε,t∈(mK,n)的帧,则令n=T;
Step3)在(mK-1,n)范围内逐一搜索计算新的mK,使得第mK-1与第n帧之间的恢复误差
Figure G2009102228990D00081
最小;
Step4)K=K+1,mK=n;
Step5)如果mK=T,关键帧搜索过程结束退出,否则返回Step2)继续执行。
由此可以求取各关键帧的位置mk,k=1,2,...,K。
步骤401:通过快速预选,确定每个关键帧一定数量的备选单元。由于使用了帧级小尺寸单元,如果对每一关键帧都使用音库中所有备选语音帧进行单元挑选,则计算消耗很大。快速预选算法为:对于每一关键帧,限制其使用的音库中备选帧样本所在状态与关键帧所在待合成句中状态必须共享LSF模型聚类决策树中相同的叶子节点,如果满足条件的备选帧数目大于100,则强制选择前100个满足条件的备选帧用于步骤402中的单元挑选。
步骤402:最优关键帧样本序列的挑选。假设u=[i1,u2,...,uK]为挑选得到的K个关键帧对应的备选样本序列,则最优样本序列u通过以下准则确定
u * = arg min u { &Sigma; k = 1 K TC ( u k ) + &Sigma; k = 2 N CC ( u k - 1 , u k ) }
其中函数TC(uk)为使用备选样本帧uk合成第k个关键帧时的目标代价,由合成句的上下文信息通过HMM模型决策树来预测关键帧k所属状态以及其状态对应的LSF声学参数模型lk,计算样本uk在实际语流中的LSF参数相对模型lk的对数似然值作为该单元的目标代价;函数CC(uk-1,uk)为备选样本帧uk-1与uk之间的连接代价,通过uk-1与uk内插得到一系列的中间过渡帧LSF参数,计算此参数序列相对中间各帧所在状态LSF模型的对数似然值来得到。最终,上式可以通过动态规划搜索来进行求解。
步骤501:使用正弦信号模型将搜索得到的第k关键帧样本对应波形sk(n)表示形式为
其中ωl=2πlf0/fs为第/次谐波频率,f0为当前帧基频,对于清音使用固定频率100Hz,fs为语音采样率,使用的语音数据库为16kHz采样;N为每帧的采样点数,这里使用的5ms帧长对应N=80;
Figure G2009102228990D00093
为谐波个数;Al
Figure G2009102228990D00094
为第/次谐波的幅度与相位,可以通过正弦分析方法求解得到。当相邻关键帧为浊音时,为了保证之间内插时的相位对齐,通过寻找相邻关键帧波形的最大互相关位置,进行最优偏移值ns *的求取,如下
n s * = arg max &Sigma; n = 0 N s k - 1 ( n ) s k ( n + n s ) , - T 0 < n s < T 0
其中T0=fs/f0为当前帧的基音周期长度。依据搜索得到的ns *对第k关键帧中的谐波相位
Figure G2009102228990D00096
进行如下调整
对由Al
Figure G2009102228990D00102
表示的各谐波频率ωl,l=0,...,L处的频谱进行频域内插,得到整个频域上的复数频谱Sk(ω),ω∈[0,π)。为保证频域谱内插的平滑性,分别对虚实部采用三次样条内插的方式。当关键帧为浊音时,最高次谐波ωL与最高频率π之间可能出现无法内插的空白,此时复制最高次谐波数据给空白段。
步骤502:对步骤501中得到的K个关键帧处的复数频谱包络Sk(ω),k=1,2,...,K进行时域的线性内插,内插分实部和虚部分别进行,最终恢复得到句中所有T帧的复数频谱包络St(ω),t=1,2,...,T。
步骤601:假设步骤302中预测得到的第t帧基频f0(如果为清音则使用固定频率100Hz),则使用谐波频率ωl=2πlf0/fs对St(ω)进行采样,得到各谐波频率处的幅度Al与相位
Figure G2009102228990D00103
当第t帧为浊音时,对于4kHz以下频段,使用正弦参数恢复波形,如下
Figure G2009102228990D00104
其中
Figure G2009102228990D00105
对于4kHz以上频段,使用高斯白噪声通过St(ω)中4KHz以上频谱对应的高通滤波器,得到高频段波形st High(n),最终第t帧的合成波形为
s t &OverBar; ( n ) = s t Low &OverBar; ( n ) + s t High &OverBar; ( n ) .
当第t帧为清音时,使用高斯白噪声通过St(ω)完整频谱对应的滤波器得到波形st(n)。
此外,为了满足步骤602中波形叠加平滑的需要,这里每帧生成的波形st(n)长度均为2N点。
步骤602:为消除逐帧过渡时的跳变,对于t>1时的每帧通过加窗叠加前帧波形来拼接输出最终合成语音s(n)。这里使用长度为2N点的三角窗ws(n)来进行,如下
S(n)=w(n+N)St-1(n+N)+w(n)St(n)        n=1,2,...,N
与上述方法相对应,本发明还提供一种语音合成装置,该装置用于利用预先建立的音库对输入的待合成语音进行语音合成,在实现上,可通过软件、硬件或软硬件结合实现本装置的功能。
参见图4,为本发明装置内部结构示意图,包括:
关键帧确定单元401,用于使用HMM模型预测待合成语句的声学参数,根据所述待合成语句的声学参数确定待合成语句中的关键帧;
波形片段搜索单元402,用于从音库中搜索合成关键帧确定单元401确定的关键帧所需的语音波形片段;
波形处理单元403,用于对波形片段搜索单元402搜索的语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
其中,关键帧确定单元401进一步可包括:
目标HMM模型确定子单元4011,用于提取所述音库中语音数据的声学参数,结合音库的上下文标注信息,训练声学参数的统计模型,并根据待合成语句的上下文属性信息,得到时长、频谱和基频参数的目标HMM模型;
声学参数预测子单元4012,利用目标HMM模型确定子单元4011确定的目标HMM模型,对待合成语句的F0参数和LSF参数进行预测;
关键帧选取子单元4013,根据声学参数预测子单元4012确定的待合成语句的LSF参数,确定待合成语句中的关键帧。关键帧选取子单元4013选取关键帧的准则是,在预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。
其中,波形处理单元403进一步可包括:
内插及拼接子单元4031,用于使用正弦分析方法提取关键帧的复数频谱包络,并通过时域内插得到关键帧之间各帧的复数频谱包络;
合成子单元4032,用于利用内插及拼接子单元4031获得的各帧复数频谱包络以及结合预测的基频值,恢复出各帧的波形,并通过对各帧波形的加窗叠加,得到最终的合成语音。
可见,本发明在语音合成时首先确定待合成语句中的关键帧位置,通过搜索音库得到关键帧处的合成样本,并通过内插得到关键帧间的各帧波形,最终通过波形拼接合成语音。由此,可以提高处理效率数倍以上,并结合波形内插处理的平滑作用,可以有效提升合成语音的长时平滑性,改善合成语音质量。
本领域普通技术人员可以理解,实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介质中,该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种语音合成方法,用于利用预先建立的音库对输入的待合成语句进行语音合成,其特征在于,包括:
利用HMM模型预测待合成语句的声学参数,根据所述待合成语句的声学参数确定待合成语句中的关键帧;
从音库中搜索合成所述关键帧所需的语音波形片段;
对所述语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
2.根据权利要求1所述方法,其特征在于,所述利用HMM模型预测待合成语句的声学参数包括:
确定HMM模型:提取所述音库中语音数据的声学参数,结合音库的上下文标注信息,训练声学参数的统计模型;根据待合成语句的上下文属性信息,得到时长、频谱和基频参数的目标HMM模型;
利用所述目标HMM模型对待合成语句的基频F0参数和线谱频率LSF参数进行预测。
3.根据权利要求2所述方法,其特征在于,所述根据所述待合成语句的声学参数确定待合成语句中的关键帧包括:
利用所述待合成语句的LSF参数,确定待合成语句的关键帧位置;
选定各关键帧一定数量的备选单元;
挑选最优的关键帧样本序列。
4.根据权利要求3所述方法,其特征在于,所述关键帧位置的选取准则是,在预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。
5.根据权利要求1至4任一项所述方法,其特征在于,所述对所述语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成包括:
使用正弦分析方法提取关键帧的复数频谱包络;
通过时域内插得到关键帧之间各帧的复数频谱包络。
6.根据权利要求5所述方法,其特征在于,所述恢复波形得到合成语音包括:
利用各帧复数频谱包络以及结合预测的基频值,恢复出各帧的波形;
通过对各帧波形的加窗叠加,得到最终的合成语音。
7.一种语音合成装置,用于利用预先建立的音库对输入的待合成语音进行语音合成,其特征在于,包括:
关键帧确定单元,用于利用HMM模型预测待合成语句的声学参数,根据所述待合成语句的声学参数确定待合成语句中的关键帧;
波形片段搜索单元,用于从音库中搜索合成所述关键帧所需的语音波形片段;
波形处理单元,用于对所述语音波形片段进行波形内插处理,并对内插处理后的语音波形进行拼接合成,恢复波形得到合成语音。
8.根据权利要求7所述装置,其特征在于,所述关键帧确定单元包括:
目标HMM模型确定子单元,用于提取所述音库中语音数据的声学参数,结合音库的上下文标注信息,训练声学参数的统计模型,并根据待合成语句的上下文属性信息,得到时长、频谱和基频参数的目标HMM模型;
声学参数预测子单元,利用所述目标HMM模型对待合成语句的F0和LSF参数进行预测;
关键帧选取子单元,根据所述待合成语句的LSF参数确定待合成语句中的关键帧。
9.根据权利要求8所述装置,其特征在于,所述关键帧选取子单元选取关键帧的准则是,在预测的LSF参数序列中选择某些帧,使得基于这些帧的LSF参数恢复整句LSF参数时的恢复误差最小。
10.根据权利要求7、8或9所述装置,其特征在于,所述波形处理单元包括:
内插及拼接子单元,用于使用正弦分析方法提取关键帧的复数频谱包络,并通过时域内插得到关键帧之间各帧的复数频谱包络;
合成子单元,用于利用各帧复数频谱包络以及结合预测的基频值,恢复出各帧的波形,并通过对各帧波形的加窗叠加,得到最终的合成语音。
CN2009102228990A 2009-11-20 2009-11-20 语音合成方法及装置 Active CN101710488B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102228990A CN101710488B (zh) 2009-11-20 2009-11-20 语音合成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102228990A CN101710488B (zh) 2009-11-20 2009-11-20 语音合成方法及装置

Publications (2)

Publication Number Publication Date
CN101710488A true CN101710488A (zh) 2010-05-19
CN101710488B CN101710488B (zh) 2011-08-03

Family

ID=42403270

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102228990A Active CN101710488B (zh) 2009-11-20 2009-11-20 语音合成方法及装置

Country Status (1)

Country Link
CN (1) CN101710488B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226946A (zh) * 2013-03-26 2013-07-31 中国科学技术大学 一种基于受限玻尔兹曼机的语音合成方法
CN105654940A (zh) * 2016-01-26 2016-06-08 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN107133580A (zh) * 2017-04-24 2017-09-05 杭州空灵智能科技有限公司 一种3d打印监控视频的合成方法
CN107564511A (zh) * 2017-09-25 2018-01-09 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
CN107924677A (zh) * 2015-06-11 2018-04-17 交互智能集团有限公司 用于异常值识别以移除语音合成中的不良对准的系统和方法
CN108053821A (zh) * 2017-12-12 2018-05-18 腾讯科技(深圳)有限公司 生成音频数据的方法和装置
CN108182936A (zh) * 2018-03-14 2018-06-19 百度在线网络技术(北京)有限公司 语音信号生成方法和装置
CN108648733A (zh) * 2018-03-15 2018-10-12 北京雷石天地电子技术有限公司 一种迪曲生成方法及系统
CN109416911A (zh) * 2016-06-30 2019-03-01 雅马哈株式会社 声音合成装置及声音合成方法
CN109599090A (zh) * 2018-10-29 2019-04-09 阿里巴巴集团控股有限公司 一种语音合成的方法、装置及设备
CN109686358A (zh) * 2018-12-24 2019-04-26 广州九四智能科技有限公司 高保真的智能客服语音合成方法
CN112562637A (zh) * 2019-09-25 2021-03-26 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN112863530A (zh) * 2021-01-07 2021-05-28 广州欢城文化传媒有限公司 一种声音作品的生成方法和装置
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN115440205A (zh) * 2021-06-04 2022-12-06 中国移动通信集团浙江有限公司 语音处理方法、装置、终端以及程序产品
US12046227B2 (en) 2022-04-19 2024-07-23 Google Llc Key frame networks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4989250A (en) * 1988-02-19 1991-01-29 Sanyo Electric Co., Ltd. Speech synthesizing apparatus and method
CN1119793C (zh) * 1998-08-17 2003-08-27 英业达股份有限公司 声频信号特征波形的合成方法
EP1872361A4 (en) * 2005-03-28 2009-07-22 Lessac Technologies Inc HYBRID SPEECH SYNTHESIZER, METHOD AND USE
CN1835075B (zh) * 2006-04-07 2011-06-29 安徽中科大讯飞信息科技有限公司 一种结合自然样本挑选与声学参数建模的语音合成方法
CN101178896B (zh) * 2007-12-06 2012-03-28 安徽科大讯飞信息科技股份有限公司 基于声学统计模型的单元挑选语音合成方法

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226946A (zh) * 2013-03-26 2013-07-31 中国科学技术大学 一种基于受限玻尔兹曼机的语音合成方法
CN107924677A (zh) * 2015-06-11 2018-04-17 交互智能集团有限公司 用于异常值识别以移除语音合成中的不良对准的系统和方法
CN107924677B (zh) * 2015-06-11 2022-01-25 交互智能集团有限公司 用于异常值识别以移除语音合成中的不良对准的系统和方法
CN105654940A (zh) * 2016-01-26 2016-06-08 百度在线网络技术(北京)有限公司 一种语音合成方法和装置
CN109416911B (zh) * 2016-06-30 2023-07-21 雅马哈株式会社 声音合成装置及声音合成方法
CN109416911A (zh) * 2016-06-30 2019-03-01 雅马哈株式会社 声音合成装置及声音合成方法
CN107133580B (zh) * 2017-04-24 2020-04-10 杭州空灵智能科技有限公司 一种3d打印监控视频的合成方法
CN107133580A (zh) * 2017-04-24 2017-09-05 杭州空灵智能科技有限公司 一种3d打印监控视频的合成方法
CN107564511A (zh) * 2017-09-25 2018-01-09 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
WO2019056500A1 (zh) * 2017-09-25 2019-03-28 平安科技(深圳)有限公司 电子装置、语音合成方法和计算机可读存储介质
CN108053821A (zh) * 2017-12-12 2018-05-18 腾讯科技(深圳)有限公司 生成音频数据的方法和装置
CN108182936A (zh) * 2018-03-14 2018-06-19 百度在线网络技术(北京)有限公司 语音信号生成方法和装置
CN108648733B (zh) * 2018-03-15 2020-07-03 北京雷石天地电子技术有限公司 一种迪曲生成方法及系统
CN108648733A (zh) * 2018-03-15 2018-10-12 北京雷石天地电子技术有限公司 一种迪曲生成方法及系统
CN109599090A (zh) * 2018-10-29 2019-04-09 阿里巴巴集团控股有限公司 一种语音合成的方法、装置及设备
CN109599090B (zh) * 2018-10-29 2020-10-30 创新先进技术有限公司 一种语音合成的方法、装置及设备
CN109686358B (zh) * 2018-12-24 2021-11-09 广州九四智能科技有限公司 高保真的智能客服语音合成方法
CN109686358A (zh) * 2018-12-24 2019-04-26 广州九四智能科技有限公司 高保真的智能客服语音合成方法
CN112562637A (zh) * 2019-09-25 2021-03-26 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN112562637B (zh) * 2019-09-25 2024-02-06 北京中关村科金技术有限公司 拼接语音音频的方法、装置以及存储介质
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN113066476B (zh) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 合成语音处理方法及相关装置
CN112863530A (zh) * 2021-01-07 2021-05-28 广州欢城文化传媒有限公司 一种声音作品的生成方法和装置
CN115440205A (zh) * 2021-06-04 2022-12-06 中国移动通信集团浙江有限公司 语音处理方法、装置、终端以及程序产品
US12046227B2 (en) 2022-04-19 2024-07-23 Google Llc Key frame networks

Also Published As

Publication number Publication date
CN101710488B (zh) 2011-08-03

Similar Documents

Publication Publication Date Title
CN101710488B (zh) 语音合成方法及装置
CN101178896B (zh) 基于声学统计模型的单元挑选语音合成方法
US20170162186A1 (en) Speech synthesizer, and speech synthesis method and computer program product
US20120143611A1 (en) Trajectory Tiling Approach for Text-to-Speech
US8494856B2 (en) Speech synthesizer, speech synthesizing method and program product
US20130066631A1 (en) Parametric speech synthesis method and system
CN106649644B (zh) 一种歌词文件生成方法及装置
Ling et al. The USTC and iFlytek speech synthesis systems for Blizzard Challenge 2007
CN105654940B (zh) 一种语音合成方法和装置
Ryant et al. Highly accurate mandarin tone classification in the absence of pitch information
US20160027430A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
Yin et al. Modeling F0 trajectories in hierarchically structured deep neural networks
CN102982799A (zh) 一种融合引导概率的语音识别优化解码方法
CN105654942A (zh) 一种基于统计参数的疑问句、感叹句的语音合成方法
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
AU2015411306A1 (en) Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system
CN103226946B (zh) 一种基于受限玻尔兹曼机的语音合成方法
JP6142401B2 (ja) 音声合成モデル学習装置、方法、及びプログラム
Yu et al. Probablistic modelling of F0 in unvoiced regions in HMM based speech synthesis
Zhou et al. Learning and Modeling Unit Embeddings for Improving HMM-based Unit Selection Speech Synthesis.
KR102051235B1 (ko) 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
Chandra et al. Towards the development of accent conversion model for (l1) bengali speaker using cycle consistent adversarial network (cyclegan)
Jiao et al. Improving voice quality of HMM-based speech synthesis using voice conversion method
Yu Review of F0 modelling and generation in HMM based speech synthesis
Pour et al. Persian Automatic Speech Recognition by the use of Whisper Model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: IFLYTEK CO., LTD.

Free format text: FORMER NAME: ANHUI USTC IFLYTEK CO., LTD.

CP03 Change of name, title or address

Address after: Wangjiang Road high tech Development Zone Hefei city Anhui province 230088 No. 666

Patentee after: IFLYTEK Co.,Ltd.

Address before: 230088 No. 616, Mount Huangshan Road, hi tech Development Zone, Anhui, Hefei

Patentee before: ANHUI USTC IFLYTEK Co.,Ltd.

TR01 Transfer of patent right

Effective date of registration: 20190213

Address after: 510335 Guangzhou Haizhu District Yuanjiang West Road 218, 220 Guangzhou International Media Port Office Building West Port 10 Floor Northeast 22-26 Property

Patentee after: Ke Da Southern China Co.,Ltd.

Address before: 230088 666 Wangjiang West Road, Hefei hi tech Development Zone, Anhui

Patentee before: IFLYTEK Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231212

Address after: 130012 Room 1632, Floor 16, Building B, Liwang Plaza, No. 996, Qianjin Street, Chaoyang District, Changchun, Jilin

Patentee after: Jilin Kexun Information Technology Co.,Ltd.

Address before: 510335 Guangzhou Haizhu District Yuanjiang West Road 218, 220 Guangzhou International Media Port Office Building West Port 10 Floor Northeast 22-26 Property

Patentee before: Ke Da Southern China Co.,Ltd.

TR01 Transfer of patent right