CN105654940B - 一种语音合成方法和装置 - Google Patents
一种语音合成方法和装置 Download PDFInfo
- Publication number
- CN105654940B CN105654940B CN201610051963.3A CN201610051963A CN105654940B CN 105654940 B CN105654940 B CN 105654940B CN 201610051963 A CN201610051963 A CN 201610051963A CN 105654940 B CN105654940 B CN 105654940B
- Authority
- CN
- China
- Prior art keywords
- voice
- text
- model
- candidate
- units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001308 synthesis method Methods 0.000 title abstract description 4
- 238000000034 method Methods 0.000 claims abstract description 48
- 238000003062 neural network model Methods 0.000 claims abstract description 35
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 13
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 88
- 238000004458 analytical method Methods 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 18
- 238000007476 Maximum Likelihood Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 13
- 230000033764 rhythmic process Effects 0.000 claims description 10
- 230000003595 spectral effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种语音合成方法和装置,其中方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。本发明能够提高最终合成的语音的自然度和表现力。
Description
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种语音合成方法和装置。
【背景技术】
随着移动时代的到来,人们对语音合成的需求日益增长,例如小说朗读、语音导航等都需要进行语音合成。并且,人们对于语音合成已经不仅仅满足于清晰度和可懂度,还要求合成的语音具有更好的自然度和表现力。
对于语音合成而言,首先需要对输入的文本进行处理,包括预处理、分词、词性标注、注音、韵律层级预测等,然后通过声学模型,预测各个单元对应的声学特征,最后利用声学参数通过声码器合成语音,或者从语料库中选取合适的语音单元进行拼接合成。
其中对于拼接合成而言,如何从语料库中选取合适的语音单元使得最终合成的语句更为自然、更具表现力至关重要。现有的实现方式中,在语音单元的预选过程以及备选空间的搜索过程中均使用HMM(Hidden Markov Model,隐马尔可夫模型),但由于HMM模型中状态之间相互独立,且其基于决策树的浅层建模,对特征空间的线性划分,导致在复杂文本上下文特征情况下的建模精度较低,造成了最终合成的语音较为平滑,表现力差。
【发明内容】
有鉴于此,本发明提供了一种语音合成的方法和装置,以便于提高最终合成的语音的自然度和表现力。
具体技术方案如下:
本发明提供了一种语音合成方法,该方法包括:
利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;
利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;
所述第一模型和所述第二模型中至少一个为神经网络模型。
根据本发明一优选实施方式,该方法还包括:预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
根据本发明一优选实施方式,所述预先基于文本训练样本和语音训练样本训练第一模型和第二模型包括:
对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;
利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
根据本发明一优选实施方式,利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间包括:
对待合成文本进行文本分析,提取各基元的文本特征;
利用所述第一模型确定提取的各基元的文本特征对应的声学参数;
基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数。
根据本发明一优选实施方式,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种;
所述声学参数包括谱参数或基频参数中的至少一种。
根据本发明一优选实施方式,在分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间之前,还包括:
利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元;
利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数。
根据本发明一优选实施方式,所述利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元包括:
确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;
基于相似度从语音库中挑选各基元对应的候选语音单元。
根据本发明一优选实施方式,所述声学参数之间的相似度采用相对熵的方式体现。
根据本发明一优选实施方式,所述搜索代价由目标代价和拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。
根据本发明一优选实施方式,所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者,
所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。
本发明还提供了一种语音合成装置,该装置包括:
预选单元,用于利用训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;
搜索单元,用于利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;
所述第一模型和所述第二模型中至少一个为神经网络模型。
根据本发明一优选实施方式,训练单元,用于预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
根据本发明一优选实施方式,所述训练单元,具体用于:
对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;
利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
根据本发明一优选实施方式,所述预选单元具体包括:
文本分析子单元,用于对待合成文本进行文本分析,提取各基元的文本特征;
参数确定子单元,用于利用所述第一模型确定提取的各基元的文本特征对应的声学参数;
语音预选子单元,用于基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数。
根据本发明一优选实施方式,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种;
所述声学参数包括谱参数或基频参数中的至少一种。
根据本发明一优选实施方式,所述预选单元还包括:
候选挑选子单元,用于利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元;
所述参数确定子单元,还用于利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数;
所述语音预选子单元在从语音库中挑选声候选语音单元时,具体从所述候选挑选子单元挑选出的候选语音单元中进一步挑选。
根据本发明一优选实施方式,所述候选挑选子单元具体用于:
确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;
基于相似度从语音库中挑选各基元对应的候选语音单元。
根据本发明一优选实施方式,所述声学参数之间的相似度采用相对熵的方式体现。
根据本发明一优选实施方式,所述搜索代价由目标代价和拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。
根据本发明一优选实施方式,所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者,
所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。
由以上技术方案可以看出,本发明在语音单元的预选过程以及备选空间的搜索过程中的至少一个中采用神经网络模型,由于神经网络模型具有深层非线性建模特性,且考虑状态之间的相关性(即语音单元之间的相关性),能够使得与选出的备选空间更加准确,和/或,使得最终得到的语音单元序列与目标更加贴近,从而使得合成的语音更加自然,表现力更强。
【附图说明】
图1为本发明实施例一提供的方法流程图;
图2为本发明实施例二提供的方法流程图;
图3为本发明实施例三提供的方法流程图;
图4为本发明实施例提供的第一种装置结构图;
图5为本发明实施例提供的第二种装置结构图;
图6为本发明实施例提供的第三种装置结构图;
图7为本发明实施例提供的合成语音的示意图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
本发明的核心思想在于,在语音单元的预选过程和备选空间的搜索过程中的至少一个过程中采用神经网络模型。即利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;其中第一模型和第二模型中至少一个为神经网络模型。
图1为本发明实施例一提供的方法流程图,在本实施例中语音单元的预选采用HMM模型,备选空间的搜索采用神经网络模型。如图1中所示,该方法可以包括以下步骤:
在101中,预先基于文本训练样本和语音训练样本训练HMM模型,得到文本特征到声学参数的映射;以及基于文本训练样本和语音训练样本训练神经网络模型,得到文本特征到声学参数的映射。
本步骤是预先的模型训练阶段,其中文本训练样本和语音训练样本是存在对应关系的,即对于文本训练样本而言,其中所有文本训练样本对应的语音数据就构成了语音训练样本。
对各文本训练样本进行文本分析,提取各文本训练样本的文本特征。其中进行的文本分析可以包括:对文本训练样本进行的分词、注音、韵律标注、声韵母边界标注等,还可以包括归一化、去掉多余符号等辅助处理。举一个例子,对于某文本训练样本“我们的祖国”,进行分词后得到“我们的|祖国”。进行注音得到“wo3men4de0zu3guo2”,其中0表示轻声,1~4分别表示一声~四声。进行韵律标注得到“我们的#2祖国#3”,其中#2和#3表示停顿的时长信息。进行声韵母边界标注可以得到“wo3”的发音从0ms到15ms,“men4”的发音从15ms到25ms,“de0”的发音从25ms到30ms,“zu3”的发音从30ms到45ms,“guo2”的发音从45ms~60ms。该文本分析的过程可以是人工标注,也可以是自动化标注过程,可以采用现有的方式,在此不详述。
最终可以得到各文本训练样本对应的文本特征,即包括分词,注音、韵律、声韵母边界等至少一种,每一个文本训练样本可以看做是由多个基本单元(简称基元)构成的,每个基本单元都存在对应的文本特征,一个文本训练样本提取出的文本特征可以是一个文本特征向量。
对各语音训练样本进行声学分析,得到各语音训练样本的声学参数。其中声学参数指的是从语音训练样本中提取的谱参数信息和基频参数信息等中的至少一种。
神经网络模型和HMM模型的不同之处在于,HMM模型具有基于决策树的线性建模特征,HMM模型中状态相互独立,神经网络模型具有深层非线性建模特征,状态之间具有相关性。其中,神经网络模型可以具体采用但不限于深度神经网络(DNN)模型、循环神经网络(RNN)模型、长短时记忆神经网络(LSTM-RNN)模型、混合密度神经网络模型(MDN)等。分别训练HMM模型和神经网络模型后,均得到文本特征到声学特征的映射,HMM模型是生成式模型,得到的映射关系是文本特征对应的声学特征概率分布,神经网络模型是区分式模型,得到的映射关系是文本特征直接对应的声学特征。
预先完成两个模型的训练后,若开始对待合成文本进行语音合成,则执行以下步骤:
在102中,对待合成文本进行文本分析,提取各基元的文本特征。
在本步骤中对待合成文本进行的文本分析与上述训练模型时采用的文本分析方式相同,可以包括:对待合成文本进行的分词、注音、韵律标注、声韵母边界标注等,还可以包括归一化等辅助处理。进行上述文本分析后,可以从中提取出各基元的包括分词,注音、韵律、声韵母边界等的文本特征。
在103中,利用HMM模型确定提取的各基元的文本特征对应的声学参数。
由于HMM模型得到的是文本特征到声学参数的映射,因此将提取的各基元的文本特征输入HMM模型,通过最大似然估计就可以得到各基元的声学参数。该过程是对待合成文本进行声学参数预测。
在104中,利用提取的各基元的文本特征从语音库中挑选各基元对应的候选语音单元。
本步骤实际上是对候选语音单元进行的一个预选,其目的是为了降低后续备选空间的大小,从而减小从备选空间选择语音单元的处理计算量。本步骤为优选的步骤。语音库中存在数量巨大的语音单元,通常各语音单元是与各基元对应的,一个基元就可能对应多个语音单元,数量可能是成千上万的,每一个语音单元也存在对应的文本特征。本步骤可以通过计算待合成文本中基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度来挑选该基元对应的候选语音单元。例如可以选择相似度最高的m个语音单元作为该基元对应的候选语音单元,m为预设的正整数;或者可以选择相似度满足预设阈值的语音单元作为该基元对应的候选语音单元。通过这种方式,就能够挑选出待合成文本中各基元对应的候选语音单元。
在105中,利用HMM模型分别确定候选语音单元的文本特征对应的声学参数。
分别将候选语音单元的文本特征输入HMM模型,通过最大似然估计可以得到各候选语音单元的声学参数。其过程与对待合成文本的处理过程类似,不再赘述。
在106中,基于声学参数之间的相似度,分别针对各基元从候选语音单元中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,其中N为预设的正整数。
在计算声学参数之间的相似度时,可以采用相对熵(也称为KLD散度)的方式,选择声学参数与待合成文本的声学参数之间的相对熵最小的N个候选语音单元或者是相对熵小于预设相对熵阈值的N个候选语音单元或者相对熵最小的N个候选语音单元。当然,也可以采用其他方式对声学参数之间的相似度进行衡量。
在107中,基于专家知识对备选空间进行进一步筛选。
备选空间中实际上是各基元对应的多个候选语音单元,但往往考虑到一些其他因素,例如有的语音单元之间进行拼接时,考虑到发音习惯或流畅度的问题,有一些相邻基元的组合是不可能出现并进行拼接的,例如一些元音、擦音、塞音的组合。这些因素可以预先设置为专家知识,通常体现为一些规则,基于这些规则对备选空间中的候选语音单元进行进一步筛选,从而更进一步缩小备选空间的大小。本步骤并不是必须的步骤。
在108中,利用神经网络模型分别确定候选语音单元的文本特征对应的声学参数,或者进一步利用参数生成算法生成声学参数轨迹。
声学参数轨迹的生成方式可以采用现有实现方式,在此不再详述,本发明在此不做限制。
在109中,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优。
其中搜索代价可以由目标代价和拼接代价确定,其中目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本之间的距离。目标代价可以采用但不限于参数轨迹代价和最大似然代价。
参数轨迹代价可以体现为选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离,当采用参数轨迹代价时,选择语言单元的原则是:从备选空间中选择的语言单元所构成序列的搜索代价最小。
最大似然代价可以体现为选择的语言单元所构成序列的声学参数最大似然值,当采用最大似然代价时,选择语言单元的原则是:从备选空间中选择的语言单元所构成序列的搜索代价最大。
拼接代价体现为相邻两个语音单元的衔接平滑度,可以通过相邻两个语音单元的声学参数之间的互相关关系体现,互相关关系越大,衔接平滑度越高,其可以用于与最大似然代价一起用于确定搜索代价。也可以通过相邻两个语音单元的声学参数之间的相对熵体现,相对熵越小,衔接平滑度越高,其可以用于与参数轨迹代价一起用于确定搜索代价。
例如,搜索代价Csearch可以采用如下公式确定:
Csearch=a*Ctrajectory+b*Csplice
其中a和b为权重系数,可以根据经验值或实验值进行设置,Ctrajectory为选择的语音单元构成的序列的参数轨迹代价,Csplice为选择的语音单元构成的序列的拼接代价。
图2为本发明实施例二提供的方法流程图,在本实施例中语音单元的预选和备选空间的搜索均采用神经网络模型,如图2中所示,该方法可以包括以下步骤:
在201中,预先基于文本训练样本和语音训练样本训练神经网络模型,得到文本特征到声学参数的映射。
具体的训练方式参见实施例一中步骤101中的描述。
在202中,对待合成文本进行文本分析,提取各基元的文本特征。
本步骤同实施例一中步骤102。
在203中,利用神经网络模型确定提取的各基元的文本特征对应的声学参数。
由于神经网络模型是文本特征到声学参数的映射,因此将提取的文本特征输入神经网络模型,就可以得到声学参数。
在204中,利用提取的各基元的文本特征从语音库中挑选各基元对应的候选语音单元。
在205中,利用神经网络模型分别确定候选语音单元的文本特征对应的声学参数。
在206中,基于声学参数之间的相似度,分别针对各基元从候选语音单元中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,其中N为预设的正整数。
在207中,基于专家知识对候选集合进行进一步筛选。
在208中,利用神经网络模型分别确定候选语音单元的文本特征对应的声学参数或进一步利用参数生成算法生成声学参数轨迹。
在209中,从备选空间中选择语音单元以进行拼接,使得选择的语音单元构成的序列的搜索代价最优。
图3为本发明实施例三提供的方法流程图,在本实施例中语音单元的预选采用神经网络模型,备选空间的搜索采用HMM模型,如图3所示,该方法可以包括以下步骤:
步骤301~307同步骤201~207。
在308中,利用HMM模型分别确定候选语音单元的文本特征对应的声学参数,或进一步利用参数生成算法生成声学参数轨迹。
在309中,基于搜索代价最小原则,从备选空间中选择语音单元以进行拼接,使得选择的语音单元构成的序列的搜索代价最优。
以上是对本发明所提供方法进行的详细描述,下面结合实施例对本发明提供的装置进行详细描述。
图4、图5和图6为本发明实施例提供的装置结构图,该装置可以包括:预选单元10和搜索单元20,还可以进一步包括训练单元00。其中各组成单元的主要功能如下:
预选单元10利用训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间。
搜索单元20利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优。
其中第一模型和第二模型中至少一个为神经网络模型,在图4所示实施例中,第一模型为HMM模型,第二模型为神经网络模型;在图5所示实施例中,第一模型和第二模型均为神经网络模型;在图6所示实施例中,第一模型为神经网络模型,第二模型为HMM模型。
训练单元00负责预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。具体地,可以对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;然后再利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
其中,上述的预选单元10可以具体包括:文本分析子单元11、参数确定子单元12和语音预选子单元13。
文本分析子单元11负责对待合成文本进行文本分析,提取各基元的文本特征。其中进行的文本分析可以包括:对文本训练样本进行的分词、注音、韵律标注、声韵母边界标注等,还可以包括归一化、去掉多余符号等辅助处理。最终可以得到各文本训练样本对应的文本特征,即包括分词,注音、韵律、声韵母边界等至少一种,每一个文本训练样本可以看做是由多个基本单元(简称基元)构成的,每个基本单元都存在对应的文本特征,一个文本训练样本提取出的文本特征可以是一个文本特征向量。
参数确定子单元12负责利用第一模型确定提取的各基元的文本特征对应的声学参数。其中声学参数指的是从语音训练样本中提取的谱参数信息和基频参数信息等中的至少一种。
语音预选子单元13负责基于声学参数之间的相似度,分别针对各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,N为预设的正整数。
另外,预选单元10还可以包括候选挑选子单元14。
候选挑选子单元14负责利用提取的各基元的文本特征从语音库中挑选各基元对应的候选语音单元。具体地,候选挑选子单元14可以确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;基于相似度从语音库中挑选各基元对应的候选语音单元。其中,声学参数之间的相似度采用相对熵的方式体现。
参数确定子单元12利用第一模型分别确定候选语音单元的文本特征对应的声学参数。语音预选子单元13在从语音库中挑选声候选语音单元时,具体从候选挑选子单元挑选出的候选语音单元中进一步挑选。
搜索单元20所使用的搜索代价可以由目标代价和拼接代价确定,目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应序列声学参数之间的距离。目标代价可以采用但不限于参数轨迹代价和最大似然代价。
参数轨迹代价体现为从备选空间中选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离,当采用参数轨迹代价时,选择语言单元的原则是:从备选空间中选择的语言单元所构成序列的搜索代价最小。
最大似然代价可以体现为选择的语言单元所构成序列的声学参数最大似然值,当采用最大似然代价时,选择语言单元的原则是:从备选空间中选择的语言单元所构成序列的搜索代价最大。
拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。其中,拼接代价可以通过相邻两个语音单元的声学参数之间的互相关关系确定,或者通过相邻两个语音单元的声学参数之间的相对熵确定。
例如,搜索代价Csearch可以采用如下公式确定:
Csearch=a*Ctrajectory+b*Csplice
其中a和b为权重系数,可以根据经验值或实验值进行设置,Ctrajectory为选择的语音单元构成的序列的参数轨迹代价,Csplice为选择的语音单元构成的序列的拼接代价。
最终,将搜索单元20确定的语音单元提供给拼接单元进行拼接。
举一个例子,其示意图如图7所示。
假设某待合成文本为:我是中国人。
进行文本分析提取各基元的文本特征包括诸如:wo3sh iii4zh ong1g uo2r en2,包括分词,注音、韵律、声韵母边界等的文本特征。在图7中以m个基元为例。
利用提取的各基元的文本特征从语音库中挑选各基元对应的候选语音单元。以uo3这一基元为例,语音库中会存在很多该基元对应的语音单元,在此通过文本特征之间的相似度先预选出一部分语音单元作为该基元的候选语音单元。
然后分别将各候选语音单元的文本特征送入HMM,得到各候选语音单元对应的声学参数。
然后利用声学参数之间的相对熵(也称为KLD散度),针对各基元分别从候选语音单元中挑选出N个构成备选空间。
基于专家知识对备选空间进行进一步筛选。
然后将备选空间中各候选语音单元的文本特征送入神经网络集合,得到对应的声学参数,还可以进一步利用参数生成算法生成参数轨迹。
再进一步基于搜索代价最小原则,从备选空间中选择语音单元用于拼接,即从备选空间中分别针对各基元选择出一个语音单元,选择出的语音单元构成的序列的搜索代价最小。这样就拼接出“我是中国人”的完整语音。
由以上描述可以看出,本发明提供的方法和装置可以具备以下优点:
1)若在语音单元的预选过程中采用神经网络模型,由于神经网络模型具有深层非线性建模特性,其模型精度和时序预测能力相比较HMM模型更强,计算的相对熵误差更小,因此预选出的备选空间更加准确,增大挑选出精准语音单元序列的可能性,使得合成的语音更加自然,更具表现力。
2)若在备选空间的搜索过程中采用神经网络模型,由于神经网络模型考虑状态之间的相关性,其对搜索代价的计算更加准确,得到的语音单元序列与目标更加贴近,从而使得合成的语音更加自然,表现力更强。
3)另外,传统的基于HMM模型的语音合成系统,由于模型精度低,预选精度不够,搜索空间目标精度不足,导致我们需要针对不同的语音库调整不同的预选参数(例如相对熵的阈值)、搜索过程中所采用的权重等等;但是引入神经网络模型后,人为调参、干预部分将大大减少,系统的自动化更高。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (18)
1.一种语音合成方法,其特征在于,该方法包括:
对待合成文本进行文本分析,提取各基元的文本特征;利用预先训练的第一模型确定提取的各基元的文本特征对应的声学参数;基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数;
利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;
所述第一模型和所述第二模型中至少一个为神经网络模型。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
3.根据权利要求2所述的方法,其特征在于,所述预先基于文本训练样本和语音训练样本训练第一模型和第二模型包括:
对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;
利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
4.根据权利要求2或3所述的方法,其特征在于,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种;
所述声学参数包括谱参数或基频参数中的至少一种。
5.根据权利要求1所述的方法,其特征在于,在分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间之前,还包括:
利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元;
利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数。
6.根据权利要求5所述的方法,其特征在于,所述利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元包括:
确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;
基于相似度从语音库中挑选各基元对应的候选语音单元。
7.根据权利要求1所述的方法,其特征在于,所述声学参数之间的相似度采用相对熵的方式体现。
8.根据权利要求1所述的方法,其特征在于,所述搜索代价由目标代价和拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。
9.根据权利要求8所述的方法,其特征在于,所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者,
所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。
10.一种语音合成装置,其特征在于,该装置包括:
预选单元,所述预选单元包括文本分析子单元、参数确定子单元和语音预选子单元;
所述文本分析子单元,用于对待合成文本进行文本分析,提取各基元的文本特征;
所述参数确定子单元,用于利用预先训练的第一模型确定提取的各基元的文本特征对应的声学参数;
所述语音预选子单元,用于基于声学参数之间的相似度,分别针对所述各基元从语音库中挑选声学参数与对应基元的声学参数之间的相似度满足预设要求的N个候选语音单元构成备选空间,所述N为预设的正整数;搜索单元,用于利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。
11.根据权利要求10所述的装置,其特征在于,该装置还包括:
训练单元,用于预先基于文本训练样本和语音训练样本训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
12.根据权利要求11所述的装置,其特征在于,所述训练单元,具体用于:
对各文本训练样本进行文本分析,提取各文本训练样本的文本特征;以及,对各语音训练样本进行声学分析,得到各语音训练样本的声学参数;
利用各文本训练样本的文本特征以及对应的声学参数,训练第一模型和第二模型,分别得到文本特征到声学参数的映射。
13.根据权利要求11或12所述的装置,其特征在于,所述文本特征包括分词、注音、韵律、声韵母边界中的至少一种;
所述声学参数包括谱参数或基频参数中的至少一种。
14.根据权利要求10所述的装置,其特征在于,所述预选单元还包括:
候选挑选子单元,用于利用提取的所述各基元的文本特征从语音库中挑选各基元对应的候选语音单元;
所述参数确定子单元,还用于利用所述第一模型分别确定候选语音单元的文本特征对应的声学参数;
所述语音预选子单元在从语音库中挑选声候选语音单元时,具体从所述候选挑选子单元挑选出的候选语音单元中进一步挑选。
15.根据权利要求14所述的装置,其特征在于,所述候选挑选子单元具体用于:
确定各基元的文本特征与该基元在语音库中对应的语音单元的文本特征之间的相似度;
基于相似度从语音库中挑选各基元对应的候选语音单元。
16.根据权利要求10所述的装置,其特征在于,所述声学参数之间的相似度采用相对熵的方式体现。
17.根据权利要求10所述的装置,其特征在于,所述搜索代价由目标代价和拼接代价确定,所述目标代价体现为从备选空间中选择的语音单元所构成的序列与待合成文本所对应声学参数序列之间的距离,所述拼接代价体现为从备选空间中选择的相邻两个语音单元的衔接平滑度。
18.根据权利要求17所述的装置,其特征在于,所述目标代价通过选择的语音单元所构成序列的声学参数最大似然值确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的互相关关系确定;或者,
所述目标代价通过选择的语音单元的声学参数轨迹与待合成文本的声学参数轨迹之间的距离确定,所述拼接代价通过所述相邻两个语音单元的声学参数之间的相对熵确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051963.3A CN105654940B (zh) | 2016-01-26 | 2016-01-26 | 一种语音合成方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610051963.3A CN105654940B (zh) | 2016-01-26 | 2016-01-26 | 一种语音合成方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105654940A CN105654940A (zh) | 2016-06-08 |
CN105654940B true CN105654940B (zh) | 2019-12-24 |
Family
ID=56487185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610051963.3A Active CN105654940B (zh) | 2016-01-26 | 2016-01-26 | 一种语音合成方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105654940B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11069335B2 (en) * | 2016-10-04 | 2021-07-20 | Cerence Operating Company | Speech synthesis using one or more recurrent neural networks |
CN106356052B (zh) * | 2016-10-17 | 2019-03-15 | 腾讯科技(深圳)有限公司 | 语音合成方法及装置 |
CN106653056B (zh) * | 2016-11-16 | 2020-04-24 | 中国科学院自动化研究所 | 基于lstm循环神经网络的基频提取模型及训练方法 |
CN106920547B (zh) * | 2017-02-21 | 2021-11-02 | 腾讯科技(上海)有限公司 | 语音转换方法和装置 |
CN106971709B (zh) * | 2017-04-19 | 2021-10-15 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
CN108172211B (zh) * | 2017-12-28 | 2021-02-12 | 云知声(上海)智能科技有限公司 | 可调节的波形拼接系统及方法 |
CN109616093B (zh) * | 2018-12-05 | 2024-02-27 | 平安科技(深圳)有限公司 | 端对端语音合成方法、装置、设备及存储介质 |
CN110047462B (zh) * | 2019-01-31 | 2021-08-13 | 北京捷通华声科技股份有限公司 | 一种语音合成方法、装置和电子设备 |
CN111508471B (zh) * | 2019-09-17 | 2021-04-20 | 马上消费金融股份有限公司 | 语音合成方法及其装置、电子设备和存储装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101178896B (zh) * | 2007-12-06 | 2012-03-28 | 安徽科大讯飞信息科技股份有限公司 | 基于声学统计模型的单元挑选语音合成方法 |
CN101710488B (zh) * | 2009-11-20 | 2011-08-03 | 安徽科大讯飞信息科技股份有限公司 | 语音合成方法及装置 |
JP2011180368A (ja) * | 2010-03-01 | 2011-09-15 | Fujitsu Ltd | 合成音声修正装置および合成音声修正方法 |
CN103531196B (zh) * | 2013-10-15 | 2016-04-13 | 中国科学院自动化研究所 | 一种波形拼接语音合成的选音方法 |
CN104021784B (zh) * | 2014-06-19 | 2017-06-06 | 百度在线网络技术(北京)有限公司 | 基于大语料库的语音合成方法和装置 |
-
2016
- 2016-01-26 CN CN201610051963.3A patent/CN105654940B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN105654940A (zh) | 2016-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654940B (zh) | 一种语音合成方法和装置 | |
JP6777768B2 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
EP3504709B1 (en) | Determining phonetic relationships | |
CN104681036B (zh) | 一种语言音频的检测系统及方法 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN105336322A (zh) | 多音字模型训练方法、语音合成方法及装置 | |
EP3772734A1 (en) | Speech recognition method and apparatus | |
EP4052254B1 (en) | Rescoring automatic speech recognition hypotheses using audio-visual matching | |
CN104538025A (zh) | 手势到汉藏双语语音转换方法及装置 | |
US20220165247A1 (en) | Method for generating synthetic speech and speech synthesis system | |
Zheng et al. | Improving Prosodic Boundaries Prediction for Mandarin Speech Synthesis by Using Enhanced Embedding Feature and Model Fusion Approach. | |
Narendra et al. | Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis | |
CN111599339B (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
Jeon et al. | Automatic prosodic event detection using a novel labeling and selection method in co-training | |
JPWO2016103652A1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN114333762B (zh) | 基于表现力的语音合成方法、系统、电子设备及存储介质 | |
KR20160000218A (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
Ilyes et al. | Statistical parametric speech synthesis for Arabic language using ANN | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP2003271185A (ja) | 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体 | |
Lei et al. | DBN-based multi-stream models for Mandarin toneme recognition | |
Chuchupal et al. | Development of Speech Technologies at Trunin-Donskoy’s School: From Sound Recognition to Natural Speech Recognition | |
Gujral et al. | Various Issues In Computerized Speech Recognition Systems | |
Ni et al. | Prosody dependent Mandarin speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |