CN101131818A

CN101131818A - 语音合成装置与方法

Info

Publication number: CN101131818A
Application number: CNA200710149423XA
Authority: CN
Inventors: 森田真弘; 笼岛岳彦
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-07-31
Filing date: 2007-07-31
Publication date: 2008-02-27
Also published as: US20080027727A1; EP1884922A1; JP2008033133A

Abstract

一种语音合成装置和方法，其中所述语音合成装置包括：语音单元语料库，存储一组语音单元；选择单元，将目标语音的音素序列划分为多个片段，并从语音单元语料库中为每一片段选择语音单元的组合；评估单元，评估在目标语音与通过融合每一片段的所述组合的每一个语音单元所生成的合成语音之间的失真；选择单元，基于所述失真为每一片段递归地选择语音单元的组合；融合单元，通过对为每一片段所选出的组合的每一个语音单元进行融合来为每一片段生成新的语音单元；以及连接单元，通过连接每一片段的新的语音单元来生成合成语音。

Description

语音合成装置与方法

技术领域

本发明涉及一种语音合成装置和方法，用于通过对每一片段融合多个语音单元来合成语音。

背景技术

从任意句子的语音信号的人工生成被称为文本语音合成。一般而言，语言处理单元、韵律处理单元和语音合成单元进行文本语音合成。语言处理单元对输入文本进行形态学和语义的分析。基于分析结果，韵律处理单元对该文本的重音和声调进行处理，并输出音素序列/韵律信息(基频、音素片段持续时间、功率)。基于音素序列/韵律信息，语音合成单元合成语音信号。在语音合成单元中，使用了这样的方法，其用来从任意韵律的(由韵律处理单元生成的)任意音素序列生成合成语音。

作为这样的语音合成方法，通过设定输入的音素序列/韵律信息作为目标，已知一种通过从(预先存储的)大量语音单元中选出多个语音单元用于合成的单元选择方法(JP-A(公开)2001-282278)。在该方法中，所合成语音的失真度(代价)被定义为代价函数，并且具有最低代价的语音单元被选出。例如，使用这一代价分别对由修改/连接语音单元引起的修改失真和连接失真进行评估。基于这一代价，选出用于语音合成的语音单元序列，并且从该语音单元序列生成合成语音。

简要地说，在这一语音合成方法中，通过估计合成语音的失真度，从大量语音单元中选出适合的语音单元序列。结果，生成抑制(由修改/连接单元引起的)语音质量下降的合成语音。

但是，在单元选择语音合成方法中，所合成声音的语音质量部分地降低。一些原因如下：第一，即使预先存储了大量的语音单元，对各种音素/韵律环境而言适合的语音单元并不总是存在；第二，由于代价函数不能完美地表现由用户实际感觉到的合成语音的失真度，因此并不是总能选出合适的单元序列；第三，由于大量语音单元的存在，因此有缺陷的语音单元不能事先排除在外；第四，由于将代价函数设计为排除有缺陷的语音单元是困难的，因此有缺陷的语音单元被并非期望地混合到选出的语音单元序列中。

于是，提出了另一种语音合成方法(JP-A(公开)2005-164749)。在该方法中，为每个合成单位(每个片段)选择多个语音单元而不是选择一个语音单元。通过融合多个语音单元，生成新的语音单元，并利用该新的语音单元合成语音。在下文中，这一方法被称为多单元选择和融合方法。

在所述多单元选择和融合方法中，为每个合成单元(每个片段)融合多个语音单元。即使与目标(音素/韵律环境)相匹配的适合的语音单元并不存在，或者即使选择了有缺陷的语音单元而不是适合的语音单元，也会新生成具有高质量的新的语音单元。而且，通过利用新的语音单元合成语音，可以改进单元选择方法的上述问题，并且稳定地实现具有高质量的语音合成。

具体地，在为每一个合成单位(每个片段)选择多个语音单元的情况下，按下述步骤执行：

(1)为每个合成单位(每个片段)，选出一个语音单元，以使得对所有合成单位(所有片段)而言语音单元序列的整体代价是最小的。(在下文中，该语音单元序列被称为最优单元序列)。

(2)用另一个语音单元替代最优单元序列中的一个语音单元，并再次计算最优单元序列的整体代价。从最优单元序列中为每一个合成单位(每个片段)选出多个较低代价的语音单元。

然而，在这一方法中，融合多个选出的语音单元的影响没有得到清晰地考虑。此外，在这一方法中，分别选出具有与目标(音素/韵律环境)匹配的音素/韵律环境的各语音单元。于是，语音单元的整体音素/韵律环境并不总是与目标(音素/韵律环境)匹配。结果，通过融合每一片段的语音单元所合成的语音常常偏离目标语音，而且不能足够地获得融合效果。

此外，将被融合的语音单元的数目对每一片段是不同的。通过适当地控制对每个片段的语音单元的个数，将会改进语音质量。然而，这种具体的方法还没有被提出。

发明内容

本发明涉及一种语音合成装置和方法，用于为每一片段适当地选择多个将被融合的语音单元。

根据本发明的一个方面，提供了一种用于合成语音的装置，包括：语音单元语料库，其被配置为存储一组语音单元；选择单元，其被配置为将目标语音的音素序列划分为多个片段，并从所述语音单元语料库为每个片段选出语音单元的组合；评估单元，其被配置为对每个所述片段评估在所述目标语音与通过融合所述组合的每一个语音单元所生成的合成语音之间的失真；其中，所述选择单元基于所述失真为每个所述片段递归地选择语音单元的所述组合；融合单元，其被配置为通过对为每个片段所选出的所述组合中的每个语音单元进行融合来为每个所述片段生成新的语音单元；以及连接单元，其被配置为通过连接每个所述片段的新的语音单元来生成合成语音。

根据本发明的另一个方面，提供了一种用于合成语音的方法，包括：存储一组语音单元；将目标语音的音素序列划分为多个片段；从所述一组语音单元中为每个所述片段选择语音单元的组合；对每个所述片段评估在所述目标语音与通过融合所述组合中的每个语音单元所生成的合成语音之间的失真；基于所述失真为每个所述片段递归地选择所述语音单元的组合；通过对为每个所述片段所选出的所述组合中的每个语音单元进行融合来为每个所述片段生成新的语音单元；以及通过连接每个所述片段的新的语音单元来生成合成语音。

附图说明

图1是依据第一实施例的语音合成装置的框图；

图2是图1中的语音合成单元4的框图；

图3是图2中的语音单元语料库42中的语音波形的一个例子；

图4是图2中的语音单元环境语料库43中的单元环境的一个例子；

图5是图2中的融合单元失真评估单元45的框图；

图6是依据第一实施例的语音单元的选择处理的流程图；

图7是依据第一实施例的每一片段的语音单元候选的一个例子；

图8是从图7中的语音单元候选中选出的最优单元序列的一个例子；

图9是从图8中的最优单元序列生成的单元组合候选的一个例子；

图10是从图9中的单元组合候选中选出的最优单元组合序列的一个例子；

图11是在“M＝3”情况下的最优单元组合序列的一个例子；

图12是依据第一实施例的通过融合语音波形的新的语音波形的生成处理的流程图；

图13是通过将具有选出的三个语音单元的单元组合候选60进行融合来生成新的语音单元63的处理的一个例子；

图14是图2中的单元编辑连接单元47的处理的示意图；

图15是在不对融合的语音单元的失真进行评估的情况下的单元选择的概念的示意图；

图16是在对融合的语音单元的失真进行评估的情况下的单元选择的概念的示意图；

图17是依据第二实施例的融合单元失真评估单元49的框图；

图18是依据第二实施例的融合单元失真评估单元49的处理的流程图。

具体实施方式

下面参照附图说明本发明的各实施例。本发明不受下面所给出的实施例的限制。

图1是依据第一实施例的语音合成装置的框图。语音合成装置包括文本输入单元1、语言处理单元2、韵律处理单元3和语音合成单元4。文本输入单元1输入文本。语言处理单元2对文本进行形态学和语义分析。韵律处理单元3对语言分析结果的重音和声调进行处理，并生成音素序列/韵律信息。语音合成单元4基于音素序列/韵律信息生成语音波形，并利用该语音波形生成合成语音。

在第一实施例中，特定特征在于语音合成单元4。于是，对语音合成单元4的组成与操作进行重点说明。图2是语音合成单元4的框图。

如图2所示，语音合成单元4包括音素序列/韵律信息输入单元41、语音单元语料库42、语音单元环境语料库43、单元选择单元44、融合单元失真评估单元45、单元融合单元46、单元编辑/连接单元47和语音波形输出单元48。音素序列/韵律信息输入单元41输入来自韵律处理单元3的音素序列/韵律信息。语音单元语料库(存储器)42存储大量的语音单元。语音单元环境语料库(存储器)43存储与在语音单元语料库42中存储的每个语音单元相对应的素/韵律环境。单元选择单元44从语音单元语料库42选择多个语音单元。融合单元失真评估单元45对由融合多个语音单元所引起的失真进行评估。单元融合单元46通过融合为每一片段选出的多个语音单元而生成新的语音单元。编辑/连接单元47通过修改(编辑)/连接所有片段的新的语音单元来生成合成语音的波形。语音波形输出单元48输出由单元编辑/连接单元47生成的语音波形。

下面，参照图2～5说明每一单元的详细处理。首先，音素序列/韵律信息输入单元41输出(从韵律处理单元3输入的)音素序列/韵律信息到单元选择单元44。例如，所述音素序列是音素记号的序列，而韵律信息是基频、音素片段持续时间和功率。在下文中，输入到音素序列/韵律信息输入单元41的音素序列/韵律信息被分别称为输入音素序列/输入韵律信息。

语音单元语料库42存储了用以生成合成语音的合成单位的大量语音单元。合成单位是音素或分割的音素的组合，例如，半音素、音素(C，V)、双音素(CV，VC，VV)、三音素(CVC，VCV)、音节(CV，V)(V：元音，C：辅音)。它们因为混合而可能具有不同的长度。语音单元是代表与合成单位对应的语音信号的波形或者特征的参数序列。

图3示出了存储在语音单元语料库42中的语音单元的一个实例。如图3所示，对应存储了语音单元(每个音素的语音信号的波形)和用来识别该语音单元的单元编号。为了获得该语音单元，标记(预先存储的)语音数据中的每一个音素，并且从语音数据提取每个标记的音素的语音波形。

语音单元环境语料库43存储与在语音单元语料库42中存储的每一个语音单元相对应的音素/韵律环境。音素/韵律环境是每个语音单元的环境因素的组合。该因素例如是音素名称、在先音素、后续音素、第二后续音素、基频、音素片段持续时间、功率、重读(stress)、相对于重音核心的位置、相对于呼吸点的时间、发声速度和感情色彩。此外，还存储了用以选择语音单元的声学特征，诸如在起点和终点的倒谱系数。存储在语音单元环境语料库43中的音素/韵律环境和声学特征被称为单元环境。

图4是在语音单元环境语料库43中存储的单元环境的一个例子。如图4所示，存储了与语音单元语料库42中每个语音单元的单元编号对应的单元环境。如音素/韵律环境，音素名称、相邻音素(音素的前后两个音素)，基频、音素片段持续时间以及在语音单元的起点和终点的倒谱系数。

为了获得单元环境，分析从其提取出语音单元的语音数据，并且从分析结果提取单元环境。在图4中，语音单元的合成单位是音素。然而，也可以存储半音素、双音素、三音素、音节、或者这些要素的组合。

图5是融合单元失真评估单元45的框图。融合单元失真评估单元45包括融合单元环境评估单元451和失真评估单元452。融合单元环境评估单元451对通过融合从单元选择单元44输入的多个语音单元所生成的新语音单元的单元环境进行评估。失真评估单元452基于(由融合单元环境评估单元451估计的)单元环境和(通过单元选择单元44输入的)目标音素/韵律信息对所融合的多个语音单元导致的失真进行评估。

融合单元环境评估单元451输入为用以评估失真的第i个片段选出的语音单元的单元编号和为与第i个片段相邻的第(i-1)个片段选出的语音单元的单元编号。通过基于单元编号参照语音单元环境语料库43，融合单元环境评估单元451对第i个片段的融合语音单元候选的单元环境和第(i-1)个片段的融合语音单元候选的单元环境进行评估。所述单元环境被输入到失真评估单元452。

接下来，参照图2～14说明语音合成单元4的操作。(从图2中的音素序列/韵律信息输入单元41)输入到单元选择单元44的音素序列被分成多个合成单位。在下文中，合成单位被视为片段。单元选择单元44通过参照语音单元语料库42为每一片段选择将被融合的语音单元的多个组合候选。第i个片段的语音单元的多个组合候选(在下文，称之为第i语音单元组合候选)和目标音素/韵律信息被输出到融合单元失真评估单元45。关于目标音素/韵律信息，使用输入的音素序列/输入的韵律信息。

如图5所示，第i语音单元组合候选和第(i-1)语音单元组合候选被输入到融合单元环境评估单元451。通过参照语音单元环境语料库43，融合单元环境评估单元451对从第i语音单元组合候选融合而成的第i个语音单元的单元环境和从第(i-1)语音单元组合候选融合而成的第(i-1)个语音单元的单元环境(在下文中，分别称之为第i个评估单元环境和第(i-1)个评估单元环境)进行评估。这些评估单元环境被输出到失真评估单元452。

失真评估单元452从融合单元环境评估单元451输入第i个评估单元环境和第(i-1)个评估单元环境，并且从单元选择单元44输入目标音素/韵律环境信息。基于这些信息，失真评估单元452评估在目标语音和从每个片段的语音单元组合候选融合而成的合成语音之间的失真(在下文中，称之为融合语音单元的评估失真)。评估失真被输出到单元选择单元44。基于每一片段的语音单元组合候选的融合语音单元的评估失真，单元选择单元44递归地选择语音单元组合候选以最小化每一片段的失真，并输出语音单元组合候选到单元融合单元46。

单元融合单元46通过对(从单元选择单元44输入的)每一片段的语音单元组合候选进行融合，为每一片段生成新的语音单元，并且输出每一片段的新的语音单元到单元编辑/连接单元47。单元编辑/连接单元47(从单元融合单元46)输入新的语音单元和(从音素序列/韵律信息输入单元41)输入目标韵律信息。基于目标韵律信息，单元编辑/连接单元47通过对每一片段的新的语音单元进行修改(编辑)和连接来生成语音波形。此语音波形被从语音波形输出单元48输出。

接下来，参照图5说明融合单元失真评估单元45的操作。基于第i个评估单元环境，第(i-1)个评估单元环境(每一个都从融合单元环境评估单元451输入)，以及(从单元选择单元44输入的)目标音素/韵律信息，失真评估单元452计算第i语音单元组合候选的融合语音单元的评估失真。在这种情况下，作为失真的度，以与单元选择方法或多单元选择和融合方法相同的方式使用“代价”。代价由代价函数定义。于是，详细说明代价和代价函数。

代价被分为两类代价(目标代价和连接代价)。目标代价表示从代价计算对象的语音单元产生的在目标语音和合成语音之间的失真度。在下文中，所述语音单元被称为对象单元。对象单元被用在目标音素/韵律环境中。连接代价表示对象单元与相邻语音单元连接所产生的在目标语音和合成语音之间的失真度。

目标代价和连接代价分别包含每一个失真因素的子代价。对每一个子代价，定义子代价函数C_n(u_i，u_i-1，t_i)(n＝1，...，N，N：子代价的个数)。

在子代价函数中，t_i表示在目标音素/韵律环境t＝(t₁，...，t_I)(I：片段的个数)的条件下的第i个片段的音素/韵律环境，而u_i表示第i个片段的语音单元。

目标代价的子代价包括基频代价、音素片断持续时间代价和音素环境代价。基频代价表示在目标基频和语音单元的基频之间的差。音素片断持续时间代价表示在目标音素片段持续时间与语音单元的音素片断持续时间之间的差。音素环境代价表示在目标音素环境与语音单元所属音素环境之间的失真。

对每个代价的具体计算方法做一说明。基频代价的计算如下：

C₁(u_i，u_i-1，t_i)＝{log(f(v_i))-log(f(t_i))}² …………(1)

v_i：语音单元u_i的单元环境

f：从单元环境v_i提取平均基频的函数

音素片断持续时间代价的计算如下：

C₂(u_i，u_i-1，t_i)＝{g(v_i)-g(t_i)}² …………(2)

g：从单元环境v_i提取音素片断持续时间的函数

音素环境代价的计算如下：

C_{3} (u_{i}, u_{i - 1}, t_{i}) = Σ_{j = - 2}^{2} r_{j} \cdot d (p (v_{i}, j), p (t_{i}, j)) ............ (3)

j：音素与对象音素的相对位置

p：从单元环境v_i提取在相对位置j的音素的音素环境的函数

d：计算两个音素之间的距离(特征差异)的函数

r_i：与相对位置j的距离的权重

“d”的值取在“0”～“1”之间。对两个相同音素的d值为“1”，而对两个音素如果每一个特征都完全不同，d值为“0”。

另一方面，连接代价的子代价包括表示语音单元边界的频谱差异的频谱连接代价。频谱连接代价可以如下计算：

C₄(u_i，u_i-1，t_i)＝‖h_pre(u_i)-h_post(u_i-1)‖............(4)

‖：范数

h_pre：提取语音单元u_i之前的连接边界的倒谱系数(向量)的函数

h_post：提取语音单元u_i之后的连接边界的倒谱系数(向量)的函数

用下式将这些子代价函数的加权和定义为合成单位代价函数：

C (u_{i}, u_{i - 1}, t_{i}) = Σ_{n = 1}^{N} w_{n} {\cdot C}_{n} (u_{i}, u_{i - 1}, t_{i}) . . . . . . . . . . . . (5)

w_n：子代价之间的权重

上述式(5)表示作为一些语音单元用于一些片段时的代价的合成单位单元代价的计算。

关于通过合成单位从输入的音素序列中分割的多个片段，失真评估单元452使用等式(5)计算合成单位代价。单元选择单元44通过下述的所有片段的合成单位代价求和的方法来计算整体代价。

TC = Σ_{i = 1}^{I} {(C (u_{i}, u_{i - 1}, t_{i}))}^{p} . . . . . . . . . . . . (6)

P：常数

为了简化说明，假设“P＝1”。简单地说，整体代价表示为每一个合成单位代价的和。换句话说，整体代价表示从为输入的音素序列选出的语音单元序列产生的在目标语音和合成语音之间的失真。通过选择语音单元序列以使整体代价最小化，可以生成(与目标语音相比较)具有极小的失真的合成语音。

在上述等式(6)中，“P”可以是除了“1”之外的任意值。例如，如果“P”大于“1”，强调局部上具有大的合成单位代价的语音单元序列。换句话说，局部上具有大的合成单位代价的语音单元难以被选中。

下面，利用代价函数说明融合单元失真评估单元45的操作。首先，融合单元环境评估单元451从单元选择单元44输入第i个片段和第(i-1)个片段的语音单元组合候选的单元编号。在这种情况下，可以输入一个单元编号或者多个单元编号作为语音单元组合候选。而且，如果考虑目标代价而不考虑连接代价，则不必输入第(i-1)个片段的语音单元组合候选的单元编号。

通过参照语音单元环境语料库43，融合单元环境评估单元451分别对从第i个片段和第(i-1)个片段的语音单元组合候选融合的新语音单元的单元环境进行评估，并将评估结果输出到失真评估单元452。具体来说，从语音单元环境语料库43提取输入的单元编号的单元环境，并作为第i个单元环境和第(i-1)个单元环境输出到失真评估单元452。

在本实施例中，在融合从语音单元环境语料库43提取的每一个语音单元的单元环境的情况下，融合单元环境评估单元451输出单元环境的平均作为第i个评估单元环境和第(i-1)个评估单元环境。

具体地，为单元环境的每一个因素计算语音单元组合候选中的每一个语音单元的平均值。例如，在每个语音单元的基频为200Hz、250Hz和180Hz的情况下，将这三个值的平均210Hz作为融合语音单元的基频输出。以同样的方式，可以计算诸如音素片段持续时间和倒谱系数之类的具有连续值的因素的均值。

至于诸如相邻音素的离散符号，其平均不能简单地计算出。在语音单元的相邻音素中，可以通过选择最常出现或者对该语音单元具有最强影响的一个相邻音素来得到代表值。然而，对于多个语音单元的相邻音素，可将每个语音单元的相邻音素的组合，替代所述代表值，用作为从所述多个语音单元融合而成的新语音单元的相邻音素。

接着，失真评估单元452从融合单元环境评估单元451输入第i个评估单元环境和第(i-1)个评估单元环境，且从单元选择单元44输入目标音素/韵律信息。通过利用这些输入值进行等式(5)的计算，失真评估单元452计算由第i个片段的语音单元组合候选融合而成的新语音单元的合成单位代价。

在这种情况下，等式(1)-(5)中的“u_i”是由第i个片段的语音单元组合候选融合而成的新语音单元，而“v_i”是第i个评估单元环境。

如上所述，相邻音素的评估单元环境是多个语音单元的相邻音素的单元环境的组合。于是，在等式(3)中，p(v_i，j)具有多个值如p_{i_j_1}，...，p_{i_j_M}(M：所融合语音单元的个数)。另一方面，目标音素环境p(t_i，j)具有一个值p_{t_i_j}。于是，等式(3)中的d(p(v_i，j)，p(t_i，j))可以如下计算：

d (p (v_{i}, j), p (t_{i}, j)) = \frac{1}{M} Σ_{m = 1}^{M} d (p_{i_j_m}, p_{t_i_j}) . . . . . . . . . . . . (7)

(由失真评估单元452计算的)第i个片段的语音单元组合候选的合成单位代价被作为第i个融合语音单元的评估失真从融合单元失真评估单元45输出。

下面，说明单元选择单元44的操作。单元选择单元44将输入的音素序列划分成多个片段(每一个合成单位)，并且为每一个片段选出多个语音单元。为每一片段选出的这多个语音单元被称为语音单元组合候选。

参照图6～11，对选择每一片段的多个语音单元(最多M个)的方法进行说明。图6是用于选择每一片段的语音单元的方法的流程图。图7～11是在图6的流程图的各步选出的语音单元组合候选的示意图。

首先，单元选择单元44从存储在语音单元语料库42中的语音单元中为每一片段提取出语音单元候选(S101)。图7是为输入的音素序列“oNs e N”提取出的语音单元候选的例子，在图7中，每一音素记号下的白色圆形表示每一片段的语音单元候选，而白色圆形中的数字表示每个单元编号。

接下来，单元选择单元44将计数器m设为初始值“1”(S102)，并判断计数器m是否为“1”(S103)。如果计数器m不为“1”，处理前进到S104(在S103为“否”)。如果计数器m是“1”，处理前进到S105(在S103为“是”)。

在S102后前进到S103的情况下，计数器m为“1”，而且处理将跳过S104前进到S105。因此，先对S105的处理进行说明，然后再说明S104的处理。

从所列出的语音单元候选中，单元选择单元44搜索能使通过等式(6)计算的整体代价最小的语音单元序列(S105)。具有最小整体代价的语音单元序列被称为最优单元序列。

图8是从图7中列出的语音单元候选中选出的最优单元序列的一个例子。所选出的语音单元候选用斜线表示。如上所述，整体代价所必需的合成单位代价由融合单元失真评估单元45计算。例如，在图9的最优单元序列下计算语音单元51的合成单位代价的情况下，单元选择单元44将语音单元51的单元编号“401”、在前的语音单元52的单元编号“304”以及目标音素/韵律信息输出到融合单元失真评估单元45。融合单元失真评估单元45计算语音单元51的合成单位代价，并将该合成单位代价输出到单元选择单元44。单元选择单元44通过对每个语音单元的合成单位代价求和来计算整体代价，并基于整体代价搜索最优单元序列。可以使用动态规划方法有效地进行最优单元序列的搜索。

接下来，计数器m被与将被融合的语音单元个数的最大值M进行比较(S106)。如果计数器m不小于M，处理完成(在S106为“否”)。如果计数器m小于M(在S106为“是”)，计数器m加“1”(S107)，而且处理返回S103。

在S103，计数器m被与“1”进行比较。在这种情况下，计数器m已经在S107被加“1”。结果，计数器m大于“1”，并且处理前进到S104(在S103为“否”)。

在S104，基于被包含在(先前在S105搜索得到的)最优单元序列中的语音单元和未被包含在该最优单元序列中的其它语音单元，生成每一片段的语音单元的语音单元组合候选。每一个被包含在最优单元序列中的语音单元被与为各片段列出的语音单元候选中(未被包含在最优单元序列中)的另一个语音单元组合。每一片段的组合的语音单元被生成为单元组合候选。

图9示出了单元组合候选的例子。在图9中，图8中选出的最优单元序列中的每一个语音单元与每一片段的(不在最优单元序列中的)语音单元候选中的另一个语音单元组合，且被生成为单元组合候选。例如，图9中的单元组合候选53是最优单元序列中的语音单元51(单元编号401)与另一个语音单元(单元编号402)的组合。

在第一实施例中，对浊音执行通过单元融合单元46对语音单元的融合而对清音不执行。关于清音片段“s”，最优单元序列中的每一个语音单元不与不包含在最优单元序列中的另一个语音单元相结合。在这种情况下，首先在图6中的S105获得的最优单元序列中的清音的语音单元52(单元编号304)被视为单元组合候选。

接下来，在S105，从每一片段的单元组合候选搜索最优单元组合的序列(在下文中，称之为最优单元组合序列)。如上所述，由融合单元失真评估单元45计算每一个单元组合候选的合成单位代价。利用动态规划方法执行最优单元组合序列的搜索。

图10示出了从图9中的单元组合候选中选出的最优单元组合序列的一个例子。所选出的语音单元由斜线表示。在下文中，处理步骤S103～S107被反复执行直到计数器m超过将被融合的语音单元的个数最大值M。

图11是在“M＝3”的情况下选出的最优单元组合序列的一个例子。在这一例子中，对于第一个片段的音素“o”，选出图8中的单元编号为“103，101，104”的三个语音单元。对于第二个片段的音素“N”，选出单元编号为“202”的一个语音单元。

通过单元选择单元44为每一片段选择多个语音单元的方法不限于前述方法。例如，首先列出包含最大值M个语音单元的所有组合。通过从所列出的所有组合中搜索最优单元组合序列，可以为每一片段选择多个语音单元。在这种方法中，在语音单元候选的数目很大的情况下，每一片段的列出的语音单元组合的个数非常巨大，并需要巨大的计算成本和存储器大小。但是，这一方法对最优单元组合序列的选择是有效的。因此，如果高计算成本和大存储器是允许的，这一方法的选择结果要优于前述方法。

单元融合单元46通过对单元选择单元44选出的单元组合候选进行融合生成每一片段的新语音单元。在第一实施例中，对于浊音片段，由于对融合语音单元的效果显著，因此语音单元被融合。对于清音片段，使用所选出的一个语音单元而不融合。

JP-A(公开)2005-164749中公开了一种融合浊音的语音单元的方法。在这种情况下，参照图12和图13对该方法进行说明。图12是从浊音的语音波形融合而成的新语音波形的生成的流程图。图13是从为某片段选出的三个语音单元的单元组合候选60融合而成的新语音单元63的生成的例子。

首先，从语音单元语料库42提取最优单元序列中的每个片段的每个语音单元的音调波形(S201)。音调波形是一个具有几倍于语音基频的周期的相对短的波形，且不具有基频。频谱表示语音信号的频谱包络。作为一种提取这种音调波形的方法，采用使用了基频的同步窗的方法。标记(音调标记)被附加于每个语音单元的语音波形的基频间隔。通过将Hanning窗设为以音调标记为中心具有两倍基本周期长，来提取音调波形。图13中的音调波形61表示从单元组合候选60的每个语音单元提取的音调波形序列的一个例子。

接下来，在相同片段的所有语音单元之中使得每个语音单元的音调波形的个数相等(S202)。在这种情况下，设为相等的音调波形的个数成为生成目标片段持续时间的合成语音所必需的音调波形的个数。例如，每一语音单元的音调波形的个数可被相等为音调波形中的一个音调波形的最大数目。至于具有小的音调波形个数的音调波形序列，可以通过复制该序列中的一些音调波形来增加音调波形的个数。至于具有大的音调波形个数的音调波形序列，可以通过对该序列中的一些音调波形进行采样来减少音调波形的个数。在图13中的音调波形序列62中，音调波形的个数等于7。

在使音调波形个数相等之后，通过对相同位置上的每一个语音单元的音调波形进行融合，生成新的音调波形序列(S203)。在图13中，通过对每个音调波形序列62中的第七个音调波形62a、62b和62c进行融合而生成新音调波形序列63中的音调波形63a。这样，新的音调波形序列63成为融合后的语音单元。

可以有选择地运用融合音调波形的几种方法。作为第一种方法，简单地计算音调波形的平均。作为第二种方法，在沿时间方向校正每一个音调波形的位置以最大化音调波形间的相关性之后，计算音调波形的平均。作为第三种方法，音调波形被分割到每个波段，校正音调波形的位置以最大化每一波段的音调波形间的相关性，平均同一波段的音调波形，并且相加每一波段的平均音调波形。在第一实施例中采用了第三种方法。

至于与输入的音素序列相对应的多个片段，单元融合单元46对包含在每一个片段的单元组合候选中的多个语音单元进行融合。通过这种方式，为每一片段生成新的语音单元(在下文中，称之为融合的语音单元)，并且输出到单元编辑/连接单元47。

单元编辑/连接单元47基于输入的音素信息对(从单元融合单元46输入的)每一片段的融合的语音单元进行修改(编辑)和连接，并生成合成语音的语音波形。每一片段的(由单元融合单元46生成的)融合的语音单元实际上是音调波形。于是，通过叠加和相加音调波形，以使得融合的语音单元的基频和音素片段持续时间分别与输入的音素信息中的目标语音的基频和音素片段持续时间相等，来生成语音波形。

图14是用来说明单元编辑/连接单元47的处理的示意图。在图14中，(由单元融合单元46生成的)音素“o”“N”“s”“e”“N”的每个合成单位的融合的语音单元被修改和连接。结果，生成语音单元“ONSEN”。在图14中，虚线表示基于目标音素片段持续时间划分的每一个音素的片段边界。白色三角形表示基于目标基频而定位的叠加和相加每个音调波形的位置(音调标记)。如图14所示，对于浊音，融合的语音单元的每一个音调波形被叠加和相加到对应的音调标记。对于清音，语音单元波形被延长以与片段的长度相等，并被叠加和相加到片段上。

如上所述，在第一实施例中，融合语音单元失真评估单元45对由融合每一片段的单元组合候选所引起的失真进行评估。基于评估结果，单元选择单元44为每一片段生成新的单元组合候选。结果，在融合语音单元的情况下，能够选出具有高融合效果的语音单元。这一概念可以参照图15和图16进行说明。

图15是在不对融合的语音单元的失真进行评估的情况下的单元选择的示意图。在图15中，在选择语音单元的情况下，选出具有与目标语音相近的音素/韵律环境的语音单元。通过白色圆形示出了分布在语音空间70中的多个语音单元701。用黑色圆形表示分布在单元环境空间71中的每个语音单元701的音素/韵律环境711。此外，用虚线和实线表示每个语音单元701与音素/韵律环境711之间的对应关系。黑色圆形表示由单元选择单元44选出的语音单元702。通过对语音单元702进行融合，生成新的语音单元712。此外，目标语音703存在于语音空间70中，且目标语音703的目标音素/韵律环境713存在于单元环境空间71中。

在这种情况下，融合的语音单元的失真没有经过评估，而且简单地选出具有与目标音素/韵律环境713相近的音素/韵律环境的语音单元702。结果，通过对所选语音单元702进行融合而生成的新的语音单元712从目标语音703偏移。以与采用一个选择的语音单元而没有融合的情况相同的方式，语音质量降低。

另一方面，图16是当对融合的语音单元的失真进行评估时的单元选择的示意图。除了由黑色圆形表示的所选的语音单元之外，图15和图16使用同样的记号。

在图16中，单元选择单元44选择语音单元以使得(由失真评估单元452评估的)融合的语音单元的评估失真最小化。换句话说，语音单元702被选出以使得(由所选语音单元融合而成的)融合的语音单元的评估的单元环境与目标语音的音素/韵律环境相同。结果，黑色圆形的语音单元702被单元选择单元44选出，并且从语音单元702生成的新的语音单元712与目标语音703相近。

通过这种方式，基于(由融合语音单元失真评估单元45评估得出的)融合的语音单元的失真，单元选择单元44为每一片段选出单元组合候选。于是，在融合单元组合候选的情况下，可以得到具有高融合效果的语音单元。

此外，在选择每一片段的单元组合候选的情况下，融合语音单元失真评估单元45通过增加将被融合的语音单元的个数来评估融合的语音单元的失真，而不固定语音单元的个数。基于评估结果，单元选择单元44选出单元组合候选。于是，可以为每一片段适当地控制将被融合的语音单元的个数。

此外，在第一实施例中，在融合语音单元的情况下，单元选择单元44选择具有高融合效果的语音单元的合适个数。于是，能够生成具有高质量的自然合成语音。

下一步，参照图17和图18说明第二实施例的语音合成装置。图17是第二实施例的融合单元失真评估单元49的框图。与图5的融合单元失真评估单元45相比较，融合单元失真评估单元49包括权重优化单元491。在输入了第i个片段和第(i-1)个片段的语音单元的单元编号，并从单元选择单元44输入了目标音素/韵律环境的情况下，除了融合的语音单元的评估失真之外，权重优化单元491输出将被融合的每个语音单元的权重(在下文中，称之为融合权重)。其它操作与语音合成单元4一样。从而，相同的参考数字被分配给相同的单元。

下面，参考图18对融合单元失真评估单元49的操作进行说明。图18是融合单元失真评估单元49的处理的流程图。首先，在输入第i个片段和第(i-1)个片段的语音单元的单元编号，以及从单元选择单元44输入了目标音素/韵律环境的情况下，权重优化单元491初始化第i个片段的每个语音单元的融合权重为1/L(S301)。这一初始化的融合权重被输入到融合单元环境评估单元451。“L”是第i个片段的语音单元的个数。

融合单元环境评估单元451从权重优化单元491输入融合权重，并且从单元选择单元44输入第i个片段和第(i-1)个片段的语音单元的单元编号。基于第i个片段的每个语音单元的融合权重，融合单元环境单元451计算第i个融合语音单元的评估单元环境(S302)。关于具有连续量的单元环境因素(如：基频、音素片段持续时间、倒谱系数)，通过计算每个因素的用融合权重加权的和的平均来获得融合的语音单元的评估单元环境，而不是计算每个因素的平均。例如，等式(2)中的融合的语音单元的音素片段持续时间g(v_i)用下式表示：

g (v_{i}) = Σ_{m = 1}^{M} w_{i_m} \cdot g (v_{i_m}) . . . . . . . . . . . . (8)

w_{i_m}：第i个片段的第m个语音单元的融合权重(w_{i_1}+...+w_{i_M}＝1)

v_{i_m}：第i个片段的第m个语音单元的单元环境

另一方面，对于作为离散符号的相邻音素，以与第一实施例相同的方式，多个语音单元的相邻音素的组合被视为从多个语音单元融合而成的新语音单元的相邻音素。

下面，基于来自融合单元环境评估单元451的第i个融合语音单元的评估单元环境(和第(i-1)个融合语音单元的评估单元环境)，失真评估单元452对使用第i个融合语音单元时目标语音与合成语音之间的失真进行评估(S303)。简单地说，通过等式(5)计算第i个片段的(通过使用融合权重对每个语音单元进行加权求和而生成的)融合的语音单元的合成单位代价。在通过等式(3)计算“d(p(v_i，j)，p(t_i，j))”以计算音素环境代价的情况下，使用下述等式而不是等式(7)来计算反映融合权重的音素间的距离：

d (p (v_{i}, j), p (t_{i}, j)) = Σ_{m = 1}^{M} w_{i_m} \cdot d (p_{i_j_m}, p_{t_i_j}) . . . . . . . . . . . . (9)

失真评估单元452判断融合的语音单元的评估失真值是否收敛(S304)。在通过图18的当前循环计算的融合的语音单元的评估失真为C_j且通过图18的前一循环计算的融合的语音单元的评估失真为C_j-1的情况下，如果“‖C_j-C_j-1‖≤ε(ε：接近于“0”的常数)”，那么评估失真的值收敛。在收敛的情况下，融合的语音单元的评估失真的值和用于计算的融合权重被输出到单元选择单元44(在S304为“是”)。

另一方面，在融合语音的评估失真值不收敛的情况下(在S304“否”)，权重优化单元491在“(w_{i_1}+...+w_{i_M}≥0)”的条件下对融合权重“(w_{i_1}，...，w_{i_M})”进行优化以最小化融合的语音单元的评估失真(通过等式(5)计算的合成单位代价C(u_i，u_i-1，t_i))(S305)。

为了对融合权重进行优化，首先，下列等式被赋给“C(u_i，u_i-1，t_i)”：

w_{i_M} = 1 - Σ_{m = 1}^{M - 1} w_{i_m} . . . . . . . . . . . . (10)

其次，“C(u_i，u_i-1，t_i)”被“w_{i_m}(m＝1，...，M-1)”偏微分。

再次，偏微分等式被如下所示设为“0”：

\frac{&PartialD;}{{&PartialD; w}_{i_m}} C (u_{i}, u_{i - 1} {, t}_{i}) = 0

(m＝1，...，M-1)............(11)

简言之，求解联立方程(11)。

如果方程(11)不能被解析求解，则通过利用已知的优化方法搜索使得等式(5)最小化的融合权重，来优化融合权重。在由权重优化单元491对融合权重进行优化之后，融合单元环境评估单元451计算融合的语音单元的评估单元环境(S302)。

(由融合单元失真评估单元49计算的)融合的语音单元的评估失真和融合权重被输入到单元选择单元44。基于融合的语音单元的评估失真，单元选择单元44生成每个片段的单元组合候选，以使得所有片段的单元组合候选的整体代价最小化。生成单元组合候选的方法与图6的流程图所示的方法相同。

接下来，(由单元选择单元44生成的)单元组合候选和包含在单元组合候选中的每个语音单元的融合权重被输入到单元融合单元46。单元融合单元46为每一个片段利用融合权重融合每一个语音单元。用于对包含在单元组合候选中的语音单元进行融合的方法与图12的流程图所示的方法几乎相同。不同点在于，在相同位置的音调波形的融合处理(图12中的S203)中，在通过每个波段对音调波形求平均的情况下，通过将融合权重与相应的音调波形相乘来平均音调波形。在对每一个语音单元进行融合后的其他处理和操作与第一实施例的相同。

如前所述，在第二实施例中，除第一实施例的效果之外，权重优化单元491计算融合权重以使得融合的语音单元的失真最小化，而且融合权重被用于融合包含在单元组合候选中的每个语音单元。于是，为每个片段生成了与目标语音相近的融合的语音单元，而且能够生成具有更高质量的合成语音。

在公开的实施例中，可以使用计算机可执行程序完成所述处理，并且该程序可以在计算机可读存储装置上实现。

在所述实施例中，存储装置，例如磁盘、软盘、硬盘、光盘(CD-ROM、CD-R、DVD等)、光磁盘(MD等)可以被用来存储用于使得处理器或计算机进行前述过程的指令。

此外，基于从存储装置安装到计算机的程序的指示，工作在计算机上的OS(操作系统)，或者MW(中间件软件)，例如数据库管理软件或者网络，可能会执行每一处理的一部分以实现该实施例。

此外，存储装置并不限于独立于计算机的装置。通过下载经由LAN或因特网传送的程序，还包括存储了该程序的存储装置。此外，存储装置不限于一个。在所述实施例的处理由多个存储装置执行的情况下，多个存储装置可以包含在存储装置中。该装置的组件可以任意组合。

计算机可以依照存储在此存储装置中的程序来执行所述实施例的每一个处理阶段。该计算机可以是一个设备，如个人计算机或者具有经由网络连接起来的多个处理设备的系统。此外，该计算机不限于个人计算机。本领域技术人员将意识到计算机可以包括信息处理机中的处理单元、微型计算机等等。简而言之，能利用程序执行实施例的功能的设备与装置统称为计算机。

Claims

1.一种用于合成语音的装置，包括：

语音单元语料库，其被配置为一组存储语音单元；

选择单元，其被配置为将目标语音的音素序列划分为多个片段，并从所述语音单元语料库为每个片段选择语音单元的组合；

评估单元，其被配置为评估在所述目标语音与通过融合每个所述片段的所述组合的每一个语音单元所生成的合成语音之间的失真；

其中，所述选择单元基于所述失真为每个所述片段递归地选择语音单元的所述组合；

融合单元，其被配置为通过对为每个所述片段选择的所述组合中的每个语音单元进行融合来为每个所述片段生成新的语音单元；以及

连接单元，其被配置为通过连接每个所述片段的新的语音单元来生成合成语音。

2.根据权利要求1所述的装置，进一步包括：语音单元环境语料库，其被配置为存储与存储在所述语音单元语料库中的所述组中的每一个语音单元相对应的环境信息。

3.根据权利要求2所述的装置，其中，所述环境信息包括单元编号、音素、该音素前后的相邻音素、基频、音素片段持续时间和语音波形的始点及终点的倒谱系数。

4.根据权利要求3所述的装置，其中，所述语音单元语料库存储与所述单元编号对应的语音波形。

5.根据权利要求1所述的装置，进一步包括：音素序列/韵律信息输入单元，其被配置为输入所述目标语音的所述音素序列和韵律信息。

6.根据权利要求1所述的装置，其中，所述选择单元基于所述失真为每个所述片段递归地改变所述组合的语音单元的个数。

7.根据权利要求2所述的装置，其中，所述评估单元从所述语音单元环境语料库中提取所述组合的每一个语音单元的环境信息，基于所述提取的环境信息评估所述新的语音单元的音素/韵律环境，并基于该音素/韵律环境评估所述失真。

8.根据权利要求1所述的装置，其中，所述选择单元为每个所述片段选择语音单元的多个组合，以及

其中，所述评估单元分别为所述多个组合中的每一个评估所述失真。

9.根据权利要求8所述的装置，其中，所述选择单元从所述多个组合中为每个所述片段选择语音单元的一个组合，该一个组合具有在所述多个组合的所有失真之中的最小的失真。

10.根据权利要求9所述的装置，其中，所述选择单元将至少一个不包括在所述一个组合中的语音单元不同地加到该一个组合，并且为每个所述片段选择语音单元的多个新的组合，所述多个新的组合中的每一个不同于所述至少一个语音单元和所述一个组合的相加结果。

11.根据权利要求10所述的装置，其中，所述评估单元分别估计所述多个新的组合中的每一个的所述失真，以及

其中，所述选择单元从所述多个新的组合中为每个所述片段选择语音单元的一个新的组合，该一个新的组合具有在所述多个新的组合的所有失真之中的最小的失真。

12.根据权利要求11所述的方法，其中，所述选择单元多次为每个所述片段递归地选择语音单元的多个新的组合。

13.根据权利要求4所述的方法，其中，所述融合单元从所述语音单元语料库中提取相同片段的所述组合的每个语音单元的语音波形，使每个语音单元的语音波形的个数相等，并且融合每个语音单元的均等后的语音波形。

14.根据权利要求1所述的方法，其中，所述评估单元最优地确定两个语音单元之间的权重，以使得融合所述组合的每个语音单元的失真最小化，以及

其中，所述融合单元基于所述权重来融合所述组合的每个语音单元。

15.根据权利要求14所述的方法，其中，所述评估单元反复地对所述权重进行确定，直到所述失真收敛为最小值。

16.根据权利要求1所述的方法，其中，所述评估单元基于第一代价和第二代价评估所述失真；

其中，所述第一代价表示在所述目标语音与利用每个所述片段的所述新的语音单元生成的合成语音之间的失真，以及

其中，所述第二代价表示由于所述片段的所述新的语音单元和相邻于该片段的另一片段的另一个新的语音单元之间的连接而导致的失真。

17.根据权利要求16所述的方法，其中，使用基频、音素片段持续时间、功率、音素环境和频谱中的至少一个计算所述第一代价。

18.根据权利要求16所述的方法，其中，使用频谱、基频和功率中的至少一个计算所述第二代价。

19.一种用于合成语音的方法，包括：

存储一组语音单元；

将目标语音的音素序列划分为多个片段；

从所述一组语音单元中为每个所述片段选择语音单元的组合；

评估在所述目标语音与通过融合每个所述片段的所述组合中的每个语音单元所生成的合成语音之间的失真；

基于所述失真为每个所述片段递归地选择语音单元的所述组合；

通过对为每个所述片段选择的所述组合中的每个语音单元进行融合来为每个所述片段生成新的语音单元；以及

通过连接每个所述片段的新的语音单元来生成合成语音。