CN104395956A

CN104395956A - 声音合成的方法和系统

Info

Publication number: CN104395956A
Application number: CN201380035789.8A
Authority: CN
Inventors: V.德拉艾
Original assignee: Continental Automotive GmbH; Continental Automotive France SAS
Current assignee: Continental Automotive GmbH; Continental Automotive France SAS
Priority date: 2012-07-06
Filing date: 2013-07-02
Publication date: 2015-03-04
Also published as: WO2014005695A1; FR2993088A1; US20150149181A1; FR2993088B1

Abstract

一种用于生成对要转化的文本（3）进行表示的音频信号（9）的方法，包括以下步骤：在数据库（1）中提供声学单元，标识预计算的表达的列表（10），并且对于每个预计算的表达，记录与其发音相对应的声学帧（7），凭借相关计算而将所记录的每个声学帧分解成序列表（5），所述序列表（5）包括一系列声学单元参考，其通过幅度以及时间形状因数（α(i)A）、（α(i)T）而被调制，在文本中标识预计算的表达并且将其余部分（12）分解成音素，在每个预计算的表达的地方插入对应的序列表，根据要转化的文本而准备一连串声学单元（19）。一种用于生成表示要转化的文本的音频信号的系统。

Description

声音合成的方法和系统

技术领域

本发明涉及声音合成的方法和系统。这些声音合成的方法和系统可以特别地但非排他地使用在车载在车辆中的帮助导航的系统中。

背景技术

本领域中已知的是使用这样的声音合成系统，其基于从合成声学单元的数据库中选择声学单元。由这些系统产生的音频信号呈现相当金属性的音质并且与说话者的自然声音差得非常远，这不是合期望的。

本领域中还已知的是使用这样的声音合成系统，其基于从记录的声学帧的数据库中选择所记录的声学序列。但是这些系统呈现两个缺点：词汇受限于已经成为记录的对象的词并且由这些记录所使用的存储器大小非常大。

根据现有技术，还已知的是以某种方式组合两种途径，如例如文档US2011/218 809那样。然而，看来合希望的是改进两种途径的组合，以用于减小对于记录的表示所必要的存储器大小，而同时维持所发出的音频信号的质量和性质。

发明内容

为此，提出了一种用于生成对要转化成对于用户可理解的音频信号的文本进行表示的音频信号集合的方法，其包括以下步骤：

a) 在数据库中提供声学单元集合，每个声学单元对应于音素或双音素的声学合成实现，所述数据库包括与用于给定语言的音素或双音素的集合相对应的声学单元，

b) 标识预计算的表达的列表，每个预计算的表达包括一个或多个完整文本词，

c) 对于每个预计算的表达，记录与所述预计算的表达的发音相对应的声学帧，

d) 凭借交叉相关计算，将所记录的每个声学帧分解成序列表，所述序列表包括来自数据库的一系列声学单元参考，其至少通过幅度形状因数和通过时间形状因数而被调制，　

e1) 遍历要转化的文本，标识与至少一个预计算的表达相对应的至少第一部分的文本，并且将不包括预计算的表达的至少第二部分的文本分解成音素，

e2) 在每个预计算的表达的地方插入序列表的等同记录，并且为第二部分文本的每个音素选择来自数据库的声学单元，

f) 以根据要转化的文本的有序方式而准备与第一和第二部分的文本相对应的一连串声学单元，

g) 生成与所述连串的声学单元相对应的音频信号。

凭借这些布置，可以将可以是任意一个的文本转化成音频信号，这通过最好地利用最多使用的预计算的表达的良好质量的记录，并且这通过将大小很小的存储器空间用作在文本转化时所必要的资源。重建的音频信号于是呈接近于自然声音的质量，尤其是在涉及与预计算的表达相对应的第一部分文本时。

在根据本发明的方法的多种实施例中，如有必要还可以依靠以下布置中的一个和/或另一个：

·步骤b)、c)和d)可以在准备工作的过程中以离线（débarqué）模式实现；以使得预计算的表达的声学帧的集合在传统计算机上以离线或“脱机”模式被存储和处理；

·由序列表所占据的存储器空间可以是由预计算的表达的声学帧所占据的存储器空间的至少五分之一；以使得在车载设备中的必要存储器空间比用于存储预计算的表达的声学帧所必要的存储器空间小得多；

·由序列表所占据的存储器空间可以小于10兆字节，而由预计算的表达的声学帧所占据的存储器大小大于100兆字节；以此为条件可以限制闪速存储器在车载设备中的使用并且这使得能够使用受限大小的闪速存储器；

·声学单元可以是双音的；以使得所述连串的质量得以改进；

·所述方法可以实施在车辆中所车载的帮助导航的单元中。

本发明目的还在于一种用于生成对要转化成对于用户可理解的音频信号的文本进行表示的音频信号集合的设备，所述设备包括：

·电子操控单元，其包括声音合成引擎，

·数据库，其包括与用于给定语言的音素或双音素的集合相对应的声学单元的集合，

·预计算的表达的列表，每个预计算的表达包括一个或多个完整文本词，

·至少一个序列表，其对于预计算的表达包括来自数据库的一系列声学单元参考，其至少通过幅度形状因数（α(i)A）和通过时间形状因数（α(i)T）而被调制，

　　所述电子单元被适配用于：

　　　　e1)遍历要转化的文本，标识与至少一个预计算的表达相对应的至少

　　　　　　第一部分文本，并且将不包括预计算的表达的至少第二部分文本

　　　　　　分解成音素，

　　　　e2)在每个预计算的表达的地方插入序列表的等同记录，并且为第二

　　　　　　部分文本的每个音素选择来自数据库的声学单元，

　　　　f)以根据要转化的文本的有序方式而准备与第一和第二部分文本相对应

　　　　　的一连串声学单元，

　　　　g)生成与所述连串的声学单元相对应的音频信号。

在根据本发明的系统的多种实施例中，如有必要则还可以依靠以上关于方法已经描述的布置中的一个和/或另一个。

附图说明

本发明的其它方面、目的和优点在阅读作为非限制性示例所给出的其实施例中之一的以下描述时将变得显而易见。本发明在对照附图时同样将更好理解，其中：

-图1示意性地表示根据本发明所实施的设备和方法，

-图2示意性地表示要转化的文本，以及

-图3A、3B和3C表示所记录的声学信号及其处理。

在不同的图中，相同的参考标记指明等同或类似的元件。

具体实施方式

参考图1，所述方法使用：

·数据库1，其包括与用于给定语言的音素的集合相对应的声学单元集合，每个声学单元40对应于音素或双音素的声学合成实现，

·预计算的表达的列表10，其包含例如在所考虑的声音合成系统中最常使用的表达，

·要转化成对于用户可理解的音频信号的文本3，所述文本3可以包含属于上述预计算的表达的列表10的一个或多个表达，这些预计算的表达将作为例外而被处理。

在声音合成系统的输入端处的文本3可以主要包括词，但是其也可以包含数字、缩写（其将作为例外而被处理）和任何所写的表示。

预计算的表达的列表10可以包括单独的词或者短语。优选地，将选择在所考虑的声音合成系统中要转化的文本中最经常使用的词、短语或短语的片段。

根据所呈现的方法，属于预计算的表达的列表10的每个表达由参考说话者发音并且记录对与所述预计算的表达的发音相对应的声学帧7进行表示的信号。对应于自然声音的声学帧7的集合被包含在声学数据库70中。

离线的分析单元2预备用于处理声学数据库70的每个声学帧7。处理将在以下详细阐明。

对于每个声学帧7，离线的分析单元2生成序列表5，其包括来自数据库1的一系列声学单元参考40，其至少通过幅度形状因数α(i)A和通过时间形状因数α(i)T而被调制。更确切地，序列表5的每行一方面包括声学单元40的参考或标识U(i)，并且另一方面包括要应用于该声学单元40的一个或多个形状因数（α(i)A, α(i)T……）。这些形状因数（α(i)A, α(i)T……）尤其包括幅度形状因数α(i)A和时间形状因数α(i)T。

例如车载在车辆中的电子操控单元90包括被适配用于分析文本3的内容的分析块4。

由电子操控单元90的分析块4所实现的分析使得能够辨别属于预计算的表达的列表10的表达，其构成被称作第一部分文本11的一个或多个部分，其将通过例外被处理以用于声音合成的步骤。

如图2中所图示的，文本3包括三个预计算的表达11a、11b、11c并且包括四个其它部分的文本12a、12b、12c、12d。

在这种情况下，电子操控单元90的分析块4被配置用于在初始文本3中，通过移除第一部分文本11而标识没有预计算的表达的其它部分的文本12a、12b、12c、12d。这些其它部分的文本12a、12b、12c、12d形成没有预计算的表达的一个或多个第二部分文本12。第二部分文本12因此是第一部分文本11的补充。

分析块4还被适配用于在对应于上述声学帧7的序列表5的集合50之中选择适当的序列表5。

转化块6被适配用于将第二部分文本12转化成音素。此外，转化块6在数据库1中选择用于每个所考虑的音素的最佳声学单元40。

合成块8在输入端处获取转化块6的涉及第二部分文本12的输出和分析块4的涉及第一部分文本11的输出。

合成块8处理这些输入以用于以根据要转化的文本3的有序方式而准备与第一和第二部分文本11、12相对应的一连串声学单元19。

然后合成块8于是可以在输出端处生成表示要转化的文本3的音频信号9的集合。

如以上所指示的，离线的分析单元2实现关于声学数据库70的每个声学帧7的处理。该处理被图示在图3A、3B、3C上并且包括以下所描述的操作。

通过一边取表示声学帧7的信号30的开端以及另一边取数据库1的每个声学单元40而实现交叉相关计算。与声学帧7的开端具有最大相似性的声学单元41于是被选择。相似性包括如有必要则对形状因数、尤其是幅度形状因数α1A和时间形状因数α1T的应用。凭借该第一结果，用声学单元41的标识U(1)伴随其幅度、时间形状因数α1A、α1T来初始化序列表5。然后从声学帧7取走与所选的第一声学单元41相对应的信号31的开端，这等同于将帧的开端的指针移位相同量。

然后反复进行交叉相关计算以用于选择第二声学单元U(2)，其也被应用其幅度、时间形状因数α2A、α2T。

然后通过迭代进行直到达到表示所记录的声学帧7的信号30的末尾。

如图3A、3B、3C中所图示的，帧的第一部分31导致选择声学单元41，帧的第二部分32导致选择声学单元42，帧的第三部分33导致选择声学单元43，帧的第四部分34导致选择声学单元44，帧的第五部分35导致选择声学单元45，并且帧的第六部分36导致选择声学单元46。

声学单元中的每一个被应用对其而言适当的幅度和时间形状因数α(i)A、α(i)T。注意到，幅度形状因数α(i)A的使用可以导致增大或减小信号的强度并且时间形状因数α(i)T的使用可以导致在时间上扩张或缩窄信号，以便减小在被应用了所述形状因数α(i)A、α(i)T的所选声学单元的信号与原始信号30的帧部分之间的偏差。

于是，预计算的表达被使得对应于以序列表5的形式所存储的接连的被应用了所述形状因数的声学单元。

凭借于此，稍后自接连的被应用了其形状因数α(i)A、α(i)T的声学单元而被生成以用于预计算的表达的音频信号将给出所生成的声音，其呈现与原始的所记录的自然声音7的微小偏差。

于是，根据本发明的方法的示例包括以下步骤：

a) 提供数据库1，

b) 标识预计算的表达的列表10，

c) 对于每个预计算的表达，记录与其发音相对应的声学帧7，

d) 凭借交叉相关计算而将所记录的每个声学帧7分解成序列表5，

e1) 遍历要转化的文本，标识与预计算的表达相对应的第一部分文本11，以及将第二部分文本12分解成音素，

e2) 在每个预计算的表达的地方插入序列表5的等同记录，并且为第二部分文本12的每个音素选择来自数据库1的声学单元，

f) 准备与要转化的文本相对应的有序连串的声学单元19，

g) 生成与所述连串的声学单元19相对应的音频信号9。

有利地，由序列表5的集合50所占据的存储器空间是由预计算的表达的声学帧7的集合70所占据的存储器空间的至少五分之一。在特定情况下，由序列表5所占据的存储器空间小于10兆字节，而由预计算的表达的声学帧所占据的存储器大小可以大于100兆字节。

理解的是，序列表5的集合50被存储在车载设备中，例如在合理并且不太昂贵的大小的闪速存储器中，而预计算的表达的声学帧7的集合70无需存储在车载设备中。相反地，预计算的表达的声学帧7的集合70在传统计算机上以离线模式而被存储和处理。

要注意的是，声学单元40可以表示音素或双音，双音是两个半音素的关联。

有利地，声音合成系统可以处理给定语言的任何文本3，因为数据库1包含所述给定语言的所有音素。对于最常使用的表达，其构成预计算的表达的列表10的部分，获得接近于自然声音的非常令人满意的音频信号的质量。

Claims

1.一种用于生成对要转化成对于用户可理解的音频信号的文本（3）进行表示的音频信号（9）的集合的方法，包括以下步骤：

a)在数据库（1）中提供声学单元的集合，每个声学单元对应于音素或双音素的声学合成实现，所述数据库（1）包括与用于给定语言的音素或双音素的集合相对应的声学单元，

b)标识预计算的表达的列表（10），每个预计算的表达包括一个或多个完整文本词，

c)对于每个预计算的表达，记录与所述预计算的表达的发音相对应的声学帧（7），

d)凭借交叉相关计算而将所记录的每个声学帧分解成序列表（5），所述序列表（5）包括来自数据库的一系列声学单元参考，其至少通过幅度形状因数（α(i)A）以及通过时间形状因数（α(i)T）而被调制，

e1)遍历要转化的文本（3），标识与至少一个预计算的表达相对应的至少第一部分文本（11），以及将不包括预计算的表达的至少第二部分文本（12）分解成音素，

e2)在每个预计算的表达的地方插入序列表（5）的等同记录，并且为第二部分文本（12）的每个音素选择来自数据库（1）的声学单元，

f)以根据要转化的文本（3）的有序方式而准备与第一和第二部分文本（11,12）相对应的一连串声学单元（19），

g)生成与所述连串的声学单元相对应的音频信号（9）。

2.根据权利要求1所述的方法，其中步骤b)、c)和d)在准备工作的过程中以离线模式实现。

3.根据权利要求1至2中之一所述的方法，其中由序列表（5）所占据的存储器空间是由预计算的表达的声学帧所占据的存储器空间的至少五分之一。

4.根据权利要求1至3中之一所述的方法，其中由序列表（5）所占据的存储器空间小于10兆字节，而由预计算的表达的声学帧所占据的存储器大小大于100兆字节。

5.根据权利要求1至4中之一所述的方法，其中声学单元是双音。

6.根据权利要求1至5中之一所述的方法，其中所述方法被实施在车辆中车载的帮助导航的单元中。

7.一种用于生成对要转化成对于用户可理解的音频信号的文本（3）进行表示的音频信号（9）的集合的设备，所述设备包括：

·电子操控单元（90），其包括声音合成引擎，

·数据库（1），其包括与用于给定语言的音素或双音素的集合相对应的声学单元的集合，

·预计算的表达的列表（10），每个预计算的表达包括一个或多个完整文本词，

·至少一个序列表（5），其对于预计算的表达包括来自数据库（1）的一系列声学单元参考，其至少通过幅度形状因数（α(i)A）和通过时间形状因数（α(i)T）而被调制，

所述电子单元被适配用于：

e1）遍历要转化的文本（3），标识与至少一个预计算的表达相对应的至少第一部分文本（11）以及将不包括预计算的表达的至少第二部分文本（12）分解成音素，

e2）在每个预计算的表达的地方插入序列表（5）的等同记录，并且为第二部分文本（12）的每个音素选择来自数据库（1）的声学单元，

f)以根据要转化的文本（3）的有序方式而准备与第一和第二部分文本（11,12）相对应的一连串声学单元，

g)生成与所述连串的声学单元相对应的音频信号（9）。

8.根据权利要求7所述的设备，还包括离线的分析单元（2），其被适配用于：

d)凭借交叉相关计算而将所记录的与预计算的表达的列表（10）的预计算的表达相对应的每个声学帧分解成序列表（5），所述序列表（5）包括来自数据库的一系列声学单元，其至少通过幅度形状因数（α(i)A）以及通过时间形状因数（α(i)T）而被调制。

9.根据权利要求8所述的设备，其中由序列表（5）所占据的存储器空间是由预计算的表达的声学帧所占据的存储器空间的至少五分之一，优选地其中由序列表（5）所占据的存储器空间小于10兆字节，而由预计算的表达的声学帧所占据的存储器大小大于100兆字节。

10.根据权利要求7至9中之一所述的显示设备，其中电子操控单元（90）是车辆中车载的帮助导航的单元。