CN112885326A

CN112885326A - 个性化语音合成模型创建、语音合成和测试方法及装置

Info

Publication number: CN112885326A
Application number: CN201911201488.3A
Authority: CN
Inventors: 黄智颖; 霍媛圆; 雷鸣
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-06-01

Abstract

本发明公开了一种个性化语音合成模型的创建方法、语音合成方法及装置。个性化语音合成模型的创建方法，包括：从多说话人语音合成模型的多个说话人中，选出与所述用户属于相同类别的同类说话人；根据所述用户的训练数据和所选择的所述同类说话人，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。本发明能够合成目标说话人特定说话风格的语音，提升了用户体验。

Description

个性化语音合成模型创建、语音合成和测试方法及装置

技术领域

本发明涉及人工智能技术领域，特别涉及一种个性化语音合成模型的创建方法、语音合成和测试方法及装置。

背景技术

人工智能技术中的语音交互场景需要进行个性化语音合成。个性化语音合成是业务上的强需求，也是语音合成领域未来的趋势之一。

传统的语音合成技术中，利用上百个说话人的几百小时的训练数据，可以构建基于海量数据的多发言人语音合成系统，具体地，可以利用多说话人的语音合成模型，例如基于神经网络的文本到语音Neural TTS(Text-To-Speech)模型，在该模型的训练数据中，单个说话人的语音数据量往往在几个小时到几十小时不等，利用海量发音人的数据构建的语音合成系统，可以提供更稳定的语音合成效果。对于多说话人Neural TTS模型来说，给定任何一个训练集中的说话人，利用该多说话人Neural TTS模型，可以合成该说话人的声音。

对于个性化语音合成的业务需求场景来说，为了合成某个性化的说话人的特定风格的语音，需要在上述多说话人Neural TTS模型的基础上，进一步对该个性化的说话人的特点进行学习，为了保证学习效果，需要该个性化的说话人大量的训练数据，但训练数据的获取需要较高的成本投入，不仅流程繁琐，而且耗时较长，这些都会严重影响用户的使用体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种个性化语音合成模型的创建方法、语音合成方法、测试方法及装置。

第一方面，本发明实施例提供一种个性化语音合成模型的创建方法，包括：

从多说话人语音合成模型的多个说话人中，选出与所述用户属于相同类别的同类说话人；

根据所述用户的训练数据和所选择的所述同类说话人，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

在一个实施例中，所述用户的训练数据，通过下述方式得到：对用户的数据进行处理，提取出对应的语言学特征和声学特征作为用户的训练数据；

所述根据与所述用户的训练数据和所选择的所述同类说话人，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型，包括：

将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型，并使用用户的训练数据，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

在一个实施例中，所述用户的数据包括：语音数据和对应的文本；

所述对用户的数据进行处理，提取出对应的语言学特征和声学特征，包括：

将所述用户的文本通过语音合成自动标注确定标注信息，所述标注信息包括：发音标注、韵律标注；以及将所述用户语音数据通过语音识别和语音活动检测，确定音速边界；根据所述发音标注、韵律标注和音速边界，提取出对应的语言学特征；

对所述用户的语音数据进行声学特征的提取。

在一个实施例中，所述对所述用户的语音数据进行声学特征的提取之前，还包括：

对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。

在一个实施例中，所述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别：性别、年龄、说话方式和说话环境。

在一个实施例中，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型过程中，对所述多说话人语音合成模型的所有模型参数进行更新。

第二方面，本发明实施例提供一种个性化语音合成模型的创建方法，包括：

根据预设的场景，从用户的与所述场景对应的至少一个社交网络中选取与所述用户相似的至少一个说话人；

从所述至少一个近似说话人中，选择出与所述用户属于相同类别的同类说话人；

根据所述用户的训练数据和所选择的所述同类说话人，对所述至少一个近似说话人对应的多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

第三方面，本发明实施例提供一种个性化语音合成模型的创建方法，包括：

根据预设的各近似用户集合的优先级，按照优先级高低的顺序，依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人；

从所述至少一个近似说话人中，选择与所述用户属于相同类别的同类说话人；

第四方面，本发明实施例提供一种个性化语音合成模型的创建方法，包括：

根据用户的各近似用户集合的优先级，按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合；

接收所述客户端返回的从各级别的近似说话人集合中选择的至少一个近似说话人；

第五方面，本发明实施例提供一种个性化语音合成方法，包括：

对待语音合成的文本进行处理，提取出对应的语言学特征；

将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中，预测出所述文本对应的声学特征；

根据所述声学特征，合成所述用户与所述文本对应的合成语音；

所述个性化语音合成模型采用如前述的个性化的语音合成模型的创建方法得到。

在一个实施例中，根据所述声学特征，合成所述用户与所述文本对应的合成语音，包括：

利用声码器，将所述声学特征，转换成对应的语音。

第六方面，本发明实施例提供一种个性化语音合成模型的测试方法，包括：

对待语音合成的文本进行处理，提取出对应的语言学特征；

将所述语言学特征和用户在所述个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中，预测出所述文本对应的声学特征；

对所述合成语音进行验证，确定所述个性化语音合成模型是否合格；

所述个性化语音合成模型采用前述个性化的语音合成模型的创建方法得到。

第七方面，本发明实施例提供前述个性化语音合成模型的创建方法、根据前述个性化语音合成方法以及前述个性化语音合成模型的测试方法在有声阅读、智能客服、语音交互、语音播报、机器翻译中的应用。

第八方面，本发明实施例提供一种个性化语音合成模型的创建装置，包括：

选择模块，用于从多说话人语音合成模型的多个说话人中，选出与所述用户属于相同类别的同类说话人；

训练模块，用于根据所述用户的训练数据和所选择的所述同类说话人，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

在一个实施例中，上述个性化语音合成模型的创建装置还包括：提取模块；

所述提取模块，用于对用户的数据进行处理，提取出对应的语言学特征和声学特征作为用户的训练数据；

所述训练模块，具体用于将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型，并使用用户的训练数据，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

第九方面，本发明实施例提供一种个性化语音合成模型的创建装置，包括：

第一选择模块，用于根据预设的场景，从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的至少一个说话人；

第二选择模块，用于从所述至少一个近似说话人中，选择出与所述用户属于相同类别的同类说话人；

训练模块，用于根据所述用户的训练数据和所选择的所述同类说话人，对所述至少一个近似说话人对应的多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

第十方面，本发明实施例提供一种个性化语音合成模型的创建装置，包括：

查找模块，用于根据预设的各近似用户集合的优先级，按照优先级高低的顺序，依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人；

选择模块，用于从所述至少一个近似说话人中，选择与所述用户属于相同类别的同类说话人；

第十一方面，本发明实施例提供一种个性化语音合成模型的创建装置，包括：

推送模块，用于根据用户的各近似用户集合的优先级，按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合；

接收模块，用于接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识；

第十二方面，本发明实施例提供一种个性化语音合成装置，包括：

提取模块，用于对待语音合成的文本进行处理，提取出对应的语言学特征；

预测模块，用于将所述语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中，预测出所述待语音合成的文本对应的声学特征；

语音合成模块，用于根据所述声学特征，合成所述用户与所述文本对应的合成语音；

所述个性化语音合成模型采用前述个性化语音合成模型的创建装置得到。

第十三方面，本发明实施例提供一种个性化语音合成模型的测试装置，包括：

验证模块，用于对所述合成语音进行验证，确定所述个性化语音合成模型是否合格；

第十四方面，本发明实施例提供一种智能语音服务器，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述程序被处理器执行时能够实现前述的个性化语音合成模型的创建方法，或者能够前述的一种个性化语音合成方法，或者能够实现前述一种个性化语音合成模型的测试方法。

第十五方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时能够实现前述的个性化语音合成模型的创建方法，或者能够实现前述一种个性化语音合成方法，或者能够实现前述一种个性化语音合成模型的测试方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的个性化语音合成模型的创建方法、语音合成方法、测试方法及装置，从多说话人语音合成模型的多个说话人中，选出与所述用户属于相同类别的同类说话人；根据所述用户的训练数据和所选择的所述同类说话人，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型，利用数据量较少的用户(即目标说话人)的数据和已有的多说话人语音合成模型，就能够对这个用户的说话语音和风格进行学习和合成，得到用户个性化语音，给机器带来了温度，提高了用户体验。

在一个实施例中，相同类别是指按照性别、年龄、说话方式和说话环境，尽量寻找多个说话人中与目标说话人相近的那一个，使得个性化语音合成模型更好地学习目标说话人的声音。

在一个实施例中，本发明实施例提供的个性化语音合成模型的创建方法、语音合成方法及装置，对目标说话人的语音数据在提取语言学特征和声学特征之前，对数据进行能量规整、解混响和能量增强的预处理，使得语音合成模型对于环境噪音、混响以及音量大小不一有更好的鲁棒性。

在一个实施例中，本发明实施例提供的个性化语音合成模型的创建方法、语音合成方法及装置，在训练得到个性化语音合成模型的过程中，需要更新所有的模型参数，能够更好地学习目标说话人的声音。

本发明实施例提供的另外一种个性化语音合成模型的创建方法、语音合成方法及装置，还可以根据所使用的场景，选择用户至少一个社交网络中选取与用户相近似的至少一个用户，以近似的至少一个用户为基础，从中选出同类说话人，然后使用用户自己的训练数据和同类说话人，对多说话人语音合成模型进行训练，得到用户的个性化语音合成模型，本发明实施例可以实现根据实际使用场景，在用户的社交网络中选择与场景相关的近似用户，还可以由用户自主选择所要模仿的近似用户，因此，可以实现多种场景下更个性化的语音模型的学习，进一步丰富了用户体验。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的个性化语音合成模型的构建方法的流程图；

图2为本发明实施例提供的多说话人语音合成模型的训练过程示意图；

图3为本发明实施例提供的提取语言学特征的过程的流程图；

图4为本发明实施例提供的具体实例中个性化语音合成模型的构建方法的流程图；

图5为本发明实施例的具体实例中提取语言学特征的流程图；

图6为本发明实施例的具体实例中提取声学特征的流程图；

图7为本发明实施例的具体实例中个性化语音合成模型的训练过程示意图；

图8～10为本发明实施例提供的另几个个性化语音合成模型的创建方法的流程图；

图11为本发明实施例提供的个性化语音合成方法的流程图；

图12为本发明实施例提供的个性化语音合成方法的流程图；

图13为本发明实施例提供的个性化语音合成模型的测试方法的流程图；

图14～17为本发明实施例提供的个性化语音合成模型的创建装置的结构框图；

图18为本发明实施例提供的个性化语音合成装置的结构框图；

图19为本发明实施例提供的个性化语音合成模型的测试装置的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了实现个性化的说话人的语音的自动合成，本发明实施例提供了一种个性化语音合成模型的创建方法、个性化语音合成方法、测试方法及装置。为了描述方便，将待生成语音合成模型的用户，即这个个性化的说话人称为“目标说话人”，且该目标说话人，并非多说话人语音合成模型中的任一个说话人。

下面结合附图，依次对上述各方案的具体实施方式进行详细的说明。

本发明实施例提供的个性化语音合成模型的创建方法，参照图1所示，包括下述步骤：

S11、从多说话人语音合成模型的多个说话人中，选出与用户属于相同类别的同类说话人；

S12、根据所述用户的训练数据和所选择的同类说话人，对多说话人语音合成模型进行训练，得到用户的个性化语音合成模型。

上述步骤S12中，上述用户的训练数据，可以通过下述方式预先处理得到：

对用户的数据进行处理，提取出对应的语言学特征和声学特征作为用户的训练数据；

相应地，上述步骤S12中，需要将同类说话人在预设的多说话人语音合成模型中的ID和对应的说话人表征输入到多说话人语音合成模型中去，并使用用户的训练数据，对多说话人语音合成模型进行训练，从而得到所述目标说话人的个性化语音合成模型。

本发明实施例提供的上述个性化语音合成模型的创建方法，可实现利用数据量较少的用户(目标说话人)的数据和已有的多说话人语音合成模型，就能够合成这个用户(目标说话人)特定说话风格的语音，得到其个性化语音，给机器带来了温度，提高了用户体验。

本发明实施例提供的语音合成模型的创建方法和后面说明的语音合成方法中，不论是多说话人语音合成模型，还是用户(目标说话人)的个性化语音合成模型，其类型可以是任何一种基于神经网络的语音合成模型(例如Neural TTS模型等)，或者其他类似的语音合成模型例如端到端(End to End)语音合成标注等，本发明实施例对此不做限定。

首先对多说话人语音合成模型进行简单说明。在本发明实施例中，多说话人语音合成模型可以采用现有技术中任何一种已有的多说话人的语音合成模型，在多说话人的语音合成模型的创建中，使用多个说话人的训练集数据对模型进行训练，多个说话人是预先设定的某几个说话人或者某些说话人，比如张三、李四和王五等，每个人都在这个模型中有一个对应的ID(编号)。

多说话人的训练集数据中，包含每个说话人的训练数据，而每个人的训练数据，又可以包含该说话人的语音数据和对应的文本，还有根据该语音数据和文本提取出来的语言学特征和声学特征。

不同个性化语音合成模型可以针对不同的个性化的个人，而多说话任语音合成模型是个性化语音合成模型的基础。为了保证模型的学习准确性，语言学特征和声学特征的提取可以通过一系列的手段来实现，具体实现时也采用多种方式，例如人工标注的方式，或者计算机辅助人工标注的方式。本发明实施例对此不做限定。

一个多说话人语音合成模型的训练过程可参照图2所示，在进行多说话人语音合成模型训练时，会每个说话人设置一个ID，假设训练集数据中有例如ID为1、2和3这三个说话人的数据。训练的时候，输入数据是ID1、ID2和ID3三个人的语言学特征及其对应的ID、说话人表征(Speaker Embedding)输入到这个模型中去，参照图2所示，该多说话人语音合成模型中包含编码(Encoder)、注意力机制(Attention Mechanism)和解码(Decoder)几部分，输出是这个三个人的声学特征，训练过程可采用例如反向传播算法(BP，BackPropagation)算法等神经网络的训练方法实现。BP算法的原理主要由两个环节即激励传播、权重更新反复循环迭代，直到网络的对输入的响应达到预定的目标范围为止。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层。如果在输出层得不到期望的输出值，则取输出与期望的误差的平方和作为目标函数，转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，作为修改权值的依据，网络的学习在权值修改过程中完成。误差达到所期望值时，网络学习结束。对利用训练集数据的学习，可以学习到语言学特征和声学特征之间的关系。

以ID为1、2和3这三个说话人的多说话人语音合成模型来说，以多说话人语音合成模型在训练时，输入的是ID为1、2、3三个人的语言学特征和对应的说话人ID，加上三个人的说话人表征，说话人表征包含有ID1、ID2和ID3三个人的表征向量，训练完毕之后，如果输入训练集中某个说话人的ID，随便输入一个语言学特征，就能预测出这个ID为1的说话人的对应的声音。

说话人表征(Speaker Embedding)，包含一组特征向量，特征向量的个数等于多个说话人的训练集中的说话人总数目。数学表现为N*M的矩阵(N为多个说话人的人数)，每个说话人的特征矢量都是由该说话人的一系列的特征抽象、量化而来。

多说话人语音合成模型还有如下特点：如果多说话人语音合成模型没有说话人ID和说话人表征的话，这个模型只能根据文本输出一个标准的声音，但是如果有了该多说话人语音合成模型的训练集数据中某个具体的说话人(例如张三，ID是1)的ID和说话人表征，就可以输出该具体说话人的语音，也就是可以控制该多说话人语音合成模型输出训练集中任何一个人的语音，但非训练集数据中的说话人，则该多说话人语音合成模型则无法输出对应的声音，换言之，输入ID必须是训练集中的一个说话人的ID。本发明实施例正是利用了上述特点，使得用户(目标说话人)可以“冒充”已训练好的多说话人语音合成模型中的某个说话人，从而可以利用已有的多说话人语音合成模型，实现对该个性化的用户(目标说话人)的语音合成模型的训练。

在一个实施例中，上述步骤S11中，对用户(目标说话人)的数据进行处理，提取出对应的语言学特征和声学特征的步骤中，用户(目标说话人)的数据包括：语音数据和对应的文本。

提取语言学特征的过程，参照图3所示，例如可以通过下述步骤实现：

S31、将用户的文本通过语音合成自动标注确定标注信息，标注信息包括：发音标注、韵律标注；

例如通过TTS前端进行处理，进行发音标注和韵律标注。

S32、将该用户语音数据通过语音识别和语音活动检测，确定音速边界；

S33、根据发音标注、韵律标注和音速边界，提取出对应的语言学特征。

语言学特征是指基于发音标注和韵律标注提取的一种语言学上的特征，例如音素序列、声调、边界信息和停顿。

例如，发音标注为文本标注上拼音(包含音调)，例如：“我”被标注上“wo3”，数字3表示音调为第3声。

韵律标注，例如为标注上停顿标记，例如“我是#3中国#1人。”这句中的“#3”表示长停顿，“#1”表示短停顿。

对语音数据确定音素边界，具体例如可以通过自动语音识别(ASR，AutomaticSpeech Recognition)、语音活动检测(VAD，Voice Activity Detection，功能是判断语音的静音部分)等技术手段，确定每个音素的开始时间和结束时间。

在本发明实施例中，声学特征为基于语音提取的声学上的特征，例如：线性谱、梅尔倒谱系数(MFCC，Mel-scaleFrequency Cepstral Coefficients)和Fbank等。

MFCC是在Mel标度频率域提取出来的倒谱参数，根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音，故一般来说，低音容易掩蔽高音，而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以，人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器，对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征，对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质，对输入信号不做任何的假设和限制，又利用了听觉模型的研究成果。因此，这种参数比基于声道模型的LPCC相比具有更好的鲁邦性，更符合人耳的听觉特性，而且当信噪比降低时仍然具有较好的识别性能。

MFCC的提取过程包括：预加重、分帧、加窗、FFT(快速傅里叶变换)、三角带通滤波器进行滤波，计算每个滤波器组输出的对数能量，然后经离散余弦变换(DCT)得到MFCC系数。

MFCC系数的提取是在Fbank的基础上再进行离散余弦变换变换得到的，因此，Fbank的提取的过程与MFCC系数提取的前几个步骤是一致的。

线性谱的提取通过下述方式实现：对语音数据信号进行滑窗傅里叶变换，经过滑窗傅里叶处理后就得到语音信号的线性谱。

本发明实施例并不限定语言学特征和声学特征采用何种具体的特征，也不限定该特征的具体提取方式，可以采用现有技术中的提取手段实现。

因为用户(即目标说话人)语音数据的语音采集方式较随意的原因，例如利用手机在背景较杂的环境中说话，这样，用户的语音中，可能存在不同程度的环境噪音、混响，并且其音量也可能大小不一，为了达到在较差的录音环境下也有较好的训练效果，较佳地，在本发明实施例中，在对用户的语音数据进行声学特征的提取之前，还可以执行下述步骤：对语音数据进行包括能量规整、解混响和能量增强的预处理操作。

具体来说，能量规整步骤，即将同一批的数据的能量规整到某一个特定的能量分布。解混响的步骤是消除语音中的混响；能量增强的步骤是增强语音信号，并减弱噪声。

理论上，用户(即目标说话人)的语音数据越多，语音越长，则对训练个性化语音合成模型越有利，但是实践中，数据过多，则会带来录音、语音处理成本(例如标注、提取语言学和声学特征)增加，并降低用户体验，因此，在本发明实施例中，用户(即目标说话人)可以提供10～100句左右的语音数据，就可以完成个性化语音合成模型的创建，在保证了模型的准确性的前提下，极大地提升了用户体验。

在一个实施例中，本发明实施例需要在多说话人语音合成模型的训练集的多个说话人中，选择一个与用户(即目标说话人)属于相同类别的同类说话人。

相同类别是指按照说话人的下述任意条件之一或者组合条件而确定的同一个类别：性别、年龄、说话方式和说话环境等。综合考虑其中一个或多个条件，选择同类的说话人。

举例子来说，可以直接选择属于同一个性别的说话人，还可以是选择性别相同且所属年龄段相同的说话人，等等，总体原则是选择与用户(即目标说话人)较接近的说话人。

如果简单选择，考虑单一条件即可，例如选择同一性别的说话人，因为男声和女声的存在较大差异，简单的选择同性别的说话人即可。

尽量寻找多个说话人中与用户(目标说话人)相近的那一个，可以使得个性化语音合成模型更好地学习用户(目标说话人)的声音。

下面以一个具体的实例简单说明本发明实施例提供的个性化语音合成模型的创建方法。

参照图4所示的流程图，假设多说话人语音合成模型的多个说话人的训练集数据中，包含说话人A、说话人B、说话人C、说话人D和说话人E，其在多说话人语音合成模型中的ID分别为ID1、ID2、ID3、ID4和ID5。使用这些说话人的训练数据对多说话人Neural TTS模型进行训练，得到训练好的多说话人Neural TTS模型。

当前有一个性化的说话人为说话人F，对该说话人F的个性化的数据即语音数据和文本分别进行语音合成、自动标注和语音的数据预处理后，提取出对应的语言学特征和声学特征。

图5所示的是从文本和语音如何提取语言学特征的过程，例如经过TTS前端先提取文本中的发音标注和韵律标注，以及将语音经过ASR和VAD处理得到音素边界，再根据发音标注、韵律标注结合音素边界，提取出语言学特征。

图6所示的是对语音进行预处理(能量规整、解混响和能量增强)后提取对应的声学特征的流程。

从说话人A、说话人B、说话人C、说话人D、说话人E中，选择与说话人F同性别的说话人例如说话人E。

参照图7所示，将说话人E的ID即ID5和该说话人E的说话人表征输入到多说话人Neural TTS模型的Attention中，并使用用户(目标说话人)即说话人F的语言学特征，声学特征，对多说话人Neural TTS模型进行训练，即可以获得针对说话人F的个性化语音合成模型。

本发明的发明人经过实验验证，本发明实施例提供的个性化语音合成模型的创建方法，对于用户(即目标说话人F)来说，其提供较少的句子的情况下，例如即使只有10句话，该方案也可以很好地模拟出说话人的语音，这样，用户使用起来会很方便，也不会受限于录音的环境和所使用的录音设备。另外，用户(目标说话人F)的数据量小，其录音和标注的时间成本大幅减少，也使得语音合成模型的训练过程和语音合成的速度大大加快。

本发明实施例还提供了一种个性化语音合成模型的创建方法，参照图8所示，至少包括下述步骤：

S81、根据预设的场景，从用户的与场景对应的至少一个社交网络中选取与用户相似的至少一个说话人；

S82、从至少一个近似说话人中，选择出与用户属于相同类别的同类说话人；

S83、根据用户的训练数据和所选择的同类说话人，对至少一个近似说话人对应的多说话人语音合成模型进行训练，得到用户的个性化语音合成模型。

在上述方法中，场景可以有很多种，比如客户端的APP对应的是社交网络的场景，则服务器端可以根据用户使用的客户端APP的适用场景，比如社交类APP，又或者语音模仿类APP，或者联机游戏类APP，可以根据具体的场景，从用户的至少一个社交网络中选取与用户相似的用户，比如从用户所属的朋友圈中的家人、亲戚、朋友、同事、同学等人群中，选择与该用户存在某个或某些共同点的用户，比如同一个家庭、或者同一个学校、或者同一个工作单位等，从这些社交网络中选取用户相似的至少一个近似说话人，然后再以这些至少一个说话人为基础，选择与用户属于相同类别的同类说话人，使用用户的训练数据，对这些至少一个近似说话人的多说话人语音合成模型进行训练，可得到该用户的个性化语音合成模型。

又例如这个场景还可以是用户自主在客户端设定的场景，比如家庭内场景、工作场景、休闲场景等，在不同的场景下，用户可能想采用不同的语音和/或不同的语言表达方式，或者在某些特定的场合下，想采用特定的语音和/或语言表达方式，这样，用户可以自主选择其对应的个性化语音合成模型需要学习那些近似用户的语音和/或表达风格，用户可通过客户端，从多个社交网络中，选择近似的用户，或者直接选择在特定场合下学习某个或某些特定的人物的语音，以这些近似用户为基础查找同类别的用户，以达到模仿该近似用户的语音和/或表达风格的目的。

本发明实施例还提供了一种个性化语音合成模型的创建方法，参照图9所示，包括下述步骤：

S91、根据预设的各近似用户集合的优先级，按照优先级高低的顺序，依次在各近似说话人集合中查找与用户相似的至少一个近似说话人；

S92、从至少一个近似说话人中，选择与用户属于相同类别的同类说话人；

S93、根据用户的训练数据和所选择的同类说话人，对至少一个近似说话人对应的多说话人语音合成模型进行训练，得到用户的个性化语音合成模型。

在上述步骤S91～S93中，按照不同的方式选择出来的相似用户的集合可能会有多个，比如前述从社交网络中选出的相似用户的集合，按照预设的优先级，服务器可依次从各近似说话人集合中查找与该用户相似的至少一个近似说话人，例如不同优先级的集合包括：家人的集合、朋友的集合、同学的集合、同事的集合、居住社区的集合，大到一个行政区域范围的集合比如一个区、一个市、一个省等等，各优先级级别依次从高到低，此时，选近似说话人的时候，可根据优先级从高到低的顺序，依次选取，直至选择足够数量的相似用户，如果在一个较高的集合中已满足所有近似说话人的选择，则不需要再向下一个级别的集合中查找。

近似说话人或者近似用户的选择，还可以完全交给用户(目标说话人)的来选择，比如由服务器来推送对应的近似用户集合，由客户端选择，完成后再返回服务器进行训练数据的获取和个性化语音合成模型的训练。

然后再以这些至少一个说话人为基础，选择与用户属于相同类别的同类说话人，使用用户的训练数据，对这些至少一个近似说话人的多说话人语音合成模型进行训练，可得到该用户的个性化语音合成模型。

对应的个性化语音合成模型的创建方法，参照图10所示，包括下述步骤：

S101、根据用户的各近似用户集合的优先级，按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合；

S102、接收客户端返回的从各级别的近似说话人集合中选择的至少一个近似说话人；

S103、从至少一个近似说话人中，选择与用户属于相同类别的同类说话人；

S104、根据用户的训练数据和所选择的所述同类说话人，对至少一个近似说话人对应的多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

上述各级近似说话人的集合，包括下述一项或多项：

用户的社交网络的至少一个用户集合；如前述，用户的社交网络可以是用户自主选择的多个社群的好友等等，在此不再赘述。

用户的属于同一地理区域的至少一个用户集合，比如用户同属一个区、一个市，甚至一个省的同区域的用户；这种场景比如在需要个性化语音合成模型需要学习特定地区的方言、发音特点等可以适用。

用户根据自身偏好选择的至少一个用户集合；用户比如就想模仿某个特定人的语音和/或语言风格时，就可以根据自己的喜好，选择一个或多个偏好用户作为近似用户(近似的说话人)。

上述S101～S104在具体实施时，可以由服务器或者由具有一定计算能力的客户端来实现，由用户在多个可能的集合中选择近似说话人，比如选择自己喜好的明星，用来将自己的语音特点和该明星的语音特点按照一定的比例融合，产生丰富的语音体验。服务器或者客户端根据这些近似说话人的标识，从中选择与用户同类的说话人，进而基于同类说话人、用户的训练数据，对这些近似说话人对应的多说话人语音合成模型进行训练，生成用户对应的个性化语音合成模型。

本发明实施例还提供了基于上述个性化语音合成模型的创建方法的个性化语音合成方法。

参照图11所示，本发明实施例提供的个性化语音合成方法，包括下述步骤：

S111、对需要语音合成的文本进行处理，提取出对应的语言学特征；

S112、将语言学特征和用户在个性化语音合成模型训练过程中对应的同类说话人的ID输入至个性化语音合成模型中，预测出文本对应的声学特征；

S113、根据声学特征，合成用户与文本对应的合成语音。

上述个性化语音合成模型采用上述个性化语音合成模型的创建方法得到。

以图12所示的流程图为例，假设需要合成用户(即目标说话人F)的关于一段短文的语音，该说话人F在个性化Neural TTS模型训练时所选择的同类的说话人为说话人E，则首先利用TTS前端将待合成的文本进行语言学特征的提取，然后将提取出来的语言学特征和说话人E的ID即ID5一起输入至个性化Neural TTS模型中去，就可以输出对应的声学特征，然后再通过声码器(Vocoder)，将声学特征转换成说话人F的语音。需要语音合成的文本是可以按照需求任意指定的。

参照图13所示，本发明实施例提供的个性化语音合成模型的测试方法，S131～S133与上述语音合成方法类似，所不同的是最后的步骤S134测试后续还需要验证模型输出的语音结果，确定该个性化语音合成模型是否合格，如果检测不合格，还可以根据结果反馈调整模型的训练过程，具体实施过程在此不再赘述。

本发明实施例提供的上述个性化语音合成模型的训练方法以及个性化语音合成方法可以广泛应用于各种人工智能场景，例如在有声阅读、智能客服、语音交互、语音播报、机器翻译等应用场景。

例如应用在语音助手，智能客服等产品上，用户预先输入一段自己录制的语音，给定任何一段文字内容，系统就可输出与逼真的语音，从而实现智能交互，语音播报等场景。

基于同一发明构思，本发明实施例还提供了一种个性化语音合成模型的创建装置、个性化语音合成装置、个性化语音合成模型的测试装置和服务器，由于这些装置和服务器所解决问题的原理与前述个性化语音合成模型的创建方法、个性化语音合成方法和个性化语音合成模型的测试方法相似，因此该装置和服务器的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供的一种个性化语音合成模型的创建装置，参照图14所示，包括：

选择模块141，用于从多说话人语音合成模型的多个说话人中，选出与所述用户属于相同类别的同类说话人；

训练模块142，用于根据所述用户的训练数据和所选择的所述同类说话人，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

继续参照图14所示，上述个性化语音合成模型，还包括：提取模块143；

所述提取模块143，用于对用户的数据进行处理，提取出对应的语言学特征和声学特征作为用户的训练数据；

训练模块142，具体用于将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型，并使用用户的训练数据，对所述多说话人语音合成模型进行训练，得到所述目标说话人的个性化语音合成模型。

在一个实施例中，目标说话人的数据包括：语音数据和对应的文本；相应地，上述提取模块143，进一步用于将所述目标说话人的文本通过语音合成自动标注确定标注信息，所述标注信息包括：发音标注、韵律标注；以及将所述目标说话人语音数据通过语音识别和语音活动检测，确定音速边界；根据所述发音标注、韵律标注和音速边界，提取出对应的语言学特征；对所述目标说话人的语音数据进行声学特征的提取。

在一个实施例中，所述提取模块143，还用于对在对所述目标说话人的语音数据进行声学特征的提取之前，对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。

在一个实施例中，上述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别：性别、年龄、说话方式和说话环境。

在一个实施例中，上述训练模块142，进一步用于对所述多说话人语音合成模型进行训练，得到所述目标说话人的个性化语音合成模型过程中，对多说话人语音合成模型的所有模型参数进行更新。

本发明实施例提供一种个性化语音合成模型的创建装置，参照图15所示，包括：

第一选择模块151，用于根据预设的场景，从用户的与所述场景对应的至少一个社交网络中选取与所述用户近似的至少一个说话人；

第二选择模块152，用于从所述至少一个近似说话人中，选择出与所述用户属于相同类别的同类说话人；

训练模块153，用于根据所述用户的训练数据和所选择的所述同类说话人，对所述至少一个近似说话人对应的多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

本发明实施例提供一种个性化语音合成模型的创建装置，参照图16所示，包括：

查找模块161，用于根据预设的各近似用户集合的优先级，按照优先级高低的顺序，依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人；

选择模块162，用于从所述至少一个近似说话人中，选择与所述用户属于相同类别的同类说话人；

训练模块163，用于根据所述用户的训练数据和所选择的所述同类说话人，对所述至少一个近似说话人对应的多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

本发明实施例提供一种个性化语音合成模型的创建装置，参照图17所示，包括：

推送模块171，用于根据用户的各近似用户集合的优先级，按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合；

接收模块172，用于接收所述客户端返回的从各级别的近似说话人集合中选择的近似说话人的标识；

选择模块173，用于从所述至少一个近似说话人中，选择与所述用户属于相同类别的同类说话人；

训练模块174，用于根据所述用户的训练数据和所选择的所述同类说话人，对所述至少一个近似说话人对应的多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型。

本发明实施例还提供了一种个性化语音合成装置，参照图18所示，包括：

提取模块181，用于对待语音合成的文本进行处理，提取出对应的语言学特征；

预测模块182，用于将所述语言学特征和目标说话人在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中，预测出所述待语音合成的文本对应的声学特征；

语音合成模块183，用于根据所述声学特征，合成所述目标说话人与所述文本对应的合成语音；

上述个性化语音合成模型采用上述个性化语音合成模型的创建装置得到。

本发明实施例还提供了一种个性化语音合成模型的测试装置，参照图19所示，包括：

提取模块191，用于对待语音合成的文本进行处理，提取出对应的语言学特征；

预测模块192，用于将所述语言学特征和目标说话人在个性化语音合成模型训练过程中对应的同类说话人的ID输入至所述个性化语音合成模型中，预测出所述待语音合成的文本对应的声学特征；

语音合成模块193，用于根据所述声学特征，合成所述目标说话人与所述文本对应的合成语音；

验证模块194，用于对所述合成语音进行验证，确定所述个性化语音合成模型是否合格；

类似地，上述个性化语音合成模型也是采用上述个性化语音合成模型的创建装置得到的。

本发明实施例还提供了一种智能语音服务器，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述程序被处理器执行时能够实现前述个性化语音合成模型的创建方法，或者能够实现前述一种个性化语音合成方法，或者能够实现前述个性化语音合成模型的测试方法。

本发明实施例还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由处理器执行时，能够执行前述个性化语音合成模型的创建方法，或者能够实现前述个性化语音合成方法，或者能够实现前述个性化语音合成模型的测试方法。

本发明实施例提供的个性化语音合成模型的创建方法、语音合成方法、个性化语音合成模型的测试方法及装置，在训练得到个性化语音合成模型的过程中，需要更新所有的模型参数，能够更好地学习目标说话人的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种个性化语音合成模型的创建方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述用户的训练数据，通过下述方式得到：对用户的数据进行处理，提取出对应的语言学特征和声学特征作为用户的训练数据；

3.如权利要求2所述的方法，其特征在于，所述用户的数据包括：语音数据和对应的文本；

对所述用户的语音数据进行声学特征的提取。

4.如权利要求2所述的方法，其特征在于，所述对所述用户的语音数据进行声学特征的提取之前，还包括：

5.如权利要求1-4任一项所述的方法，其特征在于，所述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别：性别、年龄、说话方式和说话环境。

6.如权利要求1-4任一项所述的方法，其特征在于，对所述多说话人语音合成模型进行训练，得到所述用户的个性化语音合成模型过程中，对所述多说话人语音合成模型的所有模型参数进行更新。

7.一种个性化语音合成模型的创建方法，其特征在于，包括：

8.一种个性化语音合成模型的创建方法，其特征在于，包括：

9.一种个性化语音合成模型的创建方法，其特征在于，包括：

10.一种个性化语音合成方法，其特征在于，包括：

对待语音合成的文本进行处理，提取出对应的语言学特征；

所述个性化语音合成模型采用如权利要求1-8任一项所述的个性化的语音合成模型的创建方法得到。

11.如权利要求10所述的方法，其特征在于，根据所述声学特征，合成所述用户与所述文本对应的合成语音，包括：

利用声码器，将所述声学特征，转换成对应的语音。

12.一种个性化语音合成模型的测试方法，其特征在于，包括：

对待语音合成的文本进行处理，提取出对应的语言学特征；

所述个性化语音合成模型采用如权利要求1-9任一项所述的个性化的语音合成模型的创建方法得到。

13.根据权利要求1-9任一项所述的个性化语音合成模型的创建方法、根据权利要求10或11所述的个性化语音合成方法以及个性化语音合成模型的测试方法在有声阅读、智能客服、语音交互、语音播报、机器翻译中的应用。

14.一种个性化语音合成模型的创建装置，其特征在于，包括：

15.如权利要求14所述的装置，其特征在于，还包括：提取模块；

16.一种个性化语音合成模型的创建装置，其特征在于，包括：

17.一种个性化语音合成模型的创建装置，其特征在于，包括：

18.一种个性化语音合成模型的创建装置，其特征在于，包括：

19.一种个性化语音合成装置，其特征在于，包括：

所述个性化语音合成模型采用如权利要求14-18任一项所述的个性化语音合成模型的创建装置得到。

20.一种个性化语音合成模型的测试装置，其特征在于，包括：

21.一种智能语音服务器，其特征在于，包括：存储器和处理器；其中，所述存储器存储有计算机程序，所述程序被处理器执行时能够实现如权利要求1-9任一项所述的个性化语音合成模型的创建方法，或者能够实现权利要求10或11所述的一种个性化语音合成方法，或者能够实现如权利要求12或13所述的一种个性化语音合成模型的测试方法。

22.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时能够实现如1-9任一项所述的个性化语音合成模型的创建方法，或者能够实现权利要求10或11所述的一种个性化语音合成方法，或者能够实现如权利要求12或13所述的一种个性化语音合成模型的测试方法。