CN110264991B

CN110264991B - 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质

Info

Publication number: CN110264991B
Application number: CN201910420168.0A
Authority: CN
Inventors: 王健宗; 贾雪丽
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-05-20
Filing date: 2019-05-20
Publication date: 2023-12-22
Anticipated expiration: 2039-05-20
Also published as: CN110264991A

Abstract

本申请涉及语音语义领域，具体使用了注意力机制和神经网络实现语音合成，并公开了一种语音合成模型的训练方法、语音合成方法、装置、设备及存储介质，所述训练方法包括：获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；根据所述训练文本数据，生成训练文本向量；基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。

Description

语音合成模型的训练方法、语音合成方法、装置、设备及存储介质

技术领域

本申请涉及语音技术领域，尤其涉及一种语音合成模型的训练方法、语音合成方法、装置、设备及存储介质。

背景技术

语音合成技术，即文语转换(Text to Speech，TTS)技术，其能够将文本信息转化为语音。随着语音合成技术的不断发展，人们对合成语音的要求越来越多样性。合成语音最好可以体现出较强的韵律感，合成具有独特特征风格的语音，如感情色彩较重的评书风格、朗诵风格，以及不同表现的惊悚风格、相声风格等非正式的合成语音风格，从而增加合成语音的多样性，满足人民的不同需求。

然而，目前的TTS模型无法将风格精准定义，难以考虑到每种风格语音的细节，致使特定风格在合成语音不能很好体现，降低了用户的体验度。

发明内容

本申请提供了一种语音合成模型的训练方法、语音合成方法、装置、设备及存储介质，该训练方法训练得到的语音合成模型能够合成具有一定风格和丰富情感表现力的语音，从而提升用户的体验度。

第一方面，本申请提供了一种语音合成模型的训练方法，所述方法包括：

获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；

根据所述训练文本数据，生成训练文本向量；

基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；

基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；

根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。

第二方面，本申请还提供了一种语音合成方法，包括：

获取目标文本向量和目标语音风格向量；

将所述目标文本向量和所述目标语音风格向量进行拼接处理，以得到目标拼接向量；

将所述目标拼接向量输入语音合成模型，以输出目标合成语音数据；所述语音合成模型是由如上所述的语音合成模型的训练方法训练得到的模型。

第三方面，本申请还提供了一种语音合成模型的训练装置，所述装置包括：

数据获取单元，用于获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；

向量生成单元，用于根据所述训练文本数据，生成训练文本向量；

向量编码单元，用于基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；

向量获取单元，用于基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；

模型训练单元，用于根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。

第四方面，本申请还提供一种语音合成装置，包括：

向量获取单元，用于获取目标文本向量和目标语音风格向量；

向量拼接单元，用于将所述目标文本向量和所述目标语音风格向量进行拼接处理，以得到目标拼接向量；

数据输出单元，用于将所述目标拼接向量输入语音合成模型，以输出目标合成语音数据；所述语音合成模型是由上所述的语音合成模型的训练方法训练得到的模型。

第五方面，本申请还提供了一种计算机设备，所述计算机设备包括存储器和处理器；所述存储器用于存储计算机程序；所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如上述的语音合成模型的训练方法或上述语音合成方法。

第六方面，本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如上述的语音合成模型的训练方法或上述语音合成方法。

本申请公开了一种语音合成模型的训练方法、语音合成方法、装置、设备及存储介质，通过基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。该训练方法训练得到的语音合成模型，能够合成自然的目标语音数据，所合成的目标语音数据具有特定的说话风格，不再是机械化的语音，具有丰富的情感表现力，从而提升用户的体验度。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音合成模型的训练方法的示意流程图；

图2是图1中语音合成模型的训练方法的子步骤示意流程图；

图3是图1中对所述训练文本数据进行拼音转换的示意流程图；

图4是图1中语音合成模型的训练方法的子步骤示意流程图；

图5是本申请一实施例提供的训练风格向量的构建步骤的示意流程图；

图6是图1中语音合成模型的训练方法的子步骤示意流程图；

图7是本申请一实施例提供的根据所述训练语音数据和所述训练拼接向量训练模型的示意流程图；

图8是本申请实施例提供的一种语音合成方法的步骤示意流程图；

图9是本申请的实施例还提供一种语音合成模型的训练装置的示意性框图；

图10是图9中语音合成模型的训练装置的子单元的示意性框图；

图11是图9中语音合成模型的训练装置的子单元的示意性框图；

图12是本申请一实施例提供的一种语音合成装置的示意性框图；

图13为本申请一实施例提供的一种计算机设备的结构示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

附图中所示的流程图仅是示例说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解、组合或部分合并，因此实际执行的顺序有可能根据实际情况改变。

本申请的实施例提供了一种语音合成模型的训练方法、装置、计算机设备及存储介质。语音合成模型的训练方法可用于合成具有一定风格的语音数据。

下面结合附图，对本申请的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

请参阅图1，图1是本申请实施例提供的一种语音合成模型的训练方法的步骤示意流程图。

如图1所示，该语音合成模型的训练方法，具体包括：步骤S110至步骤S150。

S110、获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据。

具体的，训练文本数据是在训练阶段所采用的文本数据，用于对语音合成模型进行训练。训练语音数据为与训练文本数据对应的语音数据，且是经开发人员标注的语音数据。

S120、根据所述训练文本数据，生成训练文本向量。

具体的，在获取训练文本数据后，可以对训练文本数据进行向量转化，生成训练文本向量。

如图2所示，在一实施例中，所述根据所述训练文本数据，生成训练文本向量的具体过程，即步骤S120可以包括子步骤S121和S122。

S121、对所述训练文本数据进行拼音转换，以得到对应的拼音串。

在一实施例中，对所述训练文本数据进行拼音转换的具体过程，如图3所示，即步骤S121可以包括子步骤S1211、S1212和S1213。

S1211、对所述训练文本数据进行分词处理，以得到多个词串。

其中，所述对所述训练文本数据进行分词处理，以得到多个词串，具体可以包括：对所述训练文本数据进行语句切分，以得到对应的若干语句；对若干所述语句进行分词处理，以得到多个词串。

具体的，获取训练文本数据后，可对该训练文本数据进行语句切分，例如可根据标点符号将各个训练文本数据切分为一条条完整的语句。然后，对各语句进行分词处理，从而得到多个词串。在一实施例中，可以通过字符串匹配的分词方法对各个切分的语句进行分词处理。

比如，字符串匹配的分词方法可以是正向最大匹配法、反向最大匹配法、最短路径分词法和双向最大匹配法等。其中，正向最大匹配法是指把一个切分的语句中的字符串从左至右来分词。反向最大匹配法是指把一个切分的语句中的字符串从右至左来分词。双向最大匹配法是指正反向(从左到右、从右到左)同时进行分词匹配。最短路径分词法是指一个切分的语句中的字符串里面要求切出的词数是最少的。

在其他实施例中，也可通过词义分词法对各个切分后的语句进行分词处理。其中，词义分词法是一种机器语音判断的分词方法，利用句法信息和语义信息来处理歧义现象来分词。

示例性的，以双向最大匹配法为例，获取具有词语集的汉语词典库，假设汉语词典库的最长词组的长度为m，正反向同时将切分后的语句中词组长度为m的连续字符与汉语词典库中的词语进行匹配。若切分后的语句与汉语词典库中的各词语匹配不成功，则逐次减小连续字符的长度进行多次扫描匹配，直至该语句与汉语词典库中的某一词语匹配成功，最终得到多个词串。

S1212、对各所述词串进行拼音转换，以得到各所述词串对应的子拼音串。

示例性的，训练文本信息S经分词处理后，得到N个词串，分别为FS1、FS2、...、FSN。N个词串分别经拼音转换后，得到各词串对应的子拼音串，PS1、PS2、...、PSN。例如，词串“张三”经拼音转换后，得到子拼音串“zhang1san1”，其中数字1表示声调为阴平。

S1213、将各所述子拼音串进行拼接处理，以得到所述拼音串。

示例性的，训练文本数据为“你好吗”，经分词处理后得到两个词串“你好”和“吗”，将该两个词串“你好”和“吗”进行拼音转换，得到两个子拼音串“ni1hao3”和“ma0”，其中数字3表示声调为上声，数字0为表示声调为轻声。将两个子拼音串“ni1hao3”和“ma0”进行拼接处理，得到拼音串“ni1hao3ma0”。

S122、基于字符数字对应关系，将所述拼音串转换为数字序列，将所述数字序列存储为训练文本向量。

在一实施例中，基于字符数字对应关系，将所述拼音串转换为数字序列，将所述数字序列存储为训练文本向量之前，还包括：

根据预设字符序列和预设数量的数字，建立字符数字对应关系。

具体的，字符数字对应关系中具有字符序列以及与字符序列中各字符对应的数字，每一个字符对应一个数字。其中，字符的类型可以为字母、数字和空格等。

在一实施例中，所述根据预设字符序列和预设数量的数字，建立字符数字对应关系，具体包括：获取预设字符序列和预设数量的数字；根据所述数字，对所述字符序列中的字符进行标记，以得到所述字符数字对应关系。

其中，预设数量可以大于或等于字符序列的长度。

示例性的，字符序列具有32个字符和各字符对应的数字。其中32个字符可以包括26个英文字母、0、1、2、3、4和空格，将26个英文字母、5个数字和空格依次排列，采用数字0-31对该32个字符进行标记，使得每个字符对应有一个数字标签。具体的，该字符数字对应关系如表1所示。

表1为字符数字对应关系的示意表

比如，训练文本数据为“你好吗”，其对应的拼音串“ni1hao3ma0”。基于表1中的字符数字对应关系，可以将拼音串“ni1hao3ma0”转化为数字序列13/8/27/7/0/14/29/12/0/26。将该数字序列存储为训练文本向量(13，8，27，7，0，14，29，12，0，26)。

S130、基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量。

其中，第一编码器包括卷积神经网络(Convolutional Neural Network,CNN)+递归神经网络(Recurrent Neural Network、RNN)组成。卷积神经网络可以包括多个卷积层。比如，卷积神经网络包括6个卷积层，每一个卷积层使用同样尺寸的卷积核提取卷积特征；一般采用更小的卷积核，如3×3大小的卷积核足以捕捉到训练语音数据的语音特征，步长(stride)为2。6层卷积层分别使用32、32、64、64、128和128的输出通道，因而卷积神经网络最后一层卷积层输出的语音特征向量为三维向量。

递归神经网络可以为包括128个隐藏神经元的单向GRU。在一实施例中，卷积神经网络与递归神经网络之间可以设有重塑层，结合批标准化(Batch Normalization，BN)和ReLU(Rectified Linear Units)激活函数调整卷积神经网络的输出，从而适应递归神经网络的输入。

具体的，将训练语音数据的对数梅尔频谱输入卷积神经网络，然后将卷积神经网络的输出输入至递归神经网络，将递归神经网络的输出作为训练嵌入向量，从而将不同长度的训练语音信号的韵律转化为固定长度的训练嵌入向量。

在一实施例中，所述基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量之前，还包括：将所述训练语音数据进行预处理，以得到对应的梅尔(Mel)频谱，以提取人耳敏感的语音特征。

所述基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量，包括：

将所述梅尔频谱输入第一编码器，使得第一编码器对该梅尔频谱进行编码，从而得到训练嵌入向量。

其中，所述将所述训练语音数据进行预处理具体包括：对所述训练语音数据进行分帧加窗处理以得到处理后的训练语音数据；对处理后的训练语音数据进行频域变换以得到对应的幅度谱，该幅度谱即为所述梅尔频谱。

具体的，分帧加窗处理，具体可以按照设置的帧长例如60ms对训练语音数据进行分割处理以得到分割后的训练语音数据，然后再对分割后训练语音数据加海明窗处理，加海明窗处理是指将分割后语音信息乘以一个窗函数，目的是为了进行傅里叶展开。

频域转化是对分帧加窗处理后的训练语音数据进行快速傅里叶变换(FastFourier Transform、FFT)，以得到相应的参数，在本实施例中是为了得到幅值作为幅度谱，即快速傅里叶变换后的幅值。当然，也可以用FFT变换后的其他参数，比如幅值加上相位信息等。

S140、基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量。

具体的，根据注意力机制，可以对训练嵌入向量进行风格标记，从而得到训练风格向量。

如图4所示，在一实施例中，所述基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量，具体包括子步骤S141至S143。

S141、获取多个初始语音风格向量。

示例性的，风格的类型有四种，分别为朗诵风格、相声风格、惊悚风格和评书风格。其中，朗诵风格的初始语音风格向量为(1，0，0，0)，相声风格的初始语音风格向量为(0，1，0，0)，惊悚风格的初始语音风格向量为(0，0，1，0)，评书风格的初始语音风格向量为(0，0，0，1)。

需要说明的是，在其他实施例中，风格的类型也可以为一种、两种、三种、五种或者更多。

S142、根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度。

在一实施例中，所述根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度，具体包括：将所述训练嵌入向量和所述初始语音风格向量输入注意力模型，以输出所述训练嵌入向量与各所述初始语音风格向量的相似度。

其中，所述注意力模型是指采用多头注意力机制和softmax激活函数模仿人类采用自然的人类语音表达语言信息。即，当人类带着风格使用语音表达语言信息时，会因为风格而对语音数据中各个音频片段分配不同的注意力。也就是说，人们会更容易注意到各风格类型中与语音数据相关的某种风格类型或多种风格类型，而忽略其他无关的风格类型。

具体的，该多头注意力机制包括多个点乘注意力机制，比如，可以包括8个点乘注意力机制。

S143、根据各所述初始语音风格向量的相似度，构建所述训练风格向量。

具体的，训练风格向量描述了各风格类型与训练语音数据之间的注意力分配情况。其中，所述根据各所述初始语音风格向量的相似度，构建所述训练风格向量，如图5所示，步骤S143具体包括子步骤S1431：以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，对各所述初始语音风格向量加权求和，以得到所述训练风格向量。

示例性的，风格的类型有四种，分别为朗诵风格、相声风格、惊悚风格和评书风格。其中，朗诵风格的初始语音风格向量A为(1，0，0，0)，相声风格的初始语音风格向量B为(0，1，0，0)，惊悚风格的初始语音风格向量C为(0，0，1，0)，评书风格的初始语音风格向量D为(0，0，0，1)。例如，具有相声风格的训练语音数据中，训练嵌入向量与朗诵风格的初始语音风格向量的相似度为0.1，训练嵌入向量与相声风格的初始语音风格向量的相似度为0.8，训练嵌入向量与惊悚风格的初始语音风格向量的相似度为0.0，训练嵌入向量与评书风格的初始语音风格向量的相似度为0.1。

以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，即朗诵风格的初始语音风格向量对训练语音数据贡献的注意力权重为0.1，相声风格的初始语音风格向量对训练语音数据贡献的注意力权重为0.8，惊悚风格的初始语音风格向量对训练语音数据贡献的注意力权重为0.0，评书风格的初始语音风格向量对训练语音数据贡献的注意力权重为0.1。根据上述注意力权重对各所述初始语音风格向量加权求和，即具有相声风格的训练语音数据对应的训练风格向量＝0.1×A+0.8×B+0.0×C+0.1×D。

S150、根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。

在一实施例中，预设的神经网络模型可以包括Tacotron模型，其采用最大似然函数作为目标函数。该Tacotron模型包括编码器、注意力机制和解码器。在其他实施例中，该神经网络模型也可以是其他深度学习模型，例如GoogLeNet模型等。下面以Tacotron模型为例进行说明。

在一实施例中，所述根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练的具体过程，如图6所示，即步骤S150包括子步骤S151和S152。

S151、对所述训练文本向量和所述训练风格向量进行拼接处理，以得到训练拼接向量。

示例性的，训练文本向量A＝(a₁,a₂,a₃,a₄)，训练风格向量B＝(b₁,b₂,b₃,b₄)，对训练文本向量A和训练风格向量B进行拼接，得到训练拼接向量C＝(a₁,a₂,a₃,a₄,b₁,b₂,b₃,b₄)。

S152、根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练，以得到所述语音合成模型。

具体的，将训练拼接向量输入预设的神经网络模型中，输出训练合成语音数据。将该训练合成语音数据与训练语音数据进行比对，根据预设的损失函数调整该神经网络模型中的参数，从而得到语音合成模型。

在一实施例中，根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练的具体过程，如图7所示，即步骤S152包括子步骤S1521、S1522和S1523。

S1521、将所述训练拼接向量输入所述神经网络模型，以输出训练合成语音数据。

具体的，经拼接处理得到训练拼接向量后，将该训练拼接向量输入上述神经网络模型，从而输出训练合成语音数据。

S1522、计算所述训练合成语音数据与所述训练语音数据的语音相似度。

具体的，将所述训练合成语音数据与所述训练语音数据输入预先训练好的相似度模型，从而输出二者的语音相似度。其中相似度模型可以为例如卷积神经网络模型。

S1523、根据所述语音相似度和预设的损失函数计算损失值，并根据所述损失值调整所述神经网络模型中的参数，以得到语音合成模型。

具体的，损失函数(loss function)通常用来估量模型的训练合成语音数据与训练语音数据的不一致程度，训练合成语音数据与训练语音数据越接近，损失(loss)值最小。

示例性的，预设的损失函数为交叉熵损失函数。根据所述语音相似度和预设的损失函数计算损失值后，可以根据随机梯度下降法反向传播去调整该神经网络模型中的参数，从而得到语音合成模型。反向传播是一个不断更新神经网络模型中权重和偏差的过程，当某次训练后损失值为0时，表示训练合成语音数据达到训练语音数据，这时候权重和偏差可以不更新。

上述语音合成模型的训练方法，通过获取数据集；根据所述训练文本数据，生成训练文本向量；基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。该训练方法训练得到的语音合成模型，能够合成自然的目标语音数据，所合成的目标语音数据具有特定的说话风格，不再是机械化的语音，具有丰富的情感表现力，从而提升用户的体验度。

请参阅图8，图8是本申请实施例提供的一种语音合成方法的步骤示意流程图。

如图8所示，该语音合成方法，具体包括：步骤S210至步骤S230。

S210、获取目标文本向量和目标语音风格向量。

在一实施例中，获取目标文本向量之前，还包括：获取目标文本数据。

具体的，目标文本数据可以是新闻文本、小说文本、博客文本等。

其中，获取目标文本向量，具体包括：根据所述目标文本数据，获取目标文本向量。

在一实施例中，所述根据所述目标文本数据，获取目标文本向量，具体包括：对所述目标文本数据进行分词处理，以得到多个目标词串；对各所述目标词串进行拼音转换，以得到各所述目标词串对应的目标子拼音串；将各所述目标子拼音串进行拼接处理，以得到所述目标拼音串；基于预设字符数字对应关系，将所述目标拼音串转换为目标数字序列，将所述目标数字序列存储为目标文本向量。

具体的，获取目标文本数据后，可对该目标文本数据进行语句切分，例如可根据标点符号将目标文本数据切分为一条条完整的语句。然后，对各语句进行分词处理，从而得到多个目标词串。在一实施例中，可以通过字符串匹配的分词方法对各个切分的语句进行分词处理。

比如，目标文本数据“早上好”经分词处理后，得到“早上”和“好”两个目标词串。将该两个目标词串“早上”和“好”进行拼音转换，得到两个目标词串对应的目标子拼音串“zao3shang4”和“hao3”，其中数字表示声调。将两个目标子拼音串进行拼接处理，得到目标拼音串“zao3shang4hao3”。

示例性的，字符数字对应关系可以如表1所示。比如，目标文本数据为“早上好”，该训练文本数据对应的目标拼音串为“zao3shang4hao3”，基于表1中的字符数字对应关系，将该目标拼音串“zao3shang4hao3”转化为目标数字序列25/0/14/29/18/7/0/13/6/30/7/0/14/29。将该目标数字序列存储为目标文本向量(25，0，14，29，18，7，0，13，6，30，7，0，14，29)。

其中，获取目标语音风格向量，包括：获取多个初始语音风格向量；根据各种风格类型对应的注意力权重，对各所述初始语音风格向量加权求和，以得到所述目标语音风格向量。

示例性的，风格的类型有四种，分别为朗诵风格、相声风格、惊悚风格和评书风格。其中，朗诵风格的初始语音风格向量A为(1，0，0，0)，相声风格的初始语音风格向量B为(0，1，0，0)，惊悚风格的初始语音风格向量C为(0，0，1，0)，评书风格的初始语音风格向量D为(0，0，0，1)。假设具有相声风格的语音中，朗诵风格对应的注意力权重为0.1，相声风格对应的注意力权重为0.8，惊悚风格对应的注意力权重为0.0、评书风格对应的注意力权重为0.1，则目标语音风格向量＝0.1×A+0.8×B+0.0×C+0.1×D。

其中，特定风格的语音数据中各种风格类型对应的注意力权重可以预先人工设置或预先训练得到。例如使用者想将目标文本数据核查具有相声风格的语音，则将朗诵风格对应的注意力权重设置为0.1，将相声风格对应的注意力权重设置为0.8，将惊悚风格对应的注意力权重设置为0.0，将评书风格对应的注意力权重设置为0.1。

又如，想将目标文本数据合成具有评书风格的语音，则将朗诵风格对应的注意力权重设置为0.02，将相声风格对应的注意力权重设置为0.05，将惊悚风格对应的注意力权重设置为0.85，将评书风格对应的注意力权重设置为0.08。

S220、将所述目标文本向量和所述目标语音风格向量进行拼接处理，以得到目标拼接向量。

示例性的，目标文本向量X＝(x₁,x₂,x₃,x₄)，目标语音风格向量Y＝(y₁,y₂,y₃,y₄)，对目标文本向量X和目标语音风格向量Y进行拼接，得到目标拼接向量W＝(x₁,x₂,x₃,x₄,y₁,y₂,y₃,y₄)。

S230、将所述目标拼接向量输入语音合成模型，以输出目标合成语音数据。

其中，所述语音合成模型是由上述语音合成模型的训练方法训练得到的模型。具体地，将目标拼接向量输入至该语音合成模型，从而输出具有特定风格的目标合成语音数据，比如具有朗诵风格、相声风格、惊悚风格或评书风格的目标合成语音数据。

可以理解的，目标拼接向量在时序上也可以为一个序列片段，因此，语音合成模型也可以分段合成具有特定风格的目标合成语音数据，比如将序列的目标拼接向量分为两段合成，合成的目标合成语音数据分别具有朗诵风格和评书风格，由此可以表明目标文本数据在语音合成时的风格变化的过程。

上述语音合成方法能够合成自然的目标语音数据，所合成的目标语音数据具有特定的说话风格，不再是机械化的语音，具有丰富的情感表现力，从而提升用户的体验度。

请参阅图9，图9是本申请的实施例还提供一种语音合成模型的训练装置的示意性框图，该语音合成模型的训练装置用于执行前述任一项语音合成模型的训练方法。其中，该语音合成模型的训练装置可以配置于服务器或终端中。

其中，服务器可以为独立的服务器，也可以为服务器集群。该终端可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等电子设备。

如图9所示，语音合成模型的训练装置300包括：数据获取单元310、向量生成单元320、向量编码单元330、向量获取单元340和模型训练单元350。

数据获取单元310，用于获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；

向量生成单元320，用于根据所述训练文本数据，生成训练文本向量；

向量编码单元330，用于基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；

向量获取单元340，用于基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；

模型训练单元350，用于根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。

如图9所示，在一个实施例中，向量生成单元320包括拼音转换子单元321和向量存储子单元322。

拼音转换子单元321，用于对所述训练文本数据进行拼音转换，以得到对应的拼音串。

向量存储子单元322，用于基于字符数字对应关系，将所述拼音串转换为数字序列，将所述数字序列存储为训练文本向量。

如图10所示，在一实施例中，向量获取单元340包括风格获取子单元341、相似度计算子单元342和向量构建子单元343。

风格获取子单元341用于获取多个初始语音风格向量。

相似度计算子单元342，用于根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度。

向量构建子单元343，用于根据各所述初始语音风格向量的相似度，构建所述训练风格向量。

在一实施例中，向量构建子单元343具体用于以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，对各所述初始语音风格向量加权求和，以得到所述训练风格向量。

如图11所示，在一实施例中，模型训练单元350包括拼接处理子单元351和模型训练子单元352。

拼接处理子单元351，用于对所述训练文本向量和所述训练风格向量进行拼接处理，以得到训练拼接向量；

模型训练子单元352，用于根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练，以得到所述语音合成模型。

请参阅图12，图12是本申请一实施例提供的一种语音合成装置的示意性框图，该语音合成装置可以配置于终端或服务器中，用于执行前述的语音合成方法。

如图12所示，该语音合成装置400，包括：向量获取单元410、向量拼接单元420和数据输出单元430。

向量获取单元410，用于获取目标文本向量和目标语音风格向量。

向量拼接单元420，用于将所述目标文本向量和所述目标语音风格向量进行拼接处理，以得到目标拼接向量。

数据输出单元430，用于将所述目标拼接向量输入语音合成模型，以输出目标合成语音数据；所述语音合成模型是由上述的语音合成模型的训练方法训练得到的模型。

需要说明的是，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和各单元的具体工作过程，可以参考前述语音合成模型的训练方法实施例中的对应过程，在此不再赘述。

上述的装置可以实现为一种计算机程序的形式，该计算机程序可以在如图8所示的计算机设备上运行。

请参阅图13，图13是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备可以是服务器或终端。

参阅图13，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口，其中，存储器可以包括非易失性存储介质和内存储器。

非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令，该程序指令被执行时，可使得处理器执行一种语音合成模型的训练方法。

处理器用于提供计算和控制能力，支撑整个计算机设备的运行。

内存储器为非易失性存储介质中的计算机程序的运行提供环境，该计算机程序被处理器执行时，可使得处理器执行一种语音合成模型的训练方法。

该网络接口用于进行网络通信，如发送分配的任务等。本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

应当理解的是，处理器可以是中央处理单元(Central Processing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

其中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；根据所述训练文本数据，生成训练文本向量；基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型。

在一个实施例中，所述处理器在实现所述根据所述训练文本数据，生成训练文本向量时，用于实现：

对所述训练文本数据进行拼音转换，以得到对应的拼音串；基于字符数字对应关系，将所述拼音串转换为数字序列，将所述数字序列存储为训练文本向量。

在一个实施例中，所述处理器在实现所述基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量时，用于实现：

获取多个初始语音风格向量；根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度；根据各所述初始语音风格向量的相似度，构建所述训练风格向量。

在一个实施例中，所述处理器在实现所述根据各所述初始语音风格向量的相似度，构建所述训练风格向量时，用于实现：

以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，对各所述初始语音风格向量加权求和，以得到所述训练风格向量。

在一个实施例中，所述处理器在实现所述根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型时，用于实现：

对所述训练文本向量和所述训练风格向量进行拼接处理，以得到训练拼接向量；根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练，以得到所述语音合成模型。

其中，在另一实施例中，所述处理器用于运行存储在存储器中的计算机程序，以实现如下步骤：

获取目标文本向量和目标语音风格向量；将所述目标文本向量和所述目标语音风格向量进行拼接处理，以得到目标拼接向量；将所述目标拼接向量输入语音合成模型，以输出目标合成语音数据；所述语音合成模型是由上述任一项所述的语音合成模型的训练方法训练得到的模型。

本申请的实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序中包括程序指令，所述处理器执行所述程序指令，实现本申请实施例提供的任一项语音合成模型的训练方法或语音合成方法。

其中，所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元，例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备，例如所述计算机设备上配备的插接式硬盘，智能存储卡(SmartMedia Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音合成模型的训练方法，其特征在于，包括：

根据所述训练文本数据，生成训练文本向量；

基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；所述基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量，包括：获取多个初始语音风格向量；根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度；根据各所述初始语音风格向量的相似度，构建所述训练风格向量；所述根据各所述初始语音风格向量的相似度，构建所述训练风格向量，包括：以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，对各所述初始语音风格向量加权求和，以得到所述训练风格向量；

根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型；所述根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型，包括：对所述训练文本向量和所述训练风格向量进行拼接处理，以得到训练拼接向量；根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练，以得到所述语音合成模型。

2.根据权利要求1所述的语音合成模型的训练方法，其特征在于，所述根据所述训练文本数据，生成训练文本向量，包括：

对所述训练文本数据进行拼音转换，以得到对应的拼音串；

基于字符数字对应关系，将所述拼音串转换为数字序列，将所述数字序列存储为训练文本向量。

3.一种语音合成方法，其特征在于，包括：

获取目标文本向量和目标语音风格向量；

将所述目标拼接向量输入语音合成模型，以输出目标合成语音数据；其中，所述语音合成模型的训练方法包括：获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；根据所述训练文本数据，生成训练文本向量；基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；所述基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量，包括：获取多个初始语音风格向量；根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度；根据各所述初始语音风格向量的相似度，构建所述训练风格向量；所述根据各所述初始语音风格向量的相似度，构建所述训练风格向量，包括：以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，对各所述初始语音风格向量加权求和，以得到所述训练风格向量；根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型；所述根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型，包括：对所述训练文本向量和所述训练风格向量进行拼接处理，以得到训练拼接向量；根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练，以得到所述语音合成模型。

4.一种语音合成模型的训练装置，其特征在于，包括：

向量获取单元，用于基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；所述基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量，包括：获取多个初始语音风格向量；根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度；根据各所述初始语音风格向量的相似度，构建所述训练风格向量；所述根据各所述初始语音风格向量的相似度，构建所述训练风格向量，包括：以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，对各所述初始语音风格向量加权求和，以得到所述训练风格向量；

模型训练单元，用于根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型；所述根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型，包括：对所述训练文本向量和所述训练风格向量进行拼接处理，以得到训练拼接向量；根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练，以得到所述语音合成模型。

5.一种语音合成装置，其特征在于，包括：

数据输出单元，用于将所述目标拼接向量输入语音合成模型，以输出目标合成语音数据；其中，所述语音合成模型的训练方法包括：获取数据集，所述数据集包括训练文本数据和与所述训练文本数据对应的训练语音数据；根据所述训练文本数据，生成训练文本向量；基于第一编码器，对所述训练语音数据进行编码，以得到训练嵌入向量；基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量；所述基于注意力机制，对所述训练嵌入向量进行标记，以得到训练风格向量，包括：获取多个初始语音风格向量；根据注意力机制，计算所述训练嵌入向量与各所述初始语音风格向量的相似度；根据各所述初始语音风格向量的相似度，构建所述训练风格向量；所述根据各所述初始语音风格向量的相似度，构建所述训练风格向量，包括：以各所述初始语音风格向量对应的相似度为初始语音风格向量的注意力权重，对各所述初始语音风格向量加权求和，以得到所述训练风格向量；根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型；所述根据所述训练文本向量、所述训练语音数据和所述训练风格向量，对预设的神经网络模型进行模型训练，以得到语音合成模型，包括：对所述训练文本向量和所述训练风格向量进行拼接处理，以得到训练拼接向量；根据所述训练语音数据和所述训练拼接向量，对所述神经网络模型进行模型训练，以得到所述语音合成模型。

6.一种计算机设备，其特征在于，所述计算机设备包括存储器和处理器；

所述存储器用于存储计算机程序；

所述处理器，用于执行所述计算机程序并在执行所述计算机程序时实现如权利要求1至2中任一项所述的语音合成模型的训练方法，或如权利要求3所述的语音合成方法。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时使所述处理器实现如权利要求1至2中任一项所述的语音合成模型的训练方法，或如权利要求3所述的语音合成方法。