CN111951778B - 一种低资源下利用迁移学习进行情感语音合成的方法 - Google Patents
一种低资源下利用迁移学习进行情感语音合成的方法 Download PDFInfo
- Publication number
- CN111951778B CN111951778B CN202010681019.2A CN202010681019A CN111951778B CN 111951778 B CN111951778 B CN 111951778B CN 202010681019 A CN202010681019 A CN 202010681019A CN 111951778 B CN111951778 B CN 111951778B
- Authority
- CN
- China
- Prior art keywords
- emotion
- voice
- style
- training
- encoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 76
- 230000008451 emotion Effects 0.000 title claims abstract description 76
- 238000003786 synthesis reaction Methods 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000013526 transfer learning Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 54
- 230000008909 emotion recognition Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 9
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims abstract description 3
- 238000001228 spectrum Methods 0.000 claims description 12
- 230000007935 neutral effect Effects 0.000 claims description 11
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 206010041349 Somnolence Diseases 0.000 description 5
- 206010063659 Aversion Diseases 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种低资源下利用迁移学习进行情感语音合成的方法,包括以下步骤:步骤一,情感向量预训练:利用EMOV‑DB数据集对于一个语音情感识别模型进行训练,这一语音情感识别模型是由风格化端到端语音合成的基本方法GST+Tacotron2模型中风格向量提取部分进一步处理得到的;步骤二,语音合成模型预训练:对于基本的Tacotron2模型,利用LJSpeech‑1.1的数据集进行预训练;步骤三,进行迁移学习训练:对于基本的Tacotron2模型在编码器的结果上连接上步骤一中得到的中间结果,并进行迁移学习训练。本发明采用预训练和迁移学习的方法,能够充分利用单个说话人少量的情感数据,在一个统一的情感语音合成模型的基础上,合成出质量达到一定水平的、情感倾向明显的合成语音。
Description
技术领域
本发明涉及语音合成领域,具体是涉及一种在低资源下,利用现有数据进行迁移学习从而实现情感语音合成的方法。
背景技术
近年来,端到端语音合成领域发展迅速,在大数据集进行训练的前提下,语音合成的质量和清晰度有了很大的提升。对于在大数据量进行训练的前提下的情感语音合成目前已经达到了一个可以令人接受的水平,但在一些特殊情况下,可能没有条件获得进行训练的大数据量的数据集,或者获取代价比较高。
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种低资源下利用迁移学习进行情感语音合成的方法,该方法可以在少量用于训练的数据的前提下进行情感语音合成,采用迁移学习和模型预训练的方法,充分利用了单个说话人少量的含有情感的语音数据,在达到可以识别的情感的语音质量的前提下,利用较少的空间资源,实现情感语音合成的目的。
本发明的目的是通过以下技术方案实现的:
一种低资源下利用迁移学习进行情感语音合成的方法,包括以下步骤:
步骤一,情感向量预训练:利用情感语音合成数据集对于一个语音情感识别模型进行训练获得中间结果,语音情感识别模型是由风格化端到端语音合成的基本方法中基于GST(Global Style Token)机制通过风格向量提取进一步处理得到的;
步骤二,语音合成模型预训练:对于基本的端到端语音合成模型,利用基本的单说话人语料的语音合成数据集进行预训练;具体是对步骤一获取的目标说话人的各种情感语音的中间结果,取出其中中性的结果,随机获取基本的单说话人语料语音合成数据集数据量次;用基本的单说话人语料语音合成数据集对上述的端到端语音合成模型进行基础的训练。
步骤三,进行迁移学习训练:对于基本的端到端语音合成模型在编码器的结果中连接上步骤一中得到的中间结果,并进行迁移学习训练;最终生成具有情感的语音文件。
进一步的,步骤一中具体如下:
基本的端到端语音合成模型结构如下,
xencoder=encoder(xtext)
xattention=attention(xencoder)
xdecoder=decoder(xattention)
其中,xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xdecoder为最终的结果信息,为梅尔谱信息或频谱信息;最终的结果信息通过声码器转化为语音信息生成语音文件;
在基本的端到端语音合成模型的基础上增加GST(Global Style Token)结构,具体如下,
xencoder=encoder(xtext)
xstyle=StyleToken(xref)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中,xtext、xencoder、xattention和xdecoder同基本的端到端语音合成模型中相同,xmiddle为最终结合后的输入到解码器的编码器结构的输出,xref为作为风格参考的语音提取的梅尔谱信息,经过GST(Global Style Token)的结构的处理得到xstyle,xstyle带有风格相关的信息;
利用GST(Global Style Token)结构进行一个情感分类任务,具体如下,
xstyle=StyleToken(xref)
xemotion=dense(xstyle)
其中,GST(Global Style Token)的结构不变,xemotion为相应的情感标签信息;dense为基本的深度学习全连接层,用于将中间结果转化为标签长度的维度的向量;
对上述语音情感识别模型,经过情感语音合成数据集的数据进行训练,然后将目标说话人的相关数据在上述语音情感识别模型中进行处理,获取xstyle作为之后步骤的输入信息,xstyle即体现了目标说话人不同情感的信息,又体现了同一情感中不同句子的关于语音的风格上的差别。
进一步的,步骤二中具体如下:对基本的端到端语音合成模型进行改造,改造后的结构如下:
xencoder=encoder(xtext)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xmiddle为最终结合后的输入到解码器的编码器结构的输出,xdecoder为最终的结果信息,xstyle为步骤一训练中获得的语音情感识别模型的中间结果;取出语音情感识别模型中的xstyle值的中性结果作为基本的端到端语音合成模型中xstyle输入值。
进一步的,步骤三中训练完成后,在步骤一语音情感识别模型的中间结果中选取各个情感的xstyle结果作为基本的端到端语音合成模型中生成语音的xstyle值输入,从而生成有情感的语音文件。
进一步的,步骤一所需的训练步数为50000步,初始学习率为1e-4,在5000步开始学习率下降,学习率最终下降为1e-6。
进一步的,步骤二所需的训练步数为150000步,初始学习率为1e-3,在5000步开始学习率下降,学习率最终下降为1e-5
进一步的,步骤三所需的训练步数为40000步,参数设置与步骤二相同。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明采用预训练和迁移学习的方法,能够充分利用单个说话人少量的情感数据。通过迁移学习,语音情感识别模型能够生成具有良好聚类结构,并能表征一定语音信息的中间向量,通过这一中间向量,本方法在一个统一的情感语音合成模型的基础上,能合成出质量达到一定水平的、情感倾向明显的合成语音。
2.对于之前的情感语音合成方法一般需要上万条数据的数据集进行训练(在单个情感训练过程中一般需要等同于LJSpeech-1.1数据集(13000条)的数据量),但利用本方法实际使用的单一情感语音语料数据量只有大约500条,而情感语音数据的收集又是极其困难的。本方法基于迁移学习进行训练,能够在比较小的情感数据量的前提下得到质量和情感强度可以清晰识别的情感语音合成结果。
3.对于一般的情感语音合成方法,一般需要对于单个情感训练一个语音合成模型,而一个语音合成模型是会消耗大约600m的存储空间的,而单独一个语音合成模型的训练过程往往需要15w步以上的训练过程,这在一台计算机上往往需要4到5天的时间。本方法最终对于各个情感整体训练了一个语音合成模型,所以在训练时长和存储消耗上会优于以往的方法。
4.本发明方法可以更好的利用目标说话人有限的情感语音数据信息,利用一个基本的端到端语音合成模型和一个语音情感识别模型达到合成一定清晰度并具有明显情感倾向的语音信息的目的(具体数据对比可参看后文表2、表3)。
附图说明
图1是方法实施的整体步骤流程图;
图2是利用EMOV-DB(情感语音合成数据集)数据集进行语音情感识别模型图;
图3是对于基本的Tacotron2模型在编码器的结果上连接步骤一中间结果的端到端语音合成模型图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例提供一种低资源下利用迁移学习进行情感语音合成的方法,在本实施例的实际操作中使用了:EMOV-DB和LJSpeech-1.1两个数据集,其中EMOV-DB数据集为低资源的情感语音合成数据集,数据集中文字是基于CMU北极数据库的。数据集包括四个演讲者的录音——两男两女。情绪类型包括中性、困倦、愤怒、厌恶和娱乐。LJSpeech-1.1数据集是一个单人的中性情感的语音合成数据集,其包含来自单个演讲者的13,100个简短音频片段,这些片段来自7部非小说类书籍。为每个剪辑提供了转录。剪辑的长度从1到10秒不等,总长度约为24小时。对于EMOV-DB数据集具体得说话人和情感情况如下:
-珍妮(女性,英语:中性(417个文件),有趣(222个文件),愤怒(523个文件),困倦(466个文件),厌恶(189个文件)
-贝亚(女性,英语:中性(373个文件),娱乐(309个文件),愤怒(317个文件),困倦(520个文件),厌恶(347个文件)
-山姆(男性,英语:中性(493个文件),有趣(501个文件),愤怒(468个文件),困倦(495个文件),厌恶(497个文件)
-乔希(男,英文:中性(302个文件),有趣(298个文件),困倦(263个文件)
对于本实施例可以使用数据量类似的同样语音质量的数据集进行操作,可以达到同本实施例实验相同的效果。
本方法主要是基于论文:[Style Tokens:Unsupervised Style Modeling,Control and Transfer in End-to-End Speech Synthesis](https://arxiv.org/abs/1803.09017)进行的相关改进。原始论文主要针对大数据集下的风格迁移的语音合成任务,但对于小数据量的情感语音合成任务并不适用。所以在本方法中通过将论文中提到的方法进行改进(改进主要是对GST-Tacotron2模型进行拆分,并引入新的任务目标以方便生成更能指导语音合成过程的中间结果)。通过本方法的改进GST-Tacotron2模型能更好的获取参考语音当中的情感信息,从而在小数据量的情况下更好的指导情感语音合成任务。其具体步骤(如图1所示)如下:
步骤一,情感向量预训练:
如图2所示,主要是利用EMOV-DB数据集(情感语音合成数据集)的全部数据对于一个语音情感识别模型进行训练。
在本方法中,主要是利用Style Token的结构进行一个情感分类任务,其结构如下:
xstyle=StyleToken(xref)
xemotion=dense(xstyle)
其中,Style Token的结构分为Reference encoder和Attention两个部分,其中Reference encoder为6层Conv-2d(kernel 22,33,output channel 32,32,64,64,128,128)+1层GRU(128),而Attention为多头注意力机制,语音情感识别模型中,使用了4头注意力,其具体结构如下:
xconv0=conv(xref)
xbn0=batch_normalization(xconv0)
xconv1=conv(xbn0)
xbn1=batch_normalization(xconv1)
xconv2=conv(xbn1)
xbn2=batch_normalization(xconv2)
xconv3=conv(xbn2)
xbn3=batch_normalization(xconv3)
xconv4=conv(xbn3)
xbn4=batch_normalization(xconv4)
xconv5=conv(xbn4)
xbn5=batch_normalization(xconv5)
xgru=gru(xbn5)
xstyle=multihead_attention(xgru)
对于Style Token结构后面的xemotion为相应的情感标签信息,其维度为512。Dense为基本的深度学习全连接层,主要用于将中间结果转化为标签维度的向量。具体而言就是将512维转化为5维,之后进行Softmax的处理。使用交叉熵作为损失函数,优化器选取Adam优化器。
语音情感识别模型中具体结构信息情况如下:
表1语音情感识别模型结构信息情况
网络层 | 结构 | Size |
卷积层 | 六层卷积 | kernel 22,33,output channel 32,32,64,64,128,128 |
GRU层 | 双向GRU | 128 |
注意力层 | 4个头多头注意力机制 | (128,512) |
密集层 | 全连接网络 | (512,5) |
对上述语音情感识别模型,经过EMOV-DB(情感语音合成数据集)的数据进行训练,然后将目标说话人的相关数据在语音情感识别模型中进行处理,获取xstyle作为后面步骤的输入信息,认为这一向量即体现了目标说话人不同情感的信息,又体现了同一情感中不同句子的关于语音的风格上的差别。
步骤二,端到端语音合成模型预训练:
对于基本的tacotron2模型,利用LJSpeech-1.1(基本的单说话人语料语音合成数据集)的数据集进行预训练,具体而言:
如图3所示,对于基本的tacotron2模型进行改造,改造后的结构如下:
xencoder=encoder(xtext)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
公式中xstyle为步骤一训练中获得的语音情感识别模型的中间结果。具体而言,就是对步骤一获取的目标说话人的各种情感语音的中间结果,取出其中中性的结果,随机获取LJSpeech-1.1(基本的单说话人语料语音合成数据集)数据集数据量次。
上述端到端语音合成模型中编码器模块包含一个字符嵌入层(CharacterEmbedding),一个3层卷积,一个双向LSTM层。输入字符被编码成512维的字符向量;然后穿过一个三层卷积,每层卷积包含512个5x1的卷积核,即每个卷积核横跨5个字符,卷积层会对输入的字符序列进行大跨度上下文建模(类似于N-grams),这里使用卷积层获取上下文主要是由于实践中RNN很难捕获长时依赖;卷积层后接批归一化(batch normalization),使用ReLu进行激活;最后一个卷积层的输出被传送到一个双向的LSTM层用以生成编码特征,这个LSTM包含512个单元(每个方向256个单元)。
fe=ReLU(F3*ReLU(F2*ReLU(F1*E(x))))
H=EncoderRecurrency(fe)
其中,F1、F2、F3为3个卷积核,ReLU为每一个卷积层上的非线性激活,E表示对字符序列X做embedding,EncoderRecurrency表示双向LSTM。
注意力机制使用了基于位置敏感的注意力机制(Attention-Based Models forSpeech Recognition),是对之前注意力机制的扩展(Neural machine translation byjointly learning to align and translate);这样处理可以使用之前解码处理的累积注意力权重作为一个额外的特征,因此使得端到端语音合成模型在沿着输入序列向前移动的时候保持前后一致,减少了解码过程中潜在的子序列重复或遗漏。位置特征用32个长度为31的1维卷积核卷积得出,然后把输入序列和为位置特征投影到128维隐层表征,计算出注意力权重。
其中,Va、W、V、U和b为待训练参数,si为当前解码器隐状态,hj是当前编码器隐状态,fi,j是之前的注意力权重αi-1经卷积而得的位置特征。
解码器是一个自回归循环神经网络,它从编码的输入序列预测输出声谱图,一次预测一帧。上一步预测出的频谱首先被传入一个“pre-net”,每层由256个隐藏ReLU单元组成的双层全连接层,pre-net作为一个信息瓶颈层,对于学习注意力是必要的。pre-net的输出和注意力上下文向量拼接在一起,传给一个两层堆叠的由1024个单元组成的单向LSTM。LSTM的输出再次和注意力上下文向量拼接在一起,然后经过一个线性投影来预测目标频谱帧。最后,目标频谱帧经过一个5层卷积的“post-net”来预测一个残差叠加到卷积前的频谱帧上,用以改善频谱重构的整个过程。post-net每层由512个5X1卷积核组成,后接批归一化层,除了最后一层卷积,每层批归一化都用tanh激活。并行于频谱帧的预测,解码器LSTM的输出与注意力上下文向量拼接在一起,投影成一个标量后传递给sigmoid激活函数,来预测输出序列是否已经完成的概率。
用LJSpeech-1.1(基本的单说话人语料语音合成数据集)数据集对上述端到端语音合成模型进行基础的训练,其中xstyle由随机获取的中性的结果作为输入值。步骤二所需的训练步数为150000步,初始学习率为1e-3,在5000步开始学习率下降,每1000步下降0.3,学习率最终下降为1e-5。
步骤三,进行迁移学习训练:
对于基本的tacotron2模型在编码器的结果上连接上步骤一中得到的中间结果,并进行迁移学习训练。具体而言:
对于步骤二中提到的端到端语音合成模型,利用目标说话人的语音数据进行迁移学习训练,其中xstyle为步骤二训练中获得的端到端语音合成模型的对于目标说话人的中间结果。所需的训练步数为40000步,参数设置与步骤二相同。
训练完成后,在步骤一语音情感识别模型的中间结果中选取各个情感的合适作为生成语音的xstyle值输入,之后便可以生成合适的具有情感的语音文件所需的梅尔谱预测信息。对于预测的梅尔谱信息可通过声码器进行转换,转换为相应的音频文件,在本发明中可以使用的声码器有G-L算法和WaveNet等
进一步地,在具体实践过程中对本发明同利用One-hot编码的Tacotron2(一种常用的端到端语音合成模型)迁移学习情感语音合成结果进行了MCD和XAB分数的比较,MCD结果见表2,XAB结果见表3。以上结果说明本发明在情感语音效果上相比于之前的结果存在一定优势。
表2 MCD客观测评得分情况
表3 XAB主观测评得分情况
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (4)
1.一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,包括以下步骤:
步骤一,情感向量预训练:利用情感语音合成数据集对于一个语音情感识别模型进行训练获得中间结果,语音情感识别模型是由风格化端到端语音合成的基本方法中基于Global Style Token机制通过风格向量提取进一步处理得到的;基本的端到端语音合成模型结构如下,xencoder=encoder(xtext)
xattention=attention(xencoder)
xdecoder=decoder(xattention)
其中,xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xdecoder为最终的结果信息,为梅尔谱信息或频谱信息;最终的结果信息通过声码器转化为语音信息生成语音文件;
在基本的端到端语音合成模型的基础上增加Global Style Token结构,具体如下,
xencoder=encoder(xtext)
xstyle=StyleToken(xref)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中,xtext、xencoder、xattention和xdecoder同基本的端到端语音合成模型中相同,xref为作为风格参考的语音提取的梅尔谱信息,经过Global Style Token的结构的处理得到xstyle,xmiddle为最终结合后的输入到解码器的编码器结构的输出,xstyle带有风格相关的信息;
利用Global Style Token结构进行一个情感分类任务,具体如下,
xstyle=StyleToken(xref)
xemotion=dense(xstyle)
其中,Global Style Token的结构不变,xemotion为相应的情感标签信息;dense为基本的深度学习全连接层,用于将中间结果转化为标签长度的维度的向量;
对上述语音情感识别模型,经过情感语音合成数据集的数据进行训练,然后将目标说话人的相关数据在上述语音情感识别模型中进行处理,获取xstyle作为之后步骤的输入信息,xstyle即体现了目标说话人不同情感的信息,又体现了同一情感中不同句子的关于语音的风格上的差别;
步骤二,语音合成模型预训练:对于基本的端到端语音合成模型,利用基本的单说话人语料的语音合成数据集进行预训练;具体是对步骤一获取的目标说话人的各种情感语音的中间结果,取出其中中性的结果,随机获取基本的单说话人语料语音合成数据集数据量次;用基本的单说话人语料语音合成数据集对上述的端到端语音合成模型进行基础的训练;对基本的端到端语音合成模型进行改造,改造后的结构如下:
xencoder=encoder(xtext)
xmiddle=concatenate(xencoder,xstyle)
xattention=attention(xmiddle)
xdecoder=decoder(xattention)
其中xtext为文本中提取的特征信息;xencoder、xattention为相应的中间结果;xmiddle为最终结合后的输入到解码器的编码器结构的输出,xdecoder为最终的结果信息,xstyle为步骤一训练中获得的语音情感识别模型的中间结果;取出语音情感识别模型中的xstyle值的中性结果作为基本的端到端语音合成模型中xstyle输入值;
步骤三,进行迁移学习训练:对于基本的端到端语音合成模型在编码器的结果中连接上步骤一中得到的中间结果,并进行迁移学习训练;最终生成具有情感的语音文件;训练完成后,在步骤一语音情感识别模型的中间结果中选取各个情感的xstyle结果作为基本的端到端语音合成模型中生成语音的xstyle值输入,从而生成有情感的语音文件。
2.根据权利要求1所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤一所需的训练步数为50000步,初始学习率为1e-4,在5000步开始学习率下降,学习率最终下降为1e-6。
3.根据权利要求1所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤二所需的训练步数为150000步,初始学习率为1e-3,在5000步开始学习率下降,学习率最终下降为1e-5。
4.根据权利要求1所述一种低资源下利用迁移学习进行情感语音合成的方法,其特征在于,步骤三所需的训练步数为40000步,参数设置与步骤二相同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681019.2A CN111951778B (zh) | 2020-07-15 | 2020-07-15 | 一种低资源下利用迁移学习进行情感语音合成的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010681019.2A CN111951778B (zh) | 2020-07-15 | 2020-07-15 | 一种低资源下利用迁移学习进行情感语音合成的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111951778A CN111951778A (zh) | 2020-11-17 |
CN111951778B true CN111951778B (zh) | 2023-10-17 |
Family
ID=73341820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010681019.2A Active CN111951778B (zh) | 2020-07-15 | 2020-07-15 | 一种低资源下利用迁移学习进行情感语音合成的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111951778B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562634B (zh) * | 2020-12-02 | 2024-05-10 | 平安科技(深圳)有限公司 | 多风格音频合成方法、装置、设备及存储介质 |
CN114023300A (zh) * | 2021-11-03 | 2022-02-08 | 四川大学 | 一种基于扩散概率模型的中文语音合成方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107221344A (zh) * | 2017-04-07 | 2017-09-29 | 南京邮电大学 | 一种语音情感迁移方法 |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
JP2018180459A (ja) * | 2017-04-21 | 2018-11-15 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、音声合成方法、及び音声合成プログラム |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN111210803A (zh) * | 2020-04-21 | 2020-05-29 | 南京硅基智能科技有限公司 | 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法 |
-
2020
- 2020-07-15 CN CN202010681019.2A patent/CN111951778B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107221344A (zh) * | 2017-04-07 | 2017-09-29 | 南京邮电大学 | 一种语音情感迁移方法 |
JP2018180459A (ja) * | 2017-04-21 | 2018-11-15 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム、音声合成方法、及び音声合成プログラム |
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN110148398A (zh) * | 2019-05-16 | 2019-08-20 | 平安科技(深圳)有限公司 | 语音合成模型的训练方法、装置、设备及存储介质 |
CN111210803A (zh) * | 2020-04-21 | 2020-05-29 | 南京硅基智能科技有限公司 | 一种基于Bottleneck特征训练克隆音色及韵律的系统及方法 |
Non-Patent Citations (2)
Title |
---|
《Exploring Transfer Learning for Low Resource Emotional TTS》;Tits N et al.;《 INTELLIGENT SYSTEMS AND APPLICATIONS》;第1037卷;全文 * |
《基于迁移学习和自学习情感表征的情感语音合成》;张亚强;《中国优秀硕士学位论文全文数据库 信息科技辑》(第08期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111951778A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pepino et al. | Emotion recognition from speech using wav2vec 2.0 embeddings | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
Chen et al. | End-to-end neural network based automated speech scoring | |
CN110060690B (zh) | 基于STARGAN和ResNet的多对多说话人转换方法 | |
Morgan | Deep and wide: Multiple layers in automatic speech recognition | |
CN112184858B (zh) | 基于文本的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN111429889A (zh) | 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质 | |
CN109326283A (zh) | 非平行文本条件下基于文本编码器的多对多语音转换方法 | |
Chen et al. | Speechformer++: A hierarchical efficient framework for paralinguistic speech processing | |
CN104217713A (zh) | 汉藏双语语音合成方法及装置 | |
Deng et al. | Foundations and trends in signal processing: Deep learning–methods and applications | |
Khanam et al. | Text to speech synthesis: a systematic review, deep learning based architecture and future research direction | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN111951778B (zh) | 一种低资源下利用迁移学习进行情感语音合成的方法 | |
CN112184859A (zh) | 端到端的虚拟对象动画生成方法及装置、存储介质、终端 | |
CN106531192A (zh) | 基于冗余特征和多词典表示的语音情感识别方法及系统 | |
CN115455136A (zh) | 智能数字人营销交互方法、装置、计算机设备及存储介质 | |
Li et al. | Research on speech emotion recognition based on deep neural network | |
Daouad et al. | An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
Jin et al. | Speech separation and emotion recognition for multi-speaker scenarios | |
Kang et al. | Connectionist temporal classification loss for vector quantized variational autoencoder in zero-shot voice conversion | |
Shahid et al. | Generative emotional ai for speech emotion recognition: The case for synthetic emotional speech augmentation | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |