CN112992162B - 一种音色克隆方法、系统、装置及计算机可读存储介质 - Google Patents
一种音色克隆方法、系统、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN112992162B CN112992162B CN202110408975.8A CN202110408975A CN112992162B CN 112992162 B CN112992162 B CN 112992162B CN 202110408975 A CN202110408975 A CN 202110408975A CN 112992162 B CN112992162 B CN 112992162B
- Authority
- CN
- China
- Prior art keywords
- speaker
- network
- coding
- information
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000010367 cloning Methods 0.000 title claims abstract description 23
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 70
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000001228 spectrum Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000033764 rhythmic process Effects 0.000 claims description 10
- 238000012937 correction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 8
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001094 effect on targets Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种音色克隆方法、系统、装置及计算机可读存储介质,方法包括以下步骤:制作多说话人数据集并处理;训练对齐模型;制作目标说话人数据集并处理;训练多说话人语音合成模型;训练多说话人声码器模型;获取具有目标说话人音色的目标人语音合成模型;将待合成文本输入至目标人语音合成模型完成语音合成。本发明的有益效果是:目标说话人的风格和音色能够被更好的学习;可以通过指定韵律标签的方式来指定韵律节奏;使用时长预测模型来进行发音序列与频谱序列的对齐,加快语音生成的推理速度;在解码阶段添加音高和能量的预测和编码,目标人语音合成模型添加了音高和能量的预测与编码,有效的提高语音合成的效果。
Description
技术领域
本发明属于语音合成领域,尤其涉及一种音色克隆方法、系统、装置及计算机可读存储介质。
背景技术
传统的语音合成方法需要在专业录音设备和环境中采集大量的语音合成数据,才可以得到具有语音合成的能力,数据整体制作时间周期长,数据采集成本高。目前还存在一种录制少量语音合成数据,通过音色克隆的方法进行语音合成的方式,但该方式对目标说话人的音色还原效果差,且对不同的目标说话人均需要训练专门的声纹模型,整个计算和部署流程繁琐,需要大量的成本投入。
发明内容
本发明主要解决了传统的语音方法需要大量采集语音数据或是合成的语音与目标说话人音色差别过大,过程繁琐的问题,提供了一种利用多说话人数据集训练得到多说话人语音合成模型,再利用目标说话人数据集对多说话人语音合成模型进行微调训练得到具备目标说话人音色的目标人语音合成模型,只需采集少量目标人语音数据,目标人语音合成快速,所需成本投入较低的一种音色克隆方法、系统、装置及计算机可读存储介质。
本发明解决其技术问题所采用的技术方案是,一种音色克隆方法,包括以下步骤:
S1:制作多说话人数据集并处理;
S2:利用多说话人数据集训练对齐模型;
S3:制作目标说话人数据集并处理;
S4:利用多说话人数据集训练多说话人声码器模型;
S5:利用多说话人数据集训练多说话人语音合成模型;
S6:利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型;
S7:将待合成文本输入至目标人语音合成模型进行语音合成任务。
利用多说话人数据集进行多说话人语音合成模型的训练,使得多说话人语音合成模型中包含多中音色,在获得目标说话人数据集后,生成的目标人语音合成模型能够更好的学习说话人的风格和音色。
作为上述方案的一种优选方案,所述S1包括以下步骤:
S11:制作录音文本;
S12:选择多个录音人在标准录音环境下根据录音文本进行录音;
S13:基于录音和录音文本进行发音一致性校对,人工标注发音序列,添加韵律标签;
S14:提取各个录音对应的梅尔频谱特征、音高特征、能量特征,并对发音序列进行编码。
录音文本从公开文本中筛选得到,包含全部音节及大部分双音节和三音节词汇,覆盖90%以上的汉语常见韵律段,确保训练出来的多说话人语音合成模型能够覆盖绝大多数的音节和韵律;通过提取音高特征和能量特征提高语音合成效果。
作为上述方案的一种优选方案,所述步骤S3包括以下步骤:
S31:录取目标说话人朗读指定文本的音频以及文本对应的人工标注发音序列与韵律标签;
S32:提取音频的梅尔频谱特征、音高特征和能量特征。
S33:使用对齐模型获取发音序列的时长信息。
通过提取音高特征和能量特征提高语音合成效果。
作为上述方案的一种优选方案,所述多说话人语音合成模型包括音素序列与韵律序列混合编码网络、说话人信息编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络、能量预测网络、音高编码网络、音高预测网络和Decoder解码网络。
作为上述方案的一种优选方案,所述多说话人声码器模型为MultiBandMelgan声码器。
作为上述方案的一种优选方案,所述步骤S4中,对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在Skip Encoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高特征和能量特征,预测得到的音高特征和能量特征由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码。
在编码时添加韵律信息,让Skip Encoder跳跃编码网络学习到韵律标签对于发音行为的影响,实现通过指定韵律标签的方式来指定韵律节奏;在解码时添加音高和能量的预测和编码,提高语音合成的效果。
作为上述方案的一种优选方案,所述步骤S6中,对多说话人语音合成模型进行finetune微调训练,训练时固定多说话人语音合成模型中的音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络和音高编码网络,令说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络参与训练。
通过finetune微调训练对人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络等直接影响音色变化的网络进行训练,使得通过学习目标说话人数据集,使得目标说话人编码信息与其音色对应,最终得到具有目标说话人音色信息的神经网络结构。
对应的,本发明还提供一种音色克隆系统,包括:
多说话人数据采集与存储模块,用于制作多说话人数据集并进行存储
目标说话人数据采集模块,用于采集目标说话人音频信息生成目标说话人数据集;
第一训练模块,用于基于多说话人数据集训练对齐模型;
第二训练模块,用于基于多说话人数据集训练多说话人声码器模型;
第三训练模块,用于基于多说话人数据集训练多说话人语音合成模型;
目标人语音合成模型生成模块,用于基于目标说话人数据集和多说话人语音合成模型生成目标人语音合成模型;
合成模块,用于根据待合成文本和目标人语音合成模型生成目标人语音。
对应的,本发明还提供一种音色克隆装置,包括:处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时所述处理器执行上述优选方案任一项所述的方法。
对应的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述优选方案任一项所述的方法。
本发明的有益效果是:使用多说话人数据集进行语音合成模型的训练,包含多种音色,通过 finetune 微调训练,目标说话人的风格和音色能够被更好的学习;在编码阶段添加韵律信息,让 Skip Encoder 跳跃编码器学习到韵律标签对于发音行为的影响,从而在使用阶段可以通过指定韵律标签的方式来指定韵律节奏;使用时长预测模型来进行发音序列与频谱序列的对齐,加快语音生成的推理速度;在解码阶段添加音高和能量的预测和编码,目标人语音合成模型添加了音高和能量的预测与编码,将其作为一个单独的预测模块,有效的提高语音合成的效果。
附图说明
图1为实施例中音色克隆方法的一种流程示意图。
具体实施方式
下面通过实施例,并结合附图,对本发明的技术方案作进一步的说明。
实施例:
本实施例一种音色克隆方法,如图1所示:包括以下步骤:
S1:制作多说话人数据集并处理,具体包括以下步骤:
S11:制作录音文本,录音文本从网络公开文本中筛选得到,要求文本包含《新华字典》中的全部音节,覆盖汉语中 90%以上的双音节与三音节词汇,覆盖90%以上的汉语常见韵律段;
S12:选择多个录音人朗读录音文本并录音;在录音时需在专业录音环境下进行,录取的音频应为48kHz;
S13:基于录音和录音文本进行发音序列一致性校对,由人工进行发音序列与音频的一致性;
S14:提取各个录音对应的梅尔频谱特征、音高特征、能量特征,并对发音序列进行编码。进行梅尔频谱特征提取时,令
S2:利用多说话人数据集,使用开源工具 Montreal-forced-aligner训练对齐模型,使用对齐模型,提取多说话人数据集中发音序列对应的发音时长信息。
S3:制作目标说话人数据集并处理,具体包括以下步骤:
S31:录取目标说话人朗读指定文本的音频;录制时,目标说话人在安静环境下,阅读 10 句指定文本,使用手机录制 16kHz 采样率音频;
S32:手工标注文本的发音序列和韵律标签,利用开源工具 Montreal-forced-aligner 加载训练好的对齐模型, 对发音序列的发音时长进行提取,得到与音频对应的对齐信息;提取音频的梅尔频谱特征, 音高特征,能量特征。
S4:利用多说话人数据集训练多说话人语音合成模型,多说话人语音合成模型包括音素序列与韵律序列混合编码网络、说话人信息编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络、能量预测网络、音高编码网络、音高预测网络和Decoder解码网络。对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在Skip Encoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高特征和能量特征,预测得到的音高特征和能量特征由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码。
S5:利用多说话人数据集训练多说话人声码器模型,多说话人声码器模型为MultiBandMelgan声码器;
S6:利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型;该步骤采用finetune微调训练, 训练时固定多说话人语音合成模型中的音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络和音高编码网络,令说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络参与训练。其中,音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、能量编码网络和音高编码网络为信息编码网络,不参与finetune微调训练,使用多说话人数据集训练得到的参数信息,可保持整体发音效果的稳定性,不会因为目标说话人的小数据样本,导致整体的效果出现较大的波动,过度拟合。Duration时长预测网络直接影响说话人的风格,由于小样本的说话人风格存在较大波动,网络难以学习,所以这部分不参与finetune微调过程,在推理合成阶段,可借助其他在多说话人数据集中的风格特征,或使用默认风格特征。LengthRegulator对齐网络不涉及带梯度的参数,不参与训练过程。说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络直接影响音色的效果变化,这些网络通过学习目标说话人数据集,使得目标说话人编码信息与其音色对于,最终得到具有目标说话人音色信息的神经网络结构
S7:将待合成文本输入至目标人语音合成模型完成语音合成。
对应的本实施例还提供一种音色克隆系统,包括:
多说话人数据采集与存储模块,用于制作多说话人数据集并进行存储
目标说话人数据采集模块,用于采集目标说话人音频信息生成目标说话人数据集;
第一训练模块,用于基于多说话人数据集训练对齐模型;
第二训练模块,用于基于多说话人数据集训练多说话人声码器模型;
第三训练模块,用于基于多说话人数据集训练多说话人语音合成模型;
目标人语音合成模型生成模块,用于基于目标说话人数据集和多说话人语音合成模型生成目标人语音合成模型;
合成模块,用于根据待合成文本和目标人语音合成模型生成目标人语音。
本实施例还提供一种音色克隆装置,包括但不限于处理器以及存储计算机可执行指令的存储器,计算机可执行指令在被执行时所述处理器执行本实施例中音色克隆方法。
本实施例还提供一种,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述的音色克隆方法。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种音色克隆方法,其特征是:包括以下步骤:
S1:制作多说话人数据集并处理;
S2:利用多说话人数据集训练对齐模型;
S3:制作目标说话人数据集并处理;
S4:利用多说话人数据集训练多说话人声码器模型;
S5:利用多说话人数据集训练多说话人语音合成模型;
S6:利用目标说话人数据集和多说话人语音合成模型获取具有目标说话人音色的目标人语音合成模型;
S7:将待合成文本输入至目标人语音合成模型进行语音合成任务;
所述步骤S4中,对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在Skip Encoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高信息和能量信息,预测得到的音高信息和能量信息由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码。
2.根据权利要求1所述的一种音色克隆方法,其特征是:所述S1包括以下步骤:
S11:制作录音文本;
S12:选择多个录音人在标准录音环境下根据录音文本进行录音;
S13:基于录音和录音文本进行发音一致性校对,人工标注发音序列,添加韵律标签;
S14:提取各个录音对应的梅尔频谱特征、音高特征、能量信息,并对发音序列进行编码。
3.根据权利要求1所述的一种音色克隆方法,其特征是:所述步骤S3包括以下步骤:
S31:录取目标说话人朗读指定文本的音频以及文本对应的人工标注发音序列与韵律标签;
S32:提取音频的梅尔频谱特征、音高特征和能量特征;
S33:使用对齐模型获取发音序列的时长信息。
4.根据权利要求1所述的一种音色克隆方法,其特征是:所述多说话人语音合成模型包括音素序列与韵律序列混合编码网络、说话人信息编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络、能量预测网络、音高编码网络、音高预测网络和Decoder解码网络。
5.根据权利要求1所述的一种音色克隆方法,其特征是:所述多说话人声码器模型为MultiBandMelgan声码器。
6.根据权利要求4所述的一种音色克隆方法,其特征是:所述步骤S6中,对多说话人语音合成模型进行finetune微调训练,训练时固定多说话人语音合成模型中的音素序列与韵律序列混合编码网络、Skip Encoder跳跃编码网络、Duration时长预测网络、LengthRegulator对齐网络、能量编码网络和音高编码网络,令说话人信息编码网络、能量预测网络、音高预测网络和Decoder解码网络参与训练。
7.一种音色克隆系统,其特征是:包括:
多说话人数据采集与存储模块,用于制作多说话人数据集并进行存储;
目标说话人数据采集模块,用于采集目标说话人音频信息生成目标说话人数据集;
第一训练模块,用于基于多说话人数据集训练对齐模型;
第二训练模块,用于基于多说话人数据集训练多说话人声码器模型;对多说话人语音合成模型进行训练时,利用音素序列与韵律序列混合编码网络获取韵律信息, 在SkipEncoder跳跃编码网络中添加韵律信息获得第一阶段编码信息,第一阶段编码信息作为音高预测网络和能量预测网络的输入,预测当前的音高特征和能量特征,预测得到的音高特征和能量特征由音高编码网络和能量编码网络进行编码,获得第二阶段编码信息,将第一阶段编码信息和第二阶段编码信息进行相加后送入Decoder解码网络进行解码;
第三训练模块,用于基于多说话人数据集训练多说话人语音合成模型;
目标人语音合成模型生成模块,用于基于目标说话人数据集和多说话人语音合成模型生成目标人语音合成模型;
合成模块,用于根据待合成文本和目标人语音合成模型生成目标人语音。
8.一种音色克隆装置,其特征是:包括:处理器以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使用所述处理器执行权利要求1-7中任一项所述的方法。
9.一种计算机可读存储介质,其特征是:所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408975.8A CN112992162B (zh) | 2021-04-16 | 2021-04-16 | 一种音色克隆方法、系统、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110408975.8A CN112992162B (zh) | 2021-04-16 | 2021-04-16 | 一种音色克隆方法、系统、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112992162A CN112992162A (zh) | 2021-06-18 |
CN112992162B true CN112992162B (zh) | 2021-08-20 |
Family
ID=76340758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110408975.8A Active CN112992162B (zh) | 2021-04-16 | 2021-04-16 | 一种音色克隆方法、系统、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112992162B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113436591B (zh) * | 2021-06-24 | 2023-11-17 | 广州酷狗计算机科技有限公司 | 音高信息生成方法、装置、计算机设备及存储介质 |
CN114566143B (zh) * | 2022-03-31 | 2022-10-11 | 北京帝派智能科技有限公司 | 一种可局部修改内容的语音合成方法及语音合成系统 |
CN114913877B (zh) * | 2022-05-12 | 2024-07-19 | 平安科技(深圳)有限公司 | 一种声韵母发音时长预测方法、结构、终端及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6523893B2 (ja) * | 2015-09-16 | 2019-06-05 | 株式会社東芝 | 学習装置、音声合成装置、学習方法、音声合成方法、学習プログラム及び音声合成プログラム |
US20190019500A1 (en) * | 2017-07-13 | 2019-01-17 | Electronics And Telecommunications Research Institute | Apparatus for deep learning based text-to-speech synthesizing by using multi-speaker data and method for the same |
CN109637551A (zh) * | 2018-12-26 | 2019-04-16 | 出门问问信息科技有限公司 | 语音转换方法、装置、设备及存储介质 |
CN110033755A (zh) * | 2019-04-23 | 2019-07-19 | 平安科技(深圳)有限公司 | 语音合成方法、装置、计算机设备及存储介质 |
CN111048064B (zh) * | 2020-03-13 | 2020-07-07 | 同盾控股有限公司 | 基于单说话人语音合成数据集的声音克隆方法及装置 |
CN111681639B (zh) * | 2020-05-28 | 2023-05-30 | 上海墨百意信息科技有限公司 | 一种多说话人语音合成方法、装置及计算设备 |
CN112185340B (zh) * | 2020-10-30 | 2024-03-15 | 网易(杭州)网络有限公司 | 语音合成方法、语音合成装置、存储介质与电子设备 |
CN112435650B (zh) * | 2020-11-11 | 2022-04-15 | 四川长虹电器股份有限公司 | 一种多说话人、多语言的语音合成方法及系统 |
CN112634856B (zh) * | 2020-12-10 | 2022-09-02 | 思必驰科技股份有限公司 | 语音合成模型训练方法和语音合成方法 |
-
2021
- 2021-04-16 CN CN202110408975.8A patent/CN112992162B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112992162A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102231278B (zh) | 实现语音识别中自动添加标点符号的方法及系统 | |
CN112992162B (zh) | 一种音色克隆方法、系统、装置及计算机可读存储介质 | |
CN109817197B (zh) | 歌声生成方法、装置、计算机设备和存储介质 | |
CN116364055B (zh) | 基于预训练语言模型的语音生成方法、装置、设备及介质 | |
WO2014046789A1 (en) | System and method for voice transformation, speech synthesis, and speech recognition | |
CN112908294B (zh) | 一种语音合成方法以及语音合成系统 | |
WO2023279976A1 (zh) | 语音合成方法、装置、设备及存储介质 | |
CN112786018A (zh) | 语音转换及相关模型的训练方法、电子设备和存储装置 | |
Jain et al. | A text-to-speech pipeline, evaluation methodology, and initial fine-tuning results for child speech synthesis | |
Gudnason et al. | Data-driven voice source waveform analysis and synthesis | |
Kim | Singing voice analysis/synthesis | |
Haque et al. | Modification of energy spectra, epoch parameters and prosody for emotion conversion in speech | |
Zhang et al. | AccentSpeech: Learning accent from crowd-sourced data for target speaker TTS with accents | |
Nazir et al. | Deep learning end to end speech synthesis: A review | |
Hsu | Synthesizing personalized non-speech vocalization from discrete speech representations | |
Thomas et al. | Data-driven voice soruce waveform modelling | |
CN116110369A (zh) | 一种语音合成方法和装置 | |
CN114495896A (zh) | 一种语音播放方法及计算机设备 | |
CN114267326A (zh) | 语音合成系统的训练方法、装置及语音合成方法、装置 | |
i Barrobes | Voice Conversion applied to Text-to-Speech systems | |
CN113555001B (zh) | 歌声合成方法、装置、计算机设备及存储介质 | |
CN117711374B (zh) | 一种视听一致个性化语音合成系统、合成方法及训练方法 | |
Boco et al. | An End to End Bilingual TTS System for Fongbe and Yoruba | |
Bous | A neural voice transformation framework for modification of pitch and intensity | |
Peng et al. | Singing Voice Conversion Between Popular Music and Chinese Opera Based on VITS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |