CN116312466B - 基于少量样本的说话人适应方法、语音翻译方法和系统 - Google Patents
基于少量样本的说话人适应方法、语音翻译方法和系统 Download PDFInfo
- Publication number
- CN116312466B CN116312466B CN202310580319.5A CN202310580319A CN116312466B CN 116312466 B CN116312466 B CN 116312466B CN 202310580319 A CN202310580319 A CN 202310580319A CN 116312466 B CN116312466 B CN 116312466B
- Authority
- CN
- China
- Prior art keywords
- speaker
- text
- voice
- frequency spectrum
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013519 translation Methods 0.000 title claims abstract description 37
- 230000006978 adaptation Effects 0.000 title claims abstract description 33
- 238000001228 spectrum Methods 0.000 claims abstract description 102
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 89
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 89
- 238000007781 pre-processing Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 description 15
- 230000008569 process Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000012952 Resampling Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000012966 insertion method Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音合成技术领域,具体公开了一种基于少量样本的说话人适应方法、语音翻译方法和系统,包括获取具有文本标注的语音数据,对语音数据进行预处理生成梅尔频谱;构建个性化语音合成模型,将梅尔频谱和文本输入个性化语音合成模型中获得预测梅尔频谱;基于梅尔频谱和预测梅尔频谱预训练个性化语音合成模型,并进行微调;获取目标说话人的语音和任意文本信息,对目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;该方法将语音中的内容特征和话人特征分离开,解决少量样本语音合成的说话人相似度低的问题。
Description
技术领域
本发明涉及语音合成技术领域,具体涉及一种基于少量样本的说话人适应方法、语音翻译方法和系统。
背景技术
少量样本说话人适应旨在利用少量目标说话人语音-文本对,来合成目标说话人的任意语音;而训练端到端TTS(语音合成)系统需要大量的文本-音频配对数据和高质量的录音,导致收集足够的语音数据的成本太高;因此,将TTS模型适应于具有少量样本的说话人自适应是近年来学术界和工业界的研究热点;目前的主流方法包括说话人自适应和说话人编码。
说话人自适应方法是使用少量的注册样本在训练好的多说话人TTS模型的基础上进行微调,但是,该方法通常需要至少上千步的微调才能达到高质量的自适应效果,很难部署到移动设备;而说话人编码方法为注册样本提取说话人向量,之后训练好的TTS模型可以以该说话人向量为条件输入输出指定用户的语音,然而,说话人编码器常常受到可见说话人和不可见说话人之间泛化差异的影响而表现欠佳,导致合成的语音和自己本身的语音的相似性较低。
发明内容
针对上述问题,本发明的一个目的是提供一种基于少量样本的说话人适应方法,该方法基于多颗粒度编码结构来实现少量样本说话人自适应,使用多颗粒度编码结构提取用户语音信号中相应的内容特征和说话人特征;将语音中的内容特征和包含音色、发音特色、停顿的说话人特征分离开,能解决少量样本语音合成的说话人相似度低的问题。
本发明的第二个目的是提供一种基于少量样本的说话人适应系统。
本发明的第三个目的是提供一种语音翻译方法,该方法对目标说话人的母语语音进行声学特征提取,将母语语音中的内容特征和包含音色、发音特色、停顿的说话人身份特征分离开,再将翻译得到的目标语言文本和说话人特征相结合,对目标语言文本进行个性化语音合成,达到个性化语音翻译的效果。
本发明的第四个目的是提供一种语音翻译系统。
本发明所采用的第一个技术方案是:一种基于少量样本的说话人适应方法,包括以下步骤:
S100:获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;
S200:构建个性化语音合成模型,将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;
S300:基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;
S400:获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;
其中,所述步骤S200包括以下子步骤:
S210:将所述梅尔频谱输入到预处理网络中,获得预处理结果;以及通过GRU模块对所述预处理结果进行编码,从而获得隐藏层特征;
S220:将所述预处理结果输入多颗粒度说话人编码器中,从而获得说话人特征;以及将所述隐藏层特征输入多颗粒度内容编码器中,从而获得内容特征;
S230:将所述内容特征和所述说话人特征输入语音特征重构模块中,从而获得重构语音特征;
S240:将所述文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;
S250:将所述输出结果与文本特征进行拼接后输入变量适配器中,从而获得第一隐藏特征;
S260:将所述第一隐藏特征输入梅尔谱图解码器中,从而获得预测梅尔频谱。
优选地,所述步骤S100中的预处理包括:将所述语音数据的语音波形通过短时傅立叶变换以及梅尔频谱的转换,生成梅尔频谱。
优选地,所述步骤S220中的多颗粒度内容编码器和多颗粒度说话人编码器均包括多颗粒度特征编码器,所述多颗粒度特征编码器含有4个不同尺度卷积,分别为1×1、3×3、5×5和7×7;3×3、5×5和7×7卷积后均依次连接有组归一化层、GeLU激活函数和带注意力机制的统计池化层。
优选地,所述步骤S230包括:
所述内容特征经过语音特征重构模块中的实例归一化层,获得去除均值及方差的内容特征;
所述说话人特征经过语音特征重构模块中的全连接层,获得新均值和新方差;
将所述新均值和新方差替换到所述去除均值及方差的内容特征中,从而获得重构语音特征。
优选地,所述步骤S240包括:
将所述重构语音特征作为参考注意模块的K及V;以及将所述文本特征与说话人特征进行拼接后,作为参考注意模块的Q;将Q、K和V输入参考注意模块,以获得参考注意模块输出的输出结果。
优选地,所述步骤S300包括:
使用均方误差对预测梅尔频谱和梅尔频谱进行损失计算,基于损失对个性化语音合成模型进行预训练直至收敛,获得预训练好的个性化语音合成模型。
本发明所采用的第二个技术方案是:一种基于少量样本的说话人适应系统,包括预处理模块、模型构建模块、模型训练模块和个性化语音合成模块;
所述预处理模块用于获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;
所述模型构建模块用于构建个性化语音合成模型,所述个性化语音合成模型包括预处理网络、GRU模块、多颗粒度内容编码器、多颗粒度说话人编码器、语音特征重构模块、参考注意模块、音素编码器、变量适配器和梅尔谱图解码器;将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;
所述模型训练模块用于基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;
所述个性化语音合成模块用于获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音。
优选地,所述个性化语音合成模型执行以下步骤以获得预测梅尔频谱:
S210:将所述梅尔频谱输入到所述预处理网络中,获得预处理结果;以及通过所述GRU模块对所述预处理结果进行编码,从而获得隐藏层特征;
S220:将所述预处理结果输入所述多颗粒度说话人编码器中,从而获得说话人特征;以及将所述隐藏层特征输入所述多颗粒度内容编码器中,从而获得内容特征;
S230:将所述内容特征和所述说话人特征输入语音特征重构模块中,从而获得重构语音特征;
S240:将所述文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;
S250:将所述输出结果与文本特征进行拼接后输入变量适配器中,从而获得第一隐藏特征;
S260:将所述第一隐藏特征输入梅尔谱图解码器中,从而获得预测梅尔频谱。
本发明所采用的第三个技术方案是:一种语音翻译方法,包括以下步骤:
S10:获取待翻译文本的用户语音信号;
S20:将待翻译文本翻译为目标语言文本;
S30:将所述用户语音信号和目标语言文本输入到如第二个技术方案中所述的基于少量样本的说话人适应系统中,从而获得目标语音。
本发明所采用的第四个技术方案是:一种语音翻译系统,包括数据获取模块、文本翻译模块和语音合成模块;
所述数据获取模块用于获取待翻译文本的用户语音信号;
所述文本翻译模块用于将待翻译文本翻译为目标语言文本;
所述语音合成模块包括第二个技术方案中所述的基于少量样本的说话人适应系统,用于根据所述用户语音信号和目标语言文本获得目标语音。
上述技术方案的有益效果:
(1)本发明公开的一种基于少量样本的说话人适应方法基于多颗粒度编码结构来实现少量样本说话人自适应,使用多颗粒度编码结构提取用户语音信号中相应的内容特征和说话人特征;并使用经IN处理后的内容嵌入(即去除均值及方差的内容特征)和经Linear处理后的说话人嵌入(即新均值和新方差)来重构语音特征,来增强和验证多尺度编码结构的提取特征的能力。
(2)本发明使用多颗粒度内容编码器和多颗粒度说话人编码器共同训练后,能够达到良好的提取说话人特征的效果;有了说话人特征的辅助,可以优化语音识别及语音合成的结果,使文本表达更加准确,提高语音合成结果的流畅性及说话人相似度,实现同声传译的功能,本发明可应用于语音个性化翻译领域,但不仅限于该领域。
(3)本发明公开的一种语音翻译方法对目标说话人的母语语音进行声学特征提取,并将母语语音中的内容特征和包含音色、发音特色、停顿的说话人特征分离开,再将翻译得到的目标语言文本和说话人特征相结合,对目标语言文本进行个性化语音合成,达到个性化语音翻译的效果。
(4)相较于传统的语音翻译无法很好的捕捉说话人的语气变化,从而无法正确表达说话人的原意;同时传统语音无法针对不同地区的语言特色,对同一单词的发音做出变化,发音单一;本发明在翻译的语音合成过程中,根据说话人的语速、停顿、音调和音色的不同,对目标语言进行个性化语音合成,达到个性化语音翻译的效果。
附图说明
图1为本发明的一个实施例提供的一种基于少量样本的说话人适应方法的流程框图;
图2为本发明一个实施例提供的个性化语音合成模型的结构示意图;
图3为本发明一个实施例提供的多颗粒度编码结构的示意图;
图4为本发明一个实施例提供的不同语音合成方法的对比结果;
图5为本发明一个实施例提供的基于少量样本的说话人适应系统的结构示意图;
图6为本发明的一个实施例提供的一种语音翻译方法的流程示意图;
图7为本发明的一个实施例提供的一种语音翻译系统的结构示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理,但不能用来限制本发明的范围,即本发明不限于所描述的优选实施例,本发明的范围由权利要求书限定。
在本发明的描述中,需要说明的是,除非另有说明,“多个”的含义是两个或两个以上;术语“第一”“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性;对于本领域的普通技术人员而言,可视具体情况理解上述术语在本发明中的具体含义。
实施例一
如图1所示,本发明的一个实施例提供了一种基于少量样本的说话人适应方法,包括以下步骤:
S100:获取具有文本标注的语音数据,对语音数据进行预处理,以生成梅尔频谱(即声学特征);
(1)从开源纯净语音数据集中收集、获取具有文本标注的语音数据;
(2)对语音数据进行预处理,包括:将语音数据的语音波形通过短时傅立叶变换(STFT)以及梅尔频谱的转换,以生成梅尔频谱。
根据表1中的参数先对语音数据进行重采样,将所有语音数据的采样率转换到22050HZ,将重采样后的语音数据进行0.97的预加重处理;然后通过短时傅立叶变换(STFT)算法进行处理,帧移为256,窗长和帧长都为1024;最后进行梅尔频谱的转换获得梅尔频谱,梅尔滤波器采用80个的梅尔滤波器组,从0的最小频率提升到8000的最大频率,用以跟HiFi-GAN声码器的设定保持一致。
表1 音频参数
S200:构建个性化语音合成模型;将梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;
如图2所示,个性化语音合成模型包括预处理网络、GRU模块、多颗粒度内容编码器、多颗粒度说话人编码器、语音特征重构模块、参考注意模块、音素编码器、变量适配器和梅尔谱图解码器;
S210:将梅尔频谱(即梅尔谱图)输入到预处理网络中,获得预处理结果;预处理网络由两个二维卷积层组成,其中包含512个形状为5×1的滤波器;通过3个GRU模块(即门控循环单元)对预处理结果进行编码,得到隐藏层特征。
S220:将预处理结果输入多颗粒度说话人编码器,从而获得说话人特征;以及将隐藏层特征输入多颗粒度内容编码器,从而获得内容特征。
为了同时兼顾局部与整体,多颗粒度内容编码器和多颗粒度说话人编码器的结构相同,均包括如图3所示的多颗粒度特征编码器,多颗粒度特征编码器含有4个不同尺度卷积,四个卷积分别为1×1,3×3,5×5,7×7;除了1×1卷积之外,其他的三个尺度卷积后均依次连接有组归一化层(即GroupNorm)、GeLU激活函数(即高斯误差损失单元)和带注意力机制的统计池化层(即Attentive statistics pooling);其他的三个尺度卷积后的输出通过以下公式表示:
Xi尺度特征=As pooling(GeLU(GroupNorm(Convi尺度(X第一隐藏特征)))),
X多颗粒度特征=X1尺度特征+X2尺度特征+X3尺度特征+X4尺度特征,
式中,Xi尺度特征为不同尺度卷积的输出,i=1~4;X第一隐藏特征为多颗粒度内容编码器或多颗粒度说话人编码器的输入;X多颗粒度特征为多颗粒度内容编码器或多颗粒度说话人编码器的输出;X1尺度特征、X2尺度特征、X3尺度特征、X4尺度特征分别为第一、二、三、四尺度卷积的输出。
本发明使用Attentive statistics pooling进行池化操作,Attentivestatistics pooling中包含注意力模型,它使用注意力机制赋予不同的帧不同的权重,并且同时生成加权平均数、加权标准差;在一段语音中,往往某些帧的帧级特征比其他帧的特征更为独特重要,因此本发明使用attention赋予每帧特征不同的权值;具体过程通过以下公式表示:
,
式中,为注意力模型的输出;/>表示非线性激活函数,例如tanh或ReLU函数;W和b为线性激活函数的参数;/>为隐藏层特征,t= 1,...,T,T为总帧数;k、v为注意力模型的参数;T为转置。
再用softmax将标准化,具体公式如下所示:
,
式中,为标准化后的输出,即不同帧级特征对应的权值;/>为注意力模型的输出;t为当前帧;T为总帧数。
最后通过以下公式将每帧特征进行加权求和:
,
式中,为加权平均值;t为当前帧;T为总帧数;/>为不同帧级特征对应的权值;为隐藏层特征。
如下式所示,Attentive statistics pooling同时考虑了attention与标准差:
,
式中,为加权标准差;t为当前帧;T为总帧数;/>为不同帧级特征对应的权值;为隐藏层特征;⊙表示哈达玛乘积;/>为加权平均值。
S230:将内容特征和说话人特征输入语音特征重构模块中,从而获得重构语音特征;
内容特征经过语音特征重构模块中的实例归一化(即IN,Instance Norm)层,去除内容特征的均值及方差进行标准化;标准化过程如下式所示:
,
,
,
式中,μ为内容特征的均值;m为内容特征的维度;x i 为内容特征;i为维度的序号;δ 2为内容特征的方差;为去除均值及方差的内容特征;/>为为了避免方差为0而加入的微小正数,例如为0.001。
说话人特征经过语音特征重构模块中的全连接层(即Linear层)的线性变换后,从而获得新均值和新方差;新均值和新方差通过以下公式表示:
,
,
式中,为新均值;x为拼接后的内容特征,x=x 1+x 2+...+x i ,x i 为内容特征;/>为新方差。
将新均值和新方差替换到去除均值及方差的内容特征中,从而获得重构语音特征;具体过程如下式所示:
,
式中,为重构语音特征;/>为去除均值及方差的内容特征;/>为新方差;/>为微小正数;/>为新均值。
为了验证和提高多颗粒度编码器提取特征的能力,本发明基于多颗粒度内容编码器和多颗粒度说话人编码器的输出结果进行重构语音特征。
S240:将所述文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;
将重构语音特征作为参考注意模块的K及V;将文本(即文本序列)输入音素编码器,从而输出文本特征;将文本特征与说话人特征进行拼接后,作为参考注意模块的Q;将Q、K和V输入参考注意模块,以获得输出结果。
参考注意模块包括第一MatMul层、Scale层、Softmax层和第二MatMul层,K和O先输入第一MatMul层,再经过Scale层和Softmax层,与V一同输入第二MatMul层,第二MatMul层的输出即为参考注意模块输出的特征。
S250:将参考注意模块输出的输出结果与音素编码器输出的文本特征进行拼接后,输入变量适配器,从而获得第一隐藏特征。
S260:将第一隐藏特征输入梅尔谱图解码器,从而获得预测梅尔频谱(即预测梅尔谱图)。
S300:基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;
(1)预训练;
使用均方误差(MSE)对预测梅尔频谱和梅尔频谱进行损失计算,损失权重的系数为1;基于损失对个性化语音合成模型进行预训练直至收敛,获得预训练好的个性化语音合成模型。
本发明在NVIDIA GeForce GTX 1080 GPU上进行250K步迭代预训练个性化语音合成模型,批处理大小为16;采用Adam优化器,β1=0.9,β2=0.98;其中4000次迭代前采用预热学习策略;共有约12000条语音数据对参与预训练;另有8个人作为目标未知说话人,不参与预训练,用作后续微调及测试用数据。
(2)使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;
获取具有文本标注的少量目标未知说话人语音数据,对该语音数据进行预处理以获得梅尔频谱;将梅尔频谱和文本输入预训练好的个性化语音合成模型中,对预训练好的个性化语音合成模进行微调,从而获得针对于少量样本目标说话人的微调模型,即获得训练好的个性化语音合成模型。
进一步的,在一个实施例中,还包括对训练好的个性化语音合成模型进行测试并分析;
选取8个未知说话人的参考音频及需要合成的文本数据,进行测试;并且邀请15名母语者进行主观评测,从合成的语音质量(即自然度主观意见得分)以及语音说话人相似度(即相似度主观意见得分)两方面来评价;选用国际标准的5分打分制,从0到5依次是:非常差,情感与目标情感完全不贴切,情感表现力极差;很差,情感与目标情感基本贴切,情感表现力极差;中等,情感与目标情感较贴切,情感表现力较好;良好,情感与目标情感较贴切,情感表现力充分;优秀,情感与目标情感贴切,情感表现力突出;每0.5分为1个间隔。
如图4所示,在实验评测中,将本发明中的方法(即OURS)与两种典型的同样基于Fastspeech2的定长说话人嵌入方法(GMVAE和CDFSE)进行了比较;本发明使用三种模型对已知说话人和未知说话人进行语音合成;从图5可以看出,本发明提出的方法(即OURS)在说话人相似度方面优于其他两个基线,本发明的方法对已知说话人的相似度主观意见得分达到了4.15,对未知说话人的相似度主观意见得分达到了3.73。
S400:获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;
使用声码器将预测梅尔频谱转化为波形序列,从而生成带有原说话人特色的目标语音,实现了个性化语音合成;声码器使用采用训练完备的HiFi-GAN通用版来生成波形序列。
实施例二
如图5所示,本发明的一个实施例提供了一种基于少量样本的说话人适应系统,包括预处理模块、模型构建模块、模型训练模块和个性化语音合成模块;
所述预处理模块用于获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;
所述模型构建模块用于构建个性化语音合成模型,所述个性化语音合成模型包括预处理网络、GRU模块(即门控循环单元)、多颗粒度内容编码器、多颗粒度说话人编码器、语音特征重构模块、参考注意模块、音素编码器、变量适配器和梅尔谱图解码器;将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;
所述模型训练模块用于基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;
所述个性化语音合成模块用于获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音。
实施例三
如图6所示,本发明的一个实施例提供了一种语音翻译方法,包括以下步骤:
S10:获取待翻译文本的用户语音信号;
采音装置中的麦克风阵列采集待翻译文本的用户的音频信号,通过对采集的音频信号进行语音增强处理,从而获得用户语音信号。
S20:将待翻译文本翻译为目标语言文本;
将待翻译文本输入到语音翻译模型(即文本翻译单元)中,从而获得目标语言文本;语音翻译模型基于神经机器翻译算法实现,语音翻译模型例如为端到端的Transformer模型、基于注意力机制的seq2seq模型、Helsinki-NLP模型等。
例如语音翻译模型采用端到端的Transformer模型,将待翻译文本加位置信息后输入Transformer模型,经过Transformer模型中的FFT模块和自注意力机制,实现由待翻译文本到目标语言文本的翻译。
S30:将所述用户语音信号和目标语言文本输入所述基于少量样本的说话人适应系统中,从而获得目标语音。
所述用户语音信号经过实施例2中的基于少量样本的说话人适应系统中的个性化语音合成模块,获得梅尔频谱;将梅尔频谱和目标语言文本输入所述基于少量样本的说话人适应系统中的训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成目标语言文本所对应的目标语音;即个性化语音合成模块将母语语音(即用户语音信号)中的内容特征和包含音色、发音特色、停顿的说话人特征分离开;再将翻译得到的目标语言文本和说话人特征相结合,对目标语言文本进行个性化语音合成,获得目标语言文本所对应的目标语音,达到个性化语音翻译的效果。
实施例四
如图7所示,本发明的一个实施例提供了一种语音翻译系统,包括数据获取模块、文本翻译模块和语音合成模块;
所述数据获取模块用于获取待翻译文本的用户语音信号;
所述文本翻译模块用于将待翻译文本翻译为目标语言文本;
所述语音合成模块包括实施例2中所述的基于少量样本的说话人适应系统,用于根据所述用户语音信号和目标语言文本获得目标语音。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种基于少量样本的说话人适应方法,其特征在于,包括以下步骤:
S100:获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;
S200:构建个性化语音合成模型,将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;
S300:基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;
S400:获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;
其中,所述步骤S200包括以下子步骤:
S210:将所述梅尔频谱输入到预处理网络中,获得预处理结果;以及通过GRU模块对所述预处理结果进行编码,从而获得隐藏层特征;
S220:将所述预处理结果输入多颗粒度说话人编码器中,从而获得说话人特征;以及将所述隐藏层特征输入多颗粒度内容编码器中,从而获得内容特征;
S230:将所述内容特征和所述说话人特征输入语音特征重构模块中,从而获得重构语音特征;
S240:将文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;
S250:将所述输出结果与文本特征进行拼接后输入变量适配器中,从而获得第一隐藏特征;
S260:将所述第一隐藏特征输入梅尔谱图解码器中,从而获得预测梅尔频谱。
2.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S100中的预处理包括:将所述语音数据的语音波形通过短时傅立叶变换以及梅尔频谱的转换,生成梅尔频谱。
3.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S220中的多颗粒度内容编码器和多颗粒度说话人编码器均包括多颗粒度特征编码器,所述多颗粒度特征编码器含有4个不同尺度卷积,分别为1×1、3×3、5×5和7×7;3×3、5×5和7×7卷积后均依次连接有组归一化层、GeLU激活函数和带注意力机制的统计池化层。
4.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S230包括:
所述内容特征经过语音特征重构模块中的实例归一化层,获得去除均值及方差的内容特征;
所述说话人特征经过语音特征重构模块中的全连接层,获得新均值和新方差;
将所述新均值和新方差替换到所述去除均值及方差的内容特征中,从而获得重构语音特征。
5.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S240包括:
将所述重构语音特征作为参考注意模块的K及V;以及将所述文本特征与说话人特征进行拼接后,作为参考注意模块的Q;将Q、K和V输入参考注意模块,以获得参考注意模块输出的输出结果。
6.根据权利要求1所述的说话人适应方法,其特征在于,所述步骤S300包括:
使用均方误差对预测梅尔频谱和梅尔频谱进行损失计算,基于损失对个性化语音合成模型进行预训练直至收敛,获得预训练好的个性化语音合成模型。
7.一种基于少量样本的说话人适应系统,其特征在于,包括预处理模块、模型构建模块、模型训练模块和个性化语音合成模块;
所述预处理模块用于获取具有文本标注的语音数据,对所述语音数据进行预处理,以生成梅尔频谱;
所述模型构建模块用于构建个性化语音合成模型,所述个性化语音合成模型包括预处理网络、GRU模块、多颗粒度内容编码器、多颗粒度说话人编码器、语音特征重构模块、参考注意模块、音素编码器、变量适配器和梅尔谱图解码器;将所述梅尔频谱和文本输入所述个性化语音合成模型中,从而获得预测梅尔频谱;
所述模型训练模块用于基于所述梅尔频谱和所述预测梅尔频谱对所述个性化语音合成模型进行预训练,以及使用具有文本标注的目标未知说话人语音数据,对预训练好的个性化语音合成模型进行微调,以获得训练好的个性化语音合成模型;
所述个性化语音合成模块用于获取目标说话人的语音和任意文本信息,对所述目标说话人的语音进行预处理以获得梅尔频谱;将梅尔频谱和任意文本信息输入所述训练好的个性化语音合成模型中,以获得预测梅尔频谱;基于预测梅尔频谱生成任意文本信息所对应的目标语音;
其中,所述个性化语音合成模型执行以下步骤以获得预测梅尔频谱:
S210:将所述梅尔频谱输入到所述预处理网络中,获得预处理结果;以及通过所述GRU模块对所述预处理结果进行编码,从而获得隐藏层特征;
S220:将所述预处理结果输入所述多颗粒度说话人编码器中,从而获得说话人特征;以及将所述隐藏层特征输入所述多颗粒度内容编码器中,从而获得内容特征;
S230:将所述内容特征和所述说话人特征输入语音特征重构模块中,从而获得重构语音特征;
S240:将所述文本输入音素编码器中,以获得文本特征;将所述重构语音特征、文本特征和说话人特征输入参考注意模块中,以获得输出结果;
S250:将所述输出结果与文本特征进行拼接后输入变量适配器中,从而获得第一隐藏特征;
S260:将所述第一隐藏特征输入梅尔谱图解码器中,从而获得预测梅尔频谱。
8.一种语音翻译方法,其特征在于,包括以下步骤:
S10:获取待翻译文本的用户语音信号;
S20:将待翻译文本翻译为目标语言文本;
S30:将所述用户语音信号和目标语言文本输入到如权利要求7所述的说话人适应系统中,从而获得目标语音。
9.一种语音翻译系统,其特征在于,包括数据获取模块、文本翻译模块和语音合成模块;
所述数据获取模块用于获取待翻译文本的用户语音信号;
所述文本翻译模块用于将待翻译文本翻译为目标语言文本;
所述语音合成模块包括如权利要求7所述的说话人适应系统,用于根据所述用户语音信号和目标语言文本获得目标语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580319.5A CN116312466B (zh) | 2023-05-23 | 2023-05-23 | 基于少量样本的说话人适应方法、语音翻译方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310580319.5A CN116312466B (zh) | 2023-05-23 | 2023-05-23 | 基于少量样本的说话人适应方法、语音翻译方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116312466A CN116312466A (zh) | 2023-06-23 |
CN116312466B true CN116312466B (zh) | 2023-08-15 |
Family
ID=86820730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310580319.5A Active CN116312466B (zh) | 2023-05-23 | 2023-05-23 | 基于少量样本的说话人适应方法、语音翻译方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116312466B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN114360493A (zh) * | 2021-12-15 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、介质、计算机设备和程序产品 |
CN115713933A (zh) * | 2022-11-15 | 2023-02-24 | 南京邮电大学 | 基于互信息量和se注意力机制的跨语种语音转换方法 |
CN116030792A (zh) * | 2023-03-30 | 2023-04-28 | 澳克多普有限公司 | 用于转换语音音色的方法、装置、电子设备和可读介质 |
CN116030786A (zh) * | 2023-02-02 | 2023-04-28 | 澳克多普有限公司 | 一种基于自适应注意力机制的语音合成方法和系统 |
-
2023
- 2023-05-23 CN CN202310580319.5A patent/CN116312466B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019222591A1 (en) * | 2018-05-17 | 2019-11-21 | Google Llc | Synthesis of speech from text in a voice of a target speaker using neural networks |
CN114360493A (zh) * | 2021-12-15 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、介质、计算机设备和程序产品 |
CN115713933A (zh) * | 2022-11-15 | 2023-02-24 | 南京邮电大学 | 基于互信息量和se注意力机制的跨语种语音转换方法 |
CN116030786A (zh) * | 2023-02-02 | 2023-04-28 | 澳克多普有限公司 | 一种基于自适应注意力机制的语音合成方法和系统 |
CN116030792A (zh) * | 2023-03-30 | 2023-04-28 | 澳克多普有限公司 | 用于转换语音音色的方法、装置、电子设备和可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116312466A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462769B (zh) | 一种端到端的口音转换方法 | |
Song et al. | ExcitNet vocoder: A neural excitation model for parametric speech synthesis systems | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
Ranjard et al. | Unsupervised bird song syllable classification using evolving neural networks | |
Adiga et al. | Speech Enhancement for Noise-Robust Speech Synthesis Using Wasserstein GAN. | |
KR102272554B1 (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
CN110570842B (zh) | 基于音素近似度和发音标准度的语音识别方法及系统 | |
CN112614510A (zh) | 一种音频质量评估方法及装置 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN116364096B (zh) | 一种基于生成对抗网络的脑电信号语音解码方法 | |
Koizumi et al. | Miipher: A robust speech restoration model integrating self-supervised speech and text representations | |
Yu et al. | Reconstructing speech from real-time articulatory MRI using neural vocoders | |
Zahner et al. | Conversion from facial myoelectric signals to speech: a unit selection approach | |
KR20190135853A (ko) | 텍스트- 다중 음성 변환 방법 및 시스템 | |
Diener et al. | Investigating Objective Intelligibility in Real-Time EMG-to-Speech Conversion. | |
CN114283822A (zh) | 一种基于伽马通频率倒谱系数的多对一语音转换方法 | |
CN116312466B (zh) | 基于少量样本的说话人适应方法、语音翻译方法和系统 | |
Hsu | Synthesizing personalized non-speech vocalization from discrete speech representations | |
CN118135986A (zh) | 一种基于脑电的想象语音解码方法 | |
Lian et al. | ARVC: An Auto-Regressive Voice Conversion System Without Parallel Training Data. | |
CN112951256B (zh) | 语音处理方法及装置 | |
Kwon et al. | Effective parameter estimation methods for an excitnet model in generative text-to-speech systems | |
CN112992118B (zh) | 一种少语料的语音模型训练及合成方法 | |
Nikitaras et al. | Fine-grained noise control for multispeaker speech synthesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20230623 Assignee: Shenzhen Weiou Technology Co.,Ltd. Assignor: Ocdop Ltd. Contract record no.: X2023980048769 Denomination of invention: Speaker adaptation methods, speech translation methods, and systems based on a small number of samples Granted publication date: 20230815 License type: Common License Record date: 20231128 |
|
EE01 | Entry into force of recordation of patent licensing contract |