CN111243572A - 基于说话人博弈的多人语音转换方法与系统 - Google Patents
基于说话人博弈的多人语音转换方法与系统 Download PDFInfo
- Publication number
- CN111243572A CN111243572A CN202010035558.9A CN202010035558A CN111243572A CN 111243572 A CN111243572 A CN 111243572A CN 202010035558 A CN202010035558 A CN 202010035558A CN 111243572 A CN111243572 A CN 111243572A
- Authority
- CN
- China
- Prior art keywords
- speaker
- representation
- input
- acoustic
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 89
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 33
- 230000004913 activation Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000001131 transforming effect Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 5
- 230000009466 transformation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013461 design Methods 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000012360 testing method Methods 0.000 claims description 2
- 238000011084 recovery Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000006872 improvement Effects 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 101100508818 Mus musculus Inpp5k gene Proteins 0.000 description 2
- 101100366438 Rattus norvegicus Sphkap gene Proteins 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Electrically Operated Instructional Devices (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了一种基于说话人博弈的多人语音转换方法,包括以下步骤:训练时,首先使用常用的音频处理工具(如Librosa等)对所有说话人的语音数据进行声学特征的抽取,然后采用以下步骤进行模型训练:(1)鉴别器主要分为编码层和判别层,使用多层CNN堆叠的鉴别器的编码层逐步下采样得到当前声学特征输入的语义信息表示,并作为鉴别器的判别层的输入。本发明还提供了一种基于说话人博弈的多人语音转换系统。本发明的有益效果是:可直接建模转换关系,在充分考虑了说话人数量较多情况下捕捉说话人音色信息的难点,以多说话人博弈建模语音转换关系,可提供更加稳定、性能更好的转换效果。
Description
技术领域
本发明涉及语音转换方法,尤其涉及一种基于说话人博弈的多人语音转换方法与系统。
背景技术
随着计算机技术的发展以及语音处理技术的突破,语音在生活中发挥了重要的作用,如车载系统中的语音助手,安防系统中的声纹识别等,为人们的生活提供了极大的便利。而个性化语音生成是如今语音应用的热点。语音转换是个性化语音生成的一种重要技术。其中,语音转换是语音生成的一个重要子方向,其任务是在保证内容不变、仅改变音色的情况下,将一个人的语音转换成其他人的语音。对比语音合成技术,语音转换更容易通过保留源语音中的个性化内容,如韵律、情感,提供表现力更为丰富的语音。目前,在语音转换领域已经有着不少的研究,受到学术界和工业界的广泛关注。
传统的语音转换的主流方法依赖于内容平行语料,需要针对非等长语音进行动态时间规整。常见的转换方法有基于混合高斯模型的语音转换和基于长短时记忆网络的语音转换方法。但基于平行语料的传统语音转换方法对语料的要求影响了语音转换的推广,其语音动态规整的过程中易引入噪音,在该基础上建模多人语音转换有较大的模型代价,转换效果较差。
发明内容
为了解决现有技术中的问题,本发明提供了一种基于说话人博弈的多人语音转换方法与系统。
本发明提供了一种基于说话人博弈的多人语音转换方法,包括以下步骤:
训练时,首先使用常用的音频处理工具(如Librosa等)对所有说话人的语音数据进行声学特征的抽取,然后采用以下步骤进行模型训练:
(1)鉴别器主要分为编码层和判别层,使用多层CNN堆叠的鉴别器的编码层逐步下采样得到当前声学特征输入的语义信息表示,并作为鉴别器的判别层的输入;
(2)鉴别器的判别层计算当前输入语义信息的分类置信度(如当前输入声学特征是否属于转换得到的声学特征、当前输入声学特征的所属说话人类别);
(3)输入一个说话人的语音声学特征,固定生成器权重,通过上述步骤(1)、(2)各层的处理,得到鉴别器对该声学特征的分类置信度,以该分类置信度作为输出,结合说话人的语音声学特征的真实分类标签,利用说话人博弈框架进行训练,更新鉴别器权重;
(4)生成器主要分为编码层、残差层、解码层,使用多层CNN堆叠的生成器的编码层得到当前声学特征输入的语义信息表示,并作为生成器的残差层的输入;
(5)生成器的残差层对当前输入的语义信息表示进行再变换;
(6)生成器的解码层将输入进行多次上采样与将上采样所得表示与目标说话人类别信息使用基于门控机制的CNN层进行结合的运算,将原始输入表示变换到目标说话人的声学特征;
(7)输入一个说话人的语音声学特征以及随机采样得到的目标说话人类别,通过上述步骤(4)(5)(6)各层的处理得到一个目标说话人的声学特征表示,固定鉴别器权重,将所得转换声学特征输入鉴别器,通过上述步骤(1)、(2)各层的处理,得到鉴别器对该特征的分类置信度,
以该分类置信度作为输出,结合说话人的语音声学特征的真实分类标签,利用说话人博弈框架与循环一致性损失进行训练,更新生成器权重;
(8)以设定比例依次重复步骤(3)和步骤(7)的训练操作,直至模型收敛;
测试时,通过相同的声学特征预处理方式对输入说话人语音进行声学特征提取,将所得声学特征和目标说话人类别依照步骤(4)、(5)、(6)
各层得到目标说话人转换声学特征,最后使用声码器(如Griffin-Lim算法、WaveGlow算法)进行声学特征到语音音频的恢复。
作为本发明的进一步改进,在步骤(8)中,以5:1的比例依次重复步骤(3)和步骤(7)的训练操作,直至模型收敛。
作为本发明的进一步改进,步骤(1)中,考虑到声学特征中每个位置的相邻关联性,使用时序跳步为2的卷积神经网络对当前声学特征输入逐步下采样抽取语义信息表示:
(101)对输入的二维声学特征依次使用数量为[x,2x,4x,8x]和跳步数为t的卷积核组对表示进行卷积操作,t取大于等于2,在卷积的过程中,对于声学特征的每一个位置计算一个局部的深度表示;
(102)对每一个卷积核得到的特征向量通过LeakyReLU激活函数进行处理。
作为本发明的进一步改进,在步骤(2)中,考虑到语音转换中建模多说话人分布建模难点,使用基于多说话人博弈的训练框架设计鉴别器的判别层计算当前输入语义信息的分类置信度,主要包含如下两种方案:
第一种方案:
(201)对输入的局部深度表示以大小与局部深度表示维度大小一致、数量为1的卷积核计算当前特征图属于真实声学特征的置信度;
(202)记当前转换说话人数为N,对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度,转换的声学特征目标类别为N+1,而真实源声学特征则以其源说话人类别为目标类别;
(203)固定生成器权重,目标类别包括所属声学特征是否为真实和所属说话人源类别,分类器分类置信度包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度,利用目标类别和分类器分类置信度使用交叉熵进行训练;
第二种方案除以下步骤外所有可学习的权重均使用谱归一化进行约束:
(2001)记当前转换说话人数为N,对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度,转换的声学特征目标类别为N+1,而真实源声学特征则以其源说话人类别为目标类别。
(2002)固定生成器权重,目标类别包括所属声学特征是否为真实和所属说话人源类别,分类器分类置信度包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度,利用目标类别和分类器分类置信度使用交叉熵进行训练;
采用第一种方案或者第二种方案计算当前输入语义信息的分类置信度。
作为本发明的进一步改进,在步骤(4)中,考虑到语音转换中对转换前后声学特征位置一致性,转换前后每个位置的发音内容一致,生成器的编码层使用时序跳步为1的卷积神经网络对当前声学特征输入的语义信息表示:
(401)对输入的二维声学特征使用一个大小为k、数量为x的卷积核对声学特征进行卷积操作,k取大于3的奇数,在卷积的过程中,对于声学特征的每一个位置计算一个局部的深度表示;
(402)固定二维卷积核的大小为[w,h],w与后续t的设定相关,要求卷积前后大小可恢复,不产生丢失,依次使用数量为[x,2x,4x]和跳步数为([t,1],[t,1],[t,1])的卷积核组对表示进行卷积操作,其中,t取大于等于2的整数,在卷积操作中为避免位置信息的丢失,在时间维度上固定跳步数为1,在表示维度上进行系数为t的下采样;
(403)对每一个卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理。
作为本发明的进一步改进,在步骤(5)中,考虑到增加模型深度并避免梯度消失,生成器的残差层使用带残差连接的卷积神经网络对当前的语义信息表示进行再变换:
(501)对输入使用n组卷积核大小为w,数量为k的卷积核组进行表示的变换,单次卷积组包含y次卷积操作,前y-1次的卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理,第y次的卷积核得到的特征向量通过实例归一化进行处理;
(502)将经过卷积操作、归一化和激活函数的表示与原输入语义信息表示以残差连接进行叠加。
作为本发明的进一步改进,在步骤(6)中,考虑到生成对抗网络中上采样易出现棋盘阴影效应以及语义信息与说话人信息的选择性融合的特点,使用双线性插值算子和基于门控机制的CNN层所结合的运算,将原始输入表示变换到目标说话人的声学特征:
(601)对输入的二维声学语义表示使用一个双线性插值操作对前面下采样过的表示维度进行系数为t的上采样;
(602)使用Embedding层对条件输入进行映射得到条件表示;
(603)固定二维卷积核的大小为w,跳步数为1的卷积核组对语义表示得到语义门控信息gatedcontent;
(604)使用全连接层对条件表示进行变换得到条件门控信息gatedcondition;
(605)固定二维卷积核的大小为w,依次使用跳步数为1的卷积核组得到语义输出信息outputcontent;
(606)使用全连接层对条件表示进行变换得到条件输出信息outputcondition;
(607)使用门控机制将信息进行融合,分别使用sigmoid激活函数和tanh激活函数进行处理,通过如下计算方式σ(gatedcontent+gatedcontent)*tanh(outputcontent+outputcondition)得到;
(608)分别使用输出维度为4x、2x、x、1进行步骤(601)-(607)计算操作,最后得到目标说话人的声学特征
本发明还提供了一种基于说话人博弈的多人语音转换系统,包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述中任一项所述的方法。
本发明的有益效果是:可直接建模转换关系,在充分考虑了说话人数量较多情况下捕捉说话人音色信息的难点,以多说话人博弈建模语音转换关系,可提供更加稳定、性能更好的转换效果。
附图说明
图1为本发明一种基于说话人博弈的多人语音转换方法的框架图。
图2为本发明鉴别器基于CNN获取声学特征局部语义信息的流程图。
图3为本发明基于不同博弈架构融合判别全局语义信息的流程图。
图4为本发明生成器编码层基于时序跳步为1的CNN获取声学特征的局部语义信息的流程图。
图5为本发明生成器基于带残差连接的CNN再变换局部语义信息的流程图。
图6为本发明生成器基于带门控机制的CNN和双线性插值算子融合局部语义信息和条件信息重构得到目标说话人声学特征的流程图。
具体实施方式
下面结合附图说明及具体实施方式对本发明作进一步说明。
如图1所示本发明的具体实施方式是:基于说话人博弈的多人语音转换方法,其网络架构主要由鉴别器和生成器组成,鉴别器包括如下2层:
编码层:主要完成将输入的声学特征使用卷积方法获取特征的局部语义信息。
鉴别层:主要基于卷积神经网络将输入的局部语义信息按照所选择的说话人博弈的网络架构输出对应的判别信息。
生成器包括如下3层:
编码层:主要完成将输入的声学特征使用卷积方法获取特征的局部语义信息。
残差层:主要使用带残差的卷积神经网络将输入的局部语义信息进行进一步的信息变换。
解码层:主要使用带门控机制的卷积神经网络将输入的语义信息和目标类别所映射的条件表示进行融合并转换得到目标说话人的声学特征。
如图2所示具体为鉴别器编码层采用卷积方法获取声学特征的局部语义信息的流程图,包括以下几个步骤:
(1)对输入的二维声学特征依次使用数量为[x,2x,4x,8x](x常取64)和跳步数为t(通常取大于等于2)的卷积核组对表示进行卷积操作,在卷积的过程中,对于声学特征的每一个位置计算一个局部的深度表示;
(2)对每一个卷积核得到的特征向量通过LeakyReLU激活函数进行处理;
(3)重复上述(1)、(2)三次;
如图3所示,具体为鉴别器鉴别层采用卷积方法将局部语义信息的进行全局整合,依照选择的不同的说话人博弈架构计算分类,包括以下步骤:
第一种方案如图3a)所示,包含如下步骤:
(1)对输入的局部深度表示以大小与特征图大小一致、数量为1的卷积核计算当前特征图属于真实声学特征的置信度。
(2)记当前转换说话人数为N。对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度,转换的声学特征目标类别为N+1,而真实源声学特征则以其源说话人类别为目标类别。
(3)固定生成器权重,利用目标类别(包括所属声学特征是否为真实和所属说话人源类别)和分类器分类置信度(包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度)使用交叉熵进行训练。
第二种方案如图3b)所示,包含如下步骤:
(1)记当前转换说话人数为N。对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度,转换的声学特征目标类别为N+1,而真实源声学特征则以其源说话人类别为目标类别。
(2)固定生成器权重,利用目标类别(包括所属声学特征是否为真实和所属说话人源类别)和分类器分类置信度(包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度)使用交叉熵进行训练。
如图4所示,具体为生成器编码层采用卷积方法获取声学特征的局部语义信息的流程图,包括以下几个步骤:
(1)对输入的二维声学特征使用一个大小为k(k常取大于3的奇数,如7)、数量为x(x常取32)的卷积核对声学特征进行卷积操作,在卷积的过程中,对于声学特征的每一个位置计算一个局部的深度表示,固定二维卷积核的大小为[w,h](w、h常取4和3,w与后续t的设定相关,要求卷积前后大小可恢复,不产生丢失),依次使用数量为[x,2x,4x](x常取64)和跳步数为([t,1],[t,1],[t,1](其中t常取大于等于2的整数))的卷积核组对表示进行卷积操作,在卷积操作中为避免位置信息的丢失,在时间维度上固定跳步数为1,在表示维度上进行下采样;
(2)对每一个卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理;
(3)重复上述(1)、(2)三次得到最后的局部语义表示。
如图5所示,具体为生成器残差层采用带残差连接的卷积方法进一步变化局部语义信息的流程图,包括以下几个步骤:
(1)对输入使用n组卷积核大小为w(n可取4,w可取3),数量为k的卷积核组进行表示的变换(k可取256),单次卷积组包含y次卷积操作(y可取2),前y-1次的卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理,第y次的卷积核得到的特征向量通过实例归一化进行处理;
(2)将经过卷积操作、归一化和激活函数的表示与原输入语义信息表示以残差连接进行叠加;
(3)重复上述(1)、(2)三次得到最后的再变换局部语义表示。
如图6所示,具体为生成器解码层将上一步骤输入的局部语义信息和目标类别映射得到的条件表示采样带门控机制的CNN和双线性插值算子转换得到目标说话人声学特征的流程图,包括以下几个步骤:
(1)对输入的二维声学语义表示使用一个双线性插值操作对前面下采样过的表示维度进行系数为t(通常取大于等于2)的上采样;
(2)使用Embedding层对条件输入进行映射得到条件表示;
(3)固定二维卷积核的大小为w(w可取3),跳步数为1的卷积核组对语义表示得到语义门控信息(gatedcontent);
(4)使用全连接层对条件表示进行变换得到条件门控信息(gatedcondition);
(5)固定二维卷积核的大小为w(w可取3),依次使用跳步数为1的卷积核组得到语义输出信息(outputcontent);
(6)使用全连接层对条件表示进行变换得到条件输出信息(outputcondition);
(7)使用门控机制将信息进行融合,分别使用sigmoid激活函数和tanh激活函数进行处理,通过如下计算方式σ(gatedcontent+gatedcontent)*tanh(outputcontet+outputcondition)得到;
(8)分别使用输出维度为4x、2x、x、1(x可取32)进行(1)-(7)计算操作,最后得到目标说话人的声学特征。
本发明在深入地研究了现有的多人语音转换方法的基础上,设计了一种基于说话人博弈的多人语音转换方法。随着计算机技术以及语音处理技术的发展,语音在生活中发挥了重要的作用,如车载系统中的语音助手,安防系统中的声纹识别等,为人们的生活提供了极大的便利。而个性化语音生成是如今语音应用的热点。语音转换是个性化语音生成的一种重要技术,其任务是在保证内容不变、仅改变音色的情况下,将一个人的语音转换成其他人的语音。在多处任务和多处场景中,语音转换为个性化定制语音提供技术支持,发挥着重要作用,例如在医疗领域,能够辅助声带受损的患者正常发声;在语音合成领域中,可以结合已有的单一说话人语音合成引擎,将合成语音转换成具有较少语料的目标说话人等,受到了学术界和工业界的广泛关注。本发明包括两部分内容:1)基于说话人博弈的转换模型架构;2)基于星型生成对抗网络的语音转换方法。基于说话人博弈的转换模型架构包括以下两种:基于说话人博弈的辅助分类器生成对抗网络转换架构(如图1所示);基于类最大化激活与谱归一化的生成对抗网络转换架构(如图2所示)。以上两者的网络架构中,生成器均依照指定目标说话人类别将源语音对应的声学特征(一般为梅尔声谱图)转换为目标说话人声学特征。前者以双重博弈作为训练方法。第一重博弈以输入声学特征真假性作为博弈目标,鉴别器以正确分类声学特征的真假性作为训练目标,而生成器以极大化混淆鉴别器将生成的声学特征转换结果分类成真实样本为目标。第二重博弈以输入声学特征所属说话人的细粒度信息作为博弈目标,鉴别器以正确分类声学特征的所属说话人类别为训练目标,其中转换所得声学特征设定属于第N+1类(假设总类别记为N)。而生成器以极大化混淆鉴别器将转换的声学特征转换结果分类成所采样的转换类别为目标。后者直接以细粒度博弈作为训练目标。细粒度博弈以输入声学特征所属说话人的细粒度信息作为博弈目标,鉴别器以正确分类声学特征的所属说话人类别为训练目标,其中转换所得声学特征属于第N+1类(假设总类别记为N)。而生成器以极大化混淆鉴别器将转换的声学特征转换结果分类成所采样的转换类别为目标,在该框架下所有模型权重均以谱归一化进行约束。基于星型生成对抗网络的语音转换方法整体上采用深度神经生成对抗网络框架,由生成器与鉴别器组成。鉴别器主要分为2个模块(如图3所示):编码层和鉴别层,编码层层将原始声学特征梅尔声谱图进行深度局部语义表示,主要使用多层CNN(卷积神经网络,Convolutional NeuralNetwork)堆叠组成。而鉴别层则使用CNN对局部语义表示进行全局整合,并根据当前所选的不同的博弈的转换模型架构输出鉴别类别。生成器主要分为3个模块(如图4所示):编码层、残差层和解码层。其中,编码层层将原始声学特征梅尔声谱图进行深度语义表示,模型通过为不同说话人声学特征共享编码层可有效帮助声学特征所得语义表示中源说话人音色信息的解耦,主要使用多层CNN(卷积神经网络,Convolutional Neural Network)堆叠组成。残差层对上述所得语义表述进行再变换,可在加深网络、增强网络容量的同时避免梯度消失,使用多层带残差连接的CNN网络进行构建。最后解码层使用带上采样(Upsample)操作和基于带门控机制(Gated)的CNN层将所得语义表示与目标说话人类别经过向量映射层(Embedding)所映射得到的信息结合得到最后的转换声学特征。与传统语音转换对比,该转换方法继承了深度学习中无监督学习方法不需要依赖于平行语料的优势。与基于无监督学习算法的转换模型相比,该方法可直接建模转换关系,在充分考虑了说话人数量较多情况下捕捉说话人音色信息的难点,以多说话人博弈建模语音转换关系,可提供更加稳定、性能更好的转换效果。
本发明提供的一种基于说话人博弈的多人语音转换方法与系统,主要为个性化定制语音提供技术支持,如在电影配音产业,利用语音转换技术可以为影片提供跨语言配音并同时保持演员的音色不变,也可为语音领域相关处理任务提供数据增强,如鲁棒性语音识别、少语料语音合成。
本发明提供的一种基于说话人博弈的多人语音转换方法与系统,与常见的基于非平行语料的多人语音转换方法相比,要求同一个模型可建模足够多数量的说话人分布。简单的基于生成对抗网络的语音转换方法往往不能完成这样的转换任务。因此,在处理目标说话人数量较多的语音转换任务,需要综合任务特点从提高模型建模多说话人分布的能力出发,设计合理的处理方法。
本发明提供的一种基于说话人博弈的多人语音转换方法与系统,针对基于多说话人语音转换任务,从建模目标的特殊性出发,设计了一种基于说话人博弈的多人语音转换方法。该方法具有以下特点:1)考虑提升模型建模多说话人分布的能力,设计了两种基于多说话人博弈的转换模型架构;2)充分考虑声学特征的一维为时间表示维度以及转换前后时序位置说话内容不变的特点,设计了一种同时考虑了声学特征局部上下文信息以及时间信息不变性的基于生成对抗网络的深度神经网络。
本发明提供的一种基于说话人博弈的多人语音转换方法与系统,可以解决基于非平行语料的多人语音转换任务,鉴别器编码层基于CNN获取声学特征局部语义信息;鉴别器判别层基于不同博弈架构进行全局语义信息融合判别;生成器编码层基于时序跳步为1的CNN获取声学特征的局部语义信息;生成器残差层使用带残差连接的CNN对局部语义信息的再变换;生成器解码层使用基于带门控机制的CNN和双线性插值算子融合局部语义信息和条件信息重构得到目标说话人声学特征。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (8)
1.一种基于说话人博弈的多人语音转换方法,其特征在于,包括以下步骤:
训练时,首先对所有说话人的语音数据进行声学特征的抽取,然后采用以下步骤进行模型训练:
(1)鉴别器主要分为编码层和判别层,使用多层CNN堆叠的鉴别器的编码层逐步下采样得到当前声学特征输入的语义信息表示,并作为鉴别器的判别层的输入;
(2)鉴别器的判别层计算当前输入语义信息的分类置信度;
(3)输入一个说话人的语音声学特征,固定生成器权重,通过上述步骤(1)、(2)各层的处理,得到鉴别器对该声学特征的分类置信度,以该分类置信度作为输出,结合说话人的语音声学特征的真实分类标签,利用说话人博弈框架进行训练,更新鉴别器权重;
(4)生成器主要分为编码层、残差层、解码层,使用多层CNN堆叠的生成器的编码层得到当前声学特征输入的语义信息表示,并作为生成器的残差层的输入;
(5)生成器的残差层对当前输入的语义信息表示进行再变换;
(6)生成器的解码层将输入进行多次上采样与将上采样所得表示与目标说话人类别信息使用基于门控机制的CNN层进行结合的运算,将原始输入表示变换到目标说话人的声学特征;
(7)输入一个说话人的语音声学特征以及随机采样得到的目标说话人类别,通过上述步骤(4)(5)(6)各层的处理得到一个目标说话人的声学特征表示,固定鉴别器权重,将所得转换声学特征输入鉴别器,通过上述步骤(1)、(2)各层的处理,得到鉴别器对该特征的分类置信度,以该分类置信度作为输出,结合说话人的语音声学特征的真实分类标签,利用说话人博弈框架与循环一致性损失进行训练,更新生成器权重;
(8)以设定比例依次重复步骤(3)和步骤(7)的训练操作,直至模型收敛;
测试时,通过相同的声学特征预处理方式对输入说话人语音进行声学特征提取,将所得声学特征和目标说话人类别依照步骤(4)、(5)、(6)各层得到目标说话人转换声学特征,最后进行声学特征到语音音频的恢复。
2.根据权利要求1所述的基于说话人博弈的多人语音转换方法,其特征在于:在步骤(8)中,以5:1的比例依次重复步骤(3)和步骤(7)的训练操作,直至模型收敛。
3.根据权利要求1所述的基于说话人博弈的多人语音转换方法,其特征在于:在步骤(1)中,考虑到声学特征中每个位置的相邻关联性,使用时序跳步为2的卷积神经网络对当前声学特征输入逐步下采样抽取语义信息表示:
(101)对输入的二维声学特征依次使用数量为[x,2x,4x,8x]和跳步数为t的卷积核组对表示进行卷积操作,t取大于等于2,在卷积的过程中,对于声学特征的每一个位置计算一个局部的深度表示;
(102)对每一个卷积核得到的特征向量通过LeakyReLU激活函数进行处理。
4.根据权利要求1所述的基于说话人博弈的多人语音转换方法,其特征在于:在步骤(2)中,考虑到语音转换中建模多说话人分布建模难点,使用基于多说话人博弈的训练框架设计鉴别器的判别层计算当前输入语义信息的分类置信度,主要包含如下两种方案:
第一种方案:
(201)对输入的局部深度表示以大小与局部深度表示维度大小一致、数量为1的卷积核计算当前特征图属于真实声学特征的置信度;
(202)记当前转换说话人数为N,对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度,转换的声学特征目标类别为N+1,而真实源声学特征则以其源说话人类别为目标类别;
(203)固定生成器权重,目标类别包括所属声学特征是否为真实和所属说话人源类别,分类器分类置信度包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度,利用目标类别和分类器分类置信度使用交叉熵进行训练;
第二种方案除以下步骤外所有可学习的权重均使用谱归一化进行约束:
(2001)记当前转换说话人数为N,对输入的局部深度表示以大小与特征图大小一致、数量为N+1的卷积核计算当前特征图属于不同说话人源的置信度,转换的声学特征目标类别为N+1,而真实源声学特征则以其源说话人类别为目标类别;
(2002)固定生成器权重,目标类别包括所属声学特征是否为真实和所属说话人源类别,分类器分类置信度包括所属声学特征是否为真实的置信度和所属说话人源类别的置信度,利用目标类别和分类器分类置信度使用交叉熵进行训练;
采用第一种方案或者第二种方案计算当前输入语义信息的分类置信度。
5.根据权利要求1所述的基于说话人博弈的多人语音转换方法,其特征在于:在步骤(4)中,考虑到语音转换中对转换前后声学特征位置一致性,转换前后每个位置的发音内容一致,生成器的编码层使用时序跳步为1的卷积神经网络对当前声学特征输入的语义信息表示:
(401)对输入的二维声学特征使用一个大小为k、数量为x的卷积核对声学特征进行卷积操作,k取大于3的奇数,在卷积的过程中,对于声学特征的每一个位置计算一个局部的深度表示;
(402)固定二维卷积核的大小为[w,h],w与后续t的设定相关,要求卷积前后大小可恢复,不产生丢失,依次使用数量为[x,2x,4x]和跳步数为([t,1],[t,1],[t,1])的卷积核组对表示进行卷积操作,其中,t取大于等于2的整数,在卷积操作中为避免位置信息的丢失,在时间维度上固定跳步数为1,在表示维度上进行系数为t的下采样;
(403)对每一个卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理。
6.根据权利要求1所述的基于说话人博弈的多人语音转换方法,其特征在于:在步骤(5)中,考虑到增加模型深度并避免梯度消失,生成器的残差层使用带残差连接的卷积神经网络对当前的语义信息表示进行再变换:
(501)对输入使用n组卷积核大小为w,数量为k的卷积核组进行表示的变换,单次卷积组包含y次卷积操作,前y-1次的卷积核得到的特征向量通过实例归一化和LeakyReLU激活函数进行处理,第y次的卷积核得到的特征向量通过实例归一化进行处理;
(502)将经过卷积操作、归一化和激活函数的表示与原输入语义信息表示以残差连接进行叠加。
7.根据权利要求1所述的基于说话人博弈的多人语音转换方法,其特征在于:在步骤(6)中,考虑到生成对抗网络中上采样易出现棋盘阴影效应以及语义信息与说话人信息的选择性融合的特点,使用双线性插值算子和基于门控机制的CNN层所结合的运算,将原始输入表示变换到目标说话人的声学特征:
(601)对输入的二维声学语义表示使用一个双线性插值操作对前面下采样过的表示维度进行系数为t的上采样;
(602)使用Embedding层对条件输入进行映射得到条件表示;
(603)固定二维卷积核的大小为w,跳步数为1的卷积核组对语义表示得到语义门控信息gatedcontent;
(604)使用全连接层对条件表示进行变换得到条件门控信息gatedcondition;
(605)固定二维卷积核的大小为w,依次使用跳步数为1的卷积核组得到语义输出信息outputcontent;
(606)使用全连接层对条件表示进行变换得到条件输出信息outputcondition;
(607)使用门控机制将信息进行融合,分别使用sigmoid激活函数和tanh激活函数进行处理,通过如下计算方式σ(gatedcontent+gatedcontent)*tanh(outputcontent+outputcondition)得到;
(608)分别使用输出维度为4x、2x、x、1进行步骤(601)-(607)计算操作,最后得到目标说话人的声学特征。
8.一种基于说话人博弈的多人语音转换系统,其特征在于:包括可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010035558.9A CN111243572B (zh) | 2020-01-14 | 2020-01-14 | 基于说话人博弈的多人语音转换方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010035558.9A CN111243572B (zh) | 2020-01-14 | 2020-01-14 | 基于说话人博弈的多人语音转换方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111243572A true CN111243572A (zh) | 2020-06-05 |
CN111243572B CN111243572B (zh) | 2022-09-06 |
Family
ID=70880810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010035558.9A Active CN111243572B (zh) | 2020-01-14 | 2020-01-14 | 基于说话人博弈的多人语音转换方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243572B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037760A (zh) * | 2020-08-24 | 2020-12-04 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
CN113096673A (zh) * | 2021-03-30 | 2021-07-09 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音处理方法及系统 |
CN113555026A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 语音转换方法、装置、电子设备及介质 |
CN114495958A (zh) * | 2022-04-14 | 2022-05-13 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10186251B1 (en) * | 2015-08-06 | 2019-01-22 | Oben, Inc. | Voice conversion using deep neural network with intermediate voice training |
CN110060690A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于STARGAN和ResNet的多对多说话人转换方法 |
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
-
2020
- 2020-01-14 CN CN202010035558.9A patent/CN111243572B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10186251B1 (en) * | 2015-08-06 | 2019-01-22 | Oben, Inc. | Voice conversion using deep neural network with intermediate voice training |
US20180336880A1 (en) * | 2017-05-19 | 2018-11-22 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
CN110060690A (zh) * | 2019-04-04 | 2019-07-26 | 南京邮电大学 | 基于STARGAN和ResNet的多对多说话人转换方法 |
CN110600047A (zh) * | 2019-09-17 | 2019-12-20 | 南京邮电大学 | 基于Perceptual STARGAN的多对多说话人转换方法 |
Non-Patent Citations (1)
Title |
---|
TAKUHIRO KANEKO: "StarGAN-VC2:Rethinking Conditional Methods for StarGAN-Based Voice Conversion", 《NTT COMMUNICATION SCIENCE LABORATORIES》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112037760A (zh) * | 2020-08-24 | 2020-12-04 | 北京百度网讯科技有限公司 | 语音频谱生成模型的训练方法、装置及电子设备 |
US11488578B2 (en) | 2020-08-24 | 2022-11-01 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for training speech spectrum generation model, and electronic device |
CN113096673A (zh) * | 2021-03-30 | 2021-07-09 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音处理方法及系统 |
CN113096673B (zh) * | 2021-03-30 | 2022-09-30 | 山东省计算中心(国家超级计算济南中心) | 基于生成对抗网络的语音处理方法及系统 |
CN113555026A (zh) * | 2021-07-23 | 2021-10-26 | 平安科技(深圳)有限公司 | 语音转换方法、装置、电子设备及介质 |
CN113555026B (zh) * | 2021-07-23 | 2024-04-19 | 平安科技(深圳)有限公司 | 语音转换方法、装置、电子设备及介质 |
CN114495958A (zh) * | 2022-04-14 | 2022-05-13 | 齐鲁工业大学 | 一种基于时间建模生成对抗网络的语音增强系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111243572B (zh) | 2022-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243572B (zh) | 基于说话人博弈的多人语音转换方法与系统 | |
Guo et al. | Deep multimodal representation learning: A survey | |
Kannan et al. | Large-scale multilingual speech recognition with a streaming end-to-end model | |
CN112071330B (zh) | 一种音频数据处理方法、设备以及计算机可读存储介质 | |
KR20180125905A (ko) | 딥 뉴럴 네트워크(Deep Neural Network)를 이용하여 문장이 속하는 클래스(class)를 분류하는 방법 및 장치 | |
WO2015180368A1 (zh) | 一种半监督语音特征可变因素分解方法 | |
CN111914076B (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN111859954A (zh) | 目标对象识别方法、装置、设备及计算机可读存储介质 | |
Zhao et al. | Applications of deep learning to audio generation | |
Wang et al. | Comic-guided speech synthesis | |
CN111816169A (zh) | 中英语种混杂语音识别模型训练方法和装置 | |
CN115393933A (zh) | 一种基于帧注意力机制的视频人脸情绪识别方法 | |
CN113140020A (zh) | 一种基于伴随监督生成对抗网络的文本生成图像的方法 | |
EP4030421A1 (en) | Method for converting voice feature of voice | |
Fathan et al. | Mel-spectrogram image-based end-to-end audio deepfake detection under channel-mismatched conditions | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Deng et al. | Unsupervised audiovisual synthesis via exemplar autoencoders | |
Li et al. | Emotion recognition from speech with StarGAN and Dense‐DCNN | |
KR102096598B1 (ko) | 애니메이션 생성 방법 | |
Sun | Digital audio scene recognition method based on machine learning technology | |
CN114170997A (zh) | 发音技巧检测方法、装置、存储介质及电子设备 | |
CN114783426A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
Patamia et al. | Multimodal Speech Emotion Recognition Using Modality-Specific Self-Supervised Frameworks | |
Ma et al. | M3D-GAN: Multi-modal multi-domain translation with universal attention | |
Ashraf et al. | On the Audio-Visual Emotion Recognition using Convolutional Neural Networks and Extreme Learning Machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |