CN117253493A - 用于语音生成任务的音频编码方法、电子设备和存储介质 - Google Patents
用于语音生成任务的音频编码方法、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117253493A CN117253493A CN202311338371.6A CN202311338371A CN117253493A CN 117253493 A CN117253493 A CN 117253493A CN 202311338371 A CN202311338371 A CN 202311338371A CN 117253493 A CN117253493 A CN 117253493A
- Authority
- CN
- China
- Prior art keywords
- bpe
- acoustic
- model
- speech
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000013507 mapping Methods 0.000 claims abstract description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 7
- 238000003064 k means clustering Methods 0.000 claims description 7
- 230000033764 rhythmic process Effects 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 13
- 230000008569 process Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 9
- 238000013459 approach Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000000877 morphologic effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000010295 mobile communication Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013077 scoring method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 102100040160 Rabankyrin-5 Human genes 0.000 description 1
- 101710086049 Rabankyrin-5 Proteins 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开用于语音生成任务的音频编码方法、电子设备和存储介质,包括:使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;将所述离散特征序列映射成Unicode字符串,然后在所述Unicode字符串上训练BPE字节对编码模型;使用训练好的BPE模型来编码所述Unicode字符串,得到声学BPE特征。本申请实施例的方法通过BPE的编码方式,将离散音频序列中频繁出现的模型编码为一个单元,减少了序列长度,使得模型更容易建模序列;同时,这种编码方式包含了音频特征序列间的联系,减轻了模型建模的复杂性。这两点使得声学BPE更适合于语音生成类任务,我们的实验也证明该声学BPE编码方式提高了语义建模的能力。
Description
技术领域
本申请实施例涉及语音生成任务领域,特别是涉及一种用于语音生成任务的音频编码方法、电子设备和存储介质。
背景技术
相关技术中,自监督学习模型所衍生出来的离散音频特征已在语音生成任务中得到广泛应用。然而,现有的使用离散音频特征的方法没有对其进行处理,这种直接利用音频特征的做法对于序列建模提出了挑战,因为较长的特征序列使得模型难以学习。此外,这种方法依赖于模型来构建立特征之间的相关性,进一步复杂化建模过程。
目前已有的、解决离散音频特征序列过长造成建模困难的方法主要是将连续重复出现的特征进行去重,比如将特征序列[1,1,2,2,2,3,4]去重为[1,2,3,4]用于语言模型建模、语音识别任务中。
发明人认为,该方案的编码方式是单向的,即无法通过编码后的结果恢复原来的编码,这使得其只能用于语音识别等特定任务中,而无法用于例如语音生成任务中。
发明内容
本发明实施例提供了一种用于语音生成任务的音频编码方法、电子设备和存储介质,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供了一种用于语音生成任务的音频编码方法,包括:使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;将所述离散特征序列映射成Unicode字符串,然后在所述Unicode字符串上训练BPE模型;以及使用训练好的字节对编码模型来编码所述Unicode字符串,得到声学BPE特征。
第二方面,本发明实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明上述任一项用于语音生成任务的音频编码方法。
第三方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项用于语音生成任务的音频编码方法。
第四方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项用于语音生成任务的音频编码方法。
本申请的方案通过BPE的编码方式,将离散音频序列中频繁出现的模型编码为一个单元,减少了序列长度,使得模型更容易建模序列;同时,这种编码方式包含了音频特征序列间的联系,减轻了模型建模的复杂性。这两点使得声学BPE更适合于语音生成类任务,我们的实验也证明该声学BPE编码方式提高了语义建模的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种用于语音生成任务的音频编码方法的流程图;
图2为本发明一实施例提供的声学BPE的编码算法的一个具体实现的流程图;
图3为本发明一实施例提供的富韵律TTS多种合成结果的rescore(重新打分)方法:
图4为本发明一实施例提供的四种声学BPE(aBPE)变体的序列长度和推理速度比较;
图5为本发明一实施例提供的四种声学BPE变体的语义准确率;
图6为本发明一实施例提供的四种声学BPE变体的交叉熵(cross-entropy)比较;
图7为本发明一实施例提供的四种声学BPE变体的前1到前3的准确率的比较;
图8为本发明一实施例提供的两次偏好测试的结果示意图;
图9为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,其示出了本发明一实施例提供的一种用于语音生成任务的音频编码方法的流程图。
如图1所示,在步骤101中,使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;
在步骤102中,将所述离散特征序列映射成Unicode字符串,然后在所述Unicode字符串上训练BPE模型;
在步骤103中,使用训练好的BPE模型来编码所述Unicode字符串,得到声学BPE特征。
其中,BPE(byte-pair encoding,字节对编码)是一种将词拆分成子词(subword)的编码方法,Unicode是一种文本编码方式。
本申请实施例的方案通过将频繁出现的特征模式编码为单个单元,有效地减少了序列长度,并利用了特征序列中存在的形态信息,从而缓解了模型在建模特征之间相关性的挑战
在一些可选的实施例中,所述预训练模型为HuBERT,所述将所述语义特征离散成离散特征序列包括使用k-means聚类方法将所述语义特征离散成离散特征序列。其中,HuBERT是一种自监督训练的语音模型,其主要抽取语音中的语义信息。k-means是一种传统机器学习算法,将连续的特征编码成离散特征。
在一些可选的实施例中,所述方法还包括:使用所述声学字节对编码特征训练语音语言模型。
在进一步可选的实施例中,语音语言模型为Decoder-only Transformer,所述使用所述声学BPE特征训练语音语言模型包括:将音频波形编码为声学BPE序列;使用所述声学BPE序列训练所述语音语言模型。其中,Transformer是一种基于自注意力的模型结构。
在一些可选的实施例中,所述方法还包括:使用所述语音语言模型计算富韵律TTS系统的多个TTS合成结果的似然性,选择所述多个TTS合成结果中似然性最高的合成结果。
本申请实施例的方案对声学BPE在语音生成方面的性质做了细致的研究,并且是第一个用声学BPE结合语音语言模型来做多个TTS合成结果的选择的方案。
通过BPE的编码方式,将离散音频序列中频繁出现的模型编码为一个单元,减少了序列长度,使得模型更容易建模序列;同时,这种编码方式包含了音频特征序列间的联系,减轻了模型建模的复杂性。这两点使得声学BPE更适合于语音生成类任务,我们的实验也证明该声学BPE编码方式提高了语义建模的能力。
借助于声学BPE,我们提出的rescore方法使用语音语言模型来评价富韵律的TTS生成的多个合成结果,权衡了合成语音的韵律多样性与语音的自然度。其中,Rescore是一种对富韵律TTS模型产生的多个结果进行评价并选择一个自然度最佳合成结果的方法。
请参考图2,其示出了声学BPE的编码算法。
如图2所示,编码声学BPE主要分为三步:
a)首先使用预训练好的HuBERT模型抽取音频的语义特征,然后使用k-means聚类方法将这些语义特征离散成离散特征序列。
b)将离散特征序列从数字映射成Unicode字符串,然后在这些字符串上训练BPE模型。
c)使用训练好的BPE模型来编码第二步中的Unicode字符串,得到声学BPE特征。
富韵律TTS多种合成结果的rescore方法:
富韵律TTS系统可以合成具有很好多样性的语音,然而,这些TTS系统通常在推理阶段都会有一个采样的过程,这个采样过程的存在使得合成的音频韵律多样,但同时也造成了合成音频的自然度参差不一。为了减轻这个问题,我们可以通过多次合成同一句话得到多个合成结果,然后通过人的主观评价得到最佳的合成结果,然而,这种方式费时费力,难以得到应用。
借助于声学BPE在语音生成任务中出色的建模能力,我们使用声学BPE训练了一个语音语言模型(SLM)。这个语音语言模型是一个Decoder-only Transformer,在训练过程中,我们首先将音频编码为声学BPE序列,然后使用该序列训练语音语言模型。得到模型后,我们使用该模型来计算多个TTS合成结果的似然性,然后选择最高似然性的合成结果。该过程如图3所示。
发明人在实现本申请的过程中,还尝试过以下方案,在声学BPE的训练中,在现行方案之外,我们还可以在BPE训练过程中加入其它的监督信息。比如,我们可以通过一些工具得到文本-语音的对齐信息(即音频中哪一段对应文本中的哪一个词),然后在转换为Unicode字符串时在词与词的边界插入分隔符来得到更好的BPE模型。然而这个方案在实验中收效甚微,其表现不佳的原因可能是对齐信息本身存在误差,这个误差在BPE训练中会得到放大,使得其提升效果不明显。
以下通过详细介绍发明人对于本申请实施例的具体实现过程和实验数据,以使本领域技术人员更好地理解本申请的技术方案。
为了解决相关技术中的一个或多个问题,我们提出了声学BPE,它利用BPE算法来编码离散音频特征,通过将频繁出现的特征模式编码为单个单元,有效地减少了序列长度,并利用了特征序列中存在的形态信息,从而缓解了模型在建模特征之间相关性的挑战。使用声学BPE,我们训练了一个语音语言模型,通过探索这个语音语言模型的各种性质,我们确认了声学BPE所提供的显著优势,包括更快的自回归推理速度和更好的语义捕捉能力。此外,我们还提出了一种新颖的rescore方法,用于在富韵律TTS模型生成的多个候选语音中选择最佳合成语音。实验证明,rescore(重新打分)选择与人类偏好密切相关,这突显了声学BPE在其他语音生成任务中的潜力。
音频领域自监督学习(SSL,Self-supervised Learning)模型的出现为音频特征选择带来了新的选择。例如,wav2vec利用对比损失目标来利用音频信号的高级表示。HuBERT采用了掩蔽预测目标,其中离散目标来自于k-means聚类。W2v-BERT以端到端的方式将对比学习和掩码预测结合在一起。除了对音频信号中的语音内容进行建模外,WavLM还通过去噪目标对与说话人相关的信息进行编码,要求模型预测被有噪声或其他语音片段重叠的原始音频的伪标签。vqwav2vec和wav2vec 2.0使用量化器来离散化连续特征。
离散化可以进一步压缩冗余信息,使得自然语言处理(NLP,Natural LanguageProcessing)界的算法可以应用于离散音频特征。通过k-means聚类或向量量化器,上述SSL特征可作为伪文本用于语音生成。GSLM从预训练的HuBERT中提取SSL特征,然后使用k-means聚类将其离散化。这些离散词块被用作Tacotron2的输入,用于合成梅尔频谱图。VQTTS用vq-wav2vec离散化的音频特征和三维韵律特征取代了梅尔频谱,作为声学模型和声码器之间的桥接,与梅尔频谱相比,它提高了语音的合成质量。AudioLM通过w2v-BERT和k-means聚类对离散化的音频特征进行语言模型训练,证明了离散音频特征作为伪文本单位在语言建模中的有效性。SPEAR-TTS进一步证实了这一观点,它在低资源场景中利用离散音频特征作为伪文本单元。
然而,现有方法直接利用特征,这给序列建模带来了挑战。这主要是由于特征序列通常较长,而且需要依赖模型来捕捉特征之间的相关性。虽然已经提出了一些解决方案来缓解这一问题,如对连续的音频特征去重,但这些方法存在编码损坏的问题,因此不适合语音生成任务。在文本语言建模中,这一问题可以通过按照一定规则组合一段连续的特征来解决。例如,字节对编码(BPE)根据频率动态创建子词单元,编码形态信息。
受基于文本的方法的启发,我们提出了用于语音生成任务的声学BPE,它将BPE扩展到离散音频特征序列,以减少序列长度并充分利用特征序列中的形态信息。以往的研究已经调查了声学BPE在SSL模型预训练和自动语音识别(ASR,Automatic SpeechRecognition)中的有效性。例如,HuBERT-AP采用BPE对HuBERT预训练中使用的伪目标标签进行编码,以弥合音频信号与自然语言之间的差距。但是,它并没有将BPE扩展到推理过程中。相关技术探讨了声学BPE在ASR任务中带来的改进。将文本到语音(TTS,Text-to-Speech,文本合成语音技术)视为机器翻译任务,其中离散VQVAE序列由BPE编码。然而,人们较少关注探索声学BPE在语音生成任务中的具体优势。
在本申请实施例中,我们采用我们提出的声学BPE来训练语言模型,我们称之为语音语言模型(SLM,Speech Language Model),通过将音频编码成离散序列后,使用自然语言处理中的方法训练的一个语言模型。SLM是一种生成模型,有多种应用,包括语音续写和语音评估。通过全面研究,我们发现了使用声学BPE所带来的几个显著优势,包括推理速度更快、语义捕捉能力更强以及生成的多样性和丰富性得到改善。这些优势可以增强各种语音生成任务,包括文本到语音、语音克隆和语音增强。作为声学BPE在语音生成任务中应用的一个例子,我们介绍了一种利用声学BPE对合成语音进行重新打分的方法。该方法利用语音语言模型来评估由富韵律TTS模型生成的不同候选语音的质量。通过选择最佳合成语音,我们的rescore方法实现了多样性和自然度之间的平衡。实验结果表明,重评分选择与人类偏好密切相关,进一步凸显了声学BPE在其他语音生成任务中的有效性。
后续,我们介绍声学BPE和实验中使用的语音语言模型、详细介绍对SLM的研究,以及介绍作为声学BPE在语音生成任务中的应用的新型重新打分方法。
声学BPE语音语言模型
在本部分内容中,我们首先全面解释声学BPE(aBPE)。然后,我们介绍实验中使用的无条件语音语言模型(SLM)。最后,我们将介绍新颖的rescore方法,该方法可有效地从丰富多样性TTS生成的各种候选语音中选出最佳合成语音。
声学BPE
在文本语料库中,字节对编码(BPE)的工作原理是初始化一个包含训练文本中所有独特字符的词汇表。然后,它迭代地将最频繁出现的字符对合并为一个单元,并将其添加到词汇表中。直到达到所需的词汇量为止。要在离散音频特征上采用BPE算法,我们首先要将特征序列转换为Unicode文本,然后在Unicode文本上应用BPE训练和编码。具体过程如图1所示,包括以下步骤:
1.我们利用预训练的HuBERT模型和k-means聚类将音频离散化。
2.然后,我们通过将整数映射到位于Unicode区域4E00~9FFF内的常见汉字,将特征序列转换为Unicode文本。该区域包含20992个汉字,足以满足我们的要求。
3.在所获得的Unicode文本上训练特定词表数量的BPE模型。
4.使用训练好的BPE模型将Unicode文本编码为声学BPE序列。
语音语言模型
语言模型(参数为θ)旨在计算给定序列x={x1,...,xt}的概率。它可以表示为:
给定一个序列后,语言模型可以计算出该序列的概率或预测下一个离散特征的概率分布,从而执行续写等任务。语音语言模型(SLM)将语言建模扩展到离散音频特征。不过,与以往直接利用离散音频特征的方法不同,我们的语音语言模型利用了声学BPE。这种方法继承了BPE编码的优点,如增强的序列建模和改进的语义捕捉能力。我们使用了一种基于自注意力的模型结构,并简要介绍了训练和生成续写的过程。
继续参考图2,其示出了声学BPE训练和编码。其中,图2中的(a)利用预训练的HuBERT模型和k-means聚类将音频离散化为离散音频特征。图2中的(b)将离散特征转换为Unicode文本,用于BPE训练。图2中的(c)利用训练好的BPE模型进行编码,以获得声学BPE序列。
训练:我们首先利用HuBERT和k-means聚类将音频离散化,然后将这些词块编码为声学BPE序列。对SLM(参数为θ)进行优化,以最大化声学BPE序列x的联合概率:
生成续写:语音语言模型可以通过对下一个特征x{i+1}进行自回归采样,在给定的提示p={p1,...,pl}之后进行续写:
xi+1~p(xi|x<i,p,θ) (3)
利用SLM对富韵律合成模型的合成语音进行重打分
最新的TTS系统可以生成富有多样韵律的语音。然而,这些合成语音的自然度可能差别很大。为了在多样性和自然度之间取得平衡,一种方法是从TTS系统生成多个候选语音,然后人工选择最自然的语音。然而,这种人工评估过程费时费力。为了解决这个问题,我们提出了一种新颖的rescore方法,利用SLM来选择最佳合成语音,以同时确保合成语音的多样性和自然度。
对于多个合成语音u1,...,un,我们利用SLM进行rescore,首先计算每个语音ui的概率yi,然后选择概率最高的合成语音作为最优语音,具体如下:
其中,特征提取器首先通过HuBERT和k-means将音频离散化为特征,然后进一步编码为声学BPE特征。
实验
数据集:我们使用两个数据集进行实验:LibriTTS包含580小时的语音数据,LibriLight子集,包含6k小时的语音。对于LibriLight,我们利用官方脚本将原始的长录音分割成60秒的语段。在训练和推理之前,所有语音波形都被降采样至16kHz。
声学BPE:我们从预训练的HuBERT Large模型的最后一层提取语音特征。然后,我们在LibriTTS train-960子集中随机选择100小时的语音特征子集,用2000个中心点进行k-means聚类训练。如图2中的(a)所示,所有来自LibriTTS和LibriLight的语音数据都被训练好的k-means模型编码为离散的音频特征。
声学BPE模型是在LibriTTS train-960子集上训练的。我们首先将离散特征转换为Unicode文本,然后使用SentencePiece训练声学BPE模型,并按照前面所述的所需词汇量进行训练。然后,我们使用训练好的BPE模型将LibriLight的离散特征编码成声学BPE特征。在下面的实验中,我们比较了四种声学BPE变体:无声学BPE和词汇量分别为5k、10k和20k的声学BPE。
语音语言模型:我们使用的是一种基于自注意力的模型结构,共有12层、16个注意头、1024个嵌入维度和T5风格相对位置编码。在训练过程中,我们采用随机裁剪的方法,将等效输入长度定为15秒。在LibriLight6k子集上对四种声学BPE变体的模型进行了10轮训练,第一轮训练的学习率从0线性增加到1×10-5,随后训练的学习率余弦衰减到1×10-6。
将离散特征解码为波形:我们训练CTX-vec2wav声码器来解码离散特征至声音波形。CTX-vec2wav的帧移为20ms,其HifiGAN上采样层的内核大小为(16,10,8,4)。它在LibriTTS train-960子集上进行训练。解码时,首先对BPE音素进行解码,然后合成为波形。在所有实验中,我们使用同一个说话人(说话人ID 121)作为合成的提示。
后续,我们将比较使用各种声学BPE变体的语音续写推理速度,之后考察SLM的语义捕捉能力,并分别考察语音续写生成的音频的多样性和丰富性。最后,我们展示了新的重新打分方法的有效性,印证了声学BPE所带来的优势。
推理加速
声学BPE将频繁出现的特征合并为一个单元,从而大大减少了序列长度。请参考图4,其示出了四种声学BPE变体的序列长度和推理速度比较。其中,中英文对照如下:编码方式:Encoding,声学BPE数量:Num.aBPE,平均序列长度:Avg sequence,推理加速:Inferencespeedup,不使用声学BPE:w/o aBPE,使用声学BPE:aBPE。
在图4中,我们比较了LibriLight-6k在四种声学BPE变体中的平均序列长度:不使用声学BPE和使用词汇量为5k、10k和20k的声学BPE。此外,我们还评估了它们在SLM续写的推理速度。我们使用从LibriTTS test-clean子集中随机选取的语音的前3秒作为提示,并在配备32GB内存的英伟达V100 GPU上生成10个长20秒的续写。我们在图4中比较了声学BPE带来的速度提升。
从图4中可以看出,采用声学BPE可以将序列压缩1.6到2.4倍,从而简化序列建模。较短的序列也会使自回归推理过程加快2.8至5.0倍。
使用声学BPE情况下的语义捕捉能力
参考GLSM和AudioLM,我们通过衡量SLM区分一对语义正确和不正确语句的能力来评估SLM的语义建模能力。与前述的rescore法类似,我们将概率较高的语句视为句法正确的语句。为了构建这样的测试对,我们从LibriTTS test-all子集中过滤掉太短的语句,并将剩余的5497个语句作为句法正确的语句。为了创建无意义的测试用例,我们会随机地打乱句法正确的文本中的单词。语义正确和不正确的语句都使用在LibriTTS train-960上训练的VQTTS合成为波形。随后,使用SLM将每个测试用例中的两个语音分为语义正确和不正确。这种分类准确率被称为语义准确率。
请参考图5,其示出了四种声学BPE(aBPE)变体的语义探测准确性和生成多样性比较。可见,声学BPE的加入增强了语音语言模型准确捕捉句法结构的能力,并能有效地模拟更多不同的句法模式。
此外,我们还考察了生成语音续写的内容多样性。我们从LibriTTS test-clean子集中随机选取3个语句,将每个语句的前3秒作为提示,使用SLM生成20秒的续写。对于每个提示语,我们重复续写过程50次,总共生成150个语句。我们使用开源的whisper软件将语音转录为文本。为了评估这些文本的多样性,我们采用了n-gram VERT指标。该指标是n-gramself-BLEU和n-gram auto-BLEU分数的几何平均数,用于衡量跨句子和句子内部的n-gram多样性。VERT值越高,表示多样性越低。图5列出了3-gram VERT的结果。
声学BPE的对信息率的提升
有了声学BPE,SLM可以生成内容各异的多种输出。在本部分内容中,我们将探讨声学BPE带来的其他改进,特别是在生成输出方面,它可以在有限的时间内传递更多的信息。
为了量化SLM的信息量,我们采用了SLM生成的语音文本内容相对于预训练的文本语言模型的交叉熵H。文本语言模型可视为所有有意义文本内容真实分布的近似值。因此,将具有不同声学BPE的每个SLM视为一个信息源,并假设语音识别不会引入太多误差,我们就可以将交叉熵视为合成语音所含信息的测量值。交叉熵的计算方法如下:首先,我们从SLM(以θ为参数)中生成一组提示的续写{u1,...,un},然后用ASR将其转录为文本。接下来,对于每个续写,我们用一个预训练的文本语言模型(参数为γ)计算其转录的文本的对数概率。交叉熵H(SLMθ|TextLMγ)是通过对所有生成的连续文本的负对数概率取平均值得到的。
{u1,...,un}~p(u|θ) (7)
在我们的实验中,我们从LibriTTS test-clean子集中随机抽取前3秒作为提示语,并生成150个续写,每个续写长度为20秒。我们使用Whisper将语音转录为文本,并使用预训练的文本语言模型计算交叉熵。结果见图6。
请参考图6,其示出了四种声学BPE(aBPE)变体的交叉熵(cross-entropy)比较。
使用声学BPE增加了SLM在有限时间内传递的信息量,表明声学BPE有助于提高生成语音的内容丰富性。
使用SLM进行富韵律合成语音的重打分
前述内容讨论的声学BPE的优势突出了其在语音生成任务中的潜在应用。在此,我们介绍一种新颖的rescore方法,该方法可从富韵律TTS系统生成的众多候选语音中选出最佳合成语音。这种方法的目的是在保持多样性和确保生成语音的自然性之间取得平衡。
我们使用在LibriTTS train-960子集中训练的富韵律TTS模型进行实验。我们从LibriTTS test-clean子集中随机选取106个语句,每个语句使用富韵律TTS模型合成5次。在使用SLM rescore之前,我们先进行主观听力测试,让10名听者根据自然度对每一组中相同句子的5个合成语音进行排序。随后,如前所述,我们使用SLM对每组5个合成语音进行rescore重打分。为了定量评估rescore选择与人类偏好的吻合程度,我们计算了top-x准确率,即rescore选择出现在人类排名前x位的成功率。我们在图7中比较了四种声学BPE变体的前1到前3的准确率。
请参考图7,其示出了各种声学BPE(aBPE)的重打分准确率。
如上所示,重评分选择与人类偏好一致。声学BPE的使用进一步提高了rescore的性能。此外,我们还进行了两次偏好测试,以验证rescore和声学BPE的有效性。第一个偏好测试包括随机选择和从SLM中使用声学BPE 10k进行rescore的选择。第二个测试包括从两种声学BPE变体中进行选择:无声学BPE和声学BPE 10k。结果如图8所示。
图8示出了偏好测试。其中,图8的上图示出了随机选择与使用声学BPE(10k)(aBPE10k)的对比;图8的下图示出了不使用声学BPE(w\o aBPE)与aBPE 10k的对比。上述偏好测试进一步证实了重新计分方法的有效性,并凸显了声学BPE在语音生成任务中的潜力。
在本申请实施例中,我们将声学BPE引入了语音生成任务。我们使用声学BPE训练了一个语音语言模型,并对其特性进行了深入研究。这些研究发现了声学BPE的显著优势。首先,使用声学BPE可以缩短序列,便于序列建模和加速自回归推理。其次,通过利用特征序列中存在的形态信息,它减轻了语音语言模型构建特征相关性的负担,从而增强了其语义捕捉能力以及生成的多样性和丰富性。此外,我们还展示了声学BPE在一种新型TTSrescore方法中的应用,该方法可从富韵律TTS的多个合成中选择最佳合成,从而在多样性和自然度之间取得平衡。实验结果为声学BPE的有效性提供了证据。这些发现为将声学BPE应用于文本到语音合成等其他语音生成任务提供了可能性,可在未来的研究中加以探索。
在另一些实施例中,本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的用于语音生成任务的音频编码方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;
将所述离散特征序列映射成Unicode字符串,然后在所述Unicode字符串上训练BPE模型;
使用训练好的字节对编码模型来编码所述Unicode字符串,得到声学BPE特征。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于语音生成任务的音频编码的装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至用于语音生成任务的音频编码的装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种计算机程序产品,计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,使计算机执行上述任一项用于语音生成任务的音频编码方法。
图9是本发明实施例提供的电子设备的结构示意图,如图9所示,该设备包括:一个或多个处理器910以及存储器920,图9中以一个处理器910为例。用于语音生成任务的音频编码方法的设备还可以包括:输入装置930和输出装置940。处理器910、存储器920、输入装置930和输出装置940可以通过总线或者其他方式连接,图9中以通过总线连接为例。存储器920为上述的非易失性计算机可读存储介质。处理器910通过运行存储在存储器920中的非易失性软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例用于语音生成任务的音频编码方法。输入装置930可接收输入的数字或字符信息,以及产生与用于语音生成任务的音频编码的装置的用户设置以及功能控制有关的键信号输入。输出装置940可包括显示屏等显示设备。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
作为一种实施方式,上述电子设备应用于用于语音生成任务的音频编码的装置中,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够:
使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;
将所述离散特征序列映射成Unicode字符串,然后在所述Unicode字符串上训练BPE模型;
使用训练好的字节对编码模型来编码所述Unicode字符串,得到声学BPE特征。
本申请实施例的电子设备以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如iPad。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
(5)其他具有数据交互功能的电子装置。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种用于语音生成任务的音频编码方法,包括:
使用训练好的预训练模型抽取音频波形的语义特征,将所述语义特征离散成离散特征序列;
将所述离散特征序列映射成Unicode字符串,然后在所述Unicode字符串上训练BPE模型;
使用训练好的字节对编码模型来编码所述Unicode字符串,得到声学BPE特征。
2.根据权利要求1所述的方法,其中,所述预训练模型为HuBERT,所述将所述语义特征离散成离散特征序列包括使用k-means聚类方法将所述语义特征离散成离散特征序列。
3.根据权利要求1所述的方法,其中,所述方法还包括:使用所述声学BPE特征训练语音语言模型。
4.根据权利要求3所述的方法,其中,语音语言模型为Decoder-only Transformer,所述使用所述声学BPE特征训练语音语言模型包括:
将音频波形编码为声学BPE序列;
使用所述声学BPE序列训练所述语音语言模型。
5.根据权利要求4所述的方法,还包括:使用所述语音语言模型计算富韵律TTS系统的多个TTS合成结果的似然性,选择所述多个TTS合成结果中似然性最高的合成结果。
6.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至5任一项所述方法的步骤。
7.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311338371.6A CN117253493A (zh) | 2023-10-16 | 2023-10-16 | 用于语音生成任务的音频编码方法、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311338371.6A CN117253493A (zh) | 2023-10-16 | 2023-10-16 | 用于语音生成任务的音频编码方法、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117253493A true CN117253493A (zh) | 2023-12-19 |
Family
ID=89132936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311338371.6A Pending CN117253493A (zh) | 2023-10-16 | 2023-10-16 | 用于语音生成任务的音频编码方法、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117253493A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471195A (zh) * | 2024-07-10 | 2024-08-09 | 厦门蝉羽网络科技有限公司 | 基于离散Diffusion的语音合成方法及系统 |
CN118571236A (zh) * | 2024-08-05 | 2024-08-30 | 上海岩芯数智人工智能科技有限公司 | 一种基于音域范围的音频token化编码方法及装置 |
-
2023
- 2023-10-16 CN CN202311338371.6A patent/CN117253493A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118471195A (zh) * | 2024-07-10 | 2024-08-09 | 厦门蝉羽网络科技有限公司 | 基于离散Diffusion的语音合成方法及系统 |
CN118571236A (zh) * | 2024-08-05 | 2024-08-30 | 上海岩芯数智人工智能科技有限公司 | 一种基于音域范围的音频token化编码方法及装置 |
CN118571236B (zh) * | 2024-08-05 | 2024-10-29 | 上海岩芯数智人工智能科技有限公司 | 一种基于音域范围的音频token化编码方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111933129B (zh) | 音频处理方法、语言模型的训练方法、装置及计算机设备 | |
Mohamed et al. | Self-supervised speech representation learning: A review | |
AU2019395322B2 (en) | Reconciliation between simulated data and speech recognition output using sequence-to-sequence mapping | |
Shah et al. | What all do audio transformer models hear? probing acoustic representations for language delivery and its structure | |
CN115516552A (zh) | 使用未说出的文本和语音合成的语音识别 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
CN111243599B (zh) | 语音识别模型构建方法、装置、介质及电子设备 | |
CN117253493A (zh) | 用于语音生成任务的音频编码方法、电子设备和存储介质 | |
Dunbar et al. | Self-supervised language learning from raw audio: Lessons from the zero resource speech challenge | |
CN112397056B (zh) | 语音评测方法及计算机存储介质 | |
CN111710326A (zh) | 英文语音的合成方法及系统、电子设备及存储介质 | |
Lux et al. | The IMS Toucan System for the Blizzard Challenge 2023 | |
Singla et al. | What do audio transformers hear? probing their representations for language delivery & structure | |
JP2022133392A (ja) | 音声合成方法、装置、電子機器及び記憶媒体 | |
WO2023116243A1 (zh) | 数据转换方法及计算机存储介质 | |
CN112489634A (zh) | 语言的声学模型训练方法、装置、电子设备及计算机介质 | |
CN114974218A (zh) | 语音转换模型训练方法及装置、语音转换方法及装置 | |
CN117275498A (zh) | 语音转换方法及语音转换模型的训练方法、电子设备和存储介质 | |
CN117012177A (zh) | 语音合成方法、电子设备和存储介质 | |
Dey et al. | A low footprint automatic speech recognition system for resource constrained edge devices | |
Sher et al. | Development of a Taiwanese Speech Synthesis System Using Hidden Markov Models and a Robust Tonal Phoneme Corpus | |
Esparza Perez | Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments | |
Liu | Design of Automatic Speech Evaluation System of Professional English for the Navy based on Intelligent Recognition Technology | |
Esparza | Spanish and English Phoneme Recognition by Training on Simulated Classroom Audio Recordings of Collaborative Learning Environments | |
Sayed et al. | Convolutional Neural Networks to Facilitate the Continuous Recognition of Arabic Speech with Independent Speakers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |