[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113870828A - 音频合成方法、装置、电子设备和可读存储介质 - Google Patents

音频合成方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN113870828A
CN113870828A CN202111148956.2A CN202111148956A CN113870828A CN 113870828 A CN113870828 A CN 113870828A CN 202111148956 A CN202111148956 A CN 202111148956A CN 113870828 A CN113870828 A CN 113870828A
Authority
CN
China
Prior art keywords
reference vector
audio
information
audio data
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111148956.2A
Other languages
English (en)
Other versions
CN113870828B (zh
Inventor
蒋微
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vivo Mobile Communication Co Ltd
Original Assignee
Vivo Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vivo Mobile Communication Co Ltd filed Critical Vivo Mobile Communication Co Ltd
Priority to CN202111148956.2A priority Critical patent/CN113870828B/zh
Publication of CN113870828A publication Critical patent/CN113870828A/zh
Application granted granted Critical
Publication of CN113870828B publication Critical patent/CN113870828B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种音频合成方法、装置、电子设备和可读存储介质,属于语音合成技术领域。该方法包括:获取目标信息;获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量;根据所述目标信息和所述韵律特性参数,确定声学特征信息;对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。

Description

音频合成方法、装置、电子设备和可读存储介质
技术领域
本申请属于语音合成技术领域,具体涉及一种音频合成方法、装置、电子设备和可读存储介质。
背景技术
语音合成(Text to Speech,TTS)技术是指将文字信息转换为语音信息的技术。个性化语音合成(Personal Text to Speech)是指通过录音设备录取某个人的某些语音片段后,基于TTS语音技术,合成出符合某个特定人说话方式的语音合成技术。
然而,目前的语音合成技术,合成的语音不能体现不同用户的发声特点,合成效果较差。
发明内容
本申请实施例的目的是提供一种音频合成方法、装置、电子设备和可读存储介质,能够解决语音合成技术,合成的语音不能体现不同用户的发声特点,合成效果较差的问题。
第一方面,本申请实施例提供了一种音频合成方法,该方法包括:
获取目标信息;
获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量;
根据所述目标信息和所述韵律特性参数,确定声学特征信息;
对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。
第二方面,本申请实施例提供了一种音频合成装置,所述装置包括:
第一获取模块,用于获取目标信息;
第二获取模块,用于获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量;
第一确定模块,用于根据所述目标信息和所述韵律特性参数,确定声学特征信息;
生成模块,用于对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
在本申请实施例中,获取目标信息和目标发音人的韵律特性参数,根据目标信息和目标发音人的韵律特性参数,确定声学特征信息,并对声学特征信息进行转换,生成与目标信息对应的目标音频数据,这样,可以获取目标发音人的韵律特性参数,并使用目标发音人的韵律特性参数影响声学特征信息的生成,可以根据不同发音人的说话风格和韵律特点,个性化合成目标音频数据,使得生成的目标音频数据更贴近目标发音人的发音特点。
附图说明
图1是本申请实施例提供的一种音频合成方法的流程示意图;
图2是本申请实施例提供的一种风格向量编解码模型的示意图;
图3是本申请实施例提供的一种目标音频数据的合成过程的示意图;
图4是本申请实施例提供的一种音频合成装置的结构示意图;
图5是本申请实施例提供的一种电子设备的结构示意图;
图6是实现本申请实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的音频合成方法进行详细地说明。
请参见图1,其是本申请实施例提供的一种音频合成方法,该方法应用于电子设备,该方法可以包括步骤1100-步骤1400,以下予以详细说明。
步骤1100,获取目标信息。
在本实施例中,目标信息可以是用户输入的需要转换成音频数据的文本信息。目标信息可以是文本信息,例如,用户通过文本输入方式,输入的语句。目标信息也可以是语音信息,例如,用户录制的语句。
步骤1200,获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量。
在本实施例中,目标发音人的韵律特性参数可以反映目标发音人的说话的韵律特性。该韵律特性可以是朗读中的声韵和节律,具体地,可以包括语句朗读中的长停顿、短停顿、换气位置,也可以包括语句朗读的快慢、重音等。
该韵律特性参数可以包括语速参考向量、停顿长度参考向量和风格向量。
语速参考向量可以表示目标发音人的语速。对于不同发音人,朗读语句的快慢不同,语速参考向量不同。
在一些可选的实施例中,获取语速参考向量,可以进一步包括:步骤2100-步骤2300。
步骤2100,获取所述目标发音人的历史音频数据。
在该实施例中,目标发音人的历史音频数据可以是电子设备存储的目标发音人的音频数据。例如,目标发音人的预先录制的音频数据。还例如,即时通信应用程序中存储的目标发音人的语音聊天记录。
在具体实施时,接收目标发音人的第一输入,响应于第一输入,获取目标发音人的历史音频数据。第一输入可以是对历史音频数据存储目录的输入。需要说明的是,在获取目标发音人的历史音频数据之后,可以对历史音频数据进行筛选,以筛选满足要求的历史音频数据,这样,可以筛选掉信噪比不符合要求以及多人说话的音频数据,提高韵律特性的获取效率。
步骤2200,根据所述历史音频数据,确定所述目标发音人的第一平均语速。
第一平均语速可以是每一音素的平均发音时长。其中,对于中文来说,音素例如可以是语句中的一个声母或者一个韵母。
第一平均语速可以根据目标语句的时长和目标语句所包含的音素的个数进行确定。在具体实施时,从历史音频数据中,获取目标语句,将目标语句的时长与目标语句所包含的音素的个数的比值,作为第一平均语速。
步骤2300,根据所述第一平均语速和预设平均语速,确定所述语速参考向量。
预设平均语速可以反映符合大多数用户的朗读节奏。示例性地,预设平均语速可以是基于大数据确定的平均语速,大数据例如可以包括多个用户的音频数据。在具有实施时,根据第一平均语速S和预设平均语速S’,确定语速参考向量A,可以是根据第一平均语速S与预设平均语速S’的比值,确定语速参考向量。
在本实施例中,使用电子设备存储的目标发音人的历史音频数据,获取目标发音人的语速参考向量,可以使用较多的音频数据获取目标发音人的个性化韵律特性参数,结合后续步骤,可以生成更符合目标发音人的说话习惯的音频数据。此外,可以通过电子设备提取目标发音人的语速参考向量,可以避免用户数据泄露,可以提高交互的安全性。
在本实施例中,停顿长度参考向量可以表示目标发音人朗读语句的停顿习惯。对于不同发音人,朗读语句过程中的停顿位置不同,停顿长度参考向量不同。例如,某些发音人在朗读一句话时习惯每朗读两三个字停顿换气,某些发音人在朗读完整句话时停顿换气。
在一些可选的实施例中,获取停顿长度参考向量,可以进一步包括:步骤3100-步骤3300。
步骤3100,获取所述目标发音人的历史音频数据。
在该实施例中,目标发音人的历史音频数据可以是电子设备存储的目标发音人的音频数据。例如,目标发音人的预先录制的音频数据。还例如,即时通信应用程序中存储的目标发音人的语音聊天记录。
步骤3200,根据所述历史音频数据,确定不同音节长度对应的停顿概率。
在该实施例中,对于中文来说,音节长度可以是朗读的汉字的个数。不同音节长度对应的停顿概率可以如下表所示。
Figure BDA0003285559320000051
Figure BDA0003285559320000061
步骤3300,根据所述不同音节长度对应的停顿概率,确定停顿长度参考向量。
在本实施例中,使用电子设备存储的目标发音人的历史音频数据,获取目标发音人的停顿长度参考向量,可以使用较多的音频数据获取目标发音人的个性化韵律特性参数,结合后续步骤,可以生成更符合目标发音人的说话习惯的音频数据。此外,可以通过电子设备提取目标发音人的停顿长度参考向量,可以避免用户数据泄露,可以提高交互的安全性。
在本实施例中,风格向量可以是表示发音人的韵律风格,例如,自然交流风格、播音风格、朗读小说风格。风格向量可以是对多个发音人进行聚类分析得到的风格向量。风格向量距离相近的发音人,其发音的韵律风格相近。
在本实施例中,可以基于编解码模型进行获取目标发音人的风格向量。以图2示出的风格向量编解码模型为例,从目标发音人的历史音频数据中,提取音频特征X和文本特征参数,将音频特征X输入编码器(Encoder)401,得到风格向量C,之后,将风格向量C和文本特征参数输入解码器(Decoder)402,输出音频特征X’,再之后,对各模块参数进行优化,使得输出的音频特征X’与输入的音频特征X之间的差值小于预设阈值。基于优化后的风格向量编解码模型,得到每一条音频数据的风格向量Ci,将每一条音频数据的风格向量Ci的平均值作为目标发音人的风格向量C。
在本实施例中,使用电子设备存储的目标发音人的历史音频数据,获取目标发音人的风格向量,以使用较多的音频数据获取目标发音人的个性化韵律特性参数,结合后续步骤,可以生成更符合目标发音人的发音特点的音频数据。此外,这样,可以离线提取目标发音人的韵律特性参数,韵律特征参数的提取过程和声学模型的训练过程可独立进行,可以提升训练效率。
在步骤1200之后,执行步骤1300,根据所述目标信息和所述韵律特性参数,确定声学特征信息。
声学特征信息可以是输入声码器以生成音频数据的特征信息。根据声码器的需求,可以选择不同类型的声学特征信息。例如,mel谱、pitch、mgc等。
在本实施例中,声学特征信息即与文本内容有关,还与发音人的朗读习惯和朗读风格有关,也就是说,声学特征信息与文本内容本身的文本韵律有关,还与发音人的韵律特性有关。基于此,根据目标信息和目标发音人的韵律特性参数,确定声学特征信息,以根据声学特征信息生成目标音频,使得目标音频更接近目标发音人的发音特点。
在本申请的一些实施例中,所述根据所述目标信息和所述韵律特性参数,确定声学特征信息,包括:步骤4100-步骤4500。
步骤4100,对所述目标信息进行分析,得到文本特征参数,所述文本特征参数包括第一音素序列和文本韵律。
在本实施例中,由于声学特征信息与文本内容有关,基于此,需要获取目标信息的文本特征参数,以结合目标信息的文本特征参数和目标发音人的韵律特性参数,生成符合目标发音人的说话特点的声学特征信息。
文本特征参数可以包括第一音素序列和文本韵律。第一音素序列可以是根据目标信息的词边界确定的。第一音素序列是基于目标信息的文本内容之间的关联性确定的。文本特征参数还可以包括声调序列、重读等。
在具体实施时,在目标信息为文本信息的情况下,将文本信息输入文本分析模块,输出文本特征参数。文本分析模块可以使用决策树、ME等传统模式分类算法,也可以使用神经网络的BiLstm、Bert、TCN等算法,进行序列标注任务,得到最终的标记结果,即文本特征参数。
需要说明的是,在目标信息为语音信息的情况下,可以对语音信息进行识别,得到与目标信息对应的文本信息,进一步对文本信息进行文本分析,得到文本特征参数。
步骤4200,根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列。
在一些可选地实施例中,所述根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列,可以进一步包括:根据所述文本韵律和所述停顿长度参考向量,生成修正后的韵律信息;根据所述修正后的韵律信息和所述第一音素序列,生成第二音素序列。
在具体实施时,将文本韵律对应的韵律概率作为节点概率,将停顿长度参考向量作为路径概率,使用动态规划算法,找出最优路径,即修正后的韵律信息。之后,将修正后的韵律信息与第一音素序列合并,生成第二音素序列,即包含了韵律信息的音素序列。
步骤4300,根据所述第二音素序列和所述语速参考向量,确定第一音频特征。
在一些可选地实施例中,所述根据所述第二音素序列和所述语速参考向量,确定第一音频特征,可以进一步包括:基于所述第二音素序列进行时长预测,得到第一音素时长;根据所述语速参考向量对所述第一音素时长进行调整,得到第二音素时长;根据所述第二音素时长对所述第二音素序列进行扩展,得到第一音频特征。
第一音素时长可以是根据第二音素序列预测出的每个音素的发音时长。第二音素时长可以是考虑目标发音人的语速的每个音素的发音时长。
在具体实施时,将第二音素序列输入时长预测模块,预测出第一音素时长,之后,语速参考向量对第一音素时长进行调整,得到第二音素时长,之后,根据第二音素时长对第二音素序列进行扩展,得到扩展帧数后的第一音频特征。
步骤4400,根据所述第一音频特征和所述风格向量,确定第二音频特征。
第二音频特征可以是风格向量对第一音频特征影响后得到的音频特征。第二音频特征更符合目标发音人的说话风格。
步骤4500,基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息。其中,所述声学预测模型用于根据第二音频特征得到声学特征信息。
在本申请的一些实施例中,所述基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息之前,所述方法还包括:获取所述目标发音人的第一音频数据,所述第一音频数据为所述目标发音人朗读预设文本的音频数据;基于所述第一音频数据,进行模型训练,得到所述声学预测模型。
在步骤1300之后,执行步骤1400,对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。
在具体实施时,将声学特征信息输入声码器,经转换后得到目标音频数据。其中,根据部署场景和业务需求的不同,可以选择不同的声码器。示例性地,可以是传统的声码器,例如,lpc声码器、world声码器等。示例性地,还可以是神经网络声码器,例如,lpcnet声码器、wavnet声码器、wavrnn声码器、hifigan声码器、melgan声码器等。
请参见图3,其是本申请实施例的一种目标音频数据的合成过程示意图,以目标信息为文本信息为例,具体来讲,将文本信息输入文本分析模块301,输出第一音素序列和文本韵律;文本韵律和第一音素序列输入个性化用户声学模型302;之后,使用文本韵律和停顿长度参考向量B,生成修正后的韵律信息;将修正后的韵律信息与第一音素序列合并,生成包含了韵律信息的音素序列(第二音素序列);之后,根据第二音素序列进行时长预测,预测出每个音素的发音时长(第一音素时长L),之后,语速参考向量A对第一音素时长L进行调整,得到调整后的第二音素时长L’,之后,根据调整后的第二音素时长L’对第二音素序列进行扩展,得到扩展帧数后的第一音频特征X;再之后,将目标发音人的风格向量C叠加或者拼接到第一音频特征X上,输出第二音频特征X’;最后,将第二音频特征X’输入声学预测模型,进行声学预测,输出声学特征Y,将声学特征Y输入声码器303,输出目标音频数据。
在本申请实施例中,获取目标信息和目标发音人的韵律特性参数,根据目标信息和目标发音人的韵律特性参数,确定声学特征信息,并对声学特征信息进行转换,生成与目标信息对应的目标音频数据,这样,可以获取目标发音人的韵律特性参数,并使用目标发音人的韵律特性参数影响声学特征信息的生成,可以根据不同发音人的说话风格和韵律特点,个性化合成目标音频数据,使得生成的目标音频数据更贴近目标发音人的发音特点。此外,本实施例提供的音频合成方法和装置可以应用于电子设备上的屏幕朗读、语音助手的音色、音响的音色等,适用广泛,用户体验好。
需要说明的是,本申请实施例提供的音频合成方法,执行主体可以为音频合成装置,或者该音频合成装置中的用于执行音频合成的方法的控制模块。本申请实施例中以音频合成装置执行音频合成的方法为例,说明本申请实施例提供的音频合成的装置。
参见图4,本申请实施例还提供一种音频合成装置400,该音频合成装置400包括第一获取模块401、第二获取模块402、第一确定模块403和生成模块404。
该第一获取模块401,用于获取目标信息;
该第二获取模块402,用于获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量;
该第一确定模块403,用于根据所述目标信息和所述韵律特性参数,确定声学特征信息;
该生成模块404,用于对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。
可选地,所述第一确定模块,包括:文本分析单元,用于对所述目标信息进行分析,得到文本特征参数,所述文本特征参数包括第一音素序列和文本韵律;第一生成单元,用于根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列;第一确定单元,用于根据所述第二音素序列和所述语速参考向量,确定第一音频特征;第二确定单元,用于根据所述第一音频特征和所述风格向量,确定第二音频特征;第三确定单元,用于基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息。
可选地,所述第一确定单元,具体用于:根据所述文本韵律和所述停顿长度参考向量,生成修正后的韵律信息;根据所述修正后的韵律信息和所述第一音素序列,生成第二音素序列。
可选地,所述第二确定单元,具体用于:基于所述第二音素序列进行时长预测,得到第一音素时长;根据所述语速参考向量对所述第一音素时长进行调整,得到第二音素时长;根据所述第二音素时长对所述第二音素序列进行扩展,得到第一音频特征。
可选地,所述装置还包括:第三获取模块,用于获取所述目标发音人的第一音频数据,所述第一音频数据为所述目标发音人朗读预设文本的音频数据;训练模块,用于基于所述第一音频数据,进行模型训练,得到所述声学预测模型,其中,所述声学预测模型用于根据第二音频特征得到声学特征信息。
可选地,所述韵律特性参数包括语速参考向量,所述第二获取模块,包括:第一获取单元,用于获取所述目标发音人的历史音频数据;第四确定单元,用于根据所述历史音频数据,确定所述目标发音人的第一平均语速;第五确定单元,用于根据所述第一平均语速和预设平均语速,确定所述语速参考向量。
可选地,所述韵律特性参数包括停顿长度参考向量,所述第二获取模块,包括:第二获取单元,用于获取所述目标发音人的历史音频数据;第六确定单元,用于根据所述历史音频数据,确定不同音节长度对应的停顿概率;第七确定单元,用于根据所述不同音节长度对应的停顿概率,确定停顿长度参考向量。
在本申请实施例中,获取目标信息和目标发音人的韵律特性参数,根据目标信息和目标发音人的韵律特性参数,确定声学特征信息,并对声学特征信息进行转换,生成与目标信息对应的目标音频数据,这样,可以获取目标发音人的韵律特性参数,并使用目标发音人的韵律特性参数影响声学特征信息的生成,可以根据不同发音人的说话风格和韵律特点,个性化合成目标音频数据,使得生成的目标音频数据更贴近目标发音人的发音特点。
本申请实施例中的音频合成装置可以是装置,也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备,也可以为非移动电子设备。示例性的,移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本或者个人数字助理(personaldigital assistant,PDA)等,非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage,NAS)、个人计算机(personal computer,PC)、电视机(television,TV)、柜员机或者自助机等,本申请实施例不作具体限定。
本申请实施例中的音频合成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本申请实施例不作具体限定。
本申请实施例提供的音频合成装置能够实现图1的方法实施例实现的各个过程,为避免重复,这里不再赘述。
可选地,如图5所示,本申请实施例还提供一种电子设备500,包括处理器501,存储器502,存储在存储器502上并可在所述处理器501上运行的程序或指令,该程序或指令被处理器501执行时实现上述音频合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
需要说明的是,本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。
图6为实现本申请实施例的一种电子设备的硬件结构示意图。
该电子设备600包括但不限于:射频单元601、网络模块602、音频输出单元603、输入单元604、传感器605、显示单元606、用户输入单元607、接口单元608、存储器609、以及处理器610等部件。
本领域技术人员可以理解,电子设备600还可以包括给各个部件供电的电源(比如电池),电源可以通过电源管理系统与处理器610逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图6中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置,在此不再赘述。
其中,处理器610,用于:获取目标信息;获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量;根据所述目标信息和所述韵律特性参数,确定声学特征信息;对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。
可选地,处理器610在所述根据所述目标信息和所述韵律特性参数,确定声学特征信息时,用于:对所述目标信息进行分析,得到文本特征参数,所述文本特征参数包括第一音素序列和文本韵律;根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列;根据所述第二音素序列和所述语速参考向量,确定第一音频特征;根据所述第一音频特征和所述风格向量,确定第二音频特征;基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息。
可选地,处理器610在所述根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列时,用于:根据所述文本韵律和所述停顿长度参考向量,生成修正后的韵律信息;根据所述修正后的韵律信息和所述第一音素序列,生成第二音素序列。
可选地,处理器610在所述根据所述第二音素序列和所述语速参考向量,确定第一音频特征时,用于:基于所述第二音素序列进行时长预测,得到第一音素时长;根据所述语速参考向量对所述第一音素时长进行调整,得到第二音素时长;根据所述第二音素时长对所述第二音素序列进行扩展,得到第一音频特征。
可选地,处理器610在所述基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息之前,还用于:获取所述目标发音人的第一音频数据,所述第一音频数据为所述目标发音人朗读预设文本的音频数据;基于所述第一音频数据,进行模型训练,得到所述声学预测模型;其中,所述声学预测模型用于根据第二音频特征得到声学特征信息。
可选地,所述韵律特性参数包括语速参考向量,处理器610在所述获取目标发音人的韵律特性参数时,包括:获取所述目标发音人的历史音频数据;根据所述历史音频数据,确定所述目标发音人的第一平均语速;根据所述第一平均语速和预设平均语速,确定所述语速参考向量。
可选地,所述韵律特性参数包括停顿长度参考向量,处理器710在所述获取目标发音人的韵律特性参数时,用于:获取所述目标发音人的历史音频数据;根据所述历史音频数据,确定不同音节长度对应的停顿概率;根据所述不同音节长度对应的停顿概率,确定停顿长度参考向量。
在本申请实施例中,获取目标信息和目标发音人的韵律特性参数,根据目标信息和目标发音人的韵律特性参数,确定声学特征信息,并对声学特征信息进行转换,生成与目标信息对应的目标音频数据,这样,可以获取目标发音人的韵律特性参数,并使用目标发音人的韵律特性参数影响声学特征信息的生成,可以根据不同发音人的说话风格和韵律特点,个性化合成目标音频,使得生成的目标音频数据更贴近目标发音人的发音特点。
应理解的是,本申请实施例中,输入单元604可以包括图形处理器(GraphicsProcessing Unit,GPU)6041和麦克风6042,图形处理器6041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元606可包括显示面板6061,可以采用液晶显示器、有机发光二极管等形式来配置显示面板6061。用户输入单元607包括触控面板6071以及其他输入设备6072。触控面板6071,也称为触摸屏。触控面板6071可包括触摸检测装置和触摸控制器两个部分。其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。存储器609可用于存储软件程序以及各种数据,包括但不限于应用程序和操作系统。处理器610可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器610中。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述音频合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
其中,所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质,包括计算机可读存储介质,如计算机只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等。
本申请实施例另提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现上述音频合成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (16)

1.一种音频合成方法,其特征在于,所述方法包括:
获取目标信息;
获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量;
根据所述目标信息和所述韵律特性参数,确定声学特征信息;
对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标信息和所述韵律特性参数,确定声学特征信息,包括:
对所述目标信息进行分析,得到文本特征参数,所述文本特征参数包括第一音素序列和文本韵律;
根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列;
根据所述第二音素序列和所述语速参考向量,确定第一音频特征;
根据所述第一音频特征和所述风格向量,确定第二音频特征;
基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列,包括:
根据所述文本韵律和所述停顿长度参考向量,生成修正后的韵律信息;
根据所述修正后的韵律信息和所述第一音素序列,生成第二音素序列。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第二音素序列和所述语速参考向量,确定第一音频特征,包括:
基于所述第二音素序列进行时长预测,得到第一音素时长;
根据所述语速参考向量对所述第一音素时长进行调整,得到第二音素时长;
根据所述第二音素时长对所述第二音素序列进行扩展,得到第一音频特征。
5.根据权利要求2所述的方法,其特征在于,所述基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息之前,所述方法还包括:
获取所述目标发音人的第一音频数据,所述第一音频数据为所述目标发音人朗读预设文本的音频数据;
基于所述第一音频数据,进行模型训练,得到所述声学预测模型;
其中,所述声学预测模型用于根据第二音频特征得到声学特征信息。
6.根据权利要求1所述的方法,其特征在于,所述韵律特性参数包括语速参考向量,所述获取目标发音人的韵律特性参数,包括:
获取所述目标发音人的历史音频数据;
根据所述历史音频数据,确定所述目标发音人的第一平均语速;
根据所述第一平均语速和预设平均语速,确定所述语速参考向量。
7.根据权利要求1所述的方法,其特征在于,所述韵律特性参数包括停顿长度参考向量,所述获取目标发音人的韵律特性参数,包括:
获取所述目标发音人的历史音频数据;
根据所述历史音频数据,确定不同音节长度对应的停顿概率;
根据所述不同音节长度对应的停顿概率,确定停顿长度参考向量。
8.一种音频合成装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标信息;
第二获取模块,用于获取目标发音人的韵律特性参数,所述韵律特性参数包括语速参考向量、停顿长度参考向量、风格向量;
第一确定模块,用于根据所述目标信息和所述韵律特性参数,确定声学特征信息;
生成模块,用于对所述声学特征信息进行转换,生成与所述目标信息对应的目标音频数据。
9.根据权利要求8所述的装置,其特征在于,所述第一确定模块,包括:
文本分析单元,用于对所述目标信息进行分析,得到文本特征参数,所述文本特征参数包括第一音素序列和文本韵律;
第一生成单元,用于根据所述文本韵律、所述停顿长度参考向量和所述第一音素序列,生成第二音素序列;
第一确定单元,用于根据所述第二音素序列和所述语速参考向量,确定第一音频特征;
第二确定单元,用于根据所述第一音频特征和所述风格向量,确定第二音频特征;
第三确定单元,用于基于声学预测模型,根据所述第二音频特征,确定所述声学特征信息。
10.根据权利要求9所述的装置,其特征在于,所述第一确定单元,具体用于:
根据所述文本韵律和所述停顿长度参考向量,生成修正后的韵律信息;
根据所述修正后的韵律信息和所述第一音素序列,生成第二音素序列。
11.根据权利要求9所述的装置,其特征在于,所述第二确定单元,具体用于:
基于所述第二音素序列进行时长预测,得到第一音素时长;
根据所述语速参考向量对所述第一音素时长进行调整,得到第二音素时长;
根据所述第二音素时长对所述第二音素序列进行扩展,得到第一音频特征。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第三获取模块,用于获取所述目标发音人的第一音频数据,所述第一音频数据为所述目标发音人朗读预设文本的音频数据;
训练模块,用于基于所述第一音频数据,进行模型训练,得到所述声学预测模型,其中,所述声学预测模型用于根据第二音频特征得到声学特征信息。
13.根据权利要求8所述的装置,其特征在于,所述韵律特性参数包括语速参考向量,所述第二获取模块,包括:
第一获取单元,用于获取所述目标发音人的历史音频数据;
第四确定单元,用于根据所述历史音频数据,确定所述目标发音人的第一平均语速;
第五确定单元,用于根据所述第一平均语速和预设平均语速,确定所述语速参考向量。
14.根据权利要求8所述的装置,其特征在于,所述韵律特性参数包括停顿长度参考向量,所述第二获取模块,包括:
第二获取单元,用于获取所述目标发音人的历史音频数据;
第六确定单元,用于根据所述历史音频数据,确定不同音节长度对应的停顿概率;
第七确定单元,用于根据所述不同音节长度对应的停顿概率,确定停顿长度参考向量。
15.一种电子设备,其特征在于,包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的音频合成方法的步骤。
16.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的音频合成方法的步骤。
CN202111148956.2A 2021-09-28 2021-09-28 音频合成方法、装置、电子设备和可读存储介质 Active CN113870828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111148956.2A CN113870828B (zh) 2021-09-28 2021-09-28 音频合成方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111148956.2A CN113870828B (zh) 2021-09-28 2021-09-28 音频合成方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN113870828A true CN113870828A (zh) 2021-12-31
CN113870828B CN113870828B (zh) 2025-06-03

Family

ID=78992368

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111148956.2A Active CN113870828B (zh) 2021-09-28 2021-09-28 音频合成方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN113870828B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117219055A (zh) * 2023-10-27 2023-12-12 之江实验室 一种基于音色分离的语音生成方法、装置、介质及设备
WO2025118859A1 (zh) * 2023-12-04 2025-06-12 北京字跳网络技术有限公司 用于生成音频的方法、装置、电子设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280680A (ja) * 2002-03-25 2003-10-02 Canon Inc 音声合成装置およびその方法およびそのプログラムならびに記憶媒体
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110782870A (zh) * 2019-09-06 2020-02-11 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
CN112365880A (zh) * 2020-11-05 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备及存储介质
CN112687259A (zh) * 2021-03-11 2021-04-20 腾讯科技(深圳)有限公司 一种语音合成方法、装置以及可读存储介质
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN113409764A (zh) * 2021-06-11 2021-09-17 北京搜狗科技发展有限公司 一种语音合成方法、装置和用于语音合成的装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280680A (ja) * 2002-03-25 2003-10-02 Canon Inc 音声合成装置およびその方法およびそのプログラムならびに記憶媒体
US20090055188A1 (en) * 2007-08-21 2009-02-26 Kabushiki Kaisha Toshiba Pitch pattern generation method and apparatus thereof
CN105118499A (zh) * 2015-07-06 2015-12-02 百度在线网络技术(北京)有限公司 韵律停顿预测方法和装置
CN108962217A (zh) * 2018-07-28 2018-12-07 华为技术有限公司 语音合成方法及相关设备
CN110288973A (zh) * 2019-05-20 2019-09-27 平安科技(深圳)有限公司 语音合成方法、装置、设备及计算机可读存储介质
CN110782870A (zh) * 2019-09-06 2020-02-11 腾讯科技(深圳)有限公司 语音合成方法、装置、电子设备及存储介质
CN112365880A (zh) * 2020-11-05 2021-02-12 北京百度网讯科技有限公司 语音合成方法、装置、电子设备及存储介质
CN112786009A (zh) * 2021-02-26 2021-05-11 平安科技(深圳)有限公司 语音合成方法、装置、设备及存储介质
CN112687259A (zh) * 2021-03-11 2021-04-20 腾讯科技(深圳)有限公司 一种语音合成方法、装置以及可读存储介质
CN113409764A (zh) * 2021-06-11 2021-09-17 北京搜狗科技发展有限公司 一种语音合成方法、装置和用于语音合成的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴晓如, 王仁华, 刘庆峰: "基于韵律特征和语法信息的韵律边界检测模型", 中文信息学报, no. 05, 25 May 2003 (2003-05-25) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117219055A (zh) * 2023-10-27 2023-12-12 之江实验室 一种基于音色分离的语音生成方法、装置、介质及设备
WO2025118859A1 (zh) * 2023-12-04 2025-06-12 北京字跳网络技术有限公司 用于生成音频的方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN113870828B (zh) 2025-06-03

Similar Documents

Publication Publication Date Title
CN108573693B (zh) 文本到语音系统和方法以及其存储介质
US11514886B2 (en) Emotion classification information-based text-to-speech (TTS) method and apparatus
EP3469592B1 (en) Emotional text-to-speech learning system
CN110136692B (zh) 语音合成方法、装置、设备及存储介质
CN113658577B (zh) 一种语音合成模型训练方法、音频生成方法、设备及介质
CN111048062A (zh) 语音合成方法及设备
CN106486121B (zh) 应用于智能机器人的语音优化方法及装置
US20230298564A1 (en) Speech synthesis method and apparatus, device, and storage medium
CN112329451B (zh) 手语动作视频生成方法、装置、设备及存储介质
CN112785667B (zh) 视频生成方法、装置、介质及电子设备
CN113948062A (zh) 数据转换方法及计算机存储介质
CN114242093A (zh) 语音音色转换方法、装置、计算机设备和存储介质
US20230148275A1 (en) Speech synthesis device and speech synthesis method
CN116597858A (zh) 语音口型匹配方法、装置、存储介质及电子设备
CN113421571B (zh) 一种语音转换方法、装置、电子设备和存储介质
CN113870828B (zh) 音频合成方法、装置、电子设备和可读存储介质
CN113948061A (zh) 语音合成方法、系统、语音合成模型及其训练方法
CN115700871A (zh) 模型训练和语音合成方法、装置、设备及介质
KR20230067501A (ko) 음성 합성 장치 및 그의 음성 합성 방법
CN113870838A (zh) 一种语音合成方法、装置、设备及介质
CN112242134A (zh) 语音合成方法及装置
CN114863910A (zh) 语音合成方法、装置、电子设备及存储介质
JP6289950B2 (ja) 読み上げ装置、読み上げ方法及びプログラム
CN112992116A (zh) 一种视频内容自动生成方法和系统
JP2021177228A (ja) 多言語多話者個性表現音声合成のための電子装置およびこの処理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant