CN111048094A - 音频信息调整方法、装置、设备和介质 - Google Patents
音频信息调整方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111048094A CN111048094A CN201911174875.2A CN201911174875A CN111048094A CN 111048094 A CN111048094 A CN 111048094A CN 201911174875 A CN201911174875 A CN 201911174875A CN 111048094 A CN111048094 A CN 111048094A
- Authority
- CN
- China
- Prior art keywords
- audio information
- audio
- adjusted
- sentence
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 71
- 238000004590 computer program Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 12
- 230000006978 adaptation Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种音频信息调整方法、装置、设备和介质,用以解决现有技术中对待调整音频信息进行音频信息调整的效率低下的问题。在本发明中,通过根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定该待调整音频信息对应的目标标准音频信息;确定该待调整音频信息中每一语句对应的包含该语句的音频的属性特征的第一特征向量;针对每一语句,若待调整音频信息中该语句的音频的第一特征向量中存在与目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整待调整音频信息中该语句的音频的目标属性特征对应的参数。通过对待调整音频信息的自动调整提高了音频信息调整的效率。
Description
技术领域
本发明涉及声音处理技术领域,尤其涉及一种音频信息调整方法、装置、设备和介质。
背景技术
随着科技的进步、社会的发展、经济的提升、互联网的快速普及和5G网络时代的到来,越来越多的用户喜欢通过拍摄音视频的方式来展现自己。用户可以通过网络进行唱K、拍抖音等娱乐活动,但是很多用户才艺有限,由于唱歌跑调、说话不流畅,造成用户不好意思在互联网上展现自己。
另外,在影视行业的配音领域,若配音中存在一点差错,就需要进行重新配音,而为了减少重新配音的次数,可以采用对配音音频进行音频信息调整的方法使配音音频符合配音的要求;此外,歌手在进行录制歌曲时,为了使录制的歌曲更加专业,也会对录制的歌曲音频进行音频信息调整。
但现有技术中对待调整音频信息进行音频信息调整,主要是由专业的调音师人工进行音频信息调整,造成对音频信息调整的效率低。
发明内容
本发明实施例提供了一种音频信息调整方法、装置、设备和介质,用以解决现有的对待调整音频信息进行音频信息调整的效率低下的问题。
本发明实施例提供了一种音频信息调整方法,所述方法包括:
根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息;
确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量;
针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
进一步地,所述根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息之前,所述方法还包括:
对所述待调整音频信息进行过滤处理。
进一步地,所述音频的属性特征包括音频的平均音量、音频时长、音频中每个字的平均频率和音频的节拍。
进一步地,通过如下方式确定所述待调整音频信息中的每一语句:
将所述待调整音频信息转化为文本;
将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
进一步地,确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,包括:
确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;
若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,并确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
本发明实施例提供了一种音频信息调整装置,所述装置包括:
确定模块,用于根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息;确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量;
调整模块,用于针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
进一步地,所述装置还包括:
过滤模块,用于对所述待调整音频信息进行过滤处理。
进一步地,所述确定模块,具体用于将所述待调整音频信息转化为文本;将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
进一步地,所述调整模块,具体用于确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,并确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
本发明实施例提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储程序指令,所述处理器用于执行存储器中存储的计算机程序时实现上述音频信息调整方法中任一所述方法的步骤。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述音频信息调整方法中任一所述方法的步骤。
本发明实施例提供了一种音频信息调整方法、装置、设备和介质,该方法根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定该待调整音频信息对应的目标标准音频信息;确定该待调整音频信息中每一语句对应的包含该语句的音频的属性特征的第一特征向量;针对每一语句,若该待调整音频信息中该语句的音频的第一特征向量存在与目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整该待调整音频信息中该语句的音频的目标属性特征对应的参数,使该待调整音频信息的该语句的音频与目标标准音频信息的该语句的音频相似。实现了对待调整音频信息的自动调整,从而提高了音频信息调整的效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种音频信息调整方法的过程示意图;
图2为本发明实施例提供的另一种音频信息调整方法的过程示意图;
图3为本发明实施例提供的一种音频信息调整装置的结构示意图;
图4为发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了提高音频信息调整的效率,本发明实施例提供了一种音频信息调整方法、装置、设备和介质。
实施例1:
图1为本发明实施例提供的一种音频信息调整过程示意图,该过程包括以下步骤:
S101:根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息。
该音频信息调整方法应用于智能设备,例如可以是智能手机、PC等智能设备。该待调整音频信息是智能设备采集到的用户输入的音频信息。
输入的音频信息一般是对某一标准音频信息的模仿,为了方便调整,预先获取每个标准音频信息并保存,该标准音频信息可以是由专业配音演员预先录制好的配音音频信息,或者是专业的歌曲演唱人员预先录制好的歌曲音频信息,或原曲音频信息。
在确定该待调整音频信息对应的目标标准音频信息时,主要是通过语义匹配的方法,首先获取该待调整音频信息的语义,从所有预先保存的标准音频信息中确定出与该待调整音频信息的语义相匹配的目标标准音频信息。
例如,该待调整音频信息为歌曲音频信息时,获取该歌曲音频信息的语义,即该歌曲音频信息的歌词,根据语义匹配的方法,从预先保存的标准音频信息中确定出与该歌词匹配度最高的歌曲原曲音频信息。
其中,通过语义匹配的方法确定匹配的音频信息的过程属于现有技术,在本发明实施例中对该过程不进行赘述。
S102:确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量。
该待调整音频信息中的每一语句的音频是指该待调整音频信息中的部分音频,即一个音频段,由于目标标准音频信息中对每一语句对应的音频段是已知的,目标标准音频信息与待调整音频信息中的每一语句是对应的,因此根据该目标标准音频信息中对每一语句对应的音频段,可以确定该待调整音频信息中的每一语句对应的音频段。
音频的属性特征是指影响用户感官的声音特征,包括音量、音质、音长、音强、音高、重音、韵律等声音特征信息。因此在确定每个语句的音频的属性特征时,可以在上述属性特征中选择至少一种作为描述音频的属性特征,例如可以是音量以及节拍等。
在确定了本发明实施例中进行比对的属性特征包含哪些声音特征信息后,可以根据确定的属性特征,确定出每一语句的音频的第一特征向量。
根据该待调整音频信息中的每一语句的音频的属性特征,确定出该待调整音频信息中每一语句的音频的第一特征向量。其中确定音频的属性特征的过程属于现有技术。
S103:针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
为了使待调整音频信息的每一语句的音频与目标标准音频信息的每一语句的音频相似,可以先判断该待调整音频信息的每一语句的音频与该目标标准音频信息中的对应语句的音频是否相似,如果不相似,则对待调整音频信息进行调整。因为待调整音频信息的每一语句的音频是包括多个属性特征的,也就是有多维属性特征,因此在判断是否相似时,可以针对该待调整音频信息的每一语句的音频的第一特征向量中的每一维属性特征进行判断。
针对该待调整音频信息的每一语句,识别待调整音频信息的该语句的音频的每一维属性特征,判断其与目标标准音频信息的该语句的音频的对应属性特征是否相似,如果不相似,则调整该待调整音频信息中该语句的音频的不相似的属性特征对应的参数。
在确定对应语句时,因为已经确定了待调整音频信息的每一语句的音频的第一特征向量,并预先确定了目标标准音频信息的每一语句的音频的第二特征向量,可以按照语句在待调整音频信息和目标标准音频信息中的先后顺序,分别确定对应的第一特征向量和第二特征向量中对应的属性特征是否相似。
在进行调整时,因为已经确定了不相似的目标属性特征,以及对应的语句的音频,因此可以针对待调整音频信息中该语句的音频进行调整。具体调整哪些参数可以改变该不相似的语句的对应音频的该目标属性特征属于现有技术。
其中,该不相似的目标属性特征可以是一个,也可以是多个。例如,以该不相似的目标属性特征为音频时长为例,待调整音频信息中该语句对应的音频时长较标准音频信息中该语句对应的音频时长较长时,将该语句对应的音频时长调整至与目标标准音频信息中该语句对应的音频时长一致。
本发明实施例提供了一种音频信息调整方法、装置、设备和介质,该方法根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定该待调整音频信息对应的目标标准音频信息;确定该待调整音频信息中每一语句对应的包含该语句的音频的属性特征的第一特征向量;针对每一语句,若该待调整音频信息中该语句的音频的第一特征向量中存在与目标标准音频信息中该语句的音频的第二特征向量不相似的目标属性特征,调整该待调整音频信息中该语句的音频的目标属性特征对应的参数,使该待调整音频信息的该语句的音频与目标标准音频信息的该语句的音频相似。实现了对待调整音频信息的自动调整,从而提高了音频信息调整的效率。
实施例2:
为了提高音频信息调整的准确率,在上述实施例的基础上,在本发明实施例中,所述根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息之前,所述方法还包括:
对所述待调整音频信息进行过滤处理。
为了提高音频信息调整的准确率,在确定该待调整音频信息对应的目标标准音频信息前,还可以对该待调整音频信息进行过滤处理,使得该待调整音频信息只存在具备生物声纹特征的音频信息。
该过滤处理是指将该待调整音频信息中包含的不具备生物声纹特征的音频信息从该待调整音频信息中删除,使该待调整音频信息中只存在具备生物声纹特征的音频信息。
具体的,可以采用现有技术中的音频过滤软件对该待调整音频信息进行过滤处理。
实施例3:
为了准确地对音频信息进行调整,在上述各实施例的基础上,在本发明实施例中,所述音频的属性特征包括音频的平均音量、音频时长、音频中每个字的平均频率和音频的节拍。
为了提高音频信息调整的效率,在对待调整音频信息进行调整时,主要针对于对用户感官影响较大的音频的属性特征进行调整,该音频的属性特征包括音频的平均音量、音频时长、音频中每个字的平均频率和音频的节拍。
该音频的平均音量是指该音频的时长内所有音量值之和在该时长内的平均值;该音频时长是指该音频从开始到结束的时长;该音频中每个字的平均频率是指该音频中每个字的平均频率,确定音频中每个字的平均频率需要确定音频中该字从开始到结束的所有频率值之和在该字时长内的平均值;音频的节拍是指该音频所属的强拍和弱拍的组合规律,常见的节拍有1/4拍、2/4拍、3/4拍、4/4拍等。
其中,确定该音频的平均音量的方法、确定每个字的平均频率的方法、确定节拍的方法均属于现有技术,在本发明实施例中对该过程不进行赘述。
实施例4:
为了准确地对音频信息进行调整,在上述各实施例的基础上,在本发明实施例中,通过如下方式确定所述待调整音频信息中的每一语句:
将所述待调整音频信息转化为文本;
将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
在确定该待调整音频信息中的每一语句时,将该待调整音频信息转化为文本,通过该文本确定该待调整音频信息中的每一语句。
其中,将待调整音频信息转化为文本的方法属于现有技术。
具体的,确定该文本中任意相邻的两个标点符号之间的字符串为一个语句。该标点符号包括句号和逗号,也包括其它可以区分语句的标点符号,例如感叹号、问号等标点符号。其中,该文本中的每一语句对应一段音频,即对应一个音频段。
其中,将音频信息转化文本中的每一语句与音频信息中的音频段进行对应的方法属于现有技术。
实施例5:
为了准确的实现对音频信息的调整,在上述各实施例的基础上,在本发明实施例中,确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,包括:
确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;
若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
该阈值是预先设定的,每一维属性特征均有其对应的阈值,并且每一维属性特征对应的阈值可以相同,也可以不同。其中,每一维属性特征的阈值可以根据具体的场景不同,可以设置为不同值。如果希望提高待调整音频信息与标准音频信息的相似度,可以将每一维属性特征对应的阈值设置得大一些,如果希望提高对待调整音频信息进行调整的效率,则可以将每一维属性特征对应的阈值设置得小一些。
例如,该属性特征为音频的平均音量和音频时长时,可以将音频的平均音量和音频时长设置为相同的阈值,例如0.9、0.91等,也可以根据不同的要求,将音频的平均音量和音频时长对应的阈值设置为不同的值。若希望提高待调整音频信息在音频时长的相似度时,可以将该音频时长的阈值设置地较大一些,例如0.97、0.98等,若希望提高对待调整音频信息的音频的平均音量的调整效率时,可以将音频的平均音量的阈值设置地较小一些,例如0.8、0.75等。
针对该待调整音频信息中每一语句的音频,在确定该待调整音频信息中该语句的音频的第一特征向量中是否存在与目标标准音频信息中该语句的音频第二特征向量中不相似的目标属性特征时,需要确定该待调整音频信息中该语句的音频的每一维属性特征与该目标标准音频信息中该语句的音频的对应属性特征的相似度,判断该相似度是否小于该属性特征对应的阈值。
如果该相似度大于该属性特征对应的阈值,说明该待调整音频信息中该语句的音频的该维属性特征与该目标标准音频信息中该语句的音频的对应属性特征相似;如果该相似度小于该属性特征对应的阈值,说明该待调整音频信息中该语句的音频的该维属性特征与该目标标准音频信息中该语句的音频的对应属性特征不相似。
具体的,确定该待调整音频信息中该语句的音频的每一维属性特征与该目标标准音频信息中该语句的音频的对应属性特征的相似度主要通过获取该待调整音频信息中该语句的音频的每一维属性特征的参数与该目标标准音频信息中该语句的音频的对应属性特征的参数来确定相似度。
其中分别针对每一维属性信息,介绍相似度的确定方法:
1、确定音频的平均音量的相似度:获取该待调整音频信息中该语句的音频的平均音量值,判断该待调整音频信息中该语句的音频的平均音量值与目标标准音频中该语句的音频的平均音量值的差值,确定该差值与目标标准音频中该语句的音频的平均音量值的比值,1与该比值的差值即为该待调整音频信息中该语句的音频的平均音量的相似度。
2、确定音频的时长的相似度:获取该待调整音频信息中该语句的音频的时长值,判断该待调整音频信息中该语句的音频的时长值与目标标准音频中该语句的音频的时长值的差值,确定该差值与目标标准音频中该语句的音频的时长值的比值,1与该比值的差值即为该待调整音频信息中该语句的音频时长的相似度。
3、确定音频中每个字的平均频率的相似度:获取该待调整音频信息中该语句的音频中每个字的平均频率值,判断该待调整音频信息中该语句的音频中每个字的平均频率值与目标标准音频中该语句的音频中每个字的平均频率值的差值,确定该差值与目标标准音频中该语句的音频中每个字的平均频率值的比值,1与该比值的差值即为该待调整音频信息中该语句的音频中每个字的平均频率的相似度。
4、确定音频的节拍的相似度:获取该待调整音频信息中该语句的音频的节拍,判断该待调整音频信息中该语句的音频的节拍与目标标准音频中该语句的音频的节拍是否属于同一个节拍,若是,则确定该音频的节拍的相似度为1,即完全相似,若不是,则确定该音频的节拍的相似度为0,即完全不相似。
实施例6:
下面通过一个具体的实施例,对本发明的音频信息调整方法进行说明。以该待调整音频信息为录制的音频信息A为例,图2为本发明实施例提供的音频信息调整的过程示意图,该过程包括以下步骤:
S201:对录制的该音频信息A进行过滤处理。
S202:根据过滤处理后的该音频信息A的语义及预先保存的每个标准音频信息的语义,确定该音频信息A对应的目标标准音频信息B。
S203:确定该音频信息A中每一语句对应的包含该语句的音频的属性特征的第一特征向量。
S204:针对每一语句,若该音频信息A中该语句的音频的第一特征向量中存在与目标标准音频信息B中该语句的音频的第二特征向量中不相似的目标属性特征,调整该音频信息A中该语句的音频的目标属性特征对应的参数,使该音频信息A的该语句的音频与目标标准音频信息B的该语句的音频相似。
S205:获得调整后的音频信息A。
实施例7:
图3为本发明实施例提供的一种音频信息调整装置的结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种音频信息调整装置,该装置包括:
确定模块301,用于根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息;确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量;
调整模块302,用于针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
所述装置还包括:
过滤模块303,用于对所述待调整音频信息进行过滤处理。
所述确定模块301,具体用于将所述待调整音频信息转化为文本;将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
所述调整模块302,具体用于确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,并确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
实施例8:
图4为本发明实施例提供的一种电子设备的结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,包括处理器401和存储器402,处理器401用于执行存储器402中存储的计算机程序时实现上述核保数据处理方法的步骤。
可选的,处理器401可以是CPU(中央处埋器)、ASIC(Application SpecificIntegrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或CPLD(Complex Programmable Logic Device,复杂可编程逻辑器件)。
处理器401,用于按照存储器402中存储的计算机程序时执行如下步骤:
根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息;
确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量;
针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
所述根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息之前,所述方法还包括:
对所述待调整音频信息进行过滤处理。
所述音频的属性特征包括音频的平均音量、音频时长、音频中每个字的平均频率和音频的节拍。
通过如下方式确定所述待调整音频信息中的每一语句:
将所述待调整音频信息转化为文本;
将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,包括:
确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;
若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,并确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
实施例9:
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行如下步骤:
根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息;
确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量;
针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
所述根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息之前,所述方法还包括:
对所述待调整音频信息进行过滤处理。
所述音频的属性特征包括音频的平均音量、音频时长、音频中每个字的平均频率和音频的节拍。
通过如下方式确定所述待调整音频信息中的每一语句:
将所述待调整音频信息转化为文本;
将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,包括:
确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;
若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,并确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (11)
1.一种音频信息调整方法,其特征在于,所述方法包括:
根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息;
确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量;
针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
2.根据权利要求1所述的方法,其特征在于,所述根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息之前,所述方法还包括:
对所述待调整音频信息进行过滤处理。
3.根据权利要求1所述的方法,其特征在于,所述音频的属性特征包括音频的平均音量、音频时长、音频中每个字的平均频率和音频的节拍。
4.根据权利要求1所述的方法,其特征在于,通过如下方式确定所述待调整音频信息中的每一语句:
将所述待调整音频信息转化为文本;
将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
5.根据权利要求1所述的方法,其特征在于,确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,包括:
确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;
若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,并确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
6.一种音频信息调整装置,其特征在于,所述装置包括:
确定模块,用于根据采集到的待调整音频信息的语义及预先保存的每个标准音频信息的语义,确定所述待调整音频信息对应的目标标准音频信息;确定所述待调整音频信息中每一语句对应的包含所述语句的音频的属性特征的第一特征向量;
调整模块,用于针对每一语句,若所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征,调整所述待调整音频信息中该语句的音频的所述目标属性特征对应的参数,使所述待调整音频信息的该语句的音频与所述目标标准音频信息的该语句的音频相似。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
过滤模块,用于对所述待调整音频信息进行过滤处理。
8.根据权利要求6所述的装置,其特征在于,所述确定模块,具体用于将所述待调整音频信息转化为文本;将所述文本中任意相邻的两个标点符号之间的字符串确定为一个语句,其中所述标点符号包括逗号和句号。
9.根据权利要求6所述的装置,其特征在于,所述调整模块,具体用于确定所述待调整音频信息中该语句的音频的每一属性特征与所述目标标准音频信息中该语句的音频的对应属性特征的相似度;若存在相似度小于对应阈值的属性特征,将所述相似度小于对应阈值的属性特征确定为目标属性特征,并确定所述待调整音频信息中该语句的音频的第一特征向量中存在与所述目标标准音频信息中该语句的音频的第二特征向量中不相似的目标属性特征。
10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-5中任一所述音频信息调整方法的步骤。
11.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述音频信息调整方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911174875.2A CN111048094A (zh) | 2019-11-26 | 2019-11-26 | 音频信息调整方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911174875.2A CN111048094A (zh) | 2019-11-26 | 2019-11-26 | 音频信息调整方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111048094A true CN111048094A (zh) | 2020-04-21 |
Family
ID=70233431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911174875.2A Pending CN111048094A (zh) | 2019-11-26 | 2019-11-26 | 音频信息调整方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111048094A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810211A (zh) * | 2015-07-13 | 2016-07-27 | 维沃移动通信有限公司 | 一种音频数据的处理方法及终端 |
CN106611603A (zh) * | 2015-10-26 | 2017-05-03 | 腾讯科技(深圳)有限公司 | 一种音频处理方法及装置 |
CN108337558A (zh) * | 2017-12-26 | 2018-07-27 | 努比亚技术有限公司 | 音视频剪辑方法及终端 |
CN108665881A (zh) * | 2018-03-30 | 2018-10-16 | 北京小唱科技有限公司 | 修音控制方法及装置 |
CN108766452A (zh) * | 2018-04-03 | 2018-11-06 | 北京小唱科技有限公司 | 修音方法及装置 |
CN110148427A (zh) * | 2018-08-22 | 2019-08-20 | 腾讯数码(天津)有限公司 | 音频处理方法、装置、系统、存储介质、终端及服务器 |
-
2019
- 2019-11-26 CN CN201911174875.2A patent/CN111048094A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105810211A (zh) * | 2015-07-13 | 2016-07-27 | 维沃移动通信有限公司 | 一种音频数据的处理方法及终端 |
CN106611603A (zh) * | 2015-10-26 | 2017-05-03 | 腾讯科技(深圳)有限公司 | 一种音频处理方法及装置 |
CN108337558A (zh) * | 2017-12-26 | 2018-07-27 | 努比亚技术有限公司 | 音视频剪辑方法及终端 |
CN108665881A (zh) * | 2018-03-30 | 2018-10-16 | 北京小唱科技有限公司 | 修音控制方法及装置 |
CN108766452A (zh) * | 2018-04-03 | 2018-11-06 | 北京小唱科技有限公司 | 修音方法及装置 |
CN110148427A (zh) * | 2018-08-22 | 2019-08-20 | 腾讯数码(天津)有限公司 | 音频处理方法、装置、系统、存储介质、终端及服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109657213B (zh) | 文本相似度检测方法、装置和电子设备 | |
WO2020024690A1 (zh) | 语音标注方法、装置及设备 | |
CN107464555B (zh) | 增强包含语音的音频数据的方法、计算装置和介质 | |
US10665218B2 (en) | Audio data processing method and device | |
KR102128926B1 (ko) | 오디오 정보 처리 방법 및 디바이스 | |
CN109671416B (zh) | 基于增强学习的音乐旋律生成方法、装置及用户终端 | |
CN105161116B (zh) | 多媒体文件高潮片段的确定方法及装置 | |
CN109326270B (zh) | 音频文件的生成方法、终端设备及介质 | |
JP2017058483A (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
CN106157979B (zh) | 一种获取人声音高数据的方法和装置 | |
CN108766451B (zh) | 一种音频文件处理方法、装置和存储介质 | |
CN106302987A (zh) | 一种音频推荐方法及设备 | |
CN105718486B (zh) | 在线哼唱检索方法及系统 | |
CN105244041A (zh) | 歌曲试唱的评价方法及装置 | |
CN109190879B (zh) | 一种训练改编水平评价模型、评价改编水平的方法及装置 | |
CN106550268B (zh) | 视频处理方法和视频处理装置 | |
CN110781275B (zh) | 基于多特征的问题可回答性判别方法及计算机存储介质 | |
CN110312161B (zh) | 一种视频配音方法、装置及终端设备 | |
KR20160056104A (ko) | 사용자 음색 분석 장치 및 음색 분석 방법 | |
KR102018286B1 (ko) | 음원 내 음성 성분 제거방법 및 장치 | |
CN110942765A (zh) | 一种构建语料库的方法、设备、服务器和存储介质 | |
CN112182327A (zh) | 一种数据处理方法、装置、设备及介质 | |
CN110070891A (zh) | 一种歌曲识别方法、装置以及存储介质 | |
CN105895079A (zh) | 语音数据的处理方法和装置 | |
CN110708619B (zh) | 一种智能设备的词向量训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200421 |
|
RJ01 | Rejection of invention patent application after publication |