CN110931021A - 一种音频信号处理方法及装置 - Google Patents
一种音频信号处理方法及装置 Download PDFInfo
- Publication number
- CN110931021A CN110931021A CN201911034571.6A CN201911034571A CN110931021A CN 110931021 A CN110931021 A CN 110931021A CN 201911034571 A CN201911034571 A CN 201911034571A CN 110931021 A CN110931021 A CN 110931021A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- amplitude
- audio
- range
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 307
- 238000003672 processing method Methods 0.000 title claims abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 61
- 238000001514 detection method Methods 0.000 claims abstract description 44
- 238000005070 sampling Methods 0.000 claims description 208
- 238000000034 method Methods 0.000 claims description 47
- 238000004891 communication Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本申请公开一种音频信号处理方法及装置,其中,音频信号处理方法包括:获取存在截幅的第一音频信号;获取用于表示所述第一音频信号的截幅比例的目标数据;若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。采用本申请的技术方案,能够尽可能多地保留有效音频信号,使得音频信号的可使用率得到较大的提升。
Description
技术领域
本发明涉及通信技术领域,尤其涉及一种音频信号处理方法及装置。
背景技术
在声纹识别过程中,音频信号的前期预处理十分关键,对后续的识别准确率有极大的影响。其中,前期预处理包括对音频信号的截幅检测。音频信号的截幅主要是由于音频信号的幅值过高,超过了采样值范围的最大值,从而出现了截幅,也叫截顶现象。
截幅会导致语音信号中的信息受损,现有技术中,一旦检测到一段语音信号存在截幅,就将该段语音信号丢弃,这种方式会导致很多有效语音信号的丢失。
发明内容
本发明实施例提供一种音频信号处理方法及装置,能够保留更多的有效音频信号,使得音频信号的可使用率得到较大的提升。
第一方面,本发明实施例提供了一种音频信号处理方法,包括:
获取存在截幅的第一音频信号,所述第一音频信号包括N个采样点,所述N为正整数;
获取用于表示所述第一音频信号的截幅比例的目标数据,所述截幅比例用于表示所述N个采样点中存在截幅的采样点的数量与所述N之间的比值;
若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;
对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。
在一种可能的实现方式中,所述对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号,包括:
针对所述至少两个音频段中的每个音频段,检测所述音频段是否存在截幅;
若所述音频段存在截幅,则将所述音频段丢弃;
获取所述至少两个音频段中所述丢弃后的剩余音频段;
根据所述剩余音频段,获得第二音频信号。
在一种可能的实现方式中,检测所述第二音频信号的音频长度是否大于或者等于第一阈值;
若所述第二音频信号的音频长度大于或者等于所述第一阈值,则确定所述第二音频信号为可用的音频信号;
若所述第二音频信号的音频长度小于所述第一阈值,则将所述第二语音信号丢弃。
在一种可能的实现方式中,所述至少两个音频段中的每个音频段包括至少一个采样点,所述检测所述音频段是否存在截幅,包括:
获取所述音频段包括的至少一个采样点中每个采样点的幅度值;
若所述至少一个采样点的幅度值满足第一条件,则确定所述音频段存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
在另一种可能的实现方式中,所述获取存在截幅的第一音频信号之前,还包括:
获取所述第一音频信号包括的N个采样点中每个采样点的幅度值;
若所述N个采样点的幅度值满足第一条件,则确定所述第一音频信号存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
在一种可能的实现方式中,所述N个采样点中每个采样点的幅度值属于目标采样范围;
所述第二阈值为所述目标采样范围的最大值与目标比例的乘积。
在又一种可能的实现方式中,所述获取存在截幅的第一音频信号之前,还包括:
将目标采样范围划分为至少两个子范围,所述至少两个子范围之间互不重叠,所述目标采样范围为所述第一音频信号包括的N个采样点的幅度值所在的范围;
统计所述N个采样点的幅度值中属于所述至少两个子范围中每个子范围的采样点的数量;
构建直方图,所述直方图的横轴包括所述至少两个子范围,所述直方图的纵轴包括属于所述子范围的采样点的数量;
若所述直方图的变化趋势满足第二条件,则确定所述第一音频信号存在截幅。
在一种可能的实现方式中,所述获取用于表示所述第一音频信号的截幅比例的目标数据,包括:
从所述至少两个子范围中确定第一子范围,所述第一子范围的幅度值为所述至少两个子范围中幅度值最大的子范围;
获取所述N个采样点中幅度值属于所述第一子范围的采样点的数量,作为第一数量;
计算所述第一数量与所述N之间的比值,并将所述比值作为用于表示所述第一音频信号的截幅比例的目标数据。
在一种可能的实现方式中,所述目标范围的最大值为第三阈值,所述目标范围的最小值为第四阈值,所述方法还包括:
若所述目标数据大于所述第三阈值,则将所述第一音频信号丢弃;
若所述目标数据小于所述第四阈值,将所述第一音频信号确定为可用的音频信号。
第二方面,本发明实施例提供一种音频信号处理装置,包括:
第一获取单元,用于获取存在截幅的第一音频信号,所述第一音频信号包括N个采样点,所述N为正整数;
第二获取单元,用于获取用于表示所述第一音频信号的截幅比例的目标数据,所述截幅比例用于表示所述N个采样点中存在截幅的采样点的数量与所述N之间的比值;
第一划分单元,用于若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;
第三获取单元,用于对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。
在一种可能的实现方式中,所述第三获取单元具体用于:
针对所述至少两个音频段中的每个音频段,检测所述音频段是否存在截幅;
若所述音频段存在截幅,则将所述音频段丢弃;
获取所述至少两个音频段中所述丢弃后的剩余音频段;
根据所述剩余音频段,获得第二音频信号。
在一种可能实现的实施方式中,所述装置还包括:
检测单元,用于检测所述第二音频信号的音频长度是否大于或者等于第一阈值;
第一确定单元,用于若所述第二音频信号的音频长度大于或者等于所述第一阈值,则确定所述第二音频信号为可用的音频信号;
若所述第二音频信号的音频长度小于所述第一阈值,则将所述第二语音信号丢弃。
在一种可能实现的实施方式中,所述至少两个音频段中的每个音频段包括至少一个采样点,所述第三获取单元检测所述音频段是否存在截幅的检测方式是,获取所述音频段包括的至少一个采样点中每个采样点的幅度值;
若所述至少一个采样点的幅度值满足第一条件,则确定所述音频段存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
在一种可能实现的实施方式中,所述装置还包括:
第四获取单元,用于获取所述第一音频信号包括的N个采样点中每个采样点的幅度值;
第二确定单元,用于若所述N个采样点的幅度值满足第一条件,则确定所述第一音频信号存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
在一种可能实现的实施方式中,所述N个采样点中每个采样点的幅度值属于目标采样范围;
所述第二阈值为所述目标采样范围的最大值与目标比例的乘积。
在一种可能实现的实施方式中,所述装置还包括:
第二划分单元,用于将目标采样范围划分为至少两个子范围,所述至少两个子范围之间互不重叠,所述目标采样范围为所述第一音频信号包括的N个采样点的幅度值所在的范围;
统计单元,用于统计所述N个采样点的幅度值中属于所述至少两个子范围中每个子范围的采样点的数量;
构建单元,用于构建直方图,所述直方图的横轴包括所述至少两个子范围,所述直方图的纵轴包括属于所述子范围的采样点的数量;
第三确定单元,用于若所述直方图的变化趋势满足第二条件,则确定所述第一音频信号存在截幅。
在一种可能实现的实施方式中,所述第二获取单元具体用于:
从所述至少两个子范围中确定第一子范围,所述第一子范围的幅度值为所述至少两个子范围中幅度值最大的子范围;
获取所述N个采样点中幅度值属于所述第一子范围的采样点的数量,作为第一数量;
计算所述第一数量与所述N之间的比值,并将所述比值作为用于表示所述第一音频信号的截幅比例的目标数据。
在一种可能实现的实施方式中,所述目标范围的最大值为第三阈值,所述目标范围的最小值为第四阈值,所述装置还包括第四确定单元;
所述第四确定单元具体用于,若所述目标数据大于所述第三阈值,则将所述第一音频信号丢弃;
若所述目标数据小于所述第四阈值,将所述第一音频信号确定为可用的音频信号。
第三方面,本发明实施例提供一种音频信号处理装置,所述音频信号处理装置包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述所述的方法。
本发明实施例中,通过对获取到存在截幅的第一音频信号后,根据用于表示第一音频信号的截幅比例的目标数据来确定对第一音频信号的处理方式,若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段,对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。本申请实施例不是简单的将存在截幅的音频信号丢弃,而是对存在截幅的音频信号进行进一步处理,能够尽可能多地保留有效音频信号,使得音频信号的可使用率得到较大的提升。
附图说明
为了说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的一种音频信号处理方法的流程图;
图2为本发明实施例提供的一种存在截幅的音频信号的波形图;
图3本发明实施例提供的另一种音频信号处理方法的流程图;
图4为本发明实施例提供的一种获取用于表示第一音频信号的截幅比例的目标数据的方法流程图;
图5为本发明实施例提供的一种确定目标数据是否属于目标范围的内容的流程图;
图6为本发明实施例提供的一种对音频段进行截幅检测处理的方法的流程图;
图7为本发明实施例提供的一种确定是否丢弃第二音频信号方法的流程图;
图8为本发明实施例提供的又一种音频信号处理方法的流程图;
图9为本发明实施例提供的一种不存在截幅的直方图;
图10为本发明实施例提供的一种存在截幅的直方图;
图11为本发明实施例提供的一种音频信号处理装置的结构示意图;
图12为本发明实施例提供的另一种音频信号处理装置的结构示意图;
图13为本发明实施例提供的又一种音频信号处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
下面将结合附图1-附图10,对本发明实施例提供的一种音频信号处理方法进行详细介绍。
请参见图1,为本发明实施例提供了一种音频信号处理方法的流程示意图。如图1所示,本发明实施例的所述音频信号处理方法可以包括以下步骤S101-步骤S104。
S101,获取存在截幅的第一音频信号,所述第一音频信号包括N个采样点,所述N为正整数;
在本实施例中,第一音频信号可以包括即时通讯过程中的语音数据信号,也可以是现场录制的音乐数据信号等,本申请实施例不作限定。
其中,本实施例中获取第一音频信号的方式可以是,对多个音频信号进行截幅检测处理,确定该音频信号是否存在截幅,然后获取存在截幅的至少一个音频信号,本申请实施例的第一音频信号可以是该至少一个音频信号中的任意一个。
其中,第一音频信号包括N个采样点,每个采样点的幅度值属于预先设定的目标采样范围,该目标采样范围由用于存储幅度值的比特数确定,比如若采用16bit存储幅度值,则目标采样范围为2-15~215-1,即是-32768~32767。
可选的,对原始模拟信号采样量化得到第一音频信号的过程可以是,对原始模拟信号进行采样,获得N个采样点。其中,采样频率可以是8kHz,即1s时间内有8000个采样点。然后对各个采样点中每个采样点的原始幅度值进行量化,如图2所示,若某个采样点的原始幅度值超过目标采样范围的最大值,则以该目标采样范围内的最大值表示,若某个采样点的原始幅度值超过该目标采样范围的最小值,则以该目标采样范围内的最小值表示。通过量化后,可以把各个采样点的原始幅度值限定在目标采样范围内的N个幅度值,一个采样点对应一个幅度值。如图2所示,通过采样量化步骤后,第一音频信号存在截幅。
需要说明的是,上述采样频率也可以是其他频率,可以根据用户的需要自定义,另外,用于存储幅度值的比特数也可以是其他比特数,可以根据用户所需的采样范围进行设置。
可选的,可以通过计算幅度值函数对原始模拟信号进行采样量化得到第一音频信号中所包含的N个采样点对应的N个幅度值,比如,设置该计算幅度值函数的采样频率以及用于存储幅度值的比特数,并将原始模拟信号输入该计算幅度值函数,即得到第一音频信号。
S102,获取用于表示所述第一音频信号的截幅比例的目标数据,所述截幅比例用于表示所述N个采样点中存在截幅的采样点的数量与所述N之间的比值;
在本实施例中,通过对第一音频信号的N个采样点对应的N个幅度值进行分析,获得用于表示第一音频信号的截幅比例的目标数据,其中,所述目标数据可以是截幅比例本身,也可以是其他能够反应截幅比例大小的数据,例如该目标数据可以在截幅比例的预设范围之内。
一种可选的实施方式,获取用于表示所述第一音频信号的截幅比例的目标数据的方式可以是,首先,对该第一音频信号包含的N采样点中每个采样点的幅度值进行分析,确定存在截幅的采样点,并计算存在截幅的采样点的数量与采样点总的数量N之间的比值,该比值即是目标数据,在该实施方式中,目标数据即是截幅比例本身。可选的,对第一音频信号进行分析以确定存在截幅的采样点的方法可以是,确定是否存在连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值,该第一数量可以是3,该第二阈值可以是目标采样范围最大值的90%,比如,若连续5个采样点的幅度值均大于第二阈值,则将该5个采样点作为存在截幅的采样点。
另一种可选的实施方式,获取用于表示所述第一音频信号的截幅比例的目标数据的方式还可以是,在多个采样点中,统计该第一音频信号中多个采样点中的幅度值超过第一阈值的采样点的数量,再计算该数量与所有采样点的数量N之间的比值,该比值即是目标数据。由于存在截幅的采样点的幅度值都比较大,幅度值超过第一阈值,若该第一音频信号的截幅比例比较大,则计算出的比值也会比较大,因此,可以通过计算出的比值间接反映截幅比例的大小,但是该比值不是截幅比例本身,其中,第一阈值的数值可以进行设置,并不断进行校验和更新,以取得更加合理的第一阈值。
又一种可选的实施方式,获取用于表示所述第一音频信号的截幅比例的目标数据的方式还可以是,请参照图3,示意性示出获取用于表示第一音频信号的截幅比例的目标数据的流程,包括但不限于步骤S21-S23;
S21,从至少两个子范围中确定第一子范围;
具体可选的,将上述第一音频信号的N个采样点对应的N个采样值所属的目标采样范围划分为至少两个子范围,所述至少两个子范围相互之间不重叠。划分方式本申请不作限定,可以是均分,也可以是不均分。上述的至少两个子范围可以是22个,也可以是24、30或者其他数值。
从所述至少两个相互不重叠的子范围中确定第一子范围,所述第一子范围是指幅度值为至少两个子范围中幅度值最大的子范围,比如,该至少两个子范围包括[0,7]、[8,15]、[16,23],则该第一子范围即是[16,23]。
S22,获取上述N个采样点中幅度值属于上述第一子范围的采样点的数量,作为第一数量;
S23,计算上述第一数量与上述N之间的比值,并将上述比值作为用于表示上述第一音频信号的截幅比例的目标数据。
如上述所述,第一音频信号中采样点的幅度值属于第一子范围的数量中绝大部分是存在截幅的,所以计算第一数量与采样点的总数量N之间的比值,作为目标数据,该目标数据可以反映第一音频信号的截幅比例大小。
S103,若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;
在本实施例中,获取到目标数据后,判断所述获取到的目标数据是否属于的目标范围,如果属于目标范围,则将第一音频信号划分为至少两个音频段,划分方式可以是以1秒为单位进行划分,或者也可以是其他时间单位进行划分,比如5秒。
其中,目标范围可以是60%至80%,可以理解的是,目标范围也可以是其他范围,本申请实施例不作限定。
请参照图4,为本申请实施例提供的一种目标数据属于不同范围的处理流程图,如图所示,包括步骤S31-S35:
S31,获取目标数据;
S32,确定目标数据是否属于目标范围,若目标数据属于目标范围执行步骤S33,若目标数据不属于目标范围,则执行步骤S34或者S35,若目标数据大于第三阈值,则执行步骤S35,若目标数据小于第四阈值,则执行步骤S34;其中,第三阈值为目标范围的最大值,第四阈值为目标范围的最小值。
S33,将第一音频信号划分为至少两个音频段,并对该至少两个音频段进行截幅检测处理;
S34,将第一音频信号确定为可用音频信号;
S35,将第一音频信号丢弃。
确定目标数据是否属于目标范围的结论有两种,一种是:目标数据属于目标范围,具体请参照步骤S104,在此不再赘述。另一种是:目标数据不属于目标范围,若目标数据大于第三阈值,说明第一音频信号中存在截幅的采样点的数量与总采样点的数量的比例太高,存在截幅的采样点数量太多,若采用该第一音频信号进行声纹识别模型的训练,会降低声纹识别的验证率,则将第一音频信号丢弃。若目标数据小于第四阈值,说明第一音频信号中存在截幅的采样点的数量与总采样点的数量之间的比例比较小,存在截幅的采样点数量比较少,不足以影响到第一音频信号的信息受损,对后续实际处理几乎无影响,所以就可以不用进行音频段划分以及对音频段的截幅检测处理,而直接输入系统进行后续处理,例如,可以直接采用该第一语音信号进行声纹识别模型的训练。
S104,对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。
在本实施例中,若目标数据属于目标范围,可以将第一音频信号划分为至少两个音频段,划分的方法可以是平均划分,即每个音频段的时长为目标时长,目标时长可以是1s或5s等等,依次检测每个语音段是否存在截幅。
其中,检测每个音频段是否存在截幅的检测方式可以是,可以检测每个语音段中,是否存在连续第一数量或者大于第一数量的采样点的幅度值的绝对值均大于第二阈值,其中,第一数量可以是3,第二阈值可以是采样值范围中最大值的与目标比例的乘积,目标比例可以是90%,即32768*0.9≈29491,若一个音频段中存在连续三个或三个以上采样点的幅度值的绝对值均超过采样值范围中最大值的90%,则确定该音频段存在截幅,将该语音段进行丢弃。需要说明的是,上述90%的比例还可以是其他比例,比如91%,89%,85%以及95%等等,即在90%周围即可,上述第一数量可以是3,也可以是其他数值,第一数量、目标比例以及采样频率之间可以存着相互约束关系。
若不存在连续三个采样点的幅度值的绝对值均超过采样值范围中最大值的90%,则说明该音频段不存在截幅,则确定该音频段为可用音频段,保留该音频段。上述通过语音段的方式去检测是否存在截幅可以避免剩余语音段不连续的情况。
可选的,根据对该至少两个音频段的截幅检测处理结果,可以获得第二音频信号,比如,将该至少两个音频段中,存在截幅的音频段丢弃,保留不存在截幅的音频段,再将所有不存在截幅的音频段按照时间先后顺序组成第二音频信号。
其中,对于上述实施例中所提及的步骤S104,可以参照图5,如图所示,为本申请提出的一种对音频段进行截幅检测处理的示意图,包括但不限于步骤S41-S44;
S41,针对所述至少两个音频段中的每个音频段,检测所述音频段是否存在截幅;
S42,若所述音频段存在截幅,则将所述音频段丢弃;
S43,获取上述至少两个音频段中所述丢弃后的剩余音频段;
S44,根据所述剩余音频段,获得第二音频信号。
可选的,获得第二音频段后,为确保根据剩余音频段而获得的第二音频信号在后续的系统中是否可以继续使用,可以先检测第二音频信号的音频长度是否满足一定的条件,其确定方法可以参照图6,确定是否丢弃第二音频信号方法的流程图如图所示,包括但不限于步骤S51-S54;
S51,获得第二音频信号;
S52,检测第二音频信号的音频长度是否大于或者等于第一阈值;若第二音频信号的音频长度小于第一阈值,执行步骤S53,若第二音频信号的音频长度大于或者等于第一阈值,执行步骤S54;
S53,丢弃第二音频信号;
S54,确定第二音频信号为可用的音频信号;
其中,上述提及的第一阈值是指能够输入后续系统进行处理的音频信号的长度,比如在文本无关的声纹注册场景中,需要注册语音信号达到20s长度,因此可以判断第二音频信号的音频长度是否大于或者等于20S,若是,则保留该第二音频信号,并利用该第二音频信号进行声纹识别模型的训练。
本发明实施例中,通过对获取到存在截幅的第一音频信号后,根据用于表示第一音频信号的截幅比例的目标数据来确定对第一音频信号的处理方式,若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段,对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。本申请实施例不是简单的将存在截幅的音频信号丢弃,而是对存在截幅的音频信号进行进一步处理,能够尽可能多地保留有效音频信号,使得音频信号的可使用率得到较大的提升。
在另一个实施例中,在步骤S101获取存在截幅的第一音频信号之前,可以先确定第一音频信号中是否存在截幅,可选的,确定第一音频信号是否存在截幅的检测方式包括但不限于以下两种可选的实施方式,第一种可选的实施方式请参照图7所示,包括但不限于步骤S201-S202,第二种可选的实施方式,请参照图8所示,包括但不限于步骤S301-S304,下面具体阐述该两种可选的实施方式:
第一种可选的实施方式为:
S201,获取所述第一音频信号包括的N个采样点的幅度值;
在本实施例中,对第一音频信号进行采样,具体内容参照步骤S101,可以通过计算幅度值函数对原始模拟信号进行采样量化得到第一音频信号中所包含的N个采样点对应的N个幅度值。
S202,若所述第一音频信号的幅度值满足第一条件,则确定所述第一音频信号存在截幅。
其中,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。若第一音频信号的采样点的幅度值满足:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值,则可以确定第一音频信号中存在截幅。具体请参照步骤S104,在此不再赘述。
第二种可选的实施方式为:
S301,将目标采样范围划分为至少两个子范围;
S302,统计所述N个采样点的幅度值中属于上述至少两个子范围中每个子范围的采样点的数量;
S302,构建直方图;
具体可选的,将上述第一音频信号的N个采样点对应的N个采样值所属的目标采样范围划分为至少两个子范围,所述至少两个子范围相互之间不重叠。划分方式本申请不作限定,可以是均分,也可以是不均分。上述的至少两个子范围可以是22个,也可以是24、30或者其他数值。
统计所述N个采样点中幅度值属于各子范围的采样点的数量,构建直方图。直方图的横轴可以为所述子范围,纵轴可以为第一音频信号中N个采样点中幅度值属于各子范围的采样点的数量。
S304,若所述直方图的变化趋势满足第二条件,则将确定所述第一音频信号存在截幅;
如图9和图10所示,将目标采样范围按照大小顺序均分为22子范围,如图9所示,若第一音频信号中不存在截幅,则随着子范围区间数值的升高,幅度值出现的次数就会逐渐减少;如图10所示,若第一音频信号中存在截幅,随着子范围区间数值的最高时,幅度值出现的次数也达到最高,就出现直方图的最后一个立柱高于前面所有立柱的现象,即直方图的最后一个子范围的频次值最高,将最后一个柱体所表示的频次值称为异常升高部分,所述第二条件是指直方图中存在异常升高部分。
若第一音频信号中不存在截幅,其音频信号的波形相对较平缓,N个采样点的幅度值大部分比较小,若第一音频信号中存在截幅,音频信号的波形的幅度就会比较大,其N个采样点的幅度值就会相对较大,导致较多采样点的幅度值出现在直方图中幅度值较大的子范围中。
在本实施例中,在步骤S101获取存在截幅的第一音频信号之前,先确定第一音频信号中是否存在截幅,从多个音频信号中获取存在截幅的至少一个音频信号,本申请实施例的第一音频信号可以是该至少一个音频信号中的任意一个,从而获得存在截幅的第一音频信号,对存在截幅的音频信号进行进一步处理,具体请参照上一实施例,能够尽可能多地保留有效音频信号,使得音频信号的可使用率得到较大的提升。
请参见图11,为本发明实施例提供了一种音频信号处理装置的结构示意图。如图11所示,本发明实施例的所述音频信号处理装置可以包括:
第一获取单元11,用于获取存在截幅的第一音频信号,所述第一音频信号包括N个采样点,所述N为正整数;
在本实施例中,第一音频信号可以包括即时通讯过程中的语音数据信号,也可以是现场录制的音乐数据信号等,本申请实施例不作限定。
其中,本实施例中获取第一音频信号的方式可以是,对多个音频信号进行截幅检测处理,确定该音频信号是否存在截幅,然后获取存在截幅的至少一个音频信号,本申请实施例的第一音频信号可以是该至少一个音频信号中的任意一个。
其中,第一音频信号包括N个采样点,每个采样点的幅度值属于预先设定的目标采样范围,该目标采样范围由用于存储幅度值的比特数确定,比如若采用16bit存储幅度值,则目标采样范围为2-15~215-1,即是-32768~32767。
可选的,对原始模拟信号采样量化得到第一音频信号的过程可以是,对原始模拟信号进行采样,获得N个采样点。其中,采样频率可以是8kHz,即1s时间内有8000个采样点。然后对各个采样点中每个采样点的原始幅度值进行量化,如图2所示,若某个采样点的原始幅度值超过目标采样范围的最大值,则以该目标采样范围内的最大值表示,若某个采样点的原始幅度值超过该目标采样范围的最小值,则以该目标采样范围内的最小值表示。通过量化后,可以把各个采样点的原始幅度值限定在目标采样范围内的N个幅度值,一个采样点对应一个幅度值。
需要说明的是,上述采样频率也可以是其他频率,可以根据用户的需要自定义,另外,用于存储幅度值的比特数也可以是其他比特数,可以根据用户所需的采样范围进行设置。
可选的,可以通过计算幅度值函数对原始模拟信号进行采样量化得到第一音频信号中所包含的N个采样点对应的N个幅度值,比如,设置该计算幅度值函数的采样频率以及用于存储幅度值的比特数,并将原始模拟信号输入该计算幅度值函数,即得到第一音频信号。
第二获取单元12,用于获取用于表示所述第一音频信号的截幅比例的目标数据,所述截幅比例用于表示所述N个采样点中存在截幅的采样点的数量与所述N之间的比值;
在本实施例中,通过对第一音频信号的N个采样点对应的N个幅度值进行分析,获得用于表示第一音频信号的截幅比例的目标数据,其中,所述目标数据可以是截幅比例本身,也可以是其他能够反应截幅比例大小的数据,例如该目标数据可以在截幅比例的预设范围之内。
一种可选的实施方式,获取用于表示所述第一音频信号的截幅比例的目标数据的方式可以是,首先,对该第一音频信号包含的N采样点中每个采样点的幅度值进行分析,确定存在截幅的采样点,并计算存在截幅的采样点的数量与采样点总的数量N之间的比值,该比值即是目标数据,在该实施方式中,目标数据即是截幅比例本身。可选的,对第一音频信号进行分析以确定存在截幅的采样点的方法可以是,确定是否存在连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值,该第一数量可以是3,该第二阈值可以是目标采样范围最大值的90%,比如,若连续5个采样点的幅度值均大于第二阈值,则将该5个采样点作为存在截幅的采样点。
另一种可选的实施方式,获取用于表示所述第一音频信号的截幅比例的目标数据的方式还可以是,在多个采样点中,统计该第一音频信号中多个采样点中的幅度值超过第一阈值的采样点的数量,再计算该数量与所有采样点的数量N之间的比值,该比值即是目标数据。由于存在截幅的采样点的幅度值都比较大,幅度值超过第一阈值,若该第一音频信号的截幅比例比较大,则计算出的比值也会比较大,因此,可以通过计算出的比值间接反映截幅比例的大小,但是该比值不是截幅比例本身,其中,第一阈值的数值可以进行设置,并不断进行校验和更新,以取得更加合理的第一阈值。
又一种可选的实施方式,所述第二获取单元具体用于,请参照图3,示意性示出获取用于表示第一音频信号的截幅比例的目标数据的流程,包括但不限于步骤S21-S23;
S21,从至少两个子范围中确定第一子范围;
具体可选的,将上述第一音频信号的N个采样点对应的N个采样值所属的目标采样范围划分为至少两个子范围,所述至少两个子范围相互之间不重叠。划分方式本申请不作限定,可以是均分,也可以是不均分。上述的至少两个子范围可以是22个,也可以是24、30或者其他数值。
从所述至少两个相互不重叠的子范围中确定第一子范围,所述第一子范围是指幅度值为至少两个子范围中幅度值最大的子范围,比如,该至少两个子范围包括[0,7]、[8,15]、[16,23],则该第一子范围即是[16,23]。
S22,获取上述N个采样点中幅度值属于上述第一子范围的采样点的数量,作为第一数量;
S23,计算上述第一数量与上述N之间的比值,并将上述比值作为用于表示上述第一音频信号的截幅比例的目标数据。
如上述所述,第一音频信号中采样点的幅度值属于第一子范围的数量中绝大部分是存在截幅的,所以计算第一数量与采样点的总数量N之间的比值,作为目标数据,该目标数据可以反映第一音频信号的截幅比例大小。
第一划分单元13,用于若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;
在本实施例中,获取到目标数据后,判断所述获取到的目标数据是否属于的目标范围,如果属于目标范围,则将第一音频信号划分为至少两个音频段,划分方式可以是以1秒为单位进行划分,或者也可以是其他时间单位进行划分,比如5秒。
其中,目标范围可以是60%至80%,可以理解的是,目标范围也可以是其他范围,本申请实施例不作限定。
请参照图4,为本申请实施例提供的一种目标数据属于不同范围的处理流程图,如图所示,包括步骤S31-S35:
S31,获取目标数据;
S32,确定目标数据是否属于目标范围,若目标数据属于目标范围执行步骤S33,若目标数据不属于目标范围,则执行步骤S34或者S35,若目标数据大于第三阈值,则执行步骤S35,若目标数据小于第四阈值,则执行步骤S34;其中,第三阈值为目标范围的最大值,第四阈值为目标范围的最小值。
S33,将第一音频信号划分为至少两个音频段,并对该至少两个音频段进行截幅检测处理;
S34,将第一音频信号确定为可用音频信号;
S35,将第一音频信号丢弃。
确定目标数据是否属于目标范围的结论有两种,一种是:目标数据属于目标范围,具体请参照步骤S104,在此不再赘述。另一种是:目标数据不属于目标范围,若目标数据大于第三阈值,说明第一音频信号中存在截幅的采样点的数量与总采样点的数量的比例太高,存在截幅的采样点数量太多,若采用该第一音频信号进行声纹识别模型的训练,会降低声纹识别的验证率,则将第一音频信号丢弃。若目标数据小于第四阈值,说明第一音频信号中存在截幅的采样点的数量与总采样点的数量之间的比例比较小,存在截幅的采样点数量比较少,不足以影响到第一音频信号的信息受损,对后续实际处理几乎无影响,所以就可以不用进行音频段划分以及对音频段的截幅检测处理,而直接输入系统进行后续处理,例如,可以直接采用该第一语音信号进行声纹识别模型的训练。
第三获取单元14,用于对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号;
在本实施例中,若目标数据属于目标范围,可以将第一音频信号划分为至少两个音频段,划分的方法可以是平均划分,即每个音频段的时长为目标时长,目标时长可以是1s或5s等等,依次检测每个语音段是否存在截幅。
其中,检测每个音频段是否存在截幅的检测方式可以是,可以检测每个语音段中,是否存在连续第一数量或者大于第一数量的采样点的幅度值的绝对值均大于第二阈值,其中,第一数量可以是3,第二阈值可以是采样值范围中最大值的与目标比例的乘积,目标比例可以是90%,即32768*0.9≈29491,若一个音频段中存在连续三个或三个以上采样点的幅度值的绝对值均超过采样值范围中最大值的90%,则确定该音频段存在截幅,将该语音段进行丢弃。需要说明的是,上述90%的比例还可以是其他比例,比如91%,89%,85%以及95%等等,即在90%周围即可,上述第一数量可以是3,也可以是其他数值,第一数量、目标比例以及采样频率之间可以存着相互约束关系。
若不存在连续三个采样点的幅度值的绝对值均超过采样值范围中最大值的90%,则说明该音频段不存在截幅,则确定该音频段为可用音频段,保留该音频段。上述通过语音段的方式去检测是否存在截幅可以避免剩余语音段不连续的情况。
可选的,其中,所述第三获取模块具体用于,根据对该至少两个音频段的截幅检测处理结果,可以获得第二音频信号,比如,将该至少两个音频段中,存在截幅的音频段丢弃,保留不存在截幅的音频段,再将所有不存在截幅的音频段按照时间先后顺序组成第二音频信号。
其中,对于上述实施例中所提及的步骤S104,可以参照图5,如图所示,为本申请提出的一种对音频段进行截幅检测处理的示意图,包括但不限于步骤S41-S44;
S41,针对所述至少两个音频段中的每个音频段,检测所述音频段是否存在截幅;
S42,若所述音频段存在截幅,则将所述音频段丢弃;
S43,获取上述至少两个音频段中所述丢弃后的剩余音频段;
S44,根据所述剩余音频段,获得第二音频信号。
可选的,获得第二音频段后,为确保根据剩余音频段而获得的第二音频信号在后续的系统中是否可以继续使用,可以先检测第二音频信号的音频长度是否满足一定的条件,其确定方法可以参照图6,确定是否丢弃第二音频信号方法的流程图如图所示,包括但不限于步骤S51-S54;
S51,获得第二音频信号;
S52,检测第二音频信号的音频长度是否大于或者等于第一阈值;若第二音频信号的音频长度小于第一阈值,执行步骤S53,若第二音频信号的音频长度大于或者等于第一阈值,执行步骤S54;
S53,丢弃第二音频信号;
S54,确定第二音频信号为可用的音频信号;
其中,上述提及的第一阈值是指能够输入后续系统进行处理的音频信号的长度,比如在文本无关的声纹注册场景中,需要注册语音信号达到20s长度,因此可以判断第二音频信号的音频长度是否大于或者等于20S,若是,则保留该第二音频信号,并利用该第二音频信号进行声纹识别模型的训练。
在一个实施例中,所述第三获取单元具体用于:
针对所述至少两个音频段中的每个音频段,检测所述音频段是否存在截幅;
若所述音频段存在截幅,则将所述音频段丢弃;
获取所述至少两个音频段中所述丢弃后的剩余音频段;
根据所述剩余音频段,获得第二音频信号。
可选的,如图12所示,所述装置还包括:
检测单元,用于检测所述第二音频信号的音频长度是否大于或者等于第一阈值;
第一确定单元,用于若所述第二音频信号的音频长度大于或者等于所述第一阈值,则确定所述第二音频信号为可用的音频信号;
若所述第二音频信号的音频长度小于所述第一阈值,则将所述第二语音信号丢弃。
在一个实施例中,所述至少两个音频段中的每个音频段包括至少一个采样点,所述第三获取单元检测所述音频段是否存在截幅的检测方式是,获取所述音频段包括的至少一个采样点中每个采样点的幅度值;
若所述至少一个采样点的幅度值满足第一条件,则确定所述音频段存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
可选的,如图12所示,所述装置还包括:
第四获取单元,用于获取所述第一音频信号包括的N个采样点中每个采样点的幅度值;
第二确定单元,用于若所述N个采样点的幅度值满足第一条件,则确定所述第一音频信号存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
在一个实施例中,所述N个采样点中每个采样点的幅度值属于目标采样范围;
所述第二阈值为所述目标采样范围的最大值与目标比例的乘积。
可选的,如图12所示,所述装置还包括:
第二划分单元,用于将目标采样范围划分为至少两个子范围,所述至少两个子范围之间互不重叠,所述目标采样范围为所述第一音频信号包括的N个采样点的幅度值所在的范围;
统计单元,用于统计所述N个采样点的幅度值中属于所述至少两个子范围中每个子范围的采样点的数量;
构建单元,用于构建直方图,所述直方图的横轴包括所述至少两个子范围,所述直方图的纵轴包括属于所述子范围的采样点的数量;
第三确定单元,用于若所述直方图的变化趋势满足第二条件,则确定所述第一音频信号存在截幅。
在一个实施例中,所述第二获取单元具体用于:
从所述至少两个子范围中确定第一子范围,所述第一子范围的幅度值为所述至少两个子范围中幅度值最大的子范围;
获取所述N个采样点中幅度值属于所述第一子范围的采样点的数量,作为第一数量;
计算所述第一数量与所述N之间的比值,并将所述比值作为用于表示所述第一音频信号的截幅比例的目标数据。
可选的,所述目标范围的最大值为第三阈值,所述目标范围的最小值为第四阈值,所述装置还包括第四确定单元;
所述第四确定单元具体用于,若所述目标数据大于所述第三阈值,则将所述第一音频信号丢弃;
若所述目标数据小于所述第四阈值,将所述第一音频信号确定为可用的音频信号。
本发明实施例中,通过对获取到存在截幅的第一音频信号后,根据用于表示第一音频信号的截幅比例的目标数据来确定对第一音频信号的处理方式,根据截幅检测处理后获得第二音频信号。本申请实施例不是简单的将存在截幅的音频信号丢弃,而是对存在截幅的音频信号进行进一步处理,能够尽可能多地保留有效音频信号,使得音频信号的可使用率得到较大的提升。
请参照图13,为本发明实施例提供的另一种音频信号处理装置的结构示意图,如图13所示,所述音频信号处理装置1000可以包括:至少一个处理器1001,例如CPU,至少一个通信接口1003,存储器1004,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。通信接口1003可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1004可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示,作为一种计算机存储介质的存储器1004中可以包括操作系统、网络通信模块以及程序指令。
在图13所示的音频信号处理装置1000中,处理器1001可以用于加载存储器1004中存储的程序指令,并具体执行以下操作:
获取存在截幅的第一音频信号,所述第一音频信号包括N个采样点,所述N为正整数;
获取用于表示所述第一音频信号的截幅比例的目标数据,所述截幅比例用于表示所述N个采样点中存在截幅的采样点的数量与所述N之间的比值;
若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;
对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。
可选地,在获取存在截幅的第一音频信号之前,还包括:
获取所述第一音频信号包括的N个采样点中每个采样点的幅度值;
若所述N个采样点的幅度值满足第一条件,则确定所述第一音频信号存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
可选地,在获取存在截幅的第一音频信号之前,还包括:
将目标采样范围划分为至少两个子范围,所述至少两个子范围之间互不重叠,所述目标采样范围为所述第一音频信号包括的N个采样点的幅度值所在的范围;
统计所述N个采样点的幅度值中属于所述至少两个子范围中每个子范围的采样点的数量;
构建直方图,所述直方图的横轴包括所述至少两个子范围,所述直方图的纵轴包括属于所述子范围的采样点的数量;
若所述直方图的变化趋势满足第二条件,则确定所述第一音频信号存在截幅。
可选的,所述获取用于表示所述第一音频信号的截幅比例的目标数据包括:
从所述至少两个子范围中确定第一子范围,所述第一子范围的幅度值为所述至少两个子范围中幅度值最大的子范围;
获取所述N个采样点中幅度值属于所述第一子范围的采样点的数量,作为第一数量;
计算所述第一数量与所述N之间的比值,并将所述比值作为用于表示所述第一音频信号的截幅比例的目标数据。
可选的,所述所述对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号,包括:
针对所述至少两个音频段中的每个音频段,检测所述音频段是否存在截幅;
若所述音频段存在截幅,则将所述音频段丢弃;
获取所述至少两个音频段中所述丢弃后的剩余音频段;
根据所述剩余音频段,获得第二音频信号。
可选的,所述至少两个音频段中的每个音频段包括至少一个采样点,所述确定所述音频段是否存在截幅,包括:
获取所述音频段包括的至少一个采样点中每个采样点的幅度值;
若所述至少一个采样点的幅度值满足第一条件,则确定所述音频段存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
可选的,所述N个采样点中每个采样点的幅度值属于目标采样范围,所述第二阈值为所述目标采样范围的最大值与目标比例的乘积。
可选的,所述目标范围的最大值为第三阈值,所述目标范围的最小值为第四阈值,所述方法还包括:
若所述目标数据大于所述第三阈值,则将所述第一音频信号丢弃;
若所述目标数据小于所述第四阈值,将所述第一音频信号确定为可用的音频信号。
可选的,处理器1001还可以用于加载存储器1004中存储的程序指令,用于执行以下操作:
检测所述第二音频信号的音频长度是否大于或者等于第一阈值;
若所述第二音频信号的音频长度大于或者等于所述第一阈值,则确定所述第二音频信号为可用的音频信号;
若所述第二音频信号的音频长度小于所述第一阈值,则将所述第二语音信号丢弃。
需要说明的是,具体执行过程可以参见图1所示方法实施例的具体说明,在此不进行赘述。
具体执行步骤可以参见前述实施例的描述,此处不在赘述。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1所示实施例的方法步骤,具体执行过程可以参见图1所示实施例的具体说明,在此不进行赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
Claims (10)
1.一种音频信号处理方法,其特征在于,包括:
获取存在截幅的第一音频信号,所述第一音频信号包括N个采样点,所述N为正整数;
获取用于表示所述第一音频信号的截幅比例的目标数据,所述截幅比例用于表示所述N个采样点中存在截幅的采样点的数量与所述N之间的比值;
若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;
对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。
2.如权利要求1所述的方法,其特征在于,所述对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号,包括:
针对所述至少两个音频段中的每个音频段,检测所述音频段是否存在截幅;
若所述音频段存在截幅,则将所述音频段丢弃;
获取所述至少两个音频段中所述丢弃后的剩余音频段;
根据所述剩余音频段,获得第二音频信号。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
检测所述第二音频信号的音频长度是否大于或者等于第一阈值;
若所述第二音频信号的音频长度大于或者等于所述第一阈值,则确定所述第二音频信号为可用的音频信号;
若所述第二音频信号的音频长度小于所述第一阈值,则将所述第二语音信号丢弃。
4.如权利要求2所述的方法,其特征在于,所述至少两个音频段中的每个音频段包括至少一个采样点,所述检测所述音频段是否存在截幅,包括:
获取所述音频段包括的至少一个采样点中每个采样点的幅度值;
若所述至少一个采样点的幅度值满足第一条件,则确定所述音频段存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
5.根据权利要求1所述的方法,其特征在于,所述获取存在截幅的第一音频信号之前,还包括:
获取所述第一音频信号包括的N个采样点中每个采样点的幅度值;
若所述N个采样点的幅度值满足第一条件,则确定所述第一音频信号存在截幅,所述第一条件包括:连续第一数量或者连续大于第一数量的采样点的幅度值大于第二阈值。
6.根据权利要求1所述的方法,其特征在于,所述获取存在截幅的第一音频信号之前,还包括:
将目标采样范围划分为至少两个子范围,所述至少两个子范围之间互不重叠,所述目标采样范围为所述第一音频信号包括的N个采样点的幅度值所在的范围;
统计所述N个采样点的幅度值中属于所述至少两个子范围中每个子范围的采样点的数量;
构建直方图,所述直方图的横轴包括所述至少两个子范围,所述直方图的纵轴包括属于所述子范围的采样点的数量;
若所述直方图的变化趋势满足第二条件,则确定所述第一音频信号存在截幅。
7.根据权利要求6所述的方法,其特征在于,所述获取用于表示所述第一音频信号的截幅比例的目标数据,包括:
从所述至少两个子范围中确定第一子范围,所述第一子范围的幅度值为所述至少两个子范围中幅度值最大的子范围;
获取所述N个采样点中幅度值属于所述第一子范围的采样点的数量,作为第一数量;
计算所述第一数量与所述N之间的比值,并将所述比值作为用于表示所述第一音频信号的截幅比例的目标数据。
8.一种音频信号处理装置,其特征在于,包括:
第一获取单元,用于获取存在截幅的第一音频信号,所述第一音频信号包括N个采样点,所述N为正整数;
第二获取单元,用于获取用于表示所述第一音频信号的截幅比例的目标数据,所述截幅比例用于表示所述N个采样点中存在截幅的采样点的数量与所述N之间的比值;
第一划分单元,用于若所述目标数据属于目标范围,将所述第一音频信号划分为至少两个音频段;
第三获取单元,用于对所述至少两个音频段进行截幅检测处理,并根据所述截幅检测处理后的音频段,获得第二音频信号。
9.一种音频信号处理装置,其特征在于,包括处理器、存储器以及通信接口,所述处理器、存储器和通信接口相互连接,其中,所述通信接口用于接收和发送数据,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1至7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911034571.6A CN110931021B (zh) | 2019-10-29 | 2019-10-29 | 一种音频信号处理方法及装置 |
PCT/CN2019/118444 WO2021082083A1 (zh) | 2019-10-29 | 2019-11-14 | 音频信号处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911034571.6A CN110931021B (zh) | 2019-10-29 | 2019-10-29 | 一种音频信号处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110931021A true CN110931021A (zh) | 2020-03-27 |
CN110931021B CN110931021B (zh) | 2023-10-13 |
Family
ID=69849667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911034571.6A Active CN110931021B (zh) | 2019-10-29 | 2019-10-29 | 一种音频信号处理方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110931021B (zh) |
WO (1) | WO2021082083A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852893A (zh) * | 2020-06-28 | 2021-12-28 | 北京小米移动软件有限公司 | 数据处理方法及装置、终端和存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114827657B (zh) * | 2022-04-28 | 2025-01-07 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频拼接方法、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117063A (zh) * | 2012-12-27 | 2013-05-22 | 安徽科大讯飞信息科技股份有限公司 | 一种基于软件实现的音乐内容截幅检测方法 |
CN105989853A (zh) * | 2015-02-28 | 2016-10-05 | 科大讯飞股份有限公司 | 一种音频质量评测方法及系统 |
CN106782613A (zh) * | 2016-12-22 | 2017-05-31 | 广州酷狗计算机科技有限公司 | 信号检测方法及装置 |
CN108804072A (zh) * | 2018-06-13 | 2018-11-13 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、存储介质及终端 |
CN109859745A (zh) * | 2019-03-27 | 2019-06-07 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091352B (zh) * | 2017-12-27 | 2020-10-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频文件处理方法、装置、存储介质及终端设备 |
US10380989B1 (en) * | 2018-02-22 | 2019-08-13 | Cirrus Logic, Inc. | Methods and apparatus for processing stereophonic audio content |
-
2019
- 2019-10-29 CN CN201911034571.6A patent/CN110931021B/zh active Active
- 2019-11-14 WO PCT/CN2019/118444 patent/WO2021082083A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103117063A (zh) * | 2012-12-27 | 2013-05-22 | 安徽科大讯飞信息科技股份有限公司 | 一种基于软件实现的音乐内容截幅检测方法 |
CN105989853A (zh) * | 2015-02-28 | 2016-10-05 | 科大讯飞股份有限公司 | 一种音频质量评测方法及系统 |
CN106782613A (zh) * | 2016-12-22 | 2017-05-31 | 广州酷狗计算机科技有限公司 | 信号检测方法及装置 |
CN108804072A (zh) * | 2018-06-13 | 2018-11-13 | 广州酷狗计算机科技有限公司 | 音频处理方法、装置、存储介质及终端 |
CN109859745A (zh) * | 2019-03-27 | 2019-06-07 | 北京爱数智慧科技有限公司 | 一种音频处理方法、设备及计算机可读介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113852893A (zh) * | 2020-06-28 | 2021-12-28 | 北京小米移动软件有限公司 | 数据处理方法及装置、终端和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110931021B (zh) | 2023-10-13 |
WO2021082083A1 (zh) | 2021-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8744842B2 (en) | Method and apparatus for detecting voice activity by using signal and noise power prediction values | |
CN109087632B (zh) | 语音处理方法、装置、计算机设备及存储介质 | |
CN109616097B (zh) | 语音数据处理方法、装置、设备及存储介质 | |
CN109644192B (zh) | 具有语音检测周期持续时间补偿的音频传送方法和设备 | |
CN108564948B (zh) | 一种语音识别方法及电子设备 | |
CN108039181B (zh) | 一种声音信号的情感信息分析方法和装置 | |
US11282514B2 (en) | Method and apparatus for recognizing voice | |
CN110264999B (zh) | 一种音频处理方法、设备及计算机可读介质 | |
CN109960484B (zh) | 一种音频音量获取方法及装置、存储介质、终端 | |
CN110288085B (zh) | 一种数据处理方法、装置、系统及存储介质 | |
CN110797031A (zh) | 语音变音检测方法、系统、移动终端及存储介质 | |
CN110807093A (zh) | 语音处理方法、装置及终端设备 | |
CN110689885B (zh) | 机器合成语音识别方法、装置、存储介质及电子设备 | |
CN110931021A (zh) | 一种音频信号处理方法及装置 | |
CN109032823A (zh) | 一种语音模块异常自恢复的方法及装置 | |
CN109584881B (zh) | 基于语音处理的号码识别方法、装置及终端设备 | |
US8886527B2 (en) | Speech recognition system to evaluate speech signals, method thereof, and storage medium storing the program for speech recognition to evaluate speech signals | |
CN110634490A (zh) | 一种声纹鉴定方法、装置和设备 | |
JP4425055B2 (ja) | クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体 | |
US7571093B1 (en) | Method of identifying duplicate voice recording | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN113658581B (zh) | 声学模型的训练、语音处理方法、装置、设备及存储介质 | |
CN115529475B (zh) | 视频流量内容检测与风控的方法和系统 | |
CN111354365B (zh) | 一种纯语音数据采样率识别方法、装置、系统 | |
CN111028860B (zh) | 音频数据处理方法、装置、计算机设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40019543 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |