CN111009259B - 一种音频处理方法和装置 - Google Patents
一种音频处理方法和装置 Download PDFInfo
- Publication number
- CN111009259B CN111009259B CN201811167458.0A CN201811167458A CN111009259B CN 111009259 B CN111009259 B CN 111009259B CN 201811167458 A CN201811167458 A CN 201811167458A CN 111009259 B CN111009259 B CN 111009259B
- Authority
- CN
- China
- Prior art keywords
- audio
- acquisition equipment
- omnidirectional
- average value
- directional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 11
- 230000003044 adaptive effect Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012545 processing Methods 0.000 claims description 57
- 238000003062 neural network model Methods 0.000 claims description 42
- 238000001914 filtration Methods 0.000 claims description 22
- 210000005069 ears Anatomy 0.000 claims description 15
- 230000001629 suppression Effects 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 9
- 230000000873 masking effect Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000003993 interaction Effects 0.000 abstract description 11
- 238000000926 separation method Methods 0.000 description 11
- 230000007613 environmental effect Effects 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开了一种音频处理方法和装置,其中方法包括:利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。采用本发明,可以提高语音互动场景下的声音采集质量。
Description
技术领域
本发明涉及声音采集技术,特别是涉及一种音频处理方法和装置。
背景技术
现有的声音采集方案中,在多媒体教室教学场景下,通过多麦克风阵列完成授课时环境音的获取,通过无线定向麦克风完成授课时老师的声音获取,之后经过降噪和多路音频均衡模块以及混音模块,把老师的声音与环境音合成一路并输出。
上述现有的声音采集方案中,通过音频均衡之后进行混音,可以一定程度上保证老师的声音清晰。但是,实际教学场景中,会存在老师和学生之间的语音互动,此时,不仅定向采集的老师声音属于重要声音,全向采集的环境音中的学生声音也很重要,需要具有一定的清晰度。
本发明人通过研究分析发现:对于环境中存在的重要人声并伴随单调噪声的场景,上述方案由于仅是在混音前做了简单地音频均衡,对环境音中的重要人声并不进行有针对性的处理,因此,无法确保环境中重要人声的清晰度。
由此可见,采用现有的声音采集方案,无法确保语音互动场景下重要声音的清晰度,进而无法满足语音互动场景下的声音采集质量。
发明内容
有鉴于此,本发明的主要目的在于提供一种音频处理方法和装置,可以提高语音互动场景下的声音采集质量。
为了达到上述目的,本发明实施例提出的技术方案为:
一种音频处理方法,包括:
利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;
对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
较佳地,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
较佳地,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;
根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,所述根据所述能量平均值,对所述有效音频进行增益自适应处理包括:
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
较佳地,所述分离出有效音频包括:
对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;
从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;
采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;
基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;
利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
较佳地,所述神经网络模型为卷积神经网络模型。
一种音频处理装置,包括:
自适应调节模块,用于利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;
混音模块,用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
较佳地,所述自适应调节模块,用于利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
较佳地,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,其特征在于,所述自适应调节模块,用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
较佳地,所述自适应调节模块,用于对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
较佳地,所述神经网络模型为卷积神经网络模型。
一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上述音频处理方法的步骤。
一种电子设备,包括如上述非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
综上所述,本发明实施例提出的音频处理方案,在进行混音处理前,通过利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节,既可以对环境音中的噪音进行过滤,又可以对环境音中的有效音频进行自适应调节,从而可以增强语音互动环境中重要声音的清晰度,因此可以提高语音互动场景下的声音采集质量,使得混音之后的音频清晰有效,也使得互动环境真实有效。
附图说明
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的一种应用场景示意图;
图3为图1中步骤101的一种实现方式的流程示意图;
图4为图1中步骤101的另一种实现方式的流程示意图;
图5为本发明实施例的装置结构示意图。
具体实施方式
为了对发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式,在各图中相同的标号表示相同的部分。
在本文中,“示意性”表示“充当实例、例子或说明”,不应将在本文中被描述为“示意性”的任何图示、实施方式解释为一种更优选的或更具优点的技术方案。
为使图面简洁,各图中的只示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。
在本文中,“第一”、“第二”等仅用于彼此的区分,而非表示重要程度及顺序、以及互为存在的前提等。
图1为本发明实施例的音频处理方法流程示意图,如图1所示,在一个实施例中,音频处理方法的过程主要包括:
步骤101、利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节。
在实际应用,定向音频采集设备具体可以为定向麦克风,全向音频采集设备具体可以为全向拾音器,但不限于此。
本步骤中与现有技术不同之处在于,需要利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节,这样,既可以过滤掉环境音中的噪音,又可以对环境音中的有效音频进行自适应调节,从而可以增强语音互动环境中有效音频的清晰度。
较佳地,可以利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
在实际应用中,并限于基于音频的能量平均值进行所述自适应增益调节,本领域技术人员还可以考虑基于其他的音频参数指标进行所述自适应增益调节,例如,音频的幅度平均值,在此不再赘述。
在实际场景中可能会同时存在功放和拾音器,这样,功放播出的声音会被拾音器采集,使得整个音频回路中出现回声。此场景下需要先对这种回声进行去除,即消除回声。如图2所示的语音交互场景,两台主机分别位于示教室1与示教室2,并通过以太网实现两端的语音传输,实现互动。在示教室1中,定向麦克风主要采集主讲老师的音频信息,全向拾音器主要采集示教室1内的环境音频。在示教室2中,定向麦克风主要采集某位学生的相关音频信息,全向拾音器主要采集示教室2内的环境音频。该场景下,示教室2中采集的音频会在示教室1的功放中播放,这样,在示教室1中会产生回声需要进行消除。
基于此,接下来将分别针对需要进行回声消除场景和不需要进行回声消除场景,对步骤101的具体实现进行说明:
在不需要进行回声消除场景下,较佳地,如图3所示,步骤101可以采用下述方法实现:
步骤101a1、将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频。
本步骤中,考虑到相对于双声道音频,基于单声道音频的处理更为简单些,因此,这里需要先分别将每个音频采集设备输出的音频转换为单声道音频。具体地双声道音频转换为单声道音频的方法为本领域技术人员所掌握,在此不再赘述。
步骤101a2、在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频。
本步骤中将从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频,以便在后续步骤中进一步基于分离出的有效音频进行相应的增益自适处理。
需要说明的是,语音分离技术主要分为基于多通道的语音分离和基于单通道的语音分离。多通道的语音分离,主要通过多麦克阵列来获取音源的相互关系,并以此来估计目标的空域信息,常用的方法有波束形成法以及独立成分分析法。单通道的语音分离,主要通过目标语音以及干扰信号的声学和统计特性,从混合的音源中提取出目标语音。相对多通道的方法,单通道的语音分离由于缺少空域信息,导致处理过程相对复杂,难度也较大。但是,人脑可以很轻松地在单通道的录音中区分出噪声与有效音源,这说明空域信息并非语音分离的必要条件,利用时域与频域两方面的信息,就可以较好的完成语音分离。基于这个背景,本发明实施例中将基于神经网络模型进行有效音频的分离。较佳地,步骤101a2中可以采用下述方法,基于神经网络模型进行上述有效音频的分离:
步骤x1、对于当前滑动窗口对应的全向音频采集设备的单声道音频,进行耳蜗滤波处理。
步骤x2、从经过所述耳蜗滤波处理后的音频中,提取出时域特征。
所述时域特征包括梅尔倒谱系数(MFCC)、感知线性预测系数(PLP)以及幅度调制谱。
上述特征的提取可采用下述方法实现:
首先,对输入的音频信号进行时域信号到频域的变换(例如,采用FFT快速傅里叶变换),得到相关的频谱图。
对于MFCC的获取,首先通过对获取的频谱图进行梅尔滤波生成梅尔频谱,之后,对梅尔频谱进行倒谱分析(取对数并进行DCT变换),从而将输入音频分解为噪音分量与声道信息分量,最终通过分析声道信息分量来获得MFCC。
对于PLP的提取,首先通过对获取的频谱图进行临界带分析,其中临界带分析主要进行频域信号到Bark域的转换,之后通过人耳模型进行能量的调整,最后,结合全极点模型,输出PLP特征参数。
步骤x3、采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数。
本步骤的具体实现为本领域技术人员所掌握,在此不再赘述。
步骤x4、基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM。
步骤x5、利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
本步骤中,波形重构的具体方法为本领域技术人员所掌握,在此不再赘述。
在上述方法中,通过利用神经网络模型进行有效音频的分离,既可以对环境音中的噪音进行有效过滤,又可以增强环境音中的有效音频的清晰度。
较佳地,所述神经网络模型可以为卷积神经网络模型。
步骤101a3、根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,本步骤中可以采用下述方法对所述有效音频进行增益自适应处理:
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理。
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
这里,当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,说明定向音频采集设备中采集到了有效的目标音频,此时,应以定向音频采集设备输出的声音为主,因此,如果此时全向音频采集设备采集的音频能量较大时,即定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值较小时,需要对全向音频采集设备中的有效音频进行抑制处理,以突出定向音频采集设备输出的音频,增强了定向采集的音频在之后混音后的清晰度。
而当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,说明定向音频采集设备中没有有效的目标音频输出,此时,需要对全向音频采集设备中的有效音频进行抑制或增强处理,以使得混音后,环境音中的有效音频得到突出,且强度在人耳可接受范围内,即不能过大也不能太小。
上述能量阈值、比例阈值、最大能量阈值以及最大能量阈值,具体可由本领域技术人员根据实际需要预先设置合适取值。
在需要进行回声消除场景下,较佳地,如图4所示步骤101可以采用下述方法实现:
步骤101b1、将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频。
步骤101b2、利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除。
步骤101b3、在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频。
较佳地,步骤101b3中可以采用下述方法进行有效音频的分离:
步骤y1、对于当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理。
步骤y2、从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱。
本步骤的具体实现同步骤x2,在此不再赘述。
步骤y3、采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数。
较佳地,所述神经网络模型可以为卷积神经网络模型。
步骤y4、基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM。
步骤y5、利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
本步骤的具体实现同步骤x5,在此不再赘述。
步骤101b4、根据所述能量平均值,对所述有效音频进行增益自适应处理。
本步骤的具体实现同步骤101a3,即较佳地可以采用下述方法对所述有效音频进行增益自适应处理:
当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;
当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
步骤102、对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
通过上述方法实施例可以看出,经过上述方法处理之后的输出音频,既可以凸显出定向音频采集设备的主音声音,又去除了全向音频采集设备中的环境噪声,使得混音之后的音频,清晰有效,也使得互动环境,真实有效。
图5为与上述方法实施例相对应的一种音频处理装置实施例的结构示意图,如图5所示,该装置包括:
自适应调节模块501,用于利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节。
混音模块502,用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
较佳地,所述自适应调节模块501,用于利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
在实际应用中,并限于基于音频的能量平均值进行所述自适应增益调节,本领域技术人员还可以考虑基于其他的音频参数指标进行所述自适应增益调节,例如,音频的幅度平均值,在此不再赘述。
较佳地,自适应调节模块501,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,自适应调节模块501,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
较佳地,自适应调节模块501,用于当定向音频采集设备对应的所述能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的所述能量平均值与全向音频采集设备对应的所述能量平均值的比值小于预设的比例阈值,则对所述有效音频进行相应的能量抑制处理;当定向音频采集设备对应的所述能量平均值不大于所述能量阈值时,如果全向音频采集设备对应的所述能量平均值大于预设的人耳可接受范围的最大能量阈值,则对所述有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的所述能量平均值小于预设的人耳可接受范围的最小能量阈值,则对所述有效音频进行相应的能量增强处理。
较佳地,自适应调节模块501,用于对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储指令,所述指令在由处理器执行时使得所述处理器执行如上述音频处理方法实施例的步骤。
一种电子设备,包括如上述非易失性计算机可读存储介质、以及可访问所述非易失性计算机可读存储介质的所述处理器。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种音频处理方法,其特征在于,包括:
利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;其中,当定向音频采集设备对应的能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的能量平均值与全向音频采集设备对应的能量平均值的比值小于预设的比例阈值,则对有效音频进行相应的能量抑制处理;当定向音频采集设备对应的能量平均值不大于能量阈值时,如果全向音频采集设备对应的能量平均值大于预设的人耳可接受范围的最大能量阈值,则对有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的能量平均值小于预设的人耳可接受范围的最小能量阈值,则对有效音频进行相应的能量增强处理;其中,所述有效音频为从全向音频采集设备的音频中分离出来的;
对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
2.根据权利要求1所述的方法,其特征在于,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
3.根据权利要求2所述的方法,其特征在于,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;
根据所述能量平均值,对所述有效音频进行增益自适应处理。
4.根据权利要求2所述的方法,其特征在于,所述对全向音频采集设备输出的音频进行自适应增益调节包括:
将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;
利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;
在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
5.根据权利要求3或4所述的方法,其特征在于,所述分离出有效音频包括:
对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;
从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;
采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;
基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;
利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
6.根据权利要求3或4所述的方法,其特征在于,所述神经网络模型为卷积神经网络模型。
7.一种音频处理装置,其特征在于,包括:
自适应调节模块,用于利用定向音频采集设备输出的音频,对全向音频采集设备输出的音频进行自适应增益调节;其中,当定向音频采集设备对应的能量平均值大于预设的能量阈值时,如果定向音频采集设备对应的能量平均值与全向音频采集设备对应的能量平均值的比值小于预设的比例阈值,则对有效音频进行相应的能量抑制处理;当定向音频采集设备对应的能量平均值不大于能量阈值时,如果全向音频采集设备对应的能量平均值大于预设的人耳可接受范围的最大能量阈值,则对有效音频进行相应的能量抑制处理,如果全向音频采集设备对应的能量平均值小于预设的人耳可接受范围的最小能量阈值,则对有效音频进行相应的能量增强处理;其中,所述有效音频为从全向音频采集设备的音频中分离出来的;
混音模块,用于对所述自适应增益调节的结果和所述定向音频采集设备的音频进行混音,输出混音结果。
8.根据权利要求7所述的装置,其特征在于,所述自适应调节模块,用于利用所述定向音频采集设备输出的音频的能量平均值,对所述全向音频采集设备输出的音频进行自适应增益调节。
9.根据权利要求8所述的装置,其特征在于,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的单声道音频和全向音频采集设备的单声道音频分别在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的单声道音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
10.根据权利要求8所述的装置,其特征在于,所述自适应调节模块,用于将所述定向音频采集设备和所述全向音频采集设备输出的音频分别转换为单声道音频;利用第一语音回传设备输入的音频,作为回声消除的参考音频,分别对定向音频采集设备的所述单声道音频和全向音频采集设备的所述单声道音频进行回声消除;在每个采样时刻,按照预设的滑动窗口,计算定向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,以及全向音频采集设备的消除回声后的音频在当前滑动窗口的能量平均值,并利用神经网络模型,从当前滑动窗口对应的全向音频采集设备的消除回声后的音频中,分离出有效音频;根据所述能量平均值,对所述有效音频进行增益自适应处理。
11.根据权利要求9或10所述的装置,所述自适应调节模块,用于对于当前滑动窗口对应的全向音频采集设备的单声道音频,或者当前滑动窗口对应的全向音频采集设备的消除回声后的音频,进行耳蜗滤波处理;从经过所述耳蜗滤波处理后的音频中,提取出时域特征,所述时域特征包括梅尔倒谱系数MFCC、感知线性预测系数PLP以及幅度调制谱;采用有监督的学习方式,将所述时域特征作为所述神经网络模型的输入,对所述神经网络模型进行训练,得到相应的模型参数;基于所述模型参数,利用所述神经网络模型估计出时域上的二值掩蔽IBM;利用所述二值掩蔽,对经过所述耳蜗滤波处理后的音频进行波形重构,提取出所述有效音频。
12.根据权利要求9或10所述的装置,其特征在于,所述神经网络模型为卷积神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811167458.0A CN111009259B (zh) | 2018-10-08 | 2018-10-08 | 一种音频处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811167458.0A CN111009259B (zh) | 2018-10-08 | 2018-10-08 | 一种音频处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111009259A CN111009259A (zh) | 2020-04-14 |
CN111009259B true CN111009259B (zh) | 2022-09-16 |
Family
ID=70111118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811167458.0A Active CN111009259B (zh) | 2018-10-08 | 2018-10-08 | 一种音频处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111009259B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114553845A (zh) * | 2020-11-26 | 2022-05-27 | 上海博泰悦臻网络技术服务有限公司 | 社交互动的定向交流方法、介质、服务端及交流系统 |
CN114420151B (zh) * | 2022-01-21 | 2024-05-31 | 陕西师范大学 | 基于并联张量分解卷积神经网络的语音情感识别方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543097A (zh) * | 2012-01-16 | 2012-07-04 | 华为终端有限公司 | 降噪方法及设备 |
CN103797816A (zh) * | 2011-07-14 | 2014-05-14 | 峰力公司 | 语音增强系统和方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060135085A1 (en) * | 2004-12-22 | 2006-06-22 | Broadcom Corporation | Wireless telephone with uni-directional and omni-directional microphones |
CN1809105B (zh) * | 2006-01-13 | 2010-05-12 | 北京中星微电子有限公司 | 适用于小型移动通信设备的双麦克语音增强方法及系统 |
EP1830348B1 (en) * | 2006-03-01 | 2016-09-28 | Nuance Communications, Inc. | Hands-free system for speech signal acquisition |
US8538749B2 (en) * | 2008-07-18 | 2013-09-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer program products for enhanced intelligibility |
US8913754B2 (en) * | 2011-11-30 | 2014-12-16 | Sound Enhancement Technology, Llc | System for dynamic spectral correction of audio signals to compensate for ambient noise |
US10013996B2 (en) * | 2015-09-18 | 2018-07-03 | Qualcomm Incorporated | Collaborative audio processing |
US9691413B2 (en) * | 2015-10-06 | 2017-06-27 | Microsoft Technology Licensing, Llc | Identifying sound from a source of interest based on multiple audio feeds |
JP6844149B2 (ja) * | 2016-08-24 | 2021-03-17 | 富士通株式会社 | 利得調整装置および利得調整プログラム |
-
2018
- 2018-10-08 CN CN201811167458.0A patent/CN111009259B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103797816A (zh) * | 2011-07-14 | 2014-05-14 | 峰力公司 | 语音增强系统和方法 |
CN102543097A (zh) * | 2012-01-16 | 2012-07-04 | 华为终端有限公司 | 降噪方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111009259A (zh) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Das et al. | Fundamentals, present and future perspectives of speech enhancement | |
US10455325B2 (en) | Direction of arrival estimation for multiple audio content streams | |
US11043210B2 (en) | Sound processing apparatus utilizing an electroencephalography (EEG) signal | |
US20190206417A1 (en) | Content-based audio stream separation | |
CN110858476B (zh) | 一种基于麦克风阵列的声音采集方法及装置 | |
CN112820315A (zh) | 音频信号处理方法、装置、计算机设备及存储介质 | |
US20220392475A1 (en) | Deep learning based noise reduction method using both bone-conduction sensor and microphone signals | |
Jangjit et al. | A new wavelet denoising method for noise threshold | |
US20220059114A1 (en) | Method and apparatus for determining a deep filter | |
CN113012710A (zh) | 一种音频降噪方法及存储介质 | |
Zhang et al. | BASEN: Time-domain brain-assisted speech enhancement network with convolutional cross attention in multi-talker conditions | |
CN111009259B (zh) | 一种音频处理方法和装置 | |
Lim et al. | Harmonic and percussive source separation using a convolutional auto encoder | |
Wang et al. | Attention-based fusion for bone-conducted and air-conducted speech enhancement in the complex domain | |
Manamperi et al. | Drone audition: Audio signal enhancement from drone embedded microphones using multichannel Wiener filtering and Gaussian-mixture based post-filtering | |
CN114333874B (zh) | 处理音频信号的方法 | |
Li et al. | Speech enhancement algorithm based on sound source localization and scene matching for binaural digital hearing aids | |
Waghmare et al. | Development of isolated marathi words emotional speech database | |
Zhang et al. | A speech separation algorithm based on the comb-filter effect | |
CN116959468A (zh) | 一种基于dcctn网络模型的语音增强方法、系统及设备 | |
Hussain et al. | A speech intelligibility enhancement model based on canonical correlation and deep learning for hearing-assistive technologies | |
Chun et al. | Comparison of cnn-based speech dereverberation using neural vocoder | |
Zhang et al. | A Beam-TFDPRNN Based Speech Separation Method in Reverberant Environments | |
CN118486318A (zh) | 一种户外直播环境杂音消除方法、介质及系统 | |
RU2788939C1 (ru) | Способ и устройство для определения глубокого фильтра |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |