[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111768796B - 一种声学回波消除与去混响方法及装置 - Google Patents

一种声学回波消除与去混响方法及装置 Download PDF

Info

Publication number
CN111768796B
CN111768796B CN202010676232.4A CN202010676232A CN111768796B CN 111768796 B CN111768796 B CN 111768796B CN 202010676232 A CN202010676232 A CN 202010676232A CN 111768796 B CN111768796 B CN 111768796B
Authority
CN
China
Prior art keywords
domain signal
frequency domain
microphone
voice frequency
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010676232.4A
Other languages
English (en)
Other versions
CN111768796A (zh
Inventor
栾书明
李军锋
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN202010676232.4A priority Critical patent/CN111768796B/zh
Publication of CN111768796A publication Critical patent/CN111768796A/zh
Application granted granted Critical
Publication of CN111768796B publication Critical patent/CN111768796B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种声学回波消除与去混响方法及装置,方法包括:根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定与其对应的频域信号;根据麦克风拾取语音频域信号、远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;根据估计掩蔽、麦克风拾取语音频域信号的幅度谱及预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;根据麦克风拾取语音频域信号的幅度谱、估计掩蔽、隐掩蔽与麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。本发明实施例通过预置的级联网络既抑制麦克风拾取语音时域信号中的回波,又抑制混响,增强了麦克风拾取语音时域信号,保持目标语音的完整。

Description

一种声学回波消除与去混响方法及装置
技术领域
本发明涉及语音信号处理领域。尤其涉及一种声学回波消除与去混响方法及装置。
背景技术
在现代通信系统中,例如电话会议、免提通话等,由于信号传输过程表面反射的存在以及扬声器与麦克风之间耦合作用的存在,远端说话人往往会听到一种混合信号,其中包含了回波(即滞后了的自己的声音)与带混响的近端语音。回波与混响都会严重降低目标语音的质量,因此,如何去除回波与混响成为了语音信号处理领域的重要挑战。
在最近几年,基于深度学习的方法已经被广泛应用到语音信号处理当中,比如基于深度学习的语音分离与语音增强。诸多研究表明,基于深度学习的算法可以获得比传统信号处理方法更优异的处理效果。目前已经有大量的研究在利用深度学习进行回波消除或去混响,相较于传统的信号处理算法,基于神经网络的算法性能在单独回波消除或去混响任务上都有了极大的提高。然而这些算法仅仅考虑了环境中单独存在回波或混响时的情况,因此当两种干扰同时存在时,以上算法并不能很好的对麦克风拾取语音信号进行增强。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种声学回波消除与去混响方法及装置。
第一方面,本发明实施例提出一种声学回波消除与去混响方法,包括:
根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;其中,所述麦克风拾取语音时域信号包括:近端说话人语音时域信号、回波和混响;
根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;
根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;
根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
在另一个可能的实现中,所述根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号,包括:
对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号;
对每一帧信号进行加窗;
对加窗后的每一帧信号进行傅里叶变换,得到所述麦克风拾取语音频域信号与所述远端说话人语音频域信号。
在另一个可能的实现中,所述根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及所述预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽,包括:
将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩,得到第一对数幅度谱和第二对数幅度谱;
将所述第一对数幅度谱与所述第二对数幅度谱逐帧拼接,并将逐帧拼接结果输入到所述预置的级联网络中的回波消除阶段神经网络,输出为所述估计掩蔽。
在另一个可能的实现中,所述根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽,包括:
将所述估计掩蔽与所述麦克风拾取语音频域信号的幅度谱相乘,并将相乘结果输入到所述预置的级联网络中的去混响阶段神经网络,输出为所述隐掩蔽。
在另一个可能的实现中,所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号,包括:
根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱;
根据所述估计目标语音频域信号的幅度谱与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
在另一个可能的实现中,所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱,包括:
将所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽相乘,得到估计目标语音频域信号的幅度谱。
在另一个可能的实现中,所述预置的级联网络通过以下步骤获取:
将两个神经网络级联,并利用预置的回波消除阶段神经网络和预置的去混响阶段神经网络对级联后的两个神经网络分别进行初始化;
根据所述麦克风拾取语音频域信号的幅度谱和远端说话人语音频域信号的幅度谱,确定初始化后的两个神经网络的输入特征,并以目标语音频域信号的幅度谱为训练目标,对所述初始化后的两个神经网络进行联合训练;其中,所述目标语音频域信号为保留早期混响的近端说话人语音频域信号。
第二方面,本发明实施例提出一种声学回波消除与去混响装置,包括:
确定模块,用于根据麦克风拾取语音时域信号与远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;
所述确定模块,还用于根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;
所述确定模块,还用于根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;
所述确定模块,还用于根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
在另一个可能的实现中,所述确定模块,具体用于:
对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号;
对每一帧信号进行加窗;
对加窗后的每一帧信号进行傅里叶变换,得到所述麦克风拾取语音频域信号与所述远端说话人语音频域信号。
在另一个可能的实现中,所述确定模块,还具体用于:
将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩,得到第一对数幅度谱和第二对数幅度谱;
将所述第一对数幅度谱与所述第二对数幅度谱逐帧拼接,并将逐帧拼接结果输入到所述预置的级联网络中的回波消除阶段神经网络,输出为所述估计掩蔽。
在另一个可能的实现中,所述确定模块,还具体用于:
将所述估计掩蔽与所述麦克风拾取语音频域信号的幅度谱相乘,并将相乘结果输入到所述预置的级联网络中的去混响阶段神经网络,输出为所述隐掩蔽。
在另一个可能的实现中,所述确定模块,还具体用于:
根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱;
根据所述估计目标语音频域信号的幅度谱与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
在另一个可能的实现中,所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱,包括:
将所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽相乘,得到估计目标语音频域信号的幅度谱。
在另一个可能的实现中,所述预置的级联网络通过以下步骤获取:
将两个神经网络级联,并利用预置的回波消除阶段神经网络和预置的去混响阶段神经网络对级联后的两个神经网络分别进行初始化;
根据所述麦克风拾取语音频域信号的幅度谱和远端说话人语音频域信号的幅度谱,确定初始化后的两个神经网络的输入特征,并以目标语音频域信号的幅度谱为训练目标,对所述初始化后的两个神经网络进行联合训练;其中,所述目标语音频域信号为保留早期混响的近端说话人语音频域信号。
第三方面,本发明实施例还提出一种电子设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下步骤:
根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;其中,所述麦克风拾取语音时域信号包括:近端说话人语音时域信号、回波和混响;根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
第四方面,本发明实施例还提出一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行如下步骤:
根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;其中,所述麦克风拾取语音时域信号包括:近端说话人语音时域信号、回波和混响;根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
由上述技术方案可知,本发明实施例通过预置的级联网络中的回波消除阶段神经网络和去混响阶段神经网络共同抑制麦克风拾取语音时域信号中的回波和混响,恢复出了估计目标语音时域信号,增强了麦克风拾取语音时域信号,能够完整地保留目标信号,从而提高了目标信号的清晰度、可懂度和舒适度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明实施例提供的两个人进行免提通话的场景示意图;
图2为本发明实施例提供的一种声学回波消除与去混响方法的流程示意图;
图3为本发明实施例提供的一种声学回波消除与去混响装置的结构示意图;
图4为本发明实施例提供的电子设备结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
图1为本发明实施例提供的两个人进行免提通话的场景示意图。在本发明实施例中,将A端作为近端,B端作为远端。相应地,A端麦克风拾取语音时域信号为受到回波与混响干扰的语音时域信号,包括了A端说话人语音时域信号、回波(即A端麦克风拾取的滞后了的B端说话人语音时域信号,其中B端说话人语音时域信号由A端扬声器传出)及混响(即A端说话人语音时域信号经反射与衰减后到达麦克风的信号)。
在本发明实施例中,采集麦克风拾取语音时域信号和远端说话人语音时域信号。然后对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号;对每一帧信号进行加窗,加窗函数采用布莱克曼窗;对加窗后的每一帧信号进行傅里叶变换,得到所述麦克风拾取语音频域信号与所述远端说话人语音频域信号;其中,上述麦克风拾取语音频域信号表示为:
Y(n,f)=H1(n,f)S(n,f)+H2(n,f)X(n,f)=R(n,f)+D(n,f),
其中,n为语音帧,f为频点,H1(n,f)为近端说话人与麦克风之间的传输函数,H2(n,f)为扬声器与麦克风之间的传输函数,S(n,f)为近端说话人语音频域信号,X(n,f)为远端说话人语音频域信号,R(n,f)为无回波干扰的混响语音频域信号,D(n,f)为回波干扰语音频域信号。接下来,将上述麦克风拾取语音频域信号的幅度谱和上述远端说话人语音频域信号的幅度谱分别进行对数压缩,得到对应的对数幅度谱,即第一对数幅度谱和第二对数幅度谱;将上述第一对数幅度谱与上述第二对数幅度谱逐帧拼接,并将逐帧拼接结果作为回波消除阶段神经网络的输入特征;其中,上述回波消除阶段神经网络的输入特征表示为:
IAEC(n)=[log(|Y(n,1)|),...,log(|Y(n,F)|),log(|X(n,1)|),...,log(|X(n,F)|)],
其中,F为最大频点数,|Y(n,f)|为麦克风拾取语音频域信号的幅度谱,|X(n,f)|为远端说话人语音频域信号的幅度谱。利用上述输入特征作为先验信息,以每个时频点处无回波的混响语音能量占麦克风拾取语音能量的主导概率为训练目标,使用双向长短时记忆网络(Bidirectional Long Short-Term Memory,BLSTM)作为神经网络监督学习机进行训练学习,利用神经网络输出与训练目标计算损失函数,至此,完成回波消除阶段神经网络的训练,得到预置的回波消除阶段神经网络。其中,上述每个时频点处无回波的混响语音能量占麦克风拾取语音能量的主导概率可定义为理想比率掩蔽(ideal ratio mask,IRM)。上述回波消除阶段的IRM表示为:
其中,|R(n,f)|为无回波干扰的混响语音频域信号的幅度谱,|D(n,f)|为回波干扰语音频域信号的幅度谱。上述回波消除阶段的损失函数表示为:
其中,为神经网络输出的估计掩蔽,MSE为均方误差(Mean SquareError)。接下来,将上述回波消除阶段神经网络输出的估计掩蔽,与上述麦克风拾取语音频域信号的幅度谱相乘,得到无回波干扰的混响语音频域信号的幅度谱。上述无回波干扰的混响语音频域信号的幅度谱表示为:
其中,为神经网络输出的估计掩蔽,|Y(n,f)|为麦克风拾取语音频域信号的幅度谱。接下来,对无回波干扰的混响语音频域信号进行对数压缩,得到无回波干扰的混响语音频域信号的对数幅度谱,作为去混响阶段神经网络的输入特征。上述去混响阶段神经网络的输入特征表示为:
IDEV(n)=[log(|SREV(n,1)|),...,log(|SREV(n,F)|)],
其中,|SRE(n,F)|为无回波干扰的混响语音频域信号的幅度谱。利用上述去混响阶段神经网络的输入特征作为先验信息,以目标语音频域信号的幅度谱为训练目标,使用BLSTM作为神经网络监督学习机进行训练学习,至此,完成去混响阶段神经网络的训练,得到预置的去混响阶段神经网络。其中,上述目标语音频域信号为保留早期混响的近端说话人语音频域信号,上述BLSTM的直接输出为一个掩蔽值,即“隐掩蔽”,上述隐掩蔽与上述无回波干扰的混响语音频域信号的幅度谱相乘,得到估计的保留早期混响的近端语音频域信号的幅度谱,上述估计的保留早期混响的近端语音频域信号的幅度谱再与上述目标语音频域信号的幅度谱计算损失函数。上述估计的保留早期混响的近端语音频域信号的幅度谱表示为:
其中,为上述“隐掩蔽”。上述去混响阶段神经网络的损失函数为:
其中,为上述目标语音频域信号的幅度谱,即上述保留早期混响的近端说话人语音频域信号的幅度谱。将两个BLSTM级联,利用预置的回波消除阶段神经网络与预置的去混响阶段神经网络对级联的两个BLSTM分别进行初始化,构成一个先去回波再去混响的级联网络。利用所述麦克风拾取语音频域信号的对数幅度谱及远端说话人语音频域信号的对数幅度谱逐帧拼接的结果作为输入特征,所述目标语音频域信号的幅度谱为训练目标,对所述级联网络进行联合训练,其中,所述级联网络的直接输出为“隐掩蔽”,所述隐掩蔽与所述级联网络中的第一阶段,即所述回波消除阶段神经网络的输出结果及所述麦克风拾取语音频域信号的幅度谱依次相乘,所述相乘结果再与所述目标语音频域信号的幅度谱计算损失函数。将麦克风拾取语音频域信号的幅度谱依次与训练好的级联网络中回波消除阶段神经网络的输出结果及去混响阶段神经网络的输出结果相乘,得到估计目标语音频域信号的幅度谱,结合麦克风拾取语音频域信号的相位,通过逆傅里叶变换,得到估计目标语音时域信号。至此,完成级联网络的训练,得到预置的级联网络;其中,预置的级联网络分为两个阶段,第一阶段为回波消除阶段神经网络,第二阶段为去混响阶段神经网络。
需要说明的是,本发明实施例充分利用回波与混响的声学特性以及深度学习的特性,鉴于回波信号与混响的特性不同,即回波为加性信号,混响为卷积过程,应用了一种两阶段处理的方案。同时,对回波消除网络应用掩蔽为训练目标,对去混响网络则使用谱映射的方法,并将掩蔽的思想通过一个“隐掩蔽”融入到谱映射中,以期利用掩蔽的优点获得更优的性能;进一步对两个预训练好的模型进行联合训练,提升两阶段的耦合度,从而获得更好的回波消除与去混响效果。
图2为本发明实施例提供的一种声学回波消除与去混响方法的流程示意图,该流程示意图包括:
S201,根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;其中,所述麦克风拾取语音时域信号包括:近端说话人语音时域信号、回波和混响。
在一种可能的实现中,为获得麦克风拾取语音频域信号与远端说话人语音频域信号,需要对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号;然后,对每一帧信号进行加窗,加窗函数采用布莱克曼窗;最后,对加窗后的每一帧信号进行傅里叶变换。其中,麦克风拾取语音时域信号是受到回波与混响干扰的近端说话人语音时域信号。
S202,根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽。
在一种可能的实现中,将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩,得到相应的对数幅度谱。在本发明实施例中,称为第一对数幅度谱和第二对数幅度谱。将第一对数幅度谱与第二对数幅度谱逐帧拼接,并将逐帧拼接结果输入到预置的级联网络中的回波消除阶段神经网络,输出为估计掩蔽。
S203,根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽。
在一种可能的实现中,将S202中得到的估计掩蔽与麦克风拾取语音频域信号的幅度谱相乘,并将相乘结果输入到预置的级联网络中的去混响阶段神经网络,输出为隐掩蔽。
S204,根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
在一种可能的实现中,将麦克风拾取语音频域信号的幅度谱、S202中得到的估计掩蔽和S203中得到的隐掩蔽相乘,可以确定估计目标语音频域信号的幅度谱。再根据估计目标语音频域信号的幅度谱和麦克风拾取语音频域信号的相位,及逆傅里叶变换,可以确定估计目标语音时域信号。
本发明实施例通过预置的级联网络中的回波消除阶段神经网络和去混响阶段神经网络共同抑制麦克风拾取语音时域信号中的回波和混响,恢复出了估计目标语音时域信号,增强了麦克风拾取语音时域信号。
需要说明的是,本发明实施例首先在第一阶段(回波消除阶段神经网络),利用基于掩蔽的方法,对与目标语音不相关的加性回波信号进行消除;对于剩余的与目标语音高度相关的混响干扰,在第二阶段(去混响阶段神经网络)使用基于“隐掩蔽”的谱映射方法对其进行去除。首先各自单独训练预置的级联网络中的回波消除阶段神经网络和去混响阶段神经网络,之后进行联合训练以提升两阶段的耦合度,从而获得更好的回波消除与去混响效果。
图3为本发明实施例提供的一种声学回波消除与去混响装置的结构示意图,该结构示意图包括:确定模块301;
确定模块301,用于根据麦克风拾取语音时域信号与远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;
所述确定模块301,还用于根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;
所述确定模块301,还用于根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;
所述确定模块301,还用于根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
在另一个可能的实现中,所述确定模块301,具体用于:
对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号;
对每一帧信号进行加窗;
对加窗后的每一帧信号进行傅里叶变换,得到所述麦克风拾取语音频域信号与所述远端说话人语音频域信号。
在另一个可能的实现中,所述确定模块301,还具体用于:
将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩,得到第一对数幅度谱和第二对数幅度谱;
将所述第一对数幅度谱与所述第二对数幅度谱逐帧拼接,并将逐帧拼接结果输入到所述预置的级联网络中的回波消除阶段神经网络,输出为所述估计掩蔽。
在另一个可能的实现中,所述确定模块301,还具体用于:
将所述估计掩蔽与所述麦克风拾取语音频域信号的幅度谱相乘,并将相乘结果输入到所述预置的级联网络中的去混响阶段神经网络,输出为所述隐掩蔽。
在另一个可能的实现中,所述确定模块301,还具体用于:
根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱;
根据所述估计目标语音频域信号的幅度谱与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
在另一个可能的实现中,所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱,包括:
将所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽相乘,得到估计目标语音频域信号的幅度谱。
在另一个可能的实现中,所述预置的级联网络通过以下步骤获取:
将两个神经网络级联,并利用预置的回波消除阶段神经网络和预置的去混响阶段神经网络对级联后的两个神经网络分别进行初始化;
根据所述麦克风拾取语音频域信号的幅度谱和远端说话人语音频域信号的幅度谱,确定初始化后的两个神经网络的输入特征,并以目标语音频域信号的幅度谱为训练目标,对所述初始化后的两个神经网络进行联合训练;其中,所述目标语音频域信号为保留早期混响的近端说话人语音频域信号。
本发明实施例所述的一种声学回波消除与去混响装置可以用于执行上述方法实施例,其原理和技术效果类似,此处不再赘述。
参照图4,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;
其中,
所述处理器401和存储器402通过所述总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行如下步骤:
根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;其中,所述麦克风拾取语音时域信号包括:近端说话人语音时域信号、回波和混响;根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下步骤:
根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;其中,所述麦克风拾取语音时域信号包括:近端说话人语音时域信号、回波和混响;根据所述麦克风拾取语音频域信号、所述远端说话人语音频域信号及预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;根据所述估计掩蔽、所述麦克风拾取语音频域信号的幅度谱及所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽、所述隐掩蔽与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种声学回波消除与去混响方法,其特征在于,包括:
根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;其中,所述麦克风拾取语音时域信号包括:近端说话人语音时域信号、回波和混响;
将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩,得到第一对数幅度谱和第二对数幅度谱;
将所述第一对数幅度谱与所述第二对数幅度谱逐帧拼接,并将逐帧拼接结果输入到预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;
将所述估计掩蔽与所述麦克风拾取语音频域信号的幅度谱相乘,并将相乘结果输入到所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;
所述预置的级联网络为通过利用所述回波消除阶段神经网络和所述去混响阶段神经网络经联合训练得到的网络;
根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱;
根据所述估计目标语音频域信号的幅度谱与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
2.根据权利要求1所述的方法,其特征在于,所述根据麦克风拾取语音时域信号与扬声器传出的远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号,包括:
对麦克风拾取语音时域信号与远端说话人语音时域信号每次分别取预设个数采样点作为一帧信号;
对每一帧信号进行加窗;
对加窗后的每一帧信号进行傅里叶变换,得到所述麦克风拾取语音频域信号与所述远端说话人语音频域信号。
3.根据权利要求1所述的方法,其特征在于,所述根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱,包括:
将所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽相乘,得到估计目标语音频域信号的幅度谱。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述预置的级联网络通过以下步骤获取:
将两个神经网络级联,并利用预置的回波消除阶段神经网络和预置的去混响阶段神经网络对级联后的两个神经网络分别进行初始化;
根据所述麦克风拾取语音频域信号的幅度谱和远端说话人语音频域信号的幅度谱,确定初始化后的两个神经网络的输入特征,并以目标语音频域信号的幅度谱为训练目标,对所述初始化后的两个神经网络进行联合训练;其中,所述目标语音频域信号为保留早期混响的近端说话人语音频域信号。
5.一种声学回波消除与去混响装置,其特征在于,包括:
确定模块,用于根据麦克风拾取语音时域信号与远端说话人语音时域信号,确定麦克风拾取语音频域信号与远端说话人语音频域信号;
所述确定模块,还用于将所述麦克风拾取语音频域信号的幅度谱和所述远端说话人语音频域信号的幅度谱分别进行对数压缩,得到第一对数幅度谱和第二对数幅度谱;
将所述第一对数幅度谱与所述第二对数幅度谱逐帧拼接,并将逐帧拼接结果输入到预置的级联网络中的回波消除阶段神经网络,确定估计掩蔽;
所述确定模块,还用于将所述估计掩蔽与所述麦克风拾取语音频域信号的幅度谱相乘,并将相乘结果输入到所述预置的级联网络中的去混响阶段神经网络,确定隐掩蔽;
所述确定模块,还用于根据所述麦克风拾取语音频域信号的幅度谱、所述估计掩蔽和所述隐掩蔽,确定估计目标语音频域信号的幅度谱;
根据所述估计目标语音频域信号的幅度谱与所述麦克风拾取语音频域信号的相位,确定估计目标语音时域信号。
6.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一所述的声学回波消除与去混响方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一所述的声学回波消除与去混响方法。
CN202010676232.4A 2020-07-14 2020-07-14 一种声学回波消除与去混响方法及装置 Active CN111768796B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010676232.4A CN111768796B (zh) 2020-07-14 2020-07-14 一种声学回波消除与去混响方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010676232.4A CN111768796B (zh) 2020-07-14 2020-07-14 一种声学回波消除与去混响方法及装置

Publications (2)

Publication Number Publication Date
CN111768796A CN111768796A (zh) 2020-10-13
CN111768796B true CN111768796B (zh) 2024-05-03

Family

ID=72725306

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010676232.4A Active CN111768796B (zh) 2020-07-14 2020-07-14 一种声学回波消除与去混响方法及装置

Country Status (1)

Country Link
CN (1) CN111768796B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112542176B (zh) * 2020-11-04 2023-07-21 北京百度网讯科技有限公司 信号增强方法、装置及存储介质
CN112542177B (zh) * 2020-11-04 2023-07-21 北京百度网讯科技有限公司 信号增强方法、装置及存储介质
CN112687284B (zh) * 2020-12-21 2022-05-24 中国科学院声学研究所 混响语音的混响抑制方法及装置
CN112863535B (zh) * 2021-01-05 2022-04-26 中国科学院声学研究所 一种残余回声及噪声消除方法及装置
CN113192527B (zh) * 2021-04-28 2024-03-19 北京达佳互联信息技术有限公司 用于消除回声的方法、装置、电子设备和存储介质
CN113257267B (zh) * 2021-05-31 2021-10-15 北京达佳互联信息技术有限公司 干扰信号消除模型的训练方法和干扰信号消除方法及设备
CN113689878A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 回声消除方法、回声消除装置及计算机可读存储介质
CN113643714B (zh) * 2021-10-14 2022-02-18 阿里巴巴达摩院(杭州)科技有限公司 音频处理方法、装置、存储介质及计算机程序
CN115359804B (zh) * 2022-10-24 2023-01-06 北京快鱼电子股份公司 一种基于麦克风阵列的定向音频拾取方法和系统
CN117135536B (zh) * 2023-03-29 2024-09-06 荣耀终端有限公司 回声消除方法和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104429100A (zh) * 2012-07-02 2015-03-18 高通股份有限公司 用于环绕声回声降低的系统及方法
CN109523999A (zh) * 2018-12-26 2019-03-26 中国科学院声学研究所 一种提升远场语音识别的前端处理方法和系统
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN110503972A (zh) * 2019-08-26 2019-11-26 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质
CN110827847A (zh) * 2019-11-27 2020-02-21 高小翎 低信噪比见长的麦克风阵列语音去噪增强方法
CN111292759A (zh) * 2020-05-11 2020-06-16 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及系统
CN111312273A (zh) * 2020-05-11 2020-06-19 腾讯科技(深圳)有限公司 混响消除方法、装置、计算机设备和存储介质
CN111370016A (zh) * 2020-03-20 2020-07-03 北京声智科技有限公司 一种回声消除方法及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10389885B2 (en) * 2017-02-01 2019-08-20 Cisco Technology, Inc. Full-duplex adaptive echo cancellation in a conference endpoint

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104429100A (zh) * 2012-07-02 2015-03-18 高通股份有限公司 用于环绕声回声降低的系统及方法
CN109841206A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 一种基于深度学习的回声消除方法
CN109523999A (zh) * 2018-12-26 2019-03-26 中国科学院声学研究所 一种提升远场语音识别的前端处理方法和系统
CN110503972A (zh) * 2019-08-26 2019-11-26 北京大学深圳研究生院 语音增强方法、系统、计算机设备及存储介质
CN110827847A (zh) * 2019-11-27 2020-02-21 高小翎 低信噪比见长的麦克风阵列语音去噪增强方法
CN111370016A (zh) * 2020-03-20 2020-07-03 北京声智科技有限公司 一种回声消除方法及电子设备
CN111292759A (zh) * 2020-05-11 2020-06-16 上海亮牛半导体科技有限公司 一种基于神经网络的立体声回声消除方法及系统
CN111312273A (zh) * 2020-05-11 2020-06-19 腾讯科技(深圳)有限公司 混响消除方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN111768796A (zh) 2020-10-13

Similar Documents

Publication Publication Date Title
CN111768796B (zh) 一种声学回波消除与去混响方法及装置
CN109727604B (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN107483761B (zh) 一种回波抑制方法及装置
CN105391879B (zh) 一种无回声残留双端通话鲁棒的声学回声消除方法
CN111951819A (zh) 回声消除方法、装置及存储介质
US20220301577A1 (en) Echo cancellation method and apparatus
CN110211602B (zh) 智能语音增强通信方法及装置
CN111742541B (zh) 声学回波抵消方法、装置、存储介质
CN110992923B (zh) 回声消除方法、电子设备以及存储装置
CN113744748A (zh) 一种网络模型的训练方法、回声消除方法及设备
CN109727605B (zh) 处理声音信号的方法及系统
CN111755020B (zh) 一种立体声回声消除方法
CN111756906B (zh) 一种语音信号的回声抑制方法、装置和计算机可读介质
CN109215672B (zh) 一种声音信息的处理方法、装置及设备
CN111028855A (zh) 回声抑制方法、装置、设备及存储介质
CN111654585B (zh) 回声声场状态确定方法及装置、存储介质、终端
CN111370016B (zh) 一种回声消除方法及电子设备
CN115620737A (zh) 语音信号处理装置、方法、电子设备和扩音系统
CN113345457B (zh) 一种基于贝叶斯理论的声学回声消除自适应滤波器及滤波方法
CN116434765A (zh) 一种基于半二次准则的频域样条自适应回声消除的方法
US20230344941A1 (en) Method for echo cancellation, echo cancellation device and electronic equipment
US20230353683A1 (en) Double-microphone array echo eliminating method, device and electronic equipment
WO2018087855A1 (ja) エコーキャンセラ装置、エコー消去方法、及びエコー消去プログラム
WO2024009892A1 (ja) エコー抑圧装置、エコー抑圧方法及びエコー抑圧プログラム
CN113223547B (zh) 双讲检测方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20241014

Address after: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee after: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region after: China

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region before: China

Patentee before: BEIJING KEXIN TECHNOLOGY Co.,Ltd.