CN112489680B - 声学回声消除算法的评估方法、装置及终端设备 - Google Patents
声学回声消除算法的评估方法、装置及终端设备 Download PDFInfo
- Publication number
- CN112489680B CN112489680B CN202011314760.1A CN202011314760A CN112489680B CN 112489680 B CN112489680 B CN 112489680B CN 202011314760 A CN202011314760 A CN 202011314760A CN 112489680 B CN112489680 B CN 112489680B
- Authority
- CN
- China
- Prior art keywords
- echo cancellation
- target
- signal
- far
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 81
- 238000011156 evaluation Methods 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 claims abstract description 65
- 230000008569 process Effects 0.000 claims abstract description 34
- 230000000694 effects Effects 0.000 claims abstract description 27
- 238000004088 simulation Methods 0.000 claims description 31
- 238000012360 testing method Methods 0.000 claims description 20
- 238000001914 filtration Methods 0.000 claims description 18
- 230000003044 adaptive effect Effects 0.000 claims description 17
- 238000002592 echocardiography Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 230000003139 buffering effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 241000219498 Alnus glutinosa Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
- Telephone Function (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请公开一种声学回声消除算法的评估方法、装置、终端设备以及存储介质,通过获取目标远端语音信号,继而获取近端混合信号,近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与目标远端语音信号关联的第二模拟混响语音信号,再获取基于目标声学回声消除算法、目标远端语音信号以及近端混合信号进行回声消除的过程中获得的回声消除评价参数,然后基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。本方法可以实现客观准确的评估声学回声消除算法的声学回声消除效果。
Description
技术领域
本申请涉及通信技术领域,更具体地,涉及一种声学回声消除算法的评估方法、装置、终端设备及存储介质。
背景技术
声学回声是指远端设备(或近端设备)的扬声器播放出来的声音,被远端设备(或近端设备)的麦克风拾取,然后传输到近端设备(或远端设备),由近端设备(或远端设备)的扬声器播放出来的声音。声学回声的存在严重影响了语音通话质量,降低了用户体验。作为一种方式,可以通过在远端增加回声消除(Automatic Echo Cancellation,AEC)功能算法的方式实现消除回声,然而,在消除回声的过程中主要依靠的是主观聆听的方法来确认回声消除的效果,而个体主观感受的不同使得个体对听感的偏差较大,难以客观准确地评估回声消除的效果。
发明内容
鉴于上述问题,本申请提出了一种声学回声消除算法的评估方法、装置、终端设备及存储介质,以改善上述问题。
第一方面,本申请实施例提供了一种声学回声消除算法的评估方法,可应用于终端设备,该方法包括:获取目标远端语音信号;获取近端混合信号,所述近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与所述目标远端语音信号关联的第二模拟混响语音信号;基于目标声学回声消除算法以及所述目标远端语音信号对所述近端混合信号进行回声消除,并获取所述回声消除的过程中生成的回声消除评价参数;基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。
第二方面,本申请实施例提供了一种声学回声消除算法的评估装置,可运行于终端设备,该装置包括:第一信号获取模块,用于获取目标远端语音信号;第二信号获取模块,用于获取近端混合信号,所述近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与所述目标远端语音信号关联的第二模拟混响语音信号;评价参数获取模块,用于基于目标声学回声消除算法以及所述目标远端语音信号对所述近端混合信号进行回声消除,并获取所述回声消除的过程中生成的回声消除评价参数;评估模块,用于基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。
第三方面,本申请实施例提供了一种终端设备,包括存储器以及一个或多个处理器;一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于执行上述第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质中存储有程序代码,其中,在程序代码被处理器运行时执行上述第一方面所述的方法。
本申请实施例提供的一种声学回声消除算法的评估方法、装置、终端设备以及存储介质。本方法通过获取目标远端语音信号,继而获取近端混合信号,近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与目标远端语音信号关联的第二模拟混响语音信号,再获取基于目标声学回声消除算法、目标远端语音信号以及近端混合信号进行回声消除的过程中获得的回声消除评价参数,然后基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。从而通过上述方式实现了可以客观准确的评估声学回声消除算法的声学回声消除效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本申请一实施例提供的一种声学回声消除算法的评估方法的方法流程图。
图2示出了本实施例提供的对回声进行消除的模拟测试方法流程图。
图3示出了本申请实施例提出的漏回声率的计算方法流程图。
图4示出了本申请另一实施例提供的一种声学回声消除算法的评估方法的方法流程图。
图5示出了本实施例提供的对延时估计进行测试的示例结果图。
图6示出了本申请实施例提供的对与目标声学回声消除算法关联的模拟参数进行调整后的自适应滤波器以及后置滤波器的值的变化示例图。
图7示出了本申请实施例提供的一种声学回声消除算法的评估装置的结构框图。
图8示出了本申请实施例提供的一种终端设备的结构框图。
图9示出了本申请实施例的用于保存或者携带实现根据本申请实施例的声学回声消除算法的评估方法的程序代码的存储单元。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
回声可以理解为声音信号经过一系列反射之后,使用户又听到了自己讲话的声音。一些回声是必要的,比如剧院里的音乐回声以及延迟时间较短的房间回声;而大多数回声会造成负面影响,比如在有线或者无线通信时重复听到自己讲话的声音。随着通讯技术的日益发展,对实时传输语音质量的要求越来越高。现有技术中,消除回声的通常做法是在远端增加回声消除功能。
而回声消除的效果取决于多种因素,而如果仅仅依靠人的主观聆听的方法来确认回声消除的效果,会产生以下问题:1)每个人的主观感受不同,导致个体对听感的偏差较大;2)在一个场景下的解决方案,没有办法保证在其他场景下也可以表现良好;3)没有办法仅通过简单聆听,就可以确定出AEC的子模块中,哪些子模块更需要优化。
为了改善上述问题,发明人经过长期的研究发现,可以通过获取目标远端语音信号,继而获取近端混合信号,近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与目标远端语音信号关联的第二模拟混响语音信号,再获取基于目标声学回声消除算法、目标远端语音信号以及近端混合信号进行回声消除的过程中获得的回声消除评价参数,然后基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。从而通过上述方式实现了可以客观准确的评估声学回声消除算法的声学回声消除效果。因此,提出了本申请实施例提供的一种声学回声消除算法的评估方法、装置、终端设备以及存储介质。
下面将结合附图具体描述本申请的各实施例。
请参阅图1,示出了本申请一实施例提供的一种声学回声消除算法的评估方法的流程图,本实施例提供一种声学回声消除算法的评估方法,可应用于终端设备,该方法包括:
步骤S110:获取目标远端语音信号。
在麦克风与扬声器互相作用影响的双工通信系统中,近端讲话者的声音被近端麦克风采集并传入通信设备,经过无线或有线传输之后达到远端的通信设备,并通过远端扬声器播放,这个声音又会被远端麦克风拾取至其通信设备形成声学回声,经传输又返回到近端的通信设备,并通过近端扬声器播放出来,从而近端讲话者就听到了自己的回声。
本实施例中,远端语音信号包含来自远端用户或远端交互中的参与者的语音,例如,远端语音信号可以是免提电话中位于远端的用户的语音信号,或者远端语音信号可以是电话会议系统中位于远端的用户的语音信号,其中,远端语音信号可以由远端通信设备捕获。
可选的,本实施例中的目标远端语音信号可以理解为缓存的远端语音信号中,与近端混合信号中携带的远端语音信号最相似的一帧语音信号,具体相似的程度可以不做限定,例如,相似程度可以为80%、85%或者90%等数值。其中,远端语音信号被远端通信设备捕获后可以分成两路,一路语音信号进入AEC回声消除模块被延时估计器缓存,另一路语音信号经过下行缓冲波动模块后被播放。
作为一种实施方式,可以对远端语音信号的传输路径进行模拟,如图2所示,若干远端语音信号X(l,k)被远端通信设备捕获后分成两路,一路信号经过模拟系统的下行缓冲波动模块后变化为Xf(l,k),再传入扬声器,经过扬声器播放出来的远端语音信号可以进入模拟房间,由于模拟房间的房间里墙壁、地面、房顶等的声波反射,使得远端语音信号在传输的过程中产生混响,即远端语音信号会经过系统H(l,k),由Xf(l,k)变化为与目标远端语音信号关联的第二模拟混响语音信号D(l,k)。近端语音信号S(l,k)被近端通信设备采集后可以进入模拟房间,产生混响并经过Ae(l,k)系统、以及Ar(l,k)系统后,可以得到与近端语音信号S(l,k)关联的第一模拟混响语音信号Ze(l,k)信号与Zr(l,k)信号,其中,Ze(l,k)表征直达声与早反射部分的语音信号,Zr(l,k)表征后混响部分的语音信号。可选的,近端通信设备还可以捕获噪声信号N(l,k),进一步的,噪声信号N(l,k)、第一模拟混响语音信号Ze(l,k)信号与Zr(l,k)信号、以及第二模拟混响语音信号D(l,k)叠加之后,可以形成近端混合信号。
步骤S120:获取近端混合信号。
如图2中所示,本实施例中的近端混合信号中可以包括与近端语音信号S(l,k)关联的第一模拟混响语音信号(Ze(l,k)信号与Zr(l,k)信号)、以及与所述目标远端语音信号关联的第二模拟混响语音信号D(l,k)。可选的,在一些实施方式中,近端混合信号还可以包括噪声信号N(l,k)。
可选的,近端混合信号被麦克风采集进入模拟系统后,会先经过时钟漂移模块,由时钟漂移模块输出的信号Z(l,k)会再进入上行缓冲波动模块,进而形成更加精准的近端混合信号Y(l,k)。其中,时钟漂移模块可以用于模拟语音信号采样率的细微差别,上行缓冲波动模块可以用于模拟缓冲波动。
步骤S130:基于目标声学回声消除算法以及所述目标远端语音信号对所述近端混合信号进行回声消除,并获取所述回声消除的过程中生成的回声消除评价参数。
其中,回声消除评价参数可以包括早反射评价值,第一模拟混响语音信号可以包括早反射语音信号,早反射评价值以早反射语音信号作为参考信号。
本实施例中,针对模拟系统以及模拟房间可以分别配置多种回声消除影响参数。可选的,对于模拟系统,配置的回声消除影响参数可以包括固定延时、延时突变出现的时间及突变幅度、延迟漂移出现的时间范围及幅度、以及每秒时钟漂移数等。对于模拟房间,配置的回声消除影响参数可以包括说话人信息(包括近端说话者与远端说话者)、对话长度(例如通话的时长)、双讲出现位置、房间尺寸、墙壁吸收系数、RIR(Room ImpulseResponse,房间声学冲激响应)长度、各端(说话人、麦克风、扬声器)的初始位置、说话人的运动模式(固定,随机,移动)、扬声器的运动模式(固定,跟随)、麦克风的运动模式(固定,跟随)、移动速度、最短停留时间、噪声类型以及噪声幅度等。
需要说明的是,其中的模拟系统可以理解为可运行AEC算法的终端设备,例如可以是手机、PC电脑等设备。可选的,由于此类设备通常不会只运行AEC算法,还会运行其他应用程序,而其他程序的运行,可能会导致AEC的远端与近端数据产生缓冲波动。波动的不同方向可以包括填零(underrun),或覆盖(overrun),导致延迟变化。因而,本实施例中可以通过配置固定延迟,在某时间点延迟突变,以及在一定时间范围内延迟漂移,来模拟缓冲波动。其中,缓冲波动可发生在上行链路或者下行链路。时钟漂移(clock drift)模块的可以用来模拟时钟漂移。即使播放端与采集端,名义上都使用相同的采样率,比如16KHz,即一秒钟有16000个采样,但是由于播放与采集的时钟可能不完全同步,播放端一秒钟播放16000个采样,而采集端可能采样了16000+delta个采样,delta表征每秒时钟漂移数,可选的,delta可以取整数,而对于16KHz采样率来说,delta一般的取值范围可以是-100到100。
本实施例中的模拟房间中可以配置两个音源,一个音源为扬声器,另一个音源为说话人。可选的,可以根据房间的情况,调整两个音源以及麦克风的位置,例如,如下表1所示,可以分别调整说话人、扬声器以及麦克风的位置来模拟不同的通话场景,如下表1所示,当说话人、扬声器以及麦克风的位置均固定时可以模拟固定位置通话场景;当说话人移动,而扬声器以及麦克风的位置均固定时可以模拟固定设备通话/用户走动场景;当说话人移动,而扬声器以及麦克风的位置均跟随时可以模拟移动设备通话/用户走动的场景;当说话人移动,扬声器的位置固定,而麦克风跟随时可以模拟移动设备外界扬声器通话/用户走动的场景;当扬声器以及麦克风的位置均固定,而说话人的位置跳变时可以模拟多人会议场景。可选的,可以通过开源项目RIR-Generator生成两个RIR。
表1不同模拟场景
模拟场景 | 说话人 | 扬声器 | 麦克风 |
固定位置通话 | 固定 | 固定 | 固定 |
固定设备通话/用户走动 | 移动 | 固定 | 固定 |
移动设备通话/用户走动 | 移动 | 跟随 | 跟随 |
移动设备外接扬声器通话/用户走动 | 移动 | 固定 | 跟随 |
多人会议 | 跳变 | 固定 | 固定 |
其中,目标声学回声消除算法可以是AEC回声消除算法,或者可以是具备与AEC回声消除算法类似的回声消除功能的算法。需要说明的是,随着模拟系统以及模拟房间所配置的回声消除影响参数的变化,对应的目标回声消除算法的计算过程可以变化。可选的,通过选择不同的回声消除影响参数,可以组成不同集合的测试用例,例如,可以组成用于评估延时估计性能的延时变化测试集,或者可以组成用于评估双讲性能的双讲测试集等,具体回声消除影响参数的选择以及所选择的数量可以不做限定。
作为一种方式,可以基于目标声学回声消除算法以及目标远端语音信号对近端混合信号进行回声消除,并获取回声消除的过程中生成的回声消除评价参数(在该种情况下,回声消除的过程中的任何一个子节点产生的参数都可以作为回声消除评价参数)。
在一种实现方式中,可以获取回声消除的过程中与目标远端语音信号对应的漏回声数;以及获取与近端混合信号对应的远端非静音采样数;然后基于漏回声数与远端非静音采样数获取漏回声率;再将漏回声率作为回声消除评价参数。其中,可以基于漏回声数与远端非静音采样数按照如下公式获取漏回声率:
可选的,漏回声率可以表征在输出语音信号的过程中,包含回声的比例,漏回声率的值越低,表征漏回声越少,即回声消除效果越好。
其中,在回声消除的过程中,可以基于目标远端语音信号以及近端混合信号获取回声消除语音信号,例如,如图2所示,可以将目标远端语音信号通过自适应滤波器得到与近端混合信号Y(l,k)中携带的远端语音信号对应的估计信号/>该估计信号/>的值无限趋近于近端混合信号Y(l,k)中携带的远端语音信号的值(即前述的第二模拟混响语音信号D(l,k)),从近端混合信号Y(l,k)中减去该估计信号/>再将所得到的信号E(l,k)通过后置滤波器后可以得到回声消除语音信号/>相应的,可以基于目标远端语音信号以及回声消除语音信号获取目标延时(可以理解为查找到最相似帧后所记录的延时)。在一种实施方式中,若目标延时的时长达到设定时长的次数超过指定阈值,可以增加与目标远端语音信号对应的漏回声数,直至目标远端语音信号处理结束,可以得到与目标远端语音信号对应的漏回声数。
在一个具体的应用场景中,请参阅图3,示出了本申请实施例提出的漏回声率的计算方法流程图。如图3所示,当新一帧远端数据(即远端语音信号)被远端通信设备捕获后,可以使AEC回声消除模块中的远端缓冲更新,AEC回声消除模块输出新一帧的语音数据,继而可以在远端缓冲中从更新后的语音数据中查找与近端混合信号中携带的远端语音信号的回声最为相似的一帧,在该种方式下,可以记录远端语音信号的回声所产生的延时,为了便于准确评价回声消除的效果,可以判断当次所获取的延时与之前的延时是否一致,其中,若是一致表明近端用户或远端用户在持续说话,所记录的延时是有效的;而若不一致则表明近端用户或者远端用户未连续说话,所记录的延时是无效的,可以将所记录的延时舍弃并将同一延时的保持次数清零。可选的,若判定延时与之前延时一致的情况下,可以判断同一延时的保持次数是否超过预设阈值,可选的,若超过预设阈值,则可以将远端语音信号的回声帧数加1,而若未超过预设阈值,则将同一延时的保持次数加1。其中,若文件处理结束(即远端语音信号以及近端语音信号均捕获完毕),可以结束流程并获得漏回声数,而若文件处理未结束,则可以继续进行远端缓冲更新。
步骤S140:基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。
作为一种方式,本实施例可以采用整体指标对目标声学回声消除算法的回声消除效果进行评估。整体指标可以理解为一种回声消除评价参数。可选的,整体指标可以包括早反射MOS(Mean Opinion Score,主管打分),纯净语音MOS,以及漏回声率。其中,MOS可以使用ITU P.862,即PESQ(Perceptual Evaluation of Speech Quality,语音质量的感知评价)进行计算。早反射MOS与纯净语音MOS的参考信号不同。早反射MOS使用Ze信号作为参考,而纯净语音MOS使用S信号(即近端语音信号)作为参考。
本实施例提供的声学回声消除算法的评估方法,通过获取目标远端语音信号,继而获取近端混合信号,近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与目标远端语音信号关联的第二模拟混响语音信号,再获取基于目标声学回声消除算法、目标远端语音信号以及近端混合信号进行回声消除的过程中获得的回声消除评价参数,然后基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。从而通过上述方式实现了可以客观准确的评估声学回声消除算法的声学回声消除效果。
请参阅图4,示出了本申请另一实施例提供的一种声学回声消除算法的评估方法的流程图,本实施例提供一种声学回声消除算法的评估方法,可应用于终端设备,该方法包括:
步骤S210:获取目标远端语音信号。
步骤S220:获取近端混合信号。
步骤S230:基于目标声学回声消除算法以及所述目标远端语音信号对所述近端混合信号进行回声消除,并获取所述回声消除的过程中生成的回声消除评价参数。
步骤S240:基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。
可选的,本实施例中的回声消除评价参数可以理解为内部指标,该内部指标可以包括延时估计、自适应滤波器以及后置滤波器。在回声消除的过程中,可以将AEC算法内部的延时估计、自适应滤波器以及后置滤波器中的任一子模块产生的参数作为回声消除评价参数,以便于当前述模拟的任意一个场景出现问题时,可以依次查看上述三个子模块的表现,然后定位问题所在。
其中,对于延时估计,可以设定一个期望延时估计值,作为真实延时值,例如,请参阅图5,示出了本实施例提供的对延时估计进行测试的示例结果图,如图5所示,真实延时值可以设定为50ms。在目标远端语音信号通过自适应滤波器时,可以获得语音信号的瞬时延时估计值以及平滑延时估计值。可选的,还可以求取混合信号与远端信号的相关性。示例性的,图5中所示的模拟场景中,平滑延时估计值与真实延时值是大致吻合的。其中,可以用自适应滤波器ERLE评估自适应滤波器,具体计算公式如下:
其中,d表征回声信号(也就是D(l,k)的时域信号),y表征混合信号,e表征误差信号,表征对D(l,k)的估计信号,l表征帧数,R表征每帧的步进,L表征每帧的长度(即多少个采样),n表征采样。
相应的,可以用后置滤波器ERLE评估后置滤波器,具体计算公式如下:
其中,d表征回声信号(也就是D(l,k)的时域信号),y表征混合信号,表征对S的估计信号,/>表征对D(l,k)的估计信号,l表征帧数,R表征每帧的步进,L表征每帧的长度(即多少个采样),n表征采样。
步骤S250:基于所述评估的结果对与所述目标声学回声消除算法关联的模拟参数进行调整。
在一种实施方式中,可以获取目标测试环境,继而获取与目标测试环境匹配的至少一个系统模拟参数以及至少一个房间模拟参数,再获取目标测试环境下与目标声学回声消除算法对应的延时估计值,延时估计值包括平滑延时估计值,若平滑延时估计值与预设延时估计值不一致,可以对至少一个系统模拟参数和/或至少一个房间模拟参数进行调整,具体调整幅度可以根据实际情况进行设定。
在另一种实施方式中,可以获取目标测试环境下与目标声学回声消除算法对应的自适应滤波值与后置滤波值;若自适应滤波值与后置滤波值相对前一次测试环境中的自适应滤波值与后置滤波值均降低,对至少一个系统模拟参数和/或至少一个房间模拟参数进行调整。
例如,在一个具体的应用场景中,请参阅图6,示出了对与目标声学回声消除算法关联的模拟参数进行调整后的自适应滤波器以及后置滤波器的值的变化示例图。可根据自适应滤波器的值以及后置滤波器的值的变化来评估回声消除的效果。在图6中,自适应滤波器以及后置滤波器的回声返回损失均有所增强。
本实施例提供的声学回声消除算法的评估方法,通过获取目标远端语音信号,继而获取近端混合信号,近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与目标远端语音信号关联的第二模拟混响语音信号,再获取基于目标声学回声消除算法、目标远端语音信号以及近端混合信号进行回声消除的过程中获得的回声消除评价参数,然后基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。从而通过上述方式实现了可以客观准确的评估声学回声消除算法的声学回声消除效果。
请参阅图7,为本申请实施例提供的一种声学回声消除算法的评估装置的结构框图,本实施例提供一种声学回声消除算法的评估装置300,可以运行于终端设备,所述装置300包括:第一信号获取模块310、第二信号获取模块320、评价参数获取模块330、以及评估模块340:
第一信号获取模块310,用于获取目标远端语音信号。
第二信号获取模块320,用于获取近端混合信号,所述近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与所述目标远端语音信号关联的第二模拟混响语音信号。
评价参数获取模块330,用于基于目标声学回声消除算法以及所述目标远端语音信号对所述近端混合信号进行回声消除,并获取所述回声消除的过程中生成的回声消除评价参数。
可选的,本实施例中的回声消除评价参数包括早反射评价值,所述第一模拟混响语音信号包括早反射语音信号,所述早反射评价值以所述早反射语音信号作为参考信号。
在一种实现方式中,评价参数获取模块330可以用于获取回声消除的过程中与所述目标远端语音信号对应的漏回声数;获取与所述近端混合信号对应的远端非静音采样数;基于所述漏回声数与所述远端非静音采样数获取漏回声率;将所述漏回声率作为回声消除评价参数。
可选的,获取回声消除的过程中与所述目标远端语音信号对应的漏回声数的步骤可以包括:在回声消除的过程中,基于所述目标远端语音信号以及所述近端混合信号获取回声消除语音信号;基于所述目标远端语音信号以及所述回声消除语音信号获取目标延时;若所述目标延时的时长达到设定时长的次数超过指定阈值,增加与所述目标远端语音信号对应的漏回声数,直至所述目标远端语音信号处理结束,得到与所述目标远端语音信号对应的漏回声数。
评估模块340,用于基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。
可选的,装置300还可以包括优化模块,用于基于所述评估的结果对与所述目标声学回声消除算法关联的模拟参数进行调整。
作为一种方式,优化模块可以用于获取目标测试环境;获取与所述目标测试环境匹配的至少一个系统模拟参数以及至少一个房间模拟参数;获取所述目标测试环境下与所述目标声学回声消除算法对应的延时估计值,所述延时估计值包括平滑延时估计值;若所述平滑延时估计值与预设延时估计值不一致,对所述至少一个系统模拟参数和/或所述至少一个房间模拟参数进行调整。
作为另一种方式,优化模块可以用于获取所述目标测试环境下与所述目标声学回声消除算法对应的自适应滤波值与后置滤波值;若所述自适应滤波值与后置滤波值相对前一次测试环境中的自适应滤波值与后置滤波值均降低,对所述至少一个系统模拟参数和/或所述至少一个房间模拟参数进行调整。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
请参阅图8,基于上述的声学回声消除算法的评估方法及装置,本申请实施例还提供了一种可以执行前述声学回声消除算法的评估方法的终端设备100。终端设备100包括存储器102以及相互耦合的一个或多个(图中仅示出一个)处理器104,存储器102以及处理器104之间通信线路连接。存储器102中存储有可以执行前述实施例中内容的程序,而处理器104可以执行存储器102中存储的程序。
其中,处理器104可以包括一个或者多个处理核。处理器104利用各种接口和线路连接整个终端设备100内的各个部分,通过运行或执行存储在存储器102内的指令、程序、代码集或指令集,以及调用存储在存储器102内的数据,执行终端设备100的各种功能和处理数据。可选地,处理器104可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrammableLogic Array,PLA)中的至少一种硬件形式来实现。处理器104可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器104中,单独通过一块通信芯片进行实现。
存储器102可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器102可用于存储指令、程序、代码、代码集或指令集。存储器102可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。存储数据区还可以存储终端设备100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图9,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质400中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质400包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。
综上所述,本申请实施例提供的一种声学回声消除算法的评估方法、装置、终端设备以及存储介质,通过获取目标远端语音信号,继而获取近端混合信号,近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与目标远端语音信号关联的第二模拟混响语音信号,再获取基于目标声学回声消除算法、目标远端语音信号以及近端混合信号进行回声消除的过程中获得的回声消除评价参数,然后基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。从而通过上述方式实现了可以客观准确的评估声学回声消除算法的声学回声消除效果。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (9)
1.一种声学回声消除算法的评估方法,其特征在于,所述方法包括:
获取目标远端语音信号;
获取近端混合信号,所述近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与所述目标远端语音信号关联的第二模拟混响语音信号;
基于目标声学回声消除算法以及所述目标远端语音信号对所述近端混合信号进行回声消除,并获取所述回声消除的过程中生成的回声消除评价参数,所述获取所述回声消除的过程中生成的回声消除评价参数,包括:获取回声消除的过程中与所述目标远端语音信号对应的漏回声数;获取与所述近端混合信号对应的远端非静音采样数;基于所述漏回声数与所述远端非静音采样数获取漏回声率;将所述漏回声率作为回声消除评价参数;
基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。
2.根据权利要求1所述的方法,其特征在于,所述获取回声消除的过程中与所述目标远端语音信号对应的漏回声数,包括:
在回声消除的过程中,基于所述目标远端语音信号以及所述近端混合信号获取回声消除语音信号;
基于所述目标远端语音信号以及所述回声消除语音信号获取目标延时;
若所述目标延时的时长达到设定时长的次数超过指定阈值,增加与所述目标远端语音信号对应的漏回声数,直至所述目标远端语音信号处理结束,得到与所述目标远端语音信号对应的漏回声数。
3.根据权利要求1所述的方法,其特征在于,所述回声消除评价参数包括早反射评价值,所述第一模拟混响语音信号包括早反射语音信号,所述早反射评价值以所述早反射语音信号作为参考信号。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述评估的结果对与所述目标声学回声消除算法关联的模拟参数进行调整。
5.根据权利要求4所述的方法,其特征在于,所述基于所述评估的结果对与所述目标声学回声消除算法关联的模拟参数进行调整,包括:
获取目标测试环境;
获取与所述目标测试环境匹配的至少一个系统模拟参数以及至少一个房间模拟参数;
获取所述目标测试环境下与所述目标声学回声消除算法对应的延时估计值,所述延时估计值包括平滑延时估计值;
若所述平滑延时估计值与预设延时估计值不一致,对所述至少一个系统模拟参数和/或所述至少一个房间模拟参数进行调整。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取所述目标测试环境下与所述目标声学回声消除算法对应的自适应滤波值与后置滤波值;
若所述自适应滤波值与后置滤波值相对前一次测试环境中的自适应滤波值与后置滤波值均降低,对所述至少一个系统模拟参数和/或所述至少一个房间模拟参数进行调整。
7.一种声学回声消除算法的评估装置,其特征在于,所述装置包括:
第一信号获取模块,用于获取目标远端语音信号;
第二信号获取模块,用于获取近端混合信号,所述近端混合信号中包括与近端语音信号关联的第一模拟混响语音信号、以及与所述目标远端语音信号关联的第二模拟混响语音信号;
评价参数获取模块,用于基于目标声学回声消除算法以及所述目标远端语音信号对所述近端混合信号进行回声消除,并获取所述回声消除的过程中生成的回声消除评价参数,所述获取所述回声消除的过程中生成的回声消除评价参数,包括:获取回声消除的过程中与所述目标远端语音信号对应的漏回声数;获取与所述近端混合信号对应的远端非静音采样数;基于所述漏回声数与所述远端非静音采样数获取漏回声率;将所述漏回声率作为回声消除评价参数;
评估模块,用于基于所述回声消除评价参数对所述目标声学回声消除算法的回声消除效果进行评估。
8.一种终端设备,其特征在于,包括存储器;
一个或多个处理器;
一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行权利要求1-6任一所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行权利要求1-6任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011314760.1A CN112489680B (zh) | 2020-11-20 | 2020-11-20 | 声学回声消除算法的评估方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011314760.1A CN112489680B (zh) | 2020-11-20 | 2020-11-20 | 声学回声消除算法的评估方法、装置及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112489680A CN112489680A (zh) | 2021-03-12 |
CN112489680B true CN112489680B (zh) | 2023-08-08 |
Family
ID=74933136
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011314760.1A Active CN112489680B (zh) | 2020-11-20 | 2020-11-20 | 声学回声消除算法的评估方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112489680B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113077804B (zh) * | 2021-03-17 | 2024-02-20 | 维沃移动通信有限公司 | 回声消除方法、装置、设备及存储介质 |
CN115132218A (zh) * | 2022-06-30 | 2022-09-30 | 北京飞讯数码科技有限公司 | 回声消除检测方法及装置、计算设备和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004146911A (ja) * | 2002-10-22 | 2004-05-20 | Oki Electric Ind Co Ltd | エコーキャンセラ性能評価試験装置 |
CN101661751A (zh) * | 2008-08-29 | 2010-03-03 | 华为技术有限公司 | 一种评估声学回声消除算法的方法和装置 |
CN107910014A (zh) * | 2017-11-23 | 2018-04-13 | 苏州科达科技股份有限公司 | 回声消除的测试方法、装置及测试设备 |
CN109391811A (zh) * | 2017-08-11 | 2019-02-26 | 2236008安大略有限公司 | 运行时延敏感音频信号处理的系统上的抖动的测量和补偿 |
CN109961797A (zh) * | 2017-12-25 | 2019-07-02 | 阿里巴巴集团控股有限公司 | 一种回声消除方法、装置以及电子设备 |
CN111755019A (zh) * | 2019-03-28 | 2020-10-09 | 三星电子株式会社 | 用深度多任务递归神经网络来声学回声消除的系统和方法 |
-
2020
- 2020-11-20 CN CN202011314760.1A patent/CN112489680B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004146911A (ja) * | 2002-10-22 | 2004-05-20 | Oki Electric Ind Co Ltd | エコーキャンセラ性能評価試験装置 |
CN101661751A (zh) * | 2008-08-29 | 2010-03-03 | 华为技术有限公司 | 一种评估声学回声消除算法的方法和装置 |
CN109391811A (zh) * | 2017-08-11 | 2019-02-26 | 2236008安大略有限公司 | 运行时延敏感音频信号处理的系统上的抖动的测量和补偿 |
CN107910014A (zh) * | 2017-11-23 | 2018-04-13 | 苏州科达科技股份有限公司 | 回声消除的测试方法、装置及测试设备 |
CN109961797A (zh) * | 2017-12-25 | 2019-07-02 | 阿里巴巴集团控股有限公司 | 一种回声消除方法、装置以及电子设备 |
CN111755019A (zh) * | 2019-03-28 | 2020-10-09 | 三星电子株式会社 | 用深度多任务递归神经网络来声学回声消除的系统和方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112489680A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107123430B (zh) | 回声消除方法、装置、会议平板及计算机存储介质 | |
US11297178B2 (en) | Method, apparatus, and computer-readable media utilizing residual echo estimate information to derive secondary echo reduction parameters | |
CN111951819A (zh) | 回声消除方法、装置及存储介质 | |
CN112489679B (zh) | 声学回声消除算法的评估方法、装置及终端设备 | |
US10115411B1 (en) | Methods for suppressing residual echo | |
US9286883B1 (en) | Acoustic echo cancellation and automatic speech recognition with random noise | |
CN110246515A (zh) | 回声的消除方法、装置、存储介质及电子装置 | |
CN108447496B (zh) | 一种基于麦克风阵列的语音增强方法及装置 | |
US9246545B1 (en) | Adaptive estimation of delay in audio systems | |
US9491545B2 (en) | Methods and devices for reverberation suppression | |
CN111031448B (zh) | 回声消除方法、装置、电子设备和存储介质 | |
US20220301577A1 (en) | Echo cancellation method and apparatus | |
CN111583950B (zh) | 一种音频处理方法、装置、电子设备及存储介质 | |
CN107483761A (zh) | 一种回波抑制方法及装置 | |
US11380312B1 (en) | Residual echo suppression for keyword detection | |
CN110992923B (zh) | 回声消除方法、电子设备以及存储装置 | |
US9185506B1 (en) | Comfort noise generation based on noise estimation | |
CN112489680B (zh) | 声学回声消除算法的评估方法、装置及终端设备 | |
CN110265054A (zh) | 语音信号处理方法、装置、计算机可读存储介质和计算机设备 | |
Pfeifenberger et al. | Acoustic Echo Cancellation with Cross-Domain Learning. | |
CN106161820B (zh) | 一种用于立体声声学回声抵消的通道间去相关方法 | |
CN109712637B (zh) | 一种混响抑制系统及方法 | |
CN112929506A (zh) | 音频信号的处理方法及装置,计算机存储介质及电子设备 | |
US9392365B1 (en) | Psychoacoustic hearing and masking thresholds-based noise compensator system | |
CN111210799A (zh) | 一种回声消除方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |