CN111768797A

CN111768797A - 语音增强处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111768797A
Application number: CN202010903341.5A
Authority: CN
Inventors: 谢单辉; 张伟彬
Original assignee: Voiceai Technologies Co ltd
Current assignee: Voiceai Technologies Co ltd
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2020-10-13

Abstract

本申请涉及一种语音增强处理方法、装置、计算机设备和存储介质。方法包括：获取麦克风阵列中各麦克风各自对应的监测信息，获取麦克风阵列中各麦克风采集的语音信号构成的语音信号集合；根据监测信息判断相应的麦克风是否被遮挡；当麦克风阵列中存在被遮挡的麦克风时，则在麦克风阵列的位置信息列表中删除被遮挡的麦克风的空间位置信息，在语音信号集合中删除被遮挡的麦克风采集的语音信号；根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位；根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。采用本方法能够提高处理后的语音信号质量。

Description

语音增强处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音增强处理方法、装置、计算机设备和存储介质。

背景技术

随着计算机技术的发展，语音信号在生活中广泛使用。通过麦克风阵列可以形成定向拾音，提升目标语音信号采集的质量。

传统方法中，通过比较麦克风阵列中不同的麦克风采集的声音信号之间的相位、幅度差异来确定语音信号的来源方向，从而增强目标方向的语音，衰减非目标方向的语音干扰。传统方法在麦克风阵列中的麦克风被遮挡时，会受到严重干扰，语音增强效果很差。

发明内容

基于此，有必要针对上述技术问题，提供一种能够抗遮挡干扰的语音增强处理方法、装置、计算机设备和存储介质。

一种语音增强处理方法，所述方法包括：

获取麦克风阵列中各麦克风各自对应的监测信息，获取所述麦克风阵列中各麦克风采集的语音信号构成的语音信号集合；

根据所述监测信息判断相应的麦克风是否被遮挡；

当所述麦克风阵列中存在被遮挡的麦克风时，则在所述麦克风阵列的位置信息列表中删除所述被遮挡的麦克风的空间位置信息，在所述语音信号集合中删除所述被遮挡的麦克风采集的语音信号；

根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位；

根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。

在一个实施例中，所述根据所述监测信息判断相应的麦克风是否被遮挡，包括：

根据所述麦克风阵列中每个麦克风对应的至少一种监测信息，得出与所述至少一种监测信息对应的麦克风是否被遮挡的至少一个判断结果；基于所述至少一个判断结果确定与所述至少一种监测信息对应的麦克风是否被遮挡。

当所述监测信息为所述麦克风阵列中的麦克风的监测图像时，检测所述监测图像中是否存在进音孔，以判断相应的麦克风是否被遮挡；和/或，

当所述监测信息为所述麦克风阵列中的麦克风的承受压力值时，检测所述承受压力值是否超出预设值，以判断相应的麦克风是否被遮挡；和/或，

当所述监测信息为所述麦克风阵列中麦克风对应的红外信息时，检测基于所述红外信息是否能够检测到遮挡物，以判断相应的麦克风是否被遮挡。

在一个实施例中，所述根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位，包括：

对经过删除操作的语音信号集合中的语音信号进行回声消除运算；

对经过回声消除运算的语音信号进行混响消除运算；

根据经过删除操作的位置信息列表中的空间位置信息对经过混响消除运算的语音信号进行声源定位。

在经过删除操作的语音信号集合中选取作为参考基准的参考语音信号；

分别计算经过删除操作的语音信号集合中除所述参考语音信号之外的其余语音信号相对于所述参考语音信号的时延信息；

基于所述时延信息和经过删除操作的位置信息列表中的空间位置信息，通过几何运算得到各语音信号的声源方向。

在一个实施例中，所述分别计算经过删除操作的语音信号集合中除所述参考语音信号之外的其余语音信号相对于所述参考语音信号的时延信息，包括：

分别计算所述语音信号集合中除所述参考语音信号之外的其余语音信号和所述参考语音信号之间的互相关函数；

获取所述互相关函数在峰值处的坐标；

根据所述峰值处的坐标获取所述时延信息。

在一个实施例中，所述根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理，包括：

根据所述时延信息对经过删除操作后的语音信号集合中的各语音信号进行时延补偿；

根据所述声源方向生成经过删除操作的语音信号集合的语音响应矩阵；

通过所述语音响应矩阵对经过时延补偿的各语音信号进行运算，得到增强后的语音信号。

在一个实施例中，所述根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理之后，所述方法还包括：

获取更新的监测信息；

根据所述更新的监测信息判断所述被遮挡的麦克风是否恢复正常；

若所述被遮挡的麦克风恢复正常，则对位置信息列表和语音信号集合进行更新；

基于更新后的空间位置信息列表和更新后的语音信号集合进行语音增强处理。

一种语音增强处理装置，所述装置包括：

获取模块，用于获取麦克风阵列中各麦克风各自对应的监测信息，获取所述麦克风阵列中各麦克风采集的语音信号构成的语音信号集合；

判断模块，用于根据所述监测信息判断相应的麦克风是否被遮挡；

删除模块，用于当所述麦克风阵列中存在被遮挡的麦克风时，则在所述麦克风阵列的位置信息列表中删除所述被遮挡的麦克风的空间位置信息，在所述语音信号集合中删除所述被遮挡的麦克风采集的语音信号；

声源定位模块，用于根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位；

增强处理模块，用于根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。

在一个实施例中，所述判断模块，还用于：

在一个实施例中，所述声源定位模块，还用于：

对经过回声消除运算的语音信号进行混响消除运算；

在一个实施例中，所述声源定位模块，还用于：

获取所述互相关函数在峰值处的坐标；

根据所述峰值处的坐标获取所述时延信息。

在一个实施例中，所述增强处理模块，还用于：

在一个实施例中，所述装置还包括：

所述获取模块，用于获取更新的监测信息；

所述判断模块，用于根据所述更新的监测信息判断所述被遮挡的麦克风是否恢复正常；

更新模块，若所述被遮挡的麦克风恢复正常，则用于对空间位置信息列表和语音信号集合进行更新；

所述增强处理模块，用于基于更新后的空间位置信息列表和更新后的语音信号集合进行语音增强处理。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现所述语音增强处理方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现所述语音增强处理方法的步骤。

上述实施例中，计算机设备获取了各个麦克风的监测信息，并可以根据监测信息判断出该麦克风是否被遮挡，在麦克风被遮挡时删除该麦克风的空间位置信息和该麦克风采集的语音信号。由于计算机设备在进行语音增强处理时，没有利用被遮挡的麦克风的空间位置信息和被遮挡的麦克风采集的语音信号，所以可以防止语音增强处理算法由于麦克风被遮挡而受到干扰，提高语音增强处理后的语音信号质量。

附图说明

图1为一个实施例中语音增强处理方法的应用环境图；

图2为一个实施例中语音增强处理方法的流程示意图；

图3为一个实施例中语音增强处理方法的原理示意图；

图4为另一个实施例中语音增强处理方法的流程示意图；

图5为一个实施例中语音增强处理装置的结构框图；

图6为另一个实施例中语音增强处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图；

图8为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的语音增强处理方法，可以应用于如图1所示的应用环境中。其中，计算机设备102接收麦克风阵列106采集的语音信号构成的语音信号集合，并获取麦克风阵列中各麦克风各自对应的监测信息。然后根据监测信息判断相应的麦克风是否被遮挡。当麦克风阵列中存在被遮挡的麦克风时，计算机设备102在位置信息列表中删除被遮挡的麦克风的空间位置信息，并在语音信号集合中删除被遮挡的麦克风采集的语音信号。最后，计算机设备102根据经过删除操作后的位置信息列表中空间位置信息对经过删除操作后的语音信号集合中的语音信号进行语音增强处理，并将经过语音增强处理后的语音信号输出至扩音器104。

其中，计算机设备102可以是终端，也可以是服务器。终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种语音增强处理方法，以该方法应用于图1中的计算机设备为例进行说明，包括以下步骤：

S202，获取麦克风阵列中各麦克风各自对应的监测信息，获取所述麦克风阵列中各麦克风采集的语音信号构成的语音信号集合。

其中，麦克风阵列是由多个麦克风组成的音频前端采集设备，用于采集来自不同空间方向的声音。麦克风阵列有线性、环形、球形、星形等规则形状，也有分布式、自组网式等其他不规则形状。

其中，监测信息是信息采集设备采集的，能够反映麦克风是否被遮挡的信息。例如，监测信息可以是麦克风的物理状态信息、外观特征信息等。其中，物理状态信息可以是在麦克风表面预设位置感受到的压力值信息，或者可以是麦克风表面预设位置的光感信息，或者可以是麦克风表面预设位置的温度信息。其中，外观特征信息可以是麦克风的图像信息，或者可以是麦克风的红外信息，或者可以是麦克风的点云数据信息。

其中，计算机设备可以设置每个麦克风对应的监测信息的种类数，并且也可以设置每个麦克风对应的监测信息的类型。例如，计算机设备对于每个麦克风，可以设置获取两种类型的监测信息。例如，这两种监测信息可以是麦克风表面预设位置压力值和麦克风的红外信息。例如，计算机设备对于比较容易被遮挡的位置的麦克风，可以设置获取三种类型的监测信息，对于不容易被遮挡的位置的麦克风，可以设置获取一种类型的监测信息，以对容易被遮挡的位置的麦克风进行重点监测。

其中，语音信号是麦克风阵列中各个麦克风采集的来自不同声源方向的声音信号。麦克风阵列中所有麦克风采集的语音信号构成语音信号集合。

S204，计算机设备根据监测信息判断相应的麦克风是否被遮挡。

计算机设备获取麦克风对应的监测信息后，对每个麦克风对应的每种监测信息进行分析处理，得到一个基于该种监测信息对麦克风是否被遮挡的判断结果。计算机设备可以基于麦克风对应的一种类型的监测信息确定该麦克风是否被遮挡。也可以对每个麦克风对应的部分或者所有类型的监测信息进行综合分析判断，以确定该麦克风是否被遮挡。

S206，当麦克风阵列中存在被遮挡的麦克风时，则在麦克风阵列的位置信息列表中删除被遮挡的麦克风的空间位置信息，在语音信号集合中删除被遮挡的麦克风采集的语音信号；

其中，位置信息列表中存储了麦克风阵列中所有麦克风的空间位置信息。

其中，空间位置信息是麦克风在三维空间中的位置坐标。

由于被遮挡的麦克风采集的语音信号会产生严重的衰减或者畸变，所以计算机设备在确定麦克风阵列中存在被遮挡的麦克风后，在麦克风阵列的位置信息列表中删除被遮挡的麦克风的空间位置信息，在语音信号集合中删除被遮挡的麦克风采集的语音信号。以防止被遮挡的麦克风采集的语音信号对语音增强处理算法产生干扰，污染其他正常的语音信号。

S208，计算机设备根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位。

其中，声源定位是确定麦克风阵列中麦克风采集的语音信号的声源的方向。

由于麦克风阵列中各麦克风的空间位置不同，所以各麦克风采集的语音信号在相位、幅度和时延等语音信号特征上都有差异。计算机设备可以根据麦克风阵列中各麦克风采集的语音信号在语音信号特征上的差异，以及各麦克风的空间位置信息对各麦克风采集的语音信号进行声源定位，以确定语音信号的声源方向。

其中，计算机设备对各麦克风采集的语音信号进行信号处理，可以获取各语音信号的相位、幅度和时延等语音信号特征。

S210，计算机设备根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。

其中，声源方向是麦克风采集的语音信号的信号来源方向。

在一个实施例中，计算机设备将语音信号的声源方向划分为目标声源方向和非目标声源方向。目标声源方向是麦克风期望采集的有用的语音信号的声源的方向。非目标声源方向是噪声信号的来源方向。

其中，语音增强处理是根据语音信号的声源方向，对来自于目标声源方向的语音信号进行保留和增强，对非来自于目标声源方向的噪声语音信号进行衰减，以滤除噪音，增强有用的语音信号。

上述实施例中，计算机设备获取了各个麦克风的监测信息，并可以根据监测信息判断出该麦克风是否被遮挡，在麦克风被遮挡时删除该麦克风的空间位置信息和该麦克风采集的语音信号。由于计算机设备在进行语音增强处理时，没有利用被遮挡的麦克风的空间位置信息和被遮挡的麦克风采集的语音信号，所以可以防止语音增强算法受被遮挡麦克风数据干扰，提高语音增强处理后的语音信号质量。

在一个实施例中，计算机设备根据监测信息判断相应的麦克风是否被遮挡，包括：根据麦克风阵列中每个麦克风对应的至少一种监测信息，得出与至少一种监测信息对应的麦克风是否被遮挡的至少一个判断结果；基于至少一个判断结果确定与至少一种监测信息对应的麦克风是否被遮挡。

计算机设备首先确定每个麦克风对应的至少一种监测信息，也就是说对于每个麦克风，计算机设备至少获取一种监测信息。基于每一种监测信息，计算机设备对这种监测信息进行分析处理，以基于该种监测信息判断对应的麦克风是否被遮挡，得到判断结果。

例如，计算机设备获取了一种监测信息，根据获取的这种监测信息确定对应的麦克风是否被遮挡。例如，计算机设备获取了两种以上监测信息，首先根据获取的每一种监测信息判断对应的麦克风是否被遮挡，然后，对每个麦克风对应的各监测信息的判断结果进行综合分析，以得到和监测信息对应的麦克风是否被遮挡的判断结果。例如，计算机设备获取的监测信息为监测图像，则计算机设备根据获取的监测图像判断对应的麦克风是否被遮挡，得到判断结果。例如，计算机设备获取的监测信息为红外信息和承受压力值时，计算机设备分别根据红外信息和承受压力值判断对应的麦克风是否被遮挡，然后对基于红外信息的判断结果和基于承受压力值的判断结果进行综合分析，确定与红外信息和承受压力值对应的麦克风是否被遮挡。例如，计算机设备获取的监测信息为监测图像、红外信息和承受压力值时，计算机设备分别根据监测图像、红外信息和承受压力值判断对应的麦克风是否被遮挡，然后对基于监测图像的判断结果、基于红外信息的判断结果和基于承受压力值的判断结果进行综合分析，确定与监测图像、红外信息和承受压力值对应的麦克风是否被遮挡。

在一个实施例中，计算机设备可以设置对每个麦克风对应的一种监测信息进行判断的判断条件，并根据判断条件确定麦克风是否被遮挡。可以理解，所述一种监测信息可以为所述麦克风对应的任意一种监测信息，例如，红外信息、图像信息、预设位置压力值信息中的任意一种，或按照预设规则挑选出的上述监测信息中的特定一种，所述预设规则可以是所述监测信息的优先级。例如，计算机设备可以设置判断条件为，根据麦克风对应的任意一种监测信息或特定监测信息得到的判断结果表明该麦克风被遮挡，则确定该麦克风是否被遮挡。例如：计算机设备可以设置判断条件为，根据麦克风对应的任一种监测信息，例如红外信息（或者图像信息，或者预设位置压力值等）得出所述麦克风被遮挡，则无需进一步根据所述其他监测信息得出检测结果，即确定所述麦克风被遮挡。进一步地，若分别根据所述每种监测信息判断得出所述麦克风均未被遮挡，则确定所述麦克风未被遮挡。进一步的，在其他实施方式中，计算机设备可以设置判断条件为，根据麦克风对应的优先级较高的监测信息依次进行判断，并根据所述判断结果确定该麦克风是否被遮挡。可以理解，用户可以针对所述监测信息设定优先级，计算机设备优先监测优先级较高的监测信息，例如所述监测信息包括红外信息、图像信息、预设位置压力值，且优先级依次降低，则所述计算机设备优先根据所述优先级较高的监测信息得出判断结果，例如优先根据所述红外信息得出所述麦克风是否被遮挡的的判断结果，并确定所述麦克风是否被遮挡，并在根据所述红外信息不能得出所述麦克风被遮挡的判断结果时，进一步根据优先级较低的图像信息或所述预设位置压力值得出所述麦克风是否被遮挡的判断结果，并进一步确定所述麦克风是否被遮挡。

在一个实施例中，计算机设备可以设置对每个麦克风对应的至少两种监测信息进行综合判断的判断条件，根据判断条件对监测信息进行综合分析判断，以确定麦克风是否被遮挡。例如，计算机设备可以设置判断条件为，根据麦克风对应的至少两种监测信息得到的判断结果都表明该麦克风被遮挡，则确定该麦克风被遮挡。例如，计算机设备可以设置判断条件为，根据麦克风对应的其中一种监测信息，例如红外信息（或者图像信息，或者预设位置压力值等）得到的判断结果表明该麦克风被遮挡，并且在其余的监测信息中，还有至少一种监测信息的判断结果表明该麦克风被遮挡，则确定该麦克风被遮挡。

在一个实施例中，计算机设备在综合确定监测信息对应的麦克风是否被遮挡时，对麦克风对应的每种监测信息对应的判断结果进行加权计算，如果加权计算的结果大于预设的判断阈值，则确定对应的麦克风被遮挡。例如，计算机设备设置被遮挡的判断结果为1，没有被遮挡的判断结果为0，对每种监测信息得到的判断结果设置不同的权值。计算机设备可以根据基于概率得到的每种监测信息的准确程度设置不同的权值。例如，计算机设备在基于监测图像和红外信息得到的判断结果进行综合分析时，设置根据监测图像得到的判断结果的权值为0.6，设置根据红外信息得到的判断结果的权值为0.4，设置判断阈值为0.5。如果基于监测图像得到的判断结果为被遮挡，被遮挡对应的数值为1，如果基于红外信息得到的判断结果为没有被遮挡，没有被遮挡对应的数值为0，所以计算机设备对基于监测图像和红外信息得到的判断结果进行综合分析的加权计算的计算方法为1*0.6+0*0.4=0.6，大于判断阈值0.5，所以确定监测信息对应的麦克风被遮挡。

在一个实施例中，计算机设备根据监测信息判断相应的麦克风是否被遮挡，包括：当监测信息为麦克风阵列中的麦克风的监测图像时，检测监测图像中是否存在进音孔，以判断相应的麦克风是否被遮挡；和/或，当监测信息为麦克风阵列中的麦克风的承受压力值时，检测承受压力值是否超出预设值，以判断相应的麦克风是否被遮挡；和/或，当监测信息为麦克风阵列中麦克风对应的红外信息时，检测基于红外信息是否能够检测到遮挡物，以判断相应的麦克风是否被遮挡。

其中，计算机设备可以将麦克风的实时监测图像和预存的正常图像进行对比，或者可以通过基于卷积神经网络或者基于LSTM（long short term memory，长短期记忆）网络的方法检测监测图像中是否存在进音孔。

由于，计算机设备对监测信息的分析判断存在误差，根据一种监测信息得到的判断结果很可能出现错误。计算机设备对每个麦克风对应的多种监测信息进行综合判断，可以提高判断的准确性。

在一个实施例中，计算机设备根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位，包括：对经过删除操作的语音信号集合中的语音信号进行回声消除运算；对经过回声消除运算的语音信号进行混响消除运算；根据经过删除操作的位置信息列表中的空间位置信息对经过混响消除运算的语音信号进行声源定位。

由于，从扩音器中播放的声音信号会叠加到麦克风采集的语音信号中成为回声，所以计算机设备在对经过删除操作的语音信号集合中的语音信号进行声源定位时，首先根据回声消除算法将麦克风采集的扩音器中播放的声音信号消除，以避免扩音器中播放的声音信号对声源定位算法产生干扰，并且可以防止语音增强处理后的语音信号中出现回声，影响麦克风阵列的声音效果。

计算机设备可以利用AEC(Acoustic Echo Cancellation，声学回声消除)回声消除回音器对麦克风采集的语音信号进行回声消除，或者可以利用AFC(Adaptive FeedbackControl，自适应声反馈)技术对麦克风采集的语音信号进行回声消除。

由于，麦克风在采集语音信号时，除了能够接收到声源所发出的直接到达的声波外，还会接收到声源发出的、经过反射而到达的声波。声源发出的、经过反射而到达的声波被称为混响。混响会导致麦克风阵列的语音效果变差，所以计算机设备对接收到的语音信号进行混响消除运算以避免混响的干扰。

计算机设备可以利用基于波束形成的混响消除算法或者基于逆滤波的混响消除算法以及复倒谱滤波混响消除算法对麦克风采集的语音信号进行混响消除。

在一个实施例中，计算机设备根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位，包括：在经过删除操作的语音信号集合中选取作为参考基准的参考语音信号；分别计算经过删除操作的语音信号集合中除参考语音信号之外的其余语音信号相对于参考语音信号的时延信息；基于时延信息和经过删除操作的位置信息列表中的空间位置信息，通过几何运算得到各语音信号的声源方向。

其中，时延信息是不同麦克风采集信号之间时间的差值。计算机设备根据声音的速度、麦克风的几何结构（i.e.麦克风的空间位置）和估计到时延信息可以反向推测声源的方位。

其中，几何运算是根据基于不同的语音信号从声源到达其对应的麦克风的距离差确定的麦克风和声源之间的几何关系，计算得到声源方向的运算方法。

在一个实施例中，声源到采集参考语音信号的麦克风(从未被删除的麦克风阵列中挑选一个作为空间参考)和到其他各麦克风的时延差为零，可以推测距离差也为零。也就是说，声源到每个麦克风的距离相等。根据几何中圆的定义，圆周上每一点到圆心的距离相等。所以，声源在麦克风阵列中麦克风连接而成的圆弧确定的圆的圆心上。

在另一个实施例中，声源到采集参考语音信号的麦克风和到其他各麦克风的距离差相同，并且大于零。根据双曲线的定义，双曲线上的点到两焦点的距离差为固定值，也就说声源位于双曲线上。计算机设备根据两组距离差即可确定两个双曲线，两个双曲线的交点即为声源的位置。

在另一个实施例中，声源到采集参考语音信号的麦克风的距离和声源到采集其他语音信号的麦克风的距离差大于零，且根据不同的麦克风的空间位置而不同。计算机设备根据声源到采集参考语音信号的麦克风和到其他麦克风的距离差之间的函数关系，计算出麦克风阵列中麦克风和声源的几何关系，然后根据麦克风的空间位置信息即可得到声源位置。

计算机设备在确定声源的位置之后，由于声源所在的点和麦克风所在的点连成一条直线，所以根据麦克风的空间位置信息和声源位置即可确定声源相对于麦克风的方向，也就是各语音信号的声源方向。

在一个实施例中，计算机设备分别计算经过删除操作的语音信号集合中除参考语音信号之外的其余语音信号相对于参考语音信号的时延信息，包括：分别计算语音信号集合中除参考语音信号之外的其余语音信号和参考语音信号之间的两两互相关函数；获取每组互相关函数在峰值处的坐标；根据峰值处的坐标获取时延信息。

由于不同麦克风采集到的语音信号具有相关性。计算机设备通过计算可以得到两个语音信号的互相关函数，互相关函数的峰值处时间坐标即是两个语音信号之间的时间差，也就是两个麦克风语音信号之间的时延信息。

在一个实施例中，计算机设备根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理，包括：根据时延信息对经过删除操作后的语音信号集合中的各语音信号进行时延补偿；根据声源方向生成经过删除操作的语音信号集合的语音响应矩阵；通过语音响应矩阵对经过时延补偿的各语音信号进行运算，得到增强后的语音信号。

其中，时延补偿是对语音信号进行延时，以使语音信号在时域上对齐。

其中，语音响应矩阵是计算机设备用来对麦克风阵列中各麦克风采集的语音信号进行加权计算的矩阵。语音响应矩阵中元素的元素值和对各麦克风采集的语音信号进行加权计算的权值相对应。计算机设备根据语音信号对应的声源方向确定语音响应矩阵中元素的元素值。

在一个实施例中，如果语音信号的声源方向为目标声源方向，则计算机设备确定和该语音信号对应的语音响应矩阵中元素的元素值为1；如果语音信号的声源方向为非目标声源方向，则计算机设备确定和该语音信号对应语音响应矩阵中元素的元素值为0。

在一个实施例中，如果语音信号的声源方向与目标声源方向之间的夹角小于预设的角度值，则计算机设备确定和该语音信号对应语音响应矩阵中元素的元素值为1；如果语音信号的声源方向与目标声源方向之间的夹角大于预设的角度值则计算机设备确定和该语音信号对应语音响应矩阵中元素的元素值为0。

在一个实施例中，计算机设备对麦克风阵列中麦克风进行语音增强处理的示意图如图3所示。在第一个麦克风被遮挡的情况下，计算机设备删除第一个麦克风的空间位置信息，并且删除该麦克风采集的语音信号。然后根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号依次进行回声消除运算、混响消除运算、声源定位和语音增强处理，最后将经过语音增强处理的信号输出至扩音器。

在一个实施例中，计算机设备根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理之后还包括：获取更新的监测信息；根据更新的监测信息判断被遮挡的麦克风是否恢复正常；若被遮挡的麦克风恢复正常，则对位置信息列表和语音信号集合进行更新；基于更新后的空间位置信息列表和更新后的语音信号集合进行语音增强处理。

计算机设备动态地实时监测每个麦克风，如果被遮挡的麦克风恢复正常，则将该麦克风对应的空间位置信息添加进位置信息列表，并将该麦克风采集的语音信号添加进语音信号集合。

计算机设备根据基于监测信息对麦克风是否被遮挡的判断结果，及时地把对应麦克风的数据删除或者添加进入语音增强处理算法，从而实时提升根据语音增强处理算法输出的语音信号的质量。

在一个实施例中，计算机设备对麦克风阵列中麦克风采集的语音信号进行语音增强处理的流程如图4所示，包括如下步骤：

S402，获取麦克风阵列中各麦克风各自对应的监测信息，获取麦克风阵列中各麦克风采集的语音信号构成的语音信号集合。

S404，根据麦克风阵列中每个麦克风对应的至少一种监测信息，得出与每种监测信息对应的麦克风是否被遮挡的判断结果。

S406，基于每个麦克风对应的每种监测信息对应的麦克风是否被遮挡的判断结果，综合确定监测信息对应的麦克风是否被遮挡。

S408，当麦克风阵列中存在被遮挡的麦克风时，则在麦克风阵列的位置信息列表中删除被遮挡的麦克风的空间位置信息，在语音信号集合中删除所述被遮挡的麦克风采集的语音信号。

S410，经过删除操作的语音信号集合中的语音信号进行回声消除运算。

S412，对经过回声消除运算的语音信号进行混响消除运算。

S414，根据经过删除操作的位置信息列表中的空间位置信息对经过混响消除运算的语音信号进行声源定位。

S416，根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。

上述S402至S416的具体内容可以参考上文所述的具体实现过程。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种语音增强处理装置，包括：获取模块502、判断模块504、删除模块506、声源定位模块508和增强处理模块510，其中：

获取模块502，用于获取麦克风阵列中各麦克风各自对应的监测信息，获取麦克风阵列中各麦克风采集的语音信号构成的语音信号集合；

判断模块504，用于根据监测信息判断相应的麦克风是否被遮挡；

删除模块506，用于当麦克风阵列中存在被遮挡的麦克风时，则在麦克风阵列的位置信息列表中删除被遮挡的麦克风的空间位置信息，在语音信号集合中删除被遮挡的麦克风采集的语音信号；

声源定位模块508，用于根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位；

增强处理模块510，用于根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。

上述实施例中，计算机设备获取了各个麦克风的监测信息，并可以根据监测信息判断出该麦克风是否被遮挡，在麦克风被遮挡时删除该麦克风的空间位置信息和该麦克风采集的语音信号。由于计算机设备在进行语音增强处理时，没有利用被遮挡的麦克风的空间位置信息和被遮挡的麦克风采集的语音信号，所以可以防止语音增强算法由于麦克风被遮挡而受到干扰，提高语音增强处理后的语音信号质量。

在一个实施例中，判断模块504，还用于：

根据麦克风阵列中每个麦克风对应的至少一种监测信息，得出与至少一种监测信息对应的麦克风是否被遮挡的至少一个判断结果；基于至少一个判断结果确定与至少一种监测信息对应的麦克风是否被遮挡。

在一个实施例中，判断模块504，还用于：

当监测信息为麦克风阵列中的麦克风的监测图像时，检测监测图像中是否存在进音孔，以判断相应的麦克风是否被遮挡；和/或，

当监测信息为麦克风阵列中的麦克风的承受压力值时，检测承受压力值是否超出预设值，以判断相应的麦克风是否被遮挡；和/或，

当监测信息为麦克风阵列中麦克风对应的红外信息时，检测基于红外信息是否能够检测到遮挡物，以判断相应的麦克风是否被遮挡。

在一个实施例中，声源定位模块508，还用于：

对经过回声消除运算的语音信号进行混响消除运算；

在一个实施例中，声源定位模块508，还用于：

分别计算经过删除操作的语音信号集合中除参考语音信号之外的其余语音信号相对于参考语音信号的时延信息；

基于时延信息和经过删除操作的位置信息列表中的空间位置信息，通过几何运算得到各语音信号的声源方向。

在一个实施例中，声源定位模块508，还用于：

分别计算语音信号集合中除参考语音信号之外的其余语音信号和参考语音信号之间的互相关函数；

获取互相关函数在峰值处的坐标；

根据峰值处的坐标获取时延信息。

在一个实施例中，增强处理模块510，还用于：

根据时延信息对经过删除操作后的语音信号集合中的各语音信号进行时延补偿；

根据声源方向生成经过删除操作的语音信号集合的语音响应矩阵；

通过语音响应矩阵对经过时延补偿的各语音信号进行运算，得到增强后的语音信号。

在一个实施例中，如图6所示，装置还包括：

获取模块502，用于获取更新的监测信息；

判断模块504，用于根据更新的监测信息判断被遮挡的麦克风是否恢复正常；

更新模块512，若被遮挡的麦克风恢复正常，则用于对空间位置信息列表和语音信号集合进行更新；

增强处理模块，用于基于更新后的空间位置信息列表和更新后的语音信号集合进行语音增强处理。

关于语音增强处理装置的具体限定可以参见上文中对于语音增强处理方法的限定，在此不再赘述。上述语音增强处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储语音增强处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音增强处理方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种语音增强处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7、8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：获取麦克风阵列中各麦克风各自对应的监测信息，获取麦克风阵列中各麦克风采集的语音信号构成的语音信号集合；根据监测信息判断相应的麦克风是否被遮挡；当麦克风阵列中存在被遮挡的麦克风时，则在麦克风阵列的位置信息列表中删除被遮挡的麦克风的空间位置信息，在语音信号集合中删除被遮挡的麦克风采集的语音信号；根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位；根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据麦克风阵列中每个麦克风对应的至少一种监测信息，得出与至少一种监测信息对应的麦克风是否被遮挡的至少一个判断结果；基于至少一个判断结果确定与至少一种监测信息对应的麦克风是否被遮挡。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当监测信息为麦克风阵列中的麦克风的监测图像时，检测监测图像中是否存在进音孔，以判断相应的麦克风是否被遮挡；和/或，当监测信息为麦克风阵列中的麦克风的承受压力值时，检测承受压力值是否超出预设值，以判断相应的麦克风是否被遮挡；和/或，当监测信息为麦克风阵列中麦克风对应的红外信息时，检测基于红外信息是否能够检测到遮挡物，以判断相应的麦克风是否被遮挡。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对经过删除操作的语音信号集合中的语音信号进行回声消除运算；对经过回声消除运算的语音信号进行混响消除运算；根据经过删除操作的位置信息列表中的空间位置信息对经过混响消除运算的语音信号进行声源定位。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在经过删除操作的语音信号集合中选取作为参考基准的参考语音信号；分别计算经过删除操作的语音信号集合中除参考语音信号之外的其余语音信号相对于参考语音信号的时延信息；基于时延信息和经过删除操作的位置信息列表中的空间位置信息，通过几何运算得到各语音信号的声源方向。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：分别计算语音信号集合中除参考语音信号之外的其余语音信号和参考语音信号之间的互相关函数；获取互相关函数在峰值处的坐标；根据峰值处的坐标获取时延信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据时延信息对经过删除操作后的语音信号集合中的各语音信号进行时延补偿；根据声源方向生成经过删除操作的语音信号集合的语音响应矩阵；通过语音响应矩阵对经过时延补偿的各语音信号进行运算，得到增强后的语音信号。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取更新的监测信息；根据更新的监测信息判断被遮挡的麦克风是否恢复正常；若被遮挡的麦克风恢复正常，则对位置信息列表和语音信号集合进行更新；基于更新后的空间位置信息列表和更新后的语音信号集合进行语音增强处理。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取麦克风阵列中各麦克风各自对应的监测信息，获取麦克风阵列中各麦克风采集的语音信号构成的语音信号集合；根据监测信息判断相应的麦克风是否被遮挡；当麦克风阵列中存在被遮挡的麦克风时，则在麦克风阵列的位置信息列表中删除被遮挡的麦克风的空间位置信息，在语音信号集合中删除被遮挡的麦克风采集的语音信号；根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位；根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据麦克风阵列中每个麦克风对应的至少一种监测信息，得出与至少一种监测信息对应的麦克风是否被遮挡的至少一个判断结果；基于至少一个判断结果确定与至少一种监测信息对应的麦克风是否被遮挡。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当监测信息为麦克风阵列中的麦克风的监测图像时，检测监测图像中是否存在进音孔，以判断相应的麦克风是否被遮挡；和/或，当监测信息为麦克风阵列中的麦克风的承受压力值时，检测承受压力值是否超出预设值，以判断相应的麦克风是否被遮挡；和/或，当监测信息为麦克风阵列中麦克风对应的红外信息时，检测基于红外信息是否能够检测到遮挡物，以判断相应的麦克风是否被遮挡。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对经过删除操作的语音信号集合中的语音信号进行回声消除运算；对经过回声消除运算的语音信号进行混响消除运算；根据经过删除操作的位置信息列表中的空间位置信息对经过混响消除运算的语音信号进行声源定位。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在经过删除操作的语音信号集合中选取作为参考基准的参考语音信号；分别计算经过删除操作的语音信号集合中除参考语音信号之外的其余语音信号相对于参考语音信号的时延信息；基于时延信息和经过删除操作的位置信息列表中的空间位置信息，通过几何运算得到各语音信号的声源方向。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：分别计算语音信号集合中除参考语音信号之外的其余语音信号和参考语音信号之间的互相关函数；获取互相关函数在峰值处的坐标；根据峰值处的坐标获取时延信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据时延信息对经过删除操作后的语音信号集合中的各语音信号进行时延补偿；根据声源方向生成经过删除操作的语音信号集合的语音响应矩阵；通过语音响应矩阵对经过时延补偿的各语音信号进行运算，得到增强后的语音信号。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取更新的监测信息；根据更新的监测信息判断被遮挡的麦克风是否恢复正常；若被遮挡的麦克风恢复正常，则对位置信息列表和语音信号集合进行更新；基于更新后的空间位置信息列表和更新后的语音信号集合进行语音增强处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic Random Access Memory，DRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音增强处理方法，其特征在于，所述方法包括：

根据所述监测信息判断相应的麦克风是否被遮挡；

2.根据权利要求1所述的方法，其特征在于，所述根据所述监测信息判断相应的麦克风是否被遮挡，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述监测信息判断相应的麦克风是否被遮挡，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位，包括：

对经过回声消除运算的语音信号进行混响消除运算；

5.根据权利要求1所述的方法，其特征在于，所述根据经过删除操作的位置信息列表中的空间位置信息对经过删除操作的语音信号集合中的语音信号进行声源定位，包括：

6.根据权利要求5所述的方法，其特征在于，所述分别计算经过删除操作的语音信号集合中除所述参考语音信号之外的其余语音信号相对于所述参考语音信号的时延信息，包括：

获取所述互相关函数在峰值处的坐标；

根据所述峰值处的坐标获取所述时延信息。

7.根据权利要求5所述的方法，其特征在于，所述根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据声源定位确定的声源方向，对经过删除操作的语音信号集合中的语音信号进行语音增强处理之后，所述方法还包括：

获取更新的监测信息；

9.一种语音增强处理装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。