CN110646763A

CN110646763A - 一种基于语义的声源定位方法、装置及存储介质

Info

Publication number: CN110646763A
Application number: CN201910957856.0A
Authority: CN
Inventors: 刘立杰; 雷欣; 李志飞
Original assignee: Chumen Wenwen Information Technology Co Ltd
Current assignee: Chumen Wenwen Information Technology Co Ltd
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-01-03

Abstract

本发明公开了一种基于语义的声源定位方法、装置及存储介质。基于语义的声源定位方法包括：首先，利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；接下来，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；然后，从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；之后，将目标音频信号所在方向确定为定位方向。可以看出，本发明实施例在波达方向估计(DOA)基础上，利用波束成形技术获得定向的增强音频信号，并加入了语义相关性的考虑，可以从声频特征类似的多个声源中定位目标声源，去除噪音影响，大大提高了抗干扰能力。

Description

一种基于语义的声源定位方法、装置及存储介质

技术领域

本发明涉及人工智能(Artificial Intelligence，AI)技术领域，尤其涉及一种基于语义的声源定位方法、装置及计算机存储介质。

背景技术

目前，声源定位方法一般会利用以下三种技术：基于最大输出功率的可控波束成形技术、基于高分辨率谱估计技术和基于声达时间差的定位技术。

其中，基于声达时间差的定位技术的波达方向估计(Direction of Arrival，DOA)应用较为广泛，该方法主要利用声波到达各个麦克风的时间差进行求解，得到声源的方向。该方法能比较好地应用于以下场景：1)信源为远场、窄道信号；2)信源个数小于阵元数；3)各通道噪声为加性噪声，彼此独立，也独立于信号。因此该技术多应用于雷达无源定位、声纳阵列测向，电子或通信干扰侦察和移动通信邻域。近年来，随着智能语音系统的不断发展和应用，DOA也被应用于通过麦克风阵列获取语音声源定位的任务中。

然而，本发明人发现在智能语音系统中应用DOA技术进行声源定位时，存在以下问题：1)当声源采集区域存在声频特征类似的多个声源时，无法精确识别目标声源，进行定位；2)当声源采集区域在非目标声源方向存在多个非语音噪音，且音量较大，难以对目标声源进行准确定位。尤其在声源采集区域为比较嘈杂的公共环境场所，上述问题就更为突出。

发明内容

本发明实施例为了解决以上问题，创造性地提供一种基于语义的声源定位方法、装置及计算机存储介质。

根据本发明实施例第一方面，提供一种基于语义的声源定位方法，该方法包括：利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；将目标音频信号所在方向确定为定位方向。

根据本发明一实施方式，N的取值大于等于6。

根据本发明一实施方式，N个方向包括：以全方位平面360°等间隔划分的N个方向。

根据本发明一实施方式，利用波束成形技术对N个方向的音频信号进行增强，包括：利用麦克风阵列波束成形技术，通过多通道的语音增强算法对N个方向的音频信号进行增强。

根据本发明一实施方式，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：利用关键词检测(Keyword spotting，KWS)技术，对N个增强音频结果分别与目标关键词进行对比，得到相应的N个确信值。

根据本发明一实施方式，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：利用语音识别技术，对N个增强音频结果分别与目标文本进行匹配，得到相应的N个匹配结果。

根据本发明一实施方式，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：利用语音识别和自然语言理解技术，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

根据本发明一实施方式，利用语音识别和自然语言理解技术，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度，包括：利用语音识别和自然语言理解技术，通过神经网络模型对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

根据本发明实施例第二方面，还提供一种基于语义的声源定位装置，该装置包括：音频信号增强模块，用于利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；语义对比模块，用于对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；目标音频信号选取模块，用于从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；定位方向确定模块，用于将目标音频信号所在方向确定为定位方向。

根据本发明一实施方式，音频信号增强模块，具体用于，利用麦克风阵列波束成形技术，通过多通道的语音增强算法对N个方向的音频信号进行增强。

根据本发明一实施方式，语义对比模块，具体用于，利用关键词检测技术，对N个增强音频结果与目标关键词进行对比，得到相应的N个确信值。

根据本发明一实施方式，语义对比模块，具体用于，利用语音识别技术，对N个增强音频结果分别与目标文本进行匹配，得到相应的N个匹配结果。

根据本发明一实施方式，语义对比模块，具体用于，利用语音识别和自然语言理解技术，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

根据本发明一实施方式，语义对比模块，具体用于，利用语音识别和自然语言理解技术，通过神经网络模型，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

根据本发明实施例第三方面，又提供一种计算机存储介质，存储介质包括一组计算机可执行指令，当指令被执行时用于执行上述任一项的语言生成方法。

本发明实施例基于语义的声源定位方法、装置及存储介质，首先，利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；接下来，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；然后，从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；之后，将目标音频信号所在方向确定为定位方向。可以看出，本发明实施例在DOA基础上，利用波束成形技术获得定向的增强音频信号，并加入了语义相关性的考虑。如此，在对声频信号进行过滤、去噪和加强之后，再利用语音识别加入语义分析，就可以从声频特征类似的多个声源中定位目标声源，去除噪音影响，大大提高了抗干扰能力，尤其适用于语义相关性高的声源定位场景。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例基于语义的声源定位方法的实现流程示意图；

图2示出了本发明实施例基于语义的声源定位装置的组成结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

图1示出了本发明实施例基于语义的声源定位方法的实现流程示意图。参考图1，本发明实施例基于语义的声源定位方法包括：操作110，利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；操作120，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；操作130，从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；操作140，将目标音频信号所在方向确定为定位方向。

在操作110，这里的波束成形技术主要指空间滤波技术，可以通过N个阵元，在某一时刻使用现场可编程门阵列(Field Programmable Gate Array，FPGA)同时采样，得到同一时刻N个方向各个通道的一个音频信号。这里的阵元通常指麦克风阵列的阵元，而阵元数量也就是麦克风数量，可以从两个到上千个不等。由于成本限制，消费级麦克风阵列的阵元数量一般不超过12个，所以市面上最常见的就是6麦阵型。这里对音频信号的增强包括经过放大器放大，然后进行去噪和去混响等处理，使音频更为清晰，更易于进行之后的语音识别。

在操作120，在对N个增强音频结果分别与目标语义进行对比的过程中，包含有语音识别和语义分析的部分，可以通过智能语音对话系统中的语音识别模块和自然语言理解模块来实现。

如果某个增强音频结果所在方向没有声音或声音特别嘈杂时，在本操作进行语音识别时都会被识别为无语义，不影响后续处理。

这里的目标语义，通常是根据应用场景预先定义好的目标语义，也就是与期望对话者询问或回答的内容最为接近或相关的语义。在智能语音对话系统中，这里的目标语义，也可以是依据智能语音对话系统自然语言理解模块依据当前轮对话和前几轮对话进行上下文预测结果给出的目标语义。

这里的匹配度数值通常是大于等于0且小于等于1的实数，越接近1表示匹配度越高，越接近0表示匹配度越低。

不难看出，这一操作的语义对比是选择目标声源的重要决定基础，所以本发明实施例也尤其适用于语义相关性较强的应用场景，比如智能语音对话系统，对话监听系统等等。

在操作130中，可以看出，本发明实施例是选取语义与目标语义最接近的音频信号确定为目标音频信号的，这样就可以过滤掉那些与目标语义不相关的其他音频信号，即使其音频特征与目标音频特征类似。这也就解决了当声源采集区域存在声频特征类似的多个声源时，无法精确识别目标声源，进行定位；和当声源采集区域在非目标声源方向存在多个非语音噪音，且音量较大，难以对目标声源进行准确定位的问题。

在操作140中，目标音频信号所在方向是本发明实施例的返回结果。确定定位方向的具体过程可以是通过计算目标音频信号的TDOA代入方向角公式，即可得到目标音频信号的音源入射方向角。该方向角就是这里所指的定位方向。在某些应用场景中，一旦确定目标音频信号所在方向就可以基于DOA从目标音频信号所在方向持续接收语音信号。在另外一些应用场景中，还可以根据目标音频信号所在的定位方向确定发话人或发声装置，然后执行针对该发话人或发声装置的后续任务。

根据本发明一实施方式，N的取值大于等于6。N的取值越大，能处理的声源越多，定位的准确度和精确度就越高。但N的取值也不能太大，N取值过大会相应增加计算的复杂度，消耗更多资源和花费更多时间，反而降低了定位效率。另一方面，这里的N也取决于硬件配置的支持，值越大的话，硬件成本也越高，建议取值在6到12之间。当然，随着科技的不断发展，计算能力的不断增强，能够有效处理的N值也会越来越大。

根据本发明一实施方式，N个方向包括：以全方位平面360°等间隔划分的N个方向。比如，以平面上每30°度为一个波束成形的目标方向，此时N为12。

在常用的智能语音对话系统中，比如智能音箱，可以通过其内置的麦克风阵列对N个方向的音频信号进行采集，并通过多通道的语音增强算法对音频信号进行增强。多通道的语音增强算法，考虑了声源的位置信息，可以实现空间滤波，对具有方向性的噪声有较好的抑制效果。这里的麦克风阵列波束成形技术，可以根据应用环境选择任何适用的波束成形算法。比如，在较为稳定的噪声干扰环境中，可以使用固定波束成形算法。而在容易多变的噪声干扰环境中，可以使用自适应波束成形算法。

麦克风阵列一般来说有线形、环形和球形之分，在本发明实施例中环线和球形的麦克风阵列效果会更好。

根据本发明一实施方式，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：利用关键词检测技术，对N个增强音频结果分别与目标关键词进行对比，得到相应的N个确信值。N个增强音频结果主要指去噪后的用户语音，而这里的关键词检测技术，主要用来检测用户语音中是否含有某个目标关键字。这里的目标关键字往往与某个特定任务相关，通过对检测目标关键字就可以很快定位到执行这一特定任务需要采集的目标声源。使用关键词检测技术进行关键字检测，通常会使用很多语音数据进行训练得到一个预测模型，而这里的确信值，就是通过对关键词检测预测模型输入用户语音得出的一个预测值。确信值是0到1之间的实数，越接近1表示包含目标关键字的可能性越大。

这一实施方式，比较适用于通过关键字识别即可定位目标声源的场景。比如，在智能语音对话系统中，通过唤醒文字“你好，问问”这样的目标关键字就可以识别出发起对话的目标声源所在方向，之后就能够持续追踪该方向的声源进行后续的对话。

根据本发明一实施方式，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：利用语音识别技术，对N个增强音频结果分别与目标文本进行匹配，得到相应的N个匹配结果。在该实施方式中，通常会利用语音识别技术将N个增强音频结果转换为N段文本，然后在每段文本中查找目标文本。这里的目标文本可以是一个词，一句话甚至是一个文章片段。而这里的匹配通常指严格意义上的文本匹配，即需要找到一模一样的文本才算匹配，匹配上即为1，没匹配上即为0。这里的目标文本是根据具体应用场景和用途预先指定的。

这一实施方式比较适用于需要定位与目标文本精确匹配的目标声源的场景。比如，在某个知识竞答比赛中，通过将预置的标准答案指定为目标文本，迅速定位回答与标准答案一模一样的目标声源，确认可以得分的参赛者。

根据本发明一实施方式，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：利用语音识别和自然语言理解技术，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。这里在对N个增强音频结果进行语音识别的基础上，还加入了自然语言理解和语义分析。这样，即使用户语义使用不同词汇或句式，只要想表达的基本语义与目标语义匹配，就可以通过自然语言理解模块的预测结果进行准确定位。这里的自然语言理解，还包含对上下文的理解，可以更准确地捕获用户的意图。

这一实施方式，适用于语义相关性高，通过语义定位目标声源的场景。比如，在智能语音对话系统中，通过自然语言理解将期望的问题或答案生成为一个目标语义，就可以根据该目标语义定位对话者声源方向。

根据本发明一实施方式，利用语音识别和自然语言理解技术，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度，包括：利用语音识别和自然语言理解技术，通过神经网络模型对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。这里的神经网络模型可以是任何适用的模型，比如卷积神经网络模型等。

进一步地，基于如上文描述的基于语义的声源定位方法，本发明实施例还提供一基于语义的声源定位装置。如图2所示，该装置20包括：音频信号增强模块201，用于利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；语义对比模块202，用于对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；目标音频信号选取模块203，用于从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；定位方向确定模块204，用于将目标音频信号所在方向确定为定位方向。

根据本发明一实施方式，音频信号增强模块201，具体用于，利用麦克风阵列波束成形技术，通过多通道的语音增强算法对N个方向的音频信号进行增强。

根据本发明一实施方式，语义对比模块202，具体用于，利用关键词检测技术，对N个增强音频结果与目标关键词进行对比，得到相应的N个确信值。

根据本发明一实施方式，语义对比模块202，具体用于，利用语音识别技术，对N个增强音频结果分别与目标文本进行匹配，得到相应的N个匹配结果。

根据本发明一实施方式，语义对比模块202，具体用于，利用语音识别和自然语言理解技术，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

根据本发明一实施方式，语义对比模块202，具体用于，利用语音识别和自然语言理解技术，通过神经网络模型，对N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

同样，基于如上文描述的基于语义的声源定位方法，本发明实施例还提供一种计算机存储介质，该计算机存储介质存储有程序，当程序被处理器执行时，使得处理器至少执行如下的操作步骤：操作110，利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；操作120，对N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；操作130，从N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；操作140，将目标音频信号所在方向确定为定位方向。

这里需要指出的是：以上对针基于语义的声源定位装置实施例的描述和以上针对计算机存储介质实施例的描述，与前述图1所示的方法实施例的描述是类似的，具有同前述图1所示的方法实施例相似的有益效果，因此不做赘述。对于本发明对基于语义的声源定位装置实施例的描述和以上对计算机存储介质实施例的描述尚未披露的技术细节，请参照本发明前述图1所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个装置，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以利用硬件的形式实现，也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储介质、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括：移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于语义的声源定位方法，其特征在于，所述方法包括：

利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；

对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；

从所述N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；

将所述目标音频信号所在方向确定为定位方向。

2.根据权利要求1所述的方法，其特征在于，所述N的取值大于等于6。

3.根据权利要求1所述的方法，其特征在于，所述N个方向包括：以全方位平面360°等间隔划分的N个方向。

4.根据权利要求1所述的方法，其特征在于，所述利用波束成形技术对N个方向的音频信号进行增强，包括：

利用麦克风阵列波束成形技术，通过多通道的语音增强算法对N个方向的音频信号进行增强。

5.根据权利要求1所述的方法，其特征在于，所述对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：

利用关键词检测技术，对所述N个增强音频结果分别与目标关键词进行对比，得到相应的N个确信值。

6.根据权利要求1所述的方法，其特征在于，所述对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：

利用语音识别技术，对所述N个增强音频结果分别与目标文本进行匹配，得到相应的N个匹配结果。

7.根据权利要求1所述的方法，其特征在于，所述对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值，包括：

利用语音识别和自然语言理解技术，对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

8.根据权利要求7所述的方法，其特征在于，所述利用语音识别和自然语言理解技术，对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度，包括：

利用语音识别和自然语言理解技术，通过神经网络模型对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个语义相似度。

9.一种基于语义的声源定位装置，其特征在于，所述装置包括：

音频信号增强模块，用于利用波束成形技术对N个方向的音频信号进行增强，分别得到相应的N个增强音频结果，其中，N的取值为大于1的正整数；

语义对比模块，用于对所述N个增强音频结果分别与目标语义进行对比，得到相应的N个匹配度数值；

目标音频信号选取模块，用于从所述N个匹配度数值中选取匹配度数值最高的音频信号为目标音频信号；

定位方向确定模块，用于将所述目标音频信号所在方向确定为定位方向。

10.一种计算机存储介质，其特征在于，所述存储介质包括一组计算机可执行指令，当所述指令被执行时用于执行权利要求1至8任一项所述的方法。