CN112185374A

CN112185374A - 一种确定语音意图的方法及装置

Info

Publication number: CN112185374A
Application number: CN202010929640.6A
Authority: CN
Inventors: 杨洋
Original assignee: Beijing Ruying Intelligent Technology Co ltd
Current assignee: Beijing Ruying Intelligent Technology Co ltd
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2021-01-05

Abstract

本发明公开了一种确定语音意图的方法及装置，用以实现得到更准确的语音意图，有助于实现语音精准控制。所述方法，包括：获得输入的语音；获得与所述语音相关的情景上下文；将所述语音的语音内容和所述情景上下文，与预设的意图模板进行匹配；根据匹配一致的意图模板，确定语音意图。

Description

一种确定语音意图的方法及装置

技术领域

本发明涉及计算机及通信技术领域，特别涉及一种确定语音意图的方法及装置。

背景技术

人工智能技术是目前研究的重要技术领域之一。图像技术和语音技术是人工智能的两项重要基础技术。其中，如何更准确的理解说话人的说话意图，是语音技术的一个重要研究方向。一种常见的处理方式是，将用户的语音转换成文字，再对文字进行语句结构分析，据此来确定语音意图。这种方式得到的语音意图不够准确。

发明内容

本发明提供一种确定语音意图的方法及装置，用以实现得到更准确的语音意图，有助于实现语音精准控制。

本发明提供一种确定语音意图的方法，包括：

获得输入的语音；

获得与所述语音相关的情景上下文；

将所述语音的语音内容和所述情景上下文，与预设的意图模板进行匹配；

根据匹配一致的意图模板，确定语音意图。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例结合了语音内容之外的情景上下文信息，使得分析得到的语音意图更准确。

可选的，所述情景上下文至少包括下列之一：获得所述语音的时间、提供所述语音的用户所在的位置、所述用户所处环境的环境信息、所述用户的用户画像信息、获取有应用状态信息的应用模块。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例针对提供所述语音的用户所处的情景，获取多种情景信息，以便从更多维度分析用户的语音意图。

可选的，所述方法至少还包括下列之一：

对所述语音进行声学分析，得到与语音内容对应的声学特征信息；

获得所述语音的对话上下文；

将所述语音与提供所述语音的用户的历史语音进行匹配，得到历史信息；

所述将所述语音的语音内容和所述情景上下文，与预设的意图模板进行匹配，包括：

将所述语音的语音内容和所述情景上下文，以及结合至少下列信息之一，与预设的意图模板进行匹配；其中，下列信息包括：所述声学特征信息、所述对话上下文和所述历史信息。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例进一步结合语音的声学特征，对话的上下文和用户的历史习惯，更准确的分析用户的语音意图。

可选的，当匹配一致的意图模板有至少两个时，所述方法还包括：

按照预设的多种评分方式，以及各评分方式的优先级，对所述至少两个意图模板分别进行评分；

所述根据匹配一致的意图模板，确定语音意图，包括：

在得到评分最高的意图模板时，根据所述评分最高的意图模板，确定语音意图。

本发明的实施例提供的技术方案可以包括以下有益效果：当匹配到多个意图模板时，本实施例可以采用多种评分方式来选择较优的意图模板，进而更准确的确定语音意图。

可选的，所述多种评分方式按照优先级由高到低的顺序包括：模板评分方式、词法评分方式和句法评分方式。

本发明的实施例提供的技术方案可以包括以下有益效果：本实施例提供了多种且有序的评分方式，并且是多角度的评分方式。

本发明提供一种确定语音意图的装置，包括：

语音模块，用于获得输入的语音；

情景模块，用于获得与所述语音相关的情景上下文；

匹配模块，用于将所述语音的语音内容和所述情景上下文，与预设的意图模板进行匹配；

意图模块，用于根据匹配一致的意图模板，确定语音意图。

可选的，所述装置至少还包括下列之一：

声学模块，用于对所述语音进行声学分析，得到与语音内容对应的声学特征信息；

对话模块，用于获得所述语音的对话上下文；

历史模块，用于将所述语音与提供所述语音的用户的历史语音进行匹配，得到历史信息；

所述匹配模块包括：

匹配子模块，用于将所述语音的语音内容和所述情景上下文，以及结合至少下列信息之一，与预设的意图模板进行匹配；其中，下列信息包括：所述声学特征信息、所述对话上下文和所述历史信息。

可选的，当匹配一致的意图模板有至少两个时，所述装置还包括：

评分模块，用于按照预设的多种评分方式，以及各评分方式的优先级，对所述至少两个意图模板分别进行评分；

所述意图模块包括：

意图子模块，用于在得到评分最高的意图模板时，根据所述评分最高的意图模板，确定语音意图。

本发明提供一种确定语音意图的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获得输入的语音；

获得与所述语音相关的情景上下文；

根据匹配一致的意图模板，确定语音意图。

本发明提供一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现所述方法的步骤。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中确定语音意图的方法流程图；

图2为本发明实施例中确定语音意图的方法流程图；

图3为本发明实施例中确定语音意图的方法流程图；

图4为本发明实施例中确定语音意图的装置结构图；

图5为本发明实施例中确定语音意图的装置结构图；

图6为本发明实施例中匹配模块的结构图；

图7为本发明实施例中确定语音意图的装置结构图；

图8为本发明实施例中意图模块的结构图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

相关技术中，如何更准确的理解说话人的说话意图，是语音技术的一个重要研究方向。一种常见的处理方式是，将用户的语音转换成文字，再对文字进行语句结构分析，据此来确定语音意图。这种方式得到的语音意图不够准确。

为解决上述问题，本实施例结合语音内容以外的情景上下文，以便更准确的分析出用户的语音意图。

参见图1，本实施例中确定语音意图的方法包括：

步骤101：获得输入的语音。

步骤102：获得与所述语音相关的情景上下文。

步骤103：将所述语音的语音内容和所述情景上下文，与预设的意图模板进行匹配。

步骤104：根据匹配一致的意图模板，确定语音意图。

若没有匹配一致的意图模板，则结束本次流程，可以向用户反馈表示语音识别失败的通知。

本实施例的执行主体可以是用户家里的中控设备，收到的语音可以是唤醒语音，以唤醒某应用模块，也可以是命令语音，以实现对某应用模块输入控制命令。语音控制的应用模块可以是中控设备内部的应用模块，也可以是与中控设备有网络连接关系的智能设备中的应用模块。

本实施例在语音内容基础上，增加了情景上下文，即增加了用户当前所处情景的情景信息，以便匹配到更合适的意图模板，进而更准确的确定用户的语音意图。

情景上下文所包括的上述情景信息，是对语音内容的补充。例如，语音内容为开门。当前获取有应用状态信息的应用模块为单元门门禁的视频通话应用。用户的语音意图是开单元门，而不是开用户家里的门。

其中，用户所在的位置包括地理位置和家庭位置等。地理位置可以是经纬度坐标，或者是省、市、区、街道。家庭位置如卧室、客厅等。可以从多角度描述位置。

环境信息包括温度信息和天气信息等。

用户画像信息包括：年龄、性别、职业、家庭角色(如父亲)等。

应用模块可以本地的一个应用模块，当应用模块的某项功能被触发时，应用模块通过操作系统将当前的应用状态信息发送给语音处理前端。应用模块为外部的智能设备中的应用模块时，例如本地是家里的中控设备，应用模块是闹钟、门禁、音箱等智能设备。当应用模块的某项功能被触发时，应用模块通过网络将当前的应用状态信息发送给语音处理前端。应用状态信息包括休眠状态或激活状态等。

可选的，所述方法至少还包括下列之一：步骤A1-步骤A3。

步骤A1：对所述语音进行声学分析，得到与语音内容对应的声学特征信息。

步骤A2：获得所述语音的对话上下文。

步骤A3：将所述语音与提供所述语音的用户的历史语音进行匹配，得到历史信息。

所述步骤103包括：步骤A4。

步骤A4：将所述语音的语音内容和所述情景上下文，以及结合至少下列信息之一，与预设的意图模板进行匹配；其中，下列信息包括：所述声学特征信息、所述对话上下文和所述历史信息。

本实施例中的声学特征信息包括语速和重音等。人在说话的时候，对于重点的词语会有加重语气、放慢速度等特点。此特点对于分析用户意图有帮助。

对话上下文包括同一用户的连续多条语音内容。用户在一轮会话中，前后的话语往往具有较强的关联性，可以辅助意图分析。

历史信息可以反映出用户的语言习惯和生活习惯等。可以将当前收到的语音与用户的历史语音进行匹配，在匹配一致时，从匹配一致的历史语音中获取历史信息。其中，匹配一致时的相似度阈值可以设置的低一些。并且，在与历史语音进行匹配时，可以匹配相同时间点的历史语音。例如，当前时间为早上7点，收到的语音为“开灯”，与过去5天内(预设时间段内)7点的历史语音进行匹配，历史语音为“开厕所的灯”，结果匹配一致，历史信息包括“厕所”。

本实施例在语音内容和情景上下文的基础上，还补充了所述声学特征信息、所述对话上下文和所述历史信息。有助于更准确的匹配到意图模板，匹配到更高质量的意图模板，进而可以更准确的分析得到用户的语音意图。

可选的，当匹配一致的意图模板有至少两个时，所述方法还包括：步骤B1。

步骤B1：按照预设的多种评分方式，以及各评分方式的优先级，对所述至少两个意图模板分别进行评分。

所述步骤104包括：步骤B2。

步骤B2：在得到评分最高的意图模板时，根据所述评分最高的意图模板，确定语音意图。

本实施例中，意图模板包括槽位和槽位的值，可以有多个槽位。例如，意图模板形如：{动作：打开，房间：卧室，设备：台灯}，动作、房间、设备就是槽位，打开、卧室、台灯为相应的值。收到的语音为“打开卧室的灯”，意图模板1{动作：打开，设备：灯}，意图模板2{动作：打开，设备：台灯}，意图模板3{动作：打开，房间：卧室，设备：台灯}。该语音与意图模板1-3均可以匹配一致。此时，需要选择较高质量的意图模板以较准确的确定语音意图。

本实施例采用多种评分方式，并且按照优先级由高到低的顺序依次采用预设的评分方式。当采用某评分方式得到评分最高多个意图模板时，继续采用下一级的评分方式继续评分。当采用某评分方式得到评分最高一个意图模板时，结束该步骤，不再采用后面的评分方式继续评分。本实施例可以通过评分的方式得到最高质量的意图模板，进而得到较准确的语音意图。

本实施例中，模板评分方式是，预先对所有的意图模板进行评分，在确定匹配一致的意图模板后，便可获知该意图模板的评分。

词法评分方式是，通过对匹配一致的意图模板中匹配到的槽位的数量和质量来分析和评分。匹配到的槽位的数量越多，评分越高。匹配到的槽位的质量越高，评分越高，也越能体现用户的真实意图。其中，质量体现在槽位的词性(动词、名词等)上，词性越多样化，质量便越高，也越能体现用户的真实意图。

句法评分方式是，匹配一致的意图模板有较复杂的句法结构，便说明该意图模板可以较完整的反映用户意图。例如：如果此意图模板能抽取出反义、反问等复杂的句法结构，则其质量较高，评分较高。

下面通过几个实施例详细介绍实现过程。

参见图2，本实施例中确定语音意图的方法包括：

步骤201：获得输入的语音。

步骤202：获得与所述语音相关的情景上下文。所述情景上下文至少包括下列之一：获得所述语音的时间、提供所述语音的用户所在的位置、所述用户所处环境的环境信息、所述用户的用户画像信息、获取有应用状态信息的应用模块。

步骤203：对所述语音进行声学分析，得到与语音内容对应的声学特征信息。

步骤204：获得所述语音的对话上下文。

步骤205：将所述语音与提供所述语音的用户的历史语音进行匹配，得到历史信息。

其中，步骤202-步骤205是相对独立的几个步骤，执行顺序可以互换，也可以同步进行。

步骤206：将所述语音的语音内容和所述情景上下文，以及结合至少下列信息之一，与预设的意图模板进行匹配；其中，下列信息包括：所述声学特征信息、所述对话上下文和所述历史信息。

步骤207：根据匹配一致的意图模板，确定语音意图。

参见图3，本实施例中确定语音意图的方法包括：

步骤301：获得输入的语音。

步骤302：获得与所述语音相关的情景上下文。所述情景上下文至少包括下列之一：获得所述语音的时间、提供所述语音的用户所在的位置、所述用户所处环境的环境信息、所述用户的用户画像信息、获取有应用状态信息的应用模块。

步骤303：对所述语音进行声学分析，得到与语音内容对应的声学特征信息。

步骤304：获得所述语音的对话上下文。

步骤305：将所述语音与提供所述语音的用户的历史语音进行匹配，得到历史信息。

其中，步骤302-步骤305是相对独立的几个步骤，执行顺序可以互换，也可以同步进行。

步骤306：将所述语音的语音内容和所述情景上下文，以及结合至少下列信息之一，与预设的意图模板进行匹配；其中，下列信息包括：所述声学特征信息、所述对话上下文和所述历史信息。

步骤307：当匹配一致的意图模板有至少两个时，按照预设的多种评分方式，以及各评分方式的优先级，对所述至少两个意图模板分别进行评分。

步骤308：在得到评分最高的意图模板时，根据所述评分最高的意图模板，确定语音意图。

上述实施例可根据实际需要进行自由组合。

通过以上描述介绍了确定语音意图的实现过程，该过程可由装置实现，下面对该装置的内部结构和功能进行介绍。

参见图4，本实施例中确定语音意图的装置包括：语音模块401、情景模块402、匹配模块403和意图模块404。

语音模块401，用于获得输入的语音。

情景模块402，用于获得与所述语音相关的情景上下文。

匹配模块403，用于将所述语音的语音内容和所述情景上下文，与预设的意图模板进行匹配。

意图模块404，用于根据匹配一致的意图模板，确定语音意图。

可选的，如图5所示，所述装置至少还包括下列之一：声学模块501、对话模块502和历史模块503。

声学模块501，用于对所述语音进行声学分析，得到与语音内容对应的声学特征信息。

对话模块502，用于获得所述语音的对话上下文。

历史模块503，用于将所述语音与提供所述语音的用户的历史语音进行匹配，得到历史信息。

如图6所示，所述匹配模块403包括：匹配子模块601。

匹配子模块601，用于将所述语音的语音内容和所述情景上下文，以及结合至少下列信息之一，与预设的意图模板进行匹配；其中，下列信息包括：所述声学特征信息、所述对话上下文和所述历史信息。

可选的，如图7所示，当匹配一致的意图模板有至少两个时，所述装置还包括：评分模块701。

评分模块701，用于按照预设的多种评分方式，以及各评分方式的优先级，对所述至少两个意图模板分别进行评分。

如图8所示，所述意图模块404包括：意图子模块801。

意图子模块801，用于在得到评分最高的意图模板时，根据所述评分最高的意图模板，确定语音意图。

一种确定语音意图的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获得输入的语音；

获得与所述语音相关的情景上下文；

根据匹配一致的意图模板，确定语音意图。

一种计算机可读存储介质，其上存储有计算机指令，所述指令被处理器执行时实现所述方法的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种确定语音意图的方法，其特征在于，包括：

获得输入的语音；

获得与所述语音相关的情景上下文；

根据匹配一致的意图模板，确定语音意图。

2.如权利要求1所述的方法，其特征在于，所述情景上下文至少包括下列之一：获得所述语音的时间、提供所述语音的用户所在的位置、所述用户所处环境的环境信息、所述用户的用户画像信息、获取有应用状态信息的应用模块。

3.如权利要求1所述的方法，其特征在于，所述方法至少还包括下列之一：

获得所述语音的对话上下文；

4.如权利要求1所述的方法，其特征在于，当匹配一致的意图模板有至少两个时，所述方法还包括：

所述根据匹配一致的意图模板，确定语音意图，包括：

5.如权利要求4所述的方法，其特征在于，所述多种评分方式按照优先级由高到低的顺序包括：模板评分方式、词法评分方式和句法评分方式。

6.一种确定语音意图的装置，其特征在于，包括：

语音模块，用于获得输入的语音；

情景模块，用于获得与所述语音相关的情景上下文；

意图模块，用于根据匹配一致的意图模板，确定语音意图。

7.如权利要求6所述的装置，其特征在于，所述情景上下文至少包括下列之一：获得所述语音的时间、提供所述语音的用户所在的位置、所述用户所处环境的环境信息、所述用户的用户画像信息、获取有应用状态信息的应用模块。

8.如权利要求6所述的装置，其特征在于，所述装置至少还包括下列之一：

对话模块，用于获得所述语音的对话上下文；

所述匹配模块包括：

9.如权利要求6所述的装置，其特征在于，当匹配一致的意图模板有至少两个时，所述装置还包括：

所述意图模块包括：

10.如权利要求9所述的装置，其特征在于，所述多种评分方式按照优先级由高到低的顺序包括：模板评分方式、词法评分方式和句法评分方式。

11.一种确定语音意图的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

获得输入的语音；

获得与所述语音相关的情景上下文；

根据匹配一致的意图模板，确定语音意图。

12.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被处理器执行时实现权利要求1至5中任一项所述方法的步骤。