WO2019200923A1

WO2019200923A1 - 基于拼音的语义识别方法、装置以及人机对话系统

Info

Publication number: WO2019200923A1
Application number: PCT/CN2018/117626
Authority: WO
Inventors: 李英杰
Original assignee: 京东方科技集团股份有限公司
Priority date: 2018-04-19
Filing date: 2018-11-27
Publication date: 2019-10-24
Also published as: US11100921B2; CN108549637A; US20200335096A1; US20210264903A9

Abstract

本公开提供了一种用于语义识别的方法和装置及人机对话系统。该方法包括：获得待识别语句的拼音序列，所述拼音序列包括多个拼音片段；获得所述多个拼音片段的词向量；将所述多个拼音片段的词向量组合成所述待识别语句的句向量；基于所述待识别语句的句向量，使用神经网络获得所述待识别语句的输出向量；基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句；以及将所述待识别语句的语义识别为所述参考语句的语义。

Description

基于拼音的语义识别方法、装置以及人机对话系统

相关申请的交叉引用

本申请要求于2018年4月19日递交的中国专利申请第201810354766.8号的优先权，在此全文引用上述中国专利申请公开的内容以作为本申请的一部分。

技术领域

本公开的实施例涉及人机对话领域，具体涉及一种语义识别方法、装置以及人机对话系统。

背景技术

随着网络智能设备数量的迅猛发展，设备具有各种各样的形态和各种各样的交互方式。尤其随着语音识别技术公司的崛起，语音识别技术越来越成熟，应用的范围也越来越广。基于语音的人机交互方式被普遍作为更加流行的人机交互方式。在实际运用过程中，目前语音识别功能一般都是将语音信号转换为文本信息。再基于所转换的文本信息来向用户提供答复。此外，还有基于文本输入的人机交互方式，比如文本搜索、线上咨询等。

发明内容

在本公开的一个方面，提供了一种用于语义识别的方法。在该方法中，获得待识别语句的拼音序列。所述拼音序列包括多个拼音片段。然后，获得所述多个拼音片段的词向量。将所述多个拼音片段的词向量组合成所述待识别语句的句向量。接着，基于所述待识别语句的句向量，使用神经网络获得所述待识别语句的输出向量。基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句。将所述待识别语句的语义识别为所述参考语句的语义。

在本公开的一些实施例中，所述拼音片段是所述待识别语句中的词的拼音。

在本公开的一些实施例中，所述拼音片段是所述待识别语句中的词的拼音字母。

在本公开的一些实施例中，在基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句的步骤中，计算所述待识别语句的输出向量与参考语句集中的候选参考语句的输出向量之间的距离。当所述距离小于阈值时，将所述候选参考语句确定为与所述待识别语句在语义上相似的参考语句。

在本公开的一些实施例中，所述多个拼音片段的词向量使用词嵌入模型获得。

在本公开的一些实施例中，所述方法进一步包括：使用第一训练数据训练所述词嵌入模型。所述第一训练数据包括多个训练语句的拼音序列。

在本公开的一些实施例中，所述方法进一步包括：获得至少一组训练语句中的每个训练语句的拼音序列，其中每组训练语句中的训练语句的语义相似；对于每组训练语句：获得每个训练语句的拼音序列中的每个拼音片段的词向量；将每个训练语句的拼音序列中的每个拼音片段的词向量组合成每个训练语句的句向量；以及使用每个训练语句的句向量训练所述神经网络，以使得所述神经网络针对每个训练语句的输出向量相同。

在本公开的一些实施例中，在获得待识别语句的拼音序列的步骤中，获得用户通过拼音输入法输入的待识别语句的拼音序列。

在本公开的一些实施例中，在获得待识别语句的拼音序列的步骤中，获得用户发出的待识别语句的语音信息。然后，对所述语音信息进行语音识别，以获得对应于所述语音信息的文本信息。接着，将所述文本信息转换为所述待识别语句的拼音序列。

在本公开的另一个方面，提供了一种用于语义识别的装置。该装置包括：至少一个处理器，以及存储有计算机程序的至少一个存储器。当所述计算机程序由所述至少一个处理器执行时，使得所述装置执行以下操作：获得待识别语句的拼音序列，所述拼音序列包括多个拼音片段；获得所述多个拼音片段的词向量；将所述多个拼音片段的所述词向量组合成所述待识别语句的句向量；基于所述待识别语句的所述句向量，使用神经网络获得所述待识别语句的输出向量；基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句；以及将所述待识别语句的语义识别为所述参考语句的语义。

在本公开的另一个方面，提供了一种用于语义识别的装置。该装置包括：拼音序列获得模块，其被配置为获得待识别语句的拼音序列；词嵌入模块，其被配置为获得所述多个拼音片段的词向量；句向量获得模块，其被配置为将所述多个拼音片段的词向量组合成所述待识别语句的句向量；神经网络模块，其被配置为基于所述待识别语句的句向量，使用神经网络获得所述待识别语句的输出向量；语义识别模块，其被配置为基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句，以及将所述待识别语句的语义识别为所述参考语句的语义。

在本公开的又一个方面，还提供了一种用于人机对话的系统，包括：获取装置，其被配置为获取来自用户的待识别语句；根据本公开的任何一个实施例所述的用于语义识别的装置；以及输出设备，其被配置为响应于确定与所述待识别语句在语义上相似的参考语句，获得与所述参考语句关联的答复，并将所述答复输出给用户。

在本公开的再一个方面，还提供了一种计算机可读存储介质，其存储有计算机可执行指令，所述计算机可执行指令当被计算机执行时使得该计算机执行根据本公开的任何一个实施例所述的用于语义识别的方法。

在本公开的再一个方面，还提供了一种计算机系统，其包括处理器和与处理器相连接的存储器，所述存储器中存储有程序指令，所述处理器被配置为通过加载和执行所述存储器中的程序指令而执行根据本公开的任何一个实施例所述的用于语义识别的方法。

附图说明

图1示出了根据本公开的实施例的语义识别方法和装置可在其中实现的示例性人机对话系统的示意性结构图；

图2示出了如图1所示的人机对话系统的示意性对话流程图；

图3示出了根据本公开的实施例的语义识别方法的流程图；

图4示出了根据本公开的实施例的语义识别方法中针对所述词嵌入模型的示意性训练过程；

图5示出了根据本公开的实施例的语义识别方法中针对所述神经网络的示意性训练过程；

图6示出了根据本公开的实施例的语义识别装置的示意性结构框图；以及

图7示出了根据本公开的实施例的语义识别装置的示意性结构框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的解决方案，下面结合附图和具体实施方式对本公开的实施例所提供的语义识别方法、装置以及人机对话系统作进一步详细描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

对于基于语音的人机交互方式，在实际运用过程中，很难保证通过语音识别来转换的文本信息的准确率。有时识别结果返回的是发音相似的词，但是其词义却差别很大。这就会造成后续进行语义理解时的不准确。语音识别作为整个对话系统的前端输入，其准确性对后面的处理有很大的影响。比如“这幅画是哪年画的”有时被识别为“这幅画是打电话的”，“哪年画的”有时被识别为“那年画的”等情况，这会导致基于所识别的语义无法获得正确的答复。

另外，针对基于文本输入的人机交互方式，比如文本搜索，很多使用拼音输入法的用户经常拼写错字。在这种情况下，由于输入的词的音相近但是意义不同，也会导致无法进行准确的搜索。

现在有一些利用深度学习方法的语音识别后处理的技术方案。在该技术方案中，主要利用错词检测模型，对目标词与通用词配对并逐一判断是否符合该模型中的错词对特征。如果检测结果是该目标词为错词，则会用对应该措词的通用词来替换该错词。此方法实现步骤比较繁琐，并且处理错词对需要人为标注，进一步增大了成本。

可见，本领域中需要一种能够改进语音识别和拼音输入的准确率的技术方案。

现参照图1，其示出了根据本公开的实施例的语义识别方法和装置可在其中实现的一种示例性人机对话系统100的示意性结构图。

如图1中所示，所述人机对话系统可以包括智能终端单元110，语音识别服务器120，web服务器130和语义服务器140。

所述智能终端单元110可以是诸如个人计算机、智能手机、平板计算机等的智能终端。所述智能终端单元110可以具有语音采集功能，从而可采集用户的语音信息；网络通信功能，从而可将所采集的语音信息发送到语音识别服务器120进行处理，并可将语音识别服务器120识别出的信息发送到web服务器130；以及一定的计算存储功能，从而能进行与语音信息的采集和发送以及其他功能相关的存储和计算。

所述语音识别服务器120可以是一具有语音识别功能的服务器计算机系统，其可以使用第三方语音识别服务，比如科大讯飞、百度等公司提供的语音识别功能。当所述智能终端单元110将采集到的语音信息发送给语音识别服务器120后，语音识别服务器120对该语音信息经过语音识别，产生对应的文本信息，并将所述文本信息返回到所述智能终端单元110。

在一些实施例中，所述智能终端单元110本身可带有语音识别功能，且在这种情况下，所述人机对话系统100可不包括单独的所述语音识别服务器120。

所述web服务器130可以是具有web服务功能并提供web访问接口的计算机系统。所述web服务器130接收所述智能终端单元110发送的作为问题信息的所述文本信息，将所述文本信息发送给所述语义服务器140，并将所述语义服务器140返回的作为答复的结果发给所述智能终端单元110。

所述语义服务器140可以是具有语义理解功能的计算机系统，其用于对问题信息进行处理。通过将所述问题信息与所存储的包括问题答复的数据库中的各问题进行匹配，寻找所匹配的问题。通过所匹配的问题，对所述问题信息进行识别，然后返回对应的答复。所述语义服务器140包括了提供语义理解服务的功能，以及提供语义理解所依赖的模型的模型训练的功能。在另一些实施例中，所述语义服务器140可仅包括语义理解服务功能，其使用训练好的模型来提供语义理解服务。而模型的训练可以位于另外一个单独的服务器上。

在一些实施例中，所述web服务器130和语义服务器140可以合并为单个服务器，并在单个计算机系统上实现。

所述智能终端单元110、语音识别服务器120、web服务器130和语义服务器140可以通过网络相互通信连接。所述网络例如可以是因特网、局域网、广域网、内部网等的任何一种或多个计算机网络和/或电信网络。

现参照图2，其示出了如图1所示的人机对话系统的示意性对话流程图。如图2中所示，该对话流程包括如下步骤：

在步骤201，智能终端单元110通过麦克风等采集语音信息，然后将采集到的语音信息通过网络发送到语音识别服务器120。

在步骤202，语音识别服务器120对智能终端单元110采集的语音信息进行语音识别，产生作为语音识别结果的文本信息(例如汉字文本信息或其它语言的文本信息)，并将其返回给智能终端单元110。

在步骤203，智能终端单元110接收到作为语音识别结果的文本信息后，将其作为问题信息(例如封装成具有特定格式的问题信息)发送给web服务器130。

在步骤204，web服务器130从智能终端单元110发送的问题信息中获取所述文本信息，作为问题文本，并发送给语义服务器140。

在步骤205，语义服务器140收到问题文本后，通过将该问题文本与包括问题答复的数据库中的问题进行匹配来进行语义识别。语义服务器140在找到最匹配的问题后，返回相应答复。

在一些实施例中，根据本公开的实施例的语义识别方法和装置主要在所述对话系统100的语义服务器140中实现。

以上参照附图描述了根据本公开的实施例的语义识别方法和装置可以在其中实现的示例性对话系统100的组成和对话流程，应指出的是，以上描述仅为示例，而不是对本公开可在其中实现的系统的限制。例如，所述web服务器也可以由其他类型的服务器或本地计算机系统来实现。一些系统也可以不包括web服务器，而是由智能终端单元直接与语义服务器通信。

根据本公开的实施例的语义识别方法和装置也可以在所述对话系统100之外的其他系统中实现。例如，根据本公开的实施例的语义识别方法和装置也可用于任何使用拼音输入法的场合，以对使用拼音输入法输入的文本(例如汉语文本)进行语义识别。例如，当使用拼音输入法在浏览器的搜索框中输入搜索文本时，或者使用拼音输入法在字处理应用程序中输入文本时，可以使用根据本公开的实施例的语义识别方法和装置对拼音输入法所输出的文本进行语义识别，以识别和/或替换其中的错字。在这种情况下，根据本公开的实施例的语义识别方法和装置可在其中应用的系统可以不包括语音识别服务器，但可以包括：用于接受用户的拼音输入并产生相应的文本信息的智能终端单元，用于接收来自智能终端单元的文本信息的web服务器，以及用于接收来自web服务器的文本信息、对该文本信息进行语义识别并返回语义识别结果的语义服务器。相应地，所述智能终端单元可以包括一个具有拼音输入法的装置，例如键盘、触摸屏等，从而可以利用拼音输入法输入文本。而且所述智能终端单元可以不包括语音采集功能。

现参照图3，其示出了根据本公开的实施例的语义识别方法的流程图。该语义识别方法的至少一部分可以在例如图1中所示和以上所述的对话系统100中执行(例如主要由所述语义服务器140执行)，也可以在其他系统(例如使用拼音输入法的系统)中执行。

如图3中所示，根据本公开的实施例的语义识别方法可包括以下步骤：

在步骤301，获得待识别语句的拼音序列。该拼音序列包括多个拼音片段。该步骤301可以由例如图1中所示的对话系统100中的语义服务器140来执行，在这种情况下，所述语义服务器140可获得来自web服务器130或智能终端单元110的由用户语音转换的文本信息，并将其转换为相应的拼音序列。该步骤301也可以由例如图1中所示的对话系统100中的语义服务器140、智能终端单元110、语音识别服务器120以及web服务器130共同执行。

所述待识别的语句可包括例如汉语语句中的字或词，也可包括诸如英语等其他语言的语句中的单词等。

在一些示例性实施例中，所述获得待识别语句的拼音序列的步骤301包括以下子步骤：获得用户通过拼音输入法输入的待识别语句的拼音序列。该子步骤例如可以由使用拼音输入法的智能终端单元执行。

在另一些示例性实施例中，所述获得待识别语句的拼音序列的步骤301包括以下子步骤：

子步骤1：获得用户发出的待识别语句的语音信息。该子步骤例如可以由所述对话系统100中的智能终端单元110执行。例如，智能终端单元110可以获得用户发出的语句“这幅画是哪年画的”的语音信息。

子步骤2：对所述语音信息进行语音识别，以获得对应于所述语音信息的文本信息。该子步骤例如可以由所述对话系统100中的语音识别服务器120执行。例如，语音识别服务器120可以对语句“这幅画是哪年画的”的语音信息进行语音识别，获得“这幅画是哪年画的”的文本信息。

子步骤3：将所述文本信息转换为所述待识别语句的拼音序列。该子步骤例如可以由所述对话系统100中的语义服务器140执行。例如，语义服务器140可以接收“这幅画是哪年画的”的文本信息。对该文本信息进行词语划分后，该文本信息被转换为拼音序列“zhe fu hua shi na nian hua de”。

在步骤302，获得所述多个拼音片段的词向量。该步骤302例如可以由图1中所示的对话系统100的语义服务器140或其他系统中的语义服务器来执行。

在一些示例性实施例中，所述多个拼音片段为所述待识别语句中的每个词的拼音片段。例如，拼音序列“zhe fu hua shi na nian hua de”中的每个拼音片段为“zhe”、“fu”、“hua”、“shi”、“na”、“nian”、“hua”、“de”。

在另一些示例性实施例中，在所述步骤302之前，所述方法还包括步骤303，在该步骤303中，将所述待识别语句中的每个词的拼音片段拆分为声母和韵母，作为所述拼音序列中的拼音片段。例如，拼音序列“zhe fu hua shi na nian hua de”中的每个词的拼音“zhe”、“fu”、“hua”、“shi”、“na”、“nian”、“hua”、“de”被拆分为声母和韵母，从而形成拼音片段“zh”、“e”、“f”、“u”、“h”、“ua”、“sh”、“i”、“n”、“a”、“n”、“ian”、“h”、“ua”、“d”、“e”。

在一些示例性实施例中，所述多个拼音片段的词向量使用词嵌入模型获得。所述词嵌入模型可以为已经过训练的词嵌入模型，其训练方法可以如后文中所述。

所述词嵌入模型可以为本领域中所知的任何一种词嵌入模型。如本领域中所知的，词嵌入模型可用于将来自于一个词汇表的词(例如，在本申请中可以为汉字、汉字的拼音或汉字拼音的声母或韵母，也可以为诸如英语等其他语言的单词等)映射为向量空间中的向量(可称为词向量)。在本公开的实施例中，所述词嵌入模型接收所述拼音序列中的每个拼音片段作为输入，并输出每个拼音片段的词向量。例如，所述词嵌入模型接收拼音片段“zh”、“e”、“f”、“u”、“h”、“ua”、“sh”、“i”、“n”、“a”、“n”、“ian”、“h”、“ua”、“d”、“e”，并输出每个拼音片段的词向量。

在本公开的示例性实施例中，所述词嵌入模型为Word2vec模型。如本领域中所知的，Word2vec模型是一组常见的词嵌入模型。这些模型是一种两层神经网络，其被训练以重建词的语言学上下文。Word2vec以一个文本语料库为输入，并产生一个通常具有数百个维度的向量空间。该语料库中的每个词被分配该空间中的一个相应向量，即词向量。词向量在向量空间中被分布为使得在语料库中具有共同上下文的词的词向量在向量空间中位置相互接近。

在步骤304，将所述多个拼音片段的词向量组合成所述待识别语句的句向量。所述句向量的每个元素是所述待识别语句的拼音序列中的每个拼音片段的词向量。所述句向量可以是一个多维的矢量。例如，语句“这幅画是哪年画的”的句向量是由每个拼音片段“zh”、“e”、“f”、“u”、“h”、“ua”、“sh”、“i”、“n”、“a”、“n”、“ian”、“h”、“ua”、“d”、“e”的词向量组成的。该步骤304例如可以由图1中所示的对话系统100的语义服务器140或其他系统中的语义服务器来执行。

在步骤305，基于所述待识别语句的句向量，使用神经网络获得所述待识别语句的输出向量。该步骤305例如可以由图1中所示的对话系统100的语义服务器140或其他系统中的语义服务器来执行。所述神经网络例如可以以软件的形式存储在所述语义服务器的存储器中。

所述神经网络可以是已经过训练的神经网络，其训练方法可以如后文中所述。

所述神经网络可以是本领域中所知的任何能够对自然语言进行分析处理的一种神经网络或几种神经网络的组合。例如，所述神经网络可以是卷积神经网络(Convolutional Neural Networks，CNN)、长短期记忆网络(Long Short-Term Memory，LSTM)等深度学习神经网络。

以CNN为例，如本领域中所知的，CNN通常可包括一个输入层(A+B)、若干卷积层+激活函数层、若干与卷积层交错的子采样层和一个输出层等。所述输入层用于接收输入数据。所述卷积层用于对前面的层输出的数据进行卷积(convolution)处理。卷积层具有权重和偏置。权重表示一个卷积核，偏置是叠加到卷积层的输出的标量。通常，每个卷积层可包括数十个或数百个卷积核。每个CNN可包括多个卷积层。激活函数层用于对前面的卷积层的输出数据进行函数变换。子采样层用于对来自前面的层的数据进行子采样，所述子采样的方法包括但不限于：最大值合并(max-pooling)、平均值合并(avg-pooling)、随机合并、欠采样(decimation，例如选择固定的像素)、解复用输出(demuxout，将输入图像拆分为多个更小的图像)等。所述输出层可包括激活函数，并用于输出输出数据。

神经网络通常经过训练阶段和使用阶段。在训练阶段，使用训练数据(其包括输入数据和预期输出数据)对神经网络进行训练。在训练阶段，将输入数据输入神经网络，获得输出数据。然后，通过与预期输出数据进行比较，对神经网络内部的各参数进行调整。在使用阶段，经训练的神经网络可用于完成图像、语义识别等任务，即将输入数据输入经训练的神经网络，以获得相应的输出数据。

在步骤306，基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句。

在步骤307，将所述待识别语句的语义识别为所述参考语句的语义。

所述步骤306和步骤307例如可以由图1中所示的对话系统100的语义服务器140或其他系统中的语义服务器来执行。在一些示例性实施例中，所述神经网络的输出层可直接用于基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句。

当所述语义识别方法应用于如图1中所示的对话系统100中时，所述参考语句例如可以是来自于一个包括问题答复的数据库中的问题语句。所述数据库中可以包括该对话系统100中可能涉及的大量问题语句以及每个问题语句所对应的答复。所述数据库例如可存储在与所述语义服务器140关联的存储器中，或者存储在所述语义服务器140可访问的存储器中。这样，可以在步骤305中使用所述神经网络获得所述语句的输出向量。另外，将所述数据库中的每个问题语句的句向量(其可通过上述步骤304获得)输入所述神经网络以获得每个问题语句的输出向量。然后，通过比较所述待识别语句的输出向量与每个问题语句的输出向量，来判断所述待识别语句是否与某个问题语句在语义上相似。如果判断所述待识别语句与所述数据库中的某个问题语句在语义上相似，则可以从所述数据库中获得与该问题语句对应的答复。然后，向用户提供该答复，作为针对所述待识别语句的答复。

当所述语义识别方法应用于搜索系统等使用拼音输入法的系统中时，所述参考语句例如可以是来自于搜索系统的搜索语句库。所述搜索语句库可以包括该搜索系统中可能涉及的大量搜索语句。这样，可以在步骤305中使用所述神经网络获得所述待识别语句的输出向量。另外，将搜索语句库中的每个搜索语句的句向量(其可通过上述相同步骤获得)输入所述神经网络以获得每个搜索语句的输出向量。然后，通过比较所述待识别语句的输出向量与每个搜索语句的输出向量，来判断所述待识别语句是否与某个搜索语句在语义上相似。如果判断所述待识别语句与某个搜索语句在语义上相似，则可以向用户呈现该搜索语句，以替换用户所输入的可能包含错误拼音的搜索语句。

在一些示例性实施例中，所述通过比较所述待识别语句的输出向量与参考语句的输出向量来识别所述待识别语句与所述参考语句是否在语义上相似的步骤306可包括以下子步骤：

在子步骤1，计算所述待识别语句的输出向量与参考语句集中的候选参考语句的输出向量之间的距离。

在子步骤2，当所述距离小于阈值时，将所述候选参考语句确定为与所述待识别语句在语义上相似的参考语句。

可以采用本领域中所知的任何一种方法，例如余弦距离(也称为余弦相似度)、欧氏距离、马氏距离等方法，来计算所述待识别语句的输出向量与候选参考语句的输出向量之间的距离。

如上所述，在所述步骤302中使用的词嵌入模型可以是已经过训练的词嵌入模型。并且在所述步骤305中使用的神经网络可以是已经过训练的神经网络。因此，在一些示例性实施例中，所述语义识别方法还可包括实施针对所述词嵌入模型的训练过程和针对所述神经网络的训练过程。所述针对所述词嵌入模型的训练过程可以在使用所述词嵌入模型的步骤302之前完成。所述针对所述神经网络的训练过程可以在使用神经网络的步骤305之前完成。这些训练过程可以由例如图1中所示的对话系统100中的语义服务器140来执行，或者也可以由其他系统中的语义服务器来执行。

根据本公开的实施例的技术方案，能够获得与待识别语句中的词的拼音序列的发音相似度高的拼音序列，以去除语音识别或者拼写过程中出现的由发音相同但词义不同的词所造成的干扰。这提高了语音理解或拼音输入的准确率。此外，根据本公开的实施例的技术方案所需的预处理步骤简单而高效，因此是一种低成本的解决方案。

现参照图4，其示出了根据本公开的实施例的语义识别方法中针对所述词嵌入模型的示意性训练过程。如图4中所示，在一些示例性实施例中，所述语义识别方法中针对所述词嵌入模型的训练过程包括以下步骤：

在步骤401，使用第一训练数据训练所述词嵌入模型。所述第一训练数据包括多个训练语句的拼音序列。

所述第一训练数据例如可以通过以下方式来产生：获取来自文本语料库中的大量语句，将每个语句转换为拼音序列，并获得每个语句的拼音序列中的多个拼音片段。所述拼音片断例如可以为每个词(或字)的拼音，或者也可以是将每个词(或字)的拼音进一步拆分为声母和韵母而形成的拼音片段。

所述文本语料库例如可以是针对特定种类的对话系统的文本语料库。这样，该文本语料库中的语句是该特定种类的对话系统中所使用的语句。例如，针对关于某种或某类产品的技术支持的对话系统的文本语料库中将包括该种或该类产品的技术支持过程中所使用的各种语句。或者，所述文本语料库也可以是某种其他场合中所使用的语句的语料库。再或者，所述文本语料库也可以是某种语言(例如汉语、英语)中的常见语句的语料库。

如本领域技术人员可知的，在所述词嵌入模型的训练过程中，将所述第一训练数据中的每个语句的拼音序列中的拼音片断输入所述词嵌入模型。所述词嵌入模型输出每个语句的拼音序列中的每个拼音片断的词向量。在这个过程中，不断调整所述词嵌入模型的参数，使得在所述第一训练数据中具有共同上下文(例如出现在相同语句中且距离小于指定距离)的拼音片段的词向量在向量空间中的位置更为接近。这样，当训练完成后，经过训练的所述词嵌入模型就能够针对具有共同上下文的拼音片段输出距离接近的词向量。这样就可以在所述步骤302中使用所述词嵌入模型。

现参照图5，其示出了根据本公开的实施例的语义识别方法中针对所述神经网络的示意性训练过程。如图5中所示，在一些示例性实施例中，所述语义识别方法中针对所述神经网络的训练过程包括以下步骤：

在步骤501，获得至少一组训练语句中的每个训练语句的拼音序列。

每组训练语句中的训练语句的语义相似。例如，训练语句“这幅画是谁画的”和训练语句“这幅画的作者是谁”是一组语义上相似的训练语句。所述至少一组训练语句例如可来自于文本语料库。所述文本语料库例如可以是针对特定种类的对话系统的文本语料库。这样，该文本语料库中的语句是该特定种类的对话系统中所使用的语句。例如，针对关于某种或某类产品的技术支持的对话系统的文本语料库中将包括该种或该类产品的技术支持过程中所使用的各种语句。或者，所述文本语料库也可以是某种其他场合中所使用的语句的语料库。再或者，所述文本语料库也可以是某种语言(例如汉语、英语)中的常见语句的语料库。

当从例如文本语料库获得所述至少一组训练语句后，可以将每个训练语句转换为拼音序列。然后，获得每个训练语句的拼音序列中的多个拼音片段。所述拼音片断例如可以为每个词(或字)的拼音，或者也可以是将每个词(或字)的拼音进一步拆分为声母和韵母形成的拼音片段。

在步骤502，获得每个训练语句的拼音序列中的每个拼音片段的词向量。拼音序列中的每个拼音片段的词向量使用所述词嵌入模型来获得。所述词嵌入模型例如可以是在上述步骤401中训练过的词嵌入模型。

在步骤503，将每个训练语句的拼音序列中的每个拼音片段的词向量组合成每个训练语句的句向量。每个训练语句的句向量的每个元素是每个训练语句的拼音序列中的每个拼音片段的词向量。所述句向量可以是一个多维的矢量。

在步骤504，使用所述至少一组训练语句中的每个训练语句的句向量训练所述神经网络。在训练过程中，将每一组语义相似的训练语句中的每个训练语句的句向量输入所述神经网络，以获得神经网络的输出结果。然后以使得每一组语义相似的训练语句中的每个训练语句的输出结果相同为目标，调整所述神经网络的内部参数。这样，经过大量训练语句的训练之后，所述神经网络将能够针对语义上相同或相似但文字上不同的多个语句，输出相同或相似的结果，从而获得了语义识别能力。

以上参照附图描述了根据本公开的实施例的语义识别方法，应指出的是，以上描述仅为示例，而不是对本公开的限制。在本公开的其他实施例中，该方法可具有更多、更少或不同的步骤，且各步骤之间的顺序、包含和功能等关系可以与所描述和图示的不同。例如，通常一个步骤完成的多个功能也可以由多个单独的步骤来执行。执行不同功能的多个步骤可以合并为执行这些功能的一个步骤。一些步骤之间可以任何顺序执行或并行执行。所有这些变化都处于本公开的精神和范围之内。

在本公开的另一个方面，还提供了一种语义识别装置。现参照图6，其示出了根据本公开的实施例的语义识别装置600的示意性结构框图。该语义识别装置600中的各组件执行的功能或操作对应于上述根据本公开的实施例的语义识别方法中的至少一些步骤。为简明起见，在以下描述中省略了与以上描述重复的一些细节，因此，可参照以上描述获得对根据本公开的实施例的语义识别装置600的更详细的了解。在一些实施例中，该语义识别装置由例如图1中所示的对话系统100中的语义服务器140实现，或者由其他系统中的语义服务器实现。具体地，该语义识别装置例如可以由实现所述语义服务器的处理器、存储器等通用计算机硬件和语义识别软件的组合来实现。在存储器向处理器加载所述语义识别软件并且由处理器执行所述语义识别软件的情况下，形成所述语义识别装置中的各组件并执行其功能或操作。

如图6中所示，根据本公开的实施例的语义识别装置600包括：拼音序列获得模块601、词嵌入模块602、句向量获得模块603、神经网络模块604和语义识别模块605。

拼音序列获得模块601被配置为获得待识别语句的拼音序列。

词嵌入模块602被配置为获得所述多个拼音片段的词向量。

句向量获得模块603被配置为将所述多个拼音片段的词向量组合成所述待识别语句的句向量。

神经网络模块604被配置为基于所述待识别语句的句向量，使用神经网络获得所述待识别语句的输出向量。

语义识别模块605被配置为基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句，以及将所述待识别语句的语义识别为所述参考语句的语义。

在一些示例性实施例中，所述拼音片段是所述待识别语句中的词的拼音。

在一些示例性实施例中，所述语义识别装置还包括：

拆分模块606，其被配置为将所述拼音序列中对应于所述待识别语句中的词的拼音拆分为声母和韵母，作为所述拼音序列中的拼音片段。

在一些示例性实施例中，所述语义识别模块605进一步被配置为：

计算所述待识别语句的输出向量与参考语句集中的候选参考语句的输出向量之间的距离；

当所述距离小于阈值时，将所述候选参考语句确定为与所述待识别语句在语义上相似的参考语句。

在一些示例性实施例中，所述词嵌入模型为Word2vec模型。

在一些示例性实施例中，所述词嵌入模块进一步被配置为使用第一训练数据来被训练。所述第一训练数据包括多个训练语句的拼音序列。

在一些示例性实施例中，所述拼音序列获得模块601进一步被配置为获得至少一组第二训练语句中的每个训练语句中的词的拼音序列。其中，每组第二训练语句中的训练语句的语义相似。

所述词嵌入模块602进一步被配置为获得每个训练语句的拼音序列中的每个拼音片段的词向量。

所述句向量获得模块603进一步被配置为将每个训练语句的拼音序列中的每个拼音片段的词向量组合成为每个训练语句的句向量。

所述神经网络模块604进一步被配置为使用每个训练语句的句向量训练所述神经网络，以使得所述神经网络针对每个训练语句的输出向量相同。

在一些示例性实施例中，所述拼音序列获得模块601进一步被配置为：获得用户通过拼音输入法输入的待识别语句的拼音序列。

在本公开的另一个方面，还提供了一种语义识别装置。图7示出了根据本公开的实施例的语义识别装置700的示意性结构框图。

如图7所示，该装置700可包括处理器701和存储有计算机程序的存储器702。当计算机程序由处理器701执行时，使得装置700可执行如图3所示的语义识别方法的步骤。也就是说，装置700可获得待识别语句的拼音序列。所述拼音序列包括多个拼音片段。然后，装置700可获得所述多个拼音片段的词向量。接着，装置700可将所述多个拼音片段的所述词向量组合成所述待识别语句的句向量。然后，装置700可基于所述待识别语句的所述句向量，使用神经网络获得所述待识别语句的输出向量。接着，装置700可基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句。装置700可将所述待识别语句的语义识别为所述参考语句的语义。

在本公开的一些实施例中，处理器701可以是例如中央处理单元CPU、微处理器、数字信号处理器(DSP)、基于多核的处理器架构的处理器等。存储器702可以是使用数据存储技术实现的任何类型的存储器，包括但不限于随机存取存储器、只读存储器、基于半导体的存储器、闪存、磁盘存储器等。

此外，在本公开的一些实施例中，装置700也可包括输入设备703，例如键盘、鼠标、麦克风等，用于输入待识别语句。另外，装置700还可包括输出设备704，例如显示器等，用于输出答复。

在本公开的一些实施例中，装置700可通过以下操作来基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句：计算所述待识别语句的输出向量与参考语句集中的候选参考语句的输出向量之间的距离；当所述距离小于阈值时，将所述候选参考语句确定为与所述待识别语句在语义上相似的参考语句。

在本公开的一些实施例中，装置700还可以使用第一训练数据训练所述词嵌入模型。所述第一训练数据包括多个训练语句的拼音序列。

在本公开的一些实施例中，装置700还可以获得至少一组训练语句中的每个训练语句的拼音序列，其中每组训练语句中的训练语句的语义相似。对于每组训练语句，装置700还可以：获得每个训练语句的拼音序列中的每个拼音片段的词向量；将每个训练语句的拼音序列中的每个拼音片段的词向量组合成每个训练语句的句向量；以及使用每个训练语句的句向量训练所述神经网络，以使得所述神经网络针对每个训练语句的输出向量相同。

在本公开的一些实施例中，装置700可通过以下操作来获得待识别语句的拼音序列：获得用户通过拼音输入法输入的待识别语句的拼音序列。

在本公开的一些实施例中，装置700可通过以下操作来获得待识别语句的拼音序列：获得用户发出的待识别语句的语音信息；对所述语音信息进行语音识别，以获得对应于所述语音信息的文本信息；将所述文本信息转换为所述待识别语句的拼音序列。

以上参照附图描述了根据本公开的实施例的语义识别装置，应指出的是，以上描述仅为示例，而不是对本公开的限制。在本公开的其他实施例中，该装置可具有更多、更少或不同的模块，且各模块之间的连接、包含和功能等关系可以与所描述和图示的不同。例如，通常一个模块执行的多个功能也可以由多个单独的模块来执行。执行不同功能的多个模块可以合并为执行这些功能的一个模块。一个模块执行的功能也可以由另一个模块来执行。所有这些变化都处于本公开的精神和范围之内。

在本公开的又一个方面，还提供了一种人机对话系统。该人机对话系统例如可以是图1中所示的人机对话系统100，或者其一部分或其变体。

根据本公开的实施例，该人机对话系统可包括：获取装置、根据本公开的任何一个实施例所述的语义识别装置600、700和输出设备。

获取装置被配置为获取来自用户的待识别语句。

输出设备被配置为响应于确定与所述待识别语句在语义上相似的参考语句，获得与所述参考语句关联的答复，并将所述答复输出给用户。

在本公开的再一个方面，还提供了一种计算机可读存储介质，其存储有计算机可执行指令。所述计算机可执行指令当被计算机执行时使得该计算机执行根据本公开的任何一个实施例所述的语义识别方法。

在本公开的另外一个方面，还提供了一种计算机系统，其包括处理器和与处理器相连接的存储器。所述存储器中存储有程序指令，所述处理器被配置为通过加载和执行所述存储器中的程序指令而执行根据本公开的任何一个实施例所述的语义识别方法。如本领域的技术人员可理解的，该计算机系统还可以包括其他部件，例如各种输入输出部件、通信部件等，由于这些部分可以为现有的计算机系统中的部件，因此不再赘述。

可见，在本公开的实施例中，在训练阶段，将文本信息转换为拼音。并且在一些实施例中，进一步将一个词的拼音分为声母和韵母两个部分。之后进行词嵌入。在将文本信息转换为句向量后再经过神经网络进行训练。在服务提供时，将文本信息转换为拼音序列，再通过神经网络前向运算得到相似度最高的句子作为匹配结果。这样能够适应更多错词情况，去除语音识别或者拼写过程中出现词义不同的词所造成的干扰。并且可以保持原来的网络设计不变，只是增加简单的预处理即可。本公开的实施例所提供的技术方案最终提高了整个系统中的语义理解的准确率，且是一种低成本的解决方案。

根据本公开实施例的语义识别方法和装置以及人机对话系统可以由硬件、软件、固件或其任意组合来实现。根据本公开的实施例的语义识别方法和装置以及人机对话系统可以集中的方式在一个计算机系统中实现，或者以分布方式实现，在这种分布方式中，不同的部件分布在若干互连的计算机系统中。一种典型的硬件和软件的组合可以是带有计算机程序的通用计算机系统。该计算机程序中的程序代码模块对应于根据本公开的实施例的语义识别装置中的各模块，且当该计算机程序被加载和执行时，控制该计算机系统而使其执行根据本公开的实施例的语义识别装置中的各模块的操作和功能。

可以理解的是，本公开的以上各实施例仅仅是为了说明本公开的原理而采用的示例性实施例，本公开并不局限于此。对于本领域内的普通技术人员而言，在不脱离本公开的精神和实质的情况下，可以做出各种变型和改进。这些变型和改进也视为处于本公开的保护范围之内。本公开的保护范围仅由所附权利要求书的语言表述的含义及其等同含义所限定。

Claims

一种用于语义识别的方法，包括：

获得待识别语句的拼音序列，所述拼音序列包括多个拼音片段；

获得所述多个拼音片段的词向量；

将所述多个拼音片段的所述词向量组合成所述待识别语句的句向量；

基于所述待识别语句的所述句向量，使用神经网络获得所述待识别语句的输出向量；

基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句；以及

将所述待识别语句的语义识别为所述参考语句的语义。
根据权利要求1所述的方法，其中，

所述拼音片段是所述待识别语句中的词的拼音。
根据权利要求1所述的方法，其中，

所述拼音片段是所述待识别语句中的词的拼音字母。
根据权利要求1所述的方法，其中，所述基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句包括：

计算所述待识别语句的输出向量与参考语句集中的候选参考语句的输出向量之间的距离；

当所述距离小于阈值时，将所述候选参考语句确定为与所述待识别语句在语义上相似的参考语句。
根据权利要求1所述的方法，其中，所述多个拼音片段的词向量使用词嵌入模型获得。
根据权利要求5所述的方法，进一步包括：

使用第一训练数据训练所述词嵌入模型，其中，所述第一训练数据包括多个训练语句的拼音序列。
根据权利要求1所述的方法，进一步包括：

获得至少一组训练语句中的每个训练语句的拼音序列，其中每组训练语句中的训练语句的语义相似；

对于每组训练语句：

获得每个训练语句的拼音序列中的每个拼音片段的词向量；

将每个训练语句的拼音序列中的每个拼音片段的词向量组合成每个训练语句的句向量；以及

使用每个训练语句的句向量训练所述神经网络，以使得所述神经网络针对每个训练语句的输出向量相同。
根据权利要求1所述的方法，其中，所述获得待识别语句的拼音序列包括：

获得用户通过拼音输入法输入的待识别语句的拼音序列。
根据权利要求1所述的方法，其中，所述获得待识别语句的拼音序列包括：

获得用户发出的待识别语句的语音信息；

对所述语音信息进行语音识别，以获得对应于所述语音信息的文本信息；

将所述文本信息转换为所述待识别语句的拼音序列。
一种用于语义识别的装置，包括：

至少一个处理器；以及

存储有计算机程序的至少一个存储器；

其中，当所述计算机程序由所述至少一个处理器执行时，使得所述装置执行以下操作：

获得待识别语句的拼音序列，所述拼音序列包括多个拼音片段；

获得所述多个拼音片段的词向量；

将所述多个拼音片段的所述词向量组合成所述待识别语句的句向量；

基于所述待识别语句的所述句向量，使用神经网络获得所述待识别语句的输出向量；

基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句；以及

将所述待识别语句的语义识别为所述参考语句的语义。
根据权利要求10所述的装置，其中，

所述拼音片段是所述待识别语句中的词的拼音。
根据权利要求10所述的装置，其中，

所述拼音片段是所述待识别语句中的词的拼音字母。
根据权利要求10所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置通过以下操作来基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句：

计算所述待识别语句的输出向量与参考语句集中的候选参考语句的输出向量之间的距离；

当所述距离小于阈值时，将所述候选参考语句确定为与所述待识别语句在语义上相似的参考语句。
根据权利要求10所述的装置，其中，所述多个拼音片段的词向量使用词嵌入模型获得。
根据权利要求14所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置还执行以下操作：

使用第一训练数据训练所述词嵌入模型，其中，所述第一训练数据包括多个训练语句的拼音序列。
根据权利要求10所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置还执行以下操作：

获得至少一组训练语句中的每个训练语句的拼音序列，其中每组训练语句中的训练语句的语义相似；

对于每组训练语句：

获得每个训练语句的拼音序列中的每个拼音片段的词向量；

将每个训练语句的拼音序列中的每个拼音片段的词向量组合成每个训练语句的句向量；以及

使用每个训练语句的句向量训练所述神经网络，以使得所述神经网络针对每个训练语句的输出向量相同。
根据权利要求10所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置通过以下操作来获得待识别语句的拼音序列：

获得用户通过拼音输入法输入的待识别语句的拼音序列。
根据权利要求10所述的装置，其中，所述计算机程序在由所述至少一个处理器执行时使得所述装置通过以下操作来获得待识别语句的拼音序列：

获得用户发出的待识别语句的语音信息；

对所述语音信息进行语音识别，以获得对应于所述语音信息的文本信息；

将所述文本信息转换为所述待识别语句的拼音序列。
一种用于语义识别的装置，包括：

拼音序列获得模块，其被配置为获得待识别语句的拼音序列；

词嵌入模块，其被配置为获得所述多个拼音片段的词向量；

句向量获得模块，其被配置为将所述多个拼音片段的所述词向量组合成所述待识别语句的句向量；

神经网络模块，其被配置为基于所述待识别语句的所述句向量，使用神经网络获得所述待识别语句的输出向量；以及

语义识别模块，其被配置为基于所述待识别语句的输出向量，确定与所述待识别语句在语义上相似的参考语句，以及将所述待识别语句的语义识别为所述参考语句的语义。
一种用于人机对话的系统，包括：

获取装置，其被配置为获取来自用户的待识别语句；

根据权利要求10-18中任何一个所述的用于语义识别的装置，

以及输出设备，其被配置为响应于确定与所述待识别语句在语义上相似的参考语句，获得与所述参考语句关联的答复，并将所述答复输出给用户。
一种计算机可读存储介质，其存储有计算机可执行指令，所述计算机可执行指令当被计算机执行时使得该计算机执行根据权利要求1-9中任何一个所述的方法。