CN105956011B

CN105956011B - 搜索方法及装置

Info

Publication number: CN105956011B
Application number: CN201610251871.XA
Authority: CN
Inventors: 李鹏; 李伟; 何正焱; 王旭光; 曹莹; 周杰; 徐伟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-04-21
Filing date: 2016-04-21
Publication date: 2020-01-21
Anticipated expiration: 2036-04-21
Also published as: CN105956011A

Abstract

本发明提供一种搜索方法及装置。本发明实施例通过根据所获取的搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据，进而，则可以根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息，使得能够根据所述特征信息，获得所述搜索关键词的应答信息，并输出，由于不再完全依赖搜索关键词执行搜索操作，而是结合搜索关键词所匹配的匹配文本同时执行搜索操作，使得所获得的应答信息能够基本满足用户的真正意图，因此，能够避免现有技术中由于用户通过应用反复进行浏览或搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

Description

搜索方法及装置

【技术领域】

本发明涉及互联网技术，尤其涉及一种搜索方法及装置。

【背景技术】

搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息，在对信息进行组织和处理后，为用户提供搜索服务，将用户搜索相关的信息展示给用户的系统。据国家统计局的报道，中国网民人数已经超过了4亿，这个数据意味着中国已经超过美国成为世界上第一大网民国，且中国的网站总数量已经超过了200万。因此，如何利用搜索服务最大限度满足用户需求，对于互联网企业而言，始终是一个重要的课题。用户可以将搜索关键词提供给相关应用，由应用将搜索关键词，发送给搜索引擎。搜索引擎则根据搜索关键词，在数据库中进行搜索，以获得与搜索关键词匹配的搜索结果，并返回给应用进行输出。

然而，随着信息技术的发展，网络信息呈现爆炸性增长的态势，用户迫切需要更有效的技术快速从海量信息中获取所需信息，这种完全依赖搜索关键词所执行的搜索操作，可能会使得搜索结果无法满足用户的真正意图，使得用户需要通过应用反复进行浏览或搜索，这样，会增加应用与搜索引擎之间的数据交互，从而导致了搜索引擎的处理负担的增加。

【发明内容】

本发明的多个方面提供一种搜索方法及装置，用以降低搜索引擎的处理负担。

本发明的一方面，提供一种搜索方法，包括：

获取搜索关键词；

根据所述搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据；

根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息；

根据所述特征信息，获得所述搜索关键词的应答信息；

输出所述应答信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息，包括：

对所述搜索关键词进行分词处理，获得至少一个第一分词结果；

对所述证据数据进行分词处理，获得至少一个第二分词结果；

利用所述至少一个第一分词结果，对，所述至少一个第二分词结果，进行调整处理，以获得所述证据数据的特征信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述利用所述至少一个第一分词结果，对，所述至少一个第二分词结果，进行调整处理，以获得所述证据数据的特征信息，包括：

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；

将所述搜索关键词的空间向量，与所述至少一个第二分词结果中每个第二分词结果的初始向量表示，进行拼接处理，以获得所述每个第二分词结果的调整向量表示；

根据所述每个第二分词结果的调整向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

根据所述搜索关键词的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述每个第一分词结果的空间向量；

根据所述每个第一分词结果的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述根据所述特征信息，获得所述搜索关键词的应答信息，包括：

根据所述证据数据的特征信息，获得所述每个第二分词结果的标签数据；

根据所述每个第二分词结果和所述每个第二分词结果的标签数据，获得所述应答信息。

本发明的另一方面，提供一种搜索装置，包括：

获取单元，用于获取搜索关键词；

匹配单元，用于根据所述搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据；

特征单元，用于根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息；

应答单元，用于根据所述特征信息，获得所述搜索关键词的应答信息；

输出单元，用于输出所述应答信息。

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述特征单元，具体用于

对所述证据数据进行分词处理，获得至少一个第二分词结果；以及

将所述搜索关键词的空间向量，与所述至少一个第二分词结果中每个第二分词结果的初始向量表示，进行拼接处理，以获得所述每个第二分词结果的调整向量表示；以及

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；以及

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述每个第一分词结果的空间向量；以及

如上所述的方面和任一可能的实现方式，进一步提供一种实现方式，所述应答单元，具体用于

根据所述证据数据的特征信息，获得所述每个第二分词结果的标签数据；以及

由上述技术方案可知，本发明实施例通过根据所获取的搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据，进而，则可以根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息，使得能够根据所述特征信息，获得所述搜索关键词的应答信息，并输出，由于不再完全依赖搜索关键词执行搜索操作，而是结合搜索关键词所匹配的匹配文本同时执行搜索操作，使得所获得的应答信息能够基本满足用户的真正意图，因此，能够避免现有技术中由于用户通过应用反复进行浏览或搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

另外，采用本发明所提供的技术方案，由于不再完全依赖搜索关键词执行搜索操作，而是结合搜索关键词所匹配的匹配文本同时执行搜索操作，使得所获得的应答信息能够基本满足用户的真正意图，从而提高了搜索结果的有效性。

另外，采用本发明所提供的技术方案，由于不再完全依赖搜索关键词执行搜索操作，而是结合搜索关键词所匹配的匹配文本同时执行搜索操作，使得所获得的应答信息能够基本满足用户的真正意图，从而提高了搜索的效率。

另外，采用本发明所提供的技术方案，能够有效地提高用户的体验。

【附图说明】

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的搜索方法的流程示意图；

图2为本发明另一实施例提供的搜索装置的结构示意图。

【具体实施方式】

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

需要说明的是，本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant，PDA)、无线手持设备、平板电脑(Tablet Computer)、个人电脑(Personal Computer，PC)、MP3播放器、MP4播放器、可穿戴设备(例如，智能眼镜、智能手表、智能手环等)等。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

图1为本发明一实施例提供的搜索方法的流程示意图，如图1所示。

101、获取搜索关键词。

102、根据所述搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据。

103、根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息。

104、根据所述特征信息，获得所述搜索关键词的应答信息。

105、输出所述应答信息。

需要说明的是，101～105的执行主体的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的搜索引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可以理解的是，所述应用可以是安装在终端上的本地程序(nativeApp)，或者还可以是终端上的浏览器的一个网页程序(webApp)，本实施例对此不进行特别限定。

这样，通过根据所获取的搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据，进而，则可以根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息，使得能够根据所述特征信息，获得所述搜索关键词的应答信息，并输出，由于不再完全依赖搜索关键词执行搜索操作，而是结合搜索关键词所匹配的匹配文本同时执行搜索操作，使得所获得的应答信息能够基本满足用户的真正意图，因此，能够避免现有技术中由于用户通过应用反复进行浏览或搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

可选地，在本实施例的一个可能的实现方式中，在101中，具体可以采集用户所提供的所述搜索关键词。具体来说，具体可以通过用户所触发的搜索命令实现。具体可以采用但不限于下述几种方式触发搜索命令：

方式一：

用户可以在当前应用所展现的页面上所输入所述搜索关键词，然后，通过点击该页面上的搜索按钮例如，百度一下，以触发搜索命令，该搜索命令中包含所述搜索关键词。其中，用户输入所述搜索关键词的顺序可以为任意顺序。这样，在接收到该搜索命令之后，则可以解析出其中所包含的所述搜索关键词。

方式二：

采用异步加载技术例如，Ajax异步加载或Jsonp异步加载等，实时获取用户在当前应用所展现的页面上所输入的输入内容，为了与搜索关键词进行区分，此时的输入内容可以称为是输入关键词。其中，用户输入所述搜索关键词的顺序可以为任意顺序。具体地，具体可以提供Ajax接口或Jsonp接口等接口，这些接口可以使用Java、超级文本预处理(Hypertext Preprocessor，PHP)语言等语言进行编写，其具体的调用可以使用Jquery，或者原生的JavaScript等语言进行编写。

方式三：用户可以通过长按当前应用所展现的页面上的语音搜索按钮，说出想要输入的语音内容，然后，松开语音搜索按钮，以触发搜索命令，该搜索命令中包含根据所说出的语音内容转换的文本形式的搜索关键词。这样，在接收到该搜索命令之后，则可以解析出其中所包含的所述搜索关键词。

方式四：用户可以通过点击当前应用所展现的页面上的语音搜索按钮，说出想要输入的语音内容，待结束说出语音内容一段时间例如，2秒钟之后，则触发搜索命令，该搜索命令中包含根据所说出的语音内容转换的文本形式的搜索关键词。这样，在接收到该搜索命令之后，则可以解析出其中所包含的所述搜索关键词。

在获取到所述输入关键词之后，则可以执行后续操作即102～105。

可选地，在本实施例的一个可能的实现方式中，在102中，具体可以采用现有的搜索方法，获得与所述搜索关键词，对应的若干个页面。详细描述可以参见现有技术中的相关内容，此处不在赘述。基于这些页面，可以获得与用户所提供的搜索关键词所匹配的至少一个匹配文本。

可以理解的是，本发明所涉及的页面，也可以称为万维网(WorldWideWeb，Web)页面或网页，可以是基于超文本标记语言(HyperText Markup Language，HTML)编写的网页(Web Page)，即HTML页面，或者还可以是基于HTML和Java语言编写的网页，即Java服务器页面(Java Server Page，JSP)，或者还可以为其他语言编写的网页，本实施例对此不进行特别限定。页面可以包括由一个或者多个页面标签例如，超文本标记语言(HyperText MarkupLanguage，HTML)标签、JSP标签等，定义的一个显示区块，称为页面元素，例如，文字、图片、超链接、按钮、编辑框、下拉框等。

可选地，在本实施例的一个可能的实现方式中，在103中，具体可以对所述搜索关键词进行分词处理，获得至少一个第一分词结果，以及，对所述证据数据进行分词处理，获得至少一个第二分词结果。进而，则可以利用所述至少一个第一分词结果，对，所述至少一个第二分词结果，进行调整处理，以获得所述证据数据的特征信息。

具体来说，具体可以采用现有的各种分词处理方法，对所述搜索关键词进行分词处理，获得至少一个第一分词结果，以及对所述证据数据进行分词处理，获得至少一个第二分词结果，详细描述可以参见现有技术中的相关内容，此处不再赘述。例如，可以包括但不限于去除多余空格、将搜索关键词或证据数据切分为相应的符号序列、将符号中的大写字母转成小写字母等等处理，其中，每个符号可以是一个词、字或任意长度的字符串，本实施例对此不进行特别限定。

在一个具体的实现过程中，在获得第一分词结果与第二分词结果之后，具体可以根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量。然后，可以将所述搜索关键词的空间向量，与所述至少一个第二分词结果中每个第二分词结果的初始向量表示，进行拼接处理，以获得所述每个第二分词结果的调整向量表示。最后，可以根据所述每个第二分词结果的调整向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。所述第一神经网络与所述第二神经网络可以为相同的神经网络，或者还可以为不同的神经网络，本实施例对此不进行特别限定。其中，所述第一神经网络或所述第二神经网络可以包括但不限于循环神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)或深度神经网络(Deep Neural Network，DNN)，本实施例对此不进行特别限定。

可以理解的是，本发明所采用的神经网络可以有多种可能的实现方式，例如，采用长短时记忆网络(Long Short Term Memory Network，LSTM)或门限循环单元(GatedRecurrentUnit，GRU)所实现的循环神经网络等。本发明并不限定神经网络的具体实现方式的选择，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下即可将一种具体实现方式替换为另一种具体实现方式。

在该实现过程中，具体可以维护向量的查找表，该查找表中存储符号与向量之间的一一对应关系。同时，除了维护向量的查找表之外，还可以进一步存储一个指定向量，称为未登陆词向量，对于任意符号，如果该符号在查找表中，则将其映射为查找表中所记录的与之对应的向量，以作为该符号的初始向量表示，否则，将其映射为未登录词向量，以作为该符号的初始向量表示。

可以理解的是，本发明可以维护一个向量的查找表，用以映射第一分词结果和第二分词结果，或者还可以维护两个向量的查找表，一个向量的查找表，用以映射第一分词结果，另一个向量的查找表，用以映射第二分词结果，两个向量的查找表可以不相同，本实施例对此不进行特别限定。

可以将每个第一分词结果的初始向量表示组成的序列，记为问题符号表示序列，将每个第二分词结果的初始向量表示组成的序列，记为临时证据符号表示序列

其中m表示临时证据符号表示序列的长度。

在获得问题符号表示序列之后，可以利用第一神经网络处理所获得的问题符号表示序列，将第一神经网络的隐状态(hidden state)序列

作为问题中间表示序列。其中，n表示问题符号表示序列的长度，

为定长向量。然后，则可以根据公式

为问题中间表示序列中的每个

计算一个权重，其中V是一个预先设置的向量参数，

是V与

的内积。利用所获得的权重，对问题中间表示序列进行加权平均处理，获得一个定长向量，作为所述搜索关键词的空间向量，记为问题表示h^q。

在获得问题表示和临时证据符号表示序列之后，可以将临时证据符号表示序列中的每个

与问题表示h^q，进行拼接处理，获得证据符号表示序列

其中，

表示将

与h^q拼接起来。在获得证据符号表示序列之后，可以利用第二神经网络处理所获得的证据符号表示序列，将第二神经网络的隐状态(hidden state)序列作为证据中间表示序列。其中，m表示证据中间符号表示序列的长度，

为定长向量。这样，就得到了每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

在另一个具体的实现过程中，在获得第一分词结果与第二分词结果之后，具体可以根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量。然后，可以根据所述搜索关键词的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。所述第一神经网络与所述第二神经网络可以为相同的神经网络，或者还可以为不同的神经网络，本实施例对此不进行特别限定。其中，所述第一神经网络或所述第二神经网络可以包括但不限于循环神经网络(Recurrent Neural Network，RNN)、卷积神经网络(Convolutional Neural Network，CNN)或深度神经网络(Deep Neural Network，DNN)，本实施例对此不进行特别限定。

可以理解的是，本发明所采用的神经网络可以有多种可能的实现方式，例如，采用长短时记忆网络(Long Short Term Memory Network，LSTM)或门限循环单元(GatedRecurrent Unit，GRU)所实现的循环神经网络等。本发明并不限定神经网络的具体实现方式的选择，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下即可将一种具体实现方式替换为另一种具体实现方式。

其中m表示临时证据符号表示序列的长度。

作为问题中间表示序列。其中，n表示问题符号表示序列的长度，为定长向量。然后，则可以根据公式

为问题中间表示序列中的每个

计算一个权重，其中V是一个预先设置的向量参数，是V与

在获得问题表示和临时证据符号表示序列之后，可以将问题表示h^q与临时证据符号表示序列，进行拼接处理，获得证据符号表示序列h^q,

在获得证据符号表示序列之后，可以利用第二神经网络处理所获得的证据符号表示序列，将第二神经网络的隐状态(hidden state)序列

作为证据中间表示序列。其中，m+1表示证据中间符号表示序列的长度，为定长向量。这样，就得到了每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

在另一个具体的实现过程中，在获得第一分词结果与第二分词结果之后，具体可以根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述每个第一分词结果的空间向量。然后，可以根据所述每个第一分词结果的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。所述第一神经网络与所述第二神经网络可以为相同的神经网络，或者还可以为不同的神经网络，本实施例对此不进行特别限定。其中，所述第一神经网络或所述第二神经网络可以包括但不限于循环神经网络(Recurrent Neural Network，RNN)、卷积神经网络(ConvolutionalNeural Network，CNN)或深度神经网络(Deep Neural Network，DNN)，本实施例对此不进行特别限定。

可以将每个第一分词结果的初始向量表示组成的序列，记为问题符号表示序列，将每个第二分词结果的初始向量表示组成的序列，记为临时证据符号表示序列其中m表示临时证据符号表示序列的长度。

为定长向量，作为每个第一分词结果的空间向量。

在获得问题中间表示序列和临时证据符号表示序列之后，可以将问题中间表示序列与临时证据符号表示序列，进行拼接处理，获得证据符号表示序列

作为证据中间表示序列。其中，m+n表示证据中间表示序列的长度，

可选地，在本实施例的一个可能的实现方式中，在104中，具体可以根据所述证据数据的特征信息，获得所述每个第二分词结果的标签数据。进而，则可以根据所述每个第二分词结果和所述每个第二分词结果的标签数据，获得所述应答信息。

以证据中间表示序列

为例，具体可以根据公式

对证据数据的特征信息即证据中间表示序列进行转换处理，以获得证据特征表示序列v₁,v₂,……,v_m。其中，W为一个预先设置的变换矩阵。然后，可以对证据特征表示序列进行标签处理，以获得一个长度为t的标签序列l₁,l₂,……,l_m，其中，每个标签l_i(i＝1,2,……,m)可以表示证据数据的第i个符号即第二分词结果的第i个词是否是应答信息的第一个符号、证据数据的第i个符号即第二分词结果的第i个词是否是应答信息中除第一个符号外的其他符号或者证据数据的第i个符号即第二分词结果的第i个词不是应答信息的一部分。这样，则可以根据所获得的每个第二分词结果和所述每个第二分词结果的标签数据，获得所述搜索关键词的应答信息。

其中，所采用的标签处理方法是一个典型的序列标注问题(sequence labelingproblem)，可以采用现有技术中的任何成熟的方法。特别地，本发明采用条件随机场(J.Lafferty,A.McCallum,and F.Pereira.Conditional Random Fields:ProbabilisticModels for Segmenting and Labeling Sequence Data.Proc.18th InternationalConf.on Machine Learning.Morgan Kaufmann.pp.282–289.2001.)完成该处理。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以将条件随机场方法替换为其他方法。

例如，用户所提供的搜索关键词为“刘德华的老婆是谁？”，那么，所获得的第二分词结果是“刘德华的老婆是朱丽倩。”那么，若所获得的标签序列为“OOOOOBIO”，其中，B、I、O分别表示证据数据中相应的符号是应答信息的第一个符号、证据数据中相应的符号是应答信息中除第一个符号外的其他符号或者证据数据中相应的符号不是应答信息的一部分。根据该标签序列，可以知道，“朱”是应答信息的第一个符号，“丽倩”是应答信息中的其他符号，所以，应答信息为“朱丽倩”。

本发明所提供的技术方案，在应用方面，在百度产品中有多处可能的应用，如智能问答、百度知道自动回答、阿拉丁问题类检索触发、智能导诊、广告导流(如用户检索病情直接给出相应诊断提示)等，能够极大提升用户体验，具有巨大的潜在经济价值。

本发明所提供的技术方案，在竞品方面，一方面工业界仍未见基于神经网络的问答系统出现，该发明将有益于保持百度在问答系统方面的技术领先地位；另一方面，竞品多采用传统问答技术，步骤非常繁琐，且严重依赖于专家经验设计具体模板，系统开发周期长、人力消耗大、难于向新领域拓展，而本发明的方法是完全数据驱动的方法，且流程简单，可以克服前述传统方法弱点，非常适合公司产品快速迭代演进。

本实施例中，通过根据所获取的搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据，进而，则可以根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息，使得能够根据所述特征信息，获得所述搜索关键词的应答信息，并输出，由于不再完全依赖搜索关键词执行搜索操作，而是结合搜索关键词所匹配的匹配文本同时执行搜索操作，使得所获得的应答信息能够基本满足用户的真正意图，因此，能够避免现有技术中由于用户通过应用反复进行浏览或搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

图2为本发明另一实施例提供的搜索装置的结构示意图，如图2所示。本实施例的搜索装置可以包括获取单元21、匹配单元22、特征单元23、应答单元24和输出单元25。其中，获取单元21，用于获取搜索关键词；匹配单元22，用于根据所述搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据；特征单元23，用于根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息；应答单元24，用于根据所述特征信息，获得所述搜索关键词的应答信息；输出单元25，用于输出所述应答信息。

需要说明的是，本实施例所提供的搜索装置的部分或全部可以为位于本地终端的应用，或者还可以为设置在位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit，SDK)等功能单元，或者还可以为位于网络侧服务器中的搜索引擎，或者还可以为位于网络侧的分布式系统，本实施例对此不进行特别限定。

可选地，在本实施例的一个可能的实现方式中，所述特征单元23，具体可以用于对所述搜索关键词进行分词处理，获得至少一个第一分词结果；对所述证据数据进行分词处理，获得至少一个第二分词结果；以及利用所述至少一个第一分词结果，对，所述至少一个第二分词结果，进行调整处理，以获得所述证据数据的特征信息。

在一个具体的实现过程中，所述特征单元23，具体可以用于根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；将所述搜索关键词的空间向量，与所述至少一个第二分词结果中每个第二分词结果的初始向量表示，进行拼接处理，以获得所述每个第二分词结果的调整向量表示；以及根据所述每个第二分词结果的调整向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

在另一个具体的实现过程中，所述特征单元23，具体可以用于根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；以及根据所述搜索关键词的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

在另一个具体的实现过程中，所述特征单元23，具体可以用于根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述每个第一分词结果的空间向量；以及根据所述每个第一分词结果的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

可选地，在本实施例的一个可能的实现方式中，所述应答单元24，具体可以用于根据所述证据数据的特征信息，获得所述每个第二分词结果的标签数据；以及根据所述每个第二分词结果和所述每个第二分词结果的标签数据，获得所述应答信息。

需要说明的是，图1对应的实施例中方法，可以由本实施例提供的搜索装置实现。详细描述可以参见图1对应的实施例中的相关内容，此处不再赘述。

本实施例中，通过匹配单元根据获取单元所获取的搜索关键词，获得至少一个匹配文本，以作为所述搜索关键词的证据数据，进而，则可以由特征单元根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息，使得应答单元能够根据所述特征信息，获得所述搜索关键词的应答信息，并由输出单元输出，由于不再完全依赖搜索关键词执行搜索操作，而是结合搜索关键词所匹配的匹配文本同时执行搜索操作，使得所获得的应答信息能够基本满足用户的真正意图，因此，能够避免现有技术中由于用户通过应用反复进行浏览或搜索而导致的增加应用与搜索引擎之间的数据交互的问题，从而降低了搜索引擎的处理负担。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种搜索方法，其特征在于，包括：

获取搜索关键词；

根据所述特征信息，获得所述搜索关键词的应答信息；

输出所述应答信息；其中，

所述根据所述搜索关键词和所述证据数据，获得所述证据数据的特征信息，包括：

利用所述至少一个第一分词结果，对，所述至少一个第二分词结果，进行调整处理，以获得所述证据数据的特征信息；其中，

所述利用所述至少一个第一分词结果，对，所述至少一个第二分词结果，进行调整处理，以获得所述证据数据的特征信息，包括下列中的任意一项：

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；将所述搜索关键词的空间向量，与所述至少一个第二分词结果中每个第二分词结果的初始向量表示，进行拼接处理，以获得所述每个第二分词结果的调整向量表示；根据所述每个第二分词结果的调整向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息；

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；根据所述搜索关键词的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息；

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述每个第一分词结果的空间向量；根据所述每个第一分词结果的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

2.根据权利要求1所述的方法，其特征在于，所述根据所述特征信息，获得所述搜索关键词的应答信息，包括：

3.一种搜索装置，其特征在于，包括：

获取单元，用于获取搜索关键词；

输出单元，用于输出所述应答信息；其中，

所述特征单元，具体用于

所述特征单元，具体用于执行下列中的任意一项：

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；将所述搜索关键词的空间向量，与所述至少一个第二分词结果中每个第二分词结果的初始向量表示，进行拼接处理，以获得所述每个第二分词结果的调整向量表示；以及根据所述每个第二分词结果的调整向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息；

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述搜索关键词的空间向量；以及根据所述搜索关键词的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息；

根据所述至少一个第一分词结果中每个第一分词结果的初始向量表示，利用第一神经网络，获得所述每个第一分词结果的空间向量；以及根据所述每个第一分词结果的空间向量和所述至少一个第二分词结果中每个第二分词结果的初始向量表示，利用第二神经网络，获得所述每个第二分词结果的空间向量，以作为所述证据数据的特征信息。

4.根据权利要求3所述的装置，其特征在于，所述应答单元，具体用于