CN103577416A

CN103577416A - 扩展查询方法及系统

Info

Publication number: CN103577416A
Application number: CN201210254810.0A
Authority: CN
Inventors: 朱力; 董静; 黄云平
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-07-20
Filing date: 2012-07-20
Publication date: 2014-02-12
Anticipated expiration: 2032-07-20
Also published as: TW201405342A; KR102080362B1; JP6247292B2; WO2014015176A1; TWI544351B; US9317550B2; JP2015526809A; KR20150036117A; CN103577416B; US20140025701A1

Abstract

本申请提供了一种扩展查询方法，包括：获取用户输入的查询词；确定查询词的归一化查询词；将归一化查询词作为查询词的扩展词进行扩展查询；其中，查询词的归一化查询词采用如下方式确定：获取用户搜索日志中的session信息；获取单个session内出现的所有查询词，统计各查询词的投票数；确定单个查询词和目标查询词的投票相似度；根据投票相似度确定单个查询词和目标查询词的关联度；根据单个查询词和目标查询词的关联度确定目标查询词的归一化查询词。本申请还提供了一种实现前述方法的扩展查询系统。本申请的扩展查询方法及系统，能够准确的对查询词进行扩展，减少检索次数，提高系统响应速度和处理效率。

Description

扩展查询方法及系统

技术领域

本申请涉及计算机数据处理技术领域，特别是涉及一种扩展查询方法及系统。

背景技术

随着网络技术的发展，搜索引擎得到了不断的完善，通过搜索引擎可以从互联网上获取各种信息。搜索引擎是当前互联网帮助用户快速获取信息的主要途径之一。用户提交一个查询词（Query）给搜索引擎，搜索引擎返回给用户与该查询词相关的搜索结果。

在电子商务网站中，特别是对于大型的电子商务网站来说，因为所涉及的商品数量较大，用户往往也需要通过查询词的方式进行搜索来查找其所需要的商品。因为用户输入的查询词多是根据自己的意愿组合而成，这可能会出现能够与查询词匹配的结果过少或者过多的情况，查询结果准确度不高的情况，往往需要反复搜索。为此搜索引擎往往会对查询词进行扩展或者改写，丰富查询信息，智能的对用户输入的查询词进行优化，从而提高搜索结果的准确性，同时降低用户因为反复搜索而给服务器带来的压力。

常见的查询词扩展方法有在查询端和索引端进行扩展。其中，在查询端扩展主要包括对查询词进行增词、换词和去词。即在用户输入的查询词的基础上增加、替换或者去掉其中的某一个字或者某个部分。例如，用户输入的查询词为“诺基亚手机”，那么对查询词进行增词扩展则可以是“诺基亚N95手机”等等；进行去词扩展则可以是“诺基亚”或者“手机”；进行换词扩展则可以是“三星手机”或者“苹果手机”等等。在索引端扩展主要是在索引端对查询词进行同义词扩展。一般通过常规的数据挖掘等方式获取到同义词集合，当某个词出现时，则从同义词集合中提取其他同义词进行扩展。为了保证搜索结果与查询词的准确性，在扩展查询时会采用查询端和索引端同时扩展的方式，即查询端和索引端分别对查询词进行扩展后得到各自的扩展词，然后选取相同的扩展词所对应的结果作为扩展结果。在实际处理时，搜索引擎通常会按照一定的顺序逐个选取查询端的扩展词进行检索，并与索引端的扩展词进行匹配，若能够匹配上，则返回该扩展词的检索结果。在此过程中，可能出现，查询端的扩展词有多个，索引端的扩展词有一个，若按照顺序，查询端的最后一个扩展词与索引端的扩展词匹配，那么搜索引擎无疑需要进行多次检索查询，直到用最后一个扩展词检索查询时才能够与索引端的扩展词匹配，这就增加了搜索引擎无效检索的次数以及系统返回搜索结果的时间，降低系统响应速度，并造成对系统资源的占用。

发明内容

本申请提供一种扩展查询方法及系统，能够解决利用查询词查询时，搜索引擎反复检索匹配查询词而导致检索次数增加以及占用系统过多资源，影响系统响应速度和效率的问题。

为了解决上述问题，本申请公开了一种扩展查询方法，包括以下步骤：

获取用户输入的查询词；

根据所述查询词确定所述查询词的归一化查询词；

将所述归一化查询词作为所述查询词的扩展词进行扩展查询；

其中，所述查询词的归一化查询词采用如下方式确定：

获取用户搜索日志中的session信息；

获取单个session内出现的所有查询词，统计各查询词的投票数，在所述单个session内，按照各查询词出现的先后顺序，某个查询词之前的任何一个查询词到该查询词都记为一次投票；

根据目标查询词在所有session内的总投票数以及单个查询词对目标查询词的投票数确定单个查询词和目标查询词的投票相似度；

根据所述投票相似度确定单个查询词和目标查询词的关联度；

根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词。

进一步地，所述目标查询词在所有session内的总投票数采用如下方式统计：

获取包含有目标查询词的session；

统计所述目标查询词在每个session内的投票数；

将所述每个session内的投票数累加得到所述目标查询词的总投票数。

进一步地，所述单个查询词对目标查询词的投票数采用如下方式统计：

获取同时包含单个查询词和目标查询词的session；

判断所述session内，该单个查询词对目标查询词是否有投票，若是，则选取所述session；

统计所有被选取session的数量，得到所述单个查询词对目标查询词的投票数。

进一步地，所述确定单个查询词和目标查询词的投票相似度包括：

将所述单个产品对单个查询词对目标查询词的投票数占目标查询词的总投票数的比例作为所述单个查询词和目标查询词的投票相似度。

确定对目标查询词的每个投票的权重和基数；

根据所述权重和基数计算每个投票的得分；

将单个查询词对目标查询词的投票总得分占所有查询词对目标查询词的投票总得分的比例作为单个查询词和目标查询词的投票相似度。

进一步地，所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括：

设定归一化查询词阈值，若单个查询词和目标查询词的关联度值超过所述归一化产品阈值，则确定所述单个查询词为目标查询词的归一化查询词。

将归一化查询词类别分为同义归一化查询词、相关归一化查询词和扩展归一化查询词三个类别；

按照关联度值由大到小设定所述三个类别各自的取值范围；

将所述单个查询词和目标查询词的关联度所属的取值范围对应的类别作为所述单个查询词和目标查询词的细化类别。

进一步地，所述方法在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括：

获取用户搜索日志中搜索结果的点击信息；

根据所述点击信息中提取包含有目标查询词的搜索结果；

根据所有包含有目标查询词的搜索结果被点击的总次数以及单个查询词所对应的包含有目标查询词的搜索结果被点击的次数确定单个查询词和目标查询词的点击相似度；

所述确定单个查询词和目标查询词的关联度包括：根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度。

进一步地，所述根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度包括：

将投票相似度和点击相似度中的较大值作为单个查询词和目标查询词的关联度；或

确定投票相似度和点击相似度的权重；根据所述投票相似度和点击相似度和各自的权重按照预定规则计算得到单个查询词和目标查询词的关联度。

进一步地，在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括：

获取服务器中存储的卖家数据，所述卖家数据为卖家对产品进行描述时所确定的产品描述信息；

解析所述卖家数据，提取其中的查询词以及查询词的特征词；

根据单个查询词和目标查询词的特征词确定特征相似度；

所述根据所述投票相似度确定单个查询词和目标查询词的关联度包括：根据所述投票相似度和特征相似度确定单个查询词和目标查询词的关联度。

进一步地，所述根据单个查询词和目标查询词的特征词确定特征相似度包括：

计算每个特征词的特征值，所述特征值根据特征词及对应的查询词的点互信息计算得到；

根据特征值计算单个查询词和目标查询词的特征相似度。

进一步地，所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词之前还包括：确定单个查询词和目标查询词的语义相似度和/或类目相似度；

所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括：

根据所述单个查询词和目标查询词的关联度和语义相似度确定所述目标查询词的归一化查询词；或

根据所述单个查询词和目标查询词的关联度和类目相似度确定所述目标查询词的归一化查询词；或

根据所述单个查询词和目标查询词的关联度、语义相似度和类目相似度确定所述目标查询词的归一化查询词。

进一步地，所述确定单个查询词和目标查询词的语义相似度包括：

确定单个查询词和目标查询词的编辑距离，所述编辑距离指二者之间由一个词转化为另一词所需的最少编辑操作次数；

对所述编辑距离进行归一化处理得到与关联度具有相同量化级的语义相似度。

本申请还公开了一种扩展查询系统，包括：

查询词输入模块，用于获取用户输入的查询词；

归一化查询词确定模块，用于根据所述查询词确定所述查询词的归一化查询词；

扩展查询模块，用于将所述归一化查询词作为所述查询词的扩展词进行扩展查询；

其中，所述归一化查询词确定模块包括：

session信息获取模块，用于获取用户搜索日志中的session信息；

查询词投票数统计模块，用于获取单个session内出现的所有查询词，统计各查询词的投票数，在所述单个session内，按照各查询词出现的先后顺序，某个查询词之前的任何一个查询词到该查询词都记为一次投票；

投票相似度确定模块，用于根据目标查询词在所有session内的总投票数以及单个查询词对目标查询词的投票数确定单个查询词和目标查询词的投票相似度；

关联度确定模块，用于根据所述投票相似度确定单个查询词和目标查询词的关联度；

归一化查询词确定模块，用于根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词。

进一步地，所述投票相似度确定模块包括：

基数和权重确定单元，用于确定对目标查询词的每个投票的权重和基数；

得分计算单元，用于根据所述权重和基数计算每个投票的得分；

比例计算单元，用于将单个查询词对目标查询词的投票总得分占所有查询词对目标查询词的投票总得分的比例作为单个查询词和目标查询词的投票相似度。

进一步地，所述归一化查询词确定模块包括：

归一化查询词阈值设定单元，用于设定归一化查询词阈值，若单个查询词和目标查询词的关联度值超过所述归一化产品阈值，则确定所述单个查询词为目标查询词的归一化查询词。

进一步地，所述归一化查询词确定模块还包括：

归一化查询词类别区分单元，用于将归一化查询词类别分为同义归一化查询词、相关归一化查询词和扩展归一化查询词三个类别；

取值范围设定单元，用于按照关联度值由大到小设定所述三个类别的取值范围；

类别确定单元，用于将所述单个查询词和目标查询词的关联度所属的取值范围对应的类别作为所述单个查询词和目标查询词的细化类别。

进一步地，所述归一化查询词确定模块还包括：

点击信息获取模块，用于获取用户搜索日志中搜索结果的点击信息；

搜索结果提取模块，用于根据所述点击信息中提取包含有目标查询词的搜索结果；

点击相似度确定模块，根据所有包含有目标查询词的搜索结果被点击的总次数以及单个查询词所对应的包含有目标查询词的搜索结果被点击的次数确定单个查询词和目标查询词的点击相似度；

所述关联度确定模块用于根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度。

进一步地，所述归一化查询词确定模块还包括：

卖家数据获取模块，用于获取服务器中存储的卖家数据，所述卖家数据为卖家对产品进行描述时所确定的产品描述信息；

数据解析模块，用于解析所述卖家数据，提取其中的查询词以及查询词的特征词；

特征相似度确定模块，用于根据单个查询词和目标查询词的特征词确定特征相似度；

所述关联度确定模块用于根据所述投票相似度和特征相似度确定单个查询词和目标查询词的关联度。

进一步地，所述特征相似度确定模块包括：

特征值计算单元，用于计算每个特征词的特征值，所述特征值根据特征词及对应的查询词的点互信息计算得到，并根据特征值计算单个查询词和目标查询词的特征相似度。

进一步地，所述归一化查询词确定模块还包括语义相似度确定模块和/或类目相似度确定模块，用于确定单个查询词和目标查询词的语义相似度和/或类目相似度；

所述归一化查询词确定模块用于根据所述单个查询词和目标查询词的关联度和语义相似度确定所述目标查询词的归一化查询词；或根据所述单个查询词和目标查询词的关联度和类目相似度确定所述目标查询词的归一化查询词；或根据所述单个查询词和目标查询词的关联度、语义相似度和类目相似度确定所述目标查询词的归一化查询词。

进一步地，所述语义相似度确定模块包括：

编辑距离计算单元，用于确定单个查询词和目标查询词的编辑距离，所述编辑距离指二者之间由一个词转化为另一词所需的最少编辑操作次数；

归一化处理单元，用于对所述编辑距离进行归一化处理得到与关联度具有相同量化级的语义相似度。

与现有技术相比，本申请包括以下优点：

本申请的扩展查询方法及系统通过利用用户搜索日志中的session信息对查询词进行归一化处理，将具有相同或相近似意思的查询词视为相同或相似，在获取到一个查询词时，可以自动实现利用该查询词归一化的查询词同时进行扩展搜索，在增加搜索结果范围的同时可以保证搜索结果的准确性。利用用户搜索日志中的session信息来进行归一化处理，在处理过程中提取每个session内所包含的查询词，并按照查询词出现的先后顺序来对用户行为进行分析，从而可以得出每个用户在进行搜索时查询词的变化过程。因为单个session内记录的是一个较短且不间断时间内的用户搜索信息，因此单个session内的查询词的关联度也会较大。因此，基于session信息这一特点来进行扩展查询处理，可以提高归一化处理的效果，保证最后实现归一化的两个查询词具有足够高的关联度，从而使最终的搜索结果的准确性能够得到保证，并可以减少检索的次数，从而减少对系统资源的占用并提高系统的响应速度和扩展查询效率。

其次，因为session信息这一特点，降低了关联度较小的查询词在同一session内出现的几率，从而可以缩小归一化处理的数据范围，从而提高处理速度，节省处理时间。

另外，在进行处理时，除了考虑session信息，本申请进一步可选择地增加了用户点击信息以及卖家数据两个维度，从而提高了归一化处理的准确性。

当然，实施本申请的任一产品不一定需要同时达到以上所述的所有优点。

附图说明

图1是本申请的扩展查询方法实施例一的流程图；

图2是本申请的扩展查询方法中确定查询词的归一化查询词的实施例一的流程图；

图3是本申请的扩展查询方法中确定查询词的归一化查询词的实施例二的流程图；

图4是本申请的扩展查询方法中确定查询词的归一化查询词的实施例三的流程图；

图5是本申请的扩展查询系统实施例一的结构示意图；

图6是本申请的扩展查询系统中的归一化查询词模块的实施例一的结构示意图；

图7是本申请的扩展查询系统中的归一化查询词模块的实施例二的结构示意图；

图8是本申请的扩展查询系统中的归一化查询词模块的实施例三的结构示意图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

本申请的查询词可以是用户输入的用于查询得到其期望结果的关键词。例如包括产品名称、品牌、型号、或者其他词语。在特殊领域，可以是特殊类别的词语，例如，对于电子商务网站来说，查询词可以是表示产品名称或者类别的产品词。例如，手机、连衣裙等等。因为产品词可以相对有效的提高搜索结果与用户期望的匹配度，因此产品词是一种常见的查询词。通过对用户搜索日志进行分析，大约有57%的查询是利用产品词搜索，有近88%的查询中包含产品词。另一方面，电子商务网站中产品的提供方，会对产品进行描述并存储在服务器中，其中包括产品名称和详细描述。电子商务网站中的搜索引擎一般的搜索方法时，将用户输入的产品词与服务器中的产品名称进行匹配，根据匹配结果得到搜索结果。因此，如何将用户输入的产品词与产品提供方存储在服务器中的产品名称等信息关联起来，是提高搜索结果准确性的重要前提。

此外，在某些大型网站中的信息数据量巨大，但是信息数据中包含的查询词会远远小于信息数据总量，因此，如果能对查询词进行归一化处理，将表示相同或近似意思的查询词关联，在查询时视为二者相同或者近似，还可以减少数据的冗余，提高搜索引擎的响应速度。例如，对于大型商务网站来说，其产品词会远远小于信息数据总量。

为此，本申请提出一种扩展查询方法及系统来实现查询词的归一化处理。

参照图1和图2，示出本申请的一种扩展查询方法实施例一，包括以下步骤：

步骤101，获取用户输入的查询词。

步骤102，根据所述查询词确定所述查询词的归一化查询词。

步骤103，将所述归一化查询词作为所述查询词的扩展词进行扩展查询。

其中，步骤102具体包括如下步骤：

步骤1021，获取用户搜索日志中的session信息。

session信息是描述一个用户在一个连续的时间内（一般短至几分钟，长至若干小时）在网站上的一系列行为的信息。用户从开始浏览网站页面直到退出浏览这个过程中，网站服务器会自动为这个用户分配一个session ID，并记录下这段时间内的用户行为。当用户间隔较长时间重新浏览网站页面时，网站服务器会重新为这个用户分配一个session ID，并记录用户行为。通常情况下，用户在连续浏览的一个时间段内，其行为通常具有一定的关联性，即可以认为用户在一个session内的行为是相关联的，那么，该session内所记录的用户搜索查询时所使用的查询词也会具有一定的关联性。因此，本申请基于session信息来对查询词进行归一化处理。

网站服务器中会有特定的数据库存储用户搜索日志，包括其中的session信息。为了减少数据量，可以获取一定时间段内的用户搜索日志，也可以分别获取不同时间段内的用户搜搜日志，从而提高数据的客观性。

步骤1022，获取单个session内出现的所有查询词，统计各查询词的投票数，在所述单个session内，按照各查询词出现的先后顺序，某个查询词之前的任何一个查询词到该查询词都记为一次投票。

在一个session内，用户可能进行多次搜索，那么session信息中会包含多个查询词，session信息中会记录用户搜索的先后顺序，即各查询词出现的先后顺序。通过session信息中所记录的每次查询时间，即可以确定各查询词出现的先后顺序。

统计各查询词的投票数的具体过程为：

按照各查询词出现的先后顺序对各查询词进行排序；

各查询词的投票数为排列在该查询词前面的查询词总数。

例如，一个session内共有a，b，c，d，e五个查询词，按照出现的先后顺序排列为a，b，c，d，e。那么，根据前述定义，每个查询词之前的任何一个查询词到该查询词都记为一次投票。即对于查询词b来说，其投票数为1，即a到b；对于查询词c来说，其投票数为2，分别为a到c和b到c；同理，对于查询词e来说，其投票数为4，abcd分别对e有一次投票。也即，每个查询词的投票数都是排在其前面的查询词总数。

步骤1023，根据目标查询词在所有session内的总投票数以及单个查询词对目标查询词的投票数确定单个查询词和目标查询词的投票相似度。

因为在同一时间段内网站内会有多个用户访问，那么则会有多个session。对于其他的session内每个查询词的投票数的统计方法如前面步骤1022所述。

目标查询词在所有session内的总投票数采用如下方式统计：

A1，获取包含有目标查询词的session；

A2，统计所述目标查询词在每个session内的投票数；

A3，将所述每个session内的投票数累加得到所述目标查询词的总投票数。

根据前述对投票的定义，每个session内在目标查询词前面出现的任何一个查询词对目标查询词都有一次投票。也即，每个session内，每一个查询词对目标查询词最多有一次投票，如果该查询词排在目标查询词前面，则有一次投票，反之，则没有投票。因此，当需要确定单个查询词对目标查询词的投票数时，可以通过确定同时包含有该单个查询词和目标查询词且该单个查询词排在目标查询词前面的session的数量即可。具体包括以下步骤：

B1，获取同时包含单个查询词和目标查询词的session；

B2，判断所述session内，该单个查询词对目标查询词是否有投票，若是，则选取所述session；

B2，统计所有被选取session的数量，得到所述单个查询词对目标查询词的投票数。

前述获取包含有目标查询词的session或者同时包含有单个查询词和目标查询词的session可以通过匹配的方式来实现。即，首先确定目标查询词和/或单个查询词，将确定的词与session内所包含的所有查询词进行匹配查询，如果能够匹配，则确定该session包含目标查询词或者同时包含单个查询词和目标查询词。

可以理解，在具体实现时，对于总投票数和单个查询词对目标查询词的投票数的统计还可以采用其他的方式，只要能够确定出具体数目即可。例如，可以将每个session内每个查询词对目标查询词的投票用路径形式表示。如果需要统计总投票数，则可以通过统计路径总数的方式实现。如果需要统计单个查询词对目标查询词的投票数，则可以按照相同的路径形式表示，然后与之前统计的所有路径匹配，如果能够完全匹配，则累计一票，最后统计所有能够完全匹配的路径数量，即为单个查询词对目标查询词的投票数。

单个查询词和目标查询词的投票相似度可以直接根据单个查询词对目标查询词的投票数占目标查询词的总投票数的比例来确定，即具体的比例数值为投票相似度值。因为，如果单个查询词对目标查询词的投票数占该目标查询词的总投票数的比例越大，说明从单个查询词到目标查询词的路径变化被越多人采用，那么二者投票相似度也就越大。

单个查询词对目标查询词的投票在不同session内也可能出现区别，可能是单个查询词直接变化到目标查询词，也可能是单个查询词经过多次变化后到目标查询词。例如，一个session内的查询词为abc，另一个为ac，在统计时，都会包含a到c的投票，但是一个中间间隔了一个b，而另一个没有间隔，因此，两个a到c的投票实际上存在一定的区别。为了更为客观的统计出单个查询词和目标查询词的关联度。

优选地，采用如下方式：

确定对目标查询词的每个投票的权重和基数；

根据所述权重和基数计算每个投票的得分；

在具体计算时，可以采用每个投票的基数乘以权重的方式来计算每个投票的得分，最后将各得分相加得到总得分。例如，假设每个投票基数为1，如果在一个session某个查询词直接变化到目标查询词，其权重可以设置为1，那么该投票最终计算结果仍然为1；如果在另一session内该查询词经过一个词之后才变化到目标查询词，其权重可以设置为0.9，那么该投票最终计算结果为0.9。又如，假设将某个查询词到目标查询词中间所经过的每一次变化记为一个步长，那么可以通过步长倒数的方式来确定权重。可以理解，对于权重的确定还可以采用其他方式，只要能够体现出不同投票之间的区别即可。

步骤1024，根据所述投票相似度确定单个查询词和目标查询词的关联度。

本实施例中，单个查询词和目标查询词的投票相似度即为二者的关联。

可以理解，本实施例中在确定关联度时只考虑投票相似度一个维度，当确定关联度还需要考虑其他维度时，还可以将投票相似度以及其他维度的数值进行归一化处理，使之能够具有相同的量化级，以便于确定出相对准确的关联度。

步骤1025，根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词。

可以预先设定归一化查询词的阈值，即当单个查询词和目标查询词的关联度超过该阈值，则可以确定该单个查询词为目标查询词的归一化查询词。

进一步地，在确定该单个查询词为目标查询词的归一化查询词后，还可以根据具体的关联度值进行细化，例如，可以按照关联度值由大到小细化为同义归一化查询词、相关归一化查询词、扩展归一化查询词等等。可以分别设定各种类别所对应的取值范围，当关联度值落入某个取值范围，则将该取值范围对应的类别作为归一化查询词的细化类别。例如，单个查询词和目标查询词的关联度若在同义归一化查询词对应的取值范围内，则确定该单个查询词为目标查询词的同义归一化查询词，若在相关归一化查询词对应的取值范围内，则确定二者为相关归一化查询词，若在扩展归一化查询词的取值范围内，则确定二者为扩展归一化查询词。

可以理解，前述方法为通过session内的信息对查询词进行归一化处理，session可以很好的记录不同用户在一次查询过程中查询词的变化路径，从而客观的对用户行为进行分析，来得到较为客观准确的归一化处理结果。

为了更好的对查询词进行归一化处理，除了考虑session内的信息，还可以从其他维度来进行分析，并结合通过session内的信息得出的结果，综合得出归一化处理结果，从而提高处理结果的客观性。例如，对用户的点击行为进行分析，或者从系统中存储的查询词的描述信息来进行分析等等。

参照图3，示出本申请的扩展查询方法实施例二，对于前述实施例一的步骤102，在实施例一中的步骤1024之前包括以下步骤：

步骤201，获取用户搜索日志中搜索结果的点击信息。

用户在用某个查询词进行搜索得到搜索结果集合后，通常会对搜索结果集合中的某些搜索结果进行点击。搜索结果的点击信息包括哪些搜索结果被点击、以及被点击的搜索结果的标题、描述信息等等。

步骤202，根据所述点击信息中提取包含有目标查询词的搜索结果。

搜索结果中会包含有一个查询词，来表示该结果中主要是售卖何种产品。因此，通过对点击信息中每个搜索结果的标题和描述信息进行分析，就可以确定每个搜索结果的查询词。然后根据实际需要，提取目标查询词。例如，用户用“手机”这一查询词进行搜索得到一系列的搜索结果，各搜索结果的查询词可以是“iphone”、“三星手机”“诺基亚手机”等等。如果将“iphone”作为目标查询词，则可以将所有的包含有“iphone”的搜索结果提取出来。

步骤203，根据所有包含有目标查询词的搜索结果被点击的总次数以及单个查询词所对应的包含有目标查询词的搜索结果被点击的次数确定单个查询词和目标查询词的点击相似度。

单个查询词所对应的包含有目标查询词的搜索结果被点击的次数是指，用某个查询词进行查询后得到的搜索结果集合中，包含有目标查询词的搜索结果被点击的次数。

所有包含有目标查询词的搜索结果被点击的总次数是指所有单个查询词所对应的包含有目标查询词的搜索结果被点击的次数的总和。

例如，假设目标查询词为“iphone”，在查询时分别用“手机”和“智能手机”作为查询词进行了查询。其中，用“手机”这一查询词进行查询后得到一个搜索结果集合，其中包含有“iphone”的搜索结果被点击的次数为5次，那么单个查询词“手机”所对应的包含有目标查询词“iphone”的搜索结果被点击的次数为5次。另外，用“智能手机”这一查询词进行查询后得到另一个搜索结果集合，其中包含有“iphone”的搜索结果被点击的次数为20次，那么单个查询词“智能手机”所对应的包含有目标查询词“iphone”的搜索结果被点击的次数为20次。所有包含有目标查询词“iphone”的搜索结果被点击的总次数即为二者之和25。

所有包含有目标查询词的搜索结果被点击的总次数以及单个查询词所对应的包含有目标查询词的搜索结果被点击的次数的处理可以采用如下方式进行：计算单个查询词所对应的包含有目标查询词的搜索结果被点击的次数占所有包含有目标查询词的搜索结果被点击的总次数的比例。

因为本实施例中考虑了两个维度，因此，确定单个查询词和目标查询词的关联度需要考虑两个维度下的相似度值。为此，实施例一的步骤1024需要对应修改为：

根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度。

具体可以采用如下方式：

选取投票相似度和点击相似度中数值较大的作为单个查询词和目标查询词的关联度。

可以理解，还可以采用如下方式：

确定投票相似度和点击相似度的权重；

根据所述投票相似度和点击相似度和各自的权重按照预定规则计算得到单个查询词和目标查询词的关联度。

参照图4，示出本申请的扩展查询方法实施例三，对于前述实施例一和/或实施例二的步骤102，在步骤1024之前包括以下步骤：

步骤301，获取服务器中存储的卖家数据，所述卖家数据为卖家对产品进行描述时所确定的产品描述信息。

步骤302，解析所述卖家数据，提取其中的查询词以及查询词的特征词。

查询词的特征词是指对查询词进行特征描述的词。

步骤303，根据单个查询词和目标查询词的特征词确定特征相似度。

其中，特征相似度可以根据如下方式确定：

确定每个特征词的特征值；

根据特征值计算单个查询词和目标查询词的特征相似度。

每个特征词的特征值可以根据该特征词以及对应的查询词的点互信息计算得到，具体计算公式如下：

CP表示查询词、Word表示描述词。P(CP)和P(Word)分别表示这两个词在数据集中单独出现的概率，P(CP & Word)表示它们在数据集中共同出现的概率；C(CP)和C(Word)分别表示它们在数据集中单独出现的信息数，C(CP & Word)表示它们在数据集中共同出现的信息数，N为数据集中的信息总数。

根据特征值计算单个查询词和目标查询词的特征相似度为计算单个查询词和目标查询词各个维度的特征词的相似度从而得到特征相似度。具体可以采用余弦相似度来进行，最后所得的值越大，则说明二者相似度越高。

如前所述，因为增加了卖家数据作为新的维度，在确定单个查询词和目标查询词的关联度需要考虑增加的维度。

可以理解，新的维度可以直接和实施例一结合，也可以和实施例二结合，即可以考虑两个维度，也可以考虑三个维度。当新的维度与实施例一结合时，实施例一中的步骤1024在本实施例中需要对应修改为：

根据所述投票相似度和特征相似度确定单个查询词和目标查询词的关联度。

当三个维度结合时，实施例一中的步骤1024在本实施例中则需要对应修改为：

根据所述投票相似度、点击相似度和特征相似度确定单个查询词和目标查询词的关联度。

具体在确定单个查询词和目标查询词的关联度时，可以参照实施例二中相类似的方法。例如，可以选取相似度值较大的作为关联度，也可以分别确定各相似度的权重，然后采用线性拟合等预定方式进行计算，在此不再赘述。

优选地，在进行归一化处理过程中，除了考虑关联度，还可以考虑其他因素，从而使处理结果更为准确。例如，还可以考虑单个查询词和目标查询词的语义相似度，或者单个查询词和目标查询词的类目相似度等等。

为此，在实施例一和/或实施例二和/或实施例三的步骤1025之前还包括以下步骤：

确定单个查询词和目标查询词的语义相似度。

其中，单个查询词和目标查询词的语义相似度根据二者的编辑距离确定。编辑距离（Edit Distance），是指两个字串（查询词）之间，由一个转成另一个所需的最少编辑操作次数。Levenshtein距离是最为常见的编辑距离，Levenshtein的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符，可以通过动态规划的方法计算两个字符串的编辑距离。在计算出编辑距离之后，对编辑距离进行归一化处理得到语义相似度，使语义相似度能够与关联度具有相同的量化级别，从而便于后续处理。

确定单个查询词和目标查询词的类目相似度。

电子商务网站中，为了便于对产品进行区分管理，会预先设定类目，每个查询词都有其所属的类目。一般来说类目会有多层划分，即同一大类目下可能包含多个小类目，每个小类目又分多个子类目等等。类目相似度可以根据是否属于相同大类目、小类目、子类目等来进行确定。同样的，在确定过程中需要对类目相似度进行归一化处理，使之与关联度具有相同的量化级别。

因为考虑了新的因素，在前述三个实施例中的步骤1025则需要对应修改。

若考虑的是关联度和语义相似度，则步骤1025修改为：

根据所述单个查询词和目标查询词的关联度和语义相似度确定所述目标查询词的归一化查询词。

若考虑的是关联度和类目相似度，则步骤1025修改为：

根据所述单个查询词和目标查询词的关联度和类目相似度确定所述目标查询词的归一化查询词。

若同时考虑三者，则步骤1025修改为：

具体处理时，可以对二者或者三者进行线性拟合，得到单个查询词和目标查询词的归一化分数，然后根据归一化分数来确定目标查询词的归一化查询词。

例如，可以参照实施例一中设定阈值的方式来实现。即预先设定归一化查询词的阈值，若归一化分数超过该阈值，则确定单个查询词为目标查询词的归一化查询词。也可以对归一化查询词进行细化，即分别设定不同的取值范围对应不同的类别，当归一化分数落入某个取值范围，则将该取值范围对应的类别作为归一化查询词的细化类别。具体的可以参照实施例一中细化方式，在此不再赘述。

可以理解，本申请前述的多个实施例中，对于在某个实施例的某个特定步骤之前添加的步骤，因为添加的步骤与特定步骤之前的步骤相互独立，所以可以直接在该特定步骤前一步进行，也可以与该特征步骤之前的步骤同步或者之前进行，本申请对此并不限制。例如，对于实施例二中所添加的步骤201至203，可以在步骤1023和步骤1024之间，也可以与步骤1021至1023同步进行或者在步骤1021之前，本申请对此并不限制。其它实施例也类似处理，在此不再赘述。

参照图5，示出本申请的扩展查询系统实施例一，包括查询词输入模块10、归一化查询词确定模块20和扩展查询模块30。

参照图6，其中，归一化查询词确定模块20包括session信息获取模块21、查询词投票数统计模块22、投票相似度确定模块23、关联度确定模块24和归一化查询词确定模块25。

session信息获取模块21，用于获取用户搜索日志中的session信息。

查询词投票数统计模块22，用于获取单个session内出现的所有查询词，统计各查询词的投票数，在所述单个session内，按照各查询词出现的先后顺序，某个查询词之前的任何一个查询词到该查询词都记为一次投票。

投票相似度确定模块23，用于根据目标查询词在所有session内的总投票数以及单个查询词对目标查询词的投票数确定单个查询词和目标查询词的投票相似度。优选地，投票相似度确定模块包括基数和权重确定单元、分计算单元和比例计算单元。基数和权重确定单元，用于确定对目标查询词的每个投票的权重和基数。得分计算单元，用于根据所述权重和基数计算每个投票的得分。比例计算单元，用于将单个查询词对目标查询词的投票总得分占所有查询词对目标查询词的投票总得分的比例作为单个查询词和目标查询词的投票相似度。

关联度确定模块24，用于根据所述投票相似度确定单个查询词和目标查询词的关联度。

归一化查询词确定模块25，用于根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词。优选地，归一化查询词确定模块包括归一化查询词阈值设定单元，用于设定归一化查询词阈值，若单个查询词和目标查询词的关联度值超过所述归一化产品阈值，则确定所述单个查询词为目标查询词的归一化查询词。可以理解，归一化查询词确定模块还包括归一化查询词类别区分单元、取值范围设定单元和类别确定单元。归一化查询词类别区分单元，用于将归一化查询词类别分为同义归一化查询词、相关归一化查询词和扩展归一化查询词三个类别。取值范围设定单元，用于按照关联度值由大到小设定所述三个类别的取值范围。类别确定单元，用于将所述单个查询词和目标查询词的关联度所属的取值范围对应的类别作为所述单个查询词和目标查询词的细化类别。

参照图7，示出本申请的扩展查询系统实施例二，该系统中，归一化查询词确定模块20还包括点击信息获取模块61、搜索结果提取模块63和点击相似度确定模块65。

点击信息获取模块61，用于获取用户搜索日志中搜索结果的点击信息。

搜索结果提取模块63，用于根据所述点击信息中提取包含有目标查询词的搜索结果。

点击相似度确定模块65，根据所有包含有目标查询词的搜索结果被点击的总次数以及单个查询词所对应的包含有目标查询词的搜索结果被点击的次数确定单个查询词和目标查询词的点击相似度。

相应地，关联度确定模块40用于根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度。

参照图8，示出本申请的扩展查询系统实施例三，该系统中，归一化查询词确定模块20还包括卖家数据获取模块81、数据解析模块83和特征相似度确定模块85。

卖家数据获取模块81，用于获取服务器中存储的卖家数据，所述卖家数据为卖家对产品进行描述时所确定的产品描述信息。

数据解析模块83，用于解析所述卖家数据，提取其中的查询词以及查询词的特征词。

特征相似度确定模块85，用于根据单个查询词和目标查询词的特征词确定特征相似度。优选地，特征相似度确定模块包括特征值计算单元，用于计算每个特征词的特征值，所述特征值根据特征词及对应的查询词的点互信息计算得到，并根据特征值计算单个查询词和目标查询词的特征相似度。

对应的，关联度确定模块24用于根据所述投票相似度和特征相似度确定单个查询词和目标查询词的关联度。

可以理解，在实际处理时，还可以同时考虑实施例二和实施例三中所描述的相关数据来进行处理。即关联度确定模块24还可以根据投票相似度、点击相似度和特征相似度三者共同确定单个查询词和目标查询词的关联度。具体在确定关联度时，可以采用从三者中选取数值最大的作为关联度，也可以对三者进行线性拟合得到一个最终值作为关联度。

可以理解，对于前述采用投票相似度与点击相似度二者结合或者与特征相似度二者结合时，也可以从二者中选取数值最大的作为关联度，还可以对二者进行线性拟合得到一个最终值作为关联度。

优选地，该系统还包括语义相似度确定模块和/或类目相似度确定模块，用于确定单个查询词和目标查询词的语义相似度和/或类目相似度。

对应地，归一化查询词确定模块25则用于根据所述单个查询词和目标查询词的关联度和语义相似度确定所述目标查询词的归一化查询词；或根据所述单个查询词和目标查询词的关联度和类目相似度确定所述目标查询词的归一化查询词；或根据所述单个查询词和目标查询词的关联度、语义相似度和类目相似度确定所述目标查询词的归一化查询词。

优选地，语义相似度确定模块包括编辑距离计算单元和归一化处理单元。编辑距离计算单元，用于确定单个查询词和目标查询词的编辑距离，所述编辑距离指二者之间由一个词转化为另一词所需的最少编辑操作次数。归一化处理单元，用于对所述编辑距离进行归一化处理得到与关联度具有相同量化级的语义相似度。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请所提供的扩展查询方法及系统进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种扩展查询方法，其特征在于，包括以下步骤：

获取用户输入的查询词；

根据所述查询词确定所述查询词的归一化查询词；

其中，所述查询词的归一化查询词采用如下方式确定：

获取用户搜索日志中的session信息；

2.如权利要求1所述的扩展查询方法，其特征在于，所述目标查询词在所有session内的总投票数采用如下方式统计：

获取包含有目标查询词的session；

统计所述目标查询词在每个session内的投票数；

3.如权利要求1所述的扩展查询方法，其特征在于，所述单个查询词对目标查询词的投票数采用如下方式统计：

获取同时包含单个查询词和目标查询词的session；

4.如权利要求1所述的扩展查询方法，其特征在于，所述确定单个查询词和目标查询词的投票相似度包括：

5.如权利要求1所述的扩展查询方法，其特征在于，所述确定单个查询词和目标查询词的投票相似度包括：

确定对目标查询词的每个投票的权重和基数；

根据所述权重和基数计算每个投票的得分；

6.如权利要求1所述的扩展查询方法，其特征在于，所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括：

7.如权利要求6所述的扩展查询方法，其特征在于，所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词包括：

按照关联度值由大到小设定所述三个类别各自的取值范围；

8.如权利要求1所述的扩展查询方法，其特征在于，所述方法在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括：

获取用户搜索日志中搜索结果的点击信息；

根据所述点击信息中提取包含有目标查询词的搜索结果；

9.如权利要求8所述的扩展查询方法，其特征在于，所述根据所述投票相似度和点击相似度确定单个查询词和目标查询词的关联度包括：

10.如权利要求1所述的扩展查询方法，其特征在于，在根据所述投票相似度确定单个查询词和目标查询词的关联度之前还包括：

根据单个查询词和目标查询词的特征词确定特征相似度；

11.如权利要求10所述的扩展查询方法，其特征在于，所述根据单个查询词和目标查询词的特征词确定特征相似度包括：

根据特征值计算单个查询词和目标查询词的特征相似度。

12.如权利要求1至11任一项所述的扩展查询方法，其特征在于，所述根据所述单个查询词和目标查询词的关联度确定所述目标查询词的归一化查询词之前还包括：确定单个查询词和目标查询词的语义相似度和/或类目相似度；

13.如权利要求12所述的扩展查询方法，其特征在于，所述确定单个查询词和目标查询词的语义相似度包括：

14.一种扩展查询系统，其特征在于，包括：

查询词输入模块，用于获取用户输入的查询词；

其中，所述归一化查询词确定模块包括：

15.如权利要求14所述的扩展查询系统，其特征在于，所述投票相似度确定模块包括：

16.如权利要求14所述的扩展查询系统，其特征在于，所述归一化查询词确定模块包括：

17.如权利要求16所述的扩展查询系统，其特征在于，所述归一化查询词确定模块还包括：

18.如权利要求14所述的扩展查询系统，其特征在于，所述归一化查询词确定模块还包括：

19.如权利要求14所述的扩展查询系统，其特征在于，所述归一化查询词确定模块还包括：

20.如权利要求19所述的扩展查询系统，其特征在于，所述特征相似度确定模块包括：

21.如权利要求14至20任一项所述的扩展查询系统，其特征在于，所述归一化查询词确定模块还包括语义相似度确定模块和/或类目相似度确定模块，用于确定单个查询词和目标查询词的语义相似度和/或类目相似度；