CN109241243B

CN109241243B - 候选文档排序方法及装置

Info

Publication number: CN109241243B
Application number: CN201811004434.3A
Authority: CN
Inventors: 刘奕群; 罗成; 毛佳昕; 许静芳; 汪萌; 张敏; 马少平
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-08-30
Filing date: 2018-08-30
Publication date: 2020-11-24
Anticipated expiration: 2038-08-30
Also published as: CN109241243A

Abstract

本公开是关于一种候选文档排序方法及装置，该方法包括：根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档；根据所述当前查询会话的数据以及历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇；根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表。本公开能够确保选择与当前查询会话的关键词和/或候选文档相关的马尔可夫模型来对候选文档进行排序，使得候选文档的排序能够更加趋向于用户的查询期望。

Description

候选文档排序方法及装置

技术领域

本公开涉及计算机技术领域，尤其涉及一种候选文档排序方法及装置。

背景技术

目前，用户可通过网上搜索来查询各种信息。当用户使用搜索引擎进行查询时，在整个查询会话中用户的查询意图往往不断在改变。而传统搜索引擎中对查询到的候选文档的排序模型无法检测出用户的查询意图的改变，在对于候选文档的排序过程中通常认为用户的查询意图保持不变，一般采用同一个模型对查询到的候选文档进行排序。这样很可能造成对候选文档的排序与用户真实查询意图的不相符的问题，影响用户体验。

发明内容

为克服相关技术中存在的问题，本公开提供一种候选文档排序方法及装置。

根据本公开的一个方面，提供了一种候选文档排序方法，包括：根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档；根据所述当前查询会话的数据以及历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇，其中，所述历史查询会话包括在当前查询会话之前的多个查询会话，所述当前查询会话的数据至少包括：所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词，所述历史查询会话的数据至少包括：所述历史查询会话对应的第二候选文档以及所述历史查询会话的查询关键词；根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表，其中，所述马尔可夫模型是利用马尔可夫决策过程对所述第二候选文档的排序过程进行建模得到的。

可选地，根据所述当前查询会话的数据以及所述历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇，包括：根据所述当前查询会话的数据以及所述历史查询会话的数据确定所述当前查询会话与所述历史查询会话之间的相似度；在所述相似度中的最大相似度大于或等于第一阈值时，确定与所述最大相似度对应的历史查询会话所属的所述训练簇为与所述当前查询会话匹配的第一训练簇。

可选地，根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表，包括：根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行预设次数的排序，获得多个候选排序列表；确定所述多个候选排序列表的全局回报值；将与所述全局回报值中的最大全局回报值对应的候选排序列表确定为所述第一候选文档的排序列表。

可选地，通过如下公式计算候选排序列表中的各候选文档的全局回报值；

其中，R(s_t,a_t)表示候选排序列表中的候选文档的全局回报值，L(d_i)表示候选排序列表中第i个候选文档d_i的相关性标注，s_t表示马尔可夫模型的五元组中的系统当前所处状态，a_t表示所述系统选择的动作；根据所述候选文档排序列表中各候选文档的全局回报值计算所述候选文档排序列表的全局回报值。

可选地，根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档的步骤之前，所述方法还包括：将所述历史查询会话中的第一个历史查询会话q₁划分至一个训练簇中；对于查询会话q₁之后的查询会话q_N，依次计算查询会话q_N与其之前1～N-1个历史查询会话之间的相似度，得到与查询会话q_N相似度最高的查询会话q_h，其中，N大于1，1≤h<N；如果查询会话q_N与查询会话q_h之间的相似度大于或等于第一阈值，则将查询会话q_N划分至查询会话q_h所属的训练簇中，否则，将查询会话q_N划分至一个新的训练簇中，直至划分得到的所有训练簇的总数大于或等于第二阈值；利用马尔可夫决策过程分别对划分得到的各训练簇中的查询会话对应的所述第二候选文档的排序过程建立马尔可夫模型，得到与所述各训练簇对应的马尔可夫模型。

可选地，所述方法还包括：通过如下公式计算每两次查询会话对应的候选文档之间的相似度：

其中，DT表示采用两次查询会话对应的候选文档的文本作为计算内容，q_a和q_b分别表示两次不同的查询会话，sim^DT(q_a,q_b)表示q_a和q_b两次查询会话之间的相似度，V_ar为q_a查询会话返回的第r个文档的向量表示，V_bs为q_b查询会话返回的第s个文档的向量表示，e为q_a对应的候选文档的个数，f为q_b对应的候选文档的个数。

可选地，利用马尔可夫决策过程对划分得到的各训练簇中的查询会话中的所述第二候选文档的随机排序过程建立马尔可夫模型包括：将各所述训练簇中的查询会话中的所述第二候选文档的排序过程按照马尔可夫决策过程建模为{S，A，T，R，π}五元组；其中，S表示系统状态的集合、A表示系统在对所述第二候选文档进行排序过程中的每一步可采取的动作集合、转移函数T(S，A)是通过响应t时刻的动作a_t将原状态S_t映射到新状态S_t+1的一个函数，R(S，A)表示一个文档排序列表的全局回报值，π(a|s)表示系统策略，其中，a表示系统采取的动作，s表示系统的状态；通过如下公式计算系统策略：

π(a_t|s_t；w)＝softmax(w^TV(d_i))；

其中，V(d_i)表示第i个文档d_i的向量表示，w∈R^k表示系统参数，R表示实数集，k>1，所述系统参数包括：各训练簇的权重参数；通过以下公式更新所述各训练簇的权重参数：

▽_wJ(w)＝γ^tG_t▽_wlogπ_w(a_t|s_t；w)；

其中，J(w)表示一个查询会话对应的所有候选文档排序的长期回报值的期望，γ表示折扣因子，G_t表示对所述候选文档进行的一次排序的长期收益值，▽_wlogπ_w(a_t|s_t；w)表示在t时刻系统参数w的梯度值。

可选地，所述相似度至少包括以下一种：两次查询会话的查询关键词的第一相似度、两次查询会话对应的候选文档之间的第二相似度以及两次查询会话对应的候选文档之间的重叠率。

根据本公开的另一个方面，提供了一种候选文档排序装置，包括：获取模块，用于根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档；确定模块，用于根据所述当前查询会话的数据以及所述历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇，其中，所述历史查询会话包括在当前查询会话之前的多个查询会话，所述当前查询会话的数据至少包括：所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词，所述历史查询会话的数据至少包括：所述历史查询会话对应的第二候选文档以及所述历史查询会话的查询关键词；排序模块，用于根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表，其中，所述马尔可夫模型是利用马尔可夫决策过程对所述第二候选文档的排序过程进行建模得到的。

可选地，所述确定模块，包括：第一确定单元，用于根据所述当前查询会话的数据以及所述历史查询会话的数据确定所述当前查询会话与所述历史查询会话之间的相似度；第二确定单元，用于在所述相似度中的最大相似度大于或等于第一阈值时，确定与所述最大相似度对应的历史查询会话所属的所述训练簇为与所述当前查询会话匹配的第一训练簇。

本公开的实施例提供的技术方案可以包括以下有益效果：通过本实施例的候选文档排序方法，使用与当前查询会话匹配的训练簇对应的马尔可夫模型对与当前查询会话对应的候选文档进行排序，从而获得当前查询会话的候选文档的排序列表，能够确保选择与当前查询会话的关键词和/或候选文档相关的马尔可夫模型来对候选文档进行排序，使得候选文档的排序能够更加趋向于用户的查询期望。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种候选文档排序方法的流程图。

图2是根据一示例性实施例示出的一种候选文档排序装置的框图。

图3是根据一示例性实施例示出的一种候选文档排序装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种候选文档排序方法的流程图。该方法可应用于服务器，例如Web服务器。如图1所示，该方法包括：

步骤101：根据当前查询会话的查询关键词，从数据库中获取与查询关键词匹配的第一候选文档；

在一种可实现方式中，查询会话例如是根据查询关键词从数据库中查询与关键词相关的文档的操作，基于该查询关键词查询到的文档可称为与查询关键词匹配的候选文档，也称与当前查询会话对应的候选文档，查询关键词例如可以是用户通过Web浏览器页面上的搜索框提交的一个或多个关键词、语句或是一段文本。

在一种可实现方式中，与查询关键词匹配的第一候选文档可包括：搜索引擎基于查询关键词在数据库中查询到的与查询关键词相关的一个或多个文档。

步骤102：根据当前查询会话的数据以及历史查询会话的数据，确定多个训练簇中与当前查询会话匹配的第一训练簇，其中，历史查询会话包括在当前查询会话之前的多个查询会话，当前查询会话的数据至少包括：当前查询会话对应的第一候选文档以及当前查询会话的查询关键词，历史查询会话的数据至少包括：历史查询会话对应的第二候选文档以及历史查询会话的查询关键词；

本文中使用第一候选文档表示在当前查询会话中基于查询关键词查询到的文档，第二候选文档表示在历史查询中基于查询关键词查询到的文档。

在一种可实现方式中，上述多个训练簇可以是基于多个历史查询会话之间的相关性进行聚类得到的多个训练簇，例如，可对历史查询会话的查询关键词进行语义聚类，即将关键词语义相似度达到指定阈值的查询关键词所对应的查询会话划分至同一训练簇。此外，历史查询会话之间的相关性例如二者之间的相似度，将具有较高相似度的查询会话划分为同一个训练簇，使得各训练簇中的历史查询会话之间具有较高的相似度，例如，各查询会话之间的相似度高于或等于第一阈值，由于相似度的值通常在0到1之间取值，故对于该第一阈值，可在0到1的区间内进行遍历，对于每个被遍历的值，基于该值计算Cohen’sKappa值来表示聚类合理性，其中，Cohen’s Kappa是用于表示评估者间一致性的指标，选取计算得到的聚类合理性最高时所遍历的值作为第一阈值。

在一种可实现方式中，可根据当前查询会话的查询关键词与历史查询会话的查询关键词之间的相似度来确定与当前查询会话匹配的第一训练簇，或者，根据第一候选文档与第二候选文档之间的相似度或重叠率来确定与当前查询会话匹配的第一训练簇，其中，该第一训练簇中可包括多个历史查询会话，这些历史查询会话的查询关键词之间的相似度高于第一阈值，或者，这些历史查询会话对应的第二候选文档之间的重叠率或相似度高于第一阈值。

步骤103：根据与第一训练簇对应的马尔可夫模型，对第一候选文档进行排序处理，获得第一候选文档的排序列表，其中，与第一训练簇对应的马尔可夫模型是利用马尔可夫决策过程对第二候选文档的排序过程进行建模得到的。

上述第一训练簇即为包括多个查询会话的集合，集合中的元素例如可以是该多个查询会话的标识，其中，各查询会话又可包括与其对应的第二候选文档。

在一种可实现方式中，对第一候选文档进行排序处理可以是使用与第一训练簇对应马尔可夫模型对第一候选文档进行预设次数的随机排序处理，获得该第一候选文档的多个候选排序列表，再从该多个候选排序列表中选择一个作为第一候选文档的排序列表。

在一种可实现方式中，可预先使用马尔可夫决策过程分别对多个训练簇中的所有历史查询会话中的所有第一候选文档的排序过程进行建模，得到与各训练簇对应的多个马尔可夫模型，该马尔可夫模型可刻画出各训练簇中的所有历史查询会话之间的特性，故，可基于当前查询会话与历史查询会话之间的相似度来确定与当前查询会话匹配的第一训练簇。在确定出该第一训练簇后，可将当前查询会话划分至该第一训练簇中，在该第一训练簇中的查询会话的个数超过一定数目时，可通过马尔可夫决策过程再次对该第一训练簇中的所有查询会话对应的候选文档的排序过程进行建模，以实现对该第一训练簇对应的马尔可夫模型进行更新。

马尔可夫决策过程是一种随机动态系统的最优决策过程，对于某个决策问题创建一个系统代理(Agent)，以下简称系统，通过感知系统在环境中所处的状态并结合系统的策略(Policy)来确定下一步要采取的动作(Action)，并通过接收获得的反馈值(Reward)来更新系统参数。经过一次动作后，系统根据转移函数(Transition Function)从原状态转移到下一个状态。可以将对于某一特定查询会话对应的候选文档的排序过程建模为{S，A，T，R，π}五元组，从而实现对该查询会话对应的候选文档的排序过程建立马尔可夫模型的目的。

通过本实施例的候选文档排序方法，使用与当前查询会话匹配的训练簇对应的马尔可夫模型对与当前查询会话对应的候选文档进行排序，从而获得当前查询会话的候选文档的排序列表，能够确保选择与当前查询会话的关键词和/或候选文档相关的马尔可夫模型来对候选文档进行排序，使得候选文档的排序能够更加趋向于用户的查询期望。

在一种可实现方式中，在步骤102中，根据当前查询会话的数据以及历史查询会话的数据，确定多个训练簇中与当前查询会话匹配的第一训练簇可包括：确定当前查询会话与历史查询会话之间的相似度；在相似度中的最大相似度大于或等于第一阈值时，确定与最大相似度对应的历史查询会话所属的训练簇为与当前查询会话匹配的第一训练簇。其中，当前查询会话与历史查询会话之间的相似度可以是当前查询会话的查询关键词与历史会话的查询关键词之间的相似度，还可以是第一候选文档与第二候选文档之间的重叠率，还可以是第一候选文档与第二候选文档之间的相似度。此处以使用当使用当前查询会话的查询关键词与历史查询会话的查询关键词之间的相似度来确定当前查询会话与历史查询会话之间的相似度为例进行说明：可分别计算当前查询会话的关键词与各历史查询会话的关键词之间的相似度，得到多个相似度的值，在该多个相似度的值中最大的值大于或等于第一阈值时，确定该值所对应的历史查询会话所属的训练簇为与当前查询会话匹配的第一训练簇。其中，第一候选文档与第二候选文档之间的重叠率可以是第一候选文档中与第二候选文档中存在的相同文档之间的重叠率，第一候选文档以及第二候选文档之间的相似度将在后文中进行详细说明。

在一种可实现方式中，在步骤103中，根据与第一训练簇对应的马尔可夫模型，对第一候选文档进行排序处理，获得第一候选文档的排序列表可包括：根据与第一训练簇对应的马尔可夫模型，对第一候选文档进行预设次数的排序，获得多个候选排序列表；确定多个候选排序列表的全局回报值；将与确定得到的全局回报值中的最大全局回报值对应的候选排序列表确定为第一候选文档的排序列表。其中，对第一候选文档进行预设次数的排序可以是对第一候选文档进行预设次数的随机排序。该预设次数可由服务器进行设定，服务器可根据对最大全局回报值的精度需求来设置该次数，如果所需精度较高，则可为该次数设置一个较大的数值，例如50次，如果所需精度不高，则可为该次数设置一个较小的数值，例如10次。上述第一候选文档的排序列表中可按照第一候选文档的排序依次记录有第一候选文档的标识，例如，该排序列表为两列多行的表格，那么该表格的第一列可以记录有第一候选文档排序的序号，该表格的第二列则记录相应第一候选文档的标识。

在一种可实现方式中，可通过如下公式计算候选排序列表中的各候选文档的全局回报值；

其中，R(s_t,a_t)表示候选排序列表中第i个候选文档的全局回报值，t表示当前时间，L(d_i)表示候选排序列表中第i个候选文档d_i的相关性标注，s_t表示马尔可夫模型的五元组中的系统当前所处状态，a_t表示系统选择的动作，即，返回某一候选文档排序列表的动作，其中，文档的相关性标注例如可以包括该文档与某一关键词之间的相关性程度，二者之间的相关性程度可用百分比来表示，例如二者的相关性程度为90％。

根据候选排序列表中各候选文档的全局回报值计算候选文档列表的全局回报值。

在一种可实现方式中，可将各候选文档的全局回报值进行相加，得到候选文档排序列表的全局回报值。

在一种可实现方式中，候选文档排序方法还可包括，在根据当前查询会话的查询关键词，从数据库中获取与查询关键词匹配的第一候选文档之前，将历史查询会话中的第一个历史查询会话q₁划分至一个训练簇中；对于查询会话q₁之后的查询会话q_N，依次计算查询会话q_N与其之前1～N-1个历史查询会话之间的相似度，得到与查询会话q_N相似度最高的查询会话q_h，其中，N大于1，1≤h<N；如果查询会话q_N与查询会话q_h之间的相似度大于或等于第一阈值，则将查询会话q_N划分至查询会话q_h所属的训练簇中，否则，将查询会话q_N划分至一个新的训练簇中，直至划分得到的所有训练簇的总数大于或等于第二阈值，即可得到上述多个训练簇；利用马尔可夫决策过程分别对划分得到的各训练簇中的查询会话对应的第二候选文档的排序过程建立马尔可夫模型，得到与各训练簇对应的马尔可夫模型。例如，可使用中国餐馆过程来限制训练簇数量的上限。中国餐馆过程是一种典型的狄利克雷过程，能够用于确定上述训练簇的数目。对于中国餐馆过程的描述是，假设有一个拥有无限桌子的餐馆，第一个顾客随机选择其中一张桌子坐下，第二个顾客可以选择坐在第一张桌子上也可以选择坐在一张新的桌子上......每个顾客依次选择。直到所有的顾客都坐下来，这样相当于把顾客进行了一次聚类。每张桌子上只有一道菜肴，所以坐在同一张桌子的顾客具有相同口味爱好。这里可以将用于建模的训练簇看作中国餐馆过程中的桌子，它们具有无限的容量，每一个即将被处理的查询会话看作一个顾客。对于需要划分至新的训练簇的查询会话，该新训练簇被建立成功的概率可通过如下公式计算：

其中，r表示属于新的训练簇的查询会话，c表示查询会话的序号，q_c表示第c个查询会话，|B|表示每个训练簇中能包含的查询个数的上限，α为0，θ的值由以下公式确定：

在上式中，n表示查询会话的总数，k表示当前查询会话的序号，ψ(x)为Digamma函数，该函数为伽玛函数的对数的导数，E(R)表示划分训练簇结束之后系统中训练簇总数的期望值，该期望值即可为上述第二阈值的取值，此处将其设置为真实个数的两倍，从而限制了训练簇个数的无限增长，根据上式可以计算出唯一变量θ的值。

在一种可实现方式中，当前查询会话与历史查询会话之间的相似度至少可包括以下一种参数：两次查询会话的查询关键词的第一相似度、两次查询会话对应的候选文档之间的第二相似度以及两次查询会话对应的候选文档之间的重叠率。在确定两次查询会话之间的相似度时，可从以上三种参数中选择任意一种，也可选择任意两种，或同时选择三种参数进行确定，在选择任意一种参数时，可直接以该参数确定两次查询会话之间的相似度。例如，在选择两次查询会话的查询关键词来确定二者之间的相似度时，如果二者的查询关键词之间的相似度为60％，则确定两次查询会话之间的相似度为60％。在选择至少两种参数来确定二者之间的相似度时，可分别为各参数赋予不同的权重，在分别根据该至少两种参数确定出两次查询会话之间的至少两个相似度的值后，将该至少两个至值分别按照相应的权重进行加权求和，则可得到当前查询会话以及历史查询会话之间的相似度，例如，选择第一候选文档以及第二候选文档之间的相似度，以及第一候选文档以及第二候选文档之间的重叠率时，假设第一候选文档与第二候选文档之间的相似度为80％，第一候选文档与第二候选文档之间的相似度被赋予的权重为0.4，第一候选文档与第二候选文档之间的重叠率为70％，第一候选文档与第二候选文档之间的重叠率被赋予的权重为0.3，则第一候选文档与第二候选文档之间的相似度为0.8×0.4+0.7×0.3＝0.53。

在一种可实现方式中，候选文档排序方法还可包括：通过如下公式计算每两次查询会话对应的候选文档之间的相似度：

其中，DT表示采用两次查询会话对应的候选文档的文本作为计算内容，q_a和q_b分别表示两次不同的查询会话，sim^DT(q_a,q_b)表示q_a和q_b两次查询会话之间的相似度，V_ar为q_a查询会话返回的第r个文档的向量表示，V_bs为q_b查询会话返回的第s个文档的向量表示，e为q_a对应的候选文档的个数，f为q_b对应的候选文档的个数。例如，e的取值可以为10，f的取值同样可以为10，二者取值也可不同。为了提高文档排序过程中的计算效率，在上述步骤101之前，还可以将各候选文档预处理为分词流，将得到的分词流输入到词向量转化工具中，例如，Glove词向量转化工具，输出各候选文档对应的向量字典。对于各查询关键词以及候选文档中的每个词进行最大池化或平均化处理，可分别产生各查询关键词与各候选文档中各词的语义向量表示，后文也简称向量表示，这样，在后续需要使用查询关键词或候选文档中各词的向量表示来进行计算时，可直接利用处理好的各词的向量表示，无需再进行处理。

在一种可实现方式中，利用马尔可夫决策过程对划分得到的各训练簇中的查询会话中的第二候选文档的随机排序过程建立马尔可夫模型可包括：

将各训练簇中的查询会话中的第二候选文档的排序过程按照马尔可夫决策过程建模为{S，A，T，R，π}五元组；其中，S表示系统状态的集合，可用于描述系统当前所处的环境、A表示系统在对第二候选文档进行排序过程中的每一步可采取的动作集合、转移函数T(S，A)是通过响应t时刻的动作a_t将原状态S_t映射到新状态S_t+1的一个函数，R(S，A)表示一个文档排序列表的全局回报值，π(a|s)表示系统策略，可用于表示系统在状态s下采取各动作的概率分布，其中，a表示系统采取的动作，s表示系统的状态；

通过如下公式计算系统策略：

π(a_t|s_t；w)＝softmax(w^TV(d_i))；

其中，V(d_i)表示文档d_i的向量表示，w∈R^k表示系统参数，其中，R表示实数集，R^k表示k维的实数集，k的取值可根据实际情况进行设定，系统参数包括：各训练簇的权重参数；

通过以下公式更新各训练簇的权重参数：

▽_wJ(w)＝γ^tG_t▽_wlogπ_w(a_t|s_t；w)；

其中，J(w)表示一个查询会话抽样得到的所有候选文档排序的长期回报值的期望，γ表示折扣因子，该因子随时间t递减，G_t表示对候选文档进行的一次排序的长期收益值，▽_wlogπ_w(a_t|s_t；w)表示在t时刻系统参数w的梯度值。

在一种可实现方式中，在得到第一候选文档的排序列表后，还可对该列表中的第一候选文档与查询关键词之间的相关性进行评分，可使用如下公式进行评分：

score(d_i,q_k)＝W(q_k)^TV(d_i)；

其中，W(q_k)表示查询会话q_k所划分到的训练簇(即与查询会话q_k匹配的训练簇)的参数，V(d_i)表示文档d_i的向量表示。

在计算出列表中各第一候选文档的评分后，可对这些第一候选文档进行降序排序，得到第一候选文档的排序列表，输出该排序列表，可使用该排序列表对通过上述方法得到的第一候选文档排序列表进行评估，以评估上述方法的可靠性。

为了验证上述候选文档排序方法的有效性和可靠性，将上述候选文档排序方法与其他的一些系统进行性能测试比较，训练集和测试集数据比例大约为4：1，测试结果表明在一些现有的数据集上，将候选文本相似度作为两次查询会话之间的相似度，以及通过最大池化方式获得词向量的方式结合的方案中所得到的马尔可夫模型在MAP(Mean AveragePrecision，平均精度均值)和DCG(Discounted Cumulative Gain，折扣累积收益)等指标上比其他一些经典模型所得到的效果好。另外，检查两个数据集对应的最终训练簇的总数，都不超过100个，说明上述方法既能提高最终得到的候选文档的排序列表的相关性，也能较好地控制空间复杂度。由此可见，上述方法通过对于查询会话的语义聚类来检测用户在查询会话中查询意图的变化，以及通过中国餐馆过程来限制训练簇的个数，在每个训练簇中使用马尔可夫决策过程来对候选文档的排序过程进行建模，可使得得到的马尔可夫模型的结构以及参数较为简单，降低了算法的复杂度，同时也取得了比较好的性能和效果。

图2是根据一示例性实施例示出的一种候选文档排序装置的框图，如图2所示，该装置20可包括：

获取模块21，用于根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档；

确定模块22，用于根据所述当前查询会话的数据以及所述历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇，其中，所述历史查询会话包括在当前查询会话之前的多个查询会话，所述当前查询会话的数据至少包括：所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词，所述历史查询会话的数据至少包括：所述历史查询会话对应的第二候选文档以及所述历史查询会话的查询关键词；

排序模块23，用于根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表，其中，所述马尔可夫模型是利用马尔可夫决策过程对所述第二候选文档的排序过程进行建模得到的。

在一种可实现方式中，所述确定模块可包括：第一确定单元，用于根据所述当前查询会话的数据以及所述历史查询会话的数据确定所述当前查询会话与所述历史查询会话之间的相似度；第二确定单元，用于在所述相似度中的最大相似度大于或等于第一阈值时，确定与所述最大相似度对应的历史查询会话所属的所述训练簇为与所述当前查询会话匹配的第一训练簇。

在一种可实现方式中，所述排序模块可包括：根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行预设次数的排序，获得多个候选排序列表；确定所述多个候选排序列表的全局回报值；将与所述全局回报值中的最大全局回报值对应的候选排序列表确定为所述第一候选文档的排序列表。

在一种可实现方式中，所述排序模块可用于：通过如下公式计算候选排序列表中的候选文档的全局回报值；

在一种可实现方式中，所述装置还可包括：第一划分模块，用于在根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档的步骤之前，将所述历史查询会话中的第一个历史查询会话q₁划分至一个训练簇中；第一计算模块，用于对于查询会话q₁之后的查询会话q_N，依次计算查询会话q_N与其之前1～N-1个历史查询会话之间的相似度，得到与查询会话q_N相似度最高的查询会话q_h，其中，N大于1，1≤h<N；第二划分模块，用于如果查询会话q_N与查询会话q_h之间的相似度大于或等于第一阈值，则将查询会话q_N划分至查询会话q_h所属的训练簇中，否则，将查询会话q_N划分至一个新的训练簇中，直至划分得到的所有训练簇的总数大于或等于第二阈值；建立模块，用于利用马尔可夫决策过程分别对划分得到的各训练簇中的查询会话对应的所述第二候选文档的排序过程建立马尔可夫模型，得到与所述各训练簇对应的马尔可夫模型。

在一种可实现方式在，所述装置还可包括：第二计算模块，用于通过如下公式计算每两次查询会话对应的候选文档之间的相似度：

在一种可实现方式中，所述建立模块可用于：

将各所述训练簇中的查询会话中的所述第二候选文档的排序过程按照马尔可夫决策过程建模为{S，A，T，R，π}五元组；其中，S表示系统状态的集合、A表示系统在对所述第二候选文档进行排序过程中的每一步可采取的动作集合、转移函数T(S，A)是通过响应t时刻的动作a_t将原状态S_t映射到新状态S_t+1的一个函数，R(S，A)表示一个文档排序列表的全局回报值，π(a|s)表示系统策略，其中，a表示系统采取的动作，s表示系统的状态；通过如下公式计算系统策略：

π(a_t|s_t；w)＝softmax(w^TV(d_i))；

▽_wJ(w)＝γ^tG_t▽_wlogπ_w(a_t|s_t；w)；

其中，J(w)表示一个查询会话抽样得到的所有候选文档排序的长期回报值的期望，γ表示折扣因子，G_t表示对候选文档进行的一次排序的的长期收益值，▽_w logπ_w(a_t|s_t；w)表示在t时刻系统参数w的梯度值。

在一种可实现方式中，两次查询之间的相似度至少可包括以下一种：两次查询会话的查询关键词的第一相似度、两次查询会话对应的候选文档之间的第二相似度以及两次查询会话对应的候选文档之间的重叠率。

图3是根据一示例性实施例示出的一种候选文档排序装置的框图。例如，装置1900可以被提供为一服务器。参照图3，装置1900包括处理组件1922，其进一步包括一个或多个处理器，以及由存储器1932所代表的存储器资源，用于存储可由处理组件1922的执行的指令，例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件1922被配置为执行指令，以执行上述方法。

装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理，一个有线或无线网络接口1950被配置为将装置1900连接到网络，和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种非易失性计算机可读存储介质，例如包括计算机程序指令的存储器1932，上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。

本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种候选文档排序方法，其特征在于，包括：

根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档；

根据所述当前查询会话的数据以及历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇，其中，所述历史查询会话包括在当前查询会话之前的多个查询会话，所述当前查询会话的数据至少包括：所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词，所述历史查询会话的数据至少包括：所述历史查询会话对应的第二候选文档以及所述历史查询会话的查询关键词；

根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表，其中，所述马尔可夫模型是利用马尔可夫决策过程对所述第二候选文档的排序过程进行建模得到的。

2.根据权利要求1所述的方法，其特征在于，根据所述当前查询会话的数据以及历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇，包括：

根据所述当前查询会话的数据以及所述历史查询会话的数据确定所述当前查询会话与所述历史查询会话之间的相似度；

在所述相似度中的最大相似度大于或等于第一阈值时，确定与所述最大相似度对应的历史查询会话所属的所述训练簇为与所述当前查询会话匹配的第一训练簇。

3.根据权利要求1所述的方法，其特征在于，根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表，包括：

根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行预设次数的排序，获得多个候选排序列表；

确定所述多个候选排序列表的全局回报值；

将与所述全局回报值中的最大全局回报值对应的候选排序列表确定为所述第一候选文档的排序列表。

4.根据权利要求3所述的方法，其特征在于，通过如下公式计算候选排序列表中的各候选文档的全局回报值；

其中，R(s_t,a_t)表示候选排序列表中的候选文档的全局回报值，L(d_i)表示候选排序列表中第i个候选文档d_i的相关性标注，s_t表示马尔可夫模型的五元组中的系统当前所处状态，a_t表示所述系统选择的动作；

根据所述候选文档排序列表中各候选文档的全局回报值计算所述候选文档排序列表的全局回报值，

其中，t表示当前时间。

5.根据权利要求1所述的方法，其特征在于，根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档的步骤之前，所述方法还包括：

将所述历史查询会话中的第一个历史查询会话q₁划分至一个训练簇中；

对于查询会话q₁之后的查询会话q_N，依次计算查询会话q_N与其之前1～N-1个历史查询会话之间的相似度，得到与查询会话q_N相似度最高的查询会话q_h，其中，N大于1，1≤h<N；

如果查询会话q_N与查询会话q_h之间的相似度大于或等于第一阈值，则将查询会话q_N划分至查询会话q_h所属的训练簇中，否则，将查询会话q_N划分至一个新的训练簇中，直至划分得到的所有训练簇的总数大于或等于第二阈值；

利用马尔可夫决策过程分别对划分得到的各训练簇中的查询会话对应的所述第二候选文档的排序过程建立马尔可夫模型，得到与所述各训练簇对应的马尔可夫模型。

6.根据权利要求2或5所述的方法，其特征在于，所述方法还包括：

通过如下公式计算每两次查询会话对应的候选文档之间的相似度：

7.根据权利要求5所述的方法，其特征在于，利用马尔可夫决策过程对划分得到的各训练簇中的查询会话中的所述第二候选文档的随机排序过程建立马尔可夫模型包括：

将各所述训练簇中的查询会话中的所述第二候选文档的排序过程按照马尔可夫决策过程建模为{S，A，T，R，π}五元组；

其中，T为转移函数T(S，A)，S表示系统状态的集合、A表示系统在对所述第二候选文档进行排序过程中的每一步可采取的动作集合、所述转移函数T(S，A)是通过响应t时刻的动作a_t将原状态S_t映射到新状态S_t+1的一个函数，R为R(S，A)，R(S，A)表示一个文档排序列表的全局回报值，π为π(a|s)，π(a|s)表示系统策略，其中，a表示系统采取的动作，s表示系统的状态；

通过如下公式计算系统策略：

π(a_t|s_t；w)＝softmax(w^TV(d_i))；

其中，V(d_i)表示第i个文档d_i的向量表示，w∈R^k表示系统参数，R表示实数集，k>1，所述系统参数包括：各训练簇的权重参数；

通过以下公式更新所述各训练簇的权重参数：

▽_wJ(w)＝γ^tG_t▽_wlogπ_w(a_t|s_t；w)；

8.根据权利要求2或5所述的方法，其特征在于，所述相似度至少包括以下一种：

两次查询会话的查询关键词的第一相似度、两次查询会话对应的候选文档之间的第二相似度以及两次查询会话对应的候选文档之间的重叠率。

9.一种候选文档排序装置，其特征在于，包括：

获取模块，用于根据当前查询会话的查询关键词，从数据库中获取与所述查询关键词匹配的第一候选文档；

确定模块，用于根据所述当前查询会话的数据以及历史查询会话的数据，确定多个训练簇中与所述当前查询会话匹配的第一训练簇，其中，所述历史查询会话包括在当前查询会话之前的多个查询会话，所述当前查询会话的数据至少包括：所述当前查询会话对应的第一候选文档以及所述当前查询会话的查询关键词，所述历史查询会话的数据至少包括：所述历史查询会话对应的第二候选文档以及所述历史查询会话的查询关键词；

排序模块，用于根据与所述第一训练簇对应的马尔可夫模型，对所述第一候选文档进行排序处理，获得所述第一候选文档的排序列表，其中，所述马尔可夫模型是利用马尔可夫决策过程对所述第二候选文档的排序过程进行建模得到的。

10.根据权利要求9所述的装置，其特征在于，所述确定模块，包括：

第一确定单元，用于根据所述当前查询会话的数据以及所述历史查询会话的数据确定所述当前查询会话与所述历史查询会话之间的相似度；

第二确定单元，用于在所述相似度中的最大相似度大于或等于第一阈值时，确定与所述最大相似度对应的历史查询会话所属的所述训练簇为与所述当前查询会话匹配的第一训练簇。