CN103646112B

CN103646112B - 利用了网络搜索的依存句法的领域自适应方法

Info

Publication number: CN103646112B
Application number: CN201310729563.XA
Authority: CN
Inventors: 周光有; 赵军
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2017-01-18
Anticipated expiration: 2033-12-26
Also published as: CN103646112A

Abstract

一种利用了网络搜索的依存句法领域自适应方法，包括：构建基于K‑Best的候选依存句法树重排序模型，用一个基准模型来产生一组候选依存句法分析树，其中，每一个候选依存句法分析树对应一个概率，从而定义了多个依存句法分析结果的初始序列，在此序列的基础上，重排序模型试图利用目标领域新增的句法特征来改进初始的句法树序列；进行基于网络搜索的候选依存句法树的词语依存关系评估，首先需要将一棵依存句法树拆分为一组词语关系的集合，对于集合中的每一个词语语义关系，利用网络搜索，分别计算该词语语义关系的强度，然后根据词语关系的权重来确定其评估值。经过实验证明，在宾州中文树库上训练的依存句法器，在生物医学数据上也表现出了良好的性能。

Description

利用了网络搜索的依存句法的领域自适应方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及利用了网络搜索的依存句法的领域自适应方法。

背景技术

句法分析是自然语言处理中的基础研究问题，对机器翻译、问答系统、信息抽取等应用都起到重要的支撑作用。依存句法以其形式简洁、易于标注、便于应用等优点而倍受重视。近年来，依存句法分析的研究取得了较大进展。目前，最好的依存句法分析器(有时，也称为“依存句法分析模型”)对英文的依存句法分析的准确率已经达到了90％以上，对中文的依存句法分析的准确率也达到了80％以上。但是，这仅仅是在受限领域，比如新闻领域上所能实现的性能。而在依赖于句法分析的上层应用中，往往面临的是要面对不受限领域的数据如何进行依存句法分析。依存句法分析方面的国际权威学者Slav Petrov等人在EMNLP2010上发表论文指出，依存句法分析器MaltParser在华尔街日报(WSJ)上的无标记依存正确率(Unlabeled Accuracy Score，UAS)为84.89％，当用该依存句法分析器MaltParser来处理TREC的列表性和事实类问句时，该依存句法分析器的UAS将降至62.81％。此外，2012年，Google(注册商标：谷歌)公司组织的SANCL评测“Parsing the Web：网页分析”中的一个关键任务就是利用大量未标注的数据来改善依存句法分析器在不同领域的分析性能。但是，根据评测结果，该依存句法分析器的领域自适应结果并不是很理想。因此，研究领域自适应的依存句法分析以提高依存句法分析器在不同领域上的性能，是自然语言处理及其相关应用中迫切需要解决的问题之一。

领域自适应的依存句法分析器主要需面对以下的两种应用情形，一种是目标领域数据是具有有限的带标注的有限带标注数据，另一种是目标领域数据是没有任何带标注的无标注数据。通常，第二种情形更为普遍、在对其的领域自适应的依存句法分析的难度也更大，是领域自适应技术研究的难点，也是本发明的重点。

在此，将制作依存句法分析器时原本所要针对的领域称为源领域。目标领域数据与源领域数据的不同之处主要在于：目标领域数据中存在大量新的领域词语、新搭配方式、新用法，因此，对这些新增的特征的学习是自适应技术的主要任务。这些新增的特征可以通过协同训练(co-training)和自训练(self-training)来学习得到一部分特征，但是，无论是co-training还是self-training，它们都是以一种自举的方式来学习这些新增特征，这种自举的方式对新增特征在自学习方面能力不足。因此，需要引入新的方式来进一步充分地挖掘获得新特征。

发明内容

本发明是基于上述现有技术中所存在的问题而开发的，主要针对目标领域没有任何带标注数据或仅具有有限标注的有限带标注数据的依存句法分析领域自适应的情形，以网络搜索为手段来挖掘目标领域的新特征，通过实验证明，能够有效地提高依存句法分析器在目标领域的依存句法分析性能。

本发明的目的在于，提供一种利用了网络搜索的依存句法领域自适应方法。

本发明的一技术方案的利用了网络搜索的依存句法领域自适应方法，包括：训练得到基准依存句法分析模型的步骤(S1)，对于给定的源领域带标注的数据，通过训练得到对数线性的基准依存句法分析模型L；获取候选依存句法树的步骤(S2)，对于目标领域X＝{x₁，x₂，…，x_n}中的未标注数据集合的每一个未标注数据x_i，利用基准依存句法分析模型L，输出对应于未标注数据x_i的K个最优候选依存句法树作为输出结果，将所述输出结果表示为一组候选依存句法树的形式，设x_ik表示未标注数据x_i的第k棵候选依存句法树，其中，n是大于等于1的整数，K是大于等于1的整数，1≤i≤n，1≤k≤K；获取候选依存句法树的评估值的步骤(S3)，对于所述获取候选依存句法树的步骤(S2)中输出的每一棵候选依存句法树x_ik，基于基准依存句法分析模型L，获得每一棵候选依存句法树x_ik的评估值，将对该评估值进行归一化得到的归一化评估值记为L(x_ik)；通过网络搜索获取特征向量值的步骤(S4)，将每一棵候选依存句法树x_ik拆分为一组词语语义关系的集合F＝{f₁，f₂，…，f_J}，以集合中的每一个词语语义关系f_j为特征，通过网络搜索计算得到该词语语义关系f_j的强度f_j(x_ik)，即该特征的特征向量值，其中J是大于等于1的整数，1≤j≤J；和构建重排序模型的步骤(S5)：设重排序目标函数为其中α₀表示与由基准依存句法分析模型L得到的评估值L(x_ik)对应的权重，α_j表示第j个特征对应的权重，是所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数，选出重排序目标函数最大的候选依存句法树。

本发明的基本思想是充分利用网络搜索功能，根据词语组合的语义合理性对候选依存句法树进行重排序，从而筛选出可信度好的自动标注句子来组成训练集合。网络搜索巨大的规模、包含各种语言现象、广泛存在的冗余性以及方便的搜索功能，为从网络中提取需要的特征信息以用于依存句法分析提供了一种新的途径。本发明构建了一种基于词语间的词语语义关系的候选依存句法树重排序模型。该模型的输入是目标领域的句子的K-Best棵候选依存句法树。

根据本发明，能够有效地提高依存句法分析器在目标领域的依存句法分析性能。

附图说明

图1是表示本发明中依存句法分析的输入结构的图。

图2是本发明中依存句法分析中的11种典型结构的图。

图3是表示本发明中一个候选依存句法树的例子的图。

具体实施方式

利用了网络搜索的依存句法领域自适应方法可以分为基于词语语义关系的候选依存句法树重排序模型和基于网络搜索的候选依存句法树合理性评估的候选依存句法树重排序模型两个模块。

基于词语语义关系的候选依存句法树重排序模型与传统重排序模型的整体框架是基本一致的。不同之处在于，传统的重排序模型是采用有监督的学习机制，基于词语语义关系的候选依存句法树重排序模型需要将树库资源作为学习过程中对每棵候选依存句法树进行评估的依据。而本发明面向领域自适应的重排序任务，没有树库资源作为学习依据，取得代之的是无监督的评估机制，将每棵候选依存句法树转化为一组词语语义依存元组的形式，然后利用网络搜索方法从互联网上寻求对每个词语语义依存元组的合理性评估，进而获得整棵依存句法树的语义依存合理性评估。

基于网络搜索的候选依存句法树合理性评估模块通过判断一棵依存句法树对应的词语语义关系是否存在错误、错误的严重程度，来判断这棵依存句法树的正确度。一个句子的语义是由词语、词语关系表达出来的。为了判断一棵候选依存句法树句子的语义合理性，首先需要将一棵依存句法树拆分为一组词语关系的集合。

以下，参照附图对本发明的实施方式进行详细说明。

图1是表示依存句法分析的输入结构的一个示例的图。如图1所示，示出了一棵依存句法树的示例，图1的第1列表示原始句子中每一个词语的序号，对于每一个句子，从序号1开始，分别表示与各词语对应的序号；第2列表示原始句子的词形或标点符号；第3列表示每一个词的词干；第4列和第5列均表示每一个词的词性标记，这依赖于不同语言的词性标记集合；第6列表示句法上或形态上的特征，该特征有多个时，可用‘|’分隔开，且没有顺序上的限定，在图中省略其表示；第7列表示修饰词对应的中心词的序号，当为“0”时，表示该词是句子的根节点；第8列表示该修饰词与其中心词之间的依存关系，其中，NMOD表示名词修饰关系，即中心词h的词性是名词，修饰词的词性为任意词性；SUB表示主语修饰关系，即中心词h的词性是动词，修饰词的词性为名词；第9列表示修饰词对应的中心词的序号，在图中省略其表示；第10列表示依存关系类型，每一行的各个部分可用制表符‘\t’分隔开，在图中省略其表示。

首先，利用通过源领域中的带标注数据所训练得到的依存句法分析器，自动地对目标领域的未标注数据进行分析，对于每个句子都输出K—Best棵候选依存句法树。然后，将每个候选依存句法树转化为由词语组合所表示的句子语义表示形式，将这些词语组合分别送入搜索引擎，由搜索引擎对这些词语组合进行搜索，进而根据这些词语组合搜索出的检索计数来计算出候选依存句法树的语义合理性，根据语义合理性，对候选依存句法树进行重排序，从重排序的候选依存句法树中，选出最佳依存句法树与源领域带标注数据一起组成训练数据，用于支持目标领域依存句法分析的针对目标领域的领域自适应。

本发明采用利用了网络搜索的方法来提升依存句法分析在目标领域的性能。一个句子的语义是由词语、词语间关系表达出来的。为了判断一棵候选依存句法树的句子的语义合理性，首先需要将一棵依存句法树拆分成一组词语关系的集合。

图3是表示本发明中一个候选依存句法树的例子的图。

例如，如图3所示，可以将该依存句法树拆分成：{<外资，企业>，<企业，成为>，<外资，增长点>，<重要，增长点>，<增长点，成为>}的集合。然后采用基于搜索引擎的hitcounts(检索计数)的互信息方法(其中，互信息是指两个事件集合之间的相关性，关于该方法的具体定义，请参考文献：宗成庆，统计自然语言处理(第二版)，清华大学出版社。)来分析每一个词语元组的合理性，合理的依存句法树可以转化为合理的词语语义关系，而错误的依存句法树将转化为混乱的词语语义关系。利用网络搜索的手段，来对候选依存句法树进行评估并获得合理的重排序。

图2是本发明的依存句法分析中的11种典型结构的图(关于该11种结构的具体说明，请参考文献：Covington，M.A.A fundamental algorithm for dependencyparsing.Proceedings of the 39th Annual ACM Southeast Conference，pp.95-102，2001.)。本发明将依据图2所示的11种典型结构以及依存句法类型，分析确定出每种依存结构对应的词语依存关系，然后根据词语关系的权重以及该词语依存在依存句法树中的位置以及依存句法类型确定其评估值。

本发明利用网络搜索方法来分析每一个词语元组是否合理并进行评估。关于具体评估方式，采用基于搜索引擎的hit counts的互信息方法。

下面，详细说明本发明的技术方案中所涉及的各个细节问题。

1 基于词语语义关系的候选依存句法树重排序模型

对于给定的源领域带标注的数据，可以训练得到一个对数线性的基准依存句法分析模型L。

设给定目标领域不带标注的数据集合X＝{x₁，x₂，…，x_n}，对于目标领域X中的每一个未标注数据x_i(1≤i≤n)，利用基准依存句法分析模型L，输出对应的K个最优(K-Best)结果，设x_ik表示未标注数据x_i的第k棵候选依存句法树，其中1≤k≤K，n是大于等于1的整数，K是大于等于1的整数。

本发明将候选依存句法树表示为一组依存句法树的特征形式，即F＝{f₁，f₂，…，f_J}，其中f_j表示第j个特征，f_j(x_ik)表示与候选依存句法树x_ik的第j个特征对应的特征向量值，也称为“特征值”，该特征向量值可由网络搜索的方法计算得到。

对于候选依存句法树x_ik，通过基准依存句法分析会得到一个评估值，将该评估值进行归一化处理，并将该评估值记为L(x_ik)。于是，可以定义如下的重排序目标函数：

F (x_{i k}, \overset{&OverBar;}{α}) = α_{0} L (x_{i k}) + Σ_{j = 1}^{J} α_{j} f_{j} (x_{i k})

其中，J表示特征向量的总数目，α₀表示与由基准依存句法分析器得到的评估值L(x_ik)对应的权重，α_j表示第j个特征对应的权重，J是大于等于1的整数，1≤j≤J。对于给定的一个新的测试句子，利用基准依存句法分析模型L来得到K棵候选依存句法树，然后，对每一棵候选依存句法树进行重排序目标函数的计算，将与具有最大重排序目标函数对应的候选依存句法树作为输出结果，即，

F (x_{i}) = \underset{k = 1 ... K}{m a x} F (x_{i k}, \overset{&OverBar;}{α})

从以上过程可以看出，核心问题是重排序目标函数的设计——本发明基于网络搜索对依存句法树的语义合理性进行评估。设计了重排序目标函数后，可以通过优化重排序目标函数，来找到一组对应这些特征和对数似然的权值向量。其中，参数α的训练可以通过Generalized Iterative Scaling 算法(参考文献：Berger Adam L.and Stephen A.DellaPietra，and Vicient J.Della Pietra.A Maximum Entropy Approach to naturalLanguage Processing，Computational Linguistics，22(1)：39-71)来得到。

2 基于网络搜索的候选依存句法树合理性评估模块

一个句子的语义是由词语、词语关系表达出来的。为了判断一棵候选依存句法树句子的语义合理性，首先需要将一棵候选依存句法树拆分为一组词语关系的集合。对于给定的句法候选，将候选依存句法树x_ik转化成一系列词语的二元组合关系<m，h>，其中，m表示修饰词，h表示m的父节点(或者称为“中心词”)。

图3是表示本发明中一个候选依存句法树的示例的图，其中NN，VV，JJ表示词性标记，NN表示名词，VV表示动词，JJ表示形容词；带箭头的弧线表示依存关系，箭头指向词语是修饰词，弧线的起始指的是中心词，弧线上的表示指的是依存关系的类型，如NMOD；依存关系类型NMOD表示名词修饰关系，OBJ表示宾语修饰关系，ROOT表示根节点的修饰关系；$表示依存树的根节点。

如图3所示，可以将该候选依存句法树转化拆分为“<外资，企业>、<企业，成为>、<外贸，增长点>”等二元组，其中二元组“<外资，企业>”中，“外资”表示修饰词，“企业”是“外资”的中心词。采用如下公式来计算词语间的语义关联强度：

A s s o c (< m, h >) = \underset{h &Element; i n F l (h)}{Σ} A (< m, h >)

其中，inFl(h)表示h的各种形态变化，比如，中心词为“friend”，其各种形态包括“friend”、“friends”、“friendly”等的多种形态变化，A(<m，h>)是一个实数值。为了计算出A(<m，h>)，本发明采用相对熵来度量修饰词和其中心词(节点)之间的关联强度：

A (< m, h >) = \frac{1}{Z (m)} \Pr (h | m) \frac{\log (P r (h | m))}{P r (m)}

其中，z(m)表示归一化因子，Pr(h|m)表示修饰词m与中心词h之间存在关联的概率，Pr(m)表示修饰词m出现的概率。

用相对熵来衡量两者的近似程度，若近似程度越大，说明中心词h与修饰词m间的独立性越强；近似程度越小，说明中心词h与修饰词m间的独立性越弱，也就意味着两者的关联程度越强。

为了估计上述概率，利用了网络搜索，将“<m，h>”二元组作为查询的关键词输入到搜索引擎中，进行网络搜索。接着，利用搜索引擎进行搜索出的检索计数信息来估计概率：

\Pr (h | m) = \frac{h i t s (m, h)}{h i t s (m)}

\Pr (m) = \frac{h i t s (m)}{N}

其中，hits(m，h)表示搜索引擎所返回的二元组“<m，h>”的检索计数，hits(m)表示搜索引擎所返回的一元组“<m>”的检索计数，N例如可近似估计成Google等的搜索引擎索引的网页的总词语量。

在本发明中，特征向量值f_j(x_ik)表示词语语义关联强度，可以用Assoc(<m，h>)计算得到。特征向量值f_j(x_ik)包括以下几类：

(1)名词选择关联向量值：通过下述式计算得到，即，在修饰词m是名词(NN)，它的中心词h是名词(NN)或者动词(VV)的情况下，词语关系的特征向量值f_j(x_ik)为：

f_{j} (x_{i k}) = \underset{m &Element; N N, h &Element; V V, < m, h > &Element; x_{i k}}{Σ} A s s o c (< m, h >);

(2)介词选择关联向量值：通过下述式计算得到，即，在修饰词m是介词(PP)，它的中心词是h是动词(VV)或名词(NN)的情况下，词语关系的特征向量值f_j(x_ik)为：

f_{j} (x_{i k}) = \underset{m &Element; P P, h &Element; V V | N N, < m, h > &Element; x_{i k}}{Σ} A s s o c (< m, h >);

(3)并列结果选择关联向量值：通过下述式计算得到，即，在修饰词m是并列连词(CC)，它的中心词h是动词(VV)、名词(NN)或形容词(JJ)，词语关系的特征向量值f_j(x_ik)为：

f_{j} (x_{i k}) = \underset{m &Element; C C, h &Element; V V | N N | J J, < m, h > &Element; x_{i k}}{Σ} A s s o c (< m, h >);

(4)形容词选择关联向量值：通过下述式计算得到，即，在修饰词m是形容词(JJ)，它的中心词h是名词(NN)，词语关系的特征向量值f_j(x_ik)为：

f_{j} (x_{i k}) = \underset{m &Element; J J, h &Element; N N, < m, h > &Element; x_{i k}}{Σ} A s s o c (< m, h >) .

3 实验结果

为了说明该利用了网络搜索的依存句法领域自适应方法的有效性，通过实验来验证本发明的性能。本发明的源领域数据采用宾州中文树库(CHTB)5.0版，该树库共有50万词，大部分取材于新华社新闻、Sinorama新闻杂志以及香港新闻。宾州中文树库是短语结构树库(即，短语类型和语法功能联合标注的树库)，为了将短语结构转化为依存句法结构树库，需要采用抽取短语中心词的规则，本发明中，采用【Zhang and Clark，2008】在EMNLP上发表的论文“A tale of two parsers：investigating and combining graph-based andtransition-based dependency parsing using beam-search”报告的一系列抽取短语中心词的规则(例如，对于副词短语ADJP，其对应的规则为：rADJP JJ AD；r，这里r表示从右开始规约，具体实现方法可参考该论文)。目标领域的数据采用生物医学领域10万词，该数据来自于中国大百科全书出版社，是人工建立的依存句法树库，作为评测数据。

评测的指标主要例如有带标记的依存正确率(LabeledAccuracy Score，LAS)、无标记的依存正确率(Unlabeled Accuracy Score，UAS)、根正确率(Root Accuracy，RA)和完全匹配率(Complete Match，CM)。

为了证明本发明的性能，采用的软件环境是4G内存，Intel Core 2.5GHz CPU的PC，JAVA编程语言。

选用有代表性的基于监督重排序方法boosting(boosting算法是一种把若干个分类器整合为一个分类器的方法，具体参考文献：Freund，Yoav and Yoav and RobertE.Schapire and Yoram Singer.A decision-theoretic generalization of on-linelearning and an application to boosting.Journal of Computer and SystemSciences，55(1)：119-139，1997)为基准系统，比较本发明的利用了网络搜索的候选依存句法领域自适应方法(也称为“Web Ranking”：网页排序)的性能。表1是表示基准系统与本发明方法的性能之间对比。

(表1)

评价指标	Boosting	Web Ranking
			LAS	0.62	0.67(↑5％)
UAS	0.65	0.73(↑8％)
			RA	0.77	0.86(↑9％)
CM	0.19	0.22(↑3％)

如表1所示，Boosting表示传统的基于有监督的依存句法重排序模型，WebRanking表示利用了网络搜索的依存句法领域自适应方法，LAS、UAS、RA和CM分别是依存句法分析性能的常用评价指标。根据表1的对比，可以得知，通过利用本发明的方法，可以使依存句法分析在目标领域上得到明显的提升，其中，带标记的依存正确率提升了5％，无标记的依存正确率提升了8％，根正确率提升了9％，完全匹配率提升了3％。因此，实验结果证明，本发明可以有效地提高依存句法分析在目标领域上的性能。

Claims

1.一种利用了网络搜索的依存句法领域自适应方法，包括：

训练得到基准依存句法分析模型的步骤(S1)，对于给定的源领域带标注的数据，通过训练得到对数线性的基准依存句法分析模型L；

获取候选依存句法树的步骤(S2)，对于目标领域X＝{x₁，x₂，…，x_n}中的未标注数据集合的每一个未标注数据x_i，利用基准依存句法分析模型L，输出对应于未标注数据x_i的K个最优候选依存句法树作为输出结果，将所述输出结果表示为一组候选依存句法树的形式，设x_ik表示未标注数据x_i的第k棵候选依存句法树，其中，n是大于等于1的整数，K是大于等于1的整数，1≤i≤n，1≤k≤K；

获取候选依存句法树的评估值的步骤(S3)，对于所述获取候选依存句法树的步骤(S2)中输出的每一棵候选依存句法树x_ik，基于基准依存句法分析模型L，获得每一棵候选依存句法树x_ik的评估值，将对该评估值进行归一化得到的归一化评估值记为L(x_ik)；

通过网络搜索获取特征向量值的步骤(S4)，将每一棵候选依存句法树x_ik拆分为一组词语语义关系的集合F＝{f₁，f₂，…，f_J}，以集合中的每一个词语语义关系f_j为特征，通过网络搜索计算得到该词语语义关系f_j的强度f_j(x_ik)，即该特征的特征向量值，其中J是大于等于1的整数，1≤j≤J；和

构建重排序模型的步骤(S5)：设重排序目标函数为其中α₀表示与由基准依存句法分析模型L得到的评估值L(x_ik)对应的权重，α_j表示第j个特征对应的权重，是所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数，选出重排序目标函数最大的候选依存句法树。

2.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法，其特征在于，

将每一棵候选依存句法树x_ik拆分为一组词语语义关系的集合F＝{f₁，f₂，…，f_J}，所述未标注数据的一个句子的语义是由词语、词语关系表达出来的。

3.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法，其特征在于，

所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数通过广义迭代缩放算法得到。

4.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法，其特征在于，

所述特征向量值f_j(x_ik)的计算采用网络搜索对特征进行搜索来进行，特征向量值f_j(x_ik)包括名词选择关联向量值、介词选择关联向量值、并列结果选择向量值、和形容词选择关联向量值，其中，

所述名词选择关联向量值通过下述式计算得到，即，在修饰词m是名词(NN)，它的中心词h是名词(NN)或者动词(VV)的情况下，词语关系的特征向量值f_j(x_ik)为：

所述介词选择关联向量值通过下述式计算得到，即，在修饰词m是介词(PP)，它的中心词h是动词(VV)或名词(NN)的情况下，词语关系的特征向量值f_j(x_ik)为：

所述并列结果选择关联向量值通过下述式计算得到，即，在修饰词m是并列连词(CC)，它的中心词h是动词(VV)、名词(NN)或形容词(JJ)，词语关系的特征向量值f_j(x_ik)为：

所述形容词选择关联向量值通过下述式计算得到，即，在修饰词m是形容词(JJ)，它的中心词h是名词(NN)，词语关系的特征向量值f_j(x_ik)为：

。

5.根据权利要求4所述的利用了网络搜索的依存句法领域自适应方法，其特征在于，

修饰词m和其对应的中心词h的语义关联度通过如下方式计算：

其中，inFl(h)表示中心词h的各种形态变化，Assoc(＜m，h＞)表示修饰词m和其对应的中心词h的语义关联度，

A(＜m，h＞)是一个实数值，采用下述式的相对熵来度量修饰词m和其中心词h的节点间的关联强度：

6.根据权利要求5所述的利用了网络搜索的依存句法领域自适应方法，其特征在于，

对于所述概率的估计，采用网络搜索，将修饰词m与中心词h的组合“<m，h>”二元组作为查询的关键词，利用搜索引擎进行搜索出的检索计数信息来估计该概率：

其中，hits(m，h)表示利用搜索引擎进行搜索所返回的二元组“<m，h>”所被搜索到的检索计数，hits(m)表示利用搜索引擎进行搜索所返回的一元组“<m>”所被搜索到的检索计数，N近似估计为利用搜索引擎进行搜索所得到的网页索引的总词语量。