CN103646112B - 利用了网络搜索的依存句法的领域自适应方法 - Google Patents
利用了网络搜索的依存句法的领域自适应方法 Download PDFInfo
- Publication number
- CN103646112B CN103646112B CN201310729563.XA CN201310729563A CN103646112B CN 103646112 B CN103646112 B CN 103646112B CN 201310729563 A CN201310729563 A CN 201310729563A CN 103646112 B CN103646112 B CN 103646112B
- Authority
- CN
- China
- Prior art keywords
- word
- candidate
- dependency syntax
- dependency
- vector value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000011156 evaluation Methods 0.000 claims abstract description 27
- 230000001419 dependent effect Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 35
- 238000004458 analytical method Methods 0.000 claims description 27
- 239000003607 modifier Substances 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 15
- 230000006978 adaptation Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000004660 morphological change Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000002349 favourable effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种利用了网络搜索的依存句法领域自适应方法,包括:构建基于K‑Best的候选依存句法树重排序模型,用一个基准模型来产生一组候选依存句法分析树,其中,每一个候选依存句法分析树对应一个概率,从而定义了多个依存句法分析结果的初始序列,在此序列的基础上,重排序模型试图利用目标领域新增的句法特征来改进初始的句法树序列;进行基于网络搜索的候选依存句法树的词语依存关系评估,首先需要将一棵依存句法树拆分为一组词语关系的集合,对于集合中的每一个词语语义关系,利用网络搜索,分别计算该词语语义关系的强度,然后根据词语关系的权重来确定其评估值。经过实验证明,在宾州中文树库上训练的依存句法器,在生物医学数据上也表现出了良好的性能。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及利用了网络搜索的依存句法的领域自适应方法。
背景技术
句法分析是自然语言处理中的基础研究问题,对机器翻译、问答系统、信息抽取等应用都起到重要的支撑作用。依存句法以其形式简洁、易于标注、便于应用等优点而倍受重视。近年来,依存句法分析的研究取得了较大进展。目前,最好的依存句法分析器(有时,也称为“依存句法分析模型”)对英文的依存句法分析的准确率已经达到了90%以上,对中文的依存句法分析的准确率也达到了80%以上。但是,这仅仅是在受限领域,比如新闻领域上所能实现的性能。而在依赖于句法分析的上层应用中,往往面临的是要面对不受限领域的数据如何进行依存句法分析。依存句法分析方面的国际权威学者Slav Petrov等人在EMNLP2010上发表论文指出,依存句法分析器MaltParser在华尔街日报(WSJ)上的无标记依存正确率(Unlabeled Accuracy Score,UAS)为84.89%,当用该依存句法分析器MaltParser来处理TREC的列表性和事实类问句时,该依存句法分析器的UAS将降至62.81%。此外,2012年,Google(注册商标:谷歌)公司组织的SANCL评测“Parsing the Web:网页分析”中的一个关键任务就是利用大量未标注的数据来改善依存句法分析器在不同领域的分析性能。但是,根据评测结果,该依存句法分析器的领域自适应结果并不是很理想。因此,研究领域自适应的依存句法分析以提高依存句法分析器在不同领域上的性能,是自然语言处理及其相关应用中迫切需要解决的问题之一。
领域自适应的依存句法分析器主要需面对以下的两种应用情形,一种是目标领域数据是具有有限的带标注的有限带标注数据,另一种是目标领域数据是没有任何带标注的无标注数据。通常,第二种情形更为普遍、在对其的领域自适应的依存句法分析的难度也更大,是领域自适应技术研究的难点,也是本发明的重点。
在此,将制作依存句法分析器时原本所要针对的领域称为源领域。目标领域数据与源领域数据的不同之处主要在于:目标领域数据中存在大量新的领域词语、新搭配方式、新用法,因此,对这些新增的特征的学习是自适应技术的主要任务。这些新增的特征可以通过协同训练(co-training)和自训练(self-training)来学习得到一部分特征,但是,无论是co-training还是self-training,它们都是以一种自举的方式来学习这些新增特征,这种自举的方式对新增特征在自学习方面能力不足。因此,需要引入新的方式来进一步充分地挖掘获得新特征。
发明内容
本发明是基于上述现有技术中所存在的问题而开发的,主要针对目标领域没有任何带标注数据或仅具有有限标注的有限带标注数据的依存句法分析领域自适应的情形,以网络搜索为手段来挖掘目标领域的新特征,通过实验证明,能够有效地提高依存句法分析器在目标领域的依存句法分析性能。
本发明的目的在于,提供一种利用了网络搜索的依存句法领域自适应方法。
本发明的一技术方案的利用了网络搜索的依存句法领域自适应方法,包括:训练得到基准依存句法分析模型的步骤(S1),对于给定的源领域带标注的数据,通过训练得到对数线性的基准依存句法分析模型L;获取候选依存句法树的步骤(S2),对于目标领域X={x1,x2,…,xn}中的未标注数据集合的每一个未标注数据xi,利用基准依存句法分析模型L,输出对应于未标注数据xi的K个最优候选依存句法树作为输出结果,将所述输出结果表示为一组候选依存句法树的形式,设xik表示未标注数据xi的第k棵候选依存句法树,其中,n是大于等于1的整数,K是大于等于1的整数,1≤i≤n,1≤k≤K;获取候选依存句法树的评估值的步骤(S3),对于所述获取候选依存句法树的步骤(S2)中输出的每一棵候选依存句法树xik,基于基准依存句法分析模型L,获得每一棵候选依存句法树xik的评估值,将对该评估值进行归一化得到的归一化评估值记为L(xik);通过网络搜索获取特征向量值的步骤(S4),将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},以集合中的每一个词语语义关系fj为特征,通过网络搜索计算得到该词语语义关系fj的强度fj(xik),即该特征的特征向量值,其中J是大于等于1的整数,1≤j≤J;和构建重排序模型的步骤(S5):设重排序目标函数为其中α0表示与由基准依存句法分析模型L得到的评估值L(xik)对应的权重,αj表示第j个特征对应的权重,是所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数,选出重排序目标函数最大的候选依存句法树。
本发明的基本思想是充分利用网络搜索功能,根据词语组合的语义合理性对候选依存句法树进行重排序,从而筛选出可信度好的自动标注句子来组成训练集合。网络搜索巨大的规模、包含各种语言现象、广泛存在的冗余性以及方便的搜索功能,为从网络中提取需要的特征信息以用于依存句法分析提供了一种新的途径。本发明构建了一种基于词语间的词语语义关系的候选依存句法树重排序模型。该模型的输入是目标领域的句子的K-Best棵候选依存句法树。
根据本发明,能够有效地提高依存句法分析器在目标领域的依存句法分析性能。
附图说明
图1是表示本发明中依存句法分析的输入结构的图。
图2是本发明中依存句法分析中的11种典型结构的图。
图3是表示本发明中一个候选依存句法树的例子的图。
具体实施方式
利用了网络搜索的依存句法领域自适应方法可以分为基于词语语义关系的候选依存句法树重排序模型和基于网络搜索的候选依存句法树合理性评估的候选依存句法树重排序模型两个模块。
基于词语语义关系的候选依存句法树重排序模型与传统重排序模型的整体框架是基本一致的。不同之处在于,传统的重排序模型是采用有监督的学习机制,基于词语语义关系的候选依存句法树重排序模型需要将树库资源作为学习过程中对每棵候选依存句法树进行评估的依据。而本发明面向领域自适应的重排序任务,没有树库资源作为学习依据,取得代之的是无监督的评估机制,将每棵候选依存句法树转化为一组词语语义依存元组的形式,然后利用网络搜索方法从互联网上寻求对每个词语语义依存元组的合理性评估,进而获得整棵依存句法树的语义依存合理性评估。
基于网络搜索的候选依存句法树合理性评估模块通过判断一棵依存句法树对应的词语语义关系是否存在错误、错误的严重程度,来判断这棵依存句法树的正确度。一个句子的语义是由词语、词语关系表达出来的。为了判断一棵候选依存句法树句子的语义合理性,首先需要将一棵依存句法树拆分为一组词语关系的集合。
以下,参照附图对本发明的实施方式进行详细说明。
图1是表示依存句法分析的输入结构的一个示例的图。如图1所示,示出了一棵依存句法树的示例,图1的第1列表示原始句子中每一个词语的序号,对于每一个句子,从序号1开始,分别表示与各词语对应的序号;第2列表示原始句子的词形或标点符号;第3列表示每一个词的词干;第4列和第5列均表示每一个词的词性标记,这依赖于不同语言的词性标记集合;第6列表示句法上或形态上的特征,该特征有多个时,可用‘|’分隔开,且没有顺序上的限定,在图中省略其表示;第7列表示修饰词对应的中心词的序号,当为“0”时,表示该词是句子的根节点;第8列表示该修饰词与其中心词之间的依存关系,其中,NMOD表示名词修饰关系,即中心词h的词性是名词,修饰词的词性为任意词性;SUB表示主语修饰关系,即中心词h的词性是动词,修饰词的词性为名词;第9列表示修饰词对应的中心词的序号,在图中省略其表示;第10列表示依存关系类型,每一行的各个部分可用制表符‘\t’分隔开,在图中省略其表示。
首先,利用通过源领域中的带标注数据所训练得到的依存句法分析器,自动地对目标领域的未标注数据进行分析,对于每个句子都输出K—Best棵候选依存句法树。然后,将每个候选依存句法树转化为由词语组合所表示的句子语义表示形式,将这些词语组合分别送入搜索引擎,由搜索引擎对这些词语组合进行搜索,进而根据这些词语组合搜索出的检索计数来计算出候选依存句法树的语义合理性,根据语义合理性,对候选依存句法树进行重排序,从重排序的候选依存句法树中,选出最佳依存句法树与源领域带标注数据一起组成训练数据,用于支持目标领域依存句法分析的针对目标领域的领域自适应。
本发明采用利用了网络搜索的方法来提升依存句法分析在目标领域的性能。一个句子的语义是由词语、词语间关系表达出来的。为了判断一棵候选依存句法树的句子的语义合理性,首先需要将一棵依存句法树拆分成一组词语关系的集合。
图3是表示本发明中一个候选依存句法树的例子的图。
例如,如图3所示,可以将该依存句法树拆分成:{<外资,企业>,<企业,成为>,<外资,增长点>,<重要,增长点>,<增长点,成为>}的集合。然后采用基于搜索引擎的hitcounts(检索计数)的互信息方法(其中,互信息是指两个事件集合之间的相关性,关于该方法的具体定义,请参考文献:宗成庆,统计自然语言处理(第二版),清华大学出版社。)来分析每一个词语元组的合理性,合理的依存句法树可以转化为合理的词语语义关系,而错误的依存句法树将转化为混乱的词语语义关系。利用网络搜索的手段,来对候选依存句法树进行评估并获得合理的重排序。
图2是本发明的依存句法分析中的11种典型结构的图(关于该11种结构的具体说明,请参考文献:Covington,M.A.A fundamental algorithm for dependencyparsing.Proceedings of the 39th Annual ACM Southeast Conference,pp.95-102,2001.)。本发明将依据图2所示的11种典型结构以及依存句法类型,分析确定出每种依存结构对应的词语依存关系,然后根据词语关系的权重以及该词语依存在依存句法树中的位置以及依存句法类型确定其评估值。
本发明利用网络搜索方法来分析每一个词语元组是否合理并进行评估。关于具体评估方式,采用基于搜索引擎的hit counts的互信息方法。
下面,详细说明本发明的技术方案中所涉及的各个细节问题。
1 基于词语语义关系的候选依存句法树重排序模型
对于给定的源领域带标注的数据,可以训练得到一个对数线性的基准依存句法分析模型L。
设给定目标领域不带标注的数据集合X={x1,x2,…,xn},对于目标领域X中的每一个未标注数据xi(1≤i≤n),利用基准依存句法分析模型L,输出对应的K个最优(K-Best)结果,设xik表示未标注数据xi的第k棵候选依存句法树,其中1≤k≤K,n是大于等于1的整数,K是大于等于1的整数。
本发明将候选依存句法树表示为一组依存句法树的特征形式,即F={f1,f2,…,fJ},其中fj表示第j个特征,fj(xik)表示与候选依存句法树xik的第j个特征对应的特征向量值,也称为“特征值”,该特征向量值可由网络搜索的方法计算得到。
对于候选依存句法树xik,通过基准依存句法分析会得到一个评估值,将该评估值进行归一化处理,并将该评估值记为L(xik)。于是,可以定义如下的重排序目标函数:
其中,J表示特征向量的总数目,α0表示与由基准依存句法分析器得到的评估值L(xik)对应的权重,αj表示第j个特征对应的权重,J是大于等于1的整数,1≤j≤J。对于给定的一个新的测试句子,利用基准依存句法分析模型L来得到K棵候选依存句法树,然后,对每一棵候选依存句法树进行重排序目标函数的计算,将与具有最大重排序目标函数对应的候选依存句法树作为输出结果,即,
从以上过程可以看出,核心问题是重排序目标函数的设计——本发明基于网络搜索对依存句法树的语义合理性进行评估。设计了重排序目标函数后,可以通过优化重排序目标函数,来找到一组对应这些特征和对数似然的权值向量。其中,参数α的训练可以通过Generalized Iterative Scaling 算法(参考文献:Berger Adam L.and Stephen A.DellaPietra,and Vicient J.Della Pietra.A Maximum Entropy Approach to naturalLanguage Processing,Computational Linguistics,22(1):39-71)来得到。
2 基于网络搜索的候选依存句法树合理性评估模块
一个句子的语义是由词语、词语关系表达出来的。为了判断一棵候选依存句法树句子的语义合理性,首先需要将一棵候选依存句法树拆分为一组词语关系的集合。对于给定的句法候选,将候选依存句法树xik转化成一系列词语的二元组合关系<m,h>,其中,m表示修饰词,h表示m的父节点(或者称为“中心词”)。
图3是表示本发明中一个候选依存句法树的示例的图,其中NN,VV,JJ表示词性标记,NN表示名词,VV表示动词,JJ表示形容词;带箭头的弧线表示依存关系,箭头指向词语是修饰词,弧线的起始指的是中心词,弧线上的表示指的是依存关系的类型,如NMOD;依存关系类型NMOD表示名词修饰关系,OBJ表示宾语修饰关系,ROOT表示根节点的修饰关系;$表示依存树的根节点。
如图3所示,可以将该候选依存句法树转化拆分为“<外资,企业>、<企业,成为>、<外贸,增长点>”等二元组,其中二元组“<外资,企业>”中,“外资”表示修饰词,“企业”是“外资”的中心词。采用如下公式来计算词语间的语义关联强度:
其中,inFl(h)表示h的各种形态变化,比如,中心词为“friend”,其各种形态包括“friend”、“friends”、“friendly”等的多种形态变化,A(<m,h>)是一个实数值。为了计算出A(<m,h>),本发明采用相对熵来度量修饰词和其中心词(节点)之间的关联强度:
其中,z(m)表示归一化因子,Pr(h|m)表示修饰词m与中心词h之间存在关联的概率,Pr(m)表示修饰词m出现的概率。
用相对熵来衡量两者的近似程度,若近似程度越大,说明中心词h与修饰词m间的独立性越强;近似程度越小,说明中心词h与修饰词m间的独立性越弱,也就意味着两者的关联程度越强。
为了估计上述概率,利用了网络搜索,将“<m,h>”二元组作为查询的关键词输入到搜索引擎中,进行网络搜索。接着,利用搜索引擎进行搜索出的检索计数信息来估计概率:
其中,hits(m,h)表示搜索引擎所返回的二元组“<m,h>”的检索计数,hits(m)表示搜索引擎所返回的一元组“<m>”的检索计数,N例如可近似估计成Google等的搜索引擎索引的网页的总词语量。
在本发明中,特征向量值fj(xik)表示词语语义关联强度,可以用Assoc(<m,h>)计算得到。特征向量值fj(xik)包括以下几类:
(1)名词选择关联向量值:通过下述式计算得到,即,在修饰词m是名词(NN),它的中心词h是名词(NN)或者动词(VV)的情况下,词语关系的特征向量值fj(xik)为:
(2)介词选择关联向量值:通过下述式计算得到,即,在修饰词m是介词(PP),它的中心词是h是动词(VV)或名词(NN)的情况下,词语关系的特征向量值fj(xik)为:
(3)并列结果选择关联向量值:通过下述式计算得到,即,在修饰词m是并列连词(CC),它的中心词h是动词(VV)、名词(NN)或形容词(JJ),词语关系的特征向量值fj(xik)为:
(4)形容词选择关联向量值:通过下述式计算得到,即,在修饰词m是形容词(JJ),它的中心词h是名词(NN),词语关系的特征向量值fj(xik)为:
3 实验结果
为了说明该利用了网络搜索的依存句法领域自适应方法的有效性,通过实验来验证本发明的性能。本发明的源领域数据采用宾州中文树库(CHTB)5.0版,该树库共有50万词,大部分取材于新华社新闻、Sinorama新闻杂志以及香港新闻。宾州中文树库是短语结构树库(即,短语类型和语法功能联合标注的树库),为了将短语结构转化为依存句法结构树库,需要采用抽取短语中心词的规则,本发明中,采用【Zhang and Clark,2008】在EMNLP上发表的论文“A tale of two parsers:investigating and combining graph-based andtransition-based dependency parsing using beam-search”报告的一系列抽取短语中心词的规则(例如,对于副词短语ADJP,其对应的规则为:rADJP JJ AD;r,这里r表示从右开始规约,具体实现方法可参考该论文)。目标领域的数据采用生物医学领域10万词,该数据来自于中国大百科全书出版社,是人工建立的依存句法树库,作为评测数据。
评测的指标主要例如有带标记的依存正确率(LabeledAccuracy Score,LAS)、无标记的依存正确率(Unlabeled Accuracy Score,UAS)、根正确率(Root Accuracy,RA)和完全匹配率(Complete Match,CM)。
为了证明本发明的性能,采用的软件环境是4G内存,Intel Core 2.5GHz CPU的PC,JAVA编程语言。
选用有代表性的基于监督重排序方法boosting(boosting算法是一种把若干个分类器整合为一个分类器的方法,具体参考文献:Freund,Yoav and Yoav and RobertE.Schapire and Yoram Singer.A decision-theoretic generalization of on-linelearning and an application to boosting.Journal of Computer and SystemSciences,55(1):119-139,1997)为基准系统,比较本发明的利用了网络搜索的候选依存句法领域自适应方法(也称为“Web Ranking”:网页排序)的性能。表1是表示基准系统与本发明方法的性能之间对比。
(表1)
评价指标 | Boosting | Web Ranking |
LAS | 0.62 | 0.67(↑5%) |
UAS | 0.65 | 0.73(↑8%) |
RA | 0.77 | 0.86(↑9%) |
CM | 0.19 | 0.22(↑3%) |
如表1所示,Boosting表示传统的基于有监督的依存句法重排序模型,WebRanking表示利用了网络搜索的依存句法领域自适应方法,LAS、UAS、RA和CM分别是依存句法分析性能的常用评价指标。根据表1的对比,可以得知,通过利用本发明的方法,可以使依存句法分析在目标领域上得到明显的提升,其中,带标记的依存正确率提升了5%,无标记的依存正确率提升了8%,根正确率提升了9%,完全匹配率提升了3%。因此,实验结果证明,本发明可以有效地提高依存句法分析在目标领域上的性能。
Claims (6)
1.一种利用了网络搜索的依存句法领域自适应方法,包括:
训练得到基准依存句法分析模型的步骤(S1),对于给定的源领域带标注的数据,通过训练得到对数线性的基准依存句法分析模型L;
获取候选依存句法树的步骤(S2),对于目标领域X={x1,x2,…,xn}中的未标注数据集合的每一个未标注数据xi,利用基准依存句法分析模型L,输出对应于未标注数据xi的K个最优候选依存句法树作为输出结果,将所述输出结果表示为一组候选依存句法树的形式,设xik表示未标注数据xi的第k棵候选依存句法树,其中,n是大于等于1的整数,K是大于等于1的整数,1≤i≤n,1≤k≤K;
获取候选依存句法树的评估值的步骤(S3),对于所述获取候选依存句法树的步骤(S2)中输出的每一棵候选依存句法树xik,基于基准依存句法分析模型L,获得每一棵候选依存句法树xik的评估值,将对该评估值进行归一化得到的归一化评估值记为L(xik);
通过网络搜索获取特征向量值的步骤(S4),将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},以集合中的每一个词语语义关系fj为特征,通过网络搜索计算得到该词语语义关系fj的强度fj(xik),即该特征的特征向量值,其中J是大于等于1的整数,1≤j≤J;和
构建重排序模型的步骤(S5):设重排序目标函数为 其中α0表示与由基准依存句法分析模型L得 到的评估值L(xik)对应的权重,αj表示第j个特征对应的权重,是所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数,选出重排序目标函数最大的候选依存句法树。
2.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},所述未标注数据的一个句子的语义是由词语、词语关系表达出来的。
3.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数通过广义迭代缩放算法得到。
4.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
所述特征向量值fj(xik)的计算采用网络搜索对特征进行搜索来进行,特征向量值fj(xik)包括名词选择关联向量值、介词选择关联向量值、并列结果选择向量值、和形容词选择关联向量值,其中,
所述名词选择关联向量值通过下述式计算得到,即,在修饰词m是名词(NN),它的中心词h是名词(NN)或者动词(VV)的情况下,词语关系的特征向量值fj(xik)为:
所述介词选择关联向量值通过下述式计算得到,即,在修饰词m是介 词(PP),它的中心词h是动词(VV)或名词(NN)的情况下,词语关系的特征向量值fj(xik)为:
所述并列结果选择关联向量值通过下述式计算得到,即,在修饰词m是并列连词(CC),它的中心词h是动词(VV)、名词(NN)或形容词(JJ),词语关系的特征向量值fj(xik)为:
所述形容词选择关联向量值通过下述式计算得到,即,在修饰词m是形容词(JJ),它的中心词h是名词(NN),词语关系的特征向量值fj(xik)为:
。
5.根据权利要求4所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
修饰词m和其对应的中心词h的语义关联度通过如下方式计算:
其中,inFl(h)表示中心词h的各种形态变化,Assoc(<m,h>)表示修饰词m和其对应的中心词h的语义关联度,
A(<m,h>)是一个实数值,采用下述式的相对熵来度量修饰词m和其中心词h的节点间的关联强度:
其中,Z(m)表示归一化因子,Pr(h|m)表示修饰词m与中心词h之间 存在关联的概率,Pr(m)表示修饰词m出现的概率。
6.根据权利要求5所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,
对于所述概率的估计,采用网络搜索,将修饰词m与中心词h的组合“<m,h>”二元组作为查询的关键词,利用搜索引擎进行搜索出的检索计数信息来估计该概率:
其中,hits(m,h)表示利用搜索引擎进行搜索所返回的二元组“<m,h>”所被搜索到的检索计数,hits(m)表示利用搜索引擎进行搜索所返回的一元组“<m>”所被搜索到的检索计数,N近似估计为利用搜索引擎进行搜索所得到的网页索引的总词语量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310729563.XA CN103646112B (zh) | 2013-12-26 | 2013-12-26 | 利用了网络搜索的依存句法的领域自适应方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310729563.XA CN103646112B (zh) | 2013-12-26 | 2013-12-26 | 利用了网络搜索的依存句法的领域自适应方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103646112A CN103646112A (zh) | 2014-03-19 |
CN103646112B true CN103646112B (zh) | 2017-01-18 |
Family
ID=50251325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310729563.XA Active CN103646112B (zh) | 2013-12-26 | 2013-12-26 | 利用了网络搜索的依存句法的领域自适应方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103646112B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108845992B (zh) * | 2015-10-30 | 2022-08-26 | 上海智臻智能网络科技股份有限公司 | 计算机可读存储介质及问答交互方法 |
CN105955956B (zh) * | 2016-05-05 | 2019-01-22 | 中国科学院自动化研究所 | 一种汉语隐式篇章关系识别方法 |
CN108536665A (zh) * | 2017-03-02 | 2018-09-14 | 腾讯科技(深圳)有限公司 | 一种确定语句一致性的方法及装置 |
CN107491534B (zh) | 2017-08-22 | 2020-11-20 | 北京百度网讯科技有限公司 | 信息处理方法和装置 |
CN109828981B (zh) * | 2017-11-22 | 2023-05-23 | 阿里巴巴集团控股有限公司 | 一种数据处理方法及计算设备 |
CN107766332A (zh) * | 2017-11-27 | 2018-03-06 | 北京深知无限人工智能科技有限公司 | 一种语言模板构建方法及装置 |
CN107918607B (zh) * | 2017-12-02 | 2020-05-08 | 北京工业大学 | 一种基于语义信息的数字档案查询与排序方法 |
CN110555205B (zh) * | 2018-05-31 | 2024-04-19 | 北京京东尚科信息技术有限公司 | 否定语义识别方法及装置、电子设备、存储介质 |
CN109992651B (zh) * | 2019-03-14 | 2024-01-02 | 广州智语信息科技有限公司 | 一种问题目标特征自动识别和抽取方法 |
CN110309513B (zh) * | 2019-07-09 | 2023-07-25 | 北京金山数字娱乐科技有限公司 | 一种文本依存分析的方法和装置 |
CN113065351B (zh) * | 2020-01-02 | 2024-06-25 | 阿里巴巴集团控股有限公司 | 中心词提取模型生成方法及装置和中心词提取方法及装置 |
CN112784576B (zh) * | 2021-01-13 | 2022-07-29 | 哈尔滨工程大学 | 一种文本依存句法分析方法 |
CN113505828A (zh) * | 2021-07-08 | 2021-10-15 | 上海艾爵斯信息科技有限公司 | 多源信息融合的分词方法、装置和设备 |
CN114611463B (zh) * | 2022-05-10 | 2022-09-13 | 天津大学 | 一种面向依存分析的众包标注方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708098A (zh) * | 2012-05-30 | 2012-10-03 | 中国科学院自动化研究所 | 一种基于依存连贯性约束的双语词语自动对齐方法 |
CN102844758A (zh) * | 2010-03-26 | 2012-12-26 | 乐天株式会社 | 检索系统、检索方法、检索程序以及记录介质 |
-
2013
- 2013-12-26 CN CN201310729563.XA patent/CN103646112B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102844758A (zh) * | 2010-03-26 | 2012-12-26 | 乐天株式会社 | 检索系统、检索方法、检索程序以及记录介质 |
CN102708098A (zh) * | 2012-05-30 | 2012-10-03 | 中国科学院自动化研究所 | 一种基于依存连贯性约束的双语词语自动对齐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103646112A (zh) | 2014-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
Moratanch et al. | A survey on abstractive text summarization | |
US8751218B2 (en) | Indexing content at semantic level | |
Demir et al. | Improving named entity recognition for morphologically rich languages using word embeddings | |
Ptaszynski et al. | Language combinatorics: A sentence pattern extraction architecture based on combinatorial explosion | |
Vicient et al. | An automatic approach for ontology-based feature extraction from heterogeneous textualresources | |
US9720962B2 (en) | Answering superlative questions with a question and answer system | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Pandey et al. | An unsupervised Hindi stemmer with heuristic improvements | |
US20220180317A1 (en) | Linguistic analysis of seed documents and peer groups | |
Alyami et al. | Systematic literature review of Arabic aspect-based sentiment analysis | |
CN110705285B (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
Khan et al. | A clustering framework for lexical normalization of Roman Urdu | |
Barteld et al. | Token-based spelling variant detection in Middle Low German texts | |
Vaishnavi et al. | Paraphrase identification in short texts using grammar patterns | |
Wu et al. | The CRFs-based Chinese open entity relation extraction | |
Minkov et al. | Adaptive graph walk-based similarity measures for parsed text | |
Subha et al. | Ontology extraction and semantic ranking of unambiguous requirements | |
Baishya et al. | Present state and future scope of Assamese text processing | |
Saneifar et al. | From terminology extraction to terminology validation: an approach adapted to log files | |
US20230162031A1 (en) | Method and system for training neural network for generating search string | |
US11928427B2 (en) | Linguistic analysis of seed documents and peer groups | |
Le-Hong et al. | Vietnamese semantic role labelling | |
Kahlawi | An ontology-driven DBpedia quality enhancement to support Entity Annotation for Arabic Text | |
Mazaitis et al. | A tale of two entity linking and discovery systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |