CN111191413B

CN111191413B - 一种基于图排序模型的事件核心内容自动标记方法、装置及系统

Info

Publication number: CN111191413B
Application number: CN201911393738.8A
Authority: CN
Inventors: 李建欣; 毛乾任; 李倩; 钟盛海; 朱洪东; 李熙
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-11-12
Anticipated expiration: 2039-12-30
Also published as: CN111191413A

Abstract

本发明通过深度学习技术，针对新闻文本的要素标记问题设计了一种基于图排序模型的事件核心内容自动标记方法及应用该方法的设备和系统，该方法包括基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、事件核心句定位并输出标记文本三个基本步骤，对文本的核心句子和核心词进行标记，从而实现新闻文本标记过程中节约人工成本以及时间成本，节省资源的技术效果。

Description

一种基于图排序模型的事件核心内容自动标记方法、装置及系统

技术领域

本发明涉及人工智能领域，尤其涉及一种基于图排序模型的事件核心内容自动标记方法。

背景技术

随着互联网技术的发展，万维网上大量的文本信息飞速增长，现有的信息化时代对于新闻的阅读而言，亟需一种“浅阅读”的阅读体验，即用户阅读新闻的需求是碎片化的、概要式新闻内容。并且随着移动互联网设备的普及，移动设备端的屏幕对于新闻阅读的内容和展示也要求是碎片化的、概要式的。特别是对于一些社会事件的在媒体上报道内容的呈现需要展示出关键的信息，如时间、地点、人物、事件的影响等关键要素。目前针对事件这个角度对于事件的关键句抽取包括核心要素标记研究相对较少，基本处于人工编辑标记的方式，再用以展示给阅读用户。这种方式需要大量的人力物力，耗时且低效。

新闻作为一种以叙事为主的文体，它的基本要素和我们语文界常用的记叙文的六要素是一致的。新闻六要素为时间、地点、人物、事件的起因、经过、结果。即五个“W”和一个“H”即Who(何人)、What(何事)、When(何时)、Where(何地)、Why(何因)、How(如何)。对于新闻报道而言，目前没有一套自动化的方法与装置实现针对事件核心要素与事件重要内容的自动标记方法，而自动标记对于自动从新闻报道中提取事件的描述，并且事件描述的内容中实现对于事件关键信息的标记能够提升用于对于事件最直观的信息的捕捉，提升用于的体验。

发明内容

针对目前核心要素自动标记方法研究较少的问题，本发明进行深入研究，希望实现对新闻文本进行自动标记，减少标记过程中的人力成本，并降低时间开销。

为达到上述目的，本发明采用了下列技术方案：

一种基于图排序模型的事件核心内容自动标记方法，包括：

步骤一：基于句法依存树的事件关键要素抽取及核心词标记；

步骤二：核心事件构建；

步骤三：核心事件排序、核心句定位并输出标记文本。

步骤一包括：

从文本中按照事件要素定义，建立定义事件重要组成成分要素表格，其中包含：时间、地点、主体、客体、量词、触发词、情感词；

使用基于句法依存树的方法进行事件关键要素抽取，对于文本进行分句处理，利用LTP中文自然语言处理词法分析工具，进行分词和词性标注处理，判断句子中是否包含所述事件重要组成成分要素，如果包含则进一步进行句法依存分析和命名实体识别，抽取所述事件重要组成成分要素；

对核心词进行标记。

步骤二包括：

将核心事件定义为由中心事件和关系事件组成的事件，定义文本标题是中心事件，定义关系事件为关系事件数据库，所述关系事件数据库表格包含时序关系、因果关系、条件关系和目的关系四类关系；

在所述文本的句子中抽取关系词；

判断所述关系词类别；

将判断后的每个所述关系词对应的句子为关系事件，存储关系词和对应的所述关系事件，构建关系事件数据库内容。

步骤三包括：

基于Textrank算法对所述核心事件重要性排序；

应用MMR算法，对所述核心事件的冗余内容进行噪音去除与筛选；

对去冗余后的所述核心事件，根据对应的关系词定位句子所在的位置，并标记当前句子和关系词，输出标记文本。

所述核心事件重要性排序方法为构建以所述关系事件为顶点的图，所述关系事件之间有关系则构建边，应用Textrank算法获得每个顶点的权重；

所述核心事件去冗余方法为考虑标题与要素词之间的相似度，要素间的相似度，要素重要性排序以及要素词是否在核心事件句中四者综合因素，从而对核心事件去除冗余句子。

一种基于图排序模型的事件核心内容自动标记装置，包括：

信息输入模块，用于输入源文本；

事件核心内容自动标记模块，上述基于图排序模型的事件核心内容自动标记方法，对输入源文本进行标记；

信息输出模块，将自动生成的标记通过接口程序输出。

一种基于图排序模型的事件核心内容自动标记系统，所述系统包括至少一台服务器，以及与服务器连接的上述基于图排序模型的事件核心内容自动标记装置，所述服务器执行生成摘要过程时，通过所述基于图排序模型的事件核心内容自动标记装置执行上述的基于图排序模型的事件核心内容自动标记方法。

本发明相对于现有技术的优点在于：

1、本发明提出一套针对事件的关键句抽取与核心要素自动抽取与标记方式，基于图排序算法找到事件所在的关键句子，再进行事件核心要素抽取，并按照事件关系捕捉事件的发生发展情况。

2、针对事件的关键要素进行定义，从事件演化这个维度刻画事件，而事件演化通过定义事件之间的关系获得，从而自动从新闻报道中标记事件的关键信息。

附图说明

图1本发明技术方案的主流程图；

图2事件核心词标记；

图3关系事件结构图；

图4事件关系样例；

图5核心句和关系词标记效果图；

图6整体标注效果图；

图7输入文本内容。

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

参照说明书附图1-7，本实施例通过对于特定的文本，基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、核心句定位及标记，实现输出标记文本的技术效果。

具体而言其实现方式为：

基于说明书附图7中所示文本为例，通过基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、核心事件排序、核心句定位并输出标记文本三个步骤实现对图6所示标记文本的输出。

步骤一：基于句法依存树的事件关键要素抽取及核心词标记。事件关键要素抽取及标记方法的具体实现步骤是：

(1)事件要素定义。由于要对事件核心内容标记，不用对所有的核心词识别，而新闻中包含核心词种类多，因此定义事件重要组成成分包含：时间、地点、主体、客体、量词、触发词、情感词，针对本申请所使用新闻文本所定义的事件重要组成成分如表1，第一列是抽取的关键词类别，第二列是样例中抽取的该类别词。

表1

类别	示例值
		时间	8月份
地点	日本
		主体	微软
客体	员工
		量词	10万
触发词	试行
		情感词	有效

(2)事件要素抽取。使用基于句法依存树的方法进行事件关键要素抽取。对于每一篇新闻首先进行分句处理，然后利用词法分析工具，进行分词和词性标注处理，判断句子中是否包含事件重要组成成分，如果包含则进一步进行句法依存分析和命名实体识别，抽取事件要素。

(3)核心词标记。核心词的标记方式为字体标红，此处核心词为抽取的要素词，将抽取的要素词标红即可。

综上，是本发明的基于句法依存树的事件关键要素抽取及核心词标记方法，其中事件要素抽取标记结果如图2，图中加粗的词就是使用基于句法依存树的事件关键要素抽取方法抽取的核心词。

步骤二：核心事件构建。定义新闻的标题是中心事件，我们定义中心事件为新闻标题“微软日本上四休三”，核心事件是由中心事件和关系事件组成，因此，要构建核心事件库还需要建立关系事件库，其中关系事件的结构图见图3，将关系分为时序关系、因果关系、条件关系和目的关系四类。时序关系表示发生在中心事件前后的关系事件，定义发生在中心事件之前的事件为源事件，之后的事件为叶子事件；因果关系表示导致中心事件发生的原因和结果，定义致使中心事件发生的事件为起因事件，中心事件发生后导致发生的事件称为影响事件；条件关系表示发生中心事件并列因素，称该事件为条件事件；目的关系表示致性中心事件的目的，称为目的事件。核心事件构建的具体步骤如下：

(1)关系词抽取。通过找到事件句子之后，比如判定事件句子所在的时间先后来判定两个事件之间的先后关系，还如通过其他词典的方法筛选出关系词包括：此前、因为、造成、引起、致使、在...情况下、基于...、为了、使得、达到等来构成事件之间的关系，本实施例中我们使用基于Bi-LSTM的句子集级别Attention关系抽取模型抽取新闻中的关系词。

(2)关系词类别判定。关系词可以分为时序关系、因果关系、目的关系和条件关系四类，本发明在抽取到的事件关系词之后，用基于词典的方法进行人工校对关系类别。其中，时序关系包括当前事件发生前主客体的状态事件和事件发生后主客体的状态事件，其事件关系的关键词如使得，达到，在...情况下，还有事件的时间先后序列，因果关系包括事件的起因事件和影响事件。

(3)关系事件库构建。定义每个关系词对应的句子为关系事件，存储关系词和对应的关系事件构建关系事件数据库。

综上，是本发明的事件关系构造方法，其中事件关系样例见图4，识别出两个表时序关系的关系词，两个表示因果关系的词，一个表示条件关系的词和一个表示目的关系的词，关系词后是相应的事件。

步骤三：事件核心句定位及标记。步骤二中已有关系事件，但关系事件中仍有冗余事件，因此需要对关系事件使用基于图的排序Texrank算法去冗余。具体的步骤如下：

(1)核心事件排序。基于Textrank关系事件句重要性排序。首先构建图G＝(V,E),句子作为顶点，句子之间有关系则构建边；然后应用textrank算法或相似算法获得每个顶点的权重。TextRank的计算公式为：

WS是句子的重要性权重，d是阻尼系数，一般设置为0.85。In(V_i)是存在指向和句子i的有关的句子集合。Out(V_j)是句子j中的存在跟j有关的的句子的集合。|Out(V_j)|是集合中元素的个数。通过相似性算法，来定义句子的相关性，通过不断迭代计算各句子的权重，使得权重WS最终收敛。

(2)核心事件去冗余。在上述抽取片段内容组成的核心事件中，还存在部分冗余内容，我们需要对冗余内容进行噪音去除与筛选得到最后的核心事件。采用最大边界相关算法即MMR算法，通过考虑标题与要素词之间的相似度，核心要素间的相似度，要素重要性排序以及核心要素词是否在核心事件句中四者综合因素，从而对核心事件去除冗余句子。详细的算法公式如下：

MMR(Q,G_a,R)＝max_i∈R\S[α*score(i)+β*max_i∈S[similarity(T,i)]]

-(1-α-β)*max[similarity(i,j)]

其中，S为R集合中已经被选中的集合，R\S为R中未被选中的集合。，Q表示当前关系事件，Ga表示关系事件的集合，R表示已经得到的一个以相似度为基础的初始关系事件集合，T表示新闻的标题，S表示核心事件句。其中i,j表示第i个核心要素，第j个核心要素。score(i)计算的是核心要素的重要性分值，中间的计算是标题和要素之间的相似度，注意这里是正号，说明标题和要素之间的相似度越大且要素属于核心事件句，则该核心事件句越重要。右边的计算的是核心要素之间的相似度，注意这里的是负号，说明核心要素间的相似度越小越好。此处体现了MMR的算法原理，即均衡考虑了文章摘要的重要性和多样性。

(3)核心句定位和标记。去冗余后的核心事件句根据对应的关系词定位句子所在的位置，并标记当前句子和关系词，对文本予以输出，标记结果见图5，其中带波浪线的句子是核心句，加粗的词是关系词。

综上，经过基于句法依存树的事件关键要素抽取及核心词标记、核心事件构建、核心句定位及标记三步后，整体的输出标记结果见图6，其中带波浪线的句子是核心句，加粗的词是核心词，其中核心词有20个，核心句有7个。

Claims

1.一种基于图排序模型的事件核心内容自动标记方法，其特征在于：包括：

步骤一：基于句法依存树的事件关键要素抽取及核心词标记，具体包含建立定义事件重要组成成分要素表格和使用基于句法依存树的方法进行事件关键要素抽取步骤，所述建立定义事件重要组成成分要素表格步骤为：从文本中按照事件要素定义，建立定义事件重要组成成分要素表格，其中包含：时间、地点、主体、客体、量词、触发词、情感词；

步骤二：核心事件构建，包括定义核心事件，在所述文本的句子中抽取关系词，判断所述关系词类别和构建关系事件数据库内容步骤；所述定义核心事件步骤为：将核心事件定义为由中心事件和关系事件组成的事件，定义文本标题是中心事件，定义关系事件为关系事件数据库，所述关系事件数据库表格抽取的所述关系词包含时序关系、因果关系、条件关系和目的关系四类关系；所述构建关系事件数据库内容步骤为：将判断后的每个所述关系词对应的句子为关系事件，存储关系词和对应的所述关系事件，构建关系事件数据库内容；

步骤三：核心事件排序、核心句定位并输出标记文本；所述核心事件排序、核心句定位并输出标记文本步骤包括：基于Textrank算法对所述核心事件重要性排序，首先构建图G＝(V，E)，句子作为顶点，句子之间有关系则构建边；然后应用textrank算法或相似算法获得每个顶点的权重，TextRank的计算公式为：

WS是句子的重要性权重，w_ij表示句子i、j之间的权重，w_jk表示句子k、j之间的权重，d是阻尼系数，一般设置为0.85，In(V_i)是存在指向和句子i的有关的句子集合，Out(V_j)是句子j中的存在跟j有关的的句子的集合，|Out(V_j)|是集合中元素的个数；

应用MMR算法，采用如下公式：

MMR(Q，G_a，R)

＝max_i∈R\S[α*score(i)+β*max_i∈S[similarity(T，i)]]-(1-α-β)*max[similarity(i，j)]

其中，S为R集合中已经被选中的集合，S表示核心事件句，Q表示当前关系事件，G_a表示关系事件的集合，R表示已经得到的一个以相似度为基础的初始关系事件集合，T表示新闻的标题，其中i，j表示第i个核心要素，第j个核心要素，score(i)计算核心要素的重要性分值计算的是核心要素的重要性分值，对所述核心事件进行冗余内容进行噪音去除与筛选；

2.根据权利要求1所述的一种基于图排序模型的事件核心内容自动标记方法，其特征在于：所述使用基于句法依存树的方法进行事件关键要素抽取步骤为：对于文本进行分句处理，利用LTP中文自然语言处理分析工具，进行分词和词性标注处理，判断句子中是否包含所述事件重要组成成分要素，如果包含则进一步进行句法依存分析和命名实体识别，抽取所述事件重要组成成分要素；

对抽取的事件重要组成成分核心词在原文中进行自动标记。

3.根据权利要求2所述的一种基于图排序模型的事件核心内容自动标记方法，其特征在于：所述自动标记方法为加粗。

4.根据权利要求3所述的一种基于图排序模型的事件核心内容自动标记方法，其特征在于：

5.一种基于图排序模型的事件核心内容自动标记装置，其特征在于：包括：

信息输入模块，用于输入源文本；

事件核心内容自动标记模块，应用权利要求1-4中任一所述基于图排序模型的事件核心内容自动标记方法，对输入源文本进行标记；

信息输出模块，将自动生成的标记通过接口程序输出。

6.一种基于图排序模型的事件核心内容自动标记系统，其特征在于：

所述系统包括至少一台服务器，以及与服务器连接的如权利要求5所述的基于图排序模型的事件核心内容自动标记装置，所述服务器执行生成摘要过程时，通过所述基于图排序模型的事件核心内容自动标记装置执行权利要求1-4中任一所述的基于图排序模型的事件核心内容自动标记方法。