CN109408806A - 一种基于英文语法规则的事件提取方法 - Google Patents
一种基于英文语法规则的事件提取方法 Download PDFInfo
- Publication number
- CN109408806A CN109408806A CN201811055217.7A CN201811055217A CN109408806A CN 109408806 A CN109408806 A CN 109408806A CN 201811055217 A CN201811055217 A CN 201811055217A CN 109408806 A CN109408806 A CN 109408806A
- Authority
- CN
- China
- Prior art keywords
- event
- english
- news
- information
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004821 distillation Methods 0.000 title claims abstract description 29
- 239000000284 extract Substances 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 33
- 238000003058 natural language processing Methods 0.000 claims description 8
- 230000002860 competitive effect Effects 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 claims description 4
- 101100371857 Caenorhabditis elegans unc-71 gene Proteins 0.000 claims description 3
- 101000796953 Homo sapiens Protein ADM2 Proteins 0.000 claims description 3
- 102100032586 Protein ADM2 Human genes 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010408 sweeping Methods 0.000 description 2
- VLCQZHSMCYCDJL-UHFFFAOYSA-N tribenuron methyl Chemical compound COC(=O)C1=CC=CC=C1S(=O)(=O)NC(=O)N(C)C1=NC(C)=NC(OC)=N1 VLCQZHSMCYCDJL-UHFFFAOYSA-N 0.000 description 2
- 241001608644 Hippoboscidae Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于英文语法规则的事件提取方法,解决了目前英文政治领域事件提取要素少,准确率低的问题。本方法为:从国内外重要的英文新闻媒体采集新闻网页,并提取新闻文本及相关新闻数据信息;对英文新闻进行分句、过滤,得到所需的政治新闻数据;从非结构化的政治新闻中提取结构化的事件信息,包括发起者、承受者、事件性质、时间、地点等要素,并对这些要素进行编码,存储到数据库中。本发明能够从海量新闻数据中提取政治类新闻的结构化事件信息,实现事件的快速检测与发现,用于开展国家间关系分析和预测。
Description
技术领域
本发明涉及英文自然语言处理技术领域的英文事件抽取技术,特别是一种基于英文语法规则的事件提取方法。
背景技术
事件抽取是信息抽取中最复杂的任务,也是近年来自然语言处理领域的一个研究热点。事件抽取的目的是将无结构化文本中人们感兴趣的事件以及事件所涉及到的时间、地点、人物等元素准确地抽取出来,并以结构化的形式存储下来,以供自动文摘、自动问答、信息检索、舆情监控、话题检测等自然语言处理上层技术使用。事件抽取一般都需要预先指定事件类型,然后或基于机器学习方法,或基于模式匹配方法识别事件类型和事件元素。
在计算机领域,ACE定义的事件抽取任务包含以下两类问题:
1.事件类别识别:事件模板由事件的类别决定。ACE2005定义了8种事件类别以及33种子类别。每种事件类别/子类别(简称为“事件类别”)对应着唯一的事件模板。
2.事件元素识别:事件元素是指事件的参与者。根据所属的事件模板,抽取相应的元素,并为其标上正确的元素标签。
事件抽取主要有两种方法:模式匹配的方法和机器学习的方法。模式匹配的方法是指对于某类事件的识别和抽取是在一些模式的指导下进行的,采用各种模式匹配算法将待抽取的句子和已经抽出的模板匹配。
在国际政治领域,PETRARCH项目是KEDS项目中的一个英文事件系统。 PETRARCH项目的前身是TABARI程序,虽然PETRARCH的代码库是全新的,但该系统仍使用一些TABARI字典的修改版本。该系统的事件类型基于CAMEO事件分类体系,同时该项目仅支持发起者、承受者、事件类型三类要素抽取。由于该系统是基于浅层语义解析的结果进行模板匹配,当模板处于Surface-Level,PETRARCH不考虑语义联系,容易造成参与者识别错误。
BBN Serif是美国雷神公司的一款信息处理产品,具备强大的、多语言的实体分类、关系提取、事件提取功能,是ICEWS项目的基石,是目前国际政治领域已知性能最好的事件抽取系统。BBN Serif事件抽取系统事件类型同样基于CAMEO事件分类体系。该系统支持五大类要素,共19类属性抽取。
由于事件抽取严重依赖于其前续环节(如实体识别、句法和依存分析等),且事件结构建立在语义而非语法基础上,导致了目前事件抽取系统的性能较低。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于英文语法规则的事件提取方法。
为了解决上述技术问题,本发明公开了一种基于英文语法规则的事件提取方法,从英文新闻文章中识政治领域的事件,并进行相关要素的抽取,包括以下步骤:
(1)从国外重要的英文新闻网站采集新闻信息,包括新闻的正文、标题、时间、作者、转发来源、版块信息、正文图片地址等网页要素。
(2)读取英文新闻数据原始文本,对数据进行预处理,包括英文文章分句、过滤。
(3)对预处理后的英文事件数据进行命名实体识别,抽取出新闻数据的时间、地点、组织机构等信息。
(4)对文章中的句子进行事件抽取,提取事件类型、参与者等初始信息。
(5)对事件要素进行补全,提取事件发起者、承受者、发生地、时间、地理信息。
本发明中,对英文新闻数据的原始文本进行分句和过滤。利用正则表达式对英文新闻的文章、段落、句子进行过滤,可过滤掉体育赛事报道、广告信息等不需要的新闻数据,保留需要提取的新闻事件信息。
本发明中,对英文新闻每一句进行分词、词性标注和实体识别,以提高事件提取的准确率,实体定义为:
标签 | 含义 |
LOCATION | 地点 |
PERSON | 人物 |
OAGANIZATION | 组织 |
MISC | 其他 |
本发明中,根据语法规则提取初始事件要素信息。事件类型的提取通过核心动词的匹配来实现,首先需要构建动词编码,通过动词编码来构建事件模板库,如动词“发表意见”、“声明”、“呼吁”对应到事件类型“公开声明”。参与者信息通过字典匹配与实体匹配完成。
本发明中,使用斯坦福自然语言处理工具CoreNLP对英文新闻进行英文语法解析,包括分词、词性标注和实体识别。
本发明中,对英文事件抽取要素进行补全。通过Crf模型提取事件要素的详细信息,包括事件的发起者,承受者、发生地、时间、地理信息等。
本发明中,对参与者、地理等事件提取要素进行编码。参与者不一定都属于某个国家,对于国内参与者与国际参与者其角色类型也存在很大区分。因此,拟根据属于单一国家还是跨国分为国内角色和国际间角色两部分,对其分别设计编码。地理编码即对事件发生地点的地理信息进行编码,地理信息主要包括地点全称、地点的ADM1 编码(其所属一级行政区划的编码)、地点的ADM2编码(其所属二级行政区划的编码)、所属国家编码(Alpha2国家代码)、经度、纬度。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。
图1是根据本发明一种基于英文语法规则的事件提取方法的算法流程图。
具体实施方式
本发明公开了一种基于英文语法规则的事件提取方法,解决了目前英文政治领域事件提取要素少,准确率低的问题。本方法为:从国内外重要的英文新闻媒体采集新闻网页,并提取新闻文本及相关新闻数据信息;对英文新闻进行分句、过滤,得到所需的政治新闻数据;从非结构化的政治新闻中提取结构化的事件信息,包括发起者、承受者、事件性质、时间、地点等要素,并对这些要素进行编码,存储到数据库中。本发明能够从海量新闻数据中提取政治类新闻的结构化事件信息,实现事件的快速检测与发现,用于开展国家间关系分析和预测。
本发明公开了一种基于英文语法规则的事件提取方法,从英文新闻文章中识政治领域的事件,并进行相关要素的抽取,包括以下步骤:
(1)从国外重要的英文新闻网站采集新闻信息,包括新闻的正文、标题、时间、作者、转发来源、版块信息、正文图片地址等网页要素。
(2)读取英文新闻数据原始文本,对数据进行预处理,包括英文文章分句、过滤。
(3)对预处理后的英文事件数据进行命名实体识别,抽取出新闻数据的时间、地点、组织机构等信息。
(4)对文章中的句子进行事件抽取,提取事件类型、参与者等初始信息。
(5)对事件要素进行补全,提取事件发起者、承受者、发生地、时间、地理信息。
本发明对英文新闻数据的原始文本进行分句和过滤。利用正则表达式对英文新闻的文章、段落、句子进行过滤,可过滤掉体育赛事报道、广告信息等不需要的新闻数据,保留需要提取的新闻事件信息。
本发明对英文新闻每一句进行分词、词性标注和实体识别,以提高事件提取的准确率,实体定义为:
标签 | 含义 |
LOCATION | 地点 |
PERSON | 人物 |
OAGANIZATION | 组织 |
MISC | 其他 |
本发明根据语法规则提取初始事件要素信息。事件类型的提取通过核心动词的匹配来实现,首先需要构建动词编码,通过动词编码来构建事件编码库,如动词“发表意见”、“声明”、“呼吁”对应到事件类型“公开声明”。参与者信息通过字典匹配与实体匹配完成。
表“提供援助”小类
编码 | 类别名称 | 类别得分 |
070 | 提供援助(其它) | 7 |
071 | 提供经济援助 | 7.4 |
072 | 提供军事援助 | 8.3 |
073 | 提供人道主义援助 | 7.4 |
074 | 提供军事保护或维和 | 8.5 |
075 | 给予庇护 | 7 |
每一个小类都有一个介于-10~10之间的评分,用于反映事件性质。对于和平、援助类的事件评分为正,对于战争、威胁类的事件评分为负,如发生战争是-10,提供实质援助是7分。该分值是指导分析事件对国家关系以及稳定性影响的基础,当然每类事件其分类需要有明确的含义和定义。
本发明使用斯坦福自然语言处理工具CoreNLP对英文新闻进行英文语法解析,包括分词、词性标注和实体识别。
本发明对英文事件抽取要素进行补全。通过Crf模型提取事件要素的详细信息,包括事件的发起者,承受者、发生地、时间、地理信息等。
本发明对参与者、地理等事件提取要素进行编码。参与者不一定都属于某个国家,对于国内参与者与国际参与者其角色类型也存在很大区分。因此,拟根据属于单一国家还是跨国分为国内角色和国际间角色两部分,对其分别设计编码。地理编码即对事件发生地点的地理信息进行编码,地理信息主要包括地点全称、地点的ADM1编码(其所属一级行政区划的编码)、地点的ADM2编码(其所属二级行政区划的编码)、所属国家编码(Alpha2国家代码)、经度、纬度。
实施例
本实施例提出一种基于英文语法规则的事件提取方法,适用于国际政治领域新闻事件抽取,同时该方法也可以应用于其它领域方面的英文事件提取工作。
参照图1所示基于英文语法规则的事件提取流程示意图,具体方法包括:
(1)从数据库中读取一篇英文新闻作为输入。
本实例英文新闻数据来自重点关注的国外重要新闻网站,重要新闻网站新闻新闻信息可信度高,文字编排和新闻信息拥有改稿的质量,为后续处理降低难度。事件提取的数据输入包括新闻的正文、标题、时间、作者、转发来源、版块信息、正文图片地址等。从数据库中读取的新闻结构如下表所示:
(2)对新闻文本进行预处理。
在本实例中,采用斯坦福大学CoreNLP自然语言处理工具对英文文本进行自然语言处理工作,包括分句、分词以及词性识别。本专利主要针对政治新闻事件,通过正则表达式的方法对新闻文本进行过滤处理,过滤掉体育赛事报道、广告信息等无关信息。同时采用langid开源工具,对英文语种进行检测,只保留英语词比例占句子90%的句子。
(3)对新闻文本进行命名实体识别。
在本实例中,针对命名实体识别任务,在斯坦福大学开源自然语言处理工具命名实体识别功能的基础上,采用结构化感知器算法,考虑词、词性、词表、词模式等特征,对新闻文本中的地点、人物、组织和其它实体进行标注。
(4)根据语法规则提取事件要素
4.1通过动词模板匹配确定事件类型
事件触发词是决定事件类型的重要特征,本专利采用核心动词作为事件触发词。核心动词能够清楚地表达事件的发生,事件类别识别可以转换成核心动词的匹配。同时核心动词能够对后续事件元素的发起者和承受者的识别起这重要作用。首先构建动词列表,对动词列表中的每个元素,以其作为核心动词,从事件模板库中获取到对应的模板列表。通过核心动词的提取,可以对应获得事件类型。
在“Ukraine ratified a sweeping agreement with the European Union onTuesday.”的例子中,通过对核心动词“ratified”的抽取,对应到动词模板入下表所示:
核心动词匹配到具体模板,则代表该模板对应的事件编码为匹配到的事件类型,该句动词匹配的到的事件类型编码为“057”,对应到事件编码库的事件类型为“签署正式协议”。
4.2通过字典匹配与实体匹配提取参与者信息
在“Ukraine ratified a sweeping agreement with the European Union onTuesday.”的例子中,通过字典匹配,可以匹配到事件的发起者对应的参与者编码为“UKR”,事件的承受者为“IGOEUREEC”。
(5)英文事件要素补全
引进nltk模块,实现句子依存关系提取,通过增加事件核心动词位置提取,构建统一计算数据结构(依存词序、语法树词序、原句词序),引进机器学习模块sklearn, 采用Crf方法训练要素分类模型,通过要素分类模型实现事件要素的提取。
(6)事件要素信息存入数据库
将提取到的事件要素信息对应到相应的事件要素编码并存入数据库。
本发明提供了一种基于英文语法规则的事件提取方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (7)
1.一种基于英文语法规则的事件提取方法,其特征在于,包括从互联网上的英文新闻文章数据文件中识政治领域的事件,并进行相关要素的抽取,包括以下步骤:
(1)从国外重要的英文新闻网站采集新闻信息,包括新闻的正文、标题、时间、作者、转发来源、版块信息、正文图片地址在内的网页要素;
(2)读取英文新闻数据原始文本,对数据进行预处理,包括英文文章分句、过滤;
(3)对预处理后的英文事件数据进行命名实体识别,抽取出包括新闻数据的时间、地点、组织机构在内的信息;
(4)对文章中的句子进行事件抽取,提取包括事件类型、参与者在内的初始信息;
(5)对事件要素进行补全,提取包括事件发起者、承受者、发生地、时间、地理位置在内的信息。
2.根据权利要求1所述的一种基于英文语法规则的事件提取方法,其特征在于,对英文新闻数据的原始文本进行分句和过滤,利用正则表达式对英文新闻的文章、段落、句子进行过滤,过滤掉包括体育赛事报道、广告信息在内的新闻数据,保留需要提取的新闻事件信息。
3.根据权利要求1或2所述的一种基于英文语法规则的事件提取方法,其特征在于,对英文新闻每一句进行分词、词性标注和实体识别,实体定义为:
4.根据权利要求3所述的一种基于英文语法规则的事件提取方法,其特征在于,根据语法规则提取初始事件要素信息,事件类型的提取通过核心动词的匹配来实现,首先需要构建动词编码,通过动词编码来构建事件模板库,参与者信息通过字典匹配与实体匹配完成。
5.根据权利要求4所述的一种基于英文语法规则的事件提取方法,其特征在于,使用斯坦福自然语言处理工具CoreNLP对英文新闻进行英文语法解析,包括分词、词性标注和实体识别。
6.根据权利要求5所述的一种基于英文语法规则的事件提取方法,其特征在于,对英文事件抽取要素进行补全,通过Crf模型提取事件要素的详细信息,包括事件的发起者,承受者、发生地、时间、地理位置在内的信息。
7.根据权利要求6所述的一种基于英文语法规则的事件提取方法,其特征在于,对参与者、地理等事件提取要素进行编码,根据属于单一国家还是跨国分为国内角色和国际间角色两部分,对其分别设计编码;地理编码即对事件发生地点的地理信息进行编码,地理信息包括地点全称、地点的ADM1编码即其所属一级行政区划的编码、地点的ADM2编码即其所属二级行政区划的编码、所属国家编码即Alpha2国家代码、经度、纬度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811055217.7A CN109408806A (zh) | 2018-09-11 | 2018-09-11 | 一种基于英文语法规则的事件提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811055217.7A CN109408806A (zh) | 2018-09-11 | 2018-09-11 | 一种基于英文语法规则的事件提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109408806A true CN109408806A (zh) | 2019-03-01 |
Family
ID=65464027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811055217.7A Pending CN109408806A (zh) | 2018-09-11 | 2018-09-11 | 一种基于英文语法规则的事件提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109408806A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110195A (zh) * | 2019-05-07 | 2019-08-09 | 宜人恒业科技发展(北京)有限公司 | 一种杂质清除方法及装置 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN111782907A (zh) * | 2020-07-01 | 2020-10-16 | 北京知因智慧科技有限公司 | 新闻分类方法、装置及电子设备 |
CN112307364A (zh) * | 2020-11-25 | 2021-02-02 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112967144A (zh) * | 2021-03-09 | 2021-06-15 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
CN113010593A (zh) * | 2021-04-02 | 2021-06-22 | 北京智通云联科技有限公司 | 非结构化文本的事件抽取方法、系统及装置 |
CN113792083A (zh) * | 2021-06-02 | 2021-12-14 | 的卢技术有限公司 | 一种事件抽取判断方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307435A1 (en) * | 2010-05-14 | 2011-12-15 | True Knowledge Ltd | Extracting structured knowledge from unstructured text |
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN106484673A (zh) * | 2016-09-09 | 2017-03-08 | 中国电子科技集团公司第二十八研究所 | 一种面向认知分析的中文事件表示方法 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
-
2018
- 2018-09-11 CN CN201811055217.7A patent/CN109408806A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110307435A1 (en) * | 2010-05-14 | 2011-12-15 | True Knowledge Ltd | Extracting structured knowledge from unstructured text |
CN106055658A (zh) * | 2016-06-02 | 2016-10-26 | 中国人民解放军国防科学技术大学 | 一种针对Twitter文本事件抽取的方法 |
CN106484767A (zh) * | 2016-09-08 | 2017-03-08 | 中国科学院信息工程研究所 | 一种跨媒体的事件抽取方法 |
CN106484673A (zh) * | 2016-09-09 | 2017-03-08 | 中国电子科技集团公司第二十八研究所 | 一种面向认知分析的中文事件表示方法 |
CN106959944A (zh) * | 2017-02-14 | 2017-07-18 | 中国电子科技集团公司第二十八研究所 | 一种基于中文语法规则的事件提取方法和系统 |
Non-Patent Citations (1)
Title |
---|
张佳宏: "基于半监督学习的文本实体关系抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110195A (zh) * | 2019-05-07 | 2019-08-09 | 宜人恒业科技发展(北京)有限公司 | 一种杂质清除方法及装置 |
CN110321432A (zh) * | 2019-06-24 | 2019-10-11 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN110321432B (zh) * | 2019-06-24 | 2021-11-23 | 拓尔思信息技术股份有限公司 | 文本事件信息提取方法、电子装置和非易失性存储介质 |
CN111782907A (zh) * | 2020-07-01 | 2020-10-16 | 北京知因智慧科技有限公司 | 新闻分类方法、装置及电子设备 |
CN111782907B (zh) * | 2020-07-01 | 2024-03-01 | 北京知因智慧科技有限公司 | 新闻分类方法、装置及电子设备 |
CN112307364A (zh) * | 2020-11-25 | 2021-02-02 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112307364B (zh) * | 2020-11-25 | 2021-10-29 | 哈尔滨工业大学 | 一种面向人物表征的新闻文本发生地抽取方法 |
CN112967144A (zh) * | 2021-03-09 | 2021-06-15 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
CN112967144B (zh) * | 2021-03-09 | 2024-01-23 | 华泰证券股份有限公司 | 一种金融信用风险事件抽取方法、可读存储介质及设备 |
CN113010593A (zh) * | 2021-04-02 | 2021-06-22 | 北京智通云联科技有限公司 | 非结构化文本的事件抽取方法、系统及装置 |
CN113010593B (zh) * | 2021-04-02 | 2024-02-13 | 北京智通云联科技有限公司 | 非结构化文本的事件抽取方法、系统及装置 |
CN113792083A (zh) * | 2021-06-02 | 2021-12-14 | 的卢技术有限公司 | 一种事件抽取判断方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bar-Haim et al. | From arguments to key points: Towards automatic argument summarization | |
CN109408806A (zh) | 一种基于英文语法规则的事件提取方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
Surdeanu | Overview of the TAC2013 Knowledge Base Population Evaluation: English Slot Filling and Temporal Slot Filling. | |
CN110377738A (zh) | 融合依存句法信息和卷积神经网络的越南语新闻事件检测方法 | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
Shimada et al. | Analyzing tourism information on twitter for a local city | |
US20030059112A1 (en) | Method and system for segmenting and identifying events in images using spoken annotations | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
US9529845B2 (en) | Candidate generation in a question answering system | |
Jabbar et al. | An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach | |
CN109033166A (zh) | 一种人物属性抽取训练数据集构建方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN111191413B (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
Attia et al. | An automatically built named entity lexicon for Arabic | |
Ahn et al. | Question Answering with QED at TREC 2005. | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN106355455A (zh) | 一种从网购用户评论中抽取产品特征信息的方法 | |
Pal et al. | Anubhuti--An annotated dataset for emotional analysis of Bengali short stories | |
Kasper et al. | Monitoring and summarization of hotel reviews | |
Çelebi et al. | Automatic question answering for Turkish with pattern parsing | |
CN111949781B (zh) | 一种基于自然语句句法分析的智能交互方法及装置 | |
Shrawankar et al. | Construction of news headline from detailed news article | |
Blair-Goldensohn et al. | A hybrid approach for answering definitional questions | |
CN113609312A (zh) | 一种基于特征评估和关键词相似度的地理文本语料标注方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190301 |
|
RJ01 | Rejection of invention patent application after publication |