CN110929509B - 一种基于louvain社区发现算法的领域事件触发词聚类方法 - Google Patents
一种基于louvain社区发现算法的领域事件触发词聚类方法 Download PDFInfo
- Publication number
- CN110929509B CN110929509B CN201910980755.5A CN201910980755A CN110929509B CN 110929509 B CN110929509 B CN 110929509B CN 201910980755 A CN201910980755 A CN 201910980755A CN 110929509 B CN110929509 B CN 110929509B
- Authority
- CN
- China
- Prior art keywords
- node
- community
- event trigger
- event
- trigger word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于louvain社区发现算法的领域事件触发词聚类方法,具体步骤如下:(1)输入任意领域中的文本集;(2)从文本标题中抽取事件触发词;(3)构建触发词相似网络;(4)基于louvain社区发现算法对触发词聚类;(5)输出事件触发词的聚类结果。本发明方法解决了传统的基于模板的事件抽取需要预先归纳事件触发词以及需要耗费大量人力时间的问题,能够自动地将大量具有相似语义的触发词聚在一起,无需人工参与,无需标注语料,能够节省大量的人力时间,为事件抽取提供极大便利。
Description
技术领域
本发明涉及信息抽取中事件抽取领域,具体是涉及一种基于louvain社区发现算法的领域事件触发词聚类方法。
背景技术
自动内容抽取ACE(Automatic Context Extraction)定义事件抽取主要包含两个任务:事件类型的识别和事件要素的抽取。因为事件触发词是能够刻画事件发生的词,在判定事件类型过程中有着重要的作用,所以事件类型的识别也就是事件触发词的抽取过程。传统的基于模式匹配的事件触发词的抽取过程需要人工归纳总结事件的触发词,会耗费大量的人力时间;而基于机器学习的方法将事件触发词抽取问题转化问分类问题,这个方法需要依赖大规模的语料库进行训练,且受到语料库规模的影响,数据稀疏问题比较严重,准确率较低,无法满足工业要求。
发明内容
本发明的目的在于针对传统的事件触发词抽取方法的不足,提供一种基于louvain社区发现算法的领域事件触发词聚类方法,该方法无需人工参与,自动地聚类拥有相似语义的触发词。
为了达到上述的目的,本发明的构思如下:事件触发词是能够清晰地表示事件发生的词语,是决定事件类别的重要词汇单元,是句子中的主要谓语动词,许多具有相似语义的动词能指示同一类型的事件。
根据上述的发明思想,本发明采用下述技术方案:
一种基于louvain社区发现算法的领域事件触发词聚类方法,具体步骤如下:
(1)输入任意领域中的文本集;
(2)从文本标题中抽取事件触发词;
(3)构建触发词相似网络;
(4)基于louvain社区发现算法对触发词聚类;
(5)输出事件触发词的聚类结果。
所述步骤(2)中的事件触发词的抽取,其过程如下:
(2-1)、使用依存句法解析工具HanLP对新闻标题进行依存句法解析,提取出句子中的核心依存关系(VHED,HED)、主谓依存关系(Sub,VSBV)、动宾依存关系(VVOB,Obj),将谓语动词VHED、VSBV、VVOB作为候选触发词;
(2-2)、仅保留词性为动词v、不及物动词vi或者动名词vn的候选触发词,并去除长度为1的词。
所述步骤(3)的事件触发词相似网络,其表示如下:
G=<W,E>
ei,j=cos(veci,vecj)
其中,W={w1,w2,...,wn}为事件触发词的集合,n为网络中触发词个数,E是n*n的对称矩阵,eij为计算的触发词wi和触发词wj的相似度大小,小于0.3的相似度设为0;veci是利用word2vec模型将wi表示成词向量,vecj是wj表示成词向量的形式。
所述步骤(4)中的利用louvain社区发现算法聚类事件触发词,其具体步骤如下:
(4-1)、初始时,网络G中的每个节点各自处于一个孤立的社团;
(4-2)、从所有节点中随机选取一个节点i;
(4-3)、对于节点i,找到其全部邻居节点,分别计算若将节点i从其当前所在社团移动至其邻居节点j所在社团Cj,产生的模块度增益的大小ΔQ,其中模块度Q的计算公式如下:
其中,γ为分辨率参数,用来灵活控制社区划分的数量和规模;ki是与结点i相连的所有边的权值之和,kj是与结点j相连的所有边的权值之和,Ai,j为结点i与结点j之间边的权值, 表示u和v是否在同一个社团,如果u和v处于同一个社团,这个值为1,否则为0;
(4-4)、找到能够产生最大模块度增益的邻居节点j',若最大模块度增益ΔQmax>0,则令Ci=Cj',则将节点i移动至节点j所在社团;
(4-5)、当所有节点都无法被移动时,说明社团划分在当前已经达到最优,对网络进行聚合,生成一个新的网络;将同一个社团内的所有节点映射为新网络中的一个节点,成为超节点;社团内部连边映射为新网络中超节点的自边,权重为内部连边权重之和;新网络中两个超节点之间连边的权重为其对应社团之间的连边权重之和;
(4-6)、新网络构建完成后,跳转至步骤(4-1),迭代计算;直至在一次迭代过程中,所有节点都无法被移动,则算法终止。
本发明与现有的技术相比较,具有如下突出特点和优点:
本发明方法解决了传统的基于模板的事件抽取需要预先归纳事件触发词以及需要耗费大量人力时间的问题,能够自动地将大量具有相似语义的触发词聚在一起,无需人工参与,无需标注语料,能够节省大量的人力时间,为事件抽取提供极大便利。
附图说明
图1是本发明的一种基于louvain社区发现算法的领域事件触发词聚类方法的流程图。
图2是本发明的依存句法解析样例。
具体实施方式
以下结合附图对本发明的实施例作进一步的说明。
本基于louvain社区发现算法的领域事件触发词聚类方法,以金融领域事件为例,从新浪财经新闻网站上获取从2018年9月到2018年12月的任意10000篇新闻文本集合对事件触发词进行聚类。如图1所示,本实施例的一种基于louvain社区发现算法的事件触发词聚类方法,其步骤如下:
S1.输入金融领域事件文本集,例如,金融领域的10000篇新闻文本集合。
S2.从事件文本标题中抽取事件触发词,使用依存句法解析工具HanLP对新闻标题进行依存句法解析,效果如图2所示。提取出句子中的核心依存关系(VHED,HED)、主谓依存关系(Sub,VSBV)、动宾依存关系(VVOB,Obj),将谓语动词VHED,VSBV,VVOB作为候选触发词。仅保留词性为动词v、不及物动词vi或者动名词vn的候选触发词,并去除长度为1的词。
S3.事件触发此相似网络,其表示如下:
G=<W,E>
ei,j=cos(veci,vecj)
其中,W={w1,w2,...,wn}为事件触发词的集合,n为网络中触发词个数,E是n*n的对称矩阵,eij为计算的触发词wi和触发词wj的相似度大小,小于0.3的相似度设为0;veci是利用word2vec模型将wi表示成词向量,vecj是wj表示成词向量的形式。
S4.基于louvain社区发现算法的事件触发词聚类过程如下:
S4.1初始时,网络G中的每个节点各自处于一个孤立的社团;
S4.2从所有节点中随机选取一个节点i;
S4.3对于节点i,找到其全部邻居节点,分别计算若将节点i从其当前所在社团移动至其邻居节点j所在社团Cj,产生的模块度增益的大小ΔQ,模块度Q的计算公式如下:
其中,γ为分辨率参数,用来灵活控制社区划分的数量和规模;ki是与结点i相连的所有边的权值之和,kj是与结点j相连的所有边的权值之和;Ai,j为结点i与结点j之间边的权值, 表示u和v是否在同一个社团,如果u和v处于同一个社团,这个值为1,否则为0;
S4.4找到能够产生最大模块度增益的邻居节点j',若最大模块度增益ΔQmax>0,则令Ci=Cj',则将节点i移动至节点j所在社团;
S4.5当所有节点都无法被移动时,说明社团划分在当前已经达到最优,对网络进行聚合,生成一个新的网络。将同一个社团内的所有节点映射为新网络中的一个节点,成为超节点;社团内部连边映射为新网络中超节点的自边,权重为内部连边权重之和;新网络中两个超节点之间连边的权重为其对应社团之间的连边权重之和;
S4.6新网络构建完成后,跳转至步骤S4.1,迭代计算。直至在一次迭代过程中,所有节点都无法被移动,则算法终止。
S5.输出事件触发词聚类结果,具有相似语义的触发词被聚类到一个社区中。
Claims (1)
1.一种基于louvain社区发现算法的领域事件触发词聚类方法,其特征在于:具体步骤如下:
(1)输入任意领域中的文本集;
(2)从文本标题中抽取事件触发词;
(3)构建触发词相似网络;
(4)基于louvain社区发现算法对触发词聚类;
(5)输出事件触发词的聚类结果;
所述步骤(2)中的事件触发词的抽取,其过程如下:
(2-1)、使用依存句法解析工具HanLP对新闻标题进行依存句法解析,提取出句子中的核心依存关系(VHED,HED)、主谓依存关系(Sub,VSBV)、动宾依存关系(VVOB,Obj),将谓语动词VHED、VSBV、VVOB作为候选触发词;
(2-2)、仅保留词性为动词v、不及物动词vi或者动名词vn的候选触发词,并去除长度为1的词;
所述步骤(3)的事件触发词相似网络,其表示如下:
G=<W,E>
ei,j=cos(veci,vecj)
其中,W={w1,w2,...,wn}为事件触发词的集合,n为网络中触发词个数,E是n*n的对称矩阵,eij为计算的触发词wi和触发词wj的相似度大小,小于0.3的相似度设为0;veci是利用word2vec模型将wi表示成词向量,vecj是wj表示成词向量的形式;
所述步骤(4)中的利用louvain社区发现算法聚类事件触发词,其具体步骤如下:
(4-1)、初始时,网络G中的每个节点各自处于一个孤立的社团;
(4-2)、从所有节点中随机选取一个节点i;
(4-3)、对于节点i,找到其全部邻居节点,分别计算若将节点i从其当前所在社团移动至其邻居节点j所在社团Cj,产生的模块度增益的大小ΔQ,其中模块度Q的计算公式如下:
其中,γ为分辨率参数,用来灵活控制社区划分的数量和规模;ki是与结点i相连的所有边的权值之和,kj是与结点j相连的所有边的权值之和,Ai,j为结点i与结点j之间边的权值, 表示u和v是否在同一个社团,如果u和v处于同一个社团,这个值为1,否则为0;
(4-4)、找到能够产生最大模块度增益的邻居节点j',若最大模块度增益ΔQmax>0,则令Ci=Cj',则将节点i移动至节点j所在社团;
(4-5)、当所有节点都无法被移动时,说明社团划分在当前已经达到最优,对网络进行聚合,生成一个新的网络;将同一个社团内的所有节点映射为新网络中的一个节点,成为超节点;社团内部连边映射为新网络中超节点的自边,权重为内部连边权重之和;新网络中两个超节点之间连边的权重为其对应社团之间的连边权重之和;
(4-6)、新网络构建完成后,跳转至步骤(4-1),迭代计算;直至在一次迭代过程中,所有节点都无法被移动,则算法终止。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980755.5A CN110929509B (zh) | 2019-10-16 | 2019-10-16 | 一种基于louvain社区发现算法的领域事件触发词聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910980755.5A CN110929509B (zh) | 2019-10-16 | 2019-10-16 | 一种基于louvain社区发现算法的领域事件触发词聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929509A CN110929509A (zh) | 2020-03-27 |
CN110929509B true CN110929509B (zh) | 2023-09-15 |
Family
ID=69848930
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910980755.5A Active CN110929509B (zh) | 2019-10-16 | 2019-10-16 | 一种基于louvain社区发现算法的领域事件触发词聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929509B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395860A (zh) * | 2020-11-27 | 2021-02-23 | 山东省计算中心(国家超级计算济南中心) | 一种大规模并行政策数据知识抽取方法及系统 |
CN112632280B (zh) * | 2020-12-28 | 2022-05-24 | 平安科技(深圳)有限公司 | 文本分类方法、装置、终端设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745258A (zh) * | 2013-09-12 | 2014-04-23 | 北京工业大学 | 基于最小生成树聚类的遗传算法的复杂网络社区挖掘方法 |
CN108509607A (zh) * | 2018-04-03 | 2018-09-07 | 三盟科技股份有限公司 | 一种基于Louvain算法的社区发现方法及系统 |
CN108509551A (zh) * | 2018-03-19 | 2018-09-07 | 西北大学 | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 |
CN108681936A (zh) * | 2018-04-26 | 2018-10-19 | 浙江邦盛科技有限公司 | 一种基于模块度和平衡标签传播的欺诈团伙识别方法 |
-
2019
- 2019-10-16 CN CN201910980755.5A patent/CN110929509B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103745258A (zh) * | 2013-09-12 | 2014-04-23 | 北京工业大学 | 基于最小生成树聚类的遗传算法的复杂网络社区挖掘方法 |
CN108509551A (zh) * | 2018-03-19 | 2018-09-07 | 西北大学 | 一种基于Spark环境下的微博网络关键用户挖掘系统及方法 |
CN108509607A (zh) * | 2018-04-03 | 2018-09-07 | 三盟科技股份有限公司 | 一种基于Louvain算法的社区发现方法及系统 |
CN108681936A (zh) * | 2018-04-26 | 2018-10-19 | 浙江邦盛科技有限公司 | 一种基于模块度和平衡标签传播的欺诈团伙识别方法 |
Non-Patent Citations (2)
Title |
---|
基于word2vec和依存分析的事件识别研究;王红斌等;《软件》;20170615(第06期);全文 * |
基于样本加权的引文网络的社团划分;肖雪等;《图书情报工作》;20161020(第20期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110929509A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200081899A1 (en) | Automated database schema matching | |
CN108073568B (zh) | 关键词提取方法和装置 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN105022754B (zh) | 基于社交网络的对象分类方法及装置 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN108027814B (zh) | 停用词识别方法与装置 | |
WO2020232898A1 (zh) | 文本分类方法、装置、电子设备及计算机非易失性可读存储介质 | |
CN107562919B (zh) | 一种基于信息检索的多索引集成软件构件检索方法及系统 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN110633371A (zh) | 一种日志分类方法及系统 | |
CN110909126A (zh) | 一种信息查询方法及装置 | |
CN108304382A (zh) | 基于制造过程文本数据挖掘的质量分析方法与系统 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN110569289A (zh) | 基于大数据的列数据处理方法、设备及介质 | |
WO2014002774A1 (ja) | 同義語抽出システム、方法および記録媒体 | |
CN110929509B (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN104572632A (zh) | 一种确定具有专名译文的词汇的翻译方向的方法 | |
CN114186022A (zh) | 基于语音转录与知识图谱的调度指令质检方法及系统 | |
CN106202033B (zh) | 一种基于依存约束和知识的副词词义消歧方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |