CN110929509B

CN110929509B - 一种基于louvain社区发现算法的领域事件触发词聚类方法

Info

Publication number: CN110929509B
Application number: CN201910980755.5A
Authority: CN
Inventors: 骆祥峰; 黄敬; 马秀侠
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-10-16
Filing date: 2019-10-16
Publication date: 2023-09-15
Anticipated expiration: 2039-10-16
Also published as: CN110929509A

Abstract

本发明公开了一种基于louvain社区发现算法的领域事件触发词聚类方法，具体步骤如下：（1）输入任意领域中的文本集；（2）从文本标题中抽取事件触发词；（3）构建触发词相似网络；（4）基于louvain社区发现算法对触发词聚类；（5）输出事件触发词的聚类结果。本发明方法解决了传统的基于模板的事件抽取需要预先归纳事件触发词以及需要耗费大量人力时间的问题，能够自动地将大量具有相似语义的触发词聚在一起，无需人工参与，无需标注语料，能够节省大量的人力时间，为事件抽取提供极大便利。

Description

一种基于louvain社区发现算法的领域事件触发词聚类方法

技术领域

本发明涉及信息抽取中事件抽取领域，具体是涉及一种基于louvain社区发现算法的领域事件触发词聚类方法。

背景技术

自动内容抽取ACE(Automatic Context Extraction)定义事件抽取主要包含两个任务：事件类型的识别和事件要素的抽取。因为事件触发词是能够刻画事件发生的词，在判定事件类型过程中有着重要的作用，所以事件类型的识别也就是事件触发词的抽取过程。传统的基于模式匹配的事件触发词的抽取过程需要人工归纳总结事件的触发词，会耗费大量的人力时间；而基于机器学习的方法将事件触发词抽取问题转化问分类问题，这个方法需要依赖大规模的语料库进行训练，且受到语料库规模的影响，数据稀疏问题比较严重，准确率较低，无法满足工业要求。

发明内容

本发明的目的在于针对传统的事件触发词抽取方法的不足，提供一种基于louvain社区发现算法的领域事件触发词聚类方法，该方法无需人工参与，自动地聚类拥有相似语义的触发词。

为了达到上述的目的，本发明的构思如下：事件触发词是能够清晰地表示事件发生的词语，是决定事件类别的重要词汇单元，是句子中的主要谓语动词，许多具有相似语义的动词能指示同一类型的事件。

根据上述的发明思想，本发明采用下述技术方案：

一种基于louvain社区发现算法的领域事件触发词聚类方法，具体步骤如下：

(1)输入任意领域中的文本集；

(2)从文本标题中抽取事件触发词；

(3)构建触发词相似网络；

(4)基于louvain社区发现算法对触发词聚类；

(5)输出事件触发词的聚类结果。

所述步骤(2)中的事件触发词的抽取，其过程如下：

(2-1)、使用依存句法解析工具HanLP对新闻标题进行依存句法解析，提取出句子中的核心依存关系(V_HED，HED)、主谓依存关系(Sub，V_SBV)、动宾依存关系(V_VOB，Obj)，将谓语动词V_HED、V_SBV、V_VOB作为候选触发词；

(2-2)、仅保留词性为动词v、不及物动词vi或者动名词vn的候选触发词，并去除长度为1的词。

所述步骤(3)的事件触发词相似网络，其表示如下：

G＝＜W,E＞

e_i,j＝cos(vec_i,vec_j)

其中，W＝{w₁,w₂,...,w_n}为事件触发词的集合，n为网络中触发词个数，E是n*n的对称矩阵，e_ij为计算的触发词w_i和触发词w_j的相似度大小，小于0.3的相似度设为0；vec_i是利用word2vec模型将w_i表示成词向量，vec_j是w_j表示成词向量的形式。

所述步骤(4)中的利用louvain社区发现算法聚类事件触发词，其具体步骤如下：

(4-1)、初始时，网络G中的每个节点各自处于一个孤立的社团；

(4-2)、从所有节点中随机选取一个节点i；

(4-3)、对于节点i，找到其全部邻居节点，分别计算若将节点i从其当前所在社团移动至其邻居节点j所在社团C_j，产生的模块度增益的大小ΔQ，其中模块度Q的计算公式如下：

其中，γ为分辨率参数，用来灵活控制社区划分的数量和规模；k_i是与结点i相连的所有边的权值之和，k_j是与结点j相连的所有边的权值之和，A_i,j为结点i与结点j之间边的权值，表示u和v是否在同一个社团，如果u和v处于同一个社团，这个值为1，否则为0；

(4-4)、找到能够产生最大模块度增益的邻居节点j'，若最大模块度增益ΔQ_max＞0，则令C_i＝C_j'，则将节点i移动至节点j所在社团；

(4-5)、当所有节点都无法被移动时，说明社团划分在当前已经达到最优，对网络进行聚合，生成一个新的网络；将同一个社团内的所有节点映射为新网络中的一个节点，成为超节点；社团内部连边映射为新网络中超节点的自边，权重为内部连边权重之和；新网络中两个超节点之间连边的权重为其对应社团之间的连边权重之和；

(4-6)、新网络构建完成后，跳转至步骤(4-1)，迭代计算；直至在一次迭代过程中，所有节点都无法被移动，则算法终止。

本发明与现有的技术相比较，具有如下突出特点和优点：

本发明方法解决了传统的基于模板的事件抽取需要预先归纳事件触发词以及需要耗费大量人力时间的问题，能够自动地将大量具有相似语义的触发词聚在一起，无需人工参与，无需标注语料，能够节省大量的人力时间，为事件抽取提供极大便利。

附图说明

图1是本发明的一种基于louvain社区发现算法的领域事件触发词聚类方法的流程图。

图2是本发明的依存句法解析样例。

具体实施方式

以下结合附图对本发明的实施例作进一步的说明。

本基于louvain社区发现算法的领域事件触发词聚类方法，以金融领域事件为例，从新浪财经新闻网站上获取从2018年9月到2018年12月的任意10000篇新闻文本集合对事件触发词进行聚类。如图1所示，本实施例的一种基于louvain社区发现算法的事件触发词聚类方法，其步骤如下：

S1.输入金融领域事件文本集，例如，金融领域的10000篇新闻文本集合。

S2.从事件文本标题中抽取事件触发词，使用依存句法解析工具HanLP对新闻标题进行依存句法解析，效果如图2所示。提取出句子中的核心依存关系(V_HED，HED)、主谓依存关系(Sub，V_SBV)、动宾依存关系(V_VOB，Obj)，将谓语动词V_HED，V_SBV，V_VOB作为候选触发词。仅保留词性为动词v、不及物动词vi或者动名词vn的候选触发词，并去除长度为1的词。

S3.事件触发此相似网络，其表示如下：

G＝＜W,E＞

e_i,j＝cos(vec_i,vec_j)

S4.基于louvain社区发现算法的事件触发词聚类过程如下：

S4.1初始时，网络G中的每个节点各自处于一个孤立的社团；

S4.2从所有节点中随机选取一个节点i；

S4.3对于节点i，找到其全部邻居节点，分别计算若将节点i从其当前所在社团移动至其邻居节点j所在社团C_j,产生的模块度增益的大小ΔQ，模块度Q的计算公式如下：

其中，γ为分辨率参数，用来灵活控制社区划分的数量和规模；k_i是与结点i相连的所有边的权值之和，k_j是与结点j相连的所有边的权值之和；A_i,j为结点i与结点j之间边的权值，表示u和v是否在同一个社团，如果u和v处于同一个社团，这个值为1，否则为0；

S4.4找到能够产生最大模块度增益的邻居节点j'，若最大模块度增益ΔQ_max＞0，则令C_i＝C_j'，则将节点i移动至节点j所在社团；

S4.5当所有节点都无法被移动时，说明社团划分在当前已经达到最优，对网络进行聚合，生成一个新的网络。将同一个社团内的所有节点映射为新网络中的一个节点，成为超节点；社团内部连边映射为新网络中超节点的自边，权重为内部连边权重之和；新网络中两个超节点之间连边的权重为其对应社团之间的连边权重之和；

S4.6新网络构建完成后，跳转至步骤S4.1，迭代计算。直至在一次迭代过程中，所有节点都无法被移动，则算法终止。

S5.输出事件触发词聚类结果，具有相似语义的触发词被聚类到一个社区中。

Claims

1.一种基于louvain社区发现算法的领域事件触发词聚类方法，其特征在于：具体步骤如下：

(1)输入任意领域中的文本集；

(2)从文本标题中抽取事件触发词；

(3)构建触发词相似网络；

(4)基于louvain社区发现算法对触发词聚类；

(5)输出事件触发词的聚类结果；

所述步骤(2)中的事件触发词的抽取，其过程如下：

(2-2)、仅保留词性为动词v、不及物动词vi或者动名词vn的候选触发词，并去除长度为1的词；

所述步骤(3)的事件触发词相似网络，其表示如下：

G＝＜W,E＞

e_i,j＝cos(vec_i,vec_j)

其中，W＝{w₁,w₂,...,w_n}为事件触发词的集合，n为网络中触发词个数，E是n*n的对称矩阵，e_ij为计算的触发词w_i和触发词w_j的相似度大小，小于0.3的相似度设为0；vec_i是利用word2vec模型将w_i表示成词向量，vec_j是w_j表示成词向量的形式；

(4-2)、从所有节点中随机选取一个节点i；