CN110399606A

CN110399606A - 一种无监督电力文档主题生成方法及系统

Info

Publication number: CN110399606A
Application number: CN201811488091.2A
Authority: CN
Inventors: 刘迪; 陈静; 崔迎宝; 陈薇; 邱镇; 王腾蛟; 刘园园
Original assignee: Peking University; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; National Network Information and Communication Industry Group Co Ltd
Current assignee: Peking University; State Grid Corp of China SGCC; State Grid Zhejiang Electric Power Co Ltd; National Network Information and Communication Industry Group Co Ltd
Priority date: 2018-12-06
Filing date: 2018-12-06
Publication date: 2019-11-01
Anticipated expiration: 2038-12-06
Also published as: CN110399606B

Abstract

本发明提供一种无监督电力文档主题生成方法及系统，用于快速生成电力领域的文档主题。本发明中首先利用相关性分析方法，筛选与特定领域相关的文档数据，再利用聚类方法找到同类别的文档，然后对其进行主题提取，并将此应用在主题提取系统中，使得提取特定领域的主题更具可行性。

Description

一种无监督电力文档主题生成方法及系统

技术领域

本发明涉及文档主题提取，具体涉及一种无监督电力文档主题生成方法及系统，属于自然语言处理和计算机软件系统领域。

背景技术

近些年来，随着互联网的高速发展，各个消息发布平台上的数据指数级增长，如何对海量杂乱的数据进行高质量的压缩提取，使用户从这些数据中高效的搜寻到有用信息成为当前自然语言处理领域的研究重点。数据的压缩提取主要涉及文档主题技术，文档主题提取分为抽取式和生成式。抽取式主题方法是对原文中的句子进行评估打分，选出最能代表原文主旨的若干句子作为全文主题。生成式主题方法是利用机器学习等技术，使计算机对非原文的句子重新组合，生成原文主题。由于生成式主题受到自然语言理解技术的限制，生成的主题可读性不高，稳定性较低，同时在训练生成主题的模型时，需要高质量的有监督中文数据，受人力所限，现有特定领域的标准文摘数据不多，使得获取有监督的训练数据变得极为困难。抽取式主题生成方式避免了机器理解文本并需要重新组织语言的难题，利用原文可读的句子生成主题，对文档信息进行提取，可读性高，能很大程度地降低了用户的信息负载。

武汉大学提出了一种基于混合机器学习模型的多文档自动主题提取方法，首先直接使用 word2vec对文档进行向量化，然后利用预先训练好的分类器，对向量化的文档进行分类，分类的主要目的是找到原始文档的数据中适合作为主题的句子，再对适合作为主题的句子利用 TextRank算法进行主题提取。内蒙古师范大学提出了一种基于LDA与TextRank结合的多文档自动主题方法，首先是对原始文档进行预处理，建立主题模型，得到文档中比较重要的句子，然后在考虑运算节点权重时的主题模型，得到迭代公式，再利用TextRank算法对同一主题下的多篇文档进行主题提取。以上两种方法都无法对特定领域的数据进行主题提取，第一种方法在对文档进行分类后，适合做主题的句子可能会包含大量与特定领域无关的句子，同时第二种方法在利用LDA进行主题建模时也会存在对于领域无关的数据进行建模的情况。

发明内容

本发明的目的在于克服现有技术的缺点和不足，提供一种无监督电力文档主题生成方法及系统，用于快速生成电力领域的文档主题。本发明中首先利用相关性分析方法，筛选与特定领域相关的文档数据，再利用聚类方法找到同类别的文档，然后对其进行主题提取，并将此应用在主题提取系统中，使得提取特定领域的主题更具可行性。

为实现上述目的，本发明采用的技术方案如下：

一种无监督电力文档主题生成方法，步骤包括：

采集舆情原始数据并整理成文档，将文档转化为tfidf向量；

根据该文档中的词是否在电力领域词汇中出现，并结合生成的tfidf向量，计算得到匹配值；

将匹配值大于0的文档作为与电力领域相关的文档；

将与电力领域相关的文档转化为tfidf向量，进行聚类，得到不同类别的文档；

对得到的不同类别的文档进行切分，将切分的句子和句子对应的词列表作为节点加入到无向图；

对切分后的句子对应的词列表进行向量化，计算向量之间的空间距离，并作为文档之间的相似度，将该相似度作为边加入到无向图中，与节点一一对应，构建完成无向图；

将该无向图的节点按相似度由大到小进行排序，排名靠前的K个节点代表的句子作为文档的主题。

进一步地，从国网舆情监测系统采集原始数据，数据采集来源包括微信公众号、新浪微博、贴吧、论坛、新闻等文本发布平台。

进一步地，采集的原始数据包括文档的title和content。

进一步地，利用训练好的tfidf向量将文档进行tfidf向量化表示，tfidf向量的训练步骤包括：

从文档中随机取出若干条原始数据，过滤掉数据中无用的符号和英文字母；

利用分词工具pyltp对文档进行切词，将文本数据转化为词列表，去除停用词；

对于去除停用词后的词列表，利用sklearn中的TfidfVectorizer()函数训练生成tfidf向量，并生成tfidf向量中元素索引所对应的词。

进一步地，所述文档匹配值计算方法为：

对文档中的词按对应tfidf的值由大到小进行排序，生成新的词列表；

遍历该词列表，如果该词列表的tfidf值较大的词出现在了电力领域词汇中，则对tfidf值进行加和；如果该词列表的tfidf值较小词出现在了电力领域词汇中，则对tfidf值的1/2进行加和；两部分的值加和，得到文档中词的tfidf的加和值；

对得到加和值进行平衡计算得到最终的匹配值，计算公式如下：

其中，scores为匹配值，doc_score为tfidf的加和值，n为文档中词的个数。

进一步地，所述该词列表中tfidf值较大的词即指词列表的前15％，所述词列表中tfidf 值较小的词即值词列表的后85％。

进一步地，将上述与电力领域相关的文档转化为tfidf向量的方法步骤是：

对于与电力领域相关的文档，过滤掉无关的符号和字母，再进行切词、去除停用词，生成词列表；

利用生成的词列表，训练生成tfidf向量；

利用该生成的tfidf向量，将电力领域相关的文档转化为tfidf向量。

进一步地，聚类方法包括Kmeans、Dbscan。

进一步地，如采用Kmeans方法进行聚类，步骤包括：

利用sklearn中的TruncatedSVD()方法对电力领域相关的文档转化的tfidf向量进行降维；

对降维后的向量，利用sklearn中的KMeans()方法聚类；

将聚类后的类别和每个类别下的文档写入文件系统；

进一步地，如采用Dbscan方法进行聚类，步骤包括：

利用sklearn中的DBSCAN()方法对电力领域相关的文档转化的tfidf向量进行聚类；

将聚类后的多个类别和每个类别下的文件写入本地文件系统。

进一步地，对得到的不同类别的文档，将文档中的标点符号作为分隔符，切分成短句；

将切分后的短句利用分词工具pyltp进行切词，去除停用词，生成每个句子的词列表。

进一步地，对得到的不同类别的文档向量化的方法步骤为：

根据句子的词列表训练生成tfidf向量；

对词列表中每个词进行word2vec向量化表示，根据文档的tfidf向量获得每个词在文档中的权值，根据如下公式计算得到不同类别下的文档向量化结果：

其中，v为向量化结果，V_n为词的word2vec向量化表示，ω_n为tfidf向量中的元素，n为大于等于1的自然数。

进一步地，K为对文档相似度排序后生成文档主题的句子数量。

一种无监督快速的电力文档主题生成系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述方法中各步骤的指令。

本发明的原理是，在已有的文本数据基础上，计算原始文档与电力相关的匹配值，当匹配值大于某阈值时，认为跟电力具有相关性，通过计算原始文档与电力领域的相关性，筛选出与电力领域高度相关的数据；然后利用Kmeans或Dbscan方法聚类对这些文档聚类，找到不同的类别下的多篇文档；再分别对聚类后文档利用TextRank算法进行主题提取。

本发明与现有技术相比，具有以下优点和积极效果：

1.实现了将未标记的电力文档作为系统的输入，利用聚类算法和文本主题算法可以快速地获得文档主题，实现主题生成系统，使得获取电力领域的文档主题更实用、可行性更高，应用和推广价值更大。

2.考虑到更好的对文档进行向量化，本发明提出了结合word2vec和tfidf优点的对文档进行向量化方式，有效的利用了在文档更重要的词对向量带来的影响，使得生成的向量对文档更具表现力。

3.通过对系统进行模块化的设计，将文本相似度计算、聚类，主题提取等功能组合在一起，使得系统的灵活行更高、鲁棒性更强。

4.本发明提供了一种无监督的主题生成系统，避免了监督信息获取困难的问题，并且利用无监督方式提取主题具备更高的可读性和更强的稳定性。

附图说明

图1是本实施例的一种无监督电力文档主题生成方法的流程图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下面结合附图，对本发明的具体实施方式作进一步描述。

本实施例提供一种无监督电力文档主题生成方法，以实现电力文档的在无监督下快速生成主题，如图1所示，包括如下步骤：

1.匹配原始数据中与电力领域具备相关性的数据，具体步骤如下：

1.1从国网舆情监测系统采集原始数据，数据采集来源包括微信公众号、新浪微博、贴吧、论坛和新闻等文本发布平台；

1.2采集到的原始数据包括文档的title和content，整理文档；

1.3从文档中随机取出若干原始数据，训练生成tfidf向量，该训练过程如下：

1.3.1首先随机抽取若干条原始数据，过滤掉数据中一些无用的符号和英文字母；

1.3.2利用分词工具pyltp对文档进行切词，将文本数据转化为词列表，去除停用词；

1.3.3去除停用词后整理好词列表，利用sklearn中TfidfVectorizer()函数训练生成tfidf 向量，并生成tfidf向量中元素索引所对应的词；

1.4逐条读取文档，与1.3.1处理过程类似，将数据中的无关符号去除然后切词，再利用训练好的tfidf向量对该文档进行向量化表示，文档向量化表示的结果记为doc_csr。

1.5读取本地文件中与电力相关度较高的电力词汇，保存在内存中，记为 target_word_set。

1.6计算文档与电力领域词汇的匹配值，记为doc_scores；具体步骤如下：

1.6.1首先找到doc_csr向量中非零的元素值，存放在列表中，记为scores；

1.6.2对scores由大到小排序，生成对应scores中的索引，记为sorted_ptr；

1.6.3根据scores和sorted_ptr，生成ifidf值由大到小排序的列表，记为sorted_scores；

1.6.4根据sorted_ptr和idx_2_word，生成文档词汇对应的tfidf值由大到小排序的列表，记为sorted_words；

1.6.5遍历词列表sorted_words，进行计算，最终得到doc_scores；该计算过程如下：

1.6.5.1设定阈值top_k_word_num，阈值top_k_word_num一般设定为文档词频doc_words_num的15％，即doc_words_num*0.15；

1.6.5.2对sorted_words中前top_k_word_num个词，如果出现在target_word_set中，则对该词在sorted_scores中对应的tfidf值进行加和；

1.6.5.3当sorted_words中词的数量大于top_k_word_num，则对sorted_score中元素索引大于top_k_word_num的元素值的1/2加和；

1.6.5.4，将上述两步骤的值加在一起，得到加和值；

1.7最终得到文档及其与电力领域的匹配值；

2.将与电力领域具备相关性的文档进行聚类，具体步骤如下：

B2.1设定阈值relevant_score_threshold，阈值范围为大于0且小于1，当文档与电力领域的匹配值score大于relevant_score_threshold时，表示该文档与电力领域具备相关性；

2.2逐条读取文档的score，比较score和relevant_score_threshold大小，找到全部与电力领域相关的文档；

2.3对与电力领域相关的文档，过滤掉无关的符号和字母再进行切词，去除停用词，生成词列表；

2.4利用生成的词列表，训练生成tfidf向量，并对文档进行向量化表示V₂；

2.5选择不同的聚类方法，聚类方法包括但不限于Kmeans、Dbscan；

2.6如选用Kmeans方法进行聚类，聚类步骤如下：

2.6.1为提高聚类的效率，对V₂利用sklearn中的TruncatedSVD()方法进行降维；

2.6.3设定聚类的类别个数K≥1，包括但不限于3、5、8、10；对降维后的向量，利用sklearn中的KMeans()方法聚类；

2.6.4将聚类后的类别和每个类别下的文档写入本地磁盘，以备主题生成时使用；

2.7如选用Dbscan方法进行聚类，聚类步骤如下：

2.7.1利用sklearn中的DBSCAN()方法对V₂进行聚类；

2.7.2将聚类后的多个类别和每个类别下的文件写入文件系统；

3.对聚类后的不同类别的文档快速提取主题，具体步骤如下：

3.1依次读取不同类别下的文档，对文档以“，！？...”为分隔符，将文档切分为短句；

3.2构建没有节点没有边的无向图；

3.3将切分后的每个句子利用分词工具pyltp进行切词，然后去除停用词，生成每个句子的词列表[W₁,W₂,W₃,......,W_n-1,W_n]；

3.4依次将切分的句子和句子对应的词列表作为无向图的节点加入无向图，并对加入的节点进行编号，编号为0,1,......,n；

3.5计算无向图两两节点间的相似度，作为无向图的边；计算过程如下：

3.5.1读取本地的word2vec向量；

3.5.2利用句子的词列表训练生成tfidf向量。

3.5.3利用word2vec向量和每个句子的tfidf向量，生成每个文档的向量，生成过程如下：

3.5.3.1文档分词结果为[空气','开关','装','家里','停电','触电']，‘空气’在 word2vec向量中为V₁，依次类推，‘触电’在word2vec中的向量为V₆；

3.5.3.2根据文档的tfidf向量[ω₁,ω₂,ω₃,......,ω_n]，获得每个词在文档中的权值；

3.5.3.3生成文档向量为公式如下：

3.5.4利用生成的文档向量计算向量之间的空间距离，作为两两文档的相似度；

3.5.5将文档之间的相似度作为无向图的边加入到无向图，通过节点的编号完成节点和边的一一对应，最终构建完成完整的无向图；

3.5.6对构建成的无向图的节点按照边(即相似度)进行由大到小排序；

3.5.7相似度排名前K个节点(即句子)作为文档的主题，K可以取大于1且小于无线图节点总数的任意值，一般通过K值控制生成主题时的句子数量。

以下为本发明方法与现有技术方法的实验对比：

电力文档：电厂社区深入辖区全力做好防汛工作，为切实做好暴雨极端天气的应对工作，确保人民群众生命财产安全，维持辖区正常秩序。社区工作人员对辖区内全体居民进行防汛安全宣传和安全隐患排查，加强了社区居民的安全意识。2018年8月14日，电厂社区对辖区内的老旧平房、低洼地段，广告牌匾等重点部位进行了安全隐患排查。社区副书记带领工作人员针对辖区内存在安全隐患的区域进行了重点排查，特别是针对季家老道平房区、造纸厂平房区和低洼地段等重点区域进行认真排查，暴雨一旦来袭将危及沿线居民的生命安全。另外，社区也加强了防汛期间执勤的工作。全体工作人员在社区待命，24小时保持通信的畅通，确保人员到位。

现有技术方法提取的结果：2018年8月14日，电厂社区对辖区内的老旧平房、低洼地段，广告牌匾等重点部位进行了安全隐患排查。社区副书记带领工作人员针对辖区内存在安全隐患的区域进行了重点排查，特别是针对季家老道平房区、造纸厂平房区和低洼地段等重点区域进行认真排查，暴雨一旦来袭将危及沿线居民的生命安全。

本发明方法提取的结果：电厂社区深入辖区全力做好防汛工作，为切实做好暴雨极端天气的应对工作，确保人民群众生命财产安全，维持辖区正常秩序。社区工作人员对辖区内全体居民进行防汛安全宣传和安全隐患排查，加强了社区居民的安全意识。

由上述提取的结果可以看出，现有技术提取的结果主要涉及了原文的一部分内容，并不能作为原文档的主题，而本发明方法提取的结果更能概述原文的内容，非常适合作为主题。

最后需要注意的是，公布实施的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种无监督电力文档主题生成方法，步骤包括：

采集舆情原始数据并整理成文档，将文档转化为tfidf向量；

将匹配值大于0的文档作为与电力领域相关的文档；

将该无向图的节点按相似度由大到小进行排序，排名靠前的K个节点代表的句子作为文档的主题，K为对相似度排序后生成文档主题的句子数量。

2.如权利要求1所述的方法，其特征在于，从国网舆情监测系统采集原始数据，数据采集来源包括微信公众号、新浪微博、贴吧、论坛、新闻。

3.如权利要求1所述的方法，其特征在于，采集的原始数据包括文档的title和content。

4.如权利要求1所述的方法，其特征在于，利用训练好的tfidf向量将文档转化为tfidf向量，tfidf向量的训练步骤包括：

5.如权利要求1所述的方法，其特征在于，所述文档匹配值计算的方法步骤包括：

遍历该词列表，如果该词列表的前15％的词出现在了电力领域词汇中，则对tfidf值进行加和；如果该词列表的后85％的词出现在了电力领域词汇中，则对tfidf值的1/2进行加和；两部分的值加和，得到文档中词的tfidf的加和值；

6.如权利要求1所述的方法，其特征在于，将与电力领域相关的文档转化为tfidf向量的方法步骤包括：

利用生成的词列表，训练生成tfidf向量；

7.如权利要求1所述的方法，其特征在于，聚类方法包括Kmeans、Dbscan；

采用Kmeans方法进行聚类的步骤包括：

对降维后的向量，利用sklearn中的KMeans()方法聚类；

将聚类后的类别和每个类别下的文档写入文件系统；

采用Dbscan方法进行聚类的步骤包括：

8.如权利要求1所述的方法，其特征在于，对得到的不同类别的文档，将文档中的标点符号作为分隔符，切分成短句；将切分后的短句利用分词工具pyltp进行切词，去除停用词，生成每个句子的词列表。

9.如权利要求1所述的方法，其特征在于，对得到的不同类别的文档向量化的方法步骤包括：

根据句子的词列表训练生成tfidf向量；

对词列表中每个词进行word2vec向量化表示，根据文档的tfidf向量获得每个词在文档中的权值，根据以下公式计算得到不同类别下的文档向量化结果；

10.一种无监督快速的电力文档主题生成系统，包括存储器和处理器，该存储器存储计算机程序，该程序被配置为由该处理器执行，该程序包括用于执行上述权利要求1至9任一所述的方法中各步骤的指令。