CN114138979A - 基于词拓展无监督文本分类的文物安全知识图谱创建方法 - Google Patents
基于词拓展无监督文本分类的文物安全知识图谱创建方法 Download PDFInfo
- Publication number
- CN114138979A CN114138979A CN202111269811.8A CN202111269811A CN114138979A CN 114138979 A CN114138979 A CN 114138979A CN 202111269811 A CN202111269811 A CN 202111269811A CN 114138979 A CN114138979 A CN 114138979A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- cultural relic
- keywords
- title
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于词拓展无监督文本分类的文物安全知识图谱创建方法,包括以下步骤:基于正则表达式的文物安全类文本结构树提取,得到文章的主要内容;利用提取职责文本关键词方法构建文物安全类相关政府初始部门代表文档,并使用同义词词林和预训练Glove模型进行词拓展,得到文物安全类相关政府部门类别代表文档;设置阈值,基于相似度使用无监督多标签分类,得到每个文物安全类政策点句子的最可能执行部门;利用依存句法分析进行关系提取,最后使用neo4j构建图数据库,形成知识图谱。本发明能够有效的完成对文物安全类非结构化文本的结构解析,解决文物安全类非结构化数据无法进行关系提取的难题,从而构建文物安全文本知识图谱。
Description
技术领域
本发明涉及面向文物安全方面的自然语言处理应用领域,尤其涉及一种基于词拓展无监督文本分类的文物安全知识图谱创建方法。
背景技术
知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法,为面向文物安全危险源识别提供了智能化分析基础。文物安全非结构化数据是面向文物安全危险源识别与异常事件分析的核心,主要包括文物安全相关政府公文及文博单位日志记录等,它们具有重要意义,可用于各个文物局相关部门对文物安全等政策的响应、文物安全政策演进解析、知识问答、智能化分析等等。关系提取是知识图谱建立不可或缺的一部分,然而由于文物安全的相关政府公文及单位日志记录等非结构化数据的特殊格式,因此传统的关系提取方法无法有效的进行提取,需要寻求特殊方法建立知识图谱。
通常,利用关系提取方法提取一句话的三元组关系,但由于文物局等文物类相关政府部门发文格式固定,其发布的文物安全类文本的绝大部分句子格式特殊,主要表现在句子中没有主语。若采用传统的关系提取方法,无法提取出所需要的关系,使得文物安全类政策文本知识图谱难以建立。因此,如何有效的利用关系提取方法去提取文物安全类政策文本的三元组关系是非常重要的。
现有技术中存在以下需要解决的技术问题:
(1)文物安全类政策文本的政策点提取。每一篇文物安全类政策文本都具有标题层次结构,而文物安全类政策点位于各个标题层次之间,若要建立知识图谱,则需要从各个标题层次中提取政策点,以便于获取政策点中的句子,以此进行关系提取。
(2)文物安全类政策点句子的主语补齐。绝大部分文物安全类政策文本的句子格式里都没有包含主语,若想要进行关系提取,则句子里应包含主、谓、宾三者,因此若选取文物安全类政策文本中的每个政策点句子的执行部门作为主语,补入在这个句子里的句首,即可利用寻常关系提取方法进行三元组关系提取。
(3)对文物安全类政策点句子进行基于词拓展的无监督文本多分类。若要获得每个文物安全类政策点句子需要补充的主语,则需要知道这个句子的执行部门,从而需要对政策点句子进行一个多标签分类。文本分类旨在将文档映射到一组预定义的类别中。有监督的机器学习模型在这方面已经取得了巨大的成功,但是它们需要大量的标记文档来达到足够的精度。而这个问题的困难所在就是没有大量的有标签数据集去支撑有监督分类的需要,因此我们需要使用词拓展方法结合无监督多分类的思路去解决这个问题。如何能够确保最大精确的对无主语文本进行无监督多分类,是关键问题。
发明内容
本发明要解决的技术问题在于针对现有技术中的缺陷,提供一种基于词拓展无监督文本分类的文物安全知识图谱创建方法。
本发明解决其技术问题所采用的技术方案是:
本发明提供一种基于词拓展无监督文本分类的文物安全知识图谱创建方法,该方法包括以下步骤:
步骤1、抽取标题节点信息:获取文物安全类政策文本,设置标题提取规则,利用正则表达式对文物安全类政策文本进行遍历,提取各级标题中的关键政策点;
步骤2、基于词拓展的无监督文本多标签分类:对文物安全类政策有关联的政府部门进行分类,选取一定数量的有关联政府部门,对每个部门抽取其对应的关键词,并对关键词进行词语语义拓展,将拓展后的关键词存入各部门对应的部门代表文档中,将每个部门代表文档转换为代表其特征的向量表示,并根据特征向量计算相似度,进而得到部门的分类结果;
步骤3、关系提取及知识图谱建立:利用无监督多标签分类的结果作为每个文物安全类政策点需要补充的主语,将这些主语补入每个文物安全类政策点句子的句首,然后提取每个句子的三元组关系,最后将提取出来的关系结果构建知识图谱。
进一步地,本发明的所述步骤1的具体方法为:
步骤1.1、构建标题结构提取规则,通过标题结构提取规则遍历整篇文物安全类政策文本,找出其含有的不同的标题格式;
步骤1.2、按标题格式出现的次序划分标题级别,最先出现的标题格式作为一级标题,以此类推;并记录各级标题的深度、同级标题的深度排名、父标题以及该标题内的政策点;
步骤1.3、以文物安全类政策文本的文章名作为根节点,从一级标题开始,将节点内容连接成多叉树形式。
进一步地,本发明的所述步骤1.1中标题结构提取规则具体为:
基于文物安全类政策文本本身的特点,结合自定义标题规则,生成一棵各章节内容表述完整的文档结构树,便于后续提取句子信息,利用python的re 工具库进行提取,正则表达式匹配的标题规则如下表所示:
其中,number表示数字。
进一步地,本发明的所述步骤1.2-1.3的具体方法为:
建立等级列表A,遍历文档的每一段,按照设计的标题规则对段落进行正则匹配;按照先后匹配的顺序,记录标题的格式及其等级;列表A格式为 A=[[{标题格式:...},{标题等级:....}],[...],[...]];
建立主要信息列表B,用于顺序存放每个段落的一系列信息;
遍历文档的每一段,每次遍历都新建立一个临时列表C,按照设计的标题规则对段落进行正则匹配,对于匹配到的段落,列表C以字典形式按顺序存放本次正则匹配到的标题等级、本段落的文本内容、本段落的父亲节点的等级、文本内容,列表C存入列表B尾部;标题等级通过列表A判断,文本内容通过列表B获取;列表C格式为C=[[{父亲节点等级:...},{父亲节点内容:....}],[{本段落节点等级:...},{本段落节点内容:...}]];列表B格式为B=[C,C,C...];
通过列表B按顺序建立多叉树形式,根节点为文档名称,每个节点存放文本内容。
进一步地,本发明的所述步骤2的具体方法为:
步骤2.1、关键词抽取:选取71个文物安全相关的中央政府部门,对于每一个文物安全相关部门中,都建立一个存放其关键词的部门代表文档,从预定的71个部门的官方网页爬取描述其职责的文本,并从中抽取关键词;
步骤2.2、词拓展:对应步骤2.1中各个部门代表文档所获得的关键词,为每个关键词拓展多个同义词并放入部门代表文档;
步骤2.3、词向量表示:将每个部门代表文档转换为代表其特征的向量表示;
步骤2.4、分类:标注多个政策点的执行部门,计算它们的相似度,将其与阈值比较,取相似度大于一定阈值的作为一种分类,得到分类结果。
进一步地,本发明的所述步骤2.1中抽取关键词的具体方法为:
采用无监督关键词提取方法,先抽取出候选词,然后对各个候选词进行打分,输出topK个分值最高的候选词作为关键词;根据打分的策略不同,无监督关键词提取方法主要有三类:基于统计特征的关键词提取TF-IDF;基于词图模型的关键词提取TextRank;基于主题模型的关键词提LDA;其中:
1)TF-IDF关键词抽取:
TF-IDF是对文本所有候选关键词进行加权处理,根据权值对关键词进行排序;TF-IDF的思想是如果某个词语在一篇文章中出现的频率高,并且在其他文章中较少出现,则认为该词语能较好的代表当前文章的含义;即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库中文档出现的频率成反比;其公式如下:
该方法的步骤如下:①对文本D进行分词、词性标注和去除停用词等数据预处理操作,保留需要的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn];②计算词语在文本D中的词频TF;计算词语在整个语料的逆文档词频IDF;③计算得到词语ti的TF-IDF,并重复②-④得到所有候选关键词的TF-IDF 数值;④对候选关键词计算结果进行倒序排列,得到排名前TopN个词汇作为文本关键词;
2)TextRank关键词抽取:
基于TextRank的文本关键词抽取是利用局部词汇关系,即共现窗口,对候选关键词进行排序,该方法的步骤如下:①对文本D进行分词、词性标注和去除停用词等数据预处理操作,保留需要的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn];②构建候选关键词图G=(V,E),其中V为节点集,由候选关键词组成,并采用共现关系构造任两点之间的边,两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边,K表示窗口大小即最多共现K 个词汇;③根据谷歌提出的经典的pagerank计算公式迭代计算各节点的权重,直至收敛;④对节点权重进行倒序排列,得到排名前TopN个词汇作为文本关键词;
3)LDA关键词抽取:
LDA的每个主题由N个单词*概率的集合来代表;每个文本属于k个主题,把k个主题所包含的词赋予该文档,便得到每个文档的候选词关键词;如果文档分词后得到的词语在候选关键词中,那么将其作为关键词提取出来;①对文本D进行分词、词性标注和去除停用词等数据预处理操作,保留需要的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn];②使用python机器学习库gensim 自带的LDAmodel基于文档语料生成LDA模型;③将模型用于某个文本得到该文本的topic概率分布和排名前TopN的关键词;
根据上述三种关键词提取方法分别提取各个文物安全类部门的职责文本中的5个关键词,然后在进行人工筛选,将结果放入每个文物安全类部门相对应的部门代表文档,每个部门代表文档含有5~20个关键词。
进一步地,本发明的所述步骤2.2中词拓展的具体方法为:
词拓展的第一步,使用哈工大的中文同义词词林,在python中执行,为每个关键词拓展3个同义词并放入部门代表文档,同义词词林是哈尔滨工业大学信息检索实验室利用众多词语相关资源,并投入大量的人力和物力,完成了一部具有汉语大词表,含有比较丰富的语义信息,引用其进行词拓展的python 代码如下:
import synonyms#导入同义词词林
for word in words:#获取原有关键词
list1=synonyms.nearby(word,3)#获取每个词前3个同义词
for x in range(len(list1[0])):
words.append(list[0][x])#更新关键词
词拓展的第二步,将部门代表文档中的词,使用预训练中文维基百科 GLOVE词向量模型,在这个词向量模型中寻找部门代表文档中每个词的 GLOVE词向量最相近的3个词语,放入部门代表文档。GLOVE是一个基于全局词频统计的词表征工具。它可以把一个单词表示成一个由实数组成的向量,向量可以捕捉单词之间的一些语义特性,如相似性、类比性。在github上下载开源公用的预训练GLOVE词向量模型后,引用其进行词拓展的python代码如下:
from gensim.models import KeyedVectors#引用gensim机器学习工具库
tmp_file="word2vec_chinese_wiki_embeding20000.txt"#GLOVE词向量路径
model=KeyedVectors.load_word2vec_format(tmp_file)#加载模型
for word in words:#获取原有关键词
list1=model.most_similar(word,topn=3)#获取每个词前3个同义词
for x in range(len(list1)):
words.append(list[x][0])#更新关键词
最后再将所爬取的职责文本的单词去除停用词、常用词,高频词后,也一并放类别部门代表文档中。
进一步地,本发明的所述步骤2.3中词向量表示的具体方法为:
采用TFIDF统计方法,用来衡量字词对于文本的重要程度;字词的重要性随着它在当前文本中出现的频率成正比,随着它在语料库中其他文本中出现的频率成反比;将代表71个部门代表文档和即将要分类的政策点句子转换为 TFIDF向量。
进一步地,本发明的所述步骤2.4中进行分类的具体方法为:
在现有文本存在的少量有标签数据中,抽取3000个政策点文本及其执行部门作为数据,计算这3000个数据中文本和执行部门代表文档的TFIDF相似度,求和取平均,将其作为代表经验性的阈值α;对于每一个文物安全类政策点,计算其和各个部门代表文档的余弦相似度,取相似度大于α的部门作为分类结果。
进一步地,本发明的所述3中的具体方法为:
利用无监督多标签分类的结果作为每个文物安全类政策点需要补充的主语,将这些主语补入每个文物安全类政策点句子的句首;然后利用python的ltp工具库,使用其自带的依存语法分析的关系提取方法提取每个句子的三元组关系,将每句话的提取结果放入excel表;最后利用neo4j将提取出来的关系结果构建知识图谱。
本发明产生的有益效果是:本发明的基于词拓展无监督文本分类的文物安全知识图谱创建方法,能够有效的完成对文物安全类非结构化文本的结构解析,解决文物安全类非结构化数据无法进行关系提取的难题,从而构建文物安全文本知识图谱。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例的知识图谱构建流程图;
图2是本发明实施例的基于政策文本格式规则的标题多叉树示例;
图3是本发明实施例的结合无监督分类构建的知识图谱。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例的基于词拓展无监督文本分类的文物安全知识图谱创建方法,包括基于正则表达式的文物安全类文本结构树提取,得到文章的主要内容;利用提取职责文本关键词方法构建文物安全类相关政府初始部门代表文档,并使用同义词词林和预训练Glove模型进行词拓展,得到文物安全类相关政府部门类别代表文档;设置阈值,基于相似度使用无监督多标签分类,得到每个文物安全类政策点句子的最可能执行部门;利用依存句法分析进行关系提取,最后使用neo4j构建图数据库,形成知识图谱。具体包括以下步骤:
1)设置标题提取规则,利用正则表达式对文物安全类政策文本提取关键政策点
针对文物安全类政府公文的文章结构,设置用于正则表达式的标题提取规则,将每篇文物安全类政府公文转换为一个标题多叉树形式,结点即为所需要的文物安全类政策点。
2)对文物类政策点句子进行基于词拓展的无监督多部门标签文本分类。
通过对各个文物类相关政府部门的官方网站,爬取描述各个部门的职责文本。通过人工及一些主流的关键词提取方法,获取代表各个部门的职责描述文本的关键词,放入代表该部门的文档。通过中文同义词词林、预训练维基百科 GLOVE词向量模型寻找同义词、近义词,拓展这些文档中的关键词。后通过向量特征表示方法,将这些部门代表文档以及要分类的政策点转换为TFIDF 空间向量。通过计算政策点的向量和各个政府部门代表文档的空间向量的余弦相似度,同时通过经验设置一个阈值,将相似度大于这个阈值的部门作为这个政策点的分类结果,以此达到分类目的。
3)补齐的文物类政策点的无主语句子,进行关系提取
将每个无主语句子的分类结果补入其句首作为主语,利用传统的依存语法分析关系提取方法提取每个句子的三元组关系。最后利用neo4j将提取出来的关系结果构建知识图谱。
在本发明的另一个具体实施例中:
1)抽取标题节点信息
文物安全类政策文本的标题一般含有中文数字或者阿拉伯数字,表述形式较为统一。正则表达式使用单个字符串可以描述一系列满足某个句法规则的字符串集合,逐渐成为深度检测中规则描述和匹配的首选方法。
基于文物安全类政策文本本身的特点,结合自定义标题规则,生成一棵各章节内容表述完整的文档结构树,便于后续提取句子信息。利用python的re 工具库进行提取,正则表达式规则如表1所示:
表1标题结构提取规则
(表中chinesenumber=(一|二|....|一百|1|2|.....|100))
步骤1.1:通过表1规则遍历整篇文章,找出其一共含有多少个不同的标题格式
步骤1.2:将先出现的标题格式作为一级标题,以此类推。并记录各个标题的深度、同级(深度)排名、父标题以及该标题内的政策点。
步骤1.3:以文章名作为根节点,从一级标题开始,将节点内容连接成多叉树形式,便于分析和提取,如图2。
利用文物安全类政策文本所赋予的标题信息,可有效的抽取文本中的文物安全类政策点内容及层次信息,排除掉不必要内容(非政策点)。
2)基于词拓展的无监督文本多标签分类
在面向文物安全类政策的文本数据分类时,需要对和文物安全有关联的政府部门进行一个分类(这里选取了71个中央政府部门),但无法获取大量的对应标记数据,不足以支持有监督学习的分类方法。因此选取无监督结合词拓展的分类方法。
步骤2.1(关键词抽取):对于每一个文物安全相关部门中,都建立一个存放其相关词的部门代表文档。从预定的71个部门的官方网页爬取描述其职责的文本。
在这里引入关键词提取方法,关键词是能够表达代表文档中心内容的词语,常用于计算机系统标引论文内容特征、信息检索、系统汇集以供读者检阅。从算法的角度来看,关键词提取算法主要有两类:无监督关键词提取方法和有监督关键词提取方法。而无监督关键词提取方法不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词提取。该方法是先抽取出候选词,然后对各个候选词进行打分,然后输出topK个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,无监督关键词提取方法主要有三类:基于统计特征的关键词提取(TF-IDF);基于词图模型的关键词提取(TextRank);基于主题模型的关键词提取(LDA)。TF-IDF关键词提取算法的思想是利用文档中词语的统计信息抽取文档的关键词;TextRank关键词提取首先要构建文档的语言网络图,然后对语言进行网络图分析,在这个图上寻找具有重要作用的词或者短语;LDA关键词提取算法主要利用的是主题模型中关于主题分布的性质进行关键词提取。为了能够获取最大代表这个文物安全类部门的词,利用上述三种关键词提取方法分别提取各个文物安全类部门的职责文本中的5个关键词,然后在进行人工筛选。将结果放入每个文物安全类部门相对应的代表文档。每个部门代表文档大概含有5~20个关键词。
步骤2.2(词拓展):对应步骤1中各个部门代表文档所获得的关键词,使用哈工大的中文同义词词林,在python中执行,为每个关键词拓展3个同义词并放入部门代表文档。词拓展的第二步,将部门代表文档中的词,使用预训练中文维基百科GLOVE词向量模型,在这个词向量模型中寻找部门代表文档中每个词的GLOVE词向量最相近的3个词语,放入部门代表文档。再将所爬取的职责文本的单词去除停用词、常用词,高频词后,也一并放类别部门代表文档中。
步骤2.3(词向量表示):需要将每个部门代表文档转换为代表其特征的向量表示。TFIDF是一种统计方法,用来衡量字词对于文本的重要程度。字词的重要性随着它在当前文本中出现的频率成正比,随着它在语料库中其他文本中出现的频率成反比。这里将代表71个部门代表文档和即将要分类的政策点句子转换为TFIDF向量。
步骤2.4(分类):在现有文本存在的少量有标签数据中,抽取3000个政策点文本及其执行部门作为数据,计算这3000个数据中文本和执行部门代表文档的TFIDF相似度,求和取平均,将其作为代表经验性的阈值α。对于每一个文物安全类政策点,计算其和各个部门代表文档的余弦相似度,取相似度大于α的部门作为分类结果
选取汉明损失以及Micro的精确率、召回率、F1分数作为评估指标。评估结果如表2所示:
表2无监督分类结果对比
3)关系提取及知识图谱建立
利用无监督多标签分类的结果作为每个文物安全类政策点需要补充的主语,将这些主语补入每个文物安全类政策点句子的句首。然后利用python的 ltp工具库,使用依存语法分析的关系提取方法提取每个句子的三元组关系。最后利用neo4j将提取出来的关系结果构建知识图谱。
实验分析如下:
1)本发明使用pycharm包含的re工具库对文物安全类政策文本进行了标题节点信息的抽取。能够有效的抽取文本中的政策点内容,如图2、表3所示。
当前文本内容 | 父标题内容 | 政策主标题 | 标题深度 |
一、...... | Title | Title | 1 |
(一)、...... | 一、...... | Title | 2 |
(二)、...... | 一、...... | Title | 2 |
(三)、...... | 一、...... | Title | 2 |
(四)、...... | 一、...... | Title | 2 |
二、...... | Title | Title | 1 |
(一)、...... | 二、...... | Title | 2 |
(二)、...... | 二、...... | Title | 2 |
(三)、...... | 二、...... | Title | 2 |
(四)、...... | 二、...... | Title | 2 |
(五)、...... | 二、...... | Title | 2 |
三、...... | Title | Title | 1 |
(一)、...... | 三、...... | Title | 2 |
(二)、...... | 三、...... | Title | 2 |
...... | ...... | ...... | ...... |
表3文物安全类政策点提取结果示例
2)利用python进行关键词抽取,结果表4所示:
文物相关部门 | 人工筛选关键词 |
A部门 | 产业化软件化通信工业...... |
B部门 | 古城历史文物博物馆...... |
C部门 | 出版传承普及弘扬文艺...... |
...... | ...... |
表4关键词提取结果
3)利用无监督多标签分类方法,结果如表5所示:
政策点内容 | 分类结果 |
...... | A部门B部门...... |
...... | C部门D部门...... |
...... | E部门F部门...... |
...... | ...... |
表5无监督多标签分类结果 4)利用LTP进关系提取和主语补齐后结果如表6所示:
主 | 谓 | 宾语 | 政策主标题 |
A部门 | 强化 | 保障措施 | Title |
B部门 | 保护 | 文物安全 | Title |
C部门 | 务实 | 文明建设 | Title |
D部门 | 保障 | 信息安全 | Title |
...... | ...... | ...... | ...... |
表6关系提取结果
5)最后通过python工具包py2neo建立节点及节点间关系,连接neo4j 建立图数据库,如图3所示。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,该方法包括以下步骤:
步骤1、抽取标题节点信息:获取文物安全类政策文本,设置标题提取规则,利用正则表达式对文物安全类政策文本进行遍历,提取各级标题中的关键政策点;
步骤2、基于词拓展的无监督文本多标签分类:对文物安全类政策有关联的政府部门进行分类,选取一定数量的有关联政府部门,对每个部门抽取其对应的关键词,并对关键词进行词语语义拓展,将拓展后的关键词存入各部门对应的部门代表文档中,将每个部门代表文档转换为代表其特征的向量表示,并根据特征向量计算相似度,进而得到部门的分类结果;
步骤3、关系提取及知识图谱建立:利用无监督多标签分类的结果作为每个文物安全类政策点需要补充的主语,将这些主语补入每个文物安全类政策点句子的句首,然后提取每个句子的三元组关系,最后将提取出来的关系结果构建知识图谱。
2.根据权利要求1所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述步骤1的具体方法为:
步骤1.1、构建标题结构提取规则,通过标题结构提取规则遍历整篇文物安全类政策文本,找出其含有的不同的标题格式;
步骤1.2、按标题格式出现的次序划分标题级别,最先出现的标题格式作为一级标题,以此类推;并记录各级标题的深度、同级标题的深度排名、父标题以及该标题内的政策点;
步骤1.3、以文物安全类政策文本的文章名作为根节点,从一级标题开始,将节点内容连接成多叉树形式。
4.根据权利要求2所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述步骤1.2-1.3的具体方法为:
建立等级列表A,遍历文档的每一段,按照设计的标题规则对段落进行正则匹配;按照先后匹配的顺序,记录标题的格式及其等级;列表A格式为A=[[{标题格式:...},{标题等级:....}],[...],[...]];
建立主要信息列表B,用于顺序存放每个段落的一系列信息;
遍历文档的每一段,每次遍历都新建立一个临时列表C,按照设计的标题规则对段落进行正则匹配,对于匹配到的段落,列表C以字典形式按顺序存放本次正则匹配到的标题等级、本段落的文本内容、本段落的父亲节点的等级、文本内容,列表C存入列表B尾部;标题等级通过列表A判断,文本内容通过列表B获取;列表C格式为C=[[{父亲节点等级:...},{父亲节点内容:....}],[{本段落节点等级:...},{本段落节点内容:...}]];列表B格式为B=[C,C,C...];
通过列表B按顺序建立多叉树形式,根节点为文档名称,每个节点存放文本内容。
5.根据权利要求1所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述步骤2的具体方法为:
步骤2.1、关键词抽取:选取71个文物安全相关的中央政府部门,对于每一个文物安全相关部门中,都建立一个存放其关键词的部门代表文档,从预定的71个部门的官方网页爬取描述其职责的文本,并从中抽取关键词;
步骤2.2、词拓展:对应步骤2.1中各个部门代表文档所获得的关键词,为每个关键词拓展多个同义词并放入部门代表文档;
步骤2.3、词向量表示:将每个部门代表文档转换为代表其特征的向量表示;
步骤2.4、分类:标注多个政策点的执行部门,计算它们的相似度,将其与阈值比较,取相似度大于一定阈值的作为一种分类,得到分类结果。
6.根据权利要求5所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述步骤2.1中抽取关键词的具体方法为:
采用无监督关键词提取方法,先抽取出候选词,然后对各个候选词进行打分,输出topK个分值最高的候选词作为关键词;根据打分的策略不同,无监督关键词提取方法主要有三类:基于统计特征的关键词提取TF-IDF;基于词图模型的关键词提取TextRank;基于主题模型的关键词提LDA;其中:
1)TF-IDF关键词抽取:
TF-IDF是对文本所有候选关键词进行加权处理,根据权值对关键词进行排序;TF-IDF的思想是如果某个词语在一篇文章中出现的频率高,并且在其他文章中较少出现,则认为该词语能较好的代表当前文章的含义;即一个词语的重要性与它在文档中出现的次数成正比,与它在语料库中文档出现的频率成反比;其公式如下:
该方法的步骤如下:①对文本D进行分词、词性标注和去除停用词等数据预处理操作,保留需要的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn];②计算词语在文本D中的词频TF;计算词语在整个语料的逆文档词频IDF;③计算得到词语ti的TF-IDF,并重复②—④得到所有候选关键词的TF-IDF数值;④对候选关键词计算结果进行倒序排列,得到排名前TopN个词汇作为文本关键词;
2)TextRank关键词抽取:
基于TextRank的文本关键词抽取是利用局部词汇关系,即共现窗口,对候选关键词进行排序,该方法的步骤如下:①对文本D进行分词、词性标注和去除停用词等数据预处理操作,保留需要的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn];②构建候选关键词图G=(V,E),其中V为节点集,由候选关键词组成,并采用共现关系构造任两点之间的边,两个节点之间仅当它们对应的词汇在长度为K的窗口中共现则存在边,K表示窗口大小即最多共现K个词汇;③根据谷歌提出的经典的pagerank计算公式迭代计算各节点的权重,直至收敛;④对节点权重进行倒序排列,得到排名前TopN个词汇作为文本关键词;
3)LDA关键词抽取:
LDA的每个主题由N个单词*概率的集合来代表;每个文本属于k个主题,把k个主题所包含的词赋予该文档,便得到每个文档的候选词关键词;如果文档分词后得到的词语在候选关键词中,那么将其作为关键词提取出来;①对文本D进行分词、词性标注和去除停用词等数据预处理操作,保留需要的词语,最终得到n个候选关键词,即D=[t1,t2,…,tn];②使用python机器学习库gensim自带的LDAmodel基于文档语料生成LDA模型;③将模型用于某个文本得到该文本的topic概率分布和排名前TopN的关键词;
根据上述三种关键词提取方法分别提取各个文物安全类部门的职责文本中的5个关键词,然后在进行人工筛选,将结果放入每个文物安全类部门相对应的部门代表文档,每个部门代表文档含有5~20个关键词。
7.根据权利要求5所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述步骤2.2中词拓展的具体方法为:
词拓展的第一步,使用哈工大的中文同义词词林,在python中执行,为每个关键词拓展3个同义词并放入部门代表文档;词拓展的第二步,将部门代表文档中的词,使用预训练中文维基百科GLOVE词向量模型,在这个词向量模型中寻找部门代表文档中每个词的GLOVE词向量最相近的3个词语,放入部门代表文档;再将所爬取的职责文本的单词去除停用词、常用词,高频词后,也一并放类别部门代表文档中。
8.根据权利要求5所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述步骤2.3中词向量表示的具体方法为:
采用TFIDF统计方法,用来衡量字词对于文本的重要程度;字词的重要性随着它在当前文本中出现的频率成正比,随着它在语料库中其他文本中出现的频率成反比;将代表71个部门代表文档和即将要分类的政策点句子转换为TFIDF向量。
9.根据权利要求5所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述步骤2.4中进行分类的具体方法为:
在现有文本存在的少量有标签数据中,抽取3000个政策点文本及其执行部门作为数据,计算这3000个数据的相似度,求和取平均,将其作为代表经验性的阈值α;对于每一个文物安全类政策点,计算其和各个部门代表文档的余弦相似度,取相似度大于α的部门作为分类结果。
10.根据权利要求1所述的基于词拓展无监督文本分类的文物安全知识图谱创建方法,其特征在于,所述3中的具体方法为:
利用无监督多标签分类的结果作为每个文物安全类政策点需要补充的主语,将这些主语补入每个文物安全类政策点句子的句首;然后利用python的ltp工具库,使用其自带的依存语法分析的关系提取方法提取每个句子的三元组关系,将每句话的提取结果放入excel表;最后利用neo4j将提取出来的关系结果构建知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111269811.8A CN114138979B (zh) | 2021-10-29 | 2021-10-29 | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111269811.8A CN114138979B (zh) | 2021-10-29 | 2021-10-29 | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114138979A true CN114138979A (zh) | 2022-03-04 |
CN114138979B CN114138979B (zh) | 2022-09-16 |
Family
ID=80394938
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111269811.8A Active CN114138979B (zh) | 2021-10-29 | 2021-10-29 | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114138979B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861221A (zh) * | 2022-04-28 | 2022-08-05 | 南京大学 | 一种基于程序上下文的移动应用敏感行为描述生成方法 |
CN116402046A (zh) * | 2023-06-09 | 2023-07-07 | 电子科技大学成都学院 | 基于招聘信息的岗位词条构建方法 |
CN118366175A (zh) * | 2024-06-19 | 2024-07-19 | 湖北微模式科技发展有限公司 | 一种基于字频的文档图像分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
WO2020056154A1 (en) * | 2018-09-14 | 2020-03-19 | Jpmorgan Chase Bank, N.A. | Systems and methods for generating and using knowledge graphs |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111444723A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取模型训练方法、装置、计算机设备和存储介质 |
CN111708882A (zh) * | 2020-05-29 | 2020-09-25 | 西安理工大学 | 基于Transformer的中文文本信息缺失的补全方法 |
CN112182230A (zh) * | 2020-11-27 | 2021-01-05 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
CN113204649A (zh) * | 2021-05-11 | 2021-08-03 | 西安交通大学 | 基于实体关系联合抽取的法律知识图谱构建方法及设备 |
-
2021
- 2021-10-29 CN CN202111269811.8A patent/CN114138979B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874878A (zh) * | 2018-05-03 | 2018-11-23 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
WO2020056154A1 (en) * | 2018-09-14 | 2020-03-19 | Jpmorgan Chase Bank, N.A. | Systems and methods for generating and using knowledge graphs |
CN111145052A (zh) * | 2019-12-26 | 2020-05-12 | 北京法意科技有限公司 | 司法文书的结构化分析方法及系统 |
CN111444723A (zh) * | 2020-03-06 | 2020-07-24 | 深圳追一科技有限公司 | 信息抽取模型训练方法、装置、计算机设备和存储介质 |
CN111708882A (zh) * | 2020-05-29 | 2020-09-25 | 西安理工大学 | 基于Transformer的中文文本信息缺失的补全方法 |
CN112182230A (zh) * | 2020-11-27 | 2021-01-05 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
CN113204649A (zh) * | 2021-05-11 | 2021-08-03 | 西安交通大学 | 基于实体关系联合抽取的法律知识图谱构建方法及设备 |
Non-Patent Citations (2)
Title |
---|
STEFAN HIRSCHMEIER等: "Improving Recall and Precision in Unsupervised Multi-Label Document Classification Tasks by Combining Word Embeddings with TF-IDF", 《ECIS 2020 RESEARCH PAPERS》 * |
邹烨翰: "军事条令条例知识图谱构建技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)社会科学Ⅰ辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114861221A (zh) * | 2022-04-28 | 2022-08-05 | 南京大学 | 一种基于程序上下文的移动应用敏感行为描述生成方法 |
CN114861221B (zh) * | 2022-04-28 | 2024-03-19 | 南京大学 | 一种基于程序上下文的移动应用敏感行为描述生成方法 |
CN116402046A (zh) * | 2023-06-09 | 2023-07-07 | 电子科技大学成都学院 | 基于招聘信息的岗位词条构建方法 |
CN116402046B (zh) * | 2023-06-09 | 2023-08-18 | 电子科技大学成都学院 | 基于招聘信息的岗位词条构建方法 |
CN118366175A (zh) * | 2024-06-19 | 2024-07-19 | 湖北微模式科技发展有限公司 | 一种基于字频的文档图像分类方法 |
CN118366175B (zh) * | 2024-06-19 | 2024-09-24 | 湖北微模式科技发展有限公司 | 一种基于字频的文档图像分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114138979B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN110334178B (zh) | 数据检索方法、装置、设备及可读存储介质 | |
CN114138979B (zh) | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 | |
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
CN109960786A (zh) | 基于融合策略的中文词语相似度计算方法 | |
Tiun et al. | Automatic topic identification using ontology hierarchy | |
CN109670014B (zh) | 一种基于规则匹配和机器学习的论文作者名消歧方法 | |
CN106997382A (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN110888991B (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN114706972B (zh) | 一种基于多句压缩的无监督科技情报摘要自动生成方法 | |
Chen et al. | Single document keyword extraction via quantifying higher-order structural features of word co-occurrence graph | |
CN115292450A (zh) | 一种基于信息抽取的数据分类分级领域知识库构建方法 | |
CN115757819A (zh) | 裁判文书中引用法条信息获取方法及装置 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Zehtab-Salmasi et al. | FRAKE: fusional real-time automatic keyword extraction | |
Qiu et al. | Improving textrank algorithm for automatic keyword extraction with tolerance rough set | |
Dawar et al. | Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook | |
CN114580557A (zh) | 基于语义分析的文献相似度确定方法及装置 | |
CN109543001A (zh) | 一种表征科研论文研究内容的科技词条抽取方法 | |
Wang et al. | Course concept extraction in MOOC via explicit/implicit representation | |
Lai et al. | An unsupervised approach to discover media frames | |
CN115712656A (zh) | 一种资料数据库自动对比的项目查重系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |