CN115292518A - 基于知识型信息抽取的配电网故障处理方法及系统 - Google Patents
基于知识型信息抽取的配电网故障处理方法及系统 Download PDFInfo
- Publication number
- CN115292518A CN115292518A CN202210990877.4A CN202210990877A CN115292518A CN 115292518 A CN115292518 A CN 115292518A CN 202210990877 A CN202210990877 A CN 202210990877A CN 115292518 A CN115292518 A CN 115292518A
- Authority
- CN
- China
- Prior art keywords
- power distribution
- distribution network
- knowledge
- fault
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 57
- 238000003672 processing method Methods 0.000 title claims abstract description 10
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 22
- 230000007246 mechanism Effects 0.000 claims description 18
- 238000003745 diagnosis Methods 0.000 claims description 10
- 230000004927 fusion Effects 0.000 claims description 8
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 3
- 238000013527 convolutional neural network Methods 0.000 description 17
- 238000012549 training Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000013401 experimental design Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 239000013067 intermediate product Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于知识型信息抽取的配电网故障处理方法及系统,将含有非结构化的配电网故障处理信息转化为文本数据,并进行文本数据中的实体抽取,建立实体及实体间关系的配电网故障处理知识图谱;对故障后的配电网故障处理信息进行文本实体抽取,将抽取的文本实体数据链接到所建立的配电网故障处理知识图谱对应的实体数据;若在配电网故障处理知识图谱中查询到与故障后运行方式保持一致的配电网故障类型,则返回故障类型与相应的处置要点信息;否者,人工辅助作出故障处置。系统通过构造配电领域的知识图谱,建立基于知识型信息的搜索引擎,智能地分析和挖掘大量的配电作业流程及管理数据,提高了配电网数据检索的准确性和智能性。
Description
技术领域
本发明涉及输配电技术领域,具体涉及一种基于知识型信息抽取的配电网故障处理方法及系统。
背景技术
当前,配电网出现故障后的处理,依靠的是人为的主观判断,技术人员通过对故障后的状态和参数的变化进行实时的分析,找出造成配电网故障的原因,并采取相应的处理方法。由于目前配电网的故障处理还很大程度上依靠书面的操作规程、处理方案、事故预案和操作人员的经验,造成了事故处理时限长、误操作等问题,而将操作规程、事故预案等非结构化的内容转换为结构化的知识信息,开展了“知识型”的知识网络建设和知识解析技术,为“计算型”电网的综合安全监测提供了辅助决策支持。
目前,在电力领域中,一般都是使用规则模板或者领域词典来进行知识提取。该方法要求在领域专家的协助下建立和维护领域词典,然后用人工编制大量的规则模板来提取知识。但是,由于规则模板的使用范围有限,不能很好地满足复杂的语言环境和变化的实际应用要求。在配电网故障处理领域,文本分类工作对预想故障应采取的处理措施,基于文本分类的人工分类方法不但效率较低,而且需要较高的专业技术水平。
因此,一种基于知识型信息抽取与分类的配电网故障处理方法的提出,具有一定的理论基础和现实意义。
发明内容
为了提高电力系统运行的稳定性、可靠性,在不同任务场景下的做出精准判断和操作,避免延长故障时间,本发明提出了一种基于知识型信息抽取的配电网故障处理辅助决策方法及系统。
所采用的技术方案如下:
一方面,本发明提供了一种基于知识型信息抽取的配电网故障处理方法,所述方法包括如下步骤:
步骤1,将含有非结构化的配电网故障处理预案文本转化为文本数据,并进行文本数据中的实体抽取,建立实体及实体间关系的配电网故障处理知识图谱;
步骤2,根据采集到的配电网故障信息,得到配电网故障后运行方式报告;
步骤3,对故障后运行方式报告进行预案文本分类、命名实体识别和实体关系抽取,将抽取的文本实体数据链接到步骤1中配电网故障处理知识图谱对应的实体数据;
步骤4,若在步骤1中的配电网故障处理知识图谱中查询到与故障后运行方式保持一致的配电网故障类型,则返回故障类型与相应的处置要点信息;否者,人工辅助作出故障处置。
进一步地,所述步骤4中,若在所构建的配电网故障处理知识图谱中查询的故障类型与故障后运行方式不一致时,判断所输出的配电网故障处理信息存在知识更新,则将抽取后的新增文本实体数据及类型更新至配电网故障处理知识图谱中,形成更新后的配电网故障处理知识图谱。
优选地,所述步骤3中的预案文本分类采用TextCNN模型对预案文本进行分类和标注;
所述步骤3中的命名实体识别采用基于Lexicon Rethinking机制的CNN模型对配电网故障处理中的命名实体进行识别和求解,用于提取文本实体数据中的字符、候选词特征,并利用Rethinking机制将字符特征和候选词特征进行融合;
所述步骤3中的实体关系抽取采用具有双向门控循环BiGRUD的BiLSTM-Attention模型,利用Word2vec作为词嵌入层,将输入文本实体数据转换为数值向量,用于判定实体数据之间是否存在预定义的关系。
进一步地,将抽取的文本实体数据链接到所建立的配电网故障处理知识图谱对应的实体数据,其具体方法:针对非结构化文本数据,根据配电网设备台账数据中的设备名称,建立配电网设备字典,利用欧氏距离算法,通过字典中的实体匹配,获得与所选实体相似性最大的实体目标,并将抽取实体与相应的实体进行链接,再通过关系数据库到RDF转换技术,将现有的电力系统关系数据库整合到新的配电网故障处理知识图谱中。
进一步地,所述的知识更新包括模式层更新步骤和数据层更新步骤,所述的模式层更新步骤是在当前模式层中,新增数据中出现新增类型时,将新增类型更新到当前模式层中;其中的数据层更新步骤是在当前模式层指导下,将新增数据进行知识抽取与知识融合后更新到配电网故障处理知识图谱中。
优选地,所建立的配电网故障处理知识图谱采用Neo4j图数据库构建,采用Cypher查询语句来搜索与分析内容相符的信息。
另一方面,本发明还提供了,所述系统包括知识图谱、预处理模块、知识抽取模块、知识融合模块和诊断与处理模块,所述预处理模块用于对包含的非结构化配电网故障信息转换为文本数据;所述知识抽取模块用于对输出的配电网故障处理信息进行文本实体抽取,并通过所述知识融合模块将抽取的文本实体数据链接到所述知识图谱对应的实体数据上;所述诊断与处理模块用于判断在所述知识图谱中查询到的故障类型与故障后运行方式是否一致,若二者保持一致,则返回故障类型与相应的处置要点信息,否者,人工辅助作出故障处置。
进一步地,所述系统还包括知识更新模块,所述知识更新模块将抽取后的新增文本实体数据及类型更新至所述知识图谱中,形成更新后的配电网故障处理知识图谱。
进一步地,所述知识抽取模块中包含有预案文本分类模块、命名实体识别模块和实体关系抽取模块,所述预案文本分类模块用于对预案文本进行分类和标注;所述命名实体识别模块用于对配电网故障处理中的命名实体进行识别和求解,提取文本实体数据中的字符、候选词特征,并利用Rethinking机制将字符特征和候选词特征进行融合;所述实体关系抽取模块用于判定实体之间是否存在预定的关系。
一种计算机可读存储介质,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行,以实现所述的基于知识型信息抽取的配电网故障处理方法和系统。
本发明技术方案具有如下优点:
A.本发明为了提高系统中的数据利用率,通过构造配电领域的知识图谱,建立了一个基于知识型信息的搜索引擎,智能地分析和挖掘大量的配电作业流程及管理数据,将其与配电行业的数据进行关联、数据可视化,提高了配电网数据检索的准确性和智能性,可以对数据的潜在关联进行精确的分析。
B.与传统知识组织和管理方式相比,本发明建立了一个配电网故障处理领域的知识图谱,并以图的方式将其组织、储存起来,使之成为机器所能了解和处理的知识,并运用计算机进行语义检索、辅助决策,从而为故障处理提供智能的信息服务和应用。
C.本发明采用了TextCNN模型,相较于传统模型使用词向量导致的分词误差,本发明基于字向量可以精准、快速地对预案文本进行自动分类;同时,本发明采用了基于Lexicon Rethinking机制的CNN网(LR-CNN),对电网故障处理中的命名实体进行了识别和求解,通过提取文本中的字符、候选词特征,并利用Rethinking机制将二者特征融合,达到了降低候选词权重的目的,有效解决候选词冲突的问题。
附图说明
为了更清楚地说明本发明具体实施方式,下面将对具体实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所提供的BiGRU-Attention模型结构图;
图2是本发明所提供的额Euclidean Distance对比算法流程图;
图3是本发明所提供的配电网故障处理流程图;
图4是本发明所提供的配电网故障处理系统知识图谱建立与更新流程图;
图5是本发明所提供的模型训练曲线。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供了一种基于知识型信息抽取的配电网故障处理辅助决策方法,包括如下步骤:
【S001】将含有非结构化的配电网故障处理预案文本转化为文本数据,并进行文本数据中的实体抽取,建立实体及实体间关系的配电网故障处理知识图谱。
本发明通过非(半)结构化数据抽取获得结构化数据,具体包括有实体、实体间关系以及属性等。具体步骤如下:
本发明采用了TextCNN模型,相较于传统模型使用词向量导致的分词误差,TextCNN模型基于字向量可以有效地解决该问题,精准、快速地对预案文本进行自动分类,可以满足复杂的语言环境和变化的实际应用要求。
命名实体识别是指识别文本中具有特定含义的实体,本发明采用了基于LexiconRethinking机制的CNN网(LR-CNN),对配电网故障处理中的命名实体进行了识别和求解,可以提取文本中的字符、候选词的特征,并利用Rethinking机制将二者特征进行融合。由于基于CNN的层次化特点,无法由下向上引用到相应的数据,从而无法有效地处理候选词的权重,本发明在各个CNN层中加入Rethinking机制,将反馈层加入CNN层,下级注意模块的权重将由上级词符信息的内容决定,通过该方法来达到降低候选词权重的目的,有效地解决候选词冲突这一问题。
表1 命名实体示例
同时,本发明引入注意力机制的实体关系抽取方法,实体关系抽取就是判定实体之间是否有预先确定的关联,由此形成一套三元组知识。
表2 故障处理实体示例
与命名实体识别任务不同,实体关系抽取基于词向量展开模型训练,本发明的实体关系抽取模型采用了一种常用的Word2vec作为词嵌入层(Embedding layer),将输入文本转换为机器能处理的数值向量。
Word2vec是一种能够将文本信息融合到数值向量中的神经网络模型。Word2vec是一种非监督的学习算法,它首先把单词映射成一个独热向量(one-hot),维度为所有不重复词语的总数,然后利用神经网络进行训练,从而获得一个中间产品的词向量。有两种常用的Word2vec训练方式:CBOW和skip-grams,本发明优选采用的是CBOW训练方式,CBOW的工作原理是根据上下文的文本来预测当前文本概率,该算法以目标单词下面的唯一热编码为输入,并对其进行了预测。
注意力机制(Attention)源自于人的视觉特征。人可以把视线聚焦在特定的区域,从而增强辨别和获得重要信息的能力,同时也可以降低环境中不相关的信息。注意力机制能够确定哪些关键信息是值得注意的,并为它们分配特定的信息处理资源。这一概念衍生至机器学习和深度学习,模型可以通过注意力机制为较重要的信息赋予较高权重,从而在有限的信息处理能力下获得更好的效果。本发明基于BiLSTM-Attention模型,采用了一个较少参数的双向门控循环(BiGRU),从而加快了模型的学习速度。图1显示了双向门控循环-注意力机制(BiGRU-Attention)模型的结构,其由下至上依次包括单词序列层(Wordsequence layer)、注嵌入层(Embedding layer)、双向门控循环层(BiGRU layer)、注意力机理层(Attention layer)和输出层(Output layer)。
BiGRU-Attention模型将注意力机理层引入到BiGRU层中,索引影响关系分类的关键词,并在学习中获得了一个权重,使关键词的重要性得以提升,这样就可以提高关联提取的精确度。
【S002】根据采集到的配电网故障信息,得到配电网故障后运行方式报告。建立好知识图谱后,当配电网发生故障时,数据采集与监视控制系统采集配电网发生故障时的故障信息,并生成故障后运行方式报告。
【S003】对故障后运行方式报告进行预案文本分类、命名实体识别和实体关系抽取,将抽取的文本实体数据链接到步骤【S003】中配电网故障处理知识图谱对应的实体数据。
本发明将抽取的文本实体数据采用知识融合方式链接到知识图谱对应的实体数据上,主要涉及实体链接部分以及知识合并部分,具体步骤如下:
【S0031】实体链接即抽取出文本实体,并将文本实体链接到知识图谱对应的实体。通过知识抽取获得的信息需要进行实体的歧义消除。由于预案文本是电力领域的文本,且该领域的文本具有术语规范的特点,因此,针对消除实体歧义的操作可以忽略。
对于非结构化的文本数据,部分实体因其记录方式的不同而呈现出不同的文本表达,比如从故障处理数据中提取出的部分故障位置没有采用全称记录,从而避免了知识图谱中出现重复节点或者无法建立链接关系。因此,根据配电网设备台账数据中的设备名称,建立配电网设备字典,利用欧式距离对比算法,通过字典中的实体匹配,获得与所选实体相似性最大的实体目标,并将抽取实体与相应的实体进行链接。欧式距离(EuclideanDistance)对比算法流程如图2所示。
【S0032】知识合并是指在构造知识图谱时,通过关系数据库到RDF转换技术,将现有的电力系统关系数据库整合到新的知识图谱中,从而使知识图谱的整体知识水平得到进一步的提升。
【S004】若在步骤【S001】中的配电网故障处理知识图谱中查询到与故障后运行方式保持一致的配电网故障类型,则返回故障类型与相应的处置要点信息;否者,人工辅助作出故障处置。
进一步,本发明还涉及到对知识图谱的更新。若在所构建的配电网故障处理知识图谱中查询的故障类型与故障后运行方式不一致时,判断所输出的配电网故障处理信息存在知识更新,则将抽取后的新增文本实体数据及类型更新至配电网故障处理知识图谱中,形成更新后的配电网故障处理知识图谱。
本发明所提供的知识更新主要涉及模式层更新步骤以及数据层更新步骤两部分。随着电力系统领域技术以及电网规模的不断发展与扩大,电网结构、电网运行方式日渐复杂,电力设备、电力处理预案也在不断地发展。因此,为了确保知识的正确性,必须对知识进行不断的更新。
其中的模式层更新,在当前的模式层中,新增的数据中出现了新增的类型,需要将新增类型更新到模式层中。
其中的数据层更新,在模式层的指导下,将新增数据进行知识抽取与知识融合后更新到知识图谱中。
另外,所建立的配电网故障处理知识图谱利用Neo4j图数据库构建,包括智能信息检索和辅助故障诊断。
传统的故障处理信息检索方式主要是对关键字进行分解和匹配,无法对其进行更深层次的理解和处理。本发明所建立的知识图谱是用图的方式来表示故障处理的知识,使知识之间的联系更加精确。利用知识图谱分析用户所要查找的关键词,并将它们对应到特定的概念或实体,从而实现了基于丰富的语义网络的全面、准确的检索。
在电力系统中,电力系统的故障诊断主要依靠电力工作人员的工作经验和专业技术,因此,操作人员必须对电网运行状态、参数的变化进行实时的分析,并对其进行故障诊断。电网故障处理知识图谱,详细地记载了各种预测故障的事故特点,并在事故发生后,根据电网运行模式的改变,查找并推断出相应的知识图谱,从而达到基于知识驱动的辅助决策,降低了对操作人员的经验依赖性。在此基础上,通过对每一次故障诊断的分析,将其作为一种新的知识,不断地更新和完善知识图谱,从而为决策提供更加精确、全面、动态的支持。
如图3所示,运用知识图谱进行故障处理的过程是:在电网出现故障时,现场设备的数据采集与监控控制系统分析得出配电网在发生故障后的运行模式变化情况,生成故障后运行方式报告;然后,使用基于字向量的文本分类模型TextCNN对预案文本进行分类,通过LR-CNN命名实体识别与BiGRU-Attention实体间关系抽取,进而完成故障信息解析。这里采用Neo4j的Cypher查询语句在所建立的知识图谱中搜索与故障信息解析内容相符的故障类型信息;如果有,则会传回相关处理要点信息;如果没有,那么就会进行人工故障类型的分析,然后通过查询知识图谱,返回对应的处理要点,同时对原知识图谱进行更新,进一步提升知识图谱的辅助决策性能。
如图4所示,本发明还提供了一种基于知识型信息抽取的配电网故障处理系统,知识图谱、预处理模块、知识抽取模块、知识融合模块和诊断与处理模块,预处理模块用于对包含的非结构化配电网故障信息转换为文本数据;知识抽取模块用于对采集到的配电网故障处理信息进行文本分类与实体关系抽取,并通过知识融合模块将抽取的文本实体数据链接到知识图谱对应的实体数据上;诊断与处理模块用于判断在知识图谱中查询到的故障类型与故障后运行方式是否一致,若二者保持一致,则返回故障类型与相应的处置要点信息,否者,人工辅助作出故障处置。为了迎合电网各种故障,本发明还在系统中增加了知识更新模块,知识更新模块将抽取后的新增文本实体数据及类型更新至知识图谱中,形成更新后的配电网故障处理知识图谱。
其中的知识抽取模块中包含有预案文本分类模块、命名实体识别模块和实体关系抽取模块,预案文本分类模块用于对预案文本进行分类和标注;命名实体识别模块用于对配电网故障处理中的命名实体进行识别和求解,提取文本实体数据中的字符、候选词特征,并利用Rethinking机制将字符特征和候选词特征进行融合;实体关系抽取模块用于判定实体之间是否有预先确定的关联。
本发明通过构造配电领域的知识图谱,建立了一个基于知识型信息的搜索引擎,智能地分析和挖掘大量的配电作业流程及管理数据,将其与配电行业的数据进行关联、数据可视化,提高了配电网数据检索的准确性和智能性,可以对数据的潜在关联进行精确的分析,提高了系统中的数据利用率。
实施例
为验证所提基于知识型信息抽取与分类的配电网故障处理辅助决策方法的有效性,通过对905份配电网故障处理方案文本的分析,选择了2400条“故障后运行模式”和“故障处理要点”,通过长句的分割,获得7835条信息,获取训练各信息抽取模型的数据集。将所有的数据集按照8:1:1的比率随机分成训练集、验证集和测试集,以供训练和测试使用。在以上所描述方法中,具体实施如下步骤:
步骤1:预案文本分类实验
步骤1.1实验设计与评价指标
为了比较本发明提出的字向量TextCNN分类模型的优越性,选择了简单贝叶斯、邻近算法(KNN)和支持向量机(SVM)为对照。
为了检验本发明利用字向量替代词向量进行embedding的有效性,在模型其他参数不改变时,利用词向量对语句进行embedding,在TextCNN模型中利用随机初始化方法来训练词向量,利用Python的jieba工具对句子进行分词。
各模型在各类别文本上的分类性能以精确率(P)、召回率(R)、F1值为评价指标进行评估,模型的整体评价指标采用macro-F1值进行评价,macro-F1值是各类文本F1值的算术平均。
步骤1.2 TextCNN模型参数设置
本发明提出的字向量TextCNN模型参数如表3所示。
表3 TextCNN模型参数
步骤1.3文本分类实验结果
表3显示了每个分类模型的macro-F1数值,在这些数据中,预先训练的词向量是从文献中得到的,从表4可以看出,本发明所构造的TextCNN模型具有较好的分类性能,与传统的机器学习的各种算法相比,macro-F1值的性能更好。
另外,本文还将基于词矢量的TextCNN模型进行了比较,结果表明,在通用领域分词工具中,会导致分词错误并对模型的分类效果产生很大的影响。本发明所采用的以字向量代替词向量的方法能够有效地克服分词误差对文本分类带来的负面影响,并能够更好地了解预案文本的语义特点,提高分类的效率。
表4 文本分类实验结果
步骤2:预案命名实体识别实验
为了验证本发明提出的基于LR-CNN模型的预案命名实体识别方法的有效性,选择隐马尔可夫模型(HMM)、条件随机(CRF)、BiLSTM-CRF模型、IDCNN-CRF模型和Lattice LSTM模型作为对照模型。其中,BiLSTM-CRF模型、IDCNN-CRF模型和Lattice LSTM模型是中文命名实体任务常用的深度学习模型。
性能指标也采用了精确率、召回率、F1值等方法,在此基础上,样本是否被正确预测的评估方式是以实体为单位而不是以单个标签。同时,模型的预测耗时也被用来作为衡量指标。
步骤2.1 LR-CNN模型参数设置
本发明提出的LR-CNN模型参数如表5所示。
表5 LR-CNN模型参数
步骤2.2命名实体识别实验结果
表6 命名实体识别实验结果
从表6和图5中可以看出,所建立的LR-CNN模型在各个方面都取得了最佳的性能,LatticeLSTM模型的辨识效果与本发明所述的LR-CNN模型相当,其主要原因在于,采用了基于字符数据输入的BiLSTM CRF模型和IDCNN-CRF模型不能充分利用相邻字间的语义信息,不能有效地解决候选词语的冲突问题。LR-CNN模型和Lattice LSTM模型使用了候选词信息,可以很好地解决该问题。
另外,将4种不同的深度学习模型进行比较,结果表明:基于CNN的LR-CNN相较来说更准确高效。
步骤3实体间关系抽取实验
步骤3.1实验评价指标与参数设置
表7显示了本发明所建立的BiGRU-Attention模型的参数。
表7 BiGRU-Attention模型参数设置
步骤3.2实验结果与分析
实体间关系抽取实验结果如表8所示。
表8 实体间关系抽取实验结果
模型在不同类型关系上的抽取效果存在一定差异,“无关系”关系的F1值明显低于其余关系,主要的原因是预案文本结构紧凑、冗余信息较少,一条语句通常只对应一个电网状态描述或电网操作,句子中无关的实体较少,从而导致“无关系”样本所占比例较低,模型没有足够的数据进行学习。
本发明未述及之处均适用于现有技术。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。
Claims (10)
1.一种基于知识型信息抽取的配电网故障处理方法,其特征在于,所述方法包括如下步骤:
步骤1,将含有非结构化的配电网故障处理预案文本转化为文本数据,并进行文本数据中的实体抽取,建立实体及实体间关系的配电网故障处理知识图谱;
步骤2,根据采集到的配电网故障信息,得到配电网故障后运行方式报告;
步骤3,对故障后运行方式报告进行预案文本分类、命名实体识别和实体关系抽取,将抽取的文本实体数据链接到步骤1中配电网故障处理知识图谱对应的实体数据;
步骤4,若在步骤1中的配电网故障处理知识图谱中查询到与故障后运行方式保持一致的配电网故障类型,则返回故障类型与相应的处置要点信息;否者,人工辅助作出故障处置。
2.根据权利要求1所述的基于知识型信息抽取的配电网故障处理方法,其特征在于,所述步骤4中,若在所构建的配电网故障处理知识图谱中查询的故障类型与故障后运行方式不一致时,判断所输出的配电网故障处理信息存在知识更新,则将抽取后的新增文本实体数据及类型更新至配电网故障处理知识图谱中,形成更新后的配电网故障处理知识图谱。
3.根据权利要求2所述的基于知识型信息抽取的配电网故障处理方法,其特征在于,所述步骤3中的预案文本分类采用TextCNN模型对预案文本进行分类和标注;
所述步骤3中的命名实体识别采用基于Lexicon Rethinking机制的CNN模型对配电网故障处理中的命名实体进行识别和求解,用于提取文本实体数据中的字符、候选词特征,并利用Rethinking机制将字符特征和候选词特征进行融合;
所述步骤3中的实体关系抽取采用具有双向门控循环BiGRUD的BiLSTM-Attention模型,利用Word2vec作为词嵌入层,将输入文本实体数据转换为数值向量,用于判定实体数据之间是否存在预定义的关系。
4.根据权利要求1所述的基于知识型信息抽取的配电网故障处理方法,其特征在于,将抽取的文本实体数据链接到所建立的配电网故障处理知识图谱对应的实体数据,其具体方法:针对非结构化文本数据,根据配电网设备台账数据中的设备名称,建立配电网设备字典,利用欧氏距离算法,通过字典中的实体匹配,获得与所选实体相似性最大的实体目标,并将抽取实体与相应的实体进行链接,再通过关系数据库到RDF转换技术,将现有的电力系统关系数据库整合到新的配电网故障处理知识图谱中。
5.根据权利要求2所述的基于知识型信息抽取的配电网故障处理方法,其特征在于,所述的知识更新包括模式层更新步骤和数据层更新步骤,所述的模式层更新步骤是在当前模式层中,新增数据中出现新增类型时,将新增类型更新到当前模式层中;其中的数据层更新步骤是在当前模式层指导下,将新增数据进行知识抽取与知识融合后更新到配电网故障处理知识图谱中。
6.根据权利要求1所述的基于知识型信息抽取的配电网故障处理方法,其特征在于,所建立的配电网故障处理知识图谱采用Neo4j图数据库构建,采用Cypher查询语句来搜索与分析内容相符的信息。
7.一种基于知识型信息抽取的配电网故障处理系统,其与数据采集与监视控制系统连接,其特征在于,所述系统包括知识图谱、预处理模块、知识抽取模块、知识融合模块和诊断与处理模块,所述预处理模块用于对包含的非结构化配电网故障信息转换为文本数据;所述知识抽取模块用于对采集到的配电网故障处理信息进行文本分类与实体关系抽取,并通过所述知识融合模块将抽取的文本实体数据链接到所述知识图谱对应的实体数据上;所述诊断与处理模块用于判断在所述知识图谱中查询到的故障类型与故障后运行方式是否一致,若二者保持一致,则返回故障类型与相应的处置要点信息,否者,人工辅助作出故障处置。
8.根据权利要求7所述的基于知识型信息抽取的配电网故障处理系统,其特征在于,所述系统还包括知识更新模块,所述知识更新模块将抽取后的新增文本实体数据及类型更新至所述知识图谱中,形成更新后的配电网故障处理知识图谱。
9.根据权利要求7所述的基于知识型信息抽取的配电网故障处理系统,其特征在于,所述知识抽取模块中包含有预案文本分类模块、命名实体识别模块和实体关系抽取模块,所述预案文本分类模块用于对预案文本进行分类和标注;所述命名实体识别模块用于对配电网故障处理中的命名实体进行识别和求解,提取文本实体数据中的字符、候选词特征,并利用Rethinking机制将字符特征和候选词特征进行融合;所述实体关系抽取模块用于判定实体之间是否存在预定的关系。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条程序代码,所述程序代码由处理器加载并执行,以实现如权利要求1至6任一所述的基于知识型信息抽取的配电网故障处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210990877.4A CN115292518A (zh) | 2022-08-18 | 2022-08-18 | 基于知识型信息抽取的配电网故障处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210990877.4A CN115292518A (zh) | 2022-08-18 | 2022-08-18 | 基于知识型信息抽取的配电网故障处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115292518A true CN115292518A (zh) | 2022-11-04 |
Family
ID=83829997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210990877.4A Pending CN115292518A (zh) | 2022-08-18 | 2022-08-18 | 基于知识型信息抽取的配电网故障处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115292518A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
CN116860989A (zh) * | 2023-06-19 | 2023-10-10 | 国网江苏省电力有限公司南京供电分公司 | 一种配电故障处理方案推荐方法、装置、设备及存储介质 |
CN117273375A (zh) * | 2023-10-19 | 2023-12-22 | 国网安徽省电力有限公司铜陵供电公司 | 基于知识图谱的配网故障处置决策监管提升系统 |
CN118535947A (zh) * | 2024-04-23 | 2024-08-23 | 中国民用航空飞行学院 | 基于kg-bn的航空器设备故障诊断方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460136A (zh) * | 2018-03-08 | 2018-08-28 | 国网福建省电力有限公司 | 电力运维信息知识图谱构建方法 |
CN112100397A (zh) * | 2020-09-07 | 2020-12-18 | 南京航空航天大学 | 基于双向门控循环单元的电力预案知识图谱构建方法及系统 |
CN112699685A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 基于标签引导的字词融合的命名实体识别方法 |
CN113553420A (zh) * | 2020-04-22 | 2021-10-26 | 国网电力科学研究院有限公司 | 基于知识图谱的电网故障处理规程推荐方法和系统 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
CN114328950A (zh) * | 2021-12-03 | 2022-04-12 | 国网山西省电力公司电力科学研究院 | 配电网故障处置知识图谱构建、智能辅助决策系统及方法 |
CN114610901A (zh) * | 2022-03-18 | 2022-06-10 | 广东电网有限责任公司 | 一种电网运行数据融合方法、装置及存储介质 |
-
2022
- 2022-08-18 CN CN202210990877.4A patent/CN115292518A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460136A (zh) * | 2018-03-08 | 2018-08-28 | 国网福建省电力有限公司 | 电力运维信息知识图谱构建方法 |
CN113553420A (zh) * | 2020-04-22 | 2021-10-26 | 国网电力科学研究院有限公司 | 基于知识图谱的电网故障处理规程推荐方法和系统 |
CN112100397A (zh) * | 2020-09-07 | 2020-12-18 | 南京航空航天大学 | 基于双向门控循环单元的电力预案知识图谱构建方法及系统 |
CN112699685A (zh) * | 2021-01-08 | 2021-04-23 | 北京工业大学 | 基于标签引导的字词融合的命名实体识别方法 |
CN113609859A (zh) * | 2021-08-04 | 2021-11-05 | 浙江工业大学 | 一种基于预训练模型的特种设备中文命名实体识别方法 |
CN114328950A (zh) * | 2021-12-03 | 2022-04-12 | 国网山西省电力公司电力科学研究院 | 配电网故障处置知识图谱构建、智能辅助决策系统及方法 |
CN114610901A (zh) * | 2022-03-18 | 2022-06-10 | 广东电网有限责任公司 | 一种电网运行数据融合方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
TAO GUI 等: "CNN-Based Chinese NER with Lexicon Rethinking", PROCEEDINGS OF THE TWENTY-EIGHTH INTERNATIONAL JOINT CONFERENCE ON ARTIFICIAL INTELLIGENCE, pages 4982 - 4988 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115795056A (zh) * | 2023-01-04 | 2023-03-14 | 中国电子科技集团公司第十五研究所 | 非结构化信息构建知识图谱的方法、服务器及存储介质 |
CN116860989A (zh) * | 2023-06-19 | 2023-10-10 | 国网江苏省电力有限公司南京供电分公司 | 一种配电故障处理方案推荐方法、装置、设备及存储介质 |
CN117273375A (zh) * | 2023-10-19 | 2023-12-22 | 国网安徽省电力有限公司铜陵供电公司 | 基于知识图谱的配网故障处置决策监管提升系统 |
CN117273375B (zh) * | 2023-10-19 | 2024-04-02 | 国网安徽省电力有限公司铜陵供电公司 | 基于知识图谱的配网故障处置决策监管提升系统 |
CN118535947A (zh) * | 2024-04-23 | 2024-08-23 | 中国民用航空飞行学院 | 基于kg-bn的航空器设备故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104699763B (zh) | 多特征融合的文本相似性度量系统 | |
CN112214610B (zh) | 一种基于跨度和知识增强的实体关系联合抽取方法 | |
CN115292518A (zh) | 基于知识型信息抽取的配电网故障处理方法及系统 | |
CN108304372B (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
CN112487206B (zh) | 一种自动构建数据集的实体关系抽取方法 | |
CN109614620B (zh) | 一种基于HowNet的图模型词义消歧方法和系统 | |
CN114970508A (zh) | 基于数据多源融合的电力文本知识发现方法及设备 | |
CN111475650B (zh) | 一种俄语语义角色标注方法、系统、装置以及存储介质 | |
CN113168499A (zh) | 检索专利文档的方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN116719520B (zh) | 代码生成方法及装置 | |
CN116361472B (zh) | 社交网络评论热点事件舆情大数据分析方法 | |
CN110377690B (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN113010643B (zh) | 佛学领域词汇的处理方法、装置、设备及存储介质 | |
CN116342167A (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
CN116340530A (zh) | 基于机械知识图谱的智能设计方法 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 | |
CN108536781B (zh) | 一种社交网络情绪焦点的挖掘方法及系统 | |
CN117151222A (zh) | 领域知识引导的突发事件案例实体属性及其关系抽取方法、电子设备和存储介质 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN116108191A (zh) | 一种基于知识图谱的深度学习模型推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20221104 |
|
RJ01 | Rejection of invention patent application after publication |