CN116842194A

CN116842194A - 一种电力语义知识图谱系统及方法

Info

Publication number: CN116842194A
Application number: CN202310806140.7A
Authority: CN
Inventors: 梁寿愚; 何宇斌; 李映辰; 张坤; 吴小刚; 李文朝; 胡荣; 周华锋; 江伟; 顾慧杰; 符秋稼
Original assignee: China Southern Power Grid Co Ltd
Current assignee: China Southern Power Grid Co Ltd
Priority date: 2023-07-03
Filing date: 2023-07-03
Publication date: 2023-10-03

Abstract

公开了一种电力语义知识图谱系统及方法。利用基于深度学习的自然语言处理技术，并结合电力领域知识图谱来构建一种智能问答系统，以优化电力审计工作流程，增强审计效率。

Description

一种电力语义知识图谱系统及方法

技术领域

本申请涉及电力领域，且更为具体地，涉及一种电力语义知识图谱系统及方法。

背景技术

电力系统审计工作业务流程繁琐，涉及环节众多。其中审计数据具有非垂直领域、横向跨度大的复杂特性。审计工作者需要实时了解各种法律法规、规章制度、历史问题等。人工方法一般采用纸质资料查询、互联网搜索等方式，这些方法难以快速获取相关信息，极大地影响审计作业效率。

随着近年来人工智能技术突飞猛进地发展，大数据驱动的人工智能技术正以前所未有的广度和深度与电力及相关行业的发展快速融合，成为辅助审计工作的迫切需求。智能问答系统旨在自动地为用户向系统提出的问题做出响应。但现有的问答系统更专注于闲聊对话，其它专业领域的智能问答研究一般涉及医疗、教育、电商等领域，审计领域的相关工作较少。对于审计复杂业务流程，已有的问答系统不能很好的解决电力审计问答的需求。

因此，期待一种优化的方案。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种电力语义知识图谱系统及方法，利用基于深度学习的自然语言处理技术，并结合电力领域知识图谱来构建一种智能问答系统，以优化电力审计工作流程，增强审计效率。

根据本申请的一个方面，提供了一种电力语义知识图谱系统，其包括：

问题获取模块，用于获取电力审计问题；

备选实体提取模块，用于从电力语义知识图谱中提取第一备选实体的语义嵌入表示；

匹配模块，用于基于深度卷积神经网络模型对所述电力审计问题和所述第一备选实体的语义嵌入表示进行分析与处理以得到优化后语义匹配特征矩阵；以及

输出结果生成模块，用于基于所述优化后语义匹配特征矩阵，确定是否输出所述第一备选实体。

根据本申请的另一方面，提供了一种智能洗地机控制方法，其包括：

获取电力审计问题；

从电力语义知识图谱中提取第一备选实体的语义嵌入表示；

基于深度卷积神经网络模型对所述电力审计问题和所述第一备选实体的语义嵌入表示进行分析与处理以得到优化后语义匹配特征矩阵；以及

基于所述优化后语义匹配特征矩阵，确定是否输出所述第一备选实体。

根据本公开的实施例，利用基于深度学习的自然语言处理技术，并结合电力领域知识图谱来构建一种智能问答系统，以优化电力审计工作流程，增强审计效率。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1为根据本申请实施例的电力语义知识图谱系统的框图；

图2为根据本申请实施例的电力语义知识图谱系统的系统架构图；

图3为根据本申请实施例的电力语义知识图谱系统中匹配模块的框图；

图4为根据本申请实施例的电力语义知识图谱系统中语义分析单元的框图；

图5为根据本申请实施例的电力语义知识图谱系统中输出结果生成模块的框图；

图6为根据本申请实施例的电力语义知识图谱方法的流程图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，根据需要，可以按照倒序或同时处理各种步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

电力系统审计工作业务流程繁琐，涉及环节众多。其中审计数据具有非垂直领域、横向跨度大的复杂特性。审计工作者需要实时了解各种法律法规、规章制度、历史问题等。人工方法一般采用纸质资料查询、互联网搜索等方式，这些方法难以快速获取相关信息，极大地影响审计作业效率。因此，期待一种优化的方案。

图1为根据本申请实施例的电力语义知识图谱系统的框图。图2为根据本申请实施例的电力语义知识图谱系统的系统架构图。如图1和图2所示，根据本申请实施例的电力语义知识图谱系统300，包括：问题获取模块310，用于获取电力审计问题；备选实体提取模块320，用于从电力语义知识图谱中提取第一备选实体的语义嵌入表示；匹配模块330，用于基于深度卷积神经网络模型对所述电力审计问题和所述第一备选实体的语义嵌入表示进行分析与处理以得到优化后语义匹配特征矩阵；以及，输出结果生成模块340，用于基于所述优化后语义匹配特征矩阵，确定是否输出所述第一备选实体。

特别地，所述问题获取模块310，用于获取电力审计问题。电力审计是指对某个建筑或设备的用电情况进行评估和分析，以确定能否通过改进能源使用方式和设备来降低能源消耗和成本。

特别地，在本申请的一个示例中，获取电力审计问题的方法可以通过多种途径实现，其中包括以下几种：1.用户输入：用户可以直接向智能问答系统输入电力审计问题，系统接收并获取电力审计问题；2.文本识别：智能问答系统可以通过OCR技术对电力审计相关的文本进行识别和提取，从而获取电力审计问题；3.语音识别：智能问答系统可以通过语音识别技术对用户语音输入进行识别和转换，从而获取电力审计问题。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式来获取电力审计问题，例如：寻找专业的电力审计公司或机构，他们可以提供专业的电力审计服务，并帮助您识别潜在的能源浪费和改进机会；在电力审计公司或机构的网站上查找有关电力审计的信息，了解他们的服务范围、收费标准和客户评价等方面的信息；联系电力审计公司或机构的客服人员，咨询电力审计的相关问题，例如如何进行电力审计、需要提供哪些数据和信息、电力审计的周期和费用等；根据电力审计公司或机构提供的要求，准备好相关的数据和信息，例如建筑或设备的用电情况、能源消耗和成本等；安排电力审计师对建筑或设备进行现场检查，收集更详细的数据和信息，并提供改进建议和方案。

特别地，所述备选实体提取模块320，用于从电力语义知识图谱中提取第一备选实体的语义嵌入表示。这里，知识图谱(Knowledge Graph)是一种基于图数据结构来表示和组织知识的方法。

知识图谱是一种半结构化的知识表示方法，用实体关系图来描述现实世界的实体和它们之间的关系。知识图谱将知识从文本和数据库中提取出来之后，进行概念分类、关系抽取和语义解析等处理过程，然后把这些知识变成实体、属性和关系的形式，组织成一个大规模的图数据库。知识图谱具有以下特点：1.容易理解和扩展：知识图谱采用边和点的形式来表示概念和关系，直观易懂，方便扩展；2.语义丰富：知识图谱通过对实体和关系进行标准化和语义化，可以提高机器对数据的理解和应用；3.高效的推理机制：知识图谱是在图数据库上建立的，可使用基于图的算法来进行推理和分析。

相应地，在一种可能的实现方式中，可通过以下步骤从电力语义知识图谱中提取第一备选实体的语义嵌入表示：确定第一备选实体的名称或标识符。例如，假设第一备选实体的名称为“电动汽车”；在电力语义知识图谱中搜索“电动汽车”的实体节点。这可以通过使用图谱查询语言(如SPARQL)或图谱搜索引擎(如Neo4j)来实现；获取“电动汽车”的所有相关属性和关系。这些属性和关系可以包括“电动汽车”的制造商、型号、电池容量、充电方式、马力等等；将这些属性和关系转换为向量表示。可以使用一些预训练的自然语言处理模型(如BERT、GPT等)或图神经网络模型(如GCN、GAT等)来将属性和关系转换为向量表示；将所有向量表示组合成一个表示“电动汽车”的向量。这可以通过简单地将所有向量拼接在一起或使用一些聚合函数(如平均值、最大值、加权平均值等)来实现；最终得到的向量即为“电动汽车”的语义嵌入表示。需要注意的是，语义嵌入表示的质量和准确性取决于所使用的模型和算法，以及所提取的属性和关系的完整性和准确性。

特别地，在本申请的一个具体示例中，如图3所示，所述匹配模块330，包括：语义分析单元331，用于对所述电力审计问题进行语义分析以得到多尺度电力审计问题语义编码特征向量；关联匹配单元332，用于对所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行关联编码以得到语义匹配特征矩阵；以及，表达效果优化单元333，用于对所述语义匹配特征矩阵进行文本语义关联特征的表达效果优化以得到所述优化后语义匹配特征矩阵。

具体地，所述语义分析单元331，用于对所述电力审计问题进行语义分析以得到多尺度电力审计问题语义编码特征向量。在本申请的一个具体示例中，如图4所示，所述语义分析单元331，包括：分词子单元3311，用于对所述电力审计问题进行分词处理以得到电力审计问题描述词的序列；词嵌入子单元3312，用于将所述电力审计问题描述词的序列通过词嵌入层以得到电力审计问题描述词嵌入向量的序列；以及，自然语言处理子单元3313，用于将所述电力审计问题描述词嵌入向量的序列通过包含第一自然语言处理模型和第二自然语言处理模型的双管线模型以得到所述多尺度电力审计问题语义编码特征向量。

更具体地，所述分词子单元3311，用于对所述电力审计问题进行分词处理以得到电力审计问题描述词的序列。在本申请的技术方案中，对电力审计问题进行分词处理可以将所述电力审计问题分解成为一个一个的词语，使得问题变成一个更易于处理的序列。

分词处理是将一段文本按照一定的规则进行切分，将其分成一个个单独的词语的过程。分词处理可以帮助计算机更好地理解人类语言，因为计算机需要将人类语言转化为计算机能够理解和处理的形式，而分词处理是其中的一个重要步骤。

相应地，在一种可能的实现方式中，可通过以下步骤对所述电力审计问题进行分词处理以得到电力审计问题描述词的序列：数据预处理：将电力审计问题进行预处理，包括去除停用词、标点符号等操作，得到纯文本；分词处理：使用分词工具对纯文本进行分词处理，将文本分割成一个个词语；词性标注：对每个词语进行词性标注，确定其在句子中的语法角色，如名词、动词、形容词等；去除停用词：去除停用词，如“的”、“了”、“是”等词语，这些词语对于电力审计问题的描述没有实际意义；词干化处理：对于一些词语，如动词的不同时态、名词的不同形式等，需要进行词干化处理，将它们还原为其原始形式，如将“running”还原为“run”；得到电力审计问题描述词的序列：将经过处理后的词语按照其在句子中的顺序排列，得到电力审计问题描述词的序列。

更具体地，所述词嵌入子单元3312，用于将所述电力审计问题描述词的序列通过词嵌入层以得到电力审计问题描述词嵌入向量的序列。应可以理解，词嵌入层可以将电力审计问题描述词的序列转化为电力审计问题描述词嵌入向量的序列，通常，这个过程也被称为词向量化。也就是，词嵌入层可以将词语映射到高维向量空间中，并使其变为向量的形式。

相应地，在一种可能的实现方式中，可通过以下步骤将所述电力审计问题描述词的序列通过词嵌入层以得到电力审计问题描述词嵌入向量的序列：准备一个词嵌入矩阵，其中每一行对应一个单词的嵌入向量。这个矩阵可以是事先训练好的，也可以在电力审计问题描述词序列上进行训练得到；将电力审计问题描述词序列中的每个词转换为对应的嵌入向量。这可以通过在词嵌入矩阵中查找每个词的嵌入向量来实现；将所有嵌入向量按照序列顺序连接起来，得到一个电力审计问题描述词嵌入向量的序列；可选地，可以在嵌入向量序列上应用一些预处理步骤，例如规范化或截断，以确保嵌入向量具有相同的长度和范围；最后，将电力审计问题描述词嵌入向量的序列提供给下游任务，例如分类或回归模型，以进行进一步的分析和预测。

更具体地，所述自然语言处理子单元3313，用于将所述电力审计问题描述词嵌入向量的序列通过包含第一自然语言处理模型和第二自然语言处理模型的双管线模型以得到所述多尺度电力审计问题语义编码特征向量。将所述电力审计问题描述词嵌入向量的序列通过包含第一自然语言处理模型和第二自然语言处理模型的双管线模型以得到多尺度电力审计问题语义编码特征向量。也就是，利用包含第一自然语言处理模型和第二自然语言处理模型的双管线模型处理来更全面、准确地表达电力审计问题的语义信息。其中第一自然语言处理模型和第二自然语言处理模型分别对电力审计问题描述词嵌入向量的序列进行不同程度的语义理解。

在本申请的实施例中，所述第一自然语言处理模型为递归神经网络模型(Recurrent Neural Network,RNN)，所述第二自然语言处理模型为长短时记忆网络模型(Long Short-Term Memory,LSTM)。递归神经网络(Recurrent Neural Network,RNN)主要应用于序列数据的处理，如语音、文本、时间序列等。它具有处理变长序列数据的能力，可以从序列中学习到相关性和模式。递归神经网络模型中的神经元之间存在反馈连接，这种反馈连接可以将之前的信息传递到当前时刻，形成一个动态的神经网络结构。RNN模型的核心是循环单元(Recurrent Unit,RU)，它利用当前时刻的输入、上一时刻的输出和上一时刻的状态信息来计算当前时刻的输出和状态。长短时记忆网络(Long Short-Term Memory,LSTM)与传统的递归神经网络模型不同，LSTM网络中每个神经元都有三个门：输入门、遗忘门和输出门。这些门允许LSTM神经网络决定输入什么信息、哪些信息需要被保留，以及何时输出信息。LSTM网络通常由多个LSTM细胞组成，每个LSTM细胞都有一个内部状态单元和三个门，通过递归地连接多个LSTM细胞，可以形成深度LSTM网络用于学习和建模多时序数据中的相关性和模式。由于递归神经网络模型和长短时记忆网络模型从电力审计问题描述词嵌入向量的序列中学习到的是不同感受野下的语义关联信息，也就是说，将电力审计问题描述词嵌入向量的序列通过由第一自然语言处理模型和第二自然语言处理模型构成的双管线模型中进行处理，电力审计问题描述词嵌入向量的序列可以被转换成多尺度的电力审计问题语义编码特征向量，可以提高模型对电力审计问题的理解和分类能力。

在本申请的一个具体示例中，所述自然语言处理子单元3313，包括：第一尺度自然语言处理二级子单元，用于将所述电力审计问题描述词嵌入向量的序列通过双管线模型的第一自然语言处理模型以得到第一尺度电力审计问题语义编码特征向量；第一尺度自然语言处理二级子单元，用于将所述电力审计问题描述词嵌入向量的序列通过双管线模型的第二自然语言处理模型以得到第二尺度电力审计问题语义编码特征向量；多尺度融合二级子单元，用于融合所述第一尺度电力审计问题语义编码特征向量和所述第二尺度电力审计问题语义编码特征向量以得到所述多尺度电力审计问题语义编码特征向量。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式将所述电力审计问题描述词嵌入向量的序列通过包含第一自然语言处理模型和第二自然语言处理模型的双管线模型以得到所述多尺度电力审计问题语义编码特征向量，例如：首先，将电力审计问题描述转化为词嵌入向量的序列，可以使用预训练的词向量模型，如Word2Vec或GloVe模型，将每个单词映射到一个固定长度的向量表示；接着，使用第一自然语言处理模型，比如卷积神经网络(CNN)或长短时记忆网络(LSTM)，对词嵌入向量序列进行处理，以提取局部特征。这些局部特征可以是单词、短语或句子级别的特征；然后，使用第二自然语言处理模型，比如递归神经网络(RNN)或注意力机制网络(Attention)，对第一模型提取的局部特征进行处理，以提取全局特征。这些全局特征可以是整个电力审计问题描述的语义信息；进而审计问题的语义编码特征向量。这个多尺度特征向量可以被用来进行分类、聚类或其他相关的任务。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式来对所述电力审计问题进行语义分析以得到多尺度电力审计问题语义编码特征向量，例如：数据预处理：将电力审计问题进行预处理，包括去除停用词、分词、词干化等操作，得到文本序列；语义嵌入表示：将文本序列转换为向量表示，可以使用预训练的词向量模型(如Word2Vec、GloVe等)或者将文本序列输入到深度学习模型中进行训练，得到每个词的语义嵌入表示；多尺度语义分析：使用多个不同的卷积核对语义嵌入表示进行卷积操作，得到不同尺度的语义特征图。可以使用不同大小的卷积核来实现多尺度分析；池化操作：对每个尺度的语义特征图进行池化操作，得到固定大小的特征向量；特征融合：将不同尺度的特征向量进行融合，可以使用简单的加权平均或者更复杂的注意力机制等方法；归一化操作：对融合后的特征向量进行归一化，使其具有相同的尺度和范围；得到多尺度电力审计问题语义编码特征向量：将归一化后的特征向量拼接成一个向量，即得到多尺度电力审计问题语义编码特征向量。

具体地，所述关联匹配单元332，用于对所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行关联编码以得到语义匹配特征矩阵。在本申请的技术方案中，在得到问题和第一备选实体的向量化语义表达后，在本申请的技术方案中，期待计算问题语义表示和第一备选实体语义表示之间的匹配度和关联度。也就是，采用关联编码的方式来建立问题语义表示和第一备选实体语义表示之间的映射关系。这样，通过关联编码得到的所述语义匹配特征矩阵可以充分考虑问题语义表达和第一备选实体语义表达之间的互相关系，而不仅仅局限于各自割裂的语义表达。更具体地，以如下关联公式对所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行关联编码以得到所述语义匹配特征矩阵；其中，所述公式为：其中V_m表示所述多尺度电力审计问题语义编码特征向量，/>表示所述多尺度电力审计问题语义编码特征向量的转置向量，V_n表示所述第一备选实体的语义嵌入表示，M表示所述语义匹配特征矩阵，/>表示向量相乘。

相应地，在一种可能的实现方式中，可通过以下步骤对所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行关联编码以得到语义匹配特征矩阵：将多尺度电力审计问题语义编码为特征向量。这可以通过使用自然语言处理技术，如词袋模型或词嵌入模型，将问题转换为数值向量；将第一备选实体的语义嵌入表示为特征向量。这可以通过使用词嵌入模型，如Word2Vec或GloVe，将实体转换为数值向量；将问题特征向量和实体特征向量进行关联编码，以得到语义匹配特征矩阵。这可以通过使用一些方法来完成，如余弦相似度或点积计算；将语义匹配特征矩阵输入到机器学习算法中进行分类或聚类，以解决多尺度电力审计问题。

具体地，所述表达效果优化单元333，用于对所述语义匹配特征矩阵进行文本语义关联特征的表达效果优化以得到所述优化后语义匹配特征矩阵。在本申请的一个具体示例中，所述表达效果优化单元333，包括：多源信息融合验前分布评估优化子单元，用于对所述语义匹配特征矩阵每个行特征向量进行多源信息融合验前分布评估优化以获得多个优化后行特征向量；以及，排列子单元，用于将所述多个优化后行特征向量排列为所述优化后语义匹配特征矩阵。

更具体地，所述多源信息融合验前分布评估优化子单元，用于对所述语义匹配特征矩阵每个行特征向量进行多源信息融合验前分布评估优化以获得多个优化后行特征向量。在本申请的技术方案中，对所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行关联编码以得到语义匹配特征矩阵时，是将所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行逐位置关联，因此所述语义匹配特征矩阵的每个行特征向量可以看作为所述多尺度电力审计问题语义编码特征向量的每个特征值与所述第一备选实体的语义嵌入表示整体的关联特征向量，因此所述语义匹配特征矩阵相当于各个行特征向量对应的局部特征集合的组合特征集合。并且，由于各个行特征向量的特征分布之间具有由所述多尺度电力审计问题语义编码特征向量所表达的多尺度的电力审计问题的文本语义关联特征分布，因此所述各个行特征向量除了具有相互关联的邻域分布关系外，其间还具有对应于备选实体的图语义嵌入关联分布信息的多源信息关联关系。因此，为了提升所述语义匹配特征矩阵作为整体对电力审计问题的不同尺度的文本语义关联特征的表达效果，本申请的申请人对每个行特征向量，例如记为V_i进行多源信息融合验前分布评估优化，以获得优化后的行特征向量V^′ _i，具体表示为：

其中V_i是所述语义匹配特征矩阵的第i个行特征向量，V_j是所述语义匹配特征矩阵的第j个行特征向量，是均值特征向量，n为邻域设置超参数，log表示以2为底的对数函数值，/>表示按位置减法，V^′ _i是所述优化语义匹配特征矩阵的第i个优化行特征向量。这里，所述多源信息融合验前分布评估优化可以对于由多个相互关联的邻域部分组成的特征局部集合，基于特征分布融合稳健性的类极大似然估计，来实现特征向量各自的验前信息在局部合成分布上的有效折合，并通过多源情况下的验前分布构建，来获得能够用于评估集合内内部关联与集合间变动关系之间的标准期望融合信息的优化范式，以提升特征向量基于多源信息关联融合的信息表达效果。由此，再将优化后的行特征向量V^′ _i排列为所述语义匹配特征矩阵，就可以提升所述语义匹配特征矩阵作为整体对电力审计问题的不同尺度的文本语义关联特征的表达效果。

更具体地，所述排列子单元，用于将所述多个优化后行特征向量排列为所述优化后语义匹配特征矩阵。也就是，在得到所述多个优化后行特征向量后，进一步将其进行二维排列以得到所述优化后语义匹配特征矩阵。

相应地，在一种可能的实现方式中，可通过以下步骤将所述多个优化后行特征向量排列为所述优化后语义匹配特征矩阵：将每个优化后的行特征向量按照一定的顺序排列，以构成一个矩阵。这个顺序可以按照特征重要性、降维后的维度等因素来确定将每个优化后的行特征向量按照一定的规则进行标准化，以保证它们在同一尺度上；将所有标准化后的优化后行特征向量排列在一起，形成一个优化后语义匹配特征矩阵。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式对所述语义匹配特征矩阵进行文本语义关联特征的表达效果优化以得到所述优化后语义匹配特征矩阵，例如：首先，对语义匹配特征矩阵进行预处理，包括去除停用词、词干提取、词性标注等操作。这些预处理步骤可以提高特征向量的表达能力和区分度；接着，使用一些文本语义关联特征的表达方式来优化语义匹配特征矩阵，例如，使用TF-IDF方法来加权词向量，或使用一些文本相似度计算方法，如编辑距离、Jaccard相似度等；然后，使用一些降维方法，如主成分分析(PCA)或线性判别分析(LDA)，来减少特征向量的维度，以提高模型的训练速度和泛化能力；进而，使用一些模型选择和调参的方法，如交叉验证、网格搜索等，来选择最优的机器学习模型和参数，以提高模型的性能和鲁棒性。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式来基于深度卷积神经网络模型对所述电力审计问题和所述第一备选实体的语义嵌入表示进行分析与处理以得到优化后语义匹配特征矩阵，例如：数据预处理：将电力审计问题和第一备选实体的文本数据进行预处理，包括去除停用词、分词、词干化等操作，得到文本序列；语义嵌入表示：将文本序列转换为向量表示，可以使用预训练的词向量模型(如Word2Vec、GloVe等)或者将文本序列输入到深度学习模型中进行训练，得到每个词的语义嵌入表示；构建深度卷积神经网络模型：根据任务需求，构建适当的深度卷积神经网络模型，包括卷积层、池化层、全连接层等，用于从语义嵌入表示中提取特征；使用标注好的数据集对深度卷积神经网络模型进行训练，调整模型参数，使其能够更好地提取语义特征；特征提取：使用训练好的深度卷积神经网络模型，对电力审计问题和第一备选实体的语义嵌入表示进行特征提取，得到优化后的语义匹配特征矩阵；特征矩阵分类：将优化后的语义匹配特征矩阵输入到机器学习算法中进行分类，判断电力审计问题和第一备选实体之间的语义匹配程度；结果分析：根据分类结果进行结果分析，得出电力审计问题和第一备选实体之间的语义匹配程度，为后续决策提供参考。

特别地，所述输出结果生成模块340，用于基于所述优化后语义匹配特征矩阵，确定是否输出所述第一备选实体。在本申请的一个具体示例中，如图5所示，所述输出结果生成模块340，包括：分类单元341，用于将所述优化后语义匹配特征矩阵通过分类器以得到分类结果，所述分类结果用于表示所述第一备选实体为与电力审计问题最相关的实体的概率是否超过预定阈值；以及，输出单元342，用于基于所述分类结果，确定是否输出所述第一备选实体。

具体地，所述分类单元341，用于将所述优化后语义匹配特征矩阵通过分类器以得到分类结果，所述分类结果用于表示所述第一备选实体为与电力审计问题最相关的实体的概率是否超过预定阈值。也就是，将所述语义匹配特征矩阵通过分类器以得到分类结果，所述分类结果用于表示第一备选实体为与电力审计问题最相关的实体的概率是否超过预定阈值。在本申请的一个具体示例中，所述分类单元341，包括：展开子单元，用于将所述优化后语义匹配特征矩阵基于行向量或列向量展开为分类特征向量；全连接编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，分类结果生成子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

分类器可以根据训练数据中的特征矩阵和分类标签之间的关系，学习出一个分类规则，用于对推断时输入的语义匹配特征矩阵进行分类预测，从而得到分类结果。值得一提的是，分类器得到是一个概率，即，分类器计算“第一备选实体为与电力审计问题最相关的实体的概率超过预定阈值”的概率值和“第一备选实体为与电力审计问题最相关的实体的概率没有超过预定阈值”的概率值中的最大值。

分类器是一种机器学习模型，用于将输入数据分为不同的类别或标签。它可以是一个简单的规则集，也可以是一个复杂的数学模型。分类器通常使用已知的训练数据集来学习如何将新数据分类为已知的类别。在实际应用中，分类器可以用于图像识别、语音识别、自然语言处理等领域。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式将所述优化后语义匹配特征矩阵通过分类器以得到分类结果，所述分类结果用于表示所述第一备选实体为与电力审计问题最相关的实体的概率是否超过预定阈值，例如：将优化后的语义匹配特征矩阵作为输入，使用机器学习算法训练一个分类器。常用的分类器有支持向量机(SVM)、决策树、随机森林等；将训练好的分类器应用于测试数据，得到测试数据的分类结果。测试数据是指待分类的实体，如健身器材、电力设备等；判断分类结果是否超过预定阈值。预定阈值是根据实际需求和性能指标设定的，用于判断分类结果是否达到预期目标。

具体地，所述输出单元342，用于基于所述分类结果，确定是否输出所述第一备选实体。也就是，如果分类结果的概率超过预定阈值，则认为该实体与电力审计问题最相关；否则，认为该实体与电力审计问题不相关；将分类结果输出，表示第一备选实体为与电力审计问题最相关的实体的概率是否超过预定阈值。如果分类结果超过预定阈值，则认为该实体是与电力审计问题最相关的实体，则输出所述第一备选实体；否则，需要继续考虑其他备选实体。

值得一提的是，在本申请的其他具体示例中，还可以通过其他方式来基于所述优化后语义匹配特征矩阵，确定是否输出所述第一备选实体。例如：收集文本数据并进行预处理，包括分词、去除停用词、词干提取等；将预处理后的文本数据转换为数值向量，可以使用词袋模型、TF-IDF、Word2Vec等方法；对文本数据进行语义匹配，可以使用余弦相似度、Jaccard相似度、欧几里得距离等方法；根据语义匹配结果构建语义匹配特征矩阵，其中每一行表示一个文本数据，每一列表示一个语义特征。可以使用PCA、LDA等方法对语义特征进行降维，以减少特征维度；对特征矩阵进行优化，可以使用特征选择、特征加权、特征组合等方法，以提高特征矩阵的表达效果和泛化能力；使用训练数据对优化后的特征矩阵进行机器学习模型的训练，可以使用分类、回归、聚类等方法，以实现多尺度电力审计问题的解决；对测试数据进行预测，可以使用训练好的机器学习模型对测试数据进行分类、回归、聚类等操作，以输出第一备选实体。

如上所述，根据本申请实施例的电力语义知识图谱系统300可以实现在各种无线终端中，例如具有电力语义知识图谱算法的服务器等。在一种可能的实现方式中，根据本申请实施例的电力语义知识图谱系统300可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该电力语义知识图谱系统300可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该电力语义知识图谱系统300同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该电力语义知识图谱系统300与该无线终端也可以是分立的设备，并且该电力语义知识图谱系统300可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

进一步地，还提供一种电力语义知识图谱方法。

图6为根据本申请实施例的电力语义知识图谱方法的流程图。如图6所示，在所述电力语义知识图谱方法中，包括：S110，获取电力审计问题；S120，从电力语义知识图谱中提取第一备选实体的语义嵌入表示；S130，基于深度卷积神经网络模型对所述电力审计问题和所述第一备选实体的语义嵌入表示进行分析与处理以得到优化后语义匹配特征矩阵；以及，S140，基于所述优化后语义匹配特征矩阵，确定是否输出所述第一备选实体。

综上，基于本申请实施例的电力语义知识图谱方法，利用基于深度学习的自然语言处理技术，并结合电力领域知识图谱来构建一种智能问答系统，以优化电力审计工作流程，增强审计效率。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种电力语义知识图谱系统，其特征在于，包括：

问题获取模块，用于获取电力审计问题；

2.根据权利要求1所述的电力语义知识图谱系统，其特征在于，所述匹配模块，包括：

语义分析单元，用于对所述电力审计问题进行语义分析以得到多尺度电力审计问题语义编码特征向量；

关联匹配单元，用于对所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行关联编码以得到语义匹配特征矩阵；及

表达效果优化单元，用于对所述语义匹配特征矩阵进行文本语义关联特征的表达效果优化以得到所述优化后语义匹配特征矩阵。

3.根据权利要求2所述的电力语义知识图谱系统，其特征在于，所述语义分析单元，包括：

分词子单元，用于对所述电力审计问题进行分词处理以得到电力审计问题描述词的序列；

词嵌入子单元，用于将所述电力审计问题描述词的序列通过词嵌入层以得到电力审计问题描述词嵌入向量的序列；以及

自然语言处理子单元，用于将所述电力审计问题描述词嵌入向量的序列通过包含第一自然语言处理模型和第二自然语言处理模型的双管线模型以得到所述多尺度电力审计问题语义编码特征向量。

4.根据权利要求3所述的电力语义知识图谱系统，其特征在于，所述自然语言处理子单元，包括：

第一尺度自然语言处理二级子单元，用于将所述电力审计问题描述词嵌入向量的序列通过双管线模型的第一自然语言处理模型以得到第一尺度电力审计问题语义编码特征向量；

第一尺度自然语言处理二级子单元，用于将所述电力审计问题描述词嵌入向量的序列通过双管线模型的第二自然语言处理模型以得到第二尺度电力审计问题语义编码特征向量；

多尺度融合二级子单元，用于融合所述第一尺度电力审计问题语义编码特征向量和所述第二尺度电力审计问题语义编码特征向量以得到所述多尺度电力审计问题语义编码特征向量。

5.根据权利要求4所述的电力语义知识图谱系统，其特征在于，所述关联匹配单元，用于：以如下关联公式对所述多尺度电力审计问题语义编码特征向量和所述第一备选实体的语义嵌入表示进行关联编码以得到所述语义匹配特征矩阵；

其中，所述公式为：

其中V_m表示所述多尺度电力审计问题语义编码特征向量，表示所述多尺度电力审计问题语义编码特征向量的转置向量，V_n表示所述第一备选实体的语义嵌入表示，M表示所述语义匹配特征矩阵，/>表示向量相乘。

6.根据权利要求5所述的电力语义知识图谱系统，其特征在于，所述表达效果优化单元，包括：

多源信息融合验前分布评估优化子单元，用于对所述语义匹配特征矩阵每个行特征向量进行多源信息融合验前分布评估优化以获得多个优化后行特征向量；以及

排列子单元，用于将所述多个优化后行特征向量排列为所述优化后语义匹配特征矩阵。

7.根据权利要求6所述的电力语义知识图谱系统，其特征在于，所述多源信息融合验前分布评估优化子单元，用于：以如下优化公式对所述语义匹配特征矩阵每个行特征向量进行多源信息融合验前分布评估优化以获得多个优化后行特征向量；

其中，所述公式为：

其中V_i是所述语义匹配特征矩阵的第i个行特征向量，V_j是所述语义匹配特征矩阵的第j个行特征向量，是均值特征向量，n为邻域设置超参数，log表示以2为底的对数函数值，表示按位置减法，V^′ _i是所述优化语义匹配特征矩阵的第i个优化行特征向量。

8.根据权利要求7所述的电力语义知识图谱系统，其特征在于，所述输出结果生成模块，包括：

分类单元，用于将所述优化后语义匹配特征矩阵通过分类器以得到分类结果，所述分类结果用于表示所述第一备选实体为与电力审计问题最相关的实体的概率是否超过预定阈值；以及

输出单元，用于基于所述分类结果，确定是否输出所述第一备选实体。

9.根据权利要求8所述的电力语义知识图谱系统，其特征在于，所述分类单元，包括：

展开子单元，用于将所述优化后语义匹配特征矩阵基于行向量或列向量展开为分类特征向量；

全连接编码子单元，用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及

分类结果生成子单元，用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。

10.一种电力语义知识图谱方法，其特征在于，包括：

获取电力审计问题；

从电力语义知识图谱中提取第一备选实体的语义嵌入表示；