CN111897914B

CN111897914B - 用于综合管廊领域的实体信息抽取及知识图谱构建方法

Info

Publication number: CN111897914B
Application number: CN202010701527.2A
Authority: CN
Inventors: 朱安安; 邱彦林; 陈尚武
Original assignee: Hangzhou Xujian Science And Technology Co ltd
Current assignee: Hangzhou Xujian Science And Technology Co ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2023-09-19
Anticipated expiration: 2040-07-20
Also published as: CN111897914A

Abstract

本发明提供用于综合管廊领域的实体信息抽取及知识图谱构建方法，基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据，获取的数据通过收集、清洗、分析、汇总、入库等工作后形成综合管廊网络知识库；根据上述采集的数据信息，选取部分数据作为训练集进行标注训练，建立NLP模型；通过人工筛选标注的方式进行标注，作为训练数据。采用本发明的技术方案，通过对相关网站、论坛等的信息获取，得到综合管廊相关的数据资料，构建基于语义分析和属性分类的三元组抽取模型，将抽取的三元组通过图数据库的形式存储，并通过预设算法予以展示，形成综合管廊的行业知识图谱；本发明提供的技术方案还可以从综合管廊行业泛化到其他行业中。

Description

用于综合管廊领域的实体信息抽取及知识图谱构建方法

技术领域

本发明涉及知识图谱构建技术领域，尤其是涉及用于综合管廊领域的实体信息抽取及知识图谱构建方法。

背景技术

知识图谱本质上是一种语义网络的知识库，是一种基于图的数据结构，由节点和边组成。近年来，知识图谱与自然语言处理及搜索技术的结合越来越广泛，知识图谱是关系的最有效表述方式，将不同种类的信息相连接从而得到一个实体之间的关系网络，提供了从“关联关系”的角度去分析问题的方式。

现有技术的缺陷和不足：目前，由于综合管廊行业起步较晚，知识图谱在综合管廊行业的应用还是一片空白，而管廊行业复杂的设计施工以及各个管网的相互合作却更需要这种基于关系的知识网络来帮助人们进行更加完善系统的规划建设。鉴于此，需要一种或多种方法针对管廊这一特定行业进行实体抽取与知识图谱的建立。

发明内容

本发明要解决的问题是综合管廊领域实体关系抽取与知识图谱体系空白的问题，为解决上述技术问题，本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法，用以构建更为完善的综合管廊的关系图谱。

为实现上述目的，本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法，包括如下步骤：

步骤(1)、数据采集：

基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据，这些数据包括已有相关设施设备等的结构化数据，以及通过爬虫在相关政府网站、综合管廊类网站、施工等相关网站采集的综合管廊相关文档信息；这些综合管廊相关文档信息包括规划类文档信息、设计文档、施工文档、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻等；获取的数据通过收集、清洗、分析、汇总、入库等工作后形成综合管廊网络知识库；

步骤(2)、数据标注训练：

根据上述步骤(1)采集的数据信息，选取部分数据作为训练集进行标注训练，建立NL P模型；

通过人工筛选标注的方式进行标注，作为训练数据。

需说明：在人工标注过程中，对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体，取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性，方便与其他词性进行区分，；

确定各个实体的属性分类，在考虑了管廊的特性后暂规划的实体属性有包含名词解释、实体设计、实体施工、实体运维要求、优缺点等在内的共11种属性以及父、子关系从属的上下级关系；

运用BERT模型对标注数据进行训练，最后用训练好的模型对所有文档进行词性标注；

步骤(3)、实体属性分类：

建立句子属性分类模型，对符合三元组抽取的句子进行实体属性分类，得到该被分析句子所包含实体的属性为哪一种；

步骤(4)、实体抽取：

建立基于语义角色和依存句法关系的三元组抽取模型，将综合管廊数据通过预设模型抽取相关的实体，并分别抽取所述实体的基本属性及实体之间的关系；其中抽取的实体包括实体名称、基本属性以及所属文档id；

三元组抽取模型的抽取过程具体如下：

对每句话进行语义角色和依存句法分析，对每个词生成一个该词的数组，用以记录该词的词性、父子节点的词性及其关系；

对每个词性标注为‘tun’的词查找其是否具有语义角色关系，如存在则进入属性分类判断其属性归属，然后提取三元组，若不存在则进行依存句法分析查询；

对每个词进行查询，找出其是否具有“主谓宾[SBV]，动宾[VOB]；定语后置[ATT]；缺失宾语情况下的介宾关系[POB]、前置宾语[FOB]、间接宾语[IOB]等”中的某一情况，若存在，先对关系进行扩充，再判断该关系结构中存在几个词性为‘tun’的词，若为一个则进行属性分类，若大于一个则进行实体间的关系抽取，最终抽取出该情况下的三元组；

以主谓宾结构为例说明：如句子“综合管廊是建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施。”首先对句子进行词性标注、语义角色及依存句法分析。依存句法分析后得到的结构为“是:{'SBV':[综合管廊/tun],'VOB':[建]}”进行扩充结果为：{SBV:[综合管廊/tun]}-{HED:是}-{VOB:建于城市地下用于容纳两类及以上城市工程管线的构筑物及附属设施}，其中‘/tun’为词性，主语中包含标注词性，则进行实体属性分类，属性分类结果为名词解释，则最终抽取的三元组为[实体:SBO]-[属性:名词解释]-[属性值:VOB]。

步骤(5)、数据存储：

根据所述三元组抽取模型，将获取的所述实体的属性及实体间逻辑关系进行整合，去除相似及重复数据，消除矛盾及歧义数据，建立准确的实体连接并存储于图数据库中；

步骤(6)、知识图谱生成：

基于Neo4J图数据库将所述三元组进行存储后，通过预设算法处理图数据库中的数据，将所述实体的属性及实体关系连接按照实体-关系-实体的三元组数据用图的方式进行展现。

其中，实体即具体的事物、主体等独立存在的东西。在本发明中的实体特指综合管廊领域中的主体，如“综合管廊”、“附属构筑物”等名词，或在管廊施工、设计过程中的施工方法、施工用品、廊内所属物品名称、构筑物名称等，如“明挖现浇”、“盾构机”、“防火门”、“排水管道”等，下文所述“实体”相同。

与现有技术相比，本发明的技术方案具有如下有益效果：

采用本发明的技术方案，通过对相关网站、论坛等的信息获取，得到综合管廊相关的数据资料，构建基于语义分析和属性分类的三元组抽取模型，将抽取的三元组通过图数据库的形式存储，并通过预设算法予以展示，形成综合管廊的行业知识图谱；本发明提供的技术方案还可以从综合管廊行业泛化到其他行业中。

附图说明

图1是本发明的整体工作示意图；

图2是本发明的具体技术方案示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1～2所示，本发明提供了一种用于综合管廊领域的实体信息抽取及知识图谱构建方法的具体实施例，包括如下步骤：

步骤(1)、数据采集：

步骤(2)、数据标注训练：

通过人工筛选标注的方式进行标注，作为训练数据。

需说明：在人工标注过程中，对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体，取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性，方便与其他词性进行区分；

步骤(3)、实体属性分类：

步骤(4)、实体抽取：

三元组抽取模型的抽取过程具体如下：

步骤(5)、数据存储：

步骤(6)、知识图谱生成：

需要说明的是，在本发明中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想，以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种用于综合管廊领域的实体信息抽取及知识图谱构建方法，其特征在于，包括如下步骤：

步骤(1)、数据采集：

基于已有综合管廊结构化数据和互联网数据生成综合管廊相关数据，这些数据包括已有相关设施设备的结构化数据，以及通过爬虫在相关政府网站、综合管廊类网站、施工相关网站采集的综合管廊相关文档信息；这些综合管廊相关文档信息包括规划类文档信息、设计文档、施工文档、法律法规、政策标准、期刊、专利、报告、百科以及相关新闻；获取的数据通过收集、清洗、分析、汇总、入库工作后形成综合管廊网络知识库；

步骤(2)、数据标注训练：

根据上述步骤(1)采集的数据信息，选取部分数据作为训练集进行标注训练，建立NLP模型；

通过人工筛选标注的方式进行标注，作为训练数据；

在人工标注过程中，对管廊行业相关词进行特殊标注以便后续可根据词性抽取实体，取“隧道”的英文“tunnel”的前三个字母“tun”作为管廊相关词的特殊词性，方便与其他词性进行区分；

确定各个实体的属性分类，在考虑了管廊的特性后暂规划的实体属性有包含名词解释、实体设计、实体施工、实体运维要求、优缺点在内的共11种属性以及父、子关系从属的上下级关系；

步骤(3)、实体属性分类：

步骤(4)、实体抽取：

步骤(5)、数据存储：

步骤(6)、知识图谱生成：

基于Neo4J图数据库将所述三元组进行存储后，通过预设算法处理图数据库中的数据，将所述实体的属性及实体关系连接按照实体-关系-实体的三元组数据用图的方式进行展现；

在步骤(4)中三元组抽取模型的抽取过程具体如下：

对每个词进行查询，找出其是否具有主谓宾，动宾，定语后置，缺失宾语情况下的介宾关系、前置宾语、间接宾语中的某一情况，若存在，先对关系进行扩充，再判断该关系结构中存在几个词性为‘tun’的词，若为一个则进行属性分类，若大于一个则进行实体间的关系抽取，最终抽取出该情况下的三元组。