CN106355627A - 一种用于生成知识图谱的方法及系统 - Google Patents
一种用于生成知识图谱的方法及系统 Download PDFInfo
- Publication number
- CN106355627A CN106355627A CN201510420315.6A CN201510420315A CN106355627A CN 106355627 A CN106355627 A CN 106355627A CN 201510420315 A CN201510420315 A CN 201510420315A CN 106355627 A CN106355627 A CN 106355627A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- name
- entity
- newly
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明公开了一种用于生成知识图谱的方法,包括生成初始知识图谱;判断图文单元的类型;以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;对候选知识项进行修正,根据修正后的候选知识项更新初始知识图谱。本发明可从一个基本的知识图谱框架和小的种子知识集合开始,利用计算机自动从海量的图文数据中发现、抽取、组织多种多样的丰富的命名实体间关联关系,经专家系统进行确认后,能够迅速而有效地构造精细化表达的一个知识图谱结构,从而使生成知识图谱的过程显著节省了大量的人力成本。
Description
技术领域
本发明涉及计算机图文处理技术领域,具体地说,涉及一种用于生成知识图谱的方法及系统。
背景技术
文本是最基本、最常用的信息载体。随着互联网的日益普及,文本信息迅速膨胀。因此,需要将文本中的知识有效组织起来。尤其在地质勘探等专业领域,常需要从海量的文本数据中发现应当被系统收集的知识,然后对收集到的知识进行结构化处理,以便于日后的查询、修改。
现有技术中经常通过知识图谱(或者知识网络)将知识组织起来。而知识图谱(网络)一般基于一些通用的方法生成,并通过一系列可视化方法展现。较常用的方法为共现分析方法、引文分析方法、多元统计分析方法和社会网络分析方法。这些方法在图书馆情报学、科学学及部分计算机学科方面有较好的应用效果,但由于地质勘探等领域的专业性,上述方法使用效果不好。
此外,勘探等专业领域内有大量的图文并茂的文档,其中的图像中也含有大量的“图形化文字”的知识描述,这些信息的抽取也非常有助于知识图谱的构建,而现有技术中基本没考虑这种图像中含有的局部知识的抽取,及如何将其应用于知识图谱建设。因此,现有的知识图谱生成方法虽然在一定程度上解决海量文本数据的结构化问题,生成粗略描述的知识图谱,但是都不具备在复杂的勘探业务等领域下自动或半自动生成知识图谱或知识网络的能力。
因此,亟需一种适用于勘探领域的各类图文混合的文献和资料的生成知识图谱的方法及系统。
发明内容
本发明针所解决的技术问题在于克服现有技术中不能根据勘探领域的各类图文混合的文献和资料生成知识图谱的技术缺陷。
本发明提供一种用于生成知识图谱的方法,包括:
基于包含命名实体类型之间属性及关联关系的初始知识图谱框架和种子知识集合生成初始知识图谱;
判断图文单元的类型;
以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;
提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;
对候选知识项进行修正,根据修正后的候选知识项更新初始知识图谱。
在本发明的一个实施例中,在基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系的步骤中,
在图文单元的类型为文本单元的情况下,识别单一文本单元中出现的命名实体,提取文本单元中命名实体之间的关联关系;
在图文单元的类型为图像单元的情况下,通过图像处理技术识别单一图像单元中的文字单元及对应的命名实体,基于文字单元所属的图像区域提取命名实体之间的关联关系。
在本发明的一个实施例中,提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项的步骤中,
根据图文单元集合中文本和图像中提取的命名实体之间的关联关系,以及命名实体所属文字段落或图像区域的特征进行类聚及分类处理;
与初始知识图谱比较,得到新增命名实体和命名实体间新增的关联关系,并对新增命名实体和命名实体间新增的关联关系赋予置信度形成候选知识项。
在本发明的一个实施例中,在对新增命名实体和命名实体间新增的关联关系赋予置信度的步骤中,
根据新增命名实体和命名实体间新增的关联关系在多个图文单元中被重复佐证的次数,以及在文本单元中语句佐证环境的数量和在图像单元中图像佐证环境的数量计算置信度。
在本发明的一个实施例中,在对新增命名实体和命名实体间新增的关联关系赋予置信度的步骤中进一步包括:
将候选知识项添加到初始知识图谱中形成候选新增知识图谱。
在本发明的一个实施例中,所述对候选知识项进行修正的步骤包括:
展示候选新增知识图谱;
接收用户对选新增知识图谱中新增命名实体和命名实体间新增的关联关系的修正指令;
根据修正指令删除候选知识项。
本发明还提供一种用于生成知识图谱的系统,包括:
初始化单元,其设置为基于包含命名实体类型之间属性及关联关系的初始知识图谱框架和种子知识集合生成初始知识图谱;
类型判断单元,其设置为判断图文单元的类型;
单一图文知识项识别单元,其设置为以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;
图文集合知识项识别单元,其设置为提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;
修正单元,其设置为对候选知识项进行修正,根据修正后的知识项更新初始知识图谱。
在本发明的一个实施例中,所述单一图文知识项识别单元包括:
文本识别模块,设置为在图文单元的类型为文本单元的情况下,识别单一文本单元中出现的命名实体,提取文本单元中命名实体之间的关联关系;
图像识别模块,设置为在图文单元的类型为图像单元的情况下,通过图像处理技术识别单一图像单元中的文字单元及对应的命名实体,基于文字单元所属的图像区域提取命名实体之间的关联关系。
在本发明的一个实施例中,所述图文集合知识项识别单元包括:
知识项发现模块,其设置为根据图文单元集合中文本和图像中提取的命名实体之间的关联关系,以及命名实体所属文字段落或图像区域的特征进行类聚及分类处理;
比较模块,其设置为与初始知识图谱比较,得到新增命名实体和命名实体间新增的关联关系,并对新增命名实体和命名实体间新增的关联关系赋予置信度形成候选知识项。
在本发明的一个实施例中,所述图文集合知识项识别单元进一步包括:
局部更新模块,其设置为将候选知识项添加到初始知识图谱中形成候选新增知识图谱。
本发明的的实施例从一个基本的知识图谱框架和小的种子知识集合开始,利用计算机自动从海量的图文数据中发现、抽取、组织多种多样的丰富的命名实体间关联关系,经专家系统进行确认后,能够迅速而有效地构造精细化表达的一个知识图谱结构,从而使生成知识图谱的过程显著节省了大量的人力成本。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例共同用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明实施例一的用于生成知识图谱的方法的步骤流程图;
图2是根据本发明实施例一的用于生成知识图谱的系统的结构示意图;
图3是根据本发明实施例二的用于生成知识图谱的系统的结构示意图;
图4是应用示例的初始知识图谱的框架示意图;
图5是应用示例的油气勘探领域的一个文本单元的示意图;
图6是应用示例的油气勘探领域的一个图像单元的示意图;
图7是应用示例的局部更新的知识图谱的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,以下结合附图对本发明作进一步地详细说明。
本发明实施例提供的生成知识图谱的方法,是在本体论(Ontology)的基础上,通过应用数学、图形学、信息可视化技术等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的整体知识架构的方法。
百度百科的Ontology词条中提到,英文术语“ontology”一词源于哲学领域,且一直以来存在着许多不同的用法。在计算机科学领域,其核心意思是指一种模型,用于描述由一套对象类型(概念或者类)、个体(对象实例)、属性以及关系类型所构成的世界。一般来说,人们所普遍期望的一点就是,本体之中模型的那些特征应当非常类似于相应的现实世界。具体到勘探等领域的Ontology,就是在建立一套勘探领域的多层级的概念(类)体系的归属,并建立每个层级下的归属于该抽象类的个体(实例),在此基础上,建立类及个体的属性描述(它们所可能具有的属性、特征、特性、特点和参数)及某种关联关系。最终,勘探等专业领域的Ontology,建立的是一整套的类间、个体对象间、以及类与个体对象间的关系。
在基于Ontology的知识图谱的建立中,通常以命名实体(Named Entity)统一表述个体(对象实例)及其对象类型(抽象出的概念类),通过识别命名实体和发现命名实体的属性及命名实体间关联关系,建立及更新知识图谱。前述命名实体,是人名、机构名、地名以及其他所有以名称为标识的实体。更广泛的命名实体还包括数字、日期、货币、地址等等。在勘探领域内,重要的命名实体的类型包括:地质年代、盆地、井、构造单元等等以名称为标识的实体。
本发明的实施例提供的一种低成本、高工作效率及准确完整地半自动生成知识图谱的方法及系统,不仅可以应用于勘探领域,还可以应用于医学、计算机科学等专业领域;不仅可以单独应用于文字或图文文本的知识图谱建立,还可用于文字和图像混合情况下的复杂文本信息的知识图谱的建立,为管理复杂专业领域内的文本信息提供高效方案。以下以勘探领域为例进行阐述。
实施例一
图1是本实施例提供的用于生成知识图谱的方法的步骤流程图。该方法基于包含命名实体类型之间属性及关联关系的初始知识图谱框架和种子知识集合生成初始知识图谱(步骤S110),具体来说,可借助行业内的一种常用知识分类体系对命名实体进行分类,将各类石油勘探知识按照知识形态与各种实体对象的概念类(项目类、地质对象类、地质年代类)等建立一个约束性的框架。这一约束框架规定了多个维度的命名实体类型有无(潜在的)关联关系,形象而直观地展示石油勘探领域各类知识间的关系。
判断图文单元的类型(步骤S120),在本实施例中,将待提取知识点的图文单元识别为文本单元或者图像单元。以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系(步骤S130)。
在图文单元的类型为文本单元的情况下,识别单一文本单元中出现的命名实体,提取文本单元中命名实体之间的关联关系;在图文单元的类型为图像单元的情况下,通过图像处理技术识别单一图像单元中的文字单元及对应的命名实体,基于文字单元所属的图像区域提取命名实体之间的关联关系。
随后提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项(步骤S140)。具体的,根据图文单元集合中文本和图像中提取的命名实体之间的关联关系,以及命名实体所属文字段落或图像区域的特征进行类聚及分类处理。与初始知识图谱比较,得到新增命名实体和命名实体间新增的关联关系,并对新增命名实体和命名实体间新增的关联关系赋予置信度形成候选知识项。其中,根据新增命名实体和命名实体间新增的关联关系在多个图文单元中被重复佐证的次数,以及在文本单元中语句佐证环境的数量和在图像单元中图像佐证环境的数量计算置信度。
在一个优选示例中,步骤S140还包括将候选知识项添加到初始知识图谱中形成候选新增知识图谱,用于后续的修正操作。
最后,对候选知识项进行修正,根据修正后的知识项更新初始知识图谱(步骤S150),更新后的知识图谱版本存储在知识库存储单元,并用于下一轮的知识图谱更新过程。其中包括展示候选新增知识图谱,接收用户对选新增知识图谱中新增命名实体和命名实体间新增的关联关系的修正指令,并根据修正指令删除候选知识项。
至此为止,本实施例提供的方法可从一个小的知识图谱知识框架及种子知识集合开始,利用计算机自动从海量的图文资料中发现、抽取、组织知识,经少量人工确认后,迅速而有效地构造一个丰富的知识图谱结构。
图2是本实施例提供的用于生成知识图谱的系统的结构示意图。该系统主要包括初始化单元210、类型判断单元220、单一图文知识项识别单元230、图文集合知识项识别单元240和修正单元250。
其中,初始化单元210设置为基于包含命名实体类型之间属性及关联关系的初始知识图谱框架和种子知识集合生成初始知识图谱,类型判断单元220设置为判断图文单元的类型,在本实施例中,将图文单元判断为文本单元或者图像单元。
单一图文知识项识别单元230设置为以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系。单一图文知识项识别单元230包括文本识别模块231和图像识别模块232。
文本识别模块231设置为在图文单元的类型为文本单元的情况下,识别单一文本单元中出现的命名实体,提取文本单元中命名实体之间的关联关系;
图像识别模块232设置为在图文单元的类型为图像单元的情况下,通过图像处理技术识别单一图像单元中的文字单元及对应的命名实体,基于文字单元所属的图像区域提取命名实体之间的关联关系。
图文集合知识项识别单元240设置为提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项。图文集合知识项识别单元240包括知识项发现模块241和比较模块242,优选还包括局部更新模块243。
其中,知识项发现模块241设置为根据图文单元集合中文本和图像中提取的命名实体之间的关联关系,以及命名实体所属文字段落或图像区域的特征进行类聚及分类处理。比较模块242设置为与初始知识图谱比较,得到新增命名实体和命名实体间新增的关联关系,并对新增命名实体和命名实体间新增的关联关系赋予置信度形成候选知识项。
局部更新模块243设置为将候选知识项添加到初始知识图谱中形成候选新增知识图谱,用于后续的修正操作。
在图2中,修正单元250设置为展示候选新增知识图谱,接收用户对选新增知识图谱中新增命名实体和命名实体间新增的关联关系的修正指令,并根据修正指令删除候选知识项。
实施例二
图3是本实施例提供的用于生成知识图谱的系统的结构示意图。该系统包括初始化单元、类型判断单元(图中未示出)、单一图文知识项识别单元、图文集合知识项识别单元和修正单元。
其中,单一图文知识项识别单元包括单一文本内知识发现与抽取单元和单一图像内知识发现与抽取单元。单一文本内知识发现与抽取单元包含两个连续作用的模块:单一文本内命名实体识别模块和单一文本内的命名实体关联关系发现模块。
所述单一文本内命名实体识别模块主要目的为识别出单一文本中涉及的命名实体。基于已有的勘探等领域的专业词典提取文本中各个段落、句子中出现的单词和命名实体,进行计算抽取出该句子及段落所涉及的命名实体-包括概念类及对象实例。
所述单一文本内的命名实体关联关系发现模块主要在前述模块基础上,通过多种语义处理技术,自动发现和抽取出同句或同段落中共现的两个或多个命名实体之间的疑似的关联关系。
所述单一图像内知识发现与抽取单元包含两个连续作用的模块:单一图像内命名实体识别模块、单一图像内的命名实体关联关系发现模块。
所述单一图像内命名实体识别模块,是针对单独的图像文档或文本文档中嵌入的图像,通过图像处理技术,识别出图像中的文字单元及对应的命名实体。
所述单一图像内的命名实体关联关系发现单元,主要为基于图像中识别出的命名实体,以及其对应的图像区域,来发现提取出命名实体间的各种关联关系。
所述图文集合知识项识别单元,用于批量处理某个文档集合中的各个文本及图像中提取出的命名实体关联关系,及其所处的文字段落和图像区域的特征,对这些语料进行统一的聚类及分类分析,对其中提取出的各个(疑似)新命名实体、及命名实体的(疑似)新属性和新关联关系,形成候选知识项。
所述修正单元主要是将跨文档的知识发现与抽取单元产生的新的候选知识项,通过可视化手段展现给专家或业务人员,并经由他们在知识图谱人工修正界面上的操作,最终确认或否决。人工修正的结果,最后将更新到机器可读的数据结构存储到知识库存储单元。
以下对该系统的处理过程进行详细说明。
初始化单元形成一个知识图谱的知识框架(即勘探等专业领域中不同命名实体类型间的属性及关联关系框架限制),及一个小的种子知识集合。所述知识图谱的知识框架,可以从专业标准规范文献中产生,或通过人工生成。其中的种子知识,可以从半结构化的专业文档、数据库设计文档中抽取获得,或者由人工给出。
所述单一文本内知识发现与抽取单元,是基于已有的勘探等领域的专业词典(其中包含了描述对象实例或概念类的命名实体的专业词汇及对应的命名实体类型,例如:寒武纪、奥陶纪等词语的实体类型为地质年代),通过各种统计语义分析模型-隐马尔可夫模型(HMM)方法或条件随机场(CRF)方法,提取文本中各个段落、句子中出现的单词,包括分词结果、命名实体识别结果、新词识别结果,进行计算抽取出该句子及段落所涉及的命名实体-包括概念类及对象实例。进一步地,提取出段落篇章中所描述的命名实体相互间的具体关联关系。
单一文本内命名实体识别模块通过分词、命名实体识别技术,识别出单一文本中提及的命名实体-包括概念类命名实体及对象实例类命名实体。
单一文本内的命名实体关联关系发现模块,在第一个模块的输出结果基础上,通过句法分析等语义分析技术,提取出段落篇章中所描述的命名实体相互间的具体关联关系。
所述单一图像内知识发现与抽取单元,是针对单独的图像文档或文本文档中嵌入的图像,通过图像处理技术-具体为边缘提取、纹理分析、图像分割、OCR(Optical Character Recognition,光学字符识别)等技术,首先将图像中的文字区域识别出来,并识别出其对应的单字,进而借助这些单字的图像特征(例如相互位置、距离、朝向、颜色及纹理相似度),识别出由单字组成的整个文字单元及对应的命名实体-概念类及对象实例。进一步地,发现提取出命名实体间的各种关联关系,例如位置关系(地图中各个图形化展现的命名实体的毗邻、从属关系)、构件关系(工程图中各个图形化展现的命名实体的空间构件组成关系)。
单一图像内命名实体识别模块通过图像处理技术,识别出图像中蕴含的各个文字单元,进一步映射到相应的命名实体-包括概念类命名实体及对象实例类命名实体。
单一图像内的命名实体及概念的关联关系识别模块,则是基于图像识别出的命名实体及其对应的图像区域,来发现提取出命名实体间的各种关联关系,例如位置关系(地图中各个图形化展现的命名实体的毗邻、从属关系)、构件关系(工程图中各个图形化展现的命名实体的空间构件组成关系)。
图文集合知识项识别单元用于批量处理文档集合中的所有文本及图像中提取出的命名实体之间的关联关系,及其所处的文字段落和图像区域的特征,对这些语料进行统一的聚类及分类分析,对其中提取出的各个(疑似)新增命名实体、及命名实体的(疑似)新增关联关系,在统计意义上赋予置信度,并形成候选知识项。
修正单元将候选知识项提交给相应的专家及业务人员进行关联性判断,将判断为“是”的候选知识项作为确认知识,判断为“否”的候选知识项被舍弃。
应用示例
以下说明应用图3所示的系统对勘探领域的图文单元进行处理的过程。
在生成知识图谱之前,首先需要进行初始化的工作,即人工生成知识框架(即勘探等专业领域中不同命名实体类型间的属性及关联关系框架限制),及一个小的种子知识集合。具体可以从半结构化的专业文档、数据库设计文档中抽取获得,或者由人工给出。
具体到初始化勘探领域知识图谱时,首先采用行业内一种常用的知识分类体系,将其分为物化探、井筒工程、综合研究等六大类,同时按照知识形态可以划分为成果、文献、数据、图形、标准、流程等。图4是一个知识框架的一个概念分类部分的初始化示例。
此外,在油气勘探的知识图谱的初始化框架构建中,还需要将各类石油勘探知识按照知识形态与各种实体对象的概念类(项目类、地质对象类、地质年代类)等建立一个约束性的框架。这一约束框架规定了多个维度的命名实体类型有无(潜在的)关联关系,形象而直观地展示石油勘探领域各类知识间的关系,实现跨领域的深层次知识应用。图4显示了油气勘探行业的知识框架的部分信息:知识目录分类的一部分及其与井相关的命名实体关联关系的一部分的约束框架。
在上述框架的基础上,进一步地,还可以借助勘探专业词典或某些行业辞典,填充进大量的命名实体名称,例如部分井名、全部的地质年代实例、全部的储层类型、大部分盆地名、部分地质构造单元名称、及一小部分对象实例间的具体关联关系,即完成了勘探领域知识图谱的初始化工作。
将初始化的知识图谱版本1作用于单一图文内知识点发现提取,即可挖掘提取出更多的命名实体,及其间的关联关系。
单一文本内知识点发现及提取单元,在已有的知识图谱版本(最初的初始版本号为1),提取出每个段落及每个完整文档内的知识点。
图5显示了“塔里木盆地寒武系勘探目标优选”项目报告中的一个段落。
借助分词技术(可参见黄昌宁的论文《中文信息处理的分词问题》,载于《语言文字应用》1997年第1期72~78页)及命名实体识别技术(可参见863计划中文信息处理与智能人机接口技术评测组所著《2004年度863计划中文信息处理与智能人机交互技术评测:命名实体评测结果报告》及刘非凡、赵军等人的论文《面向商务信息抽取的产品命名实体识别研究》,载于《中文信息学报》2006年第1期)等文本语义处理技术,单一文本内命名实体识别模块提取出该段落中提到的各类命名实体:
井(疑似):塔深1井。
一级地质构造单元(疑似):塔北隆起。
研究地质年代:寒武系。
储层类型:白云岩。
需要注明的是,本实施例假设在本版本的知识图谱中,未含有塔深1井或塔北隆起这些命名实体,则这些词将会作为疑似新词发现,并将其标注为疑似井(基于该词的命名特征为汉字+数字+井,符合井命名规则特征)及疑似一级地质构造单元(基于其命名规则为汉字或外文词+隆起,符合一级地质构造单元的命名特征)。
在上述工作基础上,单一文本内的命名实体关联关系发现模块进一步抽取出命名实体的潜在关联关系。其中,塔深1井(疑似的新增井)与塔北隆起(疑似的新增一级构造单元)位于同一子句中。系统基于知识图谱中一级地质构造单元相关的框架限制,抽取出候选知识点为:
井 | 所属一级构造单元 |
塔深1井 | 塔北隆起 |
因为同句中不存在其他的井,和其他的二级地质构造单元,故同句中无其他关系候选项,故该知识点置信度比较高。进一步地,通过使用统计语义识别技术,可以认为句式:一级构造单元名A+“代表的”+井名B,所蕴涵语义为井B位于一级构造单元A内。
其中,塔深1井与寒武系及白云岩处于相邻句中,系统筛选出候选知识项:
井 | 研究地质年代 | 储层类型 |
塔深1井 | 寒武纪 | 白云岩 |
系统将这些筛选出的候选知识项,与已有的知识图谱核对,发现上述候选知识项未出现在已有知识图谱内,系统即将上述疑似新增井、一级构造单元及相关佐证语句环境提交至跨图文提取模块进一步处理。
单一图像内知识发现与抽取单元,主要从每幅图像中,发现提取出命名实体及其间的各种关联关系。
图6为另一个研究塔里木盆地寒武系白云岩储层的项目“塔里木寒武系优质白云岩储层形成与分布”的相关文献的一幅图像,里面也提及了塔深1井。
单一图像内命名实体识别模块,通过图像处理技术-具体为边缘提取、纹理分析、图像分割、OCR识别等技术(参见戚飞虎等译著《模式识别与图像处理》,上海交通大学出版社1989年出版,及Milan Sonka,Vaclav Hlavac和Roger Boyle合著的Image Processing,Analysis,and Machine Vision,Second Edition,英文原版为Thomson出版社,授权国内人民邮电出版社于2001年印刷),首先将图像中的文字区域识别出来,并识别出其对应的单字。进一步地,基于每个文字单元所包含的文字覆盖领域的图像特征的一致性,比如颜色一致、纹理一致等,以及基于文字排列由上至下由左至右,可以将如下文字单元提取出来:“塔里木盆地寒武系沉积相及储层评价图”、“塔里木盆地”、“塔深1”、“库尔勒”、“油气显示井”等,通过分词及命名实体识别技术,识别出其中提及了下述命名实体:
盆地实例:塔里木盆地。
井类型:油气流井、油气显示井、干井。
储层类型:I类储层、局限台地相、台地边缘相、浅水斜坡相、浅海陆棚相
疑似新词:塔深1、塔参1、和4、塔东1、古隆1、英买32、阿克苏、库尔勒、喀什、巴楚、叶城。
需要注明的是,本实施例假设在本版本的知识图谱中,未含有塔深1、塔参1、和4、塔东1等井或阿克苏、库尔勒、喀什等地名。
通过对图右下角的图例的识别,系统可以识别出本图像内的油气显示井等不同类型的井对应的图标特征,并自动识别出各类井在图像中对应的区域位置。进一步地,基于“塔深1”图像区域与某特定的油井类型图标的位置相邻,系统可以识别出塔深1、塔参1、和4、塔东1、古隆1、英买32对应于各类型井。特别地,塔深1井对应油气显示井。遵循同样的方法,系统识别出塔深1井的寒武沉积相为台地边缘相,并位于塔里木盆地。其候选知识点描述如下:
井 | 所属盆地 | 井类型 | 沉积相 |
塔深1井 | 塔里木盆地 | 油气显示井 | 台地边缘相 |
与已有的知识图谱核对,发现上述候选知识点未出现在已有知识图谱内,系统即将上述的新增疑似命名实体、候选知识点及相关佐证图像及局部图像特征提交至跨图文的知识发现与抽取单元进一步处理。
跨图文的知识发现与抽取单元,就是批量处理上述两个单元-单一文本内知识发现与抽取单元及单一图像内知识发现与抽取单元-的输出结果,对这些候选知识点进行统一的聚类及分类分析,对其中提取出的各个(疑似)新增命名实体进行统计分析,统计各个疑似新增命名实体在多个图文中被重复佐证的次数及其对应的语句佐证环境例子及图像佐证环境例子,整体计算其置信度。
同样地,对于命名实体间的(疑似)新增关联关系,也在统计意义上赋予置信度,并形成候选知识项。
此外,跨图文的知识发现与抽取单元,基于知识图谱框架,将新增的疑似知识点-塔深1井-也挂接到两个相应的内容类目-井筒工程及勘探地质研究节点上。同时,增加塔里木盆地及寒武纪与两个项目的关联关系:塔里木寒武系优质白云岩储层形成与分布、塔里木盆地寒武系勘探目标优选。
在此基础上,跨图文的知识发现与抽取单元局部更新了知识图谱。图7显示了基于实施例图5和图6所形成的候选新增知识图谱的局部例子。
跨图文的知识发现与抽取单元抽取出的候选新增知识图谱,会统一提交至修正单元。修正单元主要是将这些新的候选知识-(疑似)新增命名实体、命名实体间的(疑似)新增关联关系、以及这些新增知识项对应的佐证例子的汇集-通过可视化手段展现给专家或业务人员,并经由他们在知识图谱人工修正界面上的操作,最终确认或否决。
知识图谱生成与修正单元所产生的人工修正后的最终结果,最后将更新到机器可读的数据结构存储,成为一个新的知识图谱版本更新到知识库存储单元,并作用于下一轮的知识图谱更新过程。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种用于生成知识图谱的方法,其特征在于,包括:
基于包含命名实体类型之间属性及关联关系的初始知识图谱框架和种子知识集合生成初始知识图谱;
判断图文单元的类型;
以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;
提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;
对候选知识项进行修正,根据修正后的知识项更新初始知识图谱。
2.根据权利要求1所述的用于生成知识图谱的方法,其特征在于,在基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系的步骤中,
在图文单元的类型为文本单元的情况下,识别单一文本单元中出现的命名实体,提取文本单元中命名实体之间的关联关系;
在图文单元的类型为图像单元的情况下,通过图像处理技术识别单一图像单元中的文字单元及对应的命名实体,基于文字单元所属的图像区域提取命名实体之间的关联关系。
3.根据权利要求2所述的用于生成知识图谱的方法,其特征在于,提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项的步骤中,
根据图文单元集合中文本和图像中提取的命名实体之间的关联关系,以及命名实体所属文字段落或图像区域的特征进行类聚及分类处理;
与初始知识图谱比较,得到新增命名实体和命名实体间新增的关联关系,并对新增命名实体和命名实体间新增的关联关系赋予置信度形成候选知识项。
4.根据权利要求3所述的用于生成知识图谱的方法,其特征在于,在对新增命名实体和命名实体间新增的关联关系赋予置信度的步骤中,
根据新增命名实体和命名实体间新增的关联关系在多个图文单元中被重复佐证的次数,以及在文本单元中语句佐证环境的数量和在图像单元中图像佐证环境的数量计算置信度。
5.根据权利要求3所述的用于生成知识图谱的方法,其特征在于,在对新增命名实体和命名实体间新增的关联关系赋予置信度的步骤中进一步包括:
将候选知识项添加到初始知识图谱中形成候选新增知识图谱。
6.根据权利要求5所述的用于生成知识图谱的方法,其特征在于,所述对候选知识项进行修正的步骤包括:
展示候选新增知识图谱;
接收用户对选新增知识图谱中新增命名实体和命名实体间新增的关联关系的修正指令;
根据修正指令删除候选知识项。
7.一种用于生成知识图谱的系统,其特征在于,包括:
初始化单元,其设置为基于包含命名实体类型之间属性及关联关系的初始知识图谱框架和种子知识集合生成初始知识图谱;
类型判断单元,其设置为判断图文单元的类型;
单一图文知识项识别单元,其设置为以初始知识图谱框架为约束条件,基于图文单元的类型识别单一图文单元中的命名实体以及命名实体之间的关联关系;
图文集合知识项识别单元,其设置为提取图文单元集合中新增命名实体和命名实体间新增的关联关系形成候选知识项;
修正单元,其设置为对候选知识项进行修正,根据修正后的知识项更新初始知识图谱。
8.根据权利要求7所述的用于生成知识图谱的系统,其特征在于,所述单一图文知识项识别单元包括:
文本识别模块,设置为在图文单元的类型为文本单元的情况下,识别单一文本单元中出现的命名实体,提取文本单元中命名实体之间的关联关系;
图像识别模块,设置为在图文单元的类型为图像单元的情况下,通过图像处理技术识别单一图像单元中的文字单元及对应的命名实体,基于文字单元所属的图像区域提取命名实体之间的关联关系。
9.根据权利要求8所述的用于生成知识图谱的系统,其特征在于,所述图文集合知识项识别单元包括:
知识项发现模块,其设置为根据图文单元集合中文本和图像中提取的命名实体之间的关联关系,以及命名实体所属文字段落或图像区域的特征进行类聚及分类处理;
比较模块,其设置为与初始知识图谱比较,得到新增命名实体和命名实体间新增的关联关系,并对新增命名实体和命名实体间新增的关联关系赋予置信度形成候选知识项。
10.根据权利要求9所述的用于生成知识图谱的系统,其特征在于,所述图文集合知识项识别单元进一步包括:
局部更新模块,其设置为将候选知识项添加到初始知识图谱中形成候选新增知识图谱。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510420315.6A CN106355627A (zh) | 2015-07-16 | 2015-07-16 | 一种用于生成知识图谱的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510420315.6A CN106355627A (zh) | 2015-07-16 | 2015-07-16 | 一种用于生成知识图谱的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106355627A true CN106355627A (zh) | 2017-01-25 |
Family
ID=57842366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510420315.6A Pending CN106355627A (zh) | 2015-07-16 | 2015-07-16 | 一种用于生成知识图谱的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106355627A (zh) |
Cited By (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107239832A (zh) * | 2017-06-12 | 2017-10-10 | 西南交通大学 | 一种在线动态知识地图集制作方法 |
CN107247739A (zh) * | 2017-05-10 | 2017-10-13 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
CN107368470A (zh) * | 2017-06-27 | 2017-11-21 | 北京神州泰岳软件股份有限公司 | 一种提取企业内部组织架构信息的方法和装置 |
CN107391673A (zh) * | 2017-07-21 | 2017-11-24 | 深圳狗尾草智能科技有限公司 | 携带时间戳的中文通用知识图谱的生成方法及装置 |
CN107704634A (zh) * | 2017-11-04 | 2018-02-16 | 辽宁工程技术大学 | 一种形成知识和构建知识链的方法 |
CN107748754A (zh) * | 2017-09-15 | 2018-03-02 | 广州唯品会研究院有限公司 | 一种知识图谱完善方法和装置 |
CN107861972A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种用户录入商品信息后显示商品全结果的方法及设备 |
CN107862561A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种基于图片属性提取建立用户兴趣库的方法及设备 |
CN107885863A (zh) * | 2017-11-21 | 2018-04-06 | 湖北大学 | 基于本体的地图符号表达方法及系统 |
CN107943874A (zh) * | 2017-11-13 | 2018-04-20 | 平安科技(深圳)有限公司 | 知识图谱处理方法、装置、计算机设备及存储介质 |
CN108090167A (zh) * | 2017-12-14 | 2018-05-29 | 畅捷通信息技术股份有限公司 | 数据检索的方法、系统、计算设备及存储介质 |
CN108268651A (zh) * | 2018-01-28 | 2018-07-10 | 海南大学 | 基于数据、信息和知识三层图谱架构的图像信息目标识别方法 |
CN108345647A (zh) * | 2018-01-18 | 2018-07-31 | 北京邮电大学 | 基于Web的领域知识图谱构建系统及方法 |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN108389614A (zh) * | 2018-03-02 | 2018-08-10 | 西安交通大学 | 基于图像分割与卷积神经网络构建医学影像图谱的方法 |
CN108763555A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的画像数据获取方法及装置 |
CN108763556A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的用户挖掘方法及装置 |
CN108804621A (zh) * | 2018-05-31 | 2018-11-13 | 四川华控图形科技有限公司 | 装备标准的关联图谱构建方法 |
CN108874915A (zh) * | 2018-05-30 | 2018-11-23 | 苏州思必驰信息科技有限公司 | 知识组织方法、系统、电子设备及存储介质 |
CN108959328A (zh) * | 2017-05-27 | 2018-12-07 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
CN109086316A (zh) * | 2018-06-27 | 2018-12-25 | 南京邮电大学 | 面向工业物联网资源的知识图谱自主构建系统 |
CN109145098A (zh) * | 2018-07-20 | 2019-01-04 | 西北大学 | 基于知识图谱的中华文化元素信息搜索方法 |
CN109243528A (zh) * | 2018-08-14 | 2019-01-18 | 张旭蓓 | 基于知识图谱有向图的生物过程控制方法 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN109508383A (zh) * | 2018-10-30 | 2019-03-22 | 北京国双科技有限公司 | 知识图谱的构建方法及装置 |
CN109828965A (zh) * | 2019-01-09 | 2019-05-31 | 北京小乘网络科技有限公司 | 一种数据处理的方法及电子设备 |
CN109858324A (zh) * | 2018-12-10 | 2019-06-07 | 西南石油大学 | 语言图文识别系统及其实现方法 |
CN109947952A (zh) * | 2019-03-20 | 2019-06-28 | 武汉市软迅科技有限公司 | 基于英语知识图谱的检索方法、装置、设备及存储介质 |
CN109977291A (zh) * | 2019-03-20 | 2019-07-05 | 武汉市软迅科技有限公司 | 基于物理知识图谱的检索方法、装置、设备及存储介质 |
CN110085299A (zh) * | 2019-04-19 | 2019-08-02 | 合肥中科离子医学技术装备有限公司 | 一种图像识别去燥方法、系统及图像库 |
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN110119694A (zh) * | 2019-04-24 | 2019-08-13 | 北京百炼智能科技有限公司 | 一种图片处理方法、装置及计算机可读存储介质 |
CN110245241A (zh) * | 2019-06-18 | 2019-09-17 | 卓尔智联(武汉)研究院有限公司 | 塑料知识图谱构建装置、方法及计算机可读存储介质 |
CN110534168A (zh) * | 2019-08-30 | 2019-12-03 | 北京百度网讯科技有限公司 | 药嘱风险提示方法、装置、电子设备及存储介质 |
CN110598021A (zh) * | 2018-05-25 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 获取图片的知识图谱的方法、装置和系统 |
CN110737779A (zh) * | 2019-09-18 | 2020-01-31 | 北京三快在线科技有限公司 | 知识图谱的构建方法、装置、存储介质和电子设备 |
CN111061884A (zh) * | 2019-11-14 | 2020-04-24 | 临沂市拓普网络股份有限公司 | 一种基于DeepDive技术构建K12教育知识图谱的方法 |
CN111400503A (zh) * | 2020-02-28 | 2020-07-10 | 广州数说故事信息科技有限公司 | 一种基于多指标的知识图谱生成方法 |
CN111475685A (zh) * | 2019-12-27 | 2020-07-31 | 北京国双科技有限公司 | 油气勘探方法、装置、存储介质及电子设备 |
CN111475604A (zh) * | 2019-09-18 | 2020-07-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN111667840A (zh) * | 2020-06-11 | 2020-09-15 | 刘娴 | 基于声纹识别的机器人知识图谱节点更新方法 |
CN112015909A (zh) * | 2020-08-19 | 2020-12-01 | 普洛斯科技(重庆)有限公司 | 知识图谱的构建方法及装置、电子设备、存储介质 |
CN112069326A (zh) * | 2020-09-03 | 2020-12-11 | Oppo广东移动通信有限公司 | 知识图谱的构建方法、装置、电子设备及存储介质 |
CN112417166A (zh) * | 2020-11-20 | 2021-02-26 | 山东省计算中心(国家超级计算济南中心) | 一种知识图谱三元组置信度评价方法 |
CN112463974A (zh) * | 2019-09-09 | 2021-03-09 | 华为技术有限公司 | 知识图谱建立的方法和装置 |
CN112486568A (zh) * | 2020-12-02 | 2021-03-12 | 浙江理工大学 | 一种基于知识图谱的程序自动修正方法 |
CN113094515A (zh) * | 2021-04-13 | 2021-07-09 | 国网北京市电力公司 | 基于电力营销数据的知识图谱实体及链接提取方法 |
WO2021254457A1 (zh) * | 2020-06-17 | 2021-12-23 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法及装置、计算机装置及存储介质 |
US11403328B2 (en) | 2019-03-08 | 2022-08-02 | International Business Machines Corporation | Linking and processing different knowledge graphs |
WO2023024098A1 (zh) * | 2021-08-27 | 2023-03-02 | 西门子股份公司 | 生成知识图谱的方法、装置和计算机可读介质 |
US11989628B2 (en) | 2021-03-05 | 2024-05-21 | International Business Machines Corporation | Machine teaching complex concepts assisted by computer vision and knowledge reasoning |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008134588A1 (en) * | 2007-04-25 | 2008-11-06 | Counsyl, Inc. | Methods and systems of automatic ontology population |
US20110137919A1 (en) * | 2009-12-09 | 2011-06-09 | Electronics And Telecommunications Research Institute | Apparatus and method for knowledge graph stabilization |
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN103955531A (zh) * | 2014-05-12 | 2014-07-30 | 南京提坦信息科技有限公司 | 基于命名实体库的在线知识地图 |
CN104462507A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于影视歌曲数据构建知识图谱的方法和装置 |
CN104462501A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于结构化数据的知识图谱构建方法和装置 |
-
2015
- 2015-07-16 CN CN201510420315.6A patent/CN106355627A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008134588A1 (en) * | 2007-04-25 | 2008-11-06 | Counsyl, Inc. | Methods and systems of automatic ontology population |
US20110137919A1 (en) * | 2009-12-09 | 2011-06-09 | Electronics And Telecommunications Research Institute | Apparatus and method for knowledge graph stabilization |
CN103729402A (zh) * | 2013-11-22 | 2014-04-16 | 浙江大学 | 一种基于图书目录的知识图谱的构建方法 |
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN103955531A (zh) * | 2014-05-12 | 2014-07-30 | 南京提坦信息科技有限公司 | 基于命名实体库的在线知识地图 |
CN104462507A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于影视歌曲数据构建知识图谱的方法和装置 |
CN104462501A (zh) * | 2014-12-19 | 2015-03-25 | 北京奇虎科技有限公司 | 基于结构化数据的知识图谱构建方法和装置 |
Non-Patent Citations (2)
Title |
---|
何南洋: "图书情报学知识图谱的构建与解读", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
邱鹍: "Web数据挖掘算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247739A (zh) * | 2017-05-10 | 2017-10-13 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
CN107247739B (zh) * | 2017-05-10 | 2019-11-01 | 浙江大学 | 一种基于因子图的金融公报文本知识提取方法 |
CN108959328A (zh) * | 2017-05-27 | 2018-12-07 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
US11270212B2 (en) | 2017-05-27 | 2022-03-08 | Ricoh Company, Ltd. | Knowledge graph processing method and device |
CN108959328B (zh) * | 2017-05-27 | 2021-12-21 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
CN107239832A (zh) * | 2017-06-12 | 2017-10-10 | 西南交通大学 | 一种在线动态知识地图集制作方法 |
CN107368470A (zh) * | 2017-06-27 | 2017-11-21 | 北京神州泰岳软件股份有限公司 | 一种提取企业内部组织架构信息的方法和装置 |
CN107391673B (zh) * | 2017-07-21 | 2020-11-03 | 苏州狗尾草智能科技有限公司 | 携带时间戳的中文通用知识图谱的生成方法及装置 |
CN107391673A (zh) * | 2017-07-21 | 2017-11-24 | 深圳狗尾草智能科技有限公司 | 携带时间戳的中文通用知识图谱的生成方法及装置 |
CN107861972B (zh) * | 2017-09-15 | 2022-02-22 | 广州唯品会研究院有限公司 | 一种用户录入商品信息后显示商品全结果的方法及设备 |
CN107862561A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种基于图片属性提取建立用户兴趣库的方法及设备 |
CN107861972A (zh) * | 2017-09-15 | 2018-03-30 | 广州唯品会研究院有限公司 | 一种用户录入商品信息后显示商品全结果的方法及设备 |
CN107748754A (zh) * | 2017-09-15 | 2018-03-02 | 广州唯品会研究院有限公司 | 一种知识图谱完善方法和装置 |
CN107704634A (zh) * | 2017-11-04 | 2018-02-16 | 辽宁工程技术大学 | 一种形成知识和构建知识链的方法 |
CN107943874A (zh) * | 2017-11-13 | 2018-04-20 | 平安科技(深圳)有限公司 | 知识图谱处理方法、装置、计算机设备及存储介质 |
WO2019091019A1 (zh) * | 2017-11-13 | 2019-05-16 | 平安科技(深圳)有限公司 | 知识图谱处理方法、装置、计算机设备及计算机存储介质 |
CN107885863A (zh) * | 2017-11-21 | 2018-04-06 | 湖北大学 | 基于本体的地图符号表达方法及系统 |
CN108090167A (zh) * | 2017-12-14 | 2018-05-29 | 畅捷通信息技术股份有限公司 | 数据检索的方法、系统、计算设备及存储介质 |
CN108090167B (zh) * | 2017-12-14 | 2020-11-10 | 畅捷通信息技术股份有限公司 | 数据检索的方法、系统、计算设备及存储介质 |
CN110110172A (zh) * | 2017-12-28 | 2019-08-09 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN108345647A (zh) * | 2018-01-18 | 2018-07-31 | 北京邮电大学 | 基于Web的领域知识图谱构建系统及方法 |
CN108388580A (zh) * | 2018-01-24 | 2018-08-10 | 平安医疗健康管理股份有限公司 | 融合医学知识及应用病例的动态知识图谱更新方法 |
CN108268651A (zh) * | 2018-01-28 | 2018-07-10 | 海南大学 | 基于数据、信息和知识三层图谱架构的图像信息目标识别方法 |
CN108389614A (zh) * | 2018-03-02 | 2018-08-10 | 西安交通大学 | 基于图像分割与卷积神经网络构建医学影像图谱的方法 |
CN108389614B (zh) * | 2018-03-02 | 2021-01-19 | 西安交通大学 | 基于图像分割与卷积神经网络构建医学影像图谱的方法 |
CN110598021B (zh) * | 2018-05-25 | 2023-03-21 | 阿里巴巴集团控股有限公司 | 获取图片的知识图谱的方法、装置和系统 |
CN110598021A (zh) * | 2018-05-25 | 2019-12-20 | 阿里巴巴集团控股有限公司 | 获取图片的知识图谱的方法、装置和系统 |
CN108874915A (zh) * | 2018-05-30 | 2018-11-23 | 苏州思必驰信息科技有限公司 | 知识组织方法、系统、电子设备及存储介质 |
CN108804621A (zh) * | 2018-05-31 | 2018-11-13 | 四川华控图形科技有限公司 | 装备标准的关联图谱构建方法 |
CN108763555A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的画像数据获取方法及装置 |
CN108763556A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的用户挖掘方法及装置 |
CN109086316B (zh) * | 2018-06-27 | 2021-09-14 | 南京邮电大学 | 面向工业物联网资源的知识图谱自主构建系统 |
CN109086316A (zh) * | 2018-06-27 | 2018-12-25 | 南京邮电大学 | 面向工业物联网资源的知识图谱自主构建系统 |
CN109145098B (zh) * | 2018-07-20 | 2021-10-29 | 西北大学 | 基于知识图谱的中华文化元素信息搜索方法 |
CN109145098A (zh) * | 2018-07-20 | 2019-01-04 | 西北大学 | 基于知识图谱的中华文化元素信息搜索方法 |
CN109243528A (zh) * | 2018-08-14 | 2019-01-18 | 张旭蓓 | 基于知识图谱有向图的生物过程控制方法 |
CN109243528B (zh) * | 2018-08-14 | 2022-02-08 | 张旭蓓 | 基于知识图谱有向图的生物过程控制方法 |
CN109492077A (zh) * | 2018-09-29 | 2019-03-19 | 北明智通(北京)科技有限公司 | 基于知识图谱的石化领域问答方法及系统 |
CN109508383A (zh) * | 2018-10-30 | 2019-03-22 | 北京国双科技有限公司 | 知识图谱的构建方法及装置 |
CN109858324A (zh) * | 2018-12-10 | 2019-06-07 | 西南石油大学 | 语言图文识别系统及其实现方法 |
CN109828965B (zh) * | 2019-01-09 | 2021-06-15 | 千城数智(北京)网络科技有限公司 | 一种数据处理的方法及电子设备 |
CN109828965A (zh) * | 2019-01-09 | 2019-05-31 | 北京小乘网络科技有限公司 | 一种数据处理的方法及电子设备 |
US11403328B2 (en) | 2019-03-08 | 2022-08-02 | International Business Machines Corporation | Linking and processing different knowledge graphs |
CN109977291A (zh) * | 2019-03-20 | 2019-07-05 | 武汉市软迅科技有限公司 | 基于物理知识图谱的检索方法、装置、设备及存储介质 |
CN109947952A (zh) * | 2019-03-20 | 2019-06-28 | 武汉市软迅科技有限公司 | 基于英语知识图谱的检索方法、装置、设备及存储介质 |
CN109977291B (zh) * | 2019-03-20 | 2021-03-02 | 武汉市软迅科技有限公司 | 基于物理知识图谱的检索方法、装置、设备及存储介质 |
CN109947952B (zh) * | 2019-03-20 | 2021-03-02 | 武汉市软迅科技有限公司 | 基于英语知识图谱的检索方法、装置、设备及存储介质 |
CN110085299B (zh) * | 2019-04-19 | 2020-12-08 | 合肥中科离子医学技术装备有限公司 | 一种图像识别去燥方法、系统及图像库 |
CN110085299A (zh) * | 2019-04-19 | 2019-08-02 | 合肥中科离子医学技术装备有限公司 | 一种图像识别去燥方法、系统及图像库 |
CN110119694B (zh) * | 2019-04-24 | 2021-03-12 | 北京百炼智能科技有限公司 | 一种图片处理方法、装置及计算机可读存储介质 |
CN110119694A (zh) * | 2019-04-24 | 2019-08-13 | 北京百炼智能科技有限公司 | 一种图片处理方法、装置及计算机可读存储介质 |
CN110245241A (zh) * | 2019-06-18 | 2019-09-17 | 卓尔智联(武汉)研究院有限公司 | 塑料知识图谱构建装置、方法及计算机可读存储介质 |
CN110534168A (zh) * | 2019-08-30 | 2019-12-03 | 北京百度网讯科技有限公司 | 药嘱风险提示方法、装置、电子设备及存储介质 |
CN112463974A (zh) * | 2019-09-09 | 2021-03-09 | 华为技术有限公司 | 知识图谱建立的方法和装置 |
CN110737779A (zh) * | 2019-09-18 | 2020-01-31 | 北京三快在线科技有限公司 | 知识图谱的构建方法、装置、存储介质和电子设备 |
CN110737779B (zh) * | 2019-09-18 | 2021-05-04 | 北京三快在线科技有限公司 | 知识图谱的构建方法、装置、存储介质和电子设备 |
CN111475604A (zh) * | 2019-09-18 | 2020-07-31 | 北京国双科技有限公司 | 数据处理方法及装置 |
CN111061884B (zh) * | 2019-11-14 | 2023-11-21 | 临沂市拓普网络股份有限公司 | 一种基于DeepDive技术构建K12教育知识图谱的方法 |
CN111061884A (zh) * | 2019-11-14 | 2020-04-24 | 临沂市拓普网络股份有限公司 | 一种基于DeepDive技术构建K12教育知识图谱的方法 |
CN111475685A (zh) * | 2019-12-27 | 2020-07-31 | 北京国双科技有限公司 | 油气勘探方法、装置、存储介质及电子设备 |
CN111400503B (zh) * | 2020-02-28 | 2023-09-22 | 广州数说故事信息科技有限公司 | 一种基于多指标的知识图谱生成方法 |
CN111400503A (zh) * | 2020-02-28 | 2020-07-10 | 广州数说故事信息科技有限公司 | 一种基于多指标的知识图谱生成方法 |
CN111667840A (zh) * | 2020-06-11 | 2020-09-15 | 刘娴 | 基于声纹识别的机器人知识图谱节点更新方法 |
WO2021254457A1 (zh) * | 2020-06-17 | 2021-12-23 | 第四范式(北京)技术有限公司 | 构建知识图谱的方法及装置、计算机装置及存储介质 |
CN112015909A (zh) * | 2020-08-19 | 2020-12-01 | 普洛斯科技(重庆)有限公司 | 知识图谱的构建方法及装置、电子设备、存储介质 |
CN112015909B (zh) * | 2020-08-19 | 2024-04-30 | 普洛斯科技(重庆)有限公司 | 知识图谱的构建方法及装置、电子设备、存储介质 |
CN112069326A (zh) * | 2020-09-03 | 2020-12-11 | Oppo广东移动通信有限公司 | 知识图谱的构建方法、装置、电子设备及存储介质 |
CN112069326B (zh) * | 2020-09-03 | 2024-08-06 | Oppo广东移动通信有限公司 | 知识图谱的构建方法、装置、电子设备及存储介质 |
CN112417166B (zh) * | 2020-11-20 | 2022-08-26 | 山东省计算中心(国家超级计算济南中心) | 一种知识图谱三元组置信度评价方法 |
CN112417166A (zh) * | 2020-11-20 | 2021-02-26 | 山东省计算中心(国家超级计算济南中心) | 一种知识图谱三元组置信度评价方法 |
CN112486568B (zh) * | 2020-12-02 | 2022-06-28 | 浙江理工大学 | 一种基于知识图谱的程序自动修正方法 |
CN112486568A (zh) * | 2020-12-02 | 2021-03-12 | 浙江理工大学 | 一种基于知识图谱的程序自动修正方法 |
US11989628B2 (en) | 2021-03-05 | 2024-05-21 | International Business Machines Corporation | Machine teaching complex concepts assisted by computer vision and knowledge reasoning |
CN113094515A (zh) * | 2021-04-13 | 2021-07-09 | 国网北京市电力公司 | 基于电力营销数据的知识图谱实体及链接提取方法 |
WO2023024098A1 (zh) * | 2021-08-27 | 2023-03-02 | 西门子股份公司 | 生成知识图谱的方法、装置和计算机可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106355627A (zh) | 一种用于生成知识图谱的方法及系统 | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN103488724B (zh) | 一种面向图书的阅读领域知识图谱构建方法 | |
Faigenbaum-Golovin et al. | Algorithmic handwriting analysis of Judah’s military correspondence sheds light on composition of biblical texts | |
CN110222199A (zh) | 一种基于本体和多种神经网络集成的人物关系图谱构建方法 | |
CN110990590A (zh) | 一种基于强化学习和迁移学习的动态金融知识图谱构建方法 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN114419304A (zh) | 一种基于图神经网络的多模态文档信息抽取方法 | |
CN111159356B (zh) | 基于教学内容的知识图谱构建方法 | |
CN115905553A (zh) | 面向施工图审查规范知识抽取与知识图谱构建方法及系统 | |
CN109213837B (zh) | 一种流域多模型集成数据处理方法 | |
Lawley et al. | Applications of Natural Language Processing to Geoscience Text Data and Prospectivity Modeling | |
Lacasta et al. | Design and evaluation of a semantic enrichment process for bibliographic databases | |
El-Hajj et al. | Explainability and transparency in the realm of digital humanities: toward a historian XAI | |
Gregory et al. | Modeling space in historical texts | |
CN112148735B (zh) | 一种用于结构化表格数据知识图谱的构建方法 | |
CN109344390A (zh) | 一种基于多特征神经网络的柬语实体识别的方法 | |
Vintar et al. | TermFrame: a systematic approach to Karst Terminology | |
CN112861538A (zh) | 一种基于上下文语义关系和文档一致性约束的实体链接方法 | |
Bizzoni et al. | Some steps towards the generation of diachronic WordNets | |
Ma et al. | CnGeoPLM: Contextual knowledge selection and embedding with pretrained language representation model for the geoscience domain | |
CN116701648A (zh) | 基于规范标准映射知识图谱及schema设计方法 | |
Ouyang et al. | MDFF: A method for fine-grained UFZ mapping with multimodal geographic data and deep network | |
CN107885833B (zh) | 基于Web新闻文本快速检测地表覆盖变化的方法及系统 | |
Rodriguez et al. | LAGOS‐US RESERVOIR: A database classifying conterminous US lakes 4 ha and larger as natural lakes or reservoir lakes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170125 |
|
RJ01 | Rejection of invention patent application after publication |