[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107526799A - 一种基于深度学习的知识图谱构建方法 - Google Patents

一种基于深度学习的知识图谱构建方法 Download PDF

Info

Publication number
CN107526799A
CN107526799A CN201710713735.2A CN201710713735A CN107526799A CN 107526799 A CN107526799 A CN 107526799A CN 201710713735 A CN201710713735 A CN 201710713735A CN 107526799 A CN107526799 A CN 107526799A
Authority
CN
China
Prior art keywords
msub
mrow
target
entity
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710713735.2A
Other languages
English (en)
Other versions
CN107526799B (zh
Inventor
姬东鸿
李霏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan Black Tea Data Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Black Tea Data Technology Co Ltd filed Critical Wuhan Black Tea Data Technology Co Ltd
Priority to CN201710713735.2A priority Critical patent/CN107526799B/zh
Publication of CN107526799A publication Critical patent/CN107526799A/zh
Application granted granted Critical
Publication of CN107526799B publication Critical patent/CN107526799B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于深度学习的知识图谱构建方法,包括给定目标文本语句,使用双向长短时记忆循环神经网络模型和条件随机场模型识别目标文本语句中的目标实体;使用上下文敏感双向长短时记忆循环神经网络模型和前向神经网络模型抽取两个目标实体之间的关系;使用向量空间模型对目标实体进行规范化,并将规范化后的目标实体映射到概念上;根据目标实体、目标实体之间的关系和概念构建知识图谱。本发明将深度学习技术应用到知识图谱图谱的构建中,采用双向循环神经网络和条件随机场的实体识别模型对目标文本语句中的目标实体进行识别,减少实体识别和关系抽取过程中的特征工程,减轻人工设计和调节特征带来的负担和麻烦,精准挖掘文本中的知识。

Description

一种基于深度学习的知识图谱构建方法
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于深度学习的知识图谱构建方法。
背景技术
Web作为一个巨大的、开放的、异构的和动态的信息容器,产生和容纳了巨大规模的文本、数据、多媒体、临时性数据等各类信息。由于资源分散且没有统一的管理和结构,这就导致相关信息的获取并非易事,人们真正感兴趣的内容常常被淹没在众多无关信息当中。通过对网络内容进行深度的语义挖掘,从语义层次理解用户的兴趣,才能为人们提供高质量的互联网资讯。在这个背景下,Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱。知识图谱旨在描述真实世界中存在的各种实体或概念。其中,每个实体或概念用一个全局唯一确定的ID来标识,称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair,又称AVP)用来刻画实体的内在特性,而关系(relation)用来连接两个实体,刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图,图中的节点表示实体或概念,而图中的边则由属性或关系构成。
命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向语义网的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。在实体识别的过程中,还需要同时对实体间的语义关系进行判断。因为本体库的概念之间定义了大量语义关系,只有明确了这些关系,才能更好的进行语义挖掘。
目前互联网中的主要文本挖掘技术常用的方法主要是基于特征或基于核函数的模型。基于特征的模型往往需要设计大量的词法,句法和语义的特征,然后放到像支持向量机(SVM)这样的分类器当中进行分类,其中基于特征的方法最大的问题是要花费大量的时间和精力去构造特征。而另一种基于核函数的方式,虽然不用去建造庞大的特征工程,但如何设计和选择合适的核函数非常困难。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于深度学习的知识图谱构建方法。
本发明解决上述技术问题的技术方案如下:一种基于深度学习的知识图谱构建方法,包括如下步骤:
步骤1:给定目标文本语句,使用双向长短时记忆循环神经网络模型和条件随机场模型识别所述目标文本语句中的目标实体;
步骤2:使用上下文敏感双向长短时记忆循环神经网络模型和前向神经网络模型抽取两个所述目标实体之间的关系;
步骤3:使用向量空间模型对目标实体进行规范化,并将规范化后的所述目标实体映射到词典概念上;
步骤4:根据所述目标实体、所述目标实体之间的关系和概念构建知识图谱。
本发明的有益效果是:本发明的基于深度学习的知识图谱构建方法,将深度学习技术应用到知识图谱图谱的构建中,采用双向循环神经网络和条件随机场的实体识别模型对目标文本语句中的目标实体进行识别,减少实体识别和关系抽取过程中的特征工程,减轻人工设计和调节特征带来的负担和麻烦,利用深度学习技术的学习能力和表示能力,精准挖掘文本中的知识。
在上述技术方案的基础上,本发明还可以做如下改进:
进一步:所述步骤1具体包括:
步骤11:采用双向长短时记忆循环神经网络模型计算所述目标文本语句中每个词的xi对应的所有可能标签的概率Zi
步骤12:采用条件随机场对所述目标文本语句中的每一个词xi进行标注,计算出最优标注序列y*,并根据所述最优标注序列y*获取所述目标文本语句中的目标实体。
上述进一步方案的有益效果是:通过计算所述目标文本语句中每个词对应的所有可能标签的概率Zi,并根据所述概率获取最优标注序列y*,这样就可以得到所述目标文本的最优标注方案,便于有效对所述目标文本语句中的目标实体进行有效准确的识别。
进一步:所述步骤11具体包括:
步骤111:采用双向长短时记忆循环神经网络模型在预设查找表中查找所述目标文本语句x=x1,x2,......,xn中的每一个词xi对应的词向量ei
步骤112:将所述词向量ei作为双向长短时记忆循环神经网络模型的输入分别从右至左和从左至右扫描,得到两个第一输出序列
步骤113:将两个所述第一输出序列进行串接,抽取两个所述第一输出序列的特征,并计算每个词xi对应的所有可能标签的概率Zi
上述进一步方案的有益效果是:通过每个词xi对应的词向量ei得到出输出序列,并根据数据序列提取序列的特征,即可准确的计算出每一个词xi对应的所有可能标签的概率Zi,便于后续根据所述概率Zi获取到最优标签序列y*
进一步:所述步骤步骤113中抽取两个所述第一输出序列的特征,并计算每个词xi对应的所有可能标签的概率Zi具体如下:
Zi=W2·h′i
其中,W1表示隐层参数矩阵,b1表示隐层偏置,h′i表示第一输出序列中第i个值的隐层输出,W2表示输出层参数矩阵。
上述进一步方案的有益效果是:采用前向神经网络可以计算出准确的每个词xi对应的所有可能标签的概率Zi,便于后续根据所述概率Zi准确的获取最优标签序列。
进一步:所述步骤12具体包括:
步骤121:将所述目标文本语句x=x1,x2,......,xn作为条件随机场模型的输入计算得到第二输出序列,并计算所述第二输出序列对应的标签序列y=y1,y2,......,yn
步骤122:根据每个词xi对应的所有可能标签的概率Zi计算所述标签序列y=y1,y2,......,yn的得分s(x,y),并将得分最高的标签作为最优标签序列
步骤123:对所述最优标签序列进行解码,得到所述目标文本语句中的目标实体。
上述进一步方案的有益效果是:通过条件随机场模型可用更加有效的建模标签之间的关系,并能够得到句子级的最优标签序列,更加准确。
进一步:所述步骤122中,所述标签序列的得分s(x,y)计算具体如下:
其中,表示第i个词xi获得标签yi概率,表示标签yi-1与标签yi之间的转移概率。
进一步:所述步骤2具体包括:
步骤21:将所述词向量ei作为上下文敏感双向长短时记忆循环神经网络模型的输入,分别从右至左和从左至右循环计算,得到两个第三输出序列h’=h'1,h'2,…h'i,…h'n和h”=h”1,h”2,…h”i,…h”n
步骤22:将两个所述第三输出序列h'和h”进行组合运算,得到最终序列h=h1,h2,…hi,…hn
步骤23:根据所述文本语句中任意两个目标实体与对应的词的相对位置将所述最终序列h划分成五组向量,并对每组向量进行池化处理,得到对应的五组输出向量rbefore,rformer,rmiddle,rlatter,rafter;将串接后的向量输入至softmax分类器求得所有关系类型的概率,并输出最大概率,即为两个目标实体之间的关系。
上述进一步方案的有益效果是:采用上下文敏感双向长短时记忆循环神经网络模型对所述词向量ei进行双向循环计算,并将得到的两个第三输出序列进行组合运算得到最终序列,这样可以通过所述目标实体与词的相对位置对所述最终序列进行准确划分并进行池化处理,这样就可以通过softmax分类器可以得出所述目标实体之间的所有关系类型。
进一步:所述步骤22中两个所述第三输出序列h'和h”进行组合运算具体如下:
其中,W1表示隐层参数矩阵,b1表示隐层偏置,h'和h”表示两个所述第三输出序列。
进一步:所述步骤3具体包括:
步骤31:根据所述目标实体构建特征向量entity,根据词典概念构建多个特征向量concept;
步骤32:使用相似度度量评估特征向量entity和每一个concept之间的相似度;
步骤33:将所述目标实体映射到与所述特征向量entity相似度最大的所述特征向量concept对应的词典概念上。
上述进一步方案的有益效果是:通过上述步骤可以对所述目标实体进行规范化,便于后续准确的构建知识网络图谱。
进一步:所述步骤4具体实现为:以所述概念为节点、以所述目标实体之间的关系为边将所述目标实体进行连接,形成知识图谱。
附图说明
图1为本发明的基于深度学习的知识图谱构建方法流程示意图;
图2为本发明的基于深度学习的实体识别模型示例图;
图3为本发明的基于深度学习的关系抽取模型示例图;
图4为本发明的基于向量空间模型的实体规范化示例图;
图5为本发明的知识图谱的示例图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种基于深度学习的知识图谱构建方法,包括如下步骤:
步骤1:给定目标文本语句,使用双向长短时记忆循环神经网络模型和条件随机场模型识别所述目标文本语句中的目标实体;
步骤2:使用上下文敏感双向长短时记忆循环神经网络模型抽取两个所述目标实体之间的关系;
步骤3:使用向量空间模型对目标实体进行规范化,并将规范化后的所述目标实体映射到概念上;
步骤4:根据所述目标实体、所述目标实体之间的关系和概念构建知识图谱。
将深度学习技术应用到知识图谱图谱的构建中,采用双向循环神经网络和条件随机场的实体识别模型对目标文本语句中的目标实体进行识别,减少实体识别和关系抽取过程中的特征工程,减轻人工设计和调节特征带来的负担和麻烦,利用深度学习技术的学习能力和表示能力,精准挖掘文本中的知识。
优选地,在上述实施例的基础上,所述步骤1具体包括:
步骤11:采用双向长短时记忆循环神经网络模型计算所述目标文本语句中每个词的xi对应的所有可能标签的概率Zi
步骤12:采用条件随机场对所述目标文本语句中的每一个词xi进行标注,计算出最优标注序列y*,并根据所述最优标注序列y*获取所述目标文本语句中的目标实体。
通过计算所述目标文本语句中每个词对应的所有可能标签的概率Zi,并根据所述概率获取最优标注序列y*,这样就可以得到所述目标文本的最优标注方案,便于有效对所述目标文本语句中的目标实体进行有效准确的识别。
优选地,在上述实施例的基础上,所述步骤11具体包括:
步骤111:采用双向长短时记忆循环神经网络模型在预设查找表中查找所述目标文本语句x=x1,x2,......,xn中的每一个词xi对应的词向量ei
步骤112:将所述词向量ei作为双向长短时记忆循环神经网络模型的输入分别从右至左和从左至右扫描,得到两个第一输出序列
步骤113:将两个所述第一输出序列进行串接,抽取两个所述第一输出序列的特征,并计算每个词xi对应的所有可能标签的概率Zi
通过每个词xi对应的词向量ei得到出输出序列,并根据数据序列提取序列的特征,即可准确的计算出每一个词xi对应的所有可能标签的概率Zi,便于后续根据所述概率Zi获取到最优标签序列y*
实际中,双向长短时记忆循环神经网络LSTM模型中包含两个LSTM单元,其中,对句子从左到右扫描,对句子从右到左扫描。双向LSTM不仅能够捕捉当前词之前的上下文信息,也能够捕捉它之后的上下文信息。对应的输出序列为 对应的输出序列为
优选地,在上述实施例的基础上,所述步骤步骤113中抽取两个所述第一输出序列的特征,并计算每个词xi对应的所有可能标签的概率Zi具体如下:
Zi=W2·h′i
其中,W1表示隐层参数矩阵,b1表示隐层偏置,h′i表示第一输出序列中第i个值的隐层输出,W2表示输出层参数矩阵。
采用前向神经网络可以计算出准确的每个词xi对应的所有可能标签的概率Zi,便于后续根据所述概率Zi准确的获取最优标签序列。
优选地,在上述实施例的基础上,所述步骤12具体包括:
步骤121:将所述目标文本语句x=x1,x2,......,xn作为条件随机场模型的输入计算得到第二输出序列,并计算所述第二输出序列对应的标签序列y=y1,y2,......,yn
步骤122:根据每个词xi对应的所有可能标签的概率Zi计算所述标签序列y=y1,y2,......,yn的得分s(x,y),并将得分最高的标签作为最优标签序列
步骤123:对所述最优标签序列进行解码,得到所述目标文本语句中的目标实体。
通过条件随机场模型可用更加有效的建模标签之间的关系,并能够得到句子级的最优标签序列,更加准确。
实际中,得到所述计算所述标签序列y=y1,y2,......,yn的得分s(x,y)后,将所有标签序列y=y1,y2,......,yn的得分s(x,y)进行比较,选取得分最高的所述标签序列作为最优标签序列
优选地,在上述实施例的基础上,所述步骤122中,所述标签序列的得分s(x,y)计算具体如下:
其中,表示第i个词xi获得标签yi概率,表示标签yi-1与标签yi之间的转移概率。
如图2所示,所述目标文本语句“he head headaches from mold in…”,通过所述查找表查找目标文本语句中每一个词对应的词向量,然后将所述词向量作为双向长短时记忆循环神经网络模型的输入分别从右至左和从左至右扫描,得到两个第一输出序列,将两个所述第一输出序列进行串接,然后在输入至隐层,抽取两个所述第一输出序列的特征,然后通过CRF层计算每个词对应的所有可能标签以及对应的概率。最终得到的最优标签序列为“O O B O B O…”,因此可以解码出实体“headaches”和“mold”。
优选地,作为本发明的一个实施例,该实施例中,所述2具体包括:
步骤21:将所述词向量ei作为上下文敏感双向长短时记忆循环神经网络模型的输入,分别从右至左和从左至右循环计算,得到两个第三输出序列h’=h'1,h'2,…h'i,…h'n和h”=h”1,h”2,…h”i,…h”n
步骤22:将两个所述第三输出序列h'和h”进行组合运算,得到最终序列h=h1,h2,…hi,…hn
步骤23:根据所述文本语句中任意两个目标实体与对应的词的相对位置将所述最终序列h划分成五组向量,并对每组向量进行池化处理,得到对应的五组输出向量rbefore,rformer,rmiddle,rlatter,rafter,其中,rbefore表示前一个实体之前的上下文,rformer表示前一个实体,rmiddle表示两个实体之间的上下文,rlatter表示后一个实体,rafter表示后一个实体后的上下文;
步骤24:将所述五组输出向量进行串接,将串接后的向量输入至softmax分类器求得所有关系类型的概率,并输出最大概率,即为两个目标实体之间的关系。
采用上下文敏感双向长短时记忆循环神经网络模型对所述词向量ei进行双向循环计算,并将得到的两个第三输出序列进行组合运算得到最终序列,这样可以通过所述目标实体与词的相对位置对所述最终序列进行准确划分,可以显式的表示实体以及它们的上下文,然后经过池化处理,这样就可以通过softmax分类器可以得出所述目标实体之间的所有关系类型。
实际中,将所述目标文本语句x=x1,x2,......,xn作为所述上下文敏感双向长短时记忆循环神经网络模型输入,该模型输出词向量序列,把词向量ei分两个方向输入该模型,该模型使用一个LSTM单元从左到右循环计算所有的词向量ei,生成输出序列为h’=h’1,h’2,…h’i,…h’n;另一方面,该模型使用另一个LSTM单元从右到左循环计算所有的词向量序列,并生成输出序列h”=h”1,h”2,…h”i,…h”n
这里,所述步骤23中的池化处理,使用最大化,最小化,平均,标准差等4种池化方法。
优选地,在上述实施例的基础上,所述步骤22中两个所述第三输出序列h和’h”进行组合运算具体如下:
其中,W1表示隐层参数矩阵,b1表示隐层偏置,h'和h”表示两个所述第三输出序列。
如图3所示,所述文本语句“He had headaches from mold in…”对应的词向量作为上下文敏感双向长短时记忆循环神经网络模型的输入,分别从右至左和从左至右对其循环计算,得到两个第三输出序,将两个所述第三输出序列进行组合运算,得到最终序列;根据所述文本语句中两个目标实体“headches”和“mold”将所述最终序列h划分成五组before,former,middle,latter,after,并对每组向量分别进行池化处理,得到对应的五组输出向量rbefore,rformer,rmiddle,rlatter,rafter,最后将所述五组输出向量进行串接,将串接后的向量输入至softmax分类器求得所有关系类型的概率,并输出最大概率,即为两个目标实体之间的关系。
优选地,作为本发明的一个实施例,该实施例中,所述步骤3具体包括:
步骤31:根据所述目标实体构建特征向量entity,根据词典概念构建多个特征向量concept;
步骤32:使用相似度度量评估特征向量entity和每一个concept之间的相似度;
步骤33:将所述目标实体映射到与所述特征向量entity相似度最大的所述特征向量concept对应的词典概念上,得到规范化结果。
通过上述步骤可以对所述目标实体进行规范化,便于后续准确的构建知识图谱。并且,在实体规范化时,将实体和词典概念表示为特征向量,比基于字符串匹配的规范化方法更加灵活有效。
这里,所述目标实体可以取它的词以及上下文的词,词典概念可以取词典中的词以及它的同义词,在使用词典概念中的词构建向量时,要考虑到词的泛化问题,避免稀疏性。
如图4所示,从所述目标文本语句中识别出目标实体,然后根据目标实体构建特征向量entity,将词典中的每一个概念表示为一个特征向量concept,使用相似度度量评估特征向量entity和每一个concept之间的相似度,然后将所述目标实体映射到与所述特征向量entity相似度最大的所述特征向量concept对应的词典概念上,得到规范化结果。
优选地,所述步骤32中,使用余弦相似度度量来综合计算所述目标实体与词典概念的相似度,然后在进入步骤33。
所述计算所述目标实体与词典概念的相似度的具体公式为:
其中,X表示目标实体向量,Y表示词典概念向量,entityi表示目标实体向量的第i个维度元素,concepti表示词典概念向量的第i个维度元素,entity表示所述目标实体构建特征向量,concept表示词典概念特征向量。
优选地,作为本发明的一个实施例,该实施例中,所述步骤4具体实现为:以所述概念为节点、以所述目标实体之间的关系为边将所述目标实体进行连接,形成知识图谱。
如图5所示,比如实体有“腾讯”,“腾讯视频”,“阿里”等,它们之间的关系用边来表示,比如“腾讯”和“腾讯视频”之间存在“自有”关系。实体和它们之间的关系共同构成了一个复杂网络,即知识图谱。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度学习的知识图谱构建方法,其特征在于,包括如下步骤:
步骤1:给定目标文本语句,使用双向长短时记忆循环神经网络模型和条件随机场模型识别所述目标文本语句中的目标实体;
步骤2:使用上下文敏感双向长短时记忆循环神经网络模型抽取两个所述目标实体之间的关系;
步骤3:使用向量空间模型对目标实体进行规范化,并将规范化后的所述目标实体映射到词典概念上;
步骤4:根据所述目标实体、所述目标实体之间的关系和概念构建知识图谱。
2.根据权利要求1所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤1具体包括:
步骤11:采用双向长短时记忆循环神经网络模型计算所述目标文本语句中每个词的xi对应的所有可能标签的概率Zi
步骤12:采用条件随机场对所述目标文本语句中的每一个词xi进行标注,计算出最优标注序列y*,并根据所述最优标注序列y*获取所述目标文本语句中的目标实体。
3.根据权利要求2所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤11具体包括:
步骤111:采用双向长短时记忆循环神经网络模型在预设查找表中查找所述目标文本语句x=x1,x2,......,xn中的每一个词xi对应的词向量ei
步骤112:将所述词向量ei作为双向长短时记忆循环神经网络模型的输入分别从右至左和从左至右扫描,得到两个第一输出序列
步骤113:将两个所述第一输出序列进行串接,抽取两个所述第一输出序列的特征,并计算每个词xi对应的所有可能标签的概率Zi
4.根据权利要求3所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤步骤113中抽取两个所述第一输出序列的特征,并计算每个词xi对应的所有可能标签的概率Zi具体如下:
<mrow> <msubsup> <mi>h</mi> <mi>i</mi> <mo>&amp;prime;</mo> </msubsup> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>&amp;CenterDot;</mo> <mo>&amp;lsqb;</mo> <msub> <mover> <mi>h</mi> <mo>&amp;RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>h</mi> <mo>&amp;LeftArrow;</mo> </mover> <mi>i</mi> </msub> <mo>&amp;rsqb;</mo> <mo>+</mo> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow>
Zi=W2·hi
其中,W1表示隐层参数矩阵,b1表示隐层偏置,hi′表示第一输出序列中第i个值的隐层输出,W2表示输出层参数矩阵。
5.根据权利要求2所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤12具体包括:
步骤121:将所述目标文本语句x=x1,x2,......,xn作为条件随机场模型的输入计算得到第二输出序列,并计算所述第二输出序列对应的标签序列y=y1,y2,......,yn
步骤122:根据每个词xi对应的所有可能标签的概率Zi计算所述标签序列y=y1,y2,......,yn的得分s(x,y),并将得分最高的标签作为最优标签序列
步骤123:对所述最优标签序列进行解码,得到所述目标文本语句中的目标实体。
6.根据权利要求2所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤122中,所述标签序列的得分s(x,y)计算具体如下:
<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>Z</mi> <mrow> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>+</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>T</mi> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </msub> </mrow>
其中,表示第i个词xi获得标签yi概率,表示标签yi-1与标签yi之间的转移概率。
7.根据权利要求1所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤2具体包括:
步骤21:将所述词向量ei作为上下文敏感双向长短时记忆循环神经网络模型的输入,分别从右至左和从左至右循环计算,得到两个第三输出序列h’=h'1,h'2,…h'i,…h'n和h”=h”1,h”2,…h”i,…h”n
步骤22:将两个所述第三输出序列h'和h”进行组合运算,得到最终序列h=h1,h2,…hi,…hn
步骤23:根据所述文本语句中任意两个目标实体与对应的词的相对位置将所述最终序列h划分成五组向量,并对每组所述向量进行池化处理,得到对应的五组输出向量;
步骤24:将所述五组输出向量进行串接,将串接后的向量输入至softmax分类器求得所有关系类型的概率,并输出最大概率,即为两个目标实体之间的关系。
8.根据权利要求7所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤22中两个所述第三输出序列h'和h”进行组合运算具体如下:
<mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>&amp;CenterDot;</mo> <mo>(</mo> <mrow> <msub> <msup> <mi>h</mi> <mo>&amp;prime;</mo> </msup> <mi>i</mi> </msub> <mo>&amp;CirclePlus;</mo> <msub> <msup> <mi>h</mi> <mrow> <mo>&amp;prime;</mo> <mo>&amp;prime;</mo> </mrow> </msup> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow>
其中,W1表示隐层参数矩阵,b1表示隐层偏置,h'和h”表示两个所述第三输出序列。
9.根据权利要求1至8任一项所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤3具体包括:
步骤31:根据所述目标实体构建特征向量entity,根据词典概念构建多个特征向量concept;
步骤32:使用相似度度量评估特征向量entity和每一个concept之间的相似度;
步骤33:将所述目标实体映射到与所述特征向量entity相似度最大的所述特征向量concept对应的词典概念上。
10.根据权利要求1至8任一项所述的基于深度学习的知识图谱构建方法,其特征在于,所述步骤4具体实现为:以所述概念为节点、以所述目标实体之间的关系为边将所述目标实体进行连接,形成知识图谱。
CN201710713735.2A 2017-08-18 2017-08-18 一种基于深度学习的知识图谱构建方法 Active CN107526799B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710713735.2A CN107526799B (zh) 2017-08-18 2017-08-18 一种基于深度学习的知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710713735.2A CN107526799B (zh) 2017-08-18 2017-08-18 一种基于深度学习的知识图谱构建方法

Publications (2)

Publication Number Publication Date
CN107526799A true CN107526799A (zh) 2017-12-29
CN107526799B CN107526799B (zh) 2021-01-08

Family

ID=60681446

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710713735.2A Active CN107526799B (zh) 2017-08-18 2017-08-18 一种基于深度学习的知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN107526799B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108154509A (zh) * 2018-01-12 2018-06-12 平安科技(深圳)有限公司 癌症识别方法、装置及存储介质
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN108563626A (zh) * 2018-01-22 2018-09-21 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108681544A (zh) * 2018-03-07 2018-10-19 中山大学 一种基于图谱拓扑结构和实体文本描述的深度学习方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108764194A (zh) * 2018-06-04 2018-11-06 科大讯飞股份有限公司 一种文本校验方法、装置、设备及可读存储介质
CN109002436A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于长短期记忆网络的医疗文本术语自动识别方法及系统
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109922075A (zh) * 2019-03-22 2019-06-21 中国南方电网有限责任公司 网络安全知识图谱构建方法和装置、计算机设备
CN110019810A (zh) * 2018-01-02 2019-07-16 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110120001A (zh) * 2019-05-08 2019-08-13 成都佳发安泰教育科技股份有限公司 一种基于知识图谱库与记忆曲线结合提分的方法及系统
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN110377745A (zh) * 2018-04-11 2019-10-25 阿里巴巴集团控股有限公司 信息处理方法、信息检索方法、装置及服务器
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN111368094A (zh) * 2020-02-27 2020-07-03 沈阳东软熙康医疗系统有限公司 实体知识图谱建立、属性信息获取、门诊分诊方法及装置
CN111522964A (zh) * 2020-04-17 2020-08-11 电子科技大学 一种藏医药文献核心概念挖掘方法
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111708892A (zh) * 2020-04-24 2020-09-25 陆洋 一种基于深度知识图谱的数据库系统
CN111985207A (zh) * 2020-08-17 2020-11-24 中国人民解放军战略支援部队信息工程大学 一种访问控制策略的获取方法、装置及电子设备
CN112069792A (zh) * 2019-05-24 2020-12-11 阿里巴巴集团控股有限公司 命名实体识别方法、装置、设备
CN112714032A (zh) * 2021-03-29 2021-04-27 网络通信与安全紫金山实验室 无线网络协议知识图谱构建分析方法、系统、设备及介质
CN114218963A (zh) * 2022-02-22 2022-03-22 子长科技(北京)有限公司 文本信息处理方法、装置、电子设备及介质
CN114443813A (zh) * 2022-01-09 2022-05-06 西北大学 一种智能化的在线教学资源知识点概念实体链接方法
US11574179B2 (en) 2019-01-07 2023-02-07 International Business Machines Corporation Deep symbolic validation of information extraction systems

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN106776711A (zh) * 2016-11-14 2017-05-31 浙江大学 一种基于深度学习的中文医学知识图谱构建方法
CN106886516A (zh) * 2017-02-27 2017-06-23 竹间智能科技(上海)有限公司 自动识别语句关系和实体的方法及装置
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法

Cited By (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019810B (zh) * 2018-01-02 2021-05-04 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN110019810A (zh) * 2018-01-02 2019-07-16 中国移动通信有限公司研究院 一种本体匹配方法、装置和计算机存储介质
CN108154509A (zh) * 2018-01-12 2018-06-12 平安科技(深圳)有限公司 癌症识别方法、装置及存储介质
CN108154509B (zh) * 2018-01-12 2022-11-11 平安科技(深圳)有限公司 癌症识别方法、装置及存储介质
CN108563626B (zh) * 2018-01-22 2022-01-25 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108563626A (zh) * 2018-01-22 2018-09-21 北京颐圣智能科技有限公司 医疗文本命名实体识别方法和装置
CN108681544A (zh) * 2018-03-07 2018-10-19 中山大学 一种基于图谱拓扑结构和实体文本描述的深度学习方法
CN110377745A (zh) * 2018-04-11 2019-10-25 阿里巴巴集团控股有限公司 信息处理方法、信息检索方法、装置及服务器
CN108509654A (zh) * 2018-04-18 2018-09-07 上海交通大学 动态知识图谱的构建方法
CN108509654B (zh) * 2018-04-18 2021-12-28 上海交通大学 动态知识图谱的构建方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108733792B (zh) * 2018-05-14 2020-12-01 北京大学深圳研究生院 一种实体关系抽取方法
CN108764194A (zh) * 2018-06-04 2018-11-06 科大讯飞股份有限公司 一种文本校验方法、装置、设备及可读存储介质
CN109062939A (zh) * 2018-06-20 2018-12-21 广东外语外贸大学 一种面向汉语国际教育的智能导学方法
CN109002436A (zh) * 2018-07-12 2018-12-14 上海金仕达卫宁软件科技有限公司 基于长短期记忆网络的医疗文本术语自动识别方法及系统
CN109189943A (zh) * 2018-09-19 2019-01-11 中国电子科技集团公司信息科学研究院 一种能力知识抽取及能力知识图谱构建的方法
CN109446530A (zh) * 2018-11-03 2019-03-08 上海犀语科技有限公司 一种基于lstm模型由文本中抽取信息的方法及装置
US11574179B2 (en) 2019-01-07 2023-02-07 International Business Machines Corporation Deep symbolic validation of information extraction systems
US11907842B2 (en) 2019-01-07 2024-02-20 Nternational Business Machines Corporation Deep symbolic validation of information extraction systems
CN109872775B (zh) * 2019-02-21 2021-04-30 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109872775A (zh) * 2019-02-21 2019-06-11 北京迈迪培尔信息技术有限公司 一种文献标注方法、装置、设备及计算机可读介质
CN109922075A (zh) * 2019-03-22 2019-06-21 中国南方电网有限责任公司 网络安全知识图谱构建方法和装置、计算机设备
CN110188346B (zh) * 2019-04-29 2023-09-29 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN110188346A (zh) * 2019-04-29 2019-08-30 浙江工业大学 一种基于信息抽取的网络安全法案件智能研判方法
CN110120001A (zh) * 2019-05-08 2019-08-13 成都佳发安泰教育科技股份有限公司 一种基于知识图谱库与记忆曲线结合提分的方法及系统
CN110120001B (zh) * 2019-05-08 2021-07-20 成都佳发安泰教育科技股份有限公司 一种基于知识图谱库与记忆曲线结合提分的方法及系统
CN112069792A (zh) * 2019-05-24 2020-12-11 阿里巴巴集团控股有限公司 命名实体识别方法、装置、设备
CN110705292A (zh) * 2019-08-22 2020-01-17 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110705292B (zh) * 2019-08-22 2022-11-29 成都信息工程大学 一种基于知识库和深度学习的实体名称提取方法
CN110825827B (zh) * 2019-11-13 2022-10-25 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN110825827A (zh) * 2019-11-13 2020-02-21 北京明略软件系统有限公司 一种实体关系识别模型训练、实体关系识别方法及装置
CN111368094A (zh) * 2020-02-27 2020-07-03 沈阳东软熙康医疗系统有限公司 实体知识图谱建立、属性信息获取、门诊分诊方法及装置
CN111368094B (zh) * 2020-02-27 2024-03-26 沈阳东软熙康医疗系统有限公司 实体知识图谱建立、属性信息获取、门诊分诊方法及装置
CN111522964A (zh) * 2020-04-17 2020-08-11 电子科技大学 一种藏医药文献核心概念挖掘方法
CN111708892A (zh) * 2020-04-24 2020-09-25 陆洋 一种基于深度知识图谱的数据库系统
CN111708892B (zh) * 2020-04-24 2021-08-03 陆洋 一种基于深度知识图谱的数据库系统
CN111581387A (zh) * 2020-05-09 2020-08-25 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111581387B (zh) * 2020-05-09 2022-10-11 电子科技大学 一种基于损失优化的实体关系联合抽取方法
CN111985207A (zh) * 2020-08-17 2020-11-24 中国人民解放军战略支援部队信息工程大学 一种访问控制策略的获取方法、装置及电子设备
CN111985207B (zh) * 2020-08-17 2023-06-06 中国人民解放军战略支援部队信息工程大学 一种访问控制策略的获取方法、装置及电子设备
CN112714032B (zh) * 2021-03-29 2021-07-02 网络通信与安全紫金山实验室 无线网络协议知识图谱构建分析方法、系统、设备及介质
CN112714032A (zh) * 2021-03-29 2021-04-27 网络通信与安全紫金山实验室 无线网络协议知识图谱构建分析方法、系统、设备及介质
CN114443813A (zh) * 2022-01-09 2022-05-06 西北大学 一种智能化的在线教学资源知识点概念实体链接方法
CN114443813B (zh) * 2022-01-09 2024-04-09 西北大学 一种智能化的在线教学资源知识点概念实体链接方法
CN114218963A (zh) * 2022-02-22 2022-03-22 子长科技(北京)有限公司 文本信息处理方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN107526799B (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN107526799B (zh) 一种基于深度学习的知识图谱构建方法
Pang et al. Text matching as image recognition
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
WO2021135193A1 (zh) 一种基于视觉对象引导的社交媒体短文本命名实体识别方法
CN107944559B (zh) 一种实体关系自动识别方法及系统
US8396286B1 (en) Learning concepts for video annotation
CN111858940B (zh) 一种基于多头注意力的法律案例相似度计算方法及系统
Wu et al. Learning of multimodal representations with random walks on the click graph
CN104142995B (zh) 基于视觉属性的社会事件识别方法
Wang et al. Deep cascaded cross-modal correlation learning for fine-grained sketch-based image retrieval
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114417851B (zh) 一种基于关键词加权信息的情感分析方法
CN114647713A (zh) 基于虚拟对抗的知识图谱问答方法、设备及存储介质
CN114398681A (zh) 训练隐私信息分类模型、识别隐私信息的方法和装置
CN112800239A (zh) 意图识别模型训练方法、意图识别方法及装置
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN112613451B (zh) 一种跨模态文本图片检索模型的建模方法
Wang et al. Multi-modal transformer using two-level visual features for fake news detection
JP7121819B2 (ja) 画像処理方法及び装置、電子機器、コンピュータ可読記憶媒体並びにコンピュータプログラム
Perdana et al. Instance-based deep transfer learning on cross-domain image captioning
CN113434721B (zh) 表情包分类方法、装置、计算机设备和存储介质
CN113190690B (zh) 无监督知识图谱推理处理方法、装置、设备和介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Singh et al. Visual content generation from textual description using improved adversarial network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230203

Address after: 430072 Hubei Province, Wuhan city Wuchang District of Wuhan University Luojiashan

Patentee after: WUHAN University

Address before: Floor 5, building A4, optics valley software park, Hongshan District, Wuhan City, Hubei Province 430000

Patentee before: WUHAN HONGCHA DATA TECHNOLOGY CO.,LTD.

TR01 Transfer of patent right