CN107526799A

CN107526799A - 一种基于深度学习的知识图谱构建方法

Info

Publication number: CN107526799A
Application number: CN201710713735.2A
Authority: CN
Inventors: 姬东鸿; 李霏
Original assignee: Wuhan Black Tea Data Technology Co Ltd
Current assignee: Wuhan University WHU
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2017-12-29
Anticipated expiration: 2037-08-18
Also published as: CN107526799B

Abstract

本发明涉及一种基于深度学习的知识图谱构建方法，包括给定目标文本语句,使用双向长短时记忆循环神经网络模型和条件随机场模型识别目标文本语句中的目标实体；使用上下文敏感双向长短时记忆循环神经网络模型和前向神经网络模型抽取两个目标实体之间的关系；使用向量空间模型对目标实体进行规范化，并将规范化后的目标实体映射到概念上；根据目标实体、目标实体之间的关系和概念构建知识图谱。本发明将深度学习技术应用到知识图谱图谱的构建中，采用双向循环神经网络和条件随机场的实体识别模型对目标文本语句中的目标实体进行识别，减少实体识别和关系抽取过程中的特征工程，减轻人工设计和调节特征带来的负担和麻烦，精准挖掘文本中的知识。

Description

一种基于深度学习的知识图谱构建方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于深度学习的知识图谱构建方法。

背景技术

Web作为一个巨大的、开放的、异构的和动态的信息容器，产生和容纳了巨大规模的文本、数据、多媒体、临时性数据等各类信息。由于资源分散且没有统一的管理和结构，这就导致相关信息的获取并非易事，人们真正感兴趣的内容常常被淹没在众多无关信息当中。通过对网络内容进行深度的语义挖掘，从语义层次理解用户的兴趣，才能为人们提供高质量的互联网资讯。在这个背景下，Google、百度和搜狗等搜索引擎公司纷纷以此为基础构建知识图谱。知识图谱旨在描述真实世界中存在的各种实体或概念。其中，每个实体或概念用一个全局唯一确定的ID来标识，称为它们的标识符(identifier)。每个属性-值对(attribute-valuepair，又称AVP)用来刻画实体的内在特性，而关系(relation)用来连接两个实体，刻画它们之间的关联。知识图谱亦可被看作是一张巨大的图，图中的节点表示实体或概念，而图中的边则由属性或关系构成。

命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向语义网的元数据标注等应用领域的重要基础工具，在自然语言处理技术走向实用化的过程中占有重要地位。一般来说，命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。在实体识别的过程中，还需要同时对实体间的语义关系进行判断。因为本体库的概念之间定义了大量语义关系，只有明确了这些关系，才能更好的进行语义挖掘。

目前互联网中的主要文本挖掘技术常用的方法主要是基于特征或基于核函数的模型。基于特征的模型往往需要设计大量的词法，句法和语义的特征，然后放到像支持向量机(SVM)这样的分类器当中进行分类，其中基于特征的方法最大的问题是要花费大量的时间和精力去构造特征。而另一种基于核函数的方式，虽然不用去建造庞大的特征工程，但如何设计和选择合适的核函数非常困难。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于深度学习的知识图谱构建方法。

本发明解决上述技术问题的技术方案如下：一种基于深度学习的知识图谱构建方法，包括如下步骤：

步骤1：给定目标文本语句,使用双向长短时记忆循环神经网络模型和条件随机场模型识别所述目标文本语句中的目标实体；

步骤2：使用上下文敏感双向长短时记忆循环神经网络模型和前向神经网络模型抽取两个所述目标实体之间的关系；

步骤3：使用向量空间模型对目标实体进行规范化，并将规范化后的所述目标实体映射到词典概念上；

步骤4：根据所述目标实体、所述目标实体之间的关系和概念构建知识图谱。

本发明的有益效果是：本发明的基于深度学习的知识图谱构建方法，将深度学习技术应用到知识图谱图谱的构建中，采用双向循环神经网络和条件随机场的实体识别模型对目标文本语句中的目标实体进行识别，减少实体识别和关系抽取过程中的特征工程，减轻人工设计和调节特征带来的负担和麻烦，利用深度学习技术的学习能力和表示能力，精准挖掘文本中的知识。

在上述技术方案的基础上，本发明还可以做如下改进：

进一步：所述步骤1具体包括：

步骤11:采用双向长短时记忆循环神经网络模型计算所述目标文本语句中每个词的x_i对应的所有可能标签的概率Z_i；

步骤12:采用条件随机场对所述目标文本语句中的每一个词x_i进行标注，计算出最优标注序列y^*，并根据所述最优标注序列y^*获取所述目标文本语句中的目标实体。

上述进一步方案的有益效果是：通过计算所述目标文本语句中每个词对应的所有可能标签的概率Z_i，并根据所述概率获取最优标注序列y^*，这样就可以得到所述目标文本的最优标注方案，便于有效对所述目标文本语句中的目标实体进行有效准确的识别。

进一步：所述步骤11具体包括：

步骤111：采用双向长短时记忆循环神经网络模型在预设查找表中查找所述目标文本语句x＝x₁,x₂,......,x_n中的每一个词x_i对应的词向量e_i；

步骤112：将所述词向量e_i作为双向长短时记忆循环神经网络模型的输入分别从右至左和从左至右扫描，得到两个第一输出序列

步骤113：将两个所述第一输出序列和进行串接，抽取两个所述第一输出序列和的特征，并计算每个词x_i对应的所有可能标签的概率Z_i。

上述进一步方案的有益效果是：通过每个词x_i对应的词向量e_i得到出输出序列，并根据数据序列提取序列的特征，即可准确的计算出每一个词x_i对应的所有可能标签的概率Z_i，便于后续根据所述概率Z_i获取到最优标签序列y^*。

进一步：所述步骤步骤113中抽取两个所述第一输出序列和的特征，并计算每个词x_i对应的所有可能标签的概率Z_i具体如下：

Z_i＝W₂·h′_i

其中，W₁表示隐层参数矩阵，b₁表示隐层偏置，h′_i表示第一输出序列中第i个值的隐层输出，W₂表示输出层参数矩阵。

上述进一步方案的有益效果是：采用前向神经网络可以计算出准确的每个词x_i对应的所有可能标签的概率Z_i，便于后续根据所述概率Z_i准确的获取最优标签序列。

进一步：所述步骤12具体包括：

步骤121：将所述目标文本语句x＝x₁,x₂,......,x_n作为条件随机场模型的输入计算得到第二输出序列，并计算所述第二输出序列对应的标签序列y＝y₁,y₂,......,y_n；

步骤122：根据每个词x_i对应的所有可能标签的概率Z_i计算所述标签序列y＝y₁,y₂,......,y_n的得分s(x,y)，并将得分最高的标签作为最优标签序列

步骤123：对所述最优标签序列进行解码，得到所述目标文本语句中的目标实体。

上述进一步方案的有益效果是：通过条件随机场模型可用更加有效的建模标签之间的关系，并能够得到句子级的最优标签序列，更加准确。

进一步：所述步骤122中，所述标签序列的得分s(x,y)计算具体如下：

其中，表示第i个词x_i获得标签y_i概率，表示标签y_i-1与标签y_i之间的转移概率。

进一步：所述步骤2具体包括：

步骤21：将所述词向量e_i作为上下文敏感双向长短时记忆循环神经网络模型的输入，分别从右至左和从左至右循环计算，得到两个第三输出序列h’＝h'₁,h'₂,…h'_i,…h'_n和h”＝h”₁,h”₂,…h”_i,…h”_n；

步骤22：将两个所述第三输出序列h'和h”进行组合运算，得到最终序列h＝h₁,h₂,…h_i,…h_n；

步骤23：根据所述文本语句中任意两个目标实体与对应的词的相对位置将所述最终序列h划分成五组向量，并对每组向量进行池化处理，得到对应的五组输出向量r_before，r_former，r_middle，r_latter，r_after；将串接后的向量输入至softmax分类器求得所有关系类型的概率，并输出最大概率，即为两个目标实体之间的关系。

上述进一步方案的有益效果是：采用上下文敏感双向长短时记忆循环神经网络模型对所述词向量e_i进行双向循环计算，并将得到的两个第三输出序列进行组合运算得到最终序列，这样可以通过所述目标实体与词的相对位置对所述最终序列进行准确划分并进行池化处理，这样就可以通过softmax分类器可以得出所述目标实体之间的所有关系类型。

进一步：所述步骤22中两个所述第三输出序列h'和h”进行组合运算具体如下：

其中，W₁表示隐层参数矩阵，b₁表示隐层偏置，h'和h”表示两个所述第三输出序列。

进一步：所述步骤3具体包括：

步骤31：根据所述目标实体构建特征向量entity，根据词典概念构建多个特征向量concept；

步骤32：使用相似度度量评估特征向量entity和每一个concept之间的相似度；

步骤33：将所述目标实体映射到与所述特征向量entity相似度最大的所述特征向量concept对应的词典概念上。

上述进一步方案的有益效果是：通过上述步骤可以对所述目标实体进行规范化，便于后续准确的构建知识网络图谱。

进一步：所述步骤4具体实现为：以所述概念为节点、以所述目标实体之间的关系为边将所述目标实体进行连接，形成知识图谱。

附图说明

图1为本发明的基于深度学习的知识图谱构建方法流程示意图；

图2为本发明的基于深度学习的实体识别模型示例图；

图3为本发明的基于深度学习的关系抽取模型示例图；

图4为本发明的基于向量空间模型的实体规范化示例图；

图5为本发明的知识图谱的示例图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，一种基于深度学习的知识图谱构建方法，包括如下步骤：

步骤2：使用上下文敏感双向长短时记忆循环神经网络模型抽取两个所述目标实体之间的关系；

步骤3：使用向量空间模型对目标实体进行规范化，并将规范化后的所述目标实体映射到概念上；

将深度学习技术应用到知识图谱图谱的构建中，采用双向循环神经网络和条件随机场的实体识别模型对目标文本语句中的目标实体进行识别，减少实体识别和关系抽取过程中的特征工程，减轻人工设计和调节特征带来的负担和麻烦，利用深度学习技术的学习能力和表示能力，精准挖掘文本中的知识。

优选地，在上述实施例的基础上，所述步骤1具体包括：

通过计算所述目标文本语句中每个词对应的所有可能标签的概率Z_i，并根据所述概率获取最优标注序列y^*，这样就可以得到所述目标文本的最优标注方案，便于有效对所述目标文本语句中的目标实体进行有效准确的识别。

优选地，在上述实施例的基础上，所述步骤11具体包括：

通过每个词x_i对应的词向量e_i得到出输出序列，并根据数据序列提取序列的特征，即可准确的计算出每一个词x_i对应的所有可能标签的概率Z_i，便于后续根据所述概率Z_i获取到最优标签序列y^*。

实际中，双向长短时记忆循环神经网络LSTM模型中包含两个LSTM单元，其中，对句子从左到右扫描，对句子从右到左扫描。双向LSTM不仅能够捕捉当前词之前的上下文信息，也能够捕捉它之后的上下文信息。对应的输出序列为对应的输出序列为

优选地，在上述实施例的基础上，所述步骤步骤113中抽取两个所述第一输出序列和的特征，并计算每个词x_i对应的所有可能标签的概率Z_i具体如下：

Z_i＝W₂·h′_i

采用前向神经网络可以计算出准确的每个词x_i对应的所有可能标签的概率Z_i，便于后续根据所述概率Z_i准确的获取最优标签序列。

优选地，在上述实施例的基础上，所述步骤12具体包括：

通过条件随机场模型可用更加有效的建模标签之间的关系，并能够得到句子级的最优标签序列，更加准确。

实际中，得到所述计算所述标签序列y＝y₁,y₂,......,y_n的得分s(x,y)后，将所有标签序列y＝y₁,y₂,......,y_n的得分s(x,y)进行比较，选取得分最高的所述标签序列作为最优标签序列

优选地，在上述实施例的基础上，所述步骤122中，所述标签序列的得分s(x,y)计算具体如下：

如图2所示，所述目标文本语句“he head headaches from mold in…”，通过所述查找表查找目标文本语句中每一个词对应的词向量，然后将所述词向量作为双向长短时记忆循环神经网络模型的输入分别从右至左和从左至右扫描，得到两个第一输出序列，将两个所述第一输出序列进行串接，然后在输入至隐层，抽取两个所述第一输出序列的特征，然后通过CRF层计算每个词对应的所有可能标签以及对应的概率。最终得到的最优标签序列为“O O B O B O…”，因此可以解码出实体“headaches”和“mold”。

优选地，作为本发明的一个实施例，该实施例中，所述2具体包括：

步骤23：根据所述文本语句中任意两个目标实体与对应的词的相对位置将所述最终序列h划分成五组向量，并对每组向量进行池化处理，得到对应的五组输出向量r_before，r_former，r_middle，r_latter，r_after，其中，r_before表示前一个实体之前的上下文，r_former表示前一个实体，r_middle表示两个实体之间的上下文，r_latter表示后一个实体，r_after表示后一个实体后的上下文；

步骤24：将所述五组输出向量进行串接，将串接后的向量输入至softmax分类器求得所有关系类型的概率，并输出最大概率，即为两个目标实体之间的关系。

采用上下文敏感双向长短时记忆循环神经网络模型对所述词向量e_i进行双向循环计算，并将得到的两个第三输出序列进行组合运算得到最终序列，这样可以通过所述目标实体与词的相对位置对所述最终序列进行准确划分，可以显式的表示实体以及它们的上下文，然后经过池化处理，这样就可以通过softmax分类器可以得出所述目标实体之间的所有关系类型。

实际中，将所述目标文本语句x＝x₁,x₂,......,x_n作为所述上下文敏感双向长短时记忆循环神经网络模型输入，该模型输出词向量序列，把词向量e_i分两个方向输入该模型，该模型使用一个LSTM单元从左到右循环计算所有的词向量e_i，生成输出序列为h’＝h’₁,h’₂,…h’_i,…h’_n；另一方面，该模型使用另一个LSTM单元从右到左循环计算所有的词向量序列，并生成输出序列h”＝h”₁,h”₂,…h”_i,…h”_n。

这里，所述步骤23中的池化处理，使用最大化,最小化,平均,标准差等4种池化方法。

优选地，在上述实施例的基础上，所述步骤22中两个所述第三输出序列h和’h”进行组合运算具体如下：

如图3所示，所述文本语句“He had headaches from mold in…”对应的词向量作为上下文敏感双向长短时记忆循环神经网络模型的输入，分别从右至左和从左至右对其循环计算，得到两个第三输出序，将两个所述第三输出序列进行组合运算，得到最终序列；根据所述文本语句中两个目标实体“headches”和“mold”将所述最终序列h划分成五组before，former，middle，latter，after，并对每组向量分别进行池化处理，得到对应的五组输出向量r_before，r_former，r_middle，r_latter，r_after，最后将所述五组输出向量进行串接，将串接后的向量输入至softmax分类器求得所有关系类型的概率，并输出最大概率，即为两个目标实体之间的关系。

优选地，作为本发明的一个实施例，该实施例中，所述步骤3具体包括：

步骤33：将所述目标实体映射到与所述特征向量entity相似度最大的所述特征向量concept对应的词典概念上，得到规范化结果。

通过上述步骤可以对所述目标实体进行规范化，便于后续准确的构建知识图谱。并且，在实体规范化时，将实体和词典概念表示为特征向量，比基于字符串匹配的规范化方法更加灵活有效。

这里，所述目标实体可以取它的词以及上下文的词，词典概念可以取词典中的词以及它的同义词，在使用词典概念中的词构建向量时，要考虑到词的泛化问题，避免稀疏性。

如图4所示，从所述目标文本语句中识别出目标实体，然后根据目标实体构建特征向量entity，将词典中的每一个概念表示为一个特征向量concept，使用相似度度量评估特征向量entity和每一个concept之间的相似度，然后将所述目标实体映射到与所述特征向量entity相似度最大的所述特征向量concept对应的词典概念上，得到规范化结果。

优选地，所述步骤32中，使用余弦相似度度量来综合计算所述目标实体与词典概念的相似度，然后在进入步骤33。

所述计算所述目标实体与词典概念的相似度的具体公式为：

其中，X表示目标实体向量，Y表示词典概念向量，entity_i表示目标实体向量的第i个维度元素，concept_i表示词典概念向量的第i个维度元素，entity表示所述目标实体构建特征向量，concept表示词典概念特征向量。

优选地，作为本发明的一个实施例，该实施例中，所述步骤4具体实现为：以所述概念为节点、以所述目标实体之间的关系为边将所述目标实体进行连接，形成知识图谱。

如图5所示，比如实体有“腾讯”，“腾讯视频”，“阿里”等，它们之间的关系用边来表示，比如“腾讯”和“腾讯视频”之间存在“自有”关系。实体和它们之间的关系共同构成了一个复杂网络，即知识图谱。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的知识图谱构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤1具体包括：

3.根据权利要求2所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤11具体包括：

4.根据权利要求3所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤步骤113中抽取两个所述第一输出序列和的特征，并计算每个词x_i对应的所有可能标签的概率Z_i具体如下：

<mrow> <msubsup> <mi>h</mi> <mi>i</mi> <mo>&prime;</mo> </msubsup> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <mo>&lsqb;</mo> <msub> <mover> <mi>h</mi> <mo>&RightArrow;</mo> </mover> <mi>i</mi> </msub> <mo>,</mo> <msub> <mover> <mi>h</mi> <mo>&LeftArrow;</mo> </mover> <mi>i</mi> </msub> <mo>&rsqb;</mo> <mo>+</mo> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow>

Z_i＝W₂·h_i′

其中，W₁表示隐层参数矩阵，b₁表示隐层偏置，h_i′表示第一输出序列中第i个值的隐层输出，W₂表示输出层参数矩阵。

5.根据权利要求2所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤12具体包括：

6.根据权利要求2所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤122中，所述标签序列的得分s(x,y)计算具体如下：

<mrow> <mi>s</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>Z</mi> <mrow> <mi>i</mi> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </msub> <mo>+</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>T</mi> <mrow> <msub> <mi>y</mi> <mrow> <mi>i</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </mrow> </msub> </mrow>

7.根据权利要求1所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤2具体包括：

步骤23：根据所述文本语句中任意两个目标实体与对应的词的相对位置将所述最终序列h划分成五组向量，并对每组所述向量进行池化处理，得到对应的五组输出向量；

8.根据权利要求7所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤22中两个所述第三输出序列h'和h”进行组合运算具体如下：

<mrow> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>=</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msub> <mi>W</mi> <mn>1</mn> </msub> <mo>&CenterDot;</mo> <mo>(</mo> <mrow> <msub> <msup> <mi>h</mi> <mo>&prime;</mo> </msup> <mi>i</mi> </msub> <mo>&CirclePlus;</mo> <msub> <msup> <mi>h</mi> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msup> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>+</mo> <msub> <mi>b</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow>

9.根据权利要求1至8任一项所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤3具体包括：

10.根据权利要求1至8任一项所述的基于深度学习的知识图谱构建方法，其特征在于，所述步骤4具体实现为：以所述概念为节点、以所述目标实体之间的关系为边将所述目标实体进行连接，形成知识图谱。