CN112100393A

CN112100393A - 一种低资源场景下的知识三元组抽取方法

Info

Publication number: CN112100393A
Application number: CN202010789545.0A
Authority: CN
Inventors: 陈华钧; 余海阳; 张宁豫; 邓淑敏
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-12-18
Anticipated expiration: 2040-08-07
Also published as: CN112100393B

Abstract

本发明公开了一种低资源场景下的知识三元组抽取方法，通过使用元训练语料训练元模型的方式，指导测试语料训练出泛化性能很好的模型。在元模型训练阶段，通过构造实体对原型和关系原型的方式学习度量查询集与支持集的距离，保证了元模型可以更好的利用低资源的少量样本。同时在抽取知识三元组的过程中，引入知识约束，保证了实体对和关系的内在交互性，可以同时增强两者抽取的性能。

Description

一种低资源场景下的知识三元组抽取方法

技术领域

本发明属于数据存储处理技术领域，具体涉及一种低资源场景下的知识三元组抽取方法。

背景技术

知识图谱以结构化的形式描述客观世界中的概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱主要包含实体、关系和三元组，每一个三元组表示一条知识。当两个实体之间存在某一种关系时，用<h，r，t>表示一个三元组，其中h，t分别表示头实体和尾实体，r表示关系，例如<浙江，省会，杭州>即表示了“杭州是浙江的省会”这么一条知识。

知识三元组抽取是知识图谱构建和信息抽取中的一个关键环节，具有重要的理论意义和广阔的应用前景，为多种应用提供重要的支持。如大规模知识图谱自动化构建，包括WordNet、HowNet等常识知识图谱中的通用语义知识，以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度也严重依赖于上层图谱构建的质量。

目前知识三元组抽取的方法，主要分为基于规则的方法和基于机器学习的方法。传统专家依靠预定义好的规则手工编撰的方式构建知识库，不仅费时费力，而且存在知识覆盖率低、数据稀疏、更新缓慢等缺点。基于机器学习的方法则可以自动化地抽取三元组。自从深度学习发展起来后，学者侧重于使用深度神经网络模型处理知识抽取任务。

深度学习的方法抽取知识三元组，目前主要有多步抽取和端到端抽取两种方式。多步抽取即先识别出文本语料中的实体，标注出头实体h和尾实体t，再抽取出两者的关系r。这种方式会导致错误传播，第一步抽取中的错误会传递到第二步中，导致整体的正确率下降。而端到端抽取可避免这种错误传播，使用一个模型一次抽取出三元组中的实体对和对应关系，避免误差传播的同时，在抽取过程也可以增加实体和关系的交互，互相增强抽取性能。

但是深度学习的算法模型往往需要大量的标注语料才能够训练出范化性能较好的模型，而真实场景下数据标注成本较高且费时费力，探究如何使用更少的标注数据就可以训练的模型是当前研究的重点。

发明内容

本发明的目的是提供一种低资源场景下的知识三元组抽取方法，来提升低资源场景下提取三元组的准确性。

为实现上述发明目的，本发明提供以下技术方案：

一种低资源场景下的知识三元组抽取方法，包括以下步骤：

(1)采集低资源场景下的文本语句作为测试样本；从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集，再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集；

(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型，其中，编码单元用于对文本语句编码得到文本编码向量，标注单元用于对文本编码向量进行头尾实体标注，原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型，匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配，以提取文本语句中三元组；

(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失，将元支持集和元查询集作为元模型的训练样本集，利用总损失对元模型进行训练，以优化编码单元和标注单元参数，得到预训练好的元模型；

(4)利用测试文本语句对预训练好的元模型再训练，得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型；

(5)将查询文本语句输入至抽取模型中，通过对查询样本的向量编码、向量标注以及原型匹配，得到抽取的知识三元组。

与现有技术相比，本发明具有的有益效果为：

实施例提供的低资源场景下的知识三元组抽取方法，能够很好的应用于训练语料很少的场景，即保证了低资源场景下的训练模型的泛化性能，防止模型过拟合。通过引入知识约束的方式保证了实体对和关系的在训练过程中的交互性，可以同时增强两者的抽取性能，提升了低资源场景下的知识三元组抽取准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是本发明实施例提供的低资源场景下的知识三元组抽取方法的流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

为了解决低资源场景下，三元组抽取困难且不准确的问题，本发明提供了低资源场景下的知识三元组抽取方法，首先通过样本容易获得的元预料对元模型进行预训练，然后再用低资源场景的样本对预训练的元模型进行一次参数优化，这样参数优化的模型可以能够提取资源场景的三元组，以此来提升三元组的提取准确性。

图1是本发明实施例提供的低资源场景下的知识三元组抽取方法的流程图。如图1所示，实施例提供的知识三元组抽取方法包括以下步骤：

步骤1，构建测试样本集、查询样本集、元支持集以及元查询集。

采集低资源场景下的测试语料D_test，并将测试语料D_test分为测试支持集D_test-support和测试查询集D_test-query，目的是使用标注样本很少的测试支持集D_test-support训练出范化性能很好的抽取模型，并在测试查询集D_test-query上验证抽取模型的性能。测试支持集D_test-support包含N个类别，每个类别下有K个标注样本，那么称此训练任务为N-way K-shot任务，可以认为是一个批次包括N*K个测试文本语句。该N*K个测试文本语句对于学习模型来说，数量实在太少，不足以训练学习模型。

相比较于当前低资源领域的场景，可以在互联网中获得大量的其他领域下的样本数据，用以构成元训练语料Dtest。这些元训练语料Dtest可以直接从网络搜索获得，已经是一些成熟的样本数据。例如，针对医疗垂直领域下的低资源场景知识三元组抽取，可以在互联网中找寻到娱乐、体育等其他领域下的知识三元组抽取标注语料。则娱乐垂直领域的具有标注的文本语句作为元训练语料。这部分元训练语料标注样本很多，但是所包含的标注类别和测试语料D_test完全不同，没有办法直接复用这部分数据。但是可以利用元训练语料D_meta训练出元模型来指导在低资源的测试语料下训练出范化性能很好的模型。

由于元训练语料D_meta数据量庞大，可以模仿N-way K-shot设定，从元训练语料D_meta中采样一批元支持集D_meta-support，其中包括采样的N个类别，每个类别采样K个样本，构造类似于测试支持集D_test-support的样本量，再从相同的N个类别采样一批元查询集D_meta-query，每个类别采样K个样本，构造类似于测试查询集D_test-query的样本量，如此方式就从元训练语料D_meta中采样到了一批元支持集D_meta-support和元查询集D_meta-query，利用一批元支持集D_meta-support和元查询集D_meta-query进行多批次训练元模型的过程称为元训练过程，即采用M个批次N*K个元训练样本训练元模型，训练多次直到元模型训练过程收敛。之后用元模型在测试支持集D_test-support上进行一次样本数为N*K的训练就可以得到对应数据量下范化性能很好的模型，并在测试支持集D_test-query验证性能。

步骤2，构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型。

实施例构建的元模型用于从元训练语料中提取三元组，具体包括编码单元、标注单元、原型构建单元、匹配单元。其中，编码单元用于对文本语句编码得到文本编码向量。实施例中，编码单元可以采用语言预训练模型BERT，将文本语句中词语映射成词嵌入向量，组成文本编码向量。对于文本语句s_i＝{w₁,…,w_i,…,w_l}，w_i为句中某个词语，l为句长。使用语言预训练模型BERT(出自文章《Pre-training of Deep Bidirectional Transformers forLanguage Understanding》)，将文本语句中的每个词映射到D维空间，D为中文预训练语言模型预设置的维度，默认为768维。此时文本语句对应的文本编码向量为s_i＝{e₁,…,e_i,…,e_l}∈R^L×D，其中e_i为文本编码向量中每个词的词嵌入向量，L为编码后句长。

标注单元用于对文本编码向量进行头尾实体标注。本实施例中，标注单元采用条件随机场(CRF)对文本编码向量做序列标注任务，获得文本语句中头尾实体位置，实体标记集合为：{B-Head,I-Head,B-Tail,I-Tail,O}，其中，B-Head,I-Head分别表示头实体的开始位置和之后位置信息，B-Tail,I-Tail分别表示尾实体的开始位置和之后位置信息，O为非实体标注信息。这一阶段的标注损失记为l_crf。

原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型。

对于当前文本语句s_i，通过标注单元获取到头实体和尾实体位置信息后，基于由多个字符组成的头尾实体在经过BERT处理后第一个字符信息可以学习到整个实体信息，因此，实施例中使用头实体、尾实体的第一个位置向量表征整个头实体信息head_i、尾实体信息和tail_i。

实施例中，对于元支持集D_meta-support下N个关系类别，每个关系类别的K个文本语句使用标注单元求出所有头实体信息、尾实体信息后，对所有头实体信息、尾实体信息求平均就得到元支持集D_meta-support下头实体原型和尾实体原型。在获得头实体原型和尾实体原型的基础上，利用知识约束条件h+r≈t，根据头实体原型和尾实体原型求出当前文本语句下实体对所属的关系原型。

具体地，根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型过程为：

以头实体、尾实体的第一个位置向量表征整个头实体信息、尾实体信息；

根据每个关系类别对应的所有文本语句中的头实体信息和尾实体信息，计算每个关系类别对应的头实体原型Head_proto、尾实体原型Tail_proto和关系原型Relation_proto：

Relation_proto＝Head_proto-Tail_proto

其中，S_k表示属于第k类关系类别的头实体信息和尾实体信息组成的集合，head_i为来自于集合S_k的第i个头实体信息，tail_i为来自于集合S_k的第i个尾实体信息。

匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配，以提取文本语句中三元组。

实施例中，来自于元训练语料的N*K个文本语句组成的元支持集D_meta-support和来自于元训练语料的N*K个文本语句组成的元查询集D_meta-query作为一组训练样本对元模型训练一次，其中元支持集D_meta-support中的N*K个文本语句用来计算每个关系类别的头实体原型、尾实体原型和关系原型，元查询集D_meta-query中的N*K个文本语句用来做匹配，来计算元查询集D_meta-query中每个文本语句提取的头尾实体和关系与每个关系类别的头实体原型、尾实体原型和关系原型的匹配距离，在训练阶段，根据该距离计算匹配损失，在应用阶段，根据匹配距离来提取文本语句中三元组。

具体地，匹配单元实现的匹配过程为：

针对待匹配的文本编码向量，计算该文本编码向量中头实体信息、尾实体信息、关系信息分别与头实体原型、尾实体原型和关系原型的欧式距离，以获得匹配结果：

d_head＝‖head_s-Head_proto‖²

d_tail＝‖tail_s-Tail_proto‖²

d_relation＝‖relation_s-Relation_proto‖²

其中，head_s、tail_s和relation_s表示元查询集D_meta-query中文本语句s_s的头实体信息、尾实体信息和关系信息，d_head表示头实体信息head_s与头实体原型Head_proto的欧式距离，d_tail表示尾实体信息tail_s与尾实体原型Tail_proto的欧式距离，d_relation表示关系信息relation_s与关系原型Relation_proto的欧式距离，‖·‖²表示欧式距离。

步骤3，构建元模型的总损失，并训练元模型，得到预训练好的元模型。

实施例中，根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失loss为：

loss＝l_crf+δl_proto

其中，l_crf为标注单元的标注损失，δ为超参数，取值范围为0～1，l_proto为匹配损失，计算公式为：

其中，S_q表示测试样本的数量。

然后，将元支持集和元查询集作为元模型的训练样本集，利用总损失对元模型进行训练，以优化编码单元和标注单元参数，得到预训练好的元模型。对元模型训练时，采用随机梯度下降(SGD)的优化算法优化元模型直至元模型收敛，总损失不再降低。

步骤4，利用测试支持集D_test-support对预训练好的元模型再训练，得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型。

利用元预料对元模型进行参数预训练得到训练好的元模型时，是对元模型进行初始化，但是得到的训练好的元模型并不适用于低资源场景的三元组提取，因此还需要对训练好的元模型进行再训练。具体地，将测试支持集D_test-support中文本语句输入至元模型中，对预训练好的元模型进行一次再训练，得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型。在训练的过程中，对预训练好的元模型的模型参数进行再一次优化，同时利用测试支持集D_test-support中文本语句来提取满足低资源场景的头实体原型、尾实体原型和关系原型，作为后面三元组提取时应用匹配的基础。

步骤5，利用抽取模型对测试查询集D_test-query进行知识三元组抽取。

应用时，将测试查询集D_test-query中文本语句输入至抽取模型中，通过对查询样本的向量编码、向量标注以及原型匹配，得到抽取的知识三元组。具体地，利用抽取模型对查询文本语句进行知识三元组的抽取过程为：

首先，利用编码单元对查询文本语句进行编码，得到查询文本语句的文本编码向量；

然后，利用标注单元对查询文本语句的文本编码向量进行标注，基于标注结果获得查询文本语句的头实体信息、尾实体信息以及关系信息；

最后，通过匹配单元将头实体信息、尾实体信息以及关系信息分别与适用于低资源场景的头实体原型、尾实体原型和关系原型进行欧式距离计算，筛选欧式距离最小的头实体原型、尾实体原型和关系原型作为最终知识三元组。

该低资源场景下的知识三元组抽取方法，首先通过在元数据上训练出范化性能很好的元模型，利用元模型的指导再通过一次少量标注测试样本的训练就可得到所需求的抽取模型。该抽取模型在训练元模型阶段时，通过构造实体和关系的原型中心方式训练出范化性能很好的元模型。该元模型同时学习出实体原型以及关系原型后，就可以利用知识表示学习来泛化约束实体抽取的性能和关系抽取的性能。该元训练阶段的实体关系约束可以兼顾到实体与关系间的推理交互，同时端到端的抽取知识三元组可以防止模型训练过程的误差传播。

实验例

在实验例中，N为2，K为2，Q为1。BERT中，中文预训练语言模型预设置的维度D为5。模型优化方法采用sgd算法，训练时优化批次大小设置为32,学习率初始设置为0.1，每2000次迭代降低为之前的十分之一，总迭代次数为30000次。为了防止过拟合，元模型增加dropout层，dropout的比例设置为0.3。

一次抽取到的元支持集D_meta-support为2个类别，每个类别2个句子。对于这四个句子都通过BERT编码后得到对应的文本信息矩阵：

类别1句1:[-1.4450,1.0397,2.1013,-0.4716,-0.5233],

[-0.1426,0.4676,-0.8177,1.5871,-0.7784],

[0.7413,0.3821,-1.7502,-0.8770,0.1776],

[-0.9084,-0.5130,-0.0843,1.0196,-0.3870],

[-0.4249,-0.5084,-1.9367,0.4977,-0.4358]]

类别1句2:[[-1.4172,-0.5862,1.4922,0.5798,0.0358],

[-0.8774,1.6284,-1.1279,0.0027,0.8325],

[1.2239,0.4439,-1.7786,-0.5687,1.0363],

[0.2660,0.3504,0.4189,1.8466,-0.1149],

[-1.0703,1.6595,-0.2233,0.2704,-0.9913],

[-0.5259,-0.5958,2.3744,-0.1879,-0.9507],

[0.2122,-0.1743,-0.2549,-0.7879,0.3369]]

类别2句1:[[-0.7530,0.6167,-0.5443,0.3390,-0.9686],

[1.6139,0.7722,-1.1444,-0.1480,-3.1232],

[0.7092,0.0150,-0.7710,0.8856,-0.7631],

[-0.4971,1.0580,0.4741,0.8383,-1.7372],

[0.7339,-0.7194,-0.9066,-2.6087,-0.2219],

[-1.1118,-1.5932,1.7146,0.0159,0.5122],

[-0.3013,0.0531,0.9653,1.2839,0.3784],

[-0.9910,-0.0097,-1.0441,-0.0200,-0.0665]]

类别2句2:[[-0.7692,0.2380,-0.1115,1.0802,-1.7848],

[-0.0559,-0.6920,-0.7920,1.1137,1.5854],

[0.4959,1.0378,2.1168,0.1864,1.5708],

[1.8842,-1.1803,-0.1458,0.0148,-0.2191],

[-0.1961,1.1743,2.8421,0.0043,-1.6220]]

每个类别下的2个文本句子中的头实体和尾实体的第一个字符向量表征当前句子的头实体信息和尾实体信息。将2个类别下的所有头实体信息求平均得到头实体原型：[-0.2600,0.9327,-0.8620,1.5081,-1.1145]；同样方式可以得到尾实体原型：[1.9642,-0.1473,1.6736,-1.4996,0.6569]；依据知识约束可以得到头尾实体的关系原型：[-2.2242,1.0800,-2.5356,3.0077,-1.7714]。

元查询集D_meta-query中文本语句，如“西湖是杭州美丽的风景区。”经过BERT编码后得到的句子文本矩阵为R^14×5：

[[0.0544,0.0281,1.5224,0.7773,-1.2229],

[-0.6260,-1.3352,0.6480,-2.3152,-0.0669],

[0.8793,-0.3211,0.2560,0.6691,0.7278],

[-0.1377,0.2703,2.0344,0.7382,0.2389],

[0.0941,-0.0381,-0.1827,0.6910,0.2956],

[-1.3568,-0.0581,0.1869,-0.0150,-0.5889],

[-1.2281,-0.0647,1.6430,-1.2200,0.0466],

[1.1294,1.0196,-0.3954,0.0493,-0.2774],

[-1.9827,0.2676,1.5334,0.0750,0.0614],

[0.8581,0.2549,0.4357,-1.6054,-0.0275],

[-1.6518,-0.4890,1.1697,-0.7715,0.2584],

[0.3915,1.2288,0.1537,-1.9704,0.9218]]

其中头实体“西湖”的向量表示为：[0.0544,0.0281,1.5224,0.7773,-1.2229]，尾实体“杭州”的向量表示为：[-0.1377,0.2703,2.0344,0.7382,0.2389]，则西湖与杭州的关系向量旅游景点的向量表示为：[0.1921,-0.2422,-0.5120,0.0391,-1.4618]。

使用欧式距离度量元查询集D_meta-query样本与元支持集D_meta-support原型距离，分别计算头实体、尾实体和关系三种不同的度量距离，并求和得到：距离差d为：3.1273。

使用梯度下降算法优化距离，使距离尽可能降低。训练30000次直至元模型收敛。元模型训练收敛后，使用元模型指导测试支持集D_test-support训练，迭代一次即可，在测试查询集D_test-query就抽取到当前低资源场景下的只是三元组。

上述低资源场景下的知识三元组抽取方法，能够很好的应用于训练语料很少的场景，即保证了低资源场景下的训练模型的泛化性能，防止模型过拟合。通过引入知识约束的方式保证了实体对和关系的在训练过程中的交互性，可以同时增强两者的抽取性能，提升了低资源场景下的知识三元组抽取准确性。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种低资源场景下的知识三元组抽取方法，其特征在于，包括以下步骤：

2.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述编码单元采用语言预训练模型BERT，将文本语句中词语映射成词嵌入向量，组成文本编码向量。

3.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述标注单元采用条件随机场(CRF)对文本编码向量做序列标注任务，获得文本语句中头尾实体位置，实体标记集合为：{B-Head,I-Head,B-Tail,I-Tail,O}，其中，B-Head,I-Head分别表示头实体的开始位置和之后位置信息，B-Tail,I-Tail分别表示尾实体的开始位置和之后位置信息，O为非实体标注信息。

4.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述原型构建单元根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型的过程为：

Relation_proto＝Head_proto-Tail_proto

5.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述匹配单元实现的匹配过程为：

d_head＝‖head_s-Head_proto‖²

d_tail＝‖tail_s-Tail_proto‖²

d_relation＝‖relation_s-Relation_proto‖²

其中，head_s、tail_s和relation_s表示元查询集中文本语句s_s的头实体信息、尾实体信息和关系信息，d_head表示头实体信息head_s与头实体原型Head_proto的欧式距离，d_tail表示尾实体信息tail_s与尾实体原型Tail_proto的欧式距离，d_relation表示关系信息relation_s与关系原型Relation_proto的欧式距离，‖·‖²表示欧式距离。

6.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，所述元模型的总损失loss为：

loss＝l_crf+δl_proto

其中，S_q表示测试样本的数量。

7.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，对元模型训练时，采用随机梯度下降的优化算法优化元模型直至元模型收敛，总损失不再降低。

8.如权利要求1所述的低资源场景下的知识三元组抽取方法，其特征在于，利用抽取模型对查询文本语句进行知识三元组的抽取过程为：