[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112100393A - 一种低资源场景下的知识三元组抽取方法 - Google Patents

一种低资源场景下的知识三元组抽取方法 Download PDF

Info

Publication number
CN112100393A
CN112100393A CN202010789545.0A CN202010789545A CN112100393A CN 112100393 A CN112100393 A CN 112100393A CN 202010789545 A CN202010789545 A CN 202010789545A CN 112100393 A CN112100393 A CN 112100393A
Authority
CN
China
Prior art keywords
prototype
head
entity
tail
meta
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010789545.0A
Other languages
English (en)
Other versions
CN112100393B (zh
Inventor
陈华钧
余海阳
张宁豫
邓淑敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202010789545.0A priority Critical patent/CN112100393B/zh
Publication of CN112100393A publication Critical patent/CN112100393A/zh
Application granted granted Critical
Publication of CN112100393B publication Critical patent/CN112100393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种低资源场景下的知识三元组抽取方法,通过使用元训练语料训练元模型的方式,指导测试语料训练出泛化性能很好的模型。在元模型训练阶段,通过构造实体对原型和关系原型的方式学习度量查询集与支持集的距离,保证了元模型可以更好的利用低资源的少量样本。同时在抽取知识三元组的过程中,引入知识约束,保证了实体对和关系的内在交互性,可以同时增强两者抽取的性能。

Description

一种低资源场景下的知识三元组抽取方法
技术领域
本发明属于数据存储处理技术领域,具体涉及一种低资源场景下的知识三元组抽取方法。
背景技术
知识图谱以结构化的形式描述客观世界中的概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。知识图谱主要包含实体、关系和三元组,每一个三元组表示一条知识。当两个实体之间存在某一种关系时,用<h,r,t>表示一个三元组,其中h,t分别表示头实体和尾实体,r表示关系,例如<浙江,省会,杭州>即表示了“杭州是浙江的省会”这么一条知识。
知识三元组抽取是知识图谱构建和信息抽取中的一个关键环节,具有重要的理论意义和广阔的应用前景,为多种应用提供重要的支持。如大规模知识图谱自动化构建,包括WordNet、HowNet等常识知识图谱中的通用语义知识,以及金融、医疗等垂直应用领域的定制知识图谱。信息检索、智能推荐、问答系统等知识图谱应用技术的优劣程度也严重依赖于上层图谱构建的质量。
目前知识三元组抽取的方法,主要分为基于规则的方法和基于机器学习的方法。传统专家依靠预定义好的规则手工编撰的方式构建知识库,不仅费时费力,而且存在知识覆盖率低、数据稀疏、更新缓慢等缺点。基于机器学习的方法则可以自动化地抽取三元组。自从深度学习发展起来后,学者侧重于使用深度神经网络模型处理知识抽取任务。
深度学习的方法抽取知识三元组,目前主要有多步抽取和端到端抽取两种方式。多步抽取即先识别出文本语料中的实体,标注出头实体h和尾实体t,再抽取出两者的关系r。这种方式会导致错误传播,第一步抽取中的错误会传递到第二步中,导致整体的正确率下降。而端到端抽取可避免这种错误传播,使用一个模型一次抽取出三元组中的实体对和对应关系,避免误差传播的同时,在抽取过程也可以增加实体和关系的交互,互相增强抽取性能。
但是深度学习的算法模型往往需要大量的标注语料才能够训练出范化性能较好的模型,而真实场景下数据标注成本较高且费时费力,探究如何使用更少的标注数据就可以训练的模型是当前研究的重点。
发明内容
本发明的目的是提供一种低资源场景下的知识三元组抽取方法,来提升低资源场景下提取三元组的准确性。
为实现上述发明目的,本发明提供以下技术方案:
一种低资源场景下的知识三元组抽取方法,包括以下步骤:
(1)采集低资源场景下的文本语句作为测试样本;从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集,再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集;
(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型,其中,编码单元用于对文本语句编码得到文本编码向量,标注单元用于对文本编码向量进行头尾实体标注,原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型,匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组;
(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型;
(4)利用测试文本语句对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型;
(5)将查询文本语句输入至抽取模型中,通过对查询样本的向量编码、向量标注以及原型匹配,得到抽取的知识三元组。
与现有技术相比,本发明具有的有益效果为:
实施例提供的低资源场景下的知识三元组抽取方法,能够很好的应用于训练语料很少的场景,即保证了低资源场景下的训练模型的泛化性能,防止模型过拟合。通过引入知识约束的方式保证了实体对和关系的在训练过程中的交互性,可以同时增强两者的抽取性能,提升了低资源场景下的知识三元组抽取准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的低资源场景下的知识三元组抽取方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
为了解决低资源场景下,三元组抽取困难且不准确的问题,本发明提供了低资源场景下的知识三元组抽取方法,首先通过样本容易获得的元预料对元模型进行预训练,然后再用低资源场景的样本对预训练的元模型进行一次参数优化,这样参数优化的模型可以能够提取资源场景的三元组,以此来提升三元组的提取准确性。
图1是本发明实施例提供的低资源场景下的知识三元组抽取方法的流程图。如图1所示,实施例提供的知识三元组抽取方法包括以下步骤:
步骤1,构建测试样本集、查询样本集、元支持集以及元查询集。
采集低资源场景下的测试语料Dtest,并将测试语料Dtest分为测试支持集Dtest-support和测试查询集Dtest-query,目的是使用标注样本很少的测试支持集Dtest-support训练出范化性能很好的抽取模型,并在测试查询集Dtest-query上验证抽取模型的性能。测试支持集Dtest-support包含N个类别,每个类别下有K个标注样本,那么称此训练任务为N-way K-shot任务,可以认为是一个批次包括N*K个测试文本语句。该N*K个测试文本语句对于学习模型来说,数量实在太少,不足以训练学习模型。
相比较于当前低资源领域的场景,可以在互联网中获得大量的其他领域下的样本数据,用以构成元训练语料Dtest。这些元训练语料Dtest可以直接从网络搜索获得,已经是一些成熟的样本数据。例如,针对医疗垂直领域下的低资源场景知识三元组抽取,可以在互联网中找寻到娱乐、体育等其他领域下的知识三元组抽取标注语料。则娱乐垂直领域的具有标注的文本语句作为元训练语料。这部分元训练语料标注样本很多,但是所包含的标注类别和测试语料Dtest完全不同,没有办法直接复用这部分数据。但是可以利用元训练语料Dmeta训练出元模型来指导在低资源的测试语料下训练出范化性能很好的模型。
由于元训练语料Dmeta数据量庞大,可以模仿N-way K-shot设定,从元训练语料Dmeta中采样一批元支持集Dmeta-support,其中包括采样的N个类别,每个类别采样K个样本,构造类似于测试支持集Dtest-support的样本量,再从相同的N个类别采样一批元查询集Dmeta-query,每个类别采样K个样本,构造类似于测试查询集Dtest-query的样本量,如此方式就从元训练语料Dmeta中采样到了一批元支持集Dmeta-support和元查询集Dmeta-query,利用一批元支持集Dmeta-support和元查询集Dmeta-query进行多批次训练元模型的过程称为元训练过程,即采用M个批次N*K个元训练样本训练元模型,训练多次直到元模型训练过程收敛。之后用元模型在测试支持集Dtest-support上进行一次样本数为N*K的训练就可以得到对应数据量下范化性能很好的模型,并在测试支持集Dtest-query验证性能。
步骤2,构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型。
实施例构建的元模型用于从元训练语料中提取三元组,具体包括编码单元、标注单元、原型构建单元、匹配单元。其中,编码单元用于对文本语句编码得到文本编码向量。实施例中,编码单元可以采用语言预训练模型BERT,将文本语句中词语映射成词嵌入向量,组成文本编码向量。对于文本语句si={w1,…,wi,…,wl},wi为句中某个词语,l为句长。使用语言预训练模型BERT(出自文章《Pre-training of Deep Bidirectional Transformers forLanguage Understanding》),将文本语句中的每个词映射到D维空间,D为中文预训练语言模型预设置的维度,默认为768维。此时文本语句对应的文本编码向量为si={e1,…,ei,…,el}∈RL×D,其中ei为文本编码向量中每个词的词嵌入向量,L为编码后句长。
标注单元用于对文本编码向量进行头尾实体标注。本实施例中,标注单元采用条件随机场(CRF)对文本编码向量做序列标注任务,获得文本语句中头尾实体位置,实体标记集合为:{B-Head,I-Head,B-Tail,I-Tail,O},其中,B-Head,I-Head分别表示头实体的开始位置和之后位置信息,B-Tail,I-Tail分别表示尾实体的开始位置和之后位置信息,O为非实体标注信息。这一阶段的标注损失记为lcrf
原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型。
对于当前文本语句si,通过标注单元获取到头实体和尾实体位置信息后,基于由多个字符组成的头尾实体在经过BERT处理后第一个字符信息可以学习到整个实体信息,因此,实施例中使用头实体、尾实体的第一个位置向量表征整个头实体信息headi、尾实体信息和taili
实施例中,对于元支持集Dmeta-support下N个关系类别,每个关系类别的K个文本语句使用标注单元求出所有头实体信息、尾实体信息后,对所有头实体信息、尾实体信息求平均就得到元支持集Dmeta-support下头实体原型和尾实体原型。在获得头实体原型和尾实体原型的基础上,利用知识约束条件h+r≈t,根据头实体原型和尾实体原型求出当前文本语句下实体对所属的关系原型。
具体地,根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型过程为:
以头实体、尾实体的第一个位置向量表征整个头实体信息、尾实体信息;
根据每个关系类别对应的所有文本语句中的头实体信息和尾实体信息,计算每个关系类别对应的头实体原型Headproto、尾实体原型Tailproto和关系原型Relationproto
Figure BDA0002623267050000071
Figure BDA0002623267050000072
Relationproto=Headproto-Tailproto
其中,Sk表示属于第k类关系类别的头实体信息和尾实体信息组成的集合,headi为来自于集合Sk的第i个头实体信息,taili为来自于集合Sk的第i个尾实体信息。
匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组。
实施例中,来自于元训练语料的N*K个文本语句组成的元支持集Dmeta-support和来自于元训练语料的N*K个文本语句组成的元查询集Dmeta-query作为一组训练样本对元模型训练一次,其中元支持集Dmeta-support中的N*K个文本语句用来计算每个关系类别的头实体原型、尾实体原型和关系原型,元查询集Dmeta-query中的N*K个文本语句用来做匹配,来计算元查询集Dmeta-query中每个文本语句提取的头尾实体和关系与每个关系类别的头实体原型、尾实体原型和关系原型的匹配距离,在训练阶段,根据该距离计算匹配损失,在应用阶段,根据匹配距离来提取文本语句中三元组。
具体地,匹配单元实现的匹配过程为:
针对待匹配的文本编码向量,计算该文本编码向量中头实体信息、尾实体信息、关系信息分别与头实体原型、尾实体原型和关系原型的欧式距离,以获得匹配结果:
dhead=‖heads-Headproto2
dtail=‖tails-Tailproto2
drelation=‖relations-Relationproto2
其中,heads、tails和relations表示元查询集Dmeta-query中文本语句ss的头实体信息、尾实体信息和关系信息,dhead表示头实体信息heads与头实体原型Headproto的欧式距离,dtail表示尾实体信息tails与尾实体原型Tailproto的欧式距离,drelation表示关系信息relations与关系原型Relationproto的欧式距离,‖·‖2表示欧式距离。
步骤3,构建元模型的总损失,并训练元模型,得到预训练好的元模型。
实施例中,根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失loss为:
loss=lcrf+δlproto
其中,lcrf为标注单元的标注损失,δ为超参数,取值范围为0~1,lproto为匹配损失,计算公式为:
Figure BDA0002623267050000081
其中,Sq表示测试样本的数量。
然后,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型。对元模型训练时,采用随机梯度下降(SGD)的优化算法优化元模型直至元模型收敛,总损失不再降低。
步骤4,利用测试支持集Dtest-support对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型。
利用元预料对元模型进行参数预训练得到训练好的元模型时,是对元模型进行初始化,但是得到的训练好的元模型并不适用于低资源场景的三元组提取,因此还需要对训练好的元模型进行再训练。具体地,将测试支持集Dtest-support中文本语句输入至元模型中,对预训练好的元模型进行一次再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型。在训练的过程中,对预训练好的元模型的模型参数进行再一次优化,同时利用测试支持集Dtest-support中文本语句来提取满足低资源场景的头实体原型、尾实体原型和关系原型,作为后面三元组提取时应用匹配的基础。
步骤5,利用抽取模型对测试查询集Dtest-query进行知识三元组抽取。
应用时,将测试查询集Dtest-query中文本语句输入至抽取模型中,通过对查询样本的向量编码、向量标注以及原型匹配,得到抽取的知识三元组。具体地,利用抽取模型对查询文本语句进行知识三元组的抽取过程为:
首先,利用编码单元对查询文本语句进行编码,得到查询文本语句的文本编码向量;
然后,利用标注单元对查询文本语句的文本编码向量进行标注,基于标注结果获得查询文本语句的头实体信息、尾实体信息以及关系信息;
最后,通过匹配单元将头实体信息、尾实体信息以及关系信息分别与适用于低资源场景的头实体原型、尾实体原型和关系原型进行欧式距离计算,筛选欧式距离最小的头实体原型、尾实体原型和关系原型作为最终知识三元组。
该低资源场景下的知识三元组抽取方法,首先通过在元数据上训练出范化性能很好的元模型,利用元模型的指导再通过一次少量标注测试样本的训练就可得到所需求的抽取模型。该抽取模型在训练元模型阶段时,通过构造实体和关系的原型中心方式训练出范化性能很好的元模型。该元模型同时学习出实体原型以及关系原型后,就可以利用知识表示学习来泛化约束实体抽取的性能和关系抽取的性能。该元训练阶段的实体关系约束可以兼顾到实体与关系间的推理交互,同时端到端的抽取知识三元组可以防止模型训练过程的误差传播。
实验例
在实验例中,N为2,K为2,Q为1。BERT中,中文预训练语言模型预设置的维度D为5。模型优化方法采用sgd算法,训练时优化批次大小设置为32,学习率初始设置为0.1,每2000次迭代降低为之前的十分之一,总迭代次数为30000次。为了防止过拟合,元模型增加dropout层,dropout的比例设置为0.3。
一次抽取到的元支持集Dmeta-support为2个类别,每个类别2个句子。对于这四个句子都通过BERT编码后得到对应的文本信息矩阵:
类别1句1:[-1.4450,1.0397,2.1013,-0.4716,-0.5233],
[-0.1426,0.4676,-0.8177,1.5871,-0.7784],
[0.7413,0.3821,-1.7502,-0.8770,0.1776],
[-0.9084,-0.5130,-0.0843,1.0196,-0.3870],
[-0.4249,-0.5084,-1.9367,0.4977,-0.4358]]
类别1句2:[[-1.4172,-0.5862,1.4922,0.5798,0.0358],
[-0.8774,1.6284,-1.1279,0.0027,0.8325],
[1.2239,0.4439,-1.7786,-0.5687,1.0363],
[0.2660,0.3504,0.4189,1.8466,-0.1149],
[-1.0703,1.6595,-0.2233,0.2704,-0.9913],
[-0.5259,-0.5958,2.3744,-0.1879,-0.9507],
[0.2122,-0.1743,-0.2549,-0.7879,0.3369]]
类别2句1:[[-0.7530,0.6167,-0.5443,0.3390,-0.9686],
[1.6139,0.7722,-1.1444,-0.1480,-3.1232],
[0.7092,0.0150,-0.7710,0.8856,-0.7631],
[-0.4971,1.0580,0.4741,0.8383,-1.7372],
[0.7339,-0.7194,-0.9066,-2.6087,-0.2219],
[-1.1118,-1.5932,1.7146,0.0159,0.5122],
[-0.3013,0.0531,0.9653,1.2839,0.3784],
[-0.9910,-0.0097,-1.0441,-0.0200,-0.0665]]
类别2句2:[[-0.7692,0.2380,-0.1115,1.0802,-1.7848],
[-0.0559,-0.6920,-0.7920,1.1137,1.5854],
[0.4959,1.0378,2.1168,0.1864,1.5708],
[1.8842,-1.1803,-0.1458,0.0148,-0.2191],
[-0.1961,1.1743,2.8421,0.0043,-1.6220]]
每个类别下的2个文本句子中的头实体和尾实体的第一个字符向量表征当前句子的头实体信息和尾实体信息。将2个类别下的所有头实体信息求平均得到头实体原型:[-0.2600,0.9327,-0.8620,1.5081,-1.1145];同样方式可以得到尾实体原型:[1.9642,-0.1473,1.6736,-1.4996,0.6569];依据知识约束可以得到头尾实体的关系原型:[-2.2242,1.0800,-2.5356,3.0077,-1.7714]。
元查询集Dmeta-query中文本语句,如“西湖是杭州美丽的风景区。”经过BERT编码后得到的句子文本矩阵为R14×5
[[0.0544,0.0281,1.5224,0.7773,-1.2229],
[-0.6260,-1.3352,0.6480,-2.3152,-0.0669],
[0.8793,-0.3211,0.2560,0.6691,0.7278],
[-0.1377,0.2703,2.0344,0.7382,0.2389],
[0.0941,-0.0381,-0.1827,0.6910,0.2956],
[-1.3568,-0.0581,0.1869,-0.0150,-0.5889],
[-1.2281,-0.0647,1.6430,-1.2200,0.0466],
[1.1294,1.0196,-0.3954,0.0493,-0.2774],
[-1.9827,0.2676,1.5334,0.0750,0.0614],
[0.8581,0.2549,0.4357,-1.6054,-0.0275],
[-1.6518,-0.4890,1.1697,-0.7715,0.2584],
[0.3915,1.2288,0.1537,-1.9704,0.9218]]
其中头实体“西湖”的向量表示为:[0.0544,0.0281,1.5224,0.7773,-1.2229],尾实体“杭州”的向量表示为:[-0.1377,0.2703,2.0344,0.7382,0.2389],则西湖与杭州的关系向量旅游景点的向量表示为:[0.1921,-0.2422,-0.5120,0.0391,-1.4618]。
使用欧式距离度量元查询集Dmeta-query样本与元支持集Dmeta-support原型距离,分别计算头实体、尾实体和关系三种不同的度量距离,并求和得到:距离差d为:3.1273。
使用梯度下降算法优化距离,使距离尽可能降低。训练30000次直至元模型收敛。元模型训练收敛后,使用元模型指导测试支持集Dtest-support训练,迭代一次即可,在测试查询集Dtest-query就抽取到当前低资源场景下的只是三元组。
上述低资源场景下的知识三元组抽取方法,能够很好的应用于训练语料很少的场景,即保证了低资源场景下的训练模型的泛化性能,防止模型过拟合。通过引入知识约束的方式保证了实体对和关系的在训练过程中的交互性,可以同时增强两者的抽取性能,提升了低资源场景下的知识三元组抽取准确性。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种低资源场景下的知识三元组抽取方法,其特征在于,包括以下步骤:
(1)采集低资源场景下的文本语句作为测试样本;从元训练语料中采样与测试样本的关系类别个数相同的一批文本语句组成元支持集,再从元训练语料中采样与测试样本的关系类别个数相同的另外一批文本语句组成元查询集;
(2)构建包括编码单元、标注单元、原型构建单元、匹配单元的元模型,其中,编码单元用于对文本语句编码得到文本编码向量,标注单元用于对文本编码向量进行头尾实体标注,原型构建单元用于根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型,匹配单元用于根据其他文本语句的文本编码向量与头实体原型、尾实体原型和关系原型相匹配,以提取文本语句中三元组;
(3)根据标注单元的标注损失和匹配单元的匹配损失构建元模型的总损失,将元支持集和元查询集作为元模型的训练样本集,利用总损失对元模型进行训练,以优化编码单元和标注单元参数,得到预训练好的元模型;
(4)利用测试文本语句对预训练好的元模型再训练,得到适用于低资源场景的抽取模型和头实体原型、尾实体原型和关系原型;
(5)将查询文本语句输入至抽取模型中,通过对查询样本的向量编码、向量标注以及原型匹配,得到抽取的知识三元组。
2.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述编码单元采用语言预训练模型BERT,将文本语句中词语映射成词嵌入向量,组成文本编码向量。
3.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述标注单元采用条件随机场(CRF)对文本编码向量做序列标注任务,获得文本语句中头尾实体位置,实体标记集合为:{B-Head,I-Head,B-Tail,I-Tail,O},其中,B-Head,I-Head分别表示头实体的开始位置和之后位置信息,B-Tail,I-Tail分别表示尾实体的开始位置和之后位置信息,O为非实体标注信息。
4.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述原型构建单元根据标注的文本编码向量构建每个关系类别的头实体原型、尾实体原型和关系原型的过程为:
以头实体、尾实体的第一个位置向量表征整个头实体信息、尾实体信息;
根据每个关系类别对应的所有文本语句中的头实体信息和尾实体信息,计算每个关系类别对应的头实体原型Headproto、尾实体原型Tailproto和关系原型Relationproto
Figure FDA0002623267040000021
Figure FDA0002623267040000022
Relationproto=Headproto-Tailproto
其中,Sk表示属于第k类关系类别的头实体信息和尾实体信息组成的集合,headi为来自于集合Sk的第i个头实体信息,taili为来自于集合Sk的第i个尾实体信息。
5.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述匹配单元实现的匹配过程为:
针对待匹配的文本编码向量,计算该文本编码向量中头实体信息、尾实体信息、关系信息分别与头实体原型、尾实体原型和关系原型的欧式距离,以获得匹配结果:
dhead=‖heads-Headproto2
dtail=‖tails-Tailproto2
drelation=‖relations-Relationproto2
其中,heads、tails和relations表示元查询集中文本语句ss的头实体信息、尾实体信息和关系信息,dhead表示头实体信息heads与头实体原型Headproto的欧式距离,dtail表示尾实体信息tails与尾实体原型Tailproto的欧式距离,drelation表示关系信息relations与关系原型Relationproto的欧式距离,‖·‖2表示欧式距离。
6.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,所述元模型的总损失loss为:
loss=lcrf+δlproto
其中,lcrf为标注单元的标注损失,δ为超参数,取值范围为0~1,lproto为匹配损失,计算公式为:
Figure FDA0002623267040000031
其中,Sq表示测试样本的数量。
7.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,对元模型训练时,采用随机梯度下降的优化算法优化元模型直至元模型收敛,总损失不再降低。
8.如权利要求1所述的低资源场景下的知识三元组抽取方法,其特征在于,利用抽取模型对查询文本语句进行知识三元组的抽取过程为:
首先,利用编码单元对查询文本语句进行编码,得到查询文本语句的文本编码向量;
然后,利用标注单元对查询文本语句的文本编码向量进行标注,基于标注结果获得查询文本语句的头实体信息、尾实体信息以及关系信息;
最后,通过匹配单元将头实体信息、尾实体信息以及关系信息分别与适用于低资源场景的头实体原型、尾实体原型和关系原型进行欧式距离计算,筛选欧式距离最小的头实体原型、尾实体原型和关系原型作为最终知识三元组。
CN202010789545.0A 2020-08-07 2020-08-07 一种低资源场景下的知识三元组抽取方法 Active CN112100393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010789545.0A CN112100393B (zh) 2020-08-07 2020-08-07 一种低资源场景下的知识三元组抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010789545.0A CN112100393B (zh) 2020-08-07 2020-08-07 一种低资源场景下的知识三元组抽取方法

Publications (2)

Publication Number Publication Date
CN112100393A true CN112100393A (zh) 2020-12-18
CN112100393B CN112100393B (zh) 2022-03-15

Family

ID=73752957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010789545.0A Active CN112100393B (zh) 2020-08-07 2020-08-07 一种低资源场景下的知识三元组抽取方法

Country Status (1)

Country Link
CN (1) CN112100393B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204120A (zh) * 2022-07-25 2022-10-18 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332511A1 (en) * 2009-06-26 2010-12-30 Entanglement Technologies, Llc System and Methods for Units-Based Numeric Information Retrieval
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN111444298A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于兴趣点知识图谱预训练的地址匹配算法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100332511A1 (en) * 2009-06-26 2010-12-30 Entanglement Technologies, Llc System and Methods for Units-Based Numeric Information Retrieval
CN109902171A (zh) * 2019-01-30 2019-06-18 中国地质大学(武汉) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN111198950A (zh) * 2019-12-24 2020-05-26 浙江工业大学 一种基于语义向量的知识图谱表示学习方法
CN111444305A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于知识图谱嵌入的多三元组联合抽取方法
CN111444298A (zh) * 2020-03-19 2020-07-24 浙江大学 一种基于兴趣点知识图谱预训练的地址匹配算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭智等: "融合属性信息的知识表示方法", 《科学技术与工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115204120A (zh) * 2022-07-25 2022-10-18 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质
CN115204120B (zh) * 2022-07-25 2023-05-30 平安科技(深圳)有限公司 保险领域三元组抽取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN112100393B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
CN110309267B (zh) 基于预训练模型的语义检索方法和系统
CN112084790B (zh) 一种基于预训练卷积神经网络的关系抽取方法及系统
CN109086267B (zh) 一种基于深度学习的中文分词方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN115858750A (zh) 基于自然语言处理的电网技术标准智能问答方法及系统
CN113360582B (zh) 基于bert模型融合多元实体信息的关系分类方法及系统
CN116661805A (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN116383352A (zh) 一种基于知识图谱的零样本构建领域智能问答系统的方法
CN112163089A (zh) 一种融合命名实体识别的军事高技术文本分类方法及系统
CN114491036A (zh) 一种基于自监督和有监督联合训练的半监督文本分类方法及系统
CN113971394A (zh) 文本复述改写系统
CN112100393B (zh) 一种低资源场景下的知识三元组抽取方法
CN111666374A (zh) 一种在深度语言模型中融入额外知识信息的方法
CN112905750B (zh) 一种优化模型的生成方法和设备
Xue et al. A method of chinese tourism named entity recognition based on bblc model
CN116680407A (zh) 一种知识图谱的构建方法及装置
CN113408267B (zh) 一种基于预训练模型的词对齐性能提升方法
CN116304064A (zh) 一种基于抽取式的文本分类方法
Sun et al. [Retracted] The Construction of College English Smart Classroom Based on Artificial Intelligence and Big Data
CN113590745A (zh) 一种可解释的文本推断方法
CN110826332A (zh) 一种基于gp的中医药专利命名实体自动识别方法
Ma Research on Computer Intelligent Proofreading System for English Translation Based on Deep Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant