[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114239584A - 一种基于自监督学习的命名实体识别方法 - Google Patents

一种基于自监督学习的命名实体识别方法 Download PDF

Info

Publication number
CN114239584A
CN114239584A CN202111539122.4A CN202111539122A CN114239584A CN 114239584 A CN114239584 A CN 114239584A CN 202111539122 A CN202111539122 A CN 202111539122A CN 114239584 A CN114239584 A CN 114239584A
Authority
CN
China
Prior art keywords
entity
output
embedding
vector
main network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111539122.4A
Other languages
English (en)
Inventor
周仁杰
胡强
万健
张纪林
殷昱煜
蒋从锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202111539122.4A priority Critical patent/CN114239584A/zh
Publication of CN114239584A publication Critical patent/CN114239584A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于自监督学习的命名实体识别方法,该方法包括:对数据集进行预处理,并利用处理好的数据集构建正例句子对和负例句子对,利用embedding编码器分别对正例句子对和负例句子对中的句子进行编码;在基于自监督学习的命名实体识别模型中根据不同的实体特征以及相似度矩阵学习到实体在不同语境中的不同释义,充分根据正例句子对以及负例句子对的相似度学习其特征向量,满足不同语料库的语种上的差异。本发明提高了命名实体识别的准确率,并通过知识图谱解决输出结果中因单词缩写引起的实体类型识别错误的问题,从而可以更准确地预测实体以及实体类型,使得具有多义性单词的词嵌入向量能更好的表示该词在当前语境中的释义。

Description

一种基于自监督学习的命名实体识别方法
技术领域
本发明涉及一种命名实体识别方法,更具体涉及一种基于自监督学习的命名实体识别方法。
背景技术
大数据时代来临,对于命名实体识别的研究逐渐成为认知科学,信息科学和智能科学的交叉学科和国际新兴的前沿领域之一。近年来,西方发达国家对命名实体识别的重视程度与日俱增,开源信息抽取成为各国制定国防政策、战略决策和指挥作战的重要依据之一。命名实体识别在学术界也迅速成为信息学领域的国际前沿热点之一。
现存的命名实体识别方法大多根据文本抽取实体及实体类型。命名实体识别的主要任务是识别出文本中人名,地名等专有名词和有意义的时间、日期等数量短语并加以归类。命名实体识别主要有三种方法:基于规则的方法,基于统计学的方法和基于监督学习的方法。
基于规则的方法主要通过预先构建一些特殊的规则,通过文本规则来抽取文本中的实体。基于规则的方法在某些特定领域上拥有较高的准确度,但也正因为基于规则的方法只在某些特定的领域上拥有较高的准确度,造成了很大的局限性,例如跨领域的可移植性很差;基于统计学的方法主要对文本信息进行统计,从文本语料库中挖掘出单词特征。基于统计学的方法对于语料库的要求较高,而目前适用于大型命名实体识别任务评估的通用语料库较少,这也在一定程度上限制了该方法的发展;基于监督学习的方法主要从训练数据中通过训练得到分类器,并将分类器应用到新的实体识别当中,基于监督学习的方法在一定程度上解决了基于规则方法的在特定领域上的局限性,也在一定程度上解决了对通用语料库要求高的问题,然而该方法在词嵌入阶段没有很好的学习到多义性单词在当前语境下的表达。
本发明利用自监督学习对多义性单词进一步学习,提出了基于自监督学习的命名实体识别方法,构建了完整的命名实体识别模型。
发明内容
本发明的一个目的是针对现有命名实体识别技术在词嵌入阶段没有很好的学习到多义性单词在当前语境中的释义的问题,提供一种基于自监督学习的命名实体识别方法,基于任意语料库,利用对比子监督学习模型使得具有多义性单词的词嵌入能更好的表示该词在当前语境中的释义,以提高命名实体的识别度。
本发明所采用的技术方案如下:
步骤1:对数据集进行预处理;
1-1将数据集中已标注好实体类型的单词连词成句;
1-2将步骤1-1的句子si采用任意语种翻译成句子ai,然后再将句子ai用与si相同语种翻译成正例句子
Figure BDA0003413389280000021
步骤2:将步骤1中处理后的句子构建正负例句子对集合,其中正例句子对集合为
Figure BDA0003413389280000022
Figure BDA0003413389280000023
集合组成,负例句子对集合为
Figure BDA0003413389280000024
集合组成,负例句子对由原始句子和语料库中其余句子翻译后的句子组成;
步骤3:使用embedding编码器分别对正例句子对和负例句子对中的句子进行embedding编码;
步骤4:将embedding编码后的词嵌入向量输入至深度神经网络层DNN;
步骤5:将步骤4中得到的正例句子对的输出向量和负例句子对的输出向量做相似度计算,并将计算结果按照行拼接为一个全新的相似度矩阵Msim;并利用对比损失函数l通过反向传播,梯度下降算法优化步骤3中embedding编码器fk中的参数;
步骤6:获取已标注实体类型的单词所构成的句子,构建数据集,然后进一步将其分为训练集和测试集;
步骤7:搭建基于自监督学习的命名实体识别模型,其包括依次级联的主网络、修正模块;然后利用训练集对主网络进行训练,再利用测试集对训练好的主网络进行测试,最后利用修正模块对测试后主网络输出结果进行修正;
所述主网络包括步骤5优化后embedding编码器fk、双向LSTM层、CRF层;
所述修正模块包括词组检索模块、实体类型修改模块;其中词组检索模块,用于获取主网络输入项的潜在实体集,并筛选出存在于公开知识图谱
Figure BDA0003413389280000025
的潜在实体,然后将该潜在实体以及实体类型构建成潜在实体集PE;所述潜在实体集包括各单词、由多个单词构成的词组、各单词和词组对应的实体类型;所述实体类型修改模块,用于接收词组检索模块输出的潜在实体集PE,以及主网络输出的实体类型标签,然后将主网络输出的实体类型与潜在实体集PE中主网络输入项中各潜在实体对应的实体类型进行比对,若一致则无需修改,若不一致则修正主网络的输出结果;
步骤8:利用测试好的基于自监督学习的命名实体识别模型实现文本的命名实体识别。
本发明的另一个目的是提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述的方法。
本发明的又一个目的是提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述的方法。
本发明提供的技术方案包含以下有益效果:
本发明通过多种中间语种翻译句子构建正例句子对和负例句子对,实际使用中采用队列存放负例句子对,当前mini-batch的数据将会进入队列,以往的最早的mini-batch数据将会移出队列,使用队列的好处在于可以将队列大小和batch size解耦出来,即队列大小不再受限于batch size的约束,很好的解决了自监督学习中需要大量负例mini-batch数据的问题;
本发明利用相似度函数衡量句子中的词嵌入向量在向量表示空间的相似度,并且采用动量移动平均方式去缓慢的更新embedding编码器的参数,这样可以避免因为embedding编码器参数的剧烈变化导致特征一致性的丢失,并且也可以保持embedding编码器一直处于被更新的状态,通过相似度函数和动量移动平均方式可以使embedding编码器在词嵌入编码阶段编码多义性单词时更加符合其在当前语境中的释义;
本发明通过公开知识图谱解决输出结果中因单词缩写引起的实体类型识别错误的问题,进一步提高实体识别的准确率。
附图说明
图1为本发明方法流程图;
图2为自监督学习的embedding编码器优化流程图;
图3为本发明基于自监督学习的命名实体识别模型结构图;
图4为本发明基于自监督学习的命名实体识别模型中修正模块结构图;
具体实施方式
下面结合附图,对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示,其中:
步骤1:对数据集进行预处理;
1-1将数据集中已标注好实体类型的单词连词成句;
所述实体即为文本中的人名、地名和机构名等专有名词;
1-2将步骤1-1的句子si采用任意语种翻译成句子ai,然后再将句子ai用与si相同语种翻译成正例句子
Figure BDA0003413389280000031
步骤2:将步骤1中处理后的句子构建正负例句子对集合,其中正例句子对集合为
Figure BDA0003413389280000041
Figure BDA0003413389280000042
集合组成,负例句子对集合为
Figure BDA0003413389280000043
集合组成,负例句子对由原始句子和语料库中其余句子翻译后的句子组成;
步骤3:使用embedding编码器分别对正例句子对和负例句子对中的句子进行embedding编码,具体是:
将句子si输入至embedding编码器fq(query-encoder)进行词嵌入编码,并得到编码后的结果qi;同时将句子si的对应正负例句子
Figure BDA0003413389280000044
输入至embedding编码器fk(key-encoder)进行词嵌入编码,并得到编码后的结果
Figure BDA0003413389280000045
所述embedding编码器fq、fk的初始化参数θq、θk相同;
步骤4:将embedding编码后的词嵌入向量输入至深度神经网络层(DNN);
所述深度神经网络层包括第一全连接层、Relu层和第二全连接层。
(1)第一全连接层:将未经优化的embedding编码器输出的embedding向量通过一层线性变化转化为相同维度的输出向量;
odense1=Wxinput+b
其中,odense1表示输出向量,xinput表示未经优化的embedding编码器输出的embedding向量,W代表权值矩阵,b代表偏置向量;
(2)Relu层:将第一个全连接层的输出向量输入Relu激活函数可以使模型的收敛速度维持在一个稳定状态;
odense2=max(odense1,0)
其中,odense2代表Relu层的输出向量;
(3)第二全连接层:将Relu层的输出向量转化为与预测实体种类数相同维度的输出向量;
步骤5:将步骤4中得到的正例句子对的输出向量和负例句子对的输出向量做相似度计算,并将计算结果按照行拼接为一个全新的相似度矩阵Msim;并利用对比损失函数l通过反向传播,梯度下降算法优化步骤3中embedding编码器fk中的参数。具体操作如下:
5-1将DNN的输出向量
Figure BDA0003413389280000046
通过相似度函数sim(·)做相似度计算,得到相似句子的正例相似度
Figure BDA0003413389280000047
不相似句子的负例相似度
Figure BDA0003413389280000048
Figure BDA0003413389280000049
然后将r+以及r-按照行聚合,聚合得到相似度矩阵Msim
Figure BDA0003413389280000051
5-2使用如下对比损失函数l衡量正负例句子对在向量表示空间的相似度:
Figure BDA0003413389280000052
其中τ为超参数,其作用是将相似度调整为符合函数的输入量级,exp(·)表示以自然常数e为底的指数函数,sum(·)函数代表矩阵元素按行相加;
5-3利用对比损失函数l通过反向传播,梯度下降算法优化embedding编码器fk中的参数;
其中fk采用动量移动平均方式更新θk,并且使用一个队列存放经过fk编码后的mini-batch数据(key),队列中存放的为当前句子si的负例句子对
Figure BDA0003413389280000053
当前mini-batch的数据将会进入队列,以往的最早的mini-batch数据将会移出队列,动量移动平均方式如下所示:
θk←mθk+(1-m)θq
其中m为动量;
图2为自监督学习的embedding编码器优化流程图;
步骤6:获取已标注实体类型的单词所构成的句子,构建数据集,然后进一步将其分为训练集和测试集;
步骤7:搭建基于自监督学习的命名实体识别模型,如图3其包括依次级联的主网络、修正模块;然后利用训练集对主网络进行训练,再利用测试集对训练好的主网络进行测试,最后利用修正模块对测试后主网络输出结果进行修正;
a)所述主网络包括步骤5优化后embedding编码器fk、双向LSTM层、CRF层;
1)优化后embedding编码器fk,用于将句子中各单词编码成词嵌入向量;输入为完整的句子,输出为句子中每个单词的词嵌入向量;
2)双向LSTM层,用于学习单词间的依赖信息;输入为词嵌入向量,输出为包含单词间依赖信息的词嵌入向量;
LSTM相比RNN只有一个隐状态ht,LSTM多了一个细胞状态ct,隐状态和细胞状态可以存储t时刻及之前的所有有效信息。LSTM通过三个门控制单元来实现信息的保护和控制,这三个门分别为输入门、遗忘门和输出门。经过LSTM的第一步为丢弃长序列训练过程中保留的一些信息,该步骤由遗忘门来完成,遗忘门会读取ht-1和xt,通过sigmod激活函数,输出一个0到1之间的数值,0表示完全舍弃,1表示完全保留,遗忘门的计算方式如下:
ft=σ(Wfht-1+Ufxt+bf)
其中xt为embedding编码器fk输出的词嵌入向量,ht-1为t-1时刻LSTM的隐状态,Wf和Uf分别为遗忘门中ht-1和xt的权值矩阵,bf为遗忘门的偏置向量,σ(·)表示sigmod激活函数,ft为遗忘门的输出;
第二步为更新细胞状态ct。在更新ct前需要通过输入门来确定哪些信息需要更新以及通过一个tanh层来确定备选更新内容(候选值向量z)。通过输入门和tanh层的计算方式和遗忘门类似,其计算方式如下所示:
it=σ(Wiht-1+Uixt+bi)
z=tanh(Wzht-1+Uzxt+bz)
其中Wi和Ui分别为输入门中ht-1和xt的权值矩阵,bi为输入门的偏置向量,it为输入门的输出;Wz和Uz分别为候选值向量中ht-1和xt的权值矩阵,bz为候选值向量的偏置向量;
接着通过矩阵点乘更新细胞状态ct
ct=ft⊙ct-1+it⊙z
其中⊙表示矩阵的点乘运算;
经过LSTM的最后一步为更新隐状态ht。更新ht需要将细胞状态ct通过tanh层处理得到一个-1到1之间的数值,然后将该数值与输出门的输出点乘来更新状态ht,输出门的计算方式和遗忘门和输入门类似。
ot=σ(Woht-1+Uoxt+bo)
ht=ot⊙tanh(ct)
其中Wo和Uo分别为输出门中ht-1和xt的权值矩阵,bo为输出门的偏置向量,ot为输出门的输出;
对于许多序列标记任务,访问过去和将来的信息都是有意义的,而单向LSTM的隐状态仅能从过去获取信息。为了同时获取到过去和未来的信息,使用了双向LSTM。双向LSTM的输出为每个token属于每一类标签的分数,计算完分数后需要由softmax进行归一化:
Figure BDA0003413389280000061
其中γi代表第i个token的标签分数归一化后的结果,xi代表第i个token的标签分数向量,n的为标签种类的大小;
3)CRF层,用于对识别结果做进一步的修正;输入为双向LSTM层的输出向量,输出为每个单词的实体标签;
CRF为一种典型的判别式模型,其作用为对识别结果做进一步的修正。对于命名实体识别任务,其输出结果都可能存在一些无意义的字符,且模型并未考虑标签之间的依赖关系。CRF能够合理地结合上下文信息来提取标签之间的依赖关系,使得识别的实体满足标注规则;
在CRF中,有两个非常重要的分数分别为Emission score和Transition score。其中Emission score来自于双向LSTM模型的输出,具体为每个token预测为每一类标签的分数;而Transition score为从某类标签转移到另一类标签的概率,Transition矩阵是可以通过训练来改变内部标签的转移概率。有了Emission score和Transition score就可以计算当前输出序列的路径分数Path,如公式所示:
Figure BDA0003413389280000071
Ti,j=emi+transi,j
其中emi和transi,j分别为一句话中的第i个token的Emission score和从第i个token的标签转移至第j个token的标签的Transition score,Ti,j为一句话中Emissionscore和Transition score的数量和。训练CRF通过如下方式:
Figure BDA0003413389280000072
其中,Pathreal为训练过程中正确路径的路径分数,Pathi为第i个可能路径的路径分数,loss代表CRF层的损失函数;
b)所述修正模块包括词组检索模块、实体类型修改模块,如图4;
1)词组检索模块,用于获取主网络输入项的潜在实体集,并筛选出存在于公开知识图谱
Figure BDA0003413389280000074
的潜在实体;所述潜在实体集包括各单词、由多个单词构成的词组;
输入为句子,输出为句子中潜在实体集PE;检索的具体步骤为:
i.找出句子中所有单词组合成词组的排列组合,例如句子“The EuropeanCommission”即可得到集合Pe={The,European,Commission,TheEuropean,EuropeanCommission,TheEuropean Commission};
ii.将步骤i得到的集合Pe中的每个潜在实体输入至公开知识图谱
Figure BDA0003413389280000073
若在公开知识图谱中能够检索到该潜在实体和该潜在实体对应的实体类型,则将该潜在实体以及实体类型添加至潜在实体集PE中;
所述潜在实体集PE例如{The European Commission:Organization,…};
2)实体类型修改模块,用于接收词组检索模块输出的潜在实体集PE,以及主网络输出的实体类型标签,然后将主网络输出的实体类型标签与潜在实体集PE中主网络输入项中各潜在实体对应的实体类型进行比对,若一致则无需修改,若不一致则修正主网络的输出结果;
步骤8:利用测试好的基于自监督学习的命名实体识别模型(MBBCD)实现文本的命名实体识别。
本发明性能评估采用Conll2003英文公开数据集,下表为该数据集的数据量情况:
文章数 句子数 单词数
训练集 946 14987 203621
开发集 216 3466 51362
测试集 231 3684 46435
数据集中包含四种实体类型,分别为地名,人名,组织名和其他实体,实体标注方法采用BIO标注法:BIO标注法规定了所有的命名实体均以B标签开头,I表示命名实体内部,O表示命名实体外部,如若语料中某个词标注B/I-XXX,B/I表示这个词属于命名实体的开始或内部,即该词是命名实体的一部分,XXX表示命名实体的类型。下表为数据集中训练集,开发集,测试集中实体数量的具体分布情况:
地名 人名 组织名 其他实体
训练集 7140 6600 6321 3438
开发集 1837 1842 1341 922
测试集 1668 1617 1661 702
步骤7中采用DBpedia英文知识图谱对输出结果中因单词缩写引起的实体类型识别进行修正,下表为本发明在上述测试集上的实体识别结果:
Figure BDA0003413389280000081
Figure BDA0003413389280000091
上述实体识别结果表中,CNN用于字符级编码,Glove的作用为提供预先训练好的词向量,基于自监督学习的命名实体识别模型(MBBCD)即为本发明中的提出的基于自监督学习的命名实体识别方法。实验采用精确率Precision,召回率Recall以及Micro-F1作为实体识别的性能评价指标。命名实体中标注方法同时确定了实体边界和实体类型,只有当实体边界和实体类型同时被精确标出时,当前实体的识别结果才是正确的。基于数据的truepositives(TP),false positives(FP)以及false negatives(FN),由以上数据可以计算命名实体识别任务的精确率(Precision),召回率(Recall),F1值(F1-score)。TP被定义为能正确识别出实体边界和实体类型,FP被定义为能正确识别出实体但实体边界或者实体类型判断错误,FN被定义为本应被识别出来但实际并未被识别出来的实体。
根据精确率Precision的定义:对给定数据集,精确率为分类正确的样本个数和样本总个数的比值可得命名实体识别任务中精确率的计算方式:
Figure BDA0003413389280000092
根据召回率Recall的定义:召回率用来说明分类器中判定为真的正例占总比例的比率可得命名实体识别任务中召回率的计算方式:
Figure BDA0003413389280000093
根据微平均F1值Micro-F1的定义:Micro-F1值是精确率和召回率的调和平均指标,是平衡精确率和召回率影响的综合指标。由此可得Micro-F1值的计算方式:
Figure BDA0003413389280000094

Claims (9)

1.一种基于自监督学习的命名实体识别方法,其特征在于该方法包括以下步骤:
步骤1:对数据集进行预处理;
1-1将数据集中已标注好实体类型的单词连词成句;
1-2将步骤1-1的句子si采用任意语种翻译成句子ai,然后再将句子ai用与si相同语种翻译成正例句子
Figure FDA0003413389270000011
步骤2:将步骤1中处理后的句子构建正负例句子对集合,其中正例句子对集合为
Figure FDA0003413389270000012
集合组成,负例句子对集合为
Figure FDA0003413389270000013
集合组成,负例句子对由原始句子和语料库中其余句子翻译后的句子组成;
步骤3:使用embedding编码器分别对正例句子对和负例句子对中的句子进行embedding编码;
步骤4:将embedding编码后的词嵌入向量输入至深度神经网络层DNN;
步骤5:将步骤4中得到的正例句子对的输出向量和负例句子对的输出向量做相似度计算,并将计算结果按照行拼接为一个全新的相似度矩阵Msim;并利用对比损失函数l通过反向传播,梯度下降算法优化步骤3中embedding编码器fk中的参数;
步骤6:获取已标注实体类型的单词所构成的句子,构建数据集,然后进一步将其分为训练集和测试集;
步骤7:搭建基于自监督学习的命名实体识别模型,其包括依次级联的主网络、修正模块;然后利用训练集对主网络进行训练,再利用测试集对训练好的主网络进行测试,最后利用修正模块对测试后主网络输出结果进行修正;
所述主网络包括步骤5优化后embedding编码器fk、双向LSTM层、CRF层;
所述修正模块包括词组检索模块、实体类型修改模块;其中词组检索模块,用于获取主网络输入项的潜在实体集,并筛选出存在于公开知识图谱
Figure FDA0003413389270000014
的潜在实体,然后将该潜在实体以及实体类型构建成潜在实体集PE;所述潜在实体包括各单词、由多个单词构成的词组;所述实体类型修改模块,用于接收词组检索模块输出的潜在实体集PE,以及主网络输出的实体类型标签,然后将主网络输出的实体类型与潜在实体集PE中主网络输入项中各潜在实体对应的实体类型进行比对,若一致则无需修改,若不一致则修正主网络的输出结果;
步骤8:利用测试好的基于自监督学习的命名实体识别模型实现文本的命名实体识别。
2.如权利要求1所述的一种基于自监督学习的命名实体识别方法,其特征在于所述embedding编码器fq、fk的初始化参数θq、θk相同。
3.如权利要求1所述的一种基于自监督学习的命名实体识别方法,其特征在于步骤3具体是:
将句子si输入至embedding编码器fq进行词嵌入编码,并得到编码后的结果qi;同时将句子si的对应正负例句子
Figure FDA0003413389270000021
Figure FDA0003413389270000022
输入至embedding编码器fk进行词嵌入编码,并得到编码后的结果
Figure FDA0003413389270000023
4.如权利要求1所述的一种基于自监督学习的命名实体识别方法,其特征在于所述深度神经网络层包括第一全连接层、Relu层和第二全连接层;
(1)第一全连接层:将embedding编码器fq、fk输出的embedding向量通过一层线性变化转化为相同维度的输出向量;
odense1=Wxinput+b
其中,odense1表示输出向量,xinput表示未经优化的embedding编码器输出的embedding向量,W代表权值矩阵,b代表偏置向量;
(2)Relu层:将第一全连接层的输出向量输入Relu激活函数使模型的收敛速度维持在一个稳定状态;
odense2=max(odense1,0)
其中,odense2代表Relu层的输出向量;
(3)第二全连接层:将Relu层的输出向量转化为与预测实体类型种类数相同维度的输出向量。
5.如权利要求1所述的一种基于自监督学习的命名实体识别方法,其特征在于步骤5具体操作如下:
5-1将DNN的输出向量
Figure FDA0003413389270000024
通过相似度函数sim(·)做相似度计算,得到相似句子的正例相似度
Figure FDA0003413389270000025
不相似句子的负例相似度
Figure FDA0003413389270000026
Figure FDA0003413389270000027
然后将r+以及r-按照行聚合,聚合得到相似度矩阵Msim
Figure FDA0003413389270000028
5-2使用如下对比损失函数l衡量正负例句子对在向量表示空间的相似度:
Figure FDA0003413389270000031
其中τ为超参数,exp(·)表示以自然常数e为底的指数函数,sum(·)函数代表矩阵元素按行相加;
5-3利用对比损失函数l通过反向传播,梯度下降算法优化embedding编码器fk中的参数。
6.如权利要求1所述的一种基于自监督学习的命名实体识别方法,其特征在于embedding编码器fk采用动量移动平均方式更新θk,所述动量移动平均方式如下:
θk←mθk+(1-m)θq
其中m为动量。
7.如权利要求1所述的一种基于自监督学习的命名实体识别方法,其特征在于所述优化后embedding编码器fk,用于将句子中各单词编码成词嵌入向量;输入为完整的句子,输出为句子中每个单词的词嵌入向量;
所述双向LSTM层,用于学习单词间的依赖信息;输入为词嵌入向量,输出为包含单词间依赖信息的词嵌入向量;
所述CRF层,用于对识别结果做进一步的修正;输入为双向LSTM层的输出向量,输出为每个单词的实体类型标签。
8.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-7中任一项所述的方法。
9.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN202111539122.4A 2021-12-15 2021-12-15 一种基于自监督学习的命名实体识别方法 Pending CN114239584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111539122.4A CN114239584A (zh) 2021-12-15 2021-12-15 一种基于自监督学习的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111539122.4A CN114239584A (zh) 2021-12-15 2021-12-15 一种基于自监督学习的命名实体识别方法

Publications (1)

Publication Number Publication Date
CN114239584A true CN114239584A (zh) 2022-03-25

Family

ID=80756701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111539122.4A Pending CN114239584A (zh) 2021-12-15 2021-12-15 一种基于自监督学习的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114239584A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114664436A (zh) * 2022-04-01 2022-06-24 山东大学齐鲁医院 一种基于智能体决策的急救辅助系统
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114664436A (zh) * 2022-04-01 2022-06-24 山东大学齐鲁医院 一种基于智能体决策的急救辅助系统
CN115688777A (zh) * 2022-09-28 2023-02-03 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统
CN115688777B (zh) * 2022-09-28 2023-05-05 北京邮电大学 面向中文金融文本的嵌套和不连续实体的命名实体识别系统

Similar Documents

Publication Publication Date Title
CN108628823B (zh) 结合注意力机制和多任务协同训练的命名实体识别方法
CN108733792B (zh) 一种实体关系抽取方法
CN109902145B (zh) 一种基于注意力机制的实体关系联合抽取方法和系统
CN109657239B (zh) 基于注意力机制和语言模型学习的中文命名实体识别方法
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN109726389B (zh) 一种基于常识和推理的中文缺失代词补全方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111104509A (zh) 一种基于概率分布自适应的实体关系分类方法
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN111241807A (zh) 一种基于知识引导注意力的机器阅读理解方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及系统
CN113948217A (zh) 一种基于局部特征整合的医学嵌套命名实体识别方法
Deng et al. Self-attention-based BiGRU and capsule network for named entity recognition
CN111753088A (zh) 一种自然语言信息的处理方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN113160917B (zh) 一种电子病历实体关系抽取方法
CN114239584A (zh) 一种基于自监督学习的命名实体识别方法
CN114781375A (zh) 一种基于bert与注意力机制的军事装备关系抽取方法
CN114398488A (zh) 一种基于注意力机制的bilstm多标签文本分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination