CN114239584A

CN114239584A - 一种基于自监督学习的命名实体识别方法

Info

Publication number: CN114239584A
Application number: CN202111539122.4A
Authority: CN
Inventors: 周仁杰; 胡强; 万健; 张纪林; 殷昱煜; 蒋从锋
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-03-25

Abstract

本发明公开了一种基于自监督学习的命名实体识别方法，该方法包括：对数据集进行预处理，并利用处理好的数据集构建正例句子对和负例句子对，利用embedding编码器分别对正例句子对和负例句子对中的句子进行编码；在基于自监督学习的命名实体识别模型中根据不同的实体特征以及相似度矩阵学习到实体在不同语境中的不同释义，充分根据正例句子对以及负例句子对的相似度学习其特征向量，满足不同语料库的语种上的差异。本发明提高了命名实体识别的准确率，并通过知识图谱解决输出结果中因单词缩写引起的实体类型识别错误的问题，从而可以更准确地预测实体以及实体类型，使得具有多义性单词的词嵌入向量能更好的表示该词在当前语境中的释义。

Description

一种基于自监督学习的命名实体识别方法

技术领域

本发明涉及一种命名实体识别方法，更具体涉及一种基于自监督学习的命名实体识别方法。

背景技术

大数据时代来临，对于命名实体识别的研究逐渐成为认知科学，信息科学和智能科学的交叉学科和国际新兴的前沿领域之一。近年来，西方发达国家对命名实体识别的重视程度与日俱增，开源信息抽取成为各国制定国防政策、战略决策和指挥作战的重要依据之一。命名实体识别在学术界也迅速成为信息学领域的国际前沿热点之一。

现存的命名实体识别方法大多根据文本抽取实体及实体类型。命名实体识别的主要任务是识别出文本中人名，地名等专有名词和有意义的时间、日期等数量短语并加以归类。命名实体识别主要有三种方法：基于规则的方法，基于统计学的方法和基于监督学习的方法。

基于规则的方法主要通过预先构建一些特殊的规则，通过文本规则来抽取文本中的实体。基于规则的方法在某些特定领域上拥有较高的准确度，但也正因为基于规则的方法只在某些特定的领域上拥有较高的准确度，造成了很大的局限性，例如跨领域的可移植性很差；基于统计学的方法主要对文本信息进行统计，从文本语料库中挖掘出单词特征。基于统计学的方法对于语料库的要求较高，而目前适用于大型命名实体识别任务评估的通用语料库较少，这也在一定程度上限制了该方法的发展；基于监督学习的方法主要从训练数据中通过训练得到分类器，并将分类器应用到新的实体识别当中，基于监督学习的方法在一定程度上解决了基于规则方法的在特定领域上的局限性，也在一定程度上解决了对通用语料库要求高的问题，然而该方法在词嵌入阶段没有很好的学习到多义性单词在当前语境下的表达。

本发明利用自监督学习对多义性单词进一步学习，提出了基于自监督学习的命名实体识别方法，构建了完整的命名实体识别模型。

发明内容

本发明的一个目的是针对现有命名实体识别技术在词嵌入阶段没有很好的学习到多义性单词在当前语境中的释义的问题，提供一种基于自监督学习的命名实体识别方法，基于任意语料库，利用对比子监督学习模型使得具有多义性单词的词嵌入能更好的表示该词在当前语境中的释义，以提高命名实体的识别度。

本发明所采用的技术方案如下：

步骤1：对数据集进行预处理；

1-1将数据集中已标注好实体类型的单词连词成句；

1-2将步骤1-1的句子s_i采用任意语种翻译成句子a_i，然后再将句子a_i用与s_i相同语种翻译成正例句子

步骤2：将步骤1中处理后的句子构建正负例句子对集合，其中正例句子对集合为

集合组成，负例句子对集合为

集合组成，负例句子对由原始句子和语料库中其余句子翻译后的句子组成；

步骤3：使用embedding编码器分别对正例句子对和负例句子对中的句子进行embedding编码；

步骤4：将embedding编码后的词嵌入向量输入至深度神经网络层DNN；

步骤5：将步骤4中得到的正例句子对的输出向量和负例句子对的输出向量做相似度计算，并将计算结果按照行拼接为一个全新的相似度矩阵M_sim；并利用对比损失函数l通过反向传播，梯度下降算法优化步骤3中embedding编码器f_k中的参数；

步骤6：获取已标注实体类型的单词所构成的句子，构建数据集，然后进一步将其分为训练集和测试集；

步骤7：搭建基于自监督学习的命名实体识别模型，其包括依次级联的主网络、修正模块；然后利用训练集对主网络进行训练，再利用测试集对训练好的主网络进行测试，最后利用修正模块对测试后主网络输出结果进行修正；

所述主网络包括步骤5优化后embedding编码器f_k、双向LSTM层、CRF层；

所述修正模块包括词组检索模块、实体类型修改模块；其中词组检索模块，用于获取主网络输入项的潜在实体集，并筛选出存在于公开知识图谱

的潜在实体，然后将该潜在实体以及实体类型构建成潜在实体集PE；所述潜在实体集包括各单词、由多个单词构成的词组、各单词和词组对应的实体类型；所述实体类型修改模块，用于接收词组检索模块输出的潜在实体集PE，以及主网络输出的实体类型标签，然后将主网络输出的实体类型与潜在实体集PE中主网络输入项中各潜在实体对应的实体类型进行比对，若一致则无需修改，若不一致则修正主网络的输出结果；

步骤8：利用测试好的基于自监督学习的命名实体识别模型实现文本的命名实体识别。

本发明的另一个目的是提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行上述的方法。

本发明的又一个目的是提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现上述的方法。

本发明提供的技术方案包含以下有益效果：

本发明通过多种中间语种翻译句子构建正例句子对和负例句子对，实际使用中采用队列存放负例句子对，当前mini-batch的数据将会进入队列，以往的最早的mini-batch数据将会移出队列，使用队列的好处在于可以将队列大小和batch size解耦出来，即队列大小不再受限于batch size的约束，很好的解决了自监督学习中需要大量负例mini-batch数据的问题；

本发明利用相似度函数衡量句子中的词嵌入向量在向量表示空间的相似度，并且采用动量移动平均方式去缓慢的更新embedding编码器的参数，这样可以避免因为embedding编码器参数的剧烈变化导致特征一致性的丢失，并且也可以保持embedding编码器一直处于被更新的状态，通过相似度函数和动量移动平均方式可以使embedding编码器在词嵌入编码阶段编码多义性单词时更加符合其在当前语境中的释义；

本发明通过公开知识图谱解决输出结果中因单词缩写引起的实体类型识别错误的问题，进一步提高实体识别的准确率。

附图说明

图1为本发明方法流程图；

图2为自监督学习的embedding编码器优化流程图；

图3为本发明基于自监督学习的命名实体识别模型结构图；

图4为本发明基于自监督学习的命名实体识别模型中修正模块结构图；

具体实施方式

下面结合附图，对本发明的具体实施方案作进一步详细描述。其具体流程描述如图1所示，其中：

步骤1：对数据集进行预处理；

1-1将数据集中已标注好实体类型的单词连词成句；

所述实体即为文本中的人名、地名和机构名等专有名词；

集合组成，负例句子对集合为

步骤3：使用embedding编码器分别对正例句子对和负例句子对中的句子进行embedding编码，具体是：

将句子s_i输入至embedding编码器f_q(query-encoder)进行词嵌入编码，并得到编码后的结果q_i；同时将句子s_i的对应正负例句子

输入至embedding编码器f_k(key-encoder)进行词嵌入编码，并得到编码后的结果

所述embedding编码器f_q、f_k的初始化参数θ_q、θ_k相同；

步骤4：将embedding编码后的词嵌入向量输入至深度神经网络层(DNN)；

所述深度神经网络层包括第一全连接层、Relu层和第二全连接层。

(1)第一全连接层：将未经优化的embedding编码器输出的embedding向量通过一层线性变化转化为相同维度的输出向量；

o_dense1＝Wx_input+b

其中，o_dense1表示输出向量，x_input表示未经优化的embedding编码器输出的embedding向量，W代表权值矩阵，b代表偏置向量；

(2)Relu层：将第一个全连接层的输出向量输入Relu激活函数可以使模型的收敛速度维持在一个稳定状态；

o_dense2＝max(o_dense1,0)

其中，o_dense2代表Relu层的输出向量；

(3)第二全连接层：将Relu层的输出向量转化为与预测实体种类数相同维度的输出向量；

步骤5：将步骤4中得到的正例句子对的输出向量和负例句子对的输出向量做相似度计算，并将计算结果按照行拼接为一个全新的相似度矩阵M_sim；并利用对比损失函数l通过反向传播，梯度下降算法优化步骤3中embedding编码器f_k中的参数。具体操作如下：

5-1将DNN的输出向量

通过相似度函数sim(·)做相似度计算，得到相似句子的正例相似度

不相似句子的负例相似度

然后将r⁺以及r^-按照行聚合，聚合得到相似度矩阵M_sim：

5-2使用如下对比损失函数l衡量正负例句子对在向量表示空间的相似度：

其中τ为超参数，其作用是将相似度调整为符合函数的输入量级，exp(·)表示以自然常数e为底的指数函数，sum(·)函数代表矩阵元素按行相加；

5-3利用对比损失函数l通过反向传播，梯度下降算法优化embedding编码器f_k中的参数；

其中f_k采用动量移动平均方式更新θ_k，并且使用一个队列存放经过f_k编码后的mini-batch数据(key)，队列中存放的为当前句子s_i的负例句子对

当前mini-batch的数据将会进入队列，以往的最早的mini-batch数据将会移出队列，动量移动平均方式如下所示：

θ_k←mθ_k+(1-m)θ_q

其中m为动量；

图2为自监督学习的embedding编码器优化流程图；

步骤7：搭建基于自监督学习的命名实体识别模型，如图3其包括依次级联的主网络、修正模块；然后利用训练集对主网络进行训练，再利用测试集对训练好的主网络进行测试，最后利用修正模块对测试后主网络输出结果进行修正；

a)所述主网络包括步骤5优化后embedding编码器f_k、双向LSTM层、CRF层；

1)优化后embedding编码器f_k，用于将句子中各单词编码成词嵌入向量；输入为完整的句子，输出为句子中每个单词的词嵌入向量；

2)双向LSTM层，用于学习单词间的依赖信息；输入为词嵌入向量，输出为包含单词间依赖信息的词嵌入向量；

LSTM相比RNN只有一个隐状态h_t，LSTM多了一个细胞状态c_t，隐状态和细胞状态可以存储t时刻及之前的所有有效信息。LSTM通过三个门控制单元来实现信息的保护和控制，这三个门分别为输入门、遗忘门和输出门。经过LSTM的第一步为丢弃长序列训练过程中保留的一些信息，该步骤由遗忘门来完成，遗忘门会读取h_t-1和x_t，通过sigmod激活函数，输出一个0到1之间的数值，0表示完全舍弃，1表示完全保留，遗忘门的计算方式如下：

f_t＝σ(W_fh_t-1+U_fx_t+b_f)

其中x_t为embedding编码器f_k输出的词嵌入向量，h_t-1为t-1时刻LSTM的隐状态，W_f和U_f分别为遗忘门中h_t-1和x_t的权值矩阵，b_f为遗忘门的偏置向量，σ(·)表示sigmod激活函数，f_t为遗忘门的输出；

第二步为更新细胞状态c_t。在更新c_t前需要通过输入门来确定哪些信息需要更新以及通过一个tanh层来确定备选更新内容(候选值向量z)。通过输入门和tanh层的计算方式和遗忘门类似，其计算方式如下所示：

i_t＝σ(W_ih_t-1+U_ix_t+b_i)

z＝tanh(W_zh_t-1+U_zx_t+b_z)

其中W_i和U_i分别为输入门中h_t-1和x_t的权值矩阵，b_i为输入门的偏置向量，i_t为输入门的输出；W_z和U_z分别为候选值向量中h_t-1和x_t的权值矩阵，b_z为候选值向量的偏置向量；

接着通过矩阵点乘更新细胞状态c_t：

c_t＝f_t⊙c_t-1+i_t⊙z

其中⊙表示矩阵的点乘运算；

经过LSTM的最后一步为更新隐状态h_t。更新h_t需要将细胞状态c_t通过tanh层处理得到一个-1到1之间的数值，然后将该数值与输出门的输出点乘来更新状态h_t，输出门的计算方式和遗忘门和输入门类似。

o_t＝σ(W_oh_t-1+U_ox_t+b_o)

h_t＝o_t⊙tanh(c_t)

其中W_o和U_o分别为输出门中h_t-1和x_t的权值矩阵，b_o为输出门的偏置向量，o_t为输出门的输出；

对于许多序列标记任务，访问过去和将来的信息都是有意义的，而单向LSTM的隐状态仅能从过去获取信息。为了同时获取到过去和未来的信息，使用了双向LSTM。双向LSTM的输出为每个token属于每一类标签的分数，计算完分数后需要由softmax进行归一化：

其中γ_i代表第i个token的标签分数归一化后的结果，x_i代表第i个token的标签分数向量，n的为标签种类的大小；

3)CRF层，用于对识别结果做进一步的修正；输入为双向LSTM层的输出向量，输出为每个单词的实体标签；

CRF为一种典型的判别式模型，其作用为对识别结果做进一步的修正。对于命名实体识别任务，其输出结果都可能存在一些无意义的字符，且模型并未考虑标签之间的依赖关系。CRF能够合理地结合上下文信息来提取标签之间的依赖关系，使得识别的实体满足标注规则；

在CRF中，有两个非常重要的分数分别为Emission score和Transition score。其中Emission score来自于双向LSTM模型的输出，具体为每个token预测为每一类标签的分数；而Transition score为从某类标签转移到另一类标签的概率，Transition矩阵是可以通过训练来改变内部标签的转移概率。有了Emission score和Transition score就可以计算当前输出序列的路径分数Path，如公式所示：

T_i,j＝em_i+trans_i,j

其中em_i和trans_i,j分别为一句话中的第i个token的Emission score和从第i个token的标签转移至第j个token的标签的Transition score，T_i,j为一句话中Emissionscore和Transition score的数量和。训练CRF通过如下方式：

其中，Path_real为训练过程中正确路径的路径分数，Path_i为第i个可能路径的路径分数，loss代表CRF层的损失函数；

b)所述修正模块包括词组检索模块、实体类型修改模块，如图4；

1)词组检索模块，用于获取主网络输入项的潜在实体集，并筛选出存在于公开知识图谱

的潜在实体；所述潜在实体集包括各单词、由多个单词构成的词组；

输入为句子，输出为句子中潜在实体集PE；检索的具体步骤为：

i.找出句子中所有单词组合成词组的排列组合，例如句子“The EuropeanCommission”即可得到集合Pe＝{The,European,Commission,TheEuropean,EuropeanCommission,TheEuropean Commission}；

ii.将步骤i得到的集合Pe中的每个潜在实体输入至公开知识图谱

若在公开知识图谱中能够检索到该潜在实体和该潜在实体对应的实体类型，则将该潜在实体以及实体类型添加至潜在实体集PE中；

所述潜在实体集PE例如{The European Commission:Organization,…}；

2)实体类型修改模块，用于接收词组检索模块输出的潜在实体集PE，以及主网络输出的实体类型标签，然后将主网络输出的实体类型标签与潜在实体集PE中主网络输入项中各潜在实体对应的实体类型进行比对，若一致则无需修改，若不一致则修正主网络的输出结果；

步骤8：利用测试好的基于自监督学习的命名实体识别模型(MBBCD)实现文本的命名实体识别。

本发明性能评估采用Conll2003英文公开数据集，下表为该数据集的数据量情况：

	文章数	句子数	单词数
				训练集	946	14987	203621
开发集	216	3466	51362
				测试集	231	3684	46435

数据集中包含四种实体类型，分别为地名，人名，组织名和其他实体，实体标注方法采用BIO标注法：BIO标注法规定了所有的命名实体均以B标签开头，I表示命名实体内部，O表示命名实体外部，如若语料中某个词标注B/I-XXX，B/I表示这个词属于命名实体的开始或内部，即该词是命名实体的一部分，XXX表示命名实体的类型。下表为数据集中训练集，开发集，测试集中实体数量的具体分布情况：

	地名	人名	组织名	其他实体
					训练集	7140	6600	6321	3438
开发集	1837	1842	1341	922
					测试集	1668	1617	1661	702

步骤7中采用DBpedia英文知识图谱对输出结果中因单词缩写引起的实体类型识别进行修正，下表为本发明在上述测试集上的实体识别结果：

上述实体识别结果表中，CNN用于字符级编码，Glove的作用为提供预先训练好的词向量，基于自监督学习的命名实体识别模型(MBBCD)即为本发明中的提出的基于自监督学习的命名实体识别方法。实验采用精确率Precision，召回率Recall以及Micro-F1作为实体识别的性能评价指标。命名实体中标注方法同时确定了实体边界和实体类型，只有当实体边界和实体类型同时被精确标出时，当前实体的识别结果才是正确的。基于数据的truepositives(TP)，false positives(FP)以及false negatives(FN)，由以上数据可以计算命名实体识别任务的精确率(Precision)，召回率(Recall)，F1值(F1-score)。TP被定义为能正确识别出实体边界和实体类型，FP被定义为能正确识别出实体但实体边界或者实体类型判断错误，FN被定义为本应被识别出来但实际并未被识别出来的实体。

根据精确率Precision的定义：对给定数据集，精确率为分类正确的样本个数和样本总个数的比值可得命名实体识别任务中精确率的计算方式：

根据召回率Recall的定义：召回率用来说明分类器中判定为真的正例占总比例的比率可得命名实体识别任务中召回率的计算方式：

根据微平均F1值Micro-F1的定义：Micro-F1值是精确率和召回率的调和平均指标，是平衡精确率和召回率影响的综合指标。由此可得Micro-F1值的计算方式：

Claims

1.一种基于自监督学习的命名实体识别方法，其特征在于该方法包括以下步骤：

步骤1：对数据集进行预处理；

1-1将数据集中已标注好实体类型的单词连词成句；

集合组成，负例句子对集合为

的潜在实体，然后将该潜在实体以及实体类型构建成潜在实体集PE；所述潜在实体包括各单词、由多个单词构成的词组；所述实体类型修改模块，用于接收词组检索模块输出的潜在实体集PE，以及主网络输出的实体类型标签，然后将主网络输出的实体类型与潜在实体集PE中主网络输入项中各潜在实体对应的实体类型进行比对，若一致则无需修改，若不一致则修正主网络的输出结果；

2.如权利要求1所述的一种基于自监督学习的命名实体识别方法，其特征在于所述embedding编码器f_q、f_k的初始化参数θ_q、θ_k相同。

3.如权利要求1所述的一种基于自监督学习的命名实体识别方法，其特征在于步骤3具体是：

将句子s_i输入至embedding编码器f_q进行词嵌入编码，并得到编码后的结果q_i；同时将句子s_i的对应正负例句子