[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114692636A - 一种基于关系分类与序列标注的嵌套命名实体识别方法 - Google Patents

一种基于关系分类与序列标注的嵌套命名实体识别方法 Download PDF

Info

Publication number
CN114692636A
CN114692636A CN202210229940.2A CN202210229940A CN114692636A CN 114692636 A CN114692636 A CN 114692636A CN 202210229940 A CN202210229940 A CN 202210229940A CN 114692636 A CN114692636 A CN 114692636A
Authority
CN
China
Prior art keywords
entity
text
sequence
token
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210229940.2A
Other languages
English (en)
Other versions
CN114692636B (zh
Inventor
刘峰
方军武
殷莉
卢苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Haitai Medical Information System Co ltd
Original Assignee
Haitai Medical Information System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Haitai Medical Information System Co ltd filed Critical Haitai Medical Information System Co ltd
Priority to CN202210229940.2A priority Critical patent/CN114692636B/zh
Publication of CN114692636A publication Critical patent/CN114692636A/zh
Application granted granted Critical
Publication of CN114692636B publication Critical patent/CN114692636B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于关系分类与序列标注的嵌套命名实体识别方法;通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告;该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。

Description

一种基于关系分类与序列标注的嵌套命名实体识别方法
技术领域
本发明涉及人工智能和医疗电子信息技术的交叉技术领域,特别涉及一种基于关系分类与序列标注的嵌套命名实体识别方法。
背景技术
随着医疗健康服务不断朝着智能化方向发展,机器学习在医疗领域的应用开始成为人工智能时代的研究热点之一。非结构化医疗文档是放射科医生对影像表现的描述与总结,蕴含大量对病灶的描述。从非结构化医疗文本中提取这些重要信息,能够更好地服务于临床决策、数据挖掘等各类临床信息系统,从而减轻专业医师的工作量。目前计算机难以从这些不规则的非结构化医疗文本数据中直接提取有价值的信息,从而无法利用ElasticSearch等搜索引擎进一步对数据进行挖掘分析。因此,如何从医学影像报告中自动、高效地提取所需信息,形成结构化的数据,并建立文本描述和影像病灶的关联,是目前智能医疗服务进程中的重要挑战之一。
嵌套实体识别是实体命名识别中一个子问题,使用CRF等传统标注方法无法对嵌套实体进行区分,因此存在一定的局限性。
本发明提供了一种基于关系分类与序列标注的嵌套命名实体识别方法。该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
发明内容
本发明针对现有技术中的不足,提供一种基于关系分类与序列标注的嵌套命名实体识别方法;本申请综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告。该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
为实现上述目的,本发明采用以下技术方案:
一种基于关系分类与序列标注的嵌套命名实体识别方法,包括以下步骤:
S1、确定需要进行嵌套命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本,基于关系分类与序列标注的嵌套命名实体识别框架模型对训练集文本内容中的潜在实体进行识别训练,并对嵌套命名实体识别框架模型进行优化;具体包括:
S2.1、通过训练集寻找潜在的实体集合Se
S2.2、确定实体集合Se中各个实体的类型;
S2.3、对嵌套命名实体识别框架模型进行优化;
S3、将测试集文本作为嵌套命名实体识别框架模型的输入,送入训练优化后的嵌套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果。
为优化上述技术方案,采取的具体措施还包括:
进一步地,所述步骤S2.1的具体内容为:
S2.1.1、将训练集文本作为输入,送到嵌套命名实体识别框架模型中;其中所述训练集文本包括:原始文本序列S=(w1,w2,…wn),以及文本中的实体集合Le=(p1,p2,…,pm);
式中,w1,w2,…wn中均表示为文本中的各个单词,也即表示为文本中的各个token;p1,p2,…,pm分别表示为各个实体,其中包含有对应实体所在的位置信息,即Le中的任意一个实体pi,其包含有一个二元组<wi_head,wi_tail>,wi_head表示第i个实体pi的开始位置单词,wi_tail表示第i个实体pi的结束位置单词,以一个单词作为开始位置,以另外一个单词作为结束位置进而组合成的第i个实体pi,其中开始位置的单词记为头Token,结束位置的单词记为尾Token;
S2.1.2、训练集文本输入至嵌套命名实体识别框架模型的内容输入模块中,将原始文本序列S映射为原始输入序列Me=(e1,e2,…en),同时根据实体集合Le对其中实体的各个单词进行BIOE形式标注,使得每个实体中的每个单词均有对应的标识,其中任意一个单词的标识都属于标签集合Lb
式中,e1,e2,…en中的每一个元素均与w1,w2,…wn相对应,e1表示为w1的嵌入向量,e2表示为w2的嵌入向量,en表示为wn的嵌入向量;标签集合Lb包含标识B、I、O、E中的所有类型;
S2.1.3、将原始输入序列Me送入到嵌套命名实体识别框架模型的边界预测模块中,通过 Bi-LSTM模型计算输出文本中隐特征向量序列Mhe=(he1,he2,…,hen),然后通过前馈神经网络FFNN以文本序列S中当前第i个token:wi的位置隐特征向量hei作为输入,计算文本内容中每个Token与标签集合Lb中的标识l联合概率分布
Figure BDA0003537967090000021
以及计算文本序列S中第i个 Token:wi属于标识l的条件概率分布p(wi=l|S);然后取条件概率最高的标识作为当前位置单词标识的输出,以此边界预测模块输出文本中所有各单词位置的标识信息;其中:
对于隐特征向量序列Mhe=(he1,he2,…,hen),其中文本中任意一个单词位置hei对应的隐特征向量计算公式如下:
Figure BDA0003537967090000031
式中,he1,he2,…,hen表示文本中所有位置对应的隐特征向量;
Figure BDA0003537967090000032
表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的隐特征向量hei-1;同样的,
Figure BDA0003537967090000033
表示前向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的隐特征向量hei+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量hei
对于计算文本序列S中第i个Token:wi属于标识l的条件概率分布p(wi=l|S)的计算公式如下:
φ(l,wi)=Wx·FFNN(hei)
Figure BDA0003537967090000034
式中,he1,he2,…,hen均表示文本中所有位置对应的隐特征向量,其文本中任意一个位置的隐特征向量为hei;FFNN(hei)是指前馈神经网络FFNN以当前第i个Token:wi的位置隐特征向量hei作为输入;Wx为联合分布概率计算过程中的权重矩阵;exp()为以自然常数为底的指数函数;标识l是指当前判断的标识,其属于B、I、O、E标识中的任意一类;标识l′的含义是泛指的标识,其属于标识B、I、O、E中的任意一类;
S2.1.4、根据边界预测模块输出的文本中个单词的标识信息,边界预测模块通过由表示一个实体开始位置的标识B和表示一个实体结束位置的标识E,进一步确定潜在的实体集合Se
进一步地,所述步骤S2.2的具体内容为:
S2.2.1、将隐特征向量序列Mhe和原始输入序列Me针对每个Token进行Concat操作得到上下文特征序列Mhr=(hr1,hr2,…,hrn);
式中,hr1,hr2,…,hrn与原始输入序列Me中的e1,e2,…en一一对应,即hr1表示第1个元素e1的上下文向量,hr2表示第2个元素e2的上下文向量,hrn表示第n个元素en的上下文向量;其中e1,e2,…en中任意一个元素ei对应的上下文向量为hri
Figure BDA0003537967090000035
式中,
Figure BDA0003537967090000036
表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的上下文向量hri-1;同样的,
Figure BDA0003537967090000037
表示前向LSTM模型的计算结果,该前向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的上下文向量hri+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的上下文向量hri
S2.2.2、对于实体集合Se中的每个实体,从上下文特征序列Mhr中提取出对应的hri,并通过两个不同的线性映射将对应的hri映射为
Figure BDA0003537967090000041
向量,即每个Token被重新映射到表示头Token的空间和尾Token的空间当中;并将分类标识为B的Token以及分类标识为E 的Token所对应的上下文隐向量
Figure BDA0003537967090000042
作为整个实体集合Se的特征,通过线性组合输入到用于构建实体分类的模型当中,最终输出实体集合Se中的各实体针对不同类型的概率 p(rk|wi,wj);并通过设置阈值,使实体针对某一类型概率高于阈值,则将该类型作为对应实体的最终类型;同时计算每种类型最终作为输出结果的概率p(rk (i,j)|wi,wj);
其中:
Mi head=Whhri+bh
Mi tail=Wthri+bt
i∈[1,N]
式中,Wh和Wt分别为两个线性映射的权重矩阵,bh和bt分别为两个线性映射的偏置, i代表Token的位置,其处于1到序列最大长度N的区间内;
其中:
Figure BDA0003537967090000043
Figure BDA0003537967090000044
式中,wi是指文本序列S中第i个单词,wj是指文本序列S中第j个单词,p(rk|wi,wj)表示以wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签的条件概率, p(rk (i,j)|wi,wj)表示wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签作为输出结果的概率;sk(i,j)代表区间[i,j]的实体属于第k类实体标签的分数,且具体计算公式为:sk(i,j)=wk(tanh(Mi head+Mj tail))i,j∈[1,N];k∈[1,M],式中, N表示序列最大长度的区间,M代表实体类型的数量,wk对应第k类实体的权重矩阵,tanh() 指双曲正切函数;k是指当前判断的实体类型,其属于[1,M]中的任意一类,k′的含义是泛指的实体类型,其属于[1,M]中的任意一类。
进一步地,所述步骤S2.3的具体内容为:
S2.3.1、分别计算边界预测模块的损失Lbd和实体分类模块的损失Lec,并求和作为整个嵌套命名实体识别框架模型的损失
Figure BDA0003537967090000051
其中:
Figure BDA0003537967090000052
Figure BDA0003537967090000053
Figure BDA0003537967090000054
式中,
Figure BDA0003537967090000055
用于判断标签l是否为真实标签,为真则输出1,否则输出-1;
Figure BDA0003537967090000056
用于判断当前实体的类型是否分类正确,分类正确则输出1否则输出0;
S2.3.2、基于模型的损失
Figure BDA0003537967090000057
通过反向传播更新嵌套命名实体识别框架模型进行优化。
进一步地,重复步骤S2.1.2-步骤S2.3.2,对嵌套命名实体识别框架模型进行多轮训练并保留多轮训练后的最优模型并保存。
进一步地,所述训练集文本与测试集文本的数量比例为:4:1。
本发明的有益效果是:
1、该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
2、本申请方案可以计算文本中各单词的的标识信息,以此寻找到文本内容中的潜在实体;同时还可以通过一系列的公式计算求得各实体的所述实体类型;因此可以提供更加准确、丰富的实体识别信息。
3、本申请方案可以通过计算边界预测模块的损失Lbd和实体分类模块的损失Lec,并求和作为整个嵌套命名实体识别框架模型的损失,以此进行优化,进而使对实体的识别更加准确。
附图说明
图1是本发明对文本实体进行识别的整体流程示意图。
图2是本发明嵌套命名实体识别框架模型进行实体识别的流程示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
参考图1-图2。本申请的主要方案如下:
一种基于关系分类与序列标注的嵌套命名实体识别方法,包括以下步骤:
步骤一、确定进行嵌套命名实体识别任务的非结构化医疗文本,并按4:1的比例进行分割,构建训练集文本和测试集文本;
步骤二、构建基于关系分类与序列标注的嵌套命名实体识别框架;
步骤三、模型训练阶段,对模型参数进行训练优化;
步骤四、模型推理阶段:1、将测试集文本作为输入,加载训练阶段记录的模型文件,送到训练好的基于关系分类与序列标注的嵌套命名实体识别框架中。2、利用框架模型进行计算,将测试集中分类概率超过阈值的实体进行输出。
其中,步骤三的具体内容包括:
步骤1、将训练集文本作为输入,送到基于关系分类与序列标注的嵌套命名实体识别框架中。其中训练集文本包含以下部分,即原始文本序列S=(w1,w2,…wn)以及文中的标注实体集合Le=(p1,p2,…,pm),其中pi为第i个标注实体的头Token和尾Token组成的二元组<wi_head,wi_tail>。
步骤2、文本首先通过内容输入模块,被映射为文本最原始的输入序列Me=(e1,e2,…en),其中Me中每个元素ei被称为wi的嵌入向量,通常ei分布在一个d维的向量空间,即ei∈Rd。同时按照标注实体集合对文本进行BIOE形式的标注,得到BIOE标注序列Preal=(preal,1,preal,2,…,preal,n),其中每个标注都属于BIOE的标签集合Lb。例如preal,1指对第一个单词做出的标注,标注的内容可能为B、I、O、E;Lb是一个集合,里面的内容是只有四种,即B、I、O、E。
步骤3、映射得到的原始输入序列Me被送入边界预测模块,通过Bi-LSTM计算输出文本中隐特征向量序列Mhe=(he1,he2,…,hen),其中每个位置对应的隐特征向量计算公式如下:
Figure BDA0003537967090000061
其中
Figure BDA0003537967090000062
表示后向LSTM模型的计算结果,该模型输入为当前第i个位置的嵌入向量ei以及上一个元素的隐特征向量hei-1。同样的,
Figure BDA0003537967090000063
表示前向LSTM模型的计算结果,该模型输入为当前第i个位置的嵌入向量ei以及后一个元素的隐特征向量hei+1。最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量hei
然后通过前馈神经网络FFNN(hei)以当前第i个位置的隐特征向量hei作为输入,计算每个Token与BIOE标识集合Lb中的标签l联合概率分布
Figure BDA0003537967090000064
其中Wx为联合分布概率计算过程中的权重矩阵,文本序列S中第i个的Token属于BIOE标识l的条件概率分布p(wi=l|S) 可以表示为以下形式,其中exp为以自然常数为底的指数函数,取条件概率最高BIOE标签作为当前位置的输出,即边界预测模块的输出。
φ(l,wi)=Wx·FFNN(hei)
Figure BDA0003537967090000071
其中,
Figure BDA0003537967090000072
是指计算当前单词wi其标注为l的概率,如果l=B即代表当前单词被标注为B的概率。公式中的分母部分标识当前单词wi属于各标签的“概率”求和,然后再在分子部分计算在wi被标注为l的的条件下的"概率"值,然后分子分母相除,得到条件概率;取条件概率最高的那种标注作为当前位置的输出,比如B;l和l′都是代表B、I、O、E中的一种,但是由于公式的分母部分需进行求和,故做了区分。
步骤4、隐特征向量序列Mhe和原始输入序列Me针对每个Token进行Concat操作得到上下文特征序列Mhr=(hr1,hr2,…,hrn),并以其为Bi-LSTM模型的输入重新提取特征,其中第 i个元素对应的上下文向量为hri
Figure BDA0003537967090000073
步骤5、边界预测模块输出的标识B代表一个实体的起始位置,E代表一个实体的结束位置,故根据边界预测模块的输出能够确定潜在的实体集合Se
步骤6、对于实体集合Se中的每个实体Ei,从Mhr中提取出hri,通过两个不同的线性映射为
Figure BDA0003537967090000074
向量,即每个Token被重新映射到表示头Token的空间和尾Token的空间当中,其中Wh和Wt分别为两个线性映射的权重矩阵,bh和bt分别为两个线性映射的偏置,i代表Token的位置,处于1到序列最大长度N的区间内。
Mi head=Whhri+bh
Mi tail=Wthri+bt
i∈[1,N]
以分类表示为B的Token与分类表示为E的Token的上下文隐向量
Figure BDA0003537967090000075
作为整个实体的特征,通过线性组合输入到构建实体分类模块的注意力模型中,最终输出各实体针对不同类型的概率。并对概率排序,并设定阈值,高于阈值的类型作为最终的实体类型输出,其中sk(i,j)代表区间[i,j]的实体属于第k类实体标签的分数,wk对应第k类实体的权重矩阵,M代表实体类型数量,tanh指双曲正切函数。
Figure BDA0003537967090000081
i,j∈[1,N];k∈[1,M]
p(rk|wi,wj)代表wi以及wj作为头尾Token的实体属于第k类实体标签的条件概率,
Figure BDA0003537967090000082
代表wi以及wj作为头尾Token的实体以第k类实体标签进行输出的概率。
Figure BDA0003537967090000083
Figure BDA0003537967090000084
步骤7、分别计算边界预测模块的损失Lbd和实体分类模块的损失Lec,并求和作为整个模型的损失:
Figure BDA0003537967090000085
其中Lbd为采用负对数似然函数作为损失,其中
Figure BDA0003537967090000086
用于判断标签l是否为真实标签preal,i,为真则输出1,否则输出-1。
Figure BDA0003537967090000087
用于判断当前实体是否分类正确,分类正确则输出1否则输出0。
Figure BDA0003537967090000088
Figure BDA0003537967090000089
步骤8、基于自适应矩估计算法最小化模型损失,并通过反向传播更新模型参数。
步骤9、多次重复步骤2到步骤8整个过程,对模型进行多轮训练保留多轮训练后的最优模型,作为文件进行保存。
其中,步骤二中框架构建过程包括如下步骤:
步骤1、构建内容输入模块:1、确定命名实体类型,并对非结构化医疗文本进行BIOE 形式的序列标注,并确定输入文本最大长度等其他特殊约束;2、针对中文词表中所有的字,基于在大规模数据集上进行预训练的BERT模型进行字向量采集,采集的字向量以文件形式进行存储;3、对标注文本内容进行字向量映射,并作为本模块内容进行输出。
步骤2、构建边界预测模块:1、初始化一个双向长时记忆网络(Bi-LSTM)作为特征提取网络2、初始化一个前馈神经网络(FFNN)用于接收本模块Bi-LSTM模型的输出,并输出句子中每个Token的序列标注类型。
步骤3、构建实体分类模块:1、初始化一个双向长时记忆网络(Bi-LSTM)作为目标短语特征提取网络。2、初始化两个前馈神经网络作为短语特征的映射网络,用于将头尾Token 的特征映射到两个空间中,最终通过线性求和来构造目标短语特征。3、为每个命名实体类型初始化一个注意力网络Ak,用于接收目标短语的特征,并计算该组目标短语属于当前实体类型的概率。
步骤4、框架进行整体组合。1、对于边界构建模块与实体分类模块,两者通过边界预测模块的Bi-LSTM输出的隐特征向量序列Mh相连结,即作为边界预测模块输出的H,作为实体分类模块的输入将两个模块进行组合。2、对于内容输入模块和其他模块,内容输入模块的输出,即文本原始向量映射序列Me,作为其他模块的输入将内容输入模块与其他模块进行组合。
另外,对文中的一些概念进行补充,实体的概念:是指文本中具有特定意义的实体,例如人名、地名、机构等;token的概念即单词的概念;BIOE标注:即包含有B、I、O、E四种标识的标注方式;实体的类型有很多,例如人名、地名、机构名都属于不同的类型。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (6)

1.一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,包括以下步骤:
S1、确定需要进行嵌套命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本,基于关系分类与序列标注的嵌套命名实体识别框架模型对训练集文本内容中的潜在实体进行识别训练,并对嵌套命名实体识别框架模型进行优化;具体包括:
S2.1、通过训练集寻找潜在的实体集合Se
S2.2、确定实体集合Se中各个实体的类型;
S2.3、对嵌套命名实体识别框架模型进行优化;
S3、将测试集文本作为嵌套命名实体识别框架模型的输入,送入训练优化后的嵌套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果。
2.根据权利要求1所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述步骤S2.1的具体内容为:
S2.1.1、将训练集文本作为输入,送到嵌套命名实体识别框架模型中;其中所述训练集文本包括:原始文本序列S=(w1,w2,…wn),以及文本中的实体集合Le=(p1,p2,…,pm);
式中,w1,w2,…wn中均表示为文本中的各个单词,也即表示为文本中的各个token;p1,p2,…,pm分别表示为各个实体,其中包含有对应实体所在的位置信息,即Le中的任意一个实体pi,其包含有一个二元组<wi_head,wi_tail>,wi_head表示第i个实体pi的开始位置单词,wi_tail表示第i个实体pi的结束位置单词,以一个单词作为开始位置,以另外一个单词作为结束位置进而组合成的第i个实体pi,其中开始位置的单词记为头Token,结束位置的单词记为尾Token;
S2.1.2、训练集文本输入至嵌套命名实体识别框架模型的内容输入模块中,将原始文本序列S映射为原始输入序列Me=(e1,e2,…en),同时根据实体集合Le对其中实体的各个单词进行BIOE形式标注,使得每个实体中的每个单词均有对应的标识,其中任意一个单词的标识都属于标签集合Lb
式中,e1,e2,…en中的每一个元素均与w1,w2,…wn相对应,e1表示为w1的嵌入向量,e2表示为w2的嵌入向量,en表示为wn的嵌入向量;标签集合Lb包含标识B、I、O、E中的所有类型;
S2.1.3、将原始输入序列Me送入到嵌套命名实体识别框架模型的边界预测模块中,通过Bi-LSTM模型计算输出文本中隐特征向量序列Mhe=(he1,he2,…,hen),然后通过前馈神经网络FFNN以文本序列S中当前第i个token:wi的位置隐特征向量hei作为输入,计算文本内容中每个Token与标签集合Lb中的标识l联合概率分布
Figure FDA0003537967080000011
以及计算文本序列S中第i个Token:wi属于标识l的条件概率分布p(wi=l|S);然后取条件概率最高的标识作为当前位置单词标识的输出,以此边界预测模块输出文本中所有各单词位置的标识信息;其中:
对于隐特征向量序列Mhe=(he1,he2,…,hen),其中文本中任意一个单词位置hei对应的隐特征向量计算公式如下:
Figure FDA0003537967080000021
式中,he1,he2,…,hen表示文本中所有位置对应的隐特征向量;
Figure FDA0003537967080000022
表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的隐特征向量hei-1;同样的,
Figure FDA0003537967080000023
表示前向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的隐特征向量hei+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量hei
对于计算文本序列S中第i个Token:wi属于标识l的条件概率分布p(wi=l|S)的计算公式如下:
φ(l,wi)=Wx·FFNN(hei)
Figure FDA0003537967080000024
式中,he1,he2,…,hen均表示文本中所有位置对应的隐特征向量,其文本中任意一个位置的隐特征向量为hei;FFNN(hei)是指前馈神经网络FFNN以当前第i个Token:wi的位置隐特征向量hei作为输入;Wx为联合分布概率计算过程中的权重矩阵;exp()为以自然常数为底的指数函数;标识l是指当前判断的标识,其属于B、I、O、E标识中的任意一类;标识l的含义是泛指的标识,其属于标识B、I、O、E中的任意一类;
S2.1.4、根据边界预测模块输出的文本中个单词的标识信息,边界预测模块通过由表示一个实体开始位置的标识B和表示一个实体结束位置的标识E,进一步确定潜在的实体集合Se
3.根据权利要求2所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述步骤S2.2的具体内容为:
S2.2.1、将隐特征向量序列Mhe和原始输入序列Me针对每个Token进行Concat操作得到上下文特征序列Mhr=(hr1,hr2,…,hrn);
式中,hr1,hr2,…,hrn与原始输入序列Me中的e1,e2,…en一一对应,即hr1表示第1个元素e1的上下文向量,hr2表示第2个元素e2的上下文向量,hrn表示第n个元素en的上下文向量;其中e1,e2,…en中任意一个元素ei对应的上下文向量为hri
Figure FDA0003537967080000025
式中,
Figure FDA0003537967080000031
表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的上下文向量hri-1;同样的,
Figure FDA0003537967080000032
表示前向LSTM模型的计算结果,该前向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的上下文向量hri+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的上下文向量hri
S2.2.2、对于实体集合Se中的每个实体,从上下文特征序列Mhr中提取出对应的hri,并通过两个不同的线性映射将对应的hri映射为
Figure FDA0003537967080000033
向量,即每个Token被重新映射到表示头Token的空间和尾Token的空间当中;并将分类标识为B的Token以及分类标识为E的Token所对应的上下文隐向量
Figure FDA0003537967080000034
作为整个实体集合Se的特征,通过线性组合输入到用于构建实体分类的模型当中,最终输出实体集合Se中的各实体针对不同类型的概率p(rk|wi,wj);并通过设置阈值,使实体针对某一类型概率高于阈值,则将该类型作为对应实体的最终类型;同时计算每种类型最终作为输出结果的概率
Figure FDA0003537967080000035
其中:
Figure FDA0003537967080000036
Figure FDA0003537967080000037
式中,Wh和Wt分别为两个线性映射的权重矩阵,bh和bt分别为两个线性映射的偏置,i代表Token的位置,其处于1到序列最大长度N的区间内;
其中:
Figure FDA0003537967080000038
Figure FDA0003537967080000039
式中,wi是指文本序列S中第i个单词,wj是指文本序列S中第j个单词,p(rk|wi,wj)表示以wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签的条件概率,p(rk (i,j)|wi,wj)表示wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签作为输出结果的概率;sk(i,j)代表区间[i,j]的实体属于第k类实体标签的分数,且具体计算公式为:
Figure FDA0003537967080000041
式中,N表示序列最大长度的区间,M代表实体类型的数量,wk对应第k类实体的权重矩阵,tanh()指双曲正切函数;k是指当前判断的实体类型,其属于[1,M]中的任意一类,k′的含义是泛指的实体类型,其属于[1,M]中的任意一类。
4.根据权利要求3所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述步骤S2.3的具体内容为:
S2.3.1、分别计算边界预测模块的损失Lbd和实体分类模块的损失Lec,并求和作为整个嵌套命名实体识别框架模型的损失
Figure FDA0003537967080000042
其中:
Figure FDA0003537967080000043
Figure FDA0003537967080000044
Figure FDA0003537967080000045
式中,
Figure FDA0003537967080000046
用于判断标签l是否为真实标签,为真则输出1,否则输出-1;
Figure FDA0003537967080000047
用于判断当前实体的类型是否分类正确,分类正确则输出1否则输出0;
S2.3.2、基于模型的损失
Figure FDA0003537967080000048
通过反向传播更新嵌套命名实体识别框架模型进行优化。
5.根据权利要求4所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,重复步骤S2.1.2-步骤S2.3.2,对嵌套命名实体识别框架模型进行多轮训练并保留多轮训练后的最优模型并保存。
6.根据权利要求1所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述训练集文本与测试集文本的数量比例为:4:1。
CN202210229940.2A 2022-03-09 2022-03-09 一种基于关系分类与序列标注的嵌套命名实体识别方法 Active CN114692636B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210229940.2A CN114692636B (zh) 2022-03-09 2022-03-09 一种基于关系分类与序列标注的嵌套命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210229940.2A CN114692636B (zh) 2022-03-09 2022-03-09 一种基于关系分类与序列标注的嵌套命名实体识别方法

Publications (2)

Publication Number Publication Date
CN114692636A true CN114692636A (zh) 2022-07-01
CN114692636B CN114692636B (zh) 2023-11-03

Family

ID=82137437

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210229940.2A Active CN114692636B (zh) 2022-03-09 2022-03-09 一种基于关系分类与序列标注的嵌套命名实体识别方法

Country Status (1)

Country Link
CN (1) CN114692636B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737924A (zh) * 2023-04-27 2023-09-12 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017265144A1 (en) * 2016-12-02 2018-06-21 Encompass Corporation Pty Ltd Information retrieval
CN111160032A (zh) * 2019-12-17 2020-05-15 浙江大华技术股份有限公司 一种命名实体提取方法、装置、电子设备及存储介质
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质
CN112487820A (zh) * 2021-02-05 2021-03-12 南京邮电大学 一种中文医疗命名实体识别方法
CN113656544A (zh) * 2021-08-11 2021-11-16 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN113723103A (zh) * 2021-08-26 2021-11-30 北京理工大学 融合多源知识的中文医学命名实体和词性联合学习方法
CN113948217A (zh) * 2021-11-23 2022-01-18 重庆邮电大学 一种基于局部特征整合的医学嵌套命名实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017265144A1 (en) * 2016-12-02 2018-06-21 Encompass Corporation Pty Ltd Information retrieval
CN111160032A (zh) * 2019-12-17 2020-05-15 浙江大华技术股份有限公司 一种命名实体提取方法、装置、电子设备及存储介质
CN111274412A (zh) * 2020-01-22 2020-06-12 腾讯科技(深圳)有限公司 信息提取方法、信息提取模型训练方法、装置及存储介质
CN112487820A (zh) * 2021-02-05 2021-03-12 南京邮电大学 一种中文医疗命名实体识别方法
CN113656544A (zh) * 2021-08-11 2021-11-16 云知声智能科技股份有限公司 嵌套命名实体识别模型的训练方法、装置、设备和介质
CN113723103A (zh) * 2021-08-26 2021-11-30 北京理工大学 融合多源知识的中文医学命名实体和词性联合学习方法
CN113948217A (zh) * 2021-11-23 2022-01-18 重庆邮电大学 一种基于局部特征整合的医学嵌套命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHUKAI LIAO 等: "A Route-aware Model for Entity Recognition with Diverse Structures", 《PROCEEDINGS OF THE 2021 7TH INTERNATIONAL CONFERENCE ON COMPUTING AND ARTIFICIAL INTELLIGENCE》, pages 372 - 378 *
张飞宇 等, 《山西大学学报(自然科学版)》, vol. 45, no. 4, pages 924 - 935 *
西洋樱草X: "论文笔记 Bipartite Flat-Graph Network for Nested Named Entity Recognition | ACL2020", pages 1 - 17, Retrieved from the Internet <URL:《nlog.csdn.net/weixin_41297561/article/details/108540507》> *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737924A (zh) * 2023-04-27 2023-09-12 百洋智能科技集团股份有限公司 一种医疗文本数据处理方法及装置

Also Published As

Publication number Publication date
CN114692636B (zh) 2023-11-03

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN110457675B (zh) 预测模型训练方法、装置、存储介质及计算机设备
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN112364174A (zh) 基于知识图谱的病人病历相似度评估方法及系统
CN109710925A (zh) 命名实体识别方法及装置
CN111400455A (zh) 基于知识图谱的问答系统的关系检测方法
CN112015868A (zh) 基于知识图谱补全的问答方法
CN112699685B (zh) 基于标签引导的字词融合的命名实体识别方法
CN111858896B (zh) 一种基于深度学习的知识库问答方法
CN108959305A (zh) 一种基于互联网大数据的事件抽取方法及系统
CN111274804A (zh) 基于命名实体识别的案件信息提取方法
CN110569506A (zh) 一种基于医疗词典的医疗命名实体识别方法
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
CN113377897A (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN112199532A (zh) 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置
CN111860193B (zh) 一种基于文本的行人检索自监督视觉表示学习系统及方法
CN112612871A (zh) 一种基于序列生成模型的多事件检测方法
CN110210035B (zh) 序列标注方法、装置及序列标注模型的训练方法
CN111159345A (zh) 一种中文知识库答案获取方法及其装置
CN111222330A (zh) 一种中文事件的检测方法和系统
CN110751234A (zh) Ocr识别纠错方法、装置及设备
CN111428505B (zh) 一种融合触发词识别特征的实体关系抽取方法
CN114417874B (zh) 一种基于图注意力网络的中文命名实体识别方法和系统
CN114692636A (zh) 一种基于关系分类与序列标注的嵌套命名实体识别方法
CN112699684B (zh) 命名实体识别方法和装置、计算机可读存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant