CN114692636A - 一种基于关系分类与序列标注的嵌套命名实体识别方法 - Google Patents
一种基于关系分类与序列标注的嵌套命名实体识别方法 Download PDFInfo
- Publication number
- CN114692636A CN114692636A CN202210229940.2A CN202210229940A CN114692636A CN 114692636 A CN114692636 A CN 114692636A CN 202210229940 A CN202210229940 A CN 202210229940A CN 114692636 A CN114692636 A CN 114692636A
- Authority
- CN
- China
- Prior art keywords
- entity
- text
- sequence
- token
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000002372 labelling Methods 0.000 title claims abstract description 15
- 239000013598 vector Substances 0.000 claims description 77
- 238000012549 training Methods 0.000 claims description 33
- 238000013507 mapping Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 13
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- PXUQTDZNOHRWLI-OXUVVOBNSA-O malvidin 3-O-beta-D-glucoside Chemical compound COC1=C(O)C(OC)=CC(C=2C(=CC=3C(O)=CC(O)=CC=3[O+]=2)O[C@H]2[C@@H]([C@@H](O)[C@H](O)[C@@H](CO)O2)O)=C1 PXUQTDZNOHRWLI-OXUVVOBNSA-O 0.000 claims description 2
- FESBVLZDDCQLFY-UHFFFAOYSA-N sete Chemical compound [Te]=[Se] FESBVLZDDCQLFY-UHFFFAOYSA-N 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims 1
- 238000000605 extraction Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于关系分类与序列标注的嵌套命名实体识别方法;通过综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告;该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
Description
技术领域
本发明涉及人工智能和医疗电子信息技术的交叉技术领域,特别涉及一种基于关系分类与序列标注的嵌套命名实体识别方法。
背景技术
随着医疗健康服务不断朝着智能化方向发展,机器学习在医疗领域的应用开始成为人工智能时代的研究热点之一。非结构化医疗文档是放射科医生对影像表现的描述与总结,蕴含大量对病灶的描述。从非结构化医疗文本中提取这些重要信息,能够更好地服务于临床决策、数据挖掘等各类临床信息系统,从而减轻专业医师的工作量。目前计算机难以从这些不规则的非结构化医疗文本数据中直接提取有价值的信息,从而无法利用ElasticSearch等搜索引擎进一步对数据进行挖掘分析。因此,如何从医学影像报告中自动、高效地提取所需信息,形成结构化的数据,并建立文本描述和影像病灶的关联,是目前智能医疗服务进程中的重要挑战之一。
嵌套实体识别是实体命名识别中一个子问题,使用CRF等传统标注方法无法对嵌套实体进行区分,因此存在一定的局限性。
本发明提供了一种基于关系分类与序列标注的嵌套命名实体识别方法。该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
发明内容
本发明针对现有技术中的不足,提供一种基于关系分类与序列标注的嵌套命名实体识别方法;本申请综合使用自然语言处理技术、规则引擎对非结构化的医疗病历、体检报告进行信息抽取,生成结构化结果报告。该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
为实现上述目的,本发明采用以下技术方案:
一种基于关系分类与序列标注的嵌套命名实体识别方法,包括以下步骤:
S1、确定需要进行嵌套命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本,基于关系分类与序列标注的嵌套命名实体识别框架模型对训练集文本内容中的潜在实体进行识别训练,并对嵌套命名实体识别框架模型进行优化;具体包括:
S2.1、通过训练集寻找潜在的实体集合Se;
S2.2、确定实体集合Se中各个实体的类型;
S2.3、对嵌套命名实体识别框架模型进行优化;
S3、将测试集文本作为嵌套命名实体识别框架模型的输入,送入训练优化后的嵌套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果。
为优化上述技术方案,采取的具体措施还包括:
进一步地,所述步骤S2.1的具体内容为:
S2.1.1、将训练集文本作为输入,送到嵌套命名实体识别框架模型中;其中所述训练集文本包括:原始文本序列S=(w1,w2,…wn),以及文本中的实体集合Le=(p1,p2,…,pm);
式中,w1,w2,…wn中均表示为文本中的各个单词,也即表示为文本中的各个token;p1,p2,…,pm分别表示为各个实体,其中包含有对应实体所在的位置信息,即Le中的任意一个实体pi,其包含有一个二元组<wi_head,wi_tail>,wi_head表示第i个实体pi的开始位置单词,wi_tail表示第i个实体pi的结束位置单词,以一个单词作为开始位置,以另外一个单词作为结束位置进而组合成的第i个实体pi,其中开始位置的单词记为头Token,结束位置的单词记为尾Token;
S2.1.2、训练集文本输入至嵌套命名实体识别框架模型的内容输入模块中,将原始文本序列S映射为原始输入序列Me=(e1,e2,…en),同时根据实体集合Le对其中实体的各个单词进行BIOE形式标注,使得每个实体中的每个单词均有对应的标识,其中任意一个单词的标识都属于标签集合Lb;
式中,e1,e2,…en中的每一个元素均与w1,w2,…wn相对应,e1表示为w1的嵌入向量,e2表示为w2的嵌入向量,en表示为wn的嵌入向量;标签集合Lb包含标识B、I、O、E中的所有类型;
S2.1.3、将原始输入序列Me送入到嵌套命名实体识别框架模型的边界预测模块中,通过 Bi-LSTM模型计算输出文本中隐特征向量序列Mhe=(he1,he2,…,hen),然后通过前馈神经网络FFNN以文本序列S中当前第i个token:wi的位置隐特征向量hei作为输入,计算文本内容中每个Token与标签集合Lb中的标识l联合概率分布以及计算文本序列S中第i个 Token:wi属于标识l的条件概率分布p(wi=l|S);然后取条件概率最高的标识作为当前位置单词标识的输出,以此边界预测模块输出文本中所有各单词位置的标识信息;其中:
对于隐特征向量序列Mhe=(he1,he2,…,hen),其中文本中任意一个单词位置hei对应的隐特征向量计算公式如下:
式中,he1,he2,…,hen表示文本中所有位置对应的隐特征向量;表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的隐特征向量hei-1;同样的,表示前向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的隐特征向量hei+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量hei;
对于计算文本序列S中第i个Token:wi属于标识l的条件概率分布p(wi=l|S)的计算公式如下:
φ(l,wi)=Wx·FFNN(hei)
式中,he1,he2,…,hen均表示文本中所有位置对应的隐特征向量,其文本中任意一个位置的隐特征向量为hei;FFNN(hei)是指前馈神经网络FFNN以当前第i个Token:wi的位置隐特征向量hei作为输入;Wx为联合分布概率计算过程中的权重矩阵;exp()为以自然常数为底的指数函数;标识l是指当前判断的标识,其属于B、I、O、E标识中的任意一类;标识l′的含义是泛指的标识,其属于标识B、I、O、E中的任意一类;
S2.1.4、根据边界预测模块输出的文本中个单词的标识信息,边界预测模块通过由表示一个实体开始位置的标识B和表示一个实体结束位置的标识E,进一步确定潜在的实体集合Se。
进一步地,所述步骤S2.2的具体内容为:
S2.2.1、将隐特征向量序列Mhe和原始输入序列Me针对每个Token进行Concat操作得到上下文特征序列Mhr=(hr1,hr2,…,hrn);
式中,hr1,hr2,…,hrn与原始输入序列Me中的e1,e2,…en一一对应,即hr1表示第1个元素e1的上下文向量,hr2表示第2个元素e2的上下文向量,hrn表示第n个元素en的上下文向量;其中e1,e2,…en中任意一个元素ei对应的上下文向量为hri:
式中,表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的上下文向量hri-1;同样的,表示前向LSTM模型的计算结果,该前向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的上下文向量hri+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的上下文向量hri;
S2.2.2、对于实体集合Se中的每个实体,从上下文特征序列Mhr中提取出对应的hri,并通过两个不同的线性映射将对应的hri映射为向量,即每个Token被重新映射到表示头Token的空间和尾Token的空间当中;并将分类标识为B的Token以及分类标识为E 的Token所对应的上下文隐向量作为整个实体集合Se的特征,通过线性组合输入到用于构建实体分类的模型当中,最终输出实体集合Se中的各实体针对不同类型的概率 p(rk|wi,wj);并通过设置阈值,使实体针对某一类型概率高于阈值,则将该类型作为对应实体的最终类型;同时计算每种类型最终作为输出结果的概率p(rk (i,j)|wi,wj);
其中:
Mi head=Whhri+bh
Mi tail=Wthri+bt
i∈[1,N]
式中,Wh和Wt分别为两个线性映射的权重矩阵,bh和bt分别为两个线性映射的偏置, i代表Token的位置,其处于1到序列最大长度N的区间内;
其中:
式中,wi是指文本序列S中第i个单词,wj是指文本序列S中第j个单词,p(rk|wi,wj)表示以wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签的条件概率, p(rk (i,j)|wi,wj)表示wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签作为输出结果的概率;sk(i,j)代表区间[i,j]的实体属于第k类实体标签的分数,且具体计算公式为:sk(i,j)=wk(tanh(Mi head+Mj tail))i,j∈[1,N];k∈[1,M],式中, N表示序列最大长度的区间,M代表实体类型的数量,wk对应第k类实体的权重矩阵,tanh() 指双曲正切函数;k是指当前判断的实体类型,其属于[1,M]中的任意一类,k′的含义是泛指的实体类型,其属于[1,M]中的任意一类。
进一步地,所述步骤S2.3的具体内容为:
进一步地,重复步骤S2.1.2-步骤S2.3.2,对嵌套命名实体识别框架模型进行多轮训练并保留多轮训练后的最优模型并保存。
进一步地,所述训练集文本与测试集文本的数量比例为:4:1。
本发明的有益效果是:
1、该发明提高了医务人员解读非结构化文本病历、报告的效率,通过解决信息抽取过程中嵌套实体命名识别的痛点问题,帮助进行高级医疗决策支持。
2、本申请方案可以计算文本中各单词的的标识信息,以此寻找到文本内容中的潜在实体;同时还可以通过一系列的公式计算求得各实体的所述实体类型;因此可以提供更加准确、丰富的实体识别信息。
3、本申请方案可以通过计算边界预测模块的损失Lbd和实体分类模块的损失Lec,并求和作为整个嵌套命名实体识别框架模型的损失,以此进行优化,进而使对实体的识别更加准确。
附图说明
图1是本发明对文本实体进行识别的整体流程示意图。
图2是本发明嵌套命名实体识别框架模型进行实体识别的流程示意图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。
参考图1-图2。本申请的主要方案如下:
一种基于关系分类与序列标注的嵌套命名实体识别方法,包括以下步骤:
步骤一、确定进行嵌套命名实体识别任务的非结构化医疗文本,并按4:1的比例进行分割,构建训练集文本和测试集文本;
步骤二、构建基于关系分类与序列标注的嵌套命名实体识别框架;
步骤三、模型训练阶段,对模型参数进行训练优化;
步骤四、模型推理阶段:1、将测试集文本作为输入,加载训练阶段记录的模型文件,送到训练好的基于关系分类与序列标注的嵌套命名实体识别框架中。2、利用框架模型进行计算,将测试集中分类概率超过阈值的实体进行输出。
其中,步骤三的具体内容包括:
步骤1、将训练集文本作为输入,送到基于关系分类与序列标注的嵌套命名实体识别框架中。其中训练集文本包含以下部分,即原始文本序列S=(w1,w2,…wn)以及文中的标注实体集合Le=(p1,p2,…,pm),其中pi为第i个标注实体的头Token和尾Token组成的二元组<wi_head,wi_tail>。
步骤2、文本首先通过内容输入模块,被映射为文本最原始的输入序列Me=(e1,e2,…en),其中Me中每个元素ei被称为wi的嵌入向量,通常ei分布在一个d维的向量空间,即ei∈Rd。同时按照标注实体集合对文本进行BIOE形式的标注,得到BIOE标注序列Preal=(preal,1,preal,2,…,preal,n),其中每个标注都属于BIOE的标签集合Lb。例如preal,1指对第一个单词做出的标注,标注的内容可能为B、I、O、E;Lb是一个集合,里面的内容是只有四种,即B、I、O、E。
步骤3、映射得到的原始输入序列Me被送入边界预测模块,通过Bi-LSTM计算输出文本中隐特征向量序列Mhe=(he1,he2,…,hen),其中每个位置对应的隐特征向量计算公式如下:
其中表示后向LSTM模型的计算结果,该模型输入为当前第i个位置的嵌入向量ei以及上一个元素的隐特征向量hei-1。同样的,表示前向LSTM模型的计算结果,该模型输入为当前第i个位置的嵌入向量ei以及后一个元素的隐特征向量hei+1。最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量hei。
然后通过前馈神经网络FFNN(hei)以当前第i个位置的隐特征向量hei作为输入,计算每个Token与BIOE标识集合Lb中的标签l联合概率分布其中Wx为联合分布概率计算过程中的权重矩阵,文本序列S中第i个的Token属于BIOE标识l的条件概率分布p(wi=l|S) 可以表示为以下形式,其中exp为以自然常数为底的指数函数,取条件概率最高BIOE标签作为当前位置的输出,即边界预测模块的输出。
φ(l,wi)=Wx·FFNN(hei)
其中,是指计算当前单词wi其标注为l的概率,如果l=B即代表当前单词被标注为B的概率。公式中的分母部分标识当前单词wi属于各标签的“概率”求和,然后再在分子部分计算在wi被标注为l的的条件下的"概率"值,然后分子分母相除,得到条件概率;取条件概率最高的那种标注作为当前位置的输出,比如B;l和l′都是代表B、I、O、E中的一种,但是由于公式的分母部分需进行求和,故做了区分。
步骤4、隐特征向量序列Mhe和原始输入序列Me针对每个Token进行Concat操作得到上下文特征序列Mhr=(hr1,hr2,…,hrn),并以其为Bi-LSTM模型的输入重新提取特征,其中第 i个元素对应的上下文向量为hri。
步骤5、边界预测模块输出的标识B代表一个实体的起始位置,E代表一个实体的结束位置,故根据边界预测模块的输出能够确定潜在的实体集合Se。
步骤6、对于实体集合Se中的每个实体Ei,从Mhr中提取出hri,通过两个不同的线性映射为向量,即每个Token被重新映射到表示头Token的空间和尾Token的空间当中,其中Wh和Wt分别为两个线性映射的权重矩阵,bh和bt分别为两个线性映射的偏置,i代表Token的位置,处于1到序列最大长度N的区间内。
Mi head=Whhri+bh
Mi tail=Wthri+bt
i∈[1,N]
以分类表示为B的Token与分类表示为E的Token的上下文隐向量作为整个实体的特征,通过线性组合输入到构建实体分类模块的注意力模型中,最终输出各实体针对不同类型的概率。并对概率排序,并设定阈值,高于阈值的类型作为最终的实体类型输出,其中sk(i,j)代表区间[i,j]的实体属于第k类实体标签的分数,wk对应第k类实体的权重矩阵,M代表实体类型数量,tanh指双曲正切函数。
i,j∈[1,N];k∈[1,M]
步骤7、分别计算边界预测模块的损失Lbd和实体分类模块的损失Lec,并求和作为整个模型的损失:
步骤8、基于自适应矩估计算法最小化模型损失,并通过反向传播更新模型参数。
步骤9、多次重复步骤2到步骤8整个过程,对模型进行多轮训练保留多轮训练后的最优模型,作为文件进行保存。
其中,步骤二中框架构建过程包括如下步骤:
步骤1、构建内容输入模块:1、确定命名实体类型,并对非结构化医疗文本进行BIOE 形式的序列标注,并确定输入文本最大长度等其他特殊约束;2、针对中文词表中所有的字,基于在大规模数据集上进行预训练的BERT模型进行字向量采集,采集的字向量以文件形式进行存储;3、对标注文本内容进行字向量映射,并作为本模块内容进行输出。
步骤2、构建边界预测模块:1、初始化一个双向长时记忆网络(Bi-LSTM)作为特征提取网络2、初始化一个前馈神经网络(FFNN)用于接收本模块Bi-LSTM模型的输出,并输出句子中每个Token的序列标注类型。
步骤3、构建实体分类模块:1、初始化一个双向长时记忆网络(Bi-LSTM)作为目标短语特征提取网络。2、初始化两个前馈神经网络作为短语特征的映射网络,用于将头尾Token 的特征映射到两个空间中,最终通过线性求和来构造目标短语特征。3、为每个命名实体类型初始化一个注意力网络Ak,用于接收目标短语的特征,并计算该组目标短语属于当前实体类型的概率。
步骤4、框架进行整体组合。1、对于边界构建模块与实体分类模块,两者通过边界预测模块的Bi-LSTM输出的隐特征向量序列Mh相连结,即作为边界预测模块输出的H,作为实体分类模块的输入将两个模块进行组合。2、对于内容输入模块和其他模块,内容输入模块的输出,即文本原始向量映射序列Me,作为其他模块的输入将内容输入模块与其他模块进行组合。
另外,对文中的一些概念进行补充,实体的概念:是指文本中具有特定意义的实体,例如人名、地名、机构等;token的概念即单词的概念;BIOE标注:即包含有B、I、O、E四种标识的标注方式;实体的类型有很多,例如人名、地名、机构名都属于不同的类型。
需要注意的是,发明中所引用的如“上”、“下”、“左”、“右”、“前”、“后”等的用语,亦仅为便于叙述的明了,而非用以限定本发明可实施的范围,其相对关系的改变或调整,在无实质变更技术内容下,当亦视为本发明可实施的范畴。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
Claims (6)
1.一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,包括以下步骤:
S1、确定需要进行嵌套命名实体识别任务的非结构化医疗文本,并分割为训练集文本和测试集文本;
S2、通过训练集文本,基于关系分类与序列标注的嵌套命名实体识别框架模型对训练集文本内容中的潜在实体进行识别训练,并对嵌套命名实体识别框架模型进行优化;具体包括:
S2.1、通过训练集寻找潜在的实体集合Se;
S2.2、确定实体集合Se中各个实体的类型;
S2.3、对嵌套命名实体识别框架模型进行优化;
S3、将测试集文本作为嵌套命名实体识别框架模型的输入,送入训练优化后的嵌套命名实体识别框架模型中进行计算得出测试集文本的实体识别结果。
2.根据权利要求1所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述步骤S2.1的具体内容为:
S2.1.1、将训练集文本作为输入,送到嵌套命名实体识别框架模型中;其中所述训练集文本包括:原始文本序列S=(w1,w2,…wn),以及文本中的实体集合Le=(p1,p2,…,pm);
式中,w1,w2,…wn中均表示为文本中的各个单词,也即表示为文本中的各个token;p1,p2,…,pm分别表示为各个实体,其中包含有对应实体所在的位置信息,即Le中的任意一个实体pi,其包含有一个二元组<wi_head,wi_tail>,wi_head表示第i个实体pi的开始位置单词,wi_tail表示第i个实体pi的结束位置单词,以一个单词作为开始位置,以另外一个单词作为结束位置进而组合成的第i个实体pi,其中开始位置的单词记为头Token,结束位置的单词记为尾Token;
S2.1.2、训练集文本输入至嵌套命名实体识别框架模型的内容输入模块中,将原始文本序列S映射为原始输入序列Me=(e1,e2,…en),同时根据实体集合Le对其中实体的各个单词进行BIOE形式标注,使得每个实体中的每个单词均有对应的标识,其中任意一个单词的标识都属于标签集合Lb;
式中,e1,e2,…en中的每一个元素均与w1,w2,…wn相对应,e1表示为w1的嵌入向量,e2表示为w2的嵌入向量,en表示为wn的嵌入向量;标签集合Lb包含标识B、I、O、E中的所有类型;
S2.1.3、将原始输入序列Me送入到嵌套命名实体识别框架模型的边界预测模块中,通过Bi-LSTM模型计算输出文本中隐特征向量序列Mhe=(he1,he2,…,hen),然后通过前馈神经网络FFNN以文本序列S中当前第i个token:wi的位置隐特征向量hei作为输入,计算文本内容中每个Token与标签集合Lb中的标识l联合概率分布以及计算文本序列S中第i个Token:wi属于标识l的条件概率分布p(wi=l|S);然后取条件概率最高的标识作为当前位置单词标识的输出,以此边界预测模块输出文本中所有各单词位置的标识信息;其中:
对于隐特征向量序列Mhe=(he1,he2,…,hen),其中文本中任意一个单词位置hei对应的隐特征向量计算公式如下:
式中,he1,he2,…,hen表示文本中所有位置对应的隐特征向量;表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的隐特征向量hei-1;同样的,表示前向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的隐特征向量hei+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的隐特征向量hei;
对于计算文本序列S中第i个Token:wi属于标识l的条件概率分布p(wi=l|S)的计算公式如下:
φ(l,wi)=Wx·FFNN(hei)
式中,he1,he2,…,hen均表示文本中所有位置对应的隐特征向量,其文本中任意一个位置的隐特征向量为hei;FFNN(hei)是指前馈神经网络FFNN以当前第i个Token:wi的位置隐特征向量hei作为输入;Wx为联合分布概率计算过程中的权重矩阵;exp()为以自然常数为底的指数函数;标识l是指当前判断的标识,其属于B、I、O、E标识中的任意一类;标识l′的含义是泛指的标识,其属于标识B、I、O、E中的任意一类;
S2.1.4、根据边界预测模块输出的文本中个单词的标识信息,边界预测模块通过由表示一个实体开始位置的标识B和表示一个实体结束位置的标识E,进一步确定潜在的实体集合Se。
3.根据权利要求2所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述步骤S2.2的具体内容为:
S2.2.1、将隐特征向量序列Mhe和原始输入序列Me针对每个Token进行Concat操作得到上下文特征序列Mhr=(hr1,hr2,…,hrn);
式中,hr1,hr2,…,hrn与原始输入序列Me中的e1,e2,…en一一对应,即hr1表示第1个元素e1的上下文向量,hr2表示第2个元素e2的上下文向量,hrn表示第n个元素en的上下文向量;其中e1,e2,…en中任意一个元素ei对应的上下文向量为hri:
式中,表示后向LSTM模型的计算结果,该后向LSTM模型输入为当前第i个位置的嵌入向量ei以及上一个元素ei-1的上下文向量hri-1;同样的,表示前向LSTM模型的计算结果,该前向LSTM模型输入为当前第i个位置的嵌入向量ei以及后一个元素ei+1的上下文向量hri+1;最后将两个模型的输入进行Concat操作进行连接,得到本位置的上下文向量hri;
S2.2.2、对于实体集合Se中的每个实体,从上下文特征序列Mhr中提取出对应的hri,并通过两个不同的线性映射将对应的hri映射为向量,即每个Token被重新映射到表示头Token的空间和尾Token的空间当中;并将分类标识为B的Token以及分类标识为E的Token所对应的上下文隐向量作为整个实体集合Se的特征,通过线性组合输入到用于构建实体分类的模型当中,最终输出实体集合Se中的各实体针对不同类型的概率p(rk|wi,wj);并通过设置阈值,使实体针对某一类型概率高于阈值,则将该类型作为对应实体的最终类型;同时计算每种类型最终作为输出结果的概率
其中:
式中,Wh和Wt分别为两个线性映射的权重矩阵,bh和bt分别为两个线性映射的偏置,i代表Token的位置,其处于1到序列最大长度N的区间内;
其中:
式中,wi是指文本序列S中第i个单词,wj是指文本序列S中第j个单词,p(rk|wi,wj)表示以wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签的条件概率,p(rk (i,j)|wi,wj)表示wi作为头Token以及将wj作为尾Token的实体属于第k类实体标签作为输出结果的概率;sk(i,j)代表区间[i,j]的实体属于第k类实体标签的分数,且具体计算公式为:式中,N表示序列最大长度的区间,M代表实体类型的数量,wk对应第k类实体的权重矩阵,tanh()指双曲正切函数;k是指当前判断的实体类型,其属于[1,M]中的任意一类,k′的含义是泛指的实体类型,其属于[1,M]中的任意一类。
5.根据权利要求4所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,重复步骤S2.1.2-步骤S2.3.2,对嵌套命名实体识别框架模型进行多轮训练并保留多轮训练后的最优模型并保存。
6.根据权利要求1所述的一种基于关系分类与序列标注的嵌套命名实体识别方法,其特征在于,所述训练集文本与测试集文本的数量比例为:4:1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229940.2A CN114692636B (zh) | 2022-03-09 | 2022-03-09 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210229940.2A CN114692636B (zh) | 2022-03-09 | 2022-03-09 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114692636A true CN114692636A (zh) | 2022-07-01 |
CN114692636B CN114692636B (zh) | 2023-11-03 |
Family
ID=82137437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210229940.2A Active CN114692636B (zh) | 2022-03-09 | 2022-03-09 | 一种基于关系分类与序列标注的嵌套命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114692636B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737924A (zh) * | 2023-04-27 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017265144A1 (en) * | 2016-12-02 | 2018-06-21 | Encompass Corporation Pty Ltd | Information retrieval |
CN111160032A (zh) * | 2019-12-17 | 2020-05-15 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
CN111274412A (zh) * | 2020-01-22 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息提取方法、信息提取模型训练方法、装置及存储介质 |
CN112487820A (zh) * | 2021-02-05 | 2021-03-12 | 南京邮电大学 | 一种中文医疗命名实体识别方法 |
CN113656544A (zh) * | 2021-08-11 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN113723103A (zh) * | 2021-08-26 | 2021-11-30 | 北京理工大学 | 融合多源知识的中文医学命名实体和词性联合学习方法 |
CN113948217A (zh) * | 2021-11-23 | 2022-01-18 | 重庆邮电大学 | 一种基于局部特征整合的医学嵌套命名实体识别方法 |
-
2022
- 2022-03-09 CN CN202210229940.2A patent/CN114692636B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2017265144A1 (en) * | 2016-12-02 | 2018-06-21 | Encompass Corporation Pty Ltd | Information retrieval |
CN111160032A (zh) * | 2019-12-17 | 2020-05-15 | 浙江大华技术股份有限公司 | 一种命名实体提取方法、装置、电子设备及存储介质 |
CN111274412A (zh) * | 2020-01-22 | 2020-06-12 | 腾讯科技(深圳)有限公司 | 信息提取方法、信息提取模型训练方法、装置及存储介质 |
CN112487820A (zh) * | 2021-02-05 | 2021-03-12 | 南京邮电大学 | 一种中文医疗命名实体识别方法 |
CN113656544A (zh) * | 2021-08-11 | 2021-11-16 | 云知声智能科技股份有限公司 | 嵌套命名实体识别模型的训练方法、装置、设备和介质 |
CN113723103A (zh) * | 2021-08-26 | 2021-11-30 | 北京理工大学 | 融合多源知识的中文医学命名实体和词性联合学习方法 |
CN113948217A (zh) * | 2021-11-23 | 2022-01-18 | 重庆邮电大学 | 一种基于局部特征整合的医学嵌套命名实体识别方法 |
Non-Patent Citations (3)
Title |
---|
SHUKAI LIAO 等: "A Route-aware Model for Entity Recognition with Diverse Structures", 《PROCEEDINGS OF THE 2021 7TH INTERNATIONAL CONFERENCE ON COMPUTING AND ARTIFICIAL INTELLIGENCE》, pages 372 - 378 * |
张飞宇 等, 《山西大学学报(自然科学版)》, vol. 45, no. 4, pages 924 - 935 * |
西洋樱草X: "论文笔记 Bipartite Flat-Graph Network for Nested Named Entity Recognition | ACL2020", pages 1 - 17, Retrieved from the Internet <URL:《nlog.csdn.net/weixin_41297561/article/details/108540507》> * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737924A (zh) * | 2023-04-27 | 2023-09-12 | 百洋智能科技集团股份有限公司 | 一种医疗文本数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114692636B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110457675B (zh) | 预测模型训练方法、装置、存储介质及计算机设备 | |
CN112560478B (zh) | 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法 | |
CN112364174A (zh) | 基于知识图谱的病人病历相似度评估方法及系统 | |
CN109710925A (zh) | 命名实体识别方法及装置 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN112015868A (zh) | 基于知识图谱补全的问答方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN111858896B (zh) | 一种基于深度学习的知识库问答方法 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN110569506A (zh) | 一种基于医疗词典的医疗命名实体识别方法 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
CN113377897A (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN112199532A (zh) | 一种基于哈希编码和图注意力机制的零样本图像检索方法及装置 | |
CN111860193B (zh) | 一种基于文本的行人检索自监督视觉表示学习系统及方法 | |
CN112612871A (zh) | 一种基于序列生成模型的多事件检测方法 | |
CN110210035B (zh) | 序列标注方法、装置及序列标注模型的训练方法 | |
CN111159345A (zh) | 一种中文知识库答案获取方法及其装置 | |
CN111222330A (zh) | 一种中文事件的检测方法和系统 | |
CN110751234A (zh) | Ocr识别纠错方法、装置及设备 | |
CN111428505B (zh) | 一种融合触发词识别特征的实体关系抽取方法 | |
CN114417874B (zh) | 一种基于图注意力网络的中文命名实体识别方法和系统 | |
CN114692636A (zh) | 一种基于关系分类与序列标注的嵌套命名实体识别方法 | |
CN112699684B (zh) | 命名实体识别方法和装置、计算机可读存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |