CN116244445B - 航空文本数据标注方法及其标注系统 - Google Patents
航空文本数据标注方法及其标注系统 Download PDFInfo
- Publication number
- CN116244445B CN116244445B CN202211706705.6A CN202211706705A CN116244445B CN 116244445 B CN116244445 B CN 116244445B CN 202211706705 A CN202211706705 A CN 202211706705A CN 116244445 B CN116244445 B CN 116244445B
- Authority
- CN
- China
- Prior art keywords
- entity
- sample
- aviation
- text
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 72
- 238000000605 extraction Methods 0.000 claims abstract description 36
- 238000012216 screening Methods 0.000 claims abstract description 27
- 230000009467 reduction Effects 0.000 claims abstract description 12
- 230000004927 fusion Effects 0.000 claims abstract description 9
- 238000000034 method Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 16
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 230000002708 enhancing effect Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 claims description 9
- 239000003550 marker Substances 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 239000012634 fragment Substances 0.000 claims description 5
- 230000001419 dependent effect Effects 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000012512 characterization method Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012795 verification Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种航空文本数据标注方法及其标注系统,包括以下步骤,步骤1基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;步骤2基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;步骤3建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注。本发明通过基于实体核心EODA的数据增强算法对样本数目进行扩充,通过实体识别;在主动学习模型中,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略。在主动学习的框架下,经实验验证标注效率提高。通过算法与模型有效融合提升标注系统的智能化水平。
Description
技术领域
本申请涉及航空文本信息抽取领域,具体地涉及一种航空文本数据标注方法及其标注系统。
背景技术
在自然语言处理任务中,信息抽取技术愈发成熟,其在数据检索、知识图谱、问答系统等真实场景中均发挥了巨大作用。然而,信息抽取的性能极大程度地依赖于标注数据质量和数据规模,开源的数据难以满足特定场景需求,实现高效、高质量、自动化的航空文本标注系统,是信息抽取领域一个重要的研究方向。
目前,航空文本标注方法主要依靠从业人员对原始数据进行手工标注,并依托一定的标注工具或系统提高标注的规范与效率,国内外现有的标注系统主要可分为两大类,一类是完全依赖于人工进行标注的,另一类在标注系统中融合基于半监督的主动学习算法,能够半自动地对数据进行标注,相较于前者具有更高标注效率。针对航空领域标注数据少、数据标注难的问题,基于信息抽取技术来实现标注功能。
发明内容
为了克服现有技术的不足,本发明通过基于实体核心EODA(Entity-OrientedDataAugmentation)的数据增强算法完成样本数目扩充,通过实体识别,关系抽取任务上的多个模型进行实验对比,在数据增强工作上带来的效果增益较好;通过基于字词级别最低置信度的查询策略,关系抽取部分使用了最大熵、最低置信度、边界采样策略。在两类主动学习的框架下,经实验验证,标注效率明显提高。通过算法与技术的有效融合,提升了标注系统的智能化水平。
为实现上述目的,本发明所采用的解决方案为:一种航空文本数据标注方法,其包括以下步骤:
步骤1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;具体为:
使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,然后对非实体词和实体词分别进行增强;其中,实体识别模型为使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下,实体类别Y的条件概率分布表示为P(Y|X);在无向图G=(V,E)中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布P(Y|X)称之为条件随机场,如下所示:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v);
式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Ye分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点;
设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列(X1,X2,...,Xn),其状态序列的条件概率如下所示:
式中:P(y|x)表示状态序列的条件概率;Z(x)表示规范化因子;λk表示转移特征函数tk的权重系数;tk(yi-1,yi,x,i)表示边E上的转移特征函数;μl表示状态特征函数sl的权重系数;sl(yi,x,i)表示顶点V上的状态特征函数;yi-1和yi分别表示输入Xi-1和Xi对应的所有的标记序列;y表示输入X对应的所有的标记序列;所述转移特征函数tk和状态特征函数sl是与位置相关的局部特征函数;
实体识别模型的优化目标为最大化似然概率,使用对数似然概率,如下所示:
式中:p(y|X)表示最大化似然概率;score(X,y)表示输入X对应的分值;Y(x)表示输入X对应的随机变量;y*表示输入X对应的特别标记序列;score(x,y)表示输入x对应的分值;
步骤2:基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;
基于主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,基于字词级别的最低置信度的样本查询策略表达式如下所示:
式中:y1,y2,ym-1和ym分别表示第1个、第2个、第m-1个和第m个标记序列;m表示标记序列的编号;score(t)表示t时刻对应的分值;Pt表示t时刻对应的分值向量;p1,p2和pm分别表示第1个、第2个和第m个分值向量参数;
根据基于字词级别的最低置信度的样本查询策略从未标注数据中筛选出目标样本;
步骤3:建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注;
使用步骤1得到未标注数据,再使用步骤S2得到筛选样本,对筛选样本区分难度进行判断,将判断结果反馈给实体识别模型和主动学习模型,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新,并返回步骤1继续循环执上述操作,直到迭代达到指定次数或目标值,建立基于信息抽取的航空文本标注模型,所述基于信息抽取的航空文本标注模型包括一定量的标注数据集、参数优化之后的实体识别模型和主动学习模型;将新的航空文本数据输入到基于信息抽取的航空文本标注模型,从而对任意航空文本数据进行标注。
在一个优选实施方式中,所述步骤1中的非实体词部分增强,具体包括:同义词替换、随机插值、随机交换和随机删除四个步骤,具体为:所述同义词替换是将待标注航空文本中的非实体词片段随机替换为同义词;被候选为需要进行同义词替换的词语,同义词的选取来源于已提前处理完善的词典数据,也能来源于语言模型,从词向量的嵌入空间寻找相邻的词汇表征,得出候选同义词,再被用于原文同位值替换;所述随机插值是为了防止模型过拟合,提升鲁棒性,在待标注航空文本中非实体词片段随机插入词语,词语的来源是样本分词结果中的非实体词或者中文停用词表;所述随机交换是将待标注航空文本非实体词片段随机交换两个词语;所述随机删除是将待标注航空文本中非实体词片段随机删除词语。
在另一个优选实施方式中,所述步骤1中的实体词部分增强具体包括实体词替换、词嵌入替换、短句移位和短句生成四个步骤,如下所示:所述实体词替换是与同标签同义词替换相同,在进行实体词替换时,随机从已标注实体词表中取出候选词,替换到待标注航空文本的原位;所述词嵌入替换是对于一条样本中实体的词嵌入,以一定的概率替代为随机向量,从而提升词汇根据上下文内容进行模板槽学习的能力;所述短句移位是以逗号、句号分隔符为短句分隔依据,将同样本内的多句进行随机拼接,扩大样本长距离上下文信息;所述短句生成是随机选取至少包含一个实体词的短句,并能拼接生成新样本,以提升短航空文本实体识别性能。
进一步,所述步骤2中的主动学习模型具体为:所述主动学习模型包括构建学习引擎和选择引擎,使用BERT-BiLSTM-CRF深度学习模型作为学习引擎和选择引擎中的工作基准模型;BERT模型包括词前文或后文信息,其结构中的多层双向Transformer编码器通过双向自注意力机制解除只能单向融合上下文信息的限制,并在双向Transformer结构结合MLM的模型构建模式被用于预训练时,能生成融合上下文信息的深层双向语言表征;然后通过BiLSTM层得到双向表示的隐状态序列,最后经CRF层获得输出序列后验概率,并将其应用于查询过程中的未标注样本置信度计算,以衡量样本的不确定性。
可优选的是,所述步骤2中的不确定性样本查询策略包括:
最低置信度策略:对于每一条样本,主动学习模型将预测出样本在所有类别体系下的得分,位于0~1概率值之间,根据得分从高到低排名取分数最高的类别作为样本的预测类别标签,具体如下所示:
式中:表示样本的预测类别标签;argmax表示取最大值;Pθ(y*|x)表示样本的得分;argmin表示取最小值;
边界采样策略:边界采样需选择最容易被判定成两种类别的样本,即在模型预测得分结果中两类别概率得分相近;边界采样策略关注目标有两项,分别是最大类别得分和次大类别得分,最后在批量样本中筛选出二者得分差值最小的样本,具体如下所示:
式中:表示得分差值最小的样本;/>表示最大类别得分;/>表示次大类别得分;以及
最大熵策略:熵的概念来自于信息论,用于度量系统的不确定性,且熵值越大越能体现模型对样本类别预测的不确定性,具体如下所示:
式中:表示样本类别预测的不确定性;Pθ(yi|x)表示样本类别得分。
进一步可优选的是,所述步骤2中的版本空间缩减样本查询策略为:所述版本空间缩减样本查询策略是从未标注集合当中拣选出一部分样本,将筛选出来经过模型训练后能够缩减当前版本空间,最后选择出来的结果是每个模型判别最不一致的实例。
本发明的第二方面,提供一种应用前述航空文本数据标注方法的航空文本标注系统,包括基于实体核心的文本增强算法模块、基于实体识别的实体识别算法模块以及主动学习算法模块,针对信息抽取任务为实体识别任务形成一套标注流程;航空文本标注系统的组织架构包括基础服务层、业务逻辑层和应用层;通过航空文本标注系统实现原始航空文本的数据标注,所述文本增强算法模块用于实现非实体词和实体词的增强,对样本进行扩展;
所述实体识别算法模块用于执行实体识别模型,实现对原始航空文本数据的样本中的非实体词和实体词进行区分;
所述主动学习算法模块用于执行主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,实现样本筛选;并判断所筛选样本的区分度;
将航空文本数据输入到实体识别算法模块,识别出非实体词和实体词,将识别结果输入到文本增强算法模块,对非实体词和实体词进行增强得到未标注数据,将未标注数据输入到主动学习算法模块进行筛选,得到筛选样本;判断所筛选样本的区分度,将判断结果反馈给实体识别算法模块和主动学习算法模块,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新。
与现有技术相比,本发明的有益效果在于:
(1)本发明针对低资源场景,提出了基于实体核心EODA的数据增强方法,完成样本数目扩充,通过在命名实体识别,关系抽取任务上的多个模型进行实验对比,该方法要优于传统EDA方法在数据增强工作上带来的效果增益;
(2)本发明针对多资源场景,通过基于字词级别最低置信度的查询策略,关系抽取部分使用了最大熵、最低置信度、边界采样查询策略;
(3)在两类主动学习的框架下,实体识别和关系抽取任务均能够提高30%以上的标注效率,且模型能更快地收敛。
附图说明
图1为本发明航空文本数据标注方法的流程示意图;
图2为本发明主动运行框架图;
图3为本发明BERT-BiLSTM CRF模型框架图;
图4为本发明航空文本数据标注系统的一个具体实施例的架构图;
图5为本发明一个优选实施方式中航空文本标注系统的流程图。
具体实施方式
以下,参照附图对本发明的实施方式进行说明。
本发明实施例将基于实体核心EODA的数据增强方法与基于字词级别最低置信度的查询策略两种主动学习方法进行融合,完成了样本数目扩充,通过在命名实体识别,关系抽取任务上的多个模型进行实验对比,提高30%以上的标注效率,且模型能更快地收敛。提升了标注系统的整体标注效率和智能化水平,更好地服务于信息抽取航空文本数据标注。如图1所示为本发明实施例航空文本数据标注方法的控制框图。
本发明实施例提供了一种航空文本数据标注方法,如图2所示为本发明实施例主动运行框架图;为了证明本发明的适用性,将其应用于实例,具体包含如下步骤:
S1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;
扩充之后的样本一方面可以用于训练比如实体识别或者抽取模型,增强模型能力,另一方面可以作为候选样本供主动学习部分进行。
非实体词部分增强操作具体包括:同义词替换、随机插值、随机交换和随机删除四个步骤,如下所示;
同义词替换是将待标注航空文本中的非实体词片段随机替换为同义词;被候选为需要进行同义词替换的词语,同义词的选取来源于已提前处理完善的词典数据,也能来源于语言模型,从词向量的嵌入空间寻找相邻的词汇表征,得出候选同义词,再被用于原文同位值替换。
随机插值是为了防止模型过拟合,提升鲁棒性,在待标注航空文本中非实体词片段随机插入词语,词语的来源是样本分词结果中的非实体词或者中文停用词表。
随机交换是将待标注航空文本非实体词片段随机交换两个词语。
随机删除是将待标注航空文本中非实体词片段随机删除词语。
非实体词增强示例如下表1所示:
表1EODA航空文本数据增强示例
实体词部分增强操作,具体包括实体词替换、词嵌入替换、短句移位和短句生成四个步骤,如下所示;
实体词替换是与同标签同义词替换类似,但是词汇的来源主要源自于已标注语料中的实体词表,在进行实体词替换时,随机从已标注实体词表中取出候选词,替换到待标注航空文本的原位。
词嵌入替换是对于一条样本中实体的词嵌入,以一定的概率替代为随机向量,主要是为了提升词汇根据上下文内容进行模板槽学习的能力。
短句移位是以逗号、句号分隔符为短句分隔依据,将同样本内的多句进行随机拼接,该方法旨在丰富样本长距离上下文信息。
短句生成是随机选取至少包含一个实体词的短句,与其他样本拼接生成新样本,以提升缺乏上下文信息的短航空文本实体识别性能。
本实施例中使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,实体识别模型为:
使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下实体类别Y的条件概率分布表示为P(Y|X);在无向图G=(V,E)中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布P(Y|X)称之为条件随机场,如下所示:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v);
式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Ye分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点。
设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列(X1,X2,...,Xn),其状态序列的条件概率如下所示:
式中:P(y|x)表示状态序列的条件概率;Z(x)表示规范化因子;λk表示转移特征函数tk的权重系数;tk(yi-1,yi,x,i)表示边e上的转移特征函数;μl表示状态特征函数sl的权重系数;sl(yi,x,i)表示顶点V上的状态特征函数;yi-1和yi分别表示输入Xi-1和Xi对应的所有的标记序列;y表示输入X对应的所有的标记序列,转移特征函数tk和状态特征函数sl都是与位置相关的局部特征函数。
实体识别模型的优化目标为最大化似然概率,使用对数似然概率,如下所示:
式中:p(y|X)表示最大化似然概率;score(X,y)表示输入X对应的分值;Y(x)表示输入X对应的随机变量;y*表示输入X对应的特别标记序列;score(x,y)表示输入x对应的分值。
S2:基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;
基于主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,使用基于字词级别的最低置信度的样本查询策略从未标注数据中筛选出目标样本;
主动学习模型具体为:
主动学习模型的核心在于构建学习引擎和选择引擎,本发明使用BERT-BiLSTM-CRF深度学习模型作为学习引擎和选择引擎中的工作基准模型;BERT模型的关注点不仅局限于词前文或后文信息,其结构中的多层双向Transformer编码器通过双向自注意力机制解除了只能单向融合上下文信息的限制,另外双向Transformer结构结合MLM的模型构建模式被用于预训练时,能很好地生成融合上下文信息的深层双向语言表征;然后通过BiLSTM层得到双向表示的隐状态序列,最后经CRF层获得输出序列后验概率,并将其应用于查询过程中的未标注样本置信度计算,以衡量样本的不确定性。如图3所示为本发明实施例BERT-BiLSTM CRF模型框架图。
结合不确定性样本查询策略和版本空间缩减样本查询策略,不确定性样本查询策略,主要依据策略如下所示:
最低置信度策略:对于每一条样本,模型将预测出样本在所有类别体系下的得分,位于0~1概率值之间,根据得分从高到低排名取分数最高的类别作为样本的预测类别标签,具体如下所示:
式中:表示样本的预测类别标签;argmax表示取最大值;Pθ(y*|x)表示样本的得分;argmin表示取最小值。
边界采样策略:边界采样需选择最容易被判定成两种类别的样本,即在模型预测得分结果中两类别概率得分相近;边界采样策略关注目标主要有两项,分别是最大类别得分和次大类别得分,最后在批量样本中筛选出二者得分差值最小的样本,具体如下所示:
式中:表示得分差值最小的样本;/>表示最大类别得分;/>表示次大类别得分。
最大熵策略:熵的概念来自于信息论,用于度量系统的不确定性,且熵值越大越能体现模型对样本类别预测的不确定性,具体如下所示:
式中:表示样本类别预测的不确定性;Pθ(yi|x)表示样本类别得分。
版本空间缩减样本查询策略是从未标注集合当中拣选出一部分样本,将它们筛选出来经过模型训练后能够极大限度地缩减当前版本空间,最后选择出来的结果是每个模型判别最不一致的实例,其中,委员会是具有代表性的查询策略。
委员会的主要工作机制是:利用数据库中的已标注训练集训练n个基准模型,这些基准模型各自工作互相独立,成立一个表决委员会,基于委员会查询的方法(Query-By-Committee,QBC)相同训练集训练多个同结构的模型,模型投票选出争议样本,将争议样本打标后训练模型,反复迭代如下所示:
C={θ^((1)),...,θ^((n))};
式中:C表示表决委员会结果;θ^((1))表示第1个基准模型;θ^((n))表示第n个基准模型。
每一个经过训练的基准模型均能够对未标注实例进行表决,而当中争议度大、决策意见不一致的这些实例将被挑选出来进行更严格的标注,最后再将其加入到已标注训练集进行下一轮的模型学习。
建立基于字词级别的最低置信度的样本查询策略即,其表达式如下所示:
式中:y1,y2,ym-1和ym分别表示第1个、第2个、第m-1个和第m个标记序列;m表示标记序列的编号;score(t)表示t时刻对应的分值;Pt表示t时刻对应的分值向量;p1,p2和pm分别表示第1个、第2个和第m个分值向量参数。
使用基于字词级别的最低置信度的样本查询策略在未标注数据中筛选出筛选样本,后续通过判别筛选样本间的区别度,将判别结果重新反馈到实体识别模型和主动学习模型,形成多轮次迭代;
S3:建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注;
基于步骤1和步骤2的理论建立基于信息抽取的航空文本标注模型,形成迭代更新的方案。首先用步骤1的实体识别模型进行提前训练,可以使用步骤1所得到的数据集,也可以使其它数据集,主要实现对实体识别模型进行粗略的训练,对通过步骤1得到的数据集筛选后再通过主动学习模型进行打分排序,通过标注的标准对其中模型难以区分的样本再加以判断,用来对筛选样本进行评价,将判断结果反馈给抽取的模型以及主动学习模型,以此来对模型参数进行迭代更新,通过多轮次的迭代来达到最终的最优效果,既包括一定量的标注数据集,也包括参数优化之后的抽取模型和主动学习模型。
基于S1和S2建立基于信息抽取的航空文本标注模型,形成一套具有完整生命周期的标注流程。
基于信息抽取的航空文本标注系统要包括数据增强算法、实体识别算法、主动学习算法,由此核心算法支撑的系统组织架构主要分为三层:基础服务层、业务逻辑层、应用层;如图4所示为本发明实施例系统架构图。
所述文本增强算法模块用于实现非实体词和实体词的增强,对样本进行扩展;
所述实体识别算法模块用于执行实体识别模型,实现对原始航空文本数据的样本中的非实体词和实体词进行区分;
所述主动学习算法模块用于执行主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,实现样本筛选;并判断所筛选样本的区分度;
将航空文本数据输入到实体识别算法模块,识别出非实体词和实体词,将识别结果输入到文本增强算法模块,对非实体词和实体词进行增强得到未标注数据,将未标注数据输入到主动学习算法模块进行筛选,得到筛选样本;判断所筛选样本的区分度,将判断结果反馈给实体识别算法模块和主动学习算法模块,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新。
通过航空文本标注系统最终实现原始航空文本的数据标注。如图5所示为本发明一个优选实施方式中航空文本标注系统的流程图。在这个实施例中结合现有技术,将标注项目的任务类别分为实体识别或者关系抽取;辅助标注方案中的实体识别提供基于主动学习和数据增强的两类辅助标注方案,为用户提供了更多选择。系统使用时按照以下步骤执行:
S31:选择标注项目的任务类别,选择项是实体识别或者关系抽取。
S32:上传任务的知识体系,如选择的是实体识别,需要设定实体类别;如选择的是关系抽取,需要设定每类三元组的主客实体类别以及中间的关系指示词。
S33:选择辅助标注方案,以实体识别为例,提供给了基于主动学习和数据增强的两类辅助标注方案,根据实际场景需要进行选择;其中主动学习方案中提供了训练迭代轮次和样本选择策略候选项,数据增强方案提供了增益系数,字词操作比例。
S34:至此完成了标注任务的初始化,然后上传原始航空文本数据,航空文本标注系统将自动完成相应任务的预处理,去噪和格式化。
S35:航空文本标注系统根据航空文本数据量规模,自动分派标注任务,后端模型将同步监控已标注航空文本数据条数,管理员再根据实际标注场景启动模型训练并用于辅助标注流程。
S36:航空文本数据标注结束,导出已标注航空文本数据集。
EODA方法遵循样本中实体类别在增强前后阶段均保持不变的原则,尽可能地不破坏原始样本的语义,通过引入合理的噪声来进行文本增强,从而均衡了样本类别数量的差异性,完成样本扩充,以一种有效且低代价的方式提升模型性能;基于主动学习的实体识别算法使用少量已标注的实例作为初始训练集来学习模型,将所有未标注实例随机划分至多批次查询集合中,通过查询策略从当前批次未标注实例中选择最优的一批实例进行更严格的标注处理,标注后实例被投入学习引擎中的模型进行训练,更新后的模型再次作用于样本查询,以此往复迭代,使得同等已标注数据规模下信息抽取模型收敛速度加快且性能更为优异。
综上,本案例的预测结果证明了具有很好的效句子长度果。
(1)本发明实施例针对低资源场景,提出了基于实体核心EODA的数据增强方法,完成样本数目扩充,通过在命名实体识别,关系抽取任务上的多个模型进行实验对比,该方法要优于传统EDA方法在数据增强工作上带来的效果增益。本发明针对多资源场景,通过基于字词级别最低置信度的查询策略,关系抽取部分使用了最大熵、最低置信度、边界采样查询策略。在两类主动学习的框架下,实体识别和关系抽取任务均能够提高30%以上的标注效率,且模型能更快地收敛。
(2)本发明实施例将数据增强和主动学习思想应用到了实际标注系统中,通过算法与技术的有效融合,提升了标注系统的整体标注效率和智能化水平,更好地服务于信息抽取航空文本数据标注。
以上所述的实施例仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (5)
1.一种航空文本数据标注方法,其特征在于,其包括以下步骤:
步骤1:基于实体核心EODA的文本增强算法对原始航空文本数据的样本进行扩充,得到扩充之后的样本,将原始航空文本数据的样本和扩充之后的样本一起组成未标注数据;具体为:
使用实体识别模型对原始航空文本数据的样本中的非实体词和实体词进行区分,然后对非实体词和实体词分别进行增强;其中,实体识别模型为使用概率图模型作为命名实体识别模型,在基于实体数据集中的航空文本内容X的前提下,实体类别Y的条件概率分布表示为P(Y|X);在无向图G=(V,E)中,一个随机变量Yv遵从马尔科夫性,则将条件概率分布P(Y|X)称之为条件随机场,如下所示:
P(Yv|X,Yw,w≠v)=P(Yv|X,Yw,w~v);
式中:P表示条件概率分布;X表示实体数据集中的航空文本内容;Yv和Yw分别表示顶点v和w对应的随机变量;w~v表示在无向图G中v和w顶点之间有边相连;w≠v表示w为v以外的所有顶点;
设定实体数据集中的航空文本内容X和实体类别Y二者具有相同图结构,通过线性链条件随机场实现实体识别任务,长度为n的观测序列(X1,X2,...,Xn),其状态序列的条件概率如下所示:
式中:P(y|x)表示状态序列的条件概率;Z(x)表示规范化因子;λk表示转移特征函数tk的权重系数;tk(yi-1,yi,x,i)表示边E上的转移特征函数;μl表示状态特征函数sl的权重系数;sl(yi,x,i)表示顶点V上的状态特征函数;yi-1和yi分别表示输入Xi-1和Xi对应的所有的标记序列;y表示输入X对应的所有的标记序列;所述转移特征函数tk和状态特征函数sl是与位置相关的局部特征函数;
实体识别模型的优化目标为最大化似然概率,使用对数似然概率,如下所示:
式中:p(y|X)表示最大化似然概率;score(X,y)表示输入X对应的分值;Y(x)表示输入X对应的随机变量;y*表示输入X对应的特别标记序列;score(x,y)表示输入x对应的分值;
步骤2:基于主动学习模型的样本筛选,从未标注数据中筛选出目标样本;
基于主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,
不确定性样本查询策略包括:
最低置信度策略:对于每一条样本,主动学习模型将预测出样本在所有类别体系下的得分,位于0~1概率值之间,根据得分从高到低排名取分数最高的类别作为样本的预测类别标签,具体如下所示:
式中:表示样本的预测类别标签;argmax表示取最大值;Pθ(y*|x)表示样本的得分;argmin表示取最小值;
边界采样策略:边界采样需选择最容易被判定成两种类别的样本,即在模型预测得分结果中两类别概率得分相近;边界采样策略关注目标有两项,分别是最大类别得分和次大类别得分,最后在批量样本中筛选出二者得分差值最小的样本,具体如下所示:
式中:表示得分差值最小的样本;/>表示最大类别得分;/>表示次大类别得分;以及
最大熵策略:熵的概念来自于信息论,用于度量系统的不确定性,且熵值越大越能体现模型对样本类别预测的不确定性,具体如下所示:
式中:表示样本类别预测的不确定性;Pθ(yi|x)表示样本类别得分;
版本空间缩减样本查询策略为:所述版本空间缩减样本查询策略是从未标注集合当中拣选出一部分样本,将筛选出来经过模型训练后能够缩减当前版本空间,最后选择出来的结果是每个模型判别最不一致的实例;
基于字词级别的最低置信度的样本查询策略表达式如下所示:
式中:y1,y2,ym-1和ym分别表示第1个、第2个、第m-1个和第m个标记序列;m表示标记序列的编号;score(t)表示t时刻对应的分值;Pt表示t时刻对应的分值向量;p1,p2和pm分别表示第1个、第2个和第m个分值向量参数;
根据基于字词级别的最低置信度的样本查询策略从未标注数据中筛选出目标样本;
步骤3:建立基于信息抽取的航空文本标注模型,实现任意航空文本数据标注;
使用步骤1得到未标注数据,再使用步骤S2得到筛选样本,对筛选样本区分难度进行判断,将判断结果反馈给实体识别模型和主动学习模型,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新,并返回步骤1继续循环执上述操作,直到迭代达到指定次数或目标值,建立基于信息抽取的航空文本标注模型,所述基于信息抽取的航空文本标注模型包括一定量的标注数据集、参数优化之后的实体识别模型和主动学习模型;
将新的航空文本数据输入到基于信息抽取的航空文本标注模型,从而对任意航空文本数据进行标注。
2.根据权利要求1所述的航空文本数据标注方法,其特征在于,所述步骤1中的非实体词部分增强,具体包括:同义词替换、随机插值、随机交换和随机删除四个步骤,具体为:
所述同义词替换是将待标注航空文本中的非实体词片段随机替换为同义词;被候选为需要进行同义词替换的词语,同义词的选取来源于已提前处理完善的词典数据,也能来源于语言模型,从词向量的嵌入空间寻找相邻的词汇表征,得出候选同义词,再被用于原文同位值替换;
所述随机插值是为了防止模型过拟合,提升鲁棒性,在待标注航空文本中非实体词片段随机插入词语,词语的来源是样本分词结果中的非实体词或者中文停用词表;
所述随机交换是将待标注航空文本非实体词片段随机交换两个词语;
所述随机删除是将待标注航空文本中非实体词片段随机删除词语。
3.根据权利要求1所述的航空文本数据标注方法,其特征在于,所述步骤1中的实体词部分增强具体包括实体词替换、词嵌入替换、短句移位和短句生成四个步骤,如下所示:
所述实体词替换是与同标签同义词替换相同,在进行实体词替换时,随机从已标注实体词表中取出候选词,替换到待标注航空文本的原位;
所述词嵌入替换是对于一条样本中实体的词嵌入,以一定的概率替代为随机向量,从而提升词汇根据上下文内容进行模板槽学习的能力;
所述短句移位是以逗号、句号分隔符为短句分隔依据,将同样本内的多句进行随机拼接,扩大样本长距离上下文信息;
所述短句生成是随机选取至少包含一个实体词的短句,并能拼接生成新样本,以提升短航空文本实体识别性能。
4.根据权利要求1所述的航空文本数据标注方法,其特征在于,所述步骤2中的主动学习模型具体为:
所述主动学习模型包括构建学习引擎和选择引擎,使用BERT-BiLSTM-CRF深度学习模型作为学习引擎和选择引擎中的工作基准模型;BERT模型包括词前文或后文信息,其结构中的多层双向Transformer编码器通过双向自注意力机制解除只能单向融合上下文信息的限制,并在双向Transformer结构结合MLM的模型构建模式被用于预训练时,能生成融合上下文信息的深层双向语言表征;然后通过BiLSTM层得到双向表示的隐状态序列,最后经CRF层获得输出序列后验概率,并将其应用于查询过程中的未标注样本置信度计算,以衡量样本的不确定性。
5.一种根据权利要求1-4之一所述的航空文本数据标注方法的航空文本标注系统,其特征在于,包括基于实体核心的文本增强算法模块、基于实体识别的实体识别算法模块以及主动学习算法模块,针对信息抽取任务为实体识别任务形成一套标注流程;航空文本标注系统的组织架构包括基础服务层、业务逻辑层和应用层;通过航空文本标注系统实现原始航空文本的数据标注,其中:
所述文本增强算法模块用于实现非实体词和实体词的增强,对样本进行扩展;
所述实体识别算法模块用于执行实体识别模型,实现对原始航空文本数据的样本中的非实体词和实体词进行区分;
所述主动学习算法模块用于执行主动学习模型,结合不确定性样本查询策略和版本空间缩减样本查询策略,建立基于字词级别的最低置信度的样本查询策略,实现样本筛选;并判断所筛选样本的区分度;
将航空文本数据输入到实体识别算法模块,识别出非实体词和实体词,将识别结果输入到文本增强算法模块,对非实体词和实体词进行增强得到未标注数据,将未标注数据输入到主动学习算法模块进行筛选,得到筛选样本;判断所筛选样本的区分度,将判断结果反馈给实体识别算法模块和主动学习算法模块,实现对实体识别模型和主动学习模型中基于字词级别的最低置信度的样本查询策略表达式参数的迭代更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211706705.6A CN116244445B (zh) | 2022-12-29 | 2022-12-29 | 航空文本数据标注方法及其标注系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211706705.6A CN116244445B (zh) | 2022-12-29 | 2022-12-29 | 航空文本数据标注方法及其标注系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116244445A CN116244445A (zh) | 2023-06-09 |
CN116244445B true CN116244445B (zh) | 2023-12-12 |
Family
ID=86626902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211706705.6A Active CN116244445B (zh) | 2022-12-29 | 2022-12-29 | 航空文本数据标注方法及其标注系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116244445B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776884A (zh) * | 2023-06-26 | 2023-09-19 | 中山大学 | 一种用于医学命名实体识别的数据增强方法及系统 |
CN117473096B (zh) * | 2023-12-28 | 2024-03-15 | 江西师范大学 | 一种融合latex标签的知识点标注方法及其模型 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113901825A (zh) * | 2021-11-22 | 2022-01-07 | 东北大学 | 一种基于主动深度学习的实体关系联合抽取方法及系统 |
CN114548102A (zh) * | 2020-11-25 | 2022-05-27 | 株式会社理光 | 实体文本的序列标注方法、装置及计算机可读存储介质 |
CN115039140A (zh) * | 2020-08-11 | 2022-09-09 | 辉达公司 | 使用一个或更多个神经网络的增强的对象识别 |
WO2022222224A1 (zh) * | 2021-04-19 | 2022-10-27 | 平安科技(深圳)有限公司 | 基于深度学习模型的数据增强方法、装置、设备及介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11138523B2 (en) * | 2016-07-27 | 2021-10-05 | International Business Machines Corporation | Greedy active learning for reducing labeled data imbalances |
CA3122070A1 (en) * | 2018-12-03 | 2020-06-11 | Tempus Labs, Inc. | Clinical concept identification, extraction, and prediction system and related methods |
EP3903241A4 (en) * | 2018-12-24 | 2022-09-14 | Roam Analytics, Inc. | BUILDING A KNOWLEDGE GRAPH USING MULTIPLE SUB-GRAPHS AND A LINK LAYER INCLUDING MULTIPLE LINK NODES |
US20210004700A1 (en) * | 2019-07-02 | 2021-01-07 | Insurance Services Office, Inc. | Machine Learning Systems and Methods for Evaluating Sampling Bias in Deep Active Classification |
US11436448B2 (en) * | 2019-12-06 | 2022-09-06 | Palo Alto Research Center Incorporated | System and method for differentially private pool-based active learning |
-
2022
- 2022-12-29 CN CN202211706705.6A patent/CN116244445B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115039140A (zh) * | 2020-08-11 | 2022-09-09 | 辉达公司 | 使用一个或更多个神经网络的增强的对象识别 |
CN114548102A (zh) * | 2020-11-25 | 2022-05-27 | 株式会社理光 | 实体文本的序列标注方法、装置及计算机可读存储介质 |
WO2022222224A1 (zh) * | 2021-04-19 | 2022-10-27 | 平安科技(深圳)有限公司 | 基于深度学习模型的数据增强方法、装置、设备及介质 |
CN113901825A (zh) * | 2021-11-22 | 2022-01-07 | 东北大学 | 一种基于主动深度学习的实体关系联合抽取方法及系统 |
Non-Patent Citations (2)
Title |
---|
LTP:A New Active Learning Strategy for CRF-Based Named Entity Recognition;Tong Zhang等;researchgate;1-9 * |
装备文本预料数据标注规范化研究;刘俊等;航空标准化与质量(第06期);38-44 * |
Also Published As
Publication number | Publication date |
---|---|
CN116244445A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729468B (zh) | 基于深度学习的答案抽取方法及系统 | |
CN116244445B (zh) | 航空文本数据标注方法及其标注系统 | |
CN110489523B (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN113377897B (zh) | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 | |
CN109684928B (zh) | 基于互联网检索的中文文档识别方法 | |
CN110263325A (zh) | 中文分词系统 | |
CN113094502B (zh) | 一种多粒度外卖用户评论情感分析方法 | |
CN107895000A (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN101901213A (zh) | 一种基于实例动态泛化的共指消解方法 | |
CN113962228A (zh) | 一种基于记忆网络语义融合的长文档检索方法 | |
CN113095087B (zh) | 一种基于图卷积神经网络的中文词义消歧方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN114611491A (zh) | 基于文本挖掘技术的智慧政务舆情分析研究方法 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN112884087A (zh) | 一种生物增强子及其类型的识别方法 | |
CN114048314B (zh) | 一种自然语言隐写分析方法 | |
CN113420766A (zh) | 一种融合语言信息的低资源语种ocr方法 | |
CN115033753A (zh) | 训练语料集构建方法、文本处理方法及装置 | |
CN114996455A (zh) | 一种基于双知识图谱的新闻标题短文本分类方法 | |
CN112579583B (zh) | 一种面向事实检测的证据与声明联合抽取方法 | |
CN117371534B (zh) | 一种基于bert的知识图谱构建方法及系统 | |
CN116680420B (zh) | 基于知识表示增强的低资源跨语言文本检索方法及装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN118227790A (zh) | 基于多标签关联的文本分类方法、系统、设备及介质 | |
CN117891948A (zh) | 一种基于内部知识提取与对比学习的小样本新闻分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |