CN117669764A - 基于语言模型与主动学习的数据标注方法、介质及设备 - Google Patents
基于语言模型与主动学习的数据标注方法、介质及设备 Download PDFInfo
- Publication number
- CN117669764A CN117669764A CN202311419459.0A CN202311419459A CN117669764A CN 117669764 A CN117669764 A CN 117669764A CN 202311419459 A CN202311419459 A CN 202311419459A CN 117669764 A CN117669764 A CN 117669764A
- Authority
- CN
- China
- Prior art keywords
- labeling
- data
- prompt
- language model
- marking
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 206
- 238000000034 method Methods 0.000 claims abstract description 66
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000002787 reinforcement Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 12
- 230000009191 jumping Effects 0.000 claims description 12
- 238000005457 optimization Methods 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 9
- 238000013461 design Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 5
- 239000003795 chemical substances by application Substances 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000009471 action Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 235000000332 black box Nutrition 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 235000002198 Annona diversifolia Nutrition 0.000 description 1
- 241000282842 Lama glama Species 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 235000000334 grey box Nutrition 0.000 description 1
- 244000085685 grey box Species 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012358 sourcing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0985—Hyperparameter optimisation; Meta-learning; Learning-to-learn
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Bioethics (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种基于语言模型与主动学习的数据标注方法、介质及设备;其中方法为:通过标注任务的本质与定义确定标注形式生成指引提示语;选取试标注数据与提示语拼接或填充,经人工与预训练语言模型标注后,计算综合分歧指标;利用强化学习对提示语进行优化;利用领域模型评估未标注数据集,并基于主动学习方法选择当前批注数据;基于双标注策略发至预训练语言模型,结合指引语、优化后的提示语进行标注,得到标注结果;计算分歧度,对提示语进行优化。该方法通过引入预训练语言模型的生成泛化能力与主动学习的采样策略,智能地选择具有较大信息量的数据进行标注,实现自动化标注和审核,确保标注质量和一致性,减少人工标注需求。
Description
技术领域
本发明涉及数据标注技术领域,更具体地说,涉及一种基于语言模型与主动学习的数据标注方法、介质及设备。
背景技术
在数据标注领域,目前已经存在各种数据标注方法和系统。传统的数据标注通常依赖于众包等大量的人工标注参与方法。其中,众包标注(Crowdsourcing)是一种利用广大网络用户的集体智慧来进行大规模数据标注的方法。在众包标注中,标注管理者将需要标注的数据以任务的形式通过众包平台发布,在平台注册的众包标注员(crowd workers)可以自由选择任务,通过查看数据和遵循特定的标注指南进行标注。然而众包标注存在如下缺点:由于标注员的多样性,标注结果可能存在主观性和不一致性;对于较为复杂的标注任务,需要对标注员进行专业知识的培训,才能确保标注的质量和准确性;在标注过程中,从确定任务到标注员接受任务并进行标注,存在不确定的延迟与等待时间;由于标注员是匿名的,缺乏直接监督和控制,这种分散的参与方式可能导致数据操纵的风险,例如抄袭、恶意标注等等;由于标注数据在众包平台上共享,隐私和数据安全难以得到保障,尤其是当标注的数据涉及敏感信息的情景,可能导致数据泄露。
同时,基于监督学习的领域算法要求大量标注好的训练数据,而获取高质量标注数据的成本较高。因此,目前已有一些技术方案用于解决数据标注任务中的上述问题。例如,国际专利《一种基于数据挖掘和众包的数据标注方法及系统》(公开号:WO2018000269A1);该技术方案描述了一种基于数据挖掘和众包的数据标注方法,旨在解决传统数据标注方法的低质量和不一致性问题,包括获取待标注的原始数据、进行分类与众包分发、获取众包标注结果并进行自动化审核(筛选并标记低质量标注结果)、输出经过审核的众包标注结果等四个步骤。但该专利存在如下不足:一,依赖人工标注。该专利关注到了众包标注存在的标注效率及质量问题,但仍然依赖众包人工标注数据。虽然在后续步骤中对众包标注结果进行自动化审核,但仍需要投入人力资源来进行初步标注。这意味着在标注开始时仍然需要考虑人工标注的成本和时间,而且可能面临标注质量、一致性、隐私数据泄露等问题。二,自动化审核不足。该专利使用了自动化审核方法,包括相似度对比、聚类分析和有效性检验中的至少两种,但这些方法缺乏深层次的语义理解,也没有使用到自然语言处理领域的最新技术。标注结果的自动审核是一个复杂的任务,需要在标注前、中、后阶段引入更多的技术来确保整体准确性和可靠性。
发明内容
为克服现有技术中的缺点与不足,本发明的目的在于提供一种基于语言模型与主动学习的数据标注方法、介质及设备;该方法通过引入预训练语言模型的生成泛化能力与主动学习的采样策略,智能地选择具有较大信息量的数据进行标注,实现自动化标注和审核,确保标注质量和一致性,减少人工标注需求,降低成本,保护敏感数据标注,从而改进数据标注流程的效率、质量、成本和安全性,优化领域模型的性能。
为了达到上述目的,本发明通过下述技术方案予以实现:一种基于语言模型与主动学习的数据标注方法,包括如下步骤:
S1、通过标注任务的本质与定义确定标注形式,生成离散或连续的指引提示语
S2、从未标注数据集选取试标注数据与提示语拼接或填充,经人工与N个预训练语言模型/>标注后,计算综合分歧指标/>
S3、基于综合分歧指标利用强化学习对提示语进行优化;
S4、利用领域模型评估未标注数据集/>并基于主动学习方法选择当前批注数据/>
S5、基于双标注策略将当前批注数据分发至N个预训练语言模型,结合指引语z、优化后的提示语pt进行标注,得到标注结果/>
S6、计算标注结果的分歧度,如果分歧度高于阈值则跳至步骤S3对提示语进行优化;
S7、如果未标注数据集不为空且未达到学习停止条件,利用新标注数据对领域模型进行训练并回到步骤S4;否则标注结束。
优选地,所述步骤S1,是指:基于标注任务的本质及定义确定标注形式,由标注任务管理者以自然语言撰写指引语/>并利用元学习算法,设计损失函数/>随机初始化提示语p0并使用梯度下降算法生成初始指引提示语/>
其中η为学习率,为梯度算子,/>为各预训练语言模型输出;将指引语/>与提示语拼接,得到指引提示语/>
优选地,所述步骤S2,是指:从未标注数据集中选取部分数据集满足/>xi为第i个未标注数据;设定当前提示语为pt,t为优化次数;让人工与若干预训练语言模型/>分别对指引提示语/>进行试标注,得到试标注结果/>计算指标/>得到综合分歧指标/>
其中,αi为指标权重;为关于命题P的克罗内克函数,/>为/>中对数据xk的标注结果;/>为/>间的标注对比联合分布集;inf为期望上界;为期望标注偏差。
优选地,所述步骤S3,是指:如果综合分歧指标>阈值/>则判定提示语pt仍不足以让预训练语言模型有正确一致理解;根据梯度引导搜索或强化学习算法,对提示语pt进行优化,并跳至步骤S2;
如果综合分歧指标≤阈值/>则判定提示语pt能让预训练语言模型有正确一致理解;将数据集/>及步骤S2得到的试标注结果组成标注结果/>将标注结果从未标注数据集/>移入已标注数据集/>跳至步骤S4。
优选地,所述步骤S3中,使用强化学习是指:引入一个策略网络πθ,基于原始提示语pt进行优化,并将指引语与中间优化的提示语/>拼接,预训练语言模型/>基于人工标签/>中间指引提示语/>与数据集/>进行反馈,对策略网络πθ的优化目标为:
其中,为基于标注任务/>的奖励函数;/>为基于原始提示语pt及策略网络πθ形成的中间优化提示语。
优选地,所述步骤S4,是指:使用领域模型评估剩余未标注数据集/>根据领域模型/>输出的信息与主动学习策略选择剩余未标注数据集/>中信息量最高的前k个数据,作为当前批注数据/>
所述步骤S6,是指:
计算标注结果的分歧度,基于多数投票制判断标注结果/>的是否存在冲突:若任一数据xi的标注结果/>存在冲突,则跳至步骤S3将冲突反馈为新的奖励函数/>给策略网络πθ;若不存在冲突,将当前批注数据/>及标注结果/>移入已标注数据集/>
优选地,所述步骤S5,是指:基于双标注策略将当前批注数据分发给N个预训练语言模型/>结合指引语/>优化后的提示语pt进行标注,标注结果/>为:
所述步骤S7,是指:如果未标注数据集不为空且未达到学习停止条件,使用当前标注数据训练领域模型/>并跳至步骤S4继续进行标注;如果未标注数据集/>为空或达到学习停止条件,标注结束。
优选地,所述步骤S7之后,还包括:步骤S8,对标注数据进行综合评估得到综合评估结果s;综合评估结果s的计算方法是:
其中,βi为指标si的权重系数;代表标注任务的类别集合,mk为对数据xk的合格标注数量且满足mk≤N,np为所有标注结果的两两配对数,nc.为被标注为类别c的数据个数,为关于命题P的克罗内克函数,yjk~c代表对数据xk的第j标注结果分类为c;/>为从m到n的分割,Cov(·,·)为两组分割的协方差,Var(·)为整体方差。
一种可读存储介质,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述基于语言模型与主动学习的数据标注方法。
一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述基于语言模型与主动学习的数据标注方法。
与现有技术相比,本发明具有如下优点与有益效果:
1、提高标注效率:本发明采用主动学习方法,利用多个预训练语言模型的综合能力,能够自动选择具有高信息量的样本进行半监督标注,减少了人工标注的工作量和时间成本;
2、提升标注质量:在试标注任务中,系统引入分歧度和Wasserstein距离等指标,能够判断预训练语言模型任务理解是否存在冲突,帮助提前发现并解决标注结果不一致的问题;在正式标注中,通过引入多数投票制等策略,系统能够产生较为准确、一致的标注结果;提高了标注结果的质量、稳定性和一致性;
3、保护数据隐私安全:本发明采用内部标注方法,自动化程度高,避免在众包平台上共享待标注数据,有效保护了数据的隐私和安全性;
4、可扩展性和灵活性强:本发明的系统架构和模块化设计具有较高的可扩展性和灵活性;新的语言模型或新的任务可以轻松地集成到系统中,以适应不同的需求和任务;同时,系统可以根据具体情况进行调整和优化,以实现更好的性能和效果;
5、促进知识共享:本发明产生的标注数据和知识可以为其他研究者、开发者和利益相关者所使用,有助于促进知识共享,避免重复劳动,促进被标注领域及相关领域研究和应用的创新与发展。
附图说明
图1是本发明基于语言模型与主动学习的数据标注方法的流程图;
图2是本发明数据标注系统的结构框图;
图3是本发明数据标注系统状态转移示意图。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细的描述。
实施例一
以下将介绍现有技术方案中与本发明密切相关的若干公知技术。
半监督学习(Semi-Supervised Learning,SSL)是一种同时利用有标注和无标注数据进行模型训练的机器学习方法。它通过利用大量无标注数据的信息来辅助少量有标注数据的学习过程,可以在有限的标注数据下提高模型的性能,从而提高模型的泛化能力和准确性。然而,传统的半监督学习方法在处理大规模数据标注时存在一些挑战,例如难以处理数据类别不平衡、标注噪声以及标注成本高昂等问题。
预训练语言模型(Pre-trained Language Model,PLM)是一种通过在大规模语料库上进行预训练,从而学习出通用语言表示能力的语言模型。预训练语言模型能够捕捉到语言中的统计规律和语义信息,从而能够生成具有上下文连贯性和语义准确性的语句,并在各种语言任务中提供有用的文本理解和生成能力。强大的预训练语言模型具备涌现性,能够产生出人类语言中新颖而合理的句子和表达方式,利用价值较高,能够在自然语言处理、文本生成和人机交互等领域中发挥重要作用。出色的预训练语言模型包括OpenAI的GPT系列模型、Google的BERT、PaLM、Meta AI的LLaMA、清华大学的ChatGLM等等。目前也出现了多模态的预训练语言模型,即能够处理不同类型的媒体数据,如文本、图像、视频、声音等,包括New Bing、Visual ChatGPT、BLIP-2等等。然而,传统的预训练语言模型往往需要通过额外的监督微调训练来适应的下游具体任务(如情感数据标注任务),限制了其在标注数据不足的情况下的应用效果。
提示语工程(Prompt Engineering)是一种基于预训练语言模型的方法,用于生成标注任务的提示语。提示语(prompt)是在使用预训练语言模型进行特定任务时,提供给模型的输入文本片段或问题,以引导模型准确生成相关的输出。不同提示语可以对模型的输出结果产生显著影响,因此可以使用提示语工程技术设计提示语以实现对任务的指导和控制。离散提示语(Discrete Prompt)和连续提示语(Continuous Prompt)是两种常见的提示语形式。离散提示语是指以离散的方式提供给预训练语言模型的提示语。它通常采用自然语言的形式,可以是一个完整的问题、一句话命令、一组关键词或标签等。譬如,在常识问答任务中,对于问题指引语“哪个国家的首都是巴黎?”可以设计一个离散提示语:“A.德国B.法国C.英国D.美国”。预训练语言模型接收问题和离散提示语作为输入后,可以利用其语义理解能力输出正确答案“B.法国”。而连续提示语是指以连续的实数向量形式提供给预训练语言模型的提示语。它是通过将自然语言转换为实数向量表示,以向量的方式传递任务信息给模型。连续提示语的生成可以利用特定的编码方法,如词嵌入(Word Embedding)或更高级的语义表示方法。离散和连续语提示的选择取决于任务需求和输入数据的形式。离散提示语更加直观且适合人类理解,具有可解释性,适用于以自然语言形式进行任务引导的场景;连续提示语则更适合将任务信息以向量表示传递给模型,适用于需要结合其他输入进行处理的场景。通过设计合理的任务相关提示语,可以引导语言模型对标注任务具备一致正确的理解,提高语言模型对标注任务的理解和准确性。
强化学习(Reinforcement Learning,RL)是一种机器学习方法,通过试错和反馈的机制来优化模型的决策策略。在强化学习中,模型或智能体(agent)通过接收环境的状态(state),并采取特定的动作(action)来影响环境,从而获得一个奖励(reward)。这个过程是连续进行的,智能体根据当前的状态和奖励,通过学习和试错来选择下一步的动作,以达到最大化长期的累积奖励的目标。可见,与其他机器学习方法不同,强化学习不依赖于标记好的训练数据,而是通过与环境进行交互来获取反馈信号。在强化学习中,智能体通常基于价值函数(value function)或者策略函数(policy function)来指导其决策。价值函数用于评估状态或状态-动作对的价值,计算在当前状态下采取特定动作后所获得的长期奖励的期望;策略函数则是智能体选择动作的方式,它将环境及状态映射到动作的一个概率分布。通过优化价值函数或策略函数,强化学习算法可以使智能体逐步学习到最优的行为策略,以最大化累积奖励。特别地,在提示语工程中,强化学习可以用来训练一个智能体来生成高质量的提示语。强化学习可以通过与预训练语言模型的交互,让智能体逐步学习如何生成更好的提示语。首先,智能体根据当前的模型输出,衡量输出的流畅度或其他评估指标。随后,智能体可以根据这个奖励信号来更新自己的策略,调整生成提示语的方式。通过不断的试错和调整,智能体可以逐渐改进生成提示语的质量。
根据模型内部实现细节的公开程度不同,机器学习模型可以分为黑盒/白盒模型(Black-box/White-box Model)。在黑盒模型中,模型的内部结构和参数等实现细节对用户来说是不可见的,用户只能通过输入和输出来使用和了解模型。黑盒模型一般是商用、闭源的,如ChatGPT(GPT-3.5)、GPT-4等,只能通过企业提供的应用程序接口(ApplicationProgramming Interface,API)进行交互。白盒模型则相反,指的是用户可以直接访问和了解模型的内部结构和参数,一般是带研究性质、开源的,如GPT-2、BERT等。自然地,也存在介于黑盒模型和白盒模型之间的灰盒模型(Grey-box Model)。其特点是用户在一定程度上了解系统的内部结构和机制,但并不掌握所有细节。这通常是通过限制对系统内部的访问或信息获取来实现的,以保护商业机密、确保数据隐私或简化建模过程,比如GPT-3。灰盒模型可以视为特殊的黑盒模型。对于预训练语言模型而言,黑盒和白盒语言模型使用不同的提示语优化方法。针对白盒模型的方法也可适用于黑盒模型,但反之不然。对于黑盒模型,只能通过对模型输入和输出的分析,使用提示语挖掘等方法来推断和优化提示语的设计;对于白盒模型,则可以直接访问和修改模型的内部,使用梯度引导搜索等方法针对具体的标注任务进行指导和优化。
主动学习(Active Learning,AL)是一种主动选择具有较高信息量的样本进行标注的学习策略。它通过选择对模型具有挑战性的样本进行标注,以提高模型的性能。一种常用的度量指标是模型的置信度,即模型对样本预测的自信程度。当模型的置信度较低时,意味着模型对该样本的预测不够确信,因此选择这样的样本进行标注可以帮助模型提升性能。此外,信息熵也是常用的度量指标之一。信息熵可以衡量样本的不确定性,即样本的预测结果存在多样性或模棱两可的情况。选择具有较高信息熵的样本进行标注可以帮助模型更好地理解数据的不确定性,提高对复杂情况的处理能力。另外,三元组损失(TripletLoss)也可以用于主动学习中的样本选择。三元组损失是一种用于综合度量同类样本相似度及异类样本差异度的损失函数。通过选择形成“困难”三元组的样本进行标注,可以提供关于决策边界的更多信息,从而改善模型的泛化能力。总之,在数据标注领域,主动学习可以引导标注者优先标注对模型训练有更大帮助的样本,减少标注成本并提高标注数据的效果。然而,传统的主动学习方法通常需要人工参与进行样本选择,限制了其在大规模数据标注中的应用效果。
试标注(Trial Annotation)是指在数据标注中进行的一种临时性标注过程。它是在正式标注之前对一小部分样本进行标注,旨在评估和验证标注方案的可行性、准确性和一致性。这些样本可能代表整个数据集的典型性或具有一定的难度。在试标注过程中,分歧和、Wasserstein距离等指标可以用来定量评估标注人员之间的标注结果不一致性。分歧和是指在试标注过程中,标注结果不一致的样本数。如果在标注结果中存在较大的差异和不一致性,说明标注任务对标注人员来说具有一定的难度或存在模糊性。Wasserstein距离,也称为运土距离(Earth Mover's Distance),是一种用来衡量两个概率分布之间差异的度量方式。在试标注中,可以将不同标注人员的标注结果拟合为概率分布,并计算将一个分布转化为另一个分布的最小运输成本。较小的Wasserstein距离表示两个标注分布之间的差异较小,标注结果更一致。通过以上指标,试标注可以帮助标注团队了解标注任务的要求和标准,以及确定标注流程和标注工具的有效性。通过对试标注结果进行分析和评估,可以发现潜在的问题、不一致性或模棱两可的情况,并进行必要的调整和改进,为后续的正式标注提供指导和经验。
双标注策略(Dual Annotation Strategy)是一种基于多个标注者对同一样本进行独立标注的方法。通过对同一样本的多次独立标注,可以提高标注结果的准确性和一致性。在数据标注领域,双标注策略可以应用于复杂或有争议的标注任务,通过对比不同标注者的结果,最终确定样本的标注结果。双标注策略可以从一定程度上降低标注结果的主观因素和误差,提高标注数据的质量和可靠性。
标注可靠性(Intercoder Reliability)是评估不同标注者之间在进行相同任务时的一致性和一致程度的度量。Krippendorff's alpha是一种常用的标注可靠性度量方法之一,一般用α表示。它可以衡量多个标注者对于同一任务的一致性。它基于标注者之间的实际一致性和期望一致性之间的比较计算得出,取值范围在-1到1之间。α=1表示完全一致,即不同标注者之间的标注结果完全相同,标注数据的可靠性非常高;α≈0表示标注者之间的一致性与随机标注相当,标注结果之间的关联性很低,无法判断标注者之间是否存在一致性;α<0表示标注者之间的一致性低于随机标注的水平,这可能是因为标注者对任务的理解不一致或存在一些系统性的误差。另一种度量标注可靠性的方法是分半信度(Split-half Reliability),它基于对数据集的分割,将数据均分为两个部分并比较它们之间的一致性。这种方法通过计算两个分组的标注结果之间的协方差和总方差,来评估标注者的一致性程度。还有其他的度量方法,例如Fleiss'Kappa、Cohen's Kappa等。这些度量方法的选择取决于具体的标注任务和数据类型。如果标注可靠性较低,则可能需要采取进一步的措施,例如重新培训标注者、提供更清晰的标注指导或采用其他的标注策略来提高一致性。
对于现有技术,如果引入预训练语言模型参与标注,尽管预训练语言模型具有强大的生成能力,但在具体的数据标注任务中,通常仍需要有标注的数据样本来进行模型的微调和训练。在一些领域,如医疗、金融、法律等,高质量的标注数据十分稀缺和昂贵。而对于预训练语言模型来说,如果直接使用少量标注数据进行微调,很可能无法充分利用其强大的语言建模能力。
本实施例通过引入预训练语言模型的生成泛化能力与主动学习的采样策略,智能地选择具有较大信息量的样本进行标注,实现自动化标注和审核,确保标注质量和一致性,减少人工标注需求,降低成本,保护敏感数据标注,从而改进数据标注流程的效率、质量、成本和安全性,优化领域模型的性能。
本实施例一种基于语言模型与主动学习的数据标注方法,如图1所示,包括如下步骤:
S1、通过标注任务的本质与定义确定标注形式,生成离散或连续的指引提示语
基于标注任务的本质及定义确定标注形式,由标注任务管理者以自然语言撰写指引语/>并利用元学习算法,设计损失函数/>随机初始化提示语p0并使用梯度下降算法生成初始指引提示语/>
其中η为学习率,为梯度算子,/>为各预训练语言模型输出;将指引语/>与提示语拼接,得到指引提示语/>使用指引提示语旨在让不同的语言模型对标注任务具备一致正确的理解。
S2、从未标注数据集选取试标注数据与提示语拼接或填充,经人工与N个预训练语言模型/>标注后,计算综合分歧指标/>
从未标注数据集中选取部分数据集/>满足/>xi为第i个未标注数据;设定当前提示语为pt,t为优化次数;让人工与若干预训练语言模型分别对指引提示语/>进行试标注,得到试标注结果计算分歧度、Wasserstein距离等指标/>得到综合分歧指标/>
其中,αi为指标权重;为关于命题P的克罗内克函数,/>为/>中对数据xk的标注结果;/>为/>间的标注对比联合分布集;inf为期望上界;为期望标注偏差。计算综合分歧指标旨在判断预训练语言模型间标注结果是否存在冲突、分布不同等问题。
S3、基于综合分歧指标利用强化学习对提示语进行优化。
如果综合分歧指标>阈值/>则判定提示语pt仍不足以让预训练语言模型有正确一致理解;根据梯度引导搜索(白盒模型)或强化学习(黑盒模型)算法,对提示语pt进行优化,并跳至步骤S2;
如果综合分歧指标≤阈值/>则判定提示语pt能让预训练语言模型有正确一致理解;将数据集/>及步骤S2得到的试标注结果组成标注结果/>将标注结果从未标注数据集/>移入已标注数据集/>跳至步骤S4。
使用强化学习是指:引入一个策略网络πθ,基于原始提示语pt进行优化,并将指引语与中间优化的提示语/>拼接,预训练语言模型/>基于人工标签/>中间指引提示语与数据集/>进行反馈,对策略网络πθ的优化目标为:
其中,为基于标注任务/>的奖励函数;/>为基于原始提示语pt及策略网络πθ形成的中间优化提示语。
S4、利用领域模型评估未标注数据集/>并基于主动学习方法选择当前批注数据/>
使用领域模型评估剩余未标注数据集/>根据领域模型/>输出的信息与主动学习策略选择剩余未标注数据集/>中信息量最高的前k个数据,作为当前批注数据
S5、基于双标注策略将当前批注数据分发至N个预训练语言模型,结合指引语/>优化后的提示语pt进行标注,得到标注结果/>
基于双标注策略将当前批注数据x分发给N个预训练语言模型结合指引语/>优化后的提示语pt进行标注,标注结果/>为:
S6、计算标注结果的分歧度,如果分歧度高于阈值则跳至步骤S3对提示语进行优化。
计算标注结果的分歧度,基于多数投票制判断标注结果/>的是否存在冲突:若任一数据xi的标注结果/>存在冲突,则跳至步骤S3将冲突反馈为新的奖励函数/>给策略网络πθ;若不存在冲突,将当前批注数据x及标注结果/>移入已标注数据集/>
S7、如果未标注数据集不为空且未达到学习停止条件,利用新标注数据对领域模型进行训练并回到步骤S4;否则标注结束。
如果未标注数据集不为空且未达到学习停止条件,使用当前标注数据训练领域模型/>并跳至步骤S4继续进行标注;如果未标注数据集/>为空或达到学习停止条件,标注结束。
步骤S7之后,优选还包括:步骤S8,基于Krippendorff's alpha、分半信度等指标,对标注数据进行综合评估得到综合评估结果s;综合评估结果s的计算方法是:
其中,βi为指标si的权重系数;代表标注任务的类别集合,mk为对数据xk的合格标注数量且满足mk≤N,np为所有标注结果的两两配对数,nc.为被标注为类别c.的数据个数,为关于命题P的克罗内克函数,/>代表对数据xk的第j标注结果分类为c;/>为/>从m到n的分割,Cov(·,·)为两组分割的协方差,Var(·)为整体方差。
也可以使用Cohen's Kappa、Scott's Pi等其他方法评估已标注数据集。
为实现所述基于语言模型与主动学习的数据标注方法,本实施例还提供一种数据标注系统,如图2和图3所示,包括:
A.提示语优化模块:负责根据试标注分歧指标基于强化学习等算法对标注指引语/>及提示语pt进行初始化或迭代优化;
B.试标注模块:负责从未标注数据中采样极少部分作为试标注样本/>结合当前指引语/>及提示语pt分发人工与N个预训练语言模型/>进行标注。旨在验证提示语是否能让预训练语言模型对任务有统一正确理解;
C.数据分发模块:负责主动学习采样策略,使用领域模型从未标注数据/>中选择出最具标注价值的k个样本/>加入或舍弃问题样本,并按照双标注策略分发给N个预训练语言模型/>进行标注;
D.数据标注模块:负责收集预训练语言模型的样本标注结果可能涉及将预训练语言模型(尤其生成式)的非结构化输出转换为结构化标注结果;
E.输出评估模块:负责检查标注结果是否存在冲突等问题。可要求数据分发模块处理问题样本;
F.最终评估模块:负责基于Krippendorff's alpha等指标输出综合指标s,对最终已标注数据集进行一致性等方面评估。
实施例二
本实施例一种可读存储介质,其中所述可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行实施例一所述的基于语言模型与主动学习的数据标注方法。
实施例三
本实施例一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现实施例一所述的基于语言模型与主动学习的数据标注方法。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种基于语言模型与主动学习的数据标注方法,其特征在于:包括如下步骤:
S1、通过标注任务的本质与定义确定标注形式,生成离散或连续的指引提示语
S2、从未标注数据集选取试标注数据与提示语拼接或填充,经人工与N个预训练语言模型/>标注后,计算综合分歧指标/>
S3、基于综合分歧指标利用强化学习对提示语进行优化;
S4、利用领域模型评估未标注数据集/>并基于主动学习方法选择当前批注数据
S5、基于双标注策略将当前批注数据分发至N个预训练语言模型,结合指引语z、优化后的提示语pt进行标注,得到标注结果/>
S6、计算标注结果的分歧度,如果分歧度高于阈值则跳至步骤S3对提示语进行优化;
S7、如果未标注数据集不为空且未达到学习停止条件,利用新标注数据对领域模型进行训练并回到步骤S4;否则标注结束。
2.根据权利要求1所述的基于语言模型与主动学习的数据标注方法,其特征在于:所述步骤S1,是指:基于标注任务的本质及定义确定标注形式,由标注任务管理者以自然语言撰写指引语z;并利用元学习算法,设计损失函数/>随机初始化提示语p0并使用梯度下降算法生成初始指引提示语/>
其中η为学习率,为梯度算子,/>为各预训练语言模型输出;将指引语z与提示语拼接,得到指引提示语/>
3.根据权利要求1所述的基于语言模型与主动学习的数据标注方法,其特征在于:所述步骤S2,是指:从未标注数据集中选取部分数据集/>满足xi为第i个未标注数据;设定当前提示语为pt,t为优化次数;让人工与若干预训练语言模型/>分别对指引提示语/>进行试标注,得到试标注结果/>计算指标/>得到综合分歧指标/>
其中,ai为指标权重;为关于命题P的克罗内克函数,/>为/>中对数据xk的标注结果;/>为/>间的标注对比联合分布集;inf为期望上界;为期望标注偏差。
4.根据权利要求1所述的基于语言模型与主动学习的数据标注方法,其特征在于:所述步骤S3,是指:如果综合分歧指标>阈值/>则判定提示语pt仍不足以让预训练语言模型有正确一致理解;根据梯度引导搜索或强化学习算法,对提示语pt进行优化,并跳至步骤S2;
如果综合分歧指标≤阈值/>则判定提示语pt能让预训练语言模型有正确一致理解;将数据集/>及步骤S2得到的试标注结果组成标注结果/>将标注结果/>从未标注数据集/>移入已标注数据集/>跳至步骤S4。
5.根据权利要求4所述的基于语言模型与主动学习的数据标注方法,其特征在于:所述步骤S3中,使用强化学习是指:引入一个策略网络πθ,基于原始提示语pt进行优化,并将指引语z与中间优化的提示语拼接,预训练语言模型/>基于人工标签/>中间指引提示语与数据集/>进行反馈,对策略网络πθ的优化目标为:
其中,为基于标注任务/>的奖励函数;/>为基于原始提示语pt及策略网络πθ形成的中间优化提示语。
6.根据权利要求1所述的基于语言模型与主动学习的数据标注方法,其特征在于:所述步骤S4,是指:使用领域模型评估剩余未标注数据集/>根据领域模型/>输出的信息与主动学习策略选择剩余未标注数据集/>中信息量最高的前k个数据,作为当前批注数据
所述步骤S6,是指:
计算标注结果的分歧度,基于多数投票制判断标注结果/>的是否存在冲突:若任一数据xi的标注结果/>存在冲突,则跳至步骤S3将冲突反馈为新的奖励函数/>给策略网络πθ;若不存在冲突,将当前批注数据/>及标注结果/>移入已标注数据集/>
7.根据权利要求1所述的基于语言模型与主动学习的数据标注方法,其特征在于:所述步骤S5,是指:基于双标注策略将当前批注数据分发给N个预训练语言模型结合指引语z、优化后的提示语pt进行标注,标注结果/>为:
所述步骤S7,是指:如果未标注数据集不为空且未达到学习停止条件,使用当前标注数据训练领域模型/>并跳至步骤S4继续进行标注;如果未标注数据集/>为空或达到学习停止条件,标注结束。
8.根据权利要求1所述的基于语言模型与主动学习的数据标注方法,其特征在于:所述步骤S7之后,还包括:步骤S8,对标注数据进行综合评估得到综合评估结果s;综合评估结果s的计算方法是:
其中,βi为指标si的权重系数;代表标注任务的类别集合,mk为对数据xk的合格标注数量且满足mk≤N,np为所有标注结果的两两配对数,nc.为被标注为类别c.的数据个数,/>为关于命题P的克罗内克函数,yjk~c代表对数据xk的第j标注结果分类为c;/>为/>从m到n的分割,Cov(·,·)为两组分割的协方差,Var(·)为整体方差。
9.一种可读存储介质,其特征在于,其中所述存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行权利要求1-8中任一项所述的基于语言模型与主动学习的数据标注方法。
10.一种计算机设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于,所述处理器执行存储器存储的程序时,实现权利要求1-8中任一项所述的基于语言模型与主动学习的数据标注方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311419459.0A CN117669764A (zh) | 2023-10-30 | 2023-10-30 | 基于语言模型与主动学习的数据标注方法、介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311419459.0A CN117669764A (zh) | 2023-10-30 | 2023-10-30 | 基于语言模型与主动学习的数据标注方法、介质及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117669764A true CN117669764A (zh) | 2024-03-08 |
Family
ID=90074229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311419459.0A Pending CN117669764A (zh) | 2023-10-30 | 2023-10-30 | 基于语言模型与主动学习的数据标注方法、介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117669764A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118195032A (zh) * | 2024-05-17 | 2024-06-14 | 山东浪潮科学研究院有限公司 | 一种具备主动学习能力的大模型自动进化系统及方法 |
-
2023
- 2023-10-30 CN CN202311419459.0A patent/CN117669764A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118195032A (zh) * | 2024-05-17 | 2024-06-14 | 山东浪潮科学研究院有限公司 | 一种具备主动学习能力的大模型自动进化系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487182B (zh) | 文本处理模型的训练方法、文本处理方法及装置 | |
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN109478205B (zh) | 用于计算机学习和理解的体系结构和方法 | |
Fu et al. | Aligning where to see and what to tell: Image captioning with region-based attention and scene-specific contexts | |
Lu et al. | Knowing when to look: Adaptive attention via a visual sentinel for image captioning | |
CN111382253B (zh) | 语义解析方法及语义解析器 | |
US11645479B1 (en) | Method for AI language self-improvement agent using language modeling and tree search techniques | |
CN109800434B (zh) | 基于眼动注意力的抽象文本标题生成方法 | |
US11990058B2 (en) | Machine grading of short answers with explanations | |
CN109857846B (zh) | 用户问句与知识点的匹配方法和装置 | |
CN105930368A (zh) | 一种情感分类方法及系统 | |
CN113408430B (zh) | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 | |
CN111881292B (zh) | 一种文本分类方法及装置 | |
CN115034221B (zh) | 基于BiLSTM结合全局指针的重叠关系抽取系统 | |
US11893990B2 (en) | Audio file annotation | |
CN115392252A (zh) | 一种融合自注意力与层级残差记忆网络的实体识别方法 | |
CN116956866A (zh) | 剧情数据处理方法、装置、设备、存储介质及程序产品 | |
CN111382563B (zh) | 文本相关性的确定方法及装置 | |
CN117669764A (zh) | 基于语言模型与主动学习的数据标注方法、介质及设备 | |
KR102340485B1 (ko) | 시놉시스 텍스트 분석 및 시청률 예측 방법 | |
CN112488111A (zh) | 一种基于多层级表达引导注意力网络的指示表达理解方法 | |
US11948560B1 (en) | Method for AI language self-improvement agent using language modeling and tree search techniques | |
CN117992614A (zh) | 一种中文网络课程评论情感分类方法、装置、设备和介质 | |
CN116757195A (zh) | 一种基于提示学习的隐性情感识别方法 | |
Osuji et al. | A Systematic Review of Data-to-Text NLG |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |