CN111832294B - 标注数据的选择方法、装置、计算机设备和存储介质 - Google Patents
标注数据的选择方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111832294B CN111832294B CN202010592331.4A CN202010592331A CN111832294B CN 111832294 B CN111832294 B CN 111832294B CN 202010592331 A CN202010592331 A CN 202010592331A CN 111832294 B CN111832294 B CN 111832294B
- Authority
- CN
- China
- Prior art keywords
- dictionary
- model
- data
- target
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Machine Translation (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及区块链技术领域,提供了标注数据的选择方法、装置、计算机设备和存储介质,包括:基于存储于区块链中的agent模型从目标字典中选择出字典标注数据;将预设的人工标注数据分成人工训练集以及人工测试集;将字典标注数据以及人工训练集构成模型训练集,输入至预设的实体识别模型中进行训练;将人工测试集输入至训练后的实体识别模型中进行测试,得到人工测试集的预测标注为正确标注的正确概率;计算正确概率与预设概率的差值,并判断差值是否小于阈值,若不小于,则基于agent模型从目标字典中选择出优化的字典标注数据。本申请可以选择出质量高的标注数据。本申请中的方案还可以应用智慧城市的智慧医疗领域中,从而推动智慧城市的建设。
Description
技术领域
本申请涉及区块链技术领域,特别涉及一种标注数据的选择方法、装置、计算机设备和存储介质。
背景技术
实体识别是自然语言处理任务中的第一步,同时也是非常关键的一步。特别是在金融、电商、医疗等垂直领域,实体识别都是自然语言处理任务的关键,例如实体链接,实体间的关系抽取,关系分类等下游任务会层层传递上游任务带来的误差。
随着深度学习的发展,神经网络方法加上传统的条件随机场(crf)在实体识别任务上可以取得非常好的效果。但是对于业务场景来说,深度学习的应用也带来了一些问题。例如,神经网络自主学习特征的能力虽然很强大,但往往需要大量的符合真实分布的训练数据,然而对于一个新领域的实体识别任务,高质量的标注数据会耗费大量的标注时间和人力标注成本。在垂直领域,虽然可以利用一个相关领域词典,通过远程监督的方法,对数据进行字典标注,但这可能会引入有噪音的数据或者标注不完整的实体,对实体识别任务有较大影响。例如在医疗领域对疾病的表述:“糖尿病伴酮症”,只标注了“糖尿病”,“过敏性哮喘”标注为“过敏”和“哮喘”等实体不完整的情况。但在医学上,这些不同实体的描述和治疗都不尽相同。只采用字典标注,会使得模型学习不到这种组合病症的特征,导致最后的实体标注效果不理想,在之后的下游任务也会因为错误的传导而效果不佳。
发明内容
本申请的主要目的为提供一种标注数据的选择方法、装置、计算机设备和存储介质,旨在克服目前标注数据不完整以及无法选择质量高的标注数据的缺陷。
为实现上述目的,本申请提供了一种标注数据的选择方法,包括以下步骤:
基于知识图谱,构建目标实体扩充至预设字典中,以得到扩充后的字典作为目标字典;其中,所述目标字典中均为标注数据;所述目标实体与所述预设字典中的实体具备关联关系;
基于agent模型从所述目标字典中选择出字典标注数据;
将预设的人工标注数据分成人工训练集以及人工测试集;
将所述字典标注数据以及所述人工训练集构成模型训练集,并将所述模型训练集输入至预设的实体识别模型中进行训练;
将所述人工测试集输入至训练后的实体识别模型中进行测试,得到所述人工测试集的预测标注为正确标注的正确概率;
计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则基于所述agent模型从所述目标字典中选择出优化的字典标注数据,并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。
进一步地,所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤,包括:
分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量,将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量;
将所述拼接向量输入至预设的实体识别模型中,输出得到第一特征向量;
将所述第一特征向量与所述拼接向量进行组合,并输入至预设的实体识别模型中,输出得到第二特征向量;
将所述第二特征向量输入至预设的实体识别模型的分类层中,进行训练以优化所述分类层的网络参数。
进一步地,所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤之前,包括:
获取公开数据集;
基于所述公开数据集,训练初始长短记忆模型,以得到预设的实体识别模型。
进一步地,所述基于知识图谱,构建与预设字典中的实体具备关联关系的实体添加至所述预设字典中,以得到扩充后的字典作为目标字典的步骤之前,还包括:
接收用户输入的模型训练指令,其中所述模型训练指令中携带有所要训练的模型的应用领域信息;
根据所述应用领域信息,获取对应领域的预设字典。
进一步地,所述计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据的步骤之后,包括:
迭代训练预设的实体识别模型,直至所述正确概率与预设概率的差值小于所述阈值,得到目标实体识别模型;
接收用户输入的目标文本,以及接收对所述目标文本中的实体识别请求指令;
基于所述请求指令,识别所述目标文本的领域信息;
判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同;
若相同,则基于所述目标实体识别模型对所述目标文本进行命名实体识别;若不相同,则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
进一步地,所述方法还包括:
将所述目标字典、agent模型、人工标注数据、预设的实体识别模型存储于区块链中。
本申请还提供了一种标注数据的选择装置,包括:
构建单元,用于基于知识图谱,构建目标实体扩充至预设字典中,以得到扩充后的字典作为目标字典;其中,所述目标字典中均为标注数据;所述目标实体与所述预设字典中的实体具备关联关系;
选择单元,用于基于agent模型从所述目标字典中选择出字典标注数据;
分类单元,用于将预设的人工标注数据分成人工训练集以及人工测试集;
训练单元,用于将所述字典标注数据以及所述人工训练集构成模型训练集,并将所述模型训练集输入至预设的实体识别模型中进行训练;
测试单元,用于将所述人工测试集输入至训练后的实体识别模型中进行测试,得到所述人工测试集的预测标注为正确标注的正确概率;
判断单元,用于计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则基于所述agent模型从所述目标字典中选择出优化的字典标注数据,并重新执行将所述字典标注数据以及所述人工训练集构成模型训练集。
进一步地,所述训练单元,包括:
构建子单元,用于分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量,将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量;
第一输出子单元,用于将所述拼接向量输入至预设的实体识别模型中,输出得到第一特征向量;
第二输出子单元,用于将所述第一特征向量与所述拼接向量进行组合,并输入至预设的实体识别模型中,输出得到第二特征向量;
训练子单元,用于将所述第二特征向量输入至预设的实体识别模型的分类层中,进行训练以优化所述分类层的网络参数。
进一步地,还包括:
第一获取单元,用于获取公开数据集;
初始训练单元,用于基于所述公开数据集,训练初始长短记忆模型,以得到预设的实体识别模型。
进一步地,还包括:
第一接收单元,用于接收用户输入的模型训练指令,其中所述模型训练指令中携带有所要训练的模型的应用领域信息;
第二获取单元,用于根据所述应用领域信息,获取对应领域的预设字典。
进一步地,还包括:
迭代单元,用于迭代训练预设的实体识别模型,直至所述正确概率与预设概率的差值小于所述阈值,得到目标实体识别模型;
第二接收单元,用于接收用户输入的目标文本,以及接收对所述目标文本中的实体识别请求指令;
识别单元,用于基于所述请求指令,识别所述目标文本的领域信息;
领域判断单元,用于判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同;
处理单元,用于若相同,则基于所述目标实体识别模型对所述目标文本进行命名实体识别;若不相同,则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请提供的标注数据的选择方法、装置、计算机设备和存储介质,基于知识图谱,构建目标实体添加至预设字典中,以得到扩充后的字典作为目标字典,使得目标字典中的字典标注数据更完整;同时,基于人工标注数据与字典标注数据共同训练实体识别模型,判断选择出的字典标注数据的质量是否符合要求,若不符合,则从目标字典中选择出优化的字典标注数据,即实现了选择出质量更高的字典标注数据。
附图说明
图1是本申请一实施例中标注数据的选择方法步骤示意图;
图2是本申请一实施例中标注数据的选择装置结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种标注数据的选择方法,包括以下步骤:
步骤S1,基于知识图谱,构建目标实体扩充至预设字典中,以得到扩充后的字典作为目标字典;其中,所述目标字典中均为标注数据;所述目标实体与所述预设字典中的实体具备关联关系;
步骤S2,基于agent模型从所述目标字典中选择出字典标注数据;
步骤S3,将预设的人工标注数据分成人工训练集以及人工测试集;
步骤S4,将所述字典标注数据以及所述人工训练集构成模型训练集,并将所述模型训练集输入至预设的实体识别模型中进行训练;
步骤S5,将所述人工测试集输入至训练后的实体识别模型中进行测试,得到所述人工测试集的预测标注为正确标注的正确概率;
步骤S6,计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则基于所述agent模型从所述目标字典中选择出优化的字典标注数据,并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。
在本实施例中,上述方法应用于训练实体识别模型过程中对训练所需要的标注数据进行筛选,该实体识别模型用于识别医疗文本领域中的实体。本实施例中的方案还可以应用智慧城市的智慧医疗领域中,从而推动智慧城市的建设。在智慧医疗领域的业务场景中,其中用于训练实体识别模型的高质量标注数据较少,高质量的标注数据通常为人工标注。因此本实施例中结合了少量的高质量人工标注数据以及相近领域中的词典得到训练样本,可有效增加数据量,使得模型得到较大的训练集,提高模型泛化性。
具体地,如上述步骤S1所述的,上述预设字典中为利用垂直领域的实体字典标注句子得到的标注数据,为了进一步增强上述字典中标注数据的完整性、准确性,基于知识图谱,构建与上述预设字典中的实体具备关联关系的目标实体添加在上述预设字典中,以扩充上述预设字典。上述关联关系指的是:针对预设字典中的疾病、症状的实体构建出对应的别名,例如“慢性支气管炎”扩充“慢支”;构建与预设字典中实体相似度较高的目标实体,其中相似度的计算方法可以基于字符串最短编辑距离,拼音,偏旁部首等特征进行单独或是组合计算;此外,针对预设字典中实体的一些性状描述进行相似词或是反义词的替换,例如将“急性哮喘”扩充“慢性哮喘”,“糖尿病伴高血压”扩充“糖尿病不伴高血压”等。经过上述扩充之后,不仅增加上述预设字典中的标注数据数据量,而且对于医疗领域中的实体描述更加完整、准确。
如上述步骤S2所述的,上述agent模型(智能体模型)基于强化学习训练得到,其用于从目标字典标注的标注数据中挑选出标注正确的字典标注数据,其每次挑选出的数据具有导向性,使得标注质量越来越高,被挑选出来的数据再用于训练实体识别模型;因为字典标注的数据会有不完整或时不正确的情况,因此需要由agent模型不断挑选出更加准确的数据,即优化用于训练实体识别模型的字典标注数据。
如上述步骤S3所述的,上述人工标注数据为人工标注所得,其为高质量标注数据,在训练模型时需要经历训练阶段以及测试阶段,因此,需要将上述人工标注数据分成人工训练集以及人工测试集。
如上述步骤S4所述的,上述人工训练集的数据量较小,因此,需要将其与上述目标字典中选择出的字典标注数据共同组合成训练数据,得到模型训练集,增加训练数据的数据量;将所述模型训练集输入至预设的实体识别模型中进行训练,以提升实体识别模型的泛化性。上述实体识别模型包括BiLSTM-CRF模型。
在使用上述模型训练集训练上述实体识别模型之后,由于其训练数据中不仅仅包括高质量的人工标注数据,还可能包括一些不完整、不准确的字典标注数据。可以理解的是,若上述字典标注数据不完整、不准确,将会使得上述训练后的实体识别模型采用上述人工测试集进行测试时,得到的标注准确率下降。而正常采用上述人工测试集进行测试时的准确率应当为1,上述1可以作为一个预设概率。
因此,如上述步骤S5-S6所述的,将上述人工测试集输入至训练后的实体识别模型中进行测试,得到所述人工测试集的预测标注为正确标注的正确概率,进而再计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值;若上述正确概率接近于上述预设概率(即差值较小),则表明上述字典标注数据质量较好;若上述正确概率不接近于上述预设概率(即差值较大),则表明上述字典标注数据质量不好,必定有较多的不完整、不准确的标注数据,影响了上述实体识别模型的识别准确率。此时,则可以触发上述agent模型重新从所述目标字典中选择出更加优化的字典标注数据,进而重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。由于上述agent模型基于强化学习训练,其迭代挑选出的字典标注数据,均是根据测试结果定向选择出的更加准确的标注数据。其选择出的标注数据继续输入至上述实体识别模型中进行训练,依次迭代训练,直至测试结果趋于稳定之后,则完成训练。
在本实施例中,首先通过人工标注少量的标注数据,利用垂直领域的实体字典,用字典标注句子得到字典标注数据,增强数据,生成大量的数据集,使得模型得到较大的训练集,提高模型泛化性。再通过强化学习的方法,对由远程监督生成的不完整和带噪音的数据进行筛选,在人工标注小数据集这一先验知识的指导下进行训练,使得模型同时在人工标注的数据以及字典标注的数据上训练,减少人工标注的时间成本,提高模型的召回率。
在一实施例中,所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤S4,包括:
步骤S401,分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量,将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量;
步骤S402,将所述拼接向量输入至预设的实体识别模型中,输出得到第一特征向量;
步骤S403,将所述第一特征向量与所述拼接向量进行组合,并输入至预设的实体识别模型中,输出得到第二特征向量;
步骤S404,将所述第二特征向量输入至预设的实体识别模型的分类层中,进行训练以优化所述分类层的网络参数。
在本实施例中,训练上述预设的实体识别模型时,为了加强上述训练集中每一个文本数据的词与字的特性表达,分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量,将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量;然后将所述拼接向量输入至预设的实体识别模型中,输出得到第一特征向量;为了进一步地提升上述实体识别模型对上述文本数据的特征表达,提升特征提取深度;因此,将上述第一特征向量与所述拼接向量进行组合之后,再次输入至预设的实体识别模型中,输出得到第二特征向量,该第二特征向量作为上述文本数据对应的特征向量。最后,输入至分类层中进行迭代训练,优化网络参数得到训练完成的实体识别模型。
在一实施例中,所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤S4之前,包括:
获取公开数据集;
基于所述公开数据集,训练初始长短记忆模型,以得到预设的实体识别模型。
在本实施例中,在采用模型训练集训练模型之前,需要首先训练得到上述预设的实体识别模型。在本实施例中,可以采用公开数据集训练初始长短记忆模型,以初始化其中神经网络参数,得到上述预设的实体识别模型。随后再采用模型训练集进行训练,这种方法能够有效提升模型的鲁棒性。
在一实施例中,所述基于知识图谱,构建与预设字典中的实体具备关联关系的实体添加至所述预设字典中,以得到扩充后的字典作为目标字典的步骤S1之前,还包括:
步骤S1a,接收用户输入的模型训练指令,其中所述模型训练指令中携带有所要训练的模型的应用领域信息;
步骤S1b,根据所述应用领域信息,获取对应领域的预设字典。
在本实施例中,为了使得训练得到的实体识别模型更好的识别效果,应当是采用对应领域的标注数据进行模型训练。用户在发出训练模型的需求时,可以输入相应的模型训练指令,在该模型训练指令中可以携带有所要训练的模型的应用领域信息。根据该应用领域信息,便可以获取到对应领域的标注数据,采用对应领域的标注数据,便于更好训练上述模型,得到的实体识别模型在识别对应领域的文本时,其效果更佳。
在一实施例中,所述计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据的步骤S6之后,包括:
步骤S7,迭代训练预设的实体识别模型,直至所述正确概率与预设概率的差值小于所述阈值,得到目标实体识别模型;
步骤S8,接收用户输入的目标文本,以及接收对所述目标文本中的实体识别请求指令;
步骤S9,基于所述请求指令,识别所述目标文本的领域信息;
步骤S10,判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同;
步骤S11,若相同,则基于所述目标实体识别模型对所述目标文本进行命名实体识别;若不相同,则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
在本实施例中,在利用上述目标实体识别模型进行目标文本中的实体识别时,上述目标文本可能不是医疗领域的文本,因此,为了提高识别的准确率,避免识别错误,需要首先识别所述目标文本的领域信息,若该目标文本的领域信息与上述目标实体识别模型的应用领域信息相同,则利用目标实体识别模型进行命名实体识别时,可以显著提升准确率。若目标文本的领域信息与上述目标实体识别模型的应用领域信息不相同,则需要获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
在一实施例中,上述预设字典、目标字典、agent模型、人工标注数据、预设的实体识别模型,存储于区块链中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
参照图2,本申请一实施例中还提供了一种标注数据的选择装置,包括:
构建单元,用于基于知识图谱,构建目标实体扩充至预设字典中,以得到扩充后的字典作为目标字典;其中,所述目标字典中均为标注数据;所述目标实体与所述预设字典中的实体具备关联关系;
选择单元,用于基于agent模型从所述目标字典中选择出字典标注数据;
分类单元,用于将预设的人工标注数据分成人工训练集以及人工测试集;
训练单元,用于将所述字典标注数据以及所述人工训练集构成模型训练集,并将所述模型训练集输入至预设的实体识别模型中进行训练;
测试单元,用于将所述人工测试集输入至训练后的实体识别模型中进行测试,得到所述人工测试集的预测标注为正确标注的正确概率;
判断单元,用于计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则基于所述agent模型从所述目标字典中选择出优化的字典标注数据,并重新执行将所述字典标注数据以及所述人工训练集构成模型训练集。
在一实施例中,所述训练单元,包括:
构建子单元,用于分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量,将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量;
第一输出子单元,用于将所述拼接向量输入至预设的实体识别模型中,输出得到第一特征向量;
第二输出子单元,用于将所述第一特征向量与所述拼接向量进行组合,并输入至预设的实体识别模型中,输出得到第二特征向量;
训练子单元,用于将所述第二特征向量输入至预设的实体识别模型的分类层中,进行训练以优化所述分类层的网络参数。
在一实施例中,还包括:
第一获取单元,用于获取公开数据集;
初始训练单元,用于基于所述公开数据集,训练初始长短记忆模型,以得到预设的实体识别模型。
在一实施例中,还包括:
第一接收单元,用于接收用户输入的模型训练指令,其中所述模型训练指令中携带有所要训练的模型的应用领域信息;
第二获取单元,用于根据所述应用领域信息,获取对应领域的预设字典。
在一实施例中,还包括:
迭代单元,用于迭代训练预设的实体识别模型,直至所述正确概率与预设概率的差值小于所述阈值,得到目标实体识别模型;
第二接收单元,用于接收用户输入的目标文本,以及接收对所述目标文本中的实体识别请求指令;
识别单元,用于基于所述请求指令,识别所述目标文本的领域信息;
领域判断单元,用于判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同;
处理单元,用于若相同,则基于所述目标实体识别模型对所述目标文本进行命名实体识别;若不相同,则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
在一实施例中,所述装置还包括:
存储单元,用于将所述目标字典、agent模型、人工标注数据、预设的实体识别模型存储于区块链中。
在本实施例中,上述单元、子单元的具体实现请参照上述方法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储标注数据、模型等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标注数据的选择方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种标注数据的选择方法。可以理解的是,本实施例中的计算机可读存储介质可以是易失性可读存储介质,也可以为非易失性可读存储介质。
综上所述,为本申请实施例中提供的标注数据的选择方法、装置、计算机设备和存储介质,基于知识图谱,构建目标实体添加至预设字典中,以得到扩充后的字典作为目标字典,使得目标字典中的字典标注数据更完整;同时,基于人工标注数据与字典标注数据共同训练实体识别模型,判断选择出的字典标注数据的质量是否符合要求,若不符合,则从目标字典中选择出优化的字典标注数据,即实现了选择出质量更高的字典标注数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种标注数据的选择方法,其特征在于,包括以下步骤:
基于知识图谱,构建目标实体扩充至预设字典中,以得到扩充后的字典作为目标字典;其中,所述目标字典中均为标注数据;所述目标实体与所述预设字典中的实体具备关联关系;
基于agent模型从所述目标字典中选择出字典标注数据;
将预设的人工标注数据分成人工训练集以及人工测试集;
将所述字典标注数据以及所述人工训练集构成模型训练集,并将所述模型训练集输入至预设的实体识别模型中进行训练;
将所述人工测试集输入至训练后的实体识别模型中进行测试,得到所述人工测试集的预测标注为正确标注的正确概率;
计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则基于所述agent模型从所述目标字典中选择出优化的字典标注数据,并重新进入将所述字典标注数据以及所述人工训练集构成模型训练集的步骤。
2.根据权利要求1所述的标注数据的选择方法,其特征在于,所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤,包括:
分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量,将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量;
将所述拼接向量输入至预设的实体识别模型中,输出得到第一特征向量;
将所述第一特征向量与所述拼接向量进行组合,并输入至预设的实体识别模型中,输出得到第二特征向量;
将所述第二特征向量输入至预设的实体识别模型的分类层中,进行训练以优化所述分类层的网络参数。
3.根据权利要求1所述的标注数据的选择方法,其特征在于,所述将所述模型训练集输入至预设的实体识别模型中进行训练的步骤之前,包括:
获取公开数据集;
基于所述公开数据集,训练初始长短记忆模型,以得到预设的实体识别模型。
4.根据权利要求1所述的标注数据的选择方法,其特征在于,所述基于知识图谱,构建与预设字典中的实体具备关联关系的实体添加至所述预设字典中,以得到扩充后的字典作为目标字典的步骤之前,还包括:
接收用户输入的模型训练指令,其中所述模型训练指令中携带有所要训练的模型的应用领域信息;
根据所述应用领域信息,获取对应领域的预设字典。
5.根据权利要求4所述的标注数据的选择方法,其特征在于,所述计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据的步骤之后,包括:
迭代训练预设的实体识别模型,直至所述正确概率与预设概率的差值小于所述阈值,得到目标实体识别模型;
接收用户输入的目标文本,以及接收对所述目标文本中的实体识别请求指令;
基于所述请求指令,识别所述目标文本的领域信息;
判断所述目标文本的领域信息与所述目标实体识别模型的应用领域信息是否相同;
若相同,则基于所述目标实体识别模型对所述目标文本进行命名实体识别;若不相同,则获取对应所述目标文本的领域信息的训练数据重新训练所述目标实体识别模型。
6.根据权利要求1所述的标注数据的选择方法,其特征在于,还包括:
将所述目标字典、agent模型、人工标注数据、预设的实体识别模型存储于区块链中。
7.一种标注数据的选择装置,其特征在于,包括:
构建单元,用于基于知识图谱,构建目标实体扩充至预设字典中,以得到扩充后的字典作为目标字典;其中,所述目标字典中均为标注数据;所述目标实体与所述预设字典中的实体具备关联关系;
选择单元,用于基于agent模型从所述目标字典中选择出字典标注数据;
分类单元,用于将预设的人工标注数据分成人工训练集以及人工测试集;
训练单元,用于将所述字典标注数据以及所述人工训练集构成模型训练集,并将所述模型训练集输入至预设的实体识别模型中进行训练;
测试单元,用于将所述人工测试集输入至训练后的实体识别模型中进行测试,得到所述人工测试集的预测标注为正确标注的正确概率;
判断单元,用于计算所述正确概率与预设概率的差值,并判断所述差值是否小于阈值,若不小于,则重新基于所述agent模型从所述目标字典中选择出优化的字典标注数据,并重新执行将所述字典标注数据以及所述人工训练集构成模型训练集。
8.根据权利要求7所述的标注数据的选择装置,其特征在于,所述训练单元,包括:
构建子单元,用于分别构建所述模型训练集中每一个文本数据对应的字向量以及词向量,将同一个文本数据对应的字向量以及词向量进行拼接得到拼接向量;
第一输出子单元,用于将所述拼接向量输入至预设的实体识别模型中,输出得到第一特征向量;
第二输出子单元,用于将所述第一特征向量与所述拼接向量进行组合,并输入至预设的实体识别模型中,输出得到第二特征向量;
训练子单元,用于将所述第二特征向量输入至预设的实体识别模型的分类层中,进行训练以优化所述分类层的网络参数。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010592331.4A CN111832294B (zh) | 2020-06-24 | 2020-06-24 | 标注数据的选择方法、装置、计算机设备和存储介质 |
PCT/CN2020/118533 WO2021139257A1 (zh) | 2020-06-24 | 2020-09-28 | 标注数据的选择方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010592331.4A CN111832294B (zh) | 2020-06-24 | 2020-06-24 | 标注数据的选择方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832294A CN111832294A (zh) | 2020-10-27 |
CN111832294B true CN111832294B (zh) | 2022-08-16 |
Family
ID=72898915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010592331.4A Active CN111832294B (zh) | 2020-06-24 | 2020-06-24 | 标注数据的选择方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111832294B (zh) |
WO (1) | WO2021139257A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807097B (zh) * | 2020-10-30 | 2024-07-26 | 北京中科凡语科技有限公司 | 命名实体识别模型建立方法及命名实体识别方法 |
CN113158652B (zh) * | 2021-04-19 | 2024-03-19 | 平安科技(深圳)有限公司 | 基于深度学习模型的数据增强方法、装置、设备及介质 |
CN112926697B (zh) * | 2021-04-21 | 2021-10-12 | 北京科技大学 | 一种基于语义分割的磨粒图像分类方法及装置 |
CN113268593A (zh) * | 2021-05-18 | 2021-08-17 | Oppo广东移动通信有限公司 | 意图分类和模型的训练方法、装置、终端及存储介质 |
CN113378570B (zh) * | 2021-06-01 | 2023-12-12 | 车智互联(北京)科技有限公司 | 一种实体识别模型的生成方法、计算设备及可读存储介质 |
CN113434491B (zh) * | 2021-06-18 | 2022-09-02 | 深圳市曙光信息技术有限公司 | 面向深度学习ocr识别的字模数据清洗方法、系统及介质 |
CN113591467B (zh) * | 2021-08-06 | 2023-11-03 | 北京金堤征信服务有限公司 | 事件主体识别方法及装置、电子设备、介质 |
CN114004233B (zh) * | 2021-12-30 | 2022-05-06 | 之江实验室 | 一种基于半训练和句子选择的远程监督命名实体识别方法 |
CN115757784B (zh) * | 2022-11-21 | 2023-07-07 | 中科世通亨奇(北京)科技有限公司 | 基于标注模型和标签模板筛选的语料标注方法及装置 |
CN118035444A (zh) * | 2024-02-20 | 2024-05-14 | 安徽彼亿网络科技有限公司 | 一种基于大数据的资讯信息提取方法及装置 |
CN118332136B (zh) * | 2024-06-12 | 2024-08-16 | 电子科技大学长三角研究院(衢州) | 一种基于知识图谱的中文部首嵌入方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908085A (zh) * | 2010-06-28 | 2010-12-08 | 北京航空航天大学 | 一种基于多Agent的分布式推演仿真系统与方法 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
CN109697289A (zh) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | 一种改进的用于命名实体识别的主动学习方法 |
CN110134969A (zh) * | 2019-05-27 | 2019-08-16 | 北京奇艺世纪科技有限公司 | 一种实体识别方法和装置 |
CN110717040A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
CN111178045A (zh) * | 2019-10-14 | 2020-05-19 | 深圳软通动力信息技术有限公司 | 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质 |
CN111259134A (zh) * | 2020-01-19 | 2020-06-09 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3577600A1 (en) * | 2017-02-03 | 2019-12-11 | Koninklijke Philips N.V. | Classifier training |
CN108874878B (zh) * | 2018-05-03 | 2021-02-26 | 众安信息技术服务有限公司 | 一种知识图谱的构建系统及方法 |
CN110008473B (zh) * | 2019-04-01 | 2022-11-25 | 云知声(上海)智能科技有限公司 | 一种基于迭代方法的医疗文本命名实体识别标注方法 |
CN110020438B (zh) * | 2019-04-15 | 2020-12-08 | 上海冰鉴信息科技有限公司 | 基于序列识别的企业或组织中文名称实体消歧方法和装置 |
CN110287481B (zh) * | 2019-05-29 | 2022-06-14 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 命名实体语料标注训练系统 |
CN110335676A (zh) * | 2019-07-09 | 2019-10-15 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
-
2020
- 2020-06-24 CN CN202010592331.4A patent/CN111832294B/zh active Active
- 2020-09-28 WO PCT/CN2020/118533 patent/WO2021139257A1/zh active Application Filing
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908085A (zh) * | 2010-06-28 | 2010-12-08 | 北京航空航天大学 | 一种基于多Agent的分布式推演仿真系统与方法 |
WO2019071661A1 (zh) * | 2017-10-09 | 2019-04-18 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法、系统及存储介质 |
CN109697289A (zh) * | 2018-12-28 | 2019-04-30 | 北京工业大学 | 一种改进的用于命名实体识别的主动学习方法 |
CN110134969A (zh) * | 2019-05-27 | 2019-08-16 | 北京奇艺世纪科技有限公司 | 一种实体识别方法和装置 |
CN110717040A (zh) * | 2019-09-18 | 2020-01-21 | 平安科技(深圳)有限公司 | 词典扩充方法及装置、电子设备、存储介质 |
CN111178045A (zh) * | 2019-10-14 | 2020-05-19 | 深圳软通动力信息技术有限公司 | 基于领域的非监督式中文语义概念词典的自动构建方法、电子设备及存储介质 |
CN111259134A (zh) * | 2020-01-19 | 2020-06-09 | 出门问问信息科技有限公司 | 一种实体识别方法、设备及计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
A Case Restoration Approach to Named Entity Tagging in Degraded Documents;Rohini K. Srihari et.al;《Proceedings of the Seventh International Conference on Document Analysis and Recognition》;20031231;第1-6页 * |
一种面向突发事件的文本语料自动标注方法;刘炜等;《中文信息学报》;20170331;第76-85页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2021139257A1 (zh) | 2021-07-15 |
CN111832294A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111832294B (zh) | 标注数据的选择方法、装置、计算机设备和存储介质 | |
CN110704588A (zh) | 基于长短期记忆网络的多轮对话语义分析方法和系统 | |
CN110569500A (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
CN110688853B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN110162681B (zh) | 文本识别、文本处理方法、装置、计算机设备和存储介质 | |
CN112580346B (zh) | 事件抽取方法、装置、计算机设备和存储介质 | |
CN113254613B (zh) | 对话问答方法、装置、设备及存储介质 | |
US20230075290A1 (en) | Method for linking a cve with at least one synthetic cpe | |
CN111783460A (zh) | 一种企业简称提取方法、装置、计算机设备及存储介质 | |
CN109033427B (zh) | 股票的筛选方法及装置、计算机设备及可读存储介质 | |
US20220215293A1 (en) | Method to identify incorrect account numbers | |
CN111723870A (zh) | 基于人工智能的数据集获取方法、装置、设备和介质 | |
CN113255343A (zh) | 标签数据的语义识别方法、装置、计算机设备及存储介质 | |
CN112395857B (zh) | 基于对话系统的语音文本处理方法、装置、设备及介质 | |
CN112652295A (zh) | 语言模型训练、视频字幕校验方法、装置、设备及介质 | |
CN111400340A (zh) | 一种自然语言处理方法、装置、计算机设备和存储介质 | |
CN115409111A (zh) | 命名实体识别模型的训练方法和命名实体识别方法 | |
CN110413994B (zh) | 热点话题生成方法、装置、计算机设备和存储介质 | |
CN114547087B (zh) | 提案自动识别并生成报告的方法、装置、设备和介质 | |
CN112989788A (zh) | 关系三元组的提取方法、装置、设备及介质 | |
CN110147556B (zh) | 一种多向神经网络翻译系统的构建方法 | |
CN114492370A (zh) | 网页识别方法、装置、电子设备和介质 | |
CN113792132A (zh) | 一种目标答案确定方法、装置、设备及介质 | |
US20240256879A1 (en) | Training a neural network to perform an algorithmic task using a self-supervised loss | |
CN112380860B (zh) | 句子向量处理方法、句子匹配方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |