CN111582497A - 训练文件生成及评价方法、装置、计算机系统及存储介质 - Google Patents
训练文件生成及评价方法、装置、计算机系统及存储介质 Download PDFInfo
- Publication number
- CN111582497A CN111582497A CN202010344715.4A CN202010344715A CN111582497A CN 111582497 A CN111582497 A CN 111582497A CN 202010344715 A CN202010344715 A CN 202010344715A CN 111582497 A CN111582497 A CN 111582497A
- Authority
- CN
- China
- Prior art keywords
- file
- training
- entity
- hit
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 311
- 238000011156 evaluation Methods 0.000 title claims abstract description 36
- 238000004458 analytical method Methods 0.000 claims abstract description 55
- 238000002372 labelling Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 20
- 238000010801 machine learning Methods 0.000 description 9
- 238000007726 management method Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- KUGRPPRAQNPSQD-UHFFFAOYSA-N OOOOO Chemical compound OOOOO KUGRPPRAQNPSQD-UHFFFAOYSA-N 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了训练文件生成及评价方法、装置、计算机系统及存储介质,包括:接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件;通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件;将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。本发明实现了自动获得训练文件的技术效果,保证了训练文件的生成质量和生成速度,解决了当前无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证的问题。
Description
技术领域
本发明涉及机器学习技术领域,尤其涉及一种训练文件生成及评价方法、装置、计算机系统及存储介质。
背景技术
机器学习模型是一种通过从大量历史数据中挖掘出其中隐含的规律,实现预测或者分类的算法的总称,具体表现为通过接收样本数据,并通过其自身的函数进行运算以输出预测结果或分类结果;在智能搜索领域,目前,通常采用具有标注的样本文件对基于机器学习模型构建的智能搜索模型进行训练,以获得能够准确理解样本数据,并根据该数据获得准确的检索结果的成熟模型。
因此,高质量的样本文件对于训练智能搜索模型来说是至关重要的;然而,由于当前训练文件的生成方法无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证,因此造成了无法快速准确的训练智能搜索模型的局面。
发明内容
本发明的目的是提供一种训练文件生成及评价方法、装置、计算机系统及存储介质,用于解决现有技术存在的无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证的问题。
为实现上述目的,本发明提供一种训练文件生成及评价方法,包括:
标注服务器接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;
所述识别服务器通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器;
所述命中服务器具有智能搜索模型和命中分析算法,所述命中服务器将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。
上述方案中,所述接收原始文件并获取所述原始文件的领域信息和训练实体包括:
获取原始文件,对所述原始文件进行领域识别获得领域信息,对所述原始文件进行实体识别获得独立实体;
通过预设的关系清单获得独立实体的编码,并将其与所述独立实体关联;
根据预设的关系规则判断相邻的两个独立实体是否具有关联关系;若具有关联关系,则合并所述两个独立实体形成关联实体,并识别下一相邻的两个独立实体是否具有关联关系;若不具有关联关系,则识别下一相邻的两个独立实体是否具有关联关系;
将所述独立实体和关联实体设为训练实体。
上述方案中,所述根据所述领域信息和训练实体处理所述原始文件获得标注文件包括:
根据所述训练实体标注所述原始文件获得标注处理文件;
将所述领域信息载入所述标注处理文件获得标注文件。
上述方案中,所述识别所述标注文件的语义,并对其进行序列标注获得训练文件包括:
对所述标注文件进行语义识别获得查询意图;
根据标注文件中的编码对所述标注文件进行槽值填充,以实现对所述标注文件中的训练实体的序列标注;
汇总所述查询意图以及具有序列标注的标注文件形成训练文件。
上述方案中,所述将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果包括:
根据所述训练文件的领域信息在生产环境中选择对应的智能搜索模型,将所述训练文件录入所述智能搜索模型;
所述智能搜索模型根据所述训练文件的查询意图和标注文件获得训练结果。
上述方案中,所述通过命中分析算法计算所述训练结果获得命中率包括:
通过命中分析算法计算训练文件中各训练实体在训练结果中的出现频率,以获得用于描述所述训练实体对相关文件的重要程度的词频;
通过命中分析算法计算训练文件中各训练实体在训练结果中的数量,以获得用于描述训练实体在训练结果中稀缺程度的逆向文件频率;
通过命中分析算法将所述词频信息和逆向文件频率相乘,以获得用于描述所述各训练实体与各相关文件之间匹配度的实体匹配值;
将所述相关文件的实体匹配值相加,以获得用于描述所述训练文件与所述相关文件之间匹配度的文件匹配值;
将各所述相关文件的文件匹配值相加,以获得用于描述所述训练文件与所述训练结果之间匹配度的命中率。
上述方案中,所述汇总所述训练文件和命中率生成命中分析报告之后还可包括:
将所述命中率与预设的命中阈值进行比对;
若所述命中率超过预设的命中阈值,则判定所述训练文件合格,并向用户端发送所述命中分析报告;
若所述命中率未超过预设的命中阈值,则判定所述训练文件不合格,并向用户端发送所述命中分析报告。
为实现上述目的,本发明还提供一种训练文件生成及评价装置,包括:
标注服务器,用于接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;
识别服务器,用于通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器;
命中服务器,具有智能搜索模型和命中分析算法,用于将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。
为实现上述目的,本发明还提供一种计算机系统,其包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述多个计算机设备的处理器执行所述计算机程序时共同实现上述训练文件生成及评价方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述训练文件生成及评价方法的步骤。
本发明提供的训练文件生成及评价方法、装置、计算机系统及存储介质,通过获取原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件;以及识别所述标注文件的语义并对其进行序列标注以获得训练文件;以实现自动获得训练文件的技术效果,消除了人为错误的影响,保证了训练文件的生成质量和生成速度。
将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告,因此,通过向用户端发送训练结果的命中率,解决了当前无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证的问题。
附图说明
图1为本发明训练文件生成及评价方法实施例一的流程图;
图2为本发明训练文件生成及评价方法实施例一中获得训练数据集的流程图;
图3为本发明训练文件生成及评价方法实施例一中获得标注文件的流程图;
图4为本发明训练文件生成及评价方法实施例一中获得训练文件的流程图;
图5为本发明训练文件生成及评价方法实施例一中获得训练结果的流程图;
图6为本发明训练文件生成及评价方法实施例一中获得命中率的流程图;
图7为本发明训练文件生成及评价方法实施例一中生成命中分析报告之后的流程图;
图8为本发明训练文件生成及评价装置实施例二的程序模块示意图;
图9为本发明计算机系统实施例三中计算机设备的硬件结构示意图。
附图标记:
1、训练文件生成及评价装置2、计算机设备11、标注服务器
12、识别服务器13、命中服务器21、存储器22、处理器
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的训练文件生成及评价方法、装置、计算机系统及存储介质,适用于机器学习领域,为提供一种基于标注服务器、识别服务器、命中服务器的训练文件生成及评价方法。本发明通过标注服务器接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件;所述识别服务器通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件;所述命中服务器具有智能搜索模型和命中分析算法,所述命中服务器将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。
实施例一
请参阅图1,本实施例的一种训练文件生成及评价方法,包括:
S1:标注服务器接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;
S2:所述识别服务器通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器;
S3:所述命中服务器具有智能搜索模型和命中分析算法,所述命中服务器将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。
本申请中,所述原始文件可以是数据库中储存的文章、短句,也可以是用户端输出的查询词条、查询语句,于本实施例中,所述领域信息可为基金审计、或智能监管、或宏观决策;所述标注文件是指根据训练实体对原始文件进行标注所获得的文本信息,通过自然语言理解模型对标注文件进行语义识别,以获得标注文件的查询意图;通过自然语言理解模型对标注文件进行序列标注,于本实施例中,通过槽值填充的方法对标注文件进行序列标注;将所述查询意图载入所述具有序列标注的标注文件以获得训练文件。
所述命中率算法使用的是TF-IDF(Term Frequency Inverse DocumentFrequency)算法,其为一种用于信息检索与文本挖掘的常用加权算法。用于评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。其中,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
因此,本发明提供的训练文件生成及评价方法,通过获取原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件;以及识别所述标注文件的语义并对其进行序列标注以获得训练文件;以实现自动获得训练文件的技术效果,消除了人为错误的影响,保证了训练文件的生成质量和生成速度。
将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告;因此,通过向用户端发送训练结果的命中率,为标注管理人员实体识别模型和/或自然语言理解模型提供指标参考,以助于标注管理人员获得高质量的样本文件,用于实现快速准确的训练智能搜索模型的技术效果,解决了当前无法获知训练样本真实的命中率,导致训练样本的标注质量无法得到保证的问题。
在一个优选的实施例中,请参阅图2,所述接收原始文件并获取所述原始文件的领域信息和训练实体包括:
S101:获取原始文件,对所述原始文件进行领域识别获得领域信息,对所述原始文件进行实体识别获得独立实体;
本步骤中,所述原始文件的获取方式为,通过从预存有原始文件的储存服务器中提取的方式获得,或通过接收用户端输出的原始文件的方式获得。
S102:通过预设的关系清单获得独立实体的编码,并将其与所述独立实体关联。
本步骤中,关系数据库中具有所述关系清单,所述关系清单包括编码和编码实体,其中,所述编码与至少一个编码实体对应。在所述关系清单中获取与独立实体对应的编码实体,将所述编码实体所对应的编码设为目标编码,通过将所述目标编码载入所述原始文件,使其与所述独立实体关联。例如:假设编码包括日期和地点,即:DATE和LOCATION;所述
日期编码所对应的编码实体包括:昨天、今天、明天;所述地点编码所对应的编码实体包括:北京、上海、广州、深圳;若原始文件是:今天深圳的天气怎么样,那么关联有编码的独立实体如下所示:
今天深圳
DATE LOCATION
其中,DATE是指日期编码,LOCATION是指地点编码。
S103:根据预设的关系规则判断相邻的两个独立实体是否具有关联关系;若具有关联关系,则合并所述两个独立实体形成关联实体,并识别下一相邻的两个独立实体是否具有关联关系;若不具有关联关系,则识别下一相邻的两个独立实体是否具有关联关系。
本步骤中,所述关系规则用于规定编码之间的关联关系。提取原始文件中相邻的两个独立实体的编码,根据关系规则判断所述两个编码之间是否具有关联关系;若具有关联关系,则复制所述两个代码所对应的独立实体,并将其合并形成关联实体。
例如:原始文件是:2019年江苏省医保政策,所述步骤S101识别出江苏、医保政策两个独立实体,所述步骤S102获得“江苏”的编码“LOCATION”,“医保政策”的编码“POLICY”,若关系规则中编码“LOCATION”和编码“POLICY”之间是具有关联关系的,那么将获得“江苏省医保政策”的关联实体。
S104:将所述独立实体和关联实体设为训练实体。
本步骤中,将独立实体和关联实体设为训练实体并去重,以保证训练实体的简短准确。
在一个优选的实施例中,所述对所述原始文件进行领域识别获得领域信息,对所述原始文件进行实体识别获得独立实体包括:
S101-1:通过预设的领域清单识别所述原始文件,以获得与所述领域清单中领域关键字对应的字词。
本步骤中,所述领域清单包括领域标题和领域关键字,每个领域标题下具有至少一个领域关键字。于本实施例中,所述领域标题至少包括基金审计、智能监管、宏观决策。
S101-2:获取所述字词在原始文件中出现的数量,将数量最多的字词所对应的领域关键字设为目标关键字,将所述目标关键字在所述领域清单中的领域标题设为领域信息。
本步骤中,在原始文件中,依次获取与领域关键字对应的字词出现的数量,获取数量最多的字词,并将该字词所对应的领域关键字设为目标关键字。
S101-3:通过实体识别模型对所述原始文件中的字词进行实体识别,以获得所述原始文件中的独立实体。
于本实施例中,所述实体识别模型为条件随机场(CRF)模型,所述条件随机场模型是一种判别式概率模型,其为随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。由于通过条件随机场模型获得命名实体是本领域技术人员的公知常识,而本步骤所要解决的技术问题是如何获得原始文件的所属领域及其独立实体,因此条件随机场模型的具体流程在本申请中不做赘述。
在一个优选的实施例中,所述对所述原始文件进行实体识别获得独立实体之后还包括:
S101-4:通过预设的储存有同义词的同义数据库识别所述独立实体,获得与所述独立实体具有相同含义的同义词,并将所述同义词设为独立实体。
本步骤中,所述同义数据库中具有同义词集,所述同义词集中的同义词具有相同的含义,将所述独立实体依次与所述同义词集进行比对,获得与所述独立实体一致的字词,将所述字词所在的同义词集中所有的同义词设为独立实体。
在一个优选的实施例中,请参阅图3,所述根据所述领域信息和训练实体处理所述原始文件获得标注文件包括:
S111:根据所述训练实体标注所述原始文件获得标注处理文件;
本步骤中,根据所述训练实体中的独立实体和关联实体对原始文件中的字词进行标注,以获得标注处理文件。
S112:将所述领域信息载入所述标注处理文件获得标注文件。
本步骤中,将所述领域信息作为所述标注处理文件的标题的一部分,或所述标注处理文件的文件名的一部分,实现将领域信息载入标注处理文件的效果,此时,所述标注处理文件将转为标注文件。
在一个优选的实施例中,请参阅图4,所述识别所述标注文件的语义,并对其进行序列标注获得训练文件包括:
S201:对所述标注文件进行语义识别获得查询意图。
本步骤中,所述语义识别本质上是一个文本分类的任务,其通过自然语言理解模型识别标注文件的语义,以获得标注文件的查询意图;其中,所述原始文件至少具有一个查询意图。例如:原始文件是:“今天深圳的天气怎么样?”,此时用户所表达的是查询天气,在这里我们可以认为查询天气就是一种意图。
需要说明的是,所述自然语言理解(NLU)的一种用于对文本进行语义识别的计算机算法,由于本领域技术人员很容易通过自然语言理解模型识别文本语义,而本申请所要解决的是如何获知训练文件是否达到操作者的预期的问题,因此自然语言理解模型的工作原理在此不做赘述。
S202:根据标注文件中的编码对所述标注文件进行槽值填充,以实现对所述标注文件中的训练实体的序列标注。
本步骤中,通过自然语言理解模型,并根据标注文件中的编码对标注文件进行槽值填充,使得该模型能够准确对标注文件中具有编码的独立实体或关联实体进行序列标注。
于本实施例中,所述槽值填充本质上是一种采用BIO的形式,对标注文件中的实体进行序列标注的任务。
基于上述举例,例如,原始文件是:“今天深圳的天气怎么样?”,此时用户所表达的是查询天气,在这里我们可以认为查询天气就是一种意图,那具体查询哪里的天气,哪一天的天气,在这里用户也传递出了这些信息,(地点=深圳,日期=今天),而在这里地点编码和日期编码对应的独立实体或关联实体就是信息槽。还是以“今天深圳的天气怎么样?”为例,在意图识别时用文本分类的方法将其分类到“询问天气”这个意图,而在做槽值填充时采用序列标注的方法可以将其标注如下:
今天深圳的天气怎么样
B_DATE B_LOCATION O OOOOO。
需要说明的是,槽值填充是一种基于自然语言理解技术对文本中的实体进行序列标注的任务,属于现有技术,因此本领域技术人员可以很容易通过自然语言理解技术对文本进行序列标注,而本申请所解决的是如何有针对性的对文本中有价值的实体进行序列标注的问题,因此对槽值填充的具体流程本申请不做赘述。
S203:汇总所述查询意图以及具有序列标注的标注文件形成训练文件。
在一个优选的实施例中,请参阅图5,所述将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果包括:
S301:根据所述训练文件的领域信息在生产环境中选择对应的智能搜索模型,将所述训练文件录入所述智能搜索模型;
本步骤中,所述生产环境中的智能搜索模型具有专业标签,所述专业标签用于描述智能搜索模型善于预测或分类的领域;在生产环境中获取与所述领域信息匹配专业标签,选择所述专业标签所对应的智能搜索模型作为目标模型,并将所述训练文件录入所述目标模型。
需要说明的是,所述生产环境是指正式提供对外服务的服务系统,智能搜索模型是指设置与所述服务系统的服务器中,基于机器学习模型构建的搜索引擎;所述机器学习模型是用于从大量历史数据中挖掘出其中隐含的规律,并用于预测或者分类的算法的总称;所述智能搜索模型通过接收样本数据,并通过其自身的函数进行运算以输出预测结果或分类结果。
S302:所述智能搜索模型根据所述训练文件的查询意图和标注文件获得训练结果。
其中,所述训练结果是指,智能搜索模型通过其自身的函数对训练文件进行计算,所获得的预测结果或分类结果。
在一个优选的实施例中,请参阅图6,所述通过命中分析算法计算所述训练结果获得命中率包括:
S311:通过命中分析算法计算训练文件中各训练实体在训练结果中的出现频率,以获得用于描述所述训练实体对相关文件的重要程度的词频。
本步骤中,所述词频是指一个文档中出现某个单词(Term)的频率(Frequency),本实施例中,使用频率而不是次数,其目的在于防止文档内容过长从而导致某些单词出现过多的情况发生。
于本实施例中,所述命中分析算法具有词频目标函数,通过所述词频目标函数计算各训练实体在训练结果中的词频。
其中,所述词频目标函数为:
上面式子中,tfi,j是指训练文件中第i个训练实体在第j个相关文件中的词频;ni,j是指训练文件中第i个的训练实体,在训练结果中第j个相关文件中的出现次数,分母∑knk,j是指训练文件中所有的训练实体(所述训练实体具有k个),在所述相关文件中出现次数之和;
通过上述方法实现了对训练文件中各训练实体的归一化处理,正确评价了各训练实体对各相关文件的重要程度,即:是一个训练实体在一个相关文件中的重要程度,随着训练实体出现的数量增加而增加。
例如:训练结果中某一篇相关文件的总词语数是100个,而词语“上海”出现了3次,那么“上海”一词在该文件中的词频就是3/100=0.03。
S312:通过命中分析算法计算训练文件中各训练实体在训练结果中的数量,以获得用于描述训练实体在训练结果中稀缺程度的逆向文件频率。
本步骤中,所述逆向文件频率(Inverse Document Frequency,IDF)是指一个文档集合中,包含某个单词的文档数量。它表示的是一个训练实体在训练结果中的普遍重要程度。
于本实施例中,所述命中分析算法包括逆向目标函数,通过所述逆向目标函数计算各训练实体在训练结果中的数量。
其中,所述逆向目标函数如下:
上述公式中,idfi是指训练文件中第i个训练实体在训练结果中的逆向文件频率,|D|表示文档集合中的文件总数,即本申请中训练结果中相关文件的总数;|{j:ti∈dj}|是指包含词语ti的相关文件的数目(即ni≠0的文件数目);因此,逆向文件频率是表示的是一个训练实体在一个训练结果中的重要程度,越稀有权重越高,所以它随着单词的增加而降低。基于上述举例,训练实体“上海”在1,000份相关文件中出现过,而训练结果中相关文件总数是10,000,000份的,则训练实体“上海”的逆向文件频率就是log(10,000,000/1,000)=4。
可选的,因训练实体有可能不会在训练结果中,因此一旦遇到这种训练实体时,逆向目标函数会因其分母为零而发生错误或导致函数失效,进而导致计算机程序出现错误甚至死机;因此通过在逆向目标函数的分母中增加一个自然数,以保证该分母在任何情况下都不会为零,进而避免了逆向目标函数发生错误或导致函数失效的情况发生。例如,在所述分母中增加自然数1,使得该分母如下表示:
1+|{d∈D:f∈d}|
S313:通过命中分析算法将所述词频信息和逆向文件频率相乘,以获得用于描述所述各训练实体与各相关文件之间匹配度的实体匹配值。
本步骤中,命中分析算法中具有命中目标函数,通过命中目标函数获得各训练实体与各相关文件的实体匹配值;其中
所述命中目标函数如下所示:
tfidfi,j=tfi,j×idfi
其中,tfidfi,j,是指第i个训练实体与第j个相关文件的实体匹配值,tfi,j是指训练文件中第i个训练实体在第j个相关文件中的词频,idfi是指训练文件中第i个训练实体在训练结果中的逆向文件频率;综上所述,命中目标函数对于某一相关文件内的高训练实体频率,以及该训练实体在整个训练结果中的低文件频率,可以产生出高实体匹配值的tf-idf。因此,命中目标函数倾向于过滤掉常见的词语,保留重要的词语。
例如,基于上述举例,获得的实体匹配值是:tfidfi,j=0.03×4=0.12。
S314:将所述相关文件的实体匹配值相加,以获得用于描述所述训练文件与所述相关文件之间匹配度的文件匹配值。
本步骤中,通过将训练文件中所有训练实体与某一相关文件之间的实体匹配度相加,以得到训练文件与该相关文件之间匹配度,以及描述该匹配度的文件匹配值。
基于上述举例,若训练文件包括训练实体:北京、上海、广州、深圳;若北京与第j个相关文件的实体匹配值是:0.03;若北京与第j个相关文件的实体匹配值是:0.12;若北京与第j个相关文件的实体匹配值是:0.01:若北京与第j个相关文件的实体匹配值是:0.10;那么本训练文件与第j个相关文件的文件匹配值是:0.25。
S315:将各所述相关文件的文件匹配值相加,以获得用于描述所述训练文件与所述训练结果之间匹配度的命中率。
本步骤中,可通过将训练结果中所有相关文件的文件匹配值相加以获得命中率,也可将训练结果以文件匹配值进行降序排列,并将位居前列(如前十位)的文件匹配值相加以获得命中率。
在一个优选的实施例中,请参阅图7,所述汇总所述训练文件和命中率生成命中分析报告之后还可包括:
S321:将所述命中率与预设的命中阈值进行比对;
S322:若所述命中率超过预设的命中阈值,则判定所述训练文件合格,并向用户端发送所述命中分析报告;
S323:若所述命中率未超过预设的命中阈值,则判定所述训练文件不合格,并向用户端发送所述命中分析报告。
本步骤中,如果命中率超过了预设的命中阈值,则说明通过原始文件
获取的领域信息和标注文件,以及对所述标注文件的语义识别和序列标注的准确度达到了要求,其所对应的训练文件是合格的。
如果命中率未超过预设的命中阈值,则说明通过原始文件获取的领域信息和标注文件,以及对所述标注文件的语义识别和序列标注的准确度未达到了要求,其所对应的训练文件是不合格的,因此需要标注人员可以命中分析报告作为调节关系清单、和/或领域清单、和/或关系规则、和/或同义数据库、和/或实体识别模型、和/或自然语言理解模型的参考,以获得命中率超过命中阈值的训练文件。
实施例二
请参阅图8,本实施例的一种训练文件生成及评价装置1,包括:
标注服务器11,用于接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器12;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;
识别服务器12,用于通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器13;
命中服务器13,具有智能搜索模型和命中分析算法,用于将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。
本技术方案可应用于人工智能的模型托管领域,通过获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告,实现提高训练文件的生成质量和生成速度,并为标注管理人员实体识别模型和/或自然语言理解模型提供指标参考,以助于标注管理人员获得高质量的样本文件,进而以助于在模型构建过程中的机器学习任务。
实施例三:
为实现上述目的,本发明还提供一种计算机系统,该计算机系统包括多个计算机设备2,实施例二的训练文件生成及评价装置1的组成部分可分散于不同的计算机设备中,计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图9所示。需要指出的是,图9仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例一的训练文件生成及评价装置的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行训练文件生成及评价装置,以实现实施例一的训练文件生成及评价方法。
实施例四:
为实现上述目的,本发明还提供一种计算机可读存储系统,其包括多个存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器22执行时实现相应功能。本实施例的计算机可读存储介质用于存储训练文件生成及评价装置,被处理器22执行时实现实施例一的训练文件生成及评价方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种训练文件生成及评价方法,其特征在于,包括:
标注服务器接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;
所述识别服务器通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器;
所述命中服务器具有智能搜索模型和命中分析算法,所述命中服务器将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。
2.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述接收原始文件并获取所述原始文件的领域信息和训练实体包括:
获取原始文件,对所述原始文件进行领域识别获得领域信息,对所述原始文件进行实体识别获得独立实体;
通过预设的关系清单获得独立实体的编码,并将其与所述独立实体关联;
根据预设的关系规则判断相邻的两个独立实体是否具有关联关系;若具有关联关系,则合并所述两个独立实体形成关联实体,并识别下一相邻的两个独立实体是否具有关联关系;若不具有关联关系,则识别下一相邻的两个独立实体是否具有关联关系;
将所述独立实体和关联实体设为训练实体。
3.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述根据所述领域信息和训练实体处理所述原始文件获得标注文件包括:
根据所述训练实体标注所述原始文件获得标注处理文件;
将所述领域信息载入所述标注处理文件获得标注文件。
4.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述识别所述标注文件的语义,并对其进行序列标注获得训练文件包括:
对所述标注文件进行语义识别获得查询意图;
根据标注文件中的编码对所述标注文件进行槽值填充,以实现对所述标注文件中的训练实体的序列标注;
汇总所述查询意图以及具有序列标注的标注文件形成训练文件。
5.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果包括:
根据所述训练文件的领域信息在生产环境中选择对应的智能搜索模型,将所述训练文件录入所述智能搜索模型;
所述智能搜索模型根据所述训练文件的查询意图和标注文件获得训练结果。
6.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述通过命中分析算法计算所述训练结果获得命中率包括:
通过命中分析算法计算训练文件中各训练实体在训练结果中的出现频率,以获得用于描述所述训练实体对相关文件的重要程度的词频;
通过命中分析算法计算训练文件中各训练实体在训练结果中的数量,以获得用于描述训练实体在训练结果中稀缺程度的逆向文件频率;
通过命中分析算法将所述词频信息和逆向文件频率相乘,以获得用于描述所述各训练实体与各相关文件之间匹配度的实体匹配值;
将所述相关文件的实体匹配值相加,以获得用于描述所述训练文件与所述相关文件之间匹配度的文件匹配值;
将各所述相关文件的文件匹配值相加,以获得用于描述所述训练文件与所述训练结果之间匹配度的命中率。
7.根据权利要求1所述的训练文件生成及评价方法,其特征在于,所述汇总所述训练文件和命中率生成命中分析报告之后还可包括:
将所述命中率与预设的命中阈值进行比对;
若所述命中率超过预设的命中阈值,则判定所述训练文件合格,并向用户端发送所述命中分析报告;
若所述命中率未超过预设的命中阈值,则判定所述训练文件不合格,并向用户端发送所述命中分析报告。
8.一种训练文件生成及评价装置,其特征在于,包括:
标注服务器,用于接收原始文件并获取所述原始文件的领域信息和训练实体,根据所述领域信息和训练实体处理所述原始文件获得标注文件,并将其发送至识别服务器;其中,所述领域信息是表达原始文件所属领域的信息数据,所述训练实体是指原始文件中的命名实体;
识别服务器,用于通过预设的自然语言理解模型识别所述标注文件的语义,并对其进行序列标注获得训练文件,将所述训练文件发送命中服务器;
命中服务器,具有智能搜索模型和命中分析算法,用于将所述训练文件录入与所述领域信息对应的智能搜索模型以获得训练结果,通过命中分析算法计算所述训练结果获得命中率,汇总所述训练文件和命中率生成命中分析报告。
9.一种计算机系统,其包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述训练文件生成及评价方法的步骤。
10.一种计算机可读存储介质,其包括多个存储介质,各存储介质上存储有计算机程序,其特征在于,所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述训练文件生成及评价方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344715.4A CN111582497A (zh) | 2020-04-27 | 2020-04-27 | 训练文件生成及评价方法、装置、计算机系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010344715.4A CN111582497A (zh) | 2020-04-27 | 2020-04-27 | 训练文件生成及评价方法、装置、计算机系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111582497A true CN111582497A (zh) | 2020-08-25 |
Family
ID=72115505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010344715.4A Pending CN111582497A (zh) | 2020-04-27 | 2020-04-27 | 训练文件生成及评价方法、装置、计算机系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111582497A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270180A (zh) * | 2020-11-03 | 2021-01-26 | 北京阳光云视科技有限公司 | 一种实体识别训练数据bio自动标注系统及方法 |
CN112380327A (zh) * | 2020-11-09 | 2021-02-19 | 天翼爱音乐文化科技有限公司 | 一种冷启动的槽填充方法、系统、装置及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN110232190A (zh) * | 2019-06-14 | 2019-09-13 | 上海流利说信息技术有限公司 | 一种对话生成的方法、装置、存储介质及电子设备 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
-
2020
- 2020-04-27 CN CN202010344715.4A patent/CN111582497A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199972A (zh) * | 2013-09-22 | 2014-12-10 | 中科嘉速(北京)并行软件有限公司 | 一种基于深度学习的命名实体关系抽取与构建方法 |
CN109190110A (zh) * | 2018-08-02 | 2019-01-11 | 厦门快商通信息技术有限公司 | 一种命名实体识别模型的训练方法、系统及电子设备 |
CN109766540A (zh) * | 2018-12-10 | 2019-05-17 | 平安科技(深圳)有限公司 | 通用文本信息提取方法、装置、计算机设备和存储介质 |
CN110232190A (zh) * | 2019-06-14 | 2019-09-13 | 上海流利说信息技术有限公司 | 一种对话生成的方法、装置、存储介质及电子设备 |
CN110705293A (zh) * | 2019-08-23 | 2020-01-17 | 中国科学院苏州生物医学工程技术研究所 | 基于预训练语言模型的电子病历文本命名实体识别方法 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
叶枫 等: "电子病历中命名实体的智能识别", 《中国生物医学工程学报》, vol. 30, no. 2, 30 April 2011 (2011-04-30), pages 256 - 262 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112270180A (zh) * | 2020-11-03 | 2021-01-26 | 北京阳光云视科技有限公司 | 一种实体识别训练数据bio自动标注系统及方法 |
CN112380327A (zh) * | 2020-11-09 | 2021-02-19 | 天翼爱音乐文化科技有限公司 | 一种冷启动的槽填充方法、系统、装置及存储介质 |
CN112380327B (zh) * | 2020-11-09 | 2022-03-04 | 天翼爱音乐文化科技有限公司 | 一种冷启动的槽填充方法、系统、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210224694A1 (en) | Systems and Methods for Predictive Coding | |
Jonnalagadda et al. | A new iterative method to reduce workload in systematic review process | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN110377558A (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CN111753048B (zh) | 文档检索方法、装置、设备及存储介质 | |
WO2022048363A1 (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN111343161A (zh) | 异常信息处理节点分析方法、装置、介质及电子设备 | |
CN112395875A (zh) | 一种关键词提取方法、装置、终端以及存储介质 | |
Malik et al. | Accurate information extraction for quantitative financial events | |
Feng et al. | Practical duplicate bug reports detection in a large web-based development community | |
CN111582497A (zh) | 训练文件生成及评价方法、装置、计算机系统及存储介质 | |
CN112181490A (zh) | 功能点评估法中功能类别的识别方法、装置、设备及介质 | |
CN117763109B (zh) | 一种用于档案全文检索的数据核查方法 | |
CN103092838B (zh) | 一种获取英文词的方法及装置 | |
CN116860311A (zh) | 脚本分析方法、装置、计算机设备及存储介质 | |
CN116150376A (zh) | 一种样本数据分布优化方法、装置和存储介质 | |
CN116361681A (zh) | 基于人工智能的文档分类方法、装置、计算机设备及介质 | |
Kalmar | Bootstrapping Websites for Classification of Organization Names on Twitter. | |
WO2021056740A1 (zh) | 语言模型构建方法、系统、计算机设备及可读存储介质 | |
CN115328945A (zh) | 数据资产的检索方法、电子设备及计算机可读存储介质 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 | |
CN118296099B (zh) | 一种相似文章查询方法、装置、设备及存储介质 | |
CN112434515B (zh) | 语句压缩方法、装置、电子设备及可读存储介质 | |
CN113407859B (zh) | 一种资源推荐方法、装置、电子设备及存储介质 | |
US20230162031A1 (en) | Method and system for training neural network for generating search string |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220520 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
TA01 | Transfer of patent application right |