CN115905473B - 全名词模糊匹配方法、装置及存储介质 - Google Patents
全名词模糊匹配方法、装置及存储介质 Download PDFInfo
- Publication number
- CN115905473B CN115905473B CN202211638615.8A CN202211638615A CN115905473B CN 115905473 B CN115905473 B CN 115905473B CN 202211638615 A CN202211638615 A CN 202211638615A CN 115905473 B CN115905473 B CN 115905473B
- Authority
- CN
- China
- Prior art keywords
- matching
- text
- clause
- clauses
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000003860 storage Methods 0.000 title abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 116
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 20
- 230000000750 progressive effect Effects 0.000 claims description 4
- 238000012790 confirmation Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开全名词模糊匹配方法、装置及存储介质,涉及文本匹配领域,通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算匹配分句的权值得分;基于权值得分轮询计算文本分句与所有匹配分句之间的匹配度分值,并确定候选匹配分句;当匹配出多条候选匹配分句时,基于目标匹配条件从候选匹配分句中确定唯一目标匹配分句,并根据候选匹配分句更新文本词库和分词权重。该方案通过自定义关键词词库和分词权重表,根据分句之间的匹配度分值大小来确定目标匹配分句,根据匹配结果实时更新文本词库内容和分词权值,提高后续匹配的精度和准确度,也提高全名词下的文本匹配和审核效率。
Description
技术领域
本申请实施例涉及文本匹配领域,特别涉及一种全名词模糊匹配方法、装置及存储介质。
背景技术
文本匹配是一种根据文本内容为搜索目标的定向搜索与匹配方法,如全词匹配即以整个文本作为搜索词来定向搜索,非全词匹配即以拆分的分词或字作为目标搜索词来定向搜索,只要出现其中一个要素既可以返回结果。当然,一般会对结果作一定优化呈现,将要素结合得更紧密的结果优先呈现。在实际应用中,往往需要根据实际的应用场景和语境来进行文本对比和计算匹配度。特别是在大批量文本匹配场景下,一对一和一对n匹配场景时,往往需要结合语境做文本匹配。例如“江苏省xx交通管理部”与“江苏xx交通管理部”,虽然文字存在差异,但表达一个意思,在做数据管理和审批工作业务时,其按照人工匹配结果应该是匹配一致的,若采用全名词的话会导致匹配失败,采用模糊匹配的话就可能会导致结果不匹配、匹配错误、甚至是结果不唯一的情况发生,影响审核效率。
在相关技术中,文本批量模糊匹配通常采用编辑距离模糊匹配算法和使用词袋模型直接进行批量相似度匹配。“编辑距离模糊匹配算法”又叫Levenshtein距离(莱文斯坦距离)。区别于汉明距离(等长字符串对应位置的不同字符的个数),不仅可以替换字符,还可以增删字符。算法时间复杂度是O(m*n),如果文本数量(t)较大,遍历文本集合,计算关键字和文本Pair的编辑距离,再做TOP_K遴选。时间复杂度为O(m*n*t+logt*t),当t较大时将会存在性能问题。并且由于该算法只是单纯只是匹配文本内容并没有结合实际语境,所以在实际语境下差别巨大。
词袋模型(Bag-of-words model),是一种在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,一段文本(比如一个句子或是一个文档)可以用一个装着这些词的袋子来表示,这种表示方式不考虑文法以及词的顺序。该方法最大的问题是实际使用场景中样本少导致精度不够,并且全名词场景下有别于自然语境会出现一定的偏差。
发明内容
本申请提供一种全名词模糊匹配方法、装置和存储介质,解决在全名词情况下,不同应用场景和语境进行文本对比计算匹配度不高的问题。
一方面,本申请提供一种全名词模糊匹配方法,所述方法包括:
通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算所述匹配分句的权值得分;所述原始文本与所述比对文本中包含若干待匹配的文本分句和匹配分句,所述权值得分基于分词处理后的分词权重计算获得;
基于所述权值得分轮询计算所述文本分句与所有所述匹配分句之间的匹配度分值,并确定候选匹配分句;
当匹配出多条所述候选匹配分句时,基于目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句,并根据所述候选匹配分句更新所述文本词库和分词权重。
具体的,所述通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算所述匹配分句的权值得分,包括:
读取所述文本词库,按照词库内容对所述文本分句和所述匹配分句进行拆分;
根据所述文本词库对应的分词权重表计算所述匹配分句中各分词的分词权重总和,得到所述权值得分S;其中,所述分词权重表中包含有所述文本词库中所有分词的分词权重。
具体的,确定所述匹配分句的所述权值得分后,还包括:
依次基于所述文本分句轮询比对文本,当存在文本内容和词序完全一致的所述匹配分句时,将其确定为所述目标匹配分句,否则轮询计算与所述匹配分句的所述匹配度分值。
具体的,所述基于所述权值得分轮询计算所述文本分句与所有所述匹配分句之间的匹配度分值,并确定候选匹配分句,包括:
确定所述文本分句与所述匹配分句中的相同分词和对应的匹配权值得分S1,按照匹配度计算公式确定所述文本分句与所述匹配分句的所述匹配度分值P;匹配度计算公式如下:
其中的S1表示两个分句中匹配到的相同分词部分的分词权重总和,Pi表示轮询的第i个匹配分句的匹配度分值;
当存在唯一超过匹配度分值阈值的所述候选匹配分句时,将其确定为所述目标匹配分句;
当不存在超过匹配度分值阈值的所述候选匹配分句时,输出为空;
当存在多个超过匹配度分值阈值的所述候选匹配分句时,将其确定为所述候选匹配分句。
具体的,所述基于目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句,包括:
将所述候选匹配分句按照匹配度分值大小排序;
将所述匹配度分值最高的所述候选匹配分句确定为所述目标匹配分句,其余确定为备选匹配分句;或
基于人工审核的确认指令,从匹配度分值最高以外的所述候选匹配分句中选定所述目标匹配分句,其余确定为所述备选匹配分句。
具体的,当从所述备选匹配分句中选定所述目标匹配分句时;所述根据所述候选匹配分句更新所述文本词库和分词权重,包括:
将所述目标匹配分句的所述匹配度分值确定为目标匹配分,将高于所述目标匹配分的所述备选匹配分句确定为拒绝分句;
将所述拒绝分句与所述目标匹配分句拆分的分词作差集运算,确定所述拒绝分句中的无效词;
基于所述无效词更新所述分词权重表,以及根据词库更新条件确定的关键词更新所述文本词库。
具体的,所述基于所述候选关键词更新所述分词权重表,包括:
从所述分词权重表中匹配所述候选关键词的当前分词权重,并与最低权重值比较;
若当前分词权重值大于最低权重值,按照预设的梯度递减法降低权重值;
若当前分词权重值不大于最低权重值,不进行更新。
具体的,所述根据词库更新条件确定的关键词更新所述文本词库,包括:
将所述目标匹配分句与所述拒绝分句拆分的分词作差集运算,确定所述目标匹配分句中的无效词;
将所述候选关键词按照初始化分词权重值的和值,与所述无效词更新后分词权重值的和值作差,获得关键词语境得分;
当所述关键词语境得分大于准入阈值时,将其确定为关键词,并加入到所述文本词库中;
当所述关键词语境得分小于准入阈值时,不更新所述文本词库。
具体的,所述文本词库包括标准词库和自定义词库;所述标准词库中存储有各领域的标准词条,所述自定义词库中存储有更新词库时加入的关键词。
另一方面,本申请提供一种全名词模糊匹配装置,包括:
权值得分计算模块,用于通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算所述匹配分句的权值得分;所述原始文本与所述比对文本中包含若干待匹配的文本分句和匹配分句,所述权值得分基于分词处理后的分词权重计算获得;
匹配度计算模块,用于基于所述权值得分轮询计算所述文本分句与所有所述匹配分句之间的匹配度分值,并确定候选匹配分句;
更新模块,用于当匹配出多条所述候选匹配分句时,基于目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句,并根据所述候选匹配分句更新所述文本词库和分词权重。
本申请提供的技术方案带来的有益效果至少包括:通过构建的文本词库来对输入的文本分句和匹配分句进行分词拆分处理,并根据分词权重来计算每个匹配分句的权值得分,这样就可以对选定的文本分句进行轮询匹配,根据匹配分句的权值得分来计算针对文本分句的匹配度分值,这样就可以初步从海量的匹配文本中找出一定数量且相近的候选匹配分句,因为是全名词模糊匹配法,所以还需要在超过一条的情况下进一步分析,按照目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句。与此同时,针对目标匹配分句和其余候选匹配分句对文本词库和分词权重进行更新,可以根据匹配结果实时更新文本词库内容和分词权值,提高后续匹配的精度和准确度。
附图说明
图1是本申请实施例提供的全名词模糊匹配方法的流程图;
图2是本申请另一实施例提供的全名词模糊匹配方法的流程图;
图3是本申请实施例提供的全名词模糊匹配方法的算法流程图;
图4是本申请实施例提供的全名词模糊匹配装置的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
针对相关技术中,针对词袋模型存在的技术问题,通过下面两个文本例子说明。
(1)John likes to watch movies.Mary likes movies too.
(2)John also likes to watch football games.
基于以上两个文本,可以建构出下列清单:
["John","likes","to","watch","movies","also","football","games","Mary","too"]
此处有10个不同的词,使用清单的索引表示长度为10的向量:
(1)[1,2,1,1,2,0,0,0,1,1]
(2)[1,1,1,1,0,1,1,1,0,0]
每个向量的索引内容对应到清单中词出现的次数。
举例来说,第一个向量(文本一)前两个内容索引是1和2,第一个索引内容是"John"对应到清单第一个词并且该值设定为1,因为"John"出现一次。此向量表示法不会保存原始句子中词的顺序。该表示法有许多成功的应用,像是邮件过滤等。
在上述的范例,文件向量包含term频率,在IR和文字分类常用不同方法量term权重。常见方法为tf-idf。该方法最大的问题是,实际使用场景中样本少导致精度不够,并且全名词场景下有别于自然语境会出现一定的偏差。
针对提出的技术问题,本方案采用兼容全名词模糊匹配的方案来识别和匹配相似文本内容,图1是本申请实施例提供的全名词模糊匹配方法的流程图,包括如下步骤:
步骤101,通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算匹配分句的权值得分。
原始文本和比对文本中包含若干文字分句,该文字分句可以是特定领域和场景下的文件。分词处理就是将文本中的文字部分逐句拆解为各个分词,拆解依据的是文本词库,文本词库可以是根据使用场景设定的词库,例如在农村农业局清产合资场景下。导入“全国农村集体资产清产核资管理系统”报表数据作为原始样本,导入市级三资操作平台数据作为对比样本。目的是要将原始样本中的特定文本和比对文件的特定文本匹配,建立一一对应关系,特别是在缩写和笔误等场景下,直接从海量数据中找出对应关系,便于资产核清,例如从原始文件中找出的“江苏省无锡市ABM有限责任公司”与比对文件中的“无锡ABM公司”匹配,可选的将两份数据作为比对信息显示,而无需人工查找匹配,便于人工比对审核,加快工作审核效率。此处的文本库就是在清产核资管理方向的文本词语。权值得分是对文本的分句进行权值计算,例如确定一个分句的若干分词,并设定权值,那么这些分词的总和即为匹配分句的权值得分。
步骤102,基于权值得分轮询计算文本分句与所有匹配分句之间的匹配度分值,并确定候选匹配分句。
将原始文本中的文本分句逐个提取,按照1:n的轮询方式与比对文件中所有匹配分句进行匹配,生成每个匹配分句的匹配度分值,然后按照匹配度分值选出候选匹配分句。
步骤103,当匹配出多条候选匹配分句时,基于目标匹配条件从候选匹配分句中确定唯一的目标匹配分句,并根据候选匹配分句更新文本词库和分词权重。
例如原始文本中的文本A,经过轮询后确定出与之匹配的文本B和文本C都是候选匹配分句,那么就需要按照目标匹配条件从候选匹配分句中确定唯一的目标匹配分句。在确定出目标匹配分句后,就需要对文本词库和分词权重更新,例如加入新的关键词用于匹配识别,对分词权值进行降低或升高,目的用于后续分句匹配时提高匹配准确度。
需要说明的是,当匹配计算的匹配度分值无法确定或没有候选匹配分句时直接显示为空,当结果仅存在一条候选匹配分句时,那就作为唯一的目标匹配分句显示。
综上所述,通过构建的文本词库来对输入的文本分句和匹配分句进行分词拆分处理,并根据分词权重来计算每个匹配分句的权值得分,这样就可以对选定的文本分句进行轮询匹配,根据匹配分句的权值得分来计算针对文本分句的匹配度分值,这样就可以初步从海量的匹配文本中找出一定数量且相近的候选匹配分句,因为是全名词模糊匹配法,所以还需要在超过一条的情况下进一步分析,按照目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句。与此同时,针对目标匹配分句和其余候选匹配分句对文本词库和分词权重进行更新,可以根据匹配结果实时更新文本词库内容和分词权值,提高后续匹配的精度和准确度。
图2是是本申请另一实施例提供的全名词模糊匹配方法的流程图,包括如下步骤:
步骤201,读取文本词库,按照词库内容对文本分句和匹配分句进行拆分。
拆分步骤主要依靠文本词库,本方案中的文本词库分为标准词库和关键词词库,具体如图3所示。标准词库中存储有各领域的标准词条,构建时具体根据使用场景或领域来建立,例如农村农业局清产合资场景只根据各个农村农业局的数据内容来构建。而关键词词库是为了提高匹配精度和准确度设立的,根据每次匹配的项目相关,当匹配频次越高时,就可能会被收录到关键词词库中。标准词库和关键词词库都配备有系统维护人员,可以通过人工插入专有名称。
步骤202,根据文本词库对应的分词权重表计算匹配分句中各分词的分词权重总和,得到权值得分S。
如图3所示,对于建立的关键词词和标准词库中配备有分词权重表,其中收录有的所有分词的权重值,也就是分词权重。例如“John likes to watch movies.Mary likesmovies too”中,按照特定分词拆分(对于存在特殊连接词或动词的情况根据实际情况选择评分或不评分,中文类似)。每个名词都会匹配出对应的分词权重。这样匹配分句的权值得分就是各个分词权重的求和。
在一种可能的实施方式中,为该匹配方案设置配置项,配置项存储有各个参数信息,分词权重的默认初始化权重为80,后续匹配过程中会更新,关键词词库所有关键词默认的分词权重为200,这样可以加大关键词在分句中的重要性。
步骤203,依次基于文本分句轮询原始文本,当存在文本内容和词序完全一致的匹配分句时,将其确定为目标匹配分句,否则轮询计算与匹配分句的匹配度分值。
依次选中原始文本中的文本分句,将其余原始文本中的所有匹配文本相匹配,该步骤是为了以整个文本分句作为关键词匹配,找出是否存在文本内容和词序完全一致的匹配分句,也就是全词匹配搜索。当存在时,说明匹配到完全一致的结果,将其作为目标匹配分句,并结束该分句,继续轮询下一文本分句。当然,这不是本方案着重讨论的方案,而是在两个文本不完全相同情况下的文本匹配,这就需要计算与各个匹配分句的匹配度分值。
步骤204,确定文本分句与匹配分句中的相同分词和对应的匹配权值得分,按照匹配度计算公式确定文本分句与匹配分句的匹配度分值。
匹配度计算公式如下:
其中的S1表示两个分句中匹配到的相同分词部分的分词权重总和,Pi表示轮询的第i个匹配分句的匹配度分值。
简单理解为,两个分句中,相同分词的权重值求和为S1,作为分子;整个匹配分句的权值得分为S,加1后作为分母。加1的目的是为了防止两个分句的分词内容相同,但分词顺序不同。匹配度分值是100%结果的情况就是步骤203中全词匹配的情况。
步骤205,当存在唯一超过匹配度分值阈值的候选匹配分句时,将其确定为目标匹配分句。
轮询后的所有匹配分句都有匹配度分值,本方案中设置有匹配度分值阈值,只有超过匹配度分值阈值(例如设置80%)的才可以作为候选匹配分句。
当计算结果只有一个候选匹配分句时,可以直接确定为目标匹配分句。
步骤206,当不存在超过匹配度分值阈值的候选匹配分句时,输出为空。
步骤207,当存在多个超过匹配度分值阈值的候选匹配分句时,将其确定为候选匹配分句。
本方案着重讨论存在多个候选匹配分句的情况,这种情况下需要先将其确定为候选匹配分句,然后再通过对其进行二次筛选。
步骤208,基于目标匹配条件从候选匹配分句中确定唯一的目标匹配分句。
目标匹配条件根据实际情况确定,例如,在一种可能的实施方式中,先将候选匹配分句按照匹配度分值大小排序,然后将匹配度分值最高的候选匹配分句确定为目标匹配分句,其余确定为备选匹配分句。此种方法适用于在大数据训练稳定后期的自动识别场景,自动确定目标匹配分句,然后界面显示给操作者。
在另一些实施方式中,还可以先在界面显示所有可能的候选匹配分句,基于人工审核的确认指令,从匹配度分值最高以外的候选匹配分句中选定目标匹配分句,其余确定为备选匹配分句。因为语法和语境的不同,该方案在使用前期会存在精度问题,所以需要人工确认审核。当人工审核时不选择匹配度分值最高的候选匹配分句时(分值和实际选择不符的情况,如选择分数第二或第三高的作为目标匹配分句),说明词库和分词权重表已经“失真”,或者评断尚未完善。此时就需要后台根据此次操作对文本词库和分词权重更新。
步骤209,将目标匹配分句的匹配度分值确定为目标匹配分,将高于目标匹配分的备选匹配分句确定为拒绝分句。
针对从候选列表中选取分值排名不是第一的分句作为目标匹配分句,其余分句确认为备选分句,那么对于分值高于该目标匹配分句的备选分句,就是不满足目标匹配条件的拒绝分句,所以需要根据拒绝分句来对词库和权重表进行更新。
步骤210,将拒绝分句与目标匹配分句拆分的分词作差集运算,确定拒绝分句中的无效词。
差集运算针对各自拆分后得到的分句,拒绝项和目标匹配分句(匹配项)都拆分各自的分词集合,定义为分词集合A(拒绝项)与分词集合B(匹配项)。所以集合A与集合B的差集就是所有属于A且不属于B的分词,称为无效词。在文字语境内是特殊分词或有问题的词组,且这些词组的分词权重过大,求和时增大了分句的权值得分,导致结果“失真”。
步骤211,基于无效词更新分词权重表。
“失真”处理的方法就是减小该无效词的分词权重。在一种可能的实施方式中,标准词库内的分词权重值默认是100,但减小不可能无限制进行,所以需要设定最低权重值(例如默认20),在减小分词权重前,先从分词权重表中匹配无效词的当前分词权重,并与最低权重值比较。
若当前分词权重值大于最低权重值,按照预设的梯度递减法降低权重值。
若当前分词权重值不大于最低权重值,不进行更新。
梯度递减法可根据实际情况设定,例如设置减小梯度设置为1。
此处需要注意的是,对于可能会匹配出不在词库内的无效词,按照默认的最低权重值来设定。
步骤212,将目标匹配分句与拒绝分句拆分的分词作差集运算,确定目标匹配分句中的候选关键词。
根据步骤210可知,集合B与集合A的差集就是属于B且不属于A的分词,也就是候选关键词。在文字语境内表现为该候选关键词可能是被定性为目标匹配分句的关键词组,例如集合B的文本是“江苏省ABC有限责任公司”,集合A的文本是“江苏省DEF股份有限公司”。那么可以确定无效词是“DEF”与“股份有限”,候选关键词是“ABC”与“有限责任”。
步骤213,将候选关键词按照初始化分词权重值的和值,与无效词的更新后分词权重值的和值作差,获得关键词语境得分。
此处是对候选关键词进行二次筛分,确定真正决定目标匹配项的关键词。对于候选关键词全部按照初始化分词权重值求和,也就是全部按照100分值求和,与先前执行梯度更新后无效词的分词权重的和值作差,差值就是所有候选关键词的关键词语境得分。
步骤214,基于关键词语境得分更新文本词库。
当关键词语境得分大于准入阈值时,将其确定为关键词,并加入到文本词库中。当关键词语境得分小于准入阈值时,不更新文本词库中的关键词词库。准入阈值根据实际情况设定,例如设定200,只有关键词语境得分大于200的候选关键词可以确定为关键词。
在农村农业局清产合资场景下。我们导入“全国农村集体资产清产核资管理系统”报表数据作为原始样本,导入市级三资操作平台数据作为对比样本。通过上述流程对数据进行对比训练。通过800000样本的训练之后一次匹配准确率达到95%以上。在达到95%准确率后即可取消所有人工审核部分,全自动运行。
综上所述,本申请实施例通过为标准词库和关键词词库组成的文本词库,以此来对输入的文本分句进行拆词断句,同时基于词库对应的分词权重表来对每个匹配分句计算权值得分。这样对于每个文本分句都可以进行轮询匹配,计算与所有匹配分句的匹配度分值,进而筛选出唯一或多个候选匹配分词。在训练初期,通过人工审核的方式选定目标匹配分句,从而触发后台词库与分词权重更新的流程。
分词权重更新基于匹配分高于目标匹配分句的拒绝分句与目标匹配分句之间的差集运算进行,差集运算的结果就是无效词,根据预设的梯度递减法降低权重值。而词库更新需要将目标匹配分句与拒绝分句的分词作差集运算确定候选关键词,基于候选关键词的初始化分词权重值的和值,与无效词的更新后分词权重值的和值作差,获得关键词语境得分,进而根据准入阈值关系确定关键词并更新。后台更新过程基于人工审核触发,在大数据迭代的场景下可以实现高精度匹配,大大提高海量数据下的文本匹配,提高搜索和匹配精度。
图3是本申请实施例提供的全名词模糊匹配方法的算法流程图。包括如下步骤:
1、导入原始文本和用于对比的比对文本。
2、对原始文本和比对文本进行分词处理。
3、读取所有分词对应的分词权重。
4、对比两个分句是否完全匹配,如果完全匹配跳转步骤7,非完全匹配跳转步骤5(完全匹配是指两个文本完全一样包含每个词语及其顺序)。
5、1比n轮询计算匹配分句的匹配度分值(匹配部分分词权重/匹配文本权值得分+1)。匹配部分是指原始分词和匹配分词的两个集合的交集。+1的目的是区分出完全匹配因为集合交集是不区分词出现的顺序的及时完全一样也不是100%。
6、判断是否有数值高于匹配度分值阈值的候选匹配分句。是跳转步骤7,否跳出当此循环。
7、人工介入确认一个目标匹配项或全部不匹配,并结束本次循环。
开始无效词识别流程
8、判断候选匹配分句大于1并且匹配度分值小于其他项并且分值不为100%(识别出多词匹配的情况下计算分值与实际不符的情况)。否则结束当前流程,是则跳转步骤9。
9、对分数大于匹配项的拒绝项分词与匹配项分词取差集,更新分词权重表。结束当前流程。
开始关键词识别流程
10、对匹配项分词与拒绝项分词取差集获得候选关键词表。
11、对候选关键词语境内的分词权重进行二次计算(总分值减去无效词得分为关键词语境内分词权重)。
12、判断是否有数值高于关键分词准入阈值,否则结束当前流程,是记录关键词词库。(最终从关键词词频库到自定义词库可按词频自动添加也可人工审核添加)
图4是本申请实施例提供的全名词模糊匹配装置的结构框图,包括如下结构:
权值得分计算模块401,用于通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算所述匹配分句的权值得分;所述原始文本与所述比对文本中包含若干待匹配的文本分句和匹配分句,所述权值得分基于分词处理后的分词权重计算获得;
匹配度计算模块402,用于基于所述权值得分轮询计算所述文本分句与所有所述匹配分句之间的匹配度分值,并确定候选匹配分句;
更新模块403,用于当匹配出多条所述候选匹配分句时,基于目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句,并根据所述候选匹配分句更新所述文本词库和分词权重。
此外,本申请还提供一种计算机可读存储介质,其上存储有程序指令,所述程序指令被处理器执行时实现上述方面所述的全名词模糊匹配方法。
以上对本发明的较佳实施例进行了描述;需要理解的是,本发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;任何熟悉本领域的技术人员,在不脱离本发明技术方案作出许多可能的变动和修饰,或修改为等同变化的等效实施例,这并不影响本发明的实质内容;因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰,均仍属于本发明技术方案保护的范围内。
Claims (8)
1.一种全名词模糊匹配方法,其特征在于,所述方法包括:
通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算所述匹配分句的权值得分;所述原始文本与所述比对文本中包含若干待匹配的文本分句和匹配分句;具体读取所述文本词库,按照词库内容对所述文本分句和所述匹配分句进行拆分;
根据所述文本词库对应的分词权重表计算所述匹配分句中各分词的分词权重总和,得到所述权值得分S;所述分词权重表中包含有所述文本词库中所有分词的分词权重;
基于所述权值得分轮询计算所述文本分句与所有所述匹配分句之间的匹配度分值,并确定候选匹配分句;具体确定所述文本分句与所述匹配分句中的相同分词和对应的匹配权值得分S1,按照匹配度计算公式确定所述文本分句与所述匹配分句的所述匹配度分值P;匹配度计算公式如下:
其中的S1表示两个分句中匹配到的相同分词部分的分词权重总和,表示轮询的第i个匹配分句的匹配度分值;
当存在唯一超过匹配度分值阈值的所述候选匹配分句时,将其确定为目标匹配分句;
当不存在超过匹配度分值阈值的所述候选匹配分句时,输出为空;
当存在多个超过匹配度分值阈值的所述候选匹配分句时,将其确定为所述候选匹配分句;
当匹配出多条所述候选匹配分句时,基于目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句,并根据所述候选匹配分句更新所述文本词库和分词权重。
2.根据权利要求1所述的方法,其特征在于,确定所述匹配分句的所述权值得分后,还包括:
依次基于所述文本分句轮询比对文本,当存在文本内容和词序完全一致的所述匹配分句时,将其确定为所述目标匹配分句,否则轮询计算与所述匹配分句的所述匹配度分值。
3.根据权利要求2所述的方法,其特征在于,所述基于目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句,包括:
将所述候选匹配分句按照匹配度分值大小排序;
将所述匹配度分值最高的所述候选匹配分句确定为所述目标匹配分句,其余确定为备选匹配分句;或
基于人工审核的确认指令,从匹配度分值最高以外的所述候选匹配分句中选定所述目标匹配分句,其余确定为所述备选匹配分句。
4.根据权利要求3所述的方法,其特征在于,当从所述备选匹配分句中选定所述目标匹配分句时;所述根据所述候选匹配分句更新所述文本词库和分词权重,包括:
将所述目标匹配分句的所述匹配度分值确定为目标匹配分,将高于所述目标匹配分的所述备选匹配分句确定为拒绝分句;
将所述拒绝分句与所述目标匹配分句拆分的分词作差集运算,确定所述拒绝分句中的无效词;
基于所述无效词更新所述分词权重表,以及根据词库更新条件确定的关键词更新所述文本词库。
5.根据权利要求4所述的方法,其特征在于,所述基于所述无效词更新所述分词权重表,包括:
从所述分词权重表中匹配所述无效词的当前分词权重,并与最低权重值比较;
若当前分词权重值大于最低权重值,按照预设的梯度递减法降低权重值;
若当前分词权重值不大于最低权重值,不进行更新。
6.根据权利要求4所述的方法,其特征在于,所述根据词库更新条件确定的关键词更新所述文本词库,包括:
将所述目标匹配分句与所述拒绝分句拆分的分词作差集运算,确定所述目标匹配分句中的候选关键词;
将所述候选关键词按照初始化分词权重值的和值,与所述无效词更新后分词权重值的和值作差,获得关键词语境得分;
当所述关键词语境得分大于准入阈值时,将其确定为关键词,并加入到所述文本词库中;
当所述关键词语境得分小于准入阈值时,不更新所述文本词库。
7.根据权利要求1所述的方法,其特征在于,所述文本词库包括标准词库和关键词词库;所述标准词库中存储有各领域的标准词条,所述关键词词库中存储有更新词库时加入的关键词。
8.一种全名词模糊匹配装置,其特征在于,包括:
权值得分计算模块,用于通过文本词库对原始文本中的文本分句及比对文本中的匹配分句进行分词处理,并计算所述匹配分句的权值得分;所述原始文本与所述比对文本中包含若干待匹配的文本分句和匹配分句;具体读取所述文本词库,按照词库内容对所述文本分句和所述匹配分句进行拆分;
根据所述文本词库对应的分词权重表计算所述匹配分句中各分词的分词权重总和,得到所述权值得分S;所述分词权重表中包含有所述文本词库中所有分词的分词权重;
匹配度计算模块,用于基于所述权值得分轮询计算所述文本分句与所有所述匹配分句之间的匹配度分值,并确定候选匹配分句;具体确定所述文本分句与所述匹配分句中的相同分词和对应的匹配权值得分S1,按照匹配度计算公式确定所述文本分句与所述匹配分句的所述匹配度分值P;匹配度计算公式如下:
其中的S1表示两个分句中匹配到的相同分词部分的分词权重总和,表示轮询的第i个匹配分句的匹配度分值;
当存在唯一超过匹配度分值阈值的所述候选匹配分句时,将其确定为目标匹配分句;
当不存在超过匹配度分值阈值的所述候选匹配分句时,输出为空;
当存在多个超过匹配度分值阈值的所述候选匹配分句时,将其确定为所述候选匹配分句;
更新模块,用于当匹配出多条所述候选匹配分句时,基于目标匹配条件从所述候选匹配分句中确定唯一的目标匹配分句,并根据所述候选匹配分句更新所述文本词库和分词权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211638615.8A CN115905473B (zh) | 2022-12-20 | 2022-12-20 | 全名词模糊匹配方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211638615.8A CN115905473B (zh) | 2022-12-20 | 2022-12-20 | 全名词模糊匹配方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115905473A CN115905473A (zh) | 2023-04-04 |
CN115905473B true CN115905473B (zh) | 2024-03-05 |
Family
ID=86481664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211638615.8A Active CN115905473B (zh) | 2022-12-20 | 2022-12-20 | 全名词模糊匹配方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905473B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955772A (zh) * | 2011-08-17 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于语义的相似度计算方法和装置 |
CN112883730A (zh) * | 2021-03-25 | 2021-06-01 | 平安国际智慧城市科技股份有限公司 | 相似文本匹配方法、装置、电子设备及存储介质 |
CN113268986A (zh) * | 2021-05-24 | 2021-08-17 | 交通银行股份有限公司 | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020422B (zh) * | 2018-11-26 | 2020-08-04 | 阿里巴巴集团控股有限公司 | 特征词的确定方法、装置和服务器 |
-
2022
- 2022-12-20 CN CN202211638615.8A patent/CN115905473B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102955772A (zh) * | 2011-08-17 | 2013-03-06 | 北京百度网讯科技有限公司 | 一种基于语义的相似度计算方法和装置 |
CN112883730A (zh) * | 2021-03-25 | 2021-06-01 | 平安国际智慧城市科技股份有限公司 | 相似文本匹配方法、装置、电子设备及存储介质 |
CN113268986A (zh) * | 2021-05-24 | 2021-08-17 | 交通银行股份有限公司 | 一种基于模糊匹配算法的单位名称匹配、查找方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115905473A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7343371B2 (en) | Queries-and-responses processing method, queries-and-responses processing program, queries-and-responses processing program recording medium, and queries-and-responses processing apparatus | |
CN110362824B (zh) | 一种自动纠错的方法、装置、终端设备及存储介质 | |
US9575937B2 (en) | Document analysis system, document analysis method, document analysis program and recording medium | |
CN107870901A (zh) | 从翻译源原文生成相似文的方法、程序、装置以及系统 | |
US20150199567A1 (en) | Document classification assisting apparatus, method and program | |
US9098487B2 (en) | Categorization based on word distance | |
KR20150037924A (ko) | 제품 인식에 근거한 정보 분류 기법 | |
JP2014123286A (ja) | 文書分類装置及びプログラム | |
CN114186019A (zh) | 结合rpa和ai的企业项目的审核方法及装置 | |
CN111613214A (zh) | 一种用于提升语音识别能力的语言模型纠错方法 | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
Kotenko et al. | Evaluation of text classification techniques for inappropriate web content blocking | |
CN115238040A (zh) | 一种钢铁材料学知识图谱构建方法及系统 | |
Tüselmann et al. | Are end-to-end systems really necessary for NER on handwritten document images? | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
JP5204203B2 (ja) | 用例翻訳システム、用例翻訳方法及び用例翻訳プログラム | |
JP2002175330A (ja) | 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体 | |
EP2544100A2 (en) | Method and system for making document modules | |
WO2008062822A1 (fr) | Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte | |
JP4959603B2 (ja) | ドキュメントを解析するためのプログラム,装置および方法 | |
CN115905473B (zh) | 全名词模糊匹配方法、装置及存储介质 | |
JP4479745B2 (ja) | 文書の類似度補正方法、プログラムおよびコンピュータ | |
JP4567025B2 (ja) | テキスト分類装置、テキスト分類方法及びテキスト分類プログラム並びにそのプログラムを記録した記録媒体 | |
CN112328757B (zh) | 一种用于业务机器人问答系统的相似文本检索方法 | |
WO2015125088A1 (en) | Document characterization method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |