CN114064893A - 一种异常数据审核方法、装置、设备及存储介质 - Google Patents
一种异常数据审核方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114064893A CN114064893A CN202111347270.6A CN202111347270A CN114064893A CN 114064893 A CN114064893 A CN 114064893A CN 202111347270 A CN202111347270 A CN 202111347270A CN 114064893 A CN114064893 A CN 114064893A
- Authority
- CN
- China
- Prior art keywords
- abnormal data
- text
- auditing
- matching
- audit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 275
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012550 audit Methods 0.000 claims abstract description 114
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 230000011218 segmentation Effects 0.000 claims description 45
- 238000012552 review Methods 0.000 claims description 25
- 238000013145 classification model Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 230000004044 response Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012795 verification Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能和数字医疗领域,应用于智慧医疗领域中,揭露了一种异常数据审核方法、装置、设备及存储介质,所述方法包括:获取异常数据;对异常数据进行分类,得到异常数据对应的类别;基于类别,从预设数据库中获取对应的审核内容;通过关键词提取模型对异常数据进行特征提取,得到异常数据的特征文本;利用文本匹配模型对审核内容与特征文本进行匹配,得到对应的匹配度;将各匹配度与预设阈值进行比较,以确定审核结果。本申请还涉及区块链技术,异常数据存储于区块链中。本申请能提高对异常数据的审核效率。
Description
技术领域
本申请涉及人工智能和数字医疗领域,尤其涉及一种异常数据审核方法、装置、设备及存储介质。
背景技术
在当今社会背景下,越来越多的人开始重视保险的购入,随着保险的购入量不断增多,理赔案件申请量也在不断增加,而对于理赔案件这一类异常数据的审核工作量也不断加重。在现有技术中常通过审核人结合保全历史记录、核保历史记录以及理赔出现原因等,对异常数据进行审核,其效率较低。在其他审核方式中,例如目前的理赔系统,其主要进行一个时间判断以及人员审核,没有进一步审核,后续审核还是主要由人工进行,处理效率已然很低。因此,如何提高异常数据的审核效率成为了亟待解决的问题。
发明内容
本申请提供了一种异常数据审核方法、装置、设备及存储介质,以解决现有技术中异常数据的审核效率较低的问题。
为解决上述问题,本申请提供了一种异常数据审核方法,包括:
获取异常数据;
对所述异常数据进行分类,得到所述异常数据对应的类别;
基于所述类别,从预设数据库中获取对应的审核内容;
通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,所述关键词提取模型基于TextRank模型得到;
利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度,所述文本匹配模型基于bimpm模型训练得到;
将各所述匹配度与预设阈值进行比较,以确定审核结果。
进一步的,所述对所述异常数据进行分类,得到所述异常数据对应的类别包括:
获取所有所述类别对应的文本数据;
对所述异常数据进行扫描,判断所述异常数据中是否含有所述文本数据;
若所述异常数据含有所述文本数据,则将所述文本数据对应的类别作为所述异常数据的类别;
若所述异常数据未含有所述文本数据,则利用文本分类模型,对所述异常数据进行分类,得到所述异常数据对应的类别,所述文本分类模型基于LDA模型训练得到。
进一步的,所述利用文本分类模型,对所述异常数据进行分类,得到所述异常数据对应的类别包括:
利用所述文本分类模型,对所述异常数据进行预分类,得到所述异常数据的分类结果;
将所述分类结果与所述文本数据进行比较,判断所述文本数据中是否包含所述分类结果;
若所述文本数据中包含所述分类结果,则将所述分类结果作为所述异常数据对应的类别;
若所述文本数据中不包含所述分类结果,则向用户发送第一问题信息。
进一步的,所述通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本包括:
对所述异常数据切分,得到异常数据中各部分对应的字词;
利用所述关键词提取模型对所述异常数据中各部分字词独立进行特征提取,得到各部分中的特征以及对应的权重;
基于所述特征对应的权重,对所述特征从大到小进行排序,提取排序前预设个数的特征,作为所述异常数据中各部分对应的关键词;
收集所述各部分对应的关键词,得到所述特征文本。
进一步的,所述对所述异常数据切分,得到异常数据中各部分对应的字词包括:
利用结巴分词对所述异常数据进行分词处理,得到对应的多个词语;
对多个所述词语进行词性标注,将词性为停用词的词语进去去除,得到异常数据中各部分对应的字词。
进一步的,所述利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度包括:
基于所述审核内容中的各审核要素,获取所述特征文本中对应的关键词;
通过所述文本匹配模型将各所述审核要素对应的内容与所述审核要素对应的关键词进行匹配,得到各审核要素对应的匹配度。
进一步的,所述将各所述匹配度与预设阈值进行比较,以确定审核结果包括:
提取所述审核内容中第一审核要素对应的匹配度;
判断所述第一审核要素对应的匹配度是否大于等于第一预设数值;
当所述第一审核要素对应的匹配度小于第一预设数值时,则直接向用户发送第二问题信息;
当所述第一审核要素对应的匹配度大于等于第一预设数值时,则对所述审核内容中的第二审核要素对应的匹配度与第二预设数值的大小进行判断;
当所述审核内容中的第二审核要素对应的匹配度小于第二预设数值,则直接向用户发送第三问题信息;
当所述审核内容中的第二审核要素对应的匹配度大于等于第二预设数值,则输出匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容;
将所述匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容,填入预设的清单列表,基于填充后的预设的清单列表,得到所述审核结果。
为了解决上述问题,本申请还提供一种异常数据审核装置,所述装置包括:
第一获取模块,用于获取异常数据;
分类模块,用于对所述异常数据进行分类,得到所述异常数据对应的类别;
第二获取模块,用于基于所述类别,从预设数据库中获取对应的审核内容;
特征提取模块,用于通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,所述关键词提取模型基于TextRank模型得到;
匹配模块,用于利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度,所述文本匹配模型基于bimpm模型训练得到;
输出模块,用于将各所述匹配度与预设阈值进行比较,以确定审核结果。
为了解决上述问题,本申请还提供一种计算机设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的异常数据审核方法。
为了解决上述问题,本申请还提供一种非易失性的计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如上所述的异常数据审核方法。
根据本申请实施例提供的一种异常数据审核方法、装置、设备及存储介质,与现有技术相比至少具有以下有益效果:
通过获取待审核的异常数据,对所述异常数据进行分类,得到所述异常数据对应的所属类别,基于所述类别,获取对应的审核内容,来实现对所述异常数据针对性的审核,审核内容是指在审核规则下的多个准确答复;并且利用预训练的关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,通过特征文本来表征异常数据,便于后面进行文本匹配;利用预训练的文本匹配模型对所述多个准确答复与特征文本进行匹配,针对一个匹配部分,得到对应的匹配度,通过将所有匹配度与预设阈值进行比较,从而得到审核结果,从而提高了审核的效率以及准确度。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图做一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的异常数据审核方法的流程示意图;
图2为本申请一实施例提供的异常数据审核装置的模块示意图;
图3为本申请一实施例的计算机设备的结构示意图。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是是相同的实施例,也不是与其它实施例相互排斥的独立的或备选的实施例。本领域技术人员显式地或隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请提供一种异常数据审核方法。参照图1所示,为本申请一实施例提供的异常数据审核方法的流程示意图。
在本实施例中,异常数据审核方法包括:
S1、获取异常数据;
在本申请中,可通过直接接收用户输入的异常数据,或从数据库中提取异常数据。所述异常数据包括理赔案件对应的文本,所述理赔案件对应的文本包含有理赔人姓名、案件情况说明等。所述异常数据,是指理赔案件对应的数据,并且该理赔案件还并没有具体的审核结果的一类数据。
进一步的,所述获取待审核的异常数据包括:
向预设知识库发送调用请求,所述调用请求携带验签令牌;
接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述预设知识库中的异常数据,所述验签结果为所述知识库根据所述验签令牌进行RSA非对称加密方式验证得到。
具体的,由于异常数据,会涉及用户的隐私数据,所以对于异常数据都会保存至预设数据库中,所以在获取异常数据时,数据库会进行验签步骤,以保证数据的安全,避免泄露数据等问题。
整个过程为,客户端计算消息m的第一消息摘要,并用RSA非对称加密方式对第一消息摘要进行加密(利用客户端的私钥),得到签名s,将消息m和签名s再利用知识库的公钥,得到密文c,发送至知识库,知识库使用自己的私钥对密文c进行解密,得到消息m和签名s,知识库使用客户端的公钥对签名s进行解密,得到第一消息摘要;同时知识库用同样的方法对消息m进行摘要提取,得到第二消息摘要,判断第一消息摘要和第二消息摘要是否相同,相同则验证成功;不同则验证失败。
通过在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。
S2、对所述异常数据进行分类,得到所述异常数据对应的类别;
具体的,通过对异常数据进行分类,获取对应的类别,便于后续利用审核内容与所述异常数据进行匹配,并且可采用扫描或者利用文本分类模型等手段来进行处理。
进一步的,所述对所述异常数据进行分类,得到所述异常数据对应的类别包括:
获取所有所述类别对应的文本数据;
对所述异常数据进行扫描,判断所述异常数据中是否含有所述文本数据;
若所述异常数据含有所述文本数据,则将所述文本数据对应的类别作为所述异常数据的类别;
若所述异常数据未含有所述文本数据,则利用文本分类模型,对所述异常数据进行分类,得到所述异常数据对应的类别,所述文本分类模型基于LDA模型训练得到。
其中,首先获取所有类别对应的文本数据,例如买保险可以买多个险种,获取该险种的名称,即获取所有的险种名称,所以此处险种名称即类别,所述险种名称对应的文本即文本数据;根据险种名称对应的文本数据对异常数据进行扫描,判断所述异常数据中是否含有所述文本数据,即是否含有险种名称,若扫描到异常数据中含有所述文本数据,则将所述文本数据对应的类别作为所述异常数据的类别。若所述异常数据中未含有所述文本数据,则利用所述文本分类模型,来对异常数据进行分类,得到所述异常数据对应的类别。
具体的,在申请理赔时的理赔案件,即为此处的异常数据,所述异常数据含有申请理赔人名称、申请理赔险种,具体案件情况说明等。此处主要针对申请理赔险种进行扫描;当然,也可对所述异常数据进行整体扫描。所述对理赔险种进行扫描是判断异常数据中是否直接含有险种名称的全称或简称。
通过确定异常数据的类别,便于后续对审核内容进行匹配。
再进一步的,所述利用文本分类模型,对所述异常数据进行分类,得到所述异常数据对应的类别包括:
利用所述文本分类模型,对所述异常数据进行预分类,得到所述异常数据的分类结果;
将所述分类结果与所述文本数据进行比较,判断所述文本数据中是否包含所述分类结果;
若所述文本数据中包含所述分类结果,则将所述分类结果作为所述异常数据对应的类别;若所述文本数据中不包含所述分类结果,则向用户发送第一问题信息。
具体的,若异常数据中未直接扫描到所述文本数据时,通过利用预训练的文本分类模型,对所述异常数据进行预分类,得到所述异常数据的分类结果。
由于得到的分类的结果需要符合险种名称,所以需要判断所述文本数据中是否含有分类结果,若在文本数据中含有所述分类结果,即证明在文本数据对应的类别中有与该分类结果一样的类别,所以可直接将分类结果作为异常数据的类别;若不包含所述分类结果,则向用户发送第一问题信息,以进行报错。
LDA(Latent Dirichlet Allocation)模型是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。
通过利用文本分类模型,实现对异常数据的类别进行准确判断。
S3、基于所述类别,从预设数据库中获取对应的审核内容;
具体的,基于类别与审核内容的映射关系,在得到所述类别后,从数据库中获取对应的审核内容。所述审核内容并非为审核规则,而是在审核规则下的多个准确答复内容。
在获取所述对应的审核内容之前,还将获取所述异常数据中的申报人信息,即申报人姓名,基于所述申报人姓名,调取其对应的购买信息,基于购买信息中的险种类型信息,判断所述险种类型信息与所述异常数据对应的类别是否一致;若不一致,则向用户发出报错信息。若一致,则获取对应的审核内容。
S4、通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,所述关键词提取模型基于TextRank模型得到;
具体的,通过利用关键词提取模型对所述异常数据中各部分独立的进行特征提取,得到各部分对应的关键词,收集各部分的关键词,得到特征文本。
例如所述异常数据中包括申请理赔险种、具体案件情况说明等内容,分别对申请理赔险种、具体案件情况说明进行特征提取,得到申请理赔险种、具体案件情况说明种对应的关键词。
进一步的,所述通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本包括:
对所述异常数据切分,得到异常数据中各部分对应的字词;
利用所述关键词提取模型对所述异常数据中各部分字词独立进行特征提取,得到各部分中的特征以及对应的权重;
基于所述特征对应的权重,对所述特征从大到小进行排序,提取排序前预设个数的特征,作为所述异常数据中各部分对应的关键词;
收集所述各部分对应的关键词,得到所述特征文本。
具体的,所述关键词提取模型首先对异常数据进行切分,得到对应的字词,随后对各部分字词独立进行特征提取,得到各部分中的特征以及对应的权重。并基于特征对应的权重,对所述特征从大到小进行排序,提取前预设个数的特征,作为各部分对应的关键词。
通过异常数据分为了多个部分,例如申请理赔人名称、申请理赔险种,具体案件情况说明等,对各部分分别进行特征提取,并且在对特征提取后,只提取权重排序前n位的特征,作为关键词。所述n可根据需要进行自由设定。所述异常数据即理赔案件,其都有固定的格式,例如申请理赔人名称、申请理赔险种等,申请人须在固定格式中填入对应的内容,即多个部分。
在对各部分收集完毕后,将各部分对应的关键词进行收集,组成特征文本。
在特征文本中,将属于同一部分的关键词聚集在一起,进行分类保存。
TextRank模型通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。
通过利用关键词提取模型对所述异常数据进行特征提取,实现对数据的精炼,提高后续所述审核内容与所述特征文本进行匹配的匹配效率以及审核效率。
再进一步的,所述对所述异常数据切分,得到异常数据中各部分对应的字词包括:
利用结巴分词对所述异常数据进行分词处理,得到对应的多个词语;
对多个所述词语进行词性标注,将词性为停用词的词语进去去除,得到异常数据中各部分对应的字词。
具体的,所述结巴分词支持三种切词模式;精确模式,将语句最精确的分开;全模式,把句子中所有的可以成词的词语都扫描出来;搜索引擎模式,在精确模式的基础上,对长词再次进行切分。在本申请中使用的是精确模式的结巴分词,便于将待处理语句精确的分开。
在本申请中直接利用的python中的结巴工具包,通过导入这一结巴工具包,就可以处理每一条输入进来的异常数据进行切分,实现异常数据的切词处理。
例如,将“勘察之后的流程是定损”利用结巴分词的精确模式进行切词处理后将得到“勘察/之后/的/流程/是/定损”这样的字词。
并且在切分后,通过结巴分词,并利用现有的停用词库,对切分后的词语进行停用词去除,具体的,通过将切分后的词语依次在停用词库中进行查询,若查询到,则将对应的词语进行去除,从而实现对停用词进行去除。
通过结巴分词来实现分词以及词性标注,并对词性为停用词的词语进行去除,实现对异常数据的预处理。
又进一步的,所述利用结巴分词对所述异常数据进行分词处理包括:
基于预设的Trie树扫描所述异常数据,识别所述异常数据中字词的多种切分组合;
基于识别到的所有切分组合构建有向无环图,利用所述有向无环图进行动态规划查找最大概率路径,确定最大概率的切分组合,基于所述最大概率的切分组合对所述异常数据进行切词;
对于未被识别出的字词,采用隐马尔可夫模型进行切分。
具体的,具体的,Trie树又叫字典树,是一种常见的数据结构,也是一种前缀树,用于在一个字符串列表中进行快速的字符串匹配。基于预设的Trie树扫描所述待处理语句,识别出所述待处理语句中字词的多种切分组合,就将待处理语句与Trie树进行扫描匹配,生成字词的多种切分组合。将多种切分组合构成有向无环图,在有向无环图中每个节点即切分后的字词。
随后利用所述有向无环图进行动态规划查找最大概率路径,在利用词典生成Trie树时,将每个词出现的次数转换为频率。对于给出的多种切分组合,对各切分组合查找该切分组合出现的频率,即有向无环图中每个节点的概率,计算最大概率路径的主函数是calc,函数根据构建好的有向无环图计算最大概率路径。所述函数calc是一个自底向上的动态规划,它从待处理语句的最后一个字词开始倒序遍历待处理语句的每个字词的方式,计算待处理语句各切分组合的概率对数得分。然后将概率对数得分最高的情况以这样的切分组合方式保存并输出。即得到概率最大的切分组合,并基于该切分组合对待处理语句进行切分。
并且由于词典的局限性,不能包含所有的字词,所以对未在词典中出现过的字词,将采用隐马尔可夫模型进行切分,隐马尔可夫模型将中文词汇按照BEMS四个状态来进行标记,B是指开始位置,E是指结束位置,M是指中间位置,S是指单独成词的位置,结巴分析采用上述四种状态来标记中文词语,例如北京可以标注为BE,即北/B京/E,即北为开始位置,京为结束位置。来进行拆分。
通过上述的方式对待处理语句进行切分,能得到最接近真实情况的切分组合。
S5、利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度,所述文本匹配模型基于bimpm模型训练得到;
具体的,通过将所述审核内容与特征文本进行对应匹配,并得到匹配度,便于后续对理赔内容进行填充。
进一步的,所述利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度包括:
基于所述审核内容中的各审核要素,获取所述特征文本中对应的关键词;
通过所述文本匹配模型将各所述审核要素对应的内容与所述审核要素对应的关键词进行匹配,得到各审核要素对应的匹配度,所述文本匹配模型基于bimpm模型训练得到。
具体的,首先审核内容中包含有各审核要素,基于所述审核要素,获取特征文本中对应的关键词来进行后续的匹配。
所述各审核要素可根据特征文本中的各部分对应,对各部分提取到的关键词,即可与各审核要素相对应。
例如审核内容包括有时间审核要素、状态审核要素、损坏情况审核要素等,此处以损坏情况要素,损坏情况审核要素下分为轻微、普通和严重;将所述轻微、普通和严重与对应的关键词进行匹配,得到对应的匹配度,此处的匹配度是指轻微、普通和严重中所占权重最高的数值。
通过将特征文本中的关键词与各审核要素对应的内容进行匹配,得到审核内容中各审核要素的匹配度,通过匹配度,来对异常数据进行判断,实现对异常数据的审核,提高了审核效率。
S6、将各所述匹配度与预设阈值进行比较,以确定审核结果。
具体的,将各所述匹配度与预设阈值进行比较,将所述大于预设阈值的匹配度对应的内容,来填入后续清单列表,基于所述清单列表,得到审核结果。
进一步的,所述将各所述匹配度与预设阈值进行比较,以确定审核结果包括:
提取所述审核内容中第一审核要素对应的匹配度;
判断所述第一审核要素对应的匹配度是否大于等于第一预设数值;
当所述第一审核要素对应的匹配度小于第一预设数值时,则直接向用户发送第二问题信息;
当所述第一审核要素对应的匹配度大于等于第一预设数值时,则对所述审核内容中的第二审核要素对应的匹配度与第二预设数值的大小进行判断;
当所述审核内容中的第二审核要素对应的匹配度小于第二预设数值,则直接向用户发送第三问题信息;
当所述审核内容中的第二审核要素对应的匹配度大于等于第二预设数值,则输出匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容;
将所述匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容,填入预设的清单列表,基于填充后的预设的清单列表,得到所述审核结果。
具体的,在审核内容中包括第一审核要素和第二审核要素,第一审核要素相较于整个理赔审核过程占主要部分,而对于第二审核要素相较于整个理赔过程占较轻部分或者说次要部分。通过先对第一审核要素对应的与特征文本中对应关键词的匹配度,来与第一预设数值进行判断,当所述第一审核要素对应的匹配度小于第一预设数值时,则直接向用户发送第二问题信息;所述第二问题信息,即与第一审核要素对应的问题信息。例如某一第一审核要素为时间审核要素,当时间审核要素与对应的关键词匹配度小于第一预设数值时,将会向用户发送时间审核要素异常,并具体展示时间审核要素如何异常。
在第一审核要素通过后,则第二审核要素与第二预设数值进行大小判断;当所述审核内容中的第二审核要素对应的匹配度小于第二预设数值,则直接向用户发送第三问题信息;所述第三问题信息即与第二审核要素对应的问题信息。
当所述审核内容中的第二审核要素对应的匹配度大于等于第二预设数值,则输出大于第二预设数值对应的第二审核要素的内容;将匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值对应的第二审核要素的内容,填入清单列表,基于清单列表,得到审核结果。所述第一预设数值与第二预设数值大小并无关系,都可根据实际情况进行设定。
所述清单列表中的待填内容,与各审核元素的内容相对应。
例如清单列表中包括:时间、疾病情况、疾病种类等,将异常数据对应的各审元素的内容填入对应位置处,基于填充后的清单列表,可得出所述审核结果。基于清单列表得到审核结果的方法可提前预设,也可通过人工智能,基于已得到的清单列表与审核结果的对应关系进行训练,得到对应的模型。基于模型来对清单列表进行处理,得到对应的审核结果。
通过对第一审核要素和第二审核要素与预设数值进行判断,以得到最终的审核结果,通过多维度的内容,得到审核结果,提高了审核结果的准确度。
需要强调的是,为了进一步保证数据的私密性和安全性,所述异常数据还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
通过获取待审核的异常数据,对所述异常数据进行分类,得到所述异常数据对应的所属类别,基于所述类别,获取对应的审核内容,来实现对所述异常数据针对性的审核,审核内容是指在审核规则下的多个准确答复;并且利用预训练的关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,通过特征文本来表征异常数据,便于后面进行文本匹配;利用预训练的文本匹配模型对所述多个准确答复与特征文本进行匹配,针对一个匹配部分,得到对应的匹配度,通过将所有匹配度与预设阈值进行比较,从而得到审核结果,从而提高了审核的效率以及准确度。
本实施例还提供一种异常数据审核装置,如图2所示,是本申请异常数据审核装置的功能模块图。
本申请所述异常数据审核装置100可以安装于电子设备中。根据实现的功能,所述异常数据审核装置100可以包括第一获取模块101、分类模块102、第二获取模块103、特征提取模块104、匹配模块105和输出模块106。本申请所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
第一获取模块101,用于获取异常数据;
具体的,第一获取模块101可通过直接接收用户输入的异常数据,或从数据库中提取异常数据。
进一步的,所述第一获取模块101包括请求发送子模块和数据调用子模块;
所述请求发送子模块,用于向预设知识库发送调用请求,所述调用请求携带验签令牌;
所述数据调用子模块,用于接收所述知识库返回的验签结果,并在验签结果为通过时,调用所述知识库中的异常数据,所述验签结果为所述知识库根据所述验签令牌进行RSA非对称加密方式验证得到。
通过请求发送子模块和数据调用子模块的配合在调取数据时,需要进行验签,保证了存储在数据库中的数据的安全,避免数据泄露。
分类模块102,用于对所述异常数据进行分类,得到所述异常数据对应的类别;
具体的,分类模块102通过对异常数据进行分类,获取对应的类别,便于后续利用审核内容与所述异常数据进行匹配。
进一步的,所述分类模块102包括第三获取子模块、扫描子模块和确定子模块;
所述第三获取子模块,用于获取所有所述类别对应的文本数据;
所述扫描子模块,用于对所述异常数据进行扫描,判断所述异常数据中是否含有所述文本数据;
所述确定子模块,用于若所述异常数据含有所述文本数据,则将所述文本数据对应的类别作为所述异常数据的类别;若所述异常数据未含有所述文本数据,则利用文本分类模型,对所述异常数据进行分类,得到所述异常数据对应的类别,所述文本分类模型基于LDA模型训练得到。
具体的,所述第三获取子模块获取所有类别对应的文本数据,例如买保险可以买多个险种,获取该险种的名称,即获取所有的险种名称,所以此处险种名称即类别,所述险种名称对应的文本即文本数据;所述扫描子模块根据险种名称对应的文本数据对异常数据进行扫描,判断所述异常数据中是否含有所述文本数据,即是否含有险种名称,所述确定子模块若扫描到异常数据中含有所述文本数据,则将所述文本数据对应的类别作为所述异常数据的类别。若所述异常数据中未含有所述文本数据,则利用所述文本分类模型,来对异常数据进行分类,得到所述异常数据对应的类别。
通过第三获取子模块、扫描子模块和确定子模块的配合确定异常数据的类别,便于后续对应的审核内容进行匹配。
进一步的,所述确定子模块还包括预分类单元、比较单元和对应输出单元;
所述预分类单元,用于利用所述文本分类模型,对所述异常数据进行预分类,得到所述异常数据的分类结果;
所述比较单元,用于将所述分类结果与所述文本数据进行比较,判断所述文本数据中是否包含所述分类结果;
所述对应输出单元,用于若所述文本数据中包含所述分类结果,则将所述分类结果作为所述异常数据对应的类别;若所述文本数据中不包含所述分类结果,则向用户发送第一问题信息。
具体的,所述预分类单元若异常数据中未直接扫描到所述文本数据时,通过利用预训练的文本分类模型,对所述异常数据进行预分类,得到所述异常数据的分类结果。
由于得到的分类的结果需要符合险种名称,所以需要所述比较单元判断所述文本数据中是否含有分类结果,所述对应输出单元若在文本数据中含有所述分类结果,即证明在文本数据对应的类别中有与该分类结果一样的类别,所以可直接将分类结果作为异常数据的类别;若不包含所述分类结果,则向用户发送第一问题信息,以进行报错。
通过预分类单元、比较单元和对应输出单元的配合,利用文本分类模型,实现对异常数据的类别进行准确判断。
第二获取模块103,用于基于所述类别,从预设数据库中获取对应的审核内容;
具体的,第二获取模块103基于类别与审核内容的映射关系,在得到所述类别后,从数据库中获取对应的审核内容。所述审核内容并非为审核规则,而是在审核规则下的多个准确答复内容。
特征提取模块104,用于通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,所述关键词提取模型基于TextRank模型得到;
具体的,特征提取模块104通过利用关键词提取模型对所述异常数据中各部分独立的进行特征提取,得到各部分对应的关键词,收集各部分的关键词,得到特征文本。
进一步的,所述特征提取模块104包括切分子模块、关键词提取子模块、排序子模块和收集子模块;
所述切分子模块,用于对所述异常数据切分,得到异常数据中各部分对应的字词;
所述关键词提取子模块,用于利用所述关键词提取模型对所述异常数据中各部分字词独立进行特征提取,得到各部分中的特征以及对应的权重;
所述排序子模块,用于基于所述特征对应的权重,对所述特征从大到小进行排序,提取排序前预设个数的特征,作为所述异常数据中各部分对应的关键词;
所述收集子模块,用于收集所述各部分对应的关键词,得到所述特征文本。
具体的,所述切分子模块首先对异常数据进行切分,得到对应的字词,所述关键词提取子模块对各部分字词独立进行特征提取,得到各部分中的特征以及对应的权重。所述排序子模块基于特征对应的权重,对所述特征从大到小进行排序,提取前预设个数的特征,作为各部分对应的关键词。通过异常数据分为了多个部分,例如申请理赔人名称、申请理赔险种,具体案件情况说明等,所述关键词提取子模块对各部分分别进行特征提取,并且在对特征提取后,只提取权重排序前n位的特征,作为关键词。所述n可根据需要进行自由设定。
所述收集子模块在对各部分收集完毕后,将各部分对应的关键词进行收集,组成特征文本。
通过切分子模块、关键词提取子模块、排序子模块和收集子模块的配合,通过利用关键词提取模型对所述异常数据进行特征提取,实现对数据的精炼,提高后续所述审核内容与所述特征文本进行匹配的匹配效率以及审核效率。
再进一步的,所述切分子模块还包括分词单元和去除单元;
所述分词单元,用于利用结巴分词对所述异常数据进行分词处理,得到对应的多个词语;
所述去除单元,用于对多个所述词语进行词性标注,将词性为停用词的词语进去去除,得到异常数据中各部分对应的字词。
通过分词子模块和去除子模块的配合,通过结巴分词来实现分词以及词性标注,并对词性为停用词的字词进行去除,实现对异常数据的预处理。
匹配模块105,用于利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度,所述文本匹配模型基于bimpm模型训练得到;
具体的,匹配模块105通过将所述审核内容与特征文本进行对应匹配,并得到匹配度,便于后续对理赔内容进行填充。
进一步的,所述匹配模块105包括第四获取子模块和文本匹配子模块;
所述第四获取子模块,用于基于所述审核内容中的各审核要素,获取所述特征文本中对应的关键词;
所述文本匹配子模块,用于通过所述文本匹配模型将各所述审核要素对应的内容与所述审核要素对应的关键词进行匹配,得到各审核要素对应的匹配度,所述文本匹配模型基于bimpm模型训练得到。
通过第四获取子模块和文本匹配子模块的配合,将特征文本中的关键词与各审核要素对应的内容进行匹配,得到审核内容中各审核要素的匹配度,通过匹配度,来对异常数据进行判断,实现对异常数据的审核,提高了审核效率。
输出模块106,用于将各所述匹配度与预设阈值进行比较,以确定审核结果。
具体的,输出模块106将各所述匹配度与预设阈值进行比较,将所述大于预设阈值的匹配度对应的内容,来填入后续清单列表,基于所述清单列表,得到审核结果。
进一步的,所述输出模块106包括匹配度提取子模块、第一判断子模块、第一输出子模块、第二判断子模块、第二输出子模块、第三输出子模块和处理子模块;
所述匹配度提取子模块,用于提取所述审核内容中第一审核要素对应的匹配度;
所述第一判断子模块,用于判断所述第一审核要素对应的匹配度是否大于等于第一预设数值;
所述第一输出子模块,用于当所述第一审核要素对应的匹配度小于第一预设数值时,则直接向用户发送第二问题信息;
所述第二判断子模块,用于当所述第一审核要素对应的匹配度大于等于第一预设数值时,则对所述审核内容中的第二审核要素对应的匹配度与第二预设数值的大小进行判断;
第二输出子模块,用于当所述审核内容中的第二审核要素对应的匹配度小于第二预设数值,则直接向用户发送第三问题信息;
第三输出子模块,用于当所述审核内容中的第二审核要素对应的匹配度大于等于第二预设数值,则输出匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容;
处理子模块,用于将所述匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容,填入预设的清单列表,基于填充后的预设的清单列表,得到所述审核结果。
通过匹配度提取子模块、第一判断子模块、第一输出子模块、第二判断子模块、第二输出子模块、第三输出子模块和处理子模块的配合,对第一审核要素和第二审核要素与预设数值进行判断,以得到最终的审核结果,通过多维度的内容,得到审核结果,提高了审核结果的准确度。
通过采用上述装置,所述异常数据审核装置100通过第一获取模块101、分类模块102、第二获取模块103、特征提取模块104、匹配模块105和输出模块106的配合使用,获取待审核的异常数据,对所述异常数据进行分类,得到所述异常数据对应的所属类别,基于所述类别,获取对应的审核内容,来实现对所述异常数据针对性的审核,审核内容是指在审核规则下的多个准确答复;并且利用预训练的关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,通过特征文本来表征异常数据,便于后面进行文本匹配;利用预训练的文本匹配模型对所述多个准确答复与特征文本进行匹配,针对一个匹配部分,得到对应的匹配度,通过将所有匹配度与预设阈值进行比较,从而得到审核结果,从而提高了审核的效率以及准确度。
本申请实施例还提供一种计算机设备。具体请参阅图3,图3为本实施例计算机设备基本结构框图。
所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是,图中仅示出了具有组件41-43的计算机设备4,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器41至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器41可以是所述计算机设备4的内部存储单元,例如该计算机设备4的硬盘或内存。在另一些实施例中,所述存储器41也可以是所述计算机设备4的外部存储设备,例如该计算机设备4上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(FlashCard)等。当然,所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中,所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件,例如异常数据审核方法的计算机可读指令等。此外,所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中,所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据,例如运行所述异常数据审核方法的计算机可读指令。
所述网络接口43可包括无线网络接口或有线网络接口,该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。
本实施例通过处理器执行存储在存储器的计算机可读指令时实现如上述实施例异常数据审核方法的步骤,通过获取待审核的异常数据,对所述异常数据进行分类,得到所述异常数据对应的所属类别,基于所述类别,获取对应的审核内容,来实现对所述异常数据针对性的审核,审核内容是指在审核规则下的多个准确答复;并且利用预训练的关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,通过特征文本来表征异常数据,便于后面进行文本匹配;利用预训练的文本匹配模型对所述多个准确答复与特征文本进行匹配,针对一个匹配部分,得到对应的匹配度,通过将所有匹配度与预设阈值进行比较,从而得到审核结果,从而提高了审核的效率以及准确度。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的异常数据审核方法的步骤,通过获取待审核的异常数据,对所述异常数据进行分类,得到所述异常数据对应的所属类别,基于所述类别,获取对应的审核内容,来实现对所述异常数据针对性的审核,审核内容是指在审核规则下的多个准确答复;并且利用预训练的关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,通过特征文本来表征异常数据,便于后面进行文本匹配;利用预训练的文本匹配模型对所述多个准确答复与特征文本进行匹配,针对一个匹配部分,得到对应的匹配度,通过将所有匹配度与预设阈值进行比较,从而得到审核结果,从而提高了审核的效率以及准确度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
本申请上述实施例的异常数据审核装置、计算机设备、计算机可读存储介质具有与上述实施例的异常数据审核方法相同的技术效果,在此不作展开。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种异常数据审核方法,其特征在于,所述方法包括:
获取异常数据;
对所述异常数据进行分类,得到所述异常数据对应的类别;
基于所述类别,从预设数据库中获取对应的审核内容;
通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,所述关键词提取模型基于TextRank模型得到;
利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度,所述文本匹配模型基于bimpm模型训练得到;
将各所述匹配度与预设阈值进行比较,以确定审核结果。
2.根据权利要求1所述的异常数据审核方法,其特征在于,所述对所述异常数据进行分类,得到所述异常数据对应的类别包括:
获取所有所述类别对应的文本数据;
对所述异常数据进行扫描,判断所述异常数据中是否含有所述文本数据;
若所述异常数据含有所述文本数据,则将所述文本数据对应的类别作为所述异常数据的类别;
若所述异常数据未含有所述文本数据,则利用文本分类模型,对所述异常数据进行分类,得到所述异常数据对应的类别,所述文本分类模型基于LDA模型训练得到。
3.根据权利要求2所述的异常数据审核方法,其特征在于,所述利用文本分类模型,对所述异常数据进行分类,得到所述异常数据对应的类别包括:
利用所述文本分类模型,对所述异常数据进行预分类,得到所述异常数据的分类结果;
将所述分类结果与所述文本数据进行比较,判断所述文本数据中是否包含所述分类结果;
若所述文本数据中包含所述分类结果,则将所述分类结果作为所述异常数据对应的类别;
若所述文本数据中不包含所述分类结果,则向用户发送第一问题信息。
4.根据权利要求1所述的异常数据审核方法,其特征在于,所述通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本包括:
对所述异常数据切分,得到异常数据中各部分对应的字词;
利用所述关键词提取模型对所述异常数据中各部分字词独立进行特征提取,得到各部分中的特征以及对应的权重;
基于所述特征对应的权重,对所述特征从大到小进行排序,提取排序前预设个数的特征,作为所述异常数据中各部分对应的关键词;
收集所述各部分对应的关键词,得到所述特征文本。
5.根据权利要求4所述的异常数据审核方法,其特征在于,所述对所述异常数据切分,得到异常数据中各部分对应的字词包括:
利用结巴分词对所述异常数据进行分词处理,得到对应的多个词语;
对多个所述词语进行词性标注,将词性为停用词的词语进去去除,得到异常数据中各部分对应的字词。
6.根据权利要求1所述的异常数据审核方法,其特征在于,所述利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度包括:
基于所述审核内容中的各审核要素,获取所述特征文本中对应的关键词;
通过所述文本匹配模型将各所述审核要素对应的内容与所述审核要素对应的关键词进行匹配,得到各审核要素对应的匹配度。
7.根据权利要求1-6中任一项所述的异常数据审核方法,其特征在于,所述将各所述匹配度与预设阈值进行比较,以确定审核结果包括:
提取所述审核内容中第一审核要素对应的匹配度;
判断所述第一审核要素对应的匹配度是否大于等于第一预设数值;
当所述第一审核要素对应的匹配度小于第一预设数值时,则直接向用户发送第二问题信息;
当所述第一审核要素对应的匹配度大于等于第一预设数值时,则对所述审核内容中的第二审核要素对应的匹配度与第二预设数值的大小进行判断;
当所述审核内容中的第二审核要素对应的匹配度小于第二预设数值,则直接向用户发送第三问题信息;
当所述审核内容中的第二审核要素对应的匹配度大于等于第二预设数值,则输出匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容;
将所述匹配度大于等于第一预设数值的第一审核要素和匹配度大于等于第二预设数值的第二审核要素对应的内容,填入预设的清单列表,基于填充后的预设的清单列表,得到所述审核结果。
8.一种异常数据审核装置,其特征在于,所述装置包括:
第一获取模块,用于获取异常数据;
分类模块,用于对所述异常数据进行分类,得到所述异常数据对应的类别;
第二获取模块,用于基于所述类别,从预设数据库中获取对应的审核内容;
特征提取模块,用于通过关键词提取模型对所述异常数据进行特征提取,得到所述异常数据的特征文本,所述关键词提取模型基于TextRank模型得到;
匹配模块,用于利用文本匹配模型对所述审核内容与所述特征文本进行匹配,得到对应的匹配度,所述文本匹配模型基于bimpm模型训练得到;
输出模块,用于将各所述匹配度与预设阈值进行比较,以确定审核结果。
9.一种计算机设备,其特征在于,所述计算机设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一所述的异常数据审核方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一所述的异常数据审核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111347270.6A CN114064893A (zh) | 2021-11-15 | 2021-11-15 | 一种异常数据审核方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111347270.6A CN114064893A (zh) | 2021-11-15 | 2021-11-15 | 一种异常数据审核方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114064893A true CN114064893A (zh) | 2022-02-18 |
Family
ID=80272002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111347270.6A Pending CN114064893A (zh) | 2021-11-15 | 2021-11-15 | 一种异常数据审核方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114064893A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114971235A (zh) * | 2022-05-12 | 2022-08-30 | 深圳壹账通智能科技有限公司 | 案件分配方法、装置、计算机设备及存储介质 |
CN115065508A (zh) * | 2022-05-27 | 2022-09-16 | 青岛海尔科技有限公司 | 设备孪生数据的处理方法和装置、存储介质及电子装置 |
-
2021
- 2021-11-15 CN CN202111347270.6A patent/CN114064893A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114971235A (zh) * | 2022-05-12 | 2022-08-30 | 深圳壹账通智能科技有限公司 | 案件分配方法、装置、计算机设备及存储介质 |
CN115065508A (zh) * | 2022-05-27 | 2022-09-16 | 青岛海尔科技有限公司 | 设备孪生数据的处理方法和装置、存储介质及电子装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11475143B2 (en) | Sensitive data classification | |
CN109829155B (zh) | 关键词的确定方法、自动评分方法、装置、设备及介质 | |
CN108629043B (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN111818198B (zh) | 域名检测方法、域名检测装置和设备以及介质 | |
CN111460250A (zh) | 用于画像的数据的清洗方法、装置、介质及电子设备 | |
CN112632989A (zh) | 一种合同文本中风险信息的提示方法、装置及设备 | |
CN113450147B (zh) | 基于决策树的产品匹配方法、装置、设备及存储介质 | |
CN113486664A (zh) | 文本数据可视化分析方法、装置、设备及存储介质 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN114064893A (zh) | 一种异常数据审核方法、装置、设备及存储介质 | |
CN113204968B (zh) | 医学实体的概念识别方法、装置、设备及存储介质 | |
CN113762973A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
US9977825B2 (en) | Document analysis system, document analysis method, and document analysis program | |
CN113869398A (zh) | 一种不平衡文本分类方法、装置、设备及存储介质 | |
CN116401343A (zh) | 一种数据合规分析方法 | |
CN116958622A (zh) | 数据的分类方法、装置、设备、介质及程序产品 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN113628043B (zh) | 基于数据分类的投诉有效性判断方法、装置、设备及介质 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN109660621A (zh) | 一种内容推送方法及服务设备 | |
CN113838579B (zh) | 一种医疗数据的异常检测方法、装置、设备及存储介质 | |
CN113657808A (zh) | 一种人员评定方法、装置、设备及存储介质 | |
CN113888265A (zh) | 产品推荐方法、装置、设备及计算机可读存储介质 | |
CN117555983B (zh) | 一种基于机器学习的辅助定密方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |