CN113642669B - 基于特征分析的防欺诈检测方法、装置、设备及存储介质 - Google Patents
基于特征分析的防欺诈检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113642669B CN113642669B CN202111004063.0A CN202111004063A CN113642669B CN 113642669 B CN113642669 B CN 113642669B CN 202111004063 A CN202111004063 A CN 202111004063A CN 113642669 B CN113642669 B CN 113642669B
- Authority
- CN
- China
- Prior art keywords
- feature
- settlement
- score
- standard
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 54
- 230000002265 prevention Effects 0.000 title claims abstract description 52
- 238000001514 detection method Methods 0.000 title claims abstract description 28
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000006243 chemical reaction Methods 0.000 claims abstract description 75
- 238000010219 correlation analysis Methods 0.000 claims abstract description 74
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000002159 abnormal effect Effects 0.000 claims abstract description 19
- 238000013506 data mapping Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 9
- 238000005728 strengthening Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims 1
- 206010000117 Abnormal behaviour Diseases 0.000 abstract description 14
- 238000013473 artificial intelligence Methods 0.000 abstract description 8
- 238000013508 migration Methods 0.000 abstract description 2
- 230000005012 migration Effects 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 230000005856 abnormality Effects 0.000 description 6
- 238000009795 derivation Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000005065 mining Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 6
- 230000009466 transformation Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 108010014173 Factor X Proteins 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000002565 electrocardiography Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
- 238000002759 z-score normalization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Operations Research (AREA)
- Finance (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Accounting & Taxation (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及人工智能领域,公开了一种基于特征分析的防欺诈检测方法、装置、设备及存储介质。该方法包括:获取目标参保账户的医保数据并用于构建医疗结算的标准数据表;对标准数据表中的各结算维度指标进行相关性分析,并用于提取标准数据表对应的多个显著性特征;分别对各显著性特征进行特征工程和业务逻辑的分值转换,对应得到第一、第二标准分值;采用预置业务学习模型,对第一、第二标准分值对应的预置初始权重进行调整,得到最终权重;通过最终权重对第一标准分值和第二标准分值进行加权处理,得到最终标准分值,以确定目标参保账户的异常检测结果。本发明降低了不同阶段医保异常行为检测的漏检率,提升了医保异常行为检测的场景迁移性能。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于特征分析的防欺诈检测方法、装置、设备及存储介质。
背景技术
随着大数据技术的星期,医改的深化,医疗保险监控顺序时代的发展,开始逐步推进医疗智能监控,可以支持医保的智能辅助结算、账户监管和异地自助投保等功能,至今在全国所有医保统筹地区已实现了从传统的人工监管、监控到智能监控的变更。近年来,全国各地骗保行为较为普遍,“点多面广链条长、行为隐秘监管难”是对目前医疗机构、参保人员骗取医保基金的生动写照。医疗违规的手段越来越隐蔽,部分医疗机构违规行为屡禁不止。打击欺诈骗保已经成为近几年医保监管的重点工作之一。
传统的医保控费系统,基于业务经验,结合医保局的具体政策,制订了一系列的控费规则,针对医保报销的诊断治疗信息、处方信息和检查报告等进行骗保行为的检测。这些规则虽然准确率高,但是强依赖于专家的医学知识。同时,医保局发布的控费规则是有限的、固定的,面对层出不穷的新型骗保行为则无法适用。医保风控中尝试应用大数据技术用于挖掘更多骗保行为,目前大部分的研究和监测都是使用单一的异常检测模型对医保欺诈异常进行监测,单一监测模型对新的欺诈模式缺乏免疫力,使得医保异常检查的漏检率逐步提高。
发明内容
本发明的主要目的在于解决现有医保异常的智能检测方法随着用户异常行为数据的变化,漏检率逐步提高的技术问题。
本发明第一方面提供了一种基于特征分析的防欺诈检测方法,包括:获取目标参保账户的医保数据,并采用所述医保数据构建医疗结算的标准数据表,其中,所述标准数据表包含多个结算维度指标;对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果,并根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征;对各所述显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各所述显著性特征进行业务逻辑的分值转换,得到第二标准分值;采用预置业务学习模型,对所述所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重;通过所述最终权重对所述第一标准分值和所述第二标准分值进行加权处理,得到最终标准分值,并根据所述最终标准分值,确定所述目标参保账户的异常检测结果。
可选的,在本发明第一方面的第一种实现方式中,所述采用所述医保数据构建医疗结算的标准数据表包括:从所述医保数据中提取多个预置目标维度的医保数据,并对各所述目标维度的医保数据进行规范化处理,得到所述目标参保账户的医疗结算数据;对所述医疗结算数据进行数据映射,得到多个结算维度指标,并采用所述结算维度指标生成医疗结算的标准数据表。
可选的,在本发明第一方面的第二种实现方式中,所述对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果包括:提取所述标准数据表中的各结算维度指标对应的结算维度特征,并对所述结算维度特征进行特征强化加工,得到所述结算维度特征对应的衍生特征;对所述结算维度特征和所述衍生特征进行进行线性转换,得到多个具有线性关系的特征因子,并采用预置因子相关性分析方法,对各所述特征因子进行交叉相关性分析,得到各所述特征因子之间的相关性得分;选取相关性得分高于预置相关性得分阈值的特征因子并作为相关性分析结果。
可选的,在本发明第一方面的第三种实现方式中,所述对所述结算维度特征和所述衍生特征进行进行线性转换,得到多个具有线性关系的特征因子包括:识别所述结算维度特征和所述衍生特征中的多个数值型特征和多个字符型特征;采用预置第一特征方法,对各所述数值型特征进行特征转换,并建立特征转换后的各数值型特征之间的线性关系,得到多个特征因子;采用预置第二特征方法,对各所述字符型特征进行特征转换,并建立特征转换后的各字符型特征之间的线性关系,得到多个特征因子。
可选的,在本发明第一方面的第四种实现方式中,所述根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征包括:采用所述相关性分析结果对应特征因子,构建特征回归树图,并统计对应特征因子之间在所述特征回归树图的分裂损失值;选取分裂损失值大于预置分裂损失阈值的特征因子,并将选取的特征因子作为所述标准数据表对应的显著性特征。
可选的,在本发明第一方面的第五种实现方式中,预置初始权重包括所述第一标准分值对应的第一初始权重和所述第二标准分值对应的第二初始权重,所述采用预置业务学习模型,对所述所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重包括:采用预置业务学习模型,按照预置调整效率,增加所述第一初始权重以及减少所述第二初始权重,并计算初始权重调整后的所述业务学习模型的业务学习损失值;若所述业务学习损失值小于预置业务学习损失阈值,则按照所述调整效率,增加调整后的第一初始权重以及减少调整后的第二初始权重,并计算初始权重调整后的所述业务学习模型的新的业务学习损失值,直到所述业务学习损失值大于预置学习损失阈值时停止,将最终调整的第一初始权重和第二初始权重作为最终权重。
本发明第二方面提供了一种基于特征分析的防欺诈检测装置,包括:构建模块,用于获取目标参保账户的医保数据,并采用所述医保数据构建医疗结算的标准数据表,其中,所述标准数据表包含多个结算维度指标;相关性分析模块,用于对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果,并根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征;分值转换模块,用于对各所述显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各所述显著性特征进行业务逻辑的分值转换,得到第二标准分值;权重调整模块,用于采用预置业务学习模型,对所述所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重;加权处理模块,用于通过所述最终权重对所述第一标准分值和所述第二标准分值进行加权处理,得到最终标准分值,并根据所述最终标准分值,确定所述目标参保账户的异常检测结果。
可选的,在本发明第二方面的第一种实现方式中,所述构建模块包括:规范化处理单元,用于从所述医保数据中提取多个预置目标维度的医保数据,并对各所述目标维度的医保数据进行规范化处理,得到所述目标参保账户的医疗结算数据;映射单元,用于对所述医疗结算数据进行数据映射,得到多个结算维度指标,并采用所述结算维度指标生成医疗结算的标准数据表。
可选的,在本发明第二方面的第二种实现方式中,所述相关性分析模块包括:特征加工单元,用于提取所述标准数据表中的各结算维度指标对应的结算维度特征,并对所述结算维度特征进行特征强化加工,得到所述结算维度特征对应的衍生特征;相关性分析单元,用于对所述结算维度特征和所述衍生特征进行进行线性转换,得到多个具有线性关系的特征因子,并采用预置因子相关性分析方法,对各所述特征因子进行交叉相关性分析,得到各所述特征因子之间的相关性得分;第一选取单元,用于选取相关性得分高于预置相关性得分阈值的特征因子并作为相关性分析结果。
可选的,在本发明第二方面的第三种实现方式中,所述相关性分析单元还用于:识别所述结算维度特征和所述衍生特征中的多个数值型特征和多个字符型特征;采用预置第一特征方法,对各所述数值型特征进行特征转换,并建立特征转换后的各数值型特征之间的线性关系,得到多个特征因子;采用预置第二特征方法,对各所述字符型特征进行特征转换,并建立特征转换后的各字符型特征之间的线性关系,得到多个特征因子。
可选的,在本发明第二方面的第四种实现方式中,所述相关性分析模块还包括:统计单元,用于采用所述相关性分析结果对应特征因子,构建特征回归树图,并统计对应特征因子之间在所述特征回归树图的分裂损失值;第二选取单元,用于选取分裂损失值大于预置分裂损失阈值的特征因子,并将选取的特征因子作为所述标准数据表对应的显著性特征。
可选的,在本发明第二方面的第五种实现方式中,预置初始权重包括所述第一标准分值对应的第一初始权重和所述第二标准分值对应的第二初始权重,所述权重调整模块包括:计算单元,用于采用预置业务学习模型,按照预置调整效率,增加所述第一初始权重以及减少所述第二初始权重,并计算初始权重调整后的所述业务学习模型的业务学习损失值;更新单元,用于若所述业务学习损失值小于预置业务学习损失阈值,则按照所述调整效率,增加调整后的第一初始权重以及减少调整后的第二初始权重,并计算初始权重调整后的所述业务学习模型的新的业务学习损失值,直到所述业务学习损失值大于预置学习损失阈值时停止,将最终调整的第一初始权重和第二初始权重作为最终权重。
本发明第三方面提供了一种基于特征分析的防欺诈检测设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于特征分析的防欺诈检测设备执行上述的基于特征分析的防欺诈检测方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的基于特征分析的防欺诈检测方法。
本发明提供的技术方案中,结合医学知识和医学背景的业务逻辑,以及算法模型的特征工程,从数据驱动逻辑的角度和业务经验,同时挖掘出骗保异常场景,和数据维度的异常点,对医保异常行为进行检测。既从数据逻辑的角度出发,使用特征工程的分值转换,计算一个第一标准分值;同时,也从业务岗的经验触发,加入业务特征并计算该特征的第二标准分值;然后对这两个方面的特征设置不同的权重,可以有效地发现医保数据的异常行为,在用户异常行为数据变化时,不会影响漏检率。
附图说明
图1为本发明实施例中基于特征分析的防欺诈检测方法的第一个实施例示意图;
图2为本发明实施例中基于特征分析的防欺诈检测方法的第二个实施例示意图;
图3为本发明实施例中基于特征分析的防欺诈检测方法的第三个实施例示意图;
图4为本发明实施例中基于特征分析的防欺诈检测装置的一个实施例示意图;
图5为本发明实施例中基于特征分析的防欺诈检测装置的另一个实施例示意图;
图6为本发明实施例中基于特征分析的防欺诈检测设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种基于特征分析的防欺诈检测方法、装置、设备及存储介质,获取目标参保账户的医保数据并用于构建医疗结算的标准数据表;对标准数据表中的各结算维度指标进行相关性分析,并用于提取标准数据表对应的多个显著性特征;分别对各显著性特征进行特征工程和业务逻辑的分值转换,对应得到第一、第二标准分值;采用预置业务学习模型,对第一、第二标准分值对应的预置初始权重进行调整,得到最终权重;通过最终权重对第一标准分值和第二标准分值进行加权处理,得到最终标准分值,以确定目标参保账户的异常检测结果。本发明降低了不同阶段医保异常行为检测的漏检率,提升了医保异常行为检测的场景迁移性能。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中基于特征分析的防欺诈检测方法的第一个实施例包括:
101、获取目标参保账户的医保数据,并采用医保数据构建医疗结算的标准数据表,其中,标准数据表包含多个结算维度指标;
可以理解的是,本发明的执行主体可以为基于特征分析的防欺诈检测装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,目标参保账户的医疗数据获取自授权后的当地医保数据,包括多个目标医保账户的医保数据,可以包括参保人的个人信息、医保基金的运行管理数据、病人接受医疗服务的医疗数据等,其中个人信息包括参保人的自然属性信息(如年龄、性别等)、家庭属性信息(如家庭成员,家庭等)、社会属性信息(如是否工作、工作年限等),医疗数据包括病人的疾病情况、临床治疗情况、费用明细等。
另外,根据后续数据分析所需的数据,生成检索查询字段,提取需求的医保数据,并生成结算维度指标,本实施例中需求的医保数据可以包括基本医保结算数据、基本医保结算明细数据和对应的参保人信息;然后根据已提取的需求的医保数据,查询医保数据中病人、单据、病种、月份、社保三目录名称和社保三目录统一编码等医疗结算数据,对数据进行数据规范化处理;并且对相关数据中字段做数据映射,得到多个结算维度指标,从而生成标准数据表。
102、对标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果,并根据相关性分析结果,提取标准数据表对应的多个显著性特征;
本实施例中,首先从标准数据表中提取出不同维度的结算维度特征,可以包括时序特征、医院特征、事件特征、位置特征等,从规范化的标准数据表中总结出不同维度的结算维度特征,并进一步对结算维度特征进行加工,增加结算维度特征的数量,即为衍生特征,并通过对衍生特征和结算维度特征进行线性变换,得到特征因子,进一步通过各特征因子之间的线性关系,来衡量对应的各结算衡量指标之间的相关性。其中,对于不同类型的特征因子,采用不同的线性变换公式和相关性分析方法,比如对于数值型的特征因子,采用impact_coding进行线性变换,并采用离散点图来描述各特征因子之间的相关性,对于字符型的特征因子,可以采用one-hot-enconding进行线性变换,并采用信息增益的方式来描述各特征因子之间的相关性。
另外,还通过对各特征因子进行显著性分析,以去除显著性较弱的特征因子,保留较强显著性的特征因子并作为显著性特征,其中,可以采用XGBoot算法进行显著性分析。
103、对各显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各显著性特征进行业务逻辑的分值转换,得到第二标准分值;
本实施例中,通过相同的分值转换方法,按照不同的业务逻辑或者特征逻辑,对各显著性特征进行分值转换,将不同量级的显著性特征统一转化为同一个量级,以使得各显著性特征之间具有可比性。
具体的,可以采用Z-Score的分值转换方法,通过公式(x-μ)/σ按照预先设置的转换逻辑,将多个显著性特征进行分值转换,得到无单位的Z-Score分值,包括第一标准分值和第二标准分值,其中,x为显著性特征,μ为所有显著性特征的均值,σ为所有显著性特征的标准差。
进一步地,基于业务逻辑,挖掘业务层面的显著性特征,通过Z-Score的方法对所有显著性特征进行转换,得到第二标准分值,基于特征工程选择后的显著性特征,通过Z-Sore的方法对所有显著性特征进行转换,变得到第一标准分值。基于特征工程逻辑的分值转换,可以直接依据样本均值、样本标准差进行顺序转换,基于业务逻辑的分值转换,可以通过异常的医保异常的预设逻辑关系进行转换,比如就诊医院的分布、治疗诊断的消费情况等。
104、采用预置业务学习模型,对第一标准分值和第二标准分值对应的预置初始权重进行调整,得到最终权重;
本实施例中,通过一个预置的业务学习模型,分别对特征工程所产生的第一标准分值和业务逻辑所产生的第二标准分值加上一个初始权重,然后对两个初始权重进行区别处理,逐次增加业务逻辑的第二标准分值在预置业务学习模型中的初始权重,同时减少特征工程的第二标准分值在业务学习模型中的初始权重。具体如下所示:
(1)采用预置业务学习模型,按照预置调整效率,增加第一初始权重以及减少第二初始权重,并计算初始权重调整后的业务学习模型的业务学习损失值;
(2)若业务学习损失值小于预置业务学习损失阈值,则按照调整效率,增加调整后的第一初始权重以及减少调整后的第二初始权重,并计算初始权重调整后的业务学习模型的新的业务学习损失值,直到业务学习损失值大于预置学习损失阈值时停止,将最终调整的第一初始权重和第二初始权重作为最终权重。
本实施例中,预置初始权重包括第一标准分值对应的第一初始权重和第二标准分值对应的第二初始权重,以此进行训练,直到模型的业务学习损失值小于预先设置的学习损失阈值时,则可以确定该业务学习模型收敛,确定学习到的第一初始权重和第二初始权重作为最终权重。
105、通过最终权重对第一标准分值和第二标准分值进行加权处理,得到最终标准分值,并根据最终标准分值,确定目标参保账户的异常检测结果。
本实施例中,通过对描述特征工程的第一标准分值和描述业务逻辑的第二标准分值,按照最终权重的权重分配进行加权处理,即可可以得到一个最终标准分值,以用于衡量目标参保账户的医保消费是否发送异常,其中,最终标准分值越高,则越可能发生异常情况,最终标准分值越低,则越可能为正常情况。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习模型能够应用于多种不同的领域中,如:语音识别、医疗诊断、应用程序的测试等。
在一种可能的实现方式中,所述医保数据是医疗数据,如个人健康档案、处方、检查报告等数据。
在一种可能的实现方式中,所述自然语言文本为医疗文本,所述医疗文本可以是医疗电子记录(Electronic Healthcare Record),电子化的个人健康记录,包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。
信息查询成为很多场景中用户快速获取所需信息的渠道。例如在医疗领域中,可以基于人工智能模型从海量的电子病历中查询用户所需的病历信息,有助于为用户提供病历参考。
本发明实施例中,结合医学知识和医学背景的业务逻辑,以及算法模型的特征工程,从数据驱动逻辑的角度和业务经验,同时挖掘出骗保异常场景,和数据维度的异常点,对医保异常行为进行检测。既从数据逻辑的角度出发,使用特征工程的分值转换,计算一个第一标准分值;同时,也从业务岗的经验触发,加入业务特征并计算该特征的第二标准分值;然后对这两个方面的特征设置不同的权重,可以有效地发现医保数据的异常行为,在用户异常行为数据变化时,不会影响漏检率。
请参阅图2,本发明实施例中基于特征分析的防欺诈检测方法的第二个实施例包括:
201、获取目标参保账户的医保数据,从医保数据中提取多个预置目标维度的医保数据,并对各目标维度的医保数据进行规范化处理,得到目标参保账户的医疗结算数据;
202、对医疗结算数据进行数据映射,得到多个结算维度指标,并采用结算维度指标生成医疗结算的标准数据表,其中,标准数据表包含多个结算维度指标;
本实施例中,按照预先设置的目标维度,提取医保数据,至少包括基本医保结算数据,基本医保结算明细数据和参保人信息,并写入预置空白表格中,作为暂存数表,然后对目标维度的医保数据进行规范化处理,包括缺失值处理(包括过滤缺失值、删除缺失值、填充或者替换缺失值等)、异常值处理(包括3σ原则处理、箱线图分析等)、数据归一化处理(0-1标准化处理、Z-score标准化处理等)、数据连续属性离散化处理(等宽处理、等频处理等)等。
另外,还将规范化处理后得到的医疗结算数据进行映射,即可得到多个结算维度指标,以用于生成医疗结算的标准数据表,具体数据映射方法可以采用可视化操作(Graphical Manual)。可视化操作通常支持用户在数据项之间画一条线以定义数据项之间的对应关系,对应关系的建立要求数据项具有相同的名称。无论采用手工方式操作还是自动建立关系,最终都需要工具自动将图形表示的对应关系转化成XSLT、JAVA、C++这样的可执行程序。另外,按照数据映射的类别可以包括以下两种方法:利用统计方法分析源数据库和目标数据库的实际数据,挖掘出数据对应关系,以发现数据之间的“substring”、“concatenations”、“arithmetic”、“case statements”等转换逻辑;还可以用于发现异常数据,也就是不符合已定义转换逻辑的医疗结算数据。最终,得到如病人信息、单据、病种、月份、社保三目录名称和社保三目录同一编码等结算维度指标。
203、提取标准数据表中的各结算维度指标对应的结算维度特征,并对结算维度特征进行特征强化加工,得到结算维度特征对应的衍生特征;
本实施例中,对标准数据表中提取出结算维度特征后,主要是从业务数据和纯技术生产特征方面着手,对结算维度特征进行特征强化加工,生成结算维度特征和衍生特征。
针对不同结算维度指标提取到的结算维度特征,从业务衍生方面来说,从特征的业务意义出发,生成具有不同层面业务含义的新特征,采用的方法可以为:逻辑关联、增量、频率分析、相对强度水平等。这一衍生手段,主要是原始数据方面利用业务思维和统计方法进行衍生,提取一些次级特征。比如逻辑关联主要是从业务逻辑思路里提取新的可用特征;从变化幅度大的特征提取出其增量特征;从覆盖面较大且类别较多的分类特征取出其频率特征;从特征值分布有差异的数值型特征中提取其相对整体平均值的强度水平或相对某一群体平均值的强度水平等。
针对特征强化加工得到的结算维度特征对应的衍生特征,从技术衍生方面来说,在特征计算层次上对特征进行大范围加工衍生,即为特征强化加工,包括对算维度特征的加减乘除方、二值化、离散化、交叉组合、多项式融合、算法衍生等。主要是从特征之间关系和特点出发,选择相应衍生方法生产具有高预测性区分性的特征,这一过程也会产生大量无效或者低效的特征,这些特征在衍生阶段不做处理,会在后续的特征选择中被自动筛选。不同类型和分布特点的特征技术衍生方向也不一样,根据其特点选择合适的方法进行衍生,可以更大概率得到有效特征。
204、对结算维度特征和衍生特征进行进行线性转换,得到多个具有线性关系的特征因子,并采用预置因子相关性分析方法,对各特征因子进行交叉相关性分析,得到各特征因子之间的相关性得分;
205、选取相关性得分高于预置相关性得分阈值的特征因子并作为相关性分析结果,并根据相关性分析结果,提取标准数据表对应的多个显著性特征;
本实施例中,在得到衍生特征之后,还对结算维度特征和衍生特征进行进行线性转换,得到多个具有线性关系的特征因子。另外,此步骤是对转化后的新特征进行特征降维,减少特征的数量。此步骤中使用的方法为用因子相关性分析得到转换后特征特征中彼此相关的特征因子,仅保留彼此相关的特征因子中相关性得分高于预先设置的相关性得分阈值的特征因子。
206、对各显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各显著性特征进行业务逻辑的分值转换,得到第二标准分值;
207、采用预置业务学习模型,对第一标准分值和第二标准分值对应的预置初始权重进行调整,得到最终权重;
208、通过最终权重对第一标准分值和第二标准分值进行加权处理,得到最终标准分值,并根据最终标准分值,确定目标参保账户的异常检测结果。
本发明实施例中,通过从医保数据中提取出多个预置目标维度的医保数据,并对各目标维度的医保数据进行规范化处理和数据映射,得到多个结算维度指标,以用于构建标准数据表,提升数据质量,使得后续模型学习准确度更高;同时提取标准数据表中的各结算维度指标对应的结算维度特征,并进行加工和线性转换,得到多个具有线性关系的特征因子,并对各特征因子进行交叉相关性分析,得到各特征因子之间的相关性得分,通过相关性来提取更重要的显著性特征,提升后续特征分析和学习时的准确度。
请参阅图3,本发明实施例中基于特征分析的防欺诈检测方法的第三个实施例包括:
301、获取目标参保账户的医保数据,并采用医保数据构建医疗结算的标准数据表,其中,标准数据表包含多个结算维度指标;
302、提取标准数据表中的各结算维度指标对应的结算维度特征,并对结算维度特征进行特征强化加工,得到结算维度特征对应的衍生特征;
303、对结算维度特征和衍生特征进行进行线性转换,得到多个具有线性关系的特征因子,并采用预置因子相关性分析方法,对各特征因子进行交叉相关性分析,得到各特征因子之间的相关性得分;
本实施例中,在得到衍生特征之后,还对结算维度特征和衍生特征进行进行线性转换,得到多个具有线性关系的特征因子,具体执行过程如下所示:
(1)识别结算维度特征和衍生特征中的多个数值型特征和多个字符型特征;
(2)采用预置第一特征方法,对各数值型特征进行特征转换,并建立特征转换后的各数值型特征之间的线性关系,得到多个特征因子;
(3)采用预置第二特征方法,对各字符型特征进行特征转换,并建立特征转换后的各字符型特征之间的线性关系,得到多个特征因子。
本实施例中,识别结算维度特征和衍生特征中的不同类别特征,并采用不同的特征转换方法对所生成的识别结算维度特征和衍生特征进行特征转换,其中,识别结算维度特征和衍生特征中包括数值型特征和字符型特征。其中,可以采用impact_coding(即可作为第一特征方法)进行数值型特征的特征转换,该方法可以更好地和预测目标建立线性关系;采用one-hot-enconding(即可作为第二特征方法)进行字符型特征的特征转换。对于不同类型的特征,会用到不同的特征转换方法。
另外,针对数值型特征线性转换后的特征因子,通过离散点图来描述各特征因子之间的因子相关性,通过相关系数描述每两个特征因子之间线性关系强度的统计量,并作为相关性得分,相关系数r(x,y)=Cov(x,y)/σx*σy,其中,x,y为进行相关性分析的两个特征因子,σx*σy为对应的方差值。
针对字符型特征线性转换后的特征因子,可以采用信息增益的因子相关性分析方法进行分析,依次计算当前所选的特征因子与其他特征因子之间的相关性。具体通过条件熵来衡量相关性得分,对于特征因子X和特征因子Y之间的相关性得分,采用条件熵:进行计算。
304、选取相关性得分高于预置相关性得分阈值的特征因子并作为相关性分析结果,并采用相关性分析结果对应特征因子,构建特征回归树图,并统计对应特征因子之间在特征回归树图的分裂损失值;
305、选取分裂损失值大于预置分裂损失阈值的特征因子,并将选取的特征因子作为标准数据表对应的显著性特征;
本实施例中,特征因子根据不同的维度进行分层分级别处理,构建特征回归树图。在每个层级的特征因子进行特征回归树图的节点分裂时,可以采用贪心策略,按照当前目标最优化决定,下一个分裂的特征节点。即第一层级的特征因子放在第一个节点,在预测下一个节点的特征因子时,采用损失函数计算最小的分裂损失值进行确定,其中,K为树的总个数,fk表示第k颗树,/>表示样本xi的预测结果,/>为样本xi的训练误差,Ω(fk)表示第k棵树的正则项。
具体的,即通过选择一个特征因子分裂,计算最小分裂损失值,然后再选一个特征因子分裂,又得到一个最小分裂损失值,以此类推,得到一个特征回归树图。接下来,从第一层级的特征因子开始继续分裂,按照上述的方式,形成多个特征回归树图。
另外,还可以设置特征回归树图构建过程中分裂停止的条件,包括:(1)设置分裂增益阀值,小于该阈值时停止分裂;(2)超参数max_depth,限制特征回归树图的深度,防止过拟合;(3)当样本权重小于设定阈值时则停止建树,因特征因子数量较少,以防止过拟合;(4)设置特征回归树图的数量,达到预先设置的数量时停止。
306、对各显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各显著性特征进行业务逻辑的分值转换,得到第二标准分值;
307、采用预置业务学习模型,对第一标准分值和第二标准分值对应的预置初始权重进行调整,得到最终权重;
308、通过最终权重对第一标准分值和第二标准分值进行加权处理,得到最终标准分值,并根据最终标准分值,确定目标参保账户的异常检测结果。
本发明实施例中,识别结算维度特征和衍生特征中的多个数值型特征和多个字符型特征;并采用不同的方法分别对数值型特征和字符型特征进行特征转换,并建立特征转换后特征之间的线性关系,得到多个特征因子;同时针对第一初始权重和第二初始权重,逐步减少第一初始权重以及增加第二初始权重,即逐步提升业务逻辑方面的重要性,降低特征工程方面的重要性,直到两者达到预置损失时,即为业务逻辑和特征工程的重要性平衡状态,此时针对不同的异常医保数据,均可检测到。
上面对本发明实施例中基于特征分析的防欺诈检测方法进行了描述,下面对本发明实施例中基于特征分析的防欺诈检测装置进行描述,请参阅图4,本发明实施例中基于特征分析的防欺诈检测装置一个实施例包括:
构建模块401,用于获取目标参保账户的医保数据,并采用所述医保数据构建医疗结算的标准数据表,其中,所述标准数据表包含多个结算维度指标;
相关性分析模块402,用于对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果,并根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征;
分值转换模块403,用于对各所述显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各所述显著性特征进行业务逻辑的分值转换,得到第二标准分值;
权重调整模块404,用于采用预置业务学习模型,对所述所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重;
加权处理模块405,用于通过所述最终权重对所述第一标准分值和所述第二标准分值进行加权处理,得到最终标准分值,并根据所述最终标准分值,确定所述目标参保账户的异常检测结果。
本发明实施例中,结合医学知识和医学背景的业务逻辑,以及算法模型的特征工程,从数据驱动逻辑的角度和业务经验,同时挖掘出骗保异常场景,和数据维度的异常点,对医保异常行为进行检测。既从数据逻辑的角度出发,使用特征工程的分值转换,计算一个第一标准分值;同时,也从业务岗的经验触发,加入业务特征并计算该特征的第二标准分值;然后对这两个方面的特征设置不同的权重,可以有效地发现医保数据的异常行为,在用户异常行为数据变化时,不会影响漏检率。
请参阅图5,本发明实施例中基于特征分析的防欺诈检测装置的另一个实施例包括:
构建模块401,用于获取目标参保账户的医保数据,并采用所述医保数据构建医疗结算的标准数据表,其中,所述标准数据表包含多个结算维度指标;
相关性分析模块402,用于对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果,并根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征;
分值转换模块403,用于对各所述显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各所述显著性特征进行业务逻辑的分值转换,得到第二标准分值;
权重调整模块404,用于采用预置业务学习模型,对所述所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重;
加权处理模块405,用于通过所述最终权重对所述第一标准分值和所述第二标准分值进行加权处理,得到最终标准分值,并根据所述最终标准分值,确定所述目标参保账户的异常检测结果。
具体的,所述构建模块401包括:
规范化处理单元4011,用于从所述医保数据中提取多个预置目标维度的医保数据,并对各所述目标维度的医保数据进行规范化处理,得到所述目标参保账户的医疗结算数据;
映射单元4012,用于对所述医疗结算数据进行数据映射,得到多个结算维度指标,并采用所述结算维度指标生成医疗结算的标准数据表。
具体的,所述相关性分析模块402包括:
特征加工单元4021,用于提取所述标准数据表中的各结算维度指标对应的结算维度特征,并对所述结算维度特征进行特征强化加工,得到所述结算维度特征对应的衍生特征;
相关性分析单元4022,用于对所述结算维度特征和所述衍生特征进行进行线性转换,得到多个具有线性关系的特征因子,并采用预置因子相关性分析方法,对各所述特征因子进行交叉相关性分析,得到各所述特征因子之间的相关性得分;
第一选取单元4023,用于选取相关性得分高于预置相关性得分阈值的特征因子并作为相关性分析结果。
具体的,所述相关性分析单元4022还用于:
识别所述结算维度特征和所述衍生特征中的多个数值型特征和多个字符型特征;
采用预置第一特征方法,对各所述数值型特征进行特征转换,并建立特征转换后的各数值型特征之间的线性关系,得到多个特征因子;
采用预置第二特征方法,对各所述字符型特征进行特征转换,并建立特征转换后的各字符型特征之间的线性关系,得到多个特征因子。
具体的,所述相关性分析模块402还包括:
统计单元4024,用于采用所述相关性分析结果对应特征因子,构建特征回归树图,并统计对应特征因子之间在所述特征回归树图的分裂损失值;
第二选取单元4025,用于选取分裂损失值大于预置分裂损失阈值的特征因子,并将选取的特征因子作为所述标准数据表对应的显著性特征。
具体的,预置初始权重包括所述第一标准分值对应的第一初始权重和所述第二标准分值对应的第二初始权重,所述权重调整模块404包括:
计算单元4041,用于采用预置业务学习模型,按照预置调整效率,增加所述第一初始权重以及减少所述第二初始权重,并计算初始权重调整后的所述业务学习模型的业务学习损失值;
更新单元4042,用于若所述业务学习损失值小于预置业务学习损失阈值,则按照所述调整效率,增加调整后的第一初始权重以及减少调整后的第二初始权重,并计算初始权重调整后的所述业务学习模型的新的业务学习损失值,直到所述业务学习损失值大于预置学习损失阈值时停止,将最终调整的第一初始权重和第二初始权重作为最终权重。
本发明实施例中,通过从医保数据中提取出多个预置目标维度的医保数据,并对各目标维度的医保数据进行规范化处理和数据映射,得到多个结算维度指标,以用于构建标准数据表,提升数据质量,使得后续模型学习准确度更高;同时提取标准数据表中的各结算维度指标对应的结算维度特征,并进行加工和线性转换,得到多个具有线性关系的特征因子,并对各特征因子进行交叉相关性分析,得到各特征因子之间的相关性得分,通过相关性来提取更重要的显著性特征,提升后续特征分析和学习时的准确度;另外,还通过识别结算维度特征和衍生特征中的多个数值型特征和多个字符型特征;并采用不同的方法分别对数值型特征和字符型特征进行特征转换,并建立特征转换后特征之间的线性关系,得到多个特征因子;同时针对第一初始权重和第二初始权重,逐步减少第一初始权重以及增加第二初始权重,即逐步提升业务逻辑方面的重要性,降低特征工程方面的重要性,直到两者达到预置损失时,即为业务逻辑和特征工程的重要性平衡状态,此时针对不同的异常医保数据,均可检测到。
上面图4和图5从模块化功能实体的角度对本发明实施例中的基于特征分析的防欺诈检测装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于特征分析的防欺诈检测设备进行详细描述。
图6是本发明实施例提供的一种基于特征分析的防欺诈检测设备的结构示意图,该基于特征分析的防欺诈检测设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于特征分析的防欺诈检测设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在基于特征分析的防欺诈检测设备600上执行存储介质630中的一系列指令操作。
基于特征分析的防欺诈检测设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的基于特征分析的防欺诈检测设备结构并不构成对基于特征分析的防欺诈检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种基于特征分析的防欺诈检测设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述基于特征分析的防欺诈检测方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述基于特征分析的防欺诈检测方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (9)
1.一种基于特征分析的防欺诈检测方法,其特征在于,所述基于特征分析的防欺诈检测方法包括:
获取目标参保账户的医保数据,并采用所述医保数据构建医疗结算的标准数据表,其中,所述标准数据表包含多个结算维度指标;
对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果,并根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征;
对各所述显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各所述显著性特征进行业务逻辑的分值转换,得到第二标准分值;
采用预置业务学习模型,对所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重;
通过所述最终权重对所述第一标准分值和所述第二标准分值进行加权处理,得到最终标准分值,并根据所述最终标准分值,确定所述目标参保账户的异常检测结果;
所述对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果包括:
提取所述标准数据表中的各结算维度指标对应的结算维度特征,并对所述结算维度特征进特征强化加工,得到所述结算维度特征对应的衍生特征;对所述结算维度特征和所述衍生特征进行线性转换,得到多个具有线性关系的特征因子,并采用预置因子相关性分析方法,对各所述特征因子进行交叉相关性分析,得到各所述特征因子之间的相关性得分;选取相关性得分高于预置相关性得分阈值的特征因子并作为相关性分析结果。
2.根据权利要求1所述的基于特征分析的防欺诈检测方法,其特征在于,所述采用所述医保数据构建医疗结算的标准数据表包括:
从所述医保数据中提取多个预置目标维度的医保数据,并对各所述目标维度的医保数据进行规范化处理,得到所述目标参保账户的医疗结算数据;
对所述医疗结算数据进行数据映射,得到多个结算维度指标,并采用所述结算维度指标生成医疗结算的标准数据表。
3.根据权利要求1所述的基于特征分析的防欺诈检测方法,其特征在于,所述对所述结算维度特征和所述衍生特征进行线性转换,得到多个具有线性关系的特征因子包括:
识别所述结算维度特征和所述衍生特征中的多个数值型特征和多个字符型特征;
采用预置第一特征方法,对各所述数值型特征进行特征转换,并建立特征转换后的各数值型特征之间的线性关系,得到多个特征因子;
采用预置第二特征方法,对各所述字符型特征进行特征转换,并建立特征转换后的各字符型特征之间的线性关系,得到多个特征因子。
4.根据权利要求1所述的基于特征分析的防欺诈检测方法,其特征在于,所述根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征包括:
采用所述相关性分析结果对应特征因子,构建特征回归树图,并统计对应特征因子之间在所述特征回归树图的分裂损失值;
选取分裂损失值大于预置分裂损失阈值的特征因子,并将选取的特征因子作为所述标准数据表对应的显著性特征。
5.根据权利要求1-4中任一项所述的基于特征分析的防欺诈检测方法,其特征在于,预置初始权重包括所述第一标准分值对应的第一初始权重和所述第二标准分值对应的第二初始权重,所述采用预置业务学习模型,对所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重包括:
采用预置业务学习模型,按照预置调整效率,增加所述第一初始权重以及减少所述第二初始权重,并计算初始权重调整后的所述业务学习模型的业务学习损失值;
若所述业务学习损失值小于预置业务学习损失阈值,则按照所述调整效率,增加调整后的第一初始权重以及减少调整后的第二初始权重,并计算初始权重调整后的所述业务学习模型的新的业务学习损失值,直到所述业务学习损失值大于预置学习损失阈值时停止,将最终调整的第一初始权重和第二初始权重作为最终权重。
6.一种基于特征分析的防欺诈检测装置,其特征在于,所述基于特征分析的防欺诈检测装置包括:
构建模块,用于获取目标参保账户的医保数据,并采用所述医保数据构建医疗结算的标准数据表,其中,所述标准数据表包含多个结算维度指标;
相关性分析模块,用于对所述标准数据表中的各结算维度指标进行相关性分析,得到相关性分析结果,并根据所述相关性分析结果,提取所述标准数据表对应的多个显著性特征;
分值转换模块,用于对各所述显著性特征进行特征工程的分值转换,得到第一标准分值,以及对各所述显著性特征进行业务逻辑的分值转换,得到第二标准分值;
权重调整模块,用于采用预置业务学习模型,对所述第一标准分值和所述第二标准分值对应的预置初始权重进行调整,得到最终权重;
加权处理模块,用于通过所述最终权重对所述第一标准分值和所述第二标准分值进行加权处理,得到最终标准分值,并根据所述最终标准分值,确定所述目标参保账户的异常检测结果;
所述相关性分析模块还用于,提取所述标准数据表中的各结算维度指标对应的结算维度特征,并对所述结算维度特征进特征强化加工,得到所述结算维度特征对应的衍生特征;对所述结算维度特征和所述衍生特征进行线性转换,得到多个具有线性关系的特征因子,并采用预置因子相关性分析方法,对各所述特征因子进行交叉相关性分析,得到各所述特征因子之间的相关性得分;选取相关性得分高于预置相关性得分阈值的特征因子并作为相关性分析结果。
7.根据权利要求6所述的基于特征分析的防欺诈检测装置,其特征在于,所述构建模块包括:
规范化处理单元,用于从所述医保数据中提取多个预置目标维度的医保数据,并对各所述目标维度的医保数据进行规范化处理,得到所述目标参保账户的医疗结算数据;
映射单元,用于对所述医疗结算数据进行数据映射,得到多个结算维度指标,并采用所述结算维度指标生成医疗结算的标准数据表。
8.一种基于特征分析的防欺诈检测设备,其特征在于,所述基于特征分析的防欺诈检测设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述基于特征分析的防欺诈检测设备执行如权利要求1-5中任意一项所述的基于特征分析的防欺诈检测方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-5中任意一项所述基于特征分析的防欺诈检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004063.0A CN113642669B (zh) | 2021-08-30 | 2021-08-30 | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111004063.0A CN113642669B (zh) | 2021-08-30 | 2021-08-30 | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113642669A CN113642669A (zh) | 2021-11-12 |
CN113642669B true CN113642669B (zh) | 2024-04-05 |
Family
ID=78424370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111004063.0A Active CN113642669B (zh) | 2021-08-30 | 2021-08-30 | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113642669B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461869B (zh) * | 2021-12-21 | 2022-11-22 | 北京达佳互联信息技术有限公司 | 业务特征数据处理方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874658A (zh) * | 2017-01-18 | 2017-06-20 | 天津艾登科技有限公司 | 一种基于主成分分析算法的医保欺诈识别方法 |
CN108630322A (zh) * | 2018-04-27 | 2018-10-09 | 厦门大学 | 药物相互作用建模与风险评估方法、终端设备及存储介质 |
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN109978701A (zh) * | 2019-04-01 | 2019-07-05 | 太平洋医疗健康管理有限公司 | 个人住院概率预测方法及系统 |
CN111402070A (zh) * | 2020-03-23 | 2020-07-10 | 平安医疗健康管理股份有限公司 | 医疗信息识别方法、装置、计算机设备及存储介质 |
CN113255815A (zh) * | 2021-06-10 | 2021-08-13 | 平安科技(深圳)有限公司 | 用户行为异常分析方法、装置、设备及存储介质 |
CN113254510A (zh) * | 2021-07-06 | 2021-08-13 | 平安科技(深圳)有限公司 | 业务风险客群的识别方法、装置、设备及存储介质 |
-
2021
- 2021-08-30 CN CN202111004063.0A patent/CN113642669B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874658A (zh) * | 2017-01-18 | 2017-06-20 | 天津艾登科技有限公司 | 一种基于主成分分析算法的医保欺诈识别方法 |
CN108630322A (zh) * | 2018-04-27 | 2018-10-09 | 厦门大学 | 药物相互作用建模与风险评估方法、终端设备及存储介质 |
CN109165683A (zh) * | 2018-08-10 | 2019-01-08 | 深圳前海微众银行股份有限公司 | 基于联邦训练的样本预测方法、装置及存储介质 |
CN109978701A (zh) * | 2019-04-01 | 2019-07-05 | 太平洋医疗健康管理有限公司 | 个人住院概率预测方法及系统 |
CN111402070A (zh) * | 2020-03-23 | 2020-07-10 | 平安医疗健康管理股份有限公司 | 医疗信息识别方法、装置、计算机设备及存储介质 |
CN113255815A (zh) * | 2021-06-10 | 2021-08-13 | 平安科技(深圳)有限公司 | 用户行为异常分析方法、装置、设备及存储介质 |
CN113254510A (zh) * | 2021-07-06 | 2021-08-13 | 平安科技(深圳)有限公司 | 业务风险客群的识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113642669A (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5586373B2 (ja) | 支払請求を処理するコンポーネントの機能をコンピュータシステムに実現させるプログラムが記録されているコンピュータ読み取り可能な記憶媒体、およびコンピュータシステムに支払請求を処理させるコンピュータシステムの動作方法 | |
Karr et al. | Data quality: A statistical perspective | |
US8015136B1 (en) | Algorithmic method for generating a medical utilization profile for a patient and to be used for medical risk analysis decisioning | |
CN113657548A (zh) | 医保异常检测方法、装置、计算机设备及存储介质 | |
CN114448657B (zh) | 一种配电通信网络安全态势感知与异常入侵检测方法 | |
CN113641659B (zh) | 医疗特征数据库构建方法、装置、设备及存储介质 | |
CN118037469B (zh) | 基于大数据的财务管理系统 | |
CN113642672A (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
CN117764741A (zh) | 基于无监督机器学习和集成学习的医疗异常违规大数据风险预警方法 | |
CN111930726B (zh) | 基于离线表单的等级保护测评数据采集、分析方法及系统 | |
CN113642669B (zh) | 基于特征分析的防欺诈检测方法、装置、设备及存储介质 | |
KR20200091508A (ko) | 특허와 논문 데이터를 활용한 국가 및 기업들의 과학 기술력 진단 및 예측 방법 | |
CN118411059B (zh) | 一种高校业务数据处理方法、系统、介质及设备 | |
CN111476274A (zh) | 一种大数据预测分析的方法、系统、装置及存储介质 | |
CN114495137A (zh) | 票据异常检测模型生成方法与票据异常检测方法 | |
CN110727711B (zh) | 基金数据库中异常数据检测方法、装置和计算机设备 | |
Sun | Management Research of Big Data Technology in Financial Decision-Making of Enterprise Cloud Accounting | |
CN111383123A (zh) | 临床医疗开销的统计方法、装置、存储介质及电子设备 | |
CN115312184A (zh) | 一种社区严重精神障碍患者暴力风险预测初筛方法 | |
CN116307829B (zh) | 基于信息熵评估传染病对社会承载力的影响方法及装置 | |
CN113689143B (zh) | 医疗费用异常检测方法、装置、计算机设备及存储介质 | |
CN117423475B (zh) | 应用于医院场景的科室感染风险识别方法及系统 | |
Kriksciuniene et al. | Overview of the Artificial Intelligence Methods and Analysis of Their Application Potential | |
El Seddawy et al. | A proposed data mining technique to improve decision support system in an uncertain situation | |
CN117670107A (zh) | 一种绩效考核方法、装置、电子设备以及可用存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |