CN115797044B - 基于聚类分析的信贷风控预警方法及系统 - Google Patents
基于聚类分析的信贷风控预警方法及系统 Download PDFInfo
- Publication number
- CN115797044B CN115797044B CN202211429085.6A CN202211429085A CN115797044B CN 115797044 B CN115797044 B CN 115797044B CN 202211429085 A CN202211429085 A CN 202211429085A CN 115797044 B CN115797044 B CN 115797044B
- Authority
- CN
- China
- Prior art keywords
- label
- dimension reduction
- tag
- credit
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000007621 cluster analysis Methods 0.000 title claims abstract description 21
- 230000009467 reduction Effects 0.000 claims abstract description 122
- 238000012502 risk assessment Methods 0.000 claims abstract description 29
- 238000013523 data management Methods 0.000 claims abstract description 15
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 17
- 238000011056 performance test Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 abstract description 17
- 238000012545 processing Methods 0.000 abstract description 3
- 239000011159 matrix material Substances 0.000 description 31
- 230000009466 transformation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于聚类分析的信贷风控预警方法及系统,应用于数据处理技术领域,该方法包括:通过连接信贷数据管理系统,获取标签客户信息,获取各个标签客户的标签生成周期。将标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活标签更新指令,获取待更新客户的信息。根据标签更新模型,获取更新标签集合。以更新标签集合对待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对各个标签客户进行标签聚类,获取二次聚类结果。基于二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数。根据信贷风险指数,生成预警提醒信息。解决了现有技术中信用风控存在评价不全面,评价不准确的技术问题。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及基于聚类分析的信贷风控预警方法及系统。
背景技术
信用评估主要用于信贷业务,信用评估等级越高进行对应的信贷额度越高。在现有技术中,对于信贷风控预警主要通过各客户的贷款记录标签进行信用评价,该评价方式存在一定的局限性,无法全面的对客户信用进行评价,导致客户信用评价结果不准确的问题。
因此,在现有技术中信用风控存在评价不全面,评价不准确的技术问题。
发明内容
本申请提供基于聚类分析的信贷风控预警方法及系统,用于针对解决现有技术中信用风控存在评价不全面,评价不准确的技术问题。
鉴于上述问题,本申请提供了基于聚类分析的信贷风控预警方法及系统。
本申请的第一个方面,提供了基于聚类分析的信贷风控预警方法,所述方法应用于信贷风控预警系统,所述系统与云服务器通信连接,所述方法包括:连接信贷数据管理系统,获取标签客户的信息;基于所述标签客户的信息,获取各个标签客户的标签生成周期;将所述标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活所述标签更新指令,获取待更新客户的信息;将所述待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中,所述标签更新模型嵌于所述云服务器中;以所述更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对所述各个标签客户进行标签聚类,获取二次聚类结果;基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数;根据所述信贷风险指数,生成预警提醒信息。
本申请的第二个方面,提供了基于聚类分析的信贷风控预警系统,所述系统与云服务器通信连接,所述系统包括:标签客户信息获取模块,用于连接信贷数据管理系统,获取标签客户的信息;标签生成周期获取模块,用于基于所述标签客户的信息,获取各个标签客户的标签生成周期;待更新客户信息获取模块,用于将所述标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活所述标签更新指令,获取待更新客户的信息;更新标签集合获取模块,用于将所述待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中,所述标签更新模型嵌于所述云服务器中;标签聚类模块,用于以所述更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对所述各个标签客户进行标签聚类,获取二次聚类结果;信贷风险指数获取模块,用于基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数;预警提醒模块,用于根据所述信贷风险指数,生成预警提醒信息。
本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
本申请实施例提供的方法通过连接信贷数据管理系统,获取标签客户的信息。基于所述标签客户的信息,获取各个标签客户的标签生成周期。将所述标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活所述标签更新指令,获取待更新客户的信息。将所述待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中,所述标签更新模型嵌于所述云服务器中。以所述更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对所述各个标签客户进行标签聚类,获取二次聚类结果。基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数。通过对标签客户进行聚类分析,根据聚类结果对标签客户进行聚类后的风险评估,由于聚类结果中包含具有相同或相似信用评价的标签客户,使得评估对象的信用数据比对参照更加明显,提高了信贷风险评估的准确性。解决了现有技术中信用风控存在评价不全面,评价不准确的技术问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本申请提供的基于聚类分析的信贷风控预警方法流程示意图;
图2为本申请提供的基于聚类分析的信贷风控预警方法中生成标签更新模型的流程示意图;
图3为本申请提供的基于聚类分析的信贷风控预警方法中生成信贷风险指数的流程示意图;
图4为本申请提供了基于聚类分析的信贷风控预警系统结构示意图。
附图标记说明:标签客户信息获取模块11,标签生成周期获取模块12,待更新客户信息获取模块13,更新标签集合获取模块14,标签聚类模块15,信贷风险指数获取模块16,预警提醒模块17。
具体实施方式
本申请提供基于聚类分析的信贷风控预警方法及系统,用于针对解决现有技术中信用风控存在评价不全面,评价不准确的技术问题。
下面将参考附图对本申请中的技术方案进行清楚、完整地描述。所描述的实施内容例仅为本申请所能实现的部分内容,而不是本申请的全部内容。
实施例一
如图1所示,本申请提供了基于聚类分析的信贷风控预警方法,所述方法应用于信贷风控预警系统,所述系统与云服务器通信连接,所述方法包括:
步骤100:连接信贷数据管理系统,获取标签客户的信息;
步骤200:基于所述标签客户的信息,获取各个标签客户的标签生成周期;
步骤300:将所述标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活所述标签更新指令,获取待更新客户的信息;
具体的,连接信贷数据管理系统,其中信贷数据管理系统中记录各个客户信息以及对应的信用信息,获取标签客户的信息,其中标签客户为信贷风控预警的评估客户。基于标签客户的信息,获取各个标签客户的标签生成周期,其中客户的标签为客户的信用标签,该信用标签为现有技术中用于评价客户信用的标签,获取标签的生成周期即标签的生成时长。随后,将标签生成周期作为输入信息判断是否进行激活标签更新指令,即判断标签的生成时长是否会激活标签更新指令,避免标签长时间不更新导致信用信息存在误差,若激活所述标签更新指令,获取待更新客户的信息。
本申请实施例提供的方法步骤300还包括:
步骤310:基于所述标签客户的信息对各个标签客户进行客户属性信息分析,获取预设标签生成周期;
步骤320:判断所述标签生成周期是否处于所述预设标签生成周期中;
步骤330:若所述标签生成周期处于所述预设标签生成周期中,以使所述标签更新指令处于未激活状态;
步骤340:若所述标签生成周期处于所述预设标签生成周期中,以使所述标签更新指令处于已激活状态。
具体的,基于标签客户的信息对各个标签客户进行客户属性信息分析,获取预设标签生成周期。判断标签生成周期是否处于预设标签生成周期中,其中预设标签生成周期为系统为客户预设的标签生成周期。当标签生成周期处于预设标签生成周期中时,此时标签还未达到预定的更新时间周期,则使得标签更新指令处于未激活状态。若所述标签生成周期处于所述预设标签生成周期中,此时标签已经达到预定的更新时间周期,则使得标签更新指令处于已激活状态,对标签客户的标签信息进行更新。
如图2所示,本申请实施例提供的方法步骤300还包括:
步骤350:将所述待更新客户的信息输入所述云服务器的云数据库中;
步骤360:基于所述信贷数据管理系统,获取用于进行数据特征识别的初始标签生成模型;
步骤370:将所述初始标签生成模型链接至所述云服务器的云处理器中;
步骤380:通过调用所述云处理器中的初始标签生成模型和所述云数据库中的所述待更新客户的信息,生成所述标签更新模型。
具体的,将待更新客户的信息输入所述云服务器的云数据库中,基于信贷数据管理系统,获取进行数据特征识别的初始标签生成模型,其中初始标签生成模型为现有技术中的标签生成模型。将所述初始标签生成模型链接至所述云服务器的云处理器中。进一步,调用云处理器中的初始标签生成模型和所述云数据库中的所述待更新客户的信息,生成所述标签更新模型。即根据云数据库中的所述待更新客户的信息,对初始标签生成模型进行更新,生成标签更新模型。
本申请实施例提供的方法步骤380还包括:
步骤381:获取用于进行消费降维分析的待采集指标集合;
步骤382:按照所述待采集指标集合对所述待更新客户进行数据采集,获取降维数据特征;
步骤383:以所述降维数据特征作为新增特征,对所述初始标签生成模型进行增量学习,获取所述标签更新模型,其中,所述标签更新模型用于对各个客户的风险标签进行更新。
具体的,获取用于进行消费降维分析采集指标,其中消费降维分析中的采集指标,可以根据实际情况设定与消费相关的指标,如工资水平、债务水平、平均消费金额等采集指标,得到待采集指标集合。按照待采集指标集合对所述待更新客户进行数据采集,将采集的数据进行数据降维,获取降维数据特征。随后,以降维数据特征作为新增特征,对初始标签生成模型进行增量学习,即在初始标签生成模型的基础上增加新增特征并进行增量学习,获取增量学习完成后的标签更新模型,标签更新模型用于对各个客户的风险标签进行更新,增加对客户的消费降维分析,提高风险标签获取的准确性。
本申请实施例提供的方法步骤380还包括:
步骤384:获取用于进行模型性能测试的测试样本数据集;
步骤385:根据所述测试样本数据集,对所述标签更新模型进行KS模型测试,获取KS测试结果,其中,所述KS测试结果包括KS测试曲线;
步骤386:以所述KS测试曲线对所述标签更新模型的性能进行分析,获取模型性能评分;
步骤387:以所述模型性能评分将所述标签更新模型嵌入所述云服务器中,获取所述更新标签集合。
具体的,获取用于进行模型性能测试的测试样本数据集,其中模型性能测试的测试样本数据集通过人工标识的方式进行获取,将原有的标签客户的数据进行更新标签标记,获取测试样本数据集,其中测试样本数据集中包含正样本数据和负样本数据,如收入水平为正和收入水平为负的对应标记标签,其中收入水平为正的对应标记标签为正样本数据,收入水平为负的对应标记标签为负样本数据。得到测试样本数据集。根据所述测试样本数据集,将测试样本数据集输入标签更新模型中,对所述标签更新模型进行KS模型测试,其中KS模型为风控模型,其用于评估模型的区分能力,获取KS测试结果,其中,所述KS测试结果包括KS测试曲线。以KS测试曲线对所述标签更新模型的性能进行分析,获取模型性能评分。在现有技术中需要判断模型有没有区分度,常通过分正负样本数据来获取分布差异,若这正负样本数据KS测试曲线的重叠部分小,代表KS测试曲线的差异性大,模型则可以更好地进行区分,获取模型性能评分。以模型性能评分将标签更新模型嵌入云服务器中,获取所述更新标签集合。
步骤400:将所述待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中,所述标签更新模型嵌于所述云服务器中;
步骤500:以所述更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对所述各个标签客户进行标签聚类,获取二次聚类结果;
步骤600:基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数;
步骤700:根据所述信贷风险指数,生成预警提醒信息。
具体的,将待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中标签更新模型嵌于所述云服务器中。随后,以更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对处于更新完成状态的客户进行标签聚类,获取二次聚类结果,在二次聚类结果中聚类结果中包含具有相同或相似信用评价的标签客户,便于后续根据聚类结果对其中存在异常数据的客户进行提取。基于二次聚类结果对各聚类结果中的标签客户进行数据差异分析,获取各聚类结果中的标签客户数据中存在异常的数据,生成信贷风险指数。最后,根据信贷风险指数,生成预警提醒信息,在进行预警提醒信息获取时,通过设置多个不同等级的信贷风险指数阈值,当超出不同等级的信贷风险指数阈值时,则输出不同等级的预警提醒信息。通过对标签客户进行聚类分析,根据聚类结果对标签客户进行聚类后的风险评估,由于聚类结果中包含具有相同或相似信用评价的标签客户,使得评估对象的信用数据比对参照更加明显,提高了信贷风险评估的准确性。
如图3所示,本申请实施例提供的方法步骤600还包括:
步骤610:基于所述标签客户的信息对各个标签客户进行一次聚类,获取一次聚类结果;
步骤620:以所述一次聚类结果和所述二次聚类结果进行双曲线分析,获取聚类双曲线;
步骤630:根据所述聚类双曲线对各个标签客户进行降维数据采集,获取降维幅值和降维周期;
步骤640:以所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数。
具体的,基于标签客户的信息对各个标签客户进行一次聚类,获取一次聚类结果,即根据标签客户的信息对客户进行一次聚类。其中,一次聚类和二次聚类采用的方式均为基于Varclus方法的聚类,通过将所有的变量聚类成一簇,计算其相关系数矩阵的特征值、特征向量以及载荷矩阵,随后根据设置的阈值将所有变量拆分成2类。拆分的条件是已拆分好的簇能达到解释变异的最小百分比,或者满足第二特征根大于设置的阈值,其中阈值包括第二特征值阈值以及聚类簇中变量个数阈值,具体阈值根据实际的情况需要进行设置。初始分配后迭代变量,调整变量所在的簇,尝试最大化分簇带来的簇成分对总可解释方差的提升,直到一个簇里只有一个变量或者达到群簇个数上限的终止条件,完成一次聚类。
其中,具体的计算过程如下:步骤1,对每个划分特征进行特征分档并计算每个档位的woe值,分档方式为等频分档。woe的计算公式如下:
p(yi)为第i组中违约样本占所有违约样本的比例
p(ni)为第i组未违约样本占所有未违约样本的比例
步骤2,用woe值取代真实值,计算各特征之间的相关系数(如皮尔逊相关系数),得到相关系数矩阵Corr。
其中cov(X,Y)表示特征X和Y的协方差,σX,σY分别表示特征X和Y的标准差。
步骤3,将所有变量聚类成一簇,计算该簇的相关系数矩阵Corr的前m特征值λi且λ1≥λ2≥Λ≥λm,i=1,Λ,m以及对应的特征向量η1,η2,Λ,ηm,i=1,Λ,m。获取第二大特征值λ2和载荷因子矩阵A,载荷因子矩阵的每一列为前m个特征根开根号乘上对应的特征向量。
步骤4,计算原始变量与第一主成分之间的载荷因子矩阵A、权重以及相关性,对载荷因子矩阵A正交旋转,然后进行斜交旋转,获取旋转后的载荷因子矩阵、协方差矩阵、因子得分、方差贡献度等。根据协方差矩阵计算相关系数矩阵。
首先对变量进行标准化变换,则
R=AAT+D
R*=AAT=R-D
称R*为约相关系数矩阵,R*对角线上的元素是而不是1。
直接求R*的前m个特征值和对应的正交特征向量,得到如下矩阵
在实际应用中,特殊因子的方差一般都是未知的,可以通过一组样本来估计。通过求出R*的前m个特征根,得到A的估计,进而得到D的估计。反复迭代直到迭代前后D的差别很小就停止。
对于标准化处理的变量X=(x1,x2,Λ,xp),假设因子分析模型为X=A·F+ε有
其中,aij为载荷因子,f1,Λ,fm是公因子,εi为特殊因子,实际分析时可忽略不计。则公因子方差(变量共同度)为公因子的方差贡献,等于该因子有关的因子载荷的平方和,即/>
对因子载荷矩阵A,用一个正交矩阵Γ右乘A实现对因子载荷矩阵的旋转(一次正交变换即对应坐标系的一次旋转),旋转后因子载荷矩阵结构简化,更容易对公因子进行解释。结构简化就是重新分配每个因子所解释方差的比例,使每个变量仅在一个公因子上有较大的载荷,在其他公因子上的载荷较小,即是使因子载荷矩阵每行或者每列元素的平方值向0与1两极分化。
现假设Γ是一正交阵,因子载荷矩阵正交变换后:
可知正交变换后的公因子共同度不变,但因子方差的贡献发生变化:
然后计算标准化后载荷的方差。对于某个因子fa,可定义其上的载荷间的方差为:
全部公因子各自载荷之间的总方差为:
因此,寻找一个正交矩阵Γ,对已知载荷矩阵A正交变换后,新的因子载荷矩阵B=AΓ中的元素能使Q取极大值。对正交旋转后载荷因子矩阵进行斜交旋转。斜交旋转方法与正交旋转类似,只是变换矩阵P的选择并非是正交矩阵,是一般的非奇异矩阵。
计算因子得分。如果A是正交的,那么就用F=A′X,如果A不是正交的,可以通过回归的方法进行计算。公因子F对变量X做如下回归
则
即有
其中为原始变量相关系数矩阵,/>为第j个因子得分函数的系数,/>为载荷矩阵的第j列。
用矩阵表示有
步骤5,判断该簇第二特征值λ2或者变量的个数是否大于阈值。
①判断该簇的第二特征值是否大于阈值,若小于阈值则直接输出该簇变量的结果,若大于阈值,则进入下一步;
②判断该簇的变量个数是否大于阈值,若小于阈值则直接输出该簇变量的结果,若大于阈值,则进入下一步;
③根据簇中原始变量经过正交旋转和斜交旋转后第一和第二成分的相关系数平方的大小,分成新的两簇;
④迭代变量,调整变量所在分群,尝试最大化分簇带来的簇成分对总可解释方差的提升。一般包括两种方式:
1)保持谱系结构:
调整变量所在组,仅在拆分后的两个组之间进行,先将第二组的各变量逐一调整至第一组,每次调整选择能够提高方差贡献度最大幅度的变量进行调整,直到不能够提升方差贡献度为止;再将第一组的各变量逐一调整至第二组,规则同上。
2)无需保持谱系结构:
首先将其他组的变量逐一调整至第二组,每次调整选择能够提高方差贡献度最大幅度的变量进行调整,直到不能够提升方差贡献度为止;再将其它组的各变量逐一调整至第一组,规则同上。
⑤筛选待拆分组。计算每个组的第二大特征值,筛选第二大特征值最大的组作为待拆分组。
⑥将待拆分的组重复步骤二到步骤五。
利用斜交主成分分析的聚类方法,按照不同的风险维度(或者其它维度)对特征变量进行聚类,在模型训练时只需将不同类别的变量取出来组合在一起进行模型训练,不仅可以解决变量之间的共线性问题,还能提高模型训练效率和训练效果。保留各风险维度的变量可以让模型更具有说服力便于业务应用。同时,斜交主成分是在正交主成分的基础上再作一定旋转,一方面保留了主成分的优点(主成分变量相关程度较低),一方面又具备较强的解释性,达到对变量聚类的效果,使同类别的变量相关性尽可能高,不同类别的变量相关性尽可能低。
采用上述方法可以将客户的不同信息特征进行分组归类且每类特征之间的共线性较低,在对客户进行聚类时,只需每次取不同类别下的特征进行聚类,得到客户最优的聚类结果作为一次聚类结果。当客户信息更新后,采用上述方法可以得到更新信息后的最优聚类结果作为二次聚类结果。
根据一次聚类结果和所述二次聚类结果进行双曲线分析,即对各聚类结果中的标签客户信息数据进行曲线构建,由于各个聚类结果中包含的客户较为相似,可以便于获取各聚类结果中的客户特点。在进行曲线构建时对标签客户的一次聚类和二次聚类信息进行降维并构建降维曲线,获得聚类双曲线。根据聚类双曲线对各个标签客户进行降维数据采集,获取数据的降维幅值和降维周期,其中降维幅值为各数据指标下降的幅值、降维周期为对应指标下降的周期。根据降维幅值和降维周期进行降维风险分析,得到信贷风险指数。
本申请实施例提供的方法步骤640还包括:
步骤641:获取降维标签客户对应的降维幅值集合和降维周期集合;
步骤642:以所述降维幅值集合和所述降维周期集合,获取降维区间;
步骤643:根据所述降维幅值和所述降维周期与所述降维区间进行比较,生成赋值因子;
步骤644:根据所述赋值因子对所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数。
具体的,获取降维标签客户对应的降维幅值集合和降维周期集合,以降维幅值集合和所述降维周期集合,获取降维区间,其中降维区间为各聚类结果中对应降维幅值集合和降维周期集合的众数区间值,如某一聚类结果中降维幅值和降维周期均集中在一定的区间内,则处于该区间内聚类结果中的客户在一定程度上可以体现该聚类结果中的数据水平,当处于该聚类结果中的其他客户不满足该降维区间时则说明客户信用存在一定的异常。根据降维幅值和降维周期与降维区间进行比较,生成赋值因子,赋值因子中包含差异数据和对应的差异值。其中赋值因子为降维幅值和降维周期与降维区间比较存在差异的因子。根据赋值因子对所述降维幅值和所述降维周期进行降维风险分析,在进行降维风险分析时根据赋值因子中包含的差异数据和对应的差异值,其中风险指数由各差异比例叠加计算进行获取,首先通过各差异数据计算差异比例,差异比例为差异值与二次聚类结果中对应数据原值的比例,对各差异数据的差异比例进行叠加计算,生成所述信贷风险指数,实现对信贷的风险评估。
综上所述,本申请实施例提供的方法通过连接信贷数据管理系统,获取标签客户信息,获取各个标签客户的标签生成周期。将标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活标签更新指令,获取待更新客户的信息。根据标签更新模型,获取更新标签集合。以更新标签集合对待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对各个标签客户进行标签聚类,获取二次聚类结果。基于二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数。根据信贷风险指数,生成预警提醒信息。通过对标签客户进行聚类分析,根据聚类结果对标签客户进行聚类后的风险评估,由于聚类结果中包含具有相同或相似信用评价的标签客户,使得评估对象的信用数据比对参照更加明显,提高了信贷风险评估的准确性。解决了现有技术中信用风控存在评价不全面,评价不准确的技术问题。
实施例二
基于与前述实施例中基于聚类分析的信贷风控预警方法相同的发明构思,如图4所示,本申请提供了基于聚类分析的信贷风控预警系统,所述系统与云服务器通信连接,所述系统包括:
标签客户信息获取模块11,用于连接信贷数据管理系统,获取标签客户的信息;
标签生成周期获取模块12,用于基于所述标签客户的信息,获取各个标签客户的标签生成周期;
待更新客户信息获取模块13,用于将所述标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活所述标签更新指令,获取待更新客户的信息;
更新标签集合获取模块14,用于将所述待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中,所述标签更新模型嵌于所述云服务器中;
标签聚类模块15,用于以所述更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对所述各个标签客户进行标签聚类,获取二次聚类结果;
信贷风险指数获取模块16,用于基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数;
预警提醒模块17,用于根据所述信贷风险指数,生成预警提醒信息。
进一步地,所述待更新客户信息获取模块13还用于:
基于所述标签客户的信息对各个标签客户进行客户属性信息分析,获取预设标签生成周期;
判断所述标签生成周期是否处于所述预设标签生成周期中;
若所述标签生成周期处于所述预设标签生成周期中,以使所述标签更新指令处于未激活状态;
若所述标签生成周期处于所述预设标签生成周期中,以使所述标签更新指令处于已激活状态。
进一步地,所述待更新客户信息获取模块13还用于:
将所述待更新客户的信息输入所述云服务器的云数据库中;
基于所述信贷数据管理系统,获取用于进行数据特征识别的初始标签生成模型;
将所述初始标签生成模型链接至所述云服务器的云处理器中;
通过调用所述云处理器中的初始标签生成模型和所述云数据库中的所述待更新客户的信息,生成所述标签更新模型。
进一步地,所述待更新客户信息获取模块13还用于:
获取用于进行消费降维分析的待采集指标集合;
按照所述待采集指标集合对所述待更新客户进行数据采集,获取降维数据特征;
以所述降维数据特征作为新增特征,对所述初始标签生成模型进行增量学习,获取所述标签更新模型,其中,所述标签更新模型用于对各个客户的风险标签进行更新。
进一步地,所述待更新客户信息获取模块13还用于:
获取用于进行模型性能测试的测试样本数据集;
根据所述测试样本数据集,对所述标签更新模型进行KS模型测试,获取KS测试结果,其中,所述KS测试结果包括KS测试曲线;
以所述KS测试曲线对所述标签更新模型的性能进行分析,获取模型性能评分;
以所述模型性能评分将所述标签更新模型嵌入所述云服务器中,获取所述更新标签集合。
进一步地,所述信贷风险指数获取模块16还用于:
基于所述标签客户的信息对各个标签客户进行一次聚类,获取一次聚类结果;
以所述一次聚类结果和所述二次聚类结果进行双曲线分析,获取聚类双曲线;
根据所述聚类双曲线对各个标签客户进行降维数据采集,获取降维幅值和降维周期;
以所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数。
进一步地,所述信贷风险指数获取模块16还用于:
获取降维标签客户对应的降维幅值集合和降维周期集合;
以所述降维幅值集合和所述降维周期集合,获取降维区间;
根据所述降维幅值和所述降维周期与所述降维区间进行比较,生成赋值因子;
根据所述赋值因子对所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数。
上述实施例二用于执行如实施例一中的方法,其执行原理以及执行基础均可以通过实施例一中记载的内容获取,在此不做过多赘述。尽管结合具体特征及其实施例对本申请进行了描述,但本申请不受这里描述的示例实施例的限制。基于本申请的实施例,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围,这样获取的内容也属于本申请保护的范围。
Claims (6)
1.基于聚类分析的信贷风控预警方法,其特征在于,所述方法应用于信贷风控预警系统,所述系统与云服务器通信连接,所述方法包括:
连接信贷数据管理系统,获取标签客户的信息;
基于所述标签客户的信息,获取各个标签客户的标签生成周期;
将所述标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活所述标签更新指令,获取待更新客户的信息;
将所述待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中,所述标签更新模型嵌于所述云服务器中;
以所述更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对所述各个标签客户进行标签聚类,获取二次聚类结果;
基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数;
根据所述信贷风险指数,生成预警提醒信息;
其中,所述基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数,包括:
基于所述标签客户的信息对各个标签客户进行一次聚类,获取一次聚类结果;
以所述一次聚类结果和所述二次聚类结果进行双曲线分析,获取聚类双曲线;
根据所述聚类双曲线对各个标签客户进行降维数据采集,获取降维幅值和降维周期;
以所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数;
以所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数,包括:
获取降维标签客户对应的降维幅值集合和降维周期集合;
以所述降维幅值集合和所述降维周期集合,获取降维区间;
根据所述降维幅值和所述降维周期与所述降维区间进行比较,生成赋值因子;
根据所述赋值因子对所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数。
2.如权利要求1所述的方法,其特征在于,所述将所述标签生成周期作为输入信息判断是否进行激活标签更新指令中,所述方法还包括:
基于所述标签客户的信息对各个标签客户进行客户属性信息分析,获取预设标签生成周期;
判断所述标签生成周期是否处于所述预设标签生成周期中;
若所述标签生成周期未处于所述预设标签生成周期中,以使所述标签更新指令处于未激活状态;
若所述标签生成周期处于所述预设标签生成周期中,以使所述标签更新指令处于已激活状态。
3.如权利要求1所述的方法,其特征在于,将所述待更新客户的信息输入标签更新模型中之前,包括:
将所述待更新客户的信息输入所述云服务器的云数据库中;
基于所述信贷数据管理系统,获取用于进行数据特征识别的初始标签生成模型;
将所述初始标签生成模型链接至所述云服务器的云处理器中;
通过调用所述云处理器中的初始标签生成模型和所述云数据库中的所述待更新客户的信息,生成所述标签更新模型。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
获取用于进行消费降维分析的待采集指标集合;
按照所述待采集指标集合对所述待更新客户进行数据采集,获取降维数据特征;
以所述降维数据特征作为新增特征,对所述初始标签生成模型进行增量学习,获取所述标签更新模型,其中,所述标签更新模型用于对各个客户的风险标签进行更新。
5.如权利要求4所述的方法,其特征在于,所述获取所述标签更新模型之后,还包括:
获取用于进行模型性能测试的测试样本数据集;
根据所述测试样本数据集,对所述标签更新模型进行KS模型测试,获取KS测试结果,其中,所述KS测试结果包括KS测试曲线;
以所述KS测试曲线对所述标签更新模型的性能进行分析,获取模型性能评分;
以所述模型性能评分将所述标签更新模型嵌入所述云服务器中,获取所述更新标签集合。
6.基于聚类分析的信贷风控预警系统,其特征在于,所述系统与云服务器通信连接,所述系统包括:
标签客户信息获取模块,用于连接信贷数据管理系统,获取标签客户的信息;
标签生成周期获取模块,用于基于所述标签客户的信息,获取各个标签客户的标签生成周期;
待更新客户信息获取模块,用于将所述标签生成周期作为输入信息判断是否进行激活标签更新指令,若激活所述标签更新指令,获取待更新客户的信息;
更新标签集合获取模块,用于将所述待更新客户的信息输入标签更新模型中,根据所述标签更新模型,获取更新标签集合,其中,所述标签更新模型嵌于所述云服务器中;
标签聚类模块,用于以所述更新标签集合对所述待更新客户的信贷标签进行更新,获取更新状态,当处于更新完成的状态时,对所述各个标签客户进行标签聚类,获取二次聚类结果;
信贷风险指数获取模块,用于基于所述二次聚类结果对标签客户进行降维风险分析,生成信贷风险指数;
预警提醒模块,用于根据所述信贷风险指数,生成预警提醒信息;
所述信贷风险指数获取模块还用于:
基于所述标签客户的信息对各个标签客户进行一次聚类,获取一次聚类结果;
以所述一次聚类结果和所述二次聚类结果进行双曲线分析,获取聚类双曲线;
根据所述聚类双曲线对各个标签客户进行降维数据采集,获取降维幅值和降维周期;
以所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数;
获取降维标签客户对应的降维幅值集合和降维周期集合;
以所述降维幅值集合和所述降维周期集合,获取降维区间;
根据所述降维幅值和所述降维周期与所述降维区间进行比较,生成赋值因子;
根据所述赋值因子对所述降维幅值和所述降维周期进行降维风险分析,生成所述信贷风险指数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211429085.6A CN115797044B (zh) | 2022-11-15 | 2022-11-15 | 基于聚类分析的信贷风控预警方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211429085.6A CN115797044B (zh) | 2022-11-15 | 2022-11-15 | 基于聚类分析的信贷风控预警方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115797044A CN115797044A (zh) | 2023-03-14 |
CN115797044B true CN115797044B (zh) | 2024-03-29 |
Family
ID=85437866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211429085.6A Active CN115797044B (zh) | 2022-11-15 | 2022-11-15 | 基于聚类分析的信贷风控预警方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115797044B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078026B (zh) * | 2023-10-17 | 2024-02-06 | 杭银消费金融股份有限公司 | 一种基于数据血缘的风控指标管理方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046287A (zh) * | 2015-06-29 | 2015-11-11 | 西北工业大学 | 一种在线多笔画重复绘制草图的聚类与拟合方法 |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
CN111027845A (zh) * | 2019-12-06 | 2020-04-17 | 昆明电力交易中心有限责任公司 | 一种适用于电力市场主体客户画像的标签模型 |
CN111222585A (zh) * | 2020-01-15 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及介质 |
CN111340611A (zh) * | 2020-02-20 | 2020-06-26 | 中国建设银行股份有限公司 | 一种风险预警方法和装置 |
CN112116256A (zh) * | 2020-09-22 | 2020-12-22 | 国网福建省电力有限公司 | 一种数据资产管理方法 |
CN112634022A (zh) * | 2020-12-25 | 2021-04-09 | 北京工业大学 | 基于不平衡数据处理的信贷风险评估方法与系统 |
CN113177839A (zh) * | 2021-05-20 | 2021-07-27 | 中国建设银行股份有限公司 | 一种信用风险评估方法、装置、存储介质和设备 |
CN113205124A (zh) * | 2021-04-27 | 2021-08-03 | 哈尔滨工业大学(深圳) | 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质 |
CN113822494A (zh) * | 2021-10-19 | 2021-12-21 | 平安科技(深圳)有限公司 | 风险预测方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200250185A1 (en) * | 2003-08-12 | 2020-08-06 | Russell Wayne Anderson | System and method for deriving merchant and product demographics from a transaction database |
-
2022
- 2022-11-15 CN CN202211429085.6A patent/CN115797044B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046287A (zh) * | 2015-06-29 | 2015-11-11 | 西北工业大学 | 一种在线多笔画重复绘制草图的聚类与拟合方法 |
CN106897918A (zh) * | 2017-02-24 | 2017-06-27 | 上海易贷网金融信息服务有限公司 | 一种混合式机器学习信用评分模型构建方法 |
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN110415111A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 |
CN111027845A (zh) * | 2019-12-06 | 2020-04-17 | 昆明电力交易中心有限责任公司 | 一种适用于电力市场主体客户画像的标签模型 |
CN111222585A (zh) * | 2020-01-15 | 2020-06-02 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备及介质 |
CN111340611A (zh) * | 2020-02-20 | 2020-06-26 | 中国建设银行股份有限公司 | 一种风险预警方法和装置 |
CN112116256A (zh) * | 2020-09-22 | 2020-12-22 | 国网福建省电力有限公司 | 一种数据资产管理方法 |
CN112634022A (zh) * | 2020-12-25 | 2021-04-09 | 北京工业大学 | 基于不平衡数据处理的信贷风险评估方法与系统 |
CN113205124A (zh) * | 2021-04-27 | 2021-08-03 | 哈尔滨工业大学(深圳) | 一种基于密度峰值的高维真实场景下的聚类方法、系统及存储介质 |
CN113177839A (zh) * | 2021-05-20 | 2021-07-27 | 中国建设银行股份有限公司 | 一种信用风险评估方法、装置、存储介质和设备 |
CN113822494A (zh) * | 2021-10-19 | 2021-12-21 | 平安科技(深圳)有限公司 | 风险预测方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
A dynamic credit risk assessment model with data mining techniques: evidence from Iranian banks;Saba Moradi 等;《Financial Innovation》;20190320;第5卷;第1-27页 * |
基于改进的引力密度峰值聚类算法的P2P网贷平台信用评级研究;于典加;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210715(第7期);第I138-173页 * |
运用聚类分析法对我国企业信贷风险的评估与预测;王平 等;《数学理论与应用》;20100331;第30卷(第1期);第92-97页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115797044A (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN112270596A (zh) | 基于用户画像构建的风险控制系统及方法 | |
CN108681742B (zh) | 用于分析司机驾驶行为对车辆能耗敏感性的分析方法 | |
CN115797044B (zh) | 基于聚类分析的信贷风控预警方法及系统 | |
CN115423594A (zh) | 企业财务风险的评估方法、装置、设备及存储介质 | |
CN116468273A (zh) | 客户风险识别方法及装置 | |
CN115271442A (zh) | 基于自然语言评估企业成长性的建模方法及系统 | |
CN113688906A (zh) | 基于量子K-means算法的客户细分方法和系统 | |
CN113935413A (zh) | 一种基于卷积神经网的配网录波文件波形识别方法 | |
CN117763316A (zh) | 一种基于机器学习的高维数据降维方法及降维系统 | |
Aguilar et al. | Grouped heterogeneity in linear panel data models with heterogeneous error variances | |
Siregar et al. | Implementation Of The Data Mining Cart Algorithm In The Characteristic Pattern Of New Student Admissions | |
CN113191569A (zh) | 一种基于大数据的企业管理方法及系统 | |
CN113724060A (zh) | 一种信用风险评估方法及系统 | |
CN114281994B (zh) | 一种基于三层加权模型的文本聚类集成方法及系统 | |
CN118154375B (zh) | 改进型knn算法模型的工商管理专业教学管理方法 | |
CN117975204B (zh) | 一种模型训练方法、缺陷检测方法以及相关装置 | |
CN118071104B (zh) | 基于智能ai实现企业协同办公的方法及系统 | |
CN118035764B (zh) | 数据主体的确定方法、装置及电子设备 | |
CN116187299B (zh) | 一种科技项目文本数据检定评价方法、系统及介质 | |
Ito et al. | Application of mathematical quantification theory class III in software effort prediction | |
CN112330139A (zh) | 一种基于聚类的员工行为分类模型数据集的生成方法 | |
CN118133194A (zh) | 一种基于多尺度特征融合的水质异常检测方法 | |
CN116629699A (zh) | 数据检测方法、装置、终端设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |