CN116385151A - 基于大数据进行风险评级预测的方法及计算设备 - Google Patents
基于大数据进行风险评级预测的方法及计算设备 Download PDFInfo
- Publication number
- CN116385151A CN116385151A CN202310382289.7A CN202310382289A CN116385151A CN 116385151 A CN116385151 A CN 116385151A CN 202310382289 A CN202310382289 A CN 202310382289A CN 116385151 A CN116385151 A CN 116385151A
- Authority
- CN
- China
- Prior art keywords
- risk
- decision trees
- indexes
- prediction
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000003066 decision tree Methods 0.000 claims abstract description 48
- 238000007637 random forest analysis Methods 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000007306 turnover Effects 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 description 31
- 238000002372 labelling Methods 0.000 description 14
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 238000007477 logistic regression Methods 0.000 description 5
- 238000013526 transfer learning Methods 0.000 description 5
- 238000001276 Kolmogorov–Smirnov test Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013475 authorization Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000001556 precipitation Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Finance (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种基于大数据进行风险评级预测的方法及计算设备。该方法包括:获取目标客户的风险样本,所述风险样本具有多个风险指标,所述多个风险指标划分为至少一个风险维度;将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;获取随机森林模型的输出结果,同时得到总体风险预测和风险画像。该方案通过将用户风险画像功能嵌入风险评级模型之中,节省了时间和计算成本,并使预测结果更准确。
Description
技术领域
本申请涉及机器学习及商业大数据技术领域,具体而言,涉及一种基于大数据进行风险评级预测的方法及计算设备。
背景技术
随着跨境电商的发展,越来越多的跨境电商开始出现融资需求。金融机构开展跨境电商融资业务时,信用风险的评级依赖线下尽调,时间和人力成本相对较高。这就导致对跨境电商的纯信用融资如无根之水,抵押贷款占据主导地位,使得许多运营良好需要融资但缺乏抵押的电商的发展受到限制。
传统上,金融机构一般通过人工经验或者建立风险评分卡的方式进行风险评级预测。但是,传统方法的准确率不高,而且需要花费大量的人工,未能有效利用电商活动中产生的大量商业大数据。与传统行业相比,电商在其生态价值链上会产生海量可获取的原始数据。这些数据的获取、加工、或者有效利用,可对企业经营活动提供帮助,或者对企业经营决策提供支持。
然而,目前业内缺乏可以利用电商大数据进行风险评级的解决方案。
在所述背景技术部分公开的上述信息仅用于加强对本申请的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请旨在提供一种基于大数据进行风险评级预测的方法及计算设备,通过将用户风险画像功能嵌入风险评级模型之中,节省了时间和计算成本,并使预测结果更准确。
本申请的其该用户特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的一方面,提供一种基于大数据进行风险评级预测的方法,包括:获取目标客户的风险样本,所述风险样本具有多个风险指标,所述多个风险指标划分为至少一个风险维度;将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;获取随机森林模型的输出结果,同时得到总体风险预测和风险画像。
根据本申请的另一方面,提供一种电子设备,包括:处理器;存储器,所述存储器上存储有计算机程序;当所述处理器执行所述计算机程序时实现前述方法。
根据本申请的另一方面,提供一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现前述的方法。
根据一些实施例,使用随机森林替代逻辑回归作为底层算法。在使用随机森林算法生成子决策树时,以特定数量的子树选取特定风险维度的风险指标。通过将用户风险画像功能嵌入风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林算法的加持。这样,根据示例实施例的方法获得的预测结果更加准确。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
通过参照附图详细描述其示例实施例,本申请的上述和其它目标、特征及优点将变得更加显而易见。
图1示出本申请技术方案的一种应用场景的示意图。
图2A示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型。
图2B示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型的训练模式。
图3示出根据本申请示例实施例的随机森林模型利用商业大数据进行风险评级的方法。
图4示出根据示例实施例对风险指标进行标准化的过程。
图5示出根据本申请实施例的训练风险评级预测模型的方法流程图。
图6示出根据本申请实施例通过半监督学习进行样本标签化的方法流程图。
图7示出根据本申请示例实施例的总体风险预测和风险画像的示例。
图8示出根据本申请示例实施例的计算设备的框图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本申请将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员可以理解的是,本文所描述的实施例可以与其它实施例相结合。
金融机构传统上对电商企业进行风险管理是以线下对企业的尽职调查为主。通过对公司经营状况、公司财产线索、法人财产线索(房产、车等)、银行信用状况、债务状况、法律诉讼等方面的调查,对企业进行风险评估。调查的数据来源主要包括企业财报、银行流水、纳税申报表、工商信息平台、房产局数据库、中登网数据库等。这种方式的主要问题在于,线下调查的人力成本和时间成本相对较高,数据的可信度(财报)、数据的清晰度(银行流水)均无法保证,而且数据无法批量获取。数据的获取通常依赖人工操作处理,这相对于电商平台上产生的海量数据而言是远远不能完成处理任务的。
此外,金融机构一般通过人工经验或者建立风险评分卡的方式进行风险评级预测。首先,结合样本标签对风险指标进行卡方分箱(基于逻辑回归算法),就是将连续型的数据离散化,比如年龄这个变量可以分箱为0-18,18-30,30-45,45-60等。接着,计算不同指标不同区间的风险得分。最后,将目标用户的风险指标匹配对应区间的风险得分并加总得到总风险评分。
风险评分卡无法进行用户风险画像,例如对电商而言,从不同风险维度(库存,销售)进行评分。此外,该方法的准确率并不是很高。因为形式非常的简单(非常类似线性模型),很难去拟合数据的真实分布。然而,目前业内缺乏一个可以将多维度风险指标输出为风险评级的模型。
为此,根据本申请实施例的技术方案将电商运营中产生的大数据转化为风险指标体系,再转化为风险评级模型。另外,由于从电商的大数据得到的风险指标空间有非常明确的维度划分(库存、销售、结算等),因此还提供了针对不同维度的风险评分画像。
通过本申请的技术方案,金融机构不仅可以在准入阶段通过以这些来自第三方具有高可信度风险指标为基础的风险运营报告来进行风险准入评级,节省尽调的时间和人力,也可以在贷中和贷后实时获取风险指标的异常变化信息,将风险控制在最小范围内。
下面参照实施例对本申请的技术方案进行详细说明。
图1示出本申请技术方案的一种应用场景的示意图。
参见图1,在电商系统中,电商价值链上产生的数据会沉淀在电商平台的数据库中。为了获取这些沉淀数据,可以通过电商授权方式,通过电商平台的API接口将数据授权给根据本申请实施例的数据处理系统使用。此外,系统还可通过与电商业务的其他主要参与者(包括第三方支付、物流商、仓储服务商)进行以接口等形式的数据对接,实时获取用户多个维度(销售,库存,流量,政策性违规,物流,结算等)的原始电商数据,并可使用分布式技术手段进行存储和计算。
根据本申请实施例的数据处理系统在接到授权后,将电商平台中相应电商的原始电商数据拉取到数据处理系统关联的存储系统。根据一些实施例,该存储系统可以是分布式存储系统。
根据本申请实施例的数据处理系统对数据进行处理,例如通过标准化处理,得到可以后续使用的数据。然后,可结合行业经验、商业模型、财务模型和/或统计模型等,通过机器学习等方式得到电商企业的风险评级结果和风险画像并提供给银行等金融机构,作为可信赖的融资依据。
图2A示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型。
图2A所示的随机森林模型可以基于商业大数据(例如,电商大数据)对企业进行风险评级预测,从而为金融机构提供融资依据。
图2B示出根据本申请示例实施例的利用商业大数据进行风险评级预测的随机森林模型的训练模式。
随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。随机体现在两个方面,一个是随机取特征,另一个是随机取样本,让森林中的每棵树既有相似性又有差异性。随机森林作为一种Bagging(装袋算法)集成学习算法,会对原始电商数据集进行采样,得到新的数据集。随机选取原数据集中的一个样本并添加至新数据集,多次操作,形成不同的训练集。换言之,随机森林可以从多数类中独立随机抽取出若干子集,将每个子集与少数类数据联合起来训练生成多个基分类器,再加权组成新的分类器来处理数据不平衡问题。随机森林是一类基础而且常用的非线性分类和回归方法。
参见图2A,根据示例实施例的随机森林模型包括n+i个决策树,其中n个第一组决策树获取k个风险指标,i个第二组决策树分别获取i个风险维度中特定维度的风险指标。
参见图2B,在对该模型进行训练时,该第一组决策树随机获取多个标记样本和该多个风险指标,该第二组决策树随机获取训练样本且分别获取各风险维度的风险指标。
风险指标可包括但不限于例如销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率等。风险维度包括但不限于库存、销售、退货、结算等。这些风险指标可基于商业大数据获得。
根据示例实施例的随机森林模型,将客户风险画像功能嵌入了风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林算法的加持。
图3示出根据本申请示例实施例的随机森林模型利用电商大数据进行风险评级预测的方法。
参见图3,在S301,获取目标客户的风险样本,风险样本具有多个风险指标,多个风险指标可划分为至少一个风险维度。
根据示例实施例,多个风险指标可包括基于时间片的统计指标。
例如,该多个风险指标可包括但不限于基于时间片的销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率等。
多个风险指标可划分为至少一个风险维度,例如,销售同比环比、库存周转率和回款率可分别划分至销售、库存、结算三个风险维度。
根据示例实施例,可通过后面参照图4所说明的方法获得风险样本并对样本的风险指标进行标准化处理。
在S303,将多个风险指标放入随机森林模型进行计算。
根据示例实施例,该随机森林模型包括第一组决策树和第二组决策树。该第一组决策树获取该多个风险指标,该第二组决策树分别获取各风险维度的风险指标。
在S305,获取随机森林模型的输出结果,得到总体风险预测和风险画像。
例如,可将第一组决策树和第二组决策树输出的结果(例如,平均值)作为目标用户的总体风险预测,将第二组决策树输出的各风险维度的风险预测作为风险画像,参见图7给出的总体风险预测和风险画像的示例。
根据一些实施例,第二组决策树的输出为平均逾期概率,第二组决策树的输出分别为退货风险、库存风险、基础风险、结算表现和销售表现。
根据一些实施例,该总体风险预测值作为目标用户的未来运营状况预测。根据一些实施例,该方法用于金融机构对电商进行风险评级。
根据一些实施例,根据多个样本的特定指标,对多个样本的预测值进行加权平均。例如,可根据销售额指标对预测值进行加权平均。
根据本申请的示例实施例,使用随机森林替代逻辑回归作为底层算法。在使用随机森林算法生成子决策树时,以特定数量的子树选取特定风险维度的风险指标。通过将用户风险画像功能嵌入风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林算法的加持。这样,根据示例实施例的方法获得的预测结果更加准确。此外,可同时可降低过拟合问题出现的可能性。
根据一些实施例,在获取风险指标后,可通过与以前获得的风险指标比对,获得异常变化信息,从而发出预警。例如,同比销售下降超过80%同行业竞争者,或者冗余库存比超过80%同行业竞争者,或者日销售高于近30天日销售平均值3个标准差以上时,可发出预警信息,从而可将风险控制在最小范围内。
图4示出根据示例实施例对风险指标进行标准化的过程。
在通过数据接口获得商业大数据后,可对获取的原始电商数据进行统计加工,生成标记样本和风险指标。然后,可对风险指标进行标准化处理,以用于预测或用于训练模型。通过数据标准化,可以提升模型的收敛速度和精度,并且可以去除时间、地域、品类等的影响。
根据一些实施例,首先可结合RFM模型、财务模型、电商运营指标体系等,确定风险指标。
RFM模型是衡量客户价值和客户创造利益能力的重要工具和手段。在众多的客户关系管理(CRM)的分析模式中,RFM模型是被广泛提到的。该模型通过一个客户的近期购买行为、购买的总体频率以及花了多少钱三项指标来描述该客户的价值状况。
财务模型是将企业的各种信息按照价值创造的主线进行分类、整理和链接,以完成对企业财务绩效的分析、预测和评估等功能。总体运营指标可包括流量类指标、销售转换指标、商品类指标等。
根据一些实施例,作为风险指标的退货率可定义为退货单数与总单数的比值,回款率可定义为平台打到客户账户的款项总金额与平台销售总金额的比值,售出率可定义为销售商品数量与平均库存的比值。
在S401,获取电商数据样本。
在电商系统中,电商价值链上产生的数据会沉淀在电商平台的数据库中。为了获取这些沉淀数据,可以通过电商授权方式,利用电商平台的API接口将数据拉取保存到存储系统,再处理为电商数据样本保存。然后可从存储系统获取电商数据样本。,按照预定周期的滑动时间窗口从至少一个预定周期的电商数据获取至少一个时间窗口的风险样本。这样,通过时间窗口的使用,可以扩大风险样本的数量,这对于满足模型训练所需的样本数量尤其有用。
在S403,确定用于对电商数据样本进行统计计算的多个时间片。
根据示例实施例,在一个时间窗口内可设定例如0-7天、8-14天、15-21天、22-28天等时间片,以对电商数据样本进行统计,诸如统计每个样本中订单数、退货单数、回款金额等指标的时间片统计值。通过多个时间片统计,可以扩大风险指标的数量,如下面所详细描述的。
在S405,对电商数据样本根据属性维度组合的筛选结果按多个时间片进行指标统计并计算风险指标,从而得到风险样本。
例如,对电商数据样本按品类、地域和时间窗口的属性维度组合进行退货单数、总销售金额等指标的时间片统计,然后可根据各指标的时间片统计结果和风险指标定义计算风险指标,得到包括多个风险指标的风险样本。表1和表2给出示例的风险样本的统计数据和风险指标。
表1.多维度统计数据示例
表2.风险指标示例
在S407,根据属性维度组合对风险指标进行数据标准化,以消除或降低因维度不同产生偏差的可能性。
根据示例实施例,筛选属性维度组合相同的风险样本集合,计算集合中风险指标的平均值以及标准差。
表3.风险指标标准化示例
图5示出根据本申请实施例的训练风险评级预测模型的方法流程图。
参见图5,在S501,获取标签化的训练样本。
训练样本可以通过多种标注方式来填加标签。例如,可以采用人工标注的方式对样本进行标签化来确定训练样本。也可以通过半监督学习的方式进行样本标签化过程,从而通过数据生成标签,以生成训练样本,如后面参照图6所描述的。
根据一些实施例,可通过后面参照图6描述的方法利用半监督学习进行样本标签化,并将标签化样本的至少部分作为训练样本。
在S503,选择多个风险指标。
根据示例实施例,可先对指标进行筛选,保留重要性排名较高前k个风险指标,以减轻模型的运算任务。
根据一些实施例,可以使用简单的逻辑回归模型,使用回归系数作为筛选标准。此外,也可以使用正则化L1,L2筛选。
根据一些实施例,可以对指标空间应用KS检验排序,保留重要性排名在前的k个风险指标。
KS检验(Kolmogorov-Smirnov检验)用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异。在风控中,KS检验常用于评估风险指标区分度。区分度越大,说明风险指标的风险排序能力(ranking ability)越强。KS统计量是基于经验累积分布函数(Empirical Cumulative Distribution Function,ECDF)建立的。检验统计量为:
B(x),指特定指标小于等于x的样本中,坏样本的占比。
G(x),指特定指标小于等于x的样本中,好样本的占比。
检验过程如下:
(1)提出假设H0:B(x)=G(x)。
(2)计算特定指标好样本累计频率与坏样本累计频率的绝对差,令最大的绝对差为D,D=max{|B(x)-G(x)|}。
根据一些实施例,还包括对多个风险指标进行标准化处理,如参照图4所描述的。
(3)使用D作为特定指标的KS分值并排序。
通过对风险指标进行特征筛选,可以得到准确率更高的风险评级得分,并可减轻模型的运算任务。
在S505,将多个风险指标划分为至少一个风险维度。例如,可以按库存维度、销售维度、市场维度、用户维度、财务维度等对风险指标进行分组,以得到目标用户不同风险维度的评级得分。
在S507,基于训练样本和多个风险指标及至少一个风险维度,训练随机森林模型。
根据示例实施例,该随机森林模型包括第一组决策树和第二组决策树。该第一组决策树随机获取多个标记样本和该多个风险指标,该第二组决策树随机获取训练样本且分别获取各风险维度的风险指标。
所述第一组决策树和所述第二组决策树输出的结果(例如平均值)可作为总体风险预测值。
此外,可以将目标用户的样本和风险指标放入训练得到的随机森林模型,分别取所述第二组决策树输出的结果作为所述预定维度的风险预测值,例如库存维度的风险预测值。
根据一些实施例,还可将第一组决策树和第二组决策树的平均oob得分(袋外错误率,out-of-bag error)作为评测标准,对随机森林模型的参数进行优化,从而得到优化后的模型。
图6示出根据本申请实施例通过半监督学习进行样本标签化的方法流程图。
在对模型进行训练时,需要大量标签化训练样本。训练样本可以通过多种标注方式来填加标签。例如,可以采用人工标注的方式对样本进行标签化来确定训练样本。人工标注往往需要花费大量的人工成和时间,而且由于现实条件的限制,有时是难以完成的。也可以通过半监督学习的方式进行样本标签化过程,从而通过数据生成标签,以生成训练样本。
在对电商的银行贷款逾期进行风险评级预测时,采用迁移学习的思想进行标签化,将对用户未来贷款风险逾期概率的预测迁移为对用户未来运营状况的预测。迁移学习是将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。无监督迁移学习即目标领域没有标注数据的迁移学习任务(目前企业B端数据广泛缺乏标注)。迁移学习是基于:特征空间中的部分特征是领域独享的,而另一部分特征是领域共享且可泛化的,即企业运营状况与贷款逾期概率具有大量共享特征。
根据示例实施例,用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类。挑选分类正确置信度高的无标签样本,把选出来的无标签样本用来训练分类器。例如,无标签数据放入分类器后,输出概率>0.95标记为负样本,输出概率<0.05标记为正样本。
参见图6,在S601,对风险指标空间进行降维并对样本排序,得到初始标记样本。
根据示例实施例,可通过主要成分分析(PCA,principal components analysis),对风险指标空间进行降维并对样本排序。
根据实施例,可通过PCA把原先的k个特征用数目更少的m个特征取代,新特征是旧特征的线性组合。这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。根据实施例,可将m设定为1,使每一个样本对应一个风险值(降至一维的特征空间),并按照风险值对样本排序。表4给出示例的风险指标空间降维后的样本排序。以一定的比例将排序好的样本中的头部样本和尾部样本挑选出来分别标记为正样本和负样本,得到初始标记样本,放入样本空间。然后,可重复执行S603和S605,直至样本空间中标记样本的数量达到阈值。
表4.风险指标空间降维后的样本排序示例
在S603,利用样本空间中的标记样本训练分类模型。
将样本空间中的标记样本切割为训练集与测试集,并放入分类模型进行训练,例如放入决策树模型进行训练,得到训练后的分类模型。
在S605,通过训练后的分类模型进行样本标签化,利用得到的标记样本扩充样本空间。
将之前未标记的样本放入训练后的分类模型中,得到对未标记样本的预测标记概率并排序,并以一定的比例将得到的排序样本中的头部样本和尾部样本挑选出来分别标记为正样本和负样本,放入已有标记样本的样本空间中,扩充样本空间。
这样,通过半监督学习的方式进行样本标签化,从而通过数据生成标签,以生成训练样本,节省了人力。此外,还可以消除特征之间的共线性。
图8示出根据本申请示例实施例的计算设备的框图。
如图8所示,该计算设备30包括处理器12和存储器14。计算设备30还可以包括总线22、网络接口16以及I/O接口18。处理器12、存储器14、网络接口16以及I/O接口18可以通过总线22相互通信。
处理器12可以包括一个或多个通用CPU(Central Processing Unit,中央处理器)、微处理器、或专用集成电路等,用于执行相关程序指令。
存储器14可以包括易失性存储器形式的机器系统可读介质,例如随机存取存储器(RAM)、只读存储器(ROM)和/或高速缓存存储器。存储器14用于存储包含指令的一个或多个程序以及数据。处理器12可读取存储在存储器14中的指令以执行上述根据本申请实施例的方法。
计算设备30也可以通过网络接口16与一个或者多个网络通信。该网络接口16可以是有线网络接口或无线网络接口,也可以是虚拟网络接口。
计算设备30也可以通过输入/输出(I/O)接口18与一个或多个外部设备(例如音频输入设备、音频输出设备、摄像头、键盘、鼠标、显示器、各类传感器等)通信。
总线22可以包括地址总线、数据总线、控制总线等。总线22提供了各组件之间交换信息的通路。
需要说明的是,在具体实施过程中,计算设备30还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米系统(包括分子存储器IC)、网络存储设备、云存储设备,或适合于存储指令和/或数据的任何类型的媒介或设备。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括存储计算机程序的非瞬时性计算机可读存储介质,该计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种方法的部分或全部步骤。
本领域的技术人员可以清楚地了解到本申请的技术方案可借助软件和/或硬件来实现。本说明书中的“单元”和“模块”是指能够独立完成或与其他部件配合完成特定功能的软件和/或硬件,其中硬件例如可以是现场可编程门阵列、集成电路等。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
以上对本申请实施例进行了详细描述和解释。应清楚地理解,本申请描述了如何形成和使用特定示例,但本申请不限于这些示例的任何细节。相反,基于本申请公开的内容的教导,这些原理能够应用于许多其它实施例。
通过对示例实施例的描述,本领域技术人员易于理解,根据本申请实施例的风险评级预测方法至少具有以下优点中的一个或多个。
根据一些实施例,通过将电商运营中产生的大数据转化为风险指标体系,再转化为风险评级模型,可以为提供企业风险评级预测。
根据一些实施例,基于从电商的大数据得到的风险指标空间的维度划分(库存、销售、结算等),提供了针对不同维度的风险评分画像。
根据一些实施例,金融机构可以在准入阶段通过以这些根据本申请技术方案得到的具有高可信度的风险指标为基础的风险运营报告来进行风险准入评级,节省了人力和时间,并且结果相对更加可靠。
根据一些实施例,基于电商大数据,通过机器学习,对企业风险评级进行预测,从而为金融机构提供可信赖的融资依据。
根据一些实施例,通过训练得到的随机森林模型,将客户风险画像功能嵌入了风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林算法的加持。
根据一些实施例,通过半监督学习的方式进行样本标签化,从而通过数据生成标签,以生成训练样本,节省了人力。
根据一些实施例,使用随机森林替代逻辑回归作为底层模型。在使用随机森林模型生成子决策树时,以特定数量的子树选取特定风险维度的风险指标。通过将用户风险画像功能嵌入风险评级模型之中,既节省了时间和计算成本,也使得风险画像获得了随机森林模型的加持。这样,根据示例实施例的方法获得的模型预测结果更加准确。
依据以下条款可更好地理解前述内容:
条款1、一种基于大数据进行风险评级预测的方法,其特征在于,包括:
获取目标客户的风险样本,所述风险样本具有多个风险指标,所述多个风险指标划分为至少一个风险维度;
将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;
获取随机森林模型的输出结果,同时得到总体风险预测和风险画像。
条款2、如条款1所述的方法,其特征在于,将所述第一组决策树和所述第二组决策树输出的平均值作为所述目标用户的总体风险预测值。
条款3、如条款1所述的方法,其特征在于,将所述第二组决策树输出的各风险维度的风险预测作为风险画像。
条款4、如条款1所述的方法,其特征在于,所述多个风险指标包括销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率中的一种或多种。
条款5、如条款4所述的方法,其特征在于,所述至少一个风险维度包括:退货风险、库存风险、基础风险、结算表现和销售表现中的至少一种。
条款6、如条款1所述的方法,其特征在于,所述方法用于金融机构对电商的贷款逾期进行风险评级预测。
条款7、如条款6所述的方法,其特征在于,所述总体风险预测值为平均贷款逾期概率。
8、如条款1所述的方法,其特征在于,还包括:
在获取总体风险预测和风险画像后,通过与前期的总体风险预测和风险画像比对;
如果存在异常变化信息,则发出预警。
条款9、如条款1所述的方法,其特征在于,还包括:对所述多个风险指标进行标准化处理。
条款10、如条款9所述的方法,其特征在于,所述多个风险指标包括基于时间片的统计指标。
11、如条款10所述的方法,其特征在于,对所述多个风险指标进行标准化处理,包括:
筛选属性维度组合相同的风险样本集合;
计算集合中风险指标的平均值以及标准差;
根据所述平均值和标准差对风险指标进行标准化,标准化结果为风险指标和平均值的差与所述标准差之比。
条款12、一种计算设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机程序;
当所述处理器执行所述计算机程序时实现如条款1-11中任一项所述的方法。
以上具体地示出和描述了本申请的示例性实施例。应可理解的是,本申请不限于这里描述的详细结构、设置方式或实现方法;相反,本申请意图涵盖包含在所附条款的精神和范围内的各种修改和等效设置。
Claims (12)
1.一种基于大数据进行风险评级预测的方法,其特征在于,包括:
获取目标客户的风险样本,所述风险样本具有多个风险指标,所述多个风险指标划分为至少一个风险维度;
将所述多个风险指标放入随机森林模型进行计算,其中所述随机森林模型包括第一组决策树和第二组决策树,所述第一组决策树获取所述多个风险指标,所述第二组决策树分别获取各风险维度的风险指标;
获取随机森林模型的输出结果,同时得到总体风险预测和风险画像。
2.如权利要求1所述的方法,其特征在于,将所述第一组决策树和所述第二组决策树输出的平均值作为所述目标用户的总体风险预测值。
3.如权利要求1所述的方法,其特征在于,将所述第二组决策树输出的各风险维度的风险预测作为风险画像。
4.如权利要求1所述的方法,其特征在于,所述多个风险指标包括销售同比环比、库存周转率、流量转化率、侵权投诉数、回款率中的一种或多种。
5.如权利要求4所述的方法,其特征在于,所述至少一个风险维度包括:退货风险、库存风险、基础风险、结算表现和销售表现中的至少一种。
6.如权利要求1所述的方法,其特征在于,所述方法用于金融机构对电商的贷款逾期进行风险评级预测。
7.如权利要求6所述的方法,其特征在于,所述总体风险预测值为平均贷款逾期概率。
8.如权利要求1所述的方法,其特征在于,还包括:
在获取总体风险预测和风险画像后,通过与前期的总体风险预测和风险画像比对;
如果存在异常变化信息,则发出预警。
9.如权利要求1所述的方法,其特征在于,还包括:对所述多个风险指标进行标准化处理。
10.如权利要求9所述的方法,其特征在于,所述多个风险指标包括基于时间片的统计指标。
11.如权利要求10所述的方法,其特征在于,对所述多个风险指标进行标准化处理,包括:
筛选属性维度组合相同的风险样本集合;
计算集合中风险指标的平均值以及标准差;
根据所述平均值和标准差对风险指标进行标准化,标准化结果为风险指标和平均值的差与所述标准差之比。
12.一种计算设备,其特征在于,包括:
处理器;
存储器,所述存储器上存储有计算机程序;
当所述处理器执行所述计算机程序时实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382289.7A CN116385151A (zh) | 2023-04-04 | 2023-04-04 | 基于大数据进行风险评级预测的方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310382289.7A CN116385151A (zh) | 2023-04-04 | 2023-04-04 | 基于大数据进行风险评级预测的方法及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116385151A true CN116385151A (zh) | 2023-07-04 |
Family
ID=86970836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310382289.7A Pending CN116385151A (zh) | 2023-04-04 | 2023-04-04 | 基于大数据进行风险评级预测的方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116385151A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134633A (zh) * | 2024-05-07 | 2024-06-04 | 深圳市拓保软件有限公司 | 一种基于ai技术的银行信贷资产风险分析方法及系统 |
-
2023
- 2023-04-04 CN CN202310382289.7A patent/CN116385151A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118134633A (zh) * | 2024-05-07 | 2024-06-04 | 深圳市拓保软件有限公司 | 一种基于ai技术的银行信贷资产风险分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648074B (zh) | 基于支持向量机的贷款评估方法、装置及设备 | |
CN108711107A (zh) | 智能融资服务推荐方法及其系统 | |
CN113095927B (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN111401600A (zh) | 基于关联关系的企业信用风险评价方法和系统 | |
Blanco Oliver et al. | Improving bankruptcy prediction in micro-entities by using nonlinear effects and non-financial variables | |
Jain et al. | NFT Appraisal Prediction: Utilizing Search Trends, Public Market Data, Linear Regression and Recurrent Neural Networks | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
Ruyu et al. | A comparison of credit rating classification models based on spark-evidence from lending-club | |
Deng et al. | An intelligent system for insider trading identification in Chinese security market | |
Degife et al. | Efficient predictive model for determining critical factors affecting commodity price: the case of coffee in Ethiopian Commodity Exchange (ECX) | |
Cao et al. | Bond rating using support vector machine | |
Cheng et al. | A Seasonal Time‐Series Model Based on Gene Expression Programming for Predicting Financial Distress | |
Zhou et al. | Research on corporate financial performance prediction based on self‐organizing and convolutional neural networks | |
Attanasio et al. | Leveraging the explainability of associative classifiers to support quantitative stock trading | |
Han et al. | Semi-supervised clustering for financial risk analysis | |
Ndayisenga | Bank loan approval prediction using machine learning techniques | |
CN116385151A (zh) | 基于大数据进行风险评级预测的方法及计算设备 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN116523301A (zh) | 基于电商大数据进行风险评级预测的系统 | |
Sebt et al. | Implementing a data mining solution approach to identify the valuable customers for facilitating electronic banking | |
Kian et al. | Detection of fraud in banking transactions using big data clustering technique customer behavior indicators | |
Kirkos et al. | Audit‐firm group appointment: an artificial intelligence approach | |
Chen et al. | Predicting a corporate financial crisis using letters to shareholders | |
Yang et al. | An evidential reasoning rule-based ensemble learning approach for evaluating credit risks with customer heterogeneity | |
CN116304929A (zh) | 一种基于a股市场的财务操纵识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |