CN108898476A

CN108898476A - 一种贷款客户信用评分方法和装置

Info

Publication number: CN108898476A
Application number: CN201810614063.4A
Authority: CN
Inventors: 张静; 狄潇然; 田林; 张亚泽
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2018-11-27

Abstract

本发明的实施例公开一种贷款客户信用评分方法和装置，涉及数据处理领域，能够提高信用评分模型分析的数据维度，提高贷款客户的信用评分结果的准确性。该方法包括：获取样本客户的至少一个类别的客户信息，至少一个类别的客户信息与样本客户的唯一识别码关联；对每个类别的客户信息进行预处理获取采样数据；根据每个类别的客户信息对应的采样数据与样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型；将每个类别的客户信息对应的评分模型进行模型融合获取信用评分模型；将待评价客户的客户信息输入信用评分模型，计算待评价客户的违约信息。

Description

一种贷款客户信用评分方法和装置

技术领域

本发明的实施例涉及数据处理领域，尤其涉及一种贷款客户信用评分方法和装置。

背景技术

P2P等互联网信贷产品快速崛起，以其快速、便捷的申请方式让借款人有了更多的选择，同时高效审批、高品质贷款服务更是让客户好感度直升。传统商业银行贷款审批手续复杂，耗时长，人力成本高，贷款服务效率低，同时主观因素强，风险大，实际放款额度与客户真实信用匹配程度不高，这些因素都使得银行的信贷业务在互联网时代受到的巨大的冲击。

传统商业银行通常利用用户征信报告等信息，采用复杂的审计流程，对用户的信用进行评价，对信贷业务进行审批。而互联网金融，主要利用历史消费行为和用户个人征信，主要使用判别分析、线性回归以及Logistic回归等统计学方法构建信用评分模型，现有技术中构建的信用评分模型分析的数据维度较低，导致模型准确性差，最终影响对贷款客户的信用评分结果。此外，现有方案的建模方法大多为线性建模方法，而实际中影响用户个人信用的因素与个人信用评分之间并非简单的线性关系，一般都是非线性的，因此不能准确复现用户信息与信用评分之间的关系，导致模型准确性差。

发明内容

本发明的实施例提供一种贷款客户信用评分方法和装置，能够提高信用评分模型分析的数据维度，提高贷款客户的信用评分结果的准确性。

第一方面，提供一种贷款客户信用评分方法，包括：

获取样本客户的至少一个类别的客户信息，所述客户信息的类别包括：客户基本信息、客户资产负债信息、客户征信信息、客户收支信息、客户社交信息、客户历史行为信息、客户消费信息、客户其他补充信息；其中所述至少一个类别的客户信息与所述样本客户的唯一识别码关联；

对每个类别的所述客户信息进行预处理获取采样数据；

根据所述每个类别的客户信息对应的采样数据与所述样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型；

将所述每个类别的客户信息对应的违约风险评价模型进行模型融合获取信用评分模型；

将待评价客户的客户信息输入所述信用评分模型，计算所述待评价客户的违约信息。

第二方面，提供一种贷款客户信用评分装置，包括：

输入模块，用于获取样本客户的至少一个类别的客户信息，所述客户信息的类别包括：客户基本信息、客户资产负债信息、客户征信信息、客户收支信息、客户社交信息、客户历史行为信息、客户消费信息、客户其他补充信息；其中所述至少一个类别的客户信息与所述样本客户的唯一识别码关联；

预处理模块，用于对所述输入模块获取的对每个类别的所述客户信息进行预处理获取采样数据；

建模模块，用于根据所述预处理模块获取的所述每个类别的客户信息对应的采样数据与所述样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型；

所述建模模块，还用于将所述每个类别的客户信息对应的评分模型进行模型融合获取信用评分模型；

评分模块，用于将待评价客户的客户信息输入所述建模模块获取的所述信用评分模型，计算所述待评价客户的违约信息。

第三方面，提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当被计算机执行时使所述计算机执行如第一方面所述的贷款客户信用评分方法。

在上述方案中，贷款客户信用评分装置首先获取样本客户的至少一个类别的客户信息，所述客户信息的类别包括：客户基本信息、客户资产负债信息、客户征信信息、客户收支信息、客户社交信息、客户历史行为信息、客户消费信息、客户其他补充信息；其中所述至少一个类别的客户信息与所述样本客户的唯一识别码关联；对每个类别的所述客户信息进行预处理获取采样数据；根据所述每个类别的客户信息对应的采样数据与所述样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型；将所述每个类别的客户信息对应的违约风险评价模型进行模型融合获取信用评分模型；将待评价客户的客户信息输入所述信用评分模型，计算所述待评价客户的违约信息。由于该方法能够首先针对每个类别的客户信息在各类别的客户信息的维度进行建模，然后将在多个维度生成的多个评分模型进行融合，生成最终的信用评分模型，提高了能够提高信用评分模型分析的数据维度，提高贷款客户的信用评分结果的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供一种贷款客户信用评分方法流程示意图；

图2为本发明实施例提供的一种贷款客户信用评分装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的实施例应用到如下技术术语：

t％分布法：将样本按照属性取值从小到大排列，统计其分布规律，按照样本分布规律找到t1％上分位点和t2％下分位点，两个分位点之间的样本为正常样本，两个分位点之外的样本为异常样本。两个分位点的对应的取值可以相同或不同，例如t1％＝t2％，或者t1％≠t2％。

均值或者中位数空缺值填充：对于取值为数值型的属性，例如年龄，资产等属性，可使用变量的均值或者中位数来填充该维度的缺失值，正常的(对称的)数据分布而言可以使用均值，倾斜数据分布就应该要使用中位数来填充；对于取值为字符型的属性，例如职业、学历等，可统计其不同属性取值的占比，将占比最高的属性取值作为默认值，来填充该维度的缺失值。

特征区间比率法：依据特征取值将特征映射到事先划分好的相应区间，再根据区间内样本的正例样本占比作为对应特征取值的权重来完成数据向量化。对于离散型特征，特征取值存在天然划分，例如：性别特征有男、女两个离散特征取值，受教育程度特征有文盲、半文盲、小学、初中、高中、专科、本科、研究生等有限个特征取值，所以离散型特征是不需要依据特征取值分布划分区间的，直接统计每个特征取值的样本中正例样本占比，该样本占比作为对应特征取值的向量化权重。对于连续型特征，首先要依据特征取值范围确定划分区间。一般采用的划分区间方式是按照百分位点来划分。假设某一连续型特征，它的取值服从正态分布，如果需要将其划分为10个区间，那么就找到该特征取值分布的10个等百分位点，再依据每个百分位点对应的特征取值，将该特征划分为10个区间。划分好区间后，需要计算每个区间的正例样本占比，将相邻样本占差值比小于指定阈值ε的区间合并。一般采用χ²检验来验证的划分的合理性。假设某一连续型特征，它特征取值最终被划分为K个区间，用g_i表示第i个区间的正例样本个数，b_i表示第i个区间的反例样本个数，g表示全量数据集中正例样本个数，b表示全量数据集中反例样本个数。令：

则统计量，服从K-1的χ²分布。通过对S²与自由度为K-1的χ²分布的临界值进行比较，来检验各个区间之间的正例样本数与反例样本数是否有显著差异。如果满足χ²检验，那么就说明这种划分区间的方式是合理的，如果不满足，就调整划分区间的方式，直到满足χ²检验为止。对于连续型特征，依据特征取值范围划分好区间之后，需要统计每个区间上样本中正例样本占比，该样本占比作为落在对应区间特征取值的向量化权重。

采样，采样就是通过复制少数类样本或者减少多数类样本使得各类别间达到平衡。采样包括欠抽样和过抽样，欠抽样是通过减少多数类样本的数量来平衡两类样本。过抽样是通过复制少数类样本来达到多数类样本数的数据量平衡的方法。

信息增益(information gain，IG)，信息增益是表征属性特征在样本中出现和不出现来确定特征属性所提供的信息量的大小，是特征属性在分类中的一个作用体现，通过抛弃信息增益小的特征属性，保留信息增益大的特征属性，实现特征属性约简。特征t_k的信息增益计算公式为：

式中：P(c_i)为c_i类的先验概率，P(t_k)为特征属性t_k在整个训练集上的出现的概率，为特征t_k不出现的概率，P(c_l|t_k)为特征属性t_k存在的条件下，样本属于c_l类的概率，为特征属性t_k不存在的条件下，样本属于c_l类的概率。

主成分分析(Principal Component Analysis，PCA)，PCA是一种统计方法，通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后的这组变量叫主成分。定理：任何一个m×m实对称矩阵X_m×m，如果X_m×m的秩为r，则存在正交矩阵Q_m×r，使得:式中,Q_m×r为m×r阶正交矩阵，其列向量是矩阵X_m×m的特征向量，Λ_r×r为r×r阶对角矩阵，其对角线上的元素是矩阵X_m×m的特征值。因此，在对任何一个矩阵A进行PCA特征降维时，首先要将其转换为对称矩阵X，一般采用计算该矩阵的协方差矩阵；然后再计算矩阵X的特征值和特征向量，构成特征矩阵Λ和正交矩阵Q；最后通过如下矩阵变换：将向量化矩阵从高维空间映射到低维空间，从而实现矩阵降维。

广义相加模型(Generalized additive model，GAM)，GAM模型的基本表达形式如下：

式中：E(Y)表示因变量的期望；g(·)连接函数且二阶可导；α₀为截距或常数项；x_i表示自变量，s_i(·)为平滑函数。GAM模型中，因变量Y服从指数族的任意分布，例如正态分布、泊松分布、二项分布、伽玛分布等都属于指数族。

梯度提升决策树(Gradient Boosting Decision Tree，GBDT)，GBDT是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终结果，它是决策树与Boosting方法相结合的应用，具有较强的泛化能力和发现多种有区分性的特征以及特征组合天然优势。

参照图1所示，本发明的实施例提供一种贷款客户信用评分方法，包括如下步骤：

101、获取样本客户的至少一个类别的客户信息，客户信息的类别包括：客户基本信息、客户资产负债信息、客户征信信息、客户收支信息、客户社交信息、客户历史行为信息、客户消费信息、客户其他补充信息；其中至少一个类别的客户信息与样本客户的唯一识别码关联。

其中，步骤101中样本客户的各类别的客户信息可以直接在银行的内部数据系统或数据库中提取，其中样本客户的唯一识别码可以为用户ID例如：用户账号或者用户身份证信息，在步骤101中对8个维度的客户信息提取后，与作为主键的样本客户的唯一识别码拼接关联在一起，并存储于hive文件中。

102、对每个类别的客户信息进行预处理获取采样数据。

其中在步骤102的预处理过程中，具体包括对每个类别的客户信息进行如下处理：

S1、对每个类别的客户信息进行数据清洗。

示例性的，可以采用t％分布法对每个类别的客户信息进行数据清洗，以清洗异常值，例如将按照t％分布法统计的样本分布规律中上下分位点之间的样本保留，将上下分位点之外的样本清除。

S2、对进行数据清洗后的每个类别的客户信息进行空缺值填充。

在步骤S2中可以采用均值或者中位数空缺值填充法对每个类别的客户信息进行空缺值填充。

S3、对进行空缺值填充后的每个类别的客户信息进行数据向量化处理。

在步骤S3中可以采用特征区间比率法对每个类别的客户信息进行数据向量化处理。

S4、对进行数据向量化处理后的每个类别的客户信息进行采样，获取每个类别的客户信息的采样数据。

在步骤S4中可以采用欠采样或过采样方法对每个类别的客户信息进行采样。

其中上述步骤102中的S1-S4可以基于Spark平台，运用Scala语言在Hive中读取各类别的客户信息，并对各类别的客户信息进行如S1-S4的规则的数据挖掘。

103、根据每个类别的客户信息对应的采样数据与样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型。

其中在步骤103的建模过程中，具体包括对每个类别的客户信息进行如下处理：

S1、在每个类别的客户信息对应的采样数据中进行特征选择，选取特征数据。

示例性的，可以采用信息增益IG算法对步骤102预处理后的每个类别的客户信息对应的采样数据进行特征约减，选取特征数据。

S2、对特征数据进行降维处理。

在步骤S2中对特征数据的降维处理可以采用主成分分析法PCA。经过步骤S1和S2可以消除冗余信息。

S3、根据每个类别的客户信息对应的特征数据与样本客户的违约信息采用预定的模型自学习算法建模，生成每个类别的客户信息对应的评分模型。

在对特征数据降维处理后，在步骤S3中可以采用广义加性模型GAM或梯度提升决策树GBDT对每个类别的客户信息对应的特征数据与样本客户的违约信息进行建模，训练得到八个评分模型。其中上述步骤103中的S1-S3可以基于Spark平台，运用Scala语言实现信息增益IG算法和主成分分析法PCA，运用R语言实现广义加性模型GAM、运用Scala语言实现梯度提升决策树GBDT。

104、将每个类别的客户信息对应的评分模型进行模型融合获取信用评分模型。

步骤104中可以采用遗传算法GA将步骤103中生成的八个评分模型进行融合生成信用评分模型。该过程可以基于Spark平台运用Scala语言实现。

105、将待评价客户的客户信息输入信用评分模型，计算待评价客户的违约信息。

在上述方案中，贷款客户信用评分装置首先获取样本客户的至少一个类别的客户信息，所述客户信息的类别包括：客户基本信息、客户资产负债信息、客户征信信息、客户收支信息、客户社交信息、客户历史行为信息、客户消费信息、客户其他补充信息；其中所述至少一个类别的客户信息与所述样本客户的唯一识别码关联；对每个类别的所述客户信息进行预处理获取采样数据；根据所述每个类别的客户信息对应的采样数据与所述样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型；将所述每个类别的客户信息对应的违约风险评价模型进行模型融合获取信用评分模型；将待评价客户的客户信息输入所述信用评分模型，计算所述待评价客户的违约信息。由于该方法能够首先针对每个类别的客户信息在各类别的客户信息的维度进行建模，然后将在多个维度生成的多个评分模型进行融合，生成最终的信用评分模型，提高了能够提高信用评分模型分析的数据维度，提高贷款客户的信用评分结果的准确性。此外，采用广义加性模型GAM或梯度提升决策树GBDT训练评分模型，可以实现克服影响用户个人信用的因素与个人信用评分之间并非线性关系。另外对每个类别的客户信息进行预处理可以提升数据质量，并且通过特征数据选择和特征数据降维可以消除冗余信息，降低计算复杂度并且提高模型的准确性。

参照图2所示，提供一种贷款客户信用评分装置，包括：

输入模块21，用于获取样本客户的至少一个类别的客户信息，所述客户信息的类别包括：客户基本信息、客户资产负债信息、客户征信信息、客户收支信息、客户社交信息、客户历史行为信息、客户消费信息、客户其他补充信息；其中所述至少一个类别的客户信息与所述样本客户的唯一识别码关联；

预处理模块22，用于对所述输入模块21获取的对每个类别的所述客户信息进行预处理获取采样数据；

建模模块23，用于根据所述预处理模块22获取的所述每个类别的客户信息对应的采样数据与所述样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型；

所述建模模块23，还用于将所述每个类别的客户信息对应的评分模型进行模型融合获取信用评分模型；

评分模块24，用于将待评价客户的客户信息输入所述建模模块获取的所述信用评分模型计算所述待评价客户的违约信息。

在一种示例性的方案中，所述预处理模块22具体用于对每个类别的所述客户信息进行数据清洗；对进行数据清洗后的所述每个类别的所述客户信息进行空缺值填充；对进行空缺值填充后的所述每个类别的所述客户信息进行数据向量化处理；对进行数据向量化处理后的每个类别的所述客户信息进行采样，获取每个类别的所述客户信息的采样数据。

在一种示例性的方案中，所述建模模块23，具体用于在每个类别的客户信息对应的采样数据中进行特征选择，选取特征数据；根据所述每个类别的客户信息对应的特征数据与所述样本客户的违约信息采用预定的模型自学习算法建模，生成每个类别的客户信息对应的评分模型。

在一种示例性的方案中，所述建模模块23，还用于对所述特征数据进行降维处理。

在一种示例性的方案中，所述预定的模型自学习算法至少包括以下任意一项：广义加性模型GAM和梯度提升决策树GBDT。

需要说明的是，输入模块21、预处理模块22、建模模块23以及评分模块24可以为单独设立的处理器，也可以集成在控制器的某一个处理器中实现，此外，也可以以程序代码的形式存储于控制器的存储器中，由控制器的某一个处理器调用并执行以上各单元的功能。这里所述的处理器可以是一个中央处理器(Central Processing Unit，CPU)，或者是特定集成电路(Application Specific Integrated Circuit，ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

此外，还提供一种计算可读媒体(或介质)，包括在被执行时进行上述实施例中的方法的操作的计算机可读指令。

另外，还提供一种计算机程序产品，包括上述计算机可读媒体(或介质)。

应理解，在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称:read-only memory，英文简称：ROM)、随机存取存储器(英文全称：random access memory，英文简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种贷款客户信用评分方法，其特征在于，包括：

对每个类别的所述客户信息进行预处理获取采样数据；

将所述每个类别的客户信息对应的评分模型进行模型融合获取信用评分模型；

2.根据权利要求1所述的贷款客户信用评分方法，其特征在于，所述对每个类别的所述客户信息进行预处理获取采样数据，包括：

对每个类别的所述客户信息进行数据清洗；

对进行数据清洗后的所述每个类别的所述客户信息进行空缺值填充；

对进行空缺值填充后的所述每个类别的所述客户信息进行数据向量化处理；

对进行数据向量化处理后的每个类别的所述客户信息进行采样，获取每个类别的所述客户信息的采样数据。

3.根据权利要求1所述的贷款客户信用评分方法，其特征在于，根据所述每个类别的客户信息对应的采样数据与所述样本客户的违约信息进行建模，生成每个类别的客户信息对应的评分模型，包括：

在每个类别的客户信息对应的采样数据中进行特征选择，选取特征数据；

根据所述每个类别的客户信息对应的特征数据与所述样本客户的违约信息采用预定的模型自学习算法建模，生成每个类别的客户信息对应的评分模型。

4.根据权利要求1所述的贷款客户信用评分方法，其特征在于，根据所述每个类别的客户信息对应的特征数据与所述样本客户的违约信息采用预定的模型自学习算法建模之前，还包括：

对所述特征数据进行降维处理。

5.根据权利要求3所述的贷款客户信用评分方法，其特征在于，所述预定的模型自学习算法至少包括以下任意一项：广义加性模型GAM和梯度提升决策树GBDT。

6.一种贷款客户信用评分装置，其特征在于，包括：

评分模块，用于将待评价客户的客户信息输入所述建模模块获取的所述信用评分模型计算所述待评价客户的违约信息。

7.根据权利要求6所述的贷款客户信用评分装置，其特征在于，所述预处理模块具体用于对每个类别的所述客户信息进行数据清洗；对进行数据清洗后的所述每个类别的所述客户信息进行空缺值填充；对进行空缺值填充后的所述每个类别的所述客户信息进行数据向量化处理；对进行数据向量化处理后的每个类别的所述客户信息进行采样，获取每个类别的所述客户信息的采样数据。

8.根据权利要求6所述的贷款客户信用评分装置，其特征在于，所述建模模块，具体用于在每个类别的客户信息对应的采样数据中进行特征选择，选取特征数据；根据所述每个类别的客户信息对应的特征数据与所述样本客户的违约信息采用预定的模型自学习算法建模，生成每个类别的客户信息对应的评分模型。

9.根据权利要求6所述的贷款客户信用评分装置，其特征在于，所述建模模块，还用于对所述特征数据进行降维处理。

10.根据权利要求6所述的贷款客户信用评分装置，其特征在于，所述预定的模型自学习算法至少包括以下任意一项：广义加性模型GAM和梯度提升决策树GBDT。

11.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当被计算机执行时使所述计算机执行如权利要求1至5任一项所述的贷款客户信用评分方法。