CN110991650A - 训练养卡识别模型、识别养卡行为的方法及装置 - Google Patents
训练养卡识别模型、识别养卡行为的方法及装置 Download PDFInfo
- Publication number
- CN110991650A CN110991650A CN201911162068.9A CN201911162068A CN110991650A CN 110991650 A CN110991650 A CN 110991650A CN 201911162068 A CN201911162068 A CN 201911162068A CN 110991650 A CN110991650 A CN 110991650A
- Authority
- CN
- China
- Prior art keywords
- card
- credit card
- account
- training
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Technology Law (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
公开了一种训练养卡识别模型、识别养卡行为的方法及装置。根据被业务方判定为存在养卡行为的第一信用卡账户,构建第一训练样本,第一训练样本包括用于指示第一信用卡账户存在养卡行为的样本标签和至少一个样本特征;根据业务方维护的信用卡账户集合中剔除第一信用卡账户之后集合中存在的第二信用卡账户,构建第二训练样本,第二训练样本包括用于指示第二信用卡账户不存在养卡行为的样本标签和至少一个样本特征;以及基于至少一条第一训练样本和至少一条第二训练样本,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型。由此,可以得到覆盖率和准确率较高的养卡识别模型,并且可以从源头上保证所构建的训练样本的标签数据的有效性。
Description
技术领域
本发明总体说来涉及人工智能领域,更具体地说,涉及一种养卡识别模型的训练方法、用于识别信用卡是否存在养卡行为的方法及装置。
背景技术
养卡,即通过消费或者套现等方式使用一部分信用卡的额度,然后在账单日之后消费(提现)剩余额度,将消费来的钱进行还款,反复操作即可实现账单的还款,但是由于多次消费,所以消费的金额会出现在下一个账单日上,这样配合套现就可以实现无期限的贷款,每月只需要支付部分手续费的一种法律所禁止的行为。这种行为明显属于欺诈行为,是法律所禁止的。
目前主要是采用专家规则来侦测养卡客户。具体是根据业务专家的经验,结合实际发生的风险事件,制定用于侦测养卡客户的业务规则,并将其应用于一段时间的所有交易。业务专家的经验主要来源于领域知识和现有的风险事件的回顾,主要针对已经发生的、比较明显的养卡行为和异常举动,使得基于业务专家经验制定的专家规则的维度简单、阈值较高、覆盖率较低,容易造成养卡客户的漏抓。
发明内容
本发明的示例性实施例旨在克服现有技术中基于专家规则侦测养卡客户时容易造成养卡客户的漏抓的缺陷。
根据本发明的第一个方面,提出了一种养卡识别模型的训练方法,包括:根据被业务方判定为存在养卡行为的第一信用卡账户,构建第一训练样本,所述第一训练样本包括用于指示所述第一信用卡账户存在养卡行为的样本标签和至少一个样本特征;根据所述业务方维护的信用卡账户集合中剔除所述第一信用卡账户之后集合中存在的第二信用卡账户,构建第二训练样本,所述第二训练样本包括用于指示所述第二信用卡账户不存在养卡行为的样本标签和至少一个样本特征;以及基于至少一条所述第一训练样本和至少一条所述第二训练样本,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型。
可选地,构建第一训练样本的步骤包括:根据所述第一信用卡账户被业务方判定存在养卡行为的第一判定日期,获取所述第一信用卡账户在所述第一判定日期之前第一预定时长范围内的账户信息;基于获取的账户信息,确定所述第一信用卡账户的特征;基于用于指示所述第一信用卡账户存在养卡行为的标签和所述特征,构建与所述第一信用卡账户对应的第一训练样本。
可选地,构建第二训练样本的步骤包括:根据一个或多个所述第一信用卡账户被业务方判定存在养卡行为的第一判定日期,确定所述第二信用卡账户的第二判定日期,以使得所述第二判定日期的日期分布情况与所述第一判定日期的日期分布情况一致或基本一致;获取所述第二信用卡账户在所述第二判定日期之前第二预定时长范围内的账户信息;基于获取的账户信息,确定所述第二信用卡账户的特征;基于用于指示所述第二信用卡账户不存在养卡行为的标签和所述特征,构建与所述第二信用卡账户对应的第二训练样本。
可选地,养卡识别模型的训练方法,还包括:针对所述第二判定日期之前第三预定时长范围内发生了交易行为的第二信用卡账户构建第二训练样本;或者剔除所述第二判定日期之前第三预定时长范围内没有发生交易行为的第二信用卡账户所对应的第二训练样本。
可选地,所述账户信息包括以下至少一项:账户交易信息;所述信用卡账户所关联的用户的信用信息。
可选地,所述特征分为交易类特征和信用类特征。
可选地,所述交易类特征包括以下至少一项特征维度:月交易情况、交易商户异常情况、还款后消费情况、账单日到还款日期间的交易模式、交易事件合理情况、交易模式聚集情况,每项特征维度包括一个或多个特征,并且/或者所述信用类特征包括以下至少一项特征维度:贷记卡借贷情况、资产负债情况、个人信用情况,每项特征维度包括一个或多个特征。
可选地,与月交易情相关的特征包括以下至少一项:每月消费金额;每月消费次数;每月取现金额;每月取现次数;每月代付金额;每月代付次数;每月特约交易金额;每月特约交易次数;每月测试交易金额;每月测试交易次数;每月不同交易类型占比;每月交易金额超过预定金额的笔数,其中,所述预定金额为能够被十整除的数值;月均额度使用率;月均额度使用率超过预定阈值的频数。
可选地,与还款后消费情况相关的特征包括以下至少一项:每笔还款前后定时长范围内发生超过预定金额的交易行为的次数;每笔还款前后预定时长范围内交易行为涉及的交易金额与还款金额在预定比例之内的次数;还款后预定时长范围内的额度使用率。
可选地,与账单日到还款日期间的交易模式相关的特征包括以下至少一项:账单日到还款日之间预定时间窗口内发生的预定类型的交易行为涉及的交易金额;账单日到还款日之间预定时间窗口内发生的预定类型的交易行为涉及的交易金额占账单周期内该预定类型的交易行为涉及的交易金额的比例;账单日到还款日之间预定时间窗口内发生的预定类型的交易行为的次数;账单日到还款日之间预定时间窗口内发生的预定类型的交易行为的次数占账单周期内发生该预定类型的交易行为的次数的比例,其中,所述预定类型的交易行为包括以下至少一项:消费行为、取现行为、代付行为、还款行为。
可选地,与交易商户异常情况相关的特征包括以下至少一项:与所述信用卡账户发生交易的商户在所属商户类型上的消费金额偏离度;与所述信用卡账户发生交易的商户每月的交易时间间隔。
可选地,与交易事件合理情况相关的特征包括以下至少一项:预定时长范围内线下交易的地点变化次数;预定时长范围内信用卡账户发生线下交易所使用的终端设备的变化次数。
可选地,与交易模式聚集情况相关的特征包括以下至少一项:针对预定时长范围内的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围内的交易行为进行统计得到的是否存在交易次数多于预定阈值的地点;针对预定时长范围内的交易行为进行统计得到的是否存在交易次数多于预定阈值的终端;针对预定时长范围内交易金额大于预定数值的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围内交易金额大于预定数值的交易行为进行统计得到的内是否存在交易金额大于预定数值的交易次数多于预定阈值的地点;针对预定时长范围内交易金额大于预定数值的交易行为进行统计得到的是否存在交易金额大于预定金额的交易次数多于预定阈值的终端;针对预定时长范围内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的地点;针对预定时长范围内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期。
可选地,与贷记卡借贷情况相关的特征包括以下至少一项:逾期期数超过预定期数的次数;逾期金额超过预定数值的次数;产生逾期的账户个数;产生逾期的金额占应付款金额的比例;呆账次数;冻结次数。
可选地,与资产负债情况相关的特征包括以下至少一项:贷款等级是关注的次数;贷款等级是次级的次数;贷款等级是可疑的次数;贷款等级是损失的次数;欠款金额除以最近批核的信用卡额度的平均值所得到的共债率指标。
可选地,与个人信用情况相关的特征包括以下至少一项:未结清贷款笔数;未结清余额;未销户贷记卡余额;未销户贷记卡已用余额;未销户贷记卡透支余额;违约次数;违约金额;产生违约的贷记卡的最长逾期;产生违约的贷记卡的透支月数;对外担保笔数;对外担保金额;担保本金余额。
可选地,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型的步骤包括:基于所述训练样本的样本标签和交易类特征,训练用于识别信用卡账户是否存在养卡行为的第一养卡识别模型;基于所述训练样本的样本标签和信用类特征,训练用于识别信用卡账户是否存在养卡行为的第二养卡识别模型;将所述第一养卡识别模型和所述第二养卡识别模型一起作为用于识别信用卡账户是否存在养卡行为的养卡识别模型。
可选地,养卡识别模型的训练方法,还包括:为所述第一养卡识别模型赋予第一权重;为所述第二养卡识别模型赋予第二权重,所述第二权重小于所述第一权重。
可选地,养卡识别模型的训练方法,还包括:对所述信用卡账户的特征进行分析,以确定每个所述特征对判断所述信用卡账户是否存在养卡行为的重要性;根据重要性由大到小的顺序,选取一个或多个特征作为样本特征。
可选地,确定每个所述特征对判断所述信用卡账户是否存在养卡行为的重要性的步骤包括:根据所述特征的取值进行分组;针对每个分组,计算该分组中存在养卡行为的信用卡账户个数占信用卡账户集合中所有存在养卡行为的信用卡账户个数的第一比例,以及该分组中不存在养卡行为的信用卡账户个数占信用卡账户集合中所有不存在养卡行为的信用卡账户个数的第二比例;确定所述特征对判断所述信用卡账户是否存在养卡行为的重要性,其中,所述特征的重要性等于所述特征在各个分组下的重要性之和,所述特征在单个分组下的重要性与所述第一比例和所述第二比例之间的差异正相关。
可选地,所述养卡识别模型为梯度提升决策树模型。
可选地,养卡识别模型的训练方法,还包括:获取新的样本数据,并基于新的样本数据对所述养卡识别模型进行增量训练。
根据本发明的第二个方面,提出了一种用于识别信用卡是否存在养卡行为的方法,包括:获取待识别信用卡账户的账户信息;以及基于所述账户信息,使用养卡识别模型识别所述待识别信用卡账户是否存在养卡行为,其中,所述养卡识别模型是根据本发明的第一个方面所述的训练方法训练得到的。
可选地,使用养卡识别模型识别所述待识别信用卡账户是否存在养卡行为的步骤包括:从所述账户信息中抽取一个或多个特征,构建预测样本;将所述预测样本征输入所述养卡识别模型,以得到所述养卡识别模型输出的用于表征所述待识别信用卡账户存在养卡行为的概率的分值。
可选地,该方法还包括:在所述待识别信用卡账户存在超过预定期数的逾期信息的情况下,关联地输出所述待识别信用卡账户是否存在养卡行为的识别结果和所述逾期信息。
根据本发明的第三个方面,提出了一种养卡识别模型的训练装置,包括:第一构建单元,用于根据被业务方判定为存在养卡行为的第一信用卡账户,构建第一训练样本,所述第一训练样本包括用于指示所述第一信用卡账户存在养卡行为的样本标签和至少一个样本特征;第二构建单元,用于根据所述业务方维护的信用卡账户集合中剔除所述第一信用卡账户之后集合中存在的第二信用卡账户,构建第二训练样本,所述第二训练样本包括用于指示所述第二信用卡账户不存在养卡行为的样本标签和至少一个样本特征;以及训练单元,用于基于至少一条所述第一训练样本和至少一条所述第二训练样本,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型。
可选地,所述第一构建单元包括:第一获取单元,用于根据所述第一信用卡账户被业务方判定存在养卡行为的第一判定日期,获取所述第一信用卡账户在所述第一判定日期之前第一预定时长范围内的账户信息;第一确定单元,用于基于获取的账户信息,确定所述第一信用卡账户的特征;第一构建子单元,用于基于用于指示所述第一信用卡账户存在养卡行为的标签和所述特征,构建与所述第一信用卡账户对应的第一训练样本。
可选地,所述第二构建单元包括:判定日期确定单元,用于根据一个或多个所述第一信用卡账户被业务方判定存在养卡行为的第一判定日期,确定所述第二信用卡账户的第二判定日期,以使得所述第二判定日期的日期分布情况与所述第一判定日期的日期分布情况一致或基本一致;第二获取单元,用于获取所述第二信用卡账户在所述第二判定日期之前第二预定时长范围内的账户信息;第二确定单元,用于基于获取的账户信息,确定所述第二信用卡账户的特征;第二构建子单元,用于基于用于指示所述第二信用卡账户不存在养卡行为的标签和所述特征,构建与所述第二信用卡账户对应的第二训练样本。
可选地,所述第二构建子单元针对所述第二判定日期之前第三预定时长范围内发生了交易行为的第二信用卡账户构建第二训练样本;或者该装置还包括剔除单元,用于剔除所述第二判定日期之前第三预定时长范围内没有发生交易行为的第二信用卡账户所对应的第二训练样本。
可选地,所述账户信息包括以下至少一项:账户交易信息;所述信用卡账户所关联的用户的信用信息。
可选地,所述特征分为交易类特征和信用类特征。
可选地,所述交易类特征包括以下至少一项特征维度:月交易情况、交易商户异常情况、还款后消费情况、账单日到还款日期间的交易模式、交易事件合理情况、交易模式聚集情况,每项特征维度包括一个或多个特征,并且/或者所述信用类特征包括以下至少一项特征维度:贷记卡借贷情况、资产负债情况、个人信用情况,每项特征维度包括一个或多个特征。
可选地,与月交易情相关的特征包括以下至少一项:每月消费金额;每月消费次数;每月取现金额;每月取现次数;每月代付金额;每月代付次数;每月特约交易金额;每月特约交易次数;每月测试交易金额;每月测试交易次数;每月不同交易类型占比;每月交易金额超过预定金额的笔数,其中,所述预定金额为能够被十整除的数值;月均额度使用率;月均额度使用率超过预定阈值的频数。
可选地,与还款后消费情况相关的特征包括以下至少一项:每笔还款前后定时长范围内发生超过预定金额的交易行为的次数;每笔还款前后预定时长范围内交易行为涉及的交易金额与还款金额在预定比例之内的次数;还款后预定时长范围内的额度使用率。
可选地,与账单日到还款日期间的交易模式相关的特征包括以下至少一项:账单日到还款日之间预定时间窗口内发生的预定类型的交易行为涉及的交易金额;账单日到还款日之间预定时间窗口内发生的预定类型的交易行为涉及的交易金额占账单周期内该预定类型的交易行为涉及的交易金额的比例;账单日到还款日之间预定时间窗口内发生的预定类型的交易行为的次数;账单日到还款日之间预定时间窗口内发生的预定类型的交易行为的次数占账单周期内发生该预定类型的交易行为的次数的比例,其中,所述预定类型的交易行为包括以下至少一项:消费行为、取现行为、代付行为、还款行为。
可选地,与交易商户异常情况相关的特征包括以下至少一项:与所述信用卡账户发生交易的商户在所属商户类型上的消费金额偏离度;与所述信用卡账户发生交易的商户每月的交易时间间隔。
可选地,与交易事件合理情况相关的特征包括以下至少一项:预定时长范围内线下交易的地点变化次数;预定时长范围内信用卡账户发生线下交易所使用的终端设备的变化次数。
可选地,与交易模式聚集情况相关的特征包括以下至少一项:针对预定时长范围内的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围内的交易行为进行统计得到的是否存在交易次数多于预定阈值的地点;针对预定时长范围内的交易行为进行统计得到的是否存在交易次数多于预定阈值的终端;针对预定时长范围内交易金额大于预定数值的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围内交易金额大于预定数值的交易行为进行统计得到的内是否存在交易金额大于预定数值的交易次数多于预定阈值的地点;针对预定时长范围内交易金额大于预定数值的交易行为进行统计得到的是否存在交易金额大于预定金额的交易次数多于预定阈值的终端;针对预定时长范围内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的地点;针对预定时长范围内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期。
可选地,与贷记卡借贷情况相关的特征包括以下至少一项:逾期期数超过预定期数的次数;逾期金额超过预定数值的次数;产生逾期的账户个数;产生逾期的金额占应付款金额的比例;呆账次数;冻结次数。
可选地,与资产负债情况相关的特征包括以下至少一项:贷款等级是关注的次数;贷款等级是次级的次数;贷款等级是可疑的次数;贷款等级是损失的次数;欠款金额除以最近批核的信用卡额度的平均值所得到的共债率指标。
可选地,与个人信用情况相关的特征包括以下至少一项:未结清贷款笔数;未结清余额;未销户贷记卡余额;未销户贷记卡已用余额;未销户贷记卡透支余额;违约次数;违约金额;产生违约的贷记卡的最长逾期;产生违约的贷记卡的透支月数;对外担保笔数;对外担保金额;担保本金余额。
可选地,所述训练单元包括:第一训练单元,用于基于所述训练样本的样本标签和交易类特征,训练用于识别信用卡账户是否存在养卡行为的第一养卡识别模型;第二训练单元,用于基于所述训练样本的样本标签和信用类特征,训练用于识别信用卡账户是否存在养卡行为的第二养卡识别模型;所述第一养卡识别模型和所述第二养卡识别模型构成用于识别信用卡账户是否存在养卡行为的养卡识别模型。
可选地,养卡识别模型的训练装置,还包括:权重分配单元,用于为所述第一养卡识别模型赋予第一权重,为所述第二养卡识别模型赋予第二权重,所述第二权重小于所述第一权重。
可选地,养卡识别模型的训练装置,还包括:分析单元,用于对所述信用卡账户的特征进行分析,以确定每个所述特征对判断所述信用卡账户是否存在养卡行为的重要性;选取单元,用于根据重要性由大到小的顺序,选取一个或多个特征作为样本特征。
可选地,所述分析单元包括:分组单元,用于根据所述特征的取值进行分组;计算单元,用于针对每个分组,计算该分组中存在养卡行为的信用卡账户个数占信用卡账户集合中所有存在养卡行为的信用卡账户个数的第一比例,以及该分组中不存在养卡行为的信用卡账户个数占信用卡账户集合中所有不存在养卡行为的信用卡账户个数的第二比例;重要性确定单元,用于确定所述特征对判断所述信用卡账户是否存在养卡行为的重要性,其中,所述特征的重要性等于所述特征在各个分组下的重要性之和,所述特征在单个分组下的重要性与所述第一比例和所述第二比例之间的差异正相关。
可选地,所述养卡识别模型为梯度提升决策树模型。
可选地,养卡识别模型的训练装置,还包括:样本数据获取单元,用于获取新的样本数据;所述训练单元还基于新的样本数据对所述养卡识别模型进行增量训练。
根据本发明的第三个方面,提出了一种用于识别信用卡是否存在养卡行为的装置,包括:获取单元,用于获取待识别信用卡账户的账户信息;以及识别单元,用于基于所述账户信息,使用养卡识别模型识别所述待识别信用卡账户是否存在养卡行为,其中,所述养卡识别模型是根据本发明第一个方面所述的训练方法训练得到的。
可选地,所述识别单元包括:抽取单元,用于从所述账户信息中抽取一个或多个特征,构建预测样本;运算单元,用于将所述预测样本征输入所述养卡识别模型,以得到所述养卡识别模型输出的用于表征所述待识别信用卡账户存在养卡行为的概率的分值。
可选地,装置还包括:输出单元,用于在所述待识别信用卡账户存在超过预定期数的逾期信息的情况下,关联地输出所述待识别信用卡账户是否存在养卡行为的识别结果和所述逾期信息。
根据本发明的第五个方面,提出了一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,指令在被至少一个计算装置运行时,促使至少一个计算装置执行如本发明第一个方面或第二个方面述及的方法。
根据本发明的第六个方面,提出了一种存储指令的计算机可读存储介质,其中,当指令被至少一个计算装置运行时,促使至少一个计算装置执行如本发明第一个方面或第二个方面述及的方法。
在根据本发明示例性实施例的训练养卡识别模型、识别养卡行为的方法及装置中,通过构造训练样本,采用机器学习方法对训练样本进行有监督训练,可以得到覆盖率和准确率较高的养卡识别模型,其中训练样本的标签数据是由业务方确认的,如此可以从源头上保证所构建的训练样本的标签数据的有效性。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和优点将变得更加清楚并更容易理解,其中:
图1示出了根据本发明示例性实施例的养卡识别模型的训练方法的流程图;
图2示出了根据本发明示例性实施例的用于识别信用卡是否存在养卡行为的方法的流程图;
图3示出了根据本发明示例性实施例的养卡识别模型的训练装置的结构框图;
图4示出了根据本发明示例性实施例的用于识别信用卡是否存在养卡行为的装置的结构框图。
具体实施方式
为了使本领域技术人员更好地理解本发明,下面结合附图和具体实施方式对本发明的示例性实施例作进一步详细说明。
图1示出了根据本发明示例性实施例的养卡识别模型的训练方法的流程图。图1所示的方法可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图1所示的方法。
参见图1,在步骤S110,根据被业务方判定为存在养卡行为的第一信用卡账户,构建第一训练样本,第一训练样本包括用于指示第一信用卡账户存在养卡行为的样本标签和至少一个样本特征。
第一信用卡账户是指被业务方判定为存在养卡行为的信用卡账户,业务方也即信用卡的发行方,可以是但不限于银行或其他商业机构。第一训练样本的样本标签用于指示第一信用卡账户存在养卡行为,该样本标签可以视为由业务方提供的真实标注结果。因此,第一训练样本可以视为存在养卡行为的“黑样本”。
第一训练样本的样本特征来自于第一信用卡账户的账户信息。也即,可以基于第一信用卡账户的账户信息确定样本特征。其中,关于账户信息、基于账户信息确定样本特征的过程将在下文展开说明,此处暂不赘述。
考虑到养卡行为具有时效性,如果不加时间限制,基于第一信用卡账户在随机时间段内的账户信息确定样本特征,则可能使得从选用的账户信息中抽取出的样本特征无法表征养卡行为,而样本标签又指示存在养卡行为,从而使得所构造的训练样本无法用于模型训练。例如,假设某个第一信用卡账户仅在1月份至3月份存在养卡行为,如果选取该第一信用卡账户在4月份之后的账户信息来得到样本特征,显然得到的样本特征不能反映该信用卡账户的养卡行为,而样本标签又指示存在养卡行为,使得基于该条训练样本训练模型时,会降低所训练的模型的准确度。
为此,本发明引入了第一信用卡账户被业务方判定存在养卡行为的判定日期(为了便于区分,可以称为第一判定日期)。本发明提出,可以获取第一信用卡账户在第一判定日期之前第一预定时长范围内的账户信息,基于获取的账户信息,确定第一信用卡账户的特征。其中第一预定时长范围可以根据实际情况确定,例如可以是第一判定日期之前的两个月、一个季度。
由此,通过引入第一判定日期,基于第一信用卡账户在第一判定日期之前第一预定时长范围内的账户信息,确定第一信用卡账户的特征,并据此构造第一训练样本,使得所构造的第一训练样本中的样本特征能够反映养卡行为,而第一训练样本的样本标签又可以视为针对第一信用卡账户的真实标注结果,因此可以保证第一训练样本的质量。
在步骤S120,根据业务方维护的信用卡账户集合中剔除第一信用卡账户之后集合中存在的第二信用卡账户,构建第二训练样本,第二训练样本包括用于指示第二信用卡账户不存在养卡行为的样本标签和至少一个样本特征。
第二信用卡账户是指业务方维护的信用卡账户集合中剔除第一信用卡账户之后集合中存在的信用卡账户,而第一信用卡账户是指被业务方判定为存在养卡行为的信用卡账户,因此第二信用卡账户是指不存在养卡行为的信用卡账户。第二训练样本可以视为不存在养卡行为的“白样本”。
第二训练样本的样本特征来自于第二信用卡账户的账户信息。也即,可以基于第二信用卡账户的账户信息确定样本特征。其中,关于账户信息、基于账户信息确定样本特征的过程将在下文展开说明,此处暂不赘述。
同样考虑到养卡行为具有时效性,如果不加时间限制,基于第二信用卡账户在随机时间段内的账户信息确定样本特征,则可能使得从选用的账户信息中抽取出的样本特征表征的含义与样本标签所指示的标注结果不一致,即所确定的样本特征可能是用于反映存在养卡行为的特征,而样本标签用于指示不存在养卡行为,进而使得所构造的训练样本无法用于模型训练。例如,假设某个第二信用卡账户在两年前属于养卡账户,但是最近两年表现良好,不属于养卡账户,如果选取该第二信用卡账户两年前的账户信息来得到样本特征,那么所得到的样本特征反映的是存在养卡行为,而样本标签又指示不存在养卡行为,使得基于该条训练样本训练模型时,会降低所训练的模型的准确度。
为此,本发明提出,可以根据一个或多个第一信用卡账户被业务方判定存在养卡行为的第一判定日期,确定第二信用卡账户的判定日期(为了便于区分,可以称为第二判定日期),以使得第二判定日期的日期分布情况与第一判定日期的日期分布情况一致或基本一致。获取第二信用卡账户在第二判定日期之前第二预定时长范围内的账户信息,基于获取的账户信息,确定第二信用卡账户的特征,基于用于指示第二信用卡账户不存在养卡行为的标签和特征,构建与第二信用卡账户对应的第二训练样本。其中第二预定时长范围可以根据实际情况确定,例如可以是第二判定日期之前的两个月。
由此,通过将第二判定日期的日期分布设置为与第一判定日期的日期分布一致或基本一致,并根据第二判定日期之前第二预定时长范围内的账户信息确定第二信用卡账户的特征,并据此构造第二训练样本,使得所构造的第二训练样本中的样本特征反映的是不存在养卡行为的特征,而第一训练样本的样本标签又指示不存在养卡行为,因此可以保证第二训练样本的质量。
业务方一般是根据信用卡账户的交易行为来判断信用卡账户是否存在养卡行为的,因此第一信用卡账户在其被判定为存在养卡行为的第一判定日期之前一般会存在交易行为。而第二信用卡账户的第二判定日期是根据第一判定日期生成的,第二信用卡账户在第二判定日期之前可能存在交易行为,也可能不存在交易行为。如果不存在交易行为,则可能导致第二信用卡账户在第二判定日期之前第二预定时长范围内没有与交易行为相关的账户信息,使得从信息量较少的账户信息中抽取的特征有限,基于有限特征构造的第二训练样本的质量无法得到保证。
为此,本发明提出,在构造第二训练样本时,可以针对第二判定日期之前第三预定时长范围内发生了交易行为的第二信用卡账户构建第二训练样本,也可以在第二训练样本构造完毕后,剔除第二判定日期之前第三预定时长范围内没有发生交易行为的第二信用卡账户所对应的第二训练样本。其中第三预定时长范围可以与第二预定时长范围相同,也可以不同。作为示例,第三预定时长范围可以是指第二判定日期所处的月份,即可以针对第二判定日期当月有动账交易(比如支取、转账等业务)发生的第二信用卡账户构建第二训练样本,也可以剔除第二判定日期当月没有动账交易发生的第二信用卡账户所对应的第二训练样本。
在步骤S130,基于至少一条第一训练样本和至少一条第二训练样本,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型。
如上文所述,第一训练样本可以视为“黑样本”,第二训练样本可以视为“白样本”。基于至少一条黑样本和至少一条白样本,可以使用有监督学习的方式训练养卡识别模型。其中,考虑到大多特征都是连续性特征,养卡识别模型可以是但不限于对连续性变量实用性较好的梯度提升决策树模型,也即可以采用GBDT决策树算法,通过不断拟合之前决策树的残差来找到更佳的决策路径,以得到养卡识别模型。关于养卡识别模型的结构及训练过程本发明不再赘述。
作为示例,可以剔除第一训练样本中存在的误判账户,误判账户也即被业务方错误判定为存在养卡行为的第一信用卡账户。可以根据客户投诉举报,将误判账户从第一训练样本中剔除,并将其添加到第二训练样本中。
至此结合图1就本发明的养卡识别模型的训练方法的基本流程做了详细说明。本发明是根据业务方提供的存在养卡行为的第一信用卡账户,构建第一训练样本(即黑样本),并据此构建第二训练样本(即白样本),如此可以从源头上保证所构建的训练样本的标签数据的有效性。
下面就本发明的养卡识别模型的训练方法涉及的细节做进一步说明。
本发明述及的账户信息可以包括但不限于账户交易信息和/或信用卡账户关联的用户的信用信息。账户交易信息是指基于信用卡账户的交易行为产生的信息,账户交易信息可以从业务方获取。信用卡账户关联的用户的信用信息,也即信用卡账户所属身份证号下的信用信息,可以包括但不限于征信记录,征信记录的涵盖范围可以是身份证号下所有能够查到的征信数据。
基于账户交易信息确定的特征可以称之为交易类特征,基于信用信息确定的特征可以称之为信用类特征。由此,上文述及的训练样本(第一训练样本/第二训练样本)中的特征可以分为交易类特征和信用类特征。
1、交易类特征
交易类特征可以包括但不限于以下至少一项特征维度:月交易情况、交易商户异常情况、还款后消费情况、账单日到还款日期间的交易模式、交易事件合理情况、交易模式聚集情况,每项特征维度包括一个或多个特征。
月交易情况,也即每月交易情况。与月交易情况相关的特征可以包括但不限于以下至少一项:每月消费金额;每月消费次数;每月取现金额;每月取现次数;每月代付金额;每月代付次数;每月特约交易金额,特约交易可以是指与特约商户间的交易;每月特约交易次数;每月测试交易金额;每月测试交易次数;每月不同交易类型占比,其中不同交易类型可以包括但不限于消费、取消、特约交易、测试交易中的一项或多项;每月交易金额超过预定金额的笔数,其中,预定金额为能够被十整除的数值,如可以是但不限于整十、整百、整千;月均额度使用率;月均额度使用率超过预定阈值(如90%、70%、50%)的频数。
交易商户异常情况中的交易商户是指与信用卡账户发生交易的商户,交易商户异常情况反映的是信用卡账户的交易商户是否异常。与交易商户异常情况相关的特征可以包括但不限于以下至少一项:与信用卡账户发生交易的商户在所属商户类型上的消费金额偏离度,其中,消费金额偏离度可以用于表征商户与其他信用卡发生交易的平均交易金额与所属商户类型下的平均交易金额之间的差异,该差异与消费金额偏离度正相关,即差异越大,消费金额偏离度越大,消费金额偏离度大于预定阈值时,可以认为交易商户存在异常,与存在异常的交易商户发生交易行为的信用卡账户存在养卡行为的可能性较大;与信用卡账户发生交易的商户每月的交易时间间隔,根据交易时间间隔可以判断是否有集中在一段时间(如每月的固定日期)的交易属性,例如如果商户每月的交易行为集中发生在固定的几个日期,则可以判定商户存在异常。
还款后消费情况可以用于表征但不限于是否频繁还刷、还款后是否有集中的大笔消费。作为示例,与还款后消费情况相关的特征包括以下至少一项:每笔还款前后定时长范围(如12/24/48小时窗口)内发生超过预定金额(如100或500)的交易行为(如消费、取现)的次数;每笔还款前后预定时长范围内交易行为涉及的交易金额与还款金额在预定比例(如50%、30%、20%)之内的次数;还款后预定时长范围(如5/10天)内的额度使用率。
与账单日到还款日期间的交易模式相关的特征可以包括但不限于以下至少一项:账单日到还款日之间预定时间窗口(如头10天、后10天)内发生的预定类型的交易行为涉及的交易金额;账单日到还款日之间预定时间窗口(如头10天、后10天)内发生的预定类型的交易行为涉及的交易金额占账单周期内该预定类型的交易行为涉及的交易金额的比例;账单日到还款日之间预定时间窗口(如头10天、后10天)内发生的预定类型的交易行为的次数;账单日到还款日之间预定时间窗口(如头10天、后10天)内发生的预定类型的交易行为的次数占账单周期内发生该预定类型的交易行为的次数的比例。其中,预定类型的交易行为可以包括但不限于以下至少一项:消费行为、取现行为、代付行为、还款行为。
交易事件合理情况用于表征交易事件是否合理。与交易事件合理情况相关的特征可以包括但不限于以下至少一项:预定时长范围内线下交易的地点变化次数,线下交易主要是指POS输入模式,即通过接触式或非接触式在现场读取信用卡的磁条/芯片或在现场手动输入的交易方式,例如可以统计半小时内、半小时至1小时内、1小时至2小时内、2小时内至6小时内、6小时至12小时内的省份、城市、国家变化次数;预定时长范围内信用卡账户发生线下交易所使用的终端设备(如POS机)的变化次数,例如可以统计线下交易2min/5min/10min内线下交易所使用的终端号的变化次数。
与交易模式聚集情况相关的特征可以包括但不限于以下至少一项:针对预定时长范围(如过去一周/半个月/1个月/1季度)内的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围(如过去一周/半个月/1个月/1季度)内的交易行为进行统计得到的是否存在交易次数多于预定阈值的地点;针对预定时长范围(如过去一周/半个月/1个月/1季度)内的交易行为进行统计得到的是否存在交易次数多于预定阈值的终端,这里述及的终端可以是指信用卡账户发生线下交易所使用的终端设备,例如POS机;针对预定时长范围(如过去一周/半个月/1个月/1季度)内交易金额大于预定数值(如100/500)的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围(如过去一周/半个月/1个月/1季度)内交易金额大于预定数值(如100/500)的交易行为进行统计得到的内是否存在交易金额大于预定数值的交易次数多于预定阈值的地点;针对预定时长范围(如过去一周/半个月/1个月/1季度)内交易金额大于预定数值(如100/500)的交易行为进行统计得到的是否存在交易金额大于预定金额的交易次数多于预定阈值的终端;针对预定时长范围(如过去一周/半个月/1个月/1季度)内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期;针对预定时长范围(如过去一周/半个月/1个月/1季度)内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的地点;针对预定时长范围(如过去一周/半个月/1个月/1季度)内去除热点交易行为后的交易行为进行统计得到的是否存在交易次数多于预定阈值的日期。其中,热点交易行为可以是指通过统计得到的频数大于预定阈值(如10000)的交易行为。
2、信用类特征
信用类特征可以包括但不限于以下至少一项特征维度:贷记卡借贷情况、资产负债情况、个人信用情况,每项特征维度包括一个或多个特征。
贷记卡借贷情况是指信用卡账户所关联的用户的身份下所注册的贷记卡的借贷情况。与贷记卡借贷情况相关的特征可以包括但不限于以下至少一项:逾期期数超过预定期数的次数;逾期金额超过预定数值的次数;产生逾期的账户个数;产生逾期的金额占应付款金额的比例;呆账次数;冻结次数。
逾期期数是指自应还日次日起到实还日期间的日期数。可以用“M+数字”来表示具体的逾期期数,例如M1表示逾期一期,即逾期1-29天,M2表示逾期两期,即逾期30-59天。预定期数可以是但不限于1期、2期、3期及以上。
呆账是指已过偿付期限,经催讨尚不能收回,长期处于呆滞状态,有可能成为坏账的应收款项。呆账次数是指被发放贷记卡的银行方判定为呆账的次数。冻结次数是指被发放贷记卡的银行方冻结贷记卡的次数。
资产负债情况用于表征信用卡账户所关联的用户的身份下的资产负债情况。与资产负债情况相关的特征可以包括但不限于以下至少一项:贷款等级是关注的次数;贷款等级是次级的次数;贷款等级是可疑的次数;贷款等级是损失的次数;欠款金额除以最近批核的信用卡额度的平均值所得到的共债率指标。其中,贷款等级是指依据借款人的实际还款能力进行贷款质量的五级分类,即按风险程度将贷款划分为五类:正常、关注、次级、可疑、损失。共债率指标可以用于描述一个人的资产负债情况。
与个人信用情况相关的特征可以包括但不限于以下至少一项:未结清贷款笔数;未结清余额;未销户贷记卡余额;未销户贷记卡已用余额;未销户贷记卡透支余额;违约次数;违约金额;产生违约的贷记卡的最长逾期;产生违约的贷记卡的透支月数;对外担保笔数;对外担保金额;担保本金余额。
本发明可以对信用卡账户的账户信息进行特征抽取,以得到上述一种或多种特征。在特征抽取之后,可以对所得到的信用卡账户的特征进行分析,以确定每个特征对判断信用卡账户是否存在养卡行为的重要性,并根据重要性由大到小的顺序,选取一个或多个特征作为样本特征。
本发明可以通过多种方式分析特征的重要性。作为示例,可以根据特征的取值进行分组;针对每个分组,计算该分组中存在养卡行为的信用卡账户个数占信用卡账户集合中所有存在养卡行为的信用卡账户个数的第一比例,以及该分组中不存在养卡行为的信用卡账户个数占信用卡账户集合中所有不存在养卡行为的信用卡账户个数的第二比例;确定特征对判断信用卡账户是否存在养卡行为的重要性,其中,特征的重要性等于特征在各个分组下的重要性之和,特征在单个分组下的重要性与第一比例和第二比例之间的差异正相关。
以“每月消费金额”这一特征为例,可以按照如下取值区间对该特征进行分组,其中每组中存在养卡行为的信用卡账户个数以及不存在养卡行为的信用卡账户个数的分布情况如下表所示。
每月消费金额(元) | 存在养卡行为 | 不存在养卡行为 |
<1000 | 2500 | 47500 |
[1000,2500] | 3000 | 27000 |
[2500,5000] | 3000 | 12000 |
>5000 | 1500 | 3500 |
在本实施例中,可以通过如下公式计算第i个分组的重要性IVi,
其中,#yi表示第i个分组中存在养卡行为的信用卡账户个数,#yt表示信用卡账户集合中所有存在养卡行为的信用卡账户个数,#yi/#yt表示第一比例,#ni表示第i个分组中不存在养卡行为的信用卡账户个数,#nt表示信用卡账户集合中所有不存在养卡行为的信用卡账户个数。以上表为例,信用卡账户集合包括100000个信用卡账户,#yt为10000,#nt为90000。利用上述公式对每月消费金额在各个分组下的重要性进行计算的具体过程不再赘述。
在得到由样本标签、交易类特征以及信用类特征构成的训练样本后,本发明可以将交易类特征和信用类特征分开训练,以分别得到基于交易类特征训练而成的第一养卡识别模型和基于信用类特征训练而成的第二养卡识别模型。
具体来说,可以基于训练样本的样本标签和交易类特征,训练用于识别信用卡账户是否存在养卡行为的第一养卡识别模型,基于训练样本的样本标签和信用类特征,训练用于识别信用卡账户是否存在养卡行为的第二养卡识别模型,将第一养卡识别模型和第二养卡识别模型一起作为最终用于识别信用卡账户是否存在养卡行为的养卡识别模型。其中,训练样本也即上文述及的第一训练样本、第二训练样本。
考虑到信用卡账户的账户交易信息可以被业务方直观观测到,而信用卡账户所关联的用户的信用信息虽然对判断是否存在养卡行为也具有参考价值,但是不够直观。为此本发明可以为第一养卡识别模型赋予第一权重,为第二养卡识别模型赋予第二权重,第二权重小于第一权重。例如,第一权重可以是70%,第二权重可以是30%。
在判断待识别信用卡账户是否存在养卡行为时,可以通过加权平均的方式将利用第一养卡识别模型得到的交易打分和利用第二养卡识别模型得到的征信打分组合起来,作为最后的综合打分,并根据综合打分判断待识别信用卡账户是否存在养卡行为。
本发明还可以周期性地获取新的样本数据,并基于新的样本数据对养卡识别模型进行增量训练,以得到包含新样本的养卡识别模型。由此可以保证养卡识别模型的不断更新迭代。其中,新的样本数据可以是基于业务方提供的每月新增的被判定为存在养卡行为的信用卡账户所构建的训练样本。
综上,传统的专家规则通常是一些有限维度特征的简单组合,挖掘出来的规则基本没有变化,而现实情况是变量因素很多且复杂度较高,通过肉眼比对观测无法得出有效的规则体系,因而大数据场景下机器学习的方式就显得尤为有效。本发明提出了一种基于机器学习的方法对大量样本进行有监督训练,同时对账户交易信息、信用信息衍生出大量的特征字段,最后训练得到养卡识别模型,用已训练好的养卡识别模型即可对新的待测试数据进行预估打分输出其养卡概率。
图2示出了根据本发明示例性实施例的用于识别信用卡是否存在养卡行为的方法的流程图。图2所示的方法可完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图2所示的方法。
参见图2,在步骤S210,获取待识别信用卡账户的账户信息。
待识别信用卡账户,是指待判断是否存在养卡行为的信用卡账户。账户信息可以是待识别信用卡账户在识别之前预定时长范围内的账户信息。账户信息可以包括但不限于以下至少一项:账户交易信息;信用卡账户所关联的用户的信用信息。关于账户交易信息、信用信息可以参见上文相关描述,此处不再赘述。
在步骤S220,基于账户信息,使用养卡识别模型识别待识别信用卡账户是否存在养卡行为。养卡识别模型可以是根据本发明的养卡识别模型的训练方法训练得到的。关于养卡识别模型及其训练过程可以参见上文相关描述,此处不再赘述。
作为示例,可以从待识别信用卡账户的账户信息中抽取一个或多个特征,构建预测样本,将预测样本征输入养卡识别模型,以得到养卡识别模型输出的用于表征待识别信用卡账户存在养卡行为的概率的分值。
以养卡识别模型由上文述及的第一养卡识别模型和第二养卡识别模型组成为例,所获取的待识别信用卡账户的账户信息可以包括账户交易信息和信用信息。可以从账户交易信息中抽取一个或多个交易类特征,构建由交易类特征组成的第一预测样本,将第一预测样本输入第一养卡识别模型,以得到第一养卡识别模型输出的用于表征待识别信用卡账户存在养卡行为的概率的第一分值。从信用信息中抽取一个或多个信用类特征,构建由信用类特征构成的第二预测样本,将第二预测样本输入第二养卡识别模型,以得到第二养卡识别模型输出的用于表征待识别信用卡账户存在养卡行为的概率的第二分值。然后基于第一养卡识别模型的第一权重、第二养卡识别模型的第二权重,对第一分值和第二分值进行加权求和,将加权求和结果作为最终用于表征待识别信用卡账户存在养卡行为的概率的分值。
在使用养卡识别模型对待识别信用卡账户是否存在养卡行为进行识别后,除了输出待识别信用卡账户是否存在养卡行为的识别结果,还可以关联地输出信用卡账户的逾期信息。此处述及的逾期信息可以是指信用卡账户在过去预定时长范围(如过去半年)内是否发生逾期的信息。其中,考虑到M1逾期可能是因为客户忘记还款日期造成的,M2逾期天数较短,M3逾期的话就大概率是恶意不还款了。因此可选地,可以在待识别信用卡账户存在超过预定期数(如M3)的逾期信息的情况下,关联地输出待识别信用卡账户是否存在养卡行为的识别结果和逾期信息。
图3是示出了根据本发明示例性实施例的养卡识别模型的训练装置的结构框图。其中,养卡识别模型的训练装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图3所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就养卡识别模型的训练装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文结合图1的描述,这里不再赘述。
参见图3,养卡识别模型的训练装置300包括第一构建单元310、第二构建单元320以及训练单元330。
第一构建单元310用于根据被业务方判定为存在养卡行为的第一信用卡账户,构建第一训练样本,第一训练样本包括用于指示第一信用卡账户存在养卡行为的样本标签和至少一个样本特征。
第一构建单元310可以包括第一获取单元、第一确定单元以及第一构建子单元。第一获取单元用于根据第一信用卡账户被业务方判定存在养卡行为的第一判定日期,获取第一信用卡账户在第一判定日期之前第一预定时长范围内的账户信息;第一确定单元用于基于获取的账户信息,确定第一信用卡账户的特征;第一构建子单元用于基于用于指示第一信用卡账户存在养卡行为的标签和特征,构建与第一信用卡账户对应的第一训练样本。
第二构建单元320用于根据所述业务方维护的信用卡账户集合中剔除所述第一信用卡账户之后集合中存在的第二信用卡账户,构建第二训练样本,所述第二训练样本包括用于指示所述第二信用卡账户不存在养卡行为的样本标签和至少一个样本特征。
第二构建单元320可以包括判定日期确定单元、第二获取单元、第二确定单元以及第二构建子单元。判定日期确定单元用于根据一个或多个所述第一信用卡账户被业务方判定存在养卡行为的第一判定日期,确定所述第二信用卡账户的第二判定日期,以使得所述第二判定日期的日期分布情况与所述第一判定日期的日期分布情况一致或基本一致;第二获取单元用于获取所述第二信用卡账户在所述第二判定日期之前第二预定时长范围内的账户信息;第二确定单元用于基于获取的账户信息,确定所述第二信用卡账户的特征;第二构建子单元用于基于用于指示所述第二信用卡账户不存在养卡行为的标签和所述特征,构建与所述第二信用卡账户对应的第二训练样本。
第二构建子单元可以针对所述第二判定日期之前第三预定时长范围内发生了交易行为的第二信用卡账户构建第二训练样本;或者训练装置300还可以包括剔除单元,用于剔除所述第二判定日期之前第三预定时长范围内没有发生交易行为的第二信用卡账户所对应的第二训练样本。
账户信息可以包括账户交易信息和/或所述信用卡账户所关联的用户的信用信息。特征可以分为交易类特征和信用类特征。关于交易类特征、信用类特征可以包括的特征维度以及每个特征维度下具体可以包括的特征种类,可以参见上文相关描述,此处不再赘述。
训练单元330用于基于至少一条所述第一训练样本和至少一条所述第二训练样本,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型。
训练单元330可以包括第一训练单元和第二训练单元。第一训练单元用于基于所述训练样本的样本标签和交易类特征,训练用于识别信用卡账户是否存在养卡行为的第一养卡识别模型;第二训练单元用于基于所述训练样本的样本标签和信用类特征,训练用于识别信用卡账户是否存在养卡行为的第二养卡识别模型;所述第一养卡识别模型和所述第二养卡识别模型构成用于识别信用卡账户是否存在养卡行为的养卡识别模型。
养卡识别模型的训练装置300还可以包括权重分配单元,用于为所述第一养卡识别模型赋予第一权重,为所述第二养卡识别模型赋予第二权重,所述第二权重小于所述第一权重。
养卡识别模型的训练装置300还可以包括分析单元和选取单元。分析单元用于对所述信用卡账户的特征进行分析,以确定每个所述特征对判断所述信用卡账户是否存在养卡行为的重要性;选取单元用于根据重要性由大到小的顺序,选取一个或多个特征作为样本特征。
分析单元可以包括分组单元、计算单元以及重要性确定单元。分组单元用于根据所述特征的取值进行分组;计算单元用于针对每个分组,计算该分组中存在养卡行为的信用卡账户个数占信用卡账户集合中所有存在养卡行为的信用卡账户个数的第一比例,以及该分组中不存在养卡行为的信用卡账户个数占信用卡账户集合中所有不存在养卡行为的信用卡账户个数的第二比例;重要性确定单元用于确定所述特征对判断所述信用卡账户是否存在养卡行为的重要性,其中,所述特征的重要性等于所述特征在各个分组下的重要性之和,所述特征在单个分组下的重要性与所述第一比例和所述第二比例之间的差异正相关。
养卡识别模型的训练装置300还可以包括样本数据获取单元,用于获取新的样本数据,此时所述训练单元330还基于新的样本数据对所述养卡识别模型进行增量训练。
应该理解,根据本发明示例性实施例的养卡识别模型的训练装置300的具体实现方式可参照上文结合图1针对养卡识别模型的训练方法的相关描述来实现,在此不再赘述。
图4是示出了根据本发明示例性实施例的用于识别信用卡是否存在养卡行为的装置的结构框图。其中,用于识别信用卡是否存在养卡行为的装置的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图4所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
下面就用于识别信用卡是否存在养卡行为的装置可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文结合图2的描述,这里不再赘述。
参见图4,用于识别信用卡是否存在养卡行为的装置400包括获取单元410和识别单元420。
获取单元410用于获取待识别信用卡账户的账户信息;以及
识别单元420用于基于所述账户信息,使用养卡识别模型识别所述待识别信用卡账户是否存在养卡行为,其中,所述养卡识别模型可以是根据本发明的养卡识别模型的训练方法训练得到的。
识别单元420可以包括抽取单元和运算单元。抽取单元用于从所述账户信息中抽取一个或多个特征,构建预测样本;运算单元用于将所述预测样本征输入所述养卡识别模型,以得到所述养卡识别模型输出的用于表征所述待识别信用卡账户存在养卡行为的概率的分值。
用于识别信用卡是否存在养卡行为的装置400还可以包括输出单元,用于在所述待识别信用卡账户存在超过预定期数的逾期信息的情况下,关联地输出所述待识别信用卡账户是否存在养卡行为的识别结果和所述逾期信息。
应该理解,根据本发明示例性实施例的用于识别信用卡是否存在养卡行为的装置400的具体实现方式可参照上文结合图2针对用于识别信用卡是否存在养卡行为的方法的相关描述来实现,在此不再赘述。
以上参照图1到图4描述了根据本发明示例性实施例的养卡识别模型的训练方法、用于识别信用卡是否存在养卡行为的方法及装置。应理解,上述方法可通过记录在计算可读介质上的程序来实现,例如,根据本发明的示例性实施例,可提供一种存储指令的计算机可读存储介质,其中,在所述计算机可读介质上记录有用于执行本发明的养卡识别模型的训练方法(例如图1所示)或用于识别信用卡是否存在养卡行为的方法(例如图2所示)的计算机程序。
上述计算机可读介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序除了可用于执行除了图1或图2示出的步骤之外,还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理,这些附加步骤和进一步处理的内容已经参照图1、图2进行了描述,这里为了避免重复将不再进行赘述。
应注意,根据本发明示例性实施例的养卡识别模型的训练装置和用于识别信用卡是否存在养卡行为的装置,可完全依赖计算机程序的运行来实现相应的功能,即,各个装置与计算机程序的功能架构中与各步骤相应,使得整个装置通过专门的软件包(例如,lib库)而被调用,以实现相应的功能。
另一方面,图3、图4所示的各个装置也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时,用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中,使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。
例如,本发明的示例性实施例还可以实现为计算装置,该计算装置包括存储部件和处理器,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行养卡识别模型的训练方法或用于识别信用卡是否存在养卡行为的方法。
具体说来,所述计算装置可以部署在服务器或客户端中,也可以部署在分布式网络环境中的节点装置上。此外,所述计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。
这里,所述计算装置并非必须是单个的计算装置,还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分,或者可被配置为与本地或远程(例如,经由无线传输)以接口互联的便携式电子装置。
在所述计算装置中,处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制,处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。
根据本发明示例性实施例的养卡识别模型的训练方法或用于识别信用卡是否存在养卡行为的方法中所描述的某些操作可通过软件方式来实现,某些操作可通过硬件方式来实现,此外,还可通过软硬件结合的方式来实现这些操作。
处理器可运行存储在存储部件之一中的指令或代码,其中,所述存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收,其中,所述网络接口装置可采用任何已知的传输协议。
存储部件可与处理器集成为一体,例如,将RAM或闪存布置在集成电路微处理器等之内。此外,存储部件可包括独立的装置,诸如,外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合,或者可例如通过I/O端口、网络连接等互相通信,使得处理器能够读取存储在存储部件中的文件。
此外,所述计算装置还可包括视频显示器(诸如,液晶显示器)和用户交互接口(诸如,键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。
根据本发明示例性实施例的养卡识别模型的训练方法或用于识别信用卡是否存在养卡行为的方法所涉及的操作可被描述为各种互联或耦合的功能块或功能示图。然而,这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。
例如,如上所述,根据本发明示例性实施例的养卡识别模型的训练装置或用于识别信用卡是否存在养卡行为的装置可包括存储部件和处理器,其中,存储部件中存储有计算机可执行指令集合,当所述计算机可执行指令集合被所述处理器执行时,执行上文述及的养卡识别模型的训练方法或用于识别信用卡是否存在养卡行为的方法。
以上描述了本发明的各示例性实施例,应理解,上述描述仅是示例性的,并非穷尽性的,本发明不限于所披露的各示例性实施例。在不偏离本发明的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此,本发明的保护范围应该以权利要求的范围为准。
Claims (10)
1.一种养卡识别模型的训练方法,包括:
根据被业务方判定为存在养卡行为的第一信用卡账户,构建第一训练样本,所述第一训练样本包括用于指示所述第一信用卡账户存在养卡行为的样本标签和至少一个样本特征;
根据所述业务方维护的信用卡账户集合中剔除所述第一信用卡账户之后集合中存在的第二信用卡账户,构建第二训练样本,所述第二训练样本包括用于指示所述第二信用卡账户不存在养卡行为的样本标签和至少一个样本特征;以及
基于至少一条所述第一训练样本和至少一条所述第二训练样本,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型。
2.根据权利要求1所述的养卡识别模型的训练方法,其中,构建第一训练样本的步骤包括:
根据所述第一信用卡账户被业务方判定存在养卡行为的第一判定日期,获取所述第一信用卡账户在所述第一判定日期之前第一预定时长范围内的账户信息;
基于获取的账户信息,确定所述第一信用卡账户的特征;
基于用于指示所述第一信用卡账户存在养卡行为的标签和所述特征,构建与所述第一信用卡账户对应的第一训练样本。
3.根据权利要求1所述的养卡识别模型的训练方法,其中,构建第二训练样本的步骤包括:
根据一个或多个所述第一信用卡账户被业务方判定存在养卡行为的第一判定日期,确定所述第二信用卡账户的第二判定日期,以使得所述第二判定日期的日期分布情况与所述第一判定日期的日期分布情况一致或基本一致;
获取所述第二信用卡账户在所述第二判定日期之前第二预定时长范围内的账户信息;
基于获取的账户信息,确定所述第二信用卡账户的特征;
基于用于指示所述第二信用卡账户不存在养卡行为的标签和所述特征,构建与所述第二信用卡账户对应的第二训练样本。
4.根据权利要求3所述的养卡识别模型的训练方法,还包括:
针对所述第二判定日期之前第三预定时长范围内发生了交易行为的第二信用卡账户构建第二训练样本;或者
剔除所述第二判定日期之前第三预定时长范围内没有发生交易行为的第二信用卡账户所对应的第二训练样本。
5.根据权利要求2或3所述的养卡识别模型的训练方法,其中,所述账户信息包括以下至少一项:
账户交易信息;
所述信用卡账户所关联的用户的信用信息。
6.一种用于识别信用卡是否存在养卡行为的方法,包括:
获取待识别信用卡账户的账户信息;以及
基于所述账户信息,使用养卡识别模型识别所述待识别信用卡账户是否存在养卡行为,其中,所述养卡识别模型是根据权利要求1至5中的任一权利要求所述的训练方法训练得到的。
7.一种养卡识别模型的训练装置,包括:
第一构建单元,用于根据被业务方判定为存在养卡行为的第一信用卡账户,构建第一训练样本,所述第一训练样本包括用于指示所述第一信用卡账户存在养卡行为的样本标签和至少一个样本特征;
第二构建单元,用于根据所述业务方维护的信用卡账户集合中剔除所述第一信用卡账户之后集合中存在的第二信用卡账户,构建第二训练样本,所述第二训练样本包括用于指示所述第二信用卡账户不存在养卡行为的样本标签和至少一个样本特征;以及
训练单元,用于基于至少一条所述第一训练样本和至少一条所述第二训练样本,训练用于识别信用卡账户是否存在养卡行为的养卡识别模型。
8.一种用于识别信用卡是否存在养卡行为的装置,包括:
获取单元,用于获取待识别信用卡账户的账户信息;以及
识别单元,用于基于所述账户信息,使用养卡识别模型识别所述待识别信用卡账户是否存在养卡行为,其中,所述养卡识别模型是根据权利要求1至5中的任一权利要求所述的训练方法训练得到的。
9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统,其中,所述指令在被所述至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。
10.一种存储指令的计算机可读存储介质,其中,当所述指令被至少一个计算装置运行时,促使所述至少一个计算装置执行如权利要求1到6中的任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911162068.9A CN110991650A (zh) | 2019-11-25 | 2019-11-25 | 训练养卡识别模型、识别养卡行为的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911162068.9A CN110991650A (zh) | 2019-11-25 | 2019-11-25 | 训练养卡识别模型、识别养卡行为的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110991650A true CN110991650A (zh) | 2020-04-10 |
Family
ID=70086343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911162068.9A Pending CN110991650A (zh) | 2019-11-25 | 2019-11-25 | 训练养卡识别模型、识别养卡行为的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991650A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507829A (zh) * | 2020-04-22 | 2020-08-07 | 广州东百信息科技有限公司 | 境外信用卡风控模型迭代方法、装置、设备以及存储介质 |
CN111754337A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种信用卡养卡套现团体识别的方法及系统 |
CN115545088A (zh) * | 2022-02-22 | 2022-12-30 | 北京百度网讯科技有限公司 | 模型构建方法、分类方法、装置和电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636912A (zh) * | 2015-02-13 | 2015-05-20 | 银联智惠信息服务(上海)有限公司 | 信用卡套现识别方法和装置 |
CN107103171A (zh) * | 2016-02-19 | 2017-08-29 | 阿里巴巴集团控股有限公司 | 机器学习模型的建模方法及装置 |
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
CN109034209A (zh) * | 2018-07-03 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 主动风险实时识别模型的训练方法和装置 |
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
CN109978033A (zh) * | 2019-03-15 | 2019-07-05 | 第四范式(北京)技术有限公司 | 同操作人识别模型的构建与同操作人识别的方法和装置 |
CN110009174A (zh) * | 2018-12-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 风险识别模型训练方法、装置及服务器 |
CN110046200A (zh) * | 2018-11-07 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 文本可信模型分析方法、设备和装置 |
-
2019
- 2019-11-25 CN CN201911162068.9A patent/CN110991650A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636912A (zh) * | 2015-02-13 | 2015-05-20 | 银联智惠信息服务(上海)有限公司 | 信用卡套现识别方法和装置 |
CN107103171A (zh) * | 2016-02-19 | 2017-08-29 | 阿里巴巴集团控股有限公司 | 机器学习模型的建模方法及装置 |
CN108389125A (zh) * | 2018-02-27 | 2018-08-10 | 挖财网络技术有限公司 | 信贷申请的逾期风险预测方法及装置 |
CN109034209A (zh) * | 2018-07-03 | 2018-12-18 | 阿里巴巴集团控股有限公司 | 主动风险实时识别模型的训练方法和装置 |
CN110046200A (zh) * | 2018-11-07 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 文本可信模型分析方法、设备和装置 |
CN110009174A (zh) * | 2018-12-13 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 风险识别模型训练方法、装置及服务器 |
CN109460795A (zh) * | 2018-12-17 | 2019-03-12 | 北京三快在线科技有限公司 | 分类器训练方法、装置、电子设备及计算机可读介质 |
CN109978033A (zh) * | 2019-03-15 | 2019-07-05 | 第四范式(北京)技术有限公司 | 同操作人识别模型的构建与同操作人识别的方法和装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507829A (zh) * | 2020-04-22 | 2020-08-07 | 广州东百信息科技有限公司 | 境外信用卡风控模型迭代方法、装置、设备以及存储介质 |
CN111754337A (zh) * | 2020-06-30 | 2020-10-09 | 上海观安信息技术股份有限公司 | 一种信用卡养卡套现团体识别的方法及系统 |
CN111754337B (zh) * | 2020-06-30 | 2024-02-23 | 上海观安信息技术股份有限公司 | 一种信用卡养卡套现团体识别的方法及系统 |
CN115545088A (zh) * | 2022-02-22 | 2022-12-30 | 北京百度网讯科技有限公司 | 模型构建方法、分类方法、装置和电子设备 |
CN115545088B (zh) * | 2022-02-22 | 2023-10-24 | 北京百度网讯科技有限公司 | 模型构建方法、分类方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967779B (zh) | 一种风险评估方法、装置及设备 | |
US20160364727A1 (en) | System and method for identifying compromised accounts | |
US20090070289A1 (en) | Methods, Systems, and Computer Program Products for Estimating Accuracy of Linking of Customer Relationships | |
CN110895758B (zh) | 存在作弊交易的信用卡账户的筛选方法、装置及系统 | |
CN110648214A (zh) | 一种确定异常账户的方法及装置 | |
CN109493086B (zh) | 一种确定违规商户的方法及装置 | |
CN113989019A (zh) | 识别风险的方法、装置、设备及存储介质 | |
CN110991650A (zh) | 训练养卡识别模型、识别养卡行为的方法及装置 | |
CN110659961A (zh) | 一种用于识别线下商户的方法和装置 | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
CN112581271B (zh) | 一种商户交易风险监测方法、装置、设备及存储介质 | |
CN110675078A (zh) | 上市公司风险诊断方法、系统、计算机终端及存储介质 | |
CN112819476A (zh) | 风险识别方法、装置、非易失性存储介质和处理器 | |
CN112884480A (zh) | 异常交易识别模型的构造方法、装置、计算机设备和介质 | |
CN110942312A (zh) | 一种pos机套现识别方法、系统、设备及存储介质 | |
CN113159924A (zh) | 授信客户对象的确定方法及装置 | |
CN117350854A (zh) | 资金追踪方法、装置、电子设备和存储介质 | |
CN111242763A (zh) | 一种目标用户群的确定方法及装置 | |
CN116630020A (zh) | 风险评估方法、装置、存储介质及电子设备 | |
CN110570301B (zh) | 风险识别方法、装置、设备及介质 | |
CN116308370A (zh) | 异常交易识别模型的训练方法、异常交易识别方法及装置 | |
CN114626863A (zh) | 出口骗税企业的检测方法、装置、设备及存储介质 | |
Kang | Fraud Detection in Mobile Money Transactions Using Machine Learning | |
CN114880369A (zh) | 一种基于弱数据技术的风险授信方法和系统 | |
CN113052604A (zh) | 一种对象检测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |