CN117196630A - 交易风险预测方法、装置、终端设备以及存储介质 - Google Patents
交易风险预测方法、装置、终端设备以及存储介质 Download PDFInfo
- Publication number
- CN117196630A CN117196630A CN202310949724.XA CN202310949724A CN117196630A CN 117196630 A CN117196630 A CN 117196630A CN 202310949724 A CN202310949724 A CN 202310949724A CN 117196630 A CN117196630 A CN 117196630A
- Authority
- CN
- China
- Prior art keywords
- data
- transaction
- risk prediction
- transaction risk
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013058 risk prediction model Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 68
- 238000012549 training Methods 0.000 claims description 92
- 238000012795 verification Methods 0.000 claims description 70
- 238000010801 machine learning Methods 0.000 claims description 26
- 238000004422 calculation algorithm Methods 0.000 claims description 20
- 238000013515 script Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000012512 characterization method Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 17
- 230000006399 behavior Effects 0.000 description 12
- 238000004458 analytical method Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000012502 risk assessment Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000007786 learning performance Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种交易风险预测方法、装置、终端设备以及存储介质,所述方法包括:获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。本发明方法通过将特征加工后的数据输入到预先创建的交易风险预测模型进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果。
Description
技术领域
本发明涉及数据分析技术领域,尤其涉及一种风险预测方法、装置、终端设备以及存储介质。
背景技术
目前业内现有金融风控体系下的交易风险预测模型基于专家规则校验,在不同场景下根据现有规则进行可疑交易的判定。其中,交易风险预测模型包括对公交易反欺诈事前模型。交易反欺诈分场景主要分为事前,事中,事后三类,其中事前场景主要是针对交易客户,评估其潜在的欺诈交易风险,并刻画客户的风险画像,对客户进行分类,标识管理。
然而,传统的风险预测模型针对每一种风险情况对应的专家规则都要制定开发一次客户画像,其消耗时间过大,重复内容过多,识别效果有限。并且,由于传统交易风险预测模型只利用客户交易数据去评估交易风险,信息利用率较低,进而造成主观规则覆盖不足。综上所述,目前业内交易风险预测能力有限,不能准确地定位和实时拦截可疑交易,从而导致现有金融风控体系下的交易风险预测的精准率不高,进而交易风险预测效果差。
发明内容
本发明的主要目的在于提供一种交易风险预测方法、装置、终端设备以及存储介质,旨在提高交易风险预测的精准率,进而改善交易风险预测效果。
为实现上述目的,本发明提供一种交易风险预测方法,所述方法应用于交易风险预测系统,所述交易风险预测方法包括如下步骤:
获取客户交易数据;
对所述客户交易数据进行特征加工,得到第一特征数据;
将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
可选地,所述将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果的步骤之前包括:
创建所述交易风险预测模型,具体包括:
获取第一历史客户数据;
基于所述第一历史客户数据得到训练集样本数据;
对所述训练集样本数据进行特征加工,得到第二特征数据;
基于所述第二特征数据进行训练,得到所述交易风险预测模型。
可选地,所述训练集样本数据包括第一类训练样本和第二类训练样本,所述基于所述第一历史客户数据得到训练集样本数据的步骤包括:
基于预设的第一时间跨度区间与所述第一历史客户数据进行交易风险预测,得到第一客户样本;
基于所述第一客户样本中的交易标签对所述第一客户样本进行分类,得到第一类训练样本和第二类训练样本;
基于所述第一类训练样本与所述第二类训练样本得到所述训练集样本数据。
可选地,所述对所述客户交易数据进行特征加工,得到第一特征数据的步骤包括:
对所述客户交易数据进行数据分组,得到风险关联类数据、网银类数据、日志类数据以及交易类数据;
基于大数据集群技术运行所述风险关联类数据、网银类数据、日志类数据以及交易类数据对应的特征加工脚本,得到所述第一特征数据。
可选地,所述基于所述第二特征数据进行训练,得到所述交易风险预测模型包括:
基于所述第二特征数据与机器学习算法进行机器学习训练,得到训练好的子模型;
将所述训练好的子模型进行融合和加权,得到所述交易风险预测模型。
可选地,所述将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果的步骤之后包括:
基于预先获取的第二历史客户数据,得到验证集样本数据;
基于所述验证集样本数据,对所述交易风险预测结果进行验证,得到所述交易风险预测模型的预测精准率。
可选地,所述基于预先获取的第二历史客户数据,得到验证集样本数据的步骤包括:
基于预设的第二时间跨度区间与所述预先获取的第二历史客户数据进行交易风险预测,得到第二客户样本;
基于所述第二客户样本中的交易标签对所述第二客户样本进行分类,得到第一类验证样本和第二类验证样本;
基于所述第一类验证样本与所述第二类验证样本得到所述验证集样本数据。
此外,为实现上述目的,本发明还提供一种交易风险预测装置,所述装置包括:
数据获取模块,用于获取客户交易数据;
特征加工模块,用于对所述客户交易数据进行特征加工,得到第一特征数据;
模型预测模块,用于将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
可选地,所述特征加工模块还用于:
对所述客户交易数据进行数据分组,得到风险关联类数据、网银类数据、日志类数据以及交易类数据;
基于大数据集群技术运行所述风险关联类数据、网银类数据、日志类数据以及交易类数据对应的特征加工脚本,得到所述第一特征数据。
可选地,所述模型预测模块还用于:
创建所述交易风险预测模型,具体包括:
获取第一历史客户数据;
基于所述第一历史客户数据得到训练集样本数据;
对所述训练集样本数据进行特征加工,得到第二特征数据;
基于所述第二特征数据进行训练,得到所述交易风险预测模型。
可选地,所述模型预测模块还用于:
基于预设的第一时间跨度区间与所述第一历史客户数据进行交易风险预测,得到第一客户样本;
基于所述第一客户样本中的交易标签对所述第一客户样本进行分类,得到第一类训练样本和第二类训练样本;
基于所述第一类训练样本与所述第二类训练样本得到所述训练集样本数据。
可选地,所述模型预测模块还用于:
基于所述第二特征数据与机器学习算法进行机器学习训练,得到训练好的子模型;
将所述训练好的子模型进行融合和加权,得到所述交易风险预测模型。
可选地,所述模型预测模块还用于:
基于预先获取的第二历史客户数据,得到验证集样本数据;
基于所述验证集样本数据,对所述交易风险预测结果进行验证,得到所述交易风险预测模型的预测精准率。
可选地,所述模型预测模块还用于:
基于预设的第二时间跨度区间与所述预先获取的第二历史客户数据进行交易风险预测,得到第二客户样本;
基于所述第二客户样本中的交易标签对所述第二客户样本进行分类,得到第一类验证样本和第二类验证样本;
基于所述第一类验证样本与所述第二类验证样本得到所述验证集样本数据。
此外,为实现上述目的,本发明还提供一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交易风险预测程序,所述交易风险预测程序被所述处理器执行时实现如上所述的交易风险预测方法。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有交易风险预测程序,所述交易风险预测程序被处理器执行时实现如上所述的交易风险预测方法。
本发明实施例提出的一种交易风险预测方法、装置、终端设备以及存储介质,通过获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。本实施例通过对获取到的所述客户交易数据进行特征加工,并将加工后的第一特征数据输入到预先创建的交易风险预测模型中进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果。
附图说明
图1为本发明交易风险预测装置所属终端设备的功能模块示意图;
图2为本发明交易风险预测方法第一示例性实施例的流程示意图;
图3为本发明交易风险预测方法第一实例性实施例中特征加工和模型训练的流程示意图;
图4为本发明交易风险预测方法第二示例性实施例的流程示意图;
图5为本发明交易风险预测方法第三示例性实施例的流程示意图;
图6为本发明交易风险预测方法第四示例性实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
本申请实施例考虑到,当前业界基于专家规则校验的交易风险预测方法的缺点在于:针对每一种风险情况对应的专家规则都要制定开发一次客户画像,其消耗时间过大,重复内容过多,识别效果有限。并且,由于传统交易风险预测模型只利用客户交易数据去评估交易风险,信息利用率较低,进而造成主观规则覆盖不足。综上所述,目前业内交易风险预测能力有限,不能准确地定位和实时拦截可疑交易,从而导致现有金融风控体系下的交易风险预测的精准率不高,进而交易风险预测效果差。
基于此,本申请实施例提供一种解决方案,通过对获取到的所述客户交易数据进行特征加工,并将加工后的第一特征数据输入到预先创建的交易风险预测模型中进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果。
具体地,参照图1,图1为本申请交易风险预测装置所属终端设备的功能模块示意图。该交易风险预测装置可以为独立于终端设备的、能够进行交易风险预测、推荐的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等,此外,该交易风险预测装置还可以承载于交易风险预测系统中。
在本实施例中,该交易风险预测装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及交易风险预测程序;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的交易风险预测程序被处理器执行时实现以下步骤:
获取客户交易数据;
对所述客户交易数据进行特征加工,得到第一特征数据;
将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
进一步地,存储器130中的交易风险预测程序被处理器执行时还实现以下步骤:
创建所述交易风险预测模型,具体包括:
获取第一历史客户数据;
基于所述第一历史客户数据得到训练集样本数据;
对所述训练集样本数据进行特征加工,得到第二特征数据;
基于所述第二特征数据进行训练,得到所述交易风险预测模型。
进一步地,存储器130中的交易风险预测程序被处理器执行时还实现以下步骤:
基于预设的第一时间跨度区间与所述第一历史客户数据进行交易风险预测,得到第一客户样本;
基于所述第一客户样本中的交易标签对所述第一客户样本进行分类,得到第一类训练样本和第二类训练样本;
基于所述第一类训练样本与所述第二类训练样本得到所述训练集样本数据。
进一步地,存储器130中的交易风险预测程序被处理器执行时还实现以下步骤:
对所述客户交易数据进行数据分组,得到风险关联类数据、网银类数据、日志类数据以及交易类数据;
基于大数据集群技术运行所述风险关联类数据、网银类数据、日志类数据以及交易类数据对应的特征加工脚本,得到所述第一特征数据。
进一步地,存储器130中的交易风险预测程序被处理器执行时还实现以下步骤:
基于所述第二特征数据与机器学习算法进行机器学习训练,得到训练好的子模型;
将所述训练好的子模型进行融合和加权,得到所述交易风险预测模型。
进一步地,存储器130中的交易风险预测程序被处理器执行时还实现以下步骤:
基于预先获取的第二历史客户数据,得到验证集样本数据;
基于所述验证集样本数据,对所述交易风险预测结果进行验证,得到所述交易风险预测模型的预测精准率。
进一步地,存储器130中的交易风险预测程序被处理器执行时还实现以下步骤:
基于预设的第二时间跨度区间与所述预先获取的第二历史客户数据进行交易风险预测,得到第二客户样本;
基于所述第二客户样本中的交易标签对所述第二客户样本进行分类,得到第一类验证样本和第二类验证样本;
基于所述第一类验证样本与所述第二类验证样本得到所述验证集样本数据。
本实施例通过上述方案,获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。本实施例通过对获取到的所述客户交易数据进行特征加工,并将加工后的第一特征数据输入到预先创建的交易风险预测模型中进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果。
基于上述终端设备架构但不限于上述架构,提出本申请方法实施例。
参照图2,图2为本申请交易风险预测方法第一示例性实施例的流程示意图。所述交易风险预测方法包括:
步骤S10,获取客户交易数据;
具体地,本实施例应用于风控体系下的交易反欺诈场景。本实施例提出一种交易风险预测方法,所述交易风险预测方法通过交易风险预测模型对客户交易可能会出现的风险进行事前预测与评估,因此所述交易风险预测模型也是一种对公交易反欺诈事前模型。其中,交易反欺诈场景可以分成事前,事中,事后三类。其中事前场景主要是针对交易客户,评估其潜在的欺诈风险,并刻画客户的风险画像,对客户进行分类以及标识管理。本实施例通过银行系统获取客户交易数据,银行在自己的系统中记录和处理客户交易数据。当客户进行银行业务操作(如存款、取款、转账等),这些交易数据会被银行系统捕获并记录下来。当客户使用银行卡进行消费或其他交易时,交易数据会被记录在银行的支付系统中。银行可以通过自己的支付系统获取客户在使用银行卡时产生的交易数据。在某些情况下,银行可能与第三方合作伙伴或数据提供商建立数据共享关系,从而获取更全面的客户交易数据。这些合作伙伴可能包括其他金融机构、支付服务提供商或数据提供商,银行可以通过与其进行数据共享来获取所述客户交易数据。本实施例以T日为例,则该日银行系统会选取T-1日的相关客户交易数据以进行特征加工以及风险预测。其中,所述客户交易数据可以是客户网银操作数据、操作日志数据、IP(Internet Protocol,网络上唯一标识设备的地址)与MAC(Media Access Control,网络接口卡的物理地址)分析数据,还可以包括客户交易的风险关系数据、交易信息数据和交易账户数据。
步骤S20,对所述客户交易数据进行特征加工,得到第一特征数据;
具体地,本实施例通过对所述客户交易数据进行特征加工,以提取出更有价值的特征,从而提高机器学习模型性能,减少特征空间的维度,提高风险预测效率。本实施例中特征加工的过程即是对所述客户交易数据进行处理和转换。
步骤S30,将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
具体地,本实施例通过将所述第一特征数据输入到预先创建的交易风险预测模型中进行风险预测,所述交易风险预测模型基于机器学习算法创建。所述风险预测结果为客户综合风险评估欺诈评分,本实施例用历史客户数据对所述风险预测模型进行训练,其中,所述历史客户数据可以分成好样本数据以及坏样本数据,好样本数据作为正向学习结果,坏样本数据作为负向学习结果。划分好坏样本可以以历史客户数据中的交易标签为依据。此外,本实施例所采用的机器学习模型应用的算法为LGBM(Light Gradient BoostingMachine,轻量级梯度提升机算法),它是一种基于梯度提升决策树的机器学习算法。LGBM以其高效性能和较低的内存消耗而闻名,在处理大规模数据集上表现出色。LGBM通过迭代训练多个决策树,并且利用梯度提升的方式来不断优化模型的预测能力。它在各种机器学习任务中都有广泛应用,包括分类、回归和排序等。本实施例通过该算法进行机器学习模型构建,并完成对于客户风险的预测,得到交易风险预测结果。所述交易风险预测结果还将上报给相关部门进行处理,以对客户进行警示或者做进一步交易安全防控。
进一步地,本实施例还对步骤S20,对所述客户交易数据进行特征加工,得到第一特征数据进行细化。
在本实施例中,步骤S20,对所述客户交易数据进行特征加工,得到第一特征数据包括:
步骤A,对所述客户交易数据进行数据分组,得到风险关联类数据、网银类数据、日志类数据以及交易类数据;
具体地,本实施例先对所述客户交易数据进行分组。其中,所述客户交易数据具体包括:网银操作数据、操作日志数据、IP与MAC分析数据,还可以包括客户交易的风险关系数据、交易信息数据和交易账户数据。其中,网银操作数据可归类为网银类数据,操作日志数据可归类于日志类数据,IP与MAC分析数据、风险关系数据可归类于风险关联类数据,交易信息数据和交易账户数据可归类于交易类数据。
步骤B,基于大数据集群技术运行所述风险关联类数据、网银类数据、日志类数据以及交易类数据对应的特征加工脚本,得到所述第一特征数据。
具体地,参照图3,图3为本申请方法中特征加工和模型训练的流程示意图;如图3所示,本实施例还通过运行所述特征加工脚本,对所述风险关联类数据、网银类数据、日志类数据以及交易类数据进行特征加工,通过对所述风险关联类数据进行特征加工得到风险关联类特征,通过对所述网银类数据进行特征加工得到网银操作类特征和网银衍生类特征,通过对所述日志类数据进行特征加工得到日志操作类特征,通过对IP与MAC分析数据和风险关系数据进行特征加工得到风险与关联类特征,通过对交易类数据进行特征加工得到交易类特征以及交易账户静态特征。本实施例以IP与MAC分析数据特征加工为例,通过对IP与MAC的分析,银行系统可以获取客户账户的登录地址信息,以判断客户账户是否属于异地登录,对IP与MAC分析数据和风险关系数据进行特征加工,具体可以通过特征缩放将不同范围的特征值缩放到相似的范围,例如标准化与归一化;还可以通过特征编码,即将非数值型特征转换为数值型特征,使其适用于机器学习算法;此外,特征加工还可以通过特征选择实现,可采用的特征选择方法包括过滤式选择、包裹式选择和嵌入式选择。
更具体地,本实施例基于大数据集群技术进行数据加工,所述大数据集群技术采用Hadoop(分布式计算)大数据处理框架,所述Hadoop通常被用于构建大数据集群。Hadoop集群由多台计算机节点组成,每个节点都具有存储和计算能力,来处理大规模的数据集。此外,本实施例采用Pyspark(Python中的一种工具)开发所述风险关联类数据、网银类数据、日志类数据以及交易类数据对应的特征加工脚本,Pyspark提供了Python编程语言的接口,用于在Spark(一种开源的分布式计算框架)集群上进行大数据处理和分析。使用PySpark可以方便地利用Python的灵活性和易用性来进行大规模数据处理。它提供了丰富的功能和API(应用程序接口),可以进行数据的加载、转换、分析和可视化等操作。本实施例运用PySpark进行特征加工的具体步骤可以包括:首先,导入必要的库和模块;其次,创建对象;然后,加载数据集;最后,进行特征选择与转换。
本实施例通过上述方案,获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。本实施例具体基于Hadoop大数据集群技术,利用Pyspark进行特征加工,引入了客户的网银类特征与日志类特征,增大了训练数据的信息维度,从而提升模型精准率与鲁棒性。本实施例还基于LGBM算法进行机器学习模型训练,其处理大规模数据集时速度快,内存消耗低,能够高效地进行训练和预测。本实施例通过对获取到的所述客户交易数据进行特征加工,并将加工后的第一特征数据输入到预先创建的交易风险预测模型中进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果。
参照图4,图4为本申请交易风险预测方法第二示例性实施例的流程示意图。
基于第一实施例,提出本申请第二实施例,本申请第二实施例与第一实施例的区别在于:
在本实施例中,步骤S30,将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果之前还包括:
步骤S25,创建所述交易风险预测模型;
具体地,本实施例预先创建交易风险预测模型,所采用的机器学习模型应用的算法为LGBM。LGBM通过迭代训练多个决策树,并且利用梯度提升的方式来不断优化模型的预测能力。它在各种机器学习任务中都有广泛应用,包括分类、回归和排序等。本实施例通过该算法进行机器学习模型构建,并完成对于客户风险的预测,得到交易风险预测结果。
进一步地,本实施例还对步骤S25,创建所述交易风险预测模型进行细化。
在本实施例中,步骤S25,创建所述交易风险预测模型包括:
步骤S251,获取历史客户数据;
具体地,本实施例可应用于银行风控系统,从银行系统中获取历史客户数据,所述历史客户数据可以根据实际情况下的需求确定对应选取的样本取值时间跨度,并基于所述历史客户数据中的交易标签进行分类。
步骤S252,基于所述历史客户数据得到训练集样本数据;
具体地,本实施例可基于上述步骤S251中获得的历史客户数据得到训练集样本数据,以完成对机器学习模型的训练。
步骤S253,对所述训练集样本数据进行特征加工,得到第二特征数据;
具体地,本实施例对所述训练集样本数据进行数据加工,具体可以采用Pyspark工具开发相关特征脚本,其具体步骤可以参照第一实施例,在此不再赘述。
步骤S254,基于所述第二特征数据进行训练,得到所述交易风险预测模型。
具体地,本实施例基于所述第二特征数据与决策树算法(即LGBM)进行强化学习模型的训练,得到子模型。通过对子模型的AR(Area Under the ROC Curve,一种机器学习性能指标)进行加权,可以计算出客户的综合欺诈风险评分,也即得到所述风险预测模型。
进一步地,本实施例还对步骤S252,基于所述第一历史客户数据得到训练集样本数据进行细化。
在本实施例中,步骤S252,基于所述第一历史客户数据得到训练集样本数据可以包括:
步骤S2521,基于预设的第一时间跨度区间与所述第一历史客户数据进行交易风险预测,得到第一客户样本;
具体地,本实施例方法可应用于银行风控系统,所述第一时间跨度区间指从第一历史客户数据中选取的第一客户样本的样本取值时间跨度区间。本实施例中选取第一历史客户数据中某一时间节点对应的客户数据,其第一时间跨度区间为该时间节点到该时间节点前一年。
步骤S2522,基于所述第一客户样本中的交易标签对所述第一客户样本进行分类,得到第一类训练样本和第二类训练样本;
具体地,本实施例基于所述第一时间跨度区间与交易标签对所述客户进行分类,具体可分为第一类训练样本和第二类训练样本。其中,所述第一类训练样本即指好样本,具体可以是客户无欺诈类交易行为的集合;所述第二类训练样本即指坏样本,具体可以是客户有欺诈类交易行为的集合;所述交易标签可以包括客户交易的类别、时间、金额以及商家信息、付款方式等等信息。本实施例具体通过取某一时间节点选择历史客户数据,得到对应的目标客户,若目标客户在所述时间节点前一年到后一年的时间跨度区间内,交易标签内无欺诈类交易行为,则随机选取所述时间跨度区间内的某一条交易行为信息,并依据其交易时间作为第一类训练样本;若目标客户在所述时间节点前一年到后一年的时间跨度区间内,交易标签内有欺诈类交易行为,则随机选取所述时间跨度区间内的某一条交易行为信息,并依据其交易时间作为第二类训练样本。
步骤S2523,基于所述第一类训练样本与所述第二类训练样本得到所述训练集样本数据。
具体地,本实施例在通过步骤S2522获取到所述第一类训练样本和所述第二类训练样本后,将所述第一类训练样本与所述第二类训练样本进行整合,最后得到所述训练集样本数据,以向机器学习模型输入并进行训练,从而完成对客户综合欺诈风险的评分,得到交易风险预测结果。
本实施例通过上述方案,获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。本实施例通过对获取到的所述客户交易数据进行特征加工,并将加工后的第一特征数据输入到预先创建的交易风险预测模型中进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果。
参照图5,图5为本申请交易风险预测方法第三示例性实施例的流程示意图。
基于第二实施例,提出本申请第三实施例,本申请第三实施例与第二实施例的区别在于:
本实施例对步骤S254,基于所述第二特征数据进行训练,得到所述交易风险预测模型进行细化。
在本实施例中,步骤S254,基于所述第二特征数据进行训练,得到所述交易风险预测模型可以包括:
步骤S2541,基于所述第二特征数据与机器学习算法进行机器学习训练,得到训练好的子模型;
具体地,本实施例基于所述第二特征数据与决策树算法(即LGBM)进行强化学习模型的训练,得到子模型。本实施例先对训练集样本数据进行数据加工,得到所述第二特征数据,然后使用第二特征数据对模型进行训练,并通过调整模型的超参数来优化模型性能。训练过程通常可以涉及迭代优化算法,例如梯度下降算法。
步骤S2542,将所述训练好的子模型进行融合和加权,得到所述交易风险预测模型。
具体地,如图3所示,首先,本实施例选择多个表现良好的子模型,这些子模型可以是使用不同算法或不同第二特征数据训练得到的。然后,通过在测试集上执行预测并结合子模型的预测结果,进行模型融合。常见的融合方法包括投票(voting)、平均化(averaging)、堆叠(stacking)等。每种融合方法的选择取决于具体情况和问题类型,本实施例对此不作限定,具体实施过程中可以依据实际情况自行选择。对于模型融合的结果,可以给每个子模型分配一个权重。权重可以基于子模型在验证集上的表现、准确率或其他评估指标进行分配。较好的子模型可以获得较高的权重,从而对最终的风险预测模型起到更大的影响力。所述交易风险预测模型保存在模型版本管理系统中。
本实施例通过上述方案,获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。本实施例具体基于LGBM算法进行机器学习模型训练,其处理大规模数据集时速度快,内存消耗低,能够高效地进行训练和预测。本实施例通过对获取到的所述客户交易数据进行特征加工,并将加工后的第一特征数据输入到预先创建的交易风险预测模型中进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果。
参照图6,图6为本申请交易风险预测方法第四示例性实施例的流程示意图。
基于第一实施例,提出本申请第四实施例,本申请第四实施例与第一实施例的区别在于:
在本实施例中,步骤S30,将所述第一特征数据输入到预先创建的风险预测模型中进行预测,得到风险预测结果之后还可以包括:
步骤S40,基于预先获取的第二历史客户数据,得到验证集样本数据;
具体地,本实施例首先需要获取第二历史客户数据,所述第二历史客户数据中存储的客户应当与所述第一历史客户数据中的客户为同一客户,但所存储的客户的交易行为信息时间戳不一样。由于所述验证集样本数据用以对所述风险预测模型进行模型效果验证,所述验证集样本数据从所述第二历史客户数据中获取时,需要将选取的时间跨度设为训练集样本数据中客户交易行为对应的交易时间的3个月以上。需要注意的是,本实施例考虑到验证结果的可靠性将验证集数据中的交易时间设定在训练集数据交易时间的3个月以上,在实际实施过程中可以自行设定验证集数据相对训练集数据的延后时间期限。
步骤S50,基于所述验证集样本数据,对所述交易风险预测结果进行验证,得到所述交易风险预测模型的预测精准率。
具体地,本实施例在获取验证集数据后,设定验证任务,基于交易风险预测模型与所述验证集数据进行验证。此外,在对所述交易风险预测模型进行预测的过程中,还可以基于所述验证集数据进一步对所述交易风险预测模型进行超参数更新,以进一步提升模型性能。通过上述步骤本实施例可得到所述交易风险预测模型的预测精准率,并基于所述交易风险预测精准率评判所述风险预测模型的实际效果。
进一步地,本实施例还对步骤S40,基于预先获取的第二历史客户数据,得到验证集样本数据进行细化。
在本实施例中,步骤S40,基于预先获取的第二历史客户数据,得到验证集样本数据包括:
步骤S401,基于预设的第二时间跨度区间与所述预先获取的第二历史客户数据进行交易风险预测,得到第二客户样本;
具体地,本实施例中所述预设的第二时间跨度区间为验证集样本数据的客户交易行为的交易时间。所述第二历史客户数据中存储的客户应当与所述第一历史客户数据中的客户为同一客户,但所存储的客户的交易行为信息时间戳不一样。由于所述验证集样本数据用以对所述风险预测模型进行模型效果验证,所述验证集样本数据从所述第二历史客户数据中获取时,需要将选取的时间跨度设为训练集样本数据中客户交易行为对应的交易时间的3个月以上。需要注意的是,本实施例考虑到验证结果的可靠性将验证集数据中的交易时间设定在训练集数据交易时间的3个月以上,在实际实施过程中可以自行设定验证集数据相对训练集数据的延后时间期限。验证集样本取值时间跨度区间为当月。
步骤S402,基于所述第二客户样本中的交易标签对所述第二客户样本进行分类,得到第一类验证样本和第二类验证样本;
具体地,本实施例从某一时点选取客户数据作为验证集,且验证集的时间节点要比训练集大3个月以上。样本取值时间跨度区间为当月。所述第一类验证样本范围:取一个月内的客户数据,基于交易标签确定是否为第一类验证样本,取其样本交易时间构成第一类验证样本集。所述第二类样本选取范围:当月其他所有非所述第一类验证样本的客户,取其当月随机某条交易时间,构成第二类验证样本集。
步骤S403,基于所述第一类验证样本与所述第二类验证样本得到所述验证集样本数据。
具体地,本实施例在通过步骤S402获取到所述第一类验证样本和所述第二类验证样本后,将所述第一类验证样本与所述第二类验证样本进行整合,最后得到所述验证集样本数据,以向机器学习模型(LGBM模型)输入并进行训练,从而完成对风险评估模型的效果验证,以得到所述风险预测模型的预测精准率。
本实施例通过上述方案,获取客户交易数据;对所述客户交易数据进行特征加工,得到第一特征数据;将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。本实施例通过对获取到的所述客户交易数据进行特征加工,并将加工后的第一特征数据输入到预先创建的交易风险预测模型中进行预测,提高了交易风险预测的精准率,进而改善交易风险预测效果
需要说明的是,上述各实施例可以根据实际情况进行合理的组合实施,本实施例对此不再赘述。
此外,本申请实施例还提供一种交易风险预测装置,所述交易风险预测装置包括:
数据获取模块,用于获取客户交易数据;
特征加工模块,用于对所述客户交易数据进行特征加工,得到第一特征数据;
模型预测模块,用于将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
本实施例实现交易风险预测的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交易风险预测程序,所述交易风险预测程序被所述处理器执行时实现如上所述的交易风险预测方法的步骤。
由于本交易风险预测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提供一种计算机可读存储介质,所述交易风险预测可读存储介质上存储有交易风险预测程序,所述交易风险预测程序被处理器执行时实现如上所述的交易风险预测方法的步骤。
由于本交易风险预测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例排序仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种交易风险预测方法,其特征在于,所述交易风险预测方法包括以下步骤:
获取客户交易数据;
对所述客户交易数据进行特征加工,得到第一特征数据;
将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
2.如权利要求1所述交易风险预测方法,其特征在于,所述将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果的步骤之前包括:
创建所述交易风险预测模型,具体包括:
获取第一历史客户数据;
基于所述第一历史客户数据得到训练集样本数据;
对所述训练集样本数据进行特征加工,得到第二特征数据;
基于所述第二特征数据进行训练,得到所述交易风险预测模型。
3.如权利要求2所述的交易风险预测方法,其特征在于,所述训练集样本数据包括第一类训练样本和第二类训练样本,所述基于所述第一历史客户数据得到训练集样本数据的步骤包括:
基于预设的第一时间跨度区间与所述第一历史客户数据进行交易风险预测,得到第一客户样本;
基于所述第一客户样本中的交易标签对所述第一客户样本进行分类,得到第一类训练样本和第二类训练样本;
基于所述第一类训练样本与所述第二类训练样本得到所述训练集样本数据。
4.如权利要求1所述的交易风险预测方法,其特征在于,所述对所述客户交易数据进行特征加工,得到第一特征数据的步骤包括:
对所述客户交易数据进行数据分组,得到风险关联类数据、网银类数据、日志类数据以及交易类数据;
基于大数据集群技术运行所述风险关联类数据、网银类数据、日志类数据以及交易类数据对应的特征加工脚本,得到所述第一特征数据。
5.如权利要求2所述的交易风险预测方法,其特征在于,所述基于所述第二特征数据进行训练,得到所述交易风险预测模型包括:
基于所述第二特征数据与机器学习算法进行机器学习训练,得到训练好的子模型;
将所述训练好的子模型进行融合和加权,得到所述交易风险预测模型。
6.如权利要求3所述的交易风险预测方法,其特征在于,所述将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果的步骤之后包括:
基于预先获取的第二历史客户数据,得到验证集样本数据;
基于所述验证集样本数据,对所述交易风险预测结果进行验证,得到所述交易风险预测模型的预测精准率。
7.如权利要求6所述的交易风险预测方法,其特征在于,所述基于预先获取的第二历史客户数据,得到验证集样本数据的步骤包括:
基于预设的第二时间跨度区间与所述预先获取的第二历史客户数据进行交易风险预测,得到第二客户样本;
基于所述第二客户样本中的交易标签对所述第二客户样本进行分类,得到第一类验证样本和第二类验证样本;
基于所述第一类验证样本与所述第二类验证样本得到所述验证集样本数据。
8.一种交易风险预测装置,其特征在于,所述交易风险预测装置包括:
数据获取模块,用于获取客户交易数据;
特征加工模块,用于对所述客户交易数据进行特征加工,得到第一特征数据;
模型预测模块,用于将所述第一特征数据输入到预先创建的交易风险预测模型中进行预测,得到交易风险预测结果。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的交易风险预测程序,所述交易风险预测程序被所述处理器执行时实现如权利要求1-7中任一项所述的交易风险预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有交易风险预测程序,所述交易风险预测程序被处理器执行时实现如权利要求1-7中任一项所述的交易风险预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310949724.XA CN117196630A (zh) | 2023-07-31 | 2023-07-31 | 交易风险预测方法、装置、终端设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310949724.XA CN117196630A (zh) | 2023-07-31 | 2023-07-31 | 交易风险预测方法、装置、终端设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117196630A true CN117196630A (zh) | 2023-12-08 |
Family
ID=88996870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310949724.XA Pending CN117196630A (zh) | 2023-07-31 | 2023-07-31 | 交易风险预测方法、装置、终端设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117196630A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876119A (zh) * | 2024-03-11 | 2024-04-12 | 药融云数字科技(成都)有限公司 | 一种基于分布式的风控模型构建方法及系统 |
-
2023
- 2023-07-31 CN CN202310949724.XA patent/CN117196630A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117876119A (zh) * | 2024-03-11 | 2024-04-12 | 药融云数字科技(成都)有限公司 | 一种基于分布式的风控模型构建方法及系统 |
CN117876119B (zh) * | 2024-03-11 | 2024-06-04 | 药融云数字科技(成都)有限公司 | 一种基于分布式的风控模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108876133B (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
CN108876600A (zh) | 预警信息推送方法、装置、计算机设备和介质 | |
CN109165840A (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
CN109816483B (zh) | 信息推荐方法及装置、可读存储介质 | |
CN112199510A (zh) | 一种欺诈概率确定方法、装置、电子设备及存储介质 | |
CN110930038A (zh) | 一种贷款需求识别方法、装置、终端及存储介质 | |
CN114186626A (zh) | 一种异常检测方法、装置、电子设备及计算机可读介质 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN111091460A (zh) | 一种数据处理方法及装置 | |
CN111061948A (zh) | 一种用户标签推荐方法、装置、计算机设备及存储介质 | |
CN113486983A (zh) | 一种用于反欺诈处理的大数据办公信息分析方法及系统 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN111951008A (zh) | 一种风险预测方法、装置、电子设备和可读存储介质 | |
CN109146667B (zh) | 一种基于量化统计的外部接口综合应用模型的构建方法 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
CN111752985A (zh) | 一种主体画像生成的方法、装置和存储介质 | |
CN117495512B (zh) | 订单数据的管理方法、装置、设备及存储介质 | |
CN113744054A (zh) | 一种反欺诈方法、装置和设备 | |
CN113822356A (zh) | 一种用电用户的分类方法、装置、电子设备及存储介质 | |
US20100042446A1 (en) | Systems and methods for providing core property review | |
CN118195756A (zh) | 用于资源分配的数据分析方法及电子设备 | |
CN117196808A (zh) | 一种同业业务的流动性风险预测方法及相关装置 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
CN113781201B (zh) | 电子金融活动的风险评估方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |