CN109903182A - 基于随机森林算法的电力客户欠费风险分析方法及装置 - Google Patents
基于随机森林算法的电力客户欠费风险分析方法及装置 Download PDFInfo
- Publication number
- CN109903182A CN109903182A CN201910138896.2A CN201910138896A CN109903182A CN 109903182 A CN109903182 A CN 109903182A CN 201910138896 A CN201910138896 A CN 201910138896A CN 109903182 A CN109903182 A CN 109903182A
- Authority
- CN
- China
- Prior art keywords
- client
- arrearage
- parameter
- minleaf
- ntree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于改进随机森林算法的电力客户欠费风险分析方法和装置,通过从电网公司营销业务系统提取客户与缴费行为相关的属性数据,并优化欠费客户、正常缴费客户用户分布比例,采用模拟退火算法获取随机森林模型中最优的树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组合,最终采用改进随机森林模型对用户未来是否欠费进行分析预测,得到未来欠费高风险用户,本发明的基于改进随机森林算法的电力客户欠费风险分析方法和装置具有预测准确,使用方便的优点。
Description
技术领域
本发明涉及电力营销服务领域,具体涉及一种基于随机森林算法的电力客 户欠费风险分析方法及装置。
背景技术
电费回收一直是电网企业的工作重点,对于电网企业的经营管理有着举足 轻重的作用。长期以来,电网企业采用先用电后缴费的市场规则,存在电费回 收周期长及催费措施落后等因素,电费回收越来越成为困扰电网企业的一大难 题。为解决该问题,有效降低经营压力,电网企业纷纷采取了各种技术手段和 管理措施,例如建立基于客户等级的电费回收策略,加强与政府部门、银行之 间合作。但是,对于客户欠费的预测预警能力不足,无法在“事前”采取针对 性的措施,是当前电网企业电费回收工作存在的主要问题。
公开号CN201610587762一种大数据的电费风险模型构建方法,所述方法 包括以下步骤:一)数据准备、二)指标体系构建、三)相关性分析、四)模 型构建、五)模型输出、六)电费风险差异处理。电力客户欠费风险分析是典 型的类不平衡样本分类问题,该方法采用逻辑回归模型构建客户欠费风险分析 模型,对类不平衡样本数据分类精度不高。公开号CN201710099837一种电 力客户信用和欠费风险的评价方法,所述方法包括以下步骤:从营销业务系统 中抽取电力用户的基础数据;根据用户的基础数据,提取影响用户信用等级的相关特征要素和权重,构建客户信用评价模型;根据对电力客户信用等级的初 步评价,结合政策风险和行业景气要素,构建欠费风险评价模型;进行客户信 用评价以及欠费风险等级评价;进行电力客户信用和欠费风险等级的多维度展 示与深化应用。该方法构建客户信用指标体系及其指标权重,通过计算用户信 用得分评价客户欠费风险,但是指标体系选择和权重设置主要依靠个人主观经 验,缺少依据。
发明内容
有鉴于此,本发明的目的是针对现有技术的不足,提供一种基于随机森林 算法的电力客户欠费风险分析方法及装置,用以解决现有客户欠费的预测预警 能力不足,无法在“事前”采取针对性措施的问题。
为解决上述技术问题,本发明所采取的技术方案如下:
一种基于改进随机森林算法的电力客户欠费风险分析方法,包括以下步骤:
S1:从电网公司营销业务系统提取客户与缴费行为相关的属性数据;
S2:优化欠费客户、正常缴费客户用户分布比例;
S3:采用模拟退火算法获取随机森林模型中最优的树的规模nTree,叶子 节点的最小样本数minLeaf和属性特征的子集大小K参数组合;
S4:根据S3步骤得到的参数采用改进随机森林模型对用户未来是否欠费 进行分析预测,得到未来欠费高风险用户。
优选地,本发明的基于改进随机森林算法的电力客户欠费风险分析方法, 所述属性数据具体包括基本属性、用电行为和缴费行为:
所述基本属性指:用户编号、用户分类、行业分类、立户日期、用户类别、 供电电压、合同容量、抄表例日、地址、证件、担保信息;
所述用电行为指:包括近6月用电量、近6月电费、近6月违约金、欠费 次数、欠费金额、电费通知方式、用电类别、电费所处阶梯、月平均电费、 用户用电趋势;
所述缴费行为指:包括近6月缴费日期、缴费时长、缴费金额、缴费渠道、 缴费渠道变更次数。
优选地,本发明的基于改进随机森林算法的电力客户欠费风险分析方法, 所述S2步骤具体包括:
S21:按照客户类别建立欠费客户集合,对于欠费客户集合的每一个客户 xi,搜索其k个属性数据最相似的欠费客户,所述客户类别为高压用户,低压 非居民用户,居民用户;
S22:若正常缴费客户与欠费客户的倍率为n,则在其k个属性数据最相 似的欠费客户中随机选择n个客户,记为y1,y2,...yn;
S23:在欠费客户xi与其每个最相似欠费客户yj之间进行随机线性插值, 生成n个新的欠费客户Pj,具体公式如下:
Pj=xi+rand(0,1)*(yj-xi),1≤j≤n,
其中rand(0,1)表示内的一个随机数。
优选地,本发明的一种基于改进随机森林算法的电力客户欠费风险分析方 法,所述S3步骤中具体包括,
S31:将树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子 集大小K参数组合采用“三段式”二进制编码形式:110…10|101…11|011… 01,二进制字符串大小从左至右依次为nTree、K和minLeaf;
S32:选择袋外数据误分率作为模拟退火算法的目标函数,具体公式如下:
其中,OOB error表示某种nTree、K和minLeaf参数组合下随机森林模型的 误分率,OOB errori组成随机森林模型的某个决策树模型的误分率;
S33:设置初始温度T0,停止迭代温度T’,每个T值的迭代次数n,衰减 参数K;随机产生一个初始模型参数组合;
S34:根据当前温度T,生成一个新的模型参数组合;
S35:计算新参数组合下客户欠费风险分析随机森林模型的袋外数据误分 率增量△E=E(nTree’,K’,minLeaf’)-E(nTree,K,minLeaf);
S36:如果△E<0则接受新的模型参数组合;否则以概率exp(-△E/T)接受 新的模型参数组合;
S37:判断当前温度下是否充分搜索,如果当前温度下未充分搜索,重复 步骤S34;
S38:如果当前温度下充分搜索,接着判断当前温度是否大于停止迭代温 度;
S39:如果当前温度大于停止迭代温度,令T=T×K,重复步骤S34;
如果当前温度小于或等于停止迭代温度,则当前参数组合为最优的客户欠 费风险分析随机森林模型参数组合。
优选地,本发明的基于改进随机森林算法的电力客户欠费风险分析方法, 其特征在于:所述S4步骤具体包括:
S41:根据最优的树的规模nTree,叶子节点的最小样本数minLeaf和属性 特征的子集大小K参数组合构建客户欠费风险分析随机森林模型;
S42:基于客户历史数据,采用客户欠费风险分析随机森林模型预测其未 来2个月是否发生欠费行为。
本发明还提供一种基于改进随机森林算法的电力客户欠费风险分析装置, 包括:
数据获取模块:用于从电网公司营销业务系统提取客户与缴费行为相关的 属性数据;
数据优化模块:优化欠费客户、正常缴费客户用户分布比例;
参数求取模块:采用模拟退火算法获取随机森林模型中最优的树的规模 nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组 合;
分析预测模块:根据参数求取模块求取的参数采用改进随机森林模型对用 户未来是否欠费进行分析预测,得到未来欠费高风险用户。
优选地,本发明的基于改进随机森林算法的电力客户欠费风险分析装置, 所述属性数据具体包括基本属性、用电行为和缴费行为:
所述基本属性指:用户编号、用户分类、行业分类、立户日期、用户类别、 供电电压、合同容量、抄表例日、地址、证件、担保信息;
所述用电行为指:包括近6月用电量、近6月电费、近6月违约金、欠费 次数、欠费金额、电费通知方式、用电类别、电费所处阶梯、月平均电费、 用户用电趋势;
所述缴费行为指:包括近6月缴费日期、缴费时长、缴费金额、缴费渠道、 缴费渠道变更次数。
优选地,本发明的基于改进随机森林算法的电力客户欠费风险分析装置, 所述数据优化模块具体包括:
欠费客户集合建立模块:用于按照客户类别建立欠费客户集合,对于欠费 客户集合的每一个客户xi,搜索其k个属性数据最相似的欠费客户,所述客户 类别为高压用户,低压非居民用户,居民用户;
客户选择模块:若正常缴费客户与欠费客户的倍率为n,则在其k个属性 数据最相似的欠费客户中随机选择n个客户,记为y1,y2,...yn;
欠费客户填充模块:在欠费客户xi与其每个最相似欠费客户yj之间进行 随机线性插值,生成n个新的欠费客户Pj,具体公式如下:
Pj=xi+rand(0,1)*(yj-xi),1≤j≤n,
其中rand(0,1)表示内的一个随机数。
优选地,本发明的一种基于改进随机森林算法的电力客户欠费风险分析装 置,所述参数求取模块具体包括,
编码模块:用于将树的规模nTree,叶子节点的最小样本数minLeaf和属 性特征的子集大小K参数组合采用“三段式”二进制编码形式:110…10|101… 11|011…01,二进制字符串大小从左至右依次为nTree、K和minLeaf;
目标函数选取模块:选择袋外数据误分率作为模拟退火算法的目标函数, 具体公式如下:
其中,OOB error表示某种nTree、K和minLeaf参数组合下随机森林模 型的误分率,OOB errori组成随机森林模型的某个决策树模型的误分率;
初始设置模块:用于设置初始温度T0,停止迭代温度T’,每个T值的 迭代次数n,衰减参数K;随机产生一个初始模型参数组合(nTree,K,minLeaf);
当前数据处理模块:根据当前温度T,生成一个新的模型参数组合 (nTree’,K’,minLeaf’);
误分率增量求取模块:计算新参数组合下客户欠费风险分析随机森林模型 的袋外数据误分率增量△E=E(nTree’,K’,minLeaf’)-E(nTree,K,minLeaf);
模型参数组合接受性判断模块:如果△E<0则接受新的模型参数组合;否 则以概率exp(-△E/T)接受新的模型参数组合;
搜索充分性判断模块:用于判断当前温度下是否充分搜索,如果当前温度 下未充分搜索,则则交由当前数据处理模块求取一次模型参数组合 (nTree’,K’,minLeaf’);如果当前温度下充分搜索,接着判断当前温度是否大 于停止迭代温度;
结果输出模块:如果当前温度大于停止迭代温度,令T=T×K,则交由当 前数据处理模块求取一次模型参数组合(nTree’,K’,minLeaf’);
如果当前温度小于或等于停止迭代温度,则当前参数组合为最优的客户欠 费风险分析随机森林模型参数组合。
优选地,本发明的基于改进随机森林算法的电力客户欠费风险分析装置, 所述分析预测模块具体包括:
模型构建模块:根据参数求取模块中获取的最优的树的规模nTree,叶子 节点的最小样本数minLeaf和属性特征的子集大小K参数组合构建客户欠费 风险分析随机森林模型;
欠费行为预测模块:基于客户历史数据,采用客户欠费风险分析随机森林 模型预测其未来2个月是否发生欠费行为。
本发明的有益效果是:
本发明的基于改进随机森林算法的电力客户欠费风险分析方法和装置,通 过从电网公司营销业务系统提取客户与缴费行为相关的属性数据,并优化欠费 客户、正常缴费客户用户分布比例,采用模拟退火算法获取随机森林模型中最 优的树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小 K参数组合,最终采用改进随机森林模型对用户未来是否欠费进行分析预测, 得到未来欠费高风险用户,本发明的基于改进随机森林算法的电力客户欠费风 险分析方法和装置具有预测准确,使用方便的优点。
附图说明
图1为本发明提供的基于改进随机森林算法的电力客户欠费风险分析方 法的流程图。
图2为本发明提供的基于改进随机森林算法的电力客户欠费风险分析装 置的结构框图。
图3为基于模拟退火算法的模型参数优化流程。
图4为本发明随机森林模型袋外误差率进化曲线。
图5a、5b、5c分别是4种算法的精度、召汇率和F值三种评价指标结果 对比。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
实施例
本实施例提供一种基于改进随机森林算法的电力客户欠费风险分析方法, 如图1所示,包括以下步骤:
S1:从电网公司营销业务系统提取客户与缴费行为相关的属性数据;
所述属性数据具体包括基本属性、用电行为和缴费行为:
所述基本属性指:用户编号、用户分类、行业分类、立户日期、用户类别、 供电电压、合同容量、抄表例日、地址、证件、担保信息;
所述用电行为指:包括近6月用电量、近6月电费、近6月违约金、欠费 次数、欠费金额、电费通知方式、用电类别、电费所处阶梯、月平均电费、 用户用电趋势;
所述缴费行为指:包括近6月缴费日期、缴费时长、缴费金额、缴费渠道、 缴费渠道变更次数。
其中:欠费次数、用户用电趋势、缴费渠道变更次数、违约金、月平均电 费、行业分类为强相关性,考虑最相似优先考虑上述这些属性数据。
S2:优化欠费客户、正常缴费客户用户分布比例;
S2步骤具体包括:
S21:按照客户类别建立欠费客户集合,对于欠费客户集合的每一个客户 xi,搜索其k个属性数据最相似的欠费客户,所述客户类别为高压用户,低压 非居民用户,居民用户;
S22:若正常缴费客户与欠费客户的倍率为n(其中n≤k),则在其k个 属性数据最相似的欠费客户中随机选择n个客户,记为y1,y2,...yn;
S23:在欠费客户xi与其每个最相似欠费客户yj(1≤j≤n)之间进行随 机线性插值,生成n个新的欠费客户Pj,具体公式如下:
Pj=xi+rand(0,1)*(yj-xi),1≤j≤n,
其中rand(0,1)表示(0,1)内的一个随机数。
S3:采用模拟退火算法获取随机森林模型中最优的树的规模nTree,叶子 节点的最小样本数minLeaf和属性特征的子集大小K参数组合;
所述S3步骤中具体包括,如图4所示
S31:将树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子 集大小K参数组合采用“三段式”二进制编码形式:110…10|101…11|011… 01,二进制字符串大小从左至右依次为nTree、K和minLeaf;
S32:选择袋外数据误分率作为模拟退火算法的目标函数,具体公式如下:
其中,OOB error表示某种nTree、K和minLeaf参数组合下随机森林模 型的误分率,OOB errori组成随机森林模型的某个决策树模型的误分率;
S33:设置初始温度T0,停止迭代温度T’,每个T值的迭代次数n,衰减 参数K;随机产生一个初始模型参数组合(nTree,K,minLeaf);
S34:根据当前温度T,生成一个新的模型参数组合(nTree’,K’,minLeaf’);
S35:计算新参数组合下客户欠费风险分析随机森林模型的袋外数据误分 率增量△E=E(nTree’,K’,minLeaf’)-E(nTree,K,minLeaf);
S36:如果△E<0则接受新的模型参数组合;否则以概率exp(-△E/T)接受 新的模型参数组合;
S37:判断当前温度下是否充分搜索,如果当前温度下未充分搜索,重复 步骤S34;如果当前温度下充分搜索,接着判断当前温度是否大于停止迭代温 度;
S38:如果当前温度大于停止迭代温度,令T=T×K,重复步骤S34;
如果当前温度小于或等于停止迭代温度,则当前参数组合为最优的客户欠 费风险分析随机森林模型参数组合。
S4:根据S3步骤得到的参数采用随机森林模型对用户未来是否欠费进行 分析预测,得到未来欠费高风险用户。
所述S4步骤具体包括:
S41:根据最优的树的规模nTree,叶子节点的最小样本数minLeaf和属性 特征的子集大小K参数组合构建客户欠费风险分析随机森林模型;
S42:基于客户历史数据,采用客户欠费风险分析随机森林模型预测其未 来2个月是否发生欠费行为。
本实施例还提供一种基于改进随机森林算法的电力客户欠费风险分析装 置,包括:
数据获取模块:用于从电网公司营销业务系统提取客户与缴费行为相关的 属性数据;
数据优化模块:优化欠费客户、正常缴费客户用户分布比例;
参数求取模块:采用模拟退火算法获取随机森林模型中最优的树的规模 nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组 合;
分析预测模块:采用改进随机森林模型对用户未来是否欠费进行分析预测, 得到未来欠费高风险用户。
所述属性数据具体包括基本属性、用电行为和缴费行为:
所述基本属性指:用户编号、用户分类、行业分类、立户日期、用户类别、 供电电压、合同容量、抄表例日、地址、证件、担保信息;
所述用电行为指:包括近6月用电量、近6月电费、近6月违约金、欠费 次数、欠费金额、电费通知方式、用电类别、电费所处阶梯、月平均电费、 用户用电趋势;
所述缴费行为指:包括近6月缴费日期、缴费时长、缴费金额、缴费渠道、 缴费渠道变更次数。
所述数据优化模块具体包括:
欠费客户集合建立模块:用于按照客户类别建立欠费客户集合,对于欠费 客户集合的每一个客户xi,搜索其k个属性数据最相似的欠费客户,所述客户 类别为高压用户,低压非居民用户,居民用户;
客户选择模块:若正常缴费客户与欠费客户的倍率为n(其中n≤k),则 在其k个属性数据最相似的欠费客户中随机选择n个客户,记为y1,y2,...yn;
欠费客户填充模块:在欠费客户xi与其每个最相似欠费客户yj(1≤j≤n) 之间进行随机线性插值,生成n个新的欠费客户Pj,具体公式如下:
Pj=xi+rand(0,1)*(yj-xi),1≤j≤n,
其中rand(0,1)表示(0,1)内的一个随机数。
所述参数求取模块具体包括,
编码模块:用于将树的规模nTree,叶子节点的最小样本数minLeaf和属 性特征的子集大小K参数组合采用“三段式”二进制编码形式:110…10|101… 11|011…01,二进制字符串大小从左至右依次为nTree、K和minLeaf;
目标函数选取模块:选择袋外数据误分率作为模拟退火算法的目标函数, 具体公式如下:
其中,OOB error表示某种nTree、K和minLeaf参数组合下随机森林模 型的误分率,OOB errori组成随机森林模型的某个决策树模型的误分率;
初始设置模块:用于设置初始温度T0,停止迭代温度T’,每个T值的 迭代次数n,衰减参数K;随机产生一个初始模型参数组合(nTree,K,minLeaf);
当前数据处理模块:根据当前温度T,生成一个新的模型参数组合 (nTree’,K’,minLeaf’);
误分率增量求取模块:计算新参数组合下客户欠费风险分析随机森林模型 的袋外数据误分率增量△E=E(nTree’,K’,minLeaf’)-E(nTree,K,minLeaf);
模型参数组合接受性判断模块:如果△E<0则接受新的模型参数组合;否 则以概率exp(-△E/T)接受新的模型参数组合;
搜索充分性判断模块:用于判断当前温度下是否充分搜索,如果当前温度 下未充分搜索,则则交由当前数据处理模块求取一次模型参数组合(nTree’,K’,minLeaf’);如果当前温度下充分搜索,接着判断当前温度是否大 于停止迭代温度;
结果输出模块:如果当前温度大于停止迭代温度,令T=T×K,则交由当 前数据处理模块求取一次模型参数组合(nTree’,K’,minLeaf’);
如果当前温度小于或等于停止迭代温度,则当前参数组合为最优的客户欠 费风险分析随机森林模型参数组合。
所述分析预测模块具体包括:
模型构建模块:根据参数求取模块中获取的最优的树的规模nTree,叶子 节点的最小样本数minLeaf和属性特征的子集大小K参数组合构建客户欠费 风险分析随机森林模型;
欠费行为预测模块:基于客户历史数据,采用客户欠费风险分析随机森林 模型预测其未来2个月是否发生欠费行为。
本实施例中客户欠费风险分析预警主要是通过分析客户的基本属性特征 以及缴费行为,构建客户细分模型以评估客户欠费风险的大小,并提前采取差 异化的电费回收策略和预防措施。在客户欠费风险分析模型构建之前,需要结 合业务理解明确存在电费回收风险客户的定义。本实施例选择电费违约金大于 0的客户作为电费回收风险客户定义。
效果实施例
从营销业务系统提取构建客户欠费风险分析预警的样本集合。以某省电力 公司全量客户为样本集合,基于2015年11月-2016年4月数据作为基础数据, 2016年5月和6月是否产生违约金作为目标变量,开展模型训练。目标客户 的分布情况如下表所示:
表1目标客户分布情况
客户类别 | 客户数 | 目标客户数 | 目标客户占比 |
高压用户 | 72824 | 451 | 0.62% |
低压非居民用户 | 735795 | 15096 | 2.05% |
居民用户 | 9532802 | 171052 | 1.80% |
从营销业务系统提取客户数据主要属性特征包括:
(1)基本属性:例如用户编号、用户分类、行业分类、立户日期、用户 类别、供电电压、合同容量、抄表例日、地址、证件、担保信息等;
(2)用电行为:包括近6月用电量、近6月电费、近6月违约金、欠费 次数、欠费金额、电费通知方式、用电类别、电费所处阶梯等;
(3)缴费行为:包括近6月缴费日期、缴费时长、缴费金额、缴费渠道、 缴费渠道变更次数等。
考虑到三类客户差别较大,需要对三类客户分别进行建模,具体过程如下:
(1)针对目标客户占比过低情况,首先采用基于smote算法的训练样本 抽样,设置采样倍率n=40,最近邻样本数量k=70,根据S2步骤内容生成新 的欠费用户样本,将欠费用户的占比提升至46.7%。。
(2)对样本数据质量进行检验。包括:用户编号的唯一性、样本完整性、 变量的范围和取值、缺失值、异常值等。
(3)构建衍生变量,即对原始数据进行处理和加工,以获取更有预测力 和解释性的变量,例如客户电费环比、累计欠费次数等。
(4)采用模拟退火算法优化客户欠费风险分析随机森林模型的参数组合, 得到最优的参数组合。以高压客户的随机森林模型为例,初始化马可夫链长度 L=100,衰减参数K=0.99,步长因子S=0.02,初始温度T=100,容差=1*10-8。 优化结束后,随机森林模型的袋外误差率进化曲线如图3所示。当树的规模 nTree=26,叶子节点的最小样本数Minleaf=2和属性特征的子集大小K=7时, 袋外误差率最小。
(5)基于最优参数组合的随机森林模型构建客户欠费风险分析模型,预 测未来2个月发生欠费风险的高风险客户。
混淆矩阵可以用来评估分类器的质量。对于欠费用户和非欠费用户的分类 问题,它的混淆矩阵如下:
表2欠费=yes和欠费=no的混淆矩阵
TP是指被分类器正确分类的欠费用户;TN是指被分类正确分类的非欠费 用户;FP是指被错误标记为欠费用户的非欠费用户;FN是被错误标记为非欠 费用户的欠费用户。
对于类不平衡样本集合,评估分类模型常用标准如下:
(1)精度,标记为正类的元组实际为正类所占的百分比,即标记为欠费 用户实际上为欠费用户所占的百分比:
(2)召回率,正元组标记为正的百分比,即正确识别的负元组(欠费用 户)的百分比:
(3)F值,由于精度和召回率之间通常呈现逆关系,将二者组合在一个 度量,即F值度量:
以高压客户分类为例,基于2015年11月-2016年4月客户数据,采用优 化后随机森林模型预测用户2016年5月和6月是否产生违约金,采用10折交 叉验证,实验结果如下:
表3欠费=yes和欠费=no的混淆矩阵
公式
从实验结果可以看出,采用优化后随机森林算法开展客户欠费风险分类预 测,无论是精度、召回率还是F值,其效果均为有效的。
在得到未来欠费高风险用户后,电网公司可以采取有针对性措施降低电费 回收存在的风险:
(1)在抄表阶段,针对高风险、中风险客户,尽量做到优先抄表、当面 抄表,并根据移动终端的提示,核实用户信息,例如户号、户名、联系电话等。
(2)在派送电量电费通知单工作阶段,针对高风险、中风险客户,应粘 贴纸质通知单,并尽可能地当面通知客户。针对低风险客户,可以采用发送电 子账单的形式通知,包括短信账单、微信账单、邮件账单等。
(3)在派送催费通知单工作阶段,及时跟进高风险、中风险客户的电费 缴纳情况,增加催缴频率和力度,并根据资源情况,采取电话的方式进行催费。
对比例
分别采用逻辑回归(LR),决策树(C4.5)、随机森林(RF),改进后 随机森林模型(Optimized random forest,ORF)构建用户欠费风险分析模型, 并预测用户是否发生欠费现象。高压用户、低压非居民、居民三类用户是否欠 费预测结果的混淆矩阵如下表所示:
表 用户是否欠费预测的混淆矩阵
按照公式分别计算高压用户欠费风险预测模型、低压非居民用户欠费风险 分析模型、低压居民用户欠费风险预测模型的的精度、召回率以及F值。结 果如图5a、5b、5c,模型评估结果如下:
从结果可以看出,改进前随机森林模型由于节点属性征选择、模型参数缺 少优化,精度、召回率、F值并不明显优于逻辑回归、决策树模型。但是,经 过基于信息值的节点属性特征选择优化、基于加温模拟退火算法的模型参数优 化,然后基于优化后随机森林模型开展用户未来是否欠费预测,无论是精度、 召回率还是F值,其效果均比逻辑回归、决策树模型更优。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明 保护范围的限制,所属领域的技术开发人员应该明白,在本发明的技术方案的 基础上,本领域及相关领域的技术开发人员不需要付出创造性劳动即可做出的 各种修改或变形,仍在本发明的保护范围以内。
Claims (10)
1.一种基于改进随机森林算法的电力客户欠费风险分析方法,其特征在于,包括以下步骤:
S1:从电网公司营销业务系统提取客户与缴费行为相关的属性数据;
S2:优化欠费客户、正常缴费客户用户分布比例;
S3:采用模拟退火算法获取随机森林模型中最优的树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组合;
S4:根据S3步骤得到的参数采用随机森林模型对用户未来是否欠费进行分析预测,得到未来欠费高风险用户。
2.根据权利要求1所述的基于改进随机森林算法的电力客户欠费风险分析方法,其特征在于:所述属性数据具体包括基本属性、用电行为和缴费行为:
所述基本属性指:用户编号、用户分类、行业分类、立户日期、用户类别、供电电压、合同容量、抄表例日、地址、证件、担保信息;
所述用电行为指:包括近6月用电量、近6月电费、近6月违约金、欠费次数、欠费金额、电费通知方式、用电类别、电费所处阶梯、月平均电费、用户用电趋势;
所述缴费行为指:包括近6月缴费日期、缴费时长、缴费金额、缴费渠道、缴费渠道变更次数。
3.根据权利要求1所述的基于改进随机森林算法的电力客户欠费风险分析方法,其特征在于:所述S2步骤具体包括:
S21:按照客户类别建立欠费客户集合,对于欠费客户集合的每一个客户xi,搜索其k个属性数据最相似的欠费客户,所述客户类别为高压用户,低压非居民用户,居民用户;
S22:若正常缴费客户与欠费客户的倍率为n(其中n≤k),则在其k个属性数据最相似的欠费客户中随机选择n个客户,记为y1,y2,...yn;
S23:在欠费客户xi与其每个最相似欠费客户yj(1≤j≤n)之间进行随机线性插值,生成n个新的欠费客户Pj,具体公式如下:
Pj=xi+rand(0,1)*(yj-xi),1≤j≤n,
其中rand(0,1)表示(0,1)内的一个随机数。
4.根据权利要求1所述的一种基于改进随机森林算法的电力客户欠费风险分析方法,其特征在于:所述S3步骤中具体包括,
S31:将树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组合采用“三段式”二进制编码形式:110…10|101…11|011…01,二进制字符串大小从左至右依次为nTree、K和minLeaf;
S32:选择袋外数据误分率作为模拟退火算法的目标函数,具体公式如下:
其中,OOB error表示某种nTree、K和minLeaf参数组合下随机森林模型的误分率,OOBerrori组成随机森林模型的某个决策树模型的误分率;
S33:设置初始温度T0,停止迭代温度T’,每个T值的迭代次数n,衰减参数K;随机产生一个初始模型参数组合(nTree,K,minLeaf);
S34:根据当前温度T,生成一个新的模型参数组合(nTree’,K’,minLeaf’);
S35:计算新参数组合下客户欠费风险分析随机森林模型的袋外数据误分率增量△E=E(nTree’,K’,minLeaf’)-E(nTree,K,minLeaf);
S36:如果△E<0则接受新的模型参数组合;否则以概率exp(-△E/T)接受新的模型参数组合;
S37:判断当前温度下是否充分搜索,如果当前温度下未充分搜索,重复步骤S34;如果当前温度下充分搜索,接着判断当前温度是否大于停止迭代温度;
S38:如果当前温度大于停止迭代温度,令T=T×K,重复步骤S34;
如果当前温度小于或等于停止迭代温度,则当前参数组合为最优的客户欠费风险分析随机森林模型参数组合。
5.根据权利要求1所述的基于改进随机森林算法的电力客户欠费风险分析方法,其特征在于:所述S4步骤具体包括:
S41:根据最优的树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组合构建客户欠费风险分析随机森林模型;
S42:基于客户历史数据,采用客户欠费风险分析随机森林模型预测其未来2个月是否发生欠费行为。
6.一种基于改进随机森林算法的电力客户欠费风险分析装置,其特征在于,包括:
数据获取模块:用于从电网公司营销业务系统提取客户与缴费行为相关的属性数据;
数据优化模块:优化欠费客户、正常缴费客户用户分布比例;
参数求取模块:采用模拟退火算法获取随机森林模型中最优的树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组合;
分析预测模块:根据参数求取模块求取的参数采用随机森林模型对用户未来是否欠费进行分析预测,得到未来欠费高风险用户。
7.根据权利要求6所述的基于改进随机森林算法的电力客户欠费风险分析装置,其特征在于:所述数据获取模块具体用于获取基本属性、用电行为和缴费行为:
所述基本属性指:用户编号、用户分类、行业分类、立户日期、用户类别、供电电压、合同容量、抄表例日、地址、证件、担保信息;
所述用电行为指:包括近6月用电量、近6月电费、近6月违约金、欠费次数、欠费金额、电费通知方式、用电类别、电费所处阶梯、月平均电费、用户用电趋势;
所述缴费行为指:包括近6月缴费日期、缴费时长、缴费金额、缴费渠道、缴费渠道变更次数。
8.根据权利要求6所述的基于改进随机森林算法的电力客户欠费风险分析装置,其特征在于:所述数据优化模块具体包括:
欠费客户集合建立模块:用于按照客户类别建立欠费客户集合,对于欠费客户集合的每一个客户xi,搜索其k个属性数据最相似的欠费客户,所述客户类别为高压用户,低压非居民用户,居民用户;
客户选择模块:若正常缴费客户与欠费客户的倍率为n(其中n≤k),则在其k个属性数据最相似的欠费客户中随机选择n个客户,记为y1,y2,...yn;
欠费客户填充模块:在欠费客户xi与其每个最相似欠费客户yj(1≤j≤n)之间进行随机线性插值,生成n个新的欠费客户Pj,具体公式如下:
Pj=xi+rand(0,1)*(yj-xi),1≤j≤n,
其中rand(0,1)表示(0,1)内的一个随机数。
9.根据权利要求6所述的一种基于改进随机森林算法的电力客户欠费风险分析装置,其特征在于:所述参数求取模块具体包括,
编码模块:用于将树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组合采用“三段式”二进制编码形式:110…10|101…11|011…01,二进制字符串大小从左至右依次为nTree、K和minLeaf;
目标函数选取模块:选择袋外数据误分率作为模拟退火算法的目标函数,具体公式如下:
其中,OOB error表示某种nTree、K和minLeaf参数组合下随机森林模型的误分率,OOBerrori组成随机森林模型的某个决策树模型的误分率;
初始设置模块:用于设置初始温度T0,停止迭代温度T’,每个T值的迭代次数n,衰减参数K;随机产生一个初始模型参数组合(nTree,K,minLeaf);
当前数据处理模块:根据当前温度T,生成一个新的模型参数组合(nTree’,K’,minLeaf’);
误分率增量求取模块:计算新参数组合下客户欠费风险分析随机森林模型的袋外数据误分率增量△E=E(nTree’,K’,minLeaf’)-E(nTree,K,minLeaf);
模型参数组合接受性判断模块:如果△E<0则接受新的模型参数组合;否则以概率exp(-△E/T)接受新的模型参数组合;
搜索充分性判断模块:用于判断当前温度下是否充分搜索,如果当前温度下未充分搜索,则则交由当前数据处理模块求取一次模型参数组合(nTree’,K’,minLeaf’);如果当前温度下充分搜索,接着判断当前温度是否大于停止迭代温度;
结果输出模块:如果当前温度大于停止迭代温度,令T=T×K,则交由当前数据处理模块求取一次模型参数组合(nTree’,K’,minLeaf’);
如果当前温度小于或等于停止迭代温度,则当前参数组合为最优的客户欠费风险分析随机森林模型参数组合。
10.根据权利要求6所述的基于改进随机森林算法的电力客户欠费风险分析装置,其特征在于:所述分析预测模块具体包括:
模型构建模块:根据参数求取模块中获取的最优的树的规模nTree,叶子节点的最小样本数minLeaf和属性特征的子集大小K参数组合构建客户欠费风险分析随机森林模型;
欠费行为预测模块:基于客户历史数据,采用客户欠费风险分析随机森林模型预测其未来2个月是否发生欠费行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138896.2A CN109903182A (zh) | 2019-02-25 | 2019-02-25 | 基于随机森林算法的电力客户欠费风险分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910138896.2A CN109903182A (zh) | 2019-02-25 | 2019-02-25 | 基于随机森林算法的电力客户欠费风险分析方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109903182A true CN109903182A (zh) | 2019-06-18 |
Family
ID=66945651
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910138896.2A Pending CN109903182A (zh) | 2019-02-25 | 2019-02-25 | 基于随机森林算法的电力客户欠费风险分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109903182A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198907A (zh) * | 2019-12-24 | 2020-05-26 | 深圳供电局有限公司 | 潜在欠费用户识别方法、装置、计算机设备和存储介质 |
CN111353702A (zh) * | 2020-02-28 | 2020-06-30 | 中国工商银行股份有限公司 | 变更操作风险计算方法和装置 |
CN112150267A (zh) * | 2020-09-14 | 2020-12-29 | 深圳供电局有限公司 | 一种计算机设备和企业用电分析系统 |
CN113449925A (zh) * | 2021-07-12 | 2021-09-28 | 云南电网有限责任公司 | 一种基于随机森林模型的台区停电风险等级预测方法 |
CN113538064A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 基于随机森林的电费分析方法、装置、设备及介质 |
CN113592140A (zh) * | 2021-06-22 | 2021-11-02 | 国网宁夏电力有限公司吴忠供电公司 | 电费缴纳预测模型训练系统和电费缴纳预测模型 |
CN115331355A (zh) * | 2020-08-28 | 2022-11-11 | 支付宝(杭州)信息技术有限公司 | 缴费提醒方法及装置 |
-
2019
- 2019-02-25 CN CN201910138896.2A patent/CN109903182A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111198907A (zh) * | 2019-12-24 | 2020-05-26 | 深圳供电局有限公司 | 潜在欠费用户识别方法、装置、计算机设备和存储介质 |
CN111353702A (zh) * | 2020-02-28 | 2020-06-30 | 中国工商银行股份有限公司 | 变更操作风险计算方法和装置 |
CN115331355A (zh) * | 2020-08-28 | 2022-11-11 | 支付宝(杭州)信息技术有限公司 | 缴费提醒方法及装置 |
CN112150267A (zh) * | 2020-09-14 | 2020-12-29 | 深圳供电局有限公司 | 一种计算机设备和企业用电分析系统 |
CN113592140A (zh) * | 2021-06-22 | 2021-11-02 | 国网宁夏电力有限公司吴忠供电公司 | 电费缴纳预测模型训练系统和电费缴纳预测模型 |
CN113449925A (zh) * | 2021-07-12 | 2021-09-28 | 云南电网有限责任公司 | 一种基于随机森林模型的台区停电风险等级预测方法 |
CN113449925B (zh) * | 2021-07-12 | 2022-11-29 | 云南电网有限责任公司 | 一种基于随机森林模型的台区停电风险等级预测方法 |
CN113538064A (zh) * | 2021-07-28 | 2021-10-22 | 广东电网有限责任公司 | 基于随机森林的电费分析方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109903182A (zh) | 基于随机森林算法的电力客户欠费风险分析方法及装置 | |
CN104321794B (zh) | 一种使用多维评级来确定一实体的未来商业可行性的系统和方法 | |
CN106600455A (zh) | 一种基于逻辑回归的电费敏感度评估方法 | |
CN106156809A (zh) | 用于更新分类模型的方法及装置 | |
CN101763590A (zh) | 一种银行柜台服务系统 | |
CN108629500A (zh) | 一种适用于新电改背景下电力客户综合价值评估方法 | |
CN108876076A (zh) | 基于指令数据的个人信用评分方法及装置 | |
CN107609771A (zh) | 一种供应商价值评价方法 | |
CN109934469A (zh) | 基于异源交叉回归分析的停电敏感度预警方法及装置 | |
CN106251241A (zh) | 一种基于特征选择改进的LR‑Bagging算法 | |
CN112541662B (zh) | 一种电费回收风险的预测方法及系统 | |
CN109993380A (zh) | 一种信息处理方法、装置和计算机可读存储介质 | |
CN111709791A (zh) | 一种基于改进特征词权重算法的供电营销服务方法 | |
CN111506876A (zh) | 一种数据预测分析方法、系统、设备及可读存储介质 | |
CN115310752A (zh) | 面向能源大数据的数据资产价值评价方法及系统 | |
KR102336462B1 (ko) | 신용평가정보 제공 장치 및 방법 | |
Zhang et al. | Research on personal credit scoring model based on multi-source data | |
CN113450004A (zh) | 电力信用报告生成方法、装置、电子设备及可读存储介质 | |
CN114219225A (zh) | 基于多源数据的电网投资效益评估系统及评估方法 | |
CN107368958A (zh) | 基于主成分分析法的大客户价值评价指标权重确定方法 | |
CN110738570A (zh) | 基于多通道异质数据的信息型操纵自动识别方法 | |
CN113706300A (zh) | 一种小微企业的贷款方法及装置 | |
Zhang et al. | [Retracted] Analysis of Bank Customer Default Risk Based on Embedded Microprocessor Wireless Communication | |
Wei | SVM Model Against Telecom Card Fraud Using GA Optimised Ten-Fold Cross-Testing | |
Agrawal et al. | Determining the Accuracy of Reinforced Model via Sentiment and Technical Analysis as a Stock Market Prediction Technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190618 |