CN110264251B

CN110264251B - 表征现金流的数据组织形式与基于多任务学习的预测方法

Info

Publication number: CN110264251B
Application number: CN201910466692.1A
Authority: CN
Inventors: 贺一丹; 李梦; 孔德兴
Original assignee: Hangzhou Bozhao Technology Co ltd
Current assignee: Hangzhou Bozhao Technology Co ltd
Priority date: 2019-05-31
Filing date: 2019-05-31
Publication date: 2021-08-10
Anticipated expiration: 2039-05-31
Also published as: CN110264251A

Abstract

本发明涉及大数据处理技术，旨在提供一种表征现金流的数据组织形式与基于多任务学习的预测方法。包括：对电力部门销售流水和用电量的历史数据进行信息挖掘和统计分析；建立与回归分析有关的多个任务，建立多维数据标签；按时间序列进行交叉检验，利用深度卷积神经网络或者递归神经网络进行多任务学习，对模型进行性能测试；采用网格法得到神经网络的最佳超参数，最终确定神经网络模型的配置，并将该神经网络模型用于电力销售金额的预测。本发明构建了联合这些信息的新的数据组织形式，能够刻画日现金流来源。通过本发明构建的多任务学习相比传统统计模型有较少的人工干预，结果更加鲁棒，更适应大数据。

Description

表征现金流的数据组织形式与基于多任务学习的预测方法

技术领域

本发明涉及大数据处理，特别涉及一种表征现金流的数据组织形式与基于多任务学习的预测方法。

背景技术

销售金额预测是指对未来特定时间内，全部产品或特定产品的销售数量与销售金额的估计。销售预测旨在充分考虑未来各种影响因素的基础上，通过一定的分析方法提出切实可行的销售目标，以及帮助企业做好财务预算，其结果对企业的发展规划、战略部署有着十分重要的意义。

尽管如此，进行高质量消费预测绝非易事。目前可用于现金流预测的数据挖掘工具主要是一些统计分析方法，如时间序列分析、线性/非线性回归模型、灰色系统模型、最大熵马尔可夫模型等。虽然已有众多的成熟模型，而且这些模型已被广泛应用于经济预测领域，但是从以下两方面原因导致了电力销售金额预测的不准确性，也就限制了上述统计分析方法的实际应用。一方面电网销售金额数据名目众多，数量庞大，有必要先将这些数据按照一定的方式组织在一起，筛选出对现金流预测有帮助的信息，进而提供一种系统有效的，综合多模态、多时期、多用户，以及结合数据分布特征的数据组织形式。传统方法要么是选取其中少量数据维度，要么忽略已有数据之间的总体关联性质，这都导致了数据的信息缺失，使得进一步的建模受到先验限制；另一方面，基于能获取的所有数据维度，传统方法无法有效提取出其中利于预测的高维的、相互作用的有效特征。

基于上述原因，对大数据处理和挖掘的需求也应运而生，其中代表性的方法就是神经网络。但是，目前尚未见到关于神经网络以及多任务学习在电网销售金额预测方面的运用的报道。

发明内容

本发明要解决的技术问题是，克服现有技术中的不足，提供一种表征现金流的数据组织形式与基于多任务学习的预测方法。

为解决技术问题，本发明的解决方案是：

本发明提供了一种表征现金流的数据组织形式与基于多任务学习的预测方法，包括以下步骤：

(1)读取电力部门销售流水和用电量的历史数据；

(2)对历史数据进行信息挖掘和统计分析，评估金额到账时间与用户支付时间的关系，得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息；按照设定的数据结构形式进行数据组织，然后按照分位数统计量对现金流数据进行分类；

(3)建立与回归分析有关的多个任务，分类任务及匹配组成当日现金流的用户支付金额分布的任务，以此建立多维数据标签；

(4)对历史数据按时间序列均分为k个时间段，每个时间段包含多天数据；

(5)进行k次交叉检验：每次取步骤(4)中的k-1组作为训练集，利用深度卷积神经网络或者递归神经网络进行多任务学习；通过回归分析给出未来定期金额的预测，并将剩下的一组作为检验集，对模型进行性能测试；

(6)重复步骤(5)，采用网格法得到神经网络的最佳超参数，最终确定神经网络模型的配置，并将该神经网络模型用于电力销售金额的预测。

本发明中，所述步骤(1)中，所述电力部门销售流水的历史数据包括：用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额；所述用电量的历史数据是指每位用户的每月实际用电量。

本发明中，所述步骤(1)中，还包括对历史数据进行数据去噪和时间序列平稳化的预处理。

本发明中，所述步骤(2)中对历史数据进行信息挖掘和分析，具体包括以下步骤：

(2.1)统计历年所有用户的用电量水平，根据用电量样本的1/4、1/2、3/4分位数划分初步用电量区间；将使用电量超过设定值的用户作为最后1/4分位，对其用电量等级再进行细分，最后按用电量将所有用户分成M个等级；

(2.2)对最小到账日当天的用户组T中的用户缴费金额进行加总后作为现金流的估计，构成输入特征的一个维度；以20％、40％、60％、80％这几个分位数以及假设的现金流最大值1×10^9作为间断点，将加总现金流数据分为5类，其类标分别为0、1、2、3、4；

(2.3)设定用户缴费到账日期的区间，将缴费日期归类为小于最小到账日、处于到账区间内或大于最大到账日；通过缴费时间与到账区间的关系，评估用户所缴纳金额对最小到账日现金流的影响；

(2.4)取最小到账日和最大到账日中间的日期作为估计的实际到账日，并记作预计到账日，这个日期下的用户组记为S；在这个日期下：

(2.41)对当日缴费用户的行业分布进行划分；

(2.42)统计缴费用户的上月用电量水平在M个等级中的分布，若上月用电量数据缺省，说明该用户是隔月或者当月缴费，另计入第M+1等级；

(2.43)对往年所有用户的日缴费金额进行分析，先用1/4分位数进行等级粗分，对缴费金额大于设定值的再进行细分，最后形成M+1个每日用户缴费金额的等级；实际到账日当天的不同缴费用户的缴费金额在这M+1个等级下均有分布，作为数据结构的M+1个维度；

(2.44)因节假日、工作日的信息会影响到到账情况，故将最小到账日的公历月、公历日、星期天数、以及农历月、农历日的信息作为数据结构的五个附加维度。

本发明中，所述步骤(3)中，构建多维数据标签时，第一个维度是经过线性变换归一化的日现金流未来期数据；第二个维度是对应日期现金流数据的分类标签见(2.2)；之后的M+1个维度是日现金流数据的分布。

本发明中，所述步骤(4)中，按照天为单位，对数据进行整理排布，每日数据均有多维特征，涵盖：总缴费金额、到账评估的分布，预计在当天到账的缴费用户行业分布、用电量分布以及缴费金额分布，以及当日的日期信息。

本发明中，所述步骤(5)中，利用深度卷积神经网络或者递归神经网络进行多任务学习的内容包括：

按照设定的数据结构形式组织数据，取线性变换归一化后的31天数据作为输入；使用多层卷积神经网络或者递归神经网络学习高维特征得到瓶颈向量，输入进多个任务子网络，均为全连接层的架构；通过回归分析输出对第31天的现金流的预测，进行回归任务训练；所述递归神经网络是基于GRU或者LSTM的递归结构的，且含多个隐藏单元；

训练初始时，设置下述两个任务的任务的权重设为0，即不参与训练：分类任务与匹配组成当日现金流的用户支付金额分布；当出现过拟合时，再将这两个任务加入全局训练；其中，使用多层卷积神经网络时，卷积层的层数、全连接层的层数以及每层的卷积核尺寸都是超参数；使用递归神经网络时，使用的递归结构(GRU、LSTM)种类和以及隐藏单元数量是超参数。

本发明中，所述步骤(6)中，用网格法对深度卷积神经网络或递归神经网络的模型超参数进行遍历，多次实验后记录最佳的超参数，构建最终用于金额预测的深度卷积神经网络模型或递归神经网络模型。

本发明中，所述步骤(6)中，在利用神经网络模型对电力销售金额进行预测时，其预测结果中包括预测金额落在不同金额区间中的概率。

本发明的原理描述：

为了辅助电力部门统计每日全市销售金额并对未来收费趋势及金额范围做预测，本发明针对电力部门销售数据的特点，提取了往期的用户信息、时间序列特征、支付时间的到账评估、行业信息、用电量信息、销售金额分布的特征，将其作为输入的数据组织形式，输入神经网络模型(如深度卷积神经网络)，以此提取高维的、相互作用的有效特征，构建与现金流预测有关联的多个任务，进行有效的多任务学习，减少网络泛化误差，从而得到根据往期数据预测未来销售金额以及相关信息的模型。该技术的提出能够解决多渠道信息的整合与归纳，解决传统统计分析模型中模型复杂度不足很难拟合多因素相互作用、不适合处理大数据的问题。

与现有技术相比，本发明的有益效果是：

1、本发明基于电力部门用户的数据，综合用电量与销售金额的信息，构建了联合这些信息的新的数据组织形式，能够刻画日现金流来源。

2、本发明的预测方法，通过提出了与现金流预测有关联的多个任务，进行有效的多任务学习，减少现金流预测的回归分析网络的泛化误差，分类任务务给出的预测结果能作为回归分析任务得到的预测值的补充信息；

3、通过本发明构建的基于卷积神经网络或者递归神经网络等神经网络架构的多任务学习相比传统统计模型有较少的人工干预，结果更加鲁棒，更适应大数据，并可以自动学习出、提取出有价值的特征组合，有利于找到销售市场的规律。

附图说明

图1为本发明预测技术的流程图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述：

表征现金流的数据组织形式与基于多任务学习的预测方法，包括以下步骤：

(1)读取电力部门销售流水和用电量的历史数据；对历史数据进行数据去噪和时间序列平稳化的预处理。

电力部门销售流水的历史数据包括：用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额；所述用电量的历史数据是指每位用户的每月实际用电量。

表1为根据历史数据进行用户挖掘所设计的联合了用电量与销售金额等信息的数据组织形式。

其中，对历史数据进行信息挖掘和分析，具体包括以下步骤：

(2.41)对当日缴费用户的行业分布进行划分；

(3)建立与回归分析有关的多个任务，分类任务与匹配组成当日现金流的用户支付金额分布的任务，以此建立多维数据标签；

构建多维数据标签时，第一个维度是经过线性变换归一化的日现金流未来期数据；第二个维度是对应日期现金流数据的分类标签见(2.2)；之后的M+1个维度是日现金流数据的分布，具体参照步骤(2.43)。

表2为要进行多任务学习所需的多维数据标签。

按照天为单位，对数据进行整理排布，每日数据均有多维特征，涵盖：总缴费金额、到账评估的分布，预计在当天到账的缴费用户行业分布、用电量分布以及缴费金额分布，以及当日的日期信息。

其中，利用深度卷积神经网络或者递归神经网络进行多任务学习的内容包括：

训练初始时，设置下述两个任务的任务的权重设为0，即不参与训练：分类任务与匹配组成当日现金流的用户支付金额分布；当出现过拟合时，再将这两个任务加入全局训练；其中，使用多层卷积神经网络时，卷积层的层数、全连接层的层数以及每层的卷积核尺寸都是超参数；使用递归神经网络时，使用的递归结构(GRU、LSTM)种类，以及隐藏单元数量是超参数。

用网格法对深度卷积神经网络或递归神经网络的模型超参数进行遍历，多次实验后记录最佳的超参数，构建最终用于金额预测的深度卷积神经网络模型或递归神经网络模型。

在利用神经网络模型对电力销售金额进行预测时，其预测结果中包括预测金额落在不同金额区间中的概率。

最后，需要注意的是，以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种表征现金流的数据组织形式与基于多任务学习的预测方法，其特征在于，包括以下步骤：

（1）读取电力部门销售流水和用电量的历史数据；

（2）对历史数据进行信息挖掘和统计分析，评估金额到账时间与用户支付时间的关系，得出每天缴费用户的缴费金额到账情况、区域、用电量和具体金额的分布信息；按照设定的数据结构形式进行数据组织，然后按照分位数统计量对现金流数据进行分类；

具体包括以下步骤：

（2.1）统计历年所有用户的用电量水平，根据用电量样本的1/4、1/2、3/4分位数划分初步用电量区间；将使用电量超过设定值的用户作为最后1/4分位，对其用电量等级再进行细分，最后按用电量将所有用户分成M个等级；

（2.2）对最小到账日当天的用户组T中的用户缴费金额进行加总后作为现金流的估计，构成输入特征的一个维度；以20%、40%、60%、80%这几个分位数以及假设的现金流最大值1×10^9作为间断点，将加总现金流数据分为5类，其类标分别为0、1、2、3、4；

（2.3）设定用户缴费到账日期的区间，将缴费日期归类为小于最小到账日、处于到账区间内或大于最大到账日；通过缴费时间与到账区间的关系，评估用户所缴纳金额对最小到账日现金流的影响；

（2.4）取最小到账日和最大到账日中间的日期作为估计的实际到账日，并记作预计到账日，这个日期下的用户组记为S；在这个日期下：

（2.41）对当日缴费用户的行业分布进行划分；

（2.42）统计缴费用户的上月用电量水平在M个等级中的分布，若上月用电量数据缺省，说明该用户是隔月或者当月缴费，另计入第M+1等级；

（2.43）对往年所有用户的日缴费金额进行分析，先用1/4分位数进行等级粗分，对缴费金额大于设定值的再进行细分，最后形成M+1个每日用户缴费金额的等级；实际到账日当天的不同缴费用户的缴费金额在这M+1个等级下均有分布，作为数据结构的M+1个维度；

（2.44）因节假日、工作日的信息会影响到到账情况，故将最小到账日的公历月、公历日、星期天数、以及农历月、农历日的信息作为数据结构的五个附加维度；

（3）建立与回归分析有关的多个任务，分类任务及匹配组成当日现金流的用户支付金额分布的任务，以此建立多维数据标签；

（4）对历史数据按时间序列均分为k个时间段，每个时间段包含多天数据；

（5）进行k次交叉检验：每次取步骤（4）中的k-1组作为训练集，利用深度卷积神经网络或者递归神经网络进行多任务学习；通过回归分析给出未来定期金额的预测，并将剩下的一组作为检验集，对模型进行性能测试；

其中，进行多任务学习的内容包括：

训练初始时，设置下述两个任务的任务的权重设为0，即不参与训练：分类任务与匹配组成当日现金流的用户支付金额分布；当出现过拟合时，再将这两个任务加入全局训练；其中，使用多层卷积神经网络时，卷积层的层数、全连接层的层数以及每层的卷积核尺寸都是超参数；使用递归神经网络时，使用的递归结构种类和以及隐藏单元数量是超参数；

（6）重复步骤（5），采用网格法得到神经网络的最佳超参数，最终确定神经网络模型的配置，并将该神经网络模型用于电力销售金额的预测。

2.根据权利要求1所述的方法，其特征在于，所述步骤（1）中，所述电力部门销售流水的历史数据包括：用户行业、识别码、预计到账区间、实际缴费日期、缴费方式和缴费金额；所述用电量的历史数据是指每位用户的每月实际用电量。

3.根据权利要求1所述的方法，其特征在于，所述步骤（1）中，还包括对历史数据进行数据去噪和时间序列平稳化的预处理。

4.根据权利要求1所述的方法，其特征在于，所述步骤（3）中，构建多维数据标签时，第一个维度是经过线性变换归一化的日现金流未来期数据；第二个维度是对应日期现金流数据的分类标签见（2.2）；之后的M+1个维度是日现金流数据的分布。

5.根据权利要求1所述的方法，其特征在于，所述步骤（4）中，按照天为单位，对数据进行整理排布，每日数据均有多维特征，涵盖：总缴费金额、到账评估的分布，预计在当天到账的缴费用户行业分布、用电量分布以及缴费金额分布，以及当日的日期信息。

6.根据权利要求1所述的方法，其特征在于，所述步骤（6）中，用网格法对深度卷积神经网络或递归神经网络的模型超参数进行遍历，多次实验后记录最佳的超参数，构建最终用于金额预测的深度卷积神经网络模型或递归神经网络模型。

7.根据权利要求1所述的方法，其特征在于，所述步骤（6）中，在利用神经网络模型对电力销售金额进行预测时，其预测结果中包括预测金额落在不同金额区间中的概率。