CN116578551A

CN116578551A - 一种基于gru-gan的电网数据修复方法

Info

Publication number: CN116578551A
Application number: CN202310338909.7A
Authority: CN
Inventors: 罗弦; 郭兆丰; 孙明; 廖荣涛; 刘芬; 郭岳; 杨荣浩; 姚渭箐; 黄俊东; 胡欢君; 李想; 张岱; 李磊; 叶宇轩; 王敬靖; 袁翔宇; 王博涛
Original assignee: Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Hubei Electric Power Co Ltd
Priority date: 2023-03-31
Filing date: 2023-03-31
Publication date: 2023-08-11

Abstract

本申请涉及一种基于GRU‑GAN的电网数据修复方法，包括以下具体步骤：步骤1：数据采集和预处理，基于TTU采集的电压历史数据，寻找完整的经过清洗以及去除异常值的数据集X，对采集的数据集归一化处理，让归一化后的数据集符合正态分布；步骤2：构建基于门控循环神经单元GRU的生成式对抗网络GAN；步骤3：GRU‑GAN神经网络的训练，使得应用随机噪声生成的数据分布接近真实数据的分布；步骤4：缺失数据的修复；步骤5：缺失数据误差分析，采用均方根误差RMSE指标对模型进行性能评估。本申请可以生成符合原始时间序列数据分布的预测值，达到补缺样本数据的目的，从而有效解决新能源电网高频数据感知匮乏、缺失等问题。

Description

一种基于GRU-GAN的电网数据修复方法

技术领域

本申请属于新型电力系统技术领域，尤其涉及一种基于GRU-GAN的电网数据修复方法。

背景技术

构建以新能源为主体的新型电力系统是国家电网转型升级的主要目标，在数字技术支撑体系架构中，负责数据感知和采集的感知层处于最底层，所获取的量测数据是整个系统的基础。新能源电力的并网，对电网量测数据采集的精度和时效提出了更高的要求，很多设备需要高频采集，频率达到分钟级别。然而，由于多种因素影响，在数据感知、传输、处理的过程中，可能会造成数据的缺失，电网数据是典型的时间序列数据，数据前后值之间具有很强的依赖性，这些缺失的部分会极大的阻碍对时序数据的建模。此时，若能基于数据的内在特性，恢复缺失的数据，则可以保障数据完整性，提升数据使用价值。

目前，国内外针对电网数据修复提出了有效方法，主要方法包括:历史平均法、相邻数据插值法、基于历史数据的长短期记忆神经网络(LSTM)，

历史平均法，依据历史数据分布，通过多个特性相关的历史数据求平均值。但是，这要求设备运行具有平稳性，而以新能源为主体的新型电力系统，特点就是电力输出不稳定，数据变化幅度大。

相邻数据插值法，利用了局部的数据信息，当相邻数据相关性较弱时，修补数据的误差将增大，特别是数据长期丢失的情况下（15分钟级以上长期数据缺失情况），数据插值误差特别大。

长短期记忆神经网络(LSTM)，能比较好的实现短期预测，但是在长期预测的时候，预测精度显著下降。

电网系统中量测数据的时序特性、想关性、负荷变化规律都可以作为缺失数据重建的重要依据，难点在于这些因素之间存在复杂的时空关系，难以用明确的数学模型进行建模描述。

发明内容

本申请实施例的目的在于提供一种基于GRU-GAN的电网数据修复方法，可以生成符合原始时间序列数据分布的预测值，达到补缺样本数据的目的，从而有效解决新能源电网高频数据感知匮乏、缺失等问题。

为实现上述目的，本申请提供如下技术方案：

本申请实施例提供一种基于GRU-GAN的电网数据修复方法，包括以下具体步骤：

步骤1：数据采集和预处理，

基于TTU采集的电压历史数据，寻找完整的经过清洗以及去除异常值的数据集X，对采集的数据集归一化处理，让归一化后的数据集符合正态分布，假定其空间分布关系；

步骤2：构建基于门控循环神经单元GRU的生成式对抗网络GAN，

分别设计生成器与判别器的内部结构，并且对生成器与判别器进行训练, 优化生成式对抗网络GAN的隐变量，得到稳定的GRU生成器；

步骤3：GRU-GAN神经网络的训练，

将GRU作为GAN的一种生成器G，判别器D负责将生成的假数据和真数据分别鉴别为0和1，进行生成器G、判别器D模型优化，随着迭代，判别器D的损失快速收敛，在判别器D达到最优后，进行生成器G训练，最终使生成器G达到纳什均衡，使得随机噪声z生成的数据G(z)空间分布接近/>；

步骤4：缺失数据的修复，

通过随机噪声数据z生成一组预测数据G(z)，G(z)和真实量测中未缺失的部分值做差，得到内容损失Lt；把G(z)输入判别器D，得到输出的先验损失Lp，通过这两个损失反过来优化随机噪声数据z，直到两个损失的和达到最小，将这时候的z输入到生成器G中，得到的输出值可以认为是缺失值的最佳修复值；

步骤5：缺失数据误差分析，

采用均方根误差RMSE指标对模型进行性能评估，计算公式如下：

，

其中N表示缺失数据的个数，，/>分别代表第k个修复后的预测数据和真实数据。

所述步骤3中 GRU-GAN神经网络的训练具体如下：

训练判别器D：随机噪声数据z通过生成器G, 得到输出 G (z)，标识为0， G (z)的空间分布为，真实数据样本/>，标识为1，判别器D的目标是能够很好第分辨出真样本/>和假样本/>，损失函数既要考虑识别真数据能力，又要考虑识别假数据能力，所以，判别器的损失函数为两者的和，因此D的分类问题是二分问题，损失函数定义为：

，

因此判别网络D的优化目标是：

，

将最小化转成最大化问题并写成期望的形式：

，

其中θ为判别网络D的参数集，利用梯度上升算法来优化参数θ，

训练生成器G：随机噪声数据z通过生成器G，得到输出 G (z)，判别器D网络参数固定，希望假样本能够很好地骗过判别网络D，目标为假样本/>在判别网络的输出越接近真是的标签越好，在训练生成网络时，希望判别网络的输出D(G(z))越逼近1越好，所以标识为1，最小化D(G(z))与1之间的损失函数：

，

将最小化转成最大化的问题并写成期望的形式：

，

等价成：

，

其中CE表示条件期望，是噪声数据z的空间分布，φ为生成网络G的参数集，可以利用梯度下降算法来优化参数φ。

上面步骤目标是使噪声数据z生成的数据G(z)分布规律将逐渐拟合样本数据/>的空间分布/>，生成器不断试图生成接近真实数据分布规律的数据，从而使判别器无法判断数据是否来自于真实数据；

以上两个步骤重复多次后，最终达到纳什均衡，生成器将无监督地获得真实数据的分布规律，输出训练好的生成器G。

所述步骤4中缺失数据的修复具体为：

先验损失为Lp，Lp=D(G(z))，D是判别器，G是生成器，

在处理有缺失的数据集时，会依据真实量测数据生成一个对应mask掩码数组Ms，把点位是否有值判断一遍，形成,k表示量测数据的维度，

，

计算真实量测数据中未缺失的值的差异计算内容损失Lt，以期预测数据G（z）与有缺失的真实数据足够相似，

内容损失定义为：，

其中，Ms是对应的mask掩码数组，I是含有缺失值的量测数据，*表示矢量的内积运算，采用了1 范数度量差异，

量测缺失数据的优化目标为：，

以LL为优化目标，使用adam优化器，使得生成的G（z）尽可能的接近缺失的量测值，在训练结束后，最终修复后的量测数据由两部分组成，一部分是原本量测数据中不缺失的部分，另一部分是G（z）中对应掩码数组Ms位置为1的部分。

与现有技术相比，本申请的有益效果是：本申请采用非常适用于序列数据建模的门控循环神经网络来搭建内部网络结构，有效挖掘电网量测数据之间的时空特征，同时判别器可以进一步提升网络在序列级上的预测精度，降低误差积累对网络预测性能的影响。GAN网络模型通过生成器网络和判别器网络的彼此博弈，多轮博弈后，最终实现网络训练。完成后，生成器可以生成符合原始时间序列数据分布的预测值，达到补缺样本数据的目的，从而有效解决新能源电网高频数据感知匮乏、缺失等问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例的方法流程图；

图2为本申请GAN结构图；

图3为本申请GRU结构图；

图4为本申请GRU-GAN的缺失数据修复结构图；

图5为本申请GAN迭代训练后的实测值和预测值图；

图6为本申请插值填充图；

图7为本申请使用长期历史数据效果对比图；

图8为本申请使用近期历史数据效果对比图；

图9为本申请使用极少历史数据效果对比图；

图10为本申请不使用历史数据(当天数据)效果对比图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

请参见图1，本申请提供了一种基于GRU-GAN的电网数据修复方法，其特征在于，包括以下具体步骤：

步骤1：数据采集和预处理，

步骤2：构建基于门控循环神经单元GRU的生成式对抗网络GAN，

步骤3：GRU-GAN神经网络的训练，

步骤4：缺失数据的修复，

步骤5：缺失数据误差分析，

，

实施例：

数据采集和预处理：

基于TTU采集的电压历史数据，寻找完整的经过清洗以及去除异常值的数据集X。某TTU设备采集30天电压(采样间隔15min)，共2880点，对采集的数据集归一化处理，再使用standarscaler方法让归一化后的数据集符合正态分布，假定其空间分布关系。训练集2600个点，测试集280个点。

样本噪声向量z，使用正态分布的随机噪声(区间[0,0.1])，这种分布可以较好的生成电压数据。

构建基于GRU的生成式对抗网络:

首先分别设计生成器与判别器的内部结构，并且对其进行训练；选用Adam作为优化器，优化GAN网络的隐变量，最终得到稳定的GRU生成器；

输入潜在空间latent向量（即随机噪声），映射到真实样本空间（x），通过门控循环神经单元GRU生成并输出与原始数据概率分布相同的“假数据”，该映射函数称为G（z）=x ，通过GRU门控循环神经网络方式拟合该函数。GAN结构图如图2所示，

生成器G结构定义：

上表中，门控循环单元GRU已被证明可用于学习序列建模中的长期依赖关系，GRU和LSTM都克服了传统RNN梯度消失的问题，并且GRU的结构更简单、高效。GRU的核心是由重置门和更新门组成，旨在从输入数据中保存和传递更多的隐藏信息。GRU内部结构图如图3，

X表示输入数据, h表示GRU单元的输出， r是重置门, z是更新门. 更新门结合当前时刻的输入和上一时刻GRU的输出/>来决定上一时刻信息有多少得到保留，计算公式如下

，

式中，由/>和/>决定，/>为sigmoid激活函数, />和/>是权重矩阵。重置门则是结合/>和/>来控制忽略前一时刻的状态信息的程度

，

和/>是权重矩阵，基于重置门生成新的记忆信息/>，

，

和/>是权重矩阵，当前时刻的输出/>为

，

具体来说，GRU通过上一时刻的状态和当前节点的输入/>来获取两个门控状态。对于实际预测中的时间序列数据, GRU可以捕获时间序列中的分布信息。

判别器D结构定义：

GRU-GAN神经网络的训练过程:

将GRU作为GAN的一种生成器G，判别器D负责将生成的“假数据”和“真数据”分别鉴别为0和1，通过Min(D loss)Max(G loss) 进行生成器G、判别器D模型优化，随着迭代，判别器的损失快速收敛，在判别器达到最优后，进行生成器训练，最终使其达到纳什均衡，使得分布p_g(z)接近p_r(x)。

目标：分布接近/>，

实现步骤：

，

因此判别网络D的优化目标是：

，

将最小化转成最大化问题并写成期望的形式：

，

其中θ为判别网络D的参数集，利用梯度上升算法来优化参数θ。

，

将最小化转成最大化的问题并写成期望的形式：

，

等价成：

，

上面步骤目标是使基于噪声z生成的数据G(z)分布规律将逐渐拟合样本数据空间分布/>，生成器不断试图生成接近真实数据分布规律的数据，从而使判别器无法判断数据是否来自于真实数据

缺失数据的修复

随机噪声数据z通过训练好的生成器G，可得到预测数据，该数据理论上可以作为修复数据使用。但是满足量测数据分布规律的随机噪声z有很多，需要从所得生成随机噪声中选择与真实数据最接近的一组。在这个过程中，生成器G和判别器D的网络参数权重都已经是固定值，通过损失函数对随机噪声z进行训练。

如图4，GRU-GAN的缺失数据修复结构图，当真实量测数据出现缺失时，通过随机噪声z生成一组预测数据G(z)，G(z)和真实量测中未缺失的部分值做差，得到内容损失Lt；把G(z)输入判别器D，得到输出的先验损失Lp，通过这两个损失反过来优化随机噪声z，直到两个损失的和达到最小，将这时候的z输入到生成器G中，得到的输出值可以认为是缺失值的最佳修复值。

先验损失为Lp，Lp=D(G(z)),D是判别器，G是生成器，

在处理有缺失的数据集时，会依据真实量测数据生成一个对应mask掩码数组Ms，把点位是否有值判断一遍，形成,k表示量测数据的维度。

，

可以计算真实量测数据中未缺失的值的差异计算内容损失Lt，以期预测数据G（z）与有缺失的真实数据足够相似。

内容损失定义为：，

其中，Ms是对应的mask掩码数组，I是含有缺失值的量测数据，*表示矢量的内积运算，采用了1 范数度量差异。

综上，量测缺失数据的优化目标为：，

以LL为优化目标，使用adam优化器，使得生成的G（z）尽可能的接近缺失的量测值。在训练结束后，最终的修复后的量测数据由两部分组成，一部分是原本量测数据中不缺失的部分，另一部分是G（z）中对应掩码数组Ms位置为1的部分。

缺失数据误差分析

采用均方根误差(RMSE)，指标对模型进行性能评估，计算公式如下：

，

其中N表示缺失数据的个数，/>分别代表第k个修复后的预测数据和真实数据。

分析1：GRU-GAN修复 VS 插值法修复

如图5，是电压数据经过901次GAN迭代训练后的实测值和预测值，数据修复准确度在80%左右。而长期缺失数据集的插值填充结果，如下图6，

针对15分钟级以上的大规模缺失情况（如1~6小时数据丢失），使用GAN对抗神经网络算法填充修复效果明显优于其他方法；

分析2：长期历史数据与当日数据的对训练结果的影响

（1）如图7，使用长期历史数据(52块电表，共计740条)，20%数据缺失，RMSEPerformance: 0.1622。

（2）如图8，使用近期历史数据(52块电表,共计256条)，20%数据缺失，RMSEPerformance: 0.1534

（3）如图9，使用极少历史数据(52块电表,128条数据)，20%数据缺失，RMSEPerformance: 0.2957

（4）如图10，不使用历史数据(当天数据)，20%数据缺失，RMSE Performance:0.1567，

对于电压类数据来说，有中长期数据、当日数据作为样本进行分布学习，可以得到较好的填充结果。

本申请的一种基于GRU-GAN的电网数据修复方法，将GRU作为GAN的一种生成器G，能充分利用GRU挖掘隐藏在时序数列之间的时空特征，通过生成器G和判别器D两者相互对抗和优化,帮助两者快速达到纳什平衡状态。又通过先验损失约束和真实损失约束优化隐变量z，使得生成器G能预测高精度的修复数据；本方法是无监督实现，完全依靠数据驱动，不涉及显式建模步骤，直接实现生成数据分布p_g(z)接近真实数据分布p_r(x)，在大量量测数据缺失的情况下仍具有较高的修复精度，特别是连续长期缺失的情况下，修复效果更为显著。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于GRU-GAN的电网数据修复方法，其特征在于，包括以下具体步骤：

步骤1：数据采集和预处理，

步骤2：构建基于门控循环神经单元GRU的生成式对抗网络GAN，

步骤3：GRU-GAN神经网络的训练，

步骤4：缺失数据的修复，

步骤5：缺失数据误差分析，

，

2.根据权利要求1所述的一种基于GRU-GAN的电网数据修复方法，其特征在于，所述步骤3中 GRU-GAN神经网络的训练具体如下：

，

因此判别网络D的优化目标是：

，

将最小化转成最大化问题并写成期望的形式：

，

将最小化转成最大化的问题并写成期望的形式：

，

等价成：

，

其中CE表示条件期望，是噪声数据z的空间分布，φ为生成网络G的参数集，可以利用梯度下降算法来优化参数φ，

3.根据权利要求1所述的一种基于GRU-GAN的电网数据修复方法，其特征在于，所述步骤4中缺失数据的修复具体为：

先验损失为Lp，Lp=D(G(z))，D是判别器，G是生成器，

，

内容损失定义为：，

量测缺失数据的优化目标为：，