基于同期特征与改进K-means聚类的配电网异常线损诊断
方法
技术领域
本发明属于电力系统异常线损诊断领域,特别涉及一种配电网异常线损诊断方法。
背景技术
线损指标作为一种综合反映电力系统在规划设计、生产运行、经济管理中的重要经济技术指标,是电力公司重点管理和考核指标。而且该指标直接与电力公司的净收益、能源利用率直接关联,因此对该指标的管理和诊断有着重要意义。
而我国当前线损指标管理与治理仍面临着诸多问题。在管理线损方面,电力公司各部门间的专业壁垒尚未完全疏通融合,各电力公司主要系统如营销系统、GIS系统、一体化线损管理系统、用电采集系统和PMS系统之间,档案关系仍会出现少部分不一致现象,系统间数据的传输仍有丢失现象,上述原因导致异常线损现象频繁发生,为线损指标的管理和治理提出了挑战;同时,实际中变电站侧和用户侧计量表存在数据缺失、时钟精度有差异,也是造成异常线损的常见原因。在技术线损方面,线路重过载、设备老化和无功补偿设备配置不合理也是异常线损的常见原因。
目前在异常线损诊断方面,国内外的研究重点分为理论线损和管理线损两方面。理论线损指通过电网拓扑和功率负荷数据,计算潮流得到理论线损,该方面主要研究为如何提高理论线损的精度、速度和可拓展性,当系统表底缺失或异常的情况下可进行准确地填补和修复。目前该方面采用技术有将径向基函数RBF神经网络应用到配电网线损的计算和分析中,并采用动态聚类算法确定最优参数,从而提高线损计算精度;也有学者采用基于kmeans聚类算法、粒子群算法和支持向量机结合、深度学习LSTM的线损预测方法对线损进行预测,对异常线损的线路或者台区进行预先报警,发生异常线损时也可对其进行修复。
管理线损指通过变电站和用户侧点能表的差值电量,管理线损复杂的潮流计算,近年来得到较快的发展。但时在管理线损方面的研究相对较少,有学者提出基于k-means聚类算法,通过低压台区线损率进行二次分类和时间序列进行分析,判断线损的异常程度;基于线损率波动率和历史数据诊断性分析异常线损原因;通过时序差分化发售电数据的平滑性质和前后关联性质,识别定位异常数据在时序序列上的位置,并对其进行修复。
上述研究虽然在理论线损计算和预测,管理线损的分析和修复上取得较大进步,但是较少有相关研究对管理线损的诸多线损异常原因进行系统地诊断和分析。因此,实有必要提出一种异常线损诊断方法,以高效诊断出异常线损主要原因,减轻了线损分析的工作量,为线损治理提供有力支撑。
发明内容
本发明的目的在于提供一种基于同期特征与改进K-means聚类的配电网异常线损诊断方法,以解决上述技术问题。本发明通过先对管理线损的同期线损特性进行分析,构建关键指标并建立异常线损诊断模式;然后基于该指标和诊断模式,采用改进的K-means聚类方法,对异常线损进行聚类分析,得到各类异常的聚类中心;最后根据聚类中心对线损数据进行诊断,快速有效对地区线损异常原因进行自动诊断。
为了实现上述目的,本发明采用如下技术方案:
基于同期特征与改进K-means聚类的配电网异常线损诊断方法,包括以下步骤:
步骤1、采集配电网某条线路的线损数据;对异常线损的同期特性进行分析,并构建出能反映异常原因的3个关键性指标:实时线损率、近24小时的平均线损率和线损畸变率;
步骤2、基于上述关键性指标,对异常线损的特征和原因进行分类,初步建立线损异常诊断模式;
步骤3、采用改进的K-means聚类方法,根据初步建立的线损异常诊断模式确定聚类的数量,并且以大量样本数据对聚类模型进行训练,得到聚类中心;
步骤4、将聚类中心的标签映射到各类异常原因;
步骤5、最后根据聚类中心对新采集的配电网某条线路的实时线损数据进行自动诊断,得到异常原因。
进一步的,步骤1具体为:
采集配电网某条线路当前1h线损和前23h线损组成的日线损序列,表达式为xi(xi1,xi2,…,xi24);其中xi1为线路i的当前线损率;构建了历史平均线损指标yi和线损畸变率ηi,其公式如下:
公式中yi是历史平均指标,能够反映历史线损水平,是否长期高损或负损;线损畸变率ηi反映实时线损对历史线损的突变情况;提取3个关键指标组成的向量为si(xi1,yi,ηi)。
进一步的,步骤2初步建立的线损异常诊断模式如下表所示:
以x表示线损率;大负损为:-100%≤x<-1%,小负损为:-1%≤x<0、正常:0≤x<6%、正常但偏高:6%≤x<10%、高损:10%≤x<30%和超大损:30%≤x<100%;畸变率的数值的设定为低:η<-5,偏低:-5≤η<-2,正常:-2≤η≤2,偏高:2<η≤5,高:5<η,5种。
进一步的,步骤3中,输入向量为si(xi1,yi,ηi),由si组成待聚类数据集SI×N;聚类方法的步骤包括:
步骤3.1:输入待聚类数据集SI×N,确定聚类的数量K,根据密度函数Density(si),选择各类数据中密度最大的数据作为初始聚类中心,用Z1,Z2,…,ZK表示;K=10;
样本的点密度、类内和类间公式如下:
公式中,num(xi)为变量si在以Zk为聚类中心,距离半径为r区域内的数据个数;Density(si)为变量的个体密度;r为人为设定的领域半径;
步骤3.2:分别计算出剩余样本数据到各聚类中心的距离Dis(si,Zi);将样本数据按照距聚类中心最近进行划分,更新聚类数据,更新类内距离di和类间距离Dk1,k2;
类内距离di为类中每个点到本聚类中心之间的距离,公式如下:
公式中,k1和k2分别为两个不同聚类中心的编号;
步骤3.3:以每类数据的平均值作为聚类中心,计算平均类间最大相似度SIM1;以距离其他聚类中心相对最远的点作为备用聚类中心,计算平均类间最大相似度SIM2;
SIM的公式如下:
公式中,
和
分别为第k1和k2类中任意两点间的距离,k
1和k
2为变量;
步骤3.4:以平均类间最大相似度SIM1和平均类间最大相似度SIM2中SIM值最小的作为新的聚类中心;
步骤3.5:判断聚类中心是否变化;如果变化返回步骤3.2;否则聚类结束。
进一步的,步骤4中,将聚类后的数据,分别用标签1~10进行标注;然后通过各类的聚类中心数值大小,根据初步建立的线损异常诊断模式,将标签1~10映射到异常原因:档案关系异常、表底异常、电能表时钟或精度差异、线路重载、档案异常这5类主要原因。
进一步的,步骤6中:通过输入配电网其他任意线路的1h线损xj,判断该值是否为正常,若不在正常范围即认为异常,并进行异常诊断;获取该线路近24h的线损数据,计算该线路的3个关键指标组成的向量为si(xi1,yi,ηi),然后计算与该向量最近的聚类中心Zk;最后,将Zk的标签和建立的映射关系,找到该线路的异常原因。
进一步的,还包括根据找到的线路异常原因对线路进行检修,使线损率恢复至正常范围的步骤。
本发明提出一种基于同期特性和改进K-means聚类方法的线损识别方法:
1)根据正常指标初步判断线路的线损是否异常,若异常则获取该线路最近24h的线损数据,构建1h实时线损、历史平均线损和线损畸变率组成的关键指标向量;
2)根据关键指标向量和大量历史运行数据,将线损范围[-100%,100%]划分为5大类异常,每类异常下面根据历史平均线损率和线损畸变率分为2类,共将异常线损的可能情况分为10类;然后对异常原因进行同期性分析,将10类异常分别与主要异常原因相关联,从而构建了异常线损的诊断模式;
3)为了获得更为量化的准确诊断模型,本发明提出了基于改进的K-means聚类方法的异常线损诊断模型,通过大量样本数据对其进行训练,该方法的关键如下:
①获取大量异常线损的历史数据及异常原因,并且每个数据样本计算出3个关键指标,组成多个3维的训练样本;
②然后根据异常线损诊断模式,并且确定聚类的数量K;
③引入密度和距离公式,在每类训练样本中,选择密度最大的数据作为初始的聚类中心;
④进入聚类的迭代环节,每次迭代更新聚类中心的位置,然后按照公式(3)更新聚类中心,并且在选择距离其他聚类中心Zk相对最远的点作为备用聚类中心,然后计算在这2种聚类中心下的平均类间最大相似度SIM指标,选择SIM小的为新的聚类中心;然后将训练样本根据欧式距离公式,选择就近的新聚类中心最近的类,完成剩余其他数据的所述类别更新;最后判断若聚类中心不再变化或者迭代次数达到上限,停止聚类迭代,输出各类的聚类中心坐标及其标签;
⑤按照构建的异常线损诊断模式,将各聚类中心及其标签映射到主要异常原因中,完成基于改进K-means聚类方法的异常线损诊断模型。
相对于现有技术,本发明具有以下有益效果:
本发明的通过线损同期线损特性分析和改进K-means聚类方法,建立一种异常线损自动诊断的模型。该模型能够获取1h线损数据,根据线损指标初步判断是否有异常,若有异常,则只需要获取该线路最近24h的历史线损数据,即可自动锁定主要的异常原因,为国网公司线损分析者提供分析依据,大大提高线损分析工作的效率。
该模型所应用的技术方法在分析异常线损也具有独特的优势,通过对历史同期线损进行特性分析,构建异常线损关键指标,与异常原因进行关联得到初步的诊断模式;再者,基于该指标和异常类型建立了改进的K-means聚类方法,解决了聚类数量难以确定的问题;同时将数据密度和欧式距离相结合,加以类间平均相似评估指标,使聚类的独立性更强,类间数据更凝聚,提高了聚类效果;最后将聚类中心和聚类表现映射到异常原因中,只需找到距离最小的聚类中心点即可找到对应的为异常原因,使诊断更加简单快速。
附图说明
构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为K-means聚类算法流程图;
图2为改进后的K-means聚类算法流程图;
图3为本发明异常线损诊断方法的流程图;
图4为基于改进K-means聚类结果图;
图5为聚类中心与异常原因的映射关系图。
具体实施方式
下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
本发明一种基于同期特征与改进K-means聚类的配电网异常线损诊断方法,分为5个主要步骤:
步骤1、对异常线损的同期特性进行分析,并构建出能反映异常原因的3个关键性指标:实时线损率、近24小时的平均线损率和线损畸变率;
步骤2、基于上述关键指标,对异常线损的特征和原因进行分类,初步建立线损异常诊断模式;
步骤3、采用改进的K-means聚类方法,根据初步建立的诊断模式确定聚类的数量,并且以大量样本数据对聚类模型进行训练,得到聚类中心;
步骤4、将聚类中心的标签映射到各类异常原因;
步骤5、最后根据聚类中心对新出现的异常数据进行自动诊断,得到主要的异常原因。
1.1、线损关键指标的提取
本方法的输入量为配电网某条线路当前1h线损和前23h线损组成的日线损序列,表达式为xi(xi1,xi2,…,xi24)。其中xi1为线路i的当前线损率,日线损率指标合格范围为(0,6%),通过该指标可以判断当前线损是否合格,但无法确定异常是瞬时还是长期的,以及无发得知线损异常突变程度。因此本发明构建了历史平均线损指标yi和线损畸变率ηi,其公式如下:
公式中yi是历史平均指标,能够反映历史线损水平,是否长期高损或负损;线损畸变率ηi反映实时线损对历史线损的突变情况,该值的绝对值越大则说明线损异常更可能属于瞬时异常。本发明将提取3个关键指标组成的向量为si(xi1,yi,ηi)。
1.2基于线损指标的异常诊断模式
本发明根据现有的运行的线损指标和历史统计指标,将日线损分为大负损(-100%~-1%)、小负损(-1%~0)、正常(0~6%)、正常但偏高(6%~10%)、高损(10%~30%)和超大损(30%~100%)六类,其中除了正常状态(0~6%)外的其他均属于异常状态,共计5类异常。本发明将畸变率的数值的设定为低(小于-5)、偏低(-5~-2)、正常(-2~2)、偏高(2~5)、高(大于5)5种。然后结合1.1中的历史线损水平和线损畸变率初步对异常线损的原因进行分类,构建初步的异常线损的诊断模式,该模式如下表所示:
表1初步的异常线损诊断模式
通过线表1中的对应关系,可以初步对异常原因进行判断,但是还未能进行更加量化、准确的判断。
1.3改进的K-means聚类方法
为了对异常线损有更加量化的准确判断,本发明提出了改进的K-means聚类方法。在传统的K-means聚类方法基础上,根据表1的诊断模式确定了聚类的数量,然后改变传统方法初始聚类中心随机生成的方式,并且在每类样本中以密度最大的样本作为初始聚类中心;本发明还将个体密度和欧式距离相结合,引入平均类间最大相似度评估聚类效果,保证离类数据中心越近的数据更加聚集,优化聚类效果。
1.3.1传统的K-means聚类
K-means聚类算法是以数据点到各类别中心的某种距离和作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则,对某一含有I个N维向量样本的待聚类数据集S进行聚类,I表示数据个数,N表示个数据的维度。聚类算法的输入向量为si(xi1,yi,ηi),由si组成待聚类数据集SI×N。其聚类方法的步骤及流程如下所示:
步骤1:输入待聚类数据集SI×N,确定聚类的数量K,并从SI×N中随机K行数据作为初始的聚类中心,用Z1,Z2,…,ZK;
步骤2:计算剩余未划分的I-K个样本数据到每个聚类中心点的距离Dis(si,Zk),并将该样本数据归到与之最近的聚类中心所在的聚类中。计算方法采用欧式距离,公式如下:
公式中Dis(si,Zk)表示SI×N中第i个数据与第k个聚类中心的距离;k表示聚类中心的编号,其取值范围是[1,K]且k为整数。
步骤3:对已完成的每一个聚类,按照下式(3)计算该聚类内所有数据平均值不断更新聚类中心,
公式中,n
j代表第j个聚类集合中样本的数目;
代表第j个聚类集合中的i各样本。
步骤4:通过不断地迭代计算,直至前后两次聚类中心一样时,聚类完成,否则重复步骤2重新进行聚类。
1.3.2聚类数量和初始聚类中心的改进
传统的K-means仍存在一些缺陷,只有在K值已知的前提下算法才能继续执行,但在实际应用中,事先并不知道将数据集分成多少个类才能获得最优的聚类效果。另一方面,K-means算法在确定了聚类数目K后,需要随机选取出个初始中心点,然后进入迭代运算,但是其初始聚类中心点完全是随机选取的,初始中心点不同,聚类结果也不同,这导致聚类结果波动范围大,稳定性差。
(1)针对传统的K-means算法初始聚类数量不确定问题,本发明根据异常线损的同期特性,将所有线损的可能性按照实时线损、历史线损和线损畸变率3个指标进行划分,得到如表1的异常线损诊断模式,按照1h线损指标xi1范围分为5类,每一类下又分为2种线损情况,因此所有线损的数据类型按照其特征可分为10类。因此本发明根据线损特性,聚类个数K取值为10。
(2)针对传统的K-means算法初始聚类中心不确定问题,本发明将密度公式和距离公式相结合,其样本的点密度、类内和类间公式如下:
公式中,num(xi)为变量si在以Zk为聚类中心,距离半径为r区域内的数据个数;Density(si)为变量的个体密度;r为人为设定的领域半径。
类内距离di为类中每个点到本聚类中心之间的距离,公式如下:
公式中,k1和k2分别为两个不同聚类中心的编号。
本发明按照公式(4)在每类中选择最高密度的数据点si作为初始聚类中心,在每次聚类更新后按照公式(3)更新聚类中心,同时在每次聚类更新后,选择距离其他聚类中心Zk相对最远的点作为备用聚类中心,该备用聚类中心可以使不同的类尽可能相互排斥,从而保证了类间的低相似性,即减少了类间数据相互重叠,从而提高聚类效果。
本发明还引入了平均类间最大相似度SIM值,表示每一个类与其他类之间的最大相似度的均值,类间相似代表越低代表类间相独立性强,说明聚类效果越理想。因此,SIM可用来评估聚类效果,其公式如下:
公式中,
和
分别为第k1和k2类中任意两点间的距离,k
1和k
2为变量。
聚类中心更新的具体方法是在每次聚类更新时,按照公式(3)得到的聚类中心和备用聚类中心下分别计算两者的SIM值,选择SIM值小的即为新的聚类中心。
改进后的K-means流程如下:
1.4异常原因的标签映射
通过改进后的K-means可对样本数据进行聚类,本发明将聚类后的数据,分别用标签1~10进行标注;然后通过各类的聚类中心数值大小,根据表1的诊断模式,将标签1~10映射到异常原因:档案关系异常、表底异常、电能表时钟或精度差异、线路重载(以及设备老化、无功配置不合理)、档案异常(或窃电漏电)这5类主要原因。
1.5异常原因的自动诊断
自动诊断过程如下:
请参阅图3所示,本发明异常线损诊断全过程的流程为:通过输入配电网其他任意线路的1h线损xj,判断该值是否为正常(正常范围0~6%),若不在此范围即认为异常,并进行异常诊断;获取该线路近24h的线损数据,根据公式(1)计算该线路的3个关键指标组成的向量为si(xi1,yi,ηi),然后通过公式(2)计算与该向量最近的聚类中心Zk;最后,将Zk的标签和建立的映射关系,即可找到该线路的主要异常原因。
本发明主要应用于异常线损诊断领域,其的工作过程如下:
(1)首先获取某条线路的实时线损数据,数据获取的时间周期为1h,根据正常限速运行范围为0~6%判断该线路是否为异常线损线路。若范围内为正常,则继续等待下1h线损数据;若在正常范围外,则为异常线损,然后进行下一步的异常线损诊断工作;
(2)获取改线路的近24h历史线损数据,计算关键指标:24小时平均线损率和线损畸变率,然后将1h实时线损与上述2个指标共同组成3个关键指标向量si;
(3)构建改进K-means聚类方法的异常线损诊断模型。详细步骤如下:
1)获取大量异常线损的历史数据及异常原因,并且每个数据样本计算出上述的3个关键指标,组成多个3维的训练样本;
2)然后根据历史异常同期线损性分析,将3个关键指标特征与异常原因进行联立,建立表1的异常线损诊断模式,并且确定聚类的数量K;
3)引入密度和距离公式,在每类训练样本中初步选择密度最大的数据作为初始的数据中心;
4)进入聚类的迭代环节,每次迭代更新聚类中心的位置,然后按照公式(3)更新聚类中心,并且在选择距离其他聚类中心Zk相对最远的点作为备用聚类中心,然后计算在这2种聚类中心下的平均类间最大相似度SIM指标,选择SIM小的为新的聚类中心;然后将训练样本根据欧式距离公式,选择就近的新聚类中心最近的类,完成剩余其他数据的所述类别更新;最后判断若聚类中心不再变化或者迭代次数达到上限,停止聚类迭代,输出各类的聚类中心坐标及其标签;
5)按照构建的表1中异常线损诊断模式,将各聚类中心及其标签映射到主要异常原因中,完成基于改进K-means聚类方法的异常线损诊断模型。
(4)计算步骤(2)中该线路的3个关键指标向量与步骤(4)中各聚类中心的距离,选择最近的聚类中心,然后按照步骤(4)中的映射关系,找到该线路的主要异常原因,完成线损诊断工作。
验证:
步骤1:本发明方案的实验验证首先是获取数量足够且具有代表性的配电网线损数据,选择了A市10kV区域配电网2019年3~8月的线损异常数据的历史数据和诊断数据。数据时间周期为1h,包括异常线损时刻、数值和原因,以及该时刻近24小时数据。按照表1的识别模式分为5组数据,大负损数据100个、小负损数据200个、正常但偏高数据300个、高损200个和超大损100个,共计900个数据,每组数据包含了历史正常和历史异常2类;
步骤2:提取5组10类数据的3个关键指标:实时1h线损率、历史24h平均线损率和线损畸变率标组成的向量为si(xi1,yi,ηi),共计900个向量;
步骤3:搭建改进的K-means聚类模型,并将步骤2的900组数据输入到聚类模型中,得到如下聚类结果:
图4分别用3个关键指标作为空间坐标系的坐标轴,用不同的颜色和形状所聚的不同类别在空间中进行展示,其中红色标签即为该类的数据中心。
得到的10个不同的类,其聚类中心及其标签如下:
Z1(-0.392,-0.550,0.725),标签6;Z2(-0.756,0.044,-17.132),标签2;
Z3(-0.022,-0.019,1.831),标签9;Z4(-0.174,0.0456,-3.73),标签1;
Z5(0.092,0.047,1.957),标签3;Z6(0.068,0.071,0.958),标签7;
Z7(0.374,0.2673,1.364),标签8;Z8(0.373,0.0445,8.386),标签5;
Z9(0.587,0.645,0.907),标签10;Z10(0.842,0.045,18.593)标签4。
步骤4:将所有聚类中心及其标签按照表1映射异常原因;
步骤5:对其他线路的异常线损进行诊断。任意选取该配电网3条线路异常线损数据,获取其24小时线损数据:
表2某条异常线损24小时数据
对该数据进行初步判断,在14:00时线损率为0.152,超过6%,因此为异常线损线路;然后获取其近24h历史数据,计算其关键的指标为s1(0.152,0.039,3.897);接下来,根据公式(2)计算s1与所有聚类中心Z1~Z10的距离,计算结果分别为3.271,21.048,2.074,7.633,1.941,2.940,2.553,4.406,3.802,14.71。可以看出该数据离聚类中心Z4最近,因此该数据属于Z4类。最后Z4的标签为1,根据映射关系得到线损异常原因为表底异常。
由技术常识可知,本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此,上述公开的实施方案,就各方面而言,都只是举例说明,并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。