CN117913808A

CN117913808A - 一种分布式光伏发电预测方法及其装置

Info

Publication number: CN117913808A
Application number: CN202410064226.1A
Authority: CN
Inventors: 姜山; 焦建林; 窦家本; 王永; 何彦彬; 翟飞; 尹智; 李镓辰; 魏浩民; 余谦
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2024-01-16
Filing date: 2024-01-16
Publication date: 2024-04-19

Abstract

本发明属于光伏发电预测领域，公开一种分布式光伏发电预测方法及其装置；所述方法包括：先用聚类算法对气候数据做分类，再用LSTM神经网络对分类后的气候数据做分布式光伏发电量短期预测，所述聚类算法是K‑means算法，所述聚类算法由自适应K‑means算法对气候数据做第一次分类，再通过BIRCH树算法对第一次分类的结果做二次分类。本发明不需要根据经验进行类别假设，而是通过自适应K‑means算法指令模块实现类别数量和类别中心的自动识别，因此可以做出更准确的预测。同时不需要不断的对全部样本数据进行处理，而是通过BIRCH树算法指令模块将全部数据样本压缩为核心树，因此还可以同时节约计算的时间开销。

Description

一种分布式光伏发电预测方法及其装置

技术领域

本发明属于光伏发电预测领域，尤其涉及一种分布式光伏发电预测方法及其装置。

背景技术

光伏发电受到太阳辐射和天气条件的影响，极具不确定性和波动性。这给大型光伏发电并网带来了巨大的挑战，因此，提高预测准确度对光伏发电功率的预测非常重要。另外，由于光伏发电场景中有海量的数据样本，因此对于预测模型的训练效率也提出了很高的要求。现有技术中，分布式光伏发电量预测常用的预测方法是K-means算法结合LSTM算法，其中K-means算法对气候数据做分类，LSTM算法对同类气候数据做预测。其中K-means算法在实际应用中存在以下缺陷：

1、K-means算法用于计算类别中心与数据的距离，在进行大规模数据的分类预测时，通常根据经验进行类别假设，这种方法主观性较强，导致最终预测结果不准确。

2、K-means算法容易受到噪声和离群点的影响，同样也会导致预测结果不准确。

3、K-means算法需要不断的对全部样本数据进行分类调整，不断的计算调整后新的聚类中心点，因此当数据量非常大时，计算的时间开销是非常大的。

使用了南网电压为380V、装机容量为100kW的光伏电站从2022年1月到2022年12月的历史气候及发电量数据作为训练集，使用传统K-means算法结合LSTM算法对其做预测，发电功率的预测结果与实际发电功率真实值的对比如图1所示，可以看出使用传统K-means算法结合LSTM算法用于分布式光伏发电量预测是不准确的。

发明内容

本发明要解决的第一个技术问题是提供一种分布式光伏发电量预测方法，该方法可以对分布式光伏发电的电功率做出准确预测，同时可以节约计算的时间开销。

本发明要解决的第二个技术问题是提供一种分布式光伏发电量预测装置，该装置可以对分布式光伏发电的电功率做出准确预测，同时可以节约计算的时间开销。

就方法而言，为了解决上述第一个技术问题，本技术方案提供了一种分布式光伏发电量短期预测方法，先用聚类算法对气候数据做分类，再用LSTM神经网络对分类后的气候数据做分布式光伏发电量短期预测，所述聚类算法是K-means算法，所述聚类算法由自适应K-means算法对气候数据做第一次分类，再通过BIRCH树算法对第一次分类的结果做二次分类。

本技术方案的预测方法一方面不需要根据经验进行类别假设，而是通过自适应K-means算法实现类别数量和类别中心的自动识别，因此，可以做出更准确的预测。同时不需要不断的对全部样本数据进行处理，而是通过BIRCH树算法将全部数据样本压缩为核心树，因此，还可以同时节约计算的时间开销。

就产品而言，为了解决上述第二个技术问题，本发明提供了一种分布式光伏发电量短期预测装置，所述存储介质存储有用于对气候数据做分类的聚类算法指令模块和用于对分类后的气候数据做分布式光伏发电量短期预测的LSTM神经网络指令模块；所述聚类算法指令模块由自适应K-means算法指令模块与BIRCH树算法指令模块共同构成，所述自适应K-means算法指令模块用于对气候数据做第一次分类，所述BIRCH树算法指令模块用于对第一次分类的结果做二次分类。

本技术方案的预测装置一方面不需要根据经验进行类别假设，而是通过自适应K-means算法指令模块实现类别数量和类别中心的自动识别，因此可以做出更准确的预测。同时不需要不断的对全部样本数据进行处理，而是通过BIRCH树算法指令模块将全部数据样本压缩为核心树，因此还可以同时节约计算的时间开销。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为现有技术中使用传统K-means算法结合LSTM算法对发电功率做预测，发电功率的预测结果与实际发电功率真实值的对比。

图2为本实施方式使用自适应K-means算法对部分气候数据做分类得到初始聚类中心点，实现第一次分类的流程图。

图3为本实施方式使用初始聚类中心点构建BIRCH核心树，实现第二次分类，其核心树的结构图。

图4为本实施方式使用初始聚类中心点构建BIRCH核心树，实现第二次分类的流程图。

图5为本实施方式使用剩余气候数据迭代完善BIRCH核心树，完善第二次分类的流程图。

图6为本实施方式提供的分布式光伏发电短期预测方法和现有技术中传统K-means算法在计算耗时上的对比图。

图7为本实施方式分布式光伏发电短期预测方法的整体流程图。

图8为本实施方式LSTM神经网络神经元结构图。

图9为在优选参数下本实施方式提供的分布式光伏发电短期预测方法与其他方法在预测准确度上的对比图。

图10为本实施方式分布式光伏发电短期预测装置的存储介质的结构框图。

图11为本实施方式计算单元与存储介质的配合关系图。

图12为本实施方式分布式光伏发电短期预测装置整体结构框图。

具体实施方式

下面将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

以下详细说明均是示例性的说明，旨在对本发明提供进一步的详细说明。除非另有指明，本发明所采用的所有技术术语与本发明所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式，而并非意图限制根据本发明的示例性实施方式。

如图2至图12所示，本实施方式提供了一种分布式光伏发电量短期预测方法，先用聚类算法对气候数据做分类，再用LSTM神经网络对分类后的气候数据做发电功率预测，其中聚类算法由自适应K-means算法对气候数据做第一次分类，再通过BIRCH树算法对第一次分类的结果做二次分类。

本实施方式的预测方法一方面不需要根据经验进行类别假设，而是通过自适应K-means算法实现类别数量和类别中心的自动识别，因此可以做出更准确的预测。同时不需要不断的对全部样本数据进行处理，而是通过BIRCH树算法将全部数据样本压缩为核心树，因此还可以同时节约计算的时间开销。

作为本实施方式的各种改进详述如下。

所述聚类算法的具体步骤包括使用自适应K-means算法对部分气候数据做分类得到初始聚类中心点，实现第一次分类；使用初始聚类中心点构建BIRCH核心树，实现第二次分类；使用剩余气候数据迭代完善BIRCH核心树，完善第二次分类。

其中，如图3所示自适应K-means算法对部分气候数据做分类得到初始聚类中心点，实现第一次分类的具体步骤为：

(1)选定距离度量方式，所述距离度量方式是欧式距离、曼哈顿距离、簇连通平均距离或全连通平均距离的一种；设定自适应分类k的最大值为kmax，初始k值设为2，并从数据集中随机抽取若干样本；

(2)从所述随机抽取的若干样本中随机选择k个样本作为初始聚类中心点；

(3)计算剩余样本到各聚类中心的距离，并将其分配到最近的聚类中心点，形成k个簇；

(4)使用每个簇中全部样本的均值作为新的聚类中心点；

(5)重复步骤(2)和步骤(3)直到聚类中心点不发生显著变化为止；

计算当前k值下的聚类评估指数DBI，具体计算公式为：公式中：C_i和C_j分别表示i和j样本到相应聚类中心点的距离的平均值；

(6)D_i,j表示分类i的中心和分类j的中心之间的距离；

(7)更新k＝k+1，如果此时k≤kmax则回到步骤(2)，如果此时k>kmax则计算整个过程中得到最小DBI时的k值作为最优分类数kbest，并存储此时的各个聚类中心点数据；

(8)计算所述最优分类数kbest下的每个类别中的每个样本数据到该聚类中心点的距离，如果该距离小于或等于该聚类的半径，则将该样本数据存储为核心数据，否则存储为非核心数据；所述聚类的半径是该聚类中全部样本数据到聚类中心点的平均距离。

本实施方式的预测方法相较传统K-means算法不需要根据经验进行类别假设，而是通过自适应K-means算法随机初始化聚类中心，多次迭代求取最优k值的方式，实现类别数量和类别中心的自动识别，因此可以做出更准确的预测。

进一步的实施方式中使用初始聚类中心点构建BIRCH核心树，实现第二次分类，核心树结构如图3所示是多层树状结构；多层树状结构最顶层为根节点，最底层为叶子节点，中间层为支节点；每个相邻的叶子节点连接形成链表结构；每个节点均包含若干聚类特征CF；所述聚类特征CF是一个三元组，包括该聚类中的样本数量N、该聚类中全部样本的线性和LS、该聚类中全部样本的平方和SS。所述BIRCH核心树的上层节点内的每个聚类特征均对应下一层的一个儿子节点，并且该聚类特征数值等于其对应的儿子节点内的全部聚类特征数值之和，既所述三元组中的数值分别相加；通过聚类特征的数值可以计算出该聚类特征的中心位置半径R；计算公式为/>

如图4所示，所述使用初始聚类中心点构建BIRCH核心树，实现第二次分类的具体步骤为：

(1)设置非叶节点包含最大聚类特征数B，叶子节点最大聚类特征数L，叶子节点最大约束半径T；

(2)逐个读入kbest个分类的初始聚类中心点数据，如果没有任何节点则将该聚类中心点作为聚类特征生成一个根节点；如果已经存在节点，则从根节点开始逐级搜索；如果搜索的是非叶节点，则计算该非叶节内所有聚类特征的中心位置到最新读入的初始聚类中心点的距离；选出距离最短的聚类特征继续向它对应的下级儿子节点按同样规则搜索，直至搜索到与最新读入的初始聚类中心点最近的叶子节点；

(3)在所述叶子节点内，计算每个聚类特征的中心位置与最新读入的初始聚类中心点的距离，找到距离最短的聚类特征；如果该最短的距离小于或等于叶子节点最大约束半径T，则将该初始聚类的中心点数据加入该聚类特征，既原聚类特征的三元组数值与该初始聚类的中心点数据相加，然后进入步骤(5)；如果该最短的距离大于叶子节点最大约束半径T，则进入步骤(4)；(4)如果步骤(3)中所述叶子节点的聚类特征数小于叶子节点最大聚类特征数L，则将该初始聚类的中心点数据作为新的聚类特征加入该叶子节点；否则该叶子节点按照最远距离的方式向下分裂成两个新的叶子节点；首先计算所述叶子节点的全部聚类特征的中心位置以及所述最新读入的初始聚类的中心点两两之间的距离，选择距离最远的两个中心，计算其余中心分别到两个中心的距离，按照最近距离重新分配，最终分裂成两个新的叶子节点；

(5)由所述叶子节点向上沿路径逐层更新聚类特征数值，如果路径上的非叶节点内的聚类特征数在更新后大于非叶节点包含最大聚类特征数B，则按照步骤(4)中的分裂规则对该节点进行分裂，直至根节点；

当全部分类的初始聚类中心点数据读取并计算完毕后，使用初始各聚类中心点构建BIRCH核心树的过程结束。

本实施方式由于将初始聚类中心点构建成BIRCH核心树结构，将原本扁平结构且互相无关联的初始聚类方式构建为层次聚类，能够输出更多聚类之间关系的信息使得预测进一步准确。

再进一步的实施方式中如图5所示所述使用剩余气候数据迭代完善BIRCH核心树，完善第二次分类的具体步骤为：

(1)读入新的特征数据，从根节点开始，逐层计算新的特征数据与节点内全部聚类特征中心位置的距离，选择最短距离的聚类特征作为聚类路径继续向对应的儿子节点按相同规则向下搜索直至距离最近的叶节点；

(2)逐一计算叶节点内每个聚类特征中心位置与所述新加入的特征数据的距离D，如果该距离D小于或等于叶子节点最大约束半径T，则将其聚为一类；

(3)如果所述特征数据能够与叶节点中的某个聚类特征聚为一类，则判断该特征数据是否为该聚类特征的核心数据；

如果所述距离D小于或等于该聚类特征的半径，则将其视为该类别的核心数据；

如果所述距离D大于该聚类特征的半径，则将其视为该类别的非核心数据；

(4)对每个成为核心数据的特征数据，将其与对应聚类特征的中心位置的距离由近至远做出排序，并按该顺序存储到链表Dlink中；

计算该叶子节点离散度或该叶子节点及其相邻的叶子节点共同的离散度，离散度计算公式是p为离散度，core为核心数据数量，num为总的特征数据量，R是聚类特征数量，θ是叶子节点数量；

(5)如果所述离散度大于2，则计算所述节点中每个核心数据到各个聚类特征的中心位置的距离，将每个核心数据与它最近的聚类特征进行重新聚类；

如果重新聚类后所有核心数据到各个聚类特征中心的方差小于等于当前的方差则更新每个聚类特征的数值及其中的核心数据并按照步骤(4)重新存储到链表Dlink中，否则不发生更新。

本实施方式由于使用了核心数据完善BIRCH核心树，进而减少了非核心数据对聚类的干扰，使得预测进一步准确。

此外，由于采用离散度指标来判断是否需要重新聚类，进一步提高了本实施方式的抗干扰能力，避免对噪声数据点过于敏感。

另外，由于在计算离散度指标时选择计算当前叶子结点及其相邻的叶子节点共同的离散度，使得所产生的叶子节点聚类中心对输入数据的顺序不再依赖，更进一步提高了本实施方式的鲁棒性，提高预测准确度。

由图5还可以看出，本实施方式并不是像K-means算法一样将全部数据多次迭代优化，而是扫描一遍特征数据即可，并将有效数据压缩为核心树，因此在提高预测准确性的同时还可以节约计算的时间开销。图6对比了使用本实施方式和传统K-means算法在计算时效上的差别。可以看出在相同的较大数量的数据样本下，本实施方式的计算耗时小于传统K-means算法。

再更进一步的实施方式中完善了预测方法，如图7所示首先将原始数据集进行归一化处理，生成训练集和测试集；所述原始数据集包括每日的光辐射、温度、湿度、风速、气压等气候数据及发电功率；然后，通过所述聚类算法对训练集和测试集数据进行分类，将相同类别的数据使用所述LSTM神经网络训练进而获得光伏发电功率预测模型，使用所述预测模型对新的气候数据做出发电功率的预测。

本实施方式中，由于将原始数据集进行归一化处理进一步提高预测准确度。LSTM神经网络属于一个非线性模型，历史信息积累是通过存储单元的自连接来实现，最后一个存储单元的信息通过“记忆门”进行过滤，新信息的输入通过“输入门”进行控制，实现历史信息的积累。LSTM具有对时间的敏感性，能够学习到时序数据中的模式和特征。这使得LSTM在时间序列预测、信号处理等任务中具有优势。LSTM神经网络的神经元结构如图8所示。可以看出本实施方式中由于将所述聚类算法和LSTM相结合，可以达到更精准的预测的目的。

在优选的实施方式中，所述非叶节点包含最大聚类特征数B优选值为3，叶子节点最大聚类特征数L优选值为3，叶子节点最大约束半径T优选值为0.5。

经过对比试验，本实施方式由于使用了优选的参数，在分布式光伏发电短期预测中可以达到较高的准确度，如图9所示，本实施例即使用自适应K-means+BIRCH+LSTM相较K-means+LSTM或单独LSTM做预测，预测数值和真实值更为接近。

本实施方式提供了一种分布式光伏发电量短期预测装置，包括存储介质，存储介质的结构框图如图10所示。存储介质存储有用于对气候数据做分类的聚类算法指令模块和用于对分类后的气候数据做发电功率预测的LSTM神经网络指令模块；聚类算法指令模块由自适应K-means算法指令模块与BIRCH树算法指令模块共同构成，自适应K-means算法指令模块用于对气候数据做第一次分类，BIRCH树算法指令模块用于对第一次分类的结果做二次分类。

本实施方式的预测装置一方面不需要根据经验进行类别假设，而是通过自适应K-means算法指令模块实现类别数量和类别中心的自动识别，因此可以做出更准确的预测。同时不需要不断的对全部样本数据进行处理，而是通过BIRCH树算法指令模块将全部数据样本压缩为核心树，因此还可以同时节约计算的时间开销。

进一步的实施方式中还包括计算单元，所述计算单元读取所述存储介质的各个指令模块，并执行上述实施方式中的分布式光伏发电量短期预测方法。计算单元与存储介质的配合关系如图11所示。

本实施方式由于采用了计算单元与存储单元相配合，可以对所述预测方法有效执行。

更进一步的实施方式中还包括气候传感器、通讯单元。所述计算单元通过气候传感器采集光辐射、温度、湿度、风速、气压等气候的原始数据。所述计算单元通过通讯单元从光伏发电系统获取发电功率数据。整体结构框图如图12所示。

本实施方式由于加入了气候传感器和通讯单元，使得装置具备获取实时气候原始数据及光伏发电系统发电功率数据的能力，可以进一步对所述预测方法有效执行。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种分布式光伏发电量短期预测方法，其特征在于：先用聚类算法对气候数据做分类，再用LSTM神经网络对分类后的气候数据做分布式光伏发电量短期预测，所述聚类算法是K-means算法，所述聚类算法由自适应K-means算法对气候数据做第一次分类，再通过BIRCH树算法对第一次分类的结果做二次分类。

2.根据权利要求1所述分布式光伏发电量短期预测方法，其特征在于：

所述聚类算法的具体步骤包括使用自适应K-means算法对部分气候数据做分类得到初始聚类中心点，实现第一次分类；

使用初始聚类中心点构建BIRCH核心树，实现第二次分类；

使用剩余气候数据迭代完善BIRCH核心树，完善第二次分类。

3.根据权利要求2所述分布式光伏发电量短期预测方法，其特征在于：

所述使用自适应K-means算法对部分气候数据做分类得到初始聚类中心点，实现第一次分类的具体步骤为：

(1)选定距离度量方式，所述距离度量方式是欧式距离、曼哈顿距离、簇连通平均距离或全连通平均距离的一种；

设定自适应分类k的最大值为kmax，初始k值设为2，并从数据集中随机抽取若干样本；

(4)使用每个簇中全部样本的均值作为新的聚类中心点；

(5)重复步骤(2)和步骤(3)直到聚类中心点变化小于设定阈值；

(6)计算当前k值下的聚类评估指数DBI，具体计算公式为

公式中C_i和C_j分别表示i和j样本到相应聚类中心点的距离的平均值；D_i，j表示分类i的中心和分类j的中心之间的距离；

4.根据权利要求3所述分布式光伏发电量短期预测方法，其特征在于：

所述使用初始聚类中心点构建BIRCH核心树，实现第二次分类的步骤中，所述核心树结构是多层树状结构；

多层树状结构最顶层为根节点，最底层为叶子节点，中间层为支节点；

每个相邻的叶子节点连接形成链表结构；

每个节点均包含若干聚类特征CF；

所述聚类特征CF是一个三元组，包括该聚类中的样本数量N、该聚类中全部样本的线性和LS、该聚类中全部样本的平方和SS；

所述BIRCH核心树的上层节点内的每个聚类特征均对应下一层的一个儿子节点，并且该聚类特征数值等于其对应的儿子节点内的全部聚类特征数值之和，既所述三元组中的数值分别相加；通过聚类特征的数值可以计算出该聚类特征的中心位置半径R；计算公式为/>

使用初始聚类中心点构建BIRCH核心树，实现第二次分类的具体步骤为：

(2)逐个读入kbest个分类的初始聚类中心点数据，如果没有任何节点则将该聚类中心点作为聚类特征生成一个根节点；

如果已经存在节点，则从根节点开始逐级搜索；

如果搜索的是非叶节点，则计算该非叶节内所有聚类特征的中心位置到最新读入的初始聚类中心点的距离；

选出距离最短的聚类特征继续向它对应的下级儿子节点按同样规则搜索，直至搜索到与最新读入的初始聚类中心点最近的叶子节点；

(3)在所述叶子节点内，计算每个聚类特征的中心位置与最新读入的初始聚类中心点的距离，找到距离最短的聚类特征；

如果该最短的距离小于或等于叶子节点最大约束半径T，则将该初始聚类的中心点数据加入该聚类特征，即原聚类特征的三元组数值与该初始聚类的中心点数据相加，然后进入步骤(5)；如果该最短的距离大于叶子节点最大约束半径T，则进入步骤(4)；

(4)如果步骤(3)中所述叶子节点的聚类特征数小于叶子节点最大聚类特征数L，则将该初始聚类的中心点数据作为新的聚类特征加入该叶子节点；

否则该叶子节点按照最远距离的方式向下分裂成两个新的叶子节点；

首先计算所述叶子节点的全部聚类特征的中心位置以及所述最新读入的初始聚类的中心点两两之间的距离，选择距离最远的两个中心，计算其余中心分别到两个中心的距离，按照最近距离重新分配，最终分裂成两个新的叶子节点；

(6)当全部分类的初始聚类中心点数据读取并计算完毕后，使用初始各聚类中心点构建BIRCH核心树的过程结束。

5.根据权利要求4所述分布式光伏发电量短期预测方法，其特征在于：所述使用剩余气候数据迭代完善BIRCH核心树，完善第二次分类的具体步骤为：

(4)如果所述距离D小于或等于该聚类特征的半径，则将其视为该类别的核心数据；

(5)对每个成为核心数据的特征数据，将其与对应聚类特征的中心位置的距离由近至远做出排序，并按该顺序存储到链表Dlink中；

(6)计算该叶子节点离散度或该叶子节点及其相邻的叶子节点共同的离散度；

离散度计算公式是p为离散度，core为核心数据数量，num为总的特征数据量，R是聚类特征数量，θ是叶子节点数量；

(7)如果所述离散度大于2，则计算所述节点中每个核心数据到各个聚类特征的中心位置的距离，将每个核心数据与它最近的聚类特征进行重新聚类；如果重新聚类后所有核心数据到各个聚类特征中心的方差小于等于当前的方差则更新每个聚类特征的数值及其中的核心数据并按照步骤(4)重新存储到链表Dlink中，否则不发生更新。

6.根据权利要求5所述分布式光伏发电量短期预测方法，其特征在于：具体包括：首先将原始气候数据集进行归一化处理，生成训练集和测试集；

所述原始数据集包括每日的光辐射、温度、湿度、风速、气压等气候数据及发电功率；

然后，通过所述聚类算法对训练集和测试集数据进行分类，将相同类别的数据使用所述LSTM神经网络进行训练进而获得光伏发电功率预测模型；

使用所述预测模型对新的气候数据做出分布式光伏发电量短期预测。

7.根据权利要求6所述分布式光伏发电量短期预测方法，其特征在于：所述非叶节点包含最大聚类特征数B为3，叶子节点最大聚类特征数L为3，叶子节点最大约束半径T为0.5。

8.一种分布式光伏发电量短期预测装置，包括存储介质，其特征在于：所述存储介质存储有用于对气候数据做分类的聚类算法指令模块和用于对分类后的气候数据做分布式光伏发电量短期预测的LSTM神经网络指令模块；

所述聚类算法指令模块由自适应K-means算法指令模块与BIRCH树算法指令模块共同构成，所述自适应K-means算法指令模块用于对气候数据做第一次分类，所述BIRCH树算法指令模块用于对第一次分类的结果做二次分类。

9.根据权利要求8所述分布式光伏发电量短期预测装置，其特征在于：还包括计算单元，所述计算单元读取所述存储介质的各个指令模块，并执行如权利要求2-7中任意一项所述的分布式光伏发电量短期预测方法。

10.根据权利要求9所述分布式光伏发电量短期预测装置，其特征在于：还包括气候传感器、通讯单元；

所述计算单元通过气候传感器采集光辐射、温度、湿度、风速、气压等气候的原始数据；

所述计算单元通过通讯单元从光伏发电系统获取发电功率数据。