CN115409645A

CN115409645A - 一种基于改进深度强化学习的综合能源系统能量管理方法

Info

Publication number: CN115409645A
Application number: CN202210965022.6A
Authority: CN
Inventors: 肖浩; 浦骁威; 裴玮; 马腾飞; 马丽; 彭大健
Original assignee: Institute of Electrical Engineering of CAS
Current assignee: Institute of Electrical Engineering of CAS
Priority date: 2022-08-12
Filing date: 2022-08-12
Publication date: 2022-11-29

Abstract

本发明提供一种基于改进深度强化学习的综合能源系统能量管理方法，包括：1)基于综合能源系统的历史运行数据，采用长短时记忆神经网络搭建各综合能源系统等值封装模型；2)构建各综合能源系统能量管理策略学习训练所需的强化学习环境；3)采用k优先采样策略代替ε贪心策略改进深度强化学习算法，并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。本发明通过长短时记忆神经网络的等值建模简化了多综合能源系统互动时的复杂迭代过程，降低了能量管理方案求解难度，同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次，具有更好的收敛性与稳定性。

Description

一种基于改进深度强化学习的综合能源系统能量管理方法

技术领域

本发明属于综合能源系统控制技术领域，具体涉及一种基于改进深度强化学习的综合能源系统能量管理方法。

背景技术

为了推动全球低碳转型的进程，碳排放中占比较大的能源电力行业带来了新的挑战。综合能源系统可以实现电、热、气多能源互补，是优化转型能源结构转型、促进低碳发展目标实现的重要抓手。面向综合能源系统的建设方向正逐步从“源 -源”横向多能互补系统向“源-网-荷-储”纵向一体化的方向发展。合理的对综合能源系统进行能量管理是减小分布式能源波动对电网冲击、促进可再生能源发展应用，以及缓解化石能源紧张、减少碳排放的有效途径。因此，对综合能源系统配置合理有效的能量管理方法对加速推进低碳综合能源系统的建设具有重要意义。

目前，针对综合能源系统的能量管理和优化调度已有大量研究，其中主流方法包括非线性规划、二阶锥规划，混合整数规划等为代表的数学优化类方法，以及遗传算法、粒子群算法为代表的启发式算法。中国发明专利CN111969602A提供一种综合能源系统的日前随机优化调度方法及装置，采用动态规划的并行优化方法求解最小化综合能源系统运行的期望成本为目标的日前随机优化调度模型；虽然数学优化方法理论清晰，且一定程度能保障解的最优性，但此类数学规划模型通常是对供能系统的约束条件做了适当简化，在处理大规模非线性规划问题时具有局限性。中国发明专利CN111463773A提供一种区域型综合能源系统能量管理优化方法和装置，采用蒙特卡罗法进行抽样,并结合遗传算法进行求解,以区域型综合能源系统的能量管理成本最低为目标进行构建优化模型；此类启发式算法虽然求解方便且可以保证在多项式时间内给出较优的结果，但是求解的结果难以保证解的全局最优性。

发明内容

为克服现有技术的缺点，本发明提出一种基于改进深度强化学习的综合能源系统能量管理方法。本发明通过长短时记忆神经网络的等值建模简化了多个综合能源系统互动时的复杂迭代过程，降低了能量管理方案求解难度，同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次，具有更好的收敛性与稳定性；此外，本发明也不需要详细了解各园区内设备的详细参数信息，还可以实现在复杂变化的场景中热、电多元能量管理策略的自适应学习进化，提升综合能源系统的运行经济性。

为达到上述目的，本发明采用的技术方案为：

一种基于改进深度强化学习的综合能源系统能量管理方法，主要包括以下步骤：

步骤(1)：基于综合能源系统的历史运行数据，采用长短时记忆神经网络搭建综合能源系统等值封装模型；

步骤(2)：构建综合能源系统能量管理策略学习训练所需的强化学习环境；

步骤(3)：采用k优先采样策略，并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习。

进一步地，所述步骤(1)中，基于综合能源系统的历史运行数据，采用长短时记忆神经网络搭建综合能源系统等值封装模型，步骤如下：

步骤(1-1)：选取长短时记忆神经网络模型的输入变量和输出变量

综合能源系统的历史运行数据主要包括：风电机组、光伏机组等这些不可控型分布式可再生能源发电机组的出力，微燃机、燃料电池等可控型分布式发电机组的出力，电负荷，热负荷，电能交易价格，热能交易价格，电能交易额以及热能交易额。出于优化运行和协调运行的需要，输出变量选择综合能源系统的电能交易额和热能交易额，其余变量作为输入变量；

步骤(1-2)：数据处理，统计综合能源系统的历史运行数据，对其进行数据标幺化、训练集与测试集的划分等预处理；

式(1)中，D表示历史运行数据组成的数据集；X表示一组所有变量构成的列向量，d表示第d天，M表示总共的天数；t表示一天中的第t个时段，N通常为24，表示一天24个时段；D^u表示标幺化后的历史数据；min(·)表示取最小值函数，max(·)表示取最大值函数；

表示标幺化后从历史数据中取出的训练集，

表示标幺化后从历史数据中取出的测试集，ε表示训练集占总数据集的比例；

步骤(1-3)：训练长短时记忆神经网络模型：

采用长短期记忆神经网络，基于反向传播的小批量梯度下降法对训练集数据进行学习训练：

式(2)中，x_t代表第t个时段从训练数据集中取出的数据集合；h_t-1代表第t个时段之前累积；f_t代表当前迭代第t个时段对应的遗忘门输出，w_f和b_f为遗忘层中各神经元的权值系数和偏置系数，σ(·)代表s型曲线函数，i_t代表第t个时段输入层的输出，w_i和b_i为输入层中各神经元的权值系数和偏置系数，

代表第t个时段卷积层的预估输出，w_c和b_c为卷积层中各神经元的权值系数和偏置系数，tanh(·)代表双曲正切函数，c_t代表当第t个时段卷积层的实际输出，o_t代表第t个时段输出层输出，w_o和b_o为输出层中各神经元的权值系数和偏置系数， h_t代表当第t个时段实际输出；

步骤(1-4)：长短时记忆神经网络模型效果评估：

使用测试集对长短时记忆神经网络模型进行测试，采用均方根误差进行效果评估；

式(3)中，RMSE表示模型预测值与真实值的均方根误差，x_test表示测试集中网络的输入变量，y_test表示测试集中网络的输出变量，net表示训练好的网络函数。

进一步地，所述步骤(2)中，构建综合能源系统能量管理策略学习训练所需的强化学习环境的步骤如下：

步骤(2-1)：设定状态空间：

将每个综合能源系统的控制中心视作一个智能体，所述智能体可观测到的状态空间为：

S＝S^C×S^X×S^T (4)

式(4)中，S^C代表可控观测量，S^X代表不可控观测量，S^T代表时序信息观测量；

可控观测量包括综合能源系统内部分布式储储能状态量SoC_t，TCL负荷的状态量SoT_t以及市场价格水平C_t，可观测量如下式所示：

S^C＝[SoC_t,SoT_t,C^b _t] (5)

式(5)中，不可控观测量包括温度T_t，分布式能源提供的电能G_t，分布式能源提供的热能 H_t，与其它综合能源系统的能源交易价格

以及电负荷

与热负荷

不可观测量如式(6) 所示：

时序信息观测量包括当前天数t_d，当前小时t_h，如式(7)所示：

S^T＝[t_d,t_h] (7)

步骤(2-2)：设定动作空间：

所述智能体的动作空间为一个10维的离散空间，该动作空间主要包括对电能的控制A_e以及对热能的控制A_h，如式(8)所示：

A＝A^e×A^h (8)

对电能的控制动作为：

A^e＝[a_tcl,a_l,a_c,a_G,a_p,a_s] (9)

式(9)中，a_tcl为TCL负荷的控制信号，a_l为价格响应型电负荷的控制信息，a_c为分布式储能罐的充放电控制信号，a_G为燃气轮机的发电功率控制信号，a_p为电能交易价格控制信号， a_s为电能交易顺序控制信号；

对热能的控制动作为：

A^h＝[a_hc,a_hG,a_hp,a_hs] (10)

式(10)中，a_hc为储热罐的控制信号，a_hG为锅炉补燃控制信号，a_hp为热能交易价格控制信号，a_hs为热能交易顺序控制信号。

步骤(2-3)：设定奖励函数：

为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标，设定的奖励函数如下：

R_t＝S_t-C_t+Pen_t (11)

式(11)中，S_t为出售能源所获的收益，C_t为获得能源的成本，Pen_t为惩罚项；

式(12)中，出售能源的收益S_t主要来自向综合能源系统内部用户以及其它综合能源系统； N_l为综合能源系统内部负荷用户数量，Lⁱ _t为第i个用户在t时刻的电负荷大小，Lⁱ _h,t为第i个用户在t时刻的热负荷大小，P_t为在t时刻的售电价格，P_h,t为在t时刻的热能出售价格；N_a为可交易综合能源系统数量，P^j _t为在t时刻向第j个综合能源系统的电能出售价格，E^j _t为在 t时刻向第j个综合能源系统出售的电能大小，P^j _h,t为在t时刻向第j个综合能源系统的热能出售价格，H^j _t为在t时刻向第j个综合能源系统出售的热能大小；

式(13)中，获取能源的成本C_t主要来自分布式能源的发电、产热成本以及向其它综合能源系统的购买成本；C_e为发电成本，G_t为t时刻微燃机的发电量，C_h为热能成本，H_t为t时刻锅炉补燃提供的热能，P^k _t为在t时刻向第k个综合能源系统的电能购买价格，E^k _t为在t时刻向第k个综合能源系统购买的电能大小，P^k _h,t为在t时刻向第k个综合能源系统的热能购买价格，H^k _t为在t时刻向第k个综合能源系统购买的热能大小；

式(14)中，λ为惩罚系数，在每天的非起始时刻惩罚项始终为0，在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。

进一步地，所述步骤(3)中，采用k优先采样策略，并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习的步骤如下：

步骤(3-1)：初始化经验池以及Q网络参数：

随机初始化智能体的动作，并记录智能体的状态转移过程，将智能体的当前状态，当前采取的动作，下一状态，奖励函数存入经验池，直至填满经验池。同时，初始化目标Q网络的权重；

步骤(3-2)：获取当前环境状态s_t：

取当前时段内综合能源系统中的风电机组出力、光伏机组出力，分布式储能状态，电负荷大小，热负荷大小，实时电交易价格以及实时热交易价格，作为智能体可观测的环境状态 s_t；

步骤(3-3)：用k优先采样策略改进深度强化学习算法，选择当前动作a_t：

k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作，接着根据softmax函数计算出k个候选动作的归一化得分，最后按照符合归一化得分的概率分布完成动作的选取。

k-优先采样策略的数学表达式为：

式(15)中，s为当前智能体所处的状态；a为智能体可选的动作；π(a|s)为策略函数，用于描述状态s下选择动作a的概率；Q(s,a)为状态s与动作a构成的动作价值函数；a_k∈A^*， A^*为所有动作价值Q(s,a)中最高的k个动作所构成的集合，其表达式为：

式(16)中，

代表全体动作集合中动作价值函数最大的k个动作；

步骤(3-4)：更新经验池：

执行根据k-优先采用策略获得的当前动作a_t，获得下一时刻的状态s_t+1以及奖励值r_t，将状态转移过程以(s_t,a_t,r_t,s_t+1)的形式存储至经验池，若经验池已经填满则删除最早的经验记录，若经验池没有填满则进行下一步；

步骤(3-5)：更新Q网络参数：

从经验池中随机抽取N个数据(si,ai,ri,si+1)，计算目标网络预测值：

y_i＝r_i+γmax_aQ_ω′(s_i+1,a) (17)

式(17)中，y_i代表第i个样本目标网络预测值，γ为衰减系数，Q_ω′(s_i+1,a)为目标网络计算出的s_i+1状态下的动作价值函数，

代表目标网络参数；

用梯度下降法更新Q网络参数，最小化损失函数为：

式(18)中，Q_ω(s_i,a_i)为评估网络计算出的s_i状态下的动作价值函数，

代表评估网络参数；

最后，重复步骤(3-2)～步骤(3-5)直至达到最大训练次数。

有益效果：

本发明通过长短时记忆神经网络的等值建模简化了多个综合能源系统互动时的复杂迭代过程，降低了能量管理方案求解难度，同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次，具有更好的收敛性与稳定性；此外，本发明也不需要详细了解各综合能源系统内设备的详细参数信息，还可以实现在复杂变化的场景中热、电多元能量管理策略的自适应学习进化，提升综合能源系统的运行经济性。相较传统的数学优化类方法，本发明无需对综合能源系统的约束条件进行简化，能够完整反映综合能源系统的动态特性，求解结果更加精准，能够适用于复杂的非线性场景；相较启发式算法，本发收敛性能更佳，同时可以适用于不同的场景，无需重新训练模型，可以实现实时能量管理的功能。

附图说明

图1为本发明的基于改进深度强化学习算法的综合能源系统管理方法流程图；

图2为本发明的改进深度强化学习算法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明的基于改进深度强化学习算法的园区综合能源系统能量管理方法，主要包括以下步骤：

步骤1：基于综合能源系统的历史运行数据，采用长短时记忆神经网络搭建综合能源系统等值封装模型；

步骤2：构建综合能源系统能量管理策略学习训练所需的强化学习环境；

步骤3：采用k优先采样策略，并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习。

本发明具体实施流程如图1所示，包括以下步骤：

步骤1、基于综合能源系统的历史运行数据，采用长短时记忆神经网络搭建综合能源系统等值封装模型，具体包括：

(1-1)选取长短时记忆神经网络模型的输入变量和输出变量。

(1-2)数据处理，统计各个综合能源系统历史运行数据，对其进行数据标幺化、训练集与测试集的划分等预处理；

表示标幺化后从历史数据中取出的训练集，

(1-3)训练长短时记忆神经网络模型。

采用长短期记忆神经网络，基于反向传播的小批量梯度下降法对训练集的数据进行学习训练：

(1-4)进行长短时记忆神经网络模型效果评估。

步骤2、构建综合能源系统能量管理策略学习训练所需的强化学习环境，具体包括：

(2-1)设定状态空间：

智能体可观测到的状态空间为：

S＝S^C×S^X×S^T (4)

可控观测量包括综合能源系统内部分布式储能状态量SoC_t，TCL负荷的状态量SoT_t以及市场价格水平C_t，可观测量如下式所示：

S^C＝[SoC_t,SoT_t,C^b _t] (5)

不可控观测量包括温度T_t，分布式能源提供的电能G_t，分布式能源提供的热能H_t，与其它综合能源系统的能源交易价格

以及电负荷

与热负荷

不可观测量如式(6)所示：

S^T＝[t_d,t_h] (7)

(2-2)设定动作空间：

将每个综合能源系统的控制中心视作一个智能体，其动作空间为一个10维的离散空间，该动作空间A主要包括对电能的控制A_e以及对热能的控制A_h，如式(8)所示：

A＝A^e×A^h (8)

对电能的控制动作为：

A^e＝[a_tcl,a_l,a_c,a_G,a_p,a_s] (9)

对热能的控制动作为：

A^h＝[a_hc,a_hG,a_hp,a_hs] (10)

(2-3)设定奖励函数：

R_t＝S_t-C_t+Pen_t (11)

式(12)中，出售能源的收益S_t主要来自向综合能源系统内部用户以及其它综合能源系统；N_l为综合能源系统内部负荷用户数量，Lⁱ _t为第i个用户在t时刻的电负荷大小，Lⁱ _h,t为第i个用户在t时刻的热负荷大小，P_t为在t时刻的售电价格，P_h,t为在t时刻的热能出售价格；N_a为可交易综合能源系统数量，P^j _t为在t时刻向第j个综合能源系统的电能出售价格，E^j _t为在 t时刻向第j个综合能源系统出售的电能大小，P^j _h,t为在t时刻向第j个综合能源系统的热能出售价格，H^j _t为在t时刻向第j个综合能源系统出售的热能大小；

步骤3.采用k优先采样策略代替ε贪心策略改进深度强化学习算法，并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习，具体包括：

(3-1)初始化经验池以及Q网络参数：

随机初始化综合能源系统能量管理智能体的动作，并记录智能体的状态转移过程，将综合能源系统能量管理智能体的当前状态，当前采取的动作，下一状态，奖励函数存入经验池，直至填满经验池。同时，初始化Q网络的权重；在强化学习中，Q(s,a)函数用作表征在状态 s下采用动作a所能获得的累计期望回报，而在状态空间连续的情况下通常无法有效维护Q 表，需要使用值函数近似的方式来逼近Q函数。Q网络为使用神经网络来近似Q值的方法，同时为了避免频繁更新网络带来的Q值不稳定，采用两套Q网络进行交替更新。其中评估 Q网络的参数初始化为

目标Q网络的参数初始化为

评估Q网络每步都进行更新，目标Q网络每隔一定时长进行更新。

(3-2)获取当前环境状态s_t：

(3-3)用k优先采样策略改进深度强化学习算法，选择当前动作a_t：

传统深度强化学习方法使用的是ε贪心策略，即每次选择动作时以1-ε的概率选择最优动作，以ε的概率探索其他动作，其策略函数为：

式(15)中，a^*＝argmax_a Q(s,a)，代表贪心动作；ε贪心策略在小规模动作空间中有助于遍历动作空间，平衡策略的探索率与利用率；s为当前智能体所处的状态；a为智能体可选的动作；π(a|s)为策略函数，用于描述状态s下选择动作a的概率。该策略仅适用于低维离散动作空间的强化学习环境，在面对大规模离散动作空间时会面临探索效率低下，收敛速度慢且容易收敛于次优解的问题。这是由于在高维离散的动作空间中，传统的ε贪心策略在采取非贪心策略探索时过于低效，无法有效更新Q值网络参数。为此，本发明提出一种针对大规模离散动作空间下的k优先采样策略。

本发明的改进深度强化学习算法的流程图如图2所示：

k-优先采样策略的数学表达式为：

式(16)中，s为当前智能体所处的状态；a为智能体可选的动作；π(a|s)为策略函数，用于描述状态s下选择动作a的概率；Q(s,a)为状态s与动作a构成的动作价值函数；a_k∈A^*， A^*为所有动作价值Q(s,a)中最高的k个动作所构成的集合，其表达式为：

式(17)中，

代表全体动作集合中动作价值函数最大的k个动作；

(3-4)更新经验池：

(3-5)更新Q网络参数：

从经验池中随机抽取N个数据(s_i,a_i,r_i,s_i+1)，计算目标网络预测值：

y_i＝r_i+γmax_a Q_ω′(s_i+1,a) (18)

式(18)中，y_i代表第i个样本目标网络预测值，γ为衰减系数，Q_ω′(s_i+1,a)为目标网络计算出的s_i+1状态下的动作价值函数，

代表目标网络参数；

用梯度下降法更新Q网络参数，最小化损失函数为：

式(19)中，Q_ω(s_i,a_i)为评估网络计算出的s_i状态下的动作价值函数，

代表评估网络参数；

最后，重复步骤(3-2)～步骤(3-5)直至达到最大训练次数。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于改进深度强化学习的综合能源系统能量管理方法，其特征在于，包括以下步骤：

步骤(2)：构建各综合能源系统能量管理策略学习训练所需的强化学习环境；

步骤(3)：采用k优先采样策略，并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。

2.如权利要求1所述的一种基于改进深度强化学习的综合能源系统能量管理方法，其特征在于，所述步骤(1)具体包括如下步骤：

步骤(1-1)选取长短时记忆神经网络模型的输入变量和输出变量：

所述综合能源系统的历史运行数据包括风电机组、光伏机组的不可控型分布式可再生发电机组的出力，包括微燃机、燃料电池的可控型分布式发电机组的出力，电负荷，热负荷，电能交易价格，热能交易价格，电能交易额以及热能交易额；输出变量选择综合能源系统的电能交易额和热能交易额，其余变量作为输入变量；

步骤(1-2)进行数据处理，统计各个综合能源系统的历史运行数据，对其进行数据标幺化、训练集与测试集的划分；

式中，D表示历史运行数据组成的数据集；X表示一组所有变量构成的列向量，d表示第d天，M表示总共的天数；t表示一天中的第t个时段，N通常为24，表示一天24个时段；D^u表示标幺化后的历史数据；min(·)表示取最小值函数，max(·)表示取最大值函数；

表示标幺化后从历史数据中取出的训练集，

步骤(1-3)训练长短时记忆神经网络模型：

式中，x_t代表第t个时段从训练数据集中取出的数据集合；h_t-1代表第t个时段之前累积；f_t代表当前迭代第t个时段对应的遗忘门输出，w_f和b_f为遗忘层中各神经元的权值系数和偏置系数，σ(·)代表s型曲线函数，i_t代表第t个时段输入层的输出，w_i和b_i为输入层中各神经元的权值系数和偏置系数，

代表第t个时段卷积层的预估输出，w_c和b_c为卷积层中各神经元的权值系数和偏置系数，tanh(·)代表双曲正切函数，c_t代表当第t个时段卷积层的实际输出，o_t代表第t个时段输出层输出，w_o和b_o为输出层中各神经元的权值系数和偏置系数，h_t代表当第t个时段实际输出；

步骤(1-4)进行长短时记忆神经网络模型效果评估：

式中，RMSE表示模型预测值与真实值的均方根误差，x_test表示测试集中网络的输入变量，y_test表示测试集中网络的输出变量，net表示训练好的网络函数。

3.如权利要求2所述的一种基于改进深度强化学习的综合能源系统能量管理方法，其特征在于，所述步骤(2)中具体包括如下步骤：

步骤(2-1)设定状态空间：

S＝S^C×S^X×S^T

式中，S^C代表可控观测量，S^X代表不可控观测量，S^T代表时序信息观测量；

S^C＝[SoC_t,SoT_t,C^b _t]

不可控观测量包括温度T_t，分布式能源提供的电能G_t，分布式能源提供的热能H_t，与不同综合能源系统的能源交易价格

以及电负荷

与热负荷

不可观测量如下式所示：

时序信息观测量包括当前天数t_d，当前小时t_h，如下式所示：

S^T＝[t_d,t_h]

步骤(2-2)设定动作空间：

所述智能体的动作空间为一个10维的离散空间，该动作空间A包括对电能的控制A^e以及对热能的控制A^h，如下式所示：

A＝A^e×A^h

对电能的控制动作为：

A^e＝[a_tcl,a_l,a_c,a_G,a_p,a_s]

式中，a_tcl为TCL负荷的控制信号，a_l为价格响应型电负荷的控制信息，a_c为分布式储能罐的充放电控制信号，a_G为燃气轮机的发电功率控制信号，a_p为电能交易价格控制信号，a_s为电能交易顺序控制信号；

对热能的控制动作为：

A^h＝[a_hc,a_hG,a_hp,a_hs]

式中，a_hc为储热罐的控制信号，a_hG为锅炉补燃控制信号，a_hp为热能交易价格控制信号，a_hs为热能交易顺序控制信号；

步骤(2-3)设定奖励函数：

为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标，设定奖励函数如下：

R_t＝S_t-C_t+Pen_t

式中，S_t为出售能源所获的收益，C_t为获得能源的成本，Pen_t为惩罚项；

式中，出售能源的收益S_t主要来自向综合能源系统内部用户以及其他综合能源系统；N_l为综合能源系统内部负荷用户数量，Lⁱ _t为第i个用户在t时刻的电负荷大小，Lⁱ _h,t为第i个用户在t时刻的热负荷大小，P_t为在t时刻的售电价格，P_h,t为在t时刻的热能出售价格；N_a为可交易综合能源系统数量，P^j _t为在t时刻向第j个综合能源系统的电能出售价格，E^j _t为在t时刻向第j个综合能源系统出售的电能大小，P^j _h,t为在t时刻向第j个综合能源系统的热能出售价格，H^j _t为在t时刻向第j个综合能源系统出售的热能大小；

式中，获取能源的成本C_t主要来自分布式能源的发电、产热成本以及向其他综合能源系统的购买成本；C_e为发电成本，G_t为t时刻微燃机的发电量，C_h为热能成本，H_t为t时刻锅炉补燃提供的热能，P^k _t为在t时刻向第k个综合能源系统的电能购买价格，E^k _t为在t时刻向第k个综合能源系统购买的电能大小，P^k _h,t为在t时刻向第k个综合能源系统的热能购买价格，H^k _t为在t时刻向第k个综合能源系统购买的热能大小；

式中，λ为惩罚系数，在每天的非起始时刻惩罚项始终为0，在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。

4.如权利要求3所述的一种基于改进深度强化学习的综合能源系统能量管理方法，其特征在于，所述步骤(3)具体包括如下步骤：

步骤(3-1)初始化经验池以及Q网络参数：

随机初始化智能体的动作，并记录智能体的状态转移过程，将智能体的当前状态，当前采取的动作，下一状态，奖励函数存入经验池，直至填满经验池；同时，初始化目标Q网络的权重；

步骤(3-2)获取当前环境状态s_t：

取当前时段内综合能源系统中的风电机组出力、光伏机组出力，分布式储能状态，电负荷大小，热负荷大小，实时电交易价格以及实时热交易价格，作为智能体可观测的环境状态s_t；

步骤(3-3)用k优先采样策略改进深度强化学习算法，选择当前动作a_t：

k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作，接着根据softmax函数计算出k个候选动作的归一化得分，最后按照符合归一化得分的概率分布完成动作的选取；

k-优先采样策略的数学表达式为：

式中，s为当前智能体所处的状态；a为智能体可选的动作；π(a|s)为策略函数，用于描述状态s下选择动作a的概率；Q(s,a)为状态s与动作a构成的动作价值函数；a_k∈A^*，A^*为所有动作价值Q(s,a)中最高的k个动作所构成的集合，其表达式为：

式中，

代表全体动作集合中动作价值函数最大的k个动作；

步骤(3-4)更新经验池：

执行k-优先策略获得的当前动作a_t，获得下一时刻的状态s_t+1以及奖励值r_t，将状态转移过程以(s_t,a_t,r_t,s_t+1)的形式存储至经验池，若经验池已经填满则删除最早的经验记录，若经验池没有填满则进行下一步；

步骤(3-5)更新Q网络参数：

y_i＝r_i+γmax_aQ_ω′(s_i+1,a)

式中，y_i代表第i个样本目标网络预测值，γ为衰减系数，Q_ω′(s_i+1,a)为目标网络计算出的s_i+1状态下的动作价值函数，

代表目标网络参数；

用梯度下降法更新Q网络参数，最小化损失函数为：

式中，Q_ω(s_i,a_i)为评估网络计算出的s_i状态下的动作价值函数，

代表评估网络参数；

最后，重复步骤(3-2)～步骤(3-5)直至达到最大训练次数。