CN115409645A - 一种基于改进深度强化学习的综合能源系统能量管理方法 - Google Patents
一种基于改进深度强化学习的综合能源系统能量管理方法 Download PDFInfo
- Publication number
- CN115409645A CN115409645A CN202210965022.6A CN202210965022A CN115409645A CN 115409645 A CN115409645 A CN 115409645A CN 202210965022 A CN202210965022 A CN 202210965022A CN 115409645 A CN115409645 A CN 115409645A
- Authority
- CN
- China
- Prior art keywords
- energy
- time
- energy system
- representing
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 40
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 76
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000015654 memory Effects 0.000 claims abstract description 23
- 238000005070 sampling Methods 0.000 claims abstract description 16
- 238000013528 artificial neural network Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 51
- 239000003795 chemical substances by application Substances 0.000 claims description 27
- 238000012360 testing method Methods 0.000 claims description 24
- 238000003062 neural network model Methods 0.000 claims description 12
- 210000002569 neuron Anatomy 0.000 claims description 12
- 230000005611 electricity Effects 0.000 claims description 9
- 238000004146 energy storage Methods 0.000 claims description 9
- 238000010248 power generation Methods 0.000 claims description 9
- 230000008901 benefit Effects 0.000 claims description 7
- 229910052739 hydrogen Inorganic materials 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000011478 gradient descent method Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000002485 combustion reaction Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000009825 accumulation Methods 0.000 claims description 3
- 210000004027 cell Anatomy 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000007599 discharging Methods 0.000 claims description 3
- 238000009826 distribution Methods 0.000 claims description 3
- 239000000446 fuel Substances 0.000 claims description 3
- 238000005338 heat storage Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000004806 packaging method and process Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- UFHFLCQGNIYNRP-UHFFFAOYSA-N Hydrogen Chemical compound [H][H] UFHFLCQGNIYNRP-UHFFFAOYSA-N 0.000 claims 1
- 239000007789 gas Substances 0.000 claims 1
- 239000001257 hydrogen Substances 0.000 claims 1
- 238000005538 encapsulation Methods 0.000 abstract description 3
- 230000003993 interaction Effects 0.000 abstract description 3
- 238000012804 iterative process Methods 0.000 abstract description 3
- 238000005457 optimization Methods 0.000 description 8
- 229910052799 carbon Inorganic materials 0.000 description 5
- 230000009466 transformation Effects 0.000 description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0283—Price estimation or determination
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Development Economics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Finance (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Entrepreneurship & Innovation (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种基于改进深度强化学习的综合能源系统能量管理方法,包括:1)基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建各综合能源系统等值封装模型;2)构建各综合能源系统能量管理策略学习训练所需的强化学习环境;3)采用k优先采样策略代替ε贪心策略改进深度强化学习算法,并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。本发明通过长短时记忆神经网络的等值建模简化了多综合能源系统互动时的复杂迭代过程,降低了能量管理方案求解难度,同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,具有更好的收敛性与稳定性。
Description
技术领域
本发明属于综合能源系统控制技术领域,具体涉及一种基于改进深度强化学习的综合能源系统能量管理方法。
背景技术
为了推动全球低碳转型的进程,碳排放中占比较大的能源电力行业带来了新的挑战。综合能源系统可以实现电、热、气多能源互补,是优化转型能源结构转型、促进低碳发展目标实现的重要抓手。面向综合能源系统的建设方向正逐步从“源 -源”横向多能互补系统向“源-网-荷-储”纵向一体化的方向发展。合理的对综合能源系统进行能量管理是减小分布式能源波动对电网冲击、促进可再生能源发展应用,以及缓解化石能源紧张、减少碳排放的有效途径。因此,对综合能源系统配置合理有效的能量管理方法对加速推进低碳综合能源系统的建设具有重要意义。
目前,针对综合能源系统的能量管理和优化调度已有大量研究,其中主流方法包括非线性规划、二阶锥规划,混合整数规划等为代表的数学优化类方法,以及遗传算法、粒子群算法为代表的启发式算法。中国发明专利CN111969602A提供一种综合能源系统的日前随机优化调度方法及装置,采用动态规划的并行优化方法求解最小化综合能源系统运行的期望成本为目标的日前随机优化调度模型;虽然数学优化方法理论清晰,且一定程度能保障解的最优性,但此类数学规划模型通常是对供能系统的约束条件做了适当简化,在处理大规模非线性规划问题时具有局限性。中国发明专利CN111463773A提供一种区域型综合能源系统能量管理优化方法和装置,采用蒙特卡罗法进行抽样,并结合遗传算法进行求解,以区域型综合能源系统的能量管理成本最低为目标进行构建优化模型;此类启发式算法虽然求解方便且可以保证在多项式时间内给出较优的结果,但是求解的结果难以保证解的全局最优性。
发明内容
为克服现有技术的缺点,本发明提出一种基于改进深度强化学习的综合能源系统能量管理方法。本发明通过长短时记忆神经网络的等值建模简化了多个综合能源系统互动时的复杂迭代过程,降低了能量管理方案求解难度,同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,具有更好的收敛性与稳定性;此外,本发明也不需要详细了解各园区内设备的详细参数信息,还可以实现在复杂变化的场景中热、电多元能量管理策略的自适应学习进化,提升综合能源系统的运行经济性。
为达到上述目的,本发明采用的技术方案为:
一种基于改进深度强化学习的综合能源系统能量管理方法,主要包括以下步骤:
步骤(1):基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型;
步骤(2):构建综合能源系统能量管理策略学习训练所需的强化学习环境;
步骤(3):采用k优先采样策略,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习。
进一步地,所述步骤(1)中,基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型,步骤如下:
步骤(1-1):选取长短时记忆神经网络模型的输入变量和输出变量
综合能源系统的历史运行数据主要包括:风电机组、光伏机组等这些不可控型分布式可再生能源发电机组的出力,微燃机、燃料电池等可控型分布式发电机组的出力,电负荷,热负荷,电能交易价格,热能交易价格,电能交易额以及热能交易额。出于优化运行和协调运行的需要,输出变量选择综合能源系统的电能交易额和热能交易额,其余变量作为输入变量;
步骤(1-2):数据处理,统计综合能源系统的历史运行数据,对其进行数据标幺化、训练集与测试集的划分等预处理;
式(1)中,D表示历史运行数据组成的数据集;X表示一组所有变量构成的列向量,d表示第d天,M表示总共的天数;t表示一天中的第t个时段,N通常为24,表示一天24个时段;Du表示标幺化后的历史数据;min(·)表示取最小值函数,max(·)表示取最大值函数;表示标幺化后从历史数据中取出的训练集,表示标幺化后从历史数据中取出的测试集,ε表示训练集占总数据集的比例;
步骤(1-3):训练长短时记忆神经网络模型:
采用长短期记忆神经网络,基于反向传播的小批量梯度下降法对训练集数据进行学习训练:
式(2)中,xt代表第t个时段从训练数据集中取出的数据集合;ht-1代表第t个时段之前累积;ft代表当前迭代第t个时段对应的遗忘门输出,wf和bf为遗忘层中各神经元的权值系数和偏置系数,σ(·)代表s型曲线函数,it代表第t个时段输入层的输出,wi和bi为输入层中各神经元的权值系数和偏置系数,代表第t个时段卷积层的预估输出,wc和bc为卷积层中各神经元的权值系数和偏置系数,tanh(·)代表双曲正切函数,ct代表当第t个时段卷积层的实际输出,ot代表第t个时段输出层输出,wo和bo为输出层中各神经元的权值系数和偏置系数, ht代表当第t个时段实际输出;
步骤(1-4):长短时记忆神经网络模型效果评估:
使用测试集对长短时记忆神经网络模型进行测试,采用均方根误差进行效果评估;
式(3)中,RMSE表示模型预测值与真实值的均方根误差,xtest表示测试集中网络的输入变量,ytest表示测试集中网络的输出变量,net表示训练好的网络函数。
进一步地,所述步骤(2)中,构建综合能源系统能量管理策略学习训练所需的强化学习环境的步骤如下:
步骤(2-1):设定状态空间:
将每个综合能源系统的控制中心视作一个智能体,所述智能体可观测到的状态空间为:
S=SC×SX×ST (4)
式(4)中,SC代表可控观测量,SX代表不可控观测量,ST代表时序信息观测量;
可控观测量包括综合能源系统内部分布式储储能状态量SoCt,TCL负荷的状态量SoTt以及市场价格水平Ct,可观测量如下式所示:
SC=[SoCt,SoTt,Cb t] (5)
时序信息观测量包括当前天数td,当前小时th,如式(7)所示:
ST=[td,th] (7)
步骤(2-2):设定动作空间:
所述智能体的动作空间为一个10维的离散空间,该动作空间主要包括对电能的控制Ae以及对热能的控制Ah,如式(8)所示:
A=Ae×Ah (8)
对电能的控制动作为:
Ae=[atcl,al,ac,aG,ap,as] (9)
式(9)中,atcl为TCL负荷的控制信号,al为价格响应型电负荷的控制信息,ac为分布式储能罐的充放电控制信号,aG为燃气轮机的发电功率控制信号,ap为电能交易价格控制信号, as为电能交易顺序控制信号;
对热能的控制动作为:
Ah=[ahc,ahG,ahp,ahs] (10)
式(10)中,ahc为储热罐的控制信号,ahG为锅炉补燃控制信号,ahp为热能交易价格控制信号,ahs为热能交易顺序控制信号。
步骤(2-3):设定奖励函数:
为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标,设定的奖励函数如下:
Rt=St-Ct+Pent (11)
式(11)中,St为出售能源所获的收益,Ct为获得能源的成本,Pent为惩罚项;
式(12)中,出售能源的收益St主要来自向综合能源系统内部用户以及其它综合能源系统; Nl为综合能源系统内部负荷用户数量,Li t为第i个用户在t时刻的电负荷大小,Li h,t为第i个用户在t时刻的热负荷大小,Pt为在t时刻的售电价格,Ph,t为在t时刻的热能出售价格;Na为可交易综合能源系统数量,Pj t为在t时刻向第j个综合能源系统的电能出售价格,Ej t为在 t时刻向第j个综合能源系统出售的电能大小,Pj h,t为在t时刻向第j个综合能源系统的热能出售价格,Hj t为在t时刻向第j个综合能源系统出售的热能大小;
式(13)中,获取能源的成本Ct主要来自分布式能源的发电、产热成本以及向其它综合能源系统的购买成本;Ce为发电成本,Gt为t时刻微燃机的发电量,Ch为热能成本,Ht为t时刻锅炉补燃提供的热能,Pk t为在t时刻向第k个综合能源系统的电能购买价格,Ek t为在t时刻向第k个综合能源系统购买的电能大小,Pk h,t为在t时刻向第k个综合能源系统的热能购买价格,Hk t为在t时刻向第k个综合能源系统购买的热能大小;
式(14)中,λ为惩罚系数,在每天的非起始时刻惩罚项始终为0,在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。
进一步地,所述步骤(3)中,采用k优先采样策略,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习的步骤如下:
步骤(3-1):初始化经验池以及Q网络参数:
随机初始化智能体的动作,并记录智能体的状态转移过程,将智能体的当前状态,当前采取的动作,下一状态,奖励函数存入经验池,直至填满经验池。同时,初始化目标Q网络的权重;
步骤(3-2):获取当前环境状态st:
取当前时段内综合能源系统中的风电机组出力、光伏机组出力,分布式储能状态,电负荷大小,热负荷大小,实时电交易价格以及实时热交易价格,作为智能体可观测的环境状态 st;
步骤(3-3):用k优先采样策略改进深度强化学习算法,选择当前动作at:
k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取。
k-优先采样策略的数学表达式为:
式(15)中,s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率;Q(s,a)为状态s与动作a构成的动作价值函数;ak∈A*, A*为所有动作价值Q(s,a)中最高的k个动作所构成的集合,其表达式为:
步骤(3-4):更新经验池:
执行根据k-优先采用策略获得的当前动作at,获得下一时刻的状态st+1以及奖励值rt,将状态转移过程以(st,at,rt,st+1)的形式存储至经验池,若经验池已经填满则删除最早的经验记录,若经验池没有填满则进行下一步;
步骤(3-5):更新Q网络参数:
从经验池中随机抽取N个数据(si,ai,ri,si+1),计算目标网络预测值:
yi=ri+γmaxaQω′(si+1,a) (17)
用梯度下降法更新Q网络参数,最小化损失函数为:
最后,重复步骤(3-2)~步骤(3-5)直至达到最大训练次数。
有益效果:
本发明通过长短时记忆神经网络的等值建模简化了多个综合能源系统互动时的复杂迭代过程,降低了能量管理方案求解难度,同时改进的深度强化学习算法能够在大规模动作空间的探索中减少对低奖励值动作的访问频次,具有更好的收敛性与稳定性;此外,本发明也不需要详细了解各综合能源系统内设备的详细参数信息,还可以实现在复杂变化的场景中热、电多元能量管理策略的自适应学习进化,提升综合能源系统的运行经济性。相较传统的数学优化类方法,本发明无需对综合能源系统的约束条件进行简化,能够完整反映综合能源系统的动态特性,求解结果更加精准,能够适用于复杂的非线性场景;相较启发式算法,本发收敛性能更佳,同时可以适用于不同的场景,无需重新训练模型,可以实现实时能量管理的功能。
附图说明
图1为本发明的基于改进深度强化学习算法的综合能源系统管理方法流程图;
图2为本发明的改进深度强化学习算法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明的基于改进深度强化学习算法的园区综合能源系统能量管理方法,主要包括以下步骤:
步骤1:基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型;
步骤2:构建综合能源系统能量管理策略学习训练所需的强化学习环境;
步骤3:采用k优先采样策略,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习。
本发明具体实施流程如图1所示,包括以下步骤:
步骤1、基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型,具体包括:
(1-1)选取长短时记忆神经网络模型的输入变量和输出变量。
综合能源系统的历史运行数据主要包括:风电机组、光伏机组等这些不可控型分布式可再生能源发电机组的出力,微燃机、燃料电池等可控型分布式发电机组的出力,电负荷,热负荷,电能交易价格,热能交易价格,电能交易额以及热能交易额。出于优化运行和协调运行的需要,输出变量选择综合能源系统的电能交易额和热能交易额,其余变量作为输入变量;
(1-2)数据处理,统计各个综合能源系统历史运行数据,对其进行数据标幺化、训练集与测试集的划分等预处理;
式(1)中,D表示历史运行数据组成的数据集;X表示一组所有变量构成的列向量,d表示第d天,M表示总共的天数;t表示一天中的第t个时段,N通常为24,表示一天24个时段;Du表示标幺化后的历史数据;min(·)表示取最小值函数,max(·)表示取最大值函数;表示标幺化后从历史数据中取出的训练集,表示标幺化后从历史数据中取出的测试集,ε表示训练集占总数据集的比例;
(1-3)训练长短时记忆神经网络模型。
采用长短期记忆神经网络,基于反向传播的小批量梯度下降法对训练集的数据进行学习训练:
式(2)中,xt代表第t个时段从训练数据集中取出的数据集合;ht-1代表第t个时段之前累积;ft代表当前迭代第t个时段对应的遗忘门输出,wf和bf为遗忘层中各神经元的权值系数和偏置系数,σ(·)代表s型曲线函数,it代表第t个时段输入层的输出,wi和bi为输入层中各神经元的权值系数和偏置系数,代表第t个时段卷积层的预估输出,wc和bc为卷积层中各神经元的权值系数和偏置系数,tanh(·)代表双曲正切函数,ct代表当第t个时段卷积层的实际输出,ot代表第t个时段输出层输出,wo和bo为输出层中各神经元的权值系数和偏置系数, ht代表当第t个时段实际输出;
(1-4)进行长短时记忆神经网络模型效果评估。
使用测试集对长短时记忆神经网络模型进行测试,采用均方根误差进行效果评估;
式(3)中,RMSE表示模型预测值与真实值的均方根误差,xtest表示测试集中网络的输入变量,ytest表示测试集中网络的输出变量,net表示训练好的网络函数。
步骤2、构建综合能源系统能量管理策略学习训练所需的强化学习环境,具体包括:
(2-1)设定状态空间:
智能体可观测到的状态空间为:
S=SC×SX×ST (4)
式(4)中,SC代表可控观测量,SX代表不可控观测量,ST代表时序信息观测量;
可控观测量包括综合能源系统内部分布式储能状态量SoCt,TCL负荷的状态量SoTt以及市场价格水平Ct,可观测量如下式所示:
SC=[SoCt,SoTt,Cb t] (5)
时序信息观测量包括当前天数td,当前小时th,如式(7)所示:
ST=[td,th] (7)
(2-2)设定动作空间:
将每个综合能源系统的控制中心视作一个智能体,其动作空间为一个10维的离散空间,该动作空间A主要包括对电能的控制Ae以及对热能的控制Ah,如式(8)所示:
A=Ae×Ah (8)
对电能的控制动作为:
Ae=[atcl,al,ac,aG,ap,as] (9)
式(9)中,atcl为TCL负荷的控制信号,al为价格响应型电负荷的控制信息,ac为分布式储能罐的充放电控制信号,aG为燃气轮机的发电功率控制信号,ap为电能交易价格控制信号, as为电能交易顺序控制信号;
对热能的控制动作为:
Ah=[ahc,ahG,ahp,ahs] (10)
式(10)中,ahc为储热罐的控制信号,ahG为锅炉补燃控制信号,ahp为热能交易价格控制信号,ahs为热能交易顺序控制信号。
(2-3)设定奖励函数:
为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标,设定的奖励函数如下:
Rt=St-Ct+Pent (11)
式(11)中,St为出售能源所获的收益,Ct为获得能源的成本,Pent为惩罚项;
式(12)中,出售能源的收益St主要来自向综合能源系统内部用户以及其它综合能源系统;Nl为综合能源系统内部负荷用户数量,Li t为第i个用户在t时刻的电负荷大小,Li h,t为第i个用户在t时刻的热负荷大小,Pt为在t时刻的售电价格,Ph,t为在t时刻的热能出售价格;Na为可交易综合能源系统数量,Pj t为在t时刻向第j个综合能源系统的电能出售价格,Ej t为在 t时刻向第j个综合能源系统出售的电能大小,Pj h,t为在t时刻向第j个综合能源系统的热能出售价格,Hj t为在t时刻向第j个综合能源系统出售的热能大小;
式(13)中,获取能源的成本Ct主要来自分布式能源的发电、产热成本以及向其它综合能源系统的购买成本;Ce为发电成本,Gt为t时刻微燃机的发电量,Ch为热能成本,Ht为t时刻锅炉补燃提供的热能,Pk t为在t时刻向第k个综合能源系统的电能购买价格,Ek t为在t时刻向第k个综合能源系统购买的电能大小,Pk h,t为在t时刻向第k个综合能源系统的热能购买价格,Hk t为在t时刻向第k个综合能源系统购买的热能大小;
式(14)中,λ为惩罚系数,在每天的非起始时刻惩罚项始终为0,在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。
步骤3.采用k优先采样策略代替ε贪心策略改进深度强化学习算法,并基于改进深度强化学习算法对综合能源系统能量管理策略在线学习,具体包括:
(3-1)初始化经验池以及Q网络参数:
随机初始化综合能源系统能量管理智能体的动作,并记录智能体的状态转移过程,将综合能源系统能量管理智能体的当前状态,当前采取的动作,下一状态,奖励函数存入经验池,直至填满经验池。同时,初始化Q网络的权重;在强化学习中,Q(s,a)函数用作表征在状态 s下采用动作a所能获得的累计期望回报,而在状态空间连续的情况下通常无法有效维护Q 表,需要使用值函数近似的方式来逼近Q函数。Q网络为使用神经网络来近似Q值的方法,同时为了避免频繁更新网络带来的Q值不稳定,采用两套Q网络进行交替更新。其中评估 Q网络的参数初始化为目标Q网络的参数初始化为评估Q网络每步都进行更新,目标Q网络每隔一定时长进行更新。
(3-2)获取当前环境状态st:
取当前时段内综合能源系统中的风电机组出力、光伏机组出力,分布式储能状态,电负荷大小,热负荷大小,实时电交易价格以及实时热交易价格,作为智能体可观测的环境状态 st;
(3-3)用k优先采样策略改进深度强化学习算法,选择当前动作at:
传统深度强化学习方法使用的是ε贪心策略,即每次选择动作时以1-ε的概率选择最优动作,以ε的概率探索其他动作,其策略函数为:
式(15)中,a*=argmaxa Q(s,a),代表贪心动作;ε贪心策略在小规模动作空间中有助于遍历动作空间,平衡策略的探索率与利用率;s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率。该策略仅适用于低维离散动作空间的强化学习环境,在面对大规模离散动作空间时会面临探索效率低下,收敛速度慢且容易收敛于次优解的问题。这是由于在高维离散的动作空间中,传统的ε贪心策略在采取非贪心策略探索时过于低效,无法有效更新Q值网络参数。为此,本发明提出一种针对大规模离散动作空间下的k优先采样策略。
本发明的改进深度强化学习算法的流程图如图2所示:
k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取。
k-优先采样策略的数学表达式为:
式(16)中,s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率;Q(s,a)为状态s与动作a构成的动作价值函数;ak∈A*, A*为所有动作价值Q(s,a)中最高的k个动作所构成的集合,其表达式为:
(3-4)更新经验池:
执行根据k-优先采用策略获得的当前动作at,获得下一时刻的状态st+1以及奖励值rt,将状态转移过程以(st,at,rt,st+1)的形式存储至经验池,若经验池已经填满则删除最早的经验记录,若经验池没有填满则进行下一步;
(3-5)更新Q网络参数:
从经验池中随机抽取N个数据(si,ai,ri,si+1),计算目标网络预测值:
yi=ri+γmaxa Qω′(si+1,a) (18)
用梯度下降法更新Q网络参数,最小化损失函数为:
最后,重复步骤(3-2)~步骤(3-5)直至达到最大训练次数。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,包括以下步骤:
步骤(1):基于综合能源系统的历史运行数据,采用长短时记忆神经网络搭建综合能源系统等值封装模型;
步骤(2):构建各综合能源系统能量管理策略学习训练所需的强化学习环境;
步骤(3):采用k优先采样策略,并基于改进深度强化学习算法对各综合能源系统能量管理策略在线学习。
2.如权利要求1所述的一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,所述步骤(1)具体包括如下步骤:
步骤(1-1)选取长短时记忆神经网络模型的输入变量和输出变量:
所述综合能源系统的历史运行数据包括风电机组、光伏机组的不可控型分布式可再生发电机组的出力,包括微燃机、燃料电池的可控型分布式发电机组的出力,电负荷,热负荷,电能交易价格,热能交易价格,电能交易额以及热能交易额;输出变量选择综合能源系统的电能交易额和热能交易额,其余变量作为输入变量;
步骤(1-2)进行数据处理,统计各个综合能源系统的历史运行数据,对其进行数据标幺化、训练集与测试集的划分;
式中,D表示历史运行数据组成的数据集;X表示一组所有变量构成的列向量,d表示第d天,M表示总共的天数;t表示一天中的第t个时段,N通常为24,表示一天24个时段;Du表示标幺化后的历史数据;min(·)表示取最小值函数,max(·)表示取最大值函数;表示标幺化后从历史数据中取出的训练集,表示标幺化后从历史数据中取出的测试集,ε表示训练集占总数据集的比例;
步骤(1-3)训练长短时记忆神经网络模型:
采用长短期记忆神经网络,基于反向传播的小批量梯度下降法对训练集数据进行学习训练:
式中,xt代表第t个时段从训练数据集中取出的数据集合;ht-1代表第t个时段之前累积;ft代表当前迭代第t个时段对应的遗忘门输出,wf和bf为遗忘层中各神经元的权值系数和偏置系数,σ(·)代表s型曲线函数,it代表第t个时段输入层的输出,wi和bi为输入层中各神经元的权值系数和偏置系数,代表第t个时段卷积层的预估输出,wc和bc为卷积层中各神经元的权值系数和偏置系数,tanh(·)代表双曲正切函数,ct代表当第t个时段卷积层的实际输出,ot代表第t个时段输出层输出,wo和bo为输出层中各神经元的权值系数和偏置系数,ht代表当第t个时段实际输出;
步骤(1-4)进行长短时记忆神经网络模型效果评估:
使用测试集对长短时记忆神经网络模型进行测试,采用均方根误差进行效果评估;
式中,RMSE表示模型预测值与真实值的均方根误差,xtest表示测试集中网络的输入变量,ytest表示测试集中网络的输出变量,net表示训练好的网络函数。
3.如权利要求2所述的一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,所述步骤(2)中具体包括如下步骤:
步骤(2-1)设定状态空间:
将每个综合能源系统的控制中心视作一个智能体,所述智能体可观测到的状态空间为:
S=SC×SX×ST
式中,SC代表可控观测量,SX代表不可控观测量,ST代表时序信息观测量;
可控观测量包括综合能源系统内部分布式储储能状态量SoCt,TCL负荷的状态量SoTt以及市场价格水平Ct,可观测量如下式所示:
SC=[SoCt,SoTt,Cb t]
时序信息观测量包括当前天数td,当前小时th,如下式所示:
ST=[td,th]
步骤(2-2)设定动作空间:
所述智能体的动作空间为一个10维的离散空间,该动作空间A包括对电能的控制Ae以及对热能的控制Ah,如下式所示:
A=Ae×Ah
对电能的控制动作为:
Ae=[atcl,al,ac,aG,ap,as]
式中,atcl为TCL负荷的控制信号,al为价格响应型电负荷的控制信息,ac为分布式储能罐的充放电控制信号,aG为燃气轮机的发电功率控制信号,ap为电能交易价格控制信号,as为电能交易顺序控制信号;
对热能的控制动作为:
Ah=[ahc,ahG,ahp,ahs]
式中,ahc为储热罐的控制信号,ahG为锅炉补燃控制信号,ahp为热能交易价格控制信号,ahs为热能交易顺序控制信号;
步骤(2-3)设定奖励函数:
为了使每个综合能源系统的能源管理方案负荷自身利益最大化的目标,设定奖励函数如下:
Rt=St-Ct+Pent
式中,St为出售能源所获的收益,Ct为获得能源的成本,Pent为惩罚项;
式中,出售能源的收益St主要来自向综合能源系统内部用户以及其他综合能源系统;Nl为综合能源系统内部负荷用户数量,Li t为第i个用户在t时刻的电负荷大小,Li h,t为第i个用户在t时刻的热负荷大小,Pt为在t时刻的售电价格,Ph,t为在t时刻的热能出售价格;Na为可交易综合能源系统数量,Pj t为在t时刻向第j个综合能源系统的电能出售价格,Ej t为在t时刻向第j个综合能源系统出售的电能大小,Pj h,t为在t时刻向第j个综合能源系统的热能出售价格,Hj t为在t时刻向第j个综合能源系统出售的热能大小;
式中,获取能源的成本Ct主要来自分布式能源的发电、产热成本以及向其他综合能源系统的购买成本;Ce为发电成本,Gt为t时刻微燃机的发电量,Ch为热能成本,Ht为t时刻锅炉补燃提供的热能,Pk t为在t时刻向第k个综合能源系统的电能购买价格,Ek t为在t时刻向第k个综合能源系统购买的电能大小,Pk h,t为在t时刻向第k个综合能源系统的热能购买价格,Hk t为在t时刻向第k个综合能源系统购买的热能大小;
式中,λ为惩罚系数,在每天的非起始时刻惩罚项始终为0,在每天的最后一个时刻根据与当天初始时刻的SoC差值确定惩罚项。
4.如权利要求3所述的一种基于改进深度强化学习的综合能源系统能量管理方法,其特征在于,所述步骤(3)具体包括如下步骤:
步骤(3-1)初始化经验池以及Q网络参数:
随机初始化智能体的动作,并记录智能体的状态转移过程,将智能体的当前状态,当前采取的动作,下一状态,奖励函数存入经验池,直至填满经验池;同时,初始化目标Q网络的权重;
步骤(3-2)获取当前环境状态st:
取当前时段内综合能源系统中的风电机组出力、光伏机组出力,分布式储能状态,电负荷大小,热负荷大小,实时电交易价格以及实时热交易价格,作为智能体可观测的环境状态st;
步骤(3-3)用k优先采样策略改进深度强化学习算法,选择当前动作at:
k-优先采样策略先根据所有动作的Q值挑选出k个最高Q值的候选动作,接着根据softmax函数计算出k个候选动作的归一化得分,最后按照符合归一化得分的概率分布完成动作的选取;
k-优先采样策略的数学表达式为:
式中,s为当前智能体所处的状态;a为智能体可选的动作;π(a|s)为策略函数,用于描述状态s下选择动作a的概率;Q(s,a)为状态s与动作a构成的动作价值函数;ak∈A*,A*为所有动作价值Q(s,a)中最高的k个动作所构成的集合,其表达式为:
步骤(3-4)更新经验池:
执行k-优先策略获得的当前动作at,获得下一时刻的状态st+1以及奖励值rt,将状态转移过程以(st,at,rt,st+1)的形式存储至经验池,若经验池已经填满则删除最早的经验记录,若经验池没有填满则进行下一步;
步骤(3-5)更新Q网络参数:
从经验池中随机抽取N个数据(si,ai,ri,si+1),计算目标网络预测值:
yi=ri+γmaxaQω′(si+1,a)
用梯度下降法更新Q网络参数,最小化损失函数为:
最后,重复步骤(3-2)~步骤(3-5)直至达到最大训练次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210965022.6A CN115409645A (zh) | 2022-08-12 | 2022-08-12 | 一种基于改进深度强化学习的综合能源系统能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210965022.6A CN115409645A (zh) | 2022-08-12 | 2022-08-12 | 一种基于改进深度强化学习的综合能源系统能量管理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115409645A true CN115409645A (zh) | 2022-11-29 |
Family
ID=84159220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210965022.6A Pending CN115409645A (zh) | 2022-08-12 | 2022-08-12 | 一种基于改进深度强化学习的综合能源系统能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115409645A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187601A (zh) * | 2023-05-04 | 2023-05-30 | 华北理工大学 | 一种基于负荷预测的综合能源系统运行优化方法 |
CN117726133A (zh) * | 2023-12-29 | 2024-03-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于强化学习的分布式能源实时调度方法及系统 |
CN117744894A (zh) * | 2024-02-19 | 2024-03-22 | 中国科学院电工研究所 | 一种综合能源系统的主动学习代理优化方法 |
-
2022
- 2022-08-12 CN CN202210965022.6A patent/CN115409645A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116187601A (zh) * | 2023-05-04 | 2023-05-30 | 华北理工大学 | 一种基于负荷预测的综合能源系统运行优化方法 |
CN116187601B (zh) * | 2023-05-04 | 2023-06-23 | 华北理工大学 | 一种基于负荷预测的综合能源系统运行优化方法 |
CN117726133A (zh) * | 2023-12-29 | 2024-03-19 | 国网江苏省电力有限公司信息通信分公司 | 一种基于强化学习的分布式能源实时调度方法及系统 |
CN117726133B (zh) * | 2023-12-29 | 2024-07-26 | 国网江苏省电力有限公司信息通信分公司 | 一种基于强化学习的分布式能源实时调度方法及系统 |
CN117744894A (zh) * | 2024-02-19 | 2024-03-22 | 中国科学院电工研究所 | 一种综合能源系统的主动学习代理优化方法 |
CN117744894B (zh) * | 2024-02-19 | 2024-05-28 | 中国科学院电工研究所 | 一种综合能源系统的主动学习代理优化方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109347149B (zh) | 基于深度q值网络强化学习的微电网储能调度方法及装置 | |
CN112614009B (zh) | 一种基于深度期望q-学习的电网能量管理方法及系统 | |
CN115409645A (zh) | 一种基于改进深度强化学习的综合能源系统能量管理方法 | |
CN108206543A (zh) | 一种基于能源梯级利用的能源路由器及其运行优化方法 | |
CN117833285A (zh) | 一种基于深度强化学习的微电网储能优化调度方法 | |
CN117077960A (zh) | 一种区域综合能源系统日前调度优化方法 | |
CN114723230B (zh) | 面向新能源发电和储能的微电网双层调度方法及系统 | |
CN110264012A (zh) | 基于经验模态分解的可再生能源功率组合预测方法及系统 | |
CN113794199A (zh) | 一种考虑电力市场波动的风电储能系统最大收益优化方法 | |
CN118174355A (zh) | 一种微电网能量优化调度方法 | |
CN117973644B (zh) | 一种考虑参考电站优化的分布式光伏功率虚拟采集方法 | |
Zhang et al. | Physical-model-free intelligent energy management for a grid-connected hybrid wind-microturbine-PV-EV energy system via deep reinforcement learning approach | |
Safari et al. | Optimal load sharing strategy for a wind/diesel/battery hybrid power system based on imperialist competitive neural network algorithm | |
CN117291390A (zh) | 一种基于SumTree-TD3算法的调度决策模型建立方法 | |
Tan et al. | Low‐carbon economic dispatch of the combined heat and power‐virtual power plants: A improved deep reinforcement learning‐based approach | |
CN115759604A (zh) | 一种综合能源系统优化调度方法 | |
CN116050632B (zh) | 一种基于纳什q学习的微电网群互动博弈策略学习进化方法 | |
CN112072643A (zh) | 一种基于深度确定性梯度策略的光-蓄系统在线调度方法 | |
CN115860169A (zh) | 一种火电机组深度调峰改造多目标优化规划方法及系统 | |
CN114169916B (zh) | 一种适应新型电力系统的市场成员报价策略制定方法 | |
Huang et al. | Collaborative optimization strategy of source‐grid‐load‐storage considering dynamic time series complementarity of multiple storages | |
CN114239372A (zh) | 一种考虑机组组合的多目标机组检修双层优化方法和系统 | |
CN117350425A (zh) | 一种虚拟电厂优化调度方法 | |
CN117543581A (zh) | 考虑电动汽车需求响应的虚拟电厂优化调度方法及其应用 | |
CN117595392A (zh) | 计及光伏消纳与光储充配置的配电网联合优化方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |