CN114740710A - 一种随机非线性多智能体的强化学习优化编队控制方法 - Google Patents
一种随机非线性多智能体的强化学习优化编队控制方法 Download PDFInfo
- Publication number
- CN114740710A CN114740710A CN202210453088.7A CN202210453088A CN114740710A CN 114740710 A CN114740710 A CN 114740710A CN 202210453088 A CN202210453088 A CN 202210453088A CN 114740710 A CN114740710 A CN 114740710A
- Authority
- CN
- China
- Prior art keywords
- formation
- agent
- reinforcement learning
- error
- equation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 230000015572 biosynthetic process Effects 0.000 title claims abstract description 60
- 230000002787 reinforcement Effects 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005457 optimization Methods 0.000 title claims abstract description 15
- 230000006870 function Effects 0.000 claims abstract description 44
- 238000013461 design Methods 0.000 claims abstract description 29
- 230000003044 adaptive effect Effects 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 14
- 238000004088 simulation Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005094 computer simulation Methods 0.000 abstract description 2
- 238000012795 verification Methods 0.000 abstract 1
- 239000003795 chemical substances by application Substances 0.000 description 49
- 239000011159 matrix material Substances 0.000 description 17
- 238000004891 communication Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 210000002569 neuron Anatomy 0.000 description 4
- 238000009795 derivation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000005653 Brownian motion process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/0205—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system
- G05B13/024—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric not using a model or a simulator of the controlled system in which a parameter or coefficient is automatically adjusted to optimise the performance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Feedback Control In General (AREA)
Abstract
本发明涉及自适应非线性控制技术领域,具体公开了一种随机非线性多智能体的强化学习优化编队控制方法,基于神经网络的函数逼近能力,设计了一种自适应辨识器对未知随机动力进行估计在期望意义,然后通过构建评判网络和执行经网络执行强化学习,从而获得优化控制;在本发明中,由于强化学习算法是通过对一个简单的正函数执行梯度下降法得到的,该函数设计根据HJB方程的偏导,因此可以使最优控制比传统的方法更简单,可以更方便地应用到随机非线性多智能体系统;最后,从定理证明和计算机仿真两个方面验证,所提出的优化方法能够实现预期的目标。
Description
技术领域
本发明涉及自适应非线性控制技术领域,具体涉及一种随机非线性多智能体的强化学习优化编队控制方法。
背景技术
随机系统的控制设计是一个非常具有挑战性的问题,因为它的微分不仅涉及随机扰动,而且还涉及稳定性分析中的Hessian项。随着控制理论的发展,一些流行的非线性控制技术,如Sontag的镇定公式,反步技术和自适应观测器,已经被推广到随机系统。值得提及的是,一些最优控制方法也被扩展到随机非线性系统。然而,由于随机多智能体控制需要状态耦合,给优化设计带来了困难,因此对随机多智能体系统的最优编队控制鲜有报道。主要原因是传统的强化学习优化方法,要么是复杂算法,要么要求一些严格的条件,如:持续激励,他们很难应用和推广到随机多智能体系统控制。针对这一情况,本发明提出了一种基于强化学习策略的多智能体优化编队控制方法。通过构建自适应辨识器,解决了未知随机动力问题。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种随机非线性多智能体的强化学习优化编队控制方法。
本发明解决其技术问题所采用的技术方案是:一种随机非线性多智能体的强化学习优化编队控制方法,包括以下步骤:
步骤1)建立多智能体系统状态与领航智能体状态之间的跟踪误差,并根据多智能体动力方程,推导出误差动力微分方程;
步骤2)定义基于邻居智能体的编队误差项,并利用误差动力微分方程,求导出编队误差微分方程;
步骤3)利用编队误差,定义分布式最优性能指标函数,并利用动力方程获得分布式HJB(Hamilton-Jacobi-Bellman)等式,利用HJB方程有唯一解的性质,求得该最优控制的基本形式;
步骤4)利用神经网络设计自适应辨识器,对随机多智能体系统的未知动力进行估计在期望意义,并设计李亚普诺夫函数对其进行证明;
步骤5)利用自适应辨识器状态对跟踪误差及编队误差进行估计,进而获得最优控制及HJB方程的近似形式;
步骤6)设计强化学习的评判网络和执行网络,从而获得优化控制;
步骤7)设计李雅普诺夫函数,对其进行稳定性和误差收敛性分析;
步骤8)利用Matlab软件进行仿真实验。
具体的是:所述步骤2)中的编队误差项为:
其中:Yi表示智能体i的邻居智能体集;编队误差微分方程为:
具体的是:所述步骤5)中的跟踪误差及编队误差进行估计为
具体的是:所述评判网络和执行网络根据HJB方程有唯一解的性质,利用其偏导构建一个与其等价的简单正定函数,对这个简单的正函数执行梯度下降法,得到强化学习算法。
具体的是:所述步骤7)中的李雅普诺夫函数被设计为:
本发明具有以下有益效果:
本发明设计的随机非线性多智能体的强化学习优化编队控制方法,利用HJB方程偏导设计一个与其等价的简单正函数,采用梯度下降法得到强化学习算法,从而最终获得其优化控制。因为这个设计能大大缓解算法的复杂度,能有效用于随机非线性多智能体控制。
附图说明
图1是本发明提出的随机多智能体优化编队控制结构框图。
图2是仿真算例的多智能体优化编队控制性能的示意图。
图3是仿真算例的编队控制的代价函数。
图4是仿真算例的辨识器误差收敛性。
图5是仿真算例的编队跟踪误差变量收敛性。
具体实施方式
以下将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地进一步详细的说明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,针对未知动力的随机非线性多智能体系统,提供了一种基于强化学习的随机非线性多智能体的优化编队控制方法,具体内容如下:
一.系统建模与问题陈述
考虑下列随机非线性多智能体系统,其各智能体之间的互连通讯拓扑图为无向连通图:
dxi(t)=(ui+fi(xi))dt+ψi(xi)dw,i=1,…,n (1)
zi(t)=xi(t)-yr(t)-ζi,i=1,…,n, (2)
根据(1),跟踪误差zi(t)的动力方程为:
控制目标:针对随机非线性多智能体系统(1),设计分布式优化编队控制ui=1,…,n,确保:i).该闭环控制的所有误差信号是一致最终有界在期望意义;ii).跟踪误差收敛到一个小的零领域在期望意义。
为了构建最优编队控制,定义下列编队误差项:
其中:Yi表示智能体i的邻居集,aij是A=[aij]毗邻矩阵的元素,表示智能体间的通讯权重;bi表示智能体与领航智能体之间的通讯权重,并假设到少有一个bi≠0。
根据跟踪误差的定义,编队误差(4)可以重新表示为:
根据微分方程(3),编队误差动力微分方程可得为:
并且它的伊藤微分公式为:
那么随机系统(1)在有界初始状态x(0)下有唯一强解,且满足:
上述结果意味着xi是半全局一致最终有界在期望意义。
其中e是自然对数的底数。
二.最优编队控制描述
对于多智能体系统(1),引入性能指标为:
定义1:ui被称为在集合Ω可容许控制,表示为ui∈Ψ(Ω),如果它是连续的,满足ui(0)=0,稳定(1)在集合Ω,并使(12)有界在期望意义。
定义2:随机多智能体系统(1)的一个可容许编队控制被称为最优控制,如果它能在完成控制任务,同时最小化性能指标(12)。
根据(13),引入分布式性能指标为:
然后,可以定义分布式性能指数函数为:
根据最优控制的描述,(16)意味着:
通过几个简单的积分计算到(16),然后有
经过几次基本的数学运算在(18),可得
根据随机动力方程(6)和伊藤微分规则(8),有下列结果:
将(20)代入(19),得到分布式HJB方程为:
然而,由于该方程的强非线性,用解析方法求解是不可能的。在本发明中,强化学习策略被采用为获得优化控制,从而有效克服来自求解HJB方程的困难。
三.自适应神经网络辨识器设计
由于随机多智能体系统(1)中的非线性函数fi(xi)和ψi(xi)是未知的,成为控制设计的一个阻碍,因此我们需要构造了自适应神经网络辨识器,对其随机动力进行估计在期望意义。在紧集Ω,神经网络被设计逼近两个未知函数fi(xi)和hi(θi)=ηi(t)||ψi(xi)||4如下,其中:hi(θi)的详细推导在定理1,ηi(t)是辨识器误差:
然后,从(1)和(25)可得到辨识器误差动力方程为:
理论1:如果自适应辨识器(25)和训练法则(26)用于对随机多智能体系统(1)的未知动力进行估计,则可以保证1)这个自适应辨识器系统的所有信号都是半全局一致最终有界在期望意义;2)通过使设计参数ki足够大,辨识器误差ηi(t)收敛到一个小的零邻域在期望意义。
证明:选择李雅普诺夫函数为:
根据(26)和(27),计算无穷小生成算子L V1(t)为:
应用柯西不等式和杨氏不等式,可得以下结果:
用以上不等式(30),等式(29)可以变成:
利用柯西不等式和杨氏不等式可得到下列结果:
将上述(33)和(34)代入(32)有
L V1(t)≤-α1V1(t)+β1, (36)
根据引理1,可得到以下结果:
由上述不等式可知,自适应辨识器(25)和训练法则(26)可以保证:1)辨识器系统的所有信号都是半全局一致最终有界在期望意义;2)通过选择足够大的参数ki,辨识器误差ηi(t)可以收敛到一个小的零邻域在期望意义。
四.强化学习优化编队控制设计
根据定理1,跟踪误差zi(t)可估计为:
且编队误差χi(t)可估计为:
将(42)代入(41)产生:
将(44)代入(43)和(44)有:
评判网络设计如下:
其中kci>0为设计参数。
执行网络设计如下:
其中kai>0为设计参数。
五.强化学习自适应律设计原理
强化学习训练法则(48)和(50)的数学推导如下:
不等式(53)意味着训练律(48)和(50)都能确保Qi(t)=0,因此(52)也得到保证。
六.主要结论与证明
理论2:假设随机多智能体系统(1),在有界初始状态。如果辩识器(25)与训练法则(26)被用于确定该随机多智能体系统在期望意义,评判网络(47)与训练法则(48),执行网络(49)与训练法则(50),用于优化控制,且设计常数满足下列条件:
该优化编队控制可实现以下目标:
i)所有误差信号是半全局一致最终有界。
ii)领航-追随编队控制能被实现。
证明:选择下面的李亚普诺夫函数
由上式(56),可以得到下列不等式
对V2(t)沿(39)、(48)和(50)求导有:
根据Cauchy-Schwartz和Young不等式,可以得到以下不等式:
将不等式(59)代入到(58)有:
将以上(61)替入(60)有
由(54)中的条件kai>kci可得:
将不等式(63)代入(62)有:
根据条件(54),不等式(64)可以变为:
根据(57),(65)可以被重写为:
根据引理3,从(66)可以得到下列不等式:
上述不等式表明,所有的误差信号都是半全局一致最终有界,通过选择设计常数足够大,可以使编队跟踪误差收敛到期望的小零邻域。
七.仿真实验
为了进一步验证所提出的优化多智能体编队控制方法,下列数值仿真被执行。这个数值多智能体被建模为:
其中:ai=1,2,3,4=0.5,-0.8,0.6,-1.1,bi=1,2,3,4=-0.5,1.1,0.5,-1.2,ci=1,2,3,4=-0.8,0.4,-0.7,0.8,di=1,2,3,4=0.5,-0.6,1.1,-1.9。初状态为:xi=1,2,3,4(0)=[5,4]T,[-5,6]T,[4,-5]T,[-5,-3]T。
所期望的编队运动轨迹,也就是领航智能体为:yr(t)=[2 sin(0.7t),3 cos(0.7t)]T。这个多智能体的编队队形,也就是与领航智能体的相对位置为:ζi=1,2,3,4=[3.7,3.7]T,[-3.7,3.7]T,[3.7,-3.7]T,[-3.7,-3.7]T。这个多智能体系统的邻接矩阵、及各智能体与领航智能体的通信权重分别为:B=diag{1,0,0,0}。
对应到(25),这个辨识器系统,参数被选择ki=1,2,3,4=55,初始值为 对应于训练法则(26),选择参数为:Γfi=1,2,3,4=0.5I16×16,σfi=1,2,3,4=0.3,Γhi=1,2,3,4=0.4I16×16,σhi=1,2,3,4=0.3。其权重矩阵初始值为:
强化学习设计:神经网络设计有24个神经元,然后基函数向量被设计基于高斯函数这个高斯函数的中心μj均匀分布在-8到8之间,且宽度ρi为2。对应到优化控制(49),控制参数设置为:γi=1,2,3,4=50。对应到强化学习训练法则(48)和(50),设计参数选择为kc1,c2,c3,c4=1.3和ka1,a2,a3,a4=1.8,神经网络权重的初始值设为
图2-图9显示了仿真结果。从图2中可以看出,通过执行所提出的控制,实现了预期的编队。图3给出了优化控制的代价函数。图4显示了辨识器误差ηi(t)收敛到零,这意味着辨识器可以准确对原系统进行估计,并应用于控制设计。图5显示了估计的跟踪误差收敛于零。图4和图5表明跟踪误差zi(t)可以被保证收敛到零。图6-图9显示了辨识器、评判和执行神经网络的自适应权重的有界性。从图2-图9中可以看出,所提出的优化编队控制能够实现控制目标。
本发明不局限于上述实施方式,任何人应得知在本发明的启示下做出的结构变化,凡是与本发明具有相同或相近的技术方案,均落入本发明的保护范围之内。
本发明未详细描述的技术、形状、构造部分均为公知技术。
Claims (10)
1.一种随机非线性多智能体的强化学习优化编队控制方法,其特征在于,包括以下步骤:
步骤1)建立多智能体系统状态与领航智能体状态之间的跟踪误差,并根据多智能体动力方程,推导出误差动力微分方程;
步骤2)定义基于邻居智能体的编队误差项,并利用误差动力微分方程,求导出编队误差微分方程;
步骤3)利用编队误差,定义分布式最优性能指标函数,并利用动力方程获得分布式HJB等式,利用HJB方程有唯一解的性质,求得该最优控制的基本形式;
步骤4)利用神经网络设计自适应辨识器,对随机多智能体系统的未知动力进行估计在期望意义,并设计李亚普诺夫函数对其进行证明;
步骤5)利用自适应辨识器状态对跟踪误差及编队误差进行估计,进而获得最优控制及HJB方程的近似形式;
步骤6)设计强化学习的评判网络和执行网络,从而获得优化控制;
步骤7)设计李雅普诺夫函数,对其进行稳定性和误差收敛性分析;
步骤8)利用Matlab软件进行仿真实验。
9.根据权利要求8所述的随机非线性多智能体的强化学习优化编队控制方法,其特征在于,所述评判网络和执行网络根据HJB方程有唯一解的性质,利用其偏导构建一个与其等价的简单正定函数,对这个简单的正函数执行梯度下降法,得到强化学习算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210453088.7A CN114740710A (zh) | 2022-04-27 | 2022-04-27 | 一种随机非线性多智能体的强化学习优化编队控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210453088.7A CN114740710A (zh) | 2022-04-27 | 2022-04-27 | 一种随机非线性多智能体的强化学习优化编队控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114740710A true CN114740710A (zh) | 2022-07-12 |
Family
ID=82283786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210453088.7A Withdrawn CN114740710A (zh) | 2022-04-27 | 2022-04-27 | 一种随机非线性多智能体的强化学习优化编队控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114740710A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116185020A (zh) * | 2023-01-19 | 2023-05-30 | 福州大学 | 一种基于单评论家强化学习结构的多智能体编队控制方法 |
CN116500893A (zh) * | 2023-04-19 | 2023-07-28 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN116540736A (zh) * | 2023-06-12 | 2023-08-04 | 天津工业大学 | 基于人机交互二阶非线性多智能体系统的编队控制方法 |
-
2022
- 2022-04-27 CN CN202210453088.7A patent/CN114740710A/zh not_active Withdrawn
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116185020A (zh) * | 2023-01-19 | 2023-05-30 | 福州大学 | 一种基于单评论家强化学习结构的多智能体编队控制方法 |
CN116500893A (zh) * | 2023-04-19 | 2023-07-28 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN116500893B (zh) * | 2023-04-19 | 2023-11-14 | 齐鲁工业大学(山东省科学院) | 一种高阶多智能体的强化学习优化控制器构建方法及系统 |
CN116540736A (zh) * | 2023-06-12 | 2023-08-04 | 天津工业大学 | 基于人机交互二阶非线性多智能体系统的编队控制方法 |
CN116540736B (zh) * | 2023-06-12 | 2024-02-23 | 天津工业大学 | 基于人机交互二阶非线性多智能体系统的编队控制方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114740710A (zh) | 一种随机非线性多智能体的强化学习优化编队控制方法 | |
Chen et al. | Output-feedback adaptive dynamic surface control of stochastic non-linear systems using neural network | |
CN111176115B (zh) | 基于模糊神经网络和仿人智能控制的阀位控制方法 | |
Karg et al. | Approximate moving horizon estimation and robust nonlinear model predictive control via deep learning | |
CN110286586A (zh) | 一种磁流变阻尼器混合建模方法 | |
CN112327631B (zh) | 一种粒子群优化rbf神经网络的pid控制方法 | |
CN117055605A (zh) | 多无人机姿态控制方法及系统 | |
Li et al. | Fuzzy adaptive robust control for stochastic switched nonlinear systems with full-state-dependent nonlinearities | |
Yao et al. | Fault diagnosis and model predictive tolerant control for non-Gaussian stochastic distribution control systems based on TS fuzzy model | |
CN116027673B (zh) | 一种基于模糊神经网络的装备控制自主决策方法 | |
Shen et al. | Stock index prediction based on adaptive training and pruning algorithm | |
CN118192224A (zh) | 一种规定时间的自适应动态规划控制方法 | |
CN116819959A (zh) | 基于滑模机制的多智能体优化控制器构建方法及系统 | |
CN111240201A (zh) | 一种扰动抑制控制方法 | |
CN115857320A (zh) | 单输入单输出非线性未知动力系统的优化跟踪控制方法 | |
Praveen et al. | Online partially model-free solution of two-player zero sum differential games | |
Kamalapurkar et al. | Model-based reinforcement learning for on-line feedback-Nash equilibrium solution of N-player nonzero-sum differential games | |
Sun et al. | Nonlinear function approximation based on least Wilcoxon Takagi-Sugeno fuzzy model | |
Ni et al. | Decoupling control for a class of dynamic nonlinear coupling systems via ADRC based on DRNN | |
Damak et al. | Indirect adaptive neural control using a hybrid learning algorithm | |
Zhang et al. | Fault detection and identification of dynamic systems using multiple feedforward neural networks | |
Sun et al. | Adaptive fuzzy control for a class of nonlinear fractional-order systems | |
Zhu et al. | Reinforcement Learning Consensus Control for Discrete-Time Multi-Agent Systems | |
CN110598226A (zh) | 基于集员估计和神经网络的非线性系统构建方法 | |
Pattanaik et al. | Identification and Control of Nonlinear System using Kernel-RVFLN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220712 |