[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112947581B - 基于多智能体强化学习的多无人机协同空战机动决策方法 - Google Patents

基于多智能体强化学习的多无人机协同空战机动决策方法 Download PDF

Info

Publication number
CN112947581B
CN112947581B CN202110318644.5A CN202110318644A CN112947581B CN 112947581 B CN112947581 B CN 112947581B CN 202110318644 A CN202110318644 A CN 202110318644A CN 112947581 B CN112947581 B CN 112947581B
Authority
CN
China
Prior art keywords
uav
target
air combat
value
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202110318644.5A
Other languages
English (en)
Other versions
CN112947581A (zh
Inventor
杨啟明
张建东
史国庆
吴勇
朱岩
张耀中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202110318644.5A priority Critical patent/CN112947581B/zh
Publication of CN112947581A publication Critical patent/CN112947581A/zh
Application granted granted Critical
Publication of CN112947581B publication Critical patent/CN112947581B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • G05D1/104Simultaneous control of position or course in three dimensions specially adapted for aircraft involving a plurality of aircrafts, e.g. formation flying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于多智能体强化学习的多无人机协同空战机动决策方法,解决了仿真多对多空战中多无人机协同空战中的机动动作的自主决策问题。本方法包含:无人机平台的运动模型创建;基于攻击区和距离、角度因素的多机空战态势评估,分析多机空战机动决策的状态空间、行动空间和奖励值;设计了协同空战中的目标分配方法和策略协调机制,通过奖励值的分配,定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈,经过训练后实现策略协同。本发明可有效提高多无人机进行协同空战机动自主决策的能力,具有更强的协同性和自主寻优性,在不断的仿真和学习中无人机编队所做的决策水平不断提高。

Description

基于多智能体强化学习的多无人机协同空战机动决策方法
技术领域
本发明属于无人机技术领域,具体涉及多无人机协同空战机动决策方法。
背景技术
目前,无人机已经能够完成侦察、监视和对地攻击等任务,在现代战争中发挥着越来越难以替代的作用。但是由于智能化水平的限制,目前无人机尚无法进行自主空战机动决策,尤其是多架无人机的自主协同空战。因此,提升无人机的智能化水平,让无人机能够根据态势环境而自动产生控制指令完成空战中的机动动作是当前主要的研究方向。
让无人机完成空战机动自主决策,其实质是完成从空战态势到机动动作的映射,在不同态势下执行相应的机动动作。由于空战的态势较之于其他任务更加复杂,靠人工预编程的方法难以全面地覆盖空战任务的态势空间,更难以计算产生最优的机动动作决策。
目前对无人机空战机动决策研究都是针对1v1单机对抗场景下所开展的,而现实空战中,基本都是多架无人机组成编队协同作战。多机协同空战涉及空战态势评估、多目标分配、机动决策三个方面,协同空战是这三个部分的紧密联系的耦合过程,相对于单机对抗的机动决策,多机协同空战除了兵力数量规模扩大之外,还需要考虑战术配合,问题更加复杂。
对多机协同空战决策研究可以分为集中式和分布式,集中式的方法是由一个中心计算编队内所有无人机的行动,这类模型较为复杂,存在计算难度大、实时性不足的问题。分布式方法的思路是在目标分配的基础上由编队内的各个无人机自行计算各自的机动动作,从而降低模型的复杂度,通过目标分配来实现编队任务的协同。现有的分布式协同空战决策方法多采用先进行目标分配,再根据目标分配的结果将多对多空战转化为一对一的情况,这种方法无法很好地发挥多目标攻击能力和编队作战的战术协同,无法达到1+1>2的效果。
发明内容
为了克服现有技术的不足,本发明提供了一种基于多智能体强化学习的多无人机协同空战机动决策方法,解决了仿真多对多空战中多无人机协同空战中的机动动作的自主决策问题。本方法包含:无人机平台的运动模型创建;基于攻击区和距离、角度因素的多机空战态势评估,分析多机空战机动决策的状态空间、行动空间和奖励值;设计了协同空战中的目标分配方法和策略协调机制,通过奖励值的分配,定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈,经过训练后实现策略协同。本发明可有效提高多无人机进行协同空战机动自主决策的能力,具有更强的协同性和自主寻优性,在不断的仿真和学习中无人机编队所做的决策水平不断提高。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:建立多机空战环境模型,定义在多机协同空战过程中每架无人机进行机动决策的状态空间、行动空间和奖励值;
步骤1-1:在地面坐标系中,ox轴取正东方,oy轴取正北方,oz轴取铅垂方向;在地面坐标系中无人机的运动模型如式(1)所示:
Figure BDA0002991868610000021
在地面坐标系中,无人机的动力学模型如式(2)所示:
Figure BDA0002991868610000022
其中,(x,y,z)表示无人机在地面坐标系中的位置,v表示无人机速度,
Figure BDA0002991868610000023
Figure BDA0002991868610000024
分别表示无人机速度v在xyz三个坐标轴上的值;航迹角γ表示无人机速度v与水平面o-x-y之间的夹角;航向角ψ表示无人机速度v在o-x-y平面上的投影v′与oy轴之间的夹角,g表示重力加速度;[nx,nz,μ]是控制无人机进行机动的控制变量,nx是无人机速度方向的过载,代表无人机的推力与减速作用;nz表示无人机俯仰方向的过载,即法向过载;μ是围绕无人机速度矢量的滚转角;通过nx控制无人机的速度大小,通过nz和μ控制无人机速度矢量的方向,进而控制无人机进行机动动作;
步骤1-2:设定导弹仅具有尾后攻击能力;在导弹的截获区域内,用vU和vT分别表示无人机和目标的速度;D为距离矢量,表示无人机与目标间的位置关系;αU和αT分别表示无人机速度矢量与距离矢量D之间的夹角和目标速度矢量与距离矢量D之间的夹角;
设导弹的最远截获距离为Dm,视场角为
Figure BDA0002991868610000031
则导弹的截获区域为一个圆锥区域Ω;无人机在空战中机动的目标就是让目标进入无人机的截获区域ΩU同时避免无人机进入目标的截获区域ΩT
根据导弹截获区域的定义,如果目标处于己方导弹的截获区域,则说明己方能够发射武器攻击目标,己方处于优势,定义无人机截获目标时的优势值ηU为:
Figure BDA0002991868610000032
其中,(xT,yT,zT)表示目标的位置坐标;Re为正数;
定义目标截获无人机获得的优势值ηT为:
Figure BDA0002991868610000033
其中,(xU,yU,zU)表示无人机的位置坐标;
则空战中,无人机基于截获机会获得的优势值ηA定义为:
ηA=ηUT (4)
定义基于双方角度参数与距离参数获得的优势值ηB为:
Figure BDA0002991868610000034
上式表明,当无人机对目标尾追时,优势值为ηB=1;在无人机被目标尾追时,优势值为ηB=-1;当无人机与目标的距离大于导弹最远截获距离时,优势值按指数函数衰减;
综合式式(4)、(5),得出无人机所处空战的态势评估函数η为:
η=ηAB (6)
步骤1-3:任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定,因此空战态势的描述由以下5个方面组成:
1)无人机的速度信息,包括速度大小vU、航迹角γU和航向角ψU
2)目标的速度信息,包括速度大小vT、航迹角γT和航向角ψT
3)无人机与目标之间的相对位置关系,采用距离矢量D表征;距离矢量的模D=||D||,γD表示距离矢量D与水平面o-x-y的夹角,ψD表示距离矢量D在水平面o-x-y上的投影矢量与oy轴之间的夹角,无人机与目标的相对位置关系用D、γD和ψD表示;
4)无人机与目标之间的相对运动关系,包括无人机速度矢量与距离矢量D之间的夹角αU和目标速度矢量与距离矢量D之间的夹角αT
5)无人机的高度信息zU和目标的高度信息zT
基于上述1)到5)中的变量能够完备地表征任意时刻的1v1空战态势,因此1v1机动决策模型的状态空间是一个13维向量空间s:
s=[vUUU,vTTT,D,γDDUT,zU,zT] (7)
采用态势评估函数η作为空战机动决策奖励值R,通过态势评估函数来反映行动值对空战态势的作用,R=η;
步骤1-4:在多机空战中,设定无人机的数量为n,分别记为UAVi(i=1,2,…,n),目标的数量为m,分别记为Targetj(j=1,2,…,m),设定目标的数量不大于无人机的数量,即m≤n;
记任意两个UAVi和Targetj间的相对状态为
Figure BDA0002991868610000041
UAVi与任意一个友机UAVk之间的相对状态记为
Figure BDA0002991868610000042
则多机空战中任意一架UAVi的观测状态为:
Si=[∪sij|j=1,2...,m,∪sik|k=1,2,...,n(k≠i)] (8)
在多机空战过程中,每架无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据式(2)所述的无人机动力学模型,无人机通过nx、nz和μ三个变量控制飞行,因此UAVi的行动空间为Ai=[nxi,nzii];
在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值ηA和ηB,记UAVi与Targetj间的态势评估值为
Figure BDA0002991868610000051
Figure BDA0002991868610000052
除此之外,考虑UAVi与友机UAVk的相对状态对自身态势的影响,因此定义UAVi与友机UAVk的态势评估函数为:
Figure BDA0002991868610000053
其中Dik为无人机UAVi与友机UAVk之间的距离,Dsafe为两架无人机之间的最小安全距离,P为正数。
步骤2:建立多机协同目标分配方法,确定强化学习训练时的目标分配规则;
步骤2-1:在空战中,设n架无人机迎战m架目标,且n≥m;根据式(6),UAVi(i=1,2,…,n)相对Targetj(j=1,2,…,m)的态势评估值为
Figure BDA0002991868610000054
设目标分配矩阵为X=[xij],xij=1表示Targetj分配给UAVi,xij=0表示Targetj没有分配给UAVi;设每个无人机最多能同时对处于其攻击区内的L个目标发射导弹,即
Figure BDA0002991868610000055
同时,作战时要避免有目标被遗漏而放弃攻击,即每个目标均应至少分配一个无人机去攻击,因此
Figure BDA0002991868610000056
而所有无人机均要投入战斗,因此
Figure BDA0002991868610000057
以无人机对目标的态势优势最大化为目标,建立目标分配模型如下:
Figure BDA0002991868610000061
步骤2-2:在目标分配过程中首先分配处于攻击区内的目标,然后再分配处于攻击区以外的目标,因此目标分配方法分为如下两个部分:
步骤2-2-1:优先分配位于攻击区内的目标;
Figure BDA0002991868610000062
Figure BDA0002991868610000063
为元素构建两个n×m维的矩阵HA和HB
Figure BDA0002991868610000064
Figure BDA0002991868610000065
由式(3),如果Targetj处于UAVi的攻击区内,则
Figure BDA0002991868610000066
否则
Figure BDA0002991868610000067
因此,令
Figure BDA0002991868610000068
Figure BDA0002991868610000069
所有零元素的对应位置的xij=1;在分配过程中,如果处于无人机UAVi攻击区内的目标个数χ超过了无人机的最大攻击目标数量,即χ>L,则将UAVi在HB矩阵中对应的元素值排序,选择其中元素值最大的L个目标分配给UAVi
步骤2-2-2:分配位于攻击区以外的目标;
对于UAVi,如果已经分配了处于其攻击区内的目标,则不能再向其分配攻击区外的目标;而对于攻击区外的多个目标,无人机无法做出机动使得多个目标处于攻击区内,因而当目标均在攻击区之外时,只能为无人机分配一个目标;因此,在完成攻击区内目标分配后,剩余的目标分配工作转变为未分配的无人机分配1个目标的过程,采用匈牙利算法实现分配,具体如下:
首先根据当前的目标分配矩阵X=[xij]n×m,将HB中所有xij=1所在的第i行和第j列删除,获得矩阵
Figure BDA00029918686100000610
基于
Figure BDA00029918686100000611
采用匈牙利算法计算分配结果,由于n≥m,且L>0,采用补边法完成匈牙利算法,实现目标分配,令相应xij=1;
完成以上两步后,即完成了所有目标的分配,得到目标分配矩阵X=[xij]n×m
步骤3:设计多机协同机动策略学习算法,确定强化学习训练逻辑;
多机协同机动策略学习算法包括策略协调机制和策略学习机制两部分:
步骤3-1:设计策略协调机制;
将空战对抗看作n个无人机与m个目标之间的竞争博弈,基于随机博弈的框架建立模型,一个随机博弈可以用一个元组
Figure BDA0002991868610000071
来表示;S表示当前博弈的状态空间,所有Agent都能共享;UAVi的行动空间定义为Ai,Targeti的行动空间定义为Bi;T:S×An×Bm→S表示环境的确定性转移函数,
Figure BDA0002991868610000072
Figure BDA0002991868610000073
表示UAVi的奖励值函数;在协同空战中各自编队内无人机的行动空间相同,即对于UAVi和Targetj分别有Ai=A和Bi=B;
定义无人机编队的全局奖励值为各个无人机奖励值的平均值,即:
Figure BDA0002991868610000074
其中,r(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,无人机编队获得的奖励值;
无人机编队的目标是学习一个策略使得奖励值的折扣累加值的期望
Figure BDA0002991868610000075
最大化,其中0<λ≤1是折扣因子;将随机博弈转变为一个马尔科夫决策问题:
Figure BDA0002991868610000076
其中Q*(·)表示状态s下执行行动a的状态-动作值函数,r(s,a)表示状态s下的执行行动a获得的奖励值,θ表示策略函数的网络参数,s′表示下一时刻的状态,aθ表示参数化的策略函数;
定义每架无人机的奖励值函数为:
Figure BDA0002991868610000077
其中,ri(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,UAVi获得的奖励值,其中
Figure BDA0002991868610000081
表征UAVi相对为其分配的目标的态势优势值,
Figure BDA0002991868610000082
是惩罚项,用以约束UAVi与友机之间的距离;
基于式(13),对于n架无人机个体,有n个如式(14)所示的贝尔曼方程,其中的策略函数aθ拥有相同的参数θ:
Figure BDA0002991868610000083
其中,
Figure BDA0002991868610000084
表示无人机UAVi在状态s下的执行行动a的状态-动作值函数,ri(s,a)表示无人机UAVi在状态s下的执行行动a获得的奖励值;
步骤3-2:设计策略学习机制;
采用双向循环神经网络BRNN建立多无人机机动决策模型;
多无人机空战机动决策模型由Actor网络和Critic网络组成,Actor网络由各个无人机个体的Actor网络通过BRNN连接而成,Critic网络由各个无人机个体的Critic网络通过BRNN连接而成;多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元,再按照无人机的数量将BRNN展开;多无人机空战机动决策模型的输入为当前空战态势,输出各个无人机的行动值;
定义UAVi的目标函数为
Figure BDA0002991868610000085
表示个体奖励值ri的累加的期望,
Figure BDA0002991868610000086
表示在状态转移函数T下采用行动策略aθ得到的状态分布,状态分布在遍历的马尔可夫决策过程中为平稳分布,所以将n个无人机的目标函数记为J(θ):
Figure BDA0002991868610000087
根据多智能体确定性策略梯度定理,对于式(15)所述的n个无人机的目标函数J(θ),其策略网络参数θ的梯度为
Figure BDA0002991868610000088
采用参数化的Critic函数Qξ(s,a)来估计式(16)中的状态-行动值函数
Figure BDA0002991868610000089
在训练Critic时,采用平方和loss函数,计算参数化critic函数Qξ(s,a)的梯度如式(17)所示,其中ξ是Q网络的参数:
Figure BDA0002991868610000091
基于式(16)和(17),采用随机梯度下降法优化Actor和Critic网络;在交互学习的过程中,通过试错获取的数据更新参数,完成协同空战策略的学习优化;
步骤3-3:根据策略协调机制和策略学习机制,确定多无人机协同空战机动决策模型的强化学习训练过程如下:
步骤3-3-1:首先进行初始化:确定空战双方的兵力和态势,设有n架无人机和m架目标进行空战对抗,n≥m;随机初始化Actor的在线网络参数θ和Critic的在线网络的参数ξ,然后将Actor和Critic在线网络的参数分别赋给其相应目标网络的参数,即θ′←θ,ξ′←ξ,θ′和ξ′分别是Actor和Critic目标网络的参数;初始化经验池R1,用以保存探交互得到的经验数据;初始化一个随机过程ε,用于实现行动值的探索;
步骤3-3-2:确定训练的初始状态,即确定空战开始的双方相对态势;设定无人机编队和目标编队中每一架无人机的初始位置信息和速度信息,即确定每架无人机的(x,y,z,v,γ,ψ)信息,根据状态空间的定义,计算得出空战初始状态s1;令t等于1;
步骤3-3-3:根据初始状态重复进行多幕训练,在每一单幕空战仿真中执行如下操作:
首先根据当前空战状态st,基于目标分配方法计算出目标分配矩阵Xt;然后每一个UAVi根据状态st和随机过程ε生成行动值
Figure BDA0002991868610000092
并执行,与此同时,目标编队中的每一个Targeti执行行动
Figure BDA0002991868610000093
执行完后状态转移至st+1,根据式(13)计算获得奖励值
Figure BDA0002991868610000094
将一次转移过程变量
Figure BDA0002991868610000095
作为一条经验数据存入经验池R1中;在学习时,从经验池R1中随机采样一批M条经验数据
Figure BDA0002991868610000096
计算各个无人机的目标Q值,即对于M条数据中的每一条,都有:
Figure BDA0002991868610000097
根据式(17)计算Critic的梯度估计值,有:
Figure BDA0002991868610000101
根据式(16)计算Actor的梯度估计值,有:
Figure BDA0002991868610000102
根据得到的梯度估计值△ξ和△θ,采用优化器对Actor和Critic的在线网络参数进行更新;完成在线网络优化后,采用软更新方式更新目标网络参数,即
Figure BDA0002991868610000103
其中κ∈(0,1);
步骤3-3-4:在单幕仿真结束后,如果仿真达到设定的最大幕数,则停止本次强化学习训练,否则令t加1,重复执行步骤3-3-3。
本发明的有益效果如下:
本发明基于多智能体强化学习的方法,建立了多无人机协同空战机动决策策略的产生方法,采用双向循环神经网络建立通信网络,将分立的无人机连接成编队的协同决策网络,建立了Actor-critic架构下的多无人机协同空战机动决策模型,实现了无人机个体行为的学习与编队整体作战目标的统一。有别于将多机空战分解为多个1v1空战,本发明所建立的多无人机协同空战机动决策模型通过自主学习能够获得协同空战机动策略,在空战过程实现战术配合,达到整体编队作战的态势优势并战胜对手。
附图说明
图1是本发明无人机三自由度质点运动模型。
图2是本发明一对一近距空战态势图。
图3是本发明目标匀速直线飞行条件下无人机机动决策的结果图。
图4是本发明基于双向循环神经网络的多无人机协同空战机动决策模型结构。
图5是训练完成后基于学习到的策略的空战仿真机动轨迹示意图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
本发明的目的在于提供一种基于多智能体强化学习的多无人机协同空战自主机动决策的产生方法,方法主要的架构是设计出符合多无人机协同空战控制问题约束的强化学习算法结构,通过不断在构建的模拟空战环境中试错学习获得一系列合理的空战机动策略,提高多无人机在分布式架构基础上,自主完成协同空战的能力。
本发明通过通信网络实现了各无人机状态理解的一致性。根据多目标攻击特点,结合目标分配和空战态势评估值计算各无人机的强化学习奖励值,通过各个无人机的奖励引导个体的强化学习过程,使得编队的战术目标与单个无人机的学习目标紧密结合,生成协同战术机动策略。在空战过程实现战术配合,达到整体编队作战的态势优势并战胜对手。
一种基于多智能体强化学习的多无人机协同空战机动决策方法,包括以下步骤:
步骤1:建立多机空战环境模型,定义在多机协同空战过程中每架无人机进行机动决策的状态空间、行动空间和奖励值;
步骤1-1:在地面坐标系中,ox轴取正东方,oy轴取正北方,oz轴取铅垂方向;在地面坐标系中无人机的运动模型如式(1)所示:
Figure BDA0002991868610000111
在地面坐标系中,无人机的动力学模型如式(2)所示:
Figure BDA0002991868610000112
其中,(x,y,z)表示无人机在地面坐标系中的位置,v表示无人机速度,
Figure BDA0002991868610000113
Figure BDA0002991868610000114
分别表示无人机速度v在xyz三个坐标轴上的值;航迹角γ表示无人机速度v与水平面o-x-y之间的夹角;航向角ψ表示无人机速度v在o-x-y平面上的投影v′与oy轴之间的夹角,g表示重力加速度;[nx,nz,μ]是控制无人机进行机动的控制变量,nx是无人机速度方向的过载,代表无人机的推力与减速作用;nz表示无人机俯仰方向的过载,即法向过载;μ是围绕无人机速度矢量的滚转角;通过nx控制无人机的速度大小,通过nz和μ控制无人机速度矢量的方向,进而控制无人机进行机动动作;如图1所示;
步骤1-2:设定导弹仅具有尾后攻击能力;在导弹的截获区域内,用vU和vT分别表示无人机和目标的速度;D为距离矢量,表示无人机与目标间的位置关系;αU和αT分别表示无人机速度矢量与距离矢量D之间的夹角和目标速度矢量与距离矢量D之间的夹角;
设导弹的最远截获距离为Dm,视场角为
Figure BDA0002991868610000121
则导弹的截获区域为一个圆锥区域Ω;无人机在空战中机动的目标就是让目标进入无人机的截获区域ΩU同时避免无人机进入目标的截获区域ΩT
根据导弹截获区域的定义,如果目标处于己方导弹的截获区域,则说明己方能够发射武器攻击目标,己方处于优势,定义无人机截获目标时的优势值ηU为:
Figure BDA0002991868610000122
其中,(xT,yT,zT)表示目标的位置坐标;Re表示一个较大的正数,根据训练效果可以再手动调整,引导模型训练的效果;
定义目标截获无人机获得的优势值ηT为:
Figure BDA0002991868610000123
其中,(xU,yU,zU)表示无人机的位置坐标;
则空战中,无人机基于截获机会获得的优势值ηA定义为:
ηA=ηUT (4)
除此之外,在空战中由于航炮和一些导弹的视场角较小,一般只有在尾追的情况下才能构成发射条件,因此对于角度关系的要求较为严苛,故定义基于双方角度参数与距离参数获得的优势值ηB为:
Figure BDA0002991868610000124
上式表明,当无人机对目标尾追时,优势值为ηB=1;在无人机被目标尾追时,优势值为ηB=-1;当无人机与目标的距离大于导弹最远截获距离时,优势值按指数函数衰减;
综合式式(4)、(5),得出无人机所处空战的态势评估函数η为:
η=ηAB (6)
步骤1-3:空战机动决策模型的状态由一组能够完备地描述空战态势的变量组成,如图2所示,任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定,因此空战态势的描述由以下5个方面组成:
1)无人机的速度信息,包括速度大小vU、航迹角γU和航向角ψU
2)目标的速度信息,包括速度大小vT、航迹角γT和航向角ψT
3)无人机与目标之间的相对位置关系,采用距离矢量D表征;距离矢量的模D=||D||,γD表示距离矢量D与水平面o-x-y的夹角,ψD表示距离矢量D在水平面o-x-y上的投影矢量与oy轴之间的夹角,无人机与目标的相对位置关系用D、γD和ψD表示;
4)无人机与目标之间的相对运动关系,包括无人机速度矢量与距离矢量D之间的夹角αU和目标速度矢量与距离矢量D之间的夹角αT
5)无人机的高度信息zU和目标的高度信息zT
基于上述1)到5)中的变量能够完备地表征任意时刻的1v1空战态势,因此1v1机动决策模型的状态空间是一个13维向量空间s:
s=[vUUU,vTTT,D,γDDUT,zU,zT] (7)
采用态势评估函数η作为空战机动决策奖励值R,通过态势评估函数来反映行动值对空战态势的作用,R=η;
步骤1-4:在多机空战中,设定无人机的数量为n,分别记为UAVi(i=1,2,…,n),目标的数量为m,分别记为Targetj(j=1,2,…,m),设定目标的数量不大于无人机的数量,即m≤n;
如图3所示,多机空战中由于无人机和目标的数量增多,每个无人机做出机动决策需要考虑与其他所有无人机(目标与友机)的相对状态。无人机与另外一架无人机在空战中的相对态势可以由(7)式所述的13个变量完全描述。记任意两个UAVi和Targetj间的相对状态为
Figure BDA0002991868610000141
UAVi与任意一个友机UAVk之间的相对状态记为
Figure BDA0002991868610000142
则多机空战中任意一架UAVi的观测状态为:
Si=[∪sij|j=1,2...,m,∪sik|k=1,2,...,n(k≠i)] (8)
在多机空战过程中,每架无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据式(2)所述的无人机动力学模型,无人机通过nx、nz和μ三个变量控制飞行,因此UAVi的行动空间为Ai=[nxi,nzii];
在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值ηA和ηB,记UAVi与Targetj间的态势评估值为
Figure BDA0002991868610000143
Figure BDA0002991868610000144
除此之外,考虑UAVi与友机UAVk的相对状态对自身态势的影响,如果与友机的距离过近,会增大碰撞的风险,因此定义UAVi与友机UAVk的态势评估函数为:
Figure BDA0002991868610000145
其中Dik为无人机UAVi与友机UAVk之间的距离,Dsafe为两架无人机之间的最小安全距离,P为一个较大的正数。
步骤2:建立多机协同目标分配方法,确定强化学习训练时的目标分配规则;
在多机协同空战中,从空战整体角度看,无人机编队在空战中取得最大优势意味着每一架敌机都可被无人机的武器攻击,然而每个无人机在同一时刻只能针对一个目标进行机动,因此多机协同空战在进行机动决策的同时还要时刻进行目标分配,以实现战术策略的协同。
步骤2-1:在空战中,设n架无人机迎战m架目标,且n≥m;根据式(6),UAVi(i=1,2,…,n)相对Targetj(j=1,2,…,m)的态势评估值为
Figure BDA0002991868610000146
设目标分配矩阵为X=[xij],xij=1表示Targetj分配给UAVi,xij=0表示Targetj没有分配给UAVi;多机空战过程中,会存在多个目标同时处于一架无人机的攻击区内的情况,因此目标分配需要考虑无人机的多目标攻击能力,设每个无人机最多能同时对处于其攻击区内的L个目标发射导弹,即
Figure BDA0002991868610000151
同时,作战时要避免有目标被遗漏而放弃攻击,即每个目标均应至少分配一个无人机去攻击,因此
Figure BDA0002991868610000152
而所有无人机均要投入战斗,因此
Figure BDA0002991868610000153
以无人机对目标的态势优势最大化为目标,建立目标分配模型如下:
Figure BDA0002991868610000154
步骤2-2:空战中无人机进行一系列机动的目的就是让目标进入攻击区向目标发射武器,在目标分配过程中首先分配处于攻击区内的目标,然后再分配处于攻击区以外的目标,因此目标分配方法分为如下两个部分:
步骤2-2-1:优先分配位于攻击区内的目标;
Figure BDA0002991868610000155
Figure BDA0002991868610000156
为元素构建两个n×m维的矩阵HA和HB
Figure BDA0002991868610000157
Figure BDA0002991868610000158
由式(3),如果Targetj处于UAVi的攻击区内,则
Figure BDA0002991868610000159
否则
Figure BDA00029918686100001510
因此,令
Figure BDA00029918686100001511
Figure BDA00029918686100001512
所有零元素的对应位置的xij=1;在分配过程中,如果处于无人机UAVi攻击区内的目标个数χ超过了无人机的最大攻击目标数量,即χ>L,则将UAVi在HB矩阵中对应的元素值排序,选择其中元素值最大的L个目标分配给UAVi
步骤2-2-2:分配位于攻击区以外的目标;
对于UAVi,如果已经分配了处于其攻击区内的目标,则不能再向其分配攻击区外的目标;而对于攻击区外的多个目标,无人机无法做出机动使得多个目标处于攻击区内,因而当目标均在攻击区之外时,只能为无人机分配一个目标;因此,在完成攻击区内目标分配后,剩余的目标分配工作转变为未分配的无人机分配1个目标的过程,采用匈牙利算法实现分配,具体如下:
首先根据当前的目标分配矩阵X=[xij]n×m,将HB中所有xij=1所在的第i行和第j列删除,获得矩阵
Figure BDA0002991868610000161
基于
Figure BDA0002991868610000162
采用匈牙利算法计算分配结果,由于n≥m,且L>0,采用补边法完成匈牙利算法,实现目标分配,令相应xij=1;
完成以上两步后,即完成了所有目标的分配,得到目标分配矩阵X=[xij]n×m
步骤3:设计多机协同机动策略学习算法,确定强化学习训练逻辑;
多机协同机动策略学习算法包括策略协调机制和策略学习机制两部分:
步骤3-1:设计策略协调机制;
将空战对抗看作n个无人机与m个目标之间的竞争博弈,基于随机博弈的框架建立模型,一个随机博弈可以用一个元组
Figure BDA0002991868610000163
来表示;S表示当前博弈的状态空间,所有Agent都能共享;UAVi的行动空间定义为Ai,Targeti的行动空间定义为Bi;T:S×An×Bm→S表示环境的确定性转移函数,
Figure BDA0002991868610000164
Figure BDA0002991868610000165
表示UAVi的奖励值函数;在协同空战中各自编队内无人机的行动空间相同,即对于UAVi和Targetj分别有Ai=A和Bi=B;
协同空战中无人机是否在对抗中处于优势,是以所有无人机的态势来评价。定义无人机编队的全局奖励值为各个无人机奖励值的平均值,即:
Figure BDA0002991868610000166
其中,r(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,无人机编队获得的奖励值;
无人机编队的目标是学习一个策略使得奖励值的折扣累加值的期望
Figure BDA0002991868610000167
最大化,其中0<λ≤1是折扣因子;将随机博弈转变为一个马尔科夫决策问题:
Figure BDA0002991868610000171
其中Q*(·)表示状态s下执行行动a的状态-动作值函数,r(s,a)表示状态s下的执行行动a获得的奖励值,θ表示策略函数的网络参数,s′表示下一时刻的状态,aθ表示参数化的策略函数;
采用式(11)定义的全局奖励值能够反映无人机编队整体的态势优劣,但是采用全局奖励值不能反映出无人机个体在编队协同中的作用。事实上,全局的协同是由每个个体的目标所驱动的,因此,定义每架无人机的奖励值函数为:
Figure BDA0002991868610000172
其中,ri(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,UAVi获得的奖励值,其中
Figure BDA0002991868610000173
表征UAVi相对为其分配的目标的态势优势值,
Figure BDA0002991868610000174
是惩罚项,用以约束UAVi与友机之间的距离;
基于式(13),对于n架无人机个体,有n个如式(14)所示的贝尔曼方程,其中的策略函数aθ拥有相同的参数θ:
Figure BDA0002991868610000175
其中,
Figure BDA0002991868610000176
表示无人机UAVi在状态s下的执行行动a的状态-动作值函数,ri(s,a)表示无人机UAVi在状态s下的执行行动a获得的奖励值;
在学习训练过程中,通过奖励值的分配,定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈,经过训练后实现策略协同,每架无人机的行为能与其他友机的行为达成默契,不需要进行集中的目标分配。
步骤3-2:设计策略学习机制;
基于多智能体强化学习实现集体合作的前提是个体间的信息交互,因此,采用双向循环神经网络BRNN建立多无人机机动决策模型,保证无人机间的信息交互,实现编队机动策略的协调;
建立模型如图4所示,多无人机空战机动决策模型由Actor网络和Critic网络组成,Actor网络由各个无人机个体的Actor网络通过BRNN连接而成,Critic网络由各个无人机个体的Critic网络通过BRNN连接而成;多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元,再按照无人机的数量将BRNN展开;多无人机空战机动决策模型的输入为当前空战态势,输出各个无人机的行动值,由于BRNN不仅能够实现无人机个体间的通信,同时也能作为记忆单元,因此无人机可以在与友机交互信息的同时,保存个体的行动策略;
由于模型基于BRNN构建,因此对于网络参数学习的思路是将网络展开成n(无人机个数)个子网络计算反向梯度,然后使用基于时间的反向传播算法更新网络参数。梯度在每个无人机个体的Qi函数和策略函数中传播,模型学习时,各个无人机个体奖励值影响各个无人机的行动,进而由此产生的梯度信息反向传播并更新模型参数。
定义UAVi的目标函数为
Figure BDA0002991868610000181
表示个体奖励值ri的累加的期望,
Figure BDA0002991868610000182
表示在状态转移函数T下采用行动策略aθ得到的状态分布,状态分布在遍历的马尔可夫决策过程中一般为平稳分布,所以将n个无人机的目标函数记为J(θ):
Figure BDA0002991868610000183
根据多智能体确定性策略梯度定理,对于式(15)所述的n个无人机的目标函数J(θ),其策略网络参数θ的梯度为
Figure BDA0002991868610000184
采用参数化的Critic函数Qξ(s,a)来估计式(16)中的状态-行动值函数
Figure BDA0002991868610000185
在训练Critic时,采用平方和loss函数,计算参数化critic函数Qξ(s,a)的梯度如式(17)所示,其中ξ是Q网络的参数:
Figure BDA0002991868610000186
基于式(16)和(17),采用随机梯度下降法优化Actor和Critic网络;在交互学习的过程中,通过试错获取的数据更新参数,完成协同空战策略的学习优化;
步骤3-3:根据策略协调机制和策略学习机制,确定多无人机协同空战机动决策模型的强化学习训练过程如下:
步骤3-3-1:首先进行初始化:确定空战双方的兵力和态势,设有n架无人机和m架目标进行空战对抗,n≥m;随机初始化Actor的在线网络参数θ和Critic的在线网络的参数ξ,然后将Actor和Critic在线网络的参数分别赋给其相应目标网络的参数,即θ′←θ,ξ′←ξ,θ′和ξ′分别是Actor和Critic目标网络的参数;初始化经验池R1,用以保存探交互得到的经验数据;初始化一个随机过程ε,用于实现行动值的探索;
步骤3-3-2:确定训练的初始状态,即确定空战开始的双方相对态势;设定无人机编队和目标编队中每一架无人机的初始位置信息和速度信息,即确定每架无人机的(x,y,z,v,γ,ψ)信息,根据状态空间的定义,计算得出空战初始状态s1;令t等于1;
步骤3-3-3:根据初始状态重复进行多幕训练,在每一单幕空战仿真中执行如下操作:
首先根据当前空战状态st,基于目标分配方法计算出目标分配矩阵Xt;然后每一个UAVi根据状态st和随机过程ε生成行动值
Figure BDA0002991868610000191
并执行,与此同时,目标编队中的每一个Targeti执行行动
Figure BDA0002991868610000192
执行完后状态转移至st+1,根据式(13)计算获得奖励值
Figure BDA0002991868610000193
将一次转移过程变量
Figure BDA0002991868610000194
作为一条经验数据存入经验池R1中;在学习时,从经验池R1中随机采样一批M条经验数据
Figure BDA0002991868610000195
计算各个无人机的目标Q值,即对于M条数据中的每一条,都有
Figure BDA0002991868610000196
根据式(17)计算Critic的梯度估计值,有:
Figure BDA0002991868610000197
根据式(16)计算Actor的梯度估计值,有:
Figure BDA0002991868610000198
根据得到的梯度估计值△ξ和△θ,采用优化器对Actor和Critic的在线网络参数进行更新;完成在线网络优化后,采用软更新方式更新目标网络参数,即
Figure BDA0002991868610000201
其中κ∈(0,1);
步骤3-3-4:在单幕仿真结束后,如果仿真达到设定的最大幕数,则停止本次强化学习训练,否则令t加1,重复执行步骤3-3-3。
具体实施例:
设无人机与目标进行2对2空战,本发明方法用于无人机双机编队,具体实现步骤如下:
1、设计多机空战环境模型。
在多机空战中,设定无人机的数量为2,分别记为UAVi(i=1,2),目标的数量为2,分别记为Targetj(j=1,2)。
根据步骤1计算得到任意一架UAVi的观测状态Si
在多机空战过程中,每个无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据如式(2)所述的无人机动力学模型,无人机通过nx,nz和μ三个变量控制飞行,因此UAVi的行动空间为Ai=[nxi,nzii]。
在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值ηA和ηB,记UAVi与Targetj间的态势评估值为
Figure BDA0002991868610000202
Figure BDA0002991868610000203
除此之外,还应考虑UAVi与友机UAVk的相对状态对自身态势的影响,如果与友机的距离过近,会增大碰撞的风险,因此定义UAVi与友机UAVk的态势评估函数如式(9)所示。
2、设计多机协同目标分配方法。
两架无人机迎战2个目标。根据(6)式,UAVi(i=1,2)相对Targetj(j=1,2)的态势评估值为
Figure BDA0002991868610000204
由步骤2得到目标分配矩阵X=[xij]n×m
3、设计多机协同机动策略学习算法。
以无人机和目标飞机相向飞行,目标匀速直线运动飞行的空战场景,对无人机进行强化学习训练。
多无人机协同空战的空战背景设定为近距空战,空战环境模型的参数设定如下。导弹的最远截获距离Dmax=3km,视场角为
Figure BDA0002991868610000211
两架无人机之间的最小安全距离Dsafe=200m,截获目标时的优势值Re=5,惩罚值P=10,无人机的运动模型中,设最大速度vmax=400m/s,最小速度vmin=90m/s,控制参数nx∈[-1,2],nz∈[0,8],μ∈[-π,π]。
机动决策模型的Actor网络分为输入层、隐含层和输出层三个部分,其中输入层输入空战状态,隐含层分为2层,第1层由正向和反向各400个LSTM神经元组成,该层按无人机个数依据双向循环神经网络结构展开后形成通信层,第2层由100个神经元组成,采用tanh激活函数,参数以均匀分布[-3×10-4,3×10-4]随机初始化,输出层输出3个控制量,采用tanh激活函数,参数以均匀分布[-2×10-5,2×10-5]随机初始化,通过线性调整,将tanh的输出范围[0,1]分别调整为[1,2]、[0,8]、和[-π,π]。
机动决策模型的Critic网络同样分为输入层、隐含层和输出层三个部分,其中输入层输入空战状态和无人机的3个行动值,隐含层分为2层,第1层由正向反向各500个LSTM神经元组成,该层按无人机个数依据双向循环神经网络结构展开后形成通信层,第2层由150个神经元组成,采用tanh激活函数,参数以均匀分布[-3×10-4,3×10-4]随机初始化,输出层输出1个Q值,采用tanh激活函数,参数以均匀分布[-2×10-4,2×10-4]随机初始化。Actor和cirtic模型均采用Adam优化器,Actor网络的学习率设为0.001,critic网络的学习率设为0.0001。折扣因子λ=0.95,目标网络的软更新因子κ=0.005。行动值探索的随机过程ε采用OU过程。经验回放空间R的大小设为106,batch的大小设为512。
图5是训练完成后,基于学习到的策略的空战仿真机动轨迹。基于学习到的策略的空战仿真机动轨迹。从图中可以看出,在初始时刻,UAV1和UAV2分别面对目标1和目标2相向飞行,根据目标分配算法,UAV1和UAV2分别选择目标1和目标2作为攻击目标进行机动占位,在与各自目标接近过程中,调整航向和高度,避免交汇中可能出现的碰撞,在与目标交汇前后,UAV1向右侧回转,UAV2向左侧回转,实现了交叉掩护,在两架无人机均向对方方向转弯后交换了各自的攻击目标,而不是继续回转去追击各自初始分配的目标,体现了战术配合,证明经过强化学习训练,无人机双机编队能够学习得出空战机动策略,实现双机间的战术配合,在空战中获取优势,而不是将多机空战分解为多个1v1对抗。

Claims (1)

1.一种基于多智能体强化学习的多无人机协同空战机动决策方法,其特征在于,包括以下步骤:
步骤1:建立多机空战环境模型,定义在多机协同空战过程中每架无人机进行机动决策的状态空间、行动空间和奖励值;
步骤1-1:在地面坐标系中,ox轴取正东方,oy轴取正北方,oz轴取铅垂方向;在地面坐标系中无人机的运动模型如式(1)所示:
Figure FDA0002991868600000011
在地面坐标系中,无人机的动力学模型如式(2)所示:
Figure FDA0002991868600000012
其中,(x,y,z)表示无人机在地面坐标系中的位置,v表示无人机速度,
Figure FDA0002991868600000013
Figure FDA0002991868600000014
分别表示无人机速度v在xyz三个坐标轴上的值;航迹角γ表示无人机速度v与水平面o-x-y之间的夹角;航向角ψ表示无人机速度v在o-x-y平面上的投影v′与oy轴之间的夹角,g表示重力加速度;[nx,nz,μ]是控制无人机进行机动的控制变量,nx是无人机速度方向的过载,代表无人机的推力与减速作用;nz表示无人机俯仰方向的过载,即法向过载;μ是围绕无人机速度矢量的滚转角;通过nx控制无人机的速度大小,通过nz和μ控制无人机速度矢量的方向,进而控制无人机进行机动动作;
步骤1-2:设定导弹仅具有尾后攻击能力;在导弹的截获区域内,用vU和vT分别表示无人机和目标的速度;D为距离矢量,表示无人机与目标间的位置关系;αU和αT分别表示无人机速度矢量与距离矢量D之间的夹角和目标速度矢量与距离矢量D之间的夹角;
设导弹的最远截获距离为Dm,视场角为
Figure FDA0002991868600000015
则导弹的截获区域为一个圆锥区域Ω;无人机在空战中机动的目标就是让目标进入无人机的截获区域ΩU同时避免无人机进入目标的截获区域ΩT
根据导弹截获区域的定义,如果目标处于己方导弹的截获区域,则说明己方能够发射武器攻击目标,己方处于优势,定义无人机截获目标时的优势值ηU为:
Figure FDA0002991868600000021
其中,(xT,yT,zT)表示目标的位置坐标;Re为正数;
定义目标截获无人机获得的优势值ηT为:
Figure FDA0002991868600000022
其中,(xU,yU,zU)表示无人机的位置坐标;
则空战中,无人机基于截获机会获得的优势值ηA定义为:
ηA=ηUT (4)
定义基于双方角度参数与距离参数获得的优势值ηB为:
Figure FDA0002991868600000023
上式表明,当无人机对目标尾追时,优势值为ηB=1;在无人机被目标尾追时,优势值为ηB=-1;当无人机与目标的距离大于导弹最远截获距离时,优势值按指数函数衰减;
综合式式(4)、(5),得出无人机所处空战的态势评估函数η为:
η=ηAB (6)
步骤1-3:任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定,因此空战态势的描述由以下5个方面组成:
1)无人机的速度信息,包括速度大小vU、航迹角γU和航向角ψU
2)目标的速度信息,包括速度大小vT、航迹角γT和航向角ψT
3)无人机与目标之间的相对位置关系,采用距离矢量D表征;距离矢量的模D=||D||,γD表示距离矢量D与水平面o-x-y的夹角,ψD表示距离矢量D在水平面o-x-y上的投影矢量与oy轴之间的夹角,无人机与目标的相对位置关系用D、γD和ψD表示;
4)无人机与目标之间的相对运动关系,包括无人机速度矢量与距离矢量D之间的夹角αU和目标速度矢量与距离矢量D之间的夹角αT
5)无人机的高度信息zU和目标的高度信息zT
基于上述1)到5)中的变量能够完备地表征任意时刻的1v1空战态势,因此1v1机动决策模型的状态空间是一个13维向量空间s:
s=[vUUU,vTTT,D,γDDUT,zU,zT] (7)
采用态势评估函数η作为空战机动决策奖励值R,通过态势评估函数来反映行动值对空战态势的作用,R=η;
步骤1-4:在多机空战中,设定无人机的数量为n,分别记为UAVi(i=1,2,…,n),目标的数量为m,分别记为Targetj(j=1,2,…,m),设定目标的数量不大于无人机的数量,即m≤n;
记任意两个UAVi和Targetj间的相对状态为
Figure FDA0002991868600000031
UAVi与任意一个友机UAVk之间的相对状态记为
Figure FDA0002991868600000032
则多机空战中任意一架UAVi的观测状态为:
Si=[∪sij|j=1,2...,m,∪sik|k=1,2,...,n(k≠i)] (8)
在多机空战过程中,每架无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据式(2)所述的无人机动力学模型,无人机通过nx、nz和μ三个变量控制飞行,因此UAVi的行动空间为Ai=[nxi,nzii];
在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值ηA和ηB,记UAVi与Targetj间的态势评估值为
Figure FDA0002991868600000033
Figure FDA0002991868600000034
除此之外,考虑UAVi与友机UAVk的相对状态对自身态势的影响,因此定义UAVi与友机UAVk的态势评估函数为:
Figure FDA0002991868600000041
其中Dik为无人机UAVi与友机UAVk之间的距离,Dsafe为两架无人机之间的最小安全距离,P为正数;
步骤2:建立多机协同目标分配方法,确定强化学习训练时的目标分配规则;
步骤2-1:在空战中,设n架无人机迎战m架目标,且n≥m;根据式(6),UAVi(i=1,2,…,n)相对Targetj(j=1,2,…,m)的态势评估值为
Figure FDA0002991868600000042
设目标分配矩阵为X=[xij],xij=1表示Targetj分配给UAVi,xij=0表示Targetj没有分配给UAVi;设每个无人机最多能同时对处于其攻击区内的L个目标发射导弹,即
Figure FDA0002991868600000043
同时,作战时要避免有目标被遗漏而放弃攻击,即每个目标均应至少分配一个无人机去攻击,因此
Figure FDA0002991868600000044
而所有无人机均要投入战斗,因此
Figure FDA0002991868600000045
以无人机对目标的态势优势最大化为目标,建立目标分配模型如下:
Figure FDA0002991868600000046
步骤2-2:在目标分配过程中首先分配处于攻击区内的目标,然后再分配处于攻击区以外的目标,因此目标分配方法分为如下两个部分:
步骤2-2-1:优先分配位于攻击区内的目标;
Figure FDA0002991868600000047
Figure FDA0002991868600000048
为元素构建两个n×m维的矩阵HA和HB
Figure FDA0002991868600000049
Figure FDA0002991868600000051
由式(3),如果Targetj处于UAVi的攻击区内,则
Figure FDA0002991868600000052
否则
Figure FDA0002991868600000053
因此,令
Figure FDA0002991868600000054
Figure FDA0002991868600000055
所有零元素的对应位置的xij=1;在分配过程中,如果处于无人机UAVi攻击区内的目标个数χ超过了无人机的最大攻击目标数量,即χ>L,则将UAVi在HB矩阵中对应的元素值排序,选择其中元素值最大的L个目标分配给UAVi
步骤2-2-2:分配位于攻击区以外的目标;
对于UAVi,如果已经分配了处于其攻击区内的目标,则不能再向其分配攻击区外的目标;而对于攻击区外的多个目标,无人机无法做出机动使得多个目标处于攻击区内,因而当目标均在攻击区之外时,只能为无人机分配一个目标;因此,在完成攻击区内目标分配后,剩余的目标分配工作转变为未分配的无人机分配1个目标的过程,采用匈牙利算法实现分配,具体如下:
首先根据当前的目标分配矩阵X=[xij]n×m,将HB中所有xij=1所在的第i行和第j列删除,获得矩阵
Figure FDA0002991868600000056
基于
Figure FDA0002991868600000057
采用匈牙利算法计算分配结果,由于n≥m,且L>0,采用补边法完成匈牙利算法,实现目标分配,令相应xij=1;
完成以上两步后,即完成了所有目标的分配,得到目标分配矩阵X=[xij]n×m
步骤3:设计多机协同机动策略学习算法,确定强化学习训练逻辑;
多机协同机动策略学习算法包括策略协调机制和策略学习机制两部分:
步骤3-1:设计策略协调机制;
将空战对抗看作n个无人机与m个目标之间的竞争博弈,基于随机博弈的框架建立模型,一个随机博弈可以用一个元组
Figure FDA0002991868600000058
来表示;S表示当前博弈的状态空间,所有Agent都能共享;UAVi的行动空间定义为Ai,Targeti的行动空间定义为Bi;T:S×An×Bm→S表示环境的确定性转移函数,
Figure FDA0002991868600000059
Figure FDA00029918686000000510
表示UAVi的奖励值函数;在协同空战中各自编队内无人机的行动空间相同,即对于UAVi和Targetj分别有Ai=A和Bi=B;
定义无人机编队的全局奖励值为各个无人机奖励值的平均值,即:
Figure FDA0002991868600000061
其中,r(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,无人机编队获得的奖励值;
无人机编队的目标是学习一个策略使得奖励值的折扣累加值的期望
Figure FDA0002991868600000062
最大化,其中0<λ≤1是折扣因子;将随机博弈转变为一个马尔科夫决策问题:
Figure FDA0002991868600000063
其中Q*(·)表示状态s下执行行动a的状态-动作值函数,r(s,a)表示状态s下的执行行动a获得的奖励值,θ表示策略函数的网络参数,s′表示下一时刻的状态,aθ表示参数化的策略函数;
定义每架无人机的奖励值函数为:
Figure FDA0002991868600000064
其中,ri(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,UAVi获得的奖励值,其中
Figure FDA0002991868600000065
表征UAVi相对为其分配的目标的态势优势值,
Figure FDA0002991868600000066
是惩罚项,用以约束UAVi与友机之间的距离;
基于式(13),对于n架无人机个体,有n个如式(14)所示的贝尔曼方程,其中的策略函数aθ拥有相同的参数θ:
Figure FDA0002991868600000067
其中,
Figure FDA0002991868600000068
表示无人机UAVi在状态s下的执行行动a的状态-动作值函数,ri(s,a)表示无人机UAVi在状态s下的执行行动a获得的奖励值;
步骤3-2:设计策略学习机制;
采用双向循环神经网络BRNN建立多无人机机动决策模型;
多无人机空战机动决策模型由Actor网络和Critic网络组成,Actor网络由各个无人机个体的Actor网络通过BRNN连接而成,Critic网络由各个无人机个体的Critic网络通过BRNN连接而成;多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元,再按照无人机的数量将BRNN展开;多无人机空战机动决策模型的输入为当前空战态势,输出各个无人机的行动值;
定义UAVi的目标函数为
Figure FDA0002991868600000071
表示个体奖励值ri的累加的期望,
Figure FDA0002991868600000072
表示在状态转移函数T下采用行动策略aθ得到的状态分布,状态分布在遍历的马尔可夫决策过程中为平稳分布,所以将n个无人机的目标函数记为J(θ):
Figure FDA0002991868600000073
根据多智能体确定性策略梯度定理,对于式(15)所述的n个无人机的目标函数J(θ),其策略网络参数θ的梯度为
Figure FDA0002991868600000074
采用参数化的Critic函数Qξ(s,a)来估计式(16)中的状态-行动值函数
Figure FDA0002991868600000075
在训练Critic时,采用平方和loss函数,计算参数化critic函数Qξ(s,a)的梯度如式(17)所示,其中ξ是Q网络的参数:
Figure FDA0002991868600000076
基于式(16)和(17),采用随机梯度下降法优化Actor和Critic网络;在交互学习的过程中,通过试错获取的数据更新参数,完成协同空战策略的学习优化;
步骤3-3:根据策略协调机制和策略学习机制,确定多无人机协同空战机动决策模型的强化学习训练过程如下:
步骤3-3-1:首先进行初始化:确定空战双方的兵力和态势,设有n架无人机和m架目标进行空战对抗,n≥m;随机初始化Actor的在线网络参数θ和Critic的在线网络的参数ξ,然后将Actor和Critic在线网络的参数分别赋给其相应目标网络的参数,即θ′←θ,ξ′←ξ,θ′和ξ′分别是Actor和Critic目标网络的参数;初始化经验池R1,用以保存探交互得到的经验数据;初始化一个随机过程ε,用于实现行动值的探索;
步骤3-3-2:确定训练的初始状态,即确定空战开始的双方相对态势;设定无人机编队和目标编队中每一架无人机的初始位置信息和速度信息,即确定每架无人机的(x,y,z,v,γ,ψ)信息,根据状态空间的定义,计算得出空战初始状态s1;令t等于1;
步骤3-3-3:根据初始状态重复进行多幕训练,在每一单幕空战仿真中执行如下操作:
首先根据当前空战状态st,基于目标分配方法计算出目标分配矩阵Xt;然后每一个UAVi根据状态st和随机过程ε生成行动值
Figure FDA0002991868600000081
并执行,与此同时,目标编队中的每一个Targeti执行行动
Figure FDA0002991868600000082
执行完后状态转移至st+1,根据式(13)计算获得奖励值
Figure FDA0002991868600000083
将一次转移过程变量
Figure FDA0002991868600000084
作为一条经验数据存入经验池R1中;在学习时,从经验池R1中随机采样一批M条经验数据
Figure FDA0002991868600000085
计算各个无人机的目标Q值,即对于M条数据中的每一条,都有:
Figure FDA0002991868600000086
根据式(17)计算Critic的梯度估计值,有:
Figure FDA0002991868600000087
根据式(16)计算Actor的梯度估计值,有:
Figure FDA0002991868600000088
根据得到的梯度估计值△ξ和△θ,采用优化器对Actor和Critic的在线网络参数进行更新;完成在线网络优化后,采用软更新方式更新目标网络参数,即
Figure FDA0002991868600000089
其中κ∈(0,1);
步骤3-3-4:在单幕仿真结束后,如果仿真达到设定的最大幕数,则停止本次强化学习训练,否则令t加1,重复执行步骤3-3-3。
CN202110318644.5A 2021-03-25 2021-03-25 基于多智能体强化学习的多无人机协同空战机动决策方法 Expired - Fee Related CN112947581B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110318644.5A CN112947581B (zh) 2021-03-25 2021-03-25 基于多智能体强化学习的多无人机协同空战机动决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110318644.5A CN112947581B (zh) 2021-03-25 2021-03-25 基于多智能体强化学习的多无人机协同空战机动决策方法

Publications (2)

Publication Number Publication Date
CN112947581A CN112947581A (zh) 2021-06-11
CN112947581B true CN112947581B (zh) 2022-07-05

Family

ID=76226772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110318644.5A Expired - Fee Related CN112947581B (zh) 2021-03-25 2021-03-25 基于多智能体强化学习的多无人机协同空战机动决策方法

Country Status (1)

Country Link
CN (1) CN112947581B (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255234B (zh) * 2021-06-28 2021-09-28 北京航空航天大学 一种对导弹群进行在线目标分配的方法
CN113962012B (zh) * 2021-07-23 2024-05-24 中国科学院自动化研究所 无人机对抗策略优化方法及装置
CN113791634B (zh) * 2021-08-22 2024-02-02 西北工业大学 一种基于多智能体强化学习的多机空战决策方法
CN113625739A (zh) * 2021-08-25 2021-11-09 中国航空工业集团公司沈阳飞机设计研究所 一种基于试探机动选择算法的专家系统优化方法
CN113805569B (zh) * 2021-09-23 2024-03-26 北京理工大学 基于多智能体技术的对抗系统、方法、终端及存储介质
CN113566831B (zh) * 2021-09-26 2021-12-07 中国人民解放军国防科技大学 基于人机交互的无人机集群导航方法、装置和设备
CN113887134A (zh) * 2021-09-27 2022-01-04 南京航空航天大学 一种大规模轻量级的无人集群试验仿真平台及工作方法
CN113867178B (zh) * 2021-10-26 2022-05-31 哈尔滨工业大学 面向多机器人对抗的虚实迁移训练系统
CN114330115B (zh) * 2021-10-27 2023-06-09 中国空气动力研究与发展中心计算空气动力研究所 一种基于粒子群搜索的神经网络空战机动决策方法
CN114167756B (zh) * 2021-12-08 2023-06-02 北京航空航天大学 多无人机协同空战决策自主学习及半实物仿真验证方法
CN114239392B (zh) * 2021-12-09 2023-03-24 南通大学 无人机决策模型训练方法、使用方法、设备及介质
CN113893539B (zh) * 2021-12-09 2022-03-25 中国电子科技集团公司第十五研究所 智能体的协同对战方法及装置
CN114167899B (zh) * 2021-12-27 2023-05-26 北京联合大学 一种无人机蜂群协同对抗决策方法及系统
CN114326826B (zh) * 2022-01-11 2023-06-20 北方工业大学 多无人机队形变换方法及系统
CN114721424B (zh) * 2022-03-18 2024-10-15 中国人民解放军国防科技大学 一种多无人机协同对抗方法、系统以及存储介质
CN114638163B (zh) * 2022-03-21 2024-09-06 重庆高新区飞马创新研究院 一种基于自学习算法的智能群体协同战法生成方法
CN114815882B (zh) * 2022-04-08 2024-06-18 北京航空航天大学 一种基于强化学习的无人飞行器自主编队智能控制方法
CN114727407B (zh) * 2022-05-12 2022-08-26 中国科学院自动化研究所 一种资源分配方法、装置及设备
CN115113642B (zh) * 2022-06-02 2023-06-20 中国航空工业集团公司沈阳飞机设计研究所 一种多无人机时空关键特征自学习协同对抗决策方法
CN115097864B (zh) * 2022-06-27 2023-03-28 中国人民解放军海军航空大学 一种多机编队任务分配方法
CN115268481B (zh) * 2022-07-06 2023-06-20 中国航空工业集团公司沈阳飞机设计研究所 一种无人机对抗策略决策方法及其系统
CN115185294B (zh) * 2022-07-06 2024-07-05 北京航空航天大学 基于qmix的航空兵多编队协同自主行为决策建模方法
CN115639746A (zh) * 2022-08-05 2023-01-24 南京理工大学 一种基于td3算法的深度强化学习制导律
CN115328207B (zh) * 2022-09-20 2024-11-19 沈阳飞机设计研究所扬州协同创新研究院有限公司 一种2v2场景中探测指标自适应调整的飞机占位引导方法
CN115238832B (zh) * 2022-09-22 2022-12-02 中国人民解放军空军预警学院 基于cnn-lstm的空中编队目标意图识别方法及系统
CN115581920A (zh) * 2022-10-13 2023-01-10 北京字跳网络技术有限公司 一种对战控制方法、装置、电子设备及存储介质
CN115470894B (zh) * 2022-10-31 2023-01-31 中国人民解放军国防科技大学 基于强化学习的无人机知识模型分时调用方法及装置
CN115755956B (zh) * 2022-11-03 2023-12-15 南京航空航天大学 一种知识与数据协同驱动的无人机机动决策方法与系统
CN115826627A (zh) * 2023-02-21 2023-03-21 白杨时代(北京)科技有限公司 一种编队指令的确定方法、系统、设备及存储介质
CN116227361B (zh) * 2023-03-06 2023-08-15 中国人民解放军32370部队 一种智能体决策方法及装置
CN116047984B (zh) * 2023-03-07 2023-06-06 北京全路通信信号研究设计院集团有限公司 多智能体系统的一致性跟踪控制方法、装置、设备及介质
CN116679742B (zh) * 2023-04-11 2024-04-02 中国人民解放军海军航空大学 一种多六自由度飞行器协同作战决策方法
CN116149348B (zh) * 2023-04-17 2023-06-23 四川汉科计算机信息技术有限公司 一种空战机动系统及控制方法、防御系统控制方法
CN116489193B (zh) * 2023-05-04 2024-01-23 中国人民解放军陆军工程大学 一种作战网络自适应组合方法、装置、设备及介质
CN116736883B (zh) * 2023-05-23 2024-03-08 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116974297B (zh) * 2023-06-27 2024-01-26 北京五木恒润科技有限公司 基于多目标优化的冲突消解方法、装置、介质及电子设备
CN116893690B (zh) * 2023-07-25 2024-08-16 西安爱生技术集团有限公司 一种基于强化学习的无人机躲避攻击输入数据计算方法
CN117111640B (zh) * 2023-10-24 2024-01-16 中国人民解放军国防科技大学 基于风险态度自调整的多机避障策略学习方法及装置
CN117162102A (zh) * 2023-10-30 2023-12-05 南京邮电大学 机器人联合行动的独立近端策略优化训练加速方法
CN117168468B (zh) * 2023-11-03 2024-02-06 安徽大学 基于近端策略优化的多无人艇深度强化学习协同导航方法
CN117313561B (zh) * 2023-11-30 2024-02-13 中国科学院自动化研究所 无人机智能决策模型训练方法及无人机智能决策方法
CN118276454B (zh) * 2024-06-04 2024-07-26 中国人民解放军国防科技大学 多任务风险泛化的分布式多无人机策略获取方法及装置
CN118504919B (zh) * 2024-06-07 2025-02-11 中国兵器科学研究院 一种基于sdqn算法的多智能体目标分配方法
CN118884971B (zh) * 2024-07-02 2025-03-18 中国电子信息产业集团有限公司第六研究所 一种多无人机协同目标分配方法及装置
CN118760213B (zh) * 2024-09-06 2024-11-15 四川汉科计算机信息技术有限公司 一种基于态势信息的多机协同目标锁定方法及系统
CN119126804B (zh) * 2024-09-09 2025-03-25 东南大学 一种海空跨域无人集群护卫与阵形规划方法
CN118761749A (zh) * 2024-09-09 2024-10-11 北京理工大学 一种基于深度强化学习的多平台协同行为决策方法及系统
CN118915795B (zh) * 2024-10-10 2025-02-18 长江三峡集团实业发展(北京)有限公司 一种多无人机协同控制方法及装置
CN119690101A (zh) * 2024-12-06 2025-03-25 合肥工业大学 多无人机自适应智能决策的强化学习方法和系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007080584A2 (en) * 2006-01-11 2007-07-19 Carmel-Haifa University Economic Corp. Ltd. Uav decision and control system
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111523177A (zh) * 2020-04-17 2020-08-11 西安科为实业发展有限责任公司 一种基于智能学习的空战对抗自主决策方法及系统
CN111880565A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于Q-Learning的集群协同对抗方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112182977A (zh) * 2020-10-12 2021-01-05 中国人民解放军国防科技大学 一种无人集群协同博弈对抗的控制方法及系统
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007080584A2 (en) * 2006-01-11 2007-07-19 Carmel-Haifa University Economic Corp. Ltd. Uav decision and control system
CN108319286A (zh) * 2018-03-12 2018-07-24 西北工业大学 一种基于强化学习的无人机空战机动决策方法
CN111260031A (zh) * 2020-01-14 2020-06-09 西北工业大学 一种基于深度强化学习的无人机集群目标防卫方法
CN111523177A (zh) * 2020-04-17 2020-08-11 西安科为实业发展有限责任公司 一种基于智能学习的空战对抗自主决策方法及系统
CN112180967A (zh) * 2020-04-26 2021-01-05 北京理工大学 基于评判-执行架构的多无人机协同对抗决策方法
CN111880563A (zh) * 2020-07-17 2020-11-03 西北工业大学 一种基于maddpg的多无人机任务决策方法
CN111880565A (zh) * 2020-07-22 2020-11-03 电子科技大学 一种基于Q-Learning的集群协同对抗方法
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112051863A (zh) * 2020-09-25 2020-12-08 南京大学 一种无人机自主反侦察及躲避敌方攻击的方法
CN112182977A (zh) * 2020-10-12 2021-01-05 中国人民解放军国防科技大学 一种无人集群协同博弈对抗的控制方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Maneuver Strategy Generation of UCAV for within Visual Range Air Combat Based on Multi-Agent Reinforcement Learning and Target Position Prediction;Weiren Kong,等;《MDPI》;20200728;第1-23页 *
基于强化学习的无人机空战机动决策;丁林静,等;《航空电子技术》;20180630;第49卷(第2期);第29-35页 *
基于强化遗传算法的无人机空战机动决策研究;谢建峰,等;《西北工业大学学报》;20201231;第38卷(第6期);第1330-1338页 *
基于深度强化学习的群体对抗策略研究;刘强,等;《智能计算机与应用》;20200531;第10卷(第5期);第291-297页 *

Also Published As

Publication number Publication date
CN112947581A (zh) 2021-06-11

Similar Documents

Publication Publication Date Title
CN112947581B (zh) 基于多智能体强化学习的多无人机协同空战机动决策方法
Jiandong et al. UAV cooperative air combat maneuver decision based on multi-agent reinforcement learning
CN111880563B (zh) 一种基于maddpg的多无人机任务决策方法
Wang et al. Improving maneuver strategy in air combat by alternate freeze games with a deep reinforcement learning algorithm
CN113095481A (zh) 一种基于并行自我博弈的空战机动方法
CN108319286A (zh) 一种基于强化学习的无人机空战机动决策方法
CN108680063A (zh) 一种针对大规模无人机集群动态对抗的决策方法
CN112906233B (zh) 基于认知行为知识的分布式近端策略优化方法及其应用
CN114492805B (zh) 一种基于模糊推理的空战机动决策设计方法
CN113282061A (zh) 一种基于课程学习的无人机空中博弈对抗的解决方法
CN114460959A (zh) 一种基于多体博弈的无人机群协同自主决策方法及装置
CN114330115B (zh) 一种基于粒子群搜索的神经网络空战机动决策方法
CN115509251A (zh) 基于mappo算法的多无人机多目标协同跟踪控制方法
CN115755956B (zh) 一种知识与数据协同驱动的无人机机动决策方法与系统
CN114722701A (zh) 基于深度强化学习模型的兵棋推演协作策略获取方法
CN116432030A (zh) 一种基于深度强化学习的空战多意图策略自主生成方法
CN114721424A (zh) 一种多无人机协同对抗方法、系统以及存储介质
CN111461294B (zh) 面向动态博弈的智能飞行器类脑认知学习方法
CN113741186B (zh) 一种基于近端策略优化的双机空战决策方法
CN114167756B (zh) 多无人机协同空战决策自主学习及半实物仿真验证方法
CN114706418B (zh) 基于深度强化学习td3算法的无人机格斗自主决策方法
CN117111632A (zh) 基于元学习和maddpg的无人机编队协同决策方法
CN116700079A (zh) 基于ac-nfsp的无人机对抗占位机动控制方法
CN116796843A (zh) 一种基于pso-m3ddpg的无人机多对多追逃博弈方法
Luo et al. Multi-UAV cooperative maneuver decision-making for pursuit-evasion using improved MADRL

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220705

CF01 Termination of patent right due to non-payment of annual fee