CN112947581B

CN112947581B - 基于多智能体强化学习的多无人机协同空战机动决策方法

Info

Publication number: CN112947581B
Application number: CN202110318644.5A
Authority: CN
Inventors: 杨啟明; 张建东; 史国庆; 吴勇; 朱岩; 张耀中
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2022-07-05
Anticipated expiration: 2041-03-25
Also published as: CN112947581A

Abstract

本发明公开了一种基于多智能体强化学习的多无人机协同空战机动决策方法，解决了仿真多对多空战中多无人机协同空战中的机动动作的自主决策问题。本方法包含：无人机平台的运动模型创建；基于攻击区和距离、角度因素的多机空战态势评估，分析多机空战机动决策的状态空间、行动空间和奖励值；设计了协同空战中的目标分配方法和策略协调机制，通过奖励值的分配，定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈，经过训练后实现策略协同。本发明可有效提高多无人机进行协同空战机动自主决策的能力，具有更强的协同性和自主寻优性，在不断的仿真和学习中无人机编队所做的决策水平不断提高。

Description

基于多智能体强化学习的多无人机协同空战机动决策方法

技术领域

本发明属于无人机技术领域，具体涉及多无人机协同空战机动决策方法。

背景技术

目前，无人机已经能够完成侦察、监视和对地攻击等任务，在现代战争中发挥着越来越难以替代的作用。但是由于智能化水平的限制，目前无人机尚无法进行自主空战机动决策，尤其是多架无人机的自主协同空战。因此，提升无人机的智能化水平，让无人机能够根据态势环境而自动产生控制指令完成空战中的机动动作是当前主要的研究方向。

让无人机完成空战机动自主决策，其实质是完成从空战态势到机动动作的映射，在不同态势下执行相应的机动动作。由于空战的态势较之于其他任务更加复杂，靠人工预编程的方法难以全面地覆盖空战任务的态势空间，更难以计算产生最优的机动动作决策。

目前对无人机空战机动决策研究都是针对1v1单机对抗场景下所开展的，而现实空战中，基本都是多架无人机组成编队协同作战。多机协同空战涉及空战态势评估、多目标分配、机动决策三个方面，协同空战是这三个部分的紧密联系的耦合过程，相对于单机对抗的机动决策，多机协同空战除了兵力数量规模扩大之外，还需要考虑战术配合，问题更加复杂。

对多机协同空战决策研究可以分为集中式和分布式，集中式的方法是由一个中心计算编队内所有无人机的行动，这类模型较为复杂，存在计算难度大、实时性不足的问题。分布式方法的思路是在目标分配的基础上由编队内的各个无人机自行计算各自的机动动作，从而降低模型的复杂度，通过目标分配来实现编队任务的协同。现有的分布式协同空战决策方法多采用先进行目标分配，再根据目标分配的结果将多对多空战转化为一对一的情况，这种方法无法很好地发挥多目标攻击能力和编队作战的战术协同，无法达到1+1>2的效果。

发明内容

为了克服现有技术的不足，本发明提供了一种基于多智能体强化学习的多无人机协同空战机动决策方法，解决了仿真多对多空战中多无人机协同空战中的机动动作的自主决策问题。本方法包含：无人机平台的运动模型创建；基于攻击区和距离、角度因素的多机空战态势评估，分析多机空战机动决策的状态空间、行动空间和奖励值；设计了协同空战中的目标分配方法和策略协调机制，通过奖励值的分配，定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈，经过训练后实现策略协同。本发明可有效提高多无人机进行协同空战机动自主决策的能力，具有更强的协同性和自主寻优性，在不断的仿真和学习中无人机编队所做的决策水平不断提高。

本发明解决其技术问题所采用的技术方案包括以下步骤：

步骤1：建立多机空战环境模型，定义在多机协同空战过程中每架无人机进行机动决策的状态空间、行动空间和奖励值；

步骤1-1：在地面坐标系中，ox轴取正东方，oy轴取正北方，oz轴取铅垂方向；在地面坐标系中无人机的运动模型如式(1)所示：

在地面坐标系中，无人机的动力学模型如式(2)所示：

其中，(x，y，z)表示无人机在地面坐标系中的位置，v表示无人机速度，

和

分别表示无人机速度v在xyz三个坐标轴上的值；航迹角γ表示无人机速度v与水平面o-x-y之间的夹角；航向角ψ表示无人机速度v在o-x-y平面上的投影v′与oy轴之间的夹角，g表示重力加速度；[n_x,n_z,μ]是控制无人机进行机动的控制变量，n_x是无人机速度方向的过载，代表无人机的推力与减速作用；n_z表示无人机俯仰方向的过载，即法向过载；μ是围绕无人机速度矢量的滚转角；通过n_x控制无人机的速度大小，通过n_z和μ控制无人机速度矢量的方向，进而控制无人机进行机动动作；

步骤1-2：设定导弹仅具有尾后攻击能力；在导弹的截获区域内，用v_U和v_T分别表示无人机和目标的速度；D为距离矢量，表示无人机与目标间的位置关系；α_U和α_T分别表示无人机速度矢量与距离矢量D之间的夹角和目标速度矢量与距离矢量D之间的夹角；

设导弹的最远截获距离为D_m，视场角为

则导弹的截获区域为一个圆锥区域Ω；无人机在空战中机动的目标就是让目标进入无人机的截获区域Ω_U同时避免无人机进入目标的截获区域Ω_T；

根据导弹截获区域的定义，如果目标处于己方导弹的截获区域，则说明己方能够发射武器攻击目标，己方处于优势，定义无人机截获目标时的优势值η_U为：

其中，(x_T，y_T，z_T)表示目标的位置坐标；Re为正数；

定义目标截获无人机获得的优势值η_T为：

其中，(x_U，y_U，z_U)表示无人机的位置坐标；

则空战中，无人机基于截获机会获得的优势值η_A定义为：

η_A＝η_U-η_T (4)

定义基于双方角度参数与距离参数获得的优势值η_B为：

上式表明，当无人机对目标尾追时，优势值为η_B＝1；在无人机被目标尾追时，优势值为η_B＝-1；当无人机与目标的距离大于导弹最远截获距离时，优势值按指数函数衰减；

综合式式(4)、(5)，得出无人机所处空战的态势评估函数η为：

η＝η_A+η_B (6)

步骤1-3：任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定，因此空战态势的描述由以下5个方面组成：

1)无人机的速度信息，包括速度大小v_U、航迹角γ_U和航向角ψ_U；

2)目标的速度信息，包括速度大小v_T、航迹角γ_T和航向角ψ_T；

3)无人机与目标之间的相对位置关系，采用距离矢量D表征；距离矢量的模D＝||D||，γ_D表示距离矢量D与水平面o-x-y的夹角，ψ_D表示距离矢量D在水平面o-x-y上的投影矢量与oy轴之间的夹角，无人机与目标的相对位置关系用D、γ_D和ψ_D表示；

4)无人机与目标之间的相对运动关系，包括无人机速度矢量与距离矢量D之间的夹角α_U和目标速度矢量与距离矢量D之间的夹角α_T；

5)无人机的高度信息z_U和目标的高度信息z_T；

基于上述1)到5)中的变量能够完备地表征任意时刻的1v1空战态势，因此1v1机动决策模型的状态空间是一个13维向量空间s：

s＝[v_U,γ_U,ψ_U,v_T,γ_T,ψ_T,D,γ_D,ψ_D,α_U,α_T,z_U,z_T] (7)

采用态势评估函数η作为空战机动决策奖励值R，通过态势评估函数来反映行动值对空战态势的作用，R＝η；

步骤1-4：在多机空战中，设定无人机的数量为n，分别记为UAV_i(i＝1,2,…,n)，目标的数量为m，分别记为Target_j(j＝1,2,…,m)，设定目标的数量不大于无人机的数量，即m≤n；

记任意两个UAV_i和Target_j间的相对状态为

UAV_i与任意一个友机UAV_k之间的相对状态记为

则多机空战中任意一架UAV_i的观测状态为：

S_i＝[∪s_ij|_j＝1,2...,m,∪s_ik|_{k＝1,2,...,n(k≠i)}] (8)

在多机空战过程中，每架无人机根据自己在空战环境中所处的态势做出自己的机动决策，根据式(2)所述的无人机动力学模型，无人机通过n_x、n_z和μ三个变量控制飞行，因此UAV_i的行动空间为A_i＝[n_xi,n_zi,μ_i]；

在多机协同空战中，按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值η_A和η_B，记UAV_i与Target_j间的态势评估值为

和

除此之外，考虑UAV_i与友机UAV_k的相对状态对自身态势的影响，因此定义UAV_i与友机UAV_k的态势评估函数为：

其中D_ik为无人机UAV_i与友机UAV_k之间的距离，D_safe为两架无人机之间的最小安全距离，P为正数。

步骤2：建立多机协同目标分配方法，确定强化学习训练时的目标分配规则；

步骤2-1：在空战中，设n架无人机迎战m架目标，且n≥m；根据式(6)，UAV_i(i＝1,2,…,n)相对Target_j(j＝1,2,…,m)的态势评估值为

设目标分配矩阵为X＝[x_ij]，x_ij＝1表示Target_j分配给UAV_i，x_ij＝0表示Target_j没有分配给UAV_i；设每个无人机最多能同时对处于其攻击区内的L个目标发射导弹，即

同时，作战时要避免有目标被遗漏而放弃攻击，即每个目标均应至少分配一个无人机去攻击，因此

而所有无人机均要投入战斗，因此

以无人机对目标的态势优势最大化为目标，建立目标分配模型如下：

步骤2-2：在目标分配过程中首先分配处于攻击区内的目标，然后再分配处于攻击区以外的目标，因此目标分配方法分为如下两个部分：

步骤2-2-1：优先分配位于攻击区内的目标；

以

和

为元素构建两个n×m维的矩阵H_A和H_B，

由式(3)，如果Target_j处于UAV_i的攻击区内，则

否则

因此，令

令

所有零元素的对应位置的x_ij＝1；在分配过程中，如果处于无人机UAV_i攻击区内的目标个数χ超过了无人机的最大攻击目标数量，即χ>L，则将UAV_i在H_B矩阵中对应的元素值排序，选择其中元素值最大的L个目标分配给UAV_i；

步骤2-2-2：分配位于攻击区以外的目标；

对于UAV_i，如果已经分配了处于其攻击区内的目标，则不能再向其分配攻击区外的目标；而对于攻击区外的多个目标，无人机无法做出机动使得多个目标处于攻击区内，因而当目标均在攻击区之外时，只能为无人机分配一个目标；因此，在完成攻击区内目标分配后，剩余的目标分配工作转变为未分配的无人机分配1个目标的过程，采用匈牙利算法实现分配，具体如下：

首先根据当前的目标分配矩阵X＝[x_ij]_n×m，将H_B中所有x_ij＝1所在的第i行和第j列删除，获得矩阵

基于

采用匈牙利算法计算分配结果，由于n≥m，且L>0，采用补边法完成匈牙利算法，实现目标分配，令相应x_ij＝1；

完成以上两步后，即完成了所有目标的分配，得到目标分配矩阵X＝[x_ij]_n×m；

步骤3：设计多机协同机动策略学习算法，确定强化学习训练逻辑；

多机协同机动策略学习算法包括策略协调机制和策略学习机制两部分：

步骤3-1：设计策略协调机制；

将空战对抗看作n个无人机与m个目标之间的竞争博弈，基于随机博弈的框架建立模型，一个随机博弈可以用一个元组

来表示；S表示当前博弈的状态空间，所有Agent都能共享；UAV_i的行动空间定义为A_i，Target_i的行动空间定义为B_i；T:S×Aⁿ×B^m→S表示环境的确定性转移函数，

表示UAV_i的奖励值函数；在协同空战中各自编队内无人机的行动空间相同，即对于UAV_i和Target_j分别有A_i＝A和B_i＝B；

定义无人机编队的全局奖励值为各个无人机奖励值的平均值，即：

其中，r(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈Aⁿ、目标编队采取行动b∈B^m的情况下，无人机编队获得的奖励值；

无人机编队的目标是学习一个策略使得奖励值的折扣累加值的期望

最大化，其中0<λ≤1是折扣因子；将随机博弈转变为一个马尔科夫决策问题：

其中Q^*(·)表示状态s下执行行动a的状态-动作值函数，r(s,a)表示状态s下的执行行动a获得的奖励值，θ表示策略函数的网络参数，s′表示下一时刻的状态，a_θ表示参数化的策略函数；

定义每架无人机的奖励值函数为：

其中，r_i(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈Aⁿ、目标编队采取行动b∈B^m的情况下，UAV_i获得的奖励值，其中

表征UAV_i相对为其分配的目标的态势优势值，

是惩罚项，用以约束UAV_i与友机之间的距离；

基于式(13)，对于n架无人机个体，有n个如式(14)所示的贝尔曼方程，其中的策略函数a_θ拥有相同的参数θ：

其中，

表示无人机UAV_i在状态s下的执行行动a的状态-动作值函数，r_i(s,a)表示无人机UAV_i在状态s下的执行行动a获得的奖励值；

步骤3-2：设计策略学习机制；

采用双向循环神经网络BRNN建立多无人机机动决策模型；

多无人机空战机动决策模型由Actor网络和Critic网络组成，Actor网络由各个无人机个体的Actor网络通过BRNN连接而成，Critic网络由各个无人机个体的Critic网络通过BRNN连接而成；多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元，再按照无人机的数量将BRNN展开；多无人机空战机动决策模型的输入为当前空战态势，输出各个无人机的行动值；

定义UAV_i的目标函数为

表示个体奖励值r_i的累加的期望，

表示在状态转移函数T下采用行动策略a_θ得到的状态分布，状态分布在遍历的马尔可夫决策过程中为平稳分布，所以将n个无人机的目标函数记为J(θ)：

根据多智能体确定性策略梯度定理，对于式(15)所述的n个无人机的目标函数J(θ)，其策略网络参数θ的梯度为

采用参数化的Critic函数Q^ξ(s,a)来估计式(16)中的状态-行动值函数

在训练Critic时，采用平方和loss函数，计算参数化critic函数Q^ξ(s,a)的梯度如式(17)所示，其中ξ是Q网络的参数：

基于式(16)和(17)，采用随机梯度下降法优化Actor和Critic网络；在交互学习的过程中，通过试错获取的数据更新参数，完成协同空战策略的学习优化；

步骤3-3：根据策略协调机制和策略学习机制，确定多无人机协同空战机动决策模型的强化学习训练过程如下：

步骤3-3-1：首先进行初始化：确定空战双方的兵力和态势，设有n架无人机和m架目标进行空战对抗，n≥m；随机初始化Actor的在线网络参数θ和Critic的在线网络的参数ξ，然后将Actor和Critic在线网络的参数分别赋给其相应目标网络的参数，即θ′←θ，ξ′←ξ，θ′和ξ′分别是Actor和Critic目标网络的参数；初始化经验池R₁，用以保存探交互得到的经验数据；初始化一个随机过程ε，用于实现行动值的探索；

步骤3-3-2：确定训练的初始状态，即确定空战开始的双方相对态势；设定无人机编队和目标编队中每一架无人机的初始位置信息和速度信息，即确定每架无人机的(x,y,z,v,γ,ψ)信息，根据状态空间的定义，计算得出空战初始状态s¹；令t等于1；

步骤3-3-3：根据初始状态重复进行多幕训练，在每一单幕空战仿真中执行如下操作：

首先根据当前空战状态s^t，基于目标分配方法计算出目标分配矩阵X^t；然后每一个UAV_i根据状态s^t和随机过程ε生成行动值

并执行，与此同时，目标编队中的每一个Target_i执行行动

执行完后状态转移至s^t+1，根据式(13)计算获得奖励值

将一次转移过程变量

作为一条经验数据存入经验池R₁中；在学习时，从经验池R₁中随机采样一批M条经验数据

计算各个无人机的目标Q值，即对于M条数据中的每一条，都有：

根据式(17)计算Critic的梯度估计值，有：

根据式(16)计算Actor的梯度估计值，有：

根据得到的梯度估计值△ξ和△θ，采用优化器对Actor和Critic的在线网络参数进行更新；完成在线网络优化后，采用软更新方式更新目标网络参数，即

其中κ∈(0,1)；

步骤3-3-4：在单幕仿真结束后，如果仿真达到设定的最大幕数，则停止本次强化学习训练，否则令t加1，重复执行步骤3-3-3。

本发明的有益效果如下：

本发明基于多智能体强化学习的方法，建立了多无人机协同空战机动决策策略的产生方法，采用双向循环神经网络建立通信网络，将分立的无人机连接成编队的协同决策网络，建立了Actor-critic架构下的多无人机协同空战机动决策模型，实现了无人机个体行为的学习与编队整体作战目标的统一。有别于将多机空战分解为多个1v1空战，本发明所建立的多无人机协同空战机动决策模型通过自主学习能够获得协同空战机动策略，在空战过程实现战术配合，达到整体编队作战的态势优势并战胜对手。

附图说明

图1是本发明无人机三自由度质点运动模型。

图2是本发明一对一近距空战态势图。

图3是本发明目标匀速直线飞行条件下无人机机动决策的结果图。

图4是本发明基于双向循环神经网络的多无人机协同空战机动决策模型结构。

图5是训练完成后基于学习到的策略的空战仿真机动轨迹示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

本发明的目的在于提供一种基于多智能体强化学习的多无人机协同空战自主机动决策的产生方法，方法主要的架构是设计出符合多无人机协同空战控制问题约束的强化学习算法结构，通过不断在构建的模拟空战环境中试错学习获得一系列合理的空战机动策略，提高多无人机在分布式架构基础上，自主完成协同空战的能力。

本发明通过通信网络实现了各无人机状态理解的一致性。根据多目标攻击特点，结合目标分配和空战态势评估值计算各无人机的强化学习奖励值，通过各个无人机的奖励引导个体的强化学习过程，使得编队的战术目标与单个无人机的学习目标紧密结合，生成协同战术机动策略。在空战过程实现战术配合，达到整体编队作战的态势优势并战胜对手。

一种基于多智能体强化学习的多无人机协同空战机动决策方法，包括以下步骤：

在地面坐标系中，无人机的动力学模型如式(2)所示：

和

分别表示无人机速度v在xyz三个坐标轴上的值；航迹角γ表示无人机速度v与水平面o-x-y之间的夹角；航向角ψ表示无人机速度v在o-x-y平面上的投影v′与oy轴之间的夹角，g表示重力加速度；[n_x,n_z,μ]是控制无人机进行机动的控制变量，n_x是无人机速度方向的过载，代表无人机的推力与减速作用；n_z表示无人机俯仰方向的过载，即法向过载；μ是围绕无人机速度矢量的滚转角；通过n_x控制无人机的速度大小，通过n_z和μ控制无人机速度矢量的方向，进而控制无人机进行机动动作；如图1所示；

设导弹的最远截获距离为D_m，视场角为

其中，(x_T,y_T,z_T)表示目标的位置坐标；Re表示一个较大的正数，根据训练效果可以再手动调整，引导模型训练的效果；

定义目标截获无人机获得的优势值η_T为：

其中，(x_U，y_U，z_U)表示无人机的位置坐标；

则空战中，无人机基于截获机会获得的优势值η_A定义为：

η_A＝η_U-η_T (4)

除此之外，在空战中由于航炮和一些导弹的视场角较小，一般只有在尾追的情况下才能构成发射条件，因此对于角度关系的要求较为严苛，故定义基于双方角度参数与距离参数获得的优势值η_B为：

η＝η_A+η_B (6)

步骤1-3：空战机动决策模型的状态由一组能够完备地描述空战态势的变量组成，如图2所示，任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定，因此空战态势的描述由以下5个方面组成：

5)无人机的高度信息z_U和目标的高度信息z_T；

s＝[v_U,γ_U,ψ_U,v_T,γ_T,ψ_T,D,γ_D,ψ_D,α_U,α_T,z_U,z_T] (7)

如图3所示，多机空战中由于无人机和目标的数量增多，每个无人机做出机动决策需要考虑与其他所有无人机(目标与友机)的相对状态。无人机与另外一架无人机在空战中的相对态势可以由(7)式所述的13个变量完全描述。记任意两个UAV_i和Target_j间的相对状态为

UAV_i与任意一个友机UAV_k之间的相对状态记为

则多机空战中任意一架UAV_i的观测状态为：

S_i＝[∪s_ij|_j＝1,2...,m,∪s_ik|_{k＝1,2,...,n(k≠i)}] (8)

和

除此之外，考虑UAV_i与友机UAV_k的相对状态对自身态势的影响，如果与友机的距离过近，会增大碰撞的风险，因此定义UAV_i与友机UAV_k的态势评估函数为：

其中D_ik为无人机UAV_i与友机UAV_k之间的距离，D_safe为两架无人机之间的最小安全距离，P为一个较大的正数。

在多机协同空战中，从空战整体角度看，无人机编队在空战中取得最大优势意味着每一架敌机都可被无人机的武器攻击，然而每个无人机在同一时刻只能针对一个目标进行机动，因此多机协同空战在进行机动决策的同时还要时刻进行目标分配，以实现战术策略的协同。

设目标分配矩阵为X＝[x_ij]，x_ij＝1表示Target_j分配给UAV_i，x_ij＝0表示Target_j没有分配给UAV_i；多机空战过程中，会存在多个目标同时处于一架无人机的攻击区内的情况，因此目标分配需要考虑无人机的多目标攻击能力，设每个无人机最多能同时对处于其攻击区内的L个目标发射导弹，即

而所有无人机均要投入战斗，因此

步骤2-2：空战中无人机进行一系列机动的目的就是让目标进入攻击区向目标发射武器，在目标分配过程中首先分配处于攻击区内的目标，然后再分配处于攻击区以外的目标，因此目标分配方法分为如下两个部分：

步骤2-2-1：优先分配位于攻击区内的目标；

以

和

为元素构建两个n×m维的矩阵H_A和H_B，

由式(3)，如果Target_j处于UAV_i的攻击区内，则

否则

因此，令

令

步骤2-2-2：分配位于攻击区以外的目标；

基于

步骤3-1：设计策略协调机制；

协同空战中无人机是否在对抗中处于优势，是以所有无人机的态势来评价。定义无人机编队的全局奖励值为各个无人机奖励值的平均值，即：

采用式(11)定义的全局奖励值能够反映无人机编队整体的态势优劣，但是采用全局奖励值不能反映出无人机个体在编队协同中的作用。事实上，全局的协同是由每个个体的目标所驱动的，因此，定义每架无人机的奖励值函数为：

表征UAV_i相对为其分配的目标的态势优势值，

是惩罚项，用以约束UAV_i与友机之间的距离；

其中，

在学习训练过程中，通过奖励值的分配，定义了各个无人机在目标分配、态势优势和安全避碰的行为反馈，经过训练后实现策略协同，每架无人机的行为能与其他友机的行为达成默契，不需要进行集中的目标分配。

步骤3-2：设计策略学习机制；

基于多智能体强化学习实现集体合作的前提是个体间的信息交互，因此，采用双向循环神经网络BRNN建立多无人机机动决策模型，保证无人机间的信息交互，实现编队机动策略的协调；

建立模型如图4所示，多无人机空战机动决策模型由Actor网络和Critic网络组成，Actor网络由各个无人机个体的Actor网络通过BRNN连接而成，Critic网络由各个无人机个体的Critic网络通过BRNN连接而成；多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元，再按照无人机的数量将BRNN展开；多无人机空战机动决策模型的输入为当前空战态势，输出各个无人机的行动值，由于BRNN不仅能够实现无人机个体间的通信，同时也能作为记忆单元，因此无人机可以在与友机交互信息的同时，保存个体的行动策略；

由于模型基于BRNN构建，因此对于网络参数学习的思路是将网络展开成n(无人机个数)个子网络计算反向梯度，然后使用基于时间的反向传播算法更新网络参数。梯度在每个无人机个体的Q_i函数和策略函数中传播，模型学习时，各个无人机个体奖励值影响各个无人机的行动，进而由此产生的梯度信息反向传播并更新模型参数。

定义UAV_i的目标函数为

表示个体奖励值r_i的累加的期望，

表示在状态转移函数T下采用行动策略a_θ得到的状态分布，状态分布在遍历的马尔可夫决策过程中一般为平稳分布，所以将n个无人机的目标函数记为J(θ)：

并执行，与此同时，目标编队中的每一个Target_i执行行动

执行完后状态转移至s^t+1，根据式(13)计算获得奖励值

将一次转移过程变量

计算各个无人机的目标Q值，即对于M条数据中的每一条，都有

根据式(17)计算Critic的梯度估计值，有：

根据式(16)计算Actor的梯度估计值，有：

其中κ∈(0,1)；

具体实施例：

设无人机与目标进行2对2空战，本发明方法用于无人机双机编队，具体实现步骤如下：

1、设计多机空战环境模型。

在多机空战中，设定无人机的数量为2，分别记为UAV_i(i＝1,2)，目标的数量为2，分别记为Target_j(j＝1,2)。

根据步骤1计算得到任意一架UAV_i的观测状态S_i；

在多机空战过程中，每个无人机根据自己在空战环境中所处的态势做出自己的机动决策，根据如式(2)所述的无人机动力学模型，无人机通过n_x，n_z和μ三个变量控制飞行，因此UAV_i的行动空间为A_i＝[n_xi,n_zi,μ_i]。

和

除此之外，还应考虑UAV_i与友机UAV_k的相对状态对自身态势的影响，如果与友机的距离过近，会增大碰撞的风险，因此定义UAV_i与友机UAV_k的态势评估函数如式(9)所示。

2、设计多机协同目标分配方法。

两架无人机迎战2个目标。根据(6)式，UAV_i(i＝1,2)相对Target_j(j＝1,2)的态势评估值为

由步骤2得到目标分配矩阵X＝[x_ij]_n×m。

3、设计多机协同机动策略学习算法。

以无人机和目标飞机相向飞行，目标匀速直线运动飞行的空战场景，对无人机进行强化学习训练。

多无人机协同空战的空战背景设定为近距空战，空战环境模型的参数设定如下。导弹的最远截获距离D_max＝3km，视场角为

两架无人机之间的最小安全距离D_safe＝200m，截获目标时的优势值Re＝5，惩罚值P＝10，无人机的运动模型中，设最大速度v_max＝400m/s，最小速度v_min＝90m/s，控制参数n_x∈[-1,2]，n_z∈[0,8]，μ∈[-π,π]。

机动决策模型的Actor网络分为输入层、隐含层和输出层三个部分，其中输入层输入空战状态，隐含层分为2层，第1层由正向和反向各400个LSTM神经元组成，该层按无人机个数依据双向循环神经网络结构展开后形成通信层，第2层由100个神经元组成，采用tanh激活函数，参数以均匀分布[-3×10^-4,3×10^-4]随机初始化，输出层输出3个控制量，采用tanh激活函数，参数以均匀分布[-2×10^-5,2×10^-5]随机初始化，通过线性调整，将tanh的输出范围[0,1]分别调整为[1,2]、[0,8]、和[-π,π]。

机动决策模型的Critic网络同样分为输入层、隐含层和输出层三个部分，其中输入层输入空战状态和无人机的3个行动值，隐含层分为2层，第1层由正向反向各500个LSTM神经元组成，该层按无人机个数依据双向循环神经网络结构展开后形成通信层，第2层由150个神经元组成，采用tanh激活函数，参数以均匀分布[-3×10^-4,3×10^-4]随机初始化，输出层输出1个Q值，采用tanh激活函数，参数以均匀分布[-2×10^-4,2×10^-4]随机初始化。Actor和cirtic模型均采用Adam优化器，Actor网络的学习率设为0.001，critic网络的学习率设为0.0001。折扣因子λ＝0.95，目标网络的软更新因子κ＝0.005。行动值探索的随机过程ε采用OU过程。经验回放空间R的大小设为10⁶，batch的大小设为512。

图5是训练完成后，基于学习到的策略的空战仿真机动轨迹。基于学习到的策略的空战仿真机动轨迹。从图中可以看出，在初始时刻，UAV1和UAV2分别面对目标1和目标2相向飞行，根据目标分配算法，UAV1和UAV2分别选择目标1和目标2作为攻击目标进行机动占位，在与各自目标接近过程中，调整航向和高度，避免交汇中可能出现的碰撞，在与目标交汇前后，UAV1向右侧回转，UAV2向左侧回转，实现了交叉掩护，在两架无人机均向对方方向转弯后交换了各自的攻击目标，而不是继续回转去追击各自初始分配的目标，体现了战术配合，证明经过强化学习训练，无人机双机编队能够学习得出空战机动策略，实现双机间的战术配合，在空战中获取优势，而不是将多机空战分解为多个1v1对抗。