CN116301022A

CN116301022A - 基于深度强化学习的无人机集群任务规划方法和装置

Info

Publication number: CN116301022A
Application number: CN202310006846.5A
Authority: CN
Inventors: 丘昌镇; 刘紫薇; 张志勇; 徐雪阳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2023-01-04
Filing date: 2023-01-04
Publication date: 2023-06-23

Abstract

本申请提供基于深度强化学习的无人机集群任务规划方法和装置，包括：在集群中任意选取一个无人机作为第一无人机，其他无人机作为第二无人机，第二无人机组成剩余无人机集群；获取第一无人机的实际任务执行环境和无人机集群任务规划模型；将实际任务执行环境输入至无人机集群任务规划模型，得到无人机集群的任务规划；其中，无人机集群任务规划模型是以模拟任务执行环境为训练样本对改进的MADDPG模型进行学习训练得到；改进的MADDPG模型包括MADDPG网络和平均场论模块，平均场论模块设置在MADDPG网络中。通过上述方法，无人机能够在动作过程中获知全局的环境变换，在未知动态环境中引导无人机集群做出最优的任务规划。

Description

基于深度强化学习的无人机集群任务规划方法和装置

技术领域

本发明涉及无人机技术领域，具体涉及基于深度强化学习的无人机集群任务规划方法和装置。

背景技术

无人机具有操作方便、灵活可靠、低成本、降低操作人员事故的优点。近年来无人机的发展迅速，各种无人机单机任务执行能力也越来越强，自主性和智能性也不断完善。随着无人机执行的任务的规模不断扩展，任务的复杂程度也逐渐增大，促使无人机集群出现，通过多架无人机协同配合共同完成任务。

无人机集群之间的任务规划是多架无人机协同处理任务的基础，传统的无人机集群任务规划方法分为航迹规划和任务分配两个部分，并且是在环境基本固定、完全可知的条件下进行的。该任务规划方法下无人机无法及时获知环境的全局信息及其变化，并且容易受到外界环境的干扰，任何不完整的环境感知、环境估计偏差都会导致无人机集群的任务规划出现问题。同时，上述传统的无人机集群任务规划方法在航迹规划和任务分配过程中没有充分考虑两者之间的耦合关系。

发明内容

基于此，本发明提供基于深度强化学习的无人机集群任务规划方法和装置，能够使无人机及时获知全局的环境信息及其变化，并引导无人机集群针对特定状态做出最优的决策。

第一方面，本发明提供基于深度强化学习的无人机集群任务规划方法，包括：

获取无人机的实际任务执行环境和无人机集群任务规划模型，将所述实际任务执行环境输入至无人机集群任务规划模型，得到无人机集群的任务规划；

其中，所述无人机集群任务规划采用模拟任务执行的训练样本对改进的MADDPG模型进行学习训练得到；所述改进的MADDPG模型包括MADDPG网络和平均场论模块。

第二方面，本发明提供基于深度强化学习的无人机集群任务规划装置，包括：

参数获取模块，用于获取无人机的实际任务执行环境和无人机集群任务规划模型；

任务规划模块，用于将所述实际任务执行环境输入至无人机集群任务规划模型，得到无人机集群的任务规划；

第三方面，本发明提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项基于深度强化学习的无人机集群任务规划方法的步骤。

第四方面，本发明提供计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时，执行第一方面中任一项基于深度强化学习的无人机集群任务规划方法。

采用上述技术方案的有益效果为：基于基于深度强化学习的的无人机集群任务规划方法，通过学习训练得到无人机集群任务规划模型，使无人机能够在每一次的动作过程中获知全局的环境信息及其变化，能够在未知的动态环境中引导无人机集群做出最优的任务规划。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明一个实施例提供的基于深度强化学习的无人机集群任务规划方法示意图；

图2为本发明一个实施例提供的MADDPG网络的框架示意图；

图3为本发明一个实施例提供的基于深度强化学习的无人机集群任务规划方法实施的示意图；

图4a为本发明一个实施例提供的基于深度强化学习的无人机集群任务规划方法执行无人机之间合作沟通的测试环境；

图4b为本发明一个实施例提供的基于深度强化学习的无人机集群任务规划方法执行无人机之间物理欺骗的测试环境；

图5a-图5c为本发明一个实施例提供的基于深度强化学习的无人机集群任务规划方法执行无人机之间合作沟通的任务规划结果；

图6a-图6c为本发明一个实施例提供的基于深度强化学习的无人机集群任务规划方法执行无人机之间物理欺骗的任务规划结果；

图7a为在执行无人机之间合作沟通任务时，本发明实施例的基于深度强化学习的无人机集群任务规划方法与现有的深度学习方法得到的奖励值对比图；

图7b为在执行无人机之间合作沟通任务时，本发明实施例的基于深度强化学习的无人机集群任务规划方法与现有的深度学习方法得到的成功率对比图；

图8本发明一个实施例提供的基于深度强化学习的无人机集群任务规划装置的模块示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。为了更详细说明本发明，下面结合附图对本发明提供的基于深度强化学习的无人机集群任务规划方法和装置，进行具体地描述。

无人机集群任务规划通过采用多架无人机协同配合弥补单架无人机任务执行能力不足，日益繁复的任务处理要求。目前对无人机集群在执行区域防御任务时，由于单个无人机获取的信息有限，未能及时获取全局环境得知任务规划过程中的最优策略。针对该问题，本申请提出无人机集群任务规划方法、装置、存储介质和设备。

本申请实施例提供基于深度强化学习的无人机集群任务规划方法的具体应用场景。该应用场景包括实施例提供的终端设备，终端设备可以是各种电子设备，包括但不限于智能手机和计算机设备，其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。用户对终端设备进行操作，发出无人机集群任务规划的操作指示，终端设备执行本发明的基于深度强化学习的无人机集群任务规划方法，具体过程请参见基于深度强化学习的无人机集群任务规划方法实施例。

基于此，本申请实施例中提供了一种基于深度强化学习的无人机集群任务规划方法，以该方法应用于终端设备为例进行说明，结合附图1示出的基于深度强化学习的无人机集群任务规划方法示意图。

在本申请实施例中，无人机集群中各个无人机视为球状的智能体，设定各个无人机的半径均为r_uva，第i个无人机的初始位置设置为P_i＝[x_i,y_i,z_i]^T，第i个无人机的初始速度设置为V_i＝[v_i,x,v_i,y,v_i,z]^T，第i个无人机在预设时间的速度设置为

其中v_i,x为第i个无人机的初始速度的x轴分量，v_i,y为第i个无人机的初始速度的y轴分量，v_i,z为第i个无人机的初始速度的z轴分量，v′_i,x为第i个无人机在预设时间的速度的x轴分量，v′_i,y为第i个无人机在预设时间的速度的y轴分量，v′_i,z为第i个无人机在预设时间的速度的z轴分量，a为第i个无人机的加速度，Δt为预设时间；任意一个无人机的速度V_i≤V_max，V_max为预设的飞行物最大速度，任意一个无人机位置的y轴分量h_min≤y_i≤h_max，h_min为预设的飞行物最低高度，h_max为预设的飞行物最大高度。

在无人机集群执行任务的过程中，还包括一个或多个障碍物和目的地。其中障碍物同样视为球体，半径设置为r_adv，障碍物的初始位置设置为P_k＝[x_k,y_k,z_k]^T，障碍物的初始速度设置为V_k＝[v_k,x,v_k,y,v_k,z]^T，障碍物在预设时间的速度设置为

其中v_k,x为障碍物的初始速度的x轴分量，v_k,y为障碍物的初始速度的y轴分量，v_k,z为障碍物的初始速度的z轴分量，v′_k,x为障碍物在预设时间的速度的x轴分量，v′_k,y为障碍物在预设时间的速度的y轴分量，v′_k,z为障碍物在预设时间的速度的z轴分量，a_k为障碍物的加速度，Δt为预设时间，障碍物的速度V_k≤V_max，V_max为预设的飞行物最大速度，障碍物位置的y轴分量h_min≤y_k≤h_max，h_min为预设的飞行物最低高度，h_max为预设的飞行物最大高度。

目的地的位置设置为g＝[x_g,y_g,z_g]^T，目的地的半径设置为r_aim。

其中，第i个无人机与障碍物的碰撞距离设置为D_col＝r_uva+r_adv；第i个无人机到达目标区域时，无人机与目标区域的距离设置为D_aim≤r_uav+r_aim。

本申请实施例中无人机集群任务规划可采用马尔科夫博弈模型表示，具体为<N,S,A,Γ,R,O,γ>，其中，N为模拟任务执行环境的无人机总数；S为无人机集群所有无人机的局部状态；A为无人机集群所有无人机的动作向量，A＝A₁×A₂×…×A_N；Γ为无人机集群在当前状态下采用联合动作转移到下一状态的概率，Γ：S×A₁×A₂×…×A_N→S′，S′为无人机集群所有无人机的下一局部状态；R为无人机的联合奖励，

γ为折扣系数，r_i为第i个无人机与环境交互获得的奖励值；O为各个无人机的局部状态。

基于上述无人机、障碍物以及目的地的物理模型以及运动模型，本申请实施例的基于深度强化学习的无人机集群任务规划方法具体包括以下步骤：

步骤S101：在无人机集群中任意选取一个无人机作为第一无人机，其他无人机作为第二无人机，所述第二无人机组成剩余无人机集群。

在本实施例中，为便于说明，将选取的第一无人机记为无人机集群中第i个无人机，第二无人机记为无人机集群中的第j个无人机，剩余无人机集群记为d(i)，j∈d(i)。

步骤S102：获取第一无人机的实际任务执行环境和无人机集群任务规划模型。

其中，所述无人机集群任务规划是以模拟任务执行环境为训练样本对改进的MADDPG模型进行学习训练得到；改进的MADDPG模型包括MADDPG网络和平均场论模块，其中所述平均场论模块设置在MADDPG网络中，其中MADDPG网络的框架如附图2所示。MADDPG网络为多智能体深度确定性策略梯度网络，在多智能体体系规划下进行中心化训练，去中心化执行的网络框架。

步骤S103：将所述实际任务执行环境输入至无人机集群任务规划模型，得到无人机集群的任务规划。

具体为，将实际任务执行环境中各个无人机的局部状态输入至无人机集群任务规划模型，得到实际任务执行环境中无人机集群的任务规划。

进一步地，结合附图3，针对步骤S102-S103中使用的无人机集群任务规划模型做出进一步的说明：

无人机集群任务规划模型以模拟任务执行环境为训练样本来对改进的MADDPG模型进行学习训练得到的，改进的MADDPG模型包括MADDPG网络和平均场论模块；进一步地，MADDPG网络包括依次连接的策略网络和评价网络，其中平均场论模块嵌套设置在评价网络中。

其中，模拟任务执行环境，具体可使用OPENAI的gym仿真平台或universe仿真平台得到。

建立无人机集群任务规划模型包括以下步骤：

步骤S201：获取训练样本，所述训练样本包括当前时刻无人机集群的模拟状态空间s、下一时刻无人机集群的模拟状态空间s′、无人机集群中所有无人机的模拟奖励r、无人机集群中所有无人机的模拟动作向量a以及无人机集群中剩余无人机集群的平均动作向量

。

每一个训练样本可记为(s,s′,r,a,

)，其中，当前时刻无人机集群的模拟状态空间包括当前时刻无人机集群中每一个无人机的模拟局部状态，记为s＝(o_t,1,o_t,2,…,o_t,N)，o_t,i为当前时刻无人机集群中第i个无人机的模拟局部状态，N为无人机集群中无人机的数量；下一时刻无人机集群的模拟状态空间包括下一时刻无人机集群中每一个无人机的模拟局部状态，记为s′＝

(o_t′_,1,o_t′_,2,…,o_t′_,N)，o_t′_,i为下一时刻无人机集群中第i个无人机的模拟局部状态；无人机集群中所有无人机的模拟奖励包括当前时刻无人机集群中每一个无人机的模拟奖励值，记为r＝(r_t,1,r_t,2,…,r_t,N)，r_t,i为当前时刻无人机集群中第i个无人机的模拟奖励值；无人机集群中所有无人机的模拟动作向量包括当前时刻无人机集群中每一个无人机的模拟动作向量，记为a＝(a_t,1,a_t,2,…,a_t,N)，a_t,i为当前时刻无人机集群中第i个无人机的模拟动作向量；无人机集群中剩余无人机集群的平均动作向量包括当前时刻无人机集群中每一个无人机对应剩余无人机集群的平均动作向量，记为

为当前时刻无人机集群中第i个无人机对应剩余无人机集群的平均动作向量。

具体地，训练样本对无人机集群任务规划模型进行训练学习包括如下步骤：

步骤S202：获取当前时刻无人机集群中所有无人机的模拟局部状态s＝(o_t,1,o_t,2,…,o_t,N)；其中每个无人机的模拟局部状态为模拟每个无人机可观测到的局部状态。

步骤S203：根据当前时刻每一个无人机的模拟局部状态o_t,i计算得到每一个无人机的模拟动作向量a_t,i，具体为：

将所述当前时刻无人机集群中第一无人机的模拟局部状态o_t,i输入至策略网络μ_i，得到当前时刻第一无人机的模拟中间动作向量μ_i(o_t,i)；

将所述当前时刻第一无人机的模拟中间动作向量与噪音向量进行叠加，得到当前时刻第一无人机的模拟动作向量；表达式为a_t,i＝μ_i(o_t,i)+P，其中P为噪音向量，噪音向量的引入增加了策略函数的探索性。

无人机集群中第二无人机的模拟动作向量也可采用上述表达式计算得到，此处不再赘述。

步骤S204：将当前时刻无人机集群中各个第二无人机的模拟局部状态o_t,j和各个第二无人机的模拟动作向量a_t,j分别输入平均场论模块，得到当前时刻剩余无人机集群的模拟局部状态平均值和剩余无人机集群的模拟平均动作向量

步骤S204计算当前时刻剩余无人机集群的模拟局部状态平均值和剩余无人机集群的模拟平均动作向量包括步骤S301-S302：

步骤301：对当前时刻无人机集群中各个第二无人机的模拟局部状态进行叠加并计算平均值，得到当前时刻剩余无人机集群的模拟局部状态平均值；具体表达式为：

为当前时刻剩余无人机集群的模拟局部状态平均值，|d(i)|为剩余无人机集群的无人机数量，d(i)为无人机集群中第i个无人机对应剩余无人机集群。

步骤S302：对无人机集群中各个第二无人机的模拟动作向量进行叠加并计算平均值，得到剩余无人机集群的模拟平均动作向量；具体表达式为：

为当前时刻剩余无人机集群的模拟平均动作向量。

步骤S205：将当前时刻第一无人机的模拟局部状态和当前时刻剩余无人机集群的模拟局部状态平均值合并得到当前时刻无人机集群的模拟状态空间，记为

s_t,i为当前时刻无人机集群的模拟状态空间。

步骤S206：将当前时刻无人机集群中各个无人机的模拟动作向量与模拟任务执行环境进行交互，得到当前时刻无人机集群中各个无人机的模拟奖励和下一时刻无人机集群中各个无人机的模拟局部状态。

步骤S207：根据下一时刻每一个无人机的模拟局部状态o_t′_,i计算得到每一个无人机的模拟动作向量a′_t,i，具体为：

将所述下一时刻无人机集群中第一无人机的模拟局部状态o_t′_,i输入至策略网络μ_i，得到下一时刻第一无人机的模拟中间动作向量μ_i(o_t′_,i)；

将所述下一时刻第一无人机的模拟中间动作向量与噪音向量进行叠加，得到下一时刻第一无人机的模拟动作向量；表达式为a′_t,i＝μ_i(o_t′_,i)+P，P为噪音向量，噪音向量的引入增加了策略函数的探索性。

下一时刻无人机集群中第二无人机的模拟动作向量也可采用上述表达式计算得到，此处不再赘述。

步骤208：将下一时刻无人机集群中各个第二无人机的模拟局部状态o_t′_,j和下一时刻无人机集群中各个第二无人机的模拟动作向量a′_t,j分别输入平均场论，得到下一时刻剩余无人机集群的模拟局部状态平均值和剩余无人机集群的模拟平均动作向量。

步骤S208计算下一时刻剩余无人机集群的模拟局部状态平均值和剩余无人机集群的模拟平均动作向量包括步骤S303-S304：

步骤303：对下一时刻无人机集群中各个第二无人机的模拟局部状态进行叠加并计算平均值，得到下一时刻剩余无人机集群的模拟局部状态平均值；具体表达式为：

为下一时刻剩余无人机集群的模拟局部状态平均值，|d(i)|为剩余无人机集群的无人机数量，d(i)为无人机集群中第i个无人机对应剩余无人机集群。

步骤S304：对无人机集群中各个第二无人机的模拟动作向量进行叠加并计算平均值，得到剩余无人机集群的模拟平均动作向量；具体表达式为：

为下一时刻剩余无人机集群的模拟平均动作向量。

步骤S209：将下一时刻第一无人机的模拟局部状态和下一时刻剩余无人机集群的模拟局部状态平均值合并得到下一时刻无人机集群的模拟状态空间，记为

s_t′_,i为下一时刻无人机集群的模拟状态空间。

步骤S210：将下一时刻无人机集群的模拟状态空间、下一时刻第一无人机的模拟动作向量和下一时刻剩余无人机集群的模拟平均动作向量输入至评价网络后，叠加所述当前时刻无人机集群中第一无人机的模拟奖励，得到评价网络的评估值。

具体的，步骤S210计算评估网络的评估值包括步骤S401-S403：

步骤S401：将下一时刻无人机集群的模拟状态空间、下一时刻第一无人机的模拟动作向量和下一时刻剩余无人机集群的模拟平均动作向量输入至评价网络，得到下一时刻的评价网络动作值。

步骤S402：所述下一时刻的评价网络动作值与折扣系数相乘，得到中间评价网络动作值。

步骤S403：将所述中间评价网络动作值与所述当前时刻无人机的模拟奖励进行叠加，得到评价网络的评估值。评价网络评估值的具体表达式为：

其中y为评价网络的评估值，r_t,i为当前时刻无人机集群中第一无人机的模拟奖励，γ为折扣系数，/>

为下一时刻的评价网络动作值。

步骤S211：将所述当前时刻无人机集群的模拟状态空间、当前时刻第一无人机的模拟动作向量和当前时刻剩余无人机集群的模拟平均动作向量，输入至评价网络得到当前时刻评价网络的动作值。

步骤S212：根据所述评价网络的评估值和所述当前时刻评价网络的动作值，得到评价网络的损失函数。

步骤S212计算评价网络的损失函数包括步骤S501-S502：

步骤S501：将所述评价网络的评估值和所述当前时刻评价网络的动作值进行差值处理，得到评价网络的损失误差

步骤S502：根据训练样本的个数对指数处理后的损失误差计算均值，得到评价网络的损失函数。评价网络的损失函数具体表达式为：

其中/>

为评价网络的损失函数，M为训练样本的数量，/>

为当前时刻评价网络的动作值。

步骤S213：通过所述损失函数得到评价网络参数。

步骤S214：根据所述评价网络参数更新策略网络梯度，得到策略网络参数。

步骤S214计算策略网络参数包括步骤S601-S602：

步骤S601：根据评价网络参数获得当前策略网络策略函数梯度；

步骤S602：将所述当前策略网络策略函数梯度、当前评价网络动作值函数梯度、当前时刻评价网络的动作值进行乘积运算后，根据训练样本个数计算均值，得到当前策略网络参数的策略梯度。具体表达式为：

其中/>

为策略网络参数的策略梯度，

为策略网络策略函数梯度，/>

为当前评价网络动作值函数梯度，。

步骤S215：将所述策略网络参数按比例系数进行更新，按更新后的策略网络系数更新策略网络和评价网络，直至达到更新次数，以得到无人机集群任务规划模型。

策略网络参数的更新具体为：

其中/>

为更新后的策略网络参数，/>

为更新前的策略网络参数，τ为当前策略网络参数的比例系数。

另外，计算步骤210中第一无人机的模拟奖励包括以下步骤：

第一无人机的模拟奖励包括第一无人机与障碍物的碰撞奖励r^c，第一无人机到达目的地的抵达奖励r^g以及第一无人机执行动作的动作奖励r^s。

碰撞奖励r^c的具体表达式为：

r_col＝-5，D为无人机与障碍物的距离，D_col为无人机与障碍物的碰撞距离。

抵达奖励r^g的具体表达式为：

r_arr＝10，ε为无人机靠近目的地的指引系数，ε＝1.1，P_i为第i个无人机的位置，g为目的地的位置，D_aim为无人机与目的地的距离，r_uav为无人机的半径，r_aim为目的地范围的半径。

动作奖励r^s的具体表达式为：r^s＝-3。

本申请实施例采用平均场论模块与MADDPG网络相结合构成无人机集群任务规划模型，克服现有技术中多智能体强化学习算法将每个智能体获得的观测值集合作为状态值，在智能体数量较多时状态值的维数呈指数级增加的问题，平均场论模块在模型训练的过程中降低状态值的维度，加速模型训练过程收敛；而MADDPG网络采用集中训练分布决策的原理，使得无人机在环境未知的前提下，仍能高效地进行任务决策，采用经验池和双网络结构提高收敛速度。

另外，由于在训练过程中采用大量的数据对策略网络和评价网络进行更新调整，使最终的无人机集群任务规划模型能够达到全局最优的规划，实现了在未知动态三维环境中，无人机集群能够同时采用集中训练，分布执行策略，在训练环境无人机互相通信，学习合作策略；而到了实际的任务执行环境中，无人机能够仅仅依赖自身观察的局部状态进行决策，不再需要通信，极大程度上缩短了决策时间。

为更好地展示本发明实施例的基于深度强化学习的无人机集群任务规划方法技术效果，如附图4-附图6c所示，通过仿真展示出无人机集群在执行合作沟通以及物理欺骗任务的测试环境以及任务规划结果，由上述附图的仿真结果可以看到基于深度强化学习的无人机集群任务规划方法在无人机集群之间合作沟通以及物理欺骗都能达到较好的效果。为了更加直观地展示本发明实施例的基于深度强化学习的无人机集群任务规划方法与现有深度学习方法相比更优的技术效果，如附图7a和附图7b所示，可以明显看到在无人机执行合作沟通任务时，本发明的基于深度强化学习的无人机集群任务规划方法在运行过程中能够达到更高的奖励值，并且任务执行的成功率远高于现有深度学习方法。

应该理解的是，虽然附图1的流程图中各个步骤按照箭头额定指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以按其他的顺序执行。而且附图中1的至少一部分步骤可以包括多个子步骤或者子阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本发明公开的实施例中详细描述了基于深度强化学习的无人机集群任务规划方法，对于本发明公开的上述方法可以采用多种形式的设备实现，因此本发明还公开了对应上述方法的基于深度强化学习的无人机集群任务规划装置，结合附图8，下面给出具体的实施例进行详细说明。

无人机选取模块701，用于在无人机集群中任意选取一个无人机作为第一无人机，其他无人机作为第二无人机，所述第二无人机组成剩余无人机集群。

参数获取模块702，用于获取第一无人机的实际任务执行环境和无人机集群任务规划模型。

任务规划模块703，用于将所述实际任务执行环境输入至无人机集群任务规划模型，得到无人机集群的任务规划。

其中，所述无人机集群任务规划是以模拟任务执行环境为训练样本对改进的MADDPG模型进行学习训练得到；所述改进的MADDPG模型包括MADDPG网络和平均场论模块，其中所述平均场论模块设置在所述MADDPG网络中。

关于基于深度强化学习的无人机集群任务规划装置的具体限定可以参见上文中对于基于深度强化学习的无人机集群任务规划方法的限定，在此不再赘述。上述装置中的各个模块可全部或者部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或者独立于终端设备的处理器中，也可以以软件形式存储于终端设备的存储器中，以便处理器调用执行以上各个模块对应的操作。

在一个实施例中，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于深度强化学习的无人机集群任务规划方法的步骤。

所述计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编只读程存储器)、EPROM(可擦除可编只读程存储器)、硬盘或者ROM之类的电子存储器。可选的，计算机可读存储介质包括非瞬时性计算机可读介质(non-transitory computer-readable storagemedium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入这一个或者多个计算机程序产品中，所述程序代码可以以适当形式进行压缩。

在一个实施例中，本发明提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时执行上述基于深度强化学习的无人机集群任务规划方法步骤。

所述计算机设备包括存储器、处理器以及一个或多个计算机程序，其中一个或多个计算机程序可以被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述基于深度强化学习的无人机集群任务规划方法。

处理器可以包括一个或多个处理核。处理器利用各种接口和线路连接整个计算机设备内的各个部分，通过运行或执行存储在存储器内的指令、程序、代码集或指令集，以及调用存储在存储器内的数据，执行计算机设备的各种功能和处理数据。可选地，处理器可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit，CPU)、埋点数据的上报验证器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器中，单独通过一块通信芯片进行实现。

存储器可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等。存储数据区还可以存储终端设备在使用中所创建的数据等。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度强化学习的无人机集群任务规划方法，其特征在于，该方法包括：

在无人机集群中任意选取一个无人机作为第一无人机，其他无人机作为第二无人机，所述第二无人机组成剩余无人机集群；

获取第一无人机的实际任务执行环境和无人机集群任务规划模型；

将所述实际任务执行环境输入至无人机集群任务规划模型，得到无人机集群的任务规划；

其中，所述无人机集群任务规划模型是以模拟任务执行环境为训练样本对改进的MADDPG模型进行学习训练得到；所述改进的MADDPG模型包括MADDPG网络和平均场论模块，其中所述平均场论模块设置在所述MADDPG网络中。

2.如权利要求1所述的基于深度强化学习的无人机集群任务规划方法，其特征在于，所述改进的MADDPG模型包括依次连接的策略网络和评价网络，其中所述平均场论模块嵌套设置在所述评价网络中；

建立所述无人机集群任务规划模型包括：

获取训练样本，所述训练样本包括当前时刻无人机集群的模拟状态空间、下一时刻无人机集群的模拟状态空间、无人机集群中所有无人机的模拟奖励、无人机集群中所有无人机的模拟动作向量以及无人机集群中剩余无人机集群的平均动作向量；

将所述当前时刻无人机集群中第一无人机的模拟局部状态输入至策略网络，得到当前时刻第一无人机的模拟中间动作向量；

将所述当前时刻第一无人机的模拟中间动作向量与噪音向量进行叠加，得到当前时刻第一无人机的模拟动作向量；

将当前时刻无人机集群中各个第二无人机的模拟局部状态和各个第二无人机的模拟动作向量分别输入平均场论模块，得到当前时刻剩余无人机集群的模拟局部状态平均值和剩余无人机集群的模拟平均动作向量；

将当前时刻第一无人机的模拟局部状态和当前时刻剩余无人机集群的模拟局部状态平均值合并得到当前时刻无人机集群的模拟状态空间；

将当前时刻无人机集群中各个无人机的模拟动作向量与模拟任务执行环境进行交互，得到当前时刻无人机集群中各个无人机的模拟奖励和下一时刻无人机集群中各个无人机的模拟局部状态；

将所述下一时刻第一无人机的模拟局部状态输入至策略网络，得到下一时刻第一无人机的模拟中间动作向量；

将所述下一时刻第一无人机的模拟中间动作向量与噪音向量进行叠加，得到下一时刻第一无人机的模拟动作向量；

将下一时刻无人机集群中各个第二无人机的模拟局部状态和下一时刻无人机集群中各个第二无人机的模拟动作向量分别输入平均场论，得到下一时刻剩余无人机集群的模拟局部状态平均值和剩余无人机集群的模拟平均动作向量；

将下一时刻第一无人机的模拟局部状态和下一时刻剩余无人机集群的模拟局部状态平均值合并得到下一时刻无人机集群的模拟状态空间；

将下一时刻无人机集群的模拟状态空间、下一时刻第一无人机的模拟动作向量和下一时刻剩余无人机集群的模拟平均动作向量输入至评价网络后，叠加所述当前时刻无人机集群中第一无人机的模拟奖励，得到评价网络的评估值；

将所述当前时刻无人机集群的模拟状态空间、当前时刻第一无人机的模拟动作向量和当前时刻剩余无人机集群的模拟平均动作向量，输入至评价网络得到当前时刻评价网络的动作值；

根据所述评价网络的评估值和所述当前时刻评价网络的动作值，得到评价网络的损失函数；

通过所述损失函数得到评价网络参数；

根据所述评价网络参数更新策略网络梯度，得到策略网络参数；

将所述策略网络参数按比例系数进行更新，按更新后的策略网络系数更新策略网络和评价网络，直至达到更新次数，以得到无人机集群任务规划模型。

3.如权利要求2所述的基于深度强化学习的无人机集群任务规划方法，其特征在于，将无人机集群中各个第二无人机的模拟局部状态和无人机集群中各个第二无人机的模拟动作向量分别输入平均场论模块，得到剩余无人机集群的模拟局部状态平均值和剩余无人机集群的模拟平均动作向量，包括：

对无人机集群中各个第二无人机的模拟局部状态进行叠加并计算平均值，得到剩余无人机集群的模拟局部状态平均值；

对无人机集群中各个第二无人机的模拟动作向量进行叠加并计算平均值，得到剩余无人机集群的模拟平均动作向量。

4.如权利要求2所述的基于深度强化学习的无人机集群任务规划方法，其特征在于，所述第一无人机的模拟奖励包括：

第一无人机与障碍物的碰撞奖励、第一无人机到达目的地的抵达奖励以及第一无人机执行动作的动作奖励。

5.如权利要求2所述的基于深度强化学习的无人机集群任务规划方法，其特征在于，所述将下一时刻无人机集群的模拟状态空间、下一时刻第一无人机的模拟动作向量和下一时刻剩余无人机集群的模拟平均动作向量输入至评价网络后，叠加所述当前时刻无人机集群中第一无人机的模拟奖励，得到评价网络的评估值，包括：

将下一时刻无人机集群的模拟状态空间、下一时刻第一无人机的模拟动作向量和下一时刻剩余无人机集群的模拟平均动作向量输入至评价网络，得到下一时刻的评价网络动作值；

所述下一时刻的评价网络动作值与折扣系数相乘，得到中间评价网络动作值；

将所述中间评价网络动作值与所述当前时刻无人机的模拟奖励进行叠加，得到评价网络的评估值。

6.如权利要求2所述的基于深度强化学习的无人机集群任务规划方法，其特征在于，所述根据所述评价网络的评估值和所述当前时刻评价网络的动作值，得到评价网络的损失函数，包括：

将所述评价网络的评估值和所述当前时刻评价网络的动作值进行差值处理，得到评价网络的损失误差；

根据训练样本的个数对指数处理后的损失误差计算均值，得到评价网络的损失函数。

7.如权利要求2所述的基于深度强化学习的无人机集群任务规划方法，其特征在于，所述根据所述评价网络参数更新策略网络梯度，得到策略网络参数，包括：

根据评价网络参数获得当前策略网络策略函数梯度；

将所述当前策略网络策略函数梯度、当前评价网络动作值函数梯度、当前时刻评价网络的动作值进行乘积运算后，根据训练样本个数计算均值，得到当前策略网络参数的策略梯度。

8.一种基于深度强化学习的无人机集群任务规划装置，其特征在于，该装置包括：

无人机选取模块，用于在无人机集群中任意选取一个无人机作为第一无人机，其他无人机作为第二无人机，所述第二无人机组成剩余无人机集群；

参数获取模块，用于获取第一无人机的实际任务执行环境和无人机集群任务规划模型；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7中任一项基于深度强化学习的无人机集群任务规划方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时，执行权利要求1-7中任一项基于深度强化学习的无人机集群任务规划方法。