CN113268081B

CN113268081B - 一种基于强化学习的小型无人机防控指挥决策方法及系统

Info

Publication number: CN113268081B
Application number: CN202110602580.1A
Authority: CN
Inventors: 刘阳; 温志津; 牛余凯; 晋晓曦; 李晋徽
Original assignee: 32802 Troops Of People's Liberation Army Of China
Current assignee: 32802 Troops Of People's Liberation Army Of China
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-11-09
Anticipated expiration: 2041-05-31
Also published as: CN113268081A

Abstract

本发明公开了一种基于强化学习的小型无人机防控指挥决策方法，其步骤包括：确定小型无人机防控系统组成；小型无人机防控系统包括探测分系统、处置分系统和指挥控制系统；探测分系统用于提供作战态势信息，处置分系统负责实施防控处置；建立小型无人机的三自由度质点运动模型；构建防控指挥决策模型；训练及优化小型无人机防控指挥决策模型；验证及评估防控指挥决策模型的防控效果。本发明还公开了一种基于强化学习的小型无人机防控指挥决策系统，包括多源数据融合模块、态势分析模块、防控筹划模块及效果评估模块。本发明解决了现有防控指挥决策系统中决策速度慢、难以处理复杂场景等问题，可广泛应用于小型无人机管控、民用监管和军事领域。

Description

一种基于强化学习的小型无人机防控指挥决策方法及系统

技术领域

本发明属于指挥控制技术领域，具体涉及一种基于强化学习的小型无人机防控指挥决策方法及系统。

背景技术

目前，对于“低慢小”无人机的探测和处理问题，国内外已有许多相关的较为成熟的技术及成果，但在利用探测信息生成具体的处置策略方面以及如何构建小型无人机防控指挥决策系统等问题，目前仍然要依靠指挥员进行人为决策，操作员根据决策结果完成无人机的相关处置指令。

考虑到目前指挥控制系统的智能化技术发展水平，现有的小型无人机防控指挥控制系统主要存在以下问题：(1)、目前小型无人机防控工作主要依靠操作员手动完成，指挥自动化程度极低；(2)小型无人机防控属于近程防御，指挥决策时间较短，需要反应速度快，人工操作的反应时间难以满足防御要求，且在应对及处置多目标方面的差距更为明显；(3)小型无人机防控场景态势复杂且变化多样，现有的基于经验规则的防控体制和流程难以适应其防控要求。基于强化学习训练算法模型的小型无人机防控指挥决策方法，并未在现有产品或小型无人机防控指挥决策系统中得到应用。

发明内容

针对城市等复杂场景下，小型无人机等低空目标的探测、分析及防控指挥控制和调度处置等过程策略的自动生成难题，本发明公开一种基于强化学习的小型无人机防控指挥决策方法及系统，实现了将小型无人机防控的综合态势数据高效转化为对无人机的防控处置方案及指令，同时能够接入多源探测手段与多元处置手段进行指挥决策，实现了态势融合、威胁分析、筹划方案、处置控制共4个小型无人机防控指挥流程阶段的智能化决策水平的有效提升，解决了现有防控指挥决策系统中决策速度慢、难以处理复杂场景等问题，满足了小型无人机的防控需求。小型无人机通常指起飞重量不超过25千克的无人飞行器，包括固定翼和旋翼两种，其具有成本低、机动性强等特点。

本发明公开了一种基于强化学习的小型无人机防控指挥决策方法，其步骤包括：

S1、确定小型无人机防控系统组成；

S2、建立小型无人机的三自由度质点运动模型；

S3、构建小型无人机防控指挥决策模型；

S4、训练及优化小型无人机防控指挥决策模型；

S5、验证及评估小型无人机防控指挥决策模型的防控效果。

进一步的，所述步骤S1具体包括：确定小型无人机防控系统的组成，小型无人机防控系统包括探测分系统、处置分系统和指挥控制系统；其中，探测分系统用于提供作战态势信息，处置分系统负责实施防控处置，指挥控制系统用于从探测分系统接收作战态势信息，并调度多类处置手段生成处置策略；探测分系统包括单类型或多类型探测设备，处置分系统包括多类软杀伤处置设备及硬拦截处置设备；指挥控制系统包括多源数据融合模块、态势分析模块、防控筹划模块、效果评估模块；

具体地，探测分系统包括雷达探测设备、光电探测设备和无线电侦测设备，处置分系统包括无线电干扰设备和激光拦截设备；

进一步的，所述步骤S2具体包括：小型无人机防控作战中，主要根据探测分系统所获取目标位置、速度等信息来进行防控处置，因此重点是研究防控作战中防控目标的模型，将小型无人机视为质点，建立其三自由度质点运动模型：

，其中(x，y，z)表示小型无人机在大地三维空间坐标系下的坐标，v、θ和ψ分别表示小型无人机的飞行速度、俯仰角和偏航角，t表示时间。

进一步的，所述步骤S3具体包括：小型无人机防控系统的处置设备包括激光拦截设备和无线电干扰设备，其中，激光设备的动作包括打开激光设备、关闭激光设备、保持设备状态、调整激光指向共四种动作，无线电干扰设备的动作包括开干扰、关干扰、保持动作、调整干扰指向共四种动作。对处置设备的各种动作采用三位二进制数进行动作编码，三位二进制数的首位表示设备类型，三位二进制数的后两位用来表示设备对应具体动作，即用三位二进制数构成的三元组来表示防控系统的处置设备所采取的动作。

根据小型无人机防控任务特性及马尔科夫决策过程，建立小型无人机防控指挥决策模型，并设计状态空间和处置决策空间，奖励函数根据小型无人机防控系统的防控意图确定；

所述的小型无人机防控指挥决策模型采用强化学习算法建立，强化学习中采用马尔科夫决策过程来描述智能决策模型与环境的交互，该马尔科夫决策过程利用状态空间、动作空间、奖励函数、折扣系数来实现；

其中，小型无人机防控指挥决策模型的状态空间S的表达式为：

S＝[d_t，v_t，θ_t，ψ_t，，t_l，t_j]，

其中，d_t的表达式为：

其中，

和

分别表示小型无人机在t时刻和t-Δt时刻的位置坐标，(x_a，y_a，z_a)表示探测设备的位置坐标，Δt表示马尔科夫决策过程的步进时间间隔；d_t表示t时刻小型无人机相对探测设备的距离；v_t表示t时刻小型无人机的飞行速率；t_l表示激光拦截设备的出光时间；t_j表示无线电干扰设备开干扰的时间；θ和ψ分别表示为无人机的俯仰角和偏航角。

其中，小型无人机防控指挥决策模型的动作空间A的表达式为A＝[D_t，D_a1，D_a2]，其中，设备类型D_t取值为0或1，设备的动作类型由动作变量D_a1和D_a2的组合表示，动作变量[D_a1，D_a2]的具体取值包括00、01、10和11共四种组合。

当小型无人机防控系统的防控意图为防御中远距离目标时，此时的防御成功条件用小型无人机的各飞行分量的奖励函数表达为，

其中，R_a、R_d和R_v分别表示角度奖励函数、距离奖励函数和速度奖励函数；q表示小型无人机速度矢量与小型无人机和探测设备连线的夹角角度；q_m表示角度奖励值为最小奖励正值时的角度值；

分别表示探测设备在无人机视线角范围内及离开无人机视线角范围的奖励值，当角度q为0时，角度奖励值最小；当角度q为π时，角度奖励值最大。距离奖励函数采用距离相关的线性函数表示，k为保持距离奖励函数在最小奖励正值的平滑系数，d_f和d_c分别表示小型无人机的防控区域最大半径和探测设备最小探测距离；

分别表示小型无人机的飞行速度低于一定飞行速度阈值和高于最大飞行速度阈值时所对应的奖励系数；v_min，v_max，v_xh分别表示小型无人机的最小飞行速度、最大飞行速度和巡航飞行速度。

将R_a，R_d和R_v进行加权求和，得到小型无人机防控指挥决策模型的奖励函数R的表达式具体为：

R＝a₁·R_a+a₂·R_d+a₃·R_v，

其中，a₁，a₂，a₃分别为角度奖励函数、距离奖励函数和速度奖励函数对应的权值，可根据经验值获得，其满足约束条件：a₁+a₂+a₃＝1，a₁，a₂，a₃≥0。

进一步的，所述步骤4具体包括：利用深度Q网络算法，即Deep Q Network算法，简称DQN算法，对小型无人机防控指挥决策模型进行训练，直至该小型无人机防控指挥决策模型能生成针对执行不同任务(如打击与侦察)的小型无人机的驱离及毁伤打击的防控处置策略，且该策略的防御成功率超过一定阈值时，停止训练并保存此时的神经网络模型参数，完成对小型无人机防控指挥决策模型的训练及优化。

在DQN算法中，构建了价值评估网络和价值目标网络，价值评估网络输出值表示为Q(s，a|θ)，其输入为上一时刻采取的处置动作变量a及本时刻的状态变量s，其输出为下一时刻采取的处置动作变量，对应的价值评估网络参数为θ，价值评估网络采用最小化价值评估网络的状态动作价值与价值目标网络状态动作价值之差的方式来更新优化价值评估网络参数θ，价值评估网络输出的Q(s，a|θ)值直接由该网络输出；价值目标网络输出值则表示为

其输入为上一时刻采取的处置动作变量a及本时刻的状态变量s，对应的价值目标网络参数为θ^-；价值目标网络输出的

值由价值目标网络输出与奖励r_j共同构成，其具体表达式为：

其中，下标j表示经验池采用数据集中的第j个数据的标号，r_j表示该第j个数据对应的奖励，s_j表示该第j个数据对应的状态变量，a_j表示该第j个数据对应的处置动作变量，s_j+1表示经验池采用数据集中的第j+1个数据对应的状态变量，a_j+1表示经验池采用数据集中的第j+1个数据对应的处置动作变量，

表示该第j个数据对应的价值目标网络输出的

值，γ为奖励折扣系数，L(θ)表示对参数为θ的价值评估网络进行训练时所用的损失函数，

表示状态变量s_j+1下采取动作a_j+1后，价值目标网络输出的最大

值，

表示状态变量s_j+1下采取动作a_j+1后，价值目标网络的预测值与目标真实值间的最小二乘误差。

对于价值评估网络，其参数θ朝价值评估网络输出值增大的方向进行更新，该过程表示为：

其中，

表示状态变量s_j和动作变量a_j对应Q值函数对参数θ的梯度，

表示损失函数L(θ)对参数θ的梯度；采用暂时冻结价值目标网络参数的方法，在每达到一定的价值评估网络的训练周期后，再对价值目标网络的参数进行更新，价值评价网络参数θ才传递给价值目标网络参数θ^-，从而保持价值目标网络的阶段固定性，提高算法训练的稳定性；

价值目标网络和价值评估网络均采用全连接层构成的神经网络架构，二者都设置3层全连接层，3层全连接层分别选取200、100和50个神经元。

进一步的，所述步骤S5具体包括：在小型无人机防控实际场景中加载步骤S4训练所得到的小型无人机防控指挥决策模型，并根据从小型无人机防控实际场景中实时获取的状态空间进行决策，得出处置动作变量a，并将处置动作变量a作用到实际场景中，即时得到小型无人机的防控策略，改变环境状态并得到实时奖励反馈。

本发明的一种基于强化学习的小型无人机防控指挥决策系统，包括多源数据融合模块、态势分析模块、防控筹划模块及效果评估模块，四个模块依次连接；

所述的多源数据融合模块，用于融合多类型探测设备对防控环境和目标进行探测所获取的数据；

所述态势分析模块，用于对多类型探测设备得到的多源目标数据，进行属性分析与判断、威胁评估；

所述防控筹划模块，用于实现上述基于强化学习的小型无人机防控决策方法，得到小型无人机防控指挥决策模型，根据态势分析模块得到的威胁判断信息，自动生成小型无人机防控处置决策方案；

所述效果评估模块，对实时防控环境态势、防控目标毁伤程度及防控处置设备的具体打击效果进行分析处理，评估小型无人机的防控处置决策方案的防控效果，对无人机防控指挥决策行动提供实时反馈。

进一步的，所述多源数据融合模块，根据防控的目标类型、防控环境要素、防控目标要素、处置要素等，对多类型探测设备所获得的数据进行信息提取、管理与整编等；

进一步的，所述态势分析模块面向防控判断的全过程，对多源目标数据进行属性分析与判断，构建威胁等级模型进行威胁评估，得到威胁判断信息，用于掌握相关目标威胁程度，将威胁判断信息上传至防控筹划模块。

与现有技术相比，本发明的有益效果：

(1)本发明提供了一种基于强化学习的小型无人机防控指挥决策方法及系统，将强化学习理论与小型无人机防控决策模型结合，实现了小型无人机防控的综合态势数据的自动化生成，并利用该数据高效生成了对无人机的防控处置方案及指令；

(2)本发明提供了一种基于强化学习的小型无人机防控指挥决策方法及系统，实现了态势融合、威胁分析、筹划方案、处置控制共4个无人机防控指挥流程阶段的智能化决策水平提升，解决了现有防控指挥决策系统中决策速度慢、难以处理复杂场景等问题，为小型无人机防控指挥决策提供了新的技术思路。

(3)本发明提供了一种基于强化学习的小型无人机防控指挥决策的方法及系统，可广泛应用于小型无人机管控、民用监管和军事领域。

附图说明

图1为本发明的基于强化学习的小型无人机防控指挥决策方法流程图；

图2为本发明中的深度Q网络算法流程图；

图3为本发明的基于强化学习的小型无人机防控指挥决策系统组成图。

具体实施方式

为了更好的了解本发明内容，这里给出一个实施例。

为了便于本领域技术人员的理解，下面结合附图和具体实施例对本发明提供的一种基于强化学习的小型无人机防控指挥决策方法及系统进一步详细说明。

S1、确定小型无人机防控系统组成；

S2、构建小型无人机的三自由度质点运动模型；

S3、构建小型无人机防控指挥决策模型；

S4、训练及优化小型无人机防控指挥决策模型；

S5、验证及评估小型无人机防控指挥决策模型的防控效果。

S＝[d_t，v_t，θ_t，ψ_t，，t_l，t_j]，

其中，d_t的表达式为：

其中，

和

R＝a₁·R_a+a₂·R_d+a₃·R_v，

表示该第j个数据对应的价值目标网络输出的

值，

其中，

表示状态变量s_j和动作变量a_j对应Q值函数对参数θ的梯度，

价值目标网络和价值评估网络均采用全连接层构成的神经网络架构，二者共设置3层全连接层，3层全连接层分别选取200、100和50个神经元。

所述数据融合模块，用于融合多类型探测设备对防控环境和目标进行探测所获取的数据；

参考图1所示，本发明的一种基于强化学习的小型无人机防控指挥决策方法，步骤如下：

步骤1、明确小型无人机防控系统组成。确定小型无人机防控系统的组成，小型无人机防控系统包括探测分系统、处置分系统和指挥控制系统；其中，探测分系统用于提供作战态势信息，处置分系统负责实施防控处置，指挥控制系统用于接收作战态势信息并生成处置策略；探测分系统包括雷达探测设备、光电探测设备和无线电侦测设备，处置分系统包括无线电干扰设备和激光拦截设备，指挥控制系统包括数据融合模块、态势分析模块、防控筹划模块、效果评估模块；

在考虑小型无人机防控系统由1套探测分系统、1套处置分系统和指控系统组成的情况下，探测分系统包括雷达、光电探测设备和无线电侦测设备各1台，处置分系统包括无线电干扰设备和激光拦截设备各1台。指控系统则由数据融合、态势分析、防控筹划、效果评估模块构成。

步骤2、构建小型无人机的三自由度质点运动模型。在小型无人机防控作战中，主要根据探测分系统所获取目标位置、速度等信息来进行防控处置，因此重点是研究防控作战中防控目标的模型，将其视为质点，研究其三自由度质点模型：

其中(x，y，z)表示小型无人机在以地面为参考系三维空间的坐标，v，θ和ψ分别表示小型无人机的飞行速度、俯仰角和偏航角。

在该具体实施例中，假设在小型无人机防控系统所在防护区域外，随机初始化N架执行侦察、打击任务的小型无人机，无人机坐标信息为(x_i，y_i，z_i)，i＝1…N。

步骤3、构建小型无人机防控指挥决策模型。根据小型无人机防控任务特性及马尔科夫决策过程，建立小型无人机防控指挥决策模型，并设计状态空间和处置决策空间，奖励函数则根据所防控不同目标的意图确定；

强化学习中采用马尔科夫决策过程来描述智能决策模型与环境的交互，马尔科夫决策过程主要由状态空间、动作空间、奖励函数、折扣系数及状态转移概率组成，本发明中小型无人机防控指挥决策模型采用无模型的强化学习算法建立，因此仅考虑除状态转移概率外的其他要素。

其中，小型无人机防控指挥决策模型的状态空间S为：

S＝[d_t，v_t，θ_t，ψ_t，，t_l，t_j]，

其中，d_t的表达式为：

其中，(x_a，y_a，z_a)表示雷达坐标，(x_b，y_b，z_b)表示小型无人机坐标；上标t与t-dt分别表示无人机t时刻与上一时刻的方位；dt表示仿真步进时间间隔；d_t表示小型无人机相对雷达的距离；v_t表示小型无人机的飞行速率；t_l表示激光拦截设备的出光时间；t_j表示无线电干扰设备的干扰时间；θ和ψ分别表示为无人机的俯仰角和偏航角。

其中，小型无人机防控指挥决策模型的动作空间A＝[D_t，D_a1，D_a2]，设备类型D_t取值为0或1，具体动作的取值[D_a1，D_a2]包括00、01、10和11共四种组合。

小型无人机防控的处置设备包括激光拦截设备和无线电干扰设备两类，其中，激光设备的动作包括打开激光设备、关闭激光设备、保持设备状态、调整激光指向共四种动作，无线电干扰设备基本相同，其动作包括开干扰、关干扰、保持动作、调整干扰指向共四种动作。

对以上动作采用三位二进制数进行动作编码，首位表示设备类型，后两位用来表示设备对应具体动作，即使用三元组来表示防控系统所采取动作。

其中，小型无人机防控指挥决策模型的奖励函数R具体内容为：

当防控系统的意图为防御中远距离目标时，此时的防御成功条件为

，其中，R_a、R_d和R_v分别表示角度奖励函数、距离奖励函数和速度奖励函数；q表示速度矢量与无人机和雷达连线的夹角；q_m表示临界点角度；当相对角度q为0°时，惩罚最大；当q为180°时，惩罚最小。距离奖励采用距离相关的线性函数表示，k为保持函数在临界点的平滑系数，d_f和d_l分别表示防护区最大半径、核心区半径；v_min，v_max，v_xh分别表示小型无人机目标的最小速度、最大速度和巡航速度。

将R_a，R_d和R_v进行加权，得到综合单步奖励R：

R＝a₁·R_a+a₂·R_d+a₃·R_v

其中，a₁，a₂，a₃为各奖励函数对应的权值，可根据经验值获得，且满足以下约束a₁+a₂+a₃＝1(a₁，a₂，a₃≥0)

步骤4、训练及优化防控指挥决策模型。利用深度Q网络算法(Deep QNetwork)，对小型无人机防控指挥决策模型进行训练，直至决策模型可生成有效防控不同意图的无人机，且该策略的防御成功率超过一定阈值时，得到该模型下对应的神经网络。

DQN算法提出了运用经验回放和固定目标网络的技术，是当下比较流行的深度强化学习算法之一；其原理图如图2所示，图中构建了价值评估网络和价值目标网络，价值评估网络输出可表示为Q(s，a|θ)，对应参数为θ；价值目标网络输出值则表示为

对应参数为θ^-；对于价值评估网络，输入为上一时刻采取动作a及本时刻状态s，输出为Q(s，a)；该网络下采用最小化评估网络状态动作价值与目标网络状态动作价值之差的方式来更新优化价值评估网络参数θ，其中评估网络对应的Q值直接由根据网络输出，目标网络对应的

值则由目标网络输出与奖励r_j构成，具体如下式：

其中，下标j表示经验池采用数据中的第j个数据的标号；γ为奖励折扣系数；L(θ)表示训练评估网络的损失函数。

对于评估网络，其输入为当前环境状态s，输出为动作a，且网络的参数θ朝评估网络输出值增大的方向更新，如下式所示：

采用暂时冻结目标网络参数的方法，每达到一定步长，对目标网络的参数进行更新，θ^-←θ。

利用DQN算法对小型无人机防控指挥决策模型进行训练，具体使用python3.8编程，采用Pytorch深度学习框架，目标网络和评估网络均采用全连接层构成的神经网络架构，共设置3层全连接层，分别选取200、100和50个神经元；每次训练的上限设为10000回合，每回合步长设置为10⁵，所述的策略的防御成功率超过一定阈值时，具体是指，当达到每训练300回合有270及以上回合可防御成功，此时停止训练并保存此时神经网络模型参数。

步骤5、验证及评估决策模型效果。在典型小型无人机防控作战场景中加载训练所得到的防控指挥决策模型，并根据从场景中实时获取的状态空间s进行决策，得到实时无人机防控策略，处置设备操作a作用到场景中，改变环境状态并得到实时奖励反馈。

本发明的一种基于强化学习的小型无人机防控指挥决策系统，图3为本发明的基于强化学习的小型无人机防控指挥决策系统组成图，其包括：多源数据融合模块、态势分析模块、防控筹划模块及效果评估模块。

所述数据融合模块，用于融合多类型探测手段对防控环境和目标所探测获取的数据；面向防控不同类型目标，基于对防控环境要素、防控要素、处置要素的信息提取、管理与整编等；

所述态势分析模块，用于对多源目标数据进行属性分析与判断、威胁评估；面向防控判断的全过程，对多源目标数据进行属性分析与判断，构建威胁等级模型进行威胁评估；

所述防控筹划模块，用于对无人机防控具体任务与资源筹划活动提供自动化处置决策支撑；采用上述基于强化学习的小型无人机防控决策方法，明确小型无人机防控系统的组成并构建小型无人机防控系统的内部模型，以便提取作战态势信息；设计状态空间、动作空间及奖励函数，构建小型无人机防控指挥决策模型；训练及优化防控指挥决策模型得到防控处置策略，并验证及评估决策模型效果；

所述效果评估模块，用于评估无人机防控的相关处置策略及效果，对无人机防控指挥决策行动提供实时反馈；对实时防控环境态势、防控目标毁伤程度及防控处置设备具体打击情况进行分析处理。

一种基于强化学习的小型无人机防控指挥决策系统的应用方法，包括以下步骤：

S1：数据融合模块向防控不同类型目标，基于对防控环境要素、防控要素、处置要素的信息提取、管理与整编等，用于融合多类型探测手段对防控环境和目标所探测获取的数据；

S2：态势分析模块面向防控判断的全过程，对多源目标数据进行属性分析与判断，构建威胁等级模型进行威胁评估，用于掌握相关目标威胁程度，将威胁判断信息上传至防控筹划模块；

S3：防控筹划模块采用上述基于强化学习的小型无人机防控决策方法，明确小型无人机防控系统的组成并构建小型无人机防控系统的内部模型，以便提取作战态势信息；设计状态空间、动作空间及奖励函数，构建小型无人机防控指挥决策模型；训练及优化防控指挥决策模型得到防控处置策略，并验证及评估决策模型效果；最终所得的小型无人机防控指挥决策模型可用于对无人机防控具体任务与资源筹划活动提供自动化处置决策支撑；

S4：效果评估模块对实时防控环境态势、防控目标毁伤程度及防控处置设备具体打击情况进行分析处理，用于对无人机防控的相关处置策略及效果进行评估，对无人机防控指挥决策行动提供实时反馈。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于强化学习的小型无人机防控指挥决策方法，其特征在于，其步骤包括：

S1、确定小型无人机防控系统组成；确定小型无人机防控系统的组成，小型无人机防控系统包括探测分系统、处置分系统和指挥控制系统；其中，探测分系统用于提供作战态势信息，处置分系统负责实施防控处置，指挥控制系统用于从探测分系统接收作战态势信息，并调度多类处置手段生成处置策略；探测分系统包括单类型或多类型探测设备，处置分系统包括多类软杀伤处置设备及硬拦截处置设备；指挥控制系统包括多源数据融合模块、态势分析模块、防控筹划模块、效果评估模块；

S2、建立小型无人机的三自由度质点运动模型；

S3、构建小型无人机防控指挥决策模型；

S4、训练及优化小型无人机防控指挥决策模型；

S5、验证及评估小型无人机防控指挥决策模型的防控效果；

所述步骤S3具体包括：小型无人机防控系统的处置设备包括激光拦截设备和无线电干扰设备，其中，激光设备的动作包括打开激光设备、关闭激光设备、保持设备状态、调整激光指向共四种动作，无线电干扰设备的动作包括开干扰、关干扰、保持动作、调整干扰指向共四种动作；对处置设备的各种动作采用三位二进制数进行动作编码，三位二进制数的首位表示设备类型，三位二进制数的后两位用来表示设备对应具体动作，即用三位二进制数构成的三元组来表示防控系统的处置设备所采取的动作；

S＝[d_t，v_t，θ_t，ψ_t，t_l，t_j]，

其中，d_t的表达式为：

其中，

和

分别表示小型无人机在t时刻和t-Δt时刻的位置坐标，(x_a，y_a，z_a)表示探测设备的位置坐标，Δt表示马尔科夫决策过程的步进时间间隔；d_t表示t时刻小型无人机相对探测设备的距离；v_t表示t时刻小型无人机的飞行速率；t_l表示激光拦截设备的出光时间；t_j表示无线电干扰设备开干扰的时间；θ和ψ分别表示为无人机的俯仰角和偏航角；

其中，小型无人机防控指挥决策模型的动作空间A的表达式为A＝[D_t，D_a1，D_a2]，其中，设备类型D_t取值为0或1，设备的动作类型由动作变量D_a1和D_a2的组合表示，动作变量[D_a1，D_a2]的具体取值包括00、01、10和11共四种组合；

分别表示探测设备在无人机视线角范围内及离开无人机视线角范围的奖励值，当角度q为0时，角度奖励值最小；当角度q为π时，角度奖励值最大；距离奖励函数采用距离相关的线性函数表示，k为保持距离奖励函数在最小奖励正值的平滑系数，d_f和d_c分别表示小型无人机的防控区域最大半径和探测设备最小探测距离；

分别表示小型无人机的飞行速度低于一定飞行速度阈值和高于最大飞行速度阈值时所对应的奖励系数；v_min，v_max，v_xh分别表示小型无人机的最小飞行速度、最大飞行速度和巡航飞行速度；

R＝a₁·R_a+a₂·R_d+a₃·R_v，

2.如权利要求1所述的基于强化学习的小型无人机防控指挥决策方法，其特征在于，

所述的探测分系统包括雷达探测设备、光电探测设备和无线电侦测设备，处置分系统包括无线电干扰设备和激光拦截设备。

3.如权利要求1所述的基于强化学习的小型无人机防控指挥决策方法，其特征在于，

所述步骤S2具体包括：将小型无人机视为质点，建立其三自由度质点运动模型：

其中(x，y，z)表示小型无人机在大地三维空间坐标系下的坐标，v、θ和ψ分别表示小型无人机的飞行速度、俯仰角和偏航角，t表示时间。

4.如权利要求1所述的基于强化学习的小型无人机防控指挥决策方法，其特征在于，

所述步骤4具体包括：利用深度Q网络算法，对小型无人机防控指挥决策模型进行训练，直至该小型无人机防控指挥决策模型能生成针对执行不同任务的小型无人机的驱离及毁伤打击的防控处置策略，且该策略的防御成功率超过一定阈值时，停止训练并保存此时的神经网络模型参数，完成对小型无人机防控指挥决策模型的训练及优化；

表示该第j个数据对应的价值目标网络输出的

值，

表示状态变量s_j+1下采取动作a_j+1后，价值目标网络的预测值与目标真实值间的最小二乘误差；

其中，

表示状态变量s_j和动作变量a_j对应Q值函数对参数θ的梯度，

表示损失函数L(θ)对参数θ的梯度；采用暂时冻结价值目标网络参数的方法，在每达到一定的价值评估网络的训练周期后，再对价值目标网络的参数进行更新，价值评价网络参数θ才传递给价值目标网络参数θ^-，从而保持价值目标网络的阶段固定性；

5.如权利要求1所述的基于强化学习的小型无人机防控指挥决策方法，其特征在于，所述步骤S5具体包括：在小型无人机防控实际场景中加载步骤S4训练所得到的小型无人机防控指挥决策模型，并根据从小型无人机防控实际场景中实时获取的状态空间进行决策，得出处置动作变量a，并将处置动作变量a作用到实际场景中，即时得到小型无人机的防控策略，改变环境状态并得到实时奖励反馈。