CN114679729A

CN114679729A - 一种雷达通信一体化的无人机协同多目标探测方法

Info

Publication number: CN114679729A
Application number: CN202210336444.7A
Authority: CN
Inventors: 郑少秋; 张涛; 赵朔; 冯建航; 孔俊俊; 张政伟; 施生生; 蒋飞; 朱琨
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-06-28
Anticipated expiration: 2042-03-31
Also published as: CN114679729B

Abstract

本发明提供了一种雷达通信一体化的无人机协同多目标探测方法，利用多无人机搭载雷达通信一体化设备进行协同探测，将每个无人机设置为一个智能体，训练一个稳定的探测策略，使用训练好的策略控制多个无人机飞行轨迹以及雷达和通信之间的资源分配，最终快速完成给定的探测任务。本发明将每个智能体观察到的雷达、通信以及无人机飞行状态作为策略生成模块的输入，并使用深度神经网络将每个智能体观察到的状态以及动作映射为随机策略，同时使用策略评价模块评价每个智能体的策略，并通过模块训练获得一个较优的协同策略。本发明通过对多无人机上雷达、通信等资源高效规划实现对指定区域多个目标搜索，大幅提高多目标的搜索发现效率。

Description

一种雷达通信一体化的无人机协同多目标探测方法

技术领域

本发明属于雷达通信一体化、集群协同探测领域，尤其涉及一种雷达通信一体化的无人机协同多目标探测方法。

背景技术

/同探测工作仅仅考虑静态环境下的资源分配，没有工作考虑无人机的轨迹设计，而轨迹设计无人机要发挥机动性和灵活性重要一步。如费泽松、刘鹏和王新奕设计了一种基于功率控制的静态雷达通信一体化UAV网络效用优化方法；陈鹏、汪敏和杨子晗发明了一种强化学习下的无人机集群静态雷达通信一体化资源分配方法。3)无人机在动态环境分配雷达通信资源时经常要时变信道以及观测信息有限的问题，而传统的优化方法很难解决这类问题。如费泽松、刘鹏和王新奕使用博弈论来分配雷达通信一体化UAV的功率。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种雷达通信一体化的无人机协同多目标探测方法，包括以下步骤：

步骤1，对无人机协同多目标探测问题进行建模；

步骤2，设计多智能体协同检测方案。

步骤1包括：

步骤1-1，定义问题；

步骤1-2，设计无人机飞行轨迹约束；

步骤1-3，对无人机雷达通信一体化下资源分配进行设计；

步骤1-4，衡量无人机雷达和通信的性能；

步骤1-5，进行多无人机协同探测强化学习建模；

步骤1-6，设计策略学习模块和策略评价模块。

步骤1-1包括：设定每个无人机为一个智能体，所有智能体协同完成区域的探测任务，各无人机将探测获得的信息通过通信链路实时发送给控制中心，总的探测时间为T，期望在探测时间内在给定区域内通过分配雷达和通信资源以及无人机的轨迹来最大化无人机和控制中心的数据率以及最大化探测性能，其中探测性能由所有目标的探测公平性来表述。

步骤1-2包括：将整个探测时间分为S个时隙，每时隙的持续时间为τ，在每个时隙开始的一小段时间内每个智能体完成探测和通信任务，其他时间用于飞行；在这里，用于通信和探测的时间由分配给这二者的信道带宽决定，假设分配给二者的信道带宽为x赫兹，则执行时间为1/x。一般这个时间远小于τ。

在每个飞行间隔，每个无人机能够朝着θ_m(t)∈[0，2π)方向飞行l_m(t)∈[0，l^Max]距离，其中l^Max代表τ时间内一个无人机能够飞行的最远距离，这个距离由无人机的型号决定；对于一个坐标为[x_m(0)，y_m(0)]出发的智能体，在t时刻内的移动表示为：

其中，l_m(t)代表第t个时隙内，第m个无人机实际移动的距离；θ_m(t′)代表在第t′个时隙内，第m个无人机的飞行方向；

设定无人机只能在[X^Min，X^Max]×[Y^Min，Y^Max]的范围内飞行，因此有：

X^Min≤x_m(t)≤X^Max

Y^Min≤y_m(t)≤Y^Max

其中，X^Min，X^Max，Y^Min，Y^Max分别表示无人机移动坐标在x轴移动最小值、在x轴移动最大值、在y轴移动最小值、在y轴移动最大值；这里使用的是原点为0的三维直角坐标系，x-y轴表示地面，在x轴方向上，无人机可以飞行的最小值和最大值为X^Min，X^Max，在y轴方向上，每个无人机可以飞行的的最小值和最大值为Y^Min，Y^Max。z轴的正半轴表示无人机的飞行高度。

为无人机之间设定了安全距离，表示为：

d_mm′(t)≥D^S

其中，d_mm′(t)表示在第t个时隙，第m个无人机到第m’个无人机的距离；D^S表示任意两个无人机之间的安全距离。

步骤1-3包括：为每个无人机雷达和通信过程分配的资源为发射功率和信道：

对于给定的总发射功率P，使用一个功率分配因子为雷达探测和通信功能分配相应的功率，

表示t时刻分配给第m个无人机的通信功率，

表示t时刻分配给第m个无人机的雷达发射功率，β_m(t)表示t时刻第m个智能体的功率分配因子；

对于总的K个信道，ρ_mk(t)表示t时刻第k个信道的选择，ρ_mk(t)＝1时第m个智能体选择第k个信道，ρ_mk(t)＝0时第m个智能体不选择第k个信道。

步骤1-4包括：

根据在t时刻为第m个无人机分配的功率

使用如下雷达方程估计每个智能体的探测范围：

其中，B表示无人机通信信道带宽；φ_m(t)表示第m个无人机在第t个时隙内可以探测的最远距离；G^Tx和G^Rx分别表示传输的增益和接收天线的增益，λ表示发射信号波长，σ表示有效探测面积，Γ表示玻尔兹曼常数，T₀表示热力学温度，F和γ分别表示雷达噪声和探测损失，Φ^Min表示无人机探测的最小信噪比；

定义第m个智能体探测到第n个的条件为：φ_m(t)≥d_mn(t)，其中d_mn(t)表示t时刻时第m个智能体与第n个目标之间的距离；

定义探测得分ε_n(t)为：

其中，c_n(t)表示截止t时刻第n个目标被探测到的次数；

定义目标被探测的公平性g(t)为：

其中，N代表被探测目标总个数。

步骤1-5包括：使用一个5元组

来描述决策过程，其中

指每个智能体的观察空间，

指所有智能体的联合状态空间，

指智能体的动作空间，

指智能体的奖励函数，

指每个智能体的转移概率；

观察空间

定义为第m个智能体当前时刻坐标(x_m(t)，y_m(t))，上一时刻移动的距离l_m(t-1)，方向θ_m(t-1)，上一时刻为无人机的通信功能分配的信道ρ_m(t-1)，上一时刻的通信和雷达功率分配因子β_m(t-1)，上一时刻获得的通信数据率R_m(t-1)，总体表示为

动作空间

动作空间定义为当前时刻内第m智能体移动方向θ_m(t)，在该方向上能够移动的距离l_m(t)，通信信道分配因子ρ_m(t)和功率分配因子β_m(t)，总体表示为

奖励函数

定义了所有智能体的探测奖励和错误行为的惩罚，表示为

其中，R_m(t)表示t时刻第m个智能体测到的通信数据率；

和

分别表示第m个无人机越过边界获得的惩罚，无人机之间相互碰撞获得的惩罚和雷达无法覆盖到地面获得的惩罚；

状态空间

包含所有智能体的观察信息，表示为

转移概率

表示为

其中

代表所有智能体的联合动作。

步骤1-6包括：为每个无人机配置一个策略学习模块和一个策略评价模块，其中，所述策略学习模块用于策略的生成，所述策略评价模块用于评价生成的策略；

所述策略学习模块包括第m个无人机的在线策略网络π_θm(o，a)，历史策略网络

优化器和损失函数；o和a分别代表无人机状态的集合和动作的集合；

所述在线策略网络用于生成随机策略，将每个智能体的收集到状态和相应的动作通过神经网络映射为策略分布，采用高斯模型作为策略分布；

历史策略网络用于重复利用每个智能体收集到的历史经验从而增强每个智能体的采样效率，每个智能体的损失函数设置为每个智能体的期望回报J(θ^m)，表示为

其中θ^m代表第m个智能体中策略网络的参数，

表示期望函数，

表示当前策略和历史策略之间的概率比；函数f^CL用于将χ(θ^m)限制在[1-∈，1+∈]，表示为

∈代表限制参数；

代表优势函数；

所述策略评价模块通过生成优势函数来评价每个智能体获得的策略，优势函数表示为

其中

代表第个m智能体中评价网络值函数，ω代表相应评价网络的参数，γ代表折扣因子；

表示t时刻第m个无人机获得的奖励；

通过引入状态熵函数来增强智能体在环境中的探索行为，状态熵函数表示为

其中

代表在线策略π的熵函数。

步骤2包括：

步骤2-1，初始化模型参数：初始化不同模块的参数，包括在线策略网络的参数θ^m、历史策略网络的参数

评价网络的参数ω^m、策略网络的学习率β^A、评价网络的学习率β^I和折扣因子γ；

步骤2-2，收集样本：

每个无人机观察环境后获得观察向量

包括每个无人机当前时刻的坐标和上一时刻每个无人机的移动信息，表示为

步骤2-3，将观察向量输入深度神经网络获得在线策略分布，然后从在线策略分布中采样得到相应的动作向量：

采样获得的动作向量总体表示为

采用高斯模型作为策略分布，对于第m个无人机，其在线策略分布π_θm(o，a)表示为：

其中，o^m和a^m分别表示第m个智能体观察到的状态和执行的动作；μ和σ分别代表均值和标准差函数；

步骤2-4，动作采样和执行：

为每个无人机的通信过程分配Pβ(t)的功率，为雷达过程分配(1-β(t))P雷达发射功率，选择第

个信道，其中

表示上取整函数；

控制每个无人机在θ_m(t)的方向上飞行l_m(t)的距离；

步骤2-5，检测惩罚行为：

为每个无人机定义三种惩罚行为，包括越过边界、相互碰撞和无法覆盖到地面；

分别表示第m个无人机越过边界获得的惩罚，表示为：

其中，Ξ₁表示惩罚值；

表示第m个无人机和第m′个无人机之间相互碰撞获得的惩罚，表示为：

其中，Ξ₂表示惩罚值；d_mm′(t)表示第m个无人机和第m′个无人机之间的距离，D^S限定了任意两个无人机之间的安全距离；

表示第m个无人机无法覆盖到地面获得的惩罚，表示为：

其中，Ξ₃表示惩罚值；H表示能够探测的最远距离；

通过统计每个无人机获得的惩罚，计算每个无人机获得的最终奖励

当前时隙的动作完成后，每个无人机在下一时隙开始时观察得到状态

检查第m个无人机是否出现三种惩罚行为，如果出现，下一时刻状态回滚到当前状态

步骤2-6，生成联合状态信息：

每个无人机将各自的状态信息发送给信息融合中心，信息融合中心整合所有观察信息

并给每个无人机发送当前时刻的状态信息；

代表无人机集合；

每个无人机不断重复步骤2-2到步骤2-6，直到获得第j个批次，总共N^B个观察信息B_s，j、状态信息

动作信息

第j个批次奖励表示为

步骤2-7，更新网络参数。

步骤2-7包括：使用

更新策略生成网络的参数θ^m，表示为：

其中，L^A(θ^m)＝J(θ^m)+f^E(θ^m)表示策略网络的损失函数，

表示梯度；

将在线策略网络中的参数直接复制到历史策略网络中

π_θ表示从在线网络中获得的策略，

表示智能体的历史策略；

使用B_s，j，B_r，j更新参数φ，使用B_s，j，

更新评价网络的参数

β^I表示评价网络的学习率，A^I(ω^m)表示优势函数，

表示对ω^m的梯度；

重复步骤2-1到步骤2-7，如果所有目标都被探测到，或者是一个训练轮次结束，则进行新一轮的训练，直到所有无人机完成所有轮次的训练。

针对现有无人机集群协同目标探测方法存在的问题，本发明提出的方法，一是将雷达通信一体设计方法，通信功能和探测功能共用雷达频谱，解决通信频谱资源紧张的难题，同时减少无人机负载，节约硬件成本，降低无人机重量；二是，针对雷达通信资源干扰问题以及资源规划问题，设计同一检测信号波形完成通信和雷达功能，并基于强化学习智能进行雷达通信资源统一规划，提高动态复杂场景自适应性；三是雷达通信资源规划时，对无人机集群中每个无人机的速度和方向进行了实时控制，设计面向非完全信息搜索的多智能体策略控制无人机的飞行轨迹，避免无人机之间的碰撞和飞出检测区域，并保证了对未知环境搜索的适应性。四是针对给定环境中有多个目标等待被探测时，为避免仅探测部分目标，对于远距离边缘未知目标难以探测问题，提出地理公平性指标衡量目标被探测的公平性，通过最大化该指标来保证所有目标都可以被探测到。

本发明的意义在于不同于以往的基于视觉的探测方法，该发明使用雷达探测目标，解决了常见的视觉探测对环境条件敏感的问题。同时，使用雷达和通信一体化技术辅助探测过程，使无人机只需要携带一个设备就可以完成雷达探测和通信功能，并通过设计多智能体深度强化学习调节无人机的飞行参数和为雷达和通信功能分配不同的资源来进行高效地目标检测。

本发明与现有技术相比，显著优点是：(1)考虑雷达通信一体辅助下的动态环境探测，充分发挥了无人机的机动性和灵活性；(2)使用深度学习技术学习探测策略，使本发明可以应用到大规模复杂探测任务中；(3)设计多智能体强化学习来驱动无人机之间的协同探测，使多个无人机能高效地完成探测任务。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为雷达通信一体辅助无人机协同目标探测流程图。

图2为本发明提出的雷达通信一体辅助下的多无人机协同检测模型示意图。

图3是本发明方法概念图。

具体实施方式

如图1、图2、图3所示，本发明提供了一种雷达通信一体化的无人机协同多目标探测方法，该方案无人机轨迹控制和资源控制为基础，强化学习为辅助，多无人机协同探测场景如图3所示，每个无人机配备雷达通信双功能设备，探测给定区域的目标，同时与一个信息融合中心保持通信。在每个无人机的控制器中配置多智能体深度强化学习算法，学习每个智能体在环境中观察到的信息，同时输出相应的动作，方法结构如图2所示。整个控制系统如附图1所示，包括：

步骤1：多智能体协同过程定义

本发明首先将多无人机协同探测过程定义为一个马尔科夫决策过程。该过程使用一个5元组

来描述，其中

指每个智能体的观察空间，

指所有智能体的联合状态空间，

指智能体的动作空间，

指智能体的奖励函数，

指每个智能体的转移概率。

(1)观察空间

观察空间

包含7个元素，分别为第m个智能体当前时刻坐标(x_m(t)，y_m(t))，上一时刻移动的距离l_m(t-1)，方向θ_m(t-1)，上一时刻为无人机的通信功能分配的信道ρ_m(t-1)，上一时刻的通信和雷达功率分配因子β_m(t-1)，当前时刻获得的通信数据率R_m(t)。

即，第m个智能体在第t时刻的观察可以表示为

(2)动作空间

动作空间

定义为当前时刻内第m智能体移动方向θ_m(t)，在该方向上可以移动的距离l_m(t)，通信信道分配因子ρ_m(t)和功率分配因子β_m(t)。即，第m个智能体在第t时刻的动作表示为：

(3)奖励函数

奖励函数

定义了所有智能体的探测奖励和错误行为的惩罚，第m个智能体在第t时刻的观察表示为：

其中，R_m(t)表示t时刻第m个智能体测到的通信数据率；

和

分别表示第m个无人机越过边界，无人机之间相互碰撞以及雷达无法覆盖到地面获得的惩罚；g(t)表示当前时刻获得地理公平性，计算方法为：

其中，N代表被探测目标总个数。c_n(t)表示截止t时刻，第n个目标被探测到的次数。

(4)状态空间

状态空间

包含所有智能体的观察信息，表示为：

其中，

代表无人机集合。

(5)转移概率

转移概率

表示为：

其中，

代表所有智能体的联合动作。

步骤2：初始化模型参数

初始化不同模块的参数，包括在线策略网络的参数θ^m、历史策略网络的参数

分布式方案的评价网络的参数ω^m、策略网络的学习率β^A、评价网络的学习率β^I和折扣因子γ。这里，策略网络和评价网络使用的参数都是随机初始化。策略网络和学习网络的学习率是一个影响学习效果的重要参数，设置过小的学习率容易使算法收敛得非常缓慢，设置过大的学习率则容易使算法收敛到局部最优点，因此这两个参数要做多次实验来调试，一般的做法是先设置一个很小的学习率，比如0.000001，然后逐渐增大该值，直到算法可以快速地收敛到一个较大的总平均奖励为止。当调试好学习率后，折扣因子也可以用类似的方法来调试，先设置一个较高的值，比如0.99，每次减小0.01或者0.02，直至算法收敛一个较大的总平均奖励为止。

各项参数调试完毕以后，即可进入在线学习阶段。

步骤3：样本收集

首先每个无人机需要收集充足的样本用于策略网络和评价网络的训练。

每m个无人机首先需要确定当前的位置坐标，即x_m(t)，y_m(t)，这个位置可以通过无人机上携带的GPS定位装置获得。

此外，每m个无人机需要从内存中提取上一时刻移动的距离l_m(t-1)、上一时刻移动的方向θ_m(t-1)、上一时刻分配的通信信道ρ_m(t-1)、和上一时刻的功率分配因子β_m(t-1)和上一时刻的数据率R_m(t-1)。值得注意的是，当无人机在0时刻收集样本时，上一时刻的样本为随机样本，一般从一个0～1的随机数生成器中取值。

因此，在采样步骤下，第m个无人机输出的观察信息表示为：

步骤4：生成在线策略分布。并将观察向量输入深度神经网络获得在线策略分布，然后从策略分布中采样得到相应的动作向量。

该步骤的输入为上一步骤收集的观察信息。因此对于第m个无人机来说，输入的观察值序列为

接着将观察值序列输入到决策神经网络中输出相应的策略分布，本发明采用高斯分布来拟合策略分布，表示为：

其中，μ和σ代表均值和标准差函数。

步骤5：动作采样和执行

首先从获得的策略分布π_θm(o，a)中采样输出动作向量，即当前时刻第m个无人机需要移动的距离l_m(t)、需要偏转的方向θ_m(t)、当前时刻为第m个无人机与信息融合中心通信分配的信道ρ_m(t)和功率分配因子总体表示为：

然后第m个无人机执行获得的工作。

首先为其通信过程分配

的功率，为雷达过程分配

雷达发射功率。

选择第

个信道，其中

表示上取整函数。K表示可选的信道总数。

第m个无人机使用分配的信道和功率资源来执行雷达探测和通信过程。

对于雷达探测过程来说，输入信息为当前时刻的功率

输出为对N个目标的探测公平性g(t)，具体过程为：

首先，估计出第m个无人机的的探测范围，表示为：

其中，φ_m(t)表示第m个无人机在第t个时隙内的最大探测范围。B表示无人机的通信信道带宽。G^Tx和G^Rx分别表示传输的增益和接收天线的增益，λ表示发射信号波长，σ表示有效探测面积，Γ表示玻尔兹曼常数，T₀表示热力学温度，F和γ分别表示雷达噪声和探测损失，Φ^Min表示无人机测的最小信噪比；在这些参数中，G^Tx、G^Rx、Γ、T₀为定值，其他参数可通过雷达信号处理设备来测量获得。

只有目标在雷达探测范围内才可以被无人机即探测到，因此对于第m个智能体探测到第n个的条件为：φ_m(t)≥d_mn(t)，其中d_mn(t)表示t时刻时第m个智能体与第n个目标之间的距离；

接着，第m个无人机使用分配的通信功率

和信道

执行与信息融合中心的通信，将雷达探测信道发送给信息融合中心，并在这个过程中测量该通信过程中的数据率R_m(t)。

信息融合中心根据所有无人机收集到的探测信息，计算出每个目标被探测的次数，然后计算出当前时刻所有无人机的探测得分ε_n(t)：

其中，c_n(t)表示截止t时刻第n个目标被探测到的次数；

接着计算探测公平性g(t)：

其中，N代表被探测目标总个数。

然后，将计算后的探测公平性值发送给每一个无人机。

最后，每个无人机根据分配的方向θ_m(t)的方向上飞行l_m(t)的距离。

步骤6：惩罚行为检测

根据步骤5获得的动作，为违规策略设置惩罚值，包括越过边界、互相碰撞以及雷达失去覆盖。这一步的意义在于，为每个无人机产生的不合规策略设置负奖励，这样为了最大化自身的奖励，无人机必须逐步学习合规的策略，直至寻找到最优策略。

首先，如果第m个无人机越过给定的边界，设置越界惩罚，表示为：

其中，Ξ₁表示惩罚值；X^Min，X^Max，Y^Min，Y^Max限定了无人机的移动范围。

然后，如果第m个无人机和第m′无人机之间相互碰撞，设置碰撞惩罚，表示为：

其中，Ξ₂表示惩罚值；d_mm′(t)表示第m个无人机和第m′个无人机之间的距离。D^S限定了任意两个无人机之间的安全距离。

接着，如果第m个无人机无法覆盖到地面获得的惩罚，表示为：

其中，Ξ₃表示惩罚值；H表示无人机的飞行高度。

这里的Ξ₁、Ξ₂和Ξ₃根据无人机获得奖励来设置，不能设置的太小，可以设置为总奖励的0.1倍，比如总奖励为100，惩罚值可以设置为10。

通过统计每个无人机获得的惩罚，计算每个无人机获得的最终奖励，即

当前时刻的动作完成后，每个无人机在下一时隙开始时观察得到状态

检查第m个无人机是否出现越过边界，碰撞或者失去雷达负载这三种惩罚行为，若出现，下一时刻状态回滚剑当前状态

步骤7：生成联合状态信息

这一步骤的输入为每个无人机的观察信息

动作信息

和获得奖励

输出为一个批次的数据。

并给每个无人机发送当前时刻的状态信息。

每个无人机不断重复步骤2到步骤7，直到获得第j个批次，总共N^B个观察信息、状态信息、动作信息，表示为B_s，j，

第j个批次奖励表示为

N^B的大小一般越大收敛效果越好，因为批次越大意味着有更多的数据被用于训练，但不能大于一幕(episode)总的训练次数，可以一开始设置一个较大的值逐步减小来调节。

步骤8：网络参数更新

该步骤用于更新策略网络和评价案例的参数，即θ^m和ω^m。输入为步骤7获得的批次数据，输出为训练好的网络参数。

策略网络的参数更新分为在线策略网络的更新和历史策略网络的更新。

首先更新历史策略网络的参数。该网络主要用于保存已有在线网络中的参数，不参与训练过程，因此直接将现有的在线网络的参数复制一份给历史策略网络，表示为：

代表历史策略，主要用于重复利用每个智能体收集到的历史经验从而增强每个智能体的采样效率。

接着使用

更新策略生成网络的参数θ^m，表示为：

其中，L^A(θ^m)＝J(θ^m)+f^E(θ^m)表示策略网络的损失函数，

表示梯度。

J(θ^m)代表第m个智能体的损失函数设置为每个智能体的期望回报，表示为

其中θ^m代表第m个智能体中在线策略网络的参数，

∈代表限制参数，一般取0.2；

代表优势函数，用于评价每个智能体获得的策略，表示为

其中

代表第m智能体中评价网络值函数。

f^E(θ^m)代表状态熵函数，用于增强智能体在环境中的探索行为，表示为

这里

代表在线策略π的熵函数。

最后使用B_s，j，

更新策略评价网络的参数ω^m，有

重复以上步骤1到步骤8，如果所有目标都被探测到，或者是一个训练轮次结束，则进行新一轮的训练，直到所有无人机完成所有轮次的训练。

实施例

首先为无人机的探测划定探测范围，通过为每个无人机装配的GPS定位装置，可以使每个无人机实时获得当前时刻的坐标，当某个时刻该坐标超出探测范围时，通过算法调整无人机的学习行为，从而使无人机避免越出边界。

然后利用马尔科夫模型定义多个无人机之间的协同过程。设置无人机的可探测范围为2000m×2000m，无人机的数目M为10，待探测的目标为100个，从开始探测到结束探测所用的最长时间步数T为200，每一步持续时间为5分钟。此外，还要为每个无人机设置在一个时间步内飞行的最远距离和最大角度，这里设置最远距离l为20m米，最大角度θ为360度。接着每个无人机首先获得环境信息，包括当前时刻的坐标信息、上一时间步内的移动距离、上一时间步内的的移动方向、上一时间步内的功率分配因子以及上一时间步内的数据率。注意，这些信息在第1个时间步内需要根据每个值的大概取值范围随机取一个值，比如最大飞行距离为20m，这里首次飞行距离可以取5m。接着将这些信息输入多智能体强化学习中学习出每个无人机在当前时间步内的动作，包括当前时间步内无人机需要飞行的的距离，当前时间步内无人机需要飞行的角度，当前时间步内分配的信道以及功率分配因子。

接着每个无人机执行学习到的动作并更新学习网络。当每个无人机通过学习算法获得当前时间步内的飞行距离l，飞行角度θ，信道分配和功率分配因子。首先每个无人机通过雷达通信一体设备探测周围是否存在目标，这里的探测范围是由为雷达功能分配的功率决定的，然后每个无人机通过分配的信道将获得的雷达探测信息发送给控制中心，控制中心汇总所有无人机的信息后将所有信息发送给每个无人机。接着每个无人机使用该信息计算该学习行为获得的回报，这个回报包括测得的通信数据率，所有目标探测的公平性，无人机是否存在碰撞和穿越边界，雷达无法覆盖地面，注意这里的无法覆盖是由为雷达分配过小的功率导致的。然后每个无人机根据计算的回报信息更新各自的学习网络，最后每个无人机在飞行角度θ上飞行l m。通过上述过程，每个无人机不断在环境中学习，最终可以学习到一个稳定的策略，这个策略即为学习到的无人机协同多目标探测方法。

本发明提供了一种雷达通信一体化的无人机协同多目标探测方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种雷达通信一体化的无人机协同多目标探测方法，其特征在于，包括以下步骤：

步骤1，对无人机协同多目标探测问题进行建模；

步骤2，设计多智能体协同检测方案。

2.根据权利要求1所述的方法，其特征在于，步骤1包括：

步骤1-1，定义问题；

步骤1-2，设计无人机飞行轨迹约束；

步骤1-3，对无人机雷达通信一体化下资源分配进行设计；

步骤1-4，衡量无人机雷达和通信的性能；

步骤1-5，进行多无人机协同探测强化学习建模；

步骤1-6，设计策略学习模块和策略评价模块。

3.根据权利要求2所述的方法，其特征在于，步骤1-1包括：设定每个无人机为一个智能体，所有智能体协同完成区域的探测任务，各无人机将探测获得的信息通过通信链路实时发送给控制中心，总的探测时间为T，期望在探测时间内在给定区域内通过分配雷达和通信资源以及无人机的轨迹来最大化无人机和控制中心的数据率以及最大化探测性能，其中探测性能由所有目标的探测公平性来表述。

4.根据权利要求3所述的方法，其特征在于，步骤1-2包括：将整个探测时间分为S个时隙，每时隙的持续时间为τ；

X^Min≤x_m(t)≤X^Max

Y^Min≤y_m(t)≤Y^Max

其中，X^Min，X^Max，Y^Min，Y^Max分别表示无人机移动坐标在x轴移动最小值、在x轴移动最大值、在y轴移动最小值、在y轴移动最大值；

为无人机之间设定了安全距离，表示为：

d_mm′(t)≥D^S

5.根据权利要求4所述的方法，其特征在于，步骤1-3包括：为每个无人机雷达和通信过程分配的资源为发射功率和信道：

表示t时刻分配给第m个无人机的通信功率，

6.根据权利要求5所述的方法，其特征在于，步骤1-4包括：

根据在t时刻为第m个无人机分配的功率

使用如下雷达方程估计每个智能体的探测范围：

其中，B表示无人机通信信道带宽；φ_m(t)表示第m个无人机在第t个时隙内可以探测的最远距离；G^Tx和G^Rx分别表示传输的增益和接收天线的增益，λ表示发射信号波长，σ表示有效探测面积，Γ表示玻尔兹曼常数，T₀表示热力学温度，F和Υ分别表示雷达噪声和探测损失，Φ^Min表示无人机探测的最小信噪比；

定义探测得分ε_n(t)为：