CN114679729A - 一种雷达通信一体化的无人机协同多目标探测方法 - Google Patents
一种雷达通信一体化的无人机协同多目标探测方法 Download PDFInfo
- Publication number
- CN114679729A CN114679729A CN202210336444.7A CN202210336444A CN114679729A CN 114679729 A CN114679729 A CN 114679729A CN 202210336444 A CN202210336444 A CN 202210336444A CN 114679729 A CN114679729 A CN 114679729A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- detection
- mth
- radar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 89
- 230000006854 communication Effects 0.000 title claims abstract description 74
- 238000004891 communication Methods 0.000 title claims abstract description 72
- 238000000034 method Methods 0.000 claims abstract description 32
- 230000009471 action Effects 0.000 claims abstract description 18
- 238000011156 evaluation Methods 0.000 claims abstract description 18
- 238000013468 resource allocation Methods 0.000 claims abstract description 5
- 239000003795 chemical substances by application Substances 0.000 claims description 83
- 230000006870 function Effects 0.000 claims description 37
- 230000033001 locomotion Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 10
- 230000002787 reinforcement Effects 0.000 claims description 9
- 239000000523 sample Substances 0.000 claims description 8
- 230000007704 transition Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 4
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 3
- 230000009916 joint effect Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 11
- 238000013528 artificial neural network Methods 0.000 abstract description 5
- 230000004927 fusion Effects 0.000 description 9
- 238000005070 sampling Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000003068 static effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000021824 exploration behavior Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005096 rolling process Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000023308 Acca Species 0.000 description 1
- 235000012068 Feijoa sellowiana Nutrition 0.000 description 1
- 241000218218 Ficus <angiosperm> Species 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/30—TPC using constraints in the total amount of available transmission power
- H04W52/34—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
- H04W52/346—TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S13/00—Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
- G01S13/02—Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
- G01S13/50—Systems of measurement based on relative movement of target
- G01S13/52—Discriminating between fixed and moving objects or between objects moving at different speeds
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/02—Resource partitioning among network components, e.g. reuse partitioning
- H04W16/10—Dynamic resource partitioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/22—Traffic simulation tools or models
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Radar Systems Or Details Thereof (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明提供了一种雷达通信一体化的无人机协同多目标探测方法,利用多无人机搭载雷达通信一体化设备进行协同探测,将每个无人机设置为一个智能体,训练一个稳定的探测策略,使用训练好的策略控制多个无人机飞行轨迹以及雷达和通信之间的资源分配,最终快速完成给定的探测任务。本发明将每个智能体观察到的雷达、通信以及无人机飞行状态作为策略生成模块的输入,并使用深度神经网络将每个智能体观察到的状态以及动作映射为随机策略,同时使用策略评价模块评价每个智能体的策略,并通过模块训练获得一个较优的协同策略。本发明通过对多无人机上雷达、通信等资源高效规划实现对指定区域多个目标搜索,大幅提高多目标的搜索发现效率。
Description
技术领域
本发明属于雷达通信一体化、集群协同探测领域,尤其涉及一种雷达通信一体化的无人机协同多目标探测方法。
背景技术
/同探测工作仅仅考虑静态环境下的资源分配,没有工作考虑无人机的轨迹设计,而轨迹设计无人机要发挥机动性和灵活性重要一步。如费泽松、刘鹏和王新奕设计了一种基于功率控制的静态雷达通信一体化UAV网络效用优化方法;陈鹏、汪敏和杨子晗发明了一种强化学习下的无人机集群静态雷达通信一体化资源分配方法。3)无人机在动态环境分配雷达通信资源时经常要时变信道以及观测信息有限的问题,而传统的优化方法很难解决这类问题。如费泽松、刘鹏和王新奕使用博弈论来分配雷达通信一体化UAV的功率。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种雷达通信一体化的无人机协同多目标探测方法,包括以下步骤:
步骤1,对无人机协同多目标探测问题进行建模;
步骤2,设计多智能体协同检测方案。
步骤1包括:
步骤1-1,定义问题;
步骤1-2,设计无人机飞行轨迹约束;
步骤1-3,对无人机雷达通信一体化下资源分配进行设计;
步骤1-4,衡量无人机雷达和通信的性能;
步骤1-5,进行多无人机协同探测强化学习建模;
步骤1-6,设计策略学习模块和策略评价模块。
步骤1-1包括:设定每个无人机为一个智能体,所有智能体协同完成区域的探测任务,各无人机将探测获得的信息通过通信链路实时发送给控制中心,总的探测时间为T,期望在探测时间内在给定区域内通过分配雷达和通信资源以及无人机的轨迹来最大化无人机和控制中心的数据率以及最大化探测性能,其中探测性能由所有目标的探测公平性来表述。
步骤1-2包括:将整个探测时间分为S个时隙,每时隙的持续时间为τ,在每个时隙开始的一小段时间内每个智能体完成探测和通信任务,其他时间用于飞行;在这里,用于通信和探测的时间由分配给这二者的信道带宽决定,假设分配给二者的信道带宽为x赫兹,则执行时间为1/x。一般这个时间远小于τ。
在每个飞行间隔,每个无人机能够朝着θm(t)∈[0,2π)方向飞行lm(t)∈[0,lMax]距离,其中lMax代表τ时间内一个无人机能够飞行的最远距离,这个距离由无人机的型号决定;对于一个坐标为[xm(0),ym(0)]出发的智能体,在t时刻内的移动表示为:
其中,lm(t)代表第t个时隙内,第m个无人机实际移动的距离;θm(t′)代表在第t′个时隙内,第m个无人机的飞行方向;
设定无人机只能在[XMin,XMax]×[YMin,YMax]的范围内飞行,因此有:
XMin≤xm(t)≤XMax
YMin≤ym(t)≤YMax
其中,XMin,XMax,YMin,YMax分别表示无人机移动坐标在x轴移动最小值、在x轴移动最大值、在y轴移动最小值、在y轴移动最大值;这里使用的是原点为0的三维直角坐标系,x-y轴表示地面,在x轴方向上,无人机可以飞行的最小值和最大值为XMin,XMax,在y轴方向上,每个无人机可以飞行的的最小值和最大值为YMin,YMax。z轴的正半轴表示无人机的飞行高度。
为无人机之间设定了安全距离,表示为:
dmm′(t)≥DS
其中,dmm′(t)表示在第t个时隙,第m个无人机到第m’个无人机的距离;DS表示任意两个无人机之间的安全距离。
步骤1-3包括:为每个无人机雷达和通信过程分配的资源为发射功率和信道:
对于给定的总发射功率P,使用一个功率分配因子为雷达探测和通信功能分配相应的功率,表示t时刻分配给第m个无人机的通信功率, 表示t时刻分配给第m个无人机的雷达发射功率,βm(t)表示t时刻第m个智能体的功率分配因子;
对于总的K个信道,ρmk(t)表示t时刻第k个信道的选择,ρmk(t)=1时第m个智能体选择第k个信道,ρmk(t)=0时第m个智能体不选择第k个信道。
步骤1-4包括:
其中,B表示无人机通信信道带宽;φm(t)表示第m个无人机在第t个时隙内可以探测的最远距离;GTx和GRx分别表示传输的增益和接收天线的增益,λ表示发射信号波长,σ表示有效探测面积,Γ表示玻尔兹曼常数,T0表示热力学温度,F和γ分别表示雷达噪声和探测损失,ΦMin表示无人机探测的最小信噪比;
定义第m个智能体探测到第n个的条件为:φm(t)≥dmn(t),其中dmn(t)表示t时刻时第m个智能体与第n个目标之间的距离;
定义探测得分εn(t)为:
其中,cn(t)表示截止t时刻第n个目标被探测到的次数;
定义目标被探测的公平性g(t)为:
其中,N代表被探测目标总个数。
观察空间定义为第m个智能体当前时刻坐标(xm(t),ym(t)),上一时刻移动的距离lm(t-1),方向θm(t-1),上一时刻为无人机的通信功能分配的信道ρm(t-1),上一时刻的通信和雷达功率分配因子βm(t-1),上一时刻获得的通信数据率Rm(t-1),总体表示为
奖励函数定义了所有智能体的探测奖励和错误行为的惩罚,表示为 其中,Rm(t)表示t时刻第m个智能体测到的通信数据率;和分别表示第m个无人机越过边界获得的惩罚,无人机之间相互碰撞获得的惩罚和雷达无法覆盖到地面获得的惩罚;
步骤1-6包括:为每个无人机配置一个策略学习模块和一个策略评价模块,其中,所述策略学习模块用于策略的生成,所述策略评价模块用于评价生成的策略;
所述在线策略网络用于生成随机策略,将每个智能体的收集到状态和相应的动作通过神经网络映射为策略分布,采用高斯模型作为策略分布;
历史策略网络用于重复利用每个智能体收集到的历史经验从而增强每个智能体的采样效率,每个智能体的损失函数设置为每个智能体的期望回报J(θm),表示为其中θm代表第m个智能体中策略网络的参数,表示期望函数,表示当前策略和历史策略之间的概率比;函数fCL用于将χ(θm)限制在[1-∈,1+∈],表示为
∈代表限制参数;
步骤2包括:
步骤2-2,收集样本:
步骤2-3,将观察向量输入深度神经网络获得在线策略分布,然后从在线策略分布中采样得到相应的动作向量:
采用高斯模型作为策略分布,对于第m个无人机,其在线策略分布πθm(o,a)表示为:
其中,om和am分别表示第m个智能体观察到的状态和执行的动作;μ和σ分别代表均值和标准差函数;
步骤2-4,动作采样和执行:
控制每个无人机在θm(t)的方向上飞行lm(t)的距离;
步骤2-5,检测惩罚行为:
为每个无人机定义三种惩罚行为,包括越过边界、相互碰撞和无法覆盖到地面;
其中,Ξ2表示惩罚值;dmm′(t)表示第m个无人机和第m′个无人机之间的距离,DS限定了任意两个无人机之间的安全距离;
其中,Ξ3表示惩罚值;H表示能够探测的最远距离;
步骤2-6,生成联合状态信息:
步骤2-7,更新网络参数。
重复步骤2-1到步骤2-7,如果所有目标都被探测到,或者是一个训练轮次结束,则进行新一轮的训练,直到所有无人机完成所有轮次的训练。
针对现有无人机集群协同目标探测方法存在的问题,本发明提出的方法,一是将雷达通信一体设计方法,通信功能和探测功能共用雷达频谱,解决通信频谱资源紧张的难题,同时减少无人机负载,节约硬件成本,降低无人机重量;二是,针对雷达通信资源干扰问题以及资源规划问题,设计同一检测信号波形完成通信和雷达功能,并基于强化学习智能进行雷达通信资源统一规划,提高动态复杂场景自适应性;三是雷达通信资源规划时,对无人机集群中每个无人机的速度和方向进行了实时控制,设计面向非完全信息搜索的多智能体策略控制无人机的飞行轨迹,避免无人机之间的碰撞和飞出检测区域,并保证了对未知环境搜索的适应性。四是针对给定环境中有多个目标等待被探测时,为避免仅探测部分目标,对于远距离边缘未知目标难以探测问题,提出地理公平性指标衡量目标被探测的公平性,通过最大化该指标来保证所有目标都可以被探测到。
本发明的意义在于不同于以往的基于视觉的探测方法,该发明使用雷达探测目标,解决了常见的视觉探测对环境条件敏感的问题。同时,使用雷达和通信一体化技术辅助探测过程,使无人机只需要携带一个设备就可以完成雷达探测和通信功能,并通过设计多智能体深度强化学习调节无人机的飞行参数和为雷达和通信功能分配不同的资源来进行高效地目标检测。
本发明与现有技术相比,显著优点是:(1)考虑雷达通信一体辅助下的动态环境探测,充分发挥了无人机的机动性和灵活性;(2)使用深度学习技术学习探测策略,使本发明可以应用到大规模复杂探测任务中;(3)设计多智能体强化学习来驱动无人机之间的协同探测,使多个无人机能高效地完成探测任务。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为雷达通信一体辅助无人机协同目标探测流程图。
图2为本发明提出的雷达通信一体辅助下的多无人机协同检测模型示意图。
图3是本发明方法概念图。
具体实施方式
如图1、图2、图3所示,本发明提供了一种雷达通信一体化的无人机协同多目标探测方法,该方案无人机轨迹控制和资源控制为基础,强化学习为辅助,多无人机协同探测场景如图3所示,每个无人机配备雷达通信双功能设备,探测给定区域的目标,同时与一个信息融合中心保持通信。在每个无人机的控制器中配置多智能体深度强化学习算法,学习每个智能体在环境中观察到的信息,同时输出相应的动作,方法结构如图2所示。整个控制系统如附图1所示,包括:
步骤1:多智能体协同过程定义
本发明首先将多无人机协同探测过程定义为一个马尔科夫决策过程。该过程使用一个5元组来描述,其中指每个智能体的观察空间,指所有智能体的联合状态空间,指智能体的动作空间,指智能体的奖励函数,指每个智能体的转移概率。
观察空间包含7个元素,分别为第m个智能体当前时刻坐标(xm(t),ym(t)),上一时刻移动的距离lm(t-1),方向θm(t-1),上一时刻为无人机的通信功能分配的信道ρm(t-1),上一时刻的通信和雷达功率分配因子βm(t-1),当前时刻获得的通信数据率Rm(t)。
其中,N代表被探测目标总个数。cn(t)表示截止t时刻,第n个目标被探测到的次数。
步骤2:初始化模型参数
初始化不同模块的参数,包括在线策略网络的参数θm、历史策略网络的参数分布式方案的评价网络的参数ωm、策略网络的学习率βA、评价网络的学习率βI和折扣因子γ。这里,策略网络和评价网络使用的参数都是随机初始化。策略网络和学习网络的学习率是一个影响学习效果的重要参数,设置过小的学习率容易使算法收敛得非常缓慢,设置过大的学习率则容易使算法收敛到局部最优点,因此这两个参数要做多次实验来调试,一般的做法是先设置一个很小的学习率,比如0.000001,然后逐渐增大该值,直到算法可以快速地收敛到一个较大的总平均奖励为止。当调试好学习率后,折扣因子也可以用类似的方法来调试,先设置一个较高的值,比如0.99,每次减小0.01或者0.02,直至算法收敛一个较大的总平均奖励为止。
各项参数调试完毕以后,即可进入在线学习阶段。
步骤3:样本收集
首先每个无人机需要收集充足的样本用于策略网络和评价网络的训练。
每m个无人机首先需要确定当前的位置坐标,即xm(t),ym(t),这个位置可以通过无人机上携带的GPS定位装置获得。
此外,每m个无人机需要从内存中提取上一时刻移动的距离lm(t-1)、上一时刻移动的方向θm(t-1)、上一时刻分配的通信信道ρm(t-1)、和上一时刻的功率分配因子βm(t-1)和上一时刻的数据率Rm(t-1)。值得注意的是,当无人机在0时刻收集样本时,上一时刻的样本为随机样本,一般从一个0~1的随机数生成器中取值。
因此,在采样步骤下,第m个无人机输出的观察信息表示为:
步骤4:生成在线策略分布。并将观察向量输入深度神经网络获得在线策略分布,然后从策略分布中采样得到相应的动作向量。
接着将观察值序列输入到决策神经网络中输出相应的策略分布,本发明采用高斯分布来拟合策略分布,表示为:
其中,μ和σ代表均值和标准差函数。
步骤5:动作采样和执行
首先从获得的策略分布πθm(o,a)中采样输出动作向量,即当前时刻第m个无人机需要移动的距离lm(t)、需要偏转的方向θm(t)、当前时刻为第m个无人机与信息融合中心通信分配的信道ρm(t)和功率分配因子总体表示为:
然后第m个无人机执行获得的工作。
第m个无人机使用分配的信道和功率资源来执行雷达探测和通信过程。
首先,估计出第m个无人机的的探测范围,表示为:
其中,φm(t)表示第m个无人机在第t个时隙内的最大探测范围。B表示无人机的通信信道带宽。GTx和GRx分别表示传输的增益和接收天线的增益,λ表示发射信号波长,σ表示有效探测面积,Γ表示玻尔兹曼常数,T0表示热力学温度,F和γ分别表示雷达噪声和探测损失,ΦMin表示无人机测的最小信噪比;在这些参数中,GTx、GRx、Γ、T0为定值,其他参数可通过雷达信号处理设备来测量获得。
只有目标在雷达探测范围内才可以被无人机即探测到,因此对于第m个智能体探测到第n个的条件为:φm(t)≥dmn(t),其中dmn(t)表示t时刻时第m个智能体与第n个目标之间的距离;
信息融合中心根据所有无人机收集到的探测信息,计算出每个目标被探测的次数,然后计算出当前时刻所有无人机的探测得分εn(t):
其中,cn(t)表示截止t时刻第n个目标被探测到的次数;
接着计算探测公平性g(t):
其中,N代表被探测目标总个数。
然后,将计算后的探测公平性值发送给每一个无人机。
最后,每个无人机根据分配的方向θm(t)的方向上飞行lm(t)的距离。
步骤6:惩罚行为检测
根据步骤5获得的动作,为违规策略设置惩罚值,包括越过边界、互相碰撞以及雷达失去覆盖。这一步的意义在于,为每个无人机产生的不合规策略设置负奖励,这样为了最大化自身的奖励,无人机必须逐步学习合规的策略,直至寻找到最优策略。
首先,如果第m个无人机越过给定的边界,设置越界惩罚,表示为:
其中,Ξ1表示惩罚值;XMin,XMax,YMin,YMax限定了无人机的移动范围。
然后,如果第m个无人机和第m′无人机之间相互碰撞,设置碰撞惩罚,表示为:
其中,Ξ2表示惩罚值;dmm′(t)表示第m个无人机和第m′个无人机之间的距离。DS限定了任意两个无人机之间的安全距离。
接着,如果第m个无人机无法覆盖到地面获得的惩罚,表示为:
其中,Ξ3表示惩罚值;H表示无人机的飞行高度。
这里的Ξ1、Ξ2和Ξ3根据无人机获得奖励来设置,不能设置的太小,可以设置为总奖励的0.1倍,比如总奖励为100,惩罚值可以设置为10。
步骤7:生成联合状态信息
每个无人机不断重复步骤2到步骤7,直到获得第j个批次,总共NB个观察信息、状态信息、动作信息,表示为Bs,j,第j个批次奖励表示为NB的大小一般越大收敛效果越好,因为批次越大意味着有更多的数据被用于训练,但不能大于一幕(episode)总的训练次数,可以一开始设置一个较大的值逐步减小来调节。
步骤8:网络参数更新
该步骤用于更新策略网络和评价案例的参数,即θm和ωm。输入为步骤7获得的批次数据,输出为训练好的网络参数。
策略网络的参数更新分为在线策略网络的更新和历史策略网络的更新。
首先更新历史策略网络的参数。该网络主要用于保存已有在线网络中的参数,不参与训练过程,因此直接将现有的在线网络的参数复制一份给历史策略网络,表示为:
J(θm)代表第m个智能体的损失函数设置为每个智能体的期望回报,表示为其中θm代表第m个智能体中在线策略网络的参数,表示当前策略和历史策略之间的概率比;函数fCL用于将χ(θm)限制在[1-∈,1+∈],表示为
∈代表限制参数,一般取0.2;
重复以上步骤1到步骤8,如果所有目标都被探测到,或者是一个训练轮次结束,则进行新一轮的训练,直到所有无人机完成所有轮次的训练。
实施例
首先为无人机的探测划定探测范围,通过为每个无人机装配的GPS定位装置,可以使每个无人机实时获得当前时刻的坐标,当某个时刻该坐标超出探测范围时,通过算法调整无人机的学习行为,从而使无人机避免越出边界。
然后利用马尔科夫模型定义多个无人机之间的协同过程。设置无人机的可探测范围为2000m×2000m,无人机的数目M为10,待探测的目标为100个,从开始探测到结束探测所用的最长时间步数T为200,每一步持续时间为5分钟。此外,还要为每个无人机设置在一个时间步内飞行的最远距离和最大角度,这里设置最远距离l为20m米,最大角度θ为360度。接着每个无人机首先获得环境信息,包括当前时刻的坐标信息、上一时间步内的移动距离、上一时间步内的的移动方向、上一时间步内的功率分配因子以及上一时间步内的数据率。注意,这些信息在第1个时间步内需要根据每个值的大概取值范围随机取一个值,比如最大飞行距离为20m,这里首次飞行距离可以取5m。接着将这些信息输入多智能体强化学习中学习出每个无人机在当前时间步内的动作,包括当前时间步内无人机需要飞行的的距离,当前时间步内无人机需要飞行的角度,当前时间步内分配的信道以及功率分配因子。
接着每个无人机执行学习到的动作并更新学习网络。当每个无人机通过学习算法获得当前时间步内的飞行距离l,飞行角度θ,信道分配和功率分配因子。首先每个无人机通过雷达通信一体设备探测周围是否存在目标,这里的探测范围是由为雷达功能分配的功率决定的,然后每个无人机通过分配的信道将获得的雷达探测信息发送给控制中心,控制中心汇总所有无人机的信息后将所有信息发送给每个无人机。接着每个无人机使用该信息计算该学习行为获得的回报,这个回报包括测得的通信数据率,所有目标探测的公平性,无人机是否存在碰撞和穿越边界,雷达无法覆盖地面,注意这里的无法覆盖是由为雷达分配过小的功率导致的。然后每个无人机根据计算的回报信息更新各自的学习网络,最后每个无人机在飞行角度θ上飞行l m。通过上述过程,每个无人机不断在环境中学习,最终可以学习到一个稳定的策略,这个策略即为学习到的无人机协同多目标探测方法。
本发明提供了一种雷达通信一体化的无人机协同多目标探测方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (7)
1.一种雷达通信一体化的无人机协同多目标探测方法,其特征在于,包括以下步骤:
步骤1,对无人机协同多目标探测问题进行建模;
步骤2,设计多智能体协同检测方案。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,定义问题;
步骤1-2,设计无人机飞行轨迹约束;
步骤1-3,对无人机雷达通信一体化下资源分配进行设计;
步骤1-4,衡量无人机雷达和通信的性能;
步骤1-5,进行多无人机协同探测强化学习建模;
步骤1-6,设计策略学习模块和策略评价模块。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:设定每个无人机为一个智能体,所有智能体协同完成区域的探测任务,各无人机将探测获得的信息通过通信链路实时发送给控制中心,总的探测时间为T,期望在探测时间内在给定区域内通过分配雷达和通信资源以及无人机的轨迹来最大化无人机和控制中心的数据率以及最大化探测性能,其中探测性能由所有目标的探测公平性来表述。
4.根据权利要求3所述的方法,其特征在于,步骤1-2包括:将整个探测时间分为S个时隙,每时隙的持续时间为τ;
在每个飞行间隔,每个无人机能够朝着θm(t)∈[0,2π)方向飞行lm(t)∈[0,lMax]距离,其中lMax代表τ时间内一个无人机能够飞行的最远距离,这个距离由无人机的型号决定;对于一个坐标为[xm(0),ym(0)]出发的智能体,在t时刻内的移动表示为:
其中,lm(t)代表第t个时隙内,第m个无人机实际移动的距离;θm(t′)代表在第t′个时隙内,第m个无人机的飞行方向;
设定无人机只能在[XMin,XMax]×[YMin,YMax]的范围内飞行,因此有:
XMin≤xm(t)≤XMax
YMin≤ym(t)≤YMax
其中,XMin,XMax,YMin,YMax分别表示无人机移动坐标在x轴移动最小值、在x轴移动最大值、在y轴移动最小值、在y轴移动最大值;
为无人机之间设定了安全距离,表示为:
dmm′(t)≥DS
其中,dmm′(t)表示在第t个时隙,第m个无人机到第m’个无人机的距离;DS表示任意两个无人机之间的安全距离。
6.根据权利要求5所述的方法,其特征在于,步骤1-4包括:
其中,B表示无人机通信信道带宽;φm(t)表示第m个无人机在第t个时隙内可以探测的最远距离;GTx和GRx分别表示传输的增益和接收天线的增益,λ表示发射信号波长,σ表示有效探测面积,Γ表示玻尔兹曼常数,T0表示热力学温度,F和Υ分别表示雷达噪声和探测损失,ΦMin表示无人机探测的最小信噪比;
定义第m个智能体探测到第n个的条件为:φm(t)≥dmn(t),其中dmn(t)表示t时刻时第m个智能体与第n个目标之间的距离;
定义探测得分εn(t)为:
其中,cn(t)表示截止t时刻第n个目标被探测到的次数;
定义目标被探测的公平性g(t)为:
其中,N代表被探测目标总个数。
7.根据权利要求6所述的方法,其特征在于,步骤1-5包括:使用一个5元组来描述决策过程,其中指每个智能体的观察空间,指所有智能体的联合状态空间,指智能体的动作空间,指智能体的奖励函数,指每个智能体的转移概率;
观察空间定义为第m个智能体当前时刻坐标(xm(t),ym(t)),上一时刻移动的距离lm(t-1),方向θm(t-1),上一时刻为无人机的通信功能分配的信道ρm(t-1),上一时刻的通信和雷达功率分配因子βm(t-1),上一时刻获得的通信数据率Rm(t-1),总体表示为
奖励函数定义了所有智能体的探测奖励和错误行为的惩罚,表示为 其中,Rm(t)表示t时刻第m个智能体测到的通信数据率;和分别表示第m个无人机越过边界获得的惩罚,无人机之间相互碰撞获得的惩罚和雷达无法覆盖到地面获得的惩罚;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210336444.7A CN114679729B (zh) | 2022-03-31 | 2022-03-31 | 一种雷达通信一体化的无人机协同多目标探测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210336444.7A CN114679729B (zh) | 2022-03-31 | 2022-03-31 | 一种雷达通信一体化的无人机协同多目标探测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114679729A true CN114679729A (zh) | 2022-06-28 |
CN114679729B CN114679729B (zh) | 2024-04-30 |
Family
ID=82076975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210336444.7A Active CN114679729B (zh) | 2022-03-31 | 2022-03-31 | 一种雷达通信一体化的无人机协同多目标探测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114679729B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115877868A (zh) * | 2022-12-01 | 2023-03-31 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN116482673A (zh) * | 2023-04-27 | 2023-07-25 | 电子科技大学 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020230137A1 (en) * | 2019-05-16 | 2020-11-19 | B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University | System and method for automated multi-objective policy implementation, using reinforcement learning |
CN113207128A (zh) * | 2021-05-07 | 2021-08-03 | 东南大学 | 强化学习下的无人机集群雷达通信一体化资源分配方法 |
CN114142908A (zh) * | 2021-09-17 | 2022-03-04 | 北京航空航天大学 | 一种面向覆盖侦察任务的多无人机通信资源分配方法 |
-
2022
- 2022-03-31 CN CN202210336444.7A patent/CN114679729B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020230137A1 (en) * | 2019-05-16 | 2020-11-19 | B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University | System and method for automated multi-objective policy implementation, using reinforcement learning |
CN113207128A (zh) * | 2021-05-07 | 2021-08-03 | 东南大学 | 强化学习下的无人机集群雷达通信一体化资源分配方法 |
CN114142908A (zh) * | 2021-09-17 | 2022-03-04 | 北京航空航天大学 | 一种面向覆盖侦察任务的多无人机通信资源分配方法 |
Non-Patent Citations (3)
Title |
---|
M. SCHERHAUF等: "Radar distance measurement with Viterbi algorithm to resolve phase ambiguity", 《IEEE TRANS. MICROW. THEORY TECHN》, vol. 68, no. 9, 31 December 2020 (2020-12-31), pages 3784 - 3793, XP011807061, DOI: 10.1109/TMTT.2020.2985357 * |
揭东;汤新民;李博;顾俊伟;戴峥;张阳;刘岩;: "无人机冲突探测及解脱策略关键技术研究", 武汉理工大学学报(交通科学与工程版), no. 05, 15 October 2018 (2018-10-15) * |
王超;马驰;常俊杰;: "基于改进小波神经网络的协同作战能力评估", 指挥信息系统与技术, no. 01, 28 February 2020 (2020-02-28) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115877868A (zh) * | 2022-12-01 | 2023-03-31 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN115877868B (zh) * | 2022-12-01 | 2024-01-26 | 南京航空航天大学 | 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法 |
CN116482673A (zh) * | 2023-04-27 | 2023-07-25 | 电子科技大学 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
CN116482673B (zh) * | 2023-04-27 | 2024-01-05 | 电子科技大学 | 基于强化学习的分布式雷达检测跟踪一体化波形实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114679729B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | Distributed trajectory optimization for multiple solar-powered UAVs target tracking in urban environment by Adaptive Grasshopper Optimization Algorithm | |
Chen et al. | Coordination between unmanned aerial and ground vehicles: A taxonomy and optimization perspective | |
CN108731684B (zh) | 一种多无人机协同区域监视的航路规划方法 | |
CN112180967B (zh) | 基于评判-执行架构的多无人机协同对抗决策方法 | |
Wei et al. | Recurrent MADDPG for object detection and assignment in combat tasks | |
CN113848974B (zh) | 一种基于深度强化学习的飞行器轨迹规划方法及系统 | |
Cao et al. | Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment | |
Li et al. | Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm | |
CN114679729B (zh) | 一种雷达通信一体化的无人机协同多目标探测方法 | |
CN114142908B (zh) | 一种面向覆盖侦察任务的多无人机通信资源分配方法 | |
CN115826601A (zh) | 基于逆向强化学习的无人机路径规划方法 | |
Yan et al. | Flocking control of uav swarms with deep reinforcement leaming approach | |
Cao et al. | Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory | |
Liu | A novel path planning method for aerial UAV based on improved genetic algorithm | |
Zhou et al. | Novel task decomposed multi-agent twin delayed deep deterministic policy gradient algorithm for multi-UAV autonomous path planning | |
Kong et al. | Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
Zhang et al. | Situational continuity-based air combat autonomous maneuvering decision-making | |
Yang et al. | Learning graph-enhanced commander-executor for multi-agent navigation | |
Xu et al. | A deep reinforcement learning approach incorporating genetic algorithm for missile path planning | |
Zhang et al. | Deep reinforcement learning for UAV swarm rendezvous behavior | |
Hu et al. | Transfer reinforcement learning for multi‐agent pursuit‐evasion differential game with obstacles in a continuous environment | |
Shen et al. | Pigeon-inspired optimisation algorithm with hierarchical topology and receding horizon control for multi-UAV formation | |
CN116227622A (zh) | 基于深度强化学习的多智能体地标覆盖方法及系统 | |
Wang et al. | UAV Coverage Path Planning Based on Deep Reinforcement Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |