[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114679729A - 一种雷达通信一体化的无人机协同多目标探测方法 - Google Patents

一种雷达通信一体化的无人机协同多目标探测方法 Download PDF

Info

Publication number
CN114679729A
CN114679729A CN202210336444.7A CN202210336444A CN114679729A CN 114679729 A CN114679729 A CN 114679729A CN 202210336444 A CN202210336444 A CN 202210336444A CN 114679729 A CN114679729 A CN 114679729A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
detection
mth
radar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210336444.7A
Other languages
English (en)
Other versions
CN114679729B (zh
Inventor
郑少秋
张涛
赵朔
冯建航
孔俊俊
张政伟
施生生
蒋飞
朱琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN202210336444.7A priority Critical patent/CN114679729B/zh
Publication of CN114679729A publication Critical patent/CN114679729A/zh
Application granted granted Critical
Publication of CN114679729B publication Critical patent/CN114679729B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W52/00Power management, e.g. TPC [Transmission Power Control], power saving or power classes
    • H04W52/04TPC
    • H04W52/30TPC using constraints in the total amount of available transmission power
    • H04W52/34TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading
    • H04W52/346TPC management, i.e. sharing limited amount of power among users or channels or data types, e.g. cell loading distributing total power among users or channels
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/02Systems using reflection of radio waves, e.g. primary radar systems; Analogous systems
    • G01S13/50Systems of measurement based on relative movement of target
    • G01S13/52Discriminating between fixed and moving objects or between objects moving at different speeds
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供了一种雷达通信一体化的无人机协同多目标探测方法,利用多无人机搭载雷达通信一体化设备进行协同探测,将每个无人机设置为一个智能体,训练一个稳定的探测策略,使用训练好的策略控制多个无人机飞行轨迹以及雷达和通信之间的资源分配,最终快速完成给定的探测任务。本发明将每个智能体观察到的雷达、通信以及无人机飞行状态作为策略生成模块的输入,并使用深度神经网络将每个智能体观察到的状态以及动作映射为随机策略,同时使用策略评价模块评价每个智能体的策略,并通过模块训练获得一个较优的协同策略。本发明通过对多无人机上雷达、通信等资源高效规划实现对指定区域多个目标搜索,大幅提高多目标的搜索发现效率。

Description

一种雷达通信一体化的无人机协同多目标探测方法
技术领域
本发明属于雷达通信一体化、集群协同探测领域,尤其涉及一种雷达通信一体化的无人机协同多目标探测方法。
背景技术
/同探测工作仅仅考虑静态环境下的资源分配,没有工作考虑无人机的轨迹设计,而轨迹设计无人机要发挥机动性和灵活性重要一步。如费泽松、刘鹏和王新奕设计了一种基于功率控制的静态雷达通信一体化UAV网络效用优化方法;陈鹏、汪敏和杨子晗发明了一种强化学习下的无人机集群静态雷达通信一体化资源分配方法。3)无人机在动态环境分配雷达通信资源时经常要时变信道以及观测信息有限的问题,而传统的优化方法很难解决这类问题。如费泽松、刘鹏和王新奕使用博弈论来分配雷达通信一体化UAV的功率。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种雷达通信一体化的无人机协同多目标探测方法,包括以下步骤:
步骤1,对无人机协同多目标探测问题进行建模;
步骤2,设计多智能体协同检测方案。
步骤1包括:
步骤1-1,定义问题;
步骤1-2,设计无人机飞行轨迹约束;
步骤1-3,对无人机雷达通信一体化下资源分配进行设计;
步骤1-4,衡量无人机雷达和通信的性能;
步骤1-5,进行多无人机协同探测强化学习建模;
步骤1-6,设计策略学习模块和策略评价模块。
步骤1-1包括:设定每个无人机为一个智能体,所有智能体协同完成区域的探测任务,各无人机将探测获得的信息通过通信链路实时发送给控制中心,总的探测时间为T,期望在探测时间内在给定区域内通过分配雷达和通信资源以及无人机的轨迹来最大化无人机和控制中心的数据率以及最大化探测性能,其中探测性能由所有目标的探测公平性来表述。
步骤1-2包括:将整个探测时间分为S个时隙,每时隙的持续时间为τ,在每个时隙开始的一小段时间内每个智能体完成探测和通信任务,其他时间用于飞行;在这里,用于通信和探测的时间由分配给这二者的信道带宽决定,假设分配给二者的信道带宽为x赫兹,则执行时间为1/x。一般这个时间远小于τ。
在每个飞行间隔,每个无人机能够朝着θm(t)∈[0,2π)方向飞行lm(t)∈[0,lMax]距离,其中lMax代表τ时间内一个无人机能够飞行的最远距离,这个距离由无人机的型号决定;对于一个坐标为[xm(0),ym(0)]出发的智能体,在t时刻内的移动表示为:
Figure BDA0003574483560000021
其中,lm(t)代表第t个时隙内,第m个无人机实际移动的距离;θm(t′)代表在第t′个时隙内,第m个无人机的飞行方向;
设定无人机只能在[XMin,XMax]×[YMin,YMax]的范围内飞行,因此有:
XMin≤xm(t)≤XMax
YMin≤ym(t)≤YMax
其中,XMin,XMax,YMin,YMax分别表示无人机移动坐标在x轴移动最小值、在x轴移动最大值、在y轴移动最小值、在y轴移动最大值;这里使用的是原点为0的三维直角坐标系,x-y轴表示地面,在x轴方向上,无人机可以飞行的最小值和最大值为XMin,XMax,在y轴方向上,每个无人机可以飞行的的最小值和最大值为YMin,YMax。z轴的正半轴表示无人机的飞行高度。
为无人机之间设定了安全距离,表示为:
dmm′(t)≥DS
其中,dmm′(t)表示在第t个时隙,第m个无人机到第m’个无人机的距离;DS表示任意两个无人机之间的安全距离。
步骤1-3包括:为每个无人机雷达和通信过程分配的资源为发射功率和信道:
对于给定的总发射功率P,使用一个功率分配因子为雷达探测和通信功能分配相应的功率,
Figure BDA0003574483560000031
表示t时刻分配给第m个无人机的通信功率,
Figure BDA0003574483560000032
Figure BDA0003574483560000033
表示t时刻分配给第m个无人机的雷达发射功率,βm(t)表示t时刻第m个智能体的功率分配因子;
对于总的K个信道,ρmk(t)表示t时刻第k个信道的选择,ρmk(t)=1时第m个智能体选择第k个信道,ρmk(t)=0时第m个智能体不选择第k个信道。
步骤1-4包括:
根据在t时刻为第m个无人机分配的功率
Figure BDA0003574483560000034
使用如下雷达方程估计每个智能体的探测范围:
Figure BDA0003574483560000035
其中,B表示无人机通信信道带宽;φm(t)表示第m个无人机在第t个时隙内可以探测的最远距离;GTx和GRx分别表示传输的增益和接收天线的增益,λ表示发射信号波长,σ表示有效探测面积,Γ表示玻尔兹曼常数,T0表示热力学温度,F和γ分别表示雷达噪声和探测损失,ΦMin表示无人机探测的最小信噪比;
定义第m个智能体探测到第n个的条件为:φm(t)≥dmn(t),其中dmn(t)表示t时刻时第m个智能体与第n个目标之间的距离;
定义探测得分εn(t)为:
Figure BDA0003574483560000036
其中,cn(t)表示截止t时刻第n个目标被探测到的次数;
定义目标被探测的公平性g(t)为:
Figure BDA0003574483560000037
其中,N代表被探测目标总个数。
步骤1-5包括:使用一个5元组
Figure BDA0003574483560000038
来描述决策过程,其中
Figure BDA0003574483560000039
指每个智能体的观察空间,
Figure BDA00035744835600000310
指所有智能体的联合状态空间,
Figure BDA00035744835600000311
指智能体的动作空间,
Figure BDA00035744835600000312
指智能体的奖励函数,
Figure BDA00035744835600000313
指每个智能体的转移概率;
观察空间
Figure BDA00035744835600000314
定义为第m个智能体当前时刻坐标(xm(t),ym(t)),上一时刻移动的距离lm(t-1),方向θm(t-1),上一时刻为无人机的通信功能分配的信道ρm(t-1),上一时刻的通信和雷达功率分配因子βm(t-1),上一时刻获得的通信数据率Rm(t-1),总体表示为
Figure BDA0003574483560000041
动作空间
Figure BDA0003574483560000042
动作空间定义为当前时刻内第m智能体移动方向θm(t),在该方向上能够移动的距离lm(t),通信信道分配因子ρm(t)和功率分配因子βm(t),总体表示为
Figure BDA0003574483560000043
奖励函数
Figure BDA0003574483560000044
定义了所有智能体的探测奖励和错误行为的惩罚,表示为
Figure BDA0003574483560000045
Figure BDA0003574483560000046
其中,Rm(t)表示t时刻第m个智能体测到的通信数据率;
Figure BDA0003574483560000047
Figure BDA0003574483560000048
分别表示第m个无人机越过边界获得的惩罚,无人机之间相互碰撞获得的惩罚和雷达无法覆盖到地面获得的惩罚;
状态空间
Figure BDA0003574483560000049
包含所有智能体的观察信息,表示为
Figure BDA00035744835600000410
转移概率
Figure BDA00035744835600000411
表示为
Figure BDA00035744835600000412
其中
Figure BDA00035744835600000419
代表所有智能体的联合动作。
步骤1-6包括:为每个无人机配置一个策略学习模块和一个策略评价模块,其中,所述策略学习模块用于策略的生成,所述策略评价模块用于评价生成的策略;
所述策略学习模块包括第m个无人机的在线策略网络πθm(o,a),历史策略网络
Figure BDA00035744835600000414
优化器和损失函数;o和a分别代表无人机状态的集合和动作的集合;
所述在线策略网络用于生成随机策略,将每个智能体的收集到状态和相应的动作通过神经网络映射为策略分布,采用高斯模型作为策略分布;
历史策略网络用于重复利用每个智能体收集到的历史经验从而增强每个智能体的采样效率,每个智能体的损失函数设置为每个智能体的期望回报J(θm),表示为
Figure BDA00035744835600000415
其中θm代表第m个智能体中策略网络的参数,
Figure BDA00035744835600000416
表示期望函数,
Figure BDA00035744835600000417
表示当前策略和历史策略之间的概率比;函数fCL用于将χ(θm)限制在[1-∈,1+∈],表示为
Figure BDA00035744835600000418
∈代表限制参数;
Figure BDA0003574483560000051
代表优势函数;
所述策略评价模块通过生成优势函数来评价每个智能体获得的策略,优势函数表示为
Figure BDA0003574483560000052
其中
Figure BDA0003574483560000053
代表第个m智能体中评价网络值函数,ω代表相应评价网络的参数,γ代表折扣因子;
Figure BDA0003574483560000054
表示t时刻第m个无人机获得的奖励;
通过引入状态熵函数来增强智能体在环境中的探索行为,状态熵函数表示为
Figure BDA0003574483560000055
其中
Figure BDA0003574483560000056
代表在线策略π的熵函数。
步骤2包括:
步骤2-1,初始化模型参数:初始化不同模块的参数,包括在线策略网络的参数θm、历史策略网络的参数
Figure BDA0003574483560000057
评价网络的参数ωm、策略网络的学习率βA、评价网络的学习率βI和折扣因子γ;
步骤2-2,收集样本:
每个无人机观察环境后获得观察向量
Figure BDA0003574483560000058
包括每个无人机当前时刻的坐标和上一时刻每个无人机的移动信息,表示为
Figure BDA0003574483560000059
Figure BDA00035744835600000510
步骤2-3,将观察向量输入深度神经网络获得在线策略分布,然后从在线策略分布中采样得到相应的动作向量:
采样获得的动作向量总体表示为
Figure BDA00035744835600000511
采用高斯模型作为策略分布,对于第m个无人机,其在线策略分布πθm(o,a)表示为:
Figure BDA00035744835600000512
其中,om和am分别表示第m个智能体观察到的状态和执行的动作;μ和σ分别代表均值和标准差函数;
步骤2-4,动作采样和执行:
为每个无人机的通信过程分配Pβ(t)的功率,为雷达过程分配(1-β(t))P雷达发射功率,选择第
Figure BDA00035744835600000513
个信道,其中
Figure BDA00035744835600000514
表示上取整函数;
控制每个无人机在θm(t)的方向上飞行lm(t)的距离;
步骤2-5,检测惩罚行为:
为每个无人机定义三种惩罚行为,包括越过边界、相互碰撞和无法覆盖到地面;
Figure BDA0003574483560000061
分别表示第m个无人机越过边界获得的惩罚,表示为:
Figure BDA0003574483560000062
其中,Ξ1表示惩罚值;
Figure BDA0003574483560000063
表示第m个无人机和第m′个无人机之间相互碰撞获得的惩罚,表示为:
Figure BDA0003574483560000064
其中,Ξ2表示惩罚值;dmm′(t)表示第m个无人机和第m′个无人机之间的距离,DS限定了任意两个无人机之间的安全距离;
Figure BDA0003574483560000065
表示第m个无人机无法覆盖到地面获得的惩罚,表示为:
Figure BDA0003574483560000066
其中,Ξ3表示惩罚值;H表示能够探测的最远距离;
通过统计每个无人机获得的惩罚,计算每个无人机获得的最终奖励
Figure BDA0003574483560000067
当前时隙的动作完成后,每个无人机在下一时隙开始时观察得到状态
Figure BDA0003574483560000068
检查第m个无人机是否出现三种惩罚行为,如果出现,下一时刻状态回滚到当前状态
Figure BDA0003574483560000069
步骤2-6,生成联合状态信息:
每个无人机将各自的状态信息发送给信息融合中心,信息融合中心整合所有观察信息
Figure BDA00035744835600000610
并给每个无人机发送当前时刻的状态信息;
Figure BDA00035744835600000611
代表无人机集合;
每个无人机不断重复步骤2-2到步骤2-6,直到获得第j个批次,总共NB个观察信息Bs,j、状态信息
Figure BDA00035744835600000612
动作信息
Figure BDA00035744835600000613
第j个批次奖励表示为
Figure BDA00035744835600000614
步骤2-7,更新网络参数。
步骤2-7包括:使用
Figure BDA00035744835600000615
更新策略生成网络的参数θm,表示为:
Figure BDA00035744835600000616
其中,LAm)=J(θm)+fEm)表示策略网络的损失函数,
Figure BDA0003574483560000071
表示梯度;
将在线策略网络中的参数直接复制到历史策略网络中
Figure BDA0003574483560000072
πθ表示从在线网络中获得的策略,
Figure BDA0003574483560000073
表示智能体的历史策略;
使用Bs,j,Br,j更新参数φ,使用Bs,j
Figure BDA0003574483560000074
更新评价网络的参数
Figure BDA0003574483560000075
Figure BDA0003574483560000076
βI表示评价网络的学习率,AIm)表示优势函数,
Figure BDA0003574483560000077
表示对ωm的梯度;
重复步骤2-1到步骤2-7,如果所有目标都被探测到,或者是一个训练轮次结束,则进行新一轮的训练,直到所有无人机完成所有轮次的训练。
针对现有无人机集群协同目标探测方法存在的问题,本发明提出的方法,一是将雷达通信一体设计方法,通信功能和探测功能共用雷达频谱,解决通信频谱资源紧张的难题,同时减少无人机负载,节约硬件成本,降低无人机重量;二是,针对雷达通信资源干扰问题以及资源规划问题,设计同一检测信号波形完成通信和雷达功能,并基于强化学习智能进行雷达通信资源统一规划,提高动态复杂场景自适应性;三是雷达通信资源规划时,对无人机集群中每个无人机的速度和方向进行了实时控制,设计面向非完全信息搜索的多智能体策略控制无人机的飞行轨迹,避免无人机之间的碰撞和飞出检测区域,并保证了对未知环境搜索的适应性。四是针对给定环境中有多个目标等待被探测时,为避免仅探测部分目标,对于远距离边缘未知目标难以探测问题,提出地理公平性指标衡量目标被探测的公平性,通过最大化该指标来保证所有目标都可以被探测到。
本发明的意义在于不同于以往的基于视觉的探测方法,该发明使用雷达探测目标,解决了常见的视觉探测对环境条件敏感的问题。同时,使用雷达和通信一体化技术辅助探测过程,使无人机只需要携带一个设备就可以完成雷达探测和通信功能,并通过设计多智能体深度强化学习调节无人机的飞行参数和为雷达和通信功能分配不同的资源来进行高效地目标检测。
本发明与现有技术相比,显著优点是:(1)考虑雷达通信一体辅助下的动态环境探测,充分发挥了无人机的机动性和灵活性;(2)使用深度学习技术学习探测策略,使本发明可以应用到大规模复杂探测任务中;(3)设计多智能体强化学习来驱动无人机之间的协同探测,使多个无人机能高效地完成探测任务。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为雷达通信一体辅助无人机协同目标探测流程图。
图2为本发明提出的雷达通信一体辅助下的多无人机协同检测模型示意图。
图3是本发明方法概念图。
具体实施方式
如图1、图2、图3所示,本发明提供了一种雷达通信一体化的无人机协同多目标探测方法,该方案无人机轨迹控制和资源控制为基础,强化学习为辅助,多无人机协同探测场景如图3所示,每个无人机配备雷达通信双功能设备,探测给定区域的目标,同时与一个信息融合中心保持通信。在每个无人机的控制器中配置多智能体深度强化学习算法,学习每个智能体在环境中观察到的信息,同时输出相应的动作,方法结构如图2所示。整个控制系统如附图1所示,包括:
步骤1:多智能体协同过程定义
本发明首先将多无人机协同探测过程定义为一个马尔科夫决策过程。该过程使用一个5元组
Figure BDA0003574483560000081
来描述,其中
Figure BDA0003574483560000082
指每个智能体的观察空间,
Figure BDA0003574483560000083
指所有智能体的联合状态空间,
Figure BDA0003574483560000084
指智能体的动作空间,
Figure BDA0003574483560000085
指智能体的奖励函数,
Figure BDA0003574483560000086
指每个智能体的转移概率。
(1)观察空间
Figure BDA0003574483560000087
观察空间
Figure BDA0003574483560000088
包含7个元素,分别为第m个智能体当前时刻坐标(xm(t),ym(t)),上一时刻移动的距离lm(t-1),方向θm(t-1),上一时刻为无人机的通信功能分配的信道ρm(t-1),上一时刻的通信和雷达功率分配因子βm(t-1),当前时刻获得的通信数据率Rm(t)。
即,第m个智能体在第t时刻的观察可以表示为
Figure BDA0003574483560000089
Figure BDA00035744835600000810
(2)动作空间
Figure BDA00035744835600000811
动作空间
Figure BDA00035744835600000812
定义为当前时刻内第m智能体移动方向θm(t),在该方向上可以移动的距离lm(t),通信信道分配因子ρm(t)和功率分配因子βm(t)。即,第m个智能体在第t时刻的动作表示为:
Figure BDA0003574483560000091
(3)奖励函数
Figure BDA0003574483560000092
奖励函数
Figure BDA0003574483560000093
定义了所有智能体的探测奖励和错误行为的惩罚,第m个智能体在第t时刻的观察表示为:
Figure BDA0003574483560000094
其中,Rm(t)表示t时刻第m个智能体测到的通信数据率;
Figure BDA0003574483560000095
Figure BDA0003574483560000096
分别表示第m个无人机越过边界,无人机之间相互碰撞以及雷达无法覆盖到地面获得的惩罚;g(t)表示当前时刻获得地理公平性,计算方法为:
Figure BDA0003574483560000097
其中,N代表被探测目标总个数。cn(t)表示截止t时刻,第n个目标被探测到的次数。
(4)状态空间
Figure BDA0003574483560000098
状态空间
Figure BDA0003574483560000099
包含所有智能体的观察信息,表示为:
Figure BDA00035744835600000910
其中,
Figure BDA00035744835600000911
代表无人机集合。
(5)转移概率
Figure BDA00035744835600000912
转移概率
Figure BDA00035744835600000913
表示为:
Figure BDA00035744835600000914
其中,
Figure BDA00035744835600000915
代表所有智能体的联合动作。
步骤2:初始化模型参数
初始化不同模块的参数,包括在线策略网络的参数θm、历史策略网络的参数
Figure BDA00035744835600000916
分布式方案的评价网络的参数ωm、策略网络的学习率βA、评价网络的学习率βI和折扣因子γ。这里,策略网络和评价网络使用的参数都是随机初始化。策略网络和学习网络的学习率是一个影响学习效果的重要参数,设置过小的学习率容易使算法收敛得非常缓慢,设置过大的学习率则容易使算法收敛到局部最优点,因此这两个参数要做多次实验来调试,一般的做法是先设置一个很小的学习率,比如0.000001,然后逐渐增大该值,直到算法可以快速地收敛到一个较大的总平均奖励为止。当调试好学习率后,折扣因子也可以用类似的方法来调试,先设置一个较高的值,比如0.99,每次减小0.01或者0.02,直至算法收敛一个较大的总平均奖励为止。
各项参数调试完毕以后,即可进入在线学习阶段。
步骤3:样本收集
首先每个无人机需要收集充足的样本用于策略网络和评价网络的训练。
每m个无人机首先需要确定当前的位置坐标,即xm(t),ym(t),这个位置可以通过无人机上携带的GPS定位装置获得。
此外,每m个无人机需要从内存中提取上一时刻移动的距离lm(t-1)、上一时刻移动的方向θm(t-1)、上一时刻分配的通信信道ρm(t-1)、和上一时刻的功率分配因子βm(t-1)和上一时刻的数据率Rm(t-1)。值得注意的是,当无人机在0时刻收集样本时,上一时刻的样本为随机样本,一般从一个0~1的随机数生成器中取值。
因此,在采样步骤下,第m个无人机输出的观察信息表示为:
Figure BDA0003574483560000101
步骤4:生成在线策略分布。并将观察向量输入深度神经网络获得在线策略分布,然后从策略分布中采样得到相应的动作向量。
该步骤的输入为上一步骤收集的观察信息。因此对于第m个无人机来说,输入的观察值序列为
Figure BDA0003574483560000102
接着将观察值序列输入到决策神经网络中输出相应的策略分布,本发明采用高斯分布来拟合策略分布,表示为:
Figure BDA0003574483560000103
其中,μ和σ代表均值和标准差函数。
步骤5:动作采样和执行
首先从获得的策略分布πθm(o,a)中采样输出动作向量,即当前时刻第m个无人机需要移动的距离lm(t)、需要偏转的方向θm(t)、当前时刻为第m个无人机与信息融合中心通信分配的信道ρm(t)和功率分配因子总体表示为:
Figure BDA0003574483560000111
然后第m个无人机执行获得的工作。
首先为其通信过程分配
Figure BDA0003574483560000112
的功率,为雷达过程分配
Figure BDA0003574483560000113
Figure BDA0003574483560000114
雷达发射功率。
选择第
Figure BDA0003574483560000115
个信道,其中
Figure BDA0003574483560000116
表示上取整函数。K表示可选的信道总数。
第m个无人机使用分配的信道和功率资源来执行雷达探测和通信过程。
对于雷达探测过程来说,输入信息为当前时刻的功率
Figure BDA0003574483560000117
输出为对N个目标的探测公平性g(t),具体过程为:
首先,估计出第m个无人机的的探测范围,表示为:
Figure BDA0003574483560000118
其中,φm(t)表示第m个无人机在第t个时隙内的最大探测范围。B表示无人机的通信信道带宽。GTx和GRx分别表示传输的增益和接收天线的增益,λ表示发射信号波长,σ表示有效探测面积,Γ表示玻尔兹曼常数,T0表示热力学温度,F和γ分别表示雷达噪声和探测损失,ΦMin表示无人机测的最小信噪比;在这些参数中,GTx、GRx、Γ、T0为定值,其他参数可通过雷达信号处理设备来测量获得。
只有目标在雷达探测范围内才可以被无人机即探测到,因此对于第m个智能体探测到第n个的条件为:φm(t)≥dmn(t),其中dmn(t)表示t时刻时第m个智能体与第n个目标之间的距离;
接着,第m个无人机使用分配的通信功率
Figure BDA0003574483560000119
和信道
Figure BDA00035744835600001110
执行与信息融合中心的通信,将雷达探测信道发送给信息融合中心,并在这个过程中测量该通信过程中的数据率Rm(t)。
信息融合中心根据所有无人机收集到的探测信息,计算出每个目标被探测的次数,然后计算出当前时刻所有无人机的探测得分εn(t):
Figure BDA00035744835600001111
其中,cn(t)表示截止t时刻第n个目标被探测到的次数;
接着计算探测公平性g(t):
Figure BDA0003574483560000121
其中,N代表被探测目标总个数。
然后,将计算后的探测公平性值发送给每一个无人机。
最后,每个无人机根据分配的方向θm(t)的方向上飞行lm(t)的距离。
步骤6:惩罚行为检测
根据步骤5获得的动作,为违规策略设置惩罚值,包括越过边界、互相碰撞以及雷达失去覆盖。这一步的意义在于,为每个无人机产生的不合规策略设置负奖励,这样为了最大化自身的奖励,无人机必须逐步学习合规的策略,直至寻找到最优策略。
首先,如果第m个无人机越过给定的边界,设置越界惩罚,表示为:
Figure BDA0003574483560000122
其中,Ξ1表示惩罚值;XMin,XMax,YMin,YMax限定了无人机的移动范围。
然后,如果第m个无人机和第m′无人机之间相互碰撞,设置碰撞惩罚,表示为:
Figure BDA0003574483560000123
其中,Ξ2表示惩罚值;dmm′(t)表示第m个无人机和第m′个无人机之间的距离。DS限定了任意两个无人机之间的安全距离。
接着,如果第m个无人机无法覆盖到地面获得的惩罚,表示为:
Figure BDA0003574483560000124
其中,Ξ3表示惩罚值;H表示无人机的飞行高度。
这里的Ξ1、Ξ2和Ξ3根据无人机获得奖励来设置,不能设置的太小,可以设置为总奖励的0.1倍,比如总奖励为100,惩罚值可以设置为10。
通过统计每个无人机获得的惩罚,计算每个无人机获得的最终奖励,即
Figure BDA0003574483560000125
当前时刻的动作完成后,每个无人机在下一时隙开始时观察得到状态
Figure BDA0003574483560000126
检查第m个无人机是否出现越过边界,碰撞或者失去雷达负载这三种惩罚行为,若出现,下一时刻状态回滚剑当前状态
Figure BDA0003574483560000127
步骤7:生成联合状态信息
这一步骤的输入为每个无人机的观察信息
Figure BDA0003574483560000131
动作信息
Figure BDA0003574483560000132
和获得奖励
Figure BDA0003574483560000133
输出为一个批次的数据。
每个无人机将各自的状态信息发送给信息融合中心,信息融合中心整合所有观察信息
Figure BDA0003574483560000134
并给每个无人机发送当前时刻的状态信息。
每个无人机不断重复步骤2到步骤7,直到获得第j个批次,总共NB个观察信息、状态信息、动作信息,表示为Bs,j
Figure BDA0003574483560000135
第j个批次奖励表示为
Figure BDA0003574483560000136
NB的大小一般越大收敛效果越好,因为批次越大意味着有更多的数据被用于训练,但不能大于一幕(episode)总的训练次数,可以一开始设置一个较大的值逐步减小来调节。
步骤8:网络参数更新
该步骤用于更新策略网络和评价案例的参数,即θm和ωm。输入为步骤7获得的批次数据,输出为训练好的网络参数。
策略网络的参数更新分为在线策略网络的更新和历史策略网络的更新。
首先更新历史策略网络的参数。该网络主要用于保存已有在线网络中的参数,不参与训练过程,因此直接将现有的在线网络的参数复制一份给历史策略网络,表示为:
Figure BDA0003574483560000137
Figure BDA0003574483560000138
代表历史策略,主要用于重复利用每个智能体收集到的历史经验从而增强每个智能体的采样效率。
接着使用
Figure BDA0003574483560000139
更新策略生成网络的参数θm,表示为:
Figure BDA00035744835600001310
其中,LAm)=J(θm)+fEm)表示策略网络的损失函数,
Figure BDA00035744835600001311
表示梯度。
J(θm)代表第m个智能体的损失函数设置为每个智能体的期望回报,表示为
Figure BDA00035744835600001312
其中θm代表第m个智能体中在线策略网络的参数,
Figure BDA00035744835600001313
表示当前策略和历史策略之间的概率比;函数fCL用于将χ(θm)限制在[1-∈,1+∈],表示为
Figure BDA0003574483560000141
∈代表限制参数,一般取0.2;
Figure BDA0003574483560000142
代表优势函数,用于评价每个智能体获得的策略,表示为
Figure BDA0003574483560000143
Figure BDA0003574483560000144
其中
Figure BDA0003574483560000149
代表第m智能体中评价网络值函数。
fEm)代表状态熵函数,用于增强智能体在环境中的探索行为,表示为
Figure BDA0003574483560000145
这里
Figure BDA0003574483560000146
代表在线策略π的熵函数。
最后使用Bs,j
Figure BDA0003574483560000147
更新策略评价网络的参数ωm,有
Figure BDA0003574483560000148
重复以上步骤1到步骤8,如果所有目标都被探测到,或者是一个训练轮次结束,则进行新一轮的训练,直到所有无人机完成所有轮次的训练。
实施例
首先为无人机的探测划定探测范围,通过为每个无人机装配的GPS定位装置,可以使每个无人机实时获得当前时刻的坐标,当某个时刻该坐标超出探测范围时,通过算法调整无人机的学习行为,从而使无人机避免越出边界。
然后利用马尔科夫模型定义多个无人机之间的协同过程。设置无人机的可探测范围为2000m×2000m,无人机的数目M为10,待探测的目标为100个,从开始探测到结束探测所用的最长时间步数T为200,每一步持续时间为5分钟。此外,还要为每个无人机设置在一个时间步内飞行的最远距离和最大角度,这里设置最远距离l为20m米,最大角度θ为360度。接着每个无人机首先获得环境信息,包括当前时刻的坐标信息、上一时间步内的移动距离、上一时间步内的的移动方向、上一时间步内的功率分配因子以及上一时间步内的数据率。注意,这些信息在第1个时间步内需要根据每个值的大概取值范围随机取一个值,比如最大飞行距离为20m,这里首次飞行距离可以取5m。接着将这些信息输入多智能体强化学习中学习出每个无人机在当前时间步内的动作,包括当前时间步内无人机需要飞行的的距离,当前时间步内无人机需要飞行的角度,当前时间步内分配的信道以及功率分配因子。
接着每个无人机执行学习到的动作并更新学习网络。当每个无人机通过学习算法获得当前时间步内的飞行距离l,飞行角度θ,信道分配和功率分配因子。首先每个无人机通过雷达通信一体设备探测周围是否存在目标,这里的探测范围是由为雷达功能分配的功率决定的,然后每个无人机通过分配的信道将获得的雷达探测信息发送给控制中心,控制中心汇总所有无人机的信息后将所有信息发送给每个无人机。接着每个无人机使用该信息计算该学习行为获得的回报,这个回报包括测得的通信数据率,所有目标探测的公平性,无人机是否存在碰撞和穿越边界,雷达无法覆盖地面,注意这里的无法覆盖是由为雷达分配过小的功率导致的。然后每个无人机根据计算的回报信息更新各自的学习网络,最后每个无人机在飞行角度θ上飞行l m。通过上述过程,每个无人机不断在环境中学习,最终可以学习到一个稳定的策略,这个策略即为学习到的无人机协同多目标探测方法。
本发明提供了一种雷达通信一体化的无人机协同多目标探测方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (7)

1.一种雷达通信一体化的无人机协同多目标探测方法,其特征在于,包括以下步骤:
步骤1,对无人机协同多目标探测问题进行建模;
步骤2,设计多智能体协同检测方案。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤1-1,定义问题;
步骤1-2,设计无人机飞行轨迹约束;
步骤1-3,对无人机雷达通信一体化下资源分配进行设计;
步骤1-4,衡量无人机雷达和通信的性能;
步骤1-5,进行多无人机协同探测强化学习建模;
步骤1-6,设计策略学习模块和策略评价模块。
3.根据权利要求2所述的方法,其特征在于,步骤1-1包括:设定每个无人机为一个智能体,所有智能体协同完成区域的探测任务,各无人机将探测获得的信息通过通信链路实时发送给控制中心,总的探测时间为T,期望在探测时间内在给定区域内通过分配雷达和通信资源以及无人机的轨迹来最大化无人机和控制中心的数据率以及最大化探测性能,其中探测性能由所有目标的探测公平性来表述。
4.根据权利要求3所述的方法,其特征在于,步骤1-2包括:将整个探测时间分为S个时隙,每时隙的持续时间为τ;
在每个飞行间隔,每个无人机能够朝着θm(t)∈[0,2π)方向飞行lm(t)∈[0,lMax]距离,其中lMax代表τ时间内一个无人机能够飞行的最远距离,这个距离由无人机的型号决定;对于一个坐标为[xm(0),ym(0)]出发的智能体,在t时刻内的移动表示为:
Figure FDA0003574483550000011
其中,lm(t)代表第t个时隙内,第m个无人机实际移动的距离;θm(t′)代表在第t′个时隙内,第m个无人机的飞行方向;
设定无人机只能在[XMin,XMax]×[YMin,YMax]的范围内飞行,因此有:
XMin≤xm(t)≤XMax
YMin≤ym(t)≤YMax
其中,XMin,XMax,YMin,YMax分别表示无人机移动坐标在x轴移动最小值、在x轴移动最大值、在y轴移动最小值、在y轴移动最大值;
为无人机之间设定了安全距离,表示为:
dmm′(t)≥DS
其中,dmm′(t)表示在第t个时隙,第m个无人机到第m’个无人机的距离;DS表示任意两个无人机之间的安全距离。
5.根据权利要求4所述的方法,其特征在于,步骤1-3包括:为每个无人机雷达和通信过程分配的资源为发射功率和信道:
对于给定的总发射功率P,使用一个功率分配因子为雷达探测和通信功能分配相应的功率,
Figure FDA0003574483550000021
表示t时刻分配给第m个无人机的通信功率,
Figure FDA0003574483550000022
Figure FDA0003574483550000023
表示t时刻分配给第m个无人机的雷达发射功率,βm(t)表示t时刻第m个智能体的功率分配因子;
对于总的K个信道,ρmk(t)表示t时刻第k个信道的选择,ρmk(t)=1时第m个智能体选择第k个信道,ρmk(t)=0时第m个智能体不选择第k个信道。
6.根据权利要求5所述的方法,其特征在于,步骤1-4包括:
根据在t时刻为第m个无人机分配的功率
Figure FDA0003574483550000024
使用如下雷达方程估计每个智能体的探测范围:
Figure FDA0003574483550000025
其中,B表示无人机通信信道带宽;φm(t)表示第m个无人机在第t个时隙内可以探测的最远距离;GTx和GRx分别表示传输的增益和接收天线的增益,λ表示发射信号波长,σ表示有效探测面积,Γ表示玻尔兹曼常数,T0表示热力学温度,F和Υ分别表示雷达噪声和探测损失,ΦMin表示无人机探测的最小信噪比;
定义第m个智能体探测到第n个的条件为:φm(t)≥dmn(t),其中dmn(t)表示t时刻时第m个智能体与第n个目标之间的距离;
定义探测得分εn(t)为:
Figure FDA0003574483550000026
其中,cn(t)表示截止t时刻第n个目标被探测到的次数;
定义目标被探测的公平性g(t)为:
Figure FDA0003574483550000031
其中,N代表被探测目标总个数。
7.根据权利要求6所述的方法,其特征在于,步骤1-5包括:使用一个5元组
Figure FDA0003574483550000032
来描述决策过程,其中
Figure FDA0003574483550000033
指每个智能体的观察空间,
Figure FDA0003574483550000034
指所有智能体的联合状态空间,
Figure FDA0003574483550000035
指智能体的动作空间,
Figure FDA0003574483550000036
指智能体的奖励函数,
Figure FDA0003574483550000037
指每个智能体的转移概率;
观察空间
Figure FDA0003574483550000038
定义为第m个智能体当前时刻坐标(xm(t),ym(t)),上一时刻移动的距离lm(t-1),方向θm(t-1),上一时刻为无人机的通信功能分配的信道ρm(t-1),上一时刻的通信和雷达功率分配因子βm(t-1),上一时刻获得的通信数据率Rm(t-1),总体表示为
Figure FDA0003574483550000039
动作空间
Figure FDA00035744835500000310
动作空间定义为当前时刻内第m智能体移动方向θm(t),在该方向上能够移动的距离lm(t),通信信道分配因子ρm(t)和功率分配因子βm(t),总体表示为
Figure FDA00035744835500000311
奖励函数
Figure FDA00035744835500000312
定义了所有智能体的探测奖励和错误行为的惩罚,表示为
Figure FDA00035744835500000313
Figure FDA00035744835500000314
其中,Rm(t)表示t时刻第m个智能体测到的通信数据率;
Figure FDA00035744835500000315
Figure FDA00035744835500000316
分别表示第m个无人机越过边界获得的惩罚,无人机之间相互碰撞获得的惩罚和雷达无法覆盖到地面获得的惩罚;
状态空间
Figure FDA00035744835500000317
包含所有智能体的观察信息,表示为
Figure FDA00035744835500000318
转移概率
Figure FDA00035744835500000319
表示为
Figure FDA00035744835500000320
其中
Figure FDA00035744835500000321
代表所有智能体的联合动作。
CN202210336444.7A 2022-03-31 2022-03-31 一种雷达通信一体化的无人机协同多目标探测方法 Active CN114679729B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210336444.7A CN114679729B (zh) 2022-03-31 2022-03-31 一种雷达通信一体化的无人机协同多目标探测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210336444.7A CN114679729B (zh) 2022-03-31 2022-03-31 一种雷达通信一体化的无人机协同多目标探测方法

Publications (2)

Publication Number Publication Date
CN114679729A true CN114679729A (zh) 2022-06-28
CN114679729B CN114679729B (zh) 2024-04-30

Family

ID=82076975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210336444.7A Active CN114679729B (zh) 2022-03-31 2022-03-31 一种雷达通信一体化的无人机协同多目标探测方法

Country Status (1)

Country Link
CN (1) CN114679729B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115877868A (zh) * 2022-12-01 2023-03-31 南京航空航天大学 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法
CN116482673A (zh) * 2023-04-27 2023-07-25 电子科技大学 基于强化学习的分布式雷达检测跟踪一体化波形实现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020230137A1 (en) * 2019-05-16 2020-11-19 B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University System and method for automated multi-objective policy implementation, using reinforcement learning
CN113207128A (zh) * 2021-05-07 2021-08-03 东南大学 强化学习下的无人机集群雷达通信一体化资源分配方法
CN114142908A (zh) * 2021-09-17 2022-03-04 北京航空航天大学 一种面向覆盖侦察任务的多无人机通信资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020230137A1 (en) * 2019-05-16 2020-11-19 B.G. Negev Technologies And Applications Ltd., At Ben-Gurion University System and method for automated multi-objective policy implementation, using reinforcement learning
CN113207128A (zh) * 2021-05-07 2021-08-03 东南大学 强化学习下的无人机集群雷达通信一体化资源分配方法
CN114142908A (zh) * 2021-09-17 2022-03-04 北京航空航天大学 一种面向覆盖侦察任务的多无人机通信资源分配方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
M. SCHERHAUF等: "Radar distance measurement with Viterbi algorithm to resolve phase ambiguity", 《IEEE TRANS. MICROW. THEORY TECHN》, vol. 68, no. 9, 31 December 2020 (2020-12-31), pages 3784 - 3793, XP011807061, DOI: 10.1109/TMTT.2020.2985357 *
揭东;汤新民;李博;顾俊伟;戴峥;张阳;刘岩;: "无人机冲突探测及解脱策略关键技术研究", 武汉理工大学学报(交通科学与工程版), no. 05, 15 October 2018 (2018-10-15) *
王超;马驰;常俊杰;: "基于改进小波神经网络的协同作战能力评估", 指挥信息系统与技术, no. 01, 28 February 2020 (2020-02-28) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115877868A (zh) * 2022-12-01 2023-03-31 南京航空航天大学 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法
CN115877868B (zh) * 2022-12-01 2024-01-26 南京航空航天大学 无人机在物联网数据收集中抵抗恶意干扰的路径规划方法
CN116482673A (zh) * 2023-04-27 2023-07-25 电子科技大学 基于强化学习的分布式雷达检测跟踪一体化波形实现方法
CN116482673B (zh) * 2023-04-27 2024-01-05 电子科技大学 基于强化学习的分布式雷达检测跟踪一体化波形实现方法

Also Published As

Publication number Publication date
CN114679729B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Wu et al. Distributed trajectory optimization for multiple solar-powered UAVs target tracking in urban environment by Adaptive Grasshopper Optimization Algorithm
Chen et al. Coordination between unmanned aerial and ground vehicles: A taxonomy and optimization perspective
CN108731684B (zh) 一种多无人机协同区域监视的航路规划方法
CN112180967B (zh) 基于评判-执行架构的多无人机协同对抗决策方法
Wei et al. Recurrent MADDPG for object detection and assignment in combat tasks
CN113848974B (zh) 一种基于深度强化学习的飞行器轨迹规划方法及系统
Cao et al. Hunting algorithm for multi-auv based on dynamic prediction of target trajectory in 3d underwater environment
Li et al. Autonomous maneuver decision-making for a UCAV in short-range aerial combat based on an MS-DDQN algorithm
CN114679729B (zh) 一种雷达通信一体化的无人机协同多目标探测方法
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN115826601A (zh) 基于逆向强化学习的无人机路径规划方法
Yan et al. Flocking control of uav swarms with deep reinforcement leaming approach
Cao et al. Autonomous maneuver decision of UCAV air combat based on double deep Q network algorithm and stochastic game theory
Liu A novel path planning method for aerial UAV based on improved genetic algorithm
Zhou et al. Novel task decomposed multi-agent twin delayed deep deterministic policy gradient algorithm for multi-UAV autonomous path planning
Kong et al. Multi-UAV simultaneous target assignment and path planning based on deep reinforcement learning in dynamic multiple obstacles environments
CN115097861B (zh) 一种基于cel-maddpg的多无人机围捕策略方法
Zhang et al. Situational continuity-based air combat autonomous maneuvering decision-making
Yang et al. Learning graph-enhanced commander-executor for multi-agent navigation
Xu et al. A deep reinforcement learning approach incorporating genetic algorithm for missile path planning
Zhang et al. Deep reinforcement learning for UAV swarm rendezvous behavior
Hu et al. Transfer reinforcement learning for multi‐agent pursuit‐evasion differential game with obstacles in a continuous environment
Shen et al. Pigeon-inspired optimisation algorithm with hierarchical topology and receding horizon control for multi-UAV formation
CN116227622A (zh) 基于深度强化学习的多智能体地标覆盖方法及系统
Wang et al. UAV Coverage Path Planning Based on Deep Reinforcement Learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant