CN117872411B - 一种基于强化学习的gnss转发式无人机诱骗时延控制系统 - Google Patents
一种基于强化学习的gnss转发式无人机诱骗时延控制系统 Download PDFInfo
- Publication number
- CN117872411B CN117872411B CN202311798070.1A CN202311798070A CN117872411B CN 117872411 B CN117872411 B CN 117872411B CN 202311798070 A CN202311798070 A CN 202311798070A CN 117872411 B CN117872411 B CN 117872411B
- Authority
- CN
- China
- Prior art keywords
- decoy
- unmanned aerial
- aerial vehicle
- network
- round
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 41
- 230000009471 action Effects 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 34
- 230000006399 behavior Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims abstract description 14
- 230000008569 process Effects 0.000 claims description 18
- 230000001186 cumulative effect Effects 0.000 claims description 11
- 238000013459 approach Methods 0.000 claims description 9
- 230000006872 improvement Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000011217 control strategy Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S19/00—Satellite radio beacon positioning systems; Determining position, velocity or attitude using signals transmitted by such systems
- G01S19/01—Satellite radio beacon positioning systems transmitting time-stamped messages, e.g. GPS [Global Positioning System], GLONASS [Global Orbiting Navigation Satellite System] or GALILEO
- G01S19/13—Receivers
- G01S19/21—Interference related issues ; Issues related to cross-correlation, spoofing or other methods of denial of service
- G01S19/215—Interference related issues ; Issues related to cross-correlation, spoofing or other methods of denial of service issues related to spoofing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B7/00—Radio transmission systems, i.e. using radiation field
- H04B7/14—Relay systems
- H04B7/15—Active relay systems
- H04B7/185—Space-based or airborne stations; Stations for satellite systems
- H04B7/18502—Airborne stations
- H04B7/18506—Communications with or from aircraft, i.e. aeronautical mobile service
- H04B7/18508—Communications with or from aircraft, i.e. aeronautical mobile service with satellite system used as relay, i.e. aeronautical mobile satellite service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/40—Jamming having variable characteristics
- H04K3/41—Jamming having variable characteristics characterized by the control of the jamming activation or deactivation time
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/60—Jamming involving special techniques
- H04K3/65—Jamming involving special techniques using deceptive jamming or spoofing, e.g. transmission of false signals for premature triggering of RCIED, for forced connection or disconnection to/from a network or for generation of dummy target signal
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04K—SECRET COMMUNICATION; JAMMING OF COMMUNICATION
- H04K3/00—Jamming of communication; Counter-measures
- H04K3/80—Jamming or countermeasure characterized by its function
- H04K3/90—Jamming or countermeasure characterized by its function related to allowing or preventing navigation or positioning, e.g. GPS
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Radar, Positioning & Navigation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Aviation & Aerospace Engineering (AREA)
- Astronomy & Astrophysics (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明涉及一种基于强化学习的GNSS转发式无人机诱骗时延控制系统,包括诱骗控制终端和被诱骗无人机;诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行;诱骗控制终端中设置强化学习模型,根据诱骗设定目标位置和无人机的实时状态设置奖励函数,将无人机飞行状态信息输入强化学习模型中,得到诱骗时延决策行为,对转发GNSS卫星信号进行时延控制;诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态,对当前诱骗时延决策行为进行奖励和惩罚,调整下一步的诱骗时延决策行为;根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型。本发明有效提高欺骗效率和成功率。
Description
技术领域
本发明涉及全球卫星导航系统技术领域,涉及一种基于强化学习的GNSS转发式无人机诱骗时延控制系统。
背景技术
如何采取有效措施反制无人机已成为国内外研究的热点和难点问题。
基于全球导航卫星系统(Global Navigation Satellite System,GNSS)的导航是无人机最主要的导航手段之一。针对采用GNSS导航的无人机,压制与欺骗是当前常用的反制手段。其中,转发式欺骗通过接收卫星发送的真实信号,在不改变信号结构和内容的前提下,对接收到的导航卫星信号进行延时转发,使有效范围内的接收机接收到转发的欺骗干扰信号,从而导致其偏航。由于转发式欺骗不需要事先获知测距码的编排结构,同时可相对精确地控制欺骗效果,已成为目前GNSS欺骗的主要手段。
在转发式欺骗中,所加时延的大小直接影响了目标无人机偏航的结果。现有转发式欺骗技术中时延控制算法主要基于实施欺骗后期望的目标定位结果。因此,在实际应用中需要针对欺骗的每个步长下目标无人机的行为重新确定欺骗定位坐标点,这导致转发式欺骗过程的智能化程度较低,在有明确引导目标点的欺骗场景下,欺骗的效率较差。
发明内容
鉴于上述的分析,本发明旨在公开了一种基于强化学习的GNSS转发式无人机诱骗时延控制系统;解决传统方法智能化程度较弱且欺骗效率较低问题。
本发明公开了一种基于强化学习的GNSS转发式无人机诱骗时延控制系统,包括诱骗控制终端和被诱骗无人机;
所述诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行;
所述诱骗控制终端中设置强化学习模型,根据诱骗设定目标位置和无人机的实时状态设置奖励函数,将无人机飞行状态信息输入强化学习模型中,得到诱骗时延决策行为,对转发GNSS卫星信号进行时延控制;
所述诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态,对当前诱骗时延决策行为进行奖励和惩罚,调整下一步的诱骗时延决策行为;并在诱骗计划实施过程中,根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型。
进一步地,所述诱骗控制终端中设置的强化学习模型采用actor-critic方法,包括策略网络和价值网络;其中,
策略网络,根据输入的状态s产生并输出动作α;其中,状态s为被诱骗无人机的当前飞行状态s,动作α为控制无人机下一步飞行状态的诱骗时延决策行为;
价值网络,基于接收的无人机飞行状态s给与之对应的动作α即诱骗时延决策行为进行打分,指导策略网络做出改进。
进一步地,输入策略网络的被诱骗无人机的当前飞行状态为进行归一化的多维飞行状态数据;所述多维飞行状态数据包括无人机位置、无人机速度、与诱骗目标位置的相对距离和与诱骗目标位置的相对角度。
进一步地,策略网络输出的动作α为向无人机转发的GNSS卫星信号的时延量。
进一步地,价值网络在进行诱骗时延决策行为打分过程中惩罚项包括:
当前回合的诱骗时延决策行为控制下的无人机距离目标位置相较于上一回合控制下的无人机距离目标位置远离时,则给予惩罚;
当前回合的诱骗时延决策行为对应的时延量超过时延阈值时,则给予惩罚;
当前回合的诱骗时延决策行为对应的时延量与相邻的上一回合的时延量的差超过了时延跳变阈值,则给予惩罚。
进一步地,价值网络在进行诱骗时延决策行为打分过程中将每个回合执行后无人机与目标位置的接近率和无人机的运行方向与目标位置的相对角度作为回报。
进一步地,在价值网络训练过程中,将从开始回合到当前回合的累积回报,作为当前回合的诱骗时延决策行为的奖励函数。
进一步地,在第N回合的累积回报为:
式中,RN(τ)为第N回合的累积回报,τ为累积的状态信息和动作序列(s0,α0;s1,α1;···;sN,αN),0≤t≤N;
R(st,αt)为针对时延控制系统在第t回合基于状态st执行动作αt后的回报,为第t回合执行后无人机与目标位置的接近率,为第t回合执行后无人机的运行方向与目标位置的相对角度。
进一步地,强化学习模型采用在线训练的方式,在强化学习模型中设置经验回放数组,所述经验回放数组中包括四元组(sj,αj,rj,sj+1);sj为第j个回合的状态,αj为第j个回合的动作,rj为第j个回合获得的奖励,sj+1观测的第j+1个回合的状态;把策略网络和价值网络当前参数记作θnow和ωnow,在进行策略网络和价值网络更新时,从经验回放数组中抽取该回合对应的四元组,进行下一回合的网络更新。
进一步地,价值网络和策略网络更新过程包括:
1)对策略网络进行预测:
αj=μ(sj;θnow),αj+1=μ(sj+1;θnow)
式中,在当前的策略网络μ(sj;θnow)中,用αj来更新θnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络μ(sj+1;θnow)计算αj+1;而从经验回放数组中抽取的αj则是用上一个策略网络μ(sj;θold)计算得到的,θold为策略网络的上一个参数;
2)对价值网络进行预测:训练价值网络的目标是让价值网络的预测逐渐接近真实价值函数;
价值网络q(s,α;ω)输入是状态s和动作α,ω为价值网络参数,价值网络输出的价值,用于反应动作的好坏;预测中,
qj=q(sj,αj;ωnow),qj+1=q(sj+1,αj+1;ωnow)
式中,在当前的策略网络q(sj,αj;ωnow)中,用αj、sj来更新ωnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络q(sj+1,αj+1;ωnow)计算qj+1;
3)计算TD目标和TD误差:
TD目标:yj=rj+γ·qj+1;TD误差:δj=qj-yj;
rj为第j个回合获得的奖励,γ为折扣率;
4)最后更新价值网络和策略网络:
式中λ、β为学习率,使用网格搜索方法取值,通过比较不同学习率下的训练结果,选取表现最优的学习率;为价值网络的参数梯度,为策略网络的参数梯度、为动作梯度。
本发明可实现以下有益效果之一:
1、在转发式欺骗过程中,传统方法智能化程度较弱且欺骗效率较低,采用强化学习模型,通过控制时延改变量从而使无人机与环境交互,从试错中获取经验并不断调整策略来最大化累积奖励,可有效提高欺骗效率和成功率。
2、强化学习模型需要合适的状态信息来描述环境,在GNSS欺骗中,结合了无人机的位置、速度和与目标位置的相对距离和相对角度,提供了较丰富的状态信息。
3、采用无人机相较于目标位置的接近率和相对角度作为奖励函数,而不是仅仅以相对距离进行评估,设置较为合理的奖励函数可引导模型学习最佳的时延控制策略,以最大化欺骗效果。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例中的GNSS转发式无人机诱骗时延控制系统组成示意框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明的一个实施例公开了一种基于强化学习的GNSS转发式无人机诱骗时延控制系统,如图1所示,包括诱骗控制终端和被诱骗无人机;
所述诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行;
所述诱骗控制终端中设置强化学习模型,根据诱骗设定目标位置和无人机的实时状态设置奖励函数,将无人机飞行状态信息输入强化学习模型中,得到诱骗时延决策行为,对转发GNSS卫星信号进行时延控制;
所述诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态,对当前诱骗时延决策行为进行奖励和惩罚,调整下一步的诱骗时延决策行为;并在诱骗计划实施过程中,根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型。
本实施例中诱骗控制终端对被诱骗无人机采用的转发式欺骗干扰,采用转发时延受控的GNSS卫星信号替代真实GNSS卫星信号直接篡改无人机测量伪距的方式,改变无人机的飞行轨迹,使无人机朝向设定的诱骗目标位置飞行。在实施例中通过强化学习模型的在线学习,实现了更加智能的诱骗控制,有效提高欺骗效率和成功率。
具体的,所述诱骗控制终端中设置的强化学习模型采用actor-critic方法,包括策略网络和价值网络;其中,
策略网络,根据输入的状态s产生并输出动作α;其中,状态s为被诱骗无人机的当前飞行状态s,动作α为控制无人机下一步飞行状态的诱骗时延决策行为;
价值网络,基于接收的无人机飞行状态s给与之对应的动作α即诱骗时延决策行为进行打分,指导策略网络做出改进。
具体的,输入策略网络的被诱骗无人机的当前飞行状态为进行归一化的多维飞行状态数据;所述多维飞行状态数据包括无人机位置、无人机速度、与诱骗目标位置的相对距离和与诱骗目标位置的相对角度。
策略网络输出的动作α为向无人机转发的GNSS卫星信号的时延量。
策略网络通过改变诱骗控制终端输出不同的时延,进而达到改变无人机航迹的效果,价值网络基于接收的由诱骗时延决策行为的GNSS卫星信号时延量控制的无人机飞行状态,给该诱骗时延决策行为进行打分,从而指导策略网络做出改进。通过改进策略网络不断调整诱骗时延决策行为,可有效提高欺骗效率和成功率。
优选的,策略网络每个回合输出的动作α为从动作空间中匹配出的一个动作;动作空间中包括多个点的离散化的时延量;策略网络根据输入的飞行状态从动作空间中匹配出一个时延量进行输出。
价值网络在进行诱骗时延决策行为打分过程中惩罚项包括:
当前回合的诱骗时延决策行为控制下的无人机距离目标位置相较于上一回合控制下的无人机距离目标位置远离时,则给予惩罚;
当前回合的诱骗时延决策行为对应的时延量超过时延阈值时,则给予惩罚;
当前回合的诱骗时延决策行为对应的时延量与相邻的上一回合的时延量的差超过了时延跳变阈值,则给予惩罚。
价值网络在进行诱骗时延决策行为打分过程中将每个回合执行后无人机与目标位置的接近率和无人机的运行方向与目标位置的相对角度作为回报。
在价值网络训练过程中,将从开始回合到当前回合的累积回报,作为当前回合的诱骗时延决策行为的奖励函数。
在第N回合的累积回报为:
式中,RN(τ)为第N回合的累积回报,τ为累积的状态信息和动作序列(s0,α0;s1,α1;···;sN,αN),0≤t≤N;
R(st,αt)为针对时延控制系统在第t回合基于状态st执行动作αt后的回报,为第t回合执行后无人机与目标位置的接近率,为第t回合执行后无人机的运行方向与目标位置的相对角度。
强化学习模型采用在线训练的方式,在强化学习模型中设置经验回放数组,所述经验回放数组中包括四元组(sj,αj,rj,sj+1);sj为第j个回合的状态,αj为第j个回合的动作,rj为第j个回合获得的奖励,sj+1观测的第j+1个回合的状态;把策略网络和价值网络当前参数记作θnow和ωnow,在进行策略网络和价值网络更新时,从经验回放数组中抽取该回合对应的四元组,进行下一回合的网络更新。
价值网络和策略网络更新过程包括:
1)对策略网络进行预测:
αj=μ(sj;θnow),αj+1=μ(sj+1;θnow)
式中,在当前的策略网络μ(sj;θnow)中,用αj来更新θnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络μ(sj+1;θnow)计算αj+1;而从经验回放数组中抽取的αj则是用上一个策略网络μ(sj;θold)计算得到的,θold为策略网络的上一个参数;
2)对价值网络进行预测:训练价值网络的目标是让价值网络的预测逐渐接近真实价值函数;
价值网络q(s,α;ω)输入是状态s和动作α,ω为价值网络参数,价值网络输出的价值,用于反应动作的好坏;预测中,
qj=q(sj,αj;ωnow),qj+1=q(sj+1,αj+1;ωnow)
式中,在当前的策略网络q(sj,αj;ωnow)中,用αj、sj来更新ωnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络q(sj+1,αj+1;ωnow)计算qj+1;
3)计算TD目标和TD误差:
TD目标:yj=rj+γ·qj+1;TD误差:δj=qj-yj;
rj为第j个回合获得的奖励,γ为折扣率;
4)最后更新价值网络和策略网络:
式中λ、β为学习率,使用网格搜索方法取值,通过比较不同学习率下的训练结果,选取表现最优的学习率;为价值网络的参数梯度,为策略网络的参数梯度、为动作梯度。
更具体的,在进行价值网络更新时,对ω进行梯度下降运算;进行策略网络更新时,对θ进行梯度上升运算;完成价值网络和策略网络的更新。
综上所述,通过本实施例的基于强化学习的GNSS转发式无人机诱骗时延控制系统可以实现:
1、在转发式欺骗过程中,传统方法智能化程度较弱且欺骗效率较低,采用强化学习模型,通过控制时延改变量从而使无人机与环境交互,从试错中获取经验并不断调整策略来最大化累积奖励,可有效提高欺骗效率和成功率。
2、强化学习模型需要合适的状态信息来描述环境,在GNSS欺骗中,结合了无人机的位置、速度和与目标位置的相对距离和相对角度,提供了较丰富的状态信息。
3、采用无人机相较于目标位置的接近率和相对角度作为奖励函数,而不是仅仅以相对距离进行评估,设置较为合理的奖励函数可引导模型学习最佳的时延控制策略,以最大化欺骗效果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,包括诱骗控制终端和被诱骗无人机;
所述诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行;
所述诱骗控制终端中设置强化学习模型,根据诱骗设定目标位置和无人机的实时状态设置奖励函数,将无人机飞行状态信息输入强化学习模型中,得到诱骗时延决策行为,对转发GNSS卫星信号进行时延控制;
所述诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态,对当前诱骗时延决策行为进行奖励和惩罚,调整下一步的诱骗时延决策行为;并在诱骗计划实施过程中,根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型;
所述诱骗控制终端中设置的强化学习模型采用actor-critic方法,包括策略网络和价值网络;其中,
策略网络,根据输入的状态s产生并输出动作α;其中,状态s为被诱骗无人机的当前飞行状态s,动作α为控制无人机下一步飞行状态的诱骗时延决策行为;
价值网络,基于接收的无人机飞行状态s给与之对应的动作α即诱骗时延决策行为进行打分,指导策略网络做出改进;
强化学习模型采用在线训练的方式,在强化学习模型中设置经验回放数组,所述经验回放数组中包括四元组(sj,αj,rj,sj+1);sj为第j个回合的状态,αj为第j个回合的动作,rj为第j个回合获得的奖励,sj+1观测的第j+1个回合的状态;把策略网络和价值网络当前参数记作θnow和ωnow,在进行策略网络和价值网络更新时,从经验回放数组中抽取该回合对应的四元组,进行下一回合的网络更新;
价值网络和策略网络更新过程包括:
1)对策略网络进行预测:
αj=μ(sj;θnow),αj+1=μ(sj+1;θnow)
式中,在当前的策略网络μ(sj;θnow)中,用αj来更新θnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络μ(sj+1;θnow)计算αj+1;而从经验回放数组中抽取的αj则是用上一个策略网络μ(sj;θold)计算得到的,θold为策略网络的上一个参数;
2)对价值网络进行预测:训练价值网络的目标是让价值网络的预测逐渐接近真实价值函数;
价值网络q(s,α;ω)输入是状态s和动作α,ω为价值网络参数,价值网络输出的价值,用于反应动作的好坏;预测中,
qj=q(sj,αj;ωnow),qj+1=q(sj+1,αj+1;ωnow)
式中,在当前的策略网络q(sj,αj;ωnow)中,用αj、sj来更新ωnow,执行动作αj之后,观测得到的奖励和新的状态sj+1,再根据更新后的策略网络q(sj+1,αj+1;ωnow)计算qj+1;
3)计算TD目标和TD误差:
TD目标:yj=rj+γ·qj+1;TD误差:δj=qj-yj;
rj为第j个回合获得的奖励,γ为折扣率;
4)最后更新价值网络和策略网络:
ωnow-λ·δj·▽ωq(sj,αj;ωnow)→ωnew;
θnow+β·▽θμ(sj;θnow)·▽αq(sj,αj;ωnow)→θnew;
式中λ、β为学习率,使用网格搜索方法取值,通过比较不同学习率下的训练结果,选取表现最优的学习率;▽ω为价值网络的参数梯度,▽θ为策略网络的参数梯度、▽α为动作梯度。
2.根据权利要求1所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,
输入策略网络的被诱骗无人机的当前飞行状态为进行归一化的多维飞行状态数据;所述多维飞行状态数据包括无人机位置、无人机速度、与诱骗目标位置的相对距离和与诱骗目标位置的相对角度。
3.根据权利要求2所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,
策略网络输出的动作α为向无人机转发的GNSS卫星信号的时延量。
4.根据权利要求1所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,
价值网络在进行诱骗时延决策行为打分过程中惩罚项包括:
当前回合的诱骗时延决策行为控制下的无人机距离目标位置相较于上一回合控制下的无人机距离目标位置远离时,则给予惩罚;
当前回合的诱骗时延决策行为对应的时延量超过时延阈值时,则给予惩罚;
当前回合的诱骗时延决策行为对应的时延量与相邻的上一回合的时延量的差超过了时延跳变阈值,则给予惩罚。
5.根据权利要求4所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,
价值网络在进行诱骗时延决策行为打分过程中将每个回合执行后无人机与目标位置的接近率和无人机的运行方向与目标位置的相对角度作为回报。
6.根据权利要求5所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,
在价值网络训练过程中,将从开始回合到当前回合的累积回报,作为当前回合的诱骗时延决策行为的奖励函数。
7.根据权利要求1所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统,其特征在于,
在第N回合的累积回报为:
式中,RN(τ)为第N回合的累积回报,τ为累积的状态信息和动作序列(s0,α0;s1,α1;···;sN,αN),0≤t≤N;
R(st,αt)为针对时延控制系统在第t回合基于状态st执行动作αt后的回报,为第t回合执行后无人机与目标位置的接近率,为第t回合执行后无人机的运行方向与目标位置的相对角度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311798070.1A CN117872411B (zh) | 2023-12-25 | 2023-12-25 | 一种基于强化学习的gnss转发式无人机诱骗时延控制系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311798070.1A CN117872411B (zh) | 2023-12-25 | 2023-12-25 | 一种基于强化学习的gnss转发式无人机诱骗时延控制系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117872411A CN117872411A (zh) | 2024-04-12 |
CN117872411B true CN117872411B (zh) | 2024-07-30 |
Family
ID=90594071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311798070.1A Active CN117872411B (zh) | 2023-12-25 | 2023-12-25 | 一种基于强化学习的gnss转发式无人机诱骗时延控制系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117872411B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008419A (zh) * | 2017-11-28 | 2018-05-08 | 北京卫星信息工程研究所 | 基于fpga的抗转发式欺骗干扰方法及其检测系统 |
CN108444336A (zh) * | 2018-02-11 | 2018-08-24 | 西安研硕信息技术有限公司 | 基于gnss模拟信号的无人机诱捕方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110244323B (zh) * | 2019-05-24 | 2021-04-20 | 中国科学院光电研究院 | 微、轻型无人机gnss反欺骗系统及欺骗信号检测与导航方法 |
CN112019297B (zh) * | 2020-10-29 | 2021-03-30 | 上海特金无线技术有限公司 | 无人机定点诱骗方法、装置、电子设备与存储介质 |
CN114492718A (zh) * | 2022-01-25 | 2022-05-13 | 南方科技大学 | 飞行决策生成方法和装置、计算机设备、存储介质 |
CN114660623B (zh) * | 2022-02-28 | 2024-06-25 | 中国电子科技集团公司第二十研究所 | 一种转发式无人机导航欺骗方法 |
CN115390582B (zh) * | 2022-07-15 | 2023-04-07 | 江西理工大学 | 一种基于点云的多旋翼无人机跟踪拦截方法及系统 |
-
2023
- 2023-12-25 CN CN202311798070.1A patent/CN117872411B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108008419A (zh) * | 2017-11-28 | 2018-05-08 | 北京卫星信息工程研究所 | 基于fpga的抗转发式欺骗干扰方法及其检测系统 |
CN108444336A (zh) * | 2018-02-11 | 2018-08-24 | 西安研硕信息技术有限公司 | 基于gnss模拟信号的无人机诱捕方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117872411A (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11669110B2 (en) | Control system based on multi-unmanned aerial vehicle cooperative strategic confrontation | |
CN109933086B (zh) | 基于深度q学习的无人机环境感知与自主避障方法 | |
CN111026152B (zh) | 一种基于飞行目的地预测的无人机导航诱骗装置和方法 | |
CN110908395A (zh) | 改进的无人机航迹实时规划方法 | |
CN111006693B (zh) | 智能飞行器航迹规划系统及其方法 | |
CN112698646B (zh) | 一种基于强化学习的航行器路径规划方法 | |
CN112379697B (zh) | 轨迹规划方法、装置、轨迹规划器、无人机及存储介质 | |
CN112824998A (zh) | 马尔可夫决策过程的多无人机协同航路规划方法和装置 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN114895707A (zh) | 基于变频蝙蝠算法的农业无人机路径规划方法及系统 | |
CN114740497A (zh) | 基于ukf多源融合探测的无人机欺骗方法 | |
CN116069056A (zh) | 一种基于深度强化学习的无人机战场目标跟踪控制方法 | |
CN116991067A (zh) | 一种脉冲式轨道追逃拦协同博弈智能决策控制方法 | |
CN117872411B (zh) | 一种基于强化学习的gnss转发式无人机诱骗时延控制系统 | |
Feng et al. | Coordinated cognitive risk control for bridging vehicular radar and communication systems | |
CN112651486A (zh) | 一种提高maddpg算法收敛速度的方法及其应用 | |
CN115097861B (zh) | 一种基于cel-maddpg的多无人机围捕策略方法 | |
CN114779823A (zh) | 饱和攻击任务下的无人机协同围捕控制方法 | |
CN114297529A (zh) | 一种基于空间注意力网络的移动集群轨迹预测方法 | |
Liu et al. | A methodology based on deep reinforcement learning to autonomous driving with double q-learning | |
CN113741186A (zh) | 一种基于近端策略优化的双机空战决策方法 | |
Zheng et al. | Deep reinforcement learning for autonomous vehicles collaboration at unsignalized intersections | |
CN114337875B (zh) | 面向多辐射源追踪的无人机群飞行轨迹优化方法 | |
CN112347961B (zh) | 水流体内无人平台智能目标捕获方法及系统 | |
CN115320890A (zh) | 一种基于prd-maddpg算法的脉冲式轨道追逃博弈方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |