CN117872411B

CN117872411B - 一种基于强化学习的gnss转发式无人机诱骗时延控制系统

Info

Publication number: CN117872411B
Application number: CN202311798070.1A
Authority: CN
Inventors: 薛瑞; 冯宇; 刘博远
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-07-30
Anticipated expiration: 2043-12-25
Also published as: CN117872411A

Abstract

本发明涉及一种基于强化学习的GNSS转发式无人机诱骗时延控制系统，包括诱骗控制终端和被诱骗无人机；诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行；诱骗控制终端中设置强化学习模型，根据诱骗设定目标位置和无人机的实时状态设置奖励函数，将无人机飞行状态信息输入强化学习模型中，得到诱骗时延决策行为，对转发GNSS卫星信号进行时延控制；诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态，对当前诱骗时延决策行为进行奖励和惩罚，调整下一步的诱骗时延决策行为；根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型。本发明有效提高欺骗效率和成功率。

Description

一种基于强化学习的GNSS转发式无人机诱骗时延控制系统

技术领域

本发明涉及全球卫星导航系统技术领域，涉及一种基于强化学习的GNSS转发式无人机诱骗时延控制系统。

背景技术

如何采取有效措施反制无人机已成为国内外研究的热点和难点问题。

基于全球导航卫星系统(Global Navigation Satellite System,GNSS)的导航是无人机最主要的导航手段之一。针对采用GNSS导航的无人机，压制与欺骗是当前常用的反制手段。其中，转发式欺骗通过接收卫星发送的真实信号，在不改变信号结构和内容的前提下，对接收到的导航卫星信号进行延时转发，使有效范围内的接收机接收到转发的欺骗干扰信号，从而导致其偏航。由于转发式欺骗不需要事先获知测距码的编排结构，同时可相对精确地控制欺骗效果，已成为目前GNSS欺骗的主要手段。

在转发式欺骗中，所加时延的大小直接影响了目标无人机偏航的结果。现有转发式欺骗技术中时延控制算法主要基于实施欺骗后期望的目标定位结果。因此，在实际应用中需要针对欺骗的每个步长下目标无人机的行为重新确定欺骗定位坐标点，这导致转发式欺骗过程的智能化程度较低，在有明确引导目标点的欺骗场景下，欺骗的效率较差。

发明内容

鉴于上述的分析，本发明旨在公开了一种基于强化学习的GNSS转发式无人机诱骗时延控制系统；解决传统方法智能化程度较弱且欺骗效率较低问题。

本发明公开了一种基于强化学习的GNSS转发式无人机诱骗时延控制系统，包括诱骗控制终端和被诱骗无人机；

所述诱骗控制终端向被诱骗无人机转发时延受控的GNSS卫星信号控制被诱骗无人机向诱骗设定目标位置飞行；

所述诱骗控制终端中设置强化学习模型，根据诱骗设定目标位置和无人机的实时状态设置奖励函数，将无人机飞行状态信息输入强化学习模型中，得到诱骗时延决策行为，对转发GNSS卫星信号进行时延控制；

所述诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态，对当前诱骗时延决策行为进行奖励和惩罚，调整下一步的诱骗时延决策行为；并在诱骗计划实施过程中，根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型。

进一步地，所述诱骗控制终端中设置的强化学习模型采用actor-critic方法，包括策略网络和价值网络；其中，

策略网络，根据输入的状态s产生并输出动作α；其中，状态s为被诱骗无人机的当前飞行状态s，动作α为控制无人机下一步飞行状态的诱骗时延决策行为；

价值网络，基于接收的无人机飞行状态s给与之对应的动作α即诱骗时延决策行为进行打分，指导策略网络做出改进。

进一步地，输入策略网络的被诱骗无人机的当前飞行状态为进行归一化的多维飞行状态数据；所述多维飞行状态数据包括无人机位置、无人机速度、与诱骗目标位置的相对距离和与诱骗目标位置的相对角度。

进一步地，策略网络输出的动作α为向无人机转发的GNSS卫星信号的时延量。

进一步地，价值网络在进行诱骗时延决策行为打分过程中惩罚项包括：

当前回合的诱骗时延决策行为控制下的无人机距离目标位置相较于上一回合控制下的无人机距离目标位置远离时，则给予惩罚；

当前回合的诱骗时延决策行为对应的时延量超过时延阈值时，则给予惩罚；

当前回合的诱骗时延决策行为对应的时延量与相邻的上一回合的时延量的差超过了时延跳变阈值，则给予惩罚。

进一步地，价值网络在进行诱骗时延决策行为打分过程中将每个回合执行后无人机与目标位置的接近率和无人机的运行方向与目标位置的相对角度作为回报。

进一步地，在价值网络训练过程中，将从开始回合到当前回合的累积回报，作为当前回合的诱骗时延决策行为的奖励函数。

进一步地，在第N回合的累积回报为：

式中，R_N(τ)为第N回合的累积回报，τ为累积的状态信息和动作序列(s₀,α₀；s₁,α₁；···；s_N,α_N)，0≤t≤N；

R(s_t,α_t)为针对时延控制系统在第t回合基于状态s_t执行动作α_t后的回报，为第t回合执行后无人机与目标位置的接近率，为第t回合执行后无人机的运行方向与目标位置的相对角度。

进一步地，强化学习模型采用在线训练的方式，在强化学习模型中设置经验回放数组，所述经验回放数组中包括四元组(s_j,α_j,r_j,s_j+1)；s_j为第j个回合的状态，α_j为第j个回合的动作，r_j为第j个回合获得的奖励，s_j+1观测的第j+1个回合的状态；把策略网络和价值网络当前参数记作θ_now和ω_now，在进行策略网络和价值网络更新时，从经验回放数组中抽取该回合对应的四元组，进行下一回合的网络更新。

进一步地，价值网络和策略网络更新过程包括：

1)对策略网络进行预测：

α_j＝μ(s_j；θ_now)，α_j+1＝μ(s_j+1；θ_now)

式中，在当前的策略网络μ(s_j；θ_now)中，用α_j来更新θ_now，执行动作α_j之后，观测得到的奖励和新的状态s_j+1，再根据更新后的策略网络μ(s_j+1；θ_now)计算α_j+1；而从经验回放数组中抽取的α_j则是用上一个策略网络μ(s_j；θ_old)计算得到的，θ_old为策略网络的上一个参数；

2)对价值网络进行预测：训练价值网络的目标是让价值网络的预测逐渐接近真实价值函数；

价值网络q(s,α；ω)输入是状态s和动作α，ω为价值网络参数，价值网络输出的价值，用于反应动作的好坏；预测中，

q_j＝q(s_j,α_j；ω_now)，q_j+1＝q(s_j+1,α_j+1；ω_now)

式中，在当前的策略网络q(s_j,α_j；ω_now)中，用α_j、s_j来更新ω_now，执行动作α_j之后，观测得到的奖励和新的状态s_j+1，再根据更新后的策略网络q(s_j+1,α_j+1；ω_now)计算q_j+1；

3)计算TD目标和TD误差：

TD目标：y_j＝r_j+γ·q_j+1；TD误差：δ_j＝q_j-y_j；

r_j为第j个回合获得的奖励，γ为折扣率；

4)最后更新价值网络和策略网络：

式中λ、β为学习率，使用网格搜索方法取值，通过比较不同学习率下的训练结果，选取表现最优的学习率；为价值网络的参数梯度，为策略网络的参数梯度、为动作梯度。

本发明可实现以下有益效果之一：

1、在转发式欺骗过程中，传统方法智能化程度较弱且欺骗效率较低，采用强化学习模型，通过控制时延改变量从而使无人机与环境交互，从试错中获取经验并不断调整策略来最大化累积奖励，可有效提高欺骗效率和成功率。

2、强化学习模型需要合适的状态信息来描述环境，在GNSS欺骗中，结合了无人机的位置、速度和与目标位置的相对距离和相对角度，提供了较丰富的状态信息。

3、采用无人机相较于目标位置的接近率和相对角度作为奖励函数，而不是仅仅以相对距离进行评估，设置较为合理的奖励函数可引导模型学习最佳的时延控制策略，以最大化欺骗效果。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件；

图1为本发明实施例中的GNSS转发式无人机诱骗时延控制系统组成示意框图。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理。

本发明的一个实施例公开了一种基于强化学习的GNSS转发式无人机诱骗时延控制系统，如图1所示，包括诱骗控制终端和被诱骗无人机；

本实施例中诱骗控制终端对被诱骗无人机采用的转发式欺骗干扰，采用转发时延受控的GNSS卫星信号替代真实GNSS卫星信号直接篡改无人机测量伪距的方式，改变无人机的飞行轨迹，使无人机朝向设定的诱骗目标位置飞行。在实施例中通过强化学习模型的在线学习，实现了更加智能的诱骗控制，有效提高欺骗效率和成功率。

具体的，所述诱骗控制终端中设置的强化学习模型采用actor-critic方法，包括策略网络和价值网络；其中，

具体的，输入策略网络的被诱骗无人机的当前飞行状态为进行归一化的多维飞行状态数据；所述多维飞行状态数据包括无人机位置、无人机速度、与诱骗目标位置的相对距离和与诱骗目标位置的相对角度。

策略网络输出的动作α为向无人机转发的GNSS卫星信号的时延量。

策略网络通过改变诱骗控制终端输出不同的时延，进而达到改变无人机航迹的效果，价值网络基于接收的由诱骗时延决策行为的GNSS卫星信号时延量控制的无人机飞行状态，给该诱骗时延决策行为进行打分，从而指导策略网络做出改进。通过改进策略网络不断调整诱骗时延决策行为，可有效提高欺骗效率和成功率。

优选的，策略网络每个回合输出的动作α为从动作空间中匹配出的一个动作；动作空间中包括多个点的离散化的时延量；策略网络根据输入的飞行状态从动作空间中匹配出一个时延量进行输出。

价值网络在进行诱骗时延决策行为打分过程中惩罚项包括：

价值网络在进行诱骗时延决策行为打分过程中将每个回合执行后无人机与目标位置的接近率和无人机的运行方向与目标位置的相对角度作为回报。

在价值网络训练过程中，将从开始回合到当前回合的累积回报，作为当前回合的诱骗时延决策行为的奖励函数。

在第N回合的累积回报为：

强化学习模型采用在线训练的方式，在强化学习模型中设置经验回放数组，所述经验回放数组中包括四元组(s_j,α_j,r_j,s_j+1)；s_j为第j个回合的状态，α_j为第j个回合的动作，r_j为第j个回合获得的奖励，s_j+1观测的第j+1个回合的状态；把策略网络和价值网络当前参数记作θ_now和ω_now，在进行策略网络和价值网络更新时，从经验回放数组中抽取该回合对应的四元组，进行下一回合的网络更新。

价值网络和策略网络更新过程包括：

1)对策略网络进行预测：

α_j＝μ(s_j；θ_now)，α_j+1＝μ(s_j+1；θ_now)

q_j＝q(s_j,α_j；ω_now)，q_j+1＝q(s_j+1,α_j+1；ω_now)

3)计算TD目标和TD误差：

TD目标：y_j＝r_j+γ·q_j+1；TD误差：δ_j＝q_j-y_j；

r_j为第j个回合获得的奖励，γ为折扣率；

4)最后更新价值网络和策略网络：

更具体的，在进行价值网络更新时，对ω进行梯度下降运算；进行策略网络更新时，对θ进行梯度上升运算；完成价值网络和策略网络的更新。

综上所述，通过本实施例的基于强化学习的GNSS转发式无人机诱骗时延控制系统可以实现：

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种基于强化学习的GNSS转发式无人机诱骗时延控制系统，其特征在于，包括诱骗控制终端和被诱骗无人机；

所述诱骗控制终端实时采集诱骗时延决策行为控制下被诱骗无人机的飞行状态，对当前诱骗时延决策行为进行奖励和惩罚，调整下一步的诱骗时延决策行为；并在诱骗计划实施过程中，根据实时诱骗时延决策行为和对应的无人机飞行状态在线训练和更新强化学习模型；

所述诱骗控制终端中设置的强化学习模型采用actor-critic方法，包括策略网络和价值网络；其中，

价值网络，基于接收的无人机飞行状态s给与之对应的动作α即诱骗时延决策行为进行打分，指导策略网络做出改进；

强化学习模型采用在线训练的方式，在强化学习模型中设置经验回放数组，所述经验回放数组中包括四元组(s_j,α_j,r_j,s_j+1)；s_j为第j个回合的状态，α_j为第j个回合的动作，r_j为第j个回合获得的奖励，s_j+1观测的第j+1个回合的状态；把策略网络和价值网络当前参数记作θ_now和ω_now，在进行策略网络和价值网络更新时，从经验回放数组中抽取该回合对应的四元组，进行下一回合的网络更新；

价值网络和策略网络更新过程包括：

1)对策略网络进行预测：

α_j＝μ(s_j；θ_now)，α_j+1＝μ(s_j+1；θ_now)

q_j＝q(s_j,α_j；ω_now)，q_j+1＝q(s_j+1,α_j+1；ω_now)

3)计算TD目标和TD误差：

TD目标：y_j＝r_j+γ·q_j+1；TD误差：δ_j＝q_j-y_j；

r_j为第j个回合获得的奖励，γ为折扣率；

4)最后更新价值网络和策略网络：

ω_now-λ·δ_j·▽_ωq(s_j,α_j；ω_now)→ω_new；

θ_now+β·▽_θμ(s_j；θ_now)·▽_αq(s_j,α_j；ω_now)→θ_new；

式中λ、β为学习率，使用网格搜索方法取值，通过比较不同学习率下的训练结果，选取表现最优的学习率；▽_ω为价值网络的参数梯度，▽_θ为策略网络的参数梯度、▽_α为动作梯度。

2.根据权利要求1所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统，其特征在于，

输入策略网络的被诱骗无人机的当前飞行状态为进行归一化的多维飞行状态数据；所述多维飞行状态数据包括无人机位置、无人机速度、与诱骗目标位置的相对距离和与诱骗目标位置的相对角度。

3.根据权利要求2所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统，其特征在于，

4.根据权利要求1所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统，其特征在于，

价值网络在进行诱骗时延决策行为打分过程中惩罚项包括：

5.根据权利要求4所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统，其特征在于，

6.根据权利要求5所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统，其特征在于，

7.根据权利要求1所述的基于强化学习的GNSS转发式无人机诱骗时延控制系统，其特征在于，

在第N回合的累积回报为：