CN108572654A

CN108572654A - 基于q学习的欠驱动auv虚拟锚泊三维镇定控制及实现方法

Info

Publication number: CN108572654A
Application number: CN201810532467.9A
Authority: CN
Inventors: 万磊; 陈国防; 李岳明; 张子洋; 唐文镇; 张靖宇; 金巧园
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-04-25
Filing date: 2018-05-29
Publication date: 2018-09-25

Abstract

本发明公开了基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法，属于无人水下机器人运动控制技术领域。包括：输入控制命令并初始化各变量；建立Q学习迭代方程，输入各变量；判断Q迭代的收敛性，是则策略选择动作，否则以虚拟锚泊控制输出组成动作；动作作用于AUV，得到所需参数，更新Q值和Q表；进行状态交换，判断AUV是否达到目标状态，在满足次数后，结束系统，否则继续迭代。虚拟锚泊控制部分：建立欠驱动AUV的动力学方程；建立欠驱动AUV的运动学方程；根据受力分析建立虚拟锚泊的数学模型；将锚链力进行分解，分配给AUV的执行器。本发明将虚拟锚泊控制的输出作为Q学习的指导，加快Q学习的收敛过程，为AUV在干扰的镇定控制问题提供了便利。

Description

基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法

技术领域

本发明属于无人水下机器人运动控制技术领域，具体涉及基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法。

背景技术

欠驱动水下机器人(Underacutated Autonomous Underwater Vehicles)是指独立控制输入维数少于系统自由度的水下机器人，它是我国实施深海资源开发战略不可或缺的重大技术装备之一。由于其欠驱动水下机器人所存在的强耦合性和非线性的特征，并且动力学模型中的一些水动力系数并不是一个稳定的数值，很难建立欠驱动AUV的精确模型，因此欠驱动AUV的准确控制是一大难题。

运动控制技术是AUV技术领域中的关键，实现欠驱动AUV在干扰环境下的镇定控制是欠驱动AUV进行水下精确对接的重要保证之一，也是完成海底探测和水下搜救的关键技术之一。欠驱动AUV的镇定控制的难题在于系统的非完整约束性(不满足Brocket必要性条件)，使得线性控制方法和一些现代非线性控制方法，无法直接应用于欠驱动AUV的镇定控制当中。目前国内外对于欠驱动机械系统和移动机器人的镇定研究已经比较完整了，但是对于欠驱动水下机器人的镇定控制研究还比较有限，且对于欠驱动系统都是基于系统运动学模型，采用非线性状态反馈的思想对其进行镇定，主要方法有：齐次方法、σ-变换法(σ-processing)和反步法。然而这些方法都是基于模型，并且抗干扰能力差，一些抗干扰能力强的镇定控制算法也是基于不精确模型，无法完全摆脱对模型的依赖。

具有抗干扰能力的镇定控制系统可以实现欠驱动AUV在一定干扰环境下的准确定位，它可以根据海流、目标位置与实时位置的差异等信息自主计算出所需的力和力矩，然后交由欠驱动AUV的纵向推进器、水平舵和垂直舵等执行器，从而保持在目标位置并完成相应的任务。

文献“欠驱动智能水下机器人的三维轨迹跟踪控制方法研究”，针对欠驱动AUV存在高度的非线性和非完整性等特性(简化了其动力学方程和运动学方程)，基于微分同胚变换，从AUV的六自由度运动方程中得到一个级联形式的非线性系统，并且证明了原系统中镇定控制问题与所得到的级联系统的稳定问题是等价的，并应用李雅普诺夫函数得到一个较为简单的控制律

该方法虽然经过了仿真的验证，方法也较为简单，但其依赖于精确的模型，并且没有在干扰环境进行仿真验证，因此其实际应用方面将会比较狭小，缺乏实用性。

本发明设计了一种基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法。该镇定控制方法完全不依赖于模型，控制算法结构较为简单，并且能够让欠驱动AUV在干扰环境下实现抵抗海流的目标，具有很强的实际应用前景，并且在虚拟锚泊控制的基础上添加了Q学习方法，加快了算法的收敛速度，减少其本身的盲目性，当Q学习收敛完毕，完成训练后，进行纯Q学习，利用Q学习本身的随机探索的特性，从而弥补虚拟锚泊控制在接近目标后出现的收敛较慢的问题，两者进行互补。该方法最终可用于欠驱动AUV在实际海洋环境中的镇定控制中。

发明内容

本发明的目的在于提供一种控制算法结构较为简单、加快了算法的收敛速度、具有很强的实际应用前景的基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法。

本发明的目的通过如下技术方案来实现：

(1)初始化各变量，设定输入状态变量、奖罚值R和输出动作A，建立Q表，并输入控制命令：

设定Q学习的输入状态变量S：

S＝{u x B_x y B_y z B_z}

式中：u为欠驱动AUV的速度，ξ为横向位移和B_ξ为横向位移偏差，η为纵向位移和B_η为纵向向位移偏差，ζ为垂向位移和B_ζ为垂向向位移偏差；

设定奖罚值R：

设定输出动作A：

A＝{X N M}

式中：X为主推进器的推力，N为转艏力矩，M为俯仰力矩；

设定Q值表为多维的空间，以状态S为纵坐标，动作A为横坐标，Q值为一个维度，初始化为全零空间；

(2)建立Q学习迭代方程，输入各变量：

根据Q学习的更新方法，建立Q学习迭代方程：

式中：α为学习率，γ为折扣因数，表示对未来利益的重视程度；输入各个变量，例如初始状态S到系统中，进行计算；

(3)根据Q迭代的收敛性选择策略，选择动作A：

首先是判断迭代方程的收敛性，是则选择根据ε-greedy策略选择Q(S,A)值最大的动作值A(如果在该状态下Q值全为零，则随机选择动作A)，否则利用虚拟锚泊控制来产生X、N、M，并以此组成动作A，以该动作来选择Q(S,A)值。

(4)动作A作用于AUV，得到所需参数，更新Q值和Q表：

AUV执行该动作A，到了S状态所相对的下一时刻的状态S′，并将评价该动作A的好坏，给定奖罚值R(S,A,S′)；将S′在Q表中查找值的最大数并选择动作A′，将Q(S,A)、R(S,A,S′)和代入迭代公式中计算S状态下的Q值，对Q(S,A)进行计算，在Q表中所对应的S、A的Q值进行更新。

(5)进行状态交换，判断AUV是否达到目标且保持镇定状态，是则退出迭代循环，在满足espisode次数后，结束系统，否则继续迭代：

将S′状态的变量赋值给S状态，并通过AUV是否抵达目标点，且保持镇定状态，是则开始新一轮的循环，也就是Q值的迭代，否则退出这个循环，判断AUV的espisode(从开始到结束运行的次数)的次数是否大于200，是则退出系统，Q学习完成，否则继续训练。

(6)虚拟锚泊控制部分具体内容为：

(6.1)建立欠驱动AUV的六自由度动力学方程:

在三维空间，执行机构产生的力/力矩向量可表示为：

τ＝[X N M]^T

AUV六自由度动力学方程可以表示为：

(6.2)AUV六自由度动力学方程可以表示为：

(6.3)建立还有环境影响下的欠驱动AUV的相对速度和相对加速度的方程：

在海洋环境中，AUV所受到的干扰力较为复杂以及多变，例如海流本身的影响，海水密度、盐度和温度的影响等。本文假定水域为深广水域，只存在海流的影响。

相对流速:

u_r＝u-U_C cos(θ)cos(α_C-ψ)

v_r＝v-U_C sin(α_C-ψ)

w_r＝w-U_C sin(θ)cos(α_C-ψ)

其中，U_c为流速，α_c为流向角，ψ为艏向角，θ为纵倾角，对相对速度式进行时间的微分后可得到相对加速度：

(6.4)根据欠驱动水下机器人在虚拟锚泊状态下受力分析，建立了虚拟锚泊的数学模型：

在一定深度的海中，AUV将锚链连接的锚抛入海水中，使其沉入水中并使其啮入土中，锚产生的抓力与水底固结起来，使得AUV可以固留在预定区域内。因此对于在水平面和垂直面上处于虚拟锚泊状态的欠驱动AUV受锚链作用的受力分析：

F_xm＝F_h cos(ψ-Le)

F_ym＝F_h sin(ψ-Le)

M_m＝F_hl_m sin(ψ-Le)

N_m＝F_vl_m cos(θ-Ve)

其中，F_h为AUV受到锚链作用水平分力，ψ为AUV的艏向角，Le为锚链角，F_xm为F_h经过分解后的纵向力，F_ym为F_h经过分解后的横向力，M_m为F_h经过分解后的转艏力矩，l_m为锚泊水平分力到作用点的力臂，F_v为AUV受到锚链作用垂直分力，θ为AUV的纵倾角，Ve为锚链角，N_m为F_v经过分解后的俯仰力矩。

(6.5)通过改进的静态悬链线方程对水平分力和垂直分力进行表示并求解：

本文对悬链线方程进行修改，在没有铺底锚链且锚点(曲线最低点)即为目标点，已知悬链线方程为：

悬链曲线张力水平分力和垂直分力方程为：

F_h＝q#a

采用改进牛顿法对悬链线方程进行求解a：

(6.6)取锚链张力中的水平分力进行按照AUV的随艇坐标系进行分解，分为纵向力F_xm和横向力F_ym以及转艏力矩M_m，对锚链张力的垂直分力进行分解，分为俯仰力矩N_m：

在水平面控制中，将水平分力F_h按照AUV的随艇坐标系进行分解，分为纵向力F_xm和横向力F_ym以及转艏力矩M_m，对锚链张力的垂直分力进行分解，分为俯仰力矩N_m。

(6.7)将F_xm、M_m和N_m分配到AUV的执行器，得出主推进器的推力X、转艏力矩N和俯仰力矩M：

纵向力F_xm为AUV所要产生的纵向推力(主推推力)X,由AUV的纵向推进器作用产生；转艏力矩M_m为AUV所要产生的转艏力矩N,由AUV的垂直舵作用产生；俯仰力矩N_m为AUV所要产生的俯仰力矩M，由AUV的水平舵作用产生。

该发明的有益效果在于：

基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法完全不依赖于模型，控制算法结构较为简单，并且能够让欠驱动AUV在干扰环境下实现抵抗海流的目标，具有很强的实际应用前景，并且在虚拟锚泊控制的基础上添加了Q学习方法，加快了算法的收敛速度，减少其本身的盲目性，当Q学习收敛完毕，完成训练后，进行纯Q学习，利用Q学习本身的随机探索的特性，从而弥补虚拟锚泊控制在接近目标后出现的收敛较慢的问题，两者进行互补。该方法最终可用于欠驱动AUV在实际海洋环境中的镇定控制中。

附图说明

图1为欠驱动AUV基于Q学习的虚拟锚泊控制流程框图；

图2为欠驱动AUV虚拟锚泊控制系统流程示意图；

图3为改进牛顿法计算流程图；

图4为欠驱动AUV在水平面在该算法作用下从初始位置到目标位置的示意图；

图5为欠驱动AUV在垂直面在该算法作用下从初始位置到目标位置的示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

结合图1，基于Q学习的欠驱动AUV虚拟锚泊控制方法根据AUV的位姿信息、周围环境和所设定的变量等对AUV载体进行镇定控制，开始部分以虚拟锚泊控制算法作为Q学习的参考，当Q学习收敛完毕，完成训练后，进行纯Q学习。

其具体步骤如下：

(1)系统中个变量的初始化，完成对状态S、奖罚值R和动作A的初始设定，并建立Q表，其中Q表为一个多维空间，可通过S和A进行索引并选择Q(S,A)值。系统初始化完毕，同时输入控制命令，即目标位置(x_b,y_b,z_b)；

(2)判断Q迭代的收敛性，如果收敛则选择根据ε-greedy策略选择Q(S,A)最大值的动作值A(如果在该状态下Q值全为零，则随机选择动作A)，否则则采用虚拟锚泊控制算法进行运算，输出所需的X、N、M，用该数据组成动作A，并在Q表中选择相应的Q(S,A)值；

(3)在S状态下，将所选择的动作A进行环境的交互，也就是作用于AUV的载体，控制执行机构的输出，到达了S状态所相对的下一时刻的状态S′，评价该动作A的好坏，给定奖罚值R(S,A,S′)；将S′在Q表中查找值的最大数并选择动作A′，将Q(S,A)、R(S,A,S′)和代入迭代公式中计算S状态下的Q值，对Q(S,A)进行计算，在Q表中所对应的S、A的Q值进行更新。

(4)将S′状态的变量赋值给S状态，并通过AUV是否抵达目标点，且保持镇定状态，是则开始新一轮的循环，也就是Q值的迭代，否则退出这个循环，判断AUV的espisode(从开始到结束运行的次数)的次数是否大于200，是则退出系统，Q学习完成，否则继续训练，转步骤(2)。

步骤(2)中的虚拟锚泊镇定控制方法是本发明的一个核心，结合图1，其主要步骤为：

(a)根据欠驱动AUV的控制输入维度，建立AUV的六自由度运动方程：

执行机构产生的力和力矩向量为：τ＝[X N M]^T，

AUV六自由度动力学方程可以表示：

(b)考虑海洋干扰环境因素，建立AUV六自由运动方程：

AUV六自由度运动学方程可以表示为:

由于在海洋环境中，AUV会受到海流、海水密度和盐度等因素的影响，将环境设定为深广水域，只存在海流影响，且海流平行于大地坐标线，因此相对速度：

u_r＝u-U_C cos(θ)cos(α_C-ψ)

v_r＝v-U_C sin(α_C-ψ)

w_r＝w-U_C sin(θ)cos(α_C-ψ)

式中，U_c为流速，α_c为流向角，ψ为艏向角，θ为纵倾角，对相对速度式进行时间的微分后可得到相对加速度：

(c)根据欠驱动水下机器人在虚拟锚泊状态下受力分析，建立了虚拟锚泊的数学模型：在水平面和垂直面对处于虚拟锚泊状态下的欠驱动AUV进行受力分析：

F_xm＝F_h cos(ψ-Le)

F_ym＝F_h sin(ψ-Le)

M_m＝F_hl_m sin(ψ-Le)

N_m＝F_vl_m cos(θ-Ve)

(d)通过改进的静态悬链线方程对水平分力和垂直分力进行表示并求解a：在所设定的条件下通过悬链线方程推导出悬链曲线的水平分力和垂直分力的方程为：

F_h＝q·a

采用改进牛顿法对a进行求解：

通过不断迭代，到一定误差后，输出a值，并通过公式得出锚链张力的水平分力和垂直分力；

(e)取锚链张力中的水平分力进行按照AUV的随艇坐标系进行分解，分为纵向力F_xm和横向力F_ym以及转艏力矩M_m，对锚链张力的垂直分力进行分解，分为俯仰力矩N_m；

(f)将F_xm、M_m和N_m分配到AUV的执行器，得出主推进器的推力X、转艏力矩N和俯仰力矩M。

整体的欠驱动AUV虚拟锚泊镇定控制的控制流程是这样实现的：

如图2所示，首先外部工作人员根据任务的需要通过控制台输入目标位置的控制指令(x_d,y_d,z_d)(期望位置)，控制台将控制命令和所处的状态S发送给AUV载体，AUV根据自身所携带的设备，包括DVL、磁罗经、惯导、超短基线等，计算出自身与目标点的水平距离d和垂直距离h，以及水平锚链角Le和垂直锚链角Ve。通过判断水平间距和垂直间距是否在有效范围内，并且AUV的控制变量是否处于收敛状态，决定是否运行虚拟锚泊控制算法。首先判断AUV是否在目标点的有效方围内(即d<30，h<30的范围)，不在则运行虚拟锚泊的控制算法。在控制算法中，根据所输入的水平间距d和垂直间距h，通过改进牛顿法(具体过程见图3)计算得到a值，再通过悬链线张力方程得到锚泊张力的水平分力F_h和垂直分力F_v，将水平分力F_h和垂直分力F_v进行分解，得到纵向力F_xm、转艏力矩M_m和俯仰力矩N_m。纵向力F_xm即为纵向推进器产生的推力X，转艏力矩M_m即为AUV垂直舵产生的转艏力矩N，俯仰力矩N_m即为AUV水平舵产生的俯仰力矩M。AUV执行器工作并作用于AUV(虚拟锚泊控制作用于载体AUV与Q学习部分作用于AUV的时间具有一致性)，改变AUV的运动，使得AUV向目标点运动，并搜索顶流方向，AUV接着对位姿进行判定，输出执行器里和力矩，不断调整AUV的运动状态，直到AUV在目标点得有效范围内，并且控制变量处于收敛，实现区域镇定的目标。

采用改进牛顿法对a进行较为精确的求解的是这样实现的：

由悬链线可知：

代入x＝d，y＝h(d为AUV与目标点之间的水平距离，h为AUV到目标点得垂直距离)，a视情况从某个数开始迭加，当首次f(a_n)·f(a_n+1)＜0求出初值a₀，如图3。

详细步骤如下：

(1)将水平间距d和垂直间距h带入到悬链线方程中，求解方程解的初值a₀；

(2)将a0带入改进牛顿法的迭代公式中(如下式)，求解精确解(初始k＝0，循环一次k+1)；

(3)计算误差e＝a_k+1-a_k，若|e|＜ε(本文中ε＝0.00001)结束，输出a＝a_k+1，否则继续；

(4)转2)，继续计算；

实际海洋环境下欠驱动水下机器人虚拟锚泊镇定控制方法的基本控制过程(从水平面运动和垂直面运动加以解释)：AUV刚开始启动时速度为零(即使有主推推力作用下)，远小于海流的速度，导致AUV在海流的作用下被带离起始点，该阶段海流对AUV的作用占主导位置；虚拟锚链不断拉扯AUV向着目标位置前进；当AUV的速度在主推推力的作用下不断增大，抵抗住了海流，在转艏力矩和俯仰力矩的作用下朝着目标点方向运动，不断地转艏和下潜来调整AUV的位姿，同时搜索顶流的方向；当AUV的艏向角与海流的角度呈180deg差值，纵倾角与海流呈180deg差值时，表示AUV开始顶流运动(搜索方向完成)，转艏力矩、艏向角、主推推力、俯仰力矩、纵倾角将会收敛，转艏力矩和俯仰力矩将趋于零，只有主推推力在作用，使得AUV朝着目标点前进；在有效作用范围内以及顶流运动的情况下，当AUV距离目标点一定距离时，主推推力的海流对AUV的作用力达到平衡，AUV将停止运动，如图4-5，图中虚线L代表虚拟锚链。

其中，当欠驱动AUV完成方向搜索(无转艏力矩作用)，朝着目标前进时，突然改变海流的流向，例如从220deg到180deg，AUV运动产生了变化，在本身推力和力矩再加上海流的影响下，偏离了目标点，后在虚拟锚链系统的调解下重新搜索方向，最后找到方向(顶流方向)，在有效作用半径内实现镇定。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法，其特征在于：包括如下步骤：

(1)：初始化各变量，设定输入状态变量、奖罚值R和输出动作A，建立Q表，输入控制命令；

(2)：建立Q学习迭代方程，输入各变量，例如初始状态S；

(3)：判断Q迭代的收敛性，是则选择ε-greedy策略选择动作A，否则以虚拟锚泊控制输出组成动作A；

(4)：将所选择动作A作用于AUV载体(也就是AUV的执行器输出X、N、M)，得到奖罚值R和下一时刻的状态S′，更新Q值和Q表；

(5)：进行状态交换，判断AUV是否达到目标且保持镇定状态，是则退出迭代循环，在满足espisode次数后，结束系统，否则继续迭代；

其中对Q值的更新具体表现为：

判断迭代方程的收敛性，是则选择根据ε-greedy策略选择Q(S,A)值最大的动作值A(如果在该状态下Q值全为零，则随机选择动作A)，否则利用虚拟锚泊控制来产生X、N、M，并以此组成动作A，以该动作来选择Q(S,A)值；AUV执行该动作A，到了S状态所相对的下一时刻的状态S′，并将评价该动作A的好坏，给定奖罚值R(S,A,S′)；将S′在Q表中查找值的最大数并选择动作A′，将Q(S,A)、R(S,A,S′)和代入迭代公式中计算S状态下的Q值，对Q(S,A)进行计算，并在Q表中所对应的S、A的Q值进行更新。

2.根据权利1所述的一种基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法，其特征在于：虚拟锚泊控制具体为：

(1)建立欠驱动AUV的六自由度运动方程；

(2)建立欠驱动AUV的运动学方程，并且建立存在环境影响下的欠驱动AUV的相对速度和相对加速度的方程；

(3)根据欠驱动水下机器人在虚拟锚泊状态下受力分析，建立了虚拟锚泊的数学模型；

(4)将锚链力的水平分力和垂直分力进行分解，将得到的力和力矩(X、N、M)分配给AUV的执行器。