CN116009583A

CN116009583A - 基于纯粹视觉的分布式无人机协同运动控制方法和装置

Info

Publication number: CN116009583A
Application number: CN202211690249.0A
Authority: CN
Inventors: 汤俊; 万宇; 老松杨; 赵子鹏; 陈曦; 潘庆涛; 詹建军; 王浩森
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-25

Abstract

本申请涉及一种基于纯粹视觉的分布式无人机协同运动控制方法和装置。所述方法包括：构建基于纯粹视觉的分布式无人机集群运动模型，在模型中无人机通过机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，通过机载计算机其中的感知运动神经网络对机载传感器信息进行计算，得到控制指令，并根据控制指令控制无人机运动。采用本方法可以保证无人机之间不依赖通讯，仅纯粹依靠机载传感器视觉感知到环境障碍物和邻近无人机，并根据机载计算机中的感知运动神经网络将传感器感知数据直接映射为高级控制信号，实现无人机在复杂环境中进行集群、避障、导航等运动。

Description

基于纯粹视觉的分布式无人机协同运动控制方法和装置

技术领域

本申请涉及无人机技术领域，特别是涉及一种基于纯粹视觉的分布式无人机协同运动控制方法和装置。

背景技术

随着科技的飞速发展，无人机在各个领域得到了广泛应用。然而，随着应用环境的日益复杂和任务需求的多样化，单架无人机因在硬件和软件上均存在较大限制，无法满足相关需求。相比之下，多无人机系统可以有效地解决单个无人机的局限性，扩展任务执行模式，提高系统可靠性。

当前多无人机系统一般采取分布式控制，无人机从外界获取数据，并通过数据链同其它无人机进行共享，在此基础上进行协同，进而实现复杂行为。但该方式存在较大弊端，一方面，无人机信息源主要包括全球卫星导航系统(GNSS)，实时差分定位(RTK)系统或动捕系统。GNSS适用于室外环境，但在障碍物密集环境下，精度较低，误差大，且任何信号丢失都会对这种高动态系统的控制造成致命影响。额外部署的RTK测量仪或动捕系统，不仅提高了成本，也不适用于大规模部署。另一方面，多无人机系统依赖于通信组网进行信息获取，无人机协同要求个体间进行精确而频繁的信息交换。传输的数据量会随着编队规模的增加而剧增，在通信距离和带宽上存在限制。同时通信链路也存在可靠性问题，在复杂环境下，不仅存在数据丢失和通信延迟等问题，也容易受到通信干扰和网络攻击，甚至出现通信中断和劫持情况。通信上的限制也极大地增加了多机协同的复杂程度。此外，在大多数情况，多无人机系统缺少自主性，只能在无障碍物和已知环境下进行飞行。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在复杂未知环境下，控制无人机个体不依赖无线通讯实现集群运动和避障的一种基于纯粹视觉的分布式无人机协同运动控制方法和装置。

一种基于纯粹视觉的分布式无人机协同运动控制方法，所述方法包括：

构建基于纯粹视觉的分布式无人机集群运动模型，在分布式无人机集群运动模型中，无人机搭载有机载传感器和机载计算机；其中，机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，机载传感器信息包括灰度图像、深度图像和无人机运动信息；机载计算机根据其中的感知运动神经网络对机载传感器信息进行计算，得到控制指令，并根据控制指令控制无人机运动；感知运动神经网络包括专家系统和学生系统；

根据专家系统获取无人机飞行先验信息，并结合无人机集群飞行时的分离规则、聚集规则、对齐规则、防撞规则以及迁移规则进行计算，得到专家系统输出的第一控制指令；

学生系统包括模仿学习网络和多层感知器，根据模仿学习网络的三个分支分别获取并处理机载传感器信息中的灰度图像、深度图像以及无人机运动信息，得到灰度特征向量、深度特征向量以及运动特征向量；根据多层感知器对灰度特征向量、深度特征向量以及运动特征向量进行连接和处理，得到学生系统输出的第二控制指令；

通过离策略和数据聚合策略对学生系统进行训练，直至得到训练好的学生系统，并根据训练好的学生系统输出的最终控制指令控制无人机运动。

在其中一个实施例中，惯性测量单元获取的无人机运动信息包括无人机自身速度、加速度、姿态信息和参考飞行方向，其中，参考飞行方向是指在不考虑冲突和碰撞情况下，从无人机当前位置指向目标位置的飞行方向。

在其中一个实施例中，无人机飞行先验信息包括：无人机自身准确状态信息、邻近无人机准确状态信息、目标信息以及障碍物信息；其中，无人机自身准确状态信息包括无人机自身位置信息、无人机自身速度信息和无人机自身加速度信息，邻近无人机准确状态信息包括邻近无人机位置信息和邻近无人机速度信息。

在其中一个实施例中，根据专家系统获取无人机飞行先验信息，并结合无人机集群飞行时的分离规则、聚集规则、对齐规则、防撞规则以及迁移规则进行计算，得到专家系统输出的第一控制指令，包括：

根据专家系统获取无人机飞行先验信息，并结合分离规则、聚集规则、对齐规则、防撞规则以及迁移规则对无人机飞行先验信息进行计算，分别得到无人机飞行的分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项；

通过对分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项进行求和，得到无人机飞行的最终速度，并将最终速度作为专家系统输出的第一控制指令。

在其中一个实施例中，通过对分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项进行求和，得到无人机飞行的最终速度，包括：

在每一时间步长内，对分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项进行求和，得到无人机飞行的期望速度，表示为

其中，

表示无人机i的分离速度项，

表示无人机i的聚集速度项，

表示无人机i的对齐速度项，

表示无人机i接近障碍物s的避撞速度项，

表示无人机i的迁移速度项；

根据预设速度上限v^max对期望速度进行约束，得到无人机飞行的最终速度，表示为

在其中一个实施例中，根据预设速度上限v^max对期望速度进行约束，得到无人机飞行的最终速度之前，还包括：

根据预设加速度上限对期望速度进行约束，期望速度的变化不超过预设加速度上限。

在其中一个实施例中，根据模仿学习网络的三个分支分别获取并处理机载传感器信息中的灰度图像、深度图像以及无人机运动信息，得到灰度特征向量、深度特征向量以及运动特征向量，包括：

模仿学习网络的第一神经网络分支包括目标检测层、二维卷积神经网络和一维时域卷积神经网络；根据目标检测层对输入的灰度图像进行目标识别，得到识别目标的五维特征向量；根据二维卷积神经网络对经过扩展的五维特征向量进行处理，得到特征向量的历史数据；根据一维时域卷积神经网络对特征向量的历史数据进行处理，得到灰度特征向量；

模仿学习网络的第二神经网络分支包括深度图像特征提取网络、一维卷积神经网络和一维时域卷积神经网络；根据深度图像特征提取网络对输入的深度图像进行特征提取，输出得到深度图像特征；根据一维卷积神经网络对深度图像特征进行处理，输出得到深度图像特征的历史数据；根据一维时域卷积神经网络对深度图像特征的历史数据进行处理，得到深度特征向量；

模仿学习网络的第三神经网络分支包括状态采样模块和五层感知网络；根据状态采样模块对输入的无人机运动信息中的无人机自身速度、加速度、姿态信息和参考飞行方向进行采样并连接，得到连接后的采样信息；根据五层感知网络对连接后的采样信息进行处理，得到运动特征向量。

在其中一个实施例中，通过离策略和数据聚合策略对学生系统进行训练，直至得到训练好的学生系统，包括：

根据离策略最小化训练过程中第一控制指令与第二控制指令之间的动作差异，并根据数据集合策略获取的每次训练时无人机采集的机载传感器信息和无人机当前飞行执行的控制指令对所述动作差异进行更新，直至得到训练好的学生系统。

在其中一个实施例中，根据离策略最小化训练过程中第一控制指令与第二控制指令之间的动作差异，包括：

在训练过程中，当第一控制指令与第二控制指令之间的动作差异小于预设动作差异阈值，且无人机执行第二控制指令进行运动不会发生碰撞时，根据第二控制指令控制无人机运动；否则，根据第一控制指令控制无人机运动；其中，每经过一次训练，将预设动作差异阈值ξ更新为ζ′＝min(ζ+0.5,10)；

在训练完成后，根据训练好的学生系统输出的最终控制指令控制无人机运动。

一种基于纯粹视觉的分布式无人机协同运动控制装置，所述装置包括：

分布式无人机集群运动构建模块，用于构建基于纯粹视觉的分布式无人机集群运动模型，在分布式无人机集群运动模型中，无人机搭载有机载传感器和机载计算机；其中，机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，机载传感器信息包括灰度图像、深度图像和无人机运动信息；机载计算机根据其中的感知运动神经网络对机载传感器信息进行计算，得到控制指令，并根据控制指令控制无人机运动；感知运动神经网络包括专家系统和学生系统；

第一控制指令输出模块，用于根据专家系统获取无人机飞行先验信息，并结合无人机集群飞行时的分离规则、聚集规则、对齐规则、防撞规则以及迁移规则进行计算，得到专家系统输出的第一控制指令；

第二控制指令输出模块，用于根据学生系统中的模仿学习网络的三个分支分别获取并处理机载传感器信息中的灰度图像、深度图像以及无人机运动信息，得到灰度特征向量、深度特征向量以及运动特征向量；根据学习系中的多层感知器对灰度特征向量、深度特征向量以及运动特征向量进行连接和处理，得到学生系统输出的第二控制指令；

训练模块，用于通过离策略和数据聚合策略对学生系统进行训练，直至得到训练好的学生系统，并根据训练好的学生系统输出的最终控制指令控制无人机运动。

上述基于纯粹视觉的分布式无人机协同运动控制方法和装置，构建了基于纯粹视觉的分布式无人机集群运动模型，在模型中无人机通过机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，通过机载计算机其中的感知运动神经网络对机载传感器信息进行计算，得到控制指令，并根据控制指令控制无人机运动。采用本方法可以保证无人机之间不依赖通讯，仅纯粹依靠机载传感器视觉感知到环境障碍物和邻近无人机，并根据机载计算机中的感知运动神经网络将传感器感知数据直接映射为高级控制信号，实现无人机在复杂环境中进行集群、避障、导航等运动。

附图说明

图1为一个实施例中基于纯粹视觉的分布式无人机协同运动控制方法的流程示意图；

图2为一个实施例中基于纯粹视觉的分布式无人机集群运动模型的流程示意图；

图3为一个实施例中学生系统的网络架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于纯粹视觉的分布式无人机协同运动控制方法，包括以下步骤：

步骤S1，构建基于纯粹视觉的分布式无人机集群运动模型，在分布式无人机集群运动模型中，无人机搭载有机载传感器和机载计算机；其中，机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，机载传感器信息包括灰度图像、深度图像和无人机运动信息；机载计算机根据其中的感知运动神经网络对机载传感器信息进行计算，得到控制指令，并根据控制指令控制无人机运动；感知运动神经网络包括专家系统和学生系统。

其中，构建的基于纯粹视觉的分布式无人机集群运动模型如图2所示，整个模型的演示、数据收集和验证均在Gazebo搭建的仿真环境中进行，无人机模型是基于ros(机器人操作系统)构建得到。结合图2可知，机载传感器信息中的灰度图像来自于无人机搭载的左、右、后方的灰度单目相机和前侧双目深度相机，深度图像来自于无人机搭载的前侧双目深度相机，以及惯性测量单元(IMU)获取的无人机运动信息。无人机运动信息具体包括无人机自身速度、加速度、姿态信息和参考飞行方向，其中，参考飞行方向是指在不考虑冲突和碰撞情况下，从无人机当前位置指向目标位置的飞行方向。无人机飞行先验信息包括：无人机自身准确状态信息、邻近无人机准确状态信息、目标信息以及障碍物信息；其中，无人机自身准确状态信息包括无人机自身位置信息、无人机自身速度信息和无人机自身加速度信息，邻近无人机准确状态信息包括邻近无人机位置信息和邻近无人机速度信息。

可以理解，机载传感器获取的视觉感知不仅能够提供无与伦比的信息密度，且不依赖于通信，具有实时性。与其它无人机感知设备相比，机载传感器相机在重量、成本、尺寸、功耗和视野方面具有明显优势。对于无人机，视觉感知信息量足够丰富，且不需要组网，不存在网络延迟和网络干扰问题。

步骤S2，根据专家系统获取无人机飞行先验信息，并结合无人机集群飞行时的分离规则、聚集规则、对齐规则、防撞规则以及迁移规则进行计算，得到专家系统输出的第一控制指令。

可以理解，专家系统包括基于群体智能(Reynolds-Boids)的运动模型，通过该模型获取的无人机飞行先验信息为学生系统提供高质量的决策行为数据(即第一控制指令)。

步骤S3，学生系统包括模仿学习网络和多层感知器，根据模仿学习网络的三个分支分别获取并处理机载传感器信息中的灰度图像、深度图像以及无人机运动信息，得到灰度特征向量、深度特征向量以及运动特征向量；根据多层感知器对灰度特征向量、深度特征向量以及运动特征向量进行连接和处理，得到学生系统输出的第二控制指令。

可以理解，学生系统是端对端的感知运动控制器，不能获取任何先验信息，仅配备来自机载传感器的记载传感器信息，通过模仿学习网络和多层感知器生成第二控制指令。

步骤S4，通过离策略和数据聚合策略对学生系统进行训练，直至得到训练好的学生系统，并根据训练好的学生系统输出的最终控制指令控制无人机运动。

可以理解，学生系统采用模仿学习机制，通过模仿专家系统提供的演示来实现视觉输入到控制指令的映射训练，最终训练得到一个训练好的端对端的感知运动控制器。在训练过程中，主要根据数据聚合策略(Dagger)收集无人机采集到的机载传感器信息和无人机当前飞行执行的控制指令，根据离策略(off-policy)最小化训练过程中第一控制指令与第二控制指令之间的动作差异，直至得到训练好的的学生系统，并根据训练好的学生系统输出的最终控制指令控制无人机运动。

可以理解，面对不确定的、多样的、动态的环境和任务，相比传统控制器将无人机控制解耦为多个子任务，端对端的感知运动控制器直接从传感器数据预测控制命令，减少了感知和动作之间的延迟，同时对感知伪影(如运动模糊、数据丢失和传感器噪声)等具有鲁棒性。此外，模仿学习机制具有动态自适应能力，可以很好地解决泛化问题，从而具有所谓的智能性，并且由于有比较高质量的决策行为数据，模仿学习可以降低样本复杂度。

上述基于纯粹视觉的分布式无人机协同运动控制方法中，构建了基于纯粹视觉的分布式无人机集群运动模型，在模型中无人机通过机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，通过机载计算机其中的感知运动神经网络对机载传感器信息进行计算，得到控制指令，并根据控制指令控制无人机运动；并根据感知运动神经网络中的专家系统和学生系统分别输出第一控制指令和第二控制指令；最后通过离策略和数据聚合策略对学生系统进行训练，直至得到训练好的学生系统，并根据训练好的学生系统输出的最终控制指令控制无人机运动。采用本方法可以保证无人机之间不依赖通讯，仅纯粹依靠机载传感器视觉感知到环境障碍物和邻近无人机，并根据机载计算机中的感知运动神经网络将传感器感知数据直接映射为高级控制信号，实现无人机在复杂环境中进行集群、避障、导航等运动。

首先，根据专家系统中的基于群体智能的运动模型描述无人机集群中无人机的运动学方程。其中，无人机集群包括N个四旋翼无人机，每个四旋翼无人机具有相同的运动特性，且每个四旋翼无人机具有四个螺旋桨和一个控制器。控制器可以分别向每个螺旋桨发出控制命令。为了简单地模拟四旋翼无人机，假定四旋翼无人机的飞行速度足够慢，可以忽略作用在四旋翼上的外部空气动力，例如空气阻力和叶片涡流；其次，假定螺旋桨对推力指令的响应速度足够快，可以忽略从控制器向螺旋桨发出推力指令到螺旋桨实际产生推力的时间延迟。因此，在上述假定忽略空气阻力和电机动力学的条件下，四旋翼无人机的运动学方程可以表示为

其中，p_WB，v_WB，q_WB分别表示无人机在世界坐标系下的位置，线速度以及姿态，

分别表示p_WB，v_WB，q_WB对时间的一阶导数，g_w表示世界坐标系下的重力加速度，q_WB⊙c_B表示质量标准化推力矢量c_B＝(0,0,c)^T在q_WB下的转换，c表示推力大小，q_WB的四元组形式表示为q_WB＝(q_w,q_x,q_y,q_z)^T，Λ(ω_B)表示向量

的斜对称矩阵，J＝diag(J_xx,J_yy,J_zz)表示无人机的转动惯量，

表示电机推力作用在无人机上的扭矩，

表示3维实数向量集。

然后，根据专家系统获取无人机飞行先验信息，并结合分离规则、聚集规则、对齐规则、防撞规则以及迁移规则对无人机飞行先验信息进行计算，分别得到无人机飞行的分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项。

具体地，分离规则是指在无人机集群运动中，避免集群内无人机过于接近，保证无人机维持适当的距离，防止无人机间发生碰撞的规则。对于分离速度项

其大小与无人机间的距离r_ij和接近速度

相关，无人机间的排斥范围与无人机间的接近速度有关，定义排斥范围为

当无人机间距离小于此值时，无人机间生成局部排斥力，产生分离速度项，无人机距离越近，排斥力越强，无人机接近速度越大，排斥力越强。排斥范围和接近速度具体表示为

其中，

为无人机之间允许的最小间隔距离，当无人机间距离小于该距离时，无人机间一定会产生排斥，r_ij＝|p_i-p_j|为无人机i和邻近无人机j之间的空间距离，T为预测区间,一般设置为2s；根据上述排斥范围和接近速度进行计算，得到无人机i和邻近无人机j之间的分离速度为

进而计算得到无人机i产生的总的分离速度项为

具体地，聚集规则是指在集群运动过程中，保证无人机集群聚集，不会分散开的规则。对于聚集速度项，其大小与无人机间的距离r_ij和远离速度

相关，定义聚集距离为

当无人机间距离大于此值时，无人机间的局部吸引力起作用，产生聚集速度项，无人机间距离越大，吸引力越大，无人机间远离速度越大，吸引力越强。聚集距离和远离速度具体表示为

其中，

为无人机间聚集阈值，当无人机间距离大于该距离时，无人机间一定会产生吸引力；根据上述聚集距离和远离速度进行计算，得到无人机i和邻近无人机j之间的聚集速度为

进而计算得到无人机i产生的总的聚集速度项为

具体地，对齐规则是指在集群运动中，让无人机尽量与邻近个体的平均方向一致，让集群往同一方向运动，保证无人机集群的有序性的规则。根据对齐规则计算的无人机i和邻近无人机j之间的对齐速度为

进而计算得到的无人机i产生的总的对齐速度项为

其中，C^frict表示对齐参数，为常量。

具体地，对于防撞规则，障碍物被解构为多个点，无人机与半径范围r内障碍物产生排斥力，无人机距离障碍物越近，接近障碍物速度越大，避撞速度项越大，假定障碍物s的位置为

定义无人机i与障碍物s之间的排斥范围为

其中r_is为当前时刻无人机与障碍物的空间距离，

为无人机接近障碍物的速度。根据防撞规则计算得到的无人机i与障碍物s之间的避撞速度表示为

同理，根据迁移规则计算得到迁移速度项

指引无人机往目标运动，迁移速度项

的方向为目标点方向，大小为常数项。

最后，在每一时间步长内，对上述分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项进行求和，得到无人机飞行的期望速度，表示为

在叠加得到期望速度后，为了无人机速度过大，根据预设速度上限v^max对期望速度进行约束，得到无人机飞行的最终速度，表示为

同时考虑无人机的机动性能，根据预设加速度上限对期望速度进行约束，期望速度的变化不超过预设加速度上限。

在其中一个实施例中，学生系统的网络架构如图3，包括含有三个分支的模仿学习网络和一个多层感知器。

其中，模仿学习网络的第一神经网络分支包括目标检测层、二维卷积神经网络和一维时域卷积神经网络。首先根据目标检测层对输入的灰度图像

进行目标识别，目标检测层采用在自动标注的图像数据集上预先训练的yolo3v3-tiny架构，网络体系结构总共由13个卷积层构成，其中穿插有最大池化层和修正线性单元(leakyrectified linear units,ReLUs)，目标检测层输出得到识别目标的五维特征向量[direction,x,y,size_x,size_y]，[direction]为图像方向标记，即目标检测来源摄像头的方向(front，left，right，back)，[x,y]为识别目标位于图像上的坐标，[size_x,size_y]为识别框的长宽。然后，将识别目标的五维特征向量扩展为一个张量的维度，并输入二维卷积神经网络进行处理，二维卷积神经网络包含4个隐藏层，分别为(32,64,128,128)的过滤器，中间穿插LeakyRelu激活连接层，最后经过全局平均池化层处理(globalAveragePoling2D)，输出特征向量的时间长度为T＝5的历史数据，历史数据足以推断临近无人机的运动信息。最后，将历史数据输入到1D时域卷积网络中进行处理，该网络包含4个隐藏层，分别为(128,64,64,64)过滤器，最后通过一个全连接层将信号映射到128维，得到灰度特征向量。

模仿学习网络的第二神经网络分支包括深度图像特征提取网络、一维卷积神经网络和一维时域卷积神经网络；首先，根据深度图像特征提取网络对输入的深度图像

进行特征提取，深度图像特征提取网络采用预先训练好的MobileNet结构从深度图像提取得到深度图像特征。然后根据一维卷积神经网络对深度图像特征进行处理，该网络包括4个隐藏层，分别为(128,64,64,64)过滤器，中间穿插LeakyRelu激活连接层，输出得到深度图像特征的时间长度为T＝5的历史数据。最后根据一维时域卷积神经网络对深度图像特征的历史数据进行处理，输出得到120维度的深度特征向量。

模仿学习网络的第三神经网络分支包括状态采样模块和五层感知网络；首先，根据状态采样模块以100Hz的频率对输入的无人机运动信息中的无人机自身速度

加速度

以旋转矩阵表示的姿态信息

和参考飞行方向

进行采样并连接，得到连接后的采样信息。然后根据五层感知网络对连接后的采样信息进行处理，该网络为[128,64,64,64,,32]的过滤层，中间穿插LeakyReLU激活层，最后通过完连接层将信号映射得到128维运动特征向量。

在得到模仿学习网络的三个分支输出的灰度特征向量、深度特征向量以及运动特征向量之后，各个分支的输出由一个多层感知器连接并处理，该网络包含4个隐藏层，分别为(128,64,64,64)过滤器，然后通过全连接层映射到3维特征向量[v_x，v_y,v_z]，得到学生系统输出的第二控制指令。同专家系统一样，为了防止神经网络产生的速度指令突变，这样会导致无人机强烈的俯仰运动，对学生系统产生的速度控制指令，设置速度上限v_max。同时设置加速度上限a_max，速度的最大变化不能超过a_max。

首先采取离策略进行训练，在无人机第k次飞行过程中，在每一时刻t，专家系统基于无人机飞行先验信息s_k(t)产生第一控制指令

学生系统在策略π上，基于对感知真实世界的机载传感器信息o_k(t)产生第二控制指令

采用监督学习来训练神经网络，直到寻到最优策略，并将寻找与专家系统具有相同性能的学生系统归结为最小化两个策略在运动过程中的动作差异，表示为

其中，

表示差异，

表示表示学生策略，ρ(π)表示无人机在学生系统控制下的轨迹，

表示学生策略

在机载传感器信息o_k下产生的控制指令，即第二控制指令

然后根据数据集合策略，在第k+1次迭代中利用k次学习训练得到控制指令控制无人机飞行，并收集此次飞行中采集到的机载传感器信息o_k+1(t)和对应的控制指令

并构建数据集

当无人机完成一个来回的飞行后，将所有无人机收集的数据集

添加进数据池，然后利用所有的数据集训练新的

不断重复这个过程直至训练完成。

进一步的，为了防止在训练过程产生碰撞，在训练过程中，当第一控制指令与第二控制指令之间的动作差异小于预设动作差异阈值，且无人机执行第二控制指令进行运动不会发生碰撞时，根据第二控制指令控制无人机运动；否则，根据第一控制指令控制无人机运动；其中，每经过一次训练，将预设动作差异阈值ξ更新为ξ′＝min(ξ+0.5,10)；在训练完成后，完全根据训练好的学生系统输出的最终控制指令控制无人机运动。

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种基于纯粹视觉的分布式无人机协同运动控制装置，包括：分布式无人机集群运动构建模块、第一控制指令输出模块、第二控制指令输出模块和训练模块，其中：

关于基于纯粹视觉的分布式无人机协同运动控制装置的具体限定可以参见上文中对于基于纯粹视觉的分布式无人机协同运动控制方法的限定，在此不再赘述。上述基于纯粹视觉的分布式无人机协同运动控制装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于纯粹视觉的分布式无人机协同运动控制方法，其特征在于，所述方法包括：

构建基于纯粹视觉的分布式无人机集群运动模型，在所述分布式无人机集群运动模型中，无人机搭载有机载传感器和机载计算机；其中，所述机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，所述机载传感器信息包括灰度图像、深度图像和无人机运动信息；所述机载计算机根据其中的感知运动神经网络对所述机载传感器信息进行计算，得到控制指令，并根据所述控制指令控制无人机运动；所述感知运动神经网络包括专家系统和学生系统；

根据所述专家系统获取无人机飞行先验信息，并结合无人机集群飞行时的分离规则、聚集规则、对齐规则、防撞规则以及迁移规则进行计算，得到所述专家系统输出的第一控制指令；

所述学生系统包括模仿学习网络和多层感知器，根据所述模仿学习网络的三个分支分别获取并处理所述机载传感器信息中的灰度图像、深度图像以及无人机运动信息，得到灰度特征向量、深度特征向量以及运动特征向量；根据所述多层感知器对所述灰度特征向量、深度特征向量以及运动特征向量进行连接和处理，得到所述学生系统输出的第二控制指令；

通过离策略和数据聚合策略对所述学生系统进行训练，直至得到训练好的学生系统，并根据所述训练好的学生系统输出的最终控制指令控制无人机运动。

2.根据权利要求1所述的方法，其特征在于，所述惯性测量单元获取的无人机运动信息包括无人机自身速度、加速度、姿态信息和参考飞行方向，其中，所述参考飞行方向是指在不考虑冲突和碰撞情况下，从无人机当前位置指向目标位置的飞行方向。

3.根据权利要求1所述的方法，其特征在于，所述无人机飞行先验信息包括：无人机自身准确状态信息、邻近无人机准确状态信息、目标信息以及障碍物信息；其中，所述无人机自身准确状态信息包括无人机自身位置信息、无人机自身速度信息和无人机自身加速度信息，所述邻近无人机准确状态信息包括邻近无人机位置信息和邻近无人机速度信息。

4.根据权利要求1所述的方法，其特征在于，根据所述专家系统获取无人机飞行先验信息，并结合无人机集群飞行时的分离规则、聚集规则、对齐规则、防撞规则以及迁移规则进行计算，得到所述专家系统输出的第一控制指令，包括：

根据所述专家系统获取无人机飞行先验信息，并结合分离规则、聚集规则、对齐规则、防撞规则以及迁移规则对所述无人机飞行先验信息进行计算，分别得到无人机飞行的分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项；

通过对所述分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项进行求和，得到无人机飞行的最终速度，并将所述最终速度作为专家系统输出的第一控制指令。

5.根据权利要求4所述的方法，其特征在于，通过对所述分离速度项、聚集速度项、对齐速度项、避撞速度项以及迁移速度项进行求和，得到无人机飞行的最终速度，包括：

其中，

表示无人机i的分离速度项，

表示无人机i的聚集速度项，

表示无人机i的对齐速度项，

表示无人机i接近障碍物s的避撞速度项，

表示无人机i的迁移速度项；

根据预设速度上限v^max对所述期望速度进行约束，得到无人机飞行的最终速度，表示为

6.根据权利要求5所述的方法，其特征在于，根据预设速度上限v^max对所述期望速度进行约束，得到无人机飞行的最终速度之前，还包括：

根据预设加速度上限对所述期望速度进行约束，所述期望速度的变化不超过预设加速度上限。

7.根据权利要求1所述的方法，其特征在于，根据所述模仿学习网络的三个分支分别获取并处理所述机载传感器信息中的灰度图像、深度图像以及无人机运动信息，得到灰度特征向量、深度特征向量以及运动特征向量，包括：

所述模仿学习网络的第一神经网络分支包括目标检测层、二维卷积神经网络和一维时域卷积神经网络；根据所述目标检测层对输入的灰度图像进行目标识别，得到识别目标的五维特征向量；根据所述二维卷积神经网络对经过扩展的五维特征向量进行处理，得到特征向量的历史数据；根据所述一维时域卷积神经网络对所述特征向量的历史数据进行处理，得到灰度特征向量；

所述模仿学习网络的第二神经网络分支包括深度图像特征提取网络、一维卷积神经网络和一维时域卷积神经网络；根据所述深度图像特征提取网络对输入的所述深度图像进行特征提取，输出得到深度图像特征；根据所述一维卷积神经网络对所述深度图像特征进行处理，输出得到所述深度图像特征的历史数据；根据所述一维时域卷积神经网络对所述深度图像特征的历史数据进行处理，得到深度特征向量；

所述模仿学习网络的第三神经网络分支包括状态采样模块和五层感知网络；根据所述状态采样模块对输入的所述无人机运动信息中的无人机自身速度、加速度、姿态信息和参考飞行方向进行采样并连接，得到连接后的采样信息；根据所述五层感知网络对所述连接后的采样信息进行处理，得到运动特征向量。

8.根据权利要求1所述的方法，其特征在于，通过离策略和数据聚合策略对所述学生系统进行训练，直至得到训练好的学生系统，包括：

9.根据权利要求8所述的方法，其特征在于，根据离策略最小化训练过程中第一控制指令与第二控制指令之间的动作差异，包括：

在训练过程中，当所述第一控制指令与第二控制指令之间的动作差异小于预设动作差异阈值，且无人机执行所述第二控制指令进行运动不会发生碰撞时，根据所述第二控制指令控制无人机运动；否则，根据所述第一控制指令控制无人机运动；其中，每经过一次训练，将预设动作差异阈值ξ更新为ξ^′＝min(ξ+0.5,10)；

在训练完成后，根据所述训练好的学生系统输出的最终控制指令控制无人机运动。

10.一种基于纯粹视觉的分布式无人机协同运动控制装置，其特征在于，所述装置包括：

分布式无人机集群运动构建模块，用于构建基于纯粹视觉的分布式无人机集群运动模型，在所述分布式无人机集群运动模型中，无人机搭载有机载传感器和机载计算机；其中，所述机载传感器对无人机飞行的外界环境进行感知并获取机载传感器信息，所述机载传感器信息包括灰度图像、深度图像和无人机运动信息；所述机载计算机根据其中的感知运动神经网络对所述机载传感器信息进行计算，得到控制指令，并根据所述控制指令控制无人机运动；所述感知运动神经网络包括专家系统和学生系统；

第一控制指令输出模块，用于根据所述专家系统获取无人机飞行先验信息，并结合无人机集群飞行时的分离规则、聚集规则、对齐规则、防撞规则以及迁移规则进行计算，得到所述专家系统输出的第一控制指令；

第二控制指令输出模块，用于根据所述学生系统中的模仿学习网络的三个分支分别获取并处理所述机载传感器信息中的灰度图像、深度图像以及无人机运动信息，得到灰度特征向量、深度特征向量以及运动特征向量；根据所述学习系中的多层感知器对所述灰度特征向量、深度特征向量以及运动特征向量进行连接和处理，得到所述学生系统输出的第二控制指令；

训练模块，用于通过离策略和数据聚合策略对所述学生系统进行训练，直至得到训练好的学生系统，并根据所述训练好的学生系统输出的最终控制指令控制无人机运动。