CN111780777A

CN111780777A - 一种基于改进a*算法和深度强化学习的无人车路径规划方法

Info

Publication number: CN111780777A
Application number: CN202010670465.3A
Authority: CN
Inventors: 丘腾海; 蒲志强; 刘振; 易建强; 常红星
Original assignee: Jiangsu Zhongke Intelligent Manufacturing Research Institute Co ltd; Institute of Automation of Chinese Academy of Science
Current assignee: Jiangsu Taizhou Port Core Port Investment Co ltd
Priority date: 2020-07-13
Filing date: 2020-07-13
Publication date: 2020-10-16
Anticipated expiration: 2040-07-13
Also published as: CN111780777B

Abstract

本发明属于无人车导航技术领域，具体涉及一种基于改进A*算法和深度强化学习的无人车路径规划方法，旨在充分发挥全局路径规划全局最优和局部规划实时避障的优势，以及改进A*算法的快速实时性和深度强化学习算法的复杂环境适应性，快速规划出无人车从起始点到目标点的无碰撞最优路径。本发明的规划方法包括：根据环境信息，建立初始化栅格代价地图；利用改进的A*算法规划全局路径；基于全局路径和激光雷达传感器性能，设计滑动窗口，将窗口探测的信息作为网络的状态输入；基于深度强化学习方法，采用Actor‑Critic架构，设计局部规划网络，本发明将知识和数据方法相结合，能够快速规划得到最优路径，使得无人车拥有更高的自主性。

Description

一种基于改进A*算法和深度强化学习的无人车路径规划方法

技术领域

本发明涉及无人车导航技术领域，具体为一种基于改进A*算法和深度强化学习的无人车路径规划方法。

背景技术

现如今无人车的应用场景呈现形态多样化、应用多元化和环境复杂化的趋势，比如京东仓储物流车、服务机器人、工厂安防巡逻无人车、菜鸟物流无人车等。未来这种自动化、智能化的无人系统会越来越普及。其中无人车路径规划是支撑无人车自主机动能力的核心算法之一，是解决无人车如何从起始点到目标点，使得路径最优的问题。通常情况下，要求在保证无人车自身安全的前提下，躲避障碍物，寻找一条路程最短或安全度最高的路径。路径规划问题可以分为全局路径规划和局部路径规划。前者是指基于全局地图信息，规划出一条全局最优的无碰撞路径。后者是指基于全局规划路径，解决无人车行进过程中碰到的部分未知区域或突发状态，使得无人车依然能够快速、及时、安全的到达目标点。

目前为止，国内外学者已提出很多无人车路径规划算法，全局路径规划包括A*算法、Dijkstra算法、遗传算法等。其中A*算法利用启发式信息避免Dijkstra算法的盲目性，减小了大量冗余的搜索空间，其问题在于得到的路径未考虑无人车的连续性机动减速，与障碍物距离过近，无法及时避免潜在风险，且存在路径不平滑的缺点。另外，全局路径规划依赖全局环境信息，其数据存储量和计算量较大，应用场景有限。而人工势场法、DWA算法等局部路径规划的常用算法，具有较好的实时性，但存在容易陷入局部最优的问题，且由于全局信息未知，可能丢失目标，陷入局部振荡的状态，因此，本发明设计一种基于改进A*算法和深度强化学习的无人车路径规划方法以解决现有技术中存在的问题。

发明内容

为解决现有无人车导航技术中的上述问题，本发明提出一种基于改进A*算法和深度强化学习的无人车路径规划方法，所述方法将全局路径规划与局部路径规划相结合，充分发挥全局路径规划全局最优和局部规划实时避障的优势，以及改进A*算法的快速实时性和深度强化学习算法的复杂环境适应性，在环境信息部分未知或遇见突发情况下，依然能够快速规划求解出无人车从起始点到目标点的无碰撞最优路径。本发明所采取的技术方案为：

一种基于改进A*算法和深度强化学习的无人车路径规划方法，包括以下步骤：

(1)根据环境信息，建立初始化栅格代价地图。利用SALM技术对环境进行地图建模，提取障碍物信息，标定障碍物类型，通过代价模型对障碍物周围栅格的威胁进行评估。

(2)利用改进的A*算法规划全局路径。考虑障碍物代价和路径转折点过多的问题，引入启发式信息，改进A*算法模型，优化全局规划结果；

(3)基于全局路径和激光雷达传感器性能，设计滑动窗口，将窗口探测的信息作为网络的状态输入，进行局部规划。具体步骤为：

1)根据激光雷达探测距离初始化滑动窗口大小为W，W是奇数；

2)以无人车起始位置作为滑动窗口的中心原点O_w；

3)将全局规划路径序列在滑动窗口内路径段的最后一个点作为临时目标点T_w；

4)当无人车到达临时目标点后，将该时刻的临时目标点作为起始点，切换滑动窗口。

(4)基于深度强化学习方法，采用Actor-Critic架构，设计局部规划网络。具体步骤如下：

1)设计局部规划网络的状态输入空间。将栅格全局坐标系下的障碍物、目标、无人车位置等信息转换到以滑动窗口中心为原点的局部坐标系下，并将其作为局部规划网络的状态输入s，表达式如下所示，组成状态空间S：

其中，s_l表示激光雷达传感器所有探针测得的障碍物距离向量，s_l＝{l₁，l₁，…l_N}，l₁…l_N表示探针测得的距离，N表示激光雷达传感器的探针数量，

分别表示滑动窗口局部坐标系下临时目标点的坐标，p_x、，p_y分别表示无人车在局部坐标系下的x、y轴坐标，v_x、v_y分别表示无人车在局部坐标系下的x、y轴的速度分量。

2)设计无人车在局部规划网络的决策动作空间。在滑动窗口局部坐标系下，将无人车机动方向动作分为前、后、左、右、左前、左后、右前、右后等八个候选动作

无人车机动速率动作分为

五个离散候选速率动作，于是无人车决策动作表达式如下，组成动作空间A：

a＝{a_d，a_v}

3)结合栅格代价地图，设计局部规划网络的回报函数r。具体表达式如下所示：

其中，d_t、d_t-1分别表示当前时刻与前一时刻无人车与临时目标点的距离，v表示无人车在滑动窗口的机动速度，

d_t表示时间间隔，λ₁、λ₂表示奖惩系数，

表示当无人车与滑动窗口临时目标点的距离随时间变大时，给予无人车负的惩罚；

表示当无人车与滑动窗口临时目标点的距离随时间变小时，给予无人车正的奖励；r_s表示无人车每走一步，根据栅格代价地图得到的惩罚；r_c表示碰到障碍物时的惩罚；r_a表示到达临时目标点时的惩罚。

4)采用Actor-Critic架构，设计局部规划网络，并训练网络模型。将网络结构分为策略网络和价值网络。所述策略网络用于预测无人车的下一步动作，包括障碍物第一特征提取模块、目标引导模块和第一全连接层模块；所述价值网络用于对策略网络选择的动作评分，通过第二特征提取模块提取无人车状态和动作，再由第二全连接层模块计算综合价值，评估动作的好坏程度，反馈给策略网络。采用课程训练的方式，逐步增加训练环境的复杂程度，直至训练误差小于ε，结束网络模型的训练。

(5)结合全局规划路径，将训练好的局部规划网络模型应用于无人车导航。

优选地，“根据环境信息，建立初始化栅格代价地图”，其方法为：利用SALM技术对环境进行地图建模，提取障碍物信息，标定障碍物类型，通过代价模型对障碍物周围栅格的威胁进行评估。具体包括如下：

1)定义全局坐标系，通过SLAM技术提取环境障碍信息、目标信息和无人车自身信息，并将其转换到统一的全局坐标系，根据环境对象的尺寸比例进行栅格地图建模；

2)标定障碍物类型，设计障碍物威胁评估模型，初始化栅格代价地图，当前节点n的综合代价表达式具体如下：

r：

其中，r_B(n)表示无人车与障碍物碰撞的威胁代价，保证栅格距离障碍物越近，需要的成本代价越高；r_E(n)表示无人车机动的能耗代价，行进的距离越长，消耗的能力越大；对于松软或者坎坷的路面，无人车需要更大的能量输出，具体如下所示：

且

r_E(r

其中C为障碍物致命区代价，l(n)表示在当前节点n无人车与障碍物的距离，μ表示障碍物威胁系数，当距离超过L₃时为安全区域；C_n，n+1表示从栅格n到栅格n+1路面的坎坷程度，d_n，n+1为移动栅格之间的距离，w_k、w_v分别为两部分所占的权重。

优选地，所述“利用改进的A*算法规划全局路径”，其方法为：

所述改进的A*算法路径评价公式为F(n)＝G(n)+H(n)+T(n)，其中G(n)表示在栅格代价地图下无人车从起始节点到当前节点n的实际代价，

H(n)表示在栅格代价地图下无人车从当前节点到目标点的估计代价，可采用曼哈顿距离计算，T(n)表示从起始点到当前节点的转弯代价：

在栅格代价地图上，通过改进的A*算法规划全局路径，。

附图说明

图1是本发明一种基于改进A*算法和深度强化学习的无人车路径规划方法的流程图；

图2是基于传统A*算法的无人车路径规划结果；

图3是本发明一种基于改进A*算法和深度强化学习的无人车路径规划方法的策略网络结构图；

图4是本发明一种基于改进A*算法和深度强化学习的无人车路径规划方法的价值网络结构图；

图5是本发明栅格代价地图与基于改进A*算法和深度强化学习的无人车路径规划方法的规划结果示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更加清晰地对本发明一种基于改进A*算法和深度强化学习的无人车路径规划方法进行说明，下面结合附图1对本发明方法一种实施例中各步骤进行详述。包括以下步骤：

(1)根据环境信息，建立初始化栅格代价地图。利用SALM技术对环境进行地图建模，提取障碍物信息，标定障碍物类型，通过代价模型对障碍物周围栅格的威胁进行评估。具体地，具体包括如下：

S11：假定选择商业级激光雷达A0602，角度分辨率为0.5°，计算无人车姿态与第i个探针的夹角为

探针探测到的障碍物距离为l_i，

S12：探测到的障碍物点转化到全局坐标系的表达式为：

其中，θ_U表示无人车在全局坐标系上的前进方向，

(x_U，y_U)是指无人车在全局坐标系上的坐标，(x_i，y_i)表示尚未考虑障碍物尺寸的全局坐标。

S13：将障碍物点坐标转化成实际尺寸分辨率的栅格化地图坐标：

其中，w＝4表示栅格地图分辨率，与无人车物理尺寸和实际环境有关，(X_i，Y_i)表示障碍物在栅格地图的坐标。

r：

其中，α₁＝0.8、α₂＝0.2表示障碍物碰撞代价与能耗代价的权重，r_B(n)表示无人车与障碍物碰撞的威胁代价，保证栅格距离障碍物越近，需要的成本代价越高；r_E(n)表示无人车机动的能耗代价，行进的距离越长，消耗的能力越大；对于松软或者坎坷的路面，无人车需要更大的能量输出，具体如下所示：

且

r_E(r

其中C为障碍物致命区代价，l(n)表示在当前节点n无人车与障碍物的距离，μ表示障碍物威胁系数，与障碍物类型有关，当距离超过

L₃时为安全区域；C_n，n+1表示从栅格n到栅格n+1路面的坎坷程度，d_n，n+1为移动栅格之间的距离，w_k、w_k分别为两部分所占的权重。

(2)利用改进的A*算法规划全局路径。考虑障碍物代价和路径转折点过多的问题，引入启发式信息，改进A*算法模型，优化全局规划结果。具体步骤如下：

在栅格代价地图上，通过改进的A*算法规划全局路径。

S21：读取无人车起始点n_s和目标点n_g，创建两个空的链表集合：OPEN表和CLOSED表。并将起始点n_s加入到链表OPEN表，基于上文模型，初始化栅格地图代价；

S22：判断链表OPEN表是否为空，若为空，则停止搜索，否则继续执行；

S23：计算链表OPEN中所有节点的F(n)，并将值最小的节点n作为当前节点，加入到链表CLOSED表中，并判断当前节点n是否为目标点n_g，如果满足条件，则表示搜索成功，反向输出路径节点；否则，继续如下步骤；

S24：将当前节点n周围的节点扩展为子节点，如果子节点m不在OPEN表中，则将节点m加入到OPEN表，并将当前节点n作为节点m的父节点，当扩展到目标点n_g时，根据各节点的父节点反向遍历找到起始点n_s，得到最优路径；如果子节点在OPEN表中，则计算G(m)，与OPEN表中的旧值进行比较，如果小于旧值，则将当前节点设置为该节点的父节点；如果子节点在CLOSED表中，则跳过该节点，继续搜索其余节点；

S25：跳转到步骤S22继续执行，直到寻找到目标点n_g或OPEN表为空，结束搜索。

S31：根据激光雷达探测距离初始化滑动窗口大小。假定选择商业级激光雷达A0602，其最大扫描距离为8米，角度分辨率为0.5°，则滑动窗口大小为7×7，且激光雷达与无人车中心重合，每个扫描周期接收周围最多约700组数据；

S32：以无人车起始位置作为滑动窗口的中心原点O_w；

S33：将全局规划得到的路径序列与滑动窗口相交的第一个节点作为局部路径规划网络的临时目标点T_w和状态输入量；

S34：当无人车到达临时目标点后，将该时刻的临时目标点作为起始点，切换滑动窗口，直至到达目标点n_g。

其中，s_l表示激光雷达传感器所有探针测得的障碍物距离向量，s_l＝{l₁，l₁，…l_N}，l₁…l_N表示探针测得的距离，N表示激光雷达传感器的探针数量，假定N＝700，

分别表示滑动窗口局部坐标系下临时目标点的坐标，如图5所示中的①②③④表示临时目标点，p_x、，p_y分别表示无人车在局部坐标系下的x、y轴坐标，v_x、v_y分别表示表示无人车在局部坐标系下的x、y轴的速度分量。

2)设计无人车在局部规划网络的决策动作空间。在滑动窗口局部坐标系下，将无人车机动方向动作分为前、后、左、右、左前、左后、右前、右后等八个候选机动动作

无人车机动速率动作分为

五个离散候选速率动作，于是无人车决策动作表达式a如下所示，所有动作组成动作空间A：

a＝{a_d，a_v}

3)结合栅格代价地图，设计局部规划网络的回报函数r。深度强化学习中回报函数设计的好坏对学习系统性能有着重要作用，它决定强化学习算法的收敛速度和程度。具体表达式如下所示：

d_t表示时间间隔，λ₁＝0.5、λ₂＝0.5表示奖惩系数，

表示当无人车与滑动窗口临时目标点的距离随时间变小时，给予无人车正的奖励；r_s表示无人车每走一步，根据栅格代价地图得到的惩罚，包括障碍物的威胁代价和无人车机动的能耗代价；r_c＝-2表示无人车碰到障碍物时的惩罚；r_a＝5表示无人车到达临时目标点时的奖励。

4)采用Actor-Critic架构，设计局部规划网络，并训练网络模型。

将网络结构分为策略网络和价值网络，如图3和图4所示。所述策略网络用于预测无人车的下一步动作，包括障碍物第一特征提取模块41、目标引导模块42和第一全连接层模块43。其中第一特征提取模块41包括三个全连接层，激活函数为ReLu，神经元个数分别为350、200、200，输入为激光雷达探测信息s_l以及无人车当前位姿信息s_o；目标引导模块42包括三个全连接层，激活函数都为ReLu，神经元个数分别为250、200、200，输入为无人车当前位姿信息s_o以及临时目标点信息s_T；第一全连接层模块包括一个LSTM层，三个全连接层，结合前面两个模块提取的特征信息，预测无人车下一个动作。

所述价值网络用于对策略网络选择的动作评分，通过第二特征提取模块44提取无人车状态和动作特征，再由第二全连接层模块45计算综合价值，评估动作的好坏程度，反馈给策略网络。其中第二特征提取模块44输入为激光雷达探测信息、无人车当前位姿和临时目标点信息组成的状态s、策略网络预测的无人车下一个动作a_n以及网络偏移量b，模块包括两个卷积层，激活函数是ReLu，一个LSTM层，用于增强网络的记忆能力，第二全连接层模块包括3个全连接网络，用于计算动作的评价值。

局部路径规划网络模型的训练采用异步执行多个无人车仿真智能体，通过并行训练的方式经历不同状态，去除训练过程中产生的状态转移样本之间的关联性，主网络负责存储训练参数，子网络是主网络的副本，结构与主网络一致，负责网络模型的训练。优化算法采用Adam算法，基于训练数据迭代地更新神经网络权重。同时，通过课程训练的方式，逐步增加训练环境的复杂程度，直至训练误差小于ε＝0.01，结束网络模型的训练。

(5)结合全局规划路径，将训练好的局部规划网络模型应用于无人车导航。具体步骤如下：

S51：根据环境信息，通过SLAM技术提取障碍物信息，并基于障碍物威胁代价模型及能耗代价模型，建立栅格化代价地图；

S52：利用改进的A*算法，考虑栅格代价和转弯代价，规划出全局最优路径；

S53：以无人车起始位置为原点，设计滑动窗口，将滑动窗口与全局最优路径的相交点作为局部路径规划网络的临时目标点；

S54：将激光雷达探测的状态信息输入到训练好的基于改进A*算法和深度强化学习的局部规划网络规划局部路径，输出最终的最优路径。

综上所述，本发明提出一种基于改进A*算法和深度强化学习的无人车路径规划方法，利用SLAM技术提取环境信息，通过障碍物威胁代价模型和能耗代价模型，建立栅格代价地图，并结合改进的A*算法规划出全局最优路径，同时考虑到栅格地图部分未知或突发状态，引入滑动窗口的思路，提出基于改进A*算法和深度强化学习的局部路径规划网络，通过数据驱动的规划方法，快速规划求解出无人车从起始点到目标点的无碰撞最优路。

需要说明的是，本发明的上述实施例仅仅是为了方便说明解释本发明的方法模型和算法流程，而并非是对本发明实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其他不同形式的变化或改动，这里无法对所有实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进，均属于本发明权利要求的保护范围之内。

Claims

1.一种基于改进A*算法和深度强化学习的无人车路径规划方法，其特征在于，包括以下步骤：

(1)根据环境信息，建立初始化栅格代价地图，利用SALM技术对环境进行地图建模，提取障碍物信息，标定障碍物类型，通过代价模型对障碍物周围栅格的威胁进行评估；

(2)利用改进的A*算法规划全局路径，考虑障碍物代价和路径转折点过多的问题，引入启发式信息，改进A*算法模型，优化全局规划结果；

(3)基于全局路径和激光雷达传感器性能，设计滑动窗口，将窗口探测的信息作为网络的状态输入，进行局部规划，具体步骤为：

1)根据激光雷达探测距离初始化滑动窗口大小为W，W是奇数；

2)以无人车起始位置作为滑动窗口的中心原点O_w；

3)将全局规划得到的路径序列与滑动窗口相交的第一个节点作为局部路径规划网络的临时目标点T_w和状态输入量；

4)当无人车到达临时目标点后，将该时刻的临时目标点作为起始点，切换滑动窗口；

(4)基于深度强化学习方法，采用Actor-Critic架构，设计局部规划网络，具体步骤如下：

1)设计局部规划网络的状态输入空间，将栅格全局坐标系下的障碍物、目标、无人车位置等信息转换到以滑动窗口中心为原点的局部坐标系下，并将其作为局部规划网络的状态输入s，表达式如下所示，组成状态空间S：

分别表示滑动窗口局部坐标系下临时目标点的坐标，p_x、，p_y分别表示无人车在局部坐标系下的x、y轴坐标，v_x、v_y分别表示表示无人车在局部坐标系下的x、y轴的速度分量；

2)设计无人车在局部规划网络的决策动作空间，在滑动窗口局部坐标系下，将无人车机动方向动作分为前、后、左、右、左前、左后、右前、右后等八个候选动作

无人车机动速率动作分为

a＝{a_d，a_v}

3)结合栅格代价地图，设计局部规划网络的回报函数r，具体表达式如下所示：

d_t表示时间间隔，λ₁、λ₂表示奖惩系数，

表示当无人车与滑动窗口临时目标点的距离随时间变小时，给予无人车正的奖励；r_s表示无人车每走一步，根据栅格代价地图得到的惩罚；

r_c表示碰到障碍物时的惩罚；r_a表示到达临时目标点时的惩罚；

4)采用Actor-Critic架构，设计局部规划网络，并训练网络模型，将网络结构分为策略网络和价值网络，所述策略网络用于预测无人车的下一步动作，包括障碍物第一特征提取模块、目标引导模块和第一全连接层模块；所述价值网络用于对策略网络选择的动作评分，通过第二特征提取模块提取无人车状态和动作，再由第二全连接层模块计算综合价值，评估动作的好坏程度，反馈给策略网络，采用课程训练的方式，逐步增加训练环境的复杂程度，直至训练误差小于ε，结束网络模型的训练；

2.根据权利要求书1所述一种基于改进A*算法和深度强化学习的无人车路径规划方法，其特征在于，“根据环境信息，建立初始化栅格代价地图”，其方法为：利用SALM技术对环境进行地图建模，提取障碍物信息，标定障碍物类型，通过代价模型对障碍物周围栅格的威胁进行评估；

r_i

且

r_E(r

其中C为障碍物致命区代价，l(n)表示在当前节点n无人车与障碍物的距离，μ表示障碍物威胁系数，当距离超过L₃时为安全区域；

C_n，n+1表示从栅格n到栅格n+1路面的坎坷程度，d_n，n+1为移动栅格之间的距离，w_k、w_v分别为两部分所占的权重。

3.根据权利要求书1所述一种基于改进A*算法和深度强化学习的无人车路径规划方法，其特征在于，所述“利用改进的A*算法规划全局路径”，其方法为：所述改进的A*算法路径评价公式为F(n)＝G(n)+H(n)+T(n)，其中G(n)表示在栅格代价地图下无人车从起始节点到当前节点n的实际代价，

在栅格代价地图上，通过改进的A*算法规划全局路径。