CN113110509A

CN113110509A - 一种基于深度强化学习的仓储系统多机器人路径规划方法

Info

Publication number: CN113110509A
Application number: CN202110535242.0A
Authority: CN
Inventors: 许运鸿; 李衍杰; 吕少华; 刘奇; 陈美玲; 赵威龙; 刘悦丞; 高建琦
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-07-13
Anticipated expiration: 2041-05-17
Also published as: CN113110509B

Abstract

本发明提供了一种基于深度强化学习的仓储系统多机器人路径规划方法，包括如下步骤：步骤S1：定义多机器人路径规划问题中的节点、状态、动作、奖励回报；步骤S2：选择子目标点，中央控制器计算每个机器人的状态；步骤S3：基于深度强化学习方法，设计分布式多机器人路径规划器；步骤S4：计算损失函数，对网络参数进行更新；步骤S5：将训练好的模型应用于多机器人路径规划。本发明的有益效果是：本发明能够解决传统路径规划算法实时性差的问题，并且容易拓展到不同地图规模、不同机器人数量的仓储系统中，具有良好的泛化性能。

Description

一种基于深度强化学习的仓储系统多机器人路径规划方法

技术领域

本发明涉及多机器人路径规划技术领域，尤其涉及一种基于深度强化学习的仓储系统多机器人路径规划方法。

背景技术

随着人工智能、计算机网络技术、传感器技术等新技术的飞速发展，以及工业化程度的不断提高，机器人能够更好的服务社会。多机器人和单机器人系统相比，有着显著的优势。(1)多机器人系统是并行的，能够同时执行系统分配的任务，提高效率。(2)多机器人系统有强鲁棒性和容错能力，如果系统中有机器人因意外故障停止运行，系统中其他机器人可以代替其完成任务，减少因故障造成的损失。(3)多机器人系统扩展性强，当需要扩展系统、提升性能时，通过增加机器人数量的方式就可以完成拓展，不需要做太多的改动和调整。(4)受空间以及任务固有复杂度的限制，多机器人系统可以完成一些复杂的任务，而单个机器人系统通常只能完成一些较简单的任务。

多机器人技术的应用领域包括智能仓储、海空探索、勘探勘测、医疗服务等，并迅速发展。在多机器人技术的各种应用中，路径规划是其中必不可少的一环。如在工业应用领域，智能货运机器人需要规划一条到达目的地无碰撞且耗时短的路径；如在地震救灾中，无人机能够自主躲避障碍物，规划一组较优的路径到达指定灾区，完成灾情获取任务；在军事领域中，无人机和机器人在完成情报侦察以及作战打击任务过程中，要躲避敌方威胁和避免相撞，规划一条路径完成任务。近些年来，在电子商务的高速发展下，普通人的购物模式发生了巨大的改变。人们越来越倾向于在电商平台上(如：淘宝、京东、苏宁)购买自己想要的商品，物流行业逐渐向着“品种多、批量小、周期短”的方向发展。因此，对物流仓库的准确性、实时性、快速性、应急性提出了更高的要求。所以在仓储系统中，利用机器人技术来提高自动化是许多物流企业未来发展的方向。多机器人路径规划算法的优劣程度决定了仓储系统的吞吐量和工作效率。通过对仓储机器人路径的优化，能够使机器人更快速地处理仓库中货物的存储，可以有效利用机器人提高效率和降低成本，在提高仓储自动化水平的同时，还能提高客户的满意度和企业的科技含量以及竞争力。

多机器人路径规划是NP-hard问题。当前的多机器人路径规划算法主要有两类。第一种多机器人路径规划算法是通过加入时间维度，对机器人进行one-shot规划。这种方法规划了一条在一长段时间内没有新机器人加入时的路径，这在大多数情况下是没有必要的，因为仓储环境在动态变化，机器人有可能被分配新的目标点，或者有新的机器人加入系统，那么这种形式的路径规划势必会造成资源浪费。第二种多机器人路径规划算法是反应式的，先为所有机器人规划一条初始路径，在检测到有可能发生碰撞时，进行重新规划，以避免碰撞的发生。这种算法在机器人数量较少，地图较为稀疏的环境下，有不错的效果，但是当机器人数量较多，地图较为拥挤时，机器人会反复进行重规划，甚至陷入死锁的局面。

发明内容

本发明的目的是根据仓储系统实时性强的特点，利用深度强化学习方法进行多机器人的路径规划，优化多机器人路径规划方法的求解时间，提高在一定时间内求解多机器人路径规划问题的成功率，减小整个仓储系统的延迟。

本发明提供了一种基于深度强化学习的仓储系统多机器人路径规划方法，包括如下步骤：

步骤S1：定义多机器人路径规划问题中的节点、状态、动作、奖励回报；

步骤S2：选择子目标点，中央控制器计算每个机器人的状态；

步骤S3：基于深度强化学习方法，设计分布式多机器人路径规划器；

步骤S4：计算损失函数，对网络参数进行更新；

步骤S5：将训练好的模型应用于多机器人路径规划。

作为本发明的进一步改进，在所述步骤S3中，基于深度强化学习方法，利用dueling double deep Q-learning算法和GRU循环神经网络，设计和训练分布式多机器人路径规划器，其方法为：

1)建立由卷积神经网络Convolutional Neural Network(CNN)和残差网络Residual Network(ResNet)为基础的特征提取网络，提取各个通道上的信息，最后通过全连接层拼接成一个特征向量φ₁。

2)将表示位置的二维向量经过全连接层，得到一个特征向量φ₂。

3)对两个特征向量进行拼接，得到特征向量φ_f＝[φ₁,φ₂]。

4)为了让多个机器人能达到隐式的协调，需要时序上的一些信息，以便网络能够有预测机器人移动方向的能力，所以引入了Gated Recurrent Unit(GRU)循环神经网络，利用循环神经网络的记忆能力，保存过去的信息，帮助整体网络进行更好的特征建模，以便得到优质的策略。将特征向量φ_f输入GRU，得到最终的特征向量φ，至此，特征提取部分完成。

5)Dueling double deep Q-learning(D3QN)是一种非常有效的深度强化学习算法。它是Double deep Q-learning(Double dqn)和Dueling deep Q-learning(Duelingdqn)的结合。Double dqn的提出，缓解了Q学习中对Q值存在过估计的问题。Dueling dqn在网络结构上做出了一定的改进，在获取特征后，分为两个部分进行值的估计，第一个部分是预测状态值函数，第二个部分是预测相对的优势函数，二者相加才得到最终的Q值。将特征向量h输入D3QN网络，得到最终各动作的Q值。

6)生成一个0到1之间的随机数，如果随机数小于探索因子，则随机从动作集中选取一个动作，否则根据各动作的Q值，选择Q值最大的动作作为待执行动作，计算完所有机器人的Q值后，中央控制器判断该动作的执行是否可行，如果不可行，则让机器人停在原地。根据奖励函数的定义，给予相应的奖励，并将状态行动对和奖励加入经验回放池中。在每执行完一步动作后，将时间步加一。如果当时间步到达预设的最大时间步或者所有机器人都到达目标点，则结束该轮任务，重新设定起始点和目标点。

7)从经验回放池中取出固定数量的状态行动对的奖励，计算损失函数，通过反向梯度传播的方法，更新网络的参数，直到收敛。

在本发明中，“将训练好的网络模型应用到多机器人路径规划问题中”，其方法为：当发现机器人长时间停留在同一位置或发生死锁时，对机器人的Q值加入随机噪声，引导机器人增大探索的概率，采取更为随机的动作，尝试解决死锁，并最终到达目的地。该方法能有效增大路径规划算法的成功率。

在本发明中，“加入课程学习，稳定训练过程”，其方法为：在训练初期将起始点和目标点的距离设置得较小，在这种情况下，机器人通过较少的探索就能够到达目标点。随着训练轮数的增加，机器人拥有一定路径规划能力，同时将起始点和目标点的距离逐渐增加，即增大任务难度。该过程和人类学习生活中课程设置从难到易的思想相近。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现本发明所述的仓储系统多机器人路径规划方法的步骤。

本发明的有益效果是：本发明能够解决传统路径规划算法实时性差的问题，并且容易拓展到不同地图规模、不同机器人数量的仓储系统中，具有良好的泛化性能。

附图说明

图1是本发明的方法流程图；

图2是本发明的地图划分示意图；

图3是深度强化学习神经网络结构示意图；

图4是得到动作值函数的示意图。

具体实施方式

如图1所示，本发明公开了一种基于深度强化学习的仓储系统多机器人路径规划方法，包括如下步骤：

步骤S1：定义多机器人路径规划问题中的节点、状态、动作、奖励回报。中央控制器对仓储系统进行建模，多机器人路径规划问题中的地图由规则摆放货架和能够行驶的走廊组成，机器人从给定的起始点出发，前往目标货架，其目标点位于货架正下方，通过抬起整个货架达到运输拣货的目的。将地图栅格化处理，并划分成规则的多个不同区域，如图2所示。在图2中，地图被分为了9个区域，带有数字标号的黑色圆形，代表机器人的当前位置(当前t＝0,也就是初始位置)，而和机器人标号相同的浅白色方型，代表该机器人的目的地，灰色部分为货架。

定义机器人的状态为由3个通道和1个二维向量组成，各个通道的规模由预设的可视范围v决定，大小为v×v的矩阵，表示当前机器人附近v×v的网格中的一些信息。

下面对3个通道和1个二维向量进行具体说明：

(1)第一个通道表示视野范围内其他机器人的位置，通过该通道的信息，机器人能够获取周围机器人的信息，为避免碰撞，学习到隐式的协同合作提供必要条件。如果周围v×v的网格位置中有机器人存在，则将其对应位置在矩阵中置为1，其他位置置为0。

(2)第二个通道表示可视范围内障碍物的位置，如果周围v×v的网格位置中有障碍物存在，则将障碍物的位置在矩阵中置为1，其他位置置为0。

(3)第三个通道表示视野范围内的子目标点的位置，子目标点是处于机器人当前视野范围内的；子目标的设置能够让机器人在探索过程中的奖励不稀疏，有利于加快整个学习过程，让算法更快速收敛。

(4)一个二维向量由x方向是机器人和目标点的距离dx和y方向上机器人和目标点的距离dy组成，利用该二维向量，指示机器人最终目标点的方向和距离，指引机器人行进的大致方位。

使用一定视野范围内的信息，而不是全局地图信息作为状态有两个好处：一是减小了状态的维度，在训练过程中输入维度变小了，也更容易提取到有价值有意义的信息；二是让整个算法更易于拓展，当地图大小发生变化时，利用全局地图为输入的算法，需要重新训练一个模型，而如果利用一定的视野范围为输入，在地图变化时，仍可以使用原来训练好的模型。

中央控制器通过计算得到各机器人的状态，输入神经网络中。当机器人位于边缘时，视野范围和输入矩阵大小不匹配，此时对得到的矩阵进行填充，将超出地图范围的部分视为障碍物，把输入通道的矩阵补满。

机器人的动作空间定义为集合A＝{a_u,a_d,a_l,a_r,a_s}，分别代表向上移动一个单位，向下移动一个单位，向左移动一个单位，向右移动一个单位和停在当前位置，机器人采取的动作a∈A。

机器人的奖励函数定义根据采取动作后的情况不同而有所区别。

定义机器人的奖励函数为：

其中，d_t代表机器人在t时刻机器人与目标点的距离，d_t-1代表机器人在t-1时刻机器人与目标点的距离，x_sub代表子目标的x轴坐标，x代表机器人的x轴坐标，y_sub代表子目标的y轴坐标，y代表机器人的y轴坐标，T代表阈值。

采取动作a后，如果机器人离目标点的距离更近，则给予奖励r_n，如果机器人离目标点的距离更远，则给予奖励r_f，如果机器人停留在原地，则给予奖励r_s，如果机器人和其他单位发生碰撞，则给予奖励r_c，在接近子目标点时(当前机器人位置与子目标点的曼哈顿距离小于阈值T)，给予机器人奖励r_sub。如果机器人到达其目标点，则给予奖励r_g。

步骤S2：选择子目标点，中央控制器计算每个机器人的状态。

在所述步骤S2中，选择子目标点的方法为：设定视野范围(以机器人附近v×v的网格区域为例)，中央控制器根据预设的视野范围，检测最终目标是否在视野范围内，如果最终目标在视野范围内，则不再设立子目标，如果最终目标不在视野范围内，则根据以下规则选取子目标：

(1)计算视野范围内每个点到机器人目标点的曼哈顿距离d。

(2)拥挤程度定义为当前区域内机器人的数量，计算视野范围内每个点所在区域的拥挤程度w。

(3)设定一个常数α，选取f＝αw+d最小的点，作为子目标点。

只有当机器人移动到距离子目标点的距离小于阈值T时或者子目标从视野范围内丢失时，中央控制器才重新判断是否重新设置子目标点。

机器人根据上述定义，计算初始状态S。

步骤S3：基于深度强化学习方法，设计分布式多机器人路径规划器。

步骤S3包括：

步骤S31：建立深度强化学习神经网络结构。主要分为特征提取部分和深度Q学习部分。深度强化学习神经网络结构如图3所示。初始化迭代轮数n，最大步数j，衰减因子γ，探索率ε，当前Q网络Q及其参数θ，目标Q网络Q′及其参数θ′，批量梯度下降样本数m，梯度下降步数间隔k，目标Q网络参数更新频率P，起始点和目标点距离初始值L。

步骤S32：中央控制器通过计算获取机器人的状态S，作为网络的输入，机器人的状态S由三个通道和一个二维向量组成。

步骤S33：利用卷积神经网络和残差神经网络，对输入的三个通道信息进行特征提取，得到特征向量φ₁(S)。第一层通道代表视野范围内其他机器人位置，机器人需要如果希望达到和其他机器人协同合作，该层信息是必要的。第二层通道代表视野范围内障碍物的位置，机器人需要避开障碍物，以免发生碰撞，所以该层信息也是必要的。第三层通道是视野范围内设置的子目标的位置，通过子目标，能够帮助机器人进行更加适合的探索，也能够加快整个算法的收敛速度。

指示目标点的二维向量，用于帮助机器人向最终目标移动。其通过一层线性网络，得到特征向量φ₂(S)。

将φ₁(S)和φ₂(S)进行拼接，输入GRU循环神经网络，利用GRU能对特征进行时序上的建模和预测，对周围其他机器人的运动轨迹进行预测，有利于当前机器人进行价值估计和动作的选择，输出最终的特征向量φ(S)。

将从GRU得到的特征向量分别输入两个线性网络，一个用于拟合估计相对优势函数，另一个用于拟合估计状态值函数，最终两者相加，得到动作值函数Q，如图4所示。

随机生成一个0到1之间的随机数，如果该随机数小于预先设置的探索因子ε，则随机从动作空间A＝{a_u,a_d,a_l,a_r,a_s}随机选取一个动作作为待执行动作，否则，选取Q值最大的动作为待执行动作，即ε-greedy算法。在训练过程中，探索因子ε会随着训练轮数的增加而逐渐减小。因为在训练次数较小时，整体策略质量较差，所以需要机器人进行更多的探索来获取奖励，改进策略。随着训练次数的增加，策略逐渐向好的方向更新，过多的探索会让策略难以收敛，所以让探索因子逐渐减小。

步骤S34：所有机器人选择完动作后，中央控制器判断动作是否能够顺利执行，如果动作为停在原地，则给予奖励r_s，如果机器人的动作是可行的，则按下列顺序给予奖励：

(1)如果该动作让机器人到达目标点，给予奖励r_g。

(2)如果该动作让机器人和子目标之间的曼哈顿距离|x_sub-x|+|y_sub-y|小于阈值T，则给予奖励r_sub。

(3)如果该动作让机器人与目标点间的曼哈顿距离变小(d_t-d_t-1)<0，给予奖励r_n。

(4)如果该动作让机器人与目标点间的曼哈顿距离变大(d_t-d_t-1)>0，给予奖励r_f。

如果机器人的动作是不可行的，即发生了机器人间的碰撞或碰到了障碍物，则给予奖励r_c。

将机器人的状态行动对和奖励值函数，存入经验回放池中，为后面取出批量数据同时计算梯度，更新网络参数做准备。

如果存在未到达目标点的机器人，则将当前训练步数加1；如果当前训练步数大于预先设置的最大训练步数j或所有机器人都到达目标点，则重新设置起始点和目标点,起始点和目标点距离初始值L。

步骤S35:返回步骤S32继续执行。

步骤S4：计算损失函数，对网络参数进行更新。

步骤S4包括：

步骤S41：在一定步数间隔k后，从经验回放池中取出m组批量的状态行动对和奖励，计算当前目标Q值y_j。

j＝1,2,…m,其中，y_j为j时刻的Q值，R_j+1为j+1时刻的奖励，γ为折扣因子，Q是状态动作估计价值，φ为特征向量，s_j+1为j+1时刻的状态，a′为待选取的动作，θ为动作网络的参数，θ^-为目标网络的参数。

步骤S42：定义损失函数如下：

其中，m为一次更新中的数据量，y_j为j时刻的Q值，Q是状态动作估计价值，φ为特征向量，S_j为j时刻的状态，A_j为j时刻的动作，θ为动作网络的参数。

利用损失函数loss通过神经网络的梯度反向传播方法更新Q网络的参数w。每对Q网络更新P次，将Q网络的参数拷贝给Q′网络。当训练步数达到n时，结束训练过程。

步骤S5：将训练好的模型应用于多机器人路径规划。

步骤S5包括：

步骤S51：将训练好的模型，应用到多机器人路径规划问题上。给所有机器人设置好起始点和目标点。

步骤S52：中央控制器计算得到机器人的状态S，包括三个通道和一个二维向量的信息。

步骤S53：将状态S输入到深度强化学习网络中，得到各动作的Q值。

步骤S54：当发现机器人长时间停留在同一位置或发生死锁时，对机器人的Q值加入随机噪声。

步骤S55：选择Q值最大的动作作为待执行动作；中央控制器判断各机器人的动作是否能够被执行，如果动作是可行的，则执行该动作，如果动作是不可行的，则让机器人停留在原地。

步骤S56：如果所有机器人均到达终点，则路径规划任务结束，如果存在未到达终点的机器人，则返回步骤S52。

综上所述，本发明提出一种基于深度强化学习的仓储系统多机器人路径规划方法，周围的信息和目标点的信息，通过神经网络将信息提取后，利用强化学习算法训练得到一个让机器人隐式协同合作的多机器人路径规划方法。该方法不需要对所有机器人一次性规划出一条完整的路径，而是让机器人逐步地向目标点靠近，每一步运算所需要消耗的资源较少，能够满足仓储系统中实时性较强的特点和要求。

本发明旨在充分发挥深度学习的表征能力和强化学习的泛化能力。主要包括：根据仓储系统的实际情况，建立对应的栅格化地图；设计合理的深度强化学习的网络结构，本发明采用Dueling Double Deep Q-learning与Gated Recurrent Unit循环神经网络结合的网络结构，并对训练参数进行初始化；与中央控制器通信，获取该机器人周围的障碍物信息、周围机器人的当前位置信息和历史位置信息、当前机器人与其目标点的距离，作为网络的输入；对仓储系统进行区域划分，根据各区域内当前的拥挤程度，设置子目标点，在机器人到达子目标时，给予一定的奖赏报酬，辅助机器人进行学习和探索。利用课程学习，让训练过程更加稳定。本发明能够解决传统路径规划算法实时性差的问题，并且容易拓展到不同地图规模、不同机器人数量的仓储系统中，具有良好的泛化性能。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于深度强化学习的仓储系统多机器人路径规划方法，其特征在于，包括如下步骤：

步骤S4：计算损失函数，对网络参数进行更新；

步骤S5：将训练好的模型应用于多机器人路径规划。

2.根据权利要求1所述的仓储系统多机器人路径规划方法，其特征在于，在所述步骤S1中，中央控制器对仓储系统进行建模，多机器人路径规划问题中的地图由规则摆放货架和能够行驶的走廊组成，机器人从给定的起始点出发，前往目标货架，其目标点位于货架正下方，通过抬起整个货架达到运输拣货的目的；将地图栅格化处理，并划分成规则的多个不同区域；定义机器人的状态为由3个通道和1个二维向量组成，各个通道的规模由预设的可视范围v决定，大小为v×v的矩阵，表示当前机器人附近v×v的网格中；机器人的动作空间定义为集合A＝{a_u，a_d,a_l,a_r,a_s}，分别代表向上移动一个单位，向下移动一个单位，向左移动一个单位，向右移动一个单位和停在当前位置，机器人采取的动作a∈A。

3.根据权利要求2所述的仓储系统多机器人路径规划方法，其特征在于，在所述步骤S1中，3个通道和1个二维向量包括：

第一个通道表示可视范围内其他机器人的位置，如果周围v×v的网格位置中有机器人存在，则将其对应位置在矩阵中置为1，其他位置置为0；

第二个通道表示可视范围内障碍物的位置，如果周围v×v的网格位置中有障碍物存在，则将障碍物的位置在矩阵中置为1，其他位置置为0；

第三个通道表示视野范围内的子目标点的位置，子目标点是处于机器人当前视野范围内的；

一个二维向量由x方向上机器人和目标点的距离dx和y方向上机器人和目标点的距离dy组成，指示着目标点的位置。

4.根据权利要求1所述的仓储系统多机器人路径规划方法，其特征在于，在所述步骤S1中，机器人的奖励函数定义根据采取动作后的情况不同而有所区别，机器人的奖励函数定义为：

其中，d_t代表在t时刻机器人与目标点的距离，d_t-1代表机器人在t-1时刻机器人与目标点的距离，x_sub代表子目标的x轴坐标，x代表机器人的x轴坐标，y_sub代表子目标的y轴坐标，y代表机器人的y轴坐标，T代表阈值；采取动作a后，如果机器人离目标点的距离更近，则给予奖励r_n，如果机器人离目标点的距离更远，则给予奖励r_f，如果机器人停留在原地，则给予奖励r_s，如果机器人和其他单位发生碰撞，则给予奖励r_c，当前机器人位置与子目标点的曼哈顿距离小于阈值T，给予机器人奖励r_sub；如果机器人到达其目标点，则给予奖励r_g。

5.根据权利要求1所述的仓储系统多机器人路径规划方法，其特征在于，在所述步骤S2中，选择子目标点的方法为：计算视野范围内每个点到机器人目标点的曼哈顿距离d，拥挤程度定义为当前区域内机器人的数量，计算视野范围内每个点所在区域的拥挤程度w，设定一个常数α，选取f＝αw+d最小的点，作为子目标点；如果真正的目标点在视野范围内，则不需要设置子目标点，如果真正的目标点不在视野范围内，则根据前述方法找到一个子目标点；只有在距离子目标点的距离小于阈值T时，才重新设置子目标点。

6.根据权利要求1所述的仓储系统多机器人路径规划方法，其特征在于，所述步骤S3包括如下步骤：

步骤S31：建立深度强化学习神经网络结构，初始化迭代轮数n，最大步数j，衰减因子γ，探索率ε，当前Q网络Q及其参数θ，目标Q网络Q′及其参数θ′，批量梯度下降样本数m，梯度下降步数间隔k，目标Q网络参数更新频率P，起始点和目标点距离初始值L；

步骤S32：中央控制器通过计算获取机器人的状态S，作为网络的输入，机器人的状态S由三个通道和一个二维向量组成；

步骤S33：利用卷积神经网络和残差神经网络，对输入的三个通道信息进行特征提取，得到特征向量φ₁(S)；第一层通道代表视野范围内其他机器人位置，第二层通道代表视野范围内障碍物的位置，第三层通道是视野范围内设置的子目标的位置；利用线性网络，对指示目标点的二维向量进行特征提取，得到特征向量φ₂(S)，将两个特征向量输入深度强化学习神经网络中输出候选动作。

如果该动作让机器人到达目标点，给予奖励r_g；

如果该动作让机器人和子目标之间的曼哈顿距离|x_sub-x|+|y_sub-y|小于阈值T，则给予奖励r_sub；

如果该动作让机器人与目标点间的曼哈顿距离变小(d_t-d_t-1)<0，给予奖励r_n；

如果该动作让机器人与目标点间的曼哈顿距离变大(d_t-d_t-1)>0，给予奖励r_f；

如果机器人的动作是不可行的，即发生了机器人间的碰撞或碰到了障碍物，则给予奖励r_c；

将机器人的状态行动对和奖励值函数，存入经验回放池中；

如果存在未到达目标点的机器人，则将当前训练步数加1；如果当前训练步数大于预先设置的最大训练步数j或所有机器人都到达目标点，则重新设置起始点和目标点,起始点和目标点距离初始值L；

步骤S35：返回步骤S32继续执行。

7.根据权利要求6所述的仓储系统多机器人路径规划方法，其特征在于，所述步骤S33还包括：

将φ₁(S)和φ₂(S)进行拼接，输入GRU循环神经网络，利用GRU能对特征进行时序上的建模和预测，对周围其他机器人的运动轨迹进行预测，有利于当前机器人进行价值估计和动作的选择，输出最终的特征向量φ(S)；

将从GRU得到的特征向量分别输入两个线性网络，一个用于拟合估计相对优势函数，另一个用于拟合估计状态值函数，最终两者相加，得到动作值函数Q；

随机生成一个0到1之间的随机数，如果该随机数小于预先设置的探索因子ε，则随机从动作空间A＝{a_u,a_d,a_l,a_r,a_s}随机选取一个动作作为待执行动作，否则，选取Q值最大的动作为待执行动作，在训练过程中，探索因子ε会随着训练轮数的增加而逐渐减小。

8.根据权利要求1所述的仓储系统多机器人路径规划方法，其特征在于，所述步骤S4包括：

步骤S41：在一定步数间隔k后，从经验回放池中取出m组批量的状态行动对和奖励，计算当前目标Q值y_j，

j＝1,2,…m,其中，y_j为j时刻的Q值，R_j+1为j+1时刻的奖励，γ为折扣因子，Q是状态动作估计价值，φ为特征向量，s_j+1为j+1时刻的状态，a′为待选取的动作，θ为动作网络的参数，θ^-为目标网络的参数；

步骤S42：定义损失函数如下：

其中，m为一次更新中的数据量，y_j为j时刻的Q值，Q是状态动作估计价值，φ为特征向量，S_j为j时刻的状态，A_j为j时刻的动作，θ为动作网络的参数；

利用损失函数loss通过神经网络的梯度反向传播方法更新Q网络的参数θ；每对Q网络更新P次，将Q网络的参数拷贝给Q′网络；当训练步数达到n时，结束训练过程。

9.根据权利要求1所述的仓储系统多机器人路径规划方法，其特征在于，所述步骤S5包括：

步骤S51：将训练好的模型，应用到多机器人路径规划问题上，给所有机器人设置好起始点和目标点；

步骤S52：中央控制器计算得到机器人的状态S，包括三个通道和一个二维向量的信息；

步骤S53：将状态S输入到深度强化学习网络中，得到各动作的Q值；

步骤S54：当发现机器人长时间停留在同一位置或发生死锁时，对机器人的Q值加入随机噪声；

步骤S55：选择Q值最大的动作作为待执行动作；中央控制器判断各机器人的动作是否能够被执行，如果动作是可行的，则执行该动作，如果动作是不可行的，则让机器人停留在原地；

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质存储有计算机程序，所述计算机程序配置为由处理器调用时实现权利要求1－9中任一项所述的仓储系统多机器人路径规划方法的步骤。