CN110298440B

CN110298440B - 基于皮质柱网络波前传播的多尺度面向目标导航方法

Info

Publication number: CN110298440B
Application number: CN201910268918.7A
Authority: CN
Inventors: 阮晓钢; 武悦; 黄静; 柴洁
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-04-04
Filing date: 2019-04-04
Publication date: 2021-07-23
Anticipated expiration: 2039-04-04
Also published as: CN110298440A

Abstract

本发明公开了基于皮质柱网络波前传播的多尺度面向目标导航方法，属于仿生导航范畴，皮质柱网络属于认知地图，每个皮质柱单元包含接受奖励信息、位置信息等多种神经元。本发明以皮质柱网络为基础，利用波前传播算法进行路径规划和导航。通过网络权值STDP学习律，此系统能够计算出通向目标的最短路径，并且对环境的变化产生记忆。波前传播采用整合激发式神经元，属于非衰减导航算法，适用于多种尺度环境下的导航。在导航实验中，此方法可以在各种规模、实时变化的环境中成功导航，具有较好的实用效果。

Description

基于皮质柱网络波前传播的多尺度面向目标导航方法

技术领域

本发明属于机器人仿生导航领域，属于近年来机器人面向目标导航的其中一个分支，涉及一种神经网络组织方法，具体涉及一种皮质柱网络组织方法和神经元活动传播方法。

背景技术

机器人的智能化是未来的大势所趋。机器人的环境认知和面向目标导航作为众多智能中的重要一环，是当前研究的热点和难点。受生物灵活的执行空间任务启发，当前的科学研究试图从生理学角度理解环境认知并应用到机器人中，使其具备类似人或动物的认知能力，从而真正应用于具有挑战性的空间任务中，例如自动驾驶等。随着位置细胞、网格细胞等反映空间信息或运动信息的细胞被生理学发现，已有相当的产品将这些细胞应用到仿生导航上。RatSlam将视觉信息输入到海马体神经网络，建立的地图可以用于目标导向的导航，在实际城市道路中建立的环境地图效果令人满意。尽可能使用真实的神经元组织结构和参数使得导航系统更加具有仿生性，并且更加容易用基本的计算单元来实现，降低设备的需求，提高设备资源的利用率。Martinet等人用皮质柱网络构建了导航系统，但是该系统只能在单一尺度的环境下运行。Ponulak等人提出神经元之间的波前传递方法，解决了导航的尺度问题。如何组织人工神经网络结构和选择突触可塑性规则是仿生导航系统获得良好性能的关键。

与现有技术不同的是，本发明构建了皮质柱网络及其连接关系，将STDP (Spike-Timing Dependent Plasticity)学习律应用到突触连接中，使导航系统能够适应不同规模的环境，更加具备对啮齿动物导航的模仿性。

发明内容

本发明的目的是提出一种皮质柱网络在仿生导航中的应用，包括构建认知地图和面向目标的导航。皮质柱网络的基本单元是皮质柱，包括位置细胞、奖励细胞、中间神经元、动作细胞和读出细胞。

本发明采用的技术方案为一种基于皮质柱网络波前传播的多尺度面向目标导航方法，其特征在于，具体实现步骤如下：

步骤(1)构建皮质柱网络。

步骤(1.1)神经元的动力学；

皮质柱单元中的位置细胞采用高斯模型V_s：

其中x代表当前机器人所在位置，x_c是位置细胞中心，σ²是方差。

皮质柱单元中其它细胞动力学如下：

其中V是膜电位，τ是膜时间常数，I是神经元接收个输入整合：

其中w_ij是神经元i到神经元j间的突触连接权值。

步骤(1.2)神经元的激活与抑制；

当奖励细胞的活动超过阈值，细胞发出动作电位，并进入抑制状态一段时间。在抑制阶段内，奖励细胞不再接受其它奖励细胞的输入：

当t_f＜t＜t_f+t_d时上述公式成立，V_r是奖励细胞的膜电位，t_d是神经元抑制时长，t_f是奖励细胞放电的时刻。

步骤(1.3)皮质柱单元间的突触学习；

皮质柱单元中奖励细胞r遵从STDP学习律：

Δw_ij＝(1-λ)·(w_sat-w_ji)-λw_ji

其中，是饱和的突触连接权值，λ＝0,1代表机器人是否成功到达下一个位置。

皮质柱单元中中间神经元q间的突触学习遵从STDP学习律：

其中M是幅值，

是突触后神经元放电时刻与突触前神经元放电时刻的差别。中间神经元q之间这种基于时间差的突触学习保证了机器人能够记录到达目标位置的最短路径。

步骤(1.3)动作决策；

每个皮质柱中包含一组动作神经元d，分别代表不同的方向，接收来自神经元s,p,q的输入。当神经元d到达阈值，机器人按照存储在神经元q之间权值的信息进行移动，头朝向是各个神经元d的固有头朝向与相应权值的加权平均：

步骤(2)探索环境；

步骤(2.1)建立皮质柱单元；

将机器人放置在一个5m×13m的迷宫中，令其执行随机探索策略。机器人的初始朝向为0°。每当机器人走过0.1m其头朝向变化一个角度θ(-15°＜θ＜ 15°)。为保证环境中的每个位置都被皮质柱单元中的位置细胞有效表示，每当 V_s＜V_thr时，在当前位置新增一个皮质柱单元。V_thr＝-25mV是判断是否新增皮质柱单元的阈值。在移动过程中，奖励细胞之间的权值按照LTP学习律变化 (λ＝0)。

步骤(2.2)路径规划；

路径规划依赖皮质柱网络的神经计算功能，在每一个离散时刻，根据动力学模型计算全体的神经元活动。皮质柱网络工作在串行模式下，即当前时刻神经元的输入为上一时刻神经元的输出乘以权值。完成对迷宫环境建立相应的皮质柱单元后，在目标点设置奖励值，使目标点处皮质柱单元中的奖励细胞接受一个短暂的激活输入。

目前仿生理学的导航方法只能用在小规模地图中。与现有技术相比，本发明可以应用于任意规模的环境中，拓展了机器人导航的应用场景，采用的方法更加贴近生理学实际。

附图说明

图1是皮质柱网络结构图。

图2是中间神经元突触STDP学习规则示意图。

图3是机器人随机探索的路径。

图4是采用该导航方法模拟托尔曼实验。

图5是本方法与梯度法在大规模环境中导航成功率的比较。

图6是本方法实施的流程图。

具体实施方式

一个具有学习能力的机器人，模拟托尔曼迷宫实验的大鼠。简要地描述一下托尔曼迷宫实验：托尔曼迷宫装置如图2所示，从起点到终点有三条长度不同的通道。在终点处放置食物，将大鼠放置与迷宫中，大鼠会探索迷宫并找到食物，经过多轮实验后，大鼠最终选择距离最短的中间道路。将A点放置障碍物，经过几次探索后大鼠最终选择此时距离最短的左侧道路。将B点放置障碍物，则大鼠选择右侧道路。托尔曼迷宫实验提出了大鼠脑中存在认知地图的概念。本发明通过构建大脑皮层中的皮质柱网络来实现托尔曼迷宫实验。机器人具备一对电机和编码器用于行进和路径积分，一个激光雷达用于探测与障碍物的距离。

本方法的具体实现步骤如下：

步骤(1)构建皮质柱网络。

步骤(1.1)神经元的动力学

皮质柱单元中的位置细胞采用高斯模型：

其中x代表当前机器人所在位置，x_c是位置细胞中心，σ²＝0.5是方差。

皮质柱单元中其它细胞动力学如下：

其中V是膜电位，τ＝5是膜时间常数，I是神经元接收个输入整合：

其中w_ij是神经元i到神经元j间的突触连接权值。

步骤(1.2)神经元的激活与抑制

当t_f＜t＜t_f+t_d时上述公式成立，t_d＝0.2s是神经元抑制时长，t_f是奖励细胞放电的时刻。

步骤(1.3)皮质柱单元间的突触学习

皮质柱单元中奖励细胞r遵从STDP学习律：

Δw_ij＝(1-λ)·(w_sat-w_ji)-λw_ji

其中是饱和的突触连接权值，λ＝0,1代表机器人是否成功到达下一个位置。 w_sat＝1为饱和权值。

皮质柱单元中中间神经元q间的突触学习遵从STDP学习律：

其中M＝1是幅值，τ_ji＝3T＝0.06s，τ_ij＝2T＝0.04s，T为离散间隔，

是突触后神经元放电时刻与突触前神经元放电时刻的差别。中间神经元q 之间这种基于时间差的突触学习保证了机器人能够记录到达目标位置的最短路径。

步骤(1.3)动作决策

步骤(2)探索环境

步骤(2.1)建立皮质柱单元

步骤(2.2)路径规划

路径规划依赖皮质柱网络的神经计算功能，在每一个离散时刻，根据动力学模型计算全体的神经元活动，离散时间间隔取为0.02ms。皮质柱网络工作在串行模式下，即n+1时刻神经元的输入为第n时刻神经元的输出乘以权值。完成对迷宫环境建立相应的皮质柱单元后，在目标点设置奖励值，使目标点处皮质柱单元中的奖励细胞接受一个时长0.02ms，幅值为70mV的激活输入。具体计算步骤如下：

S1设置t＝0,对于所有皮质柱单元C中神经元的活动V_i＝-60mV,权值连接 w_ij＝0(i，j∈C)

S2根据

计算每个皮质柱单元中奖励细胞r的活动

S3根据

计算每个皮质柱单元中中间神经元q的活动

S4计算中间神经元q之间的权值连接：

w_ij＝w_ij+Δw_ij (0≤w_ij≤1)

S5令t＝t+0.02，如果对于全体奖励细胞，

则完成皮质柱波前传播，转至S6。否则跳转至S2循环计算。

S6根据中间神经元q之间的权值计算移动方向：

每个皮质柱单元中有4个方向，分别为0°,±90°,180°。机器人在当前移动方向上行进0.1m。在行进过程中，若激光雷达检测到距障碍物小于0.3m，则停止移动，奖励细胞的权值按照LTD变化Δw_ij＝-ws_ji，并回到S1重新进行路径规划计算。

如果连续5个离散时刻机器人仍然没有离开当前位置，说明机器人被困在奖励值局部极大位置，因此令机器人按照步骤(2.1)随机探索11m，之后按照步骤(2.2) 重新进行路径规划计算。

如果没有障碍，则重复S5直至机器人移动到目标点。

Claims

1.基于皮质柱网络波前传播的多尺度面向目标导航方法，其特征在于，具体实现步骤如下：

步骤(1)构建皮质柱网络；

步骤(1.1)神经元的动力学；

皮质柱单元中的位置细胞采用高斯模型V_s：

其中x代表当前机器人所在位置，x_c是位置细胞中心，σ²是方差；

皮质柱单元中其它细胞动力学如下：

其中w_ij是神经元i到神经元j间的突触连接权值；

步骤(1.2)神经元的激活与抑制；

当奖励细胞的活动超过阈值，细胞发出动作电位，并进入抑制状态一段时间；在抑制阶段内，奖励细胞不再接受其它奖励细胞的输入：

当t_f＜t＜t_f+t_d时，

成立，V_r是奖励细胞的膜电位，t_d是神经元抑制时长，t_f是奖励细胞放电的时刻；

步骤(1.3)皮质柱单元间的突触学习；

皮质柱单元中奖励细胞r遵从STDP学习律：

Δw_ij＝(1-λ)·(w_sat-w_ji)-λw_ji

其中，λ是饱和的突触连接权值，λ＝0,1代表机器人是否成功到达下一个位置；

皮质柱单元中中间神经元q间的突触学习遵从STDP学习律：

其中M是幅值，

是突触后神经元放电时刻与突触前神经元放电时刻的差别；中间神经元q之间这种基于时间差的突触学习保证了机器人能够记录到达目标位置的最短路径；

步骤(1.3)动作决策；

每个皮质柱中包含一组动作神经元d，分别代表不同的方向，接收来自神经元s,p,q的输入；当神经元d到达阈值，机器人按照存储在神经元q之间权值的信息进行移动，头朝向是各个神经元d的固有头朝向与相应权值的加权平均：

步骤(2)探索环境；

步骤(2.1)建立皮质柱单元；

将机器人放置在一个5m×13m的迷宫中，令其执行随机探索策略；机器人的初始朝向为0°；每当机器人走过0.1m其头朝向变化一个角度θ,-15°＜θ＜15°；为保证环境中的每个位置都被皮质柱单元中的位置细胞有效表示，每当V_s＜V_thr时，在当前位置新增一个皮质柱单元；V_thr＝-25mV是判断是否新增皮质柱单元的阈值；在移动过程中，奖励细胞之间的权值按照LTP学习律变化，λ＝0；

步骤(2.2)路径规划；

路径规划依赖皮质柱网络的神经计算功能，在每一个离散时刻，根据动力学模型计算全体的神经元活动。

2.根据权利要求1所述的基于皮质柱网络波前传播的多尺度面向目标导航方法，其特征在于，步骤(2.2)中，皮质柱网络工作在串行模式下，即当前时刻神经元的输入为上一时刻神经元的输出乘以权值；完成对迷宫环境建立相应的皮质柱单元后，在目标点设置奖励值，使目标点处皮质柱单元中的奖励细胞接受一个短暂的激活输入。