CN113682312A

CN113682312A - 一种融合深度强化学习的自主换道方法及系统

Info

Publication number: CN113682312A
Application number: CN202111114372.3A
Authority: CN
Inventors: 丁华杰; 卜祥津; 张飞
Original assignee: China Automotive Innovation Corp
Current assignee: China Automotive Innovation Corp
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-11-23
Anticipated expiration: 2041-09-23
Also published as: CN113682312B

Abstract

本发明公开了一种融合深度强化学习的自主换道方法及系统，包括在训练环境中训练深度强化学习模型，得到并保存训练参数；在所述训练环境中，添加按照基于规则的自动驾驶策略行驶的目标车辆的信息；根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数；根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件；若满足，则将所述训练参数融合到所述目标车辆的信息，控制所述目标车辆行驶；若不满足，则仍按照所述基于规则的自动驾驶策略，控制所述目标车辆行驶。本发明融合深度强化学习与基于规则的自动驾驶策略，在未建模的环境中，免去大量遍历换道场景进行建模的工作，提升适用性、决策准确性、决策效率和驾驶安全性。

Description

一种融合深度强化学习的自主换道方法及系统

技术领域

本发明涉及自动驾驶决策规划技术领域，尤其涉及一种融合深度强化学习的自主换道方法及系统。

背景技术

近年来自动驾驶技术迅猛发展，给人们的生活及工作带来了极大的方便；而高级别的自动驾驶功能，比如自主超车、自动辅助导航驾驶等，都需要自主变道的子功能，然而城市交通状况的复杂多变，给自主变道的开发带来了极大的挑战。

目前针对此问题的主流做法是，通过制定规则的方式定义出不同的场景，在不同的场景下制定不同换道算法及参数，根据探测到相邻车辆及交通参与体的信息，使车辆跟随规划出的换道曲线，在保证安全的前提下更加快速、平稳的变换到目标车道；然而，现实中换道的场景不可能完全被建模，车辆遇到没有定义的场景或是复杂场景的时候，便无法实现自主变道，甚至出现误变道，影响城市交通，危害驾乘人员的安全。

因此，需要一种融合深度强化学习的自主换道方法及系统，无需对真实道路场景进行建模即可实现自主换道决策，免去大量遍历换道场景进行建模的步骤，提升适应性与决策效率。

发明内容

针对上述现有技术中存在的问题，本发明提供了一种融合深度强化学习的自主换道方法及系统，无需对大量真实道路场景进行建模即可实现自主换道决策，免去大量遍历换道场景进行建模的步骤，提升适应性与决策效率。所述技术方案如下：

一方面，本发明提供了一种融合深度强化学习的自主换道方法，包括：

在训练环境中训练深度强化学习模型，得到并保存所述深度强化学习模型的训练参数；

在所述训练环境中，添加按照基于规则的自动驾驶策略行驶的目标车辆的信息；

根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数；

根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件；

若满足所述仲裁条件，则将所述训练参数融合到所述目标车辆的信息，得到所述目标车辆的方向盘转角和车速并输出，以控制所述目标车辆行驶；

若不满足所述仲裁条件，则仍按照所述基于规则的自动驾驶策略，得到并输出所述目标车辆的方向盘转角和车速，以控制所述目标车辆行驶。

进一步地，所述深度强化学习模型基于深度学习网络搭建而成，所述深度学习网络为包括四层卷积层和两层全连接层的卷积神经网络，用于提取所述训练环境中的特征。

进一步地，所述深度强化学习模型包括模型策略函数π_θ(s,a)和模型评价函数V(s_t,θ_V)，通过对所述模型策略函数和所述模型评价函数进行梯度下降，使得所述训练参数不断收敛，完成所述深度强化学习模型的训练；

所述深度学习网络对所述模型策略函数进行梯度下降的公式为：

其中，θ为所述卷积神经网络的参数，A(s)为评价策略梯度更新的优势函数，s代表矩阵，a表征训练动作；

所述深度学习网络对所述模型评价函数进行梯度下降的公式为：

其中，R为奖惩值，γ为贪婪系数，V为状态价值函数。

进一步地，所述在训练环境中训练深度强化学习模型，得到并保存所述深度强化学习模型的训练参数包括：

获取周围环境信息；

将获取的所述周围环境信息压入矩阵，以得到所述目标车辆所处的当前状态；所述当前状态至少包括所述目标车辆的车速的信息和方向盘转角的信息；

将所述当前状态压入数组以表征一个训练动作；

所述目标车辆执行所述训练动作，以进入下一个训练状态；

将所述训练状态作为一个变量，重新返回压入矩阵的步骤，使得所述当前状态不断更新；

当所述当前状态能够满足所述目标车辆在所述训练环境中进行车道保持和自主避障行驶后，将所述当前训练状态作为最优的所述训练参数保存。

进一步地，所述基于规则的自动驾驶策略包括：

在所述训练环境中，获取周围环境信息中交通参与者的规则化信息；所述规则化信息至少包括车道线方程、周围车辆信息和限速标识；

根据所述周围车辆信息和所述限速标识，决策所述目标车辆的实时车速，并控制所述目标车辆按照所述实时车速进行行驶；

根据所述车道线方程，控制所述车辆的方向盘跟随规划轨迹进行行驶。

进一步地，所述基于规则的自动驾驶策略还包括：

当出现自主换道需求时，获取相邻车道信息；

根据所述相邻车道信息，判断是否满足换道条件；

若判断结果为满足换道条件，则规划一条从本车道到目标车道的换道轨迹，并控制所述目标车辆跟随所述换道轨迹进行换道。

进一步地，所述根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件包括：

在所述训练环境中，根据本车道的前车信息判断所述目标车辆是否出现自主换道需求，得到第一判断结果；

判断通过训练所述深度强化学习模型得到并输出的方向盘转角是否大于方向盘转角阈值，得到第二判断结果；

判断所述评价函数的值是否大于评价阈值，得到第三判断结果。

进一步地，所述满足所述仲裁条件包括：

所述第一判断结果、所述第二判断结果与所述第三判断结果均为是，则满足所述仲裁条件；

所述不满足所述仲裁条件包括：

所述第一判断结果、所述第二判断结果与所述第三判断结果中的至少一个为否，则不满足所述仲裁条件。

进一步地，确定所述评价函数的公式为：

其中，α、β、γ、δ为相关系数，acc_lon为纵向加速度，acc_lat为横向加速度，tp_F、tp_R为前后车辆与目标车辆的相对时差、相对距离或相对速度。

另一方面，本发明提供了一种融合深度强化学习的自主换道系统，至少包括：

模型训练模块，用于在训练环境中训练深度强化学习模型，得到并保存所述深度强化学习模型的训练参数；

添加模块，用于在所述训练环境中，添加按照基于规则的自动驾驶策略行驶的目标车辆的信息；

评价函数制定模块，用于根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数；

判断模块，用于根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件；

第一换道执行模块，用于若满足所述仲裁条件，则将所述训练参数融合到所述目标车辆的信息，得到所述目标车辆的方向盘转角和车速并输出，以控制所述目标车辆行驶；

第二换道执行模块，用于若不满足所述仲裁条件，则仍按照所述基于规则的自动驾驶策略，得到并输出所述目标车辆的方向盘转角和车速，以控制所述目标车辆行驶。

实施本发明，具有如下有益效果：

1、本发明通过融合深度强化学习与基于规则的自动驾驶策略，能够在未对现实场景进行建模的环境中对车辆的自主换道进行决策，免去了大量实车测试标定系数的过程，提高深度强化学习算法的适用性。

2、在仿真的训练环境中，无需对大量不同的换道场景进行建模工作，也无需使目标车辆大量遍历换道场景，能够大大提升自主换道策略的决策速度，降低车辆进行决策的负荷。

3、根据周围环境的信息，制定评价函数，对是否满足换道条件进行多次仲裁，保证自主换道策略的决策准确性、及时性与安全性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明的一个可能的实施例提供的一种融合深度强化学习的自主换道方法的逻辑结构图；

图2为本发明的一个可能的实施例提供的深度强化学习模型的训练方法的逻辑结构图；

图3为本发明的一个可能的实施例中基于规则的自动驾驶策略的逻辑结构图；

图4为本发明的一个可能的实施例中仲裁条件的判断逻辑示意图；

图5为本发明实施例提供的一种融合深度强化学习的自主换道系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，因此不能理解为对本发明的限制。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本发明的实施例能够以除了下述图示或下述描述以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本实施例针对现有技术中的自主换道策略需要遍历大量换道场景模型进行决策，决策繁琐，适应性差的问题，提供了一种融合深度强化学习的自主换道方法，通过在仿真的训练环境中训练深度强化学习模型，得到能够使目标车辆进行车道保持及自主避障行驶的训练参数，之后通过确定的评价函数对目标车辆是否满足仲裁条件进行判别，并在满足仲裁条件、即满足自主换道条件的情况下，将深度强化学习模型的训练参数融合到目标车辆中原本的基于规则的自动驾驶策略，得到并输出经过融合决策后输出的方向盘转角和车速，以控制目标车辆按照实时做出的决策进行行驶；而若是不满足仲裁条件，则表明当时不具备足够的自主换道空间，强行换道风险较高，则不对深度强化学习模型进行融合，目标车辆维持原本的基于规则的自动驾驶策略进行行驶；在整个过程中，无需将目标车辆置于大量不同的真实场景中进行建模，仅依靠算法和策略之间进行融合即可根据仿真的训练环境自主进行决策，决策依据全面周到，适用性广泛，同时保证了做出决策的效率，保证车辆控制的准确性、及时性与安全性。

下面对本发明实施例的技术方案进行详细介绍，参考说明书附图1，该方法包括：

S101，在训练环境中训练深度强化学习模型，得到并保存所述深度强化学习模型的训练参数。

在该步骤中，训练环境中包含一系列周围环境信息以使得训练环境足够仿真，保证在该仿真的训练环境中模拟出的决策足够可靠，这些周围环境信息具体可以包括目标车辆四周的周围交通参与者的信息、道路信息、限速标识和信号灯的信息；而周围交通参与者的信息中，还可以包括障碍物车辆、车速、与目标车辆的相对坐标与相对方向等，而在本说明书的一个可能的实施方式中，其中的障碍物车辆在添加入仿真的训练环境中时，还可以选择添加车速符合平均分布的障碍物车辆，即在前期收集到的障碍物车辆的训练样本中，取得均衡后的平均车速进行添加能够进一步提升数据的可参考性，使得基于此进行的决策具有一般代表性，能够满足更多的道路场景，避免出现特殊情况导致做出的决策只能在特殊情境下执行，适用性和可靠性不高的情况；需要说明的是，以上这些仅仅是一些周围环境信息的举例，并不用于限定周围环境信息，只要能够增强训练环境仿真程度的环境信息都可以在本发明的保护范围之内。

可以看出，训练环境实际上是可以依靠周围环境信息进行建立和不断完善的，则在本说明书的一个可能的实施方式中，在S101步骤之前，该方法还可以包括：

获取周围环境信息；

基于所述周围环境信息，建立仿真的训练环境。

其中建立训练环境可以通过SUMO，CarMaker等软件进行建立，考虑到决策效率的问题，周围环境信息可以通过软件自带的数据直接获得，是由软件开发者收集并导入的具有典型意义的参考数据，进一步提升决策的及时性；而在本说明书的其他可能的实施方式中，为了根据满足不同需求的仿真模拟和决策，周围环境信息的数据也可以通过车辆中的摄像头等传感元件进行实时收集、传输与汇总，之后再导入仿真的训练环境中，真实性更高，可靠性更好。

S103，在所述训练环境中，添加按照基于规则的自动驾驶策略行驶的目标车辆的信息。

其中，目标车辆的信息包括其当时的车速与方向盘转角等能够决定目标车辆形式轨迹的参数信息，而目标车辆即为经过本发明的融合深度强化学习的自主换道方法进行控制的车辆；则在目标车辆开启自动驾驶功能时，首先使用的是基于规则的自动驾驶策略进行行驶，同时，虽然深度强化学习模型也在运行并输出车速和方向盘转角，但此时并没有将深度强化学习模型融合，之后通过后续步骤进行仲裁之后才根据仲裁结果判断是否要融合。

S105，根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数。

在该步骤中，确定评价函数的公式为：

根据以上公式，评价函数是判断目标车辆在自动驾驶过程中是否能够安全换道行驶的依据，则换道时的横向加速度及纵向加速度应在一定阈值内以保证舒适性及安全性，并且换道时目标车道(即目标车辆即将要到达的车道)内前方车辆的time_gap(即tp_F)应大于一定阈值，目标车道后方车辆的time_tap(即tp_R)应大于一定阈值，才能够保证目标车道中有足够的换道空间供目标车辆换道。

S107，根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件。

其中的目标车辆的信息包括该判断步骤执行是获取的目标车辆的周围环境信息、通过深度强化学习模型输出的车速和方向盘转角等信息。

S109，若满足所述仲裁条件，则将所述训练参数融合到所述目标车辆的信息，得到所述目标车辆的方向盘转角和车速并输出，以控制所述目标车辆行驶。

其中，将训练参数融合到目标车辆的信息可以理解为，将训练参数融合到基于规则的自动驾驶策略进行决策，之后经过决策计算输出能够控制行驶的实时方向盘转角和车速；也可以理解为深度强化学习模型一直在运行，只是在判断结束之前一致没有应用到决策中，则在判断结束之后，可以直接将目标车辆的驾驶策略切换为深度强化学习模型的算法，直接采用运行中的深度强化学习模型输出的车速和方向盘转角进行行驶。

S111，若不满足所述仲裁条件，则仍按照所述基于规则的自动驾驶策略，得到并输出所述目标车辆的方向盘转角和车速，以控制所述目标车辆行驶。

并且，在该步骤中，判断得到仍旧依照基于规则的自动驾驶策略进行决策后，还可以进一步采用PID规控算法对控制过程进行优化，使得目标车辆精确按照输出的方向盘转角和车速进行行驶，控制精确性高，大大提升驾驶安全性。

具体地，在本说明书的一个可能的实施方式中，在S101步骤对深度强化学习模型进行训练之前，还需要先搭建该深度强化学习模型；其中，深度强化学习模型是基于深度学习网络搭建而成的，并且，本发明中采用的是包括四层卷积层和两层全连接层的卷积神经网络，能够不断加深网络结构来提升整体性能，使得深度强化学习模型的错误率大幅下降，同时扩展性又很强，使得其对于特征的提取和学习能力更强；此外，在本实施例中，深度强化学习模型用于提取训练环境中的特征信息，尤其是环境中的障碍物的特征信息，进一步保障换道策略决策时的可靠性。

该深度强化学习模型的强化学习采用Actor-Critic算法，简称AC算法，也就是说，本发明中的融合深度强化学习模型实际上可以理解为将AC算法融合到目标车辆的决策过程中；而该AC算法包括模型策略函数π_θ(s,a)和模型评价函数V(s_t,θ_V)，通过深度学习网络对模型策略函数和模型评价函数一步步不断地进行梯度下降，使得训练参数不断收敛，以实现训练深度强化学习模型的目的；其中模型策略函数符合高斯分布，通过深度学习网络对该模型策略函数进行梯度下降的公式为：

其中，θ为卷积神经网络的参数，A(s)为评价策略梯度更新的优势函数，s代表矩阵，a表征训练动作；

通过深度学习网络对模型评价函数进行梯度下降的公式为：

其中，R为奖惩值，γ为贪婪系数，V为状态价值函数。

而奖惩值R为单回合所有惩罚值之和，包括碰撞奖惩值v_col、车辆转角的奖惩值v_ω、车道保持的奖惩值v_o以及靠近障碍物的奖惩值v_d；

该碰撞奖惩值v_col的值为-x；

车辆转角的奖惩值v_ω由以下公式获得：

v_ω＝(0.5·v)/(|ω|+0.01)

其中，v为无人车的速度取值，ω为无人车的角速度；

车道保持的奖惩值v_o由以下公式获得：

v_o＝1/(|offset|+0.01)

其中，offset为车辆与车道中心线的距离；

靠近障碍物的奖惩值v_d由以下公式获得：

v_d＝-1/(d-3)

其中，d为车辆与最近障碍物的距离；

则最终的奖惩值R＝v_col+v_ω+v_o+v_d。

具体地，在本说明书的一个可能的实施方式中，如说明书附图2所示，S101步骤，即所述在训练环境中训练深度强化学习模型，得到并保存所述深度强化学习模型的训练参数包括：

S202，获取周围环境信息。

如S101步骤中所示，该S202步骤可以在S101步骤之前执行，获取能够用于建立仿真的训练环境的尽可能多的周围环境信息；而在该S202步骤中，周围环境信息主要指与训练深度强化学习模型有关的目标车辆的周围交通参与者的信息，包括各个障碍物车辆的相对坐标、速度和方向等信息。

S204，将获取的所述周围环境信息压入矩阵，以得到所述目标车辆所处的当前状态；所述当前状态至少包括所述目标车辆的车速的信息和方向盘转角的信息。

S206，将所述当前状态压入数组以表征一个训练动作。

S208，所述目标车辆执行所述训练动作，以进入下一个训练状态。

S210，将所述训练状态作为一个变量，重新返回压入矩阵的步骤，使得所述当前状态不断更新。

在这一过程中，S204-S208步骤是一个状态转变的过程，即通过获取周围环境信息得到目标车辆当前所处的一个状态，并通过压入矩阵s来将这一当前状态量化为一种状态变量，在本实施例中，是作为马尔科夫决策模型的状态变量，即整合成一种量化的数据，称为状态变量；之后将这一当前的状态变量(包括车速和方向盘转角的信息)压入数组作为a表征一个训练动作，而目标车辆通过执行这一训练动作，就能够从S204步骤中的当前状态转换到下一时刻的当前状态，也就是得到了一个新的训练状态，或者得到了一个信息训练状态的状态变量；之后执行S210步骤，即返回S204步骤重新压入矩阵，实现新一轮循环，从而通过循环不断更新状态变量，使得模型参数越来越精密，达到不断收敛以及优化深度强化学习模型的目的。

S212，当所述当前状态能够满足所述目标车辆在所述训练环境中进行车道保持和自主避障行驶后，将所述当前训练状态作为最优的所述训练参数保存。

此时，按照深度强化学习模型当前的决策已经能够保证目标车辆能够进行安全行驶，即训练完成，将此时的训练状态相关的状态变量等一系列参数保存，作为训练参数输出备用，则一旦评价函数判断满足了仲裁条件，就可以直接调用训练参数进行决策，控制车辆按照深度强化学习模型输出的车速和方向盘转角进行行驶，反应快速，运行简单，能够大大提升决策效率，保证驾驶安全性。

具体地，如说明书附图3所示，S103步骤中，基于规则的自动驾驶策略包括：

S301，在所述训练环境中，获取周围环境信息中交通参与者的规则化信息。

其中，交通参与者的规则化信息也属于周围环境信息中的一种，可以在S101步骤之前就随着周围环境信息导入训练环境中，只不过在S301步骤中才提取出来进行使用；此外，在本说明书的一个可能的实施方式中，交通参与者的规则化信息也可以重新导入或者更新后获取，保证这些信息的实时性，有利于提升决策的准确性；而在本实施例中，该规则化信息可以包括车道线方程、周围车辆信息和限速标识等信息，以及其他的经验性信息；对于周围车辆信息，其中还可以具体包括周围车辆位置、周围车辆车速、道路障碍物的位置和行人的位置等信息，这部分信息也可以是通过收集到的数据进行提取所得到的关于目标车辆周围的一些规律性的信息，因此，可以根据不断更新的数据集进行优化，使得提取到的信息规律性更加明显，有利于提升可靠性。

S303，根据所述周围车辆信息和所述限速标识，决策所述目标车辆的实时车速，并控制所述目标车辆按照所述实时车速进行行驶。

其中，该步骤主要是根据目标车辆所在的本车道中前车的距离和车速等信息，以及道路上的限速信息，来决策目标车辆的实时车速，以保证安全舒适地驾驶，属于一种车道保持策略。

S305，根据所述车道线方程，控制所述车辆的方向盘跟随规划轨迹进行行驶。

其中，车道线方程是将采集的车道线数据进行曲线拟合而得到的车道线的参数信息估计量，从而能够得知偏移量、倾斜角和曲率半径等信息，进而预测车道线的走向，为车辆的自动驾驶提供辅助；根据该车道线能够规划出中心线，即车辆的规划轨迹，控制目标车辆的方向盘按照这一规划轨迹进行行驶，实现车道保持；或者当道路中出现障碍物时，目标车辆不应该继续执行车道保持策略，则控制方向盘转动相应的转角，使得目标车辆能够避开障碍物，执行自主避障行驶，安全性高，舒适度好。

而在本说明书的一个可能的实施方式中，参考说明书附图3，该基于规则的自动驾驶策略还包括：

S307，当出现自主换道需求时，获取相邻车道信息。

其中，与S303步骤相似，S307步骤也可以在S101步骤之前，从周围环境信息中获取，或者与S303步骤并列，分别进行获取，也可以在S303步骤之后获取相邻车道信息；而该相邻车道信息可以包括相邻车道中其他车辆的距离信息、车速信息和相邻车道中的障碍物位置信息等信息。

此外，对于该步骤中的自主换道需求，可以为目标车辆的驾驶员自主选择；而在开启自动驾驶功能后，还可以根据基于规则的自动驾驶策略根据周围环境信息被动选择，也可以配合S301-S305步骤综合判断，只要保证车辆行驶的安全性即可。

S309，根据所述相邻车道信息，判断是否满足换道条件。

S311，若判断结果为满足换道条件，则规划一条从本车道到目标车道的换道轨迹，并控制所述目标车辆跟随所述换道轨迹进行换道。

而在判断是否满足换道条件时，该换道条件可以与评价函数类似，即根据相邻车道中前后车的距离和车速等信息，判断相邻车道中是否存在合理的换道空间，能够允许目标车辆插进相邻车道，并在判断结束后，规划处一条能够满足舒适性和安全性的换道轨迹，控制目标车辆换道；但是，当判断出不满足换道条件时，即目标车道中并不存在足够的空间容纳目标车辆，则控制目标车辆中止换道，仍旧维持之前的行驶轨迹。

具体地，如说明书附图4所示，在本说明书的一个可能的实施方式中，S107步骤中，即所述根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件包括：

S402，在所述训练环境中，根据本车道的前车信息判断所述目标车辆是否出现自主换道需求，得到第一判断结果。

其中，在本说明书的一个可能的实施方式中，判断目标车辆出现自主换道需求的其中一种方式为：判断目标车辆所在的本车道中，前车是否低于车道限速n秒，若前车确实低于车道限速n秒，则第一判断结果为是；若前车高于或等于车道限速n秒，则第一判断结果为否；而n秒可以根据实际情况进行设定，可以是一个具体的数值，例如n可以等于10，则前车低于车道限速10秒，则第一判断结果为是；n秒也可以是数值范围，例如n秒可以是7～13s，本发明对此不作具体限定。

类似地，在本说明书的其他可能的实施方式中，该判断条件还可以是：判断前车车速是否低于车道限速。

S404，判断通过训练所述深度强化学习模型得到并输出的方向盘转角是否大于方向盘转角阈值，得到第二判断结果。

S406，判断所述评价函数的值是否大于评价阈值，得到第三判断结果。

其中，方向盘转角阈值和评价阈值同样可以根据实际情况进行设定，可以设定为一个具体的数值，大于这一数值即可认为第二判断结果(或者第三判断结果)为是；也可以设定为数值范围，本发明对此不作具体限定。

则根据S402-S406步骤的判断，只有第一判断结果、第二判断结果与第三判断结果均为是，才能认为满足所有仲裁条件，才能执行S109步骤，将深度强化学习模型的训练参数融合到目标车辆中控制车辆形式；而只要三个判断结果中有一个判断结果为否，则不满足仲裁条件，仍旧按照原有的基于规则的自动驾驶策略进行行驶。

通过上述实施例可知，本发明实施例中的融合深度强化学习的自主换道方法具有以下有益效果：

与上述本实施例提供的融合深度强化学习的自主换道方法相对应，本发明实施例还提供一种融合深度强化学习的自主换道系统，由于本发明实施例提供的融合深度强化学习的自主换道系统与上述几种实施方式提供的融合深度强化学习的自主换道方法相对应，因此前述融合深度强化学习的自主换道方法的实施方式也适用于本实施例提供的融合深度强化学习的自主换道系统，在本实施例中不再详细描述。

本发明实施例提供的融合深度强化学习的自主换道系统能够实现上述方法实施例中的融合深度强化学习的自主换道方法，如说明书附图5所示，该系统可以包括：

模型训练模块510，用于在训练环境中训练深度强化学习模型，得到并保存所述深度强化学习模型的训练参数；

添加模块520，用于在所述训练环境中，添加按照基于规则的自动驾驶策略行驶的目标车辆的信息；

评价函数制定模块530，用于根据所述训练环境和所述基于规则的自动驾驶策略制定评价函数；

判断模块540，用于根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件；

第一换道执行模块550，用于若满足所述仲裁条件，则将所述训练参数融合到所述目标车辆的信息，得到所述目标车辆的方向盘转角和车速并输出，以控制所述目标车辆行驶；

第二换道执行模块560，用于若不满足所述仲裁条件，则仍按照所述基于规则的自动驾驶策略，得到并输出所述目标车辆的方向盘转角和车速，以控制所述目标车辆行驶。

在一个可能的实施方式中，该模型训练模块510还可以包括：

矩阵模块，用于将获取的所述周围环境信息压入矩阵，以得到所述目标车辆所处的当前状态；所述当前状态至少包括所述目标车辆的车速的信息和方向盘转角的信息；

数组模块，用于将所述当前状态压入数组以表征一个训练动作；

状态转换模块，用于使所述目标车辆执行所述训练动作，以进入下一个训练状态；

状态循环更新模块，用于将所述训练状态作为一个变量，重新返回压入矩阵的步骤，使得所述当前状态不断更新；

参数获取模块，用于当所述当前状态能够满足所述目标车辆在所述训练环境中进行车道保持和自主避障行驶后，将所述当前训练状态作为最优的所述训练参数保存。

在另一个可能的实施方式中，该融合深度强化学习的自主换道系统还可以包括：

环境信息获取模块，用于获取周围环境信息；

环境建立模块，用于基于所述周围环境信息，建立仿真的训练环境；

模型搭建模块，用于搭建深度强化学习模型。

在其他可能的实施方式中，该判断模块540还可以包括：

第一判断子模块，用于在所述训练环境中，根据本车道的前车信息判断所述目标车辆是否出现自主换道需求，得到第一判断结果；

第二判断子模块，用于判断通过训练所述深度强化学习模型得到并输出的方向盘转角是否大于方向盘转角阈值，得到第二判断结果；

第三判断子模块，用于判断所述评价函数的值是否大于评价阈值，得到第三判断结果。

需要说明的是，上述实施例提供的系统，在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的系统与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例的融合深度强化学习的自主换道系统能够控制各个模块进行交互，使得深度强化学习模型在仿真的训练环境中进行训练，并根据评价函数进行仲裁，从而判断是否将深度强化学习模型融合到目标车辆的行驶策略中，若判断结果为是，则目标车辆基于AC算法行驶，输出深度强化学习模型的车速和方向盘转角进行控制，若判断结果为否，则仍按照基于规则的自动驾驶策略进行决策，规控算法，输出车速和方向盘转角进行控制，运行简单，反应快速及时，能够大大提升决策效率与决策准确性，保证自动驾驶的舒适性与安全性。

本发明实施例还提供一种车辆，包括中央控制器与以上所述的融合深度强化学习的自主换道系统，集成于车辆的终端中，该中央控制器包括处理器和存储器，存储器中存储有至少一条指令或者至少一段程序，其中至少一条指令或者至少一段程序由处理器加载并执行以实现上述的融合深度强化学习的自主换道方法。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))为异类传感器同步装置的核心部件，其功能主要是解释存储器指令以及处理各个监测模块或者获取模块所反馈的数据；处理器的结构大致分为运算逻辑部件与寄存器部件等，运算逻辑部件主要进行相关的逻辑计算(如移位操作、逻辑操作、定点或浮点算术运算操作与地址运算等)，寄存器部件则用于暂存指令、数据与地址。

存储器为记忆设备，可用于存储软件程序以及模块，处理器通过运行存储在存储器的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述装置的使用所创建的数据等；相应地，存储器还可以包括存储器控制器，以提供处理器对存储器的访问。

本发明实施例还提供一种存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现以上所述的融合深度强化学习的自主换道方法；可选地，该存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器；此外，该存储介质可以包括但不限于随机存取存储器(RAM，Random Access Memory)、只读存储器(ROM，Read-Only Memory)、U盘、移动硬盘、磁盘存储器件、闪存器件、其他易失性固态存储器件等各种可以存储程序代码的存储介质。

需要说明的是，上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所描述的仅为本发明的一些实施例而已，并不用于限制本发明，本行业的技术人员应当了解，本发明还会有各种变化和改进，任何依照本发明所做的修改、等同替换和改进都落入本发明所要求的保护的范围内。

Claims

1.一种融合深度强化学习的自主换道方法，其特征在于，包括：

2.根据权利要求1所述的一种融合深度强化学习的自主换道方法，其特征在于，所述深度强化学习模型基于深度学习网络搭建而成，所述深度学习网络为包括四层卷积层和两层全连接层的卷积神经网络，用于提取所述训练环境中的特征。

3.根据权利要求2所述的一种融合深度强化学习的自主换道方法，其特征在于，所述深度强化学习模型包括模型策略函数π_θ(s,a)和模型评价函数V(s_t,θ_V)，通过对所述模型策略函数和所述模型评价函数进行梯度下降，使得所述训练参数不断收敛，完成所述深度强化学习模型的训练；

其中，R为奖惩值，γ为贪婪系数，V为状态价值函数。

4.根据权利要求3所述的一种融合深度强化学习的自主换道方法，其特征在于，所述在训练环境中训练深度强化学习模型，得到并保存所述深度强化学习模型的训练参数包括：

获取周围环境信息；

将所述当前状态压入数组以表征一个训练动作；

所述目标车辆执行所述训练动作，以进入下一个训练状态；

5.根据权利要求1所述的一种融合深度强化学习的自主换道方法，其特征在于，所述基于规则的自动驾驶策略包括：

6.根据权利要求5所述的一种融合深度强化学习的自主换道方法，其特征在于，所述基于规则的自动驾驶策略还包括：

当出现自主换道需求时，获取相邻车道信息；

根据所述相邻车道信息，判断是否满足换道条件；

7.根据权利要求1所述的一种融合深度强化学习的自主换道方法，其特征在于，所述根据所述评价函数，判断所述目标车辆的信息是否满足仲裁条件包括：

8.根据权利要求7所述的一种融合深度强化学习的自主换道方法，其特征在于，所述满足所述仲裁条件包括：

所述不满足所述仲裁条件包括：

9.根据权利要求1所述的一种融合深度强化学习的自主换道方法，其特征在于，确定所述评价函数的公式为：

10.一种融合深度强化学习的自主换道系统，其特征在于，至少包括：