CN111898211B - 基于深度强化学习的智能车速度决策方法及其仿真方法 - Google Patents
基于深度强化学习的智能车速度决策方法及其仿真方法 Download PDFInfo
- Publication number
- CN111898211B CN111898211B CN202010788354.2A CN202010788354A CN111898211B CN 111898211 B CN111898211 B CN 111898211B CN 202010788354 A CN202010788354 A CN 202010788354A CN 111898211 B CN111898211 B CN 111898211B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- neural network
- experience
- action
- intelligent vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于深度强化学习方法的智能车速度决策方法,构造智能车通过路口的马尔可夫决策模型的状态空间S,动作空间A,即时奖赏空间R;初始化神经网络,构建经验池;采用ε‑greedy算法进行动作的选择,并将此次经验填加进所述步骤二构建的经验池;从经验池随机选出一部分经验,采用随机梯度下降法训练神经网络;根据最新神经网络完成当前时刻智能车的速度决策,并将此次经验填加至经验池,随机选取一部分经验再进行新一轮神经网络的训练。本发明同时公开了一种基于深度强化学习的智能车速度决策方法的仿真方法,基于matlab自动驾驶工具箱搭建的深度强化学习仿真系统进行仿真实验。
Description
技术领域
本发明涉及深度强化学习技术领域及自动驾驶技术领域,尤其涉及基于深度强化学习与Matlab的智能车速度决策方法。
背景技术
随着社会的发展和科学技术水平的不断提升,人们对汽车提出了新的要求。许多汽车厂商和科研机构对汽车的研究重心正在由“传统汽车”转向“人、车、路一体化的智能汽车”,各个国家也相应出台了法规与政策推动智能车的发展。
自动驾驶技术现已成为智能车未来发展的核心技术与研究热点,决策控制作为自动驾驶技术的四大分支之一,占有重要地位。现有的智能车决策方法或多或少都存在一些缺陷,如基于规则的方法多适用于简单场景下,很难胜任具有丰富结构化特征的城区道路环境;基于轮询机制的决策树方法需要针对每个驾驶场景离线定义决策网络;基于信息/本体论的决策推理方法依赖于车-车(V2V)通信,需要完全知晓他车的信息(包括驾驶意图)。
同时,以上方法还存在忽略环境的动态性和不确定性的共性问题,然而现实的交通环境常常存在很强的不确定性,车与车,车与路关系错综复杂,实时都在变化,这样很难实现安全高效的决策,影响车辆的智能驾驶,甚至引发交通事故。
发明内容
本发明的目的在于针对现有决策方法存在的问题,提出一种基于深度强化学习方法的智能车速度决策方法及其仿真方法,将深度强化学习与matlab自动驾驶工具箱结合构成自动驾驶决策仿真系统,利用系统训练模型后,能够在无需知晓他车行驶意图的情况下,考虑环境的动态性和不确定性,实现车辆沿着既定路径行驶时安全有效的速度决策。
为实现上述目的,本发明采用技术方案如下:
作为本发明的一方面,提供一种基于深度强化学习的智能车速度决策方法,包括以下步骤:
步骤一、构造智能车通过路口的马尔可夫决策模型:构造马尔可夫决策模型中的状态空间S,动作空间A,即时奖赏空间R;
步骤二、初始化神经网络,构建经验池;
步骤三、采用ε-greedy算法进行动作的选择,并将此次经验填加进所述步骤二构建的经验池;
步骤四、从经验池随机选出一部分经验,采用随机梯度下降法训练神经网络;
步骤五、根据所述步骤四得到的最新神经网络完成当前时刻智能车的速度决策,并将此次经验填加至经验池,随机选取一部分经验再进行新一轮神经网络的训练。
进一步地,所述步骤一构造的状态空间S,动作空间A,即时奖赏空间R分别为:
状态空间的构成包括本车状态与他车状态,构建状态空间S如下:
S=[sego,s1,s2,…,sn]
其中,sego表示本车状态,s1-sn表示当前交通场景中其他车辆的状态,n表示其他车辆的数量;
动作空间A的构成包括本车在通过路口过程中能够控制车速的操作,包括:剧烈地减速DECH,柔和地减速DECS,保持匀速KS,柔和地增速ACCS,剧烈地增速ACCH,如下所示:
A=[DECH,DECS,KS,ACCS,ACCH]
即时奖赏R表示智能车完成某个动作后得到的回报,包括:到达目的地附近的奖赏值Rdes,智能车与他车发生碰撞的奖赏值Rcoll,衡量舒适性的奖赏值Rcom,衡量跟车距离潜在安全性的奖赏值Rdis,行车效率奖赏值Reffi,即时奖赏函数构成如下:
R=Rdes+Rcoll+Rcom+Rdis+Reffi。
进一步地,所述步骤二包括以下步骤:
神经网络包含1个输入层、1个输出层,2个隐藏层;
在输入层,设置神经节点的个数等于状态空间S向量的维度;
在输出层,设置神经节点的个数等于动作空间A的维度;
初始化经验池Replaybuffer以存取每次执行动作的状态转移;
使用经验回放法,将数据加载到缓存区。
进一步地,所述步骤三包括以下步骤:
对于每一次动作的选择,在当前环境状态S0,采用ε-greedy贪婪策略进行动作a0的选择,即以ε的概率选择Q值最大的动作,以1-ε的概率随机选择动作,其中ε∈(0,1),如下所示:
随即执行动作a0,获得立即奖赏值R0,环境状态由S0转变为S1,如果本车与其他车辆发生碰撞,则将失败标志over置为1,否则over=0;
将experience=[S0,a0,R0,S1,over]作为一次经验,填加到经验池。
进一步地,所述步骤四包括以下步骤:
从经验池中随机选择若干以往的经验作为一个sample,对于sample中的每一个经验experience,首先通过神经网络获取experience中状态S的Q值Q(S,a;θ),此值作为估计值Q-估计,其中θ为神经网络当前的参数;
对于experience中的over标志位,若over=0表示没有失败,则令targetQ=R0+γmaxa′Q(S′,a′;θ);若over=1表示尝试失败,则令targetQ=R0;
其中targetQ表示神经网络想要拟合的目标值Q-目标;γ∈(0,1)表示衰减率;θ是神经网络的参数;maxa′Q(S′,a′;θ)表示智能体处在状态S′时,执行动作a′的最大Q-估计;
基于Q-目标与Q-估计得到误差损失函数表达式,L(θ)=E(targetQ-Q(S,a;θ))2,采用梯度下降算法,在迭代的每一步,以负梯度方向更新神经网络的参数;
重复上述步骤,直到神经网络收敛或者训练迭代次数达到了预先设定的最大值,则得到训练好的神经网络。
作为本发明的另一方面,提出一种基于深度强化学习的智能车速度决策方法的仿真实验方法,基于matlab自动驾驶工具箱搭建的深度强化学习仿真系统进行仿真实验,包括以下步骤:
S1.通过matlab自动驾驶工具箱中的Driving Scenario Designer搭建自动驾驶决策的道路环境:
S11.在场景中填加两条垂直相交的道路作为驾驶环境中的道路对象,其中每条道路都是双向双车道;
S1.添加车辆对象,包括本车与他车,本车的起始位置和目标位置固定,包含直行通过路口工况和左转弯通过路口工况;其他车辆的位置、速度、方向都是随机产生的;再在智能车顶部安装探测雷达,以获得其他车辆的位置和速度;
S2.将步骤S1搭建的道路环境与所述的基于深度强化学习的智能车速度决策方法结合,验证神经网络针对当前环境做出决策以及决策动作作用于环境产生的变化:
S21.智能车自身的位置和速度构成本车状态:
sego=[xego,yego,vx,ego,vy,ego],
车载雷达获取其他车辆的位置与速度信息:
si=[xi,yi,vx,i,vy,i],i=1,2,…n
本车与他车状态构成状态空间,输入至神经网络中,神经网络拟合出Q值函数,根据最大Q值决策出智能车将要执行的动作;
S22.神经网络决策出的动作是车辆的加速度,将决策出的加速度乘以采样时间加上当前速度就实现了动作的执行;并不断更新本车的期望轨迹,以实现对本车期望路径的持续跟踪;
重复步骤S21和步骤S22,实现了车辆行驶过程中基于深度强化学习算法的持续决策和搭建的道路环境的持续向前推进。
与现有技术相比,本发明的有益效果是:
1.在错综复杂的交通环境下,能够充分考虑环境的动态性和不确定性,实现有效的决策,无论是直线工况和弯道工况都能保证速度决策的安全高效地进行。
2.可以通过但不依赖于车与车之间的数据互联来实现,仅仅通过智能车上安装的探测雷达,即可探测出决策算法所需要的全部数据,成本低且易于实现。
3.与其他大多数的场景软件相比,采用Driving Scenario Designer可以非常快速地构建交通场景,便于验证算法的可行性和正确性,且DQN深度强化学习模型的构造和交通环境的搭建均通过matlab完成,无需考虑神经网络和场景的接口调试问题。
附图说明
下面结合附图对本发明的具体实施方式作进一步的说明,接下来的这些说明将更具体而清晰的介绍本发明。其中:
图1是基于深度强化学习方法的智能车速度决策流程图;
图2是深度Q网络的训练原理示意图;
图3是跟车距离示意图;
图4是深度Q网络工作原理示意图;
图5是直线目标路径工况下的交通环境示意图;
图6是直线目标路径工况下的决策出的加速度值;
图7是转弯目标路径工况下的交通环境示意图;
图8是转弯目标路径工况下的决策出的加速度值;
图9是基于训练集的成功率曲线图;
图10是基于测试集的成功率曲线图;
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
实施例1
如图1所示,一种基于深度强化学习的智能车速度决策方法,包括以下步骤:
步骤一.构建状态空间S,动作空间A,即时奖赏空间R
马尔可夫决策模型,它可以用一个四元数组表示<S,A,T,R>,分别为状态空间,动作空间,状态转移函数,即时奖赏。在本方法中不涉及状态转移函数,故只需构建状态空间S,动作空间A,即时奖赏空间R。
状态空间的构成包括智能车(本车)状态与他车状态,构建状态空间如下:
S=[sego,s1,s2,…,sn]
其中sego表示本车状态,s1-sn表示当前交通场景中其他车辆的状态,n表示其他车辆的数量。
不论是本车还是他车,每辆车的状态包括四个组成部分,在大地坐标系下的横坐标x、纵坐标y,车辆沿x轴正方向的速度vx、沿y轴正方向的速度vy。
本车状态sego如下所示:
sego=[xego,yego,vx,ego,vy,ego]
其他车辆的状态如下:
si=[xi,yi,vx,i,vy,i],i=1,2,…n
动作空间A的构成包括智能车在通过路口过程中能够控制车速的操作,包括剧烈地减速,柔和地减速,保持匀速,柔和地增速,剧烈地增速,如下所示:
A=[DECH,DECS,KS,ACCS,ACCH]
即时奖赏R表示智能车完成某个动作后得到的回报,可正可负,本方法中主要考虑:到达目的地附近的奖赏值Rdes,智能车与他车发生碰撞的奖赏值Rcoll,衡量舒适性的奖赏值Rcom,衡量跟车距离潜在安全性的奖赏值Rdis,行车效率奖赏值Reffi,则即时奖赏函数构成如下:
R=Rdes+Rcoll+Rcom+Rdis+Reffi
每一部分的具体表达式如下:
到达目的地的奖赏值:
智能车与他车发生碰撞的奖赏值:
Rcoll=-200
乘坐舒适性的奖赏值:
因为动作空间中包含5个动作,为了避免动作的跨越过大导致乘客的乘坐舒适度降低,需要限制动作的切换。具体如下所示:
其中,subaction表示这一时刻决策的加速度与上一时刻加速度的差的绝对值,当差值大于等于8时,意味着动作的切换跨越了至少1个动作,舒适度会降低,因此给一个负的奖赏值。
衡量跟车距离潜在安全性的奖赏值:
如图3所示,当本车与前车的距离差x2-x1除以本车与前车的速度差v2-v1的结果表示潜在追尾时间tback,当这个时间小于1.5秒时,危险性增加,因此衡量跟车距离潜在安全性的奖赏值如下所示:
行车效率奖赏值:
其中vego表示本车速度,Vmax表示当前道路限速,在保证遵守交通规则的前提下,行车效率越高越好。
步骤二.初始化神经网络,构建经验池Replaybuffer
首先初始化神经网络,本发明中的神经网络包含1个输入层、1个输出层,2个隐藏层。在输入层,设置神经节点的个数等于状态空间S向量的维度(4*(n+1),n为除本车外的交通环境中的其他车辆的个数)。在输出层,设置神经节点的个数等于动作空间A的维度,这里因为动作空间中共有5个可选择动作,故设置输出节点数为5。适当选择隐藏层层数和每个隐藏层的神经节点数,这里设置两个隐藏层的节点数均为10。
初始化容量为20000的经验池Replaybuffer以存取每次执行动作的状态转移。使用经验回放技巧,即将数据加载到缓存区,便于下一步抽取小批量进行训练,使得历史数据得到有效利用。
步骤三.采用ε-greedy算法进行动作的选择,并将此次经验填加进经验池
深度Q网络的工作原理如图4所示。对于每一次动作的选择,在当前环境状态S0,采用ε-greedy贪婪策略进行动作a0的选择,即以ε的概率选择5个动作对应的5个Q值中Q值最大的动作,以1-ε的概率随机选择动作,其中ε∈(0,1),如下所示:
随即执行动作a0,获得立即奖赏值R0,环境状态由S0转变为S1,如果智能车与其他车辆发生碰撞,则将失败标志over置为1,否则over=0。
将初始环境状态S0,采取的动作a0,获得的立即奖赏值R0,转移状态S1,以及失败标志ove共同组成一个元胞数组:
experience=[S0,a0,R0,S1,over]
将其作为一次经验,填加到经验池Replaybuffer。
步骤四.从经验池随机选出一部分经验,采用随机梯度下降法训练神经网络
如图2深度Q网络训练原理示意图所示,深度Q网络中存在两个网络,目标网络和估计网络,真正训练到的只有估计网络,估计网络通过反向传播算法训练,神经网络训练的目的就是使得估计值和目标值的误差越小越好。
从经验池中随机选择一些以往的经验作为一个sample,对于sample中的每一个经验experience,首先通过估计网络获取experience中状态S的Q值Q(S,a;θ),此值作为估计值Q-估计,其中θ为神经网络当前的参数。对于experience中的over标志位,若over=0表示没有失败,则令targetQ=R0+γmaxa′Q(S′,a′;θ);若over=1表示尝试失败,则令targetQ=R0。其中targetQ表示目标网络想要拟合的目标值Q-目标;γ∈(0,1)表示衰减率,γ越接近于1,智能体越有远见,远处的价值看得越清楚,γ越接近于0,智能体越在乎眼前的利益;θ是神经网络的参数;maxa′Q(S′,a′;θ)表示智能体处在状态S′时,执行动作a′的最大Q-估计。
基于Q-目标与Q-估计得到误差损失函数表达式,L(θ)=E(targetQ-Q(S,a;θ))2。采用梯度下降算法,在迭代的每一步,以负梯度方向更新神经网络的参数。
重复步骤上述步骤直到神经网络收敛或者训练迭代次数达到了预先设定的最大值,则得到训练好的神经网络。
实施例2
一种基于深度强化学习的智能车速度决策方法的仿真方法,其基于matlab自动驾驶工具箱搭建的DQN(Deep-Q-Learning)仿真系统进行仿真实验,包括以下步骤:
首先搭建自动驾驶决策的道路环境,通过matlab自动驾驶工具箱中的DrivingScenario Designer实现,本发明提出的智能车速度决策主要针对无信号灯的交通路口,因此第一步,在场景中填加两条垂直相交的长度为100米的道路作为驾驶环境中的道路对象,其中每条道路都是双向双车道,每条车道的宽度为4.4米。第二步添加车辆对象,包括本车(智能车)与他车,本车的起始位置和目标位置固定,主要包含两种工况,直行通过路口和左转弯通过路口。其他车辆的位置、速度、方向都是符合一般驾驶习惯且随机产生的。再在智能车顶部安装探测雷达,雷达有效探测距离设置为100米,以获得其他车辆的位置和速度。
以下结合仿真实验结果说明本发明的技术效果:
图5是直线目标路径工况下的交通环境示意图,最下方车辆为本车(智能车),随机产生3辆车,他们的初始位置、行驶方向、速度均随机产生且符合交通法规。执行图1中的训练流程,即可得到训练好的神经网络,再执行测试过程,即再随机产生一定数量的如图5所示的交通环境,测试训练好的神经网络是否成功,能否应用于实际。图6是测试过程中直线目标路径工况下的决策出的加速度值,可以将决策出的加速度值再作用于车上,重新运行仿真环境,可以验证决策出的加速度值满足高效、安全的要求,能够使智能车安全快速地沿着目标路径通过路口。
图7是转弯目标路径工况下的交通环境示意图,同样地,最下方车辆为本车(智能车),随机产生2辆车,他们的初始位置、行驶方向、速度均随机产生且符合交通法规。执行图1中的训练流程,即可得到训练好的神经网络,再执行测试过程,即再随机产生一定数量的如图7所示的交通环境,测试训练好的神经网络是否成功,能否应用于实际。图8是测试过程中直线目标路径工况下的决策出的加速度值,同样地,可以将决策出的加速度值再作用于车上,重新运行仿真环境,可以验证决策出的加速度值满足高效、安全的要求,能够使智能车安全快速地沿着目标路径通过路口。
图9和图10分别是基于训练集的成功率曲线图和基于测试集的成功率曲线图。从图9可以看出,随着深度Q网络的训练次数增加,训练的成功率也呈上升趋势,这是因为每次迭代训练都能使深度Q网络的参数更加合理,趋利避害,以促进成功率的提升。从图10可以看出,基于测试集的成功率曲线保持在成功率很高的范围内且较为平稳,这是因为测试的时候,令ε=0,根据ε-greedy贪婪算法的性质,每次都执行Q值最大的动作,成功率较高。
本发明提出一种基于深度强化学习的智能车速度决策方法,并将深度强化学习与matlab自动驾驶工具箱结合构成自动驾驶决策仿真系统,利用系统训练模型后,能够在无需知晓他车行驶意图的情况下,考虑环境的动态性和不确定性,实现车辆沿着既定路径行驶时安全有效的速度决策。
Claims (5)
1.一种基于深度强化学习的智能车速度决策方法,其特征在于,包括以下步骤:
步骤一、构造智能车通过路口的马尔可夫决策模型:构造马尔可夫决策模型中的状态空间S,动作空间A,即时奖赏空间R;
状态空间的构成包括本车状态与他车状态,构建状态空间S如下:
S=[sego,s1,s2,…,sn]
其中,sego表示本车状态,s1-sn表示当前交通场景中其他车辆的状态,n表示其他车辆的数量;
动作空间A的构成包括本车在通过路口过程中能够控制车速的操作,包括:剧烈地减速DECH,柔和地减速DECS,保持匀速KS,柔和地增速ACCS,剧烈地增速ACCH,如下所示:
A=[DECH,DECS,KS,ACCS,ACCH]
即时奖赏R表示智能车完成某个动作后得到的回报,包括:到达目的地附近的奖赏值Rdes,智能车与他车发生碰撞的奖赏值Rcoll,衡量舒适性的奖赏值Rcom,衡量跟车距离潜在安全性的奖赏值Rdis,行车效率奖赏值Reffi,即时奖赏函数构成如下:
R=Rdes+Rcoll+Rcom+Rdis+Reffi
步骤二、初始化神经网络,构建经验池;
步骤三、采用ε-greedy算法进行动作的选择,并将此次经验填加进所述步骤二构建的经验池;
步骤四、从经验池随机选出一部分经验,采用随机梯度下降法训练神经网络;
步骤五、根据所述步骤四得到的最新神经网络完成当前时刻智能车的速度决策,并将此次经验填加至经验池,随机选取一部分经验再进行新一轮神经网络的训练。
2.如权利要求1所述的一种基于深度强化学习的智能车速度决策方法,其特征在于,所述步骤二包括以下步骤:
神经网络包含1个输入层、1个输出层,2个隐藏层;
在输入层,设置神经节点的个数等于状态空间S向量的维度;
在输出层,设置神经节点的个数等于动作空间A的维度;
初始化经验池Replaybuffer以存取每次执行动作的状态转移;
使用经验回放法,将数据加载到缓存区。
4.如权利要求3所述的一种基于深度强化学习的智能车速度决策方法,其特征在于,所述步骤四包括以下步骤:
从经验池中随机选择若干以往的经验作为一个sample,对于sample中的每一个经验experience,首先通过神经网络获取experience中状态S的Q值Q(S,a;θ),此值作为估计值Q-估计,其中θ为神经网络当前的参数;
对于experience中的over标志位,若over=0表示没有失败,则令targetQ=R0+γmaxa′Q(S′,a′;θ);若over=1表示尝试失败,则令targetQ=R0;
其中targetQ表示神经网络想要拟合的目标值Q-目标;γ∈(0,1)表示衰减率;θ是神经网络的参数;maxa′Q(S′,a′;θ)表示智能体处在状态S′时,执行动作a′的最大Q-估计;
基于Q-目标与Q-估计得到误差损失函数表达式,L(θ)=E(targetQ-Q(S,a;θ))2,采用梯度下降算法,在迭代的每一步,以负梯度方向更新神经网络的参数;
重复上述步骤,直到神经网络收敛或者训练迭代次数达到了预先设定的最大值,则得到训练好的神经网络。
5.如权利要求1所述的一种基于深度强化学习的智能车速度决策方法的仿真实验方法,其特征在于,基于matlab自动驾驶工具箱搭建的深度强化学习仿真系统进行仿真实验,包括以下步骤:
S1.通过matlab自动驾驶工具箱中的Driving Scenario Designer搭建自动驾驶决策的道路环境:
S11.在场景中填加两条垂直相交的道路作为驾驶环境中的道路对象,其中每条道路都是双向双车道;
S1.添加车辆对象,包括本车与他车,本车的起始位置和目标位置固定,包含直行通过路口工况和左转弯通过路口工况;其他车辆的位置、速度、方向都是随机产生的;再在智能车顶部安装探测雷达,以获得其他车辆的位置和速度;
S2.将步骤S1搭建的道路环境与所述的基于深度强化学习的智能车速度决策方法结合,验证神经网络针对当前环境做出决策以及决策动作作用于环境产生的变化:
S21.智能车自身的位置和速度构成本车状态:
sego=θxego,yego,vx,ego,vy,ego],
车载雷达获取其他车辆的位置与速度信息:
si=[xi,yi,vx,i,vy,i],i=1,2,…n
本车与他车状态构成状态空间,输入至神经网络中,神经网络拟合出Q值函数,根据最大Q值决策出智能车将要执行的动作;
S22.神经网络决策出的动作是车辆的加速度,将决策出的加速度乘以采样时间加上当前速度就实现了动作的执行;并不断更新本车的期望轨迹,以实现对本车期望路径的持续跟踪;
重复步骤S21和步骤S22,实现了车辆行驶过程中基于深度强化学习算法的持续决策和搭建的道路环境的持续向前推进。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010788354.2A CN111898211B (zh) | 2020-08-07 | 2020-08-07 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010788354.2A CN111898211B (zh) | 2020-08-07 | 2020-08-07 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898211A CN111898211A (zh) | 2020-11-06 |
CN111898211B true CN111898211B (zh) | 2022-11-01 |
Family
ID=73247282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010788354.2A Active CN111898211B (zh) | 2020-08-07 | 2020-08-07 | 基于深度强化学习的智能车速度决策方法及其仿真方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898211B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11657251B2 (en) * | 2018-11-12 | 2023-05-23 | Honda Motor Co., Ltd. | System and method for multi-agent reinforcement learning with periodic parameter sharing |
CN112406867B (zh) * | 2020-11-19 | 2021-12-28 | 清华大学 | 基于强化学习和避让策略的应急车辆混合换道决策方法 |
CN112365077B (zh) * | 2020-11-20 | 2022-06-21 | 贵州电网有限责任公司 | 一种电网缺陷物资智能仓储调度系统的构建方法 |
CN112801149B (zh) * | 2021-01-15 | 2024-06-11 | 江苏大学 | 一种基于深度强化学习的多车队列控制方法 |
CN113064907B (zh) * | 2021-04-26 | 2023-02-21 | 陕西悟空云信息技术有限公司 | 一种基于深度强化学习的内容更新方法 |
CN113514254B (zh) * | 2021-04-30 | 2022-05-17 | 吉林大学 | 一种针对自动驾驶仿真的并行加速测试方法 |
CN113344332A (zh) * | 2021-05-10 | 2021-09-03 | 山东师范大学 | 一种带运输过程和机器状态的车间调度方法及系统 |
CN112989715B (zh) * | 2021-05-20 | 2021-08-03 | 北京理工大学 | 一种燃料电池汽车多信号灯车速规划方法 |
CN113341383B (zh) * | 2021-05-31 | 2023-06-30 | 西安电子科技大学 | 基于dqn算法的雷达抗干扰智能决策方法 |
CN113503888A (zh) * | 2021-07-09 | 2021-10-15 | 复旦大学 | 一种基于交通信息物理系统的动态路径引导方法 |
CN113485300B (zh) * | 2021-07-15 | 2022-10-04 | 南京航空航天大学 | 一种基于强化学习的自动驾驶车辆碰撞测试方法 |
CN113552883B (zh) * | 2021-07-19 | 2024-05-14 | 吉林大学 | 基于深度强化学习的地面无人车自主驾驶方法及系统 |
CN113561995B (zh) * | 2021-08-19 | 2022-06-21 | 崔建勋 | 一种基于多维奖励架构深度q学习的自动驾驶决策方法 |
CN113807503B (zh) * | 2021-09-28 | 2024-02-09 | 中国科学技术大学先进技术研究院 | 适用于智能汽车的自主决策方法及系统、装置、终端 |
CN113885497A (zh) * | 2021-09-30 | 2022-01-04 | 湘潭大学 | 一种基于竞争深度q网络的车辆纵向动力学标定方法 |
CN114153213A (zh) * | 2021-12-01 | 2022-03-08 | 吉林大学 | 一种基于路径规划的深度强化学习智能车行为决策方法 |
CN114355897B (zh) * | 2021-12-15 | 2023-08-29 | 同济大学 | 一种基于模型和强化学习混合切换的车辆路径跟踪控制方法 |
CN114527642B (zh) * | 2022-03-03 | 2024-04-02 | 东北大学 | 一种基于深度强化学习的agv自动调整pid参数的方法 |
CN114613169B (zh) * | 2022-04-20 | 2023-02-28 | 南京信息工程大学 | 一种基于双经验池dqn的交通信号灯控制方法 |
CN115277073B (zh) * | 2022-06-20 | 2024-02-06 | 北京邮电大学 | 信道传输的方法、装置、电子设备及介质 |
CN116069014B (zh) * | 2022-11-16 | 2023-10-10 | 北京理工大学 | 一种基于改进型深度强化学习的车辆自动控制方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932840A (zh) * | 2018-07-17 | 2018-12-04 | 北京理工大学 | 基于强化学习的无人驾驶车辆城市交叉口通行方法 |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991980B (zh) * | 2014-10-31 | 2018-09-25 | 吉林大学 | 锂离子电池的电化学机理建模方法 |
EP3573520A4 (en) * | 2017-01-27 | 2020-11-04 | Arterys Inc. | AUTOMATED SEGMENTATION USING FULLY CONVOLUTIVE NETWORKS |
CN106849190B (zh) * | 2017-03-21 | 2019-05-17 | 国网天津市电力公司 | 一种基于Rollout算法的多能互补微网实时调度方法 |
CN108427985B (zh) * | 2018-01-02 | 2020-05-19 | 北京理工大学 | 一种基于深度强化学习的插电式混合动力车辆能量管理方法 |
CN109976340B (zh) * | 2019-03-19 | 2022-02-08 | 中国人民解放军国防科技大学 | 一种基于深度增强学习的人机协同动态避障方法及系统 |
CN110304075B (zh) * | 2019-07-04 | 2020-06-26 | 清华大学 | 基于混合动态贝叶斯网络和高斯过程的车辆轨迹预测方法 |
CN110322017A (zh) * | 2019-08-13 | 2019-10-11 | 吉林大学 | 基于深度强化学习的自动驾驶智能车轨迹跟踪控制策略 |
CN111487863B (zh) * | 2020-04-14 | 2022-06-17 | 东南大学 | 一种基于深度q神经网络的主动悬架强化学习控制方法 |
-
2020
- 2020-08-07 CN CN202010788354.2A patent/CN111898211B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932840A (zh) * | 2018-07-17 | 2018-12-04 | 北京理工大学 | 基于强化学习的无人驾驶车辆城市交叉口通行方法 |
CN110969848A (zh) * | 2019-11-26 | 2020-04-07 | 武汉理工大学 | 一种对向双车道下基于强化学习的自动驾驶超车决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111898211A (zh) | 2020-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111898211B (zh) | 基于深度强化学习的智能车速度决策方法及其仿真方法 | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN110796856B (zh) | 车辆变道意图预测方法及变道意图预测网络的训练方法 | |
WO2021077725A1 (zh) | 一种基于驾驶意图的周围车辆运动状态预测系统及方法 | |
DE102019206092A1 (de) | Systeme und verfahren zum erzeugen von instruktionen zum befahren von kreuzungen mit autonomen fahrzeugen | |
CN107168303A (zh) | 一种汽车的自动驾驶方法及装置 | |
KR20200094641A (ko) | 강화 학습에 기초하여 협업 주행에서 다중 에이전트 센서 퓨전을 수행하는 방법 및 장치 | |
CN107229973A (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 | |
CN113609784B (zh) | 一种交通极限场景生成方法、系统、设备和存储介质 | |
WO2022252457A1 (zh) | 一种自动驾驶控制方法、装置、设备及可读存储介质 | |
CN114973650A (zh) | 车辆匝道入口合流控制方法、车辆、电子设备及存储介质 | |
Youssef et al. | Comparative study of end-to-end deep learning methods for self-driving car | |
CN117227755A (zh) | 基于强化学习的复杂交通场景下自动驾驶决策方法及系统 | |
Zhang et al. | Spatial attention for autonomous decision-making in highway scene | |
CN114117944B (zh) | 一种模型更新方法、装置、设备及可读存储介质 | |
Tang et al. | Research on decision-making of lane-changing of automated vehicles in highway confluence area based on deep reinforcement learning | |
Youssef et al. | Deep reinforcement learning with external control: Self-driving car application | |
Elallid et al. | Vehicles control: Collision avoidance using federated deep reinforcement learning | |
CN115719547A (zh) | 基于多重交互行为的交通参与者轨迹预测方法及系统 | |
Molaie et al. | Auto-Driving Policies in Highway based on Distributional Deep Reinforcement Learning | |
CN116653957A (zh) | 一种变速变道方法、装置、设备及存储介质 | |
Xu et al. | DRNet: A Decision-Making Method for Autonomous Lane Changing with Deep Reinforcement Learning | |
Sheppard et al. | Using Particle Swarm Optimization to Learn a Lane Change Model for Autonomous Vehicle Merging | |
CN114627640B (zh) | 一种智能网联汽车行驶策略的动态演化方法 | |
CN117601904B (zh) | 车辆行驶轨迹的规划方法、装置、车辆及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |