CN117610681A - 基于模仿学习和离散强化学习的自动驾驶汽车决策方法 - Google Patents
基于模仿学习和离散强化学习的自动驾驶汽车决策方法 Download PDFInfo
- Publication number
- CN117610681A CN117610681A CN202311623676.1A CN202311623676A CN117610681A CN 117610681 A CN117610681 A CN 117610681A CN 202311623676 A CN202311623676 A CN 202311623676A CN 117610681 A CN117610681 A CN 117610681A
- Authority
- CN
- China
- Prior art keywords
- decision
- reinforcement learning
- action
- learning
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000009471 action Effects 0.000 claims abstract description 70
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000006870 function Effects 0.000 claims abstract description 33
- 230000002452 interceptive effect Effects 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000004088 simulation Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 claims description 6
- 238000012502 risk assessment Methods 0.000 claims description 6
- 230000001133 acceleration Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 231100000817 safety factor Toxicity 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Traffic Control Systems (AREA)
- Feedback Control In General (AREA)
Abstract
本发明提供一种基于模仿学习和离散强化学习的自动驾驶汽车决策方法,基于强化学习DDQN算法,利用神经网络搭建不同驾驶场景下的强化学习决策模型;针对不同驾驶场景设计不同的奖励函数;基于不同驾驶场景下的驾驶演示数据对所述强化学习决策模型进行模仿学习预训练,得到预训练模型;基于奖励函数对预训练模型进行在线交互训练,得到最终强化学习决策模型;具体决策时,对于不同的驾驶场景调用对应的最终强化学习决策模型,从动作空间中选择出最佳决策动作并衔接底层规划控制模块,由底层规划控制模块负责动作执行。本发明能提高自动驾驶决策性能。
Description
技术领域
本发明属于自动驾驶技术领域,具体涉及一种基于模仿学习和离散强化学习的自动驾驶汽车决策方法。
背景技术
决策身为智能交通系统里的一项重要研究内容和关键技术,可以替代驾驶员在复杂的环境下及时做出判断。安全有效的决策模型不仅能保证行车的安全性,减少事故发生率,而且也能够在一定程度上缓解交通压力,提高交通效率。因而,构建一种可靠、高效的决策模型变得至关重要。现有的决策大多是基于规则来进行制定的,其具有可解释性、易于搭建、成熟等特点,但其难以适应车辆行驶中可能遇到的所有工况,从而可能导致决策错误,造成决策灾难。而近年来基于强化学习的决策方法表现出对不确定性环境的适应性,其需要大量的数据来进行训练以获得决策的鲁棒性,从而提高决策的性能。
然而训练都是基于与环境交互的数据进行的,这种交互往往是很耗时的。尤其对于任务型的场景,比如上下匝道、环岛等复杂场景,需要大量的高质量交互数据和很长的训练时间,如果仅仅凭借强化学习的自身探索是非常低效的,并且强化学习探索得到的数据并不能保证是高质量的,这也会影响到决策模型的性能。
发明内容
本发明要解决的技术问题是:提供一种基于模仿学习和离散强化学习的自动驾驶汽车决策方法,提高自动驾驶决策性能。
本发明为解决上述技术问题所采取的技术方案为:一种基于模仿学习和离散强化学习的自动驾驶汽车决策方法,本方法包括:
S1、面向自动驾驶汽车基于强化学习DDQN算法,利用神经网络搭建不同驾驶场景下的强化学习决策模型,并进行随机初始化;针对不同驾驶场景设计不同的奖励函数;
S2、获取不同驾驶场景下的驾驶演示数据,基于驾驶演示数据对所述强化学习决策模型进行模仿学习预训练,得到预训练模型;
S3、基于所述的奖励函数,对预训练模型进行在线交互训练,进一步优化强化学习决策模型至完全收敛,得到最终强化学习决策模型;
S4、在具体决策时,对于不同的驾驶场景调用对应的最终强化学习决策模型,获取自动驾驶汽车的实时交通状态并作为最终强化学习决策模型的输入,最终强化学习决策模型从动作空间中选择出最佳决策动作并衔接底层规划控制模块,由底层规划控制模块负责动作执行。
按上述方法,所述的S2中,不同驾驶场景下的驾驶演示数据通过以下方式获得:
A1、在不同驾驶场景下初始化车辆状态;
A2、在每个决策周期,人为判断自动驾驶汽车交通状态并进行专家决策,由规划控制模块负责决策动作执行;
A3、根据所设定的奖励函数,计算专家动作奖励;
A4、将决策周期的当前状态、动作、奖励、下一状态、是否终止的数据以马尔科夫决策信息链(si,ai,ri,si+1,di)的形式存储,作为不同驾驶场景下的驾驶演示数据。
按上述方法,所述的S2具体为:
S2.1、规范化损失函数,包括时序差分损失、监督边际分类损失以及参数正则化损失,并调整三者的权重;
S2.2、导入不同驾驶场景下的驾驶演示数据;
S2.3、抽取批次样本,基于所述马尔科夫决策信息链计算演示动作Q值,利用所述损失函数计算批次损失并进行梯度反向传播,优化所述强化学习决策模型的参数;
S2.4、重复S2.3,完成一定数量决策周期的神经网络训练,实现对演示动作Q值的初始拟合,最终得到预训练模型。
按上述方法,所述的损失函数J(Q)包括时序差分损失、监督边际分类损失以及参数正则化损失,如下所示:
J(Q)=JDQ(Q)+λ1JE(Q)+λ2JL2(Q)
其中JDQ(Q)、JE(Q)、JL2(Q)分别表示时序差分损失、监督边际分类损失和参数L2正则化损失,λ1和λ2表示监督边际分类损失和参数L2正则化损失的权重,L2为网络权重的欧几里得范数。
按上述方法,所述的S3具体为:
S3.1、导入并加载不同驾驶场景下的驾驶演示数据至专家数据经验回放池;
S3.2、初始化贪婪策略探索系数;
S3.3、初始化环境、车辆状态;
S3.4、基于车辆当前状态si,利用贪婪策略在预训练模型估计出的最优动作和随机动作之间选取动作ai;
S3.5、在车辆当前状态si采取动作ai后得到新的状态si+1;
S3.6、根据设定的奖励函数对动作ai进行评估,得到车辆当前状态及动作对应的奖励ri;
S3.7、将S3.4-S3.6构成的在线交互过程的当前状态、动作、奖励、下一状态、是否终止的数据以马尔科夫决策信息链(si,ai,ri,si+1,di)的形式存储为交互数据,保存至交互数据经验回放池;
S3.8、在家数据经验回放池和交互数据经验回放池中,按照一定的比例进行采样组成训练批次,利用所述的损失函数计算批次损失并进行梯度反向传播,优化所述强化学习决策模型的参数,其中交互数据不计算监督边际分类损失;
S3.9、重复S3.4至S3.8,发生碰撞或到达终止时间即终止,终止后从S3.3开始新回合训练直至模型收敛,得到最终强化学习决策模型。
按上述方法,所述的S4具体为:
S4.1、调用当前场景对应的最终强化学习决策模型;
S4.2、获取自动驾驶汽车的实时交通状态并输入至最终强化学习决策模型;
S4.3、最终强化学习决策模型从动作空间选择出最佳决策动作;
S4.4、最佳决策动作输入至底层规划控制模块并进行解析执行,车辆状态更新;
S4.5、重复S4.2至S4.4,完成自动驾驶汽车决策。
按上述方法,所述的自动驾驶汽车的实时交通状态包括自车纵横向位置、纵横向速度、自车与感知范围内周围车辆的纵横向相对位置和速度;动作空间包括加速度动作及左右换道动作。
按上述方法,所述的底层规划控制模块中,控制周期取为决策周期的1/10。
按上述方法,所述的奖励函数包括碰撞风险评估奖励、速度奖励、舒适度奖励以及任务奖励。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明的有益效果为:
1、本发明基于专家数据利用模仿学习的方法对强化学习决策模型进行预训练,引导模型的初始化,约束前期探索策略,提高前期探索效率和模型收敛速度,解决了强化学习面对强交互场景的耗时问题。本发明的初始验证结果表明本发明所提出的基于模仿学习和离散强化学习的自动驾驶汽车决策方法较单强化学习方法在收敛速度和收敛效果方面均有较大的提升。
2、本发明可以加强对现实中的自然驾驶数据的有效利用,对驾驶数据进行处理获取马尔科夫决策信息链,然后基于此对强化学习模型进行预训练,充分利用现有数据对决策模型进行预先性数据驱动,提高模型的收敛速度,另外也可以针对特定场景通过数据采集获取驾驶数据来进行针对性的预先性数据驱动,解决了现实中优质的自然驾驶数据的有效利用问题。
3、本发明采用离散强化学习算法DDQN构建决策模型,其输出离散动作可以为底层规控模块提供决策引导,便于决策模块与成熟的底层规控的结合,决策模型可以通过状态获取得到底层的执行反馈,保证了决策模型的可应用性和决策安全性,避免了端到端的强化学习方法从感知端到执行端进行大跨度决策的低应用性和低安全性问题。
附图说明
图1为本发明一实施例的方法流程图。
图2为本发明一实施例中与现有技术对比的平均奖励训练曲线图。
图3为本发明一实施例中与现有技术对比的平均速度训练曲线图。
图4为本发明一实施例中与现有技术决策模型测试结果对比图。
具体实施方式
下面结合具体实例和附图对本发明做进一步说明。
本发明提供一种基于模仿学习和离散强化学习的自动驾驶汽车决策方法,如图1所示,本方法包括:
S1、面向自动驾驶汽车基于强化学习DDQN算法,利用神经网络搭建不同驾驶场景下的强化学习决策模型,并进行随机初始化;针对不同驾驶场景设计不同的奖励函数。
具体地,搭建不同驾驶场景下的强化学习决策模型,其中,驾驶场景可以包括跟车行驶、弯道行驶、上下匝道等场景,针对不同的驾驶场景设计不同的奖励函数,包括碰撞风险评估奖励、速度奖励、舒适度奖励以及任务奖励,如跟车行驶侧重碰撞风险评估奖励和速度奖励,弯道行驶侧重舒适度奖励,上下匝道则侧重任务奖励。
S2、获取不同驾驶场景下的驾驶演示数据,基于驾驶演示数据对所述强化学习决策模型进行模仿学习预训练,得到预训练模型。
不同驾驶场景下的驾驶演示数据通过以下方式获得:
A1、在不同驾驶场景下初始化车辆状态;
A2、在每个决策周期,人为判断自动驾驶汽车交通状态并进行专家决策,由规划控制模块负责决策动作执行;
A3、根据所设定的奖励函数,计算专家动作奖励;
A4、将决策周期的当前状态si、动作ai、奖励ri、下一状态si+1、是否终止di的数据以马尔科夫决策信息链(si,ai,ri,si+1,di)的形式存储,作为不同驾驶场景下的驾驶演示数据。其中di表示第i个决策周期是否终止。
本实施例中,不同驾驶场景下的驾驶演示数据具有20万个马尔科夫决策信息链。
所述的S2具体为:
S2.1、规范化损失函数,包括时序差分损失、监督边际分类损失以及参数正则化损失,并调整三者的权重。所述的损失函数J(Q)包括时序差分损失、监督边际分类损失以及参数正则化损失,如下所示:
J(Q)=JDQ(Q)+λ1JE(Q)+λ2JL2(Q)
其中JDQ(Q)、JE(Q)、JL2(Q)分别表示时序差分损失、监督边际分类损失和参数L2正则化损失,λ1和λ2表示监督边际分类损失和参数L2正则化损失的权重,分别设定为1.0和1×10-6。L2为网络权重的欧几里得范数。
S2.2、导入不同驾驶场景下的驾驶演示数据;
S2.3、抽取批次样本,基于所述马尔科夫决策信息链计算演示动作Q值,利用所述损失函数计算批次损失并进行梯度反向传播,优化所述强化学习决策模型的参数。
S2.4、重复S2.3,完成一定数量决策周期的神经网络训练,实现对演示动作Q值的初始拟合,最终得到预训练模型。本实施例中,完成100万步的神经网络训练。
S3、基于所述的奖励函数,对预训练模型进行在线交互训练,进一步优化强化学习决策模型至完全收敛,得到最终强化学习决策模型。具体为:
S3.1、导入并加载不同驾驶场景下的驾驶演示数据至专家数据经验回放池;
S3.2、初始化贪婪策略探索系数,本实施例取0.5;
S3.3、初始化环境、车辆状态;
S3.4、基于车辆当前状态si,利用贪婪策略在预训练模型估计出的最优动作和随机动作之间选取动作ai;
S3.5、在车辆当前状态si采取动作ai后得到新的状态si+1;
S3.6、根据设定的奖励函数对动作ai进行评估,得到车辆当前状态及动作对应的奖励ri;
S3.7、将S3.4-S3.6构成的在线交互过程的当前状态、动作、奖励、下一状态、是否终止的数据以马尔科夫决策信息链(si,ai,ri,si+1,di)的形式存储为交互数据,保存至交互数据经验回放池;
S3.8、在家数据经验回放池和交互数据经验回放池中,按照一定的比例进行采样组成训练批次,利用所述的损失函数计算批次损失并进行梯度反向传播,优化所述强化学习决策模型的参数,其中交互数据不计算监督边际分类损失;
S3.9、重复S3.4至S3.8,发生碰撞或到达终止时间即终止,终止后从S3.3开始新回合训练直至模型收敛,得到最终强化学习决策模型。
其中决策模型的动作选择之前均利用安全规则进行最基本的安全动作空间筛选,以保证所选动作的安全性。安全规则采用碰撞时间和车间时距为安全因子对动作进行校验,并依据道路边界对换道指令进行安全校验。
S4、在具体决策时,对于不同的驾驶场景调用对应的最终强化学习决策模型,获取自动驾驶汽车的实时交通状态并作为最终强化学习决策模型的输入,最终强化学习决策模型从动作空间中选择出最佳决策动作并衔接底层规划控制模块,由底层规划控制模块负责动作执行。具体为:
S4.1、调用当前场景对应的最终强化学习决策模型。
S4.2、获取自动驾驶汽车的实时交通状态并输入至最终强化学习决策模型;所述的自动驾驶汽车的实时交通状态包括自车纵横向位置、纵横向速度、自车与感知范围内周围车辆的纵横向相对位置和速度;动作空间包括加速度动作(以-2m/s2,-1m/s2,0m/s2,1m/s2,2m/s2五个加速度为例)及左右换道动作。
S4.3、最终强化学习决策模型从动作空间选择出最佳决策动作。
S4.4、最佳决策动作输入至底层规划控制模块并进行解析执行,车辆状态更新。所述的底层规划控制模块中,控制周期取为决策周期的1/10。
S4.5、重复S4.2至S4.4,完成自动驾驶汽车决策。
为了对本发明实例提出的方法进行初步验证,以下匝道场景为例进行了仿真测试,所取的仿真场景是CARALA仿真平台中Town04的一段四车道的高架道路,车道宽度为3.5m,取其中400m进行研究。自动驾驶汽车在下匝道口前方300m处最左侧两个车道生成,其目标点是最右侧的下匝道口,因此它需要逐步向右换道交互至最右侧车道,旁车在自动驾驶汽车前后200m随机生成,决策步长和控制步长分别取为500ms、50ms。具体仿真步骤包括:
(1)步骤1,设计当前下匝道场景的奖励函数,分别包括碰撞风险评估奖励、速度奖励、舒适性相关奖励和任务目标奖励,其中任务目标奖励又包括了横向偏差奖励以及任务完成度的奖励。
(2)步骤2,基于自动驾驶汽车的当前状态在仿真平台的车辆控制端进行人为决策并采集决策数据,生成专家数据集。
(3)步骤3,搭建强化学习决策模型,利用上述专家数据集对模型进行模仿学习预训练,得到预训练模型。
(4)步骤4,载入预训练模型,在仿真平台中进行在线仿真交互,进一步优化强化学习决策模型至完全收敛。
(5)步骤5,载入决策收敛模型,获取车辆状态并输入至模型,在该场景下对模型进行测试。
具体地,本发明实施例中仿真验证场景的具体奖励设计如下所示:
①碰撞风险评估奖励:
Rcollision=-200if collision
其中TTC和THW分别表示碰撞时间和车间时距。
②速度奖励:
Rv=-2×max(vdesired-vego,0)/vdes
其中vego表示自动驾驶汽车当前的速度(m/s),vdes表示自动驾驶汽车的期望速度(m/s),根据车流下车辆的平均速度,这里取为60km/h。
③舒适度奖励:
其中,a表示自动驾驶汽车决策模型选取的加速度。
④任务奖励:
Ry=-2×abs(ycurrent-ytarget)/devmax
其中,ycurrent表示自动驾驶汽车当前所处的横向位置,ytarget表示目标点所处的横向位置,devmax表示横向偏差的最大值。
最终的奖励函数加以标准化,如下所示:
Rtotal=(RTTC+RTHW+Rv+Ra+Ry+Rover)/10
基于以上步骤对上述场景进行仿真验证并进行结果统计,图2-图4为本发明实施例中基于模仿学习和离散强化学习的自动驾驶汽车决策方法初始验证结果图,统计结果包括训练阶段平均奖励、平均速度以及测试阶段成功率、碰撞率和平均速度。图2-图4表明本发明实施例中基于模仿学习和强化学习的自动驾驶汽车决策方法相较于单强化学习方法在收敛速度和收敛效果方面有较大的提升,模型训练期间前期探索率提高,车辆的平均速度较高,同时测试阶段本发明实施例中的自动驾驶汽车决策方法在所述场景下的性能较其他方法有较大的提升,为本发明实施例中自动驾驶汽车决策方法的效果提供了初始验证。模仿学习加入强化学习初期预训练后,决策模型能够较好地初始化且约束探索策略,强化学习模型的前期探索效率可以得到进一步提高,其收敛速度和收敛效果可以得到很大提升,同时离散强化学习输出的离散动作引导保证了决策模型与底层规控模块的结合能力。
本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (10)
1.一种基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:本方法包括:
S1、面向自动驾驶汽车基于强化学习DDQN算法,利用神经网络搭建不同驾驶场景下的强化学习决策模型,并进行随机初始化;针对不同驾驶场景设计不同的奖励函数;
S2、获取不同驾驶场景下的驾驶演示数据,基于驾驶演示数据对所述强化学习决策模型进行模仿学习预训练,得到预训练模型;
S3、基于所述的奖励函数,对预训练模型进行在线交互训练,进一步优化强化学习决策模型至完全收敛,得到最终强化学习决策模型;
S4、在具体决策时,对于不同的驾驶场景调用对应的最终强化学习决策模型,获取自动驾驶汽车的实时交通状态并作为最终强化学习决策模型的输入,最终强化学习决策模型从动作空间中选择出最佳决策动作并衔接底层规划控制模块,由底层规划控制模块负责动作执行。
2.根据权利要求1所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的S2中,不同驾驶场景下的驾驶演示数据通过以下方式获得:
A1、在不同驾驶场景下初始化车辆状态;
A2、在每个决策周期,人为判断自动驾驶汽车交通状态并进行专家决策,由规划控制模块负责决策动作执行;
A3、根据所设定的奖励函数,计算专家动作奖励;
A4、将决策周期的当前状态、动作、奖励、下一状态、是否终止的数据以马尔科夫决策信息链(si,ai,ri,si+1,di)的形式存储,作为不同驾驶场景下的驾驶演示数据。
3.根据权利要求1所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的S2具体为:
S2.1、规范化损失函数,包括时序差分损失、监督边际分类损失以及参数正则化损失,并调整三者的权重;
S2.2、导入不同驾驶场景下的驾驶演示数据;
S2.3、抽取批次样本,基于所述马尔科夫决策信息链计算演示动作Q值,利用所述损失函数计算批次损失并进行梯度反向传播,优化所述强化学习决策模型的参数;
S2.4、重复S2.3,完成一定数量决策周期的神经网络训练,实现对演示动作Q值的初始拟合,最终得到预训练模型。
4.根据权利要求3所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的损失函数J(Q)包括时序差分损失、监督边际分类损失以及参数正则化损失,如下所示:
J(Q)=JDQ(Q)+λ1JE(Q)+λ2JL2(Q)
其中JDQ(Q)、JE(Q)、JL2(Q)分别表示时序差分损失、监督边际分类损失和参数L2正则化损失,λ1和λ2表示监督边际分类损失和参数L2正则化损失的权重,L2为网络权重的欧几里得范数。
5.根据权利要求3或4所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的S3具体为:
S3.1、导入并加载不同驾驶场景下的驾驶演示数据至专家数据经验回放池;
S3.2、初始化贪婪策略探索系数;
S3.3、初始化环境、车辆状态;
S3.4、基于车辆当前状态si,利用贪婪策略在预训练模型估计出的最优动作和随机动作之间选取动作ai;
S3.5、在车辆当前状态si采取动作ai后得到新的状态si+1;
S3.6、根据设定的奖励函数对动作ai进行评估,得到车辆当前状态及动作对应的奖励ri;
S3.7、将S3.4-S3.6构成的在线交互过程的当前状态、动作、奖励、下一状态、是否终止的数据以马尔科夫决策信息链(si,ai,ri,si+1,di)的形式存储为交互数据,保存至交互数据经验回放池;
S3.8、在家数据经验回放池和交互数据经验回放池中,按照一定的比例进行采样组成训练批次,利用所述的损失函数计算批次损失并进行梯度反向传播,优化所述强化学习决策模型的参数,其中交互数据不计算监督边际分类损失;
S3.9、重复S3.4至S3.8,发生碰撞或到达终止时间即终止,终止后从S3.3开始新回合训练直至模型收敛,得到最终强化学习决策模型。
6.根据权利要求1所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的S4具体为:
S4.1、调用当前场景对应的最终强化学习决策模型;
S4.2、获取自动驾驶汽车的实时交通状态并输入至最终强化学习决策模型;
S4.3、最终强化学习决策模型从动作空间选择出最佳决策动作;
S4.4、最佳决策动作输入至底层规划控制模块并进行解析执行,车辆状态更新;
S4.5、重复S4.2至S4.4,完成自动驾驶汽车决策。
7.根据权利要求6所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的自动驾驶汽车的实时交通状态包括自车纵横向位置、纵横向速度、自车与感知范围内周围车辆的纵横向相对位置和速度;动作空间包括加速度动作及左右换道动作。
8.根据权利要求6或7所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的底层规划控制模块中,控制周期取为决策周期的1/10。
9.根据权利要求1所述的基于模仿学习和离散强化学习的自动驾驶汽车决策方法,其特征在于:所述的奖励函数包括碰撞风险评估奖励、速度奖励、舒适度奖励以及任务奖励。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现上述权利要求1至9中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311623676.1A CN117610681A (zh) | 2023-11-28 | 2023-11-28 | 基于模仿学习和离散强化学习的自动驾驶汽车决策方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311623676.1A CN117610681A (zh) | 2023-11-28 | 2023-11-28 | 基于模仿学习和离散强化学习的自动驾驶汽车决策方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117610681A true CN117610681A (zh) | 2024-02-27 |
Family
ID=89947898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311623676.1A Pending CN117610681A (zh) | 2023-11-28 | 2023-11-28 | 基于模仿学习和离散强化学习的自动驾驶汽车决策方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117610681A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117933346A (zh) * | 2024-03-25 | 2024-04-26 | 之江实验室 | 一种基于自监督强化学习的即时奖励学习方法 |
CN118113044A (zh) * | 2024-02-29 | 2024-05-31 | 中兵智能创新研究院有限公司 | 一种地面无人平台的跨场景行为决策系统 |
CN118656308A (zh) * | 2024-08-19 | 2024-09-17 | 中汽数据(天津)有限公司 | 一种车联网预期功能安全测试数据扩展方法 |
-
2023
- 2023-11-28 CN CN202311623676.1A patent/CN117610681A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118113044A (zh) * | 2024-02-29 | 2024-05-31 | 中兵智能创新研究院有限公司 | 一种地面无人平台的跨场景行为决策系统 |
CN117933346A (zh) * | 2024-03-25 | 2024-04-26 | 之江实验室 | 一种基于自监督强化学习的即时奖励学习方法 |
CN118656308A (zh) * | 2024-08-19 | 2024-09-17 | 中汽数据(天津)有限公司 | 一种车联网预期功能安全测试数据扩展方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117610681A (zh) | 基于模仿学习和离散强化学习的自动驾驶汽车决策方法 | |
CN110297494B (zh) | 一种基于滚动博弈的自动驾驶车辆换道决策方法及系统 | |
CN109733415B (zh) | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 | |
CN112201069B (zh) | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 | |
CN111260027B (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN113561986B (zh) | 自动驾驶汽车决策方法及装置 | |
CN112172813B (zh) | 基于深度逆强化学习的模拟驾驶风格的跟车系统及方法 | |
CN113253739B (zh) | 一种用于高速公路的驾驶行为决策方法 | |
CN114162146B (zh) | 行驶策略模型训练方法以及自动驾驶的控制方法 | |
CN114358128A (zh) | 一种训练端到端的自动驾驶策略的方法 | |
CN113901718A (zh) | 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 | |
CN111348034B (zh) | 基于生成对抗模仿学习的自动泊车方法及系统 | |
CN114148349B (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
CN114372501A (zh) | 自动驾驶训练方法、装置、设备、存储介质及程序产品 | |
CN117872800A (zh) | 一种基于离散状态空间下强化学习的决策规划方法 | |
CN116639124A (zh) | 一种基于双层深度强化学习的自动驾驶车辆换道方法 | |
CN116224996A (zh) | 一种基于对抗强化学习的自动驾驶优化控制方法 | |
CN116052411A (zh) | 基于图神经网络强化学习的分流区混合交通流控制方法 | |
CN114789729A (zh) | 一种基于驾驶风格的匝道协同控制系统及方法 | |
CN114954498A (zh) | 基于模仿学习初始化的强化学习换道行为规划方法及系统 | |
CN118560530B (zh) | 一种基于生成对抗模仿学习的多智能体驾驶行为建模方法 | |
CN118567372B (zh) | 一种基于多专家模仿学习的无人机控制方法及系统 | |
CN117975190B (zh) | 基于视觉预训练模型的模仿学习混合样本处理方法及装置 | |
CN115830863B (zh) | 一种改进深度强化学习的智能汽车类人跟驰行为控制方法 | |
CN118810796A (zh) | 基于驾驶意图和深度强化学习的智能汽车决策方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |