CN113609784B - 一种交通极限场景生成方法、系统、设备和存储介质 - Google Patents
一种交通极限场景生成方法、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN113609784B CN113609784B CN202110948476.8A CN202110948476A CN113609784B CN 113609784 B CN113609784 B CN 113609784B CN 202110948476 A CN202110948476 A CN 202110948476A CN 113609784 B CN113609784 B CN 113609784B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- scene
- limit
- speed
- intelligent body
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000004088 simulation Methods 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 54
- 230000006870 function Effects 0.000 claims description 33
- 230000009471 action Effects 0.000 claims description 31
- 230000006399 behavior Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 12
- 230000001133 acceleration Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012790 confirmation Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 14
- 230000002787 reinforcement Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000008878 coupling Effects 0.000 description 7
- 238000010168 coupling process Methods 0.000 description 7
- 238000005859 coupling reaction Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 208000036119 Frailty Diseases 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 206010003549 asthenia Diseases 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种交通极限场景生成方法、系统、设备和存储介质,其包括以下步骤:选择仿真环境,确定普通场景及其参数;在设置好的各普通场景中进行车辆智能体模型的训练,得到训练好的车辆智能体模型;生成扰动,并添加到各普通场景中构建若干种极限场景;将训练好的车辆智能体模型放置于对应的极限场景中,根据该车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景。本发明可以广泛应用于交通测试场景生成领域。
Description
技术领域
本发明属于交通测试场景生成领域,尤其涉及一种基于强化学习和对抗攻击的交通极限场景生成方法、系统、设备和存储介质。
背景技术
交通测试场景是指汽车、环境等组成要素在一段时间内的总体动态描述,具有无限丰富、极其复杂、难以预测、不可穷尽等特点。为了提高交通测试场景的测试效率,提高其重复性,在保证测试过程的安全的同时节约成本,目前通常在虚拟仿真环境中进行交通测试场景的构建。
交通测试场景中的极限场景,是实际交通场景中极少出现的场景,更容易使场景中的车、人等要素表现不好或者得到不好的结果。通常情况下,极限场景可以分为两大类。一类是基于基元数值的极限,比如车速过快、天气极其恶劣等,该极限场景通过对交通测试场景中的单基元进行数值极限考量而获得;另一类是基于基元耦合的极限,该交通测试场景中的各项基元数值均是正常的,没有达到极限情况,但它们之间的耦合关系使得整个交通测试场景趋于极限状态,以自动驾驶汽车为例,自动驾驶汽车运行在该类极限场景中的表现会差于普通场景。
然而,目前针对极限场景的构建研究较少,且由于缺乏极限场景的数据集,无法使用数据集训练得到极限场景。
发明内容
针对上述问题,本发明的目的是提供一种交通极限场景生成方法、系统、设备和存储介质,本发明从普通交通测试场景入手,使用对抗攻击的方法生成扰动,并添加到普通交通测试场景中,完成交通极限场景的构建。
为实现上述目的,本发明采取以下技术方案:
本发明的第一个方面,是提供一种交通极限场景生成方法,其包括以下步骤:
选择仿真环境,确定普通场景及其参数;
在设置好的各普通场景中进行车辆智能体模型的训练,得到训练好的车辆智能体模型;
生成扰动,并添加到各普通场景中构建若干种极限场景;
将训练好的车辆智能体模型放置于对应的极限场景中,根据该车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景。
优选地,所述普通场景包括高速公路场景、十字路口场景以及环形路口场景。
优选地,所述高速公路场景的参数包括:
状态参数,包括与自车智能体附近最近的15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量,形成一个维度为(15,7)的状态矩阵;
动作决策变量,包括保持车道、左转、右转、加速、减速五种动作;
奖励函数,包括惩罚自车智能体的碰撞行为、奖励自车智能体在右车道行驶以及鼓励自车智能体以较高速度行驶三个奖励函数,表示如下:
Rco_h=-1
Rri_h=0.1
式中,Rco_h代表车辆碰撞得到的奖励,Rri_h代表车辆在最右侧车道行驶的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_h代表车辆以速度v行驶获得的奖励;
所述十字路口场景的参数包括:
状态参数,包括自车附近15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量;
动作决策变量,包括减速、不变、加速;
奖励函数:包括惩罚碰撞行为、鼓励自车智能体以高速行驶以及对自车智能体在仿真时间内到达目标地点的奖励三个奖励函数,表示为:
Rco_i=-5
Rar_i=1
式中,Rco_i代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_i代表车辆以速度v行驶获得的奖励,Rar_i代表左转成功到达目的地的奖励;
所述环形路口场景的参数包括:
状态参数,包括自车附近车辆的横向位置、纵向位置、横向速度、纵向速度4种状态变量;
动作决策变量,包括保持车道、左转、右转、加速、减速5种动作变量;
奖励函数,包括惩罚碰撞行为、鼓励自车智能体以高速行驶以及惩罚智能体的变道行为,表示如下:
Rco_r=-1
Rch_r=-0.05
式中,Rco_r代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_r代表车辆以速度v行驶获得的奖励,Rch_r代表改变车道得到的奖励。
优选地,所述在设置好的仿真环境中进行车辆智能体模型训练时,针对高速公路和十字路口场景采用基于注意力机制的DQN算法,针对环形路口场景采用Dueling-DQN算法。
优选地,所述生成扰动的方法,包括:FGSM-target、BIM和ILCM算法。
优选地,所述将训练好的车辆智能体模型放置于对应的极限场景中,根据该车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景的方法,包括:
将训练好的各车辆智能体模型分别放置于对应的极限场景中,得到各车辆智能体模型在对应的极限场景中的奖励值;
将各车辆智能体模型在对应的极限场景中的奖励值与其在普通场景中的奖励值作差;
将差值最大的极限场景作为最终生成的交通极限场景。
本发明的第二个方面,是提供一种交通极限场景生成系统,包括:
普通场景搭建模块,用于选择仿真环境,确定普通场景,设置普通场景参数,包括状态变量、动作决策以及奖励式;
车辆智能体模型训练模块,用于在设置好的各普通场景中进行车辆智能体模型的训练,得到训练好的车辆智能体模型;
极限场景搭建模块,用于采用多种对抗攻击算法生成扰动,添加到各普通场景中构建若干种极限场景;
极限场景确认模块,用于将训练好的各车辆智能体模型放置于相应的各极限场景中,根据各车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景。
优选地,所述极限场景确认模块,包括:
奖励值获取模块,用于将训练好的各车辆智能体模型分别放置于对应的极限场景中,得到各车辆智能体模型在对应的极限场景中的奖励值;
奖励值作差模块,用于将各车辆智能体模型在对应的极限场景中的奖励值与其在普通场景中的奖励值作差;
极限场景确认模块,用于将差值最大的极限场景作为最终生成的交通极限场景。
本发明的第三个方面,是提供一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,所述处理器运行所述计算机程序时执行以实现所述交通极限场景生成方法的步骤。
本发明的第四个方面,是提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现所述交通极限场景生成方法的步骤。
本发明由于采取以上技术方案,其具有以下优点:
1、本发明以强化学习和对抗攻击为理论基础,用强化学习算法训练普通场景中的自动驾驶智能体,得到训练完成的智能体模型,针对该智能体模型使用对抗攻击算法生成扰动,将扰动添加进原来的普通场景中获得极限场景,再使用训练好的智能体模型在极限场景中进行仿真,通过对比智能体模型在前后两个场景中的表现,确定极限场景,使得生成的极限场景更加适用于实际情况。
2、本发明设计普通场景包含高速公路场景、十字路口场景和环形路口场景,涵盖了更多交通场景,适用范围更广。
3、本发明针对不同的普通场景,采用不同的对抗攻击算法生成扰动,使得生成的极限场景更加贴近于实际情况。
因此,本发明可以广泛应用于交通测试场景生成领域。
附图说明
图1是本发明实施例仿真平台提供的高速公路场景示意图;
图2是本发明实施例仿真平台提供的十字路口场景示意图;
图3是本发明实施例仿真平台提供的环形路口场景示意图;
图4是本发明实施例提供的基于注意力机制的DQN网络模型结构图;
图5是本发明实施例提供的高速公路场景的智能体在训练过程中的奖励变化示意图;
图6是本发明实施例提供的十字路口场景的智能体在训练过程中的奖励变化示意图;
图7是本发明实施例提供的Dueling-DQN网络模型结构图;
图8是图7所示网络模型在训练过程中的奖励变化示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
首先需要说明的是,在本发明中,对于普通场景的定义是实际生活中常见的交通场景,而在实际生活中绝大部分的场景都是安全的,普通场景的数据获取较为简单,交通监控便可以给出大量的场景数据,但是普通场景不意味着绝对安全,而是出现问题的概率很小,但极限场景是指场景中容易出现问题比如碰撞等,极限场景是指场景内的基元有极大可能发生冲突最终导致出现问题的场景,即极限场景出现问题的概率相比于普通场景会大得多,同时极限场景的数据难以获取,所以考虑使用普通场景来生成极限场景。
本发明对交通场景中的极限场景给出了较为合理的解释,同时针对其中更不好处理的基于基元耦合的极限场景给出了构建方案——使用对抗攻击方法来生成极限场景。对抗攻击的方法本身是针对图像层次的,给图片像素添加一些扰动,肉眼看不出什么变化,但训练好的深度学习模型会将其分类错误,同样的,基于基元耦合的极限场景也是在直观上与普通场景无异,但有可能会对场景中的智能体造成不好的影响,故借助对抗攻击的方法针对强化学习模型加以修改,完成这一类极限场景的构建。
具体的,为了比较清楚地展示基于基元耦合的极限场景的极限情况,本发明是用自动驾驶汽车在生成的极限场景中进行仿真,与在普通场景中的表现即获得的奖励值进行比较,奖励值明显变小,说明生成的极限场景与普通场景确实存在着不同,且奖励值越小,说明生成的极限场景极限情况越好。其中,极限场景的生成方法是针对用强化学习算法训练好的自动驾驶智能体模型,采用对抗攻击算法,在保证场景基元数值正常的前提下,针对部分基元或者全部基元添加小比例的扰动,小比例的扰动对基元数值影响几乎没有,但会对基元之间的耦合关系造成影响,使得耦合关系趋于极限,进而影响自动驾驶汽车的表现。
实施例1
本实施例提供的一种交通极限场景生成方法,以强化学习和对抗攻击为理论基础,用强化学习算法训练普通场景中的自动驾驶智能体,得到训练完成的智能体模型,针对该智能体模型使用对抗攻击算法生成扰动,将扰动添加进原来的普通场景中获得极限场景,再使用训练好的智能体模型在极限场景中进行仿真,对比智能体模型在前后两个场景中的表现。具体步骤如下:
步骤1:选择仿真环境,确定普通场景,设置普通场景参数,包括状态变量、动作决策以及奖励式;
步骤2:采用强化学习算法如DQN、Dueling-DQN等在设置好的各普通场景中进行车辆智能体模型的训练,得到训练好的车辆智能体模型;
步骤3:采用多种对抗攻击算法如FGSM、FGSM-target、BIM、ILCM、PGD等生成扰动,添加到各普通场景中构建若干种极限场景;
步骤4:将训练好的车辆智能体模型放置于各种极限场景中,根据该车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景。
优选地,上述步骤1中,可以选择使用highway-env仿真平台提供的三种典型交通场景(高速公路、十字路口、环形路口)作为普通场景,示意图分别如图1、图2、图3所示。
如图1所示,在高速公路场景中,设置车辆智能体可以感知周围最多15辆汽车的状态,状态参数包括车道、行驶速度、距离自车位置与行驶角度等。在该高速公路场景中,自动驾驶车辆在一条多通道公路上行驶,公路上存在其他车辆。在状态方面,可以得到车辆智能体附近最近的15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量,这些最终可以形成一个维度为(15,7)的状态矩阵,提供给车辆智能体作为观测状态,进而进行下一步的动作决策。在动作方面,车辆智能体有五种动作选择——保持车道、左转、右转、加速、减速。在奖励方面,车辆智能体的目标是达到高速,避免与邻近车辆相撞,同时尽量保持在道路右侧开车,故可以定义该环境下的奖励如下式所示:
Rco_h=-1 (1)
Rri_h=0.1 (2)
式中,Rco_h代表车辆碰撞得到的奖励,Rri_h代表车辆在最右侧车道行驶的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_h代表车辆以速度v行驶获得的奖励。奖励式(1)惩罚车辆智能体的碰撞行为,奖励式(2)用于奖励车辆智能体在右车道行驶,奖励式(3)用于鼓励车辆智能体以较高速度行驶。
如图2所示,在十字路口场景中,在状态方面,与对高速公路场景下状态值的获取相近,同样是可以获得自车附近最多15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量。在动作方面,该环境设置为双车道,车辆靠右行驶,故不存在变道动作,另外最终目标是左转通过交叉口,转向方向已经确定,因此整体的动作只需要考虑速度变化,所以该仿真平台对于十字路口环境车辆智能体的动作给予了三种选择:减速、不变、加速。在奖励方面,车辆智能体的目标是不碰撞的前提下,在一定时间内尽量快速左转通过十字路口到达目的地,据此可以定义该环境下的奖励如下式所示:
Rco_i=-5 (4)
Rar_i=1 (6)
式中,Rco_i代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_i代表车辆以速度v行驶获得的奖励,Rar_i代表左转成功到达目的地的奖励。公式(4)惩罚碰撞行为,公式(5)鼓励车辆智能体以高速行驶,公式(6)是对车辆智能体在仿真时间内到达目标地点的奖励。
如图3所示,在环形路口场景中,在状态方面的观测,可以获得自车附近车辆的横向位置、纵向位置、横向速度、纵向速度4种状态变量。在动作方面,与高速公路场景相近,车辆智能体有五种动作选择:保持车道、左转、右转、加速、减速。在奖励方面,车辆智能体的最终目标是不碰撞的前提下快速通过环形路口,且尽量少地变道,据此可以定义该环境下的奖励如下式所示:
Rco_r=-1 (7)
Rch_r=-0.05 (9)
式中,Rco_r代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_r代表车辆以速度v行驶获得的奖励,Rch_r代表改变车道得到的奖励。公式(7)惩罚碰撞行为,公式(8)鼓励车辆智能体以高速行驶,公式(9)惩罚车辆智能体的变道行为。
优选地,上述步骤2中,根据步骤1提供的三种普通场景,分别训练对应的车辆智能体模型,本发明中,针对高速公路和十字路口采用基于注意力机制的DQN算法,针对环形路口采用Dueling-DQN算法。具体的,包括以下步骤:
(1)基于注意力机制的DQN算法
使用注意力机制的好处在于可以更好的捕捉对于自车当前状态下重要的其他车辆的状态信息。具体的做法是将状态空间中的自车与他车信息分离开来,通过计算自车与其他每一辆车的注意力权重,判断哪一辆车对自车当前状态更为重要,再通过该注意力权重对自车与他车的混合特征进行加权,同时在网络中单独处理实际上并不存在的车辆,通过掩膜减弱他们对自车产生的影响。因此整个网络是一个三分叉结构,分别对应自车状态、他车状态和不存在的车的状态。最后三者合并输出该状态的价值。
如图4所示,为基于注意力机制的DQN网络模型结构图。该网络模型中,对应的网络超参数设置如表1所示。
表1基于注意力机制的DQN网络的超参数设置
超参数 | 高速公路 | 十字路口 |
全连接层神经元个数 | (64,64) | (64,64) |
激活函数 | RELU | RELU |
折扣因子 | 0.99 | 0.95 |
迭代次数 | 4000 | 4000 |
损失函数 | L2 | L2 |
探索方式 | ε-greedy | ε-greedy |
探索因子 | 6000 | 15000 |
探索初始温度 | 0.05 | 0.05 |
探索最终温度 | 1 | 1 |
批大小 | 64 | 64 |
更新间隔 | 512 | 512 |
学习率 | 0.001 | 0.001 |
存储大小 | 15000 | 15000 |
针对高速公路和十字路口两种典型场景进行4000次迭代训练,两种场景的智能体在训练过程中的奖励变化分别如图5和图6所示。可以看到,随着训练轮次的不断迭代,在这两种场景下,基于注意力机制的DQN网络均能够训练出效果较好的自动驾驶智能体。搭建DQN网络后进行训练的方法是本领域技术人员公知技术,本发明在此不再赘述。
(2)Dueling-DQN
Dueling DQN算法主要是对DQN神经网络的结构进行优化,将网络分成两部分,第一部分为价值函数部分,仅与状态有关,与具体要采用的动作无关,另一部分为优势函数部分,与状态和动作都有关。Dueling DQN算法还对优势函数部分进行了中心化处理,最终的组合公式如下式所示:
式中,V(S,w,α)为价值函数;A(S,A,w,β)为优势函数;w是公共部分的网络参数,而α是价值函数独有部分的网络参数,而β是优势函数独有部分的网络参数。
如图7所示,为Dueling-DQN网络模型图,对应的网络超参数设置如表2所示,训练过程中的奖励变化如图8所示。
表2 Dueling-DQN网络超参数设置
超参数 | 环形路口 |
激活函数 | RELU |
折扣因子 | 0.8 |
迭代次数 | 4000 |
损失函数 | L2 |
探索方式 | ε-greedy |
探索因子 | 6000 |
探索初始温度 | 0.05 |
探索最终温度 | 1 |
批大小 | 32 |
更新间隔 | 50 |
学习率 | 0.001 |
存储大小 | 15000 |
本发明采用多种算法在这三种普通场景下对车辆智能体模型进行了训练,并将得到的车辆智能体模型放到原始场景中进行测试,根据得到的奖励值对各车辆智能体模型进行评估,得到的最终训练结果如表3所示。
表3多种算法训练对比结果
其中,随机策略和规划算法是作为给出智能体效果上下限的基线方法。随机策略是指智能体每一步均随机选择动作,规划算法采用的是基于蒙特卡洛树的搜索算法,DQN的网络结构采用的是多层全连接层,Attention-DQN即是基于注意力机制的DQN算法。
从表格可以看到,通过与随机策略和规划算法的对比,本实施例中所采用到的多种强化学习算法都能成功训练出有一定判断和决策能力的智能体,规划算法是在知道全局特性的前提下通过蒙特卡洛树搜索得到最优结果,它更近似最优策略,但实际使用中无法通过规划算法来进行决策,因为该算法搜索耗时过长,环境发生微小变化就需要重新进行搜索,并不适用于实际情况。所以对抗攻击的目标本发明主要考虑的是强化学习算法训练得到的智能体。同时通过多种强化学习算法的对比,可以看到训练效果最好的还是Attention-DQN算法和Dueling-DQN算法,所以本发明在高速公路和十字路口上采用Attention-DQN网络训练的智能体模型,在环形路口上采用Dueling-DQN算法训练的智能体模型。
优选地,上述步骤3中,得到智能体模型之后,采用对抗攻击算法对智能体模型进行攻击生成扰动时,采用的对抗攻击算法包括FGSM-target、BIM和ILCM算法,下面分别进行描述。
(3.1)FGSM-target算法
FGSM-target算法采用的梯度方向是基于概率值最低的决策得到的,也就是最不可能做出的决策,将该梯度乘以步长得到的扰动作为原始状态的减量扰动,可以使智能体往最错误的决策方向去前进,具体的公式如下式所示:
式中,x为原始状态,ytarget为最不可能的决策,为损失函数J对输入的梯度,sign()表示取梯度方向,ε为生成扰动的比例,X′为加入减量扰动后的状态。
(3.2)BIM算法
BIM的核心思想与FGSM相近,也是基于梯度计算扰动,但后者为单步攻击,而BIM是经过多次迭代得到最终的扰动,具体计算式如下所示。
式中,x为原始状态,为算法的初始化状态,/>为算法第N步生成的状态,ytrue为正确决策,α控制损失函数对输入的梯度的大小,Clip函数将第N+1步生成的状态范围控制在ε内。
(3.3)ILCM算法
ILCM的思路和FGSM-target相近,后者是在FGSM的基础上考虑决策方向往最不可能的决策前进,同理,ILCM是在BIM的基础上将所需要的梯度方向改成用最不可能的决策来计算,它与FGSM-target的区别是后者为单步攻击,前者和BIM一样需要经过多步迭代得到最终的扰动。具体计算式如下所示。
式中,yLL为最不可能的决策。
优选地,上述步骤4中,经过步骤3的对抗攻击生成扰动并添加进普通场景得到极限场景后,用步骤2训练的车辆智能体模型在各极限场景内进行测试。本实施例采用多种攻击算法进行了对比实验,对比实验结果如表4所示。
表4多种攻击算法的实验结果
可以看到,在高速公路环境下,几种算法得到的极限场景都有一定的攻击效果,BIM算法得到的极限场景对智能体的影响最大;在十字路口环境下,几种算法都有较好的攻击效果,其中FGSM-target算法得到的极限场景极限情况最好;环形路口环境下几种攻击算法的攻击效果较为一般,最突出的是FGSM,但也仅仅只让奖励数值从10.35降到9.12。整体比较而言,Attention-DQN训练得到的智能体更容易受攻击生成的极限场景影响,Dueling-DQN训练得到的智能体相对更鲁棒。
实施例2
上述实施例1提供了一种交通极限场景生成方法,与之相对应地,本实施例提供一种一种交通极限场景生成系统。本实施例提供的系统可以实施实施例1的一种交通极限场景生成方法,该系统可以通过软件、硬件或软硬结合的方式来实现。例如,该识别系统可以包括集成的或分开的功能模块或功能单元来执行实施例1各方法中的对应步骤。由于本实施例的识别系统基本相似于方法实施例,所以本实施例描述过程比较简单,相关之处可以参见实施例1的部分说明即可,本实施例提供的系统的实施例仅仅是示意性的。
本实施例提供的一种交通极限场景生成系统,包括:
普通场景搭建模块,用于选择仿真环境,确定普通场景,设置普通场景参数,包括状态变量、动作决策以及奖励式;
车辆智能体模型训练模块,用于在设置好的各普通场景中进行车辆智能体模型的训练,得到训练好的车辆智能体模型;
极限场景搭建模块,用于采用多种对抗攻击算法生成扰动,添加到各普通场景中构建若干种极限场景;
极限场景确认模块,用于将训练好的各车辆智能体模型放置于相应的各极限场景中,根据各车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景。
实施例3
本实施例提供一种与本实施例1所提供的一种交通极限场景生成方法对应的处理设备,处理设备可以是用于客户端的处理设备,例如手机、笔记本电脑、平板电脑、台式机电脑等,以执行实施例1的生成方法。
所述处理设备包括处理器、存储器、通信接口和总线,处理器、存储器和通信接口通过总线连接,以完成相互间的通信。存储器中存储有可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时执行本实施例1所提供的一种交通极限场景生成方法。
在一些实现中,存储器可以是高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
在另一些实现中,处理器可以为中央处理器(CPU)、数字信号处理器(DSP)等各种类型通用处理器,在此不做限定。
实施例4
本实施例1的一种交通极限场景生成方法可被具体实现为一种计算机程序产品,计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本实施例1所述的一种交通极限场景生成方法的计算机可读程序指令。
计算机可读存储介质可以是保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意组合。
需要说明的是,附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
上述各实施例仅用于说明本发明,其中各部件的结构、连接方式和制作工艺等都是可以有所变化的,凡是在本发明技术方案的基础上进行的等同变换和改进,均不应排除在本发明的保护范围之外。
Claims (7)
1.一种交通极限场景生成方法,其特征在于,包括以下步骤:
选择仿真环境,确定普通场景及其参数;
所述普通场景包括高速公路场景、十字路口场景以及环形路口场景;
所述高速公路场景的参数包括:
状态参数,包括与自车智能体附近最近的15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量,形成一个维度为(15,7)的状态矩阵;
动作决策变量,包括保持车道、左转、右转、加速、减速五种动作;
奖励函数,包括惩罚自车智能体的碰撞行为、奖励自车智能体在右车道行驶以及鼓励自车智能体以较高速度行驶三个奖励函数,表示如下:
Rco_h=-1,
Rri_h=0.1,
式中,Rco_h代表车辆碰撞得到的奖励,Rri_h代表车辆在最右侧车道行驶的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_h代表车辆以速度v行驶获得的奖励;
所述十字路口场景的参数包括:
状态参数,包括自车附近15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量;
动作决策变量,包括减速、不变、加速;
奖励函数:包括惩罚碰撞行为、鼓励自车智能体以高速行驶以及对自车智能体在仿真时间内到达目标地点的奖励三个奖励函数,表示为:
Rco_i=-5,
Rar_i=1,
式中,Rco_i代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_i代表车辆以速度v行驶获得的奖励,Rar_i代表左转成功到达目的地的奖励;
所述环形路口场景的参数包括:
状态参数,包括自车附近车辆的横向位置、纵向位置、横向速度、纵向速度4种状态变量;
动作决策变量,包括保持车道、左转、右转、加速、减速5种动作变量;
奖励函数,包括惩罚碰撞行为、鼓励自车智能体以高速行驶以及惩罚智能体的变道行为,表示如下:
Rco_r=-1,
Rch_r=-0.05,
式中,Rco_r代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_r代表车辆以速度v行驶获得的奖励,Rch_r代表改变车道得到的奖励;
在设置好的各普通场景中进行车辆智能体模型的训练,得到训练好的车辆智能体模型;
生成扰动,并添加到各普通场景中构建若干种极限场景;
将训练好的车辆智能体模型放置于对应的极限场景中,根据该车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景。
2.如权利要求1所述的一种交通极限场景生成方法,其特征在于,所述在设置好的仿真环境中进行车辆智能体模型训练时,针对高速公路和十字路口场景采用基于注意力机制的DQN算法,针对环形路口场景采用Dueling-DQN算法。
3.如权利要求1所述的一种交通极限场景生成方法,其特征在于,所述生成扰动的方法,包括:FGSM-target、BIM和ILCM算法。
4.如权利要求1所述的一种交通极限场景生成方法,其特征在于,所述将训练好的车辆智能体模型放置于对应的极限场景中,根据该车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景的方法,包括:
将训练好的各车辆智能体模型分别放置于对应的极限场景中,得到各车辆智能体模型在对应的极限场景中的奖励值;
将各车辆智能体模型在对应的极限场景中的奖励值与其在普通场景中的奖励值作差;
将差值最大的极限场景作为最终生成的交通极限场景。
5.一种交通极限场景生成系统,其特征在于,包括:
普通场景搭建模块,用于选择仿真环境,确定普通场景,设置普通场景参数,包括状态变量、动作决策以及奖励式;
所述普通场景包括高速公路场景、十字路口场景以及环形路口场景;
所述高速公路场景的参数包括:
状态参数,包括与自车智能体附近最近的15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量,形成一个维度为(15,7)的状态矩阵;
动作决策变量,包括保持车道、左转、右转、加速、减速五种动作;
奖励函数,包括惩罚自车智能体的碰撞行为、奖励自车智能体在右车道行驶以及鼓励自车智能体以较高速度行驶三个奖励函数,表示如下:
Rco_h=-1,
Rri_h=0.1,
式中,Rco_h代表车辆碰撞得到的奖励,Rri_h代表车辆在最右侧车道行驶的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_h代表车辆以速度v行驶获得的奖励;
所述十字路口场景的参数包括:
状态参数,包括自车附近15只车辆的存在与否、横向位置、纵向位置、横向速度、纵向速度、车辆转向余弦值及正弦值7种状态变量;
动作决策变量,包括减速、不变、加速;
奖励函数:包括惩罚碰撞行为、鼓励自车智能体以高速行驶以及对自车智能体在仿真时间内到达目标地点的奖励三个奖励函数,表示为:
Rco_i=-5,
Rar_i=1,
式中,Rco_i代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_i代表车辆以速度v行驶获得的奖励,Rar_i代表左转成功到达目的地的奖励;
所述环形路口场景的参数包括:
状态参数,包括自车附近车辆的横向位置、纵向位置、横向速度、纵向速度4种状态变量;
动作决策变量,包括保持车道、左转、右转、加速、减速5种动作变量;
奖励函数,包括惩罚碰撞行为、鼓励自车智能体以高速行驶以及惩罚智能体的变道行为,表示如下:
Rco_r=-1,
Rch_r=-0.05,
式中,Rco_r代表车辆碰撞得到的奖励,vmax和vmin分别代表车辆行驶速度的最大值和最小值,Rsp_r代表车辆以速度v行驶获得的奖励,Rch_r代表改变车道得到的奖励;
车辆智能体模型训练模块,用于在设置好的各普通场景中进行车辆智能体模型的训练,得到训练好的车辆智能体模型;
极限场景搭建模块,用于采用多种对抗攻击算法生成扰动,添加到各普通场景中构建若干种极限场景;
极限场景确认模块,用于将训练好的各车辆智能体模型放置于相应的各极限场景中,根据各车辆智能体模型在各种极限场景下的表现情况,确定最终生成的交通极限场景;
所述极限场景确认模块,包括:
奖励值获取模块,用于将训练好的各车辆智能体模型分别放置于对应的极限场景中,得到各车辆智能体模型在对应的极限场景中的奖励值;
奖励值作差模块,用于将各车辆智能体模型在对应的极限场景中的奖励值与其在普通场景中的奖励值作差;
极限场景确认模块,用于将差值最大的极限场景作为最终生成的交通极限场景。
6.一种处理设备,所述处理设备至少包括处理器和存储器,所述存储器上存储有计算机程序,其特征在于,所述处理器运行所述计算机程序时执行以实现权利要求1到4任一项所述交通极限场景生成方法的步骤。
7.一种计算机存储介质,其特征在于,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现根据权利要求1到4任一项所述交通极限场景生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948476.8A CN113609784B (zh) | 2021-08-18 | 2021-08-18 | 一种交通极限场景生成方法、系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110948476.8A CN113609784B (zh) | 2021-08-18 | 2021-08-18 | 一种交通极限场景生成方法、系统、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113609784A CN113609784A (zh) | 2021-11-05 |
CN113609784B true CN113609784B (zh) | 2024-03-22 |
Family
ID=78308907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110948476.8A Active CN113609784B (zh) | 2021-08-18 | 2021-08-18 | 一种交通极限场景生成方法、系统、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609784B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114371015B (zh) * | 2022-01-04 | 2024-06-04 | 一汽解放汽车有限公司 | 自动驾驶测试方法、装置、计算机设备、存储介质 |
CN114332569B (zh) * | 2022-03-17 | 2022-05-27 | 南京理工大学 | 基于注意力机制的低扰动对抗攻击方法 |
CN114913492A (zh) * | 2022-04-19 | 2022-08-16 | 清华大学 | 智能车路系统场景生成方法、系统、存储介质及计算设备 |
CN115984792B (zh) * | 2022-09-30 | 2024-04-30 | 北京瑞莱智慧科技有限公司 | 一种对抗测试方法、系统及存储介质 |
CN116127854B (zh) * | 2023-03-15 | 2024-01-09 | 上海计算机软件技术开发中心 | 一种自动驾驶虚拟测试场景生成方法、系统及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110160804A (zh) * | 2019-05-31 | 2019-08-23 | 中国科学院深圳先进技术研究院 | 一种自动驾驶车辆的测试方法、装置及系统 |
CN110597086A (zh) * | 2019-08-19 | 2019-12-20 | 深圳元戎启行科技有限公司 | 仿真场景生成方法和无人驾驶系统测试方法 |
CN111159832A (zh) * | 2018-10-19 | 2020-05-15 | 百度在线网络技术(北京)有限公司 | 交通信息流的构建方法和装置 |
CN112997128A (zh) * | 2021-04-19 | 2021-06-18 | 华为技术有限公司 | 一种自动驾驶场景的生成方法、装置及系统 |
-
2021
- 2021-08-18 CN CN202110948476.8A patent/CN113609784B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159832A (zh) * | 2018-10-19 | 2020-05-15 | 百度在线网络技术(北京)有限公司 | 交通信息流的构建方法和装置 |
CN110160804A (zh) * | 2019-05-31 | 2019-08-23 | 中国科学院深圳先进技术研究院 | 一种自动驾驶车辆的测试方法、装置及系统 |
CN110597086A (zh) * | 2019-08-19 | 2019-12-20 | 深圳元戎启行科技有限公司 | 仿真场景生成方法和无人驾驶系统测试方法 |
CN112997128A (zh) * | 2021-04-19 | 2021-06-18 | 华为技术有限公司 | 一种自动驾驶场景的生成方法、装置及系统 |
Non-Patent Citations (4)
Title |
---|
Extreme Scenario Generation Based on Adversarial Attack;Haoxin Ma et al.;CSAE 2021: The 5th International Conference on Computer Science and Application Engineering;20211231;全文 * |
Rapid Generation of Challenging Simulation Scenarios for Autonomous Vehicles Based on Adversarial Test;Xiaokun Zheng et al.;2020 IEEE International Conference on Mechatronics and Automation (ICMA);第1166-72页 * |
智能车场景建模及仿真;郑磊;刘涛;王宇;蒋鑫;王新竹;;汽车技术(10);全文 * |
驾驶场景研究及其发展应用概述;朱向雷;陈辰;宝鹤鹏;温泉;;时代汽车(11);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113609784A (zh) | 2021-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113609784B (zh) | 一种交通极限场景生成方法、系统、设备和存储介质 | |
CN111898211B (zh) | 基于深度强化学习的智能车速度决策方法及其仿真方法 | |
Chen et al. | Attention-based hierarchical deep reinforcement learning for lane change behaviors in autonomous driving | |
CN107229973B (zh) | 一种用于车辆自动驾驶的策略网络模型的生成方法及装置 | |
CN112133089B (zh) | 一种基于周围环境与行为意图的车辆轨迹预测方法、系统及装置 | |
US20230124864A1 (en) | Graph Representation Querying of Machine Learning Models for Traffic or Safety Rules | |
WO2022052406A1 (zh) | 一种自动驾驶训练方法、装置、设备及介质 | |
CN110949398B (zh) | 一种车辆编队行驶中头车驾驶员异常驾驶行为检测方法 | |
CN106991251B (zh) | 一种高速公路交通流元胞机仿真方法 | |
Song et al. | Multi-vehicle tracking using microscopic traffic models | |
US11100372B2 (en) | Training deep neural networks with synthetic images | |
CN117111578A (zh) | 一种自动驾驶系统探测盲区导向模糊测试方法及系统 | |
CN114511999A (zh) | 一种行人行为预测方法及装置 | |
CN113581182A (zh) | 基于强化学习的自动驾驶车辆换道轨迹规划方法及系统 | |
US11891088B1 (en) | Adversarial agent controls generation and problematic scenario forecasting | |
CN115062202A (zh) | 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质 | |
CN115795808A (zh) | 一种自动驾驶决策危险场景生成方法、系统、设备及介质 | |
CN117227755A (zh) | 基于强化学习的复杂交通场景下自动驾驶决策方法及系统 | |
Siboo et al. | An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving | |
CN116685955A (zh) | 用于自动驾驶系统的方法、装置、电子设备和介质 | |
CN117872800A (zh) | 一种基于离散状态空间下强化学习的决策规划方法 | |
CN117235520A (zh) | 车辆控制行为决策模型的训练方法、设备及存储介质 | |
CN114117944B (zh) | 一种模型更新方法、装置、设备及可读存储介质 | |
CN113353102B (zh) | 一种基于深度强化学习的无保护左转弯驾驶控制方法 | |
Aikins et al. | Resilience analysis of deep q-learning algorithms in driving simulations against cyberattacks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |