CN118393900A - 自动驾驶决策控制方法、装置、系统、设备及存储介质 - Google Patents
自动驾驶决策控制方法、装置、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN118393900A CN118393900A CN202410834416.7A CN202410834416A CN118393900A CN 118393900 A CN118393900 A CN 118393900A CN 202410834416 A CN202410834416 A CN 202410834416A CN 118393900 A CN118393900 A CN 118393900A
- Authority
- CN
- China
- Prior art keywords
- driving
- sample
- vehicle
- risk
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 214
- 238000012549 training Methods 0.000 claims description 190
- 238000009826 distribution Methods 0.000 claims description 132
- 230000008569 process Effects 0.000 claims description 129
- 238000005070 sampling Methods 0.000 claims description 73
- 238000009792 diffusion process Methods 0.000 claims description 68
- 230000015572 biosynthetic process Effects 0.000 claims description 42
- 238000003786 synthesis reaction Methods 0.000 claims description 42
- 230000009471 action Effects 0.000 claims description 36
- 230000033001 locomotion Effects 0.000 claims description 36
- 238000005457 optimization Methods 0.000 claims description 31
- 230000003993 interaction Effects 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 23
- 238000012502 risk assessment Methods 0.000 claims description 23
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 19
- 230000005012 migration Effects 0.000 claims description 19
- 238000013508 migration Methods 0.000 claims description 19
- 238000004088 simulation Methods 0.000 claims description 18
- 239000002131 composite material Substances 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 14
- 230000009467 reduction Effects 0.000 claims description 11
- 230000001133 acceleration Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000003745 diagnosis Methods 0.000 claims description 3
- 239000000463 material Substances 0.000 claims description 3
- 239000000523 sample Substances 0.000 description 346
- 239000000872 buffer Substances 0.000 description 25
- 230000006399 behavior Effects 0.000 description 16
- 230000008447 perception Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 14
- 230000007613 environmental effect Effects 0.000 description 13
- 230000002787 reinforcement Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 238000013480 data collection Methods 0.000 description 9
- 239000012723 sample buffer Substances 0.000 description 8
- 239000003795 chemical substances by application Substances 0.000 description 7
- 238000011144 upstream manufacturing Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000000605 extraction Methods 0.000 description 5
- 230000002452 interceptive effect Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011217 control strategy Methods 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 238000013178 mathematical model Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000709691 Enterovirus E Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 229920002334 Spandex Polymers 0.000 description 1
- 241000135164 Timea Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004759 spandex Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及自动驾驶技术领域,具体公开了自动驾驶决策控制方法、装置、系统、设备及存储介质,通过在利用自动驾驶决策模型控制目标车辆运动时,根据目标车辆与驾驶环境的交互过程对自动驾驶决策模型进行优化,在优化过程中,采集第一实车驾驶样本,并自第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,对风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用第一实车驾驶样本和合成风险驾驶样本对自动驾驶决策模型进行模型参数调整,实现在自动驾驶先验经验基础上以较小的环境交互成本实现面向风险驾驶行为的模型针对性微调,支撑自动驾驶决策控制系统快速适应应用环境,提升自动驾驶决策控制系统对于未知新场景的适用性和泛化性。
Description
技术领域
本发明涉及自动驾驶技术领域,特别是涉及自动驾驶决策控制方法、装置、系统、设备及存储介质。
背景技术
自动驾驶技术是一个集环境感知、决策规划、控制执行等门类于一体的技术领域。在当前交通运输领域,让车辆能够脱离人为控制,实现自动安全行驶,从而提高道路交通智能化水平,是自动驾驶技术的研究目标。
近年来,通过机器学习方法,如强化学习方法,为自动驾驶的决策提供解决路径的方案被不断推出。应用强化学习算法虽然能够在一定程度上实现自动驾驶的目标,但由于模型优化的方向主要依赖于环境反馈信息,相同的模型在不同环境和场景下的表现可能存在显著差异,导致其泛化能力受限,进而使得在将训练好的自动驾驶决策模型迁移到应用环境时,其在训练环境中的表现却难以直接迁移到应用环境中。
提高自动驾驶决策模型的泛化能力,使自动驾驶方案在应用环境中发挥实际应用价值,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种自动驾驶决策控制方法、装置、系统、设备及存储介质,用于提高自动驾驶决策模型的模型泛化能力。
为解决上述技术问题,本发明提供一种自动驾驶决策控制方法,包括:
获取自动驾驶决策模型;
利用所述自动驾驶决策模型控制目标车辆运动,并根据所述目标车辆与驾驶环境的交互过程对所述自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整;
在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;
利用所述优化后的自动驾驶决策模型进行车辆驾驶控制。
一方面,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,包括:
根据车辆驾驶操作类型、车辆运动状态参数、车辆故障信息检测结果、车辆行驶轨迹、驾驶环境数据中至少一项对所述第一实车驾驶样本进行风险分析,提取符合风险评估条件的所述车辆风险驾驶数据作为所述风险驾驶样本。
另一方面,根据所述车辆驾驶操作类型对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
若满足急加速操作的频次高于急加速操作数量阈值、急刹车操作的频次高于急刹车操作数量阈值、急转向操作的频次高于急转向操作数量阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
另一方面,根据所述车辆运动状态参数对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
若满足车辆运行速率大于第一速率阈值的时间超出第一超速阈值、所述车辆运行速率大于第二速率阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据;
其中,所述第一速率阈值小于所述第二速率阈值。
另一方面,根据所述车辆故障信息检测结果对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
访问车载自动诊断接口获取所述车辆故障信息检测结果;
若所述车辆故障信息检测结果中存在车辆故障事件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
另一方面,根据所述车辆行驶轨迹对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
通过车载定位模块获取所述车辆行驶轨迹;
检测所述车辆行驶轨迹的轨迹平滑度以及所述车辆行驶轨迹与非行驶区域的重叠情况;
若满足所述车辆行驶轨迹的轨迹平滑度不满足轨迹平滑条件、所述车辆行驶轨迹中位于所述非行驶区域的路径点的数量达到重叠阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
另一方面,根据所述驾驶环境数据对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
获取天气状况参数、道路状况参数、交通流量参数和交通密度参数中至少一种所述驾驶环境数据;
若所述天气状况参数为风险天气类型,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据;
若满足所述道路状况参数中的道路平整度不满足平整度条件、所述道路状况参数中的障碍物指标满足障碍物阈值、所述道路状况参数中存在施工环境参数中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据;
若满足所述交通流量参数大于交通流量阈值、所述交通密度参数大于交通密度阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
另一方面,采集所述第一实车驾驶样本,包括:
利用驾驶状态编码模块对采集到的当前时刻的车辆驾驶状态感知数据进行编码得到当前时刻的驾驶状态参数输入所述自动驾驶决策模型;
利用所述自动驾驶决策模型根据当前时刻的驾驶状态参数选取驾驶动作参数,并利用选取的驾驶动作参数驱动车辆运动;
在驱动所述目标车辆运动与驾驶环境交互的过程中,收集环境反馈信息以计算得到环境奖励参数;
利用所述驾驶状态编码模块对采集到的下一时刻的车辆驾驶状态感知数据进行编码得到下一时刻的驾驶状态参数;
以一组当前时刻的驾驶状态参数、驾驶动作参数、环境奖励参数和下一时刻的驾驶状态参数构建一个所述第一实车驾驶样本。
另一方面,利用所述驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行编码得到驾驶状态参数,包括:
利用预训练的所述驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。
另一方面,所述驾驶状态编码模块的预训练步骤包括:
获取车辆驾驶数据;
自所述车辆驾驶数据中提取车辆状态信息和环境状态信息以构建多模态状态感知数据,得到驾驶状态数据集;
采用对称卷积神经网络结构搭建驾驶状态编码网络和驾驶状态解码网络;
自所述驾驶状态数据集中抽取编码器训练样本训练所述驾驶状态编码网络和所述驾驶状态解码网络,在训练过程中,将所述编码器训练样本输入所述驾驶状态编码网络以提取所述编码器训练样本的样本数据分布,自所述编码器训练样本的样本数据分布中采样得到样本分布特征编码,将所述样本分布特征编码输入所述驾驶状态解码网络以输出重建样本,以最大化所述重建样本和对应的所述编码器训练样本的似然性以及最小化所述编码器训练样本的潜在表示分布与标准正态分布的相对熵为训练目标,对所述驾驶状态编码网络和所述驾驶状态解码网络进行损失优化训练;
在达到驾驶状态编码模块训练结束条件后,得到所述驾驶状态编码模块。
另一方面,所述驾驶状态编码模块的训练损失函数为:
;
其中,为所述驾驶状态编码模块的训练损失函数,为所述驾驶状态
编码网络的参数,为所述驾驶状态解码网络的参数,为所述编码器训练样本,为所
述编码器训练样本的数量,为所述编码器训练样本的样本数据分布,为标准正态分布,为编码器训练样本的样本数据
分布与标准正态分布之间的KL散度,M为自所述标准正态分布中抽取的分布变量的个数,为所述重建样本,为所述编码器训练样本,为二范数计算的平方,为
第n个所述编码器训练样本的方差,为第n个所述编码器训练样本的均值。
另一方面,对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本,包括:
利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本。
另一方面,所述第一实车驾驶样本中的驾驶状态参数的采集步骤包括:
在所述目标车辆与所述驾驶环境的交互过程中,采集所述目标车辆的车辆状态信息和所述驾驶环境的环境状态信息,得到多模态状态感知数据;
利用预训练的驾驶状态编码模块对多模态状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。
另一方面,所述扩散模型的训练步骤包括:
对去噪器网络进行迭代训练,在每次迭代中,自所述风险驾驶样本中抽取去噪训练样本,按照预设的噪声水平调度对所述去噪训练样本添加噪声,得到带噪样本,采用所述去噪器网络对所述带噪样本进行去噪处理,得到去噪样本,利用所述去噪样本与对应的所述去噪训练样本的误差计算所述去噪器网络的差异损失值并进行反向传播以更新所述去噪器网络的模型参数;
当满足去噪器迭代结束条件后,得到所述扩散模型。
另一方面,所述扩散模型的训练步骤包括:
初始化去噪器网络的网络参数;
根据所述风险驾驶样本构成的去噪样本数据集计算分布标准差;
自所述去噪样本数据集随机抽取小批量去噪训练样本;
基于对数正态分布设置噪声,根据对去噪训练样本
进行加噪处理,得到带噪样本;
根据,采用所述去噪器网络对带噪样本进
行去噪处理;其中,为所述去噪器网络输出的第i个所述去噪样本;
根据计算所述去噪样本和对应的所述去噪训练样本之间
的差异损失值;
利用反向传播法更新所述去噪器网络的网络参数以减小所述差异损失值;
重复上述步骤直至达到去噪器迭代结束条件,得到所述扩散模型;
其中,为所述去噪训练样本的数量,为第i个所述去噪训练样本,为第i个
所述带噪样本,为第i个所述去噪样本,为噪声,为所述去噪样本数据集的分布标
准差,为噪声分布标准差,为所述去噪样本和对应的所述去噪训练样本之间的差异
损失值,为所述去噪样本,x为所述去噪训练样本,E[·]为差异损失计算,为二范数
计算的平方。
另一方面,所述利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本,包括:
根据下式设置噪声水平调度和采样系数:
;
;
基于噪声水平采样生成随机噪声样本作为初始输入;
根据和,对于任
意第t次迭代过程中的噪声样本,以噪声样本为中心进行随机采样;其中,为随机噪声;
利用所述扩散模型根据计算
第t次迭代过程的去噪得分值;
根据计算下一迭代步的噪声样本;其中,若,则;
若,则根据计算第t+1次迭
代过程的去噪得分值;
若达到采样结束条件,则确定所述合成风险驾驶样本生成结束,输出所述合成风险驾驶样本;
若未达到所述采样结束条件,则返回所述对于任意第t次迭代过程中的噪声样本,以噪声样本为中心进行随机采样的步骤;
其中,为所述扩散模型的第t次迭代过程的噪声水平调度,为噪声水平调度
的控制系数,为最大噪声水平的分布标准差,为最小噪声水平的分布标准差;
为所述扩散模型的第t次迭代过程的采样系数,为预设扩散采样步数,,为噪声采样幅度,为噪声水平下限,为噪声水平上
限;
、、均为随机采样系数,且;
为第t次迭代过程的采样噪声,为第t次迭代过程输入的噪声样本,为
以噪声样本为中心随机采样得到的采样噪声样本,为从中采样得到的随机噪
声,为多维标准正态分布,I为单位矩阵;
为采样噪声样本的去噪得分值,为采样噪声样
本输入去噪器模型所得到的去噪输出;
为第t+1次迭代过程输入的噪声样本,为噪声样本的第t+1次迭代
过程的噪声水平调度;
为噪声样本的去噪得分值,为噪
声样本输入去噪器模型所得到的去噪输出。
另一方面,所述利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本,包括:
在所述自动驾驶决策模型的优化过程中,当达到扩散模型更新条件,则利用当前采集的所述风险驾驶样本更新所述扩散模型的模型参数后,利用更新后的所述扩散模型生成所述合成风险驾驶样本;
其中,所述扩散模型更新条件为所述自动驾驶决策模型经过第一预设迭代次数和/或自上一次更新所述扩散模型的模型参数后所述风险驾驶样本的累计数据量达到第一预设数据量。
另一方面,所述自动驾驶决策模型为在自动驾驶仿真系统中预训练的模型;
利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整,包括:
在所述目标车辆与驾驶环境的交互过程中对所述自动驾驶决策模型进行模型迁移微调。
为解决上述技术问题,本发明还提供一种自动驾驶决策控制系统,包括:云服务器、设于目标车辆的车载边缘服务器和设于所述目标车辆的自动驾驶控制器;
其中,所述车载边缘服务器用于获取自动驾驶决策模型,在利用所述自动驾驶决策模型控制目标车辆运动与驾驶环境的交互过程对所述自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,将所述风险驾驶样本发送至所述云服务器,并接收所述云服务器对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整;在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;利用所述自动驾驶决策模型通过所述自动驾驶控制器控制目标车辆运动。
为解决上述技术问题,本发明还提供一种自动驾驶决策控制装置,包括:
模型更新模块,用于获取自动驾驶决策模型;利用所述自动驾驶决策模型控制目标车辆运动,并根据所述目标车辆与驾驶环境的交互过程对所述自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,利用所述第一实车驾驶样本以及根据所述风险驾驶样本进行样本扩充生成的合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整;在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;
数据合成模块,用于对所述风险驾驶样本进行样本扩充生成所述合成风险驾驶样本;
决策控制单元,用于利用所述优化后的自动驾驶决策模型进行车辆驾驶控制。
为解决上述技术问题,本发明还提供一种自动驾驶决策控制设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如上述任意一项所述自动驾驶决策控制方法的步骤。
为解决上述技术问题,本发明还提供一种非易失性存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任意一项所述自动驾驶决策控制方法的步骤。
为解决上述技术问题,本发明还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上述任意一项所述自动驾驶决策控制方法的步骤。
本发明所提供的自动驾驶决策控制方法,有益效果在于针对自动驾驶技术投入应用时因车辆驾驶场景出现显著变化导致自动驾驶决策模型适用性下降的问题,在利用自动驾驶决策模型控制目标车辆运动时,根据目标车辆与驾驶环境的交互过程对自动驾驶决策模型进行优化,在优化过程中,采集第一实车驾驶样本,并自第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,对风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用第一实车驾驶样本和合成风险驾驶样本对自动驾驶决策模型进行模型参数调整,实现在自动驾驶先验经验基础上以较小的环境交互成本实现面向风险驾驶行为的模型针对性微调,支撑自动驾驶决策控制系统快速适应应用环境与部署应用,提升自动驾驶决策控制系统对于未知新场景的适用性和泛化性。
本发明还提供一种自动驾驶决策控制装置、系统、设备、非易失性存储介质及计算机程序产品,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种自动驾驶决策控制系统的架构图;
图2为本发明实施例提供的一种自动驾驶决策控制方法的流程图;
图3为本发明实施例提供的一种驾驶状态编码网络及驾驶状态解码网络的结构示意图;
图4为本发明实施例提供的一种扩散模型的结构示意图;
图5为本发明实施例提供的一种自动驾驶决策模型的训练过程的流程图;
图6为本发明实施例提供的一种自动驾驶决策模型的模型迁移微调过程的流程图;
图7为本发明实施例提供的一种自动驾驶决策控制装置的结构示意图;
图8为本发明实施例提供的一种自动驾驶决策控制设备的结构示意图。
具体实施方式
本发明的核心是提供一种自动驾驶决策控制方法、装置、系统、设备及存储介质,用于提高自动驾驶决策模型的模型泛化能力。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于理解本发明实施例提供的技术方案,这里先对本发明实施例使用的一些关键名词进行解释:
强化学习(Reinforcement Learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
鸟瞰视角(Bird's Eye View,BEV)是一种从上方观看对象或场景的视角,就像鸟在空中俯视地面一样。在自动驾驶和机器人领域,通过传感器(如雷达和摄像头)获取的数据通常会被转换成BEV表示,以便更好地进行物体检测、路径规划等任务。BEV能够将复杂的三维环境简化为二维图像,这对于在实时系统中进行高效的计算尤其重要。在本发明实施例中,BEV图、BEV图像即鸟瞰图。
执行器-评价器算法(Actor-Critic Algorithm)是一种结合策略梯度和时序差分学习的强化学习方法,包括执行器网络和评价器网络。执行器网络通过学习策略来得到尽量高的回报,用于生成动作(Action)并和环境交互。评价器网络用于通过奖励函数评价执行器网络的好坏,即用于评价执行器的好坏,并指导执行器下一阶段的动作。
隐变量,或称潜变量,与观测变量相对,指不可观测的随机变量,可以通过数学模型依据观测得到的数据被推断出来。隐变量和现实中一些因素是有关系的,测量这些因素理论上可行,实际却很困难。使用隐变量的好处之一是隐变量能用来降低数据维度,大量的观测变量能被整合起来成为一个隐变量来表示深层次的概念,使得观测数据更容易理解。
马尔可夫决策过程(Markov Decision Process,MDP),是序贯决策(sequentialdecision)的数学模型,用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。马尔可夫决策过程基于一组交互对象,即智能体和环境进行构建,所具有的要素包括状态、动作、策略和奖励。在马尔可夫决策过程的模拟中,智能体会感知当前的系统状态,按策略对环境实施动作,从而改变环境的状态并得到奖励,奖励随时间的积累被称为回报。马尔可夫决策过程被用于机器学习中强化学习(reinforcement learning)问题的建模。通过使用动态规划、随机采样等方法,马尔可夫决策过程可以求解使回报最大化的智能体策略,并在自动控制、推荐系统等主题中得到应用。
车用无线通信技术(vehicle to everything,vehicle to X,V2X),即车对外界的信息交换,使得车与车、车与基站、基站与基站之间能够通信,从而获得实时路况、道路信息、行人信息等一系列交通信息。
相对熵(relative entropy),又被称为克卢伯-莱布勒散度(Kullback-Leiblerdivergence,KL散度)或信息散度(information divergence),是两个概率分布(probability distribution)间差异的非对称性度量。在信息理论中,相对熵等价于两个概率分布的信息熵(Shannon entropy)的差值。
随着人工智能和机器学习技术的飞速发展,自动驾驶技术已成为全球交通领域的研究热点。自动驾驶车辆通过集成先进的传感器、高速计算机处理系统和复杂的算法,有潜力解决交通拥堵、减少交通事故、提高出行效率等一系列问题。然而,在迈向广泛应用的过程中,自动驾驶技术面临着多重挑战。在技术层面,自动驾驶系统必须能够在复杂多变的交通环境中进行高效的导航和决策。这要求系统不仅能够处理静态的道路结构和交通规则,还要能够应对动态的交通流、行人行为、突发事件等。传统的基于规则的规划方法虽然在一定程度上能够实现这一目标,但其在处理现实世界场景的动态性质时显得捉襟见肘。这类方法通常依赖于预先设定的规则和参数,难以适应不断变化的交通环境。此外,基于规则的规划方法还面临着参数调整的难题。微小的参数变化都可能对系统行为产生显著影响,导致系统调整的效率低下且成本高昂。
近年来,现代机器学习方法,尤其是强化学习,为自动驾驶技术的发展提供了新的解决路径。强化学习算法通过让代理在环境中进行试错学习,自主优化决策策略,从而有望提高自动驾驶系统的性能。
然而,在实际应用中,强化学习也面临着诸多限制。由于模型优化方向的引导主要依赖于环境反馈信息,这决定了模型性能与其在交互过程中的探索能力紧密相关。因此,相同的模型在不同环境和场景下的表现可能存在显著差异,导致其泛化能力受限。例如,一些模型在高速公路驾驶等简单场景下表现良好,但在复杂的城市交通环境中则难以应对。此外,模型还存在场景迁移难题,即在训练环境中的表现往往难以直接迁移到应用环境中。这一问题限制了模型在实际应用中的泛化能力,使得自动驾驶技术的广泛应用面临挑战。
针对自动驾驶技术投入应用时因车辆驾驶场景出现显著变化导致自动驾驶决策模型适用性下降的问题,本发明实施例提供一种自动驾驶控制方案,在利用自动驾驶决策模型控制目标车辆运动时,根据目标车辆与驾驶环境的交互过程对自动驾驶决策模型进行优化,在优化过程中,采集第一实车驾驶样本,并自第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,对风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用第一实车驾驶样本和合成风险驾驶样本对自动驾驶决策模型进行模型参数调整,实现在自动驾驶先验经验基础上以较小的环境交互成本实现面向风险驾驶行为的模型针对性微调,支撑自动驾驶决策控制系统快速适应应用环境与部署应用,提升自动驾驶决策控制系统对于未知新场景的适用性和泛化性。
图1为本发明实施例提供的一种自动驾驶决策控制系统的架构图。
为便于理解,首先对本发明适用的系统架构进行介绍。
本发明实施例提供的自动驾驶决策控制系统包括:云服务器、设于目标车辆的车载边缘服务器和设于目标车辆的自动驾驶控制器;
其中,车载边缘服务器用于获取自动驾驶决策模型,在利用自动驾驶决策模型控制目标车辆运动与驾驶环境的交互过程对自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,将风险驾驶样本发送至云服务器,并接收云服务器对风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用第一实车驾驶样本和合成风险驾驶样本对自动驾驶决策模型进行模型参数调整;在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;利用自动驾驶决策模型通过自动驾驶控制器控制目标车辆运动。
如图1所示,本发明实施例提供的自动驾驶决策控制系统还可以包括通过计算机端和服务器构成的自动驾驶仿真系统。自动驾驶仿真系统可以部署在实车或仿真环境中。如图1中所示的数据增强的自动驾驶决策模型的在线交互学习过程,针对随机初始化的自动驾驶决策网络,其可能需要大幅度调整模型参数,在此类自动驾驶决策模型的在线训练过程中,可以在计算机端构建自动驾驶模拟交互功能,在模型训练的数据收集阶段,通过自动驾驶模拟交互功能的应用程序接口读取车辆驾驶状态感知数据(鸟瞰图)通过以太网传输至服务器。服务器根据鸟瞰图生成驾驶状态参数,将驾驶状态参数作为输入进行决策控制动作的生成,在线收集实车驾驶样本以进行模型参数更新。
在本发明实施例中,在模型迁移微调过程中利用数据合成模块来进行样本扩充,该原理同样可以作用于基于随机初始化的自动驾驶决策网络的自动驾驶决策模型的在线学习过程中。即如图1所示的数据增强的自动驾驶决策模型的在线交互学习过程,可以通过数据合成模块将在线学习过程中收集的实车驾驶样本生成合成驾驶样本。对实车驾驶样本和合成驾驶样本进行比例采样得到混合样本,对混合样本进行批量采样用于更新决策控制模块所基于的自动驾驶决策模型的模型参数,该模型加载用于基于输入的驾驶状态参数进行决策控制动作生成。收集驾驶状态参数、决策生成的驾驶动作参数以及计算机端通过应用程序接口读取的环境反馈信息来构建实车驾驶样本。
如图1所示的驾驶状态编码模块的预训练过程,为降低自动驾驶决策模型的在线训练阶段以及模型迁移微调阶段的计算复杂度,可以通过预训练驾驶状态编码模块来实现对自动驾驶模拟交互得到的多模态状态感知数据的降维处理,利用多模态状态感知数据构建驾驶状态数据集以预训练驾驶状态编码模块,作为自动驾驶决策模型的上游数据支持。
如图1所示的面向目标应用场景的模型迁移微调过程,将此前在仿真环境中训练的自动驾驶决策模型加载至车载边缘服务器,利用自动驾驶控制器执行生成的决策控制动作进行车辆驾驶控制驱动,并收集车辆驾驶状态感知数据。自动驾驶控制器通过控制器局域网总线(Controller Area Network,CAN)与车载边缘服务器通信,车载边缘服务器通过以太网与云服务器通信。车载边缘服务器在自动驾驶决策模型的模型微调过程中采集第一实车驾驶样本,并进行风险分析抽取风险驾驶样本,将风险驾驶样本通过以太网传输至云服务器,利用数据合成模块根据风险驾驶样本生成合成风险驾驶样本,将合成样本集通过以太网传输至车载边缘服务器。在车载边缘服务器上,分别对第一实车驾驶样本和合成风险驾驶样本进行比例采样得到混合样本,对混合样本进行批次采样用于更新自动驾驶决策模型的模型参数。
在本发明实施例提供的自动驾驶决策控制系统中,可以利用车载传感模块收集车辆驾驶状态感知数据。车载传感模块的类型可以包括雷达、摄像头中至少一种用于为车载边缘服务器提供环境感知数据的车载传感模块,车载控制单元用于为车载边缘服务器提供车辆控制信号,惯性测量单元(Inertial Measurement Unit,IMU)、全球定位导航系统(Global Positioning System,GPS)中至少一种用于为车载边缘服务器提供车辆运动状态的车载传感模块。
在车载边缘服务器上还可以设有用于对车载传感模块提供的环境感知数据、车辆控制信号和车辆运动状态等车辆驾驶状态感知数据进行预处理的数据预处理模块,数据预处理模块包括时间戳对齐模块和多模态数据处理模块。其中,时间戳对齐模块用于将多种车辆驾驶状态感知数据进行时间戳对齐处理,多模态数据处理模块用于将时间戳对齐后的多种车辆驾驶状态感知数据进行多模态数据融合处理,得到BEV图像。将BEV图像发送至云服务器,存入云服务器的存储模块,构建驾驶状态数据集。
在上述架构的基础上,下面结合附图对本发明实施例提供的自动驾驶决策控制方法进行说明。
图2为本发明实施例提供的一种自动驾驶决策控制方法的流程图。
如图2所示,本发明实施例提供的自动驾驶决策控制方法包括:
S201:获取自动驾驶决策模型。
S202:利用自动驾驶决策模型控制目标车辆运动,并根据目标车辆与驾驶环境的交互过程对自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,对风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用第一实车驾驶样本和合成风险驾驶样本对自动驾驶决策模型进行模型参数调整。
S203:在达到模型优化结束条件后,得到优化后的自动驾驶决策模型。
S204:利用优化后的自动驾驶决策模型进行车辆驾驶控制。
在训练自动驾驶决策网络得到自动驾驶决策模型的过程中,由于自动驾驶决策模型只能根据策略与环境交互产生的经验样本进行策略改进,受模型探索能力限制,在一定的训练时间或训练步数内,模型只能对有限的驾驶状态空间区域进行探索,难以覆盖复杂交通中的所有驾驶情况。另一方面,由于硬件计算和存储资源有限,所设置的回放缓冲区无法存储训练区间交互生成的所有样本数据,因此自动驾驶决策模型每次更新只能在最近收集到的经验数据上进行,而更久远之前的历史数据将会被遗忘掉,虽然其中可能不乏高价值样本。以上两方面都将导致样本多样性不足,使得样本利用效率低,进而影响模型学习性能和最终表现。
针对上述问题,在本发明实施例中,可以通过收集大量的驾驶专家演示数据并通过离线学习方法从数据中提取行为,或者将专家演示数据添加进在线学习过程以进行引导,然而,当收集到的数据和应用环境不匹配时,模型性能将会失效。
故在本发明实施例中,在自动驾驶决策模型的模型迁移微调过程中,对收集到的第一实车驾驶样本进行风险分析,针对提取的风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用第一实车驾驶样本和合成风险驾驶样本构成的混合样本对自动驾驶决策模型的模型参数进行更新,即通过重用收集的第一实车驾驶样本的在线学习经验,针对性地对其中的风险驾驶数据通过生成的方式来扩充样本数量,既增加了自动驾驶决策模型所能够学习的样本数量,增强了自动驾驶决策模型的模型探索能力,又不会产生过多的环境交互采集实车驾驶样本的成本,且使得自动驾驶决策模型能够更适应于实际驾驶环境。
在本发明实施例中,可以通过部署驾驶状态编码模块、模型更新模块、决策控制模块、技能生成模块和数据合成模块用于实现自动驾驶决策控制方法中的自动驾驶决策模型的在线学习以及模型迁移微调步骤。
其中,驾驶状态编码模块用于将采集到的车辆驾驶状态感知数据进行编码作为决策控制模块的输入。
在自动驾驶决策模型的在线学习过程,可以基于执行器网络-评价器网络架构构
建自动驾驶决策网络,利用第一模型更新模块来训练更新自动驾驶决策网络的模型参数,
得到自动驾驶决策模型。其中,执行器(Actor)网络用于拟合决策控制策略,评价
器(Critic)网络用于评估策略性能。在自动驾驶决策模型的模型迁移微调过程,
对自动驾驶决策模型进行小幅度模型参数更新,以更适应目标车辆的实际驾驶环境。
决策控制模块用于基于训练过程中的自动驾驶决策网络或训练得到的自动驾驶决策模型进行决策,根据输入的驾驶状态参数选取驾驶动作参数。
技能生成模块用于根据决策控制模块提供的驾驶动作参数生成车辆运行轨迹以控制车辆运动。
数据合成模块用于实现在实车驾驶样本的基础上进行样本扩充得到与实车驾驶样本的样本特征分布相同的合成驾驶样本。如在本发明实施例中,数据合成模块用于在风险驾驶样本的基础上生成与风险驾驶样本的样本特征分布相同的合成风险驾驶样本。
在本发明实施例中,根据应用场景的不同,可以采用搭建自动驾驶仿真系统的方式来实现对自动驾驶决策模型的在线训练,也可以采用由实际车辆和云服务器构成的自动驾驶决策控制系统来实现对自动驾驶决策模型的在线训练。
若采用搭建自动驾驶仿真系统的方式来实现对自动驾驶决策模型的在线训练,则自动驾驶仿真系统可以由一台计算机(PC)终端和一台服务器组成,其中计算机端用于搭建仿真交通环境来模拟车载边缘服务器,服务器可以在乌班图(Ubuntu)系统下进行自动驾驶决策模型的在线训练,计算机端和服务器之间可以通过以太网进行数据通讯。
若采用自动驾驶决策控制系统来实现对自动驾驶决策模型的在线训练,则可以将驾驶状态编码模块和决策控制模块部署于实际车辆上的车载边缘服务器,将数据合成模块部署于云服务器,车载边缘服务器和云服务器之间可以通过以太网进行数据通讯。
将数据合成模块引入到自动驾驶决策模型的在线学习过程,可以帮助扩充训练数据集、提高模型的泛化能力和鲁棒性。在自动驾驶决策模型的在线学习过程中,可以每隔一段时间将车辆与驾驶环境交互产生的第一实车驾驶样本上传至云服务器,数据合成模块将基于新的驾驶数据更新自身的网络参数并生成第一合成驾驶样本,以扩充自动驾驶决策模型所需的训练样本规模和多样性,帮助自动驾驶决策模型更好地适应多样化的环境和场景,加速训练过程,以及减少在线交互成本。
自动驾驶决策模型的模型训练结束条件可以为达到预设迭代次数或达到预设收敛条件。将通过本发明实施例提供的在线训练方法训练得到的自动驾驶决策模型部署于目标车辆以实现车辆自动驾驶控制时,由于自动驾驶决策模型学习到了多场景的实车驾驶知识且是在对风险驾驶样本进行样本扩充的基础上进行学习,有效提升了模型探索能力,从而可以更适应于复杂多变的实际驾驶环境。
在车辆行驶过程中,可以实时收集可能产生安全隐患或增加事故风险的各类数据,这些数据通常涵盖了驾驶员的行为、车辆的状态以及驾驶环境等多个方面,将被作为风险驾驶样本,提供车辆在实际运行中可能遭遇的种种风险的详细信息。
在本发明实施例中,可以在目标车辆部署驾驶风险分析模块实时分析并提取车辆风险驾驶数据。S202中自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,可以包括:根据车辆驾驶操作类型、车辆运动状态参数、车辆故障信息检测结果、车辆行驶轨迹、驾驶环境数据中至少一项对第一实车驾驶样本进行风险分析,提取符合风险评估条件的车辆风险驾驶数据作为风险驾驶样本。
其中,根据车辆驾驶操作类型对第一实车驾驶样本进行风险分析以提取车辆风险驾驶数据,可以包括:若满足急加速操作的频次高于急加速操作数量阈值、急刹车操作的频次高于急刹车操作数量阈值、急转向操作的频次高于急转向操作数量阈值中至少一个条件,则确定对应的第一实车驾驶样本为车辆风险驾驶数据。即是说,若存在急加速、急刹车次数和频率、频繁或突然的转向动作,若该类行为频次高于某阈值,则表明当前驾驶情况下系统对车辆速度控制的稳定性不足。
根据车辆运动状态参数对第一实车驾驶样本进行风险分析以提取车辆风险驾驶数据,可以包括:若满足车辆运行速率大于第一速率阈值的时间超出第一超速阈值、车辆运行速率大于第二速率阈值中至少一个条件,则确定对应的第一实车驾驶样本为车辆风险驾驶数据;其中,第一速率阈值小于第二速率阈值。即是说,若车辆超速行驶或长时间高速行驶,则表明当前情况下车辆存在违规驾驶行为,将增加事故风险概率。
根据车辆故障信息检测结果对第一实车驾驶样本进行风险分析以提取车辆风险驾驶数据,可以包括:访问车载自动诊断接口(On-Board Diagnostics,OBD)获取车辆故障信息检测结果;若车辆故障信息检测结果中存在车辆故障事件,则确定对应的第一实车驾驶样本为车辆风险驾驶数据。即是说,若车辆本身存在故障,则表明车辆的安全性能较低,存在安全隐患。
根据车辆行驶轨迹对第一实车驾驶样本进行风险分析以提取车辆风险驾驶数据,可以包括:通过车载定位模块获取车辆行驶轨迹;检测车辆行驶轨迹的轨迹平滑度以及车辆行驶轨迹与非行驶区域的重叠情况;若满足车辆行驶轨迹的轨迹平滑度不满足轨迹平滑条件、车辆行驶轨迹中位于非行驶区域的路径点的数量达到重叠阈值中至少一个条件,则确定对应的第一实车驾驶样本为车辆风险驾驶数据。通过上述判断条件,可以判断出车辆是否经常行驶在危险路段或进行高风险操作。
根据驾驶环境数据对第一实车驾驶样本进行风险分析以提取车辆风险驾驶数据,可以包括:
获取天气状况参数、道路状况参数、交通流量参数和交通密度参数中至少一种驾驶环境数据;
若天气状况参数为风险天气类型,则确定对应的第一实车驾驶样本为车辆风险驾驶数据;
若满足道路状况参数中的道路平整度不满足平整度条件、道路状况参数中的障碍物指标满足障碍物阈值、道路状况参数中存在施工环境参数中至少一个条件,则确定对应的第一实车驾驶样本为车辆风险驾驶数据;
若满足交通流量参数大于交通流量阈值、交通密度参数大于交通密度阈值中至少一个条件,则确定对应的第一实车驾驶样本为车辆风险驾驶数据。
由于恶劣的天气会降低车辆传感设备的观测准确性,影响系统可靠性,导致驾驶安全性低,恶劣的路况会导致车辆行驶路线安全性较低,存在高事故风险,高密度的交通流量和复杂的交通状况会增加车辆控制难度和事故风险,这几种情况可以认为存在风险驾驶因素。
在实际应用中,可以将对应的风险驾驶样本收集到风险样本缓冲区中,每隔一段时间上传至云服务器,对数据合成模块进行迭代更新,以捕捉不同风险行为条件下的驾驶数据分布,从而扩充风险样本库。利用更新后的数据合成模块,可以生成大量多样化的合成风险驾驶样本,覆盖各种可能的驾驶风险,然后将合成风险驾驶样本下发给车载边缘服务器,为决策控制模型的微调学习提供了有力支持。通过对这些风险样本的学习,决策控制模型能够不断提升其应对风险的能力,提高驾驶的安全性和稳定性,以及复杂环境下的决策能力。
在上述实施例的基础上。本发明实施例对驾驶状态编码模块进行进一步说明。
需要说明的是,在本发明各实施例中,实车驾驶样本可以包括在自动驾驶决策模型的在线学习过程中收集的实车驾驶样本、在自动驾驶决策模型的模型迁移微调过程中收集的第一实车驾驶样本、获取的离线专家驾驶样本中的一种,具体视任务需求选择。
在S202中,自动驾驶决策模型的模型迁移微调过程可以分为数据收集和模型更新两阶段。在数据收集阶段,执行器网络根据输入的驾驶状态参数采样决策动作,并生成驾驶动作参数,在利用驾驶动作参数控制车辆运行与环境交互后,收集驾驶环境的环境反馈数据,据此计算得到环境奖励参数,此时车辆进入下一状态。
则S202中采集第一实车驾驶样本,可以包括:
利用驾驶状态编码模块对采集到的当前时刻的车辆驾驶状态感知数据进行编码得到当前时刻的驾驶状态参数输入自动驾驶决策模型;
利用自动驾驶决策模型根据当前时刻的驾驶状态参数选取驾驶动作参数,并利用选取的驾驶动作参数驱动车辆运动;
在驱动目标车辆运动与驾驶环境交互的过程中,收集环境反馈信息以计算得到环境奖励参数;
利用驾驶状态编码模块对采集到的下一时刻的车辆驾驶状态感知数据进行编码得到下一时刻的驾驶状态参数;
以一组当前时刻的驾驶状态参数、驾驶动作参数、环境奖励参数和下一时刻的驾驶状态参数构建一个第一实车驾驶样本。
在本发明实施例中,采集到的车辆驾驶状态感知数据可以为包括目标车辆的车辆状态信息和驾驶环境的环境状态信息在内的多模态驾驶感知数据。
驾驶状态编码模块用于将采集到的车辆驾驶状态感知数据进行编码作为自动驾驶决策模型的输入。在训练自动驾驶决策模型的过程中,可以采用人类专家驾驶员在复杂驾驶场景中控制车辆行驶,利用车载传感模块收集多模态驾驶感知数据并合成为BEV图的形式,上传至云服务器构建驾驶状态数据集。
驾驶状态编码模块可以采用对称网络结构设计,并在云服务器中基于驾驶状态数据集进行无监督预训练。在完成预训练后,保留驾驶状态编码模块中的编码器网络,作为后续任务的上游数据支持。
在本发明实施例中,在车端利用车载传感模块采集大量驾驶数据,并在车载边缘服务器中进行时间戳对齐和多模态数据融合,建立驾驶状态数据集,然后在云服务器中构建并学习驾驶状态编码模型,以提取驾驶状态的潜在分布结构,并生成低维、有意义的潜在表示,作为决策模型输入状态。一般情况下,驾驶状态编码模块可以事先进行预训练,也可以与决策控制模块相结合进行端到端在线训练,实际应用时可以视输入数据维度和任务复杂度而定。为降低自动驾驶决策模型的在线学习难度,可以将驾驶状态编码模块的训练任务与自动驾驶决策模型的训练任务进行分离,对驾驶状态编码模块进行单独训练。
驾驶状态编码模块的预训练需要利用车载传感设备收集大量的、多样化的驾驶数据,包括车辆的传感器数据(如雷达、激光雷达、摄像头等)、车辆的控制信号(如转向角、油门、刹车等)以及车辆的行驶轨迹等。将以上驾驶数据在车载边缘服务器中并按照时间戳对齐,然后采用多模态数据处理方法合成为具有多通道语义信息的BEV图像,得到多模态驾驶感知数据。
在驾驶状态编码模块的预训练阶段,可以直接在计算机端利用模拟器应用程序编程接口(Application Programming Interface,API)接口获取车辆运动状态、道路拓扑以及周围环境和交通流数据,然后合成为具有多通道语义信息的BEV图像。
在本发明实施例的一些可选的实施方式中,利用驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行编码得到驾驶状态参数,可以包括:利用驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行降维处理,得到驾驶状态参数。通过利用驾驶状态编码模块在将多模态驾驶感知数据转换为驾驶状态参数的过程中进行降维处理,将多模态驾驶感知数据转为低维表示,从而可以降低自动驾驶决策模型的在线学习难度。
在本发明实施例的另一些可选的实施方式中,利用驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行编码得到驾驶状态参数,可以包括:利用预训练的驾驶状态编码模块将采集到的车辆驾驶状态感知数据进行编码处理,以得到满足预设分布的驾驶状态参数。通过利用驾驶状态编码模块在将多模态驾驶感知数据转换为驾驶状态参数的过程中将多模态驾驶感知数据均转换为满足预设分布的驾驶状态参数,可以有助于降低数据合成模块在学习第一实车驾驶样本的样本特征分布时的难度,从而进一步降低自动驾驶决策模型的在线学习难度。
则在本发明实施例的一些较好的实施方式中,利用驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行编码得到驾驶状态参数,可以包括:利用预训练的驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。即通过采用驾驶状态编码模块在将多模态驾驶感知数据转换为驾驶状态参数的过程中进行降维以及将驾驶状态参数编码为同分布,在为自动驾驶决策模型的训练提供上游数据支持时可以显著降低自动驾驶决策模型的在线学习难度。
由于在本发明实施例中,驾驶状态编码模块只关心驾驶数据在低维潜在空间中的特征表示,暂不涉及分类、检测等任务,因此不需要对用于训练驾驶状态编码模块的驾驶数据进行标注。在完成驾驶数据收集以及BEV图像合成后,通过V2X通信技术上传至云服务器中作为驾驶状态数据集。考虑到驾驶场景的多样性,也可以通过数据增强技术增加驾驶状态编码模块得训练数据的数量和多样性。例如,可以通过旋转、平移、缩放或加入噪声等方式,对BEV图像进行变换,从而生成更多具有挑战性的驾驶状态编码模块,提高驾驶状态编码模块的泛化能力。
在本发明实施例中,可以采用无监督的方式控制驾驶状态编码模块学习对驾驶数据的有效编码,其模型结构可以包含编码器和解码器两部分。其中,编码器用于将输入的驾驶状态数据映射到潜在空间中的分布参数,解码器则将从潜在空间中采样的向量解码为原始输入数据,以还原原始驾驶状态信息。
在本发明实施例中,输入数据是大小为5*200*200的BEV图像(多模态驾驶感知数据),采用卷积神经网络构建编码器和解码器。图3为本发明实施例提供的一种驾驶状态编码网络及驾驶状态解码网络的结构示意图。由于输入数据与输出数据结构基本一致,模型结构具有显著的对称性。在本发明实施例中,从输入层开始压缩数据、直至架构中心的部分被称为驾驶状态编码网络,其作用是从原始数据中提取低维关键信息,从原始数据中提纯出的信息为特征编码;从编码开始拓展数据、直至输出层的部分被称为驾驶状态解码网络,驾驶状态解码网络的输出为重建图像,其作用是将提取出的信息还原为原来的结构。可以根据数据规模和计算需求采用不同类型的神经网络来设计实现驾驶状态编码网络和驾驶状态解码网络。
如图3所示,采用三层卷积神经网络构建驾驶状态编码网络和驾驶状态解码网络,并通过使用收集好的驾驶数据在云服务器中进行驾驶状态编码模块的训练。如图3示例的,可以利用驾驶状态编码网络,可以利用卷积核为3、步数为2的卷积网络1将200*200*5大小的多模态状态感知数据转换为99*99*128,利用卷积核为3、步数为2的卷积网络2将99*99*128大小的多模态状态感知数据转换为49*49*128,利用卷积核为3、步数为2的卷积网络3将49*49*128大小的多模态状态感知数据转换为24*24*64,再利用展平层将数据展平为36864大小,经过样本分布特征编码得到驾驶状态参数。在驾驶状态解码网络,利用重塑层将36864大小的驾驶状态编码参数重塑为24*24*64,再依次经过反卷积网络3、反卷积网络2和反卷积网络1进行解码,得到重建样本。
在本发明实施例的一些可选的实施方式中,驾驶状态编码模块的预训练步骤可以包括:
获取车辆驾驶数据;
自车辆驾驶数据中提取车辆状态信息和环境状态信息以构建多模态状态感知数据,得到驾驶状态数据集;
采用对称卷积神经网络结构搭建驾驶状态编码网络和驾驶状态解码网络;
自驾驶状态数据集中抽取编码器训练样本训练驾驶状态编码网络和驾驶状态解码网络,在训练过程中,将编码器训练样本输入驾驶状态编码网络以提取编码器训练样本的样本数据分布,自编码器训练样本的样本数据分布中采样得到样本分布特征编码,将样本分布特征编码输入驾驶状态解码网络以输出重建样本,以最大化重建样本和对应的编码器训练样本的似然性以及最小化编码器训练样本的潜在表示分布与标准正态分布的相对熵为训练目标,对驾驶状态编码网络和驾驶状态解码网络进行损失优化训练;
在达到驾驶状态编码模块训练结束条件后,得到驾驶状态编码模块。
在训练驾驶状态编码模块时,通过以最大化重建样本和对应的编码器训练样本的似然性(最小化重构误差)以及最小化编码器训练样本的潜在表示分布与标准正态分布的相对熵为训练目标,以确保学习到的表示具有一定的结构性和连续性。
在训练驾驶状态编码模块时,原始BEV图像作为多模态驾驶感知数据将从驾驶状态编码网络输入,经驾驶状态编码网络后形成特征编码,之后被输入到驾驶状态解码网络,再复原回原始输入的结构,得到重建样本。
为了确保驾驶状态编码网络映射空间的连续性,本发明实施例并不直接将驾驶状
态编码网络编码后的结果传递给驾驶状态解码网络,而是要使得隐式表示满足预设分布。
鉴于此,驾驶状态编码网络并不是直接输出一个隐变量,而是输出一个多维高斯分布的均
值和方差,然后在所获得的分布中进行采样,得到一个z作为特征编码,进一步将z送入
到解码器中进行解码,利用z还为原始的输入。
在本发明实施例的另一些可选的实施方式中,应用于云服务器,驾驶状态编码模块的预训练步骤可以包括:
收集人类专家驾驶员控制车辆在复杂交通场景中行驶期间基于车载传感设备获
取的多模态驾驶感知数据,将多模态驾驶感知数据通过多模态数据处理、语义分割等技术
合成BEV图像,构建驾驶状态数据集;
采用对称卷积神经网络结构构建驾驶状态编码模块,并对其中的驾驶状态编码网络的网络参数和驾驶状态解码网络的网络参数进行随机初始化;
随机从驾驶状态数据集中抽取小批量样本;
通过编码器网络提取样本数据分布,从中采样得到M个编码
特征;
将作为输入,通过解码器网络得到重建样本数据;
根据重建样本与真实样本计算重建损失,计算训练损失,并通过编码器输出特征分布计算分布损失,通过反向传播更新编码器和解码器网络参数;
重复上述步骤,直至模型收敛或达到预设训练迭代数,输出驾驶状态编码模块。
其中,为第n个车辆驾驶状态感知数据,N为车辆驾驶状态感知数据的数量,
为在驾驶状态数据集中抽取的车辆驾驶状态感知数据的数量,为第n个车辆驾驶状
态感知数据的均值,为第n个车辆驾驶状态感知数据的方差,为自第n个车辆驾
驶状态感知数据中采样得到的m个编码特征,为第n个车辆驾驶状态感知数据中采样
得到的m个编码特征对应的重建样本数据。
假设原始BEV图像为x,驾驶状态编码网络需要实现从x到z的映射过程,即分布,而驾驶状态解码网络需要实现从z还原回x的过程,即分布,两个分布存在
如下关系:
;(1)
其中,和分别为x和z先验分布。考虑到积分项难以直
接计算得到,驾驶状态编码网络将通过神经网络训练一个概率分布去近似后验概率
分布,为驾驶状态编码网络的网络参数,该过程主要通过最小化以下分布度量函
数来实现:
;(2)
其中,为KL散度,又称克卢伯-莱布勒散度,用于衡量模型预测分布与真实分
布之间的差异,即与之间的KL散度。ELBO为变分推断中的
证据下界,表示为:
;(3)
由于输入x给定,所以是定值,因此最小化KL散度等价于最小化证据下界
(Evidence Lower Bound,ELBO)。其中,的含义的作用是让驾驶状态编码
网络输出的概率分布和先验概率分布一致。为基于分布采样重
建x的概率期望,可通过驾驶状态解码网络的神经网络训练得到,该项作为重构损
失,用于衡量模型输入与输出的关系。
设驾驶状态编码网络的参数为,驾驶状态解码网络的参数为,则驾驶状态编码
模块的损失函数可以定义为:
;(4)
其中,第一项通过两个分布的均值和方差来计算,为了简化计算,把先验分布设置为标准正态分布,假设,则有:
;(5)
相应的,第二项的重构损失设计为:
;(6)
其中,为在驾驶状态解码网络的参数为时所实现的从x到z的映射过
程,为在驾驶状态编码网络的网络参数为时输出的z的分布,为驾驶状态编码网
络输出分布的方差,为驾驶状态编码网络输出分布的均值,为重建样本,为等价标识
符。
考虑到训练过程中驾驶状态编码网络与驾驶状态解码网络是通过采样分布来进
行数据流连接,中间无法通过一个可导的函数关系来描述,导致反向传播无法进行。在本发
明实施例中,可以采用重参数化技巧来建立编码特征z分布均值和方差之间的函数关
系。由于中间的采样操作独立于网络之外,不参与梯度更新运算,使得训练期间网络能够正
常进行反向传播。
给定一个由BEV图像构成的驾驶状态数据集,对于任意样本,
通过编码器将其所携带的所有特征信息的分布转换成类高斯分布,得到该类高斯分布的均
值和方差,然后从一个标准正态分布中随机采样M个变量,并利用重参数化技巧
计算,再通过解码器得到相应的重建样本。
在本发明实施例中,驾驶状态编码模块的训练目标由两部分组成,最大化真实样
本与重建样本的似然性(重构误差),以及最小化潜在表示分布与标准正态分布的KL散度,以此确保学习到的表示具有一定的结构性和连续性。
综上,驾驶状态编码模块的预训练过程可以描述如下:
通过自动驾驶模拟器构建仿真交通环境,调用自动驾驶模拟器内置基于规则的自
动驾驶规划器或加载专家驾驶策略控制车辆实现仿真自动驾驶,期间通过模拟器应用程序
接口实时获取车辆运动状态、道路拓扑以及周围环境和交通流数据,并按照空间位置信息
合成BEV图像,构建驾驶状态数据集;
将驾驶状态数据集发送至具有Ubuntu系统的服务器中,采用对称卷积神经网络
结构在Pytorch框架下构建驾驶状态编码模块,并对驾驶状态编码网络参数和驾驶状态
解码网络参数进行随机初始化;
随机从驾驶状态数据集中抽取小批量样本;
通过编码器网络提取样本数据分布;
从标准正态分布中随机抽取个分布变量,通过以下公式计算得
到M个编码特征:
;(7)
将作为输入,通过驾驶状态解码网络得到重建样本数据;
根据以下训练损失函数计算驾驶状态编码模块的训练损失,通过反向传播网络参数;
;(8)
重复上述步骤,直至模型收敛或达到预设训练迭代数,输出编码器网络;
其中,为驾驶状态编码模块的训练损失函数,为驾驶状态编码网络
的参数,为驾驶状态解码网络的参数,为编码器训练样本,为编码器训练样本的数
量,为编码器训练样本的样本数据分布,为标准正态分布,为编码器训练样本的样本数据分布与标准正态分布之间的KL
散度,M为自标准正态分布中抽取的分布变量的个数,为重建样本,为编码器训
练样本,为二范数计算的平方,为第n个编码器训练样本的方差,为第n个编
码器训练样本的均值。
将训练好的驾驶状态编码模块部署于自动驾驶仿真系统的计算机端或自动驾驶决策控制系统的车载边缘服务器,作为后续决策规划任务的上游数据支持,以提供更具有表现力和通用性的低维潜在状态表示,能有助于提高系统的整体性能和适应性,使其更好地适应各种复杂的驾驶环境和任务需求。
在上述实施例的基础上,本发明实施例对数据合成模块进行进一步说明。
在本发明实施例中,为解决自动驾驶决策模型对实车驾驶样本的模型探索能力差的问题,可以在自动驾驶决策模型的在线学习过程中采用数据合成模块对实车驾驶样本进行样本扩充生成合成驾驶样本来重用实车驾驶样本,在自动驾驶决策模型的模型迁移微调过程中采用数据合成模块对从第一实车驾驶样本中提取的风险驾驶样本扩充生成合成风险驾驶样本来针对性学习风险驾驶样本,使自动驾驶决策模型学习到更多的驾驶经验并具有更强的应对风险的能力。
在本发明实施例的一些可选的实施方式中,对第一实车驾驶样本进行样本扩充得到第一合成驾驶样本,可以采用变分自编码器(Variational Auto Encoder,VAE)或生成对抗网络(Generative Adversarial Network,GAN)等生成建模方法生成合成驾驶样本,实现数据增广。然而这类生成方法未考虑环境状态转移动力学,可能会导致生成的样本合理性不足,与实际交互产生的样本特征分布不一致。
鉴于此,在本发明实施例中,在自动驾驶决策模型的在线学习过程中,对实车驾驶样本进行样本扩充得到与实车驾驶样本的样本特征分布相同的合成驾驶样本,可以包括:利用扩散模型对实车驾驶样本进行样本扩充得到与实车驾驶样本的样本特征分布相同的合成驾驶样本。
在自动驾驶决策模型的模型迁移微调过程中,S202中对风险驾驶样本进行样本扩充生成合成风险驾驶样本,可以包括:利用扩散模型生成与风险驾驶样本的样本分布相同的合成风险驾驶样本。
利用扩散模型结合前向动力学模型进行样本合成,确保生成的合成驾驶样本或合成风险驾驶样本与真实的环境动态更加一致,能够生成新颖、多样化且动态准确的数据。
在本发明实施例中,可以基于扩散模型和前向动力学构建数据合成模块。构建的数据合成模块可以用于执行自动驾驶决策模型的在线学习阶段乃至驾驶状态编码模块的预训练阶段的数据增强。利用数据合成模块进行样本合成,能确保合成驾驶样本与真实的环境动态更加一致,能够生成新颖、多样化且动态准确的数据。
由于扩散模型的训练成本较高,为降低扩散模型的训练成本,结合本发明上述实施例提供的驾驶状态编码模块,S202中第一实车驾驶样本中的驾驶状态参数的采集步骤可以包括:
在目标车辆与驾驶环境的交互过程中,采集目标车辆的车辆状态信息和驾驶环境的环境状态信息,得到多模态状态感知数据;
利用预训练的驾驶状态编码模块对多模态状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。
通过驾驶状态编码模块将多模态状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数,使得扩散模型只需要学习实车驾驶样本中的状态与动作间的映射即可,显著降低引入扩散模型的成本。
在本发明实施例的一些可选的实施方式中,扩散模型的训练步骤可以包括:
对去噪器网络进行迭代训练,在每次迭代中,自风险驾驶样本中抽取去噪训练样本,按照预设的噪声水平调度对去噪训练样本添加噪声,得到带噪样本,采用去噪器网络对带噪样本进行去噪处理,得到去噪样本,利用去噪样本与对应的去噪训练样本的误差计算去噪器网络的差异损失值并进行反向传播以更新去噪器网络的模型参数;
当满足去噪器迭代结束条件后,得到扩散模型。
具体来说,在数据合成模块的网络训练阶段,给定去噪样本数据集,数据合成模块将从去噪样本数据集中随机抽取小批量去噪训练样本,并按照预设的噪声水平调度对其进行加噪;然后采用去噪器网络对带噪样本进行去噪,并根据去噪样本与真实样本(即去噪训练样本)间的差异来计算网络训练损失,进而通过反向传播法更新去噪器网络参数,以减小损失值。
在数据合成模块的样本生成阶段,首先根据预定义的扩散采样步数,设置噪声水平调度与采样系数,然后基于初始噪声水平采样生成随机噪声样本作为初始输入;对于任意迭代过程中的噪声样本,根据训练好的去噪器网络计算得分函数,并根据评分值计算下一次迭代输入的噪声样本,直至达到最大采样迭代步数,样本生成结束。
将数据合成模块引入到自动驾驶决策模型的在线学习过程,数据合成模块将在服务器中每隔一段时间根据交互产生的最新驾驶经验更新模型参数,以合成更多样化的决策控制模型训练样本,加速训练过程,以及减少在线交互成本。
将驾驶状态转移数据视为待合成训练样本,其中,
为t时刻的驾驶状态参数,为t时刻选取的驾驶动作参数,为基于t时刻的驾驶
状态参数和t时刻选取的驾驶动作参数得到的环境奖励参数,为t+T时刻的驾驶状态参
数。基于扩散模型的数据合成模块训练过程包含前向扩散和逆向去噪两个部分,模型将学
习迭代地逆转前向扩散过程并从噪声中生成样本。给定一个标准差为的样本分布,考虑对其添加标准差为的独立同分布高斯噪声,以获得一个带噪声的样本分布。前向扩散过程由遵循固定噪声水平调度
的噪声分布序列定义,其中为扩散采样步数,当时,最终样本分布本质上与随机噪声没有区别。这里采用以下概率流常微分方程来表示具有连
续噪声水平调度条件下对应的逆向去噪过程:
;(9)
其中,是连续噪声水平调度的时间导数,是得分函
数,用于描述模型参数对于数据分布的梯度信息,以指导参数更新的方向和幅度。由于得分
函数未知,可以通过训练一个以最小化去噪损失为目标的去噪器模型对其近似,训练目标如下:
;(10)
其中,为均值为0、标准差为的正态分布,为条件下的期望计算操作,为噪声样本输入去噪器
模型所得到的去噪输出,为二范数计算的平方,为噪声分布标准差。
进一步,可利用分数匹配和去噪之间的联系来计算得分函数:
;(11)
可以使用随机微分方程(SDE)求解器来逆转前向扩散过程,实现样本生成。
目前大部分基于扩散模型的生成任务中,输入数据往往是图像或多模态高维数据,为了获取高维统计分布信息,需要采用卷积神经网络、Transformer等复杂网络结构构建去噪器模型,导致采样加噪过程缓慢,需要经过长时间迭代训练才能确保模型性能,样本生成耗时过长。
在本发明实施例中,由于驾驶状态数据已经通过预训练的驾驶状态编码模块映射至低维潜在状态空间,输入数据x可以表示为一个低维向量,仅需简单的全连接网络即可满足去噪器模型需求,能够显著降低数据合成模块的迭代训练成本,加快样本生成速度。
因此,本发明实施例采用带有残差连接的全连接网络构建去噪模。图4为
本发明实施例提供的一种扩散模型的结构示意图。如图4所示,本发明实施例采用的扩散模
型的网络结构可以包括:将输入的噪声进行正弦位置编码后依次输入第一线性层、第一激
活层、第二线性层的结果,以及将噪声输入第三线性层的结果进行求和后,将和值依次经过
第四线性层、残差多层感知机、第一归一化层、第二激活层和第五线性层。其中,残差多层感
知机由六组第二归一化层、第三激活层和第六线性层组成。
如图4所示,将噪声输入、、、……、、……、输入去噪器网络,根据等式、进行正
弦位置编码后经过第一线性层、第一激活层和第二线性层得到,经过第三线性层得到。其
中,在第一线性层进行计算,在第一激活层进行计
算,在第二线性层进行计算,在第三线性层进行计算。将h 1 、h 2 、h 3 、……、h i、……、和、、、……、、……、对应求和得到、、
、……、、……、,输入第四线性层,而后分别经过第四线性层、残差多层感知机、第一
归一化层、第二激活层和第五线性层进行去噪输出得到、、、……、、……、。其
中,在第四线性层中进行计算,在残差多层感知机中进行计算,在第一归一化层中进行计算,在第
二激活层中进行计算,在第五线性层中进行计算。在残差
多层感知机中,在第二归一化层中进行计算,在第三激活层中进行计算,在第六线性层中进行计算。
其中,为每次批量输入的去噪训练样本的总数,为第i个去噪训练样本对应
的带噪样本,为编码向量维度,为位置信息,为位置编码矩阵中第pos个位置,用于表示网络中间层输出的中间特征,为线性层计算操作,h i 为带
噪样本对应的中间网络层输出特征,为带噪样本对应的第三线性层输出特征,为
带噪样本对应的去噪输出,用于表示网络中间层输出的中间特征特征,为残差网络模块计算操作,为层归一化操作,为取最大值计算。
则在本发明实施例的另一些可选的实施方式中,扩散模型的训练步骤可以包括:
初始化去噪器网络的网络参数;
根据风险驾驶样本构成的去噪样本数据集计算分布标准差;
自去噪样本数据集随机抽取小批量去噪训练样本;
基于对数正态分布设置噪声,根据对去噪训练样本
进行加噪处理,得到带噪样本;
根据,采用去噪器网络对带噪样本进行去
噪处理;其中,为去噪器网络输出的第i个去噪样本;
根据计算去噪样本和对应的去噪训练样本之间的差异损
失值;
利用反向传播法更新去噪器网络的网络参数以减小差异损失值;
重复上述步骤直至达到去噪器迭代结束条件,得到扩散模型;
其中,为去噪训练样本的数量,为第i个去噪训练样本,为第i个带噪样本,为第i个去噪样本,为噪声,为去噪样本数据集的分布标准差,为噪声分布标准
差,为去噪样本和对应的去噪训练样本之间的差异损失值,为去噪样本,x为去噪训
练样本,E[·]为差异损失计算,为二范数计算的平方。
在此基础上,利用扩散模型生成与风险驾驶样本的样本分布相同的合成风险驾驶样本,可以包括:
根据下式设置噪声水平调度和采样系数:
;
;
基于噪声水平采样生成随机噪声样本作为初始输入;
根据和,对于任
意第t次迭代过程中的噪声样本,以噪声样本为中心进行随机采样;其中,为随机噪声;
利用扩散模型根据计算第t
次迭代过程的去噪得分值;
根据计算下一迭代步的噪声样本;其中,若,则;
若,则根据计算第t+1次迭
代过程的去噪得分值;
若达到采样结束条件,则确定合成风险驾驶样本生成结束,输出合成风险驾驶样本;
若未达到采样结束条件,则返回对于任意第t次迭代过程中的噪声样本,以噪
声样本为中心进行随机采样的步骤;
其中,为扩散模型的第t次迭代过程的噪声水平调度,为噪声水平调度的控
制系数,为最大噪声水平的分布标准差,为最小噪声水平的分布标准差;
为扩散模型的第t次迭代过程的采样系数,为预设扩散采样步数,,为噪声采样幅度,为噪声水平下限,为噪声水平上
限;
、、均为随机采样系数,且;
为第t次迭代过程的采样噪声,为第t次迭代过程输入的噪声样本,为
以噪声样本为中心随机采样得到的采样噪声样本,为从中采样得到的随机噪
声,为多维标准正态分布,I为单位矩阵;
为采样噪声样本的去噪得分值,为采样噪声样
本输入去噪器模型所得到的去噪输出;
为第t+1次迭代过程输入的噪声样本,为噪声样本的第t+1次迭代
过程的噪声水平调度;
为噪声样本的去噪得分值,为噪
声样本输入去噪器模型所得到的去噪输出。
在上述实施例的基础上,本发明实施例进一步对自动驾驶决策模型的训练过程进行说明。
通过加载预训练的驾驶状态编码模块提供低维潜在状态输入,本发明实施例可以在自动驾驶决策模型的在线学习过程中自随机初始化的自动驾驶决策网络的基础上训练自动驾驶决策模型,也可以在自动驾驶决策模型的模型迁移微调过程中对具有先验知识的自动驾驶决策模型进行模型参数微调。
在本发明实施例中,自动驾驶决策模型可以基于执行器网络-评价器网络架构构
建,执行器(Actor)网络用于拟合决策控制策略,评价器(Critic)网络用
于评估策略性能。为避免价值过估计,提升性能稳定性,在本发明实施例中,可以采用双网
络机制训练自动驾驶决策模型,即设置1个执行器网络,2个当前评价器网络,以
及2个目标评价器网络,。
自动驾驶决策模型的训练过程分为数据收集和模型更新两阶段。
在本发明实施例中,针对复杂多变交通场景中的自动驾驶问题,可以将环境建模
为马尔科夫决策过程,定义为元组,其中和分别表示状态和动作空
间,状态转移概率,为奖励函数,为初始状态分布,为折扣
因子。
记当前时刻为t时刻,当前时刻的驾驶状态参数为,驾驶动作参数为,环境奖
励参数为,下一时刻的驾驶状态参数为,则第一实车驾驶样本包括数据元组。
强化学习的目标是优化策略,使预期折扣收益
最大化。将状态设置为驾驶状态编码模块的输出特征,动作设置为用于生成
驾驶运动技能的自由参数,以便于多样化的驾驶行为学习,其中是以为初始状态、长度为的车辆运动轨迹,为与状
态相对应的轨迹初始点,表示基于运动规划的运动技能生成过程。
则在数据收集阶段,收集实车驾驶样本。实车驾驶样本(或第一实车驾驶样本)的采集步骤可以包括:
利用自动驾驶决策模型根据当前时刻的驾驶状态参数采样决策动作参数,并基于轨迹规划方法生成运动技能;
控制目标车辆执行运动技能,并在执行过程中接收环境反馈奖励,计算在技能
周期内的累计奖励值,直至驾驶状态转移至下一时刻,收集下一时刻
的驾驶状态参数;
以数据元组作为第一实车驾驶样本;
其中,为t时刻的驾驶动作参数,为t时刻的驾驶状态参数,为执行
器网络,为以为初始状态、长度为T个时间步的车辆运动轨迹,为基于运动规划
的运动技能生成过程,为t时刻的路径点,为t+1时刻的路径点,为t+T时刻的路
径点,为t时刻的环境奖励参数,T为一个技能周期的时间步的数量,为k时刻的
单步奖励值,为t+T时刻的驾驶状态参数。
在上游的驾驶状态编码模块的支持下,决策控制任务可以在潜在特征空间中进
行,将显著降低模型训练难度。鉴于此,决策控制模块仅采用简单的全连接网络构建,即可
实现车辆低维状态特征到决策控制动作之间的映射,由于算力需求较小,其训练与推理均
可在车载边缘服务器中进行。在本发明实施例中,执行器网络和评价器网络的隐藏层均可
以采用2层结构相同的全连接网络,执行器网络的编码输出层将输出动作分布的均值和方差,评价器网络的编码层将输出一个标量作为策略价值估计。执行器网络
和评价器网络不共享参数,以便更好地解耦两个角色的训练过程,提高网络的学习效果和
性能。
为保证样本量,可以利用回放缓冲区来存储实车驾驶样本。从而在模型更新阶
段,可以随机从回放缓冲区中抽取小批量样本,以最大化预期回报为训练目标分别更新
执行器网络和评价器网络参数。训练期间,两阶段交替迭代推进,直至训练迭代数达到设定
上限,输出执行器网络。
基于上述条件,在本发明实施例中,可以应用决策控制模块将按照单步推理-多步
执行的方式工作,即每隔个时间步进行一次动作决策,每个动作将持续进行步,因此奖
励函数应当设置为一次技能执行周期内的累计奖励,即,其中为
时刻环境反馈的单步奖励。
则在本发明实施例的一些可选的实施方式中,S202中利用第一实车驾驶样本和合成风险驾驶样本对自动驾驶决策模型进行模型参数调整,可以包括:
在自动驾驶决策模型的每次优化迭代中进行第一预设次数的模型参数更新,在每次模型参数更新过程中,采集第一实车驾驶样本并生成第一合成驾驶样本,自第一实车驾驶样本和第一合成驾驶样本中抽取决策模型更新训练样本,以更新自动驾驶决策模型中的执行器网络、当前评价器网络和目标评价器网络,当达到模型参数更新结束条件后,完成一次模型参数更新。
则在本发明实施例中,自动驾驶决策模型的在线训练过程可以包括:
在服务器中加载预训练好的驾驶状态编码模块,采用全连接网络在Pytorch框架下构建决策控制模块,对执行器网络、当前评价器网络以及目标评价器网络参数进行随机初始化;
在数据收集阶段,对于任意t时刻,服务器获取到计算机端传来的仿真环境中的车辆驾驶状态数据,通过数据预处理模块将其合成为BEV语义图像;
采用预训练的驾驶状态编码模块将BEV语义图像转换为低维状态特征以作为决
策控制模块的输入,执行网络根据当前时刻的驾驶状态参数采样驾驶动作参数,并基
于轨迹规划方法生成运动技能;
服务器将运动技能发送至计算机端,模拟器读取该技能轨迹并通过底层接口将其
转换为车辆控制指令,实现一个技能周期内的轨迹跟踪和状态转移,期间模拟器实时将环
境反馈信号发送给服务器,用于计算该技能周期内的累计奖励即环境奖励参数,
并将数据元组收集至回放缓冲区;
重复上述数据收集步骤,直至车辆执行步数达到设定上限;
在模型更新阶段,随机从回放缓冲区中抽取小批量样本,依次更新执行器网络、
当前评价器网络以及更新目标评价器网络;
重复上述模型更新步骤,直至更新步数达到设定上限;
重复上述数据收集步骤和模型更新步骤,直至训练迭代数达到设定上限,输出执行器网络。
在线训练过程中,由于自动驾驶决策模型只能根据策略与环境交互产生的经验样本进行策略改进,受模型探索能力限制,在一定的训练时间或训练步数内,模型只能对有限的驾驶状态空间区域进行探索,难以覆盖复杂交通中的所有驾驶情况。另一方面,由于硬件计算和存储资源有限,所设置的回放缓冲区无法存储训练区间交互生成的所有样本数据,因此模型每次更新只能在最近收集到的经验数据上进行,而更久远之前的历史数据将会被遗忘掉,虽然其中可能不乏高价值样本。以上两方面都将导致样本多样性不足,使得样本利用效率低,进而影响模型学习性能和最终表现。
针对上述问题,本发明实施例基于扩散模型构建数据合成模块,该模块通过结合系统前向动力学模型来进行样本合成,确保与真实的环境动态更加一致,能够生成新颖、多样化且动态准确的数据。
利用数据合成模块根据实车驾驶样本生成合成驾驶样本的步骤请见上述实施例的描述。
在上文已介绍,在车载边缘服务器上部署用于存储第一实车驾驶样本的回放缓冲
区,作为自动驾驶决策网络训练所用的训练样本。
在本发明实施例中,可以通过部署多个回放缓冲区来存储第一实车驾驶样本和第一合成驾驶样本。
图5为本发明实施例提供的一种自动驾驶决策模型的训练过程的流程图。
为满足不同应用场景下的训练数据要求,在本发明实施例中,可以采用不同的数据增强实现方式。
如图5所示,在自动驾驶决策模型的在线学习过程中,将在线采集到的实车驾驶样本存入第一回放缓冲区,将合成驾驶样本放入第二回放缓冲区。利用第一回放缓冲区中的实车驾驶样本更新数据合成模块中扩散模型的模型参数,以生成与实车驾驶样本的样本特征分布相同的合成驾驶样本。对第一回放缓冲区中的实车驾驶样本进行随机采样作为真实样本,对第二回放缓冲区中的合成驾驶样本进行比例随机采样作为合成样本,利用真实样本与合成样本的混合样本对决策控制模块进行模型参数更新。
进一步的,数据增强驱动的自动驾驶决策模型的在线学习过程可以包括:
在服务器中加载预训练的驾驶状态编码模块,初始化数据合成模块的网络参数与决策控制模型的网络参数,初始化第一回放缓冲区、第二回放缓冲区,同时设置训练样本采样比例ω,设置数据合成模块更新条件;
通过以太网搭建计算机端与服务器间的数据通讯链路,在计算机端开启自动驾驶模拟器,搭建仿真交通环境;
服务器实时获取计算机端的虚拟驾驶感知信息,利用预训练的状态编码模块作为上游支持,决策控制模型将感知信息映射为相应的技能参数,进一步通过技能生成模块将其转换为可行驶的车辆运动轨迹;
计算机端接收来自服务器的运动轨迹信息,通过模拟器内置底层模块将其转换为虚拟车辆控制指令,驱动车辆完成一个技能周期内的状态转移,期间服务器将实时获取仿真环境反馈信息,用于计算累计奖励,并按照元组的形式将驾驶经验样本存储至第一回放缓冲区中;
若当前训练轮次满足数据合成模块更新条件,利用第一回放缓冲区中的真实样本对数据合成模块中的去噪器网络进行训练更新,进而利用数据合成模块生成合成样本,并将其存储至第二回放缓冲区中;
按照采样比例ω分别从第一回放缓冲区和第二回放缓冲区抽取小批量样本,然后基于采样得到的混合样本更新自动驾驶决策模型;
判断训练结束条件:若达到最大训练迭代轮次,则训练结束;否则,转至服务器实时获取计算机端的虚拟驾驶感知信息的步骤,重复上述步骤。
由于仿真场景与真实场景在环境动力学和交通流特性上存在差异,直接将自动驾驶决策模型从训练环境迁移至目标真实应用环境可能导致性能下降。因此,需要在真实世界中对自动驾驶决策模型进行微调,以使其在实际应用场景中表现出最佳的驾驶性能。
经过自动驾驶决策模型的在线学习过程得到的自动驾驶决策模型,已掌握大部分常见的基本驾驶技能。这意味着,对于与训练场景相似的驾驶情况,模型能够利用其已学习的知识进行有效的决策。然而,由于真实场景可能包含训练场景中未涵盖的特殊情况,因此在微调过程中,应重点关注这些新情况,确保模型能够迅速适应并做出正确的反应。通过针对性的微调和优化,可以进一步提高模型在真实场景中的驾驶性能和安全性。
图6为本发明实施例提供的一种自动驾驶决策模型的模型迁移微调过程的流程图。首先,在真实场景中的目标车辆上搭载一台车载边缘服务器,然后将仿真场景中已训练好的驾驶状态编码模块和自动驾驶决策模型加载至该车载边缘服务器中,来驱动目标车辆与真实环境进行交互,该自动驾驶决策模型基于前期预训练的驾驶状态编码模块和数据增强的强化学习算法在线优化,能够实现对车辆大部分基本驾驶行为的精准控制。
在车辆行驶过程中,实时收集可能产生安全隐患或增加事故风险的各类数据,这些数据通常涵盖了驾驶员的行为、车辆的状态以及驾驶环境等多个方面,将被作为风险样本,提供车辆在实际运行中可能遭遇的种种风险的详细信息。利用本发明上述实施例介绍的驾驶风险分析模块实时分析并提取车辆风险驾驶数据。
在本发明实施例中,为学习到更丰富的驾驶场景,利用扩散模型生成与风险驾驶样本的样本分布相同的合成风险驾驶样本,可以包括:
在自动驾驶决策模型的优化过程中,当达到扩散模型更新条件,则利用当前采集的风险驾驶样本更新扩散模型的模型参数后,利用更新后的扩散模型生成合成风险驾驶样本;
其中,扩散模型更新条件为自动驾驶决策模型经过第一预设迭代次数和/或自上一次更新扩散模型的模型参数后风险驾驶样本的累计数据量达到第一预设数据量。
综上,面向目标应用场景进行模型迁移微调过程可以包括:
在车载边缘服务器中加载训练场景中的驾驶状态编码模块的网络参数,以及自动驾驶决策模型的网络参数,初始化第一回放缓冲区,第二回放缓冲区;
通过以太网搭建车载边缘服务器与云服务器间的数据通讯链路,搭建真实环境中的自动驾驶决策模型在线微调系统;
在云服务器中构建数据合成模块并初始化网络参数,设置训练样本采样比例ω,以及数据合成模块更新条件(如,决策控制模型每完成K次轮训练迭代,更新一次数据合成模块);
在车端利用车载传感模块实时采集驾驶数据并在车载边缘服务器中进行时间戳对齐和多模态数据融合,构建BEV图像作为驾驶状态输入信息;
利用预训练的驾驶状态编码模块作为上游支持,决策控制模型根据驾驶状态信息选取技能动作参数,并通过技能生成模块转换为车辆可行驶的运动轨迹;
车辆控制单元获取由车载边缘服务器传来的车辆运动轨迹,控制车辆实行轨迹跟踪,期间车载传感模块将环境变化情况实时反馈给车载边缘服务器,根据奖励函数计算环境奖励信息;
车载边缘服务器以元组的形式在线收集真实驾驶经验样本,并将其存储至第一回放缓冲区中;通过驾驶风险分析模块实时分析车辆行驶状态,将其中对应驾驶数据提取出来作为风险样本,存储至风险样本缓冲区中;
若风险样本缓冲区存储已满,将其上传至云服务器,并利用其中的真实风险样本训练数据合成模块;
利用数据合成模块生成合成风险样本,并将其发送给车载边缘服务器,存储至合成样本缓冲区中;
按照采样比例ω分别从第一回放缓冲区与合成样本缓冲区抽取小批量样本,然后基于采样得到的混合样本更新决策控制模型;由于该阶段主要针对风险驾驶情况进行针对性学习,因此对于合成样本缓冲区中的合成风险样本采用随机采样方法,而对于第一回放缓冲区中的真实样本则按照与风险情况的相关度进行重要性采样;
判断微调结束条件:若达到最大微调迭代轮次,则微调结束;否则,转至在车端利用车载传感模块实时采集驾驶数据并在车载边缘服务器中进行时间戳对齐和多模态数据融合的步骤,重复上述步骤。
鉴于驾驶场景对车辆行为需求的差异化,可以观察到在不同的驾驶环境下,车辆所需的行为策略具有显著差异。在高速直行场景中,车辆变道行为的优化成为关键;而在交叉口,车辆需要灵活调整行驶方向,全面考虑来自四个方向的车流动态;在环岛行驶中,驾驶员需根据前后方车辆行为选择最佳汇入时机,并对右转行为保持高度审慎。
针对后续应用过程中因车辆驾驶场景出现显著变化导致决策控制模型适用性下降的问题,同样可采用上述模型迁移微调方法对自动驾驶决策模型进行持续调整学习,以提升自动驾驶决策控制系统对于未知新场景的适用性和泛化性。
本发明实施例提供的数据合成模块可以作用于自动驾驶决策模型的在线学习过程也可以作用于自动驾驶决策模型的模型迁移微调过程。上述数据合成模块中扩散模型的更新及扩散过程是以风险驾驶样本为基础进行介绍,其中风险驾驶样本也可以替换为自动驾驶决策模型的在线学习过程中采集的实车驾驶样本。
需要说明的是,在本发明各自动驾驶决策控制方法的实施例中,各步骤或特征中的部分可以忽略或不执行。为方便说明所划分的硬件或软件功能模块,也并非实现本发明实施例提供的自动驾驶决策控制方法的唯一实现形式。
上文详述了自动驾驶决策控制方法对应的各个实施例,在此基础上,本发明还公开了与上述方法对应的自动驾驶决策控制装置、设备、非易失性存储介质及计算机程序产品。
图7为本发明实施例提供的一种自动驾驶决策控制装置的结构示意图。
如图7所示,本发明实施例提供的自动驾驶决策控制装置包括:
模型更新模块701,用于获取自动驾驶决策模型;利用自动驾驶决策模型控制目标车辆运动,并根据目标车辆与驾驶环境的交互过程对自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,利用第一实车驾驶样本以及根据风险驾驶样本进行样本扩充生成的合成风险驾驶样本对自动驾驶决策模型进行模型参数调整;在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;
数据合成模块702,用于对风险驾驶样本进行样本扩充生成合成风险驾驶样本;
决策控制单元703,用于利用优化后的自动驾驶决策模型进行车辆驾驶控制。
需要说明的是,本发明实施例提供的自动驾驶决策控制装置的各实施方式中,单元的划分仅为一种逻辑功能上的划分,可以采用其他的划分方式。不同单元之间的连接方式可以采用电性、机械或其他连接方式。分离的单元可以位于同一物理位置或分布在多个网络节点上。各单元可以以硬件的形式实现,也可以采用软件功能单元的形式实现。即可以根据实际需要选择本发明实施例提供的各单元的部分或全部并采用相应的连接方式或集成方式来实现本发明实施例方案的目的。
由于装置部分的实施例与方法部分的实施例相互对应,因此装置部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
图8为本发明实施例提供的一种自动驾驶决策控制设备的结构示意图。
如图8所示,本发明实施例提供的自动驾驶决策控制设备包括:
存储器810,用于存储计算机程序811;
处理器820,用于执行计算机程序811,该计算机程序811被处理器820执行时实现如上述任意一项实施例提供的自动驾驶决策控制方法的步骤。
其中,处理器820可以包括一个或多个处理核心,比如3核心处理器、8核心处理器等。处理器820可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器820也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称中央处理器(CentralProcessing Unit,CPU);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器820可以集成有图像处理器(Graphics Processing Unit,GPU),图像处理器用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器820还可以包括人工智能(Artificial Intelligence,AI)处理器,该人工智能处理器用于处理有关机器学习的计算操作。
存储器810可以包括一个或多个非易失性存储介质,该非易失性存储介质可以是非暂态的。存储器810还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器810至少用于存储以下计算机程序811,其中,该计算机程序811被处理器820加载并执行之后,能够实现前述任一实施例公开的自动驾驶决策控制方法中的相关步骤。另外,存储器810所存储的资源还可以包括操作系统812和数据813等,存储方式可以是短暂存储或者永久存储。其中,操作系统812可以为Windows或其他类型的操作系统。数据813可以包括但不限于上述方法所涉及到的数据。
在一些实施例中,自动驾驶决策控制设备还可包括有显示屏830、电源840、通信接口850、输入输出接口860、传感器870以及通信总线880。
本领域技术人员可以理解,图8中示出的结构并不构成对自动驾驶决策控制设备的限定,可以包括比图示更多或更少的组件。
本发明实施例提供的自动驾驶决策控制设备,包括存储器和处理器,处理器在执行存储器存储的程序时,能够实现如上述实施例提供的自动驾驶决策控制方法的步骤,效果同上。
本发明实施例提供一种非易失性存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可以实现如上述任意一项实施例提供的自动驾驶决策控制方法的步骤。
该非易失性存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于本发明实施例提供的非易失性存储介质的介绍请参照上述方法实施例,且其所起到的效果同本发明实施例提供的自动驾驶决策控制方法,本发明在此不做赘述。
本发明实施例提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上述任意一项实施例提供的自动驾驶决策控制方法的步骤。
对于本发明实施例提供的计算机程序产品的介绍请参照上述方法实施例,且其所起到的效果同本发明实施例提供的自动驾驶决策控制方法,本发明在此不做赘述。
以上对本发明所提供的自动驾驶决策控制方法、装置、系统、设备及存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置、设备、非易失性存储介质及计算机程序产品而言,由于其与实施例公开的方法及系统相对应,所以描述的比较简单,相关之处参见方法及系统部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (23)
1.一种自动驾驶决策控制方法,其特征在于,包括:
获取自动驾驶决策模型;
利用所述自动驾驶决策模型控制目标车辆运动,并根据所述目标车辆与驾驶环境的交互过程对所述自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整;
在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;
利用所述优化后的自动驾驶决策模型进行车辆驾驶控制。
2.根据权利要求1所述的自动驾驶决策控制方法,其特征在于,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,包括:
根据车辆驾驶操作类型、车辆运动状态参数、车辆故障信息检测结果、车辆行驶轨迹、驾驶环境数据中至少一项对所述第一实车驾驶样本进行风险分析,提取符合风险评估条件的所述车辆风险驾驶数据作为所述风险驾驶样本。
3.根据权利要求2所述的自动驾驶决策控制方法,其特征在于,根据所述车辆驾驶操作类型对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
若满足急加速操作的频次高于急加速操作数量阈值、急刹车操作的频次高于急刹车操作数量阈值、急转向操作的频次高于急转向操作数量阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
4.根据权利要求2所述的自动驾驶决策控制方法,其特征在于,根据所述车辆运动状态参数对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
若满足车辆运行速率大于第一速率阈值的时间超出第一超速阈值、所述车辆运行速率大于第二速率阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据;
其中,所述第一速率阈值小于所述第二速率阈值。
5.根据权利要求2所述的自动驾驶决策控制方法,其特征在于,根据所述车辆故障信息检测结果对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
访问车载自动诊断接口获取所述车辆故障信息检测结果;
若所述车辆故障信息检测结果中存在车辆故障事件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
6.根据权利要求2所述的自动驾驶决策控制方法,其特征在于,根据所述车辆行驶轨迹对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
通过车载定位模块获取所述车辆行驶轨迹;
检测所述车辆行驶轨迹的轨迹平滑度以及所述车辆行驶轨迹与非行驶区域的重叠情况;
若满足所述车辆行驶轨迹的轨迹平滑度不满足轨迹平滑条件、所述车辆行驶轨迹中位于所述非行驶区域的路径点的数量达到重叠阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
7.根据权利要求2所述的自动驾驶决策控制方法,其特征在于,根据所述驾驶环境数据对所述第一实车驾驶样本进行风险分析以提取所述车辆风险驾驶数据,包括:
获取天气状况参数、道路状况参数、交通流量参数和交通密度参数中至少一种所述驾驶环境数据;
若所述天气状况参数为风险天气类型,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据;
若满足所述道路状况参数中的道路平整度不满足平整度条件、所述道路状况参数中的障碍物指标满足障碍物阈值、所述道路状况参数中存在施工环境参数中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据;
若满足所述交通流量参数大于交通流量阈值、所述交通密度参数大于交通密度阈值中至少一个条件,则确定对应的所述第一实车驾驶样本为所述车辆风险驾驶数据。
8.根据权利要求1所述的自动驾驶决策控制方法,其特征在于,采集所述第一实车驾驶样本,包括:
利用驾驶状态编码模块对采集到的当前时刻的车辆驾驶状态感知数据进行编码得到当前时刻的驾驶状态参数输入所述自动驾驶决策模型;
利用所述自动驾驶决策模型根据当前时刻的驾驶状态参数选取驾驶动作参数,并利用选取的驾驶动作参数驱动车辆运动;
在驱动所述目标车辆运动与驾驶环境交互的过程中,收集环境反馈信息以计算得到环境奖励参数;
利用所述驾驶状态编码模块对采集到的下一时刻的车辆驾驶状态感知数据进行编码得到下一时刻的驾驶状态参数;
以一组当前时刻的驾驶状态参数、驾驶动作参数、环境奖励参数和下一时刻的驾驶状态参数构建一个所述第一实车驾驶样本。
9.根据权利要求8所述的自动驾驶决策控制方法,其特征在于,利用所述驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行编码得到驾驶状态参数,包括:
利用预训练的所述驾驶状态编码模块对采集到的车辆驾驶状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。
10.根据权利要求8所述的自动驾驶决策控制方法,其特征在于,所述驾驶状态编码模块的预训练步骤包括:
获取车辆驾驶数据;
自所述车辆驾驶数据中提取车辆状态信息和环境状态信息以构建多模态状态感知数据,得到驾驶状态数据集;
采用对称卷积神经网络结构搭建驾驶状态编码网络和驾驶状态解码网络;
自所述驾驶状态数据集中抽取编码器训练样本训练所述驾驶状态编码网络和所述驾驶状态解码网络,在训练过程中,将所述编码器训练样本输入所述驾驶状态编码网络以提取所述编码器训练样本的样本数据分布,自所述编码器训练样本的样本数据分布中采样得到样本分布特征编码,将所述样本分布特征编码输入所述驾驶状态解码网络以输出重建样本,以最大化所述重建样本和对应的所述编码器训练样本的似然性以及最小化所述编码器训练样本的潜在表示分布与标准正态分布的相对熵为训练目标,对所述驾驶状态编码网络和所述驾驶状态解码网络进行损失优化训练;
在达到驾驶状态编码模块训练结束条件后,得到所述驾驶状态编码模块。
11.根据权利要求10所述的自动驾驶决策控制方法,其特征在于,所述驾驶状态编码模块的训练损失函数为:
;
其中,为所述驾驶状态编码模块的训练损失函数,为所述驾驶状态编码网络的参数,为所述驾驶状态解码网络的参数,为所述编码器训练样本,为所述编码器训练样本的数量,为所述编码器训练样本的样本数据分布,为标准正态分布,为编码器训练样本的样本数据分布与标准正态分布之间的KL散度,M为自所述标准正态分布中抽取的分布变量的个数,为所述重建样本,为所述编码器训练样本,为二范数计算的平方,为第n个所述编码器训练样本的方差,为第n个所述编码器训练样本的均值。
12.根据权利要求1所述的自动驾驶决策控制方法,其特征在于,对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本,包括:
利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本。
13.根据权利要求12所述的自动驾驶决策控制方法,其特征在于,所述第一实车驾驶样本中的驾驶状态参数的采集步骤包括:
在所述目标车辆与所述驾驶环境的交互过程中,采集所述目标车辆的车辆状态信息和所述驾驶环境的环境状态信息,得到多模态状态感知数据;
利用预训练的驾驶状态编码模块对多模态状态感知数据进行降维处理后输出满足预设分布的驾驶状态参数。
14.根据权利要求12所述的自动驾驶决策控制方法,其特征在于,所述扩散模型的训练步骤包括:
对去噪器网络进行迭代训练,在每次迭代中,自所述风险驾驶样本中抽取去噪训练样本,按照预设的噪声水平调度对所述去噪训练样本添加噪声,得到带噪样本,采用所述去噪器网络对所述带噪样本进行去噪处理,得到去噪样本,利用所述去噪样本与对应的所述去噪训练样本的误差计算所述去噪器网络的差异损失值并进行反向传播以更新所述去噪器网络的模型参数;
当满足去噪器迭代结束条件后,得到所述扩散模型。
15.根据权利要求12所述的自动驾驶决策控制方法,其特征在于,所述扩散模型的训练步骤包括:
初始化去噪器网络的网络参数;
根据所述风险驾驶样本构成的去噪样本数据集计算分布标准差;
自所述去噪样本数据集随机抽取小批量去噪训练样本;
基于对数正态分布设置噪声,根据对去噪训练样本进行加噪处理,得到带噪样本;
根据,采用所述去噪器网络对带噪样本进行去噪处理;其中,为所述去噪器网络输出的第i个所述去噪样本;
根据计算所述去噪样本和对应的所述去噪训练样本之间的差异损失值;
利用反向传播法更新所述去噪器网络的网络参数以减小所述差异损失值;
重复上述步骤直至达到去噪器迭代结束条件,得到所述扩散模型;
其中,为所述去噪训练样本的数量,为第i个所述去噪训练样本,为第i个所述带噪样本,为第i个所述去噪样本,为噪声,为所述去噪样本数据集的分布标准差,为噪声分布标准差,为所述去噪样本和对应的所述去噪训练样本之间的差异损失值,为所述去噪样本,x为所述去噪训练样本,E[·]为差异损失计算,为二范数计算的平方。
16.根据权利要求12所述的自动驾驶决策控制方法,其特征在于,所述利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本,包括:
根据下式设置噪声水平调度和采样系数:
;
;
基于噪声水平采样生成随机噪声样本作为初始输入;
根据和,对于任意第t次迭代过程中的噪声样本,以噪声样本为中心进行随机采样;其中,为随机噪声;
利用所述扩散模型根据计算第t次迭代过程的去噪得分值;
根据计算下一迭代步的噪声样本;其中,若,则;
若,则根据计算第t+1次迭代过程的去噪得分值;
若达到采样结束条件,则确定所述合成风险驾驶样本生成结束,输出所述合成风险驾驶样本;
若未达到所述采样结束条件,则返回所述对于任意第t次迭代过程中的噪声样本,以噪声样本为中心进行随机采样的步骤;
其中,为所述扩散模型的第t次迭代过程的噪声水平调度,为噪声水平调度的控制系数,为最大噪声水平的分布标准差,为最小噪声水平的分布标准差;
为所述扩散模型的第t次迭代过程的采样系数,为预设扩散采样步数,,为噪声采样幅度,为噪声水平下限,为噪声水平上限;
、、均为随机采样系数,且;
为第t次迭代过程的采样噪声,为第t次迭代过程输入的噪声样本,为以噪声样本为中心随机采样得到的采样噪声样本,为从中采样得到的随机噪声,为多维标准正态分布,I为单位矩阵;
为采样噪声样本的去噪得分值,为采样噪声样本输入去噪器模型所得到的去噪输出;
为第t+1次迭代过程输入的噪声样本,为噪声样本的第t+1次迭代过程的噪声水平调度;
为噪声样本的去噪得分值,为噪声样本输入去噪器模型所得到的去噪输出。
17.根据权利要求12所述的自动驾驶决策控制方法,其特征在于,所述利用扩散模型生成与所述风险驾驶样本的样本分布相同的所述合成风险驾驶样本,包括:
在所述自动驾驶决策模型的优化过程中,当达到扩散模型更新条件,则利用当前采集的所述风险驾驶样本更新所述扩散模型的模型参数后,利用更新后的所述扩散模型生成所述合成风险驾驶样本;
其中,所述扩散模型更新条件为所述自动驾驶决策模型经过第一预设迭代次数和/或自上一次更新所述扩散模型的模型参数后所述风险驾驶样本的累计数据量达到第一预设数据量。
18.根据权利要求1所述的自动驾驶决策控制方法,其特征在于,所述自动驾驶决策模型为在自动驾驶仿真系统中预训练的模型;
利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整,包括:
在所述目标车辆与驾驶环境的交互过程中对所述自动驾驶决策模型进行模型迁移微调。
19.一种自动驾驶决策控制系统,其特征在于,包括:云服务器、设于目标车辆的车载边缘服务器和设于所述目标车辆的自动驾驶控制器;
其中,所述车载边缘服务器用于获取自动驾驶决策模型,在利用所述自动驾驶决策模型控制目标车辆运动与驾驶环境的交互过程对所述自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,将所述风险驾驶样本发送至所述云服务器,并接收所述云服务器对所述风险驾驶样本进行样本扩充生成合成风险驾驶样本,利用所述第一实车驾驶样本和所述合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整;在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;利用所述自动驾驶决策模型通过所述自动驾驶控制器控制目标车辆运动。
20.一种自动驾驶决策控制装置,其特征在于,包括:
模型更新模块,用于获取自动驾驶决策模型;利用所述自动驾驶决策模型控制目标车辆运动,并根据所述目标车辆与驾驶环境的交互过程对所述自动驾驶决策模型进行优化,在优化过程中,自采集的第一实车驾驶样本中提取车辆风险驾驶数据作为风险驾驶样本,利用所述第一实车驾驶样本以及根据所述风险驾驶样本进行样本扩充生成的合成风险驾驶样本对所述自动驾驶决策模型进行模型参数调整;在达到模型优化结束条件后,得到优化后的自动驾驶决策模型;
数据合成模块,用于对所述风险驾驶样本进行样本扩充生成所述合成风险驾驶样本;
决策控制单元,用于利用所述优化后的自动驾驶决策模型进行车辆驾驶控制。
21.一种自动驾驶决策控制设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至18任意一项所述自动驾驶决策控制方法的步骤。
22.一种非易失性存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至18任意一项所述自动驾驶决策控制方法的步骤。
23.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现如权利要求1至18任意一项所述自动驾驶决策控制方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410834416.7A CN118393900B (zh) | 2024-06-26 | 2024-06-26 | 自动驾驶决策控制方法、装置、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410834416.7A CN118393900B (zh) | 2024-06-26 | 2024-06-26 | 自动驾驶决策控制方法、装置、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118393900A true CN118393900A (zh) | 2024-07-26 |
CN118393900B CN118393900B (zh) | 2024-08-27 |
Family
ID=92006088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410834416.7A Active CN118393900B (zh) | 2024-06-26 | 2024-06-26 | 自动驾驶决策控制方法、装置、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118393900B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832652A (zh) * | 2020-07-14 | 2020-10-27 | 北京罗克维尔斯科技有限公司 | 决策模型的训练方法及装置 |
CN113467875A (zh) * | 2021-06-29 | 2021-10-01 | 阿波罗智能技术(北京)有限公司 | 训练方法、预测方法、装置、电子设备以及自动驾驶车辆 |
CN116691689A (zh) * | 2023-08-07 | 2023-09-05 | 山东海量信息技术研究院 | 一种车辆控制方法、系统、设备及计算机可读存储介质 |
US20230351200A1 (en) * | 2021-06-01 | 2023-11-02 | Inspur Suzhou Intelligent Technology Co., Ltd. | Autonomous driving control method, apparatus and device, and readable storage medium |
CN117473032A (zh) * | 2023-11-20 | 2024-01-30 | 上海人工智能创新中心 | 基于一致扩散的场景级多智能体轨迹生成方法及装置 |
CN117719535A (zh) * | 2023-11-23 | 2024-03-19 | 同济大学 | 一种人类反馈的自动驾驶车辆交互式自适应决策控制方法 |
-
2024
- 2024-06-26 CN CN202410834416.7A patent/CN118393900B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111832652A (zh) * | 2020-07-14 | 2020-10-27 | 北京罗克维尔斯科技有限公司 | 决策模型的训练方法及装置 |
US20230351200A1 (en) * | 2021-06-01 | 2023-11-02 | Inspur Suzhou Intelligent Technology Co., Ltd. | Autonomous driving control method, apparatus and device, and readable storage medium |
CN113467875A (zh) * | 2021-06-29 | 2021-10-01 | 阿波罗智能技术(北京)有限公司 | 训练方法、预测方法、装置、电子设备以及自动驾驶车辆 |
CN116691689A (zh) * | 2023-08-07 | 2023-09-05 | 山东海量信息技术研究院 | 一种车辆控制方法、系统、设备及计算机可读存储介质 |
CN117473032A (zh) * | 2023-11-20 | 2024-01-30 | 上海人工智能创新中心 | 基于一致扩散的场景级多智能体轨迹生成方法及装置 |
CN117719535A (zh) * | 2023-11-23 | 2024-03-19 | 同济大学 | 一种人类反馈的自动驾驶车辆交互式自适应决策控制方法 |
Non-Patent Citations (1)
Title |
---|
陈垚: "基于滚动时域优化的共享自动驾驶汽车动态调度方法", 《交通运输系统工程与信息》, vol. 22, no. 3, 30 June 2022 (2022-06-30), pages 45 - 54 * |
Also Published As
Publication number | Publication date |
---|---|
CN118393900B (zh) | 2024-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Suo et al. | Trafficsim: Learning to simulate realistic multi-agent behaviors | |
Chen et al. | Interpretable end-to-end urban autonomous driving with latent deep reinforcement learning | |
JP7471397B2 (ja) | 道路シーンにおける多様な長期将来軌道のシミュレーション | |
CN112119406A (zh) | 利用快速更新循环神经网络和慢速更新循环神经网络的深度强化学习 | |
CN112015847A (zh) | 一种障碍物的轨迹预测方法、装置、存储介质及电子设备 | |
CN112241783A (zh) | 具有条件标准化流的机器可学习系统 | |
CN113989330A (zh) | 车辆轨迹预测方法、装置、电子设备和可读存储介质 | |
CN112241756A (zh) | 具有标准化流的机器可学习系统 | |
CN113238970B (zh) | 自动驾驶模型的训练方法、评测方法、控制方法及装置 | |
Naveed et al. | Deep introspective SLAM: Deep reinforcement learning based approach to avoid tracking failure in visual SLAM | |
Khanum et al. | Involvement of deep learning for vision sensor-based autonomous driving control: a review | |
Gupta et al. | Policy-gradient and actor-critic based state representation learning for safe driving of autonomous vehicles | |
CN113330458B (zh) | 使用潜在计划控制代理 | |
Katyal et al. | Occupancy map prediction using generative and fully convolutional networks for vehicle navigation | |
CN118393900B (zh) | 自动驾驶决策控制方法、装置、系统、设备及存储介质 | |
Pak et al. | CarNet: A dynamic autoencoder for learning latent dynamics in autonomous driving tasks | |
CN118393973B (zh) | 一种自动驾驶控制方法、装置、系统、设备及存储介质 | |
CN115937801A (zh) | 基于图卷积的车辆轨迹预测方法及装置 | |
Riboni et al. | Deep autonomous agents comparison for Self-Driving Cars | |
Luo et al. | Reinforcement learning and trustworthy autonomy | |
Persson | Deep Reinforcement Learning for Multi-Agent Path Planning in 2D Cost Map Environments: using Unity Machine Learning Agents toolkit | |
Leong | Bridging the Gap Between Modular and End-to-end Autonomous Driving Systems | |
Liu et al. | A Decision-Making GPT Model Augmented with Entropy Regularization for Autonomous Vehicles | |
Gao et al. | Web intelligence-enhanced unmanned aerial vehicle target search model based on reinforcement learning for cooperative tasks | |
Fennessy | Autonomous vehicle end-to-end reinforcement learning model and the effects of image segmentation on model quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |