CN114495486A - 一种基于层次强化学习的微观交通流预测系统及方法 - Google Patents
一种基于层次强化学习的微观交通流预测系统及方法 Download PDFInfo
- Publication number
- CN114495486A CN114495486A CN202111622593.1A CN202111622593A CN114495486A CN 114495486 A CN114495486 A CN 114495486A CN 202111622593 A CN202111622593 A CN 202111622593A CN 114495486 A CN114495486 A CN 114495486A
- Authority
- CN
- China
- Prior art keywords
- vehicle
- reinforcement learning
- driving style
- prediction module
- traffic flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 76
- 238000000034 method Methods 0.000 title claims description 36
- 230000006399 behavior Effects 0.000 claims abstract description 85
- 230000001133 acceleration Effects 0.000 claims abstract description 34
- 230000008859 change Effects 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims description 48
- 239000011159 matrix material Substances 0.000 claims description 36
- 239000004576 sand Substances 0.000 claims description 18
- 230000009471 action Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000033001 locomotion Effects 0.000 claims description 8
- 238000009826 distribution Methods 0.000 abstract description 9
- 238000005457 optimization Methods 0.000 description 15
- 238000004088 simulation Methods 0.000 description 15
- 238000004458 analytical method Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 9
- 230000003068 static effect Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
- G08G1/0129—Traffic data processing for creating historical data or processing based on historical data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- General Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Tourism & Hospitality (AREA)
- Biophysics (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明公开了一种基于层次强化学习的微观交通流预测系统,其包括:车辆行驶风格层次预测模块,用于根据目标范围内每辆车辆的行驶状况信息集合采用强化学习模型评估车辆的行驶风格,获得车辆的行驶风格属性,所述车辆的行驶风格属性用于评价车辆行驶平稳或激进的程度;车辆驾驶行为层次预测模块,用于根据车辆行驶风格层次预测模块输出的含有车辆的行驶风格属性的结构化车辆信息,采用强化学习模型,预测特定车辆的加速比、以及变道到各车道的变道概率。本发明将复杂的交通流预测问题分解为对驾驶员及车辆特性分布的预测及对车辆行为的预测这两个层次,实现精准预测特定路段和时段的交通流预测。
Description
技术领域
本发明属于智能交通领域,更具体地,涉及一种基于层次强化学习的微观交通流预测方法及系统。
背景技术
交通流预测,通常可以分为宏观和微观两种类型。宏观模型将交通流视为由大量车构成的连续流体,研究车辆集体的综合平均行为如流量、流速等,其单个车辆的个体特性并不显式出现。微观方法则是集中于单个车辆在相互作用下的个体行为描述,通过跟车模型、变道模型等预测车辆行为,给出随时间变化的车辆在行驶道路中的位置等信息。随着自动驾驶、智能信号灯决策等应用场景的快速发展,对交通流预测的精准程度提出了更高的要求。微观模型相对宏观模型能够给出更丰富的信息,有利于智能交通和自动驾驶等应用更准确的判断交通路况。
然而,传统微观交通流预测方法通过对车辆行为进行动力学建模,往往不考虑车辆行驶风格的差异,或简单的设定车辆行驶风格为某种预定分布,通过调整模型公式的参数拟合真实路况。但不同国家和城市,乃至不同街区的车辆和驾驶员加速风格都存在差异,难以用统一的分布或参数精准预测。
人工智能和基于数据驱动的机器学习方法的进展,为更精准的微观交通流预测提供了新的可能。通过深度强化学习,使用本地真实交通流数据在模拟器中进行训练,得到模型可用来进行更符合真实交通流的预测。但现有深度强化学习方法通常简化了问题,一方面,使用单一模型,既要模拟车辆运动行为(如跟车、变道),又要体现不同车辆行驶风格(如驾驶风格激进的车辆会更多的变道超车、车辆性能好的车辆会更快的加减速等),这增大了机器学习算法训练难度,难以准确预测车辆行为;另一方面,模拟器简化了车辆运动行为模拟,如对于加减速或变道只是瞬间修改车辆速度或移动位置,而不考虑加减速和变道的过程,因而也难以准确还原实际路况。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种基于层次强化学习的微观交通流预测系统,其目的在于基于数据驱动机器学习的方法,将复杂的交通流预测问题分解为(1)车辆行驶风格的学习及(2)车辆安全驾驶行为的学习这两个不同层次,使用多种来源的真实路况数据预处理后,初始化交通模拟器,基于交通模拟器训练车辆行驶风格模型以及车辆安全驾驶行为模型,通过上述两个层次模型的结合,使得车辆安全驾驶能够更好的学习到车辆真实的跟车和变道等安全驾驶行为,同时,使得路口的车辆流出符合真实交通流,从而实现精准预测特定路段和时段的交通流,由此解决交通流精准预测的问题的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种基于层次强化学习的微观交通流预测系统,其包括:车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块;
车辆行驶风格层次预测模块,用于根据目标范围内每辆车辆的行驶状况信息集合采用强化学习模型评估车辆的行驶风格,获得车辆的行驶风格属性,所述车辆的行驶风格属性用于评价车辆行驶平稳或激进的程度;
车辆驾驶行为层次预测模块,用于根据车辆行驶风格层次预测模块输出的含有车辆的行驶风格属性的结构化车辆信息,采用强化学习模型,预测特定车辆的加速比、以及变道到各车道的变道概率。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述加速比用于表征该车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度和趋势。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述车辆行驶风格层次预测模块采用的强化学习模型和所述辆驾驶行为模块采用的强化学习模型分别为DQN模型、DDPG模型、或A3C模型。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述目标范围内每辆车辆的行驶状况信息集合表示为目标范围内车辆位置矩阵Wv×Lv×Cv;所述车辆位置矩阵Wv×Lv×Cv,用于存储车辆位置及车辆属性信息,其中Wv表示车道,Lv表示车道内的位置单元,Cv为车辆属性向量,车辆属性向量包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、和/或历史位置信息序列,例如用连续K个时刻该位置的车辆属性来体现K个观测时间周期的历史位置信息序列。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述车辆行驶风格层次预测模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量,状态定义为车辆位置矩阵;
动作空间定义为车辆行驶风格属性n,n为从1到N的离散值,用来描述车辆行驶的平稳程度;
输出为车辆位置矩阵,其车辆属性向量含有为当前时刻的路上车辆对应的车辆行驶风格属性n。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述含有车辆的行驶风格属性的结构化车辆信息,可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息,亦可表示为待预测范围内车辆位置矩阵Wv×Lv×Cv ’;所述车辆位置矩阵Wv×Lv×Cv ’,用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息,可表示为Wv×Lv×Cv ’,其中Wv表示车道,Lv表示车道内的位置单元,Cv ’为车辆属性向量,车辆属性向量包括车辆的行驶风格属性。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述辆驾驶行为模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量;优选以特定车辆为中心,取其周围预设范围内的结构化车辆信息定义为状态;
动作空间为加速比和变道概率组成的二元组。
优选地,所述基于层次强化学习的微观交通流预测系统,其按照如下方法训练:重复以下步骤(1)和(2)直至微观交通流预测系统收敛;
(1)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛;
(2)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛。
优选地,所述基于层次强化学习的微观交通流预测系统,其所述系统训练采用奖励函数为每一观察时刻离开目标范围的车辆数量的预测值与真实值的累计误差。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
通过数据驱动机器学习的方法,将复杂的交通流预测问题分解为对驾驶员及车辆特性分布的预测及对车辆行为的预测这两个层次,使用多种来源的真实路况数据联合训练两个模型,实现精准预测特定路段和时段的交通流预测,可支持实时交通决策和自动驾驶等需要精准预测的应用场景。本发明将复杂微观交通流预测问题解分解为不同层次的两个相对单一问题即车辆行驶风格判断和车辆驾驶行为预测的组合,解决了微观交通流预测复杂导致动作空间大、状态稀疏等影响深度强化学习取得良好训练效果的问题,从而实现更快的训练速度和更好的训练效果。
附图说明
图1是本发明提供的基于层次强化学习的微观交通流预测系统结构示意图;
图2是本发明实施例提供的结构化
图3是本发明实施例2提供的基于层次强化学习的微观交通流预测系统预测范围示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于层次强化学习的微观交通流预测系统,如图1所示,包括:车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块;
车辆行驶风格层次预测模块,用于根据目标范围内每辆车辆的行驶状况信息集合采用强化学习模型评估车辆的行驶风格,获得车辆的行驶风格属性,所述车辆的行驶风格属性用于评价车辆行驶平稳或激进的程度;
所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据,可表示为目标范围内车辆位置矩阵Wv×Lv×Cv;所述车辆位置矩阵Wv×Lv×Cv,用于存储车辆位置及车辆属性信息,其中Wv表示车道,Lv表示车道内的位置单元,Cv为车辆属性向量,车辆属性向量包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、和/或历史位置信息序列,例如用连续K个时刻该位置的车辆属性来体现K个观测时间周期的历史位置信息序列。
所述车辆行驶风格层次预测模块采用的强化学习模型,可采用DQN模型、DDPG模型、或A3C模型等。
其中,状态空间为结构化车辆路况信息构成的张量(Tensor),状态定义为车辆位置矩阵。
动作空间定义为车辆行驶风格属性n,n为从1到N的离散值,用来描述车辆行驶的平稳程度。
模型输出也是一个车辆位置矩阵,其车辆属性向量含有为当前时刻的路上车辆对应的车辆行驶风格属性n。
车辆驾驶行为层次预测模块,用于根据车辆行驶风格层次预测模块输出的含有车辆的行驶风格属性的结构化车辆信息,采用强化学习模型,预测特定车辆的加速比、以及变道到各车道的变道概率;
所述含有车辆的行驶风格属性的结构化车辆信息,可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息,亦可表示为带预测范围内车辆位置矩阵Wv×Lv×Cv ’;所述车辆位置矩阵Wv×Lv×Cv ’,用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息,可表示为Wv×Lv×Cv ’,其中Wv表示车道,Lv表示车道内的位置单元,Cv ’为车辆属性向量,车辆属性向量包括车辆的行驶风格属性,优选包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、历史位置信息序列。
加速比用于表征该车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度和趋势;可采用正负号表示趋势,取值为负值时表示车辆减速,如-5%即车辆减速到当前车速的95%。
所述辆驾驶行为模块采用的强化学习模型,可采用DQN模型、DDP、或A3C模型等。
其中,状态空间为结构化车辆路况信息构成的张量;为降低算法处理所需数据,可缩小观察范围,从路况矩阵中获取的特定车辆周围的数据,即以特定车辆为中心,取其周围预设范围内的结构化车辆信息定义为状态。
动作空间为加速比和变道概率组成的二元组。
所述基于层次强化学习的微观交通流预测系统的训练数据,按照以下方法之一或组合获取:
1)观察获取的目标范围内一段时间的结构化车辆信息训练数据;
2)采集模拟器中根据动作不断产生的模拟结果的结构化车辆信息训练数据。
方法1)获取的真实采集的车辆结构化信息作为正确标注数据(Ground Truth),用于计算奖励(Reward);所有训练用的状态(State)都是不断根据动作(Action)从模拟器中获取。
所述基于层次强化学习的微观交通流预测系统按照如下方法训练:重复以下步骤(1)和(2)直至微观交通流预测系统收敛;
(1)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛;
(2)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛;
采用奖励函数为每一观察时刻离开目标范围的车辆数量累计误差,采用此奖励函数即目标是希望在每一时刻,与正确标注数据的离开目标范围车辆数保持一致。这里的算法预测的离开目标范围车辆数可通过车辆安全驾驶行为模型调用交通模拟器返回的路况信息统计获得,正确标注数据的离开目标范围车辆数由采集数据获取。
可采用ε-greedy法、梯度下降法加速训练使强化学习模型收敛。
车辆安全驾驶行为模型学习相对通用的车辆如何与路网、信号灯及其它车辆进行安全的互动,包括加减速或变道等,而车辆行驶风格模型则负责观察车辆的历史行为并给出车辆行驶风格评级,从而使得车辆安全驾驶行为能够根据不同车辆的评级调整行驶行为,实现对由各种不同的车辆和驾驶员构成的复杂真实交通流的更准确模拟。通过上述两个层次模型的结合,使得车辆安全驾驶能够更好的学习到车辆真实的跟车和变道等安全驾驶行为,同时,使得路口的车辆流出符合真实交通流,从而实现精准预测特定路段和时段的交通流。这里基于已有模拟器特点将交通流预测问题分为车辆行驶风格、以及车辆安全驾驶行为这两个层次,但不妨碍根据模拟器特点将交通流预测问题进行其它不同层次的划分。
以下为实施例:
实施例1
一种基于层次强化学习的微观交通流预测系统,包括:车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块;
车辆行驶风格层次预测模块,用于根据目标范围内每辆车辆的行驶状况信息集合采用强化学习模型评估车辆的行驶风格,获得车辆的行驶风格属性,所述车辆的行驶风格属性用于评价车辆行驶平稳或激进的程度;
所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据,表示为目标范围内车辆位置矩阵Wv×Lv×Cv;所述车辆位置矩阵Wv×Lv×Cv,用于存储车辆位置及车辆属性信息,其中Wv表示车道,Lv表示车道内的位置单元,Cv为车辆属性向量,车辆属性向量包括车辆速度。
结构化车辆信息,如图2所示可以采用路口摄像头、毫米波雷达、地磁以及浮动车等设备采集预取区域内的实时机动车和非机动车等路况信息经过智能分析和数据融合后输出为结构化的路况信息获取。所述预测区域内的实时机动车和非机动车等路况信息包括结构非结构化数据和非结构化数据;所述结构化数据包括机动车、非机动车和行人的位置、速度、通过数量;所述非结构化数据包括道路摄像头、雷达、地磁和浮动车信息等获取视频流等。对非结构化数据需要采用智能分析方法整理为结构化数据后使用,所述智能分析方法包括:深度目标检测、分类、追踪等算法,获得赋予用于唯一识别的车辆标识作为机动车、非机动车标识;所述数据融合,即将所述预测区域内的实时机动车和非机动车等路况信息中的结构化信息和采用智能分析方法获取的结构化数据,基于时间和空间关联关系,融合输出为沙盘系统可用的结构化数据。
为准确预测交通流,训练模型时需要尽可能获取车辆的连续位置信息。目前常用的交通采集设备中,可使用的采集途径包括但不限于路口摄像头、毫米波雷达、地磁以及浮动车等,采集到的数据有不同优缺点,例如,摄像头可通过视觉特征更准确的采集机动车与非机动车及行人信息,但观察范围相对较小,主要在路口区域;毫米波雷达可实现路段中的较远距离追踪,但缺乏视觉信息精度相对略低且通常难以准确检测非机动车及行人;地磁覆盖区域最小,覆盖一个车道的某个点位,实现对车辆计数与车辆速度的测量,作为道路车辆情况的基础数据;浮动车可全程持续追踪车辆,但往往数量和采样频率不足。
通过不同的传感器采集尽可能全面准确的路况数据,不同的传感器的感知范围和适用场景不同,将不同来源的数据通过时空关系融合,即通过提前标定等方法,将不同传感器的空间对齐,在特定时间范围内出现在相同区域内的车辆被认为是同一车辆,考虑到传感器可能有误差,如漏报或误报,因此,通过多个传感器的数据和地磁计数等交叉比对,降低误差,以进一步提高训练和测试数据的质量。最终生成特定格式的、适合训练和测试的数据。
沙盘系统应具备静态环境模拟和动态交通模拟功能,复现现实世界中的路网、红绿灯等,对路网中的机动车、非机动车和行人行为进行模拟,还原真实世界中的交通状况,作为训练和分析的环境支撑。这里,可以自行开发交通模拟器,也可使用已有的交通模拟器,包括但不限于SUMO,AIMSUN,VISSIM,TRANSIMS等。
所述车辆行驶风格层次预测模块采用的强化学习模型,可采用DQN模型、DDPG模型、A3C模型等。
其中,状态空间为结构化车辆路况信息构成的张量(Tensor),状态定义为车辆位置矩阵。
通常可以用Wv×Lv×Cv表示,其中Wv×Lv的2维空间用于映射真实道路上的车辆位置,例如,考虑计算量及聚焦在包含交叉口各车道上车辆的位置信息,对交叉口各车道停车线以外x米内每隔y米进行离散化处理,得到x/y个元胞,如果元胞内有车,对应位置值为1,如果元胞内没有车,对应位置值为0,这样就得到车辆位置信息;Cv维度用于保存车辆结构化信息包括如车辆速度等,或历史信息如连续多个时间间隔的车辆结构化信息。例如,可在每个有车位置信息上扩展更多信息如车辆平均行驶速度、加速度、减速度、跟车距离等。矩阵维数越大,交通信息刻画就越准确;再将连续T个时刻获取的当前车辆位置矩阵作为当前状态s,采用滑动窗口方式,每次取连续T_windows个状态,其中不仅包含了车辆位置静态信息,而且还包含了交通动态变化的信息,从而更加准确刻画出交通状态。
动作空间定义为车辆行驶风格属性n,n为从1到N的离散值。模型输出也是一个车辆矩阵Wv×Lv×Cv ’,Cv ’为当前时刻的路上车辆行驶风格属性的车辆结构信息,用来描述车辆行驶的平稳程度。
车辆驾驶行为层次预测模块,用于根据含有车辆的行驶风格属性的结构化车辆信息,采用强化学习模型,预测特定车辆的加速比、以及变道到各车道的变道概率;
所述含有车辆的行驶风格属性的结构化车辆信息,可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息,亦可表示为带预测范围内车辆位置矩阵Wv×Lv×Cv ’;所述车辆位置矩阵Wv×Lv×Cv ’,用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息,可表示为Wv×Lv×Cv ’,其中Wv表示车道,Lv表示车道内的位置单元,Cv ’为车辆属性向量,车辆属性向量包括用于历史位置信息序列、以及车辆的行驶风格属性。
加速比用于表征该车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度和趋势;可采用正负号表示趋势,取值为负值时表示车辆减速,如-5%即车辆减速到当前车速的95%。
所述辆驾驶行为模块采用的强化学习模型,可采用DQN模型、A3C模型等。
其中,状态空间为结构化车辆路况信息构成的张量;为降低算法处理所需数据,可缩小观察范围,从路况矩阵中获取的特定车辆周围的数据,即以特定车辆为中心,取其周围预设范围内的结构化车辆信息定义为状态。本实施例给出其前后左右space_length/2范围内的车辆位置,形成一个space_length*space_length*info的状态矩阵。如处于边界位置,例如在最右或最左车道,将旁边车道补全为全1,表示不可变换到该车道。
动作空间为加速比和变道概率组成的二元组。本实施例加速比才用1至M的离散值表征车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度;具体为:输出是预先分级分为10级的加速比,每级为1*M%,范围为[-5*M%,5*M%]。本实施例采用变道概率为3个1到L的离散值,分别表示保持车道、左转或右转的分级概率,具体为:取范围为(0,1),每级0.1,共分10级,每级分别为[保持概率*(15-L)/10,变道概率*(L+5)/10],然后取3个概率中最大概率作为行动值来执行。
首先,城市交通沙盘完成静态环境模拟,包括通过高精度地图、实地测量、调研等方法,生成配置信息,从而在城市交通沙盘中构建真实世界中的路网、红绿灯设置、相位、周期、基本交通规则等,实现静态环境的现实再现,满足在其中进行动态交通模拟的需求,这些功能在已有交通模拟器中可通过用户界面或配置文件实现。
然后,动态交通模拟输入结构化路况信息作为初始信息,提供用户编程接口供外部模块调用,在静态环境的约束下(在路网区域内,符合交通规则和信号灯规则),可模拟车辆在道路中的位置变化,实现对交通动态路况变化的模拟。这里的动态模拟可以按照固定时间间隔进行步进,从而可以通过模拟器模拟指定时间范围的连续路况变化,为训练和分析提供基础环境和数据。
经过上述处理,训练代码就可以通过调用用户编程接口,以步进的方式实现模拟的路况变化,从而完成后续的训练和评测。
所述基于层次强化学习的微观交通流预测系统的训练数据,按照以下方法之一或组合获取:
1)观察获取的目标范围内一段时间的结构化车辆信息训练数据;
2)采集模拟器中根据动作不断产生的模拟结果的结构化车辆信息训练数据。
方法1)获取的真实采集的车辆结构化信息作为正确标注数据(GroundTruth),用于计算奖励(Reward);所有训练用的状态(State)都是不断根据动作(Action)从模拟器中获取。
所述基于层次强化学习的微观交通流预测系统按照如下方法训练:重复以下步骤(1)和(2)直至微观交通流预测系统收敛;
(1)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛;
(2)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛;
上述训练过程中,在车辆行驶风格层次预测模块训练的时候需要使用车辆驾驶行为层次预测模块完成优化,同样,车辆驾驶行为层次预测模块训练时也需要使用车辆行驶风格层次预测模块的输出。因此,采用交替训练方法,即首先随机分配车辆行驶风格属性n,完成随机情况下的车辆行驶风格层次预测模块的训练,然后使用这个训练好的车辆行驶风格层次预测模块,完成车辆驾驶行为层次预测模块的训练;之后,再用车辆驾驶行为层次预测模块输出的结果,进一步训练车辆行驶风格层次预测模块,得到更好的车辆行驶风格层次预测模块,再用于车辆驾驶行为层次预测模块的进一步训练。如此交替训练车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块,完成模型优化。每个模型训练时,都以该模型自身收敛为目标,反复训练到整体的奖励值变化趋于稳定的收敛。
基于上述城市交通沙盘,通过层次深度强化学习,可训练车辆特性和驾驶风格网络和车辆安全驾驶网络,在每一次迭代中,从模拟器中获取路况信息,预处理为两种网络所需的不同输入数据,首先,完成车辆特性和驾驶风格网络的计算,将车辆特性和驾驶风格网络的输出作为车辆安全驾驶行为网络输出的超参数,完成车辆特性和驾驶风格的设置;而在特定路况中,已经设置好车辆特性和驾驶风格参数后,安全驾驶行为网络完成车辆行为意图的输出,通过模拟器接口调整模拟器中车辆的位置,从而模拟车辆的移动,更新模拟器中的路况。路况信息可以用于计算损失函数和奖励,从而根据优化目标进行优化。优化目标是使得车辆安全驾驶网络能够真实学习到车辆真实的跟车和变道等安全驾驶行为,同时,使得路口的车辆流出符合真实交通流。完成上述过程并更新网络参数,开始下一次迭代,不断重复上述过程,直到完成两个网络的训练。
采用奖励函数为每一观察时刻离开目标范围的车辆数量累计误差,采用此奖励函数即目标是希望在每一时刻,与正确标注数据的离开目标范围车辆数保持一致。这里的算法预测的离开目标范围车辆数可通过车辆安全驾驶行为模型调用交通模拟器返回的路况信息统计获得,正确标注数据的离开目标范围车辆数由采集数据获取。
可采用ε-greedy法、梯度下降法加速训练使强化学习模型收敛。
具体训练步骤如下:
A.对于辆行驶风格模块:
输入连续的完整路况信息,应包括某车辆一段时间在路上的状态,如同算法观察一段时间车辆的行为,可以以较高可能得到由于车辆特性不同和驾驶风格不同而使得车辆加速更快或变道更频繁的可能性,即车辆行驶风格属性,表征这种可能。
i.这里,连续完整的路况信息是指一段连续时间内,观察到特定观察范围的道路上的车辆,能区分不同车辆以实现连续的车辆行驶信息。采用车辆位置矩阵Wv×Lv×Cv来表示,其中道路格式化为长宽的矩阵,存在车辆的位置置位1,同时,也可通过Cv扩展为车速等其它属性;也可以通过Cv扩展历史信息,本实施例同时使用连续8个路况信息来体现一段时间,这取决于后续训练用的神经网络对输入数据形式的要求。输出结果为道路上车辆的分级。模型输出也是一个矩阵,为当前时刻的路上车辆对应的分级N,表示不同车辆具有的不同特性和驾驶风格。
ii.基本思路,通过深度学习和强化学习,构建基于CNN\RNN的神经网络,通过输入数据,提取有效特征,这里,可以使用多层CNN,通过上面channel形式将历史数据的连续路况信息,也可以CNN+LSTM来读取连续多个时刻的多个车辆位置矩阵;其次,训练需要确定优化目标,这里,优化目标可以是流出车流速与真实历史数据接近;其中,需要使用车辆安全驾驶模型完成车辆在模拟器中的行驶。该输出结果会传递给车辆安全驾驶模型,在模拟器中基于车辆安全驾驶行为模型不断步进,模拟继续行驶出该道路,统计流出车速,以与真实流出进行比对,反复进行,完成优化。
B.对于车辆驾驶行为层次预测模块:
输入车辆周围的路况信息,输出车辆根据周围的路况决定保持或变道的可能性。这里,车辆安全驾驶模型还有一个输入,即某辆车的车辆行驶风格属性n,通过n来调节其加速或变道等的可能性。
i.将交通路况作为输入数据,并从路况数据提取每辆车周围一定范围的路况信息作为车辆安全驾驶行为网络输入数据,输入数据可使用历史路况数据,也可使用按特定分布指定达到的模拟路况数据,如指定车辆达到上游路口符合泊松分布或二项分布。给出特定车辆周围的数据,以特定车辆为中心,给出其前后左右space_length/2范围内的车辆位置,形成一个space_length*space_length*info的状态矩阵,方法同上。如处于边界位置,例如在最右或最左车道,将旁边车道补全为全1,表示不可变换到该车道。训练车辆在不同车辆行驶风格下的车辆驾驶行为层次预测模块,实现将特定车辆周围路况信息输入模型后,模型能输出该车辆后续的安全的驾驶行为意图,包括加减速的目标速度、保持车道或向左、向右变道等,对于当时道路上每辆车辆,按车辆特性和驾驶风格输出的级别作为车辆安全驾驶行为模型输出的超参数相乘,得到加减速或变道的值,由模拟器根据驾驶行为意图完成最终的车辆行为,更新路况数据,从而支持训练和预测。
ii.通过深度学习和强化学习,构建基于CNN\RNN的神经网络,通过输入数据,提取有效特征,这里,可以使用多层CNN,通过上面channel历史数据方式输入连续路况信息,也可以CNN+LSTM来读取连续多个时刻的多个矩阵;其次,训练需要确定优化目标,这里的优化目标是使得车辆行为与真实车辆行为尽可能一致,这个优化目标可根据采集数据情况设置,考虑真实场景中可能监测范围有限,存在无法采集到实际路况的区域,因此,可采用优化目标为车辆安全通过用时最短,以简化对中间过程groundtruth的要求;如采集范围足够,也可采用车辆位置差异最小等优化目标。其中,需要使用车辆特性及驾驶风格模型给定每辆车的归一化分级N,并通过模拟器完成。
这里,可以看到,在辆行驶风格模块训练的时候需要使用车辆驾驶行为层次预测模块完成优化,同样,在车辆驾驶行为层次预测模块训练时也需要辆行驶风格模块的输出作为输入。因此,训练时,采用交替训练方法,即首先随机分配N,完成各种情况下的车辆驾驶行为层次预测模块的训练,然后使用这个训练好的车辆驾驶行为层次预测模块,完成辆行驶风格模块的训练;之后,再用辆行驶风格模块输出的n,进一步训练车辆驾驶行为层次预测模块,得到更好的车辆驾驶行为层次预测模块,再用于辆行驶风格模块的进一步训练。
得到两个模型后,即可将格式化路况信息输入,通过辆行驶风格模块获得当前道路上所有车辆的不同分级n,每辆车的安全驾驶模型通过n来调节不同车辆行为。首先,短时连续的特定路段路况信息通过相同的预处理,作为车辆特性和驾驶风格模型的输入,辆行驶风格模块输出当前时刻当前路段中车辆特性和驾驶风格的分布;车辆特性和驾驶风格的分布作为超参数,完成对当前时刻当前路段中车辆特性和驾驶风格的设置;安全驾驶行为模型根据每辆车周围路况的数据,生成每辆车的驾驶行为意愿(如加减速的目标速度和向左、向右或保持),由模拟器完成车辆的实际运动和位置变化。通过初始状态输入,获得下一步的路况状态,然后将下一步的路况状态作为输入,再获得更下一步的路况状态,如此反复循环,可预测此后一段时间的路况。
实施例2应用实施例1提供的基于层次强化学习的微观交通流预测系统进行沙盘模拟
步骤1:首通过交通沙盘复现静态信息。调度路口及其所有相关联路口的路网结构,可采取已有地图、施工工程图或现场测量的方式获取,路网结构包括如各路口的车道宽度、路口长度、停车线位置、扩口长度等参数,如通过OpenStreetMap选择地图上需要的特定区域,将该区域的地图数据导出到文件中,为JOSM格式,可在OpenStreetMap地图编辑器中结合施工工程图或现场测量结果对地图数据进行调整,同时,获取每个交叉口的id。将调整过的地图数据文件用SUMO提供的工具转换为SUMO可用的路网数据,并设定交叉口信号灯相位设置,以及每条道路的车辆限速等交通控制相关信息,完成SUMO中静态信息的复现。
步骤2:获取包括待调度路口的实时路况信息。路况数据采集分析子系统负责采集交叉口的实时机动车和非机动车等路况信息,经过智能分析和数据融合后输出为结构化的路况信息供沙盘建立训练和评测环境。为满足智能分析和数据融合研发验证需求,在试点区域部署时,会采用部分冗余采集方式,以便评估不同采集方式数据融合效果及对训练和评测的影响。本实施例采用雷达和视频等多种来源数据。调控路口周围的边界路口也需采集,以如图3所示,4个调控路口和8个关联的边界路口为例,应分别从调控路口、边界路口和道路安装的相应的采集设备采集相关信息。
结构化车辆信息,采用路口摄像头和毫米波雷达采集预取区域内的实时机动车和非机动车等路况信息经过智能分析和数据融合后输出为结构化的路况信息获取,所述预测区域内的实时机动车和非机动车等路况信息包括结构非结构化数据和非结构化数据;所述结构化数据包括机动车、非机动车和行人的位置、速度、通过数量;所述非结构化数据包括道路摄像头、雷达、地磁和浮动车信息等获取视频流等;对非结构化数据采用智能分析方法整理为结构化数据,所述智能分析方法包括:深度目标检测、分类、追踪等算法,获得赋予用于唯一识别的车辆标识作为机动车、非机动车标识;所述数据融合,即将所述预测区域内的实时机动车和非机动车等路况信息中的结构化信息和采用智能分析方法获取的结构化数据,基于时间和空间关联关系,融合输出为模型训练可用的结构化数据。
步骤3:根据步骤2中获取的实时路况信息对模拟沙盘进行初始化;根据步骤2可获得车辆在某个具体时刻在沙盘中的位置的结构化信息,可通过SUMO配置文件或用户编程接口将结构化数据中车辆信息设置到模拟器中,从而完成车辆在沙盘中的初始化。
步骤4:基于建立的模拟沙盘,按照实施例1提供的基于层次强化学习的围观交通流预测系统,训练车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块。部分交通模拟器本身提供跟车、变道模型(传统方法),也可用于模拟车辆行为,但因其不够精准,这里,不使用交通模拟器提供的跟车、变道模型,而只是用交通模拟器SUMO提供的路网、交通状态模拟功能,以及通过接口设定路网中的车辆位置等功能。
步骤5:通过步骤4训练好的基于层次强化学习的围观交通流预测系统实现对交通流的预测。首先,短时连续的特定路段路况信息通过相同的预处理,作为车辆行驶风格层次预测模块的输入,车辆行驶风格层次预测模块输出当前时刻当前路段中车辆特性和驾驶风格的分布;车辆行驶风格层次预测模块分布完成对当前时刻当前路段中车辆特性和驾驶风格的设置;车辆驾驶行为层次预测模块根据每辆车周围路况的数据,生成每辆车的驾驶行为意愿(如加减速的目标速度和向左、向右或保持),结合车辆特性和驾驶风格参数的调整,由模拟器完成车辆的实际位置变化。通过初始状态输入,可以获得下一步的路况状态,然后将下一步的路况状态作为输入,再获得更下一步的路况状态,如此反复循环,可不断步进的给出车辆在模拟器中的位置,从而实现预测此后一段时间的路况。
实施例3应用实施例1提供的基于层次强化学习的微观交通流预测系统进行沙盘模拟
本实施例与实施例2的区别仅在于:
步骤2考虑部分道路或区域雷达设备难以安装,可考虑使用无人机航拍方法进行数据采集一定时间范围内的连续数据,此时需考虑多架无人机分别在调控路口和边界路口进行车辆数据采集,同时考虑时间同步问题。
结构化信息时,需针对无人机俯拍视角重新训练智能方法实现非结构化数据的结构化。
基于层次强化学习的微观交通流预测系统,采用奖励函数为每一观察时刻离开目标范围的车辆数量累计误差,采用此奖励函数即目标是希望在每一时刻,与正确标注数据的离开目标范围车辆数保持一致。因无人机俯拍数据采集范围较大,可在观察区域设置多个离开线进行统计,进一步增强算法准确性。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于层次强化学习的微观交通流预测系统,其特征在于,包括:车辆行驶风格层次预测模块和车辆驾驶行为层次预测模块;
车辆行驶风格层次预测模块,用于根据目标范围内每辆车辆的行驶状况信息集合采用强化学习模型评估车辆的行驶风格,获得车辆的行驶风格属性,所述车辆的行驶风格属性用于评价车辆行驶平稳或激进的程度;
车辆驾驶行为层次预测模块,用于根据车辆行驶风格层次预测模块输出的含有车辆的行驶风格属性的结构化车辆信息,采用强化学习模型,预测特定车辆的加速比、以及变道到各车道的变道概率。
2.如权利要求1所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述加速比用于表征该车辆在预测时刻的瞬时车速相对于当前时刻的瞬时车速变化程度和趋势。
3.如权利要求1所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述目标范围内每辆车辆的行驶状况信息集合为沙盘系统可用的结构化车辆数据。
4.如权利要求1所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述车辆行驶风格层次预测模块采用的强化学习模型和所述辆驾驶行为模块采用的强化学习模型分别为DQN模型、DDPG模型、或A3C模型。
5.如权利要求1所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述目标范围内每辆车辆的行驶状况信息集合表示为目标范围内车辆位置矩阵Wv×Lv×Cv;所述车辆位置矩阵Wv×Lv×Cv,用于存储车辆位置及车辆属性信息,其中Wv表示车道,Lv表示车道内的位置单元,Cv为车辆属性向量,车辆属性向量包括车辆速度、车辆平均行驶速度、加速度、减速度、跟车距离、用于唯一标记车辆的车辆标识符、和/或历史位置信息序列,例如用连续K个时刻该位置的车辆属性来体现K个观测时间周期的历史位置信息序列。
6.如权利要求5所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述车辆行驶风格层次预测模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量,状态定义为车辆位置矩阵;
动作空间定义为车辆行驶风格属性n,n为从1到N的离散值,用来描述车辆行驶的平稳程度;
输出为车辆位置矩阵,其车辆属性向量含有为当前时刻的路上车辆对应的车辆行驶风格属性n。
7.如权利要求6所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述含有车辆的行驶风格属性的结构化车辆信息,可为所述车辆行驶风格层次预测模块采用的目标范围内每辆车辆的行驶状况信息集合叠加车辆的行驶风格属性形成的结构化车辆信息,亦可表示为待预测范围内车辆位置矩阵Wv×Lv×Cv’;所述车辆位置矩阵Wv×Lv×Cv’,用于存储车辆位置及含有车辆的行驶风格属性的车辆属性信息,可表示为Wv×Lv×Cv’,其中Wv表示车道,Lv表示车道内的位置单元,Cv’为车辆属性向量,车辆属性向量包括车辆的行驶风格属性。
8.如权利要求4所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述辆驾驶行为模块采用的强化学习模型状态空间为结构化车辆路况信息构成的张量;优选以特定车辆为中心,取其周围预设范围内的结构化车辆信息定义为状态;
动作空间为加速比和变道概率组成的二元组。
9.如权利要求1所述的基于层次强化学习的微观交通流预测系统,其特征在于,按照如下方法训练:重复以下步骤(1)和(2)直至微观交通流预测系统收敛;
(1)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛;
(2)固定车辆行驶风格层次预测模块或车辆驾驶行为层次预测模块的强化学习模型,对车辆驾驶行为层次预测模块或车辆行驶风格层次预测模块,进行训练直至收敛。
10.如权利要求9所述的基于层次强化学习的微观交通流预测系统,其特征在于,所述系统训练采用奖励函数为每一观察时刻离开目标范围的车辆数量的预测值与真实值的累计误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111622593.1A CN114495486B (zh) | 2021-12-28 | 2021-12-28 | 一种基于层次强化学习的微观交通流预测系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111622593.1A CN114495486B (zh) | 2021-12-28 | 2021-12-28 | 一种基于层次强化学习的微观交通流预测系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114495486A true CN114495486A (zh) | 2022-05-13 |
CN114495486B CN114495486B (zh) | 2023-06-09 |
Family
ID=81496151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111622593.1A Active CN114495486B (zh) | 2021-12-28 | 2021-12-28 | 一种基于层次强化学习的微观交通流预测系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495486B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173913A (zh) * | 2023-09-18 | 2023-12-05 | 日照朝力信息科技有限公司 | 基于不同时段车流量分析的交通控制方法及系统 |
CN118135802A (zh) * | 2024-05-10 | 2024-06-04 | 四川高路文化旅游发展有限责任公司 | 一种基于深度学习网络的桥梁道路管控系统及方法 |
CN118607932A (zh) * | 2024-08-07 | 2024-09-06 | 华东交通大学 | 基于深度学习的驾驶人个性化风险评价方法、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103534123A (zh) * | 2011-02-18 | 2014-01-22 | 捷豹路虎有限公司 | 车辆和控制车辆的方法和系统 |
CN105404294A (zh) * | 2014-09-10 | 2016-03-16 | 大众汽车有限公司 | 通过辨识车辆特征来改变自主车辆行驶 |
CN112347993A (zh) * | 2020-11-30 | 2021-02-09 | 吉林大学 | 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法 |
CN113787997A (zh) * | 2021-09-09 | 2021-12-14 | 森思泰克河北科技有限公司 | 紧急制动控制方法、电子设备及存储介质 |
-
2021
- 2021-12-28 CN CN202111622593.1A patent/CN114495486B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103534123A (zh) * | 2011-02-18 | 2014-01-22 | 捷豹路虎有限公司 | 车辆和控制车辆的方法和系统 |
CN105404294A (zh) * | 2014-09-10 | 2016-03-16 | 大众汽车有限公司 | 通过辨识车辆特征来改变自主车辆行驶 |
CN112347993A (zh) * | 2020-11-30 | 2021-02-09 | 吉林大学 | 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法 |
CN113787997A (zh) * | 2021-09-09 | 2021-12-14 | 森思泰克河北科技有限公司 | 紧急制动控制方法、电子设备及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117173913A (zh) * | 2023-09-18 | 2023-12-05 | 日照朝力信息科技有限公司 | 基于不同时段车流量分析的交通控制方法及系统 |
CN117173913B (zh) * | 2023-09-18 | 2024-02-09 | 日照朝力信息科技有限公司 | 基于不同时段车流量分析的交通控制方法及系统 |
CN118135802A (zh) * | 2024-05-10 | 2024-06-04 | 四川高路文化旅游发展有限责任公司 | 一种基于深度学习网络的桥梁道路管控系统及方法 |
CN118607932A (zh) * | 2024-08-07 | 2024-09-06 | 华东交通大学 | 基于深度学习的驾驶人个性化风险评价方法、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114495486B (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023207437A1 (zh) | 一种基于动态轨迹流的场景流数字孪生方法及系统 | |
CN114495486B (zh) | 一种基于层次强化学习的微观交通流预测系统及方法 | |
CN110796856B (zh) | 车辆变道意图预测方法及变道意图预测网络的训练方法 | |
CN110304075B (zh) | 基于混合动态贝叶斯网络和高斯过程的车辆轨迹预测方法 | |
EP3485337B1 (en) | Decision making for autonomous vehicle motion control | |
CN112789619B (zh) | 一种仿真场景的构建方法、仿真方法以及设备 | |
CN113643528B (zh) | 信号灯控制方法、模型训练方法、系统、装置及存储介质 | |
Essa et al. | Simulated traffic conflicts: do they accurately represent field-measured conflicts? | |
EP3035314A1 (en) | A traffic data fusion system and the related method for providing a traffic state for a network of roads | |
CN107310550A (zh) | 道路交通工具行驶控制方法和装置 | |
CN111473794B (zh) | 一种基于强化学习的结构化道路无人驾驶决策规划方法 | |
CN112347993A (zh) | 一种基于车辆-无人机协同的高速公路车辆行为和轨迹预测方法 | |
CN115206103B (zh) | 一种基于平行仿真系统的可变限速控制系统 | |
CN117290997A (zh) | 一种基于数字孪生模式的人机共驾决策系统测评方法 | |
CN109782751A (zh) | 用于自主系统性能和基准测试的方法和设备 | |
CN117521389A (zh) | 一种基于车路协同感知仿真平台的车辆感知测试方法 | |
Shiroshita et al. | Behaviorally diverse traffic simulation via reinforcement learning | |
CN115062202A (zh) | 驾驶行为意图及轨迹的预测方法、装置、设备及存储介质 | |
CN115291515A (zh) | 一种基于数字孪生的自动驾驶仿真测试系统及评价方法 | |
CN112633602B (zh) | 一种基于gis地图信息的交通拥堵指数预测方法及装置 | |
CN117031979A (zh) | 一种基于仿真环境的规划算法测试方法及系统 | |
CN111798659A (zh) | 用于在预先确定区域内的机动车的交通控制的方法和设备 | |
CN118228612B (zh) | 一种基于强化学习的自然性自动驾驶场景生成方法及装置 | |
CN114516336A (zh) | 一种考虑道路约束条件的车辆轨迹预测方法 | |
CN112193245B (zh) | 一种考虑驾驶员模糊感知的深度学习跟驰预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |