CN117455237A - 一种基于多源数据的道路交通事故风险预测方法 - Google Patents
一种基于多源数据的道路交通事故风险预测方法 Download PDFInfo
- Publication number
- CN117455237A CN117455237A CN202311476522.4A CN202311476522A CN117455237A CN 117455237 A CN117455237 A CN 117455237A CN 202311476522 A CN202311476522 A CN 202311476522A CN 117455237 A CN117455237 A CN 117455237A
- Authority
- CN
- China
- Prior art keywords
- traffic
- data
- accident
- model
- road
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010039203 Road traffic accident Diseases 0.000 title claims abstract description 103
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000005065 mining Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000007704 transition Effects 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011144 upstream manufacturing Methods 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000011160 research Methods 0.000 claims description 8
- 238000001514 detection method Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000013178 mathematical model Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000001419 dependent effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000003068 static effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000001603 reducing effect Effects 0.000 description 2
- BUGBHKTXTAQXES-UHFFFAOYSA-N Selenium Chemical compound [Se] BUGBHKTXTAQXES-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 229910052711 selenium Inorganic materials 0.000 description 1
- 239000011669 selenium Substances 0.000 description 1
- 230000008566 social perception Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/29—Graphical models, e.g. Bayesian networks
- G06F18/295—Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于多源数据的道路交通事故风险预测方法,挖掘基于社交媒体的交通事故数据,计算交通小区d内路段r的网络核密度值;求解基于传统交通数据的交通事故影响因子;计算基于正负影响因素模型的改进核密度,构建基于改进核密度和实时交通流数据的隐马尔可夫模型,模型通过BIC指标确定隐状态数量的最优解。最后基于社交媒体数据对道路交通总风险值进行评估。本发明结合社交媒体数据、传统交通数据和实时交通流数据来计算交通事故风险值,建立隐马尔可夫模型,利用社交媒体数据对交通事故风险建模,可在给定可观测数据序列的情况下对路段改进事故核密度状态进行预测,并结合成本风险最终估计路段的事故风险值,定量刻画道路网络中各个路段的事故风险。
Description
技术领域
本发明涉及道路交通安全领域,具体涉及一种基于多源数据的道路交通事故风险预测方法。
背景技术
道路交通是人们生活中的主要出行方式之一,近年来道路交通环境日益复杂,交通事故造成的人员伤亡和经济损失严重,对社会安定和人民健康安全造成严重影响。因此,科学预测道路交通事故风险对交通安全和道路管理至关重要。
在目前的研究中,研究人员通过分析交通数据、道路特征和驾驶员行为,使用机器学习、深度学习和统计学习等方法,以期能够预测道路交通的风险。然而,现有方法存在一定的局限性:(1)数据来源单一:多数方法过于依赖于单一数据源,如交通摄像头、交通传感器或历史事故数据,忽略了多源数据综合利用的潜力,特别是准确精炼的社交媒体数据。(2)预测准确性:某些方法在预测性能方面表现不佳,因为它们未能充分考虑社交媒体数据、天气信息、特殊事件或其他重要因素的影响,这些数据可能不足以全面描述交通状况,从而难以实现准确的交通风险预测。(3)实时性:一些方法侧重宏观交通风险的预测,而未能实时预测道路实际状况下的交通事故风险,无法应对突发交通情况。(4)可解释性:某些深度学习方法难以解释模型建模过程中的各个决策步骤的含义,导致模型可解释性不高。
例如,专利CN102360525B公开一种基于判别分析的快速道路实时交通事故风险预测方法,该技术方案克服现有技术利用集计统计量分析交通安全存在的技术缺陷,建立实时交通流特征与事故风险之间的联系,但没有关注从传统渠道获得的交通调查信息和社交媒体信息,数据形式较为单一。另外,判别式为多项式,形式较为简单,无法建模复杂关系。
例如,专利CN114880852A公开一种基于社会感知数据的建模分析方法与系统,该技术方案建立一个行人交通事故影响因子感知系统,识别行人交通事故的易发点。技术缺陷是:行人交通事故网络核密度值仅根据行人历史事故点,展示行人事故易发点在路网上的热度分布,并把所有的影响因素统一考虑,做回归分析,没有考虑各种影响因素对事故的影响,也没有把其他数据集成到核密度当中,核密度中蕴含的信息有限。
又例如,专利CN115238958A公开一种基于复杂交通场景的危险事件链提取方法及系统,该技术方案利用隐马尔可夫模型估计风险估计行车风险系数,根据道路危险事件状态以及车辆行车风险系数分布划分静态等级,从而建立隐状态序列,隐状态数量固定,忽略了其他可能的隐状态数量对模型准确性的影响。
发明内容
发明目的:本发明的目的在于解决现有技术中存在的不足,提供一种基于多源数据的道路交通事故风险预测方法,本发明结合社交媒体数据、传统交通数据和实时交通流数据来计算交通事故风险值,建立以改进事故核密度为隐状态,交通流检测设备探测到的数据为可观测状态的隐马尔可夫模型,模型通过BIC指标确定隐状态数量的最优解,并进一步利用从社交媒体数据中挖掘到的信息,对交通事故风险进行建模。能够更准确地发掘不同来源信息的深层关系和内在相关性,得出的模型在给定可观测数据序列的情况下,能够对路段改进事故核密度状态进行预测,并结合成本风险的计算,最终估计路段的事故风险值,定量刻画道路网络中各个路段的事故风险。
技术方案:本发明的一种基于多源数据的道路交通事故风险预测方法,包括以下步骤:
步骤S1、挖掘基于社交媒体的交通事故数据,包括道路交通事故发生位置、事故的开始和终止时间戳和事故占用车道信息,对所得交通事故数据进行预处理,计算第d个交通小区内第r条道路路段的网络核密度值参照公式(1)可得到路网上所有位置的核密度数值;
步骤S2、求解基于传统交通数据的交通事故影响因子;
首先,将导致交通事故危险程度增加的传统交通数据设为正影响因素Ai,将导致交通事故危险程度减小的传统交通数据设为负影响因素Bi;然后,以正影响因素和负影响因素两类传统交通数据为自变量、以交通小区内道路网络上的全部交通事故数量为因变量,使用负二项回归拟合模型,得到正影响因素拟合模型和负影响因素拟合模型;
步骤S3、计算基于正负影响因素模型的改进核密度,具体方法为:
步骤S31、将某交通小区d内所有道路的传统指标数据(包括但不限于伤亡人数、卡车比例、公交车比例、平均交通量、车流平均密度、人口密度等等,即正负影响因素对应数据)分别代入本区域的正影响因素拟合模型和负影响因素拟合模型,得到交通小区d内r道路上由正影响因素Ai得出的模型对事故数量的估计以及r道路上由负影响因素Bi得出的模型对事故数量的估计/>
步骤S32、对和/>分别进行规范化得到正负影响因子风险值/>和/>
步骤S33、计算改进核密度值计算公式如下/>
步骤S4、构建基于改进核密度值和实时交通流数据的隐马尔可夫模型;具体方法为:
步骤S41、确定隐马尔可夫模型的隐状态序列I{·},设定隐状态数量S,将各个路段的最高改进核密度值进行排序并分割,得到隐马尔可夫模型隐状态序列;
步骤S42、确定隐马尔可夫模型的观测状态序列O{·},提取路段事故地点上游传感器数据,得到隐马尔可夫模型观测状态序列;
步骤S43、随机生成初始状态矩阵π{·};
步骤S44、采用Baum–Welch算法实现模型的学习:采用算法不断更新初始状态、状态转移概率、发射概率,直到满足收敛条件,得到隐马尔可夫模型;
步骤S45、建立不同隐状态数的隐马尔可夫模型并预测改进核密度序列:计算不同隐状态数的隐马尔可夫模型的BIC指标,拥有最小BIC值的对应模型的隐状态数量即为最优隐状态数量,这个模型为最终的预测模型;给定实时获取的观测序列,用维特比算法进行状态解码得出预测的改进核密度序列;
步骤S5、基于社交媒体数据对道路交通总风险值Rk进行评估,Rk=ik(CT+CS),
CT为时间风险成本CT,利用从社交媒体数据中提取到的事故持续时间的信息,结合事故影响,对时间风险进行量化表示;
CS为空间风险成本CS,利用从社交媒体数据中提取到的事故占用车道信息,对发生事故的路段进行分类,量化不同占用车道情况对交通系统的影响,从而量化空间风险;
最后把时间成本风险、空间成本风险和预测的改进核密度做融合计算,得到路段交通事故风险预测值Rk。
进一步地,所述步骤S1的详细过程为:
步骤S11、账户登录和数据采集,实现对目标用户发布的微博时间、正文内容的自动获取,同时获取传统交通数据和实时交通流运行数据;
步骤S12、对步骤S11所得数据进行去噪和分词预处理;
步骤S13、数据地图匹配,提取时间和地点关键词,把目标数据映射到地图中;
步骤S14、计算网络核密度值,对道路上的事故发生事件进行核密度值的计算;
其中,数据类型包括社交媒体数据、传统交通数据、实时交通流数据;社交媒体数据包含事故发生时间地点,占用车道信息,事故开始和结束信息等;传统交通数据包括但不限于平均交通量、卡车比例、公交车比例、车流平均密度、道路密度、信号交叉口数量、人口数、人口密度、事故伤亡人数、财产损失量等;实时交通流数据包括事故地点上游交通传感器实时平均速度。
进一步地,所述步骤S2构建正影响因素拟合模型和负影响因素拟合模型的详细方法为:
引入一个均值为1和方差为α的伽马分布误差项exp(εr),有条件概率分布:
并有:
λr=exp(βXr+εr) (16)
其中β为解释变量系数的向量,Xr为解释变量的向量。故有无条件分布的最大似然函数:
将似然函数最大化求得各个解释变量的系数β和方差α,最后得到拟合数学模型:
ln(λr)=∑t=1βtxt+β0 (18)
βt为第t个事故影响因素的系数,xt为第t个事故影响因素,β0为常数。在交通小区d中,由正影响因素Ai得出的模型对事故数量估计为μd,由负影响因素Bi得出的模型对事故数量估计为ηd。
进一步地,为防止不同区域(交通小区)的数据差距过大,需在交通小区范围下将两个指标分别规范化,具体过程如下:
其中,R为交通小区d内道路数量。
进一步地,所述步骤S4的详细过程为:
首先,确定隐马尔可夫模型的隐状态序列I{·},方法为;
设定隐马尔可夫模型的隐状态数量S,并设整个研究区域共有K条路段,把这些路段的改进核密度的最高值记为KDk,其中,k∈[1,K],需要确定各个核密度值的相对大小,从而进行隐状态的划分;其中,依照从大到小的顺序对KDk进行排序,最大值为KD(K),最小值为KD(1),每一个隐状态的核密度跨度为故有隐状态序列:
然后,确定隐马尔可夫模型的观测状态序列O{·},方法为:
以各个选取路段的最高核密度值为中心,观察事故地点上游线圈在事故发生前10分钟的探测数据,获取上游平均速度值;平均速度在各个路段上的序列为:
O={o1,o2,…,oK};
进而获得区域的隐马尔可夫模型:λ=(I,O,π);
采用Baum–Welch算法来实现模型的学习,具体过程如下:
设定函数Q:
其中,P(O,I|λ)为观测序列和隐状态序列同时出现的概率。是隐马尔可夫模型的估计,λ是隐马尔可夫模型;展开上式并对参数求极值,最终得到初始状态、状态转移概率、发射概率的重估公式:
πi=γ1(i) (22)
并有:
其中,是从隐状态in转移到隐状态in+1的概率,也称为状态转移概率;/>为in隐状态时获得on这个观测状态的概率,i,j是隐状态序列I中的任意两个隐状态;
αk(i)被称为前向概率,是指在隐马尔可夫模型λ已知的情况下,从路段1到路段k的观测序列为O={o1,o2,…,ok}并有路段k的隐状态为i的概率;
βk(i)被称为后向概率,是指已知路段k隐状态为i和隐马尔可夫模型λ的条件下,从k+1到K的观测序列为ok+1,ok+2,…,oK的概率,使用上述公式可以得到更新的隐马尔可夫模型再继续进行重新估计,直到满足收敛条件/>从而得到一个隐马尔可夫模型,此模型的隐状态数量为S;
继续创建隐状态数为S-1,S-2,…,3,2的隐马尔可夫模型,然后采用BIC准则评估各个模型,具体方式如下:
BIC=uln(M)-2ln(L) (27)
其中,u是模型的总参数数量,上述隐马尔可夫模型中,总的参数数量为N+N2+NK,M是观测数据的样本数量,即观测序列的长度K,ln(L)是模型的对数似然函数值,隐马尔可夫模型的似然函数是给定模型下,所有观测状态序列发生的概率,可表示为:
P(O|I,O,π)=∑IP(O|I,λ)P(I|λ) (28)
计算不同隐状态数的隐马尔可夫模型的BIC指标,选择具有最小BIC值的模型作为最终模型;
给定路段交通流数据检测序列,使用维特比算法进行状态解码,从而得到各个路段的改进核密度隐状态序列I={·},其中包含的信息是每个路段的改进核密度预测值。
进一步地,所述步骤S5评估时间成本计算方法为:
定义持续时间为[0,1)小时的事故为轻度影响,持续时间为[1,2)小时的事故为中度影响,持续时间为[2,3)小时的事故为重度影响;
时间成本CT的计算方法如下:
CT=7a1+5a2+3a3;
其中,a1、a2、a3分别为路段上各信息对属于重度影响、中度影响、轻度影响的数量。
进一步地,所述步骤S5评估空间成本计算方法如下:
若路段是单向四车道路段,则路段上交通事故记录的空间成本风险为:CS1=b1+4b2+4b3+5b4,其中,b1、b2、b3、b4分别为交通事故占据最右侧车道、右侧第二条车道、左侧第二条车道、最左侧车道的情形出现次数;
若路段是单向三车道路段,则路段上交通事故记录的空间成本风险为:CS2=b5+4b6+5b7,其中,b5、b6、b7分别为交通事故占据最右侧车道、中间车道、最左侧车道的情形出现次数;
若路段是单向双车道路段,则路段上交通事故记录的空间成本风险为:Cs3=5b8+5b9,其中,b8、b9分别为交通事故占据右侧车道和左侧车道的情形出现次数;
若路段是单向单车道路段,则路段上交通事故记录的空间成本风险为:CS4=5b10,其中,Cs1、Cs2、CS3、CS4分别为四车道、三车道、两车道、单车道的空间成本,b10为交通事故发生次数。
有益效果:与现有技术相比,本发明具有以下优点:
1、本发明根据从社交媒体中收集到的交通事故发生的热度来判断事故发生的可能性大小,其中按照传统交通数据的属性对判断核密度指标进行改写,考虑了传统交通数据与交通事故之间的联系,使核密度指标包含社交媒体信息和传统交通数据信息。
2、本发明在模型建立方面,不断调整参数,根据评判指标的最小值划定合适的隐状态数量,使得模型更为准确,更加深刻地解释改进核密度水平与实时交通监测数据的联系。
3、本发明使用事故持续时间和占据车道的特征对交通事故风险进行评估,充分利用社交媒体数据的信息判断事故对交通系统产生的影响,并将其视为一种事故风险,融入到总风险的评估当中。
4、本发明充分利用可以收集到的交通数据,包括社交媒体数据、传统交通数据、实时交通流数据,运用可解释性较强的隐马尔可夫统计模型进行建模,描述各个状态之间的联系以及转换关系,对交通事故风险进行预测。
附图说明
图1为本发明的整体流程示意图;
图2为本发明实施例中交叉口区域网络核密度函数示意图;
图3为本发明实施例中对应交通事故数据匹配的流程示意图。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
为解决现有技术缺陷,本发明充分整合社交媒体数据、传统交通数据和实时交通流数据,以更全面地预测和评估道路交通事故的风险,有助于发掘交通事故黑点,提前预警交通事故风险,完善交通安全管理,减少事故的发生,提高交通系统的运行效率。
如图1所示,本发明提出一种基于多源数据的道路交通事故风险预测方法,包括以下步骤:步骤S1:基于社交媒体的交通事故数据挖掘。随着互联网技术的发展,人们使用社交媒体平台的频率不断增加,更有一些官方机构入驻社交媒体平台,发布权威信息,其中不乏一些地方交通管理机构。这些交通管理机构会在社交媒体平台上对区域内的交通状况进行实时播报,从而让社交媒体平台用户及时了解区域内的交通状况,方便市民对出行做好规划,避开拥堵、行驶缓慢等交通状况发生的路段,也可以通过具体文本信息来提醒驾驶员小心驾驶,注意避让。交通管理机构发布的信息不会删除,所以通过网络爬虫的方法获取相关区域内的历史交通事故这一方法是可行的。
通过观察社交媒体平台的组织形式,发现微博账号页面使用下拉自动加载网页内容,是一种动态网页,不同于静态网页在服务器端生成并发送给客户端的固定内容,动态网页在客户端加载和渲染过程中,通过JavaScript等脚本技术动态生成和更新内容。所以这一类型的网页的内容无法通过简单地下载网页源代码来获取,而需要模拟人类操作浏览器行为来执行脚本,并获取最终呈现的内容。在本发明中使用一种网页自动化测试工具Selenium,设计登录微博,浏览微博信息,自动爬取并收集微博内容的算法并实现操作,具体过程如下:
步骤S11:账户登录和数据采集。具体过程如下:利用Python引入Selenium库,构建微博爬虫系统,打开浏览器,准备好用于登录的账号和密码,使用Selenium进行浏览器网页自动化操作,进行系统登陆,搜索目标用户,设计算法对目标用户的微博界面进行下拉加载,研究目标用户发布微博的网页结构,设计相关算法,实现对目标用户发布的微博时间、正文内容的自动获取。
步骤S12:数据预处理。具体过程如下:由于获取到的数据来源是官方的交通信息发布平台,所以微博文本较为纯净,详细阐述的信息包括时间、详细位置、事件类型、事故占用的车道等信息。
首先对获取到的微博文本进行去噪,防止无关文本信息内容对后续操作产生不必要的影响,去噪的内容如下:与事件描述无关的文字信息如:话题标签“#路况播报#”、“#早高峰路况播报#”等;引用用户内容,如:“@username”;与事件描述无关的符号信息如:表情符号;字数过短文本。
其次,为了便于分析和提取文本信息,对文本进行分词处理:分词是将连续的字序列按照一定的规范重新组合成语义独立词序列的过程,不同于英文字符,中文语句没有自然分隔符来把词语分开。中文分词是文本挖掘的基础,目前已有多种中文分词工具。为了提取到微博文本中的地点、时间、事件类型等信息,要把微博文本进行打断处理,使一段微博文字拆分成若干词语。例如:微博文本“16时36分,外环高速东行白花洞隧道入口路段,发生一起交通事故,占据最左侧车道,该路段车辆缓行,请途经车友注意安全避让。”可以使用常见中文分词工具HanLP拆分成以下结构:“16时/36分/,/外环/高速/东行/白花洞/隧道/入口/路段/,/发生/一起/交通/事故/,/占据/最/左侧/车道/,/该/路段/车辆/缓行/,/请/途经/车友/注意/安全/避让/。/”。
步骤S13:数据地图匹配。具体过程如下:用工具进行分词之后,识别出分词处理之后的每个微博文本中有关“事故”的关键词,并把对应微博中的时间、地点信息提取出来,例如上文中的“16时36分”、“外环高速”、“东行”、“白花洞”、“隧道”、“入口”。并将这些文字信息存储到数据库中,建立好数据库之后,调用百度地图地理编码服务API,获取各个文本信息内容对应地点的WGS-84经纬度坐标,使用ArcGIS地理信息系统软件把这些事故点的经纬度坐标投影到由天地图网站获取的城市道路网络底图上。
步骤S14:计算网络核密度值。核密度估计作为一种非参数检验方法,随着地理信息系统(GIS)的进一步发展,核密度估计可以被应用在热点可视化当中,可以更加直观地展示事故点的热度分布。具体过程是:对道路网络上的事故点进行网络核密度估计,通过核密度估计函数可得整个研究区域道路网路的核密度值分布。核密度估计函数可以表示为:
式中,K(q)为核函数,k(·)为基本核函数,一般为高斯核函数,q为核中心,pi为交通事故点,i=1,2,L,n,h为搜索窗宽,ds(q,pi)为核中心到事故点的距离。基本思想是:在搜索窗宽范围内,K(q)等于研究位置(整个路网)附近各个交通事故点核密度的累积,交叉口区域网络核密度函数示意图如图二所示。
步骤S15:对应交通事故数据匹配。注意到存在标志同一件交通事故开始和结束的微博,依照时间顺序,首先会出现交通事故发生的微博,经过一段时间后,将会出现类似“事故现场清理完毕,交通恢复正常”相关微博。通过S12中收集的微博文本,寻找某一事故发生3小时内是否存在标志本事故清理完毕的相关微博文本,如果存在,则把两条微博两两配对,认为这两条微博完整描述了事故的发生和结束,并记录两条微博所描述的时间。如果不存在,则认为只有事故发生的信息,跳过此条微博信息,继续寻找下一条文本信息。具体过程流程示意图如图三所示。
步骤S16:提取占用车道信息。通过S12中拆解的微博文本,提取“占据左侧车道及右侧车道”、“占据左侧第二条车道”等语句,存储至数据库中,记录对应交通事故占用车道的信息,同时记录车道数量信息。若对应微博文本中不包含对应的语句,则忽略此条微博文本信息。
步骤S2:基于传统交通数据的交通事故影响因子的求解。除了运用新型的社交媒体平台上的信息之外,通过交通调查,传感器感应等传统方式获取到的基础交通数据如年平均日交通量、车流平均速度、道路平均交通量、车流平均密度、交通小区道路总长度、事故受伤人数、事故死亡人数、事故财产损失等指标也同样重要,这类数据反映着经济发展、经济建设等因素对区域内交通的影响,代表着一个区域中交通出行的基本特征,从而与事故风险存在密切联系,可以作为评判事故风险的标准。以上述多种交通数据为自变量,对交通事故数量进行建模可以得到传统交通数据与事故数量的关系。本发明获取研究区域内所有交通小区的传统交通数据,对数据进行分类处理,具体过程如下:
步骤S21:确定与交通事故风险具有正相关或负相关关系的传统交通数据。具体过程如下:
设定判断依据:假设核密度值代表事故风险(即危险程度),并假设某个区域(交通小区)内事故数量一定,某个影响因素指标增加将会导致危险程度增加,则称此影响因素为正影响因素Ai,反之,若某个影响因素指标增加将会导致危险程度减小,则称此影响因素为负影响因素Bi。例如:对于伤亡人数这个指标,在某条道路上,发生的事故数量固定的情况下,伤亡人数越多,说明这条道路的危险程度越高,即伤亡人数与危险程度成正比关系,称为正影响因素,同理,卡车比例、公交车比例等指标也属于正影响因素。反之,某条道路上,发生的事故数量固定的情况下,平均交通量越大,说明单位平均交通量发生的交通事故数量越小,区域内道路的危险程度越低,平均交通量为负影响因素,同理,车流平均密度、人口密度等指标也属于负影响因素。
由此,本发明提供了一种判断传统交通数据和道路危险程度之间关系的方法。
步骤S22:计算交通事故影响因子。泊松回归模型常用于计数模型的拟合,而且泊松回归模型在描述交通事故时具有良好的统计特性,但是它有一个重要的限制条件:即事故数据的均值和方差相等。负二项回归模型消除了这一个约束,应用更为广泛。以正影响因素和负影响因素两类传统交通数据为自变量、以交通小区内道路网络上的全部交通事故数量为因变量,使用负二项回归拟合模型,得到正影响因素和负影响因素拟合模型,具体过程如下:
引入一个均值为1和方差为α的伽马分布误差项exp(εr),有条件概率分布:
并有:
λr=exp(βXr+εr) (3)
其中,P(nr)为路段r发生n起事故的概率,λr为道路路段r内事故发生数量的期望,Xr为道路路段r中正影响因素或负影响因素(解释变量)的向量(自变量),β是各个解释变量的系数向量。
把上述条件概率分布化简,得到nr的无条件分布:
其中,无条件分布的最大似然函数为:
其中,R为小区内道路总数,将似然函数最大化求得各个解释变量的系数β和方差α,最后得到拟合数学模型:
βt为第t个事故影响因素的系数,xt为第t个事故影响因素,β0为常数。
与把全部传统交通数据进行一次负二项回归不同,此做法分别求出正负两个影响因素的数学模型:在交通小区d中,由正影响因素Ai得出的模型对事故数量估计为μd,由负影响因素Bi得出的模型对事故数量估计为ηd。此为交通事故影响因子。
步骤S3:基于正负影响因素模型的改进核密度计算方法。具体过程如下:
步骤S31:将某个区域(交通小区)内所有道路的传统指标数据(包括但不限于伤亡人数、卡车比例、公交车比例、平均交通量、车流平均密度、人口密度等等,即上文所述的正负影响因素对应数据)分别代入本区域的模型并进行计算。具体地,交通小区d中,r道路上由正影响因素Ai得出的模型对事故数量估计为r道路上由负影响因素Bi得出的模型对事故数量估计为/>此指标的含义是:在上述影响因素的作用下,d交通小区内,r道路可能会发生的事故数量。为防止不同区域(交通小区)的数据差距过大,需要在交通小区范围下将两个指标分别规范化,具体过程如下:
其中,R为交通小区d内的道路数量,最终得到每条道路的正负影响因子风险值和/>
步骤S32:计算改进核密度值。将上述得到的正影响因子风险值与S14中得到的道路网路核密度值相乘,负影响因子风险值与S14中得到的道路网络核密度值相除,得到改进的核密度值,具体过程如下:
其中,为改进核密度,/>为S14中所得的原始核密度。与仅使用单一数据来源进行事故热点分析不同,此方法所得出的改进核密度结合了社交媒体数据以及传统交通数据,一定程度上从类型更多的信息中总结了事故发生的规律和分布。通过分析从传统渠道获取的数据的性质,对传统数据如何影响危险程度进行判断,并结合从社交媒体当中提取到的交通事故信息,对核密度估计做出改进。
步骤S4:基于改进核密度值和实时交通流数据的隐马尔可夫模型建立及预测。道路上存在的实时交通数据采集设施也是重要的数据来源,与传统交通数据相比,此类数据更为微观,体现更具体的交通流信息。有研究表明这种类型的数据可以准确指示交通事故的发生,存在重要的参考价值,本发明运用此类数据构建隐马尔可夫模型。
本发明关心的指标是改进核密度的预测值。因此引入隐马尔可夫模型并做出改进。在隐马尔可夫模型中,有三个基本的序列需要建立,分别是隐状态序列、观测状态序列和初始状态序列。本发明的思路是:在建立隐状态序列过程中首先进行隐状态数量的确定,通过循环建立拥有不同隐状态数的隐马尔可夫模型,然后对不同模型进行判别,确定隐状态数量的最优解,从而确定最终的隐马尔可夫模型。
区域内所有道路都是研究对象,按照隐马尔可夫模型的定义,本发明为区域内所有道路创建一个虚拟的序列,即由各条道路的改进核密度值组成的隐马尔可夫隐状态序列,用实时交通数据采集设施所采集到的数据序列作为隐马尔可夫模型的观测状态序列。具体过程如下:
步骤S41:确定隐马尔可夫模型的隐状态序列I{·}。为提高预测的精度,本发明通过不断迭代寻找隐状态数量的最优解,而非人为设定隐状态数量。具体过程如下:设定隐马尔可夫模型的隐状态数量S,并设整个研究区域共有K条路段,把这些路段的改进核密度的最高值记为KDk,其中,k∈[1,K],需要确定各个核密度值的相对大小,从而进行隐状态的划分。其中,依照从大到小的顺序对KDk进行排序,最大值为KD(K),最小值为KD(1),每一个隐状态的核密度跨度为(KD(K)-KD(1))/S,有隐状态序列:
步骤S42:确定隐马尔可夫模型的观测状态序列O{·}。这部分数据由交通传感器获取,有大量研究显示公路交通事故风险与交通流实时运行的参数存在紧密关联。以各个选取路段的最高核密度值为中心,观察事故地点上游线圈在事故发生前10分钟的探测数据,获取上游平均速度值。平均速度在各个路段上的序列为:
O={o1,o2,…,oK} (11)
此序列作为隐马尔可夫模型的可观测数据序列O{·}。
步骤S43:确定初始状态矩阵π{·}。由于后续的模型训练会对状态矩阵进行修正,所以初始状态矩阵π{·}可以随机生成。综上,就获得了区域的隐马尔可夫模型λ:
λ=(I,O,π) (12)
步骤S44:采用Baum–Welch算法来实现模型的学习。具体过程如下:
设定函数Q:
其中,P(O,I|λ)为观测序列和隐状态序列同时出现的概率。是隐马尔可夫模型参数的估计,λ是隐马尔可夫模型。上式可以展开为:
其中,是从隐状态in转移到隐状态in+1的概率,也称为状态转移概率;/>为in隐状态时获得on这个观测状态的概率。然后对上述函数进行极大化,分别对每一项求偏导数和极值,分别得到初始状态、状态转移概率、发射概率的重估公式:
πi=γ1(i) (15)
并有:
其中,i,j是隐状态序列I中的任意两个隐状态,αk(i)被称为前向概率,是指在隐马尔可夫模型λ已知的情况下,从路段1到路段k的观测序列为O={o1,o2,…,ok}并有路段k的隐状态为i的概率,即:
αk(i)=P(o1,o2,K,ok,ik=i|λ) (20)
βk(i)被称为后向概率,是指已知路段k隐状态为i和隐马尔可夫模型λ的条件下,从观测序列为k+1到K的观测序列为ok+1,ok+2,K,oK的概率,即:
βk(i)=P(ok+1,ok+2,K,oK|λ,ik=i) (21)
使用上述公式就可以得到一组新的参数πi,aij,bj(m),从而得到更新的隐马尔可夫模型再继续进行重新估计,直到满足收敛条件/>从而得到一个隐马尔可夫模型,此模型的隐状态数量为S,为S42中设定的参数。
步骤S45:建立不同隐状态数的隐马尔可夫模型。依照上文,继续创建隐状态数为S-1,S-2,L,3,2的隐马尔可夫模型,然后采用BIC准则评估各个模型,具体方式如下:
BIC=u ln(M)-2ln(L) (22)
其中,u是模型的总参数数量,上述隐马尔可夫模型中,总的参数数量为N+N2+NK,M是观测数据的样本数量,即观测序列的长度K,ln(L)是模型的对数似然函数值,隐马尔可夫模型的似然函数是给定模型下,所有观测状态序列发生的概率,可以表示为:
计算不同隐状态数的隐马尔可夫模型的BIC指标,拥有最小BIC值的对应模型的隐状态数量即为最优隐状态数量,这个模型为最终的预测模型。。BIC值越小,表示模型在拟合数据时更好地权衡了拟合能力和模型复杂性。至此,就得到一个基于社交媒体数据,历史数据,实时交通流数据建立的隐马尔可夫模型。
给定路段交通流数据检测序列,可以使用维特比算法进行状态解码,从而可以得到各个路段的改进核密度隐状态序列I={·},序列中隐状态的取值范围是(i1,i2,L,is),隐状态数量为K,即道路数量。由于改进核密度包含了来自于社交媒体的交通事故信息和传统交通信息,所以改进核密度一定程度上反映了路段上事故发生倾向。
步骤S5:基于社交媒体数据的道路交通总风险值的评估。道路拥堵可以被视为一种交通风险,因为它对驾驶员和乘客的安全和舒适性产生负面影响,并增加了事故发生的可能性。交通事故发生之后,交通拥堵极易出现,本发明留意社交媒体数据所提供的更深层次的与交通拥堵相关的信息,把交通事故风险分为时间成本风险和空间成本风险。具体过程如下:
步骤S51:评估时间成本风险。从在S15中提取两两配对的微博信息中提取所描述的时间,假设事故开始时的时间戳是Ts,时间结束时的时间戳是Te,则有事故持续时间为T=Te-Ts,统计发生在某条路段上的所有交通事故的持续时间,设共有y个交通事故信息对,则共有y个持续时间。持续时间反映了交通事故从开始对交通造成影响到交通恢复正常运行的时间。持续时间越长,表示这个位置一旦发生交通事故,对交通系统的影响也越大,交通系统通常要花费更多的时间成本恢复至正常状态。把时间成本分为三级:重度影响、中度影响和轻度影响。持续时间t为[0,1)小时的事故为轻度影响,持续时间t为[1,2)小时的事故为中度影响,持续时间t为[2,3)小时的事故为重度影响。路段上交通事故记录的时间成本风险为:
CT=7a1+5a2+3a3(24)
其中,a1、a2、a3分别为路段上各信息对属于重度影响、中度影响、轻度影响的数量,并且a1+a2+a3=y。
步骤S52:评估空间成本风险。从S16中获取的信息中判断各个路段上每个交通事故数据点对应的占用车道信息,并根据对应路段的车道数量评估空间成本风险CS。若路段是单向四车道路段,则路段上交通事故记录的空间成本风险为:
CS1=b1+4b2+4b3+5b4(25)
其中,b1、b2、b3、b4分别为交通事故占据最右侧车道、右侧第二条车道、左侧第二条车道、最左侧车道的情形出现次数。若路段是单向三车道路段,则路段上交通事故记录的空间成本风险为:
CS2=b5+4b6+5b7(26)
其中,b5、b6、b7分别为交通事故占据最右侧车道、中间车道、最左侧车道的情形出现次数。若路段是单向双车道路段,则路段上交通事故记录的空间成本风险为:
CS3=5b8+5b9(27)
其中,b8、b9分别为交通事故占据右侧车道和左侧车道的情形出现次数。若路段是单向单车道路段,则路段上交通事故记录的空间成本风险为:
CS4=5b10(28)
其中,b10为交通事故发生次数。
步骤S53:评估路段总风险值。路段总风险为上述成本风险和改进核密度的乘积,路段k的总风险值可由下式计算得到:
Rk=ik(CT+CS)(29)
重复上述步骤得到区域内所有路段的交通事故风险值。
基于本发明能够有效结合多种数据,展示路段的交通事故风险,给管理部门提供有效信息,达到预防事故发生、减少财产损失和人员伤亡等目的。
Claims (7)
1.一种基于多源数据的道路交通事故风险预测方法,其特征在于,包括以下步骤:
步骤S1、挖掘基于社交媒体的交通事故数据,包括道路交通事故发生位置、事故的开始和终止时间戳和事故占用车道信息,对所得交通事故数据进行预处理,计算第d个交通小区内第r条道路路段的网络核密度值
步骤S2、求解基于传统交通数据的交通事故影响因子;
首先,将导致交通事故危险程度增加的传统交通数据设为正影响因素Ai,将导致交通事故危险程度减小的传统交通数据设为负影响因素Bi;然后,以正影响因素和负影响因素两类传统交通数据为自变量、以交通小区内道路网络上的全部交通事故数量为因变量,使用负二项回归拟合模型,得到正影响因素拟合模型和负影响因素拟合模型;
步骤S3、计算基于正负影响因素模型的改进核密度,具体方法为:
步骤S31、将某交通小区d内所有道路的传统指标数据分别代入本区域的正影响因素拟合模型和负影响因素拟合模型,得到交通小区d内r道路上由正影响因素Ai得出的模型对事故数量的估计以及r道路上由负影响因素Bi得出的模型对事故数量的估计/>
步骤S32、对和/>分别进行规范化得到正负影响因子风险值/>和/>
步骤S33、计算改进核密度值计算公式为:/>
步骤S4、构建基于改进核密度值和实时交通流数据的隐马尔可夫模型;具体方法为:
首先,确定隐马尔可夫模型的隐状态序列I{·},设定隐状态数量S,将各个路段的最高改进核密度值进行排序并分割,得到隐马尔可夫模型隐状态序列;
然后,确定隐马尔可夫模型的观测状态序列O{·},提取路段事故地点上游传感器数据,得到隐马尔可夫模型观测状态序列;
接着,随机生成初始状态矩阵π{·};
再者,采用Baum–Welch算法实现模型的学习:采用算法不断更新初始状态、状态转移概率、发射概率,直到满足收敛条件,得到隐马尔可夫模型;
最后,建立不同隐状态数的隐马尔可夫模型并预测改进核密度序列:计算不同隐状态数的隐马尔可夫模型的BIC指标,拥有最小BIC值的对应模型的隐状态数量即为最优隐状态数量,这个模型为最终的预测模型;给定实时获取的观测序列,用维特比算法进行状态解码得出预测的改进核密度序列;
步骤S5、基于社交媒体数据对道路交通总风险值Rk进行评估,Rk=ik(CT+CS);其中CT为时间风险成本,CS为空间风险成本。
2.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法,其特征在于,所述步骤S1的详细过程为:
步骤S11、账户登录和数据采集,实现对目标用户发布的微博时间、正文内容的自动获取,同时获取传统交通数据和实时交通流运行数据;
步骤S12、对步骤S11所得数据进行去噪和分词预处理;
步骤S13、数据地图匹配,提取时间和地点关键词,把目标数据映射到地图中;
步骤S14、计算网络核密度值,对道路上的事故发生事件进行核密度值的计算;
其中,数据类型包括社交媒体数据、传统交通数据和实时交通流数据;社交媒体数据包含事故发生时间地点、占用车道信息、事故开始和结束信息;传统交通数据包括平均交通量、卡车比例、公交车比例、车流平均密度、道路密度、信号交叉口数量、人口数、人口密度、事故伤亡人数和财产损失量;实时交通流数据包括事故地点上游交通传感器实时平均速度。
3.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法,其特征在于,所述步骤S2构建正影响因素拟合模型和负影响因素拟合模型的详细方法为:
引入一个均值为1和方差为α的伽马分布误差项exp(εr),有条件概率分布:
并有:
λr=exp(βXr+εr) (2)
其中β为解释变量系数的向量,Xr为解释变量的向量;故有无条件分布的最大似然函数:
将似然函数最大化求得各个解释变量的系数β和方差α,最后得到拟合数学模型:
ln(λr)=∑t=1βtxt+β0 (4)
βt为第t个事故影响因素的系数,xt为第t个事故影响因素,β0为常数;在交通小区d中,由正影响因素Ai得出的模型对事故数量估计为μd,由负影响因素Bi得出的模型对事故数量估计为ηd。
4.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法,其特征在于,所述步骤S32中规范化处理公式为:
其中,R为交通小区d内道路数量。
5.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法,其特征在于,所述步骤S4的详细过程为:
首先,确定隐马尔可夫模型的隐状态序列I{·},方法为:
设定隐马尔可夫模型的隐状态数量S,并设整个研究区域共有K条路段,把这些路段的改进核密度的最高值记为KDk,其中,k∈[1,K],需要确定各个核密度值的相对大小,从而进行状态的划分;其中,依照从大到小的顺序对KDk进行排序,最大值为KD(K),最小值为KD(1),每一个隐状态的核密度跨度为故有隐状态序列:
然后,确定隐马尔可夫模型的观测状态序列O{·},方法为:
以各个选取路段的最高核密度值为中心,观察事故地点上游线圈在事故发生前10分钟的探测数据,获取上游平均速度值;平均速度在各个路段上的序列为:
O={o1,o2,…,oK};
进而获得区域的隐马尔可夫模型:λ=(I,O,π);
采用Baum-Welch算法来实现模型的学习,具体过程如下:
设定函数Q:
其中,P(O,I|λ)为观测序列和隐状态序列同时出现的概率,是隐马尔可夫模型的估计,λ是隐马尔可夫模型;展开上式并对参数求极值,最终得到初始状态、状态转移概率、发射概率的重估公式:
πi=γ1(i) (8)
并有:
其中,是从隐状态in转移到隐状态in+1的概率,也称为状态转移概率;/>为in隐状态时获得on这个观测状态的概率;i,j是隐状态序列I中的任意两个隐状态;
αk(i)为前向概率,是指在隐马尔可夫模型λ已知的情况下,从路段1到路段k的观测序列为O={o1,o2,…,ok}并有路段k的隐状态为i的概率;
βk(i)为后向概率,是指已知路段k隐状态为i和隐马尔可夫模型λ的条件下,从观测序列为k+1到K的观测序列为ok+1,ok+2,...,oK的概率,使用上述公式得到更新的隐马尔可夫模型再继续进行重新估计,直到满足收敛条件/>从而得到一个隐马尔可夫模型,此模型的隐状态数量为S;
继续创建隐状态数为S-1,S-2,…,3,2的隐马尔可夫模型,然后采用BIC准则评估各个模型,具体方式如下:
BIC=u ln(M)-2ln(L) (13)
其中,u是模型的总参数数量,上述隐马尔可夫模型中,总的参数数量为N+N2+NK,M是观测数据的样本数量,即观测序列的长度K,ln(L)是模型的对数似然函数值,隐马尔可夫模型的似然函数是给定模型下,所有观测状态序列发生的概率可表示为:
P(O|I,O,π)=∑IP(O|I,λ)P(I|λ) (14)
计算不同隐状态数的隐马尔可夫模型的BIC指标,选择具有最小BIC值的模型作为最终模型;
给定路段交通流数据检测序列,使用维特比算法进行状态解码,从而可以得到各个路段的改进核密度隐状态序列I={·},其中包含的信息是每个路段的改进核密度预测值。
6.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法,其特征在于,所述步骤S5时间成本CT的计算方法为:
定义持续时间为[0,1)小时的事故为轻度影响,持续时间为[1,2)小时的事故为中度影响,持续时间为[2,3)小时的事故为重度影响;
时间成本计算方法如下:CT=7a1+5a2+3a3;
a1、a2、a3分别为路段上各信息对属于重度影响、中度影响、轻度影响的数量。
7.根据权利要求1所述的基于多源数据的道路交通事故风险预测方法,其特征在于,所述步骤S5空间成本CS的计算方法如下:
若路段是单向四车道路段,则路段上交通事故记录的空间成本风险为:CS1=b1+4b2+4b3+5b4,其中,b1、b2、b3、b4分别为交通事故占据最右侧车道、右侧第二条车道、左侧第二条车道、最左侧车道的情形出现次数;
若路段是单向三车道路段,则路段上交通事故记录的空间成本风险为:CS2=b5+4b6+5b7,其中,b5、b6、b7分别为交通事故占据最右侧车道、中间车道、最左侧车道的情形出现次数;
若路段是单向双车道路段,则路段上交通事故记录的空间成本风险为:CS3=5b8+5b9,其中,b8、b9分别为交通事故占据右侧车道和左侧车道的情形出现次数;
若路段是单向单车道路段,则路段上交通事故记录的空间成本风险为:CS4=5b10,b10为交通事故发生次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311476522.4A CN117455237A (zh) | 2023-11-07 | 2023-11-07 | 一种基于多源数据的道路交通事故风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311476522.4A CN117455237A (zh) | 2023-11-07 | 2023-11-07 | 一种基于多源数据的道路交通事故风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117455237A true CN117455237A (zh) | 2024-01-26 |
Family
ID=89588925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311476522.4A Pending CN117455237A (zh) | 2023-11-07 | 2023-11-07 | 一种基于多源数据的道路交通事故风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117455237A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829613A (zh) * | 2024-03-04 | 2024-04-05 | 深圳大学 | 海运事故影响因素分析方法、系统、智能终端及介质 |
CN118197095A (zh) * | 2024-05-20 | 2024-06-14 | 东揽(南京)智能科技有限公司 | 一种交通事故的安全预警方法 |
CN118378901A (zh) * | 2024-06-25 | 2024-07-23 | 山东交通学院 | 一种高速公路交通事故影响程度动态评价方法及设备 |
-
2023
- 2023-11-07 CN CN202311476522.4A patent/CN117455237A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117829613A (zh) * | 2024-03-04 | 2024-04-05 | 深圳大学 | 海运事故影响因素分析方法、系统、智能终端及介质 |
CN118197095A (zh) * | 2024-05-20 | 2024-06-14 | 东揽(南京)智能科技有限公司 | 一种交通事故的安全预警方法 |
CN118378901A (zh) * | 2024-06-25 | 2024-07-23 | 山东交通学院 | 一种高速公路交通事故影响程度动态评价方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Analysis of factors affecting the severity of automated vehicle crashes using XGBoost model combining POI data | |
Dabiri et al. | Developing a Twitter-based traffic event detection model using deep learning architectures | |
Yao et al. | From Twitter to traffic predictor: Next-day morning traffic prediction using social media data | |
Lin et al. | Real-time traffic accidents post-impact prediction: Based on crowdsourcing data | |
CN117455237A (zh) | 一种基于多源数据的道路交通事故风险预测方法 | |
RU2406158C2 (ru) | Способы предсказания пунктов назначения из частичных траекторий, применяющие способы моделирования открытого и замкнутого мира | |
CN112749825B (zh) | 预测车辆的目的地的方法和装置 | |
CN112418696B (zh) | 城市交通动态知识图谱的构建方法及装置 | |
Wang et al. | Estimating urban traffic congestions with multi-sourced data | |
CN113570867B (zh) | 一种城市交通状态预测方法、装置、设备及可读存储介质 | |
Zhou et al. | Modeling discretionary lane-changing behavior on urban streets considering drivers’ heterogeneity | |
Moosavi et al. | Characterizing driving context from driver behavior | |
Iranmanesh et al. | Identifying high crash risk segments in rural roads using ensemble decision tree-based models | |
Wang et al. | The level of delay caused by crashes (LDC) in metropolitan and non-metropolitan areas: a comparative analysis of improved Random Forests and LightGBM | |
Al-Qaness et al. | Real-time traffic congestion analysis based on collected tweets | |
CN113609842A (zh) | 一种获取景区评论数据、旅行体验评价的方法 | |
Elalouf et al. | Developing machine-learning-based models to diminish the severity of injuries sustained by pedestrians in road traffic incidents | |
CN116824868B (zh) | 车辆非法停驻点识别及拥堵预测方法、装置、设备及介质 | |
Feng et al. | Integrated imputation of activity-travel diaries incorporating the measurement of uncertainty | |
Ara et al. | Identifying the Severity of Road Accident Impact on Traffic Flow by Ensemble Model | |
CN113688274B (zh) | 骑行路线生成方法、装置、设备及存储介质 | |
CN115878877A (zh) | 基于概念漂移的航空服务器访问爬虫的可视检测方法 | |
Xiong et al. | Exploring the Citywide Human Mobility Patterns of Taxi Trips through a Topic‐Modeling Analysis | |
Dunne et al. | A large scale method for extracting geographical features on bus routes from OpenStreetMap and assessment of their impact on bus speed and reliability | |
Ning | Prediction and detection of urban trajectory using data mining and deep neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |