CN113077625A

CN113077625A - 一种道路交通事故形态预测方法

Info

Publication number: CN113077625A
Application number: CN202110312213.8A
Authority: CN
Inventors: 石琴; 胡宗品; 陈一锴; 骆仁佳; 于淑君
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2021-07-06
Anticipated expiration: 2041-03-24
Also published as: CN113077625B

Abstract

本发明公开了一种道路交通事故形态预测方法，其步骤如下：1、采集和处理道路交通事故数据；2、采用最小描述长度准则对交通事故数据中的连续自变量进行离散化；3、采用数据挖掘领域中基于关联规则的属性选择方法，挖掘自变量间的交互作用；4、建立混合Logit模型，并采用极大似然估计法进行参数估计；5、基于构建的混合Logit模型，进行交通事故形态概率的预测。本发明在连续自变量离散过程中充分利用预测变量的信息并挖掘变量间交互作用对事故形态的影响，以降低被离散变量的信息损失，克服忽略变量间交互作用导致错误推论的问题，从而提高交通事故形态预测模型的预测精度，为道路交通安全环境的改善提供技术支持。

Description

一种道路交通事故形态预测方法

技术领域

本发明涉及一种道路交通事故形态预测方法，属于道路交通安全分析技术领域。

背景技术

《道路安全全球现状报告2018》数据显示，全球每年交通事故死亡人数攀升至135万人，其中，80％的死亡交通事故发生在中等收入国家。作为最大的中等收入国家，中国每年发生24万余起交通事故，造成6万余人死亡，交通安全形势严峻。对于不同形态的交通事故，其影响因素具有显著差异。构建交通事故形态与驾驶员、道路、环境等影响因素间的关系，从而进行交通事故形态的预测，是重要的交通安全改善措施之一。

在事故形态预测方法方面，Probit、多项Logit等固定参数离散选择模型得到了广泛的应用。然而，此类方法忽略了交通事故数据中普遍存在的未观测到的异质性，常导致有偏差的参数估计。相较于固定参数离散选择模型，混合Logit模型通过假定变量系数为随机参数反映交通事故数据的异质性。然而，该方法在事故形态预测方面存在以下问题：(1)对于交通事故数据中的连续自变量，多采用无监督离散化算法进行离散化，离散过程中无法考虑自变量与预测变量间的关系，造成被离散自变量信息损失严重；(2)交通事故的发生通常取决于多个自变量的共同作用，上述方法忽略了变量间交互作用对事故形态的影响，易导致错误的预测和推论。

发明内容

本发明为克服现有技术的不足之处，提出了一种道路交通事故形态预测方法，以期在连续自变量离散过程中充分利用预测变量的信息并挖掘变量间交互作用对事故形态的影响，以降低被离散变量的信息损失，克服忽略变量间交互作用导致错误推论的问题，从而提高交通事故形态预测模型的预测精度。

为达到上述目的，本发明采用如下技术方案：

本发明一种道路交通事故形态预测方法的特点是按如下步骤进行：

步骤1、采集和处理道路交通事故数据；

步骤1.1、从道路交通事故数据库中获取N起交通事故，构成交通事故数据D；定义交通事故数据集D中影响交通事故形态的自变量集合为X＝{x¹,x²,…,x^k,…,x^K}，其中，x^k表示第k个自变量，k＝1,2,...,K，令{x¹,x²,…,x^k}为分类自变量集合，{x^k+1,x^k+2,…,x^k+l,…,x^K}为连续自变量集合，l＝1,2,...,K-k；

步骤1.2、依据事故发生时的具体情形，将交通事故形态分为车辆间事故y₁、车辆与行人事故y₂、单车事故y₃，从而得到由三类事故构成的预测变量Y＝{y₁,y₂,y₃}；

步骤2、采用最小描述长度准则对连续自变量集合{x^k+1,x^k+2,…,x^k+l,…,x^K}进行离散化；

步骤2.1、初始化l＝1；

步骤2.2、由交通事故数据集D中各起交通事故的第l个连续自变量x^k+l构成连续自变量值集合

并对连续自变量值集合

进行降序排列；

步骤2.3、利用式(1)得到连续自变量x^k+l与预测变量Y的信息熵E(D)：

式(1)中，|Y|表示交通事故数据集D中预测变量Y的种类；p_yi表示第i类事故y_i在事故数据集D中所占的比例；i＝1,2,3；

步骤2.4、根据信息增益最大化原则遍历寻找第l个连续自变量x^k+l的最优离散点b_l，以最优离散点b_l为界将交通事故数据集D分为第一子集D₁和第二子集D₂，并利用式(2)计算离散所得的信息增益G(b_l,D)：

式(2)中，|D₁|、|D₂|、|D|分别表示第一子集D₁、第二子集D₂、交通事故数据集D中的交通事故案例数；E(D₁)和E(D₂)分别为第一子集D₁和第二子集D₂的信息熵；

步骤2.5、利用式(3)计算停止准则S：

式(3)中，|Y₁|、|Y₂|分别表示第一子集D₁、第二子集D₂中预测变量的种类；

步骤2.6、判断信息增益G(b_l,D)是否大于停止准则S，若大于，则表示最优离散点b_l有效，将最优离散点b_l添加到离散点集合B中；分别将第一子集D₁和第二子集D₂替换交通事故数据集D，按照步骤2.4-步骤2.6的过程，在第一子集D₁和第二子集D₂中寻找下一最优离散切点；否则，执行步骤2.7；

步骤2.7、将l+1赋值给l后，判断l是否大于K-k，若成立，则表示连续自变量集合

中所有连续自变量均已离散化，输出各连续自变量的离散点集合B后，执行步骤2.8；否则，返回步骤2.2执行；

步骤2.8、基于离散点集合B对各连续自变量进行离散化，使得所有自变量均转化为分类自变量，从而得到离散后的自变量集合X_MDLP＝{x¹,x²,…,x^k,x ^k+1 ,x ^k+2 ,x ^k+l ,…,x ^K }；其中，x^k+l表示第k+l个分类自变量；

步骤3、采用基于关联规则的属性选择方法挖掘自变量间的交互作用；

步骤3.1、定义关联规则为A→B，其中，A为规则前件，B为规则后件，→为关系符号；将离散后的自变量集合X_MDLP＝{x¹,x²,…,x^k,x ^k+1 ,x ^k+2 ,x ^k+l ,…,x ^K }中各因素分别设定为规则前件A，预测变量Y的各类别事故设定为规则后件B；

步骤3.2、分别定义关联规则A→B的支持度Support(A→B)、置信度Confidence(A→B)、提升度Lift(A→B)，如式(4)、式(5)、式(6)所示：

式(4)、式(5)、式(6)中，N为交通事故的样本总数，P(A∩B)表示交通事故数据中因素A和因素B同时发生的频次；P(A)、P(B)分别表示因素A、因素B在交通事故数据中出现的频次；

步骤3.3、定义并初始化关联规则A→B的最小支持度minSup、最小置信度minConf和最小提升度minLift；

步骤3.4、挖掘关联规则A→B的支持度Support(A→B)、置信度Confidence(A→B)、提升度Lift(A→B)；

步骤3.5、定义基于关联规则A→B的属性选择方法的三种受约束规则，分别是强关联规则SAR、分类关联规则CAR、原子型关联规则AAR；

步骤3.5.1、利用式(7)得到强关联规则SAR的表达式：

Support(A→B)>minSup∧Confidence(A→B)>minConf∧Lift(A→B)>minLift(7)

式(7)中，∧表示且；

步骤3.5.2、离散后的自变量集合X_MDLP＝{x¹,x²,…,x^k,x ^k+1 ,x ^k+2 ,x ^k+l ,…,x ^K }中，令|x^k|为第k个自变量x_k的值域；1≤k≤K；

步骤3.5.3、定义影响因素值集FVIS为所有自变量可能取值的集合，即

定义目标值集TVIS为所有预测变量可能取值的集合，即TVIS＝|Y|；

步骤3.5.4、利用式(8)得到分类关联规则CAR的表达式：

式(8)中，|B|为预测变量的种类；

步骤3.5.3、利用式(9)得到原子型关联规则AAR的表达式：

式(8)中，|A|为自变量种类的数量；

步骤3.6、令所有满足分类关联规则CAR的关联规则A→B构成CARset，满足原子型关联规则AAR的关联规则A→B构成原子型关联规则集合AARset；

步骤3.7、对原子型关联规则集合AARset中的关联规则A→B依照置信度进行降序排列；

步骤3.8、依次判定原子型关联规则AAR的规则后件是否出现在分类关联规则集合CARset的规则前件中，若存在，认定原子型关联规则集合AAR的规则后件为冗余变量，从分类关联规则集合CARset中将所有带有原子型关联规则AAR规则后件的关联规则A→B删除；

步骤3.9、按照步骤3.8进行处理，直至原子型关联规则集合AARset为空时为止；

步骤3.10、将分类关联规则集合CARset中剩余关联规则A→B映射到相应的自变量，从而获得包含变量间交互作用的自变量集合Set；

步骤4、基于混合Logit原理构建事故形态预测模型；

步骤4.1、利用式(10)建立混合Logit模型：

式(10)中，P_n(y_i)表示第n起交通事故的事故形态为y_i的概率，

表示第n起交通事故的事故形态为y_i时自变量的参数向量，

表示自变量

所估计参数的向量形式；

表示随机参数β的概率密度函数，β和

分别表示概率密度函均值和方差参数的向量形式；

步骤4.2、将包含变量间交互作用的自变量集合Set中各影响因素纳入混合Logit模型，并采用极大似然估计法对混合Logit模型的参数进行估计；

步骤4.3、根据步骤4.2中获得的混合Logit模型参数估计值Par，在所设定的置信水平下，采用逐步回归法对混合Logit模型的参数进行筛选，筛选得到混合Logit模型的参数估计值

步骤5、基于构建的混合Logit模型，进行交通事故形态概率的预测；

步骤5.1、获取实时影响交通事故形态的自变量信息；

步骤5.2、将步骤5.1中获取的自变量信息输入式(11)，计算得到相应自变量信息条件下事故形态为y_i的效用函数

式(11)中，

表示混合Logit模型参数估计值

中事故形态为y_i时的参数向量；

步骤5.3、利用式(12)得到实时影响交通事故形态的自变量信息条件下事故形态为y_i的预测概率

式(12)中，

表示总效用函数。

与现有技术相比，本发明的有益效果体现在：

1、本发明方法针对传统无监督离散化算法造成被离散自变量信息损失严重的问题，创新性地采用有监督离散算法中的最小描述长度准则进行连续变量离散化，降低了被离散自变量的信息损失，有利于寻求更优的离散点位置，从而提升了模型的预测精度；

2、本发明方法通过基于关联规则的属性选择方法挖掘自变量间的交互作用，并将自变量间的交互作用纳入混合Logit模型，有助于深入理解自变量间的交互作用对交通事故形态概率的影响，克服了忽略变量间交互作用导致错误推论的不利影响；

3、本发明方法提出一种包含变量间交互作用的混合Logit模型，为交通事故形态概率的预测提供了新的解决方法，为改善道路交通安全环境提供技术支持。

附图说明

图1为本发明方法的流程图；

图2为本发明最小描述长度准则的流程图；

图3为本发明基于关联规则的属性选择方法的流程图。

具体实施方式

本实施例中，如图1所示，一种道路交通事故形态预测方法，以广东省深圳市死亡交通事故数据为例，按如下步骤进行：

步骤1、采集和处理深圳市死亡道路交通事故数据；

步骤1.1、从道路交通安全研究信息共享平台采集深圳市2014至2016年的道路交通事故数据，筛选出死亡交通事故数据，删除交通事故数据库中记录不全(具有空白项)或记录不合理的事故数据，共获取1264(N＝1264)起死亡交通事故数据作为交通事故数据集D，从机动车驾驶员、车辆、道路、环境和时间五个方面选取了16(K＝16)潜在影响事故形态的自变量，构成影响交通事故形态的自变量集合X＝{x¹,x²,…,x^k,…,x^K}，其中驾驶员年龄、事故发生时间为连续自变量，所以分类变量集合为{x¹,x²,…,x¹⁴}，k＝14，连续自变量集合为{x¹⁴⁺¹,x¹⁴⁺²}，各自变量的描述性统计见表1；

表1自变量的描述性统计

注：18岁以下驾驶员均为无证的摩托车驾驶员，*表示该变量为基准变量。

步骤2.1、图2为本发明所述最小描述长度准则的流程图，K＝16，k＝14，初始化l＝1；

并根据连续自变量x^k+l的值进行降序排列；

步骤2.5、利用式(3)计算停止准则S：

步骤2.6、判断信息增益G(b_l,D)是否大于停止准则S，若大于，则表示最优离散点b_l有效，将最优离散点b_l添加到离散点集合B中；并分别将第一子集D₁和第二子集D₂替换交通事故数据集D，按照步骤2.4-步骤2.6的过程，在第一子集D₁和第二子集D₂中寻找下一最优离散切点；否则，执行步骤2.7；

步骤2.8、基于离散点集合B对分别连续自变量驾驶员年龄和事故发生时间进行离散化，使得自变量均转化为分类自变量，得到离散后的连续自变量集合X_MDLP＝{x¹,x²,…,x^k,x ^k+1 ,x ^k+2 ,x ^k+l ,…,x ^K }；其中，x ^k+l 表示第k+l个分类变量；离散化结果见表2；

表2连续自变量的离散化

注：*表示该变量为基准变量。

步骤3.1、定义关联规则为A→B，其中，A为规则前件，B为规则后件，→为关系符号；如图2所示，将离散后的自变量集合X_MDLP＝{x¹,x²,…,x^k,x ^k+1 ,x ^k+2 ,x ^k+l ,…,x ^K }中的各因素分别设定为规则前件A，预测变量Y的各类别事故设定为规则后件B；

步骤3.3、如图3所示，定义并初始化关联规则A→B的最小支持度minSup＝10％、最小置信度minConf＝50％和最小提升度minLift＝100％；

步骤3.5.1、利用式(7)得到强关联规则SAR的表达式：

Support(A→B)>minSup∧Confidence(A→B)>minConf∧Lift(A→B)>minLift(7)

式(7)中，∧表示且；

步骤3.5.4、利用式(8)得到分类关联规则CAR的表达式：

式(8)中，|B|为预测变量的种类；

步骤3.5.3、利用式(9)得到原子型关联规则AAR的表达式：

式(8)中，|A|为自变量种类的数量；

步骤4、基于混合Logit原理构建事故形态预测模型；

步骤4.1、利用式(10)建立混合Logit模型：

式(10)中，P_n(y_i)表示第n起交通事故的事故形态为y_i的概率，

表示第n起交通事故的事故形态为y_i时自变量的参数向量，

表示自变量

所估计参数的向量形式；

表示随机参数β的概率密度函数，β和

分别表示概率密度函均值和方差参数的向量形式；

步骤4.2、将包含变量间交互作用的自变量集合Set中各影响因素纳入混合Logit模型，应用软件SAS9.4，采用极大似然估计法对混合Logit模型的参数进行估计；

步骤4.3、根据步骤4.2中获得的混合Logit模型参数估计值Par，在90％置信水平下，采用逐步回归法对混合Logit模型的参数进行筛选，筛选得到混合Logit模型的参数估计值

见表3；

表3死亡交通事故形态的混合Logit模型参数估计结果

步骤5.1、获取实时影响交通事故形态的自变量信息；；

步骤5.1.1、如表3所示，混合Logit模型参数估计结果表明，影响死亡交通事故形态的自变量包括：驾驶员年龄、车辆类型、道路隔离形式、路口路段类型、道路线形、事故发生时间、照明条件、天气与交通事故形态显著相关；从城市道路智能交通视频监控系统的视频数据中的获取驾驶员年龄、车辆类型数据；基于道路设计资料获取道路隔离形式、路口路段类型、道路线形数据；通过气象部门获取事故发生时间、照明条件和天气数据；

步骤5.2、将步骤5.1中获取的影响交通事故形态的自变量信息输入式(11)，计算得到该交通信息条件下事故形态为y_i的效用函数

式(11)中，

表示混合Logit模型参数估计值

中事故形态为y_i时的参数向量；

步骤5.3、利用式(12)得到当前自变量信息条件下事故形态为y_i的预测概率

式(12)中，

表示总效用函数；

步骤5.4、根据步骤5.3得到当前自变量信息条件下各形态交通事故的预测概率，基于车联网无线通讯技术将信息传输给车载通讯设备，并通过智能语音播报装置对驾驶员应重点预防的交通事故形态做出预警提醒。例如，非平直道路上，14至21岁摩托车驾驶员发生单车事故的概率高达96.38％，发生车辆间事故、车辆与行人事故的概率分别为1.49％和2.14％。当14至21岁摩托车驾驶员即将行驶到非平直道路时，通过智能语音播报装置对摩托车驾驶员发出前方高概率单车事故的预警，提醒驾驶员谨慎降速行驶，从而实现对驾驶员的精准管控，保障行车安全。