CN114817371A - 一种基于XGBoost的车辆行驶工况识别方法 - Google Patents
一种基于XGBoost的车辆行驶工况识别方法 Download PDFInfo
- Publication number
- CN114817371A CN114817371A CN202210522785.3A CN202210522785A CN114817371A CN 114817371 A CN114817371 A CN 114817371A CN 202210522785 A CN202210522785 A CN 202210522785A CN 114817371 A CN114817371 A CN 114817371A
- Authority
- CN
- China
- Prior art keywords
- data
- xgboost
- training
- vehicle
- driving
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 80
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 11
- 238000002360 preparation method Methods 0.000 claims abstract description 6
- 238000004519 manufacturing process Methods 0.000 claims abstract description 5
- 238000007635 classification algorithm Methods 0.000 claims abstract description 4
- 230000001133 acceleration Effects 0.000 claims description 30
- 230000009467 reduction Effects 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 18
- 238000003066 decision tree Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000007621 cluster analysis Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011160 research Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 238000013459 approach Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000012847 principal component analysis method Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 2
- 239000002131 composite material Substances 0.000 claims description 2
- 230000006855 networking Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000011217 control strategy Methods 0.000 description 6
- 238000012544 monitoring process Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 4
- 238000000513 principal component analysis Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000004134 energy conservation Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 239000000446 fuel Substances 0.000 description 2
- 235000018185 Betula X alpestris Nutrition 0.000 description 1
- 235000018212 Betula X uliginosa Nutrition 0.000 description 1
- 241000122205 Chamaeleonidae Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 239000002826 coolant Substances 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 239000000376 reactant Substances 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于XGBoost的车辆行驶工况识别方法,首先通过车联网服务云平台数据库中获取车辆有效历史行车数据,并进行处理,形成适用XGBoost分类算法模型的车辆行驶数据样本;再对XGBoost分类识别模型进行训练数据集准备,经处理形成适用于无监督学习算法的初始数据集;分析确定出初始数据集中各样本数据行驶工况类型标签,形成分类识别模型训练数据集;利用带有行驶工况类别标签的数据集训练XGBoost分类识别模型,经超参数调整后,准确率达到最优;最终利用训练好的XGBoost车辆行驶工况识别模型对车辆行驶数据样本进行识别,并对行驶工况类型进行统计。本发明简单高效,具有较强的泛化能力,可在多种平台下进行部署应用,利于实际生产应用。
Description
技术领域
本发明涉及一种车辆行驶工况识别方法,尤其是一种基于XGBoost的车辆行驶工况识别方法,属于智能网联汽车数据分析技术领域。
背景技术
当前国内汽车保有量不断增长,车联网数据也正在爆发式增长,而这些数据犹如巨大的矿产资源,利用数据分析、机器学习、深度学习从大量的车联网数据中挖掘出有价值的信息,对于提高用户安全出行行为以及车辆节能环保具有重要的意义。
行驶工况反映汽车在行驶过程中速度随时间的变化曲线,通过该曲线可以看出汽车在运行过程中所处的道路环境类型,汽车的行驶工况影响着汽车的安全性与经济性能等,实时的分析汽车所处的工况,对各个汽车生产厂家在开发新能源汽车的过程中具有重要的参考意义,对无人驾驶等策略研究提供丰富的研究素材,同时通过研究汽车的行驶工况,有利于设计更为精准的能量管理策略,增强汽车的燃油利用率。
因而在汽车远程监控管理系统的功能开发和车辆控制器控制策略设计过程中,对汽车运行数据进行挖掘分析,将行驶工况这一信息引入到监控管理系统和车辆控制策略中,来提高车辆行驶安全性和节能环保是一个亟待解决的问题。为此,提出一种基于XGBoost的车辆行驶工况识别方法,显得尤为重要。
发明内容
本发明的目的在于针对现有技术存在的问题,提出一种基于XGBoost的车辆行驶工况识别方法,能够对车辆行驶工况进行识别与统计,充分利用现有车辆各硬件设施性能,从而对车辆行驶道路环境类型进行进一步研究分析,实现汽车远程监控管理系统功能开发以及设计良好的车辆控制器控制策略。
本发明的具体技术方案如下:一种基于XGBoost的车辆行驶工况识别方法,包括如下具体步骤:
步骤1,由企业车联网服务云平台数据库中获取车辆某一天24小时有效历史行车数据,所述行车历史数据为依维柯现有车辆网硬件设备能够采集到的数据信息,包括数据采集时间、车速、累计里程、经度、纬度、大气压力(kPa)、发动机净输出扭矩(%)、发动机转速(rpm)、发动机燃料流量(L/h)、反应剂余量(%)、进气量(kg/h)、SCR入口温度(℃)、DPF压差(kPa)、发动机冷却液温度(℃)、油箱液位(%)等,本发明主要所需为数据采集时间、车辆行驶车速和经纬度位置信息这三种。
步骤2,对前述步骤中的历史行驶数据进行处理,形成适用XGBoost分类算法模型的车辆行驶数据样本;
步骤3,对XGBoost分类识别模型进行训练数据集准备,通过采集某一地区道路或者采用车辆标准行驶循环工况数据,经处理形成适用于无监督学习算法的初始数据集;
步骤4,前述步骤中形成的初始数据集经无监督学习算法学习后,分析确定出初始数据集中各样本数据行驶工况类型标签,形成分类识别模型训练数据集;
步骤5,利用带有行驶工况类别标签的数据集训练XGBoost分类识别模型,经超参数调整后,准确率达到最优;
步骤6,利用训练好的XGBoost车辆行驶工况识别模型对车辆行驶数据样本进行识别,并对行驶工况类型进行统计。
进一步的,所述步骤2中,历史行驶数据的处理步骤具体为:
步骤2.1,将步骤1获取的历史行车数据表示为Data=[T Veh_v Lon Lat],其中车辆数据采集时间T=[t1 t2…tn],间隔时间1s采集一次车辆状态信息;
车辆运行状态信息为行驶车速Veh_v=[v1 v2…vn];
位置信息为经度Lon=[lon1 lon2…lonn],纬度Lat=[lat1 lat2…latn];
步骤2.2,待识别行驶数据Data分块处理,将行驶数据Data从第一个速度不为0的时间点开始以固定行驶时间t进行窗口化划分,得到行驶数据工况块;
步骤2.3,对每一个工况块的速度信息差值求取加速度信息;
步骤2.4,计算各工况块的特征参数信息,所述特征参数信息为15种,包括平均车速、运行时平均车速、最大车速、速度标准差、平均加速度、最大加速度、平均减速度、最大减速度、加速度标准差、减速度标准差、加速时间比例、减速时间比例、怠速时间百分比、巡航时间百分比及高速时长占比;
步骤2.5,各特征参数信息的计算公式分别为:
最大车速:vmax=max(v1,v2,v3,v4,…,vn);
最大加速度:amax=max(a1,a2,a3,a4,…,an);
最大减速度:dmax=max(d1,d2,d3,d4,…,dn);
步骤2.6,所有的工况块对步骤2.5中十五种特征参数进行计算,然后表示为:Pre_Data=[vave vav vmax vm aav amax dav dmax am dm ap dp Sp Vp hp]。
进一步的,所述步骤3中,XGBoost分类识别模型进行训练数据集准备的具体步骤为:
步骤3.1,采集某一区域道路或者采用车辆标准行驶循环工况数据作为初始模型训练数据;
步骤3.2,将模型训练数据经步骤2的窗口化处理,并进一步进行复合划分,增加数据集样本数目,以及降低训练数据的事件偶然性和随机性,得到训练数据DataTraining;
步骤3.3,对步骤3.2中获得的训练数据DataTraining进行无监督学习,获取训练样本的真实标签,对训练样本进行归一化处理,计算公式为:
步骤3.4,经步骤3.3归一化处理后的数据进行数据降维,数据降维方法至少包括主成分分析法、自动编码器、线性判别分析、奇异值分解及局部线性嵌入方法,选用合适的降维方法对数据进行数据降维,降低模型的研究复杂度,最终获取降维数据DataDimensionality Reduction;
步骤3.5,对前述步骤中的降维数据进行聚类分析,找出数据中的类别标签,根据SSE和聚类轮廓系数以及结合日常驾驶环境类型,将行驶工况分为四类,即城市拥堵、城市、郊区、高速四种行驶工况,采用K-Means++聚类算法进行聚类分析,为了对应前述四类行驶工况,将初始聚类类别设为四种,在聚类初始时需要定义要聚类个数,然后按照四种类型聚类,聚类后对最终聚类中心进行数值分析每一类对应上述具体哪一种行驶工况类型,得到每个数据样本的真实标签,将数据标签返回至步骤3.2的训练数据DataTraining中,最终使训练数据中每条样本对应一条行驶工况类型标签。
进一步的,所述步骤3.1中,某一区域道路为具有某一地形趋势的区域,以及车辆实际生产过程中长期行驶的区域,经采集得到数据;车辆标准行驶循环工况数据为国际通用的车辆测试标准行驶工况。
进一步的,所述步骤4中,分析训练数据集中行驶工况类型标签的具体步骤为:
步骤4.1,经步骤3.5聚类分析后的标签返回到训练数据DataTraining中,以返回数据标签进行分类,对每一类数据中15种特征参数求取平均值,作为最终聚类中心;
步骤4.2,对四个聚类中心数据进行分析比较,通过分析比较对各数据标签赋予相对应的类型。
进一步的,所述步骤5中,XGBoost分类识别模型训练包括:
步骤5.1,对DataTraining数据集进行划分,其中数据集中的80%作为训练集,20%的作为验证集;
步骤5.2,利用训练集对XGBoost机器学习模型进行训练学习,采用CART回归树模型,可使用Python3语言调用Sklearn库,使用XGBoost模块进行模型训练,或使用Xgboost库原生接口进行调用学习;
步骤5.3,确定学习速率和决策树数量,选择学习速率learning_rate,一般情况下,学习速率的值为0.1,但是,对于不同的问题,理想的学习速率有时候会在0.05~0.3之间波动,选择对应于此学习速率的理想决策树数量,在此选择学习速率为0.1;
步骤5.4,给定的学习速率和决策树数量后,进行决策树特定参数调优,树的最大深度max_depth,通常在3~10之间;最小叶子节点样本权重min_child_weight;节点分裂所需的最小损失函数下降值gamma,默认为0;随机采样的比例subsample,一般在0.5~1之间;每棵随机采样的列数的占比colsample_bytree,一般在0.5~1之间,在确定一棵树的过程中,依据经验数值给予各超参数一个初始数值,利用网格搜索和三折交叉验证实现参数寻优;
步骤5.5,XGBoost正则化参数的调优,lambda和alpha参数调整,降低模型的复杂度,从而提高模型的泛化能力;
步骤5.6,降低学习速率learning_rate=0.01,调整决策树数量,重复步骤5.4和步骤5.5,进一步确定理想参数。
进一步的,所述步骤6中,XGBoost行驶工况识别模型应用步骤包括:
步骤6.1,获取步骤2.6中Pre_Data数据,利用机器学习模型XGBoost行驶工况识别模型进行识别,返回数据标签;
步骤6.2,返回的数据标签映射为相对应的行驶工况类型信息,对行驶工况类型进行统计分析,获取各类型占比数据,也通过类型占比可以看出车辆在一段时间内趋近于某一种行驶工况。
与现有技术相比,本发明的有益效果为:本发明提出的一种基于XGBoost的车辆行驶工况识别方法,通过对用户历史行车数据进行分析,识别与统计车辆行驶工况,为实现对用户出行安全性分析和监控提供数据支撑,充分利用现有车载设备以及车联网云平台数据库等条件,通过一套识别及统计方法,即可实现企业车联网云平台内所有车辆出行数据的行驶工况识别与统计或作为关键信息调节车辆控制策略,该方法简单高效,具有较强的泛化能力,可在多种平台下进行部署应用,利于实际生产应用。
附图说明
下面结合附图对发明本作进一步的说明。
图1是本发明所叙述基于XGBoost的车辆行驶工况识别与统计方法流程图。
图2是本发明所叙述历史行驶数据进行处理流程图。
图3是本发明所叙述训练数据集工况块复合划分原理图。
图4是本发明所叙述训练数据行驶工况类型标签分析流程图。
图5是本发明所叙述PCA主成分分析贡献率以及累积贡献率图。
图6是本发明所叙述SSE随聚类类别K变化曲线图。
图7是本发明所叙述K=4时轮廓系数阴影面积与平均轮廓系数图。
图8是本发明所叙述聚类中心数值分析结果图。
图9是本发明所叙述XGBoost分类模型训练流程图。
图10是本发明所叙述行驶工况识别记录及统计流程图。
具体实施方式
实施例
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图和具体实施方式,对本发明做进一步的说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,基于XGBoost的车辆行驶工况识别方法,包括如下步骤:
(1)从企业车联网服务云平台数据库中获取车辆具体某一天24小时有效行车历史数据,该行车历史数据主要包括数据采集时间、车辆行驶车速和经纬度位置信息;
(2)对历史行驶数据进行处理,形成适用XGBoost分类算法模型的车辆行驶数据样本;
(3)XGBoost分类识别模型训练数据集准备,通过采集某一地区道路或者采用车辆标准行驶循环工况数据,经处理形成适用于无监督学习算法初始数据集;
(4)初始数据集无监督学习算法学习后,分析确定出初始数据集中各样本数据行驶工况类型标签,形成分类识别模型训练数据集;
(5)利用带有行驶工况类别标签的数据集训练XGBoost分类识别模型,经超参数调整后,准确率达到最优;
(6)利用训练好的XGBoost车辆行驶工况识别模型对车辆行驶数据样本进行识别,并对行驶工况类型进行统计。
如图2所示,所述步骤(2)历史行驶数据进行处理步骤包括:
(2.1)将步骤(1)获取的数据表示为Data=[T Veh_v Lon Lat],其中车辆数据采集时间T=[t1 t2…tn],间隔时间1s采集一次车辆状态信息;
车辆运行状态信息:行驶车速Veh_v=[v1 v2…vn];
位置信息:经度Lon=[lon1 lon2…lonn],纬度Lat=[lat1 lat2…latn];
(2.2)待识别行驶数据Data分块处理,将行驶数据Data从第一个速度不为0的时间点开始以固定行驶时间t进行窗口化划分,得到行驶数据工况块;
(2.3)对每一个工况块的速度信息差值求取加速度信息;
(2.4)计算各工况块的特征参数信息,包括平均车速、运行时平均车速、最大车速、速度标准差、平均加速度、最大加速度、平均减速度、最大减速度、加速度标准差、减速度标准差、加速时间比例、减速时间比例、怠速时间百分比、巡航时间百分比、高速时长占比,共15种特征参数;
(2.5)所述的特征参数信息计算公式:
最大车速:vmax=max(v1,v2,v3,v4,…,vn);
最大加速度:amax=max(a1,a2,a3,a4,…,an);
最大减速度:dmax=max(d1,d2,d3,d4,…,dn);
(2.6)所有的工况块对(2.5)中15种特征参数进行计算,然后表示为:
Pre_Data=[vave vav vmax vm aav amax dav dmax am dm ap dp Sp Vp hp]
如图4所示,所述步骤(3)XGBoost分类模型训练数据准备步骤包括:
(3.1)采集某一区域道路或者采用车辆标准行驶循环工况数据作为初始模型训练数据;
(3.2)所述的某一区域道路为具有某一地形趋势的区域,以及车辆实际生产过程中长期行驶的区域,经采集得到数据;
(3.3)所述的车辆标准行驶循环工况数据为国际通用的车辆测试标准行驶工况;
(3.4)将模型训练数据进行步骤(2)窗口化处理,并进一步进行复合划分,如图3所示,增加数据集样本数目,以及降低训练数据的事件偶然性、随机性,得到训练数据DataTraining;
(3.5)无监督学习,获取训练样本的真实标签,对训练样本进行归一化处理,计算公式为:
(3.6)经步骤(3.5)归一化处理后的数据进行数据降维,常用的数据将为方法有主成分分析法(PCA)、自动编码器(AE)、线性判别分析(LDA)、奇异值分解(SVD)、局部线性嵌入(LLE)等方法,选用合适的将为方法对数据进行数据将为,降低模型的研究复杂度,在这里选用主成分分析方法进行数据降维,如图5所示,一般可以认为累积贡献率大于80%前n个主成分即可表达出初始数据集代表信息,为此,在这里选取累积贡献率大于85%的前四个主成分代表初始训练数据,得到降维数据DataDimensionality Reduction。
(3.7)降维数据进行聚类分析,找出数据中的类别标签,如图6和7所示,根据SSE和聚类轮廓系数曲线,可以看出当聚类类别K=4时,SSE曲线出现拐点,利用肘部法则,K=4为最佳聚类类别数,并且针对每一类别的轮廓系数面积阴影均超过样本呢平均轮廓系数虚线,故聚类个数合理的,进一步结合日常驾驶环境类型,可将行驶工况分为四类,即城市拥堵、城市、郊区、高速四种行驶工况,目前常用的聚类算法有,基于划分K-Means、K-Medoids、K-Modes、K-Medians、Kernel K-Means,基于层次BIRCH、CURE、CHAMELEON,基于密度DBSCAN、OPTICS、DENCLU等,综合考虑数据样本以及分类任务,采用K-Means++聚类算法进行聚类分析,初始聚类类别为四种,得到每个数据样本的真实标签,将数据标签返回到步骤(3.4)训练数据DataTraining中,至此训练数据中每条样本对应一条行驶工况类型标签。
如图5所示,所述步骤(4)分析训练数据集中行驶工况类型标签步骤包括:
(4.1)经步骤(3.7)聚类分析后标签返回到训练数据DataTraining中,以返回数据标签进行分类,对每一类数据中15种特征参数求取平均值,作为最终聚类中心,如图8所示,所得到的聚类中心对各特征参数数值分析后,映射相应的行驶工况类型标签,对于高速工况,从图中分析其最高车速100.4600km/h、平均车速83.770km/h相对于其它三种类型均为最大,加速度相关的特征相对最小,如最大加速度0.8155,最小减速度-3.5118,即速度波动相对于其余三种较小,巡航时间占比0.98最大,怠速时间占比0.0105最小,拥堵工况则与之相反,其余两种工况介于高速和拥堵之间。
(4.2)对四个聚类中心数据进行分析比较,通过分析比较对各数据标签赋予相对应的类型。
如图9所示,所述步骤(5)XGBoost分类识别模型训练包括:
(5.1)对DataTraining数据集进行划分,其中数据集中的80%作为训练集,20%的作为验证集;
(5.2)利用训练集对XGBoost机器学习模型进行训练学习,Xgboost是一种提升树模型,是将许多树模型集成在一起,形成一个很强的分类器,所用到的树模型则是CART回归树模型,可使用Python语言调用Sklearn库,使用XGBoost模块进行模型训练,或使用Xgboost库原生接口进行调用学习;
(5.3)确定学习速率和决策树数量,选择学习速率learning_rate,一般情况下,学习速率的值为0.1,但是,对于不同的问题,理想的学习速率有时候会在0.05~0.3之间波动,选择对应于此学习速率的理想决策树数量,在此选择学习速率为0.1;
(5.4)给定的学习速率和决策树数量后,进行决策树特定参数调优,树的最大深度max_depth,通常在3~10之间;最小叶子节点样本权重min_child_weight;节点分裂所需的最小损失函数下降值gamma,默认为0;随机采样的比例subsample,一般在0.5~1之间;每棵随机采样的列数的占比colsample_bytree,一般在0.5~1之间,在确定一棵树的过程中,依据经验数值给予各超参数一个初始数值,利用网格搜索和三折交叉验证实现参数寻优;
(5.5)XGBoost正则化参数的调优,lambda和alpha参数调整,降低模型的复杂度,从而提高模型的泛化能力;
(5.6)降低学习速率learning_rate=0.01,调整决策树数量,重复步骤(5.4)和步骤(5.5),进一步确定理想参数。
如图10所示,XGBoost行驶工况识别模型应用步骤包括:
(6.1)获取步骤(2)中Pre_Data数据,利用机器学习模型XGBoost行驶工况识别模型进行识别,返回数据标签;
(6.2)返回的数据标签映射为相对应的行驶工况类型信息,对行驶工况类型进行统计分析,获取各类型占比数据,也通过类型占比可以看出车辆在一段时间内趋近于某一种行驶工况。
在具体生产部署应用时,本发明可以运行在在线云平台服务器用户终端或中,应用部署较为灵活,可应用于多种服务框架中,作为一种简单高效的分析识别方法工具,通过调用企业内部车联网服务云平台数据库或车辆终端实时进行实时分析识别,并将识别结果传递给车联网远程监控服务云平台或车辆控制器,实现对用户驾驶车辆行驶工况分析与追踪,保障驾驶员行车安全性,或作为关键信息制定良好的控制策略,提高车辆节能环保。
总体来说,本发明提供了一种简单高效灵活泛化能力强的算法识别模型,利用大量车辆行驶数据进行分析,从大量用户行车数据中获取驾驶员在驾驶车辆时车辆所处的行驶工况状态信息,探寻车辆在行驶过程中表现出的行驶环境变化规律,以便后续结合数据挖掘、机器学习、深度学习等技术对车辆以及用户画像模型开发,以及根据车辆行驶时工况变化信息设计更加完善车辆控制策略;对于识别出的长期处于特定行驶工况的车辆,可对应车辆驾驶员制定安全教育推荐项目、UBI车险方案等风险管理措施,提高道路交通安全性并降低企业运营风险。
除上述实例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本要求的保护范围。
Claims (7)
1.一种基于XGBoost的车辆行驶工况识别方法,其特征在于:包括如下具体步骤:
步骤1,由现有车联网服务云平台数据库中获取车辆某一天24小时有效历史行车数据,所述行车历史数据至少包括数据采集时间、车辆行驶车速、经纬度位置信息;
步骤2,对前述步骤中的历史行驶数据进行处理,形成适用XGBoost分类算法模型的车辆行驶数据样本;
步骤3,对XGBoost分类识别模型进行训练数据集准备,通过采集某一地区道路或者采用车辆标准行驶循环工况数据,经处理形成适用于无监督学习算法的初始数据集;
步骤4,前述步骤中形成的初始数据集经无监督学习算法学习后,分析确定出初始数据集中各样本数据行驶工况类型标签,形成分类识别模型训练数据集;
步骤5,利用带有行驶工况类别标签的数据集训练XGBoost分类识别模型,经超参数调整后,准确率达到最优;
步骤6,利用训练好的XGBoost车辆行驶工况识别模型对车辆行驶数据样本进行识别,并对行驶工况类型进行统计。
2.根据权利要求1所述的基于XGBoost的车辆行驶工况识别方法,其特征在于:所述步骤2中,历史行驶数据的处理步骤具体为:
步骤2.1,将步骤1获取的历史行车数据表示为Data=[T Veh_v Lon Lat],其中车辆数据采集时间T=[t1 t2 … tn],间隔时间1s采集一次车辆状态信息;车辆运行状态信息为行驶车速Veh_v=[v1 v2 … vn];
位置信息为经度Lon=[lon1 lon2 … lonn],纬度Lat=[lat1 lat2 … latn];
步骤2.2,待识别行驶数据Data分块处理,将行驶数据Data从第一个速度不为0的时间点开始以固定行驶时间t进行窗口化划分,得到行驶数据工况块;
步骤2.3,对每一个工况块的速度信息差值求取加速度信息;
步骤2.4,计算各工况块的特征参数信息,所述特征参数信息为15种,包括平均车速、运行时平均车速、最大车速、速度标准差、平均加速度、最大加速度、平均减速度、最大减速度、加速度标准差、减速度标准差、加速时间比例、减速时间比例、怠速时间百分比、巡航时间百分比及高速时长占比;
步骤2.5,各特征参数信息的计算公式分别为:
最大车速:vmax=max(v1,v2,v3,v4,…,vn);
最大加速度:amax=max(a1,a2,a3,a4,…,an);
最大减速度:dmax=max(d1,d2,d3,d4,…,dn);
步骤2.6,所有的工况块对步骤2.5中十五种特征参数进行计算,然后表示为:
Pre_Data=[vave vav vmax vm aav amax dav dmax am dm ap dp Sp Vp hp]。
3.根据权利要求1所述的基于XGBoost的车辆行驶工况识别方法,其特征在于:所述步骤3中,XGBoost分类识别模型进行训练数据集准备的具体步骤为:
步骤3.1,采集某一区域道路或者采用车辆标准行驶循环工况数据作为初始模型训练数据;
步骤3.2,将模型训练数据经步骤2的窗口化处理,并进一步进行复合划分,增加数据集样本数目,以及降低训练数据的事件偶然性和随机性,得到训练数据DataTraining;
步骤3.3,对步骤3.2中获得的训练数据DataTraining进行无监督学习,获取训练样本的真实标签,对训练样本进行归一化处理,计算公式为:
步骤3.4,经步骤3.3归一化处理后的数据进行数据降维,数据降维方法至少包括主成分分析法、自动编码器、线性判别分析、奇异值分解及局部线性嵌入方法,选用合适的降维方法对数据进行数据降维,降低模型的研究复杂度,最终获取降维数据DataDimensionality Reduction;
步骤3.5,对前述步骤中的降维数据进行聚类分析,找出数据中的类别标签,根据SSE和聚类轮廓系数以及结合日常驾驶环境类型,将行驶工况分为四类,即城市拥堵、城市、郊区、高速四种行驶工况,采用K-Means++聚类算法进行聚类分析,为了对应前述四类行驶工况,将初始聚类类别设为四种,在聚类初始时需要定义要聚类个数,然后按照四种类型聚类,聚类后对最终聚类中心进行数值分析每一类对应上述具体哪一种行驶工况类型,得到每个数据样本的真实标签,将数据标签返回至步骤3.2的训练数据DataTraining中,最终使训练数据中每条样本对应一条行驶工况类型标签。
4.根据权利要求3所述的基于XGBoost的车辆行驶工况识别方法,其特征在于:所述步骤3.1中,某一区域道路为具有某一地形趋势的区域,以及车辆实际生产过程中长期行驶的区域,经采集得到数据;车辆标准行驶循环工况数据为国际通用的车辆测试标准行驶工况。
5.根据权利要求3所述的基于XGBoost的车辆行驶工况识别方法,其特征在于:所述步骤4中,分析训练数据集中行驶工况类型标签的具体步骤为:
步骤4.1,经步骤3.5聚类分析后的标签返回到训练数据DataTraining中,以返回数据标签进行分类,对每一类数据中15种特征参数求取平均值,作为最终聚类中心;
步骤4.2,对四个聚类中心数据进行分析比较,通过分析比较对各数据标签赋予相对应的类型。
6.根据权利要求1所述的基于XGBoost的车辆行驶工况识别方法,其特征在于:所述步骤5中,XGBoost分类识别模型训练包括:
步骤5.1,对DataTraining数据集进行划分,其中数据集中的80%作为训练集,20%的作为验证集;
步骤5.2,利用训练集对XGBoost机器学习模型进行训练学习,采用CART回归树模型,可使用Python3语言调用Sklearn库,使用XGBoost模块进行模型训练,或使用Xgboost库原生接口进行调用学习;
步骤5.3,确定学习速率和决策树数量,选择学习速率learning_rate,一般情况下,学习速率的值为0.1,但是,对于不同的问题,理想的学习速率有时候会在0.05~0.3之间波动,选择对应于此学习速率的理想决策树数量,在此选择学习速率为0.1;
步骤5.4,给定的学习速率和决策树数量后,进行决策树特定参数调优,树的最大深度max_depth,通常在3~10之间;最小叶子节点样本权重min_child_weight;节点分裂所需的最小损失函数下降值gamma,默认为0;随机采样的比例subsample,一般在0.5~1之间;每棵随机采样的列数的占比colsample_bytree,一般在0.5~1之间,在确定一棵树的过程中,依据经验数值给予各超参数一个初始数值,利用网格搜索和三折交叉验证实现参数寻优;
步骤5.5,XGBoost正则化参数的调优,lambda和alpha参数调整,降低模型的复杂度,从而提高模型的泛化能力;
步骤5.6,降低学习速率learning_rate=0.01,调整决策树数量,重复步骤5.4和步骤5.5,进一步确定理想参数。
7.根据权利要求1所述的基于XGBoost的车辆行驶工况识别方法,其特征在于:所述步骤6中,XGBoost行驶工况识别模型应用步骤包括:
步骤6.1,获取步骤2.6中Pre_Data数据,利用机器学习模型XGBoost行驶工况识别模型进行识别,返回数据标签;
步骤6.2,返回的数据标签映射为相对应的行驶工况类型信息,对行驶工况类型进行统计分析,获取各类型占比数据,也通过类型占比可以看出车辆在一段时间内趋近于某一种行驶工况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522785.3A CN114817371A (zh) | 2022-05-13 | 2022-05-13 | 一种基于XGBoost的车辆行驶工况识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210522785.3A CN114817371A (zh) | 2022-05-13 | 2022-05-13 | 一种基于XGBoost的车辆行驶工况识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114817371A true CN114817371A (zh) | 2022-07-29 |
Family
ID=82515201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210522785.3A Pending CN114817371A (zh) | 2022-05-13 | 2022-05-13 | 一种基于XGBoost的车辆行驶工况识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114817371A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909752A (zh) * | 2022-11-01 | 2023-04-04 | 东南大学 | 一种基于车辆用户历史数据的急转弯识别及统计方法 |
CN116187161A (zh) * | 2022-12-16 | 2023-05-30 | 江苏大学 | 一种智能网联环境下混合动力客车智能能量管理方法及系统 |
CN117273964A (zh) * | 2023-11-21 | 2023-12-22 | 国任财产保险股份有限公司 | 一种自适应行驶数据的智能车险策略生成系统及方法 |
-
2022
- 2022-05-13 CN CN202210522785.3A patent/CN114817371A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115909752A (zh) * | 2022-11-01 | 2023-04-04 | 东南大学 | 一种基于车辆用户历史数据的急转弯识别及统计方法 |
CN115909752B (zh) * | 2022-11-01 | 2023-12-15 | 东南大学 | 一种基于车辆用户历史数据的急转弯识别及统计方法 |
CN116187161A (zh) * | 2022-12-16 | 2023-05-30 | 江苏大学 | 一种智能网联环境下混合动力客车智能能量管理方法及系统 |
CN117273964A (zh) * | 2023-11-21 | 2023-12-22 | 国任财产保险股份有限公司 | 一种自适应行驶数据的智能车险策略生成系统及方法 |
CN117273964B (zh) * | 2023-11-21 | 2024-02-02 | 国任财产保险股份有限公司 | 一种自适应行驶数据的智能车险策略生成系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114817371A (zh) | 一种基于XGBoost的车辆行驶工况识别方法 | |
CN111461185A (zh) | 一种基于改进K-means的驾驶行为分析方法 | |
CN110705774A (zh) | 一种车辆能耗分析的预测方法和系统 | |
CN109840612A (zh) | 用户驾驶行为分析方法及系统 | |
CN113688558A (zh) | 一种基于大数据库样本的汽车行驶工况构建方法及系统 | |
CN110633729A (zh) | 一种面向智能网联车辆群组测试的驾驶风险分级聚类方法 | |
CN110395245B (zh) | 一种基于固定路线驾驶信息的混动汽车能量管理系统 | |
CN113581188A (zh) | 一种基于车联网数据的商用车驾驶员驾驶风格识别方法 | |
CN108491859A (zh) | 基于自动编码机的驾驶行为异质性特征的识别方法 | |
CN113297795A (zh) | 一种纯电动汽车行驶工况构建方法 | |
CN113222385B (zh) | 一种电动汽车行驶工况构建与评价方法 | |
CN113657432A (zh) | 一种基于车联网数据的商用车驾驶行为风险等级辨识方法 | |
CN115774942A (zh) | 基于车联网实车数据和svm的驾驶风格辨识模型建模与统计方法 | |
CN113297685B (zh) | 一种车辆运行工况模式识别方法 | |
CN111368879A (zh) | 一种基于深半监督神经网络的轨迹数据挖掘方法 | |
Guo et al. | Application of PCA-K-means++ combination model to construction of light vehicle driving conditions in intelligent traffic | |
CN114332825B (zh) | 基于深度学习的道路地形分布识别方法、设备和存储介质 | |
CN114611604A (zh) | 一种基于电驱总成载荷特征融合与聚类的用户筛选方法 | |
CN115221234A (zh) | 一种基于动力总成数据对用户进行画像的方法及系统 | |
CN114987504A (zh) | 一种基于增量学习的动态驾驶员身份识别方法及系统 | |
CN115718886A (zh) | 纯电动汽车行驶工况的构建方法及装置 | |
CN116881796B (zh) | 基于卡尔曼滤波的燃油车续航里程预测方法 | |
Chen et al. | Driving-data-driven platform of driving behavior spectrum for vehicle networks | |
CN114697873B (zh) | 一种基于手机传感数据实现用户身份辨识的方法及系统 | |
Yang et al. | Study on Evaluation Method of Driving Risk of New Energy Operating Vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230516 Address after: No. 8 Baihe Road, Pukou Economic Development Zone, Nanjing, Jiangsu Province, 211806 Applicant after: NANJING IVECO AUTOMOBILE Co.,Ltd. Applicant after: NANJING University OF SCIENCE AND TECHNOLOGY Address before: No.8 Baihe Road, Pukou Economic Development Zone, Qiaolin street, Pukou District, Nanjing City, Jiangsu Province, 211806 Applicant before: NANJING IVECO AUTOMOBILE Co.,Ltd. |
|
TA01 | Transfer of patent application right |