CN110824586A - 基于改进决策树算法的降水预测方法 - Google Patents
基于改进决策树算法的降水预测方法 Download PDFInfo
- Publication number
- CN110824586A CN110824586A CN201911012069.5A CN201911012069A CN110824586A CN 110824586 A CN110824586 A CN 110824586A CN 201911012069 A CN201911012069 A CN 201911012069A CN 110824586 A CN110824586 A CN 110824586A
- Authority
- CN
- China
- Prior art keywords
- training
- decision tree
- data
- network
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000001556 precipitation Methods 0.000 claims abstract description 10
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 4
- 238000004088 simulation Methods 0.000 claims description 9
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008020 evaporation Effects 0.000 description 1
- 238000001704 evaporation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01W—METEOROLOGY
- G01W1/00—Meteorology
- G01W1/10—Devices for predicting weather conditions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Environmental & Geological Engineering (AREA)
- Atmospheric Sciences (AREA)
- Biodiversity & Conservation Biology (AREA)
- Ecology (AREA)
- Environmental Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于改进决策树算法的降水预测方法,收集数年各地的气象数据,以及相应的降水等级数据;对所得到的气象数据进行归一化处理,得到相应的归一化数据集,对归一化数据集按比例进行划分为训练集与测试集;将训练集带入到改进后的决策树网络中进行训练,将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级;以决策树为核心,采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,选择影响程度最大的属性进行分枝,通过改进决策树算法进行训练,使得海量数据进行了充分的利用,提高了预测的准确率,减少误判和漏判问题的发生。
Description
技术领域
本发明涉及一种数据挖掘技术,特别涉及一种基于改进决策树算法的降水预测方法。
背景技术
随着社会经济发展以及人类本身对气象服务要求不断提升,气象领域的气象数据采集渠道日益丰富,数据规模不断增加,且其具有的空间属性、高维性、不稳定性,为研究传统气象预报模式增加巨大难度,尤其在研究各气象要素之间内部联系时,尤为乏力,从而导致获取到的大量气象资料并未有效利用,对于推动气象模式预报发展并未有实质性作用。天气系统的内部相互影响条件错综复杂,对于大量的采集数据进行分析处理时,传统的气象研究模式无法发现其隐含的价值,而数据挖掘技术为研究大量气象数据提供了新途径,为气象领域中发现各属性联系发挥着重要作用,分类挖掘技术通过有监督的学习探索历史气象数据中潜在的规律,可以提高气象预报模式的准确率。
发明内容
本发明是针对由于数据规模不断增加,随之而来的高维性与不稳定性的问题,提出了一种基于改进决策树算法的降水预测方法,通过改进决策树算法进行训练,使得海量数据进行了充分的利用,提高了预测的准确率,减少误判和漏判问题的发生。
本发明的技术方案为:一种基于改进决策树算法的降水预测方法,具体包括如下步骤:
1)收集数年各地的气象数据,以及相应的降水等级数据;
2)对所得到的气象数据进行归一化处理,得到相应的归一化数据集,对归一化数据集按比例进行划分为训练集与测试集;
3)将训练集带入到改进后的决策树网络中进行训练,将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级;
所述改进后的决策树网络是将原决策树算法中采用信息熵来进行属性的选择,选择最大属性进行分枝,修改为采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,选择影响程度最大的属性进行分枝,改进步骤如下:
3.1)首先,将归一化后的所有训练集M带入到BP网络中进行训练,在BP网络训练终止后,将训练集M中每一自变量特征在其原值的基础上分别增加10%和减少10%构成两个新的训练样本M1和M2;
3.2)然后,将M1和M2分别作为仿真样本利用已建成的BP网络进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值;
3.3)最后将影响变化值按观测例数平均得出该自变量对于BP网络输出的结果值,将其记为MIV值;
3.4)按照上面步骤依次算出各个自变量的MIV值,最后根据MIV绝对值的大小为各自变量排序,得到各自变量对BP网络输出影响相对重要性的位次表,从而判断出输入特征对于BP网络结果的影响程度,然后选择影响程度最大的属性进行分枝。
本发明的有益效果在于:本发明基于改进决策树算法的降水预测方法,方法以决策树为核心,通过改进决策树算法进行训练,提高了预测的准确率,减少误判和漏判问题的发生。
附图说明
图1为本发明基于改进决策树算法的降水预测方法流程图;
图2为本发明改进决策树算法的流程图。
具体实施方式
基于改进决策树算法的降水预测方法,如图1所示,包括步骤:
1、收集从2001-2011年各地的气象数据,以及相应的降水等级数据,将其进行整理从而得到包含各地的气象数据及相应的降水等级的数据集。
所收集的数据应包含有最大风速、极大风速、平均气压、日最高气压、日最低气压、平均相对湿度、最小相对湿度、蒸发量、平均气温、日最高气温、日最低气温、日照时数以及降水等级等属性特征。
2、对所得到的原始数据进行归一化处理,得到相应的归一化数据集。对归一化数据集按17:3比例进行划分为训练集与测试集。
归一化过程,采用[0,1]归一化,即将原始数据映射到[0,1]区间中。
3、将训练集带入到改进后的决策树网络中进行训练。将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级。
3.1、对决策树算法进行改进:
在ID3算法(ID3算法是一种贪心算法,用来构造决策树)中采用信息熵来进行属性的选择,其公式为:
在上式中,c表示数据样本所具有的属性个数,Pi表示在c个属性中第i个属性样本数所占的比例,在选择时选择E(s)最大的属性i来进行分枝。
3.2、现对其进行改进,为了改变原有的属性选择方式,用来改善原有的信息熵选择方式会导致在选择属性时偏向选择取值多的属性这一不足。在此我们采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,如图2所示,其步骤如下:
3.2.1、首先将归一化后的所有训练样本M带入到BP网络中进行训练,在BP网络训练终止后。将训练样本M中每一自变量特征在其原值的基础上分别增加10%和减少10%构成两个新的训练样本M1和M2。
3.2.2、将M1和M2分别作为仿真样本利用已建成的BP网络进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值,最后将影响变化值按观测例数平均得出该自变量对于BP网络输出的结果值,我们将其记为MIV值。
3.2.3、按照上面步骤依次算出各个自变量的MIV值,最后根据MIV绝对值的大小为各自变量排序,得到各自变量对BP网络输出影响相对重要性的位次表,从而判断出输入特征对于BP网络结果的影响程度,然后选择影响程度最大的属性进行分枝。
Claims (1)
1.一种基于改进决策树算法的降水预测方法,其特征在于,具体包括如下步骤:
1)收集数年各地的气象数据,以及相应的降水等级数据;
2)对所得到的气象数据进行归一化处理,得到相应的归一化数据集,对归一化数据集按比例进行划分为训练集与测试集;
3)将训练集带入到改进后的决策树网络中进行训练,将测试集代入到训练完毕后的决策树模型中,检验训练结果,最后将待测数据输入到训练完毕后的决策树网络进行预测,输出结果,评定其降水等级;
所述改进后的决策树网络是将原决策树算法中采用信息熵来进行属性的选择,选择最大属性进行分枝,修改为采用自变量平均影响值来进行选择,即根据属性对结果的影响大小来进行选择,选择影响程度最大的属性进行分枝,改进步骤如下:
3.1)首先,将归一化后的所有训练集M带入到BP网络中进行训练,在BP网络训练终止后,将训练集M中每一自变量特征在其原值的基础上分别增加10%和减少10%构成两个新的训练样本M1和M2;
3.2)然后,将M1和M2分别作为仿真样本利用已建成的BP网络进行仿真,得到两个仿真结果A1和A2,求出A1和A2的差值,即为变动该自变量后对输出产生的影响变化值;
3.3)最后将影响变化值按观测例数平均得出该自变量对于BP网络输出的结果值,将其记为MIV值;
3.4)按照上面步骤依次算出各个自变量的MIV值,最后根据MIV绝对值的大小为各自变量排序,得到各自变量对BP网络输出影响相对重要性的位次表,从而判断出输入特征对于BP网络结果的影响程度,然后选择影响程度最大的属性进行分枝。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911012069.5A CN110824586B (zh) | 2019-10-23 | 2019-10-23 | 基于改进决策树算法的降水预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911012069.5A CN110824586B (zh) | 2019-10-23 | 2019-10-23 | 基于改进决策树算法的降水预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110824586A true CN110824586A (zh) | 2020-02-21 |
CN110824586B CN110824586B (zh) | 2021-11-19 |
Family
ID=69550243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911012069.5A Active CN110824586B (zh) | 2019-10-23 | 2019-10-23 | 基于改进决策树算法的降水预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110824586B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111624681A (zh) * | 2020-05-26 | 2020-09-04 | 杨祺铭 | 一种基于数据挖掘的飓风强度变化预测方法 |
CN111832828A (zh) * | 2020-07-17 | 2020-10-27 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN112926664A (zh) * | 2021-03-01 | 2021-06-08 | 南京信息工程大学 | 基于进化算法的特征选择与cart森林的短时强降水预报方法 |
CN114397814A (zh) * | 2021-12-06 | 2022-04-26 | 中国电建集团贵州电力设计研究院有限公司 | 一种基于bp神经网络的火电机组最佳运行参数寻找方法 |
CN114545528A (zh) * | 2022-03-09 | 2022-05-27 | 北京墨迹风云科技股份有限公司 | 一种基于机器学习的气象数值模式要素预报后订正方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609986A (zh) * | 2008-06-20 | 2009-12-23 | 上海申瑞电力科技股份有限公司 | 基于决策树的多级联合协调自动电压控制方法 |
CN101752866A (zh) * | 2008-12-10 | 2010-06-23 | 上海申瑞电力科技股份有限公司 | 基于决策树的重载设备自动预警实现方法 |
US20140257913A1 (en) * | 2013-03-07 | 2014-09-11 | Sas Institute Inc. | Storm response optimization |
CN109447325A (zh) * | 2018-09-30 | 2019-03-08 | 广州地理研究所 | 基于随机森林算法的降水数据检测方法、装置及电子设备 |
CN109978263A (zh) * | 2019-03-27 | 2019-07-05 | 上海市园林设计研究总院有限公司 | 一种园林水系水位预警方法 |
CN110059713A (zh) * | 2019-03-07 | 2019-07-26 | 中国人民解放军国防科技大学 | 一种基于降水粒子多特征参量的降水类型识别方法 |
-
2019
- 2019-10-23 CN CN201911012069.5A patent/CN110824586B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101609986A (zh) * | 2008-06-20 | 2009-12-23 | 上海申瑞电力科技股份有限公司 | 基于决策树的多级联合协调自动电压控制方法 |
CN101752866A (zh) * | 2008-12-10 | 2010-06-23 | 上海申瑞电力科技股份有限公司 | 基于决策树的重载设备自动预警实现方法 |
US20140257913A1 (en) * | 2013-03-07 | 2014-09-11 | Sas Institute Inc. | Storm response optimization |
CN109447325A (zh) * | 2018-09-30 | 2019-03-08 | 广州地理研究所 | 基于随机森林算法的降水数据检测方法、装置及电子设备 |
CN110059713A (zh) * | 2019-03-07 | 2019-07-26 | 中国人民解放军国防科技大学 | 一种基于降水粒子多特征参量的降水类型识别方法 |
CN109978263A (zh) * | 2019-03-27 | 2019-07-05 | 上海市园林设计研究总院有限公司 | 一种园林水系水位预警方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111624681A (zh) * | 2020-05-26 | 2020-09-04 | 杨祺铭 | 一种基于数据挖掘的飓风强度变化预测方法 |
CN111832828A (zh) * | 2020-07-17 | 2020-10-27 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN111832828B (zh) * | 2020-07-17 | 2023-12-19 | 国家卫星气象中心(国家空间天气监测预警中心) | 基于风云四号气象卫星的智能降水预测方法 |
CN112926664A (zh) * | 2021-03-01 | 2021-06-08 | 南京信息工程大学 | 基于进化算法的特征选择与cart森林的短时强降水预报方法 |
CN112926664B (zh) * | 2021-03-01 | 2023-11-24 | 南京信息工程大学 | 基于进化算法的特征选择与cart森林的短时强降水预报方法 |
CN114397814A (zh) * | 2021-12-06 | 2022-04-26 | 中国电建集团贵州电力设计研究院有限公司 | 一种基于bp神经网络的火电机组最佳运行参数寻找方法 |
CN114545528A (zh) * | 2022-03-09 | 2022-05-27 | 北京墨迹风云科技股份有限公司 | 一种基于机器学习的气象数值模式要素预报后订正方法和装置 |
CN114545528B (zh) * | 2022-03-09 | 2024-02-06 | 北京墨迹风云科技股份有限公司 | 一种基于机器学习的气象数值模式要素预报后订正方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110824586B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110824586B (zh) | 基于改进决策树算法的降水预测方法 | |
CN111722046B (zh) | 一种基于深度森林模型的变压器故障诊断方法 | |
CN112101480A (zh) | 一种多变量聚类与融合的时间序列组合预测方法 | |
CN106600037B (zh) | 一种基于主成分分析的多参量辅助负荷预测方法 | |
CN110309608B (zh) | 一种针对时滞不确定信息的高炉铁水硅含量预报方法 | |
CN113076920B (zh) | 一种基于非对称域对抗自适应模型的智能故障诊断方法 | |
CN111369057A (zh) | 一种基于深度学习的空气质量预测优化方法及系统 | |
CN102867115A (zh) | 一种基于模糊c均值聚类的农田划分方法 | |
CN116699096B (zh) | 一种基于深度学习的水质检测方法和系统 | |
CN110147760A (zh) | 一种高效电能质量扰动图像特征提取与识别新方法 | |
CN110990784A (zh) | 一种基于梯度提升回归树的烟支通风率预测方法 | |
CN112270129A (zh) | 一种基于大数据分析的植物长势预测方法 | |
CN115718746A (zh) | 基于机器学习的稻田甲烷排放量预测方法 | |
CN114662790A (zh) | 一种基于多维数据的海参养殖水温预测方法 | |
CN116796403A (zh) | 一种基于商业建筑综合能耗预测的建筑节能方法 | |
CN114217025B (zh) | 评估空气质量浓度预测中气象数据对其影响的分析方法 | |
CN118332521B (zh) | 一种基于粒子群优化随机森林的地壳形变时序模拟方法 | |
CN112651173B (zh) | 一种基于跨域光谱信息的农产品品质无损检测方法及可泛化系统 | |
CN108428038A (zh) | 基于gam模型的土壤锌含量影响因素分析方法 | |
CN107808245A (zh) | 基于改进决策树方法的管网调度系统 | |
CN116488151A (zh) | 一种基于条件生成对抗网络的短期风电功率预测方法 | |
CN115907178A (zh) | 一种净生态系统co2交换量的预测方法 | |
CN115601634A (zh) | 一种基于层次性注意力机制的图像叶片识别方法及装置 | |
CN105139025A (zh) | 基于非线性分析方法的气固流化床流型在线智能识别方法 | |
CN117522950B (zh) | 一种基于机器视觉的植物茎杆生长的几何参数测量方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231228 Address after: Room 109, office building 2, No. 516, Jungong Road, Yangpu District, Shanghai 200093 Patentee after: Shanghai science and technology assets management Co.,Ltd. Address before: 200093 No. 516, military road, Shanghai, Yangpu District Patentee before: University of Shanghai for Science and Technology |