CN113987912A

CN113987912A - 一种基于地理信息的污染物在线监测系统

Info

Publication number: CN113987912A
Application number: CN202111103158.8A
Authority: CN
Inventors: 唐兆民; 唐启师; 唐鑫钊; 王玉玲
Original assignee: Longdong University
Current assignee: Longdong University
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2022-01-28

Abstract

本发明公开的一种基于地理信息的污染物在线监测系统，是一种改进的集成学习方法S‑MStacking，通过交叉验证的思想将训练数据集划分为多个训练子集，依次利用训练子集训练得到多个基础学习器；然后利用改进选择集成方法对参与集成的基础学习器进行选择；利用多目标优化算法MOBA在新的基础学习器集合中选择参与最终集成的基础学习器；利用改进Stacking集成策略MStacking对选择出基础学习器进行集成。基于S‑MStacking集成方法建立空气污染物浓度预测模型，以PM2.5浓度为预测目标，设置单一模型对比实验和不同集成方法对比实验验证本文提出的改进的集成方法的有效性，表明利用所提出的方法构建的模型在预测准确性和稳定性上都有一定程度的提升。

Description

一种基于地理信息的污染物在线监测系统

技术领域

本发明属于计算机领域和地理信息领域的交叉融合，具体的，涉及一种基于地理信息的污染物在线监测系统。

背景技术

随着经济规模的不断扩大和城市化进程的加快，对能源和资源的需求不断增长，我国大气污染问题日益突出，呈现出以PM2.5和O3为特征污染物的区域大气复合污染特征。众多研究表明，人为或自然排放的颗粒物(PM)是造成我国北方大气污染的主要原因之一，更是造成雾霾天气的主要污染物。受区域气候、气象条件、排放量空间分布和地形条件等综合因素影响，各地区大气污染特征及污染成因差异明显，运用观测和数值模拟的方法，研究区域大气污染成因是科学制定污染减排措施、持续改进环境空气质量的基础。

近年来，随着人工智能技术的逐步成熟，机器学习模型在学习复杂问题上已经取得了巨大的成功，多数机器学习模型应用在空气污染物浓度预测研究工作中，但是由于空气污染物浓度具有非平稳性的特点，导致使用单一的机器学习模型无法得到较为准确的预测结果并且模型的预测缺乏稳定性。集成学习方法思想的提出解决了单一模型预测准确性和稳定性低的问题，集成学习方法主要是生成大量的基础学习器并通过集成策略对基础学习器的输出结果进行集成。虽然集成学习可以有效地提升模型预测的准确性和稳定性，但是当大量参与集成的基础学习器预测结果相似时，会导致模型的预测性能提升效果不佳；同时若选择性能较差的集成策略对基础学习器的结果进行集成，也会对模型的预测结果有一定的影响。利用集成学习方法进行建模可以得到准确性较高的预测结果，但是集成学习模型多数都是“黑盒模型”，即给出模型的输入得到与之对应的输出，并没有任何的依据可以证明得到的输出是可信的。这使得大多数人对于集成模型的预测结果产生质疑，使得集成预测模型的应用饱受争议。

发明内容

为解决当前机器学习模型进行空气污染物预测时的问题，本发明请求保护一种基于地理信息的污染物在线监测系统，其特征在于，包括：

数据分析与预处理模块，用于描述研究数据，完成数据分析，进行数据预处理，执行特征工程；

模型建立模块，基于S-MStacking集成学习方法构建预测模型，生成并选择基础学习器，集成所述基础学习器；

分析评价模块，完成MEIC清单模拟结果分析、本地清单模拟结果分析并获取污染物空间分布特征。

进一步地，上述数据分析与预处理模块，用于描述研究数据，完成数据分析，进行数据预处理，执行特征工程，还包括：

上述描述研究数据获取获温度、露点、湿度、风向、风速和气压和天气条件的逐时数据；

在建模之前需要将两部分数据合并在同一个数据集中，其中以两个数据集中相同的特征意义的“Date”和“Time”为关键字，以行为单位按照列合并数据集，将缺少的数据用空值代替，同时将数据集中无关的特征删除，得到最终特征为PM2.5、PM10、NO2、SO2、O3和CO的逐时浓度以及Temperature、Dew Point、Humidity、Wind Speed和Pressure的逐时数据；

上述完成数据分析包括基于季节的数据分析、基于小时的数据分析、数据相关性分析；

所述进行数据预处理包括数据清洗，数据归一化；

所述执行特征工程包括特征构建和特征选择。

进一步地，上述模型建立模块，基于S-MStacking集成学习方法构建预测模型，生成并选择基础学习器，集成所述基础学习器，还包括：

基础学习器的生成，通过交叉验证的思想对训练集数据进行划分，针对每个训练子集分别用不同的基础学习算法训练得到多个基础学习器；

基础学习器选择，利用K-Means聚类方法对生成的多个基础学习器进行聚类，然后从聚类结果中删减部分相似性较强的基础学习器形成新的基础学习器集合，最后基于多目标蝙蝠算法MOBA选择部分基础学习器参与最终集成；

基础学习器集成，基于传统的Stacking集成策略对元学习器的输入特征进行特征重构得到改进集成策略MStacking，采用MStacking集成策略对参与最终集成的基础学习器进行集成。

进一步地，上述分析评价模块，完成MEIC清单模拟结果分析、本地清单模拟结果分析并获取污染物空间分布特征，还包括：

所述MEIC清单模拟结果分析包括基准情景和控制情景下PM10浓度对比，基准情景和控制情景下PM2.5浓度对比，MEIC清单基准情景与控制情景下日均值变化；

所述本地清单模拟结果分析包括基准情景和控制情景下PM10浓度对比，基准情景和控制情景下PM2.5浓度对比，本地化清单基准情景与控制情景下日均值变化；

所述获取污染物空间分布特征包括利用本地化排放源清单模拟的基准情景和控制情景下的颗粒物空间分布进行对比分析。

本发明公开的一种改进的集成学习方法S-MStacking，通过交叉验证的思想将训练数据集划分为多个训练子集，依次利用训练子集训练得到多个基础学习器；然后利用改进选择集成方法对参与集成的基础学习器进行选择；利用多目标优化算法MOBA在新的基础学习器集合中选择参与最终集成的基础学习器；利用改进Stacking集成策略MStacking对选择出基础学习器进行集成。基于S-MStacking集成方法建立空气污染物浓度预测模型，以PM2.5浓度为预测目标，设置单一模型对比实验和不同集成方法对比实验验证本文提出的改进的集成方法的有效性，表明利用所提出的方法构建的模型在预测准确性和稳定性上都有一定程度的提升。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明所涉及的一种基于地理信息的污染物在线监测系统的结构模块图；

图2为本发明所涉及的一种基于地理信息的污染物在线监测系统各模块的工作流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照附图1和2，本发明请求保护一种基于地理信息的污染物在线监测系统，其特征在于，包括：

所述进行数据预处理包括数据清洗，数据归一化；

所述执行特征工程包括特征构建和特征选择。

利用典型的数值统计方法，对各个空气污染物浓度按照季节划分进行均值的计算，将得到的每个季节的污染物浓度均值进行数据分析；各个空气污染物浓度值的变化与季节有着密切的关系。其中PM2.5、PM10、SO2、NO2和CO五种空气污染物浓度与季节之间的规律基本相，即浓度值在夏季时为最低值，在冬季时为最高值。这与气候条件有关，夏季雨水充沛且温度较高，有助于空气污染物扩散，故空气污染物浓度值会降低；冬季温度较低且气候干燥，并且由于地处北方冬季会有燃煤供暖，造成空气污染物浓度值上升。O3浓度规律则与之相反，其浓度值在夏季时为最高值，在冬季时为最低值，这是由于气温越高，越有助于O3的形成。

将时间刻度细化至小时，分别计算每日0时至23时的各个空气污染物浓度均值，并且针对不同的季节进行分别统计。各个空气污染物浓度值均随着时间会有明显的变化，同时在不同的季节其变化也各不相同。在六种空气污染物中PM2.5、PM10、SO2、NO2和O3的浓度值在夏季的变化范围较小，而在冬季变化范围较大，而O3的浓度值变化与之相反。其中前五种空气污染物浓度在白天数值普遍偏低，夜晚数值则偏高，而每日的16时达到当日最小。根据数据统计显示，每日在16时左右温度达到当日的峰值，温度高会使得空气污染物浓度扩散速度增加，从而使得空气污染物浓度值变小。O3的浓度在夜晚数值普遍偏高，夜晚数值偏低，在每日的16时达到当日最大，这是由于白天太阳光的紫光辐射较强，有助于O3的形成，导致其浓度值升高。

所述数据相关性分析包括(1)PM2.5浓度自相关分析

根据时间序列自身的特征，即时间序列中某一时刻的值与其历史时刻的值有关。ACF自相关系数是用来度量时间序列中每隔k个时间单位的观测值之间的相关性。横坐标是k滞后期数，纵坐标是ACF自相关系数。PM2.5浓度序列具有很强的自相关性，即表明某一时刻的PM2.5浓度值与其历史时刻的PM2.5浓度值有关。

(2)PM2.5浓度与其它因素相关性分析

PM2.5浓度不仅可能会受到气象条件的影响，同时也可能会受到其余的空气污染物浓度的影响。本方案主要通过绘制PM2.5浓度与其它各个空气污染物浓度和气象因子之间的相关性图并计算相关系数进行分析，其中相关系数使用的是Pearson相关系数，具体公式如式：

其中x,y分别表示各个空气污染物浓度和气象因子；其中r∈[-1,1]，当r<0时，表明具备负相关性，当r>0时，表明具备正相关性，当r＝0，表明不具备相关性。当|r|∈[0,1]时，也可根据|r|值大小判断相关程度。

所述数据清洗工作主要是检测并纠正缺失值、异常值和无效值等。包括1.缺失值处理：第一种是直接将含有缺失值的数据或者特征删除，这种方法适合于所含缺失值的数据量较少或者含有大量缺失值的属性具有极少的有效值的情况，否则直接删除将影响预测结果的正确性；第二种是将缺失值补全，具体的补全的方法一般有①均值、中值或者众数补插②临近值补插，一般采用缺失值前后的值进行填充③建模预测法，利用机器学习算法建立模型对缺失值预测填充；④插值法，主要有拉格朗日插值法、牛顿插值法⑤KNN填充方法，通过距离测量识别到缺失值的相邻点，并且使用相邻点的值估计缺失值。首先，将原始数据中各个特征的缺失值进行统计，每一个特征均含有缺失值且含有缺失值的数量较多，而且大多缺失值前后均缺失，故本文采用KNN填充方法对缺失值进行填充。KNN填充方法是通过在原始数据中找到K个与缺失值在空间上相近的样本，将这K个样本的均值填充缺失值，一般样本之间的距离采用欧式距离。对于存在缺失坐标的情况，通常采用下式计算：

其中，

通过迭代不同的K值，并利用随机森林对数据进行拟合，根据拟合结果RMSE进行K值评估。

2.异常值检测处理：异常值是指原始数据中与其它的数据有显著差异的数据点。异常值的存在会直接导致预测结果出现偏差，故在建立模型之前必须对异常值进行检测和处理。常用的异常值的检测方法有3δ原则、箱形图以及聚类算法检测。异常值的处理方法有三种：①直接将含有异常值的样本删除②将异常值视为缺失值，利用缺失值处理的方法处理③采用异常值前后值的平均值替换。本文使用的检测方法是箱型图方法，处理方法是把异常值当作缺失值利用KNN方法填充。

所述数据归一化包括将原始数据通过函数映射至一个较小的区间内，一般都映射在[0,1] 或者[-1,1]区间内。本方案所使用的归一化方法是Min-Max标准化，即对原始数据进行线性变化，将其映射至[0,1]区间内，具体的计算公式如式

其中x*表示归一化后的数据，x表示原始数据，xmax表示原始数据序列中最大值，xmin表示原始数据序列中的最小值.

所述特征构建主要是通过原始数据的研究以及结合相关知识，从原始的特征中构建一些新的特征。构建新的特征不仅有利于模型的训练，提升模型的预测性能，而且也会减少一些异常数据的不利影响。预测当前t时刻的空气污染浓度值不仅与t-1时刻的空气污染物浓度和气象因子有关，同时也与t-k时刻的空气污染物浓度和气象因子有关，故本文充分利用原始数据特征，将各个特征在时间维度上进行扩展。

特征选择是对特征进行约简，选择重要特征。特征选择不仅可以降低模型的学习难度，同时也可以解决特征量过多带来的过拟合问题。目前，常用的特征选择方法主要有三种：①过滤法(Filter)，通过计算特征的相关性等对每个特征进行评分，依据评分的高低对特征进行选择；②包裹法(Wrapper)，通过建立模型和评价指标，每次使用不同的特征子集进行验证，选择其中最优的特征子集；③嵌入法(Embedding)，是将特征选择的过程和训练模型的过程同时进行，在训练模型的过程中通过模型自身的评价指标选择特征。单一的特征选择方法通常具有一定的局限性，而且也缺乏一定的稳定性。故本文采用集成特征选择方法进行特征选择。集成特征选择是先通过多个特征选择方法得到不同的特征子集，再将多个特征子集进行整合，得到最优的特征子集。目前，针对生成不同的特征子集的方法主要有①通过数据多样性构造，即在原始数据上抽样产生多个不同的子集分别利用一种特征选择方法生成特征子集；②通过特征多样性，即利用多种特征选择方法对相同的数据集生成特征子集；③通过混合集成方法，将前两种方法结合，利用不同的数据子集和多种特征选择方法生成特征子集。本文主要采用的是混合集成方法进行特征选择，即利用基于XGBoost的特征选择方法和基于随机森林的特征选择方法对原始数据中抽样的数据子集进行特征选择生成特征子集。

采用与M折交叉验证相同的方式对训练样本进行划分，即将训练数据划分为M个大小基本相同且互不相交的子集，选取其中的M-1个子集组成训练子集分别对基础学习算法进行训练；在上述对训练集处理的基础上，选择模型结构不同的异质学习算法参与训练。本文采用的是现有的回归学习模型ELM、SVR、KNN和GBDT

通过优化结果选择基础学习器，有效地解决聚类方法中无法确定最终集成模型的准确性为最优的问题。但是基于优化方法对模型选择的过程类似于一个组合优化问题，当基础学习器的数量过多时，会降低模型的运行效率。为了解决上述问题，保证参与最终集成的基础学习器具备多样性和准确性，本文提出一种改进的选择性集成学习方法：首先利用聚类方法对基础学习器进行子集划分，然后在每个子集中删除部分相似的基础学习器，最后利用优化方法对删除后的基础学习器集合进行选择。

采用基于K-Means的基础学习器剪枝算法。

输入：验证数据集D*，基础学习器集合H1,h2,…,hN}

过程：

1：计算基础学习器集合H中的各个基础学习器在验证数据集D*上的预测误差

2：通过最大距离法则在基础学习器集合H中找到聚类的初始中心集合C；

3：repeat

4：for基础学习器集合H中每个基础学习器h(x)do

5：计算与集合C中每个的基础学习器之间预测误差的相关系数；

6：将h(x)分配至与其相关性最强的基础学习器的簇中；

7：end for

8：更新每个簇的中心，并计算新的簇中心在验证数据集D*上的预测误差；

9：Until簇的中心不再发生变化；

10：分别对划分好的基础学习器子集H1,H2…,Hk中的部分基础学习器进行删减；

利用改进的选择集成方法选择出参与集成的基础学习器，保证集成模型中的基础学习器具备多样性和较好的预测准确性，而选择一个好的集成策略会对最终的集成模型预测性能有进一步的提升。目前关于集成策略有多种，

本文主要采用元学习方法作为基础学习器的集成策略。Stacking方法是最为常用的元学习方法，该方法是通过训练一个元学习器对初级学习器的输出进行集成。

传统Stacking方法中元学习器的每个数据样本的输入特征仅为每个初级学习器的样本输出值，为了提升元学习器的拟合效果，只能通过增加初级学习器的个数来增加元学习器的输入特征，这样虽然可以对模型的预测性能有一定程度的提升，但是却增加了模型的运行时间。

本方案基于传统的Stacking方法进行改进，得到一种新的集成策略——MStacking。MStacking集成策略在元学习器的原始输入(即为初级学习器的输出)基础上增加两个新的特征，第一个特征是依据初级学习器输出结果重要性权值和输出加权求和产生值，第二个特征是初级学习器的输出均值。其中输出结果的重要性权值是依据每个数据的输出结果的误差来确定。

基于S-MStacking集成学习方法构建空气污染物浓度预测模型，具体步骤为：

步骤1：数据获取，本文预测工作采用2015年-2019年的逐时空气污染物浓度历史数据和气象历史数据；

步骤2：数据预处理，主要针对参与实验的数据集进行建模前的工作，包含缺失值填充、异常值的检测与填充以及归一化处理。然后对于数据集进行特征构建，并通过混合集成方法进行特征选择。

步骤3：S-MStacking集成模型预测，首先将训练集采用10折交叉验证划分训练子集，采用每个训练子集对四种不同的基础学习算法(ELM、SVR、GBDT、KNN)中进行训练，得到基础学习器集合；然后利用K-Means算法对基础学习器集合进行聚类划分，从聚类后的每个基础学习器子集删减部分预测性能较差的基础学习器后产生新的基础学习器集合，利用多目标优化算法MOBA在新的基础学习器集合中选择参与最终集成的基础学习器；最后利用MStacking集成策略对基础学习器进行集成，选择线性回归模型作为集成策略中的元学习器。

MEIC清单旨在构建高分辨率的中国人为源大气污染物及二氧化碳排放清单，通过云计算平台向科学界共享数据产品，清单可以为相关科学研究、政策评估和空气质量管理工作提供基础排放数据支持。

利用SMOKE模式将MEIC清单数据转换成CMAQ模式可以识别的数据格式，对主城区2019年1月份大气颗粒物(PM10

和PM

2.5)进行模拟。为定量评估不同源排放类型处理的清单数据对模式模拟结果的影响程度，分别对基准情景(将所有污染源均按照面源形式进行处理)和控制情景(将排放高度大于15m 的污染物排放源以点源形式进行处理，并与面源排放的污染源进行耦合)下的MEIC清单进行模拟，并将模拟的PM10和PM2.5小时均值与主城区进步巷和文化馆2个国控监测站颗粒物监测浓度值进行对比，选取MAE(平均绝对误差)、RMSE(均方根误差)和R(相关系数) 三个统计量对模式模拟的结果进行检验，量化不同排放源处理方式对颗粒浓度模拟结果的影响。

利用本地化1km高分辨率污染源清单对基准情景和控制情景下主城区大气颗粒物污染状况进行数值模拟。为评估模拟效果，将模拟的颗粒物(PM10和PM2.5)小时均值与进步巷和文化馆2个国控监测站监测浓度值进行对比，选取MAE、RMSE和R三个统计量对模式模拟的结果进行，量化不同排放源处理方式对颗粒浓度模拟结果的影响。

将MEIC清单与本地化清单作为模式所需的排放源清单模拟得到的污染物浓度日均值与小时均值进行对比，分析不同污染源清单在基准情景与控制情景下模拟结果的差异。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于地理信息的污染物在线监测系统，其特征在于，包括：

模型建立模块，基于 S-MStacking 集成学习方法构建预测模型，生成并选择基础学习器，集成所述基础学习器；

分析评价模块，完成MEIC 清单模拟结果分析、本地清单模拟结果分析并获取污染物空间分布特征。

2.如权利要求1所述的一种基于地理信息的污染物在线监测系统，其特征在于，上述数据分析与预处理模块，用于描述研究数据，完成数据分析，进行数据预处理，执行特征工程，还包括：

在建模之前需要将两部分数据合并在同一个数据集中，其中以两个数据集中相同的特征意义的“Date”和“Time”为关键字，以行为单位按照列合并数据集，将缺少的数据用空值代替，同时将数据集中无关的特征删除，得到最终特征为 PM2.5、PM10、NO2、SO2、O3 和 CO的逐时浓度以及 Temperature、Dew Point、Humidity、Wind Speed 和 Pressure 的逐时数据；

所述进行数据预处理包括数据清洗，数据归一化；

所述执行特征工程包括特征构建和特征选择。

3.如权利要求1所述的一种基于地理信息的污染物在线监测系统，其特征在于，上述模型建立模块，基于 S-MStacking 集成学习方法构建预测模型，生成并选择基础学习器，集成所述基础学习器，还包括：

基础学习器选择，利用 K-Means 聚类方法对生成的多个基础学习器进行聚类，然后从聚类结果中删减部分相似性较强的基础学习器形成新的基础学习器集合，最后基于多目标蝙蝠算法 MOBA 选择部分基础学习器参与最终集成；

基础学习器集成，基于传统的 Stacking 集成策略对元学习器的输入特征进行特征重构得到改进集成策略 MStacking，采用 MStacking 集成策略对参与最终集成的基础学习器进行集成。

4.如权利要求1所述的一种基于地理信息的污染物在线监测系统，其特征在于，

上述分析评价模块，完成MEIC 清单模拟结果分析、本地清单模拟结果分析并获取污染物空间分布特征，还包括：

所述MEIC 清单模拟结果分析包括基准情景和控制情景下 PM10浓度对比，基准情景和控制情景下 PM2.5浓度对比，MEIC 清单基准情景与控制情景下日均值变化；

所述本地清单模拟结果分析包括基准情景和控制情景下 PM10浓度对比，基准情景和控制情景下 PM2.5浓度对比，本地化清单基准情景与控制情景下日均值变化；