CN107025301A

CN107025301A - 航班保障数据的清理方法

Info

Publication number: CN107025301A
Application number: CN201710273945.4A
Authority: CN
Inventors: 金海燕; 李喻蒙; 秦娟娟; 王彬; 王磊; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2017-04-25
Filing date: 2017-04-25
Publication date: 2017-08-08

Abstract

航班保障数据的清理方法，包括以下步骤：步骤1、对航班保障数据进行预处理；首先对航班保障数据进行属性清洗，得到停机位数据，再对停机位数据进行异常值清洗；步骤2、对停机位数据的相似重复记录进行清洗：步骤2.1、创建排序关键字并计算停机位数据的键值；步骤2.2、按照基于聚簇索引的近邻排序方法，对停机位数据进行排序；步骤2.3、在排序后的数据集上滑动可变大小的窗口，对停机位数据的相似重复记录进行检测并清洗。本发明提高了航班保障数据的准确性和完整性，提高了检测航班保障数据的相似重复记录的效率。

Description

航班保障数据的清理方法

技术领域

本发明属于数理统计和数据挖掘技术领域，涉及一种航班保障数据的清理方法。

背景技术

国内对于数据清洗的研究起步较晚，但是研究的范围广泛：指出数据清洗中的数据源主要有单数据源和多数据源，并且给出了单数据源和多数据源在实例层上错误记录的类别；从数据质量的角度出发，分析了建立基于规则库和方法库的可扩展数据清理框架的必要性；在数据清洗的方法和框架方面的研究，包括基于知识的相似重复记录清除方法、基于多种规则结合不同方法以流程方式完成清理任务的可重构数据清理框架、基于语义规则库的以自学习方式完成数据清理任务的开放式数据清理框架。

数据清理根据具体应用和不同数据采用相应的数据清理方法，数据分类后对应的清洗方法主要包括下列四种：1.缺失值的解决方法：大多数情况下，缺失值必须手工填入(即手工清理)，当然，某些缺失值可以从本数据源或其它数据源推导出来，因此可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失值，从而达到清理的目的。2.错误值的检测及解决方法：用统计分析的方法识别可能的错误值或异常值，如偏差分析识别不遵守分布或回归方程的值，也可以用简单规则库(常识性规则、业务特定规则等)检查数据值，或者使用不同属性间的约束、外部的数据来检测和清理数据。3.重复记录的检测及解决方法：数据库中属性值相同的记录被认为是重复记录。通过判断记录间的属性值是否相等来检测记录是否是重复数据，并采用消重的基本方法合并或者清除。4.不一致性主要表现在数据源内部及数据源之间，多数据源集成的数据可能有语义冲突，因此，针对该问题的检测及解决方法是可定义完整性约束用于检测不一致性，也可通过分析数据发现联系，达到数据的一致性。

在民航机场业务中，需要对航班保障数据进行提纯和优化，虽然存在的多种通用的数据清洗理论和框架，由于业务领域的特殊性和行业保密性，且航班保障数据的数据量庞大，数据包含的信息量众多，对航班保障数据的相似重复记录进行检测困难，提纯和优化工作量大。

发明内容

本发明的目的是提供一种航班保障数据的清理方法，提高了航班保障数据的准确性和完整性，提高了检测航班保障数据的相似重复记录的效率。

本发明所采用的技术方案是，航班保障数据的清理方法，包括以下步骤：

步骤1、对航班保障数据进行预处理；

首先对航班保障数据进行属性清洗，得到停机位数据，再对停机位数据进行异常值清洗；

步骤2、对停机位数据的相似重复记录进行清洗：

步骤2.1、创建排序关键字，并计算停机位数据的键值；

步骤2.2、按照基于聚簇索引的近邻排序方法，对停机位数据进行排序；

步骤2.3、在排序后的数据集上滑动可变大小的窗口，对停机位数据的相似重复记录进行检测并清洗。

步骤1中，对航班保障数据进行属性清洗具体分为：

(1)对与停机位信息无关的数据的处理：予以删除或者不予提取；

(2)对停机位数据中缺失值数据的处理：缺失值数据包括主属性缺失数据和非主属性缺失数据，将主属性缺失数据丢弃，从数据源中重新获取或推导得出非主属性缺失数据；

(3)对停机位数据中违反业务规则的数据的处理：通过与数据源校对，重新获取；

(4)对停机位数据中同一属性不同表现形式的数据的处理：设定唯一的表现形式。

步骤1中，采用箱型图法判断并剔除停机位数据中的异常值，具体过程为：

将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间，n为区间的个数，α为每个区间中停机位数据的个数，β为区间的大小：

其中，每个区间内的所有停机位数据均构成一个数据集，D_n表示编号为n的数据集；

分析停机位数据的分布特征，得到数据集A的数据集中域[i-j，i+j]，其中，i-j为最小值数据集，即Min{D₁，D₂，…，D_n}，i+j为最大值数据集，即Max{D₁，D₂，…，D_n}；将[i-j，i+j]设为初始数据组，对初始数据组剔除离群值，得到非离群数据组[Q₁-3×IQR，Q₃+3×IQR]，对[Q₁-3×IQR，Q₃+3×IQR]取非异常数据组，得到目标数据集[Q₁-1.5×IQR，Q₃+1.5×IQR]，将目标数据集设为数据集B，其中Q₁表示第一分位数，Q₃表示第三分位数，IQR表示四分位间距IQR＝Q₃-Q₁。

步骤2.1的具体过程为：

抽取停机位数据的不同的属性作为不同的排序关键字；按照排序关键字对数据集B中的停机位数据的各个字段计算字段值，从而得到停机位数据的键值，停机位数据的键值，即为该停机位数据中字段值的集合。

步骤2.2具体为：

在数据集B中建立聚簇索引，按照停机位数据的键值，对数据集B中的停机位数据进行排列，使得相似重复记录排列到邻近区域，得到数据集C。

步骤2.3的具体过程为：

数据集C中的每一个数据均构成一条记录，在数据集C上滑动可变大小的窗口，滑动过程中采用先进先出策略，窗口滑动时，设当前窗口中的记录是第1～N条记录，则接下来进入窗口的记录是第N+1条记录，将第N+1条记录与窗口内的第2～N条记录逐一进行相似度匹配，以此来检测第N+1条记录是否是重复记录，如果是重复记录，剔除该条记录，如不是重复记录，则继续向下滑动窗口，直到完成数据集C中所有记录的相似度匹配。

步骤2.3中，相似度匹配的具体过程为：

设置字段权重，由若干位专家独立对每个字段的权重进行打分，取同一个字段的权重的打分均值，作为该字段的字段权重，字段权值＝字段权重×字段值，一条记录的权值由该记录中所有字段的字段权值的总和构成；

在相似度匹配的过程中，分别计算两条待匹配记录的权值，并进行加合，得到两条待匹配记录的相似度M，将M与预设的相似度阈值N比较，如果M大于N，则两条待匹配记录中后进入窗口的记录为重复记录，否则视为两条不同的记录。

步骤2.3中，由停机位的使用频度驱动窗口的大小：统计停机位的平均使用频度Mean和停机位的最大使用频度Max，采用(Mean+Max)/2作为窗口的大小。

本发明的有益效果是：航班保障数据的清理方法，在预处理阶段采用的属性清洗方法和异常值的检测及删除方法，提高了航班保障数据集的准确性和完整性，预处理后加载速度的显著提升正是得益于清洗后航班保障数据集里有效性数据比重的增加；对排序方法进行了改进，在近邻排序方法中引入聚簇索引，提高排序速度的同时，使得相似重复记录排列到近邻区域；滑动可变大小的窗口，由停机位的使用频度驱动窗口的大小，对相似重复记录进行检测并清洗，由于相似重复记录排列尽可能多地排列到了同一个窗口中，在不影响查找重复记录效率的情况下减少不必要的比较次数等时间内检测重复记录个数大大增加，从而更好的提高检测的效率。

附图说明

图1是数据清理的原理图；

图2是停机位数据分布特征图；

图3是远机位数据的集中域的箱线图；

图4是近机位数据的集中域的箱线图；

图5是采用基于聚簇索引的近邻排序方法排序的流程图；

图6是滑动可变大小的窗口的示意图；

图7是相似度匹配的流程图；

图8是数据清洗前后加载时间比较图；

图9是不同方法等时间内检测相似记录的个数的比较图。

具体实施方式

如图1所示，航班保障数据的清理方法，旨在分析民航机场航班保障数据特点的基础上，完成航班保障数据的相似重复记录检测中均需进行的相关试验，对已有的数据清洗方法进行相应的调整和细化，同时确定数据清洗规则和方法，从而对航班保障数据进行提纯优化，为后续研究提供高质量的数据。

以兰州中川机场2015、2016年度的航班保障数据为例，下面结合附图和具体实施方式对本发明进行详细说明:

航班保障数据的清理方法，包括以下步骤：

步骤1、对航班保障数据进行预处理；

步骤2、对停机位数据的相似重复记录进行清洗：

步骤2.1、创建排序关键字,并计算停机位数据的键值；

步骤1中，对航班保障数据进行属性清洗具体分为：

(1)对与停机位信息无关的数据的处理：例如：飞行高度、飞机翼展、航线、航路点和飞行时间信息，属于与停机位信息无关的数据，予以删除或者不予提取；

(2)对停机位数据中缺失值数据的处理：缺失值数据包括主属性缺失数据和非主属性缺失数据，主属性缺失会严重影响停机位实时状态，并且系统中不允许存在主属性缺失的情况，因此当主属性缺失时，认为该数据是错误数据，将主属性缺失数据丢弃；非主属性缺失对停机位实时状态影响较小，但是违背了数据的完整性规则，从数据源中重新获取或推导得出非主属性缺失数据；

(3)对停机位数据中违反业务规则的数据的处理：违反业务规则是指数据的属性值本身或者数据的属性值之间的关系违反民航机场的业务规则，例如某航班无前一站起飞时间却存在本场落地时间，或者无本场起飞时间却存在后一站落地时间，对于此类数据，通过与数据源校对，重新获取；

(4)对停机位数据中同一属性不同表现形式的数据的处理：属性值表示形式因单位或者部门而不同，例如，进港状态的表示形式可以有YES/NO或者到达/取消，对不同表现形式的数据进行统一化处理，设定唯一的表现形式。

在实际情况下，停机位数据受到异常值的显著影响，为了消除异常值对整个数据的影响，需要对异常值进行判断与剔除，得到符合机场停机位的实际情况的数据集。

目前对异常值的判断与剔除主要采用物理判别法和统计判别法两种方法：物理判别法，是根据人们对客观事物已有的认识，判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果，在实验过程中随时判断和剔除。统计判别法，是给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常值剔除。当物理识别不易判断时，一般采用统计识别法。

本发明根据航班保障数据的分布特征，采用统计识别法中的箱型图法来判断并剔除停机位数据中的异常值。

将待清理的停机位数据设为数据集A，如表1所示，将数据集A等分成α×n个区间，n为区间的个数，α为每个区间中停机位数据的个数，β为区间的大小：

表1.航班保障数据中停机位数据信息表

序号

1

2

3

4

.....

n-1

n

数据

D₁

D₂

D₃

D₄

.....

D_n-1

D_n

对于离散程度不是特别大的数据源来说，数据自身的分布一般会集中在某一特定区域内，分析停机位数据的分布特征，如图2所示，得到数据集A的数据集中域[i-j，i+j]，其中，i-j为最小值数据集，即Min{D₁，D₂，…，D_n}，i+j为最大值数据集，即Max{D₁，D₂，…，D_n}；

以一组停机位数据的为例，如表2所示，在实际情况下，如果直接计算停机位的实际区间，得到远机位数据集A₁的区间为[70，500]，近机位数据集A₂的区间为[-500，60]，该结果与实际情况不符，说明停机位数据集受到异常值数据的显著影响，需要对异常值进行判断与剔除。

表2.航班保障数据中的停机位数据(停机位编号)

首先，将数据集A等分为1000个区间，找到远机位数据集A₁的数据集中域为[70，160]，近机位数据集A₂的数据集中域为[-9，60]，然后，对取值在A₁的数据集中域的停机位数据做箱型图分析，得到图3所示的停机位的箱线图，对取值在A₂的数据集中域的停机位数据做箱型图分析，得到图4所示的停机位的箱线图。

根据箱形图结果的分析，得到远机位数据集A₁的非离群数据组为[85，134]，近机位数据集A₂的非离群数据组为[-10.75，27.75]；再计算得到远机位数据集A₁的非异常数据组为[95.5，116.5]，近机位数据集A₂的非异常数据组为[-2.5，19.5]；计算结果符合机场停机位的实际情况。因此，通过停机位数据分布特征及箱型图的方法来识别剔除异常值数据的方式较为快捷且效果显著，是对航班保障数据进行清理的重要步骤。

步骤2.1的具体过程为：分析机场人员操作习惯和关键字重要性，抽取停机位数据的不同的属性作为不同的排序关键字，不同的排序关键字构成排序关键字的组合，以抽取以下的排序关键字的组合为例：

Key Com＝{Gate＝停机位，Plan LT＝本场计划落地时间，Actual LT＝本场实际落地时间，Plan DT＝本场计划起飞时间，Actual DT＝本场实际起飞时间}；

按照排序关键字对数据集B中的停机位数据的各个字段计算字段值，从而得到停机位数据的键值，停机位数据的键值，即为该停机位数据中字段值的集合。

步骤2.2具体为：

在数据集B中建立聚簇索引，按照停机位数据的键值，对数据集B中的停机位数据进行近邻排列，使得相似重复记录排列到邻近区域，得到数据集C。如图5所示，在本实施例中进行3次排序，将3次排序的结果集进行比对，不一致的部分再次排序，得到最终的结果集，防止一次排序造成的偶然性误差。

步骤2.3的具体过程为：

数据集C中的每一个数据均构成一条记录，在数据集C上滑动可变大小的窗口，如图6所示，滑动过程中采用先进先出策略，窗口滑动时，设当前窗口中的记录是第1～N条记录，则接下来进入窗口的记录是第N+1条记录，将第N+1条记录与窗口内的第2～N条记录逐一进行相似度匹配，以此来检测第N+1条记录是否是重复记录，如果是重复记录，剔除该条记录，如不是重复记录，则继续向下滑动窗口，直到完成数据集C中所有记录的相似度匹配。

如图7所示，步骤2.3中，相似度匹配的具体过程为：

设置字段权重，是为了准确描述字段对于停机位状态改变的影响力，根据数据集中各字段的重要程度设置不同的字段权重，通常采用的方法有以下几种：1.主观经验法；2.主次指标排队分类法；3.专家打分法。本发明中，采用专家打分法设置字段权重：由若干位专家独立对每个字段的权重进行打分，取同一个字段的权重的打分均值，作为该字段的字段权重，字段权值＝字段权重×字段值，一条记录的权值由该记录中所有字段的字段权值的总和构成；在相似度匹配的过程中，分别计算两条待匹配记录的权值，并进行加合，得到两条待匹配记录的相似度M，将M与预设的相似度阈值N比较，如果M大于N，则两条待匹配记录中后进入窗口的记录为重复记录，否则视为两条不同的记录。

步骤2.3中，由停机位的使用频度驱动窗口的大小：由于窗口较大时，比较次数会增多，而有些比较是没有必要的；当窗口较小时可能又会遗漏重复数据的匹配；如表3所示，根据兰州中川机场2015年度下半年以及2016年度上半年的保障数据，统计出停机位在每个月的平均使用频度Mean。

表3.每月停机位使用频度(n M/D：第n月每天的平均值，-未投入使用)

如表4所示，对停机位每个月的平均使用频度Mean上取整，计算12个月中最大使用频度Max，采用二者的平均作为窗口的大小

表4.各停机位的滑动窗口大小的决定因素(均值～最大值)

近101

近102

近103

近104

近105

近106

近107

近108

近109

近110

4～6

4～5

3～5

4～6

4～7

4～6

近111

近112

近113

近114

近115

远1

远2

远3

远4

远5

4～7

4～6

1～2

2～2

1～2

2～2

远6

远7

远8

远9

远10

远11

远12

远13

远14

远15

2～2

2～3

2～2

1～2

2～2

1～2

1～1

数据清洗质量的评价标准有一致性原则、完整性原则、可用性、效率等，本发明主要考虑数据清洗的速度和对重复记录的清洗程度，对于重复记录主要由误识别率和准确率来衡量，如表5所示：取4组数据为例，与清洗前相比，清洗后加载速度变快，等时间内检测重复记录个数大大增加。

表5.清洗前和清洗后加载指标的比较

对兰州中川机场2015年的实际保障记录中每个月3000条的保障记录进行属性清洗、异常值清洗以及相似重复记录的检测与剔除，计算清洗前数据加载的时间和清洗后的时间，如图8所示，数据清洗后加载时间大大缩短。

采用基于聚簇索引的近邻排序算法，对保障记录进行相似度检测。通过查看等时间内检测相似记录的个数，将得到的结果与直接检索的方式比较，对比结果如图9，并采用准确率来衡量相似重复记录检测的效果。

通过所上述方式，本发明航班保障数据的清理方法，提高了航班保障数据的准确性和完整性，提高了检测航班保障数据的相似重复记录的效率。

Claims

1.航班保障数据的清理方法，其特征在于，包括以下步骤：

步骤1、对航班保障数据进行预处理；

步骤2、对停机位数据的相似重复记录进行清洗：

步骤2.1、创建排序关键字并计算停机位数据的键值；

2.根据权利要求1所述的航班保障数据的清理方法，其特征在于，所述步骤1中，对航班保障数据进行属性清洗具体分为：

3.根据权利要求1所述的航班保障数据的清理方法，其特征在于，所述步骤1中，采用箱型图法判断并剔除停机位数据中的异常值，具体过程为：

将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间，n为区间的个数，α为每个区间中停机位数据的个数，β为区间的大小:

4.根据权利要求3所述的航班保障数据的清理方法，其特征在于，所述步骤2.1的具体过程为：

5.根据权利要求4所述的航班保障数据的清理方法，其特征在于，所述步骤2.2具体为：

在数据集B中建立聚簇索引，按照停机位数据的键值，对数据集B中的停机位数据进行近邻排列，使得相似重复记录排列到邻近区域，得到数据集C。

6.根据权利要求5所述的航班保障数据的清理方法，其特征在于，所述步骤2.3的具体过程为：

7.根据权利要求6所述的航班保障数据的清理方法，其特征在于，所述步骤2.3中，相似度匹配的具体过程为：

8.根据权利要求1所述的航班保障数据的清理方法，其特征在于，步骤2.3中，由停机位的使用频度驱动窗口的大小：统计停机位的平均使用频度Mean和停机位的最大使用频度Max，采用(Mean+Max)/2作为窗口的大小。