CN107025301A - 航班保障数据的清理方法 - Google Patents
航班保障数据的清理方法 Download PDFInfo
- Publication number
- CN107025301A CN107025301A CN201710273945.4A CN201710273945A CN107025301A CN 107025301 A CN107025301 A CN 107025301A CN 201710273945 A CN201710273945 A CN 201710273945A CN 107025301 A CN107025301 A CN 107025301A
- Authority
- CN
- China
- Prior art keywords
- data
- aircraft gate
- record
- cleaning
- flight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000004140 cleaning Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 8
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 abstract description 15
- 238000004458 analytical method Methods 0.000 description 4
- 238000005201 scrubbing Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000002405 diagnostic procedure Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
航班保障数据的清理方法,包括以下步骤:步骤1、对航班保障数据进行预处理;首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;步骤2、对停机位数据的相似重复记录进行清洗:步骤2.1、创建排序关键字并计算停机位数据的键值;步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。本发明提高了航班保障数据的准确性和完整性,提高了检测航班保障数据的相似重复记录的效率。
Description
技术领域
本发明属于数理统计和数据挖掘技术领域,涉及一种航班保障数据的清理方法。
背景技术
国内对于数据清洗的研究起步较晚,但是研究的范围广泛:指出数据清洗中的数据源主要有单数据源和多数据源,并且给出了单数据源和多数据源在实例层上错误记录的类别;从数据质量的角度出发,分析了建立基于规则库和方法库的可扩展数据清理框架的必要性;在数据清洗的方法和框架方面的研究,包括基于知识的相似重复记录清除方法、基于多种规则结合不同方法以流程方式完成清理任务的可重构数据清理框架、基于语义规则库的以自学习方式完成数据清理任务的开放式数据清理框架。
数据清理根据具体应用和不同数据采用相应的数据清理方法,数据分类后对应的清洗方法主要包括下列四种:1.缺失值的解决方法:大多数情况下,缺失值必须手工填入(即手工清理),当然,某些缺失值可以从本数据源或其它数据源推导出来,因此可以用平均值、最大值、最小值或更为复杂的概率估计代替缺失值,从而达到清理的目的。2.错误值的检测及解决方法:用统计分析的方法识别可能的错误值或异常值,如偏差分析识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,或者使用不同属性间的约束、外部的数据来检测和清理数据。3.重复记录的检测及解决方法:数据库中属性值相同的记录被认为是重复记录。通过判断记录间的属性值是否相等来检测记录是否是重复数据,并采用消重的基本方法合并或者清除。4.不一致性主要表现在数据源内部及数据源之间,多数据源集成的数据可能有语义冲突,因此,针对该问题的检测及解决方法是可定义完整性约束用于检测不一致性,也可通过分析数据发现联系,达到数据的一致性。
在民航机场业务中,需要对航班保障数据进行提纯和优化,虽然存在的多种通用的数据清洗理论和框架,由于业务领域的特殊性和行业保密性,且航班保障数据的数据量庞大,数据包含的信息量众多,对航班保障数据的相似重复记录进行检测困难,提纯和优化工作量大。
发明内容
本发明的目的是提供一种航班保障数据的清理方法,提高了航班保障数据的准确性和完整性,提高了检测航班保障数据的相似重复记录的效率。
本发明所采用的技术方案是,航班保障数据的清理方法,包括以下步骤:
步骤1、对航班保障数据进行预处理;
首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;
步骤2、对停机位数据的相似重复记录进行清洗:
步骤2.1、创建排序关键字,并计算停机位数据的键值;
步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;
步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。
步骤1中,对航班保障数据进行属性清洗具体分为:
(1)对与停机位信息无关的数据的处理:予以删除或者不予提取;
(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,将主属性缺失数据丢弃,从数据源中重新获取或推导得出非主属性缺失数据;
(3)对停机位数据中违反业务规则的数据的处理:通过与数据源校对,重新获取;
(4)对停机位数据中同一属性不同表现形式的数据的处理:设定唯一的表现形式。
步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:
将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:
其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;
分析停机位数据的分布特征,得到数据集A的数据集中域[i-j,i+j],其中,i-j为最小值数据集,即Min{D1,D2,…,Dn},i+j为最大值数据集,即Max{D1,D2,…,Dn};将[i-j,i+j]设为初始数据组,对初始数据组剔除离群值,得到非离群数据组[Q1-3×IQR,Q3+3×IQR],对[Q1-3×IQR,Q3+3×IQR]取非异常数据组,得到目标数据集[Q1-1.5×IQR,Q3+1.5×IQR],将目标数据集设为数据集B,其中Q1表示第一分位数,Q3表示第三分位数,IQR表示四分位间距IQR=Q3-Q1。
步骤2.1的具体过程为:
抽取停机位数据的不同的属性作为不同的排序关键字;按照排序关键字对数据集B中的停机位数据的各个字段计算字段值,从而得到停机位数据的键值,停机位数据的键值,即为该停机位数据中字段值的集合。
步骤2.2具体为:
在数据集B中建立聚簇索引,按照停机位数据的键值,对数据集B中的停机位数据进行排列,使得相似重复记录排列到邻近区域,得到数据集C。
步骤2.3的具体过程为:
数据集C中的每一个数据均构成一条记录,在数据集C上滑动可变大小的窗口,滑动过程中采用先进先出策略,窗口滑动时,设当前窗口中的记录是第1~N条记录,则接下来进入窗口的记录是第N+1条记录,将第N+1条记录与窗口内的第2~N条记录逐一进行相似度匹配,以此来检测第N+1条记录是否是重复记录,如果是重复记录,剔除该条记录,如不是重复记录,则继续向下滑动窗口,直到完成数据集C中所有记录的相似度匹配。
步骤2.3中,相似度匹配的具体过程为:
设置字段权重,由若干位专家独立对每个字段的权重进行打分,取同一个字段的权重的打分均值,作为该字段的字段权重,字段权值=字段权重×字段值,一条记录的权值由该记录中所有字段的字段权值的总和构成;
在相似度匹配的过程中,分别计算两条待匹配记录的权值,并进行加合,得到两条待匹配记录的相似度M,将M与预设的相似度阈值N比较,如果M大于N,则两条待匹配记录中后进入窗口的记录为重复记录,否则视为两条不同的记录。
步骤2.3中,由停机位的使用频度驱动窗口的大小:统计停机位的平均使用频度Mean和停机位的最大使用频度Max,采用(Mean+Max)/2作为窗口的大小。
本发明的有益效果是:航班保障数据的清理方法,在预处理阶段采用的属性清洗方法和异常值的检测及删除方法,提高了航班保障数据集的准确性和完整性,预处理后加载速度的显著提升正是得益于清洗后航班保障数据集里有效性数据比重的增加;对排序方法进行了改进,在近邻排序方法中引入聚簇索引,提高排序速度的同时,使得相似重复记录排列到近邻区域;滑动可变大小的窗口,由停机位的使用频度驱动窗口的大小,对相似重复记录进行检测并清洗,由于相似重复记录排列尽可能多地排列到了同一个窗口中,在不影响查找重复记录效率的情况下减少不必要的比较次数等时间内检测重复记录个数大大增加,从而更好的提高检测的效率。
附图说明
图1是数据清理的原理图;
图2是停机位数据分布特征图;
图3是远机位数据的集中域的箱线图;
图4是近机位数据的集中域的箱线图;
图5是采用基于聚簇索引的近邻排序方法排序的流程图;
图6是滑动可变大小的窗口的示意图;
图7是相似度匹配的流程图;
图8是数据清洗前后加载时间比较图;
图9是不同方法等时间内检测相似记录的个数的比较图。
具体实施方式
如图1所示,航班保障数据的清理方法,旨在分析民航机场航班保障数据特点的基础上,完成航班保障数据的相似重复记录检测中均需进行的相关试验,对已有的数据清洗方法进行相应的调整和细化,同时确定数据清洗规则和方法,从而对航班保障数据进行提纯优化,为后续研究提供高质量的数据。
以兰州中川机场2015、2016年度的航班保障数据为例,下面结合附图和具体实施方式对本发明进行详细说明:
航班保障数据的清理方法,包括以下步骤:
步骤1、对航班保障数据进行预处理;
首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;
步骤2、对停机位数据的相似重复记录进行清洗:
步骤2.1、创建排序关键字,并计算停机位数据的键值;
步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;
步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。
步骤1中,对航班保障数据进行属性清洗具体分为:
(1)对与停机位信息无关的数据的处理:例如:飞行高度、飞机翼展、航线、航路点和飞行时间信息,属于与停机位信息无关的数据,予以删除或者不予提取;
(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,主属性缺失会严重影响停机位实时状态,并且系统中不允许存在主属性缺失的情况,因此当主属性缺失时,认为该数据是错误数据,将主属性缺失数据丢弃;非主属性缺失对停机位实时状态影响较小,但是违背了数据的完整性规则,从数据源中重新获取或推导得出非主属性缺失数据;
(3)对停机位数据中违反业务规则的数据的处理:违反业务规则是指数据的属性值本身或者数据的属性值之间的关系违反民航机场的业务规则,例如某航班无前一站起飞时间却存在本场落地时间,或者无本场起飞时间却存在后一站落地时间,对于此类数据,通过与数据源校对,重新获取;
(4)对停机位数据中同一属性不同表现形式的数据的处理:属性值表示形式因单位或者部门而不同,例如,进港状态的表示形式可以有YES/NO或者到达/取消,对不同表现形式的数据进行统一化处理,设定唯一的表现形式。
在实际情况下,停机位数据受到异常值的显著影响,为了消除异常值对整个数据的影响,需要对异常值进行判断与剔除,得到符合机场停机位的实际情况的数据集。
目前对异常值的判断与剔除主要采用物理判别法和统计判别法两种方法:物理判别法,是根据人们对客观事物已有的认识,判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果,在实验过程中随时判断和剔除。统计判别法,是给定一个置信概率,并确定一个置信限,凡超过此限的误差,就认为它不属于随机误差范围,将其视为异常值剔除。当物理识别不易判断时,一般采用统计识别法。
本发明根据航班保障数据的分布特征,采用统计识别法中的箱型图法来判断并剔除停机位数据中的异常值。
步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:
将待清理的停机位数据设为数据集A,如表1所示,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:
其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;
表1.航班保障数据中停机位数据信息表
序号 | 1 | 2 | 3 | 4 | ..... | n-1 | n |
数据 | D1 | D2 | D3 | D4 | ..... | Dn-1 | Dn |
对于离散程度不是特别大的数据源来说,数据自身的分布一般会集中在某一特定区域内,分析停机位数据的分布特征,如图2所示,得到数据集A的数据集中域[i-j,i+j],其中,i-j为最小值数据集,即Min{D1,D2,…,Dn},i+j为最大值数据集,即Max{D1,D2,…,Dn};
以一组停机位数据的为例,如表2所示,在实际情况下,如果直接计算停机位的实际区间,得到远机位数据集A1的区间为[70,500],近机位数据集A2的区间为[-500,60],该结果与实际情况不符,说明停机位数据集受到异常值数据的显著影响,需要对异常值进行判断与剔除。
表2.航班保障数据中的停机位数据(停机位编号)
首先,将数据集A等分为1000个区间,找到远机位数据集A1的数据集中域为[70,160],近机位数据集A2的数据集中域为[-9,60],然后,对取值在A1的数据集中域的停机位数据做箱型图分析,得到图3所示的停机位的箱线图,对取值在A2的数据集中域的停机位数据做箱型图分析,得到图4所示的停机位的箱线图。
根据箱形图结果的分析,得到远机位数据集A1的非离群数据组为[85,134],近机位数据集A2的非离群数据组为[-10.75,27.75];再计算得到远机位数据集A1的非异常数据组为[95.5,116.5],近机位数据集A2的非异常数据组为[-2.5,19.5];计算结果符合机场停机位的实际情况。因此,通过停机位数据分布特征及箱型图的方法来识别剔除异常值数据的方式较为快捷且效果显著,是对航班保障数据进行清理的重要步骤。
步骤2.1的具体过程为:分析机场人员操作习惯和关键字重要性,抽取停机位数据的不同的属性作为不同的排序关键字,不同的排序关键字构成排序关键字的组合,以抽取以下的排序关键字的组合为例:
Key Com={Gate=停机位,Plan LT=本场计划落地时间,Actual LT=本场实际落地时间,Plan DT=本场计划起飞时间,Actual DT=本场实际起飞时间};
按照排序关键字对数据集B中的停机位数据的各个字段计算字段值,从而得到停机位数据的键值,停机位数据的键值,即为该停机位数据中字段值的集合。
步骤2.2具体为:
在数据集B中建立聚簇索引,按照停机位数据的键值,对数据集B中的停机位数据进行近邻排列,使得相似重复记录排列到邻近区域,得到数据集C。如图5所示,在本实施例中进行3次排序,将3次排序的结果集进行比对,不一致的部分再次排序,得到最终的结果集,防止一次排序造成的偶然性误差。
步骤2.3的具体过程为:
数据集C中的每一个数据均构成一条记录,在数据集C上滑动可变大小的窗口,如图6所示,滑动过程中采用先进先出策略,窗口滑动时,设当前窗口中的记录是第1~N条记录,则接下来进入窗口的记录是第N+1条记录,将第N+1条记录与窗口内的第2~N条记录逐一进行相似度匹配,以此来检测第N+1条记录是否是重复记录,如果是重复记录,剔除该条记录,如不是重复记录,则继续向下滑动窗口,直到完成数据集C中所有记录的相似度匹配。
如图7所示,步骤2.3中,相似度匹配的具体过程为:
设置字段权重,是为了准确描述字段对于停机位状态改变的影响力,根据数据集中各字段的重要程度设置不同的字段权重,通常采用的方法有以下几种:1.主观经验法;2.主次指标排队分类法;3.专家打分法。本发明中,采用专家打分法设置字段权重:由若干位专家独立对每个字段的权重进行打分,取同一个字段的权重的打分均值,作为该字段的字段权重,字段权值=字段权重×字段值,一条记录的权值由该记录中所有字段的字段权值的总和构成;在相似度匹配的过程中,分别计算两条待匹配记录的权值,并进行加合,得到两条待匹配记录的相似度M,将M与预设的相似度阈值N比较,如果M大于N,则两条待匹配记录中后进入窗口的记录为重复记录,否则视为两条不同的记录。
步骤2.3中,由停机位的使用频度驱动窗口的大小:由于窗口较大时,比较次数会增多,而有些比较是没有必要的;当窗口较小时可能又会遗漏重复数据的匹配;如表3所示,根据兰州中川机场2015年度下半年以及2016年度上半年的保障数据,统计出停机位在每个月的平均使用频度Mean。
表3.每月停机位使用频度(n M/D:第n月每天的平均值,-未投入使用)
如表4所示,对停机位每个月的平均使用频度Mean上取整,计算12个月中最大使用频度Max,采用二者的平均作为窗口的大小
表4.各停机位的滑动窗口大小的决定因素(均值~最大值)
近101 | 近102 | 近103 | 近104 | 近105 | 近106 | 近107 | 近108 | 近109 | 近110 |
4~6 | 4~6 | 4~6 | 4~6 | 4~5 | 3~5 | 4~6 | 4~6 | 4~7 | 4~6 |
近111 | 近112 | 近113 | 近114 | 近115 | 远1 | 远2 | 远3 | 远4 | 远5 |
4~7 | 4~6 | 4~6 | 4~6 | 4~6 | 1~2 | 1~2 | 2~2 | 1~2 | 2~2 |
远6 | 远7 | 远8 | 远9 | 远10 | 远11 | 远12 | 远13 | 远14 | 远15 |
2~2 | 2~2 | 2~3 | 2~2 | 1~2 | 2~2 | 2~2 | 1~2 | 1~1 | 1~1 |
数据清洗质量的评价标准有一致性原则、完整性原则、可用性、效率等,本发明主要考虑数据清洗的速度和对重复记录的清洗程度,对于重复记录主要由误识别率和准确率来衡量,如表5所示:取4组数据为例,与清洗前相比,清洗后加载速度变快,等时间内检测重复记录个数大大增加。
表5.清洗前和清洗后加载指标的比较
对兰州中川机场2015年的实际保障记录中每个月3000条的保障记录进行属性清洗、异常值清洗以及相似重复记录的检测与剔除,计算清洗前数据加载的时间和清洗后的时间,如图8所示,数据清洗后加载时间大大缩短。
采用基于聚簇索引的近邻排序算法,对保障记录进行相似度检测。通过查看等时间内检测相似记录的个数,将得到的结果与直接检索的方式比较,对比结果如图9,并采用准确率来衡量相似重复记录检测的效果。
通过所上述方式,本发明航班保障数据的清理方法,提高了航班保障数据的准确性和完整性,提高了检测航班保障数据的相似重复记录的效率。
Claims (8)
1.航班保障数据的清理方法,其特征在于,包括以下步骤:
步骤1、对航班保障数据进行预处理;
首先对航班保障数据进行属性清洗,得到停机位数据,再对停机位数据进行异常值清洗;
步骤2、对停机位数据的相似重复记录进行清洗:
步骤2.1、创建排序关键字并计算停机位数据的键值;
步骤2.2、按照基于聚簇索引的近邻排序方法,对停机位数据进行排序;
步骤2.3、在排序后的数据集上滑动可变大小的窗口,对停机位数据的相似重复记录进行检测并清洗。
2.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,对航班保障数据进行属性清洗具体分为:
(1)对与停机位信息无关的数据的处理:予以删除或者不予提取;
(2)对停机位数据中缺失值数据的处理:缺失值数据包括主属性缺失数据和非主属性缺失数据,将主属性缺失数据丢弃,从数据源中重新获取或推导得出非主属性缺失数据;
(3)对停机位数据中违反业务规则的数据的处理:通过与数据源校对,重新获取;
(4)对停机位数据中同一属性不同表现形式的数据的处理:设定唯一的表现形式。
3.根据权利要求1所述的航班保障数据的清理方法,其特征在于,所述步骤1中,采用箱型图法判断并剔除停机位数据中的异常值,具体过程为:
将所有待清理的停机位数据设为数据集A,将数据集A等分成α×n个区间,n为区间的个数,α为每个区间中停机位数据的个数,β为区间的大小:
其中,每个区间内的所有停机位数据均构成一个数据集,Dn表示编号为n的数据集;
分析停机位数据的分布特征,得到数据集A的数据集中域[i-j,i+j],其中,i-j为最小值数据集,即Min{D1,D2,…,Dn},i+j为最大值数据集,即Max{D1,D2,…,Dn};将[i-j,i+j]设为初始数据组,对初始数据组剔除离群值,得到非离群数据组[Q1-3×IQR,Q3+3×IQR],对[Q1-3×IQR,Q3+3×IQR]取非异常数据组,得到目标数据集[Q1-1.5×IQR,Q3+1.5×IQR],将目标数据集设为数据集B,其中Q1表示第一分位数,Q3表示第三分位数,IQR表示四分位间距IQR=Q3-Q1。
4.根据权利要求3所述的航班保障数据的清理方法,其特征在于,所述步骤2.1的具体过程为:
抽取停机位数据的不同的属性作为不同的排序关键字;按照排序关键字对数据集B中的停机位数据的各个字段计算字段值,从而得到停机位数据的键值,停机位数据的键值,即为该停机位数据中字段值的集合。
5.根据权利要求4所述的航班保障数据的清理方法,其特征在于,所述步骤2.2具体为:
在数据集B中建立聚簇索引,按照停机位数据的键值,对数据集B中的停机位数据进行近邻排列,使得相似重复记录排列到邻近区域,得到数据集C。
6.根据权利要求5所述的航班保障数据的清理方法,其特征在于,所述步骤2.3的具体过程为:
数据集C中的每一个数据均构成一条记录,在数据集C上滑动可变大小的窗口,滑动过程中采用先进先出策略,窗口滑动时,设当前窗口中的记录是第1~N条记录,则接下来进入窗口的记录是第N+1条记录,将第N+1条记录与窗口内的第2~N条记录逐一进行相似度匹配,以此来检测第N+1条记录是否是重复记录,如果是重复记录,剔除该条记录,如不是重复记录,则继续向下滑动窗口,直到完成数据集C中所有记录的相似度匹配。
7.根据权利要求6所述的航班保障数据的清理方法,其特征在于,所述步骤2.3中,相似度匹配的具体过程为:
设置字段权重,由若干位专家独立对每个字段的权重进行打分,取同一个字段的权重的打分均值,作为该字段的字段权重,字段权值=字段权重×字段值,一条记录的权值由该记录中所有字段的字段权值的总和构成;
在相似度匹配的过程中,分别计算两条待匹配记录的权值,并进行加合,得到两条待匹配记录的相似度M,将M与预设的相似度阈值N比较,如果M大于N,则两条待匹配记录中后进入窗口的记录为重复记录,否则视为两条不同的记录。
8.根据权利要求1所述的航班保障数据的清理方法,其特征在于,步骤2.3中,由停机位的使用频度驱动窗口的大小:统计停机位的平均使用频度Mean和停机位的最大使用频度Max,采用(Mean+Max)/2作为窗口的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710273945.4A CN107025301A (zh) | 2017-04-25 | 2017-04-25 | 航班保障数据的清理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710273945.4A CN107025301A (zh) | 2017-04-25 | 2017-04-25 | 航班保障数据的清理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107025301A true CN107025301A (zh) | 2017-08-08 |
Family
ID=59527900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710273945.4A Pending CN107025301A (zh) | 2017-04-25 | 2017-04-25 | 航班保障数据的清理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107025301A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763346A (zh) * | 2018-05-15 | 2018-11-06 | 中南大学 | 一种滑窗箱型图中值滤波的异常点处理方法 |
CN109727446A (zh) * | 2019-01-15 | 2019-05-07 | 华北电力大学(保定) | 一种用电数据异常值的识别与处理方法 |
CN109918367A (zh) * | 2019-03-19 | 2019-06-21 | 北京百度网讯科技有限公司 | 一种结构化数据的清洗方法、装置、电子设备及存储介质 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
CN110737640A (zh) * | 2019-10-12 | 2020-01-31 | 齐鲁工业大学 | 一种基于分布式系统的数据质量提高方法及系统 |
CN111104398A (zh) * | 2019-12-17 | 2020-05-05 | 智慧航海(青岛)科技有限公司 | 针对智能船舶近似重复记录的检测方法、消除方法 |
CN112416920A (zh) * | 2020-12-01 | 2021-02-26 | 北京理工大学 | 一种面向mes的数据清洗方法及系统 |
CN114999156A (zh) * | 2022-05-27 | 2022-09-02 | 北京汽车研究总院有限公司 | 车前行人横穿场景的自动识别方法、装置、介质和车辆 |
CN116485427A (zh) * | 2022-10-14 | 2023-07-25 | 南京贝特威信息技术有限公司 | 一种面向全球民航客票燃油附加费实时计算的预处理方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055252A1 (en) * | 2003-03-28 | 2011-03-03 | Dun & Bradstreet, Inc. | System and method for data cleansing |
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN106055613A (zh) * | 2016-05-26 | 2016-10-26 | 华东理工大学 | 一种基于混合范数的数据分类训练数据库清洗方法 |
-
2017
- 2017-04-25 CN CN201710273945.4A patent/CN107025301A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055252A1 (en) * | 2003-03-28 | 2011-03-03 | Dun & Bradstreet, Inc. | System and method for data cleansing |
CN104699796A (zh) * | 2015-03-18 | 2015-06-10 | 浪潮集团有限公司 | 一种基于数据仓库的数据清洗方法 |
CN106055613A (zh) * | 2016-05-26 | 2016-10-26 | 华东理工大学 | 一种基于混合范数的数据分类训练数据库清洗方法 |
Non-Patent Citations (2)
Title |
---|
杨宏娜: "基于数据仓库的数据清洗技术研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
谢文阁 等: "数据清洗中重复记录清洗算法的研究", 《软件工程师》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763346A (zh) * | 2018-05-15 | 2018-11-06 | 中南大学 | 一种滑窗箱型图中值滤波的异常点处理方法 |
CN108763346B (zh) * | 2018-05-15 | 2022-02-01 | 中南大学 | 一种滑窗箱型图中值滤波的异常点处理方法 |
CN109727446A (zh) * | 2019-01-15 | 2019-05-07 | 华北电力大学(保定) | 一种用电数据异常值的识别与处理方法 |
CN109918367A (zh) * | 2019-03-19 | 2019-06-21 | 北京百度网讯科技有限公司 | 一种结构化数据的清洗方法、装置、电子设备及存储介质 |
CN110162519A (zh) * | 2019-04-17 | 2019-08-23 | 苏宁易购集团股份有限公司 | 数据清理方法 |
CN110737640A (zh) * | 2019-10-12 | 2020-01-31 | 齐鲁工业大学 | 一种基于分布式系统的数据质量提高方法及系统 |
CN111104398A (zh) * | 2019-12-17 | 2020-05-05 | 智慧航海(青岛)科技有限公司 | 针对智能船舶近似重复记录的检测方法、消除方法 |
CN111104398B (zh) * | 2019-12-17 | 2023-08-29 | 智慧航海(青岛)科技有限公司 | 针对智能船舶近似重复记录的检测方法、消除方法 |
CN112416920A (zh) * | 2020-12-01 | 2021-02-26 | 北京理工大学 | 一种面向mes的数据清洗方法及系统 |
CN112416920B (zh) * | 2020-12-01 | 2023-01-24 | 北京理工大学 | 一种面向mes的数据清洗方法及系统 |
CN114999156A (zh) * | 2022-05-27 | 2022-09-02 | 北京汽车研究总院有限公司 | 车前行人横穿场景的自动识别方法、装置、介质和车辆 |
CN116485427A (zh) * | 2022-10-14 | 2023-07-25 | 南京贝特威信息技术有限公司 | 一种面向全球民航客票燃油附加费实时计算的预处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107025301A (zh) | 航班保障数据的清理方法 | |
Zhang et al. | Improving crowdsourced label quality using noise correction | |
CN107169059A (zh) | 一种基于相似变精度粗糙集模型的知识推送规则提取方法 | |
CN104281525B (zh) | 一种缺陷数据分析方法及利用其缩减软件测试项目的方法 | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
CN104702465A (zh) | 一种并行网络流量分类方法 | |
KR20190053616A (ko) | 빅데이터 분석을 위한 데이터 병합 장치 및 방법 | |
CN105447079B (zh) | 一种基于函数依赖的数据清洗方法 | |
CN108268886A (zh) | 用于识别外挂操作的方法及系统 | |
CN116756373A (zh) | 基于知识图谱更新的项目评审专家筛选方法、系统及介质 | |
Yang et al. | Analysis of dishonorable behavior on railway online ticketing system based on k-means and FP-growth | |
Alizamini et al. | Data quality improvement using fuzzy association rules | |
CN112836645A (zh) | 面向大规模运动心率序列的代跑检测方法 | |
Ganjour et al. | Gender inequality regarding retirement benefits in Switzerland | |
Yunmeng et al. | The application of the decision tree algorithm based on k-means in employee turnover prediction | |
Pereira et al. | Traffic event detection using online social networks | |
Singh et al. | Performance analysis of faculty using data mining techniques | |
Wang et al. | A new feature selection method for intrusion detection | |
CN105138544B (zh) | 一种重塑逻辑演绎链的搜索方法 | |
Jahanian et al. | Selecting Optimal k in the k-means Clustering Algorithm | |
JansiRani et al. | Computation of reducts using topology and measure of significance of attributes | |
Silva et al. | Detecting possible persons of interest in a physical activity program using step entries: Including a web‐based application for outlier detection and decision‐making | |
Cui et al. | Rough set processing outliers in cluster analysis | |
Jun et al. | Research on Evaluation Method Used to Quality Performance of Missile Weapon Based on Rough Set Rule Extraction | |
Liang et al. | Weighted numerical and categorical attribute clustering in data streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170808 |
|
RJ01 | Rejection of invention patent application after publication |