CN107071802B - 一种手机app定位异常数据检测方法及其装置 - Google Patents
一种手机app定位异常数据检测方法及其装置 Download PDFInfo
- Publication number
- CN107071802B CN107071802B CN201710156463.0A CN201710156463A CN107071802B CN 107071802 B CN107071802 B CN 107071802B CN 201710156463 A CN201710156463 A CN 201710156463A CN 107071802 B CN107071802 B CN 107071802B
- Authority
- CN
- China
- Prior art keywords
- abnormal
- data
- users
- point
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 111
- 238000001514 detection method Methods 0.000 title claims abstract description 30
- 238000013500 data storage Methods 0.000 claims abstract description 22
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000004140 cleaning Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 14
- 230000008676 import Effects 0.000 claims description 5
- 230000001680 brushing effect Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明提供一种手机APP定位异常数据检测方法及其装置,包括数据存储模块,判断模块、数据预处理模块、检测模块和清洗模块,及对应的检测方法。本发明通过提供一种高效、精准的方法,达到有效检测因APP刷量产生的手机APP定位异常数据的效果,有效保证数据的准确性。
Description
技术领域
发明涉及手机数据分析的方法,尤其是一种手机APP定位异常数据检测方法及其装置。
背景技术
人的行为一直是重要的研究领域,近年来,基于大数据的人的行为研究更是得到了迅速的发展。手机APP定位数据可以提供大量用户精准的位置数据为研究人的行为提供重要依据。但是,部分厂商为了推广APP,采用刷APP用户量的方法,伪造大量手机APP用户,更换IP模拟位置切换,大量污染数据,严重影响采集数据的准确性。目前,只能通过人工判断的方法来排查、筛选有效的数据,成本高且效率低。因此,需要一种有效检测手机APP定位异常数据的方法及其装置。
发明内容
针对如何高效检测伪造的手机APP用户,以及精准清洗大量异常数据的技术问题,本发明提出了一种手机APP定位异常数据检测方法及其装置。
一种手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
E.将步骤D中判断为用户数量数据不真实的异常点作为异常用户数量的起始处,将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,并找出这些异常用户数量对应的经纬度位置,删除在这些经纬度位置上记录用户的所有数据。
进一步的,在上述方案的基础上,在所述步骤C以均值比方法从步骤B中的统计数据中找出异常点,是将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度( 是期望点估计,n为统计量数量),跳跃度最大处为异常点。
进一步的,在上述方案的基础上,所述步骤D根据置信区间和统计量众数,判断异常点是否真实,是判断在置信区间的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处。由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤ k<r≤ n,有/>服从于F(2/>(r-k),2k)分布(约定X0=0),令/>的分位点为/>,通过判断,可以判断在置信区间/>的条件下,异常点是否真实。并需要判断跳跃度最大处是否位于统计量众数处。/>且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
一种手机APP定位异常数据检测的装置,包括数据存储模块、判断模块、数据预处理模块、检测模块和清洗模块,
所述数据预处理模块,与数据存储模块连接,用于导出数据存储模块中的数据并进行预处理,构造适用于检测的统计量;
所述检测模块,与数据预处理模块连接,用于分析预处理后的数据,确定异常用户数量的起始处;
所述判断模块,与检测模块连接,用于根据置信区间和统计量众数判断检测模块确定的异常点是否真实。如果异常点被判断为不真实数据,则将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,根据异常用户数量找出异常经纬度位置,并标记异常经纬度位置上用户的所有记录为异常数据;
所述清洗模块,与判断模块和数据存储模块连接,用于剔除判断模块中标记的异常数据,并将最终清洗后的数据导入数据存储模块;
所述数据存储模块,用于分别存储初始数据,以及存储清洗模块导入的处理后数据。
本发明的优点在于,通过一种高效、精准的方法,达到有效检测因APP刷量产生的手机APP定位异常数据的效果,有效保证数据的准确性。
附图说明
图1是本发明所述检测方法的流程示意图;
图2是本发明所述检测装置的示意图。
1-数据存储模块;2-数据预处理模块;3-检测模块;4-判断模块;5-清洗模块。
具体实施方式
下面详细描述本发明的实施例,所述实施例的实例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的原件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1中的流程图所示,手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
E.将步骤D中判断为用户数量数据不真实的异常点作为异常用户数量的起始处,将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,并找出这些异常用户数量对应的经纬度位置,删除在这些经纬度位置上记录用户的所有数据。
在步骤A和B中,手机APP定位数据提供精确到米的位置数据,同一个经纬度位置上一般不会出现大量不同用户,而通过APP刷量可以在同一经纬度位置上产生大量不同用户。因此,统计一段时间内,每个经纬度位置上记录到的用户数量,而不是统计每个经纬度位置上记录到的记录数量。
在步骤C中,采用均值比方法寻找异常用户数量最有可能的起始处,将所获统计数据按从小到大的次序进行排列后,异常用户数量出现在一侧。本发明中检测的异常位置指出现大量不同用户的经纬度位置,统计量是每个经纬度位置上记录到的用户数量,可能存在不一定唯一的异常大值。
具体是将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度(,其中/>是期望点估计,n为统计量数量),跳跃度最大处为异常点。
进一步的,在上述方案的基础上,所述步骤D根据置信区间和统计量众数,判断异常点是否真实,是判断在置信区间的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处。由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤ k<r≤ n,有/>服从于F(2/>(r-k),2k)分布(约定X0=0),令/>的分位点为/>,通过判断,可以判断在置信区间/>的条件下,异常点是否真实。其次,由于手机APP定位数据可以提供精确到米的位置数据,同一个经纬度位置上记录到的用户数量主要是低值,因此,在统计量的众数(一般是1)处,会产生较大的跳跃度,易被识别为异常点。需要判断跳跃度最大处是否位于统计量众数处。/>且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
最后,步骤E剔除异常数据。根据步骤D中异常用户数量,将异常经纬度位置筛选出,在这些经纬度位置上出现的是伪造用户,删除这些用户的所有记录,完成对手机APP定位数据的检测与清洗。
如图2所示,一种手机APP定位异常数据检测的装置,包括数据存储模块1、判断模块4、数据预处理模块2、检测模块3和清洗模块5;
所述数据预处理模块2,与数据存储模块1连接,用于导出数据存储模块1中的数据并进行预处理,构造适用于检测的统计量;
所述检测模块3,与数据预处理模块2连接,用于分析预处理后的数据,确定异常用户数量的起始处;
所述判断模块4,与检测模块3连接,用于根据置信区间和统计量众数判断检测模块4确定的异常点是否真实,如果异常点被判断为不真实数据,则将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,根据异常用户数量找出异常经纬度位置,并标记异常经纬度位置上用户的所有记录为异常数据;
所述清洗模块5,与判断模块4和数据存储模块1连接,用于剔除判断模块4中标记的异常数据,并将最终清洗后的数据导入数据存储模块1;
所述数据存储模块1,用于分别存储初始数据,以及存储清洗模块5导入的处理后数据。
实施例1
以云南省大理白族自治州1个月的手机APP定位数据为例,将44万用户,2400万条记录导入数据存储模块1中。数据预处理模块2,剔除700条时间戳和用户代码错误的记录。统计每个经纬度位置上记录的用户数量,导入检测模块;
检测模块3采用均值比方法检测异常用户数量,将每个经纬度位置上记录的用户数量按从小到大排列(其中312万个经纬度位置上只记录到1个用户),分别计算其跳跃度。当k=3217617时,跳跃度最大,为1.143,被识别为异常点。
判断模块4,计算,且统计量位于280和4155之间,不位于统计量众数1处。因此,判断第3217617个用户数量是异常用户数量的起始点,第3217617个用户数量及其之后的131个用户数量均为异常用户数量,根据异常用户数量,筛选异常经纬度位置,这些经纬度位置上共记录到18万不同用户,将这些用户的所有记录标记为异常值,并进行分析。统计异常经纬度位置上每小时的记录量和记录人数,9月1日至9月18日,记录量较大,而9月19日,记录量迅速减小,与其他经纬度位置上的记录趋势具有明显区别,应为异常经纬度位置。
清洗模块5将数据中被判断模块标记为异常数据进行删除,并将最终数据导入数据存储模块1中保存。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
Claims (2)
1.一种手机APP定位异常数据检测方法,具体步骤如下:
A.读取服务器中的用户定位数据,剔除时间戳和用户代码错误的数据;
B.统计每个经纬度位置上的用户数量;
C.以均值比方法从步骤B中的统计数据中找出异常点;
D.根据置信区间和统计量众数,判断异常点是否真实;
E.将步骤D中判断为用户数量数据不真实的异常点作为异常用户数量的起始处,将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,并找出这些异常用户数量对应的经纬度位置,删除在这些经纬度位置上记录用户的所有数据;
在所述步骤C以均值比方法从步骤B中的统计数据中找出异常点,是将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度
其中,是期望点估计,n为统计量数量,跳跃度最大处为异常点;
所述步骤D根据置信区间和统计量众数,判断异常点是否真实,是判断在置信区间1-α的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处;由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤k<r≤n;
有服从于F(2×(r-k),2k)分布;
其中,约定X0=0,令可得U的1-α的分位点为/>通过判断/>是否大于U1-α,可以判断在置信区间1-α的条件下,异常点是否真实,并需要判断跳跃度最大处是否位于统计量众数处;
当大于U1-α,且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
2.一种手机APP定位异常数据检测的装置,其特征在于,包括数据存储模块,判断模块、数据预处理模块、检测模块和清洗模块,
所述数据预处理模块,与数据存储模块连接,用于导出数据存储模块中的数据并进行预处理,构造适用于检测的统计量;
所述检测模块,与数据预处理模块连接,用于分析预处理后的数据,确定异常用户数量的起始处;
所述判断模块,与检测模块连接,用于根据置信区间和统计量众数判断检测模块确定的异常点是否真实;如果异常点被判断为不真实数据,则将异常点以及排序在异常点之后的所有用户数量标记为异常用户数量,根据异常用户数量找出异常经纬度位置,并标记异常经纬度位置上用户的所有记录为异常数据;
所述清洗模块,与判断模块和数据存储模块连接,用于剔除判断模块中标记的异常数据,并将最终清洗后的数据导入数据存储模块;
所述数据存储模块,用于分别存储初始数据,以及存储清洗模块导入的处理后数据;
所述判断模块还用于将每个经纬度位置上记录的用户数量按从小到大排列,分别计算第一个至倒数第二个统计量的跳跃度其中,/>是期望点估计,n为统计量数量,跳跃度最大处为异常点;
所述清洗模块还用于判断在置信区间1-α的条件下,异常点是否真实,并判断所述异常用户数量的起始点是否位于统计量的众数处;由于按从小到大排列的用户数量X1,X2,…,Xn可以用指数分布来近似,则对任意的1≤k<r≤n;
有服从于F(2×(r-k),2k)分布;
其中,约定X0=0,令可得U的1-α的分位点为/>通过判断是否大于U1-α,可以判断在置信区间1-α的条件下,异常点是否真实,并需要判断跳跃度最大处是否位于统计量众数处;
当大于U1-α,且异常用户数量的起始点并非位于统计量的众数处时,认为Xk+1,…,Xn是不真实的用户数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710156463.0A CN107071802B (zh) | 2017-03-16 | 2017-03-16 | 一种手机app定位异常数据检测方法及其装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710156463.0A CN107071802B (zh) | 2017-03-16 | 2017-03-16 | 一种手机app定位异常数据检测方法及其装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107071802A CN107071802A (zh) | 2017-08-18 |
CN107071802B true CN107071802B (zh) | 2024-02-27 |
Family
ID=59621006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710156463.0A Active CN107071802B (zh) | 2017-03-16 | 2017-03-16 | 一种手机app定位异常数据检测方法及其装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107071802B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107707618B (zh) * | 2017-08-24 | 2019-06-25 | Oppo广东移动通信有限公司 | 基于位置调整下载量的方法及相关产品 |
CN110869910B (zh) | 2017-08-31 | 2024-04-05 | 深圳市欢太科技有限公司 | 搜索资源推荐方法及相关产品 |
CN108093416B (zh) * | 2017-11-30 | 2021-09-21 | 厦门市美亚柏科信息股份有限公司 | 一种移动app推送数据的采集方法及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116168A (zh) * | 2013-02-01 | 2013-05-22 | 珠海德百祺科技有限公司 | 一种导航定位装置的异常检测及处理方法和装置 |
CN105021186A (zh) * | 2015-07-16 | 2015-11-04 | 山东慧行天下文化传媒有限公司 | 基于手绘地图的智能导游导览系统 |
CN105787203A (zh) * | 2016-03-23 | 2016-07-20 | 浪潮通信信息系统有限公司 | 一种预测小区经纬度是否异常的方法 |
-
2017
- 2017-03-16 CN CN201710156463.0A patent/CN107071802B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116168A (zh) * | 2013-02-01 | 2013-05-22 | 珠海德百祺科技有限公司 | 一种导航定位装置的异常检测及处理方法和装置 |
CN105021186A (zh) * | 2015-07-16 | 2015-11-04 | 山东慧行天下文化传媒有限公司 | 基于手绘地图的智能导游导览系统 |
CN105787203A (zh) * | 2016-03-23 | 2016-07-20 | 浪潮通信信息系统有限公司 | 一种预测小区经纬度是否异常的方法 |
Non-Patent Citations (1)
Title |
---|
一种基于方差分量估计的异常定位数据实时检测方法;齐;暴景阳;刘雁春;曾敏;;测绘科学技术学报(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107071802A (zh) | 2017-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107071802B (zh) | 一种手机app定位异常数据检测方法及其装置 | |
CN105260414B (zh) | 用户行为相似性计算方法及装置 | |
CN105160008A (zh) | 一种定位推荐用户的方法及装置 | |
CN110197020A (zh) | 一种环境变化对水文干旱影响的分析方法 | |
CN110019954A (zh) | 一种作弊用户的识别方法及系统 | |
CN104408923B (zh) | 交通状态评估方法和装置 | |
CN104113872A (zh) | 一种数据业务监控方法及系统 | |
CN108021509B (zh) | 基于程序行为网络聚合的测试用例动态排序方法 | |
CN106936778B (zh) | 网站流量异常的检测方法和装置 | |
CN104281776A (zh) | 一种人类活动对河川径流过程显著影响期的判断方法 | |
CN117634932A (zh) | 一种智能手表生产测试用平台的管理系统 | |
CN105429792B (zh) | 用户行为流量获取方法及装置、用户行为分析方法及系统 | |
CN109672936A (zh) | 一种视频评估集的确定方法、装置及电子设备 | |
CN109872813A (zh) | 检测系统阳性率评估方法及装置、计算机可读存储介质 | |
CN116027202A (zh) | 电池健康度评估方法、装置、计算机设备和存储介质 | |
CN106510651B (zh) | 一种体温预测算法的评估方法及装置 | |
CN113947504B (zh) | 一种基于随机森林法的窃电分析方法及其系统 | |
CN107704373A (zh) | 一种数据处理方法及装置 | |
CN107094306B (zh) | 终端性能评估方法及装置 | |
CN108900339B (zh) | 一种度量业务质量的方法、装置及电子设备 | |
CN108093275A (zh) | 一种数据处理方法及装置 | |
CN110348717A (zh) | 基于栅格粒度的基站价值评分方法和装置 | |
CN114595425A (zh) | 流域降水径流关系非一致性突变点诊断分析方法 | |
CN114330848A (zh) | 基于时序信号的猪场设备生命周期预测方法 | |
CN109145257A (zh) | 一种基于多测点公共异常时间的大坝安全监测分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |