CN109145225B - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN109145225B CN109145225B CN201710501629.8A CN201710501629A CN109145225B CN 109145225 B CN109145225 B CN 109145225B CN 201710501629 A CN201710501629 A CN 201710501629A CN 109145225 B CN109145225 B CN 109145225B
- Authority
- CN
- China
- Prior art keywords
- positioning data
- geohash
- data
- equipment
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000000694 effects Effects 0.000 claims abstract description 48
- 238000010223 real-time analysis Methods 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 9
- 238000004220 aggregation Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims 2
- 238000012216 screening Methods 0.000 abstract description 13
- 238000004091 panning Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 238000007405 data analysis Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
本申请公开了一种数据处理方法及装置,包括:从设备的定位数据中筛选出空间有效的定位数据;利用筛选出的空间有效的定位数据分析设备间的活动相似度。通过本发明提供的技术方案,一方面对海量的定位数据的离线处理,得到的空间有效数据的数据量得到了很好的收敛,另一方面,利用筛选后的收敛后的空间有效的数据进行后续实时分析,提高了实时分析的数据处理效率,而且这些收敛后的定位数据是空间有效的定位数据,也保障了后续实时分析的准确度。
Description
技术领域
本申请涉及移动互联网技术,尤指一种数据处理方法及装置。
背景技术
在移动互联网时代,有大量的设备能够持续不间断的产生位置数据。实际应用中,虽然活动中的设备通常能够不间断的产生位置数据,但是,每个设备产生位置数据的频率不同,位置精度也会不同,如何能在如此海量的稀疏的位置数据中快速获知设备(采用不同的号码标识)之间的活动相似度,以推测哪些设备的使用者是同一用户。
由于不同设备会在不同的时间、位置产生位置数据,要基于这样的位置数据来计算两个设备的活动相似度,通常是直接对两个设备在时间与空间两个维度上同时求交集,其交集数量越高,则活动相似度越高,图1为相关技术中通过在时间与空间两个维度上求交集以获取设备的活动相似度的数据处理过程示意图,如图1所示,横轴表示时间,纵轴标识空间,在时间和空间表示的二维图区域描述一个时空范围,图1中的各个小圆点表示某个设备产生的一个时空数据。这里以标识①作为目标设备,描述通过时空求交的方式找出与标识①的设备(下文称为设备①)最相似的设备。
如图1所示,仅以设备①、设备②、设备③、设备④和设备⑤为例,对于设备①,以该设备产生的每一条数据的时间、空间为中心,分别以时间窗口为ΔT、空间窗口为ΔS的二维矩形窗口与其它时空信息求交,如1图中一共有11个矩形窗口分别表示设备①的11个时空信息基于时长ΔT和空长ΔS扩展后的矩形窗口,被这些矩形窗口覆盖的其它设备数据点表示与设备①在时空上相交。最终结果可以看出,其中,设备②与设备①一共相交了3次,设备③与设备①一共相交了2次,设备④与设备①一共相交了4次,号码⑤与设备①一共相交了9次。相比之下,设备⑤与设备①的活动相似度最高,其次最有可能是设备④,依次根据覆盖数从高到低排序。
从相关技术提供的数据处理技术方案可见,实际上只有在数据精度足够高以及数据量不是特别大的情况下,现有的数据处理方法才能较好的应用起来。对于时间粗糙和经度信息精度较低的设备的定位数据,存在以下问题:
一方面,在时间维度上,需要将目标设备的每一条数据的时间与其它所有设备的数据的时间进行交集匹配。由于设备的定位数据的产生时间很稀疏,一个设备可能需要数分钟至数小时才会更新一次位置信息,为了确保真正活动相似的设备能够在时间上有交集,需要把时间窗口调整得足够大,如30分钟。另一方面,在空间维度上,需要将目标设备的每一条数据的位置与其它所有设备的数据的位置进行交集匹配。由于位置产生的精度存在不一致,为了确保真正活动相似的设备能够在空间上有交集,需要把空间窗口调整得足够大,如1000米。
而时间窗口的扩大和空间窗口的扩大都会导致得到非常多的噪声数据,比如:时间窗口扩大时,会将更多的碰巧该时间窗口经过同一位置的设备也涵盖进来,如某个区域,10分钟内有n个不相关的设备经过,20分钟可能就有2n个不相关的设备经过;再如:空间窗口扩大时,同样也会将更多的设备涵盖进来,如1平方千米有100个不相关的设备,而4平方千米就可能有400个不相关的设备。而这些被涵盖进来的不相关设备都是噪声。从而使得产生的中间数据量极大,数据处理效率十分低下,而且机器消耗惊人,在需要快速查找与某个设备的活动相似的设备时,采用现有技术的数据处理方法是根本无法实现的。
发明内容
为了解决上述技术问题,本申请提供了一种数据处理方法及装置,能够提高基于大数据的数据处理效率,实现基于活动相似的快速设备查找。
为了达到本申请目的,本申请提供一种数据处理方法,包括:
从设备的定位数据中筛选出空间有效的定位数据;
利用筛选出的空间有效的定位数据分析设备间的活动相似度。
可选地,所述筛选出空间有效的定位数据包括:
利用地理位置编码geohash获取所述定位数据的geohash值;
根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据。
可选地,所述利用地理位置编码geohash获取所述定位数据的geohash值包括:利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值;
所述根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据包括:
对每一个设备,分别对相同的geohash值进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;
根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据。
可选地,所述利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值,包括:
按照预先设置的特征信息对获得的定位数据进行归类;
将归类后的每类定位数据中的每一条定位数据的经度和纬度均转换成geohash值;
所述对每一个设备的相同的geohash值分别进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;并根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据,包括:
对每一个设备的相同的geohash值分别进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;
对每一个设备,分别根据停留时长对计算出的每个设备在每个geohash值对应的位置区域的停留时长进行排序并选择排序靠前的M条定位数据,将选择出的M条定位数据和相应的停留日期作为该设备的所述空间有效的定位数据;其中,M为预设值。
可选地,所述对每一个设备,分别对相同的geohash值进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长,包括:
对所述geohash值对应的位置区域中的某个设备,根据时间从先到后的顺序,对特征信息的所有定位数据进行排序,从第一条定位数据开始,执行以下判断处理,直至每一条定位数据都经过以下处理:
如果当前定位数据之后的预设时长内没有出现新的定位数据,则将预设时长作为该设备在该geohash值对应的位置区域的停留时长;
如果当前定位数据与下一条定位数据的间隔在预设时长内,则将两条定位数据的时间跨度作为该设备在该geohash值对应的位置区域的停留时长。
可选地,所述利用筛选出的空间有效的定位数据,实时分析设备间的活动相似度包括:
基于所述筛选出的空间有效的定位数据,实时获取需要分析的目标设备的定位数据;
根据得到的目标设备的定位数据,计算两两设备的活动相似度,并按照从高到低的顺序排序以推测出的两个设备是否为同一用户的目标的候选集合。
可选地,所述分析设备间的活动相似度之后,还包括:
从所述筛选出的空间有效的定位数据中确定与预设定位数据相似度满足预设条件的定位数据,并确定所述相似度满足预设条件的定位数据对应设备与预先设定的定位数据的设备为同一用户;
为对应同一用户的设备推荐相同的业务。
本申请还提供了一种数据处理装置,包括离线处理单元、实时分析单元,其中,
离线处理单元,用于从设备的定位数据中筛选出空间有效的定位数据;
实时分析单元,用于利用筛选出的空间有效的定位数据分析设备间的活动相似度。
可选地,所述离线处理单元具体用于:利用地理位置编码geohash获取所述定位数据的geohash值;根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据。
可选地,所述离线处理单元中的利用地理位置编码geohash获取所述定位数据的geohash值包括:利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值;
所述离线处理单元中的根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据包括:对每一个设备,分别对相同的geohash值进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;并根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据。
可选地,所述实时分析单元具体用于:
基于所述筛选出的空间有效的定位数据,实时获取需要分析的目标设备的定位数据;根据得到的目标设备的定位数据,计算两两设备的活动相似度,并按照从高到低的顺序排序以推测出的两个设备是否为同一用户的目标的候选集合。
本申请又提供了一种数据处理系统,包括:离线处理平台、实时分析平台、业务处理平台;其中,
离线处理平台,用于从采集的若干个定位数据中筛选出空间有效的定位数据,并将筛选出的空间有效的定位数据同步到实时分析平台;
实时分析平台,用于通过分析设备间的活动相似度,从筛选出的空间有效的定位数据中确定与预设定位数据相似度满足预设条件的定位数据,并确定相似度满足预设条件的定位数据对应设备与预先设定的定位数据的设备为同一用户;
业务处理平台,用于为对应同一用户的设备推荐相同的业务。
本申请再提供了一种用于实现数据处理的装置,至少包括存储器和处理器,其中,存储器中存储有以下可执行指令:从设备的定位数据中筛选出空间有效的定位数据;利用筛选出的空间有效的定位数据分析设备间的活动相似度。
本申请提供的方案包括:从设备的定位数据中筛选出空间有效的定位数据;利用筛选出的空间有效的定位数据分析设备间的活动相似度。通过本发明提供的技术方案,一方面,对海量的定位数据进行筛选得到的空间有效数据,使得数据量得到了很好的收敛,另一方面,利用筛选后得到的空间有效的数据进行后续实时分析,提高了实时分析的数据处理效率,而且这些收敛后的定位数据是空间有效的定位数据,也保障了后续实时分析的准确度。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为相关技术中通过在时间与空间两个维度上求交集以获取设备的活动相似度的数据处理过程示意图;
图2为本申请数据处理方法的流程图;
图3为本申请数据处理装置的组成结构示意图;
图4为本申请一实际应用场景中确定相似数据的实施例的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
为了实现对定位数据的确认,如哪些定位数据反应的活动是来自同一用户的,可以通过从筛选出的空间有效的定位数据中确定与预设定位数据相似度满足预设条件的定位数据,并确定相似度满足预设条件的定位数据对应设备与预先设定的定位数据的设备为同一用户,这样,有助于为对应同一用户的设备推荐相同或相似的业务。
图2为本申请数据处理方法的流程图,如图2所示,包括:
步骤200:从设备的定位数据筛选出空间有效的定位数据。
设备所产生的定位数据包括但不限于:设备编号、定位数据的产生时间、产生日期、经度,及纬度等基础字段,由于数据量极大,存放时通常根据定位数据的产生日期进行分区。以离线处理为例,可以以分区表形式存放设备的定位数据,表结构如表1所示。
表1
表1显示了按照预先设置的特征信息如产生日期进行归类后的定位数据,如以日期1为分区的设备的定位数据存放的分区表。其中,日期分区的1各日期通常指一天,以天为单位。
本步骤的从设备的定位数据筛选出空间有效的定位数据是离线处理,具体包括:利用地理位置编码geohash获取所述定位数据的geohash值;
根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据。
其中,利用地理位置编码geohash获取所述定位数据的geohash值包括:利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值;
其中,根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据包括:对每一个设备的相同的geohash值进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;并根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据。
更具体地:
对于每个分区表,即按照预先设置的特征信息如产生日期进行归类后的每类定位数据,
首先,将归类后的每类定位数据中的每一条定位数据的经度和纬度均转换成geohash值,即将分区表中的每一条定位数据的经度和纬度转换成geohash值。
其中,geohash是一种公开的地理位置编码系统,采用一个字符串表示经度和纬度两个坐标。Geohash值标识的不是一个点,而是一个位置区域,即geohash能够将空间划分成一块块的网格,每一个geohash值通过一位或者多位的字母以及数字表示,具体指向某一块矩形空间区域,同时该矩形区域大小与geohash值的位数成反比,如6位的geohash值所对应的区域大小大致是1.22km×0.61km,5位的geohash值所对应的区域大小大致是4.89km×4.89km。
设备的经度和纬度数据本身就因为精度问题存在偏差,而通过本申请中的将经度和纬度转成geohash值的方式,能够较大程度上将位置相近的经度和纬度数据映射到同一块区域,利于快速检索;同时通过将二维的表达形式变成一维表达,使得计算变得简单,非常利于后续的计算处理。
接着,对每一个设备的相同的geohash值分别进行聚合处理,也就是对各相同的geohash值对应的停留时长进行累加,以估计该设备在该geohash值对应的位置区域的停留时长。
其中,估计该设备在该geohash值对应的位置区域的停留时长可以包括:
对geohash值对应的位置区域中的某个设备,根据时间从先到后的顺序,对特征信息如日期1如当天的所有定位数据进行排序,从第一条定位数据开始,执行以下判断处理,直至每一条定位数据都经过以下处理:
如果当前定位数据之后的预设时长如2小时内都没有出现新的定位数据,则将预设时长如2小时作为该设备在该geohash值对应的位置区域的停留时长;其中,预设时长的长短主要取决于采集定位数据的应用App的工作方式,如果某个App通常情况下最多隔1小时就要采集一次定位数据,则该预设时长可以设置为1小时。
如果当前定位数据与下一条定位数据的间隔在预设时长如2小时内,则将两条定位数据的时间跨度作为该设备在该geohash值对应的位置区域的停留时长。
通过上述估计方法,可以估算出一个设备在其出现过的geohash值对应的位置区域的停留时长。
最后,对每一个设备,分别根据停留时长对计算出的每个设备在每个geohash值对应的位置区域的停留时长进行排序并选择出前预设数量M条定位数据,将选择出的预设数量M条定位数据和相应的停留日期作为该设备的空间有效的定位数据,如图2所示。
表2
表2中的信息以设备1停留过的geohash值对应的位置区域为例,表2中,停留时长即通过上述估计方法得到的设备在其出现过的geohash值对应的位置区域的停留时长。表2中,停留日期,使用多值列表示,每个值表示一个停留过的日期编号,即表示当前设备于这个日期在该geohash值对应的位置区域停留过。这里采用多值列表示为后续的实时分析带来了快速检索其中是否含有某个值的能力。
通过步骤200的对海量的定位数据的离线处理,数据量已经收敛到了(预设数量M×设备数量)这个量级了,为后续提高实时分析的数据处理效率,而且这些收敛后的定位数据是空间有效的定位数据,也保障了后续实时分析的准确度。
步骤201:利用筛选出的空间有效的定位数据分析设备间的活动相似度。
本步骤具体包括:
利用筛选出的空间有效的定位数据,计算两两设备之间的活动相似度,相似度的计算公式如公式(1)所示:
公式(1)中,f(a,b)表示设备b对应于设备a的活动相似度;
n表示设备a与设备b具有相同有效geohash值的数量,同时,可以知道n的值小于或等于步骤200中的预设数量M;
rank_ai表示第i个geohash值在设备a所有有效geohash值中的排名,排名根据停留时长从高到低分别对应为1,2,3…;rank_bi表示第i个geohash值在设备b的所有有效geohash值中的排名,排名根据停留时长从高到低分别对应为1,2,3…;
ratio表示衰减因子,其值区间为(0,1),如可以取值为0.975;
sameDatesi表示设备a与设备b在第i个位置区域同时停留过的日期交集数,即对于所分析的两个设备,如果在同一个位置区域的相同停留日期数越多,则二者的活动相似度越高;
lngStd表示n个位置在经度上的标准差,用于表示地理位置的经度跨度,即对于所分析的两个设备,如果在经度上的同时出现的跨度抖动越大,相似度越高;
latStd表示n个位置在纬度上的标准差,用于表示地理位置的纬度跨度,即对于所分析的两个设备,如果在纬度上的同时出现的跨度抖动越大,相似度越高。
基于同步到在线计算引擎的汇总数据即筛选出的空间有效的定位数据,以及公式(1),假设指定要查询的目标设备a,具体包括:
首先,基于筛选出的空间有效的定位数据,实时获取需要分析的目标设备a的定位数据,信息至少包含:目标设备a的停留时长排名前预设数量M的所有geohash值对应的位置区域,每个位置区域的具体排名,以及所停留的日期集合。
接着,根据得到的目标设备a的定位数据,按照公式(1)计算两两设备的活动相似度,并按照从高到低的顺序排序以得到前k个相似度最高的候选集合即推测出的两个设备是否为同一用户的目标的候选集合。
在本步骤的活动相似度计算后,如果比对的两个设备有过在相同日期停留的相同位置,则:
在相同的位置,比对的两个设备排名越高,二者的活动相似度越高;
在相同的位置,比对的两个设备排名越接近,二者的活动相似度越高;
在相同的位置,比对的两个设备具有相同停留的天数越多,二者的活动相似度越高。
另外,可以通过比对两个设备所有相同位置的经度和纬度标准方差来表示位置区域的跨度,跨度越大,二者的活动相似度越高。
随着大量的数据的产生,对大数据的处理能力也得到了提升,如何利用这些海量数据也开始成为一个又一个的难题,越来越多以前不敢想象的数据处理需求也开始尝试提出来。相应的大数据处理平台也开始逐步完善,比如:用于海量数据处理的离线计算引擎,如一些云计算公司提供的大数据计算服务平台,具体如大规模分布式数据处理服务的开放数据处理服务(ODPS,Open Data Processing Service),主要服务于批量结构化数据的存储和计算,或者Hadoop分布式系统等。再如:用于海量数据实时分析的在线计算引擎,如一些云计算公司提供的如分析性数据库服务(ADS,Analysis Database Service)用于让海量数据和实时与自由的计算可以兼得,实现了速度驱动的大数据商业变革,或者SAP内存数据库hana等。一方面,分析型数据库拥有快速处理百亿级别的大数据的能力,使得数据分析中使用的数据可以不再是抽样的,而是业务系统中产生的全量数据,使得数据分析的结果具有最大的代表性。而更重要的是,分析型数据库采用云计算技术,拥有强大的实时计算能力,通常可以在数百毫秒内完成十亿百亿的数据计算,使得使用者可以根据自己的想法在海量数据中自由的进行探索,而不是根据预先设定好的逻辑查看已有的数据报表。
以ADS为例,步骤201的实现可以采用通用的结构化查询语言(SQL,StructureQuery Language)实现。
需要说明的是,本发明方法如果采用ODPS和ADS来实现,在ODPS离线处理阶段可以使用ODPS MR处理,当前只能使用JAVA语言,但并不用于限定本发明的保护范围,而对于在线实时处理阶段,只要能够有访问ADS的驱动库,均可以实现。
通过本发明提供的数据处理方法,一方面对海量的定位数据的离线处理,得到的空间有效数据的数据量得到了很好的收敛,另一方面,利用筛选后的收敛后的空间有效的数据进行后续实时分析,提高了实时分析的数据处理效率,而且这些收敛后的定位数据是空间有效的定位数据,也保障了后续实时分析的准确度。
本发明数据处理方法的应用场景很多,比如:对于汽车的定位数据和某个手机的导航数据,可以通过本发明上述方法计算出汽车和该手机的活动相似度,并根据相似度的情况得到该汽车与该手机号的映射关系。再如:对于某个APP所有用户的定位数据,可以根据这些定位数据计算出两两用户的活动相似度,并根据得到的活动相似度间接推测两个用户是否是同一个人等等。
本申请还提供了一种数据处理系统,至少包括:离线处理平台、实时分析平台、业务处理平台;其中,
离线处理平台,用于从采集的若干个定位数据中筛选出空间有效的定位数据,并将筛选出的空间有效的定位数据同步到实时分析平台;
实时分析平台,用于通过分析设备间的活动相似度,从筛选出的空间有效的定位数据中确定与预设定位数据相似度满足预设条件如相似度最高的定位数据,并确定相似度满足预设条件如相似度最高的定位数据对应设备与预先设定的定位数据的设备为同一用户;
业务处理平台,用于为对应统一用户的设备推荐相同的业务。
可选地,
离线处理平台可以采用一些云计算公司提供的大数据计算服务平台如ODPS实现。
可选地,
实时分析平台可以采用一些云计算公司提供的如ADS实现。
图3为本申请数据处理装置的组成结构示意图,如图3所示,至少包括离线处理单元、实时分析单元,其中,
离线处理单元,用于从设备的定位数据中筛选出空间有效的定位数据;
实时分析单元,用于利用筛选出的空间有效的定位数据分析设备间的活动相似度。
可选地,
离线处理单元具体用于:利用地理位置编码geohash获取所述定位数据的geohash值;根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据。
其中,离线处理单元中的利用地理位置编码geohash获取所述定位数据的geohash值包括:利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值;
其中,离线处理单元中的根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据包括:对每一个设备的geohash值分别进行聚合处理,并根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据。
更具体地,离线处理单元用于:
按照预先设置的特征信息对获得的定位数据进行归类;
将归类后的每类定位数据中的每一条定位数据的经度和纬度均转换成geohash值;
对每一个设备的geohash值分别进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;
对每一个设备,分别根据停留时长对计算出的每个设备在每个geohash值对应的位置区域的停留时长进行排序并选择前预设数量M条定位数据,将选择出的预设数量M条定位数据和相应的停留日期作为该设备的空间有效的定位数据。
可选地,
离线处理模块中的对每一个设备的geohash值分别进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长,包括:
对geohash值对应的位置区域中的某个设备,根据时间从先到后的顺序,对特征信息的所有定位数据进行排序,从第一条定位数据开始,执行以下判断处理,直至每一条定位数据都经过以下处理:
如果当前定位数据之后的预设时长如2小时内都没有出现新的定位数据,则将预设时长如2小时作为该设备在该geohash值对应的位置区域的停留时长;其中,预设时长的长短主要取决于采集定位数据的应用App的工作方式,如果某个App通常情况下最多隔1小时就要采集一次定位数据,则该预设时长可以设置为1小时。
如果当前定位数据与下一条定位数据的间隔在预设时长如2小时内,则将两条定位数据的时间跨度作为该设备在该geohash值对应的位置区域的停留时长。
可选地,
实时分析单元具体用于:
基于筛选出的空间有效的定位数据,实时获取需要分析的目标设备的定位数据;根据得到的目标设备的定位数据,按照公式(1)计算两两设备的活动相似度,并按照从高到低的顺序排序以推测出的两个设备是否为同一用户的目标的候选集合。
可选地,
离线处理单元可以采用ODPS实现。
可选地,
实时分析单元可以采用ADS实现。
通过本发明提供的数据处理装置,一方面对海量的定位数据的离线处理,得到的空间有效数据的数据量得到了很好的收敛,另一方面,利用筛选后的收敛后的空间有效的数据进行后续实时分析,提高了实时分析的数据处理效率,而且这些收敛后的定位数据是空间有效的定位数据,也保障了后续实时分析的准确度。
这里结合一实际应用场景对本申请提供的技术方案进行说明。在该实际应用场景中,假设需要查找手机淘宝账号A的使用者是否还有其它的淘宝账号。因为,同一个使用者的两个淘宝账号的活动相似度是很高的,因此,按照本申请提供的技术方案,包括:
首先,采集预设时长如多天的所有手机淘宝号的定位数据,如图4中的淘宝帐号1、淘宝帐号2…淘宝帐号N、淘宝帐号(N+1)…淘宝帐号M、淘宝帐号(M+1)、淘宝帐号(M+2)、淘宝帐号(M+3)、淘宝帐号(M+4)和淘宝帐号(M+5),经过ODPS按照步骤200所描述的方法完成离线处理筛选出空间有效的定位数据,如图4中实线方框内的淘宝帐号1、淘宝帐号2…淘宝帐号N、淘宝帐号(N+1)…淘宝帐号M;
然后,将筛选出的空间有效的定位数据同步到ADS;按照步骤201所描述的方法,快速在所有淘宝账号中找出与手机淘宝账号A在活动位置上最相似的前N个淘宝账号,如图4中虚线椭圆框中的淘宝帐号1、淘宝帐号2…淘宝帐号N;
如果前N个淘宝账号中有某个淘宝账号,如淘宝帐号2与手机淘宝账号A在任何一个维度(如收件地址或手机号码或收件人等)的数据均相同,则可以认为该淘宝账号2与手机淘宝账号A极其可能为同一人使用。
也就是说,通过本申请提供的技术方案,基于淘宝手机APP的定位数据,通过查找与某个淘宝账号甲在活动位置相似度高的其它淘宝账号,实现了辅助判断是否有其它账号与淘宝账号甲为同一人使用,以便进行后续的其它业务处理,比如账号关联或者营销推荐等。
本申请还提供一种用于实现数据处理的装置,至少包括存储器和处理器,其中,存储器中存储有以下可执行指令:从设备的定位数据中筛选出空间有效的定位数据;利用筛选出的空间有效的定位数据分析设备间的活动相似度。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (9)
1.一种数据处理方法,其特征在于,包括:
利用地理位置编码geohash获取定位数据的geohash值;
根据设备在geohash值对应的位置区域的停留时长确定所述设备的空间有效的定位数据;
基于筛选出的空间有效的定位数据,实时获取需要分析的目标设备的定位数据;
根据得到的目标设备的定位数据,计算两两设备的活动相似度,并按照从高到低的顺序排序以推测出的两个设备是否为同一用户的目标的候选集合;
相似度的计算公式如公式(1)所示:
公式(1)中,f(a,b)表示设备b对应于设备a的活动相似度;
n表示设备a与设备b具有相同有效geohash值的数量;
rank_ai表示第i个geohash值在设备a所有有效geohash值中的排名,rank_bi表示第i个geohash值在设备b的所有有效geohash值中的排名;
sameDatesi表示设备a与设备b在第i个位置区域同时停留过的日期交集数;
lngStd表示n个位置在经度上的标准差,latStd表示n个位置在纬度上的标准差。
2.根据权利要求1所述的方法,其特征在于,所述利用地理位置编码geohash获取所述定位数据的geohash值包括:
利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值;
所述根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据包括:
对每一个设备,分别对相同的geohash值进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;
根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值,包括:
按照预先设置的特征信息对获得的定位数据进行归类;
将归类后的每类定位数据中的每一条定位数据的经度和纬度均转换成geohash值;
并根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据,包括:
对每一个设备,分别根据停留时长对计算出的每个设备在每个geohash值对应的位置区域的停留时长进行排序并选择排序靠前的M条定位数据,将选择出的M条定位数据和相应的停留日期作为该设备的所述空间有效的定位数据;其中,M为预设值。
4.根据权利要求3所述的数据处理方法,其特征在于,所述对每一个设备,分别对相同的geohash值进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长,包括:
对所述geohash值对应的位置区域中的某个设备,根据时间从先到后的顺序,对特征信息的所有定位数据进行排序,从第一条定位数据开始,执行以下判断处理,直至每一条定位数据都经过以下处理:
如果当前定位数据之后的预设时长内没有出现新的定位数据,则将预设时长作为该设备在该geohash值对应的位置区域的停留时长;
如果当前定位数据与下一条定位数据的间隔在预设时长内,则将两条定位数据的时间跨度作为该设备在该geohash值对应的位置区域的停留时长。
5.根据权利要求1所述的数据处理方法,其特征在于,所述推测出两个设备是否为同一用户的目标的候选集合之后,还包括:
确定所述相似度满足预设条件的定位数据对应设备与预先设定的定位数据的设备为同一用户;
为对应同一用户的设备推荐相同的业务。
6.一种数据处理装置,其特征在于,包括离线处理单元、实时分析单元,其中,
离线处理单元,用于利用地理位置编码geohash获取定位数据的geohash值;根据设备在geohash值对应的位置区域的停留时长确定所述设备的空间有效的定位数据;
实时分析单元,用于基于筛选出的空间有效的定位数据,实时获取需要分析的目标设备的定位数据;根据得到的目标设备的定位数据,计算两两设备的活动相似度,并按照从高到低的顺序排序以推测出的两个设备是否为同一用户的目标的候选集合;
相似度的计算公式如公式(1)所示:
公式(1)中,f(a,b)表示设备b对应于设备a的活动相似度;
n表示设备a与设备b具有相同有效geohash值的数量;
rank_ai表示第i个geohash值在设备a所有有效geohash值中的排名,rank_bi表示第i个geohash值在设备b的所有有效geohash值中的排名;
sameDatesi表示设备a与设备b在第i个位置区域同时停留过的日期交集数;
lngStd表示n个位置在经度上的标准差,latStd表示n个位置在纬度上的标准差。
7.根据权利要求6所述的数据处理装置,其特征在于,所述离线处理单元中的利用地理位置编码geohash获取所述定位数据的geohash值包括:利用地理位置编码geohash将每一条定位数据的经度和纬度均转换成geohash值;
所述离线处理单元中的根据所述设备在geohash值对应的位置区域的停留时长确定所述设备的所述空间有效的定位数据包括:对每一个设备,分别对相同的geohash值进行聚合处理,估计该设备在该geohash值对应的位置区域的停留时长;并根据估计得到的该设备在该geohash值对应的位置区域的停留时长确定该设备的所述空间有效的定位数据。
8.一种数据处理系统,其特征在于,包括:离线处理平台、实时分析平台、业务处理平台;其中,
离线处理平台,用于利用地理位置编码geohash获取定位数据的geohash值;根据设备在geohash值对应的位置区域的停留时长确定所述设备的空间有效的定位数据,并将筛选出的空间有效的定位数据同步到实时分析平台;
实时分析平台,用于通过分析设备间的活动相似度,从筛选出的空间有效的定位数据中确定与预设定位数据相似度满足预设条件的定位数据,并确定相似度满足预设条件的定位数据对应设备与预先设定的定位数据的设备为同一用户;
业务处理平台,用于为对应同一用户的设备推荐相同的业务;
相似度的计算公式如公式(1)所示:
公式(1)中,f(a,b)表示设备b对应于设备a的活动相似度;
n表示设备a与设备b具有相同有效geohash值的数量;
rank_ai表示第i个geohash值在设备a所有有效geohash值中的排名,rank_bi表示第i个geohash值在设备b的所有有效geohash值中的排名;
sameDatesi表示设备a与设备b在第i个位置区域同时停留过的日期交集数;
lngStd表示n个位置在经度上的标准差,latStd表示n个位置在纬度上的标准差。
9.一种用于实现数据处理的装置,至少包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算程序时实现如权利要求1-5中任一所述的方法的处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710501629.8A CN109145225B (zh) | 2017-06-27 | 2017-06-27 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710501629.8A CN109145225B (zh) | 2017-06-27 | 2017-06-27 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109145225A CN109145225A (zh) | 2019-01-04 |
CN109145225B true CN109145225B (zh) | 2022-02-08 |
Family
ID=64805064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710501629.8A Active CN109145225B (zh) | 2017-06-27 | 2017-06-27 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109145225B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109709589B (zh) * | 2019-01-09 | 2023-07-18 | 深圳市芯鹏智能信息有限公司 | 一种海空区域立体感知防控系统 |
CN112041210B (zh) * | 2019-10-23 | 2023-10-31 | 北京航迹科技有限公司 | 用于自动驾驶的系统和方法 |
CN110825785A (zh) * | 2019-11-05 | 2020-02-21 | 佳都新太科技股份有限公司 | 一种数据挖掘方法、装置、电子设备及存储介质 |
CN111563112A (zh) * | 2020-04-30 | 2020-08-21 | 城云科技(中国)有限公司 | 一种基于跨境贸易大数据的数据搜索和展示系统 |
CN114579612B (zh) * | 2020-12-01 | 2024-09-20 | 湖南微步信息科技有限责任公司 | 寻址方法、装置、电子设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104602183A (zh) * | 2014-04-22 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 群组定位方法和系统 |
CN105848099B (zh) * | 2015-01-16 | 2020-06-23 | 阿里巴巴集团控股有限公司 | 识别地理围栏的方法、系统、服务器及移动终端 |
CN112004194A (zh) * | 2015-04-14 | 2020-11-27 | 阿里巴巴集团控股有限公司 | 一种电子凭证提示方法、装置和电子设备 |
JP6638267B2 (ja) * | 2015-09-07 | 2020-01-29 | カシオ計算機株式会社 | 地理座標符号化装置、方法、およびプログラム、地理座標復号装置、方法、およびプログラム、地理座標符号化装置を用いた端末装置 |
CN106372213B (zh) * | 2016-09-05 | 2019-05-03 | 天泽信息产业股份有限公司 | 一种位置分析方法 |
-
2017
- 2017-06-27 CN CN201710501629.8A patent/CN109145225B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN109145225A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145225B (zh) | 一种数据处理方法及装置 | |
US10281284B2 (en) | Hybrid road network and grid based spatial-temporal indexing under missing road links | |
CN110309264B (zh) | 基于知识图谱获取地理产品数据的方法和装置 | |
KR102121361B1 (ko) | 사용자가 위치되는 지리적 위치의 유형을 식별하기 위한 방법 및 디바이스 | |
US20160377443A1 (en) | Method and apparatus for determining a location of a point of interest | |
EP2946313A2 (en) | Searching and determining active area | |
CN101370025A (zh) | 地理信息数据的存储方法、调度方法及管理系统 | |
CN110569321B (zh) | 基于城市地图的网格划分处理方法、装置和计算机设备 | |
CN111639092B (zh) | 一种人员流动分析方法、装置、电子设备及存储介质 | |
Corcoran et al. | Characterising the metric and topological evolution of OpenStreetMap network representations | |
US9135630B2 (en) | Systems and methods for large-scale link analysis | |
Williams et al. | Improving geolocation of social media posts | |
CN111488420B (zh) | 去中心微服务化区域洪水预警水信息系统及其集成方法 | |
JP6756744B2 (ja) | 位置情報提供方法及び装置 | |
CN104598503A (zh) | 地理信息数据查询方法、装置及系统 | |
CN111859187A (zh) | 基于分布式图数据库的poi查询方法、装置、设备及介质 | |
CN106210163A (zh) | 基于ip地址的定位方法及装置 | |
CN102156739A (zh) | 海量闪电数据的gis平台处理方法 | |
Huang et al. | An adaptively multi-attribute index framework for big IoT data | |
Corradi et al. | Automatic extraction of POIs in smart cities: Big data processing in ParticipAct | |
Karim et al. | Spatiotemporal Aspects of Big Data. | |
CN109213940B (zh) | 大数据下实现用户位置计算的方法、存储介质、设备及系统 | |
CN116796083B (zh) | 一种空间数据划分方法及系统 | |
Zhang et al. | The modeling of big traffic data processing based on cloud computing | |
AU2018100673A4 (en) | System and method for location and behavior information prediction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |