CN106067154A - 一种基于手机大数据的城市间迁移客流分析方法 - Google Patents
一种基于手机大数据的城市间迁移客流分析方法 Download PDFInfo
- Publication number
- CN106067154A CN106067154A CN201610367737.6A CN201610367737A CN106067154A CN 106067154 A CN106067154 A CN 106067154A CN 201610367737 A CN201610367737 A CN 201610367737A CN 106067154 A CN106067154 A CN 106067154A
- Authority
- CN
- China
- Prior art keywords
- node
- section
- time
- speed
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013508 migration Methods 0.000 title claims abstract description 33
- 230000005012 migration Effects 0.000 title claims abstract description 33
- 230000008569 process Effects 0.000 claims abstract description 17
- 238000004891 communication Methods 0.000 claims description 22
- 230000002159 abnormal effect Effects 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000007704 transition Effects 0.000 claims description 10
- 230000005021 gait Effects 0.000 claims description 8
- 230000009471 action Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 206010000210 abortion Diseases 0.000 claims description 4
- 231100000176 abortion Toxicity 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 3
- 230000004069 differentiation Effects 0.000 claims description 3
- 238000007689 inspection Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 claims description 3
- 230000002441 reversible effect Effects 0.000 claims 1
- 238000007621 cluster analysis Methods 0.000 abstract 1
- 101100100125 Mus musculus Traip gene Proteins 0.000 description 35
- 230000006399 behavior Effects 0.000 description 18
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000011161 development Methods 0.000 description 7
- 238000010295 mobile communication Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000004088 simulation Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000002427 irreversible effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000238876 Acari Species 0.000 description 1
- XEEYBQQBJWHFJM-UHFFFAOYSA-N Iron Chemical compound [Fe] XEEYBQQBJWHFJM-UHFFFAOYSA-N 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000012850 discrimination method Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000001617 migratory effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明提供了一种基于手机大数据的城市间迁移客流分析方法。本发明对海量手机大数据进行处理和筛选,构建个体出行的时空序列数据,通过聚类分析结合判别规则对个体迁移流动过程中的出行方式和各城市的功能进行判定,分析人口地区间流动的格局和趋势,以及各城市在其中所扮演的角色。
Description
技术领域
本发明涉及一种基于海量匿名加密手机个体时间序列定位数据的人口跨城市迁移流动行为分析方法,根据个体的时间和空间位置数据构建个体出行时空序列数据,设置判别规则判定其出行起始城市-目的地城市,并对个体长期的空间移动序列进行裁剪,对其行进速度进行聚类,判别出行路径中的中间节点城市和过境点城市,对其出行方式进行判断。本发明可以用于获取人口在城市间的迁移流动规律和现状特征,以及各城市在人口迁移过程中地位和作用,为交通政策评估、交通规划,以及多区域人口、资源和环境管理和协调发展提供服务,属于区域决策规划与经济管理的技术领域。
背景技术
城市间人口迁移流动是国民经济活动中的重要行为,历来受到经济学、人口学、地理学、资源环境科学、区域规划,及其相关的多种交叉学科的重视,历经了数百年的讨论和研究,衍生出了大量的模型、方法,产生了很多划时代的结论。但仍存在许多不足之处。
早期关于人口跨地区迁移流动的科学研究主要兴起于古典经济学的发展,从而衍生出大量关于人口迁移的数理模型。但由于计算工具的不足,这些模型的结构基本都以自上而下为主(up-down),大多具有非常强硬的外生假设(如福利最大化假设、工资率均衡假设等),往往与现实产生较大的出入,导致结果徒具理论意义,而较难与现实情况符合。
随着计算机技术的大力发展,出现了大量充分发挥计算机高速计算能力的可计算自底向上模型(bottom-up)。尤其是面向对象模拟(object-oriented simulation)方法的崛起,使得对于人口迁移的研究进入计算机建模的时代。近年来,随着微观模拟(microsimulation)、基于Agent模拟(agent-based simulation)方法的发展,对人口迁移流动的研究开始细化到对个体微观行为模式的建模。此时,早期限制模型发展的数学工具和计算能力已不再成为主要制约因素,而数据的缺失成为模型发展的桎梏。
传统的对于人口区域间迁移的研究分析主要基于人口普查数据中的地区人口净迁入数据。但是该数据统计尺度较粗,且只有人口的净变化值,对于人口具 体的迁移方向和迁移路径并无记录。此外,也有根据民航局和交通部在统计年鉴或其他数据来源中给出的客流交通运输量进行估算的。这些数据同样存在统计尺度较粗的问题,同时其主要统计的民航和铁路运输主要服务远途出行,而无法统计短途的自驾出行。
近年来,随着信息技术的发展,数据信息量呈现爆炸式增长,而对于人口迁移和流动行为,其数据来源越来越多,数据量也越来越庞大。本发明基于手机大数据分析城市间人家迁移流动行为,将迁移流动行为的研究对象精确细致到迁移行为的实际发生者本身。至2015年,手机用户达到13.06亿,占到总人口的96%以上,手机终端设备持续产生的信号信息,形成了记录用户出行的一系列数据集,为人口迁移流动分析提供数据来源。但可获得的手机数据质量参差不齐,这就需要对大数据进行数据挖掘和处理。
发明内容
本发明的目的是利用移动终端个体在指定时间范围内的空间活动数据集,挖掘大量个体的出行时空序列数据,分析个体的出行方式和各城市在迁移流动活动中的角色,并对这些行为进行时空范围的统计,从而真实客观地反映出人口在城市间的迁移流动格局和趋势。
为了达到上述目的,本发明的技术方案是提供了一种基于手机大数据的城市间迁移客流分析方法,其特征在于,包括以下步骤:
步骤1、从通信运营商获取不同城市的在时间与空间上连续的匿名加密手机数据,对每个EPID而言,依据当前EPID的匿名加密手机数据计算得到指定时间段内的各手机数据对应的真实经度坐标LON及真实纬度坐标LAT,将不同的城市定义为不同的区域LOC,根据计算得到的所有的真实经度坐标LON及真实纬度坐标LAT,获得当前EPID在指定时间段内所处的区域LOC的个数,剔除区域LOC的个数不大于1个的所有EPID,则得到在指定时间段内所有跨城市的EPID,并将这些跨城市的EPID记录入目标数据库;
步骤2、根据目标数据库中每个EPID在指定时间段内的全部通信记录,以区域LOC为空间划分单位,将当前EPID在每个区域LOC内的通信活动发生的时间进行排序,形成当前EPID在每个区域LOC内通信行为的时间轴;在此基础上,通过时间轴每一条记录中的真实经度坐标LON及真实纬度坐标LAT,进 行地理映射,根据其经纬度坐标投射到地理空间,生成时空数据;利用地理邻接网络对时空数据进行空间连续性检验;计算时空数据中每一时间段的时长与该段路径理论上的长度,以此计算用户在该段的行进速度,获得用户出行时空序列组,包括以下步骤
步骤2.1、遍历已存入目标数据库的满足跨城市出行条件的EPID,在目标数据库中查找指定时间段内当前EPID的所有记录,将每条记录中的相应信息与地理数据进行匹配,将每条记录作为一个数据点落到实际地图中,每个数据点至少包括:EPID、记录发生时间TIME、真实经度坐标LON、真实纬度坐标LAT、区域LOC;
步骤2.2、以区域LOC为单位,查找当前EPID在指定时间段内段内在各个区域LOC中被记录的第一条通信记录FirstRec所对应的数据点作为一个节点和最后一条通信记录LastRec所对应的数据点作为一个节点,并根据每条通信记录的发生时间对得到的节点进行排序,构建路段数据,路段数据中的字段至少包括:路段始节点LNODE、路段终节点NNODE、经过该路段花费的时间TIME,路段数据和节点数据共同形成全时空序列数据;
步骤2.3、遍历全时空序列数据,标记其中的出发地-目的地节点;
步骤2.4、将当前EPID的全时空序列数据根据出发地-目的地节点进行裁剪,形成多条仅有首尾节点是出发地-目的地节点的单次出行时间序列;
步骤2.5、结合城际铁路网和三级公路网数据或城市间邻接矩阵提取出路段数据的直线距离、公路距离和铁路距离,即为路径长度DISTANCE;
步骤2.6、利用路径长度DISTANCE和时间TIME,计算得到每个路段的进行速度SPEED,并将进行速度SPEED加入单次出行时间序列中,当步骤2.5中使用的是城际铁路网和三级公路网数据时,获得三种速度:直线速度SPEED-S、高铁速度SPEED-H和公路网速度SPEED-R;当步骤2.5中使用的是城市间邻接矩阵时,获得二种速度:直线速度SPEED-S、邻接矩阵速度SPEED-M;
步骤3、根据当前EPID的单次出行时间序列中的进行速度SPEED判别非出发地-目的地节点的节点类型,并以此最终确定当前EPID的出行方式,包括以下步骤:
步骤3.1、首先对当前EPID的单次出行时间序列上各路段的进行速度SPEED 进行聚类,选出速度明显较低的路段作为速度异常路段;
步骤3.2、根据速度异常段的首节点LNODE和尾节点NNODE,满足下列条件之一,则将速度异常路段所在城市判断为中间节点:
条件一、若速度异常路段的首节点LNODE和尾节点NNODE在同一城市,则标记该城市为中间节点;
条件二、若速度异常路段的首节点LNODE和尾节点NNODE不在同一城市内,则依据速度异常路段在首节点LNODE和尾节点NNODE城市的长度,取距离长者对应的城市作为中间节点;
若速度异常路段横跨多地,其首节点LNODE和尾节点NNODE在空间上不邻接,则无法判别其中哪一个节点为中间节点,放弃标注或抛弃当前的单次出行时间序列;
步骤3.3、将单次出行时间序列中除出发地-目的地节点和中间节点外的其余节点均标记为过境点;
步骤3.4、提取O-D节点和中间节点之间路段的速度,对照各出行方式的平均速度,判别各次出行所采用的出行方式;
步骤4、根据得到的大量EPID的单次出行时间序列数据,以及与其配套的出行方式与节点属性数据,分析城市间迁移客流的流量、流向,以及各城市在人流迁移过程中的功能。
优选地,所述步骤1包括以下步骤:
步骤1.1、从通信运营商实时获取匿名手机数据,匿名手机数据包括:EPID、TYPE、TIME、X、Y、SR、LOC,其中:
EPID为匿名单向加密全球唯一移动用户标识码,是通信运营商对每个用户进行单向不可逆加密,从而唯一标识每个用户,且不暴露用户号码隐私信息;
TYPE为当前匿名手机数据所涉及的网络动作类型;
TIME为当前匿名手机数据所涉及的网络动作的发生时刻;
X、Y为利用专用坐标加密方法对手机用户的真实坐标位置进行加密计算后得到加密坐标;
SR为空间范围,是当前匿名手机数据空间定位的定位偏差范围;
步骤1.2、对接收到的匿名手机数据,利用专用解密模块进行坐标转换,解 密后的实时手机数据的内容包括,EPID、TYPE、TIME、真实经度坐标LON、真实纬度坐标LAT、空间误差范围SR;
步骤1.3、基于实时手机数据中的真实经度坐标LON及真实纬度坐标LAT,判断当前实时手机数据对应的用户所在城市,赋予区域LOC属性,遍历当前EPID的手机数据记录,通过时间轴每一条记录中的真实经度坐标LON及真实纬度坐标LAT进行地理映射,根据经纬度坐标投射到地理空间,结合全国城市面域图层,获得当前EPID所处城市,将该城市名称赋值为区域LOC属性;
步骤1.4根据区域LOC剔除在指定时间段内没有发生过跨城市出行行为的EPID,具体规则为:若一个EPID在指定时间范围内存在两个或两个以上区域LOC,则表示该EPID存在跨城市出行行为,记录该EPID,存入目标数据库,否则抛弃该EPID,进行下一个用户的判别。
优选地,在所述步骤2.3中,出发地-目的地节点的标记条件为满足下列条件之一:
条件一、统计当前EPID在各城市内的位置散点分布及其时间分布,若该EPID在某一城市的停留时间大于时间阈值Stay_1,则直接视该城市为一条行程的目的地,以及下一段行程的起始地,即标记为出发地-目的地节点;
条件二、若当前EPID在当前城市停留时间超过时间阈值Stay_2,但小于时间阈值Stay_1,且至少位于非交通道路、车站、机场、高速公路服务区的所述全时空序列数据的节点占比大于50%,则将当前城市标记为出发地-目的地节点;
条件三、若用户在非交通道路、车站、机场、高速公路服务区的长度值Stay_R之直径区域中持续停留时间超过时间阈值Stay_3,则将直径区域该判定为出发地-目的地节点;
条件四、当前EPID的全时空序列数据中的首尾节点所在地均视为出发地-目的地节点。
优选地,在所述步骤3.1中,速度异常路段的判断标准为:
若聚类结果为1类,或不同类别之间的速度差距很小,不存在明显的速度异常点,则当前单次出行时间序列为直达,没有出现异常路段;
若聚类结果为2类或两类以上,且不同类别之间速度差异极大,则以不同速度类别路段交界处两侧,速度较慢的路段为速度异常路段。
优选地,当聚类结果为2类或两类以上时,具体的情况可分为:
情况1、若聚类结果为2类,且速度较低的路段以离散的形式分布在单次出行时间序列上,则速度较低的路段为速度异常路段;
情况2、若聚类结果为2类,且速度较低的路段很多,同时两种类型的路段在空间上基本连续,则判定两类路段的分界路段中,速度较慢的那个路段为速度异常路段;
情况3、若聚类结果为2类以上,且速度较低的路段离散分布,而速度较高的类别基本连续分布,则判定速度最慢的那个路段为速度异常路段;
情况4、若聚类结果为2类以上,且各速度类别基本都呈现连续分布,则判定速度最慢的那个路段为速度异常路段;
情况5、若不同速度类别的路段交替出现,并无明显的规律可循,则同样依照情况2处理,即以速度分界点两侧速度较慢路段为速度异常段。
优选地,在所述步骤3.4中,采取出发地-目的地节点和中间节点之间各路段速度的中位数作为本次出行的速度:
民航的判别标准为进行速度大于500km/h,且其行程首尾城市之间必须存在航班,若行进速度大于500km/h且首尾城市之间没有航班,则表明当前EPID在其他城市登机或降落,此时搜索距离首节点LNODE和尾节点NNODE最近的机场进行补完,若附近存在第三方城市到首节点LNODE或尾节点NNODE的航班,则在首节点LNODE和尾节点NNODE之间添加机场节点,计算新搜得机场到距离其较近的首节点LNODE或尾节点NNODE的距离,该段的出行时间为原尾节点LNODE到尾节点NNODE的出行时间减去理论上的飞行时间,然后判断首节点LNODE或尾节点NNODE到机场所采用的交通工具,若无法搜得合适的航班,则抛弃该记录。
高铁的判别标准为中位速度介于150-500km/h之间,而150km/h以下的判定为公路出行。
优选地,所述步骤4中分析城市间迁移客流的流量、流向,以及各城市在人流迁移过程中的功能包括:
提取所有EPID历次出行的出发地-目的地节点,统计客流迁移的流向和流量,以线段的粗细表示客流量的大小,线段箭头方向指示客流方向;
根据每个路段每种出行方式的出行量和出行方向统计迁移客流在详细路径 上的流量/流向,同样以线段的粗细表示客流量的大小,线段箭头方向指示客流方向;
统计所有有效EPID的出现记录中,各城市作为出发地-目的地节点、中间节点和过境点所出现的频次,分析各城市在客流迁移过程中所扮演不同角色的比例,分析各城市在客流迁移过程中的主要角色。
本发明的优点是:充分依托现有的手机大数据资源,利用移动通信网络中已有海量匿名手机用户持续的加密位置信息,即能低成本、自动化、便捷地获取指定时间范围内大量人口在城市间分布的数据,采用最直接的、最底层的人口流动迁移跟踪数据分析人口的迁移行为,弥补了采用交通部和国家统计局发布的宏观数据对于出行方式覆盖的不足和统计结果较为粗糙等缺陷。
附图说明
图1是本发明提出的基于大数据的长时间迁移客流分析方法总体方法图;
图2是其中数据预处理模块方法图;
图3是数据裁切、O-D点提取与行进速度计算方法图;
图4是中间节点提取与出行方式辨识方法图。
具体实施方式
为使本发明更明显易懂,兹以优选实施例,并配合附图作详细说明如下。
步骤1、从通信运营商获取匿名加密手机数据,要求数据在时间与空间上都是连续的,对每个EPID(匿名单向加密全球唯一移动用户标识码,EncryPtion internationalmobile subscriber IDentity)在指定时间段T内,所触发的通信行为进行查询处理分析,判断该EPID是否在该调查时间范围内发生过跨城市出行行为,查询获得发生过跨城市出行行为的EPID在调查时间范围内的所有通信记录。
步骤1.1、手机大数据指的是手机通信运营商从移动通信网络、固定宽带网络、无线WIFI以及位置服务相关APP等实时获取并脱敏加密后的匿名手机用户时间序列的加密位置信息。从手机通信运营商实时获取实时匿名手机数据,实时手机大数据内容包括:EPID、TYPE、TIME、X、Y、SR、LOC,参见申请号为201610273693.0的中国专利。具体介绍如下:
EPID(匿名单向加密全球唯一移动用户标识码,EncryPtion internationalmobile subscriber IDentity),是手机通信运营商对每个手机用户进行单向不可逆 加密,从而唯一标识每个手机用户,且不暴露用户号码隐私信息,要求每个手机用户加密后的EPID保持唯一性,即任意时刻各手机用户的EPID保持不变且不与其它手机用户重复。
TYPE,是当前记录所涉及的手机网络动作类型,如,上网、通话、主被叫、收发短信、小区切换、开关机等。
TIME指的是当前记录所涉及的手机网络动作发生时刻,单位为毫秒。
X、Y、SR是当前记录所涉及的手机网络动作发生的空间加密位置范围信息。X、Y由运营商利用专用坐标加密方法对手机用户的真实坐标位置进行加密计算后得到,SR(空间范围,Spatial Range)是当前记录空间定位的定位偏差范围,单位为米,即当前手机用户出现在以X、Y为中心点,SR为半径的空间范围内。定位算法与定位精度由手机通信运营负责,随着4G、5G、WIFI等无线通信技术的发展,定位偏差范围将越来越小。
步骤1.2、对接收到的手机数据,利用专用解密模块,进行坐标转换,解密后实时手机数据的内容包括,EPID、TYPE、TIME、LON(真实经度坐标)、LAT(真实纬度坐标)、SR(空间误差范围)。
步骤1.3、基于手机记录中转换后LON、LAT值,判断其所在城市,赋予LOC(区域)属性,即该手机所在城市属性。遍历手机数据记录,通过时间轴每一条记录中解密后LON、LAT信息,使用GIS软件(如ArcMap)进行地理映射,根据其经纬度坐标投射到地理空间,结合全国城市(数据最小颗粒为地级市)面域图层,获得当前用户所处城市,将该城市名称赋值为LOC属性。
步骤1.4、根据LOC剔除在指定时间段内没有发生过跨城市出行行为的用户。具体规则为:若一个EPID在指定时间范围内存在两个或两个以上LOC,则表示该EPID存在跨城市出行行为,记录该EPID,存入目标数据库,否则抛弃该EPID,进行下一个用户的判别。
本实施例中,某一EPID(e1)解密后的跟踪数据如下表所示。在本例中,EPID为e1的用户在2015年1月1日和2015年3月1日处于不同城市,因此将e1标记为漫游用户,列入分析对象之中。
表1:解密后新接收的实时手机数据
步骤2、根据EPID在指定时间段T内的全部通信记录,以LOC为空间划分单位,将EPID在每个LOC内的通信活动发生的时间进行排序,形成EPID在每个LOC内通信行为的时间轴;在此基础上,通过时间轴每一条记录中的LON、LAT信息,使用GIS软件(如ArcMap)进行地理映射,根据其经纬度坐标投射到地理空间,生成时空数据;利用地理邻接网络对时空数据进行空间连续性检验;计算时空数据中每一时间段的时长与该段路径理论上的长度,以此计算用户在该段的行进速度;获得用户出行时空序列组。
步骤2.1、遍历已存入目标数据库的满足跨城市出行条件的EPID,在数据库中查找指定时间段T内该EPID所有记录。根据每条记录中的信息,在GIS软件(如ArcMap)中与地理数据进行匹配,将每条记录作为数据点落到实际地图中,数据点中的信息包括EPID、TIME、LON、LAT、LOC。
在本例中,用户e1的出现数据记录表在匹配地理位置后如表2所示。
表2:解密后新接收的实时手机数据
RECORDID | EPID | TIME | LON | LAT | LOC |
…… | …… | …… | …… | …… | …… |
RECORD(r1-1) | EPID(e1) | 2015-01-02 00:57:00 | 121.303094 | 31.343088 | 上海 |
RECORD(r1) | EPID(e1) | 2015-01-02 00:58:00 | 121.295474 | 31.318788 | 上海 |
…… | …… | …… | …… | …… | |
RECORD(r2-1) | EPID(e1) | 2015-03-01 11:30:00 | 119.243514 | 32.353108 | 南京 |
RECORD(r2) | EPID(e1) | 2015-03-01 11:32:00 | 119.243884 | 32.356238 | 南京 |
…… | …… | …… | …… | …… |
步骤2.2、构建每个EPID的完整出行时空序列。为减少数据冗余,时空序列数据的构建以LOC为单位,只保留该EPID在指定时间段T内在各个地级市连续通信记录中的第一条记录FirstRec对应的数据点为一个节点和最后一条记录LastRec对应的数据点为一个节点,并根据每条记录的发生时间进行排序,构建路段数据。路段数据中的字段包括:LNODE(该路段始节点)、NNODE(该路段终节点)、TI(Time interval,经过该路段花费时间,等于前后两个节点时间之差)、isTRANS(布尔变量,是否跨地区)、DISTANCE(路径长度)、SPEED(行进速度)。路段数据的DISTANCE和SPEED字段在本步骤可以忽略,其计 算见步骤2.5及步骤2.6。路段和节点序列数据共同形成全时空序列数据。
在本例中,以用户e1为例,其节点数据如表3所示。
表3:e1节点数据
NODE | TIME | LON | LAT |
上海 | 2015-01-01 00:01:12 | 121.307324 | 31.202432 |
上海 | 2015-03-01 11:45:21 | 121.157453 | 31.398654 |
苏州 | 2015-03-01 11:46:32 | 121.121548 | 31.409423 |
苏州 | 2015-03-01 12:08:43 | 120.611123 | 31.712098 |
无锡 | 2015-03-01 12:09:56 | 120.564536 | 31.712432 |
无锡 | 2015-03-01 12:21:20 | 120.165453 | 31.716547 |
常州 | 2015-03-01 12:22:28 | 120.136543 | 31.719306 |
常州 | 2015-03-01 12:32:23 | 119.777423 | 31.891640 |
镇江 | 2015-03-01 12:33:43 | 119.748534 | 31.919342 |
镇江 | 2015-03-01 12:41:34 | 119.102543 | 32.035435 |
南京 | 2015-03-01 12:42:11 | 119.056423 | 32.088423 |
南京 | 2015-03-05 12:52:31 | 118.785432 | 32.219543 |
北京 | 2015-03-05 15:21:28 | 116.672543 | 40.387123 |
北京 | 2015-03-05 18:40:34 | 116.673422 | 40.387875 |
哈尔滨 | 2015-03-05 22:21:19 | 128.125436 | 45.563453 |
哈尔滨 | 2015-03-10 15:23:11 | 123.263545 | 45.373124 |
上海 | 2015-03-10 19:00:13 | 121.311454 | 31.167432 |
上海 | 2015-06-30 23:58:28 | 121.354543 | 30.892453 |
其路段数据如表4所示。
表4:e1路段数据
步骤2.3、遍历全时空序列数据,标记其中的即出行的出发地-目的地节点,以下记为O-D节点,标记规则为:
统计EPID在各城市内的位置散点分布及其时间分布,若该EPID在某一城市的停留时间大于Stay_1(建议初始值为24小时),则直接视该城市为一条行程的目的地,以及下一段行程的起始地,即O-D节点;
若EPID在该城市停留时间超过Stay_2(建议初始值为5小时),但小于Stay_1,且至少位于非交通道路、车站、机场、高速公路服务区的记录点占比大于50%,则该城市判定其为O-D点;
若用户在非交通道路、车站、机场、高速公路服务区的Stay_R(建议初始值为50米)之直径区域中持续停留时间超过Stay_3(建议初始值为3小时),则该直径区域判定为O-D点;
指定时间段T内,EPID的首尾节点所在地均视为O-D节点。
在本例中,可标记上海、南京和哈尔滨为O-D节点。
步骤2.4、将EPID的全时空序列数据根据O-D节点进行裁剪,形成多条仅有首尾节点是O-D节点的单次出行时间序列。
本例中,e1的时空序列可拆分为:
行程1:上海-南京;
表5:行程1节点数据
NODE | TIME | LON | LAT |
上海 | 2015-03-01 11:45:21 | 121.157453 | 31.398654 |
苏州 | 2015-03-01 11:46:32 | 121.121548 | 31.409423 |
苏州 | 2015-03-01 12:08:43 | 120.611123 | 31.712098 |
无锡 | 2015-03-01 12:09:56 | 120.564536 | 31.712432 |
无锡 | 2015-03-01 12:21:20 | 120.165453 | 31.716547 |
常州 | 2015-03-01 12:22:28 | 120.136543 | 31.719306 |
常州 | 2015-03-01 12:32:23 | 119.777423 | 31.891640 |
镇江 | 2015-03-01 12:33:43 | 119.748534 | 31.919342 |
镇江 | 2015-03-01 12:41:34 | 119.102543 | 32.035435 |
南京 | 2015-03-01 12:42:11 | 119.056423 | 32.088423 |
表6:行程1路段数据
行程2:南京-哈尔滨;
表7:行程2节点数据
NODE | TIME | LON | LAT |
南京 | 2015-03-05 12:52:31 | 118.785432 | 32.219543 |
北京 | 2015-03-05 15:21:28 | 116.672543 | 40.387123 |
北京 | 2015-03-05 18:40:34 | 116.673422 | 40.387875 |
哈尔滨 | 2015-03-05 22:21:19 | 128.125436 | 45.563453 |
表8:行程2路段数据
LNODE | NNODE | TI | IsTRANS |
南京 | 北京 | 2h28s57s | True |
北京 | 北京 | 3h19m6s | False |
北京 | 哈尔滨 | 3h28m35s | True |
哈尔滨 | 哈尔滨 | 4d17h1m58s | False |
行程3:哈尔滨-上海
表9:行程3节点数据
NODE | TIME | LON | LAT |
哈尔滨 | 2015-03-10 15:23:11 | 123.263545 | 45.373124 |
上海 | 2015-03-10 19:00:13 | 121.311454 | 31.167432 |
表10:行程3路段数据
LNODE | NNODE | TI | IsTRANS |
哈尔滨 | 上海 | 3h37m2s | True |
步骤2.5、提取出路段数据的直线距离,公路距离和铁路距离(此处需要城际铁路网和三级公路网数据),即DISTANCE。具体方法可使用ArcMap中的网 络分析模块,利用VBA或使用ArcEngine进行二次开发,批处理时空序列。将得到的三种距离存入路段序列数据中。若没有城际铁路网和三级公路网数据,亦可用城市间邻接矩阵代替。
城市间的邻接矩阵是以城市为节点,由两两相邻城市之间的最短路径构成的一个交通网络。华东师范大学王铮教授课题组在2008年曾根据当时的全国铁路网和三级公路网构建了一个中国226个地级市之间的邻接矩阵,并以此计算了中国各城市之间的最短路径。由于最短路径的计算过程中可以在多个交通道路上任意切换,因此邻接矩阵中相邻城市之间的距离一般小于实际的公路和铁路距离。
步骤2.6、利用已获得的路段长度DISTANCE和花费时长TIME,计算每个路段的进行速度SPEED。当使用城际铁路网和三级公路网数据时,获得三种速度:直线速度SPEED-S、高铁速度SPEED-H和公路网速度SPEED-R;当使用城市间邻接矩阵时代替时,邻接矩阵速度SPEED-M代替SPEED-H和SPEED-R。
本例中,用户e1在行程1:上海-南京过程中各路段的四种速度分别为
表11:行程1各路段速度
LNODE | NNODE | SPEED-S | SPEED-H | SPEED-R | SPEED-M |
上海 | 苏州 | 270km/h | 303km/h | 350km/h | 283km/h |
苏州 | 苏州 | 235km/h | 290km/h | 342km/h | 245km/h |
苏州 | 无锡 | 255km/h | 300km/h | 351km/h | 260km/h |
无锡 | 无锡 | 230km/h | 283km/h | 334km/h | 239km/h |
无锡 | 常州 | 280km/h | 305km/h | 368km/h | 285km/h |
常州 | 常州 | 233km/h | 278km/h | 340km/h | 241km/h |
常州 | 镇江 | 248km/h | 295km/h | 358km/h | 252km/h |
镇江 | 镇江 | 239km/h | 280km/h | 340km/h | 243km/h |
镇江 | 南京 | 250km/h | 292km/h | 351km/h | 255km/h |
步骤3、根据EPID的出行时空序列数据中的SPEED字段判别非O-D节点的节点类型,并以此最终确定EPID的出行方式。其中,民航客机的时速基本在600-750km/h之间,高铁(含D字头动车)时速一般在200-300km/h之间,而高速公路的最高时速不得超过120km/h。
步骤3.1、首先对EPID某一单次出行序列上各路段的速度SPEED字段进行聚类,选出速度明显较低的路段作为速度异常段,判断速度异常路段所在城市为中间节点(包括换乘、停靠、加油、休息、临时游览、堵车等),判断标准如下:
第一类:若速度聚类结果为1类,或不同类别之间的速度差距很小,不存在明显的速度异常点,则该次出行序列为直达,没有出现异常路段;
第二类:若速度聚类结果为2类或两类以上,且不同类别之间速度差异极大,则以不同速度类别路段交界处两侧,速度较慢的路段为异常路段,其具体的情况可分为:
情况1、若速度聚类结果为2类,且异常点以离散的形式分布在时空序列上(如表12所示),则判断该路段为异常路段。表中,该序列的速度可聚类为2类,C段和H段速度明显低于其他段,标记为异常路段。
表12:聚类结果示意
路段 | A | B | C | D | E | F | G | H | I | J | K |
速度 | 110 | 115 | 20 | 80 | 90 | 85 | 100 | 10 | 110 | 95 | 98 |
情况2、若聚类结果显示为速度异常点很多,且两种类型的路段在空间上基本连续(如表13所示),则判定两类路段的分界路段中,速度较慢的那个路段为异常路段。表中,C和D为两种速度类别的分界,D路段速度较慢,判定为异常路段。
表13:聚类结果示意
路段 | A | B | C | D | E | F | G | H | I | J | K |
速度 | 250 | 280 | 270 | 85 | 80 | 85 | 90 | 100 | 95 | 95 | 98 |
情况3、若聚类结果显示速度类别大于2个,且速度较低的路段离散分布,而速度较高的类别基本连续分布(如表14所示),则判定速度最慢的那个类别为异常路段。表中,D路段速度明显慢于其他路段,且介于A-C路段和E-K路段之间,则为异常路段。
表14:聚类结果示意
路段 | A | B | C | D | E | F | G | H | I | J | K |
速度 | 250 | 280 | 270 | 20 | 80 | 85 | 90 | 100 | 95 | 95 | 98 |
情况4、若聚类结果显示速度类别大于2个,且各速度类别基本都呈现连续分布,则判定速度最慢的那个类别为异常路段,则判定方式与情况2一致。
情况5、若不同速度类别的路段交替出现,并无明显的规律可循,则同样依照情况2处理,即以速度分界点两侧速度较慢路段为异常段。
在本例中,用户e1的在行程1上海-南京的速度聚类显示为2类,但是两者的速度差距非常小,因此仍然视为单一行程,即没有明显的换乘或中间停留事件发生;行程2南京-哈尔滨的速度聚类同样为2类,且速度差距很大;行程3哈 尔滨-上海的速度聚类为1类。
步骤3.2、根据速度异常路段确定中间节点。判别规则为:
若异常路段的首尾节点LNODE和NNODE在同一城市,则标记该城市为EPID在该出行活动中的中间节点(包括换乘、停靠、加油、休息、临时游览、堵车等);
若异常路段的首尾节点LNODE和NNODE不在同一城市内,则依据该路段在LNODE和NNODE城市的长度,取距离长者作为中间节点。
如果速度异常路段横跨多地,其LNODE和NNODE在空间上不邻接,则无法判别其中哪一个节点为中间节点,放弃标注或抛弃该次出行时空序列。
本例中,用户e1在行程2:南京-哈尔滨过程中各路段的四种速度分别为:
表15:行程1各路段速度
LNODE | NNODE | SPEED-S | SPEED-H | SPEED-R | SPEED-M |
南京 | 北京 | 820km/h | 1100km/h | 1210km/h | 1050km/h |
北京 | 北京 | 2km/h | 1km/h | 1km/h | 1km/h |
北京 | 哈尔滨 | 830km/h | 1230km/h | 1265km/h | 1180km/h |
在本例中,只有行程2中存在速度异常段,该段为北京-北京,因此判定北京为中转、换乘站,即为中间节点。
步骤3.3、除O-D节点和中间节点外,其余处于EPID出行路径上的节点标记为过境点。
在本例中,各城市的属性见表:
表16:基于本例的各城市属性表
NODE | TIME |
上海 | O-D点 |
苏州 | 过境点 |
无锡 | 过境点 |
常州 | 过境点 |
镇江 | 过境点 |
南京 | O-D点 |
北京 | 中间节点 |
哈尔滨 | O-D点 |
步骤3.4、提取O-D节点和中间节点之间路段的速度,对照各出行方式的平均速度,判别各次出行所采用的出行方式(包括民航、高铁含动车、公路)。为进一步避免极端值对结果的影响,我们采取O-D节点和中间节点之间各路段速 度的中位数作为本次出行的速度。
1、民航的判别标准为进行速度大于500km/h,且其行程首尾城市之间必须存在航班(因为私人飞机在中国极少,因此忽略)。若行进速度大于500km/h且首尾城市之间没有航班,则表明EPID在其他城市登机或降落。此时搜索距离LNODE和NNODE最近的机场进行补完,若附近存在第三方城市到LNODE或NNODE的航班,则在LNODE和NNODE之间添加机场节点,计算新搜得机场到距离其较近的LNODE或NNODE的距离,该段的出行时间为原LNODE到NNODE的出行时间减去理论上的飞行时间,然后判断LNODE或NNODE到机场所采用的交通工具。若无法搜得合适的航班,则抛弃该记录。
2、高铁的判别标准为中位速度介于150-500km/h之间,而150km/h以下的判定为公路出行。其中,如步骤2.5提出的,若缺少城市间铁路网和三级公路网,可采用城市间邻接矩阵进行处理,而邻接矩阵是一种理想中的城市间交通网络,其测算得到的距离一般小于城市间实际的交通里程长度。此外,由于实际情况下铁路的走势远比公路来得平直,若起止点相同,其在实际情况下所走的路程要小于公路,而高铁的速度又远高于公路交通,因此在使用城市间邻接矩阵时,高铁和公路在速度上的差异反而会更加明显。
在本例中,上海-南京的单次行程速度在300km/h左右,判定为高铁出行,南京与北京、北京-哈尔滨和哈尔滨-上海在空间上不连续,行进速度大于500km/h,判定为民航出行。
步骤4、根据得到的大量EPID的出行时空序列数据,以及与其配套的出行方式与节点属性数据,分析城市间迁移客流的流量、流向,以及各城市在人流迁移过程中的功能。
1、提取所有EPID历次出行的O-D节点,统计客流迁移的流向和流量。以线段的粗细表示客流量的大小,线段箭头方向指示客流方向。
2、根据每个路段每种出行方式的出行量和出行方向统计迁移客流在详细路径上的流量/流向。同样以线段的粗细表示客流量的大小,线段箭头方向指示客流方向。
3、统计所有有效EPID的出现记录中,各城市作为O-D点、中间节点和过境点所出现的频次,分析各城市在客流迁移过程中所扮演不同角色的比例,分析 各城市在客流迁移过程中的主要角色。上述结果以饼状比例图显示,以红、蓝、黑、白分别表示城市节点在客流迁移过程中扮演起始点、目标终点、中间节点、过境点的比例,以饼状图直径的大小表示客流迁移过程当中该城市节点出现的频次。
在本例中,用户e1的出行方向为从上海-南京-哈尔滨-上海,为封闭行程,因此上海、南京、哈尔滨的节点属性中,北京作为中间节点、苏州、无锡、常州、镇江作为过境点,计入上述城市在相应属性统计。
在本例中,用户e1通过高铁从上海经苏州、无锡、常州、镇江到南京,再由民航从南京经北京到哈尔滨,最后由民航从哈尔滨到上海,计入上述城市间高铁或民航客流量统计。
由上述统计绘制人口迁移流动方向图,各城市在人口迁移流动中角色属性图,各路段迁移流动负载图。
Claims (7)
1.一种基于手机大数据的城市间迁移客流分析方法,其特征在于,包括以下步骤:
步骤1、从通信运营商获取不同城市的在时间与空间上连续的匿名加密手机数据,对每个EPID而言,依据当前EPID的匿名加密手机数据计算得到指定时间段内的各手机数据对应的真实经度坐标LON及真实纬度坐标LAT,将不同的城市定义为不同的区域LOC,根据计算得到的所有的真实经度坐标LON及真实纬度坐标LAT,获得当前EPID在指定时间段内所处的区域LOC的个数,剔除区域LOC的个数不大于1个的所有EPID,则得到在指定时间段内所有跨城市的EPID,并将这些跨城市的EPID记录入目标数据库;
步骤2、根据目标数据库中每个EPID在指定时间段内的全部通信记录,以区域LOC为空间划分单位,将当前EPID在每个区域LOC内的通信活动发生的时间进行排序,形成当前EPID在每个区域LOC内通信行为的时间轴;在此基础上,通过时间轴每一条记录中的真实经度坐标LON及真实纬度坐标LAT,进行地理映射,根据其经纬度坐标投射到地理空间,生成时空数据;利用地理邻接网络对时空数据进行空间连续性检验;计算时空数据中每一时间段的时长与该段路径理论上的长度,以此计算用户在该段的行进速度,获得用户出行时空序列组,包括以下步骤
步骤2.1、遍历已存入目标数据库的满足跨城市出行条件的EPID,在目标数据库中查找指定时间段内当前EPID的所有记录,将每条记录中的相应信息与地理数据进行匹配,将每条记录作为一个数据点落到实际地图中,每个数据点至少包括:EPID、记录发生时间TIME、真实经度坐标LON、真实纬度坐标LAT、区域LOC;
步骤2.2、以区域LOC为单位,查找当前EPID在指定时间段内段内在各个区域LOC中被记录的第一条通信记录FirstRec所对应的数据点作为一个节点和最后一条通信记录LastRec所对应的数据点作为一个节点,并根据每条通信记录的发生时间对得到的节点进行排序,构建路段数据,路段数据中的字段至少包括:路段始节点LNODE、路段终节点NNODE、经过该路段花费的时间TIME,路段数据和节点数据共同形成全时空序列数据;
步骤2.3、遍历全时空序列数据,标记其中的出发地-目的地节点;
步骤2.4、将当前EPID的全时空序列数据根据出发地-目的地节点进行裁剪,形成多条仅有首尾节点是出发地-目的地节点的单次出行时间序列;
步骤2.5、结合城际铁路网和三级公路网数据或城市间邻接矩阵提取出路段数据的直线距离、公路距离和铁路距离,即为路径长度DISTANCE;
步骤2.6、利用路径长度DISTANCE和时间TIME,计算得到每个路段的进行速度SPEED,并将进行速度SPEED加入单次出行时间序列中,当步骤2.5中使用的是城际铁路网和三级公路网数据时,获得三种速度:直线速度SPEED-S、高铁速度SPEED-H和公路网速度SPEED-R;当步骤2.5中使用的是城市间邻接矩阵时,获得二种速度:直线速度SPEED-S、邻接矩阵速度SPEED-M;
步骤3、根据当前EPID的单次出行时间序列中的进行速度SPEED判别非出发地-目的地节点的节点类型,并以此最终确定当前EPID的出行方式,包括以下步骤:
步骤3.1、首先对当前EPID的单次出行时间序列上各路段的进行速度SPEED进行聚类,选出速度明显较低的路段作为速度异常路段;
步骤3.2、根据速度异常段的首节点LNODE和尾节点NNODE,满足下列条件之一,则将速度异常路段所在城市判断为中间节点:
条件一、若速度异常路段的首节点LNODE和尾节点NNODE在同一城市,则标记该城市为中间节点;
条件二、若速度异常路段的首节点LNODE和尾节点NNODE不在同一城市内,则依据速度异常路段在首节点LNODE和尾节点NNODE城市的长度,取距离长者对应的城市作为中间节点;
若速度异常路段横跨多地,其首节点LNODE和尾节点NNODE在空间上不邻接,则无法判别其中哪一个节点为中间节点,放弃标注或抛弃当前的单次出行时间序列;
步骤3.3、将单次出行时间序列中除出发地-目的地节点和中间节点外的其余节点均标记为过境点;
步骤3.4、提取O-D节点和中间节点之间路段的速度,对照各出行方式的平均速度,判别各次出行所采用的出行方式;
步骤4、根据得到的大量EPID的单次出行时间序列数据,以及与其配套的出行方式与节点属性数据,分析城市间迁移客流的流量、流向,以及各城市在人流迁移过程中的功能。
2.如权利要求1所述的一种基于手机大数据的城市间迁移客流分析方法,其特征在于,所述步骤1包括以下步骤:
步骤1.1、从通信运营商实时获取匿名手机数据,匿名手机数据包括:EPID、TYPE、TIME、X、Y、SR、LOC,其中:
EPID为匿名单向加密全球唯一移动用户标识码,是通信运营商对每个用户进行单向不可逆加密,从而唯一标识每个用户,且不暴露用户号码隐私信息;
TYPE为当前匿名手机数据所涉及的网络动作类型;
TIME为当前匿名手机数据所涉及的网络动作的发生时刻;
X、Y为利用专用坐标加密方法对手机用户的真实坐标位置进行加密计算后得到加密坐标;
SR为空间范围,是当前匿名手机数据空间定位的定位偏差范围;
步骤1.2、对接收到的匿名手机数据,利用专用解密模块进行坐标转换,解密后的实时手机数据的内容包括,EPID、TYPE、TIME、真实经度坐标LON、真实纬度坐标LAT、空间误差范围SR;
步骤1.3、基于实时手机数据中的真实经度坐标LON及真实纬度坐标LAT,判断当前实时手机数据对应的用户所在城市,赋予区域LOC属性,遍历当前EPID的手机数据记录,通过时间轴每一条记录中的真实经度坐标LON及真实纬度坐标LAT进行地理映射,根据经纬度坐标投射到地理空间,结合全国城市面域图层,获得当前EPID所处城市,将该城市名称赋值为区域LOC属性;
步骤1.4根据区域LOC剔除在指定时间段内没有发生过跨城市出行行为的EPID,具体规则为:若一个EPID在指定时间范围内存在两个或两个以上区域LOC,则表示该EPID存在跨城市出行行为,记录该EPID,存入目标数据库,否则抛弃该EPID,进行下一个用户的判别。
3.如权利要求1所述的一种基于手机大数据的城市间迁移客流分析方法,其特征在于,在所述步骤2.3中,出发地-目的地节点的标记条件为满足下列条件之一:
条件一、统计当前EPID在各城市内的位置散点分布及其时间分布,若该EPID在某一城市的停留时间大于时间阈值Stay_1,则直接视该城市为一条行程的目的地,以及下一段行程的起始地,即标记为出发地-目的地节点;
条件二、若当前EPID在当前城市停留时间超过时间阈值Stay_2,但小于时间阈值Stay_1,且至少位于非交通道路、车站、机场、高速公路服务区的所述全时空序列数据的节点占比大于50%,则将当前城市标记为出发地-目的地节点;
条件三、若用户在非交通道路、车站、机场、高速公路服务区的长度值Stay_R之直径区域中持续停留时间超过时间阈值Stay_3,则将直径区域该判定为出发地-目的地节点;
条件四、当前EPID的全时空序列数据中的首尾节点所在地均视为出发地-目的地节点。
4.如权利要求1所述的一种基于手机大数据的城市间迁移客流分析方法,其特征在于,在所述步骤3.1中,速度异常路段的判断标准为:
若聚类结果为1类,或不同类别之间的速度差距很小,不存在明显的速度异常点,则当前单次出行时间序列为直达,没有出现异常路段;
若聚类结果为2类或两类以上,且不同类别之间速度差异极大,则以不同速度类别路段交界处两侧,速度较慢的路段为速度异常路段。
5.如权利要求5所述的一种基于手机大数据的城市间迁移客流分析方法,其特征在于,当聚类结果为2类或两类以上时,具体的情况可分为:
情况1、若聚类结果为2类,且速度较低的路段以离散的形式分布在单次出行时间序列上,则速度较低的路段为速度异常路段;
情况2、若聚类结果为2类,且速度较低的路段很多,同时两种类型的路段在空间上基本连续,则判定两类路段的分界路段中,速度较慢的那个路段为速度异常路段;
情况3、若聚类结果为2类以上,且速度较低的路段离散分布,而速度较高的类别基本连续分布,则判定速度最慢的那个路段为速度异常路段;
情况4、若聚类结果为2类以上,且各速度类别基本都呈现连续分布,则判定速度最慢的那个路段为速度异常路段;
情况5、若不同速度类别的路段交替出现,并无明显的规律可循,则同样依照情况2处理,即以速度分界点两侧速度较慢路段为速度异常段。
6.如权利要求1所述的一种基于手机大数据的城市间迁移客流分析方法,其特征在于,在所述步骤3.4中,采取出发地-目的地节点和中间节点之间各路段速度的中位数作为本次出行的速度:
民航的判别标准为进行速度大于500km/h,且其行程首尾城市之间必须存在航班,若行进速度大于500km/h且首尾城市之间没有航班,则表明当前EPID在其他城市登机或降落,此时搜索距离首节点LNODE和尾节点NNODE最近的机场进行补完,若附近存在第三方城市到首节点LNODE或尾节点NNODE的航班,则在首节点LNODE和尾节点NNODE之间添加机场节点,计算新搜得机场到距离其较近的首节点LNODE或尾节点NNODE的距离,该段的出行时间为原尾节点LNODE到尾节点NNODE的出行时间减去理论上的飞行时间,然后判断首节点LNODE或尾节点NNODE到机场所采用的交通工具,若无法搜得合适的航班,则抛弃该记录。
高铁的判别标准为中位速度介于150-500km/h之间,而150km/h以下的判定为公路出行。
7.如权利要求1所述的一种基于手机大数据的城市间迁移客流分析方法,其特征在于,所述步骤4中分析城市间迁移客流的流量、流向,以及各城市在人流迁移过程中的功能包括:
提取所有EPID历次出行的出发地-目的地节点,统计客流迁移的流向和流量,以线段的粗细表示客流量的大小,线段箭头方向指示客流方向;
根据每个路段每种出行方式的出行量和出行方向统计迁移客流在详细路径上的流量/流向,同样以线段的粗细表示客流量的大小,线段箭头方向指示客流方向;
统计所有有效EPID的出现记录中,各城市作为出发地-目的地节点、中间节点和过境点所出现的频次,分析各城市在客流迁移过程中所扮演不同角色的比例,分析各城市在客流迁移过程中的主要角色。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610367737.6A CN106067154A (zh) | 2016-05-30 | 2016-05-30 | 一种基于手机大数据的城市间迁移客流分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610367737.6A CN106067154A (zh) | 2016-05-30 | 2016-05-30 | 一种基于手机大数据的城市间迁移客流分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106067154A true CN106067154A (zh) | 2016-11-02 |
Family
ID=57420851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610367737.6A Pending CN106067154A (zh) | 2016-05-30 | 2016-05-30 | 一种基于手机大数据的城市间迁移客流分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106067154A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107241512A (zh) * | 2017-06-30 | 2017-10-10 | 清华大学 | 基于手机数据的城际交通出行方式判断方法和设备 |
CN107770744A (zh) * | 2017-09-18 | 2018-03-06 | 上海世脉信息科技有限公司 | 大数据环境下出行od节点识别和节点间路径提取方法 |
CN108391265A (zh) * | 2018-02-12 | 2018-08-10 | 中国联合网络通信集团有限公司 | 一种确定漫游过境用户的方法及装置 |
CN109889988A (zh) * | 2017-12-06 | 2019-06-14 | 北京亿阳信通科技有限公司 | 基于地铁场景通信记录分析网络状况的方法和装置 |
CN110046174A (zh) * | 2019-03-07 | 2019-07-23 | 特斯联(北京)科技有限公司 | 一种基于大数据的人口迁移分析方法和系统 |
CN110728433A (zh) * | 2019-09-19 | 2020-01-24 | 重庆市交通规划研究院 | 一种基于手机信令的地块居住人口测算方法 |
CN111770452A (zh) * | 2020-05-27 | 2020-10-13 | 中山大学 | 一种基于个人出行轨迹特征的手机信令停留点识别方法 |
CN112383878A (zh) * | 2020-09-27 | 2021-02-19 | 中国信息通信研究院 | 一种协同计算方法及电子装置 |
CN112434101A (zh) * | 2020-11-23 | 2021-03-02 | 北京航空航天大学 | 一种利用共享出行大数据进行人流量迁徙分析的系统 |
CN112689301A (zh) * | 2019-10-17 | 2021-04-20 | 中国移动通信集团陕西有限公司 | 道路场景的切换序列识别方法、装置以及计算设备 |
CN112711576A (zh) * | 2020-12-11 | 2021-04-27 | 上海城市交通设计院有限公司 | 一种识别手机信令数据高铁、飞机城际出行方式的方法 |
CN112733112A (zh) * | 2020-12-31 | 2021-04-30 | 恒安嘉新(北京)科技股份公司 | 一种用户出行方式的确定方法、装置、电子设备和存储介质 |
CN113495911A (zh) * | 2020-03-18 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 迁徙信息处理方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102595323A (zh) * | 2012-03-20 | 2012-07-18 | 北京交通发展研究中心 | 基于手机定位数据的居民出行特征参数的获取方法 |
CN105389996A (zh) * | 2015-12-17 | 2016-03-09 | 北京亚信蓝涛科技有限公司 | 一种基于大数据的交通运行状态特征参数提取方法 |
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
-
2016
- 2016-05-30 CN CN201610367737.6A patent/CN106067154A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102595323A (zh) * | 2012-03-20 | 2012-07-18 | 北京交通发展研究中心 | 基于手机定位数据的居民出行特征参数的获取方法 |
CN105488120A (zh) * | 2015-11-23 | 2016-04-13 | 上海川昱信息科技有限公司 | 基于手机大数据实时采集人口空间分布与大客流预警方法 |
CN105389996A (zh) * | 2015-12-17 | 2016-03-09 | 北京亚信蓝涛科技有限公司 | 一种基于大数据的交通运行状态特征参数提取方法 |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10674315B2 (en) | 2017-06-30 | 2020-06-02 | Shandong Provincial Communications Planning And Design Institute | Method and device for judging intercity transportation mode based on mobile phone data |
WO2019001045A1 (zh) * | 2017-06-30 | 2019-01-03 | 山东省交通规划设计院 | 基于手机数据的城际交通出行方式判断方法和设备 |
CN107241512A (zh) * | 2017-06-30 | 2017-10-10 | 清华大学 | 基于手机数据的城际交通出行方式判断方法和设备 |
CN107241512B (zh) * | 2017-06-30 | 2019-10-18 | 清华大学 | 基于手机数据的城际交通出行方式判断方法和设备 |
CN107770744A (zh) * | 2017-09-18 | 2018-03-06 | 上海世脉信息科技有限公司 | 大数据环境下出行od节点识别和节点间路径提取方法 |
CN109889988A (zh) * | 2017-12-06 | 2019-06-14 | 北京亿阳信通科技有限公司 | 基于地铁场景通信记录分析网络状况的方法和装置 |
CN108391265A (zh) * | 2018-02-12 | 2018-08-10 | 中国联合网络通信集团有限公司 | 一种确定漫游过境用户的方法及装置 |
CN108391265B (zh) * | 2018-02-12 | 2020-12-22 | 中国联合网络通信集团有限公司 | 一种确定漫游过境用户的方法及装置 |
CN110046174A (zh) * | 2019-03-07 | 2019-07-23 | 特斯联(北京)科技有限公司 | 一种基于大数据的人口迁移分析方法和系统 |
CN110728433A (zh) * | 2019-09-19 | 2020-01-24 | 重庆市交通规划研究院 | 一种基于手机信令的地块居住人口测算方法 |
CN110728433B (zh) * | 2019-09-19 | 2023-05-26 | 重庆市交通规划研究院 | 一种基于手机信令的地块居住人口测算方法 |
CN112689301A (zh) * | 2019-10-17 | 2021-04-20 | 中国移动通信集团陕西有限公司 | 道路场景的切换序列识别方法、装置以及计算设备 |
CN112689301B (zh) * | 2019-10-17 | 2024-04-09 | 中国移动通信集团陕西有限公司 | 道路场景的切换序列识别方法、装置以及计算设备 |
CN113495911A (zh) * | 2020-03-18 | 2021-10-12 | 百度在线网络技术(北京)有限公司 | 迁徙信息处理方法、装置、电子设备和存储介质 |
CN111770452A (zh) * | 2020-05-27 | 2020-10-13 | 中山大学 | 一种基于个人出行轨迹特征的手机信令停留点识别方法 |
CN112383878A (zh) * | 2020-09-27 | 2021-02-19 | 中国信息通信研究院 | 一种协同计算方法及电子装置 |
CN112434101A (zh) * | 2020-11-23 | 2021-03-02 | 北京航空航天大学 | 一种利用共享出行大数据进行人流量迁徙分析的系统 |
CN112434101B (zh) * | 2020-11-23 | 2021-06-25 | 北京航空航天大学 | 一种利用共享出行大数据进行人流量迁徙分析的系统 |
CN112711576B (zh) * | 2020-12-11 | 2023-03-10 | 上海城市交通设计院有限公司 | 一种识别手机信令数据高铁、飞机城际出行方式的方法 |
CN112711576A (zh) * | 2020-12-11 | 2021-04-27 | 上海城市交通设计院有限公司 | 一种识别手机信令数据高铁、飞机城际出行方式的方法 |
CN112733112A (zh) * | 2020-12-31 | 2021-04-30 | 恒安嘉新(北京)科技股份公司 | 一种用户出行方式的确定方法、装置、电子设备和存储介质 |
CN112733112B (zh) * | 2020-12-31 | 2024-05-03 | 恒安嘉新(北京)科技股份公司 | 一种用户出行方式的确定方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106067154A (zh) | 一种基于手机大数据的城市间迁移客流分析方法 | |
Kong et al. | Mobility dataset generation for vehicular social networks based on floating car data | |
CN108564226B (zh) | 一种基于出租车gps及手机信令数据的公交线路优化方法 | |
Yang et al. | Scalable space-time trajectory cube for path-finding: A study using big taxi trajectory data | |
CN110555544B (zh) | 一种基于gps导航数据的交通需求估计方法 | |
CN112288048B (zh) | 一种基于多源数据驱动的城市人群出行识别方法 | |
CN110298500A (zh) | 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法 | |
CN106096631A (zh) | 一种基于手机大数据的流动人口分类识别分析方法 | |
CN105809962A (zh) | 一种基于手机数据的交通出行方式划分的方法 | |
CN105117595A (zh) | 一种基于浮动车数据的私家车出行数据集成方法 | |
CN110413855A (zh) | 一种基于出租车下客点的区域出入口动态提取方法 | |
Kreimeier et al. | Market volume estimation of thin-haul On-Demand Air Mobility services in Germany | |
CN105844031B (zh) | 一种基于手机定位数据的城市交通廊道识别方法 | |
Ge et al. | Urban taxi ridership analysis in the emerging metropolis: Case study in Shanghai | |
Kashiyama et al. | Pseudo-pflow: Development of nationwide synthetic open dataset for people movement based on limited travel survey and open statistical data | |
Kyriakou et al. | Analysis of spatiotemporal data to predict traffic conditions aiming at a smart navigation system for sustainable urban mobility | |
CN115100012A (zh) | 一种轨道交通站点步行可达性计算方法 | |
CN118094382B (zh) | 一种民用机场进港航空器滑入机坪道口预测方法及系统 | |
Hatziioannidu et al. | Passenger Demand And Patterns Of Tourists’ Mobility In The Aegean Archipelago With Combined Use Of Big Datasets From Mobile Phones And Statistical Data From Ports And Airports | |
Jiang et al. | Air Corridor Evaluation with Purpose-specific Metrics | |
Sabet et al. | A cost-effective methodology to compare travel time and speed: a tale of 11 cities | |
Hu et al. | Dynamic modeling of urban population travel behavior based on data fusion of mobile phone positioning data and FCD | |
Jiang et al. | A Metrics-based Method for Evaluating Corridors for Urban Air Mobility Operations | |
CN117436941A (zh) | 基于迭代约束聚类和isodata算法的垂直起降站选址方法 | |
CN117454319A (zh) | 一种基于gps大数据的旅游流数据分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161102 |
|
WD01 | Invention patent application deemed withdrawn after publication |