CN114723596A - 一种基于多源交通出行数据和主题模型的城市功能区识别方法 - Google Patents
一种基于多源交通出行数据和主题模型的城市功能区识别方法 Download PDFInfo
- Publication number
- CN114723596A CN114723596A CN202210314162.7A CN202210314162A CN114723596A CN 114723596 A CN114723596 A CN 114723596A CN 202210314162 A CN202210314162 A CN 202210314162A CN 114723596 A CN114723596 A CN 114723596A
- Authority
- CN
- China
- Prior art keywords
- functional
- data
- traffic analysis
- travel
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004458 analytical method Methods 0.000 claims abstract description 119
- 238000009826 distribution Methods 0.000 claims abstract description 106
- 230000000694 effects Effects 0.000 claims abstract description 35
- 230000006870 function Effects 0.000 claims description 49
- 239000013598 vector Substances 0.000 claims description 44
- 101100100125 Mus musculus Traip gene Proteins 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000007797 corrosion Effects 0.000 claims description 7
- 238000005260 corrosion Methods 0.000 claims description 7
- 230000000877 morphologic effect Effects 0.000 claims description 7
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims 1
- 238000005065 mining Methods 0.000 abstract description 4
- 238000010276 construction Methods 0.000 abstract description 3
- 230000003068 static effect Effects 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004080 punching Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 230000003915 cell function Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003628 erosive effect Effects 0.000 description 1
- 238000007306 functionalization reaction Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/02—Reservations, e.g. for tickets, services or events
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Evolutionary Computation (AREA)
- Educational Administration (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于多源交通出行数据和主题模型的城市功能区识别方法,该方法包括:采集路网数据、兴趣点数据以及多源交通出行数据;路网数据经过形态学处理得到若干个交通分析小区;挖掘兴趣点数据和网约车、地铁出行数据中的特征构造“词汇”,采用潜在狄利克雷分配主题模型算法得到各交通分析小区的功能概率分布;采用聚类算法对所有交通分析小区进行功能聚类,通过构建的区域出行‑活动分析指标完成簇的功能标定。本发明的有益效果是结合了表示城市功能空间静态语义信息的兴趣点数据和动态出行特征的多种居民出行数据,既克服了单一因素的影响,同时结合了不同出行方式的活动特征的影响,得到更具广泛性和实际价值的划分结果。
Description
技术领域
本发明涉及一种基于多源交通出行数据和主题模型的城市功能区识别方法,属于交通大数据技术领域。
背景技术
城市的发展促进了城市不同区域的功能化以满足人们的某些特定需求。功能区的存在使得社会经济资源得到合理、高效的部署以及给人们的生产生活带来很多便利。城市功能区是指通过自然资源与社会服务的空间聚集使得特定的城市功能能够得到最大程度发挥的区域。随着城市建设和社会经济的快速发展,城市功能区所呈现出的自然景观特征和社会经济特征也日益显著。而城市化进程的加快使得城市规模飞速地膨胀,过去的城市规划逐渐无法满足城市化扩张的需要,产生了许多诸如交通拥堵、住房紧张、环境恶化等问题。城市功能区分类是科学合理规划建设的前提,研究城市功能区的识别与划分的方法对于测算土地利用程度、规划各类经济社会职能、合理高效利用各类资源、提升区域综合竞争力等具有重要意义。传统的城市功能区划分主要基于土地利用调查数据,通过建立评价指标来量化城市景观与社会经济特征,以实现城市功能的划分。该方法数据获取成本高、效率低,构建评价指标的主观因素强,难以准确地刻画不同城市功能的自然与社会特征,迫切需要一种新的方法和途径来进行城市功能区的划分。在大数据技术蓬勃发展的现在,因大数据的获取来源较为广泛、时空分辨率高、涵盖信息多等优势,基于大数据的城市功能区分析方法已成为功能区划分技术的热点手段之一。至今已有许多研究结合用户活动出行数据与兴趣点数据识别不同的城市功能区,比如使用兴趣点数据与公交刷卡数据、地铁刷卡数据、网约车轨迹数据以及手机移动数据等识别城市功能区。
1)兴趣点数据是一种具有类别属性的数据,具有样本量大,覆盖信息量广等特点,其类别条目具有住宿服务设施、购物服务、科技文化、风景名胜、交通设施等关键字,可以为聚类后的区域地块提供语义分析支持。
2)居民出行数据包含公交刷卡数据、地铁刷卡数据、网约车订单数据以及手机移动数据等,具有丰富的居民出行信息,一条居民出行记录一般包含居民的上下车时间、上下车位置以及出行时长等。居民的出行与城市空间结构之间有着密切的关系,一般而言,居民通常在工作日的早上离开住宅区,晚上下班之后返回原居住地,而访问娱乐区的主要时间是工作日的晚上或非工作日的全天;其次,区域的不同功能同样与人群到达模式相关,比如访问娱乐区的居民在工作日很可能来自工作区,非工作日来自住宅区;此外,种种研究表明,出行时长、出行方式选择都会对居民的出行活动产生影响。因此,居民出行数据中包含的居民出行特征和区域的功能联系紧密。
利用多源出行数据结合兴趣点数据进行功能区识别的方法可以弥补单一数据源带来的识别偏差的问题,充分利用多种出行方式数据包含的更加全面丰富的居民出行信息和兴趣点数据包含的空间语义信息,使得功能区的识别更加准确。
发明内容
技术问题:本申请的目的在于提供一种基于多源交通出行数据和主题模型的城市功能区识别方法技术,以路网为基础划分交通分析小区,并且结合兴趣点和居民出行特征,克服单一因素的影响,充分利用不同出行方式的数据所表达的功能区特征,得到更加符合实际的结果。
技术方案:为实现上述目的,本申请所采取的技术方案为:
本申请提供一种基于多源交通出行数据和主题模型的城市功能区识别方法,所述的基于多源交通出行数据和主题模型的城市功能区识别方法用于对城市空间进行功能区的划分,包括以下步骤:
步骤一:获取路网数据、兴趣点数据以及多源交通(网约车、地铁)出行数据;
步骤二:根据所述路网数据,利用形态学处理腐蚀与膨胀的方法,将城市空间划分为若干个交通分析小区;
步骤三:根据所述兴趣点数据和网约车、地铁出行数据在交通分析小区中的分布,挖掘区域出行-活动特征以构造词汇;
步骤四:采用潜在狄利克雷分配主题模型算法得到各所述交通分析小区的功能概率分布;
步骤五:根据每个交通分析小区的功能概率分布,采用K-means算法对所有交通分析小区进行功能聚类,得到针对于所述城市空间的C个簇,并根据各所述交通分析小区中的区域出行-活动特征分布对每一个簇进行功能标注。
作为优选,所述兴趣点数据为经过数据清洗、重分类之后,包含名称、地址、坐标,分为P个类别的地理空间点数据。所述的多源交通出行数据为经过数据清洗和筛选得到的城市网约车、地铁的出行数据。所述的路网数据为经过筛选的包括高速公路、城市快速路和城市主干路的路网数据,对这些道路进行形态学的膨胀和腐蚀处理,根据处理过后的道路的延伸自然地将城市空间划分为不同的基本单元,得到交通分析小区。
作为优选,根据所述兴趣点数据和网约车、地铁出行数据,构造区域出行-活动特征和土地利用属性特征,包括:
提取兴趣点地理信息特征。将根据各类别兴趣点平均占地面积进行加权的兴趣点类别频次和用地混合度作为主题模型的词汇,将所有区域经过加权的兴趣点的类别频次和区域混合度作为主题模型的词汇库以得到由兴趣点类别构成的交通分析小区-出行特征概率分布以及各交通分析小区的兴趣点主题概率分布。用地混合度的计算方法采用基于熵指数的计算方法:
其中,pi表示第i种兴趣点占所有种类兴趣点的比例,P表示兴趣点总类别数。
提取出行-活动特征。所述的出行-活动特征为工作日和休息日的基本流量特征,每条出行数据包含上车(进站)和下车(出站)两个出行特征,其具体形式为feature=(direction,Tj),其中,direction表示地铁客流进出站或网约车上下车方向,对于网约车订单上车点和地铁客流进站点,取direction=S,对于网约车订单下车点和地铁客流出站点,取direction=E,对于网约车订单,Tj表示网约车订单中乘客上车时刻以及下车时刻,对于地铁数据,Tj表示地铁乘客进站时刻以及出站时刻。
基于不同数据集构造各功能区相应的词汇,由主题模型分别求解得到不同数据集构造的交通分析小区-功能特征分布和功能特征-出行特征分布。
作为优选,所述的构建潜在狄利克雷分配概率主题模型,利用潜在狄利克雷分配概率主题模型挖掘交通分析小区的功能特征向量,潜在狄利克雷分配概率主题模型通过提取各功能特征向量所包含的高维语义向量来分配各功能特征向量的概率,包括:
利用潜在狄利克雷分配概率主题模型将数据集中的每个交通分析小区的功能分布按照概率分布向量的形式给出,潜在狄利克雷分配是一种无监督的贝叶斯模型,该模型被广泛应用于主题建模和文档主题分类中:
p(w|d)=p(w|k)×p(k|d)
其中
d为文档,在具体应用场景中表示为交通分析小区;
w为词汇,表示为交通分析小区所具有的区域出行-活动特征;
k为主题,表示为交通分析小区所具有的城市功能特征;
该模型以k为中间层,p(k|d)表示交通分析小区总集D中的每个交通分析小区d对应到不同城市功能k的概率,其分布表示为向量θd,p(w|k)表示城市功能总集中的每个城市功能k生成不同区域出行-活动特征w的概率,其分布表示为向量βk;利用主题模型算法求解每个交通分析小区的城市功能特征概率分布,以及城市功能特征分布中的区域出行-活动特征分布;潜在狄利克雷分配概率主题模型的城市功能区特征识别模型学习过程如下:
令城市交通分析小区中的区域出行-活动特征通过以下步骤生成:
其中pk表示第k种城市功能的出现概率,αk为第k种城市功能对应的超参数。
3)交通分析小区d的第n个出行特征的功能特征通过计算交通分析小区d的功能特征分布θd对第n个出行特征的多项式概率分布zd得到,即zd=multi(θd),该多项式分布的概率密度函数为:
其中,pi表示第i种功能特征的出现概率,θd,i为交通分析小区d的第i种功能特征的出现频次。
基于困惑度确定主题数量K。在运用潜在狄利克雷分配主题模型建模时,利用训练后的模型在测试集中的困惑度确定最佳主题数,若模型在测试集上的困惑度小于预设值,则当前功能特征数量K的取值符合要求,困惑度计算公式如下:
其中,D表示由所有出行特征构成的总集;M为交通分析小区总数量;Wd为交通分析小区d中的出行特征集;Nd为交通分析小区d中的出行特征数;P(Wd)为交通分析小区d中所有出行特征的似然值。
将区域兴趣点特征数据集、预处理之后的网约车、地铁工作日和休息日数据集分别进行主题模型建模,得到对应的交通分析小区功能特征概率分布,形成各个交通分析小区功能特征向量。由此构造的城市区域功能特征向量同时考虑了交通分析小区兴趣点重分类数据、区域混合度、网约车工作日数据、网约车休息日数据、地铁工作日数据和地铁休息日数据,既考虑了区域的地理信息,又结合了不同的出行方式所体现的居民出行特征,丰富了区域的居民出行特征表示,从而得到更为广泛而良好的结果。
作为优选,根据每个交通分析小区的功能特征,采用K-means算法对所有交通分析小区进行功能聚类。聚类得到针对于所述城市空间的C个簇,并根据各所述簇中的功能概率分布对每一个簇进行功能标注。包括:
令交通分析小区d的功能特征分布是由地铁、网约车、兴趣点三者结合分别得到的交通分析小区-功能特征概率分布向量的堆栈,即featured=(VeCtaxiweek,d,Vectaxiweekend,d,Vecmetroweek,d,Vecmetroweekend,d,Vecpoi,d),其中Vectaxiweek,d表示在工作日网约车主题模型中,交通分析小区d属于工作日网约车各个功能特征的概率分布向量,Vectaxiweekend,d表示在休息日网约车主题模型中,交通分析小区d属于休息日网约车各个功能特征的概率分布向量,Vecmetroweek,d表示在工作日地铁模型中,交通分析小区d属于工作日地铁各个功能特征的概率分布向量,Vecmetroweekend,d表示在休息日地铁模型中,交通分析小区d属于休息日地铁各个功能特征的概率分布向量,Vecpoi,d表示在兴趣点模型中,交通分析小区d属于兴趣点各个功能特征的概率分布向量。
最终交通分析小区的功能区聚类数量由聚类评价指标轮廓系数确定:
其中,将每个簇的功能分布特征组成的向量作为样本,a表示样本与同一簇内其余所有元素距离的平均值;遍历不包含样本点的所有簇,计算样本点到这些簇中所有点的平均距离,其中的最小值为b。;
计算不同聚类数量C值下相应的轮廓系数指标,取使得轮廓系数指标值最大的C值,即为针对城市空间交通分析小区的C个簇。
对于聚类得到的各簇,根据其区域特征和出行活动特征指标确定该区域的具体城市功能用地类别。其中,区域特征包括各交通分析小区的兴趣点频率密度和类别比例,区域中频率密度和类别比例分别由下式计算:
其中,i表示兴趣点类型,P表示兴趣点总类别数,ni表示某个区域内第i类兴趣点的数量,Ni表示研究区域中第i类兴趣点的总数量;FDi表示第i种类型兴趣点占该类型兴趣点总数的频率密度;CRi表示第i种类型兴趣点的频数密度占某个区域内所有类型兴趣点频率密度的比例;
区域出行活动特征指标包括该区域多源出行数据的工作日和休息日归一化小时流量,由下式计算:
其中,Xnorm表示区域归一化后的小时流量,X为区域原始小时流量,Xmax和Xmin分别表示区域小时流量的最大值和最小值。
通过分析区域多源出行数据的工作日和休息日归一化小时流量中反映的居民出行特征,并与典型城市功能用地的居民出行特征相对比,完成区域具体城市功能标定。
有益效果:与现有技术相比,本发明的技术方案具有以下有益效果:
本发明的基于多源交通出行数据和主题模型的城市功能区识别方法,以易获取、体量大的多源交通出行数据为数据源,弥补了传统城市功能区调查采用的问卷调查方法的抽样率低、成本高昂的缺陷;结合兴趣点数据扩展了出行数据的语义信息,使动态的出行数据更多地作用于城市功能区识别;本发明方法模型简洁,避免了大量的参数标定,识别结果准确、可靠,是交通出行数据在城市土地利用中的重要应用。
附图说明
图1为本申请的基于多源交通出行数据和主题模型的城市功能区识别方法的技术流程图;
图2为利用路网数据进行交通分析小区划分的一种实施例示意图;
图3为潜在狄利克雷分配主题模型示意图;
图4为K-means方法不同聚类数量对应的轮廓系数图;
图5为利用本专利提出的技术方法得到的功能区网约车工作日的归一化流量折线图;
图6为利用本专利提出的技术方法得到的功能区识别的一种实施例示意图。
具体实施方式:
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是在于限制本申请。
其中一实施例中,提供了一种基于多源交通出行数据和主题模型的城市功能区识别方法,所述的基于多源交通出行数据和主题模型的城市功能区识别方法用于对城市空间进行功能区识别。
如图1所示,基于多源交通出行数据和主题模型的城市功能区识别方法包括以下步骤:
步骤一:获取路网数据、兴趣点数据以及多源交通(网约车、地铁)出行数据;
获取路网数据、兴趣点数据以及多源交通(网约车、地铁)出行数据时,可通过与相关部门或单位之间建立数据接口,直接获取上述数据;也可以通过第三方平台收集并整合得到上述数据。
在得到上述数据之后,还可以选择性的对上述原始数据进行去重、筛选或纠错等数据清洗处理,以提高基础数据的可靠性。对于得到的包含名称、地址、坐标的地理空间兴趣点数据,可以重分类为P个类别以便于之后的数据处理。
步骤二:根据所述路网数据,通过形态学的腐蚀与膨胀处理将所述城市空间划分为若干个交通分析小区;
城市道路一般分为快速路、主干路、次干路和支路等。为了得到合理大小的基本单元,本实施例中采用的路网数据包括:高速公路、城市快速路和城市主干路,对这些道路进行形态学的膨胀和腐蚀处理,根据处理过后的道路的延伸自然地将城市空间划分为不同的基本单元,得到交通分析小区。
如图2所示,图中区域内的黑线代表的是城市区域内的高速公路、城市快速路和城市主干路的分布,将各道路进行形态学处理的膨胀和腐蚀之后,道路交叉、延伸所围成的闭合区域作为不同的基本单元。
需要说明的是本实施例进行形态学处理时使用的膨胀和腐蚀运算本身为现有技术,对其原理本身不再进行过多的赘述。
步骤三:根据所述兴趣点数据和网约车、地铁的居民出行数据,构造区域出行-活动特征和土地利用属性特征;
提取兴趣点地理信息特征。将根据各类别兴趣点平均占地面积进行加权的兴趣点类别频次和用地混合度作为主题模型的词汇,将所有区域经过加权的兴趣点的类别频次和区域混合度作为主题模型的词汇库以获得由兴趣点类别构成的交通分析小区-出行特征概率分布以及各交通分析小区的兴趣点主题概率分布。用地混合度的计算方法采用基于熵指数的计算方法,如下所示:
其中,pi表示第i种兴趣点占所有种类兴趣点的比例,P表示兴趣点类别数量。
提取出行-活动特征。所述的出行-活动特征为工作日和休息日的基本流量特征,每条出行数据包含上车(进站)和下车(出站)两个出行特征,其具体形式为:feature=(direction,Tj),其中direction表示地铁客流进出站或上下车方向,对于网约车订单上车点和地铁客流进站点,取direction=S,对于网约车订单下车点和地铁客流出站点,取direction=E,对于网约车订单,Tj表示网约车订单中乘客上车时刻以及下车时刻,对于地铁数据,Tj表示地铁乘客进站时刻以及出站时刻。
将一个交通分析小区视为一个文档,交通分析小区中的一个功能视为一个主题,因此具有多个功能的区域就类似于包含各种主题的文档。将由不同数据集构造的各功能区相应的词汇分别代入主题模型,由主题模型分别求解得到不同数据集构造的主题模型的文档-功能概率分布和交通分析小区-出行特征分布。交通分析小区功能到文档主题的映射关系如表1所示。
表1从区域功能到文档主题的类比
步骤四:采用潜在狄利克雷分配主题模型算法得到各所述交通分析小区的功能特征;
基于不同数据集构造的各功能区相应的词汇,分别对其求解得到不同数据集构造的交通分析小区-功能特征分布和功能特征-出行特征分布,并使用潜在狄利克雷分配主题模型进行求解,利用潜在狄利克雷分配概率主题模型挖掘交通分析小区的功能特征向量,潜在狄利克雷分配概率主题模型通过提取各功能特征向量所包含的高维语义向量来分配各功能特征向量的概率,包括:
利用潜在狄利克雷分配概率主题模型将数据集中的每个交通分析小区的功能特征分布按照概率分布的形式给出,潜在狄利克雷分配是一种无监督的贝叶斯模型,该模型被广泛应用于主题建模和文档主题分类中,其中:
p(w|d)=p(w|k)×p(k|d)
其中
d为文档,在具体应用场景中表示为交通分析小区;
w为词汇,表示为交通分析小区所具有的区域出行-活动特征;
k为主题,表示为交通分析小区所具有的城市功能特征;
该模型以k为中间层,p(k|d)表示交通分析小区总集D中的每个交通分析小区d对应到不同城市功能k的概率,其分布表示为向量θd,p(w|k)表示城市功能总集中的每个城市功能k生成不同区域出行-活动特征w的概率,其分布表示为向量βk;利用主题模型算法求解每个交通分析小区的城市功能特征概率分布,以及城市功能特征分布中的区域出行-活动特征分布。
如图3所示,基于潜在狄利克雷分配概率主题模型识别功能区的生成过程如下:
1)由超参数α确定狄利克雷分布生成交通分析小区d的功能特征概率分布θd,即其中,为分布的超参数,是一个K维的向量,对于每一个功能特征k,分布超参数α依据相关经验取为α=50/k,K表示给定的交通分析小区的城市功能总数量,狄利克雷分布的概率密度函数如下:
其中,pk表示第k种城市功能的出现概率,αk为第k种城市功能对应的超参数;
3)交通分析小区d的第n个出行特征的功能特征通过计算交通分析小区d的功能特征分布θd对第n个出行特征的多项式概率分布zd得到,即zd=multi(θd),该多项式分布的概率密度函数为:
其中,pi表示第i种功能特征的出现概率,θd,i为交通分析小区d的第i种功能特征的出现频次;
每个功能特征k所对应的功能特征-出行特征条件概率分布为βk,按照其共轭多项式分布φk随机选取得到出行特征,即φk=multi(βk),多项式分布的概率密度函数为:
其中,pi表示第i种出行特征的出现概率,βk,i为第i种出行特征的出现频次;
在运用潜在狄利克雷分配主题模型建模时,利用训练后的模型在测试集中的困惑度确定最佳主题数,若模型在测试集上的困惑度小于预设值,则当前主题数量K的取值符合要求,困惑度计算公式如下:
其中,D表示由所有出行特征构成的总集;M为交通分析小区总数量;Wd为交通分析小区d中的出行特征集;Nd为交通分析小区d中的出行特征数;P(Wd)为交通分析小区d中所有出行特征的似然值。
将区域兴趣点特征数据集、预处理之后的网约车、地铁工作日和休息日数据集分别进行主题模型建模,得到对应的交通分析小区功能特征概率分布,形成各个交通分析小区功能特征向量。由此构造的城市区域功能特征向量同时考虑了区域兴趣点重分类数据、区域混合度、网约车、地铁工作日和休息日数据,既考虑了区域的地理信息,又结合了不同的出行方式所体现的居民出行特征,丰富了区域的居民出行特征表示,从而得到更为广泛而良好的结果。
步骤五:根据每个交通分析小区的功能概率分布特征,采用K-means聚类算法对所有交通分析小区进行功能聚类,聚类得到针对于所述城市交通分析小区的C个簇,并根据各所述簇中的功能特征对每一簇进行功能标注。包括:
令交通分析小区d的功能特征是由地铁、网约车、兴趣点三者分别得到的区域-主题概率分布向量的堆栈,即:
featured=(Vectaxiweek,d,Vectaxiweekend,d,Vecmetroweek,d,Vecmetroweekend,d,Vecpoi,d),
其中Vectaxiweek,d表示在工作日网约车主题模型中,交通分析小区d属于工作日网约车各个功能特征的概率分布向量,Vectaxiweekend,d表示在休息日网约车主题模型中,交通分析小区d属于休息日网约车各个功能特征的概率分布向量,Vecmetroweek,d表示在工作日地铁模型中,交通分析小区d属于工作日地铁各个功能特征的概率分布向量,Vecmetroweekend,d表示在休息日地铁模型中,交通分析小区d属于休息日地铁各个功能特征的概率分布向量,Vecpoi,d表示在兴趣点模型中,交通分析小区d属于兴趣点各个功能特征的概率分布向量。最终小区的功能区聚类数量由聚类评价指标轮廓系数(轮廓系数)确定:
其中,将每个簇的功能分布特征组成的向量作为样本,a表示样本与同一簇内其余所有元素距离的平均值,遍历不包含样本点的所有簇,计算样本点到这些簇中所有点的平均距离,其中的最小值为b。
计算不同聚类数量C值下相应的轮廓系数指标,取使得轮廓系数指标值最大的C值,即为针对城市空间交通分析小区的C个簇。
在聚类评价指标计算时,遍历一定范围内所有可能的聚类数量C值,计算不同C值相应的轮廓系数,取使得轮廓系数值最大的聚类数目,从而得到针对城市交通分析小区的C类功能区。其中轮廓系数的值位于-1到1之间,值越大意味着划分到同一类区域的各交通小区的功能特性相近,而不同区域之间的功能特性差别明显,同时意味着相应的划分方法更优秀。如图4所示,本实施例中最终选取聚类数量大于2的最大轮廓系数值对应的簇数,即C=5,研究区域的城市空间被划分为五类功能区。
对于聚类得到的各簇,根据其区域特征和出行活动特征指标确定该区域具体城市功能用地类别。其中,区域特征包括各交通分析小区的兴趣点频率密度和类别比例,区域中频率密度和类别比例分别由下式计算:
其中,i表示兴趣点类型,P表示兴趣点总类别数,ni表示某个区域内第i类兴趣点的数量,Ni表示研究区域中第i类兴趣点的总数量;FDi表示第i种类型兴趣点占该类型兴趣点总数的频率密度;CRi表示第i种类型兴趣点的频数密度占某个区域内所有类型兴趣点频率密度的比例;
区域出行活动特征指标包括该区域多源出行数据的工作日和休息日归一化小时流量,由下式计算:
其中Xnorm表示区域归一化后的小时流量,X为区域原始小时流量,Xmax和Xmin分别表示区域小时流量的最大值和最小值,图5展示了本实施例中各簇网约车工作日的归一化流量折线图。
通过分析区域多源出行数据的工作日和休息日归一化小时流量中反映的居民出行特征,并与典型城市功能用地的居民出行特征相对比,依据区域特征和出行活动特征进行区域功能标注,最终确定的区域功能属性包括办公区、居住区或休闲区等。图6展示了本实施例所标注的一种功能区分布情况。
需要说明的是,本实施例进行功能特征聚类时采用的K-means算法本身为现有技术,对K-means算法本身不再进行过多的赘述。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于多源交通出行数据和主题模型的城市功能区识别方法,其特征在于,该方法包括以下步骤:
步骤一:获取路网数据、兴趣点数据以及多源交通出行数据;
步骤二:根据所述路网数据,利用形态学处理腐蚀与膨胀的方法,将城市空间划分为若干个交通分析小区;
步骤三:根据所述兴趣点数据和网约车、地铁出行数据在交通分析小区中的分布,获取区域出行-活动特征以构造词汇;
步骤四:采用潜在狄利克雷分配主题模型算法得到各所述交通分析小区的功能概率分布;
步骤五:根据每个交通分析小区的功能概率分布,采用K-means算法对所有交通分析小区进行功能聚类,得到针对于所述城市空间的C个簇,并根据各所述交通分析小区中的区域出行-活动特征分布对每一个簇进行功能标注。
2.根据权利要求1所述的基于多源交通出行数据和主题模型的城市功能区识别方法,其特征在于,步骤一中,所述兴趣点数据为经过数据清洗、重分类之后,获得兴趣点包含名称、地址、坐标的分为P个类别的地理空间点数据;所述多源交通出行数据为经过数据清洗和筛选得到的城市网约车、地铁的出行数据;所述的路网数据为经过筛选的包括高速公路、城市快速路和城市主干路的路网数据。
3.根据权利要求1所述的一种基于多源交通出行数据和主题模型的城市功能区识别方法,其特征在于,步骤二中,所述路网数据经过形态学的膨胀和腐蚀处理之后将城市空间划分为不同的基本单元。
4.根据权利要求1所述的一种基于多源交通出行数据和主题模型的城市功能区识别方法,其特征在于,所述步骤三的具体方法为:
4.1提取兴趣点地理信息特征,将根据各类别兴趣点平均占地面积进行加权的兴趣点类别频次和用地混合度作为主题模型的词汇,将所有区域经过加权的兴趣点的类别频次和区域混合度作为主题模型的词汇库以得到由兴趣点类别构成的交通分析小区-出行特征概率分布以及各交通分析小区的兴趣点主题概率分布;用地混合度的计算方法采用基于熵指数的计算方法,如下所示:
其中,pi表示第i种兴趣点占所有种类兴趣点的比例,P表示兴趣点总类别数;
4.2提取出行-活动特征,所述的出行-活动特征为工作日和休息日的基本流量特征;每条出行数据包含上车和下车两个出行特征,其具体形式为feature=(direction,Tj),其中,direction表示地铁客流进出站或网约车上下车方向,对于网约车订单上车点和地铁客流进站点,取direction=S,对于网约车订单下车点和地铁客流出站点,取direction=E,对于网约车订单,Tj表示网约车订单中乘客上车时刻以及下车时刻,对于地铁数据,Tj表示地铁乘客进站时刻以及出站时刻。
5.根据权利要求4所述的一种基于多源交通出行数据和主题模型的城市功能区识别方法,其特征在于,所述步骤四具体方法为:
5.1利用潜在狄利克雷分配概率主题模型将数据集中的每个交通分析小区的功能分布按照概率分布向量的形式给出,其中:
p(w|d)=p(w|k)×p(k|d) (1)
其中
d为文档,在具体应用场景中表示为交通分析小区;
w为词汇,表示为交通分析小区所具有的区域出行-活动特征;
k为主题,表示为交通分析小区所具有的城市功能特征;
该模型以k为中间层,p(k|d)表示交通分析小区总集D中的每个交通分析小区d对应到不同城市功能k的概率,其分布表示为向量θd,p(w|k)表示城市功能总集中的每个城市功能k生成不同区域出行-活动特征w的概率,其分布表示为向量βk;利用主题模型算法求解每个交通分析小区的城市功能特征概率分布,以及城市功能特征分布中的区域出行-活动特征分布;
5.2基于潜在狄利克雷分配概率主题模型的城市功能区特征识别模型学习过程如下:
令城市交通分析小区中的区域出行-活动特征通过以下步骤生成:
其中,pk表示第k种城市功能的出现概率,αk为第k种城市功能对应的超参数;
3)交通分析小区d的第n个出行特征的功能特征通过计算交通分析小区d的功能特征分布θd对第n个出行特征的多项式概率分布zd得到,即zd=multi(θd),该多项式分布的概率密度函数为:
其中,pi表示第i种城市功能的出现概率,θd,i为交通分析小区d的第i种功能特征的出现频次;
每个功能特征k所对应的功能特征-出行特征条件概率分布为βk,按照其共轭多项式分布φk随机选取得到出行特征,即φk=multi(βk),多项式分布的概率密度函数为:
其中,pi表示第i种出行特征的出现概率,βk,i为第i种出行特征的出现频次;
4)基于困惑度确定城市功能数量K,在运用潜在狄利克雷分配主题模型建模时,利用训练后的模型在测试集中的困惑度确定最佳功能特征数,若模型在测试集上的困惑度小于预设值,表示当前功能特征数量K的取值符合要求,困惑度计算公式如下:
其中,D表示由所有交通分析小区构成的总集;M为交通分析小区总数量;Wd为交通分析小区d中的出行特征集;Nd为交通分析小区d中的出行特征数;P(Wd)为交通分析小区d中所有出行特征的似然值;
5)将区域兴趣点特征数据集、预处理之后的网约车、地铁工作日和休息日数据集分别进行主题模型建模,得到对应的交通分析小区功能特征概率分布,形成各个交通分析小区功能特征向量。
6.根据权利要求5所述的一种基于多源交通出行数据和主题模型的城市功能区识别方法,其特征在于,所述步骤五具体方法为:
1)令交通分析小区d的功能特征分布是由地铁、网约车、兴趣点三者结合得到的交通分析小区-功能特征概率分布向量的堆栈,即featured=(Vectaxiweek,d,Vectaxiweekend,d,Vecmetroweek,d,Vecmetroweekend,d,Vecpoi,d),其中,Vectaxiweek,d表示在工作日网约车主题模型中,交通分析小区d属于工作日网约车各个功能特征的概率分布向量,Vectaxiweekend,d表示在休息日网约车主题模型中,交通分析小区d属于休息日网约车各个功能特征的概率分布向量,Vecmetroweek,d表示在工作日地铁模型中,交通分析小区d属于工作日地铁各个功能特征的概率分布向量,Vecmetroweekend,d表示在休息日地铁模型中,交通分析小区d属于休息日地铁各个功能特征的概率分布向量,Vecpoi,d表示在兴趣点模型中,交通分析小区d属于兴趣点各个功能特征的概率分布向量;
2)最终交通分析小区的功能区聚类数量由聚类评价指标轮廓系数确定:
其中,将每个簇的功能分布特征组成的向量作为样本,a表示样本与同一簇内其余所有元素距离的平均值,遍历不包含样本点的所有簇,计算样本点到这些簇中所有点的平均距离,其中最小值为b;
计算不同聚类数量C值下相应的轮廓系数指标,取使得轮廓系数指标值最大的C值,即为针对城市空间交通分析小区的C个簇;
3)对于聚类得到的各簇,根据其区域特征和出行活动特征指标确定该区域的具体城市功能用地类别;其中,区域特征包括各交通分析小区的兴趣点频率密度和类别比例,区域中频率密度和类别比例分别由下式计算:
其中,i表示兴趣点类型,P表示兴趣点总类别数,ni表示某个区域内第i类兴趣点的数量,Ni表示研究区域中第i类兴趣点的总数量;FDi表示第i种类型兴趣点占该类型兴趣点总数的频率密度;CRi表示第i种类型兴趣点的频数密度占某个区域内所有类型兴趣点频率密度的比例,区域出行活动特征指标包括该区域多源出行数据的工作日和休息日归一化小时流量,由下式计算:
其中,Xnorm表示区域归一化后的小时流量,X为区域原始小时流量,Xmax和Xmin分别表示区域小时流量的最大值和最小值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210314162.7A CN114723596A (zh) | 2022-03-28 | 2022-03-28 | 一种基于多源交通出行数据和主题模型的城市功能区识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210314162.7A CN114723596A (zh) | 2022-03-28 | 2022-03-28 | 一种基于多源交通出行数据和主题模型的城市功能区识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114723596A true CN114723596A (zh) | 2022-07-08 |
Family
ID=82240396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210314162.7A Pending CN114723596A (zh) | 2022-03-28 | 2022-03-28 | 一种基于多源交通出行数据和主题模型的城市功能区识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114723596A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545759A (zh) * | 2022-09-27 | 2022-12-30 | 暨南大学 | 一种基于动态定价机制的乘客出行意图挖掘方法 |
CN116484266A (zh) * | 2023-05-18 | 2023-07-25 | 广东国地规划科技股份有限公司 | 一种精细城市用地类型识别模型训练方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656987A (zh) * | 2017-09-13 | 2018-02-02 | 大连理工大学 | 一种基于lda模型的地铁站点功能挖掘方法 |
CN110176141A (zh) * | 2019-05-09 | 2019-08-27 | 中电海康集团有限公司 | 一种基于poi及流量特征的交通小区划分方法和系统 |
CN113627864A (zh) * | 2020-05-06 | 2021-11-09 | 武汉市中城事大数据有限责任公司 | 一种基于时空语义挖掘的城市功能区识别流程 |
-
2022
- 2022-03-28 CN CN202210314162.7A patent/CN114723596A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656987A (zh) * | 2017-09-13 | 2018-02-02 | 大连理工大学 | 一种基于lda模型的地铁站点功能挖掘方法 |
CN110176141A (zh) * | 2019-05-09 | 2019-08-27 | 中电海康集团有限公司 | 一种基于poi及流量特征的交通小区划分方法和系统 |
CN113627864A (zh) * | 2020-05-06 | 2021-11-09 | 武汉市中城事大数据有限责任公司 | 一种基于时空语义挖掘的城市功能区识别流程 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115545759A (zh) * | 2022-09-27 | 2022-12-30 | 暨南大学 | 一种基于动态定价机制的乘客出行意图挖掘方法 |
CN115545759B (zh) * | 2022-09-27 | 2023-05-19 | 暨南大学 | 一种基于动态定价机制的乘客出行意图挖掘方法 |
CN116484266A (zh) * | 2023-05-18 | 2023-07-25 | 广东国地规划科技股份有限公司 | 一种精细城市用地类型识别模型训练方法 |
CN116484266B (zh) * | 2023-05-18 | 2023-11-24 | 广东国地规划科技股份有限公司 | 一种精细城市用地类型识别模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298500B (zh) | 一种基于出租车数据和城市路网的城市交通轨迹数据集生成方法 | |
CN112133090A (zh) | 一种基于手机信令数据的多方式交通分布模型构建方法 | |
CN109299438B (zh) | 一种基于网约车数据的公共交通设施供给水平评价方法 | |
CN113902011A (zh) | 基于循环神经网络的城市轨道交通短时客流预测方法 | |
CN110836675B (zh) | 一种基于决策树的自动驾驶搜索决策方法 | |
Jiang et al. | CrowdPatrol: A mobile crowdsensing framework for traffic violation hotspot patrolling | |
CN111931998B (zh) | 一种基于移动定位数据的个体出行模式预测方法及系统 | |
CN114723596A (zh) | 一种基于多源交通出行数据和主题模型的城市功能区识别方法 | |
CN112800210B (zh) | 基于海量公交数据的人群画像算法 | |
CN116070033A (zh) | 基于手机信令数据的新型共享公共交通转移需求估计方法 | |
CN113240265A (zh) | 一种基于多模式交通数据的城市空间划分方法 | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
CN112559909B (zh) | 一种基于gcn嵌入空间聚类模型的商业区发现方法 | |
CN115100395A (zh) | 一种融合poi预分类和图神经网络的城市街区功能分类方法 | |
CN112926809A (zh) | 一种基于聚类和改进的xgboost的航班流量预测方法及系统 | |
Chatterjee et al. | Generating Time-Series Data Using Generative Adversarial Networks for Mobility Demand Prediction. | |
Kusonkhum et al. | Using a Machine Learning Approach to Predict the Thailand Underground Train’s Passenger | |
Yue et al. | Classification and determinants of high-speed rail stations using multi-source data: A case study in Jiangsu Province, China | |
CN116227791A (zh) | 基于语义融合模型探索城市功能区动态划分的可视分析方法 | |
CN115600751A (zh) | 基于长短期记忆网络的个体轨迹数据出行目的预测方法 | |
CN113850295A (zh) | 一种基于Weighted-LeaderRank和GMM聚类的站点选址预测方法 | |
Li et al. | Research on urban resident activity patterns and hotspot area based on GPS floating car data | |
Huo et al. | Development of fuzzy level of service criteria for bus rapid transit considering user heterogeneities in China | |
CN113393079A (zh) | 一种基于公交数据的交通小区划分方法 | |
Gao et al. | iTA: Inferring Traffic Accident Hotspots with Vehicle Trajectories and Road Environment Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |