CN112365708B

CN112365708B - 基于多图卷积网络的景区交通量预测模型建立和预测方法

Info

Publication number: CN112365708B
Application number: CN202011052408.5A
Authority: CN
Inventors: 张蕾; 施元磊; 高原; 张小溪; 王洁
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2022-04-19
Anticipated expiration: 2040-09-29
Also published as: CN112365708A

Abstract

本发明属于数据挖掘和城市交通数据分析领域，公开了一种基于多图卷积网络的景区交通量预测模型建立和预测方法。包括如下步骤：1.构建多张表征景区间关系的特征图；2.构建基于多张特征图的卷积循环神经网络模型；3.训练卷积循环神经网络模型；4.使用训练好的卷积循环神经网络模型预测景区未来的交通流量值。本发明的新颖之处在于从图的角度构建城市景区网络，通过构建多张特征图来反映不同景区间的关系，然后融合多张特征图并同时捕获时空特征来预测景区未来的交通流量，得到每小时的交通流量值，提高了中长期预测的准确性，同时提高了训练的收敛速度和算法的鲁棒性。

Description

基于多图卷积网络的景区交通量预测模型建立和预测方法

技术领域

本发明属于数据挖掘和城市交通数据分析领域，具体涉及一种基于多图卷积网络的景区交通量预测模型建立和预测方法。

背景技术

随着便携式GPS智能设备的普及和社交媒体平台的成熟，产生了大量的包含时间和空间信息的异构数据。例如滴滴公司盖亚计划公开的出租车GPS轨迹数据，马蜂窝旅游平台的游客行程数据，Foursquare兴趣点(POI)签到数据等，这些多源异构数据为区域的流量预测提供了强有力的支撑。

文化旅游景区是城市中重要的兴趣点，是城市重要的组成部分。准确及时的景区交通流量预测，是城市智能交通系统研究的重要内容，其研究有助于交通部门及时地采取措施缓解拥堵，提高道路网络利用率。同时，有助于减少旅行者的旅行时间和费用，改善旅行者的体验。此外，还可广泛的应用于基于位置的应用，例如兴趣点推荐、路径规划和城市规划。

现有的研究技术主要包括：基于统计学的方法、基于机器学习的方法和基于深度学习的方法。基于统计学的交通流量预测方法只关注时间序列数据的规律性，不能分析交通系统的空间特征和动态变化，并且易受到异常值的干扰；基于机器学习的方法在短期预测时表现尚佳，但鲁棒性和长期预测的效果有待提高；现有的基于深度学习的交通流量预测方法在空间依赖性建模时仅考虑了交通路网的特征，比如路网连通性，而未充分应用预测对象蕴含的语义信息，比如预测区域的流行度、功能性等，这些因素对区域交通流量有不可忽视的影响。

发明内容

本发明的目的在于提供一种基于多图卷积网络的景区交通量预测模型建立和预测方法，用以解决现有技术中的等问题。

为了实现上述任务，本发明采用以下技术方案：

一种基于多图卷积网络的景区交通量预测模型建立方法，包括如下步骤：

步骤1：获取景区的多源异构数据，对景区的多源异构数据提取特征，获得景区流行度特征图、景区功能相似性特征图、景区距离特征图和景区交通通达度特征图；

步骤2：获取景区历史交通流量，对景区历史交通流量提取特征，获得景区的历史交通流量矩阵；

步骤3：建立构建多图卷积循环神经网络模型，将历史交通流量矩阵、景区流行度特征图、景区功能相似性特征图、景区距离特征图和景区交通通达度特征图作为输入，将景区预测交通流量作为输出，训练模型，将训练好的模型作为景区交通流量预测模型；

所述多图卷积循环神经网络模型包括图卷积网络和循环门控单元，所述图卷积网络用于根据历史交通流量矩阵、景区流行度特征图、景区功能相似性特征图、景区距离特征图和景区交通通达度特征图输出景区特征图的深度特征并根据景区特征图的深度特征建立多特征融合矩阵，所述循环门控单元用于根据多特征融合矩阵输出景区预测交通流量。

进一步的，所述景区流行度特征图的邻接矩阵P通过式1获得：

其中，V_i和V_j为景区集合中任意第i个和第j个景区，

和

分别为V_i和V_j的用户评论数，

为V_i和V_j的流行相似度，

的取值范围为[0,1]，i和j为正整数。

进一步的，所述景区功能相似性特征图的邻接矩阵F通过式2获得：

其中，V_i和V_j为景区集合中任意第i个和第j个景区，

和

分别为V_i和V_j内各类POI数量组成的向量，r表示POI的类别总数，k表示第k类，

表示V_i的第k类POI数量，

表示V_j的第k类POI数量，

i、j、r和k均为正整数。

进一步的，所述景区距离特征图的邻接矩阵L通过式3获得：

其中，V_i和V_j为景区集合中任意第i个和第j个景区，dist(V_i,V_j)表示V_i和V_j之间的距离且

R为地球半径，

和

分别为V_i和V_j的经度，

和

分别为V_i和V_j的纬度，maxmin表示最大最小归一化，n表示景区的数量，i、j∈n，i、j和n均为正整数。

进一步的，所述景区交通通达度特征图的邻接矩阵T通过式4获得：

其中，T_i,j表示任意第i个景区和第j个景区的交通通达度，convenienttransportation表示第i个景区和第j个景区在同一路段上。

进一步的，所述景区的历史交通流量矩阵采用式5获得

其中，x_mn表示第m时间间隔时第n个景区的交通流量值，m表示时间间隔的数量，n表示景区的数量。

进一步的，步骤3训练时的损失函数为：

其中，Y_t表示t时间段内的实际交通流量，

表示t时间段内预测交通流量，L_reg是L2正则化项，μ是属于[0,1]的超参数。

一种基于多图卷积网络的景区交通量预测方法，包括如下步骤：

步骤a：获取目标景区的历史交通流量和目标景区的多源异构数据；

步骤b：对目标景区的多源异构数据提取特征，获得目标景区的景区流行度特征图、目标景区的景区功能相似性特征图、目标景区的景区距离特征图和目标景区的景区交通通达度特征图；对目标景区的历史交通流量提取特征，获得目标景区的历史交通流量矩阵；

步骤c：将目标景区的景区流行度特征图、目标景区的景区功能相似性特征图、目标景区的景区距离特征图和目标景区的景区交通通达度特征图和目标景区的历史交通流量矩阵输入景区预测交通流量，输出目标景区的预测交通流量。

进一步的，所述景区多源异构数据包括景区评论数据、景区POI数据、景区的地理坐标和道路网络数据。

本发明与现有技术相比具有以下技术特点：

(1)本发明结合空间特征与时间特征来对景区的交通流量进行精确的预测。本方案使用图卷积网络(GCN)来提取不同景区之间复杂的空间相关性特征；使用门控循环单元(GRU)来提取景区历史交通流量的时间特征，最后结合二者实现对景区交通流量的精确预测。

(2)本发明在提取景区区域之间的空间关联性方面，由CNN推广到的图卷积网络(GCN)可以处理任意图结构的数据。GCN模型在诸多前沿领域取得了不错的应用效果，比如文献分类、无监督学习和图像分类等。因此，本方案使用GCN模型来学习景区区域之间的空间关联特征。

(3)本发明在提取景区历史交通流量的时间特征方面，在针对序列数据的趋势预测，目前使用最广泛的神经网络模型是循环神经网络(RNN)。然而，由于循环神经网络(RNN)本身存在的梯度消失或梯度爆炸的缺陷，传统的循环神经网络在长期预测方面存在局限性。LSTM模型和GRU模型是循环神经网络的变体，并已被证明可以解决以上问题。相较于结构复杂、参数较多并需要较长训练时间的LSTM模型，GRU模型结构较为简单且参数较少，能够更快学习到时间序列特征。因此，本方案选择了GRU模型从景区的历史流量数据中捕获时间相关性。

附图说明

图1为实施例中西安市4个著名旅游景区的分布示意图；

图2为实施例中西安市4个著名旅游景区的交通流量走势图；

图3为多图卷积循环神经网络景区交通流量预测模型的空间特征模块结构；

图4为门控循环单元(GRU)层数对交通流量预测精度的影响；

图5为输入的历史交通流量时长对交通流量预测精度的影响；

图6为门控循环单元(GRU)隐藏单元数目对交通流量预测精度的影响；

图7为多图卷积循环神经网络的交通流量预测精度与预测未来时长的关系图；

图8为多图卷积循环神经网络景区交通流量预测模型与DCRNN、T-GCN的训练时间成本对比图；

图9为不同特征图对景区交通流量预测精度的影响；

图10为实施例中多图卷积循环神经网络预测模型在长安区博物馆所在区域的交通流量预测结果；

图11为实施例中多图卷积循环神经网络预测模型在陕西历史博物馆所在区域交通流量预测结果。

具体实施方式

图卷积网络(GCN)：GCN模型在诸多前沿领域取得了不错的应用效果，比如文献分类、无监督学习和图像分类等。在本发明中用于来提取不同景区之间复杂的空间相关性特征。

门控循环单元(GRU)：GRU模型结构较为简单且参数较少，能够更快学习到时间序列特征。来提取景区历史交通流量的时间特征。

邻接矩阵：用表示特征图的节点间的相邻关系，在本发明中特征图上的节点均为景区。

在本实施例中，景区集合是指不同旅游景区的集合V，景区集合中包含多个不同的景区V_i，景区和景点含义相同，每个景区在地图上体现为一个具体坐标值。

交通流量：指一定时间内经过车辆的数量。

在本实施例中公开了一种基于多图卷积网络的景区交通量预测模型建立方法，包括如下步骤：

具体的，所述景区多源异构数据包括景区评论数据、景区POI数据、景区的地理坐标和道路网络数据。

所述景区评论数据为使用从美团点评获取文化旅游景区评论数据，所述景区POI数据为从百度地图开放平台爬取到的景区周边要预测范围内的POI数据，所述景区的地理坐标为从百度地图开放平台获取景区的地理坐标数据，所述道路网络数据为从OpenStreetMap获取的城市道路网络数据。

优选的，所述景区流行度特征图的邻接矩阵P通过式1获得：

其中，V_i和V_j为景区集合中任意第i个和第j个景区，

和

分别为V_i和V_j的用户评论数，

为V_i和V_j的流行相似度，i和j为正整数。

在景区流行度特征图中，将景区作为图的节点，将流行相似度矩阵P作为图的邻接矩阵，由于景区流行度是游客对于该景区喜爱程度的直接表现，越流行的区域或POI，往往表现出更高的流量。同理，景区的交通流量也会受到景区热度的影响。两个景区的流行相似度

为其中较少的评论数与较多的评论数的比值，进而所有景区两两之间的流行相似度构成流行相似度矩阵P。

优选的，所述景区功能相似性特征图的邻接矩阵F通过式2获得：

其中，

和

表示V_i的第k类POI数量，

表示V_j的第k类POI数量，

r和k均为正整数。

在景区功能相似性特征图中，将景区作为图的节点，景区间的功能相似性矩阵F作为图的邻接矩阵，通过景区所在区域的各类POI数量分布来表征景区的功能性，并以余弦相似性来度量不同景区间功能相似性。

表示这两个向量之间的余弦相似度，以此作为这两个景区的功能相似性，进而所有景区两两之间的功能相似性构成功能相似性矩阵F。

优选的，所述景区距离特征图的邻接矩阵L通过式3获得：

其中，dist(V_i,V_j)表示V_i和V_j之间的距离且

R为地球半径，

和

分别为V_i和V_j的经度，

和

分别为V_i和V_j的纬度，maxmin表示最大最小归一化，i、j∈n，n为正整数。

在景区距离特征图中，将景区作为图的节点，景区间的距离特征矩阵L作为图的邻接矩阵，

其值越接近1，这两个景区的距离越近。

优选的，所述景区交通通达度特征图的邻接矩阵T通过式4获得：

其中，convenienttransportation表示V_i和V_j在同一路段上。

在景区交通通达度特征图中，将景区作为图的节点，将交通通达度矩阵T作为图的邻接矩阵，V_i和V_j若在同一路段上，则将其通达度置为1，否则为0，进而所有景区两两之间的通达度构成交通通达度矩阵T。

具体的，步骤2中景区历史交通流量为每个景区一定范围内(一般为预测区域)、一段时间内的出租车数目作为景区在该时段的交通流量。景区的位置分布不同，其所在区域的交通流量也不同。景区交通流量数据可以视作随时间变化的信号，为了预测景区的交通流量，景区的空间位置也是需要考虑的重要信息。因此，将流量值和位置耦合成时空交通流量矩阵作为模型的输入。

具体的，所述景区的历史交通流量矩阵采用式5获得

其中，矩阵的行代表时间间隔，矩阵的列代表景区，矩阵中的元素表示该景区在该时间段内的流量值，x_mn表示第m时间间隔时第n个景区的交通流量值，m时间间隔的数量，n表示景区的数量。

具体的，在本实施例中，时间间隔为一小时。

具体的，所述图卷积网络(GCN)可以捕获每个景区与其他景区之间的区位接近度、交通通达度、流行相似度、功能相似性等多种空间相关性，以此来表征景区之间流量的相互影响。

具体的，本实施例中图卷积网络(GCN)为两层，第一层图卷积网络的输出作为第二层图卷积网络的输入，第二层图卷积网络的输出为提取到的4个不同的景区特征图的深度特征L^*、T^*、P^*和F^*。

具体的，所述的多特征融合矩阵通过式5获得

H^*＝λ₁×L^*+λ₂×T^*+λ₃×P^*+λ₄×F^* 式5

其中，L^*、T^*、P^*和F^*分别代表了景区流行度深度特征、景区所在区域功能相似性深度特征、景区距离深度特征和景区交通通达度深度特征，λ₁、λ₂、λ₃和λ₄为权重矩阵，其中元素的取值范围[0,1]，训练过程中不断自适应更新。

具体的，所述循环门控单元(GRU)用于历史交通流量数据中挖掘时间特征，GRU在每个迭代过程的输入当前时间间隔内的H^*，GRU的输出为当前时间间隔的交通流量预测值H_t，采用式5获得：

H^*＝λ₁×L^*+λ₂×T^*+λ₃×P^*+λ₄×F^* 式5

其中，u_t＝σ(W_u*H^*+W_u*H_t-1+b_u)，c_t＝tanh(W_c*(r_t*H_t-1)+W_c*H^*+b_c)，r_t＝σ(W_r*H^*+W_r*H_t-1+b_r)，u_t和r_t分别表示当前时间间隔的更新门和重置门，c_t表示当前时间间隔的单元状态，H_t-1表示上一个时间间隔t-1的输出，W_u、W_r和W_c表示参数的权重，b_u、b_r和b_c分别表示参数中偏置，符号*表示卷积操作，σ和tanh表示激活函数。

优选的，步骤3训练时的损失函数为：

其中，Y_t表示t时间段内的实际交通流量，

选择该损失函数的优势为：由于景区的交通流量受到多个因素的影响，本模型通过构建多个特征图的方式来表征这些因素，然而特征越多也越容易产生过拟合现象，因此在损失函数中加入正则化项来缓解该现象；此外，添加正则化项也可以使得损失函数更易收敛于一个相对稳定的值，减少了由于震荡而带来的不必要的迭代次数。

在模型的实际构造中，本发明通过网格搜索法来调整模型中GRU的相关参数，并在测试集上进行测试评估，以确定最优的相关参数。对GRU的层数在范围(1，2，3，4，5)中进行搜索，其结果如图4所示，确定本模型的GRU层数为3层。对于批量输入的历史交通流量时间长度，在(6，12，18，24，30，36)中进行搜索，其结果如图5所示，确定本模型的历史流量输入时长为24。对于模型中GRU的隐藏单元数目，在(16，32，64，100，128)范围内进行搜索，如图6所示，最终本模型选择效果最好的64个隐藏单元。

在本实施例中还公开了一种基于多图卷积网络的景区交通量预测方法，包括如下步骤：

实施例1

本实施例中对西安市四个著名旅游景区进行交通流量预测，包括西安美术馆、大雁塔、大慈恩寺和大唐芙蓉园，实施例中景区评论数据为使用从美团点评获的四个著名旅游景区评论数据，景区POI数据为从百度地图开放平台爬取到的四个著名旅游景区预测范围内的POI数据，景区的地理坐标为从百度地图开放平台获取四个著名旅游景区地理坐标数据，道路网络数据为从OpenStreetMap获取的西安市城市道路网络数据。本实施例中景区的车流量数据来自于西安市交通局提供的西安市出租车GPS轨迹数据集，其GPS点的采样间隔在2S到120S之间。

与其他的交通流量预测模型相比，本方案提出的多图卷积循环神经网络模型在景区交通流量预测问题上具有更高的预测精度。如表1所示，在预测时长为1小时时，多图卷积循环神经网络的准确率比基线方法ARMIA、SVR、GRU、DCRNN、T-GCN分别提高了35.81％、9.12％、1.57％、0.71％和1.73％。这是由于本模型使用了4张不同的特征图，考虑了丰富的领域知识，在区位特征和景区之间连通性的基础上进一步考虑了区域之间的功能相似性、景区之间的流行度相似性，捕获了影响流量变化的重要特征。多图卷积循环神经网络模型有更强的鲁棒性。如图7所示，无论预测时长如何变化，多图卷积循环神经网络模型均能通过训练获得最佳的预测性能，预测结果的变化趋势较为稳定，说明本模型对预测时长相对不敏感。因此，本方案提出的多图卷积循环神经网络不仅可以用于短期交通流量预测，而且更适用于长期交通流量预测。多图卷积循环神经网络模型在训练模型的时间代价上也有很大优势。如图8所示，与需要迭代5000次方能收敛的T-GCN模型相比，多图卷积循环神经网络模型融入了多张特征图，仅需迭代500次就能取得不错的结果，训练模型的时间成本大大降低。

表1不同预测时长下不同方法的交通流量预测性能指标

为了进一步分析空间相关性建模的效果，本方案通过消融实验评估多图卷积循环神经网络中单个特征图的影响，包括景区区位图、景区交通通达性图、景区流行度相似图，景区所在区域功能相似性图。如图9所示，相较于不使用特征图，每种特征图均对交通流量预任务有一定贡献。这些特征图中，景区交通通达度特征图对流量预测的贡献最为明显，景区功能相似性图对交通留两个预测任务的贡献相对较小，从而验证了多图卷积循环神经网络中引入多种特征图的重要创新意义。

Claims

1.一种基于多图卷积网络的景区交通量预测模型建立方法，其特征在于，包括如下步骤：

所述多图卷积循环神经网络模型包括图卷积网络和循环门控单元，所述图卷积网络用于根据历史交通流量矩阵、景区流行度特征图、景区功能相似性特征图、景区距离特征图和景区交通通达度特征图输出景区特征图的深度特征并根据景区特征图的深度特征建立多特征融合矩阵，所述循环门控单元用于根据多特征融合矩阵输出景区预测交通流量；

所述景区流行度特征图的邻接矩阵P通过式1获得：

其中，V_i和V_j为景区集合中任意第i个和第j个景区，

和

分别为V_i和V_j的用户评论数，

为V_i和V_j的流行相似度，

的取值范围为[0,1]，i和j为正整数；

所述景区功能相似性特征图的邻接矩阵F通过式2获得：

其中，V_i和V_j为景区集合中任意第i个和第j个景区，

和

表示V_i的第k类POI数量，

表示V_j的第k类POI数量，

i、j、r和k均为正整数；

所述景区距离特征图的邻接矩阵L通过式3获得：

R为地球半径，

和

分别为V_i和V_j的经度，

和

分别为V_i和V_j的纬度，maxmin表示最大最小归一化，n表示景区的数量，i、j∈n，i、j和n均为正整数；

所述景区交通通达度特征图的邻接矩阵T通过式4获得：

其中，T_i,j表示任意第i个景区和第j个景区的交通通达度，convenienttransportation表示第i个景区和第j个景区在同一路段上；

所述景区的历史交通流量矩阵采用式5获得

其中，x_mn表示第m时间间隔时第n个景区的交通流量值，m表示时间间隔的数量，n表示景区的数量；

步骤3训练时的损失函数为：

其中，Y_t表示t时间段内的实际交通流量，

2.一种基于多图卷积网络的景区交通量预测方法，其特征在于，包括如下步骤：

步骤c：将目标景区的景区流行度特征图、目标景区的景区功能相似性特征图、目标景区的景区距离特征图和目标景区的景区交通通达度特征图和目标景区的历史交通流量矩阵输入景区交通量预测模型预测交通流量，所述的景区交通量预测模型采用如权利要求1所述的基于多图卷积网络的景区交通量预测模型建立方法获得，输出目标景区的预测交通流量；

所述景区多源异构数据包括景区评论数据、景区POI数据、景区的地理坐标和道路网络数据。