CN115577190A - 一种游客行为数据提取方法 - Google Patents
一种游客行为数据提取方法 Download PDFInfo
- Publication number
- CN115577190A CN115577190A CN202211270201.4A CN202211270201A CN115577190A CN 115577190 A CN115577190 A CN 115577190A CN 202211270201 A CN202211270201 A CN 202211270201A CN 115577190 A CN115577190 A CN 115577190A
- Authority
- CN
- China
- Prior art keywords
- travel
- time
- tourist
- check
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013075 data extraction Methods 0.000 title claims 2
- 238000004458 analytical method Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 230000004438 eyesight Effects 0.000 claims 1
- 238000007670 refining Methods 0.000 claims 1
- 230000001502 supplementing effect Effects 0.000 claims 1
- 230000006399 behavior Effects 0.000 description 23
- 238000013480 data collection Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 229920006395 saturated elastomer Polymers 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000013589 supplement Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000021152 breakfast Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于旅游数据处理技术领域,公开了一种游客行为数据提取方法。该方法包括:获取旅游景区签到数据,进行结构化处理,得到签到时空数据库;从旅游网站获取第一游记样本,对其中游记文本的时间信息和地点信息进行标记,得到标记旅游时空路径,基于标记方法,形成初步解析模块;获取第二游记样本,运行初步解析模块得到第二游记样本的解析旅游时空路径,基于解析旅游时空路径对初步解析模块进行完善,得到最终解析模块;将最终解析模块应用在预设时间窗口和预设目的地范围的游记样本中,得到游记时空数据库;基于所述签到时空数据库和所述游记时空数据库,得到可视化的游客时空行为路径图。为后续的旅游领域的专利分析提供结构化的数据。
Description
技术领域
本申请涉及旅游数据处理技术领域,尤其涉及一种游客行为数据提取方法。
背景技术
近年来随着经济的经济和交通的快速发展,国内游客的旅游意愿明显增加,旅游人数也在持续增加,旅游相关产业的收入也随之增加。同时随着互联网技术的发展,游客在旅游过程中在互联网上留下大量旅游相关数据,这些旅游相关数据可以被用来进行旅游营销策划、游客数量预测、路线规划、景点评价等分析研究,进一步给游客提供更好的旅游服务和开发更好的旅游产品。但现有技术获取的信息虽然信息来源较为广泛,数据收集集中在静态的旅游信息的提取,缺乏不同景点间的动态的旅游信息的结构化处理。
发明内容
为此,本申请的实施例提供了一种游客行为数据提取方法,实现了对动态的旅游信息的结构化提取和可视化处理。
第一方面,本申请提供一种游客行为数据提取方法。
本申请是通过以下技术方案得以实现的:
一种游客行为数据提取方法,所述方法包括:
获取旅游景区签到数据,并对所述旅游景区签到数据进行结构化处理,得到基于所述旅游景区签到数据的签到时空数据库;
从旅游网站获取第一游记样本,对所述第一游记样本中每一篇游记文本的时间信息和地点信息进行标记,得到标记旅游时空路径,基于所述标记旅游时空路径的标记方法,形成初步解析模块;
获取第二游记样本,运行所述初步解析模块得到所述第二游记样本的所有游记文本的解析旅游时空路径,基于解析旅游时空路径对所述初步解析模块进行完善,得到最终解析模块;
将所述最终解析模块应用在预设时间窗口和预设目的地范围的游记样本中,得到基于游记的游记时空数据库;
基于所述签到时空数据库和所述游记时空数据库构建游客流动行为数据库,基于所述游客流动行为数据库得到可视化的游客时空行为路径图。
在本申请一较佳的示例中可以进一步设置为,所述基于所述签到时空数据库和所述游记时空数据库构建游客流动行为数据库,基于所述游客流动行为数据库得到可视化的游客时空行为路径图的步骤之前,还包括:
收集旅游景区的点评数据,计算单个旅游景区在当地城市全部旅游景区的点评数据比例,基于点评数据比例获得所述旅游景区的基准旅游到访人数;
基于所述签到时空数据库得到第一旅游到访人数,基于所述游记时空数据库得到第二旅游到访人数,分别计算所述第一旅游到访人数和第二旅游到访人数与所述基准旅游到访人数的偏差比例。
在本申请一较佳的示例中可以进一步设置为,所述分别计算所述第一旅游到访人数和第二旅游到访人数与所述基准旅游到访人数的偏差比例之后还包括:
将所述偏差比例与预设偏差比例进行对比,若所述偏差比例超过预设偏差比例,则需进一步完善所述签到时空数据库和所述游记时空数据库;
若所述偏差比例在预设偏差比例内,则以所述签到时空数据库和所述游记时空数据库为基础,得到游客流动行为数据库。
在本申请一较佳的示例中可以进一步设置为,所述获取旅游景区签到数据,并对所述旅游景区签到数据进行结构化处理,得到基于所述旅游景区签到数据的签到时空数据库的步骤,包括:
根据目标区域内的景区名称,获取每一个景区的景区签到ID,得到景区、景区签到ID 以及景区编号的列表;
获取时间窗口内所述景区的所有景区签到ID对应的用户ID的签到数据,得到所述景区的初始用户数据库,所述初始用户数据库中包含用户ID、签到时间、签到地点以及签到内容;
获取所述初始用户数据库中的所有用户ID的个人信息,作为附表对所述初始用户数据库进行补充,得到旅游景区签到数据的签到时空数据库。
在本申请一较佳的示例中可以进一步设置为,获取每一个景区的景区签到ID名称的步骤还包括:
建立景区的主签到ID和若干从属签到ID,并将若干所述从属签到ID汇总到所述主签到 ID,将所述主签到ID作为每一个景区的景区签到ID。
在本申请一较佳的示例中可以进一步设置为,所述获取时间窗口内所述景区的所有景区签到ID对应的用户ID的签到数据的步骤还包括:
若同一用户ID对应多个不同的景区签到ID,则将所述用户ID与所述多个不同的景区签到ID进行关联;
若同一用户ID对应多个相同的景区签到ID,则将所述多个相同的景区签到ID进行去重处理。
在本申请一较佳的示例中可以进一步设置为,从旅游网站获取第一游记样本,对所述第一游记样本中每一篇游记文本的时间信息和地点信息进行标记,得到标记旅游时空路径,基于所述标记旅游时空路径的标记方法,形成初步解析模块的步骤,包括:
基于精确日期、精确时间、模糊时间以及相对时间来标记所述第一游记样本中每一篇游记文本的时间关键词,将所述时间关键词放置到时间词库中,并以精确日期和精确时间作为分割点将所述游记文本分割成文本段;
基于精确地点、模糊地点以及关联地点来识别所述文本段的地点关键词,并将所述地点关键词放置到地点词库中;
基于所述时间关键词和地点关键词的提取方法,构建初步解析模块。
在本申请一较佳的示例中可以进一步设置为,所述获取第二游记样本,依次运行所述初步解析模块得到所述第二游记样本的所有游记文本的解析旅游时空路径,基于解析旅游时空路径对所述初步解析模块进行完善,得到最终解析模块的步骤包括:
若所述第二游记样本中包含旅游照片,提取所述旅游照片中的时间信息以及经纬度信息,基于时间顺序对所述旅游照片进行排列,生成所述旅游照片的图像时空路径。
在本申请一较佳的示例中可以进一步设置为,所述基于解析旅游时空路径对所述初步解析模块进行完善,得到最终解析模块的步骤包括:
在所述第二游记样本中抽取部分游记文本进行标记得到标记旅游时空路径,并将所述初步解析模块得到的解析旅游时空路径与标记旅游时空路径进行对比,基于对比结果对所述初步解析模块进行完善,得到最终时间词库和最终解析模块。
在本申请一较佳的示例中可以进一步设置为,所述基于所述签到时空数据库和所述游记时空数据库,得到可视化的游客时空行为路径图的步骤包括:
基于所述签到时空数据库和所述游记时空数据库,通过ArcGIS软件工具形成单个或多个游客的路径图,并在所述路径图中加入时间轴和地图底图,形成可视化的游客时空行为路径图。
综上所述,与现有技术相比,本申请实施例提供的技术方案带来的有益效果至少包括:
获取旅游景区签到数据,进行结构化处理,得到签到时空数据库;对从旅游网站获取的游记文本的时间信息和地点信息进行标记,基于标记方法形成解析模块,进而利用解析模块对游记样本进行解析,获得游记时空数据库;基于签到时空数据库和游记时空数据库构成游客流动行为数据库,基于游客流动行为数据库进行空间分析及可视化。融合客观的时空地理信息的基础上,基于个体的在不同景点间的动态的旅游信息数据,将主观化的签到数据和游记数据内容的提取方法结构化,补充了其他数据收集方法中缺乏对个体主观信息的关注,实现了时空路径的精细化、具体化。
附图说明
图1为本申请一示例性实施例提供的游客行为数据提取方法的流程示意图;
图2为本申请一示例性实施例提供的建立签到时空数据库的流程示意图;
图3为本申请一示例性实施例提供的建立游记时空数据库的流程示意图。
具体实施方式
本具体实施例仅仅是对本申请的解释,其并不是对本申请的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本申请的权利要求范围内都受到专利法的保护。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
另外,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本申请中字符“/”,如无特殊说明,一般表示前后关联对象是一种“或”的关系。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
下面结合说明书附图对本申请实施例作进一步详细描述。
在本申请的一个实施例中,提供一种游客行为数据提取方法,如图1所示,主要步骤描述如下:
S10:获取旅游景区签到数据,并对所述旅游景区签到数据进行结构化处理,得到基于所述旅游景区签到数据的签到时空数据库。
具体的,以从微博上获取旅游景区签到数据为例进行说明。使用Python获取目标区域内的旅游景区签到数据,随后对旅游景区签到数据进行结构化处理,如图1所示,具体步骤为:
根据目标区域内的景区名称,在微博签到页面上依次对景区名称进行一一搜索,获取每一个景区名称对应的景区签到ID和景区编号,创建列表,将景区名称和景区签到ID、景区编号进行关联,作为列表的行元素,得到包含景区名称、景区签到ID以及景区编号的列表;
获取时间窗口内所有景区的所有景区签到ID对应的用户签到数据,包括与该景区签到 ID相关的用户ID、签到时间、签到地点以及签到内容,得到该景区的初始用户数据库。需要进行说明的是,以微博为代表的社交媒体数据,仅能进行实时的数据爬取,因此需要设定数据采集的时间窗口,通常按照数据分析的目的,可分为三种类型:年份单元,设定某一年的时间;月份单元,设定某一年中的某一月时间;节假日单元,设定某个法定节假日3-7天的时间。进一步获取初始用户数据库中所有用户ID对应的个人信息,包括用户性别、用户客源地、出生年月日以及毕业院校信息,将个人信息作为附表对初始用户数据库进行补充,得到基于旅游景区签到数据的签到时空数据库。
优选的,建立景区的主签到ID和若干从属签到ID,并将若干从属签到ID汇总到主签到 ID,将主签到ID作为每个景区的景区签到ID。
具体的,由于微博签到页对同一地点存在多个地名,或者某个景区包含多个小的景区,因此某些景区存在多个景区签到ID。可以建立景区的属于一级的主签到ID以及属于二级的从属签到ID,当若干从属签到ID属于同一个主签到ID,将其一起汇总到主签到ID中,将主签到ID作为每个景区的景区签到ID。
优选的,若同一用户ID对应多个不同的景区签到ID,则将该用户ID与多个不同的景区签到ID进行关联;若同一用户ID对应多个相同的景区签到ID,则将该多个相同的景区签到 ID进行去重处理。具体可以使用python遍历数据,将重复性数据进行过滤,去重处理可以避免将重复的数据保存到数据库中造成大量的冗余性数据。
因同一用户可能使用微博在目标区域内的多个景区进行签到,在初始用户数据库存在同一用户ID对应多个不同的景区签到ID,将同一用户ID的多个不同的景区签到ID进行关联。同时若同一用户ID对应多个相同的景区签到ID,对其中重复的景区签到ID进行去重,形成基于个体用户的在景区空间流动的行为轨迹,并以旅游时空数据表形式表现。旅游时空数据表依据用户ID作为行的划分,依次排布“时间点1、地点1、时间点2、地点2……”,详细列举每一个用户ID对应的旅游时空信息。
如表1所示,展示了签到时空数据库的一部分数据,其中包含“用户ID”、“用户客源地”、“时间点1”、“签到地点1”等信息。
表1
注:①需注意用户客源地不得完全包括签到地点,否则应当视为非游客群体而排除;②使用者需注意自行设定去重的时间限度,并注意类似表格中最后一行的游客前往度假区长时间停留的情况。
如图2所示,游记数据来自于权威攻略网站的文本内容及图片链接,包括但不限于以下攻略网站:马蜂窝网、携程网、去哪儿网、穷游网上的文本内容和图片连接。具体获取方式如下:
S20:使用Python自动提取不同类型的游记,从中随机抽取第一游记样本,对其中每一篇游记文本的时间信息和地点信息进行标记,得到该游记文本的标记旅游时空路径,总结该标记旅游时空路径中的时间信息和地点信息的标记方法,基于该标记方法,形成初始解析模块。
具体的,要将时间词库和地点词库里面的时间关键词和地点关键词对应每个用户ID按照时间顺序、地点变化进行串联。人工识别每一篇游记文本中的时间关键词,并按照“精确日期”、“精确时间”、“模糊时间”以及“相对时间”来对时间关键词进行标记,并分类放置到相应的时间词库中,并以其中的“精确日期”和“精确时间”作为分割点将游记文本分割成按照时间顺序排序的文本段。需要举例说明的是,“精确日期”的表示形式可以为九月六日、9/6、第2天和/或DAY2;“精确时间”的表示形式可以为十点半、14:30和/或下午四点;“模糊时间”的表示形式可以为上午、下午、傍晚、清晨、早饭、午餐和/或夜景;“相对时间”的表示形式可以为15分钟后、大概走了2小时和/或游玩了1.5小时左右。相对时间可以通过中值法计算出绝对时间。“精确日期”、“精确时间”、“模糊时间”以及“相对时间”的应用方式为:“精确日期”和“精确时间”作为分割点,“模糊时间”可根据上下午估算具体时间,相对时间需采取中值法计算出绝对时间。时间词库的使用方式为匹配、计算,最终目标为得到具体的一个时间点。
人工识别每一篇游记文本的文本段中的地点关键词,并按照“精确地点”、“模糊地点”以及“关联地点”来对游记文本中的地点关键词进行标记,并将地点关键词放置到地点词库中。地点词库的使用方式为关联、比较,最终目标为将每个地点统一到同一层级,并且与时间关键词进行对应。需要举例说明的是,“精确地点”的表现形式可以为中国香港(港)、福建(福建省、闽)、广州塔景区(小蛮腰)和/或黄果树瀑布(黄果树景区);“模糊地点”的表现形式可以为正门、终点和/或山顶;“关联地点”的表现形式可以为到了某地、前往某地、返回某地、游览了某地、登上了某地,绕到某地、住的是某地、从A地到B地。“精确地点”、“模糊地点”以及“关联地点”的应用方式为关联和比较,即在对应时间描述性语句群中,根据匹配的情况提取出在该时间下的位置,形成时空路径;模糊地点需通过上下文补充具体位置;若有多个位置,则需进一步分析是否需要补充时间或删除位置;若精确地点在上一文本段而当前文本段没有精确地点,可与上一段的精确地点信息合并。
基于时间关键词和地点关键词的提取方法,按照时间顺序书写,地点变化的逻辑来编写用于机器学习的初步解析模块。具体步骤为:
F1:设置预览区域,筛选具有时空信息的文本段;
F2:设置时间词库的文字查询输入框,自动识别所述具有时空信息的文本段中的时间关键词;
F3:设置时间词库的文字查询输入框的输出结果与任务模板中相匹配的查询输入接口链接,将识别的时间关键词对应到已划分好的时间词库中;
F4:设置输出转换接口与相应的转换程序链接,将录入的每一个用户ID对应的时间信息输出至预设表格中,按照日期到时间的匹配顺序输出,形成以时间为核心的描述性语句群;
F5:设置地点词库查询输入框,自动识别所述具有时空信息的文本段中地点关键词;
F6:设置地点词库文字查询输入框的输出结果与任务模板中相匹配的查询输入接口链接,将识别的地点关键词对应到已划分好的地点词库中;
F7:设置输出转换接口与相应的转换程序链接,将录入的每一个用户ID对应不同时间的地点信息输出至所述预设表格中,形成时空路径。
S30:获取第二游记样本,运行上述初步解析模块得到第二游记样本的所有游记文本的解析旅游时空路径,基于解析旅游时空路径对初步解析模块进行完善,得到最终解析模块。
具体的,运行循环滚动方式运行上述初步解析模块,并得到初步解析模块形成的解析旅游时空路径。
优选的,其中若第二游记样本的游记文本中包含旅游照片,解译旅游照片中的时间信息和经纬度信息,基于时间顺序将旅游照片进行排列,生成上述旅游照片的图像时空路径。
进一步的,在第二游记样本抽取部分游记文本,对上述游记文本进行时间关键词和地点关键词标记,得到标记旅游时空路径,将该游记文本的标记旅游时空路径和由初步解析模块形成的解析旅游时空路径进行对比,基于对比结果中的差异点,计算两者的一致率,对初步解析模块进行完善。
判断一致率是否达到预设阈值,若一致率未达到预设阈值,继续对初步解析模块进行完善;当一致率达到预设阈值,则固定解析模块,得到最终解析模块。
S40:利用最终解析模块应用在预设时间窗口和预设目的地范围的游记样本的游记文本中的解析旅游时空路径,基于上述解析旅游时空路径,构建基于游记的游记时空数据库。
优选的,收集旅游景区的点评数据,计算单个旅游景区在当地城市全部旅游景区的点评数据比例,基于点评数据比例获得旅游景区的旅游到访人数;
统计签到时空数据库和游记时空数据库的旅游到访人数,并计算与基于点评数据的旅游到访人数的偏差比例。
具体的,查找旅游数据官方网站发布的《统计年鉴》或旅游统计数据,从中获得时间窗口内目标城市的的旅游接待人数;在权威旅行网站收集游客对旅游景区的点评数据,得到每个旅游景区在当地城市全部旅游景区的点评数据比例;将每个旅游景区的点评数据比例与该城市的旅游接待人数相乘,得到单个旅游景区的旅游到访人数。
将同一时间窗口、相同区域范围的签到时空数据库和游记时空数据库中的数据进行汇总,得到基于签到时空数据库和游记时空数据库的旅游到访人数,并与上述通过点评数据得到的旅游到访人数进行对比,计算偏差比例。
设定通过点评数据得到的旅游到访人数为x1,通过签到时空数据库得到的旅游到访人数为x2,两者偏差比例为若偏差比例y1小于或等于10%,则证明签到时空数据库的数据源达到饱和,若偏差比例y1大于10%,则证明签到时空数据库的数据源未饱和,需要增加签到时空数据库采集的数量,直到偏差比例y2小于或等于10%。
设定通过游记时空数据库得到的旅游到访人数为x3,则与通过点评数据得到的旅游到访人数为x1之间的偏差比例为若偏差比例y2小于或等于10%,则证明游记时空数据库的数据源达到饱和,若偏差比例y2大于10%,则证明游记时空数据库的数据源未达到饱和,需增加游记时空数据库的数据源数量,直到偏差比例y2小于或等于10%。生成可视化分析之前,对数据库进行饱和性和准确性评估,确定个体数据的可靠性。
同时还可以通过对比标记旅游时空路径和初步解析模块形成的解析旅游时空路径中的时间偏差和地点偏差来判断两者的一致性。
通过数据饱和与准确性评估后,可得到指定时间窗口、指定区域范围的游客时空行为结构化数据库,该数据库包含用户ID、到访时间、到访景区地点、游览顺序等。
S50:基于签到时空数据库和游记时空数据库构建游客流动行为数据库,基于游客流动行为数据库得到可视化的游客时空行为路径图。
具体的,采用签到时空数据库和游记时空数据库作为基础,通过ArcGIS软件中“tracking analyst tools”下的“track intervals into lines”工具实现点连成线,形成单个或多个游客的路径图;
配套显示时间轴、地图底图,最终形成可视化的游客时空行为路径图以便后续的专业化分析。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM) 等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将本申请所述系统的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
Claims (10)
1.一种游客行为数据提取方法,其特征在于,所述方法包括:
获取旅游景区签到数据,并对所述旅游景区签到数据进行结构化处理,得到基于所述旅游景区签到数据的签到时空数据库;
从旅游网站获取第一游记样本,对所述第一游记样本中每一篇游记文本的时间信息和地点信息进行标记,得到标记旅游时空路径,基于所述标记旅游时空路径的标记方法,形成初步解析模块;
获取第二游记样本,运行所述初步解析模块得到所述第二游记样本的所有游记文本的解析旅游时空路径,基于解析旅游时空路径对所述初步解析模块进行完善,得到最终解析模块;
将所述最终解析模块应用在预设时间窗口和预设目的地范围的游记样本中,得到基于游记的游记时空数据库;
基于所述签到时空数据库和所述游记时空数据库构建游客流动行为数据库,基于所述游客流动行为数据库得到可视化的游客时空行为路径图。
2.根据权利要求1所述的游客行为数据提取方法,其特征在于,所述基于所述签到时空数据库和所述游记时空数据库构建游客流动行为数据库,基于所述游客流动行为数据库得到可视化的游客时空行为路径图的步骤之前,还包括:
收集旅游景区的点评数据,计算单个旅游景区在当地城市全部旅游景区的点评数据比例,基于点评数据比例获得所述旅游景区的基准旅游到访人数;
基于所述签到时空数据库得到第一旅游到访人数,基于所述游记时空数据库得到第二旅游到访人数,分别计算所述第一旅游到访人数和第二旅游到访人数与所述基准旅游到访人数的偏差比例。
3.根据权利要求2所述的游客行为数据提取方法,其特征在于,所述分别计算所述第一旅游到访人数和第二旅游到访人数与所述基准旅游到访人数的偏差比例之后还包括:
将所述偏差比例与预设偏差比例进行对比,若所述偏差比例超过预设偏差比例,则需进一步完善所述签到时空数据库和所述游记时空数据库;
若所述偏差比例在预设偏差比例内,则以所述签到时空数据库和所述游记时空数据库为基础,得到游客流动行为数据库。
4.根据权利要求1所述的游客行为数据提取方法,其特征在于,所述获取旅游景区签到数据,并对所述旅游景区签到数据进行结构化处理,得到基于所述旅游景区签到数据的签到时空数据库的步骤,包括:
根据目标区域内的景区名称,获取每一个景区名称的景区签到ID,得到景区名称、景区签到ID以及景区编号的列表;
获取时间窗口内所述景区的所有景区签到ID对应的用户ID的签到数据,得到所述景区的初始用户数据库,所述初始用户数据库中包含用户ID、签到时间、签到地点以及签到内容;
获取所述初始用户数据库中的所有用户ID的个人信息,作为附表对所述初始用户数据库进行补充,得到旅游景区签到数据的签到时空数据库。
5.根据权利要求4所述的游客行为数据提取方法,其特征在于,获取每一个景区名称的景区签到ID的步骤还包括:
建立景区的主签到ID和若干从属签到ID,并将若干所述从属签到ID汇总到所述主签到ID,将所述主签到ID作为每一个景区的景区签到ID。
6.根据权利要求4或5所述的游客行为数据提取方法,其特征在于,所述获取时间窗口内所述景区的所有景区签到ID对应的用户ID的签到数据的步骤还包括:
若同一用户ID对应多个不同的景区签到ID,则将所述用户ID与所述多个不同的景区签到ID进行关联;
若同一用户ID对应多个相同的景区签到ID,则将所述多个相同的景区签到ID进行去重处理。
7.根据权利要求1所述的游客行为数据提取方法,其特征在于,从旅游网站获取第一游记样本,对所述第一游记样本中每一篇游记文本的时间信息和地点信息进行标记,得到标记旅游时空路径,基于所述标记旅游时空路径的标记方法,形成初步解析模块的步骤,包括:
基于精确日期、精确时间、模糊时间以及相对时间来标记所述第一游记样本中每一篇游记文本的时间关键词,将所述时间关键词放置到时间词库中,并以精确日期和精确时间作为分割点将所述游记文本分割成文本段;
基于精确地点、模糊地点以及关联地点来识别所述文本段的地点关键词,并将所述地点关键词放置到地点词库中;
基于所述时间关键词和地点关键词的提取方法,构建初步解析模块。
8.根据权利要求1所述的游客行为数据提取方法,其特征在于,所述获取第二游记样本,依次运行所述初步解析模块得到所述第二游记样本的所有游记文本的解析旅游时空路径,基于解析旅游时空路径对所述初步解析模块进行完善,得到最终解析模块的步骤包括:
若所述第二游记样本中包含旅游照片,提取所述旅游照片中的时间信息以及经纬度信息,基于时间顺序对所述旅游照片进行排列,生成所述旅游照片的图像时空路径。
9.根据权利要求1所述的游客行为数据提取方法,其特征在于,所述基于解析旅游时空路径对所述初步解析模块进行完善,得到最终解析模块的步骤包括:
在所述第二游记样本中抽取部分游记文本进行标记得到标记旅游时空路径,并将所述初步解析模块得到的解析旅游时空路径与标记旅游时空路径进行对比,基于对比结果对所述初步解析模块进行完善,得到最终解析模块。
10.根据权利要求1所述的游客行为数据提取方法,其特征在于,所述基于所述游客流动行为数据库得到可视化的游客时空行为路径图的步骤包括:
基于所述游客流动行为数据库,通过ArcGIS软件工具形成单个或多个游客的路径图,并在所述路径图中加入时间轴和地图底图,形成可视化的游客时空行为路径图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211270201.4A CN115577190B (zh) | 2022-10-18 | 2022-10-18 | 一种游客行为数据提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211270201.4A CN115577190B (zh) | 2022-10-18 | 2022-10-18 | 一种游客行为数据提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115577190A true CN115577190A (zh) | 2023-01-06 |
CN115577190B CN115577190B (zh) | 2023-05-30 |
Family
ID=84585619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211270201.4A Active CN115577190B (zh) | 2022-10-18 | 2022-10-18 | 一种游客行为数据提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115577190B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821692A (zh) * | 2023-08-28 | 2023-09-29 | 北京化工大学 | 描述文本和空间场景样本集的构建方法、装置及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241903A (ja) * | 2006-03-10 | 2007-09-20 | Nagasaki Prefecture | 観光客の動態記録方法 |
US20120084000A1 (en) * | 2010-10-01 | 2012-04-05 | Microsoft Corporation | Travel Route Planning Using Geo-Tagged Photographs |
CN105550951A (zh) * | 2015-12-30 | 2016-05-04 | 南京邮电大学 | 一种旅游出行辅助决策系统和方法 |
WO2016132189A1 (en) * | 2015-02-21 | 2016-08-25 | Malekzadeh Mohammadsharif | Method for tourism management and quality control |
CN106021618A (zh) * | 2016-07-13 | 2016-10-12 | 桂林电子科技大学 | 一种景区游览信息查询和管理系统及方法 |
CN109086919A (zh) * | 2018-07-17 | 2018-12-25 | 新华三云计算技术有限公司 | 一种景点路线规划方法、装置、系统及电子设备 |
JP2019023851A (ja) * | 2017-07-21 | 2019-02-14 | 株式会社エヌ・ティ・ティ・アド | データ分析システム及び分析方法。 |
CN110544115A (zh) * | 2019-08-16 | 2019-12-06 | 北京慧辰资道资讯股份有限公司 | 一种从景区旅游大数据分析游客特性的方法和装置 |
CN113609842A (zh) * | 2021-08-17 | 2021-11-05 | 四川轻化工大学 | 一种获取景区评论数据、旅行体验评价的方法 |
CN113742481A (zh) * | 2021-07-14 | 2021-12-03 | 安徽师范大学 | 基于社交媒体大数据的旅游流情感时空变化特征研究方法 |
CN115330221A (zh) * | 2022-08-18 | 2022-11-11 | 湖州师范学院 | 一种乡村旅游信息数据化分析反馈系统和方法 |
-
2022
- 2022-10-18 CN CN202211270201.4A patent/CN115577190B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007241903A (ja) * | 2006-03-10 | 2007-09-20 | Nagasaki Prefecture | 観光客の動態記録方法 |
US20120084000A1 (en) * | 2010-10-01 | 2012-04-05 | Microsoft Corporation | Travel Route Planning Using Geo-Tagged Photographs |
WO2016132189A1 (en) * | 2015-02-21 | 2016-08-25 | Malekzadeh Mohammadsharif | Method for tourism management and quality control |
CN105550951A (zh) * | 2015-12-30 | 2016-05-04 | 南京邮电大学 | 一种旅游出行辅助决策系统和方法 |
CN106021618A (zh) * | 2016-07-13 | 2016-10-12 | 桂林电子科技大学 | 一种景区游览信息查询和管理系统及方法 |
JP2019023851A (ja) * | 2017-07-21 | 2019-02-14 | 株式会社エヌ・ティ・ティ・アド | データ分析システム及び分析方法。 |
CN109086919A (zh) * | 2018-07-17 | 2018-12-25 | 新华三云计算技术有限公司 | 一种景点路线规划方法、装置、系统及电子设备 |
CN110544115A (zh) * | 2019-08-16 | 2019-12-06 | 北京慧辰资道资讯股份有限公司 | 一种从景区旅游大数据分析游客特性的方法和装置 |
CN113742481A (zh) * | 2021-07-14 | 2021-12-03 | 安徽师范大学 | 基于社交媒体大数据的旅游流情感时空变化特征研究方法 |
CN113609842A (zh) * | 2021-08-17 | 2021-11-05 | 四川轻化工大学 | 一种获取景区评论数据、旅行体验评价的方法 |
CN115330221A (zh) * | 2022-08-18 | 2022-11-11 | 湖州师范学院 | 一种乡村旅游信息数据化分析反馈系统和方法 |
Non-Patent Citations (2)
Title |
---|
邵隽;常雪松;赵雅敏;: "基于游记大数据的华山景区游客行为模式研究", 中国园林 * |
陈子微;姚建盛;: "基于旅游数字足迹的游客时空行为研究――以南京市玄武区为例" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821692A (zh) * | 2023-08-28 | 2023-09-29 | 北京化工大学 | 描述文本和空间场景样本集的构建方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115577190B (zh) | 2023-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Using social media images as data in social science research | |
Smetanin | The applications of sentiment analysis for Russian language texts: Current challenges and future perspectives | |
Önder | Forecasting tourism demand with Google trends: Accuracy comparison of countries versus cities | |
Studer et al. | Estimating the relationship between time-varying covariates and trajectories: The sequence analysis multistate model procedure | |
Costanza et al. | Influential publications in ecological economics revisited | |
CN110059177B (zh) | 一种基于用户画像的活动推荐方法及装置 | |
Lemmerich et al. | Mining subgroups with exceptional transition behavior | |
Liu et al. | Mining urban perceptions from social media data | |
Camacho et al. | Sentiment mapping: point pattern analysis of sentiment classified Twitter data | |
CN110309432B (zh) | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 | |
Stephany et al. | An exploration of wikipedia data as a measure of regional knowledge distribution | |
Garg et al. | Impact of social media sentiments in stock market predictions: A bibliometric analysis | |
Rahal et al. | The rating dilemma of academic management journals: Attuning the perceptions of peer rating | |
CN115577190B (zh) | 一种游客行为数据提取方法 | |
Bizzoni et al. | Predicting Literary Quality How Perspectivist Should We Be? | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
Schürer et al. | Standardising and coding birthplace strings and occupational titles in the British censuses of 1851 to 1911 | |
CN103823868A (zh) | 一种面向在线百科的事件识别方法和事件关系抽取方法 | |
Cai et al. | Discovering common semantic trajectories from geo-tagged social media | |
Gregory et al. | Modeling space in historical texts | |
US20180341980A1 (en) | Automated classification of network-accessible content based on events | |
CN111753538B (zh) | 离婚纠纷裁判文书要素提取方法及装置 | |
Sergeeva et al. | SemAGR: semantic method for accurate geolocations reconstruction within extensive urban sites | |
CN115952216A (zh) | 一种养老保险数据挖掘方法、装置、存储介质及电子设备 | |
CN107944735A (zh) | 一种基于古诗词的旅游景区品牌价值分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |