CN102253972B

CN102253972B - 基于网络爬虫的地名数据库维护方法

Info

Publication number: CN102253972B
Application number: CN 201110158956
Authority: CN
Inventors: 张雪英; 张春菊; 杜超利; 朱少楠
Original assignee: Nanjing Normal University
Current assignee: Nanjing Normal University
Priority date: 2011-06-14
Filing date: 2011-06-14
Publication date: 2013-05-22
Anticipated expiration: 2031-06-14
Also published as: CN102253972A

Abstract

本发明公开了一种基于网络爬虫的地名数据库维护方法，主要包括两个部分：基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析。具体步骤分为：基于Google搜索引擎服务的空间敏感网页获取；基于空间主题相关度的空间敏感网页过滤；基于DOM技术的网页解析；基于CRF模型的网页文本中地名识别；采用地名数据库匹配的方式，从网页文本中获取新地名；地名的空间位置信息解析。本发明的方法能有效解决当前地名数据库建设中非标准地名和小颗粒度地名缺乏、地名时效性较低和相对位置信息缺失、地名数据库更新维护周期长、成本高、效率低下等问题，可广泛应用于数字城市建设、空间位置服务、空间信息检索、自然语言处理等领域。

Description

基于网络爬虫的地名数据库维护方法

技术领域

本发明涉及一种利用网络爬虫技术进行地名数据库维护的方法。

背景技术

地名是人们赋予宇宙中特定地理实体的代号，是区别某一特定地理实体与其他地理实体的一种标志。地名作为最常用的社会公共信息之一，是地理空间信息的重要组成部分，是测绘数字产品不可缺少的信息，也是寻常百姓最易接受的定位方式。地名数据库一般描述地名名称、地名的要素类型和空间位置三个基本特征及其他附属信息，利用现代数据库技术采用数字、文字、图像、声音等多媒体形式对地名相关信息进行存贮、组织和管理，具有容量大、更新便捷、服务灵活多样等优点。地名数据库是地名公共服务的基础，为国家行政管理、经济建设、国内外交往等提供不可或缺的基础信息资源。特别是，随着社会信息化的发展，以地名信息为基础的基于位置服务(Location-Based-Service，LBS)的需求日益增长，并在日常生活中潜移默化地改变着人们的生活。例如，寻找餐馆、旅店、娱乐中心、购物中心等常规的寻址问路，以及弘扬地名文化、旅游文化、畅享虚拟城市游戏、共享网络社区交流等多元化的空间位置服务。建立信息完备、时效性强的地名数据库是实现LBS高效服务的前提和保障。

长期以来，欧美等国家地名命名比较规则，地名数据库内容较为规范，地名数据库的构建、更新维护较为容易。比较典型案例有亚历山大数字图书馆地名数据库(ADL)(http://www.alexandria.ucsb.edu/adl/.)、美国地名信息系统(GNIS)(http://nhd.usgs.gov/gnis.html)、澳大利亚地名数据库(GOA)(http://www.ga.gov.au/place-name/)等。这些地名数据库具备比较完善、实时的地名描述信息，提供免费共享服务，成功应用于国家的政治、外交、军事、经济和公众服务等各个领域。

我国地名数据库建设起步较晚，主要由民政部门和测绘单位承担。1979年至1986年期间，民政部门开展了第一次全国地名普查工作，2009年至2012年间的第二次全国地名普查试点工作正在启动。本次普查内容侧重于现代地名信息数据库的建设，信息采集内容主要包括试点区的地名及相关属性信息的清查、不规范地名的标准化、重要地理实体的地名标志设置等。2003年民政部颁发《关于建立地名数据库有关问题的通知》，全国各省市都加快了当地地名数据库建设的步伐，县级以上行政单位基本建立了本地地名数据库。自1994年以来，国家测绘局相继建成了全国1∶100万、1∶25万和1∶5万地名数据库(狄琳，欧阳宏斌.“全国1∶25万地名数据库的设计与建立”[J].《测绘通报》，2010年，第10期，32-33页；陈春华.“1∶5万地名数据库到1∶1万地名数据库转换的研究与开发”[J].《测绘通报》，2006年，第5期，71-72页)。该数据库将国家地形图上各类地名注记及其汉语拼音、属性要素等录入计算机，与地形数据库通过技术结构连接实现相互访问，或作为独立的关系型数据库运行。目前，各省、自治区、直辖市正在开展省级1∶1万地名数据库的建设(部分已完成)。

通常情况下，人们对位置信息描述时地名颗粒度较小、实时性较强，而且习惯使用地名的别称、简称、地名属性、相对位置关系等相关信息进行描述。尽管民政部门和测绘单位采用现代测绘技术手段建立了各级别的国家和地方地名数据库，并进行了地名数据库维护更新的相关工作(张保钢，杨伯钢，孔俊元，“北京市地名数据库的维护更新”[J]，《北京测绘》，2010年，第3期，28-30页)。但是地名数据库建设不能够满足社会需求，存在较多亟待解决的难题。主要包括以下几个方面：

(1)地名信息采集缺乏统一规范，信息描述非标准化；

(2)大、中颗粒度地名集中，小颗粒度地名和非标准地名信息较为缺乏；

(3)地名资料陈旧、时效性较低；

(4)地名的相对位置描述信息缺失；

(5)地名数据库更新维护主要采用人工测绘手段，周期长、成本高、效率低。因此，对地名数据库进行高效持续的更新维护具有十分迫切的需求。

随着网络资源的日益丰富以及网页资源的更新速度和参与者的日益增多，互联网已经成为能够与报纸、电视和广播齐名的四大传媒之一，而且在时效性上有着不言而喻的优势。据调查显示，人类社会80％以上的信息资源与地理空间相关。作为人类信息资源表达的载体，网页文档中蕴含着丰富的地理空间信息。因此，以网页资源为数据源，获取地名及其相关位置信息对地名数据库进行实时、快速的更新维护，可以有效解决当前地名数据库建设与社会需求之间的矛盾。

发明内容

本发明利用网络爬虫技术从非结构化的网页数据中主动获取海量空间敏感的网页文本，采用地名识别技术实现网页文本中地名信息的自动语义解析，能实现地名数据库的快速更新维护，克服了现有地名数据库建设规模有限，人工更新维护周期长、成本高、效率低的技术缺陷。

为了实现上述发明目的，本发明采用的技术方案为：

基于网络爬虫的地名数据库维护方法，主要包括两个部分：基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析，基本步骤如下：

步骤一：基于Google搜索引擎的空间敏感网页获取

首先，注册Google账户；然后，遍历现有地名数据库中的地名并将其作为种子地名，利用Google搜索引擎的主题搜索功能，以“地名”(如“北京”)或者“地名+空间关系词汇”(如“南京师范大学+东南”)为检索词获取相关网页，并将其作为候选空间敏感URL(统一资源定位符)，用户可定制候选URL页面的数量；

步骤二：空间敏感网页过滤

首先，分析候选URL页面，采用正则表达式剔除语法标记、纠正不合格语法及去掉重复的网页地址，采用中科院研究所研制的ICTCLASS软件对网页页面进行分词预处理；

然后，提取候选URL页面正文和标题的空间主题关键字，构建候选URL页面空间主题向量，计算待选URL页面与空间检索词的空间主题相关度，见公式：

Sim(D₁，D)＝Sim(D₂，D)*α+Sim(D₃，D)*β

式中，D₁为空间检索主题，D为待选URL页面，D₁和D₂分别为待选URL页面的正文和标题，Sim(D₁，D)为待选URL页面与空间检索词的空间主题相关度，Sim(D₂，D)和Sim(D₃，D)分别为待选URL页面的正文和标题与空间检索词的空间主题相关度，α、β分别为Sim(D₂，D)和Sim(D₃，D)的权值(α＜β)，其中Sim(D₂，D)、Sim(D₃，D)的计算公式为：

Sim (D_{2}, D) / Sim (D_{3}, D) = \frac{x_{1} {w_{1}}^{2} + x_{2} {w_{2}}^{2} + . . . . . . . . + x_{n} {w_{n}}^{2}}{\sqrt{{w_{1}}^{2} + {w_{2}}^{2} + . . . . . . + {w_{n}}^{2}} \sqrt{{x_{1}}^{2} {w_{1}}^{2} + {x_{2}}^{2} {w_{2}}^{2} + . . . . {x_{n}}^{2} {w_{n}}^{2}}}

式中，w₁，w₂，.....w_n(i＝1，2，...，n)为空间检索词的主题向量，n表示空间检索词的个数，w_i为每个检索词的权重；x₁w₁，x₂w₂，.....x_nw_n(i＝1，2，...，n)为待选URL页面空间主题向量，x_i为待选URL页面中各空间检索词的出现频率，x_iw_i表示该页面对应向量的每一维分量；

最后，根据待选URL页面与空间检索词的空间主题相关度过滤待选URL网页；

步骤三：网页解析

首先，对网页文本进行预处理，包括去除HTML标签、网页脚本等干扰信息以及网页文档的规范化；然后，利用DOM方法解析网页，形成一棵以HTML为根节点的结构明晰、层次好的DOM标记树；

步骤四：地名识别

选用条件随机场(CRF)地名识别模型识别DOM节点中的地名，并检验地名识别结果的有效性；

步骤五：新地名的获取

新地名是指现有地名数据库未收录的地名；基于步骤四的地名识别结果，采用地名数据库匹配的方式，从网页文本中获取新地名；

步骤六：地名空间位置信息获取

地名空间位置信息获取以第四步中地名识别为前提，获取地名的空间位置信息。

本发明的方法能有效解决当前地名数据库建设中非标准地名和小颗粒度地名缺乏、地名时效性较低和相对位置信息缺失、地名数据库更新维护周期长、成本高、效率低下的技术问题，可广泛应用于数字城市建设、空间位置服务、空间信息检索、自然语言处理等领域。

附图说明

图1为本发明基于网络爬虫的地名数据库维护方法的流程图。

图2为本发明实施例中空间敏感URL获取图。

图3为本发明实施例中空间敏感网页过滤图。

图4为本发明实施例中新地名获取图。

图5为本发明实施例中地名空间位置信息获取图。

具体实施例

下面结合附图和实施例对本发明作进一步详细描述。

以空间检索词“仙林宾馆+西北”为例。

(1)基于Google搜索引擎服务获取空间敏感网页

以“仙林宾馆+西北”为空间检索词，利用Google搜索引擎服务获取相关网页，并作为候选空间敏感网页，此处定制候选页面的数量为100，见图2。

(2)空间敏感网页的过滤

在候选URL页面纠错、标准化、分词等预处理的基础上，计算待选URL页面与空间检索词“仙林宾馆+西北”的空间主题相关度。各参数取值情况为：空间检索词的个数n＝2，地名检索词的权重w₁＝0.6，空间关系词汇的权重w₃＝0.4，待选URL页面正文和标题的空间主题相关度权重α＝0.4，β＝0.6，α、β可根据具体情况而进行调整。候选URL网页过滤后，其前50位URL见图3。

(3)新地名的获取

在候选空间敏感网页DOM解析的基础上，利用CRF模型识别DOM节点中的地名(见标签“/LOC”)，并进行地名有效性检验。基于地名识别结果，采用地名数据库匹配的方式，从网页文本中获取新地名，并存入地名数据库，见图4。从该50个空间敏感网页，共获取150个新地名。

(4)地名空间位置信息获取

基于第(3)步中的地名识别结果，根据权利要求2中“地名+地理坐标”和“地名+相对位置”的获取方法，获取地名空间位置信息(见图5)；其中，地名的相对位置信息获取，以句子为单位，获取具有相对位置关系的两个地名和最近匹配的空间关系词汇；空间关系词汇的获取通过空间关系词汇词典匹配实现，空间关系词汇词典示例见表1。

表1空间关系词汇词典示例

Claims

1.基于网络爬虫的地名数据库维护方法，主要包括两个部分：基于网络爬虫的空间敏感网页获取和网页文本中地名信息解析，基本步骤如下：

步骤一：基于Google搜索引擎的空间敏感网页获取

首先，注册Google账户；然后，遍历现有地名数据库中的地名并将其作为种子地名，利用Google搜索引擎的主题搜索功能，以“地名”或者“地名+空间关系词汇”为检索词获取相关网页，并将其作为候选空间敏感URL，用户可定制候选页面的数量；

步骤二：空间敏感网页过滤

首先，分析候选URL页面，采用正则表达式剔除语法标记、纠正不合格语法及去掉重复的网页地址，采用中科院研究所研制的ICTCLASS分词软件对网页文本进行分词预处理；

Sim（D₁,D）=Sim（D₂,D）*α+Sim（D₃,D）*β

式中，D₁为空间检索主题，D为待选URL页面，D₂和D₃分别为待选URL页面的正文和标题，Sim(D₁,D)为待选URL页面与空间检索词的空间主题相关度，Sim（D₂,D）和Sim（D₃,D）分别为待选URL页面的正文和标题与空间检索词的空间主题相关度，α、β分别为Sim（D₂,D）和Sim（D₃,D）的权值,且α<β，其中Sim（D₂,D）、Sim（D₃,D）的计算公式为：

Sim (D_{2}, D) / Sim (D_{3}, D) = \frac{x_{1} {w_{1}}^{2} + x_{2} {w_{2}}^{2} + . . . . . . . . + x_{n} {w_{n}}^{2}}{\sqrt{{w_{1}}^{2} + {w_{2}}^{2} + . . . . . . + {w_{n}}^{2}} \sqrt{{x_{1}}^{2} {w_{1}}^{2} + {x_{2}}^{2} {w_{2}}^{2} + . . . . {x_{n}}^{2} {w_{n}}^{2})}}

式中，w₁,w₂,.....w_n为空间检索词的主题向量，n表示空间检索词的个数，w_i为每个检索词的权重，i=1,2,…,n；x₁w₁,x₂w₂,.....x_nw_n为待选URL页面空间主题向量，x_i为待选URL页面中各空间检索词的出现频率，x_iw_i表示该页面对应向量的每一维分量；

步骤三：网页解析

首先，对网页文本进行预处理，包括去除HTML标签、网页脚本干扰信息以及网页文档的规范化；然后，利用DOM方法解析网页，形成一棵以HTML为根节点的结构明晰、层次好的DOM标记树；

步骤四：地名识别

采用条件随机场的地名识别模型识别DOM节点中的地名，并检验地名识别结果的有效性；

步骤五：新地名的获取

基于步骤四的地名识别结果，采用地名数据库匹配的方式，从网页文本中获取地名数据库未收录的地名；

步骤六：地名空间位置信息获取

基于第四步中的地名识别结果，获取地名的空间位置信息。

2.根据权利要求1所述的基于网络爬虫的地名数据库维护方法，其特征在于，所述第五步骤的具体计算过程如下：

网页文本中蕴含的地名空间位置信息包括两种形式：

第一种：地名+地理坐标

待选URL页面的DOM树解析中，如果当前网页中只出现一个地名和地理坐标对，直接将标签内的地名和地理坐标关联起来；如果当前网页中出现多个地名和地理坐标对，在提取地名和地理坐标时，需要将其对应关联起来；具体算法如下：

Step1：对于每一个叶子节点上的地理坐标，后序遍历直至找到第一个满足上述假定条件的地名；如果地名和地理坐标相关联，将这个地名-空间位置对存储在新建树的节点中，同时将所有未关联的节点传递至父节点，转到Step2；

Step2：内部节点中，从左向右接受孩子节点传递过来的所有未关联的节点，将这些节点有序插入到文本字符串中；同样，按照步骤Step1的方法将这些节点关联起来，将所有未关联的节点传递至父节点，转到Step3；

Step3：如果不是根节点，继续步骤Step2，否则停止遍历；

第二种：地名+相对位置

在HTML网页的DOM树解析中，以句子为单位，获取具有相对位置关系的两个地名和最近匹配的空间关系词汇；其中，空间关系词汇的获取通过空间关系词汇词典匹配实现。