CN112417322B - 一种面向兴趣点名称文本的类型判别方法及系统 - Google Patents
一种面向兴趣点名称文本的类型判别方法及系统 Download PDFInfo
- Publication number
- CN112417322B CN112417322B CN202011454149.9A CN202011454149A CN112417322B CN 112417322 B CN112417322 B CN 112417322B CN 202011454149 A CN202011454149 A CN 202011454149A CN 112417322 B CN112417322 B CN 112417322B
- Authority
- CN
- China
- Prior art keywords
- text
- interest point
- result
- geographical
- name text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012850 discrimination method Methods 0.000 title claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims description 63
- 238000011176 pooling Methods 0.000 claims description 41
- 239000013598 vector Substances 0.000 claims description 35
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000009193 crawling Effects 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000000205 computational method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种面向地理兴趣点名称文本的类型判别方法及系统,涉及网络文本自然语言处理技术领域,该方法包括:获取地理兴趣点名称文本;根据所述地理兴趣点名称文本利用搜索引擎进行搜索,得到前N个网页文档;对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本;将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果。本发明提供的方法及系统能够解决现在智能地图中地理兴趣点信息上传时效性不够或者信息不准确的问题。
Description
技术领域
本发明涉及网络文本自然语言处理技术领域,特别是涉及一种面向地理兴趣点名称文本的类型判别方法及系统。
背景技术
当随着人工智能技术的广泛应用,智能化的出行引导服务已经和人们的日常生活紧密相关,这种服务能够为人们提供高效便携的帮助,如根据出行需求规划驾车行驶路线、引导用户前往特定的商业区域、分类展示不同类型的景观地点等。此类智能化服务的有效实施需要依赖地理兴趣点(Place Of Interest,POI,是地理信息系统中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相关的地理实体,如学校、银行、酒店、商场、医院、超市等)信息的准确性,如果兴趣点信息存在错误或缺失,将会造成路线规划出现偏差甚至是错误等问题,进而会导致智能化服务质量严重下降,影响人们的生活和出行。鉴于此,提高和保障地理兴趣点信息的时效性和准确性,对促进电子地图广泛应用、提高用户出行效率以及提升智能化引导服务水平有着重要作用。
发明内容
本发明的目的是提供一种面向地理兴趣点名称文本的类型判别方法及系统,以解决现在智能地图中地理兴趣点信息上传时效性不够或者信息不准确的问题。
为实现上述目的,本发明提供了如下方案:
一种面向地理兴趣点名称文本的类型判别方法,包括:
获取地理兴趣点名称文本;
根据所述地理兴趣点名称文本利用搜索引擎进行搜索,得到前N个网页文档;
对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本;
将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果。
可选的,所述根据所述地理兴趣点名称文本进行搜索引擎搜索,得到前N个网页文档,具体包括:
将所述地理兴趣点名称文本作为查询语句;
对所述查询语句进行编码,得到编码后的查询语句;
根据所述编码后的查询语句确定统一资源定位符;
根据所述统一资源定位符发送HTTP请求至搜索引擎得到检索结果;
对所述检索结果进行页面解析,得到与所述查询语句相关的前N个网页文档。
可选的,所述对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本,具体包括:
提取前N个所述网页文档的正文;
利用爬虫工具对所述网页文档的正文进行爬取,得到搜索引擎返回的网页文档集合;
将所述网页文档集合进行预处理得到候选段落集合;
利用SiteQ算法计算所述候选段落集合的每个段落和所述查询语句的段落相似度评分;
根据所述段落相似度评分对所述候选段落集合的段落进行排序,得到排序结果;
确定所述排序结果中的排序前m个的段落为地理兴趣点名称文本的扩展文本。
可选的,所述将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果,具体包括:
将所述扩展文本和所述地理兴趣点名称文本进行词向量训练,得到卷积神经网络的输入矩阵;
将所述输入矩阵进行滑动窗口操作,得到词汇重要程度集合;
利用Softmax函数对所述词汇重要程度集合进行归一化处理,到词语对文本的语义加权;
对所述语义加权进行求和,得到注意力矩阵;
将所述注意力矩阵进行卷积操作和池化操作,得到池化结果;
将所述池化结果和所述注意力矩阵输入全连接层,得到地理兴趣点类型的判别结果。
一种面向地理兴趣点名称文本的类型判别系统,包括:
获取模块,用于获取地理兴趣点名称文本;
网页文档确定模块,用于根据所述地理兴趣点名称文本利用搜索引擎进行搜索,得到前N个网页文档;
扩展文本确定模块,用于对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本;
判别结果确定模块,用于将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果。
可选的,所述网页文档确定模块,具体包括:
查询语句确定单元,用于将所述地理兴趣点名称文本作为查询语句;
编码单元,用于对所述查询语句进行编码,得到编码后的查询语句;
统一资源定位符确定单元,用于根据所述编码后的查询语句确定统一资源定位符;
检索检索确定单元,用于根据所述统一资源定位符发送HTTP请求至搜索引擎得到检索结果;
网页文档确定单元,用于对所述检索结果进行页面解析,得到与所述查询语句相关的前N个网页文档。
可选的,所述扩展文本确定模块,具体包括:
提取单元,用于提取前N个所述网页文档的正文;
爬取单元,用于利用爬虫工具对所述网页文档的正文进行爬取,得到搜索引擎返回的网页文档集合;
预处理单元,用于将所述网页文档集合进行预处理得到候选段落集合;
评分计算单元,用于利用SiteQ算法计算所述候选段落集合的每个段落和所述查询语句的段落相似度评分;
排序单元,用于根据所述段落相似度评分对所述候选段落集合的段落进行排序,得到排序结果;
扩展文本确定单元,用于确定所述排序结果中的排序前m个的段落为地理兴趣点名称文本的扩展文本。
可选的,所述判别结果确定模块,具体包括:
输入矩阵确定单元,用于将所述扩展文本和所述地理兴趣点名称文本进行词向量训练,得到卷积神经网络的输入矩阵;
集合确定单元,用于将所述输入矩阵进行滑动窗口操作,得到词汇重要程度集合;
语义加权确定单元,用于利用Softmax函数对所述词汇重要程度集合进行归一化处理,到词语对文本的语义加权;
注意力矩阵确定单元,用于对所述语义加权进行求和,得到注意力矩阵;
池化结果确定单元,用于将所述注意力矩阵进行卷积操作和池化操作,得到池化结果;
判别结果确定单元,用于将所述池化结果和所述注意力矩阵输入全连接层,得到地理兴趣点类型的判别结果。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种面向地理兴趣点名称文本的类型判别方法及系统,通过根据地理兴趣点名称文本利用搜索引擎进行搜索,并确定地理兴趣点名称文本的扩展文本。再将扩展文本和地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果。这种方法应用于现代化智能地图中地理兴趣点信息实时更新的处理,为智慧城市的建设,在居家出行、智能地图查询、个性化推荐等位置服务应用提供技术资源。通过用户输入的地理兴趣点名称文本进行百度引擎搜索扩展和分类,得到具有实时性和全面性的地理兴趣点类型判别,便于用户上传及下载地理兴趣点信息,提高了智能化地图使用的准确性及效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明面向地理兴趣点名称文本的类型判别方法流程图;
图2为本发明面向地理兴趣点名称文本的类型判别方法流程示意图;
图3为本发明卷积神经网络注意力机制示意图;
图4为本发明卷积神经网络示意图;
图5为本发明卷积神经网络的卷积层内部结构示意图;
图6为本发明面向地理兴趣点名称文本的类型判别系统示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向地理兴趣点名称文本的类型判别方法及系统,以解决现在智能地图中地理兴趣点信息上传时效性不够或者信息不准确的问题。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的一种面向地理兴趣点名称文本的类型判别方法,包括:
步骤101:获取地理兴趣点名称文本。
步骤102:根据所述地理兴趣点名称文本利用搜索引擎进行搜索,得到前N个网页文档。
步骤102,具体包括:
将所述地理兴趣点名称文本作为查询语句。
对所述查询语句进行编码,得到编码后的查询语句。
根据所述编码后的查询语句确定统一资源定位符URL。
根据所述统一资源定位符发送HTTP请求至搜索引擎得到检索结果。
对所述检索结果进行页面解析,得到与所述查询语句相关的前N个网页文档。
步骤103:对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本。
步骤103,具体包括:
提取前N个所述网页文档的正文。
利用爬虫工具对所述网页文档的正文进行爬取,得到搜索引擎返回的网页文档集合。
将所述网页文档集合进行预处理得到候选段落集合。其中,预处理包括对文档集合中的每个文档进行段落级切分,并对切分后的段落进行分词、去停用词等操作形成候选段落集合。
利用SiteQ算法计算所述候选段落集合的每个段落和所述查询语句的段落相似度评分。其中,段落相似度评分是根据每个候选段落的相关度、语义关联评分以及段落长度评分确定的。
根据所述段落相似度评分对所述候选段落集合的段落进行排序,得到排序结果。
确定所述排序结果中的排序前m个的段落为地理兴趣点名称文本的扩展文本。
步骤104:将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果。其中,是以扩展文本和地理兴趣点名称文本为输入,以地理兴趣点类型的判别结果为输出,对卷积神经网络进行训练,得到训练好的卷积神经网络。
步骤104,具体包括:
将所述扩展文本和所述地理兴趣点名称文本进行词向量训练,得到卷积神经网络的输入矩阵。
将所述输入矩阵进行滑动窗口操作,得到词汇重要程度集合。
利用Softmax函数对所述词汇重要程度集合进行归一化处理,到词语对文本的语义加权。
对所述语义加权进行求和,得到注意力矩阵。
将所述注意力矩阵进行卷积操作和池化操作,得到池化结果。
将所述池化结果和所述注意力矩阵输入全连接层,得到地理兴趣点类型的判别结果。
将卷积神经网络中的输入层分为两个部分,分别接收来自数据集中的地理兴趣点名称文本以及地理兴趣点名称文本通过搜索引擎与SiteQ算法得到的扩展文本,将两部分同时通过训练好的卷积神经网络中生成输入矩阵。
引入注意力机制到卷积神经网络中,形成Attention-CNN分类算法,通过对扩展文本中词语进行注意力权值计算,筛选出更能代表类别信息的特征词,使得文本分类更加准确,通过卷积层和池化层对特征进一步进行提取。
将通过卷积层和池化层得到的一维矩阵,将一维矩阵输入到Softmax归一化分类器处,通过对地理兴趣点名称文本的分类,实现对特征所属类别的判断。
如图2所示,本发明还提供一种面向地理兴趣点名称文本的类型判别方法的具体工作方式,步骤如下:
步骤S101:获取用户输入的关键词。其中,关键词即为地理兴趣点名称文本。
步骤S102:根据用户输入的关键词生成包含关键词的互联网页面。
步骤S103:返回前N个网页。
步骤S104:提取出前N个网页的正文内容。
步骤S105:使用SiteQ算法对段落进行筛选。
步骤S106:将筛选结果和用户输入的关键词进行词向量训练形成两个二维矩阵作为卷积神经网络的输入层。
步骤S107:将二维矩阵进行滑动窗口操作,再通过softmax函数得到词语对于文本的语义加权,将其求和得到注意力矩阵。
步骤S108:将注意力矩阵进行卷积操作和池化操作,并将从池化层得到的一维特征矩阵进行拼接作为全连接层的输入。
步骤S109:通过sofxmax函数实现对地理兴趣点类型的判别。
其中,采用SiteQ算法,其过程包括:
Dn(q)=[]//初始化变量,输入的查询语句地理兴趣点名称文本q,通过搜索引擎检索得到返回文档集Dn(q);
Tn(d)=段落切分(Dn(q))//根据搜索引擎爬取的文档集Dn(q)中的文档d,进行段落切分,获得候选段落集Tn(d);
Score_total()//对段落P计算相关度;
Score_sem()//对段落P计算语义关联度评分;
Score_len()//对段落P计算段落长度评分;
Score=Score_sum()//计算候选段落集中每个段落与查询语句的段落相似度评分;
get_Score(Score,m)//根据计算结果对段落进行排序,选择排序靠前的m个段落作为地理兴趣点名称文本的扩展文本。
其中,步骤S107-步骤S108具体包括:
通过采用k覆盖范围的滑动窗口,当此滑动窗口进行特征提取时权值为非共享,并在窗口前后分别添加大小为(k-1)/2的随机特征向量,以实现特征中心词的特征提取避免因为文本长度的原因产生的首尾特征无法提取的情况。
卷积层得到输入层输出的词向量二维矩阵后,进行卷积操作,卷积操作分为原文本卷积部分和扩展文本卷积部分;卷积操作后得到的特征矩阵,根据地理兴趣点名称文本的特点,采取最大池化操作,通过保留一组样本最大值,提取最重要的特征。
注意力机制模型如图3所示,特征提取时权值为非共享,并在窗口前后分别添加大小为(k-1)/2的随机特征向量,以实现特征中心词的特征提取避免因为文本长度的原因产生的首尾特征无法提取的情况。通过计算滑动窗口内词汇高维特征信息,设计词汇重要程度评分函数(4-1):
式中gi表示窗口中心词权值;Xi:i+k-1表示在i到i+k-1区间内的输入词嵌入向量矩阵;为模型训练过程中注意力滑动窗口的词权重矩阵;batt表示偏置值;f表示模型在激活层选择的激活函数。在窗口特征提取后,基于词汇重要评分构建的词汇重要程度评分集合为(4-2):
{g1,g2,…,gn} (4-2)
面对词汇重要度得分数值分布稀疏的情况,采用softmax函数的归一化,将词汇重要度评分数值范围转化为[0,1]。经过softmax函数后词汇的重要程度集合表达方式为(4-3):
{α1,α2,…,αn} (4-3)
将重要程度得分作为注意力权重用于文本语义的加权:
αj作为注意力权重,不仅仅衡量上下文本中当前词对感情分类的语义贡献程度,还考虑前一个词和后一个词共现时对分类的影响。在通过词汇重要程度评价公式后,通过对其训练基于注意力的注意力矩阵DA,其中D表示文本字典集合。在模型输入时DA为基于注意力机制的局部特征提取部分的输入加权矩阵,用来实现模型对输入文本中词汇的重要程度的表达。
根据搜索引擎检索得到的网络信息在对原文本进行特征扩展并整合后仍存在较多噪音和干扰,文本对重要的词进行强化注意有利于快速提取句子的关键信息,引入注意力机制后有效的提高了模型分类的准确率。
如图4所示,卷积神经网络的输入层分为两部分,都以经词向量训练后的二维矩阵作为输入,在卷积层对文本所含特征进行提取,最大池化层的优势是对高影响力的特征进行保留,然后将通过池化层输出的两个特征矩阵进行一维拼接生成一条特征向量,最后将特征向量传入全连接层分类器得到模型预测结果。
卷积神经网络的输入层(Input layer)分为两个部分,分别接收来自数据集中的POI名称文本以及POI名称文本通过搜索引擎与SiteQ算法扩展后的扩展文本,POI名称文本数据长度不同,针对文本数据需要对其进行阈值设置,以实现构建。由于POI文本数据属于短文本,对低于阈值的POI名称文本进行随机字符填充,而对于长度超过阈值的POI名称文本进行阈值长度的截取并提出超出阈值的文本。由于计算机无法直接理解文本数据,因此在输入层需要输入计算机能够理解的数据类型实现格式化表达,是整个模型执行过程的第一环节。
在输入层进行输入向量构建时采用Word2vec方法。与传统的数据one-hot编码方式不同的是,基于one-hot编码方式构建的向量具有随机、离散特性,将向量映射在高维空间通过高维映射,在面对海量样本情况会出现维度灾难的问题。Word2vec,即word tovector,是一种将词汇从语言表达形式转化为向量表达形式的计算方法。其通过词向量训练把词汇转换为一个k维的词向量,并根据词向量之间的距离来对词语之间的语义相似程度进行判断。Word2vec包含两种模型结构,包括输入层、隐藏层和输出层。
使用词向量来表示每一个训练文本数据,设POI名称文本T为{t1,t2,…,tn},n表示POI名称文本T的字符数目,采用Skip-ram模型实现对POI名称文本词向量模型的预训练,基于预训练模型获得POI文本T的输入向量矩阵M∈Rn×d,表示为:
M=(m1,m2,...,mn),mi∈Rd (4-5)
对于扩展文本集WS={W1,W2,...,W10},进行词向量训练后得到矩阵集DS={D1,D2,...,D10},其中Dp∈Rm×d是任一扩展文本的词向量矩阵,q是扩展文本Dp的词数,表示为:
DP={dp1,dp2,...,dpn),dpj∈Rd (4-6)
在实际应用中利用词汇分割技术对输入的POI名称文本数据进行词汇分割,在中文自然语言处理领域以词汇进行输入的方式模型性能要优于直接将字符作为输入基础单元。
卷积层(Convolution layer)在模型中的作用是对特征的提取,特征提取能力强是深度学习在模型构建方面的优势。因此卷积层的设计对于模型整体性能的影响很大,卷积神经网络的卷积层如图5所示。
卷积层得到输入层输出的词向量二维矩阵后,进原文本卷积部分和扩展文本卷积部分,在原文本卷积部分中对短文本M进行卷积操作,具体计算公公式为(4-9)。
表示输入矩阵M经过卷积操作之后得到的结果,即M与卷积核进行点乘计算再加上偏置量b(i)的输出,其中W(i)表示卷积核,其行数为h,宽度为d,X(i):(i)+h-1为输入的第(i)个到第(i)+h-1个窗口内的词向量矩阵,b(i)为偏置数值,是一个常数,将进行特征提取后的卷积层输出通过经激活函数,由公式可得到M的第(i)个卷积核抽取的特征图:
由此M经卷积层输出的特征图为:
其中sizeM为M的卷积核数,对于扩展文本部分,经过注意力计算后得到文本Di的注意力矩阵Dai,作为局部特征提取部分的输入矩阵,得到扩展文本注意力矩阵集:
DA={Da1,Da2,…,Dan} (4-10)
对DA进行卷积操作,计算公式如(4-11)所示:
为计算后的结果,Wa(i)为卷积核,其行数为o,宽度为d,X(i):(i)+o-1为输入的第(i)个到第(i)+o-1个窗口中的文本向量矩阵,ba(i)表示偏置数值,在通过卷积操作后经ReLU激活函数输出,DA的第(i)个卷积核进行卷积计算公式如(4-12)所示:
由此DA经卷积层输出的特征图为:
其中sizeDA为DA的卷积核数。在卷积核设计方面针对POI短文本字符数数量特征,在进行卷积操作时设计了大小不同的几个卷积核,分别为3/4/5。
不同于卷积层对于特征信息的高度追求。池化层的主要目的是尽量将卷积层传递的特征进行有效保留并缩减内容以达到减少模型参数的目的。
公式(4-12)和公式(4-13)表示卷积操作后得到的特征矩阵,根据POI名称文本的特点,采取最大池化操作:通过保留一组样本最大值,提取最重要的特征,池化操作如下:
其中表示特征图,FM表示最大池化运算后的结果,表示特征图,DA表示最大池化运算后的结果,为卷积运算后的结果,为卷积运算后的结果。
在池化层采用最大池化策略为通过对输入卷积特征矩阵最大局部特征进行保留,即保留特征矩阵中。最大池化层输出的结果矩阵在表达输入POI名称文本的同时相较卷积特征图减少了特征参数。
将从最大池化层得到的一维特征矩阵和基于注意力计算得到的一维特征矩阵进行拼接作为全连接层的输入,拼接结果矩阵为一条一维特征向量。将XY表示为向量拼接结果,全连接层的神经网络计算公式为(4-16):
Z=f(W·XY+b) (4-16)
与其他神经网络公式表达内容相同,f为训练时的激活函数,W当前层的全职矩阵,b表示偏置数值,公式结果z表示输出结果,对目标文本属于某类属性的概率集合表示为[z1,z2,…,zk],z1表示当前POI属性类别的概率,k表示全部POI属性类别数目。最后通过softmax函数进行归一化将全连接层的结果表示为目标类别概率,集合表达方式为[p(z1),p(z2),…,p(zk)],其中p(z1)函数计算公式为(4-17):
全连接层设计策略为,将得到的一维矩阵输出到Softmax归一化分类器处,实现对特征所属类别的判断,实现POI名称文本分类模型的成功构建。采用词嵌入模型设计,并将词向量维度设置为300,即输入层d的向量维度,分析POI名称文本数据特征词存在的上下文语境信息关联,采用不同大小的卷积核以提取POI名称文本的多尺度局部特征,卷积核大小分别为3/4/5,针对扩展文本Dp的卷积层设计策略与基础POI名称文本卷积层策略相同。最大池化层的池化核大小设置为11/10/9三个尺度。通过将POI名称文本和扩展文本的池化结果进行拼接为一维向量XY,经过归一化计算实现POI属性类别的概率计算,最终输出概率最大的结果属性作为分类结果。
如图6所示,本发明提供的一种面向地理兴趣点名称文本的类型判别系统,包括:
获取模块201,用于获取地理兴趣点名称文本。
网页文档确定模块202,用于根据所述地理兴趣点名称文本利用搜索引擎进行搜索,得到前N个网页文档。
其中,所述网页文档确定模块202,具体包括:
查询语句确定单元,用于将所述地理兴趣点名称文本作为查询语句。
编码单元,用于对所述查询语句进行编码,得到编码后的查询语句。
统一资源定位符确定单元,用于根据所述编码后的查询语句确定统一资源定位符。
检索检索确定单元,用于根据所述统一资源定位符发送HTTP请求至搜索引擎得到检索结果。
网页文档确定单元,用于对所述检索结果进行页面解析,得到与所述查询语句相关的前N个网页文档。
扩展文本确定模块203,用于对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本。
其中,所述扩展文本确定模块203,具体包括:
提取单元,用于提取前N个所述网页文档的正文。
爬取单元,用于利用爬虫工具对所述网页文档的正文进行爬取,得到搜索引擎返回的网页文档集合。
预处理单元,用于将所述网页文档集合进行预处理得到候选段落集合。
评分计算单元,用于利用SiteQ算法计算所述候选段落集合的每个段落和所述查询语句的段落相似度评分。
排序单元,用于根据所述段落相似度评分对所述候选段落集合的段落进行排序,得到排序结果。
扩展文本确定单元,用于确定所述排序结果中的排序前m个的段落为地理兴趣点名称文本的扩展文本。
判别结果确定模块204,用于将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果。
其中,所述判别结果确定模块204,具体包括:
输入矩阵确定单元,用于将所述扩展文本和所述地理兴趣点名称文本进行词向量训练,得到卷积神经网络的输入矩阵。
集合确定单元,用于将所述输入矩阵进行滑动窗口操作,得到词汇重要程度集合。
语义加权确定单元,用于利用Softmax函数对所述词汇重要程度集合进行归一化处理,到词语对文本的语义加权。
注意力矩阵确定单元,用于对所述语义加权进行求和,得到注意力矩阵。
池化结果确定单元,用于将所述注意力矩阵进行卷积操作和池化操作,得到池化结果。
判别结果确定单元,用于将所述池化结果和所述注意力矩阵输入全连接层,得到地理兴趣点类型的判别结果。
本发明的一种面向地理兴趣点名称文本的类型判别方法,采用对地理兴趣点名称进行文本分类的方法实现对地理兴趣点类型的判别。将地理兴趣点名称文本作为查询语句,对查询语句进行编码,生成URL,发送HTTP请求,对搜索引擎返回检索结果进行页面解析,得到与查询语句相关的前N个网页文档,使用爬虫工具对前N个网页文档中的正文部分进行爬取,得到搜索引擎返回的文档集合,对文档集合中的每个文档进行段落级切分,对切分后的段落进行分词、去停用词等操作形成候选段落集合,使用SiteQ算法对段落集合中的每个段落计算其与查询语句的段落相似度评分,对段落集合中的段落进行筛选,选取评分符合阈值的段落作为扩展文本,将扩展文本和原文本放入卷积神经网络中,通过多尺度滑动窗口进行注意力机制计算,进行卷积操作、最大池化操作及随机失活策略进行特征过滤,softmax计算后得到地理兴趣点类型分类的结果。该方法应用于现代化智能地图中地理兴趣点信息实时更新的处理,为智慧城市的建设,在居家出行、智能地图查询、个性化推荐等位置服务应用提供技术资源。通过用户输入的关键词进行百度引擎搜索扩展和分类,得到具有实时性和全面性的地理兴趣点类型判别,便于用户上传及下载地理兴趣点信息,解决现有技术中智能地图中无法对地理兴趣点类型进行判别而影响智能化服务准确性的问题。表1为地理兴趣点类型表,具体地理兴趣点类型如表1所示。
表1地理兴趣点类型表(引自高德地图,部分)
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种面向地理兴趣点名称文本的类型判别方法,其特征在于,包括:
获取地理兴趣点名称文本;
根据所述地理兴趣点名称文本利用搜索引擎进行搜索,得到前N个网页文档;
对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本;所述对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本,具体包括:
提取前N个所述网页文档的正文;
利用爬虫工具对所述网页文档的正文进行爬取,得到搜索引擎返回的网页文档集合;
将所述网页文档集合进行预处理得到候选段落集合;
利用SiteQ算法计算所述候选段落集合的每个段落和查询语句的段落相似度评分;
根据所述段落相似度评分对所述候选段落集合的段落进行排序,得到排序结果;
确定所述排序结果中的排序前m个的段落为地理兴趣点名称文本的扩展文本;
将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果;
所述将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果,具体包括:
将所述扩展文本和所述地理兴趣点名称文本进行词向量训练,得到卷积神经网络的输入矩阵;
将所述输入矩阵进行滑动窗口操作,得到词汇重要程度集合;
利用Softmax函数对所述词汇重要程度集合进行归一化处理,到词语对文本的语义加权;
对所述语义加权进行求和,得到注意力矩阵;
将所述注意力矩阵进行卷积操作和池化操作,得到池化结果;
将所述池化结果和所述注意力矩阵输入全连接层,得到地理兴趣点类型的判别结果。
2.根据权利要求1所述的面向地理兴趣点名称文本的类型判别方法,其特征在于,所述根据所述地理兴趣点名称文本进行搜索引擎搜索,得到前N个网页文档,具体包括:
将所述地理兴趣点名称文本作为查询语句;
对所述查询语句进行编码,得到编码后的查询语句;
根据所述编码后的查询语句确定统一资源定位符;
根据所述统一资源定位符发送HTTP请求至搜索引擎得到检索结果;
对所述检索结果进行页面解析,得到与所述查询语句相关的前N个网页文档。
3.一种面向地理兴趣点名称文本的类型判别系统,其特征在于,包括:
获取模块,用于获取地理兴趣点名称文本;
网页文档确定模块,用于根据所述地理兴趣点名称文本利用搜索引擎进行搜索,得到前N个网页文档;
扩展文本确定模块,用于对所述前N个网页文档进行排序,确定地理兴趣点名称文本的扩展文本;所述扩展文本确定模块,具体包括:
提取单元,用于提取前N个所述网页文档的正文;
爬取单元,用于利用爬虫工具对所述网页文档的正文进行爬取,得到搜索引擎返回的网页文档集合;
预处理单元,用于将所述网页文档集合进行预处理得到候选段落集合;
评分计算单元,用于利用SiteQ算法计算所述候选段落集合的每个段落和查询语句的段落相似度评分;
排序单元,用于根据所述段落相似度评分对所述候选段落集合的段落进行排序,得到排序结果;
扩展文本确定单元,用于确定所述排序结果中的排序前m个的段落为地理兴趣点名称文本的扩展文本;
判别结果确定模块,用于将所述扩展文本和所述地理兴趣点名称文本输入训练好的卷积神经网络,得到地理兴趣点类型的判别结果;
所述判别结果确定模块,具体包括:
输入矩阵确定单元,用于将所述扩展文本和所述地理兴趣点名称文本进行词向量训练,得到卷积神经网络的输入矩阵;
集合确定单元,用于将所述输入矩阵进行滑动窗口操作,得到词汇重要程度集合;
语义加权确定单元,用于利用Softmax函数对所述词汇重要程度集合进行归一化处理,到词语对文本的语义加权;
注意力矩阵确定单元,用于对所述语义加权进行求和,得到注意力矩阵;
池化结果确定单元,用于将所述注意力矩阵进行卷积操作和池化操作,得到池化结果;
判别结果确定单元,用于将所述池化结果和所述注意力矩阵输入全连接层,得到地理兴趣点类型的判别结果。
4.根据权利要求3所述的面向地理兴趣点名称文本的类型判别系统,其特征在于,所述网页文档确定模块,具体包括:
查询语句确定单元,用于将所述地理兴趣点名称文本作为查询语句;
编码单元,用于对所述查询语句进行编码,得到编码后的查询语句;
统一资源定位符确定单元,用于根据所述编码后的查询语句确定统一资源定位符;
检索检索确定单元,用于根据所述统一资源定位符发送HTTP请求至搜索引擎得到检索结果;
网页文档确定单元,用于对所述检索结果进行页面解析,得到与所述查询语句相关的前N个网页文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011454149.9A CN112417322B (zh) | 2020-12-10 | 2020-12-10 | 一种面向兴趣点名称文本的类型判别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011454149.9A CN112417322B (zh) | 2020-12-10 | 2020-12-10 | 一种面向兴趣点名称文本的类型判别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112417322A CN112417322A (zh) | 2021-02-26 |
CN112417322B true CN112417322B (zh) | 2024-03-22 |
Family
ID=74776098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011454149.9A Active CN112417322B (zh) | 2020-12-10 | 2020-12-10 | 一种面向兴趣点名称文本的类型判别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417322B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7545448B2 (ja) | 2022-08-24 | 2024-09-04 | ソフトバンク株式会社 | 情報処理装置、プログラム、及び情報処理方法 |
CN118536476B (zh) * | 2024-07-25 | 2024-10-08 | 高德软件有限公司 | 兴趣点名称生成方法、模型训练方法、装置、设备及介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202312A (zh) * | 2016-07-01 | 2016-12-07 | 江苏省公用信息有限公司 | 一种用于移动互联网的兴趣点搜索方法和系统 |
CN107577819A (zh) * | 2017-09-30 | 2018-01-12 | 百度在线网络技术(北京)有限公司 | 一种文本内容展现方法、装置、计算机设备和存储介质 |
WO2018126385A1 (zh) * | 2017-01-05 | 2018-07-12 | 深圳市前海中康汇融信息技术有限公司 | 基于地理位置的数据库搜索方法 |
CN109145219A (zh) * | 2018-09-10 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 |
CN109344341A (zh) * | 2018-10-31 | 2019-02-15 | 长春理工大学 | 一种中文地理信息查询方法及系统 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
EP3637303A1 (en) * | 2018-10-09 | 2020-04-15 | Naver Corporation | Methods for generating a base of training images, for training a cnn and for detecting a poi change in a pair of inputted poi images using said cnn |
CN111061961A (zh) * | 2019-11-19 | 2020-04-24 | 江西财经大学 | 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统 |
CN111767359A (zh) * | 2020-06-30 | 2020-10-13 | 北京百度网讯科技有限公司 | 兴趣点分类方法、装置、设备以及存储介质 |
CN111984749A (zh) * | 2019-05-23 | 2020-11-24 | 北京搜狗科技发展有限公司 | 一种兴趣点排序方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110196602A1 (en) * | 2010-02-08 | 2011-08-11 | Navteq North America, Llc | Destination search in a navigation system using a spatial index structure |
EP2639749B1 (en) * | 2012-03-15 | 2016-11-16 | cortical.io GmbH | Methods, apparatus and products for semantic processing of text |
CN106933959A (zh) * | 2013-11-15 | 2017-07-07 | 北京奇虎科技有限公司 | 浏览器侧进行网络搜索的方法与浏览器 |
EP3607267A1 (en) * | 2017-06-02 | 2020-02-12 | Apple Inc. | Presenting related points of interest |
US10803253B2 (en) * | 2018-06-30 | 2020-10-13 | Wipro Limited | Method and device for extracting point of interest from natural language sentences |
-
2020
- 2020-12-10 CN CN202011454149.9A patent/CN112417322B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202312A (zh) * | 2016-07-01 | 2016-12-07 | 江苏省公用信息有限公司 | 一种用于移动互联网的兴趣点搜索方法和系统 |
WO2018126385A1 (zh) * | 2017-01-05 | 2018-07-12 | 深圳市前海中康汇融信息技术有限公司 | 基于地理位置的数据库搜索方法 |
CN107577819A (zh) * | 2017-09-30 | 2018-01-12 | 百度在线网络技术(北京)有限公司 | 一种文本内容展现方法、装置、计算机设备和存储介质 |
CN109145219A (zh) * | 2018-09-10 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 |
EP3637303A1 (en) * | 2018-10-09 | 2020-04-15 | Naver Corporation | Methods for generating a base of training images, for training a cnn and for detecting a poi change in a pair of inputted poi images using said cnn |
CN109344341A (zh) * | 2018-10-31 | 2019-02-15 | 长春理工大学 | 一种中文地理信息查询方法及系统 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN111984749A (zh) * | 2019-05-23 | 2020-11-24 | 北京搜狗科技发展有限公司 | 一种兴趣点排序方法和装置 |
CN111061961A (zh) * | 2019-11-19 | 2020-04-24 | 江西财经大学 | 一种融合多特征的矩阵分解兴趣点推荐方法及其实现系统 |
CN111767359A (zh) * | 2020-06-30 | 2020-10-13 | 北京百度网讯科技有限公司 | 兴趣点分类方法、装置、设备以及存储介质 |
Non-Patent Citations (9)
Title |
---|
Geographical Constraint andTemporal Similarity Modeling for Point-of-Interest Recommendation;WU H et al.;International Conference on Web Information Systems Engineering;20151231;第426-441页 * |
SiteQ_ Engineering High Performance QA system Using Lexico-Semantic Pattern Matching and Shallow NLP;Gary Geunbae Lee et al.;ResearchGate;第1-11页 * |
中国国防科学技术信息学会.《情报学进展》.国防工业出版社,2016,第11卷第148-149页. * |
关联首尾段落与首尾语句的多特征融合段落相似度计算;蒋宗礼等;计算机与现代化(第9期);第10-14, 20页 * |
化柏林.《文本信息分析与全文检索技术》.科学技术文献出版社,2008,第195-197页. * |
基于卷积神经网络和注意力模型的文本情感分析;冯兴杰等;《计算机应用研究》;第35卷(第5期);第1434-1436页 * |
基于结构和文本特征的网页分类技术研究;顾敏等;中国科学技术大学学报;20170430;第47卷(第4期);第290-296页 * |
天津滨海迅腾科技集团有限公司.《Python程序设计》.南开大学出版社,2018,第201-203页. * |
话题-位置-类别感知的兴趣点推荐;马理博等;计算机科学;20200915(第9期);第85-91页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112417322A (zh) | 2021-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111783419B (zh) | 地址相似度计算方法、装置、设备和存储介质 | |
CN111353030B (zh) | 基于旅游领域知识图谱的知识问答检索方法及装置 | |
CN108959270B (zh) | 一种基于深度学习的实体链接方法 | |
RU2393533C2 (ru) | Предложение родственных терминов для многосмыслового запроса | |
CN101620596B (zh) | 一种面向查询的多文档自动摘要方法 | |
CN111522910B (zh) | 一种基于文物知识图谱的智能语义检索方法 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
CN108804529A (zh) | 一种基于Web的问答系统实现方法 | |
CN103914478A (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN101404033A (zh) | 本体层级结构的自动生成方法及系统 | |
CN101751439A (zh) | 基于层次聚类的图像检索方法 | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN113449111B (zh) | 基于时空语义知识迁移的社会治理热点话题自动识别方法 | |
CN112417322B (zh) | 一种面向兴趣点名称文本的类型判别方法及系统 | |
CN106649823A (zh) | 基于综合主题词垂直搜索和聚焦爬虫的网页分类识别方法 | |
CN109918648B (zh) | 一种基于动态滑动窗口特征评分的谣言深度检测方法 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN114169447B (zh) | 基于自注意力卷积双向门控循环单元网络的事件检测方法 | |
CN117114105B (zh) | 基于科研大数据信息的目标对象推荐方法和系统 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN108897739B (zh) | 一种智能化的应用流量识别特征自动挖掘方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |