CN107609185B - 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 - Google Patents
用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN107609185B CN107609185B CN201710922431.7A CN201710922431A CN107609185B CN 107609185 B CN107609185 B CN 107609185B CN 201710922431 A CN201710922431 A CN 201710922431A CN 107609185 B CN107609185 B CN 107609185B
- Authority
- CN
- China
- Prior art keywords
- samples
- poi
- training sample
- training
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明的实施方式涉及用于地图兴趣点POI的相似度计算的方法、装置、设备和计算机可读存储介质。所述方法包括:构建至少一条训练样本;对所构建的至少一条训练样本进行序列化处理,其中该序列化处理包括利用one‑hot编码用预设的one‑hot编码字典至少一条训练样本转换为序列;以及将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对LSTM神经网络模型进行训练。根据本发明的实施方式,利用LSTM的深度学习模型,构建了端到端的POI相似度计算模型,提升了POI相似度计算的准确性。
Description
技术领域
本发明涉及利用计算机进行数据处理的技术领域。具体而言,涉及用于地图兴趣点POI的相似度计算的方法、装置、服务器和计算机可读存储介质。
背景技术
POI(Point of interest,兴趣点)是地理信息系统中收集的地理信息表现形式,可以是一栋建筑物、一个商家、一个邮筒或者一个公交站等。每个POI的属性信息一般包括名称和地址。对于用于地理信息系统中的POI的获取,主要包括人工确认(包括实地探访和电话确认等)和通过互联网抓取两种方式。
然而,在现实世界中,每天都有成千上万的数据发生着各种各样的变化,有的店铺因经营不善而关闭停业,有的店铺又如雨后春笋般地涌现出来。因此,人工方式获取POI信息的更新方式,已经不能满足大规模地理信息数据生产的需要。互联网上的POI数据是各种各样的,其中充斥着大量的脏数据、错误数据以及重复数据。
为了保证POI数据的准确性和单一性,需要对人工方式获得的(更新的)、以及对从互联网上挖掘出的POI数据进行进一步的处理。最常见的一项处理是分别计算POI数据的POI名称和POI地址的相似度,再根据相似度进行去重。
现有技术中,常见的处理方式是分别计算POI数据的POI名称和POI地址的相似度,再根据相似度进行去重。正如中国专利公开文献CN105224660A所认识到的,由于如POI名称的相似度、POI地址的相似度这样的POI短文本的相似度的计算实际上均是对字符串的比较过程,字符串的相似度的比较难度较高,尤其是包含汉字的字符串计算其相似度会涉及到自然语言处理,可实施性差、效率低,且准确率也难以保证。
发明内容
本发明实施方式提供一种用于地图兴趣点POI的相似度计算的方法、装置、设备和计算机可读存储介质,以至少解决现有技术中的以上技术问题。
在第一方面,本发明实施方式提供了一种用于地图兴趣点POI的相似度计算的方法。该方法可以包括:构建至少一条训练样本,所述一条训练样本中包括一对POI;对所构建的至少一条训练样本进行序列化处理,其中该序列化处理包括利用one-hot编码用预设的one-hot编码字典将所述至少一条训练样本转换为序列;以及将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对所述LSTM神经网络模型进行训练。
结合第一方面,本发明在第一方面的第一种实施方式中,所述训练样本可以采用正样本和/或负样本,所述训练样本还包括样本类型的标识。正样本可以包括经人工标注的样本和/或线上高准挂接的样本,负样本可以包括经人工标注的样本、父子关系样本、和/或检索返回的样本。
结合第一方面的第一种实施方式,在对所构建的至少一条训练样本进行序列化处理之前,所述方法还可以包括:对所述至少一条训练样本进行均衡化处理。
进一步地,所述均衡化处理采用过采样或欠采样。
结合第一方面,本发明在第一方面的第二实施方式中,可以采用预设的正样本和负样本的比例来构建所述至少一条训练样本。
在前述各种实施方式中,所述方法可以用于POI名称或POI地址的相似度的计算。
在第二方面,本发明实施方式提供了一种用于地图兴趣点POI的相似度计算的装置。该装置可以包括:构建单元,被配置为构建至少一条训练样本,所述一条训练样本中包括一对POI;序列化单元,被配置为对所构建的至少一条训练样本进行序列化处理,其中该序列化处理包括:利用one-hot编码用预设的one-hot编码字典将所述所构建的训练样本转换为序列;以及模型训练单元,被配置为将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对所述LSTM神经网络模型进行训练。
结合第二方面,本发明在第二方面的第一种实施方式中,所述训练样本可以采用正样本和/或负样本,所述训练样本还包括样本类型的标识。正样本可以包括经人工标注的样本和/或线上高准挂接的样本,负样本可以包括经人工标注的样本、父子关系样本、和/或检索返回的样本。
结合第二方面的第一种实施方式,所述装置还可以包括:均衡化单元,被配置为对所述至少一条训练样本进行均衡化处理。
进一步地,所述均衡化处理可以采用过采样或欠采样。
结合第二方面,本发明在第一方面的第二实施方式中,可以采用预设的正样本和负样本的比例来构建所述至少一条训练样本。
在前述各种实施方式中,所述装置可以用于POI名称或POI地址的相似度的计算。
应当理解,第二方面中的各个单元可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。
在第三方面,本发明实施方式提供了一种用于地图兴趣点POI的相似度计算的设备。该设备可以包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如前述第一方面中任一实施方式所述的方法。
在第四方面,本发明实施方式提供了一种用于地图兴趣点POI的相似度计算的可读存储介质,其存储有计算机程序。该程序被处理器执行时实现如前述第一方面中任一实施方式的方法。
根据本发明的实施方式,通过将LSTM神经网络模型应用于地图POI相似度的计算或预测,利用LSTM的深度学习模型克服了传统POI相似度计算方法、诸如BOW方法的缺陷,利用LSTM的深度学习模型,构建了端到端的POI相似度计算模型,提升了POI相似度计算的准确性。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出了本发明实施方式可以在其中实施的网络系统100的概览图;
图2示出了适合用来实现本发明实施方式的移动终端200的框图;
图3示出了适合用来实现本发明实施方式的计算机系统300的框图;
图4示出了根据本发明一种实施方式的用于POI相似度计算的方法400的流程图;
图5示出了根据本发明一种实施方式的用于对训练样本进行预处理的方法500的流程图;
图6示出了常规的栈式LSTM神经网络模型的结构示意图;
图7示出了常规的双向LSTM神经网络模型的结构示意图;
图8示出了LSTM网络的一个结构单元的示意图;
图9示出了根据本发明一种实施方式的用于POI相似度计算的装置900的框图;以及
图10示出了根据本发明一种实施方式的用于地图兴趣点POI的相似度计算的设备1000的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施方式。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施方式。因此,附图和描述被认为本质上是示例性的而非限制性的。
下面结合附图以示例的方式详细描述本发明的各种实施方式。
首先参考图1,其示出了本发明实施方式可以在其中实施的网络系统100的概览图。系统100包括网络110,其可以包括有线或无线网络的任意组合,其中这些有线或无线网络包括但不限于移动电话网络、无线局域网(LAN)、蓝牙个人局域网、以太网LAN、令牌环LAN、广域网、互联网等。
系统100可以包括一个或多个移动终端120、一个或多个台式计算机130,它们连接到网络110,并且通过网络110与连接到网络的地理信息服务器(或称为地图服务器)140进行通信。移动终端120是一个具有无线通信能力的移动设备,可以容易地采用本发明实施方式的移动终端可以包括但不限于智能手机、智能机器人、便携式数字助理(PDA)、寻呼机、移动计算机、移动电视、游戏设备、膝上型计算机、照相机、录像机、GPS设备以及其他类型的语音和文本通信系统。地理信息服务器140被配置为给通过网络访问其的移动终端120或台式计算机130提供地图信息服务,包括向其提供并且通过其呈现标识有POI的数字地图。地理信息服务器140内置或者外部连接有数据库系统,用于存储地图相关的信息。本发明实施方式同样通常被实现在地理信息服务器140处,用于对存储在数据库系统中的地图相关信息进行处理。但是,应当理解,本发明实施方式同样可以被实现在移动终端120或台式计算机130,用于远程地对存储在数据库系统中的地图相关信息进行处理。
在实现本发明的各种实施方式中所涉及的各种通信设备120、130、140可以使用各种介质通过网络110进行通信,包括但不限于无线电、红外、激光、线缆连接等。
图2示出了适合用来实现本发明实施方式的移动终端200的框图。如图2所示,移动终端200可以包括与用户互动的接口设备,与接口设备连接的编译设备,以及与编译设备连接的联网模块230。其中,与用户互动的接口设备可以是触摸屏240、音频输出设备250(包括扬声器、耳机等)、麦克风260;编译设备可以是处理器210、存储器220。处理器210被配置为结合其他元件执行根据本发明实施方式的方法的全部或部分步骤。联网模块230被配置为能使移动终端200能够与其他移动终端或者远程服务器之间数据收发,例如联网模块230可以包括网络适配器、调制解调器、或天线等部件。存储器220被配置为存储在被处理器210执行时能够执行根据本发明实施方式的程序或指令序列、以及存储从其他移动终端或者远程服务器接收的信息(例如,文本、语音、图片等)。触摸屏240被配置为接收用户的文本输入,识别用户的手势,并显示用户的服务请求、系统提供的服务结果以及其他相关信息。音频输出设备250被配置为播放服务结果及系统提示信息。麦克风260被配置为采集用户的语音信息。移动终端200可以被实现为图1中移动终端120等。
图3示出了适合用来实现本发明实施方式的计算机系统300的框图。如图3所示,计算机系统300可以包括:CPU(中央处理单元)301、RAM(随机存取存储器)302、ROM(只读存储器)303、系统总线304、硬盘控制器305、键盘控制器306、串行接口控制器307、并行接口控制器308、显示控制器309、硬盘310、键盘311、串行外部设备312、并行外部设备313和显示器314。在这些部件中,与系统总线304相连的有CPU 301、RAM 302、ROM 303、硬盘控制器305、键盘控制器306、串行控制器307、并行控制器308和显示控制器309。硬盘310与硬盘控制器305相连,键盘311与键盘控制器306相连,串行外部设备312与串行接口控制器307相连,并行外部设备313与并行接口控制器308相连,以及显示器314与显示控制器309相连。计算机系统300还可以包括联网模块(未示出),其被配置为使计算机系统300能够与其他移动终端或者计算机系统之间进行数据收发,例如联网模块可以包括网络适配器、调制解调器等。计算机系统300可以被实现为图1中所示的台式计算机130或地理信息服务器140。
应当理解,图2和图3所述的结构框图仅仅为了示例的目的而示出的,而不是对本发明的限制。在某些情况下,可以根据需要增加或者减少其中的一些设备。
对于POI名称或地址比较从而确定相似度的这样的问题,本质是分类问题,在深度学习出现之前,文本表示方法为词袋模型BOW(bag of words)、话题模型等;分类方法有支持向量机SVM(support vector machine)、回归分析LR(logistic regression)等。但是,对于此类方法,至少存在如下缺陷:对于一段文本,BOW表示会忽略其词顺序、语法和句法,将这段文本仅仅看做是一个词集合,因此BOW方法并不能充分表示文本的语义信息。例如,句子“这部电影糟糕透了”和“一个乏味,空洞,没有内涵的作品”在情感分析中具有很高的语义相似度,但是它们的BOW表示的相似度为0。又如,句子“一个空洞,没有内涵的作品”和“一个不空洞而且有内涵的作品”的BOW相似度很高,但实际上它们的意思很不一样。
图4示出了根据本发明一种实施方式的用于POI相似度计算的方法400的流程图。
在步骤S410,构建至少一条训练样本。一条训练样本中可以包括一对POI。
在步骤S420,对所构建的至少一条训练样本进行序列化处理。例如,序列化处理可以包括:利用one-hot(独热)编码用预设的one-hot编码字典将至少一条训练样本转换为序列。
在步骤S430,将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对LSTM神经网络模型进行训练。经过训练的该LSTM神经网络模型可以用于对一对地图兴趣点POI的相似度进行计算(预测)。
初始地,可以直接初始化LSTM神经网络模型的各个参数,例如,随机生成,并且构建大数量的训练样本集合,以对LSTM神经网络模型进行训练。可以将海量序列化训练数据切分为不同的批次向LSTM神经网络传输。其后,可以通过随机梯度下降算法,使得LSTM神经网络的网络参数,如:层与层之间的连接权值和神经元偏置随之更新等,以达到深度神经网络的预测效果不断逼近全局最优解的效果。最后,附加地且可选地,根据训练的网络参数对测试数据进行预测,并输出预测结果。
例如,在一个实施方式中,构建或者选择总量为4000万的样本,其中正负样本分别2100万。考虑到4000万的样本数量过大,LSTM神经网络模型的可以分批次进行,例如,一次输入1万或5万条样本。
另外,在上述方法400中,在将上述经过训练的LSTM神经网络模型用于现实场景中的一对地图POI的相似度预测之后,上述方法400可以从步骤S430回退到步骤S410,利用重新构建或者选择的至少一条训练样本再次对LSTM神经网络模型进行训练。
根据本发明的实施方式,正样本主要包括两部分,一部分是人工标注的样本,另外一部分是线上高准挂接的样本。线上高准挂接的样本例如可以是来自于信任网站、或者来自于对抓取在互联网的POI样本进行信任POI算法处理而得到的样本,以及其他适当的样本。负样本的组成主要包括三部分:人工标注的样本、父子关系样本、检索query构造返回的样本。
正样本的示例如下表1所示。
表1
1 | 中国工商银行ATM(林业局支行)@中国工商银行ATM |
1 | 石家庄明德中医院@明德中医院 |
1 | 广仁驾校(高埗店)@广仁驾校高埗服务店 |
1 | 伐木累炸鸡(no.1店)@伐木累炸鸡 |
1 | 尚客优快捷酒店(上党镇荣路店)@镇江尚客优快捷酒店上党镇荣路店 |
在表1中,第一列标识“1”代表是正样本,第二列结构:POI名称1+连接符“@”+POI名称2。
负样本的示例如下表2所示。
表2
0 | 爱唯诺婚礼@约约成都红娘 |
0 | 东星花园@东星花园—东门 |
0 | 完美@皖美广告 |
0 | 伊诚地产@伊诚地产(双庆路) |
0 | 天翼新商务酒店@天翼新商务酒店商品部—土特产 |
在表2中,第一列标识“0”代表是负样本,第二列结构:POI名称1+连接符“@”+POI名称2。
在一个实施方式中,在步骤S410中构建至少一条训练样本时,可以考量正负样本的配比,采用预设的正样本和负样本的比例来构建多条训练样本。从而,尽可能拟合具体的真实世界分布。如果正样本过多,假设正负样本配比是3:1,那么深度神经网络在学习的过程中,会最大可能地求解训练样本全局最优解,这可能会导致最后产出的深度学习模型倾向于预测为正例;反之,如果负样本过多,假设正负样本配比是1:3,相同地可能导致产出的深度学习模型倾向于预测为负例。
根据本发明的实施方式,可以预设one-hot编码字典,通过根据训练样本中的每个字符逐个查阅该one-hot编码字典,获得对应该字符的one-hot编码,从而获得该训练样本的one-hot编码。
在一个实验中,构建或选择4000万的样本,其中包括人工标注的正样本60万、线上高准挂接的样本2040万、人工标注的负样本230万、父子关系样本360万、检索query构造返回的样本1410万。将4000万的海量序列化训练数据切分为不同的批次向LSTM神经网络传输,在本实验中,每批次数据量为12800条。在该实验中,构建了11475维的one-hot编码字典。实验表明,利用这4000万的样本进行训练的LSTM神经网络模型进行样本相似度预测的拟合误差约5.5%,准确率94.5%。
方法400还可以包括可选的步骤S415,对训练样本进行序列化前的预处理。图5示出了根据本发明一种实施方式的用于对训练样本进行预处理的方法500(对应方法400中的步骤S415)的流程图。应当理解,其中所包括的步骤S510、S520、S530是可选的步骤。
方法500可以包括步骤S510,对训练样本进行均衡化处理。在一个实施方式中,可以对步骤S410构建的训练样本的均衡性进行检查,如果发现所构建的训练样本是显著非均衡的,例如正负样本的比例超过预设阈值,则可以从训练样本库中获取相反比例的样本,并且添加到构建的训练样本,对其进行均衡化处理。由此,可以保证对LSTM神经网络模型训练的均衡性,特别是在步骤S410中构建的大量样本分批次输入至神经网络模型的情形下。
均衡化处理可以包括但不限于欠采样处理和过采样处理。
1)过采样:如果正样本显著多于负样本,那么可以通过在负样本中随机取样正负样本的差值,然后追加到负样本中以使得正负样本均衡;反之亦然
2)欠采样:如果正样本显著多于负样本,亦可以通过在正样本中随机取样等额的负样本,以使得正负样本均衡;反之亦然。
方法500可以包括步骤S520,对训练样本进行冲突处理。在一个实施方式中,可以将同时在正负样本中出现的数据剔除。
方法500可以包括步骤S530,对训练样本进行置乱处理,以便保证训练样本(正样本和/或负样本)均匀地输送给LSTM神经网络。
在一个实施方式中,在完成LSTM神经网络模型进行训练之后,可以利用训练后的LSTM神经网络对一对POI名称的相似度进行预测。
举例而言,需要对这样一条POI样本的相似度进行预测:“武汉传媒学院vs华中师范大学武汉传媒学院”,则首先对其进行one-hot编码,编码结果例如可以为:[260,219,712,1245,39,42,0,40,4,417,745,7,39,260,219,712,1245,39,42],其中数字为对应的字符在预设one-hot编码字典中的序号,例如字符“武”在one-hot编码字典中的序号为“260”,字符“汉”在one-hot编码字典中的序号为“219”,字符“vs”在one-hot编码字典中的序号为“0”。接着,可以将上述序列化的POI样本输入到经训练的LSTM神经网络模型中进行预测打分。预测打分结果例如可以为“武汉传媒学院华中师范大学武汉传媒学院0.908714same”,表示LSTM神经网络预测样本“武汉传媒学院vs华中师范大学武汉传媒学院”相似,相似度:0.908714。该预测结果可认为POI名称相似度非常高,是两个相同的POI。
再例如,需要对这样一条POI样本的相似度进行预测:“吉林市龙潭区大口钦工业区vs大口钦中学”,则首先对其进行one-hot编码,编码结果例如可以为:[312,122,10,68,799,8,7,56,1685,54,22,8,0,7,56,1685,4,39],数字为对应的字符在预设one-hot编码字典中的序号,例如字符“吉”在one-hot编码字典中的序号为“312”,字符“林”在one-hot编码字典中的序号为“122”,字符“vs”在one-hot编码字典中的序号为“0”。接着,可以将上述序列化的POI样本输入到经训练的LSTM神经网络模型中进行预测打分。预测打分结果例如可以为“吉林市龙潭区大口钦工业区大口钦中学0.990923diff”,表示LSTM神经网络预测样本“吉林市龙潭区大口钦工业区vs大口钦中学”不相似,不相似度:0.990923。该预测结果可认为POI名称相似度非常低,是两个不同的POI。
神经网络是采用一个或多个层的非线性单元来针对所接收的输入预测输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层(hidden layer)。每个隐藏层的输出用作对网络中的下一层的输入,即,下一隐藏层或者输出层。网络的每一层根据相应的参数集合的当前值来从所接收的输入生成输出。例如针对时间序列问题或者序列到序列学习而设计的那些神经网络(递归神经网络(RNN))的一些神经网络包含递归环路,该递归环路允许存储器以隐藏状态变量的形式保留在数据输入之间的层内。
对于较长的序列数据,循环神经网络(RNN)的训练过程中容易出现梯度消失或爆炸现象。为了解决这一问题,Hochreiter S,Schmidhuber J.(1997)提出了作为RNN的一种变型的长短期记忆(long short term memory;LSTM)神经网络,包括用于控制在数据输入之间的数据持久性的每个层内多个门(gate)。中国专利公开文献CN 107149450A对神经网络、具体是一种LSTM网络的训练过程进行了描述。通过引用将其全文并入与此以供参考。
利用训练数据对递归神经网络进行训练,以便通过使目标函数最优化((即,最大化或者最小化),从参数的初始值确定递归神经网络的参数的训练值。在训练期间,系统对递归神经网络的参数值赋予约束条件,从而使其继续满足对神经网路的参数的要求。可以通过传统机器学习训练技术来使目标函数最优化,来对递归神经网络进行训练。即,可以执行训练技术的多次迭代,以通过调节递归神经网络的参数的值来对目标函数进行优化。
图6示出了常规的栈式LSTM神经网络模型的结构示意图,图7示出了常规的双向LSTM神经网络模型的结构示意图。
LSTM网络相比于简单的循环神经网络,增加了记忆单元c、输入门i、遗忘门f、以及输出门o。这些门及记忆单元组合起来大大提升了循环神经网络处理长序列数据的能力。图8示出了LSTM网络的一个结构单元(例如图6、图7所述的LSTM模块)的示意图,用来示意性地说明LSTM网络的计算过程。
结合图8,在传统的LSTM网路中,记忆单元c、输入门i、遗忘门f、输出门o、以及LSTM结构m可以分别通过如下公式(1)计算获得:
其中,x表示输入序列数据,σ是逻辑sigmoid函数,W为权重矩阵,b为偏置向量,i、f、o、c分别是输入门、遗忘门、输出门、记忆单元向量,它们均和隐藏向量h相同的尺寸。各个小标具有如其名称所建议的含义。例如,xt表示第t时刻的输入序列数据,Whi表示隐藏—输入门矩阵,Wxo表示输入—输出门矩阵。从记忆单元向量到门向量的权重矩阵(例如Wci)是对角矩阵,从而每个门向量中的元素m只接收来自记忆单元向量的元素m的输入。
输入门控制着新输入进入记忆单元c的强度,遗忘门控制着记忆单元维持上一时刻值的强度,输出门控制着输出记忆单元的强度。三种门的计算方式类似,但有着完全不同的参数,它们各自以不同的方式控制着记忆单元。
LSTM通过给简单的循环神经网络增加记忆及控制门的方式,增强了其处理远距离依赖问题的能力。LSTM的隐状态依据当前输入及前一时刻的隐状态来改变,不断地循环这一过程直至输入处理完毕。
应当理解,前述公式(1)所表示的仅是一个典型的LSTM神经网络模型的结构单元的示例计算方法,本发明实施方式中所使用的LSTM神经网络模型的参数计算还可以有其他的方式。例如在中国专利公开文献CN 105513591A中披露了另外两种LSTM神经网络模型的结构单元的示例计算方法,通过引用将其全文并入与此。作为示例,这三种计算方式都可以用于本发明的针对地图POI的相似度计算,本发明的实施方式对LSTM神经网络模型的参数计算及其中结构单元的具体结构不做限制。
现在参考图9,其示出了根据本发明一种实施方式的用于POI相似度计算的装置900的框图。装置900可以包括:构建单元910,被配置为构建至少一条训练样本,一条训练样本中可以包括一对POI;序列化单元920,被配置为对所构建的至少一条训练样本进行序列化处理,其中改序列化处理包括利用one-hot编码用预设的one-hot编码字典将所述所构建的训练样本转换为序列;以及模型训练单元930,被配置为将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对所述LSTM神经网络模型进行训练。装置900还可以包括可选的预处理单元915,被配置为对训练样本进行序列化前的预处理。应当理解,装置900中记载的每个单元与参考图4描述的方法400中的每个步骤相对应。例如,预处理单元915可以可选地包括以下各种单元中的一个或多个:均衡化单元,被配置为对训练样本进行均衡化处理;冲突处理单元,被配置为对训练样本进行冲突处理;置乱单元,被配置为对训练样本进行置乱处理,以便保证训练样本(正样本和/或负样本)均匀地输送给LSTM神经网络。由此,上文针对图4描述的操作和特征同样适用于装置900及其中包含的单元,在此不再赘述。
现在参考图10,其示出了根据本发明一种实施方式的用于POI相似度计算的设备1000的框图。如图10所示,设备1000可以包括:存储器1010和处理器1020,存储器1010内存储有可在处理器1020上运行的计算机程序。处理器1020执行所述计算机程序时实现前述实施方式中的POI相似度计算方法。存储器1010和处理器1020的数量可以为一个或多个。
设备1000还可以包括:通信接口1030,用于存储器1010和处理器1020之间的通信。
存储器1010可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器1010、处理器1020和通信接口1030独立实现,则存储器1010、处理器1020和通信接口1030可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,Peripheral Component)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Component)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,在具体实现上,如果存储器1010、处理器1020及通信接口1030集成在一块芯片上,则存储器1010、处理器1020及通信接口1030可以通过内部接口完成相互间的通信。
现有技术存在的最大问题是基于有向图的间接相似度判断规则系统,没能很好地解决地图兴趣点的短文本相似度计算问题。
针对本发明的实施方式,申请人构建了地图POI亿级大数据训练样本,通过搭建深度学习神经网络,设计了端到端的地图POI短文本(名称或地址)相似度计算模型。具体地,针对旧有相似度判断算法存在中英文、同义词漏召回,以及逻辑父子关系识别不准的问题,申请人基于POI海量数据训练了LSTM短文本相似度计算模型。利用LSTM短文本相似度计算模型计算两个POI的名称(或地址)相似度,能够很好地解决漏召问题和误召问题。漏召问题例如:中英文、简称、缩写等同义词,误召问题例如:父子关系等。应当理解,前述的海量的亿级大数据训练样本仅仅是为了增加经训练的LSTM神经网络模型的有效性,本发明的实施方式对用于训练LSTM神经网络模型的训练样本的数量不做限制。
根据本发明的实施方式,通过将LSTM神经网络模型应用于地图POI相似度的计算或预测,利用LSTM的深度学习模型克服了传统POI相似度计算方法、诸如BOW方法的缺陷,能够在考虑词顺序的基础上把文本映射到低维度的语义空间,并且以端对端(end to end)的方式进行文本表示及分类,其性能相对于传统方法有显著的提升。从而,根据本发明的实施方式,通过构建端到端的相似度计算模型,能够非常优雅地解决传统POI相似度计算手段的痛点问题:相似度漏召回和误召回的问题,提升了POI相似度计算的准确性。进一步地,能够为数据上线自动化率和情报有效率的提升打下牢固的基础。
另外,传统的POI相似度计算系统是纯规则系统,相似度判断效果差且可维护性不好,根据本发明实施方式的相似度计算算法是基于深度学习的短文本相似度比较模型,不论是可维护性,还是去重效果等各个方面全方位绝对领先于简单的规则系统。进一步地,根据本发明的一个实施方式,通过人工标注+算法标注的方式来构建训练样本,从而使得训练样本的构建更加灵活。
应当理解,为了叙述的清楚,本发明的各种实施方式主要是针对POI名称进行描述,但是根据本发明的各种实施方式的POI相似度计算方法还可以应用于关于POI地址的LSTM神经网络模型的训练和预测,以及其他可能的POI短文本,诸如POI联系方式,如固定电话“010-662335569”。
在本说明书的描述中,参考术语“一个实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施方式所属技术领域的技术人员所理解。此外,为了示意的方便,本文具体实施方式中的可选的步骤以虚线框的形式示出。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施方式所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施方式中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(RadioFrequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施方式方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施方式的步骤之一或其组合。
此外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元(或模块)中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元(或模块)中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种用于地图兴趣点POI的相似度计算的方法,其特征在于,包括:
构建至少一条训练样本,所述一条训练样本中包括一对POI;
对所构建的至少一条训练样本进行序列化处理,其中所述序列化处理包括:利用one-hot编码用预设的one-hot编码字典将所述至少一条训练样本转换为序列;以及
将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对所述LSTM神经网络模型进行训练;经过训练的该LSTM神经网络模型用于对一对POI的相似度进行计算;
根据训练的LSTM神经网络模型的网络参数对测试数据进行预测,并输出测试结果。
2.根据权利要求1所述的方法,其特征在于,
所述训练样本采用正样本和/或负样本,所述训练样本还包括样本类型的标识,
其中,所述正样本包括经人工标注的样本和/或线上高准挂接的样本;
所述负样本包括经人工标注的样本、父子关系样本、和/或检索返回的样本。
3.根据权利要求2所述的方法,其特征在于,在对所构建的至少一条训练样本进行序列化处理之前,所述方法还包括:
对所述至少一条训练样本进行均衡化处理。
4.根据权利要求3所述的方法,其特征在于,所述均衡化处理采用过采样或欠采样。
5.根据权利要求2所述的方法,其特征在于,所述构建至少一条训练样本,包括:
采用预设的正样本和负样本的比例来构建所述至少一条训练样本。
6.一种用于地图兴趣点POI的相似度计算的装置,其特征在于,包括:
构建单元,被配置为构建至少一条训练样本,所述一条训练样本中包括一对POI;
序列化单元,被配置为对所构建的至少一条训练样本进行序列化处理,其中所述序列化处理包括:利用one-hot编码用预设的one-hot编码字典将所述至少一条训练样本转换为序列;以及
模型训练单元,被配置为将经序列化处理后的至少一条训练样本输入至LSTM神经网络模型,对所述LSTM神经网络模型进行训练;经过训练的该LSTM神经网络模型用于对一对POI的相似度进行计算;
根据训练的LSTM神经网络模型的网络参数对测试数据进行预测,并输出测试结果。
7.根据权利要求6所述的装置,其特征在于,所述训练样本采用正样本和/或负样本,所述训练样本还包括样本类型的标识,其中,所述正样本包括经人工标注的样本和/或线上高准挂接的样本,所述负样本包括经人工标注的样本、父子关系样本、和/或检索返回的样本。
8.根据权利要求6所述的装置,其特征在于,还包括:
均衡化单元,被配置为对所述至少一条训练样本进行均衡化处理。
9.一种用于地图兴趣点POI的相似度计算的设备,其特征在于,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710922431.7A CN107609185B (zh) | 2017-09-30 | 2017-09-30 | 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710922431.7A CN107609185B (zh) | 2017-09-30 | 2017-09-30 | 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609185A CN107609185A (zh) | 2018-01-19 |
CN107609185B true CN107609185B (zh) | 2020-06-05 |
Family
ID=61068016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710922431.7A Active CN107609185B (zh) | 2017-09-30 | 2017-09-30 | 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609185B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108549627B (zh) * | 2018-03-08 | 2019-10-01 | 北京达佳互联信息技术有限公司 | 汉字处理方法及装置 |
CN110149804B (zh) * | 2018-05-28 | 2022-10-21 | 北京嘀嘀无限科技发展有限公司 | 用于确定兴趣点的父-子关系的系统和方法 |
CN109241225B (zh) | 2018-08-27 | 2022-03-25 | 百度在线网络技术(北京)有限公司 | 兴趣点竞争关系挖掘方法、装置、计算机设备及存储介质 |
CN109684440B (zh) * | 2018-12-13 | 2023-02-28 | 北京惠盈金科技术有限公司 | 基于层级标注的地址相似度度量方法 |
CN110347777B (zh) * | 2019-07-17 | 2023-03-14 | 腾讯科技(深圳)有限公司 | 一种兴趣点poi的分类方法、装置、服务器及存储介质 |
CN110427669B (zh) * | 2019-07-20 | 2023-04-07 | 中国船舶重工集团公司第七二四研究所 | 一种相控阵扫描辐射波束的神经网络模型计算方法 |
CN110516094A (zh) * | 2019-08-29 | 2019-11-29 | 百度在线网络技术(北京)有限公司 | 门类兴趣点数据的去重方法、装置、电子设备及存储介质 |
CN113255398B (zh) * | 2020-02-10 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 兴趣点判重方法、装置、设备和存储介质 |
CN111522888B (zh) | 2020-04-22 | 2023-06-20 | 北京百度网讯科技有限公司 | 挖掘兴趣点之间的竞争关系的方法和装置 |
CN111832579B (zh) * | 2020-07-20 | 2024-01-16 | 北京百度网讯科技有限公司 | 地图兴趣点数据处理方法、装置、电子设备以及可读介质 |
CN112802570A (zh) * | 2021-02-07 | 2021-05-14 | 成都延华西部健康医疗信息产业研究院有限公司 | 一种针对电子病历命名实体识别系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156848A (zh) * | 2016-06-22 | 2016-11-23 | 中国民航大学 | 一种基于lstm‑rnn的陆空通话语义一致性校验方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106408115A (zh) * | 2016-08-31 | 2017-02-15 | 北京百度网讯科技有限公司 | 出行线路的推荐方法及装置 |
CN106991506A (zh) * | 2017-05-16 | 2017-07-28 | 深圳先进技术研究院 | 智能终端及其基于lstm的股票趋势预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133729B2 (en) * | 2015-08-28 | 2018-11-20 | Microsoft Technology Licensing, Llc | Semantically-relevant discovery of solutions |
-
2017
- 2017-09-30 CN CN201710922431.7A patent/CN107609185B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156848A (zh) * | 2016-06-22 | 2016-11-23 | 中国民航大学 | 一种基于lstm‑rnn的陆空通话语义一致性校验方法 |
CN106295796A (zh) * | 2016-07-22 | 2017-01-04 | 浙江大学 | 基于深度学习的实体链接方法 |
CN106408115A (zh) * | 2016-08-31 | 2017-02-15 | 北京百度网讯科技有限公司 | 出行线路的推荐方法及装置 |
CN106991506A (zh) * | 2017-05-16 | 2017-07-28 | 深圳先进技术研究院 | 智能终端及其基于lstm的股票趋势预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107609185A (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609185B (zh) | 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 | |
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN110366734B (zh) | 优化神经网络架构 | |
WO2020177282A1 (zh) | 一种机器对话方法、装置、计算机设备及存储介质 | |
CN112860866B (zh) | 语义检索方法、装置、设备以及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN110781407B (zh) | 用户标签生成方法、装置及计算机可读存储介质 | |
CN110019616B (zh) | 一种poi现势状态获取方法及其设备、存储介质、服务器 | |
CN112015896B (zh) | 基于人工智能的情感分类方法、以及装置 | |
CN111708876A (zh) | 生成信息的方法和装置 | |
WO2023207096A1 (zh) | 一种实体链接方法、装置、设备及非易失性可读存储介质 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN110717019A (zh) | 问答处理方法、问答系统、电子设备及介质 | |
CN116109449A (zh) | 一种数据处理方法及相关设备 | |
CN111339423B (zh) | 基于用户的旅游城市推送方法、系统、设备及存储介质 | |
CN116595252A (zh) | 一种数据处理方法及相关装置 | |
CN110705279A (zh) | 一种词汇表的选择方法、装置及计算机可读存储介质 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN113468857B (zh) | 风格转换模型的训练方法、装置、电子设备以及存储介质 | |
CN116108836B (zh) | 文本情感识别方法、装置、计算机设备及可读存储介质 | |
CN113515687A (zh) | 物流信息的获取方法和装置 | |
CN112417290B (zh) | 书籍排序推送模型的训练方法、电子设备及存储介质 | |
CN112052402B (zh) | 信息推荐方法、装置、电子设备及存储介质 | |
CN115033700A (zh) | 基于相互学习网络的跨领域情感分析方法、装置以及设备 | |
WO2020151318A1 (zh) | 基于爬虫模型的语料构建方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |