[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN102955810B - 一种网页分类方法和设备 - Google Patents

一种网页分类方法和设备 Download PDF

Info

Publication number
CN102955810B
CN102955810B CN201110249270.2A CN201110249270A CN102955810B CN 102955810 B CN102955810 B CN 102955810B CN 201110249270 A CN201110249270 A CN 201110249270A CN 102955810 B CN102955810 B CN 102955810B
Authority
CN
China
Prior art keywords
url
class library
classification
prediction
last layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110249270.2A
Other languages
English (en)
Other versions
CN102955810A (zh
Inventor
徐萌
何洪凌
胡珉
罗治国
孙少陵
陶涛
陈婷
张新访
李成华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chellona Mobile Communications Corp Cmcc
China Mobile Communications Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201110249270.2A priority Critical patent/CN102955810B/zh
Publication of CN102955810A publication Critical patent/CN102955810A/zh
Application granted granted Critical
Publication of CN102955810B publication Critical patent/CN102955810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网页分类方法和设备,该方法利用现有URL类别库中的记录,建立虚拟的层级URL,并对层级URL的类别进行预测。当需要对待分类网页进行分类时,根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。在本发明中,提高了网页分类的效率和成功率。

Description

一种网页分类方法和设备
技术领域
本发明涉及互联网技术领域,尤其涉及一种网页分类方法和设备。
背景技术
随着移动互联网技术的高速发展,移动互联网用户的数量越来越多,因此,对移动互联网用户的行为分析也逐渐成为一个研究热点。
现有技术中,通常根据移动互联网用户的访问日志对用户行为进行分析。具体的,移动互联网用户的访问日志存放在WAP(WirelessApplicationProtocol,无线应用通讯协议)网关中,该访问日志中记录了用户所访问的网页的URL(UniversalResourceLocator,统一资源定位符),通过查询URL类别库可以获知用户所访问的网页类别,进而获知对应用户的行为偏好。
其中,现有网页分类方法可以包括以下步骤:
1、爬虫爬取网页内容;
2、对网页内容进行解析,获取相应文本;
3、对文本进行分析、获取关键词;
4、利用算法模型,例如朴素贝叶斯或者SVM等文本分类算法模型,进行分类;其中,算法模型通常提前根据训练集训练得到。
通过上述方法可以对用户所访问的网页(或网页对应的URL)进行分类,进而可以建立URL类别库。其中,现有技术中的URL类别库可以如表1所示。
表1
在实现本发明的过程中,发明人发现现有技术中至少存在以下问题:
现有技术中,URL类别库是一个简单的扁平数据表,条目之间没有任何关系,为了能准确查询到用户所访问的网页的类别,需要存储大量的数据,且需要实时更新类别库。而由于互联网发展迅速,新增网页速度极快,即使每日做一次URL类别库更新,URL类别库并不可能保存所有网页的分类。此时,可采用的方法是实时抓取、预测的方法,预测一个网页的类别可能时间需要约数十分钟,如果批量预测,虽然可以并行化,但时间仍然很长,至少小时级别。
发明内容
本发明实施例提供一种网页分类的方法和设备,以提高确定网页类别的效率和成功率。
为了达到上述目的,本发明实施例提供一种网页分类方法,应用于基于URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:
根据待分类网页的URL查询URL类别库;
如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。
本发明实施例还提供一种网页分类设备,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该设备包括:
上层URL生成模块,用于根据待分类网页的URL,生成该URL的上层URL;
查询模块,用于根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库;
确定模块,用于在所述查询模块查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。
与现有技术相比,本发明实施例通过对URL进行层级划分,在URL类别库中记录各层级URL,并对应记录各URL的预测类别;当需要确定待分类网页的类别时,获取该待分类网页的URL,并查询URL类别库中是否记录有该URL;当URL类别库中未记录有相同的URL时,根据该URL的上层URL的预测类别确定为待分类网页的类别,提高了确定网页类别的效率和成功率。
附图说明
图1为本发明实施例提供的URL类别库生成流程示意图;
图2为本发明实施例提供的网页分类方法流程示意图;
图3为本发明实施例提供的网页分类设备的结构示意图。
具体实施方式
针对现有技术中的缺陷,本发明实施例提出了一种网页分类的技术方案。本发明实施例提出的技术方案中,通过对URL进行截取的方式对URL进行层级划分,相邻层级的URL中上层URL通过在下层URL的基础上截取得到,在现有URL类别库中增加上层URL的记录(即本发明实施例中URL类别库中记录有URL、该URL的预测类别以及该URL相邻层级的上层URL),并记录上层URL的预测类别,当需要对网页进行分类时,可以根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别,即当URL类别库中未记录有待分类网页的URL时,可以根据该URL的上层URL的预测类别确定待分类网页的类别,通过查询该待分类的URL的上层URL对应的记录,并将其上层URL的预测类别作为待分类网页的预测类别,提高了确定网页类别的效率和成功率。
其中,以对URL进行截取的方式对URL进行层级划分可以具体通过以下方式实现:
根据URL中分隔符“/”对URL进行层级划分,从URL末位向前依次获取“/”,并将该URL从末位向前的预设数量(如1个)“/”之前的字段作为该URL相邻层级的上层URL(即上一层级URL)。
例如,对于URL:http://3g.sina.com.cn:80/3g/static/sina.gif?t1=1252192802,http://3g.sina.com.cn:80/3g/static/sina.gif?t1=1252192802为该URL的第一层级,http://3g.sina.com.cn:80/3g/static/为该URL的第二层级,http://3g.sina.com.cn:80/3g/为该URL的第三层级,http://3g.sina.com.cn:80/3g/static/则为原URL的上一层级URL,http://3g.sina.com.cn:80/3g/则为http://3g.sina.com.cn:80/3g/static/的上一层级URL。
应该认识到,本发明实施例提出的技术方案中确定上一层级URL的方式并不限于上述方式,也可以是其他方式。
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示,为本发明实施例提出的URL类别库建立流程的示意图,为便于描述,以URL类别中以数据表的形式存储URL的信息为例进行描述,每一个URL对应一条表项,该URL类别库建立流程可以包括以下步骤:
步骤101、在URL类别库中记录最低层级URL对应的表项。其中,URL对应的表项中记录有URL、该URL的预测类别以及该URL的上一层级URL。
具体的,可以将用户在过去一段时间内(如一个月)访问的网页的URL作为URL类别库中的最低层级URL,并通过现有网页分类方法获取对应的URL的预测类别;或者,可以将某些知名网站对应的URL作为种子,通过爬虫爬取的方式获取一定数量的URL,并将获取到的URL作为URL类别库中的最低层级URL,并通过现有网页分类方法获取对应的URL的预测类别。获取到的URL类别库中最低层级的URL及其预测类别后,获取各最低层级URL的上一层级URL,并将相应的信息(URL预测类别、上一层级URL)对应于URL记录到URL类别库中。
步骤102、从URL类别库中选择一条表项,获取该表项中记录的URL的上一层级URL。
具体的,遍历URL类别库中的表项,并顺序选择URL类别库中的表项,获取所选择的表项中的上一层级URL。
步骤103、判断URL类别库中是否存储有该上一层级URL对应的表项。若判断为是,则转至步骤102;否则,转至步骤104。
具体的,当URL类别库中存储有该上一层级URL对应的表项时,则重新选择另一条表项;当URL类别库中未存储有该上一层级URL对应的表项时,则需要创建该上一层级URL对应的表项。
步骤104、确定该上一层级URL的预测类别以及该上一层级URL的上一层级URL,并将其记录在URL类别库中。
具体的,遍历URL类别库中的表项,获取其中上一层级URL相同的表项,并根据获取到的表项中的URL的预测类别确定上一层级URL的预测类别。
其中,确定上一层级URL的预测类别具体可以通过以下方式实现:
从所述URL类别库中获取其上一层级URL为该待预测类别的URL的所有URL;确定获取到的URL中各预测类别的URL的数量;将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。
例如,对于如下4个URL:
http://www.chinaweekly.cn/bencandy.php?fid=48&id=5464预测类别:历史
http://www.chinaweekly.cn/bencandy.php?fid=48&id=5463预测类别:历史
http://www.chinaweekly.cn/bencandy.php?fid=48&id=5344预测类别:历史
http://www.chinaweekly.cn/bencandy.php?fid=49&id=5449预测类别:时评
该四个URL具有相同的上一层级URL:http://www.chinaweekly.cn/,由于该上层URL相邻层级的下层URL中,共有3个预测类别为历史,1个预测类别为时评,因此该上层URL的预测类别为历史。
需要注意的是,本发明实施例提供的技术方案中,URL类别库中还可以对应记录有各URL的预测概率。此时,URL类别库中对应URL的表项中包括URL、该URL的预测类别、预测概率以及该URL的上一层级URL。对于最低层级URL,其预测类别和预测概率通过现有网页分类方法确定,而其余层级的URL的预测类别和预测概率根据该URL的下一层级URL的预测类别和预测概率确定。
具体的,根据下一层级的URL的预测类别和预测概率确定其上一层级的URL的预测类别和预测概率可以具体通过以下方式实现:
从所述URL类别库中获取其上一层级URL为该待预测类别和概率的URL的所有URL;对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值;将加权平均值最高的预测类别确定为该待预测URL的预测类别,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。
仍以上述4个URL为例,假设上述4个URL的预测概率依次为80%、79%、81%和80%。则该4个URL中,预测类别为历史的URL的预测概率的加权平均值为60%((80%+79%+81%)/(3+1)),预测类别为时评的URL的预测概率的加权平均值为20%((80%)/(3+1))。因此,该4个URL相邻层级的上层URL的预测类别为历史,其预测概率为60%。
上述流程可通过计算机程序实现,也可以根据以上原则,由人工方式配置该URL类别库。
应该认识到,本发明实施例的技术方案中,当URL类别库中未记录有待分类网页的URL时,并不限于通过逐层查询该URL的上一层级URL的方式确定待分类网页的类别,也可以是直接查询该URL的上一层级URL的上一层级URL或该URL的其他上层URL的预测类别来确定待分类网页的类别。此外,本发明实施例提供的技术方案中确定上一层级URL预测类别的方法并不限于上述流程中描述的方式,也可以是其他方式。
通过以上流程,可以确定现有URL类别库中记录的URL的上层URL,并将该上层URL对应的表项存储在URL类别库中,URL类别库中存储的表项可以形成了一个多层次架构。其中,更新后的URL类别库中URL信息的数据结构可以如表2所示:
表2
名称 注释
url URL
url_label 预测类别
prediction 预测概率
faurlevel 上一层级URL
其中,各项变量的含义如下:
url:网页的URLStringUTF-8
url_label:URL的预测类别StringUTF-8
prediction:URL的预测概率Double
faurlevel:上一层级URLStringUTF-8
基于上述URL类别库,本发明实施例提供了一种网页分类的方法,如图2所示,为本发明实施例提供的网页分类方法流程的示意图,可以包括以下步骤:
步骤201、获取待分类网页的URL,查询URL类别库中是否记录有该URL。
步骤202、若查询到URL类别库中记录有相同的URL,则转至步骤204;否则,转至步骤203。
步骤203、生成该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL,并转至步骤202。
步骤204、将查询到的URL对应的预测类别确定为所述待分类网页的类别。
具体的,在现有技术方案中,直接根据URL在URL类别库中进行精确匹配查询,当查询到的对应的表项时,则返回URL的预测类别;当未查询到的对应的表项时,则返回空值。
而在本发明实施例提供的技术方案中,通过引入对URL进行层级划分,并将上层URL对应的表项存储在URL类别库中。当需要对网页进行分类后,首先根据待分类网页的URL在URL类别库中进行精确匹配,当URL类别库中未存储有待分类网页的URL对应的表项时,进一步生成待分类网页的URL的上一层级URL,并根据该上一层级URL在类别库中查询对应的表项,并将查询到的上一层级URL的预测类别作为待分类网页的URL的预测类别。
例如,获取到的待分类网页的URL为http://sports.sina.com.cn/k/2011-05-18/09415581512.shtml,且当前URL类别库中未记录有与该待分类网页的URL,此时,需要生成该URL的上一层级URL,即http://sports.sina.com.cn/k/2011-05-18/,并在URL类别库中查询该上一层级URL对应的表项。若URL类别库中存储有该上一层级URL对应的表项,则通过查询URL类别库可以得到该上一层级URL的预测类别(如体育),则将该上一层级URL的预测类别作为待分类网页的URL的预测类别。
需要注意的是,当已经查找到待分类网页的URL对应的最高层级的URL,仍未查询到URL类别库中记录有相同的URL时,返回查询失败响应。
在本发明实施例中,当URL类别库中有新的最低层级URL增加时,可以通过事件触发或人工触发等方式对URL类别库进行类别更新。具体的,可以重新遍历URL类别库中存储的最低层级URL,并进行层次划分,重新获取对应的上层URL及其对应的预测类别。此外,也可以仅仅对与新增的最低层级URL相关的上层URL的预测类别进行更新。具体实现在此不再赘述。
基于上述网页分类方法相同的技术构思,本发明实施例还提供一种网页分类设备,可以应用于上述基于URL类别库实现的网页分类方法,所述URL类别库中记录有各层级URL,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,各URL分别对应记录有预测类别。
如图3所示,为本发明实施例提供的网页分类设备的结构示意图,可以包括:
上层URL生成模块31,用于根据待分类网页的URL,生成该URL的上层URL;
查询模块32,用于根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库;
确定模块33,用于在查询模块32查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别。
其中,上层URL生成模块31具体用于,当查询模块32未查询到匹配的URL时,生成该URL的上一层级URL;
查询模块32具体通过以下流程查询待分类网页的URL的上层URL的预测类别:
步骤A、获取该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL;
步骤B、若查询到URL类别库中记录有相同的URL,则转至步骤C;否则转至步骤A;
步骤C、获取查询到的URL的预测类别;
确定模块33具体用于,将查询模块33查询到的URL预测类别确定为所述待分类网页的类别。
其中,确定模块33还用于,当查询模块32已经查询到所述待分类网页的URL对应的最高层级的URL,仍未查询到URL类别库中记录有相同的URL时,返回查询失败响应。
其中,所述网页分类设备还包括:URL类别库维护模块34;
上层URL生成模块31具体用于,遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL;
查询模块32具体用于,根据上层URL生成模块31生成的上一层级URL查询URL类别库;
URL类别维护模块34用于,当查询模块32未查询到匹配的URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。
其中,URL类别库维护模块34具体用于,根据URL的下一层级URL的预测类别确定除最低层级以外其余层级的URL的预测类别。
其中,URL类别库维护模块34具体用于,从所述URL类别库中获取其上一层级URL为待预测类别的URL的所有URL;确定获取到的URL中各预测类别的URL的数量;将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。
其中,URL类别库中的各URL还各自对应有预测概率;
URL类别库维护模块34具体用于,根据URL的下一层级URL的预测类别和预测概率确定除最低层级以外其余层级的URL的预测类别和预测概率。
其中,URL类别库维护模块34具体用于,从所述URL类别库中获取其上一层级URL为该待预测类别和概率的URL的所有URL;对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值;将加权平均值最高的预测类别确定为该待预测URL的预测类别,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。
其中,当所述URL类别库中增加了新的URL时,
上层URL生成模块31还用于,生成该URL的上层URL;
查询模块32具体用于,根据所述URL的上层URL查询URL类别库;
URL类别库维护模块34具体用于,若查询模块32查询到匹配的URL,则更新上层URL的预测类别;若查询模块32未查询到匹配的URL,则在URL类别库中记录该上层URL及对应的预测类别。
其中,上层URL生成模块31具体用于,根据URL中的分隔符对URL进行层级划分,并将该URL从末位向前的预设数量分隔符之前的字段作为该URL的上一层级URL。
通过以上实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
本领域技术人员可以理解附图只是一个优选实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (14)

1.一种网页分类方法,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该方法包括:
根据待分类网页的URL查询URL类别库;
如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库,并在查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别;
其中,所述URL类别库的生成过程,包括:
遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL;
判断生成的上一层级URL是否已经存在于所述URL类别库中,并当所述URL类别库中不存在该上一层级URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。
2.如权利要求1所述的方法,其特征在于,所述根据该URL的上层URL查询URL类别库,包括:
步骤A、生成该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL;
步骤B、若查询到URL类别库中记录有相同的URL,则转至步骤C;否则转至步骤A;
步骤C、获取查询到的URL的预测类别。
3.如权利要求1-2之一所述的方法,其特征在于,除最低层级的URL以外,其余层级的URL的预测类别是根据该URL的下一层级URL的预测类别确定的。
4.如权利要求3所述的方法,其特征在于,根据下一层级的URL的预测类别确定其上一层级的URL的预测类别,具体为:
从所述URL类别库中获取其上一层级URL为待预测类别的URL的所有URL;
确定获取到的URL中各预测类别的URL的数量;
将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。
5.如权利要求3所述的方法,其特征在于,URL类别库中的各URL还各自对应有预测概率;
根据下一层级的URL的预测类别和预测概率确定其上一层级的URL的预测类别和预测概率,具体为:
从所述URL类别库中获取其上一层级URL为待预测类别和概率的URL的所有URL;
对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值;
将加权平均值最高的预测类别确定为该待预测URL的预测类别,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。
6.如权利要求1所述的方法,其特征在于,当所述URL类别库中增加了新的URL时,生成该URL的上层URL,并根据所述URL的上层URL查询URL类别库,若查询到匹配的URL,则更新该上层URL的预测类别;若未查询到匹配的URL,在URL类别库中记录该上层URL及对应的预测类别。
7.如权利要求1所述的方法,其特征在于,确定URL的上一层级URL,具体为:
根据URL中的分隔符对URL进行层级划分,并将该URL从末位向前的预设数量分隔符之前的字段作为该URL的上一层级URL。
8.一种网页分类设备,其特征在于,应用于基于统一资源定位符URL类别库实现的网页分类流程,所述URL类别库中记录有各层级URL及各URL的预测类别,其中,相邻层级的URL中的上层URL是在下层URL的基础上截取得到的,该设备包括:
上层URL生成模块,用于根据待分类网页的URL,生成该URL的上层URL;
查询模块,用于根据待分类网页的URL查询URL类别库;如果未查询到匹配的URL,则根据该URL的上层URL查询URL类别库;
确定模块,用于在所述查询模块查询到匹配的URL时,根据查询到的URL的预测类别确定待分类网页的类别;
其中,还包括:URL类别库维护模块;
所述上层URL生成模块具体用于,遍历所述URL类别库中的URL,并当遍历到一个URL时,从所述URL类别库中选择该URL,并根据选择出的URL生成该URL的上一层级URL;
所述查询模块具体用于,根据所述上层URL生成模块生成的上一层级URL查询URL类别库;
所述URL类别维护模块用于,当所述查询模块未查询到匹配的URL时,确定该上一层级URL的预测类别,并将该上一层级URL及其预测类别记录在所述URL类别库中。
9.如权利要求8所述的设备,其特征在于,
所述上层URL生成模块具体用于,当所述查询模块未查询到匹配的URL时,生成该URL的上一层级URL;
所述查询模块具体通过以下流程查询待分类网页的URL的上层URL的预测类别:
步骤A、获取该URL的上一层级URL,查询URL类别库中是否记录有该上一层级URL;
步骤B、若查询到URL类别库中记录有相同的URL,则转至步骤C;否则转至步骤A;
步骤C、获取查询到的URL的预测类别;
所述确定模块具体用于,将所述查询模块查询到的URL预测类别确定为所述待分类网页的类别。
10.如权利要求8-9之一所述的设备,其特征在于,所述URL类别库维护模块具体用于,根据URL的下一层级URL的预测类别确定除最低层级以外其余层级的URL的预测类别。
11.如权利要求10所述的设备,其特征在于,所述URL类别库维护模块具体用于,从所述URL类别库中获取其上一层级URL为待预测类别的URL的所有URL;确定获取到的URL中各预测类别的URL的数量;将其中URL数量最多的预测类别确定为该待预测类别的URL的预测类别。
12.如权利要求10所述的设备,其特征在于,URL类别库中的各URL还各自对应有预测概率;
所述URL类别库维护模块具体用于,从所述URL类别库中获取其上一层级URL为待预测类别和概率的URL的所有URL;对于每一预测类别的URL,计算该预测类别中的各URL的预测概率的加权平均值;将加权平均值最高的预测类别确定为该待预测URL的预测类别,并将该预测类别的URL的预测概率的平均值确定为该待预测URL的预测概率。
13.如权利要求10所述的设备,当所述URL类别库中增加了新的URL时,
所述上层URL生成模块还用于,生成该URL的上层URL;
所述查询模块具体用于,根据所述URL的上层URL查询URL类别库;
所述URL类别库维护模块具体用于,若所述查询模块查询到匹配的URL,则更新上层URL的预测类别;若所述查询模块未查询到匹配的URL,则在URL类别库中记录该上层URL及对应的预测类别。
14.如权利要求8所述的设备,其特征在于,所述上层URL生成模块具体用于,根据URL中的分隔符对URL进行层级划分,并将该URL从末位向前的预设数量分隔符之前的字段作为该URL的上一层级URL。
CN201110249270.2A 2011-08-26 2011-08-26 一种网页分类方法和设备 Active CN102955810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110249270.2A CN102955810B (zh) 2011-08-26 2011-08-26 一种网页分类方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110249270.2A CN102955810B (zh) 2011-08-26 2011-08-26 一种网页分类方法和设备

Publications (2)

Publication Number Publication Date
CN102955810A CN102955810A (zh) 2013-03-06
CN102955810B true CN102955810B (zh) 2015-12-02

Family

ID=47764622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110249270.2A Active CN102955810B (zh) 2011-08-26 2011-08-26 一种网页分类方法和设备

Country Status (1)

Country Link
CN (1) CN102955810B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776825A (zh) * 2016-11-24 2017-05-31 竹间智能科技(上海)有限公司 基于层级映射的用户偏好实体分类方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置
CN103914534B (zh) * 2014-03-31 2017-03-15 郭磊 基于专家系统url分类知识库的文本内容分类方法
CN106294443A (zh) * 2015-05-28 2017-01-04 上海池乐信息科技有限公司 一种基于知识库的url分类识别方法及系统
CN106294442A (zh) * 2015-05-28 2017-01-04 上海池乐信息科技有限公司 一种基于url的互联网信息分类识别方法及系统
CN106528556B (zh) * 2015-09-10 2019-07-30 北京国双科技有限公司 网站访问数据的分析方法及装置
CN105912736A (zh) * 2016-06-28 2016-08-31 迈普通信技术股份有限公司 一种统一资源定位符url分类方法及装置
CN107545020A (zh) * 2017-05-10 2018-01-05 新华三信息安全技术有限公司 一种网页分类的确定方法及装置
CN110472125B (zh) * 2019-08-23 2022-04-01 厦门商集网络科技有限责任公司 一种基于网络爬虫的多级页面的级联爬取方法和设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565350B2 (en) * 2006-06-19 2009-07-21 Microsoft Corporation Identifying a web page as belonging to a blog
CN101630330A (zh) * 2009-08-14 2010-01-20 苏州锐创通信有限责任公司 一种网页分类方法
CN1592229B (zh) * 2003-08-25 2010-10-06 微软公司 基于url的电子通讯和网页过滤
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1592229B (zh) * 2003-08-25 2010-10-06 微软公司 基于url的电子通讯和网页过滤
US7565350B2 (en) * 2006-06-19 2009-07-21 Microsoft Corporation Identifying a web page as belonging to a blog
CN101872347A (zh) * 2009-04-22 2010-10-27 富士通株式会社 判断网页类型的方法和装置
CN101630330A (zh) * 2009-08-14 2010-01-20 苏州锐创通信有限责任公司 一种网页分类方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106776825A (zh) * 2016-11-24 2017-05-31 竹间智能科技(上海)有限公司 基于层级映射的用户偏好实体分类方法及系统

Also Published As

Publication number Publication date
CN102955810A (zh) 2013-03-06

Similar Documents

Publication Publication Date Title
CN102955810B (zh) 一种网页分类方法和设备
US7779001B2 (en) Web page ranking with hierarchical considerations
CN102117321B (zh) 主题区讨论的自动发现聚集和组织
US9449271B2 (en) Classifying resources using a deep network
US7672943B2 (en) Calculating a downloading priority for the uniform resource locator in response to the domain density score, the anchor text score, the URL string score, the category need score, and the link proximity score for targeted web crawling
KR101114023B1 (ko) 확장형 문서 검색을 위한 콘텐츠 전파
US8645369B2 (en) Classifying documents using implicit feedback and query patterns
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
US20110264651A1 (en) Large scale entity-specific resource classification
US8543533B2 (en) Inferring influence and authority
CN103329151A (zh) 基于话题聚类的推荐
CN1702654A (zh) 计算显示页面中块的重要度的方法和系统
CN103177090A (zh) 一种基于大数据的话题检测方法及装置
Cacheda et al. A case study of distributed information retrieval architectures to index one terabyte of text
Saravanan et al. Improve efficient keywords searching data retrieval process in cloud server
Yen The design and evaluation of accessibility on web navigation
CN101211368A (zh) 一种对查询词分类的方法、装置及搜索引擎系统
CN108446296A (zh) 一种信息处理方法及装置
Lai et al. Question routing by modeling user expertise and activity in cQA services
Sulaiman et al. An implementation of rough set in optimizing mobile Web caching performance
Rong et al. Direct out-of-memory distributed parallel frequent pattern mining
Mukhopadhyay et al. Domain-specific crawler design
Huang et al. Location-aware query reformulation for search engines
Pandya et al. Review Paper on Web Page Prediction Using Data Mining
Oldenburg et al. Comparative analysis of tag suggestion algorithms

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20170223

Address after: Kolding road high tech Zone of Suzhou City, Jiangsu Province, No. 78 215163

Patentee after: CHINA MOBILE (SUZHOU) SOFTWARE TECHNOLOGY CO., LTD.

Patentee after: China Mobile Communications Co., Ltd.

Patentee after: Chellona Mobile Communications Corporation Cmcc

Address before: 100032 Beijing Finance Street, No. 29, Xicheng District

Patentee before: Chellona Mobile Communications Corporation Cmcc