CN103631906A - 一种识别网页url中页码标识的方法和装置 - Google Patents
一种识别网页url中页码标识的方法和装置 Download PDFInfo
- Publication number
- CN103631906A CN103631906A CN201310606990.9A CN201310606990A CN103631906A CN 103631906 A CN103631906 A CN 103631906A CN 201310606990 A CN201310606990 A CN 201310606990A CN 103631906 A CN103631906 A CN 103631906A
- Authority
- CN
- China
- Prior art keywords
- url
- page
- characteristic
- webpage
- prefix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000007514 turning Methods 0.000 claims abstract description 68
- 239000000284 extract Substances 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000001846 repelling effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明公开了一种识别网页URL中页码标识的方法和装置,所述方法包括:获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL;依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern;基于与指定网页对应的关联网页URL模式pattern,分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分;比较所述指定网页URL与所述关联页URL的页码特征部分,提取不同数字标识部分识别为指定网页URL的页码标识。本发明基于指定网页的URL中和关联URL计算出关联网页URL模式pattern,计算效率高,采用URL的共性部分进行比较,大幅提高召回率。
Description
技术领域
本发明涉及网页数据处理技术领域,具体涉及一种识别网页URL中页码标识的方法、一种识别网页URL中页码标识的装置。
背景技术
随着因特网的发展,愈来愈多的信息是通过网页方式呈现在因特网上供用户查询,同样的通过搜寻引擎在因特网中查询数据也成为最常使用的数据搜寻方法。
搜索引擎收录网页时需要针对不同种类的网页采取不同的调度策略,网页种类的识别是一项基础工作,其中翻页(Page turning)网页的识别是一项比较关键的工作。所谓翻页网页,即查看分页文件的上一个页面、下一个页面或任意存在的非当前页面。翻页网页可以将实体书或者移动Web窗体中的内容进行改变,以观看不同内容。在互联网上运用时该机制还呈现可用于浏览到其他页的用户界面元素。
现有的翻页网页的识别方法是根据网页的URL(Uniform ResourceLocator,统一资源定位符)所包含的关键词来识别是否是索引页。例如,当URL包含有page、pn、p等关键词以及关键词后面有数字时,判断该URL对应的网页为翻页网页。
但是,这种识别方法召回率低,并且很多网站的翻页是不具有这些关键词的,比如“http://cq.ABC.com/lvshi/o12/”、“http://bbs.BCA.com/t661_10”、“http://china.BCD.com/product/20110617/2647”,但是这些网页依然是翻页,使得这些识别方法容易造成误操作,实用性低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种识别网页URL中页码标识的方法和相应的一种识别网页URL中页码标识的装置。
依据本发明的一个方面,提供了一种识别网页URL中页码标识的方法,包括:
获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL;
依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern;
基于与指定网页对应的关联网页URL模式pattern,分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分;
比较所述指定网页URL与所述关联页URL的页码特征部分,提取不同数字标识部分识别为指定网页URL的页码标识。
可选地,所述获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL的步骤包括:
使用翻页特征anchor在指定网页的DOM树节点中进行匹配;
当匹配成功时,则从匹配成功的翻页特征anchor中获取关联URL。
可选地,所述翻页特征anchor对应链接一个或多个关联URL。
可选地,所述依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern的步骤包括:
使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀;
当所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。
可选地,所述使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀的步骤为:
采用相同的通配字符替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀的步骤为:
采用相同的通配字符替换所述关联URL中不同位置的数字块,获得第二特征URL前缀。
可选地,所述使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀的步骤为:
分别采用不同的通配字符,替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀的步骤为:
分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块,获得第二特征URL前缀。
可选地,所述页码标识包括首页标识,所述首页标识包括0、1和/或当前关联网页中的最大数值。
根据本发明的另一方面,提供了一种识别网页URL中页码标识的装置,包括:
关联URL获取模块,适于获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL;
关联网页URL模式pattern计算模块,适于依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern;
页码特征部分确定模块,适于基于与指定网页对应的关联网页URL模式pattern,分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分;
页码标识确定模块,适于比较所述指定网页URL与所述关联页URL的页码特征部分,提取不同数字标识部分识别为指定网页URL的页码标识。
可选地,所述关联URL获取模块还适于:
使用翻页特征anchor在指定网页的DOM树节点中进行匹配;
当匹配成功时,则从匹配成功的翻页特征anchor中获取关联URL。
可选地,所述翻页特征anchor对应链接一个或多个关联URL。
可选地,所述关联网页URL模式pattern计算模块包括:
第一特征URL前缀获得子模块,适于使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
第二特征URL前缀获得子模块,适于使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀;
关联网页URL模式pattern获得子模块,适于在所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。
可选地,所述第一特征URL前缀获得子模块还适于:
采用相同的通配字符替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征URL前缀获得子模块还适于:
采用相同的通配字符替换所述关联URL中不同位置的数字块,获得第二特征URL前缀。
可选地,所述第一特征URL前缀获得子模块还适于:
分别采用不同的通配字符,替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征URL前缀获得子模块还适于:
分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块,获得第二特征URL前缀。
可选地,所述页码标识包括首页标识,所述首页标识包括0、1和/或当前关联网页中的最大数值。
本发明采用翻页特征anchor识别关联网页,识别准确率高,基于指定网页的URL中和关联URL计算出关联网页URL模式pattern,计算效率高,采用URL的共性部分进行比较,大幅提高召回率,在实际应用中可以识别90%以上的关联网页。
本发明使用通配字符替换数字块获得第一特征URL前缀和获得第二特征URL前缀,当所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式,本发明采用URL的共性部分进行匹配,进一步提高了关联网页的识别准确率。
本发明将关联网页URL模式pattern的翻页块替换为首页标识获得首页关联网页的URL,同理,也可以将翻页块替换为其他挂链网页标识获得其他关联网页的URL,从而增加了关联网页的覆盖率,使得能够获取更加全面的关联网页,进而实现了细颗粒度的操作。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的一种识别网页URL中页码标识的方法实施例的步骤流程图;
图2示出了根据本发明一个实施例的一种网页结构示例图;
图3示出了示出了本发明一个实施例的一种翻页块的示例图;以及,
图4示出了根据本发明一个实施例的一种识别网页URL中页码标识的装置实施例的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参照图1,示出了本发明一个实施例的一种识别网页URL中页码标识的方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL;
网页按照功能可以划分为多个区域,以某一个论坛(Bulletin BoardSystem,BBS)的页面为例,如图2所示,该页面可以划分为导航块(1)、垃圾块(2、4)、翻页块(3)、标题块(5)、作者信息块(6)、发表日期块(7)、正文块(8)。其中,导航块可以位于网页页眉顶部,或者banner(网页的横幅广告)下部,用于指向网页的信息栏目。垃圾块可以为与网页主题相关度很低的页面元素所在的区域,例如“发帖”、“回复”等功能按钮。翻页块可以为指示翻页的区域。标题块可以为网页主题的标题(例如图2所示的“安全浏览器聚集黑色星期四”)所在的区域。作者信息块为记载该网页主题作者信息的区域。正文块为记载该网页主题正文的区域。
参照图3,示出了示出了本发明一个实施例的一种翻页块的示例图。
如图3所示,翻页块主要可以由翻页特征anchor组成,翻页特征anchor即翻页特征字符串,其可以为用于标识翻页的页面元素。
在具体实现中,翻页特征anchor可以包括以下的一种或多种:
[<<]、[>>]、[ ]、[ ]、[<<]、[>>]、[>]、[<]、[下一页]、[上一页]、[上一]、[下一]、[next]、[末页]、[尾页]、[前页]、[后页]、[<上一页]、[<上一]、[下一>]、[下一页>]、[1...]。
当然,上述翻页特征anchor只是作为示例,在实施本发明实施例时,可以根据实际情况设置其他翻页特征anchor,本发明实施例对此不加以限制。
在本发明的一种优选实施例中,所述步骤101具体可以包括如下子步骤:
子步骤S11,使用翻页特征anchor在指定网页的DOM树节点中进行匹配;
子步骤S12,当匹配成功时,则从匹配成功的翻页特征anchor中获取关联URL。
DOM(文件对象模型,Document Object Model)是处理可扩展置标语言的标准编程接口。DOM可以以一种独立于平台和语言的方式访问和修改一个文档的内容和结构,是表示和处理一个HTML或XML文档的常用方法。
DOM实际上是以面向对象方式描述的文档模型。DOM定义了表示和修改文档所需的对象、这些对象的行为和属性以及这些对象之间的关系。可以把DOM认为是页面上数据和结构的一个树形表示,不过页面当然可能并不是以这种树的方式具体实现。
通过JavaScript可以重构整个HTML文档,可以添加、移除、改变或重排页面上的项目。
要改变页面的某个东西,JavaScript就需要获得对HTML文档中所有元素进行访问的入口。这个入口,连同对HTML元素进行添加、移动、改变或移除的方法和属性,都是通过文档对象模型来获得的(DOM)。
可以将HTML文档视作树结构,而这种结构被称为节点树(HTMLDOM)。通过HTML DOM,树中的所有节点均可通过JavaScript进行访问。所有HTML元素(节点)均可被修改,也可以创建或删除节点。
节点树中的节点彼此拥有层级关系。可以采用父(parent)、子(child)和同胞(sibling)等术语用于描述这些关系。其中,父节点拥有子节点。同级的子节点被称为同胞(兄弟或姐妹)。在节点树中,顶端节点被称为根(root)。每个节点都有父节点、除了根(它没有父节点)。一个节点可拥有任意数量的子,同胞是拥有相同父节点的节点。
具体可以通过若干种方法在节点树来查找希望操作的网页元素:
例如,可以通过使用getElementById()和getElementsByTagName()方法进行查找。
又例如,可以通过使用一个元素节点的parentNode、firstChild以及lastChild属性。
其中,getElementById()和getElementsByTagName()这两种方法,可查找整个HTML文档中的任何HTML元素。而这两种方法会忽略文档的结构。假如查找文档中所有的<p>元素,getElementsByTagName()会把它们全部找到,不管<p>元素处于文档中的哪个层次。同时,getElementById()方法也会返回正确的元素,不论它被隐藏在文档结构中的什么位置。这两种方法会提供任何所需要的HTML元素,不论它们在文档中所处的位置。
此外,getElementById()可通过指定的ID来返回网页元素。
在具体实现中,可以通过识别该网页的HTML文本DOM树中超链接<a>(anchor,锚点)标识是否包括[<<]、[>>]、[ ]、[ ]、[<<]、[>>]、[>]、[<]、[下一页]、[上一页]、[上一]、[下一]、[next]、[末页]、[尾页]、[前页]、[后页]、[<上一页]、[<上一]、[下一>]、[下一页>]、[1...]中的一种或多种,若是,则判断当前网页具有翻页特征anchor。
其中,<a>可以用于把当前位置的文本或图片连接到其他的页面、文本或图像等。
<a>标识的基本语法结构可以如下:
<a
class=type
id=value
href=reference
name=value
rel=same|next|parent|previous
rev=value
target=window
style=value
title=title
onclick=function
onmouseout=function
>
<div id="pgt"class="bm bw0pgs cl">
<span id="fd_page_top">
<div class="pg">
<a
href="forum-99-1.html"class="prev"></a>
<a
href="forum-99-1.html">1</a><strong>2<>
<a
href="forum-99-3.html">3</a>
<a
href="forum-99-4.html">4</a>
<a
href="forum-99-5.html">5</a>
<a
href="forum-99-6.html">6</a>
<a
href="forum-99-7.html">7</a>
<a
href="forum-99-8.html">8</a>
<a
href="forum-99-9.html">9</a>
<a
href="forum-99-10.html">10</a>
<a
href="forum-99-1000.html"class="last">...2107</a>
<label>
<input type="text"name="custompage"class="px"size="2"title="输入页码,按回车快速跳转"value="2">
<span title="共1000页">/1000页</span>
</label>
<a
href="forum-99-3.html"class="nxt">下一页</a>
</div>
</span>
通过HTML文本中<a>标识的匹配,可以判断该网页具有一个或多个翻页特征anchor。
在实现应用中,所述翻页特征anchor可以对应链接一个或多个关联URL。
具体地,在识别出该一个或多个翻页特征anchor之后,提取该一个或多个翻页特征anchor链接的一个或多个关联URL,该一个或多个关联URL指向其他的与当前网页关联的翻页网页。
步骤102,依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern;
关联网页URL模式Pattern,可以为长相或者功能类似的URL/网页聚在一起形成的集合。
在本发明的一种优选实施例中,所述步骤102具体可以包括如下子步骤:
子步骤S21,使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
子步骤S31,使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀;
需要说明的是,通配字符可以为任意字符,本发明实施例对此不加以限制。间隔标识可以为URL中用于间隔的符号,例如“/”、“.”、“-”、“?”、“:”等等。数字块需要为间隔标识中连续的数字,例如“123ABC”不为数字块。
在本发明实施例的一种优选示例中,所述子步骤S21进一步可以包括如下子步骤:
子步骤S211,采用相同的通配字符替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
与子步骤S211相对应地,所述子步骤S31进一步可以包括如下子步骤:
子步骤S311,采用相同的通配字符替换所述关联URL中不同位置的数字块,获得第二特征URL前缀。
在具体实现中,指定网页的URL和关联URL可以具有一个或多个数字块,为减少替换的操作步骤和系统的资源占用,可以用相同的通配字符替换数字块。
例如,指定网页的URL为http://bbs.XXX.com/forum-99-2.html,关联URL为http://bbs.XXX.com/forum-99-3.html,其中“99”、“2”被识别出为数字块,以“(\d+)”作为通配字符的一种示例,则第一特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\d+).html,第二特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\d+).html。
在本发明的一种实施例中,所述子步骤S21进一步可以包括如下子步骤:
子步骤S212,分别采用不同的替换字符,替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
与子步骤S212相对应地,所述子步骤S31进一步可以包括如下子步骤:
子步骤S312,分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块,获得第二特征URL前缀。
在具体实现中,指定网页的URL和关联URL可以具有一个或多个数字块,为提高后续第一特征URL前缀与第二特征URL是否相同的判断以及对数字块的标识的效率,可以采用不同的通配字符替换数字块。
例如,指定网页的URL为http://bbs.XXX.com/forum-99-2.html,关联URL为http://bbs.XXX.com/forum-99-3.html,其中“99”、“2”被识别出为数字块,以“(\d+)”、“(\e+)”作为替换字符的一种示例,则第一特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\e+).html,第二特征URL前缀可以为http://bbs.XXX.com/forum-(\d+)-(\e+).html。
子步骤S41,当所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。
在实际应用中,当第一特征URL前缀与第二特征URL前缀相同时,可以判定指定网页的和关联URL对应的网页为关联的翻页网页。
因为第一特征URL前缀和第二特征URL相同,则以第一特征URL前缀或第二特征URL前缀作为关联网页URL模式Pattern均可。
步骤103,基于与指定网页对应的关联网页URL模式pattern,分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分;
在实际应用中,URL可以包括以下的一种或多种结构:
1、protocol(协议):指定使用的传输协议,最常用的是HTTP协议,它也是目前WWW中应用最广的协议。具体地,传输协议包括file协议(资源是本地计算机上的文件,格式为file:///)、ftp协议(通过FTP访问资源,格式为FTP://)、gopher(通过Gopher协议访问资源)、http协议(通过HTTP访问资源,格式为HTTP://)、https协议(通过安全的HTTPS访问资源,格式为HTTPS://)等等。
2、hostname(主机名):指存放资源的服务器的域名系统(DNS)主机名或IP地址。有时,在主机名前也可以包含连接到服务器所需的用户名和密码(格式为username:password)。
3、port(端口号):省略时使用方案的默认端口,各种传输协议都有默认的端口号,如http的默认端口为80。如果输入时省略,则使用默认端口号。有时候出于安全或其他考虑,可以在服务器上对端口进行重定义,即采用非标准端口号,此时,URL中就不能省略端口号这一项。
4、path(路径):由零或多个“/”符号隔开的字符串,一般用来表示主机上的一个目录或文件地址。
5、parameters(参数):可以用于指定特殊参数的可选项。
6、query(查询):可以用于给动态网页(如使用CGI、ISAPI、PHP/JSP/ASP/ASP.NET等技术制作的网页)传递参数,可有多个参数,用“&”符号隔开,每个参数的名和值用“=”符号隔开。
7、fragment(信息片断):可以用于指定网络资源中的片断。例如一个网页中有多个名词解释,可使用fragment直接定位到某一名词解释。
在具体实现中,通过对多个关联网页URL模式中的共性部分进行结构分析,提取关联网页URL模式中的翻页块,然后将所述翻页块替换为首页标识获得首页关联网页的URL。
通过对关联网页URL模式pattern中的共性部分进行结构分析,可以确定关联网页URL模式pattern中的页码特征部分,即翻页块,具体可以为多个关联网页URL模式pattern中位置相同但数字不同的数字块。
步骤104,比较所述指定网页URL与所述关联页URL的页码特征部分,提取不同数字标识部分识别为指定网页URL的页码标识。
在具体实现中,所述页码标识可以包括首页标识,所述首页标识可以包括0、1和/或当前关联网页中的最大数值。
在提取关联网页URL模式中的翻页块后可以将所述翻页块替换为首页标识获得首页关联网页的URL。
例如,对于上述示例的关联网页URL模式—http://bbs.XXX.com/forum-(\d+)-(\e+).html,在识别出(\e+)为翻页块,然后将翻页块替换为首页标识后,获得首页关联网页的URL—http://bbs.XXX.com/forum-99-1.html。
在本发明实施例的一种优选示例中,所述首页标识可以包括0、1和/或当前关联网页中的最大数值。
在具体实现中,关联网页中的首页关联网页一般会记载有重要的内容,例如图3所示的正文块,因此首页关联网页的重要性比较高,因此获知首页关联网页具有比较重要的意义。而不同的网站会采用不同的翻页结构,造成了首页关联网页的不同。例如,某些网站会采用第0页作为首页关联网页,某些网站会采用第1页作为首页关联网页,某些网站会采用最大页(例如图3所示的2100)作为首页关联网页,等等。
当然,上述首页关联网页只是作为示例,在实施本发明实施例时,可以根据实际情况将数字快替换为任一关联网页的标识获取对应的关联网页,本发明实施例对此不一一加以详述。
本发明采用翻页特征anchor识别关联网页,识别准确率高,基于指定网页的URL中和关联URL计算出关联网页URL模式pattern,计算效率高,采用URL的共性部分进行比较,大幅提高召回率,在实际应用中可以识别90%以上的关联网页。
本发明使用通配字符替换数字块获得第一特征URL前缀和获得第二特征URL前缀,当所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式,本发明采用URL的共性部分进行匹配,进一步提高了关联网页的识别准确率。
本发明将关联网页URL模式pattern的翻页块替换为首页标识获得首页关联网页的URL,同理,也可以将翻页块替换为其他挂链网页标识获得其他关联网页的URL,从而增加了关联网页的覆盖率,使得能够获取更加全面的关联网页,进而实现了细颗粒度的操作。
对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
参照图4,示出了本发明一个实施例的一种识别网页URL中页码标识的装置实施例的结构框图,具体可以包括如下模块:
关联URL获取模块401,适于获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL;
关联网页URL模式pattern计算模块402,适于依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern;
页码特征部分确定模块403,适于基于与指定网页对应的关联网页URL模式pattern,分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分;
页码标识确定模块404,适于比较所述指定网页URL与所述关联页URL的页码特征部分,提取不同数字标识部分识别为指定网页URL的页码标识。
在本发明的一种优选实施例中,所述关联URL获取模块401还可以适于:
使用翻页特征anchor在指定网页的DOM树节点中进行匹配;
当匹配成功时,则从匹配成功的翻页特征anchor中获取关联URL。
在本发明的一种优选实施例中,所述翻页特征anchor可以对应链接一个或多个关联URL。
在本发明的一种优选实施例中,所述关联网页URL模式pattern计算模块402具体包括如下子模块:
第一特征URL前缀获得子模块,适于使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
第二特征URL前缀获得子模块,适于使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀;
关联网页URL模式pattern获得子模块,适于在所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。
在本发明的一种优选实施例中,所述第一特征URL前缀获得子模块还可以适于:
采用相同的通配字符替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征URL前缀获得子模块还可以适于:
采用相同的通配字符替换所述关联URL中不同位置的数字块,获得第二特征URL前缀。
在本发明的一种优选实施例中,所述第一特征URL前缀获得子模块还可以适于:
分别采用不同的通配字符,替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述第二特征URL前缀获得子模块还可以适于:
分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块,获得第二特征URL前缀。
在本发明的一种优选实施例中,所述页码标识可以包括首页标识,所述首页标识可以包括0、1和/或当前关联网页中的最大数值。
对于图4的装置实施例而言,由于其与图1的方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的识别网页URL中页码标识的设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (10)
1.一种识别网页URL中页码标识的方法,包括:
获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL;
依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern;
基于与指定网页对应的关联网页URL模式pattern,分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分;
比较所述指定网页URL与所述关联页URL的页码特征部分,提取不同数字标识部分识别为指定网页URL的页码标识。
2.如权利要求1所述的方法,其特征在于,所述获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL的步骤包括:
使用翻页特征anchor在指定网页的DOM树节点中进行匹配;
当匹配成功时,则从匹配成功的翻页特征anchor中获取关联URL。
3.如权利要求1所述的方法,其特征在于,所述翻页特征anchor对应链接一个或多个关联URL。
4.如权利要求1或2或3所述的方法,其特征在于,所述依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern的步骤包括:
使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀;其中,所述数字块为被间隔标识分割出的单个数字或多个数字;
使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀;
当所述第一特征URL前缀与所述第二特征URL前缀相同时,将所述第一特征URL前缀或第二特征URL前缀作为关联网页URL模式pattern。
5.如权利要求4所述的方法,其特征在于,所述使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀的步骤为:
采用相同的通配字符替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀的步骤为:
采用相同的通配字符替换所述关联URL中不同位置的数字块,获得第二特征URL前缀。
6.如权利要求4所述的方法,其特征在于,所述使用通配字符替换指定网页的URL中的数字块,获得第一特征URL前缀的步骤为:
分别采用不同的通配字符,替换指定网页的URL中不同位置的数字块,获得第一特征URL前缀;
所述使用通配字符替换所述关联URL中的数字块,获得第二特征URL前缀的步骤为:
分别采用与第一特征URL相同的通配字符替换所述关联URL在相同位置的数字块,获得第二特征URL前缀。
7.如权利要求1所述的方法,其特征在于,所述页码标识包括首页标识,所述首页标识包括0、1和/或当前关联网页中的最大数值。
8.一种识别网页URL中页码标识的装置,包括:
关联URL获取模块,适于获取指定网页的页面元素中翻页特征anchor对应链接到的关联URL;
关联网页URL模式pattern计算模块,适于依据所述指定网页的URL和所述关联URL计算关联网页URL模式pattern;
页码特征部分确定模块,适于基于与指定网页对应的关联网页URL模式pattern,分别确定所述指定网页URL的页码特征部分以及所述关联URL中的页码特征部分;
页码标识确定模块,适于比较所述指定网页URL与所述关联页URL的页码特征部分,提取不同数字标识部分识别为指定网页URL的页码标识。
9.如权利要求8所述的装置,其特征在于,所述关联URL获取模块还适于:
使用翻页特征anchor在指定网页的DOM树节点中进行匹配;
当匹配成功时,则从匹配成功的翻页特征anchor中获取关联URL。
10.如权利要求8所述的装置,其特征在于,所述翻页特征anchor对应链接一个或多个关联URL。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310606990.9A CN103631906A (zh) | 2013-11-25 | 2013-11-25 | 一种识别网页url中页码标识的方法和装置 |
PCT/CN2014/086522 WO2015074455A1 (zh) | 2013-11-25 | 2014-09-15 | 一种计算关联网页URL模式pattern的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310606990.9A CN103631906A (zh) | 2013-11-25 | 2013-11-25 | 一种识别网页url中页码标识的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103631906A true CN103631906A (zh) | 2014-03-12 |
Family
ID=50212947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310606990.9A Pending CN103631906A (zh) | 2013-11-25 | 2013-11-25 | 一种识别网页url中页码标识的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103631906A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015074455A1 (zh) * | 2013-11-25 | 2015-05-28 | 北京奇虎科技有限公司 | 一种计算关联网页URL模式pattern的方法和装置 |
CN104965902A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种富集化url的识别方法和装置 |
WO2015169193A1 (zh) * | 2014-05-04 | 2015-11-12 | 丘炎卫 | 支持多媒体电子产品与互联网联接的ptp交互关联系统 |
CN105095386A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 确定网页质量的装置及方法 |
CN108182398A (zh) * | 2017-12-26 | 2018-06-19 | 广东金赋科技股份有限公司 | 基于扫描设备调整扫描图像的方向的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053979A (zh) * | 2009-10-27 | 2011-05-11 | 华为技术有限公司 | 一种信息收集方法和系统 |
CN102123168A (zh) * | 2011-01-14 | 2011-07-13 | 广州市动景计算机科技有限公司 | 基于中转服务器的网页页面预读及整合方法和系统 |
CN102567407A (zh) * | 2010-12-22 | 2012-07-11 | 北大方正集团有限公司 | 一种论坛回帖增量采集方法及系统 |
CN102810110A (zh) * | 2012-05-07 | 2012-12-05 | 北京京东世纪贸易有限公司 | 获取网络文本数据的方法和系统 |
CN103049557A (zh) * | 2012-12-31 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种站点资源管理方法及装置 |
CN103150358A (zh) * | 2013-02-27 | 2013-06-12 | 三星半导体(中国)研究开发有限公司 | 在移动设备中进行连续网页浏览的装置和方法 |
CN103258032A (zh) * | 2013-05-10 | 2013-08-21 | 清华大学 | 平行网页获取方法及装置 |
-
2013
- 2013-11-25 CN CN201310606990.9A patent/CN103631906A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102053979A (zh) * | 2009-10-27 | 2011-05-11 | 华为技术有限公司 | 一种信息收集方法和系统 |
CN102567407A (zh) * | 2010-12-22 | 2012-07-11 | 北大方正集团有限公司 | 一种论坛回帖增量采集方法及系统 |
CN102123168A (zh) * | 2011-01-14 | 2011-07-13 | 广州市动景计算机科技有限公司 | 基于中转服务器的网页页面预读及整合方法和系统 |
CN102810110A (zh) * | 2012-05-07 | 2012-12-05 | 北京京东世纪贸易有限公司 | 获取网络文本数据的方法和系统 |
CN103049557A (zh) * | 2012-12-31 | 2013-04-17 | 百度在线网络技术(北京)有限公司 | 一种站点资源管理方法及装置 |
CN103150358A (zh) * | 2013-02-27 | 2013-06-12 | 三星半导体(中国)研究开发有限公司 | 在移动设备中进行连续网页浏览的装置和方法 |
CN103258032A (zh) * | 2013-05-10 | 2013-08-21 | 清华大学 | 平行网页获取方法及装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015074455A1 (zh) * | 2013-11-25 | 2015-05-28 | 北京奇虎科技有限公司 | 一种计算关联网页URL模式pattern的方法和装置 |
WO2015169193A1 (zh) * | 2014-05-04 | 2015-11-12 | 丘炎卫 | 支持多媒体电子产品与互联网联接的ptp交互关联系统 |
CN104965902A (zh) * | 2015-06-30 | 2015-10-07 | 北京奇虎科技有限公司 | 一种富集化url的识别方法和装置 |
CN105095386A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 确定网页质量的装置及方法 |
CN108182398A (zh) * | 2017-12-26 | 2018-06-19 | 广东金赋科技股份有限公司 | 基于扫描设备调整扫描图像的方向的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101534306B (zh) | 一种钓鱼网站的检测方法及装置 | |
US20180165364A1 (en) | Content Validation And Coding For Search Engine Optimization | |
CN101211364B (zh) | 用于万维网页中暴露的资源的公共书签的方法和系统 | |
CN107066576B (zh) | 一种大数据网络爬虫分页选择方法和系统 | |
CN100442283C (zh) | 面向领域基于样本的互联网结构化数据抽取方法及其系统 | |
CN102436563A (zh) | 一种检测页面篡改的方法及装置 | |
CN102664925B (zh) | 一种展现搜索结果的方法及装置 | |
CN106844635A (zh) | 网页中的元素的编辑方法及装置 | |
CN103631906A (zh) | 一种识别网页url中页码标识的方法和装置 | |
CN102880711A (zh) | 浏览器地址栏中输入数据的处理方法和处理装置 | |
CN102314494B (zh) | 一种用于处理网页内容的方法和设备 | |
CN103577566A (zh) | 一种网页阅读内容加载方法和装置 | |
CN103034707A (zh) | 网址导航方法、装置与浏览器客户端 | |
CN103389972A (zh) | 一种基于简易信息聚合获取正文的方法及装置 | |
CN103678509A (zh) | 生成网页模板的方法及装置 | |
CN102982118A (zh) | 一种基于收藏夹的搜索方法和装置 | |
CN103617225B (zh) | 一种关联网页搜索方法和系统 | |
CN102567521A (zh) | 网页数据抓取过滤方法 | |
WO2015074455A1 (zh) | 一种计算关联网页URL模式pattern的方法和装置 | |
CN102970339A (zh) | 一种显示网址的方法和浏览器 | |
CN103618742A (zh) | 获取子域名的方法和系统以及网站管理员权限验证方法 | |
CN103617229A (zh) | 一种关联网页数据库的建立方法和装置 | |
CN103617228A (zh) | 一种计算关联网页URL模式pattern的方法和装置 | |
CN105306462A (zh) | 网页链接检测方法及装置 | |
CN110719344B (zh) | 域名获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140312 |
|
RJ01 | Rejection of invention patent application after publication |