WO2012083870A1

WO2012083870A1 - 一种论坛回帖增量采集方法及系统

Info

Publication number: WO2012083870A1
Application number: PCT/CN2011/084457
Authority: WO
Inventors: 吴新丽; 杨建武
Original assignee: 北大方正集团有限公司; 北京大学; 北京北大方正电子有限公司; 北京北大方正技术研究院有限公司
Priority date: 2010-12-22
Filing date: 2011-12-22
Publication date: 2012-06-28
Also published as: JP2014506355A; CN102567407B; US20150127644A1; US9552435B2; EP2657854A1; CN102567407A; JP5702474B2; WO2012083870A9; EP2657854A4

Description

技术领域

本发明属于网络信息釆集技术领域，具体涉及一种论坛回帖增量釆集方法及系统。背景技术

随着互联网的出现，尤其网络论坛、网络社区的广泛开设，使得全世界范围的人群都可以在一起自由地发表、交流各种观点。中国的网络论坛达到一百多万个，并且 80%的网站拥有独立的论坛，经常浏览网络论坛的人数已经过亿。不同于其他的形式，网络论坛具有速度快、范围广的特点。一个受人瞩目的话题可能在艮短的时间内达到上万名网民的回帖讨论，回帖信息达到成百上千页。此时，用户不仅仅想查看话题的发起者的言论即主帖的内容，更想看到其他网民对该话题所发表的言论。然而，通过一般的搜索引擎艮难查询到翻页的回帖信息，即使有时能够查询到，在时效性上也艮不理想，数据延迟较大。现有的论坛釆集系统也只是釆集帖子的首页信息，而不釆集帖子的回帖信息。发明内容

针对现有技术中存在的缺陷，本发明所要解决的技术问题是提供一种论坛回帖增量釆集方法及系统，该方法及系统能够快速、准确、完整地釆集一篇帖子的所有主 /回帖信息，克服了现有搜索引擎在搜索帖子的翻页回帖信息时存在漏搜或者搜索不到的缺陷，以及现有论坛釆集系统只釆集帖子的首页信息而不釆集回帖信息的缺陷。为解决上述技术问题，本发明釆用的技术方案如下：

一种论坛回帖增量釆集方法，包括以下步骤：

( 1 )根据帖子首页 URL和帖子回复数信息，周期性判断所有需要釆集的论坛列表页中是否存在新增帖子和 /或具有新回帖的帖子；

( 2 )如果存在新增帖子，则从新增帖子中提取出主贴和回帖信息；如果存在具有新回帖的帖子，则计算新回帖起点和新回帖个数，根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。一种论坛回帖增量釆集系统，包括用于根据帖子首页 URL和帖子回复数信息，周期性判断所有需要釆集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置；

用于对新增帖子，从新增帖子中提取出主贴和回帖信息；对具有新回帖的帖子，计算新回帖起点和新回帖个数，艮据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信, 的提取装置。本发明所述的方法及系统，通过周期性监控列表页的方式，能够及时获取列表页中的新增回帖和具有新回帖的帖子信息；通过 URL标识和回复数信息进行快速消重处理，避免重复釆集；通过区分不同的翻页链接提取方式达到快速进行翻页回帖釆集的目的；从而能够快速、准确、完整地釆集一篇帖子的所有主 /回帖信息。回帖的漏釆率在 5%以下，实时性可达分钟级。附图说明

图 1是具体实施方式中论坛回帖增量釆集系统的结构框图；图 2是具体实施方式中论坛回帖增量釆集方法的流程图；

图 3是具体实施方式中判断列表页中是否存在新增帖子和具有新回帖的帖子的方法流程图；

图 4是具体实施方式中从新增帖子中提取出主贴和回帖信息，从具有新回帖的帖子中提取出新回帖信, 的方法流程图。具体实施方式

下面结合附图及具体实施方式对本发明进行进一步的说明。

如图 1 所示，本实施方式中论坛回帖增量釆集系统包括判断装置 11 , 与判断装置 11连接的提取装置 12。其中，判断装置 11包括第一队列单元 111、第一获取单元 112、列表页提取单元 113和判断单元 114。提取装置 12包括第二队列单元 121、扫描单元 122、第二获取单元 123、内容页提取单元 124和消重单元 125。

判断装置 11用于根据帖子首页 URL和帖子回复数信息，周期性判断所有需要釆集的论坛列表页中是否存在新增帖子和具有新回帖的帖子。其中，第一队列单元 111 用于将所有需要釆集的论坛列表页 URL 添加到列表页釆集队列。第一获取单元 112用于从列表页釆集队列中取出每个列表页 URL。列表页提取单元 113 用于对取出的每个列表页 URL, 获取该列表页 URL对应的网页内容，从所述网页内容中提取出每个帖子首页 URL和当前回复数。判断单元 113用于根据帖子首页 URL 判断每个帖子在已釆集帖子信息表中是否存在；如果存在，则继续判断该帖子当前回复数是否大于已釆集帖子信息表中记录的本次回复数，如果大于，则该帖子有新回帖，更新已釆集帖子信息表中该帖子的上次回复数和本次回复数；如果该帖子在已釆集帖子信息表中不存在，则该帖子为新增帖子，将该帖子首页 URL和当前回复数添加到已釆集帖子信息表中。

提取装置 12用于对新增帖子，从新增帖子中提取出主贴和回帖信息；对具有新回帖的帖子，计算新回帖起点和新回帖个数，根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。其中，第二队列单元 121用于将新增帖子的首页 URL和具有新回帖的帖子 URL 添加到内容页釆集队列。扫描单元 122用于定时扫描内容页釆集队列。第二获取单元 123用于从内容页釆集队列中取出每个 URL。内容页提取单元 124用于获取 URL对应的网页内容，并从所述网页内容中提取主贴和 /或回帖和 /或翻页 URL。消重单元 125用于对论坛翻页方式为下一页翻页方式时从网页内容中提取的翻页 URL进行消重处理。第二队列单元 121还用于将消重后的翻页 URL添加到内容页釆集队列。如图 2所示，本实施方式中基于图 1所示系统的论坛回帖增量釆集方法的流程，包括以下步骤：

( 1 )判断装置 11周期性判断所有需要釆集的论坛列表页中是否存在新增帖子和 /或具有新回帖的帖子。如图 3所示，本实施方式中釆用的判断方法包括以下步骤：

( a )第一队列单元 111将所有需要釆集的论坛列表页 URL添加到列表页釆集队列。所述列表页是指论坛中包含所有帖子标题、 URL (统一资源定位符）、点击数、回复数等信息的列表页面，不包括帖子的具体内容。如搜狐论坛的财经大杂烩频道的列表页，其 URL如下：

http://club.business.sohu.com/l-enjoy-0-0-0-0.htrnlo

再如人民网强国社区的国际论坛频道的列表页，其 URL如下： http://bbsl. people. com.cn/boardList.do?action=postList&boardId=6。本实施方式中，对每个需要釆集的论坛列表页均设定釆集时间间隔，如每隔 5分钟釆集一次；监控每个列表页的釆集时间间隔；当某个列表页达到釆集时间间隔时，便将该列表页 URL添加到列表页釆集队列。

优选的，刷新间隔根据论坛的更新频率动态调整；论坛的更新频率越快，刷新间隔越短；论坛的更新频率越慢，则刷新间隔越长。如预先设定每隔 5分钟釆集一次，在后续釆集过程中，如果发现论坛更新频率增加，则将刷新间隔缩短为 3分钟，进而缩短为 1分钟或更短。

论坛的更新频率的计算方法可参见中国专利申请 "一种网页数据信息的定向釆集方法及装置"（申请号： 201010236363.7 ), 此处不再赘述。

( b )第一获取单元 112从列表页釆集队列中取出每个列表页 URL。本实施方式中，从列表页釆集队列中取出列表页 URL釆用的方法为：定时扫描列表页釆集队列（扫描间隔时间可由用户根据具体应用情况设置），如果列表页釆集队列不空，则按照先进先出顺序依次从列表页釆集队列中取出列表页 URL (从队列中取出 URL后，该 URL便会自动从队列中删除），并且满足该列表页 URL所属网站的友好访问条件。如果某列表页 URL不满足该列表页 URL所属网站的友好访问条件，则在本次扫描中忽略该列表页 URL, 继续判断下一个列表页 URL, 该列表页 URL留待后续扫描中处理。网站的友好反问条件包括当前访问数量限制和访问的时间间隔限制。判断是否满足网站的友好反问条件的方法可参见中国专利申请 "一种从网站中多个不同 IP的服务器抓取网页的方法及系统 " （申请号： 201010546334.0 ), 此处不再赘述。

( c ) 列表页提取单元 113对取出的每个列表页 URL, 获取该列表页 URL对应的网页内容；再从网页内容中提取出每个帖子首页 URL和当前回复数。

根据每个列表页的 URL,向该 URL所属网站发送获取该 URL对应网页内容的 HTTP请求，然后接收返回的网页内容。从网页内容中提取帖子首页 URL和当前回复数为现有技术，此处不再赘述。

( d )判断单元 113根据帖子首页 URL判断该帖子在已釆集帖子信息表中是否存在。如果存在，则说明该帖子已釆集过，继续判断该帖子当前回复数是否大于已釆集帖子信息表中记录的本次回复数。如果大于，则说明该帖子有新回帖，在已釆集帖子信息表中更新该帖子的上次回复数和本次回复数，即用已釆集帖子信息表中该帖子的本次回复数的数值替换上次回复数的数值，用该帖子当前回复数的数值替换已釆集帖子信息表中该帖子的本次回复数的数值。如果不大于，则说明该帖子没有新回帖，抛弃该 URL不作任何后续处理。如果该帖子在已釆集帖子信息表中不存在，则说明该帖子为新增帖子，将该帖子首页 URL和当前回复数添加到已釆集帖子信息表中，该帖子的上次回复数为 0, 本次回复数为当前回复数。

已釆集帖子信息表中存储有已釆集帖子首页 URL和已釆集帖子的上次回复数和本次回复数，其结构如下表所示：

优选的，在已釆集帖子信息表中存储帖子首页 URL的标识信息，如 MD5码。通过比较标识信息确定帖子首页 URL在已釆集帖子信息表中是否存在。这样可以提高 URL的比较效率。

( 2 )在所有需要釆集的论坛列表页中如果存在新增帖子和 /或具有新回帖的帖子，则提取装置 12从所述新增帖子中提取出主贴和回帖信息，从所述具有新回帖的帖子中提取出新回帖信息。

如图 4所示，本实施方式中釆用的提取方法包括以下步骤：

( i )第二队列单元 121将新增帖子的首页 URL和具有新回帖的帖子 URL添加到内容页釆集队列。

对于新增帖子，如果该帖子首页 URL在内容页釆集队列中存在，则将该帖子首页 URL取出，并将已釆集帖子信息表中记录的该帖子本次回复数修改为当前回复数，再将其插入到内容页釆集队列中。如果该帖子首页 URL在内容页釆集队列中不存在，则直接将该帖子首页 URL 添加到内容页釆集队列。

对于具有新回帖的帖子，如果该帖子所属论坛的翻页方式为计算翻页方式，则直接将具有新回帖的帖子首页 URL添加到内容页釆集队列；如果该帖子所属论坛的翻页方式为下一页翻页方式，则查找该帖子的翻页 URL信息表，将该表中最后一个翻页 URL添加到内容页釆集队列。

所述计算翻页方式是指每页回帖个数确定的翻页方式，如人民网强国社区的国际论坛中的帖子

http://bbsl .people. com.cn/postDetail.do?boardId=6&view= 1 &id=9138 4467便为计算翻页的方式。

所述下一页翻页方式是指每页回帖个数不确定的翻页方式，如天涯杂谈中的帖子

htt ://www. tianya.cn/publicforum/content/free/ 1/1880805. shtml 便为下一页翻页方式。

( ii )扫描单元 122定时扫描内容页釆集队列。扫描间隔时间可由用户根据具体应用情况设置。

( iii )如果内容页釆集队列不空，则第二获取单元 123从内容页釆集队列中取出每个 URL。从队列中取出 URL后，该 URL便会自动从队列中删除。本实施方式中，第二获取单元 123从内容页釆集队列中取 URL的方法与第一获取单元 112从列表页釆集队列中取 URL的方法相同，此处不再赘述。

( iv ) 内容页提取单元 124获取取出的 URL对应的网页内容，并从所述网页内容中提取主贴和 /或回帖和 /或翻页 URL, 并将翻页 URL 添加到内容页釆集队列。

本实施方式中，从网页内容中提取主贴和 /或回帖釆用的具体方法 ^口下：

如果该 URL为帖子首页 URL并且是第一次釆集，即该帖子是新增帖子，则从该 URL对应的网页内容中提取主贴和回帖信息。具体的，首先确定该帖子的主回帖风格是否一致，如果一致，则按照同一抽取方式逐个抽取信息，将抽取的第一个信息作为主帖，其他信息作为回帖；如果不一致，则先按照既定规则抽取主帖信息，然后再抽取每个回帖信息。所述帖子的主回帖风格是否一致由人工设定，所述既定规则是人工设定的关键词或者正则表达式。

如果该 URL为帖子首页 URL但不是第一次釆集，即该帖子是具有新回帖的帖子，则艮据如下公式确定新回帖起点和新回帖个数 C_ParseCmmt , 从新回帖起点 S_F 开始提取 C_P c ί个新回帖信息。 l N_Perf¾ge包含主贴

\ R^_um + 不包含主贴 ― — R 其中表示上次釆集时该帖子的回复数表示该贴子当前的回复数， ^{Ν Ρ} 表示该帖子每页的回帖个数。

如果该 URL不是帖子首页 URL,则进一步判断是否是重叠页 URL 所述重叠页是指该页面内均为回帖信息且部分回帖为新回帖的页面。判断依据为该 URL对应的页码与当前应该提取页的页码相同。当前应该提取页的页码的计算公式如下： N_P¾包含主贴

N_PerPage不包含主贴

其中，表示当前应该提取页的页码； ceil表示向上取整运算。

如果是重叠页，则釆用如下公式计算新回帖起点和新回帖个数 c" 从新回帖起点 S 开始提取 ParseCount个新回帖信息。

I + 1， N_Perf ^包含主贴

S''

I ^不包含主贴

该页是最后一页

该页不是最后一页

其中， "％" 表示取余数运算。

如果该 URL既不是帖子首页 URL, 也不是重叠页 URL, 即该页内容均为新回帖，则釆用如下公式计算新回帖起点和新回帖个数

C , 从新回帖起点开始提取个新回帖信息。

= 0 .

^包含主贴

+ 1, 如果 1 > 0 , 该页是最后一页

NPerPage不包含主贴

如果 U = 0

该页不是最后一页

从网页内容中提取翻页 URL釆用的具体方法如下: ①如果论坛翻页方式为计算翻页方式，且 URL为帖子首页 URL, 则先釆用如下公式计算翻页的起始页码和终止页码，即新回帖所在的起始页码和终止页码。如果 URL不是帖子首页 URL,则不提取翻页 URL。包含主贴

^不包含主贴

ceil RcurNum + ^

N_Perf ^包含主贴

N

N_P¾不包含主贴

I + 1, JV_PerPage包含主贴

S

I 包含主贴

^口果 S_F = 0且 R_PleNum > 0 , 贝 |J令 S _F = N _PerPage , P_Begin = P + 1 , 其中，和 P_End分别为翻页的起始页码和终止页码，表示新回帖起点，从该起点开始至终止页码内的所有回帖均为新回帖。由上述公式计算出翻页的起始页码和终止页码后，结合预设的翻页 URL规则，拼接出所有翻页 URL。

具体的 URL拼接方法为：根据配置的翻页规则、翻页的起始页码、翻页基数来进行翻页 URL的拼接。本实施方式中，在配置的翻页规则中，将翻页的 URL分割成了三个部分，其中第一部分和第三部分为不变部分，分^记为 ^strBef^orePag^e和 ^strAf^terPaS^e；第二部分为变化部分，记为 nPageUp。翻页 _URL的拼接过程的伪代码如下： far (int i = P_Begm； i < P_End； + +) nPageNo = i + nFirstPostPagelndex - 1;

nPageUp = (nPageNo x nPage UsBaseN m) ;

strPostPageUrl = strBeforePage + nPageUp + str After Page; 其中， " "geN。表示新回帖所在页码； nFirstPostPagelndex表示帖千首页页码。在实际论坛中，可能的取值为 0或 1 , 即帖子页码从 0开始编号，首页页码为 0; 或者帖子页码从 1开始编号，帖子首页页码为 1。 "^^⁶ ^表示填写在待拼接 URL内的表示翻页的页码值，即第二部分的数值； "Λ^ ^^Λ^™表示翻页基数。 strPostPageUrl 示拼接后的 URL。

举例说明^!口下：

实例一：

人民网强国社区的国际论坛频道的一篇帖子的 URL为：

http://bbsl .people. com.cn/postDetail.do?boardId=6&view= 1 &id=9138

4467

其翻页链接规则为：

/postDetail\.do\?id=\d+&view=\d+&pageNo=(\d+)&boardId=6 起始页码 nFirstPostPagelndex为 i，翻页基数 nPageUsBaseNum为 i，为 2Q _o

根据翻页链接规则，提取出翻页 URL的第一部分和第三部分，分别为： "/postDetail.do?id=91384467&view=l&pageNo="和 "&boardId=6"。

根据以上信息，支设第一次釆集该帖子时，该帖子已经有了 210个回帖，则拼接获取的翻页 URL共 10个，分别为：

/postDetail.do?id=91384467&view=l&pageNo=2&boardId=6

/postDetail.do?id=91384467&view=l&pageNo=3&boardId=6

/postDetail.do?id=91384467&view=l&pageNo=4&boardId=6

/postDetail.do?id=91384467&view=l&pageNo=ll&boardId=6 百度贴吧的帖子 URL为： http：〃 tieba.baidu.com/f?kz=919731090。其翻页链接规则为：

/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=30。

起始页码为 0, 翻页基数为 30。根据翻页链接规则，提取出翻页

URL的第一部分为：

/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=。第三部分无内容。

N 为 i 根据以上信息，假设第一次釆集该帖子时，该帖子已经有了 210个回帖，则拼接获取的翻页 URL共 6个，分别为：

/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=30

/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=60

/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=90

/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=210 最后将所有拼接好的翻页 URL处理为完整带域名信息的 URL, 再将处理后的所有翻页 URL添加到内容页釆集队列中。 ②如果论坛翻页方式为下一页翻页方式，则从网页内容中提取翻页

URL。如果网页内容中不存在翻页 URL, 则说明该页是最后一页，没有翻页。对于翻页方式为下一页翻页方式，从网页内容中提取出翻页 URL 后，添加到内容页釆集队列之前，消重单元 125对翻页 URL进行消重处理。具体的处理过程如下：

在翻页 URL信息表中查找该翻页 URL所属帖子是否存在。如果不存在，则将该翻页 URL所属帖子的翻页信息插入到翻页 URL信息表中 , 并将翻页 URL添加到内容页釆集队列中。如果存在，则继续判断该帖子的当前翻页页码是否大于翻页 URL信息表中记录的该帖子的翻页页码。如果大于，则在翻页 URL信息表中将该帖子的翻页页码更新为当前翻页页码，并将该翻页 URL添加到内容页釆集任务队列中。如果不大于，则无需更新翻页 URL信息表中该帖子的翻页页码，直接删除该翻页 URL即可。

所述翻页 URL信息表存储帖子首页 URL (或标识信息）、当前已釆集过的翻页页码、当前已釆集过的页面上最后一个回帖位置、当前已釆集过的翻页 URL, 其表头结构如下表所示：

离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

权利要求：

1. 一种论坛回帖增量釆集方法，包括以下步骤：

( 1 )根据帖子首页 URL和帖子回复数信息，周期性判断所有需要釆集的论坛列表页中是否存在新增帖子和具有新回帖的帖子；

( 2 )如果存在新增帖子，则从新增帖子中提取出主贴和回帖信息；如果存在具有新回帖的帖子，则计算新回帖起点和新回帖个数，根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。

2. 如权利要求 1所述的论坛回帖增量釆集方法，其特征在于，步骤（1 ) 中所述周期判断所有需要釆集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的方法如下：

( a )获取所有需要釆集的论坛列表页 URL;

( b )对每个列表页 URL, 获取该列表页 URL对应的网页内容；再从所述网页内容中提取出每个帖子首页 URL和当前回复数；

( c )根据帖子首页 URL判断每个帖子在已釆集帖子信息表中是否存在；如果存在，则继续判断该帖子当前回复数是否大于已釆集帖子信息表中记录的本次回复数，如果大于，则该帖子有新回帖，更新已釆集帖子信息表中该帖子的上次回复数和本次回复数；如果该帖子在已釆集帖子信息表中不存在，则该帖子为新增帖子，将该帖子首页 URL和当前回复数添加到已釆集帖子信息表中。

3. 如权利要求 2所述的论坛回帖增量釆集方法，其特征在于，步骤（a ) 中所述获取所有需要釆集的论坛列表页 URL的方法如下：

对每个需要釆集的论坛列表页均设定釆集时间间隔；监控每个列表页的釆集时间间隔；当某个列表页达到釆集时间间隔时，便将该列表页 URL添加到列表页釆集队列；

定时扫描列表页釆集队列，如果列表页釆集队列不空，则按照先进先出顺序依次从列表页釆集队列中取出列表页 URL。

4. 如权利要求 3所述的论坛回帖增量釆集方法，其特征在于：所述釆集时间间隔根据列表页 URL所属论坛的更新频率动态调整；论坛的更新频率越快，釆集时间间隔越短；论坛的更新频率越慢，釆集时间间隔越长。

5. 如权利要求 3所述的论坛回帖增量釆集方法，其特征在于：所述从列表页釆集队列中取出的列表页 URL需要满足该列表页 URL所属网站的友好访问条件。

6. 如权利要求 2〜5中任一项所述的论坛回帖增量釆集方法，其特征在于，步骤（2 ) 中所述从新增帖子中提取出主贴和回帖信息以及从具有新回帖的帖子中提取出新回帖信息的方法如下：

( i )将新增帖子的首页 URL和具有新回帖的帖子 URL添加到内容页釆集队列；

( ii )定时扫描内容页釆集队列；

( iii )如果内容页釆集队列不空，则从内容页釆集队列中取出每个

URL;

( iv )获取取出的 URL对应的网页内容，并从所述网页内容中提取主贴和 /或回帖信息和 /或翻页 URL, 并将翻页 URL添加到内容页釆集队列。

7. 如权利要求 6所述的论坛回帖增量釆集方法，其特征在于，步骤（i ) 中所述将新增帖子的首页 URL和具有新回帖的帖子 URL添加到内容页釆集队列的方法如下：

对于新增帖子，如果该帖子首页 URL在内容页釆集队列中存在，则将该帖子首页 URL取出，并将已釆集帖子信息表中记录的该帖子本次回复数修改为当前回复数，再将其插入到内容页釆集队列中；如果该帖子首页 URL在内容页釆集队列中不存在，则直接将该帖子首页 URL 添加到内容页釆集队列；

对于具有新回帖的帖子，如果该帖子所属论坛的翻页方式为计算翻页方式，则直接将具有新回帖的帖子首页 URL添加到内容页釆集队列；如果该帖子所属论坛的翻页方式为下一页翻页方式，则查找翻页 URL 信息表，将所述翻页 URL信息表中该帖子的最后一个翻页 URL添加到内容页釆集队列。

8. 如权利要求 6所述的论坛回帖增量釆集方法，其特征在于，步骤（iii ) 中所述从内容页釆集队列中取出每个 URL的方法如下：

按照先进先出顺序依次从内容页釆集队列中取出 URL,并且满足该 URL所属网站的友好访问条件。

9. 如权利要求 6所述的论坛回帖增量釆集方法，其特征在于，步骤（iv ) 中所述从网页内容中提取主贴和 /或回帖信息的方法如下：

如果该 URL为帖子首页 URL并且是第一次釆集，则从该 URL对应的网页内容中提取主贴和回帖信息；

如果该 URL为帖子首页 URL但不是第一次釆集，则根据如下公式确定新回帖起点和新回帖个数 , 从新回帖起点开始提取个新回帖信息；

N_Perf¾ge包含主贴

eNum + ^ 不包含主贴 R — R 其中 , eN 表示上次釆集时该帖的回复数 , ^RCurNum表示该贴当前的回复数，表示该帖子每页的回帖个数；

如果该 URL不是帖子首页 URL,则进一步判断是否是重叠页 URL; 判断依据为该 URL对应的页码与当前应该提取页的页码相同；当前应该提取页的页码的计算公式如下： N_P¾包含主贴 c ^不包含主贴

其中， ^Β 表示当前应该抽取页的页码； ceil表示向上取整运算；如果是重叠页，则釆用如下公式计算新回帖起点 ^SF" 和新回帖个数

C 从新回帖起点开始提取个新回帖信息；

I + 1 N_P¾包含主贴

Si

I N_Perf^不包含主贴

I 该页是最后一页

¹ N - S" 该页不是最后一页

其中， "％" 表示取余数运算；

如果该 URL既不是帖子首页 URL, 也不是重叠页 URL, 釆用如下公式计算新回帖起点 ^S;' 和新回帖的个数 ,从新回帖起点 ^S。_m开始提取 P rseCount个新回帖信息； s:" = 0

Γ'"

R_c,,_rN °/oN_PerPage + 1, N_Pe)__Pi¾i,包含主贴

i( - %N_PerPage + \, 如果 - 1 > 0 , 该页是最后一页

, , N ¾/J¾ge不包含主贴

o，如果^ -1 = 0

该页不是最后一页

10. 如权利要求 9所述的论坛回帖增量采集方法，其特征在于，步骤（iv ) 中所述从网页内容中提取翻页 URL的方法如下：

1 )如果论坛翻页方式为计算翻页方式，且 URL为帖子首页则先釆用如下公式计算翻页的起始页码和终止页码 ^PE«d：

包含主贴

Begin

N_½ ^不包含主贴

ceil RcurNum + ^

N_Perf ^包含主贴

N PerPage

End

R.

ceil CurNum

N_ft 不包含主贴

N PerPage

I R TeNum PerPage + 1

S From u 含主贴

I ^V eNum PerPage 包含主贴

^口果 5* ,„„ == 0 ^U且 R_D―、, ..... >> 0 ^U , 贝 m, iji令 S _From = N PerPage Begin p ¹ Begin + i

其中，表示新回帖起点；由上述公式计算出翻页的起始页码和终止页码后，结合预设的翻页 URL规则，拼接出所有翻页 URL;

2 ) 如果论坛翻页方式为下一页翻页，则从网页内容中提取翻页

URL

11. 如权利要求 10所述的论坛回帖增量采集方法，其特征在于，步骤 1 )中所述翻页规则中，将翻页 URL分割成三个部分，其中第一部分和第三部分为不变部分，分别记为^^ r£J¾ge和

; 第二部分为变化部分，记为 ^nPag^eUP 翻页 URL的拼接方法如下：

nPageNo = i + nFirstPostPagelndex - 1

n PageUp = (nPageNo x nPage UsBaseNum )

strPostPageUrl = strBeforePage + nPageUp + strAfterPage 其中，表示翻页页码， i P_End , "^geN。表示新回帖所在页码； nFirstPostPagelndex =0或 1 , 表示帖子首页页码； "PageUp表示填写在待拼接 URL内的表示翻页的页码值； nPageUsBaseN飄表示翻页基数； Wr ^t ¾_ge[/r/表示拼接后的 _URL。

12. 如权利要求 10所述的论坛回帖增量釆集方法，其特征在于：步骤 2 )中所述从网页内容中提取翻页 URL后，添加到内容页釆集队列之前，还包括对翻页 URL进行消重处理的步骤。

13. 如权利要求 12所述的论坛回帖增量釆集方法，其特征在于，所述消重处理的方法如下：

在翻页 URL信息中查找该翻页 URL所属帖子是否存在翻页 URL 信息表；如果不存在，将建立该翻页 URL所属帖子的翻页 URL信息表，并将该翻页 URL插入到翻页 URL信息表和内容页釆集队列；如果存在，则判断该翻页 URL的页码是否大于该翻页 URL所属帖子的翻页 URL 的页码；如果大于，则更新该翻页 URL所属帖子的翻页 URL信息表，并将该翻页 URL添加到内容页釆集任务队列中；否则直接删除该翻页 URL。

14. 一种论坛回帖增量釆集系统，包括用于根据帖子首页 URL和帖子回复数信息，周期性判断所有需要釆集的论坛列表页中是否存在新增帖子和具有新回帖的帖子的判断装置 ( 11 );

用于对新增帖子，从新增帖子中提取出主贴和回帖信息；对具有新回帖的帖子，计算新回帖起点和新回帖个数，根据新回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息的提取装置 ( 12 )。

15. 如权利要求 14所述的论坛回帖增量釆集系统，其特征在于，所述判断装置（11 ) 包括：

第一队列单元（111 ), 用于将所有需要釆集的论坛列表页 URL添加到列表页釆集队列；第一获取单元（112 ), 用于从列表页釆集队列中取出每个列表页 URL;

列表页提取单元（113 ), 用于对取出的每个列表页 URL, 获取该列表页 URL对应的网页内容，并从所述网页内容中提取出每个帖子首页 URL和当前回复数；

判断单元（114 ), 用于根据帖子首页 URL判断每个帖子在已釆集帖子信息表中是否存在；如果存在，则继续判断该帖子当前回复数是否大于已釆集帖子信息表中记录的本次回复数，如果大于，则该帖子有新回帖，更新已釆集帖子信息表中该帖子的上次回复数和本次回复数；如果该帖子在已釆集帖子信息表中不存在，则该帖子为新增帖子，将该帖子首页 URL和当前回复数添加到已釆集帖子信息表中。

16. 如权利要求 14所述的论坛回帖增量釆集系统，其特征在于，所述提取装置（ 12 ) 包括：

第二队列单元（ 121 ), 用于将新增帖子的首页 URL和具有新回帖的帖子 URL添加到内容页釆集队列；

扫描单元（122 ), 用于定时扫描内容页釆集队列；

第二获取单元（123 ), 用于从内容页釆集队列中取出每个 URL; 内容页提取单元（ 124 ), 用于获取 URL对应的网页内容，并从所述网页内容中提取主贴和 /或回帖和 /或翻页 URL。

17. 如权利要求 16所述的论坛回帖增量釆集系统，其特征在于：所述提取装置（ 12 )还包括用于对论坛翻页方式为下一页翻页方式时从网页内容中提取的翻页 URL进行消重处理的消重单元 ( 125 ); 所述第二队列单元（ 121 )还用于将消重后的翻页 URL添加到内容页釆集队列。