[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

WO2012083870A1 - 一种论坛回帖增量采集方法及系统 - Google Patents

一种论坛回帖增量采集方法及系统 Download PDF

Info

Publication number
WO2012083870A1
WO2012083870A1 PCT/CN2011/084457 CN2011084457W WO2012083870A1 WO 2012083870 A1 WO2012083870 A1 WO 2012083870A1 CN 2011084457 W CN2011084457 W CN 2011084457W WO 2012083870 A1 WO2012083870 A1 WO 2012083870A1
Authority
WO
WIPO (PCT)
Prior art keywords
page
post
url
reply
new
Prior art date
Application number
PCT/CN2011/084457
Other languages
English (en)
French (fr)
Other versions
WO2012083870A9 (zh
Inventor
吴新丽
杨建武
Original Assignee
北大方正集团有限公司
北京大学
北京北大方正电子有限公司
北京北大方正技术研究院有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司, 北京北大方正技术研究院有限公司 filed Critical 北大方正集团有限公司
Priority to EP11851417.3A priority Critical patent/EP2657854A4/en
Priority to US13/997,257 priority patent/US9552435B2/en
Priority to JP2013545030A priority patent/JP5702474B2/ja
Publication of WO2012083870A1 publication Critical patent/WO2012083870A1/zh
Publication of WO2012083870A9 publication Critical patent/WO2012083870A9/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Definitions

  • the invention belongs to the technical field of network information collection, and particularly relates to a method and system for incremental collection of forum posts. Background technique
  • the existing forum collection system is only the home page information of the post, but not the post information of the post. Summary of the invention
  • the technical problem to be solved by the present invention is to provide a forum replies incremental collection method and system, which can quickly, accurately and completely collect all the posts of a post/
  • the reply information overcomes the defects of the existing search engine in the search for the page's page-turning post information, and the existing forum collection system only collects the home page information of the post without collecting the defect of the post information.
  • the technical solutions adopted by the present invention are as follows:
  • a forum reply incremental collection method includes the following steps:
  • a forum reply incremental collection system comprising: judging whether there are new posts and posts with new posts in the forum list page that needs to be collected according to the post homepage URL and the post reply number information;
  • the extracting device of the new reply letter is extracted from the post of the reply.
  • the newly added replies in the list page and the post information with the new replies can be obtained in time; the URL identification and the reply number information are used for fast deduplication processing to avoid Repeat the collection; to distinguish the different page-link extraction methods to achieve the purpose of quickly flipping the page collection; thus, it is possible to quickly, accurately and completely collect all the main/post information of a post.
  • the replies have a leak rate of less than 5% and real time can reach minutes.
  • FIG. 1 is a structural block diagram of a forum replies incremental collection system in a specific implementation manner
  • FIG. 2 is a flowchart of a method for incrementally collecting forum replies in a specific implementation manner
  • FIG. 3 is a flowchart of a method for determining whether a new post and a post with a new reply exist in the judgment list page in the specific implementation manner;
  • FIG. 4 is a flow chart of a method for extracting a new post message from a post with a new post by extracting the main post and the post information from the newly added post in the specific embodiment.
  • the forum reply incremental collection system in the present embodiment includes a judging device 11 and an extracting device 12 connected to the judging device 11.
  • the judging device 11 includes a first queue unit 111, a first obtaining unit 112, a list page extracting unit 113, and a judging unit 114.
  • the extracting device 12 includes a second queue unit 121, a scanning unit 122, a second obtaining unit 123, a content page extracting unit 124, and a deduplication unit 125.
  • the judging device 11 is configured to periodically judge whether there are new posts and posts with new posts in the forum list page that needs to be collected according to the post home page URL and the post reply number information.
  • the first queue unit 111 is configured to add all the forum list page URLs that need to be collected to the list page collection queue.
  • the first obtaining unit 112 is configured to retrieve each list page URL from the list page collection queue.
  • the list page extracting unit 113 is configured to obtain the webpage content corresponding to the list page URL for each of the retrieved list page URLs, and extract the homepage URL and the current reply number of each post from the webpage content.
  • the determining unit 113 is configured to determine, according to the post homepage URL, whether each post exists in the collected post information table; if yes, continue to determine whether the current reply number of the post is greater than the current reply number recorded in the collected post information table If it is greater than, the post has a new reply, updating the last reply number of the post in the post information table and the number of the current reply; if the post does not exist in the collected post information table, the post is Add a post, add the post home page URL and the current reply number to the collected post information table.
  • the extracting device 12 is configured to extract the main post and the post information from the newly added post for the newly added post, and calculate the new post start point and the new post number for the post with the new reply, according to the new reply starting point and the new reply number.
  • New post information is extracted from posts with new posts.
  • the second queue unit 121 is configured to add the home page URL of the newly added post and the post URL with the new reply to the content page collection queue.
  • the scanning unit 122 is configured to periodically scan the content page collection queue.
  • the second obtaining unit 123 is configured to retrieve each URL from the content page collection queue.
  • the content page extracting unit 124 is configured to obtain webpage content corresponding to the URL, and extract a post and/or a reply and/or a page turning URL from the webpage content.
  • the deduplication unit 125 is configured to perform deduplication processing on the page turning URL extracted from the webpage content when the forum page turning mode is the next page turning mode.
  • the second queue unit 121 is further configured to add the deduplicated page turning URL to the content page collection queue.
  • the flow of the forum reply increment collection method based on the system shown in FIG. 1 in the embodiment includes the following steps:
  • the judging device 11 periodically judges whether there are new posts and/or posts with new posts in all the forum list pages that need to be collected. As shown in FIG. 3, the method for determining the usage in the present embodiment includes the following steps:
  • the first queue unit 111 adds all the forum list page URLs that need to be gathered to the list page collection queue.
  • the list page refers to a list page containing all the post titles, URLs (unified resource locators), clicks, replies, and the like in the forum, and does not include the specific content of the posts.
  • the Sohu Forum's list page of the financial hodgepodge channel has the following URL:
  • a collection time interval is set for each forum list page that needs to be collected, such as every 5 minutes; monitoring the collection time interval of each list page; when a certain list page reaches ⁇ When the time interval is set, the list page URL is added to the list page collection queue.
  • the refresh interval is dynamically adjusted according to the update frequency of the forum; the faster the update frequency of the forum, the shorter the refresh interval; the slower the update frequency of the forum, the longer the refresh interval. If it is set to be set every 5 minutes in advance, if the forum update frequency is increased during the subsequent collection, the refresh interval is shortened to 3 minutes, and then shortened to 1 minute or shorter.
  • the first obtaining unit 112 takes out each list page URL from the list page collection queue.
  • the method for extracting the list page URL from the list page collection queue is: a timed scan list page collection queue (the scan interval time can be set by the user according to a specific application), if the list page collection queue is not empty , the list page URL is removed from the list page collection queue in the first-in first-out order (the URL is automatically deleted from the queue after the URL is removed from the queue), and the friendly access condition of the website to which the list page URL belongs is satisfied. .
  • a list page URL does not satisfy the friendly access condition of the website to which the list page URL belongs, the list page URL is ignored in this scan, and the next list page URL is continuously determined, and the list page URL is reserved for subsequent scanning.
  • the friendly questioning conditions of the website include the current number of access restrictions and the time interval limit for access.
  • the list page extracting unit 113 obtains the webpage content corresponding to the list page URL for each of the extracted list page URLs, and extracts the homepage URL and the current reply number of each post from the webpage content.
  • an HTTP request for obtaining the content of the webpage corresponding to the URL is sent to the website to which the URL belongs, and then the returned webpage content is received. Extracting the home page URL and the current number of replies from the content of the webpage are prior art, and will not be described here.
  • the judging unit 113 judges whether or not the post exists in the collected post information table based on the post home page URL. If it exists, it means that the post has been collected, and continue to judge whether the current reply number of the post is greater than the number of current responses recorded in the collected post information table. If it is greater than, it means that the post has a new reply.
  • the collected post information table the last reply number of the post and the number of the current reply are updated, that is, the number of the reply of the post in the post information table has been collected. The value replaces the value of the last reply number, and replaces the value of the current reply number of the post in the post information table with the value of the current reply number of the post.
  • the post does not exist in the collected post information table, it indicates that the post is a new post, and the post home page URL and the current reply number are added to the collected post information table, and the last reply number of the post is 0, the number of responses is the current number of replies.
  • the collected post information table stores the last reply number and the current reply number of the collected post home page URL and the collected post.
  • the structure is as follows:
  • the identification information of the post homepage URL is stored in the collected post information table.
  • the identification information By comparing the identification information, it is determined that the post homepage URL is in the collected post information table. Whether it exists. This can improve the efficiency of the URL comparison.
  • the extracting device 12 extracts the main post and the post information from the newly added post, from the New post information is extracted from the post of the new reply.
  • the extraction method used in the embodiment includes the following steps:
  • the second queue unit 121 adds the home page URL of the newly added post and the post URL with the new post to the content page collection queue.
  • the post homepage URL is taken out, and the current reply number of the post recorded in the collected post information table is changed to the current reply number. Then insert it into the content page collection queue. If the post home page URL does not exist in the content page collection queue, the post home page URL is directly added to the content page collection queue.
  • the page flipping method of the forum to which the post belongs is to calculate the page turning mode
  • the home page URL of the post with the new reply is directly added to the content page queue
  • the page of the forum belongs to In the page turning mode the page turning URL information table of the post is searched, and the last page turning URL in the table is added to the content page collection queue.
  • the method of calculating the page turning refers to the method of turning the page number determined by each page, such as the post in the international forum of the People's Network Power Community
  • the page turning method on the next page refers to the method of turning pages in an indefinite number of pages per page, such as the posts in Tianya.
  • Htt ://www. tianya.cn/publicforum/content/free/ 1/1880805. shtml is the way to page next page.
  • the scanning unit 122 periodically scans the content page collection queue.
  • the scan interval can be set by the user according to the specific application.
  • the second acquisition unit 123 takes each URL from the content page collection queue. Once the URL is removed from the queue, the URL is automatically removed from the queue.
  • the method for taking the URL from the content page collection queue by the second acquisition unit 123 is the same as the method for the first acquisition unit 112 to take the URL from the list page collection queue, and details are not described herein again.
  • the content page extracting unit 124 acquires the webpage content corresponding to the retrieved URL, and extracts the main post and/or the reply post and/or the page turning URL from the webpage content, and adds the flipping page URL to the content page collection queue .
  • the specific method for extracting the main post and/or the reply post from the webpage content is as follows:
  • the main post and the post information are extracted from the webpage content corresponding to the URL. Specifically, firstly, it is determined whether the main reply style of the post is consistent. If they are consistent, the information is extracted one by one according to the same extraction method, and the first information extracted is used as the main post, and other information is used as the reply; if not, the first rule is followed. Extract the main post information, and then extract each post information. Whether the main reply style of the post is consistently set manually, the predetermined rule is a manually set keyword or a regular expression.
  • the new reply starting point and the number of new postings C ParseCmmt are determined according to the following formula, and the C is extracted from the new reply starting point S F P c ⁇ new post information.
  • l N Perf3 ⁇ 4ge contains the main sticker
  • ⁇ R ⁇ um + does not contain the main post -- R This means that the number of replies to the post at the last snippet indicates the current number of replies to the post, and ⁇ ⁇ indicates the number of replies per page of the post.
  • the overlapped page refers to a page in which the reply information is in the page and the partial reply is a new reply. The judgment is based on the fact that the page number corresponding to the URL is the same as the page number of the current page to be extracted.
  • the calculation formula for the page number at which the page should currently be fetched is as follows: N P3 ⁇ 4 contains the main sticker
  • the page content is a new reply
  • NPerPage does not contain the main post
  • the specific method for extracting the page turning URL from the web content is as follows: 1 If the forum page turning method is to calculate the page turning mode, and the URL is the post home page URL, the following formula is used to calculate the starting page number and the ending page number of the page turning, that is, the starting page number and the ending page number of the new reply. If the URL is not the post home page URL, the page flip URL is not extracted. Contains the main sticker
  • N Perf ⁇ contains the main post
  • N P3 ⁇ 4 does not contain the main sticker
  • the specific URL splicing method is: splicing the page turning URL according to the configured page turning rule, the page turning start page number, and the page turning base number.
  • the URL of the page turning is divided into three parts, wherein the first part and the third part are invariant parts, and the points are marked as strBe f orePa g e and strA f terPa S e ;
  • the second part is the change part, which is recorded as nPageUp.
  • nPageUp (nPageNo x nPage UsBaseN m);
  • strPostPageUrl strBeforePage + nPageUp + str After Page; where ""geN. Indicates the page number of the new reply; nFirstPostPagelndex represents the thousand page number of the first page. In the actual forum, the possible value is 0 or 1, that is, the page number of the post is numbered from 0, the page number of the first page is 0; or the page number of the post is numbered from 1, and the page number of the first page of the post is 1. " ⁇ 6 ⁇ indicates the page number value indicating the page turning in the URL to be spliced, that is, the value of the second part; " ⁇ TM indicates the page turning base. strPostPageUrl shows the spliced URL.
  • the post when the post is collected for the first time, the post already has 210 replies, and the spliced URLs obtained by the splicing are 10, respectively:
  • the starting page number is 0 and the page turning base is 30. Extract page flip according to the page link rule
  • the first part of the URL is:
  • N i According to the above information, suppose that the first time the post is collected, the post has already had 210 replies, and the spliced URLs obtained by splicing are 6 in total:
  • the deduplication unit 125 deduplicates the page turning URL before adding to the content page stack queue. deal with. The specific processing is as follows:
  • the page turning URL information table find whether the page to which the paged URL belongs exists. If it does not exist, the page turning information of the post to which the page turning URL belongs is inserted into the page turning URL information table, and the page turning URL is added to the content page set queue. If it exists, it is further determined whether the current page number of the page is greater than the page number of the page recorded in the page URL information table. If it is greater, the page turning page number of the post is updated to the current page turning page number in the page turning URL information table, and the page turning URL is added to the content page set task queue. If it is not greater than, it is not necessary to update the page turning page number of the post in the page turning URL information table, and directly delete the page turning URL.
  • the page turning URL information table stores a post home page URL (or identification information), a currently paged page page number, a last post position on the currently collected page, and a currently paged page URL. Its header structure is shown in the following table:

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Information Transfer Between Computers (AREA)

Description

技术领域
本发明属于网络信息釆集技术领域, 具体涉及一种论坛回帖增量釆 集方法及系统。 背景技术
随着互联网的出现, 尤其网络论坛、 网络社区的广泛开设, 使得全 世界范围的人群都可以在一起自由地发表、 交流各种观点。 中国的网络 论坛达到一百多万个, 并且 80%的网站拥有独立的论坛, 经常浏览网络 论坛的人数已经过亿。 不同于其他的形式, 网络论坛具有速度快、 范围 广的特点。一个受人瞩目的话题可能在艮短的时间内达到上万名网民的 回帖讨论, 回帖信息达到成百上千页。 此时, 用户不仅仅想查看话题的 发起者的言论即主帖的内容, 更想看到其他网民对该话题所发表的言 论。 然而, 通过一般的搜索引擎艮难查询到翻页的回帖信息, 即使有时 能够查询到, 在时效性上也艮不理想, 数据延迟较大。 现有的论坛釆集 系统也只是釆集帖子的首页信息, 而不釆集帖子的回帖信息。 发明内容
针对现有技术中存在的缺陷, 本发明所要解决的技术问题是提供一 种论坛回帖增量釆集方法及系统, 该方法及系统能够快速、 准确、 完整 地釆集一篇帖子的所有主 /回帖信息, 克服了现有搜索引擎在搜索帖子的 翻页回帖信息时存在漏搜或者搜索不到的缺陷, 以及现有论坛釆集系统 只釆集帖子的首页信息而不釆集回帖信息的缺陷。 为解决上述技术问题, 本发明釆用的技术方案如下:
一种论坛回帖增量釆集方法, 包括以下步骤:
( 1 )根据帖子首页 URL和帖子回复数信息, 周期性判断所有需要 釆集的论坛列表页中是否存在新增帖子和 /或具有新回帖的帖子;
( 2 )如果存在新增帖子, 则从新增帖子中提取出主贴和回帖信息; 如果存在具有新回帖的帖子, 则计算新回帖起点和新回帖个数, 根据新 回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。 一种论坛回帖增量釆集系统,包括用于根据帖子首页 URL和帖子回 复数信息, 周期性判断所有需要釆集的论坛列表页中是否存在新增帖子 和具有新回帖的帖子的判断装置;
用于对新增帖子, 从新增帖子中提取出主贴和回帖信息; 对具有新 回帖的帖子, 计算新回帖起点和新回帖个数, 艮据新回帖起点和新回帖 个数从具有新回帖的帖子中提取出新回帖信, 的提取装置。 本发明所述的方法及系统, 通过周期性监控列表页的方式, 能够及 时获取列表页中的新增回帖和具有新回帖的帖子信息;通过 URL标识和 回复数信息进行快速消重处理, 避免重复釆集; 通过区分不同的翻页链 接提取方式达到快速进行翻页回帖釆集的目的; 从而能够快速、 准确、 完整地釆集一篇帖子的所有主 /回帖信息。 回帖的漏釆率在 5%以下, 实 时性可达分钟级。 附图说明
图 1是具体实施方式中论坛回帖增量釆集系统的结构框图; 图 2是具体实施方式中论坛回帖增量釆集方法的流程图;
图 3是具体实施方式中判断列表页中是否存在新增帖子和具有新回 帖的帖子的方法流程图;
图 4是具体实施方式中从新增帖子中提取出主贴和回帖信息, 从具 有新回帖的帖子中提取出新回帖信, 的方法流程图。 具体实施方式
下面结合附图及具体实施方式对本发明进行进一步的说明。
如图 1 所示, 本实施方式中论坛回帖增量釆集系统包括判断装置 11 , 与判断装置 11连接的提取装置 12。 其中, 判断装置 11包括第一队 列单元 111、 第一获取单元 112、 列表页提取单元 113和判断单元 114。 提取装置 12包括第二队列单元 121、扫描单元 122、第二获取单元 123、 内容页提取单元 124和消重单元 125。
判断装置 11用于根据帖子首页 URL和帖子回复数信息,周期性判 断所有需要釆集的论坛列表页中是否存在新增帖子和具有新回帖的帖 子。 其中, 第一队列单元 111 用于将所有需要釆集的论坛列表页 URL 添加到列表页釆集队列。第一获取单元 112用于从列表页釆集队列中取 出每个列表页 URL。 列表页提取单元 113 用于对取出的每个列表页 URL, 获取该列表页 URL对应的网页内容, 从所述网页内容中提取出 每个帖子首页 URL和当前回复数。判断单元 113用于根据帖子首页 URL 判断每个帖子在已釆集帖子信息表中是否存在; 如果存在, 则继续判断 该帖子当前回复数是否大于已釆集帖子信息表中记录的本次回复数,如 果大于, 则该帖子有新回帖, 更新已釆集帖子信息表中该帖子的上次回 复数和本次回复数; 如果该帖子在已釆集帖子信息表中不存在, 则该帖 子为新增帖子, 将该帖子首页 URL和当前回复数添加到已釆集帖子信 息表中。
提取装置 12用于对新增帖子, 从新增帖子中提取出主贴和回帖信 息; 对具有新回帖的帖子, 计算新回帖起点和新回帖个数, 根据新回帖 起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。 其中, 第 二队列单元 121用于将新增帖子的首页 URL和具有新回帖的帖子 URL 添加到内容页釆集队列。 扫描单元 122用于定时扫描内容页釆集队列。 第二获取单元 123用于从内容页釆集队列中取出每个 URL。内容页提取 单元 124用于获取 URL对应的网页内容, 并从所述网页内容中提取主 贴和 /或回帖和 /或翻页 URL。 消重单元 125用于对论坛翻页方式为下一 页翻页方式时从网页内容中提取的翻页 URL进行消重处理。 第二队列 单元 121还用于将消重后的翻页 URL添加到内容页釆集队列。 如图 2所示,本实施方式中基于图 1所示系统的论坛回帖增量釆集 方法的流程, 包括以下步骤:
( 1 )判断装置 11周期性判断所有需要釆集的论坛列表页中是否存 在新增帖子和 /或具有新回帖的帖子。 如图 3所示, 本实施方式中釆用的判断方法包括以下步骤:
( a )第一队列单元 111将所有需要釆集的论坛列表页 URL添加到 列表页釆集队列。 所述列表页是指论坛中包含所有帖子标题、 URL (统 一资源定位符)、 点击数、 回复数等信息的列表页面, 不包括帖子的具 体内容。 如搜狐论坛的财经大杂烩频道的列表页, 其 URL如下:
http://club.business.sohu.com/l-enjoy-0-0-0-0.htrnlo
再如人民网强国社区的国际论坛频道的列表页, 其 URL如下: http://bbsl. people. com.cn/boardList.do?action=postList&boardId=6。 本实施方式中, 对每个需要釆集的论坛列表页均设定釆集时间间 隔, 如每隔 5分钟釆集一次; 监控每个列表页的釆集时间间隔; 当某个 列表页达到釆集时间间隔时, 便将该列表页 URL添加到列表页釆集队 列。
优选的, 刷新间隔根据论坛的更新频率动态调整; 论坛的更新频率 越快, 刷新间隔越短; 论坛的更新频率越慢, 则刷新间隔越长。 如预先 设定每隔 5分钟釆集一次, 在后续釆集过程中, 如果发现论坛更新频率 增加, 则将刷新间隔缩短为 3分钟, 进而缩短为 1分钟或更短。
论坛的更新频率的计算方法可参见中国专利申请 "一种网页数据信 息的定向釆集方法及装置"(申请号: 201010236363.7 ), 此处不再赘述。
( b )第一获取单元 112从列表页釆集队列中取出每个列表页 URL。 本实施方式中, 从列表页釆集队列中取出列表页 URL釆用的方法 为: 定时扫描列表页釆集队列(扫描间隔时间可由用户根据具体应用情 况设置), 如果列表页釆集队列不空, 则按照先进先出顺序依次从列表 页釆集队列中取出列表页 URL (从队列中取出 URL后,该 URL便会自 动从队列中删除), 并且满足该列表页 URL所属网站的友好访问条件。 如果某列表页 URL不满足该列表页 URL所属网站的友好访问条件,则 在本次扫描中忽略该列表页 URL, 继续判断下一个列表页 URL, 该列 表页 URL留待后续扫描中处理。 网站的友好反问条件包括当前访问数 量限制和访问的时间间隔限制。判断是否满足网站的友好反问条件的方 法可参见中国专利申请 "一种从网站中多个不同 IP的服务器抓取网页 的方法及系统 " (申请号: 201010546334.0 ), 此处不再赘述。
( c ) 列表页提取单元 113对取出的每个列表页 URL, 获取该列表 页 URL对应的网页内容;再从网页内容中提取出每个帖子首页 URL和 当前回复数。
根据每个列表页的 URL,向该 URL所属网站发送获取该 URL对应 网页内容的 HTTP请求, 然后接收返回的网页内容。 从网页内容中提取 帖子首页 URL和当前回复数为现有技术, 此处不再赘述。
( d )判断单元 113根据帖子首页 URL判断该帖子在已釆集帖子信 息表中是否存在。 如果存在, 则说明该帖子已釆集过, 继续判断该帖子 当前回复数是否大于已釆集帖子信息表中记录的本次回复数。 如果大 于, 则说明该帖子有新回帖, 在已釆集帖子信息表中更新该帖子的上次 回复数和本次回复数, 即用已釆集帖子信息表中该帖子的本次回复数的 数值替换上次回复数的数值,用该帖子当前回复数的数值替换已釆集帖 子信息表中该帖子的本次回复数的数值。 如果不大于, 则说明该帖子没 有新回帖, 抛弃该 URL不作任何后续处理。 如果该帖子在已釆集帖子 信息表中不存在, 则说明该帖子为新增帖子, 将该帖子首页 URL和当 前回复数添加到已釆集帖子信息表中, 该帖子的上次回复数为 0, 本次 回复数为当前回复数。
已釆集帖子信息表中存储有已釆集帖子首页 URL和已釆集帖子的 上次回复数和本次回复数, 其结构如下表所示:
Figure imgf000007_0001
优选的, 在已釆集帖子信息表中存储帖子首页 URL的标识信息, 如 MD5码。通过比较标识信息确定帖子首页 URL在已釆集帖子信息表 中是否存在。 这样可以提高 URL的比较效率。
( 2 )在所有需要釆集的论坛列表页中如果存在新增帖子和 /或具有 新回帖的帖子, 则提取装置 12从所述新增帖子中提取出主贴和回帖信 息, 从所述具有新回帖的帖子中提取出新回帖信息。
如图 4所示, 本实施方式中釆用的提取方法包括以下步骤:
( i )第二队列单元 121将新增帖子的首页 URL和具有新回帖的帖 子 URL添加到内容页釆集队列。
对于新增帖子, 如果该帖子首页 URL在内容页釆集队列中存在, 则将该帖子首页 URL取出, 并将已釆集帖子信息表中记录的该帖子本 次回复数修改为当前回复数, 再将其插入到内容页釆集队列中。 如果该 帖子首页 URL在内容页釆集队列中不存在, 则直接将该帖子首页 URL 添加到内容页釆集队列。
对于具有新回帖的帖子,如果该帖子所属论坛的翻页方式为计算翻 页方式,则直接将具有新回帖的帖子首页 URL添加到内容页釆集队列; 如果该帖子所属论坛的翻页方式为下一页翻页方式,则查找该帖子的翻 页 URL信息表, 将该表中最后一个翻页 URL添加到内容页釆集队列。
所述计算翻页方式是指每页回帖个数确定的翻页方式,如人民网强 国社区的国际论坛中的帖子
http://bbsl .people. com.cn/postDetail.do?boardId=6&view= 1 &id=9138 4467便为计算翻页的方式。
所述下一页翻页方式是指每页回帖个数不确定的翻页方式,如天涯 杂谈中的帖子
htt ://www. tianya.cn/publicforum/content/free/ 1/1880805. shtml 便为 下一页翻页方式。
( ii )扫描单元 122定时扫描内容页釆集队列。 扫描间隔时间可由 用户根据具体应用情况设置。
( iii )如果内容页釆集队列不空, 则第二获取单元 123从内容页釆 集队列中取出每个 URL。从队列中取出 URL后,该 URL便会自动从队 列中删除。 本实施方式中, 第二获取单元 123从内容页釆集队列中取 URL的 方法与第一获取单元 112从列表页釆集队列中取 URL的方法相同, 此 处不再赘述。
( iv ) 内容页提取单元 124获取取出的 URL对应的网页内容, 并 从所述网页内容中提取主贴和 /或回帖和 /或翻页 URL, 并将翻页 URL 添加到内容页釆集队列。
本实施方式中, 从网页内容中提取主贴和 /或回帖釆用的具体方法 ^口下:
如果该 URL为帖子首页 URL并且是第一次釆集, 即该帖子是新增 帖子, 则从该 URL对应的网页内容中提取主贴和回帖信息。 具体的, 首先确定该帖子的主回帖风格是否一致, 如果一致, 则按照同一抽取方 式逐个抽取信息, 将抽取的第一个信息作为主帖, 其他信息作为回帖; 如果不一致, 则先按照既定规则抽取主帖信息, 然后再抽取每个回帖信 息。 所述帖子的主回帖风格是否一致由人工设定, 所述既定规则是人工 设定的关键词或者正则表达式。
如果该 URL为帖子首页 URL但不是第一次釆集, 即该帖子是具有 新回帖的帖子, 则 艮据如下公式确定新回帖起点 和新回帖个数 CParseCmmt , 从新回帖起点 SF 开始提取 CP c ί个新回帖信息。 l NPerf¾ge包含主贴
\ R^um + 不包含主贴 ― — R 其中 表示上次釆集时该帖子的回复数 表示该贴子当 前的回复数, Ν Ρ 表示该帖子每页的回帖个数。
如果该 URL不是帖子首页 URL,则进一步判断是否是重叠页 URL 所述重叠页是指该页面内均为回帖信息且部分回帖为新回帖的页面。判 断依据为该 URL对应的页码与当前应该提取页的页码相同。 当前应该 提取页的页码的计算公式如下: N包含主贴
NPerPage不包含主贴
Figure imgf000010_0001
其中, 表示当前应该提取页的页码; ceil表示向上取整运算。
如果是重叠页, 则釆用如下公式计算新回帖起点 和新回帖个数 c" 从新回帖起点 S 开始提取 ParseCount个新回帖信息。
I + 1, NPerf ^包含主贴
S''
I ^不包含主贴
该页是最后一页
Figure imgf000010_0002
该页不是最后一页
其中, "%" 表示取余数运算。
如果该 URL既不是帖子首页 URL, 也不是重叠页 URL, 即该页内 容均为新回帖, 则釆用如下公式计算新回帖起点 和新回帖个数
C , 从新回帖起点 开始提取 个新回帖信息。
= 0 .
^包含主贴
+ 1, 如果 1 > 0 , 该页是最后一页
NPerPage不包含主贴
如果 U = 0
Figure imgf000010_0003
该页不是最后一页
从网页内容中提取翻页 URL釆用的具体方法如下: ①如果论坛翻页方式为计算翻页方式, 且 URL为帖子首页 URL, 则先釆用如下公式计算翻页的起始页码和终止页码, 即新回帖所在的起 始页码和终止页码。如果 URL不是帖子首页 URL,则不提取翻页 URL。 包含主贴
^不包含主贴
Figure imgf000011_0001
ceil RcurNum + ^
NPerf ^包含主贴
N
N不包含主贴
Figure imgf000011_0002
I + 1, JVPerPage包含主贴
S
I 包含主贴
^口果 SF = 0且 RPleNum > 0 , 贝 |J令 S F = N PerPage , PBegin = P + 1 , 其中, 和 PEnd分别为翻页的起始页码和终止页码, 表示新 回帖起点, 从该起点开始至终止页码内的所有回帖均为新回帖。 由上述 公式计算出翻页的起始页码和终止页码后,结合预设的翻页 URL规则, 拼接出所有翻页 URL。
具体的 URL拼接方法为: 根据配置的翻页规则、 翻页的起始页码、 翻页基数来进行翻页 URL的拼接。 本实施方式中, 在配置的翻页规则 中, 将翻页的 URL分割成了三个部分, 其中第一部分和第三部分为不 变部分, 分^记为 strBeforePagestrAfterPaSe; 第二部分为变化部分, 记 为 nPageUp。 翻页 URL的拼接过程的伪代码如下: far (int i = PBegm; i < PEnd; + +) nPageNo = i + nFirstPostPagelndex - 1;
nPageUp = (nPageNo x nPage UsBaseN m) ;
strPostPageUrl = strBeforePage + nPageUp + str After Page; 其中, " "geN。表示新回帖所在页码; nFirstPostPagelndex表示帖千首 页页码。 在实际论坛中, 可能的取值为 0或 1 , 即帖 子页码从 0开始编号, 首页页码为 0; 或者帖子页码从 1开始编号, 帖 子首页页码为 1。 "^^6 ^表示填写在待拼接 URL内的表示翻页的页码 值, 即第二部分的数值; "Λ^ ^^Λ^™表示翻页基数。 strPostPageUrl 示拼接后的 URL。
举例说明^!口下:
实例一:
人民网强国社区的国际论坛频道的一篇帖子的 URL为:
http://bbsl .people. com.cn/postDetail.do?boardId=6&view= 1 &id=9138
4467
其翻页链接规则为:
/postDetail\.do\?id=\d+&view=\d+&pageNo=(\d+)&boardId=6 起始页码 nFirstPostPagelndex为 i, 翻页基数 nPageUsBaseNum为 i, 为 2Q o
根据翻页链接规则, 提取出翻页 URL的第一部分和第三部分, 分 别为: "/postDetail.do?id=91384467&view=l&pageNo="和 "&boardId=6"。
根据以上信息, 支设第一次釆集该帖子时, 该帖子已经有了 210个 回帖, 则拼接获取的翻页 URL共 10个, 分别为:
/postDetail.do?id=91384467&view=l&pageNo=2&boardId=6
/postDetail.do?id=91384467&view=l&pageNo=3&boardId=6
/postDetail.do?id=91384467&view=l&pageNo=4&boardId=6
/postDetail.do?id=91384467&view=l&pageNo=ll&boardId=6 百度贴吧的帖子 URL为: http:〃 tieba.baidu.com/f?kz=919731090。 其翻页链接规则为:
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=30。
起始页码为 0, 翻页基数为 30。 根据翻页链接规则, 提取出翻页
URL的第一部分为:
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=。 第三部分无 内容。
N 为 i 根据以上信息, 假设第一次釆集该帖子时, 该帖子已 经有了 210个回帖, 则拼接获取的翻页 URL共 6个, 分别为:
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=30
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=60
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=90
/f?z=919731090&ct=335544320&lm=0&sc=0&rn=30&tn=baiduPostB rowser&word=%B6%B7%C6%C6%B2%D4%F 1 %B7&pn=210 最后将所有拼接好的翻页 URL处理为完整带域名信息的 URL, 再 将处理后的所有翻页 URL添加到内容页釆集队列中。 ②如果论坛翻页方式为下一页翻页方式,则从网页内容中提取翻页
URL。 如果网页内容中不存在翻页 URL, 则说明该页是最后一页, 没有 翻页。 对于翻页方式为下一页翻页方式, 从网页内容中提取出翻页 URL 后, 添加到内容页釆集队列之前, 消重单元 125对翻页 URL进行消重 处理。 具体的处理过程如下:
在翻页 URL信息表中查找该翻页 URL所属帖子是否存在。如果不 存在,则将该翻页 URL所属帖子的翻页信息插入到翻页 URL信息表中 , 并将翻页 URL添加到内容页釆集队列中。 如果存在, 则继续判断该帖 子的当前翻页页码是否大于翻页 URL信息表中记录的该帖子的翻页页 码。 如果大于, 则在翻页 URL信息表中将该帖子的翻页页码更新为当 前翻页页码, 并将该翻页 URL添加到内容页釆集任务队列中。 如果不 大于, 则无需更新翻页 URL信息表中该帖子的翻页页码, 直接删除该 翻页 URL即可。
所述翻页 URL信息表存储帖子首页 URL (或标识信息)、 当前已釆 集过的翻页页码、 当前已釆集过的页面上最后一个回帖位置、 当前已釆 集过的翻页 URL, 其表头结构如下表所示:
Figure imgf000014_0001
离本发明的精神和范围。 这样, 倘若本发明的这些修改和变型属于本发 明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和 变型在内。

Claims

权利要求:
1. 一种论坛回帖增量釆集方法, 包括以下步骤:
( 1 )根据帖子首页 URL和帖子回复数信息, 周期性判断所有需要 釆集的论坛列表页中是否存在新增帖子和具有新回帖的帖子;
( 2 )如果存在新增帖子, 则从新增帖子中提取出主贴和回帖信息; 如果存在具有新回帖的帖子, 则计算新回帖起点和新回帖个数, 根据新 回帖起点和新回帖个数从具有新回帖的帖子中提取出新回帖信息。
2. 如权利要求 1所述的论坛回帖增量釆集方法, 其特征在于, 步 骤(1 ) 中所述周期判断所有需要釆集的论坛列表页中是否存在新增帖 子和具有新回帖的帖子的方法如下:
( a )获取所有需要釆集的论坛列表页 URL;
( b )对每个列表页 URL, 获取该列表页 URL对应的网页内容; 再 从所述网页内容中提取出每个帖子首页 URL和当前回复数;
( c )根据帖子首页 URL判断每个帖子在已釆集帖子信息表中是否 存在; 如果存在, 则继续判断该帖子当前回复数是否大于已釆集帖子信 息表中记录的本次回复数, 如果大于, 则该帖子有新回帖, 更新已釆集 帖子信息表中该帖子的上次回复数和本次回复数;如果该帖子在已釆集 帖子信息表中不存在, 则该帖子为新增帖子, 将该帖子首页 URL和当 前回复数添加到已釆集帖子信息表中。
3. 如权利要求 2所述的论坛回帖增量釆集方法, 其特征在于, 步 骤(a ) 中所述获取所有需要釆集的论坛列表页 URL的方法如下:
对每个需要釆集的论坛列表页均设定釆集时间间隔;监控每个列表 页的釆集时间间隔; 当某个列表页达到釆集时间间隔时, 便将该列表页 URL添加到列表页釆集队列;
定时扫描列表页釆集队列, 如果列表页釆集队列不空, 则按照先进 先出顺序依次从列表页釆集队列中取出列表页 URL。
4. 如权利要求 3所述的论坛回帖增量釆集方法, 其特征在于: 所 述釆集时间间隔根据列表页 URL所属论坛的更新频率动态调整; 论坛 的更新频率越快, 釆集时间间隔越短; 论坛的更新频率越慢, 釆集时间 间隔越长。
5. 如权利要求 3所述的论坛回帖增量釆集方法, 其特征在于: 所 述从列表页釆集队列中取出的列表页 URL需要满足该列表页 URL所属 网站的友好访问条件。
6. 如权利要求 2〜5中任一项所述的论坛回帖增量釆集方法, 其特 征在于, 步骤(2 ) 中所述从新增帖子中提取出主贴和回帖信息以及从 具有新回帖的帖子中提取出新回帖信息的方法如下:
( i )将新增帖子的首页 URL和具有新回帖的帖子 URL添加到内 容页釆集队列;
( ii )定时扫描内容页釆集队列;
( iii )如果内容页釆集队列不空, 则从内容页釆集队列中取出每个
URL;
( iv )获取取出的 URL对应的网页内容, 并从所述网页内容中提 取主贴和 /或回帖信息和 /或翻页 URL, 并将翻页 URL添加到内容页釆 集队列。
7. 如权利要求 6所述的论坛回帖增量釆集方法, 其特征在于, 步 骤(i ) 中所述将新增帖子的首页 URL和具有新回帖的帖子 URL添加 到内容页釆集队列的方法如下:
对于新增帖子, 如果该帖子首页 URL在内容页釆集队列中存在, 则将该帖子首页 URL取出, 并将已釆集帖子信息表中记录的该帖子本 次回复数修改为当前回复数, 再将其插入到内容页釆集队列中; 如果该 帖子首页 URL在内容页釆集队列中不存在, 则直接将该帖子首页 URL 添加到内容页釆集队列;
对于具有新回帖的帖子,如果该帖子所属论坛的翻页方式为计算翻 页方式,则直接将具有新回帖的帖子首页 URL添加到内容页釆集队列; 如果该帖子所属论坛的翻页方式为下一页翻页方式, 则查找翻页 URL 信息表,将所述翻页 URL信息表中该帖子的最后一个翻页 URL添加到 内容页釆集队列。
8. 如权利要求 6所述的论坛回帖增量釆集方法, 其特征在于, 步 骤(iii ) 中所述从内容页釆集队列中取出每个 URL的方法如下:
按照先进先出顺序依次从内容页釆集队列中取出 URL,并且满足该 URL所属网站的友好访问条件。
9. 如权利要求 6所述的论坛回帖增量釆集方法, 其特征在于, 步 骤(iv ) 中所述从网页内容中提取主贴和 /或回帖信息的方法如下:
如果该 URL为帖子首页 URL并且是第一次釆集, 则从该 URL对 应的网页内容中提取主贴和回帖信息;
如果该 URL为帖子首页 URL但不是第一次釆集,则根据如下公式 确定新回帖起点 和新回帖个数 , 从新回帖起点 开始提 取 个新回帖信息;
NPerf¾ge包含主贴
eNum + ^ 不包含主贴 R — R 其中 , eN 表示上次釆集时该帖的回复数 , RCurNum表示该贴当前的 回复数, 表示该帖子每页的回帖个数;
如果该 URL不是帖子首页 URL,则进一步判断是否是重叠页 URL; 判断依据为该 URL对应的页码与当前应该提取页的页码相同; 当前应 该提取页的页码的计算公式如下: N包含主贴 c ^不包含主贴
Figure imgf000018_0001
其中, Β 表示当前应该抽取页的页码; ceil表示向上取整运算; 如果是重叠页, 则釆用如下公式计算新回帖起点 SF" 和新回帖个数
C 从新回帖起点 开始提取 个新回帖信息;
I + 1 N包含主贴
Si
I NPerf^不包含主贴
I 该页是最后一页
1 N - S" 该页不是最后一页
其中, "%" 表示取余数运算;
如果该 URL既不是帖子首页 URL, 也不是重叠页 URL, 釆用如下 公式计算新回帖起点 S;' 和新回帖的个数 ,从新回帖起点 Sm开 始提取 P rseCount个新回帖信息; s:" = 0
Γ'"
Rc,,rN °/oNPerPage + 1, NPe)_Pi¾i,包含主贴
i( - %NPerPage + \, 如果 - 1 > 0 , 该页是最后一页
, , N ¾/J¾ge不包含主贴
o, 如果^ -1 = 0
该页不是最后一页
10. 如权利要求 9所述的论坛回帖增量采集方法, 其特征在于, 步 骤(iv ) 中所述从网页内容中提取翻页 URL的方法如下:
1 )如果论坛翻页方式为计算翻页方式, 且 URL为帖子首页 则先釆用如下公式计算翻页的起始页码 和终止页码 PE«d:
包含主贴
Begin
N½ ^不包含主贴
Figure imgf000019_0001
ceil RcurNum + ^
NPerf ^包含主贴
N PerPage
End
R.
ceil CurNum
Nft 不包含主贴
N PerPage
I R TeNum PerPage + 1
S From u 含主贴
I ^V eNum PerPage 包含主贴
^口果 5* ,„„ == 0 U且 RD―、, ..... >> 0 U , 贝 m, iji令 S From = N PerPage Begin p 1 Begin + i
其中, 表示新回帖起点; 由上述公式计算出翻页的起始页码和 终止页码后, 结合预设的翻页 URL规则, 拼接出所有翻页 URL;
2 ) 如果论坛翻页方式为下一页翻页, 则从网页内容中提取翻页
URL
11. 如权利要求 10所述的论坛回帖增量采集方法, 其特征在于, 步骤 1 )中所述翻页规则中, 将翻页 URL分割成三个部分, 其中第一部 分和第三部分为不变部分, 分别记为^^ r£J¾ge和
Figure imgf000019_0002
; 第二部 分为变化部分, 记为 nPageUP 翻页 URL的拼接方法如下:
nPageNo = i + nFirstPostPagelndex - 1
n PageUp = (nPageNo x nPage UsBaseNum )
strPostPageUrl = strBeforePage + nPageUp + strAfterPage 其中, 表示翻页页码, i PEnd , "^geN。表示新回帖所在 页码; nFirstPostPagelndex =0或 1 , 表示帖子首页页码; "PageUp表示填写 在待拼接 URL内的表示翻页的页码值; nPageUsBaseN飄表示翻页基数; Wr ^t ¾ge[/r/表示拼接后的 URL
12. 如权利要求 10所述的论坛回帖增量釆集方法, 其特征在于: 步骤 2 )中所述从网页内容中提取翻页 URL后,添加到内容页釆集队列 之前, 还包括对翻页 URL进行消重处理的步骤。
13. 如权利要求 12所述的论坛回帖增量釆集方法, 其特征在于, 所述消重处理的方法如下:
在翻页 URL信息中查找该翻页 URL所属帖子是否存在翻页 URL 信息表;如果不存在,将建立该翻页 URL所属帖子的翻页 URL信息表, 并将该翻页 URL插入到翻页 URL信息表和内容页釆集队列;如果存在, 则判断该翻页 URL的页码是否大于该翻页 URL所属帖子的翻页 URL 的页码; 如果大于, 则更新该翻页 URL所属帖子的翻页 URL信息表, 并将该翻页 URL添加到内容页釆集任务队列中; 否则直接删除该翻页 URL。
14. 一种论坛回帖增量釆集系统, 包括用于根据帖子首页 URL和 帖子回复数信息,周期性判断所有需要釆集的论坛列表页中是否存在新 增帖子和具有新回帖的帖子的判断装置 ( 11 );
用于对新增帖子, 从新增帖子中提取出主贴和回帖信息; 对具有新 回帖的帖子, 计算新回帖起点和新回帖个数, 根据新回帖起点和新回帖 个数从具有新回帖的帖子中提取出新回帖信息的提取装置 ( 12 )。
15. 如权利要求 14所述的论坛回帖增量釆集系统, 其特征在于, 所述判断装置(11 ) 包括:
第一队列单元(111 ), 用于将所有需要釆集的论坛列表页 URL添 加到列表页釆集队列; 第一获取单元 (112 ), 用于从列表页釆集队列中取出每个列表页 URL;
列表页提取单元(113 ), 用于对取出的每个列表页 URL, 获取该列 表页 URL对应的网页内容, 并从所述网页内容中提取出每个帖子首页 URL和当前回复数;
判断单元(114 ), 用于根据帖子首页 URL判断每个帖子在已釆集 帖子信息表中是否存在; 如果存在, 则继续判断该帖子当前回复数是否 大于已釆集帖子信息表中记录的本次回复数, 如果大于, 则该帖子有新 回帖, 更新已釆集帖子信息表中该帖子的上次回复数和本次回复数; 如 果该帖子在已釆集帖子信息表中不存在, 则该帖子为新增帖子, 将该帖 子首页 URL和当前回复数添加到已釆集帖子信息表中。
16. 如权利要求 14所述的论坛回帖增量釆集系统, 其特征在于, 所述提取装置( 12 ) 包括:
第二队列单元( 121 ), 用于将新增帖子的首页 URL和具有新回帖 的帖子 URL添加到内容页釆集队列;
扫描单元(122 ), 用于定时扫描内容页釆集队列;
第二获取单元(123 ), 用于从内容页釆集队列中取出每个 URL; 内容页提取单元( 124 ), 用于获取 URL对应的网页内容, 并从所 述网页内容中提取主贴和 /或回帖和 /或翻页 URL。
17. 如权利要求 16所述的论坛回帖增量釆集系统, 其特征在于: 所述提取装置( 12 )还包括用于对论坛翻页方式为下一页翻页方式时从 网页内容中提取的翻页 URL进行消重处理的消重单元 ( 125 ); 所述第 二队列单元( 121 )还用于将消重后的翻页 URL添加到内容页釆集队列。
PCT/CN2011/084457 2010-12-22 2011-12-22 一种论坛回帖增量采集方法及系统 WO2012083870A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP11851417.3A EP2657854A4 (en) 2010-12-22 2011-12-22 METHOD AND SYSTEM FOR THE PROGRESSIVE COLLECTION OF FORUM RESPONSES
US13/997,257 US9552435B2 (en) 2010-12-22 2011-12-22 Method and system for incremental collection of forum replies
JP2013545030A JP5702474B2 (ja) 2010-12-22 2011-12-22 電子掲示板リプライ増加量の採集方法及びシステム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201010618393.4 2010-12-22
CN201010618393.4A CN102567407B (zh) 2010-12-22 2010-12-22 一种论坛回帖增量采集方法及系统

Publications (2)

Publication Number Publication Date
WO2012083870A1 true WO2012083870A1 (zh) 2012-06-28
WO2012083870A9 WO2012083870A9 (zh) 2013-08-29

Family

ID=46313183

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/084457 WO2012083870A1 (zh) 2010-12-22 2011-12-22 一种论坛回帖增量采集方法及系统

Country Status (5)

Country Link
US (1) US9552435B2 (zh)
EP (1) EP2657854A4 (zh)
JP (1) JP5702474B2 (zh)
CN (1) CN102567407B (zh)
WO (1) WO2012083870A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552435B2 (en) 2010-12-22 2017-01-24 Peking University Founder Group Co., Ltd. Method and system for incremental collection of forum replies

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593344B (zh) * 2012-08-13 2016-09-21 北大方正集团有限公司 一种信息采集方法和装置
CN103631906A (zh) * 2013-11-25 2014-03-12 北京奇虎科技有限公司 一种识别网页url中页码标识的方法和装置
CN104731824B (zh) * 2013-12-24 2018-12-18 腾讯科技(深圳)有限公司 一种显示图片的方法及装置
US10061725B2 (en) 2014-04-03 2018-08-28 Strato Scale Ltd. Scanning memory for de-duplication using RDMA
CN104391917A (zh) * 2014-11-19 2015-03-04 四川长虹电器股份有限公司 一种增量抓取网页内容的方法
US9912748B2 (en) 2015-01-12 2018-03-06 Strato Scale Ltd. Synchronization of snapshots in a distributed storage system
WO2016135570A1 (en) * 2015-02-26 2016-09-01 Strato Scale Ltd. Using access-frequency hierarchy for selection of eviction destination
US10051154B2 (en) * 2016-01-13 2018-08-14 Canon Kabushiki Kaisha Information processing apparatus, control method in information processing apparatus, and image processing apparatus
CN106372134B (zh) * 2016-08-26 2019-08-23 四川九洲电器集团有限责任公司 一种车联网实时数据处理方法及系统
CN108664303B (zh) * 2018-04-28 2023-06-30 北京小米移动软件有限公司 网页内容的显示方法及装置
CN109741200A (zh) * 2018-12-29 2019-05-10 深圳英飞拓智能技术有限公司 论坛热帖归档管理方法、装置、计算机设备和存储介质
CN112650910B (zh) * 2020-12-30 2024-03-12 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN114417200B (zh) * 2022-01-04 2023-04-14 马上消费金融股份有限公司 网络数据的采集方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101193038A (zh) * 2007-06-08 2008-06-04 腾讯科技(深圳)有限公司 回复主题帖、查看回复帖及交互主题帖的方法及系统
CN101335639A (zh) * 2007-06-25 2008-12-31 文贵华 一种基于网络论坛的网络调查新方法
CN101727486A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08330991A (ja) * 1995-05-30 1996-12-13 Matsushita Electric Ind Co Ltd データ放送受信装置
US20030084035A1 (en) * 2001-07-23 2003-05-01 Emerick Charles L. Integrated search and information discovery system
JP2004246785A (ja) * 2003-02-17 2004-09-02 Nippon Telegr & Teleph Corp <Ntt> 情報収集装置と情報収集方法およびプログラムと記録媒体
US20040225644A1 (en) * 2003-05-09 2004-11-11 International Business Machines Corporation Method and apparatus for search engine World Wide Web crawling
US7725452B1 (en) * 2003-07-03 2010-05-25 Google Inc. Scheduler for search engine crawler
US7310632B2 (en) * 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US20070106663A1 (en) * 2005-02-01 2007-05-10 Outland Research, Llc Methods and apparatus for using user personality type to improve the organization of documents retrieved in response to a search query
US7617193B2 (en) * 2005-03-28 2009-11-10 Elan Bitan Interactive user-controlled relevance ranking retrieved information in an information search system
CN101231640B (zh) * 2007-01-22 2010-09-22 北大方正集团有限公司 一种自动计算互联网上主题演化趋势的方法及系统
JP2009230663A (ja) * 2008-03-25 2009-10-08 Kddi Corp ウェブページの異常検知装置、プログラム、および記録媒体
US8010544B2 (en) * 2008-06-06 2011-08-30 Yahoo! Inc. Inverted indices in information extraction to improve records extracted per annotation
US20100205168A1 (en) * 2009-02-10 2010-08-12 Microsoft Corporation Thread-Based Incremental Web Forum Crawling
US8620849B2 (en) * 2010-03-10 2013-12-31 Lockheed Martin Corporation Systems and methods for facilitating open source intelligence gathering
CN101819585A (zh) * 2010-03-29 2010-09-01 哈尔滨工程大学 一种论坛事件传播图的构建装置及构建方法
CN102567407B (zh) 2010-12-22 2014-07-16 北大方正集团有限公司 一种论坛回帖增量采集方法及系统
CN102270239A (zh) * 2011-08-15 2011-12-07 哈尔滨工业大学 论坛中关联网络的演化分析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101193038A (zh) * 2007-06-08 2008-06-04 腾讯科技(深圳)有限公司 回复主题帖、查看回复帖及交互主题帖的方法及系统
CN101335639A (zh) * 2007-06-25 2008-12-31 文贵华 一种基于网络论坛的网络调查新方法
CN101727486A (zh) * 2009-12-04 2010-06-09 中国人民解放军信息工程大学 一种Web论坛信息抽取系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2657854A4

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9552435B2 (en) 2010-12-22 2017-01-24 Peking University Founder Group Co., Ltd. Method and system for incremental collection of forum replies

Also Published As

Publication number Publication date
JP2014506355A (ja) 2014-03-13
CN102567407B (zh) 2014-07-16
US20150127644A1 (en) 2015-05-07
US9552435B2 (en) 2017-01-24
EP2657854A1 (en) 2013-10-30
CN102567407A (zh) 2012-07-11
JP5702474B2 (ja) 2015-04-15
WO2012083870A9 (zh) 2013-08-29
EP2657854A4 (en) 2014-06-18

Similar Documents

Publication Publication Date Title
WO2012083870A1 (zh) 一种论坛回帖增量采集方法及系统
CN102693271B (zh) 一种网络信息推荐方法及系统
CN106709052B (zh) 一种基于关键词的主题网络爬虫设计方法
CN103870461B (zh) 主题推荐方法、装置和服务器
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
WO2012089005A1 (zh) 钓鱼网页检测方法及设备
WO2014029173A1 (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103617213B (zh) 识别新闻网页属性特征的方法和系统
CN102752154A (zh) Web网站死链检测方法
JP2014506355A5 (zh)
JP2009048380A5 (zh)
CN103970800B (zh) 网页相关关键词的抽取处理方法和系统
CN102682011B (zh) 建立域名描述名称信息表、搜索的方法、装置及系统
CN103617278A (zh) 一种地址栏搜索的控制方法及装置
CN101354718B (zh) 确定文件包资源标识信息的方法及装置
CN104133908B (zh) 在页面显示或生成讨论框的方法、服务器、客户端和系统
CN102902796A (zh) 浏览器网页标签自动分组系统及方法
CN105117482A (zh) 一种实现网站导航的方法和装置
CN104008213B (zh) 一种网页信息更新发现与统计的方法和装置
JP2011133941A5 (zh)
CN104317796A (zh) 一种基于搜索的多用户交互方法、服务器,以及系统
CN103678601A (zh) 一种范文检索请求的处理方法和装置
CN102929948A (zh) 列表页识别系统及方法
CN104239487B (zh) 基于搜索的多用户交互方法、服务器、客户端和系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11851417

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013545030

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

REEP Request for entry into the european phase

Ref document number: 2011851417

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2011851417

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13997257

Country of ref document: US