CN108021600A - 网页数据捕获设备及其网页数据撷取方法 - Google Patents
网页数据捕获设备及其网页数据撷取方法 Download PDFInfo
- Publication number
- CN108021600A CN108021600A CN201611000331.0A CN201611000331A CN108021600A CN 108021600 A CN108021600 A CN 108021600A CN 201611000331 A CN201611000331 A CN 201611000331A CN 108021600 A CN108021600 A CN 108021600A
- Authority
- CN
- China
- Prior art keywords
- data
- web
- web page
- page joint
- capture device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013481 data capture Methods 0.000 claims description 90
- 241001269238 Data Species 0.000 claims description 20
- 239000013598 vector Substances 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/457—Network directories; Name-to-address mapping containing identifiers of data entities on a computer, e.g. file names
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种网页数据捕获设备及其网页数据撷取方法。网页数据捕获设备执行:根据网页数据的URL的地址关联性,将网页数据分为URL群组;自URL群组的网页数据中挑选第一网页数据以及第二网页数据;解析第一网页数据以及第二网页数据得网页节点数据集合;根据网页节点数据集合的网页节点数据的XML路径语言的路径关联性以及文字内容的文字关联性,将网页节点数据集合的网页节点数据分为多个网页节点数据群组;分别计算各网页节点数据群组的一文字内容总和;根据文字内容总和,判断网页节点数据群组的主要网页节点数据群组;根据主要网页节点数据群组包含的网页节点数据的XML路径语言决定网页主要内容撷取信息。
Description
技术领域
本发明系关于一种网页数据捕获设备及其网页数据撷取方法;更具体而言,本发明系关于一种自动化的网页数据捕获设备及其网页数据撷取方法。
背景技术
随着因特网应用发展,各式各样的信息皆可从不同的网页获取,因此,当有特定数据分析需求时,便可针对相关网站的网页,撷取其主要内容后分析处理。
而习知的网页主要内容撷取方式中,多采人工抓取分析进行,然而,以人工的方式针对不同网站的不同网页进行主要内容判断,其效率相当不理想。据此,为提升网页主要内容撷取效率,便有以客工艺式为主,针对网页的各种样板(templates)及其排版(layout)作为训练数据(training data),进行网页分析及主要内容撷取的技术。
惟此种客工艺式的方式,仅能针对特定网页的样板及排版进行处理,因此,当网页改版或其语法结构稍微调整,若不针对客工艺式进行相应的调整,将会导致分析及撷取的结果发生明显错误。
更者,因网页格式排版日趋复杂,因此网页信息量亦大幅大幅增加,单一网页的网页节点(webpage node)可能高达近千个,据此,当网页的结构或型态发生更动时,客工艺式调整的复杂程度将更显困难,甚至可能需要重新撰写客工艺式,如此,同样导致网页主要内容判断的效率不佳。
因此,如何改进习知网页主要内容撷取效率不佳的缺点,乃业界须共同努力的目标。
发明内容
本发明的主要目的系提供一种用于网页数据捕获设备的网页数据撷取方法。网页数据捕获设备自网页服务器接收多个网页数据。网页数据撷取方法包含:(a)令网页数据捕获设备根据多个网页数据的多个统一资源寻址器(uniform resource locator,URL)的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含第一URL群组,第一URL群组包含至少部分多个网页数据;(b)令网页数据捕获设备自第一URL群组的部分多个网页数据中,挑选第一网页数据以及第二网页数据;(c)令网页数据捕获设备解析第一网页数据以及第二网页数据得网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的XML路径语言(XML Path Language)以及文字内容。
前述网页数据撷取方法进一步包含:(d)令网页数据捕获设备根据网页节点数据集合的多个网页节点数据的多个XML路径语言的路径关联性以及多个文字内容的文字关联性,将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中,各网页节点数据群组至少包含部分多个网页节点数据;(e)令网页数据捕获设备分别计算各网页节点数据群组的部分多个网页节点数据的文字内容总和;(f)令网页数据捕获设备根据多个文字内容总和,判断多个网页节点数据群组的至少一主要网页节点数据群组;(g)令网页数据捕获设备根据至少一主要网页节点数据群组包含的部分多个网页节点数据的多个XML路径语言,决定网页主要内容撷取信息。
为达上述目的,本发明揭露一种网页数据捕获设备,包含接收单元以及处理单元。接收单元用以自网页服务器接收多个网页数据。处理单元用以:根据多个网页数据的多个URL的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含第一URL群组,第一URL群组包含至少部分多个网页数据;自第一URL群组的部分多个网页数据中,挑选第一网页数据以及第二网页数据;解析第一网页数据以及第二网页数据得网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的XML路径语言以及文字内容。
前述处理单元进一步用以:根据网页节点数据集合的多个网页节点数据的多个XML路径语言的路径关联性以及多个文字内容的文字关联性,将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中,各网页节点数据群组至少包含部分多个网页节点数据;分别计算各网页节点数据群组的部分多个网页节点数据的文字内容总和;根据多个文字内容总和,判断多个网页节点数据群组的至少一主要网页节点数据群组;根据至少一主要网页节点数据群组包含的部分多个网页节点数据的多个XML路径语言,决定网页主要内容撷取信息。
此外在参阅图式及随后描述的实施方式后,本领域普通技术人员便可了解本发明的其他目的,以及本发明的技术手段及实施态样。
附图说明
图1A系本发明第一实施例的网页数据撷取操作示意图;
图1B系本发明第一实施例的网页数据捕获设备的方块图;
图2A系本发明第二实施例的网页数据撷取操作示意图;
图2B系本发明第二实施例的网页数据捕获设备的方块图;
图3系本发明第三实施例的网页数据撷取方法的流程图;以及
图4系本发明第四实施例的网页数据撷取方法的流程图。
符号说明
1、2 网页数据捕获设备
11、21 接收单元
13、23 处理单元
wp 网页数据
ul 统一资源寻址器
ug 至少一URL群组
UL1 第一URL群组
WP1 第一网页数据
WP2 第二网页数据
ND 网页节点数据
NDX XML 路径语言
NDT 文字内容
wpg 网页节点数据集合
ndg 网页节点数据群组
MNDG 至少一主要网页节点数据群组
MX 网页主要内容撷取信息
具体实施方式
下将透过实施方式来解释本发明的内容。须说明者,本发明的实施例并非用以限制本发明须在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此,有关实施例的说明仅为阐释本发明的目的,而非用以限制本发明,且本案所请求的范围,以权利要求为准。除此之外,于以下实施例及图式中,与本发明非直接相关的元件已省略而未绘示,且以下图式中各元件间的尺寸关系仅为求容易了解,非用以限制实际比例。
请参考图1A~图1B。图1A系本发明第一实施例的网页数据撷取操作示意图,图1B系本发明第一实施例的一网页数据捕获设备1的方块图。网页数据捕获设备1包含一接收单元11以及一处理单元13,并透过接收单元11与一网页服务器9连接。元件间的互动将于下文中进一步阐述。
首先,当需要分析网页服务器9的网页时,网页数据捕获设备1的接收单元11自网页服务器9接收多个网页数据wp。其中,基于因特网使用原则,各网页数据wp皆有其相应的统一资源寻址器(uniform resource locator,URL)ul。
接着,网页数据捕获设备1的处理单元13便根据多个网页数据wp的多个URL ul的地址关联性,将多个网页数据wp分为至少一URL群组ug。其中,至少一URL群组ul包含一第一URL群组UL1,而第一URL群组UL1包含至少部分网页数据wp。
须说明,此分群用意在于,初步地根据URL特性,将网页内容相似度较高的网页进行分类,以利后续比对分析。换言之,由于相同样板及排版的网页,其URL地址的形式通常较为相近,因此,根据网页数据的URL的地址关联性,便可进行初步分群。
随后,网页数据捕获设备1的处理单元13自第一URL群组UL1的部分网页数据中,挑选一第一网页数据WP1以及一第二网页数据WP2,并解析第一网页数据WP1以及第二网页数据WP2得一网页节点数据集合wpg。
详言之,由于单一网页中包含多个网页节点(webpage node),因此,解析第一网页数据WP1以及第二网页数据WP2的语法便可得到包含多个网页节点数据ND的网页节点数据集合wpg。其中,各网页节点数据ND包含相对应的一XML路径语言(XML Path Language)NDX以及一文字内容NDT。
据此,网页数据捕获设备1的处理单元13便可根据网页节点数据集合wpg的多个网页节点数据ND的多个XML路径语言NDX的路径关联性以及多个文字内容NDT的文字关联性,将网页节点数据集合wpg的多个网页节点数据ND分为多个网页节点数据群组ndg。其中,各网页节点数据群组ndg至少包含部分网页节点数据ND。
须说明,类似地,此分群用意在于,根据XML语法以及文字内容的特性,将内容相似度较高的网页节点进行分类,以利后续主要内容的判断。换言之,即根据网页节点的XML路径语言的路径关联性,将XML语法相似度较高的网页节点分群,另一方面,亦可根据网页节点的文字内容的文字关联性,将内容相似度较高的网页节点分群。
接着,网页数据捕获设备1的处理单元13分别计算各网页节点数据群组ndg的部分网页节点数据ND的一文字内容总和(未绘示),即计算同一网页节点数据群组ndg的网页节点数据ND的文字总长度,并根据多个文字内容总和,判断多个网页节点数据群组ndg的至少一主要网页节点数据群组MNDG。
具体而言,由于同一网络页面中,具有主要内容的网页节点数据通常具有数据量较大的文字内容,因此,前述分群主要系根据同一网页节点数据群组的网页节点数据的文字内容总和,将具有主要内容的网页节点数据与不具有主要内容的网页节点数据进行划分。
据此,网页数据捕获设备1的处理单元13便可根据至少一主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX,决定一网页主要内容撷取信息MX。更进一步来说,网页主要内容撷取信息MX主要系XML路径语言NDX的集合。
如此一来,在前述URL群组具有相同性质(例如样板及排版)网页的情况下,网页数据捕获设备1的处理单元13后续便可直接根据此XML路径语言NDX的集合,于URL群组中直接选择具有主要内容的网页节点,以便后续主要内容的分析及利用。
请参考图2A-图2B。图2A系本发明第二实施例的网页数据撷取操作示意图,图2B系本本发明第二实施例的一网页数据捕获设备2的方块图。网页数据捕获设备2包含一接收单元21以及一处理单元23,并透过接收单元21与网页服务器9连接。第二实施例主要系进一步用范例解释网页数据捕获设备2撷取分析网页的细节。
同样地,当需要分析网页服务器9的网页时,网页数据捕获设备2的接收单元21自网页服务器9接收多个网页数据wp,而基于因特网使用原则,各网页数据wp皆有其相应的URL ul,其中,网页数据wp及相对应的URL ul如下表格绘示:
wp | URL |
1 | http://www.aaaaa.com/item1.html |
2 | http://www.aaaaa.com/item2.html |
3 | http://www.aaaaa.com/item3.html |
4 | http://www.aaaaa.com/list1.html |
5 | http://www.aaaaa.com/list2.html |
… | … |
接着,网页数据捕获设备2的处理单元23便根据多个网页数据wp的多个URL ul的地址关联性,将多个网页数据wp分为至少一URL群组ug。其中,至少一URL群组ul包含第一URL群组UL1,而第一URL群组UL1包含至少部分网页数据WP。须说明,第二实施例中,此处的URL分群组主要系基于最小编辑距离(Minimum Edit Distance,MED)完成。
详言之,网页数据捕获设备2的处理单元23将多个网页数据wp的多个URL ul两两进行最小编辑距离计算,得结果如下表:
MED值 | item1.html | item2.html | item3.html | list1.html | list2.html |
item1.html | 0 | 1 | 1 | 4 | 5 |
item2.html | 0 | 1 | 5 | 4 | |
item3.html | 0 | 5 | 5 | ||
list1.html | 0 | 1 | |||
list2.html | 0 |
据此,网页数据捕获设备2的处理单元23可根据上表内容,将MED值小于一URL门槛值的网页数据配对加至同一URL群组中。以第二实施例来说,URL门槛值为2,因此,MED值为1的网页配对将分在同一URL群组。
详言之,第一URL群组UL1所包含的至少部分网页数据WP即为http://www.aaaaa.com/item1~3.html。另外,至少一URL群组ul亦可包含一第二URL群组(未绘示),且第二URL群组包含至少部分网页数据WP,即http://www.aaaaa.com/list1~2.html,惟相同URL群组的操作相同,后续将仅以第一URL群组UL1为主。
接着,网页数据捕获设备2的处理单元23自第一URL群组UL1的部分网页数据中,挑选数据量(即网页数据的HTML size)最高的第一网页数据WP1以及数据量第二高的第二网页数据WP2,并解析第一网页数据WP1以及第二网页数据WP2得网页节点数据集合wpg。
详言之,由于单一网页中包含多个网页节点,因此,解析第一网页数据WP1以及第二网页数据WP2的语法便可得到包含多个网页节点数据ND的网页节点数据集合wpg。其中,各网页节点数据ND包含相对应的XML路径语言NDX以及文字内容NDT,内容详如下表:
随后,于第二实施例中,可进一步将重复或无效的网页节点数据ND自网页节点数据集合wpg中删除。具体而言,网页数据捕获设备2的处理单元23根据上述表格,自文字内容NDT中挑选至少一无效文字内容以及至少一重复节点数据。以前述表格为例,无效文字内容为‘0’以及’null’,重复节点数据为’html/body/div[1]/div[2]/div[2]/div[3]/div[3]/div[6]||返回首页’。因此,调整后的网页节点数据集合wpg的网页节点数据ND内容如下表所示:
NDX | NDT |
… | … |
html/body/div[1]/div[2]/p[2] | …选择讨论… |
html/body/div[1]/main[1]/article[1] | …影音配备… |
html/body/div[1]/main[1]/article[2] | …价钱太贵… |
html/body/div[1]/main[1]/article[1] | …分享信息… |
html/body/div[1]/main[1]/article[1]/div[1]/div[2] | …影音配备… |
html/body/div[1]/main[1]/article[2]/div[1]/div[2] | …价钱太贵… |
html/body/div[1]/main[1]/article[1]/div[1]/div[2] | …分享信息… |
… | … |
随即,网页数据捕获设备2的处理单元23便可根据网页节点数据集合wpg的多个网页节点数据ND的多个XML路径语言NDX的路径关联性以及多个文字内容NDT的文字关联性,将网页节点数据集合wpg的多个网页节点数据ND分为多个网页节点数据群组ndg。
更详细而言,第二实施例中,此处的网页节点数据分群组的技术主要可分为两部分进行。首先,第一部分,类似地,将前述表格的网页节点数据ND的XML路径语言NDX两两进行最小编辑距离计算,并将MED值小于一XML门槛值(未绘示)的网页节点数据ND配对加至同一路径群组XG中。以第二实施例来说,分组状况如下表所示:
接着,第二部分,于各路径群组XG中,针对网页节点数据ND的文字内容NDT进行TF-IDF(term frequency–inverse document frequency)计算,得相应的多个用语频率向量,并计算两两文字内容的用语频率向量间的余弦值,若大于一文字内容门槛值(未绘示),则将其加至同一网页节点数据群组ndg中。以第二实施例来说,分组状况如下表所示:
如此一来,整合前述二部分的分组方式,便形成网页节点数据群组ndg,如下表所示:
须说明,利用关键词针对文字内容进行TF-IDF计算得相关向量,并计算两两向量的余弦值以判断向量间的关联性的技术,应为本领域技术人员透过习知技术可轻易理解的内容,于此不再赘述,本发明主要系将其用于分组的关联性依据。
接着,网页数据捕获设备2的处理单元23分别计算各网页节点数据群组ndg的部分网页节点数据ND的文字内容总和,即计算同一网页节点数据群组ndg的网页节点数据ND的文字总长度,详如下表:
接着,网页数据捕获设备2的处理单元23将相应于不同网页节点数据群组ndg的文字内容总和排序成一文字内容总和序列,如下表所示:
ndg 4-2 | ndg 9-2 | ndg 4-3 | ndg 9-3 | ndg 1-2 | ndg X-X |
76 | 75 | 73 | 72 | 28 | 27 |
随后,网页数据捕获设备2的处理单元23计算排序后的文字总和序列中,相邻文字内容总和的差值:1、2、1、44、1,并挑选最大差值,即44。据此,同样地,由于同一网络页面中,具有主要内容的网页节点数据通常具有数据量较大的文字内容,因此,最大差值出现之处,即为主要内容的网页节点数据与不具有主要内容的网页节点数据的分界。
因此,网页数据捕获设备2的处理单元23便可根据最大差值,将文字内容总和序列分为一主要区域以及一次要区域,并根据主要区域,判断网页节点数据群组ndg的至少一主要网页节点数据群组MNDG,如下表所示:
因此,于第二实施例中,主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX如下表所示:
ndg | NDX |
4-2 | html/body/div[1]/main[1]/article[1] |
4-2 | html/body/div[1]/main[1]/article[2] |
4-3 | html/body/div[1]/main[1]/article[1] |
9-2 | html/body/div[1]/main[1]/article[1]/div[1]/div[2] |
9-2 | html/body/div[1]/main[1]/article[2]/div[1]/div[2] |
9-3 | html/body/div[1]/main[1]/article[1]/div[1]/div[2] |
随后,网页数据捕获设备2的处理单元23便可针对主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX,进行最长共同子序列(Longest CommonSubsequence)算法,决定网页主要内容撷取信息MX。于第二实施例中,网页主要内容撷取信息MX为:’html/body/div[1]/main[1]/article[[0-9]+].*’。
如此一来,在前述URL群组(即http://www.aaaaa.com/item1~3.html)具有相同性质(例如样板及排版)网页的情况下,网页数据捕获设备2的处理单元23后续便可选择具有相同主要内容撷取信息MX(即html/body/div[1]/main[1]/article[[0-9]+].*)的网页节点,以便后续主要内容的分析及利用。
本发明的第三实施例为网页数据撷取方法,其流程图请参考图3。第三实施例的方法系用于一网页数据捕获设备(例如前述实施例的网页数据捕获设备1)。网页数据捕获设备自一网页服务器接收多个网页数据。第三实施例的详细步骤如下所述。
首先,执行步骤301,令网页数据捕获设备根据多个网页数据的多个URL的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含一第一URL群组,第一URL群组包含至少部分网页数据。执行步骤302,令网页数据捕获设备自第一URL群组的部分网页数据中,挑选一第一网页数据以及一第二网页数据。
执行步骤303,令网页数据捕获设备解析第一网页数据以及第二网页数据得一网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的一XML路径语言以及一文字内容。
执行步骤304,令网页数据捕获设备根据网页节点数据集合的网页节点数据的XML路径语言的路径关联性以及文字内容的文字关联性,将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中,各网页节点数据群组至少包含部分网页节点数据。
执行步骤305,令网页数据捕获设备分别计算各网页节点数据群组的部分网页节点数据的一文字内容总和。执行步骤306,令网页数据捕获设备根据多个文字内容总和,判断多个网页节点数据群组的至少一主要网页节点数据群组。最后,执行步骤307,令网页数据捕获设备根据至少一主要网页节点数据群组包含的部分网页节点数据的XML路径语言,决定一网页主要内容撷取信息。
本发明的第四实施例为网页数据撷取方法,其流程图请参考图4。第四实施例的方法系用于一网页数据捕获设备(例如前述实施例的网页数据捕获设备2)。网页数据捕获设备自一网页服务器接收多个网页数据。第四实施例的详细步骤如下所述。
首先,执行步骤401,令网页数据捕获设备根据多个网页数据的多个URL的地址关联性,将多个网页数据分为至少一URL群组。其中,至少一URL群组包含一第一URL群组,第一URL群组包含至少部分网页数据,且第一URL群组中,部分网页数据的URL间的最小编辑距离皆小于一URL门槛值。
执行步骤402,令网页数据捕获设备自第一URL群组的部分网页数据中,挑选数据量最高的一第一网页数据以及数据量第二高的一第二网页数据。执行步骤403,令网页数据捕获设备解析第一网页数据以及第二网页数据得一网页节点数据集合。其中,网页节点数据集合包含多个网页节点数据,各网页节点数据报含相对应的一XML路径语言以及一文字内容。
执行步骤404,令网页数据捕获设备自文字内容中挑选至少一无效文字内容以及至少一重复节点数据,并将相对应于至少一无效文字内容以及至少一重复节点数据的网页节点自网页节点数据集合中删除。
执行步骤405,令网页数据捕获设备根据网页节点数据集合的多个网页节点数据的XML路径语言的路径关联性,将网页节点数据集合的多个网页节点数据分为多个路径群组。其中,各路径群组的部分网页节点数据的XML路径语言间的最小编辑距离皆小于一XML门槛值。
执行步骤406,令网页数据捕获设备针对各路径群组,根据部分网页节点数据的文字内容的文字关联性,将各路径群组分为多个网页节点数据群组。其中,各路径群组中,部分网页节点数据的各文字内容具有一用语频率向量,且各路径群组中,各网页节点数据群组的部分网页节点数据的文字内容的用语频率向量间的余弦值大于一文字内容门槛值。
执行步骤407,令网页数据捕获设备将多个文字内容总和排序成一文字内容总和序列。执行步骤408,令网页数据捕获设备计算文字内容总和序列中相邻文字内容总和的多个差值。执行步骤409,令网页数据捕获设备挑选多个差值的一最大差值。执行步骤410,令网页数据捕获设备根据最大差值,将文字内容总和序列分为一主要区域以及一次要区域。
执行步骤411,令网页数据捕获设备根据主要区域,判断多个网页节点数据群组的至少一主要网页节点数据群组。执行步骤412,令网页数据捕获设备针对至少一主要网页节点数据群组包含的部分网页节点数据的XML路径语言,进行最长共同子序列算法。执行步骤413,令网页数据捕获设备根据步骤412的结果,决定网页主要内容撷取信息。
综合上述,本发明的网页数据捕获设备及其网页数据撷取方法,主要可自动地分析不同网页群组的样板及排版的语法,并且据以自动地找出具有主要内容的网页节点。如此一来,便可更有效率地完成网页数据的撷取,使利于进行后续相关数据分析。
惟上述实施例仅为例示性说明本发明的实施态样,以及阐释本发明的技术特征,并非用来限制本发明的保护范畴。本领域普通技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,本发明的权利保护范围应以权利要求为准。
Claims (14)
1.一种用于网页数据捕获设备的网页数据撷取方法,该网页数据捕获设备自一网页服务器接收多个网页数据,该网页数据撷取方法包含:
(a)令该网页数据捕获设备根据该等网页数据的多个统一资源寻址器URL的地址关联性,将该等网页数据分为至少一URL群组,其中,该至少一URL群组包含一第一URL群组,该第一URL群组包含至少部分该等网页数据;
(b)令该网页数据捕获设备自该第一URL群组的部分该等网页数据中,挑选一第一网页数据以及一第二网页数据;
(c)令该网页数据捕获设备解析该第一网页数据以及该第二网页数据得一网页节点数据集合,其中,该网页节点数据集合包含多个网页节点数据,各该网页节点数据报含相对应的一XML路径语言以及一文字内容;
(d)令该网页数据捕获设备根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性以及该等文字内容的文字关联性,将该网页节点数据集合的该等网页节点数据分为多个网页节点数据群组,其中,各该网页节点数据群组至少包含部分该等网页节点数据;
(e)令该网页数据捕获设备分别计算各该网页节点数据群组的部分该等网页节点数据的一文字内容总和;
(f)令该网页数据捕获设备根据该等文字内容总和,判断该等网页节点数据群组的至少一主要网页节点数据群组;
(g)令该网页数据捕获设备根据该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,决定一网页主要内容撷取信息。
2.如权利要求1所述的网页数据撷取方法,其特征在于,该第一URL群组中,部分该等网页数据的该等URL间的最小编辑距离皆小于一URL门槛值。
3.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(b)更包含:
(b1)令该网页数据捕获设备自该第一URL群组的部分该等网页数据中,挑选数据量最高的该第一网页数据以及数据量第二高的该第二网页数据。
4.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(c)后更包含:
(c1)令该网页数据捕获设备自该等文字内容中挑选至少一无效文字内容以及至少一重复节点数据,并将相对应于该至少一无效文字内容以及至少一重复节点数据的网页节点自该网页节点数据集合中删除。
5.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(d)更包含:
(d1)令网页数据捕获设备根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性,将该网页节点数据集合的该等网页节点数据分为多个路径群组,其中,各该路径群组的部分该等网页节点数据的该等XML路径语言间的最小编辑距离皆小于一XML门槛值;
(d2)令该网页数据捕获设备针对各该路径群组,根据部分该等网页节点数据的该等文字内容的文字关联性,将各该路径群组分为该等网页节点数据群组;
其中,各该路径群组中,部分该等网页节点数据的各该文字内容具有一用语频率向量;
其中,各该路径群组中,各该网页节点数据群组的部分该等网页节点数据的该等文字内容的该等用语频率向量间的余弦值大于一文字内容门槛值。
6.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(f)更包含:
(f1)令该网页数据捕获设备将该等文字内容总和排序成一文字内容总和序列;
(f2)令该网页数据捕获设备计算该文字内容总和序列中相邻文字内容总和的多个差值;
(f3)令该网页数据捕获设备挑选该等差值的一最大差值;
(f4)令该网页数据捕获设备根据该最大差值,将该文字内容总和序列分为一主要区域以及一次要区域;
(f5)令该网页数据捕获设备根据该主要区域,判断该等网页节点数据群组的该至少一主要网页节点数据群组。
7.如权利要求1所述的网页数据撷取方法,其特征在于,步骤(g)更包含:
(g1)令该网页数据捕获设备针对该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,进行最长共同子序列算法;
(g2)令网页数据捕获设备根据步骤(g1)的结果,决定该网页主要内容撷取信息。
8.一种网页数据捕获设备,包含:
一接收单元,用以自一网页服务器接收多个网页数据;以及
一处理单元,用以:
根据该等网页数据的多个统一资源寻址器URL的地址关联性,将该等网页数据分为至少一URL群组,其中,该至少一URL群组包含一第一URL群组,该第一URL群组包含至少部分该等网页数据;
自该第一URL群组的部分该等网页数据中,挑选一第一网页数据以及一第二网页数据;
解析该第一网页数据以及该第二网页数据得一网页节点数据集合,其中,该网页节点数据集合包含多个网页节点数据,各该网页节点数据报含相对应的一XML路径语言以及一文字内容;
根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性以及该等文字内容的文字关联性,将该网页节点数据集合的该等网页节点数据分为多个网页节点数据群组,其中,各该网页节点数据群组至少包含部分该等网页节点数据;
分别计算各该网页节点数据群组的部分该等网页节点数据的一文字内容总和;
根据该等文字内容总和,判断该等网页节点数据群组的至少一主要网页节点数据群组;
根据该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,决定一网页主要内容撷取信息。
9.如权利要求8所述的网页数据捕获设备,其特征在于,该第一URL群组中,部分该等网页数据的该等URL间的最小编辑距离皆小于一URL门槛值。
10.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
自该第一URL群组的部分该等网页数据中,挑选数据量最高的该第一网页数据以及数据量第二高的该第二网页数据。
11.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
自该等文字内容中挑选至少一无效文字内容以及至少一重复节点数据,并将相对应于该至少一无效文字内容以及至少一重复节点数据的网页节点自该网页节点数据集合中删除。
12.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性,将该网页节点数据集合的该等网页节点数据分为多个路径群组,其中,各该路径群组的部分该等网页节点数据的该等XML路径语言间的最小编辑距离皆小于一XML门槛值;
针对各该路径群组,根据部分该等网页节点数据的该等文字内容的文字关联性,将各该路径群组分为该等网页节点数据群组;
其中,各该路径群组中,部分该等网页节点数据的各该文字内容具有一用语频率向量;
其中,各该路径群组中,各该网页节点数据群组的部分该等网页节点数据的该等文字内容的该等用语频率向量间的余弦值大于一文字内容门槛值。
13.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
将该等文字内容总和排序成一文字内容总和序列;
计算该文字内容总和序列中相邻文字内容总和的多个差值;
挑选该等差值的一最大差值;
根据该最大差值,将该文字内容总和序列分为一主要区域以及一次要区域;
根据该主要区域,判断该等网页节点数据群组的该至少一主要网页节点数据群组。
14.如权利要求8所述的网页数据捕获设备,其特征在于,该处理单元更用以:
针对该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言,进行最长共同子序列算法;
根据最长共同子序列算法的结果,决定该网页主要内容撷取信息。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105135730 | 2016-11-03 | ||
TW105135730A TWI611308B (zh) | 2016-11-03 | 2016-11-03 | 網頁資料擷取裝置及其網頁資料擷取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108021600A true CN108021600A (zh) | 2018-05-11 |
Family
ID=61728282
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611000331.0A Pending CN108021600A (zh) | 2016-11-03 | 2016-11-14 | 网页数据捕获设备及其网页数据撷取方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180121558A1 (zh) |
CN (1) | CN108021600A (zh) |
TW (1) | TWI611308B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6697123B2 (ja) * | 2017-03-03 | 2020-05-20 | 日本電信電話株式会社 | プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム |
US10977289B2 (en) * | 2019-02-11 | 2021-04-13 | Verizon Media Inc. | Automatic electronic message content extraction method and apparatus |
CN110134901B (zh) * | 2019-04-30 | 2023-06-16 | 哈尔滨英赛克信息技术有限公司 | 一种基于流量分析的多链路网页篡改判定方法 |
CN110704761A (zh) * | 2019-09-25 | 2020-01-17 | 恩亿科(北京)数据科技有限公司 | 网页信息的获取方法和计算机存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201030542A (en) * | 2008-11-18 | 2010-08-16 | Yahoo Inc | System and method for URL based query for retrieving data related to a context |
CN102298638A (zh) * | 2011-08-31 | 2011-12-28 | 北京中搜网络技术股份有限公司 | 使用网页标签聚类提取新闻网页内容的方法和系统 |
CN102314497A (zh) * | 2011-08-26 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于识别标记语言文件主体内容的方法和设备 |
US20150067476A1 (en) * | 2013-08-29 | 2015-03-05 | Microsoft Corporation | Title and body extraction from web page |
US20150324091A1 (en) * | 2012-04-28 | 2015-11-12 | Li-Mei Jiao | Detecting valuable sections in webpage |
CN106021582A (zh) * | 2016-06-02 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 位置信息过滤的方法、提取有效网页信息的方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8020206B2 (en) * | 2006-07-10 | 2011-09-13 | Websense, Inc. | System and method of analyzing web content |
KR20070090858A (ko) * | 2007-03-15 | 2007-09-06 | 세창인스트루먼트(주) | 접근 웹사이트에 연동된 인터넷 서비스 시스템 및 그 방법 |
US20090063538A1 (en) * | 2007-08-30 | 2009-03-05 | Krishna Prasad Chitrapura | Method for normalizing dynamic urls of web pages through hierarchical organization of urls from a web site |
US8655805B2 (en) * | 2010-08-30 | 2014-02-18 | International Business Machines Corporation | Method for classification of objects in a graph data stream |
WO2015196405A1 (en) * | 2014-06-26 | 2015-12-30 | Google Inc. | Optimized browser rendering process |
CN105843965B (zh) * | 2016-04-20 | 2019-06-04 | 广东精点数据科技股份有限公司 | 一种基于url主题分类的深层网络爬虫表单填充方法和装置 |
US10148700B2 (en) * | 2016-06-30 | 2018-12-04 | Fortinet, Inc. | Classification of top-level domain (TLD) websites based on a known website classification |
-
2016
- 2016-11-03 TW TW105135730A patent/TWI611308B/zh active
- 2016-11-14 CN CN201611000331.0A patent/CN108021600A/zh active Pending
- 2016-11-21 US US15/358,119 patent/US20180121558A1/en not_active Abandoned
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201030542A (en) * | 2008-11-18 | 2010-08-16 | Yahoo Inc | System and method for URL based query for retrieving data related to a context |
CN102314497A (zh) * | 2011-08-26 | 2012-01-11 | 百度在线网络技术(北京)有限公司 | 一种用于识别标记语言文件主体内容的方法和设备 |
CN102298638A (zh) * | 2011-08-31 | 2011-12-28 | 北京中搜网络技术股份有限公司 | 使用网页标签聚类提取新闻网页内容的方法和系统 |
US20150324091A1 (en) * | 2012-04-28 | 2015-11-12 | Li-Mei Jiao | Detecting valuable sections in webpage |
US20150067476A1 (en) * | 2013-08-29 | 2015-03-05 | Microsoft Corporation | Title and body extraction from web page |
CN106021582A (zh) * | 2016-06-02 | 2016-10-12 | 腾讯科技(深圳)有限公司 | 位置信息过滤的方法、提取有效网页信息的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
TW201818268A (zh) | 2018-05-16 |
US20180121558A1 (en) | 2018-05-03 |
TWI611308B (zh) | 2018-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2057557B1 (en) | Joint optimization of wrapper generation and template detection | |
US8239387B2 (en) | Structural clustering and template identification for electronic documents | |
CN101903878B (zh) | 用于分类搜索结果以确定页面元素的方法和系统 | |
CN101650715B (zh) | 一种筛选网页上链接的方法和装置 | |
CN108021600A (zh) | 网页数据捕获设备及其网页数据撷取方法 | |
CN101984422B (zh) | 一种容错文本查询的方法和设备 | |
CN102314497B (zh) | 一种用于识别标记语言文件主体内容的方法和设备 | |
JP4226261B2 (ja) | 構造化文書種別判定システム及び構造化文書種別判定方法 | |
CN104361081A (zh) | 一种基于web文档的自动摘要方法 | |
CN104881488A (zh) | 基于关系表的可配置信息抽取方法 | |
CN103874994A (zh) | 用于自动概括电子文档的内容的方法和装置 | |
CN102402566A (zh) | 基于中文网页自动分类技术的Web用户行为分析方法 | |
CN105528422A (zh) | 一种主题爬虫处理方法及装置 | |
CN112287272B (zh) | 一种网站列表页面的分类方法、系统及存储介质 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
CN104331438B (zh) | 对小说网页内容选择性抽取方法和装置 | |
CN111444352A (zh) | 基于知识节点所属度的知识图谱构建方法和装置 | |
CN106547749A (zh) | 网页数据采集的方法和装置 | |
CN104408180A (zh) | 内存数据的查询方法和装置 | |
CN107066548A (zh) | 一种双维度分类提取网页链接的方法 | |
CN105117434A (zh) | 一种网页分类方法和系统 | |
CN104428763B (zh) | 将结构化及非结构化数据实现在xml文件的方法 | |
CN102073678A (zh) | 一种网站信息分析系统及其方法 | |
US10402484B2 (en) | Aligning annotation of fields of documents | |
CN102004805B (zh) | 基于最大相似性匹配的网页去噪系统及其去噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180511 |