CN108021600A

CN108021600A - 网页数据捕获设备及其网页数据撷取方法

Info

Publication number: CN108021600A
Application number: CN201611000331.0A
Authority: CN
Inventors: 黄奕翔; 邱育贤; 萧晖议
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2016-11-03
Filing date: 2016-11-14
Publication date: 2018-05-11
Also published as: TW201818268A; US20180121558A1; TWI611308B

Abstract

一种网页数据捕获设备及其网页数据撷取方法。网页数据捕获设备执行：根据网页数据的URL的地址关联性，将网页数据分为URL群组；自URL群组的网页数据中挑选第一网页数据以及第二网页数据；解析第一网页数据以及第二网页数据得网页节点数据集合；根据网页节点数据集合的网页节点数据的XML路径语言的路径关联性以及文字内容的文字关联性，将网页节点数据集合的网页节点数据分为多个网页节点数据群组；分别计算各网页节点数据群组的一文字内容总和；根据文字内容总和，判断网页节点数据群组的主要网页节点数据群组；根据主要网页节点数据群组包含的网页节点数据的XML路径语言决定网页主要内容撷取信息。

Description

网页数据捕获设备及其网页数据撷取方法

技术领域

本发明系关于一种网页数据捕获设备及其网页数据撷取方法；更具体而言，本发明系关于一种自动化的网页数据捕获设备及其网页数据撷取方法。

背景技术

随着因特网应用发展，各式各样的信息皆可从不同的网页获取，因此，当有特定数据分析需求时，便可针对相关网站的网页，撷取其主要内容后分析处理。

而习知的网页主要内容撷取方式中，多采人工抓取分析进行，然而，以人工的方式针对不同网站的不同网页进行主要内容判断，其效率相当不理想。据此，为提升网页主要内容撷取效率，便有以客工艺式为主，针对网页的各种样板(templates)及其排版(layout)作为训练数据(training data)，进行网页分析及主要内容撷取的技术。

惟此种客工艺式的方式，仅能针对特定网页的样板及排版进行处理，因此，当网页改版或其语法结构稍微调整，若不针对客工艺式进行相应的调整，将会导致分析及撷取的结果发生明显错误。

更者，因网页格式排版日趋复杂，因此网页信息量亦大幅大幅增加，单一网页的网页节点(webpage node)可能高达近千个，据此，当网页的结构或型态发生更动时，客工艺式调整的复杂程度将更显困难，甚至可能需要重新撰写客工艺式，如此，同样导致网页主要内容判断的效率不佳。

因此，如何改进习知网页主要内容撷取效率不佳的缺点，乃业界须共同努力的目标。

发明内容

本发明的主要目的系提供一种用于网页数据捕获设备的网页数据撷取方法。网页数据捕获设备自网页服务器接收多个网页数据。网页数据撷取方法包含：(a)令网页数据捕获设备根据多个网页数据的多个统一资源寻址器(uniform resource locator,URL)的地址关联性，将多个网页数据分为至少一URL群组。其中，至少一URL群组包含第一URL群组，第一URL群组包含至少部分多个网页数据；(b)令网页数据捕获设备自第一URL群组的部分多个网页数据中，挑选第一网页数据以及第二网页数据；(c)令网页数据捕获设备解析第一网页数据以及第二网页数据得网页节点数据集合。其中，网页节点数据集合包含多个网页节点数据，各网页节点数据报含相对应的XML路径语言(XML Path Language)以及文字内容。

前述网页数据撷取方法进一步包含：(d)令网页数据捕获设备根据网页节点数据集合的多个网页节点数据的多个XML路径语言的路径关联性以及多个文字内容的文字关联性，将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中，各网页节点数据群组至少包含部分多个网页节点数据；(e)令网页数据捕获设备分别计算各网页节点数据群组的部分多个网页节点数据的文字内容总和；(f)令网页数据捕获设备根据多个文字内容总和，判断多个网页节点数据群组的至少一主要网页节点数据群组；(g)令网页数据捕获设备根据至少一主要网页节点数据群组包含的部分多个网页节点数据的多个XML路径语言，决定网页主要内容撷取信息。

为达上述目的，本发明揭露一种网页数据捕获设备，包含接收单元以及处理单元。接收单元用以自网页服务器接收多个网页数据。处理单元用以：根据多个网页数据的多个URL的地址关联性，将多个网页数据分为至少一URL群组。其中，至少一URL群组包含第一URL群组，第一URL群组包含至少部分多个网页数据；自第一URL群组的部分多个网页数据中，挑选第一网页数据以及第二网页数据；解析第一网页数据以及第二网页数据得网页节点数据集合。其中，网页节点数据集合包含多个网页节点数据，各网页节点数据报含相对应的XML路径语言以及文字内容。

前述处理单元进一步用以：根据网页节点数据集合的多个网页节点数据的多个XML路径语言的路径关联性以及多个文字内容的文字关联性，将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中，各网页节点数据群组至少包含部分多个网页节点数据；分别计算各网页节点数据群组的部分多个网页节点数据的文字内容总和；根据多个文字内容总和，判断多个网页节点数据群组的至少一主要网页节点数据群组；根据至少一主要网页节点数据群组包含的部分多个网页节点数据的多个XML路径语言，决定网页主要内容撷取信息。

此外在参阅图式及随后描述的实施方式后，本领域普通技术人员便可了解本发明的其他目的，以及本发明的技术手段及实施态样。

附图说明

图1A系本发明第一实施例的网页数据撷取操作示意图；

图1B系本发明第一实施例的网页数据捕获设备的方块图；

图2A系本发明第二实施例的网页数据撷取操作示意图；

图2B系本发明第二实施例的网页数据捕获设备的方块图；

图3系本发明第三实施例的网页数据撷取方法的流程图；以及

图4系本发明第四实施例的网页数据撷取方法的流程图。

符号说明

1、2 网页数据捕获设备

11、21 接收单元

13、23 处理单元

wp 网页数据

ul 统一资源寻址器

ug 至少一URL群组

UL1 第一URL群组

WP1 第一网页数据

WP2 第二网页数据

ND 网页节点数据

NDX XML 路径语言

NDT 文字内容

wpg 网页节点数据集合

ndg 网页节点数据群组

MNDG 至少一主要网页节点数据群组

MX 网页主要内容撷取信息

具体实施方式

下将透过实施方式来解释本发明的内容。须说明者，本发明的实施例并非用以限制本发明须在如实施例所述的任何特定的环境、应用或特殊方式方能实施。因此，有关实施例的说明仅为阐释本发明的目的，而非用以限制本发明，且本案所请求的范围，以权利要求为准。除此之外，于以下实施例及图式中，与本发明非直接相关的元件已省略而未绘示，且以下图式中各元件间的尺寸关系仅为求容易了解，非用以限制实际比例。

请参考图1A～图1B。图1A系本发明第一实施例的网页数据撷取操作示意图，图1B系本发明第一实施例的一网页数据捕获设备1的方块图。网页数据捕获设备1包含一接收单元11以及一处理单元13，并透过接收单元11与一网页服务器9连接。元件间的互动将于下文中进一步阐述。

首先，当需要分析网页服务器9的网页时，网页数据捕获设备1的接收单元11自网页服务器9接收多个网页数据wp。其中，基于因特网使用原则，各网页数据wp皆有其相应的统一资源寻址器(uniform resource locator,URL)ul。

接着，网页数据捕获设备1的处理单元13便根据多个网页数据wp的多个URL ul的地址关联性，将多个网页数据wp分为至少一URL群组ug。其中，至少一URL群组ul包含一第一URL群组UL1，而第一URL群组UL1包含至少部分网页数据wp。

须说明，此分群用意在于，初步地根据URL特性，将网页内容相似度较高的网页进行分类，以利后续比对分析。换言之，由于相同样板及排版的网页，其URL地址的形式通常较为相近，因此，根据网页数据的URL的地址关联性，便可进行初步分群。

随后，网页数据捕获设备1的处理单元13自第一URL群组UL1的部分网页数据中，挑选一第一网页数据WP1以及一第二网页数据WP2，并解析第一网页数据WP1以及第二网页数据WP2得一网页节点数据集合wpg。

详言之，由于单一网页中包含多个网页节点(webpage node)，因此，解析第一网页数据WP1以及第二网页数据WP2的语法便可得到包含多个网页节点数据ND的网页节点数据集合wpg。其中，各网页节点数据ND包含相对应的一XML路径语言(XML Path Language)NDX以及一文字内容NDT。

据此，网页数据捕获设备1的处理单元13便可根据网页节点数据集合wpg的多个网页节点数据ND的多个XML路径语言NDX的路径关联性以及多个文字内容NDT的文字关联性，将网页节点数据集合wpg的多个网页节点数据ND分为多个网页节点数据群组ndg。其中，各网页节点数据群组ndg至少包含部分网页节点数据ND。

须说明，类似地，此分群用意在于，根据XML语法以及文字内容的特性，将内容相似度较高的网页节点进行分类，以利后续主要内容的判断。换言之，即根据网页节点的XML路径语言的路径关联性，将XML语法相似度较高的网页节点分群，另一方面，亦可根据网页节点的文字内容的文字关联性，将内容相似度较高的网页节点分群。

接着，网页数据捕获设备1的处理单元13分别计算各网页节点数据群组ndg的部分网页节点数据ND的一文字内容总和(未绘示)，即计算同一网页节点数据群组ndg的网页节点数据ND的文字总长度，并根据多个文字内容总和，判断多个网页节点数据群组ndg的至少一主要网页节点数据群组MNDG。

具体而言，由于同一网络页面中，具有主要内容的网页节点数据通常具有数据量较大的文字内容，因此，前述分群主要系根据同一网页节点数据群组的网页节点数据的文字内容总和，将具有主要内容的网页节点数据与不具有主要内容的网页节点数据进行划分。

据此，网页数据捕获设备1的处理单元13便可根据至少一主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX，决定一网页主要内容撷取信息MX。更进一步来说，网页主要内容撷取信息MX主要系XML路径语言NDX的集合。

如此一来，在前述URL群组具有相同性质(例如样板及排版)网页的情况下，网页数据捕获设备1的处理单元13后续便可直接根据此XML路径语言NDX的集合，于URL群组中直接选择具有主要内容的网页节点，以便后续主要内容的分析及利用。

请参考图2A-图2B。图2A系本发明第二实施例的网页数据撷取操作示意图，图2B系本本发明第二实施例的一网页数据捕获设备2的方块图。网页数据捕获设备2包含一接收单元21以及一处理单元23，并透过接收单元21与网页服务器9连接。第二实施例主要系进一步用范例解释网页数据捕获设备2撷取分析网页的细节。

同样地，当需要分析网页服务器9的网页时，网页数据捕获设备2的接收单元21自网页服务器9接收多个网页数据wp，而基于因特网使用原则，各网页数据wp皆有其相应的URL ul，其中，网页数据wp及相对应的URL ul如下表格绘示：

wp	URL
		1	http://www.aaaaa.com/item1.html
2	http://www.aaaaa.com/item2.html
		3	http://www.aaaaa.com/item3.html
4	http://www.aaaaa.com/list1.html
		5	http://www.aaaaa.com/list2.html
…	…

接着，网页数据捕获设备2的处理单元23便根据多个网页数据wp的多个URL ul的地址关联性，将多个网页数据wp分为至少一URL群组ug。其中，至少一URL群组ul包含第一URL群组UL1，而第一URL群组UL1包含至少部分网页数据WP。须说明，第二实施例中，此处的URL分群组主要系基于最小编辑距离(Minimum Edit Distance,MED)完成。

详言之，网页数据捕获设备2的处理单元23将多个网页数据wp的多个URL ul两两进行最小编辑距离计算，得结果如下表：

MED值	item1.html	item2.html	item3.html	list1.html	list2.html
						item1.html	0	1	1	4	5
item2.html		0	1	5	4
						item3.html			0	5	5
list1.html				0	1
						list2.html					0

据此，网页数据捕获设备2的处理单元23可根据上表内容，将MED值小于一URL门槛值的网页数据配对加至同一URL群组中。以第二实施例来说，URL门槛值为2，因此，MED值为1的网页配对将分在同一URL群组。

详言之，第一URL群组UL1所包含的至少部分网页数据WP即为http://www.aaaaa.com/item1～3.html。另外，至少一URL群组ul亦可包含一第二URL群组(未绘示)，且第二URL群组包含至少部分网页数据WP，即http://www.aaaaa.com/list1～2.html，惟相同URL群组的操作相同，后续将仅以第一URL群组UL1为主。

接着，网页数据捕获设备2的处理单元23自第一URL群组UL1的部分网页数据中，挑选数据量(即网页数据的HTML size)最高的第一网页数据WP1以及数据量第二高的第二网页数据WP2，并解析第一网页数据WP1以及第二网页数据WP2得网页节点数据集合wpg。

详言之，由于单一网页中包含多个网页节点，因此，解析第一网页数据WP1以及第二网页数据WP2的语法便可得到包含多个网页节点数据ND的网页节点数据集合wpg。其中，各网页节点数据ND包含相对应的XML路径语言NDX以及文字内容NDT，内容详如下表：

随后，于第二实施例中，可进一步将重复或无效的网页节点数据ND自网页节点数据集合wpg中删除。具体而言，网页数据捕获设备2的处理单元23根据上述表格，自文字内容NDT中挑选至少一无效文字内容以及至少一重复节点数据。以前述表格为例，无效文字内容为‘0’以及’null’，重复节点数据为’html/body/div[1]/div[2]/div[2]/div[3]/div[3]/div[6]||返回首页’。因此，调整后的网页节点数据集合wpg的网页节点数据ND内容如下表所示：

NDX	NDT
		…	…
html/body/div[1]/div[2]/p[2]	…选择讨论…
		html/body/div[1]/main[1]/article[1]	…影音配备…
html/body/div[1]/main[1]/article[2]	…价钱太贵…
		html/body/div[1]/main[1]/article[1]	…分享信息…
html/body/div[1]/main[1]/article[1]/div[1]/div[2]	…影音配备…
		html/body/div[1]/main[1]/article[2]/div[1]/div[2]	…价钱太贵…
html/body/div[1]/main[1]/article[1]/div[1]/div[2]	…分享信息…
		…	…

随即，网页数据捕获设备2的处理单元23便可根据网页节点数据集合wpg的多个网页节点数据ND的多个XML路径语言NDX的路径关联性以及多个文字内容NDT的文字关联性，将网页节点数据集合wpg的多个网页节点数据ND分为多个网页节点数据群组ndg。

更详细而言，第二实施例中，此处的网页节点数据分群组的技术主要可分为两部分进行。首先，第一部分，类似地，将前述表格的网页节点数据ND的XML路径语言NDX两两进行最小编辑距离计算，并将MED值小于一XML门槛值(未绘示)的网页节点数据ND配对加至同一路径群组XG中。以第二实施例来说，分组状况如下表所示：

接着，第二部分，于各路径群组XG中，针对网页节点数据ND的文字内容NDT进行TF-IDF(term frequency–inverse document frequency)计算，得相应的多个用语频率向量，并计算两两文字内容的用语频率向量间的余弦值，若大于一文字内容门槛值(未绘示)，则将其加至同一网页节点数据群组ndg中。以第二实施例来说，分组状况如下表所示：

如此一来，整合前述二部分的分组方式，便形成网页节点数据群组ndg，如下表所示：

须说明，利用关键词针对文字内容进行TF-IDF计算得相关向量，并计算两两向量的余弦值以判断向量间的关联性的技术，应为本领域技术人员透过习知技术可轻易理解的内容，于此不再赘述，本发明主要系将其用于分组的关联性依据。

接着，网页数据捕获设备2的处理单元23分别计算各网页节点数据群组ndg的部分网页节点数据ND的文字内容总和，即计算同一网页节点数据群组ndg的网页节点数据ND的文字总长度，详如下表：

接着，网页数据捕获设备2的处理单元23将相应于不同网页节点数据群组ndg的文字内容总和排序成一文字内容总和序列，如下表所示：

ndg 4-2	ndg 9-2	ndg 4-3	ndg 9-3	ndg 1-2	ndg X-X
						76	75	73	72	28	27

随后，网页数据捕获设备2的处理单元23计算排序后的文字总和序列中，相邻文字内容总和的差值：1、2、1、44、1，并挑选最大差值，即44。据此，同样地，由于同一网络页面中，具有主要内容的网页节点数据通常具有数据量较大的文字内容，因此，最大差值出现之处，即为主要内容的网页节点数据与不具有主要内容的网页节点数据的分界。

因此，网页数据捕获设备2的处理单元23便可根据最大差值，将文字内容总和序列分为一主要区域以及一次要区域，并根据主要区域，判断网页节点数据群组ndg的至少一主要网页节点数据群组MNDG，如下表所示：

因此，于第二实施例中，主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX如下表所示：

ndg	NDX
		4-2	html/body/div[1]/main[1]/article[1]
4-2	html/body/div[1]/main[1]/article[2]
		4-3	html/body/div[1]/main[1]/article[1]
9-2	html/body/div[1]/main[1]/article[1]/div[1]/div[2]
		9-2	html/body/div[1]/main[1]/article[2]/div[1]/div[2]
9-3	html/body/div[1]/main[1]/article[1]/div[1]/div[2]

随后，网页数据捕获设备2的处理单元23便可针对主要网页节点数据群组MNDG包含的部分网页节点数据ND的XML路径语言NDX，进行最长共同子序列(Longest CommonSubsequence)算法，决定网页主要内容撷取信息MX。于第二实施例中，网页主要内容撷取信息MX为：’html/body/div[1]/main[1]/article[[0-9]+].*’。

如此一来，在前述URL群组(即http://www.aaaaa.com/item1～3.html)具有相同性质(例如样板及排版)网页的情况下，网页数据捕获设备2的处理单元23后续便可选择具有相同主要内容撷取信息MX(即html/body/div[1]/main[1]/article[[0-9]+].*)的网页节点，以便后续主要内容的分析及利用。

本发明的第三实施例为网页数据撷取方法，其流程图请参考图3。第三实施例的方法系用于一网页数据捕获设备(例如前述实施例的网页数据捕获设备1)。网页数据捕获设备自一网页服务器接收多个网页数据。第三实施例的详细步骤如下所述。

首先，执行步骤301，令网页数据捕获设备根据多个网页数据的多个URL的地址关联性，将多个网页数据分为至少一URL群组。其中，至少一URL群组包含一第一URL群组，第一URL群组包含至少部分网页数据。执行步骤302，令网页数据捕获设备自第一URL群组的部分网页数据中，挑选一第一网页数据以及一第二网页数据。

执行步骤303，令网页数据捕获设备解析第一网页数据以及第二网页数据得一网页节点数据集合。其中，网页节点数据集合包含多个网页节点数据，各网页节点数据报含相对应的一XML路径语言以及一文字内容。

执行步骤304，令网页数据捕获设备根据网页节点数据集合的网页节点数据的XML路径语言的路径关联性以及文字内容的文字关联性，将网页节点数据集合的多个网页节点数据分为多个网页节点数据群组。其中，各网页节点数据群组至少包含部分网页节点数据。

执行步骤305，令网页数据捕获设备分别计算各网页节点数据群组的部分网页节点数据的一文字内容总和。执行步骤306，令网页数据捕获设备根据多个文字内容总和，判断多个网页节点数据群组的至少一主要网页节点数据群组。最后，执行步骤307，令网页数据捕获设备根据至少一主要网页节点数据群组包含的部分网页节点数据的XML路径语言，决定一网页主要内容撷取信息。

本发明的第四实施例为网页数据撷取方法，其流程图请参考图4。第四实施例的方法系用于一网页数据捕获设备(例如前述实施例的网页数据捕获设备2)。网页数据捕获设备自一网页服务器接收多个网页数据。第四实施例的详细步骤如下所述。

首先，执行步骤401，令网页数据捕获设备根据多个网页数据的多个URL的地址关联性，将多个网页数据分为至少一URL群组。其中，至少一URL群组包含一第一URL群组，第一URL群组包含至少部分网页数据，且第一URL群组中，部分网页数据的URL间的最小编辑距离皆小于一URL门槛值。

执行步骤402，令网页数据捕获设备自第一URL群组的部分网页数据中，挑选数据量最高的一第一网页数据以及数据量第二高的一第二网页数据。执行步骤403，令网页数据捕获设备解析第一网页数据以及第二网页数据得一网页节点数据集合。其中，网页节点数据集合包含多个网页节点数据，各网页节点数据报含相对应的一XML路径语言以及一文字内容。

执行步骤404，令网页数据捕获设备自文字内容中挑选至少一无效文字内容以及至少一重复节点数据，并将相对应于至少一无效文字内容以及至少一重复节点数据的网页节点自网页节点数据集合中删除。

执行步骤405，令网页数据捕获设备根据网页节点数据集合的多个网页节点数据的XML路径语言的路径关联性，将网页节点数据集合的多个网页节点数据分为多个路径群组。其中，各路径群组的部分网页节点数据的XML路径语言间的最小编辑距离皆小于一XML门槛值。

执行步骤406，令网页数据捕获设备针对各路径群组，根据部分网页节点数据的文字内容的文字关联性，将各路径群组分为多个网页节点数据群组。其中，各路径群组中，部分网页节点数据的各文字内容具有一用语频率向量，且各路径群组中，各网页节点数据群组的部分网页节点数据的文字内容的用语频率向量间的余弦值大于一文字内容门槛值。

执行步骤407，令网页数据捕获设备将多个文字内容总和排序成一文字内容总和序列。执行步骤408，令网页数据捕获设备计算文字内容总和序列中相邻文字内容总和的多个差值。执行步骤409，令网页数据捕获设备挑选多个差值的一最大差值。执行步骤410，令网页数据捕获设备根据最大差值，将文字内容总和序列分为一主要区域以及一次要区域。

执行步骤411，令网页数据捕获设备根据主要区域，判断多个网页节点数据群组的至少一主要网页节点数据群组。执行步骤412，令网页数据捕获设备针对至少一主要网页节点数据群组包含的部分网页节点数据的XML路径语言，进行最长共同子序列算法。执行步骤413，令网页数据捕获设备根据步骤412的结果，决定网页主要内容撷取信息。

综合上述，本发明的网页数据捕获设备及其网页数据撷取方法，主要可自动地分析不同网页群组的样板及排版的语法，并且据以自动地找出具有主要内容的网页节点。如此一来，便可更有效率地完成网页数据的撷取，使利于进行后续相关数据分析。

惟上述实施例仅为例示性说明本发明的实施态样，以及阐释本发明的技术特征，并非用来限制本发明的保护范畴。本领域普通技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围，本发明的权利保护范围应以权利要求为准。

Claims

1.一种用于网页数据捕获设备的网页数据撷取方法，该网页数据捕获设备自一网页服务器接收多个网页数据，该网页数据撷取方法包含：

(a)令该网页数据捕获设备根据该等网页数据的多个统一资源寻址器URL的地址关联性，将该等网页数据分为至少一URL群组，其中，该至少一URL群组包含一第一URL群组，该第一URL群组包含至少部分该等网页数据；

(b)令该网页数据捕获设备自该第一URL群组的部分该等网页数据中，挑选一第一网页数据以及一第二网页数据；

(c)令该网页数据捕获设备解析该第一网页数据以及该第二网页数据得一网页节点数据集合，其中，该网页节点数据集合包含多个网页节点数据，各该网页节点数据报含相对应的一XML路径语言以及一文字内容；

(d)令该网页数据捕获设备根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性以及该等文字内容的文字关联性，将该网页节点数据集合的该等网页节点数据分为多个网页节点数据群组，其中，各该网页节点数据群组至少包含部分该等网页节点数据；

(e)令该网页数据捕获设备分别计算各该网页节点数据群组的部分该等网页节点数据的一文字内容总和；

(f)令该网页数据捕获设备根据该等文字内容总和，判断该等网页节点数据群组的至少一主要网页节点数据群组；

(g)令该网页数据捕获设备根据该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言，决定一网页主要内容撷取信息。

2.如权利要求1所述的网页数据撷取方法，其特征在于，该第一URL群组中，部分该等网页数据的该等URL间的最小编辑距离皆小于一URL门槛值。

3.如权利要求1所述的网页数据撷取方法，其特征在于，步骤(b)更包含：

(b1)令该网页数据捕获设备自该第一URL群组的部分该等网页数据中，挑选数据量最高的该第一网页数据以及数据量第二高的该第二网页数据。

4.如权利要求1所述的网页数据撷取方法，其特征在于，步骤(c)后更包含：

(c1)令该网页数据捕获设备自该等文字内容中挑选至少一无效文字内容以及至少一重复节点数据，并将相对应于该至少一无效文字内容以及至少一重复节点数据的网页节点自该网页节点数据集合中删除。

5.如权利要求1所述的网页数据撷取方法，其特征在于，步骤(d)更包含：

(d1)令网页数据捕获设备根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性，将该网页节点数据集合的该等网页节点数据分为多个路径群组，其中，各该路径群组的部分该等网页节点数据的该等XML路径语言间的最小编辑距离皆小于一XML门槛值；

(d2)令该网页数据捕获设备针对各该路径群组，根据部分该等网页节点数据的该等文字内容的文字关联性，将各该路径群组分为该等网页节点数据群组；

其中，各该路径群组中，部分该等网页节点数据的各该文字内容具有一用语频率向量；

其中，各该路径群组中，各该网页节点数据群组的部分该等网页节点数据的该等文字内容的该等用语频率向量间的余弦值大于一文字内容门槛值。

6.如权利要求1所述的网页数据撷取方法，其特征在于，步骤(f)更包含：

(f1)令该网页数据捕获设备将该等文字内容总和排序成一文字内容总和序列；

(f2)令该网页数据捕获设备计算该文字内容总和序列中相邻文字内容总和的多个差值；

(f3)令该网页数据捕获设备挑选该等差值的一最大差值；

(f4)令该网页数据捕获设备根据该最大差值，将该文字内容总和序列分为一主要区域以及一次要区域；

(f5)令该网页数据捕获设备根据该主要区域，判断该等网页节点数据群组的该至少一主要网页节点数据群组。

7.如权利要求1所述的网页数据撷取方法，其特征在于，步骤(g)更包含：

(g1)令该网页数据捕获设备针对该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言，进行最长共同子序列算法；

(g2)令网页数据捕获设备根据步骤(g1)的结果，决定该网页主要内容撷取信息。

8.一种网页数据捕获设备，包含：

一接收单元，用以自一网页服务器接收多个网页数据；以及

一处理单元，用以：

根据该等网页数据的多个统一资源寻址器URL的地址关联性，将该等网页数据分为至少一URL群组，其中，该至少一URL群组包含一第一URL群组，该第一URL群组包含至少部分该等网页数据；

自该第一URL群组的部分该等网页数据中，挑选一第一网页数据以及一第二网页数据；

解析该第一网页数据以及该第二网页数据得一网页节点数据集合，其中，该网页节点数据集合包含多个网页节点数据，各该网页节点数据报含相对应的一XML路径语言以及一文字内容；

根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性以及该等文字内容的文字关联性，将该网页节点数据集合的该等网页节点数据分为多个网页节点数据群组，其中，各该网页节点数据群组至少包含部分该等网页节点数据；

分别计算各该网页节点数据群组的部分该等网页节点数据的一文字内容总和；

根据该等文字内容总和，判断该等网页节点数据群组的至少一主要网页节点数据群组；

根据该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言，决定一网页主要内容撷取信息。

9.如权利要求8所述的网页数据捕获设备，其特征在于，该第一URL群组中，部分该等网页数据的该等URL间的最小编辑距离皆小于一URL门槛值。

10.如权利要求8所述的网页数据捕获设备，其特征在于，该处理单元更用以：

自该第一URL群组的部分该等网页数据中，挑选数据量最高的该第一网页数据以及数据量第二高的该第二网页数据。

11.如权利要求8所述的网页数据捕获设备，其特征在于，该处理单元更用以：

自该等文字内容中挑选至少一无效文字内容以及至少一重复节点数据，并将相对应于该至少一无效文字内容以及至少一重复节点数据的网页节点自该网页节点数据集合中删除。

12.如权利要求8所述的网页数据捕获设备，其特征在于，该处理单元更用以：

根据该网页节点数据集合的该等网页节点数据的该等XML路径语言的路径关联性，将该网页节点数据集合的该等网页节点数据分为多个路径群组，其中，各该路径群组的部分该等网页节点数据的该等XML路径语言间的最小编辑距离皆小于一XML门槛值；

针对各该路径群组，根据部分该等网页节点数据的该等文字内容的文字关联性，将各该路径群组分为该等网页节点数据群组；

13.如权利要求8所述的网页数据捕获设备，其特征在于，该处理单元更用以：

将该等文字内容总和排序成一文字内容总和序列；

计算该文字内容总和序列中相邻文字内容总和的多个差值；

挑选该等差值的一最大差值；

根据该最大差值，将该文字内容总和序列分为一主要区域以及一次要区域；

根据该主要区域，判断该等网页节点数据群组的该至少一主要网页节点数据群组。

14.如权利要求8所述的网页数据捕获设备，其特征在于，该处理单元更用以：

针对该至少一主要网页节点数据群组包含的部分该等网页节点数据的该等XML路径语言，进行最长共同子序列算法；

根据最长共同子序列算法的结果，决定该网页主要内容撷取信息。