CN102298638A

CN102298638A - 使用网页标签聚类提取新闻网页内容的方法和系统

Info

Publication number: CN102298638A
Application number: CN2011102704180A
Authority: CN
Inventors: 高勇; 王放; 许欢庆; 郭永福; 陈沛
Original assignee: Beijing Zhongsou Network Technology Co ltd
Current assignee: Beijing Zhongsou Network Technology Co ltd
Priority date: 2011-08-31
Filing date: 2011-08-31
Publication date: 2011-12-28

Abstract

本发明提供了一种使用网页标签聚类提取新闻网页内容的方法和系统。所述方法包括：对网页内容进行预处理，包括将所述网页内容解析成DOM树和统计所述DOM树的各节点的信息；启发式删除所述DOM树的节点；规则式删除所述DOM树的节点；以及基于标签结构聚类删除所述DOM树的节点，从而生成最终的DOM树以输出。

Description

使用网页标签聚类提取新闻网页内容的方法和系统

技术领域

本发明总体地涉及新闻网页内容提取领域，更具体地说，本发明涉及一种使用网页标签聚类提取新闻网页内容的方法和系统。

背景技术

在新闻(或者资讯)搜索领域，新闻正文提取是必不可少的环节，其正文提取的质量高低决定了新闻搜索的质量和用户体验。

目前新闻正文提取方法各式各样，按是否使用模板的方式分为两大类：基于模板(或包装器)方式提取和基于非模板方式提取。

在基于模板方式提取中，首先定义模板，然后编写程序解析执行模板得到数据。根据模板生成方式又可分为：人工模板提取和自动模板提取。在人工模板提取中，针对提取的目标站点，人工手工编写模板，模板可以是正则匹配方式，也可以是简单的字符串匹配首位匹配方式。在自动模板提取中，利用机器学习算法，先从目标网站获取一部分网页数据进行学习训练，获取模板，然后程序利用模板提取数据。

非模板方式提取大多基于统计和学习方式来实现。目前主要的算法有基于规则的、基于分块的、基于视觉的等。比较有代表性的是微软的基于视觉的页面分割算法，经过页面块提取，分隔条提取以及语义块重构3步，确定网页的主要语义块。

人工编写模板方式的缺点是需要耗费巨大人力资源来撰写模板，并且随着目标网站的变化，维护模板的成本也非常大。自动模板方式的缺点是算法复杂，同时也需要对目标网站周期监控，以维护模板的变化。无论是人工还是自动产生模板，其假设网站的数据是通过模板产生，一些大型的网站基本问题不大，也就是不同的入口可能模板不同，但对众多的中小网站而言，其模板化不是很好，利用模板提取只能提取大部分的信息，有较多的机会包含垃圾信息。

基于视觉的页面分割算法由于规则复杂，性能不高，不太适合新闻搜索引擎的应用。

因此，需要一种有效提取新闻网页内容的方法。

发明内容

为了解决现有技术中的上述缺点和问题而提出本发明。本发明针对新闻网页内容提取技术的不足，设计基于标签聚类的算法来提取新闻内容，避免人工规则及其模板的弊端。

根据本发明的一个方面，提供了一种使用网页标签聚类提取新闻网页内容的方法，包括：对网页内容进行预处理，包括将所述网页内容解析成DOM树和统计所述DOM树的各节点的信息；启发式删除所述DOM树的节点；规则式删除所述DOM树的节点；以及基于标签结构聚类删除所述DOM树的节点，从而生成最终的DOM树以输出。

在所述方法中，基于标签结构聚类删除所述DOM树的节点可以包括：对经过启发式删除和规则式删除的所述DOM树的所有节点统计标签结构信息；对所统计的标签结构信息进行相似聚类计算，从而获得多个类；选取所述多个类中内容最大的类，并且将所选取的类中节点的共同父节点作为内容节点；以及根据所述内容节点，处理所有其它节点，以形成所述最终的DOM树。

所述方法可以进一步包括对所述网页内容进行精细处理。

所述方法可以包括对所统计的标签结构信息取MD5哈希，通过MD5值相同进行严格聚类。

所述信息包括：标点、符号数，字符数，链接数，图片数。并且所述符号和字符数按链接分为：锚文本中的中文符号数，锚文本中的英文符号数，锚文本中的中文字数，锚文本中的英文字数；非锚文本中的中文符号数，非锚文本中的英文符号数，非锚文本中的中文字数，非锚文本中的英文字数。

在所述方法中，规则式删除所述DOM树的节点可以包括：统计节点的链接数和非锚文本字符数的比值，如果所述比值大于阈值，则将该节点标记为可删除节点。所述阈值基于本网页全局链接数和全局非锚文本字符数的比值或根据经验值。

根据本发明的另一个方面，提供了一种使用网页标签聚类提取新闻网页内容的系统，包括：预处理模块，用于对网页内容进行预处理，以将所述网页内容解析成DOM树并且统计所述DOM树的各节点的信息；启发式删除模块，用于启发式删除与所述DOM树中指定的标签对象相对应的节点；规则式删除模块，用于规则式删除链接数和非锚文本字符数的比值大于指定阈值的节点；以及标签结构聚类删除模块，用于基于标签结构聚类删除节点。

所述系统可以进一步包括：精细处理模块，用于对所述网页内容进行精细处理。

附图说明

通过下面结合附图进行的描述，本发明一些示范性实施例的上述和其他方面、特征和优点对于本领域技术人员来说将变得显而易见，其中：

图1是示出根据本发明一个示范性实施例的提取新闻网页内容的方法的流程图；

图2是示出根据本发明一个示范性实施例的基于标签结构聚类删除节点的过程的流程图；以及

图3是示出根据本发明示范性实施例的系统的框图。

具体实施方式

提供参考附图的下面描述以帮助全面理解本发明的示范性实施例。其包括各种细节以助于理解，而应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，省略了对公知功能和结构的描述。

下面将参考附图详细描述本发明。

图1是示出根据本发明一个示范性实施例的提取新闻网页内容的方法100的流程图。

如图1中所示，方法100开始于步骤110。在步骤110中，对网页内容进行预处理，以将网页内容解析成DOM(Document Object Model，文档对象模型)树并且统计DOM树的各节点的信息。如何将网页内容解析成DOM树对于本领域技术人员是公知的，因此在此不进行详细描述。

对网页内容进行预处理可以包括：整理网页内容标签，将不匹配或者不闭合的标签按规则整理成闭合标签，之后将整理好的网页内容解析成DOM树；以及统计各个节点的信息。

节点的信息可以包括：标点、符号数，字符数(例如，中文、英文、数字、其他等)，链接数，图片数等。其中，符号和字符又可按链接分为：锚文本中的中文符号数，锚文本中的英文符号数，锚文本中的中文字数，锚文本中的英文字数；非锚文本中的中文符号数，非锚文本中的英文符号数，非锚文本中的中文字数，非锚文本中的英文字数。

在步骤120中，启发式删除节点。该步骤的操作对象为DOM树中指定的标签对象。例如，启发式移除涉及的HTML标签主要有META、HR、IMG、STYLE、SCRIPT、NOSCRIPT、INPUT、SELECT、EMBED、BUTTON、OPTION、OPTGROUP。

之所以要删除上述HTML标签对象，是因为它们不会影响内容本身。例如，Script脚本部分中标点和内容较多，但是不是页面本身展示内容，style样式是展示内容，也不会影响内容本身，因此在DOM树上，将这两类节点标记为可删除节点。删除方式采取自低而上的方式，同时保证在删除该节点时，本节点的统计信息也在其父节点中删除。

在步骤130中，规则式删除节点。该步骤的操作对象为table，div等内容标签。在该步骤中，可以计算节点的链接数和非锚文本字符数的比值，如果比值大于阈值(例如，阈值可以为0.05)，则可以该节点标记为可删除节点。

在步骤140中，基于标签结构聚类删除节点，从而生成最终的DOM树以输出。下面将参考图2描述基于标签结构聚类来删除节点的过程。

图2是示出根据本发明一个示范性实施例的基于标签结构聚类删除节点的过程200的流程图。

在步骤210中，对经过启发式删除和规则式删除的DOM树的所有节点统计标签结构信息。

在步骤220中，对所统计的标签结构信息进行相似聚类计算，从而获得多个类。对于每个节点而言，自其父节点至节点本身有一条路径，该路径称之为节点的结构路径，路径上的所有标签组成(诸如用例如“-”或“/”等的分隔符连接组成)的字符串作为路径值。因此，对所统计的标签结构信息进行相似聚类计算即是对路径值进行相似聚类计算。例如，可以通过K均值算法、C均值算法、EM算法等中的任何一种来对对所有路径值做相似聚类计算。每个标签结构是一个(或多个)类，每个类包括：祖先节点指针，其是最终找到的内容节点的祖先指针；词数目，用于确定内容最大的类；垃圾词数目和删除比率，可以用于消除内容域内的噪音；以及节点集合，可以通过节点集合找到共同的祖先节点。

在步骤230中，选取内容(有效标点符合数和非锚文本字符数)最大的类，并且将该类中节点的共同父节点作为整个新闻网页的内容节点。

在步骤240中，处理所述内容节点下的所有节点，用于进一步消除噪音，从而形成最终的DOM树。

此外，在步骤220中，为了进一步提高程序效率，可以对所统计的标签结构信息(即路径值)取MD5哈希，通过MD5值相同进行严格聚类。

上面已经对本发明的方法进行了描述，然而可以对本发明的方法进行精化以精细处理新闻内容。一些财经类网站，多会有些声明，例如：“搜狐证券声明：本频道资讯内容系转引自合作媒体及合作机构，不代表搜狐证券自身观点与立场，建议投资者对此资讯谨慎判断，据此入市，风险自担。”在这种情况下，如果将这样的声明作为新闻内容的一部分，若新闻实际内容就一句话或者较短，则这样的声明会影响新闻内容的计算，诸如指纹计算、新闻相似度计算等。为了消除这样的不利影响，可以采用以下的两种精细加工内容方式：(1)对于新闻节点内容里面的所有节点，若其删除率(相同路径节点保留数/相同路径节点总数)较高(90％以上)，则删除该节点；(2)制作一个词表，词表内容为词串和词性，其中词串为3-4个汉字非词的串，其属性标记为声明、导航、版权、广告等等，通过对标签里的对应内容做最大正向匹配切词，获取该标签对应的词属性集，根据比值(词属性集合数/文本长度)决定节点的取舍。

图3是示出根据本发明示范性实施例的系统300的框图。

如图3中所示，系统300可以包括预处理模块310、启发式删除模块320、规则式删除模块330、标签结构聚类删除模块340。可选地，系统300还可以包括精细处理模块(图3中未示出)。

具体而言，预处理模块310对网页内容进行预处理，以将网页内容解析成DOM树并且统计DOM树的各节点的信息。

启发式删除模块320用于启发式删除与DOM树中指定的标签对象相对应的节点。

规则式删除模块330用于规则式删除链接数和非锚文本字符数的比值大于指定阈值的节点。

标签结构聚类删除模块340用于基于标签结构聚类删除节点。由于上面已结合图2详细描述了如何基于标签结构聚类来删除节点，所以在此不再详述。

根据本发明，提供了一种使用网页标签聚类实现新闻网页内容提取的方法和系统。本领域普通技术人员将了解到，本发明的方法和优点可以获得以下优点：(1)基于单网页分析，无需模板，节省大量人工；(2)算法简单，分析效率高；(3)能够为后续的指纹计算，内容聚类，新闻事件聚类提供高质量数据保证。

应指出的是，上面分别对本发明的系统和方法实施例分别进行了描述，但是对一个实施例描述的细节也可应用于另一个实施例。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和系统的全部或者任何步骤或者部件可以以软件、硬件、固件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个软件模块或者一组软件模块来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者系统的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

虽然本说明书包含许多特定实施方式细节，但是不应当将这些细节解释为对任何发明或可以主张的内容的范围的限制，而应当解释为对可以特定于特定发明的特定实施例的特征的描述。还可以将在本说明书中在分离的实施例的情境中描述的某些特征组合在单个实施例中实现。相反地，也可以将在单个实施方式的情境中描述的各个特征分离地在多个实施方式中实现或在任何适当的子组合中实现。此外，尽管可能在上面将特征描述为在某些组合中起作用，甚至最初主张如此，但是可以在一些情况下将来自所主张的组合的一个或多个特征从组合中删去，并且可以将所主张的组合指向子组合或者子组合的变体。

类似地，虽然在附图中以特定次序描绘了操作，但是不应当将这理解为需要以所示的特定次序或者以连续次序执行这样的操作、或者需要执行所有图示的操作才能达到期望的结果。在某些情况下，多任务以及并行处理可以是有利的。此外，不应当将在上述实施例中的各种系统组件的分离理解为在所有实施例中均需要这样的分离，而应当理解的是，通常可以将所描述的程序组件和系统集成到一起成为单个软件产品或封装为多个软件产品。

计算机程序(也称作程序、软件、软件应用、脚本或代码)可以以任何形式的编程语言编写，所述编程语言包括编译或解释语言、或者说明性或过程语言，并且其可以以任何形式部署，包括作为独立程序或作为模块、组件、子程序或适于在计算环境中使用的其它单元。计算机程序没有必要对应于文件系统中的文件。可以将程序存储在保持其它程序或数据的文件(例如，存储在标记语言文档中的一个或多个脚本)的一部分、专用于讨论中的程序的单个文件或者多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种使用网页标签聚类提取新闻网页内容的方法，包括：

对网页内容进行预处理，包括将所述网页内容解析成DOM树和统计所述DOM树的各节点的信息；

启发式删除所述DOM树的节点；

规则式删除所述DOM树的节点；以及

基于标签结构聚类删除所述DOM树的节点，从而生成最终的DOM树以输出。

2.根据权利要求1所述的方法，其中，基于标签结构聚类删除所述DOM树的节点包括：

对经过启发式删除和规则式删除的所述DOM树的所有节点统计标签结构信息；

对所统计的标签结构信息进行相似聚类计算，从而获得多个类；

选取所述多个类中内容最大的类，并且将所选取的类中节点的共同父节点作为内容节点；以及

处理所述内容节点下的所有节点，以形成所述最终的DOM树。

3.根据权利要求1所述的方法，其中，所述方法进一步包括对所述网页内容进行精细处理。

4.根据权利要求2所述的方法，其中，对所统计的标签结构信息取MD5哈希，通过MD5值相同进行严格聚类。

5.根据权利要求1所述的方法，其中，所述信息包括：标点、符号数，字符数，链接数，图片数。

6.根据权利要求1所述的方法，其中，所述符号和字符数按链接分为：锚文本中的中文符号数，锚文本中的英文符号数，锚文本中的中文字数，锚文本中的英文字数；非锚文本中的中文符号数，非锚文本中的英文符号数，非锚文本中的中文字数，非锚文本中的英文字数。

7.根据权利要求1所述的方法，其中，规则式删除所述DOM树的节点包括：统计节点的链接数和非锚文本字符数的比值，如果所述比值大于阈值，则将该节点标记为可删除节点。

8.根据权利要求1所述的方法，其中，所述阈值基于本网页全局链接数和全局非锚文本字符数的比值或根据经验值。

9.一种使用网页标签聚类提取新闻网页内容的系统，包括：

预处理模块，用于对网页内容进行预处理，以将所述网页内容解析成DOM树并且统计所述DOM树的各节点的信息；

启发式删除模块，用于启发式删除与所述DOM树中指定的标签对象相对应的节点；

规则式删除模块，用于规则式删除链接数和非锚文本字符数的比值大于指定阈值的节点；以及

标签结构聚类删除模块，用于基于标签结构聚类删除节点。

10.根据权利要求9所述的系统，其中，所述系统进一步包括：

精细处理模块，用于对所述网页内容进行精细处理。