CN108897749A

CN108897749A - 基于语法树和文本块密度的网页信息抽取方法及系统

Info

Publication number: CN108897749A
Application number: CN201810355382.8A
Authority: CN
Inventors: 舒琦赟; 汪立东; 刘晓飞; 王慧; 俞晓明; 赵忠华; 刘悦; 王卿; 程学旗
Original assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Current assignee: Institute of Computing Technology of CAS; National Computer Network and Information Security Management Center
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2018-11-27

Abstract

本发明涉及一种基于语法树和文本块密度的网页信息抽取方法，包括：获取网页的标题文本信息；设定筛选阈值，计算该网页所有节点的文本块密度，以该文本块密度大于该筛选阈值的节点为采集节点，提取该采集节点的节点文本信息；若该采集节点的数量为1，则以该节点文本信息为目标信息进行抽取；若该采集节点的数量大于1，则将该标题文本信息和该节点文本信息分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树；获得每个该节点深层语法树与该标题深层语法树的整体相似度，以该整体相似度中的最大值对应的节点文本信息为目标信息进行抽取。

Description

基于语法树和文本块密度的网页信息抽取方法及系统

技术领域

本发明属于网络数据采集领域，特别涉及一种基于语法树语义识别与标签文本块密度比的网页信息抽取方法和系统。

背景技术

随着信息技术的飞速发展，数据越来越电子化，快速有效的网络数据收集技术也变得尤为重要。有效的网络数据收集是企业分析市场环境，客户需求的必然需求，拥有高效数据采集能力的企业在大数据时代展现出强大的竞争力。同时高效的数据采集技术也关乎国家政治安全。在信息技术日趋成熟的今天，形式多样的信息在网络上飞速传播，网民主体日趋庞大，舆论瞬息万变，思想言论传播速度更是犹如脱缰野马，这也为舆论管控能力提出了新的挑战，在这种情况下，对网络信息的高效收集也变得尤为重要，其为网研室提供必须的网络数据，关乎国家的政治安全。

现在由于技术需要，网络数据采集技术近些年也是遍地开花，针对不同网页数据的采集技术层出不穷。其中一个比较难以解决的技术难点是对于网页上短正文信息的抽取。在网页主体文本较短的情况下，主体信息的识别就变得更加困难，因其相比起长主体文本网页，与网页中例如广告等无用信息，“噪声”的辨识度较低，在执行网页信息筛选的时候，更有可能误将其当做垃圾信息过滤排除，反而将一些广告信息错误的抽取出来当做文本主体。

发明内容

针对上述问题，本发明提出一种基于语法树和文本块密度的网页信息抽取方法，包括：通过正则表达式获取获取网页的标题文本信息；设定筛选阈值，计算网页所有节点的文本块密度，以文本块密度大于筛选阈值的节点为采集节点，提取采集节点的节点文本信息；若采集节点的数量为1，则以该节点文本信息为目标信息进行抽取；若采集节点的总数量大于1，则通过概率型上下文无关模型分别将该标题文本信息和该节点文本信息转化为标题语法树和节点语法树；通过同步树替换文法将标题语法树和节点语法树分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树；计算标题深层语法树与每个节点深层语法树的整体相似度，对整体相似度中的最大值对应的节点文本信息为目标信息进行抽取。

本发明所述的网页信息抽取方法，其中文本块密度通过以下方式获得：

其中，TBD(v)为节点v的文本块密度，v.children为节点v的子节点集合，v_i为节点v的子节点，CN_vi为子节点v_i的文本块所包含的文本字符数，LCN_vi为子节点v_i的文本块所包含的超链接字符数，TN_vi为子节点v_i的文本块所包含的标签的个数，LTN_vi为子节点v_i的文本块所包含的超链接标签的个数。

本发明所述的网页信息抽取方法，当采集节点的总数量大于1时，进行以下步骤：

提取该标题深层语法树的标题词向量t_i，以及与该标题深层语法树结构相同的该节点深层语法树的文本词向量a_i；以该标题词向量t_i和该文本词向量a_i的词向量相似度得到该整体相似度S＝S₁·S₂·S₃·……·S_n；其中，0<i≤n，n为正整数，n为该标题深层语法树节点数。

本发明还涉及一种基于语法树和文本块密度的网页信息抽取系统，包括：

文本信息获取模块，用于通过正则表达式获取网页的标题文本信息，以及采集节点的节点文本信息；其中包括设定筛选阈值，计算网页所有节点的文本块密度，以文本块密度大于筛选阈值的节点为采集节点，提取采集节点的节点文本信息；

第一目标信息获取模块，用于当节点文本信息的数量为1时获取目标信息；

第二目标信息获取模块，用于当节点文本信息的数量大于1时获取目标信息进行抽取；其中通过概率型上下文无关模型分别将该标题文本信息和该节点文本信息转化为标题语法树和节点语法树；通过同步树替换文法将标题语法树和节点语法树分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树；获取标题深层语法树与每个节点深层语法树的整体相似度，对整体相似度中的最大值对应的节点文本信息进行提取。

本发明所述的网页信息抽取系统，在文本信息获取模块中，文本块密度通过以下方式获得：

本发明所述的网页信息抽取系统，第二目标信息获取模块具体包括：

词向量获取模块，用于获取该标题深层语法树的标题词向量t，以及与该标题深层语法树结构相同的该节点深层语法树的文本词向量a；

相似度获取模块，用于以该标题词向量t_i和该文本词向量a_i的词向量相似度得到该整体相似度S＝S₁·S₂·S₃·……·S_n；其中0<i≤n，n为正整数，n为该标题深层语法树节点数。

附图说明

图1是本发明实施例的网页信息抽取方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的一种基于语法树和文本块密度的网页信息抽取方法及系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

本发明的目的是解决现有技术的不足，提出了针对于处理网页长短文本不一的数据采集方法。通过对于传统的基于标签文本密度比的数据采集算法在结果选取上进行的调整，由选取一个目标标签变为选取多个标签密度比较相近的目标标签，使得原来在文本主体长度较短的情况下，文本主体被错误过滤掉的情况不再发生；将容易获得并且采集精度高，还能总体概括文本主体语义的新闻标题作为文本主体语义的比较对象，使通过语义匹配网页正文的方法具有了语义比较标准；将候选的多个文本与文章标题进行节点语法树分析，构建节点语法树，为之后做语义匹配做了前期准备工作；对构建好的所有语法树进行语法树变形处理，将语法树中的主成分提取出来，保留具有关键意义的主谓宾等关键词与结构、将句子结构不同而语义相同的句子做形式上的统一，为之后比较文本语义做准备；对于做完预处理的多个文本主体语法树与新闻标题语法树进行语法树整体语义匹配，通过语义识别哪个短文本是采集对象。

图1是本发明实施例的网页信息抽取方法流程图。如图1所示，本发明的网页信息抽取方法的步骤如下：

步骤S1，获取网页的标题文本信息；

步骤S2，运行网页标签文本密度算法；

步骤S3，设定筛选阈值，筛选采集节点，提取采集节点的节点文本信息；

步骤S4，判断采集节点的数量；

步骤S5，如果仅有一个采集节点，则以这个采集节点的节点文本信息为目标信息，对其进行抽取；

步骤S6，如果采集节点的数量大于1，则分别对标题文本信息和节点文本信息进行处理，生成标题语法树和节点语法树；

步骤S7，对所有语法树进行归一化处理，分别生成标题深层语法树和节点深层语法树；

步骤S8，计算标题深层语法树和节点深层语法树之间的整体相似度；

步骤S9，选取整体相似度最大值对应的节点文本信息为目标信息，对其进行抽取。

具体来说，于本发明实施例中，首先通过专用于识别文章标题与作者，发表时间等位置固定，形式整齐划一的数据的正则表达式，进行前述数据的匹配，得到文章的标题等信息。

其次根据计算公式(1)计算各个节点的文本块密度TBD；

其中，TBD(textblockdensity)为文本块密度；设v为网页解析树T中的一个节点，Blk(v)为以节点v为根节点的文本块，定义节点v的文本块密度TBD(v)为节点v的所有子节点为根的文本块中，非链接文本字符数与非链接标签数比值之和。

CN(ContentNumber)为文本块字符数，即文本块所包含的文本字符数；通常情况下，正文文本块下的文本比较集中，文本字符长度会比较大；噪声文本块下的文本比较分散，文本字符长度会比较小。

LCN(LinkContentNumber)为文本块超链接字符数，即文本块所包含的超链接字符数；正文文本块下的超链接文本比较少，噪声文本块下的超链接文本比较多。

TN(Tag Number)为文本块标签数，即文本块所包含的标签的个数；正文文本块下多为连续文本，标签个数少；噪声文本块下为分散文本，标签个数多。

LTN(LinkTagNumber)为文本块超链接标签数，即文本块所包含的超链接标签的个数；超链接标签下的文本多为噪声信息，正文文本块下含有的超链接标签个数少，噪声文本块下含有的超链接标签个数多。

当获取所有节点的文本块密度TBD后，设定一个筛选阈值，将所有TBD值大于这个筛选阈值的节点定为采集节点，并将以上所有的采集节点中的文本信息提取出来。

如果通过筛选阈值得到的采集节点的数量为1，即获得的文本信息唯一，则将这个采集节点的节点文本信息作为目标信息进行提取；如果通过筛选阈值得到的采集节点的数量大于1，即获得的文本信息不唯一，则需要通过将前述标题文本信息与采集节点的节点文本信息进行处理，以获得与标题文本信息相似度最高的节点文本信息作为目标信息进行提取。

于本发明实施例中采用概率型上下文无关模型(PCFG)进行标题文本信息和节点文本信息的预处理，即通过PCFG模型分析并分别生成标题文本信息和节点文本信息的标题语法树和节点语法树。PCFG模型是一种常用的自然语言句法分析模型。PCFG的分析算法与非概率型上下文无关文法相同，均是从非终结符开始扩展，通过PCFG对于每种不同的分析树，计算出其相应的概率。当句子具有歧义时，计算概率来进行选择哪个语法分析结果，选择标准即为生成概率最大。令T为备选树，当句子具有歧义时可通过概率来选择句子的分析结果T*，即：

分析备选树T的生成概率就是生成T所需要的所有规则的条件概率乘积：

其中r即为规则，P(r)为满足这条规则的概率。

PCFG作为一种成熟自然语言分析模型，其具有一定的消除歧义的能力，生成语法树精度高。并且由于模型本身的马尔科夫性，其不考虑前后文环境，故对于数据的稀疏性问题不敏感，故其分析结果具有一定的鲁棒性。

进一步的是对以上生成的所有语法树(标题语法树和节点语法树)进行处理。本发明实施例采用同步树替换文法(STSG)将所有标题语法树和节点语法树分别转换为标题深层语法树和节点深层语法树。

这里所提及的变换文法，是一种针对于句子句法与句子内在语义关系的理论，此理论认为所有的自然语言语句均具有深层和表层两个结构；表层结构即为文档中记载的人眼可见的文字，即为实际的文字序列；句子的深层结构区别于句子到的表层结构，句子的深层结构实际上决定了一个句子的实际语义；多个语义相同而表层结构不同的句子对应着同一个深层句子结构。

例如：我今天的午餐是一个汉堡包。

我吃了个汉堡包作为今天的午餐。

这两个句子虽结构不同，但是内在的深层句子结构是完全一样的，因其表达的是同一个意思。

STSG是一种基于语法树的规则自学习算法，其通过语法树来自行学习语法规则。将句子的表层结构转换为深层结构，使得句法不同但语义相同的句子生成相同的句子语法树。

STSG基本规则抽取算法如下：

输入：句法树对<T(f),T(e),A>,A为T(f)与T(e)的对齐关系。

建立一个空的基本规则集合P.

t(p)是以p为根节点的T(f)的子树；

t(q)是以q为根节点的T(e)的子树；

A(t(p),t(q))是A中与t(p)和t(q)相关的词对齐关系

If<t(p),t(q),A(t(p),t(q))>满足词对齐限制和句法限制

Then将<t(p),t(q),A(t(p),t(q))>加入规则集合P

输出：基本规则集合P

使用训练好的STSG算法对标题语法树和节点语法树所对应的所有句子进行标准化，分别将标题语法树和节点语法树转换为唯一表达句子语义的标题深层语法树和节点深层语法树。对于同一个标签内的文本可能生成的多个语法树，将他们逐一进行标准化，并归于这个标签。

词向量是一种面向自然语言处理的语言模型，其核心思想是通过不同的语义标准将语言中不同的字或词映射成一个高维向量，这些向量的每一维由实数组成，词向量之间的关系将词与词之间抽象的语义关系进行了具体化，使得计算机能够通过具体的计算来近似处理抽象的语义关系。词向量之间的方向相似性也反映了词语之间的语义相似性。

得到标题深层语法树和节点深层语法树后，需要通过训练好的词向量比较语法树之间的语义相似性。将出自同一个文本内的所有标题深层语法树与节点深层语法树进行匹配。

匹配过程采用树的前序遍历方法。这里T为标题深层语法树，树A₁、A₂、A₃、…、A_m为出自文本深层语法树L_i的m个要与树T进行匹配的语法树；这里m为候选文本数量，m、i为正整数，0<i≤m；顺序的对这m个树进行匹配。T与A_i同步进行前序遍历，若T与A_i结构相同，则开始计算两棵树的相似度，若不相同，则跳过A_i；计算相似度时，对于处于相同位置的节点a∈T、b∈A_i，令其词向量为t_i与a_i，计算t_i与a_i的余弦相似度得到词向量相似度S_i。如果T共有n个节点，0<i≤n，则树A_i与树T的整体相似度最终以与T相似度最大值对应的A_i作为采集目标，以其对应的节点文本信息作为目标信息进行抽取。

具体算法如下：

输入为标题树T与文本L_i所对应的树的集合{A₁,A₂,A₃,…,A_n}

1、

2、对A_i与T进行同步前序遍历，t_i与a_i为遍历到的节点对应的词向量，S_i为T与L_i的语义相似度，S＝1；

3、若t_i与a_i均不为空，则计算同时S＝S·S_i，否则跳过A_i，跳到步骤1；

4、求以上每颗树A_i对应的S；

输出即为T与L_i的整体相似度。

完成整体相似度计算后，选取节点文本信息与标题文本信息整体相似度中最大值对应的那个节点文本信息作为最终采集目标文本进行抽取。

本发明利用容易通过模板匹配采集，并且采集精度高，能够高度概括文本主体语义的标题作为语义匹配标准，对多个疑似文本主体的短文本进行语义匹配处理，并将语义匹配程度最高的文本作为采集对象。在通过网页标签等信息难以精确筛选要采集对象的情况下，将多个疑似网页主体文本的短文本语义作为筛选信息，提供了一种基于语义的网页数据采集方法，极大的突破了以往不能利用采集对象自身语义进行识别的采集方法的限制。

Claims

1.一种基于语法树和文本块密度的网页信息抽取方法，其特征在于，包括：

获取网页的标题文本信息；设定筛选阈值，计算该网页所有节点的文本块密度，以该文本块密度大于该筛选阈值的节点为采集节点，提取该采集节点的节点文本信息；

若该采集节点的数量为1，则以该节点文本信息为目标信息进行抽取；

若该采集节点的数量大于1，则将该标题文本信息和该节点文本信息分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树；获得每个该节点深层语法树与该标题深层语法树的整体相似度，以该整体相似度中的最大值对应的节点文本信息为目标信息进行抽取。

2.如权利要求1所述的网页信息抽取方法，其特征在于，通过正则表达式获取该标题文本信息。

3.如权利要求1所述的网页信息抽取方法，其特征在于，该文本块密度通过以下方式获得：

其中，TBD(v)为该节点v的文本块密度，v.children为该节点v的子节点集合，v_i为该节点v的子节点，CN_vi为该子节点v_i的文本块所包含的文本字符数，LCN_vi为该子节点v_i的文本块所包含的超链接字符数，TN_vi为该子节点v_i的文本块所包含的标签的个数，LTN_vi为该子节点v_i的文本块所包含的超链接标签的个数。

4.如权利要求1所述的网页信息抽取方法，其特征在于，采用概率型上下文无关模型分别将该标题文本信息和该节点文本信息转化为标题语法树和节点语法树，并采用同步树替换文法分别将该标题语法树和该节点语法树转换为该标题深层语法树和该节点深层语法树。

5.如权利要求1所述的网页信息抽取方法，其特征在于，通过以下步骤获取该整体相似度：

提取该标题深层语法树的标题词向量t_i，以及与该标题深层语法树结构相同的该节点深层语法树的文本词向量a_i；

以该标题词向量t_i和该文本词向量a_i的词向量相似度得到该整体相似度S＝S₁·S₂·S₃·……·S_n；

其中0<i≤n，n为正整数，n为该标题深层语法树节点数。

6.一种基于语法树和文本块密度的网页信息抽取系统，其特征在于，包括：

文本信息获取模块，用于获取网页的标题文本信息，以及采集节点的节点文本信息；其中包括设定筛选阈值，计算该网页所有节点的文本块密度，以该文本块密度大于该筛选阈值的该节点为该采集节点，提取该采集节点的节点文本信息；

第一目标信息获取模块，用于当该节点文本信息的数量为1时获取目标信息进行抽取；

第二目标信息获取模块，用于当该节点文本信息的数量大于1时获取目标信息进行抽取；其中将该标题文本信息和该节点文本信息分别转换为唯一表达句子语义的标题深层语法树和节点深层语法树；获得每个该节点深层语法树与该标题深层语法树的整体相似度，以该整体相似度中的最大值对应的节点文本信息为目标信息。

7.如权利要求6所述的网页信息抽取系统，其特征在于，所述文本信息获取模块中，通过正则表达式获取该标题文本信息。

8.如权利要求6所述的网页信息抽取系统，其特征在于，所述文本信息获取模块中，该文本块密度通过以下方式获得：

9.如权利要求6所述的网页信息抽取系统，其特征在于，所述第二目标信息获取模块中，采用概率型上下文无关模型分别将该标题文本信息和该节点文本信息转化为标题语法树和节点语法树，并采用同步树替换文法分别将该标题语法树和该节点语法树转换为该标题深层语法树和该节点深层语法树。

10.如权利要求6所述的网页信息抽取系统，其特征在于，所述第二目标信息获取模块，还包括：

词向量获取模块，用于获取该标题深层语法树的标题词向量t_i，以及与该标题深层语法树结构相同的该节点深层语法树的文本词向量a_i；