CN107229668B - 一种基于关键词匹配的正文抽取方法 - Google Patents
一种基于关键词匹配的正文抽取方法 Download PDFInfo
- Publication number
- CN107229668B CN107229668B CN201710131780.7A CN201710131780A CN107229668B CN 107229668 B CN107229668 B CN 107229668B CN 201710131780 A CN201710131780 A CN 201710131780A CN 107229668 B CN107229668 B CN 107229668B
- Authority
- CN
- China
- Prior art keywords
- text
- value
- webpage
- keywords
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 27
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 5
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 3
- 238000012216 screening Methods 0.000 abstract 1
- 238000010187 selection method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9577—Optimising the visualization of content, e.g. distillation of HTML documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于关键词匹配的正文抽取方法,通过统计网页源代码Keywords标签中的关键词并以该关键词建立标准库,再构建相应的DOM树;层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,以节点与其父节点所含关键词数量的比率关系来计算节点的关键词权重,并通过对节点子女最大关键词权重的判断,有效甄别并定位包含正文文本的正文节点,完成正文抽取;针对关键词匹配方法不能有效抽取的短文本问题,提出相似度匹配方法,其将段落文本和页面标题转换成8位二进制数据,通过海明距离判断相似性实现短文本的正文抽取。本发明以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
Description
技术领域
本发明涉及文本挖掘技术领域,具体是一种基于关键词匹配的正文抽取方法。
背景技术
Web技术的快速发展,使得网页已经成为信息发布和信息消费的主要载体。因此,在对互联网的舆情监控中,加强对网页的信息过滤至关重要;而在对网页的信息过滤中,网页的信息抽取或正文抽取成为关键。然而,现有网页种类繁多,不同网页结构各异,且网站还会不定期进行改版,同时网页中还掺插了大量广告等噪声,这些问题使得对网页的正文抽取变得困难重重。现有的正文抽取方法主要包括:(1)通过分析DOM树节点的文字叶子比率(WLR)和节点层级关系,实现正文抽取,该类方法时间复杂度高,效率低;(2)设计标签路径特征系从不同的角度实现正文和噪音的区分,在特征相似性分析的基础上,基于组合特征选择的特征融合策略,快速高效地实现正文的抽取,但这类方法对网站的结构依赖性强;(3)自动化信息抽取,仅依据网页自身的相关特征对网页进行抽取,这类方法在短正文网页的文本抽取中出错率比较高。
发明内容
在目前的网页制作中,为提高被搜索引擎搜索的成功率,网页被设置了反映其主题信息的关键词,并列入到网页的Keywords标签中,网页的各个段落的主题内容也大都围绕关键词展开。针对现有技术的不足,基于该特征,面向新闻和博客类网页,本发明提出一种基于关键词匹配的正文抽取方法,该方法依据网页自带的关键词,从本质上识别正文和噪声,其不需要训练数据,也不需要设置网站模板,脱离了网站结构的限制,从而真正实现对不同来源、不同风格的Web新闻类网页的抽取。
本发明一种基于关键词匹配的正文抽取的方法,包括如下步骤:
(1)网页预处理,统计网页源代码Keywords标签中的关键词并以关键词建立标准库,对待处理的网页进行预处理,去除明显的噪音文本,获得粗糙网页;
(2)构建DOM树,依据获得的粗糙网页建立对应的DOM树,按照网页源代码中段落标签的层次,将粗糙网页中的文本段落分别对应到DOM树的叶子节点;
(3)统计关键词的数量,层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,对叶子节点直接统计其所含关键词数量,而非叶子节点的关键词数量为其所有子女节点关键词数量之和;
(4)构建关键词权重KW,其为除根节点外的各节点所含关键词数量与其父节点所含关键词数量的比值;
以Cj表示j结点所含关键词的数量,Pj表示j节点的父节点i所含关键词的数量,以KWj表示j结点的关键词权重,其计算公式如下:
对每个非叶子节点,找出其所有子女节点中KW的最大值,将该节点及其子女节点的最大KW组成一个最大KW集合U;
(5)计算关键词权重阈值,从不同类型的网站随机选取一定数量的网页,采用基于关键词匹配方法进行正文抽取,计算所抽取正文的Recall、Precise、F值,具体公式如下:
设置的关键词权重阈值KW_T在区间[0,1]内分别取不同的值,如0.1,0.2,...,0.9,重复计算在不同阈值KW_T下正文抽取的Recall、Precise和F值,并在坐标系中绘制其变化曲线,横坐标对应阈值KW_T,纵坐标分别对应于Recall、Precise和F值;当所绘制的Recall曲线和Precise曲线相交时,F值最大,即达到最好的抽取效果,记录Recall曲线和Precise曲线相交时的KW_T值;统计针对不同网页进行上述处理时,所记录的在Recall曲线和Precise曲线相交时的KW_T值,将重复出现最多的KW_T值设置为关键词匹配时的阈值;
(6)关键词匹配,从集合U中查找小于指定的关键词权重阈值KW_T的KW值,确定对应的非叶子节点,并将该非叶子节点下的所有叶子节点当作正文节点输出,完成正文抽取;
(7)相似度匹配,若集合U中不存在小于阈值KW_T的KW值,采用相似度比较的方法进行正文匹配;遍历整个DOM树,获取所有的叶子节点,将各叶子节点的数据采用SimHash算法转换成对应的八位二进制数据,并分别与采用SimHash算法转换的网页标题数据进行相似度比较,通过海明距离判断各叶子节点与网页标题的相似程度,若相似程度小于指定的阈值,则将该节点确定为正文节点,完成正文抽取;反之,则为噪音丢弃。
通常,噪音文本主要是一些高度格式化、短语、且通常与网页主题信息无关的简短文本。在对网页的预处理中,一方面去除一些明显与正文无关的冗余标签,包括样式块、注释块、脚本、超链接列表等;另一方面采用正则表达式,以标准库中的关键词作为“规则字符串”过滤目标网页中明显的噪音文本。通过预处理,有效缩减网页数据,获得粗糙网页,提高后续的页面转换的效率。
步骤(2)所述的构建DOM树,具体步骤如下:
(2-1)使用Jsoup工具解析粗糙网页HTML,获取粗糙网页的数据;
(2-2)构建DOM树,DOM用一组结构化的节点以及对象来表示文档的结构,即将文档中的每个组成部分都定义为一个节点,从而将网页、脚本语言以及编程语言连接起来。根据粗糙网页的结构,将网页的不同组成部分转换成DOM树中的对应节点,而粗糙网页中的文本段落分别对应到DOM树的叶子节点。
DOM树的建立,能够有效简化对网页的遍历。
在新闻、博客等类型的主题网页结构中,正文内容块通常是由<p>标签构成的段落,关键词分布在由<p>标签构成的不同段落中;在网页不同标签的元素中,所含的关键词数越多,表示该元素是正文内容的可能性越大。通过将网页转换成对应的DOM树后,网页中的各元素形成DOM树中的各节点。为了有效甄别并定位包含正文文本的正文节点,本发明构建一个关键词权重(Keyword Weight,KW)概念,以节点与其父节点所含关键词数量的比率关系反映节点是否是正文节点的概率。关键词权重KW定义为除根节点外的各节点所含关键词数量与其父节点所含关键词数量的比值。
计算关键词权重阈值,计算所抽取正文的Recall(召回率)、Precise(准确率)、F值,这三个数据是信息检索和统计分类领域的度量指标。其中,Recall是指算法所抽取出的正文在算法抽取出的总文本中所占的比值;Precise是指算法抽取出的正文与标准文本的比值;F值表示的是测度值。
步骤(7)所述的相似度匹配,是对关键词匹配方法的补充,其主要用于解决短文本(在此将一个网页仅包含一个段落的情况也归为短文本)难抽取的问题。关键词匹配中若非叶子节点的子女节点的最大KW_T都大于设置的阈值,这种情况一般表现为非叶子节点的子女节点极少,如仅1个子女节点,此时其KW_T为1;或者非叶子节点的子女节点为短文本,且包含关键词较少。针对这些情况,提出相似度匹配方法,其直接将DOM树中的叶子节点与网页标题进行相似度比较,判断节点是否为正文节点,完成正文抽取。
步骤(7)所述的相似度匹配,具体步骤如下:
(7-1) 为了提高抽取效率,进行网页清洗并提取其特征词(特征词是文本中去除停用词外能够反映文本主题的词语),遍历整个DOM树,抽取所有叶子节点对应的段落文本;去除段落文本中的停用词,通过分词处理,获得多个特征词(Feature Word,FW);
(7-2) 为了让段落中特征词更好地代表段落文本,计算每个特征词的权重,以FWk表示第k个特征词,先统计某网页的文本段落总数,记为N;统计网页中含有FWk的段落数量,记为Nk;最后统计FWk在网页中出现的次数,记为TFk;以Weight(FWk)表示特征词FWk的权重,计算公式如下:
式(3)中,L是为了防止对数函数的计算值为0而设置的经验常数,取0.01;
(7-3) 计算特征词FWk的Hash值,采用SimHash算法将特征词FWk分别转换成对应的位数为8位的Hash值;
(7-4) 以特征词权重和特征词的哈希值计算特征词FWk的加权向量,将特征词FWk的Hash值与其权重值Weight(FWk)按位相乘,如果Hash值所在位是1,则Hash值和权重值按位正相乘;如果是0,则Hash值和权重值按位负相乘,生成一个8位的二进制数,即构造出特征词FWk的加权向量;
(7-5) 按照(7-2)到(7-4)方法计算网页中所有特征词的加权向量;
(7-6) 针对网页中的每一个段落,合并每一个段落中所有特征词的加权向量并降维;按照二进制加法运算合并每一个段落中所有特征值的加权向量,得到对应的合并后的向量,对合并后的向量降维是将向量数值的每一位转换为二进制数据,若向量的某一位数值大于0则为1,反之则为0,得到一个代表相应段落文本的八位SimHash值,最终获得多个对应于不同段落的SimHash值;
(7-7)采用(7-1)到(7-6)的方法计算网页标题的SimHash值;
(7-8)计算网页中每一个文本段落SimHash值与网页标题SimHash值的海明距离(海明距离是两个合法代码对应位上编码不同的位数,即其对两个位串进行异或(xor)运算),判断相似度;如果两者的海明距离小于设置的海明距离阈值T,T∈[0,8],则对应的段落为正文短文本,完成正文抽取;反之,则为噪音丢弃。
所述海明距离阈值T的选取方法与关键词权重KW_T的选取方法相同,即针对短文本,计算网页标题和网页各段落文本的SimHash值,以海明距离进行相似度比较,以T分别取0,1,...,8,计算正文抽取时在不同海明距离阈值T下的Recall、Precise和F值,记录在不同阈值下的Recall曲线和Precise曲线相交时的T值,将重复出现次数最多的T值设置为选取的阈值。
本发明针对新闻和博客类网页的信息获取,提出一种基于关键词匹配的正文抽取方法,该方法基于网页制作时所设置的关键词是网页各文本段落的概括和抽象,是各文本段落需要展现的主题这一现象,实现以关键词对网页文本段落的匹配和定位,能够准确地区分噪音和正文,具有较高的准确率;该方法以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性;关键词权重阈值选取方法以客观计算的结果作为依据,避免了主观因素的影响,这保证了正文抽取的客观性和合理性;而相似度匹配方法作为对关键词匹配正文抽取方法的补充,有效解决了现存短文本和网页单段落难抽取的问题。
附图说明
图1为本发明基于关键匹配正文抽取方法的流程图;
图2为DOM树结构图;
图3为关键词权重阈值计算方法的流程图。
具体实施方式
以下结合附图对本发明内容做进一步阐述,但不是对本发明的限定。
如图1所示,本发明基于关键词匹配的正文抽取方法,具体包括如下步骤:
(1)网页预处理,统计并提取网页源代码Keywords标签中的关键词,并以关键词建立标准库;采用正则表达式对待处理网页进行预处理,去除明显的噪音文本,获得粗糙网页;
(2)构建DOM树,使用Jsoup工具解析粗糙网页HTML,获取粗糙网页的数据; DOM用一组结构化的节点以及对象来表示文档的结构,即将文档中的每个组成部分都定义为一个节点,从而将网页、脚本语言以及编程语言连接起来;根据粗糙网页的结构,将网页的不同组成部分转换成DOM树中的对应节点,而粗糙网页中的文本段落分别对应于DOM树的叶子节点,所构建DOM树的具体结构如图2所示;
(3)统计关键词的数量,从下往上层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,对叶子节点直接统计其所含关键词数量,而非叶子节点的关键词数量为其所有子女节点关键词数量之和;
(4)构建关键词权重KW为除根节点外的各节点所含关键词数量与其父节点所含关键词数量的比值;以Cj表示j结点所含关键词的数量,Pj表示j节点的父节点i所含关键词的数量,以KWj表示j结点的关键词权重,其计算公式如下:
对每个非叶子节点,找出其子女节点中KW的最大值,将该节点及其子女节点的最大KW组成一个最大KW集合U;
(5)计算关键词权重阈值,具体流程如图3所示,为了客观合理选取阈值,从不同类型的网站随机选取一定数量的网页,采用关键词匹配方法进行正文抽取;计算所抽取正文的Recall(召回率)、Precise(准确率)、F值,具体公式如下:
进行正文抽取时,所设置的关键词权重的阈值KW_T在区间[0,1]内分别取不同的值,如0.1,0.2,...,0.9,重复计算在不同阈值KW_T下正文抽取的Recall、Precise和F值,并在坐标系中绘制其变化曲线,横坐标对应阈值KW_T,纵坐标分别对应于Recall、Precise和F值;当所绘制的Recall曲线和Precise曲线相交时,F值最大,即达到最好的抽取效果,记录Recall曲线和Precise曲线相交时的KW_T值;统计针对不同网页进行上述处理时,所记录的在Recall曲线和Precise曲线相交时的KW_T值,将重复出现最多的KW_T值设置为关键词匹配时的阈值;
(6)关键词匹配,采用步骤(5)计算并确定的关键词权重阈值KW_T,从集合U中查找小于KW_T的KW值,确定对应的非叶子节点;针对选出的非叶子节点,定位其所有叶子节点,并将其所有叶子节点作为正文节点进行输出,实现正文抽取,基于关键词匹配的正文抽取方法结束;
(7)若关键词匹配时,集合U中不存在小于KW_T的KW值,则采用相似度匹配进行正文匹配;
(7-1)相似度匹配中,先进行网页清洗并提取特征词,遍历整个DOM树,抽取所有叶子节点对应的段落文本;去除段落文本中的停用词,通过分词处理,获得多个特征词(Feature Word,FW);
(7-2)计算每个特征词的权重,以FWk表示第k个特征词,先统计该网页的文本段落总数,记为N;统计网页中含有FWk的总段数,记为Nk;最后统计FWk在网页中出现的次数,记为TFk;以Weight(FWk)表示特征词FWk的权重,计算公式如下:
式(3)中,L是为了防止对数函数的计算值为0而设置的经验常数,取0.01;
(7-3) 计算特征词FWk的Hash值,采用SimHash算法将特征词FWk分别转换成对应的位数为8位的Hash值;
(7-4)计算特征词FWk的加权向量,将特征词FWk的Hash值与其权重值Weight(FWk)按位相乘,如果Hash值所在位是1,则Hash值和权重值按位正相乘;如果是0,则Hash值和权重值按位负相乘,生成一个8位的二进制数,即构造出特征词FWk的加权向量;
(7-5) 按照(7-2)到(7-4)方法计算网页中所有特征词的加权向量;
(7-6) 针对网页中的每一个段落,合并每一个段落中所有特征词的加权向量并降维;按照二进制加法运算合并每一个段落中所有特征值的加权向量,得到对应的合并后的向量,对合并后的向量降维是将向量数值的每一位转换为二进制数据,若向量的某一位数值大于0则为1,反之则为0,得到一个代表相应段落文本的八位SimHash值,最终获得多个对应于不同段落的SimHash值;
(7-7)采用(7-1)到(7-6)的方法计算网页标题的SimHash值;
(7-8)计算网页中每一个文本段落SimHash值与网页标题SimHash值的海明距离,判断相似度;如果两者的海明距离小于设置的海明距离阈值T,T∈[0,8],则对应的段落为正文短文本,完成正文抽取;反之,则为噪音丢弃;所述海明距离阈值T的选取方法与关键词权重KW_T的选取方法相同。
本实施例方法以网页自设置的关键词进行匹配,不需要训练数据,也不需要进行样本学习,脱离了网站结构的限制,具有较好的通用性。
Claims (3)
1.一种基于关键词匹配的正文抽取的方法,其特征在于,包括如下步骤:
(1)网页预处理
统计网页源代码Keywords标签中的关键词并以关键词建立标准库;采用正则表达式对待处理的网页进行预处理,去除明显的噪音文本,获得粗糙网页;
(2)构建DOM树
依据获得的粗糙网页建立对应的DOM树,按照网页源代码中段落标签的层次,将粗糙网页中的文本段落分别对应到DOM树的叶子节点;
(3)统计关键词的数量
层次遍历DOM树,统计DOM树中所有节点包含关键词的数量,对叶子节点直接统计其所含关键词数量,而非叶子节点的关键词数量为其所有子女节点关键词数量之和;
(4)构建关键词权重KW
关键词权重KW为除根节点外的各节点所含关键词数量与其父节点所含关键词数量的比值;
以Cj表示j结点所含关键词的数量,Pj表示j节点的父节点i所含关键词的数量,以KWj表示j结点的关键词权重,其计算公式如下:
对每个非叶子节点,找出其所有子女节点中KW的最大值,将该节点及其子女节点的最大KW组成一个最大KW集合U;
(5)计算关键词权重阈值
从不同类型的网站随机选取一定数量的网页,通过设置不同的关键词权重阈值选出小于阈值的非叶子节点,并抽取出该非叶子节点对应的正文内容,计算所抽取正文的Recall、Precise、F值,具体公式如下:
进行正文抽取时,所设置的关键词权重阈值KW_T在区间[0,1]内分别取不同的值,重复计算在不同阈值KW_T下正文抽取的Recall、Precise和F值,并在坐标系中绘制其变化曲线,横坐标对应阈值KW_T,纵坐标分别对应于Recall、Precise和F值;当所绘制的Recall曲线和Precise曲线相交时,F值最大,即达到最好的抽取效果,记录Recall曲线和Precise曲线相交时的KW_T值;统计针对不同网页进行上述处理时,所记录的在Recall曲线和Precise曲线相交时的KW_T值,将重复出现最多的KW_T值设置为关键词匹配时的阈值;
(6)关键词匹配
从集合U中查找小于指定的关键词权重阈值KW_T的KW值,确定对应的非叶子节点,并将该非叶子节点下的所有叶子节点当作正文节点输出,完成正文抽取;
(7)相似度匹配,若集合U中不存在小于阈值KW_T的KW值,采用相似度比较的方法进行正文匹配;遍历整个DOM树,抽取所有的叶子节点,将各叶子节点的数据采用SimHash算法转换成对应的八位二进制数据,并分别与采用SimHash算法转换的网页标题数据进行相似度比较,通过海明距离判断各叶子节点与网页标题的相似程度,若相似程度小于指定的阈值,则将该节点确定为正文节点,完成正文抽取;反之,则为噪音丢弃。
2.根据权利要求1所述的基于关键词匹配的正文抽取的方法,其特征在于:步骤(7)所述的相似度匹配,具体步骤如下:
(7-1)进行网页清洗并提取其特征词,遍历整个DOM树,抽取所有叶子节点对应的段落文本,去除段落文本中的停用词,通过分词处理,获得多个特征词FW;
(7-2)计算每个特征词的权重,以FWk表示第k个特征词,先统计某网页的文本段落总数,记为N;统计网页中含有FWk的段落数量,记为Nk;最后统计FWk在网页中出现的次数,记为TFk;以Weight(FWk)表示特征词FWk的权重,计算公式如下:
式(3)中,L是为了防止对数函数的计算值为0而设置的经验常数,取0.01;
(7-3)计算特征词FWk的Hash值,采用SimHash算法将特征词FWk分别转换成对应的位数为8位的Hash值;
(7-4)计算特征词FWk的加权向量,将特征词FWk的Hash值与其权重值Weight(FWk)按位相乘,如果Hash值所在位是1,则Hash值和权重值按位正相乘;如果是0,则Hash值和权重值按位负相乘,生成一个8位的二进制数,即构造出特征词FWk的加权向量;
(7-5)按照(7-2)到(7-4)方法计算网页中所有特征词的加权向量;
(7-6)针对网页中的每一个段落,合并每一个段落中所有特征词的加权向量并降维;按照二进制加法运算合并每一个段落中所有特征值的加权向量,得到对应的合并后的向量,对合并后的向量降维是将向量数值的每一位转换为二进制数据,若向量的某一位数值大于0则为1,反之则为0,得到一个代表相应段落文本的八位SimHash值,最终获得多个对应于不同段落的SimHash值;
(7-7)采用(7-1)到(7-6)的方法计算网页标题的SimHash值;
(7-8)计算网页中每一个文本段落SimHash值与网页标题SimHash值的海明距离,判断相似度;如果两者的海明距离小于设置的海明距离阈值T,T∈[0,8],则对应的段落为正文短文本,完成正文抽取;反之,则为噪音丢弃。
3.根据权利要求2所述的基于关键词匹配的正文抽取的方法,其特征在于:步骤(7-8)所述的海明距离阈值T的选取方法与关键词权重KW_T的选取方法相同,即针对短文本,计算网页标题和网页各段落文本的SimHash值,以海明距离进行相似度比较,以T分别取0,1,...,8,计算正文抽取时在不同海明距离阈值T下的Recall、Precise和F值,记录在不同阈值下的Recall曲线和Precise曲线相交时的T值,将重复出现次数最多的T值设置为选取的阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710131780.7A CN107229668B (zh) | 2017-03-07 | 2017-03-07 | 一种基于关键词匹配的正文抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710131780.7A CN107229668B (zh) | 2017-03-07 | 2017-03-07 | 一种基于关键词匹配的正文抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107229668A CN107229668A (zh) | 2017-10-03 |
CN107229668B true CN107229668B (zh) | 2020-04-21 |
Family
ID=59933015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710131780.7A Active CN107229668B (zh) | 2017-03-07 | 2017-03-07 | 一种基于关键词匹配的正文抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107229668B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897749A (zh) * | 2018-04-19 | 2018-11-27 | 中国科学院计算技术研究所 | 基于语法树和文本块密度的网页信息抽取方法及系统 |
CN108874934B (zh) * | 2018-06-01 | 2021-11-30 | 百度在线网络技术(北京)有限公司 | 页面正文提取方法和装置 |
CN109086361B (zh) * | 2018-07-20 | 2019-06-21 | 北京开普云信息科技有限公司 | 一种基于网页节点间互信息的网页文章信息自动抽取方法及系统 |
CN111339457B (zh) * | 2018-12-18 | 2023-09-08 | 富士通株式会社 | 用于从网页抽取信息的方法和设备及存储介质 |
CN109740101A (zh) * | 2019-01-18 | 2019-05-10 | 杭州凡闻科技有限公司 | 数据配置方法、公众号文章清洗方法、装置及系统 |
CN109948089A (zh) * | 2019-02-21 | 2019-06-28 | 中国海洋大学 | 一种提取网页正文的方法及装置 |
CN110008401B (zh) * | 2019-02-21 | 2021-03-09 | 北京达佳互联信息技术有限公司 | 关键词提取方法、关键词提取装置和计算机可读存储介质 |
CN110427541B (zh) * | 2019-08-05 | 2022-09-16 | 安徽大学 | 一种网页内容提取方法、系统、电子设备及介质 |
CN111309854B (zh) * | 2019-11-20 | 2023-05-26 | 武汉烽火信息集成技术有限公司 | 一种基于文章结构树的文章评价方法及系统 |
CN112035623B (zh) * | 2020-09-11 | 2023-08-04 | 杭州海康威视数字技术股份有限公司 | 智能问答方法、装置、电子设备及存储介质 |
CN112667940B (zh) * | 2020-10-15 | 2022-02-18 | 广东电子工业研究院有限公司 | 基于深度学习的网页正文抽取方法 |
CN112328928A (zh) * | 2020-11-27 | 2021-02-05 | 山东省计算中心(国家超级计算济南中心) | 一种基于结构序列的文本脉络抽取方法及系统 |
CN113343076A (zh) * | 2021-04-23 | 2021-09-03 | 山东师范大学 | 一种基于特征匹配度的创新技术推荐方法及系统 |
CN113486266B (zh) * | 2021-06-29 | 2024-05-21 | 平安银行股份有限公司 | 页面标签添加方法、装置、设备及存储介质 |
CN113486228B (zh) * | 2021-07-02 | 2022-05-10 | 燕山大学 | 基于md5三叉树和改进birch算法的互联网论文数据自动抽取算法 |
CN113779387A (zh) * | 2021-08-25 | 2021-12-10 | 上海大智慧信息科技有限公司 | 基于知识图谱的行业推荐方法及系统 |
CN114528811B (zh) * | 2022-01-21 | 2022-09-02 | 北京麦克斯泰科技有限公司 | 文章内容抽取方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727461B (zh) * | 2008-10-13 | 2012-11-21 | 中国科学院计算技术研究所 | 一种网页的正文抽取方法 |
US20120290606A1 (en) * | 2011-05-11 | 2012-11-15 | Searchreviews LLC | Providing sentiment-related content using sentiment and factor-based analysis of contextually-relevant user-generated data |
CN103942211B (zh) * | 2013-01-21 | 2019-04-26 | 腾讯科技(深圳)有限公司 | 一种正文页的识别方法及装置 |
CN103530429B (zh) * | 2013-11-04 | 2017-01-18 | 北京中搜网络技术股份有限公司 | 一种网页正文抽取的方法 |
CN104268192B (zh) * | 2014-09-20 | 2018-08-07 | 广州猎豹网络科技有限公司 | 一种网页信息提取方法、装置及终端 |
US10409875B2 (en) * | 2014-10-31 | 2019-09-10 | Marketmuse, Inc. | Systems and methods for semantic keyword analysis |
-
2017
- 2017-03-07 CN CN201710131780.7A patent/CN107229668B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN107229668A (zh) | 2017-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107229668B (zh) | 一种基于关键词匹配的正文抽取方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN103544255B (zh) | 基于文本语义相关的网络舆情信息分析方法 | |
US8630972B2 (en) | Providing context for web articles | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
CN109726274B (zh) | 问题生成方法、装置及存储介质 | |
US20060206306A1 (en) | Text mining apparatus and associated methods | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN111160019B (zh) | 一种舆情监测的方法、装置及系统 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN106407195B (zh) | 用于网页消重的方法和系统 | |
CN111639183A (zh) | 一种基于深度学习算法的金融同业舆情分析方法及系统 | |
CN115983233B (zh) | 一种基于数据流匹配的电子病历查重率估计方法 | |
CN110705292B (zh) | 一种基于知识库和深度学习的实体名称提取方法 | |
CN108446333B (zh) | 一种大数据文本挖掘处理系统及其方法 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
CN112579729A (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN106815209B (zh) | 一种维吾尔文农业技术术语识别方法 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN113806483A (zh) | 数据处理方法、装置、电子设备及计算机程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20171003 Assignee: Guangxi Huanzhi Technology Co.,Ltd. Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY Contract record no.: X2023980046248 Denomination of invention: A Method for Text Extraction Based on Keyword Matching Granted publication date: 20200421 License type: Common License Record date: 20231108 |
|
EE01 | Entry into force of recordation of patent licensing contract |