CN103838737A - 一种提高向量距离分类质量的方法 - Google Patents
一种提高向量距离分类质量的方法 Download PDFInfo
- Publication number
- CN103838737A CN103838737A CN201210476178.4A CN201210476178A CN103838737A CN 103838737 A CN103838737 A CN 103838737A CN 201210476178 A CN201210476178 A CN 201210476178A CN 103838737 A CN103838737 A CN 103838737A
- Authority
- CN
- China
- Prior art keywords
- word
- entry
- tnf
- word frequency
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种提高向量距离分类质量的方法,包括以下步骤:基于VSM的特征加权过程,包括基于词义的特征项词频加权和基于文档结构的特征项词频加权;提取英文搜索的词干;分析用户查询日志;训练语料库修正、扩充。本发明通过构造分词词典,从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷,采用词干处理技术,简化了分类算法的处理的同时提高了分类质量和算法效率,通过对用户的查询日志进行分析,获取用户最感兴趣的查询要求,用它对专业词典进行指导修正,最后,通过对训练语料库进行修正和扩充,保证语料库随着各种专业技术的进步而动态改变,指导Robot程序采集到最近最新的专业技术资料。
Description
技术领域
本发明涉及一种提高自动分类质量的技术,特别是一种提高向量距离分类质量的方法。
背景技术
文档自动分类的关键问题是如何构造一个分类函数或分类模型(也称为分类器),并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造算法有多种,主要有概率统计算法、机器学习算法、神经网络算法等。概率统计算法采用相对简单的机制。在处理大规模真实文档方面取得了令人满意的效果。
其中简单向量距离算法的思路十分简单,其根据算术平均,通过样本训练为每类文档集生成一个代表该类的中心向量;然后在新文档来到时,确定新文档向量,计算该向量与每类中心向量间的距离(相似度);最后判定文档属于与文档距离最近的类。贝叶斯分类算法的基本思路是计算文档属于类别的概率。文档属于类别的概率等于文档中每个词属于类别的几率的综合表达式。K-最近邻接分类算法的基本思路是在给定新文本后,考虑在训练文本集中与该新文本距离最近(最相似)的K篇文档,根据这K篇文档所属的类别判定新文档所属的类别。向量距离分类是假设经过训练后的用户目标类文档向量为U,待分类文档的向量V,两者的相似程度可用向量之间的夹角来度量,通常的方法是用两个向量间夹角的余弦表示。两者夹角越小,其余弦值愈大,说明相似度越大,两个文档分属相同类的可能性增加。
除此以外,支持向量机和神经网络算法再文档分类系统中应用的也较为广泛,支持向量机是一个用于解决模式识别问题的机器学习方法,它是基于结构风险最小化原理的,其基本思想是使用简单的线形分类器划分样本空间。对于在当前特征空间中线形不可分的模式,则使用一个核函数把样本映射到一个高维空间中,使得样本能够线形可分。
而神经网络算法采用感知算法进行分类。在这种模型中,分类知识被隐式地存储在连接的权值上,使用迭代算法来确定权值向量。当网络输出判断正确时,权值向量保持不变,否则进行增加或降低的调整,因此也称为奖惩法。
当前这些算法虽然已经在某些领域或某些特定场合取得了良好的分类效果,但是其分类质量以及分类技术仍有待进一步的提高。
发明内容
为解决现有技术存在的上述问题,本发明将会通过对这些算法进行详细的学习研究和总结,在向量距离分类算法的基础上对特征项,特征权值,训练语料库,专业词典等进行了部分修正和完善,从而设计一种提高向量距离分类质量的方法。
为了实现上述目的,本发明的技术方案如下:一种提高向量距离分类质量的方法,包括以下步骤:
A、基于VSM的特征加权
A1、基于词义的特征项词频加权
本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典,用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保持相互独立。
在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为表示特征词条进行处理,其中词频统计上的公式为:
Tf=TMf+∑TTfi+e∑TIfi (1)
式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e为扩展系数,其取值根据分类精度确定,取值区间为[0,1]。该公式表示词条在文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得到。
A2、基于文档结构的特征项词频加权
本发明对于同一个特征词条由于在文章正文、标题(网页源码中〈TITLE〉和〈/TITLE〉标记的文字)、页面关键字(网页源码〈META NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中标记的文字)、页面描述(网页源码〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字)等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算。相应的加权公式为:
TNf=TNfM+m×TNfT+n×TNfK+p×TNfD (2)
其中TNf为某词条的词频数,可以是公式(1)中的TMf、TTfi或TIfi;而TNfM,TNfT,TNfK,TNfD分别为对正文,标题,页面关键字和页面描述部分进行字典关键词统计的词频数;m、n、p则分别为相应的加权系数。
B、提取英文搜索的词干
本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、过去时等多种形式,如“walk”,“walked”,“walker”,“walking”;以及某些单词的名词、形容词、副词等多种形式,如“use”,“useful”,“usefulness”,“usefully”等具有相同词干的词进行词干化处理,具体来讲,对于这些词的词干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表,然后用匹配方式实现。另一种方法是模仿前面介绍的同义词处理方式,将词干词放入专业主词典中,将其它时态和词性的同词干词做为同义词来处理,其词频统计公式可参考同义词词频统计方法。
C、分析用户查询日志
本发明按类别记录下用户每次查询输入的关键词,并且对查询结果在一定阈值以内的查询关键词进行专门记录,在一定时间内我们通过自动地统计日志为人工修正专业词典提供依据。这样就构成了一个针对专业词典的自适应闭环系统。
D、训练语料库修正、扩充
本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语料库中,同时将一定时间阈值外的训练语料网页进行删除。这样就又构成了一个针对训练语料库的自适应闭环系统。
与现有技术相比,本发明具有以下有益效果:
1、本发明通过构造分词词典,从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷。
2、本发明采用词干处理技术,简化了分类算法的处理的同时提高了分类质量和算法效率。
3、本发明通过对用户的查询日志进行分析,获取用户最感兴趣的查询要求,用它对专业词典进行指导修正。
4、本发明对训练语料库进行修正和扩充,保证语料库随着各种专业技术的进步而动态改变,指导Robot程序采集到最近最新的专业技术资料。
附图说明
本发明共有附图3张,其中:
图1是本发明中的专业词典结构图;
图2是本发明中基于专业词典的自适应系统图。
图3是本发明中基于训练语料库的自适应系统图。
具体实施方式
下面结合附图对本发明进行进一步地描述。如图1所示是基于VSM的特征加权过程中构建的专业词典示意图。如图2所示是基于专业词典的自适应系统示意图。如果3所示是基于训练语料库的自适应系统示意图。其实验过程如下所示:
A、基于VSM的特征加权
A1、基于词义的特征项词频加权
本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典,用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保持相互独立。
在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为表示特征词条进行处理,其中词频统计上的公式为:
Tf=TMf+∑TTfi+e∑TIfi (1)
式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e为扩展系数,其取值根据分类精度确定,取值区间为[0,1]。该公式表示词条在文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得到。
A2、基于文档结构的特征项词频加权
本发明对于同一个特征词条由于在文章正文、标题(网页源码中〈TITLE〉和〈/TITLE〉标记的文字)、页面关键字(网页源码〈META NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中标记的文字)、页面描述(网页源码〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字)等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算。相应的加权公式为:
TNf=TNfM+m×TNfT+n×TNfK+p×TNfD (2)
其中TNf为某词条的词频数,可以是公式(1)中的TMf、TTfi或TIfi;而TNfM,TNfT,TNfK,TNfD分别为对正文,标题,页面关键字和页面描述部分进行字典关键词统计的词频数;m、n、p则分别为相应的加权系数。
B、提取英文搜索的词干
本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、过去时等多种形式,如“walk”,“walked”,“walker”,“walking”;以及某些单词的名词、形容词、副词等多种形式,如“use”,“useful”,“usefulness”,“useflly”等具有相同词干的词进行词干化处理,具体来讲,对于这些词的词干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表,然后用匹配方式实现。另一种方法是模仿前面介绍的同义词处理方式,将词干词放入专业主词典中,将其它时态和词性的同词干词做为同义词来处理,其词频统计公式可参考同义词词频统计方法。
C、分析用户查询日志
本发明按类别记录下用户每次查询输入的关键词,并且对查询结果在一定阈值以内的查询关键词进行专门记录,在一定时间内我们通过自动地统计日志为人工修正专业词典提供依据。这样就构成了一个针对专业词典的自适应闭环系统。
D、训练语料库修正、扩充
本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语料库中,同时将一定时间阈值外的训练语料网页进行删除。这样就又构成了一个针对训练语料库的自适应闭环系统。
Claims (1)
1.一种提高向量距离分类质量的方法,其特征在于:包括以下步骤:
A、基于VSM的特征加权
A1、基于词义的特征项词频加权
本发明建立了三个词典:专业主词典、专业同义词词典和专业蕴含词词典,用于进行词条切分与词频统计,其中专业主词典的词条要求在含义上尽可能保持相互独立;
在进行词频统计、特征提取、以及向量生成时,我们用主词典中的词条为表示特征词条进行处理,其中词频统计上的公式为:
Tf=TMf+∑TTfi+e∑TIfi (1)
式中Tf为专业主词典词条的词频统计总数;TMf为专业主词典词条的词频数;∑TTfi为专业同义词词条的词频数;e∑TIfi为专业蕴含词词条的词频数;e为扩展系数,其取值根据分类精度确定,取值区间为[0,1];该公式表示词条在文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得到;
A2、基于文档结构的特征项词频加权
本发明对于同一个特征词条由于在文章正文、标题,网页源码中〈TITLE〉和〈/TITLE〉标记的文字、页面关键字,网页源码〈META NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中标记的文字、页面描述,网页源码〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算;相应的加权公式为:
TNf=TNfM+m×TNfT+n×TNfK+p×TNfD (2)
其中TNf为某词条的词频数,可以是公式(1)中的TMf、TTfi或TIfi;而TNfM,TNfT,TNfK,TNfD分别为对正文,标题,页面关键字和页面描述部分进行字典关键词统计的词频数;m、n、p则分别为相应的加权系数;
B、提取英文搜索的词干
本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、过去时等多种形式,如“walk”,“walked”,“walker”,“walking”;以及某些单词的名词、形容词、副词等多种形式,具有相同词干的词进行词干化处理,具体来讲,对于这些词的词干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表,然后用匹配方式实现;另一种方法是模仿前面介绍的同义词处理方式,将词干词放入专业主词典中,将其它时态和词性的同词干词做为同义词来处理,其词频统计公式可参考同义词词频统计方法;
C、分析用户查询日志
本发明按类别记录下用户每次查询输入的关键词,并且对查询结果在一定阈值以内的查询关键词进行专门记录,在一定时间内我们通过自动地统计日志为人工修正专业词典提供依据;这样就构成了一个针对专业词典的自适应闭环系统;
D、训练语料库修正、扩充
本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语料库中,同时将一定时间阈值外的训练语料网页进行删除;这样就又构成了一个针对训练语料库的自适应闭环系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210476178.4A CN103838737A (zh) | 2012-11-21 | 2012-11-21 | 一种提高向量距离分类质量的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210476178.4A CN103838737A (zh) | 2012-11-21 | 2012-11-21 | 一种提高向量距离分类质量的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103838737A true CN103838737A (zh) | 2014-06-04 |
Family
ID=50802251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210476178.4A Pending CN103838737A (zh) | 2012-11-21 | 2012-11-21 | 一种提高向量距离分类质量的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838737A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066535A (zh) * | 2017-03-03 | 2017-08-18 | 中国人民解放军海军大连舰艇学院 | 一种基于时态和关键词查询的检索方法和系统 |
CN107229731A (zh) * | 2017-06-08 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 用于分类数据的方法和装置 |
CN107577708A (zh) * | 2017-07-31 | 2018-01-12 | 北京北信源软件股份有限公司 | 基于SparkMLlib文档分类的类库构建方法及系统 |
CN116108834A (zh) * | 2023-04-10 | 2023-05-12 | 中国民用航空飞行学院 | 交互式用户词典构建方法、装置和设备 |
CN118227564A (zh) * | 2024-05-23 | 2024-06-21 | 华能信息技术有限公司 | 一种vsm信息和运行日志的查询显示方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3690216B2 (ja) * | 1999-11-26 | 2005-08-31 | 日本電気株式会社 | 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体 |
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
-
2012
- 2012-11-21 CN CN201210476178.4A patent/CN103838737A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3690216B2 (ja) * | 1999-11-26 | 2005-08-31 | 日本電気株式会社 | 文書間類似度計算方法及びシステムと装置ならびに類似度計算用プログラムを記録した記録媒体 |
CN102023967A (zh) * | 2010-11-11 | 2011-04-20 | 清华大学 | 一种面向股票领域的文本情感分类方法 |
CN102662965A (zh) * | 2012-03-07 | 2012-09-12 | 上海引跑信息科技有限公司 | 一种自动发现互联网热点新闻主题的方法及系统 |
Non-Patent Citations (1)
Title |
---|
刘峰: "通用中英文专业搜索引擎技术的研究及应用", 《中国硕士学位论文全文数据库•信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066535A (zh) * | 2017-03-03 | 2017-08-18 | 中国人民解放军海军大连舰艇学院 | 一种基于时态和关键词查询的检索方法和系统 |
CN107229731A (zh) * | 2017-06-08 | 2017-10-03 | 百度在线网络技术(北京)有限公司 | 用于分类数据的方法和装置 |
CN107229731B (zh) * | 2017-06-08 | 2021-05-25 | 百度在线网络技术(北京)有限公司 | 用于分类数据的方法和装置 |
CN107577708A (zh) * | 2017-07-31 | 2018-01-12 | 北京北信源软件股份有限公司 | 基于SparkMLlib文档分类的类库构建方法及系统 |
CN116108834A (zh) * | 2023-04-10 | 2023-05-12 | 中国民用航空飞行学院 | 交互式用户词典构建方法、装置和设备 |
CN118227564A (zh) * | 2024-05-23 | 2024-06-21 | 华能信息技术有限公司 | 一种vsm信息和运行日志的查询显示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052593B (zh) | 一种基于主题词向量和网络结构的主题关键词提取方法 | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
CN104573046B (zh) | 一种基于词向量的评论分析方法及系统 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
US10997256B2 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
CN108132927B (zh) | 一种融合图结构与节点关联的关键词提取方法 | |
US20020078044A1 (en) | System for automatically classifying documents by category learning using a genetic algorithm and a term cluster and method thereof | |
CN102033949B (zh) | 基于修正的k近邻文本分类方法 | |
CN103324628A (zh) | 一种针对发布文本的行业分类方法和系统 | |
CN103838737A (zh) | 一种提高向量距离分类质量的方法 | |
CN106557777B (zh) | 一种基于SimHash改进的Kmeans文档聚类方法 | |
CN109597995A (zh) | 一种基于bm25加权结合词向量的文本表示方法 | |
CN108846050A (zh) | 基于多模型融合的核心工艺知识智能推送方法及系统 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN111460147B (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN102541910A (zh) | 提取关键字的方法 | |
CN108710672B (zh) | 一种基于增量贝叶斯算法的主题爬虫方法 | |
CN108549636A (zh) | 一种赛事文字直播关键句抽取方法 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN110532568B (zh) | 基于树特征选择和迁移学习的汉语词义消歧方法 | |
CN113988053A (zh) | 一种热词提取方法及装置 | |
CN107169020B (zh) | 一种基于关键字的定向网页采集方法 | |
CN110347903A (zh) | 基于统计语言模型算法的智能信息评估和营销系统 | |
CN106294295B (zh) | 基于词频的文章相似度识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140604 |