CN103838737A

CN103838737A - 一种提高向量距离分类质量的方法

Info

Publication number: CN103838737A
Application number: CN201210476178.4A
Authority: CN
Inventors: 李聪慧; 王秀坤
Original assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: DALIAN LINGDONG TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2012-11-21
Filing date: 2012-11-21
Publication date: 2014-06-04

Abstract

本发明公开了一种提高向量距离分类质量的方法，包括以下步骤：基于VSM的特征加权过程，包括基于词义的特征项词频加权和基于文档结构的特征项词频加权；提取英文搜索的词干；分析用户查询日志；训练语料库修正、扩充。本发明通过构造分词词典，从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷，采用词干处理技术，简化了分类算法的处理的同时提高了分类质量和算法效率，通过对用户的查询日志进行分析，获取用户最感兴趣的查询要求，用它对专业词典进行指导修正，最后，通过对训练语料库进行修正和扩充，保证语料库随着各种专业技术的进步而动态改变，指导Robot程序采集到最近最新的专业技术资料。

Description

一种提高向量距离分类质量的方法

技术领域

本发明涉及一种提高自动分类质量的技术，特别是一种提高向量距离分类质量的方法。

背景技术

文档自动分类的关键问题是如何构造一个分类函数或分类模型(也称为分类器)，并利用此分类模型将未知文档映射到给定的类别空间。分类器的构造算法有多种，主要有概率统计算法、机器学习算法、神经网络算法等。概率统计算法采用相对简单的机制。在处理大规模真实文档方面取得了令人满意的效果。

其中简单向量距离算法的思路十分简单，其根据算术平均，通过样本训练为每类文档集生成一个代表该类的中心向量；然后在新文档来到时，确定新文档向量，计算该向量与每类中心向量间的距离(相似度)；最后判定文档属于与文档距离最近的类。贝叶斯分类算法的基本思路是计算文档属于类别的概率。文档属于类别的概率等于文档中每个词属于类别的几率的综合表达式。K-最近邻接分类算法的基本思路是在给定新文本后，考虑在训练文本集中与该新文本距离最近(最相似)的K篇文档，根据这K篇文档所属的类别判定新文档所属的类别。向量距离分类是假设经过训练后的用户目标类文档向量为U，待分类文档的向量V，两者的相似程度可用向量之间的夹角来度量，通常的方法是用两个向量间夹角的余弦表示。两者夹角越小，其余弦值愈大，说明相似度越大，两个文档分属相同类的可能性增加。

除此以外，支持向量机和神经网络算法再文档分类系统中应用的也较为广泛，支持向量机是一个用于解决模式识别问题的机器学习方法，它是基于结构风险最小化原理的，其基本思想是使用简单的线形分类器划分样本空间。对于在当前特征空间中线形不可分的模式，则使用一个核函数把样本映射到一个高维空间中，使得样本能够线形可分。

而神经网络算法采用感知算法进行分类。在这种模型中，分类知识被隐式地存储在连接的权值上，使用迭代算法来确定权值向量。当网络输出判断正确时，权值向量保持不变，否则进行增加或降低的调整，因此也称为奖惩法。

当前这些算法虽然已经在某些领域或某些特定场合取得了良好的分类效果，但是其分类质量以及分类技术仍有待进一步的提高。

发明内容

为解决现有技术存在的上述问题，本发明将会通过对这些算法进行详细的学习研究和总结，在向量距离分类算法的基础上对特征项，特征权值，训练语料库，专业词典等进行了部分修正和完善，从而设计一种提高向量距离分类质量的方法。

为了实现上述目的，本发明的技术方案如下：一种提高向量距离分类质量的方法，包括以下步骤：

A、基于VSM的特征加权

A1、基于词义的特征项词频加权

本发明建立了三个词典：专业主词典、专业同义词词典和专业蕴含词词典，用于进行词条切分与词频统计，其中专业主词典的词条要求在含义上尽可能保持相互独立。

在进行词频统计、特征提取、以及向量生成时，我们用主词典中的词条为表示特征词条进行处理，其中词频统计上的公式为：

Tf=TMf+∑TTf_i+e∑TIf_i （1）

式中Tf为专业主词典词条的词频统计总数；TMf为专业主词典词条的词频数；∑TTf_i为专业同义词词条的词频数；e∑TIf_i为专业蕴含词词条的词频数；e为扩展系数，其取值根据分类精度确定，取值区间为[0，1]。该公式表示词条在文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得到。

A2、基于文档结构的特征项词频加权

本发明对于同一个特征词条由于在文章正文、标题(网页源码中〈TITLE〉和〈/TITLE〉标记的文字)、页面关键字(网页源码〈META NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中标记的文字)、页面描述(网页源码〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字)等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算。相应的加权公式为：

TNf=TNf_M+m×TNf_T+n×TNf_K+p×TNf_D （2）

其中TNf为某词条的词频数，可以是公式（1）中的TMf、TTf_i或TIf_i；而TNf_M，TNf_T，TNf_K，TNf_D分别为对正文，标题，页面关键字和页面描述部分进行字典关键词统计的词频数；m、n、p则分别为相应的加权系数。

B、提取英文搜索的词干

本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、过去时等多种形式，如“walk”，“walked”，“walker”，“walking”；以及某些单词的名词、形容词、副词等多种形式，如“use”，“useful”，“usefulness”，“usefully”等具有相同词干的词进行词干化处理，具体来讲，对于这些词的词干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表，然后用匹配方式实现。另一种方法是模仿前面介绍的同义词处理方式，将词干词放入专业主词典中，将其它时态和词性的同词干词做为同义词来处理，其词频统计公式可参考同义词词频统计方法。

C、分析用户查询日志

本发明按类别记录下用户每次查询输入的关键词，并且对查询结果在一定阈值以内的查询关键词进行专门记录，在一定时间内我们通过自动地统计日志为人工修正专业词典提供依据。这样就构成了一个针对专业词典的自适应闭环系统。

D、训练语料库修正、扩充

本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语料库中，同时将一定时间阈值外的训练语料网页进行删除。这样就又构成了一个针对训练语料库的自适应闭环系统。

与现有技术相比，本发明具有以下有益效果：

1、本发明通过构造分词词典，从而弥补了特征词条相互独立要求与自然语言多样性之间的矛盾构成的VSM的主要缺陷。

2、本发明采用词干处理技术，简化了分类算法的处理的同时提高了分类质量和算法效率。

3、本发明通过对用户的查询日志进行分析，获取用户最感兴趣的查询要求，用它对专业词典进行指导修正。

4、本发明对训练语料库进行修正和扩充，保证语料库随着各种专业技术的进步而动态改变，指导Robot程序采集到最近最新的专业技术资料。

附图说明

本发明共有附图3张，其中：

图1是本发明中的专业词典结构图；

图2是本发明中基于专业词典的自适应系统图。

图3是本发明中基于训练语料库的自适应系统图。

具体实施方式

下面结合附图对本发明进行进一步地描述。如图1所示是基于VSM的特征加权过程中构建的专业词典示意图。如图2所示是基于专业词典的自适应系统示意图。如果3所示是基于训练语料库的自适应系统示意图。其实验过程如下所示：

A、基于VSM的特征加权

A1、基于词义的特征项词频加权

Tf=TMf+∑TTf_i+e∑TIf_i （1）

A2、基于文档结构的特征项词频加权

TNf=TNf_M+m×TNf_T+n×TNf_K+p×TNf_D （2）

B、提取英文搜索的词干

本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、过去时等多种形式，如“walk”，“walked”，“walker”，“walking”；以及某些单词的名词、形容词、副词等多种形式，如“use”，“useful”，“usefulness”，“useflly”等具有相同词干的词进行词干化处理，具体来讲，对于这些词的词干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表，然后用匹配方式实现。另一种方法是模仿前面介绍的同义词处理方式，将词干词放入专业主词典中，将其它时态和词性的同词干词做为同义词来处理，其词频统计公式可参考同义词词频统计方法。

C、分析用户查询日志

D、训练语料库修正、扩充

Claims

1.一种提高向量距离分类质量的方法，其特征在于：包括以下步骤：

A、基于VSM的特征加权

A1、基于词义的特征项词频加权

本发明建立了三个词典：专业主词典、专业同义词词典和专业蕴含词词典，用于进行词条切分与词频统计，其中专业主词典的词条要求在含义上尽可能保持相互独立；

Tf=TMf+∑TTf_i+e∑TIf_i （1）

式中Tf为专业主词典词条的词频统计总数；TMf为专业主词典词条的词频数；∑TTf_i为专业同义词词条的词频数；e∑TIf_i为专业蕴含词词条的词频数；e为扩展系数，其取值根据分类精度确定，取值区间为[0，1]；该公式表示词条在文档中出现频数是由主词条、同义词词条、蕴含词词条三部分的词频数累计得到；

A2、基于文档结构的特征项词频加权

本发明对于同一个特征词条由于在文章正文、标题，网页源码中〈TITLE〉和〈/TITLE〉标记的文字、页面关键字，网页源码〈META NAME=“KEYWORD”CONTENT=“.....”〉中CONTENT中标记的文字、页面描述，网页源码〈METANAME=“DESCRIPTION”CONTENT=“.....”〉中CONTENT中标记的文字等不同位置出现的重要程度不同我们对其词频时分别进行了加权计算；相应的加权公式为：

TNf=TNf_M+m×TNf_T+n×TNf_K+p×TNf_D （2）

其中TNf为某词条的词频数，可以是公式（1）中的TMf、TTf_i或TIf_i；而TNf_M，TNf_T，TNf_K，TNf_D分别为对正文，标题，页面关键字和页面描述部分进行字典关键词统计的词频数；m、n、p则分别为相应的加权系数；

B、提取英文搜索的词干

本发明中采用Stemming技术对一些英文单词在具体使用时表现的现在时、过去时等多种形式，如“walk”，“walked”，“walker”，“walking”；以及某些单词的名词、形容词、副词等多种形式，具有相同词干的词进行词干化处理，具体来讲，对于这些词的词干提取本发明采用的一种方法是先建立单词前缀、后缀表和特殊形式表，然后用匹配方式实现；另一种方法是模仿前面介绍的同义词处理方式，将词干词放入专业主词典中，将其它时态和词性的同词干词做为同义词来处理，其词频统计公式可参考同义词词频统计方法；

C、分析用户查询日志

本发明按类别记录下用户每次查询输入的关键词，并且对查询结果在一定阈值以内的查询关键词进行专门记录，在一定时间内我们通过自动地统计日志为人工修正专业词典提供依据；这样就构成了一个针对专业词典的自适应闭环系统；

D、训练语料库修正、扩充

本发明是将Robot采集到且满足分类阈值要求的网页按类别添加到训练语料库中，同时将一定时间阈值外的训练语料网页进行删除；这样就又构成了一个针对训练语料库的自适应闭环系统。