CN108491429A

CN108491429A - 一种基于类内类间文档频和词频统计的特征选择方法

Info

Publication number: CN108491429A
Application number: CN201810131876.8A
Authority: CN
Inventors: 邵雄凯; 赵婧; 刘建舟; 王春枝; 华满; 阳邹; 陈亮亮
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-09-04

Abstract

本发明公开了一种基于类内类间文档频和词频统计的特征选择方法，综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度，构造出基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数；将训练集经过文本预处理后的原始特征空间使用本发明提出的特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库，而训练集的特征词库则为训练集各类别特征词库的并集。本发明提出一种基于类内类间文档频和词频统计(DFCTFS)的特征选择方法，可实现特征选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词，提高中文文本分类的效果。

Description

一种基于类内类间文档频和词频统计的特征选择方法

技术领域

本发明属于中文文本分类技术领域，涉及一种特征选择方法，具体涉及一种基于类内类间文档频和词频统计的特征选择方法。

背景技术

中文文本分类整体思路大致为：文本预处理，特征选择，建立文本表示模型，使用分类算法分类，分类模型评估。特征选择是中文文本分类的关键步骤，它是指从高维的原始特征空间中选择一部分重要特征，组成一个低维空间，从而提高分类精度和分类效率。

传统的特征选择方法有：文档频率(DF)、互信息(MI)、信息增益(IG)、卡方统计量(CHI)等。特征选择的做法一般是选用一个评估函数对原始的n个特征项进行计算，对计算所得的值按降序排列，从原始特征项集合中选出含信息量较多的前P个特征项。

传统的特征选择方法中CHI和IG被证明是文本分类效果较好的两种特征选择方法。CHI以特征词t与类别C_i相互独立为前提，计算这两个变量之间的值(即偏差程度)，如果计算得到的值越大(即偏差较大)，则特征词t与类别C_i越相关。但是，传统的CHI方法存在着不足，(1)未考虑特征词在各类别中的词频分布，只考虑了特征词的文档频，导致CHI可能会选择文档频率高但词频低的特征词。(2)可能会选择与类别负相关的特征词。

IG用于文本的特征选择时，衡量的是某个词的出现与否对判断一个文本是否属于该类所提供的信息量，信息量的多少由熵来衡量。IG即为不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值，该差值表示信息不确定性的减少程度。信息不确定性减少程度越大，相应的信息增益越大，该词项提供的信息越多，该词项越重要。但是，传统的IG方法存在着不足，(1)未考虑特征词在各类别中的词频分布；(2)特征词负相关性的干扰；(3)只能做全局的特征选择(指训练集中所有类别都使用相同的特征集合)，而无法做本地的特征选择(指训练集中每个类别都有自己的特征集合)。

训练集通过预处理和特征选择后形成特征词库。CHI特征选择方法是依据CHI评估函数，得到各特征词在训练集各个类别的CHI值，使用特征词在所有类别中的CHI值的平均值或者最大值作为该特征词在整个训练集中的CHI值，将所有特征词按CHI值降序排列，选取一定比例的特征词作为整个训练集的特征词库。IG特征选择方法是依据IG评估函数，得到各特征词在整个训练集中的IG值，将所有特征词按IG值降序排列，选取一定比例的特征词作为整个训练集的特征词库。

综合分析CHI和IG的不足，可以得出，文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此，本发明综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度，提出一种基于类内类间文档频和词频统计(Document Frequency of within-class and between-class and TermFrequency Statistics，DFCTFS)的特征选择方法，提高分类的精度。

发明内容

本发明的目的在于提供一种基于类内类间文档频和词频统计的特征选择方法，优化特征选择的结果，提高中文文本分类的精度。

本发明所采用的技术方案是：1.一种基于类内类间文档频和词频统计的特征选择方法，其特征在于，包括以下步骤：

步骤1：训练集中的文本经过分词、去停用词后由词项表示，记为原始特征空间。输入训练集原始所有的特征词，其中原始特征空间中特征词记为t_k，0≤k≤N，N为原始特征空间中特征词总数；

步骤2：综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度，构造出基于类内类间文档频和词频统计的特征选择评估函数，用于计算类内类间文档频和词频统计值DFCTFS；

步骤3：依据所得原始特征空间，构造一个特征词、类别的二维矩阵，其中行代表特征词，列代表类别，矩阵中的元素为DFCTFS值；

步骤4：依据训练集各类别中各特征词的DFCTFS值，对训练集每个类别中的特征词进行降序排列；

步骤5：获得训练集中总类别数M以及训练集中特征词的总个数N，取一定比例的特征词，记为numWords，则各类别中选择的特征词个数num为numWords除以M；

步骤6：训练集各类别中都依据步骤5中所得num值，选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库；

步骤7：得到训练集的特征词库，即为各类别所得特征词库的并集；

步骤8：建立文本表示模型；

根据特征词库，计算训练集中每篇文本对应的特征词的权重，将训练集向量化后形成一个二维矩阵，每一行代表一篇文本，每一列代表特征词库中的一个特征词；

步骤9：使用分类算法分类；对训练集使用分类算法进行分类器训练，得到分类模型；

步骤10：分类器性能评估；

针对测试集，经过分词、去停用词后由词项表示，并计算测试集中每篇文本对应的特征词的权重，将测试集向量化后形成一个二维矩阵，每一行代表一篇文本，每一列代表特征词库中的一个特征词；

利用训练得到的分类模型，对测试集进行分类，利用召回率、准确率、F1值，实现对分类器的性能评价。

本发明的有益效果在于：传统的CHI和IG特征选择方法存在着不足，即未考虑特征词在各类别中的词频分布，致使它可能选择文档频率高的特征词，而忽略了文档频率低但词频较高的特征词的贡献度；类别负相关特征词的干扰；以及IG只能做全局的特征选择，而无法做本地的特征选择。本发明综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度，构造基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数，旨在选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词，从而提高文本分类的精度。

附图说明

图1：本发明实施例的流程图；

图2：使用本发明后的中文文本分类整体流程图；

图3：本发明实施例中CHI、IG和本发明提出的DFCTFS在分类召回率上的比较结果图；

图4：本发明实施例中CHI、IG和本发明提出的DFCTFS在分类准确率上的比较结果图；

图5：本发明实施例中CHI、IG和本发明提出的DFCTFS在分类F1值上的比较结果图；

图6：本发明实施例中CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较结果图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

请见图1和图2，本发明提供的一种基于类内类间文档频和词频统计的特征选择方法，包括以下步骤：

其中，基于类内类间文档频和词频统计的特征选择评估函数为：

式中，DFCTFS(t_k,C_i)表示特征词t_k在类别C_i中的类内类间文档频和词频统计值DFCTFS，DF(t_k,C_i)表示特征词t_k在类别C_i中出现的文本数，DF(t_k)表示特征词t_k在训练集所有类别中出现的文本数总和，DF(t,C_i)表示类别C_i中所有特征词出现的文本数的总和，TF(t_k,C_i)表示特征词t_k在类别C_i中出现的次数，numDocs_i表示类别C_i的文本数，M表示类别数。

具体实现包括以下步骤：

步骤3.1：针对训练集中的各个类别，统计特征词t_k在第C_i类别中出现的文本数DF(t_k,C_i)和次数TF(t_k,C_i)；其中，k＝1...N，N为特征词总数；i＝1...M，M为类别数；

步骤3.2：根据t_k，C_i定位到二维矩阵相应位置，利用基于类内类间文档频和词频统计的特征选择评估函数，计算C_i类别的特征词t_k的DFCTFS值，从而构造出训练集的特征词、类别的N*M的二维矩阵。

本实施中的每个类别，是训练文本语料库中的各个类别。本实施例中使用的语料库是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组整理好的中文语料库，该语料库中的文本是已分好类别的，每个类别的文本集使用一个文件夹存放，本实施例中选用了其中的8个类别(但本发明的分类类别不限于只为8个类别，可以通过调整实验中分类的参数设置，对应选用的语料库中的类别数，可实现不同类别数的文本分类实验)。中文文本语料库是已有的、已整理好的、可直接使用的资源，在网上即可下载。

步骤7：得到训练集的特征词库，即为各类别所得特征词库的并集；并集，即保证特征词库中词的唯一性；

步骤8：建立文本表示模型；

其中向量空间模型使用最为广泛，主要实现思路是，根据特征词库，计算训练集中每篇文本对应的特征词的权重，最常使用的权重计算方法是TF-IDF(词频-逆文档频率)，即将训练集向量化后形成一个二维矩阵，每一行代表一篇文本，每一列代表特征词库中的一个特征词。

式中，TFIDF(w_ik)表示特征词t_k在文本d_i中的权重为w_ik，c_ik表示特征词t_k在文本d_i中出现的次数，N表示特征词总数，D表示训练集文本总数，n_k表示特征词t_k出现的文本数，β是一个常数项。

步骤10：分类器性能评估；

其中，召回率、准确率、F1值的计算公式为：

召回率

准确率

F1值

宏召回率

宏准确率

宏F1值

式中，M为类别数，A表示判定为属于该类且属于该类，B表示判定为属于该类但不属于该类，C表示判定为不属于该类但属于该类，D表示判定为不属于该类且不属于该类；R_i表示类别i的召回率，P_i表示类别i的准确率，F1_i表示类别i的F1值。

本发明提出的一种基于类内类间文档频和词频统计的特征选择方法，与传统的CHI和IG特征选择方法相比，在一定程度上提高了分类的召回率、准确率、F1值，以下通过实验说明。实验中的中文分词使用的是中国科学院计算技术研究所研发的ICTCLAS汉语分词系统。特征选择取训练集特征词总个数的5％。分类算法选用的是SVM，是基于台湾大学林智仁教授等开发的LIBSVM工具箱。中文文本语料库使用的是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组整理的中文语料库。选用其中的体育、历史、太空、政治、环境、经济、艺术、计算机，共8个类别。其中各类别文本的选取情况如下表所示：

表1语料库中训练集和测试集的选取情况

使用Java编程实现，实验平台为MyEclipse，服务器的配置如下Window7 64位操作系统，处理器为Intel(R)Core(TM)i5-2450M CPU@2.50GHz 2.5GHz，内存为4.00GB。

本发明提出的方法和传统CHI、IG特征选择方法在分类召回率、准确率、F1值的结果对比如表2所示：

表2文本分类中传统方法CHI、IG和本发明提出的DFCTFS的实验结果比

较

表3传统方法CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较

通过对表2分析，可以得出本文提出的DFCTFS特征选择，在所选的8个类别的分类效果的整体趋势上好于传统的CHI和IG。通过对表3分析，可以得出本文提出的DFCTFS特征选择方法，在分类的宏召回率上与CHI、IG相比分别提高了2.11％、1.54％，在宏准确率上分别提高了2.11％、1.36％，在宏F1值上分别提高了2.12％、1.5％。综合以上实验结果，可以得出本文提出的DFCTFS特征选择的分类效果与传统的CHI、IG相比，有一定程度的提高，说明了本发明的有效性。

请见图3，为CHI、IG和本发明提出的DFCTFS在分类召回率上的比较结果图；图3更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类召回率上相比，有一定程度的提高。

请见图4，为CHI、IG和本发明提出的DFCTFS在分类准确率上的比较结果图；图4更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类准确率上相比，有一定程度的提高。

请见图5，为中CHI、IG和本发明提出的DFCTFS在分类F1值上的比较结果图；图5更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类F1值上相比，有一定程度的提高。

请见图6，为CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较结果图；图6更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的整体分类效果上，通过宏召回率，宏准确率，宏F1值相比，有一定程度的提高。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于类内类间文档频和词频统计的特征选择方法，其特征在于，包括以下步骤：

步骤1：训练集中的文本经过分词、去停用词后由词项表示，记为原始特征空间；输入训练集原始所有的特征词，其中原始特征空间中特征词记为t_k，0≤k≤N，N为原始特征空间中特征词总数；

步骤7：得到训练集的特征词库，即为各类别所得特征词库的并集。

2.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法，其特征在于，步骤2中所述基于类内类间文档频和词频统计的特征选择评估函数为：

3.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法，其特征在于，步骤3的具体实现包括以下步骤：

4.根据权利要求1-3任意一项所述的基于类内类间文档频和词频统计的特征选择方法，其特征在于，所述特征选择方法的有效性评估，包括以下步骤：

步骤8：建立文本表示模型；

步骤10：分类器性能评估；

5.根据权利要求4所述的基于类内类间文档频和词频统计的特征选择方法，其特征在于，步骤8中所述计算特征词权重公式为：

6.根据权利要求4所述的基于类内类间文档频和词频统计的特征选择方法，其特征在于，步骤10中所述召回率、准确率、F1值的计算公式为：

召回率

准确率

F1值

宏召回率

宏准确率

宏F1值