[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN108491429A - 一种基于类内类间文档频和词频统计的特征选择方法 - Google Patents

一种基于类内类间文档频和词频统计的特征选择方法 Download PDF

Info

Publication number
CN108491429A
CN108491429A CN201810131876.8A CN201810131876A CN108491429A CN 108491429 A CN108491429 A CN 108491429A CN 201810131876 A CN201810131876 A CN 201810131876A CN 108491429 A CN108491429 A CN 108491429A
Authority
CN
China
Prior art keywords
feature
class
classification
feature words
training set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810131876.8A
Other languages
English (en)
Inventor
邵雄凯
赵婧
刘建舟
王春枝
华满
阳邹
陈亮亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University of Technology
Original Assignee
Hubei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University of Technology filed Critical Hubei University of Technology
Priority to CN201810131876.8A priority Critical patent/CN108491429A/zh
Publication of CN108491429A publication Critical patent/CN108491429A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于类内类间文档频和词频统计的特征选择方法,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数;将训练集经过文本预处理后的原始特征空间使用本发明提出的特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为训练集各类别特征词库的并集。本发明提出一种基于类内类间文档频和词频统计(DFCTFS)的特征选择方法,可实现特征选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词,提高中文文本分类的效果。

Description

一种基于类内类间文档频和词频统计的特征选择方法
技术领域
本发明属于中文文本分类技术领域,涉及一种特征选择方法,具体涉及一种基于类内类间文档频和词频统计的特征选择方法。
背景技术
中文文本分类整体思路大致为:文本预处理,特征选择,建立文本表示模型,使用分类算法分类,分类模型评估。特征选择是中文文本分类的关键步骤,它是指从高维的原始特征空间中选择一部分重要特征,组成一个低维空间,从而提高分类精度和分类效率。
传统的特征选择方法有:文档频率(DF)、互信息(MI)、信息增益(IG)、卡方统计量(CHI)等。特征选择的做法一般是选用一个评估函数对原始的n个特征项进行计算,对计算所得的值按降序排列,从原始特征项集合中选出含信息量较多的前P个特征项。
传统的特征选择方法中CHI和IG被证明是文本分类效果较好的两种特征选择方法。CHI以特征词t与类别Ci相互独立为前提,计算这两个变量之间的值(即偏差程度),如果计算得到的值越大(即偏差较大),则特征词t与类别Ci越相关。但是,传统的CHI方法存在着不足,(1)未考虑特征词在各类别中的词频分布,只考虑了特征词的文档频,导致CHI可能会选择文档频率高但词频低的特征词。(2)可能会选择与类别负相关的特征词。
IG用于文本的特征选择时,衡量的是某个词的出现与否对判断一个文本是否属于该类所提供的信息量,信息量的多少由熵来衡量。IG即为不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值,该差值表示信息不确定性的减少程度。信息不确定性减少程度越大,相应的信息增益越大,该词项提供的信息越多,该词项越重要。但是,传统的IG方法存在着不足,(1)未考虑特征词在各类别中的词频分布;(2)特征词负相关性的干扰;(3)只能做全局的特征选择(指训练集中所有类别都使用相同的特征集合),而无法做本地的特征选择(指训练集中每个类别都有自己的特征集合)。
训练集通过预处理和特征选择后形成特征词库。CHI特征选择方法是依据CHI评估函数,得到各特征词在训练集各个类别的CHI值,使用特征词在所有类别中的CHI值的平均值或者最大值作为该特征词在整个训练集中的CHI值,将所有特征词按CHI值降序排列,选取一定比例的特征词作为整个训练集的特征词库。IG特征选择方法是依据IG评估函数,得到各特征词在整个训练集中的IG值,将所有特征词按IG值降序排列,选取一定比例的特征词作为整个训练集的特征词库。
综合分析CHI和IG的不足,可以得出,文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,本发明综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计(Document Frequency of within-class and between-class and TermFrequency Statistics,DFCTFS)的特征选择方法,提高分类的精度。
发明内容
本发明的目的在于提供一种基于类内类间文档频和词频统计的特征选择方法,优化特征选择的结果,提高中文文本分类的精度。
本发明所采用的技术方案是:1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:
步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间。输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;
步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;
步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;
步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;
步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;
步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;
步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集;
步骤8:建立文本表示模型;
根据特征词库,计算训练集中每篇文本对应的特征词的权重,将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;
步骤10:分类器性能评估;
针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。
本发明的有益效果在于:传统的CHI和IG特征选择方法存在着不足,即未考虑特征词在各类别中的词频分布,致使它可能选择文档频率高的特征词,而忽略了文档频率低但词频较高的特征词的贡献度;类别负相关特征词的干扰;以及IG只能做全局的特征选择,而无法做本地的特征选择。本发明综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数,旨在选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词,从而提高文本分类的精度。
附图说明
图1:本发明实施例的流程图;
图2:使用本发明后的中文文本分类整体流程图;
图3:本发明实施例中CHI、IG和本发明提出的DFCTFS在分类召回率上的比较结果图;
图4:本发明实施例中CHI、IG和本发明提出的DFCTFS在分类准确率上的比较结果图;
图5:本发明实施例中CHI、IG和本发明提出的DFCTFS在分类F1值上的比较结果图;
图6:本发明实施例中CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较结果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1和图2,本发明提供的一种基于类内类间文档频和词频统计的特征选择方法,包括以下步骤:
步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间。输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;
步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;
其中,基于类内类间文档频和词频统计的特征选择评估函数为:
式中,DFCTFS(tk,Ci)表示特征词tk在类别Ci中的类内类间文档频和词频统计值DFCTFS,DF(tk,Ci)表示特征词tk在类别Ci中出现的文本数,DF(tk)表示特征词tk在训练集所有类别中出现的文本数总和,DF(t,Ci)表示类别Ci中所有特征词出现的文本数的总和,TF(tk,Ci)表示特征词tk在类别Ci中出现的次数,numDocsi表示类别Ci的文本数,M表示类别数。
步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;
具体实现包括以下步骤:
步骤3.1:针对训练集中的各个类别,统计特征词tk在第Ci类别中出现的文本数DF(tk,Ci)和次数TF(tk,Ci);其中,k=1...N,N为特征词总数;i=1...M,M为类别数;
步骤3.2:根据tk,Ci定位到二维矩阵相应位置,利用基于类内类间文档频和词频统计的特征选择评估函数,计算Ci类别的特征词tk的DFCTFS值,从而构造出训练集的特征词、类别的N*M的二维矩阵。
步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;
本实施中的每个类别,是训练文本语料库中的各个类别。本实施例中使用的语料库是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组整理好的中文语料库,该语料库中的文本是已分好类别的,每个类别的文本集使用一个文件夹存放,本实施例中选用了其中的8个类别(但本发明的分类类别不限于只为8个类别,可以通过调整实验中分类的参数设置,对应选用的语料库中的类别数,可实现不同类别数的文本分类实验)。中文文本语料库是已有的、已整理好的、可直接使用的资源,在网上即可下载。
步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;
步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;
步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集;并集,即保证特征词库中词的唯一性;
步骤8:建立文本表示模型;
其中向量空间模型使用最为广泛,主要实现思路是,根据特征词库,计算训练集中每篇文本对应的特征词的权重,最常使用的权重计算方法是TF-IDF(词频-逆文档频率),即将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词。
式中,TFIDF(wik)表示特征词tk在文本di中的权重为wik,cik表示特征词tk在文本di中出现的次数,N表示特征词总数,D表示训练集文本总数,nk表示特征词tk出现的文本数,β是一个常数项。
步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;
步骤10:分类器性能评估;
针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。
其中,召回率、准确率、F1值的计算公式为:
召回率
准确率
F1值
宏召回率
宏准确率
宏F1值
式中,M为类别数,A表示判定为属于该类且属于该类,B表示判定为属于该类但不属于该类,C表示判定为不属于该类但属于该类,D表示判定为不属于该类且不属于该类;Ri表示类别i的召回率,Pi表示类别i的准确率,F1i表示类别i的F1值。
本发明提出的一种基于类内类间文档频和词频统计的特征选择方法,与传统的CHI和IG特征选择方法相比,在一定程度上提高了分类的召回率、准确率、F1值,以下通过实验说明。实验中的中文分词使用的是中国科学院计算技术研究所研发的ICTCLAS汉语分词系统。特征选择取训练集特征词总个数的5%。分类算法选用的是SVM,是基于台湾大学林智仁教授等开发的LIBSVM工具箱。中文文本语料库使用的是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组整理的中文语料库。选用其中的体育、历史、太空、政治、环境、经济、艺术、计算机,共8个类别。其中各类别文本的选取情况如下表所示:
表1语料库中训练集和测试集的选取情况
使用Java编程实现,实验平台为MyEclipse,服务器的配置如下Window7 64位操作系统,处理器为Intel(R)Core(TM)i5-2450M CPU@2.50GHz 2.5GHz,内存为4.00GB。
本发明提出的方法和传统CHI、IG特征选择方法在分类召回率、准确率、F1值的结果对比如表2所示:
表2文本分类中传统方法CHI、IG和本发明提出的DFCTFS的实验结果比
表3传统方法CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较
通过对表2分析,可以得出本文提出的DFCTFS特征选择,在所选的8个类别的分类效果的整体趋势上好于传统的CHI和IG。通过对表3分析,可以得出本文提出的DFCTFS特征选择方法,在分类的宏召回率上与CHI、IG相比分别提高了2.11%、1.54%,在宏准确率上分别提高了2.11%、1.36%,在宏F1值上分别提高了2.12%、1.5%。综合以上实验结果,可以得出本文提出的DFCTFS特征选择的分类效果与传统的CHI、IG相比,有一定程度的提高,说明了本发明的有效性。
请见图3,为CHI、IG和本发明提出的DFCTFS在分类召回率上的比较结果图;图3更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类召回率上相比,有一定程度的提高。
请见图4,为CHI、IG和本发明提出的DFCTFS在分类准确率上的比较结果图;图4更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类准确率上相比,有一定程度的提高。
请见图5,为中CHI、IG和本发明提出的DFCTFS在分类F1值上的比较结果图;图5更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类F1值上相比,有一定程度的提高。
请见图6,为CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较结果图;图6更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的整体分类效果上,通过宏召回率,宏准确率,宏F1值相比,有一定程度的提高。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:
步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间;输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;
步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;
步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;
步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;
步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;
步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;
步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集。
2.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤2中所述基于类内类间文档频和词频统计的特征选择评估函数为:
式中,DFCTFS(tk,Ci)表示特征词tk在类别Ci中的类内类间文档频和词频统计值DFCTFS,DF(tk,Ci)表示特征词tk在类别Ci中出现的文本数,DF(tk)表示特征词tk在训练集所有类别中出现的文本数总和,DF(t,Ci)表示类别Ci中所有特征词出现的文本数的总和,TF(tk,Ci)表示特征词tk在类别Ci中出现的次数,numDocsi表示类别Ci的文本数,M表示类别数。
3.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤3的具体实现包括以下步骤:
步骤3.1:针对训练集中的各个类别,统计特征词tk在第Ci类别中出现的文本数DF(tk,Ci)和次数TF(tk,Ci);其中,k=1...N,N为特征词总数;i=1...M,M为类别数;
步骤3.2:根据tk,Ci定位到二维矩阵相应位置,利用基于类内类间文档频和词频统计的特征选择评估函数,计算Ci类别的特征词tk的DFCTFS值,从而构造出训练集的特征词、类别的N*M的二维矩阵。
4.根据权利要求1-3任意一项所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,所述特征选择方法的有效性评估,包括以下步骤:
步骤8:建立文本表示模型;
根据特征词库,计算训练集中每篇文本对应的特征词的权重,将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;
步骤10:分类器性能评估;
针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。
5.根据权利要求4所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤8中所述计算特征词权重公式为:
式中,TFIDF(wik)表示特征词tk在文本di中的权重为wik,cik表示特征词tk在文本di中出现的次数,N表示特征词总数,D表示训练集文本总数,nk表示特征词tk出现的文本数,β是一个常数项。
6.根据权利要求4所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤10中所述召回率、准确率、F1值的计算公式为:
召回率
准确率
F1值
宏召回率
宏准确率
宏F1值
式中,M为类别数,A表示判定为属于该类且属于该类,B表示判定为属于该类但不属于该类,C表示判定为不属于该类但属于该类,D表示判定为不属于该类且不属于该类;Ri表示类别i的召回率,Pi表示类别i的准确率,F1i表示类别i的F1值。
CN201810131876.8A 2018-02-09 2018-02-09 一种基于类内类间文档频和词频统计的特征选择方法 Pending CN108491429A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810131876.8A CN108491429A (zh) 2018-02-09 2018-02-09 一种基于类内类间文档频和词频统计的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810131876.8A CN108491429A (zh) 2018-02-09 2018-02-09 一种基于类内类间文档频和词频统计的特征选择方法

Publications (1)

Publication Number Publication Date
CN108491429A true CN108491429A (zh) 2018-09-04

Family

ID=63340204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810131876.8A Pending CN108491429A (zh) 2018-02-09 2018-02-09 一种基于类内类间文档频和词频统计的特征选择方法

Country Status (1)

Country Link
CN (1) CN108491429A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109558588A (zh) * 2018-11-09 2019-04-02 广东原昇信息科技有限公司 信息流素材创意文本的特征提取方法
CN109800296A (zh) * 2019-01-21 2019-05-24 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN110069630A (zh) * 2019-03-20 2019-07-30 重庆信科设计有限公司 一种改进的互信息特征选择方法
CN110096710A (zh) * 2019-05-09 2019-08-06 董云鹏 一种文章分析及自论证的方法
CN110110328A (zh) * 2019-04-26 2019-08-09 北京零秒科技有限公司 文本处理方法及装置
CN110135592A (zh) * 2019-05-16 2019-08-16 腾讯科技(深圳)有限公司 分类效果确定方法、装置、智能终端及存储介质
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN111090997A (zh) * 2019-12-20 2020-05-01 中南大学 一种基于分级词项的地质文档特征词项排序方法与装置
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN111709439A (zh) * 2020-05-06 2020-09-25 西安理工大学 基于词频偏差率因子的特征选择方法
CN113032564A (zh) * 2021-03-22 2021-06-25 建信金融科技有限责任公司 特征提取方法、装置、电子设备以及存储介质
CN113157912A (zh) * 2020-12-24 2021-07-23 航天科工网络信息发展有限公司 一种基于机器学习的文本分类方法
CN114896398A (zh) * 2022-05-05 2022-08-12 南京邮电大学 一种基于特征选择的文本分类系统及方法
US11526754B2 (en) 2020-02-07 2022-12-13 Kyndryl, Inc. Feature generation for asset classification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法
CN105893388A (zh) * 2015-01-01 2016-08-24 成都网安科技发展有限公司 一种基于类间区分度及类内高表征度的文本特征提取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106275A (zh) * 2013-02-08 2013-05-15 西北工业大学 基于特征分布信息的文本分类特征筛选方法
CN104391835A (zh) * 2014-09-30 2015-03-04 中南大学 文本中特征词选择方法及装置
CN105893388A (zh) * 2015-01-01 2016-08-24 成都网安科技发展有限公司 一种基于类间区分度及类内高表征度的文本特征提取方法
CN105512311A (zh) * 2015-12-14 2016-04-20 北京工业大学 一种基于卡方统计的自适应特征选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
万斌候: ""文本分类中的特征降维方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522549A (zh) * 2018-10-30 2019-03-26 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109522549B (zh) * 2018-10-30 2022-06-10 云南电网有限责任公司信息中心 基于Web采集与文本特征均衡分布的语料库构建方法
CN109558588A (zh) * 2018-11-09 2019-04-02 广东原昇信息科技有限公司 信息流素材创意文本的特征提取方法
CN109558588B (zh) * 2018-11-09 2023-03-31 广东原昇信息科技有限公司 信息流素材创意文本的特征提取方法
CN111310451A (zh) * 2018-12-10 2020-06-19 北京沃东天骏信息技术有限公司 敏感词词典生成方法、装置及存储介质和电子设备
CN109800296B (zh) * 2019-01-21 2022-03-01 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN109800296A (zh) * 2019-01-21 2019-05-24 四川长虹电器股份有限公司 一种基于用户真实意图的语意模糊识别方法
CN110069630A (zh) * 2019-03-20 2019-07-30 重庆信科设计有限公司 一种改进的互信息特征选择方法
CN110110328A (zh) * 2019-04-26 2019-08-09 北京零秒科技有限公司 文本处理方法及装置
CN110110328B (zh) * 2019-04-26 2023-09-01 北京零秒科技有限公司 文本处理方法及装置
CN110096710A (zh) * 2019-05-09 2019-08-06 董云鹏 一种文章分析及自论证的方法
CN110096710B (zh) * 2019-05-09 2022-12-30 董云鹏 一种文章分析及自论证的方法
CN110135592A (zh) * 2019-05-16 2019-08-16 腾讯科技(深圳)有限公司 分类效果确定方法、装置、智能终端及存储介质
CN110135592B (zh) * 2019-05-16 2023-09-19 腾讯科技(深圳)有限公司 分类效果确定方法、装置、智能终端及存储介质
CN110609938A (zh) * 2019-08-15 2019-12-24 平安科技(深圳)有限公司 文本热点的发现方法、装置及计算机可读存储介质
CN111090997A (zh) * 2019-12-20 2020-05-01 中南大学 一种基于分级词项的地质文档特征词项排序方法与装置
US11526754B2 (en) 2020-02-07 2022-12-13 Kyndryl, Inc. Feature generation for asset classification
US11748621B2 (en) 2020-02-07 2023-09-05 Kyndryl, Inc. Methods and apparatus for feature generation using improved term frequency-inverse document frequency (TF-IDF) with deep learning for accurate cloud asset tagging
CN111709439A (zh) * 2020-05-06 2020-09-25 西安理工大学 基于词频偏差率因子的特征选择方法
CN111709439B (zh) * 2020-05-06 2023-10-20 深圳万知达科技有限公司 基于词频偏差率因子的特征选择方法
CN113157912A (zh) * 2020-12-24 2021-07-23 航天科工网络信息发展有限公司 一种基于机器学习的文本分类方法
CN113032564A (zh) * 2021-03-22 2021-06-25 建信金融科技有限责任公司 特征提取方法、装置、电子设备以及存储介质
CN113032564B (zh) * 2021-03-22 2023-05-30 建信金融科技有限责任公司 特征提取方法、装置、电子设备以及存储介质
CN114896398A (zh) * 2022-05-05 2022-08-12 南京邮电大学 一种基于特征选择的文本分类系统及方法

Similar Documents

Publication Publication Date Title
CN108491429A (zh) 一种基于类内类间文档频和词频统计的特征选择方法
Nguyen et al. Comparative study of sentiment analysis with product reviews using machine learning and lexicon-based approaches
CN104750844B (zh) 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
Chuang et al. Termite: Visualization techniques for assessing textual topic models
CN104391835B (zh) 文本中特征词选择方法及装置
Sahu et al. Feature engineering and ensemble-based approach for improving automatic short-answer grading performance
CN101625680B (zh) 面向专利领域的文档检索方法
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN109471933A (zh) 一种文本摘要的生成方法、存储介质和服务器
Shetty et al. Automatic extractive text summarization using K-means clustering
CN105183833A (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
Falasari et al. Optimize naïve bayes classifier using chi square and term frequency inverse document frequency for amazon review sentiment analysis
Zhang et al. Continuous word embeddings for detecting local text reuses at the semantic level
CN107423371A (zh) 一种文本正负类情感分类方法
Budhiraja et al. A supervised learning approach for heading detection
CN106503153B (zh) 一种计算机文本分类体系
Habibi et al. DeepTable: a permutation invariant neural network for table orientation classification
Abbasi Intelligent feature selection for opinion classification
Akkuş et al. Categorization of turkish news documents with morphological analysis
CN113626604B (zh) 基于最大间隔准则的网页文本分类系统
Ali et al. An Improved FakeBERT for Fake News Detection.
Bay et al. Feature selection for enhanced author identification of Turkish text
CN114996446B (zh) 一种文本分类方法、装置及存储介质
Al-Yahya A Comparative Study of Machine Learning Methods for Genre Identification of Classical Arabic Text.
Adeyiga et al. Fake News Detection Using a Logistic Regression Model and Natural Language Processing Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180904