CN108491429A - 一种基于类内类间文档频和词频统计的特征选择方法 - Google Patents
一种基于类内类间文档频和词频统计的特征选择方法 Download PDFInfo
- Publication number
- CN108491429A CN108491429A CN201810131876.8A CN201810131876A CN108491429A CN 108491429 A CN108491429 A CN 108491429A CN 201810131876 A CN201810131876 A CN 201810131876A CN 108491429 A CN108491429 A CN 108491429A
- Authority
- CN
- China
- Prior art keywords
- feature
- class
- classification
- feature words
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013459 approach Methods 0.000 title claims abstract 9
- 238000012549 training Methods 0.000 claims abstract description 59
- 230000006870 function Effects 0.000 claims abstract description 14
- 239000006185 dispersion Substances 0.000 claims abstract description 6
- 239000000203 mixture Substances 0.000 claims abstract 2
- 239000011159 matrix material Substances 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000014509 gene expression Effects 0.000 claims 4
- 238000010276 construction Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 8
- 238000010187 selection method Methods 0.000 description 19
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000007635 classification algorithm Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 6
- 238000013145 classification model Methods 0.000 description 5
- 230000007812 deficiency Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于类内类间文档频和词频统计的特征选择方法,综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数;将训练集经过文本预处理后的原始特征空间使用本发明提出的特征选择评估函数在训练集每个类别中选取一定比例的特征词组成该类别的特征词库,而训练集的特征词库则为训练集各类别特征词库的并集。本发明提出一种基于类内类间文档频和词频统计(DFCTFS)的特征选择方法,可实现特征选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词,提高中文文本分类的效果。
Description
技术领域
本发明属于中文文本分类技术领域,涉及一种特征选择方法,具体涉及一种基于类内类间文档频和词频统计的特征选择方法。
背景技术
中文文本分类整体思路大致为:文本预处理,特征选择,建立文本表示模型,使用分类算法分类,分类模型评估。特征选择是中文文本分类的关键步骤,它是指从高维的原始特征空间中选择一部分重要特征,组成一个低维空间,从而提高分类精度和分类效率。
传统的特征选择方法有:文档频率(DF)、互信息(MI)、信息增益(IG)、卡方统计量(CHI)等。特征选择的做法一般是选用一个评估函数对原始的n个特征项进行计算,对计算所得的值按降序排列,从原始特征项集合中选出含信息量较多的前P个特征项。
传统的特征选择方法中CHI和IG被证明是文本分类效果较好的两种特征选择方法。CHI以特征词t与类别Ci相互独立为前提,计算这两个变量之间的值(即偏差程度),如果计算得到的值越大(即偏差较大),则特征词t与类别Ci越相关。但是,传统的CHI方法存在着不足,(1)未考虑特征词在各类别中的词频分布,只考虑了特征词的文档频,导致CHI可能会选择文档频率高但词频低的特征词。(2)可能会选择与类别负相关的特征词。
IG用于文本的特征选择时,衡量的是某个词的出现与否对判断一个文本是否属于该类所提供的信息量,信息量的多少由熵来衡量。IG即为不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值,该差值表示信息不确定性的减少程度。信息不确定性减少程度越大,相应的信息增益越大,该词项提供的信息越多,该词项越重要。但是,传统的IG方法存在着不足,(1)未考虑特征词在各类别中的词频分布;(2)特征词负相关性的干扰;(3)只能做全局的特征选择(指训练集中所有类别都使用相同的特征集合),而无法做本地的特征选择(指训练集中每个类别都有自己的特征集合)。
训练集通过预处理和特征选择后形成特征词库。CHI特征选择方法是依据CHI评估函数,得到各特征词在训练集各个类别的CHI值,使用特征词在所有类别中的CHI值的平均值或者最大值作为该特征词在整个训练集中的CHI值,将所有特征词按CHI值降序排列,选取一定比例的特征词作为整个训练集的特征词库。IG特征选择方法是依据IG评估函数,得到各特征词在整个训练集中的IG值,将所有特征词按IG值降序排列,选取一定比例的特征词作为整个训练集的特征词库。
综合分析CHI和IG的不足,可以得出,文本分类中的特征选择关键在于选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词。因此,本发明综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,提出一种基于类内类间文档频和词频统计(Document Frequency of within-class and between-class and TermFrequency Statistics,DFCTFS)的特征选择方法,提高分类的精度。
发明内容
本发明的目的在于提供一种基于类内类间文档频和词频统计的特征选择方法,优化特征选择的结果,提高中文文本分类的精度。
本发明所采用的技术方案是:1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:
步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间。输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;
步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;
步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;
步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;
步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;
步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;
步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集;
步骤8:建立文本表示模型;
根据特征词库,计算训练集中每篇文本对应的特征词的权重,将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;
步骤10:分类器性能评估;
针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。
本发明的有益效果在于:传统的CHI和IG特征选择方法存在着不足,即未考虑特征词在各类别中的词频分布,致使它可能选择文档频率高的特征词,而忽略了文档频率低但词频较高的特征词的贡献度;类别负相关特征词的干扰;以及IG只能做全局的特征选择,而无法做本地的特征选择。本发明综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造基于类内类间文档频和词频统计(DFCTFS)的特征选择评估函数,旨在选择出集中分布于某类文档并在该类文档中均匀分布且频繁出现的特征词,从而提高文本分类的精度。
附图说明
图1:本发明实施例的流程图;
图2:使用本发明后的中文文本分类整体流程图;
图3:本发明实施例中CHI、IG和本发明提出的DFCTFS在分类召回率上的比较结果图;
图4:本发明实施例中CHI、IG和本发明提出的DFCTFS在分类准确率上的比较结果图;
图5:本发明实施例中CHI、IG和本发明提出的DFCTFS在分类F1值上的比较结果图;
图6:本发明实施例中CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较结果图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1和图2,本发明提供的一种基于类内类间文档频和词频统计的特征选择方法,包括以下步骤:
步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间。输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;
步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;
其中,基于类内类间文档频和词频统计的特征选择评估函数为:
式中,DFCTFS(tk,Ci)表示特征词tk在类别Ci中的类内类间文档频和词频统计值DFCTFS,DF(tk,Ci)表示特征词tk在类别Ci中出现的文本数,DF(tk)表示特征词tk在训练集所有类别中出现的文本数总和,DF(t,Ci)表示类别Ci中所有特征词出现的文本数的总和,TF(tk,Ci)表示特征词tk在类别Ci中出现的次数,numDocsi表示类别Ci的文本数,M表示类别数。
步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;
具体实现包括以下步骤:
步骤3.1:针对训练集中的各个类别,统计特征词tk在第Ci类别中出现的文本数DF(tk,Ci)和次数TF(tk,Ci);其中,k=1...N,N为特征词总数;i=1...M,M为类别数;
步骤3.2:根据tk,Ci定位到二维矩阵相应位置,利用基于类内类间文档频和词频统计的特征选择评估函数,计算Ci类别的特征词tk的DFCTFS值,从而构造出训练集的特征词、类别的N*M的二维矩阵。
步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;
本实施中的每个类别,是训练文本语料库中的各个类别。本实施例中使用的语料库是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组整理好的中文语料库,该语料库中的文本是已分好类别的,每个类别的文本集使用一个文件夹存放,本实施例中选用了其中的8个类别(但本发明的分类类别不限于只为8个类别,可以通过调整实验中分类的参数设置,对应选用的语料库中的类别数,可实现不同类别数的文本分类实验)。中文文本语料库是已有的、已整理好的、可直接使用的资源,在网上即可下载。
步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;
步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;
步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集;并集,即保证特征词库中词的唯一性;
步骤8:建立文本表示模型;
其中向量空间模型使用最为广泛,主要实现思路是,根据特征词库,计算训练集中每篇文本对应的特征词的权重,最常使用的权重计算方法是TF-IDF(词频-逆文档频率),即将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词。
式中,TFIDF(wik)表示特征词tk在文本di中的权重为wik,cik表示特征词tk在文本di中出现的次数,N表示特征词总数,D表示训练集文本总数,nk表示特征词tk出现的文本数,β是一个常数项。
步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;
步骤10:分类器性能评估;
针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。
其中,召回率、准确率、F1值的计算公式为:
召回率
准确率
F1值
宏召回率
宏准确率
宏F1值
式中,M为类别数,A表示判定为属于该类且属于该类,B表示判定为属于该类但不属于该类,C表示判定为不属于该类但属于该类,D表示判定为不属于该类且不属于该类;Ri表示类别i的召回率,Pi表示类别i的准确率,F1i表示类别i的F1值。
本发明提出的一种基于类内类间文档频和词频统计的特征选择方法,与传统的CHI和IG特征选择方法相比,在一定程度上提高了分类的召回率、准确率、F1值,以下通过实验说明。实验中的中文分词使用的是中国科学院计算技术研究所研发的ICTCLAS汉语分词系统。特征选择取训练集特征词总个数的5%。分类算法选用的是SVM,是基于台湾大学林智仁教授等开发的LIBSVM工具箱。中文文本语料库使用的是复旦大学计算机信息与技术系国际数据库中心自然语言处理小组整理的中文语料库。选用其中的体育、历史、太空、政治、环境、经济、艺术、计算机,共8个类别。其中各类别文本的选取情况如下表所示:
表1语料库中训练集和测试集的选取情况
使用Java编程实现,实验平台为MyEclipse,服务器的配置如下Window7 64位操作系统,处理器为Intel(R)Core(TM)i5-2450M CPU@2.50GHz 2.5GHz,内存为4.00GB。
本发明提出的方法和传统CHI、IG特征选择方法在分类召回率、准确率、F1值的结果对比如表2所示:
表2文本分类中传统方法CHI、IG和本发明提出的DFCTFS的实验结果比
较
表3传统方法CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较
通过对表2分析,可以得出本文提出的DFCTFS特征选择,在所选的8个类别的分类效果的整体趋势上好于传统的CHI和IG。通过对表3分析,可以得出本文提出的DFCTFS特征选择方法,在分类的宏召回率上与CHI、IG相比分别提高了2.11%、1.54%,在宏准确率上分别提高了2.11%、1.36%,在宏F1值上分别提高了2.12%、1.5%。综合以上实验结果,可以得出本文提出的DFCTFS特征选择的分类效果与传统的CHI、IG相比,有一定程度的提高,说明了本发明的有效性。
请见图3,为CHI、IG和本发明提出的DFCTFS在分类召回率上的比较结果图;图3更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类召回率上相比,有一定程度的提高。
请见图4,为CHI、IG和本发明提出的DFCTFS在分类准确率上的比较结果图;图4更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类准确率上相比,有一定程度的提高。
请见图5,为中CHI、IG和本发明提出的DFCTFS在分类F1值上的比较结果图;图5更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的分类F1值上相比,有一定程度的提高。
请见图6,为CHI、IG和本发明提出的DFCTFS在整体分类效果上的比较结果图;图6更直观地说明本发明提出的DFCTFS与传统的特征选择方法CHI、IG在实验所选8个类别的整体分类效果上,通过宏召回率,宏准确率,宏F1值相比,有一定程度的提高。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (6)
1.一种基于类内类间文档频和词频统计的特征选择方法,其特征在于,包括以下步骤:
步骤1:训练集中的文本经过分词、去停用词后由词项表示,记为原始特征空间;输入训练集原始所有的特征词,其中原始特征空间中特征词记为tk,0≤k≤N,N为原始特征空间中特征词总数;
步骤2:综合考虑特征词的文档频、词频以及特征词的类间集中度、类内分散度,构造出基于类内类间文档频和词频统计的特征选择评估函数,用于计算类内类间文档频和词频统计值DFCTFS;
步骤3:依据所得原始特征空间,构造一个特征词、类别的二维矩阵,其中行代表特征词,列代表类别,矩阵中的元素为DFCTFS值;
步骤4:依据训练集各类别中各特征词的DFCTFS值,对训练集每个类别中的特征词进行降序排列;
步骤5:获得训练集中总类别数M以及训练集中特征词的总个数N,取一定比例的特征词,记为numWords,则各类别中选择的特征词个数num为numWords除以M;
步骤6:训练集各类别中都依据步骤5中所得num值,选取该类别中按DFCTFS值降序排列后的前num个的特征词组成该类别的特征词库;
步骤7:得到训练集的特征词库,即为各类别所得特征词库的并集。
2.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤2中所述基于类内类间文档频和词频统计的特征选择评估函数为:
式中,DFCTFS(tk,Ci)表示特征词tk在类别Ci中的类内类间文档频和词频统计值DFCTFS,DF(tk,Ci)表示特征词tk在类别Ci中出现的文本数,DF(tk)表示特征词tk在训练集所有类别中出现的文本数总和,DF(t,Ci)表示类别Ci中所有特征词出现的文本数的总和,TF(tk,Ci)表示特征词tk在类别Ci中出现的次数,numDocsi表示类别Ci的文本数,M表示类别数。
3.根据权利要求1所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤3的具体实现包括以下步骤:
步骤3.1:针对训练集中的各个类别,统计特征词tk在第Ci类别中出现的文本数DF(tk,Ci)和次数TF(tk,Ci);其中,k=1...N,N为特征词总数;i=1...M,M为类别数;
步骤3.2:根据tk,Ci定位到二维矩阵相应位置,利用基于类内类间文档频和词频统计的特征选择评估函数,计算Ci类别的特征词tk的DFCTFS值,从而构造出训练集的特征词、类别的N*M的二维矩阵。
4.根据权利要求1-3任意一项所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,所述特征选择方法的有效性评估,包括以下步骤:
步骤8:建立文本表示模型;
根据特征词库,计算训练集中每篇文本对应的特征词的权重,将训练集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
步骤9:使用分类算法分类;对训练集使用分类算法进行分类器训练,得到分类模型;
步骤10:分类器性能评估;
针对测试集,经过分词、去停用词后由词项表示,并计算测试集中每篇文本对应的特征词的权重,将测试集向量化后形成一个二维矩阵,每一行代表一篇文本,每一列代表特征词库中的一个特征词;
利用训练得到的分类模型,对测试集进行分类,利用召回率、准确率、F1值,实现对分类器的性能评价。
5.根据权利要求4所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤8中所述计算特征词权重公式为:
式中,TFIDF(wik)表示特征词tk在文本di中的权重为wik,cik表示特征词tk在文本di中出现的次数,N表示特征词总数,D表示训练集文本总数,nk表示特征词tk出现的文本数,β是一个常数项。
6.根据权利要求4所述的基于类内类间文档频和词频统计的特征选择方法,其特征在于,步骤10中所述召回率、准确率、F1值的计算公式为:
召回率
准确率
F1值
宏召回率
宏准确率
宏F1值
式中,M为类别数,A表示判定为属于该类且属于该类,B表示判定为属于该类但不属于该类,C表示判定为不属于该类但属于该类,D表示判定为不属于该类且不属于该类;Ri表示类别i的召回率,Pi表示类别i的准确率,F1i表示类别i的F1值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810131876.8A CN108491429A (zh) | 2018-02-09 | 2018-02-09 | 一种基于类内类间文档频和词频统计的特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810131876.8A CN108491429A (zh) | 2018-02-09 | 2018-02-09 | 一种基于类内类间文档频和词频统计的特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108491429A true CN108491429A (zh) | 2018-09-04 |
Family
ID=63340204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810131876.8A Pending CN108491429A (zh) | 2018-02-09 | 2018-02-09 | 一种基于类内类间文档频和词频统计的特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491429A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522549A (zh) * | 2018-10-30 | 2019-03-26 | 云南电网有限责任公司信息中心 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
CN109558588A (zh) * | 2018-11-09 | 2019-04-02 | 广东原昇信息科技有限公司 | 信息流素材创意文本的特征提取方法 |
CN109800296A (zh) * | 2019-01-21 | 2019-05-24 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN110069630A (zh) * | 2019-03-20 | 2019-07-30 | 重庆信科设计有限公司 | 一种改进的互信息特征选择方法 |
CN110096710A (zh) * | 2019-05-09 | 2019-08-06 | 董云鹏 | 一种文章分析及自论证的方法 |
CN110110328A (zh) * | 2019-04-26 | 2019-08-09 | 北京零秒科技有限公司 | 文本处理方法及装置 |
CN110135592A (zh) * | 2019-05-16 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 分类效果确定方法、装置、智能终端及存储介质 |
CN110609938A (zh) * | 2019-08-15 | 2019-12-24 | 平安科技(深圳)有限公司 | 文本热点的发现方法、装置及计算机可读存储介质 |
CN111090997A (zh) * | 2019-12-20 | 2020-05-01 | 中南大学 | 一种基于分级词项的地质文档特征词项排序方法与装置 |
CN111310451A (zh) * | 2018-12-10 | 2020-06-19 | 北京沃东天骏信息技术有限公司 | 敏感词词典生成方法、装置及存储介质和电子设备 |
CN111709439A (zh) * | 2020-05-06 | 2020-09-25 | 西安理工大学 | 基于词频偏差率因子的特征选择方法 |
CN113032564A (zh) * | 2021-03-22 | 2021-06-25 | 建信金融科技有限责任公司 | 特征提取方法、装置、电子设备以及存储介质 |
CN113157912A (zh) * | 2020-12-24 | 2021-07-23 | 航天科工网络信息发展有限公司 | 一种基于机器学习的文本分类方法 |
CN114896398A (zh) * | 2022-05-05 | 2022-08-12 | 南京邮电大学 | 一种基于特征选择的文本分类系统及方法 |
US11526754B2 (en) | 2020-02-07 | 2022-12-13 | Kyndryl, Inc. | Feature generation for asset classification |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN104391835A (zh) * | 2014-09-30 | 2015-03-04 | 中南大学 | 文本中特征词选择方法及装置 |
CN105512311A (zh) * | 2015-12-14 | 2016-04-20 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
CN105893388A (zh) * | 2015-01-01 | 2016-08-24 | 成都网安科技发展有限公司 | 一种基于类间区分度及类内高表征度的文本特征提取方法 |
-
2018
- 2018-02-09 CN CN201810131876.8A patent/CN108491429A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103106275A (zh) * | 2013-02-08 | 2013-05-15 | 西北工业大学 | 基于特征分布信息的文本分类特征筛选方法 |
CN104391835A (zh) * | 2014-09-30 | 2015-03-04 | 中南大学 | 文本中特征词选择方法及装置 |
CN105893388A (zh) * | 2015-01-01 | 2016-08-24 | 成都网安科技发展有限公司 | 一种基于类间区分度及类内高表征度的文本特征提取方法 |
CN105512311A (zh) * | 2015-12-14 | 2016-04-20 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
Non-Patent Citations (1)
Title |
---|
万斌候: ""文本分类中的特征降维方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109522549A (zh) * | 2018-10-30 | 2019-03-26 | 云南电网有限责任公司信息中心 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
CN109522549B (zh) * | 2018-10-30 | 2022-06-10 | 云南电网有限责任公司信息中心 | 基于Web采集与文本特征均衡分布的语料库构建方法 |
CN109558588A (zh) * | 2018-11-09 | 2019-04-02 | 广东原昇信息科技有限公司 | 信息流素材创意文本的特征提取方法 |
CN109558588B (zh) * | 2018-11-09 | 2023-03-31 | 广东原昇信息科技有限公司 | 信息流素材创意文本的特征提取方法 |
CN111310451A (zh) * | 2018-12-10 | 2020-06-19 | 北京沃东天骏信息技术有限公司 | 敏感词词典生成方法、装置及存储介质和电子设备 |
CN109800296B (zh) * | 2019-01-21 | 2022-03-01 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN109800296A (zh) * | 2019-01-21 | 2019-05-24 | 四川长虹电器股份有限公司 | 一种基于用户真实意图的语意模糊识别方法 |
CN110069630A (zh) * | 2019-03-20 | 2019-07-30 | 重庆信科设计有限公司 | 一种改进的互信息特征选择方法 |
CN110110328A (zh) * | 2019-04-26 | 2019-08-09 | 北京零秒科技有限公司 | 文本处理方法及装置 |
CN110110328B (zh) * | 2019-04-26 | 2023-09-01 | 北京零秒科技有限公司 | 文本处理方法及装置 |
CN110096710A (zh) * | 2019-05-09 | 2019-08-06 | 董云鹏 | 一种文章分析及自论证的方法 |
CN110096710B (zh) * | 2019-05-09 | 2022-12-30 | 董云鹏 | 一种文章分析及自论证的方法 |
CN110135592A (zh) * | 2019-05-16 | 2019-08-16 | 腾讯科技(深圳)有限公司 | 分类效果确定方法、装置、智能终端及存储介质 |
CN110135592B (zh) * | 2019-05-16 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 分类效果确定方法、装置、智能终端及存储介质 |
CN110609938A (zh) * | 2019-08-15 | 2019-12-24 | 平安科技(深圳)有限公司 | 文本热点的发现方法、装置及计算机可读存储介质 |
CN111090997A (zh) * | 2019-12-20 | 2020-05-01 | 中南大学 | 一种基于分级词项的地质文档特征词项排序方法与装置 |
US11526754B2 (en) | 2020-02-07 | 2022-12-13 | Kyndryl, Inc. | Feature generation for asset classification |
US11748621B2 (en) | 2020-02-07 | 2023-09-05 | Kyndryl, Inc. | Methods and apparatus for feature generation using improved term frequency-inverse document frequency (TF-IDF) with deep learning for accurate cloud asset tagging |
CN111709439A (zh) * | 2020-05-06 | 2020-09-25 | 西安理工大学 | 基于词频偏差率因子的特征选择方法 |
CN111709439B (zh) * | 2020-05-06 | 2023-10-20 | 深圳万知达科技有限公司 | 基于词频偏差率因子的特征选择方法 |
CN113157912A (zh) * | 2020-12-24 | 2021-07-23 | 航天科工网络信息发展有限公司 | 一种基于机器学习的文本分类方法 |
CN113032564A (zh) * | 2021-03-22 | 2021-06-25 | 建信金融科技有限责任公司 | 特征提取方法、装置、电子设备以及存储介质 |
CN113032564B (zh) * | 2021-03-22 | 2023-05-30 | 建信金融科技有限责任公司 | 特征提取方法、装置、电子设备以及存储介质 |
CN114896398A (zh) * | 2022-05-05 | 2022-08-12 | 南京邮电大学 | 一种基于特征选择的文本分类系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491429A (zh) | 一种基于类内类间文档频和词频统计的特征选择方法 | |
Nguyen et al. | Comparative study of sentiment analysis with product reviews using machine learning and lexicon-based approaches | |
CN104750844B (zh) | 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置 | |
Chuang et al. | Termite: Visualization techniques for assessing textual topic models | |
CN104391835B (zh) | 文本中特征词选择方法及装置 | |
Sahu et al. | Feature engineering and ensemble-based approach for improving automatic short-answer grading performance | |
CN101625680B (zh) | 面向专利领域的文档检索方法 | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN109471933A (zh) | 一种文本摘要的生成方法、存储介质和服务器 | |
Shetty et al. | Automatic extractive text summarization using K-means clustering | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
Falasari et al. | Optimize naïve bayes classifier using chi square and term frequency inverse document frequency for amazon review sentiment analysis | |
Zhang et al. | Continuous word embeddings for detecting local text reuses at the semantic level | |
CN107423371A (zh) | 一种文本正负类情感分类方法 | |
Budhiraja et al. | A supervised learning approach for heading detection | |
CN106503153B (zh) | 一种计算机文本分类体系 | |
Habibi et al. | DeepTable: a permutation invariant neural network for table orientation classification | |
Abbasi | Intelligent feature selection for opinion classification | |
Akkuş et al. | Categorization of turkish news documents with morphological analysis | |
CN113626604B (zh) | 基于最大间隔准则的网页文本分类系统 | |
Ali et al. | An Improved FakeBERT for Fake News Detection. | |
Bay et al. | Feature selection for enhanced author identification of Turkish text | |
CN114996446B (zh) | 一种文本分类方法、装置及存储介质 | |
Al-Yahya | A Comparative Study of Machine Learning Methods for Genre Identification of Classical Arabic Text. | |
Adeyiga et al. | Fake News Detection Using a Logistic Regression Model and Natural Language Processing Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180904 |