8000 GitHub - cyzforgithub/LDA-SVM: 使用LDA+SVM进行文本的分类
[go: up one dir, main page]
More Web Proxy on the site http://driver.im/
Skip to content

cyzforgithub/LDA-SVM

 
 

Repository files navigation

LDA-SVM

  • 使用LDA+SVM进行文本的分类
  • 使用TF-IDF 表示文本的缺点:
     1. 没有考虑文本中词的词序信息(也就是语义)。
     2. 会出现数据稀疏的情况
  • 我采用文本的隐含主题,构造文本的向量表示,避免了文本向量表示数据稀疏的问题。实验的准确度能够达到 87%
  • 数据集是搜狗新闻文本,想要数据集的可以添加我的 qq:2590193099
文件的说明:
	1.topic 文件夹是不同主题维数的矩阵的pickle存储
	2.tmp 是语料库的经过处理后的存储路径
	3.best_params.json是每个主题的最优化参数的存储
	4.pickle 每个人名的目标标签的存储
	5.param_result 文件夹是不同主题维数的和调参的结果存储
	6.tag是原始的语料库的文件
	7.preprocess是原始文件经过处理后(去掉数字和合并标题和content等操作)的文件存储路径

About

使用LDA+SVM进行文本的分类

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 54.3%
  • Shell 45.7%
0