CN109670037A - 基于主题模型和粗糙集的K-means文本聚类方法 - Google Patents
基于主题模型和粗糙集的K-means文本聚类方法 Download PDFInfo
- Publication number
- CN109670037A CN109670037A CN201811324306.7A CN201811324306A CN109670037A CN 109670037 A CN109670037 A CN 109670037A CN 201811324306 A CN201811324306 A CN 201811324306A CN 109670037 A CN109670037 A CN 109670037A
- Authority
- CN
- China
- Prior art keywords
- theme
- text
- reduction
- topic model
- clustering method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于主题模型和粗糙集的K‑means文本聚类方法。针对K‑means算法的缺点提出对初始中心点的优化方法,使用LDA主题模型,通过词项在文档级中的共现,有效地提取文本中的语义信息,同时将词空间转化为主题空间,实现主题降维,然后结合粗糙集知识约简理论,删除冗余主题特征,从而提高主题特征提取效率,优化初始中心点,提高K‑means文本聚类效果。
Description
技术领域
本发明涉及文本聚类领域,尤其涉及一种基于主题模型和粗糙集的K-means文本聚类方法。
背景技术
随着网络技术的发展和应用,信息资源爆炸式增长,文本挖掘、信息过滤和信息搜索的研究出现了前所未有的前景。因此,聚类技术正成为文本信息挖掘技术的核心。文本聚类是文本挖掘中用来发现数据分布及其隐含数据模式的一项重要技术。聚类是通过将具有相似性的数据划分成不同的组来实现的,以便每个集群中的元素共享一些共同特征,通常根据定义的距离度量远近。K-means聚类是一种基于划分的经典聚类算法,因其原理简单,易于实现,收敛速度快等优点而得到广泛应用。然而这种算法对不同的初始值会导致不同的聚类结果,容易陷入局部最小值,对离群敏感等缺点。针对K-means算法的缺点提出对初始中心点的优化方法,使用LDA主题模型,通过词项在文档级中的共现,有效地提取文本中的语义信息,同时将词空间转化为主题空间,实现主题降维,然后结合粗糙集知识约简理论,删除冗余的主题特征,提高主题特征提取效率,优化初始中心点的选取,提高K-means文本聚类效果。
发明内容
本发明的目的在于避免现有技术的不足之处而提供一种基于主题模型和粗糙集的K-means文本聚类方法。
本发明的目的可以通过采用如下的技术措施来实现,设计一种基于主题模型和粗糙集的K-means文本聚类方法,包括步骤:选取文本集,并进行文本向量化,将文本集表示为文本-词项矩阵;利用LDA主题模型对文本-词项矩阵进行文本建模,对建模参数进行估计,得到文档-主题矩阵,同时产生低维主题特征;其中,低维主题特征表示文本集中的每一个词的出现的主题概率;将文档-主题矩阵转换为主题词项决策系统,利用邻域粗糙集进行主题特征的约简,根据主题的重要度,得到主题的约简集合;将主题约简集合进行主题值的约简,得到主题完全约简集合,优化了初始中心点的选取;对主题完全简约集合进行K-means文本聚类。
其中,在利用LDA主题模型对文本-词项矩阵进行文本建模的步骤中,包括步骤:从文档集中的一篇文档所对应的主题集中随机抽取出一个主题,从抽取到的主题所对应的词语集中随机的抽取出一个词语,重复进行上述操作,直到完全遍历文档中所有的词;利用概率统计的思想对文档集进行建模,得到两个矩阵:文本-主题矩阵和主题-词矩阵,以挖掘文本潜在的语义信息。
其中,在对文本集进行文本向量化的步骤之前,还包括对文本集进行预处理的步骤;其中,预处理的方式至少包括结巴分词和去停用词。
其中,在对主题完全简约集合进行K-means文本聚类的步骤中,K-means算法过程包括以下步骤,假设要把文本集分为c个类别:
随机选择c个类的初始中心;
在第K次迭代中,对任意一个样本,求其到c个类别初始中心各中心的距离,并将样本归到距离最短的中心所在的类;
利用均值等方法更新该类的中心值;
利用前述步骤更新所有的c个聚类中心,如果聚类中心值保持不变,即目标函数收敛,则停止迭代。
其中,在利用邻域粗糙集进行主题特征的约简的步骤中,主题特征的约简方式包括主题约简和主题值的约简。
其中,在根据主题的重要度,得到主题的约简集合的步骤中,约简计算过程中通过判断主题重要度是否大于零而得出约简集合,将大于零的主题放入约简集合中。
其中,计算主题重要度的方法是计算属性依赖度的方法,具体步骤为:计算主题子集下的正域样本个数,根据计算出来的正域,计算每个主题的属性依赖度之差,得到每个主题的重要度。
其中,在对完全简约集合进行K-means文本聚类的步骤之后,还包括聚类评价的步骤。
区别于现有技术,本发明的基于主题模型和粗糙集的K-means文本聚类方法针对K-means算法的缺点提出对初始中心点的优化方法,使用LDA主题模型,通过词项在文档级中的共现,有效地提取文本中的语义信息,同时将词空间转化为主题空间,实现主题降维,然后结合粗糙集知识约简理论,删除冗余主题,优化初始中心点的选取,提高k-means文本聚类效果。
附图说明
图1是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的流程示意图;
图2是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的逻辑示意图;
图3是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法中文本-主题矩阵模型的结构示意图。
具体实施方式
下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参阅图1和图2,图1是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的流程示意图;图2是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的逻辑示意图。该方法的步骤包括:
S110:选取文本集,并进行文本向量化,将文本集表示为文本-词项矩阵。文本-主题矩阵的模型结构如图3所示。由图3可知,LDA主题模型会对文档集中每一个词进行强行分配主题,因此会保留非作用的主题,影响主题的分布,导致主题太过宽泛的问题。
S120:利用LDA主题模型对文本-词项矩阵进行文本建模,对建模参数进行估计,得到文档-主题矩阵,同时产生低维主题特征;其中,低维主题特征表示文本集中的每一个词的出现的主题概率。
S130:将文档-主题矩阵转换为主题词项决策系统,利用邻域粗糙集进行主题特征的约简,根据主题的重要度,得到主题的约简集合。
将文档-主题矩阵转换为主题词项决策系统TDS=(TU,TC∪D,V,f),利用邻域粗糙集进行主题特征的约简,其中TU是含有N个主题的M篇文章,即文本-主题矩阵,也就是论域,TC是K个主题,即属性集合,D是文本类别,即决策属性,V是主题值,f是一个信息函数,用于将主题中的值分配给词项。对于第K个主题,fK:TC→VK,VK是主题的值域。
对得到的文档-主题矩阵,利用邻域粗糙集进行主题特征的约简,包括主题约简和主题值的约简,以达到优化出初始中心点的目的。计算主题子集下的正域样本个数,根据计算出来的正域POSk(D),然后计算每个主题间的依赖度之差,从而得到每个主题的重要度SIG,然后手动输入重要度下限,EFC是重要度下限的控制参数,取接近于零的数。可以看出在算法中,保留了主题重要度最大的那个,也就是保证了核不被约简。由此可知,邻域粗糙集可以用来评价数据对于分类的重要性。
S140:将主题约简集合RED进行主题值的约简,得到主题完全约简集合RED'。
本发明引入邻域粗糙集模型,对冗余主题特征进行约简,达到优化初始中心点的目的。粗糙集将要处理的问题描述成一个消息系统,信息系统DT(U,C∪D,V,f)称为一个决策系统,其中,U为样本集合,也称为论域{χ1,χ2,...,χn},A=C∪D为属性集合,其中C是条件属性集合,也称为特征集合{a1,a2,...,am},用来描述每一个样本的特征信息,D表示决策属性集合。f表示决策系统的信息函数,fa为属性a的信息函数,V是信息函数f的值域。对于数值型数据,通过计算样本间的距离来判断其相似程度和样本间的近邻关系。
S150:对主题完全简约集合进行K-means文本聚类。
其中,在利用LDA主题模型对文本-词项矩阵进行文本建模的步骤中,包括步骤:从文档集中的一篇文档所对应的主题集中随机抽取出一个主题,从抽取到的主题所对应的词语集中随机的抽取出一个词语,重复进行上述操作,直到完全遍历文档中所有的词;利用概率统计的思想对文档集进行建模,得到两个矩阵:文本-主题矩阵和主题-词矩阵,以挖掘文本潜在的语义信息。
其中,在对文本集进行文本向量化的步骤之前,还包括对文本集进行预处理的步骤;其中,预处理的方式至少包括结巴分词和去停用词。
其中,在对完全简约集合进行K-means文本聚类的步骤中,K-means算法过程包括以下步骤,假设要把文本集分为c个类别:
随机选择c个类的初始中心;
在第K次迭代中,对任意一个样本,求其到c个类别初始中心各中心的距离,并将样本归到距离最短的中心所在的类;
利用均值等方法更新该类的中心值;
利用前述步骤更新所有的c个聚类中心,如果聚类中心值保持不变,即目标函数收敛,则停止迭代。
其中,在利用邻域粗糙集进行主题特征的约简的步骤中,主题特征的约简方式包括主题约简和主题值的约简。
其中,在根据主题的重要度,得到主题的约简集合的步骤中,约简计算过程中通过判断主题重要度是否大于零而得出约简集合,将大于零的主题放入约简集合中。
其中,计算主题重要度的方法是计算属性依赖度的方法,具体步骤为:计算主题子集下的正域样本个数,根据计算出来的正域,计算每个主题的属性依赖度之差,得到每个主题的重要度。
本发明采用的计算重要度的方法是计算属性依赖度的方法,分类类别D对文本主题TC的依赖度为
主题决策系统经属性约简后得到一个相对约简的关系数据表RED(B)=(TUB,TB∪D,V,f),在RED(B)中,冗余主题被约简,然后将RED(B)中的每一个主题视为一个决策规则dX,X∈TUB且X匹配规则在此主题决策规则集的基础上进行主题值的约简。
其中,在对主题完全简约集合进行K-means文本聚类的步骤之后,还包括聚类评价的步骤。
具体的,利用F值评价聚类结果,它是准确率(Precision)和召回率(Recall)两者的调和平均,给定预定义类别i和聚类类别j,计算公式如下:
准确率P(i,j)=Nij/Nj
召回率R(i,j)=Nij/Ni
其中,Nij是聚类类别j中包含预定义类别i的文本个数,Nj是聚类类别j中实际的文本个数,Ni是给定预定义类别i中本应该有的文本个数。
聚类结果的评价公式如下:
其中,n是测试文本的个数。可以看出,F值越大,聚类效果越好。
为了验证本文算法的有效性,选择三种改进的k-means文本聚类算法和不同模型进行聚类效果对比实验。选用的数据集为复旦测试语料库,选取其中的艺术、经济和体育等十个类别的文本,共2000篇文章,每个类别200篇文章,每篇文本字数500到8000不等。由图可以看出,本文算法优于其它三种聚类算法,同时凸显了LDA主题模型与粗糙集结合应用在文本聚类方面的优势,验证该模型聚类效果较好。比较结果如下表所示。
方法 | F值(%) |
原始k-means | 73.67 |
粗糙集 | 79.54 |
LDA主题模型 | 84.19 |
算法1 | 87.31 |
算法2 | 78.68 |
算法3 | 85.32 |
本发明方法 | 92.03 |
区别于现有技术,本发明的基于主题模型和粗糙集的K-means文本聚类方法针对K-means算法的缺点提出对初始中心点的优化方法,使用LDA主题模型,通过词项在文档级中的共现,有效地提取文本中的语义信息,同时将词空间转化为主题空间,实现主题降维,然后结合粗糙集知识约简理论,删除冗余主题特征,提高主题特征提取效率,优化初始中心点,提高k-means文本聚类效果。
以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (8)
1.一种基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,包括:
选取文本集,并进行文本向量化,将文本集表示为文本-词项矩阵;
利用LDA主题模型对文本-词项矩阵进行文本建模,对建模参数进行估计,得到文档-主题矩阵,同时产生低维主题特征;其中,低维主题特征表示文本集中的每一个词的出现的主题概率;
将文档-主题矩阵转换为主题词项决策系统,利用邻域粗糙集进行主题特征的约简,根据主题的重要度,得到主题的约简集合;
将主题约简集合进行主题值的约简,得到主题完全约简集合;
对完全简约集合进行K-means文本聚类。
2.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,在利用LDA主题模型对文本-词项矩阵进行文本建模的步骤中,包括步骤:
利用概率统计的思想对文档集进行建模,得到两个矩阵:文本-主题矩阵和主题-词矩阵,以挖掘文本潜在的语义信息。
从文档集中的一篇文档所对应的主题集中随机抽取出一个主题,从抽取到的主题所对应的词语集中随机的抽取出一个词语,重复进行上述操作,直到完全遍历文档中所有的词。
3.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,在对文本集进行文本向量化的步骤之前,还包括对文本集进行预处理的步骤;其中,预处理的方式至少包括结巴分词和去停用词。
4.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,在对主题完全约简集合进行K-means文本聚类的步骤中,K-means算法过程包括以下步骤,假设要把文本集分为c个类别:
随机选择c个类别的初始中心;
在第K次迭代中,对任意一个文本,求其到c个类别初始中心各中心的距离,并将样本归到距离最短的中心所在的类;
利用均值等方法更新该类的中心值;
利用前述步骤更新所有的c个聚类中心,如果聚类中心值保持不变,即目标函数收敛,则停止迭代。
5.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,在利用邻域粗糙集进行主题特征的约简的步骤中,主题特征的约简方式包括主题约简和主题值的约简。
6.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,在根据主题的重要度,得到主题的约简集合的步骤中,约简计算过程中通过判断主题重要度是否大于零而得出约简集合,将大于零的主题放入约简集合中。
7.根据权利要求6所述的基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,计算主题重要度的方法是计算属性依赖度的方法,具体步骤为:计算主题子集下的正域样本个数,根据计算出来的正域,计算每个主题间的依赖度之差,得到每个主题的重要度。
8.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法,其特征在于,在对完全简约集合进行K-means文本聚类的步骤之后,还包括聚类评价的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811324306.7A CN109670037A (zh) | 2018-11-08 | 2018-11-08 | 基于主题模型和粗糙集的K-means文本聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811324306.7A CN109670037A (zh) | 2018-11-08 | 2018-11-08 | 基于主题模型和粗糙集的K-means文本聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109670037A true CN109670037A (zh) | 2019-04-23 |
Family
ID=66142065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811324306.7A Pending CN109670037A (zh) | 2018-11-08 | 2018-11-08 | 基于主题模型和粗糙集的K-means文本聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109670037A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598192A (zh) * | 2019-06-28 | 2019-12-20 | 太原理工大学 | 一种基于邻域粗糙集的文本特征约简方法 |
CN111078852A (zh) * | 2019-12-09 | 2020-04-28 | 武汉大学 | 基于机器学习的高校前沿科研团队探测系统 |
CN111259110A (zh) * | 2020-01-13 | 2020-06-09 | 武汉大学 | 高校专利个性化推荐系统 |
CN112364935A (zh) * | 2020-11-30 | 2021-02-12 | 北京明略昭辉科技有限公司 | 数据清洗方法、系统、计算机设备及存储介质 |
CN112800253A (zh) * | 2021-04-09 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 数据聚类方法、相关设备及存储介质 |
CN117520529A (zh) * | 2023-12-04 | 2024-02-06 | 四川三江数智科技有限公司 | 一种动力电池文本主题挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870751A (zh) * | 2012-12-18 | 2014-06-18 | 中国移动通信集团山东有限公司 | 入侵检测方法及系统 |
CN107085164A (zh) * | 2017-03-22 | 2017-08-22 | 清华大学 | 一种电网故障类型确定方法及装置 |
CN108197295A (zh) * | 2018-01-22 | 2018-06-22 | 重庆邮电大学 | 基于多粒度属性树的属性约简在文本分类中的应用方法 |
-
2018
- 2018-11-08 CN CN201811324306.7A patent/CN109670037A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870751A (zh) * | 2012-12-18 | 2014-06-18 | 中国移动通信集团山东有限公司 | 入侵检测方法及系统 |
CN107085164A (zh) * | 2017-03-22 | 2017-08-22 | 清华大学 | 一种电网故障类型确定方法及装置 |
CN108197295A (zh) * | 2018-01-22 | 2018-06-22 | 重庆邮电大学 | 基于多粒度属性树的属性约简在文本分类中的应用方法 |
Non-Patent Citations (4)
Title |
---|
HONGXIN WAN 等: "An Algorithm of LDA Topic Reduction Based on Rough Set", 《APPLIED MECHANICS AND MATERIALS》 * |
六月麦茬: "粗糙集,邻域粗糙集与实域粗糙集概述", 《HTTPS://BLOG.CSDN.NET/LIUYUEMAICHA/ARTICLE/DETAILS/52355787》 * |
王春龙 等: "基于 LDA 的改进 K-means 算法在文本聚类中的应用", 《计算机应用》 * |
靳红伟 等: "基于邻域粗糙集的文本主题特征提取", 《科学技术与工程》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110598192A (zh) * | 2019-06-28 | 2019-12-20 | 太原理工大学 | 一种基于邻域粗糙集的文本特征约简方法 |
CN111078852A (zh) * | 2019-12-09 | 2020-04-28 | 武汉大学 | 基于机器学习的高校前沿科研团队探测系统 |
CN111259110A (zh) * | 2020-01-13 | 2020-06-09 | 武汉大学 | 高校专利个性化推荐系统 |
CN112364935A (zh) * | 2020-11-30 | 2021-02-12 | 北京明略昭辉科技有限公司 | 数据清洗方法、系统、计算机设备及存储介质 |
CN112800253A (zh) * | 2021-04-09 | 2021-05-14 | 腾讯科技(深圳)有限公司 | 数据聚类方法、相关设备及存储介质 |
CN112800253B (zh) * | 2021-04-09 | 2021-07-06 | 腾讯科技(深圳)有限公司 | 数据聚类方法、相关设备及存储介质 |
CN117520529A (zh) * | 2023-12-04 | 2024-02-06 | 四川三江数智科技有限公司 | 一种动力电池文本主题挖掘方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109670037A (zh) | 基于主题模型和粗糙集的K-means文本聚类方法 | |
CN106383877B (zh) | 一种社交媒体在线短文本聚类和话题检测方法 | |
CN104199857B (zh) | 一种基于多标签分类的税务文档层次分类方法 | |
CN102289522B (zh) | 一种对于文本智能分类的方法 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
CN106096066A (zh) | 基于随机近邻嵌入的文本聚类方法 | |
CN104615638B (zh) | 一种面向大数据的分布式密度聚类方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN105678607A (zh) | 一种基于改进的K-Means算法的订单分批方法 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN105022754A (zh) | 基于社交网络的对象分类方法及装置 | |
CN111078876A (zh) | 一种基于多模型集成的短文本分类方法和系统 | |
CN103218400A (zh) | 基于链接与文本内容的网络社区用户群划分方法 | |
CN109657063A (zh) | 一种海量环保人工上报事件数据的处理方法及存储介质 | |
CN102929906A (zh) | 基于内容特征和主题特征的文本分组聚类方法 | |
CN111641608A (zh) | 异常用户识别方法、装置、电子设备及存储介质 | |
CN111079427A (zh) | 一种垃圾邮件识别方法及系统 | |
Abinaya et al. | Spam detection on social media platforms | |
CN110084376B (zh) | 对数据自动分箱的方法及装置 | |
CN115858906A (zh) | 企业搜索方法、装置、设备、计算机存储介质及程序 | |
CN106971005A (zh) | 一种云计算环境下基于MapReduce的分布式并行文本聚类方法 | |
CN108268461A (zh) | 一种基于混合分类器的文本分类装置 | |
CN109977131A (zh) | 一种房型匹配系统 | |
CN105787113A (zh) | 一种基于plm数据库面向dpipp工艺信息的挖掘算法 | |
CN105159905B (zh) | 基于转发关系的微博聚类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190423 |