CN109670037A

CN109670037A - 基于主题模型和粗糙集的K-means文本聚类方法

Info

Publication number: CN109670037A
Application number: CN201811324306.7A
Authority: CN
Inventors: 谢珺; 段利国; 郝晓燕; 梁凤梅; 续欣莹; 靳红伟
Original assignee: Taiyuan University of Technology
Current assignee: Taiyuan University of Technology
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2019-04-23

Abstract

本发明公开了一种基于主题模型和粗糙集的K‑means文本聚类方法。针对K‑means算法的缺点提出对初始中心点的优化方法，使用LDA主题模型，通过词项在文档级中的共现，有效地提取文本中的语义信息，同时将词空间转化为主题空间，实现主题降维，然后结合粗糙集知识约简理论，删除冗余主题特征，从而提高主题特征提取效率，优化初始中心点，提高K‑means文本聚类效果。

Description

基于主题模型和粗糙集的K-means文本聚类方法

技术领域

本发明涉及文本聚类领域，尤其涉及一种基于主题模型和粗糙集的K-means文本聚类方法。

背景技术

随着网络技术的发展和应用，信息资源爆炸式增长，文本挖掘、信息过滤和信息搜索的研究出现了前所未有的前景。因此，聚类技术正成为文本信息挖掘技术的核心。文本聚类是文本挖掘中用来发现数据分布及其隐含数据模式的一项重要技术。聚类是通过将具有相似性的数据划分成不同的组来实现的，以便每个集群中的元素共享一些共同特征，通常根据定义的距离度量远近。K-means聚类是一种基于划分的经典聚类算法，因其原理简单，易于实现，收敛速度快等优点而得到广泛应用。然而这种算法对不同的初始值会导致不同的聚类结果，容易陷入局部最小值，对离群敏感等缺点。针对K-means算法的缺点提出对初始中心点的优化方法，使用LDA主题模型，通过词项在文档级中的共现，有效地提取文本中的语义信息，同时将词空间转化为主题空间，实现主题降维，然后结合粗糙集知识约简理论，删除冗余的主题特征，提高主题特征提取效率，优化初始中心点的选取，提高K-means文本聚类效果。

发明内容

本发明的目的在于避免现有技术的不足之处而提供一种基于主题模型和粗糙集的K-means文本聚类方法。

本发明的目的可以通过采用如下的技术措施来实现，设计一种基于主题模型和粗糙集的K-means文本聚类方法，包括步骤：选取文本集，并进行文本向量化，将文本集表示为文本-词项矩阵；利用LDA主题模型对文本-词项矩阵进行文本建模，对建模参数进行估计，得到文档-主题矩阵，同时产生低维主题特征；其中，低维主题特征表示文本集中的每一个词的出现的主题概率；将文档-主题矩阵转换为主题词项决策系统，利用邻域粗糙集进行主题特征的约简，根据主题的重要度，得到主题的约简集合；将主题约简集合进行主题值的约简，得到主题完全约简集合，优化了初始中心点的选取；对主题完全简约集合进行K-means文本聚类。

其中，在利用LDA主题模型对文本-词项矩阵进行文本建模的步骤中，包括步骤：从文档集中的一篇文档所对应的主题集中随机抽取出一个主题，从抽取到的主题所对应的词语集中随机的抽取出一个词语，重复进行上述操作，直到完全遍历文档中所有的词；利用概率统计的思想对文档集进行建模，得到两个矩阵：文本-主题矩阵和主题-词矩阵，以挖掘文本潜在的语义信息。

其中，在对文本集进行文本向量化的步骤之前，还包括对文本集进行预处理的步骤；其中，预处理的方式至少包括结巴分词和去停用词。

其中，在对主题完全简约集合进行K-means文本聚类的步骤中，K-means算法过程包括以下步骤，假设要把文本集分为c个类别：

随机选择c个类的初始中心；

在第K次迭代中，对任意一个样本，求其到c个类别初始中心各中心的距离，并将样本归到距离最短的中心所在的类；

利用均值等方法更新该类的中心值；

利用前述步骤更新所有的c个聚类中心，如果聚类中心值保持不变，即目标函数收敛，则停止迭代。

其中，在利用邻域粗糙集进行主题特征的约简的步骤中，主题特征的约简方式包括主题约简和主题值的约简。

其中，在根据主题的重要度，得到主题的约简集合的步骤中，约简计算过程中通过判断主题重要度是否大于零而得出约简集合，将大于零的主题放入约简集合中。

其中，计算主题重要度的方法是计算属性依赖度的方法，具体步骤为：计算主题子集下的正域样本个数，根据计算出来的正域，计算每个主题的属性依赖度之差，得到每个主题的重要度。

其中，在对完全简约集合进行K-means文本聚类的步骤之后，还包括聚类评价的步骤。

区别于现有技术，本发明的基于主题模型和粗糙集的K-means文本聚类方法针对K-means算法的缺点提出对初始中心点的优化方法，使用LDA主题模型，通过词项在文档级中的共现，有效地提取文本中的语义信息，同时将词空间转化为主题空间，实现主题降维，然后结合粗糙集知识约简理论，删除冗余主题，优化初始中心点的选取，提高k-means文本聚类效果。

附图说明

图1是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的流程示意图；

图2是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的逻辑示意图；

图3是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法中文本-主题矩阵模型的结构示意图。

具体实施方式

下面结合具体实施方式对本发明的技术方案作进一步更详细的描述。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

参阅图1和图2，图1是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的流程示意图；图2是本发明提供的一种基于主题模型和粗糙集的K-means文本聚类方法的逻辑示意图。该方法的步骤包括：

S110：选取文本集，并进行文本向量化，将文本集表示为文本-词项矩阵。文本-主题矩阵的模型结构如图3所示。由图3可知，LDA主题模型会对文档集中每一个词进行强行分配主题，因此会保留非作用的主题，影响主题的分布，导致主题太过宽泛的问题。

S120：利用LDA主题模型对文本-词项矩阵进行文本建模，对建模参数进行估计，得到文档-主题矩阵，同时产生低维主题特征；其中，低维主题特征表示文本集中的每一个词的出现的主题概率。

S130：将文档-主题矩阵转换为主题词项决策系统，利用邻域粗糙集进行主题特征的约简，根据主题的重要度，得到主题的约简集合。

将文档-主题矩阵转换为主题词项决策系统TDS＝(TU,TC∪D，V,f)，利用邻域粗糙集进行主题特征的约简，其中TU是含有N个主题的M篇文章，即文本-主题矩阵，也就是论域，TC是K个主题，即属性集合，D是文本类别，即决策属性，V是主题值，f是一个信息函数，用于将主题中的值分配给词项。对于第K个主题，f_K:TC→V_K,V_K是主题的值域。

对得到的文档-主题矩阵，利用邻域粗糙集进行主题特征的约简，包括主题约简和主题值的约简，以达到优化出初始中心点的目的。计算主题子集下的正域样本个数，根据计算出来的正域POS_k(D)，然后计算每个主题间的依赖度之差，从而得到每个主题的重要度SIG，然后手动输入重要度下限，EFC是重要度下限的控制参数，取接近于零的数。可以看出在算法中，保留了主题重要度最大的那个，也就是保证了核不被约简。由此可知，邻域粗糙集可以用来评价数据对于分类的重要性。

S140：将主题约简集合_RED进行主题值的约简，得到主题完全约简集合RED'。

本发明引入邻域粗糙集模型，对冗余主题特征进行约简，达到优化初始中心点的目的。粗糙集将要处理的问题描述成一个消息系统，信息系统DT(U,C∪D，V,f)称为一个决策系统，其中，U为样本集合，也称为论域{χ₁,χ₂,...,χ_n}，A＝C∪D为属性集合，其中C是条件属性集合，也称为特征集合{a₁,a₂,...,a_m}，用来描述每一个样本的特征信息，D表示决策属性集合。f表示决策系统的信息函数，f_a为属性a的信息函数，V是信息函数f的值域。对于数值型数据，通过计算样本间的距离来判断其相似程度和样本间的近邻关系。

S150：对主题完全简约集合进行K-means文本聚类。

其中，在对完全简约集合进行K-means文本聚类的步骤中，K-means算法过程包括以下步骤，假设要把文本集分为c个类别：

随机选择c个类的初始中心；

利用均值等方法更新该类的中心值；

本发明采用的计算重要度的方法是计算属性依赖度的方法，分类类别D对文本主题TC的依赖度为

主题决策系统经属性约简后得到一个相对约简的关系数据表RED(B)＝(TU_B,TB∪D,V,f)，在RED(B)中，冗余主题被约简，然后将RED(B)中的每一个主题视为一个决策规则d_X，X∈TU_B且X匹配规则在此主题决策规则集的基础上进行主题值的约简。

其中，在对主题完全简约集合进行K-means文本聚类的步骤之后，还包括聚类评价的步骤。

具体的，利用F值评价聚类结果，它是准确率(Precision)和召回率(Recall)两者的调和平均，给定预定义类别i和聚类类别j，计算公式如下：

准确率P(i,j)＝N_ij/N_j

召回率R(i,j)＝N_ij/N_i

其中，N_ij是聚类类别j中包含预定义类别i的文本个数，N_j是聚类类别j中实际的文本个数，N_i是给定预定义类别i中本应该有的文本个数。

聚类结果的评价公式如下：

其中，n是测试文本的个数。可以看出，F值越大，聚类效果越好。

为了验证本文算法的有效性，选择三种改进的k-means文本聚类算法和不同模型进行聚类效果对比实验。选用的数据集为复旦测试语料库，选取其中的艺术、经济和体育等十个类别的文本，共2000篇文章，每个类别200篇文章，每篇文本字数500到8000不等。由图可以看出，本文算法优于其它三种聚类算法，同时凸显了LDA主题模型与粗糙集结合应用在文本聚类方面的优势，验证该模型聚类效果较好。比较结果如下表所示。

方法	F值(％)
		原始k-means	73.67
粗糙集	79.54
		LDA主题模型	84.19
算法1	87.31
		算法2	78.68
算法3	85.32
		本发明方法	92.03

区别于现有技术，本发明的基于主题模型和粗糙集的K-means文本聚类方法针对K-means算法的缺点提出对初始中心点的优化方法，使用LDA主题模型，通过词项在文档级中的共现，有效地提取文本中的语义信息，同时将词空间转化为主题空间，实现主题降维，然后结合粗糙集知识约简理论，删除冗余主题特征，提高主题特征提取效率，优化初始中心点，提高k-means文本聚类效果。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，包括：

选取文本集，并进行文本向量化，将文本集表示为文本-词项矩阵；

利用LDA主题模型对文本-词项矩阵进行文本建模，对建模参数进行估计，得到文档-主题矩阵，同时产生低维主题特征；其中，低维主题特征表示文本集中的每一个词的出现的主题概率；

将文档-主题矩阵转换为主题词项决策系统，利用邻域粗糙集进行主题特征的约简，根据主题的重要度，得到主题的约简集合；

将主题约简集合进行主题值的约简，得到主题完全约简集合；

对完全简约集合进行K-means文本聚类。

2.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，在利用LDA主题模型对文本-词项矩阵进行文本建模的步骤中，包括步骤：

利用概率统计的思想对文档集进行建模，得到两个矩阵：文本-主题矩阵和主题-词矩阵，以挖掘文本潜在的语义信息。

从文档集中的一篇文档所对应的主题集中随机抽取出一个主题，从抽取到的主题所对应的词语集中随机的抽取出一个词语，重复进行上述操作，直到完全遍历文档中所有的词。

3.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，在对文本集进行文本向量化的步骤之前，还包括对文本集进行预处理的步骤；其中，预处理的方式至少包括结巴分词和去停用词。

4.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，在对主题完全约简集合进行K-means文本聚类的步骤中，K-means算法过程包括以下步骤，假设要把文本集分为c个类别：

随机选择c个类别的初始中心；

在第K次迭代中，对任意一个文本，求其到c个类别初始中心各中心的距离，并将样本归到距离最短的中心所在的类；

利用均值等方法更新该类的中心值；

5.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，在利用邻域粗糙集进行主题特征的约简的步骤中，主题特征的约简方式包括主题约简和主题值的约简。

6.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，在根据主题的重要度，得到主题的约简集合的步骤中，约简计算过程中通过判断主题重要度是否大于零而得出约简集合，将大于零的主题放入约简集合中。

7.根据权利要求6所述的基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，计算主题重要度的方法是计算属性依赖度的方法，具体步骤为：计算主题子集下的正域样本个数，根据计算出来的正域，计算每个主题间的依赖度之差，得到每个主题的重要度。

8.根据权利要求1所述的基于主题模型和粗糙集的K-means文本聚类方法，其特征在于，在对完全简约集合进行K-means文本聚类的步骤之后，还包括聚类评价的步骤。