CN110414569B - 聚类实现方法及装置 - Google Patents
聚类实现方法及装置 Download PDFInfo
- Publication number
- CN110414569B CN110414569B CN201910596213.8A CN201910596213A CN110414569B CN 110414569 B CN110414569 B CN 110414569B CN 201910596213 A CN201910596213 A CN 201910596213A CN 110414569 B CN110414569 B CN 110414569B
- Authority
- CN
- China
- Prior art keywords
- data
- clustered
- clustering
- center
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/048—Fuzzy inferencing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Automation & Control Theory (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供一种聚类实现方法及装置,所述方法包括:获取多条待聚类数据,所述待聚类数据中包含精确匹配信息;确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;根据各所述数据集合中包含待聚类数据的数量确定聚类中心;根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。本公开通过确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,并根据各所述数据集合中包含待聚类数据的数量确定聚类中心,可以提高确定聚类中心的合理性,进而可以提高聚类算法的准确性。
Description
技术领域
本公开涉及数据挖掘技术领域,尤其涉及一种聚类实现方法及装置。
背景技术
聚类是指将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。聚类是数据挖掘的重要研究方向,在图像分析、文本检索、模式识别以及人工智能等领域都有广泛应用。
通用的聚类方法主要包括基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法。其中,K-means(也称为K均值)方法是目前采用的基于划分的经典聚类方法之一,其基本思想是:以空间中k个点为初始聚类中心进行聚类,对最靠近聚类中心的对象进行归类,进而通过迭代算法逐次更新各聚类中心的值,直至得到满意的聚类结果。
然而,上述指定初始聚类中心的方案无法确保选取的初始聚类中心能够代表数据的真实情况,会影响聚类的速度以及聚类结果的准确性。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种通信方法、装置及电子设备,以解决相关技术中的不足。
根据本公开实施例的第一方面,提供了一种聚类实现方法,上述方法包括:
获取多条待聚类数据,所述待聚类数据中包含精确匹配信息;
确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
在一实施例中,所述根据各所述数据集合中包含待聚类数据的数量确定聚类中心,包括:
将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列;
将排列后的前N个数据集合的聚类中心确定为聚类中心。
在一实施例中,所述根据所述聚类中心对所述多条待聚类数据进行聚类,包括:
基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心;
根据所述最近中心的计算结果,更新所述聚类中心;
返回执行所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心的操作,直至满足聚类迭代结束条件。
在一实施例中,所述待聚类数据中还包含模糊匹配信息;
所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心,包括:
基于所述聚类中心的信息矢量,计算与所述多条待聚类数据中各条待聚类数据的信息矢量分别对应的最近中心,所述信息矢量基于所述待聚类数据的精确匹配信息和模糊匹配信息生成。
在一实施例中,所述方法还包括:
从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据。
在一实施例中,所述方法还包括:
计算移除的已聚类数据与各个聚类中心的距离;
重新计算与所述移除的已聚类数据对应的最近中心;
若所述重新计算的最近中心与所述移除的已聚类数据之间的目标距离小于所述预设距离阈值,则将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中。
在一实施例中,所述方法还包括:
若所述目标距离大于或等于所述预设距离阈值,则将所述移除的已聚类数据划分至新的聚类中。
在一实施例中,所述待聚类数据包括程序调度栈的信息。
根据本公开实施例的第二方面,提供了一种聚类实现装置,所述装置包括:
聚类数据获取模块,用于获取多条待聚类数据,所述待聚类数据中包含精确匹配信息;
数据集合确定模块,用于确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
聚类中心确定模块,用于根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
目标聚类获取模块,用于根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
在一实施例中,所述聚类中心确定模块,包括:
数据集合排列单元,用于将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列;
聚类中心确定单元,用于将排列后的前N个数据集合的聚类中心确定为聚类中心。
在一实施例中,所述目标聚类获取模块,包括:
最近中心计算单元,用于基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心;
聚类中心更新单元,用于根据所述最近中心的计算结果,更新所述聚类中心;
目标聚类获取单元,用于返回执行所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心的操作,直至满足聚类迭代结束条件。
在一实施例中,所述待聚类数据中还包含模糊匹配信息;
所述最近中心计算单元,还用于:
基于所述聚类中心的信息矢量,计算与所述多条待聚类数据中各条待聚类数据的信息矢量分别对应的最近中心,所述信息矢量基于所述待聚类数据的精确匹配信息和模糊匹配信息生成。
在一实施例中,所述目标聚类获取模块,还包括:
已聚类数据移除单元,用于从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据。
在一实施例中,所述装置还包括已聚类数据重聚类模块;所述已聚类数据重聚类模块,包括:
中心距离计算单元,用于计算移除的已聚类数据与各个聚类中心的距离;
最近中心重算单元,用于重新计算与所述移除的已聚类数据对应的最近中心;
已聚类数据重聚类单元,用于当所述重新计算的最近中心与所述移除的已聚类数据之间的目标距离小于所述预设距离阈值时,将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中。
在一实施例中,所述已聚类数据重聚类单元,还用于当所述目标距离大于或等于所述预设距离阈值时,将所述移除的已聚类数据划分至新的聚类中。
在一实施例中,所述待聚类数据包括程序调度栈的信息。
根据本公开实施例的第三方面,提供了一种聚类实现设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现:
获取多条待聚类数据,所述待聚类数据中包含精确匹配信息;
确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
根据本公开实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器处理时实现:
获取多条待聚类数据,所述待聚类数据中包含精确匹配信息;
确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开中通过获取多条待聚类数据,并确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,然后根据各所述数据集合中包含待聚类数据的数量确定聚类中心,进而根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类,由于确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,并根据各所述数据集合中包含待聚类数据的数量确定聚类中心,可以提高确定聚类中心的合理性,进而可以提高聚类算法的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开根据一示例性实施例示出的聚类实现方法流程图;
图2是本公开根据一示例性实施例示出的如何确定聚类中心的流程图;
图3是本公开根据一示例性实施例示出的如何对多条待聚类数据进行聚类的流程图;
图4是本公开根据又一示例性实施例示出的聚类实现方法流程图;
图5是本公开根据一示例性实施例示出的聚类实现装置框图;
图6是本公开根据又一示例性实施例示出的聚类实现装置框图;
图7是本公开根据一示例性实施例示出的一种用于聚类实现装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本公开根据一示例性实施例示出的聚类实现方法流程图;该实施例可以用于具有数据处理功能的服务端(例如,一台服务器和多台服务器组成的服务器集群等)。如图1所示,该方法包括以下步骤S101-S104:
在步骤S101中,获取多条待聚类数据,所述待聚类数据中包含精确匹配信息。
在一实施例中,获取的多条待聚类数据中的每条待聚类数据均包含精确匹配信息,进而可以基于精确匹配信息是否完全相同来对各条待聚类数据进行分类。
在一实施例中,上述待聚类数据的类型可以由开发人员根据实际业务需要进行设置,本实施例对此不进行限定。
在一实施例中,上述待聚类数据可以包括程序调度栈信息,在此基础上,上述精确匹配信息可以包括程序调度栈信息的异常类型、异常所在的程序包名等,本实施例对此不进行限定。
在步骤S102中,确定具有相同精确匹配信息的待聚类数据构成的多个数据集合。
在一实施例中,当获取包含精确匹配信息的多条待聚类数据后,可以确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,也即,每个数据集合中的多条待聚类数据的精确匹配信息相同。
举例来说,当获取上述多条待聚类数据后,可以按照包含的精确匹配信息对该多条待聚类数据进行划分,以得到由具有相同精确匹配信息的待聚类数据构成的多个数据集合。
在步骤S103中,根据各所述数据集合中包含待聚类数据的数量确定聚类中心。
在一实施例中,当确定具有相同精确匹配信息的待聚类数据构成的多个数据集合后,可以根据各所述数据集合中包含待聚类数据的数量确定聚类中心。
在一实施例中,当确定上述多个数据集合后,可以统计各个数据集合中包含待聚类数据的数量,进而可以根据包含待聚类数据的数量的多少,确定聚类中心。
在一实施例中,根据各数据集合中包含待聚类数据的数量确定聚类中心的方式还可以参见下述图2所示实施例,在此先不进行详述。
在步骤S104中,根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
在一实施例中,当根据各所述数据集合中包含待聚类数据的数量确定聚类中心后,可以根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
在一实施例中,根据上述聚类中心对多条待聚类数据进行聚类的方式可以参见下述图3所示实施例,在此先不进行详述。
由上述描述可知,本实施例通过获取多条待聚类数据,并确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,然后根据各所述数据集合中包含待聚类数据的数量确定聚类中心,进而根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类,由于确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,并根据各所述数据集合中包含待聚类数据的数量确定聚类中心,可以提高确定聚类中心的合理性,进而可以提高聚类算法的准确性。
图2是本公开根据一示例性实施例示出的如何确定聚类中心的流程图;本实施例在上述实施例的基础上,以如何确定聚类中心为例进行示例性说明。如图2所示,上述步骤S103中所述根据各所述数据集合中包含待聚类数据的数量确定聚类中心,可以包括以下步骤S201-S202:
在步骤S201中,将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列。
在一实施例中,当确定具有相同精确匹配信息的待聚类数据构成的多个数据集合后,可以将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列。
举例来说,当确定具有相同精确匹配信息的待聚类数据构成的多个数据集合后,可以统计各个数据集合中包含待聚类数据的数量,进而可以将各个数据集合按照包含待聚类数据的数量从多至少的顺序进行排列。
在步骤S202中,将排列后的前N个数据集合的聚类中心确定为聚类中心。
在一实施例中,当将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列后,可以将排列后的前N个数据集合的聚类中心确定为聚类中心。
在一实施例中,N为正整数,且具体数值可以由开发人员根据实际业务需要进行设置,如设置为50、100或200等,本实施例对此不进行限定。
在一实施例中,上述N的数值还可以基于聚类中心的数目进行设置,本实施例对此不进行限定。
在一实施例中,当确定排列后的前N个数据集合后,可以确定该N个数据集合中每个集合的聚类中心,进而将该N个聚类中心确定为用于对上述多条待聚类数据进行聚类的聚类中心。
在一实施例中,上述每个集合的聚类中心的计算方式可以由开发人员根据业务需要进行设置,如可以通过计算每个集合中多条待聚类数据的均值来确定聚类中心,或采用现有聚类方法对每个集合中多条待聚类数据进行聚类得到聚类中心等,本实施例对此不进行限定。
由上述描述可知,本实施例通过将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列,并将排列后的前N个数据集合的聚类中心确定为聚类中心,可以实现基于包含待聚类数据的数量较多的数据集合确定聚类中心,由于避免了随机设置聚类中心,因而提高了确定聚类中心的合理性,进而可以提高聚类算法的准确性。
图3是本公开根据一示例性实施例示出的如何对多条待聚类数据进行聚类的流程图。本实施例在上述实施例的基础上,以如何对多条待聚类数据进行聚类为例进行示例性说明。如图3所示,上述步骤S104中所述根据所述聚类中心对所述多条待聚类数据进行聚类,可以包括以下步骤S301-S303:
在步骤S301中,基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心。
在一实施例中,当根据各所述数据集合中包含待聚类数据的数量确定聚类中心后,可以基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心。
在一实施例中,上述最近中心可以包括所述聚类中心中与每条待聚类数据距离最近的聚类中心。
举例来说,当确定上述聚类中心后,可以分别确定多条待聚类数据中每条待聚类数据与各个聚类中心之间的距离,进而将距离最近的聚类中心确定为该条待聚类数据的最近中心。
在一实施例中,所述待聚类数据中还可以包含模糊匹配信息,进而可以当确定多条待聚类数据的精确匹配信息相同的情况下,再基于模糊匹配信息是否相似(如,模糊信息之间的距离是否小于或等于预设阈值)来对该多条待聚类数据进行进一步分类。
举例来说,若待聚类数据为程序调度栈信息,则模糊匹配信息可以包括程序的函数调用堆栈backtrace信息等,本实施例对此不进行限定。
在此基础上,上述步骤S301可以包括:
基于所述聚类中心的信息矢量,计算与所述多条待聚类数据中各条待聚类数据的信息矢量分别对应的最近中心,其中,所述信息矢量基于所述待聚类数据的精确匹配信息和模糊匹配信息生成。
举例来说,当确定上述聚类中心后,可以基于聚类中心的精确匹配信息和模糊匹配信息生成聚类中心的信息矢量,以及基于各条待聚类数据的精确匹配信息和模糊匹配信息生成各条待聚类数据的信息矢量,进而可以基于所述聚类中心的信息矢量,计算与各条待聚类数据的信息矢量分别对应的最近中心。
在一实施例中,可以基于预设的嵌入Embedding模型生成相同长度的聚类中心的信息矢量以及待聚类数据的信息矢量,进而可以实现上述基于聚类中心的信息矢量,计算与各条待聚类数据的信息矢量分别对应的最近中心的步骤。
可以理解的是,通过生成聚类中心的信息矢量以及各条待聚类数据的信息矢量,进而基于聚类中心的信息矢量,计算与各条待聚类数据的信息矢量分别对应的最近中心,可以实现待聚类数据的矢量化,进而可以提高后续聚类运算的速度。
在步骤S302中,根据所述最近中心的计算结果,更新所述聚类中心。
在一实施例中,当计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心后,可以根据所述最近中心的计算结果,更新所述聚类中心。
在一实施例中,当计算与各条待聚类数据分别对应的最近中心后,可以根据各个最近中心对应的多条待聚类数据重新计算聚类中心,进而可以基于重新计算的聚类中心更新之前的聚类中心。
在步骤S303中,判断是否满足聚类迭代结束条件:若是,则结束聚类迭代;若否,则返回执行上述步骤S301。
由上述描述可知,本实施例通过基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心,并根据所述最近中心的计算结果,更新所述聚类中心,然后返回执行所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心的操作,直至满足聚类迭代结束条件,可以实现多次更新聚类中心,并实现根据所述聚类中心对所述多条待聚类数据进行聚类,可以提高聚类的准确性。
图4是本公开根据又一示例性实施例示出的聚类实现方法流程图;该实施例可以用于具有数据处理功能的服务端(例如,一台服务器和多台服务器组成的服务器集群等)。如图4所示,该方法包括以下步骤S401-S410:
在步骤S401中,获取多条待聚类数据,所述待聚类数据中包含精确匹配信息。
在步骤S402中,确定具有相同精确匹配信息的待聚类数据构成的多个数据集合。
在步骤S403中,根据各所述数据集合中包含待聚类数据的数量确定聚类中心。
在步骤S404中,根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
其中,步骤S401-S404的相关解释和说明可以参见上述实施例,在此不进行赘述。
在步骤S405中,从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据。
在一实施例中,当根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类后,可以确定各个目标聚类中与聚类中心之间的距离大于或等于预设距离阈值的已聚类数据。
在一实施例中,上述预设距离阈值可以由开发人员根据实际需要或业务经验进行设置,本实施例对此不进行限定。
在一实施例中,当确定各个目标聚类中与聚类中心之间的距离大于或等于预设距离阈值的已聚类数据后,可以从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据,即实现对目标聚类中的数据进行“剪枝”,进而可以实现后续基于“剪枝”后的目标聚类重新确定聚类中心,提高聚类的准确度。
在步骤S406中,计算移除的已聚类数据与各个聚类中心的距离。
在一实施例中,当从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据后,可以计算该移除的已聚类数据与各个聚类中心的距离。
在步骤S407中,重新计算与所述移除的已聚类数据对应的最近中心。
在一实施例中,当计算移除的已聚类数据与各个聚类中心的距离后,可以基于该距离重新计算与所述移除的已聚类数据对应的最近中心。
在一实施例中,计算与所述移除的已聚类数据对应的最近中心的方式与上述计算待聚类数据对应的最近中心的方式相同,具体解释和说明可以参见上述实施例,在此不进行赘述。
在步骤S408中,判断目标距离是否小于所述预设距离阈值:若是,则执行步骤S409;若否,则执行步骤S410。其中,所述目标距离为所述重新计算的最近中心与所述移除的已聚类数据之间的距离。
在步骤S409中,将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中。
在步骤S410中,将所述移除的已聚类数据划分至新的聚类中。
在一实施例中,当重新计算与所述移除的已聚类数据对应的最近中心后,可以判断所述重新计算的最近中心与所述移除的已聚类数据之间的目标距离是否小于所述预设距离阈值,若是,则将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中;否则,将所述移除的已聚类数据划分至新的聚类中,即基于该移除的已聚类数据生成新的聚类。
由上述描述可知,本实施例通过从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据,可以提高目标聚类中数据的精度,进而通过计算移除的已聚类数据与各个聚类中心的距离,并重新计算与所述移除的已聚类数据对应的最近中心,进而当所述重新计算的最近中心与所述移除的已聚类数据之间的目标距离小于所述预设距离阈值时,将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中,而当所述目标距离大于或等于所述预设距离阈值时,将所述移除的已聚类数据划分至新的聚类中,可以实现对已聚类数据进行更为合理的划分,可以进一步提高聚类的准确性。
图5是本公开根据一示例性实施例示出的聚类实现装置框图。如图5所示,该装置包括:聚类数据获取模块110、数据集合确定模块120、聚类中心确定模块130以及目标聚类获取模块140,其中:
聚类数据获取模块110,用于获取多条待聚类数据,所述待聚类数据中包含精确匹配信息;
数据集合确定模块120,用于确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
聚类中心确定模块130,用于根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
目标聚类获取模块140,用于根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类。
本实施例通过获取多条待聚类数据,并确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,然后根据各所述数据集合中包含待聚类数据的数量确定聚类中心,进而根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类,由于确定具有相同精确匹配信息的待聚类数据构成的多个数据集合,并根据各所述数据集合中包含待聚类数据的数量确定聚类中心,可以提高确定聚类中心的合理性,进而可以提高聚类算法的准确性。
图6是本公开根据又一示例性实施例示出的聚类实现装置框图。其中,聚类数据获取模块210、数据集合确定模块220、聚类中心确定模块230以及目标聚类获取模块240与前述图6所示实施例的聚类数据获取模块110、数据集合确定模块120、聚类中心确定模块130以及目标聚类获取模块140的功能相同,在此不进行赘述。如图6所示,聚类中心确定模块230,可以包括:
数据集合排列单元231,用于将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列;
聚类中心确定单元232,用于将排列后的前N个数据集合的聚类中心确定为聚类中心。
在一实施例中,目标聚类获取模块240,可以包括:
最近中心计算单元241,用于基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心;
聚类中心更新单元242,用于根据所述最近中心的计算结果,更新所述聚类中心;
目标聚类获取单元243,用于返回执行所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心的操作,直至满足聚类迭代结束条件。
在一实施例中,待聚类数据中还可以包含模糊匹配信息;
最近中心计算单元241,还可以用于:
基于所述聚类中心的信息矢量,计算与所述多条待聚类数据中各条待聚类数据的信息矢量分别对应的最近中心,所述信息矢量基于所述待聚类数据的精确匹配信息和模糊匹配信息生成。
在一实施例中,目标聚类获取模块240,还可以包括:
已聚类数据移除单元244,用于从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据。
在一实施例中,装置还可以包括已聚类数据重聚类模块250;
已聚类数据重聚类模块250,可以包括:
中心距离计算单元251,用于计算移除的已聚类数据与各个聚类中心的距离;
最近中心重算单元252,用于重新计算与所述移除的已聚类数据对应的最近中心;
已聚类数据重聚类单元253,用于当所述重新计算的最近中心与所述移除的已聚类数据之间的目标距离小于所述预设距离阈值时,将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中。
在一实施例中,已聚类数据重聚类单元253,还可以用于当所述目标距离大于或等于所述预设距离阈值时,将所述移除的已聚类数据划分至新的聚类中。
在一实施例中,待聚类数据包括程序调度栈的信息。
图7是本公开根据一示例性实施例示出的一种用于聚类实现装置的一结构示意图。其中,装置3100可以被提供为一应用服务器或智能终端。如图7所示,装置3100包括处理组件3122,其进一步包括一个或多个处理器,以及由存储器3132所代表的存储器资源,用于存储可由处理部件3122的执行的指令,例如应用程序。存储器3132中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件3122被配置为执行指令,以执行上述聚类实现方法。
装置3100还可以包括一个电源组件3126被配置为执行装置3100的电源管理,一个有线或无线网络接口3150被配置为将装置3100连接到网络,和一个输入输出(I/O)接口3158。装置3100可以操作基于存储在存储器3132的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种聚类实现方法,其特征在于,用于聚类实现设备,所述方法包括:
获取多条待聚类数据,所述待聚类数据中包含精确匹配信息,所述待聚类数据包括程序调度栈的信息,所述精确匹配信息包括所述程序调度栈的信息的异常类型及异常所在的程序包名;
确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类;
所述根据各所述数据集合中包含待聚类数据的数量确定聚类中心,包括:
将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列;
将排列后的前N个数据集合的聚类中心确定为聚类中心。
2.根据权利要求1所述的方法,其特征在于,所述根据所述聚类中心对所述多条待聚类数据进行聚类,包括:
基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心;
根据所述最近中心的计算结果,更新所述聚类中心;
返回执行所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心的操作,直至满足聚类迭代结束条件。
3.根据权利要求2所述的方法,其特征在于,所述待聚类数据中还包含模糊匹配信息;
所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心,包括:
基于所述聚类中心的信息矢量,计算与所述多条待聚类数据中各条待聚类数据的信息矢量分别对应的最近中心,所述信息矢量基于所述待聚类数据的精确匹配信息和模糊匹配信息生成。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
计算移除的已聚类数据与各个聚类中心的距离;
重新计算与所述移除的已聚类数据对应的最近中心;
若所述重新计算的最近中心与所述移除的已聚类数据之间的目标距离小于所述预设距离阈值,则将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
若所述目标距离大于或等于所述预设距离阈值,则将所述移除的已聚类数据划分至新的聚类中。
7.一种聚类实现装置,其特征在于,用于聚类实现设备,所述装置包括:
聚类数据获取模块,用于获取多条待聚类数据,所述待聚类数据中包含精确匹配信息,所述待聚类数据包括程序调度栈的信息,所述精确匹配信息包括所述程序调度栈的信息的异常类型及异常所在的程序包名;
数据集合确定模块,用于确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
聚类中心确定模块,用于根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
目标聚类获取模块,用于根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类;所述聚类中心确定模块,包括:
数据集合排列单元,用于将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列;
聚类中心确定单元,用于将排列后的前N个数据集合的聚类中心确定为聚类中心。
8.根据权利要求7所述的装置,其特征在于,所述目标聚类获取模块,包括:
最近中心计算单元,用于基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心;
聚类中心更新单元,用于根据所述最近中心的计算结果,更新所述聚类中心;
目标聚类获取单元,用于返回执行所述基于所述聚类中心,计算与所述多条待聚类数据中各条待聚类数据分别对应的最近中心的操作,直至满足聚类迭代结束条件。
9.根据权利要求8所述的装置,其特征在于,所述待聚类数据中还包含模糊匹配信息;
所述最近中心计算单元,还用于:
基于所述聚类中心的信息矢量,计算与所述多条待聚类数据中各条待聚类数据的信息矢量分别对应的最近中心,所述信息矢量基于所述待聚类数据的精确匹配信息和模糊匹配信息生成。
10.根据权利要求7所述的装置,其特征在于,所述目标聚类获取模块,还包括:
已聚类数据移除单元,用于从所述目标聚类中移除与聚类中心之间距离大于或等于预设距离阈值的已聚类数据。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括已聚类数据重聚类模块;所述已聚类数据重聚类模块,包括:
中心距离计算单元,用于计算移除的已聚类数据与各个聚类中心的距离;
最近中心重算单元,用于重新计算与所述移除的已聚类数据对应的最近中心;
已聚类数据重聚类单元,用于当所述重新计算的最近中心与所述移除的已聚类数据之间的目标距离小于所述预设距离阈值时,将所述移除的已聚类数据划分至所述重新计算的最近中心对应的聚类中。
12.根据权利要求10所述的装置,其特征在于,所述已聚类数据重聚类单元,还用于当所述目标距离大于或等于所述预设距离阈值时,将所述移除的已聚类数据划分至新的聚类中。
13.一种聚类实现设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现:
获取多条待聚类数据,所述待聚类数据中包含精确匹配信息,所述待聚类数据包括程序调度栈的信息,所述精确匹配信息包括所述程序调度栈的信息的异常类型及异常所在的程序包名;
确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类;
所述根据各所述数据集合中包含待聚类数据的数量确定聚类中心,包括:
将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列;
将排列后的前N个数据集合的聚类中心确定为聚类中心。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器处理时实现:
获取多条待聚类数据,所述待聚类数据中包含精确匹配信息,所述待聚类数据包括程序调度栈的信息,所述精确匹配信息包括所述程序调度栈的信息的异常类型及异常所在的程序包名;
确定具有相同精确匹配信息的待聚类数据构成的多个数据集合;
根据各所述数据集合中包含待聚类数据的数量确定聚类中心;
根据所述聚类中心对所述多条待聚类数据进行聚类,得到目标聚类;
所述根据各所述数据集合中包含待聚类数据的数量确定聚类中心,包括:
将所述数据集合按照包含待聚类数据的数量从多至少的顺序进行排列;
将排列后的前N个数据集合的聚类中心确定为聚类中心。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910596213.8A CN110414569B (zh) | 2019-07-03 | 2019-07-03 | 聚类实现方法及装置 |
US16/693,372 US11501099B2 (en) | 2019-07-03 | 2019-11-25 | Clustering method and device |
EP19216191.7A EP3761190A1 (en) | 2019-07-03 | 2019-12-13 | Clustering method and device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910596213.8A CN110414569B (zh) | 2019-07-03 | 2019-07-03 | 聚类实现方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414569A CN110414569A (zh) | 2019-11-05 |
CN110414569B true CN110414569B (zh) | 2022-04-08 |
Family
ID=68360086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910596213.8A Active CN110414569B (zh) | 2019-07-03 | 2019-07-03 | 聚类实现方法及装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11501099B2 (zh) |
EP (1) | EP3761190A1 (zh) |
CN (1) | CN110414569B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11528285B2 (en) * | 2019-12-16 | 2022-12-13 | Palo Alto Networks, Inc. | Label guided unsupervised learning based network-level application signature generation |
CN115134221B (zh) * | 2021-03-11 | 2024-05-14 | 中国电信股份有限公司 | 终端的质差识别方法及装置、存储介质及电子设备 |
CN113808578B (zh) * | 2021-11-16 | 2022-04-15 | 阿里巴巴达摩院(杭州)科技有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN117193509B (zh) * | 2023-07-21 | 2024-07-05 | 无锡尚航数据有限公司 | 一种数据中心的节能控制管理方法及系统 |
CN117493423B (zh) * | 2023-12-29 | 2024-03-26 | 江西合一云数据科技股份有限公司 | 互联网数据挖掘方法、装置计算机设备及介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101576892A (zh) * | 2008-05-07 | 2009-11-11 | 爱帮聚信(北京)科技有限公司 | 地点区域确定方法和装置 |
CN101834981B (zh) * | 2010-05-04 | 2011-11-23 | 崔志明 | 基于在线聚类的视频背景提取方法 |
CN103559502A (zh) * | 2013-10-25 | 2014-02-05 | 华南理工大学 | 一种基于自适应聚类分析的行人检测系统及方法 |
CN104731916A (zh) * | 2015-03-24 | 2015-06-24 | 无锡中科泛在信息技术研发中心有限公司 | 数据挖掘中基于密度优化初始中心的k均值聚类方法 |
CN107251540B (zh) * | 2015-03-27 | 2020-04-10 | 谷歌有限责任公司 | 一种用于组织和导航图像聚类的方法和系统 |
CN106778812B (zh) * | 2016-11-10 | 2020-06-19 | 百度在线网络技术(北京)有限公司 | 聚类实现方法和装置 |
CN107067045A (zh) * | 2017-05-31 | 2017-08-18 | 北京京东尚科信息技术有限公司 | 数据聚类方法、装置、计算机可读介质和电子设备 |
EP4276487A3 (en) * | 2017-06-21 | 2023-11-29 | Google LLC | Generating wireless network access point models using clustering techniques |
CN107562853B (zh) * | 2017-08-28 | 2021-02-23 | 武汉烽火普天信息技术有限公司 | 一种面向海量互联网文本数据的流式聚类及展现的方法 |
US10747785B2 (en) * | 2017-11-01 | 2020-08-18 | Mad Street Den, Inc. | Method and system for efficient clustering of combined numeric and qualitative data records |
US10387473B2 (en) * | 2017-11-09 | 2019-08-20 | Accenture Global Solutions Limited | Real-time data input correction and facilitation of data entry at point of input |
CN108536753B (zh) * | 2018-03-13 | 2021-06-25 | 腾讯科技(深圳)有限公司 | 重复信息的确定方法及相关装置 |
CN108734217A (zh) * | 2018-05-22 | 2018-11-02 | 齐鲁工业大学 | 一种基于聚类分析的客户细分方法及装置 |
CN109685092B (zh) * | 2018-08-21 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 基于大数据的聚类方法、设备、存储介质及装置 |
CN109446520B (zh) * | 2018-10-17 | 2023-08-15 | 北京神州泰岳软件股份有限公司 | 用于构建知识库的数据聚类方法及装置 |
CN109961851A (zh) * | 2019-02-25 | 2019-07-02 | 南京理工大学 | 一种基于改进k均值聚类的疾病危险因素提取方法 |
-
2019
- 2019-07-03 CN CN201910596213.8A patent/CN110414569B/zh active Active
- 2019-11-25 US US16/693,372 patent/US11501099B2/en active Active
- 2019-12-13 EP EP19216191.7A patent/EP3761190A1/en not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
US20210004638A1 (en) | 2021-01-07 |
EP3761190A1 (en) | 2021-01-06 |
US11501099B2 (en) | 2022-11-15 |
CN110414569A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414569B (zh) | 聚类实现方法及装置 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN112800095B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN110765320B (zh) | 数据处理方法、装置、存储介质和计算机设备 | |
CN111459993A (zh) | 基于行为分析的配置更新方法、装置、设备及存储介质 | |
EP3961413A1 (en) | Method and device for determining database configuration parameters | |
CN111522968A (zh) | 知识图谱融合方法及装置 | |
CN111275358A (zh) | 派单匹配方法、装置、设备及存储介质 | |
EP3067804B1 (en) | Data arrangement program, data arrangement method, and data arrangement apparatus | |
CN110457704A (zh) | 目标字段的确定方法、装置、存储介质及电子装置 | |
CN111949736A (zh) | 一种数据库负载均衡方法、装置、电子设备和存储介质 | |
CN108830302B (zh) | 一种图像分类方法、训练方法、分类预测方法及相关装置 | |
CN113158435B (zh) | 基于集成学习的复杂系统仿真运行时间预测方法与设备 | |
CN111209105A (zh) | 扩容处理方法、装置、设备及可读存储介质 | |
CN112561138B (zh) | 电力负荷预测方法、装置、计算机设备和存储介质 | |
CN113761017A (zh) | 相似性搜索方法和装置 | |
US20190385083A1 (en) | Distributed machine learning device, distributed machine learning method, and distributed machine learning recording medium | |
CN114691630B (zh) | 一种智慧供应链大数据共享方法及系统 | |
CN112181796B (zh) | 信息采集方法、装置、服务器及存储介质 | |
CN105894136A (zh) | 一种品类库存量的预测方法和预测装置 | |
CN114489966A (zh) | 一种作业调度方法及装置 | |
CN110415006B (zh) | 广告点击率预估方法和装置 | |
CN116522002B (zh) | 一种基于机器学习的通航服务系统的容器推荐方法及系统 | |
CN117473330B (zh) | 一种数据处理方法、装置、设备及存储介质 | |
CN112235152B (zh) | 流量大小估算方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |