[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN104182511B - 一种簇特征加权的模糊紧致散布聚类方法 - Google Patents

一种簇特征加权的模糊紧致散布聚类方法 Download PDF

Info

Publication number
CN104182511B
CN104182511B CN201410413719.8A CN201410413719A CN104182511B CN 104182511 B CN104182511 B CN 104182511B CN 201410413719 A CN201410413719 A CN 201410413719A CN 104182511 B CN104182511 B CN 104182511B
Authority
CN
China
Prior art keywords
mrow
msub
msup
munderover
msubsup
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410413719.8A
Other languages
English (en)
Other versions
CN104182511A (zh
Inventor
周媛
王丽娜
何军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Ditavi Data Technology Co ltd
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN201410413719.8A priority Critical patent/CN104182511B/zh
Publication of CN104182511A publication Critical patent/CN104182511A/zh
Application granted granted Critical
Publication of CN104182511B publication Critical patent/CN104182511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况且对样本分布不均衡情况数据聚类效果不好,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对各类聚类影响的问题,本发明公开了一种簇特征加权的模糊紧致散布聚类方法,通过对样本隶属度、特征权重进行调整,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对各类聚类的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,在样本分布不均衡情况下对于噪声数据和异常数据实现了更有效的划分。本方法聚类性能良好,收敛速度快、迭代效率高。聚类性能良好,迭代效率高,适于应用在工业控制中样本分布不均衡、实时性、准确率要求高的场合。

Description

一种簇特征加权的模糊紧致散布聚类方法
技术领域
本发明属于数据处理技术领域,尤其是涉及一种簇特征加权的模糊紧致散布聚类方法。
背景技术
在自然科学和社会科学中,存在着大量的分类问题,聚类方法是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,应用领域非常广泛。模糊C-均值(FCM)聚类算法是常用的无监督模式识别方法,很多人不断对FCM算法进行改进,这些算法考虑了样本各特征参数对聚类中心的影响,改善了噪声、异常数据影响等情况。但是,这些基于FCM的聚类算法,实质都只考虑了样本的类内紧致性(类内散度),而忽略了样本类间散布性(类间散度),不能很好的处理样本分布不均衡的数据聚类问题。Kuo-Lung Wu等人提出的FCS(Fuzzy Compactness and Separation)算法考虑了类内紧致和类间散布,并兼容了样本的硬划分和模糊划分,这更符合实际情况;国内有宋风溪等人提出了最大散度差判别准则的分类方法,该准则综合考虑类间散度和类内散度来求最优投影向量以对样本进行分类;皋军等人将模糊度引入了最大散度差判别准则提出了FMSDC(fuzzymaximum scatter difference discriminant criterion)算法,在模糊聚类的同时进行了降维;支晓斌等人指出皋军等人的算法中的错误,提出FMSDC-FCS聚类算法,该算法是皋军等人算法的正确版本,利用FCM算法初始化隶属度和样本均值,再用FMSDC算法进行降维,用FCS算法对降维数据进行聚类,其聚类实质还是采用FCS算法。
而在利用上述算法进行数据分类的过程中,我们发现,实际数据有些处于某类硬划分区域内,这些数据的隶属度就不需要模糊化,并且,对于样本分布不均衡数据如何进行有效划分,这是FCM算法以及相关扩展FCM算法所不能解决的。FCS算法虽然考虑了样本硬划分问题,但是却没有考虑处于硬划分边界上的样本情况,这就导致了对实际数据进行分类时,遇到边界数据时出现算法失效的问题。
发明内容
针对现有的WFCM算法在聚类时没有考虑样本硬划分实际情况,不能很好处理样本分布不均衡数据划分,FCS算法没有考虑硬划分边界点的情况以及忽略样本特征参数对各类聚类影响的问题,本发明公开了一种簇特征加权的模糊紧致散布聚类方法。
为了达到上述目的,本发明提供如下技术方案:
一种簇特征加权的模糊紧致散布聚类方法,包括如下步骤:
步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai(s为特征参数个数);
步骤二:根据下式计算系数ηi
其中,为样本均值;
步骤三:根据下式更新样本隶属度μij
当样本点xj存在落在硬划分边界上时,此时Δij=0,在保证各样本点相对于第i类的距离尺度不变的前提下,对所有Δij≥0的利用P(Δij)进行调整:
调整后利用下式计算新的μij
因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:
步骤四:根据下式计算特征权重ωik
若Δik<0,因为ωik∈[0,1],所以需将Δik投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δk
调整后利用特征权重公式计算新的ωik
步骤五:根据下式计算聚类中心aik
步骤六:令迭代次数p=p+1,直到否则转到步骤二;
步骤七:将第p次迭代得到的μij输出,根据即第j个样本属于第i类。
进一步的,所述样本隶属度μij和特征权重ωik通过如下步骤计算:
建立目标函数:
簇特征加权的FCS聚类问题表示如下:
利用拉格朗日乘子法得到:
上式中,λi、λj是拉格朗日乘子;
根据上式分别对μij、ωik、λi、λj、求偏导并令偏导结果为零得到μij、ωik
本发明还提供了基于簇特征加权的模糊紧致散布聚类方法的工业数据分类方法,包括:获得传感器采集到的数据后,通过本发明提供的CWFCS方法(步骤一~七)对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态。
进一步的,所述传感器采集的是航空发动机状态数据,判断的是航空发动机的健康状态。
有益效果:
本发明遵循了样本硬划分的实际情况,并充分考虑样本特征参数对样本划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,在样本分布不均衡情况下,对于噪声数据和异常数据实现了更有效的划分。聚类性能良好,收敛速度快、迭代效率高。实验证明,本算法聚类性能良好,收敛速度快、迭代效率高。与现有方法相比,本发明聚类准确率高,耗时明显减少,适于应用在工业控制中样本分布不均衡、实时性要求高的场合。
附图说明
图1为簇特征加权的模糊紧致散布聚类方法步骤流程示意图;
图2为Iris数据集的数据分布,CWFCS算法、FCS算法和WFCM算法的聚类效果、聚类中心示意图;
图3为β=1时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;
图4为β=0.5时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;
图5为β=0.05时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;
图6为β=0.005时,CWFCS算法聚类结果、硬划分结果及收敛性示意图;
图7为参数α、β、m的不同取值对聚类结果影响示意图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。
我们发现,现实生活中的数据无监督聚类,是存在样本对聚类中心的硬划分的,并且,处于硬划分边界上的样本相比硬划分区域外的样本对该类的隶属度应该最大,但相对硬划分区域内样本又相对模糊些,且样本的各特征参数对各类聚类结果是有不同的影响,本发明正是基于上述思路,提出了一种改进的模糊紧致散布聚类方法。
首先定义簇特征加权类内散度和簇特征加权类间散度如下:
特征加权系数α∈[-10,0)∪(1,10];
建立目标函数:
簇特征加权的FCS聚类问题表示如下:
利用拉格朗日乘子法得到:
上式中,λi、λj是拉格朗日乘子;
根据上式分别对μij、ωik、λi、λj、求偏导并令偏导结果为零,求得:
簇特征加权的模糊紧致散布聚类方法,如图1所示,包括如下步骤:
步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ai(s为特征参数个数);
步骤二:根据下式计算系数ηi
其中,为样本均值;
步骤三:根据公式(3)更新样本隶属度μij
考虑样本点xj落在硬划分边界情况,此时如果直接用公式(3)计算得μij为正无穷大,算法无效;对于落在第i类硬划分边界的样本点本身就具有模糊性,如果把它进行硬化分是和实际情况不相符的,但是和其他落在硬划分区域外的样本点相比,xj对于第i类有更大的模糊隶属度,在保证各样本点相对于第i类的距离尺度不变的前提下,对所有Δij≥0的利用调整函数P(Δij)进行调整:
调整后利用下式计算新的μij
因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:
步骤四:根据下式计算特征权重ωik
当Δik=0时第k个特征参数对第i类聚类的影响一样,所以ωik=0。
若样本分布极不均衡,则有Δik<0,因为ωik∈[0,1],所以需将Δik投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δik
调整后利用特征权重公式计算新的ωik
步骤五:根据下式计算聚类中心aik
步骤六:令迭代次数p=p+1,直到否则转到步骤二;
步骤七:将第p次迭代得到的μij输出,根据即第j个样本属于第i类。
通过上述步骤,遵循了样本硬划分的实际情况,并充分考虑样本特征参数对各类划分的影响,尽可能使得样本类内紧致、类间分散,解决了位于硬划分边界的样本隶属度问题,在样本分布不均衡情况下对于噪声数据和异常数据实现了更有效的划分。
实施例一:
为了更好地说明本发明的性能,我们采用本发明方法针对UCI repository ofmachine learning databases的其中一个真实数据集:Iris数据集进行分类实验,模糊指数m分别设为(1.5,2,2.5,3,3.5),迭代误差精度取10-6,本发明的簇特征加算法CWFCS算法中的参数β分别设为(0.005,0.05,0.5,1),为表示样本分布不均衡情况,Iris数据集保留第一、二类所有数据并从第三类随机选取10个样本,共110个样本分为3类,其中第2类和第3类有交叉,采用本发明算法(简称CWFCS算法)的聚类结果如图2~图6所示。从图2可看出,本算法具备基本聚类功能,聚类结果和图2(a)所示的原始数据分布大致相同,图3~图6显示三类聚类中心间的距离随着β变化而变化。当β由1减小到0.05时,系统模糊度增加,表现为三类聚类中心逐渐靠拢;由于第三类样本数远比第一、二类少,且还和第二类有重叠,为了使样本类内紧致同时也使类间散布尽可能大,所以当β取0.005时,第一、三类中心距离和第二、三类中心距离相对β=0.05时反而稍微增大一点;图3~图6的(b)给出的样本硬划分效果,β由1到0.005逐渐减小,110个样本中相应的硬划分样本数为79、64、42、0,这表明本文算法保留了FCS算法的样本硬划分特性,且β越大样本硬划分程度越高;图3~图6(c)是聚类中心变化量,可看出本文算法收敛速度快、迭代效率高;本算法使样本的簇特征加权类内散布尽可能小且簇特征加权类间散布尽可能大,若各聚类中心越分散则簇特征加权类间散布越小则样本模糊划分程度越高。上述实验结果表明,本算法聚类性能良好,收敛速度快、迭代效率高。
图7显示参数α、β、m的不同取值对聚类的影响。β越小,误分率越大;无论β取什么值,对同一β,α=2,m∈{1.5,2}时,平均误分率最小且β<0.5时,算法对α、m取值较敏感。图7(a)β=1,α>3时,m取整数(2、3)时是α越大误分率越小,否则是α越小误分率越小;α<0时误分率随着α变小而变小,m则影响不大。图7(b)~(d)显示当β<1时,算法受α、m影响的趋势基本一致,对某一α有m越大误分率越大;对某一m(不考虑α=2的最优情况),若α>0则α越大误分率越小,若α<0则α越小误分率越小。
实施例二:
为了验证本发明的优越性,我们分别用FCS、WFCM和本发明提供的CWFCS三个方法对Iris数据集进行实验。
实验中,实验中模糊指数m分别设为(1.5,2,2.5,3,3.5),迭代误差精度取10-6,CWFCS算法中的参数β分别设为(0.005,0.05,0.5,1);实验重复100次,取最优结果和平均结果。用正确率(Accuracy)、迭代次数(Iter)、执行时间(Time)三个指标来衡量算法最优性能,用平均准确率(avg_Accuracy,正确划分样本数/样本总数)、平均迭代次数(avg_Iter)和平均执行时间(avg_Time)来衡量算法整体性能,三种算法的聚类结果中最好和平均结果如表1所示:
Algorithm Accury IterNO Time avg_Accury avg_Iterno avg_Time
FCS 0.754545 28 0.028236 0.689091 35 0.193956
WFCM 0.854545 30 0.103216 0.852424 29 0.090867
CWFCS 0.981818 48 0.055334 0.966364 55 0.063656
表1
从表1中可以看出,对于Iris数据集,CWFCS算法最高准确率和平均准确率均高于其它两个算法;CWFCS的执行时间最短,其平均执行时间比FCS算法缩短了约67%、平均准确率比FCS算法提高了40%,比WFCM算法时间缩短了21%、平均准确率提高了23%。
上述实验结果基于无噪Iris数据集得到,我们还可以用FCS、WFCM和本发明提供的CWFCS三个方法对加噪Iris数据集进行实验,实验参数和环境与上述针对无噪Iris数据集时相同。三种算法的聚类结果中最好和平均结果如表2所示:
Algorithm Accury IterNO Time avg_Accury avg_Iterno avg_Time
FCS 0.754545 40 0.386212 0.720606 62 0.468495
WFCM 0.845455 26 0.109535 0.845455 29 0.101066
CWFCS 0.972727 29 0.031420 0.887879 43 0.049336
表2
从表2中可以看出,对于加噪Iris数据集,CWFCS算法的最高准确率和平均准确率也明显高于其它两个算法。
实施例三:
我们再分别用FCS、WFCM和本发明提供的CWFCS三个方法对Breast Cancer数据集进行实验,Breast Cancer数据集共有30个属性,为表示样本分布不均衡,第一类随机选择10个样本,第二类有367个样本,结果如表2所示。表3可看出CWFCS算法性能最稳定,迭代次数稍微高于WFCM算法,执行时间在0.1秒之内,聚类精度高于其它两种算法。
Algorithm Accury IterNO Time avg_Accury avg_Iterno avg_Time
FCS 0.737401 45 0.827577 0.737401 43 0.533281
WFCM 0.819629 11 0.026210 0.767109 11 0.030475
CWFCS 0.965517 13 0.074786 0.960212 12 0.075808
表3
实施例四:
我们再分别用FCS、WFCM和本发明提供的CWFCS三个方法对航空发动机气路仿真数据集(加噪)进行实验,结果如表4所示。GasPath数据集是航空发动机气路数据,包括DEGT、DNH、DFF三个特征参数,其中健康数据样本共200个,故障数据样本随机选择5个。
Algorithm Accury IterNO Time avg_Accury avg_Iterno avg_Time
FCS 0.614634 24 0.290102 0.614634 24 0.181671
WFCM 0.6 19 0.046147 0.6 21 0.052607
CWFCS 0.917073 15 0.023733 0.86878 23 0.033184
表4
从表4看出,对于GasPath数据集,对于工程应用中受噪声污染的数据有很好的鲁棒性,且对数据更能精确的进行划分,对于这样的数据,利用样本类内紧致性和类间散布性来进行聚类的算法准确率要高于仅考虑类内紧致性的WFCM算法。
实施例五:
本发明还提供了本发明工业控制中的具体应用方法:
首先,必须针对工业控制中的重要具体参数进行状态监视(通常需要设置各类传感器以获得全面的数据),获得传感器采集到的数据后,通过本发明提供的CWFCS方法(步骤一~七)对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态。例如通过传感器对航空发动机进行状态监视,通过对采集的数据进行分类(通过本发明提供的CWFCS方法,步骤一~七),判断航空发动机当前是否是非健康状态。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (3)

1.一种簇特征加权的模糊紧致散布聚类方法,应用于数据处理领域,其特征在于,获得传感器采集到的数据后,簇特征加权的模糊紧致散布聚类方法对采集的数据进行分类,再根据分类结果判断工业设备或工艺的当前状态,所述簇特征加权的模糊紧致散布聚类方法包括如下步骤:
步骤一:设置隶属度指数m、特征加权指数α∈[-10,-1]∪(1,10]、β∈{0.005,0.05,0.5,1},初始迭代次数p=0以及迭代误差ε>0,随机生成初始聚类中心ais为特征参数个数;
步骤二:根据下式计算系数ηi
<mrow> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mi>&amp;beta;</mi> <mn>4</mn> </mfrac> <mfrac> <mrow> <msub> <mi>min</mi> <mrow> <mi>i</mi> <mo>&amp;NotEqual;</mo> <msup> <mi>i</mi> <mo>&amp;prime;</mo> </msup> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mi>i</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <msup> <mi>i</mi> <mo>&amp;prime;</mo> </msup> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mrow> <msub> <mi>max</mi> <mi>t</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mi>t</mi> </msub> <mo>-</mo> <mover> <mi>X</mi> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> </mfrac> </mrow>
其中,为样本均值;
步骤三:根据下式更新样本隶属度μij
<mrow> <msub> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msup> <mrow> <mo>(</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <msubsup> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>&amp;alpha;</mi> </msubsup> <mo>(</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>m</mi> </mrow> </mfrac> </msup> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msup> <mrow> <mo>(</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <msubsup> <mi>&amp;omega;</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> <mi>&amp;alpha;</mi> </msubsup> <mo>(</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>t</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mrow> <mi>t</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>m</mi> </mrow> </mfrac> </msup> </mrow> </mfrac> </mrow>
<mrow> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <msubsup> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>&amp;alpha;</mi> </msubsup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow>
当样本点xj存在落在硬划分边界上时,此时Δij=0,在保证各样本点相对于第i类的距离尺度不变的前提下,对所有Δij≥0的样本点利用P(Δij)进行调整:
<mrow> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>+</mo> <mi>r</mi> <mi>a</mi> <mi>n</mi> <mi>d</mi> <mo>*</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>j</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&gt;</mo> <mn>0</mn> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>
调整后利用下式计算新的μij
<mrow> <msub> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <msup> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>m</mi> </mrow> </mfrac> </msup> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msup> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> </msub> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>m</mi> </mrow> </mfrac> </msup> </mrow> </mfrac> </mrow>
因为有样本点xj落在第i类硬划分区域内,所以会有μij<0,因此对μij进行硬划分调整:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>&lt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mi>&amp;mu;</mi> <mrow> <msup> <mi>i</mi> <mo>&amp;prime;</mo> </msup> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msup> <mi>i</mi> <mo>&amp;prime;</mo> </msup> <mo>&amp;NotEqual;</mo> <mi>i</mi> </mrow> </mtd> </mtr> </mtable> </mfenced>
步骤四:根据下式计算特征权重ωik
<mrow> <msub> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <msup> <mrow> <mo>(</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>(</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> </mrow> </mfrac> </msup> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <msup> <mrow> <mo>(</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>&amp;mu;</mi> <mrow> <mi>t</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mo>(</mo> <mrow> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>t</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>t</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>X</mi> <mi>t</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>-</mo> <mi>&amp;alpha;</mi> </mrow> </mfrac> </msup> </mrow> </mfrac> </mrow> 1
<mrow> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>)</mo> </mrow> </mrow>
若Δik<0,因为ωik∈[0,1],所以需将Δik投影到大于0的区间且保证各样本的第k个特征参数与第i类的硬划分区的距离尺度不变,于是利用下式调整Δik
<mrow> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>k</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <munder> <mrow> <mi>m</mi> <mi>i</mi> <mi>n</mi> </mrow> <mi>k</mi> </munder> <mrow> <mo>(</mo> <msub> <mi>&amp;Delta;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>&gt;</mo> <mn>0</mn> <mo>)</mo> </mrow> </mrow>
调整后利用特征权重公式计算新的ωik
步骤五:根据下式计算聚类中心aik
<mrow> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mover> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> </mrow>
步骤六:令迭代次数p=p+1,直到否则转到步骤二;
步骤七:将第p次迭代得到的μij输出,根据即第j个样本属于第i类。
2.根据权利要求1所述的簇特征加权的模糊紧致散布聚类方法,其特征在于:所述样本隶属度μij和特征权重ωik通过如下步骤计算:
建立目标函数:
<mrow> <msub> <mi>J</mi> <mrow> <mi>C</mi> <mi>W</mi> <mi>F</mi> <mi>C</mi> <mi>S</mi> </mrow> </msub> <mo>=</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <msubsup> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>&amp;alpha;</mi> </msubsup> <mo>|</mo> <mo>|</mo> <msub> <mi>x</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> <mo>-</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <msub> <mi>&amp;eta;</mi> <mi>i</mi> </msub> <msubsup> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> <mi>m</mi> </msubsup> <msubsup> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mi>&amp;alpha;</mi> </msubsup> <mo>|</mo> <mo>|</mo> <msub> <mi>a</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>-</mo> <mover> <msub> <mi>X</mi> <mi>k</mi> </msub> <mo>&amp;OverBar;</mo> </mover> <mo>|</mo> <msup> <mo>|</mo> <mn>2</mn> </msup> </mrow>
簇特征加权的FCS聚类问题表示如下:
<mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>min</mi> <mi> </mi> <msub> <mi>J</mi> <mrow> <mi>C</mi> <mi>W</mi> <mi>F</mi> <mi>C</mi> <mi>S</mi> </mrow> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <msub> <mi>&amp;mu;</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> <mo>,</mo> <munderover> <mi>&amp;Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>s</mi> </munderover> <msub> <mi>&amp;omega;</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mn>1</mn> </mrow> </mtd> </mtr> </mtable> </mfenced>
利用拉格朗日乘子法得到:
上式中,λi、λj是拉格朗日乘子;
根据上式分别对μij、ωik、λi、λj求偏导并令偏导结果为零得到μij、ωik
3.根据权利要求1所述的簇特征加权的模糊紧致散布聚类方法,其特征在于:所述传感器采集的是航空发动机状态数据,判断的是航空发动机的健康状态。
CN201410413719.8A 2014-08-20 2014-08-20 一种簇特征加权的模糊紧致散布聚类方法 Active CN104182511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410413719.8A CN104182511B (zh) 2014-08-20 2014-08-20 一种簇特征加权的模糊紧致散布聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410413719.8A CN104182511B (zh) 2014-08-20 2014-08-20 一种簇特征加权的模糊紧致散布聚类方法

Publications (2)

Publication Number Publication Date
CN104182511A CN104182511A (zh) 2014-12-03
CN104182511B true CN104182511B (zh) 2017-09-26

Family

ID=51963550

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410413719.8A Active CN104182511B (zh) 2014-08-20 2014-08-20 一种簇特征加权的模糊紧致散布聚类方法

Country Status (1)

Country Link
CN (1) CN104182511B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106127232B (zh) * 2016-06-16 2020-01-14 北京市商汤科技开发有限公司 卷积神经网络训练方法和系统、对象分类方法和分类器
CN106599618B (zh) * 2016-12-23 2021-07-23 吉林大学 一种宏基因组重叠群的无监督分类方法
CN108628971B (zh) * 2018-04-24 2021-11-12 深圳前海微众银行股份有限公司 不均衡数据集的文本分类方法、文本分类器及存储介质
CN113345225B (zh) * 2021-05-24 2023-04-11 郑州航空工业管理学院 基于v2v通信的物流车辆前方道路实时路况的预测方法及系统
CN114073625B (zh) * 2021-12-13 2023-12-08 曲阜师范大学 一种可自主导航的脑电控制电动轮椅

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680158A (zh) * 2013-10-14 2014-03-26 长沙理工大学 基于c-均值模糊聚类分析的控制子区动态划分方法
CN104008197A (zh) * 2014-06-13 2014-08-27 南京信息工程大学 一种特征加权的模糊紧致散布聚类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680158A (zh) * 2013-10-14 2014-03-26 长沙理工大学 基于c-均值模糊聚类分析的控制子区动态划分方法
CN104008197A (zh) * 2014-06-13 2014-08-27 南京信息工程大学 一种特征加权的模糊紧致散布聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于模糊度的聚类有效性函数;陈舵等;《模式识别与人工智能》;20080229;第21卷(第01期);第34-41页 *
具有模糊聚类功能的双向二维无监督特征提取方法;皋军等;《自动化学报》;20120430;第38卷(第04期);第549-562页 *

Also Published As

Publication number Publication date
CN104182511A (zh) 2014-12-03

Similar Documents

Publication Publication Date Title
CN106355030B (zh) 一种基于层次分析法和加权投票决策融合的故障检测方法
CN110516339B (zh) 基于Adaboost算法的多失效模式下密封结构可靠性评估方法
CN104182511B (zh) 一种簇特征加权的模糊紧致散布聚类方法
CN102930301B (zh) 基于特征权重学习与核稀疏表示的图像分类方法
CN107239800A (zh) 松弛模糊c均值聚类算法
CN101984340B (zh) 一种基于人工智能的软性磨粒两相湍流流型识别方法
CN105790279A (zh) 基于谱聚类的无功电压分区方法
CN110288048B (zh) 一种svm有向无环图的海底管道风险评估方法
CN110417011A (zh) 一种基于互信息与迭代随机森林的在线动态安全评估方法
CN102706573A (zh) 一种设备的故障分类诊断方法
CN108710914A (zh) 一种基于广义模糊聚类算法的无监督数据分类方法
CN105930860A (zh) 智能建筑中温度传感大数据的分类优化模型仿真分析方法
CN113177594A (zh) 基于贝叶斯优化的pca-极限随机树的空调故障诊断方法
CN104834994A (zh) 基于svm的小样本继电保护可靠性参数估计方法
CN107220977A (zh) 基于模糊聚类的有效性指标的图像分割方法
CN107301430A (zh) 广义多变量模糊c均值聚类算法
CN109145516A (zh) 一种基于改进型极限学习机的模拟电路故障识别方法
CN106909719A (zh) 集成多元线性回归算法
CN105608329A (zh) 一种基于社团演化的组织行为异常检测方法
CN110224862A (zh) 基于多层感知器的多智能体系统网络容侵能力评估方法
CN104850867A (zh) 一种基于直觉模糊c均值聚类的目标识别方法
CN105787259A (zh) 一种多元气象因素对负荷变化影响相关性的分析方法
CN106529393B (zh) 一种esmd样本熵结合fcm的电磁信号频谱数据分类方法
CN106469318A (zh) 一种基于L2稀疏限制的特征加权k‑means聚类方法
CN104008197B (zh) 一种特征加权的模糊紧致散布聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20200601

Address after: 210000 room 602, 6th floor, building 02, No.180, software Avenue, Yuhuatai District, Nanjing City, Jiangsu Province

Patentee after: Nanjing ditavi Data Technology Co.,Ltd.

Address before: 210044 Nanjing Ning Road, Jiangsu, No. six, No. 219

Patentee before: Nanjing University of Information Science and Technology

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Fuzzy Compact Scattering Clustering Method with Weighted Cluster Features

Granted publication date: 20170926

Pledgee: Bank of Nanjing Co.,Ltd. Jiangning sub branch

Pledgor: Nanjing ditavi Data Technology Co.,Ltd.

Registration number: Y2024980021879