CN104966105A - 一种鲁棒机器错误检索方法与系统 - Google Patents
一种鲁棒机器错误检索方法与系统 Download PDFInfo
- Publication number
- CN104966105A CN104966105A CN201510408404.9A CN201510408404A CN104966105A CN 104966105 A CN104966105 A CN 104966105A CN 201510408404 A CN201510408404 A CN 201510408404A CN 104966105 A CN104966105 A CN 104966105A
- Authority
- CN
- China
- Prior art keywords
- data
- training
- label
- classifier
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000012549 training Methods 0.000 claims abstract description 145
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 238000012360 testing method Methods 0.000 claims description 52
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 16
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000026683 transduction Effects 0.000 claims description 3
- 238000010361 transduction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000006698 induction Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005096 rolling process Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000005303 weighing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种鲁棒机器错误检索方法与系统,首先利用标签估计方法对训练集数据进行预处理,估计出未标定机器数据的标签,并初始化一个投影分类器。基于训练样本的类别信息,进行标签一致字典学习,利用得到的判别稀疏编码构造标签预测模型中的自适应重构权,通过计算新的投影分类器来更新无标签训练数据的类信息。通过多次迭代训练,输出一个判别的可重构字典,一个稀疏编码矩阵和一个最优多类分类器。训练得到的分类器可用于新来数据的归纳和类别预测,根据软标签中的概率最大值对应的位置,确定测试样本的类别,完成机器错误数据鲁棒分类。通过提出半监督标签一致字典学习方法,丰富了监督的先验信息,有效提高了机器错误检索的精准度。
Description
技术领域
本发明涉及数据挖掘及计算机视觉技术领域,具体来说,涉及一种鲁棒机器错误检索方法与系统。
背景技术
随着计算机技术和智能化的不断发展,机器错误分类已经发展成为数据挖掘中非常重要的一个研究课题。机器错误分类技术通过计算机将机器数据电子化,然后分析数据结构,获取数据特征,在机械故障诊断等领域有着重大的意义,一旦研究成功并投入应用,将产生巨大的社会和经济效益。
目前的大部分研究工作都集中在全监督或者无监督方法用于提取机器数据特征进行机器错误分类,且也已取得一定的成果。但是真实世界中的机器数据通常是少量有标签,而大多数无标签,大多数研究表明全监督方法用于数据分类优于无监督方法,但应用全监督方法获取所有数据标签需要很大的开销,因此如何有效利用机器数据中的标签提高分类精度是需要深入探讨的问题。
近年来,K-SVD和D-KSVD(Discriminative K-SVD)等经典的字典学习算法可通过学习一个重构的字典,训练得到数据集的稀疏编码来表征数据的特征,并计算得到线性分类器,可对数据进行分类。但当选取的训练数据样本较少时,数据的特征未能精确的表征,所以分类的精度很低。为了克服此缺点,它们的推广LC-KSVD(Label Consistent K-SVD)被提出,当已知全部数据样本的标签,LC-KSVD在学习判别的可重构字典时,有效的保持字典各项与数据标签的内在联系,使得即使训练样本较少,通过学到的字典训练得到的稀疏编码也能最大程度的表征数据的特征,从而通过计算得到的线性分类器精确的对机器错误数据进行分类。LC-KSVD的目标是用全监督的方法去对数据进行分类,但获得全部数据标签需要很大的开销。
因此,提供一种方便获得数据标签的机器错误分类方法以降低开销,是本领域技术人员亟待解决的问题。
发明内容
有鉴于此,本发明提供了一种鲁棒机器错误检索方法及系统,以克服现有技术中获得数据标签开销大的问题。
为实现上述目的,本发明提供如下技术方案:
一种鲁棒机器错误检索方法,包括:
利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应重构系数矩阵,根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新;
通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数据的判别稀疏编码,以及一个最优的投影分类器;
利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最大值找到对应的位置,确定测试样本的类别,得到所述机器错误数据的鲁棒分类。
优选地,利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签前还包括:
获取原始的样本数据集合,将所述样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和未标记的训练样本,所述已标记的训练样本和所述未标记的训练样本的机器数据向量集合n是机器数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量,其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中任意向量为机器数据样本,l+u=N,所述测试集中的测试样本全部未标记。
优选地,根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习包括:预设D为学习得到的所述可重构字典,S是训练集的所述判别稀疏编码,AS为所述自适应权重编码,P代表一个所述投影分类器;
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
其中,是重构误差,T1是稀疏约束,
si定义如下:
为判别稀疏编码误差,其中为训练数据集的判别稀疏编码,α是该项的权衡参数;
当训练样本xi和xj属于不同类别时,所述训练样本xi和xj在Q中对应的项为0,否则训练样本xi和xj在Q中对应的项为cos(xi,xj);
是累积的邻域重构误差,β是该项的权衡参数;
表示分类误差,最大元素对应的位置表示xi的软标签,μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=1010,否则μi=0。
优选地,利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签包括:
得到测试样本xnew时,利用PTxnew将其嵌入计算得到多类投影分类器,所得向量的最大元素对应的位置即为待测样本xnew的软标签,每个测试样本的硬标签可以被归结为argmaxi≤c(fnew)i,其中(fnew)i表示预测的软标签向量fnew第i个元素位置。
本发明还提供了一种鲁棒机器错误检索系统,包括:
训练预处理模块,用于利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
训练模块,用于根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应重构系数矩阵,根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新;
迭代模块,用于通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数据的判别稀疏编码,以及一个最优的投影分类器;
测试模块,用于利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最大值找到对应的位置,确定测试样本的类别,得到所述机器错误数据的鲁棒分类。
应用本发明提供的一种鲁棒机器错误检索方法与系统,首先利用标签估计方法对训练集数据进行预处理,估计出未标定机器数据的标签,并初始化一个投影分类器。基于训练样本的类别信息,进行标签一致字典学习,利用得到的判别稀疏编码构造标签预测模型中的自适应重构权,通过计算新的投影分类器来更新无标签训练数据的类信息。通过多次迭代训练,输出一个判别的可重构字典,一个稀疏编码矩阵和一个最优多类分类器。训练得到的分类器可用于新来数据的归纳和类别预测,根据软标签中的概率最大值对应的位置,确定测试样本的类别,完成机器错误数据鲁棒分类。通过提出半监督标签一致字典学习方法,丰富了监督的先验信息,有效提高了机器错误检索的精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种机器错误数据分类方法的流程图;
图2为本发明实施例公开的一种机器错误数据分类系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种鲁棒机器错误检索方法与系统,首先利用标签估计方法对训练集数据进行预处理,估计出未标定机器数据的标签,并得到一个初始投影分类器。基于训练样本的类标签信息,进行标签一致字典学习,利用得到的判别稀疏编码构造标签估计中的自适应重构权,进而更新训练集中无标签数据的类别信息和投影分类器。通过多次迭代训练,输出一个判别的可重构字典,一个机器数据稀疏编码矩阵和一个最优多类分类器。训练得到的多类分类器可用于新来数据的归纳和类别预测,根据软标签中的概率最大值对应的问题,确定测试样本的类别,完成机器错误分类。通过提出半监督标签一致字典学习方法,增加了有标定样本的数量,丰富了监督的先验信息,因此有效提高了机器错误检索的精准度。
本发明在三个机器数据集的数据库进行了测试:Rolling bearing database,Gearbox dataset和Motor electrical dataset。Rolling bearing database包括4个机器数据集,本发明选取其中0HP和2HP进行测试,0HP包含400个样本,其中包含10个类别,每个类别40个样本,2HP包含800个样本,10个类别,每个类别80个样本;Gearbox dataset包含72个样本,3个类别,每类24个样本;Motor electrical dataset包含90个样本,3个类别,每类30个样本。这些数据库从多方面收集,因而测试结果具有普遍说明性。
请参阅附图1,为本发明实施例公开的一种机器错误检索的方法流程图。本发明实施例公开的一种机器错误检索方法,具体实施步骤为:
步骤S101:利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
利用训练集中的所有训练样本,利用现有的预测方法(即拉普拉斯判别分析模型)直推式估计得到训练集中的未标定的样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的机器数据向量集合(其中,n是机器数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集(其中任意向量是一个机器数据样本),其中l+u=N,所述测试集中包含测试样本,全部未标记。
根据所述训练集的已标记样本,以及有标签样本数据与无标签样本数据间的内在几何结构,利用拉普拉斯判别分析方法进行标签预测,具体模型为:
其中,λm是权衡各项的参数,Em是估计各样本间相似性的权值矩阵,可用高斯函数来定义该项。Lm=Zm-Em是拉普拉斯矩阵,Zm是一个对角矩阵,其中表示矩阵M的伪逆。可被定义为:
其中,lj表示第j类样本的数量。
P为初始投影矩阵,同时可通过获得样本xi的软标签。
步骤S102:根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应重构系数矩阵,根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新;
步骤S103:通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数据的判别稀疏编码,以及一个最优的投影分类器;
对机器数据进行标签一致字典学习,所述问题为:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
其中,是重构误差,为学习得到的字典,T1是稀疏约束,是训练数据集的稀疏编码,si可定义如下:
为判别稀疏编码误差,其中为训练数据集的判别稀疏编码,α是该项的权衡参数。当训练样本xi和xj属于不同类别时,这两个训练样本在Q中对应的项为0,反之,为cos(xi,xj).例如,包含3个类别的数据,x1,x2属于类别1,x3,x4属于类别2,x5,x6属于类别3,Q可定义为:
是累积的邻域重构误差,β是该项的权衡参数。表示分类误差,代表一个多类投影分类器,最大元素对应的位置表示xi的软标签,μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=1010,反之μi=0。
基于已提出的矩阵表达式,可以将上述问题重写为:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
其中是一个对角矩阵,Uii=μi。
由于在该模型中,包含多个主要变量(D,S,A,P),且各变量相互影响,因此不能直接解决。因此在求解该问题需要用到迭代求最优解策略,具体为:
在S101步骤得到初始化的投影分类器P后,通过移除独立于D,A,S的各项可得到如下目标函数:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
其中是排序之后的训练数据集,表示属于类别i的所有训练数据。计算时,该问题可转化为如下问题:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
假定原问题转化为:
该问题可归结为KSVD问题,可有效的利用KSVD算法找到最优解,即dk和它相应的系数(S第K行)在同一时刻更新,和Ek中舍弃0项之后的表示为和可通过以下方法得到dk和
其中,可利用SVD分解得到
得到A,S之后,AS用作标签估计方法中估计各个样本之间相似性的权重矩阵,具体为:
移除独立于P的各项,可得到如下目标函数:
求解可得:
获得此投影矩阵之后,可通过更新样本xi的软标签。
当(其中δ=10-6)时,结束此迭代过程。
具体算法如下:
一种机器错误检索算法
输入:原始数据矩阵控制参数α,β,U,稀疏约束T1,字典维度K,以及Y
输出:D,A,S,P,Q
1).利用拉普拉斯判别分析方法直推式预测得到训练集中无标签样本的类别信息,完成初始化;
2).计算P(0),Q(0),D(0),A(0),S(0):
用LC-KSVD训练字典的方法计算D(0)保持各样本类别与字典项目之间的相关性;
更新原始数据矩阵
用OMP算法计算的稀疏编码S(0);
用定义Q的方法初始化Q(0);
用LC-KSVD算法初始化A的方法初始化A(0);
用上述计算投影矩阵的方法初始化P(0);
3).计算D,A,S
当t=0时:KSVD的迭代次数-1
初始化
用KSVD算法通过解决如下问题更新Dnew (t+1)和Snew (t+1):
根据Dnew (t+1)得到A(t+1)和D(t+1)。
通过解决如下问题更新投影分类器P(t+1):
通过解决如下问题更新未标定数据xi的软标签:argmaxi≤c+1fi,fi=P(t+1)Txi
如果停止迭代,反之,继续迭代训练,t=t+1。
步骤S104:利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最大值找到对应的位置,确定测试样本的类别,得到所述机器错误数据的鲁棒分类。
得到测试样本xnew时,利用PTxnew将其嵌入计算得到的多类投影分类器,所得向量的最大元素对应的位置即为待测样本xnew的软标签,每个测试样本的硬标签可以被归结为argmaxi≤c(fnew)i,其中(fnew)i表示预测的软标签向量fnew第i个元素位置。
本发明公开了一种机器错误检索方法与系统,首先利用标签估计方法对机器数据进行直推式分类处理,快速估计出未标定机器数据标签,并计算得到一个初始的投影矩阵。基于训练集中机器数据样本及其标签信息,进行标签一致字典学习,得到的判别稀疏编码可用作标签估计步骤中的自适应重构权重来更新训练集中无标签数据的类别信息及其投影矩阵。通过多次迭代训练,可得到一个判别的可重构字典,机器数据的稀疏编码以及一个最优多类分类器。进而,将待分类的机器数据输入计算得到的多类分类器进行预测,确定待测样本的类别,实现机器数据的错误分类。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的系统实现,因此本发明还公开了一种系统,下面给出具体的实施例进行详细说明。
请参阅附图2,为本发明实施例公开的一种鲁棒机器错误检索系统的结构示意图。本发明公开了一种鲁棒机器错误检索系统,该系统具体包括:
训练预处理模块101,用于利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
训练模块102,用于根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应重构系数矩阵,根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新;
迭代模块103,用于通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数据的判别稀疏编码,以及一个最优的投影分类器;
测试模块104,用于利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最大值找到对应的位置,确定测试样本的类别,得到所述机器错误数据的鲁棒分类。
训练预处理模块101主要完成对训练集中的所有训练样本利用标签估计方法进行直推式分类处理,估计出所有未标定数据类别标签,并输出一个初始的线性投影分类器;
原始的样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和尚未标记的训练样本,已标记和未标记的机器数据向量集合(其中,n是机器数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集(其中任意向量是一个机器数据样本),其中l+u=N,所述测试集中包含测试样本,全部未标记。
根据所述训练集的已标记样本用标签估计方法进行计算,具体为:
其中,λm是权衡各项的参数,Em是估计各样本间相似性的权值矩阵,可用高斯函数来定义该项。Lm=Zm-Em是拉普拉斯矩阵,Zm是一个对角矩阵,其中表示矩阵M的伪逆。可被定义为:
其中,lj表示第j类样本的数量。
训练模块102主要完成基于新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得到判别稀疏编码,并用于标签估计步骤中的自适应权重系数构造,利用自适应的重构系数矩阵更新得到一个投影分类器,并完成对训练集中的无标定样本的类别信息更新。
对机器数据进行标签一致字典学习,所述问题为:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
其中,是重构误差,为学习得到的字典,T1是稀疏约束,是训练数据集的稀疏编码,si可定义如下:
为判别稀疏编码误差,其中为训练数据集的判别稀疏编码,α是该项的权衡参数。当训练样本xi和xj属于不同类别时,这两个训练样本在Q中对应的项为0,反之,为cos(xi,xj).例如,包含3个类别的数据,x1,x2属于类别1,x3,x4属于类别2,x5,x6属于类别3,Q可定义为:
是累积的邻域重构误差,β是该项的权衡参数。表示分类误差,代表一个多类投影分类器,最大元素对应的位置表示xi的软标签,μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=1010,反之μi=0。
基于已提出的矩阵表达式,可以将上述问题重写为:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
其中是一个对角矩阵,Uii=μi。
由于在该模型中,包含多个主要变量(D,S,A,P),且各变量相互影响,因此不能直接解决。在求解该问题需要用到迭代求最优解策略,具体为:
在得到初始化的投影矩阵P后,通过移除独立于D,A,S的各项可得到如下目标函数:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
其中是排序之后的训练数据集,表示属于类别i的所有训练数据。计算时,该问题可转化为如下问题:
Subj||si||0≤T1,i∈{j|j=1,2,...,N}
假定原问题转化为:
该问题可归结为KSVD问题,可有效的利用KSVD算法找到最优解,即dk和它相应的系数(S第K行)在同一时刻更新,和Ek中舍弃0项之后的表示为和可通过以下方法得到dk和
其中,可利用SVD分解得到
得到A,S之后,AS用作标签估计方法中估计各个样本之间相似性的权重矩阵,具体为:
移除独立于P的各项,可得到如下目标函数:
求解可得:
获得此投影矩阵之后,可通过更新样本xi的软标签。
当(其中δ=10-6)时,结束此迭代过程。
具体算法如下:
一种机器错误检索算法
输入:原始数据矩阵控制参数α,β,U,稀疏约束T1,字典维度K,以及Y
输出:D,A,S,P,Q
1).1).利用拉普拉斯判别分析方法直推式预测得到训练集中无标签样本的类别信息,完成初始化;
2).计算P(0),Q(0),D(0),A(0),S(0):
用LC-KSVD训练字典的方法计算D(0)保持各样本类别与字典项目之间的相关性;
更新原始数据矩阵
用OMP算法计算的稀疏编码S(0);
用定义Q的方法初始化Q(0);
用LC-KSVD算法初始化A的方法初始化A(0);
用上述计算投影矩阵的方法初始化P(0);
3).计算D,A,S
当t=0时:KSVD的迭代次数-1
初始化
用KSVD算法通过解决如下问题更新Dnew (t+1)和Snew (t+1):
根据Dnew (t+1)得到A(t+1)和D(t+1)。
通过解决如下问题更新投影分类器P(t+1) :
通过解决如下问题更新未标定数据xi的软标签:argmaxi≤c+1fi,fi=P(t+1)Txi
如果停止迭代,反之,继续迭代训练,t=t+1。
测试模块104主要完成对待测机器数据输入线性投影分类器进行预测,得到待测数据的软标签,确定其类别,实现机器数据的错误分类。
将待测机器数据样本输入多类分类器分类的过程具体为:
得到测试样本xnew时,利用PTxnew将其嵌入计算得到的多类投影分类器,所得向量的最大元素对应的位置即为待测样本xnew的软标签,每个测试样本的硬标签可以被归结为argmaxi≤c(fnew)i,其中(fnew)i表示预测的软标签向量fnew第i个元素位置。
请参阅表1,为本发明方法和SRC(the Sparse Representation-basedClassification)、D-KSVD(Discriminative K-SVD)、LC-KSVD1、LC-KSVD2(LabelConsistent K-SVD)以及Lap-LDA方法识别结果对比表,给出了各方法实验的平均以及最高识别率。本例中,参与比较的D-KSVD和LC-KSVD方法(采用各文献中算法使用的默认参数)使用各自得到的稀疏编码用于机器数据的特征提取,且分类均采用标准化线性分类器。Rolling bearing dataset和Gearboxdataset这几组实验训练样本从各数据集中每类随机选取四个,其中两个作为已标记数据,两个作为未标记数据,剩下的作为测试集。Motor electrical dataset训练样本从数据集中每类随机选取6个,其中3个作为已标记数据,另外三个作为未标记数据,剩下的作为测试集。
表1.本发明和SRC、D-KSVD、LC-KSVD1和LC-KSVD2方法识别结果(%)对比
综上所述,本发明公开了一种鲁棒机器错误检索方法与系统,首先利用标签估计方法对训练集数据进行预处理,估计出未标定机器数据的标签,并初始化一个投影分类器。基于训练样本的类别信息,进行标签一致字典学习,利用得到的判别稀疏编码构造标签预测模型中的自适应重构权,通过计算新的投影分类器来更新无标签训练数据的类信息。通过多次迭代训练,输出一个判别的可重构字典,一个稀疏编码矩阵和一个最优多类分类器。训练得到的分类器可用于新来数据的归纳和类别预测,根据软标签中的概率最大值对应的位置,确定测试样本的类别,完成机器错误数据鲁棒分类。通过提出半监督标签一致字典学习方法,丰富了监督的先验信息,有效提高了机器错误检索的精准度。
对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (5)
1.一种鲁棒机器错误检索方法,其特征在于,包括:
利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应重构系数矩阵,根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新;
通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数据的判别稀疏编码,以及一个最优的投影分类器;
利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最大值找到对应的位置,确定测试样本的类别,得到所述机器错误数据的鲁棒分类。
2.根据权利要求1所述的方法,其特征在于,利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签前还包括:
获取原始的样本数据集合,将所述样本数据集合划分为训练集和测试集,所述训练集中包含已标记的训练样本和未标记的训练样本,所述已标记的训练样本和所述未标记的训练样本的机器数据向量集合n是机器数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量,其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中任意向量为机器数据样本,l+u=N,所述测试集中的测试样本全部未标记。
3.根据权利要求2所述的方法,其特征在于,根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习包括:预设D为学习得到的所述可重构字典,S是训练集的所述判别稀疏编码,AS为所述自适应权重编码,P代表一个所述投影分类器;
为判别稀疏编码误差,其中为训练数据集的判别稀疏编码,α是该项的权衡参数;
当训练样本xi和xj属于不同类别时,所述训练样本xi和xj在Q中对应的项为0,否则训练样本xi和xj在Q中对应的项为cos(xi,xj);
是累积的邻域重构误差,β是该项的权衡参数;
表示分类误差,最大元素对应的位置表示xi的软标签,μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=1010,否则μi=0。
4.根据权利要求3所述的方法,其特征在于,利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签包括:
得到测试样本xnew时,利用PTxnew将其嵌入计算得到多类投影分类器,所得向量的最大元素对应的位置即为待测样本xnew的软标签,每个测试样本的硬标签可以被归结为arg maxi≤c(fnew)i,其中表示预测的软标签向量fnew第i个元素位置。
5.一种鲁棒机器错误检索系统,其特征在于,包括:
训练预处理模块,用于利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签,生成包括所有有标定的样本数据的新训练集;
训练模块,用于根据所述新训练集中的机器错误数据及其标签信息,进行标签一致字典学习,得到判别稀疏编码,利用所述判别系数编码构造自适应权重系数,得到自适应重构系数矩阵,根据所述自适应重构系数矩阵得到一个投影分类器,利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新;
迭代模块,用于通过多次迭代训练,得到一个判别的可重构字典,一个机器错误数据的判别稀疏编码,以及一个最优的投影分类器;
测试模块,用于利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类,得到所述测试集中待测数据的软类别标签,根据所述软类别标签中的概率最大值找到对应的位置,确定测试样本的类别,得到所述机器错误数据的鲁棒分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510408404.9A CN104966105A (zh) | 2015-07-13 | 2015-07-13 | 一种鲁棒机器错误检索方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510408404.9A CN104966105A (zh) | 2015-07-13 | 2015-07-13 | 一种鲁棒机器错误检索方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104966105A true CN104966105A (zh) | 2015-10-07 |
Family
ID=54220140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510408404.9A Pending CN104966105A (zh) | 2015-07-13 | 2015-07-13 | 一种鲁棒机器错误检索方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104966105A (zh) |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608471A (zh) * | 2015-12-28 | 2016-05-25 | 苏州大学 | 一种鲁棒直推式标签估计及数据分类方法和系统 |
CN108038056A (zh) * | 2017-12-07 | 2018-05-15 | 厦门理工学院 | 一种基于不对称分类评估的软件缺陷检测系统 |
CN109299036A (zh) * | 2017-07-25 | 2019-02-01 | 北京嘀嘀无限科技发展有限公司 | 标签生成方法、装置、服务器和计算机可读存储介质 |
CN110249341A (zh) * | 2017-02-03 | 2019-09-17 | 皇家飞利浦有限公司 | 分类器训练 |
CN110580488A (zh) * | 2018-06-08 | 2019-12-17 | 中南大学 | 基于字典学习的多工况工业监测方法、装置、设备及介质 |
CN110796153A (zh) * | 2018-08-01 | 2020-02-14 | 阿里巴巴集团控股有限公司 | 一种训练样本的处理方法、装置 |
CN111461345A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 深度学习模型训练方法及装置 |
CN111832627A (zh) * | 2020-06-19 | 2020-10-27 | 华中科技大学 | 抑制标签噪声的图像分类模型训练方法、分类方法及系统 |
CN111931601A (zh) * | 2020-07-22 | 2020-11-13 | 上海交通大学 | 齿轮箱错误类别标签修正系统及方法 |
CN112487231A (zh) * | 2020-12-17 | 2021-03-12 | 中国矿业大学(北京) | 一种基于双图正则化约束和字典学习的图像自动标注方法 |
CN112560920A (zh) * | 2020-12-10 | 2021-03-26 | 厦门大学 | 一种基于自适应纠错输出编码的机器学习分类方法 |
CN112819027A (zh) * | 2020-12-18 | 2021-05-18 | 北京工业大学 | 一种基于机器学习和相似度评分的分类方法 |
CN112868032A (zh) * | 2018-10-15 | 2021-05-28 | 华为技术有限公司 | 提升ai识别学习能力 |
CN112964962A (zh) * | 2021-02-05 | 2021-06-15 | 国网宁夏电力有限公司 | 一种输电线路故障分类方法 |
CN113348475A (zh) * | 2019-02-04 | 2021-09-03 | 罗伯特·博世有限公司 | 提高针对“对抗示例”的鲁棒性的设备和方法 |
CN113807408A (zh) * | 2021-08-26 | 2021-12-17 | 华南理工大学 | 基于数据驱动的有监督字典学习音频分类方法、系统及介质 |
-
2015
- 2015-07-13 CN CN201510408404.9A patent/CN104966105A/zh active Pending
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105608471A (zh) * | 2015-12-28 | 2016-05-25 | 苏州大学 | 一种鲁棒直推式标签估计及数据分类方法和系统 |
CN110249341A (zh) * | 2017-02-03 | 2019-09-17 | 皇家飞利浦有限公司 | 分类器训练 |
CN109299036B (zh) * | 2017-07-25 | 2021-01-05 | 北京嘀嘀无限科技发展有限公司 | 标签生成方法、装置、服务器和计算机可读存储介质 |
CN109299036A (zh) * | 2017-07-25 | 2019-02-01 | 北京嘀嘀无限科技发展有限公司 | 标签生成方法、装置、服务器和计算机可读存储介质 |
CN108038056A (zh) * | 2017-12-07 | 2018-05-15 | 厦门理工学院 | 一种基于不对称分类评估的软件缺陷检测系统 |
CN108038056B (zh) * | 2017-12-07 | 2020-07-03 | 厦门理工学院 | 一种基于不对称分类评估的软件缺陷检测系统 |
CN110580488A (zh) * | 2018-06-08 | 2019-12-17 | 中南大学 | 基于字典学习的多工况工业监测方法、装置、设备及介质 |
CN110580488B (zh) * | 2018-06-08 | 2022-04-01 | 中南大学 | 基于字典学习的多工况工业监测方法、装置、设备及介质 |
CN110796153A (zh) * | 2018-08-01 | 2020-02-14 | 阿里巴巴集团控股有限公司 | 一种训练样本的处理方法、装置 |
CN110796153B (zh) * | 2018-08-01 | 2023-06-20 | 阿里巴巴集团控股有限公司 | 一种训练样本的处理方法、装置 |
CN112868032A (zh) * | 2018-10-15 | 2021-05-28 | 华为技术有限公司 | 提升ai识别学习能力 |
US11983917B2 (en) | 2018-10-15 | 2024-05-14 | Huawei Technologies Co., Ltd. | Boosting AI identification learning |
CN112868032B (zh) * | 2018-10-15 | 2024-09-20 | 华为技术有限公司 | 提升ai识别学习能力 |
CN113348475A (zh) * | 2019-02-04 | 2021-09-03 | 罗伯特·博世有限公司 | 提高针对“对抗示例”的鲁棒性的设备和方法 |
CN111461345B (zh) * | 2020-03-31 | 2023-08-11 | 北京百度网讯科技有限公司 | 深度学习模型训练方法及装置 |
CN111461345A (zh) * | 2020-03-31 | 2020-07-28 | 北京百度网讯科技有限公司 | 深度学习模型训练方法及装置 |
CN111832627A (zh) * | 2020-06-19 | 2020-10-27 | 华中科技大学 | 抑制标签噪声的图像分类模型训练方法、分类方法及系统 |
CN111832627B (zh) * | 2020-06-19 | 2022-08-05 | 华中科技大学 | 抑制标签噪声的图像分类模型训练方法、分类方法及系统 |
CN111931601A (zh) * | 2020-07-22 | 2020-11-13 | 上海交通大学 | 齿轮箱错误类别标签修正系统及方法 |
CN111931601B (zh) * | 2020-07-22 | 2023-10-20 | 上海交通大学 | 齿轮箱错误类别标签修正系统及方法 |
CN112560920B (zh) * | 2020-12-10 | 2022-09-06 | 厦门大学 | 一种基于自适应纠错输出编码的机器学习分类方法 |
CN112560920A (zh) * | 2020-12-10 | 2021-03-26 | 厦门大学 | 一种基于自适应纠错输出编码的机器学习分类方法 |
CN112487231A (zh) * | 2020-12-17 | 2021-03-12 | 中国矿业大学(北京) | 一种基于双图正则化约束和字典学习的图像自动标注方法 |
CN112819027A (zh) * | 2020-12-18 | 2021-05-18 | 北京工业大学 | 一种基于机器学习和相似度评分的分类方法 |
CN112819027B (zh) * | 2020-12-18 | 2024-05-28 | 北京工业大学 | 一种基于机器学习和相似度评分的分类方法 |
CN112964962A (zh) * | 2021-02-05 | 2021-06-15 | 国网宁夏电力有限公司 | 一种输电线路故障分类方法 |
CN113807408B (zh) * | 2021-08-26 | 2023-08-22 | 华南理工大学 | 基于数据驱动的有监督字典学习音频分类方法、系统及介质 |
CN113807408A (zh) * | 2021-08-26 | 2021-12-17 | 华南理工大学 | 基于数据驱动的有监督字典学习音频分类方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104966105A (zh) | 一种鲁棒机器错误检索方法与系统 | |
CN110969020B (zh) | 基于cnn和注意力机制的中文命名实体识别方法、系统及介质 | |
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
US9053392B2 (en) | Generating a hierarchy of visual pattern classes | |
US9524449B2 (en) | Generation of visual pattern classes for visual pattern recognition | |
CN107330446B (zh) | 一种面向图像分类的深度卷积神经网络的优化方法 | |
Chen | Deep learning with nonparametric clustering | |
CN110188827B (zh) | 一种基于卷积神经网络和递归自动编码器模型的场景识别方法 | |
CN107480261A (zh) | 一种基于深度学习细粒度人脸图像快速检索方法 | |
CN105335756A (zh) | 一种鲁棒学习模型与图像分类系统 | |
CN107451278A (zh) | 基于多隐层极限学习机的中文文本分类方法 | |
CN110263174B (zh) | —基于焦点关注的主题类别分析方法 | |
US20170061257A1 (en) | Generation of visual pattern classes for visual pattern regonition | |
CN104750875B (zh) | 一种机器错误数据分类方法及系统 | |
CN112287672A (zh) | 文本意图识别方法及装置、电子设备、存储介质 | |
CN105389588A (zh) | 基于多语义码本图像特征表示方法 | |
CN114529900A (zh) | 基于特征原型的半监督域适应语义分割方法和系统 | |
CN112905793B (zh) | 一种基于Bilstm+Attention文本分类的案例推荐方法及系统 | |
CN103279581A (zh) | 一种利用紧凑视频主题描述子进行视频检索的方法 | |
Charalampous et al. | Sparse deep-learning algorithm for recognition and categorisation | |
CN114022754A (zh) | 一种结合对比学习的少样本图像识别方法 | |
CN113205149A (zh) | 图片处理方法及装置 | |
Rafati et al. | Trust-region minimization algorithm for training responses (TRMinATR): The rise of machine learning techniques | |
Marconi et al. | Hyperbolic manifold regression | |
CN114036947B (zh) | 一种半监督学习的小样本文本分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20151007 |