CN104966105A

CN104966105A - 一种鲁棒机器错误检索方法与系统

Info

Publication number: CN104966105A
Application number: CN201510408404.9A
Authority: CN
Inventors: 张召; 江威明; 张莉; 李凡长
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-10-07

Abstract

本发明公开了一种鲁棒机器错误检索方法与系统，首先利用标签估计方法对训练集数据进行预处理，估计出未标定机器数据的标签，并初始化一个投影分类器。基于训练样本的类别信息，进行标签一致字典学习，利用得到的判别稀疏编码构造标签预测模型中的自适应重构权，通过计算新的投影分类器来更新无标签训练数据的类信息。通过多次迭代训练，输出一个判别的可重构字典，一个稀疏编码矩阵和一个最优多类分类器。训练得到的分类器可用于新来数据的归纳和类别预测，根据软标签中的概率最大值对应的位置，确定测试样本的类别，完成机器错误数据鲁棒分类。通过提出半监督标签一致字典学习方法，丰富了监督的先验信息，有效提高了机器错误检索的精准度。

Description

一种鲁棒机器错误检索方法与系统

技术领域

本发明涉及数据挖掘及计算机视觉技术领域，具体来说，涉及一种鲁棒机器错误检索方法与系统。

背景技术

随着计算机技术和智能化的不断发展，机器错误分类已经发展成为数据挖掘中非常重要的一个研究课题。机器错误分类技术通过计算机将机器数据电子化，然后分析数据结构，获取数据特征，在机械故障诊断等领域有着重大的意义，一旦研究成功并投入应用，将产生巨大的社会和经济效益。

目前的大部分研究工作都集中在全监督或者无监督方法用于提取机器数据特征进行机器错误分类，且也已取得一定的成果。但是真实世界中的机器数据通常是少量有标签，而大多数无标签，大多数研究表明全监督方法用于数据分类优于无监督方法，但应用全监督方法获取所有数据标签需要很大的开销，因此如何有效利用机器数据中的标签提高分类精度是需要深入探讨的问题。

近年来，K-SVD和D-KSVD(Discriminative K-SVD)等经典的字典学习算法可通过学习一个重构的字典，训练得到数据集的稀疏编码来表征数据的特征，并计算得到线性分类器，可对数据进行分类。但当选取的训练数据样本较少时，数据的特征未能精确的表征，所以分类的精度很低。为了克服此缺点，它们的推广LC-KSVD(Label Consistent K-SVD)被提出，当已知全部数据样本的标签，LC-KSVD在学习判别的可重构字典时，有效的保持字典各项与数据标签的内在联系，使得即使训练样本较少，通过学到的字典训练得到的稀疏编码也能最大程度的表征数据的特征，从而通过计算得到的线性分类器精确的对机器错误数据进行分类。LC-KSVD的目标是用全监督的方法去对数据进行分类，但获得全部数据标签需要很大的开销。

因此，提供一种方便获得数据标签的机器错误分类方法以降低开销，是本领域技术人员亟待解决的问题。

发明内容

有鉴于此，本发明提供了一种鲁棒机器错误检索方法及系统，以克服现有技术中获得数据标签开销大的问题。

为实现上述目的，本发明提供如下技术方案：

一种鲁棒机器错误检索方法，包括：

利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签，生成包括所有有标定的样本数据的新训练集；

根据所述新训练集中的机器错误数据及其标签信息，进行标签一致字典学习，得到判别稀疏编码，利用所述判别系数编码构造自适应权重系数，得到自适应重构系数矩阵，根据所述自适应重构系数矩阵得到一个投影分类器，利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新；

通过多次迭代训练，得到一个判别的可重构字典，一个机器错误数据的判别稀疏编码，以及一个最优的投影分类器；

利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类，得到所述测试集中待测数据的软类别标签，根据所述软类别标签中的概率最大值找到对应的位置，确定测试样本的类别，得到所述机器错误数据的鲁棒分类。

优选地，利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签前还包括：

获取原始的样本数据集合，将所述样本数据集合划分为训练集和测试集，所述训练集中包含已标记的训练样本和未标记的训练样本，所述已标记的训练样本和所述未标记的训练样本的机器数据向量集合n是机器数据的维度，l是已标记训练样本的数量，u是未标记训练样本数量，其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中任意向量为机器数据样本，l+u＝N，所述测试集中的测试样本全部未标记。

优选地，根据所述新训练集中的机器错误数据及其标签信息，进行标签一致字典学习包括：预设D为学习得到的所述可重构字典，S是训练集的所述判别稀疏编码，AS为所述自适应权重编码，P代表一个所述投影分类器；

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

其中，是重构误差，T₁是稀疏约束，

s_i定义如下：

为判别稀疏编码误差，其中为训练数据集的判别稀疏编码，α是该项的权衡参数；

当训练样本x_i和x_j属于不同类别时，所述训练样本x_i和x_j在Q中对应的项为0，否则训练样本x_i和x_j在Q中对应的项为cos(x_i,x_j)；

是累积的邻域重构误差，β是该项的权衡参数；

表示分类误差，最大元素对应的位置表示x_i的软标签，μ_i表示x_i的调整参数，当训练集中x_i的标签已知时，对应的μ_i＝10¹⁰，否则μ_i＝0。

优选地，利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类，得到所述测试集中待测数据的软类别标签包括：

得到测试样本x_new时，利用P^Tx_new将其嵌入计算得到多类投影分类器，所得向量的最大元素对应的位置即为待测样本x_new的软标签，每个测试样本的硬标签可以被归结为argmax_i≤c(f_new)_i，其中(f_new)_i表示预测的软标签向量f_new第i个元素位置。

本发明还提供了一种鲁棒机器错误检索系统，包括：

训练预处理模块，用于利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签，生成包括所有有标定的样本数据的新训练集；

训练模块，用于根据所述新训练集中的机器错误数据及其标签信息，进行标签一致字典学习，得到判别稀疏编码，利用所述判别系数编码构造自适应权重系数，得到自适应重构系数矩阵，根据所述自适应重构系数矩阵得到一个投影分类器，利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新；

迭代模块，用于通过多次迭代训练，得到一个判别的可重构字典，一个机器错误数据的判别稀疏编码，以及一个最优的投影分类器；

测试模块，用于利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类，得到所述测试集中待测数据的软类别标签，根据所述软类别标签中的概率最大值找到对应的位置，确定测试样本的类别，得到所述机器错误数据的鲁棒分类。

应用本发明提供的一种鲁棒机器错误检索方法与系统，首先利用标签估计方法对训练集数据进行预处理，估计出未标定机器数据的标签，并初始化一个投影分类器。基于训练样本的类别信息，进行标签一致字典学习，利用得到的判别稀疏编码构造标签预测模型中的自适应重构权，通过计算新的投影分类器来更新无标签训练数据的类信息。通过多次迭代训练，输出一个判别的可重构字典，一个稀疏编码矩阵和一个最优多类分类器。训练得到的分类器可用于新来数据的归纳和类别预测，根据软标签中的概率最大值对应的位置，确定测试样本的类别，完成机器错误数据鲁棒分类。通过提出半监督标签一致字典学习方法，丰富了监督的先验信息，有效提高了机器错误检索的精准度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例公开的一种机器错误数据分类方法的流程图；

图2为本发明实施例公开的一种机器错误数据分类系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明公开了一种鲁棒机器错误检索方法与系统，首先利用标签估计方法对训练集数据进行预处理，估计出未标定机器数据的标签，并得到一个初始投影分类器。基于训练样本的类标签信息，进行标签一致字典学习，利用得到的判别稀疏编码构造标签估计中的自适应重构权，进而更新训练集中无标签数据的类别信息和投影分类器。通过多次迭代训练，输出一个判别的可重构字典，一个机器数据稀疏编码矩阵和一个最优多类分类器。训练得到的多类分类器可用于新来数据的归纳和类别预测，根据软标签中的概率最大值对应的问题，确定测试样本的类别，完成机器错误分类。通过提出半监督标签一致字典学习方法，增加了有标定样本的数量，丰富了监督的先验信息，因此有效提高了机器错误检索的精准度。

本发明在三个机器数据集的数据库进行了测试：Rolling bearing database,Gearbox dataset和Motor electrical dataset。Rolling bearing database包括4个机器数据集，本发明选取其中0HP和2HP进行测试，0HP包含400个样本，其中包含10个类别，每个类别40个样本，2HP包含800个样本，10个类别，每个类别80个样本；Gearbox dataset包含72个样本，3个类别，每类24个样本；Motor electrical dataset包含90个样本，3个类别，每类30个样本。这些数据库从多方面收集，因而测试结果具有普遍说明性。

请参阅附图1，为本发明实施例公开的一种机器错误检索的方法流程图。本发明实施例公开的一种机器错误检索方法，具体实施步骤为：

步骤S101：利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签，生成包括所有有标定的样本数据的新训练集；

利用训练集中的所有训练样本，利用现有的预测方法(即拉普拉斯判别分析模型)直推式估计得到训练集中的未标定的样本数据的类别标签，生成包括所有有标定的样本数据的新训练集；

原始的样本数据集合划分为训练集和测试集，所述训练集中包含已标记的训练样本和尚未标记的训练样本，已标记和未标记的机器数据向量集合(其中，n是机器数据的维度，l是已标记训练样本的数量，u是未标记训练样本数量)，其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集(其中任意向量是一个机器数据样本)，其中l+u＝N，所述测试集中包含测试样本，全部未标记。

根据所述训练集的已标记样本，以及有标签样本数据与无标签样本数据间的内在几何结构，利用拉普拉斯判别分析方法进行标签预测，具体模型为：

其中，λ_m是权衡各项的参数，E_m是估计各样本间相似性的权值矩阵，可用高斯函数来定义该项。L_m＝Z_m-E_m是拉普拉斯矩阵，Z_m是一个对角矩阵，其中表示矩阵M的伪逆。可被定义为：

其中，l_j表示第j类样本的数量。

P为初始投影矩阵，同时可通过获得样本x_i的软标签。

步骤S102：根据所述新训练集中的机器错误数据及其标签信息，进行标签一致字典学习，得到判别稀疏编码，利用所述判别系数编码构造自适应权重系数，得到自适应重构系数矩阵，根据所述自适应重构系数矩阵得到一个投影分类器，利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新；

步骤S103：通过多次迭代训练，得到一个判别的可重构字典，一个机器错误数据的判别稀疏编码，以及一个最优的投影分类器；

对机器数据进行标签一致字典学习，所述问题为：

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

其中，是重构误差，为学习得到的字典，T₁是稀疏约束，是训练数据集的稀疏编码，s_i可定义如下：

为判别稀疏编码误差，其中为训练数据集的判别稀疏编码，α是该项的权衡参数。当训练样本x_i和x_j属于不同类别时，这两个训练样本在Q中对应的项为0，反之，为cos(x_i,x_j).例如，包含3个类别的数据，x_1,x₂属于类别1，x_3,x₄属于类别2，x_5,x₆属于类别3，Q可定义为：

是累积的邻域重构误差，β是该项的权衡参数。表示分类误差，代表一个多类投影分类器，最大元素对应的位置表示x_i的软标签，μ_i表示x_i的调整参数，当训练集中x_i的标签已知时，对应的μ_i＝10¹⁰，反之μ_i＝0。

基于已提出的矩阵表达式，可以将上述问题重写为：

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

其中是一个对角矩阵，U_ii＝μ_i。

由于在该模型中，包含多个主要变量(D,S,A,P),且各变量相互影响，因此不能直接解决。因此在求解该问题需要用到迭代求最优解策略，具体为：

在S101步骤得到初始化的投影分类器P后，通过移除独立于D,A,S的各项可得到如下目标函数：

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

其中是排序之后的训练数据集，表示属于类别i的所有训练数据。计算时，该问题可转化为如下问题：

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

假定原问题转化为：

该问题可归结为KSVD问题，可有效的利用KSVD算法找到最优解，即d_k和它相应的系数(S第K行)在同一时刻更新，和E_k中舍弃0项之后的表示为和可通过以下方法得到d_k和

其中，可利用SVD分解得到

得到A,S之后，AS用作标签估计方法中估计各个样本之间相似性的权重矩阵，具体为：

移除独立于P的各项，可得到如下目标函数：

求解可得：

获得此投影矩阵之后，可通过更新样本x_i的软标签。

当(其中δ＝10^-6)时，结束此迭代过程。

具体算法如下：

一种机器错误检索算法

输入：原始数据矩阵控制参数α，β，U，稀疏约束T₁，字典维度K，以及Y

输出：D,A,S,P,Q

1).利用拉普拉斯判别分析方法直推式预测得到训练集中无标签样本的类别信息，完成初始化；

2).计算P⁽⁰⁾,Q⁽⁰⁾,D⁽⁰⁾,A⁽⁰⁾,S⁽⁰⁾:

用LC-KSVD训练字典的方法计算D⁽⁰⁾保持各样本类别与字典项目之间的相关性；

更新原始数据矩阵

用OMP算法计算的稀疏编码S⁽⁰⁾；

用定义Q的方法初始化Q⁽⁰⁾；

用LC-KSVD算法初始化A的方法初始化A⁽⁰⁾；

用上述计算投影矩阵的方法初始化P⁽⁰⁾；

3).计算D,A,S

当t＝0时：KSVD的迭代次数-1

初始化

用KSVD算法通过解决如下问题更新D_new ^(t+1)和S_new ^(t+1)：

根据D_new ^(t+1)得到A^(t+1)和D^(t+1)。

通过解决如下问题更新投影分类器P^(t+1)：

通过解决如下问题更新未标定数据x_i的软标签：argmax_i≤c+1f_i,f_i＝P^(t+1)Tx_i

如果停止迭代，反之，继续迭代训练，t＝t+1。

步骤S104：利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类，得到所述测试集中待测数据的软类别标签，根据所述软类别标签中的概率最大值找到对应的位置，确定测试样本的类别，得到所述机器错误数据的鲁棒分类。

得到测试样本x_new时，利用P^Tx_new将其嵌入计算得到的多类投影分类器，所得向量的最大元素对应的位置即为待测样本x_new的软标签，每个测试样本的硬标签可以被归结为argmax_i≤c(f_new)_i，其中(f_new)_i表示预测的软标签向量f_new第i个元素位置。

本发明公开了一种机器错误检索方法与系统，首先利用标签估计方法对机器数据进行直推式分类处理，快速估计出未标定机器数据标签，并计算得到一个初始的投影矩阵。基于训练集中机器数据样本及其标签信息，进行标签一致字典学习，得到的判别稀疏编码可用作标签估计步骤中的自适应重构权重来更新训练集中无标签数据的类别信息及其投影矩阵。通过多次迭代训练，可得到一个判别的可重构字典，机器数据的稀疏编码以及一个最优多类分类器。进而，将待分类的机器数据输入计算得到的多类分类器进行预测，确定待测样本的类别，实现机器数据的错误分类。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的系统实现，因此本发明还公开了一种系统，下面给出具体的实施例进行详细说明。

请参阅附图2，为本发明实施例公开的一种鲁棒机器错误检索系统的结构示意图。本发明公开了一种鲁棒机器错误检索系统，该系统具体包括：

训练预处理模块101，用于利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签，生成包括所有有标定的样本数据的新训练集；

训练模块102，用于根据所述新训练集中的机器错误数据及其标签信息，进行标签一致字典学习，得到判别稀疏编码，利用所述判别系数编码构造自适应权重系数，得到自适应重构系数矩阵，根据所述自适应重构系数矩阵得到一个投影分类器，利用所述投影分类器对训练集中的未标定的样本数据的类别信息进行更新；

迭代模块103，用于通过多次迭代训练，得到一个判别的可重构字典，一个机器错误数据的判别稀疏编码，以及一个最优的投影分类器；

测试模块104，用于利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类，得到所述测试集中待测数据的软类别标签，根据所述软类别标签中的概率最大值找到对应的位置，确定测试样本的类别，得到所述机器错误数据的鲁棒分类。

训练预处理模块101主要完成对训练集中的所有训练样本利用标签估计方法进行直推式分类处理，估计出所有未标定数据类别标签，并输出一个初始的线性投影分类器；

根据所述训练集的已标记样本用标签估计方法进行计算，具体为：

其中，l_j表示第j类样本的数量。

训练模块102主要完成基于新训练集中的机器错误数据及其标签信息，进行标签一致字典学习，得到判别稀疏编码，并用于标签估计步骤中的自适应权重系数构造，利用自适应的重构系数矩阵更新得到一个投影分类器，并完成对训练集中的无标定样本的类别信息更新。

对机器数据进行标签一致字典学习，所述问题为：

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

基于已提出的矩阵表达式，可以将上述问题重写为：

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

其中是一个对角矩阵，U_ii＝μ_i。

由于在该模型中，包含多个主要变量(D,S,A,P),且各变量相互影响，因此不能直接解决。在求解该问题需要用到迭代求最优解策略，具体为：

在得到初始化的投影矩阵P后，通过移除独立于D,A,S的各项可得到如下目标函数：

Subj||s_i||₀≤T₁,i∈{j|j＝1,2,...,N}

假定原问题转化为：

其中，可利用SVD分解得到

移除独立于P的各项，可得到如下目标函数：

求解可得：

获得此投影矩阵之后，可通过更新样本x_i的软标签。

当(其中δ＝10^-6)时，结束此迭代过程。

具体算法如下：

一种机器错误检索算法

输出：D,A,S,P,Q

1).1).利用拉普拉斯判别分析方法直推式预测得到训练集中无标签样本的类别信息，完成初始化；

2).计算P⁽⁰⁾,Q⁽⁰⁾,D⁽⁰⁾,A⁽⁰⁾,S⁽⁰⁾:

更新原始数据矩阵

用OMP算法计算的稀疏编码S⁽⁰⁾；

用定义Q的方法初始化Q⁽⁰⁾；

用LC-KSVD算法初始化A的方法初始化A⁽⁰⁾；

用上述计算投影矩阵的方法初始化P⁽⁰⁾；

3).计算D,A,S

当t＝0时：KSVD的迭代次数-1

初始化

用KSVD算法通过解决如下问题更新D_new ^(t+1)和S_new ^(t+1)：

根据D_new ^(t+1)得到A^(t+1)和D^(t+1)。

通过解决如下问题更新投影分类器P^(t+1) _：

如果停止迭代，反之，继续迭代训练，t＝t+1。

测试模块104主要完成对待测机器数据输入线性投影分类器进行预测，得到待测数据的软标签，确定其类别，实现机器数据的错误分类。

将待测机器数据样本输入多类分类器分类的过程具体为：

请参阅表1，为本发明方法和SRC(the Sparse Representation-basedClassification)、D-KSVD(Discriminative K-SVD)、LC-KSVD1、LC-KSVD2(LabelConsistent K-SVD)以及Lap-LDA方法识别结果对比表，给出了各方法实验的平均以及最高识别率。本例中，参与比较的D-KSVD和LC-KSVD方法(采用各文献中算法使用的默认参数)使用各自得到的稀疏编码用于机器数据的特征提取，且分类均采用标准化线性分类器。Rolling bearing dataset和Gearboxdataset这几组实验训练样本从各数据集中每类随机选取四个，其中两个作为已标记数据，两个作为未标记数据，剩下的作为测试集。Motor electrical dataset训练样本从数据集中每类随机选取6个，其中3个作为已标记数据，另外三个作为未标记数据，剩下的作为测试集。

表1.本发明和SRC、D-KSVD、LC-KSVD1和LC-KSVD2方法识别结果(％)对比

综上所述，本发明公开了一种鲁棒机器错误检索方法与系统，首先利用标签估计方法对训练集数据进行预处理，估计出未标定机器数据的标签，并初始化一个投影分类器。基于训练样本的类别信息，进行标签一致字典学习，利用得到的判别稀疏编码构造标签预测模型中的自适应重构权，通过计算新的投影分类器来更新无标签训练数据的类信息。通过多次迭代训练，输出一个判别的可重构字典，一个稀疏编码矩阵和一个最优多类分类器。训练得到的分类器可用于新来数据的归纳和类别预测，根据软标签中的概率最大值对应的位置，确定测试样本的类别，完成机器错误数据鲁棒分类。通过提出半监督标签一致字典学习方法，丰富了监督的先验信息，有效提高了机器错误检索的精准度。

对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种鲁棒机器错误检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，利用标签预测方法通过直推式方式估计得到训练集中的未标定样本数据的类别标签前还包括：

3.根据权利要求2所述的方法，其特征在于，根据所述新训练集中的机器错误数据及其标签信息，进行标签一致字典学习包括：预设D为学习得到的所述可重构字典，S是训练集的所述判别稀疏编码，AS为所述自适应权重编码，P代表一个所述投影分类器；

\begin{matrix} &lang; D, S, A, P &rang; = \arg \min_{D, S, A, P} | | X - D S | |_{F}^{2} + α | | Q - A S | |_{F}^{2} + β Σ_{j = 1}^{l + u} | | P^{T} x_{j} - P^{T} \underset{j : x_{j &Element; N (x_{i})}}{Σ} (A S) i, j x_{j} | |_{2}^{2} + Σ_{i = 1}^{l + u} μ_{i} | | P^{T} x_{i} - y_{i} | |_{2}^{2} \\ S u b j | | s_{i} | |_{0} \leq T_{1}, i &Element; {j | j = 1, 2, ..., N} \end{matrix},

其中，是重构误差，T₁是稀疏约束，s_i定义如下：

s_{i} = s * (x_{i}, D) &equiv; \arg \underset{s}{m i n} | | x_{i} - D s | |_{2}^{2} s . t . | | s | |_{0} \leq T_{1},

当训练样本x_i和x_j属于不同类别时，所述训练样本x_i和x_j在Q中对应的项为0，否则训练样本x_i和x_j在Q中对应的项为cos(x_i，x_j)；

是累积的邻域重构误差，β是该项的权衡参数；

4.根据权利要求3所述的方法，其特征在于，利用所述最优的投影分类器完成对待测机器错误数据的类别预测和检索分类，得到所述测试集中待测数据的软类别标签包括：

得到测试样本x_new时，利用P^Tx_new将其嵌入计算得到多类投影分类器，所得向量的最大元素对应的位置即为待测样本x_new的软标签，每个测试样本的硬标签可以被归结为arg max_i≤c(f_new)_i，其中表示预测的软标签向量f_new第i个元素位置。

5.一种鲁棒机器错误检索系统，其特征在于，包括：