CN114118219A

CN114118219A - 基于数据驱动的长期加电设备健康状态实时异常检测方法

Info

Publication number: CN114118219A
Application number: CN202111284811.5A
Authority: CN
Inventors: 王冠; 王伟; 王潇宇; 李璨; 朱骋; 范浩鑫; 吉彬; 刘存秋; 阎小涛; 康健; 沈超鹏; 刘苑伊; 何巍; 徐西宝; 续堃
Original assignee: Beijing Institute of Astronautical Systems Engineering
Current assignee: Beijing Institute of Astronautical Systems Engineering
Priority date: 2021-11-01
Filing date: 2021-11-01
Publication date: 2022-03-01

Abstract

本发明公开了一种基于数据驱动的长期加电设备健康状态实时异常检测方法，该方法包括如下步骤：步骤一：对长期加电设备采集到的加电设备数据，进行数据处理得到观测数据，将观测数据进行转换或增强处理，得到有效测量数据；步骤二：对步骤一中的有效测量数据进行降维处理得到降维处理后的数据，对降维处理后的数据采用随机森林模型和相关性分析选取重要变量；步骤三：根据步骤二筛选得到的重要变量通过时域特征提取以及频域特征提取得到寿命特征；对寿命特征进行平滑处理得到加电设备寿命特征；步骤四：根据步骤三中的加电设备寿命特征，采用基于多变量聚类与主成分分析的故障趋势预测算法得到故障因子；步骤五：根据步骤三计算得到的加电设备寿命特征,建立故障预测模型。本发明提高了预测准确性和模型的鲁棒性。

Description

基于数据驱动的长期加电设备健康状态实时异常检测方法

技术领域

本发明属于加电设备健康状态检测技术领域，尤其涉及一种基于数据驱动的长期加电设备健康状态实时异常检测方法。

背景技术

长期加电设备试验数据是某设备在运行过程中由不同传感器实时监测的各项数据，其中某些参数量直接或者间接关系到设备的运行状况。通过分析长期加电数据，构建出故障预测与健康管理系统(PHM)，以实时进行健康状态评估能够有效保障设备所在系统的正常运转。

数据驱动的长期加电数据健康状况实时监测的核心和基础在于故障诊断和预测技术。随着测试技术的迅速发展，尤其是测试信息采集、传输和存储能力的快速提高，目标对象系统可用的状态监测数据(含传感器数据)、测试数据、试验数据呈级数增长，由此，对于数据驱动的长期加电设备的PHM方法能够获得更多的支撑，其研究获得了越来越多的关注，多种新颖的算法、不同领域的应用拓展和深入等，使得数据驱动型长期加电设备的健康监测中获得了快速的发展。

数据驱动型长期加电设备的健康监测方法，通过对象系统的状态监测，从历史数据中认识或学习对象系统的健康/非健康行为，将原始监测数据转化为相关信息和行为模型，以对未来对象系统行为进行预测。机器学习和统计分析方法是数据驱动型长期加电设备的健康监测的主流算法，现有的健康检测方法存在预测准确性不够、模型的鲁棒性不够强的问题。

发明内容

本发明解决的技术问题是：克服现有技术的不足，提供了一种基于数据驱动的长期加电设备健康状态实时异常检测方法，提高了预测准确性和模型的鲁棒性。

本发明目的通过以下技术方案予以实现：一种基于数据驱动的长期加电设备健康状态实时异常检测方法，所述方法包括如下步骤：

步骤一：对长期加电设备采集到的加电设备数据，进行数据清理、数据集成、数据变换以及数据归约得到观测数据，将观测数据进行转换或增强处理，得到有效测量数据；

步骤二：对步骤一中的有效测量数据进行降维处理得到降维处理后的数据，对降维处理后的数据采用随机森林模型和相关性分析选取重要变量；

步骤三：根据步骤二筛选得到的重要变量通过时域特征提取以及频域特征提取得到寿命特征；对寿命特征进行平滑处理得到加电设备寿命特征；

步骤四：根据步骤三中的加电设备寿命特征，采用基于多变量聚类与主成分分析的故障趋势预测算法得到故障因子H(i′)；

步骤五：根据步骤三计算得到的加电设备寿命特征，建立故障预测模型。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，在步骤一中，加电设备数据包括振动数据、环境数据、电气数据。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，在步骤二中，使用主元分析对有效测量数据进行降维处理，从多变量中筛选出少数对故障有影响的变量，并尝试在可视化较低维度进行观察以及聚类处理。其中，较低维为2至3维。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，在步骤二中，随机森林变量重要性主要的量化分类方法包含利用基尼指数或者袋外数据错误两种评价指标。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，基尼指数通过如下公式得到：

其中，GI_m为基尼指数，m为分类，p_mk表示将k类分类到m类的错误分类情况的概率，K为总的类别个数。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，重要变量通过如下公式得到：

其中，Importance_i为重要变量，errOOB_normal为正常的分类错误率，errOOB_noise为带噪声的分类错误率，K为总的类别个数，M为节点出现的集合，i为变量标记，

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，在步骤三中，寿命特征包括标准差、偏度、峭度、波形因子、峰值因子、裕度因子和L2范数增益。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，在步骤三中，平滑处理方法包括：在提取高维特征时，根据所训练的样本的采样点数量进行滑动窗口的参数切片，选取预设的窗口长度以及滑动步长，按照设定的滑动窗口长度，逐次沿着时间轴T滑动窗口，对窗口内的参数片段提取特征；用于聚类异常分析的参数特征有标准差std、峭度kurt、偏度skew、波形因子form、峰值因子peak、裕度因子margin和L2范数增益I2；将每个窗口内提取到的特征保存为一个7维向量，当滑动窗口在原始时序参数遍历完成后，F1，F2…Fn这n个参数构成n个(T-w，7)维度的矩阵。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，在步骤四中，故障因子H(i′)通过如下公式得到：

其中，H(i′)表示窗口i‘的故障因子；j表示集合中任意样本的奇异值；#表示集合包含元素的个数；WindowLength表示滑动窗口的长度。

上述基于数据驱动的长期加电设备健康状态实时异常检测方法中，在步骤五中，建立故障预测模型包括如下步骤：

(1)取步骤一得到的有效测量数据中已有数据的正常阶段和故障阶段的F1、F2…Fn参数；

(2)对于正常阶段数据以W1个采样点取一个滑动窗口，并且构建每个窗口对应的特征向量I，数据标签集设为1，将正常阶段窗口向量点集记为A；

(3)对于故障阶段数据以W2个采样点取一个滑动窗口，并且构建每个窗口对应的特征向量I，数据标签集设为0，将故障阶段窗口特征向量点集记为B；

(4)对每个滑动窗口所取得的正常阶段窗口向量点集A和故障阶段窗口特征向量点集B进行归一化得到归一化数据；

(5)根据归一化数据用KNN方法训练得到模型KNN_Model；

(6)取步骤一得到的有效测量数据中的待测试数据中F1’，F2’...Fn’参数；

(7)根据步骤(6)待测试数据的采样频率，固定采样时间内构建一个滑动窗口Wi，计算该窗口内的特征向量I’；

(8)对滑动窗口Wi所取得的的特征向量组进行归一化得到归一化待测数据特征向量；

(9)根据归一化待测数据特征向量调用训练好的KNN_Model进行特征向量的分类，根据如下距离公式获取训练集特征向量与I’最为相近的5个点c1、c2、c3、c4和c5，记为点集C＝{c1，c2，c3，c4，c5}；

(10)当点集C中的5个点多数属于A，窗口Wi判定为正常数据，则该窗口的检测值Rwi＝1；当点集C中5个点多数属于B，则判定该窗口数据有故障趋势，检测值Rwi＝0；其中，多数为大于等于3；

(11)重复步骤(7)至步骤(10)直至遍历所有待测试数据集，得到每个滑动窗口有关的检测值列表R；

(12)取所设定的N个原始滑动窗口Wi为一个判定窗口S，根据检测值列表R得到判定窗口S中的健康因子H。

本发明与现有技术相比具有如下有益效果：

(1)本发明通过工况分类和提取时域特征因子构建了更高维度的特征，提高了模型对复杂关系的拟合能力。

(2)本发明通过定义滑动窗口的故障因子，有效从数据中剥离了故障特征，形成了合理的故障判据，为后续的故障预测提供了依据。

(3)本发明利用KMeans模型对特征向量分类，能够高效准确地完成对故障特征向量和正常特征向量的分类，以此对潜在的故障进行识别和分类；

(4)本发明通过PCA数据降维算法将数据集原本的n维特征映射到m维的特征上。在保留绝大部分方差的维度特征的基础上从多变量中筛选出少数对故障有影响的变量，有效提高了故障诊断的效率。

(5)本发明的长期加电设备健康状态的检测输出结果结合多变量聚类模型以及有监督学习的故障预测模型，确保了检测结果的准确性；

(6)本发明采用的模型结构简单高效，减少了计算消耗资源，减轻了部署难度和硬件要求。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的基于多变量聚类与主成分分析的故障趋势预测方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1是本发明实施例提供的基于多变量聚类与主成分分析的故障趋势预测方法的流程图。如图1所示，本实施例提供了一种基于数据驱动的长期加电设备健康状态实时异常检测方法，包括如下步骤：

步骤一：对长期加电设备采集到的振动数据、环境数据、电气数据等，进行数据清理、数据集成、数据变换以及数据归约，去除数据集中的脏数据，将观测数据进行转换或增强处理，得到有效测量数据。

步骤二：根据步骤一得到的有效测量数据，首先使用主元(PCA)分析对有效测量数据进行降维处理，从多变量中筛选出少数对故障有影响的变量，并尝试在可视化较低维度(2至3维)进行观察以及聚类处理，并从中尝试对故障发生原因进行解释。

降维处理之后再采用随机森林模型和相关性分析选取最重要的变量。随机森林变量重要性主要的量化分类方法包含利用基尼指数(Gini Index)或者袋外数据错误两种评价指标。基尼指数可以用来评价变量节点的分裂不纯度，其计算公式为：

其中p_mk表示将k类分类到m类的错误分类情况的概率。K为总的类别个数。GI_m为基尼指数，m为分类。

由于随机森林包含多棵决策树，因此对于其中某个变量重要性衡量指标VIM_i可以被衡量为：

其中，重要性衡量指标VIM_i＝∑_m∈MGI_m-GI_l-GI_r，M为节点出现的集合，GI_l为相似类基尼指数，GI_r为不相似类基尼指数，VIM_j为变量为j重要性衡量指标。袋外数据错误指标通过对某一特征标签加入噪声，将带噪声数据集输入判断随机森林分类结果的变化。变化可以衡量数据标签重要程度，可作为特征提取的参考。其计算公式如下：

步骤三：根据步骤二筛选得到的重要变量通过时域特征提取以及频域特征提取得到相应的特征。采集到的特征包括：

a)标准差(std)：衡量窗口内数据的离散程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。

b)偏度(kurt)：描述窗口内数据分布偏斜方向和程度的度量。

c)峭度(skew)：衡量窗口内数据分布平稳程度的因子，用于描述变量的分布。

d)波形因子(form)：是交流讯号中的一个无因次量，是讯号的均方根值和整流平均值的比值。

e)峰值因子(peak)：是信号峰值与有效值(RMS)的比值，代表的是峰值在波形中的极端程度。

f)裕度因子(margin)：裕度因子是信号峰值与方根幅值的比值。

g)L2范数增益(I2)：可简单形象的理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。

在提取高维特征时，应该根据所训练的样本的采样点数量进行滑动窗口的参数切片，选取合适范围的窗口长度以及滑动步长。设置较长的移动步长用来保证每个窗口片段内提取的特征参数产生可区别的变化。按照设定的滑动窗口长度，逐次沿着时间轴T滑动窗口，对窗口内的参数片段提取特征。用于聚类异常分析的参数特征有标准差std、峭度kurt、偏度skew、波形因子form、峰值因子peak、裕度因子margin和L2范数增益I2。我们将每个窗口内提取到的特征保存为一个7维向量，当滑动窗口在原始时序参数遍历完成后，F1，F2...Fn这n个参数构成n个(T-w，7)维度的矩阵。

步骤四：根据步骤三计算得到的加电设备寿命特征，采用基于多变量聚类与主成分分析的故障趋势预测算法得到故障因子H(i′)。为了发现故障发生前参数特征的变化情况，通过构建故障因子H以实现对设备故障发生前参数变化趋势的监测。训练好的聚类算法将得到聚类中心，依据PCA构建的主成分特征通过下式计算样本点到聚类中心的距离从而将样本点分为多数类P和少数类Q，

其中，d(x，u)为样本点到聚类中心的距离，x为样本点，u为聚类中心，x_i为变量标记为i的样本点，u_i为变量标记为i的聚类中心，n为总的样本数。

故障因子的构建通过滑动窗口对整个序列进行处理以得到多组数据，统计经过滑动窗口处理过的每组数据中少数类的均值以得到故障因子H。

上式中H(i′)表示窗口i‘的故障因子；j表示集合中任意样本的奇异值；#表示集合包含元素的个数；WindowLength表示滑动窗口的长度。因此，H值表示滑动窗口中少数类的个数与滑动窗口长度的比值。H的值越大，表明窗口i发生故障的可能性越大。

步骤五：

根据步骤三计算得到的加电设备寿命特征，建立故障预测模型。

针对步骤四得到的故障预测算法，进行有监督学习的故障预测模型的建立。根据正常阶段、退化阶段、故障阶段将步骤一得到的有效测量数据F1，F2...Fn这n个参数构成n个(T-w，7)维的矩阵进行划分，求出每个参数的高维特征在每一阶段的均值和方差。最后选取均值与方差差异最大的10个特征构成10维的特征向量I＝[I1，I2...I10]。

整个模型构建与退化预测的步骤如下：

(1)取步骤一得到的有效测量数据中已有数据中的正常阶段和故障阶段的F1，F2...Fn参数；需要说明的是，步骤一中的有效测量数据包括已有数据和待测数据。

(4)对每个滑动窗口所取得的正常阶段窗口向量点集记为A和正常阶段窗口向量点集记为A进行归一化得到归一化数据；

(5)根据归一化数据用KNN方法训练得到模型KNN_Model；

(6)取步骤一得到的有效测量数据待测试数据中F1’，F2’...Fn’参数；

(9)根据归一化待测数据特征向量调用训练好的KNN_Model进行特征向量的分类，根据如下距离公式获取训练集特征向量与I’最为相近的5个点，记为点集C＝{c1，c2，c3，c4，c5}

其中，I′_i为待测数据第i个滑动窗口的特征向量，I_i为已有数据第i个滑动窗口的特征向量，

(10)当点集C中的5个点多数属于A，窗口Wi判定为正常数据，则该窗口的检测值Rwi＝1；当点集C中5个点多数属于B，则判定该窗口数据有故障趋势，检测值Rwi＝0。公式如下：

(11)重复步骤(7)-(10)直至遍历所有待测试数据集，得到每个滑动窗口有关的检测值列表R。

(12)根据所分析数据的特点，取所设定的N个原始滑动窗口Wi为一个判定窗口S，来计算该窗口中的健康因子H。

式中，N为选取的原始滑动窗口数，k′为当前所判定窗口的时间序列号，Rwi为当前所判定窗口的检测值。

本发明在每个参数量上面提取了七个高维特征，每个特征的计算方法如下：

标准差(std)：衡量窗口内数据的离散程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中，研究方差即偏离程度有着重要意义。标准差计算公式如下：

其中σ为总体方差，X为总体变量，μ为总体均值，N为总体例数。

偏度(kurt)：描述窗口内数据分布偏斜方向和程度的度量。统计数据分布非对称程度的数字特征。负数向右偏，正数向左偏。偏度计算公式如下

其中S_k代表偏度，μ₃和μ₂分别代表三阶和二阶中心矩，σ代表标准差。

峭度(skew)：衡量窗口内数据分布平稳程度的因子，用于描述变量的分布。峭度计算公式如下：

其中μ₄代表四阶中心矩，σ代表标准差。

波形因子(form)：是交流讯号中的一个无因次量，是讯号的均方根值和整流平均值的比值。波形因子是相同功率的直流讯号和原交流讯号的比值。波形因子计算公式如下：

其中X_rms代表均方根值，即是将所有值平方求和，求其均值，再开平方。X_arv代表整流平均值，指的是信号序列绝对值的平均值。

峰值因子(peak)：是信号峰值与有效值(RMS)的比值，代表的是峰值在波形中的极端程度。峰值因子计算公式如下：

其中X_rms代表均方根值，即是将所有值平方求和，求其均值，再开平方。X_max代表信号峰值。

裕度因子(margin)：裕度因子是信号峰值与方根幅值的比值。方根幅值和有效值是对应的，均方根的公式是信号平方和的平均值的算术平方根，方根幅值是算术平方根的平均值的平方。裕度因子计算公式如下：

其中X_max代表信号峰值。X_sra代表方根幅值，即序列中每个参数算术平方根的平均值的平方。

L2范数增益(L2)：可简单形象的理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。

上述7个变量都在均值的基础上进行运算，均与所计算的样本个数无关，因此不同样本个数的窗口对这些特征因子的值不会产生影响。

本发明通过工况分类和提取时域特征因子构建了更高维度的特征，提高了模型对复杂关系的拟合能力；本发明通过定义滑动窗口的故障因子，有效从数据中剥离了故障特征，形成了合理的故障判据，为后续的故障预测提供了依据；本发明利用KMeans模型对特征向量分类，能够高效准确地完成对故障特征向量和正常特征向量的分类，以此对潜在的故障进行识别和分类；本发明通过PCA数据降维算法将数据集原本的n维特征映射到m维的特征上。在保留绝大部分方差的维度特征的基础上从多变量中筛选出少数对故障有影响的变量，有效提高了故障诊断的效率；本发明的长期加电设备健康状态的检测输出结果结合多变量聚类模型以及有监督学习的故障预测模型，确保了检测结果的准确性；本发明采用的模型结构简单高效，减少了计算消耗资源，减轻了部署难度和硬件要求。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于，所述方法包括如下步骤：

步骤四：根据步骤三中的加电设备寿命特征，采用基于多变量聚类与主成分分析的故障趋势预测算法得到故障因子；

步骤五：根据步骤三计算得到的加电设备寿命特征,建立故障预测模型。

2.根据权利要求1所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：在步骤一中，加电设备数据包括振动数据、环境数据、电气数据。

3.根据权利要求1所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：在步骤二中，使用主元分析对有效测量数据进行降维处理，从多变量中筛选出少数对故障有影响的变量，并尝试在可视化较低维度进行观察以及聚类处理。其中，较低维为2至3维。

4.根据权利要求1所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：在步骤二中，随机森林变量重要性主要的量化分类方法包含利用基尼指数或者袋外数据错误两种评价指标。

5.根据权利要求4所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：基尼指数通过如下公式得到：

6.根据权利要求4所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：重要变量通过如下公式得到：

其中，Importance_i为重要变量，errOOB_normal为正常的分类错误率，errOOB_noise为带噪声的分类错误率，K为总的类别个数，M为节点出现的集合，i为变量标记。

7.根据权利要求1所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：在步骤三中，寿命特征包括标准差、偏度、峭度、波形因子、峰值因子、裕度因子和L2范数增益。

8.根据权利要求1所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：在步骤三中，平滑处理方法包括：在提取高维特征时，根据所训练的样本的采样点数量进行滑动窗口的参数切片，选取预设的窗口长度以及滑动步长，按照设定的滑动窗口长度,逐次沿着时间轴T滑动窗口,对窗口内的参数片段提取特征；用于聚类异常分析的参数特征有标准差std、峭度kurt、偏度skew、波形因子form、峰值因子peak、裕度因子margin和L2范数增益l2；将每个窗口内提取到的特征保存为一个7维向量，当滑动窗口在原始时序参数遍历完成后，F1,F2…Fn这n个参数构成n个(T-w,7)维度的矩阵。

9.根据权利要求1所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：在步骤四中，故障因子H(i′)通过如下公式得到：

10.根据权利要求1所述的基于数据驱动的长期加电设备健康状态实时异常检测方法，其特征在于：在步骤五中，建立故障预测模型包括如下步骤：

(5)根据归一化数据用KNN方法训练得到模型KNN_Model；

(6)取步骤一得到的有效测量数据中的待测试数据中F1’,F2’…Fn’参数；