CN117521512A

CN117521512A - 一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法

Info

Publication number: CN117521512A
Application number: CN202311568493.4A
Authority: CN
Inventors: 姜斌; 彭华超; 冒泽慧
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2023-11-22
Filing date: 2023-11-22
Publication date: 2024-02-06

Abstract

本发明公开了一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，包括：对轴承全寿命周期的状态监测数据进行健康状态划分和归一化数据预处理，并构建训练集和测试集；构建用于剩余使用寿命预测的多尺度贝叶斯卷积Transformer模型；通过考虑不确定性的反向传播算法训练该模型，得训练好的模型；将测试集输入到训练好的模型中，获得轴承剩余使用寿命预测值及概率分布；计算该剩余使用寿命预测结果的置信度为95％的置信区间；对剩余使用寿命预测概率分布的核分布进行可视化；计算剩余使用寿命预测结果的过高预测率和不确定性估计值，以评估预测结果的可信程度。本发明可有效提高轴承剩余寿命预测的可靠性，准确性和鲁棒性。

Description

一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法

技术领域

本发明属于轴承剩余使用寿命预测技术领域，涉及一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法。

背景技术

轴承是工业设备尤其是旋转机械设备中广泛应用的关键机械部件。由于长期运行在恶劣的环境中，轴承的使用性能将不可避免地下降，直至完全失效，这会导致工业设备停机并带来大量的经济损失及人员伤亡。剩余使用寿命预测是预测与健康管理技术之一，它可以提前预测设备在完全失效发生前的剩余正常工作时间，从而提前做出具有成本效益的维修决策，以提高设备运行的稳定性和可靠性。因此，开发出一种可靠的轴承剩余使用寿命预测方法至关重要。

随着工业相关的数据传输和计算技术的不断进步，大量的工业设备状态监测信号被采集，这使得基于数据驱动的剩余使用寿命预测方法得到了广泛发展。该方法可从机械设备的全寿命周期状态监测数据中学习潜在的退化特征，并建立退化特征与剩余使用寿命值之间的非线性映射关系，进而实现剩余使用寿命预测。基于数据驱动的剩余使用寿命预测方法通常包括两种类型即浅层机器学习方法和深度学习方法。浅层机器学习方法有支持向量机、相关向量机和隐马尔可夫模型等。然而，这些方法只能学习浅层特征，导致剩余使用寿命预测性能较差，并且需要复杂的人工特征工程，非常费时费力。随着具有强大表示学习能力的深度学习技术的快速发展，深度学习模型，如循环神经网络、卷积神经网络及其各种变体如长短期记忆和门控循环单元，已经成为更加有效的剩余使用寿命预测技术。深度学习模型可以直接从原始的全寿命状态监测数据中学习深度特征，进行端到端的剩余使用寿命预测，而无需任何人工特征工程。这些深度学习方法在剩余使用寿命预测方面取得了较好的预测性能。然而，由于循环神经网络的梯度消失和爆炸问题，卷积神经网络的感受野有限，导致这些循环神经网络、卷积神经网络及其变体模型的长距离建模能力不足，仅能获得有限的剩余使用寿命预测性能。

此外，在工业场景中，轴承状态监测数据中隐藏着大量的随机噪声和信号干扰等测量不确定性，这会导致剩余使用寿命预测结果不准确，可靠性差。而且，轴承的全寿命周期状态监测数据的获取非常昂贵，需要大量的时间和人力，这导致很难获得足够的状态监测数据来训练深度学习模型，进而带来了深度学习模型的不确定性，存在过拟合、预测模型泛化能力差的问题。这些不同类型的不确定性会共同导致剩余使用寿命预测结果与真实值的偏差，导致相应的维护决策不可靠。尽管这些现有的深度学习模型在剩余使用寿命预测方面取得了一定的预测性能，但由于其通常为确定性的网络结构，只能提供单点估计，而不能处理剩余使用寿命预测的不确定性，这会导致预测精度低，可信度低，获得过于自信的剩余使用寿命预测结果，从而会产生不可靠的维护决策，影响设备运行的可靠性和安全性。因此，研究一种可以处理不确定性并提供较高准确度和可信度的剩余使用寿命预测结果的剩余使用寿命预测方法，具有重大意义。

发明内容

本发明的目的在于克服现有技术的缺陷，提供一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法。该方法将长距离建模能力较强的Transformer模型和局部建模能力较强的卷积神经网络相结合，得到一种同时具备多尺度的长期和短期建模能力的多尺度卷积Transformer模型。为了处理不确定性，将该多尺度卷积Transformer模型扩展到贝叶斯深度学习框架中建立一种应用于轴承剩余使用寿命预测的多尺度贝叶斯卷积Transformer模型，其可提取出更加完整、准确的多尺度退化特征和不确定性信息。此外，在多尺度贝叶斯卷积Transformer模型的训练过程中考虑了过高预测误差和不确定性，这可提高该模型剩余使用寿命预测的鲁棒性、泛化性能和过高预测风险规避能力。基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法可以有效地处理各种不确定性，提供更准确、更可信和过高预测风险规避的剩余使用寿命预测结果。

本发明的技术方案如下。

一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，包括以下步骤：

步骤1、采集轴承全寿命周期的状态监测数据，进行健康状态划分和归一化数据预处理，并划分数据为训练集和测试集；

步骤2、构建多尺度贝叶斯卷积Transformer模型并初始化；

步骤3、将训练集样本D输入到多尺度贝叶斯卷积Transformer模型中，通过蒙特卡洛采样方法，从多尺度贝叶斯卷积Transformer模型参数W的真实后验分布P(W|D)的近似变分分布Q_θ(W)中采样模型参数W，计算并保存轴承剩余使用寿命预测值以及相应的回归损失/>和分布损失/>

步骤4、重复执行步骤3直至到达最大蒙特卡洛采样次数N_s＝10³，获得每个训练样本的剩余使用寿命预测的概率分布，并取每个训练样本所有预测值的平均值作为最终的剩余使用寿命预测值

步骤5、计算平均回归损失、平均分布损失和不确定性损失并相加得到整体损失值/>再通过反向传播算法更新近似变分分布Q_θ(W)的参数θ，以最小化整体损失值/>

步骤6、重复执行步骤3至步骤5直至到达最大训练轮次E_max＝500，保存最优的多尺度贝叶斯卷积Transformer模型；

步骤7、将测试集样本输入到最优的多尺度贝叶斯卷积Transformer模型中，计算并保存轴承剩余使用寿命预测值；

步骤8、重复执行步骤7直至到达最大预测次数P_max＝10⁴，进而获得每个测试样本的剩余使用寿命预测的概率分布，以供后续可信性分析，进而确定出剩余使用寿命预测结果的可信度；计算剩余使用寿命预测结果的置信度为95％的置信区间；

步骤9、对测试集的预测结果进行考虑不确定性的可信性分析，其包括剩余使用寿命预测概率分布的核分布可视化、过高预测率MOP和不确定性估计值MCE，以评估预测结果的可信程度；

所述的步骤1中对获取的轴承状态监测数据进行数据预处理，具体包括：

1.1)根据原始数据的均方根值，将轴承全寿命周期数据划分为不同健康阶段即正常运行阶段和快速退化阶段；

1.2)根据不同的健康阶段，计算不同时刻状态监测数据所对应的剩余使用寿命值，作为标签；剩余使用寿命值计算公式如下：

其中，RUL(t)表示t时刻轴承剩余使用寿命值，T_total表示轴承的总寿命长度，T_c表示快速退化阶段开始时刻；

1.3)通过最小值-最大值归一化公式将剩余使用寿命值归一化到[0,1]区间，所述的最小值-最大值归一化公式为：其中Y为待归一化的样本数据，Y_min和Y_max分别为序列数据Y的最小值和最大值，Y_N为最终归一化后的样本数据；

1.4)采用滑动窗口方法，以步长为1，将长度为2560的滑动窗口，从轴承状态监测数据开头滑动到末尾以实现分段划分状态监测数据，并以滑动窗口为单位生成样本，每个滑动窗口的最后一个状态监测数据对应的剩余使用寿命值作为此样本的标签值，最终生成可用于深度学习模型训练和测试的样本集。

具体地，在步骤2中，所述的多尺度贝叶斯卷积Transformer模型，包括贝叶斯卷积词条嵌入层、多尺度特征提取器和贝叶斯回归预测器，其结构及构建过程包括：

输入样本数据首先经过贝叶斯卷积词条嵌入层生成词条序列数据X_t，再通过位置编码器E_pos给X_t添加位置信息得到数据X_pos，之后将X_pos输入到多尺度特征提取器，最后将提取到的信息输入到贝叶斯回归预测器中，得到剩余使用寿命预测值

所述的贝叶斯卷积词条嵌入层，包括贝叶斯膨胀因果卷积神经网络、最大池化层和贝叶斯线性层，可在不丢失不确定性信息下将输入样本映射成词条序列其中l表示词条的个数，d_model表示嵌入维度；

所述的多尺度特征提取器，包括多尺度贝叶斯卷积稀疏自注意力模块、残差连接和层归一化、贝叶斯时间卷积神经网络和全连接层；输入数据X_pos首先输入到多尺度贝叶斯卷积稀疏自注意力模块，其中的六个由不同贝叶斯卷积稀疏自注意力组成的头Head_i,i＝1,2,..,6，可按不同的时间尺度从数据中提取退化特征和不确定性信息，然后通过拼接和贝叶斯线性层融合提取到的不同时间尺度的信息，并得到输出P₁，其与初始输入数据X_pos相加再进行层归一化得到输出Output₁，之后再将Output₁输入到贝叶斯时间卷积神经网络中，进一步增强对局部特征和时间序列特征的提取并得到输出P₂，再将其输入到全连接层，得到输出F，最后将F与P₂相加并进行层归一化得到最终的输出值Output₂；

所述贝叶斯回归预测器，包括三层贝叶斯线性层，每层连接一个LeakyReLU激活层，用于建立多尺度特征提取器提取的信息与真实剩余使用寿命值之间的非线性概率映射关系。

进一步地，所述的多尺度贝叶斯卷积稀疏自注意力模块，包括由六种具有不同卷积核大小的贝叶斯卷积稀疏自注意力组成的六个头Head_i,i＝1,2,..,6和贝叶斯线性层；其可实现对输入数据从不同的时间尺度提取多尺度退化特征和不确定性信息；六个头所提取的不同时间尺度的退化特征和不确定性信息先拼接在一起，之后经过贝叶斯线性层进行融合，最终得到输出值P₁，整个过程的公式如下：

P₁＝PReLU(Concat(Head₁,Head₂,...,Head₆))W₂+b₂

其中，W₂和b₂是贝叶斯线性层的网络权重变量和偏置变量，它们均为随机变量，并从多尺度贝叶斯卷积Transformer模型参数W的真实后验分布P(W|D)的近似变分分布Q_θ(W)中采样，确定取值，Head_i,i＝1,2,...,6表示第i个贝叶斯卷积稀疏自注意力；

所述的贝叶斯卷积稀疏自注意力，包括贝叶斯膨胀因果卷积神经网络、查询Q稀疏度度量和贝叶斯自注意力；首先，贝叶斯膨胀因果卷积神经网络逐段地将输入数据的局部上下文映射为查询向量Q、键向量K和值向量V，之后将第i个查询的注意力概率分布与均匀分布U(a,b)之间的Kullback-Leibler散度，作为查询向量Q的稀疏度度量，筛选出μ个主导查询以组成新的查询向量/>最后计算贝叶斯自注意力即其中q_i,k_i,v_i分别表示Q，K，V的第i行，PReLU()表示非线性激活函数，W₁和b₁表示贝叶斯线性层的网络权重变量和偏置变量；贝叶斯卷积稀疏自注意力可将输入数据的局部上下文信息融入到全局的注意力计算中，以实现同时提取长期和短期的退化特征和不确定性信息，同时可抑制高不确定性数据对特征提取的影响。

进一步地，所述的贝叶斯时间卷积神经网络，包括两个并行网络通道：一个网络通道包括两组贝叶斯膨胀因果卷积神经网络、权重归一化层、ReLU激活层和丢弃层串接而成，另一个网络通道是单层贝叶斯膨胀因果卷积神经网络；这两个网络通道的输出相加作为贝叶斯时间卷积神经网络的输出值P₂。

进一步地，所述的贝叶斯膨胀因果卷积神经网络，包括卷积、膨胀和因果三部分；卷积部分是指六个卷积核在输入数据上并行滑动并进行卷积计算；膨胀是指在做卷积计算时，根据膨胀率来间隔采样输入数据即只对部分数据进行卷积计算；因果是指对t时刻的数据做卷积计算时只考虑t时刻以前的历史数据，防止未来数据泄漏；此网络的权重变量和偏置变量均从近似变分分布Q_θ(W)采样确定取值。

具体地，在步骤3中所述的回归损失为考虑过高预测误差的分段加权损失函数其中n为样本个数，/>y_i表示第i个样本的真实剩余使用寿命值，/>是第i个样本的第s次剩余使用寿命预测值，参数γ₁和γ₂分别表示过高预测误差和过低预测误差的权重；参数γ₁反映了对过高预测误差的抑制程度，设置γ₁＝a,a∈R且a＞1，γ₂＝1。所述的分布损失/>用来优化模型参数W的近似变分分布Q_θ(W)与其真实后验分布P(W|D)之间的Kullback-Leibler散度KL(Q_θ(W)||P(W|D))；将KL(Q_θ(W)||P(W|D))的近似解作为分布损失值/>即/>其中W_s表示从近似变分分布Q_θ(W)中的第s次蒙特卡洛采样的模型参数，θ为近似变分分布的参数。

具体地，在步骤5中，所述的不确定性损失为剩余使用寿命预测分布的方差与协方差的和，同时为了保证/>在接近0时仍起作用，将/>定义为以自然数e为底的指数函数即其中n表示样本数量，N_s表示蒙特卡洛采样次数，/>表示第i个样本的第s次预测值，/>为第i个样本的平均预测值，Λ_sm表示所有样本的真实剩余使用寿命值与剩余使用寿命预测值之间的协方差矩阵，这里的剩余使用寿命预测值是每个样本N_s次重复预测的平均值；最后，计算回归损失、分布损失的平均值并和不确定性损失值按不同权重值相加作为总的损失值/>即/>其中λ为权重参数，设置为0.01。

具体地，在步骤9中，所述的过高预测率MOP定义为其中不确定性估计值MCE定义为/>

与现有技术相比，本发明具有以下优点和有益效果：

(1)本发明通过构建一种多尺度贝叶斯卷积Transformer模型，获得了多尺度的长期和短期建模能力和不确定性处理能力，其可从轴承状态监测数据中提取出更准确、更丰富的多尺度退化特征和不确定性信息，保证了信息提取的完整性；相对于现有的仅能提供单点剩余使用寿命预测值的确定性深度学习模型，本发明提供的多尺度贝叶斯卷积Transformer模型可通过概率分布对所有模型参数进行不确定表示，进而有效地处理了由随机噪声和有限的状态监测数据所带来的预测不确定性，提高了模型泛化性能，获得更准确、更可信和过高预测风险规避的剩余使用寿命预测结果。

(2)本发明构建了一种贝叶斯卷积稀疏自注意力模块，其可将局部上下文信息充分融入到全局依赖关系建模中，以实现同时提取长期和短期退化特征和不确定性信息，同时可抑制高不确定性数据对特征提取的影响；此外，其通过并行多个不同的贝叶斯卷积稀疏自注意力，可从不同的时间尺度提取多尺度退化特征和不确定性信息，再进行不同时间尺度信息的融合，这保证了信息表示的完整性，提高该深度学习模型的适应性和剩余使用寿命预测的鲁棒性。

(3)本发明构建了一种综合了回归损失、分布损失和不确定性损失的新损失函数；然后，基于变分推理，提出了一种新的反向传播训练算法，该算法在多尺度贝叶斯卷积Transformer模型训练过程中不仅考虑了剩余使用寿命预测回归误差还考虑了不确定性信息和过高预测误差，以实现对不确定性和过高预测的抑制，提高了剩余使用寿命预测的鲁棒性、泛化性和过高预测风险规避能力。

(4)本发明构建了一种考虑不确定性的可信性分析方法包括剩余使用寿命预测分布的核分布可视化、过高预测率和不确定性估计值；通过此方法可有效评估出剩余使用寿命预测结果的可信程度。

附图说明

图1为本发明的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法的流程图。

图2为多尺度贝叶斯卷积Transformer模型结构图。

图3为多尺度贝叶斯卷积稀疏自注意力模块结构图。

图4为贝叶斯卷积稀疏自注意力结构图。

图5为贝叶斯时间卷积神经网络。

图6为贝叶斯回归预测器。

图7为用于采集轴承状态监测数据的PRONOSTIA实验台。

图8(a)、(b)和(c)分别为本发明方法、贝叶斯多尺度卷积神经网络、贝叶斯长短期记忆网络和贝叶斯门控循环单元在三种不同噪声状况下对应的测试轴承剩余使用寿命预测结果。

图9(a)和(b)分别展示了本发明方法和贝叶斯多尺度卷积神经网络对应的剩余使用寿命预测概率分布的核分布可视化。

具体实施方式

本发明的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，首先，本发明在神经网络模型方面，将卷积神经网络与Transformer模型融合一起并扩展到贝叶斯深度学习框架中，建立了一种基于多尺度贝叶斯卷积Transformer模型的具有不确定性量化的可信的剩余使用寿命不确定性预测方法，所述模型核心模块是多尺度贝叶斯卷积稀疏自注意力机制和贝叶斯时间卷积网络。通过此模型可同时从全局和局部以及不同的时间尺度来提取数据中复杂的多尺度退化特征和不确定性信息。在模型训练方法上，为了提高该模型的鲁棒性、泛化性和风险规避能力，提出了一种在训练过程中考虑不确定性和过高预测误差的反向传播算法。本发明克服了复杂的随机噪声和不充足的状态监测数据带来的不确定性所导致的预测模型泛化性能差、可信度不高和预测精度低的问题，提高了轴承剩余使用寿命预测的可靠性，准确性和鲁棒性。

下面结合附图对本发明作进一步的说明。

本发明实施例，提供了一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，此方法流程如图1所示，包括以下步骤：

所述的轴承全寿命周期的状态监测数据为轴承垂直方向和水平方向的振动信号。

具体地，对获取的轴承全寿命周期状态监测数据进行健康状态划分和归一化数据预处理，具体包括以下步骤：

1.2)根据不同的健康阶段计算不同时刻状态监测数据所对应的剩余使用寿命值，作为标签；剩余使用寿命值计算公式如下：

1.3)通过最小值-最大值归一化公式将剩余使用寿命值归一化到[0,1]区间，所述的最小值-最大值归一化公式为：其中Y为待归一化的样本数据，Y_min和Y_max分别为样本数据Y的最小值和最大值，Y_N为最终归一化后的序列数据；

1.4)采用滑动窗口方法，以步长为1，将长度为2560的滑动窗口，从轴承状态监测数据开头滑动到末尾以实现分段划分状态监测数据，并以滑动窗口为单位生成样本，每个滑动窗口的最后一组状态监测数据对应的剩余使用寿命值作为此样本的标签值，最终生成可用于深度学习模型训练和测试的样本集。

步骤2：构建多尺度贝叶斯卷积Transformer模型并初始化；

如图2所示，所述的多尺度贝叶斯卷积Transformer模型，包括贝叶斯卷积词条嵌入层、多尺度特征提取器和贝叶斯回归预测器，其具体结构及构建过程为：

所述的多尺度贝叶斯卷积稀疏自注意力模块，如图3所示，包括由六种具有不同卷积核大小的贝叶斯卷积稀疏自注意力组成的六个头Head_i,i＝1,2,..,6和贝叶斯线性层；其可实现对输入数据从不同的时间尺度提取多尺度退化特征和不确定性信息；六个头所提取的不同时间尺度的退化特征和不确定性信息先拼接在一起，之后经过贝叶斯线性层进行融合，最终得到输出值P₁，整个过程的公式描述如下：

P₁＝PReLU(Concat(Head₁,Head₂,...,Head₆))W₂+b₂

其中，W₂和b₂是贝叶斯线性层的网络权重变量和偏置变量，它们均为随机变量，并从多尺度贝叶斯卷积Transformer模型参数W的真实后验分布P(W|D)的近似变分分布Q_θ(W)中采样，确定取值，Head_i,i＝1,2,...,6表示第i个贝叶斯卷积稀疏自注意力。

所述的贝叶斯卷积稀疏自注意力，如图4所示，包括贝叶斯膨胀因果卷积神经网络、查询Q稀疏度度量和贝叶斯自注意力；首先，贝叶斯膨胀因果卷积神经网络逐段地将输入数据的局部上下文映射为查询向量Q、键向量K和值向量V；之后，通过查询向量Q的稀疏度度量获得新的查询向量最后通过贝叶斯自注意力可将输入数据的局部上下文信息融入到全局的注意力计算中，以实现同时提取长期和短期的退化特征和不确定性信息，同时可抑制高不确定性数据对特征提取的影响。

所述的贝叶斯膨胀因果卷积神经网络包括卷积、膨胀和因果三部分；卷积部分是指六个卷积核在输入数据上并行滑动并进行卷积计算；膨胀是指在做卷积计算时，根据膨胀率来间隔采样输入数据即只对部分数据进行卷积计算；因果是指对t时刻的数据做卷积计算时只考虑t时刻以前的历史数据，防止未来数据泄漏；此网络的权重变量和偏置变量均从近似变分分布Q_θ(W)采样确定取值。

所述的查询向量Q的稀疏度度量，根据自注意力中的主导查询-键对会使相应查询的注意概率p(k_j|q_i)分布偏离均匀分布U(a,b)这一原理，筛选出μ个主导查询以组成新的查询向量具体地，将查询向量Q中的第i查询的注意力定义为概率形式的核平滑即其中/>为第i查询的注意概率分布，q_i,k_i,v_i分别表示Q，K，V的第i行，exp()表示以自然常数e为底的指数函数；将第i查询的注意概率分布p(k_j|q_i)与均匀分布U(a,b)之间的Kullback-Leibler散度作为查询向量Q的稀疏度度量即/>d为输入数据的维数，L_K为查询个数；通过最大均值度量方法获得上述稀疏度度量的经验逼近值通过大量随机采样查询值和键值来计算/>以获得前μ个主导查询-键对，从而得到包含μ个主导查询的查询向量/>

所述的贝叶斯自注意力为其中W₁和b₁表示贝叶斯线性层的网络权重变量和偏置变量，它们均为随机变量并从近似变分分布Q_θ(W)采样确定取值，PReLU()表示非线性激活函数，其定义为/>其中a是可学习参数。

所述的贝叶斯时间卷积神经网络，如图5所示，包括两个并行网络通道：一个网络通道包括两组贝叶斯膨胀因果卷积神经网络、权重归一化层、ReLU激活层和丢弃层串接而成；另一个网络通道是单层贝叶斯膨胀因果卷积神经网络；这两个网络通道的输出相加作为贝叶斯时间卷积神经网络的输出值P₂。

所述的贝叶斯回归预测器，如图6所示，包括三层贝叶斯线性层，每层连接一个LeakyReLU激活层，其具体计算过程为：其中α∈[0,1]表示泄漏率，W₃、W₄和b₃、b₄分别表示贝叶斯线性层的权重和偏置变量，均从近似变分分布Q_θ(W)采样确定取值；此部分用于建立多尺度特征提取器提取的信息Output₂与真实剩余使用寿命值之间的非线性概率映射关系。

所述的多尺度贝叶斯卷积Transformer模型初始化过程为：从标准正态分布中随机采样获得随机值，然后将所有模型参数随机地初始化为这些采样的随机值，以促进该模型的多样性和学习能力。

步骤3、将训练集样本D输入到多尺度贝叶斯卷积Transformer模型中，通过蒙特卡洛采样方法，从多尺度贝叶斯卷积Transformer模型参数W的真实后验分布P(W|D)的近似变分分布Q_θ(W)中，采样模型参数W，计算并保存轴承剩余使用寿命预测值以及相应的回归损失/>和分布损失/>

多尺度贝叶斯卷积Transformer模型是一种贝叶斯深度学习框架，其从概率分布的角度出发，可以将不确定性表征纳入基于变分推理的深度学习模型中，从而实现量化不确定性；首先该模型将其所有模型参数W当作随机变量而不是确定的值，每次前向传播过程中，其从模型参数W的真实后验分布P(W|D)的近似变分分布Q_θ(W)中采样获取所有模型参数W的值，再计算相应的剩余使用寿命预测值。

采用变分推理技术来求真实后验分布P(W|D)的近似变分分布Q_θ(W)，具体为利用Kullback-Leibler散度KL(Q_θ(W)||P(W|D))来度量这两个分布的距离；根据所有模型参数所满足的贝叶斯公式可将KL(Q_θ(W)||P(W|D))转化为/>其中P(W)为先验分布，P(D|W)为似然函数，P(D)为边缘分布。

所述的分布损失用来优化模型参数W的近似变分分布Q_θ(W)与其真实后验分布P(W|D)之间的Kullback-Leibler散度KL(Q_θ(W)||P(W|D))；通过从近似变分分布Q_θ(W)中进行蒙特卡洛采样，从而得到KL(Q_θ(W)||P(W|D))的近似解，并将其作为分布损失值，即其中W_s表示从近似变分分布Q_θ(W)中的第s次蒙特卡洛采样的模型参数，θ为近似变分分布的参数。

在多尺度贝叶斯卷积Transformer模型的训练过程中，不断降低分布损失的值，进而获得最逼近真实后验分布P(W|D)的近似变分分布Q_θ(W)。

具体地，近似变分分布Q_θ(W)被设置为高斯分布其中可学习的分布参数θ＝{μ,σ}；之后采用重参数化技巧来保证学习到的多尺度贝叶斯卷积Transformer模型参数W＝{w,b}的梯度信息，计算公式为/>

所述的回归损失为考虑过高预测误差的分段加权损失函数其中n为样本个数，/>y_i表示第i个样本的真实剩余使用寿命值，/>是第i个样本的第s次剩余使用寿命预测值，参数γ₁和γ₂分别表示过高预测误差和过低预测误差的权重；参数γ₁反映了对过高预测误差的抑制程度，设置γ₁＝a,a∈R且a＞1，γ₂＝1。

具体地，剩余使用寿命预测值可由下式计算得到

其中，W是多尺度贝叶斯卷积Transformer模型的参数，{X^*,Y^*}是待预测的样本，θ是近似变分分布Q_θ(W)的参数，N_s是蒙特卡洛采样次数即重复预测次数。

步骤5、计算平均回归损失、平均分布损失和不确定性损失并相加得到整体损失值/>再通过反向传播算法更新近似变分分布Q_θ(W)的参数θ，以最小化整体损失值/>具体计算过程为：

所述的不确定性损失为剩余使用寿命预测分布的方差与协方差的和，同时为了保证/>在接近0时仍起作用，将/>定义为以自然数e为底的指数函数即其中/>表示第i个样本的第s次预测值，/>为第i个样本的平均预测值，Λ_sm表示所有样本的真实剩余使用寿命值与剩余使用寿命预测值之间的协方差矩阵，这里的剩余使用寿命预测值是每个样本N_s次重复预测的平均值，/>表示第i个样本的第s预测值，/>为第i个样本的平均预测值；最后，计算回归损失、分布损失的平均值并和不确定性损失值按不同权重值相加，作为总的损失值/>即/>其中λ为权重参数，设置为0.01。

具体地，反向传播算法中的参数θ的更新公式为

步骤8、重复执行步骤7直至到达最大预测次数P_max＝10⁴，进而获得每个测试样本的剩余使用寿命预测的概率分布，以供后续可信性分析，进而确定出剩余使用寿命预测结果的可信度。计算剩余使用寿命预测结果的置信度为95％的置信区间，具体计算过程为：

采用分位数估计方法求95％置信区间，首先对求得P_max个剩余使用寿命预测值的平均值M和标准差ST，之后95％置信区间的上下限U和L可分别通过公式U＝M+1.96ST和L＝M-1.96ST求得。

所述的剩余使用寿命预测概率分布的核分布可视化，是指绘制P_max个剩余使用寿命预测值的核密度估计曲线，以分析剩余使用寿命预测值的分布特征，判断可信度；如果核密度估计曲线上的数据分布较为集中且离真实寿命值较近，则说明剩余使用寿命预测值可信度较高。

所述的过高预测率MOP定义为其中/>不确定性估计值MCE定义为/>其中，n表示样本数量，N_s表示蒙特卡洛采样次数。

下面以一个具体的例子对本发明提供的方法进行进一步说明。

本实施例使用了由法国FEMTO-ST研究所在实验平台PRONOSTIA，如图7所示，上采集到的轴承全寿命周期状态监测数据集，对本发明所提出的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法进行实验验证。

通过在PRONOSTIA实验平台上的加速寿命试验使轴承在短时间内快速退化失效，在轴承水平和垂直两个方向上布置加速度传感器采集轴承振动信号，采样频率为25.6KHz，每隔10s采集一次信号，每次采集0.1s信号，每组采样数据包含2560个数据点；当采集的振动信号幅值超过20g时，则说明该轴承已完全失效，剩余使用寿命为0；该数据集有3种工况(转速和负载不同)共17组轴承的全寿命周期状态监测数据；本发明使用第一种工况(转速为1800r/min，载荷为4000N)下的轴承全寿命周期状态监测数据，来验证本发明方法的有效性和优越性。具体为将轴承1_1,1_2,1_5,1_6和1_7作为训练集，轴承1_4作为测试集。

选取贝叶斯多尺度卷积神经网络、贝叶斯长短期记忆网络和贝叶斯门控循环单元三种模型作为对比分析的方法；此外，在实验中随机选取训练集中50％的数据用于深度学习模型训练，以模拟状态监测数据不充足情景；为验证本发明在含有不同程度噪声的数据集上的有效性和优越性，在测试集中加入不同水平噪声，设置如下三种数据状况：状况a为不添加噪声的原始数据；状况b为在原始数据中加入信噪比为10的由高斯白噪声和拉普拉斯噪声组成的复合噪声；状况c为在原始数据中加入信噪比为1的复合噪声，其由高斯白噪声，拉普拉斯噪声和随机脉冲扰动组成；为了评价不同模型的预测性能，选取均方根误差(RMSE)、平均绝对误差(MAE)、得分函数Score和预测区间的覆盖概率(PICP)四种评价指标，定义为其中n为样本个数，y_i和/>分别表示真实的剩余使用寿命值和预测的剩余使用寿命值；/>其中/> 其中当L_i≤C_i≤U_i时，C_i＝1否则C_i＝0，L_i和U_i分别表示第i个样本预测置信区间的下限和上限。

在本实施例中，多尺度贝叶斯卷积Transformer模型主要的结构参数设置情况为：多尺度贝叶斯卷积稀疏自注意力模块的六个贝叶斯卷积稀疏自注意力中的卷积核大小分别取为3、5、7、9、11和15，膨胀率均为1；贝叶斯时间卷积神经网络中的贝叶斯膨胀因果卷积神经网络的卷积核大小均取为11，膨胀率均为2。训练过程中的超参数设置情况为：批大小即一次训练的样本数量为128，训练轮次为500，优化算法采用Adam优化算法，学习率设置为0.0005。

在上述三种数据状况a、b和c的测试集下，本发明方法、贝叶斯多尺度卷积神经网络、贝叶斯长短期记忆网络和贝叶斯门控循环单元提供的测试轴承剩余使用寿命预测结果如图8所示，对应的均方根误差(RMSE)、平均绝对误差(MAE)、得分函数Score和预测区间的覆盖概率(PICP)四种预测性能评价指标如表1所示；表2和表3分别表示相应的不确定性估计值MCE和过高预测率MOP；图9(a)和(b)分别展示了本发明方法和贝叶斯多尺度卷积神经网络对应剩余使用寿命预测概率分布的核分布可视化，其中样本对应的采样时刻为11470秒、12020秒、12810秒、13080秒、13620秒和14140秒。

表1

表2

表3

根据图8、表1、表2、表3中的本发明方法与贝叶斯多尺度卷积神经网络、贝叶斯长短期记忆网络和贝叶斯门控循环单元模型的对比预测结果，可看出：本发明方法提供的轴承剩余使用寿命预测结果在均方根误差(RMSE)、平均绝对误差(MAE)、得分函数Score和预测区间的覆盖概率(PICP)四种评价指标上均获得最佳值，表明了其可提供更准确、更可信和过高预测风险规避的剩余使用寿命预测结果。

根据图9可知，与贝叶斯多尺度卷积神经网络相比，本发明方法得到的剩余使用寿命预测值，在对应核密度估计曲线上的分布较为集中，且离真实寿命值较近，这说明本发明方法可获得具有较高可信度的剩余使用寿命预测值。

综上所述，本发明方法可从轴承状态监测数据中提取出更准确、丰富且完整的多尺度退化特征和不确定性信息并且可有效地抑制不确定性和过高预测误差，具有较高的泛化性能和鲁棒性和更优越的剩余使用寿命预测性能。

Claims

1.一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，包括以下步骤：

步骤2、构建多尺度贝叶斯卷积Transformer模型并初始化；

步骤3、将训练集样本D输入到多尺度贝叶斯卷积Transformer模型中，通过蒙特卡洛采样方法，从多尺度贝叶斯卷积Transformer模型参数W的真实后验分布P(WD)的近似变分分布Q_θ(W)中采样模型参数W，计算并保存轴承剩余使用寿命预测值以及相应的回归损失/>和分布损失/>

步骤5、计算平均回归损失、平均分布损失和不确定性损失并相加得到整体损失值再通过反向传播算法更新近似变分分布Q_θ(W)的参数θ，以最小化整体损失值/>

2.根据权利要求1所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，在步骤2中，所述的多尺度贝叶斯卷积Transformer模型，包括贝叶斯卷积词条嵌入层、多尺度特征提取器和贝叶斯回归预测器，其具体结构及构建过程包括：

3.根据权利要求2所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，所述的多尺度贝叶斯卷积稀疏自注意力模块，包括由六种具有不同卷积核大小的贝叶斯卷积稀疏自注意力组成的六个头Head_i,i＝1,2,..,6和贝叶斯线性层；其可实现对输入数据从不同的时间尺度提取多尺度退化特征和不确定性信息；六个头所提取的不同时间尺度的退化特征和不确定性信息先拼接在一起，之后经过贝叶斯线性层进行融合，最终得到输出值P₁，整个过程的公式如下：

P₁＝PReLU(Concat(Head₁,Head₂,...,Head₆))W₂+b₂

4.根据权利要求2所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，所述的贝叶斯时间卷积神经网络，包括两个并行网络通道：一个网络通道包括两组贝叶斯膨胀因果卷积神经网络、权重归一化层、ReLU激活层和丢弃层串接而成，另一个网络通道是单层贝叶斯膨胀因果卷积神经网络；这两个网络通道的输出相加作为贝叶斯时间卷积神经网络的输出值P₂。

5.根据权利要求2所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，所述的贝叶斯膨胀因果卷积神经网络，包括卷积、膨胀和因果三部分；卷积部分是指六个卷积核在输入数据上并行滑动并进行卷积计算；膨胀是指在做卷积计算时，根据膨胀率来间隔采样输入数据即只对部分数据进行卷积计算；因果是指对t时刻的数据做卷积计算时只考虑t时刻以前的历史数据，防止未来数据泄漏；此网络的权重和偏置参数均为随机变量且均从近似变分分布Q_θ(W)采样确定取值。

6.根据权利要求1所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，在步骤3中所述的回归损失为考虑过高预测误差的分段加权损失函数/>其中n为样本个数，/>y_i表示第i个样本的真实剩余使用寿命值，/>是第i个样本的第s次剩余使用寿命预测值，参数γ₁和γ₂分别表示过高预测误差和过低预测误差的权重；参数γ₁反映了对过高预测误差的抑制程度，设置γ₁＝a,a∈R且a＞1，γ₂＝1。

7.根据权利要求1所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，在步骤3中，所述的分布损失用来优化模型参数W的近似变分分布Q_θ(W)与其真实后验分布P(W|D)之间的Kullback-Leibler散度KL(Q_θ(W)||P(W|D))；将KL(Q_θ(W)||P(W|D))的近似解作为分布损失值/>即其中W_s表示从近似变分分布Q_θ(W)中的第s次蒙特卡洛采样的模型参数，θ为近似变分分布的参数。

8.根据权利要求1所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，在步骤5中所述的不确定性损失为剩余使用寿命预测分布的方差与协方差的和，同时为了保证/>在接近0时仍起作用，将/>定义为以自然数e为底的指数函数即/>其中n表示样本数量，N_s表示蒙特卡洛采样次数，/>表示第i个样本的第s次预测值，/>为第i个样本的平均预测值，Λ_sm表示所有样本的真实剩余使用寿命值与剩余使用寿命预测值之间的协方差矩阵，这里的剩余使用寿命预测值是每个样本N_s次重复预测的平均值；最后，计算回归损失、分布损失的平均值并和不确定性损失值按不同权重值相加作为总的损失值/>即/>其中λ为权重参数，设置为0.01。

9.根据权利要求1所述的一种基于多尺度贝叶斯卷积Transformer模型的轴承剩余使用寿命预测方法，其特征在于，在步骤9中，所述的过高预测率MOP定义为其中/>不确定性估计值MCE定义为