CN115270867A

CN115270867A - 一种燃气轮机转子系统改进dqn故障诊断方法及系统

Info

Publication number: CN115270867A
Application number: CN202210874346.9A
Authority: CN
Inventors: 王红军; 崔英杰; 王楠
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2022-07-22
Filing date: 2022-07-22
Publication date: 2022-11-01

Abstract

本发明涉及一种燃气轮机转子系统改进DQN故障诊断方法及系统，其包括：采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε‑贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后得到最优Q值与总奖励；将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

Description

一种燃气轮机转子系统改进DQN故障诊断方法及系统

技术领域

本发明涉及一种机械设备故障诊断技术领域，特别是关于一种燃气轮机转子系统改进DQN故障诊断方法及系统。

背景技术

燃气轮机转子作为其关键部件，结构复杂，运行过程中转速变化快，受力不均匀，运行环境恶劣，因此，燃气轮机在运行过程中会受到很大影响。一旦燃气轮机发生故障，严重影响其安全运行，甚至造成人民生命财产的损失，同时其维修保障成本极高，急需对燃气轮机转子系统服役运行状态进行评估和故障诊断。

传统燃气轮机转子故障诊断方法包括基于模型的方法和基于数据驱动的方法等。基于模型的方法需要有深厚的理论基础和复杂的计算，会耗费大量的时间与精力，对于复杂机电系统，还存在机理不清，复杂系统建模困难等问题。专家学者针对基于数据驱动的故障诊断方法开展的大量的研究，取得了丰硕的研究成果。基于数据驱动的方法利用信号处理技术，如小波变换(Wavelet Transform,WT)、经验模态分解(Empirical ModeDecomposition,EMD)、变分模态分解(Variational Mode Decomposition,VMD)等，从振动信号中提取故障频率、实现故障检测。

随着人工智能的兴起，基于神经网络的数据驱动方法为故障诊断提供了新的途径。将深度学习方法应用在机械故障诊断方面虽然有着显著的性能，但是，其中大多数方法为有监督学习，其输入在训练过程中通过分类器直接映射到故障类型上，学习方式是静态的，无法做“思考”、进行决策，会影响诊断结果的准确性。深度强化学习(DeepReinforcement Learning,DRL)作为人工智能新的突破，充分结合了深度学习的感知能力和强化学习的决策能力。深度Q网络(Deep Q-Network,DQN)可以有效地使用深度神经网络的感知能力进行特征提取，同时具备强化学习的决策能力。目前研究的DQN故障诊断多以时频图像作为输入，在一维振动信号转二维图像过程中，有可能导致故障敏感特征弱信息丢失，使得故障的敏感特征难以获取。另外，在经验池记忆缓存时随机采样会导致稀缺故障信息丢失，故障诊断精度低，限制了深度强化学习在实际工业场景的应用。

发明内容

燃气轮机转子系统作为燃气轮机关键部件，针对难以获取敏感故障特征导致故障诊断精度不高，影响设备的安全服役的问题，本发明的目的是提供一种燃气轮机转子系统改进DQN故障诊断方法及系统，充分结合了深度学习的强感知能力与强化学习的强决策能力，实现了具有决策能力的故障诊断。

为实现上述目的，本发明采取以下技术方案：一种燃气轮机转子系统改进DQN故障诊断方法，其包括：采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

进一步，所述智能体是根据故障数据状态s_t决策出故障类型动作a_t，采用ε-贪婪策略生成动作A为：

式中，P＝1-ε表示以1-ε的概率选择价值最大动作作为下一时间步要执行的动作，P＝ε表示以ε的概率选择随机动作，ε为一个很小的值，Q(a)表示执行该动作的分值。

进一步，所述智能体中的主网络和目标网络采用WDCNN模型，包括：

WDCNN模型利用第一宽卷积层和多层卷积层，对输入振动信号进行深度提取；

第一宽卷积层用于一维输入振动信号，多层卷积层的小卷积核用于深度提取振动信号，经全连接层之后输出对应状态和动作的Q值。

进一步，所述在学习训练中从经验回放池内随机选取经验到主网络与目标网络中，所述经验的选取方法包括：根据优先级来优先选择经验并采样，优先选择具有最大优先值的时间差分误差的经验。

进一步，所述具有最大优先值的时间差分误差的获取方法包括：

根据目标网络输出的目标Q值与当前Q值的差值，得到时间差分误差；

根据时间差分误差，引入系数α和偏移β计算每个经验的优先值。

进一步，所述优先值为：

其中，P(i)为优先值；l为优先级指数，当l＝0时是均匀抽样；p_i＝|δ+ε|，δ为时间差分误差，ε为一个很小的值，为了确保有一定概率能抽到TD-error为0的经验。

进一步，所述学习训练的方法包括：

将环境、经验回放池、主网络和目标网络权重θ进行初始化；

模拟环境，由环境给智能体输入故障数据状态s_t；

智能体采用ε-贪婪策略判断输出动作a_t，与环境中的故障数据状态s_t做对比得到奖励r_t，由环境输出下一状态s_t+1，同时设置一个值T，T为布尔型，用于判断新的状态s_t+1是否为终止状态y_i；

将经验(s_t,a_t,r_t,s_t+1,T)加入经验回放池中，计算第i个经验的奖励y_i；

从经验回放池内随机采样，输入到主网络和目标网络，由主网络输出当前Q值，目标网络输出目标Q值，目标网络是由主网络复制而成，根据当前Q值与目标Q值计算损失函数，使用梯度下降更新网络参数，从而得到最优Q值，通过智能体与环境不断交互得到最优策略。

一种燃气轮机转子系统改进DQN故障诊断系统，其包括：第一处理模块，采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；第二处理模块，构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；第三处理模块，DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；学习训练模块，智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；诊断模块，将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行上述方法中的任一方法。

一种计算设备，其包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行上述方法中的任一方法的指令。

本发明由于采取以上技术方案，其具有以下优点：

1、本发明的智能体主网络采用一维宽卷积网络模型，该模型直接以采集的一维工况原始振动信号为输入，对输入信号提取深层特征，减少一维转二维过程中的故障信息丢失问题。

2、本发明的智能体采用ε-贪婪策略决策动作，环境输出状态并反馈奖励，并将其存储到经验池内；经验回放采用时间差分误差(Temporal Difference-error,TD-error)的优先经验回放，使算法稳定和算法收敛快。

3、本发明通过智能体与环境不断交互，将历史经验数据不断更新，决策出最大奖励，输出最优策略，实现端到端的智能故障诊断。

附图说明

图1是本发明一实施例中燃气轮机转子系统改进DQN故障诊断方法流程示意图；

图2是本发明一实施例中WDCNN网络模型结构示意图；

图3是本发明一实施例中奖励值变化曲线示意图；

图4是本发明一实施例中不同方法准确率示意图；

图5是本发明一实施例中燃气轮机前侧点有效值图示意图；

图6是本发明一实施例中经验池容量对比示意图；

图7是本发明一实施例中奖励值变化曲线示意图；

图8是本发明一实施例中损失值变化曲线示意图；

图9是本发明一实施例中初始DQN诊断结果示意图；

图10是本发明一实施例中改进DQN诊断结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本发明提供一种燃气轮机转子系统改进DQN故障诊断方法及系统，首先，以采集的一维工况原始振动信号为输入，该DQN模型的环境状态采用故障样本集组成，转子故障类型为当前模型输入的动作集合；然后，DQN模型的智能体使用一维宽卷积神经网络(WDCNN)拟合得到Q网络，并使用ε-贪婪策略做出决策动作，反馈奖励和下一状态并存储到经验池内；智能体内采用时间差分误差(TD-error)优先经验回放，使得算法更加稳定和训练收敛；智能体与环境不断交互决策出最大奖励，输出最优策略故障诊断结果。将本发明的模型应用于西储大学轴承数据集与燃气轮机试车台数据集中，分别达到了99.2％与98.7％的准确率，训练时间减低一半，速度快，可以用于快速有效地进行故障诊断。由此可知，本发明的DQN模型具有较高的故障诊断准确性与通用性。

在本发明的一个实施例中，提供一种燃气轮机转子系统改进DQN故障诊断方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，主网络采用WDCNN网络用于深度提取特征，经验池采用TD-error的优先经验回放，保证在故障集占比少的情况下每类故障的经验都能被选取到，智能体与环境不断交互得到最大奖励，输出最优策略，进行故障诊断。如图1所示，该方法包括以下步骤：

1)采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；

2)构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；

3)智能体与环境交互：DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；

4)网络更新：智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；

5)将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

上述步骤2)中，本实施例中采用的深度强化学习是将强化学习与深度学习结合起来，其充分利用强化学习的决策能力和深度学习的感知能力。

上述步骤3)中，环境是将预处理好的数据进行划分，将带标签的数据集进行分类，S＝{S_i}＝{S₀，S₁，S₂...，S_n}，S_i是i类故障类型的数据状态集。动作是将故障类型映射到动作空间内，如A＝{a₀，a₁，…a_n}，其中有n种故障类型和一种正常类型。

上述步骤3)中，在强化学习中，智能体主要通过在环境中不断尝试采样，学习得到一个最优策略π^*。在一次智能体学习中，智能体会接收到一个状态s_t，其会以P的概率选择动作a_t。

π(s，a)＝P(a_t＝a|s_t＝s) (1)

环境会接收到智能体发出的动作a_t，获得奖励r_t，同时输出下一个状态s_t+1。为了得到最优策略π^*，使用未来折扣奖励G_t代替未来累积奖励，γ为折扣因子。

G_t＝R_t+γR_t+1+γ²R_t+2+… (2)

当执行到某一步时，如果需要在此时间步中评估当前智能体接收状态的好坏程度，主要由价值函数v(s)来完成。

贝尔曼方程表示当前时刻状态的价值v(s_t)和下一时刻状态的价值v(s_t+1)之间的关系：

DQN通过Q-learning算法构建网络优化损失函数，Q-learning算法的更新公式为：

根据式(5)定义DQN的损失函数L(θ)：

其中，θ为卷积神经网络的权重参数，目标Q值为：

接下来，计算深度卷积神经网络模型参数θ的梯度。

最后，使用小批量随机梯度下降算法实现卷积神经网络模型对目标函数的优化。

上述步骤3)中，智能体是根据故障数据状态s_t决策出故障类型动作a_t，为了加速智能体在初始阶段对环境的探索，采用ε-贪婪策略生成动作A为：

式中，P＝ε表示算法以初始值为ε的概率随机选择一个动作，即智能体在环境中进行随机“探索”；P＝1-ε表示以1-ε的概率选择奖励最高的动作，即智能体直接“利用”已经探索得到的信息。ε-贪婪策略可以根据选择的动作和反馈的奖励及时地调整策略，避免陷入次优状态，ε为0到1之间的概率值，ε较大时模型具有较大的灵活性，可以更好地探索潜在的更高奖励，在故障诊断时ε的设置为较大的值。Q(a)表示执行该动作的分值。

然后返回奖励r_t与下一个状态s_t+1，将每次的交互数据存放到经验回放池内，然后从经验回放池内，随机抽取K个样本用来更新智能体参数，根据当前Q值和目标Q值的损失函数更新目标网络。完成自主学习后，当诊断问题再次给出时，智能体根据学到的最优策略输出最优动作。

上述步骤4)中，智能体中的主网络和目标网络采用WDCNN模型，具体为：

第一宽卷积层用于一维输入振动信号，多层卷积层的小卷积核用于深度提取振动信号，经全连接层之后输出对应状态和动作的Q值，其网络模型如图2所示。

在本实施例中，采用WDCNN网络来进行深度学习训练，对输入的振动信号进行更强的提取，减少了振动信号转二维图像过程有效敏感故障特征信息丢失的问题，取得的较好的诊断效果。直接采用来自于实际工况的振动信号，可以方便高效地进行实际的故障诊断，采用WDCNN网络代替CNN卷积神经网络搭建DQN网络。

上述步骤4)中，在学习训练中从经验回放池内随机选取经验到主网络与目标网络中，经验的选取方法包括：根据优先级来优先选择经验并采样，优先选择具有最大优先值的时间差分误差(Temporal Difference-error,TD-error)的经验。

其中，具有最大优先值的时间差分误差的获取方法包括：

(1)根据目标网络输出的目标Q值与当前Q值的差值，得到时间差分误差；

在本实施例中，由于在DQN模型中，采用经验回放来减弱训练经验之间的关联性。然而，从经验中均匀采样不是最优方案。故本实施例采用根据优先级来优先选择经验并采样。

为了确定一个经验的价值，通过式(5)，得出TD-error：

(2)根据时间差分误差，引入系数α和偏移β计算每个经验的优先值。

优先值为：

TD-error尽可能小作为优先经验回放的目标。为了防止网络过拟合，通过概率抽取经验，令每个经验的优先值为：

其中，p_i＝|δ+ε|，式中ε为一个很小的值，为了确保有一定概率能抽到TD-error为0的经验。

由于燃气轮机转子故障数据难以获取，尤其是某些故障数据稀缺，所以在构建样本集时此类故障数据占比非常小，因此在训练数据时带有低TD-error的记忆回放单元在经验回放时因无法加入缓存从而不能被回放，这会使得在没有训练好时得到的误差偏大，从而导致更新较慢。为了解决此类问题，本发明在每个经验优先值中引入系数α和偏移β，重新定义每个经验的优先值：

其中，l为优先级指数，当l＝0时是均匀抽样。α、γ可以保证在Q网络没有训练好的情况下，可以保证经验回放池中的所有记忆单元都能以很非常高的概率更新，同时也能保证稀缺样本以一定概率更新。

上述步骤4)中，将输出的故障类型动作与环境中的故障数据状态s_t做对比得到奖励r_t，然后环境输出下一状态s_t+1，同时这里还需设置一个值T，T为布尔型，表示新的状态s_t+1是否为终止状态。每一组经验(s_t,a_t,r_t,s_t+1,T)都存放到经验池中，在训练时，从经验池内随机选取，其中主网络输出当前Q值，目标网络输出目标Q值，目标网络是由主网络复制而成，当前Q值与目标Q值计算损失函数，使用梯度下降更新网络参数，同时更新网络的权重和偏执值以最大化Q值，通过智能体与环境不断交互得到最优策略，测试样本输入到该网络输出诊断结果。

学习训练的方法包括以下步骤：

4.1)将环境、经验回放池、主网络和目标网络权重θ进行初始化；

4.2)模拟环境，由环境给智能体输入故障数据状态s_t；

4.3)智能体采用ε-贪婪策略判断输出动作a_t，与环境中的故障数据状态s_t做对比得到奖励r_t，由环境输出下一状态s_t+1，同时设置一个值T，T为布尔型，用于判断新的状态s_t+1是否为终止状态y_i；

其中，T＝step(a_t,s_t)；

4.4)将经验(s_t,a_t,r_t,s_t+1,T)加入经验回放池中，计算第i个经验的奖励y_i；

4.5)训练时，从经验回放池内随机采样，输入到主网络和目标网络，由主网络输出当前Q值，目标网络输出目标Q值，目标网络是由主网络复制而成，根据当前Q值与目标Q值计算损失函数，使用梯度下降更新网络参数，从而得到最优Q值，通过智能体与环境不断交互得到最优策略。

其中，损失函数L(θ)为：

L(θ)＝E[TargetQ-Q(s,a；θ)]²

综上，由于燃气轮机转子系统作为燃气轮机关键部件，故对燃气轮机工作性能和质量具有重要作用。本发明的主网络采用WDCNN网络用于深度提取特征，经验池采用TD-error的优先经验回放，保证在故障集占比少的情况下每类故障的经验都能被选取到，智能体与环境不断交互得到最大奖励，输出最优策略，进行故障诊断。1)该方法充分结合了深度学习的感知能力与强化学习的决策能力，能够做到与环境的交互，实现了“端对端”的故障诊断。本发明以一维工况原始振动信号为输入，通过WDCNN网络自动提取特征，可以省去人工提取特征的繁琐过程，减少一维转二维过程中的故障信息丢失问题；采用改进TD-error的优先经验回放机制，保证在随机取样时每类故障类型都被抽取到。

实施例：为了验证本发明的有效性与准确性，使用凯斯西储大学的标准轴承数据集进行测试。该测试数据采样频率12kHz，载荷为0马力的样本集。数据集描述如表1所示，其中标签0是正常(N)数据，1-3为滚动体故障(B)数据，4-6为内圈故障(IR)数据，7-9为外圈故障(OR)数据。

表1轴承10类故障数据集状态

首先输入上述一维振动数据，将数据样本划分为70％的训练集与30％的测试集，搭建环境状态集与动作集，数据样本作为状态集，故障类型作为动作集。

深度强化学习DQN网络的主网络与目标网络采用一维宽卷积神经网络WDCNN网络，其结构为5层卷积层，第1层卷积层核数目为16，卷积核大小为64×1，第2层卷积层核数目为32，卷积核大小为3×1，其余卷积层卷积核数目均为64，大小均为3×1，且每层卷积层后面都连接2×1的池化层。

设置DQN参数进行超参数优化，经过多次训练，将学习率η设置为0.01，折扣因子γ设置为0.9，贪婪策略ε的初始值为0.8，最小值ε_min为0.01，经验池容量为4500，最小批次容量设置为32，迭代次数为200次，每轮训练步数为512，其累计获得奖励如图3所示。可以看出，奖励值在初始为负，说明一开始由于网络参数不稳定，Q网络决策能力弱；随着迭代次数的增加，奖励值逐渐增加，最终奖励值在400左右处收敛。

对比其迭代次数与诊断准确率关系，如图4所示，本发明在迭代50次后准确率开始趋于平衡，最终得到99.2％的准确率。

采用同样数据，采用CNN、LSTM方法进行分析诊断，对比CNN，LSTM，DQN和本发明提改进DQN深度强化学习模型的诊断精度，其诊断准确率值如表2所示。

表2不同方法的准确率对比

可以看出本发明方法在故障诊断中具有最高的准确率99.2％，从而验证了本发明方法的准确性。

在计算开销上，对比CNN，LSTM和本发明所提改进DQN深度强化学习模型训练的CPU运算时间消耗结果，如表3所示。

表3不同方法CPU运算时间

CNN方法时间消耗182s，LSTM方法时间消耗9634s，本发明时间消耗455s，比LSTM降低了一半，取得了精度和计算开销时间的平衡。

对于燃气轮机转子数据验证：将本发明方法用于某燃气轮机系统故障诊断，某燃气轮机放置于试车台上进行试车，转子系统由低压转子和高压转子组成，高压转子最高转速为9600r/min，慢车转速为5900r/min。分别在机匣外侧的低压压气机与高压压气机上放置两个加速度传感器采集燃机的振动信号，采集试车过程的实时振动信号，采样频率为6000Hz，每台燃机的试车测试时间为2h。

首先进行数据预处理。将采集到的燃气轮机转子的试车台测试数据进行预处理。去掉奇异值和噪声，计算其有效值RMS：

试车台前侧点数据的RMS值，如图5所示，图中下方实线为前侧点滤波信号的RMS值，上方实线为高压转速曲线，中间一条虚线是振动超限值曲线，按照产品检测标准，振动RMS值超过8的状态为异常状态。

由于试车台测试数据量庞大，为了方便获取有效特征，减少重复相似数据，首先剔除奇异值，并对数据进行降采样处理，选取缩减倍数为2，既加快数据处理时间，又保留状态有效特征信息。

建立燃机故障类型数据库并作为模型的环境。故障类型数据集合包括(前侧点正常数据、后侧点正常数据，前侧点气流激振、转子弯曲、转子不平衡故障、后侧点气流激振、转子弯曲、转子不平衡故障)，总共8类故障数据，以故障数据集合表示，作为DQN模型中的环境状态集，故障类型作为动作集合。

样本数据的70％作为训练集，30％作为测试集验证模型的诊断精度。

DQN网络训练，其中主网络与目标网络与实验3.1保持一致，其结构为5层卷积层，第1层卷积层核数目为16，卷积核大小为64×1，第2层卷积层核数目为32，卷积核大小为3×1，其余卷积层卷积核数目均为64，大小均为3×1，且每层卷积层后面都连接2×1的池化层。

在训练时，采用贪婪策略选择动作，贪婪策略参数ε随着训练不断减小，如果其初始值设置较大，会导致模型探索过多，不能有效被利用。设置ε的初始值为0.9，最小值为0.01。学习率η设置为0.01，迭代次数为200次，每轮训练步数为512，折扣因子γ设置为0.9。

首先分析经验池容量选择对收敛速度，奖励值大小的影响。如图6所示，在实验过程中对比了2000，3500，5000的不同容量，2000、3500容量的经验池虽收敛较快，但容易丢失经验，诊断准确率较低。容量越小会越快得到最大奖励，但随着迭代次数增加，会使得经验回放丢失经验，为了使结果保持最优，一般选择经验池容量为5000，最小批次容量设置为32。

在智能体训练过程中，将每次经验存放到经验池内，在经验池进行随机选取样本输入到主网络和目标网络过程中，采用TD-error优先经验回放经验池方法，改进前后奖励值变化曲线对比如图7所示，由图可见改进后的模型结果奖励值收敛更快。

图8为该模型的损失值变化曲线。对比准确率，其中图9为采用常规DQN框架下分类混淆矩阵及准确率，图10为本发明方法下的分类混淆矩阵及准确率图。通过对比可以看出，本发明在故障诊断中的准确率达到了98.7％，与未改进模型相比准确率提升了3％。

由此可知，本发明采用标准数据集西储轴承数据测试精度为99.2％，做了对比验证优于CNN、LSTM等其他方法；采用来自实际的燃机试车台数据，本发明的准确率为98.7％的，相比经验池改进前准确率提升了3％，训练时间减低一半，速度更快，可以用于快速有效地进行故障诊断。

在本发明的一个实施例中，提供一种燃气轮机转子系统改进DQN故障诊断系统，其包括：

第一处理模块，采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；

第二处理模块，构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；

第三处理模块，DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；

学习训练模块，智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；

诊断模块，将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

本实施例提供的系统是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

本发明一实施例中提供的计算设备，该计算设备可以是终端，其可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、显示屏和输入装置。其中，处理器、通信接口、存储器通过通信总线完成相互间的通信。该处理器用于提供计算和控制能力。该存储器包括非易失性存储介质、内存储器，该非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时以实现一种燃气轮机转子系统改进DQN故障诊断方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、管理商网络、NFC(近场通信)或其他技术实现。该显示屏可以是液晶显示屏或者电子墨水显示屏，该输入装置可以是显示屏上覆盖的触摸层，也可以是计算设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。处理器可以调用存储器中的逻辑指令，以执行如下方法：采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员可以理解，上述计算设备的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的计算设备的限定，具体的计算设备可以包括比更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的一个实施例中，提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

在本发明的一个实施例中，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述各实施例提供的方法，例如包括：采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

上述实施例提供的一种计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种燃气轮机转子系统改进DQN故障诊断方法，其特征在于，包括：

采集实验平台燃气轮机转子的振动数据进行预处理，将振动数据划分为训练集和测试集；

构建DQN模型的状态空间与动作空间，状态空间由故障样本构成，动作空间是由故障类型构成；

DQN模型环境与智能体交互，环境输出状态智能体，智能体通过ε-贪婪策略决策出动作到环境，在环境中反馈得到奖励和下一个状态，同时该条经验存储到经验回放池内；

智能体中的主网络和目标网络采用WDCNN模型，在学习训练中从经验回放池内随机选取经验到主网络和目标网络中，经学习训练后更新网络参数，得到最优Q值与总奖励；

将训练集数据输入到训练好的智能体中，将测试集数据输入训练好的WDCNN模型，得到故障诊断结果。

2.如权利要求1所述燃气轮机转子系统改进DQN故障诊断方法，其特征在于，所述智能体是根据故障数据状态s_t决策出故障类型动作a_t，采用ε-贪婪策略生成动作A为：

3.如权利要求1所述燃气轮机转子系统改进DQN故障诊断方法，其特征在于，所述智能体中的主网络和目标网络采用WDCNN模型，包括：

4.如权利要求1所述燃气轮机转子系统改进DQN故障诊断方法，其特征在于，所述在学习训练中从经验回放池内随机选取经验到主网络与目标网络中，所述经验的选取方法包括：根据优先级来优先选择经验并采样，优先选择具有最大优先值的时间差分误差的经验。

5.如权利要求4所述燃气轮机转子系统改进DQN故障诊断方法，其特征在于，所述具有最大优先值的时间差分误差的获取方法包括：

6.如权利要求5所述燃气轮机转子系统改进DQN故障诊断方法，其特征在于，所述优先值为：

7.如权利要求1所述燃气轮机转子系统改进DQN故障诊断方法，其特征在于，所述学习训练的方法包括：

模拟环境，由环境给智能体输入故障数据状态s_t；

将经验(s_t，a_t，r_t，s_t+1，T)加入经验回放池中，计算第i个经验的奖励y_i；

8.一种燃气轮机转子系统改进DQN故障诊断系统，其特征在于，包括：

9.一种存储一个或多个程序的计算机可读存储介质，其特征在于，所述一个或多个程序包括指令，所述指令当由计算设备执行时，使得所述计算设备执行如权利要求1至7所述方法中的任一方法。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器及一个或多个程序，其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行，所述一个或多个程序包括用于执行如权利要求1至7所述方法中的任一方法的指令。