[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113255835A - 一种水电站泵类设备异常检测方法 - Google Patents

一种水电站泵类设备异常检测方法 Download PDF

Info

Publication number
CN113255835A
CN113255835A CN202110716415.9A CN202110716415A CN113255835A CN 113255835 A CN113255835 A CN 113255835A CN 202110716415 A CN202110716415 A CN 202110716415A CN 113255835 A CN113255835 A CN 113255835A
Authority
CN
China
Prior art keywords
data
anomaly detection
model
abnormality
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110716415.9A
Other languages
English (en)
Inventor
罗玮
张建军
黄颖
周子祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoneng Daduhe Big Data Service Co ltd
Original Assignee
Guoneng Daduhe Big Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoneng Daduhe Big Data Service Co ltd filed Critical Guoneng Daduhe Big Data Service Co ltd
Priority to CN202110716415.9A priority Critical patent/CN113255835A/zh
Publication of CN113255835A publication Critical patent/CN113255835A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F04POSITIVE - DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS FOR LIQUIDS OR ELASTIC FLUIDS
    • F04BPOSITIVE-DISPLACEMENT MACHINES FOR LIQUIDS; PUMPS
    • F04B51/00Testing machines, pumps, or pumping installations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Mechanical Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种水电站泵类设备异常检测方法,涉及水电站安全监测技术领域,其技术方案要点是:对多源传感器监测数据进行脏数据处理、数据分类后构建得到模型输入的时序数据;以变分自编码器的编码解码结构为主体,将编码解码结构中的BP神经网络替换为门控循环单元,建立初始异常检测模型;初始异常检测模型依据时序数据训练学习水泵的正常模式后得到最终异常检测模型;对最终异常检测模型中的缺失数据进行填充,并利用变分自编码器的重建概率以及设定阈值对输入数据进行异常检测。本发明不仅考虑了异常数据和缺失数据对模型性能的影响,还结合了时序数据间的长期依赖性,能更好地实现优于现有方法的水泵异常检测效果。

Description

一种水电站泵类设备异常检测方法
技术领域
本发明涉及水电站安全监测技术领域,更具体地说,它涉及一种水电站泵类设备异常检测方法。
背景技术
水电站一般采用渗漏集水井的方法对厂房渗漏水进行集中收集,当集水井的水位达到一定阈值时,渗漏排水系统会自动启动泵类设备对集水井水进行处理,若泵类设备故障可能会导致水淹厂房等重大事故。泵类设备是渗漏排水系统的重要辅助设备,直接关系到水电站厂房和机组的整体安全。
目前,水电站泵类设备的运行状态主要靠运维人员根据观测数据和检修经验进行判断,存在异常发现不及时的情况,而泵类设备的监测需要花费大量的时间和人力成本。与此同时,水电站监控系统存储着充足的泵类设备运行数据,对这些数据进行充分挖掘,能获取泵类设备运行的客观规律,检测出泵类设备的异常运行状态,实现泵类设备及时预警,方便检修人员对泵类设备进行及时的检修和维护。而传统的方法是基于统计分析的方法,该方法利用多维变量之间的相关性进行异常检测,先降维分解多维变量的样本空间,构造反映空间变化的统计量,再根据特征统计量判断数据是否异常。然而,该方法需要基于较强的假设前提和合适的数据模型,选择错误的分布模型则会导致较差的检测效果。
因此,如何研究设计一种水电站泵类设备异常检测方法是我们目前急需解决的问题。
发明内容
为解决现有技术中的不足,本发明的目的是提供一种水电站泵类设备异常检测方法,本发明利用变分自编码器的重建概率进行数据的异常检测,通过修改标准的证据下界和在变分自编码器中融入门控循环单元,不仅考虑了异常数据和缺失数据对模型性能的影响,还结合了时序数据间的长期依赖性,能更好地实现优于现有方法的水泵异常检测效果。
本发明的上述技术目的是通过以下技术方案得以实现的:一种水电站泵类设备异常检测方法,包括以下步骤:
获取水泵的多源传感器监测数据,并对监测数据进行脏数据处理、数据分类后构建得到模型输入的时序数据;
以变分自编码器的编码解码结构为主体,将编码解码结构中的BP神经网络替换为门控循环单元,建立基于变分自编码器和门控循环单元的初始异常检测模型;
初始异常检测模型依据时序数据训练学习水泵的正常模式后得到最终异常检测模型;
对最终异常检测模型中的缺失数据进行填充,并利用变分自编码器的重建概率以及设定阈值对输入数据进行异常检测。
进一步的,所述时序数据的建立过程具体为:
将水泵每次运行阶段的数据作为一个整体,通过计算对应运行阶段的监测数据的均值和方差来反应水泵的整体运行状态;
将不同运行阶段中的启停阶段拼接后构建一个完整的时序数据。
进一步的,所述时序数据按照7:3 的比例划分为训练集和测试集。
进一步的,所述最终异常检测模型的训练获得过程具体为:
通过随机梯度下降方法对从时序数据中获取的采样数据进行训练;
训练过程更新编码结构中的门控循环单元参数ϕ和解码结构中的门控循环单元参数θ;
通过寻找最小化修改后证据下界的损失函数以排除异常数据和缺失数据产生的影响。
进一步的,所述采样数据的获取过程具体为:
对t时刻对应数据点xt的前
Figure 548733DEST_PATH_IMAGE001
个数据点进行采样,得到数据
Figure 262611DEST_PATH_IMAGE002
将数据
Figure 104665DEST_PATH_IMAGE003
作为初始异常检测模型的输入数据
Figure 299542DEST_PATH_IMAGE004
初始异常检测模型的训练阶段将采样数设置为1,并利用对应数据点构建滑动窗口以使变分自编码器为主体的初始异常检测模型能够处理时序数据。
进一步的,所述修改后证据下界的具体计算公式为:
Figure 910652DEST_PATH_IMAGE005
其中,
Figure 529852DEST_PATH_IMAGE006
表示修改后证据下界;
Figure 859202DEST_PATH_IMAGE007
表示指示函数,当
Figure 120419DEST_PATH_IMAGE008
时表示模型第k次的输入数据
Figure 586035DEST_PATH_IMAGE009
中没有异常或缺失,反之
Figure 376137DEST_PATH_IMAGE010
Figure 927204DEST_PATH_IMAGE011
定义为
Figure 726533DEST_PATH_IMAGE012
Figure 46656DEST_PATH_IMAGE013
表示采样数量;
Figure 535887DEST_PATH_IMAGE007
直接排除标记的异常数据和缺失数据对的影响,同时
Figure 574250DEST_PATH_IMAGE011
根据X中正常数据点的比值减少
Figure 646111DEST_PATH_IMAGE014
的影响;
Figure 351899DEST_PATH_IMAGE014
表示变分推断技术中的假设先验;
Figure 483803DEST_PATH_IMAGE015
Figure 9463DEST_PATH_IMAGE016
表示对角高斯分布;
Figure 885015DEST_PATH_IMAGE017
表示
Figure 445309DEST_PATH_IMAGE018
分布统计中的期望。
进一步的,所述随机梯度下降方法的训练过程具体为:
Figure 748114DEST_PATH_IMAGE019
其中,α表示学习率;t+1表示梯度更新后的阶段;t表示梯度更新前的阶段;
Figure 764000DEST_PATH_IMAGE020
表示编码结构中梯度更新前的门控循环单元参数;
Figure 443243DEST_PATH_IMAGE021
表示编码结构中梯度更新后的门控循环单元参数;
Figure 858043DEST_PATH_IMAGE022
表示解码结构中梯度更新前的门控循环单元参数;
Figure 597329DEST_PATH_IMAGE023
解码结构中梯度更新后的门控循环单元参数。
进一步的,该方法还包括:
模型训练过程中将滑动窗口中的缺失数据填充为零;
最终异常检测模型异常检测过程中,采用基于马尔可夫链蒙特卡罗的缺失数据插补技术进行数据重构,得到最终数据后采用蒙特卡罗采样计算重建概率。
进一步的,所述最终数据重构获得过程具体为:
将输入数据
Figure 832002DEST_PATH_IMAGE024
中分为观测数据和缺失数据,得到数据
Figure 49356DEST_PATH_IMAGE025
Figure 318664DEST_PATH_IMAGE026
数据中获得隐式特征
Figure 494430DEST_PATH_IMAGE027
,并从
Figure 216398DEST_PATH_IMAGE028
数据中获得重构数据
Figure 237444DEST_PATH_IMAGE029
保持观测数据不变、缺失点替换为模型生成数据的方式将
Figure 381766DEST_PATH_IMAGE029
替换为
Figure 462854DEST_PATH_IMAGE030
重复迭代多次后中间值
Figure 672118DEST_PATH_IMAGE031
趋近正常值,得到最终数据
Figure 762434DEST_PATH_IMAGE032
进一步的,对所述输入数据进行异常检测的具体过程为:
若变分自编码器的重建概率大于设定阈值,则输入数据正常;
若变分自编码器的重建概率小于或等于设定阈值,则将输入数据标记为异常数据。
与现有技术相比,本发明具有以下有益效果:
1、本发明基于变分自编码器和门控循环单元的异常检测方法,利用变分自编器的重建概率实现水泵运行状态的异常检测;在变分自编码器融入门控循环单元,使变分自编码器可以捕捉时序数据间的长期依赖性,可以提取到更好的数据表征,用于水泵运行状态的异常检测;
2、本发明基于变分自编码器和门控循环单元的异常检测方法,综合考虑了异常数据和缺失数据的影响,通过改进变分自编码器的标准证据下界,将正常数据和异常数据一起训练,使模型可以更好地学到水泵数据表征用于异常检测;在异常检测阶段,采用马尔可夫链蒙特卡罗的插补技术用于缺失值填充,使模型能生成符合水泵正常模型的重建概率,本发明提供的异常检测模型超越了现有的异常检测算法,在水泵异常检测的任务上具有更好的检测效果。
3、本发明基于变分自编码器和门控循环单元的异常检测方法,构造了一个基于深度学习的异常检测模型,可以使用此模型对水泵进行异常检测,相较于人工根据检修经验的传统方法,该模型的异常检测结果有更高的准确率,并且能够根据不断变化的水泵运行环境,进行实时监测和预警。不仅节省了大量的人力物力成本,而且其预测结果也更有价值。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明实施例中变分自编码器、门控循环单元的工作原理图;
图2是本发明实施例中缺失数据插补过程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
术语解释:
重建概率(ReconstructionProbability)是一种考虑变量分布变异性的概率度量。变分自编码器的概率编码器和解码器分别对隐式变量空间和原始输入变量空间中的各向同性正态分布进行参数化。为了测试,从训练的变分自编码器的概率编码器中抽取许多样本。对于来自编码器的每个样本,概率解码器输出均值和方差。使用这些参数,计算从分布产生原始数据的概率。对所有样本的概率作平均处理,将平均概率用作异常分数,称为重建概率。
SGD是Stochastic gradient descent的缩写,表示“随机梯度下降”。相对于用整个训练集来计算梯度,它从样本中随机抽出一组,训练后按找梯度更新一次,重复此过程。在样本量大的情况下,可能不用训练完所有的样本就能获得一个损失值在可接受范围之内的模型。
马尔可夫链蒙特卡罗算法(Markov Chain Monte Carlo,MCMC)使用马尔科夫链的蒙特卡洛积分,其基本思想是:构造一条马尔可夫链,使其平稳分布为待估参数的后验分布,通过这条马尔可夫链产生后验分布的样本,并基于马尔可夫链达到平稳分布时的样本进行蒙特卡洛积分。
实施例1:一种水电站泵类设备异常检测方法,包括以下步骤:
S1:获取水泵的多源传感器监测数据,并对监测数据进行脏数据处理、数据分类后构建得到模型输入的时序数据;
S2:以变分自编码器的编码解码结构为主体,将编码解码结构中的BP神经网络替换为门控循环单元,建立基于变分自编码器和门控循环单元的初始异常检测模型;
S3:初始异常检测模型依据时序数据训练学习水泵的正常模式后得到最终异常检测模型;
S4:对最终异常检测模型中的缺失数据进行填充,并利用变分自编码器的重建概率以及设定阈值对输入数据进行异常检测。
在步骤S1中,水泵的多源传感器监测数据包括但不限于集水井实时水位、排水泵的三相电流和电压、出口压力。
(1)脏数据处理
由于水电站排水系统的程序设置,其中可能会出现某个排水泵工作到一半,就会被切换成另一个泵工作的情况。此类情况的数据并未包含完整的水泵抽水的过程,导致数据不完整,影响模型学习的数据表征的质量。但此类数据出现极少且无法插补,所以只能剔除。
(2)数据分类
如渗漏排水系统包括3台排水泵,只需要任意一台水泵工作,则表明渗漏排水系统在工作。针对不同的排水泵,需要根据排水泵的开关量,将计算机监控系统中的监测数据分类,分别提取对应水泵的数据。
(3)时序数据的构建
通过对排水泵运行数据分析发现:排水泵在渗漏排水系统中由集水井的水位变化决定水泵的启停。而监控系统采集的数据波动极大,极不稳定,对每个时刻的运行数据分析以获取客观规律的意义不大。因此,考虑将每次运行阶段的数据作为一个整体,选择构造该阶段水泵的监测数据的均值和方差反应水泵的整体运行状态。在此基础上,将每个启停阶段拼接起来,构建成一个完整的时序数据。把构建的时序数据集
Figure 740755DEST_PATH_IMAGE033
按 7:3 的比例划分为训练集
Figure 727165DEST_PATH_IMAGE034
和测试集
Figure 689305DEST_PATH_IMAGE035
。在每个数据集中,
Figure 52153DEST_PATH_IMAGE036
表示水泵的多维变量时序数据,
Figure 416138DEST_PATH_IMAGE036
i时刻的数据
Figure 573450DEST_PATH_IMAGE037
。m表示变量个数,n表示数据长度。
在步骤S2中,如图1所示,将变分自编码器的BP神经网络替换为门控循环单元,用于捕捉时序数据间的长期依赖性。在基于变分自编码器和门控循环单元的网络结构中,异常检测模型建模关于隐变量Z和输入变量
Figure 25816DEST_PATH_IMAGE004
之间的关系,输入变量
Figure 192355DEST_PATH_IMAGE004
即为模型的输入数据
Figure 879688DEST_PATH_IMAGE004
。由于真实后验
Figure 473481DEST_PATH_IMAGE038
很难通过计算直接获得且对于后续的数据生成必不可少。本发明提供的模型采用变分推断技术,假设先验
Figure 879054DEST_PATH_IMAGE039
服从高斯分布
Figure 114863DEST_PATH_IMAGE040
,然后利用带有参数φ的门控循环单元网络去拟合真实后验
Figure 922282DEST_PATH_IMAGE038
作为近似后验
Figure 686976DEST_PATH_IMAGE016
。两个条件分布都服从对角高斯分布
Figure 579846DEST_PATH_IMAGE041
Figure 350837DEST_PATH_IMAGE042
,其中
Figure 12762DEST_PATH_IMAGE043
Figure 948357DEST_PATH_IMAGE044
Figure 328523DEST_PATH_IMAGE045
Figure 640556DEST_PATH_IMAGE046
分别是每个独立高斯分量的均值和标准差,其中X表示K维向量。隐藏特征利用带有参数φ和θ的门控循环单元
Figure 688146DEST_PATH_IMAGE047
Figure 794643DEST_PATH_IMAGE048
从X和Z中提取,然后从隐藏特征构建高斯参数。
均值和标准差通过线性层构建,计算公式具体为:
Figure 193263DEST_PATH_IMAGE049
其中,
Figure 43407DEST_PATH_IMAGE001
Figure 948434DEST_PATH_IMAGE050
表示线性层的参数;表示极小的正数,例如:110-6
Figure 225831DEST_PATH_IMAGE051
,由于泵类数据波动不大,通过引入足够小的和
Figure 580589DEST_PATH_IMAGE052
函数,避免训练过程可能出现的数值精度问题。重构数据
Figure 234425DEST_PATH_IMAGE053
利用隐藏层中带有参数θ的门控循环单元从
Figure 991028DEST_PATH_IMAGE054
采样生成。因此,异常数据与正常数据具有较大的区别,可以基于
Figure 439327DEST_PATH_IMAGE053
的重构概率判断异常。基于变分自编码器和门控循环单元的异常检测模型利用变分推断拟合真实后验
Figure 281381DEST_PATH_IMAGE038
的过程。
因此,此时的数据边缘概率分布
Figure 738907DEST_PATH_IMAGE055
具体为:
Figure 615596DEST_PATH_IMAGE056
其中,
Figure 497446DEST_PATH_IMAGE057
表示为通过变分推断获得的标准证据下界;KL表示Kullback-Leibler散度函数,通过最大化证据下界来联合训练近似后验模型和生成模型;
Figure 826796DEST_PATH_IMAGE016
表示Z是来自分布
Figure 822434DEST_PATH_IMAGE016
的采样,E表示统计中的期望值;
Figure 288050DEST_PATH_IMAGE017
表示
Figure 609310DEST_PATH_IMAGE018
分布统计中的期望。
在步骤S3中,最终异常检测模型的训练获得过程具体为:通过随机梯度下降方法对从时序数据中获取的采样数据进行训练;训练过程更新编码结构中的门控循环单元参数ϕ和解码结构中的门控循环单元参数θ;通过寻找最小化修改后证据下界的损失函数以排除异常数据和缺失数据产生的影响。
采用滑动窗口的方式,使以变分自编码器为主体的异常检测模型能够处理时序数据,采样数据的获取过程具体为:对
Figure 160377DEST_PATH_IMAGE058
时刻对应数据点
Figure 959706DEST_PATH_IMAGE059
的前
Figure 279829DEST_PATH_IMAGE001
个数据点进行采样,得到数据
Figure 506411DEST_PATH_IMAGE002
;将数据
Figure 279195DEST_PATH_IMAGE003
作为初始异常检测模型的输入数据
Figure 619565DEST_PATH_IMAGE004
;初始异常检测模型的训练阶段将采样数设置为1,并利用对应数据点构建滑动窗口以使变分自编码器为主体的初始异常检测模型能够处理时序数据。
修改后证据下界的具体计算公式为:
Figure 325353DEST_PATH_IMAGE060
其中,
Figure 457257DEST_PATH_IMAGE006
表示修改后证据下界;
Figure 982916DEST_PATH_IMAGE007
表示指示函数,当
Figure 858468DEST_PATH_IMAGE008
时表示模型第k次的输入数据
Figure 153183DEST_PATH_IMAGE009
中没有异常或缺失,反之
Figure 721568DEST_PATH_IMAGE010
Figure 734523DEST_PATH_IMAGE011
定义为
Figure 148187DEST_PATH_IMAGE012
Figure 297409DEST_PATH_IMAGE013
表示采样数量;
Figure 299344DEST_PATH_IMAGE007
直接排除标记的异常数据和缺失数据对
Figure 799596DEST_PATH_IMAGE061
的影响,同时
Figure 16950DEST_PATH_IMAGE011
根据X中正常数据点的比值减少
Figure 286258DEST_PATH_IMAGE014
的影响;
Figure 196445DEST_PATH_IMAGE014
表示变分推断技术中的假设先验;
Figure 918413DEST_PATH_IMAGE015
Figure 939459DEST_PATH_IMAGE016
表示对角高斯分布。即使
Figure 63273DEST_PATH_IMAGE062
中存在异常数据点,也可以让变分自编码器模型正确地重构
Figure 409940DEST_PATH_IMAGE063
中的数据,生成符合泵类设备正常模式的数据。
为了避免大规模计算,所采用随机梯度下降方法的训练过程具体为:
Figure 887714DEST_PATH_IMAGE019
其中,α表示学习率;t+1表示梯度更新后的阶段;t表示梯度更新前的阶段;
Figure 446871DEST_PATH_IMAGE020
表示编码结构中梯度更新前的门控循环单元参数;
Figure 425191DEST_PATH_IMAGE021
表示编码结构中梯度更新后的门控循环单元参数;
Figure 677181DEST_PATH_IMAGE022
表示解码结构中梯度更新前的门控循环单元参数;
Figure 639321DEST_PATH_IMAGE023
解码结构中梯度更新后的门控循环单元参数。通过随机梯度下降的方法,更新φ和θ,最终学习到判别水泵运行状态的模型的良好参数。
针对滑动窗口中的缺失数据,直接将缺失数据填充为零,用于模型的训练,具体过程包括:模型训练过程中将滑动窗口中的缺失数据填充为零;最终异常检测模型异常检测过程中,采用基于马尔可夫链蒙特卡罗的缺失数据插补技术进行数据重构,得到最终数据后采用蒙特卡罗采样计算重建概率。
如图2所示, 最终数据重构获得过程具体为:将输入数据
Figure 267748DEST_PATH_IMAGE024
中分为观测数据和缺失数据,得到数据
Figure 100575DEST_PATH_IMAGE025
;从
Figure 789045DEST_PATH_IMAGE026
数据中获得隐式特征Z,并从
Figure 972902DEST_PATH_IMAGE028
数据中获得重构数据
Figure 159949DEST_PATH_IMAGE029
;保持观测数据不变、缺失点替换为模型生成数据的方式将
Figure 112862DEST_PATH_IMAGE029
替换为
Figure 706654DEST_PATH_IMAGE030
;重复迭代多次后中间值
Figure 112227DEST_PATH_IMAGE031
趋近正常值,得到用于计算重建概率的最终数据
Figure 348037DEST_PATH_IMAGE032
。只要给定足够大的M,就可以减少数据偏差,并可以获得更准确的重建概率。
在步骤S4中,利用上述过程中训练好的最终异常检测模型用于判断某一时刻的观测变量
Figure 155456DEST_PATH_IMAGE064
是否异常,观测变量
Figure 920149DEST_PATH_IMAGE064
也可为观测数据。采用重建概率作为异常检测的评估分数,重建概率越大,表明输入变量
Figure 78598DEST_PATH_IMAGE064
能较好地通过异常检测模型重构,即若观测变量符合输入变量的整体分布,则此观测变量能以较高的置信度重构。反之,输入变量X与重构变量之间差距较大。因此,采用设定阈值的方法来进行异常数据的判定。若重建概率大于某阈值,则输入变量正常;反之,输入数据标记为异常数据。由于缺失值置零,缺失数据会使重构数据产生数据偏差,并进一步使重建概率不准确。为此,采用基于马尔可夫链蒙特卡罗的缺失数据插补技术用于训练之后的异常检测模型。数据填充之后,对隐变量Z采样L个样本,然后采用蒙特卡罗采样计算重建概率。然后设置合适的异常检测阈值,将数据点
Figure 586940DEST_PATH_IMAGE064
的评估分数与阈值进行比较,若异常检测分数大于设定阈值,则表示数据点
Figure 514445DEST_PATH_IMAGE064
为正常状态。反之,数据点
Figure 718549DEST_PATH_IMAGE059
为异常状态。
蒙特卡罗采样计算公式如下:
Figure 98714DEST_PATH_IMAGE065
实施例2:采用实施例1提供的基于变分自编码器和门控循环单元的异常检测方法在大岗山水电站泵类设备的多源传感器监测的真实数据集上产生的效果。
为了满足深度学习的异常检测模型学习问题的要求,将真实的数据集划分为训练集和测试集。训练集用于训练模型的参数和超参数,测试集用于评估模型的异常检测效果。
首先利用训练集在五种基线方法(iForest、DAGMM、AE、GRU、VAE)上训练得到异常检测模型,然后利用这五种模型在测试集中进行异常检测,所得到的异常检测效果见表1为加粗部分。再使用实施例1提供的基于变分自编码器和门控循环单元的异常检测方法(VAE-GRU)利用训练集进行异常检测模型训练,得到实现异常检测模型,然后使用模型在测试集中进行异常检测,所得到的异常检测效果见表1加粗字体部分。为评估在真实数据集上的模型性能,我们采用精确率(Precision)、召回率(Recall)和F1值作为评价指标,值越高,模型方法越好。
表1 在应用例数据集上进行异常检测的效果
Figure 145168DEST_PATH_IMAGE066
需要说明的是,iForest为孤立森林算法;DAGMM为基于高斯混合模型的深度自编码器(DAGMM)模型;AE为基于自编码器的异常检测模型;GRU为基于门控循环单元的无监督异常检测模型;VAE为基于变分自编码器的无监督异常检测模型。
从表1的实验结果可以看出,基于变分自编码器和门控循环单元的水电站泵类设备异常检测方法,在水电站泵类设备的真实数据集上其异常检测的效果均高于其它机器学习算法。
由此可知,本发明将变分自编码器与门控循环单元相结合,能有效地提取泵类设备的多维监测时序数据的特征向量;将变分自编码器与MCMC操作相结合,使填补的缺失数据符合正常模式的泵类数据,构建出一个符合泵类设备整体分布的重建概率,用于泵类设备的异常检测,使基于变分自编码器和门控循环单元的异常检测模型的各项指标均高于对比的其它基准算法,可满足泵类设备异常检测需求。基于变分自编码器和门控循环单元的异常检测模型从模型准确率、鲁棒性上都要优于其它基准模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种水电站泵类设备异常检测方法,其特征是,包括以下步骤:
获取水泵的多源传感器监测数据,并对监测数据进行脏数据处理、数据分类后构建得到模型输入的时序数据;
以变分自编码器的编码解码结构为主体,将编码解码结构中的BP神经网络替换为门控循环单元,建立基于变分自编码器和门控循环单元的初始异常检测模型;
初始异常检测模型依据时序数据训练学习水泵的正常模式后得到最终异常检测模型;
对最终异常检测模型中的缺失数据进行填充,并利用变分自编码器的重建概率以及设定阈值对输入数据进行异常检测。
2.根据权利要求1所述的一种水电站泵类设备异常检测方法,其特征是,所述时序数据的建立过程具体为:
将水泵每次运行阶段的数据作为一个整体,通过计算对应运行阶段的监测数据的均值和方差来反应水泵的整体运行状态;
将不同运行阶段中的启停阶段拼接后构建一个完整的时序数据。
3.根据权利要求1所述的一种水电站泵类设备异常检测方法,其特征是,所述时序数据按照7:3 的比例划分为训练集和测试集。
4.根据权利要求1所述的一种水电站泵类设备异常检测方法,其特征是,所述最终异常检测模型的训练获得过程具体为:
通过随机梯度下降方法对从时序数据中获取的采样数据进行训练;
训练过程更新编码结构中的门控循环单元参数ϕ和解码结构中的门控循环单元参数θ;
通过寻找最小化修改后证据下界的损失函数以排除异常数据和缺失数据产生的影响。
5.根据权利要求4所述的一种水电站泵类设备异常检测方法,其特征是,所述采样数据的获取过程具体为:
对t时刻对应数据点xt的前w个数据点进行采样,得到数据
Figure 911139DEST_PATH_IMAGE001
将数据
Figure 4997DEST_PATH_IMAGE002
作为初始异常检测模型的输入数据X;
初始异常检测模型的训练阶段将采样数设置为1,并利用对应数据点构建滑动窗口以使变分自编码器为主体的初始异常检测模型能够处理时序数据。
6.根据权利要求4所述的一种水电站泵类设备异常检测方法,其特征是,所述修改后证据下界的具体计算公式为:
Figure 238270DEST_PATH_IMAGE003
其中,
Figure 784789DEST_PATH_IMAGE004
表示修改后证据下界;
Figure 895965DEST_PATH_IMAGE005
表示指示函数,当
Figure 844329DEST_PATH_IMAGE006
时表示模型第k次的输入数据
Figure 974135DEST_PATH_IMAGE007
中没有异常或缺失,反之
Figure 7950DEST_PATH_IMAGE008
Figure 391658DEST_PATH_IMAGE009
定义为
Figure 161906DEST_PATH_IMAGE010
Figure 972867DEST_PATH_IMAGE011
表示采样数量;
Figure 493978DEST_PATH_IMAGE005
直接排除标记的异常数据和缺失数据对
Figure 681377DEST_PATH_IMAGE012
的影响,同时
Figure 105798DEST_PATH_IMAGE009
根据X中正常数据点的比值减少
Figure 353240DEST_PATH_IMAGE013
的影响;
Figure 361647DEST_PATH_IMAGE013
表示变分推断技术中的假设先验;
Figure 352737DEST_PATH_IMAGE014
Figure 628735DEST_PATH_IMAGE015
表示对角高斯分布;
Figure 47078DEST_PATH_IMAGE016
表示
Figure 11623DEST_PATH_IMAGE017
分布统计中的期望。
7.根据权利要求4所述的一种水电站泵类设备异常检测方法,其特征是,所述随机梯度下降方法的训练过程具体为:
Figure 806404DEST_PATH_IMAGE018
其中,α表示学习率;t+1表示梯度更新后的阶段;t表示梯度更新前的阶段;
Figure 939839DEST_PATH_IMAGE019
表示编码结构中梯度更新前的门控循环单元参数;
Figure 263504DEST_PATH_IMAGE020
表示编码结构中梯度更新后的门控循环单元参数;
Figure 715345DEST_PATH_IMAGE021
表示解码结构中梯度更新前的门控循环单元参数;
Figure 281193DEST_PATH_IMAGE022
解码结构中梯度更新后的门控循环单元参数。
8.根据权利要求5所述的一种水电站泵类设备异常检测方法,其特征是,该方法还包括:
模型训练过程中将滑动窗口中的缺失数据填充为零;
最终异常检测模型异常检测过程中,采用基于马尔可夫链蒙特卡罗的缺失数据插补技术进行数据重构,得到最终数据后采用蒙特卡罗采样计算重建概率。
9.根据权利要求8所述的一种水电站泵类设备异常检测方法,其特征是, 所述最终数据重构获得过程具体为:
将输入数据
Figure 767669DEST_PATH_IMAGE024
中分为观测数据和缺失数据,得到数据
Figure 527815DEST_PATH_IMAGE025
Figure 233996DEST_PATH_IMAGE026
数据中获得隐式特征
Figure 105000DEST_PATH_IMAGE027
,并从
Figure 711562DEST_PATH_IMAGE028
数据中获得重构数据
Figure 908188DEST_PATH_IMAGE029
保持观测数据不变、缺失点替换为模型生成数据的方式将
Figure 833156DEST_PATH_IMAGE029
替换为
Figure 773431DEST_PATH_IMAGE030
重复迭代
Figure 234499DEST_PATH_IMAGE031
后中间值
Figure 70868DEST_PATH_IMAGE032
趋近正常值,得到最终数据
Figure 763360DEST_PATH_IMAGE033
10.根据权利要求1-9任意一项所述的一种水电站泵类设备异常检测方法,其特征是,对所述输入数据进行异常检测的具体过程为:
若变分自编码器的重建概率大于设定阈值,则输入数据正常;
若变分自编码器的重建概率小于或等于设定阈值,则将输入数据标记为异常数据。
CN202110716415.9A 2021-06-28 2021-06-28 一种水电站泵类设备异常检测方法 Pending CN113255835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110716415.9A CN113255835A (zh) 2021-06-28 2021-06-28 一种水电站泵类设备异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110716415.9A CN113255835A (zh) 2021-06-28 2021-06-28 一种水电站泵类设备异常检测方法

Publications (1)

Publication Number Publication Date
CN113255835A true CN113255835A (zh) 2021-08-13

Family

ID=77189791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110716415.9A Pending CN113255835A (zh) 2021-06-28 2021-06-28 一种水电站泵类设备异常检测方法

Country Status (1)

Country Link
CN (1) CN113255835A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113671917A (zh) * 2021-08-19 2021-11-19 中国科学院自动化研究所 针对多模态工业过程异常状态的检测方法、系统、设备
CN114070747A (zh) * 2021-11-15 2022-02-18 四川启睿克科技有限公司 基于vi算法的高斯混合模型的物联网设备状态检测方法
CN114547970A (zh) * 2022-01-25 2022-05-27 中国长江三峡集团有限公司 一种水电厂顶盖排水系统异常智能诊断方法
CN115222164A (zh) * 2022-09-20 2022-10-21 国能大渡河大数据服务有限公司 一种基于经验耦合函数的水泵故障预测方法及系统
CN115565525A (zh) * 2022-12-06 2023-01-03 四川大学华西医院 音频异常检测方法、装置、电子设备及存储介质
CN116451118A (zh) * 2023-04-19 2023-07-18 西安电子科技大学 基于深度学习的雷达光电异常值检测方法
CN116700213A (zh) * 2023-06-13 2023-09-05 无锡物联网创新中心有限公司 基于门控循环单元的工业设备异常检测方法及相关装置
CN116805228A (zh) * 2023-08-18 2023-09-26 鲲鹏智慧冷链(山东)有限公司 一种冷链物流储存温湿度预测系统及方法
CN116840835A (zh) * 2022-05-05 2023-10-03 南方科技大学 一种基于毫米波雷达的跌倒检测方法、系统及设备
CN117591983A (zh) * 2024-01-17 2024-02-23 成方金融科技有限公司 一种多指标异常检测方法、装置、电子设备和存储介质
CN118466443A (zh) * 2024-04-29 2024-08-09 南京航空航天大学 航天器姿态控制系统异常检测方法及系统
CN118736798A (zh) * 2024-09-02 2024-10-01 国能大渡河金川水电建设有限公司 水电站的预警系统、水电站的预警方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915818B1 (en) * 2020-07-08 2021-02-09 NotCo Delaware, LLC Latent space method of generating food formulas
CN112416643A (zh) * 2020-11-26 2021-02-26 清华大学 无监督异常检测方法与装置
CN112766618A (zh) * 2020-12-25 2021-05-07 苏艺然 异常预测方法及装置
CN112766342A (zh) * 2021-01-12 2021-05-07 安徽容知日新科技股份有限公司 一种电气设备的异常检测方法
CN112784965A (zh) * 2021-01-28 2021-05-11 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10915818B1 (en) * 2020-07-08 2021-02-09 NotCo Delaware, LLC Latent space method of generating food formulas
CN112416643A (zh) * 2020-11-26 2021-02-26 清华大学 无监督异常检测方法与装置
CN112766618A (zh) * 2020-12-25 2021-05-07 苏艺然 异常预测方法及装置
CN112766342A (zh) * 2021-01-12 2021-05-07 安徽容知日新科技股份有限公司 一种电气设备的异常检测方法
CN112784965A (zh) * 2021-01-28 2021-05-11 广西大学 面向云环境下大规模多元时间序列数据异常检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YIFAN GUO等: "Unsupervised Anomaly Detection in IoT Systems for Smart Cities", 《IEEE TRANSACTIONS ON NETWORK SCIENCE AND ENGINEERING》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113671917B (zh) * 2021-08-19 2022-08-02 中国科学院自动化研究所 针对多模态工业过程异常状态的检测方法、系统、设备
CN113671917A (zh) * 2021-08-19 2021-11-19 中国科学院自动化研究所 针对多模态工业过程异常状态的检测方法、系统、设备
CN114070747A (zh) * 2021-11-15 2022-02-18 四川启睿克科技有限公司 基于vi算法的高斯混合模型的物联网设备状态检测方法
CN114070747B (zh) * 2021-11-15 2023-04-18 四川启睿克科技有限公司 基于vi算法的高斯混合模型的物联网设备状态检测方法
CN114547970A (zh) * 2022-01-25 2022-05-27 中国长江三峡集团有限公司 一种水电厂顶盖排水系统异常智能诊断方法
CN114547970B (zh) * 2022-01-25 2024-02-20 中国长江三峡集团有限公司 一种水电厂顶盖排水系统异常智能诊断方法
CN116840835A (zh) * 2022-05-05 2023-10-03 南方科技大学 一种基于毫米波雷达的跌倒检测方法、系统及设备
CN116840835B (zh) * 2022-05-05 2024-05-10 南方科技大学 一种基于毫米波雷达的跌倒检测方法、系统及设备
CN115222164A (zh) * 2022-09-20 2022-10-21 国能大渡河大数据服务有限公司 一种基于经验耦合函数的水泵故障预测方法及系统
CN115565525A (zh) * 2022-12-06 2023-01-03 四川大学华西医院 音频异常检测方法、装置、电子设备及存储介质
CN116451118B (zh) * 2023-04-19 2024-01-30 西安电子科技大学 基于深度学习的雷达光电异常值检测方法
CN116451118A (zh) * 2023-04-19 2023-07-18 西安电子科技大学 基于深度学习的雷达光电异常值检测方法
CN116700213A (zh) * 2023-06-13 2023-09-05 无锡物联网创新中心有限公司 基于门控循环单元的工业设备异常检测方法及相关装置
CN116700213B (zh) * 2023-06-13 2024-03-29 无锡物联网创新中心有限公司 基于门控循环单元的工业设备异常检测方法及相关装置
CN116805228A (zh) * 2023-08-18 2023-09-26 鲲鹏智慧冷链(山东)有限公司 一种冷链物流储存温湿度预测系统及方法
CN117591983A (zh) * 2024-01-17 2024-02-23 成方金融科技有限公司 一种多指标异常检测方法、装置、电子设备和存储介质
CN117591983B (zh) * 2024-01-17 2024-04-19 成方金融科技有限公司 一种多指标异常检测方法、装置、电子设备和存储介质
CN118466443A (zh) * 2024-04-29 2024-08-09 南京航空航天大学 航天器姿态控制系统异常检测方法及系统
CN118736798A (zh) * 2024-09-02 2024-10-01 国能大渡河金川水电建设有限公司 水电站的预警系统、水电站的预警方法及电子设备

Similar Documents

Publication Publication Date Title
CN113255835A (zh) 一种水电站泵类设备异常检测方法
CN111222290B (zh) 一种基于多参数特征融合的大型设备剩余使用寿命预测方法
CN109146246B (zh) 一种基于自动编码器和贝叶斯网络的故障检测方法
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN112414694B (zh) 基于多元状态估计技术的设备多级异常状态识别方法及装置
CN109917777A (zh) 基于混合多采样率概率主成分分析模型的故障检测方法
CN111782460A (zh) 大规模日志数据的异常检测方法、装置和存储介质
CN117074961A (zh) 一种变分自编码器动力电池异常检测方法、系统、装置及存储介质
CN113642754A (zh) 一种基于rf降噪自编码信息重构和时间卷积网络的复杂工业过程故障预测方法
CN111738521B (zh) 非侵入式电力负荷监测序列生成方法、系统、设备及介质
CN115563563A (zh) 基于变压器油色谱分析的故障诊断方法及装置
CN112735541A (zh) 一种基于简单循环单元神经网络的污水处理水质预测方法
CN113485863B (zh) 基于改进生成对抗网络生成异构不平衡故障样本的方法
CN111198979A (zh) 一种用于对输变电可靠性评估大数据进行清洗的方法及系统
CN116702090A (zh) 一种多模态数据融合与不确定估计的水位预测方法及系统
CN116910559A (zh) 一种面向电网超算中心智能运维应用的指标异常检测方法
CN117708625B (zh) 一种乏数据背景下大坝监测历史数据填补方法
CN115883424B (zh) 一种高速骨干网间流量数据预测方法及系统
CN117493980A (zh) 一种集成特征提取和排序因果发现的轴承故障诊断方法
CN112100919B (zh) 一种基于re-cf-ekf算法的滚动轴承剩余寿命预测方法
CN116933643A (zh) 基于偏鲁棒m回归和多重插补的智能数据监测方法
CN113298240B (zh) 一种伺服驱动系统生命周期预测方法及装置
CN115600143A (zh) 储能锂电池故障诊断方法及装置
CN118760145B (zh) 用于电极除膜控制系统的故障检测方法及系统
CN114530163A (zh) 基于密度聚类的采用声音识别设备生命周期的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813

RJ01 Rejection of invention patent application after publication