CN112232557B - 基于长短期记忆网络的转辙机健康度短期预测方法 - Google Patents
基于长短期记忆网络的转辙机健康度短期预测方法 Download PDFInfo
- Publication number
- CN112232557B CN112232557B CN202011060303.4A CN202011060303A CN112232557B CN 112232557 B CN112232557 B CN 112232557B CN 202011060303 A CN202011060303 A CN 202011060303A CN 112232557 B CN112232557 B CN 112232557B
- Authority
- CN
- China
- Prior art keywords
- health
- short
- long
- health degree
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000036541 health Effects 0.000 title claims abstract description 143
- 230000015654 memory Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 78
- 238000012360 testing method Methods 0.000 claims description 33
- 230000007787 long-term memory Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 230000006403 short-term memory Effects 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 abstract description 7
- 238000001514 detection method Methods 0.000 abstract description 3
- 210000002569 neuron Anatomy 0.000 description 27
- 238000013528 artificial neural network Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 210000004027 cell Anatomy 0.000 description 7
- 238000004880 explosion Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009514 concussion Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于长短期记忆网络的转辙机健康度短期预测方法,在转辙机设备真实健康度时间序列数据上,取转辙机设备历史健康度的一部分前期数据作为训练集,训练时将历史健康度序列划分为历史窗口和未来窗口,并将它们组合起来作为网络输入,检测时根据历史窗口对健康度的未来窗口做出预测;将训练好的LSTM网络用于转辙机设备健康度短时预测,在一定程度上能够准确的预测转辙机设备的短期健康度,给运维人员的工作提供科学指导。
Description
技术领域
本发明涉及铁道设备健康度预测技术领域,尤其涉及一种基于长短期记忆网络的转辙机健康度短期预测方法。
背景技术
传统的设备健康预测算法大致可分为三类,分别是基于模型的设备健康预测算法、基于知识的设备健康预测算法和基于大数据的设备健康预测算法等。
其中,基于模型的设备健康预测算法分为:基于系统输出模型的健康预测(或状态空间模型)和基于设备失效物理模型的健康预测这两种,上述两种两预测算法主要面向电子设备。
基于知识的设备健康预测算法主要依赖模糊算法以及专家系统,此类预测算法基于专家经验和专业知识,较适合定性推理。
基于大数据的设备健康预测算法主要是将监测系统采集的数据作为基础,通过相关算法,挖掘出数据之间内在的联系并进行预测,这类故障预测技术在工程应用上较为普遍,一般来说,基于大数据的算法对数据内在联系的分析能力和算法基于的数据的质量决定了预测结果的好坏。这种算法的优化需要较强的数学知识和应用场景专业知识作为基础进行长时间的积累和实验,并且即使这样也很难达到较好的效果。
发明内容
本发明的目的是提供一种基于长短期记忆网络的转辙机健康度短期预测方法,以已有的转辙机设备真实健康度时间序列数据作为LSTM网络(长短期记忆网络)预测的基础,准确的实现对转辙机健康度短期预测。
本发明的目的是通过以下技术方案实现的:
一种基于长短期记忆网络的转辙机健康度短期预测方法,包括:
利用已有的转辙机设备健康度值,按照时间先后顺序获得每台转辙机设备对应的历史健康度时间序列数据;
将每台转辙机设备对应的历史健康度时间序列数据进行预处理,按照设定的比例参数Train_size,将预处理结果按照时间先后顺序划分为训练集与测试集,对于训练集通过滑动窗口机制,构造出若干组由历史窗口和未来窗口组合形成的训练样本,相邻训练样本之间的具有重叠数据;
基于设置的批尺寸参数Batch_size,对预先构建的长短期记忆网络进行训练,训练过程中,以历史窗口作为预测特征,以未来窗口作为预测目标,通过反向传递更新长短期记忆网络的参数,直至长短期记忆网络收敛,从而获得训练好的长短期记忆网络;
将测试集输入至训练好的长短期记忆网络,从而对相应转辙机设备未来的健康度进行预测。
由上述本发明提供的技术方案可以看出,在转辙机设备真实健康度时间序列数据上,取转辙机设备历史健康度的一部分前期数据作为训练集,训练时将历史健康度时间序列数据划分为历史窗口和未来窗口,并将它们组合起来作为网络输入,检测时根据历史窗口对健康度的未来窗口做出预测;将训练好的LSTM网络用于转辙机设备健康度短时预测,在一定程度上能够准确的预测转辙机设备的短期健康度,给运维人员的工作提供科学指导。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种基于长短期记忆网络的转辙机健康度短期预测方法的流程图;
图2为本发明实施例提供的典型的RNN结构图;
图3为本发明实施例提供的典型LSTM三重门结构图;
图4为本发明实施例提供的LSTM神经元结构示意图;
图5为本发明实施例提供的LSTM网络中三个门结构示意图;
图6为本发明实施例提供的预测结构示意图;
图7为本发明实施例提供的预测结构示意图;
图8为本发明实施例提供的1036#设备健康度预测结果;
图9为本发明实施例提供的1042#设备健康度预测结果;
图10为本发明实施例提供的2014#设备健康度预测结果;
图11为本发明实施例提供的设置look_back=1,隐层数目=128时的预测结果;
图12为本发明实施例提供的设置look_back=4,隐层数目=128时的预测结果。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种基于长短期记忆网络的转辙机健康度短期预测方法,如图1所示,其主要包括:
1、利用已有的转辙机设备健康度值,按照时间先后顺序获得每台转辙机设备对应的历史健康度时间序列数据。
2、将每台转辙机设备对应的历史健康度时间序列数据(即真实健康度时间序列数据)进行预处理,按照设定的比例参数Train_size,将预处理结果按照时间先后顺序划分为训练集与测试集,对于训练集通过滑动窗口机制,构造出若干组由历史窗口和未来窗口组合形成的训练样本,相邻训练样本之间的具有重叠数据。
3、基于设置的批尺寸参数Batch_size,对预先构建的长短期记忆网络模型进行训练,训练过程中,以历史窗口作为预测特征,以未来窗口作为预测目标,通过反向传递更新长短期记忆网络模型的参数,直至模型收敛,从而获得训练好的长短期记忆网络模型。
4、将测试集输入至训练好的长短期记忆网络模型,从而对相应转辙机设备未来的健康度进行预测。
本发明实施例中,选择已有的转辙机设备真实健康度时间序列数据作为LSTM网络预测方法的基础,利用LSTM网络在时间序列预测方面的优势,可以在统计数据相对较少的条件下,结合真实健康度时间序列数据建立较为准确可信的预测模型。因此,本发明采用LSTM网络对转辙机短期健康度进行预测。
为了便于理解,首先针对LSTM网络的相关理论进行介绍。
理论上,若深层神经网络包含足够多的神经元或隐含层,那么此网络就能够以任意精度逼近任一连续函数。但在实际应用中,朴素的全连接结构的神经网络在处理前后相互关联的序列数据时(譬如在处理自然语言处理、时间序列预测、语音识别等任务时) 就会显得捉襟见肘,循环神经网络的提出使得神经网络对处理此类相互关联的数据变得游刃有余,此类网络通过引入隐含状态这个概念,将序列前后之间的内在的联系也考虑在内,使网络参数“记忆”序列之间的关键信息,最终有效挖掘序列之间内在的联系。
图2左侧为一个典型的RNN结构,右侧为此典型结构在时间轴上的展开形式。如图2所示,各个循环神经元节点组成隐含层并且神经元节点的输出会反馈到网络自身,为自身下次的计算提供基础,因此,RNN具备对序列数据“记忆”的功能。对于每个时刻t,各个循环神经元的输出是基于当前时刻神经元的输入xt以及前一个时刻神经元的状态 ht-1,与此同时,状态ht的计算是基于神经元输入与神经元前一时刻的状态两个参数,在 t时刻状态ht的具体计算公式如下:
ht=f(st)=f(Wxt+Uht-1)
式中,f是非线性激活函数,一般取双曲正切或线性整流函数;st为神经元在t时刻的输入信息整体表示,叫做隐藏状态;由神经元输入与神经元前一时刻的状态两个参数计算得到。
与传统神经网络的训练方式相同,RNN网络结构参数训练也是基于反向传播算法实现的,与传统神经网络的不同点在于循环神经网络中各个神经元在各个时刻的参数都是共享的,因此梯度的计算把过往所有时刻的梯度做为基础。通常采用交叉熵函数作为损失函数,隐含层激活函数选择tanh函数,设RNN最终输出为那么t时刻神经元的状态及神经元输出为:
ht=tanh(st)≈tanh(Wxt+Uht-1)
综上所述,循环神经网络RNN在时间序列预测方向上有着广泛的应用和巨大的研究价值,同时也有前人在这个方向上取得了优异的成绩,与此同时Seep Hochreiter在1997年发现了在训练中可能会出现的梯度弥散和梯度爆炸问题。受到时间序列数据长度参差不齐的影响,在基于反向传播算法的训练过程中,部分神经网络参数的梯度随着时间往前推进而产生指数级的扩张或衰减,也就是梯度消散或梯度爆炸现象。其中,在训练中梯度变为近似为0的情况称为梯度消散,出现这种情况会导致神经网络各个参数无法正常更新,严重影响训练效果;梯度爆炸则是相反的情况,在训练中梯度趋于无穷大,出现这种情况会导致网络模型参数不稳定,无法收敛。理论上,RNN可以学习任意长度序列之间内在的联系,提取长期序列的特征,但是,由于训练过程中存在梯度弥散或梯度爆炸等问题,只能在短期序列的学习中取得较好的效果。随着这些年对深度神经网络研究的深入,对于上述梯度弥散或梯度爆炸问题受到了国内外研究人员的广泛关注,长短期记忆(LSTM)网络就是其中一种较为有效的解决办法。
LSTM(长短期记忆网络)是深度学习元老Jürgen Schmidhuber在1997年提出的一种时间递归神经网络,这种特殊结构的RNN主要是为了解决在长序列训练过程中易出现的梯度消失和梯度爆炸问题,因此,相比普通RNN网络,LSTM能在长序列中有较为优秀的表现,同时LSTM网络适合用来处理时间序列数据,在预测时间序列方面表现尤为突出。
长短期记忆(LSTM)网络本质上是一种特殊化的RNN网络,与传统RNN相比, LSTM在基本循环神经元上多了一个记忆单元,此多出的单元用于存储长期记忆,而另一个单元则用来对短期记忆进行存储。负责短期记忆的各个神经元的短期状态更新较快,在序列延续期间变化剧烈,负责长期记忆的神经元状态更新较慢,主要存储长期记忆信息。此外,LSTM网络在设计中还引入了如上图3所示的三重门控制循环单元,用于控制神经网络记忆的更新与遗忘,保证重要的信息被网络记忆而不太重要的信息被准确的遗忘,门控的含义是在训练过程中学习到的一种可以决定何时清除神经元上存储的状态信息的单元。
下面,详细介绍LSTM门控单元和其神经元结构的结构和运作方式。在图4中,Ct代表着存储长期记忆(cell state)的单元,ht代表存储短期记忆(hidden state)的单元, ft、it和ot三个单元依次为遗忘门控单元(forget gate unit)、输入门控单元(input gateunit)、输出门控单元(output gate unit),使用数学公式描述如下:
ft=sigmoid(Wf[ht-1,xt]+bf)
it=sigmoid(Wi[ht-1,xt]+bi)
ot=sigmoid(Wo[ht-1,xt]+bo)
上式中,Wf、Wi、Wo为相应门控单元的权重矩阵,bf、bi、bo为相应门控单元的偏置向量。观察上述三个公式可得,ft、it和ot三个门控单元仅有权重矩阵和偏置向量不同,参数计算方式是完全一致的。
由于LSTM网络是以RNN为基础的一种网络,因此其外部具有和RNN相似的循环结构,不同的是LSTM核心内部由如上图5所示的状态循环连接而成,通常,神经元运作过程可分为如下三个阶段:
(1)遗忘阶段。
LSTM神经元在t时刻的输出取决于当前时刻的输入xt和上一时刻t-1的长期记忆Ct-1及短期记忆ht-1,为了保证神经元能记忆当前时刻t输入的重要信息,需要对神经元本身存储的部分长期记忆进行遗忘。遗忘门控单元用于筛选长期记忆单位中的重要信息,用公式ft⊙Ct-1来表示。式中,⊙表示矩阵对应元素相乘计算,ft矩阵内的元素均为0~1之间的小数,用于判断是否遗忘上一时刻的长期记忆Ct-1,数值0表示完全遗忘,1表示对数据不作处理,将记忆保留。
(2)记忆选择阶段。
记忆选择阶段主要对短期输入信息进行选择,在此阶段中,门控单元输入的重要信息的权重会大一些,边缘信息的权重会小很多,用公式表示为:
式中,表示tanh函数对输入信息进行缩放,it表示该阶段输入门控单元,xt表示当前时刻的输入和ht-1表示短期记忆。
(3)输出阶段。
前两个阶段负责对输入信息进行遗忘和筛选,该输出阶段的主要工作是对前两个阶段的信息进行汇总,决定此神经元向下一时刻输出信息的内容,此阶段状态更新依据如下两个状态更新公式:
ht=ot⊙tanh(Ct)
综上所述,LSTM网络修改了经典RNN网络中的信息传递机制,它在RNN的基础上引入了门控单元,一定程度上避免了梯度弥散和梯度爆炸现象,保留了梯度长时间持续流动的路径,并且在此基础上引入了线性自循环结构,解决了RNN中对长期记忆的依赖问题。
由于LSTM网络有上述特性,本发明实施例中,利用LSTM网络预测转辙机设备的短期健康度。转辙机设备由各种各样不同的部件组成,不同的部件具有不同的结构和形式,设备服役环境随气候影响复杂多变,且受设备自身质量、服役年限、检修记录等因素的综合影响,传统的基于失效物理模型的算法很难整体把握各种影响因素之间的逻辑关系,更无法预测设备服役过程中随机出现的各种异常状况,而不确定性异常状况的出现会影响转辙机的各方面健康状况,因此在进行转辙机健康度预测时,将不确定性因素也考虑在内将使健康度预测结果较之失效物理模型方法具有更高的精确度和可信度,同时,也可为转辙机运维工作人员提供更实际的决策依据,相应的对转辙机进行检修。
下面从预测原理、网络的训练阶段与网络的测试阶段三个方面来对本发明做详细介绍。
一、预测原理。
如之前所述,利用已有的转辙机设备健康度值,按照时间先后顺序获得每台转辙机设备对应的历史健康度序列,历史健康度序列可以通过曲线形式呈现,因此,后文提到的历史健康度曲线等同于此处的历史健康度序列。此外,受设备自身质量、服役年限、检修记录等因素都体现在健康度时间序列数据中,因此,本发明实施例中,训练阶段与预测阶段的输入数据主要考虑健康度时间序列数据。
基于已有的转辙机设备健康度值,要对设备短期健康度进行预测,其本质上是一种对时间序列的预测,对于健康度这类一维的数据,本发明实施例中,建模预测的思路如图6所示。
对于计算得出的转辙机设备历史健康度时间序列数据,将其分为训练集和测试集,例如,对于117天的历史健康度时间序列数据,将靠前的百分之80作为训练集,将后百分之20作为测试集。基于给出的数据,预测任务是:根据已有训练集数据来训练LSTM网络,获得训练好的长短期记忆网络模型作为健康度预测模型,随后将测试集数据作为模型输入,对健康度进行短期预测。例如,使用某转辙机设备2018年6月到9月的历史健康度时间序列数据作为训练集,训练出健康度预测模型,随后使用训练出的模型,将某转辙机设备2018年10月的健康度数据作为输入,对健康度做短期预测。
本发明实施例中,对于训练集进行处理,通过滑动窗口机制,构造出历史窗口与未来窗口的组合,将历史窗口作为预测特征,将未来窗口作为网络学习的预测Target,因此,相邻训练样本之间会有重叠,构造完毕的数据供LSTM神经网络算法进行学习,预测过程的结构如图7所示。
经过上述滑动窗口机制,在当前转辙机设备历史健康度时间序列数据上得到所有历史窗口和未来窗口的组合,随后,将训练集中所有组合作为输入送入LSTM网络中进行学习,将其中所有预测特征都合并起来作为训练集特征,将所有和预测特征组合的预测Target合并起来作为训练集Target,用这样预测特征-Target的组合,供LSTM网络进行学习,构建机器学习模型。
本发明实施例中,对于LSTM网络主要考虑了三个的输入参数:Batch_size、 Look_back、Train_size。
1)Batch_size。
Batch指的是每次送入网络中训练的那部分数据,而Batch_size(批尺寸)表示每个 Batch中训练样本的数量,Batch_size越大每轮送入网络中训练的样本数量越多。
Batch_size大小的选择对LSTM网络十分重要,在合理的范围内增大Batch_size的优点如下:第一,可以提升矩阵乘法并行化效率,从而提高内存利用率;第二,训练全部训练集中数据所需迭代次数大大减少,在数据量相等的情况下,处理速度大大加快;第三,Batch_size的合理增大引起模型训练震荡变小。同理,若Batch_size设置不当则会导致内存容量不够,参数修正速度变缓等问题。
综上所述,本发明实施例中,依据搭载长短期记忆网络模型的设备的内存效率和内存容量进行设定Batch_size参数,从而使LSTM网络的性能及速度达到最优。
2)Look_back。
Look_back参数用于指示长短期记忆网络模型预测过程中所需预测特征的数目,从而通过设定数目的预测特征来预测一个未来的健康度;训练过程与测试过程中Look_back参数相同。
基于设定的Look_back参数,向量xt中包含了相应数目的预测特征,例如,设置Look_back为3,则表示,通过前三个历史健康度数据来预测一个未来的健康度,表示为:
A,B,C->D
B,C,D->E
C,D,E->F
上面式子中,箭头左侧为前三个历史健康度数据为xt,作为神经元的输入,箭头由侧为预测的一个未来健康度
3)Train_size。
Train_size指的是将原始数据中多少比例的数据作为训练集。具体为,按照设定的比例参数Train_size,将时间序列形式的历史健康度序列中,前一部分数据作为训练集,剩余的后一部分数据作为测试集。这样操作可以保证训练集和测试集之间没有交集,保证了本文算法运行结果的可信度。
LSTM网络的测试模块建立在训练模块运行完毕的基础上,对于测试集的健康度时间序列数据,同样根据Look_back参数将数据划分成历史窗口和未来窗口,训练结束后依据历史窗口的数据值对转辙机设备的健康度进行预测。
二、网络的训练阶段。
对LSTM网络进行训练之前,需要对历史健康度时间序列数据进行预处理,主要包括如下两个部分:
1)转变数据类型。
正常情况下,健康度时间序列数据为日期连续的数据,但为了保险起见,需要加入检测步骤,即检测历史健康度时间序列数据是否为日期连续的数据,若否,则将历史健康度时间序列数据的null或者缺项的部分删除,使得处理后的历史健康度时间序列数据为日期连续的数据;随后,设置历史健康度时间序列数据的格式为浮点类型。
2)数据归一化。
归一化的目的是在对数据进行一系列标准处理变换后,使数据的值变换为以一固定标准形式表示。
本发明实施例中,设备健康度的范围可以设为0~100,通过本步骤将数据归一化到 0~1,这种做法的最大优势是可以加快LSTM网络训练时收敛的速度。
本发明实施例中,历史健康度时间序列数据可以通过曲线形式呈现。为了提取每条健康度曲线的特征并以统一的形式送入神经网络训练,需要每台设备的历史健康度曲线进行归一化处理并将结果映射到[0,1],保留每条曲线的形状趋势,公式为:
其中,X'、X分别为归一化前、后历史健康度时间序列数据中的数据,Xmin为历史健康度时间序列数据中的最小值,Xmax为历史健康度时间序列数据中的最大值。
上述预处理后的数据保存在内存中,将数据转换为便于LSTM网路处理的数据类型以提升算法性能,在网络预测结束后,可以将输出的数据值进行反归一化处理,将结果转换为[0,100]范围内的健康度数值便于运维人员参考,原始数据经过前述几步处理后,得到较为干净的训练样本并且符合LSTM网络模型的输入格式要求。
完成上述预处理后,可以基于设置的Train_size进行训练集与测试集的划分;对于训练集,可以通过滑动窗口机制,构造出若干组由历史窗口和未来窗口组合形成的训练样本,此处的所涉及操作可参见前文原理介绍中相关说明。
历史窗口中的数据为预测特征,未来窗口即为预测Target,所有预测特征都合并起来作为训练集特征,将所有和预测特征组合的预测Target合并起来作为训练集Target,通过预测特征-Target的组合,进行网络训练。当前时间点记为t时刻,对应的数据为向量xt,向量xt中包含了从t-1时刻往回数的相应数量的预测特征,预测特征的数目通过 Look_back参数设置,因此,将向量xt作为LSTM网络的输入输出预测到的t时刻的健康度通过预测结果/>与相应时间点的预测Target(即训练集中的已知数据yt)进行比较,从而通过构建的损失函数,反向更新LSTM网络的参数。具体的LSTM网络结构、训练方式(包括参数更新方式、损失函数等)都可参照常规技术实现。
三、网络的测试阶段。
测试阶段与训练阶段的原理相同,都是输入已知的健康度时间序列数据,来预测未来健康度。
本发明实施例中,预测方式如下:
基于测试集,按照时间顺序逐一预测未来单个时间点的健康度,并在健康度曲线中绘出,然后移动滑动窗口,继续利用测试集预测下一个时间点的健康度;按照时间点及相应的健康度,可以绘制健康度曲线。
本发明实施例上述方案,以已有的转辙机设备真实健康度时间序列数据作为LSTM网络预测的基础,将训练好的LSTM网络用于转辙机设备健康度短时预测,在一定程度上能够准确的预测转辙机设备的短期健康度,给运维人员的工作提供科学指导。
基于上述方案,本发明实施例提供一个具体的示例。
本示例中,选取某站的1036#、1042#、2014#号设备,根据它们时间跨度为2018年 6月17日到2018年10月12日共117天的健康度时间序列数据为基础,根据本发明实施例上述方案,对其进行健康度预测与验证,1036#、1042#、2014#号设备的预测结果分别如图8、图9、图10所示。其中,虚线表示健康评估算法计算得出历史健康度数据, Train_size设置为0.8,代表实际数据的前百分之八十作为训练集,后百分之二十作为测试集,以保证有足够长的测试集对算法进行验证。前一部分实线表示LSTM网络在训练集上的预测结果,后一部分实线表示在测试集上的预测结果;前后两部分实线的区分位置位于横坐标80~90之间。根据实验结果图易得,本发明的方案在训练集和测试集上预测得出的健康度与实际情况有较好的一致性。
对于神经网络而言,在其它条件相同的情况下,训练的样本的数量越多,训练结果越好,识别精确度越高,因此,本发明示例中,选用一台运行时间跨度较长的转辙机设备的历史健康度时间序列数据,将时间跨度为从2018年1月1日到2019年8月14日共590天的历史健康度时间序列数据作为LSTM网络的输入。
选取对结果影响比较大的Look_back参数值来对LSTM网络进行分析。图11~图12中,虚线形式的曲线为根据健康度评估算法得出的历史健康度曲线,前一部分实线为训练完之后LSTM网络在训练集上的预测输出结果,后一部分实线为在测试集上得出的效果;前后两部分实线的区分位置位于横坐标400~500之间;通过改变look_back的取值和隐层神经元数目来对LSTM模型进行分析,图11中设置look_back=1,隐层数目=128;图 12中设置look_back=4,隐层数目=128。此处是利用训练好的模型对训练集与测试集分别进行预测,主要目的检验模型的泛化性能。
由图11和图12易得,当Look_back参数取1时,预测曲线会随着健康度曲线剧烈震动,对输入数据过于依赖,没有体现LSTM网络的特性,不能很好的显示预测效果,当 Look_back参数取大于4左右效果较好,在测试集上能很好的预测出没有出现突发异常状况情况下的健康度曲线变化趋势,实验结果较符合实际趋势。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (5)
1.一种基于长短期记忆网络的转辙机健康度短期预测方法,其特征在于,包括:
利用已有的转辙机设备健康度值,按照时间先后顺序获得每台转辙机设备对应的历史健康度时间序列数据;
将每台转辙机设备对应的历史健康度时间序列数据进行预处理,按照设定的比例参数Train_size,将预处理结果按照时间先后顺序划分为训练集与测试集,对于训练集通过滑动窗口机制,构造出若干组由历史窗口和未来窗口组合形成的训练样本,相邻训练样本之间的具有重叠数据;
基于设置的批尺寸参数Batch_size,对预先构建的长短期记忆网络进行训练,训练过程中,以历史窗口作为预测特征,以未来窗口作为预测目标,通过反向传递更新长短期记忆网络的参数,直至长短期记忆网络收敛,从而获得训练好的长短期记忆网络;
将测试集输入至训练好的长短期记忆网络,从而对相应转辙机设备未来的健康度进行预测;
所述将每台转辙机设备对应的历史健康度序列进行预处理的方式包括:
检测历史健康度时间序列数据是否为日期连续的数据,若否,则将历史健康度时间序列数据的null或者缺项的部分删除,使得处理后的历史健康度时间序列数据为日期连续的数据;随后,设置历史健康度时间序列数据的格式为浮点类型;
对浮点类型的历史健康度序列进行归一化,从而将数据的值映射到[0,1]区间,归一化公式为:
其中,X'、X分别为归一化前、后历史健康度时间序列数据中的数据,Xmin为历史健康度时间序列数据中的最小值,Xmax为历史健康度时间序列数据中的最大值。
2.根据权利要求1所述的一种基于长短期记忆网络的转辙机健康度短期预测方法,其特征在于,所述按照设定的比例参数Train_size,将预处理结果按照时间先后顺序划分为训练集与测试集包括:
按照设定的比例参数Train_size,将健康度时间序列数据中,前一部分数据作为训练集,剩余的后一部分数据作为测试集。
3.根据权利要求1所述的一种基于长短期记忆网络的转辙机健康度短期预测方法,其特征在于,所述批尺寸参数Batch_size依据搭载长短期记忆网络的设备的内存效率和内存容量进行设定。
4.根据权利要求1所述的一种基于长短期记忆网络的转辙机健康度短期预测方法,其特征在于,所述长短期记忆网络中还设置了Look_back参数,Look_back参数用于指示长短期记忆网络预测过程中所需预测特征的数目,从而通过设定数目的预测特征来预测一个未来的健康度;训练过程与测试过程中Look_back参数相同。
5.根据权利要求1所述的一种基于长短期记忆网络的转辙机健康度短期预测方法,其特征在于,所述将测试集输入至训练好的长短期记忆网络,从而对相应转辙机设备未来的健康度进行预测的方式如下:
基于测试集,按照时间顺序逐一预测未来单个时间点的健康度,并在健康度曲线中绘出,然后移动滑动窗口,继续利用测试集预测下一个时间点的健康度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011060303.4A CN112232557B (zh) | 2020-09-30 | 2020-09-30 | 基于长短期记忆网络的转辙机健康度短期预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011060303.4A CN112232557B (zh) | 2020-09-30 | 2020-09-30 | 基于长短期记忆网络的转辙机健康度短期预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112232557A CN112232557A (zh) | 2021-01-15 |
CN112232557B true CN112232557B (zh) | 2024-02-09 |
Family
ID=74119836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011060303.4A Active CN112232557B (zh) | 2020-09-30 | 2020-09-30 | 基于长短期记忆网络的转辙机健康度短期预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112232557B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113807829A (zh) * | 2021-11-19 | 2021-12-17 | 国能大渡河大数据服务有限公司 | 一种基于深度强化学习模型的信息管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378052A (zh) * | 2019-07-25 | 2019-10-25 | 北京航空航天大学 | 基于循环神经网络考虑未来工况的设备剩余寿命预测方法 |
CN110609524A (zh) * | 2019-08-14 | 2019-12-24 | 华中科技大学 | 一种工业设备剩余寿命预测模型及其构建方法和应用 |
CN111274737A (zh) * | 2020-02-25 | 2020-06-12 | 山东大学 | 一种机械设备剩余使用寿命预测方法及系统 |
CN111461450A (zh) * | 2020-04-10 | 2020-07-28 | 河海大学 | 基于eemd和lstm的水电机组劣化度预测方法 |
-
2020
- 2020-09-30 CN CN202011060303.4A patent/CN112232557B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110378052A (zh) * | 2019-07-25 | 2019-10-25 | 北京航空航天大学 | 基于循环神经网络考虑未来工况的设备剩余寿命预测方法 |
CN110609524A (zh) * | 2019-08-14 | 2019-12-24 | 华中科技大学 | 一种工业设备剩余寿命预测模型及其构建方法和应用 |
CN111274737A (zh) * | 2020-02-25 | 2020-06-12 | 山东大学 | 一种机械设备剩余使用寿命预测方法及系统 |
CN111461450A (zh) * | 2020-04-10 | 2020-07-28 | 河海大学 | 基于eemd和lstm的水电机组劣化度预测方法 |
Non-Patent Citations (1)
Title |
---|
基于长短时记忆网络的旋转机械状态预测研究;赵建鹏;周俊;;噪声与振动控制(04);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112232557A (zh) | 2021-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tian et al. | An intrusion detection approach based on improved deep belief network | |
Zhang et al. | At-lstm: An attention-based lstm model for financial time series prediction | |
CN109993270B (zh) | 基于灰狼群优化lstm网络的锂离子电池剩余寿命预测方法 | |
CN107967542B (zh) | 一种基于长短期记忆网络的售电量预测方法 | |
Chen et al. | Short-term traffic flow prediction based on ConvLSTM model | |
CN110321603A (zh) | 一种用于航空发动机气路故障诊断的深度计算模型 | |
CN109471698B (zh) | 云环境下虚拟机异常行为检测系统和方法 | |
Suryo et al. | Improved time series prediction using LSTM neural network for smart agriculture application | |
CN114548591A (zh) | 一种基于混合深度学习模型和Stacking的时序数据预测方法及系统 | |
CN112765894B (zh) | 一种基于k-lstm的铝电解槽状态预测方法 | |
CN111768622A (zh) | 一种基于改进灰狼算法的短时交通量预测方法 | |
CN112766603A (zh) | 一种交通流量预测方法、系统、计算机设备及存储介质 | |
CN110580213A (zh) | 一种基于循环标记时间点过程的数据库异常检测方法 | |
CN113298318A (zh) | 一种新型的配电变压器重过载预测方法 | |
CN113657814A (zh) | 一种航空网络风险预测方法及风险等级评估方法 | |
CN112232557B (zh) | 基于长短期记忆网络的转辙机健康度短期预测方法 | |
Li et al. | A lstm-based method for comprehension and evaluation of network security situation | |
CN118364963A (zh) | 基于lstm神经网络的建筑材料价格预测方法 | |
Alam | Recurrent neural networks in electricity load forecasting | |
Mittal | Employee Attrition Prediction Using Machine Learning Algorithms | |
CN117408424A (zh) | 一种基于pso-svr-lstm的短期交通流预测方法 | |
Maleki et al. | Improvement of credit scoring by lstm autoencoder model | |
Kotenko et al. | Formation of Indicators for Assessing Technical Reliability of Information Security Systems | |
CN114841063A (zh) | 一种基于深度学习的航空发动机剩余寿命预测方法 | |
CN113723660A (zh) | 一种基于dnn-lstm融合模型的特定行为类型预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |