CN103974311B

CN103974311B - 基于改进高斯过程回归模型的状态监测数据流异常检测方法

Info

Publication number: CN103974311B
Application number: CN201410216320.0A
Authority: CN
Inventors: 彭宇; 庞景月; 宋歌; 刘大同; 彭喜元
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2014-05-21
Filing date: 2014-05-21
Publication date: 2017-06-20
Anticipated expiration: 2034-05-21
Also published as: CN103974311A

Abstract

基于改进高斯过程回归方法的状态监测数据流异常检测方法，本发明涉及状态监测数据流异常检测方法。本发明是要解决现有方法处理监测数据流的异常检测效果低的问题。一、确定历史数据滑动窗口尺寸；二、确定均值函数与协方差函数的类型；三、设定超参数初始值为[0‑1]之间的随机数；四、提取与当前时刻t最近的q个数据；五、确定高斯过程回归模型；六、利用高斯过程回归模型的性质进行预测；七、计算t+1时刻的正常数据的PI；八、将监测数据与PI比较；九、判断是否将真实的监测数据标记为异常；十、计算对应于t+1时刻监测值的β(x_t+1)；十一、将真实值或者预测均值与t+1添加到D_T；十二、创建新的D_T。本发明应用于网络通信领域。

Description

基于改进高斯过程回归模型的状态监测数据流异常检测方法

技术领域

本发明涉及状态监测数据流异常检测方法。

背景技术

随着系统复杂性提升，利用状态监测数据估计设备或系统性能愈发重要。以卫星为例，卫星在轨运行期间产生的遥测数据是地面人员估计是卫星健康状态的唯一依据。类似，挖掘飞行器的监测数据同样可以为相应的系统或者子系统的状态估计提供重要参考信息。另外，与正常的数据相比，异常数据往往预示着系统可能会发生的异常事件或潜在的故障信息，异常数据更值得进一步分析。因此，异常检测吸引了很多领域研究学者的广泛关注，如可靠性、自动测试、机器学习、数据挖掘等。在异常检测方法中，基于规则和基于模型的方法都需要手动提取和实现，而数据驱动的方法则采取完全不同的方式推理异常，数据驱动模型现已广泛应用于异常检测。

最近，随着计算技术、数据采集技术及通信技术的发展，可用的状态监测数据在变异性、速度以及数量等方面已经以不可预知的速度快速增长。因此，我们对状态监测数据进行异常检测时必须要解决流式数据对于检测异常带来的挑战。首先，因为流式数据的无限性，离线算法会耗尽内存空间。其次，由于多分类器要求训练数据具有完整的标签，而流式数据中正常数据与异常数据具有不平衡的特点，因此传统的多分类器将不能适用。另外，对于数据流的演化特性，模型必须能够适应数据流的变化。所以，本发明将利用基于数据驱动的方法实现状态监测数据流的实时异常检测。

目前，基于数据驱动的流式数据的异常检测主要分为三个不同的类别：基于统计的方法、基于数据挖掘的方法以及基于预测模型的方法。

基于统计的方法是应用于数据流异常检测的早期方法，基于统计的方法假设正常的流式数据服从特定的分布或者在基本时间窗口内的均值或方差保持不变，基于统计的异常检测方法已经被应用于很多领域，包括通信网络、安全交换系统以及传感器网络等；然而，应用统计方法进行异常检测存在很多限制，其一般情况下只适用于统计量突变异常检测。基于数据挖掘的方法涉及到频繁项挖掘、聚类与分类等方法，其可应用于数值及文本数据流异常检测。但是基于数据挖掘方法的异常检测精度取决于训练数据的完整性。为了实现分类数据模型的更新，新的模式要求使用者加入，因此，基于数据挖掘的方法不适宜于缺少专业知识情况下的监测数据流异常检测。而因为预测模型的广泛发展，基于预测模型的异常检测方法被提出,基于预测模型的方法通过判断未来数据样本是否落入预测区间来判断其异常情况。基于数据驱动的预测方法不需要预先分类的训练样本，而且，其可以扩展到大量样本，并能够实现数据流的增量估计。现在基于预测模型的方法已经应用于环境传感器异常检测、疾病疫情检测等。

应用于数据流异常检测的数据驱动预测模型包括朴素贝叶斯近邻方法(NC，nearest cluster)、单层线性网络(Single-layer linear network，LN)、多层感知器(MLP，Multilayer perception)、卡尔曼滤波(KF，Kalman Filter)等。其中，是一种应用于时间序列预测的非常流行的基础算法。它通常应用于单点异常检测，并作为数据建模的预处理方法。而MLP，LN and KF由于其本身并不能输出不确定性表达，所以常常结合其他算法或者使用k层交叉检验算法来确定预测区间。然而，k层交叉检验算法或者其他算法的引入将降低检测效率。

数据流随着时间的推移，持续到达，存储在内存中的数据增多，为了实时在线的估计数据流中未来的元素值，不能将滑动窗口模型中的所有有效元素都作为历史数据输入预测模型，采用预测模型进行异常检测引入预测窗口技术，对于当前时刻t，其基本窗口的预测窗口为DT＝{x_t-q,x_t-q+1,...,x_t}，根据此预测窗口的历史数据，预测x_t+1正常时的均值和置信区间。其异常检测框架如图1所示。

(1)把D_T作为训练数据，利用一步预测模型预测x_t+1的值。一般自身不具备不确定性表达的预测模型需通过十层交叉检验的方法确定最终的预测模型，十层交叉检验方法将原始的训练数据等分为10份，每次取1份作为测试数据，其他作为训练数据，即模型被训练十次，其中预测误差的均值最小的一次训练过程得到的模型参数将成为最终的预测模型，从而得到预测的均值

(2)用概率p计算正常情况下数据流在t+1时刻的数值波动范围的上下限。其由下式决定：

其中是一步预测的均值，t_α/2,n-1是自由度为n-1的t分布在pth分位点的数值，s是模型残差的标准差。s是通过十层交叉检验的模型残差确定，即：

其中n为训练数据对的个数，是第i次训练中第j个测试数据对应的样本的模型预测残差，是第i次训练过程的测试数据对应的模型残差的均值。

(3)当t+1时刻对应的数据到达时，将其与第二步确定的范围进行比较，如果它超出了正常数据的预测间隔，则视其为异常，否则为正常事件。

(4)检测当前数据的异常情况，并及时更新预测窗口。(4a)如果采用ADMA策略(anomaly detection and mitigation)，即如果当前数据流值被分类为异常，则通过从预测窗口的后部移除x_t-q+1，在窗口的前面增加预测的均值来建立D_T+1(4b)如果仅采用异常检测策略(AD策略，Abnormal detection and only)，则通过在窗口的后部移除x_t-q+1，在窗口的前面增加真实的x_t+1来调整D_T，建立D_T+1。

(5)重复步骤(1)至步骤(4)。则可以实现单数据流在线异常检测。

两种用来处理未来数据的策略分别是AD和ADAM。AD的策略是仅将检测出的未来数据标记为异常，并继续用新分类的异常数据点作为训练数据输入到数据驱动模型来计算置信区间(Predicted Interval)。而ADAM策略不仅标记数据点为异常，并用预测的平均值代替真实的数据流数据作为训练数据计算和预测下一个时刻数据的PI。但是无论采用哪种未来数据的处理策略，AD和ADAM策略依然分别存在一定的局限性。例如，采用AD策略，当有较多异常数据成为训练数据时，预测输出就可能会失去其准确性而导致错误的检测结果。同样地，当预测平均值不准确时，错误地将正常数据标记为异常，当ADAM策略用预测输出替换实际数据，并检测后续数据时可能会导致很多错误的结果。

发明内容

本发明是要解决现有方法处理监测数据流的异常检测效果低的问题，而提供了基于改进高斯过程回归模型的状态监测数据流异常检测方法。

基于改进高斯过程回归模型的状态监测数据流异常检测方法，包括以下步骤：

步骤一：根据已经获得的离线单维状态监测数据x，利用自相关分析方法确定历史数据滑动窗口尺寸，即q的值，并设定显著水平α与假设检验中最大允许的犯第二类错误的概率β_max；

步骤二：根据离线单维状态监测数据x的特征确定均值函数与协方差函数的类型；其中，所述均值函数设为常数0，协方差函数为平方指数协方差函数与噪声函数的组合，其定义如下：

其中υ₀为模型方差，为噪声的方差，d为输入数据维数，ω_l为距离尺寸，δ_ij为狄克拉函数，只有当i＝j时，δ_ij＝1，i,j为不同的输入向量，当输入数据为单维时，d＝1，i与j为一维数据，c(i,j)为协方差函数，k(i,j)代表核函数，(1)式中的核函数k(i,j)设定为平方指数协方差函数，l表示数据维度变量，l＝1,..d，用户可以根据离线单维状态监测数据x的特点，选择单独或者组合形式的协方差函数，协方差函数需满足非负定条件；

步骤三：设定已经选择的协方差函数中的超参数初始值为[0-1]之间的随机数；

步骤四：假设目前时刻为t，按照时间顺序从离线数据中提取与当前时刻t最近的q个数据，组成训练数据D_T，D_T由时间索引i以及i时刻对应的状态监测值组成；

步骤五：根据步骤二和步骤三确定的高斯过程x～GP(0，c(i,j))，将训练数据D_T输入后，利用共轭梯度法迭代搜索，获得后验对数似然函数极大化的超参数的最优值，进而确定高斯过程回归模型；

步骤六：将下一时刻监测数据的时间索引t+1作为测试输入，利用基本高斯过程回归模型的性质进行预测；

如果训练数据D_T的目标值向量x与测试输入(时间索引t+1)对应的数据值x_t+1服从联合高斯分布，即：

式中，i为输入向量，i＝1,....,t-q+1；C(i,i)是由训练数据D_T形成的协方差矩阵；K(i,t+1)为训练数据D_T与测试输入数据构成的协方差矩阵；K(t+1,i)＝K(i,t+1)^T；K(t+1,t+1)为测试输入数据构成的协方差矩阵，则

cov(x_t+1)＝K(t+1,t+1)-K(t+1,i)C(i,i)^-1K(i,t+1) (5)

利用步骤五中得到的高斯过程回归模型，通过公式(4)与公式(5)计算得到t+1时刻对应的正常数据的均值与方差cov(x_t+1)；

步骤七：根据步骤一中设定的显著水平α以及步骤六中预测得到的均值与方差cov(x_t+1)，通过下式计算t+1时刻的正常数据的置信区间PI，

其中是标准正态分布对应于显著水平α的上分位数，对于置信区间为95％的正态分布其置信区间如下式所示：

步骤八：根据新到达的真实的监测数据将其与预测的置信区间PI比较，如果其位于PI内，执行步骤九；否则，将标记异常，执行步骤十；

步骤九：则将真实的监测数据与其时间索引t+1，加入滑动窗口DT，此时T＝t+1，并移除原来的训练数据对x_t-q+1与t-q+1，t＝t+1，转到步骤五执行；

步骤十：根据下式计算对应于t+1时刻监测值的β(x_t+1)：

比较β(x_t+1)和给定的β_max，如果β(x_t+1)小于或者等于β_max,则执行步骤十一；如果大于β_max则执行步骤十二；

步骤十一：将与t+1将被添加到滑动窗口DT，并移除原来的训练数据对x_t-q+1与t-q+1来创建新的滑动窗口DT，此时T＝t＝t+1，转到步骤五执行；

步骤十二：将与t+1将被添加到滑动窗口DT，并移除原来的训练数据对x_t-q+1与t-q+1来创建新的滑动窗口DT，此时T＝t＝t+1，转到步骤五执行，即完成了基于改进高斯过程回归方法的状态监测数据流异常检测方法。

发明效果：

本发明根据假设检验理论改进了现有的ADAM策略(本专利中称其为IADAM)，并将其与数据驱动的预测方法—高斯过程回归模型结合，提出一种用于数据流异常检测的方法IADAM-GPR。

本发明根据已有的处理未来数据的两种不同的策略，包括异常检测策略(AD，anomaly detection)以及异常检测缓和策略(anomaly detection and mitigation，ADAM)，基于假设检验理论提出了一种改进的ADAM策略，本发明称其为IADAM策略。

在此基础上，本发明关注高斯过程回归算法(GPR，Gaussian ProcessRegression)，GPR方法预测输出具有不确定性表达，包括均值及方差。

本发明将GPR模型与IADAM策略结合构建了IADAM-GPR模型用于实现流式数据的异常检测，并通过仿真数据集及移动话务量数据实现了IADAM-GPR算法的有效性验证。

相比于ADAM策略，IADAM策略缓解了FPR的影响。比如，应用于本实验中的仿真数据集时，IADAM-MLP模型的FPR相对于ADAM-MLP提高了58.7％；相对于ADAM-GPR，IADAM-GPR算法的FPR提高了74.7％。虽然基于IADAM策略的FPR相对于基于AD策略的数据驱动的模型有所下降，但是基于IADAM策略的数据驱动模型的异常检测结果比基于AD策略的数据驱动的结果有较大提升。同时，应用于实际的移动话务量数据时，IADAM-GPR的误检率比ADAM-GPR更低，在移动话务量数据提升了43.4％。综合来看，九种模型中，IADAM-GPR模型可以实现更好的异常检测性能。

附图说明

图1为背景技术中的异常检测框架图；

图2是本发明流程图；

图3是基于GPR的预测流程图；

图4是仿真实验中的仿真数据图；

图5是正常的移动话务量数据图；

图6是移动话务量的异常数据模式图。

具体实施方式

具体实施方式一：本实施方式的基于改进高斯过程回归模型的状态监测数据流异常检测方法，它包括以下步骤：

cov(x_t+1)＝K(t+1,t+1)-K(t+1,i)C(i,i)^-1K(i,t+1) (5)

步骤八：根据新到达的真实的监测数据将其与预测的置信区间PI比较，如果其位于PI内(位于内)，执行步骤九；否则，将标记异常，执行步骤十；

步骤十：根据下式计算对应于t+1时刻监测值的β(x_t+1)：

本实施方式中，

一、IADAM策略具体为：

基于数据驱动模型的异常检测其假定在时间序列监测数据中存在一定的相关性。因此，历史数据可被用于估算下一个数据点的正常区间，并且通过判定它们是否超出PI来实现异常检测。

在异常检测领域，FPR和FNR通常被用于验证异常检测算法的有效性。FPR是正常数据被错误的检测为异常并且被拒绝的比例，计算公式如下：

式中：FN是正常数据被检测为异常的个数，FN+TP是正常数据的总数。

FNR是异常数据被错误的检测为异常并且被接受的比例，计算公式见下式：

式中：FP是异常数据被检测正常的个数，FP+TN是异常数据的总数。

FNR和FPR越小意味着异常检测的效果越好。

基于预测模型的异常检测的精确度依赖于预测结果的有效性。如果采用预测均值和方差表示的PI过大，异常检测率会降低。反之，过拟合导致的过小的PI，误检率将上升。所以为了综合考虑异常检测率与误检率，本实施方式提出了改进的ADAM策略。

首先，根据输入到数据驱动预测模型的历史数据样本，在此，假设预测的平均值为u₀，PI的置信水平为95％。基于预测模型的异常检测可抽象为一个假设检验问题。用于检验的统计变量是均值，假设检验问题属于双边检验。描述如下：

测试统计量：均值

零假设H₀:u＝u₀

备择假设H₁:u≠u₀

在异常检测中，假设y是真实数据样本，y的预测平均值为u₀，并且σ是预测的标准偏差，α是显著水平，1-α决定PI的置信水平。例如，对于置信区间为95％的正态分布其置信区间为[u-1.96σ,u+1.96σ]。同时，α为犯第一类错误的概率。即，α是当零假设正确时拒绝零假设的概率。如果α设置过大，FNR(漏检率)增加，否则，FPR(误检率)增加；β是犯第二类错误的概率。β表示当零假设是假时接受零假设的概率。在实际应用中，α通常是预先设定的。但β需要从假设检验中计算。对应于异常检测的问题，β相当于FPR。β的计算方法如公式(11)，假设的预测输出服从正态分布：

其中z_α/2是对应于显着性水平α的标准正态分布的上分位数，u₀是数据驱动的预测均值，y是持续到达的真实数据流值，σ是预测标准差。由公式(11)可知，β是y的函数。y越远离u₀，β(y)就会越小，所以FPR是可控的。那么对于已设定的α值以及最大允许的犯第二类错误的β_max，基于预测模型的异常检测方法可以同时考虑FNR和FPR。因此，为了保证检测率，如果数据流的真实值落在显著性水平为α的PI之外，则该点将被标记为异常。进一步，如果β(y)小于最大值β_max，则利用预测均值u₀取代真实的y值，将u₀加入到数据驱动模型的训练数据中。

二、GPR模型

(1)高斯过程

高斯过程是高斯分布在函数空间内的扩展。服从高斯分布的单一变量以向量形式呈现，索引由其在向量中的位置确定。而对应于高斯过程，其索引由随机函数f(x)中的x代替，其中x∈R^d。对于每一个x输入，都对应着一个随机变量f(x)，f(x)为随机函数f在位置x处的取值。所以，输入x⁽ⁿ⁾对应的f(x⁽¹⁾),f(x⁽²⁾),...,f(x^(N))构成随机变量的一个集合，它们中任意维变量的组合都服从联合高斯分布，则称f(x)为高斯过程，即：

f(x)～GP(m(x⁽ⁱ⁾),k(x⁽ⁱ⁾,x^(j))) n＝1,2,...,N。(12)

由式可得高斯过程的定义如下：高斯过程是随机变量的集合，且其中的任意有限维变量组合都服从联合高斯分布。高斯分布的性质由均值和方差确定，均值代表变量变化的平均水平，而方差代表变量随均值的波动程度。相应地，高斯过程的性质由均值函数m(x⁽ⁱ⁾)和协方差函数k(x⁽ⁱ⁾,x^(j))确定，对应于输入x⁽ⁱ⁾，将其代入均值函数，则可以确定均值函数m(x⁽ⁱ⁾)＝E[f(x⁽ⁱ⁾)]在该索引处的数值。协方差函数是高斯过程的重要表征，k(x⁽ⁱ⁾,x^(j))＝E[(f(x⁽ⁱ⁾)-m(x⁽ⁱ⁾)(f(x^(j))-m(x^(j)))]用于表示不同输入数据间的相关性。

(2)高斯过程回归模型

确定高斯过程的均值函数和协方差函数后，即确定了高斯过程的先验分布，其不依赖于训练数据的输入。高斯过程回归模型(GPR)可以通过训练数据的输入限制先验分布进而实现对后验分布的估计，GP后验分布的函数预测输出值可以通过贝叶斯框架的计算得到。GPR是一种可以适用于非线性回归问题的概率技术，属于无参数模型，可以通过适当的参数组合实现对任意系统的逼近。GPR模型用于实现预测问题时，不同于一般的数据驱动方法，其可以在输出均值的同时给出置信区间，为决策者提供更多的参考信息，增强预测结果的有效性。GPR模型已经广泛应用于短期电力负荷预测、上市股票预测、风速预测等诸多领域。

GPR用于预测时，无需考虑f(x)的具体形式，只需假设f(x)中的变量服从联合高斯分布。假设需要得到的观测目标值为y，且y为含有噪声的观测值，即：

y＝f(x)+ε(13)

式中，ε为叠加的高斯白噪声，均值为0，方差为即ε与f(x)相对独立。所以，若f(x)中的任意变量组合服从联合高斯分布，则叠加独立的高斯白噪声后，y的有限观测值所形成的集合就构成了一个高斯过程，即：

式中，m(x⁽ⁱ⁾)为x⁽ⁱ⁾对应的均值函数值；δ_ij为狄克拉函数，即只有当i＝j时，δ_ij＝1，否则为0；为叠加在观测函数目标值上的高斯白噪声的方差；k(x⁽ⁱ⁾,x^(j))为输入x⁽ⁱ⁾与输入x^(j)的协方差函数的数值，其形式可由用户自行设定，但是需满足非负定性的限制。常用的协方差函数为平方指数协方差函数，为：

将训练数据代入，得到协方差函数的矩阵形式表达为：

若训练数据集为则式(13)中的I为N×N的单位矩阵，K(X,X)为不含噪声的核函数矩阵，C(X,X)为N×N的协方差矩阵(其包含了叠加的高斯白噪声)。

因高斯过程具有如下性质：

如果随机向量x与z服从联合高斯分布，即：

则x的边缘分布为：

x～N(m_x,A) (18)

在z已知的条件下，x的条件分布为：

x|z～N(m_x+EB^-1(z-m_z),A-EB^-1E^T)(19)

式中，A、E、B为协方差矩阵，符号T为矩阵或向量的转置符号。基于高斯过程的以上性质，对应于训练数据集训练数据输入矩阵为X，训练数据的目标值向量为y；测试数据输入矩阵为X_*，其对应的测试数据的预测值向量为f_*。训练数据的目标值向量与测试数据的预测值向量服从联合高斯分布，即：

式中，C(X,X)是由训练数据形成的协方差矩阵；K(X,X_*)为训练数据与测试数据构成的协方差矩阵；K(X_*,X)＝K(X,X_*)^T；K(X_*,X_*)为测试数据构成的协方差矩阵。根据式(18)与式(19)可得高斯过程回归模型为：

cov(f_*)＝K(X_*,X_*)-K(X_*,X)C(X,X)^-1K(X,X_*) (23)

由式(22)与(23)可知，GPR模型可在先验分布确定的情况下，通过训练数据集限制先验分布，得到后验分布的估计，进而得到对应于测试数据的预测输出，预测输出也为高斯分布，其预测的均值为方差为cov(f_*)，预测输出的95％的置信区间为由此可见，GPR模型用于预测问题时，具有不确定性表达能力。

(3)基于高斯过程回归模型的预测流程

GPR模型的训练包括两部分：一是确定高斯过程模型的协方差函数与均值函数的形式；二是通过优化方法确定包含在均值函数与协方差函数中的超参数。

在高斯过程建模过程中，协方差函数的不同形式对于预测结果起着关键作用，因此选择合适的协方差函数是高斯过程建模的重要步骤(一般情况下，训练数据在输入前需进行归一化操作，均值一般为0)。在实际应用过程中，应根据训练数据的特征进行合理选择。如当训练目标数据具有周期性变化趋势，且训练数据为单维向量时，可以选择具有周期性质的协方差函数：

当数据还同时具有局部和长期的下降或者上升趋势时，则可以在周期函数的基础上叠加两个平方指数协方差函数，且由于数据在采集过程中稳定性受到干扰，可以引入相关的噪声项。协方差函数具有可加性，用户可自行设定，但须满足非负定性要求。

确定了协方差函数的形式后，高斯过程的先验分布就随之确定，然后需根据训练数据集，利用一定的优化算法搜索得到符合要求的超参数的最优值。该步骤的高斯过程模型训练基于证据最大化的贝叶斯框架求解下式：

式中，det为行列式符号。对式(19)求偏导得：

式中，tr为矩阵的迹。超参数一般初始化为随机值，通过共轭梯度法迭代搜索得到超参数的最优值。

预测流程具体步骤为：

步骤1根据训练数据特点，选择均值函数及协方差函数的单一或者组合形式。

步骤2设定协方差函数中超参数的初始值，一般初始化为[0-1]之间的随机值；均值函数的初始值设为常数(一般为0)。

步骤3根据步骤1和2确定的先验分布，将训练数据输入后，利用共轭梯度法迭代搜索，获得后验对数似然函数极大化的超参数的最优值(迭代次数为100次，一般认为迭代次数达到100次时负对数似然的值基本保持不变)，进而确定后验分布。

步骤4利用高斯过程性质，将测试数据输入后，得到预测均值及方差，进而确定预测的置信区间。

三、基于IADAM-GPR的预测模型

基于预测的异常检测使得使用滑动窗口q测量来按时间顺序为下一个数据执行预测。如果一个监测点的数据显著偏离根据训练输入数据单步向前的预测，它将被归类为异常。考虑到GP模型的时间复杂度以及空间复杂度，训练数据的数量会严重影响数据流算法的执行效率，因此，本实施方式采用数据流元素的时间索引作为训练数据的输入。相似地，测试输入同样为流式数据的时间索引。本实施方式提出的IADAM-GPR方法结合基于数据驱动的预测模型—高斯过程回归与改进的ADAM策略实现流式数据的异常检测。基于预测模型的异常检测方法和IADAM-GPR实现异常检测的框图如图2所示。

由于GPR模型的输出假设其服从正态分布，预测输出为正太分布的均值与方差，所以β(x_t+1)可以很容易的通过公式(11)计算得到。图2的异常检测方法由以下步骤组成，起始于如图2所示的时间t：

为了有效地运用GPR模型，均值函数与协方差函数的形式应通过历史数据选定。而均值函数与协方差函数中包含的初始超参数需要提前设定。利用历史数据滑动窗口的训练数据优化超参数，然后将下一时刻数据的时间索引作为测试输入进行GPR模型的一步预测。预测输出包含均值输出与σ²。

根据设定的显著水平，通过下式计算PI，例如，GPR模型的95％的置信水平为[m-1.96σ,m+1.96σ]：

其中为t+1时刻的预测均值。是标准正太分布的对应于显著水平α的上分位数，σ为预测的标准差。

当x_t+1到达时，比较监测值x_t+1和PI。如果x_t+1不在该范围内，标记x_t+1为异常。

根据下式计算β(x_t+1)：

比较β(x_t+1)和给定的β_max，如果β(x_t+1)小于β_max，将被添加到滑动窗口，并同时除去x_t-q+1来创建新的滑动窗口进行下一步预测。否则，添加x_t+1，并删除x_t-q+1。

重复上述步骤，以实现流式监测数据的异常检测。

具体实施方式二：本实施方式与具体实施方式一不同的是：所述步骤五中利用共轭梯度法迭代搜索的迭代次数为100次。

其它步骤及参数与具体实施方式一相同。

具体实施方式三：本实施方式与具体实施方式一或二不同的是：所述步骤六中C(i,i)是将训练数据D_T代入协方差函数中形成。

其它步骤及参数与具体实施方式一或二相同。

具体实施方式四：本实施方式与具体实施方式一至三之一不同的是：所述步骤六中K(i,t+1)是将训练数据D_T与测试输入数据代入(1)式中的平方指数协方差函数k(i,j)中得到的协方差矩阵。

其它步骤及参数与具体实施方式一至三之一相同。

具体实施方式五：本实施方式与具体实施方式一至四之一不同的是：所述步骤六中K(t+1,t+1)是将测试数据代入k(i,j)中得到的协方差矩阵。

其它步骤及参数与具体实施方式一至四之一相同。

仿真实验：

为了验证IADAM-GPR模型异常检测的有效性，采用同一传感器的采样样本可以避免不同采样频率对监测数据的复杂影响。因此，用于验证本方法为单数据流。且本实验验证同时使用仿真数据和真实数据。

首先，为了易于定义和仿真，采用仿真数据来验证该模型。然后利用移动话务量数据检测移动网络的异常模式。通过对移动话务量的异常检测，可以及时发布预警信号。然后工作人员和维护人员可以及时处理恶意攻击，从而控制移动网络来确保较好的通信质量。因此对移动话务量数据进行异常检测对通信行业来说是十分有意义的。但是由于移动话务量数据流规模非常大，因此执行话务量异常检测是非常巨大的挑战。与此同时，移动话务量数据的评估和验证对于将异常检测方法扩展到其他工业领域来说也是非常具有价值的，例如复杂工业系统的故障诊断与预测。

为了验证本实施方式提出的IADAM策略和IADAM-GPR模型的有效性，将使用朴素贝叶斯和MLP预测模型进行对比实验。具体地，将使用包括AD、ADAM和IADAM的三个策略来处理未来数据。用于验证实验的三种方法包括朴素贝叶斯，MLP和GPR。由三种策略及三种不同预测方法共形成九种模型应用于仿真数据和真实数据的异常检测。

FPR和FNR将用于验证异常检测算法的有效性。

一、在本实施方式的工作中，针对仿真数据集的异常检测实验过程如下：

(1)生成服从正态分布的数据样本。根据异常样本的比例，模拟出相应的偏离正常数据的异常数据。

(2)设置在第4部分中提出的异常检测框架中的相关参数，包括了显著度α，最大允许的β_max，以及滑动窗口的尺寸q。

(3)设置数据驱动预测算法的相关参数。即确定均值函数、协方差函数的形式以及设定超参数的初始值。同样地，设置MLP的相关参数包括了学习速率、动量因子、最大迭代次数等等。

(4)在一个滑动窗口内执行基于这9个模型的异常检测实验。分别计算基于九个模型的FNR和FPR，并进行分析和比较。

同样,对移动话务量数据的实验过程简单描述如下：

(1)从移动网络中提取数据，根据正常模式定义确定异常数据。

(2)设置异常检测框架中和基于数据驱动预测算法的相关参数。

(3)计算FNR、FPR并进行分析讨论。

二、仿真数据实验结果

仿真数据集中异常数据比例设置为5％，数据集共包含20个异常样本和380个正常样本。正常数据服从4倍标准均值和方差为1的分布。异常数据连续地分布在100、200、300附近。并且其偏离正常数据均值的0.5至1倍。图4所示为一个仿真数据序列。

基于自相关分析选取30个正常的数据采样点(已经足够)，将其视为离线数据，作为MLP和GPR模型的输入。即滑动窗口的大小等于30。因此，最终的测试序列包括20个异常数据和350个正常数据。对于其他的参数来说，显著度α设置为0.05，β_max也设置为0.05。

GPR模型的协方差函数选定为平方指数协方差函数，均值函数设定为0。而且，协方差函数中涉及的超参数设置为0到1之间的随机数。应用BP神经网络算法训练MLP模型，学习速率和动量因子的初始值分别设置为0.01和0.1。同时，最大迭代次数设置为1000。相应隐含层数设定为1，隐层神经元为50。隐层的激励函数为sigmoid函数。

假设MLP预测的残差服从学生t分布，则对MLP的假设预测输出为T检验，其中β通常被认为是有n-1个自由度的概率曲线。相比较而言，通过特定的公式实时计算出β很困难，所以在本实验中MLP中的β值由(6)式得到。我们假定MLP中的PI在正态分布中的置信概率为95％。

九个模型的异常检测结果如表1所示。

表1人工数据实验结果

从表1中可以看出，相比于ADAM策略，IADAM策略缓解了FPR的影响。比如，IADAM-MLP模型的FPR相对于ADAM-MLP提高了58.7％；相对于ADAM-GPR，IADAM-GPR算法的FPR提高了74.7％。虽然基于IADAM策略的FPR相对于基于AD策略的数据驱动的模型有所下降，但是基于IADAM策略的数据驱动模型的异常检测结果比基于AD策略的数据驱动的结果有较大提升。而且，综合来看，九种模型中，IADAM-GPR模型可以实现更好的异常检测性能。

三、移动话务量实验

中国黑龙江省哈尔滨市移动话务量数据的采样间隔为1小时。移动话务量数据序列示例如图5。

如图5，话务量数据是典型的时间序列，具有非线性和非稳定性的特性。移动话务量每天在早晨达到最小值，下午和傍晚是话务量的高峰。话务量基本的周期是24小时。异常数据是周末、假日、节日或者一些图6所示的恶意攻击时出现的异常模式。

本仿真实验中用于验证算法的移动话务量数据是从特定地区的300组数据样本中选取出来的，根据自相关分析确定前50个数据点为离线数据和训练数据。也就是说，训练滑动窗的大小是50，算法仅需要一个历史数据样本。除去50组历史数据样本，还有28组异常数据样本和222组正常样本。

在一定程度上，话务量数据是周期的。所以GPR模型将周期协方差函数和平方指数函数相结合。平方指数函数如式(15)，周期协方差函数形式如(24)式。

训练数据在被用于输入样本前，需先将将训练数据归一化。协方差中的超参数被设定为0到1之间的随机数，并且将平均函数设为0，显著水平被设为0.05，最大的β_max值也被设为0.05。

MLP方法的实验环境与仿真实验中的设定相同。9个模型的异常检测结果如表2所示。

表2移动话务量数据实验结果

本仿真实验提出的IADAM策略使用异常参数β来提高异常检测的准确率。因此，表2中应用IADAM策略的FPR异常检测方法比ADMA策略优越。

此外，对于本实施方式应用的三种基于数据驱动的模型，基于IADAM策略的异常检测结果与基于AD策略的检测结果相比相同或者略小一些。综合而言，本实施方式提出的IADAM-GPR模型在移动话务量数据的异常检测上与其他模型相比具有更令人满意的结果。

四、结论和分析

值得注意的是移动话务量数据中的异常数据集中于两个连续的周期。而且，一天中的异常数据经常连续出现。所以预测器仅利用一个历史样本进行异常检测吗，其对于连续的异常数据的检测效果较差时。此外，在仿真数据集中的异常检测中也可得出相似的结论。特别是，针对移动话务量数据，基于预测器仅检测出15.2％的异常数据。尽管应用了优化的策略，预测器在人造数据中的FNR仍达到95％。因此，预测器对于连续异常数据的检测近乎失效，也证明预测器更适用于检测单个数据的异常。

MLP预测器通过10倍交叉检验提供预测的置信区间(PI)。在仿真数据中，异常数据的模式相对简单，MLP模型在异常检测中表现出了更好的检测能力。因为MLP可以从正常数据中分辨出异常数据，所以ADAM-MLP和IADAM-MLP在FNR上表现出高性能；然而，对于移动话务量数据，基于MLP预测器的FNR高于50％，这意味着MLP预测器将不能更好地用于检测由正常振幅组成的异常数据。此外，与AD-MLP和ADAM-MLP策略相比，IADAM-MLP模型表现出更好的综合性能。如对于仿真数据，相比于AD-MLP模型，IADAM-MLP模型的FPR降低了31.6％。

基于统计理论的GPR模型实现了具有不确定性表达的预测结果输出。所以预测的方差可以限定预测值的分布区间。GPR模型更适用于扩展到异常检测领域。但是将时间索引作为预测输入的GPR模型很容易受到异常数据的影响。AD-GPR的漏检率很高。例如在移动话务量数据和仿真数据中AD-GPR的楼检率分别达到64.3％和65.0％。用于取代未来数据的策略包括ADAM和IADAM与GPR模型结合时检测效果较好。此外，IADAM-GPR的误检率比ADAM-GPR更低，在移动话务量数据和仿真数据上分别有43.4％和74.7％的提升。

通过本仿真的实验分析可以证明基于假设检验的IADAM策略的异常检测框架获得了误检率与漏检率的综合提升。而且，对于流式数据，基于GPR模型能够提供不确定性表达，其应用于异常检测领域时更有优势。而且在本专利提到的模型中，IADAM-GPR模型的性能最优。本实施方式提出的异常检测方法对于工业领域中复杂系统的故障预测及诊断提供了更积极显著的应用视角，具有广阔的应用前景。

Claims

1.基于改进高斯过程回归模型的状态监测数据流异常检测方法，其特征在于它包括以下步骤：

c (i, j) = k (i, j) + σ_{n}^{2} δ_{i j} = {&upsi;}_{0} \exp {- \frac{1}{2} Σ_{l = 1}^{d} ω_{l} {(i_{l} - j_{l})}^{2}} + σ_{n}^{2} δ_{i j} - - - (1)

如果训练数据D_T的目标值向量x与测试输入时间索引t+1对应的数据值x_t+1服从联合高斯分布，即：

(\begin{matrix} x \\ x_{t + 1} \end{matrix}) ~ (0, (\begin{matrix} C (i, i) & K (i, t + 1) \\ K (t + 1, i) & K (t + 1, t + 1) \end{matrix})) - - - (2)

x_{t + 1} | i, x, t + 1 ~ N (\overset{&OverBar;}{x_{t + 1}}, cov (x_{t + 1})) - - - (3)

\overset{&OverBar;}{x_{t + 1}} = E [x_{t + 1} | i, x, t + 1] = K (t + 1, i) C {(i, i)}^{- 1} x - - - (4)

cov(x_t+1)＝K(t+1,t+1)-K(t+1,i)C(i,i)^-1K(i,t+1) (5)

\overset{&OverBar;}{x_{t + 1}} &PlusMinus; z_{\frac{α}{2}} \times \sqrt{cov (x_{t + 1})} - - - (6)

[\overset{&OverBar;}{x_{t + 1}} - 1.96 \sqrt{c o v (x_{t + 1})}, \overset{&OverBar;}{x_{t + 1}} + 1.96 \sqrt{cov (x_{t + 1})}] - - - (7)

步骤十：根据下式计算对应于t+1时刻监测值的β(x_t+1)：

2.根据权利要求1所述的基于改进高斯过程回归模型的状态监测数据流异常检测方法，其特征在于：所述步骤五中利用共轭梯度法迭代搜索的迭代次数为100次。

3.根据权利要求1或2所述的基于改进高斯过程回归模型的状态监测数据流异常检测方法，其特征在于：所述步骤六中C(i,i)是将训练数据D_T代入协方差函数中形成。

4.根据权利要求3所述的基于改进高斯过程回归模型的状态监测数据流异常检测方法，其特征在于：所述步骤六中K(i,t+1)是将训练数据D_T与测试输入数据代入(1)式中的平方指数协方差函数k(i,j)中得到的协方差矩阵。

5.根据权利要求4所述的基于改进高斯过程回归模型的状态监测数据流异常检测方法，其特征在于：所述步骤六中K(t+1,t+1)是将测试数据代入k(i,j)中得到的协方差矩阵。