WO2022160902A1

WO2022160902A1 - 面向云环境下大规模多元时间序列数据异常检测方法

Info

Publication number: WO2022160902A1
Application number: PCT/CN2021/133024
Authority: WO
Inventors: 陈宁江; 段小燕; 刘康康
Original assignee: 广西大学
Priority date: 2021-01-28
Filing date: 2021-11-25
Publication date: 2022-08-04
Also published as: CN112784965A; CN112784965B

Abstract

一种面向云环境下大规模多元时间序列数据异常检测方法，所述方法包括：对多元时间序列数据通过离线训练建立异常检测模型，通过离线训练的异常检测模型对在线监测的数据进行异常检测。所述方法在进行离线训练模型阶段对原生变分自编码器的前神经反馈网络进行改进构建多元时间序列的依赖关系；对损失函数计算方法进行改进，使得在模型训练时能够关注正常模式的数据，忽略异常模式的数据，从而使得在线进行异常检测出现异常时，模型重建概率偏低，更易检测出异常。

Description

面向云环境下大规模多元时间序列数据异常检测方法

技术领域

本发明属于计算机技术领域，更具体地，涉及一种面向云环境下大规模多元时间序列数据异常检测方法。

背景技术

随着云计算技术、虚拟化技术和容器技术的发展，越来越多的企业构建容器云环境并将之应用于实际生产中。在复杂多变的云环境下，为确保部署到云中的各种应用程序和服务24/7在线，运维工程师需要同时监控实体(集群机器、容器、应用程序等)的多个指标时间序列(如CPU利用率、内存利用率、在线用户数、请求响应延迟等)，以便及时检测出异常并定位异常产生的原因，确保服务的质量和可靠性。

近年不少研究使用深度学习等算法用于时间序列的异常检测，但它们大多数是指标级别的异常检测，即针对不同的指标需要重新选择算法来训练一个异常检测模型，但是云环境下监控的实体多指标种类大，如果对每个指标都进行异常检测将耗费庞大的人力和时间，无法及时检测出异常并快速定位异常产生的原因。而现有的少部分针对实体级别(应用、服务器、容器等监控实体的所有指标序列一起进行异常判断，即多元时间序列异常检测)的研究，要么需要大量的标签数据；要么带有与实际不相符的假设；或者难以捕捉指标序列的时间依赖、高维和随机特征，难以满足云环境下大规模时间序列的异常检测。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种面向云环境下大规模多元时间序列数据异常检测方法，基于长短期记忆网络的半监督变分自编码器的异常检测，其目的在于实现多元时间序列的异常检测。针对多元时间序列标签难获取的问题，引入LSTM对原生VAE的前反馈神经网络进行了改善，并提出一种改进的损失函数对VAE以及其训练变体异常检测算法进行改进，使训练的输入数据可以包含异常数据，并在训练中关注正常模式的数据，提高异常检测的准确率。

实现上述目的，本发明提供一种面向云环境下大规模多元时间序列数据异常检测方法，包括如下步骤：

(1)离线模块训练多元时间序列异常检测模型：将检测系统收集的少部分有标签数据和大部分无标签数据作为离线训练的数据集，对数据进行预处理，经预处理后的数据用于训练多元时间序列异常检测模型；在模型训练中，首先通过长短期记忆网络(LSTM:Long Short-Term Memory)学习多元时间序列的依赖关系，然后将输入的多元时间序列通过变分自编码器(VAE:Variational Auto-Encoder)来降维映射到随机变量Z空间并获取隐藏变量，再次将从经分类器获取数据标签与从随机变量Z空间先验分布中抽取的随机变量z进行拼接，最后拼接得到的数据经解码器后重建输入序列；其中，多元时间序列异常检测模型的参数训练目标是让改进的损失函数最大化，并在其收敛时停止训练；

(2)在线模块计算重建概率分数判断实体状态：在线监测的数据通过离线训练模型计算重建概率能判断t时刻输入的监控值x ^(t)是否正常，采用长度为w的多元子时间序列x ^(t-w+1:t)作为输入数据来重建x ^(t)，由于是在x ^(t-w+1:t)的分布参数μ、σ和π上重建出

而非窗口本身，则可以使用概率来表示异常分数；在线模块对在线检测采集的数据进行预处理，预处理后的数据经与离线模块相同的变分自编码器处理，然后使用多元时间序列异常检测模型得到的参数计算随机变量Z空间的先验对角高斯分布的参数，将从分类器获取的数据标签与从随机变量Z空间先验分布中抽取的随机变量z进行拼接，最后将拼接得到的数据用于重建；在线模块计算所有点的重建概率分数，并根据窗口内最后一点的概率分数与阈值进行判断实体状态。

与现有技术相比，本发明在大规模云环境下，针对多元时间序列标签难获取对原生VAE进行了改进，使用LSTM来代替原生VAE的前馈神经网络，用LSTM的门控机制改善原生VAE的假设数据在时间上独立、重建值只能依赖当前的输入、不适合时序数据等问题，用LSTM捕获多元时间序列依赖关系；本发明还针对已有的VAE及其变体异常检测算法需要正常序列片段来训练异常检测模型，但是由于异常发生的随机性难以在实际中应用的问题，提出一种新的损失函数计算方法，使训练数据中可以包含异常数据，但在模型训练过程中关注正常模式，忽略异常模式，以此来学习多元时间序列的复杂分布，从而达到好的重建效果，提高异常检测准确率。

附图说明

图1是本发明实施例中一种面向云环境下大规模多元时间序列数据异常检测方法的模型示意图；

图2是本发明实施例中一种面向云环境下大规模多元时间序列数据异常检测方法整体框架图；

图3是本发明实施例中一种面向云环境下大规模多元时间序列数据异常检测方法的网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

异常检测是智能运维领域中较常见的一种技术。由于云环境复杂多变，异常的发生往往具有不可预测性，基于传统的手工运维或基于自动触发的、预先定义一定规则的脚本来执行常见的、重复性工作的自动化运维模式已经不能满足及时性要求。随着人工智能和机器学习技术的发展，智能运维模式应运而生，其目标是基于已有的运维数据(日志、监控指标、应用信息、异常事件以及运维工程师的人工处理日志等)，通过机器学习的方式来进一步解决自动化运维没办法解决的问题，它们不依赖于人为指定规则，主张由机器学习算法自动地从海量运维数据中不断地学习，不断地提炼并总结规则，以此来快速准确地检测出异常，降低异常带来的成本损失。

图1是本发明实施例中一种面向云环境下大规模多元时间序列数据异常检测方法的模型示意图；图2是本发明实施例中一种面向云环境下大规模多元时间序列数据异常检测方法整体框架图。

为达到实体级别的多元时间序列的异常检测，如图1和图2所示，本发明提供了一种面向云环境下大规模多元时间序列数据异常检测方法，包括：

(1)离线模块训练多元时间序列异常检测模型：将检测系统收集的少部分有标签数据和大部分无标签数据作为离线训练的数据集，对数据进行预处理，经预处理后的数据用于训练多元时间序列异常检测模型；在模型训练中，首先通过长短期记忆网络(LSTM:Long Short-Term Memory)学习多元时间序列的依赖关系，然后将输入的多元时间序列通过变分自编码器(VAE:Variational Auto-Encoder)来降维映射到随机变量Z空间并获取隐藏变量，再次经分类器获取数据标签与从随机变量Z空间先验分布中抽取的随机变量z进行拼接，最后拼接得到的数据经解码器后重建输入序列；其中，多元时间序列异常检测模型的参数训练目标是让改进的损失函数最大化，并在其收敛时停止训练；

(2)在线模块计算重建概率分数判断实体状态：在线监测的数据通过离线训练模型计算重建概率能判断t时刻输入的监控值x ^(t)是否正常，采用长度为w的多元子时间序列x ^(t-w+1:t)作为输入数据来重建

由于是在x ^(t-w+1:t)的分布参数μ、σ和π上重建出

而非窗口本身，则可以使用概率来表示异常分数，其中t表示多元时间序列的监控时间；在线模块对在线检测采集的数据进行预处理，预处理后的数据经与离线模块相同的变分自编码器处理，然后使用多元时间序列异常检测模型得到的参数计算随机变量Z空间的先验对角高斯分布的参数，将从分类器获取的数据标签与从随机变量Z空间先验分布中抽取的随机变量z进行拼接，最后将拼接得到的数据用于重建；在线模块计算所有点的重概率分数，并根据窗口内最后一点的概率分数与阈值进行判断实体状态。

图3是本发明实施例中一种面向云环境下大规模多元时间序列数据异常检测方法的网络结构图。针对步骤(1)离线模块训练多元时间序列异常检测模型中具体包括：

(1.1)训练数据的预处理：首先将形如式(8)所示的训练数据进行

Z-Normalization标准化处理，使其每个指标都符合标准正态分布；用滑动窗口将x划分为子序列，移动步长为1个单位，并选择序列的最佳窗口长度，定义窗口的标签由这个窗口内是否有异常数据决定；其中，N为多元时间序列x的监控时间，x ^(t)∈R ^M如式(9)所示是一个M维的向量，表示t时刻监控的指标值，M表示监控的指标数；

其中，y _l表示数据标签,0表示正常，1表示异常，若为NULL表示无标签数据；经过预处理后，得到形如

长度为w的子时间序列和相应的窗口标签，输入的训练数据可以包含异常数据；

(1.2)编码降维并获得隐藏变量：通过编码器将多元子时间序列降维映射到随机变量Z空间，将Z空间上的分布p _θ(Z)约束为多元正态分布N(0,I)，随机变量Z空间的先验分布q _φ(Z|X)为对角高斯分布N(μ,σ ²I)；在编码过程中用LSTM的门控机制改善原生VAE的前馈神经网络，将预处理后的数据经LSTM-Encoder进行编码，当输入t时刻的监控值x ^(t)时，使用LSTM结合t-1时刻的隐藏状态

来获取t时刻更深层次的表达，即先通过计算当前时刻的候选状态

然后，通过输入门

控制当前时刻候选状态

有需要保存的信息：

遗忘门

通过式(12)控制上一个时刻的内部状态

需要遗忘的信息：

输出门

控制当前时刻的内部状态

需要输出给外部的信息，即：

LSTM编码后的隐藏状态

可以由式(14)计算得到：

然后，使用批标准化(Batch Norm:Batch Normalization)对LSTM编码获取的隐藏状态进行处理，使训练数据与在线数据编码获得的隐藏状态有相同的分布，保障训练数据得到的模型能够用于在线数据，并且使其分布更均匀，增加模型收敛速度，再使用如式(15)的tanh激活函数对每个数据点的特征进行非线性变换，得到最终的编码状态

其中

是需要学习的参数，*∈{i,f,o},·是元素积；

在编码阶段引入LSTM的门控机制，改善原生VAE的前馈神经网络假设数据在时间上独立、重建值只能依赖当前的输入、不适合时序数据以及梯度爆炸或梯度消失等问题，使用LSTM替代原生VAE的前馈神经网络捕获多元时间序列依赖关系；将输入的多元子时间序列降维映射到随机变量Z空间，将随机变量Z空间上的分布p _θ(z)约束为多元正态分布N(0,I)，其中随机变量Z空间的先验分布q _φ(z|x)为对角高斯分布N(μ,σ ²I)；

(1.3)训练分类器：采用半监督学习的方式进行训练，用少量标签数据带动大部分无标签数据一起训练分类器；为了提高重建的精确度，在解码时引入标签数据，设计了一个名为q _φ(y|x)的分类网络Classifier，由线性层和tanh激活层、Softmax层组成，输出是一个概率向量，即预测的标签

如果输入数据x带有标签，则不需要通过分类网络进行训练，直接将标签数据y _l与随机变量z进行拼接，即(z,y _l)，如果输入数据x是无标签的，则要经过分类网络对标签进行预测，然后将预测的标签

与随机变量z进行拼接得到

之后再用于解码器进行重建；在分类过程中，将y视为一个未知变量，而q _φ(y|x)可近似为Cat(π _φ(x)),即q _φ(y|x)＝Cat(π _φ(x))，服从级联多项分布，而π _φ(x)的计算由带参数

的神经网络定义；

因为采用少数标签数据带动大部分无标签数据训练分类器，因此在训练分类器时考虑两种情况优化训练目标函数,即优化训练证据下界(ELBO:Evidence Lower Bound)损失函数。第一种情况是针对有标签的数据，改进的ELBO如式(16)所示：

其中，a _t＝0,t∈{1,2,…,w}表示t时刻x ^(t)异常，否则a _t＝1，

表示x中正常点的比例，当接触到异常点时，p _θ(x ^(t)|y,z)的作用可以用a _t直接排除，p _θ(z)和p _θ(y)的贡献可k的乘积计算得到，而q _φ(z|x,y)仅是(x,y)到z的映射，不用考虑是否为正常数据点，因此不用进行修改；

第二种情况是对于无标签输入数据，上面消减异常点带来的干扰方法仍然可用，则无标签数据的证据下界可由公式(17)表示：

则能够同时满足上面两种情况的ELBO可表示为：

在此时的ELBO中，标签预测分布q _φ(y|x)只与无标签的

相关，为了让分类器能够在有标签情况下学习，则在目标函数中添加一个分类损失，扩展的ELBO如下：

其中，超参数λ用来平衡使用直接的标签数据和预测的标签数据，使用这个目标函数，可以正确评估带有标签和未带标签的数据，最后使用梯度下降方法来更新编码网络和解码网络中的参数；

(1.4)解码重建输入序列：在使用LSTM-Decoder进行解码重建输入序列阶段，首先需要从先验对角高斯分布q _φ(z|x)中进行抽取的随机变量z与标签或者预测标签拼接；然后将拼接获得的(z,y _l)或者

输入LSTM-Decoder进行解码，得到隐藏状态

最后，经过线性层处理可以将隐藏状态转为输入状态，得到重建的

其中先验对角高斯分布的参数μ和logσ的计算公式如式(20)所示：

步骤(1)的训练目标是最大化改进的损失函数，当其收敛时停止训练，然后保存好训练的模型，即保存训练模型中的分类器参数、编码网格参数、解码网格参数。

针对步骤(2)中对在线模块监控采集的数据使用离线模块训练的异常检测模型对实体进行检测具体包括：

(2.1)对在线监测数据通过离线训练的异常检测模型计算重建概率分数就可以判断某一时刻的监控值(如t时刻的x ^(t))是否正常，采用长度为w的多元子时间序列作为输入数据，即输入x ^(t-w+1:t)来重建x ^(t)，由于是在x ^(t-w+1:t)的分布参数μ、σ和π上重建出

而非窗口本身，则可以使用概率来表示异常分数。在线模块对在线检测采集的数据进行预处理，预处理后的数据经与离线模块相同的编码器处理，然后使用异常检测模型得到的参数如式(20)计算随机变量Z空间先验对角高斯分布参数，最后经分类器获取的数据标签与从先验对角高斯分布随机抽取的随机变量z拼接的数据用于解码重建。在线模块计算所有点的重概率分数，并根据窗口内最后一点的概率分数与阈值进行判断实体状态。

(2.2)通过重建概率分数判断实体状态：用重建概率

作为异常检测器，然后使用蒙特卡洛方法近似求解，如下式：

由于重建概率是负数，便用Sigmoid转化到[0,1]的范围，则在t时刻的重建分数r ^(t)可表示为

其中f(x)＝1/(1+e ^-x)。若r ^(t)越高，表示重建的效果越好，x ^(t)越有可能判定为正常；最后，当模型计算出检测序列的重建概率分数后，根据设定的阈值来决定实体的状态，如式(22)所示：

若r ^(t)高于设定的阈值则判定为正常，用0表示，否则为异常，用1表示。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种面向云环境下大规模多元时间序列数据异常检测方法，其特征在于，包括如下步骤：

(1)离线模块训练多元时间序列异常检测模型：将检测系统收集的少部分有标签数据和大部分无标签数据作为离线训练的数据集，对数据进行预处理，经预处理后的数据用于训练多元时间序列异常检测模型；在模型训练中，首先通过长短期记忆网络(LSTM:Long Short-Term Memory)学习多元时间序列的依赖关系，然后将输入的多元时间序列通过变分自编码器(VAE:Variational Auto-Encoder)来降维映射到随机变量Z空间并获取隐藏变量，再次经分类器获取数据标签与从随机变量Z空间先验分布中抽取的随机变量z进行拼接，最后拼接得到的数据经解码器后重建输入序列；其中，多元时间序列异常检测模型的参数训练目标是让改进的损失函数最大化，并在其收敛时停止训练；

(2)在线模块计算重建概率分数判断实体状态：在线监测的数据通过离线训练模型计算重建概率能判断t时刻输入的监控值x ^(t)是否正常，采用长度为w的多元子时间序列x ^(t-w+1:t)作为输入数据来重建
由于是在x ^(t-w+1:t)的分布参数μ、σ和π上重建出
而非窗口本身，则可以使用概率来表示异常分数，其中t表示多元时间序列的监控时间；在线模块对在线检测采集的数据进行预处理，预处理后的数据经与离线模块相同的变分自编码器处理，然后使用多元时间序列异常检测模型得到的参数计算随机变量Z空间的先验对角高斯分布的参数，将从分类器获取的数据标签与从随机变量Z空间先验分布中抽取的随机变量z进行拼接，最后将拼接得到的数据用于重建；在线模块计算所有点的重概率分数，并根据窗口内最后一点的概率分数与阈值进行判断实体状态。
如权利要求1所述的面向云环境下大规模多元时间序列数据异常检测方法，其特征在于，所述步骤(1)具体包括：

(1.1)数据的预处理：首先将形如式(1)所示的训练数据进行

Z-Normalization标准化处理，使其每个指标都符合标准正态分布；用滑动窗口将x划分为子序列，移动步长为1个单位，并选择序列的最佳窗口长度，定义窗口的标签由这个窗口内是否有异常数据决定；其中，N为多元时间序列x与数据标签y _l的监控时间；x ^(t)∈R ^M是一个取值范围为R的M维的向量，M表示监控的指标数；y _l表示数据的标签,0表示正常，1表示异常，若为NULL表示无标签数据；经过预处理后，得到形如
长度为w的子时间序列和相应的窗口标签，输入的训练数据可以包含异常数据；

(1.2)编码降维并获取隐藏状态：通过编码器将多元子时间序列降维映射到随机变量Z空间，将Z空间上的分布p _θ(Z)约束为多元正态分布N(0,I)，随机变量Z空间的先验分布q _φ(Z|X)为对角高斯分布N(μ,σ ²I)；在编码过程中用LSTM的门控机制改善原生VAE的前馈神经网络，将预处理后的数据经LSTM-Encoder进行编码,当输入t时刻监控值x ^(t)时，使用LSTM结合t-1时刻的隐藏状态来获取t时刻更深层次的表达；然后，使用批标准化(Batch Norm:Batch Normalization)对LSTM编码获取的隐藏状态进行处理，使训练数据与在线数据编码获得的隐藏状态有相同的分布，保障训练数据得到的模型能够用于在线数据，并且使其分布更均匀，增加模型收敛速度，再使用如式(2)的tanh激活函数对每个数据点的特征进行非线性变换，得到最终的编码状态；

(1.3)训练分类器：为了提高重建的精确度，在解码时引入标签数据，设计了一个名为q _φ(y|x)的分类网络Classifier，由线性层和tanh激活层、Softmax层组成，输出是一个概率向量，即预测的数据标签
如果输入数据带有标签，则不需要通过分类网络进行训练，直接将标签y _l与抽取的随机变量z进行拼接，即(z,y _l)，如果输入数据x是无标签的，则要经过分类网络对标签进行预测，然后将预测的标签
与抽取的随机变量z进行拼接得到
之后再用于解码器进行重建；在分类过程中，将y视为一个未知变量，而q _φ(y|x)可近似为Cat(π _φ(x)),即q _φ(y|x)＝Cat(π _φ(x))，服从级联多项分布，而π _φ(x)的计算由带参数
的神经网络定义；

因为采用少数标签数据带动大部分无标签数据训练分类器，因此在训练分类器时考虑两种情况优化训练目标函数，即优化训练证据下界(ELBO:Evidence Lower Bound)损失函数；

(1.4)解码重建输入序列：将获得的(z,y _l)或者
输入LSTM-Decoder进行解码，得到隐藏状态
经过线性层处理可以将隐藏状态转为输入状态，得到重建的
然后更新参数。
如权利要求2所述的面向云环境下大规模多元时间序列数据异常检测方法，其特征在于，在所述步骤(1.3)中：

第一种情况是针对有标签的数据，改进的ELBO如式(3)：

其中，a _t＝0,t∈{1,2,…,w}表示t时刻监控值x ^(t)异常，否则a _t＝1，
表示x中正常点的比例；p _θ(z)和p _θ(y)的贡献可与k的乘积计算得到，而q _φ(z|x,y)仅是(x,y)到z的映射；

第二种情况是对于无标签输入数据，则无标签数据的证据下界可由公式(4)表示：

此时消减异常点带来的干扰的方法仍可用，则能够同时满足上面两种情况的ELBO可表示为：

在此时的ELBO中，标签预测分布q _φ(y|x)只与无标签的
相关，为了让分类器能够在有标签情况下学习，则在目标函数中添加一个分类损失，扩展的ELBO如式(6)：

其中超参数λ用来平衡使用直接的标签数据和预测的标签数据，使用这个目标函数，可以正确评估带有标签和未带标签的数据，最后使用梯度下降方法来更新编码网络和解码网络中的参数。
如权利要求1或2所述的面向云环境下大规模多元时间序列数据异常检测方法，其特征在于，所述步骤(2)中对在线模块监控采集的数据使用离线模块训练的异常检测模型对实体进行检测，包括：

(2.1)计算重建概率：首先在线读取数据；然后，对读取的数据经与离线模块相同的预处理，对每一个滑动窗口的多元时间序列通过编码器获得隐藏状态；然后，计算随机变量Z空间的先验对角高斯分布的参数，从先验对角高斯分布抽取的随机变量z；最后，将随机变量z与预测标签拼接的数据用于重建
并通过重建的
计算重建概率；

(2.2)通过重建概率分数判断实体状态：用重建概率
作为异常检测器，

由于重建概率是负数，便用Sigmoid转化到[0,1]的范围，则在t时刻的重建分数r ^(t)可表示为
其中f(x)＝1/(1+e ^-x)；若r ^(t)越高，表示重建的效果越好，x ^(t)越有可能判定为正常，根据设定的阈值来决定实体的状态。