CN112163020A - 一种多维时间序列异常检测方法及检测系统 - Google Patents
一种多维时间序列异常检测方法及检测系统 Download PDFInfo
- Publication number
- CN112163020A CN112163020A CN202011060906.4A CN202011060906A CN112163020A CN 112163020 A CN112163020 A CN 112163020A CN 202011060906 A CN202011060906 A CN 202011060906A CN 112163020 A CN112163020 A CN 112163020A
- Authority
- CN
- China
- Prior art keywords
- data
- time series
- time
- time sequence
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 84
- 238000009826 distribution Methods 0.000 claims abstract description 60
- 230000002159 abnormal effect Effects 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 14
- 230000000306 recurrent effect Effects 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 30
- 239000013598 vector Substances 0.000 claims description 27
- 230000011218 segmentation Effects 0.000 claims description 24
- 239000012634 fragment Substances 0.000 claims description 23
- 238000009499 grossing Methods 0.000 claims description 23
- 230000005856 abnormality Effects 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 20
- 238000005457 optimization Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 4
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 9
- 238000013507 mapping Methods 0.000 abstract description 3
- 125000004122 cyclic group Chemical group 0.000 abstract description 2
- 230000001537 neural effect Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 230000002547 anomalous effect Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明提供了一种多维时间序列异常检测方法及检测系统,包括:将输入多维时间序列映射到低维空间的循环神经网络编码器;通过循环神经网络自编码器将采样得到的低维变量重构为多维时间序列;在自编码器模型构建过程中,编码器与解码器共享部分循环神经网络的神经单元;基于时间序列马尔科夫平滑假设的正则化方法对模型进行优化;基于重构时间序列概率分布对时间序列异常值进行计算。本发明提供的方法相较于传统的异常检测模型,具有更灵活的拟合能力与鲁棒性,具有更高的异常检测精确度,能同时检测短时突发异常和中长时间段异常。
Description
技术领域
本发明涉及时间序列异常检测技术领域,具体地,涉及一种多维时间序列异常检测方法及检测系统。
背景技术
随着互联网技术和大数据技术的发展,越来越多的数据被采集并进行处理和分析,其中,时间序列数据是最广泛、重要的数据类型。时间序列数据,即带有时间戳标记的数据统计量,能够揭示环境的变化、设备的运行状态、金钱的流动等与人类生活密切相关的特征。时间序列的异常检测问题是一个非常重要而且具有挑战性的问题,在很多领域都具有重要的应用价值,例如智能交通,健康,指标监测,运维,网络入侵检测、环境监测等。在上述提到的多个领域中,数据的异常通常意味着各种应用领域中关键的可操作信息,例如,森林中异常的温湿度变化可能意味着潜在的森林火灾,计算机网络中异常的流量模式可能意味着计算机被黑客窃取,来自工业机器的异常设备状态可能意味着某些关键部位的故障。因此,准确与及时的对时间序列进行异常检测具有非常重要的价值。
对于矩阵X∈RM×T,是一组时间序列数据,其中含有M条相关的时序数据流,T个观测时间节点。取决于可用的训练数据和异常标签类型,通常有三种方式对其中的异常进行检测:1)有监督。2)半监督。3)无监督。其中,对于没有异常值标签,也没有无异常干净数据的时间序列异常检测问题是最困难的。无监督异常检测不需要异常标签数据训练模型,也不需要专门采集无异常的干净数据,具有广泛的实用性。相比较有监督和半监督方法,无监督方法在异常模式漂移的场景下具有与更好的鲁棒性。
目前已有方法主要分为两类,判别模型和概率模型,其中判别模型的方法主要是在常见的时间序列模型优化过程中加入了时序平滑的惩罚项,来辅助模型在拟合和平滑之中权衡,从而拟合到正常的时间序列数据。但是这种方法没有考虑时间序列天然的随机性,在被异常值污染的时间序列下训练,性能会大幅下降。另一类是概率模型,主要代表模型是经典的隐马尔科夫模型和矩阵分解模型。然而,概率模型通常受到计算量的约束,通常以线性模型为主,难以拟合复杂且非线性的大量时间序列数据。虽然概率模型考虑到了观测时间序列的随机性,但是通常假设了观测时间序列具有时不变的加性噪声,这显然不符合真实时间序列的随机性规律,在时间序列数据噪声变化的情况下异常检测的准确率较低。
综上,现有的时间序列异常检测方法,并不能适用于复杂非线性实际时间序列数据的异常检测,目前没有发现同本发明类似技术的说明或报道,也尚未收集到国内外类似的资料。
发明内容
为了克服现有技术中存在的上述不足,本发明提供了一种多维时间序列异常检测方法及检测系统,该检测方法及检测系统基于变分贝叶斯自编码器,针对复杂的多维时间序列数据,无需干净的时间序列数据或者已知的异常标签数据,即可鲁邦地检测其中的异常值和异常片段。本发明提供的多维时间序列异常检测方法及检测系统,能够系统性地解决时间序列异常检测的问题。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种多维时间序列异常检测方法,包括:
将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,完成对时间序列数据的切分;
通过对时间序列数据的增强和/或切分,得到包含异常值的多个时间序列片段;
构建无监督时间序列异常检测模型,利用建立的所述模型从包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定学习到的模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
优选地,所述时间序列数据包括如下任意一种或任意多种:
-多维时间序列数据;
-含有缺失值的时间序列数据;
-长时间序列数据。
优选地,所述长时间序列数据是指超过1万个时间点的序列数据。
优选地,所述时间序列数据切分规则,包括:时间序列数据的维度和片段长度、切分采样是否具有重叠以及重叠的密度。
优选地,所述时间片段数据的元数据信息包括:能够描述与观测时间序列对应的人类活动相关特征以及与待检测异常相关的时间相关特征。
优选地,所述在时间序列平滑假设的正则约束下优化模型参数,包括:
根据输入时间序列数据的平滑度进行判断,给出对应的平滑参数,并根据平滑参数设定模型训练时采用的平滑正则进行优化。
优选地,所述构建无监督时间序列异常检测模型,采用基于变分自编码器的时间序列模型构建无监督时间序列异常检测模型。
优选地,所述无监督时间序列异常检测模型采用循环神经网络编码器,将包含异常值的多个时间序列片段数据映射为低维随机特征向量,根据低维随机特征向量的重构出正常时间序列数据的概率分布随机采样出待解码的特征向量,解码待解码的特征向量输出并重构出原始的正常时间序列数据的概率分布,即为重构出正常时间序列数据的概率分布。
优选地,所述通过采样的方式得出重构出新正常时间序列数据的概率分布,包括:
将输入的新观测数据的时间序列转变为重构的正常时间序列随机向量,然后通过对低维随机特征向量多次采样的方式得到多次重构的概率分布,获得稳定的重构概率分布,即为重构出新正常时间序列数据的概率分布,用于异常值打分。
根据本发明的另一个方面,提供了一种多维时间序列异常检测系统,包括:
时间序列数据增强模块,所述时间序列数据增强模块将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
时间序列数据切分模块,所述时间序列数据切分模块根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,形成包含异常值的多个时间序列片段数据;
无监督时间序列异常检测模型模块,所述无监督时间序列异常检测模型模块构建无监督时间序列异常检测模型,利用建立的所述模型从经过时间序列数据增强模块和/或时间序列数据切分模块后得到的包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
观测数据重构模块,所述新观测数据重构模块,利用训练后的模型,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
异常检测模块,所述异常检测模块根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
由于采用了上述与现有技术相比,本发明具有如下的有益效果:
本发明提供的多维时间序列异常检测方法及检测系统,基于变分贝叶斯自编码器的时间序列异常检测模型,相较于传统的基于判别模型和概率模型异常检测方法,结合了两者的优势,能够有效地对异常污染的时间序列数据进行鲁邦建模,学习正常序列的包络线。
本发明提供的多维时间序列异常检测方法及检测系统,其中的无监督时间序列异常检测模型结合了深度学习的优势,可以在复杂的时间序列数据情况下有效学习和收敛。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明一优选实施例中多维时间序列异常检测方法流程图。
图2为本发明一优选实施例中无监督时间序列异常检测模型框架示意图。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
本发明一实施例提供了一种多维时间序列异常检测方法,该方法结合概率模型和判别模型的异常检测方法,在保证训练效率的情况下,适用于复杂非线性的实际时间序列数据,系统性地解决了多维时间序列的异常检测问题。
如图1所示,本发明实施例体提供的多维时间序列异常检测方法,包括如下步骤:
步骤S1,将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,可以将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
和/或
根据时间序列数据切分规则,将时间序列数据切分为多个适合模型学习特征的时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,完成对时间序列数据的切分;
其中,步骤S1中的增强步骤和切分步骤的执行顺序根据需要决定;
通过步骤S1中对时间序列数据的增强和/或切分,得到包含异常值的多个时间序列片段;
步骤S2,构建无监督时间序列异常检测模型,利用建立的模型从包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定学习后的模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
步骤S3,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
步骤S4,根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
进一步地,异常检测阈值可以根据领域专家根据数据的经验异常比例(例如1%)设置。
作为一优选实施例,时间序列数据包括如下任意一种或任意多种:
-多维时间序列数据;
-含有缺失值的时间序列数据;
-长时间序列数据。
作为一优选实施例,长时间序列数据是指超过1万个时间点的序列数据。
作为一优选实施例,时间序列数据切分规则,包括:时间序列数据的维度和片段长度、切分采样是否具有重叠以及重叠的密度。
作为一优选实施例,时间片段数据的元数据信息包括:能够描述与观测时间序列对应的人类活动相关特征以及与待检测异常相关的时间相关特征。
作为一优选实施例,在时间序列平滑假设的正则约束下优化模型参数,包括:
根据输入时间序列数据的平滑度进行判断,给出对应的平滑参数,并根据平滑参数设定模型训练时采用的平滑正则进行优化。
作为一优选实施例,构建无监督时间序列异常检测模型,采用基于变分自编码器的时间序列模型构建无监督时间序列异常检测模型。
作为一优选实施例,如图2所示,无监督时间序列异常检测模型采用循环神经网络编码器,将包含异常值的多个时间序列片段数据映射为低维随机特征向量,根据低维随机特征向量的重构出正常时间序列数据的概率分布随机采样出待解码的特征向量,解码待解码的特征向量输出并重构出原始的正常时间序列数据的概率分布,即为重构出正常时间序列数据的概率分布。
作为一优选实施例,通过采样的方式得出重构出新正常时间序列数据的概率分布,包括:
将输入的新观测数据的时间序列转变为重构的正常时间序列随机向量,然后通过对低维随机特征向量多次采样的方式得到多次重构的概率分布,获得稳定的重构概率分布,即为重构出新正常时间序列数据的概率分布,用于异常值打分。
在本发明部分实施例中:
无监督时间序列异常检测模型采用x1:T=(x1,x2,…,xt)表示一组多维时间序列数据,利用该无监督时间序列异常检测模型,鲁棒地学习观测数据的边缘概率分布p(x1:T)。
构建无监督时间序列异常检测模型的方法,包括以下步骤:
步骤1:根据如下分解,定义一个生成模型p(x≤T,z≤T):
其中,z为低维特征向量;T为观测时间。
步骤3:步骤1中公式的右边第二项p(zt|x<t,z<t)为编码器,是隐变量的条件概率分布,通过如下参数化分布定义该随机变量,得到低维编码向量的概率分布:
其中,μ0,t和分别表示t时刻低维特征向量先验概率分布的均值和方差,ht-1为由循环神经网络学习的隐状态先验概率,ht由门控循环单元(Gated Recurrent Unit,GRU)控制,控制的方程为:
其中,fθ为GRU函数,其中θ为生成模型中的参数。
步骤4:定义近似模型作为生成模型的推理模型,用于与生成模型联合优化:
其中,qφ为推理模型的映射函数,由多层神经网络构成,φ为推理模型参数。。
步骤5:模型基于变分自编码贝叶斯算法学习,优化模型参数φ,θ最大化观测边缘概率的期望值,得到全局优化目标:
通过步骤1~步骤5,完成对无监督时间序列异常检测模型的构建及训练(优化)。
在含有异常片段的时间序列数据中,为了使模型更加鲁邦地学习正常时间序列的概率分布,从而提升异常检测的性能,本发明实施例还提出了一种正则方法优化模型参数,在t-1和t时刻,对于重构的时间序列,p(xm,t-1),p(mm,t)衡量重构时间序列概率分布平滑度的正则项Lsmooth通过下列公式计算:
其中,p(xm,t-1)为模型重构的t时刻m维时序观测概率密度函数,M为时序序列数量。
最终模型学习的目标函数(即模型训练过程中优化参数的函数)为模型步骤5给出的优化目标和平滑正则项之和,可由下式表示:
平滑参数λ为超参数,决定学习到的重构时序平滑程度,根据需要手动调整,目标函数批量接收切分采样的时序片段数据,通过随机梯度下降方式进行优化,迭代,直到收敛。
当模型已经训练完成后,可以对于新输入的时序片段x进行异常检测,在检测过程中,首先将输入数据利用学习到的编码器p(z|x)映射到z向量,然后再通过解码器p(x|z)重构为x~N(μ,σ),将上述过程迭代L次,然后根据下式计算:
其中,ρ为t时刻时间序列的异常值,ρ越高代表t时刻的时序越异常。根据需要设置合适的阈值来决策异常。
以下通过一具体实例对本发明上述实施例提出的多维时间序列异常检测方法进一步详细描述如下。
在具体实施中,时间序列增强和时间序列切分的顺序可以根据实际需要决定,本具体实例以先切分后增强为例,时间序列数据增强和时间序列切分包含以下步骤:
1)时序预处理:在观测到的多维时间序列数据中,通常来讲,不同维度的数据具有不同的尺度,为了让模型能够有效地优化和收敛,需要根据数据的尺度将不同维度的数据分别标准化。对于存在缺失和不对齐的数据问题中,需要对缺失数据进行填充,不对齐数据需要通过空数据标识符进行补充,从而让数据能够正确地被切分。
2)时序片段切分:由于模型在建模超长时间序列的情况下,训练时间随着时间序列的长度指数增长,为了提高模型训练学习的效率,需要对时间序列进行切分。由于时序的连贯性,假设在t时刻观测到的时间序列,通常与t-n到t-1时刻的时间观测值相关,与0到t-n-1时刻的观测值相关度较低。因此,基于时序相关性原则,把长时间序列从时间轴切分为长度为n的片段。
3)标记时间特征:在切分完成后,不同的时间片段并不独立,其中时间信息在切分的过程中已经丢失。从时间戳中按照采样频率提取时间特征,加入到模型中,辅助模型在训练过程中收敛。
4)生成训练数据池:对于切分好的数据,放入训练数据池,并通过随机采样器对时序片段随机采样进行训练。
时序片段切分方法,对于切分的长度,根据时序的相关特性和采样频率,决定具体的长度。时序的相关特性由时序自相关性统计计算,切分长度的经验值为60-120个时间点。
标记时间特征的方法,通常包含以下特征:1)周期性特征,例如小时、星期、月份、季节。2)识别符特征:例如节假日、活动。3)线性特征:例如绝对时间。
标记时间特征的方法,对于时间特征的量化方式根据特征种类决定。对于周期性特征,采用0到1间锯齿形增长的时间特征曲线,对于线性特征,采用-1到0.5之间增长的曲线,0.5-1之间的特征向量留在未来数据中处理。对于识别符特征,采用虚设变量的方法,用0和1的序列标记特征。
举例说明:给定长度为一年,3个观测变量,每小时采样的交通流量时间序列数据,也就是8760个观测时间点,3个观测序列,也就是8760×3的矩阵数据。设置切分片段长度为5天(120个时间点),重叠率为10%,平滑系数为1,训练批次为10,检测采样次数为10本方法通过以下步骤处理:
步骤一:记录3个观测变量的均值和方差,然后将每个观测变量独立标准化,使得其标准化的数据服从均值0,方差1的正态分布。
步骤二:将8760个时间点数据,从第1个时间点开始,将1-120时间点的时序片段加入数据池,然后从第12个时间点开始,将12-132时间点的时序片段加入数据池,直到全部加入,共获得730个时序片段数据。
步骤三:为每个时序片段数据,加入小时/天,星期,月份,季节四个时间特征,然后将特征统一为均值0,方差1的正态分布数据。
步骤四:构建训练模型,从数据池中随机抽取10个时序片段进行训练,计算下式:
其中,λ=1,分布之间的距离采用KL散度作为衡量两个概率分布的测度,对于对角多维正态分布,两个分布之间的距离通过如下公式计算:
更新模型参数,然后再取10个时序片段进行训练,更新模型参数,直到收敛。
步骤五:给定新的输入时序片段x,根据训练好的模型pθ(zt|x<t,z<t)计算低维特征随机向量分布,然后随机采样z后,通过解码器获取pθ(xt|z≤t,x<t),根据ρ=log(xt|μ(l),σ(l))计算异常得分,将上述随机采样进行10次,平均得分得到异常分数。
步骤六:假设根据经验判断,数据中大概存在10个异常点,则选择模型报告的最高的10个异常分数。若假设存在5%的异常,则选择异常分布前5%的时序片段数据进行分析,根据实际需要判断具体检测数据是否为异常数据。
本发明另一实施例提供了一种多维时间序列异常检测系统,包括:
时间序列数据增强模块,时间序列数据增强模块将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,可以将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
时间序列数据切分模块,时间序列数据切分模块根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,形成包含异常值的多个时间序列片段数据;
无监督时间序列异常检测模型模块,无监督时间序列异常检测模型模块构建无监督时间序列异常检测模型,利用建立的模型从经过时间序列数据增强模块和/或时间序列数据切分模块后得到的包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
观测数据重构模块,新观测数据重构模块,利用训练后的模型,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
异常检测模块,异常检测模块根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供领域专家根据数据的经验异常比例(1%)设置的异常检测阈值,进而根据给定的异常检测阈值判断某段时间序列数据是否为异常片段。
本发明上述实施例提供的多维时间序列异常检测方法及检测系统,包括:将输入多维时间序列映射到低维空间的循环神经网络编码器;通过循环神经网络自编码器将上述采样得到的低维变量重构为多维时间序列;在自编码器模型构建过程中,编码器与解码器共享部分循环神经网络的神经单元;基于时间序列马尔科夫平滑假设的正则化方法优化构建的模型;基于重构时间序列概率分布对时间序列异常值进行计算。本发明上述实施例提供的多维时间序列异常检测方法及检测系统,相较于传统的异常检测模型,具有更灵活的拟合能力与鲁棒性,具有更高的异常检测精确度,能同时检测短时突发异常和中长时间段异常。
需要说明的是,本发明提供的方法中的步骤,可以利用系统中对应的模块、装置、单元等予以实现,本领域技术人员可以参照系统的技术方案实现方法的步骤流程,即,系统中的实施例可理解为实现方法的优选例,在此不予赘述。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (10)
1.一种多维时间序列异常检测方法,其特征在于,包括:
将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,完成对时间序列数据的切分;
通过对时间序列数据的增强和/或切分,得到包含异常值的多个时间序列片段;
构建无监督时间序列异常检测模型,利用建立的所述模型从包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定学习到的模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
2.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述时间序列数据包括如下任意一种或任意多种:
-多维时间序列数据;
-含有缺失值的时间序列数据;
-长时间序列数据。
3.根据权利要求2所述的多维时间序列异常检测方法,其特征在于,所述长时间序列数据是指超过1万个时间点的序列数据。
4.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述时间序列数据切分规则,包括:时间序列数据的维度和片段长度、切分采样是否具有重叠以及重叠的密度。
5.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述时间片段数据的元数据信息包括:能够描述与观测时间序列对应的人类活动相关特征以及与待检测异常相关的时间相关特征。
6.根据权利要求1所述的多维时间序列异常检测方法,其特征在于,所述在时间序列平滑假设的正则约束下优化模型参数,包括:
根据输入时间序列数据的平滑度进行判断,给出对应的平滑参数,并根据平滑参数设定模型训练时采用的平滑正则进行优化。
7.根据权利要求1-6任一项所述的多维时间序列异常检测方法,其特征在于,所述构建无监督时间序列异常检测模型,采用基于变分自编码器的时间序列模型构建无监督时间序列异常检测模型。
8.根据权利要求7所述的多维时间序列异常检测方法,其特征在于,所述无监督时间序列异常检测模型采用循环神经网络编码器,将包含异常值的多个时间序列片段数据映射为低维随机特征向量,根据低维随机特征向量的重构出正常时间序列数据的概率分布随机采样出待解码的特征向量,解码待解码的特征向量输出并重构出原始的正常时间序列数据的概率分布,即为重构出正常时间序列数据的概率分布。
9.根据权利要求8所述的多维时间序列异常检测方法,其特征在于,所述通过采样的方式得出重构出新正常时间序列数据的概率分布,包括:
将输入的新观测数据的时间序列转变为重构的正常时间序列随机向量,然后通过对低维随机特征向量多次采样的方式得到多次重构的概率分布,获得稳定的重构概率分布,即为重构出新正常时间序列数据的概率分布,用于异常值打分。
10.一种多维时间序列异常检测系统,其特征在于,包括:
时间序列数据增强模块,所述时间序列数据增强模块将观测时间结合时间序列数据的观测频率,生成时间序列特征;对于受到外部影响的时间序列,将生成的时间序列特征结合额外采集的外部影响数据,生成外部变量;将生成的外部变量进行标准化统一数据尺度,完成对时间序列数据的增强;
时间序列数据切分模块,所述时间序列数据切分模块根据时间序列数据切分规则,将时间序列数据切分为多个时间片段数据,将多个时间片段数据根据采集时间互相重叠,得到多个连续的多维时间序列片段数据,形成包含异常值的多个时间序列片段数据;
无监督时间序列异常检测模型模块,所述无监督时间序列异常检测模型模块构建无监督时间序列异常检测模型,利用建立的所述模型从经过时间序列数据增强模块和/或时间序列数据切分模块后得到的包含异常值的多个时间序列片段数据中,学习正常数据的特征,并根据学习的特征重构正常的时间序列数据,给出重构出正常时间序列数据的概率分布;给定模型,从重构的正常时间序列数据池中随机抽取训练样本,在时间序列平滑假设的正则约束下优化模型参数,使得模型能够重构出正常的时间序列数据,完成模型训练;
观测数据重构模块,所述新观测数据重构模块,利用训练后的模型,给定新观测数据,通过采样的方式得出重构出新正常时间序列数据的概率分布;
异常检测模块,所述异常检测模块根据重构出新正常时间序列数据的概率分布,计算输入的时间序列数据的异常值,并提供异常检测阈值,进而根据异常检测阈值判断某段时间序列数据是否为异常片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011060906.4A CN112163020A (zh) | 2020-09-30 | 2020-09-30 | 一种多维时间序列异常检测方法及检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011060906.4A CN112163020A (zh) | 2020-09-30 | 2020-09-30 | 一种多维时间序列异常检测方法及检测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163020A true CN112163020A (zh) | 2021-01-01 |
Family
ID=73861623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011060906.4A Pending CN112163020A (zh) | 2020-09-30 | 2020-09-30 | 一种多维时间序列异常检测方法及检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163020A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538509A (zh) * | 2021-06-02 | 2021-10-22 | 天津大学 | 基于自适应相关滤波特征融合学习的视觉跟踪方法及装置 |
CN113780387A (zh) * | 2021-08-30 | 2021-12-10 | 桂林电子科技大学 | 基于共享自编码器的时间序列异常检测方法 |
WO2022160902A1 (zh) * | 2021-01-28 | 2022-08-04 | 广西大学 | 面向云环境下大规模多元时间序列数据异常检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105973595A (zh) * | 2016-04-27 | 2016-09-28 | 清华大学深圳研究生院 | 一种滚动轴承故障的诊断方法 |
CN107146015A (zh) * | 2017-05-02 | 2017-09-08 | 联想(北京)有限公司 | 多变量时间序列预测方法和系统 |
CN109190762A (zh) * | 2018-07-26 | 2019-01-11 | 北京工业大学 | 基于遗传算法编码的上肢姿态识别算法 |
-
2020
- 2020-09-30 CN CN202011060906.4A patent/CN112163020A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105973595A (zh) * | 2016-04-27 | 2016-09-28 | 清华大学深圳研究生院 | 一种滚动轴承故障的诊断方法 |
CN107146015A (zh) * | 2017-05-02 | 2017-09-08 | 联想(北京)有限公司 | 多变量时间序列预测方法和系统 |
CN109190762A (zh) * | 2018-07-26 | 2019-01-11 | 北京工业大学 | 基于遗传算法编码的上肢姿态识别算法 |
Non-Patent Citations (2)
Title |
---|
李净: "医保大数据资金预测模型的研究与实现", 《中国优秀博士学位论文全文数据库(硕士) 基础科学辑》 * |
李龙元: "Anomaly Detecton of Time Series With Smoothness-Inducing Sequential Variational Auto-Encoder", 《IEEE TRANSACTIONS ON NEURAL NETWORKS AND LEARNING SYSTEMS》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022160902A1 (zh) * | 2021-01-28 | 2022-08-04 | 广西大学 | 面向云环境下大规模多元时间序列数据异常检测方法 |
CN113538509A (zh) * | 2021-06-02 | 2021-10-22 | 天津大学 | 基于自适应相关滤波特征融合学习的视觉跟踪方法及装置 |
CN113780387A (zh) * | 2021-08-30 | 2021-12-10 | 桂林电子科技大学 | 基于共享自编码器的时间序列异常检测方法 |
CN113780387B (zh) * | 2021-08-30 | 2024-10-01 | 桂林电子科技大学 | 基于共享自编码器的时间序列异常检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114926746B (zh) | 基于多尺度差分特征注意力机制的sar图像变化检测方法 | |
CN114386521B (zh) | 时间序列数据的异常检测方法、系统、设备和存储介质 | |
CN112163020A (zh) | 一种多维时间序列异常检测方法及检测系统 | |
CN115293280A (zh) | 基于时空特征分割重构的动力装备系统异常检测方法 | |
Tasfi et al. | Deep neural networks with confidence sampling for electrical anomaly detection | |
CN112784920A (zh) | 云边端协同的旋转部件对抗域自适应故障诊断方法 | |
CN115660291A (zh) | 一种植物病害发生与潜在发生的识别评估方法及系统 | |
CN117114913A (zh) | 一种基于大数据的智能化农业数据采集系统 | |
CN116580243A (zh) | 一种掩码图像建模引导域适应的跨域遥感场景分类方法 | |
CN116007937A (zh) | 一种机械设备传动部件智能故障诊断方法及装置 | |
Ray et al. | Learning graph neural networks for multivariate time series anomaly detection | |
Elhalwagy et al. | Hybridization of Capsule and LSTM Networks for unsupervised anomaly detection on multivariate data | |
Ivek et al. | Reconstruction of incomplete wildfire data using deep generative models | |
CN117807470A (zh) | 用于无监督时间序列异常检测的多重校准单分类方法 | |
CN116257786A (zh) | 一种基于多元时序图结构的异步时间序列分类方法 | |
Ge et al. | Unsupervised anomaly detection via two-dimensional singular value decomposition and subspace reconstruction for multivariate time series | |
Popolizio et al. | The GAIN Method for the Completion of Multidimensional Numerical Series of Meteorological Data. | |
Sivasankaran et al. | Soil Moisture Quantity Prediction using Optimized Deep Learning Supported model for Sustainable cultivation of Groundnut plant | |
Choi et al. | Self-Supervised Time-Series Anomaly Detection Using Learnable Data Augmentation | |
Abudurexiti et al. | An explainable unsupervised anomaly detection framework for Industrial Internet of Things | |
CN118503893B (zh) | 基于时空特征表示差异的时序数据的异常检测方法和装置 | |
Ul Abideen et al. | Crowd Flow Prediction: An Integrated Approach Using Dynamic Spatial–Temporal Adaptive Modeling for Pattern Flow Relationships | |
Dai et al. | TDSRL: Time Series Dual Self-Supervised Representation Learning for Anomaly Detection from Different Perspectives | |
Li et al. | DK-STN: A Domain Knowledge Embedded Spatio-Temporal Network Model for MJO Forecast | |
Durand et al. | Forecasting hypoxia events in north atlantic ecosystems using chaotic dynamics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210101 |