CN118503893B

CN118503893B - 基于时空特征表示差异的时序数据的异常检测方法和装置

Info

Publication number: CN118503893B
Application number: CN202410969151.1A
Authority: CN
Inventors: 董亚波; 李文泉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2024-06-06
Filing date: 2024-07-19
Publication date: 2024-10-25
Anticipated expiration: 2044-07-19
Also published as: CN118503893A

Abstract

本发明公开了一种基于时空特征表示差异的时序数据的异常检测方法和装置，包括：获取时序数据并进行预处理来构建样本数据；利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型；利用异常检测模型对待检测的样本数据进行推理计算得到每个时间点数据的异常得分，包括：基于待检测的样本数据在时间角度提取的时间特征表示和基于空间角度提取的空间特征表示之间的第一相似度来确定样本中每个时间点数据的异常得分；筛选评分异常得分高于异常阈值的时间点数据被判定为异常，这样可以在没有异常标签的情况下使用并检测出时序数据中可能存在的异常，且使用简单，效率高。

Description

基于时空特征表示差异的时序数据的异常检测方法和装置

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于时空特征表示差异的时序数据的异常检测方法和装置。

背景技术

深度学习应用于时序数据的异常检测一直是比较热门的研究方向，近年来深度学习应用于时序的表示学习得到了很多的关注。使用表示学习方法对数据本身质量、数据标签要求更低，更适于应用于实际的时序数据场景。近年来出现了一些应用时序数据表示学习进行异常检测的方法。

清华大学提出的AnomalyTransformer模型基于异常点仅与其周围点具有较强的特征关联而与全局的时序点具有较低的特征关联，而正常点与其周围以及全局的数据点都具有较稳定的关联模式的直觉观测，使用Tranformer的Encoder建模两种关联表示SeriesAssociation（全局关联）以及Prior Association（局部关联），并基于这两种关联的差异去判断时序异常点。然而这种方法仅仅考虑到各时间点时序方向的关联模式，未考虑到时间序列数据天然存在的各通道之间的关联性。

阿里巴巴提出的DCDetector模型同样基于上述模型的架构，不同点在于该DCDetector模型将输入的数据切分为等长patch，建构数据的逐patch表示以及patch内的逐点嵌入表示，并将这两种表示使用简单的复制上采样之后对比两种表示之间的差异以寻找异常点。与上述方法相似，该方法也没有考虑到时序数据天然的通道之间的相关性，且简单的复制上采样容易造成信息的损失。同时，上述两种模型并不够简洁，训练尚需较长的时间。

上述两种方法均是使用深度表示学习的方法进行时序数据异常检测的例子，但是两者在对时序数据进行表示建模的过程中，均没有利用多维时序数据不同维度之间天然存在的丰富的关联信息，只是使用时序数据时间维度上的关联性去建模。

发明内容

鉴于上述，本发明的目的是提供一种基于时空特征表示差异的时序数据的异常检测方法和装置，可以在没有异常标签的情况下使用，并检测出时序数据中可能存在的异常，且该方法使用简单，效率高。

为实现上述发明目的，实施例提供的一种基于时空特征表示差异的时序数据的异常检测方法，包括以下步骤：

获取时序数据并进行预处理来构建样本数据；

利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型；

利用异常检测模型对待检测的样本数据进行推理计算得到每个时间点数据的异常得分，包括：基于待检测的样本数据在时间角度提取的时间特征表示和基于空间角度提取的空间特征表示之间的第一相似度来确定样本中每个时间点数据的异常得分；

筛选异常得分高于异常阈值的时间点数据被判定为异常。

优选地，对时序数据进行的预处理包括：去除时序数据中异常点、回填插补缺失值、以及数据归一化。

优选地，利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型，包括：

样本数据以等长时间窗口的形式组织，并按照时间顺序将每个时间窗口内样本数据切分为等长的块patch，得到形状为的输入数据，其中，numPatchs表示单个时间窗口内样本数据被切分成patch之后的patch数量，patchSize表示每个patch的长度，C表示多维时序数据中维度数目；

将每个时间窗口内的输入数据分别按照时间角度和空间角度输入至各角度对应的特征表示模块中进行特征表示得到时间特征表示和空间特征表示，并在异常检测模块中根据时间特征表示和空间特征表示计算两者之间的第一相似度，并以第一相似度构建损失函数来优化特征表示模块，优化后特征表示模块和异常检测模块构成异常检测模型。

优选地，时间角度和空间角度各自对应的特征表示模块结构相同，均包括线性表示层和注意力层和尺寸映射层；

输入数据在线性表示层中经过线性映射提取嵌入表示，该嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示，基于重要表示计算每行之间的第二相似度来重构相似度表示，该相似度表示在尺寸映射层经过上采样后得到与输入数据相同维度的时序关联表示，该时序关联表示中每一行数据视为时间窗口内某时间点数据与窗口内所有时间点数据之间的关联模式；

时间角度对应的特征表示模块输出的时序关联表示作为时间特征表示，空间角度对应的特征表示模块输出的时序关联表示作为空间特征表示。

优选地，第二相似度采用余弦相似度。

优选地，嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示，包括：

采用与线性表示层输出的嵌入表示不同的时序嵌入表示作为查询向量Q，同时将线性表示层输出的嵌入表示作为键向量K和值向量V，基于K、Q、以及V并使用注意力机制关注重要特征得到重要表示。

优选地，通过MLP构建Patch内逐时间点数据的表示作为查询向量Q。

优选地，第一相似度采用KL散度，训练时，基于KL散度构建损失函数，以最小化损失为目标来优化特征表示模块；

预测推理时，基于时间特征表示和空间特征表示计算每一行数据之间的KL散度，该KL散度能够表示每个时间点数据从两特征表示得到的差异，从KL散度中得到每个时间点数据的异常得分。

优选地，所述异常阈值通过以下方式构建：

在训练深度学习模型时保存用于训练的样本数据中逐时间点数据的异常得分，利用异常检测模型计算用于验证的样本数据中逐时间点数据的异常得分，并合并训练样本数据和验证样本数据中逐时间点数据的异常得分得到总体异常得分，然后依据训练样本集和验证样本集中异常比例的知识，筛选总体异常得分中按照高低排序时，异常比例排序位置对应的异常得分作为异常阈值。

为实现上述发明目的，本发明实施例提供了一种基于时空特征表示差异的时序数据中的异常检测装置，包括：

数据预处理模块，其用于获取时序数据并进行预处理来构建样本数据；

模型训练模块，其用于利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型；

推理计算模块，其用于利用异常检测模型对待检测的样本数据进行推理计算得到每个时间点数据的异常得分，包括：基于待检测的样本数据在时间角度提取的时间特征表示和基于空间角度提取的空间特征表示之间的第一相似度来确定样本中每个时间点数据的异常得分；

异常判断模块，其用于筛选异常得分高于异常阈值的时间点数据被判定为异常。

与现有技术相比，本发明具有的有益效果至少包括：

（1）由于时间序列数据普遍缺乏异常标签，使得有监督学习方法难以应用，本发明所提出的异常检测方法利用深度表示学习技术，学习每个时间窗口内的输入数据各时间点数据之间的相关性，由于异常数据点与其他正常点之间的关联性较为脆弱，难以从不同的嵌入表示中建模出稳定的异常点与窗口内其他数据点的关联性表示，据此来实现异常判定，可以在无标签的情况下工作；

（2）本发明所提出的异常检测模型结构简单，效果可靠，不需要复杂的数据预处理等工作；

（3）本发明提出的异常检测方法适用于医疗、气象、交通等领域的监测时序数据，可迁移性强。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动前提下，还可以根据这些附图获得其他附图。

图1是实施例提供的异常检测方法的流程图；

图2是实施例提供的异常检测模型的结构示意图；

图3是实施例提供的模型训练与推理时使用的时序数据的组织形式；

图4是实施例提供的注意力层MHA的结构示意图；

图5是实施例提供的异常评分值示意图；

图6是实施例提供的从判定结果中提取的重构特征表示的可视化图，其中左上为有异常时序窗口时序关联CorrWinT，右上为有异常时序窗口时序关联CorrWinC，左下为无异常时序窗口时序关联CorrWinT，右下为无异常时序窗口时序关联CorrWinT；

图7是实施例提供的异常检测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

在医疗、气象、交通等领域的时序数据中，由于异常数据点与其他正常点之间的关联性较为脆弱，难以从不同的嵌入表示中建模出稳定的异常点与窗口内其他数据点的关联性表示，可以据此进行后续的异常判定。具体来说，时序数据天然存在维度之间的关联以及时间顺序上的关联，可以从以上两种角度进行时序数据的嵌入表示，后续使用一系列的重构方法从这两种表示中建模某一时间窗口内各点之间的关联。对于一定长度的时序数据中的绝大多数正常点来说，无论从上述何种嵌入表示建模，正常点之间的关联性差异较小，而异常点因为与其他点之间不具有稳定的相关依赖，因此从两种嵌入表示中建模得到的两种点与点之间的表示中，异常点与正常点之间的关联性将出现较大的差异，可以据此来判定异常。

基于此，本发明实施例提供了一种基于时空特征表示差异的时序数据的异常检测方法，通过时空特征表示差异来实现对医疗、气象、交通等领域的时序数据的异常检测。其中，医疗领域的时序数据包括ECG时序数据、EEG时序数据，气象领域的时序数据包括降雨量时序数据、各类气体浓度时序数据，交通领域的时序数据包括车流量时序数据。

如图1所示，本发明实施例提供的基于时空特征表示差异的时序数据的异常检测方法，包括以下步骤：

S1，获取时序数据并进行预处理来构建样本数据。

实施例中，获取的时序数据可以通过传感器采集得到，对采集的时序数据进行预处理，包括去除监测数据异常点，回填插补缺失值，数据归一化，消除时序数据不同维度之间的量纲影响。具体地，选择最大最小归一化方法，用公式表示为：

；

其中，为序列原始值，为序列归一化后的值，为序列长度，和表示时序数据中时间点数据，i和j均表示时间点数据索引，为从序列中求最小值，为从序列中求最大值；

S2，利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型。

预处理后的样本数据以等长时间窗口的形式组织送入至深度学习模型中，后续进行时序数据维度层面与时间顺序层面的嵌入表示，为了减少模型整体参数量，将时序数据按时间顺序切分为相等的块patch。具体地，如图3所示，记时间窗口长度为winSize，以时间窗口形式组织的样本数据按照时间顺序将被切分为等大小的若干个patch，最终切分得到的数据作为输入数据，其形状为numPatchs×patchSize×C，易知numPatchs ×patchSize= winSize，其中，numPatchs表示单个时间窗口内样本数据被切分成patch之后的patch数量，patchSize表示每个patch的长度，C表示多维时序数据中维度数目。

在进行时间窗口和Patch划分后，如图2所示，将每个时间窗口内的输入数据抽取维度patchSize*C和numPatchs*patchSize的数据分别按照时间角度（patch顺序）和空间角度输入至各角度对应的特征表示模块中进行特征表示得到形状为[winSize,winSize]的时间特征表示CorrWinT和空间特征表示CorrWinC，其中，时间角度和空间角度各自对应的特征表示模块结构相同，均包括线性表示层和注意力层和尺寸映射层。

时间角度上采用逐patch进行嵌入表示的原因是时序patch按照时间先后顺序划分，天然保持原时序数据位置信息，且划分patch之后可以减少后续模型的参数量。

具体地，时间角度和空间角度各自的输入数据在线性表示层中经过线性映射提取形状分别为[numPatchs,reprDim]和[C,reprDim]的嵌入表示ReprT和ReprC，后续分别从两种嵌入表示ReprT和ReprC重构时序数据各时间点之间的关联表示，其中，reprDim为模型超参数，线性表示层可以采用MLP实现。

具体地，嵌入表示ReprT和ReprC分别在注意力层MHA中通过注意力机制关注重要特征得到重要表示。如图4所示，以嵌入表示ReprT为例，嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示，包括：采用与线性表示层输出的嵌入表示ReprT不同的时序嵌入表示作为查询向量Q，记查询向量Q的个数为n，同时将线性表示层输出的嵌入表示ReprT作为键向量K和值向量V，基于K、Q、以及V并使用注意力机制关注重要特征得到形状为[n,reprDim]的重要表示。

需要说明的是，查询向量Q可使用多种不同的时序数据嵌入表示方式得到，查询向量Q的形状取决于具体的嵌入表示方式，最终得到的查询向量Q的形状取决于构建方法。具体地，包括：使用MLP结构建模patch内逐时间点数据的表示作为查询向量Q，即使用输入维度为numPatchs * C，输出维度为reprDim的线性层对输入的时序数据做映射变换，得到的查询向量形状Q为[patchSize,reprDim]。

具体地，基于重要表示计算每行之间的第二相似度（例如余弦相似度）来重构形状为[n,n]的相似度表示，由于后续需要的是时间窗口内每个点之间的关联表示，该相似度表示在尺寸映射层经过上采样后得到与输入数据相同维度（即为[winSize,winSize]）的时序关联表示CorrWinT和CorrWinC，该时序关联表示中每一行数据视为时间窗口内某时间点数据与窗口内所有时间点数据之间的关联模式，其中，时间角度对应的特征表示模块输出的时序关联表示作为时间特征表示CorrWinT，空间角度对应的特征表示模块输出的时序关联表示作为空间特征表示CorrWinC。

在获得时间特征表示CorrWinT和空间特征表示CorrWinC之后，在异常检测模块中根据时间特征表示CorrWinT和空间特征表示CorrWinC计算两者之间的第一相似度，并以第一相似度构建损失函数来优化特征表示模块，优化后特征表示模块和异常检测模块构成异常检测模型。

其中第一相似度采用KL散度。时间特征表示CorrWinT和空间特征表示CorrWinC中，每一行物理意义为某时间点数据相对于该时间窗口内各时间点数据的关联性，可视为一个分布，而KL散度即是衡量两个分布之间相似度的指标。对于两个分布P1和P2，两者之间的KL散度计算方式如下：

；

其中，表示分布P1中的第i个数据点，表示分布P2中的第i个数据点；

由于训练数据中的异常数据只占很小一部分且训练数据普遍无标签，训练过程中可视为训练数据无异常，则训练的目标即为极小化CorrWinT和CorrWinC之间的KL散度损失，来优化特征表示模块，优化后特征表示模块和异常检测模块构成异常检测模型。

S3，利用异常检测模型对待检测的样本数据进行推理计算得到每个时间点数据的异常得分。

在进行测试推理时，将待检测的样本数据经过预处理和时间窗口组织和分Patch处理后，输入至异常检测模块，计算时间角度提取的时间特征表示CorrWinT和基于空间角度提取的空间特征表示CorrWinC之间的第一相似度（即KL散度），该KL散度能够表示每个时间点数据从两特征表示（即时序关联表示）得到的差异，由上述可知正常点的关联模式较容易重构，而异常点的关联模式难以重构因而表现出较大的KL散度差异，因此从KL散度中得到每个时间点数据的异常得分，形状为[winSize,1]。

上述每个时间窗口的异常得分最终拼接在一起，得到形状为的数据集逐点异常得分，其中为所使用数据集的长度。

S4，筛选异常得分高于异常阈值的时间点数据被判定为异常。

实施例中，依据异常阈值来筛选异常得分高于异常阈值的时间点数据被判定为异常。其中，异常阈值的定义方式为假定训练数据（过往的监测数据）与验证数据（当下采集到的数据）同分布，因此具有相同的异常比例，可根据过往经验确定该异常比例，后续根据该异常比例确定异常阈值，即若异常比例为百分之一，则确定异常阈值为降序排列之后的异常得分的第一个百分位数，以此类推。具体通过以下方式构建：

具体地，记在训练样本数据中得到的逐时间点数据的异常得分为ScoreTrain，其形状为[trainLength,1]，在验证样本数据中得到的逐时间点数据的异常得分为ScoreTest，其形状为[testLength,1]，将两者进行拼接得到所有数据的异常得分Score，其形状为[trainLength+testLength,1]，记训练样本集和验证样本集中的异常比例为δ，则将所有数据的异常得分Score从大到小排列之后的δ百分位数排序位置对应的异常分数Score作为异常阈值threshold：

；

其中，表示异常比例对应的排序位置的异常得分，表示总体长度，假设共有10个异常得分，具体排序为{a,b,c,d,e,f,g,h,i,j}，异常比例为30%，则30%排序位置对应的异常得分c作为异常阈值。

实施例还以PSM公开数据集为例，使用上述模型进行训练与检测，最终得到的测试集某段数据异常评分值如图5所示，图5中平行于x轴直线为异常阈值。依上述，由于时序数据在训练以及验证中是以时间窗口的形式输入，若该窗口内存在异常点，不仅异常点难以从不同的嵌入表示中重构与其他正常点之间的关系，且异常值也会影响正常点与窗口内其余时间点关联模式的重建，所以异常评分会经常出现矩形波峰形状。

在PSM数据集的判定结果中分别取两段长为60的数据的重构结果，其中，前一段数据中存在异常，后一段数据中不存在异常。将前一段数据的两种重构结果分别记为RecAT、RecAC，后一段数据的两种重构结果分别为RecT、RecC。依上述，RecAT与RecAC之间的分布差异将大于RecT与RecC之间的差异。图6中4张图（从左至右，从上至下）分别为RecAT、RecAC、RecT、RecA，由图可见结果支持前述分析。

如图7所示，实施例还提供了一种基于时空特征表示差异的时序数据中的异常检测装置70，包括数据预处理模块71、模型训练模块72、推理计算模块73、异常判断模块74，其中，数据预处理模块71用于获取时序数据并进行预处理来构建样本数据；模型训练模块72用于利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型；推理计算模块73用于利用异常检测模型对待检测的样本数据进行推理计算得到每个时间点数据的异常得分；异常判断模块74用于筛选异常得分高于异常阈值的时间点数据被判定为异常。

需要说明的是，上述实施例提供的基于时空特征表示差异的时序数据中的异常检测装置在异常检测时，应以上述各功能模块的划分进行举例说明，可以根据需要将上述功能分配由不同的功能模块完成，即在终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的基于时空特征表示差异的时序数据中的异常检测装置与基于时空特征表示差异的时序数据中的异常检测构建方法实施例属于同一构思，其具体实现过程详见基于时空特征表示差异的时序数据的异常检测方法实施例，这里不再赘述。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时空特征表示差异的时序数据的异常检测方法，其特征在于，通过时空特征表示差异来实现对医疗领域的时序数据的异常检测，包括以下步骤：

获取医疗领域的时序数据并进行预处理来构建样本数据，其中，医疗领域的时序数据包括ECG时序数据或EEG时序数据；

利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型，包括：样本数据以等长时间窗口的形式组织，并按照时间顺序将每个时间窗口内样本数据切分为等长的块patch，得到形状为的输入数据，其中，numPatchs表示单个时间窗口内样本数据被切分成patch之后的patch数量，patchSize表示每个patch的长度，C表示多维时序数据中维度数目；

将每个时间窗口内的输入数据分别按照时间角度和空间角度输入至各角度对应的特征表示模块中进行特征表示得到时间特征表示和空间特征表示，并在异常检测模块中根据时间特征表示和空间特征表示计算两者之间的第一相似度，并以第一相似度构建损失函数来优化特征表示模块，优化后特征表示模块和异常检测模块构成异常检测模型；

其中，时间角度和空间角度各自对应的特征表示模块结构相同，均包括线性表示层和注意力层和尺寸映射层；输入数据在线性表示层中经过线性映射提取嵌入表示，该嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示，基于重要表示计算每行之间的第二相似度来重构相似度表示，该相似度表示在尺寸映射层经过上采样后得到与输入数据相同维度的时序关联表示，该时序关联表示中每一行数据视为时间窗口内某时间点数据与窗口内所有时间点数据之间的关联模式；时间角度对应的特征表示模块输出的时序关联表示作为时间特征表示，空间角度对应的特征表示模块输出的时序关联表示作为空间特征表示；

筛选异常得分高于异常阈值的时间点数据被判定为异常。

2.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法，其特征在于，对时序数据进行的预处理包括：去除时序数据中异常点、回填插补缺失值、以及数据归一化。

3.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法，其特征在于，第二相似度采用余弦相似度。

4.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法，其特征在于，嵌入表示在注意力层中通过注意力机制关注重要特征得到重要表示，包括：

5.根据权利要求4所述的基于时空特征表示差异的时序数据的异常检测方法，其特征在于，通过MLP构建Patch内逐时间点数据的表示作为查询向量Q。

6.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法，其特征在于，第一相似度采用KL散度，训练时，基于KL散度构建损失函数，以最小化损失为目标来优化特征表示模块；

7.根据权利要求1所述的基于时空特征表示差异的时序数据的异常检测方法，其特征在于，所述异常阈值通过以下方式构建：

8.一种基于时空特征表示差异的时序数据的异常检测装置，其特征在于，通过时空特征表示差异来实现对医疗领域的时序数据的异常检测，包括：

数据预处理模块，其用于获取时序数据并进行预处理来构建样本数据，其中，医疗领域的时序数据包括ECG时序数据或EEG时序数据；

模型训练模块，其用于利用样本数据对基于时空特征表示差异的深度学习模型进行训练得到异常检测模型，包括：样本数据以等长时间窗口的形式组织，并按照时间顺序将每个时间窗口内样本数据切分为等长的块patch，得到形状为的输入数据，其中，numPatchs表示单个时间窗口内样本数据被切分成patch之后的patch数量，patchSize表示每个patch的长度，C表示多维时序数据中维度数目；