[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114580580A - 一种智能运维异常检测方法及装置 - Google Patents

一种智能运维异常检测方法及装置 Download PDF

Info

Publication number
CN114580580A
CN114580580A CN202210492320.8A CN202210492320A CN114580580A CN 114580580 A CN114580580 A CN 114580580A CN 202210492320 A CN202210492320 A CN 202210492320A CN 114580580 A CN114580580 A CN 114580580A
Authority
CN
China
Prior art keywords
independent
sample
tree
preliminary
forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210492320.8A
Other languages
English (en)
Other versions
CN114580580B (zh
Inventor
朱松涛
邵俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Suoxinda Data Technology Co ltd
Original Assignee
Shenzhen Suoxinda Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Suoxinda Data Technology Co ltd filed Critical Shenzhen Suoxinda Data Technology Co ltd
Priority to CN202210492320.8A priority Critical patent/CN114580580B/zh
Publication of CN114580580A publication Critical patent/CN114580580A/zh
Application granted granted Critical
Publication of CN114580580B publication Critical patent/CN114580580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种智能运维异常检测方法及装置,方法包括:采集运维数据并进行降维处理,获得运维数据的样本;根据所述样本建立独立树并组成独立森林;根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;对部分正样本进行标记;根据标记的初步异常点识别有效树;对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出异常点的独立树的数量和标记的正样本的数量计算总分值;根据所述总分值计算特征选取概率并重构独立树和独立森林;根据重构的独立树和独立森林进行异常检测;该方法根据初步识别出的异常点对独立树和独立森林进行重构,异常检测效率高且精准度高。

Description

一种智能运维异常检测方法及装置
技术领域
本发明涉及异常检测计算领域,尤其涉及一种智能运维异常检测方法及装置。
背景技术
在智能运维的场景中,运维人员常常需要从诸多与系统事务关联的指标中及时捕捉异常信号并进行诊断,从而达到快速排查故障、避免事故产生的目的。与系统事务关联的指标包括页面打开时延、用户点击量、CPU利用率等。在这个场景中常常面临的挑战是,需要进行追踪的指标维度非常多,难以及时捕捉异常点,并且没有标签标记该样本是否为异常样本。现有的异常检测技术中,常规的无监督训练精准度较差,而如果使用人工来对每个样本点打标签,则成本将会非常高昂。
例如,专利文献CN111026925A公开了一种基于Flink的孤立森林算法并行化的异常检测方法及装置,从历史数据中抽取待测试数据集构造二叉树,进而形成独立森林,再根据样本点在每个独立二叉树中的深度进行异常度评分,依据异常度评分判断数据集中的样本是否异常。
该方案采用无监督检测算法对样本进行异常检测,通过独立树对样本点异常度进行评分,能够实现对异常点的及时识别。但是,仅通过独立森林中的异常度评分进行异常点判定,存在效率低下、准确度不高的问题。
发明内容
本发明提供了一种智能运维异常检测方法及装置,根据初步识别出的异常点对独立树和独立森林进行重构,实现无监督的独立森林算法与监督学习的融合,异常检测效率高且精准度高。
一种智能运维异常检测方法,包括:
采集运维数据并进行降维处理,获得运维数据的样本;
根据所述样本建立独立树并组成独立森林;
根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
对部分正样本进行标记;
根据标记的初步异常点识别有效树;
对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
根据所述总分值计算特征选取概率并重构独立树和独立森林;
根据重构的独立树和独立森林进行异常检测。
进一步地,采集运维数据并进行降维处理,包括:
将各条运维数据按列组成矩阵;
将所述矩阵的每一行进行零均值化;
求解零均值化处理后矩阵的协方差矩阵;
求解所述协方差矩阵的特征值以及对应的特征;
将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
进一步地,根据所述样本建立独立树并组成独立森林,包括:
随机选取一个特征作为根节点;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树组成独立森林。
进一步地,每个样本的初步异常评分通过以下公式计算:
Figure 155010DEST_PATH_IMAGE001
其中,
Figure 478675DEST_PATH_IMAGE002
表示初步异常评分,L(p)表示样本p在一棵独立树所处叶子 节点的路径长度,E(L(p))则表示样本p在独立森林中每棵独立树的路径长度的平均值;
Figure 133779DEST_PATH_IMAGE003
Figure 325726DEST_PATH_IMAGE004
表示样本的数量。
进一步地,根据标记的初步异常点识别有效树,包括:
将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
进一步地,所述总分值通过以下公式进行计算:
Figure 687568DEST_PATH_IMAGE005
Figure 916555DEST_PATH_IMAGE006
其中,
Figure 980326DEST_PATH_IMAGE007
表示初步异常点P一个特征赋予的分值,N表示识别出异常点P的独立 树的数量,
Figure 133221DEST_PATH_IMAGE008
表示初步异常点P相关特征的分值之和,
Figure 864417DEST_PATH_IMAGE009
表示总分 值,n表示标记的正样本的数量。
进一步地,所述特征选取概率通过以下公式进行计算:
Figure 139671DEST_PATH_IMAGE010
其中,
Figure 628422DEST_PATH_IMAGE011
表示第m个特征选取概率,
Figure 912904DEST_PATH_IMAGE012
表示总分值,
Figure 233026DEST_PATH_IMAGE013
表示 第m个特征。
进一步地,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:
对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
选取第i个特征
Figure 210341DEST_PATH_IMAGE014
作为根节点,所述特征
Figure 514283DEST_PATH_IMAGE014
满足:
Figure 184213DEST_PATH_IMAGE015
,其中,
Figure 640733DEST_PATH_IMAGE011
表示第m个 特征选取概率;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树重新组成独立森林。
进一步地,根据重构的独立树和独立森林进行异常检测,包括:
根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;
所述最终异常评分通过以下公式计算:
Figure 507058DEST_PATH_IMAGE016
其中,
Figure 721133DEST_PATH_IMAGE017
表示最终异常评分,
Figure 862264DEST_PATH_IMAGE018
表示样本p在一棵重组独立树所 处叶子节点的路径长度,
Figure 970028DEST_PATH_IMAGE019
则表示样本p在重组的独立森林中每棵独立树的路 径长度的平均值;
Figure 289145DEST_PATH_IMAGE020
Figure 380729DEST_PATH_IMAGE004
表示样本的数量。
一种智能运维异常检测装置,包括:
数据处理模块,用于采集运维数据并进行降维处理,获得运维数据的样本;
初步森林建立模块,用于根据所述样本建立独立树并组成独立森林;
初步判断模块,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
标记模块,用于对部分正样本进行标记;
识别模块,用于根据标记的初步异常点识别有效树;
总分计算模块,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
重构模块,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;
异常检测模块,用于根据重构的独立树和独立森林进行异常检测。
本发明提供的智能运维异常检测方法及装置,至少包括如下有益效果:
(1)在进行异常检测前对运维数据降维处理,简化了应用于异常检测的样本数据,节约了运算时间,提升了异常检测算法的工作效率。
(2)采用人工标注的方式标记部分的正样本,将有标注的监督学习的方式加入无监督的独立森林算法中,从而能够结合两种算法的优点,在提升算法精确度的同时保证算法的效率。
(3)通过多个正样本的多个有效树对样本中涉及到的全部特征进行赋分,并计算特征总分值以描述每个特征在异常检测过程中起到的作用大小,作为重构独立树时选取根节点的依据,提升了重构独立森林的识别精准度。
(4)通过对随机变量进行均匀分布采样来进行根节点选取,能够保证每个特征被选中的概率为特征选取概率,从而保证了重构独立森林的准确性。
附图说明
图1为本发明提供的智能运维异常检测方法一种实施例的流程图。
图2为本发明提供的方法中重构独立树和独立森林的方法一种实施例的流程图。
图3为本发明提供的智能运维异常检测装置一种实施例的结构示意图。
图4为本发明提供的电子设备一种实施例的结构示意图。
附图标记:1-处理器,2-存储装置,101-数据处理模块,102-初步森林建立模块,103-初步判断模块,104-标记模块,105-识别模块,106-总分计算模块,107-重构模块,108-异常检测模块。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
参考图1,在一些实施例中,提供一种智能运维异常检测方法,包括:
S1、采集运维数据并进行降维处理,获得运维数据的样本;
S2、根据所述样本建立独立树并组成独立森林;
S3、根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
S4、对部分正样本进行标记;
S5、根据标记的初步异常点识别有效树;
S6、对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
S7、根据所述总分值计算特征选取概率并重构独立树和独立森林;
S8、根据重构的独立树和独立森林进行异常检测。
智能运维数据包含多个与设备、系统、网络环境运行相关的特征,包括但不限于:网络延时、请求并发数、数据库容量。采集得到的运维数据中,一个维度对应一个特征,也即运维数据是多维度数据,因此在对运维数据进行异常检测之前,需要先进行降维处理。
具体地,步骤S1中,采集运维数据并进行降维处理,包括:
S11、将各条运维数据按列组成矩阵;
S12、将所述矩阵的每一行进行零均值化;
S13、求解零均值化处理后矩阵的协方差矩阵;
S14、求解所述协方差矩阵的特征值以及对应的特征;
S15、将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
作为一种较优的实施方式,对运维数据进行PCA(Principal Component Analysis)降维处理。将k个M维数据降至m维,首先将原始运维数据按列组成M行k列的矩阵 X0,然后将矩阵X0中每一行的数据减去这一行的均值,得到经过零均值化处理后的矩阵X,再 对矩阵X求解其协方差矩阵
Figure 404180DEST_PATH_IMAGE021
,求出协方差矩阵的特征值及对应的特征,将特 征按对应特征值大小从上到下按行排列成矩阵,取前m行组成矩阵 P,从而得到降维至m维 后的样本,降维之后的特征为
Figure 100872DEST_PATH_IMAGE022
Figure 840158DEST_PATH_IMAGE023
,...
Figure 232087DEST_PATH_IMAGE024
步骤S2中,根据所述样本建立独立树并组成独立森林,包括:
S21、随机选取一个特征作为根节点;
S22、选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
S23、将样本分为两组分别进入两个子节点中;
S24、重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
S25、不同特征作为根节点生成的独立树组成独立森林。
本实施例提供的异常检测方法采用独立森林算法,独立森林算法是一种适用于连续数据的无监督异常检测方法,通过对样本点孤立来检测异常值。独立森林算法中每个独立树的本质是一个决策树,每个样本会从根节点开始依据节点的划分方式流向其子节点,最后落到一个叶子节点上。生成独立树的数目没有统一的规则,独立树的数目与样本的数量没有直接关联。每棵独立树之间互相独立,采用独立森林算法进行异常评分需要综合考虑每棵独立树对于样本的判断。
在步骤S21-S25中,由于异常数据样本与其他数据样本较为疏离,相较于其他样本而言,异常样本被单独划分出来需要的划分次数较少,即异常样本在独立树中的路径长度较短。因此,可以根据每个样本被单独划分出来所经过的路径长度来判断样本是异常样本的可能性,并用初步异常评分来表示,初步异常评分大于预设值的样本标记为初步异常点。
具体地,步骤S3中每个样本的初步异常评分通过以下公式计算:
Figure 793649DEST_PATH_IMAGE025
其中,
Figure 62957DEST_PATH_IMAGE002
表示初步异常评分,L(p)表示样本p在一棵独立树所处叶子 节点的路径长度,E(L(p))则表示样本p在独立森林中每棵独立树的路径长度的平均值;
Figure 723876DEST_PATH_IMAGE003
Figure 321211DEST_PATH_IMAGE004
表示样本的数量。
作为一种较优的实施方式,将根据上述公式得出的初步异常评分大于0.9的样本标记为初步异常点。
步骤S4中,采用人工标注的方式对部分少量正样本进行标记,人工标记的正样本 记为:{
Figure 342257DEST_PATH_IMAGE026
}。通过对部分正样本进行标注,为实现无监督的独立森林算 法与监督学习的融合提供基础,从而能够结合两种算法的优点,在提升算法精确度的同时 保证算法的效率,此外,相较于全部样本的打标,还可以节省人工标记的成本。
初步识别出的初步异常点识别精度不高,因此,还需进一步进行独立树和独立森林的重构。
步骤S5中,根据标记的初步异常点识别有效树,包括:
将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
步骤S6中,对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出异常点的独立树的数量和标记的正样本的数量计算总分值,包括:
S61、为每个特征赋予零值作为初始分值;
S62、对初步异常点执行如下步骤,直至遍历全部有效树和全部初步异常点,得到 某一特征的总分值:为某一有效树中识别出某一初步异常点的特征赋予分值
Figure 951224DEST_PATH_IMAGE027
,其中,
Figure 907678DEST_PATH_IMAGE028
为初步异常点在有效树i的路径长度;
S63、对全部特征执行步骤S62,得到全部特征的总分值。
步骤S62中,所述总分值通过以下公式进行计算:
Figure 738448DEST_PATH_IMAGE005
Figure 313917DEST_PATH_IMAGE029
其中,
Figure 636445DEST_PATH_IMAGE030
表示初步异常点P一个特征赋予的分值,N表示识别出初步异常点P的独 立树的数量,
Figure 701485DEST_PATH_IMAGE031
表示初步异常点P相关特征的分值之和,
Figure 398045DEST_PATH_IMAGE032
表示 总分值,n表示标记的正样本的数量;
在某些实施例中,每棵独立树的最大路径不超过D,在路径长度不超过D-1时识别 出初步异常点P的独立树确定为有效树,初步异常点P的有效树共有N棵。每个特征的初始分 值为0,对于有效识别出初步异常点P的第i棵独立树,为用于检测该初步异常点的路径涉及 到的特征被赋予分值
Figure 511626DEST_PATH_IMAGE027
,其中
Figure 485398DEST_PATH_IMAGE028
为点P在第i棵独立树的路径长度
Figure 455759DEST_PATH_IMAGE033
。 假设用于检测初步异常点P涉及到的特征为
Figure 718244DEST_PATH_IMAGE022
Figure 884784DEST_PATH_IMAGE023
Figure 916325DEST_PATH_IMAGE034
,则对于检测初步异常点P的第i 棵独立树,这三个特征均可得到分值
Figure 260849DEST_PATH_IMAGE027
,由此,基于N棵有效树,特征
Figure 666423DEST_PATH_IMAGE024
通过初步异常 点P能够被赋予的总分值为
Figure 652965DEST_PATH_IMAGE035
。对识别出所有正样本的特 征按照上述方式赋予分值,最终得到特征
Figure 398067DEST_PATH_IMAGE024
的总分值为
Figure 913493DEST_PATH_IMAGE036
。需要说明的是,如果某个特征从未被用 于任何初步异常点的检测,则该特征的分值始终为零值。
参考图2,步骤S7中,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:
S71、对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
S72、选取第i个特征
Figure 806362DEST_PATH_IMAGE037
作为根节点,所述特征
Figure 65437DEST_PATH_IMAGE037
满足:
Figure 602728DEST_PATH_IMAGE038
,其中,
Figure 538323DEST_PATH_IMAGE039
表示第m个特征 选取概率;
S73、选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
S74、将样本分为两组分别进入两个子节点中;
S75、重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
S76、不同特征作为根节点生成的独立树重新组成独立森林。
步骤S72中,特征选取概率通过以下公式进行计算:
Figure 532869DEST_PATH_IMAGE040
Figure 579322DEST_PATH_IMAGE041
其中,
Figure 705541DEST_PATH_IMAGE042
表示第m个特征选取概率,
Figure 890666DEST_PATH_IMAGE043
表示总分值,
Figure 774440DEST_PATH_IMAGE024
表示 第m个特征。
步骤S7中重构独立树的流程与步骤S2中初步构建独立树的流程大体相同,不同之 处在于初步构建独立树时根节点的特征选取是随机等概率的,而重构独立树时的特征选取 概率由特征总分值决定,总分值越高的特征被选作重构独立树根节点的概率越大。通过对 随机变量U进行均匀分布采样,再进行根节点选取,能够保证每个特征被选中的概率为
Figure 296688DEST_PATH_IMAGE044
。特别的,从未被用于任何初步异常点检测的特征总分值为零值,则其特征选取概 率为零。
步骤S8中,根据重构的独立树和独立森林进行异常检测,包括:
根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;
所述最终异常评分通过以下公式计算:
Figure 152780DEST_PATH_IMAGE016
其中,
Figure 305543DEST_PATH_IMAGE017
表示最终异常评分,
Figure 394722DEST_PATH_IMAGE018
表示样本p在一棵重组独立树所 处叶子节点的路径长度,
Figure 143497DEST_PATH_IMAGE019
则表示样本p在重组的独立森林中每棵独立树的路 径长度的平均值;
Figure 119675DEST_PATH_IMAGE045
Figure 833553DEST_PATH_IMAGE046
表示样本的数量。
作为一种较优的实施方式,将根据上述公式得出的最终异常评分大于0.9的样本标记为最终异常点。在根据特征选取概率重构得到的独立树及独立森林中,对初步异常点检测起到更多作用的特征在根节点中的占比提升,因此采用重构的独立树和独立森林进行异常检测的准确率更高。
参考图3,在一些实施例中,提供一种智能运维异常检测装置,包括:
数据处理模块101,用于采集运维数据并进行降维处理,获得运维数据的样本;
初步森林建立模块102,用于根据所述样本建立独立树并组成独立森林;
初步判断模块103,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
标记模块104,用于对部分正样本进行标记;
识别模块105,用于根据标记的初步异常点识别有效树;
总分计算模块106,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
重构模块107,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;
异常检测模块108,用于根据重构的独立树和独立森林进行异常检测。
其中,所述数据处理模块101还用于:
将各条运维数据按列组成矩阵;
将所述矩阵的每一行进行零均值化;
求解零均值化处理后矩阵的协方差矩阵;
求解所述协方差矩阵的特征值以及对应的特征;
将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
所述初步森林建立模块102还用于根据所述样本建立独立树并组成独立森林,包括:
随机选取一个特征作为根节点;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树组成独立森林。
所述初步判断模块103中,每个样本的初步异常评分通过以下公式计算:
Figure 285394DEST_PATH_IMAGE047
其中,
Figure 962494DEST_PATH_IMAGE048
表示初步异常评分,L(p)表示样本p在一棵独立树所处叶子节 点的路径长度,E(L(p))则表示样本p在独立森林中每棵独立树的路径长度的平均值;
Figure 573604DEST_PATH_IMAGE049
Figure 474695DEST_PATH_IMAGE050
表示样本的数量。
所述识别模块105还用于:
将在路径不超过预设值时识别出初步异常点的独立树确定为有效树。
所述总分计算模块106中,总分值通过以下公式进行计算:
Figure 148253DEST_PATH_IMAGE005
Figure 409470DEST_PATH_IMAGE051
其中,
Figure 794245DEST_PATH_IMAGE027
表示初步异常点P一个特征赋予的分值,N表示识别出初步异常点P的 独立树的数量,
Figure 849926DEST_PATH_IMAGE031
表示异常点P相关特征的分值之和,
Figure 276359DEST_PATH_IMAGE052
表示总 分值,n表示标记的正样本的数量。
所述重构模块107中,特征选取概率通过以下公式进行计算:
Figure 888737DEST_PATH_IMAGE053
其中,
Figure 694014DEST_PATH_IMAGE054
表示第m个特征选取概率,
Figure 186175DEST_PATH_IMAGE055
表示总分值,
Figure 709691DEST_PATH_IMAGE024
表示第m 个特征。
所述重构模块107还用于:
对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
选取第i个特征
Figure 922498DEST_PATH_IMAGE037
作为根节点,所述特征
Figure 362706DEST_PATH_IMAGE037
满足:
Figure 510922DEST_PATH_IMAGE038
,其中,
Figure 771002DEST_PATH_IMAGE039
表示第m个特征 选取概率;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树重新组成独立森林。
所述异常检测模块108还用于:
根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;
所述最终异常评分通过以下公式计算:
Figure 521920DEST_PATH_IMAGE016
其中,
Figure 567368DEST_PATH_IMAGE017
表示最终异常评分,
Figure 683223DEST_PATH_IMAGE018
表示样本p在一棵重组独立树所 处叶子节点的路径长度,
Figure 696178DEST_PATH_IMAGE019
则表示样本p在重组的独立森林中每棵独立树的路 径长度的平均值;
Figure 250787DEST_PATH_IMAGE056
Figure 150741DEST_PATH_IMAGE057
表示样本的数量。
参考图4,在一些实施例中,提供一种电子设备,包括处理器1和存储装置2,所述存储装置2存储有多条指令,所述处理器1用于读取所述多条指令并执行上述方法。
本实施例提供的智能运维异常检测方法及装置,在进行异常检测前对运维数据降维处理,简化了应用于异常检测的样本数据,节约了运算时间,提升了异常检测算法的工作效率;采用人工标注的方式将标记正样本,将有标注的监督学习的方式加入无监督的独立森林算法中,从而能够结合两种算法的优点,在提升算法精确度的同时保证算法的效率;通过多个正样本的多个有效树对样本中涉及到的全部特征进行赋分,并计算特征总分值以描述每个特征在异常检测过程中起到的作用大小,作为重构独立树时选取根节点的依据,提升了重构独立森林的识别精准度;通过对随机变量进行均匀分布采样来进行根节点选取,能够保证每个特征被选中的概率为特征选取概率,从而保证了重构独立森林的准确性。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种智能运维异常检测方法,其特征在于,包括:
采集运维数据并进行降维处理,获得运维数据的样本;
根据所述样本建立独立树并组成独立森林;
根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
对部分正样本进行标记;
根据标记的初步异常点识别有效树;
对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
根据所述总分值计算特征选取概率并重构独立树和独立森林;
根据重构的独立树和独立森林进行异常检测。
2.根据权利要求1所述的方法,其特征在于,采集运维数据并进行降维处理,包括:
将各条运维数据按列组成矩阵;
将所述矩阵的每一行进行零均值化;
求解零均值化处理后矩阵的协方差矩阵;
求解所述协方差矩阵的特征值以及对应的特征;
将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
3.根据权利要求2所述的方法,其特征在于,根据所述样本建立独立树并组成独立森林,包括:
随机选取一个特征作为根节点;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树组成独立森林。
4.根据权利要求1所述的方法,其特征在于,每个样本的初步异常评分通过以下公式计算:
Figure 339078DEST_PATH_IMAGE001
其中,
Figure 386800DEST_PATH_IMAGE002
表示初步异常评分,L(p)表示样本p在一棵独立树所处叶子节点的路 径长度,E(L(p))则表示样本p在独立森林中每棵独立树的路径长度的平均值;
Figure 682783DEST_PATH_IMAGE003
Figure 296298DEST_PATH_IMAGE004
表示样本的数量。
5.根据权利要求4所述的方法,其特征在于,根据标记的初步异常点识别有效树,包括:
将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
6.根据权利要求4所述的方法,其特征在于,所述总分值通过以下公式进行计算:
Figure 285114DEST_PATH_IMAGE005
Figure 226656DEST_PATH_IMAGE006
其中,
Figure 591909DEST_PATH_IMAGE007
表示初步异常点P一个特征赋予的分值,N表示识别出初步异常点P的独立 树的数量,
Figure 59931DEST_PATH_IMAGE008
表示初步异常点P相关特征的分值之和,
Figure 485227DEST_PATH_IMAGE009
表示总分值,n表示标记的正样本的数量。
7.根据权利要求6所述的方法,其特征在于,所述特征选取概率通过以下公式进行计算:
Figure 428912DEST_PATH_IMAGE010
其中,
Figure 145327DEST_PATH_IMAGE011
表示第m个特征选取概率,
Figure 467855DEST_PATH_IMAGE012
表示总分值,
Figure 188686DEST_PATH_IMAGE013
表示第m个 特征。
8.根据权利要求7所述的方法,其特征在于,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:
对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
选取第i个特征
Figure 229455DEST_PATH_IMAGE014
作为根节点,所述特征
Figure 936511DEST_PATH_IMAGE014
满足:
Figure 113545DEST_PATH_IMAGE015
, 其中,
Figure 756010DEST_PATH_IMAGE016
表示第m个特征选取概率;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树重新组成独立森林。
9.根据权利要求1所述的方法,其特征在于,根据重构的独立树和独立森林进行异常检测,包括:
根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;
所述最终异常评分通过以下公式计算:
Figure 272356DEST_PATH_IMAGE017
其中,
Figure 517524DEST_PATH_IMAGE018
表示最终异常评分,
Figure 814644DEST_PATH_IMAGE019
表示样本p在一棵重组独立树所处叶子 节点的路径长度,
Figure 955906DEST_PATH_IMAGE020
则表示样本p在重组的独立森林中每棵独立树的路径长度 的平均值;
Figure 502425DEST_PATH_IMAGE021
Figure 816863DEST_PATH_IMAGE022
表示样本的数量。
10.一种应用于权利要求1-9任一所述方法的智能运维异常检测装置,其特征在于,包括:
数据处理模块,用于采集运维数据并进行降维处理,获得运维数据的样本;
初步森林建立模块,用于根据所述样本建立独立树并组成独立森林;
初步判断模块,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
标记模块,用于对部分正样本进行标记;
识别模块,用于根据标记的初步异常点识别有效树;
总分计算模块,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
重构模块,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;
异常检测模块,用于根据重构的独立树和独立森林进行异常检测。
CN202210492320.8A 2022-05-07 2022-05-07 一种智能运维异常检测方法及装置 Active CN114580580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210492320.8A CN114580580B (zh) 2022-05-07 2022-05-07 一种智能运维异常检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210492320.8A CN114580580B (zh) 2022-05-07 2022-05-07 一种智能运维异常检测方法及装置

Publications (2)

Publication Number Publication Date
CN114580580A true CN114580580A (zh) 2022-06-03
CN114580580B CN114580580B (zh) 2022-08-16

Family

ID=81769157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210492320.8A Active CN114580580B (zh) 2022-05-07 2022-05-07 一种智能运维异常检测方法及装置

Country Status (1)

Country Link
CN (1) CN114580580B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345137A (zh) * 2018-10-22 2019-02-15 广东精点数据科技股份有限公司 一种基于农业大数据的异常值检测方法
CN109859029A (zh) * 2019-01-04 2019-06-07 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备以及存储介质
CN109886724A (zh) * 2018-12-29 2019-06-14 中南大学 一种鲁棒性的居民出行轨迹识别方法
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
US20190286096A1 (en) * 2018-03-14 2019-09-19 Omron Corporation Abnormality detection system, support device, and model generation method
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN112199670A (zh) * 2020-09-30 2021-01-08 西安理工大学 一种基于深度学习改进iforest对行为异常检测的日志监控方法
CN112505549A (zh) * 2020-11-26 2021-03-16 西安电子科技大学 基于孤立森林算法的新能源汽车电池异常检测方法
CN112990330A (zh) * 2021-03-26 2021-06-18 国网河北省电力有限公司营销服务中心 用户用能异常数据检测方法及设备
CN113392914A (zh) * 2021-06-22 2021-09-14 北京邮电大学 一种基于数据特征的权重来构建孤立森林的异常检测算法
WO2021218314A1 (zh) * 2020-04-27 2021-11-04 深圳壹账通智能科技有限公司 基于位置定位的事件识别方法、装置、设备及存储介质
CN113627521A (zh) * 2021-08-09 2021-11-09 西华大学 基于孤立森林法的物流无人机异常行为智能识别方法
CN113886375A (zh) * 2021-09-29 2022-01-04 东北电力大学 一种基于孤立森林及局部离群因子的风功率数据清洗方法
CN113887674A (zh) * 2021-12-06 2022-01-04 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统
CN114386483A (zh) * 2021-12-17 2022-04-22 深圳索信达数据技术有限公司 特征区分能力的量化方法、装置、设备和介质

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190286096A1 (en) * 2018-03-14 2019-09-19 Omron Corporation Abnormality detection system, support device, and model generation method
CN109345137A (zh) * 2018-10-22 2019-02-15 广东精点数据科技股份有限公司 一种基于农业大数据的异常值检测方法
CN109886724A (zh) * 2018-12-29 2019-06-14 中南大学 一种鲁棒性的居民出行轨迹识别方法
CN109859029A (zh) * 2019-01-04 2019-06-07 深圳壹账通智能科技有限公司 异常申请检测方法、装置、计算机设备以及存储介质
CN110149258A (zh) * 2019-04-12 2019-08-20 北京航空航天大学 一种基于孤立森林的汽车can总线网络数据异常检测方法
WO2021218314A1 (zh) * 2020-04-27 2021-11-04 深圳壹账通智能科技有限公司 基于位置定位的事件识别方法、装置、设备及存储介质
CN111833172A (zh) * 2020-05-25 2020-10-27 百维金科(上海)信息科技有限公司 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统
CN111784392A (zh) * 2020-06-29 2020-10-16 中国平安财产保险股份有限公司 基于孤立森林的异常用户群组检测方法、装置、设备
CN112199670A (zh) * 2020-09-30 2021-01-08 西安理工大学 一种基于深度学习改进iforest对行为异常检测的日志监控方法
CN112505549A (zh) * 2020-11-26 2021-03-16 西安电子科技大学 基于孤立森林算法的新能源汽车电池异常检测方法
CN112990330A (zh) * 2021-03-26 2021-06-18 国网河北省电力有限公司营销服务中心 用户用能异常数据检测方法及设备
CN113392914A (zh) * 2021-06-22 2021-09-14 北京邮电大学 一种基于数据特征的权重来构建孤立森林的异常检测算法
CN113627521A (zh) * 2021-08-09 2021-11-09 西华大学 基于孤立森林法的物流无人机异常行为智能识别方法
CN113886375A (zh) * 2021-09-29 2022-01-04 东北电力大学 一种基于孤立森林及局部离群因子的风功率数据清洗方法
CN113887674A (zh) * 2021-12-06 2022-01-04 深圳索信达数据技术有限公司 一种基于大数据的异常行为检测的方法与系统
CN114386483A (zh) * 2021-12-17 2022-04-22 深圳索信达数据技术有限公司 特征区分能力的量化方法、装置、设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张海龙等: "孤立森林算法在大坝监测数据异常识别中的应用", 《人民黄河》 *
赵臣啸等: "基于孤立森林算法的取用水量异常数据检测方法", 《中国水利水电科学研究院学报》 *

Also Published As

Publication number Publication date
CN114580580B (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN106570513B (zh) 大数据网络系统的故障诊断方法和装置
US8140301B2 (en) Method and system for causal modeling and outlier detection
CN112420187B (zh) 一种基于迁移联邦学习的医疗疾病分析方法
CN114332984B (zh) 训练数据处理方法、装置和存储介质
CN111612041A (zh) 异常用户识别方法及装置、存储介质、电子设备
CN113705092B (zh) 基于机器学习的疾病预测方法及装置
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
US11562133B2 (en) System and method for detecting incorrect triple
Chandralekha et al. Performance analysis of various machine learning techniques to predict cardiovascular disease: An emprical study
CN109034238A (zh) 一种基于信息熵的聚类划分方法
CN110097120B (zh) 网络流量数据分类方法、设备及计算机存储介质
CN104537383A (zh) 一种基于粒子群的海量组织机构数据分类方法及系统
CN114580580B (zh) 一种智能运维异常检测方法及装置
Izsák Some practical aspects of fitting and testing the Zipf-Mandelbrot model: A short essay
CN111654853B (zh) 一种基于用户信息的数据分析方法
US20200279148A1 (en) Material structure analysis method and material structure analyzer
CN111091194B (zh) 一种基于cavwnb_kl算法的操作系统识别方法
Pereira et al. Assessing active learning strategies to improve the quality control of the soybean seed vigor
WO2022188080A1 (zh) 图像分类网络模型训练方法、图像分类方法及相关设备
CN113392086B (zh) 基于物联网的医疗数据库构建方法、装置及设备
CN113420733B (zh) 一种高效分布式大数据数据采集实现方法及系统
Zha et al. Recognizing plans by learning embeddings from observed action distributions
CN110459266B (zh) Snp致病因素与疾病关联关系模型建立方法
Sánchez et al. Applicability of cluster validation indexes for large data sets
CN116028858A (zh) 基于预标签的自监督神经网络学习心拍分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant