CN114580580A - 一种智能运维异常检测方法及装置 - Google Patents
一种智能运维异常检测方法及装置 Download PDFInfo
- Publication number
- CN114580580A CN114580580A CN202210492320.8A CN202210492320A CN114580580A CN 114580580 A CN114580580 A CN 114580580A CN 202210492320 A CN202210492320 A CN 202210492320A CN 114580580 A CN114580580 A CN 114580580A
- Authority
- CN
- China
- Prior art keywords
- independent
- sample
- tree
- preliminary
- forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 52
- 238000012423 maintenance Methods 0.000 title claims abstract description 46
- 230000002159 abnormal effect Effects 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 239000011159 matrix material Substances 0.000 claims description 32
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000009827 uniform distribution Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims 1
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000005856 abnormality Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013024 troubleshooting Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种智能运维异常检测方法及装置,方法包括:采集运维数据并进行降维处理,获得运维数据的样本;根据所述样本建立独立树并组成独立森林;根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;对部分正样本进行标记;根据标记的初步异常点识别有效树;对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出异常点的独立树的数量和标记的正样本的数量计算总分值;根据所述总分值计算特征选取概率并重构独立树和独立森林;根据重构的独立树和独立森林进行异常检测;该方法根据初步识别出的异常点对独立树和独立森林进行重构,异常检测效率高且精准度高。
Description
技术领域
本发明涉及异常检测计算领域,尤其涉及一种智能运维异常检测方法及装置。
背景技术
在智能运维的场景中,运维人员常常需要从诸多与系统事务关联的指标中及时捕捉异常信号并进行诊断,从而达到快速排查故障、避免事故产生的目的。与系统事务关联的指标包括页面打开时延、用户点击量、CPU利用率等。在这个场景中常常面临的挑战是,需要进行追踪的指标维度非常多,难以及时捕捉异常点,并且没有标签标记该样本是否为异常样本。现有的异常检测技术中,常规的无监督训练精准度较差,而如果使用人工来对每个样本点打标签,则成本将会非常高昂。
例如,专利文献CN111026925A公开了一种基于Flink的孤立森林算法并行化的异常检测方法及装置,从历史数据中抽取待测试数据集构造二叉树,进而形成独立森林,再根据样本点在每个独立二叉树中的深度进行异常度评分,依据异常度评分判断数据集中的样本是否异常。
该方案采用无监督检测算法对样本进行异常检测,通过独立树对样本点异常度进行评分,能够实现对异常点的及时识别。但是,仅通过独立森林中的异常度评分进行异常点判定,存在效率低下、准确度不高的问题。
发明内容
本发明提供了一种智能运维异常检测方法及装置,根据初步识别出的异常点对独立树和独立森林进行重构,实现无监督的独立森林算法与监督学习的融合,异常检测效率高且精准度高。
一种智能运维异常检测方法,包括:
采集运维数据并进行降维处理,获得运维数据的样本;
根据所述样本建立独立树并组成独立森林;
根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
对部分正样本进行标记;
根据标记的初步异常点识别有效树;
对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
根据所述总分值计算特征选取概率并重构独立树和独立森林;
根据重构的独立树和独立森林进行异常检测。
进一步地,采集运维数据并进行降维处理,包括:
将各条运维数据按列组成矩阵;
将所述矩阵的每一行进行零均值化;
求解零均值化处理后矩阵的协方差矩阵;
求解所述协方差矩阵的特征值以及对应的特征;
将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
进一步地,根据所述样本建立独立树并组成独立森林,包括:
随机选取一个特征作为根节点;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树组成独立森林。
进一步地,每个样本的初步异常评分通过以下公式计算:
进一步地,根据标记的初步异常点识别有效树,包括:
将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
进一步地,所述总分值通过以下公式进行计算:
进一步地,所述特征选取概率通过以下公式进行计算:
进一步地,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:
对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树重新组成独立森林。
进一步地,根据重构的独立树和独立森林进行异常检测,包括:
根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;
所述最终异常评分通过以下公式计算:
一种智能运维异常检测装置,包括:
数据处理模块,用于采集运维数据并进行降维处理,获得运维数据的样本;
初步森林建立模块,用于根据所述样本建立独立树并组成独立森林;
初步判断模块,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
标记模块,用于对部分正样本进行标记;
识别模块,用于根据标记的初步异常点识别有效树;
总分计算模块,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
重构模块,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;
异常检测模块,用于根据重构的独立树和独立森林进行异常检测。
本发明提供的智能运维异常检测方法及装置,至少包括如下有益效果:
(1)在进行异常检测前对运维数据降维处理,简化了应用于异常检测的样本数据,节约了运算时间,提升了异常检测算法的工作效率。
(2)采用人工标注的方式标记部分的正样本,将有标注的监督学习的方式加入无监督的独立森林算法中,从而能够结合两种算法的优点,在提升算法精确度的同时保证算法的效率。
(3)通过多个正样本的多个有效树对样本中涉及到的全部特征进行赋分,并计算特征总分值以描述每个特征在异常检测过程中起到的作用大小,作为重构独立树时选取根节点的依据,提升了重构独立森林的识别精准度。
(4)通过对随机变量进行均匀分布采样来进行根节点选取,能够保证每个特征被选中的概率为特征选取概率,从而保证了重构独立森林的准确性。
附图说明
图1为本发明提供的智能运维异常检测方法一种实施例的流程图。
图2为本发明提供的方法中重构独立树和独立森林的方法一种实施例的流程图。
图3为本发明提供的智能运维异常检测装置一种实施例的结构示意图。
图4为本发明提供的电子设备一种实施例的结构示意图。
附图标记:1-处理器,2-存储装置,101-数据处理模块,102-初步森林建立模块,103-初步判断模块,104-标记模块,105-识别模块,106-总分计算模块,107-重构模块,108-异常检测模块。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案做详细的说明。
参考图1,在一些实施例中,提供一种智能运维异常检测方法,包括:
S1、采集运维数据并进行降维处理,获得运维数据的样本;
S2、根据所述样本建立独立树并组成独立森林;
S3、根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
S4、对部分正样本进行标记;
S5、根据标记的初步异常点识别有效树;
S6、对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
S7、根据所述总分值计算特征选取概率并重构独立树和独立森林;
S8、根据重构的独立树和独立森林进行异常检测。
智能运维数据包含多个与设备、系统、网络环境运行相关的特征,包括但不限于:网络延时、请求并发数、数据库容量。采集得到的运维数据中,一个维度对应一个特征,也即运维数据是多维度数据,因此在对运维数据进行异常检测之前,需要先进行降维处理。
具体地,步骤S1中,采集运维数据并进行降维处理,包括:
S11、将各条运维数据按列组成矩阵;
S12、将所述矩阵的每一行进行零均值化;
S13、求解零均值化处理后矩阵的协方差矩阵;
S14、求解所述协方差矩阵的特征值以及对应的特征;
S15、将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
作为一种较优的实施方式,对运维数据进行PCA(Principal Component
Analysis)降维处理。将k个M维数据降至m维,首先将原始运维数据按列组成M行k列的矩阵
X0,然后将矩阵X0中每一行的数据减去这一行的均值,得到经过零均值化处理后的矩阵X,再
对矩阵X求解其协方差矩阵,求出协方差矩阵的特征值及对应的特征,将特
征按对应特征值大小从上到下按行排列成矩阵,取前m行组成矩阵 P,从而得到降维至m维
后的样本,降维之后的特征为 ,... 。
步骤S2中,根据所述样本建立独立树并组成独立森林,包括:
S21、随机选取一个特征作为根节点;
S22、选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
S23、将样本分为两组分别进入两个子节点中;
S24、重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
S25、不同特征作为根节点生成的独立树组成独立森林。
本实施例提供的异常检测方法采用独立森林算法,独立森林算法是一种适用于连续数据的无监督异常检测方法,通过对样本点孤立来检测异常值。独立森林算法中每个独立树的本质是一个决策树,每个样本会从根节点开始依据节点的划分方式流向其子节点,最后落到一个叶子节点上。生成独立树的数目没有统一的规则,独立树的数目与样本的数量没有直接关联。每棵独立树之间互相独立,采用独立森林算法进行异常评分需要综合考虑每棵独立树对于样本的判断。
在步骤S21-S25中,由于异常数据样本与其他数据样本较为疏离,相较于其他样本而言,异常样本被单独划分出来需要的划分次数较少,即异常样本在独立树中的路径长度较短。因此,可以根据每个样本被单独划分出来所经过的路径长度来判断样本是异常样本的可能性,并用初步异常评分来表示,初步异常评分大于预设值的样本标记为初步异常点。
具体地,步骤S3中每个样本的初步异常评分通过以下公式计算:
作为一种较优的实施方式,将根据上述公式得出的初步异常评分大于0.9的样本标记为初步异常点。
步骤S4中,采用人工标注的方式对部分少量正样本进行标记,人工标记的正样本
记为:{}。通过对部分正样本进行标注,为实现无监督的独立森林算
法与监督学习的融合提供基础,从而能够结合两种算法的优点,在提升算法精确度的同时
保证算法的效率,此外,相较于全部样本的打标,还可以节省人工标记的成本。
初步识别出的初步异常点识别精度不高,因此,还需进一步进行独立树和独立森林的重构。
步骤S5中,根据标记的初步异常点识别有效树,包括:
将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
步骤S6中,对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出异常点的独立树的数量和标记的正样本的数量计算总分值,包括:
S61、为每个特征赋予零值作为初始分值;
S63、对全部特征执行步骤S62,得到全部特征的总分值。
步骤S62中,所述总分值通过以下公式进行计算:
在某些实施例中,每棵独立树的最大路径不超过D,在路径长度不超过D-1时识别
出初步异常点P的独立树确定为有效树,初步异常点P的有效树共有N棵。每个特征的初始分
值为0,对于有效识别出初步异常点P的第i棵独立树,为用于检测该初步异常点的路径涉及
到的特征被赋予分值,其中为点P在第i棵独立树的路径长度。
假设用于检测初步异常点P涉及到的特征为,,,则对于检测初步异常点P的第i
棵独立树,这三个特征均可得到分值,由此,基于N棵有效树,特征通过初步异常
点P能够被赋予的总分值为。对识别出所有正样本的特
征按照上述方式赋予分值,最终得到特征的总分值为。需要说明的是,如果某个特征从未被用
于任何初步异常点的检测,则该特征的分值始终为零值。
参考图2,步骤S7中,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:
S71、对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
S73、选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
S74、将样本分为两组分别进入两个子节点中;
S75、重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
S76、不同特征作为根节点生成的独立树重新组成独立森林。
步骤S72中,特征选取概率通过以下公式进行计算:
步骤S7中重构独立树的流程与步骤S2中初步构建独立树的流程大体相同,不同之
处在于初步构建独立树时根节点的特征选取是随机等概率的,而重构独立树时的特征选取
概率由特征总分值决定,总分值越高的特征被选作重构独立树根节点的概率越大。通过对
随机变量U进行均匀分布采样,再进行根节点选取,能够保证每个特征被选中的概率为。特别的,从未被用于任何初步异常点检测的特征总分值为零值,则其特征选取概
率为零。
步骤S8中,根据重构的独立树和独立森林进行异常检测,包括:
根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;
所述最终异常评分通过以下公式计算:
作为一种较优的实施方式,将根据上述公式得出的最终异常评分大于0.9的样本标记为最终异常点。在根据特征选取概率重构得到的独立树及独立森林中,对初步异常点检测起到更多作用的特征在根节点中的占比提升,因此采用重构的独立树和独立森林进行异常检测的准确率更高。
参考图3,在一些实施例中,提供一种智能运维异常检测装置,包括:
数据处理模块101,用于采集运维数据并进行降维处理,获得运维数据的样本;
初步森林建立模块102,用于根据所述样本建立独立树并组成独立森林;
初步判断模块103,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
标记模块104,用于对部分正样本进行标记;
识别模块105,用于根据标记的初步异常点识别有效树;
总分计算模块106,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
重构模块107,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;
异常检测模块108,用于根据重构的独立树和独立森林进行异常检测。
其中,所述数据处理模块101还用于:
将各条运维数据按列组成矩阵;
将所述矩阵的每一行进行零均值化;
求解零均值化处理后矩阵的协方差矩阵;
求解所述协方差矩阵的特征值以及对应的特征;
将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
所述初步森林建立模块102还用于根据所述样本建立独立树并组成独立森林,包括:
随机选取一个特征作为根节点;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树组成独立森林。
所述初步判断模块103中,每个样本的初步异常评分通过以下公式计算:
所述识别模块105还用于:
将在路径不超过预设值时识别出初步异常点的独立树确定为有效树。
所述总分计算模块106中,总分值通过以下公式进行计算:
所述重构模块107中,特征选取概率通过以下公式进行计算:
所述重构模块107还用于:
对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树重新组成独立森林。
所述异常检测模块108还用于:
根据重构的独立树和独立森林,计算每个样本的最终异常评分,将最终异常评分大于预设值的样本标记为异常点;
所述最终异常评分通过以下公式计算:
参考图4,在一些实施例中,提供一种电子设备,包括处理器1和存储装置2,所述存储装置2存储有多条指令,所述处理器1用于读取所述多条指令并执行上述方法。
本实施例提供的智能运维异常检测方法及装置,在进行异常检测前对运维数据降维处理,简化了应用于异常检测的样本数据,节约了运算时间,提升了异常检测算法的工作效率;采用人工标注的方式将标记正样本,将有标注的监督学习的方式加入无监督的独立森林算法中,从而能够结合两种算法的优点,在提升算法精确度的同时保证算法的效率;通过多个正样本的多个有效树对样本中涉及到的全部特征进行赋分,并计算特征总分值以描述每个特征在异常检测过程中起到的作用大小,作为重构独立树时选取根节点的依据,提升了重构独立森林的识别精准度;通过对随机变量进行均匀分布采样来进行根节点选取,能够保证每个特征被选中的概率为特征选取概率,从而保证了重构独立森林的准确性。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种智能运维异常检测方法,其特征在于,包括:
采集运维数据并进行降维处理,获得运维数据的样本;
根据所述样本建立独立树并组成独立森林;
根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
对部分正样本进行标记;
根据标记的初步异常点识别有效树;
对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
根据所述总分值计算特征选取概率并重构独立树和独立森林;
根据重构的独立树和独立森林进行异常检测。
2.根据权利要求1所述的方法,其特征在于,采集运维数据并进行降维处理,包括:
将各条运维数据按列组成矩阵;
将所述矩阵的每一行进行零均值化;
求解零均值化处理后矩阵的协方差矩阵;
求解所述协方差矩阵的特征值以及对应的特征;
将所述特征按照所述特征值大小按行排列成特征矩阵作为样本。
3.根据权利要求2所述的方法,其特征在于,根据所述样本建立独立树并组成独立森林,包括:
随机选取一个特征作为根节点;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本,形成独立树:从每个子节点,选取一个特征的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树组成独立森林。
5.根据权利要求4所述的方法,其特征在于,根据标记的初步异常点识别有效树,包括:
将在路径长度不超过预设值时识别出初步异常点的独立树确定为有效树。
8.根据权利要求7所述的方法,其特征在于,根据所述总分值计算特征选取概率并重构独立树和独立森林,包括:
对随机变量U进行采样,所述随机变量U服从0-1之间的均匀分布;
选取作为根节点的特征的最大特征值和最小特征值之间的一个特征值作为划分依据,划分出两个子节点;
将样本分为两组分别进入两个子节点中;
重复执行如下步骤,直到路径达到预设长度或者子节点仅包含一个样本:从每个子节点,随机选取一个特征向量的特征值作为划分依据再次划分出两个子节点,再次将剩余样本分为两组进入两个子节点中;
不同特征作为根节点生成的独立树重新组成独立森林。
10.一种应用于权利要求1-9任一所述方法的智能运维异常检测装置,其特征在于,包括:
数据处理模块,用于采集运维数据并进行降维处理,获得运维数据的样本;
初步森林建立模块,用于根据所述样本建立独立树并组成独立森林;
初步判断模块,用于根据所述独立树和独立森林,计算每个样本的初步异常评分,将初步异常评分大于预设值的样本标记为初步异常点;
标记模块,用于对部分正样本进行标记;
识别模块,用于根据标记的初步异常点识别有效树;
总分计算模块,用于对所述有效树中识别出初步异常点的特征赋予分值,并根据识别出初步异常点的独立树的数量和标记的正样本的数量计算总分值;
重构模块,用于根据所述总分值计算特征选取概率并重构独立树和独立森林;
异常检测模块,用于根据重构的独立树和独立森林进行异常检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210492320.8A CN114580580B (zh) | 2022-05-07 | 2022-05-07 | 一种智能运维异常检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210492320.8A CN114580580B (zh) | 2022-05-07 | 2022-05-07 | 一种智能运维异常检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114580580A true CN114580580A (zh) | 2022-06-03 |
CN114580580B CN114580580B (zh) | 2022-08-16 |
Family
ID=81769157
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210492320.8A Active CN114580580B (zh) | 2022-05-07 | 2022-05-07 | 一种智能运维异常检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114580580B (zh) |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN109859029A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备以及存储介质 |
CN109886724A (zh) * | 2018-12-29 | 2019-06-14 | 中南大学 | 一种鲁棒性的居民出行轨迹识别方法 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
US20190286096A1 (en) * | 2018-03-14 | 2019-09-19 | Omron Corporation | Abnormality detection system, support device, and model generation method |
CN111784392A (zh) * | 2020-06-29 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于孤立森林的异常用户群组检测方法、装置、设备 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
CN112199670A (zh) * | 2020-09-30 | 2021-01-08 | 西安理工大学 | 一种基于深度学习改进iforest对行为异常检测的日志监控方法 |
CN112505549A (zh) * | 2020-11-26 | 2021-03-16 | 西安电子科技大学 | 基于孤立森林算法的新能源汽车电池异常检测方法 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN113392914A (zh) * | 2021-06-22 | 2021-09-14 | 北京邮电大学 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
WO2021218314A1 (zh) * | 2020-04-27 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 基于位置定位的事件识别方法、装置、设备及存储介质 |
CN113627521A (zh) * | 2021-08-09 | 2021-11-09 | 西华大学 | 基于孤立森林法的物流无人机异常行为智能识别方法 |
CN113886375A (zh) * | 2021-09-29 | 2022-01-04 | 东北电力大学 | 一种基于孤立森林及局部离群因子的风功率数据清洗方法 |
CN113887674A (zh) * | 2021-12-06 | 2022-01-04 | 深圳索信达数据技术有限公司 | 一种基于大数据的异常行为检测的方法与系统 |
CN114386483A (zh) * | 2021-12-17 | 2022-04-22 | 深圳索信达数据技术有限公司 | 特征区分能力的量化方法、装置、设备和介质 |
-
2022
- 2022-05-07 CN CN202210492320.8A patent/CN114580580B/zh active Active
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190286096A1 (en) * | 2018-03-14 | 2019-09-19 | Omron Corporation | Abnormality detection system, support device, and model generation method |
CN109345137A (zh) * | 2018-10-22 | 2019-02-15 | 广东精点数据科技股份有限公司 | 一种基于农业大数据的异常值检测方法 |
CN109886724A (zh) * | 2018-12-29 | 2019-06-14 | 中南大学 | 一种鲁棒性的居民出行轨迹识别方法 |
CN109859029A (zh) * | 2019-01-04 | 2019-06-07 | 深圳壹账通智能科技有限公司 | 异常申请检测方法、装置、计算机设备以及存储介质 |
CN110149258A (zh) * | 2019-04-12 | 2019-08-20 | 北京航空航天大学 | 一种基于孤立森林的汽车can总线网络数据异常检测方法 |
WO2021218314A1 (zh) * | 2020-04-27 | 2021-11-04 | 深圳壹账通智能科技有限公司 | 基于位置定位的事件识别方法、装置、设备及存储介质 |
CN111833172A (zh) * | 2020-05-25 | 2020-10-27 | 百维金科(上海)信息科技有限公司 | 一种基于孤立森林的消费信贷欺诈行为检测方法及其系统 |
CN111784392A (zh) * | 2020-06-29 | 2020-10-16 | 中国平安财产保险股份有限公司 | 基于孤立森林的异常用户群组检测方法、装置、设备 |
CN112199670A (zh) * | 2020-09-30 | 2021-01-08 | 西安理工大学 | 一种基于深度学习改进iforest对行为异常检测的日志监控方法 |
CN112505549A (zh) * | 2020-11-26 | 2021-03-16 | 西安电子科技大学 | 基于孤立森林算法的新能源汽车电池异常检测方法 |
CN112990330A (zh) * | 2021-03-26 | 2021-06-18 | 国网河北省电力有限公司营销服务中心 | 用户用能异常数据检测方法及设备 |
CN113392914A (zh) * | 2021-06-22 | 2021-09-14 | 北京邮电大学 | 一种基于数据特征的权重来构建孤立森林的异常检测算法 |
CN113627521A (zh) * | 2021-08-09 | 2021-11-09 | 西华大学 | 基于孤立森林法的物流无人机异常行为智能识别方法 |
CN113886375A (zh) * | 2021-09-29 | 2022-01-04 | 东北电力大学 | 一种基于孤立森林及局部离群因子的风功率数据清洗方法 |
CN113887674A (zh) * | 2021-12-06 | 2022-01-04 | 深圳索信达数据技术有限公司 | 一种基于大数据的异常行为检测的方法与系统 |
CN114386483A (zh) * | 2021-12-17 | 2022-04-22 | 深圳索信达数据技术有限公司 | 特征区分能力的量化方法、装置、设备和介质 |
Non-Patent Citations (2)
Title |
---|
张海龙等: "孤立森林算法在大坝监测数据异常识别中的应用", 《人民黄河》 * |
赵臣啸等: "基于孤立森林算法的取用水量异常数据检测方法", 《中国水利水电科学研究院学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114580580B (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106570513B (zh) | 大数据网络系统的故障诊断方法和装置 | |
US8140301B2 (en) | Method and system for causal modeling and outlier detection | |
CN112420187B (zh) | 一种基于迁移联邦学习的医疗疾病分析方法 | |
CN114332984B (zh) | 训练数据处理方法、装置和存储介质 | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN113705092B (zh) | 基于机器学习的疾病预测方法及装置 | |
CN111210402A (zh) | 人脸图像质量评分方法、装置、计算机设备及存储介质 | |
US11562133B2 (en) | System and method for detecting incorrect triple | |
Chandralekha et al. | Performance analysis of various machine learning techniques to predict cardiovascular disease: An emprical study | |
CN109034238A (zh) | 一种基于信息熵的聚类划分方法 | |
CN110097120B (zh) | 网络流量数据分类方法、设备及计算机存储介质 | |
CN104537383A (zh) | 一种基于粒子群的海量组织机构数据分类方法及系统 | |
CN114580580B (zh) | 一种智能运维异常检测方法及装置 | |
Izsák | Some practical aspects of fitting and testing the Zipf-Mandelbrot model: A short essay | |
CN111654853B (zh) | 一种基于用户信息的数据分析方法 | |
US20200279148A1 (en) | Material structure analysis method and material structure analyzer | |
CN111091194B (zh) | 一种基于cavwnb_kl算法的操作系统识别方法 | |
Pereira et al. | Assessing active learning strategies to improve the quality control of the soybean seed vigor | |
WO2022188080A1 (zh) | 图像分类网络模型训练方法、图像分类方法及相关设备 | |
CN113392086B (zh) | 基于物联网的医疗数据库构建方法、装置及设备 | |
CN113420733B (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
Zha et al. | Recognizing plans by learning embeddings from observed action distributions | |
CN110459266B (zh) | Snp致病因素与疾病关联关系模型建立方法 | |
Sánchez et al. | Applicability of cluster validation indexes for large data sets | |
CN116028858A (zh) | 基于预标签的自监督神经网络学习心拍分类方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |