[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN104137078A - 操作管理设备、操作管理方法和程序 - Google Patents

操作管理设备、操作管理方法和程序 Download PDF

Info

Publication number
CN104137078A
CN104137078A CN201380006393.0A CN201380006393A CN104137078A CN 104137078 A CN104137078 A CN 104137078A CN 201380006393 A CN201380006393 A CN 201380006393A CN 104137078 A CN104137078 A CN 104137078A
Authority
CN
China
Prior art keywords
tolerance
correlativity
degree
correlativitys
centrad
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380006393.0A
Other languages
English (en)
Other versions
CN104137078B (zh
Inventor
矢吹谦太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN104137078A publication Critical patent/CN104137078A/zh
Application granted granted Critical
Publication of CN104137078B publication Critical patent/CN104137078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明通过不变量分析来正确地判断故障原因。操作管理设备(100)的相关性模型存储单元(112)存储相关性模型(122),该相关性模型(122)包括一个或多个相关性函数,相关性函数指示在系统中的多个度量中两个彼此不同的度量之间的相关性。相关性破坏检测单元(103)将新输入的多个度量的值应用于相关性模型(122),来检测相关性模型(122)中所包括的相关性的相关性破坏。异常计算单元(104)基于具有多个度量当中的第一度量的相关性函数的一个或多个第二度量中与除了第一度量之外的一个或多个度量之间的一个或多个相关性函数的相关性破坏度来计算中心度并进行输出,该中心度指示第一度量被估计为相关性破坏的分布的中心的程度。

Description

操作管理设备、操作管理方法和程序
技术领域
本发明涉及操作管理设备、操作管理方法及其程序,并且具体地涉及检测系统的故障的操作管理设备、操作管理方法及其程序。
背景技术
专利文献1公开了一种操作管理系统的示例,其通过使用关于系统性能的时间序列信息来生成系统模型,并且通过使用所生成的模型来检测系统的故障。
专利文献1中所描述的操作管理系统基于系统的多个度量(性能指标)的测量值来针对多个度量间的组合中的每一个确定相关性函数(correlation function),并且生成包括每一个都指示相关性(correlation)的多个相关性函数的相关性模型。然后,操作管理系统通过使用所生成的相关性模型,基于度量的新输入的测量值来检测相关性的破坏(相关性破坏),并且基于检测的相关性破坏来判断故障原因。用于基于相关性破坏来分析故障原因的上述技术被称为不变量分析(invariantanalysis)。
[引用列表]
[专利文献]
[专利文献1]日本专利申请特开No.2009-199533
发明内容
[技术问题]
根据上述专利文献1中公开的不变量分析,对于各个度量,在度量与其他度量中的每一个之间的相关性函数中的检测到相关性破坏的相关性的数目或比率作为异常度被计算。然后,基于异常度来判断故障原因。然而,存在无法根据度量之间的相关性是否存在或者各个度量所具有的相关性的数目来正确判断故障原因。
图10至图13是示出专利文献1的不变量分析中的计算异常度的结果的示例的示意图。这里,各个节点指示度量,并且度量之间的箭头指示两个度量之间的从一个到另一个的相关性。用粗线圈出的节点指示与具有故障原因的被监视设备或资源相关性的度量(故障原因度量),并且用粗线描述的箭头指示检测到相关性破坏的相关性。在括号中写的并且指配给每个节点的数字指示度量的异常度。在图10和图12中,由于与度量SV1相关的故障而导致在度量SV1与其他度量之间产生相关性破坏。在图11和图13中,由于与度量SV2相关的故障而导致在度量SV2与度量SV1之间产生相关性破坏。
图10和图11中的每一个例示了检测到相关性破坏的相关性的数目用作异常度的情况。例如,在图10的情况下,因为度量SV1的异常度大(异常度=4),所以能够判断度量SV1具有故障原因。另一方面,在图11的情况下,因为度量SV1和度量SV2的异常度彼此相等(异常度=1),所以无法判断度量SV1和度量SV2中的哪一个具有故障原因。如上所述,在检测到相关性破坏的相关性的数目用作异常度的情况下,存在图11所示的由于其他故障而产生的相关性破坏的影响、或者由于偶然噪声而产生的相关性破坏的影响而导致无法正确判断故障原因的情况。
图12和图13中的每一个例示了将检测到相关性破坏的相关性的比率用作异常度的情况。例如,在图12的情况下,因为度量SV1至SV5的异常度彼此相等(异常度=1.0),所以无法判断度量SV1至SV5中的哪一个具有故障原因。另一方面,在图13的情况下,因为度量SV2的异常度(异常度=1.0)大于度量SV1的异常度(异常度=0.25),所以能够判断度量SV2具有故障原因。如上所述,在将检测到相关性破坏的相关性的比率用作异常度的情况下,能够改善在将相关性的数目用作异常度的情况下所产生的问题。然而,如图12中所示,存在无法根据每个度量的相关性的数目来正确判断故障原因的情况。
本发明的目的在于解决上述问题,并且具体而言,提供一种能够在不变量分析中正确判断故障原因的操作管理设备、操作管理方法及其程序。
[对问题的解决方案]
根据本发明的示例性方面的操作管理设备包括:相关性模型存储装置,用于存储相关性模型,该相关性模型包括一个或多个相关性函数,每个相关性函数指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;相关性破坏检测装置,用于通过将多个度量的新输入的值应用于相关性模型,来检测包括在相关性模型中的相关性的相关性破坏;以及异常计算装置,用于基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算和输出中心度,该中心度指示第一度量被估计为相关性破坏的分布中心的程度。
根据本发明的示例性方面的操作管理方法包括:存储相关性模型,该相关性模型包括一个或多个相关性函数,每个相关性函数指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;通过将多个度量的新输入的值应用于相关性模型来检测包括在相关性模型中的相关性的相关性破坏;以及基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算和输出中心度,该中心度指示第一度量被估计为相关性破坏的分布中心的程度。
根据本发明的示例性方面的计算机可读介质,在该计算机可读介质上记录程序,使得计算机能够执行方法,该方法包括:存储相关性模型,该相关性模型包括一个或多个相关性函数,每个相关性函数指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;通过将多个度量的新输入的值应用于相关性模型来检测包括在相关性模型中的相关性的相关性破坏;以及基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算和输出中心度,该中心度指示第一度量被估计为相关性破坏的分布中心的程度。
[本发明的有利效果]
本发明的有利效果在于能够在不变量分析中正确地判断故障原因。
附图说明
图1是示出本发明的第一示例性实施例的特征配置的框图。
图2是示出本发明的第一示例性实施例中的包括操作管理设备100的操作管理系统的配置的框图。
图3是示出本发明的第一示例性实施例中的通过操作管理设备100执行的处理的流程图。
图4是示出本发明的第一示例性实施例中的相关性模型122的示例的示意图。
图5是示出本发明的第一示例性实施例中的检测相关性破坏并且计算异常度的示例的示意图。
图6是示出本发明的第一示例性实施例中的检测相关性破坏和计算异常度的另一示例的示意图。
图7是示出本发明的第一示例性实施例中的计算异常度的结果的示例的示意图。
图8是示出本发明的第一示例性实施例中的计算异常度的结果的另一示例的示意图。
图9是示出本发明的第一示例性实施例中的分析结果130的示例的示意图。
图10是示出专利文献1的不变量分析中的计算异常度的结果的示例的示意图。
图11是示出专利文献1的不变量分析中的计算异常度的结果的另一示例的示意图。
图12是示出专利文献1的不变量分析中的计算异常度的结果的另一示例的示意图。
图13是示出专利文献1的不变量分析中的计算异常度的结果的另一示例的示意图。
具体实施方式
(第一示例性实施例)
接下来,描述本发明的第一示例性实施例。
首先,描述根据本发明的第一示例性实施例的配置。图2是示出本发明的第一示例性实施例中的包括操作管理设备100的操作管理系统的配置的框图。
参考图2,本发明的第一示例性实施例中的操作管理系统包括操作管理设备100以及一个或多个被监视设备200。操作管理设备100和被监视设备200通过网络彼此连接。
被监视设备200是作为系统的组件的设备,诸如Web服务器、数据库服务器。
被监视设备200以周期性间隔测量关于被监视设备200的多个项目的性能值的实际数据(测量值),并且将测量数据发送到操作管理设备100。作为性能值的项目,使用计算机资源的使用率或者计算机资源的使用量,例如CPU(中央处理单元)的使用率、存储器的使用率、访问磁盘的频率。
这里,被监视设备200和性能值的项目的集合被定义为度量(性能指标),并且同时测量的多个度量的值的集合被定义为性能信息。度量用整数或小数的数值来表示。度量对应于专利文献1中描述的元素。
操作管理设备100基于从作为监视对象的被监视设备200收集的性能信息来生成关于被监视设备200的相关性模型122。然后,操作管理设备100通过使用所生成的相关性模型122来检测被监视设备200的故障或异常。
操作管理设备100包括性能信息收集单元101、相关性模型生成单元102、相关性破坏检测单元103、异常计算单元104、显示单元105、性能信息存储单元111、相关性模型存储单元112以及相关性破坏存储单元113。
性能信息收集单元101从被监视设备200收集性能信息,并且将性能信息的时间序列变化存储在性能信息存储单元111中作为序列性能信息121。
相关性模型生成单元102基于序列性能信息121来生成包括被监视设备200的系统的相关性模型122。
这里,相关性模型122包括针对多个度量中的两个度量的每个组合的相关性函数(或变换函数),该相关性函数指示两个度量之间的相关性。相关性函数是从一个度量值的时间序列来估计其他度量值的时间序列的函数。相关性模型生成单元102基于在预定的建模时间段中收集的序列性能信息121来确定针对各个度量组合的相关性函数的系数。类似于专利文献1中所描述的操作管理设备的情况,在对度量的测量值的时间序列执行的系统识别处理中确定相关性函数的系数。
注意,类似于专利文献1中所描述的操作管理设备的情况,相关性模型生成单元102可以针对各个度量组合来计算相关性函数的权重,并且可以生成具有等于或大于预定值的权重的相关性函数的集合作为相关性模型122。
相关性模型存储单元112存储通过相关性模型生成单元102生成的相关性模型122。
图4是示出本发明的第一示例性实施例中的相关性模型122的示例的示意图。在图4中,用包括节点和箭头的图形来表示相关性模型122。这里,每个节点指示度量,并且度量之间的箭头指示两个度量中的从一个到另一个的相关性。相关性函数是针对相关性中的每一个来确定的。
根据图4所示出的相关性模型122,在分别具有设备标识符SV1至SV5的被监视设备200中每一个中存在一个度量(下面分别称为度量SV1至SV5),并且相关性是对于度量SV1至SV5中的两个度量的组合中的每一个来指示的。
类似于专利文献1中所描述的操作管理设备的情况,相关性破坏检测单元103基于新输入的性能信息来检测包括在相关性模型122中的相关性的相关性破坏。
这里,类似于专利文献1的描述,相关性破坏检测单元103通过将多个度量的两个度量中的一个度量的测量值输入进与这两个度量相对应的相关性函数,来计算其他度量的估计值。在其他度量的估计值与测量值之间的差(由于相关性函数产生的变换误差)等于或大于预定值的情况下,相关性破坏检测单元103将其检测为两个度量之间的相关性的相关性破坏。
相关性破坏存储单元113存储相关性破坏信息123,该相关性破坏信息123指示检测到相关性破坏的相关性。
图5和图6中的每一个是示出本发明的第一示例性实施例中的检测相关性破坏并且计算异常度的示例的示意图。在图5和图6中,用粗线表示的箭头指示在图4所示的相关性模型122的检测到相关性破坏的相关性。在图5中,用粗线表示的节点指示具有故障原因的被监视设备200的度量(故障所致度量)。根据图5中所示的示例,由于具有设备标识符SV1的被监视设备200的故障而导致对度量SV1与度量SV2至SV5的每一个之间的相关性函数产生相关性破坏。根据图6所示出的示例,由于具有设备标识符SV2至SV5的被监视设备200中的任何一个的故障或者与度量的测量值混合的噪声而导致对相关性函数中的每一个产生相关性破坏。
异常计算单元104基于相关性模型122上的相关性破坏的分布来计算每个度量的异常度。下面参考图5和图6描述计算异常度的方法。
如图5所示,在被监视设备200或资源产生故障的情况下,异常在与被监视设备200和资源相关的度量(故障原因度量)上产生。因此,对在故障原因度量与具有与故障原因度量的相关性的度量(相邻度量)之间的相关性产生相关性破坏。这里,当在度量(第一度量,在该情况下的SV1)与第一度量相邻的度量中的每一个(第二度量,在该情况下的SV2至SV5)之间的相关性函数的相关性破坏度高时,估计该度量与故障原因度量相对应的可能性是高的。
此外,由于故障的扩展而导致对于故障原因度量的相邻度量和其他度量产生异常。因此,可能对相邻度量中的每一个与其他度量中的每一个之间的相关性产生相关性破坏。然而,假定在相邻度量中的每一个与其他度量中的每一个之间产生相关性破坏的可能性小于在故障原因度量与相邻度量中的每一个之间产生相关性破坏的可能性。在该情况下,相关性破坏在相关性模型122上以故障原因度量为中心进行分布。因此,如图5中所示,在度量(第一度量,在该情况下是SV1)的相邻度量(第二度量,在该情况下是SV2至SV5)中的每一个与除了第一度量之外的度量中的每一个之间的相关性当中的损坏的相关性的数目小的情况下,即,在第一度量存在于相关性破坏的分布的中心的情况下,估计第一度量与故障原因度量相对应的可能性高。
此外,如图6中所示,在度量(第一度量,在该情况下是SV1)的相邻度量(第二度量,在该情况下是SV2至SV5)中的每一个与除了第一度量之外的每个度量之间的相关性当中的损坏的相关性的数目大的情况下,即,在第一度量没有存在于相关性破坏的分布的中心的情况下,估计第一度量与故障原因度量相对应的可能性低。
异常计算单元104针对每个度量计算相关性的破坏程度(相关性破坏度)以及存在于相关性破坏的分布的中心的程度(中心度),并且基于相关性破坏度和中心度来计算异常度。
异常计算单元104例如通过使用等式1来计算相关性破坏度。
[等式1]
这里,N0是用于计算异常度的对象度量所具有的相关性的数目,并且Nd0是对象度量所具有的相关性中检测到相关性破坏的相关性的数目。
例如,在图5的情况下,异常计算单元104获得度量SV1的相关性破坏度1.0。在图6的情况下,异常计算单元104也获得度量SV1的相关性破坏度1.0。
异常计算单元104例如通过使用等式2来计算中心度。
[等式2]
N = Σ i = 1 n N i
N d = Σ i = 1 n N di
这里,n是具有与用于计算异常度的对象度量的相关性的度量(相邻度量)的数目。Ni是在第i个相邻度量与除了对象度量之外的度量中的每一个之间的相关性的数目,并且Ndi是在第i个相邻度量与除了对象度量之外的度量中的每一个之间的相关性中的检测到相关性破坏的相关性的数目。
例如,在图5的情况下,异常计算单元104获得度量SV1的中心度1.0。在图6的情况下,异常计算单元104获得度量SV1的中心度0。
此外,异常计算单元104例如通过使用等式3来计算异常度。
[等式3]
(异常度)=(相关性破坏度)+(中心度)
例如,在图5的情况下,异常计算单元104获得度量SV1的异常度2.0。在图6的情况下,异常计算单元104获得度量SV1的异常度1.0。
注意,只要计算了对象度量所具有的相关性函数的相关性破坏度,异常计算单元104就不仅可以通过使用等式式1而且还可以通过其他方法来计算相关性破坏度。例如,异常计算单元104可以基于对象度量所具有的相关性中的检测到相关性破坏的相关性的数目或者基于由于对象度量所具有的相关性函数所产生的变换误差量,来计算相关性破坏度。
此外,只要计算了针对对象度量的存在于相关性破坏的分布的中心的程度,异常计算单元104就不仅可以通过使用等式2而且还可以通过其他方法来计算中心度。例如,异常计算单元104可以基于相邻度量所具有的相关性中的检测到相关性破坏的相关性的数目、或者基于由于相邻度量所具有的相关性函数所产生的变换误差量,来计算中心度。此外,异常计算单元104不仅可以计算与相邻度量相关的相关性破坏的分布的中心度,而且还可以计算相关性模型122上的从对象度量开始的预定数目的相关性函数的范围中检测到的相关性破坏的分布的中心度,或者在整个相关性模型122上检测到的相关性破坏的分布的中心度。
此外,只要在相关性破坏度增加或者中心度增加时获得高异常度,异常计算单元104就不仅可以通过等式3而且还可以通过其他方法来计算异常度。例如,异常计算单元104可以通过使相关性破坏度乘以中心度来计算异常度。
异常计算单元104输出分析结果130,该分析结果130包括计算的相关性破坏度、中心度和异常度。显示单元105显示分析结果130。这里,异常计算单元104可以将分析结果130作为文件进行输出。
注意,操作管理设备100可以是计算机,该计算机包括CPU和存储程序的存储介质,并且根据程序的控制来进行操作。此外,性能信息存储单元111、相关性模型存储单元112和相关性破坏存储单元113可以通过相应的存储介质来配置,或者可以通过一个存储介质来配置。
接下来,描述本发明的第一示例性实施例中的操作管理设备100的操作。
图3是示出本发明的第一示例性实施例中的通过操作管理设备100执行的处理的流程图。
首先,操作管理设备100的性能信息收集单元101从被监视设备200收集性能信息,并且将收集的性能信息存储在性能信息存储单元111中(步骤S101)。
相关性模型生成单元102参考存储在性能信息存储单元111中的序列性能信息121,并且基于在由管理员等所指定的预定建模时段期间所收集的性能信息来生成相关性模型122,并且将相关性模型122存储在相关性模型存储单元112中(步骤S102)。
图7和图8中的每一个是示出本发明的第一示例性实施例中的计算异常度的结果的示例的示意图。图7中所示的相关性模型122和相关性破坏的检测情况对应于图10和图12中所示的相关性模型122和相关性破坏的检测情况,并且图8中所示的相关性模型122和相关性破坏的检测情况对应于图11和图13中所示的相关性模型122和相关性破坏的检测情况。
例如,相关性模型生成单元102生成如图7所示的相关性模型122。
接下来,相关性破坏检测单元103通过使用由性能信息收集单元101新收集的性能信息来检测包括在相关性模型122中的相关性的相关性破坏,并且生成相关性破坏信息123(步骤S103)。相关性破坏检测单元103将相关性破坏信息123存储在相关性破坏存储单元113中。
例如,相关性破坏检测单元103检测相关性破坏,如图7所示。
接下来,异常计算单元104通过使用等式1来计算每个度量的相关性破坏度(步骤S104)。异常计算单元104通过使用等式2来计算每个度量的中心度(步骤S105)。异常计算单元104通过使用等式3来计算每个度量的异常度(步骤S106)。
例如,相关性破坏检测单元103计算如图7的表所示的相关性破坏度、中心度和异常度。在图7中,度量SV1的中心度和异常度大于其他度量的中心度和异常度。因此,判断度量SV1是故障原因度量的可能性高。
在如图8所示的检测相关性破坏的情况下,计算异常度,如图8的表所示。在图8中,度量SV1和SV2中的每一个的中心度大于其他度量的中心度,并且度量SV2的异常度大于其他度量的异常度。因此,判断度量SV2是故障原因度量的可能性高。
接下来,异常计算单元104通过显示单元105来输出包括计算的相关性破坏度、中心度和异常度的分析结果130(步骤S107)。
图9是示出本发明的第一示例性实施例中的分析结果130的示例的示意图。在图9中,分析结果130包括相关性破坏检测结果131和异常度列表132。
相关性破坏检测结果131指示在示出相关性模型122的图形上的检测到相关性破坏的相关性。根据图9的示例,与具有大的中心度的度量相对应的节点用虚线圈出,并且与具有大的异常度的度量相对应的节点用黑色节点指示。异常度列表132指示与检测到相关性破坏的相关性相关的度量、以及该度量的相关性破坏度、中心度和异常度。根据图9的示例,按照异常度的大小的顺序示出与检测到相关性破坏的相关性相关的度量。
管理员可以通过参考分析结果130来掌握与具有大的中心度和大的异常度的度量相关的被监视设备200或资源作为故障原因的候选。
例如,异常计算单元104将对于计算图7中所示的异常度的结果的图9所示的分析结果130输出到显示单元105。管理员通过参考图9所示的分析结果130来掌握具有设备标识符SV1的被监视设备200作为故障原因的候选。
注意,异常计算单元104可以指示与具有最大异常度的度量相关的被监视设备200或者资源的标识符作为故障原因的候选。
通过执行以上步骤,完成本发明的第一示例性实施例的操作。
接下来,描述本发明的第一示例性实施例的特征配置。图1是示出根据本发明的第一示例性实施例的特征配置的框图。
参考图1,本发明的第一示例性实施例的操作管理设备100包括相关性模型存储单元112、相关性破坏检测单元103和异常计算单元104。
相关性模型存储单元112存储包括一个或多个相关性函数的相关性模型,每个相关性函数指示系统中的多个度量当中的彼此不同的两个度量之间的相关性。相关性破坏检测单元103通过将多个度量的新输入的值应用于相关性模型,来检测包括在相关性模型中的相关性的相关性破坏。异常计算单元104基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算中心度并进行输出,该中心度指示第一度量被估计为相关性破坏的分布的中心的程度。
根据本发明的第一示例性实施例,能够在不变量分析中正确地判断故障原因。原因是异常计算单元104基于在多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了第一度量之外的一个或多个度量中的每一个之间的相关性的相关性破坏度,来计算中心度并进行输出,该中心度是第一度量被估计为相关性破坏的分布的中心的程度。
此外,根据本发明的第一示例性实施例,能够在不变量分析中更正确地判断故障原因。原因是异常计算单元104基于在第一度量与一个或多个第二度量中的每一个之间的相关性的相关性破坏度以及所计算的第一度量的中心度,来计算第一度量的异常度。
此外,根据本发明的第一示例性实施例,能够在不变量分析中掌握用于判断故障原因的相关性破坏的分布中心。原因是异常计算单元104在分析结果130中指示在图形上具有大的中心度的度量,该图形示出相关性模型122上的相关性破坏。
虽然参考其示例性实施例特别示出和描述了本发明,但是本发明不限于这些实施例。本领域技术人员应当理解,在不脱离通过权利要求书限定的本发明的精神和范围的情况下,可以对其做出各种形式和细节的改变。
本申请基于并要求于2012年1月23日提交的日本专利申请No.2012-011076的优先权,通过引用将其全部内容合并于此。
附图标记列表
100     操作管理设备
101     性能信息收集单元
102     相关性模型生成单元
103     相关性破坏检测单元
104     异常计算单元
105     显示单元
111     性能信息存储单元
112     相关性模型存储单元
113     相关性破坏存储单元
121     序列性能信息
122     相关性模型
123     相关性破坏信息
130     分析结果
131     相关性破坏检测结果
132     异常度列表
200     被监视设备

Claims (12)

1.一种操作管理设备,包括:
相关性模型存储装置,所述相关性模型存储装置用于存储相关性模型,所述相关性模型包括一个或多个相关性函数,所述一个或多个相关性函数中的每一个指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;
相关性破坏检测装置,所述相关性破坏检测装置用于通过将新输入的所述多个度量的值应用于所述相关性模型,来检测包括在所述相关性模型中的所述相关性的相关性破坏;以及
异常计算装置,所述异常计算装置用于基于在所述多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了所述第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算中心度并进行输出,所述中心度指示所述第一度量被估计为相关性破坏的分布的中心的程度。
2.根据权利要求1所述的操作管理设备,其中,
所述异常计算装置基于在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度以及所述第一度量的所计算的中心度,来计算所述第一度量的异常度。
3.根据权利要求2所述的操作管理设备,其中,
所述中心度是根据在所述一个或多个第二度量中的每一个与除了所述第一度量之外的度量中的每一个之间的一个或多个相关性的相关性破坏度而变小的值,并且
所述第一度量的异常度是通过使在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度与所述中心度相加或相乘来计算的。
4.根据权利要求1至3中的任何一项所述的操作管理设备,其中,
所述相关性破坏度是基于下述当中的任何一个来计算的:检测到相关性破坏的相关性与一个或多个相关性的比率、一个或多个相关性当中的检测到相关性破坏的相关性的数目、以及由与一个或多个相关性相对应的相关性函数中的每一个所产生的变换误差。
5.一种操作管理方法,包括:
存储相关性模型,所述相关性模型包括一个或多个相关性函数,所述一个或多个相关性函数中的每一个指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;
通过将新输入的所述多个度量的值应用于所述相关性模型,来检测包括在所述相关性模型中的所述相关性的相关性破坏;以及
基于在所述多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了所述第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算中心度并进行输出,所述中心度指示所述第一度量被估计为相关性破坏的分布的中心的程度。
6.根据权利要求5所述的操作管理方法,进一步包括:基于在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度以及所述第一度量的所计算的中心度,来计算所述第一度量的异常度。
7.根据权利要求6所述的操作管理方法,其中,
所述中心度是根据在所述一个或多个第二度量中的每一个与除了所述第一度量之外的度量中的每一个之间的一个或多个相关性的相关性破坏度而变小的值,并且
所述第一度量的异常度是通过使在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度与所述中心度相加或相乘来计算的。
8.根据权利要求5至7中的任何一项所述的操作管理方法,其中,
所述相关性破坏度是基于下述当中的任何一个来计算的:检测到相关性破坏的相关性与一个或多个相关性的比率、一个或多个相关性当中的检测到相关性破坏的相关性的数目、以及由与一个或多个相关性相对应的相关性函数中的每一个所产生的变换误差。
9.一种记录有程序的计算机可读存储介质,使得计算机执行方法,所述方法包括:
存储相关性模型,所述相关性模型包括一个或多个相关性函数,所述一个或多个相关性函数中的每一个指示在系统中的多个度量当中的彼此不同的两个度量之间的相关性;
通过将新输入的所述多个度量的值应用于所述相关性模型,来检测包括在所述相关性模型中的所述相关性的相关性破坏;以及
基于在所述多个度量当中的具有与第一度量的相关性的一个或多个第二度量中的每一个与除了所述第一度量之外的一个或多个度量中的每一个之间的一个或多个相关性的相关性破坏度,来计算中心度并进行输出,所述中心度指示所述第一度量被估计为相关性破坏的分布的中心的程度。
10.根据权利要求9所述的计算机可读存储介质,进一步包括:基于在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度以及所述第一度量的所计算的中心度,来计算所述第一度量的异常度。
11.根据权利要求10所述的计算机可读存储介质,其中,
所述中心度是根据在所述一个或多个第二度量中的每一个与除了所述第一度量之外的度量中的每一个之间的一个或多个相关性的相关性破坏度而变小的值,并且
所述第一度量的异常度是通过使在所述第一度量与所述一个或多个第二度量中的每一个之间的一个或多个相关性的相关性破坏度与所述中心度相加或相乘来计算的。
12.根据权利要求9至11中的任何一项所述的计算机可读存储介质,其中,
所述相关性破坏度是基于下述中的任何一个来计算的:检测到相关性破坏的相关性与一个或多个相关性的比率、一个或多个相关性当中的检测到相关性破坏的相关性的数目、以及由于与一个或多个相关性相对应的相关性函数中的每一个所产生的变换误差。
CN201380006393.0A 2012-01-23 2013-01-22 操作管理设备、操作管理方法和程序 Active CN104137078B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012011076 2012-01-23
JP2012-011076 2012-01-23
PCT/JP2013/000264 WO2013111560A1 (ja) 2012-01-23 2013-01-22 運用管理装置、運用管理方法、及びプログラム

Publications (2)

Publication Number Publication Date
CN104137078A true CN104137078A (zh) 2014-11-05
CN104137078B CN104137078B (zh) 2017-03-22

Family

ID=48873292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380006393.0A Active CN104137078B (zh) 2012-01-23 2013-01-22 操作管理设备、操作管理方法和程序

Country Status (5)

Country Link
US (2) US9367382B2 (zh)
EP (1) EP2808797B1 (zh)
JP (3) JP5831558B2 (zh)
CN (1) CN104137078B (zh)
WO (1) WO2013111560A1 (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
CN104137078B (zh) * 2012-01-23 2017-03-22 日本电气株式会社 操作管理设备、操作管理方法和程序
EP2958023B1 (en) * 2013-02-18 2022-04-27 Nec Corporation System analysis device and system analysis method
US20150378806A1 (en) * 2013-02-26 2015-12-31 Nec Corporation System analysis device and system analysis method
EP3125057B1 (en) * 2014-03-27 2019-07-03 Nec Corporation System-analyzing device, analysis-model generation method, system analysis method, and system-analyzing program
JPWO2015174063A1 (ja) * 2014-05-16 2017-04-20 日本電気株式会社 情報処理装置、分析方法、及び、記録媒体
JP6398383B2 (ja) * 2014-07-01 2018-10-03 株式会社Ihi 異常診断装置
EP3239839A4 (en) * 2014-12-22 2018-08-22 Nec Corporation Operation management device, operation management method, and recording medium in which operation management program is recorded
US10176033B1 (en) * 2015-06-25 2019-01-08 Amazon Technologies, Inc. Large-scale event detector
WO2017099062A1 (ja) * 2015-12-09 2017-06-15 日本電気株式会社 診断装置、診断方法、及び、診断プログラムが記録された記録媒体
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10970891B2 (en) 2016-02-29 2021-04-06 Oracle International Corporation Systems and methods for detecting and accommodating state changes in modelling
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US20170251967A1 (en) * 2016-03-04 2017-09-07 FlourishiQ Inc. System, apparatus and method for individualized stress management
US11106563B2 (en) * 2016-03-30 2021-08-31 Nec Corporation Log analysis device, log analysis method, and recording medium storing program
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
WO2017213063A1 (ja) * 2016-06-08 2017-12-14 日本電気株式会社 システム分析装置、システム分析方法およびプログラム記録媒体
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
EP3582052A4 (en) * 2017-02-07 2020-02-26 Nec Corporation DEVICE AND METHOD FOR DETERMINING FAULTS AND RECORDING MEDIUM ON WHICH A PROGRAM FOR DETERMINING FAULTS IS RECORDED
JP6689995B2 (ja) * 2017-02-07 2020-04-28 株式会社日立製作所 コンピュータシステムの監視装置および方法
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
JP6823265B2 (ja) 2017-03-28 2021-02-03 富士通株式会社 分析装置、分析システム、分析方法および分析プログラム
US10817803B2 (en) 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US12001926B2 (en) 2018-10-23 2024-06-04 Oracle International Corporation Systems and methods for detecting long term seasons
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
WO2023215903A1 (en) * 2022-05-06 2023-11-09 Mapped Inc. Automatic link prediction for devices in commercial and industrial environments

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090217099A1 (en) * 2008-02-25 2009-08-27 Kiyoshi Kato Operations management apparatus, operations management system, data processing method, and operations management program
CN102099795A (zh) * 2008-09-18 2011-06-15 日本电气株式会社 运用管理装置、运用管理方法和运用管理程序
WO2011099341A1 (ja) * 2010-02-15 2011-08-18 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7444263B2 (en) 2002-07-01 2008-10-28 Opnet Technologies, Inc. Performance metric collection and automated analysis
JP4430989B2 (ja) 2004-06-28 2010-03-10 株式会社日立製作所 運用管理支援システムおよび性能情報表示方法
US8352589B2 (en) * 2005-11-15 2013-01-08 Aternity Information Systems Ltd. System for monitoring computer systems and alerting users of faults
JP5428372B2 (ja) * 2009-02-12 2014-02-26 日本電気株式会社 運用管理装置および運用管理方法ならびにそのプログラム
US7992040B2 (en) * 2009-02-20 2011-08-02 International Business Machines Corporation Root cause analysis by correlating symptoms with asynchronous changes
US8645769B2 (en) 2010-01-08 2014-02-04 Nec Corporation Operation management apparatus, operation management method, and program storage medium
WO2011155621A1 (ja) * 2010-06-07 2011-12-15 日本電気株式会社 障害検出装置、障害検出方法およびプログラム記録媒体
WO2012086824A1 (ja) * 2010-12-20 2012-06-28 日本電気株式会社 運用管理装置、運用管理方法、及びプログラム
CN104137078B (zh) * 2012-01-23 2017-03-22 日本电气株式会社 操作管理设备、操作管理方法和程序
US20150378806A1 (en) * 2013-02-26 2015-12-31 Nec Corporation System analysis device and system analysis method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090217099A1 (en) * 2008-02-25 2009-08-27 Kiyoshi Kato Operations management apparatus, operations management system, data processing method, and operations management program
CN102099795A (zh) * 2008-09-18 2011-06-15 日本电气株式会社 运用管理装置、运用管理方法和运用管理程序
WO2011099341A1 (ja) * 2010-02-15 2011-08-18 日本電気株式会社 障害原因抽出装置、障害原因抽出方法およびプログラム記憶媒体

Also Published As

Publication number Publication date
JP2016015171A (ja) 2016-01-28
US20150026521A1 (en) 2015-01-22
JP6394726B2 (ja) 2018-09-26
JP6160673B2 (ja) 2017-07-12
CN104137078B (zh) 2017-03-22
US20160239366A1 (en) 2016-08-18
EP2808797B1 (en) 2019-07-31
EP2808797A4 (en) 2015-08-12
JP2017126363A (ja) 2017-07-20
EP2808797A1 (en) 2014-12-03
WO2013111560A1 (ja) 2013-08-01
JPWO2013111560A1 (ja) 2015-05-11
US9367382B2 (en) 2016-06-14
US10296408B2 (en) 2019-05-21
JP5831558B2 (ja) 2015-12-09

Similar Documents

Publication Publication Date Title
CN104137078A (zh) 操作管理设备、操作管理方法和程序
EP2759938B1 (en) Operations management device, operations management method, and program
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
US9424157B2 (en) Early detection of failing computers
CN102713862B (zh) 故障原因提取装置、故障原因提取方法和程序记录介质
Shang et al. Automated detection of performance regressions using regression models on clustered performance counters
CN107992410B (zh) 软件质量监测方法、装置、计算机设备和存储介质
US9417940B2 (en) Operations management system, operations management method and program thereof
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
Grbac et al. Stability of software defect prediction in relation to levels of data imbalance
WO2013184680A1 (en) Automatic parallel performance profiling systems and methods
US10157113B2 (en) Information processing device, analysis method, and recording medium
WO2015182072A1 (ja) 因果構造推定システム、因果構造推定方法およびプログラム記録媒体
ChauPattnaik et al. Component-Based System Reliability using MCMC Simulation
Shi A monitor system for big data analytics
Falcone et al. Runtime Verification

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant