[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2006526842A - Method and apparatus for system management using codebook correlation with symptom exclusion - Google Patents

Method and apparatus for system management using codebook correlation with symptom exclusion Download PDF

Info

Publication number
JP2006526842A
JP2006526842A JP2006509548A JP2006509548A JP2006526842A JP 2006526842 A JP2006526842 A JP 2006526842A JP 2006509548 A JP2006509548 A JP 2006509548A JP 2006509548 A JP2006509548 A JP 2006509548A JP 2006526842 A JP2006526842 A JP 2006526842A
Authority
JP
Japan
Prior art keywords
events
mapping
groups
indications
observable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2006509548A
Other languages
Japanese (ja)
Inventor
オーシエ,デイビッド
デシモン,サルバトーレ
フェレイラ,ネルソン
ヤーデニ,エーヤル
Original Assignee
システム マネージメント アーツ,インク.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by システム マネージメント アーツ,インク. filed Critical システム マネージメント アーツ,インク.
Publication of JP2006526842A publication Critical patent/JP2006526842A/en
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S40/00Systems for electrical power generation, transmission, distribution or end-user application management characterised by the use of communication or information technologies, or communication or information technology specific aspects supporting them

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

システム内のイベントを相関させるための方法と装置とが提供される。問題と他のイベントは例えば、兆候または観測し得るイベントを生成するシステム内で検出され得る。システム内の複数のグループの可能な兆候の各々と複数のありそうな例外的イベント(例えば問題)の一つとの間のマッピングを含むコンピュータアクセス可能なコードブックが提供される。システムは監視され、このシステムによって生成された一つ以上の既知の兆候が検出される。既知であると決定されなかった可能な兆候の複数のグループ内の兆候を無視しながら、コンピュータを使用してマッピング内の複数のグループの可能な兆候の各々と一つ以上の既知の兆候との間の不整合量が決定される。最小の不整合量を有する複数のグループの一つに対応する複数のありそうな問題の一つ以上が選択される。A method and apparatus are provided for correlating events in a system. Problems and other events can be detected, for example, in a system that generates signs or observable events. A computer-accessible codebook is provided that includes a mapping between each of a plurality of possible indications in a system and one of a plurality of likely exceptional events (eg, problems). The system is monitored and one or more known signs generated by the system are detected. Using a computer, each of the multiple groups of possible signs in the mapping and one or more known signs, ignoring the signs in the groups of possible signs that were not determined to be known The amount of mismatch is determined. One or more of a plurality of possible problems corresponding to one of the plurality of groups having the smallest amount of mismatch are selected.

Description

(関連出願)
本発明は、引例によってその全体がここに組み込まれている、2003年3月31日に出願された、特許文献1に基づいており、この出願からの優先権を主張する。
(Related application)
The present invention is based on patent document 1 filed on March 31, 2003, which is hereby incorporated by reference in its entirety, and claims priority from this application.

本出願は、一般的には例えば問題といったイベントを兆候といった観測し得るイベントに関連付けるためにコードブック相関手法を使用する複合システムにおけるイベント相関に関し、また特に一部の観測し得るイベントが不確定であるか、そうでなければ未知であるときにコードブック相関を使用して根本問題または他のイベントを決定することに関する。   This application relates generally to event correlation in complex systems that use codebook correlation techniques to relate events such as problems to observable events such as symptoms, and in particular some observable events are uncertain. It relates to using codebook correlation to determine the root problem or other event when it is or is unknown.

コードブック相関は、システム内の問題または他のイベントの根本原因を識別するために使用される手法である。コードブック相関手法の例は、すべてがイェキアム・イェミニらに発行された特許文献2、特許文献3、特許文献4(ここでは「イェミニら特許」と呼ばれる)に記載されており、これらは引例によってここにその全体が組み込まれている。   Codebook correlation is a technique used to identify the root cause of problems or other events in the system. Examples of codebook correlation techniques are all described in Patent Document 2, Patent Document 3, and Patent Document 4 (herein referred to as “Yemi et al. Patents”) issued to Yekiam Yemini et al. The whole is incorporated here.

コードブック相関は、イベントを生成する実質的に如何なるシステムにも適用可能である。このようなシステムは、企業管理システム、エンジニアリングシステム、通信システム、ネットワーク化情報技術(IT)システム、分散システム、アプリケーションサービス、アプリケーションサーバ、ユーティリティコンピューティングシステム、自動制御システム、グリッドコンピューティングシステム、衛星、業務処理システム、ユーティリティシステム、電力グリッド、生物学的システム、医療システム、気象システム、金融マーケットシステム、武器システム、宇宙船といった複雑な運搬手段、医療診断、および金融マーケット分析を含み得るが、これらに限定されない。   Codebook correlation is applicable to virtually any system that generates events. Such systems include enterprise management systems, engineering systems, communication systems, networked information technology (IT) systems, distributed systems, application services, application servers, utility computing systems, automated control systems, grid computing systems, satellites, May include business processing systems, utility systems, power grids, biological systems, medical systems, weather systems, financial market systems, weapon systems, space vehicles, complex vehicles, medical diagnostics, and financial market analysis It is not limited.

簡潔に言えばコードブック相関は、マッピングといった、例えば所定の列に表された特定のイベントを所定の行に表された他のイベントと関連付けるテーブルまたはグラフといったデータ構造を使用してイベントを関連付ける。決定論的または確率論的手法が使用できる。もし決定論的手法を使用するのであれば、各行と列との交差部は、例えばイベントが他のイベントを引き起こすならば「1」、そうでなければ「0」と示すことができる。代替としてもし確率論的手法を使用するのであれば、各行「E2」と列「E1」の交差部は、E1がE2を引き起こす確率がpであるとして、「p」と示すことができる。   Briefly, codebook correlation correlates events using a data structure such as a mapping, eg, a table or graph that associates a particular event represented in a given column with other events represented in a given row. Deterministic or probabilistic approaches can be used. If a deterministic approach is used, the intersection of each row and column can be indicated as “1” if the event causes another event, and “0” otherwise. Alternatively, if a probabilistic approach is used, the intersection of each row “E2” and column “E1” can be denoted as “p”, assuming that the probability that E1 causes E2 is p.

一アプリケーションではコードブック相関は、問題または他の例外的なイベントといった特定のイベントを兆候といった観測し得るイベントに関連付けるために使用できる。更にまた例外的な、またはそうでない如何なるイベントも兆候に関連付けることができる。この場合、コードブックテーブルは、兆候に対応する各行「S」と、問題に対応する各列「P」とを持つことができる。決定論的手法を使用すると、各行と列の交差部は、例えば、もし問題が兆候を引き起こすならば「1」、そうでなければ「0」と示すことができる。代替として確率は、PがSを引き起こす確率がpであるとして、各行Sと列Pとの交差部は「p」と示すことができる。   In one application, codebook correlation can be used to associate a particular event, such as a problem or other exceptional event, with an observable event, such as a symptom. Furthermore, any event that is exceptional or not can be associated with a symptom. In this case, the codebook table may have each row “S” corresponding to an indication and each column “P” corresponding to a problem. Using a deterministic approach, the intersection of each row and column can be indicated, for example, as “1” if the problem causes a symptom and “0” otherwise. Alternatively, the probability can be denoted as “p” for the intersection of each row S and column P, where P is the probability that P will cause S.

こうして創作された各列は、問題の「署名」を指定する、すなわちこれは、問題が引き起こす1セットの兆候を識別する。動作システムの兆候の観測者は、それぞれの問題を迅速に識別するためにコードブックの列を使用できる。これらの相関手法の幾つかの拡張版と変形版は、イェミニら特許に記載されており、引例によってここに組み入れられている。   Each column created in this way specifies a “signature” of the problem, ie it identifies a set of signs that the problem causes. Observers of operating system signs can use a sequence of codebooks to quickly identify each problem. Several extended and modified versions of these correlation techniques are described in the Yemini et al. Patent and are incorporated herein by reference.

ある幾つかの場合には、観測された兆候は、コードブックの問題(または他のイベント)の署名のいずれとも正確には一致しない。このような場合、十分に近い一致を見出すために、観測された兆候と問題署名との間の距離が決定され得る。この距離を決定する幾つかの可能な方法が存在する。決定論的コードブック(各列に「1」と「0」を有する)の場合の一つの方法は、署名と観測された兆候との間の不整合の数をカウントすることである。不整合のこの数は、観測された兆候と署名との間のいわゆるハミング距離を定義する。コードブックの列が確率を有する場合は、観測された兆候に最も近い兆候を生成する問題の最もありそうな組合せを見出すことを含む。例えばこの場合に、観測された兆候と署名との間の距離の特定の定義が使用できる。デービッド・アラン・オーシーの非特許文献1(以後、「オーシー論文」)は、例えばセクション5.2で、このような距離の定義と、この定義された距離にしたがって、観測された兆候と署名がどれほど近いかを見出すことができる幾つかのアルゴリズム(その一部は経験則を使用している)とを与えている。   In some cases, the observed indications do not exactly match any of the signatures in the codebook problem (or other event). In such cases, the distance between the observed symptom and the problem signature can be determined to find a sufficiently close match. There are several possible ways to determine this distance. In the case of a deterministic codebook (with “1” and “0” in each column), one method is to count the number of inconsistencies between the signature and the observed indication. This number of inconsistencies defines the so-called Hamming distance between the observed indication and the signature. If the codebook sequence has probabilities, it involves finding the most likely combination of problems that produce the closest indication to the observed indication. For example, in this case, a specific definition of the distance between the observed indication and the signature can be used. David Alan Aussie Non-Patent Document 1 (hereinafter “Aussie Paper”), for example, in Section 5.2, shows the definition of such a distance and the observed signs and signatures according to this defined distance. It gives several algorithms (some of which use heuristics) that can find out how close they are.

システムによって生成される兆候は通常、ここでは一般に計測手段と呼ばれるサブシステムによって検出される。このような計測手段は、イベントを検出して管理システムに中継するが、また例えばこのシステムの要素と関連するハードウエアコンポーネントと(エージェントといった)ソフトウエアコンポーネントとを含むことができる。   Indications generated by the system are usually detected by a subsystem, commonly referred to herein as a measurement means. Such instrumentation means detects events and relays them to the management system, but can also include, for example, hardware components associated with the elements of the system and software components (such as agents).

米国仮特許出願通番第60/459,072号「兆候除外付きコードブック相関を使用するシステム管理」US Provisional Patent Application Serial No. 60 / 459,072 “System Management Using Codebook Correlation with Sign Exclusion” 米国特許第5,528,516号US Pat. No. 5,528,516 米国特許第5,661,668号US Pat. No. 5,661,668 米国特許第6,249,755号US Pat. No. 6,249,755 「イベント管理と相関とに関するモデル化された仮説的推論」(1998年)博士論文、コロンビア大学"Modeled Hypothetical Reasoning about Event Management and Correlation" (1998) Doctoral Dissertation, Columbia University

兆候を検出するために計測手段によって使用される方式は時には、システム内の可能なイベントをすべてはポーリングしないかもしれない。この場合、兆候が発生したかどうか、または計測手段が兆候の検出に失敗したかどうかを知る簡単な方法は存在しない。したがってこの兆候は、「未知の」状態にあると言うことができ、すなわち兆候が発生したか否かは評価できない。これは、根本原因問題の誤った診断に導く可能性がある。「未知の」状態にない兆候は、「既知の」状態にあると言われる。   The scheme used by instrumentation to detect symptoms may sometimes not poll all possible events in the system. In this case, there is no easy way to know if a sign has occurred or if the measuring means has failed to detect the sign. Therefore, it can be said that this symptom is in an “unknown” state, that is, it cannot be evaluated whether the symptom has occurred. This can lead to a false diagnosis of the root cause problem. An indication not in an “unknown” state is said to be in a “known” state.

システム内のイベントを相関させるための方法と装置とが提供される。本発明の一つ以上の実施形態によれば、兆候または観測し得るイベントを生成するシステムにおいて、問題と他の例外的なイベントとが検出され得る。システム内の複数のグループの可能なイベント(例えば兆候)の各々と例外的イベント(例えば問題)を含むがこれらに限定されない複数のありそうな他のイベントの一つとの間のマッピングを含むコンピュータアクセス可能なコードブックが提供される。本システムは監視されており、本システムによって生成された一つ以上の既知の兆候は検出される。既知であると決定されなかった可能な兆候の複数のグループ内の兆候を無視しながら、コンピュータを使用してマッピング内の複数のグループの可能な兆候の各々と上記の一つ以上の既知の兆候との間の不整合量が決定される。最小の不整合量を有する複数のグループの一つに対応する複数のありそうな問題の一つ以上が選択される。   A method and apparatus are provided for correlating events in a system. In accordance with one or more embodiments of the present invention, problems and other exceptional events may be detected in a system that generates symptoms or observable events. Computer access including mapping between each of multiple groups of possible events (eg, indications) in the system and one of multiple other possible events, including but not limited to exceptional events (eg, problems) A possible codebook is provided. The system is monitored and one or more known symptoms generated by the system are detected. Using a computer, each of the plurality of possible signs in the mapping and one or more known signs as described above, ignoring the signs in the multiple groups of possible signs that were not determined to be known The amount of mismatch is determined. One or more of a plurality of possible problems corresponding to one of the plurality of groups having the smallest amount of mismatch are selected.

これらおよび他の特徴は、本発明の実施形態が実例として図示され説明される下記の詳細な説明から直ちに明らかになるであろう。理解されるように本発明は、すべて本発明から逸脱することなく、他のそして異なる実施形態も可能であり、その幾つかの細部は種々の態様において修正版を可能にしている。したがって図面と説明は、請求項に示されている出願の範囲にとって、制限的または限定的意味でなく、まったく例示的なものと考えるべきである。   These and other features will be readily apparent from the following detailed description, wherein embodiments of the invention are shown and described by way of illustration. As will be realized, the invention is capable of other and different embodiments, all without departing from the invention, some of which allow for modifications in various aspects. Accordingly, the drawings and description are to be regarded as illustrative in nature and not in a limiting or limiting sense for the scope of the application as set forth in the claims.

本出願は概ね、未知の観測し得るイベントまたは兆候が存在するときでもシステム内のイベント(例えば問題といった)を識別するための正確な相関を可能にするコードブック相関を志向している。   The present application is generally directed to codebook correlation that allows accurate correlation to identify events (eg, problems) in the system even when there are unknown observable events or indications.

イベントは、計測手段またはネットワークにおける紛失または誤動作に起因して失われることがある。失われたイベントのこのケースは、未知のイベントのケースとは区別され得る。イベントは、計測手段自体の障害よりもむしろ例えばイベントを検出すべき所定の期間に計測手段が動作していない可能性があるという理由から未知である可能性がある。例えば以下に説明されるように、ネットワーク例において計測手段は、成功したか失敗したかを決定され得る、クライアントからサーバへの問合せであるかもしれない。イベントはこの場合、クライアントが所定の期間中に如何なる問合せもしていないかもしれないので紛失している可能性がある。イェミニら特許は、失われたイベントを取り扱うプロセスを説明している。本発明の種々の実施形態は、紛失したイベントと未知のイベントの両者を取り扱うことができる。   Events may be lost due to loss or malfunction in the instrument or network. This case of a lost event can be distinguished from the case of an unknown event. An event may be unknown rather than a failure of the measuring means itself, for example because the measuring means may not be operating during a predetermined period of time when an event should be detected. For example, as described below, in the example network, the instrument may be a client to server query that can be determined to be successful or unsuccessful. The event may be lost in this case because the client may not have made any queries during a given period of time. The Yamini et al patent describes a process for handling lost events. Various embodiments of the present invention can handle both missing and unknown events.

ここに説明される種々の実施形態は、主として二つのタイプのイベント、すなわち、(1)観測し得るイベント、特に兆候と、(2)例外的なイベント、特に問題とに言及している。しかしながら本発明の実施形態が兆候と問題とに限定されない種々のタイプのイベントに適用可能であることは理解されるべきである。例えば例外的イベントは、システムの正常な動作を含む幅広い種々のイベントを含むことができる。   The various embodiments described herein refer primarily to two types of events: (1) observable events, particularly signs, and (2) exceptional events, particularly problems. However, it should be understood that embodiments of the present invention are applicable to various types of events that are not limited to signs and problems. For example, exceptional events can include a wide variety of events including normal operation of the system.

イェミニら特許に記述されているオリジナルのコードブック方式に戻って参照すると、各未知の兆候の存在は典型的には、問題署名と観測された兆候との間のハミング距離を増加させるであろう。この結果は、問題の不正確な診断になる可能性がある。例えば図1は、ウェブサーバに接続された数者のクライアントを有する例示的ウェブベースのアプリケーションの図形的表現を示す。これらのクライアントは、ウェブサーバへの問合せの試みが不成功であったときにシステム内に問題を検出する可能性がある。したがって各クライアント問合せは、兆候「クライアント問合せ失敗」を検出するための計測手段を兼ねている。     Referring back to the original codebook scheme described in the Yemini et al patent, the presence of each unknown sign will typically increase the Hamming distance between the problem signature and the observed sign. . This result can be an inaccurate diagnosis of the problem. For example, FIG. 1 shows a graphical representation of an exemplary web-based application having several clients connected to a web server. These clients may detect problems in the system when an attempt to query the web server is unsuccessful. Therefore, each client inquiry also serves as a measuring means for detecting the indication “client inquiry failure”.

図2は、イェミニら特許に記載されたコードブック手法が図1のシステムに関する問題と兆候とを表すことができる可能な方法を示す。図2のテーブルの各行は、観測し得る兆候を識別するのに対して、各列は可能な根本問題を識別する。例えば「クライアント1問合せ失敗」兆候は、「ウェブアプリケーション・ダウン」問題または「クライアント1接続ダウン」問題に起因する可能性がある。これに対して問題「ウェブアプリケーション・ダウン」は、署名(1,1,1,1,1,1)を有する、すなわちこれは観測された兆候すべてが発生する(クライアント1〜6すべてからの問合せが失敗する)ときに診断される。   FIG. 2 illustrates a possible way in which the codebook approach described in the Yemini et al. Patent can represent problems and symptoms associated with the system of FIG. Each row in the table of FIG. 2 identifies an observable symptom, whereas each column identifies a possible underlying problem. For example, the “client 1 query failure” indication may be due to a “web application down” problem or a “client 1 connection down” problem. On the other hand, the problem “Web Application Down” has the signature (1,1,1,1,1,1), that is, it produces all the observed signs (query from all clients 1-6) Will be diagnosed).

ウェブサーバがクラッシュしてウェブアプリケーションをダウンさせる状況を考える。クライアント1、2だけがウェブサーバにアクセスしていたと仮定する。このシステムによって見られる兆候は、図3に描かれている。図2のコードブックを使用すると、兆候のうちの4個は見失われているので、観測された兆候と問題の署名との間の距離は4である。一方では、署名と、クライアント1とウェブサーバ間の接続障害およびクライアント2とウェブサーバ間の接続障害という両障害の組み合わされた問題と、の間の距離は、単にゼロである。したがってこのシステムは、根本原因問題をクライアント1とウェブサーバ間の接続とクライアント2とウェブサーバ間の接続との両接続の障害として誤って診断するであろう。   Consider a situation where a web server crashes and brings down a web application. Assume that only clients 1 and 2 were accessing the web server. The signs seen by this system are depicted in FIG. Using the codebook of FIG. 2, the distance between the observed indication and the signature in question is 4 because 4 of the indications are missing. On the one hand, the distance between the signature and the combined problem of both the failure of the connection between the client 1 and the web server and the failure of the connection between the client 2 and the web server is simply zero. The system will therefore erroneously diagnose the root cause problem as a failure of both the connection between client 1 and the web server and the connection between client 2 and the web server.

この診断の誤りは、単にクライアントがウェブサーバにアクセスしていなかったので兆候の一部が現れなかったという理由で発生した。すなわちこの場合のコードブック相関方式は、計測手段が正確である、すなわちクライアントが絶えずサーバにアクセスしているという仮定に依存していた。この仮定は成り立たなかったので、このコードブック相関方式は、クライアント接続が実際には未知の状態にあったときにクライアント接続が機能していると誤って結論付けた。実際のところ、クライアント3〜6とウェブサーバとの間の接続は、サーバがダウンしていたので機能できなかったはずである。   This diagnostic error occurred simply because some of the symptoms did not appear because the client was not accessing the web server. That is, the codebook correlation scheme in this case relied on the assumption that the instrumentation was accurate, i.e., the client was constantly accessing the server. Since this assumption did not hold, this codebook correlation scheme incorrectly concluded that the client connection was working when the client connection was actually in an unknown state. In fact, the connection between clients 3-6 and the web server should not have worked because the server was down.

本発明の一つ以上の実施形態による手法は、兆候の一部が未知であるときでも、根本問題を正しく識別できる。   The approach according to one or more embodiments of the present invention can correctly identify the root problem even when some of the symptoms are unknown.

本発明の一つ以上の実施形態によるコードブック相関の方法は概ね、図4を参照して説明される。分析されるシステムのモデルと、これに対応するコードブックとが与えられている。   A codebook correlation method according to one or more embodiments of the present invention is generally described with reference to FIG. A model of the system to be analyzed and a corresponding code book are given.

ステップ100で、システムは兆候に関して監視され、一つ以上の兆候が検出され、例えば兆候が監視されつつあることを示すイベントが検出される。これらの兆候は検出され、したがって既知の兆候として示される。不確定、すなわち未知である兆候は、無視される。例えば図3のウェブサーバ/クライアントの例では、クライアント3〜6に関する兆候は、クライアント3〜6がウェブサーバにアクセスしていないので検出されないであろうが、またしたがってクライアント3〜6とウェブサーバとの間の通信の存在を示す兆候は、未知として示される。   In step 100, the system is monitored for signs and one or more signs are detected, for example, an event is detected indicating that the signs are being monitored. These signs are detected and are therefore shown as known signs. Signs that are indeterminate, ie unknown, are ignored. For example, in the web server / client example of FIG. 3, the indications for clients 3-6 would not be detected because clients 3-6 are not accessing the web server, and therefore clients 3-6 and web server An indication of the presence of communication between is indicated as unknown.

ステップ110で既知の兆候は、未知の兆候に関連するコードブックへのエントリを無視しながらコードブックに適用される。未知の兆候は問題署名から除外されるので、本方法は、問題をより正確に診断するであろう。   In step 110, the known indication is applied to the codebook, ignoring entries in the codebook associated with the unknown indication. Since unknown signs are excluded from the problem signature, the method will diagnose the problem more accurately.

本発明の一つ以上の更なる実施形態によるコードブック相関の代替方法は概ね、図5を参照して説明される。分析されるシステムのモデルと、これに対応するコードブックとが与えられている。システムコードブックモデル内のすべての兆候は、関連する状態属性を持っている。   An alternative method of codebook correlation according to one or more further embodiments of the present invention is generally described with reference to FIG. A model of the system to be analyzed and a corresponding code book are given. Every symptom in the system codebook model has an associated state attribute.

ステップ200で、すべての状態属性に、すなわちある兆候に関連する状態に未知という初期値を割り当てる。   At step 200, all state attributes are assigned an initial value of unknown to a state associated with a symptom.

ステップ210で、その状態属性の値が未知であるときに、兆候に関する紛失確率を高い値に、すなわち100%に近いか等しい値にセットする。   In step 210, when the value of the state attribute is unknown, the loss probability for the symptom is set to a high value, i.e., a value close to or equal to 100%.

ステップ220で、システムは兆候に関して監視され、一つ以上の兆候が検出され、例えば兆候が監視されつつあることを示すイベントが検出される。これらの兆候は検出され、したがって既知の兆候として示される。   At step 220, the system is monitored for signs and one or more signs are detected, for example, an event is detected indicating that the signs are being monitored. These signs are detected and are therefore shown as known signs.

ステップ230で、いったん兆候が監視されつつあることを示すイベントが検出されて属性が未知以外の値にセットされると、システムに関する紛失確率は低減される。紛失確率は、低い値に、例えば0%近くに、または0%に低減され得る。   In step 230, once an event is detected indicating that the symptom is being monitored and the attribute is set to a value other than unknown, the probability of loss for the system is reduced. The loss probability can be reduced to a low value, for example close to 0% or to 0%.

ステップ240で、兆候は、これらそれぞれの紛失確率を考慮してコードブックに適用される。これは例えば次のように実行できる。前述のステップにしたがって兆候Sに関してセットされた紛失確率がxであるとしよう。問題Pを、確率pを有する兆候Sに関連付けるコードブック内の各セルに関して、セルにおける新しい確率はp×(1−x)になるであろう。未知の兆候が紛失確率x=1を有する場合、セルは0を有するであろうことに留意すること。コードブック相関手法が確率論的コードブックによって機能できる幾つかの方法は、オーシー論文第5章の特にセクション5.2から始まる箇所に記載されている。未知の兆候は一般に問題署名から除外されるので、本方法は問題をより正確に診断するであろう。   At step 240, the signs are applied to the codebook taking into account their respective loss probabilities. This can be performed, for example, as follows. Let the loss probability set for sign S according to the previous steps be x. For each cell in the codebook that associates problem P with a symptom S having probability p, the new probability in the cell will be p × (1−x). Note that if an unknown sign has a loss probability x = 1, the cell will have 0. Some of the ways in which the codebook correlation technique can work with a probabilistic codebook are described in chapter 5 of the OH paper, particularly beginning at section 5.2. Since unknown signs are generally excluded from the problem signature, the method will more accurately diagnose the problem.

兆候Sを生成する問題Pの確率pは、観測されるまたはされないSの紛失確率を考慮して生成されている可能性があることに留意すること。これは、偽(spurious)兆候であるSの確率を考慮することもあり得る。オーシー論文は、特に第5章でこれらの確率がコードブック・セルにおける最終的確率を定義するために、どのように考慮され得るかを説明している。   Note that the probability p of the problem P that generates the symptom S may have been generated taking into account the probability of S missing or not observed. This may take into account the probability of S being a spurious sign. The Aussie paper, in particular in Chapter 5, explains how these probabilities can be taken into account to define the final probabilities in the codebook cell.

本発明の一つ以上の更なる実施形態によれば、コードブックは、イベント活動に基づいて「自動チューニング」であり得る。クライアント3〜6に関して図3のクライアント−ウェブサーバ問合せといったイベントが発生しないと、これらの対応する兆候は、影響を受けた問題署名から除外される。しかしながらもしイベントが後で発生するならば、これらの対応する兆候は問題署名に復元され得る。   According to one or more further embodiments of the present invention, the codebook may be “auto-tuned” based on event activity. If no events such as the client-web server query of FIG. 3 occur for clients 3-6, these corresponding symptoms are excluded from the affected problem signature. However, if the event occurs later, these corresponding symptoms can be restored to the problem signature.

本発明の一つ以上の更なる実施形態によれば、兆候が各々ある確率を有する既知の関連状態を有する時間ウィンドウが指定できる。周期的にこのウィンドウの終わりで、すべての確率はそれらの不確定性を増加させることによって調整され得る、すなわちすべての兆候に関する紛失確率は、高い値に、たとえば100%に近い、または等しい値に上げられ得る。このプロセスは、兆候の検出時の如何なる誤りに関しても調整するために使用できる。   According to one or more further embodiments of the present invention, a time window can be specified that has a known associated state, each with a certain probability of being an indication. Periodically at the end of this window, all probabilities can be adjusted by increasing their uncertainties, i.e. the loss probability for all signs is high, e.g. close to or equal to 100%. Can be raised. This process can be used to adjust for any errors when detecting signs.

例えば図3の例において、システムにおける誤りは、観測された兆候という結果をもたらし得る、クライアント4とウェブサーバとの間の偽問合せを創生する可能性がある。時間ウィンドウ実施形態は最終的に、観測された兆候を知る確率を減らすことによってこのような偽イベントの重要性を低下させるであろう。   For example, in the example of FIG. 3, an error in the system can create a false query between the client 4 and the web server that can result in observed symptoms. The time window embodiment will ultimately reduce the importance of such spurious events by reducing the probability of knowing the observed indication.

下記は、本発明の一つ以上の実施形態によるコードブック相関のアプリケーションの非限定的例である。
(ウェブアプリケーション障害)
図3を参照すると、クライアント3〜6から来る未知の兆候は、図2のコードブック署名から除去または無視されるであろう。この場合、根本原因は観測された兆候と調整されたコードブック内の署名との間の距離が0であるので、ウェブアプリケーション障害として正しく検出される。観測された署名とその他の候補問題に関する調整されたコードブック内の署名との間の距離は少なくとも1であることに留意すること。
(クライアント−サーバ接続障害)
図6の例は、図3の例に類似の、ウェブサーバにアクセスするクライアントを示す。しかしながら図6の例では、クライアント1、2に関する二つのトランザクションは不応答であるのに対して、この他のクライアント3〜6は正しい応答を与えている。
The following are non-limiting examples of codebook correlation applications according to one or more embodiments of the present invention.
(Web application failure)
Referring to FIG. 3, unknown signs coming from clients 3-6 will be removed or ignored from the codebook signature of FIG. In this case, the root cause is correctly detected as a web application failure because the distance between the observed indication and the signature in the adjusted codebook is zero. Note that the distance between the observed signature and the signature in the adjusted codebook for other candidate problems is at least 1.
(Client-server connection failure)
The example of FIG. 6 shows a client accessing a web server similar to the example of FIG. However, in the example of FIG. 6, the two transactions relating to the clients 1 and 2 are not responding, while the other clients 3 to 6 give correct responses.

この場合には未知の状態は存在しないので、ウェブサーバ・ダウンに関する問題署名は、利用可能な兆候と一致しないであろう。システムは、根本問題をクライアント1、2との接続がダウンしていると正しく識別するであろう。   In this case, there is no unknown state, so the problem signature for web server down will not match the available indications. The system will correctly identify the root problem as the connection with clients 1 and 2 is down.

上述の例とアプリケーションは一般にネットワークに関係しているが、本発明の種々の実施形態は、企業管理システム、エンジニアリングシステム、通信システム、ネットワーク化情報技術(IT)システム、分散システム、アプリケーションサービス、アプリケーションサーバ、ユーティリティコンピューティングシステム、自動制御システム、グリッドコンピューティングシステム、衛星、業務処理システム、ユーティリティシステム、電力グリッド、生物学的システム、医療システム、気象システム、金融マーケットシステム、武器システム、宇宙船といった複雑な運搬手段、医療診断、金融マーケット分析を含むが、これらに限定されない幅広い種々のシステムに広く適用可能である。   Although the above examples and applications are generally network related, various embodiments of the present invention can be applied to enterprise management systems, engineering systems, communication systems, networked information technology (IT) systems, distributed systems, application services, applications. Server, utility computing system, automatic control system, grid computing system, satellite, business processing system, utility system, power grid, biological system, medical system, weather system, financial market system, weapon system, spacecraft It is widely applicable to a wide variety of systems including, but not limited to, simple transportation means, medical diagnosis, and financial market analysis.

ここに説明されたこれらのコードブック相関方法は好適には、一つ以上の汎用または他のコンピュータに実現される。代表的なコンピュータは、例えばIntel Pentium(登録商標)、PowerPC(登録商標)、またはRISCベースのものであり、またWindows(登録商標)、OS/2(登録商標)、Unix(登録商標)などといったオペレーティングシステムを含むパソコンまたはワークステーション・プラットフォームである。良く知られているように、このようなマシンは、表示インタフェース(グラフィカルユーザインタフェースまたは「GUI」)と、これに関連する入力装置(例えばキーボードまたはマウス)を含む。   These codebook correlation methods described herein are preferably implemented on one or more general purpose or other computers. Typical computers are, for example, Intel Pentium (registered trademark), PowerPC (registered trademark), or RISC-based, and also include Windows (registered trademark), OS / 2 (registered trademark), Unix (registered trademark), etc. A personal computer or workstation platform that includes an operating system. As is well known, such machines include a display interface (graphical user interface or “GUI”) and associated input devices (eg, keyboard or mouse).

本コードブック相関方法は好適には、ソフトウエアに実現され、したがって本発明の好適な実施形態の一つは、コンピュータのランダムアクセスメモリに常駐するコードモジュール内の1セットの命令(プログラムコード)として実現される。コンピュータによって要求されるまでこの1セットの命令は、もう一つのコンピュータメモリ内に、例えばハードディスク装置に、または光ディスク(CD−ROMでの最終的な使用のための)またはフロッピー(登録商標)ディスク(フロッピー(登録商標)ディスク装置での最終的使用のための)といった取外し可能メモリに記憶され、またはインターネットまたは何か他のコンピュータネットワークを介してダウンロードされ得る。更に、説明された種々の方法は好都合にも、ソフトウエアによって選択的に起動または再構成される汎用コンピュータに実現されるが、当業者は、このような方法が指定された方法ステップを実行するように構成されたハードウエアに、またはファームウエアに、または更に専用の装置において実施され得ることも認めるであろう。   The codebook correlation method is preferably implemented in software, so one preferred embodiment of the present invention is as a set of instructions (program code) in a code module that resides in a random access memory of a computer. Realized. This set of instructions, until requested by the computer, is stored in another computer memory, for example on a hard disk drive, or on an optical disk (for final use on a CD-ROM) or floppy disk ( It can be stored in removable memory (for end use in a floppy disk device) or downloaded over the Internet or some other computer network. Moreover, although the various methods described are conveniently implemented in a general purpose computer that is selectively activated or reconfigured by software, those skilled in the art will perform the specified method steps. It will also be appreciated that it may be implemented in hardware configured in such a way, in firmware, or even in a dedicated device.

本発明の好適な実施形態を説明してきたが、本発明の精神と範囲とから逸脱せずに修正がなされ得ることは明らかである。   While the preferred embodiment of the invention has been described, it will be apparent that modifications can be made without departing from the spirit and scope of the invention.

付属の方法請求項における如何なる番号付きステップも、請求されているステップが実行される特定の順序を限定するものと考えるべきではない。   Any numbered steps in the attached method claims should not be construed as limiting the specific order in which the claimed steps are performed.

ウェブサーバに接続された複数のクライアントを有する例示的ウェブベースのアプリケーションの図形的説明図である。FIG. 2 is a graphical illustration of an exemplary web-based application having multiple clients connected to a web server. 図1に示すシステムに関する問題と兆候との可能なマッピングを示すコードブックの例示的テーブルである。2 is an exemplary table of codebooks showing possible mappings of problems and symptoms for the system shown in FIG. ウェブサーバ障害に関する図1のウェブアプリケーション例における可能な兆候の図形的説明図である。FIG. 2 is a graphical illustration of possible indications in the example web application of FIG. 1 regarding web server failure. 本発明の一つ以上の実施形態によるコードブック相関のための方法を示す流れ図である。6 is a flow diagram illustrating a method for codebook correlation according to one or more embodiments of the invention. 本発明の一つ以上の更なる実施形態によるコードブック相関のための方法を示す流れ図である。6 is a flow diagram illustrating a method for codebook correlation according to one or more further embodiments of the present invention. クライアント−サーバ接続障害に関する図1のウェブアプリケーション例における可能な兆候の図形的説明図である。FIG. 2 is a graphical illustration of possible indications in the example web application of FIG. 1 regarding client-server connection failures.

Claims (21)

(a)システム内の複数のグループの可能な(possible)観測し得るイベントの各々と複数のありそうな(likely)対応するイベントの一つとの間のマッピング(mapping)を与えるステップと、
(b)前記観測し得るイベントを監視して、前記システムによって生成された一つ以上の既知の観測し得るイベントを検出するステップと、
(c)既知であると決定されなかった可能な観測し得るイベントの前記複数のグループのうちの観測し得るイベントを無視しながら、コンピュータを使用して前記マッピングにおける前記複数のグループの可能な観測し得るイベントの各々と前記一つ以上の既知の観測し得るイベントとの間の不整合量を決定するステップと、
(d)最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択するステップと、を含むことを特徴とする、システム内のイベントを検出するための方法。
(A) providing a mapping between each of a plurality of possible observable events of a plurality of groups in the system and one of a plurality of like corresponding events;
(B) monitoring the observable event to detect one or more known observable events generated by the system;
(C) possible observation of the plurality of groups in the mapping using a computer while ignoring observable events of the plurality of possible observable events that have not been determined to be known Determining a mismatch amount between each of the possible events and the one or more known observable events;
(D) selecting one or more of the plurality of likely events corresponding to one of the plurality of groups having a minimum mismatch amount; A way to detect.
前記ありそうな対応するイベントは問題を含むことを特徴とする、請求項1に記載の方法。   The method of claim 1, wherein the likely corresponding event includes a problem. 前記コンピュータアクセス可能なマッピングはコードブックを含むことを特徴とする、請求項1に記載の方法。   The method of claim 1, wherein the computer accessible mapping includes a codebook. 前記マッピングは決定論的であることを特徴とする、請求項1に記載の方法。   The method of claim 1, wherein the mapping is deterministic. 前記マッピングは確率論的であることを特徴とする、請求項1に記載の方法。   The method of claim 1, wherein the mapping is probabilistic. 前記不整合量はハミング距離を含むことを特徴とする、請求項1に記載の方法。   The method of claim 1, wherein the mismatch amount includes a Hamming distance. 前記マッピングはコンピュータアクセス可能であることを特徴とする、請求項1に記載の方法。   The method of claim 1, wherein the mapping is computer accessible. (a)システム内の複数のグループの可能な兆候の各々と複数のありそうなイベントの一つとの間のマッピングを与えるステップと、
(b)前記マッピング内の前記可能な兆候のすべてに未知という値を割り当てるステップと、
(c)前記兆候を監視して、前記システムによって生成された一つ以上の既知の兆候を検出するステップと、
(d)前記一つ以上の既知の兆候に対応する前記マッピング内の前記可能な兆候に既知という値を割り当てるステップと、
(e)未知という値を有する可能な兆候の前記複数のグループ内の兆候を無視しながら、コンピュータを使用して前記マッピング内の既知という値を有する前記複数のグループの可能な兆候の各々と前記一つ以上の既知の兆候との間の不整合量を決定するステップと、
(f)最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択するステップと、を含むことを特徴とする、システム内のイベントを検出するための方法。
(A) providing a mapping between each of a plurality of possible indications of a group in the system and one of a plurality of likely events;
(B) assigning an unknown value to all of the possible indications in the mapping;
(C) monitoring the indications to detect one or more known indications generated by the system;
(D) assigning a known value to the possible indications in the mapping corresponding to the one or more known indications;
(E) each of the possible indications of the plurality of groups having a known value in the mapping using a computer, ignoring the indications in the plurality of groups of possible indications having the value of unknown, and Determining an amount of mismatch between one or more known indications;
(F) selecting one or more of the plurality of likely events corresponding to one of the plurality of groups having the smallest mismatch amount, A way to detect.
ステップ(c)〜(f)を周期的に繰り返すステップを更に含むことを特徴とする、請求項8に記載の方法。   The method of claim 8, further comprising the step of periodically repeating steps (c)-(f). ステップ(b)〜(f)を周期的に繰り返すステップを更に含むことを特徴とする、請求項8に記載の方法。   The method of claim 8, further comprising the step of periodically repeating steps (b)-(f). ステップ(b)は、前記兆候に高い紛失確率値を割り当てるステップを含むことを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein step (b) comprises assigning a high loss probability value to the indication. ステップ(d)は、前記兆候に低い紛失確率値を割り当てるステップを含むことを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein step (d) includes assigning a low loss probability value to the indication. 前記ありそうなイベントは問題を含むことを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein the likely event includes a problem. 前記コンピュータアクセス可能なマッピングはコードブックを含むことを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein the computer accessible mapping comprises a codebook. 前記マッピングは決定論的であることを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein the mapping is deterministic. 前記マッピングは確率論的であることを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein the mapping is probabilistic. 前記不整合量はハミング距離を含むことを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein the mismatch amount includes a Hamming distance. 前記マッピングはコンピュータアクセス可能であることを特徴とする、請求項8に記載の方法。   The method of claim 8, wherein the mapping is computer accessible. (a)各々の値がシステム内の複数の可能な既知および未知の兆候の一つと複数のありそうなイベントの一つとの間のマッピングに対応する値のマトリックスを含むコンピュータアクセス可能なコードブックを備えるステップと、
(b)ほぼ100%の紛失確率を前記コードブック内のすべての未知の兆候に関連付けるステップと、
(c)前記システムによって生成された複数の既知の兆候を表す複数の兆候データ値を時間に亘って監視するステップと、
(d)受信されたコードブック内の兆候に関する前記紛失確率を低下させるステップと、
(e)コンピュータの使用を介して、前記コードブック内の複数のグループの前記値の各々と前記複数の既知の兆候データ値との間の不整合量であって兆候の紛失確率を考慮した不整合量を決定するステップと、
(f)最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つを選択するステップと、を含むことを特徴とする、複数の兆候を生成するシステム内の問題を検出するための方法。
(A) a computer-accessible codebook in which each value includes a matrix of values corresponding to a mapping between one of a plurality of possible known and unknown indications and one of a plurality of likely events in the system; Preparing steps;
(B) associating an approximately 100% loss probability with all unknown signs in the codebook;
(C) monitoring a plurality of indication data values representing a plurality of known indications generated by the system over time;
(D) reducing the loss probability for indications in the received codebook;
(E) an inconsistent amount between each of the plurality of groups of values in the codebook and the plurality of known symptom data values through the use of a computer, taking into account the probability of losing signs; Determining the amount of alignment;
(F) selecting one of the plurality of likely events corresponding to one of the plurality of groups having a minimum mismatch amount, and generating a plurality of indications A method for detecting problems in the system.
システム内の複数のグループの可能な観測し得るイベントの各々と複数のありそうな対応するイベントの一つとの間のコンピュータアクセス可能なマッピングを記憶するための記憶装置と、
前記観測し得るイベントを監視して、前記システムによって生成された一つ以上の既知の観測し得るイベントを検出するための手段と、
既知であると決定されなかった可能な観測し得るイベントの前記複数のグループ内の観測し得るイベントを無視しながら、コンピュータを使用して前記マッピングにおける前記複数のグループの可能な観測し得るイベントの各々と前記一つ以上の既知の観測し得るイベントとの間の不整合量を決定するための手段と、
最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択するための手段と、を含むことを特徴とする、システム内のイベントを検出するための装置。
A storage device for storing a computer accessible mapping between each of a plurality of possible observable events of a plurality of groups in the system and one of a plurality of likely corresponding events;
Means for monitoring the observable event and detecting one or more known observable events generated by the system;
Ignoring observable events in the plurality of groups of possible observable events that have not been determined to be known, while using a computer to identify possible observable events of the plurality of groups in the mapping Means for determining a mismatch amount between each and the one or more known observable events;
Detecting an event in the system comprising: means for selecting one or more of the plurality of likely events corresponding to one of the plurality of groups having a minimum mismatch amount Device to do.
システム内の複数のグループの可能な観測し得るイベントの各々と複数のありそうな対応するイベントの一つとの間のコンピュータアクセス可能なマッピングを使用してシステム内のイベントを検出するための、コンピュータ可読媒体内のコンピュータプログラム製品であって、前記コンピュータプログラム製品は、
前記観測し得るイベントを監視して、前記システムによって生成された一つ以上の既知の観測し得るイベントを検出することと、
既知であると決定されなかった可能な観測し得るイベントの前記複数のグループ内の観測し得るイベントを無視しながら、コンピュータを使用して前記マッピングにおける前記複数のグループの可能な観測し得るイベントの各々と前記一つ以上の既知の観測し得るイベントとの間の不整合量を決定することと、
最小の不整合量を有する前記複数のグループの一つに対応する前記複数のありそうなイベントの一つ以上を選択することと、をコンピュータにさせるための命令を含むことを特徴とするコンピュータプログラム製品。
A computer for detecting an event in a system using a computer accessible mapping between each of a plurality of possible observable events of a plurality of groups in the system and one of a plurality of likely corresponding events A computer program product in a readable medium, the computer program product comprising:
Monitoring the observable event to detect one or more known observable events generated by the system;
Ignoring observable events in the plurality of groups of possible observable events that have not been determined to be known, while using a computer to identify possible observable events of the plurality of groups in the mapping Determining the amount of inconsistency between each and the one or more known observable events;
A computer program comprising instructions for causing a computer to select one or more of the plurality of likely events corresponding to one of the plurality of groups having a minimum mismatch amount. Product.
JP2006509548A 2003-03-31 2004-03-31 Method and apparatus for system management using codebook correlation with symptom exclusion Withdrawn JP2006526842A (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US45907203P 2003-03-31 2003-03-31
PCT/US2004/009946 WO2004090691A2 (en) 2003-03-31 2004-03-31 Method and apparatus for system management using codebook correlation with symptom exclusion

Publications (1)

Publication Number Publication Date
JP2006526842A true JP2006526842A (en) 2006-11-24

Family

ID=33159615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006509548A Withdrawn JP2006526842A (en) 2003-03-31 2004-03-31 Method and apparatus for system management using codebook correlation with symptom exclusion

Country Status (5)

Country Link
US (2) US6965845B2 (en)
EP (1) EP1611414A4 (en)
JP (1) JP2006526842A (en)
CA (1) CA2520962A1 (en)
WO (1) WO2004090691A2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169609A (en) * 2008-01-15 2009-07-30 Fujitsu Ltd Fault management program, fault management device and fault management method
WO2011007394A1 (en) 2009-07-16 2011-01-20 株式会社日立製作所 Management system for outputting information describing recovery method corresponding to root cause of failure

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912055B1 (en) * 2004-08-25 2011-03-22 Emc Corporation Method and apparatus for configuration and analysis of network multicast routing protocols
US8868555B2 (en) * 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
DE102005019335A1 (en) * 2005-04-26 2006-11-02 Volkswagen Ag Method and device for evaluating events from the operation of at least one vehicle
DE102005019518A1 (en) * 2005-04-27 2006-11-02 Volkswagen Ag Method and arrangement for evaluating events, in particular from the operation of a road motor vehicle
US20080071714A1 (en) * 2006-08-21 2008-03-20 Motorola, Inc. Method and apparatus for controlling autonomic computing system processes using knowledge-based reasoning mechanisms
US8013738B2 (en) 2007-10-04 2011-09-06 Kd Secure, Llc Hierarchical storage manager (HSM) for intelligent storage of large volumes of data
US7382244B1 (en) 2007-10-04 2008-06-03 Kd Secure Video surveillance, storage, and alerting system having network management, hierarchical data storage, video tip processing, and vehicle plate analysis
US7904756B2 (en) * 2007-10-19 2011-03-08 Oracle International Corporation Repair planning engine for data corruptions
US10229026B1 (en) * 2007-11-17 2019-03-12 EMC IP Holding Company LLC Method and apparatus for providing environmental management in distributed system data centers
US7813298B2 (en) * 2008-01-31 2010-10-12 Telefonaktiebolaget Lm Ericsson Root cause problem detection in network traffic information
US8527811B2 (en) 2010-09-13 2013-09-03 International Business Machines Corporation Problem record signature generation, classification and search in problem determination
US8812542B1 (en) 2012-03-30 2014-08-19 Emc Corporation On-the-fly determining of alert relationships in a distributed system
US8856257B1 (en) 2012-06-29 2014-10-07 Emc Corporation Sending alerts from cloud computing systems
US8832498B1 (en) 2012-07-30 2014-09-09 Emc Corporation Scalable codebook correlation for cloud scale topology
US9736046B1 (en) 2013-05-30 2017-08-15 EMC IP Holding Company LLC Path analytics using codebook correlation
CN103440174B (en) * 2013-08-02 2016-05-25 杭州华为数字技术有限公司 A kind of error message processing method, device and apply the electronic equipment of this device
US9122605B2 (en) 2013-09-23 2015-09-01 Honeywell International Inc. Methods for determining multiple simultaneous fault conditions
US9811588B1 (en) 2015-03-31 2017-11-07 EMC IP Holding Company LLC Methods and apparatus for generating causality matrix and impacts using graph processing
US10176071B1 (en) 2015-03-31 2019-01-08 EMC IP Holding Company LLC Methods and apparatus for systems determining a probable set of problems to explain symptoms
US9934326B1 (en) 2015-03-31 2018-04-03 EMC IP Holding Company LLC Methods and apparatus for systems providing distributed expression evaluation over streams
US10503413B1 (en) 2016-06-01 2019-12-10 EMC IP Holding Company LLC Methods and apparatus for SAN having local server storage including SSD block-based storage
US11347576B2 (en) 2019-07-23 2022-05-31 Vmware, Inc. Root cause analysis of non-deterministic performance anomalies
US11892900B2 (en) * 2019-07-23 2024-02-06 VMware LLC Root cause analysis of non-deterministic performance anomalies
US11621881B2 (en) * 2020-02-10 2023-04-04 International Business Machines Corporation Error detection and broadcasting using partner sensors

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5528516A (en) * 1994-05-25 1996-06-18 System Management Arts, Inc. Apparatus and method for event correlation and problem reporting
US6006016A (en) * 1994-11-10 1999-12-21 Bay Networks, Inc. Network fault correlation
US5845272A (en) * 1996-11-29 1998-12-01 General Electric Company System and method for isolating failures in a locomotive

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009169609A (en) * 2008-01-15 2009-07-30 Fujitsu Ltd Fault management program, fault management device and fault management method
WO2011007394A1 (en) 2009-07-16 2011-01-20 株式会社日立製作所 Management system for outputting information describing recovery method corresponding to root cause of failure
US8429453B2 (en) 2009-07-16 2013-04-23 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure
US9189319B2 (en) 2009-07-16 2015-11-17 Hitachi, Ltd. Management system for outputting information denoting recovery method corresponding to root cause of failure

Also Published As

Publication number Publication date
US6965845B2 (en) 2005-11-15
US20040249610A1 (en) 2004-12-09
EP1611414A2 (en) 2006-01-04
WO2004090691A2 (en) 2004-10-21
WO2004090691A3 (en) 2005-11-10
US7065467B1 (en) 2006-06-20
CA2520962A1 (en) 2004-10-21
EP1611414A4 (en) 2010-01-13

Similar Documents

Publication Publication Date Title
JP2006526842A (en) Method and apparatus for system management using codebook correlation with symptom exclusion
US7664986B2 (en) System and method for determining fault isolation in an enterprise computing system
Di et al. Logaider: A tool for mining potential correlations of hpc log events
US20090044053A1 (en) Method, computer system, and computer program product for problem determination using system run-time behavior analysis
US20090106180A1 (en) Health meter
US20110154117A1 (en) Methods and apparatus to perform log file analyses
US9459947B2 (en) Error report processing using call stack similarity
US20240020215A1 (en) Analyzing large-scale data processing jobs
CA3127100C (en) Anomaly detection for predictive maintenance and deriving outcomes and workflows based on data quality
US7398511B2 (en) System and method for providing a health model for software
CN100478905C (en) Method and system for measuring independence ability of computer system
EP3470988A1 (en) Method for replicating production behaviours in a development environment
US7254515B1 (en) Method and apparatus for system management using codebook correlation with symptom exclusion
US9397921B2 (en) Method and system for signal categorization for monitoring and detecting health changes in a database system
Chuah et al. Towards comprehensive dependability-driven resource use and message log-analysis for HPC systems diagnosis
US20100251029A1 (en) Implementing self-optimizing ipl diagnostic mode
US20230244674A1 (en) Using workload data to train error classification model
US12084205B2 (en) Methods and systems for identifying aircraft faults
JP6340990B2 (en) Message display method, message display device, and message display program
US20210304070A1 (en) Machine learning model operation management system, operation management method, and computer readable recording medium
Jambigi et al. Automatic error classification and root cause determination while replaying recorded workload data at SAP HANA
JPH11308221A (en) Network management system
CN118606344A (en) Method, device, equipment, medium and program product for determining adaptation result

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605