[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4383484B2 - メッセージ解析装置、制御方法および制御プログラム - Google Patents

メッセージ解析装置、制御方法および制御プログラム Download PDF

Info

Publication number
JP4383484B2
JP4383484B2 JP2007524501A JP2007524501A JP4383484B2 JP 4383484 B2 JP4383484 B2 JP 4383484B2 JP 2007524501 A JP2007524501 A JP 2007524501A JP 2007524501 A JP2007524501 A JP 2007524501A JP 4383484 B2 JP4383484 B2 JP 4383484B2
Authority
JP
Japan
Prior art keywords
message
error
unit
information
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007524501A
Other languages
English (en)
Other versions
JPWO2007007410A1 (ja
Inventor
規子 笛吹
雅己 垰田
展洋 ▲高▼野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2007007410A1 publication Critical patent/JPWO2007007410A1/ja
Application granted granted Critical
Publication of JP4383484B2 publication Critical patent/JP4383484B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2289Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by configuration test

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、コンピュータを構成するハードウェアを管理する各ソフトウェアによって生成された当該ハードウェアの状態にかかるメッセージを解析するメッセージ解析装置に関するものである。
従来、コンピュータに対する信頼性等を向上させるために、コンピュータを管理する管理者は、このコンピュータから、コンピュータの運用状況や、エラーなどの情報(以下、エラーメッセージ)を含んだメッセージを定期的(または不規則)に取得して、コンピュータのエラー箇所などを特定し、特定したエラー箇所を修正する必要があった。
しかし、コンピュータから出力されるメッセージは、エラーメッセージのみならず、多種多様な情報が含まれていると共に、メッセージ量が膨大であるため、メッセージを解析して、コンピュータのエラーを特定・修正する管理者に多大な負担をかけてしまうという問題があった。
そこで、近年では、複数のエラーメッセージにかかわる正規表現を集めた辞書情報を予め作成し、この辞書情報を基にして、コンピュータから出力される膨大な量のメッセージをエラーメッセージのみに絞り込むことによって、管理者の解析すべきメッセージ量を減らし、管理者にかかる負担を軽減させている。
なお、特許文献1では、コンピュータから出力されるメッセージに属性を付加すると共に、この属性の結合順序などを定めた結合情報に基づいて各メッセージを結合させることで、メッセージを最適な順番に並び替えるという技術が公開されている。
特開2002−351894号公報
しかしながら、従来にかかる技術では、管理者が解析すべきメッセージ量を多少減少させることができるものの、最終的なエラー箇所を特定する場合には、管理者自身が、各階層のドライバやアプリケーションが出力した複数種類のエラーメッセージの相互関係を考慮して、一つ一つ各エラーメッセージを解析し、エラー箇所を特定する必要があったため、管理者には依然多大な負荷がかかってしまうという問題があった。
また、複数のエラーメッセージを基にして、エラー箇所を特定する場合には、専門的な知識が必要となるため、管理者は、エラーメッセージをコンピュータの設計者に問い合わせてエラー箇所を特定する必要もあり、非常に非効率でコストもかかってしまうという問題もあった。
すなわち、管理者にかかる負担を軽減させると共に、エラーメッセージの相互関係を考慮して、コンピュータのエラー箇所などを効率的に判定することが極めて重要な課題となっている。
本発明は、上記に鑑みてなされたものであって、管理者にかかる負担を軽減させると共に、エラーメッセージの相互関係を考慮して、コンピュータのエラー箇所を効率的に判定可能なメッセージ解析装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明は、情報処理装置に接続され、前記情報処理装置を構成するハードウェアを制御するソフトウェアが出力する前記ハードウェアの状態を表すメッセージファイルを解析するメッセージ解析装置において前記情報処理装置から取得した前記メッセージファイルの中からエラーメッセージ群を抽出するピックアップ部と、エラーメッセージ群に含まれるメッセージと、前記メッセージに含まれるエラーの種別を示すエラー種別情報との対応関係を表すエラー種別辞書情報を含むメッセージ定義辞書情報を格納する記憶部と、前記ピックアップ部が抽出したエラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれる重み付け情報に基づいて、優先度の高いメッセージを選択する絞込み部と、前記絞込み部が選択したメッセージに含まれるエラー種別情報と前記記憶部が格納するメッセージ定義辞書情報に含まれるエラー種別辞書情報に基づいて、前記ハードウェアのエラー箇所を特定するエラー箇所検出特定部を有することを特徴とする。
本発明にかかるメッセージ解析装置は、情報処理装置から取得したメッセージファイルの中からエラーメッセージ群を抽出し、エラーメッセージ群に含まれるメッセージと、メッセージに含まれるエラーの種別を示すエラー種別情報との対応関係を表すエラー種別辞書情報を含むメッセージ定義辞書情報を格納し、エラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれる重み付け情報に基づいて、優先度の高いメッセージを選択し、選択したメッセージに含まれるエラー種別情報とメッセージ定義辞書情報に含まれるエラー種別辞書情報に基づいて、ハードウェアのエラー箇所を特定するので、管理者にかかる負担を軽減させると共に、エラーメッセージの相互関係を考慮したコンピュータの状態(不具合の発生したハードウェアやコンピュータの運用状態など)を効率的に判定することができる。
以下に、本発明に係るメッセージ解析装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
まず、本実施例にかかるメッセージ解析装置の概念について説明する。図1は、本実施例にかかるメッセージ解析装置の概念を説明するための説明図である。図1では、一例として、メッセージ解析装置100が、所定の業務を実行するサーバ50から、このサーバ50の運用状態を示すメッセージを複数含んだメッセージファイルを取得し、このメッセージファイルからサーバ50の状態を判定する場合について説明する。
なお、サーバ50は、OS(Operating System)51と、ボリュームドライバ52と、I/O(Input/Output)デバイスドライバ53と、HBA(Host Bus Adapter)ドライバ54と、HBA55,56と、I/O装置57,58とを有する。
OS51は、ファイルの管理、メモリの管理、入出力の管理、ユーザーインターフェースの提供などを行なう処理部である。ボリュームドライバ52は、I/O装置57,58のミラー構成を制御する処理部である。なお、図1の例では、ボリュームドライバ52に含まれるボリュームドライバ52aがI/O装置57,58のミラー構成を制御する。
I/Oデバイスドライバ53は、I/O装置57,58を制御する処理部である。なお、図1の例では、I/Oデバイスドライバ53に含まれるI/Oデバイスドライバ53aが、I/O装置57を制御し、I/Oデバイスドライバ53bが、I/O装置58を制御する。
HBAドライバ54は、HBA55,56を制御する処理部である。なお、図1の例では、HBAドライバ54に含まれるHBAドライバ54aが、HBA57を制御し、HBAドライバ54bが、HBA58を制御する。
HBA55,56は、HBAドライバ54とI/O装置57,58とを接続し、所定の情報を中継する装置であり、I/O装置57,58は、情報を記憶する記憶装置である。なお、I/O装置57,58間はミラーリングされている。
サーバ50は、OS51、ボリュームドライバ52、I/Oデバイスドライバ53、HBAドライバ54から出力される複数のメッセージをメッセージファイルとして出力する。そして、メッセージ解析装置100は、入力装置200を介して、サーバ50からメッセージファイルを取得する。
メッセージ解析装置100は、エンジン部100bが、サーバ50から取得したメッセージファイルおよびメッセージ定義辞書情報群100aなどに基づいて、メッセージファイルに含まれる複数のメッセージ間の関連を解析し、故障した部品やサーバ50の運用状態などを判定し、判定した結果を表示装置300に出力する。
このように、メッセージ解析装置100は、メッセージファイルから、エラー発生箇所や故障した部品の位置、運用状態などを判定するので、管理者にかかる負担を軽減させることができる。
次に、本実施例にかかるメッセージ解析装置の構成について説明する。図2は、本実施例にかかるメッセージ解析装置の構成を示す機能ブロック図である。同図に示すように、このメッセージ解析装置100は、インターフェース部110と、エンジン部120と、記憶部130とを有する。なお、メッセージ解析装置100は、キーボードやマウスなどの入力装置200とディスプレイなどの表示装置300に接続されている。
インターフェース部110は、入力装置200から入力されるメッセージファイルなどの情報をエンジン部120に転送する処理部である。また、インターフェース部110は、エンジン部120から取得した情報を、表示装置300に出力する。
エンジン部120は、入力装置200から取得したメッセージファイルと、記憶部130に記憶されたメッセージ定義辞書情報群130aとを基にして、メッセージファイルを出力したコンピュータ(図1の例では、サーバ50)のエラー発生状態を判定する処理部である。
ここで、メッセージ定義辞書情報群130aについて説明する。図3は、メッセージ定義辞書情報群130aのデータ構造の一例を示す図である。同図に示すように、このメッセージ定義辞書情報群130aは、「正規表現フォーマット」、「メッセージ行数」、「コード」、「エラー種別」、「対処方法番号」、「ドライバクラス」、「被疑部品番号」、「異常/復旧構成部品」、「重み付け」、「最終絞込み方法」、「エラー概要番号」、「インスタンス名取得情報」、「運用状態」を有する。なお、メッセージ定義辞書情報群130aには複数のメッセージ定義辞書情報1、2、・・・が含まれる。ここでは、説明の便宜上、メッセージ定義辞書情報1、2のみを示し、その他のメッセージ定義辞書情報は省略する。
「正規表現フォーマット」は、メッセージファイルに含まれるメッセージと、メッセージ定義辞書情報群130aに含まれるメッセージ定義辞書情報とを対応付けるための情報である。例えば、図3の例では、正規表現フォーマット「WARNING.*mp.*switch no existed.」のフォーマット形式と一致するメッセージファイル中のメッセージは、メッセージ定義辞書情報1に対応付けられる。また、正規表現フォーマットは、メッセージファイルの中から所定のメッセージをピックアップする場合にも利用される。
「メッセージ行数」は、メッセージ定義辞書情報に対応付けられるべきメッセージが、何行で構成されているかを示す情報である。図3に示すメッセージ定義辞書情報1では「3」行のメッセージとなる。「コード」は、メッセージに利用される文字コードを示す情報である。図3に示すメッセージ定義辞書情報1でのコードは「ASCII」となる。
「エラー種別」は、メッセージ定義辞書情報に対応付けられるメッセージのエラーの種別を示す。例えば、図3のメッセージ定義辞書情報1に対応付けられたメッセージのエラーの種別は、「インターフェースエラー」となる。
「対処方法番号」は、エラーの対処方法にかかわる情報の記録場所(図2に示す対処方法ファイル情報130eにエラーの対処方法が記録されている)を特定するための情報である。すなわち、図3のメッセージ定義辞書情報1では、エラー種別「インターフェースエラー」にかかわる対処方法が、対処方法ファイル情報130eの「3」番と「7」番とに記録されている。なお、対処方法ファイル情報130eは、エラーの対処方法一覧を記録した情報であり、各番号とエラー対処方法とがそれぞれ一対一で対応付けられている。エラー対処方法の一例としては、「被疑部品の接続状態などを確認してください」などがあげられる。
「ドライバクラス」は、メッセージ定義辞書情報に対応付けられたメッセージが所属するドライバのクラス階層情報を示す。図3のメッセージ定義辞書情報1では、このメッセージ定義辞書情報1に対応付けられたメッセージが、HBA層に所属することを示す。
「被疑部品番号」は、エラー種別によって特定されるエラーが発生した場合に、交換対象となる部品情報(図2に示す被疑部品リスト情報130cに交換対象となる部品の情報が記録されている)の記録場所を特定するための情報である。すなわち、図3のメッセージ定義辞書情報1では、エラー種別「インターフェースエラー」にかかわる交換部品の情報が、被疑部品リスト情報130cの「1」番と「6」番と「102」番に記録されている。
図4は、被疑部品リスト情報130cのデータ構造の一例を示す図である。同図に示すように、この被疑部品リスト情報130cは、各番号と、交換対象の部品の情報とがそれぞれ関連付けられている。図3,図4より、被疑部品番号「1」に対応する交換部品は「PCIバス[処理装置/PCIBox/PCIディスクBox](ハード故障)」であり、被疑部品番号「6」に対応する交換部品は「終端抵抗(ハード故障)」であり、被疑部品番号「102」に対応する交換部品は「I/O装置または媒体(媒体異常)」である。
図3の説明に戻ると、「異常/復旧構成部品」は、パスやボリュームなどの冗長構成を管理する管理系メッセージが管理しているインスタンス名(ディスクやテープなどの装置と制御ドライバを対応付けるための論理名)もしくは物理パスの情報を示す。
「重み付け」は、メッセージ定義辞書情報によって対応付けられたメッセージの優先順位を示し、この重み付けの数値が大きいほど優先順位は高くなる。「最終絞込み方法」は、重み付けの数値が同値であるメッセージが複数存在する場合に、どのようにメッセージの優先順位を決定するかを示す情報である。図3に示すメッセージ定義辞書情報1では、最終絞込み方法が「最後のメッセージに絞り込む」であるため、重み付けの数値が同値であるメッセージが複数ある場合には、最後に出てきたメッセージの優先順位を最も高くする。
「エラー概要番号」は、メッセージ定義辞書情報によって対応付けられたメッセージのエラー概要にかかわる情報の記録場所(図2に示すエラー概要ファイル情報130dにエラー概要が記録されている)を特定するための情報である。すなわち、図3のメッセージ定義辞書情報1では、エラー概要番号が「1」番と「20」番とになっているため、メッセージのエラー概要が、エラー概要ファイル情報130dの「1」番と「20」番とに記録されている。なお、エラー概要ファイル情報130dは、エラーの概要一覧を記録した情報であり、各番号とエラー概要とがそれぞれ一対一で対応付けられている。エラー概要の一例としては、「対向装置の光信号を検出できないが、または同期が取れません」などがあげられる。
「インスタンス名取得情報」は、メッセージファイルに含まれるメッセージのどの部分にインスタンス情報が含まれているかを示す情報である。ここで、インスタンス情報は、デバイスと、このデバイスを制御するためのドライバとを対応関係を示す情報である。
「運用状態」は、メッセージ定義辞書情報に対応付けられたメッセージにかかわるインスタンス(すなわち、デバイスとこのデバイスを制御する制御ドライバ)の運用状態を示す情報である。例えば、図3に示したメッセージ定義辞書情報1に対応付けられたメッセージのインスタンスは、継続(リトライ)中であることがわかる。
ここで、図2に示したエンジン部120の説明に戻ると、エンジン部120は、ピックアップ部120aと、グループ分け部120bと、絞込み部120cと、エラー箇所検出特定部120dと、被疑部品特定部120eと、グループ統合部120fと、運用状態特定部120gと、出力部120hとを有する。
ピックアップ部120aは、入力装置200から入力されるメッセージファイルと、メッセージ定義辞書情報群130aとを基にして、メッセージ定義辞書情報群130aの各正規表現フォーマットと形式が一致するメッセージを抽出する処理部である。なお、図示しないが、ピックアップ部120aは、メッセージファイルを一旦、記憶部130に記憶させる。
図5は、ピックアップ部120aの処理を説明するための説明図である。同図に示すように、メッセージファイル中のメッセージ1(ここでは説明の便宜上、メッセージ1のみを示す)は、図3に示したメッセージ定義辞書情報2の正規表現フォーマット「WARNING.*/disk @.*(disk.*)\n transport failed:.*retrying」と一致するため、メッセージ1は、メッセージ定義辞書情報2に対応付けられると共に、ビックアップ部120aに抽出される。
なお、ピックアップ部120aが、メッセージファイルの中から、正規表現フォーマットと形式が一致するメッセージを抽出する手法は、どのような方法を用いてもよいが、紛れメッセージに注意する必要がある。
図6は、紛れメッセージを説明するための説明図である。同図に示すように、通常のメッセージは、各メッセージ単位で分かれているため問題はないが、紛れメッセージは、一方のメッセージが、他方のメッセージに割り込んでしまっているため、ピックアップ処理部120aは、通常の抽出処理を行った後に、紛れメッセージを考慮した抽出処理を再度行う。なお、紛れメッセージを考慮した抽出処理は、後のフローチャートにて詳しく説明する。
図7は、ピックアップ部120aが、所定のメッセージファイル(ここでは、図示しない)から抽出したメッセージ群の一例を示す図である。なお、以下では、図7に示すメッセージ群をエラーメッセージ群400と表記し、エラーメッセージ群400に含まれる各メッセージをエラーメッセージと表記する。図7では、1〜8のエラーメッセージが抽出された場合を示している。
また、図7に示すように、2と3のエラーメッセージ、4と8のエラーメッセージ、6と7のエラーメッセージはそれぞれ同じインスタンスとなっている。すなわち、2と3のエラーメッセージは、インスタンス(disk2)で一致し、4と8のエラーメッセージは、インスタンス(mp0)で一致し、メッセージ6と7のエラーメッセージは、インスタンス(disk4)で一致している。
また、図7に示すように、1と5のエラーメッセージはHBÅ層に属し、2と3と6と7のメッセージはターゲット層に属し、4と8のメッセージはパス管理層に属している。
ところで、図7のエラーメッセージ1〜8には含まれていないが、図1に示したボリュームドライバ52に属する層、すなわち、ボリューム層も存在する。なお、HBA層、ターゲット層、パス管理層、ボリューム層の順で上位階層(ボリューム層が最上位階層)となる。
なお、本実施例では一例として、このエラーメッセージ群400を利用して、各処理部、すなわち、グループ分け部120b、絞込み部120c、エラー箇所検出特定部120d、被疑部品特定部120e、グループ統合部120f、運用状態特定部120g、出力部120hの説明を行うこととする。
グループ分け部120bは、ピックアップ部120aからエラーメッセージ群400を取得し、エラーメッセージ群400に含まれる各エラーメッセージを、各エラーメッセージの物理パスに基づいて、グループ分けする処理部である。
グループ分け部120bは、エラーメッセージ群400の各エラーメッセージを物理パス(/FC@0)と(/FC@1)とのグループに分けることができる。具体的には、グループ分け部120bは、1,2,3,4,8のエラーメッセージのグループと5,6,7のエラーメッセージのグループとに分けることができる。以下、1,2,3,4,8のエラーメッセージのグループを「グループA」、5,6,7のエラーメッセージのグループを「グループB」と表記する。図8は、グループ分け部120bの処理を補足説明するための説明図である。
絞込み部120cは、エラーメッセージ群400と、各エラーメッセージに対応する各メッセージ定義辞書情報と、グループ分け部120bが分割した各グループA,Bの情報を取得し、エラーメッセージの総数を絞り込む処理部である。
具体的に、絞込み部120cは、まず、同一のインスタンスを有するエラーメッセージを特定する。エラーメッセージ群400より、2と3のエラーメッセージのインスタンス、4と8のエラーメッセージのインスタンス6と7のエラーメッセージのインスタンスが同一である。
そこで、絞込み部120cは、2,3,4,8,6,7のエラーメッセージに対応するメッセージ定義辞書情報を取得し、「重み付け」に設定された数値を基にして、それぞれ優先順位の高いエラーメッセージを選択する。本実施例では、2のエラーメッセージよりも3のエラーメッセージのほうが重み付けの数値が高く、4のエラーメッセージよりも8のエラーメッセージのほうが重み付けの数値が高く、6のエラーメッセージよりも7のエラーメッセージのほうが重み付けの数値が高く設定されていたこととする。
絞込み部120cが、上記処理を実行することによって、1〜8のエラーメッセージは、1と3と5と7と8のエラーメッセージ(以下、エラーメッセージ群500と表記する)に絞られることとなる。図9は、絞込み部120cの処理を補足説明するための説明図である。
エラー箇所検出特定部120dは、絞込み部120cからエラーメッセージ群500と、エラーメッセージ群500の各エラーメッセージに対応するメッセージ定義辞書情報とを取得して、エラー発生箇所を特定する処理部である。
具体的に、エラー箇所検出特定部120dは、エラーメッセージ群500に対応する各メッセージ定義辞書情報の運用状態およびエラーメッセージが属する階層(HBA層、ターゲット層など)を特定し、最下層(HBA層)からある層(たとえばボリューム層)までの間で、ある運用状態(たとえば、停止または縮退)のエラーメッセージを、エラー箇所を特定するエラーメッセージ(以下、エラー箇所特定メッセージと表記する)とする。
本実施例では、エラー箇所検出特定部120dは、エラーメッセージ群500から、1と3と5と7のエラーメッセージを、エラー箇所特定メッセージとして選択する。図10は、エラー箇所検出特定部120dの処理を補足説明するための説明図である。
被疑部品特定部120eは、絞込み部120cからエラーメッセージ群500と、エラーメッセージ群500の各エラーメッセージに対応するメッセージ定義辞書情報とを取得して、故障したコンピュータの部品を特定する処理部である。
具体的に、被疑部品特定部120eは、エラーメッセージ群500に対応する各メッセージ定義辞書情報のエラー種別およびエラーメッセージが属する階層を特定し、各エラーメッセージのうち、最下層(ハードに近い)のエラーメッセージを、故障したコンピュータの部品を特定するエラーメッセージ(以下、被疑部品特定メッセージと表記する)とする。
なお、被疑部品特定部120eは、グループ内で、エラー種別の関連性がない場合には、各エラーメッセージを被疑部品特定メッセージとして選択する。例えば、グループAにおいて、1,3,8のエラーメッセージのエラー種別がインターフェースエラーで関連している場合には、最下層の、1のエラーメッセージが被疑部品特定メッセージとして選択されるが、1,3,8のエラーメッセージのエラー種別が、ばらばらの場合は、複数の階層のエラーメッセージが、それぞれ被疑部品特定メッセージとして選択される。本実施例では、各エラーメッセージのエラー種別が関連しているものとする。図11は、被疑部品特定部120eの処理を補足説明するための説明図である。図11のように、本実施例では、1と5のエラーメッセージが被疑部品特定メッセージとして選択される。
グループ統合部120fは、被疑部品特定部120eからエラーメッセージ群500と、エラーメッセージ群500の各エラーメッセージに対応するメッセージ定義辞書情報とを取得して、メッセージ定義辞書情報の異常/復旧構成部品が同一のエラーメッセージ同士を統合する処理部である。
本実施例のエラーメッセージ群500は、それぞれのメッセージ定義辞書情報の異常/復旧構成部品が同一であるため、グループAおよびグループBを「グループC」に統合する。図12は、グループ結合部120fの処理を補足説明するための説明図である。
運用状態特定部120gは、グループ統合部120fから、エラーメッセージ群500と、統合したグループCの情報と、各エラーメッセージに対応するメッセージ定義辞書情報とを取得し、最上位層のエラーメッセージを運用状態特定メッセージとして選択する。本実施例では、8のエラーメッセージが最上位層のエラーメッセージであるため、運用状態特定部120gは、8のエラーメッセージを運用状態特定メッセージとして選択する。
出力部120hは、エラーメッセージ群400の情報、エラー箇所特定メッセージ、被疑部品特定メッセージおよび運用状態特定メッセージの情報を各処理部(エラー箇所検出特定部120d、被疑部品特定部120e、運用状態特定部120g)から取得し、所得した各情報と、メッセージ定義辞書情報群130a、出力情報定義辞書情報130b、被疑部品リスト情報130c、エラー概要ファイル情報130d、対処方法ファイル情報130eを基にして、コンピュータ(図1の場合では、サーバ50)のエラー発生状態の情報(以下、メッセージ解析結果と表記する)を表示装置300に出力する処理部である。
図13は、表示装置300に表示されるメッセージ解析結果の一例である。同図に示すように、このメッセージ解析結果には、「概要」、「被疑部品」、「対処方法」、「検出箇所」、「運用状態」、「絞込みメッセージ」が含まれる。この表示画面のフォーマットなどは、出力情報定義辞書情報130bに設定されている。
ここで、「概要」は、エラー箇所特定メッセージに対応するメッセージ定義辞書情報のエラー概要番号と、エラー概要ファイル情報130dとで特定されるエラーの概要であり、「被疑部品」は、被疑部品特定メッセージに対応するメッセージ定義辞書情報の被疑部品番号と、被疑部品リスト情報130cとによって特定される被疑部品の情報である。
「対処方法」は、エラー箇所特定メッセージに対応するメッセージ定義辞書情報の対処方法番号と、対処方法ファイル情報130eとで特定されるエラーの対処方法であり、「検出箇所」は、被疑部品特定メッセージに対応するメッセージ定義辞書情報の異常/復旧構成部品の情報(故障の発生した部品の情報)を示す。
「運用状態」は、運用状態特定メッセージに対応するメッセージ定義辞書情報の運用状態の情報を示す。「絞込みメッセージ」は、エラーメッセージ群400の各エラーメッセージの情報を示す。
このように、図13に示した表示画面を管理者が参照することによって、管理者はコンピュータのエラー箇所や、故障の発生した部品などを、容易に特定することができるので、管理者にかかる負担を軽減させることができる。
次に、本実施例にかかるメッセージ解析装置100の処理について説明する。図14は、本実施例にかかるメッセージ解析装置100の処理手順を示すフローチャートである。同図に示すように、メッセージ解析装置100は、エンジン部120が、メッセージファイルを入力装置200から取得し(ステップS101)、メッセージ定義辞書情報群130aを取得する(ステップS102)。
そして、ピックアップ部120aが、メッセージピックアップ処理を行い(ステップS103)、グループ分け部120bが、グループ分け処理を行い(ステップS104)、絞込み部120cが、絞込み処理を行う(ステップS105)。
続いて、エラー箇所検出特定部120dが、エラー箇所検出処理を行い(ステップS106)、被疑部品特定部120eが、被疑部品特定処理を行い(ステップS107)、グループ統合部120fが、グループ統合処理を行う(ステップS108)。
そして、運用状態特定部120gが、運用状態特定処理を行い(ステップS109)、出力部120hがメッセージ解析結果を作成し(ステップS110)、メッセージ解析結果を表示装置300に出力する(ステップS111)。
次に、図14のステップS103に示したメッセージピックアップ処理について説明する。図15は、図14のステップS103に示したメッセージピックアップ処理のフローチャートである。同図に示すように、ピックアップ部120aが、メッセージファイルから所定の行単位でメッセージを読み込み(ステップS201)、未選択のメッセージを取得する(ステップS202)。
そして、正規表現フォーマットと、取得したメッセージとを比較し(ステップS203)、一致した場合には(ステップS204,Yes)、一致したメッセージをエラーメッセージ群に追加し(ステップS205)、すべてのメッセージに対するマッチングが終了したか否かを判定する(ステップS207)。一方、一致しなかった場合には(ステップS204,No)、一致しなかったメッセージを紛れメッセージ群に追加し(ステップS206)、ステップS207に移行する。
すべてのメッセージに対するマッチングが終了したか否かを判定し、すべてのメッセージに対するマッチングが完了していない場合には(ステップS208,No)、ステップS202に移行し、すてのメッセージに対するマッチングが完了している場合には(ステップS208,Yes)、紛れメッセージピックアップ処理を行う(ステップS209)。
次に、図15のステップS209に示した紛れメッセージピックアップ処理について説明する。図16は、図15のステップS209に示した紛れメッセージピックアップ処理のフローチャートである。同図に示すように、ピックアップ部120aは、紛れメッセージ群を読み込み(ステップS301)、未選択の紛れメッセージを(一行のみ)選択する(ステップS302)。
続いて、正規表現フォーマットと、取得したメッセージとを一行ずつ比較し(ステップS303)、一致した場合には(ステップS304,Yes)、残りの行が一致するか否かを判定し、一致する場合に、当該メッセージをエラーメッセージ群に追加し(ステップS305)、全てのメッセージ行に対するマッチングが完了したか否かを判定する(ステップS306)。一方、一致しない場合には(ステップS304,No)、そのままステップS306に移行する。
そして、全てのメッセージ行に対するマッチングが完了していない場合には(ステップS306,No)、ステップS302に移行し、全てのメッセージ行に対するマッチングが完了した場合には(ステップS306)、紛れメッセージピックアップ処理を終了する。
このように、ピックアップ部120aは、メッセージファイルに含まれる大量のメッセージを必要なメッセージ(エラーメッセージ群)だけに絞り込むので、コンピュータのエラー発生状態を効率よく判定することができる。
次に、図14のステップS104で示したグループ分け処理について説明する。図17は、図14のステップS104で示したグループ分け処理のフローチャートである。同図に示すように、グループ分け部120bは、未選択のエラーメッセージを選択し(ステップS401)、選択したエラーメッセージが物理パス情報を保持しているか否かを判定する(ステップS402)。
そして、物理パスを保持している場合には(ステップS403,Yes)、適合する物理パスを既存のグループが保持しているか否かを判定し(ステップS404)、適合する物理パスを保持していない場合には(ステップS405,No)、新しいグループを作成し、作成したグループにエラーメッセージを追加し(ステップS406)、ステップS412に移行する。
一方、適合する物理パスを保持している場合には(ステップS405,Yes)、適合する物理パスを持つ既存のグループにエラーメッセージを追加し(ステップS407)、ステップS412に移行する。
一方、選択したメッセージが物理パスを保持していない場合には(ステップS407,No)、選択したエラーメッセージと同じインスタンスが既存のグループに存在するか否かを判定し(ステップS408)、存在する場合には(ステップS409,Yes)、同じインスタンスを保持する既存のグループにエラーメッセージを追加し(ステップS410)、グループ分けが完了していない場合には(ステップS412,No)、ステップS401に移行し、グループ分けが完了した場合には(ステップS412,Yes)、グループ分け処理を終了する。
一方、選択したエラーメッセージと同じインスタンスが既存のグループに存在しない場合には(ステップS409,No)、時間的に最も近いメッセージが所属するグループにエラーメッセージを追加し(ステップS411)、ステップS412に移行する。
このように、グループ分け部120bは、ばらばらに分かれているメッセージを物理的に関連するグループごとに分けるので、効率よくコンピュータのエラー発生状態を解析することができる。
次に、図14のステップS105で示した絞込み処理について説明する。図18は、図14のステップS105で示した絞込み処理のフローチャートである。同図に示すように、絞込み部120cは、未選択のグループを選択し(ステップS501)、グループ内に同じインスタンスのエラーメッセージが存在するか否かを判定する(ステップS502)。
そして、同じインスタンスが存在しない場合には(ステップS503,No)、同じインスタンスを含んだ、各エラーメッセージの「重み」を、メッセージ定義辞書情報から取得し(ステップS504)、各重みを比較して、重みが小さい側のエラーメッセージを無効化し(ステップS505)、全てのグループを選択していない場合には(ステップS506,No)、ステップS501に移行し、全てのグループを選択した場合には(ステップS506,Yes)、絞込み処理を終了する。
一方、グループ内に同じインスタンスのエラーメッセージが存在しない場合には(ステップS503,No)、そのままステップS506に移行する。
このように、絞込み部120cは、同一のインスタンスを有する複数のエラーメッセージを一つに絞り込むので、各インスタンスの状況をより高精度に判定することができる。
次に、図14のステップS106で示したエラー箇所検出処理について説明する。図19は、図14のステップS106で示したエラー箇所検出処理のフローチャートである。同図に示すように、エラー箇所検出特定部120dが、未選択のグループを選択し(ステップS601)、選択したグループ内の、各エラーメッセージに対するメッセージ定義辞書情報を取得する(ステップS602)。
続いて、グループ内の、未選択のエラーメッセージを選択し(ステップS603)、選択したエラーメッセージの運用状態が「停止」または「縮退」で、HBA層である場合には(ステップS604,Yes)、選択したエラーメッセージをエラー箇所特定メッセージに設定し(ステップS605)、ステップS611に移行する。
一方、選択したエラーメッセージの運用状態が「停止」または「縮退」で、HBA層でない場合には(ステップS604,No)、運用状態がステータス(正常)か否かを判定し(ステップS606)、ステータスである場合には(ステップS606,Yes)、ステップS611に移行する。
一方、ステータスでない場合には(ステップS606,No)、選択したエラーメッセージがターゲット(target)層か否かを判定し(ステップS607)、選択したエラーメッセージがターゲット層である場合には(ステップS607,Yes)、ステップS605に移行する。
選択したエラーメッセージがターゲット層でない場合には(ステップS607)、選択したエラーメッセージがターゲット層であり、かつグループ内の他のエラーメッセージは、HBA層か否かを判定し(ステップS608)、エラーメッセージがターゲット層であり、かつグループ内の他のエラーメッセージがHBA層でない場合には(ステップS608,Yes)、ステップS605に移行する。
一方、ステップS608の条件を満たさない場合には(ステップS608,No)、選択したエラーメッセージがパス管理層であり、グループ内の他のエラーメッセージが、HBA層またはターゲット層でないか否かを判定する(ステップS609)。
選択したエラーメッセージがパス管理層であり、グループ内の他のエラーメッセージが、HBA層またはターゲット層でない場合には(ステップS609,Yes)、ステップS605に移行する。
一方、ステップS609の条件を満たさない場合には(ステップS609,No)、選択したエラーメッセージがボリューム管理層であり、グループ内の他のエラーメッセージが、ボリューム管理層か否かを判定する(ステップS610)。
選択したエラーメッセージがボリューム管理層であり、グループ内の他のエラーメッセージが、ボリューム管理層である場合には(ステップS610,Yes)、ステップS605に移行する。
一方、ステップS610の条件を満たさない場合には(ステップS610,No)、グループ内の全てのエラーメッセージを選択したか否かを判定し(ステップS611)、グループ内の全てのエラーメッセージを選択していない場合には(ステップS611,No)、ステップS603に移行し、全てのエラーメッセージを選択している場合には(ステップS611,Yes)、全てのグループを選択したか否かを判定する(ステップS612)。
そして、全てのグループを選択していない場合には(ステップS612,No)、ステップS601に移行し、全てのグループを選択した場合には(ステップS612,Yes)、エラー箇所検出処理を終了する。
このように、エラー箇所検出特定部120dは、各エラーメッセージの運用状態および階層を基にして、エラー箇所特定メッセージを選択するので、精度よく、コンピュータのエラー箇所を特定することができる。
次に、図14のステップS107で示した被疑部品特定処理について説明する。図20は、図14のステップS107で示した被疑部品特定処理のフローチャートである。同図に示すように、被疑部品特定部120eは、未選択のグループを選択し(ステップS701)、選択したグループ内の、各エラーメッセージに対するメッセージ定義辞書ファイルを取得する(ステップS702)。
そして、各エラーメッセージのエラー種別が関連しているか否かを判定し(ステップS703)、関連する場合には(ステップS704,Yes)、各エラーメッセージのうち、ハードに近い最下層のエラーメッセージを被疑部品特定メッセージに設定し(ステップS705)、全てのグループを選択した場合には(ステップS707,No)、ステップS701に移行する。
一方、各エラーメッセージのエラー種別が関連していない場合には(ステップS704,No)、各エラーメッセージを被疑部品特定メッセージに設定し(ステップS706)、ステップS707に移行する。
このように、被疑部品特定120eは、各エラーメッセージのエラー種別が関連している場合に、各エラーメッセージのうち、最もハードウェアに近い下位層に属するエラーメッセージを被疑部品特定メッセージとして設定するので、故障した部品を高精度で特定することができる。
次に、図14のステップS108で示したグループ統合処理について説明する。図21は、図14のステップS108で示したグループ統合処理のフローチャートである。同図に示すように、グループ統合部120fは、各グループ内に管理系のエラーメッセージに対する「異常/復旧構成部品」の物理アドレス(管理系のエラーメッセージ)が存在するか否かを判定する(ステップS801)。
そして、「異常/復旧構成部品」の物理アドレスが存在する場合には(ステップS802,Yes)、各エラーメッセージの「異常/復旧構成部品」の物理アドレスが、他のグループに含まれるエラーメッセージの物理アドレスと一致するか否かを判定し(ステップS803)、一致する場合には(ステップS804,Yes)、物理パスが一致したエラーメッセージ同士を統合し(ステップS805)、一致しない場合には(ステップS804,No)、グループ統合処理を終了する。なお、「異常/復旧構成部品」の物理アドレスが存在しない場合には(ステップS802,No)、グループ統合処理を終了する。
このように、グループ統合部120fは、物理的に関連するエラーグループ同士を統合するので、システムの運用単位でメッセージを見ることができ、運用状態を把握しやすくなる。
次に、図14のステップS109で示した運用状態特定処理について説明する。図22は、図14のステップS109で示した運用状態特定処理のフローチャートである。同図に示すように、運用状態特定部120gは、未選択のエラーメッセージを選択し(ステップS901)、選択したエラーメッセージが、ボリューム管理系のエラーメッセージである場合には、選択したエラーメッセージを、運用状態特定メッセージに設定し(ステップS903)、ステップS907に移行する。
一方、選択したエラーメッセージが、ボリューム管理系(ボリューム管理層)のエラーメッセージでない場合には(ステップS902,No)、選択したエラーメッセージが、パス管理系のエラーメッセージであり、上位層のエラーメッセージが存在しないか否かを判定する(ステップS904)。
そして、選択したエラーメッセージが、パス管理系のエラーメッセージであり、上位層のエラーメッセージが存在しない場合には(ステップS904,Yes)、ステップS903に移行し、ステップS904の条件を満たさない場合には(ステップS904,No)、選択したエラーメッセージが、ターゲット層のエラーメッセージであり、上位層のエラーメッセージが存在しないか否かを判定する(ステップS905)。
選択したエラーメッセージが、ターゲット層のエラーメッセージであり、上位層のエラーメッセージが存在しない場合には(ステップS905,Yes)、ステップS903に移行し、ステップS905の条件を満たさない場合には(ステップS905,No)、選択したエラーメッセージが、HBA層のエラーメッセージであり、他のエラーメッセージも全てHBA層のエラーメッセージか否かを判定する(ステップS906)。
そして、選択したエラーメッセージが、HBA層のエラーメッセージであり、他のエラーメッセージも全てHBA層のエラーメッセージである場合には(ステップS906,Yes)、ステップS903に移行し、ステップS906の条件を満たさない場合には(ステップS906,No)、全てのエラーメッセージを選択したか否かを判定する(ステップS907)。
そして、全てのエラーメッセージを選択していない場合には(ステップS907,No)、ステップS901に移行し、全てのエラーメッセージを選択した場合には(ステップS907,Yes)、運用状態特定処理を終了する。
このように、運用状態特定部120gは、各エラーメッセージの中から最上位層に属するエラーメッセージを選択し、この選択したエラーメッセージを運用状態特定メッセージに設定するので、コンピュータの運用状況を精度よく判定することができる。
上述してきたように、本実施例にかかるメッセージ解析装置100は、エンジン部120が、入力装置200からメッセージファイルを取得し、ピックアップ部120aが、エラーメッセージ群400を抽出し、グループ分け部120bが、エラーメッセージ群を物理パスごとにグループ分けし、絞込み部120cが、エラーメッセージ群400を絞込み、エラー箇所検出特定部120dが、エラー箇所特定メッセージを選択し、被疑部品特定部120eが、被疑部品特定メッセージを選択し、グループ統合部120fが、複数のグループを統合し、運用状態特定部120gが、運用状態特定メッセージを選択し、出力部120hが、メッセージ解析結果を表示装置300に出力するので、管理者にかかる負担を軽減させると共に、エラーメッセージの相互関係を考慮して、コンピュータの状態を効率的に判定することができる。
以上のように、本発明にかかるメッセージ解析装置は、コンピュータから出力される膨大な量のメッセージを、当該メッセージ間の関係を基にして解析し、コンピュータの状態を判定する必要のあるメッセージ解析装置に有用である。
図1は、本実施例にかかるメッセージ解析装置の概念を説明するための説明図である。 図2は、本実施例にかかるメッセージ解析装置の構成を示す機能ブロック図である。 図3は、メッセージ定義辞書情報群のデータ構造の一例を示す図である。 図4は、被疑部品リスト情報のデータ構造の一例を示す図である。 図5は、ピックアップ部の処理を説明するための説明図である。 図6は、紛れメッセージを説明するための説明図である。 図7は、ピックアップ部が抽出したメッセージ群の一例を示す図である。 図8は、グループ分け部の処理を補足説明するための説明図である。 図9は、絞込み部の処理を補足説明するための説明図である。 図10は、エラー箇所検出特定部の処理を補足説明するための説明図である。 図11は、被疑部品特定部の処理を補足説明するための説明図である。 図12は、グループ結合部の処理を補足説明するための説明図である。 図13は、表示装置に表示されるメッセージ解析結果の一例である。 図14は、本実施例にかかるメッセージ解析装置の処理手順を示すフローチャートである。 図15は、図14のステップS103に示したメッセージピックアップ処理のフローチャートである。 図16は、図15のステップS209に示した紛れメッセージピックアップ処理のフローチャートである。 図17は、図14のステップS104で示したグループ分け処理のフローチャートである。 図18は、図14のステップS105で示した絞込み処理のフローチャートである。 図19は、図14のステップS106で示したエラー箇所検出処理のフローチャートである。 図20は、図14のステップS107で示した被疑部品特定処理のフローチャートである。 図21は、図14のステップS108で示したグループ統合処理のフローチャートである。 図22は、図14のステップS109で示した運用状態特定処理のフローチャートである。
符号の説明
100 メッセージ解析装置
110 インターフェース部
120 エンジン部
120a ピックアップ部
120b グループ分け部
120c 絞込み部
120d エラー箇所検出特定部
120e 被疑部品特定部
120f グループ統合部
120g 運用状態特定部
130 記憶部
130a メッセージ定義辞書情報群
130b 出力情報定義辞書情報
130c 被疑部品リスト情報
130d エラー概要ファイル情報
130e 対処方法ファイル情報
200 入力装置
300 表示装置

Claims (18)

  1. 情報処理装置に接続され、前記情報処理装置を構成するハードウェアを制御するソフトウェアが出力する前記ハードウェアの状態を表すメッセージファイルを解析するメッセージ解析装置において
    前記情報処理装置から取得した前記メッセージファイルの中からエラーメッセージ群を抽出するピックアップ部と、
    エラーメッセージ群に含まれるメッセージと、前記メッセージに含まれるエラーの種別を示すエラー種別情報との対応関係を表すエラー種別辞書情報を含むメッセージ定義辞書情報を格納する記憶部と、
    前記ピックアップ部が抽出したエラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれる重み付け情報に基づいて、優先度の高いメッセージを選択する絞込み部と、
    前記絞込み部が選択したメッセージに含まれるエラー種別情報と前記記憶部が格納するメッセージ定義辞書情報に含まれるエラー種別辞書情報に基づいて、前記ハードウェアのエラー箇所を特定するエラー箇所検出特定部を有することを特徴とするメッセージ解析装置。
  2. 前記メッセージ解析装置はさらに、
    前記ピックアップ部が抽出したエラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれハードウェアを特定する物理パス情報に基づいて、物理パス毎にグループ分けするグループ分け部を有することを特徴とする請求項1に記載のメッセージ解析装置。
  3. 前記メッセージ定義辞書情報はさらに、
    前記エラーメッセージ群に含まれるメッセージと、前記メッセージに含まれる前記エラー種別情報に基づいて交換対象となる部品を特定する被疑部品番号情報との対応関係を表す被疑部品番号辞書情報を含み、
    前記メッセージ解析装置はさらに、
    前記記憶部から前記メッセージ定義辞書情報を取得して、それぞれのメッセージに含まれる被疑部品番号情報と前記取得したメッセージ定義辞書情報に含まれる被疑部品番号辞書情報に基づいて、エラーが発生した被疑部品を特定する被疑部品特定部を有することを特徴とする請求項1又は2に記載のメッセージ解析装置。
  4. 前記メッセージ定義辞書情報はさらに、
    前記エラーメッセージ群に含まれるメッセージと、前記ハードウェアと前記ソフトウェアを対応付けるインスタンス情報との対応関係を表すインスタンス辞書情報を含み、
    前記メッセージ解析装置はさらに、
    前記記憶部から前記メッセージ定義辞書情報を取得して、それぞれのメッセージに含まれるインスタンス情報が同一であるメッセージをグループに統合するグループ統合部を有することを特徴とする請求項1〜3のいずれか1項に記載のメッセージ解析装置。
  5. 前記ソフトウェアは、
    前記情報処理装置に接続された入出力装置の二重化構成を制御するボリュームドライバと、
    前記入出力装置を制御するI/Oデバイスドライバと、
    前記入出力装置を前記情報処理装置に接続するホストバスアダプタを制御するホストバスアダプタドライバを有し、
    前記メッセージ解析装置はさらに、
    前記ボリュームドライバが出力するエラーメッセージを運用状態特定メッセージとして特定する運用状態特定部を有することを特徴とする請求項1〜4のいずれか1項に記載のメッセージ解析装置。
  6. 前記メッセージ解析装置はさらに、
    表示装置に接続されるとともに、
    前記エラー箇所検出特定部が特定した前記ハードウェアのエラー箇所に関するエラー箇所特定メッセージ、前記被疑部品特定部が特定したエラーが発生した被疑部品に関する被疑部品特定メッセージ、及び、前記運用状態特定メッセージを前記表示装置に出力する出力部を有することを特徴とする請求項5に記載のメッセージ解析装置。
  7. 情報処理装置に接続され、前記情報処理装置を構成するハードウェアを制御するソフトウェアが出力する前記ハードウェアの状態を表すメッセージファイルを解析するメッセージ解析装置の制御方法において
    ピックアップ部が、前記情報処理装置から取得した前記メッセージファイルの中からエラーメッセージ群を抽出するステップと、
    記憶部が、エラーメッセージ群に含まれるメッセージと、前記メッセージに含まれるエラーの種別を示すエラー種別情報との対応関係を表すエラー種別辞書情報を含むメッセージ定義辞書情報を格納するステップと、
    絞込み部が、前記ピックアップ部が抽出したエラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれる重み付け情報に基づいて、優先度の高いメッセージを選択するステップと、
    エラー箇所検出特定部が、前記絞込み部が選択したメッセージに含まれるエラー種別情報と前記記憶部が格納するメッセージ定義辞書情報に含まれるエラー種別辞書情報に基づいて、前記ハードウェアのエラー箇所を特定するステップを有することを特徴とするメッセージ解析装置の制御方法。
  8. 前記メッセージ解析装置の制御方法はさらに、
    グループ分け部が、前記ピックアップ部が抽出したエラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれハードウェアを特定する物理パス情報に基づいて、物理パス毎にグループ分けするステップを有することを特徴とする請求項7に記載のメッセージ解析装置の制御方法。
  9. 前記メッセージ定義辞書情報はさらに、
    前記エラーメッセージ群に含まれるメッセージと、前記メッセージに含まれる前記エラー種別情報に基づいて交換対象となる部品を特定する被疑部品番号情報との対応関係を表す被疑部品番号辞書情報を含み、
    前記メッセージ解析装置の制御方法はさらに、
    被疑部品特定部が、前記記憶部から前記メッセージ定義辞書情報を取得して、それぞれのメッセージに含まれる被疑部品番号情報と前記取得したメッセージ定義辞書情報に含まれる被疑部品番号辞書情報に基づいて、エラーが発生した被疑部品を特定するステップを有すること特徴とする請求項7又は8に記載のメッセージ解析装置の制御方法。
  10. 前記メッセージ定義辞書情報はさらに、
    前記エラーメッセージ群に含まれるメッセージと、前記ハードウェアと前記ソフトウェアを対応付けるインスタンス情報との対応関係を表すインスタンス辞書情報を含み、
    前記メッセージ解析装置の制御方法はさらに、
    グループ結合部が、前記記憶部から前記メッセージ定義辞書情報を取得して、それぞれのメッセージに含まれるインスタンス情報が同一であるメッセージをグループに統合するステップを有することを特徴とする請求項7〜9のいずれか1項に記載のメッセージ解析装置の制御方法。
  11. 前記ソフトウェアは、
    前記情報処理装置に接続された入出力装置の二重化構成を制御するボリュームドライバと、
    前記入出力装置を制御するI/Oデバイスドライバと、
    前記入出力装置を前記情報処理装置に接続するホストバスアダプタを制御するホストバスアダプタドライバを有し、
    前記メッセージ解析装置の制御方法はさらに、
    運用状態特定部が、前記ボリュームドライバが出力するエラーメッセージを運用状態特定メッセージとして特定するステップを有することを特徴とする請求項7〜10のいずれか1項に記載のメッセージ解析装置の制御方法。
  12. 前記メッセージ解析装置はさらに、
    表示装置に接続されるとともに、
    前記メッセージ解析装置の制御方法はさらに、
    出力部が、前記エラー箇所検出特定部が特定した前記ハードウェアのエラー箇所に関するエラー箇所特定メッセージ、前記被疑部品特定部が特定したエラーが発生した被疑部品に関する被疑部品特定メッセージ、及び、前記運用状態特定メッセージを前記表示装置に出力するステップを有することを特徴とする請求項11に記載のメッセージ解析装置の制御方法。
  13. 情報処理装置に接続され、前記情報処理装置を構成するハードウェアを制御するソフトウェアが出力する前記ハードウェアの状態を表すメッセージファイルを解析するメッセージ解析装置の制御プログラムにおいて
    前記メッセージ解析装置に、
    ピックアップ部が、前記情報処理装置から取得した前記メッセージファイルの中からエラーメッセージ群を抽出するステップと、
    記憶部が、エラーメッセージ群に含まれるメッセージと、前記メッセージに含まれるエラーの種別を示すエラー種別情報との対応関係を表すエラー種別辞書情報を含むメッセージ定義辞書情報を格納するステップと、
    絞込み部が、前記ピックアップ部が抽出したエラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれる重み付け情報に基づいて、優先度の高いメッセージを選択するステップと、
    エラー箇所検出特定部が、前記絞込み部が選択したメッセージに含まれるエラー種別情報と前記記憶部が格納するメッセージ定義辞書情報に含まれるエラー種別辞書情報に基づいて、前記ハードウェアのエラー箇所を特定するステップを実行させることを特徴とするメッセージ解析装置の制御プログラム。
  14. 前記メッセージ解析装置の制御プログラムはさらに、
    前記メッセージ解析装置に、
    グループ分け部が、前記ピックアップ部が抽出したエラーメッセージ群に含まれるメッセージを、それぞれのメッセージに含まれハードウェアを特定する物理パス情報に基づいて、物理パス毎にグループ分けするステップを実行させることを特徴とする請求項13に記載のメッセージ解析装置の制御プログラム。
  15. 前記メッセージ定義辞書情報はさらに、
    前記エラーメッセージ群に含まれるメッセージと、前記メッセージに含まれる前記エラー種別情報に基づいて交換対象となる部品を特定する被疑部品番号情報との対応関係を表す被疑部品番号辞書情報を含み、
    前記メッセージ解析装置の制御プログラムはさらに、
    前記メッセージ解析装置に、
    被疑部品特定部が、前記記憶部から前記メッセージ定義辞書情報を取得して、それぞれのメッセージに含まれる被疑部品番号情報と前記取得したメッセージ定義辞書情報に含まれる被疑部品番号辞書情報に基づいて、エラーが発生した被疑部品を特定するステップを実行させること特徴とする請求項13又は14に記載のメッセージ解析装置の制御プログラム。
  16. 前記メッセージ定義辞書情報はさらに、
    前記エラーメッセージ群に含まれるメッセージと、前記ハードウェアと前記ソフトウェアを対応付けるインスタンス情報との対応関係を表すインスタンス辞書情報を含み、
    前記メッセージ解析装置の制御プログラムはさらに、
    前記メッセージ解析装置に、
    グループ結合部が、前記記憶部から前記メッセージ定義辞書情報を取得して、それぞれのメッセージに含まれるインスタンス情報が同一であるメッセージをグループに統合するステップを実行させることを特徴とする請求項13〜15のいずれか1項に記載のメッセージ解析装置の制御プログラム。
  17. 前記ソフトウェアは、
    前記情報処理装置に接続された入出力装置の二重化構成を制御するボリュームドライバと、
    前記入出力装置を制御するI/Oデバイスドライバと、
    前記入出力装置を前記情報処理装置に接続するホストバスアダプタを制御するホストバスアダプタドライバを有し、
    前記メッセージ解析装置の制御プログラムはさらに、
    前記メッセージ解析装置に、
    運用状態特定部が、前記ボリュームドライバが出力するエラーメッセージを運用状態特定メッセージとして特定するステップを実行させることを特徴とする請求項13〜16のいずれか1項に記載のメッセージ解析装置の制御プログラム。
  18. 前記メッセージ解析装置はさらに、
    表示装置に接続されるとともに、
    前記メッセージ解析装置の制御プログラムはさらに、
    前記メッセージ解析装置に、
    出力部が、前記エラー箇所検出特定部が特定した前記ハードウェアのエラー箇所に関するエラー箇所特定メッセージ、前記被疑部品特定部が特定したエラーが発生した被疑部品に関する被疑部品特定メッセージ、及び、前記運用状態特定メッセージを前記表示装置に出力するステップを実行させることを特徴とする請求項17に記載のメッセージ解析装置の制御プログラム。
JP2007524501A 2005-07-14 2005-07-14 メッセージ解析装置、制御方法および制御プログラム Expired - Fee Related JP4383484B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2005/012995 WO2007007410A1 (ja) 2005-07-14 2005-07-14 メッセージ解析装置、メッセージ解析方法およびメッセージ解析プログラム

Publications (2)

Publication Number Publication Date
JPWO2007007410A1 JPWO2007007410A1 (ja) 2009-01-29
JP4383484B2 true JP4383484B2 (ja) 2009-12-16

Family

ID=37636817

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007524501A Expired - Fee Related JP4383484B2 (ja) 2005-07-14 2005-07-14 メッセージ解析装置、制御方法および制御プログラム

Country Status (4)

Country Link
US (1) US7823016B2 (ja)
EP (1) EP1903441B1 (ja)
JP (1) JP4383484B2 (ja)
WO (1) WO2007007410A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090287781A1 (en) * 2008-05-19 2009-11-19 International Business Machines Corporation Grouping messages using patterns in a messaging system
JP5423904B2 (ja) 2010-11-17 2014-02-19 富士通株式会社 情報処理装置、メッセージ抽出方法およびメッセージ抽出プログラム
JP5609637B2 (ja) * 2010-12-28 2014-10-22 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
JP5924073B2 (ja) * 2012-03-30 2016-05-25 富士通株式会社 制御プログラム、制御方法および制御装置
CN104105112A (zh) * 2013-04-02 2014-10-15 中兴通讯股份有限公司 一种话单处理方法、装置及系统
JP6295176B2 (ja) * 2014-10-07 2018-03-14 株式会社日立製作所 メッセージ処理装置およびメッセージ処理方法
JP6841228B2 (ja) * 2015-12-04 2021-03-10 日本電気株式会社 ファイル情報収集システム、方法およびプログラム
US20180373795A1 (en) 2017-06-27 2018-12-27 International Business Machines Corporation Detecting and grouping users in electronic communications

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01159742A (ja) * 1987-12-16 1989-06-22 Fujitsu Ltd 障害解析方式
JPH0771131B2 (ja) * 1990-09-27 1995-07-31 日本電気株式会社 内部故障監視装置
JP2935382B2 (ja) * 1991-10-25 1999-08-16 マツダ株式会社 故障診断方法
US5414645A (en) 1991-10-25 1995-05-09 Mazda Motor Corporation Method of fault diagnosis in an apparatus having sensors
JPH07114483A (ja) * 1993-10-15 1995-05-02 Nippon Telegr & Teleph Corp <Ntt> 故障診断装置
US5555191A (en) * 1994-10-12 1996-09-10 Trustees Of Columbia University In The City Of New York Automated statistical tracker
US6279826B1 (en) * 1996-11-29 2001-08-28 Diebold, Incorporated Fault monitoring and notification system for automated banking
DE19836347C2 (de) * 1998-08-11 2001-11-15 Ericsson Telefon Ab L M Fehlertolerantes Computersystem
US6317846B1 (en) * 1998-10-13 2001-11-13 Agere Systems Guardian Corp. System and method for detecting faults in computer memories using a look up table
US6496853B1 (en) * 1999-07-12 2002-12-17 Micron Technology, Inc. Method and system for managing related electronic messages
US6598179B1 (en) * 2000-03-31 2003-07-22 International Business Machines Corporation Table-based error log analysis
JP4772233B2 (ja) 2001-03-19 2011-09-14 株式会社東芝 文書データ分析プログラム及びコンピュータによる文書データ分析方法並びに文書データ分析システム
US7120685B2 (en) * 2001-06-26 2006-10-10 International Business Machines Corporation Method and apparatus for dynamic configurable logging of activities in a distributed computing system
JP4622177B2 (ja) * 2001-07-06 2011-02-02 株式会社デンソー 故障診断システム、車両管理装置、サーバ装置、及び検査診断プログラム
US6694235B2 (en) 2001-07-06 2004-02-17 Denso Corporation Vehicular relay device, in-vehicle communication system, failure diagnostic system, vehicle management device, server device and detection and diagnostic program
US7483970B2 (en) * 2001-12-12 2009-01-27 Symantec Corporation Method and apparatus for managing components in an IT system
JP3737460B2 (ja) * 2002-07-09 2006-01-18 株式会社東京三菱銀行 コンピュータ・システム
JP2004086278A (ja) * 2002-08-23 2004-03-18 Hitachi Kokusai Electric Inc 装置障害監視方法および装置障害監視システム
JP4130615B2 (ja) * 2003-07-02 2008-08-06 株式会社日立製作所 ストレージ装置を有するネットワークにおける障害情報管理方法及び管理サーバ
US7350111B2 (en) * 2004-08-03 2008-03-25 Inventec Corporation Method of providing a real time solution to error occurred when computer is turned on
US7624177B2 (en) * 2005-05-25 2009-11-24 Hewlett-Packard Development Company, L.P. Syslog message handling

Also Published As

Publication number Publication date
US7823016B2 (en) 2010-10-26
EP1903441A4 (en) 2010-12-15
WO2007007410A1 (ja) 2007-01-18
EP1903441B1 (en) 2016-03-23
EP1903441A1 (en) 2008-03-26
JPWO2007007410A1 (ja) 2009-01-29
US20080155337A1 (en) 2008-06-26

Similar Documents

Publication Publication Date Title
US10423647B2 (en) Descriptive datacenter state comparison
JP6669156B2 (ja) アプリケーション自動制御システム、アプリケーション自動制御方法およびプログラム
US8819220B2 (en) Management method of computer system and management system
CN102257487B (zh) 分析事件
US20180075235A1 (en) Abnormality Detection System and Abnormality Detection Method
US9311176B1 (en) Evaluating a set of storage devices and providing recommended activities
JP5432867B2 (ja) 計算機システムの管理方法、及び管理システム
US8499006B2 (en) Data migration system and data migration method
US7823016B2 (en) Message analyzing apparatus, message analyzing method, and computer product
US12118476B2 (en) Anomaly detection device
JP6691082B2 (ja) 指標選択装置及びその方法
CN112685207A (zh) 错误评估的方法、设备和计算机程序产品
US20180173687A1 (en) Automatic datacenter state summarization
JP7274162B2 (ja) 異常操作検知装置、異常操作検知方法、およびプログラム
CN106776704A (zh) 统计信息收集方法和装置
CN114096959A (zh) 时间序列数据压缩和图形签名分析
KR102275635B1 (ko) 함수 호출 패턴 분석을 통한 이상 검출 장치 및 방법
JP6340990B2 (ja) メッセージ表示方法、メッセージ表示装置、およびメッセージ表示プログラム
KR100567813B1 (ko) 텐덤 시스템의 트랜잭션 분석 시스템
US8538995B2 (en) Device and method for automatically detecting an unclear description
WO2021053801A1 (ja) 情報分析装置、方法およびプログラム
JP6547341B2 (ja) 情報処理装置、方法及びプログラム
JP6714160B2 (ja) データリニエージ検出装置、データリニエージ検出方法、及びデータリニエージ検出プログラム
CN112015995A (zh) 数据分析的方法、装置、设备以及存储介质
JP5197128B2 (ja) 依存関係推定装置及び依存関係推定プログラム及び記録媒体

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090915

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090918

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4383484

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121002

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131002

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees