[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4717079B2 - コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け) - Google Patents

コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け) Download PDF

Info

Publication number
JP4717079B2
JP4717079B2 JP2007550793A JP2007550793A JP4717079B2 JP 4717079 B2 JP4717079 B2 JP 4717079B2 JP 2007550793 A JP2007550793 A JP 2007550793A JP 2007550793 A JP2007550793 A JP 2007550793A JP 4717079 B2 JP4717079 B2 JP 4717079B2
Authority
JP
Japan
Prior art keywords
list
previous
computerized system
corrective action
priority
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007550793A
Other languages
English (en)
Other versions
JP2008527554A (ja
JP2008527554A5 (ja
Inventor
ニッサン−メッシング、オリット
ズロトニック、アヴィアド
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2008527554A publication Critical patent/JP2008527554A/ja
Publication of JP2008527554A5 publication Critical patent/JP2008527554A5/ja
Application granted granted Critical
Publication of JP4717079B2 publication Critical patent/JP4717079B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2294Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing by remote test
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Description

本発明は、一般にコンピュータ・システムに関し、具体的に言えば、コンピュータ・システムにおける障害の診断および保守のための方法およびシステムに関する。
複数のサブシステムおよびコンポーネントを含む複合システムの開発によって、かなりの信頼性および保全性の問題が提起されている。その結果、こうしたシステムにおける障害の検出、診断、および修正のための、様々な方法およびシステムが提案されてきた。自動化された自己診断システムに関する適用分野は、コンピュータ業界から産業機械、さらには航空宇宙の分野にまでわたる。
たとえば、その開示が参照により本明細書に組み込まれた米国特許第6003081号は、リモート・クライアントからサーバへの修理要求を自動的に生成するための方法について記載し、この方法では、クライアントが誤動作部分を識別し、エラー通知およびその障害部分の識別をサーバに伝送する。同様に、その開示が参照により本明細書に組み込まれた米国特許第5774645号は、複数の要素を含む複合システム内で障害を識別するための装置について記載する。この装置は、中央処理ステーションに障害キュー(cue)を発行する複合要素のシステムを監視する、中央処理ステーションを有する。
いくつかの障害監視システムは、以前の障害イベントからの履歴情報を利用する。たとえば、その開示が参照により本明細書に組み込まれた米国特許第6415395号は、特に機関車(locomotive)産業に適用される、誤動作マシンの分析を容易にするために、1つまたは複数のマシンからの修理データおよび障害ログ・データを処理するためのシステムおよび方法について記載する。同様に、その開示が参照により本明細書に組み込まれた米国特許第6622264号は、マシンからの障害ログ・データを分析するため、および、新しい障害ログ・データと以前の障害ログ・データとの比較に基づいて修理の勧告を生成するための、機関車産業に関するプロセスについて記載する。
コンピュータ・システムに関し、その開示が参照により本明細書に組み込まれた米国特許第4654852号は、そのサブシステムのうちの1つにおいて問題を診断し、一定のアクションを実行するようオペレータに指示する情報を表示する、データ処理システムについて記載する。この情報は、サブシステムの構成、以前のテスト結果、およびオペレータの入力に基づくものである。その開示が参照により本明細書に組み込まれた米国特許第4922491号は、コンピュータ周辺サブシステムにおいて例外イベントを自動的に検出および分析する方法について記載する。現在の例外イベントがすでに記録された問題に関するかどうかを判別するために、データベースが検索される。一致が見つかった場合、サブシステム・ユーザおよび修理技術者に関する様々な情報を含むサービス警報メッセージが、ホスト・システムに伝送される。
米国特許第6003081号 米国特許第5774645号 米国特許第6415395号 米国特許第6622264号 米国特許第4654852号 米国特許第4922491号
コンピュータ化されたシステムを処理するコストは、システム全体のオペレーティング・コストの主要な部分を占める。多くのサブユニットおよびコンポーネントを備える大規模な複合コンピュータ・システムの場合、これは特に顕著である。こうしたコンピュータ化されたシステムにおいて、障害の検出、診断、および修正に関するコストを削減することが望ましい。
コスト削減は、自動保守システムによって達成することができる。自動保守を使用することが、以下のいくつかの点で保守コストの削減を助ける。
・障害のあるコンポーネントを検出するために必要な時間が削減される。
・保守機能の大部分をローカル・システム・マネージャなどのローカル・スタッフに委託することが可能であり、それによって、外部の保守およびサポート・サービスのコストが削減される。
・自動システムは、意思決定に関する履歴データに容易に依拠することが可能であり、それによって成功の確率が上昇する。
本発明の諸実施形態は、自動保守システムが障害を分離すること、および単一の障害コンポーネントを識別することが、不可能な状況に対処する。その代わりにシステムは、障害の発生が疑われるいくつかのコンポーネントのリストを生成する。このリストは通常、障害の修正に関して提案された修正アクションのリストとして、技術者に提示される。開示された諸実施形態は、過去の修理に関する履歴データに基づいて、修正アクションのリストを優先順位付けすることにより、正常な障害修正の確率を向上させるための方法を提供する。通常、すでに最近実行された修正アクションはリストの最後に移動されるため、結果として障害が再発した場合、技術者には異なるアクションを試行するように指示が出される。
したがって、本発明の実施形態によれば、コンピュータ化されたシステムでの処理に利用されるための方法であって、コンピュータ化されたシステムにおいて所与のタイプの障害を検出するステップと、自動化された保守プログラムを使用して、障害に応答して修正アクションのリストを生成するステップと、コンピュータ化されたシステムにおいて所与のタイプの1つまたは複数の以前の障害の記録を検索し、および、前記1つまたは複数の以前の障害に応答して実行された少なくとも1つの以前の修正アクションを提示するステップと、修正アクションのリスト内の少なくとも1つの以前の修正アクションの優先順位を調整するために、自動化された保守プログラムを使用して、記録に応答して修正アクションのリストを優先順位付けするステップと、コンピュータ化されたシステムでの処理に利用される際に使用するために、自動化された保守プログラムから修理機能部へと、優先順位付けされたリストを提供するステップと、を含む方法が提供される。
一実施形態では、コンピュータ化されたシステムはデータ・ストレージ・システムを含む。
他の実施形態では、障害を検出するステップは、自動障害警報を受け取るステップを含む。
他の実施形態では、記録を検索するステップは、少なくとも1つの修正アクションの時刻を決定するステップを含み、リストを優先順位付けするステップは、時刻に応答してリストを配列するステップを含む。
他の開示された実施形態では、リストを配列するステップは、一番最近実行されたアクションを決定するステップと、その一番最近実行されたアクションをリストの最後に移動するステップとを含む。
別の方法として、リストを配列するステップは、リストを時刻の昇順で再配列するステップを含む。さらに別の方法として、リストを配列するステップは、少なくとも1つの以前の修正アクションの時刻に応答して、および以前の障害の確率の尺度に応答して、優先順位を決定するステップを含む。
他の実施形態では、優先順位を決定するステップは、コンピュータ化されたシステムのコンポーネント上で実行された少なくとも1つの以前の修正アクションの時刻と、コンポーネントの平均障害間隔(MTBF)とを比較するステップを含む。
他の実施形態では、リストを配列するステップは、コンピュータ化されたシステムのコンポーネント上で実行された少なくとも1つの以前の修正アクションの時刻と、コンポーネントの特性障害時刻とを比較することによって、優先順位を変更するかどうかを決定するステップを含む。
他の実施形態では、修正アクションのリストを生成するステップは、修理機能部によって交換されることになる1つまたは複数の疑わしいコンポーネントをリストするステップを含む。加えて、または別の方法として、この方法は、記録を生成するために、修理機能部によって交換されたコンポーネントを自動的に検出するステップをさらに含む。
他の実施形態では、優先順位付けされたリストを提供するステップは、優先順位付けされたリストを修理担当者に提示するステップを含む。
さらに本発明の実施形態によれば、コンピュータ化されたシステムでの処理に利用される際に使用する装置であって、コンピュータ化されたシステムにおいて所与のタイプの障害の指示を受け取るように、障害に応答して修正アクションのリストを生成するように、コンピュータ化されたシステムにおいて所与のタイプの1つまたは複数の以前の障害の記録を検索し、および、1つまたは複数の以前の障害に応答して実行された少なくとも1つの以前の修正アクションを提示するように、修正アクションのリスト内の少なくとも1つの以前の修正アクションの優先順位を調整するために、記録に応答して修正アクションのリストを優先順位付けするように、ならびに、コンピュータ化されたシステムでの処理に利用される際に使用するために、優先順位付けされたリストを修理機能部に提供するように配置構成された保守プロセッサ、を含む装置も提供される。
さらに本発明の実施形態によれば、コンピュータ化されたシステムでの処理に利用される際に使用するためのコンピュータ・ソフトウェア製品も提供され、この製品は、プログラム命令が保管されたコンピュータ可読媒体を備え、当該命令は、コンピュータによって読み取られた場合に、コンピュータ化されたシステムにおいて所与のタイプの障害の指示を受け取ること、障害に応答して修正アクションのリストを生成すること、コンピュータ化されたシステムにおいて所与のタイプの1つまたは複数の以前の障害の記録を検索し、および、1つまたは複数の以前の障害に応答して実行された少なくとも1つの以前の修正アクションを提示すること、修正アクションのリスト内の少なくとも1つの以前の修正アクションの優先順位を調整するために、記録に応答して修正アクションのリストを優先順位付けすること、ならびに、コンピュータ化されたシステムでの処理に利用される際に使用するために、優先順位付けされたリストを修理機能に提供することをコンピュータに実行させる、コンピュータ・ソフトウェア製品を含む。
次に本発明について、単なる例として説明する。
図1は、本発明の実施形態に従った、コンピュータ化されたシステム20を示す概略絵画図である。システム20は、コンピュータ・プラットフォーム32、ストレージ・ユニット34、通信ユニット36、および他の各種ハードウェア・コンポーネントなどの、様々なハードウェア・ユニットを備えた、メインフレーム30を備える。ケーブル40は、様々なハードウェア・ユニットを相互接続する。保守プロセッサ38は、以下で詳細に説明するように、保守関係タスクを実行する。オペレータ・コンソール42などの追加の周辺コンピューティング機器も、コンピュータ化されたシステムの一部とすることができる。本発明の様々な実施形態では、データ・ストレージ、データ処理、または当分野で知られた任意の他のコンピューティング・タスクなどの、任意のコンピューティング・タスクを実行するために、コンピュータ化されたシステムを割り当てることができる。
技術者44は、コンピュータ化されたシステムの第1レベルの保守に対する責務を負う。技術者は、障害に応答して、メインフレーム30内の1つまたは複数のハードウェア・ユニットを交換することができる。技術者は、オペレータ・コンソール42を使用して、システム情報にアクセスし、障害アラームおよびレポートを受け取り、他のサービス、修理、および保守タスクを実行することができる。別の方法として、または加えて、システム20内の一部またはすべてのサービスおよび修理機能を、たとえばロボットによって自動的に実行することができる。保守プロセッサ38は、コンピュータ化されたシステムのオペレーションを監視し、障害を自動的に検出および記録する。加えて、保守プロセッサ38は、メインフレーム30のすべてのハードウェア・ユニットの識別を記録し、技術者がハードウェア・ユニットを交換すると必ず、自動的に検出する。
保守プロセッサは障害を検出すると、障害の場所を突き止めること、および障害コンポーネントを識別することを試みる。正常な識別は、技術者に障害の原因を指示し、それによってサービス時間を削減する。しかしながら多くのシナリオでは、コンピュータ化されたシステムが複雑であることから、保守プロセッサは障害に応答して単一の障害コンポーネントを分離することができない。たとえば、大規模なデータ・ストレージ・システムでは、いくつかの論理ストレージ・ボリュームにわたる間欠的な読み取りまたは書き込み障害のパターンによって特徴付けられた障害は、障害物理ストレージ・ユニット、障害ケーブル、または他のユニット内の障害制御モジュールなどの、任意数の理由によるものである可能性がある。
この種の状況では、保守プロセッサは、通常、障害の可能な原因、およびそれらを修復するために実行可能な修正アクション(1つまたは複数のコンポーネントの交換など)の、短いリストを生成する。このリストは、たとえば、通常は、それぞれの修正アクションが障害を修復することになる可能性などの、ある種の基準に従ってリストを優先順位付けする、エキスパート・システム・ソフトウェアを使用して生成することができる。このリストは技術者44に提示され、その後、この技術者が適切な修正アクションをリストから選択する。たとえば技術者は、以下のいずれかを実行することができる。
・リスト上の第1のアイテムのみを交換する。
・在庫から入手可能なアイテムのみを交換し、その他を配列する。
・低コストのアイテムのみを交換する。
・障害が深刻であり、部品が安価であって容易に入手可能な場合、リスト全体のコンポーネントを交換する。
保守プロセッサ38は、たとえば、新しい通し番号がシステム・バス上に出現したことを検出することによって、一定のハードウェア・コンポーネントが技術者によって交換されたという事実を記録する。
ほとんどの場合、技術者は必然的に、リスト上の最初のアイテム、または最初の数アイテムのうちの1つを交換することになる。本発明の諸実施形態では、明らかな成功なしに最近実行されたアクションが反復されるのを防ぐために、保守プロセッサ38によって技術者44に与えられた修正アクションのリストを再配列および優先順位付けすることによって、障害の修正が成功する確率を向上させるための方法を提供する。
通常、保守プロセッサ38は、本明細書に記載された機能を実施するようにソフトウェア内にプログラムされた汎用コンピュータを備える。このソフトウェアは、たとえばネットワークを介して、電子的な形でコンピュータにダウンロードすることができるか、または別の方法として、CD−ROMなどの有形の媒体でコンピュータに供給することができる。保守プロセッサ38は、スタンドアロン型ユニットを備えることができるか、あるいは別の方法として、他のコンピューティング機器と統合するか、または、当分野で知られるように、その機能を、単一のコンピュータ・プラットフォーム上のコンピュータ化されたシステム20の他の機能と共有することができる。本明細書では、わかりやすくするために、保守プロセッサ38が別のエンティティとして記載されているが、別の方法として、保守プロセッサ38の機能を、メインフレーム30内の1つまたは複数のコンピュータ・プラットフォームによって、当該のこれらプラットフォームによって実施される他のタスクの中で、実行することもできる。
図2は、本発明の実施形態に従った、コンピュータ化されたシステムを診断および処理するための方法を概略的に示す流れ図である。この方法は、わかりやすくするためおよび便宜上、前述のコンピュータ化されたシステム20を参照しながら説明する。しかしながら、当業者であれば明らかなように、本発明の原理は、多くの他のタイプの複合システムのコンピュータ支援診断および修理にも同様に適合することができる。
図2の方法は、保守プロセッサ38が障害検出ステップ50で、コンピュータ化されたシステム20内の障害を検出すると開始される。保守プロセッサは、特定コンポーネントに対する障害の分離を試行し、リスト生成ステップ52で、可能な修正アクションのリストを生成する。通常、各修正アクションは、システム20内の1つまたは複数のコンポーネントの交換に関するが、他の何らかの修正アクションをリストに含めることも可能である。保守プロセッサは、履歴チェック・ステップ54で、この特定のコンピュータ化されたシステム20内で発生した、同様の障害イベントの最近の記録があるか否かをチェックする。こうした以前の記録が存在しない場合、保守プロセッサは、終了ステップ56で、修正アクションの所定のリストを出力して終了する。通常、この場合、リストは、成功の先験的(priori)確率、実行の容易さ、あるいはコンポーネントの交換コスト、またはそれらすべてに関して、修正アクションをランク付けするために、過去の障害の統計分析などの所定の基準に従ってランク付けされる。このステップでは、本発明の背景で説明したような、当分野で知られた自動化された障害診断の方法を使用することができる。
他方で、保守プロセッサ38は、コンピュータ化されたシステム20内での1つまたは複数の同様の最近の障害についての以前の記録を見つけた場合、リスト検索ステップ58で、その以前の障害に応答して生成された修正アクションのリストを検索する。その後、保守プロセッサは、交換チェック・ステップ60で、以前の障害に応答して、どの修正アクションが実行されたか(通常、以前に疑わしいとされたどのコンポーネントが実際に交換されたか)をチェックする。同時に、保守プロセッサは、過去の各交換が行われた日付および時刻を注記する。
以前の交換についての知識に基づいて、保守プロセッサは、リストの再配列ステップ62で、修正アクションの現在のリストを再配列する。一実施形態では、保守プロセッサは、現在のリスト上で一番最近実行されたアクションをリストの最後に移動し、それによってそのアクションに低い優先順位を割り当てる。次に最近実行されたアクションは、最後から2番目に配置することができる。保守アクションは、アクション以降経過した時間が、当該コンポーネントの特性障害時間(平均障害間隔−MTBFなど)よりも短いか、またはほぼその時間である場合の関連において、「最近」であるとみなされる。この特性時間よりもかなり以前に実行されたアクションは、通常、無視される。保守プロセッサは、終了ステップ56で、記録された修正アクションのリストを出力して終了する。
他の実施形態では、保守プロセッサはステップ62で、各アクションの以前の実行からの経過時間に基づき、昇順の優先順位で、現在のリストを完全に再配列する。言い換えれば、一番最近実行されたアクションがリストの最後に移動され、2番目に最近実行されたアクションが最後から2番目になる、という具合である。再配列されたリストの最初にあるアクションは、実行の可能性が最も高い候補であることが想定される。このように保守プロセッサは、過去最近実行され、障害の再発によって明らかとなるように明らかに成功しなかった修正アクションを繰り返すことを避けるよう、技術者に指示を出す。
他の実施形態では、ステップ62で、当該コンポーネントのMTBFなどの、コンポーネント障害の先験的確率の尺度を考慮することによって、リストを再配列することができる。たとえば、ディスク障害またはスイッチ障害のいずれかによって発生する可能性のある障害を考えてみる。一例として、ディスクよりもスイッチの信頼性の方がかなり高いものと想定する。したがって障害は、99%の確率でディスク障害によって引き起こされ、スイッチ障害によって引き起こされる確率は1%に過ぎない。この場合、修正アクションのリストの再配列に関する決定は、コンポーネントが交換された回数と、反復障害の条件付き確率(たとえばMTBFに基づく)との、両方に基づく。結果として、たとえディスクがほんの少し前にすでに交換された場合であっても、ディスク交換の修正アクションは、スイッチの交換よりも高い優先順位を受け取る可能性がある。
前述の諸実施形態は例として引用されたものであること、および、本発明は上記で特別に図示および説明された内容に限定されないことが、理解されよう。むしろ、本発明の範囲は、前述の様々な特徴の組み合わせおよび副組み合わせ(sub-combination)、ならびに当業者が前述の説明を読んだ場合に考えつくであろう、従来技術では開示されていない、それらの変形形態および修正形態を含む。
本発明の実施形態に従った、コンピュータ化されたシステムを示す概略絵画図である。 本発明の実施形態に従った、コンピュータ化されたシステムを診断および処理するための方法を概略的に示す流れ図である。
符号の説明
20 コンピュータ化されたシステム
30 メインフレーム
32 コンピュータ・プラットフォーム
34 ストレージ・ユニット
36 通信ユニット
38 保守プロセッサ
40 ケーブル
42 オペレータ・コンソール
44 技術者
50 障害検出ステップ
52 リスト生成ステップ
54 履歴チェック・ステップ
56 終了ステップ
58 リスト検索ステップ
60 交換チェック・ステップ
62 リストの再配列ステップ

Claims (8)

  1. コンピュータ化されたシステムでの処理に利用されるための方法であって、
    前記コンピュータ化されたシステムにおいて所与のタイプの障害を検出するステップと、
    自動化された保守プログラムを使用して、前記障害に応答して修正アクションのリストを生成するステップと、
    前記コンピュータ化されたシステムにおいて前記所与のタイプの1つまたは複数の以前の障害の記録を検索し、および、前記1つまたは複数の以前の障害に応答して実行された少なくとも1つの以前の修正アクションを提示すると共に、前記少なくとも1つの修正アクションの時刻を決定するステップと、
    前記修正アクションのリスト内の前記少なくとも1つの以前の修正アクションの優先順位を調整するために、前記自動化された保守プログラムを使用して、前記記録に応答して、古い修正アクションの優先順位がそれよりも新しい修正アクションの優先順位よりも高くなるように前記修正アクションのリストを優先順位付けするステップと、
    前記コンピュータ化されたシステムでの処理に利用される際に使用するために、前記自動化された保守プログラムから修理機能部へと、前記優先順位付けされたリストを提供するステップと、
    を含む方法。
  2. 前記リストを優先順位付けするステップが、一番最近実行されたアクションを決定するステップと、前記一番最近実行されたアクションを前記リストの最後に移動するステップとを含む、請求項1に記載の方法。
  3. 前記リストを優先順位付けするステップが、前記リストを前記時刻の昇順で再配列するステップを含む、請求項1に記載の方法。
  4. 前記リストを優先順位付けするステップが、前記少なくとも1つの以前の修正アクションの時刻に応答して、および前記以前の障害の確率の尺度に応答して、前記優先順位を決定するステップを含む、請求項1に記載の方法。
  5. 前記優先順位を決定するステップが、前記コンピュータ化されたシステムのコンポーネント上で実行された前記少なくとも1つの以前の修正アクションの前記時刻と、前記コンポーネントの平均障害間隔(MTBF)とを比較するステップを含む、請求項4に記載の方法。
  6. 前記リストを配列するステップが、前記コンピュータ化されたシステムのコンポーネント上で実行された前記少なくとも1つの以前の修正アクションの前記時刻と、前記コンポーネントの特性障害時刻とを比較することによって、前記優先順位を変更するかどうかを決定するステップを含む、請求項1に記載の方法。
  7. コンピュータ化されたシステムでの処理に利用される際に使用する装置であって、
    前記コンピュータ化されたシステムにおいて所与のタイプの障害の指示を受け取るように、
    前記障害に応答して修正アクションのリストを生成するように、
    前記コンピュータ化されたシステムにおいて前記所与のタイプの1つまたは複数の以前の障害の記録を検索し、および、前記1つまたは複数の以前の障害に応答して実行された少なくとも1つの以前の修正アクションを提示すると共に、前記少なくとも1つの修正アクションの時刻を決定するように、
    前記修正アクションのリスト内の前記少なくとも1つの以前の修正アクションの優先順位を調整するために、前記記録に応答して、古い修正アクションの優先順位がそれよりも新しい修正アクションの優先順位よりも高くなるように前記修正アクションのリストを優先順位付けするように、および、
    前記コンピュータ化されたシステムでの処理に利用される際に使用するために、前記優先順位付けされたリストを修理機能部に提供するように
    配置構成された保守プロセッサ、を備える装置
  8. コンピュータ化されたシステムでの処理に利用される際に使用するためのコンピュータ・プログラムであって、コンピュータ可読媒体に備えられており、コンピュータによって読み取られた場合に、
    前記コンピュータ化されたシステムにおいて所与のタイプの障害の指示を受け取るステップと、
    前記障害に応答して修正アクションのリストを生成するステップと、
    前記コンピュータ化されたシステムにおいて前記所与のタイプの1つまたは複数の以前の障害の記録を検索し、および、前記1つまたは複数の以前の障害に応答して実行された少なくとも1つの以前の修正アクションを提示すると共に、前記少なくとも1つの修正アクションの時刻を決定するステップと、
    前記修正アクションのリスト内の少なくとも1つの以前の修正アクションの優先順位を調整するために、前記記録に応答して、古い修正アクションの優先順位がそれよりも新しい修正アクションの優先順位よりも高くなるように前記修正アクションのリストを優先順位付けするステップと、
    前記コンピュータ化されたシステムでの処理に利用される際に使用するために、前記優先順位付けされたリストを修理機能に提供するステップと
    を、前記コンピュータに実行させるためのコンピュータ・プログラム
JP2007550793A 2005-01-18 2006-01-12 コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け) Expired - Fee Related JP4717079B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/037,513 2005-01-18
US11/037,513 US7409595B2 (en) 2005-01-18 2005-01-18 History-based prioritizing of suspected components
PCT/EP2006/050178 WO2006077193A1 (en) 2005-01-18 2006-01-12 History-based prioritizing of suspected components

Publications (3)

Publication Number Publication Date
JP2008527554A JP2008527554A (ja) 2008-07-24
JP2008527554A5 JP2008527554A5 (ja) 2008-12-04
JP4717079B2 true JP4717079B2 (ja) 2011-07-06

Family

ID=35914581

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007550793A Expired - Fee Related JP4717079B2 (ja) 2005-01-18 2006-01-12 コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け)

Country Status (5)

Country Link
US (1) US7409595B2 (ja)
EP (1) EP1851634A1 (ja)
JP (1) JP4717079B2 (ja)
CN (1) CN100559350C (ja)
WO (1) WO2006077193A1 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE602005004886T2 (de) * 2005-01-26 2009-02-19 Oce-Technologies B.V. Automatische Leistungsanalyse und Fehlerbeseitigung
US7689873B1 (en) * 2005-09-19 2010-03-30 Google Inc. Systems and methods for prioritizing error notification
US7613949B1 (en) * 2006-06-30 2009-11-03 Boone Lewis A Fault isolation system and method
EP1993014B1 (de) * 2007-05-16 2011-06-29 Siemens Aktiengesellschaft Verfahren zum Lokalisieren von defekten Hardwarekomponenten und/oder Systemfehlern innerhalb einer Produktionsanlage
US8010325B2 (en) * 2008-04-25 2011-08-30 Microsoft Corporation Failure simulation and availability report on same
US20090292956A1 (en) * 2008-05-23 2009-11-26 Microsoft Corporation Trend based test failure prioritization
US8756576B2 (en) * 2008-08-20 2014-06-17 International Business Machines Corporation Ranking peer submitted code snippets using execution feedback
US8713534B2 (en) * 2008-08-20 2014-04-29 International Business Machines Corporation System, method and program product for guiding correction of semantic errors in code using collaboration records
US8266594B2 (en) 2008-08-20 2012-09-11 International Business Machines Corporation System, method and program product for correcting semantic errors in code using peer submitted code snippets
JP5439775B2 (ja) * 2008-09-17 2014-03-12 富士通株式会社 障害対応プログラム、障害対応装置、及び障害対応システム
US7949900B2 (en) * 2008-09-19 2011-05-24 International Business Machines Corporation Autonomously configuring information systems to support mission objectives
US8185781B2 (en) * 2009-04-09 2012-05-22 Nec Laboratories America, Inc. Invariants-based learning method and system for failure diagnosis in large scale computing systems
US8024609B2 (en) * 2009-06-03 2011-09-20 International Business Machines Corporation Failure analysis based on time-varying failure rates
US11269303B2 (en) 2009-06-22 2022-03-08 Johnson Controls Technology Company Systems and methods for detecting changes in energy usage in a building
US8600556B2 (en) 2009-06-22 2013-12-03 Johnson Controls Technology Company Smart building manager
US20110020122A1 (en) * 2009-07-24 2011-01-27 Honeywell International Inc. Integrated condition based maintenance system for wind turbines
US20110314331A1 (en) * 2009-10-29 2011-12-22 Cybernet Systems Corporation Automated test and repair method and apparatus applicable to complex, distributed systems
US8291263B2 (en) 2010-07-02 2012-10-16 Oracle International Corporation Methods and apparatus for cross-host diagnosis of complex multi-host systems in a time series with probabilistic inference
US8230262B2 (en) 2010-07-02 2012-07-24 Oracle International Corporation Method and apparatus for dealing with accumulative behavior of some system observations in a time series for Bayesian inference with a static Bayesian network model
US8156377B2 (en) * 2010-07-02 2012-04-10 Oracle International Corporation Method and apparatus for determining ranked causal paths for faults in a complex multi-host system with probabilistic inference in a time series
US8069370B1 (en) 2010-07-02 2011-11-29 Oracle International Corporation Fault identification of multi-host complex systems with timesliding window analysis in a time series
US8234523B2 (en) * 2010-07-28 2012-07-31 Honeywell International Inc. Automatic determination of success of using a computerized decision support system
FR2989499B1 (fr) * 2012-04-12 2014-05-16 Airbus Operations Sas Procede, dispositifs et programme d'ordinateur d'aide au diagnostic preventif d'un systeme d'un aeronef, utilisant des graphes d'evenements redoutes
US9690645B2 (en) 2012-12-04 2017-06-27 Hewlett Packard Enterprise Development Lp Determining suspected root causes of anomalous network behavior
US20140259167A1 (en) * 2013-03-11 2014-09-11 Samsung Electronics Co. Ltd. Behavior based application blacklisting
US10628246B1 (en) * 2013-05-20 2020-04-21 The Boeing Company Methods and systems for prioritizing corrective actions in a troubleshooting chart
US10388087B2 (en) * 2014-04-02 2019-08-20 Sikorsky Aircraft Corporation System and method for improved health management and maintenance decision support
US9424063B2 (en) * 2014-04-29 2016-08-23 Vmware, Inc. Method and system for generating remediation options within a cluster of host computers that run virtual machines
US9389900B2 (en) 2014-04-29 2016-07-12 Vmware, Inc. Method and system for supporting a change in state within a cluster of host computers that run virtual machines
US9747152B2 (en) * 2015-04-27 2017-08-29 Splunk Inc. Tracking incomplete transactions in correlation with application errors
US10474519B2 (en) * 2015-09-17 2019-11-12 Netapp, Inc. Server fault analysis system using event logs
US10180869B2 (en) 2016-02-16 2019-01-15 Microsoft Technology Licensing, Llc Automated ordering of computer system repair
CN106469098A (zh) * 2016-09-19 2017-03-01 广州日滨科技发展有限公司 一种设备的故障处理方法和装置
US10379929B2 (en) * 2016-12-19 2019-08-13 Microsoft Technology Licensing, Llc Enhanced diagnostic and remediation system
US11188416B2 (en) * 2018-07-12 2021-11-30 Micron Technology, Inc. Enhanced block management for a memory sub-system
WO2020041020A1 (en) * 2018-08-20 2020-02-27 Presenso, Ltd. Providing corrective solution recommendations for an industrial machine failure
US10936246B2 (en) 2018-10-10 2021-03-02 Micron Technology, Inc. Dynamic background scan optimization in a memory sub-system
US11144038B2 (en) 2019-09-27 2021-10-12 Rockwell Automation Technologies, Inc. System and method for industrial automation troubleshooting
WO2021130520A1 (en) * 2019-12-23 2021-07-01 Embraer S.A. Systems and methods for an agnostic system functional status determination and automatic management of failures

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
JP2003091314A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 監視制御システム
JP2003099291A (ja) * 2001-09-21 2003-04-04 Hitachi Ltd ネットワークストレージシステム及びその制御方法
WO2003105039A1 (ja) * 2002-06-07 2003-12-18 アークレイ株式会社 トラブル対処支援システムおよびこれに接続される端末装置
JP2004355424A (ja) * 2003-05-30 2004-12-16 Hitachi Ltd 情報処理装置の障害管理方式

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4633467A (en) * 1984-07-26 1986-12-30 At&T Bell Laboratories Computer system fault recovery based on historical analysis
US5214653A (en) * 1990-10-22 1993-05-25 Harris Corporation Fault finder expert system
US5253184A (en) * 1991-06-19 1993-10-12 Storage Technology Corporation Failure and performance tracking system
US5293556A (en) * 1991-07-29 1994-03-08 Storage Technology Corporation Knowledge based field replaceable unit management
JP3675851B2 (ja) * 1994-03-15 2005-07-27 富士通株式会社 計算機監視方式
US5561760A (en) * 1994-09-22 1996-10-01 International Business Machines Corporation System for localizing field replaceable unit failures employing automated isolation procedures and weighted fault probability encoding
US6633782B1 (en) * 1999-02-22 2003-10-14 Fisher-Rosemount Systems, Inc. Diagnostic expert in a process control system
US6625745B1 (en) * 1999-03-17 2003-09-23 Hewlett-Packard Development Co.Lp Network component failure identification with minimal testing
US6415395B1 (en) * 1999-04-02 2002-07-02 General Electric Company Method and system for processing repair data and fault log data to facilitate diagnostics
US6622264B1 (en) * 1999-10-28 2003-09-16 General Electric Company Process and system for analyzing fault log data from a machine so as to identify faults predictive of machine failures
US7113988B2 (en) * 2000-06-29 2006-09-26 International Business Machines Corporation Proactive on-line diagnostics in a manageable network
US6574537B2 (en) * 2001-02-05 2003-06-03 The Boeing Company Diagnostic system and method
US6895533B2 (en) * 2002-03-21 2005-05-17 Hewlett-Packard Development Company, L.P. Method and system for assessing availability of complex electronic systems, including computer systems
US6892159B2 (en) 2002-05-17 2005-05-10 Sun Microsystems, Inc. Method and system for storing field replaceable unit operational history information
GB2391132B (en) * 2002-07-19 2005-09-21 Hewlett Packard Co Fault diagnosis in a network
US7194445B2 (en) * 2002-09-20 2007-03-20 Lenovo (Singapore) Pte. Ltd. Adaptive problem determination and recovery in a computer system
US20050091356A1 (en) * 2003-10-24 2005-04-28 Matthew Izzo Method and machine-readable medium for using matrices to automatically analyze network events and objects
US7206771B2 (en) * 2003-11-11 2007-04-17 International Business Machines Corporation Automated knowledge system for equipment repair based on component failure history

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
JP2003091314A (ja) * 2001-09-17 2003-03-28 Toshiba Corp 監視制御システム
JP2003099291A (ja) * 2001-09-21 2003-04-04 Hitachi Ltd ネットワークストレージシステム及びその制御方法
WO2003105039A1 (ja) * 2002-06-07 2003-12-18 アークレイ株式会社 トラブル対処支援システムおよびこれに接続される端末装置
JP2004355424A (ja) * 2003-05-30 2004-12-16 Hitachi Ltd 情報処理装置の障害管理方式

Also Published As

Publication number Publication date
JP2008527554A (ja) 2008-07-24
CN100559350C (zh) 2009-11-11
US20060161819A1 (en) 2006-07-20
WO2006077193A1 (en) 2006-07-27
CN101107594A (zh) 2008-01-16
EP1851634A1 (en) 2007-11-07
US7409595B2 (en) 2008-08-05

Similar Documents

Publication Publication Date Title
JP4717079B2 (ja) コンピュータ・システムにおける障害の診断および保守のための方法およびシステム(疑わしいコンポーネントの履歴ベースの優先順位付け)
US20090300430A1 (en) History-based prioritizing of suspected components
EP0333620B1 (en) On-line problem management for data-processing systems
US4922491A (en) Input/output device service alert function
US5293556A (en) Knowledge based field replaceable unit management
EP0570505B1 (en) Knowledge based machine initiated maintenance system and method
US5253184A (en) Failure and performance tracking system
EP0570513B1 (en) Maintenance apparatus and method initiated by a hierarchical distributed knowledge based machine
EP0471635B1 (en) Automated enrolment of a computer system into a service network of computer systems
US8108724B2 (en) Field replaceable unit failure determination
EP0401816A2 (en) Plant operation supporting method
US20160378583A1 (en) Management computer and method for evaluating performance threshold value
WO1992020026A1 (en) Knowledge based resource management
US8032789B2 (en) Apparatus maintenance system and method
CN1841547B (zh) 识别故障模块的方法及装置
EP0471636B1 (en) Flexible service network for computer systems
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
WO2023047806A1 (ja) 情報処理装置、および自動分析システム
EP0471638B1 (en) Problem prevention on a computer system in a service network of computer systems
EP0471637B1 (en) Tracking the resolution of a problem on a computer system in a service network of computer systems
CN116089155A (zh) 故障处理方法、计算设备及计算机存储介质
JPS61208547A (ja) 故障診断支援装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081014

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081014

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100813

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110322

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110329

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140408

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees