[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5729238B2 - 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム - Google Patents

管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム Download PDF

Info

Publication number
JP5729238B2
JP5729238B2 JP2011210553A JP2011210553A JP5729238B2 JP 5729238 B2 JP5729238 B2 JP 5729238B2 JP 2011210553 A JP2011210553 A JP 2011210553A JP 2011210553 A JP2011210553 A JP 2011210553A JP 5729238 B2 JP5729238 B2 JP 5729238B2
Authority
JP
Japan
Prior art keywords
server
servers
initialization
abnormality
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011210553A
Other languages
English (en)
Other versions
JP2013073326A (ja
Inventor
泰昌 斉田
泰昌 斉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011210553A priority Critical patent/JP5729238B2/ja
Publication of JP2013073326A publication Critical patent/JP2013073326A/ja
Application granted granted Critical
Publication of JP5729238B2 publication Critical patent/JP5729238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラムに関する。
特許文献1には、サーバ故障予測システムが記載されている。サーバ故障システムにおいて、保守を担当する保守サーバは、監視対象のサーバのログエリアを監視して、サーバの電源がオンしたときの時刻を含む第一ログと、サーバが利用可能になったときの時刻を含む第二ログとを収集する。保守サーバは、サーバの電源がオンしてからサーバが利用可能になるまでの時間として、第一ログの時刻と第二ログの時刻との差分である時間を算出する。保守サーバは、その時間が設定時間より大きい場合、サーバに異常がある可能性があることを保守員に通知する。
特許文献2には、初期化時刻が同じシステムについて、障害発生時にパス切断等の異常が起こった後の復旧処置に関して記載されている。
特開2010−198410号公報 特開平11−212936号公報
上記文献記載の技術においては、サーバの構成が更新されると、そのサーバの異常を正確に予測することはできない。
特許文献1のシステムでは、管理者が、BIOS(Basic Input/Output System)およびドライバの設定またはファームウェアおよびドライバの更新などによって起動時間に差異が発生する可能性を考慮し、その差を予めマージンとして確保した上で、異常判断基準となる時間を設定しなくてはならない。そのため、特許文献1のシステムは異常を検出する精度が低いという課題がある。
特許文献2に記載された技術は、構成等を更新したコンピュータの異常検出への適用は不可能である。
本発明の管理サーバは、システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続され、前記複数のサーバの各々の構成を格納するサーバ構成格納手段と、前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択するサーバ選択手段と、選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し最大と最小の初期化時間の差分が所定以上であれば異常と判定する異常判定手段と、前記異常判定手段の判定に基づき異常を通知する異常通知手段と、を備える。
本発明の異常予測方法は、管理サーバに接続された複数のサーバの各々のシステム初期化の開始と終了の時刻を記録し、前記サーバの各々の構成をサーバ構成格納手段に格納し、前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択し、選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定し、判定に基づき異常を通知する。
本発明のコンピュータプログラムは、システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続されたコンピュータに、前記複数のサーバの各々の構成をサーバ構成格納手段に格納する処理と、前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択する処理と、選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し最大と最小の初期化時間の差分が所定以上であれば異常と判定する処理と、判定に基づき異常を通知する処理と、を実行させる。
ファームウェアの更新等、システムの構成変更があっても、システム管理者が異常を検出する精度を向上させることが可能である。
図1は、本発明の第1の実施形態に係る異常予測システムの構成を示す。 図2は、本発明の第1の実施形態に係るサーバ構成情報の一例を示す。 図3は、本発明の第1の実施形態に係るサーバの動作を示すフローチャートである。 図4は、本発明の第1の実施形態に係る管理サーバの動作を示すフローチャートである。 図5は、本発明の第1の実施形態に係るバージョン情報の構成の一例を示す。 図6は、本発明の第2の実施形態に係る管理サーバの構成図である。
本発明を実施するための第1の形態について、図面を参照して詳細に説明する。
図1は、異常予測システム30の構成を示す。
図1は、本発明の一実施例として、1台の管理サーバ10、及び、当該サーバに通信路で接続された、N台(Nは例えば3として説明する)のサーバ20による異常予測システム30の構成を示す。
管理サーバ10は、サーバ構成格納部11、サーバ選択部12、初期化時間算出部13、異常判定部14、及び、異常通知部15、を備える。
サーバ構成格納部11は、各サーバ20の構成情報を格納している。各サーバ20の構成情報は、構成情報が変更された際に更新される。
サーバ選択部12は、各サーバ20の構成情報から同一構成とみなすサーバ20を選択する。
初期化時間算出部13は、サーバ選択部12が各サーバ20から取得したログ22情報から、各サーバ20でのシステムの起動開始からシステムの起動終了までの起動時間を計算する。
異常判定部14は、各サーバ20の起動時間を比較し、比較の結果、起動時間が他のサーバ20と異なるサーバ20が存在する場合、異常と判断する。
異常通知部15は、異常判定部14の判定結果を外部に通知する。
ここで、サーバ構成格納部11は、ディスク装置、半導体メモリ、等の記憶装置である。また、サーバ選択部12、初期化時間算出部13、異常判定部14、及び、異常通知部15は、論理回路等のハードウェアで構成される。サーバ選択部12、初期化時間算出部13、異常判定部14、及び、異常通知部15は、コンピュータである管理サーバ10のプロセッサが、図示されないメモリ上のプログラムを実行することで実現されても良い。
図1において、サーバ20(1〜N)は、サーバ処理部21、及び、ログ22、を備える。
サーバ処理部21は、イベントが発生した時刻とそのイベントの内容とを含む情報をログ22に登録する等、サーバ20における情報処理一般を行う。
ログ22には、サーバ20のシステム起動開始のイベントとしてシステム起動開始、サーバ20のシステム起動終了のイベントとしてシステム起動終了、のイベントが登録される。
図2は、サーバ構成格納部11に記録されたサーバ構成情報の一例を示す。サーバ構成格納部11は、サーバ20の構成要素の分類41とその構成を定義する構成定義42とを対応させて格納する。サーバ構成情報は、例えば、CPU(Central Processing Unit)という分類41に属する構成要素の構成定義42に、型番、台数、及び、クロック周波数の情報を格納している。また、サーバ構成情報は、例えば、OS(Operating System)という分類41に属する構成要素の構成定義42には、種類、及び、バージョンの情報を格納している。
図3、及び、図4に示すフローチャートを使用して、異常予測システムの動作を説明する。
先ず、図3に示すフローチャートを使用して、サーバ20側の動作を説明する。
電源投入されたサーバ20が初期化を開始し(S11)、サーバ処理部21が初期化開始の時刻をログ22に書き込む(S12)。その後、サーバ20が初期化を終了し(S13)、サーバ処理部21が初期化終了の時刻をログ22に書き込む(S14)。サーバ20はシステムの初期化が終了すると管理サーバ10にシステム起動終了を通知する(S15)。
次に、図4に示すフローチャートを使用して、管理サーバ10側の動作を説明する。
サーバ選択部12が同一構成とみなすサーバ20を選択する(S21)。選択されるサーバ20は、通常、複数台である。例えば、サーバ選択部12は、サーバ構成格納部11に格納されている各サーバ20の構成情報を参照し、所定のCPU等のハードウェアについては、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のOS等のソフトウェアまたはファームウェアについては、種類が一致し、バージョン情報の差が所定以内である、サーバ20を選択する。
バージョン情報は、例えば、図5に示すように、バージョンが4桁の数字(N1〜N4)で構成されている。上位2桁をメジャー番号、下位2桁をマイナー番号、とすると、サーバ選択部12は、メジャー番号については、同一、の場合のみ、所定以内、と判断し、マイナー番号については、差異が1以内、の場合、所定以内、と判断する。
以下の説明では、異常予測システム30は、同一とみなされた構成を有するサーバA、B、Cの3台のサーバ20を包含するものとする。
サーバ選択部12が、選択した各サーバ20のシステム起動終了通知を各サーバ20から受信すると同時に、各サーバ20よりログ22に格納されているデータを採取する(S22)。
初期化時間算出部13は、採取された各サーバ20のログ22に格納されているシステム起動開始の時刻およびシステム起動終了の時刻から各サーバ20の初期化時間を算出する(S23)。例えば、初期化時間算出部13は、サーバAの初期化時間Taを「システム起動終了の時刻」−「システム起動開始の時刻」より求める。同様にして、初期化時間算出部13は、同様にサーバB、Cの初期化時間Tb、Tcを各々、「システム起動終了の時刻」−「システム起動開始」より求める。
次に、異常判定部14は、全ての初期化時間を比較し、正常か判定する(S24)。例えば、異常判定部14は以下に示す判定方法を用いる。
異常判定部14は、各サーバA、B、Cの初期化時間Ta、Tb、Tcから最小値を求め、その値を基準時刻Tminとする。当該サーバ管理者は、基準時刻以降、正常に動作と判定する時刻までの時間として予めタイムアウト時間Δtをパラメータとして異常判定部14に設定している。異常判定部14は、Ta、Tb、Tcについて、条件(1)を満足するか否かの判定を行う。
Tmin + Δt 以下 (1)
異常判定部14は、Ta、Tb、Tc全てが条件(1)を満たす場合、それらのサーバ20について正常、条件(1)を満たさない場合、満たさない値を出したサーバ20について異常の可能性あり、と判断する。例えば、時間Tbが条件(1)を満たさない場合、サーバBの初期化時間が想定よりも長いと判断し、サーバBについて異常の可能性があると判断する。
なお、異常判定部14は、条件(1)以外の方法で判定してもよい。例えば、当該サーバ管理者は、許容比率Rをパラメータとして異常判定部14に設定し、異常判定部14は、Ta、Tb、Tcについて、条件(2)の比較を行う。
Tmin × R 以下 (2)
条件(1)の場合と同様に、条件(2)を用いて、異常判定部14が正常、もしくは、異常の可能性あり、を判断する。
上記にて異常の可能性ありと判断された場合、異常通知部15は、異常の可能性を通知する(S25)。例えば、異常通知部15が、サーバBにおける異常の可能性をランプ、ブザー、メッセージ等の方法を用いて外部に通知する。同時に、異常通知部15は、異常を検出したサーバ(例えばサーバB)の識別情報を通知してもよい。
以上の説明のように、本発明に係る管理サーバは、以下に記載するような効果を奏する。
ファームウェアの更新等、システムの構成変更があっても、システム管理者が異常を検出する精度を向上させることが可能である。その理由は、異常判定部14が、構成が同一とみなされるサーバ20同士の初期化時間を比較して、異常を検出するからである。
図6は、本発明を実施するための第2の実施形態に係る管理サーバ10の構成図である。
管理サーバ10は、システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバ20に接続され、複数のサーバ20の各々の構成を格納するサーバ構成格納部11、サーバ構成格納部11を参照し構成が同一とみなされるサーバ20を選択するサーバ選択部12、選択された複数のサーバ20の各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定する異常判定部14、異常判定部14の判定に基づき異常を通知する異常通知部15、を備える。
以上の説明のように、本発明に係る管理サーバ10は、以下に記載するような効果を奏する。
ファームウェアの更新等、システムの構成変更があっても、システム管理者が異常を検出する精度を向上させることが可能である。その理由は、異常判定部14が、構成が同一とみなされるサーバ20同士の初期化時間を比較して、異常を検出するからである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 管理サーバ
11 サーバ構成格納部
12 サーバ選択部
13 初期化時間算出部
14 異常判定部
15 異常通知部
20 サーバ
21 サーバ処理部
22 ログ
30 異常予測システム
41 分類
42 構成定義

Claims (10)

  1. システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続され、
    前記複数のサーバの各々の構成を格納するサーバ構成格納手段と、
    前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択するサーバ選択手段と、
    選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定する異常判定手段と、
    前記異常判定手段の判定に基づき異常を通知する異常通知手段と、を備えた、管理サーバ。
  2. 前記サーバ構成格納手段は、ハードウェアの分類に対応して、型番と台数もしくは容量、または、ソフトウェアもしくはファームウェアの分類に対応して、種類とバージョン情報、を含み、
    前記サーバ選択手段は、所定のハードウェアについて、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のソフトウェアまたはファームウェアについて、種類が一致し、バージョン情報の差が所定以内である、複数のサーバの構成を同一とみなす、請求項1に記載の管理サーバ。
  3. 前記複数のサーバの各々から初期化開始と終了の時刻を取得し、その差分を前記初期化時間として算出する算出手段を備えた、請求項1または請求項2に記載の管理サーバ。
  4. 前記複数のサーバと、請求項1乃至請求項3のいずれかに記載の管理サーバと、を備えた異常予測システム。
  5. システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバの各々の構成をサーバ構成格納手段に格納し、
    前記サーバ構成格納手段を参照して構成が同一とみなされるサーバを選択し、
    選択されたサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定し、
    判定に基づき異常を通知する、異常予測方法。
  6. 前記サーバ構成格納手段が、ハードウェアの分類に対応して、型番と台数もしくは容量、または、ソフトウェアもしくはファームウェアの分類に対応して、種類とバージョン情報、を含み、
    所定のハードウェアについて、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のソフトウェアまたはファームウェアについて、種類が一致し、バージョン情報の差が所定以内である、複数のサーバの構成を同一とみなす、請求項5に記載の異常予測方法。
  7. 前記複数のサーバの各々から初期化開始と終了の時刻を取得し、その差分を前記初期化時間として算出する、請求項5または請求項6に記載の異常予測方法。
  8. システム初期化の開始と終了の時刻を記録する手段を備えた複数のサーバに接続され、かつ、サーバ構成格納手段を備えたコンピュータに、
    前記複数のサーバの各々の構成を前記サーバ構成格納手段に格納する処理と、
    前記サーバ構成格納手段を参照し構成が同一とみなされるサーバを選択する処理と、
    選択された前記複数のサーバの各々のシステム初期化の開始と終了の時刻から得られた初期化時間を比較し、最大と最小の初期化時間の差分が所定以上であれば異常と判定する処理と、
    判定に基づき異常を通知する処理と、を実行させるコンピュータプログラム。
  9. 前記サーバ構成格納手段に、ハードウェアの分類に対応して、型番と台数もしくは容量、または、ソフトウェアもしくはファームウェアの分類に対応して、種類とバージョン情報、を格納し、
    所定のハードウェアについて、型番が一致し、台数または容量の差が所定以内であり、かつ、所定のソフトウェアまたはファームウェアについて、種類が一致し、バージョン情報の差が所定以内である複数のサーバの構成を同一とみなす処理を行わせる、請求項8に記載のコンピュータプログラム。
  10. 前記サーバの各々から初期化開始と終了の時刻を取得し、その差分を前記初期時間として算出する処理を前記コンピュータに実行させる、請求項8または請求項9に記載のコンピュータプログラム。
JP2011210553A 2011-09-27 2011-09-27 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム Expired - Fee Related JP5729238B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011210553A JP5729238B2 (ja) 2011-09-27 2011-09-27 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011210553A JP5729238B2 (ja) 2011-09-27 2011-09-27 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム

Publications (2)

Publication Number Publication Date
JP2013073326A JP2013073326A (ja) 2013-04-22
JP5729238B2 true JP5729238B2 (ja) 2015-06-03

Family

ID=48477809

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011210553A Expired - Fee Related JP5729238B2 (ja) 2011-09-27 2011-09-27 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム

Country Status (1)

Country Link
JP (1) JP5729238B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015184818A (ja) 2014-03-20 2015-10-22 株式会社東芝 サーバ、モデル適用可否判定方法およびコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4255317B2 (ja) * 2003-06-03 2009-04-15 株式会社日立製作所 運用監視方法及び実施システム並びに処理プログラム
JP4931220B2 (ja) * 2007-03-12 2012-05-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 検出装置、システム、プログラムおよび検出方法
JP5011174B2 (ja) * 2008-03-12 2012-08-29 株式会社日立製作所 情報機器管理方法
JP2010198410A (ja) * 2009-02-26 2010-09-09 Nec Computertechno Ltd サーバ故障予測システム

Also Published As

Publication number Publication date
JP2013073326A (ja) 2013-04-22

Similar Documents

Publication Publication Date Title
US8645769B2 (en) Operation management apparatus, operation management method, and program storage medium
TW202009705A (zh) 用以自動管理發生於資料中心系統的硬體錯誤事件的方法及其系統
US20130205173A1 (en) Storage device, and storage device control method
WO2016103650A1 (ja) 運用管理装置、運用管理方法、及び、運用管理プログラムが記録された記録媒体
US9239988B2 (en) Network event management
CN112732477B (zh) 一种带外自检故障隔离的方法
US20050177763A1 (en) System and method for improving network reliability
JP2019536146A (ja) プログラム可能クロックモニタ
US20160357623A1 (en) Abnormality detection method and information processing apparatus
US20160378604A1 (en) Agentless and/or pre-boot support, and field replaceable unit (fru) isolation
US7694179B2 (en) Suspected place identifying apparatus and processing method
US20100011100A1 (en) Health Check System, Server Apparatus, Health Check Method, and Storage Medium
US8451019B2 (en) Method of detecting failure and monitoring apparatus
US11086738B2 (en) System and method to automate solution level contextual support
JP5729238B2 (ja) 管理サーバ、異常予測システム、異常予測方法、及び、異常予測プログラム
JP6880961B2 (ja) 情報処理装置、およびログ記録方法
JP6212947B2 (ja) 情報処理装置、制御装置及び制御プログラム
JP2021140284A (ja) 情報処理装置、情報処理方法及びプログラム
KR101783201B1 (ko) 서버 통합 관리 시스템 및 방법
JP6349983B2 (ja) 異常検知方法、異常検知プログラムおよび異常検知装置
JP2010003132A (ja) 情報処理装置、その入出力装置の故障検出方法及びプログラム
US10938821B2 (en) Remote access controller support registration system
JP5696492B2 (ja) 故障検出装置、故障検出方法、及び、故障検出プログラム
JP6388335B2 (ja) 障害傾向判定装置、障害傾向判定方法及びプログラム
JP2024102723A (ja) 監視プログラム,監視装置および監視方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140821

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150310

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150323

R150 Certificate of patent or registration of utility model

Ref document number: 5729238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees