JP4573179B2 - 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム - Google Patents
性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム Download PDFInfo
- Publication number
- JP4573179B2 JP4573179B2 JP2006150447A JP2006150447A JP4573179B2 JP 4573179 B2 JP4573179 B2 JP 4573179B2 JP 2006150447 A JP2006150447 A JP 2006150447A JP 2006150447 A JP2006150447 A JP 2006150447A JP 4573179 B2 JP4573179 B2 JP 4573179B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- performance data
- performance
- abnormality detection
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
この性能監視システムは、複数の性能監視装置と管理サーバ装置とを通信ネットワークにより接続する。前記複数の性能監視装置は夫々、接続される一又は複数の情報処理装置の性能を監視する性能監視手段と、前記性能監視手段による監視結果を示す性能データを送信する性能データ送信手段とを有する。前記管理サーバ装置は、前記複数の性能監視装置から夫々性能データを受信する性能データ受信手段を有する。
この性能監視装置は、予め定められている採取間隔で、監視対象装置の性能値を採取する性能値採取手段と、該性能値採取手段が予め定められているサンプリング期間に採取した性能値から、それらの平均値との差分が除外レベル値以下の性能値を抽出する抽出手段と、該抽出手段で抽出された性能値に基づいて閾値を算出する閾値算出手段と、該閾値算出手段で算出した閾値と前記性能値採取手段で採取した性能値とに基づいて、前記監視対象装置に性能的問題が発生しているか否かを判定する判定手段とを備えたことを特徴とする。
この性能監視装置は、複数の情報処理装置が協調して動作する情報処理システムの性能を監視する。なお、この性能監視装置は、前記複数の情報処理装置の稼働状況、及び、前記複数の情報処理装置間を接続する各通信回線のデータ通信状況を監視する監視手段と、前記監視手段による監視データに基づいて、前記情報処理システムに現在発生している障害を検知、又は、前記情報処理システムに将来障害が発生する可能性を予測する障害検知/予測手段とを有することを特徴とする。
このコンピユータ性能監視装置は、中央処理部,主記憶部,入出力制御部,通信制御部の稼働データを検知する性能データ採取機構と、前記稼働データを受信し格納する性能情報蓄積部と、前記稼働データを解析し表示する手段とを有することを特徴とする。
第二の効果は、サーバ性能を監視する際に、リソース毎に閾値を設定する必要がない点である。その理由は、偏差値を利用することで、性能データの平均値からのズレが標準化されるためである。
図1に示すように、本発明の計算機システムは、性能監視対象サーバ群1と、性能データ収集部2と、統計計算部3と、異常検出部4と、外部出力部5と、記憶装置6と、サーバリソース情報7と、サーバ構成情報8と、性能データ9と、入力制御部10と、外部入力部11とを有する。
図2では、サーバリソース情報の項目として、「CPU使用率」「空き物理メモリ」「ディスク転送速度」「パケット転送速度」等が示されている。「CPU使用率」は、CPUの処理能力(処理可能限界)に対して実際に実行されている処理の割合を示す。すなわち、CPUの混雑率を示す。「空き物理メモリ」は、物理メモリの最大容量から使用中の容量を差し引いた空き容量を示す。「ディスク転送速度」は、データの読み出しや書き込みの速度を示す。「パケット転送速度」は、サーバ間、或いは監視対象サーバと他の装置との間で通信した時のパケットの転送速度を示す。但し、実際には、これらの例に限定されるものではなく、他にも一般的に利用されているサーバリソース情報を使用することが可能である。
図3では、サーバ構成情報として、「サーバグループ毎の識別情報」と「監視対象サーバのIPアドレス」との組み合わせが示されている。これにより、どのサーバグループにどのサーバが属しているかを把握することが可能である。図3では、「グループ毎の識別情報」の例として、「サーバグループ1」「サーバグループ2」が示されている。但し、実際には、上記の例に限定されない。また、「監視対象サーバのIPアドレス」は、IPアドレスに限定されるものではなく、監視対象サーバ毎に固有の識別情報(例えば、端末名)を代わりに用いても良い。すなわち、監視対象サーバを特定できる識別情報であれば良い。
図4では、性能データとして、「性能計測を実施した日時」「監視対象サーバのIPアドレス」「計測項目」「計測結果」の組み合わせが示されている。「性能計測を実施した日時」は、例えば「2006/01/01 00:00:00」のように、監視対象サーバの性能計測を実施した年月日及び時刻が示されている。「監視対象サーバのIPアドレス」は、監視対象サーバが有するIPアドレスを示す。なお、IPアドレスの代わりに、監視対象サーバを特定できる識別情報を用いても良い。「計測項目」は、サーバリソース情報の項目として示した「CPU使用率」「空き物理メモリ」「ディスク転送速度」「パケット転送速度」等である。「計測結果」は、前述した「CPU使用率」「空き物理メモリ」「ディスク転送速度」「パケット転送速度」等の値を示している。
(1)ステップS11
統計計算部3では、まずサーバ構成リストを作成する。サーバ構成リストとは、図6に示すように、対象のサーバグループ1に属している監視対象サーバ情報と性能データのペアをリスト化したものである。リスト作成時は、リストの要素の性能データ部分には情報が入っていない状態である。図6では、所定の時間内(例:5分間)におけるサーバ構成リストの例と、統計計算できない例とを示している。図6では、サーバ構成リストに、「監視対象サーバのIPアドレス」と「CPU使用率」との組み合わせが示されている。統計計算できない例では、「CPU使用率」の値が空(指定時間内にデータ無し)の場合についても例示している。なお、「CPU使用率」と共に、或いは代わりに、「空き物理メモリ」「ディスク転送速度」「パケット転送速度」のいずれか又は全てをサーバ構成リストに含むようにしても良い。
(2)ステップS12
次に、期間、対象のサーバグループ1に属している監視対象サーバ情報、サーバリソース情報を指定して、記憶装置6から性能データ一覧を取得し、性能データリストを作成する。
(3)ステップS13
次に、性能データリスト内に性能データが1件以上存在しているか確認する。
(4)ステップS14
性能データリスト内に性能データが存在している場合、収集時刻の古い順に性能データリストからデータを取り出し、取り出したデータの参照しているサーバ情報と対応するサーバ構成リスト内の要素に性能データを反映する。この操作を性能データリストの全データについて実施する。既に反映済みのサーバについては、より新しい時刻情報を持つ性能データで上書きする。
(5)ステップS15
性能データリスト内の全データについて上記の操作が完了した後、サーバ構成リストを確認し、性能データが反映されてないサーバがないことを確認する。
(6)ステップS16
サーバ構成リスト内の全サーバに対して性能データが反映されていることが確認できた場合、それぞれのサーバについての偏差値を計算する。偏差値の算出式を以下に示す。
全てのサーバについての偏差値の計算が完了した後、異常検出部の処理へ遷移する。
(8)ステップS18
性能データが反映されていないサーバが1つでも存在した場合、統計計算結果が不正となる可能性があるため、処理を中断する。
異常検出部4では、まず統計計算部3で計算されたサーバ毎の偏差値について、30未満又は70を超える値となったサーバが存在しないかどうかを検証する。偏差値30以上、70以下の範囲には、全性能データの約95%が含まれるため、この範囲に含まれない性能データは特異な値であるといえる。
(2)ステップS22
30未満又は70を超える値となったサーバが存在した場合、対象のサーバグループ1が異常な状態となっている可能性があるとして、利用者に対して外部出力部(図1の5)を通して通知する。
(3)ステップS23
30未満又は70を超える値となったサーバが存在しない場合は、対象のサーバグループ1の状態は正常な状態であるとして、処理を終了する。
2… 性能データ収集部
3… 統計計算部
4… 異常検出部
5… 外部出力部
6… 記憶装置
7… サーバリソース情報
8… サーバ構成情報
9… 性能データ
10… 入力制御部
11… 外部入力部
Claims (9)
- 同一の構成であって、同一のサーバグループに属し、特定の処理を均等に分散して実行する複数のサーバと、
前記複数のサーバの各々に対する性能計測の対象となるリソースを示すサーバリソース情報、及び前記サーバグループ及び前記各サーバの識別情報を示すサーバ構成情報を指定するための入力制御部と、
前記各サーバから、前記サーバリソース情報に示されたリソース毎に性能データを収集する性能データ収集部と、
前記サーバリソース情報、前記サーバ構成情報、及び前記各サーバから収集した性能データを記憶する記憶装置と、
前記サーバリソース情報に示されたリソース毎に、前記各サーバの最新の性能データを母集団として取り出し、統計計算処理を実施し、前記最新の性能データの母集団に対する個々のサーバの最新の性能データの乖離具合を示す指標値を算出する統計計算部と、
前記指標値が前記各サーバの異常状態をあらわしているかどうかを判断して異常を検出する異常検出部と、
異常が検出された場合に外部に通知するための外部出力部と
を具備する
性能負荷異常検出システム。 - 請求項1に記載の性能負荷異常検出システムであって、
前記性能データ収集部は、前記記憶装置内の前記サーバリソース情報、前記サーバ構成情報を参照し、前記性能データを収集する対象を把握し、前記サーバ構成情報の情報を基に前記各サーバヘアクセスし、前記サーバリソース情報の情報を基に対象のサーバリソースに関する前記性能データを取得するためのコマンドの発行、又は関数の実行を行い、前記性能データを、前記サーバリソース情報への参照、前記サーバ構成情報への参照、収集時刻と共に、前記記憶装置に記録する
性能負荷異常検出システム。 - 請求項1又は2に記載の性能負荷異常検出システムであって、
前記統計計算部は、現時刻から所定の期間内に収集された前記性能データを、前記サーバリソース情報及び前記サーバグループを指定して前記記録装置から取り出し、統計処理を実施し、
前記異常検出部は、統計処理が施されたデータを検証し、異常があると判断された場合、前記外部出力部を介して利用者に通知する
性能負荷異常検出システム。 - コンピュータにより実施される性能負荷異常検出方法であって、
同一の構成であって、同一のサーバグループに属し、特定の処理を均等に分散して実行する複数のサーバの各々を監視することと、
前記各サーバの識別情報と前記各サーバの性能データとのペアをリスト化したサーバ構成リストを作成することと、
前記各サーバの識別情報を示すサーバ構成情報、及び前記各サーバに対する性能計測の対象となるリソースを示すサーバリソース情報を指定して、所定の期間、前記サーバリソース情報に示されたリソース毎に、前記各サーバから性能データを収集して性能データリストを作成することと、
前記性能データリスト内に未処理の性能データが1件以上存在しているか確認することと、
前記性能データリスト内に前記未処理の性能データが存在している場合、収集時刻の古い順に前記性能データリストから前記未処理の性能データを取り出し、前記各サーバの識別情報をキーにして、前記取り出した性能データを前記サーバ構成リストに反映することと、
前記性能データリスト内に未処理の性能データが他に存在しているか確認することと、
前記性能データリスト内に前記未処理の性能データが存在していない場合、前記性能データリスト内の全データが前記サーバ構成リストに反映されているか確認することと、
前記性能データリスト内の全データが前記サーバ構成リストに反映されていることを確認した場合、前記サーバ構成リスト内の各サーバの最新の性能データを母集団として取り出し、統計計算処理を実施し、前記最新の性能データの母集団に対する個々のサーバの最新の性能データの乖離具合を示す指標値を計算することと、
前記サーバ構成リスト内の全サーバについて前記指標値の計算が完了した後、いずれかの指標値がサーバの異常状態をあらわしているかどうかを判断して異常を検出することと、
異常が検出された場合に外部に通知することと
を含む
性能負荷異常検出方法。 - 請求項5に記載の性能負荷異常検出方法であって、
前記サーバ構成リスト内に前記性能データが反映されていないサーバが存在する場合、統計計算結果が不正となる可能性があるため、処理を中断すること
を更に含む
性能負荷異常検出方法。 - 請求項7に記載の性能負荷異常検出方法であって、
計算されたサーバ毎の偏差値について、偏差値30未満又は70を超える値となったサーバが存在しないかどうかを検証することと、
偏差値30未満又は70を超える値となったサーバが存在した場合、対象のサーバグループが異常な状態となっている可能性があるとして、利用者に対して通知することと、
偏差値30未満又は70を超える値となったサーバが存在しない場合、対象のサーバグループの状態は正常な状態であるとして処理を終了することと
を更に含む
性能負荷異常検出方法。 - 請求項5乃至8のいずれか一項に記載の性能負荷異常検出方法を、コンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006150447A JP4573179B2 (ja) | 2006-05-30 | 2006-05-30 | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006150447A JP4573179B2 (ja) | 2006-05-30 | 2006-05-30 | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007323193A JP2007323193A (ja) | 2007-12-13 |
JP4573179B2 true JP4573179B2 (ja) | 2010-11-04 |
Family
ID=38855969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006150447A Expired - Fee Related JP4573179B2 (ja) | 2006-05-30 | 2006-05-30 | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4573179B2 (ja) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4572251B2 (ja) * | 2008-09-29 | 2010-11-04 | 株式会社日立製作所 | 計算機システム、計算機システムの障害の予兆検知方法及びプログラム |
JP2010231293A (ja) * | 2009-03-26 | 2010-10-14 | Nomura Research Institute Ltd | 監視装置 |
JP5267684B2 (ja) | 2010-01-08 | 2013-08-21 | 日本電気株式会社 | 運用管理装置、運用管理方法、及びプログラム記憶媒体 |
US20130055283A1 (en) * | 2010-05-07 | 2013-02-28 | Dinkar Sitaram | Workload Performance Control |
EP2657843B1 (en) | 2010-12-20 | 2020-04-08 | Nec Corporation | Operation management device, operation management method, and program |
JP5532150B2 (ja) * | 2011-01-24 | 2014-06-25 | 日本電気株式会社 | 運用管理装置、運用管理方法、及びプログラム |
US10073754B2 (en) | 2013-09-13 | 2018-09-11 | Assurant, Inc. | Systems and methods for collecting, tracking, and storing system performance and event data for computing devices |
JP6209138B2 (ja) * | 2014-07-24 | 2017-10-04 | 富士通フロンテック株式会社 | 運用管理サーバ、運用プログラム及びサーバ運用方法 |
JP6574332B2 (ja) * | 2015-03-26 | 2019-09-11 | 株式会社日立システムズ | データ分析システム |
KR101877904B1 (ko) * | 2017-11-16 | 2018-07-12 | (주)웨일소프트 | 서버 장애 모니터링 장치 및 방법 |
JPWO2023021582A1 (ja) * | 2021-08-17 | 2023-02-23 | ||
CN116088394B (zh) * | 2023-03-03 | 2023-12-26 | 青岛前海智能印刷机械有限公司 | 一种基于物联网的智能弱电设备控制系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132543A (ja) * | 2000-10-25 | 2002-05-10 | Hitachi Ltd | 計算機システムの管理方法 |
JP2002342182A (ja) * | 2001-05-21 | 2002-11-29 | Hitachi Ltd | ネットワークシステムにおける運用管理の支援システム |
JP2003263342A (ja) * | 2002-03-07 | 2003-09-19 | Telecommunication Advancement Organization Of Japan | 情報処理装置の監視装置および監視方法並びにそのプログラム |
JP2005327261A (ja) * | 2004-04-16 | 2005-11-24 | Ns Solutions Corp | 性能監視装置、性能監視方法及びプログラム |
JP2007122330A (ja) * | 2005-10-27 | 2007-05-17 | Nec Corp | クラスタ障害推定システム |
-
2006
- 2006-05-30 JP JP2006150447A patent/JP4573179B2/ja not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002132543A (ja) * | 2000-10-25 | 2002-05-10 | Hitachi Ltd | 計算機システムの管理方法 |
JP2002342182A (ja) * | 2001-05-21 | 2002-11-29 | Hitachi Ltd | ネットワークシステムにおける運用管理の支援システム |
JP2003263342A (ja) * | 2002-03-07 | 2003-09-19 | Telecommunication Advancement Organization Of Japan | 情報処理装置の監視装置および監視方法並びにそのプログラム |
JP2005327261A (ja) * | 2004-04-16 | 2005-11-24 | Ns Solutions Corp | 性能監視装置、性能監視方法及びプログラム |
JP2007122330A (ja) * | 2005-10-27 | 2007-05-17 | Nec Corp | クラスタ障害推定システム |
Also Published As
Publication number | Publication date |
---|---|
JP2007323193A (ja) | 2007-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4573179B2 (ja) | 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム | |
JP4980581B2 (ja) | 性能監視装置、性能監視方法及びプログラム | |
JP4859558B2 (ja) | コンピュータシステムの制御方法及びコンピュータシステム | |
EP2523115B1 (en) | Operation management device, operation management method, and program storage medium | |
US7506314B2 (en) | Method for automatically collecting trace detail and history data | |
JP5874936B2 (ja) | 運用管理装置、運用管理方法、及びプログラム | |
JP5768983B2 (ja) | 契約違反予測システム、契約違反予測方法および契約違反予測プログラム | |
US9191296B2 (en) | Network event management | |
JP6828679B2 (ja) | システム監視装置、システム監視方法、及び、システム監視プログラム | |
CN114328102A (zh) | 设备状态监控方法、装置、设备及计算机可读存储介质 | |
CN113590429B (zh) | 一种服务器故障诊断方法、装置及电子设备 | |
CN109460343A (zh) | 基于日志的系统异常监控方法、装置、设备及存储介质 | |
JP5933386B2 (ja) | データ管理装置及びプログラム | |
US8601318B2 (en) | Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring | |
JP5007247B2 (ja) | ジョブ処理システムおよびジョブ管理方法 | |
US11397212B2 (en) | Identification of cause of failure in a power storage system | |
JP7387469B2 (ja) | 通信装置、監視サーバ及びログ収集方法 | |
WO2012008058A1 (ja) | 計算機システムの管理方法、及び管理システム | |
CN107943654A (zh) | 一种快速判定服务器环境温度监控异常原因的方法 | |
CN108899059B (zh) | 一种固态硬盘的检测方法和设备 | |
CN114676019A (zh) | 一种中央处理器状态监测方法、装置、设备、存储介质 | |
CN112416896A (zh) | 数据异常的报警方法和装置、存储介质、电子装置 | |
CN117271222A (zh) | 一种面向大数据的云容灾备份方法及系统 | |
JP4081258B2 (ja) | 管理サーバシステム | |
JP2004253035A (ja) | ディスクドライブ品質監視システム、方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090722 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090727 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090918 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100129 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100723 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100805 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |