[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2017182601A - 監視装置、監視システム及び監視プログラム - Google Patents

監視装置、監視システム及び監視プログラム Download PDF

Info

Publication number
JP2017182601A
JP2017182601A JP2016071436A JP2016071436A JP2017182601A JP 2017182601 A JP2017182601 A JP 2017182601A JP 2016071436 A JP2016071436 A JP 2016071436A JP 2016071436 A JP2016071436 A JP 2016071436A JP 2017182601 A JP2017182601 A JP 2017182601A
Authority
JP
Japan
Prior art keywords
failure
information
message
monitoring
syslog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016071436A
Other languages
English (en)
Inventor
英紀 山川
Hidenori Yamakawa
英紀 山川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Platforms Ltd
Original Assignee
NEC Platforms Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Platforms Ltd filed Critical NEC Platforms Ltd
Priority to JP2016071436A priority Critical patent/JP2017182601A/ja
Publication of JP2017182601A publication Critical patent/JP2017182601A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Computer And Data Communications (AREA)

Abstract

【課題】監視対象の装置に関する情報を有効に利用する。【解決手段】監視装置が、通信装置からの通知情報を取得する取得手段と、前記取得手段が取得した前記通知情報に前記通信装置の状態を表すメッセージであって所定のキーワードが含まれているメッセージが含まれていれば、該メッセージに基づいて所定のイベントの発生を表す情報を生成し、該生成した情報を第1のイベント発生情報として抽出する抽出手段と、前記第1のイベント発生情報を出力する出力手段と、を備える。【選択図】図1

Description

本発明は、監視するための、監視装置、監視システム及び監視プログラムに関する。
通信ネットワークに含まれる各通信装置の状態を把握するための技術としてsyslogを利用することが広く行われている。
ここで、syslogを利用する技術の一例が特許文献1に記載されている。特許文献1に記載のログ情報管理サーバは、ネットワークを介して接続される送信元機器から、送信元機器で発生したイベントのシスログデータを受信する。また、受信したシスログデータ、シスログデータに付加された受信時刻及びイベントが発生した送信元機器を特定可能なデータをデータベースに記憶することによりログ情報を生成する。
その後、管理者端末からの要求を受け付けたログ情報管理サーバは、ログ情報のデータベースから要求に対応するログ情報を取得し、取得したログ情報を管理者端末に送信する。
管理者端末のユーザは、受信したログ情報を参照することによりシステムトラブルの原因等を特定することが可能となる。
特開2003−141075号公報
このようにsyslogは、システムの管理作業に不可欠な情報収集源であり、システムで発生したトラブルの原因はsyslogを調べて分かることが多い。
しかしながら、特許文献1等に記載のログ情報管理サーバに記憶されるsyslogは、システム管理でトラブルの発生原因を調べるための使い勝手において充分なものとは言えない。
なぜならば、システム管理を行うユーザが、ログ情報管理サーバに記録されたsyslogを参照するためには、特許文献1に記載のように、管理者端末を利用して自発的にサーバに問合せを行う等の処理が必要だからである。
本発明は上記課題に鑑み提案するものであって、監視対象の装置に関する情報を有効に利用することが可能な、監視装置、監視システム及び監視プログラムを提供することを目的とする。
本発明の第1の観点によれば、通信装置からの通知情報を取得する取得手段と、前記取得手段が取得した前記通知情報に前記通信装置の状態を表すメッセージであって所定のキーワードが含まれているメッセージが含まれていれば、該メッセージに基づいて所定のイベントの発生を表す情報を生成し、該生成した情報を第1のイベント発生情報として抽出する抽出手段と、前記第1のイベント発生情報を出力する出力手段と、を備えることを特徴とする監視装置が提供される。
本発明の第2の観点によれば、上記本発明の第1の観点により提供される監視装置と、クライアント端末とを備える監視システムであって、前記通信手段は、前記クライアント端末からの要求の有無を問うこと無く、前記第1及び第2のイベント発生情報を前記クライアント端末に対して出力することを特徴とする監視システムが提供される。
本発明の第3の観点によれば、通信装置からの通知情報を取得する取得手段と、前記取得手段が取得した前記通知情報に前記通信装置の状態を表すメッセージであって所定のキーワードが含まれているメッセージが含まれていれば、該メッセージに基づいて所定のイベントの発生を表す情報を生成し、該生成した情報を第1のイベント発生情報として抽出する抽出手段と、前記第1のイベント発生情報を出力する出力手段と、を備える監視装置としてコンピュータを機能させることを特徴とする監視プログラムが提供される。
本発明によれば、監視対象の装置に関する情報を有効に利用することが可能となる。
本発明の実施形態全体の基本的構成を表す図である。 本発明の実施形態における監視装置やクライアント端末に含まれる機能ブロックを表すブロック図である。 本発明の実施形態における監視装置の基本的動作を表すフローチャートである。 本発明の実施形態におけるsyslogファイル群の一例を表す図である。
まず、本発明の実施形態の概略を説明する。本発明の実施形態は、syslogを利用してネットワーク装置の障害を検知する障害監視システムに関するものである。より具体的には、syslogをキーワードに基づき検索することにより、保存される全syslogの中から障害検出に有用なものを抽出する。そして抽出したものを、SNMP(Simple Network Management Protocol)等で通知される障害情報と同様に、クライアントに通知することにより、発生中の障害を表示する。
これにより、syslogに保存されたトラブル発生原因を即座に、原因が分かりやすい形で表示することを可能とする。
以上が本発明の実施形態の概略である。
次に、本発明の実施形態について図面を参照して詳細に説明する。
図1を参照すると、本実施形態である監視システム監視装置100は、監視装置10、クライアント端末20、第1の通信装置31、第2の通信装置32、第3の通信装置33及び第4の通信装置34を含む。なお、以下の説明においては、これら第1の通信装置31、第2の通信装置32、第3の通信装置33及び第4の通信装置34のそれぞれを特定することなく呼ぶ場合に、単に「通信装置」や「各通信装置」と表記する。
監視装置10は、監視対象となる各通信装置から取得した情報に基づいて、各通信装置に障害が発生しているか否かを監視する。そして、監視装置10は、障害が発生していることを検知したならば、その旨及びその障害の内容をクライアント端末20に対して通知する。
ここで、監視装置10は、汎用のサーバ装置に所定のソフトウェアを組み込むことにより実現することができる。つまり、サーバ装置の演算処理部が、記憶部等を利用して、かかる所定のソフトウェアによる演算処理を行い、かかる演算処理の結果に基づいてサーバ装置内の各ハードウェアを制御することにより監視装置10を実現できる。
クライアント端末20は、監視システム監視装置100を管理するオペレータ等が利用する端末である。クライアント端末20は、監視装置10から障害の発生した旨及びその障害の内容を通知されると、通知された内容を画面に表示する。これにより、障害発生時に、オペレータが障害の内容等を即座に認識することが可能となる。
また、クライアント端末20は、例えば、汎用のパーソナルコンピュータに所定のソフトウェアを組み込むことにより実現することができる。つまり、パーソナルコンピュータの演算処理部が、記憶部等を利用して、かかる所定のソフトウェアによる演算処理を行い、かかる演算処理の結果に基づいてパーソナルコンピュータ内の各ハードウェアを制御することによりクライアント端末20を実現できる。
なお、監視装置10及びクライアント端末20に含まれる具体的な機能ブロックについては、図2を参照して後述する。
他方、各通信装置は、それぞれが通信を行う装置である。各通信装置は、パーソナルコンピュータ等のエンドポイント端末であってもよいが、例えば、ルータやL2スイッチといった中継機器であってもよい。何れにせよ、各通信装置もハードウェアや、ハードウェアとソフトウェアの組み合わせにより実現される。
そして、監視システム100では、通信装置間の接続により通信ネットワーク50が形成される(かかる接続及び通信ネットワーク50を図中では実線で表す。)。そして、各通信装置間で所定のデータの送受信を行う。なお、各通信装置間で、送受信されるデータの具体的な種別やその内容に特に制限はない。
一方で、各通信装置は、監視装置10との接続により監視ネットワーク40も形成する(かかる接続及び監視ネットワーク40を図中では実線で表す。)。そして、各通信装置は、かかる監視ネットワーク40を経由して、監視装置10に所定の情報を通知する。
ここで、本実施形態における各通信装置は、自通信装置等に障害が発生した場合に、SNMPといったプロトコルを用い、障害が発生した旨及びその障害の内容等を監視装置10に対して通知する。かかる通知される情報を以下の説明においては、「障害トラップ(SNMP)」と呼ぶ。
ここで、SNMPに準拠した場合、平常時には監視装置10から各通信装置への定期的な状態の問い合わせを実施し、各通信装置は、かかる問合せに返答を行う。また、これに加えて、何らかの異常、すなわち障害が発生した場合には、各通信装置から監視装置10に対して障害トラップ(SNMP)が通知される。
監視装置10はこれら各通信装置からの情報を収集し、クライアント端末20に表示をさせる。そして、その表示に基づいて、オペレータが障害解析および障害復旧を実施する。
障害トラップ(SNMP)には、例えば、障害の内容を表すメッセージ、障害トラップ(SNMP)の送信元の通信装置を特定するための情報(例えば、送信元の通信装置のIP(Internet Protocol)アドレスや装置名)、障害種別が含まれる。
ここで、障害種別とは、障害トラップがSNMPにより各通信装置から送信された障害トラップであるか、syslogファイルに基づいて障害送信部15により生成された障害トラップであるか、を識別するための情報である。障害トラップ(SNMP)には、前者であることを識別するための情報が障害種別として付与される。
また、本実施形態では、かかるSNMPに関連する通信のみならず、syslogを利用した障害検知も行う。
具体的には、各通信装置は、自通信装置等が所定の状態等になった場合に、かかる所定の状態を表すログデータを監視装置10に対して通知する。かかるログデータは、syslogに準拠して通知されることから、以下の説明においては「ログデータ(syslog)」と呼ぶ。
そして、上述したように、監視装置10は受信した全てのログデータ(syslog)を対象としてキーワードに基づき検索することにより、障害検出に有用なものを抽出し、抽出した情報に基づいて「障害トラップ(syslog)」を生成する。そして、生成した障害トラップ(syslog)をクライアント端末20に通知する。
ここで、障害トラップ(syslog)には、syslogファイルに含まれるメッセージ、syslogファイルの送信元の通信装置を特定するための情報(例えば、送信元の通信装置のIPアドレスや装置名)、障害種別が含まれる。
ここで、上述したように、障害種別とは、障害トラップがSNMPにより各通信装置から送信された障害トラップであるか、syslogファイルに基づいて障害送信部15により生成された障害トラップであるか、を識別するための情報である。障害トラップ(syslog)には、後者であることを識別するための情報が障害種別として付与される。
次に、監視装置10及びクライアント端末20に含まれる機能ブロックについて図2を参照して説明をする。
図2を参照すると、監視装置10は、状態障害管理部11、障害受信部12、キーワード設定部13、キーワードデータベース14、障害送信部15、syslogファイル群16及びキーワード検知部17を含む。
また、クライアント端末20は画面表示部21及び操作部22を含む。以下これら各機能ブロックについて説明をする。なお、図2では、各通信装置を通信装置群31、32、33及び34としてまとめて表記する。
状態障害管理部11は、障害の状態を管理する部分である。状態障害管理部11は、後述の障害受信部12より障害トラップを受信する。そして、受信した障害トラップに基づいて自己が管理及び記憶する「状態管理情報」を更新する。具体的には、受信した障害トラップを状態管理情報に新たに追加する更新を行う。
また、状態障害管理部11は、更新後の状態管理情報をクライアント端末20に対して送信する。
ここで、送信は、例えばJRMP(Java Remote Method Protocol)(登録商標)等を用いて、監視装置10とクライアント端末20をリモート接続することにより実現することができる。この場合には、状態管理情報を送信するという表現ではなく、クライアント端末20が記憶する状態管理情報を監視装置10が参照可能となるというように表現することもできる。
障害受信部12は、障害トラップを受信する部分である。障害受信部12は、各通信装置から障害トラップ(SNMP)を受信する。また、障害受信部12は、後述の障害送信部15からも障害トラップ(syslog)を受信する。そして、障害受信部12は、受信した各障害トラップを、状態障害管理部11に送信する。
キーワード設定部13は、後述の操作部22から、キーワードの設定を受け付ける部分である。かかるキーワードは、後述のキーワード検知部17が、syslogファイル群16全体から、障害トラップ(syslog)を生成するための情報が含まれているsyslogファイルを検知するために用いられる。
ここで、キーワードは、クライアント端末20を利用するオペレータや、監視装置10を製造するメーカ等によって設定されるものとする。この際、本実施形態が設置される環境に応じて、選択された文言がキーワードとして選択される。
キーワードの具体例は、例えば「Chassid[」や、「System CPU」等の文言である。また、キーワードは1つの文言であっても複数の文言であってよい。また、複数の文言を組み合わせて、これらにAND条件や、OR条件を設定することにより1つのキーワードとしてもよい。
また、設定されるキーワードの総数は任意であるが、例えば、10個程度のキーワードを設定するようにすると良い。更に、キーワードは、オペレータ等がキーボード等の入力デバイスにより文言を入力するようにして設定しても良く、予め準備されている文言をオペレータ等が選択することにより設定するようにしても良い。
キーワードデータベース14は、キーワード設定部13により設定されたキーワードが格納されるデータベースである。
障害送信部15は、後述のキーワード検知部17が検知した、キーワードを含むsyslogファイルを受信し、受信したsyslogファイルに基づいて障害トラップ(syslog)を生成し、生成した障害トラップ(syslog)を障害受信部12に送信する。
syslogファイル群16は、各通信装置から受信したログデータ(syslog)を、syslogファイル群として保存する部分である。
なお、本実施形態syslogファイル群は上述したように障害トラップ(syslog)を生成するために用いられるが、一般的なログデータとしても利用することもできる。例えば、クライアント端末20から要求があった場合に、監視装置10は、syslogファイル群16をクライアント端末20に送信する。クライアント端末20を利用するオペレータ等は、かかるsyslogファイル群16を参照することにより、各通信装置の動作状況の履歴を確認することが可能となる。
キーワード検知部17は、キーワードデータベース14を参照することにより、現在設定されているキーワードを取得する。そして、取得したキーワードを検索キーとしてsyslogファイル群16に含まれる各syslogファイルを検索することにより、キーワードを含むsyslogファイルを検知して、抽出する。キーワード検知部17は、抽出したsyslogファイルを、障害トラップ(syslog)の生成のために障害送信部15に対して送信する。
各通信装置は、上述したように障害トラップ(SNMP)や、ログデータ(syslog)を監視装置10に対して送信する。
次に、クライアント端末20との通信について説明をする。
状態障害管理部11から、クライアント端末20に対してJRMP等で送信された、障害トラップ(SNMP)や、障害トラップ(syslog)といった障害情報は、クライアント端末20が備える画面表示部21に表示される。かかる画面表示部21は例えば液晶等のディスプレイにより実現することができる。
なお、各障害トラップ受信時には、クライアント端末20の、画面表示部21に表示するのみならず、クライアント端末20が備えるスピーカーから警告音を出力するようにしたり、クライアント端末20に接続されたプリンターから各障害トラップの内容をプリントアウトしたりするようにしても良い。
クライアント端末20を利用するオペレータ等はこれらの出力を参照することにより、障害の発生や、障害の状況を把握することが可能となる。
次に、操作部22は、オペレータ等の操作を受け付ける部分であり、例えば、キーボードやタッチパネルやマウスといったデバイスにより実現することができる。操作部22が受け付けた操作内容は、監視装置10に送信される。そして、オペレータ等は、画面表示部21に表示されるキーワードの設定画面を参照しながら、操作部22を利用してキーワードの設定を行う。
また、オペレータ等は、画面表示部21に表示される状態管理情報を参照しながら、操作部22を利用して状態管理情報の更新を行う。ここで、更新とは、例えば、障害に対して対象を行った後に、この対処済みの障害に対応する障害トラップを状態管理情報から削除するようなことである。
次に、図3のフローチャートを参照して、監視装置10の具体的な動作について詳細に説明する。
なお、以下の説明の前提として、予め操作部22及びキーワード設定部13等を利用してオペレータ等が設定したキーワードが、キーワードデータベース14に格納されているものとする。
まず、障害受信部12が障害トラップ(SNMP)を受信したか否かを判定する(ステップS101)。受信したのであれば(ステップS101において)、受信した障害トラップ(SNMP)に基づいて、状態管理情報を更新する。具体的には、受信した障害トラップ(SNMP)を状態管理情報に追加する更新を行う。
ここで、障害トラップ(SNMP)は、状態障害管理部11により、例えば、障害の発生した部位単位で障害管理情報として管理される。そして、更新後の状態管理情報は、障害情報として状態障害管理部11からクライアント端末20に対して送信される(ステップS103)。そして、上述したようにクライアント端末20に対して送信された状態管理情報は、画面表示部21に表示される。
一方で、障害トラップ(SNMP)を受信していない場合には(ステップS105)、所定の周期が経過したか否かを判定する(ステップS105)。ここで、所定の周期とは、キーワード検知部17がキーワードを含むsyslogが存在するか否かの検知を実行する周期である。かかる周期は任意に定めることができる。本例では、かかる周期は1分であるとする。つまり、ステップS105では、前回キーワード検知部17が検知を行ってから1分が経過したか否かを判定する。
ここで、未だ1分が経過していない場合は(ステップS105においてNo)、ステップS101に戻り処理を継続する。
一方で、1分が経過した場合には、ステップS107に遷移して、キーワード検知部17がsyslogファイル群16に対してキーワード検知を実行する(ステップS107)。
かかるキーワード検知について図4を参照して説明を行う。図4にはsyslogファイル群16に含まれるsyslogファイルの一例を表す。なお、これらsyslogファイルのそれぞれは、各通信装置から受信したログデータ(syslog)を保存したものである。
図4に示すように、各syslogファイルは、時刻、送信元装置名及びメッセージを含む。
ここで、時刻は、syslogファイルの元となるログデータ(syslog)が生成された時刻である。また、送信元装置名は、ログデータ(syslog)の送信元の通信装置の名称である。なお、送信元装置名を、送信元装置を特定するための他の情報に置き換えるようにしても良い。例えば、送信元装置に割当てられたIPアドレスとしても良い。メッセージは、障害の発生を検知するための情報が含まれていれば、任意の内容であって良い。具体的なメッセージの内容としては、例えば、「chassisd[4196]: CHASSISD_SNMP_TRAP10: SNMP trap generated: FRU power off」「System CPU utilization is high」というメッセージにすると良い。このメッセージは、通信装置が「電源ユニットがPower OffとなりTrapが生成」「CPU使用率が高くなった」という状態になったことを表すメッセージである。
また、図4に表す例では、syslogファイル群16を、1つのファイル群として管理している。しかし、このようにするのではなく、監視対象の通信装置毎にファイル群を作成して、通信装置毎に管理をするようにしても良い。
キーワード検知部17は、このようなsyslogファイル群16を対象としてキーワード検知を行う。まず、キーワード検知部17はキーワードデータベース14を参照して現在設定されているキーワードを確認する。ここで、キーワードとして、例えば「System CPU」が設定されていたとする。
すると、キーワード検知部17は、かかる「System CPU」検索キーとして、syslogファイル群16内のメッセージの項目を検索する。そして、検索キーと一致する文言が含まれているメッセージを検知すると、このメッセージを含んだsyslogファイルを検出する。
ここで、syslogファイル群16には、徐々に多数のsyslogファイルが蓄積されていく。これに対して、1分間の検出のたびに全てのsyslogファイルを検索対象とすると、検知に要する時間が長くなってしまう。また、演算処理量も増加する。
そこで、本実施形態では、直近の所定時間の時刻情報を持つsyslogファイルのみを検索対象とする。例えば、上述したように1分間周期で検知を行うのであれば、図4の左下に示すように直近1分間の時刻情報を持つsyslogファイルのみを検索対象とする。これにより、検知に要する時間を短くすると共に、演算処理量を減らすことが可能となる。
例えば、図4の例で言えば、現在が「Nov 22 15:05:00」であるとしたならば、直近1分間のsyslogファイルを検索対象として、キーワード「System CPU」を含んだsyslogファイル、具体的には図中上から4つ目のsyslogファイルが抽出される。
なお、syslogファイルが生成されてから、監視装置10がsyslogファイルを受信するまでのタイムラグがあることを考慮して、1分間周期で検知を行う場合に、直近1分間ではなく、直近1分数秒間や、1分数十秒間の時刻情報を持つsyslogファイルを検索対象とするようにしても良い。このようにして、前回検知したsyslogファイルと同一のsyslogファイルを仮に再度検知したとしても、この再度の検知は無かったものとして取り扱うようにすると良い。これにより、上記のタイムラグを考慮できると共に、検知が重複することも防止することが可能となる。
このようにして、キーワード検知部17は、キーワードを含んだメッセージを有するsyslogファイルを検知すると(ステップS109においてYes)、かかるsyslogファイルを抽出する。そして、抽出したsyslogファイルを障害送信部15に送信する。
かかるsyslogファイルを受信した障害送信部15は、受信したsyslogファイル内の情報に基づいて障害トラップ(syslog)を生成する(ステップS111)。障害トラップ(syslog)の内容については上述した通りである。生成した障害トラップ(syslog)は、障害受信部12を介して状態障害管理部11に送信される。
一方で、キーワードを含んだメッセージを検知しなかった場合には(ステップS109においてNo)、ステップS101に戻り、処理を継続する。
次に、ステップS113において、状態障害管理部11は、受信した障害トラップ(syslog)に基づいて、状態管理情報を適宜更新する。
具体的には、受信した障害トラップ(syslog)を状態管理情報に追加する更新を行う。そして、更新後の状態管理情報は、障害情報として状態障害管理部11からクライアント端末20に対して送信される(ステップS113)。そして、上述したようにクライアント端末20に対して送信された状態管理情報は、画面表示部21に表示される。
ここで、状態障害管理部11は、障害受信部12から受信した障害トラップ(syslog)全てに基づいて状態管理情報の更新をしても良い。
しかしながら、クライアント端末20を利用するオペレータ等は、障害が発生した箇所や、発生した障害の内容を把握することができればよく、その障害が繰り返し発生している事実は特に把握しなくとも良い場合が考えられる。
そこで、このような場合には、同様な障害トラップ(syslog)を利用して、何度も状態管理情報を更新はせず、必要な場合にのみ適宜更新するようにする。これにより、同様な障害についての更新が大量になされてしまい、オペレータ等が、他の大切な更新を見落としてしまうようなことを防止することができる。
このようにするために、本実施形態では、状態障害管理部11が障害受信部12から受信した障害トラップ(syslog)について、障害トラップ(syslog)単位で状態管理情報として管理する。そして、通常は、障害トラップ(syslog)を新たに受信したとき、状態管理情報に1件追加する。
しかしながら、障害トラップ(syslog)を受信したとき、同一通信装置・同一メッセージの状態管理情報が登録済みの場合は、状態管理情報の更新は行わない。つまり、この受信した障害トラップ(syslog)を状態管理情報に新たに追加する処理は行なわない。ここで、同一メッセージとは、障害の発生時刻以外のデータが完全に一致するものをいう。キーワード検知のキーワードが一致しただけでは、同一メッセージではなく、異なったメッセージとする。
このようにして、本実施形態では、或る通信装置において、同様の障害が連続して発生し、障害トラップ(syslog)を複数回受信した場合であっても、2回目以降の障害の発生時刻のみが異なり、送信元の通信装置及びメッセージの内容が同一の障害トラップ(syslog)を利用した更新は行なわない。
そして、更新を行わないことにより、障害が最初に発生した時の状態管理情報のまま、すなわち、障害発生時刻を保ったままとなると共に、新たに状態管理情報が1件追加されることはなくなる。
そのため、同様な障害についての更新が大量になされてしまい、オペレータ等が、他の大切な更新を見落としてしまうようなことを防止することができる。
ステップS113の処理を終了後、監視装置10は、ステップS101に戻り処理を継続する。
以上、本実施形態の動作について説明した。
なお、障害管理情報は、オペレータ等により、その内容を変更することもできる。具体的には、障害管理情報に含まれる障害トラップを参照したオペレータ等は、障害が発生したことを把握する。すると、オペレータ等は、障害の発生した通信装置に対して対処を行うことにより、障害を復旧させる。
その後、オペレータ等は、操作部22を利用して手動で、復旧済みの障害に対応する障害トラップの削除操作を行う。かかる操作内容は、状態障害管理部11に通知され、状態障害管理部11は、対応する障害トラップを状態管理情報から削除する。これにより、以後、すでに復旧済みの障害に対応する障害トラップが画面表示部21に表示されることを防止できる。
また、削除後に再度、同様の障害が発生して、その旨を表す障害トラップ(syslog)等を再度受信したような場合には、再度受信した障害トラップ(syslog)は、情報管理情報に1件追加されることとなる。そのため、オペレータ等は、障害が再発したことを把握することも可能となる。
以上説明した本発明の実施形態は、以下に示すような多くの効果を奏する。
第1の効果は、syslogファイル群に新たにログデータ(syslog)が記載された場合に、障害発生を抽出して通知できることである。その理由は、従来のように、syslogファイルに、単に動作状況を表すログデータ(syslog)と、障害の発生を把握するために利用できるログデータ(syslog)が混在している状態でも、キーワードに一致するメッセージを含むログデータ(syslog)を、障害の発生を把握するために利用できるログデータ(syslog)として抽出できるからである。
第2の効果は、オペレータ等が、発生中の障害を把握することが容易になることである。その理由は、障害が発生して、syslogログファイル群に連続して同じ障害のログデータ(syslog)が保存される場合に、最初のログデータ(syslog)に基づいて生成した障害トラップ(syslog)のみを障害管理情報に追加するからである。つまり、オペレータ等は、全ての情報を確認せずに、監視装置により抽出された情報のみを確認するのみで足りるからである。
第3の効果は、キーワード検知を高速に実行できることである。その理由は、syslogファイル群に含まれる全てのログデータ(syslog)を対象として検索を行うこと無く、所定時間の間のログデータ(syslog)を対象として検索を行えば良いからである。
なお、上記の監視システムに含まれる監視装置等の各機器は、それぞれが、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記の監視システムに含まれる監視装置等の各機器により行なわれる監視方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば、光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
また、上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変形を施した形態での実施が可能である。以下、幾つかの変形例を例示する。
上述した実施形態では、障害の発生を検知するためのログデータ(syslog)を抽出できるようなキーワードを設定していた。しかしながら、キーワードを異なるものとすることにより、障害の発生を検知する以外の用途に上述の実施形態を利用するようにしても良い。例えば、リソースの使用量を把握するための(syslog)を抽出できるようなキーワードを設定するようにしても良い。
また、図1では、監視装置10とクライアント端末20を、1対1として記載しているが、必ずしもこのようにする必要はない。例えば、1つの監視装置10に複数のクライアント端末20が接続されるようにしても良い。また、図1では、通信装置の台数を4台としているが、通信装置の台数も4台には限定されず、任意の台数とすることが可能である。
更に、上述の実施形態では、クライアント端末20に対してる障害トラップ(SNMP)と、障害トラップ(syslog)を含んだ状態管理情報を通知するとしていたがこれを変形するようにしても良い。例えば、これらの障害トラップの情報をそのまま通知するのではなく、これらの障害トラップから必要な情報を取得して、所定のフォーマットに沿って情報を見やすくするように編集しても良い。これにより、オペレータ等が、情報の内容を把握しやすくなるので良い。他にも、例えば、状態障害管理部11等で、各障害トラップに任意の情報を追加してからクライアント端末20に送信するようにしても良い。例えば、各障害トラップの生成された時刻のみならず、各障害トラップをクライアント端末20が受信した時刻も情報として追加するようにしても良い。
更に、クライアント端末20からの要求の有無を問うこと無く、画面表示部21への状態管理情報の表示を行うようにすると良い。
監視装置10の、機能の一部をクライアント端末20にて実現するようにしても良い。例えば、状態障害管理部11が行っていた状態管理情報の管理をクライアント端末20で行うようにしても良い。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
通信装置からの通知情報を取得する取得手段と、
前記取得手段が取得した前記通知情報に前記通信装置の状態を表すメッセージであって所定のキーワードが含まれているメッセージが含まれていれば、該メッセージに基づいて所定のイベントの発生を表す情報を生成し、該生成した情報を第1のイベント発生情報として抽出する抽出手段と、
前記第1のイベント発生情報を出力する出力手段と、
を備えることを特徴とする監視装置。
(付記2)
前記抽出手段は、前記取得手段が取得した前記通知情報が前記所定のイベントの発生を表すイベント発生情報であれば該イベント発生情報を第2のイベント発生情報として抽出し、
前記出力手段は、前記第1のイベント発生情報に加えて、更に前記第2のイベント発生情報を出力することを特徴とする付記1に記載の監視装置。
(付記3)
前記所定のイベントの発生とは、前記通信装置における障害の発生であり、
前記出力手段は、前記通信装置に障害が発生した旨の通知を行うために、外部に対して前記出力をすることを特徴とする付記1又は2に記載の監視装置。
(付記4)
一度抽出した前記所定のキーワードが含まれるメッセージと同一のメッセージが再度抽出された場合に、該再度抽出されたメッセージに基づいて生成する前記第1のイベント発生情報は出力しないことを特徴とする付記1乃至3の何れか1に記載の監視装置。
(付記5)
一度抽出した前記所定のキーワードが含まれるメッセージと同一のメッセージが再度抽出された場合に、前記メッセージを出力した出力先から所定の返答を得たことを条件として、前記再度抽出されたメッセージに基づいて生成する前記第1のイベント発生情報を出力することを特徴とする付記4に記載の監視装置。
(付記6)
前記抽出手段は、前記抽出行うにあたり、一度前記所定のキーワードが含まれているか否かの判定の対象とした通知情報については、以後前記判定の対象とはしないことを特徴とする付記1乃至5の何れか1に記載の監視装置。
(付記7)
前記メッセージ取得手段が取得した通知情報を、各通知情報が前記抽出手段により抽出されたか否かに関わらず記憶する記憶手段を更に備え、
前記通信手段は、前記記憶手段が記憶しているメッセージの参照要求があった場合には、該要求元に対して前記記憶しているメッセージを出力することを特徴とする付記1乃至6の何れか1に記載の監視装置。
(付記8)
前記通信装置の状態を表すメッセージとは、syslogに準拠したログデータに含まれるメッセージであることを特徴とする付記1乃至7の何れか1に記載の監視装置。
(付記9)
前記抽出手段は、所定の周期で前記抽出を行うことを特徴とする付記1乃至6の何れか1に記載の監視装置。
(付記10)
付記1乃至9の何れか1に記載の監視装置と、クライアント端末とを備える監視システムであって、
前記通信手段は、前記クライアント端末からの要求の有無を問うこと無く、前記第1及び第2のイベント発生情報を前記クライアント端末に対して出力することを特徴とする監視システム。
(付記11)
付記1乃至9の何れか1に記載の監視装置と、前記クライアント端末通信装置とを備える監視システムであって、
前記通信装置は、
該通信装置に前記所定のイベントが発生した場合にイベントの発生を表すイベント発生情報を前記通知情報として前記監視装置に対して送信すると共に、
該通信装置が所定の状態となった場合に、該所定の状態を表すメッセージを前記通知情報として前記監視装置に対して送信する、ことを特徴とする監視システム。
(付記12)
通信装置からの通知情報を取得する取得手段と、
前記取得手段が取得した前記通知情報に前記通信装置の状態を表すメッセージであって所定のキーワードが含まれているメッセージが含まれていれば、該メッセージに基づいて所定のイベントの発生を表すイベント発生情報を生成して第1のイベント発生情報として抽出する抽出手段と、
前記第1のイベント発生情報を出力する出力手段と、
を備える監視装置としてコンピュータを機能させることを特徴とする監視プログラム。
(付記13)
ネットワーク装置が持つ障害通知機能として装置のログデータをファイルに記録するsyslogと呼ばれる機能が保存するメッセージを利用した障害記録手段と、前記記録手段からの障害内容を含めるメッセージを検知する障害検知手段と、障害発生装置・障害内容を外部に通知する障害通知機能、同じ障害が連続発生に対する状態を管理する障害状態管理手段と、syslogアラートを検知するためのキーワードを設定するためのキーワード設定手段と、キーワードを含むsyslogのログメッセージを検知するキーワード検知手段と、キーワード検知したログメッセージを送信・通知する障害送信手段と、障害受信する障害受信手段と、障害の状態を管理する障害状態管理部を備える監視装置。
本発明は、通信装置の管理に用いることができ、特に通信装置の障害検出に好適である。
10 監視装置
11 状態障害管理部
12 障害受信部
13 キーワード設定部
14 キーワードデータベース
15 障害送信部
16 syslogファイル群
17 キーワード検知部
20 クライアント端末
21 画面表示部
22 操作部
31 第1の通信装置
32 第2の通信装置
33 第3の通信装置
34 第4の通信装置
40 監視ネットワーク
50 通信ネットワーク
100 監視システム監視装置

Claims (10)

  1. 通信装置からの通知情報を取得する取得手段と、
    前記取得手段が取得した前記通知情報に前記通信装置の状態を表すメッセージであって所定のキーワードが含まれているメッセージが含まれていれば、該メッセージに基づいて所定のイベントの発生を表す情報を生成し、該生成した情報を第1のイベント発生情報として抽出する抽出手段と、
    前記第1のイベント発生情報を出力する出力手段と、
    を備えることを特徴とする監視装置。
  2. 前記抽出手段は、前記取得手段が取得した前記通知情報が前記所定のイベントの発生を表すイベント発生情報であれば該イベント発生情報を第2のイベント発生情報として抽出し、
    前記出力手段は、前記第1のイベント発生情報に加えて、更に前記第2のイベント発生情報を出力することを特徴とする請求項1に記載の監視装置。
  3. 前記所定のイベントの発生とは、前記通信装置における障害の発生であり、
    前記出力手段は、前記通信装置に障害が発生した旨の通知を行うために、外部に対して前記出力をすることを特徴とする請求項1又は2に記載の監視装置。
  4. 一度抽出した前記所定のキーワードが含まれるメッセージと同一のメッセージが再度抽出された場合に、該再度抽出されたメッセージに基づいて生成する前記第1のイベント発生情報は出力しないことを特徴とする請求項1乃至3の何れか1項に記載の監視装置。
  5. 一度抽出した前記所定のキーワードが含まれるメッセージと同一のメッセージが再度抽出された場合に、前記メッセージを出力した出力先から所定の返答を得たことを条件として、前記再度抽出されたメッセージに基づいて生成する前記第1のイベント発生情報を出力することを特徴とする請求項4に記載の監視装置。
  6. 前記抽出手段は、前記抽出行うにあたり、一度前記所定のキーワードが含まれているか否かの判定の対象とした通知情報については、以後前記判定の対象とはしないことを特徴とする請求項1乃至5の何れか1項に記載の監視装置。
  7. 前記メッセージ取得手段が取得した通知情報を、各通知情報が前記抽出手段により抽出されたか否かに関わらず記憶する記憶手段を更に備え、
    前記通信手段は、前記記憶手段が記憶しているメッセージの参照要求があった場合には、該要求元に対して前記記憶しているメッセージを出力することを特徴とする請求項1乃至6の何れか1項に記載の監視装置。
  8. 前記通信装置の状態を表すメッセージとは、syslogに準拠したログデータに含まれるメッセージであることを特徴とする請求項1乃至7の何れか1項に記載の監視装置。
  9. 請求項1乃至8の何れか1項に記載の監視装置と、クライアント端末とを備える監視システムであって、
    前記通信手段は、前記クライアント端末からの要求の有無を問うこと無く、前記第1及び第2のイベント発生情報を前記クライアント端末に対して出力することを特徴とする監視システム。
  10. 通信装置からの通知情報を取得する取得手段と、
    前記取得手段が取得した前記通知情報に前記通信装置の状態を表すメッセージであって所定のキーワードが含まれているメッセージが含まれていれば、該メッセージに基づいて所定のイベントの発生を表すイベント発生情報を生成して第1のイベント発生情報として抽出する抽出手段と、
    前記第1のイベント発生情報を出力する出力手段と、
    を備える監視装置としてコンピュータを機能させることを特徴とする監視プログラム。
JP2016071436A 2016-03-31 2016-03-31 監視装置、監視システム及び監視プログラム Pending JP2017182601A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016071436A JP2017182601A (ja) 2016-03-31 2016-03-31 監視装置、監視システム及び監視プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016071436A JP2017182601A (ja) 2016-03-31 2016-03-31 監視装置、監視システム及び監視プログラム

Publications (1)

Publication Number Publication Date
JP2017182601A true JP2017182601A (ja) 2017-10-05

Family

ID=60006042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016071436A Pending JP2017182601A (ja) 2016-03-31 2016-03-31 監視装置、監視システム及び監視プログラム

Country Status (1)

Country Link
JP (1) JP2017182601A (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316697A (ja) * 1998-05-06 1999-11-16 Ntt Data Corp 通報システム及び方法
JP2010277424A (ja) * 2009-05-29 2010-12-09 Nec Corp 無線通信システム、障害処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316697A (ja) * 1998-05-06 1999-11-16 Ntt Data Corp 通報システム及び方法
JP2010277424A (ja) * 2009-05-29 2010-12-09 Nec Corp 無線通信システム、障害処理方法

Similar Documents

Publication Publication Date Title
WO2020029407A1 (zh) 告警数据的管理方法、装置、计算机设备及存储介质
CN105165054B (zh) 网络服务故障处理方法,服务管理系统和系统管理模块
US10860406B2 (en) Information processing device and monitoring method
JP6919569B2 (ja) ログ分析システム、方法、及び記録媒体
CN108965049B (zh) 提供集群异常解决方案的方法、设备、系统及存储介质
JP6280862B2 (ja) イベント分析システムおよび方法
JP2017538173A (ja) ランタイムイベントを分類及び分析するためのシステム及び方法
US9461879B2 (en) Apparatus and method for system error monitoring
US10572458B2 (en) Method and apparatus of collecting and reporting database application incompatibilities
WO2019244733A1 (ja) オペレーション装置、および、オペレーション方法
JP2017156863A (ja) 監視システム、プログラム
JP2011254320A (ja) ネットワーク障害分析処理装置
CN114020558A (zh) 告警回调方法、平台、系统、装置、设备及存储介质
JP2017182601A (ja) 監視装置、監視システム及び監視プログラム
JP2007013928A (ja) 遠隔障害監視装置及び遠隔障害監視方法
JP5487914B2 (ja) 運用情報管理システム、運用情報管理方法、運用情報管理プログラム
JP6513001B2 (ja) 故障検知装置、故障検知方法、及びプログラム
JP2018142092A (ja) 稼動確認装置、稼動確認プログラム、稼動確認方法、及び稼動確認システム
JP2005202446A (ja) 障害監視復旧支援装置
JP5802152B2 (ja) 通信網監視システム、監視装置および通信網監視方法
JP6269004B2 (ja) 監視支援プログラム、監視支援方法および監視支援装置
JP5157736B2 (ja) ネットワーク監視装置、ネットワーク監視システム及びネットワーク監視方法
JP2016218844A (ja) 監視装置
JP2017069912A (ja) ネットワーク監視装置およびネットワーク監視方法
JP2014032598A (ja) インシデント管理システム及びその方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20160923

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20170712

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20191127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200609