[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2015164005A - 監視装置、監視方法及びプログラム - Google Patents

監視装置、監視方法及びプログラム Download PDF

Info

Publication number
JP2015164005A
JP2015164005A JP2014039394A JP2014039394A JP2015164005A JP 2015164005 A JP2015164005 A JP 2015164005A JP 2014039394 A JP2014039394 A JP 2014039394A JP 2014039394 A JP2014039394 A JP 2014039394A JP 2015164005 A JP2015164005 A JP 2015164005A
Authority
JP
Japan
Prior art keywords
failure
feature vector
log information
information
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014039394A
Other languages
English (en)
Other versions
JP6207078B2 (ja
Inventor
伸行 尾張
Nobuyuki Owari
伸行 尾張
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2014039394A priority Critical patent/JP6207078B2/ja
Priority to MYPI2016703080A priority patent/MY183857A/en
Priority to KR1020167023568A priority patent/KR101858377B1/ko
Priority to PCT/JP2015/055916 priority patent/WO2015129879A1/ja
Publication of JP2015164005A publication Critical patent/JP2015164005A/ja
Application granted granted Critical
Publication of JP6207078B2 publication Critical patent/JP6207078B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B23/00Testing or monitoring of control systems or parts thereof
    • G05B23/02Electric testing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0775Content or structure details of the error report, e.g. specific table structure, specific error fields
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07BTICKET-ISSUING APPARATUS; FARE-REGISTERING APPARATUS; FRANKING APPARATUS
    • G07B15/00Arrangements or apparatus for collecting fares, tolls or entrance fees at one or more control points

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Debugging And Monitoring (AREA)
  • Devices For Checking Fares Or Tickets At Control Points (AREA)

Abstract

【課題】処理や構成が複雑なシステムで発生する障害を精度よく予測する。【解決手段】一つ以上の構成機器を有するシステムを監視する監視装置1は、構成機器2A、2B、・・・が出力するログ情報を取得するログ情報取得部10と、ログ情報に基づいて複数種類の数値からなる特徴ベクトルを抽出する特徴ベクトル抽出部11と、上記システムで発生した障害についての障害情報の入力を受け付ける障害情報入力部13と、障害の発生の所定時間前から当該障害の発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、当該障害についての障害情報と、を関連付けて記憶する障害情報処理部14と、システムの通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、障害時特徴ベクトルの何れに類似するかの判断に基づいて、システムで発生する障害を予測する障害予測部と、を備える。【選択図】図1

Description

本発明は、監視装置、監視方法及びプログラムに関する。
近年の社会インフラシステムは、複数の構成機器が互いに情報を送受信しながら連携することで様々な機能を発揮する形態が一般化し、システム全体としての機能の高度化及び構成の複雑化が進んでいる。これに伴い、当該システムの保守、修繕作業においても点検項目の増加や高度化・複雑化が進み、運営者の負担を増大させている。さらに、保守、修繕作業に要する時間が増加することで、システム全体の稼働率を低下させる要因にもなっている。
一方、所定の機器は、自己が行った処理の内容やその日時等をログ情報として記録し、蓄積する機能を備えている。当該機器の保守作業員等は、例えば、当該機器の処理に障害が発生した際、そのログ情報を参照して分析することで、障害の原因や対策を特定している。
また、ある機器の稼働状況を示す特定の数値(例えば、ある検知信号の単位時間当たりの通信回数や通信リトライ回数等)の変動傾向と、過去に発生した故障(障害)と、を関連付けて記憶するとともに、稼働中においてログ情報として記録される当該数値の変動を監視することで故障の予兆を検出し、故障発生を予測する技術が考案されている(例えば、特許文献1参照)。
このような監視方法によれば、障害の発生を事前に予測でき、障害発生前に対策を講じることができるため、保守作業員等の負担を軽減するとともに機器の稼働率を向上させることができる。
特開2012−147049号公報
しかしながら、上述したように機能構成の高度化・複雑化が進んだ社会インフラシステムにおいては、当該システムにおいて発生し得る障害も多様化しているため、ログ情報における特定の数値のみを追跡するのみでは、障害の実態を正確に把握することが難しい。
その一方で、システムの構成機器の数及び各々の間で送受信される情報量が増加し、これに伴って各々の構成機器において記録されるログ情報も膨大なものとなっている。このような膨大なログ情報の中から障害の実態を精度よく把握するのに必要な数値を個別に抽出しながら障害の解析を行うのは現実的ではない。
本発明は、上記課題に鑑みてなされたものであって、処理や構成が複雑なシステムにおいても、当該システムで発生する障害を精度よく予測することができる監視装置、監視方法及びプログラムを提供することを目的とする。
上記問題を解決するために、本発明に係る一態様は、少なくとも一つの構成機器を有するシステムを監視する監視装置であって、前記構成機器が出力するログ情報を取得するログ情報取得部と、前記ログ情報に基づいて複数種類の数値からなる特徴ベクトルを抽出する特徴ベクトル抽出部と、前記システムで発生した障害についての障害情報の入力を受け付ける障害情報入力部と、前記特徴ベクトルのうち前記障害の発生の所定時間前から当該障害の発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、当該障害についての障害情報と、を関連付けて記憶する障害情報処理部と、前記特徴ベクトルのうち前記システムの通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、前記障害時特徴ベクトルの何れに類似するかの判断に基づいて、前記システムで発生する障害を予測する障害予測部と、を備える監視装置である。
また、本発明に係る一態様は、上述の監視装置において、前記障害予測部が、前記通常時特徴ベクトル及び前記障害時特徴ベクトルに含まれる数値の各々の差から算出される相違度を算出し、当該相違度に基づいて、前記通常時特徴ベクトルが前記障害時特徴ベクトルの何れに類似するかを判断することを特徴とする。
また、本発明に係る一態様は、上述の監視装置において、前記障害予測部が、仮想空間内において、前記特徴ベクトルに含まれる数値により一意に定まる重心位置の比較に基づいて、前記通常時特徴ベクトルが前記障害時特徴ベクトルの何れに類似するかを判断することを特徴とする。
また、本発明に係る一態様は、上述の監視装置において、前記障害予測部が、前記特徴ベクトルに含まれる数値のうち特定の障害と関連性が高い特徴値同士の比較に基づいて、前記通常時特徴ベクトルが前記障害時特徴ベクトルの何れに類似するかを判断することを特徴とする。
また、本発明に係る一態様は、上述の監視装置において、複数の通常時特徴ベクトルに含まれる数値ごとの平均値からなる平均特徴ベクトルを算出する平均特徴ベクトル算出部を備え、前記障害予測部は、前記通常時特徴ベクトルが前記障害時特徴ベクトルよりも前記平均特徴ベクトルに類似すると判断した場合に、前記システムは健全に稼働していると判定することを特徴とする。
また、本発明に係る一態様は、上述の監視装置において、前記障害予測部が、前記通常時特徴ベクトルが前記障害時特徴ベクトルまたは前記平均特徴ベクトルのいずれにも類似しないと判断した場合に、前記システムにおいて未知の障害の予兆があると判定することを特徴とする。
また、本発明に係る一態様は、上述の監視装置において、前記システムが、前記構成機器を二つ以上有し、前記特徴ベクトル抽出部は、二つ以上の前記構成機器の間において行われる処理を示すログ情報に基づいて前記特徴ベクトルを抽出することを特徴とする。
また、本発明に係る一態様は、上述の監視装置において、前記特徴ベクトルを構成する数値の種別の指定を受け付ける数値指定受付部を備え、前記特徴ベクトル抽出部は、当該指定を受け付けた際に、当該指定された種別の数値を含む特徴ベクトルを、前記ログ情報から再抽出することを特徴とする。
また、本発明に係る一態様は、少なくとも一つの構成機器を有するシステムの監視方法であって、ログ情報取得部が、前記構成機器が出力するログ情報の入力を受け付け、特徴ベクトル抽出部が、前記ログ情報に基づいて複数種類の数値からなる特徴ベクトルを抽出し、障害情報入力部が、前記システムで発生した障害についての障害情報の入力を受け付け、障害情報処理部が、前記特徴ベクトルのうち前記障害の発生の所定時間前から当該障害の発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、当該障害についての障害情報と、を関連付けて記憶し、障害予測部が、前記特徴ベクトルのうち前記システムの通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、前記障害時特徴ベクトルの何れに類似するかの判断に基づいて、前記システムで発生する障害を予測することを特徴とする監視方法である。
また、本発明に係る一態様は、少なくとも一つの構成機器を有するシステムを監視する監視装置のコンピュータを、前記構成機器が出力するログ情報の入力を受け付けるログ情報入力手段、前記ログ情報に基づいて複数種類の数値からなる特徴ベクトルを抽出する特徴ベクトル抽出手段、前記システムで発生した障害についての障害情報の入力を受け付ける障害情報入力手段、前記特徴ベクトルのうち前記障害の発生の所定時間前から当該障害の発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、当該障害についての障害情報と、を関連付けて記憶する障害情報処理手段、前記特徴ベクトルのうち前記システムの通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、前記障害時特徴ベクトルの何れに類似するかの判断に基づいて、前記システムで発生する障害を予測する障害予測手段、として機能させるプログラムである。
上述の監視装置、監視方法及びプログラムによれば、処理や構成が複雑なシステムにおいても、当該システムで発生する障害を精度よく予測することができる。
第1の実施形態に係る監視装置の機能構成を示す図である。 第1の実施形態に係る特徴ベクトル抽出部の処理の例を説明する図である。 第1の実施形態に係る障害情報処理部の機能を説明する図である。 第1の実施形態に係る障害予測部の機能を説明する図である。 第1の実施形態に係る障害予測部における類否判断の例を説明する図である。 第1の実施形態に係る障害予測部の処理フローを示すフローチャート図である。 第2の実施形態に係る監視装置が監視対象とする料金収受システムの構成を示す図である。 第2の実施形態に係る特徴ベクトル抽出部の処理の例を説明する図である。 第2の実施形態に係る障害情報データベースに蓄積されている障害情報の例を示す図である。 第2の実施形態に係るログ情報データベースに蓄積されている特徴ベクトルの例を示す図である。 第2の実施形態に係る障害予測部における類否判断の例を説明する図である。 第2の実施形態の変形例に係る障害予測部における類否判断の例を説明する図である。 第2の実施形態の変形例に係る障害予測部における通知処理の例を説明する図である。
<第1の実施形態>
以下、第1の実施形態に係る監視装置を、図面を参照して説明する。
図1は、第1の実施形態に係る監視装置の機能構成を示す図である。
本実施形態に係る監視装置1は、例として、有料道路等に設けられる料金収受システムを監視する場合を説明する。
図1に示すように、料金収受システム2は、複数の構成機器2A、2B、2C、・・・を有している。複数の構成機器2A、2B、・・・は、例えば、料金収受機械、車両分離器、発進制御機、或いは、電子料金収受システム(ETC:Electronic Toll Collection(登録商標))を構成する無線通信装置や車線サーバ等である。構成機器2A、2B、・・・は、互いに情報の送受信を行いながら各々が連携して動作する。
例えば、車両分離器により車両の進入が検知されると、当該検知情報に基づいて、料金収受機械が通行券を発行する。また、当該料金収受機械において通行券が取得されたことが検知されると、当該検知情報に基づいて、発進制御機の開閉バーが開かれる。このように、料金収受システムは、様々な装置がリアルタイムで情報通信を行いながら互いの処理動作を連携する。また、各構成機器2A、2B、・・・は、各々が実施する処理や情報の送受信の日時及びその内容をログ情報として定常的に記録し、蓄積している。
後述するように、本実施形態に係る監視装置1は、料金収受システム2を監視の対象とし、各構成機器2A、2B、・・・が記録するログ情報を取得する。なお、本実施形態に係る監視装置1は、同一の構成機器からなる複数の料金収受システム2が設置された料金所に設けられ、その各々からログ情報を取得して、当該複数の料金収受システム2毎に、ログ情報に基づく監視処理を行う。
本実施形態に係る監視装置1は、ログ情報取得部10、特徴ベクトル抽出部11、ログ情報データベース(DB)12、障害情報入力部13、障害情報処理部14、障害情報データベース(DB)15及び障害予測部16を備えている。
図1に示すように、ログ情報取得部10は、料金収受システム2の稼働中において各構成機器2A、2B、・・・が出力するログ情報を取得する。ここで、構成機器2A、2B、・・・の各々が出力するログ情報とは、具体的には、構成機器2A、2B、・・・各々の処理や他の構成機器との通信が行われる度にその内容及び日時等が符号化された文字情報(テキストデータ)又は数値情報(バイナリデータ)である。ログ情報取得部10は、このような文字情報として出力されるログ情報を構成機器2A、2B、・・・から逐次受け付ける。
なお、料金収受システム2が複数存在する場合は、取得したログ情報を、各料金収受システム2を識別する識別情報と関連付ける処理を行ってもよい。取得するログ情報を料金収受システム2ごとに識別することで、監視装置1は、複数の料金収受システム2各々について同時並列的に監視処理を行うことができる。
特徴ベクトル抽出部11は、ログ情報取得部10が取得したログ情報に基づいて、料金収受システム2の稼働状況を表す複数種類の数値(特徴量)の組み合わせからなる特徴ベクトルを抽出する。
例えば、特徴ベクトル抽出部11は、ログ情報のうちある構成機器間で行われた特定の通信処理cについての記録を抽出し、所定の期間(例えば、直近の一週間)中に発生した当該特定の通信処理cにおける通信リトライ回数や通信データ量を数値として取得する。さらに、特徴ベクトル抽出部11は、各々の数値を、当該数値ごとに定められる平均値や標準偏差等に基づいて正規化する処理を行う。このようにすることで、異なる種類の数値の大小や増減を同一の尺度で表現することができる。特徴ベクトル抽出部11は、ログ情報及びそのログ情報から抽出した特徴ベクトルをログ情報データベース12に記憶して蓄積する。
また、本実施形態に係る特徴ベクトル抽出部11は、料金収受システム2の通常稼働時における複数のログ情報から平均特徴ベクトルを算出する平均特徴ベクトル算出部110を備えている。この平均特徴ベクトル算出部110については後述する。
なお、上述の変形例として、特徴ベクトル抽出部11は、ログ情報に記録された情報以外の情報、例えば、天候や温度、湿度等の入力を受け付けてもよい。そして、特徴ベクトル抽出部11は、ログ情報に基づく特徴ベクトルの抽出に際し、当該温度や湿度の依存性が高い数値について数値の補正を行う補正部を備えていてもよい。
障害情報入力部13は、例えば、料金収受システム2において障害が発生した際、保守作業員の保守・修繕作業において特定された障害についての情報の入力を受け付ける。例えば、障害情報入力部13は、発生した障害の構成機器名、製造番号、日時、障害の原因等、発生した障害を分類するために必要な情報の入力を受け付ける。
障害情報処理部14は、障害が発生した際に特徴ベクトル抽出部11により抽出されていた特徴ベクトル(障害時特徴ベクトル)と、その障害についての障害情報と、を関連付けながら障害情報データベース15に記憶、蓄積する。具体的には、障害情報処理部14は、保守作業員等により入力された障害発生日時を参照して、その障害発生の直前の所定時間前(例えば、一週間前)から障害発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルを、その障害についての障害情報と関連付ける。
障害情報処理部14は、関連付けた障害時特徴ベクトルと障害情報とを障害データベース15に記憶して蓄積する。この際、障害情報処理部14は、入力された障害情報のうち、障害が発生した構成機器名や型番、障害の原因等の情報に基づいて、特定の障害区分(カテゴリ)に分類しながら記憶する。このようにすることで、料金収受システム2において新たに発生した障害が過去に発生した障害と同一のものと判断される場合には、障害情報データベース15において、当該新たな障害に紐づいた障害時特徴ベクトルが同一の障害区分に分類されながら蓄積される。
障害予測部16は、特徴ベクトルのうち料金収受システム2の通常稼働時に取得されるログ情報に基づいて抽出された特徴ベクトル(通常時特徴ベクトル)が、障害時特徴ベクトルの何れに類似するかの判断に基づいて、料金収受システム2で発生する障害を予測する。障害予測部16の具体的な処理内容については後述する。
図2は、第1の実施形態に係る特徴ベクトル抽出部の処理の例を説明する図である。
例として、特徴ベクトル抽出部11は、料金収受システム2の特徴ベクトルとして、構成機器の一つ(構成機器2Aとする)である「中継通信機器(ルーター)」が出力するログ情報に基づき、図2に示すような12個の数値(特徴量)からなる特徴ベクトルを抽出する。ここで、数値P1、P2、・・・、P12は、中継通信機器(構成機器2A)と他の構成機器各々との間における通信状況の特徴や傾向を示すものとして選択された数値群(通信の頻度、通信リトライ回数、通信データ量等)である。数値P4は、例えば、構成機器Bとの間で行われる所定の通信処理cの通信リトライ回数、数値P10は、当該通信処理cの通信データ量である。
通信の頻度、通信リトライ回数や通信データ量等は、数値としての単位やスケールが各々異なる。例えば、同じ「通信の頻度」であっても、通常稼働時において一日に数十回と行われる通信処理もあれば、数日に1回のみ行われる通信処理もある。このため、特徴ベクトル抽出部11(後述する平均特徴ベクトル算出部110)は、特徴ベクトルを構成するものとして選択された12個の数値各々についての平均値μや標準偏差σ等を、過去に取得されたログ情報や他の料金収受システム2についてのログ情報等から算出し、当該平均値μ、標準偏差σ等に基づいた正規化処理を行う。これにより、図2に示すように、抽出された特徴ベクトルにおいて、当該特徴ベクトルを構成する数値ごとの大小または増減を同一の尺度で比較可能とすることができる。
例えば、特徴ベクトル抽出部11は、数値P4(通信処理cの通信リトライ回数)、数値P10(通信処理cの通信データ量)がいずれも正規分布に従うものとして、図2における「50」を平均値μ、「0」及び「100」が各々−3σ、+3σ等に相当するようにその尺度を設定する。
なお、上述した正規化処理は、一例であって、選択された数値によっては他の統計分布に従うものもある。この場合、特徴ベクトル抽出部11は、数値ごとに適切な統計分布に基づいた正規化処理を行う。
上述の処理において、具体的には、本実施形態に係る特徴ベクトル抽出部11は、平均特徴ベクトル算出部110を備えている。平均特徴ベクトル算出部110は、通常稼働中の複数の料金収受システム2のログ情報から、過去から現在にかけて定期的、または不定期に抽出された複数の通常時特徴ベクトルからその数値P1、P2、・・・ごとの平均値μ等を算出する。すなわち、本実施形態においては、数値P1、P2、・・・ごとの平均値μや標準偏差σは、予め設定された固定値ではなく、通常稼働中の複数の料金収受システム2におけるログ情報から動的に算出され、常時更新される。平均特徴ベクトル算出部110は、数値P1、P2、・・・ごとの平均値μからなる平均特徴ベクトルVaをログ情報データベース12に記憶して更新する処理を行う。
なお、平均特徴ベクトル算出部110は、平均値μを算出するにあたって参照する複数の通常時特徴ベクトルの各数値P1、P2、・・・のうち明らかな異常値については棄却判定を行い、平均値μ等の算出処理に含まないものとしてもよい。
図3は、第1の実施形態に係る障害情報処理部の機能を説明する図である。
上述したように、障害情報処理部14は、障害時特徴ベクトルと、その障害についての障害情報と、を関連付けながら障害情報データベース15に記憶、蓄積する。
具体的には、まず、料金収受システム2の運用中に障害が発生し、その修繕作業が行われた際、或いは、料金収受システム2の定期点検や特別点検(料金所からの依頼により非定期に行われる点検)を通じて障害が認められた際、保守作業員が障害情報入力部13を通じて、その障害の内容を示す障害情報を入力する。このとき、障害情報処理部14は、入力される障害情報に基づいて、発生した障害を所定の区分に分類しながら記憶する。具体的には、図3に示すように、発生した障害は、障害の区分として、障害A、障害B、障害C、・・・等と分類される。例として、障害情報処理部14は、図3に示すように、構成機器2A(中継通信機器)の全体制御を司るプロセッサ部品に故障が発生していた場合を「障害A」、通信用のコネクタケーブルの劣化により引き起こされる通信回線品質が生じていた場合を「障害B」、通信制御用IC部品に故障が発生していた場合を「障害C」等と分類する。
また、障害情報処理部14は、入力された障害情報のうち障害発生日時を参照して、障害発生直前の所定期間(例えば一週間)に取得されたログ情報に基づいて抽出された特徴ベクトル(障害時特徴ベクトル)を取得する。ここで、障害情報処理部14は、継続的にログ情報及びそのログ情報から抽出された特徴ベクトルが蓄積されているログ情報データベース12から、該当する期間内に取得されたログ情報及びそのログ情報から抽出された特徴ベクトルを参照する。このようにすることで、障害情報処理部14は、発生した障害の区分(障害A、障害B、障害C、・・・)ごとに、その発生直前の料金収受システム2の状況を表す障害時特徴ベクトルVs1、Vs2、Vs3、・・・(図3参照)を対応付けることができる。
以上のようにして、障害情報データベース15には、図3に示すような障害情報と障害時特徴ベクトルとが関連付けられた情報群が蓄積される。
ここで、発生した障害(障害A、障害B、障害C)と、その障害時特徴ベクトルVs1、Vs2、Vs3の例(図3)について説明する。
障害Aの発生直前の状態を示す障害時特徴ベクトルVs1は、全体的に小さいチャートとなっている。ここで、障害Aにおいては、該当する構成機器2A(中継通信機器)の全体制御を司るプロセッサ部品の故障が発生していた。したがって、構成機器2Aにおいて通信処理が行われる頻度が低下し、通信リトライ回数(数値P4)、通信データ量(数値P10)をはじめ、その他の通信に関する数値も小さくなっている。
障害Bの発生直前の状態を示す障害時特徴ベクトルVs2は、全体的に大きいチャートとなっている。障害Bにおいては、該当する構成機器2Aにおいて、通信用のコネクタケーブルが劣化したことに起因して通信回線品質が低下していた。その結果、通信リトライ回数(数値P4)が増大し、それに伴い通信データ量(数値P10)も増大している。
障害Cの発生直前の状態を示す障害時特徴ベクトルVs3は、全体的に右寄りのチャートとなっている。障害Cにおいては、当該する構成機器2Aにおいて、通信制御用IC部品に故障が発生していた。その結果、通信リトライ回数(数値P4)は増大しているが、情報の送受そのものの失敗の頻度が増加したため、通信データ量(数値P10)は減少している。
図4は、第1の実施形態に係る障害予測部の機能を説明する図である。
上述したように、障害予測部16は、料金収受システム2の通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、障害情報データベース15に蓄積された障害時特徴ベクトルの何れに類似するかの判断を行う。具体的には、障害予測部16は、料金収受システム2の通常稼働時において定期的(例えば一週間ごと)にログ情報データベース12にアクセスし、通常稼働時における当該定期期間内に蓄積されたログ情報に基づく特徴ベクトル(通常時特徴ベクトル)を参照する。
例えば、障害予測部16は、ログ情報データベース12を参照して、料金所の走行レーンごと(走行レーンX1、X2、X3、・・・)に設置された複数の料金収受システム2の各々に基づいて抽出された通常時特徴ベクトルV1、V2、V3、・・・(図4参照)を取得する。
さらに、障害予測部16は、ここで取得した通常時特徴ベクトルV1、V2、V3、・・・と、障害情報データベース15に蓄積された障害時特徴ベクトルと、を対比させて、通常時特徴ベクトルV1等が障害時特徴ベクトル何れに類似するか否かの判断に基づいて、料金収受システム2において以後発生する障害を予測する。
例えば、通常時特徴ベクトルV1は、数値P1〜P12の各数値全てがほぼ平均値μに近い状態であり、障害予測部16は、障害時特徴ベクトルVs1、Vs2、Vs3(図3)には類似しないと判断する。よって、通常時特徴ベクトルV1が取得された料金収受システム2は、現時点において障害の予兆がなく、健全な状態にあると推測される。
一方、通常時特徴ベクトルV2は、全体としてややチャートが広がった傾向が見受けられる。したがって、障害予測部16は、この通常時特徴ベクトルV2が障害時特徴ベクトルVs2(障害Bのチャート)に類似すると判断する。そして、障害予測部16は、通常時特徴ベクトルV2が取得された料金収受システム2に対し、今後の稼働において障害Bが発生するものと予測する。この予測により、保守作業員等は、この料金収受システム2に対しては、構成機器2A(中継通信機器)の通信用コネクタケーブルを重点的に点検する必要がある、と判断することができる。
また、通常時特徴ベクトルV3は、全体的に平均よりやや右寄りのチャートとなっている。したがって、障害予測部16は、この通常時特徴ベクトルV3が障害時特徴ベクトルVs3(障害Cのチャート)に類似すると判断する。そして、障害予測部16は、この通常時特徴ベクトルV3が取得された料金収受システム2は、今後、障害Cが発生する可能性があると予測する。保守作業員等は、この予測結果を受けて、当該料金収受システム2の通信制御用IC部品を点検する必要がある、と判断することができる。
図5は、第1の実施形態に係る障害予測部における類否判断の例を説明する図である。
障害予測部16は、通常時特徴ベクトルV1、V2、・・・及び障害時特徴ベクトルVs1、Vs2、・・・に含まれる数値(数値P1、P2、・・・)の各々の差から算出される相違度Dを算出し、当該相違度Dに基づいて、通常時特徴ベクトルV1、V2、・・・と、障害時特徴ベクトルVs1、Vs2、・・・との対比を行う。
ここで、相違度Dは、例えば、対比する特徴ベクトルに含まれる数値P1、P2、・・・ごとの差の絶対値の平均値である。具体的には、2つの特徴ベクトルの数値Pnについての差の絶対値を|ΔPn|で表すと、相違度D=(|ΔP1|+|ΔP2|+・・・+|ΔP12|)/12となる。なお、相違度Dの算出手法はこれに限定されず、例えば、各特徴ベクトルに含まれる数値ごとの差の二乗和の平方根により求められる値であってもよい。
障害予測部16は、この相違度Dが低いほど、2つの特徴ベクトルは類似していると判断する。
例として、図5上段に示すように、上述の相違度Dに基づく対比の結果、料金所の走行レーンX1に設置された料金収受システム2の通常時特徴ベクトルV1は、現段階において平均特徴ベクトルVaに最も類似していた(RANK1であった)とする。ここで、平均特徴ベクトルVaは、平均特徴ベクトル算出部110が算出した特徴ベクトルであって、特徴ベクトルに含まれる全ての数値(数値P1〜P12)が平均値μである特徴ベクトルである。
上記の例の場合、障害予測部16は、通常時特徴ベクトルV1、V2、・・・が現段階において記憶されている障害時特徴ベクトルVs1、Vs2、・・・のいずれよりも平均特徴ベクトルVaに類似すると判断し、これにより、障害予測部16は、走行レーンX1に設置された料金収受システム2の稼働状況は健全であると判定する。
逆に、例えば、「障害A」の障害時特徴ベクトルVs1の相違度Dが、RANK1であった場合、障害予測部16は、走行レーンX1の料金収受システム2に障害Aの予兆があると判断し、その旨を通知するための警報信号を出力する。
また、図5下段に示すように、料金所の走行レーンX2に設置された料金収受システム2の通常時特徴ベクトルV2は、現段階において平均特徴ベクトルVaに最も類似していたものの、障害Cの障害時特徴ベクトルVs3との相違度Dも低かったとする。この場合、RANK1は、平均特徴ベクトルVaであるものの、障害Cの障害時特徴ベクトルVs3との相違度Dも同等に低いものとなっている。
この場合、障害予測部16は、障害Cの障害時特徴ベクトルVs3との相違度Dと、平均特徴ベクトルVaとの相違度Dと、の差が所定の判定閾値ΔDth(例えば、ΔDth=1)を下回っていたことを受け、走行レーンX2の料金収受システム2に障害Cの予兆があると判断し、その旨を通知するための警告信号を出力してもよい。
さらに、障害予測部16は、異なる二つの障害(例えば、障害Aと障害C)との相違度が、それぞれRANK1、RANK2となっており、なおかつ、これらの相違度Dが近かった(ΔDthを下回っていた)場合は、この構成機器2A、2B、・・・に二つの障害A、障害Cが同時に発生し得ることを通知してもよい。
図6は、第1の実施形態に係る障害予測部の処理フローを示すフローチャート図である。
図5を用いて説明した障害予測部16の処理の具体的な処理フローの例を、図6を参照しながら説明する。
障害予測部16は、例えば、新たな通常時特徴ベクトルV1、V2、・・・が蓄積されるごとに、図6に示すような処理フローを開始する。
まず、障害予測部16は、ログ情報データベース12を参照して、ある料金収受システム2についての通常時特徴ベクトル(例えば通常時特徴ベクトルV1(図4))を参照する(ステップS10)。
次に、障害予測部16は、障害情報データベース15を参照して、現時点における平均値特徴ベクトルVa、及び、現時点において記憶されている障害時特徴ベクトルVs1、Vs2、・・・(図3)を取得する(ステップS11)。
そして、障害予測部16は、取得した通常時特徴ベクトルV1と、平均特徴ベクトルVa、及び、各障害時特徴ベクトルVs1、Vs2、・・・、とが類似しているか否かの判断処理を行う(ステップS12)。この判断処理とは、具体的には、図5に示したような、相違度Dに基づくランキングを作成する処理である。
次に、障害予測部16は、通常時特徴ベクトルV1と最も類似するもの(RANK1)が、平均特徴ベクトルVaであるか否かを判定する(ステップS13)。
平均特徴ベクトルVaがRANK1であった場合(ステップS13:YES)は、障害予測部16は、さらに、平均特徴ベクトルVaの相違度Dに近い障害時特徴ベクトルがないかを判定する(ステップS14)。
平均特徴ベクトルVaの相違度Dに近いものがない場合(ステップS14:NO)、障害予測部16は、この料金収受システム2の稼働状況は健全であると判断して処理を終了する。
一方、平均特徴ベクトルVaがRANK1でなかった場合(ステップS13:NO)、または、RANK1でなくともRANK1(平均特徴ベクトルVa)の相違度Dに近いものがある場合(ステップS14:YES)、監視装置1は、そのことを通知する所定の通知処理を行う。例えば、ステップS14で、障害Cの障害時特徴ベクトルVs3が平均特徴ベクトルVaに近接していた場合、障害予測部16は、その料金収受システム2において障害Cへの進行の可能性が有る旨の注意を促す通知処理を行う。また、例えば、ステップS13にて、障害Aの障害時特徴ベクトルVs1の相違度Dが平均特徴ベクトルVaの相違度Dを下回り、障害AがRANK1となっていた場合には、障害予測部16は、その料金収受システム2において障害A発生の危険性が高まっていることを知らせる警告処理を行う。
このようにして、障害予測部16は、数値P1〜P12各々の差から算出される相違度Dに基づいて、通常時特徴ベクトルV1、V2・・・が障害時特徴ベクトルVs1、Vs2(または平均特徴ベクトルVa)のいずれに類似するかを判断し、障害の予兆があると判定した場合には、そのことを示す所定の警告処理を行う。
以上、本実施形態に係る監視装置1によれば、複数の構成機器からなるシステム(料金収受システム2)から取得される大量のログ情報の中から選択された複数の数値(数値P1、P2、・・・、P12)を取得(データマイニング)し、これら複数の数値に基づく特徴ベクトルを抽出する。そして、この特徴ベクトルが障害発生時において抽出された障害時特徴ベクトルと類似するか否かを判定することで障害発生の予測を行う。このようにすることで、システム全体としての稼働の傾向を網羅的に示す特徴ベクトルに基づいて、障害の発生の予兆を精度よく検出することができる。
また、監視装置1によれば、発生の兆候が認められる障害の種類を特定することができるので、その障害に応じた準備(緊急出動態勢)を整えておくことができる。これにより、障害の発生を未然に防ぐように対応でき、また、発生しても復旧時間を短縮することができるので、システムの稼働率を向上させることができる。
また、本実施形態においては、監視対象とするシステム(料金収受システム2)には、稼働状況に応じたログ情報が出力される機能がもともと備わっている。したがって、本実施形態に係る監視装置1によれば、監視対象とするシステムに対し、監視装置1による監視用のための新たな機能を実装させる必要がない。したがって、ログ情報を出力する機能を有するシステムに対しては、本実施形態の監視装置1による監視を容易に適用させることができる。
また、監視対象とするシステムが出力するログ情報は、一般的に文字情報(テキストデータ)や数値情報(バイナリデータ)であるため、当該文字情報に基づくログ情報の記録方式ごとに準拠させて情報を抽出することは容易である。したがって、本実施形態に係る監視装置1によれば、監視対象とするシステムごとに、当該システムが出力するログ情報から所望する複数の数値を抽出できるようにカスタマイズすることで、いかなるシステムに対しても適用可能となる。
また、このようにすることで、構成機器及びその態様が異なる複数のシステムを同時に監視対象とすることもできる。
さらに、本実施形態に係る監視装置1によれば、上述したように、新たな障害が発生するごとに保守作業員により障害情報が入力され、当該障害時の特徴ベクトル(障害時特徴ベクトル)と関連付けられながら蓄積される。したがって、監視対象とするシステムの稼働において障害が発生する度に、予測可能な障害パターンが増えていく。これにより、システムの運用を継続するほど、その稼働率が改善される効果が得られる。
また、本実施形態においては、システムの稼働状況が健全であるか否かの判定に、平均特徴ベクトルVaを用いている(例えば、図6ステップS13)。上述したように、この平均特徴ベクトルVaは、過去または現在における他のシステムのログ情報から求められる各数値P1、P2、・・・各々の平均値であって、動的に変化する。つまり、本実施形態に係る監視装置1は、予め定められた固定値ではなく、稼働状況に応じて動的に変化する平均特徴ベクトルとの対比により健全か否かの判定を行う。
ここで、予め定められた固定値に従って稼働状況の健全性の可否判定を行った場合、システムの稼働時間に応じて本来的に変動していく数値が含まれていた場合、当該システムが健全であるにも関わらず、当該変動した数値と上記固定値との対比に基づいて「障害の予兆がある」と判定されてしまうことが想定される。本実施形態に係る監視装置1によれば、動的に算出される平均特徴ベクトルとの対比に基づいて判定を行うので、健全な数値変動の要素が除外され、一層精度よく障害の予測を行うことができる。
なお、本実施形態に係る特徴ベクトル抽出部11は、ログ情報取得部10が収集したログ情報から、予め選択された複数の数値(数値P1、P2、・・・)を抽出し、特徴ベクトルとするものとして説明した。具体的には、特徴ベクトル抽出部11は、保守作業員による数値の種別の指定を受け付ける数値指定受付部を備えていてもよい。これにより、保守作業員は、当該数値指定受付部を介して、特徴ベクトルを構成する数値P1、P2、・・・の個数や種別を任意に指定することができる。
ここで、障害情報処理部14が同一の障害(例えば「障害A」)について複数の障害特徴ベクトルを蓄積した際に、同じ「障害A」に区分されるにも関わらず、当該複数の障害時特徴ベクトルの傾向に統一性が見いだせない場合、或いは、障害の傾向そのものを把握できない場合が想定される。この場合、保守作業員は、「障害A」としての傾向が見いだせるように、上記数値指定受付部を介して、特徴ベクトルの数値P1、P2、・・・を再選択する。保守作業員による指定を受け付けた障害情報処理部14は、ログ情報データベース12に蓄積されていたログ情報を参照して、各種特徴ベクトルを再抽出する。保守作業員は、再抽出された特徴ベクトルを確認しながら、障害の予測に必要な数値の組み合わせを検討することができる。
以上、第1の実施形態に係る監視装置1によれば、複数の構成機器からなる複雑なシステムにおいても、当該システムで発生する障害を精度よく予測することができ、当該システムの稼働率を向上させることができる。
<第2の実施形態>
次に、第2の実施形態に係る監視装置1について説明する。
第2の実施形態に係る監視装置1は、障害予測部16における障害の予測処理の点で、第1の実施形態と異なる。以下、順を追って予測処理の例を説明する。
図7は、第2の実施形態に係る監視装置が監視対象とする料金収受システムの構成を示す図である。
第2の実施形態に係る監視装置1は、図7に示すような料金収受システム2のログ情報を取得して、障害発生の予測を行う。
監視対象とする料金収受システム2は、例として電子料金収受システムであって、図7に示すように、構成機器2Mが、構成機器2A、2B、2Cのそれぞれと個々に通信を行う態様で構成されている。例えば、構成機器2Mは、ICカードリーダ、構成機器2A、2B、2Cは、それぞれICカード、ICカードに対してデータ処理を行うデータ処理装置、読み取られたICカードのデータに基づいて課金等の料金収受処理を行う決済処理装置である。
図8は、第2の実施形態に係る特徴ベクトル抽出部の処理の例を説明する図である。
本実施形態において、特徴ベクトル抽出部11は、図7に示した料金収受システム2の特徴ベクトルとして12個の数値が選択されている。ここで、数値Mは、構成機器2M自身の機械動作(ICカードの挿入、取り出し)に関する数値である。また、数値A1〜A7は、構成機器2Mから構成機器2Aに委託される処理に関する数値、数値B1〜B3は、構成機器2Mから構成機器2Bに委託される処理に関する数値、そして、数値C1は、構成機器2Mから構成機器2Cに委託される処理に関する数値である。
特徴ベクトル抽出部11は、第1の実施形態と同様に、各数値(数値M、A1〜A7、B1〜B3、C1)の各々についての統計分布(平均値μ、標準偏差σ等)に基づく正規化処理を行い、各々の数値の大小、増減のばらつきが同一の尺度で比較可能となるようにする。なお、各数値の平均値μ、標準偏差σ等については、第1の実施形態と同様に、平均特徴ベクトル算出部110が、稼働中の複数の料金収受システム2について過去から現在に渡って定期的または不定期に取得されたログ情報に基づいて動的に算出する。
なお、本実施形態においては、図8に示すように、特徴ベクトルを構成する数値のうち、関連性の強い数値同士をチャート内において特定方向に偏るように設定している。例えば、構成機器2Aとの通信に関する数値A1〜A7は、全体としてチャートの右下側に偏るように隣接して設定される。
図9は、第2の実施形態に係る障害情報データベースに蓄積されている障害情報の例を示す図である。
本実施形態に係る障害情報処理部14の処理は、第1の実施形態と同等である。すなわち、本実施形態に係る料金収受システム2に発生した障害についての障害情報と、その発生時直前に取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、を関連付けて障害情報データベース15に蓄積する。
ここで、図9を参照しながら、本実施形態に係る障害情報データベース15に蓄積された障害情報及び障害時特徴ベクトルの例を説明する。
例として、障害Aは、構成機器2Cの電子部品αの劣化によりソフトウェアが暴走し、料金収受システム2の運用を停止するに至った障害であったとする。この場合、障害Aの発生直前の状態を示す障害時特徴ベクトルVs1は、構成機器2Cに関わる数値Cのみが突出して増加し、それ以外の数値は平均値近傍となっている。
また、障害Bは、構成機器2Aとの通信に使用される構成機器2Mの信号接点金具の劣化(汚れ、摩耗)により通信異常が頻発した結果、料金収受システム2の運用において何度も通信処理のリトライがなされ、円滑な運用ができない状態となった障害を表している。障害Bの発生直前における障害時特徴ベクトルVs2は、数値A1〜A7のいくつかが平均値μより大きいチャートとなっている。
障害Cは、構成機器2Bの主要な電子部品である主制御用ICの熱損傷により機能が停止しため、料金収受システム2の運用を一時停止した障害を表している。これに関連して、障害Cの発生直前における障害時特徴ベクトルVs3は、数値B2、B3が突出して増加している。
図10は、第2の実施形態に係るログ情報データベースに蓄積されている特徴ベクトルの例を示す図である。
本実施形態に係る障害予測部16は、第1の実施形態と同様に、ログ情報データベース12を参照して、通常稼働中における複数の料金収受システム2(図7)の各々のログ情報から抽出された通常時特徴ベクトルV1、V2、V3、・・・を取得する。例として、障害予測部16は、走行レーンX1〜X3に設置された3つの料金収受システム2のそれぞれについて、通常稼働中における直近の所定期間内のログ情報に基づいて抽出された通常時特徴ベクトルV1〜V3(図10)を取得した場合を考える。
図11は、第2の実施形態に係る障害予測部における類否判断の例を説明する図である。
図11には、障害A、B、Cについての障害時特徴ベクトルVs1、Vs2、Vs3(図9)及び走行レーンX1〜X3に設置された料金収受システム2それぞれについての通常時特徴ベクトルV1〜V3の重心位置を示している。ここで、重心位置とは、仮想空間であるチャート平面(xy平面)上における特徴ベクトルの各数値の平均値である。重心位置は、チャート平面上において、特徴ベクトルに含まれる数値により一意に定まる。
本実施形態に係る障害予測部16は、互いの特徴ベクトルの重心位置の距離に基づいて類似しているか否かの判断を行う。
例えば、障害Aの障害時特徴ベクトルVs1は、構成機器2Cに障害があったため、数値C1のみが増加している(図9参照)。したがって、図11において、障害Aの障害時特徴ベクトルVs1は、数値C1の軸が設定されている方向である+y方向側に遷移している。これに対し、料金収受システム2(走行レーンX1)の通常時特徴ベクトルV1は、同様に+y方向側に遷移しており、両者の重心位置の距離が近づいている。
ここで、本実施形態に係る障害予測部16は、例えば、通常時特徴ベクトルV1の重心位置(x1、y1)と、障害時特徴ベクトルVs1の重心位置(x2、y2)との距離dが所定の判定閾値dth以下となる場合に、通常時特徴ベクトルV1が障害時特徴ベクトルVs1に類似すると判断し、その旨を通知する処理を行う。これにより、保守作業員は、走行レーンX1の料金収受システム2について、構成機器2Cの修繕作業を要することを認知することができる。
なお、距離dは、d={(x1−x2)+(y1−y2)1/2により求められる。
同様に、障害Bの障害時特徴ベクトルVs2では、構成機器2Aとの通信経路に障害が生じていたことにより、数値A1〜A7のうちのいくつかの数値が増加している(図9参照)。したがって、図11において、障害時特徴ベクトルVs2の重心位置は、チャート右下の方向に推移している。これに対し、料金収受システム2(走行レーンX2)の通常時特徴ベクトルV2の重心位置も同様に右下方向側に遷移しており、障害Bの重心位置に近づきつつある。したがって、障害予測部16は、判定閾値dthに基づく判定結果に応じて障害Bと同等の異常の発生を予測し、その旨を通知する処理を行う。
さらに、障害Cの障害時特徴ベクトルVs3では、構成機器2B内部の障害により動作が停止したことで、特に数値B2、B3の数値が突出して増加している(図9参照)。これに対し、料金収受システム2(走行レーンX3)の通常時特徴ベクトルV3は、チャートの全体的な形状では障害A、B、Cとの類似性は判然としない。しかしながら、通常時特徴ベクトルV3においては、構成機器2Bとの通信処理に関する数値の一つであるB1が突出しており、重心位置は障害Cの重心方向に近づきつつある。これにより、障害予測部16は、判定閾値dthに基づく判定結果に応じて、障害Cと同様に構成機器2Bに基づく障害の発生を予測し、その旨を通知する。
このように、本実施形態に係る障害予測部16は、通常時特徴ベクトルV1、V2、・・・と、障害時特徴ベクトルVs1、Vs2、・・・とのチャート平面内における重心位置の対比に基づいて類否判断を行う。そうすると、特徴ベクトルを構成する数値の軸を、数値同士が有する所定の共通性に対応付けて設定することにより、重心位置の推移の方向から異常の進行箇所を精度よく推定することができる。例えば、数値A1〜A7は、「構成機器2Aとの通信に関わる数値」という共通性を有しながら、チャート平面右下方向にまとめて設定される。したがって、通常時特徴ベクトルV1、V2、・・・の重心位置が右下方向に推移する傾向から、構成機器2Aに何らかの異常が進行しているものと推定することができる。
なお、上述の説明では、本実施形態に係る料金収受システム2は、重心位置の距離に基づき、互いの距離が所定の判定閾値dth以下となった場合に、障害発生の可能性を通知することとしたが、本実施形態の変形例においては、この態様に限定されない。例えば、当該変形例においては、障害予測部16は、原点0から重心位置が推移した方位θ(θ=0°〜360°)が一致しているか否かに基づいて、障害の発生を予測してもよい。
具体的には、例えば図11において、障害Cの障害時特徴ベクトルVs3の重心位置と、通常時特徴ベクトルV3の重心位置との距離dは比較的離れており、距離の判定閾値dthによっては障害Cの予兆が検出されない。しかし、図11に示すように、2つの特徴ベクトルの重心位置が推移した方位はいずれもチャート平面左側で、ほぼ一致している。この場合、障害予測部16は、通常時特徴ベクトルV3の重心位置の方位θが、障害時特徴ベクトルVs3の重心位置の方位θsに対しθs±Δθの範囲に収まるか否かを判定し、当該判定結果に基づいて料金収受システム2における障害Cの発生を予測するようにしてもよい。
以上のように、推移する方位θを対比することで、障害予測部16は、重心位置が所定の距離範囲内に近づく前に発生し得る障害を特定することができ、障害発生の兆候及びその原因箇所を早期に発見することができる。
図12は、第2の実施形態の変形例に係る障害予測部における類否判断の例を説明する図である。
第2の実施形態の変形例として、障害予測部16は、さらに、特徴ベクトルに含まれる数値(数値M、A1〜A7、B1〜B3、C1)のうち、特定の障害と関連性が高い数値である特徴値同士の比較に基づいて、通常時特徴ベクトルV1、V2、・・・と、障害時特徴ベクトルVs1、Vs2、・・・との類否判断を行うようにしてもよい。
具体例として、当該変形例に係る障害情報処理部14は、特徴値設定部を有する。この特徴値設定部は、同じ障害の区分に分類された複数の障害情報に係る障害時特徴ベクトルに共通する傾向を有する一つの特徴値を設定する。例えば、障害Bについての障害時特徴ベクトルVs2(図9中央)、及び、同じ障害Bとして分類された他の複数の障害時特徴ベクトルに共通する傾向として、「数値C1が減少している」との傾向がみられる場合、障害情報処理部14の特徴値設定部は、この数値C1を、障害Bと関連性が高い「特徴値」として設定し、記憶する。同時に、障害情報処理部14は、当該「特徴値」である数値C1が所定値まで減少した場合に、障害Bの傾向が強くなる旨の情報を記憶しておく。具体的には、特徴値設定部は、障害情報データベース15に対し、例えば、『障害B、特徴値:C1、数値:○○』等の情報群を記憶しておく。
一方、走行レーンX4に設置された料金収受システム2において、図12に示すような通常時特徴ベクトルV4が取得されたとする。
この場合、当該変形例に係る障害予測部16は、まず、第2の実施形態と同様に、その重心位置の対比に基づいて、通常時特徴ベクトルがいずれの障害時特徴ベクトルに類似しているかを判断する。しかし、この場合、通常時特徴ベクトルV4の重心位置は全体として平均値(原点0)に近いものとなっており、その推移する方位からも障害時特徴ベクトルVs1、Vs2、Vs3との共通性は見受けられない(図11参照)。したがって、障害予測部16は、重心位置に基づく類否判断によって、当該料金収受システム2は健全な稼働状態にあると判定する。
しかし、当該変形例に係る障害予測部16は、さらに、障害情報処理部14によって記憶された特徴値(数値C1)同士の比較に基づいて、各特徴ベクトルの類否判断を行う。すなわち、障害予測部16は、通常時特徴ベクトルV4の数値C1が減少している傾向(図12参照)を読み取って、障害情報処理部14により「特徴値(数値C1)の減少傾向」と紐付けられている「障害B」に類似すると判断する。
このようにすることで、当該変形例に係る障害予測部16は、重心位置の比較のみでは見逃されていた共通性に基づいて、一層精度よく障害の発生を予測することができる。
なお、上述の変形例において、障害Bと、その障害Bと関連性が高い数値C1との関連付けは、障害情報処理部14が、蓄積された障害情報及び障害時特徴ベクトルを解析して自動で設定するものとして説明した。しかし、他の実施形態では、例えば、保守作業員が、同じ障害の区分に分類された複数の障害時特徴ベクトルのチャート図を目視することでその障害と関連性が高いと判断される特徴値を見出し、障害情報処理部14がその判断に基づく情報(障害の分類及びその特徴値)の入力を受け付けて記憶する態様であってもよい。
この場合、障害情報処理部14は、監視装置1が備える表示部(モニタ)を介して、蓄積された障害時特徴ベクトルのチャート図を保守作業員に表示させる表示指示部と、表示されたチャート図に基づいた保守作業員の判断による特徴値の指定を受け付ける特徴値指定受付部を備えるものとする。
また、上述の変形例において、障害予測部16は、各特徴ベクトルの「重心位置」による類否判断、及び、前もって設定された「特徴値」に基づく類否の判断を行うものとして説明したが、障害予測部16は、さらに、第1の実施形態で説明した「相違度D」に基づく類否判断を行ってもよい。
図13は、第2の実施形態の変形例に係る障害予測部における通知処理の例を説明する図である。
上述の変形例の場合、類否判断の手法によっては判断結果が異なる場合がある。
この場合、障害予測部16は、図13に示すように、障害予測の通知処理として、当該判断方法ごとに予測される障害を表示するようにしてもよい。例えば、障害予測部16は、通常時特徴ベクトルV4と、各障害時特徴ベクトルVs1、Vs2、・・・、及び平均特徴ベクトルVaとの対比の結果を、その判断方法ごとに表示する。図13において、例えば、判断方法m1は「相違度D」に基づく判断、判断方法m2は「重心位置」に基づく判断、判断方法m3は「特徴値」に基づく判断である。
障害予測部16が、判断方法ごとにその判断結果を通知することにより、保守作業員は、障害の予兆を詳細かつ多角的に把握することができる。例えば、図13に示すような判断結果によれば、現段階における稼働状況は健全に近いものの、今後、障害Bの発生に進行する可能性があり、注視する必要があることを判断することができる。
また、上述の第1、第2の実施形態に係る障害予測部16は、監視対象(料金収受システム2)から抽出された通常時特徴ベクトルが、蓄積されていた障害時特徴ベクトルVs1、Vs2、・・・、または、平均特徴ベクトルVaの何れに類似するかを相対的に判断することで、障害の発生を予測するものとして説明した。しかし、他の実施形態に係る障害予測部16は、通常時特徴ベクトルが各障害時特徴ベクトルVs1、Vs2、・・・或いは平均特徴ベクトルVaのいずれにも類似しないと判断した場合は、監視対象(料金収受システム2)において未知の障害の予兆があると判定し、その旨を示す通知処理を行うようにしてもよい。この場合、障害予測部16は、類否判断の基準に固定の判定閾値を設け、障害時特徴ベクトルVs1、Vs2、・・・、及び、平均特徴ベクトルVaのそれぞれに対し、当該固定の判定閾値に基づいた類否判断を行うものとする。
このようにすることで、保守作業員は、今までに蓄積された障害時特徴ベクトルのいずれにも該当しない新たな現象が発生しつつある場合に、その現象に起因して障害が発生する前にそのことを認識し、対策を講じることができる。
以上、第2の実施形態及びその変形例に係る監視装置1によれば、複数の異なる構成機器に関わる数値群を1つの特徴ベクトルとして抽出することで、構成機器ごとに独立した監視を行うだけでなく、システムにおける構成機器全体の連携動作を網羅的に把握することができる。
なお、上述の監視装置1は、内部にコンピュータシステムを有している。そして、上述した監視装置1の各処理の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータが読み出して実行することによって、上記処理が行われる。ここで、コンピュータ読み取り可能な記録媒体とは、磁気ディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory)または半導体メモリ等をいう。また、このコンピュータプログラムを通信回線によってコンピュータに配信し、この配信を受けたコンピュータが当該プログラムを実行するようにしても良い。
以上、本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。
1・・・監視装置
10・・・ログ情報取得部
11・・・特徴ベクトル抽出部
12・・・ログ情報データベース
13・・・障害情報入力部
14・・・障害情報処理部
15・・・障害情報データベース
16・・・障害予測部
2・・・料金収受システム
2A、2B、2C、・・・構成機器

Claims (10)

  1. 少なくとも一つの構成機器を有するシステムを監視する監視装置であって、
    前記構成機器が出力するログ情報を取得するログ情報取得部と、
    前記ログ情報に基づいて複数種類の数値からなる特徴ベクトルを抽出する特徴ベクトル抽出部と、
    前記システムで発生した障害についての障害情報の入力を受け付ける障害情報入力部と、
    前記特徴ベクトルのうち前記障害の発生の所定時間前から当該障害の発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、当該障害についての障害情報と、を関連付けて記憶する障害情報処理部と、
    前記特徴ベクトルのうち前記システムの通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、前記障害時特徴ベクトルの何れに類似するかの判断に基づいて、前記システムで発生する障害を予測する障害予測部と、
    を備える監視装置。
  2. 前記障害予測部は、
    前記通常時特徴ベクトル及び前記障害時特徴ベクトルに含まれる数値の各々の差から算出される相違度を算出し、当該相違度に基づいて、前記通常時特徴ベクトルが前記障害時特徴ベクトルの何れに類似するかを判断する
    ことを特徴とする請求項1に記載の監視装置。
  3. 前記障害予測部は、
    仮想空間内において、前記特徴ベクトルに含まれる数値により一意に定まる重心位置の比較に基づいて、前記通常時特徴ベクトルが前記障害時特徴ベクトルの何れに類似するかを判断する
    ことを特徴とする請求項1または請求項2に記載の監視装置。
  4. 前記障害予測部は、
    前記特徴ベクトルに含まれる数値のうち特定の障害と関連性が高い特徴値同士の比較に基づいて、前記通常時特徴ベクトルが前記障害時特徴ベクトルの何れに類似するかを判断する
    ことを特徴とする請求項1から請求項3の何れか一項に記載の監視装置。
  5. 複数の通常時特徴ベクトルに含まれる数値ごとの平均値からなる平均特徴ベクトルを算出する平均特徴ベクトル算出部を備え、
    前記障害予測部は、
    前記通常時特徴ベクトルが前記障害時特徴ベクトルよりも前記平均特徴ベクトルに類似すると判断した場合に、前記システムは健全に稼働していると判定する
    ことを特徴とする請求項1から請求項4の何れか一項に記載の監視装置。
  6. 前記障害予測部は、
    前記通常時特徴ベクトルが前記障害時特徴ベクトルまたは前記平均特徴ベクトルのいずれにも類似しないと判断した場合に、前記システムにおいて未知の障害の予兆があると判定する
    ことを特徴とする請求項5に記載の監視装置。
  7. 前記システムは、前記構成機器を二つ以上有し、
    前記特徴ベクトル抽出部は、二つ以上の前記構成機器の間において行われる処理を示すログ情報に基づいて前記特徴ベクトルを抽出する
    ことを特徴とする請求項1から請求項6の何れか一項に記載の監視装置。
  8. 前記特徴ベクトルを構成する数値の種別の指定を受け付ける数値指定受付部を備え、
    前記特徴ベクトル抽出部は、当該指定を受け付けた際に、当該指定された種別の数値を含む特徴ベクトルを、前記ログ情報から再抽出する
    ことを特徴とする請求項1から請求項7の何れか一項に記載の監視装置。
  9. 少なくとも一つの構成機器を有するシステムの監視方法であって、
    ログ情報取得部が、前記構成機器が出力するログ情報の入力を受け付け、
    特徴ベクトル抽出部が、前記ログ情報に基づいて複数種類の数値からなる特徴ベクトルを抽出し、
    障害情報入力部が、前記システムで発生した障害についての障害情報の入力を受け付け、
    障害情報処理部が、前記特徴ベクトルのうち前記障害の発生の所定時間前から当該障害の発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、当該障害についての障害情報と、を関連付けて記憶し、
    障害予測部が、前記特徴ベクトルのうち前記システムの通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、前記障害時特徴ベクトルの何れに類似するかの判断に基づいて、前記システムで発生する障害を予測する
    ことを特徴とする監視方法。
  10. 少なくとも一つの構成機器を有するシステムを監視する監視装置のコンピュータを、
    前記構成機器が出力するログ情報の入力を受け付けるログ情報入力手段、
    前記ログ情報に基づいて複数種類の数値からなる特徴ベクトルを抽出する特徴ベクトル抽出手段、
    前記システムで発生した障害についての障害情報の入力を受け付ける障害情報入力手段、
    前記特徴ベクトルのうち前記障害の発生の所定時間前から当該障害の発生時までに取得されていたログ情報に基づいて抽出された障害時特徴ベクトルと、当該障害についての障害情報と、を関連付けて記憶する障害情報処理手段、
    前記特徴ベクトルのうち前記システムの通常稼働時に取得されるログ情報に基づいて抽出された通常時特徴ベクトルが、前記障害時特徴ベクトルの何れに類似するかの判断に基づいて、前記システムで発生する障害を予測する障害予測手段、
    として機能させるプログラム。
JP2014039394A 2014-02-28 2014-02-28 監視装置、監視方法及びプログラム Active JP6207078B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2014039394A JP6207078B2 (ja) 2014-02-28 2014-02-28 監視装置、監視方法及びプログラム
MYPI2016703080A MY183857A (en) 2014-02-28 2015-02-27 Monitoring device, monitoring method, and program
KR1020167023568A KR101858377B1 (ko) 2014-02-28 2015-02-27 감시 장치, 감시 방법 및 프로그램
PCT/JP2015/055916 WO2015129879A1 (ja) 2014-02-28 2015-02-27 監視装置、監視方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014039394A JP6207078B2 (ja) 2014-02-28 2014-02-28 監視装置、監視方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2015164005A true JP2015164005A (ja) 2015-09-10
JP6207078B2 JP6207078B2 (ja) 2017-10-04

Family

ID=54009192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014039394A Active JP6207078B2 (ja) 2014-02-28 2014-02-28 監視装置、監視方法及びプログラム

Country Status (4)

Country Link
JP (1) JP6207078B2 (ja)
KR (1) KR101858377B1 (ja)
MY (1) MY183857A (ja)
WO (1) WO2015129879A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017094262A1 (ja) * 2015-11-30 2017-06-08 日本電気株式会社 ログ分析システム、方法およびプログラム
WO2017154844A1 (ja) * 2016-03-07 2017-09-14 日本電信電話株式会社 分析装置、分析方法および分析プログラム
JP2019057139A (ja) * 2017-09-21 2019-04-11 日本電気株式会社 運用管理システム、監視サーバ、方法およびプログラム
JP2019159729A (ja) * 2018-03-12 2019-09-19 株式会社リコー 故障予測システム
JP2019169801A (ja) * 2018-03-22 2019-10-03 株式会社国際電気通信基礎技術研究所 無線状況予測装置、無線状況予測方法、および、プログラム
JP2021082018A (ja) * 2019-11-19 2021-05-27 株式会社リコー 情報処理プログラム
JP2022092037A (ja) * 2020-08-25 2022-06-21 日本電気株式会社 異常検出方法、システムおよびプログラム
US11372741B2 (en) 2019-10-09 2022-06-28 Ricoh Company, Ltd. Information processing apparatus configured to perform debug analysis based on a distributed representation vector for lines of a debug log, method, and non-transitory recording medium
WO2023047523A1 (ja) * 2021-09-24 2023-03-30 日本電信電話株式会社 ルール作成装置、ルール作成方法、およびルール作成プログラム
JP2023136144A (ja) * 2022-03-16 2023-09-29 Necプラットフォームズ株式会社 情報提供システム、情報提供方法およびプログラム
US11797413B2 (en) 2016-12-27 2023-10-24 Nec Corporation Anomaly detection method, system, and program
JP7564447B2 (ja) 2021-03-01 2024-10-09 富士通株式会社 異常要因判定方法および異常要因判定プログラム
JP7586613B2 (ja) 2020-05-05 2024-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 性能イベント・トラブルシューティング・システム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427298B (zh) * 2019-07-10 2021-07-16 武汉大学 一种分布式日志的自动特征提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
JP2009217381A (ja) * 2008-03-07 2009-09-24 Nec Corp 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP5301717B1 (ja) * 2012-08-01 2013-09-25 株式会社日立パワーソリューションズ 設備状態監視方法およびその装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009086896A (ja) 2007-09-28 2009-04-23 Toshiba Corp コンピュータの障害予測システムおよび障害予測方法
JP2010009313A (ja) 2008-06-26 2010-01-14 Mitsubishi Electric Corp 障害予兆検知装置
JP5716403B2 (ja) 2011-01-06 2015-05-13 富士ゼロックス株式会社 故障予測装置、画像形成装置及びプログラム
JP5623950B2 (ja) 2011-03-25 2014-11-12 株式会社日立ソリューションズ It障害予兆検知装置及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007172131A (ja) * 2005-12-20 2007-07-05 Nec Fielding Ltd 障害予測システム、障害予測方法、障害予測プログラム
JP2009217381A (ja) * 2008-03-07 2009-09-24 Nec Corp 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
JP5301717B1 (ja) * 2012-08-01 2013-09-25 株式会社日立パワーソリューションズ 設備状態監視方法およびその装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2017094262A1 (ja) * 2015-11-30 2018-09-13 日本電気株式会社 ログ分析システム、方法およびプログラム
WO2017094262A1 (ja) * 2015-11-30 2017-06-08 日本電気株式会社 ログ分析システム、方法およびプログラム
US11049030B2 (en) 2016-03-07 2021-06-29 Nippon Telegraph And Telephone Corporation Analysis apparatus, analysis method, and analysis program
WO2017154844A1 (ja) * 2016-03-07 2017-09-14 日本電信電話株式会社 分析装置、分析方法および分析プログラム
JPWO2017154844A1 (ja) * 2016-03-07 2018-07-05 日本電信電話株式会社 分析装置、分析方法および分析プログラム
US11797413B2 (en) 2016-12-27 2023-10-24 Nec Corporation Anomaly detection method, system, and program
JP2019057139A (ja) * 2017-09-21 2019-04-11 日本電気株式会社 運用管理システム、監視サーバ、方法およびプログラム
JP2019159729A (ja) * 2018-03-12 2019-09-19 株式会社リコー 故障予測システム
JP6999936B2 (ja) 2018-03-22 2022-01-19 株式会社国際電気通信基礎技術研究所 無線状況予測装置、無線状況予測方法、および、プログラム
JP2019169801A (ja) * 2018-03-22 2019-10-03 株式会社国際電気通信基礎技術研究所 無線状況予測装置、無線状況予測方法、および、プログラム
US11372741B2 (en) 2019-10-09 2022-06-28 Ricoh Company, Ltd. Information processing apparatus configured to perform debug analysis based on a distributed representation vector for lines of a debug log, method, and non-transitory recording medium
JP2021082018A (ja) * 2019-11-19 2021-05-27 株式会社リコー 情報処理プログラム
JP7392415B2 (ja) 2019-11-19 2023-12-06 株式会社リコー 情報処理プログラム、情報処理装置、コンピュータ読み取り可能な記録媒体および情報処理システム
JP7586613B2 (ja) 2020-05-05 2024-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーション 性能イベント・トラブルシューティング・システム
JP2022092037A (ja) * 2020-08-25 2022-06-21 日本電気株式会社 異常検出方法、システムおよびプログラム
JP7276550B2 (ja) 2020-08-25 2023-05-18 日本電気株式会社 異常検出方法、システムおよびプログラム
JP7564447B2 (ja) 2021-03-01 2024-10-09 富士通株式会社 異常要因判定方法および異常要因判定プログラム
WO2023047523A1 (ja) * 2021-09-24 2023-03-30 日本電信電話株式会社 ルール作成装置、ルール作成方法、およびルール作成プログラム
JP2023136144A (ja) * 2022-03-16 2023-09-29 Necプラットフォームズ株式会社 情報提供システム、情報提供方法およびプログラム
JP7393034B2 (ja) 2022-03-16 2023-12-06 Necプラットフォームズ株式会社 情報提供システム、情報提供方法およびプログラム

Also Published As

Publication number Publication date
KR20160114666A (ko) 2016-10-05
MY183857A (en) 2021-03-17
JP6207078B2 (ja) 2017-10-04
KR101858377B1 (ko) 2018-05-15
WO2015129879A1 (ja) 2015-09-03

Similar Documents

Publication Publication Date Title
JP6207078B2 (ja) 監視装置、監視方法及びプログラム
US8880946B2 (en) Fault detection apparatus, a fault detection method and a program recording medium
CN110647539A (zh) 一种用于车辆故障的预测方法和系统
CN108445410A (zh) 一种监测蓄电池组运行状态的方法及装置
US20160292802A1 (en) Asset Management Support System
CN104583968A (zh) 管理系统及管理程序
CN104731664A (zh) 用于故障处理的方法和装置
CA2389253A1 (en) Method and system for remotely managing communication of data used for predicting malfunctions in a plurality of machines
CN109969890A (zh) 升降机故障诊断系统
JP6530252B2 (ja) リソース管理システム、及びリソース管理方法
CN104081301A (zh) 电力系统中的一次装置的监测
KR20220073314A (ko) 공정 모니터링 시스템 및 방법
JP2022543923A (ja) 分布図を通じた機器の予知保全方法
KR102662702B1 (ko) 정보통신 설비 점검 시스템 및 방법
CN114912678A (zh) 电网调控异常操作在线自动检测预警方法及系统
CN113468022B (zh) 一种对产品集中监控的自动化运维方法
CN105260814A (zh) 一种基于大数据的输变电设备评估模型及处理方法
CA2976355A1 (en) Method of determining availability and reliability of facility equipment
CN117785538A (zh) 一种基于多模型融合的运维系统故障定位方法
CN110674193A (zh) 一种智能变电站继电保护故障信息建模方法
KR20210000546A (ko) 제어 출력신호를 통한 기기의 예지 보전방법
JP2019061500A (ja) 予兆診断システム
JP7582794B2 (ja) 航空機センサをモデリングするためのデータ主導方式機械学習
CN117875946B (zh) 一种用于变电站设备运维的人机协同自主红外巡检方法
KR102676859B1 (ko) 모터 관리 장치

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20160323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20160324

A625 Written request for application examination (by other person)

Free format text: JAPANESE INTERMEDIATE CODE: A625

Effective date: 20161209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170808

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170904

R150 Certificate of patent or registration of utility model

Ref document number: 6207078

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350