JP3981342B2 - Computer operation management method and apparatus - Google Patents
Computer operation management method and apparatus Download PDFInfo
- Publication number
- JP3981342B2 JP3981342B2 JP2003154891A JP2003154891A JP3981342B2 JP 3981342 B2 JP3981342 B2 JP 3981342B2 JP 2003154891 A JP2003154891 A JP 2003154891A JP 2003154891 A JP2003154891 A JP 2003154891A JP 3981342 B2 JP3981342 B2 JP 3981342B2
- Authority
- JP
- Japan
- Prior art keywords
- computer
- business
- group
- event
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Multi Processors (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、計算機の運用管理方法及び装置に係り、特に、ネットワークに接続され、複数の計算機を統合して運用管理する計算機の運用管理方法及び装置に関する。
【0002】
【従来の技術】
従来、業務を実行する業務システムを構成する複数の計算機を統合して運用管理する場合、業務システムを構成する基本情報としてホスト(計算機)名、業務名等が定義され、その基本情報を使用した運用定義を行って複数の計算機の運用管理が行われている。また、送信する情報をグルーピングすることにより、複数の計算機の運用管理を行うものが、例えば、特許文献1等に記載されて知られている。
【0003】
【特許文献1】
特開2002−300319号公報
【0004】
【発明が解決しようとする課題】
前述した従来技術は、あるシステムに問題が発生したときに、重要な業務を完全に続行させるために、予めどの業務が重要であるか等を定義しておく必要があり、基本情報としての業務の追加があったとき、それが重要な業務であれば運用定義を変更する必要があり、管理者の作業量が多くなるという問題点を有している。
【0005】
また、特許文献1に記載された従来技術は、前述したような業務の重要性に基づいた運用定義について、配慮されていないものである。
【0006】
本発明の目的は、ホスト名、業務の追加等の基本情報が変更された場合にも、運用定義の変更を必要とせずに複数の計算機を統合して運用管理することを可能にし、これにより、システム管理者が運用定義を変更する作業量を軽減することができる計算機の運用管理方法及び装置を提供することにある。
【0007】
【課題を解決するための手段】
本発明によれば前記目的は、ネットワークを介して接続された業務実行計算機を含む複数の計算機を統合して運用管理する計算機の運用管理方法において、制御計算機が、前記業務実行計算機に対して、業務の監視、ネットワークの監視、業務実行計算機のパフォーマンスの監視を行う各管理計算機からの監視結果としてのイベント情報とその詳細情報とを受け、イベント情報のオブジェクト種別に対応する前記業務実行計算機からなるグループの問い合わせ先の前記管理計算機を決定し、決定したグループ問い合わせ先の前記管理計算機から問い合わせの結果として得られたグループの各前記業務実行計算機に対して、前記イベントに対応したアクションの実行を指示することにより達成される。
【0008】
また、前記目的は、ネットワークを介して接続された業務実行計算機を含む複数の計算機を統合して運用管理する計算機の運用管理装置において、制御計算機が、前記業務実行計算機に対して、業務の監視、ネットワークの監視、業務実行計算機のパフォーマンスの監視を行う各管理計算機からの監視結果としてのイベント情報とその詳細情報とを受け付けるイベント受信手段と、イベント情報のオブジェクト種別に対応する前記業務実行計算機からなるグループの問い合わせ先の前記管理計算機を決定するグループ問い合わせ先選択手段と、決定したグループ問い合わせ先の前記管理計算機に問い合わせを行うグループ問い合わせ手段と、問い合わせの結果として得られたグループの各前記業務実行計算機に対して、前記イベントに対応したアクションの実行を指示するアクション指示手段とを備えたことにより達成される。
【0009】
本発明は、前述したような構成を備えることにより、マシンのリソース不足等の事象に対して、ホスト名や業務名等をキーにした基本情報の集まりをグループとして定義しておき、このキーを入力値としてグループ情報を取得し、グループ内の各基本情報を使用してアクションを実行させることができる。
【0010】
【発明の実施の形態】
以下、本発明による計算機の運用管理方法及び装置の実施形態を図面により詳細に説明する。
【0011】
図1は本発明の一実施形態を適用してネットワークに接続された複数の計算機を統合して運用管理される計算機システムの構成を示すブロック図である。図1において、101はグルーピング制御サーバ、102は業務運用管理サーバ、103はネットワーク管理サーバ、104はパフォーマンスサーバ、105、107は業務実行サーバ、106、108、109はネットワークである。
【0012】
図1に示す計算機システムは、他のサーバから受信したイベントに対するアクションと実行先サーバグループとを管理するグルーピング制御サーバ101と、業務実行の指示及び監視を行う業務運用管理サーバ102と、ネットワークの監視を行うネットワーク管理サーバ103と、ネットワークに接続されているサーバのディスク容量等のパフォーマンスを監視するパフォーマンス管理サーバ104と、業務及びイベントに対応するアクションを実行する複数の業務実行サーバ105、107とが、ネットワーク109に接続されて構成されている。業務実行サーバ105、107は、ネットワーク106、108を介してネットワーク109に接続されている。
【0013】
なお、図1には、サーバ101、102、103、104、105、107をそれぞれ独立なものとして示しているが、これらのサーバは、同一の計算機内に共存するように構成されていてもよい。
【0014】
図2はグルーピング制御サーバ101の機能構成を示すブロック図である。図2において、201はイベント受信部、202はグループ問い合わせ先選択部、203はグループ問い合わせ部、204はアクション指示部、205はグルーピング定義テーブル、206はアクション定義テーブルである。
【0015】
グルーピング制御サーバ101は、ホスト名や業務名等をキーとした情報の集まりをグループとして管理し、ネットワークに接続されている種々の機能を備えた計算機である複数のサーバをグループとし、グループ内の各情報を使用して複数の計算機を統合して管理する装置であり、業務運用管理サーバ102、ネットワーク管理サーバ103、パフォーマンス管理サーバ104からのイベントを受信するイベント受信部201と、イベント受信部201が受信したイベントの内容に応じてグループ問い合わせ先を決定するグループ問い合わせ先選択部202と、グループ問い合わせ先選択部202が選択決定したグループ問い合わせ先に対してサーバ名で構成されるグループを問い合わせるグループ問い合わせ部203と、グループ問い合わせ部203が問い合わせたグループの各サーバにアクションを指示するアクション指示部204と、グループ問い合わせ先選択部202が参照するグルーピング問い合わせ先サーバを定義したグルーピング定義テーブル205と、アクション指示部204が指示するアクションを定義しているアクション定義テーブル206とにより構成される。
【0016】
図3は業務運用管理サーバ102の機能構成を示すブロック図である。図3において、301は業務グループ管理部、302は業務監視部、303はイベント送信部、304は業務管理テーブルである。
【0017】
業務運用管理サーバ102は、グループ問い合わせ部203からのグループ問い合わせに対して返信するグループを管理している業務グループ管理部301と、業務実行サーバ105、107が実行している業務を監視する業務監視部302と、業務監視部302が監視した業務監視状況をグルーピング制御サーバ101のイベント受信部201に送信するイベント送信部303と、業務監視部302が監視している業務と業務グループ管理部301が管理している業務グループを定義している業務管理テーブル304とにより構成される。
【0018】
図4はネットワーク管理サーバ103の機能構成を示すブロック図である。図4において、401はネットワークグループ管理部、402はネットワーク監視部、403はイベント送信部、404はネットワーク管理テーブルである。
【0019】
ネットワーク管理サーバ103は、グループ問い合わせ部203からのグループ問い合わせに対して返信するグループを管理しているネットワークグループ管理部401と、ネットワーク106、108、109の状況を監視しているネットワーク監視部402と、ネットワーク監視部402が監視したネットワーク監視状況をグルーピング制御サーバ101のイベント受信部201に送信するイベント送信部403と、ネットワーク監視部402が監視しているネットワークとネットワークグループ管理部401が管理しているグループとを定義しているネットワーク管理テーブル404とにより構成される。
【0020】
図5はパフォーマンス管理サーバ104の機能構成を示すブロック図である。図5において、501はパフォーマンスグループ管理部、502はパフォーマンス監視部、503はイベント送信部、504はパフォーマンス管理テーブルである。
【0021】
パフォーマンス管理サーバ104は、グループ問い合わせ部203からのグループ問い合わせに対して返信するグループを管理しているパフォーマンスグループ管理部501と、業務実行サーバ105、107を監視しているパフォーマンス監視部502と、パフォーマンス監視部502が監視した業務実行サーバのパフォーマンス監視状況をグルーピング制御サーバ101のイベント受信部201に送信するイベント送信部503と、パフォーマンス監視部502が監視しているネットワークとパフォーマンスグループ管理部501が管理しているグループとを定義しているパフォーマンス管理テーブル504とにより構成される。
【0022】
図6は業務実行サーバ105、107の機能構成を示すブロック図である。図6において、601は業務実行部、602はアクション実行部である。
【0023】
業務実行サーバ105、107は、業務運用サーバ102が管理している業務を実行する業務実行部601と、グルーピング制御サーバ101が管理しているアクションを実行するアクション実行部602とにより構成される。
【0024】
図7は各サーバ内のイベント送信部303、403、503が送信し、グルーピング制御サーバ101のイベント受信部201が受信するイベント情報の構成を説明する図である。
【0025】
イベント情報は、図7に示すように、基本情報701と詳細情報704とにより構成されている。そして、基本情報701は、イベントを識別するイベントID702とイベント送信元サーバ名703とにより構成され、詳細情報704は、イベントを分類するオブジェクト種別705と、事象706とにより構成される。ここで説明している実施形態の場合、オブジェクト種別705としては、ネットワーク、パフォーマンス、ジョブ等があり、事象706としては、前述の各オブジェクト種別に対応して、例えば、サーバ105のネットワーク106が障害、サーバ107のディスク容量が不足、サーバ105で異常終了等がある。
【0026】
図8はグルーピング制御サーバ101がグルーピング問い合わせを行うサーバ名を定義したグルーピング定義テーブル205の構成を説明する図である。
【0027】
グルーピング定義テーブル205は、図8に示すように、イベントを分類するイベントのオブジェクト種別801と、グルーピング問い合わせ先サーバ名802とにより構成される。イベントのオブジェクト種別801としては、図7でのオブジェクト種別の同様に、ネットワーク、パフォーマンス、ジョブ等がある。サーバ101のグループ問い合わせ先選択部202は、イベント受信部201が受信したイベントのID702と詳細情報704、グルーピング定義テーブル205のオブジェクト種別801と問い合わせ先サーバ名802を参照してグループ問い合わせ先を選択する。
【0028】
図9は業務運用管理サーバ102が業務の実行と監視とを行うサーバを定義した業務管理テーブル304の構成を説明する図である。
【0029】
業務管理テーブル304は、図9に示すように、業務名称901と、業務を実行するサーバ名902とにより構成される。業務運用管理サーバ102の業務グループ管理部301は、グルーピング制御サーバ101のグループ問い合わせ部203からのグループ問い合わせに対して、図8に示す業務管理テーブル304を参照して一致するサーバ名を返送する。
【0030】
図10はネットワーク管理サーバ103が監視するネットワークを定義したネットワーク管理テーブル404の構成を説明する図である。
【0031】
ネットワーク管理テーブル404は、図10に示すように、ネットワークを識別する名称1001と、接続されているサーバ名1002とにより構成される。ネットワーク管理サーバ103のネットワークグループ管理部401は、グルーピング制御サーバ101のグループ問い合わせ部203からのグループ問い合わせに対して、図10に示すネットワーク管理テーブル404を参照して一致するサーバ名を返送する。
【0032】
図11はパフォーマンス管理サーバ104が監視するサーバとパフォーマンスとを定義したパフォーマンス管理テーブル504の構成を説明する図である。
【0033】
パフォーマンス管理テーブル504は、図11に示すように、監視するサーバ名1101と、監視したパフォーマンス1102とにより構成される。パフォーマンス管理サーバ104のパフォーマンスグループ管理部501は、グルーピング制御サーバ101のグループ問い合わせ部203からのグループ問い合わせに対して、図11に示すパフォーマンス管理テーブル504を参照して一致するサーバ名を返送する。
【0034】
図12はグルーピング制御サーバ101が受信したイベントに対応して実行を指示するプログラムを定義したアクション定義テーブル206の構成を説明する図である。
【0035】
アクション定義テーブル206は、図12に示すように、イベントID1201と、イベントIDに対応して実行するプログラム名1202とにより構成される。グルーピング制御サーバ101のアクション指示部204は、図12に示すアクション定義テーブル206を参照して、イベント受信部201で受信したイベントIDに対応して実行を指示するプログラムを決定する。
【0036】
図13はグルーピング制御サーバ101がイベントを受信してからアクションを指示するまでの処理動作を説明するフローチャートであり、次に、これについて説明する。
【0037】
(1)グルーピング制御サーバ101のイベント受信部201は、各管理サーバ102〜104のイベント送信部303、403、503から送信されてくる図7により説明したようなイベント情報とその詳細情報とを受信する(ステップ1301)。
【0038】
(2)次に、ステップ1301で受信したイベントのオブジェクト種別に対応するグループ問い合わせ先のサーバを、図8により説明したグルーピング定義テーブルから決定する(ステップ1302)。
【0039】
(3)ステップ1302で決定したグループ問い合わせ先のサーバのグループ管理部に対してグループを問い合わせる(ステップ1303)。
【0040】
(4)1303での問い合わせの応答として得られたグループの各サーバに対してアクションを指示する。指示するアクションは、アクション定義テーブルの受信イベントに対応したアクションである。その後、グルーピング制御サーバ101は、イベント受信待ちとなって、ステップ1301からの処理を繰り返す(ステップ1304)。
【0041】
図14は図13のステップ1302の処理でのグループ問い合わせ先を決定する処理動作の詳細を説明するフローチャートであり、次に、これについて説明する。
【0042】
(1)ステップ1301で受信したイベントのオブジェクト種別705が、ネットワーク、パフォーマンス、ジョブの何れであるかを判定する(ステップ1401)。
【0043】
(2)ステップ1401の判定で、イベントのオブジェクト種別がネットワークであった場合、グルーピング定義テーブル205のグルーピング問い合わせ先サーバの欄802を参照して、問い合わせ先をサーバ102として選択決定する(ステップ1402)。
【0044】
(3)次に、受信したイベントの事象706に設定されているサーバを、利用している業務一覧を問い合わせるグループとして決定する(ステップ1403)。(4)ステップ1401の判定で、イベントのオブジェクト種別がパフォーマンスであった場合、グルーピング定義テーブル205のグルーピング問い合わせ先サーバの欄802を参照して、問い合わせ先をサーバ102に選択決定する(ステップ1404)。
【0045】
(5)次に、受信したイベントの事象706に設定されているサーバを、利用している業務一覧を問い合わせるグループとして決定する(ステップ1405)。
【0046】
(6)ステップ1401の判定で、イベントのオブジェクト種別がジョブであった場合、グルーピング定義テーブル205のグルーピング問い合わせ先サーバの欄802を参照して、問い合わせ先をサーバ103と104とに選択決定する(ステップ1406)。
【0047】
(7)次に、受信したイベントの事象706に設定されているサーバを、監視しているネットワークとパフォーマンスとを問い合わせるグループとする(ステップ1407)。
【0048】
図15は図13のステップ1304の処理でのグループの各サーバにアクションを指示する処理動作の詳細を説明するフローチャートであり、次に、これについて説明する。
【0049】
(1)ステップ1303の処理で、グルーピング制御サーバは、問い合わせ先である業務運用管理サーバに問い合わせを行い、その問い合わせ結果として、業務運用管理サーバから、イベントに関連する業務や実行先サーバ、障害時の代替サーバ等を応答として取得する(ステップ1501)。
【0050】
(2)ステップ1501で取得したイベントの内容を判定し、その内容からイベントIDを判定する(ステップ1502)。
【0051】
(3)ステップ1502での判定で、イベントIDの値が“1”であり、イベントIDの値“1”が、問い合わせ先が業務管理サーバ102、アクション定義が「代替サーバで業務再実行する」であったとし、グルーピング制御サーバ101は、イベントIDが“1”(事象が「サーバ105のネットワークが障害」)のイベントをネットワーク管理サーバ103から受信すると、アクション定義テーブルからアクション「業務再実行」及び実行先を「代替サーバ」とする(ステップ1503)。
【0052】
(4)そして、業務管理サーバに問い合わせた実際の代替サーバ名をアクション実行先サーバとして決定し、決定したアクション定義と実行先サーバに対してアクションの実行を指示する(ステップ1504、1509)。
【0053】
(5)ステップ1502での判定で、イベントIDの値が“2”であり、イベントIDの値“2”が、アクション定義が「業務の重要度を下げる」、実行先が「業務実行先サーバ」であったとすると、グルーピング制御サーバ101は、イベントIDが“2”のイベントを受信すると、アクション定義を「業務の重要度を下げる」、実行先を「業務実行先サーバ」とする(ステップ1505)。
【0054】
(6)そして、業務管理サーバに問い合わせた実際の業務実行先サーバ名をアクション実行先サーバとして決定し、決定したアクション定義と実行先サーバに対してアクションの実行を指示する(ステップ1506、1509)。
【0055】
(7)ステップ1502での判定で、イベントIDの値が“3”であり、イベントIDの値“3”が、アクション定義が「業務中断」、実行先が「業務を実行する全サーバ」であったとすると、グルーピング制御サーバ101は、イベントIDが“3”のイベントを受信すると、アクション定義を「業務中断」、実行先を「業務を実行する全サーバ」とする(ステップ1507)。
【0056】
(8)そして、業務管理サーバに問い合わせた実際の業務実行先の全サーバ名をアクション実行先サーバとして決定し、決定したアクション定義と実行先サーバに対してアクションの実行を指示する(ステップ1508、1509)。
【0057】
前述したように、グルーピング制御サーバは、アクション定義テーブル206を参照して受信したイベントに対応するアクションを決定し、さらに、業務運用管理サーバから取得した業務と実行先サーバとの情報から、アクション実行先を決定することになる。問い合わせ先は、グルーピング管理テーブルに応じて、ネットワーク管理サーバやパフォーマンス管理サーバでもよい。また、アクション定義テーブルの内容は、そのアクション定義を変更することができる。
【0058】
そして、グルーピング制御サーバは、受信したイベントと、各管理サーバから取得した情報とを用いて、アクション内容及び依頼先を動的に決定することができ、運用が変更されてもアクション内容や依頼先の定義を変更することなく、運用の変更に対応することができる。
【0059】
図16はグルーピング制御サーバ101がイベントを受信してからアクションを指示するまでの前述した処理をシーケンスとして示した図であり、次に、これについて説明する。
【0060】
(1)いま、ネットワーク管理サーバ103がネットワークの監視において何らかの事象が発生したことを検知したものとする。これにより、ネットワーク管理サーバ103のイベント送信部403は、グルーピング制御サーバ101にイベントを送信する。グルーピング制御サーバ101のイベント受信部201は、ネットワーク管理サーバからのイベントを受信する(シーケンス1601)。
【0061】
(2)シーケンス1601でのイベントの受信により、グルーピング制御サーバ101のグループ問い合わせ部203は、図14により説明した処理の結果として決定した業務運用管理サーバ102にグループ問い合わせを行う(シーケンス1602)。
【0062】
(3)業務運用管理サーバ102の業務グループ管理部301は、シーケンス1602でのグループ問い合わせに対するサーバ名の一覧をグループとしてグルーピング制御サーバ101に返信する(シーケンス1603)。
【0063】
(4)グルーピング制御サーバ101のアクション指示部204は、シーケンス1603で取得したグループであるサーバ名に従い、業務実行サーバ105に対してアクション定義テーブル206で定義しているアクションを指示する(シーケンス1604)。
【0064】
図16により説明した例では、イベント送信元をネットワーク管理サーバ103であるとして説明したが、イベント送信元は、運用管理サーバ102、パフォーマンス管理サーバ104であってもよい。また、図16で説明した例では、グループの問い合わせ先を業務運用管理サーバ102であるとして説明したが、グループの問い合わせ先は、ネットワーク管理サーバ103、パフォーマンス管理サーバ104であってもよい。さらに、図16により説明した例では、アクションを実行するサーバを業務実行サーバ105であるとして説明したが、シーケンス1604のグループを問い合わせた結果が業務実行サーバ107の場合、アクションを実行するサーバは、業務実行サーバ107となる。
【0065】
前述した本発明の実施形態における各処理は、処理プログラムとして構成することができ、この処理プログラムは、HD、DAT、FD、MO、DVD−ROM、CD−ROM等の記録媒体に格納して提供することができる。
【0066】
前述した本発明の実施形態によれば、ホスト名や業務の追加等の基本情報が変更された場合にも、運用定義の変更を必要とすることなく、複数のサーバを統合して管理することができるので、システム管理者が運用定義を変更する必要がなく、作業量を軽減することが可能となる。
【0067】
また、マシンのリソース不足等の事象が発生すると、複数のサーバを統合して管理する制御サーバは、定義されているグループ情報の取得先からグループを取得することによって、1個の基本情報ではなく、基本情報の集まりを取得することが可能である。本発明の実施形態は、これにより、業務実行サーバや業務の追加等の基本情報が変更されても、グループに含まれる情報が変更されるだけで、基本情報をグループ単位で識別することができ、運用定義の変更を行う必要をなくすことができる。
【0068】
【発明の効果】
以上制御したように本発明によれば、ホスト名、業務の追加等の基本情報が変更された場合にも、運用定義の変更を必要とせずに複数の計算機を統合して運用管理することが可能となり、これにより、システム管理者が運用定義を変更する作業量を軽減することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態を適用してネットワークに接続された複数の計算機を統合して運用管理される計算機システムの構成を示すブロック図である。
【図2】グルーピング制御サーバの機能構成を示すブロック図である。
【図3】業務運用管理サーバの機能構成を示すブロック図である。
【図4】ネットワーク管理サーバの機能構成を示すブロック図である。
【図5】パフォーマンス管理サーバの機能構成を示すブロック図である。
【図6】業務実行サーバの機能構成を示すブロック図である。
【図7】各サーバ内のイベント送信部が送信し、グルーピング管理サーバのイベント受信部が受信するイベント情報の構成を説明する図である。
【図8】グルーピング制御サーバがグルーピング問い合わせを行うサーバ名を定義したグルーピング定義テーブルの構成を説明する図である。
【図9】業務運用管理サーバが業務の実行と監視とを行うサーバを定義した業務管理テーブルの構成を説明する図である。
【図10】ネットワーク管理サーバが監視するネットワークを定義したネットワーク管理テーブルの構成を説明する図である。
【図11】パフォーマンス管理サーバが監視するサーバとパフォーマンスとを定義したパフォーマンス管理テーブルの構成を説明する図である。
【図12】グルーピング制御サーバが受信したイベントに対応して実行を指示するプログラムを定義したアクション定義テーブルの構成を説明する図である。
【図13】グルーピング制御サーバがイベントを受信してからアクションを指示するまでの処理動作を説明するフローチャートである。
【図14】図13のステップ1302の処理でのグループ問い合わせ先を決定する処理動作の詳細を説明するフローチャートである。
【図15】図13のステップ1304の処理でのグループの各サーバにアクションを指示する処理動作の詳細を説明するフローチャートである。
【図16】グルーピング制御サーバがイベントを受信してからアクションを指示するまでの前述した処理をシーケンスとして示した図である。
【符号の説明】
101 グルーピング制御サーバ
102 業務運用管理サーバ
103 ネットワーク管理サーバ
104 パフォーマンスサーバ
105、107 業務実行サーバ
106、108、109 ネットワーク
201 イベント受信部
202 グループ問い合わせ先選択部
203 グループ問い合わせ部
204 アクション指示部
205 グルーピング定義テーブル
206 アクション定義テーブル
301 業務グループ管理部
302 業務監視部
303、403、503 イベント送信部
304 業務管理テーブル
401 ネットワークグループ管理部
402 ネットワーク監視部
404 ネットワーク管理テーブル
501 パフォーマンスグループ管理部
502 パフォーマンス監視部
504 パフォーマンス管理テーブル
601 業務実行部
602 アクション実行部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a computer operation management method and apparatus, and more particularly to a computer operation management method and apparatus connected to a network and integrating and managing a plurality of computers.
[0002]
[Prior art]
Conventionally, when integrating and managing multiple computers that make up a business system that executes business, the host (computer) name, business name, etc. have been defined as the basic information that makes up the business system, and that basic information was used. Multiple computers are managed by operation definition. In addition, there is known, for example,
[0003]
[Patent Document 1]
JP 2002-300319 A
[0004]
[Problems to be solved by the invention]
Aforementioned prior art, when a problem occurs in one system, in order to continue the important business completely, must be defined in advance what operations are important such as business as the basic information If this is an important task, it is necessary to change the operation definition, which increases the amount of work for the administrator.
[0005]
In addition, the prior art described in
[0006]
An object of the present invention is to enable integrated management of a plurality of computers without changing the operation definition even when basic information such as addition of a host name or business is changed. Another object of the present invention is to provide a computer operation management method and apparatus capable of reducing the amount of work for a system administrator to change the operation definition.
[0007]
[Means for Solving the Problems]
According to the present invention, the object is to provide an operation management method for a computer that integrates and manages a plurality of computers including business execution computers connected via a network. The control computer, for the business execution computer, Receives event information and its detailed information as monitoring results from each management computer that performs business monitoring, network monitoring, and performance monitoring of business execution computers, and corresponds to the object type of event information Consists of the business execution computer group of Contact Management Determine the computer and the group contact Management Each group obtained as a result of an inquiry from the computer Said business execution This is achieved by instructing a computer to execute an action corresponding to the event.
[0008]
Further, the object is to provide an operation management apparatus for a computer that integrates and manages a plurality of computers including business execution computers connected via a network. The control computer, for the business execution computer, Event receiving means for receiving event information and detailed information as monitoring results from each management computer that performs business monitoring, network monitoring, and performance monitoring of business execution computers, and corresponding to the object type of event information Consists of the business execution computer group of Contact Management Group inquiry to determine computers First choice And the group contact information Management Group inquiry means for making inquiries to the computer and each group obtained as a result of the inquiry Said business execution This is achieved by including action instruction means for instructing a computer to execute an action corresponding to the event.
[0009]
By providing the configuration as described above, the present invention defines a group of basic information using a host name, business name, etc. as a group for an event such as a lack of machine resources. Group information can be acquired as an input value, and an action can be executed using each basic information in the group.
[0010]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of a computer operation management method and apparatus according to the present invention will be described below in detail with reference to the drawings.
[0011]
FIG. 1 is a block diagram showing a configuration of a computer system in which a plurality of computers connected to a network are integrated and managed by applying an embodiment of the present invention. In FIG. 1, 101 is a grouping control server, 102 is a business operation management server, 103 is a network management server, 104 is a performance server, 105 and 107 are business execution servers, and 106, 108 and 109 are networks.
[0012]
The computer system shown in FIG. 1 includes a
[0013]
In FIG. 1, the
[0014]
FIG. 2 is a block diagram showing a functional configuration of the
[0015]
The
[0016]
FIG. 3 is a block diagram showing a functional configuration of the business
[0017]
The business
[0018]
FIG. 4 is a block diagram showing a functional configuration of the
[0019]
The
[0020]
FIG. 5 is a block diagram showing a functional configuration of the
[0021]
The
[0022]
FIG. 6 is a block diagram showing a functional configuration of the
[0023]
The
[0024]
FIG. 7 is a diagram for explaining a configuration of event information transmitted by the
[0025]
As shown in FIG. 7, the event information is composed of
[0026]
FIG. 8 is a diagram for explaining the structure of the grouping definition table 205 in which server names for which the
[0027]
As shown in FIG. 8, the grouping definition table 205 includes an
[0028]
FIG. 9 is a diagram for explaining the configuration of a business management table 304 that defines servers on which the business
[0029]
As illustrated in FIG. 9, the business management table 304 includes a
[0030]
FIG. 10 is a diagram for explaining the configuration of the network management table 404 that defines the networks monitored by the
[0031]
As shown in FIG. 10, the network management table 404 includes a name 1001 for identifying a network and a server name 1002 connected thereto. In response to the group inquiry from the
[0032]
FIG. 11 is a diagram for explaining the configuration of the performance management table 504 in which the servers monitored by the
[0033]
As shown in FIG. 11, the performance management table 504 includes a server name 1101 to be monitored and a monitored
[0034]
FIG. 12 is a diagram illustrating the configuration of the action definition table 206 that defines a program that instructs execution in response to an event received by the
[0035]
As shown in FIG. 12, the action definition table 206 includes an event ID 1201 and a
[0036]
FIG. 13 is a flowchart for explaining the processing operation from when the
[0037]
(1) The
[0038]
(2) Next, the group inquiry server corresponding to the object type of the event received in step 1301 is determined from the grouping definition table described with reference to FIG. 8 (step 1302).
[0039]
(3) The group is inquired to the group management unit of the server that is the group inquiry destination determined in step 1302 (step 1303).
[0040]
(4) An action is instructed to each server of the group obtained as a response to the inquiry in 1303. The action to be instructed is an action corresponding to the received event in the action definition table. Thereafter, the
[0041]
FIG. 14 is a flowchart for explaining the details of the processing operation for determining the group inquiry destination in the processing of step 1302 in FIG. 13, which will be described next.
[0042]
(1) It is determined whether the
[0043]
(2) If it is determined in step 1401 that the object type of the event is network, the inquiry destination is selected and determined as the
[0044]
(3) Next, the server set in the
[0045]
(5) Next, the server set in the
[0046]
(6) If it is determined in step 1401 that the object type of the event is a job, the
[0047]
(7) Next, the server set in the
[0048]
FIG. 15 is a flowchart for explaining the details of the processing operation for instructing an action to each server in the group in the processing of step 1304 in FIG. 13. Next, this will be described.
[0049]
(1) In step 1303, the grouping control server makes an inquiry to the business operation management server that is the inquiry destination, and as a result of the inquiry, from the business operation management server, the business related to the event, the execution destination server, and the failure time An alternative server or the like is acquired as a response (step 1501).
[0050]
(2) The content of the event acquired in
[0051]
(3) In the determination in
[0052]
(4) Then, the actual alternative server name inquired of the business management server is determined as the action execution destination server, and the execution of the action is instructed to the determined action definition and the execution destination server (
[0053]
(5) In the determination at
[0054]
(6) The actual business execution destination server name inquired to the business management server is determined as the action execution destination server, and the execution of the action is instructed to the determined action definition and execution destination server (steps 1506 and 1509). .
[0055]
(7) As a result of the determination in
[0056]
(8) Then, all server names of actual business execution destinations inquired of the business management server are determined as action execution destination servers, and the execution of actions is instructed to the determined action definition and execution destination servers (step 1508, 1509).
[0057]
As described above, the grouping control server refers to the action definition table 206 to determine the action corresponding to the received event, and further executes the action from the information about the business and the execution destination server acquired from the business operation management server. The destination will be decided. The inquiry destination may be a network management server or a performance management server according to the grouping management table. In addition, the action definition table can change the action definition.
[0058]
The grouping control server can dynamically determine the action content and the request destination using the received event and the information acquired from each management server, and the action content and the request destination even if the operation is changed. It is possible to respond to changes in operation without changing the definition of.
[0059]
FIG. 16 is a diagram showing, as a sequence, the above-described processing from when the
[0060]
(1) Now, it is assumed that the
[0061]
(2) Upon receiving the event in sequence 1601, the
[0062]
(3) The business group management unit 301 of the business
[0063]
(4) The
[0064]
In the example described with reference to FIG. 16, the event transmission source is described as being the
[0065]
Each processing in the above-described embodiment of the present invention can be configured as a processing program, and this processing program is stored in a recording medium such as HD, DAT, FD, MO, DVD-ROM, CD-ROM, and provided. can do.
[0066]
According to the above-described embodiment of the present invention, even when basic information such as addition of a host name or business is changed, a plurality of servers can be integrated and managed without requiring operation definition change. Therefore, it is not necessary for the system administrator to change the operation definition, and the amount of work can be reduced.
[0067]
In addition, when an event such as a shortage of machine resources occurs, the control server that integrates and manages multiple servers acquires groups from the defined group information acquisition destination, instead of one basic information. It is possible to acquire a collection of basic information. Thus, the embodiment of the present invention can identify basic information in groups only by changing information included in a group even if basic information such as addition of a business execution server or business is changed. This eliminates the need to change the operation definition.
[0068]
【The invention's effect】
As described above, according to the present invention, even when basic information such as addition of a host name or business is changed, a plurality of computers can be integrated and managed without the need to change the operation definition. Thus, the amount of work for the system administrator to change the operation definition can be reduced.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a computer system in which a plurality of computers connected to a network are integrated and managed by applying an embodiment of the present invention.
FIG. 2 is a block diagram showing a functional configuration of a grouping control server.
FIG. 3 is a block diagram illustrating a functional configuration of a business operation management server.
FIG. 4 is a block diagram showing a functional configuration of a network management server.
FIG. 5 is a block diagram showing a functional configuration of a performance management server.
FIG. 6 is a block diagram showing a functional configuration of a business execution server.
FIG. 7 is a diagram illustrating a configuration of event information transmitted by an event transmission unit in each server and received by an event reception unit of the grouping management server.
FIG. 8 is a diagram illustrating the configuration of a grouping definition table in which server names for grouping inquiries by the grouping control server are defined.
FIG. 9 is a diagram illustrating a configuration of a business management table that defines a server on which a business operation management server executes and monitors a business.
FIG. 10 is a diagram illustrating the configuration of a network management table that defines networks monitored by a network management server.
FIG. 11 is a diagram for explaining a configuration of a performance management table that defines servers and performances to be monitored by a performance management server;
FIG. 12 is a diagram illustrating the configuration of an action definition table that defines a program that instructs execution in response to an event received by a grouping control server.
FIG. 13 is a flowchart illustrating a processing operation from when an event is received by the grouping control server until an action is instructed.
FIG. 14 is a flowchart illustrating details of a processing operation for determining a group inquiry destination in the processing of Step 1302 of FIG. 13;
15 is a flowchart illustrating details of a processing operation for instructing an action to each server of a group in the processing of Step 1304 in FIG. 13;
FIG. 16 is a diagram illustrating, as a sequence, the above-described processing from when an event is received by the grouping control server until an action is instructed.
[Explanation of symbols]
101 Grouping control server
102 Business operation management server
103 Network management server
104 Performance server
105, 107 Business execution server
106, 108, 109 network
201 Event receiver
202 Group inquiry destination selection section
203 Group inquiry department
204 Action instruction section
205 Grouping definition table
206 Action definition table
301 Business Group Management Department
302 Business monitoring department
303, 403, 503 Event transmitter
304 Business management table
401 Network group management unit
402 Network monitoring unit
404 Network management table
501 Performance Group Management Department
502 Performance monitoring unit
504 Performance management table
601 Business execution department
602 action execution part
Claims (5)
制御計算機が、
前記業務実行計算機に対して、業務の監視、ネットワークの監視、業務実行計算機のパフォーマンスの監視を行う各管理計算機からの監視結果としてのイベント情報とその詳細情報とを受け、
イベント情報のオブジェクト種別に対応する前記業務実行計算機からなるグループの問い合わせ先の前記管理計算機を決定し、
決定したグループ問い合わせ先の前記管理計算機から問い合わせの結果として得られたグループの各前記業務実行計算機に対して、前記イベントに対応したアクションの実行を指示することを特徴とする計算機の運用管理方法。In the operation management method of a computer that integrates and manages a plurality of computers including business execution computers connected via a network,
The control computer
For the business execution computer , receiving event information and detailed information as a monitoring result from each management computer that performs business monitoring, network monitoring, and performance monitoring of the business execution computer,
Determine the management computer of the inquiry destination of the group consisting of the business execution computer corresponding to the object type of the event information,
A computer operation management method characterized by instructing each business execution computer of a group obtained as a result of an inquiry from the management computer of the determined group inquiry destination to execute an action corresponding to the event.
制御計算機が、
前記業務実行計算機に対して、業務の監視、ネットワークの監視、業務実行計算機のパフォーマンスの監視を行う各管理計算機からの監視結果としてのイベント情報とその詳細情報とを受け付けるイベント受信手段と、
イベント情報のオブジェクト種別に対応する前記業務実行計算機からなるグループの問い合わせ先の前記管理計算機を決定するグループ問い合わせ先選択手段と、
決定したグループ問い合わせ先の前記管理計算機に問い合わせを行うグループ問い合わせ手段と、
問い合わせの結果として得られたグループの各前記業務実行計算機に対して、前記イベントに対応したアクションの実行を指示するアクション指示手段とを備えたことを特徴とする計算機の運用管理装置。In a computer operation management device that integrates and manages multiple computers including business execution computers connected via a network,
The control computer
With respect to the job execution computer monitoring operations, and event receiving unit for receiving the monitoring of the network, the event information as the monitoring result from the management computer which monitors the performance of the job execution computer and its details,
Group inquiry destination selection means for determining the management computer of the inquiry destination of the group consisting of the business execution computer corresponding to the object type of the event information;
Group inquiry means for making an inquiry to the management computer of the determined group inquiry destination;
An operation management device for a computer, comprising: action instruction means for instructing execution of an action corresponding to the event to each of the business execution computers of the group obtained as a result of the inquiry.
前記業務実行計算機に対して、業務の監視、ネットワークの監視、業務実行計算機のパフォーマンスの監視を行う各管理計算機からの監視結果としてのイベント情報とその詳細情報とを受け付ける処理ステップと、
イベント情報のオブジェクト種別に対応する前記業務実行計算機からなるグループの問い合わせ先の前記管理計算機を決定する処理ステップと、
決定したグループ問い合わせ先の前記管理計算機に問い合わせを行う処理ステップと、 問い合わせの結果として得られたグループの各前記業務実行計算機に対して、前記イベントに対応したアクションの実行を指示する処理ステップとを有し、前記各処理ステップを前記制御計算機に実行させることを特徴とするプログラム。 A program to be executed by a control computer that integrates and manages a plurality of computers including business execution computers connected via a network,
With respect to the job execution computer monitor business, the processing step of accepting a monitoring network, the event information as the monitoring result from the management computer which monitors the performance of the job execution computer and its details,
A process step of determining the management computer of the inquiry destination of the group consisting of the business execution computer corresponding to the object type of the event information;
A processing step of inquiring the management computer of the determined group inquiry destination, and a processing step of instructing each business execution computer of the group obtained as a result of the inquiry to execute an action corresponding to the event. And a program for causing the control computer to execute each processing step.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003154891A JP3981342B2 (en) | 2003-05-30 | 2003-05-30 | Computer operation management method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003154891A JP3981342B2 (en) | 2003-05-30 | 2003-05-30 | Computer operation management method and apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004355501A JP2004355501A (en) | 2004-12-16 |
JP3981342B2 true JP3981342B2 (en) | 2007-09-26 |
Family
ID=34049420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003154891A Expired - Fee Related JP3981342B2 (en) | 2003-05-30 | 2003-05-30 | Computer operation management method and apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3981342B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007102283A (en) | 2005-09-30 | 2007-04-19 | Canon Inc | Information processing apparatus, information acquisition method, computer program and computer-readable storage medium |
CN109410070B (en) * | 2018-09-04 | 2023-10-31 | 中国平安人寿保险股份有限公司 | Nuclear protection data processing method and system |
-
2003
- 2003-05-30 JP JP2003154891A patent/JP3981342B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004355501A (en) | 2004-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7234073B1 (en) | System and methods for failover management of manageable entity agents | |
JP4606404B2 (en) | COMPUTER RESOURCE MANAGEMENT PROGRAM AND COMPUTER RESOURCE MANAGEMENT DEVICE | |
KR100629057B1 (en) | Remote dynamic configuration of a web server to facilitate capacity on demand | |
DE102004052270B4 (en) | Processing device management system | |
US7716373B2 (en) | Method, apparatus, and computer product for updating software | |
TWI224899B (en) | Dynamic binding and fail-over of comparable web service instances in a services grid | |
US8379538B2 (en) | Model-driven monitoring architecture | |
US7716319B2 (en) | Computer system and method for managing log information | |
JP2004227359A (en) | Operation management method for storage system based on policy | |
JP2004295811A (en) | Storage system trouble management method and device with job management function | |
JP2008287633A (en) | HBA information providing program, HBA information providing method, and HBA information providing apparatus | |
CN110213309B (en) | Binding relationship management method, device and storage medium | |
US20180176289A1 (en) | Information processing device, information processing system, computer-readable recording medium, and information processing method | |
EP3703342B1 (en) | Dynamic load balancing in network centric process control systems | |
JP2012079350A (en) | Content collection | |
JP2010128597A (en) | Information processor and method of operating the same | |
US9544371B1 (en) | Method to discover multiple paths to disk devices cluster wide | |
US7103889B2 (en) | Method, system, and article of manufacture for agent processing | |
WO2006057040A1 (en) | Computer system and information processing method | |
JP2005196725A (en) | File migration method based on access history | |
JP3981342B2 (en) | Computer operation management method and apparatus | |
US7188343B2 (en) | Distributable multi-daemon configuration for multi-system management | |
CN117395236A (en) | HTTP proxy service method and system | |
JP2002251292A (en) | Job management system in client server system and job management method in client server system | |
JPH1027146A (en) | Communication processor and its method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050812 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061212 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070619 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070629 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100706 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100706 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110706 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110706 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120706 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130706 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |