JP5343863B2 - Monitoring manager, general manager and node monitoring system - Google Patents
Monitoring manager, general manager and node monitoring system Download PDFInfo
- Publication number
- JP5343863B2 JP5343863B2 JP2009553409A JP2009553409A JP5343863B2 JP 5343863 B2 JP5343863 B2 JP 5343863B2 JP 2009553409 A JP2009553409 A JP 2009553409A JP 2009553409 A JP2009553409 A JP 2009553409A JP 5343863 B2 JP5343863 B2 JP 5343863B2
- Authority
- JP
- Japan
- Prior art keywords
- node
- load information
- manager
- information
- monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012544 monitoring process Methods 0.000 title claims description 186
- 238000012545 processing Methods 0.000 claims description 252
- 238000000034 method Methods 0.000 claims description 48
- 238000004891 communication Methods 0.000 claims description 41
- 238000001514 detection method Methods 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 16
- 238000003672 processing method Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000004083 survival effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
- G06F11/3433—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment for load management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、ネットワークを介して複数のマネージャによりノードのデータ処理を監視するシステムに関し、ノードの監視マネージャ、統括マネージャ、およびこれらのデータ処理方法、これらの監視マネージャおよび統括マネージャのためのコンピュータプログラム、その監視マネージャと統括マネージャとがネットワークを介して接続しているノード監視システムに関する。 The present invention relates to a system for monitoring data processing of a node by a plurality of managers over a network, a node monitoring manager, a general manager, and a data processing method thereof, a computer program for these monitoring manager and general manager, The present invention relates to a node monitoring system in which the monitoring manager and the general manager are connected via a network.
近年の状態監視およびフェイルオーバーを行うシステムの一例が、特開2000−047894号公報に記載されている。特開2000−047894号公報に記載の状態監視およびフェイルオーバーを行うシステムは、監視エージェントを含むノードと、監視情報リポジトリを含む共有ディスクとから構成されている。このような構成を有する状態監視およびフェイルオーバーを行う従来のシステムは次のように動作する。 An example of a system that performs state monitoring and failover in recent years is described in Japanese Patent Application Laid-Open No. 2000-047894. A system for performing state monitoring and failover described in Japanese Patent Application Laid-Open No. 2000-047894 includes a node including a monitoring agent and a shared disk including a monitoring information repository. A conventional system that performs state monitoring and failover having such a configuration operates as follows.
監視エージェントが定期的に各ノードのCPUの負荷情報等を監視し、監視情報リポジトリに全てのノードの負荷情報を集約して保存する。そして、いずれかのノードに故障が発生した場合に負荷情報を利用してフェイルオーバー先のノードを決定する。 The monitoring agent periodically monitors the CPU load information of each node and collects and stores the load information of all nodes in the monitoring information repository. Then, when a failure occurs in any one of the nodes, the failover destination node is determined using the load information.
現在、上述のような状態監視およびフェイルオーバーを行うシステムとして、特開2006−079161号公報や特開平09−160884号公報に開示されたものがある。 Currently, there are systems disclosed in Japanese Patent Application Laid-Open No. 2006-079161 and Japanese Patent Application Laid-open No. 09-160884 as systems for performing state monitoring and failover as described above.
しかしながら、特開2000−047894号公報に記載の技術は、1つの監視マネージャの処理能力に対してノードの数が多すぎるため、複数の監視マネージャに処理を分割する場合に、以下の問題を有していた。 However, the technique described in Japanese Patent Laid-Open No. 2000-047894 has the following problems when the process is divided into a plurality of monitoring managers because the number of nodes is too large for the processing capacity of one monitoring manager. Was.
第1の問題点は、各ノードの負荷情報を各監視マネージャ間で共有するための通信を定期的に行なっていないと、フェイルオーバーに要する時間が長くなる可能性があるということである。その理由は、ノードに故障が発生した場合に、存在する全ての監視マネージャに対して負荷が小さいノードの存在を問い合わせる必要があるためである。 The first problem is that if the communication for sharing the load information of each node between the monitoring managers is not performed regularly, the time required for failover may be increased. The reason is that when a failure occurs in a node, it is necessary to inquire of all existing monitoring managers about the presence of a node with a low load.
第2の問題点は、故障発生時に各監視マネージャに問い合わせをしない場合には、ノードが正常に動作している間のネットワークの通信量が大きくなるということである。その理由は、各監視マネージャが管理しているノードのうち、負荷が小さいノードの情報を各監視マネージャ間で共有するための通信が定期的に発生するためである。 The second problem is that if the monitoring manager is not inquired when a failure occurs, the network traffic increases while the node is operating normally. The reason is that communication for sharing information on a node with a low load among nodes managed by each monitoring manager periodically occurs between the monitoring managers.
本発明は、複数の監視マネージャで複数のノードの処理を監視する場合においても、ネットワークの負荷を低減させつつ、ノードの故障時のフェイルオーバーに必要な処理時間を軽減することができる監視マネージャ、統括マネージャ、そのデータ処理方法、そのデータ処理装置のためのコンピュータプログラム、その監視システムを提供することを目的とする。 The present invention provides a monitoring manager capable of reducing the processing time required for failover in the event of a node failure while reducing the load on the network even when monitoring the processing of a plurality of nodes with a plurality of monitoring managers. It is an object to provide a general manager, a data processing method thereof, a computer program for the data processing device, and a monitoring system thereof.
上記目的を達成するために本発明は、
データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、当該ノードを識別するノード識別子とともに受け付ける受付手段と、
前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段とを有する。In order to achieve the above object, the present invention provides:
Receiving means for receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node;
Determining means for determining whether or not the load information received by the receiving means is equal to or greater than a predetermined threshold;
When the determination means determines that the load information is less than the threshold value, the determination means determines that the load information is less than the threshold value for a general manager connected to a plurality of monitoring managers via a network. Information communication means for associating and transmitting the determined load information and the node identifier received together with the load information by the accepting means;
また、ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信する受信手段と、
前記受信手段にて受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手段と、
前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手段と、
前記要求受付手段にて受け付けた要求に応じて、前記受信情報記憶手段に記憶された前記負荷情報と、前記所定の閾値とを比較する検索手段と、
前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手段とを有する。Further, the reception of the load information indicating the load of the node monitored by the first monitoring manager connected via the network in association with the node identifier for identifying the node from the first monitoring manager. Means,
Received information storage means for storing the load information and the node identifier received by the receiving means;
Request accepting means for accepting a judgment request as to whether or not there is the node having the load information satisfying a predetermined threshold from the second monitoring manager connected via the network;
In response to the request received by the request receiving means, search means for comparing the load information stored in the received information storage means with the predetermined threshold value;
Response communication means for transmitting the node identifier corresponding to the load information to the second monitoring manager when there is the load information satisfying the predetermined threshold.
また、ノードを監視している監視マネージャと、統括マネージャとをネットワークを介して接続しているノード監視システムであって、
前記監視マネージャは、
データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、当該ノードを識別するノード識別子とともに受け付ける受付手段と、
前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段とを有し、
前記統括マネージャは、
前記負荷情報を前記ノードごとに受信する受信手段と、
前記受信手段にて受信した前記負荷情報を、前記ノードを識別するノード識別子と対応づけて記憶する受信情報記憶手段とを有する。A node monitoring system in which a monitoring manager that monitors a node and a general manager are connected via a network,
The monitoring manager
Receiving means for receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node;
Determining means for determining whether or not the load information received by the receiving means is equal to or greater than a predetermined threshold;
When the determination means determines that the load information is less than the threshold value, the determination means determines that the load information is less than the threshold value for a general manager connected to a plurality of monitoring managers via a network. Information communication means for transmitting the determined load information in association with the node identifier received together with the load information by the receiving means;
The general manager is
Receiving means for receiving the load information for each node;
Receiving information storage means for storing the load information received by the receiving means in association with a node identifier for identifying the node;
また、データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、前記ノードを識別するノード識別子とともに受け付けるステップと、
受け付けた前記負荷情報が所定の閾値以上か否かを判断するステップと、
受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記閾値未満であると判断された前記負荷情報と、該負荷情報とともに受け付けた前記ノード識別子とを関連づけて送信するステップとを含む。A step of receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node;
Determining whether the received load information is greater than or equal to a predetermined threshold;
When it is determined that the received load information is less than the threshold value, the load information determined to be less than the threshold value for the general manager connected to a plurality of monitoring managers via a network; And a step of associating and transmitting the received node identifier together with the load information.
また、監視マネージャのためのコンピュータプログラムであって、
コンピュータに、
データ処理を実行するノードから前記データ処理の実行にかかるノードの負荷を示す負荷情報を、前記ノードを識別するノード識別子とともに受け付ける受付手順と、
前記ノードから受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手順と、
受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記負荷情報を前記ノード識別子と対応づけて送信する情報通信手順とを実行させる。A computer program for a monitoring manager,
On the computer,
A reception procedure for receiving load information indicating a load of a node related to execution of the data processing from a node executing the data processing together with a node identifier for identifying the node;
A determination procedure for determining whether the load information received from the node is greater than or equal to a predetermined threshold;
When it is determined that the received load information is less than the threshold value, information for transmitting the load information in association with the node identifier to a general manager connected to a plurality of monitoring managers via a network The communication procedure is executed.
また、ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信するステップと、
受信した前記負荷情報と前記ノード識別子とを記憶するステップと、
前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付けるステップと、
前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較するステップと、
前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信するステップとを含む。A step of receiving, from the first monitoring manager, load information indicating the load of the node monitored by the first monitoring manager connected via the network in association with a node identifier for identifying the node; When,
Storing the received load information and the node identifier;
Receiving a determination request as to whether or not there is the node having the load information satisfying a predetermined threshold from a second monitoring manager connected via the network;
In response to the request, comparing the stored load information with the predetermined threshold;
Transmitting the node identifier corresponding to the load information to the second monitoring manager when there is the load information satisfying the predetermined threshold.
また、統括マネージャのためのコンピュータプログラムであって、
コンピュータに、
ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信する受信手順と、
受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手順と、
前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手順と、
前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較する検索手順と、
前記所定の閾値を満たす前記負荷情報があった場合、該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手順とを実行させる。A computer program for the general manager,
On the computer,
A reception procedure for receiving, from the first monitoring manager, load information indicating the load of the node monitored by the first monitoring manager connected via the network in association with the node identifier for identifying the node; ,
A received information storage procedure for storing the received load information and the node identifier;
A request reception procedure for receiving a determination request as to whether or not there is the node having the load information satisfying a predetermined threshold from the second monitoring manager connected via the network;
A search procedure for comparing the stored load information with the predetermined threshold in response to the request;
When there is the load information satisfying the predetermined threshold, a response communication procedure for transmitting the node identifier corresponding to the load information to the second monitoring manager is executed.
なお、本発明の各種の構成要素は、その機能を実現するように形成されていればよく、例えば、所定の機能を発揮する専用のハードウェア、所定の機能がコンピュータプログラムにより付与された各マネージャ、コンピュータプログラムにより各マネージャに実現された所定の機能、これらの任意の組み合わせ、等として実現することができる。 The various components of the present invention need only be formed so as to realize their functions. For example, dedicated hardware that exhibits a predetermined function, each manager provided with a predetermined function by a computer program It can be realized as a predetermined function realized in each manager by a computer program, any combination thereof, or the like.
また、本発明の各種の構成要素は、個々に独立した存在である必要もなく、複数の構成要素が一個の部材として形成されていること、一つの構成要素が複数の部材で形成されていること、ある構成要素が他の構成要素の一部であること、ある構成要素の一部と他の構成要素の一部とが重複していること、等でよい。 In addition, the various components of the present invention do not have to be individually independent, a plurality of components are formed as a single member, and a single component is formed of a plurality of members. It may be that a certain component is a part of another component, a part of a certain component overlaps a part of another component, and the like.
また、本発明のデータ処理方法には複数の工程を順番に記載してあるが、その記載の順番は複数の工程を実行する順番を限定するものではない。このため、本発明のデータ処理方法を実施するときには、その複数の工程の順番は内容的に支障しない範囲で変更することができる。 Moreover, although the several process is described in order in the data processing method of this invention, the order of the description does not limit the order which performs a several process. For this reason, when implementing the data processing method of this invention, the order of the some process can be changed in the range which does not interfere in content.
また、本発明のデータ処理方法の複数の工程は個々に相違するタイミングで実行されることに限定されない。このため、ある工程の実行中に他の工程が発生すること、ある工程の実行タイミングと他の工程の実行タイミングとの一部ないし全部が重複していること、等でもよい。 Further, the plurality of steps of the data processing method of the present invention are not limited to being executed at different timings. For this reason, another process may occur during execution of a certain process, or a part or all of the execution timing of a certain process and the execution timing of another process may overlap.
また、本発明でいう監視マネージャおよび統括マネージャは、コンピュータプログラムを読み取って対応するデータ処理を実行できるように、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、I/F(Interface)ユニット、等の汎用デバイスで構築されたハードウェア、所定のデータ処理を実行するように構築された専用の論理回路、これらの組み合わせ、等として実施することができる。 In addition, the monitoring manager and the general manager according to the present invention can read a computer program and execute corresponding data processing, so that a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), an I It can be implemented as hardware constructed with a general-purpose device such as an / F (Interface) unit, a dedicated logic circuit constructed so as to execute predetermined data processing, a combination thereof, and the like.
本発明によれば、複数の監視マネージャで複数のノードの処理を監視する場合においても、ネットワークの負荷を低減させつつ、ノードの故障時のフェイルオーバーに必要な処理時間を軽減する。 According to the present invention, even when the processes of a plurality of nodes are monitored by a plurality of monitoring managers, the processing time required for failover in the event of a node failure is reduced while reducing the load on the network.
以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. In all the drawings, the same reference numerals are given to the same components, and the description will be omitted as appropriate.
(第1の実施形態)
図1は、本実施形態のノード監視システムの構成を説明する図である。(First embodiment)
FIG. 1 is a diagram illustrating the configuration of the node monitoring system according to the present embodiment.
本実施形態のノード監視システムは、図1に示すように、処理ノード2,3を監視している監視マネージャ1と、処理ノード5を監視している監視マネージャ4と、統括マネージャ6とをネットワーク1000を介して接続している。
As shown in FIG. 1, the node monitoring system according to this embodiment includes a
ネットワーク1000とは、監視マネージャ1,4と統括マネージャ6とのデータ通信を仲介できるものであればよく、有線、無線、これらの組み合わせでよい。
The
図2は、図1に示した監視マネージャ4の論理構造を示す模式的なブロック図である。
FIG. 2 is a schematic block diagram showing a logical structure of the
図1に示した監視マネージャ4は、図2に示すように、データ処理を監視する処理ノード5からデータ処理の実行にかかる負荷を示す負荷情報を、処理ノード5を識別するノード識別子とともに受け付ける受付部401と、受け付けた負荷情報が所定の閾値以上か否かを判断する判断部405と、判断部405において受け付けた負荷情報が閾値未満であると判断された場合、ネットワーク1000を介して監視マネージャ1,4と接続している統括マネージャ6に対して、所定の閾値未満であると判断された負荷情報と、この負荷情報とともに受付部401にて受け付けられたノード識別子とを関連づけて送信する情報通信部407と、ノード5の故障を検知するノード故障検知部409と、ノードにおけるデータ処理の実行を制御するノード制御部411と、ノード情報保持部403とを備える。ノード制御部411は、制御識別子で識別される。そのため、情報通信部407は、受け付けた負荷情報と、対応する処理ノード5を制御しているノード制御部411の制御識別子とを関連づけて送信してもよい。
As shown in FIG. 2, the
監視マネージャ4は、判断部405が処理ノード5から受け付けた負荷情報が所定の閾値以上と判断した場合は、処理を終了する。
When the
負荷情報とは、処理ノード2,3,5がデータ処理を実行する際、ハードウェアにかかる負荷を示す情報である。具体的には、負荷情報は、CPU、メモリ、ディスク容量等にかかる負荷を示す情報である。たとえば、CPUの負荷は種々の方法により算出されるが、たとえば、CPUの使用率(Processor/% Processor Time) およびCPUのIdle率(Processor/% Idle Time)から求めることができる。負荷情報を求める機能はノード自身に備えられている。
The load information is information indicating a load applied to hardware when the
図3は、図1に示した統括マネージャ6の論理構造を示す模式的なブロック図である。
FIG. 3 is a schematic block diagram showing a logical structure of the
図1に示した統括マネージャ6は、図3に示すように、ネットワーク1000を介して接続している監視マネージャ4が監視している処理ノード5の負荷を示す負荷情報を、監視マネージャ4から処理ノード5を識別するノード識別子と対応づけて受信する受信部601と、受信部601にて受信した負荷情報とノード識別子とを記憶する受信情報記憶部603と、ネットワーク1000を介して接続している監視マネージャ1から、所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付ける要求受付部605と、要求受付部602にて受け付けた要求に応じて、受信情報記憶部603に記憶された負荷情報と、所定の閾値とを比較する検索部607と、所定の閾値を満たす負荷情報があった場合、その負荷情報に対応するノード識別子を監視マネージャ1に送信する応答通信部609とを備える。
The
受信部601は、処理ノード2の負荷を示す負荷情報を、監視マネージャ1から処理ノード2を識別するノート識別子と対応づけて受信する。また、受信部601は、処理ノード3の負荷を示す負荷情報を、監視マネージャ1から処理ノード3を識別するノート識別子と対応づけて受信する。さらに、受信部601は、処理ノード5の負荷を示す負荷情報を、監視マネージャ4から処理ノード5を識別するノート識別子と対応づけて受信する。
The receiving
受信情報記憶部603は、受信部601にて受信した負荷情報とノード識別子とを記憶する。受信情報記憶部603のデータ構造は、ノード情報保持部103およびノード情報保持部403と同様な構成をしている。したがって、受信情報記憶部603もまた、後述する図5で示すデータ構造を有することができる。
The reception
要求受付部605は、監視マネージャ1から、所定の閾値とともに所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付ける。また、要求受付部605は、監視マネージャ4から、所定の閾値とともに所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付けてもよい。
The
検索部607は、要求受付部605にて受け付けた要求に応じて、受信情報記憶部603を参照し、記憶された負荷情報と、受け付けた所定の閾値とを比較する。
The
応答通信部609は、検索部607にて所定の閾値を満たす負荷情報が抽出された場合、その負荷情報に対応するノード識別子を、判断要求のあった監視マネージャに送信する。
When the
図4は、図1に示した監視マネージャ1の論理構造を示す模式的なブロック図である。
FIG. 4 is a schematic block diagram showing a logical structure of the
図1に示した監視マネージャ1は、図4に示すように、受付部101と、ノード情報保持部103と、判断部105と、情報通信部107と、ノード故障検知部109と、ノード制御部111とから構成されている。
As shown in FIG. 4, the
受付部101は、処理ノード2から処理ノード2の負荷情報を、処理ノード2を識別するノード識別子とともに受け付ける。また、受付部101は、処理ノード3から処理ノード3の負荷情報を、処理ノード3を識別するノード識別子とともに受け付ける。ノード識別子とは、処理ノード2,3を個々に識別する情報である。処理ノード2,3は、監視マネージャ1によってデータ処理が監視されている。負荷情報とは、処理ノードにおいて、データ処理の実行の結果消耗される計算機の資源量である。
The accepting
ノード情報保持部103は、受け付けた負荷情報をノード識別子と対応づけて保持する。
The node
図5は、図4に示したノード情報保持部103で保持されるデータ構造の一例である。
FIG. 5 shows an example of a data structure held by the node
図5中、「処理ノード名」とは、ノード識別子の一例である。 In FIG. 5, “processing node name” is an example of a node identifier.
ノード制御部111は、処理ノード2,3の処理を制御する。ノード制御部111は、外部からの命令に従って処理ノード2,3の起動終了制御を行う。図5に示すように、ノード情報保持部103は、各ノード制御部111を識別して処理ノードおよびその負荷情報と関連づけて保持している。なお、図5では、「処理ノード制御手段名」が制御識別子の役割を果たしている。
The
判断部105は、処理ノード5から受け付けた負荷情報が所定の閾値以上か否かを判断する。閾値とは、閾値を定める手段にはあらかじめ固定の値を利用する手段と、動的に指定する手段とがあるが、本実施形態では、あらかじめ固定の値が決められているとする。また、フェイルオーバーで利用する処理ノードには負荷情報が閾値よりも小さいという条件がある。
The
情報通信部107は、受け付けた負荷情報が閾値未満であると判断された場合、統括マネージャ6に、負荷情報をノード識別子と対応づけて送信する。
When it is determined that the received load information is less than the threshold, the
ノード故障検知部109は、処理ノード2、3の故障を検知する。
The node
図4に示した監視マネージャ1と図2に示した監視マネージャ4とは、受付部101が受付部401と、ノード情報保持部103がノード情報保持部403と、判断部105が判断部405と、情報通信部107が情報通信部407と、ノード故障検知部109がノード故障検知部409と、ノード制御部111がノード制御部411とにそれぞれ対応している。
The
ノード故障検知部109が監視する処理ノード2の故障を検知した場合、判断部105は、保持された負荷情報と、記憶された閾値とを比較する。ノード情報保持部403には、処理ノード2、3の負荷情報が保持されており、たとえば、処理ノード2の負荷情報は80%、処理ノード3の処理情報は70%とする。閾値を50%とすると、保持されたすべての処理ノードの負荷情報が閾値以上と判断される。このとき、情報通信部107が、所定の閾値(50%)を送信するとともに、送信する所定の閾値(50%)を満たす負荷情報を有するノードがあるか否かの判断要求を統括マネージャ6に送信する。
When the failure of the
一方、保持された処理ノード3の負荷情報が閾値未満と判断された場合、ノード制御部111は処理ノード2で実行されていたデータ処理を処理ノード3に実行させる。
On the other hand, when it is determined that the stored load information of the
統括マネージャ6の受信情報記憶部603は、監視マネージャ4から受け付けた負荷情報をノード識別子と対応づけて保持する。応答通信部609は、要求に応じて、保持された負荷情報と、所定の閾値とを比較して、所定の閾値を満たす負荷情報があった場合、対応するノード識別子を監視マネージャ1に送信する。
The reception
監視マネージャ1の受付部101が、統括マネージャ6からノード識別子を受信すると、ノード制御部111は、ノード故障検知部109による命令によって、ノード故障検知部109にて故障を検出した処理ノード2のデータ処理を、受け付けたノード識別子に対応する処理ノード5に実行させる。
When the
監視マネージャ1は、ノード故障検知部109が一のノードの故障を検知した場合、判断部105は、保持された負荷情報と、閾値とを比較する。保持されたすべての負荷情報が閾値以上と判断された場合、情報通信部107は、閾値を送信して、統括マネージャ6に閾値を満たす他のノードの負荷情報を問い合わせる。なお、閾値がシステム全体で固定であれば閾値自体は送信しなくてよい。
When the node
一方、保持されたいずれかの負荷情報が閾値未満であると判断された場合、閾値未満と判断された他のノードの閾値に、故障を検知した一のノードで実行されているデータ処理を実行させる。 On the other hand, if it is determined that any of the stored load information is less than the threshold value, the data processing that is being executed on the one node that detected the failure is executed on the threshold value of the other node determined to be less than the threshold value. Let
上述のような監視マネージャの各部は、必要により各種のハードウェアを利用して実現される。しかし、監視マネージャが実装されているコンピュータプログラムに対応して機能することにより実現されている。 Each part of the monitoring manager as described above is realized by using various kinds of hardware as necessary. However, it is realized by functioning in correspondence with a computer program in which the monitoring manager is installed.
このようなコンピュータプログラムは、例えば、データ処理を実行するノードからデータ処理の実行にかかるノードの負荷を示す負荷情報を、ノードを識別するノード識別子とともに受け付ける受付処理、ノードから受け付けた負荷情報が所定の閾値以上か否かを判断する判断処理、受け付けた負荷情報が閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに、負荷情報をノード識別子と対応づけて送信する情報通信処理、等の処理動作をCPU等に実行させるためのソフトウェアとしてRAM等の情報記憶媒体に格納されている。 Such a computer program is, for example, a receiving process that receives load information indicating a load of a node related to execution of data processing from a node that executes data processing together with a node identifier that identifies the node, and load information received from the node is predetermined. If it is determined that the received load information is less than the threshold value, the load information is sent to the general manager connected to a plurality of monitoring managers via the network as node identifiers. It is stored in an information storage medium such as a RAM as software for causing a CPU or the like to execute processing operations such as information communication processing to be transmitted in association with each other.
また、上述のような統括マネージャの各部は、必要により各種のハードウェアを利用して実現される。しかし、統括マネージャが実装されているコンピュータプログラムに対応して機能することにより実現されている。 Each unit of the general manager as described above is realized by using various kinds of hardware as necessary. However, it is realized by functioning corresponding to the computer program in which the general manager is installed.
このようなコンピュータプログラムは、例えば、ネットワークを介して接続している第一および第二の監視マネージャが監視しているノードの負荷を示す負荷情報を、第一の監視マネージャからノードを識別するノード識別子と対応づけて受信する受信処理、受信した負荷情報とノード識別子とを記憶する受信情報記憶処理、第二の監視マネージャから、所定の閾値を満たす負荷情報を有するノードがあるか否かの判断要求を受け付ける要求受付処理、要求に応じて、記憶された負荷情報と、所定の閾値とを比較する検索処理、所定の閾値を満たす負荷情報があった場合、その負荷情報に対応するノード識別子を第二の監視マネージャに送信する応答通信処理、等の処理動作をCPU等に実行させるためのソフトウェアとしてRAM等の情報記憶媒体に格納されている。 Such a computer program is, for example, a node that identifies load information indicating the load of a node monitored by the first and second monitoring managers connected via a network and identifies the node from the first monitoring manager. A reception process that is received in association with an identifier, a reception information storage process that stores received load information and a node identifier, and a determination as to whether there is a node having load information that satisfies a predetermined threshold from the second monitoring manager A request acceptance process for accepting a request, a search process for comparing stored load information with a predetermined threshold in response to the request, and load information satisfying the predetermined threshold, if there is a load identifier that corresponds to the load information, Information such as RAM as software for causing the CPU or the like to execute processing operations such as response communication processing transmitted to the second monitoring manager Stored in 憶媒 body.
以下、本実施形態のノード監視システムについてより詳細に説明する。 Hereinafter, the node monitoring system of this embodiment will be described in more detail.
図6は、実施の形態に係るノード監視システムの構成を説明する図である。 FIG. 6 is a diagram illustrating the configuration of the node monitoring system according to the embodiment.
図6を参照すると、監視マネージャ1と、監視マネージャ1の監視対象である処理ノード2,3と、監視マネージャ1と同じ構成である監視マネージャ4と、監視マネージャ4の監視対象である処理ノード5と、統括マネージャ6とから構成される。監視マネージャ1は処理ノード制御手段11(ノード制御部111に対応)とノード情報保存手段12(ノード情報保持部103に対応)とノード故障検知手段13(ノード故障検知部109に対応)を含む。監視マネージャ4は処理ノード制御手段41(ノード制御部411に対応)とノード情報保存手段42(ノード情報保持部403に対応)とノード故障検知手段43(ノード故障検知部409に対応)とを含む。統括マネージャ6はノード情報保存手段61(受信情報記憶部603に対応)を含む。
Referring to FIG. 6, the
これらの手段はそれぞれ概略次のように動作する。 Each of these means generally operates as follows.
処理ノード2と処理ノード3と処理ノード5はそれぞれを制御するノード制御部111,411により決められた処理を実行する。
The
ノード制御部111は、外部からの命令に従い処理ノード2,3の起動終了制御を行う。
The
ノード情報保持部103は、定期的または任意のタイミングで処理ノード2,3の負荷情報を取得して保存する。各処理ノードの負荷が閾値よりも小さい場合はノード情報保存手段61に同一の負荷情報を送信する。
The node
また、ノード情報保持部103は、ノード故障検知部109からの問い合わせに従い、負荷が閾値よりも小さい処理ノードが存在する場合はその処理ノードの情報を返す。
Further, in response to the inquiry from the node
ノード故障検知部109は、処理ノード2,3を監視して、どちらかの処理ノードに故障が発生した場合にノード情報保持部103に問い合わせを行う。ノード情報保持部103に負荷が閾値よりも小さい処理ノードの情報が存在する場合には、その処理ノードで故障が発生した処理ノードで実行していた処理を続行するようにノード制御部111に命令する。ノード故障検知部109は、ノード情報保持部103に問い合わせた結果、負荷が閾値よりも小さい処理ノードが存在しない場合に、受信情報記憶部603に問い合わせを行う。負荷が閾値よりも小さい処理ノードが存在する場合は、その処理ノードを監視している監視マネージャに含まれる処理ノード制御手段に対して、その処理ノードで故障が発生した処理ノードで実行していた処理を続行するように命令する。
The node
監視マネージャ4と、監視マネージャ4に含まれるノード制御部411と、ノード情報保持部403と、ノード故障検知部409とは、それぞれ監視マネージャ1と、ノード制御部111と、ノード情報保持部103と、ノード故障検知部109と同じ動作をする。
The
受信情報記憶部603は、各監視マネージャ内に含まれるノード情報保持部103,403から送信された処理ノードの負荷情報を保存し、各監視マネージャ内のノード故障検知部109,409から問い合わせがあった場合に、負荷が閾値よりも低い処理ノードの情報を問い合わせ元のノード故障検知部109,409に送信する。
The reception
次に、図7及び図8のフローチャートを参照して本実施の形態のデータ処理方法について詳細に説明する。 Next, the data processing method of this embodiment will be described in detail with reference to the flowcharts of FIGS.
図7のフローチャートでは、処理ノード5の負荷情報を統括マネージャ6に含まれるノード情報保存手段61に通知するまでの処理を表している。図8のフローチャートでは、処理ノード2に故障が発生した場合にフェイルオーバーして処理を続行させるまでの処理ノードを特定するまでの処理を表している。
In the flowchart of FIG. 7, the processing until the load information of the
図7は、本実施形態の監視マネージャ4のデータ処理方法について説明するフローチャートである。
FIG. 7 is a flowchart for explaining the data processing method of the
処理ノード5は、ノード情報保持部403に対して処理ノード5の負荷情報を送信する(ステップS1)。次に、ノード情報保持部403は、処理ノード5の負荷情報を内部に保存する(ステップS2)。さらに、ノード情報保持部403は処理ノード5の負荷情報が閾値よりも小さいか否かを判断する(ステップS3)。処理ノード5の負荷情報が閾値以上の場合(ステップS3のNo)には処理を終了する(ステップS6)。
The
一方、処理ノード5の負荷情報が閾値未満の場合(ステップS3のYes)には、ノード情報保持部403は受信情報記憶部603に対して処理ノード5の負荷情報を送信する(ステップS4)。
On the other hand, when the load information of the
送信する負荷情報は、ノード名と、処理ノード制御手段名と、負荷情報とから構成される。 The load information to be transmitted includes a node name, a processing node control means name, and load information.
処理ノード5の負荷情報を受け取った受信情報記憶部603は、処理ノード5の負荷情報を内部に保存する(ステップS5)。
The reception
図8は、本実施形態の監視マネージャ1のデータ処理方法について説明するフローチャートである。
FIG. 8 is a flowchart for explaining the data processing method of the
処理ノード2に故障が発生すると(ステップS7)、ノード故障検知部109は、処理ノード2の故障を検知する(ステップS8)。ノード故障検知部109は、判断部105を介してフェイルオーバーにより処理を続行させるために負荷が閾値未満の処理ノードが存在するか否かをノード情報保持部103に問い合わせる(ステップS9)。判断部105は、負荷が閾値よりも小さい処理ノードが存在するかどうかを判断する(ステップS10)。負荷情報が閾値よりも小さい処理ノード3が存在する場合(ステップS10のYes)、判断部105は、ノード故障検知部109に負荷が閾値よりも小さい処理ノード3の存在を通知する(ステップ16)。ノード故障検知部109は、処理ノード2で実行していた処理を処理ノード3で続行させるようにノード制御部111に命令する(ステップ17)。一方、ノード情報保持部103の中に負荷情報が閾値よりも小さい処理ノードの負荷情報が存在しない場合(ステップS10のNo)、判断部105は、情報通信部107を介して受信情報記憶部603に負荷情報が閾値より小さい処理ノードが存在するか否かを問い合わせる(ステップS11)。受信情報記憶部603に負荷情報が閾値未満の処理ノードの負荷情報が存在しない場合(ステップS12のNo)、負荷情報が閾値よりも小さい処理ノードを利用したフェイルオーバーをあきらめる(ステップS15)。受信情報記憶部603に負荷情報が閾値よりも小さい処理ノード5の負荷情報が存在する場合(ステップS12のYes)、検索部607は、受信情報記憶部603から負荷情報が閾値よりも小さい処理ノード5のノード識別子と処理ノード5を制御する処理ノード制御手段41とを抽出し、応答通信部609から受付部101に処理ノード5の存在を通知する(ステップS13)。最後に、ノード故障検知部109は処理ノード2で実行していた処理を処理ノード5で続行するようにノード制御部411に対して命令する(ステップS14)。
When a failure occurs in the processing node 2 (step S7), the node
次に、本実施形態のデータ処理方法の動作をさらに具体的に説明する。 Next, the operation of the data processing method of this embodiment will be described more specifically.
図1に示すように、本実施例では監視マネージャ1と、監視マネージャ4と、統括マネージャ6がネットワーク1000により結合しており、監視マネージャ1は処理ノード2と処理ノード3を監視し、監視マネージャ4は処理ノード5を監視している。
As shown in FIG. 1, in this embodiment, a
監視マネージャ1,4と統括マネージャ6とはネットワークで接続されたコンピュータであり、処理ノード2,3,5はそれぞれ任意のプログラムをノード制御部111またはノード制御部411の命令に従って実行することができる。
The
処理の流れは負荷情報を収集する処理と処理ノードに故障が発生した場合の処理に分けられる。まず初めに負荷情報を収集する処理について説明する。 The process flow is divided into a process for collecting load information and a process when a failure occurs in a processing node. First, processing for collecting load information will be described.
ノード情報保持部103には定期的に処理ノード2および処理ノード3から各処理ノードの負荷情報が送信される。負荷情報の送信には各処理ノード内で動作するエージェント機能から一定の間隔で送信される場合や、一定の間隔で各処理ノードに対してノード情報保持部103から問い合わせを行う場合がある。同様にノード情報保持部403には定期的に処理ノード5の負荷情報が送信される。
The node
ノード情報保持部103,403では、受信した監視対象のノードの負荷情報を内部に保存する。ノード情報保持部103、403の内部に保存する情報には、処理ノードを一意に認識するためのノード識別子と、処理ノードの制御を行う処理ノード制御手段名と、実際の処理ノードの負荷となる負荷情報が少なくとも含まれる。
The node
ノード情報保持部103,403はそれぞれ受信した負荷情報が何らかの手段により定められた閾値よりも大きいか小さいかを判断し、負荷情報が閾値よりも小さい場合はその処理ノードの情報を統括マネージャ6に含まれる受信情報記憶部603に送信する。閾値を定める手段にはあらかじめ固定の値を利用する手段と、動的に指定する手段とがありうる。例えば、閾値を50%とした場合に、各処理ノードの負荷情報が図5に示したとおりだとすると、処理ノード5の情報のみが統括マネージャ6に送信される。
Each of the node
受信部601は、受信した各処理ノードの負荷情報を受信情報記憶部603に内部に保存する。ここまでの処理により受信情報記憶部603は全ての監視マネージャが監視している全ての処理ノードのうち、負荷情報が閾値よりも小さい全ての処理ノードの情報を内部に保存することができ、各監視マネージャ1,4内のノード情報保持部103,403には各監視マネージャ1,4が監視対象としている処理ノードの内、負荷情報が閾値よりも小さい全ての処理ノードの負荷情報を保存することができる。
The
つづいて処理ノード2に故障が発生した場合の処理を説明する。
Next, processing when a failure occurs in the
処理ノード2に故障が発生すると、処理ノード2を監視する監視マネージャ1に含まれるノード故障検知部109が故障を検知する。故障を検知するには、定期的に問い合わせを行い、一定時間以内に反応が無いことで故障を検知する方法と、処理ノード2から一定の間隔で生存信号をノード故障検知部109に対して送信し、ノード故障検知部109が前の生存信号を受信してから一定以上の時間を待っても次の生存信号を受信できないことで故障を検知する方法などがある。ノード故障検知部109は、処理ノード2の故障を検知すると、フェイルオーバーを行い処理ノード2で実行していた処理を続行するための、別の処理ノードを探す。
When a failure occurs in the
フェイルオーバーで利用する処理ノードには負荷情報が閾値よりも小さいという条件があり、まずはノード故障検知部109が含まれる監視マネージャ1内に存在するノード情報保持部103に対して負荷情報が閾値よりも小さい処理ノードが存在するか問い合わせる。
There is a condition that the load information is smaller than the threshold value for the processing node used in the failover. First, the load information is less than the threshold value for the node
閾値が50%であり、各処理ノードの負荷情報が図5に示したとおりの場合には、ノード情報保持部103には条件を満たす処理ノードの情報が含まれていないこととなる。そのため、フェイルオーバー可能な処理ノードが存在しないという情報が判断部105に送出される。
When the threshold value is 50% and the load information of each processing node is as shown in FIG. 5, the node
判断部105は、ノード情報保持部103にフェイルオーバー可能な処理ノードが存在しないことを知ると、続いて情報通信部107を介し、上位の統括マネージャ6に対して前出の条件を満たす処理ノードが存在するかを問い合わせる。
When determining that the node
すると、条件を満たす処理ノード5の負荷情報が受信情報記憶部603の中に存在するため、受信情報記憶部603は処理ノード5の情報と、処理ノード5を制御するノード制御部411の情報を応答通信部609を介して監視マネージャ1に送信する。
Then, since the load information of the
受付部101が統括マネージャ6の応答通信部609から受信した前出の情報により判断部105は処理ノード5を利用してフェイルオーバーすることを決定する。判断部105は、ノード故障検知部109を介して処理ノード5を制御するノード制御部411に対して、処理ノード5を利用して処理ノード2で実行していた処理を続行するように命令を出す。ノード制御部411は受信した命令に従い、処理ノード5で指定された処理を実行させる。
Based on the above-mentioned information received by the
以上の処理により処理を実行中の処理ノード2に故障が発生して、実行中の処理を続行できなくなった場合に、処理ノード5を利用してその処理を続行できるようになる。
If a failure occurs in the
次に、本実施の形態の効果について説明する。 Next, the effect of this embodiment will be described.
本実施形態のノード監視システムによれば、データ処理を監視するノードから負荷情報をノード識別子とともに受け付け、受け付けた負荷情報が所定の閾値未満である場合、統括マネージャに記憶させる。これにより、ノードの負荷情報を監視し、負荷情報が閾値よりも小さいノードの情報のみを統括マネージャに管理させることができる。したがって、複数の監視マネージャで複数のノードの処理を監視する場合においても、ネットワークの負荷を低減させつつ、ノードの故障時のフェイルオーバーに必要な処理時間を軽減する。 According to the node monitoring system of this embodiment, load information is received together with a node identifier from a node that monitors data processing, and when the received load information is less than a predetermined threshold, it is stored in the overall manager. As a result, it is possible to monitor the load information of the node and allow the general manager to manage only the information of the node whose load information is smaller than the threshold value. Therefore, even when the processes of a plurality of nodes are monitored by a plurality of monitoring managers, the processing time required for failover in the event of a node failure is reduced while reducing the network load.
本実施の形態では、監視マネージャ1のノード情報保持部103または監視マネージャ4のノード情報保持部403と、統括マネージャ6の受信情報記憶部603とで、階層的に構成されている。したがって、下位階層のノード情報保持部103,403で各監視マネージャ1,4が監視している処理ノードの負荷情報のみを管理し、上位階層の受信情報記憶部603でシステム全体の負荷情報のうち負荷情報が閾値よりも小さい処理ノードの負荷情報を管理することができる。よって、フェイルオーバー時の問い合わせ回数が最大2回までにしながら、処理を続行させる処理ノードを特定することができる。
In this embodiment, the node
(第2の実施形態)
次に、本発明の第2の実施形態について図面を参照して詳細に説明する。(Second Embodiment)
Next, a second embodiment of the present invention will be described in detail with reference to the drawings.
図9は、第2の実施形態のノード監視システムの構成を説明する図である。 FIG. 9 is a diagram illustrating the configuration of the node monitoring system according to the second embodiment.
本発明の第2の発明を実施するための最良の形態は、監視マネージャ4の監視対象となる処理ノードに処理ノード7が追加されていることが第1の実施形態と異なり、その他の構成要素については第1の実施の形態と同様である。第1の実施の形態と同様の構成要素については図1と同一の符号を付し、詳細な説明を省略する。
The best mode for carrying out the second invention of the present invention is different from the first embodiment in that the
本実施形態において、ノード情報保存手段12(図4のノード情報保持部103に対応)は、ノードの属性を示す属性情報としてノードグループ名と、ノードの識別子としてノード識別子とを対応づけて記憶する。情報通信部107は、受け付けた負荷情報と、対応する属性情報とを対応づけて送信する。
In the present embodiment, the node information storage unit 12 (corresponding to the node
第2の実施の形態の全体の動作については、図8に示した負荷情報の構成にノードグループ名が追加されていることのみが第1の実施の形態と異なり、その他の動作内容については第1の実施の形態と同様である。第1の実施の形態と同様の動作については、図7のフローチャート、図8のフローチャートと同一の符号を付し、第1の実施の形態と同一の動作詳細な説明を省略する。 The overall operation of the second embodiment is different from the first embodiment only in that the node group name is added to the configuration of the load information shown in FIG. This is the same as the first embodiment. About the operation | movement similar to 1st Embodiment, the code | symbol same as the flowchart of FIG. 7 and the flowchart of FIG. 8 is attached | subjected, and the operation | movement detailed description same as 1st Embodiment is abbreviate | omitted.
第2の実施の形態では各処理ノードの負荷情報をノード情報保存手段に保存する処理として、図7のフローチャートにおいて処理ノード5を処理ノード7で置き換えた処理が行われる。これにより、処理ノード5と処理ノード7の負荷情報が閾値よりも小さい場合、受信情報記憶部603には処理ノード5と処理ノード7の負荷情報が保存される。
In the second embodiment, as processing for storing the load information of each processing node in the node information storage unit, processing in which the
ノードグループ名とは、1つの装置を動作させるための複数のノードのグループや同一の特性をもつノードのグループの名称を示す。 The node group name indicates a name of a group of a plurality of nodes for operating one device or a group of nodes having the same characteristics.
図10は、受信情報記憶部603に保存されるデータ構造の一例である。
FIG. 10 is an example of a data structure stored in the reception
図10に示すように、負荷情報は、ノード識別子であるノード名と、制御識別子である処理ノード制御手段名と、属性情報であるノードグループ名と、負荷情報から構成される。 As shown in FIG. 10, the load information includes a node name that is a node identifier, a processing node control means name that is a control identifier, a node group name that is attribute information, and load information.
図11は、本実施形態におけるデータ処理方法を説明するフローチャートであり、処理ノード2に障害が発生した後の処理を示している。
FIG. 11 is a flowchart for explaining the data processing method in the present embodiment, and shows processing after a failure has occurred in the
図11のフローチャートではステップS9’と、ステップS11’と、ステップS13’と、ステップS16’が図8のフローチャートと異なり、そのほかのステップは図8に示した第1の実施の形態と同様である。 In the flowchart of FIG. 11, step S9 ′, step S11 ′, step S13 ′, and step S16 ′ are different from the flowchart of FIG. 8, and other steps are the same as those in the first embodiment shown in FIG. .
ステップS9’では、判断部105がノード情報保持部103に負荷情報が閾値よりも小さく、故障が発生した処理ノード2と同じノードグループ名である処理ノードの負荷情報が保存されているかを問い合わせる。
In step S <b> 9 ′, the
処理ノード3の情報が負荷情報が閾値よりも小さく、処理ノード2と同じノードグループ名であるという条件を満たす場合(ステップS10のYes)、ノード情報保持部103は処理ノード3の存在と処理ノード3を制御するノード制御部111を判断部105に通知する(ステップS16’)。
When the information of the
負荷情報が閾値よりも小さく、処理ノード2と同じノードグループ名であるという処理ノードの負荷情報がノード情報保持部103に保存されていない場合(ステップS10’のNo)、前記条件を満たす処理ノードが存在するかを、情報通信部107を介して統括マネージャ6に問い合わせる(ステップS11’)。
When the load information of the processing node that the load information is smaller than the threshold and has the same node group name as the
受信情報記憶部603に条件を満たす処理ノード7の負荷情報が保存されている場合、処理ノード7の存在と処理ノード7を制御するノード制御部411を監視マネージャ1に通知する(ステップS13’)。その他の処理は第1の実施の形態と同様であるので詳細な説明を省略する。
When the load information of the
次に、本発明を実施するための第2の実施の形態の効果について説明する。 Next, the effect of the second embodiment for carrying out the present invention will be described.
本発明を実施するための第2の実施の形態では、第1の実施の形態に対して、負荷情報に属性情報としてノードグループ名という要素が加えられている。したがって、負荷情報は閾値よりも小さいのに加えて、特定の処理を行うプログラムがインストールされているという条件を追加する。これにより、フェイルオーバーで処理を続行するために利用する処理ノードを特定することができる。 In the second embodiment for carrying out the present invention, an element called a node group name is added to the load information as attribute information, compared to the first embodiment. Therefore, in addition to the load information being smaller than the threshold value, a condition that a program for performing a specific process is installed is added. As a result, it is possible to specify a processing node to be used for continuing processing by failover.
以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記以外の様々な構成を採用することもできる。 As mentioned above, although embodiment of this invention was described with reference to drawings, these are the illustrations of this invention, Various structures other than the above are also employable.
たとえば、本発明は以下の構成も適用可能である。
(1)処理ノードの負荷情報の監視を行う監視マネージャであり、かつ、前記負荷情報を前記監視マネージャから受信する統括マネージャにより、処理ノードの制御を行う計算機監視システムのための監視マネージャであって、
処理ノードから負荷情報を受信する受信部と、
前記負荷情報が閾値よりも大きい場合に前記統括マネージャに対して前記負荷情報を送信しない送信部とを備えたことを特徴とする監視マネージャ。
(2)処理ノードに故障が発生した場合に故障を検知するノード故障検知手段と、
問い合わせに応じて負荷情報が閾値よりも小さいノード情報を送信するノード情報保存手段とを備えたことを特徴とする(1)記載の監視マネージャ。
(3)前記ノード情報保存手段において、
取り扱う負荷情報にノードを識別するための識別子と、
処理ノード制御手段を識別する識別子と、
負荷情報とを含むことを特徴とする(2)記載の監視マネージャ。
(4)前記ノード情報保存手段において、
取り扱う負荷情報にノードごとまたはプログラムごとのフェイルオーバーが可能かどうかを表わす識別子を備えたことを特徴とする(3)記載の監視マネージャ。
(5)下位の監視マネージャから通知された処理ノードの負荷情報を内部に保存し、
指定された条件を満たす処理ノードの存在の問い合わせを受けたときに対応する情報を返却するノード情報保存手段、を備えたことを特徴とする統括マネージャ。For example, the following configurations can be applied to the present invention.
(1) A monitoring manager for monitoring load information of a processing node, and a monitoring manager for a computer monitoring system that controls a processing node by a general manager that receives the load information from the monitoring manager. ,
A receiver for receiving load information from the processing node;
A monitoring manager comprising: a transmission unit that does not transmit the load information to the overall manager when the load information is greater than a threshold value.
(2) node failure detection means for detecting a failure when a failure occurs in the processing node;
The monitoring manager according to (1), further comprising: node information storing means for transmitting node information whose load information is smaller than a threshold value in response to an inquiry.
(3) In the node information storage means,
An identifier for identifying a node in the load information to be handled;
An identifier for identifying the processing node control means;
The monitoring manager according to (2), further comprising load information.
(4) In the node information storage means,
(3) The monitoring manager according to (3), wherein the load information to be handled includes an identifier indicating whether failover for each node or each program is possible.
(5) The load information of the processing node notified from the lower monitoring manager is stored internally,
A general manager comprising node information storage means for returning corresponding information when receiving an inquiry about the existence of a processing node that satisfies a specified condition.
なお、上記の構成は、(1)〜(4)と(5)を組み合わせたシステム、各方法およびプログラムとして、用いることができる。 In addition, said structure can be used as a system, each method, and program which combined (1)-(4) and (5).
上記の構成によれば、分散計算機環境における状態監視およびフェイルオーバーを行うシステムおよび方法が提供される。上記の発明は分散計算機システムに関し、特に大量の計算機を利用する場合における計算機の監視方法に関するものを提供することができる。 According to the above configuration, a system and method for performing state monitoring and failover in a distributed computer environment are provided. The above invention relates to a distributed computer system, and in particular, can provide a computer monitoring method when a large number of computers are used.
かかる構成により、複数の監視マネージャの上位に統括マネージャを配置して、監視マネージャが扱う各処理ノードの中から、負荷が閾値よりも小さい処理ノードの負荷情報のみを監視マネージャにも保存することができる。したがって、定常的なネットワーク負荷を低減することができる。また、実際に監視対象ノードに故障が発生して、フェイルオーバーを行う必要が発生した場合にも、高々2回の問い合わせのみでフェイルオーバーで利用する処理ノードを特定することができる。よってフェイルオーバーに必要な処理時間も低減する。 With such a configuration, it is possible to arrange a general manager above a plurality of monitoring managers and store only load information of processing nodes whose loads are smaller than a threshold among the processing nodes handled by the monitoring manager in the monitoring manager. it can. Therefore, a steady network load can be reduced. Further, even when a failure occurs in the monitoring target node and it is necessary to perform a failover, it is possible to specify a processing node to be used for the failover by only two inquiries at most. Therefore, the processing time required for failover is also reduced.
本実施の形態では監視マネージャや統括マネージャの各部がコンピュータプログラムにより各種機能として論理的に実現されることを例示した。しかし、このような各部の各々を固有のハードウェアとして形成することもでき、ソフトウェアとハードウェアとの組み合わせとして実現することもできる。 In the present embodiment, it has been exemplified that each part of the monitoring manager and the general manager is logically realized as various functions by a computer program. However, each of these units can be formed as unique hardware, or can be realized as a combination of software and hardware.
また、上記形態ではネットワークとして現状のインターネットを例示したが、これが次世代のインターネットであるNGN(Next Generation Network)でもよい。 Moreover, although the present Internet was illustrated as a network in the said form, this may be NGN (Next Generation Network) which is the next generation internet.
なお、当然ながら、上述した実施の形態および複数の変形例は、その内容が相反しない範囲で組み合わせることができる。また、上述した実施の形態および変形例では、各部の構造などを具体的に説明したが、その構造などは本願発明を満足する範囲で各種に変更することができる。 Needless to say, the above-described embodiment and a plurality of modifications can be combined within a range in which the contents do not conflict with each other. Further, in the above-described embodiments and modifications, the structure of each part has been specifically described, but the structure and the like can be changed in various ways within a range that satisfies the present invention.
以上、実施例を参照して本願発明を説明したが、本願発明は上記実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 While the present invention has been described with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
この出願は、2008年2月13日に出願された日本出願特願2008−032041を基礎とする優先権を主張し、その開示の全てをここに取り込む。 This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2008-032041 for which it applied on February 13, 2008, and takes in those the indications of all here.
Claims (10)
前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段と、
前記ノードの故障を検知するノード故障検知手段とを有し、
前記判断手段は、前記ノード故障検知手段が一のノードの故障を検知した場合、保持された前記負荷情報と、前記閾値とを比較し、保持されたすべての前記負荷情報が前記閾値以上か否かを判断し、
前記情報通信手段は、前記判断手段にて保持されたすべての前記負荷情報が前記閾値以上であると判断された場合、前記統括マネージャに前記閾値を満たす他のノードの前記負荷情報を問い合わせる監視マネージャ。 Receiving means for receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node;
Determining means for determining whether or not the load information received by the receiving means is equal to or greater than a predetermined threshold;
When the determination means determines that the load information is less than the threshold value, the determination means determines that the load information is less than the threshold value for a general manager connected to a plurality of monitoring managers via a network. Information communication means for transmitting the determined load information in association with the node identifier received together with the load information by the receiving means;
Node failure detection means for detecting a failure of the node;
When the node failure detection unit detects a failure of one node, the determination unit compares the stored load information with the threshold value, and determines whether all the stored load information is equal to or greater than the threshold value. Determine whether
The information communication means, when it is determined that all the load information held by the determination means is greater than or equal to the threshold, the monitoring manager that inquires the general manager about the load information of other nodes that satisfy the threshold .
前記ノードにおける前記データ処理の実行を制御し、制御識別子で識別されるノード制御手段を有し、
前記判断手段は、前記ノード故障検知手段が一のノードの故障を検知した場合、保持された前記負荷情報と、記憶された前記閾値とを比較し、保持されたいずれかの負荷情報が閾値未満であるか否かを判断し、
前記ノード制御手段は、前記判断手段にて保持されたいずれかの負荷情報が閾値未満であると判断された場合、閾値未満と判断された他のノードに、故障を検知した前記一のノードで実行されているデータ処理を実行させる監視マネージャ。 The monitoring manager according to claim 1,
Controlling the execution of the data processing in the node, comprising node control means identified by a control identifier;
When the node failure detection unit detects a failure of one node, the determination unit compares the stored load information with the stored threshold value, and any of the stored load information is less than the threshold value. Whether or not
When it is determined that any of the load information held by the determination unit is less than the threshold, the node control unit may detect other nodes determined to be less than the threshold as the one node that has detected the failure. A monitoring manager that performs the data processing being performed.
前記ノードの属性を示す属性情報と、前記ノードの識別子とを対応づけて記憶するノード情報保持手段を有し、
前記情報通信手段は、受け付けた前記負荷情報と、対応する前記属性情報とを対応づけて送信する監視マネージャ。 In the monitoring manager according to claim 1 or 2,
Node information holding means for storing attribute information indicating an attribute of the node and an identifier of the node in association with each other;
The information communication means is a monitoring manager that transmits the received load information and the corresponding attribute information in association with each other.
前記受信手段にて受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手段と、
前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手段と、
前記要求受付手段にて受け付けた要求に応じて、前記受信情報記憶手段に記憶された前記負荷情報と、前記所定の閾値とを比較する検索手段と、
前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手段とを有する統括マネージャ。 Receiving means for receiving, from the first monitoring manager, load information indicating the load of the node monitored by the first monitoring manager connected via the network in association with a node identifier for identifying the node; ,
Received information storage means for storing the load information and the node identifier received by the receiving means;
Request accepting means for accepting a judgment request as to whether or not there is the node having the load information satisfying a predetermined threshold from the second monitoring manager connected via the network;
In response to the request received by the request receiving means, search means for comparing the load information stored in the received information storage means with the predetermined threshold value;
A general manager comprising response communication means for transmitting the node identifier corresponding to the load information to the second monitoring manager when there is the load information satisfying the predetermined threshold.
前記監視マネージャは、
データ処理を実行するノードから、前記データ処理の実行にかかる負荷を示す負荷情報を、当該ノードを識別するノード識別子とともに受け付ける受付手段と、
前記受付手段にて受け付けた前記負荷情報が所定の閾値以上か否かを判断する判断手段と、
前記判断手段にて前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記判断手段にて前記閾値未満であると判断された前記負荷情報と、前記受付手段にて前記負荷情報とともに受け付けられた前記ノード識別子とを関連づけて送信する情報通信手段とを有し、
前記統括マネージャは、
前記負荷情報を前記ノードごとに受信する受信手段と、
前記受信手段にて受信した前記負荷情報を、前記ノードを識別するノード識別子と対応づけて記憶する受信情報記憶手段とを有し、
前記監視マネージャは、第一の監視マネージャと、第二の監視マネージャとからなり、
前記第一の監視マネージャは、
前記情報通信手段が、前記負荷情報を対応する前記ノード識別子とともに前記統括マネージャに送信し、
前記第二の監視マネージャは、
前記ノードの故障を検知するノード故障検知手段を有し、
前記判断手段が、前記ノード故障検知手段が監視するノードの故障を検知した場合、保持された前記負荷情報と、所定の閾値とを比較し、保持されたすべての前記負荷情報が前記閾値以上か否かを判断し、
前記情報通信手段が、前記判断手段にて保持されたすべての前記負荷情報が前記閾値以上であると判断された場合、前記閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を送信し、
前記統括マネージャは、
前記受信情報記憶手段が、前記第一の監視マネージャから受け付けた前記負荷情報をノード識別子と対応づけて保持し、
前記要求に応じて、前記受信情報記憶手段に保持された前記負荷情報と、前記所定の閾値とを比較して、前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手段とを有するノード監視システム。 A node monitoring system in which a monitoring manager that monitors a node and a general manager are connected via a network,
The monitoring manager
Receiving means for receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node;
Determining means for determining whether or not the load information received by the receiving means is equal to or greater than a predetermined threshold;
When the determination means determines that the load information is less than the threshold value, the determination means determines that the load information is less than the threshold value for a general manager connected to a plurality of monitoring managers via a network. Information communication means for transmitting the determined load information in association with the node identifier received together with the load information by the receiving means;
The general manager is
Receiving means for receiving the load information for each node;
Receiving information storage means for storing the load information received by the receiving means in association with a node identifier for identifying the node;
The monitoring manager comprises a first monitoring manager and a second monitoring manager,
The first monitoring manager is:
The information communication means transmits the load information together with the corresponding node identifier to the general manager,
The second monitoring manager is
A node failure detecting means for detecting a failure of the node;
When the determination unit detects a failure of the node monitored by the node failure detection unit, the stored load information is compared with a predetermined threshold, and all the stored load information is equal to or greater than the threshold. Determine whether or not
When the information communication unit determines that all the load information held by the determination unit is greater than or equal to the threshold value, the determination request whether or not there is the node having the load information that satisfies the threshold value Send
The general manager is
The reception information storage means holds the load information received from the first monitoring manager in association with a node identifier;
In response to the request, the load information held in the reception information storage means is compared with the predetermined threshold value, and if there is the load information satisfying the predetermined threshold value, the load information corresponds to the load information. A node monitoring system comprising response communication means for transmitting the node identifier to the second monitoring manager.
前記監視マネージャは、第一の監視マネージャと、第二の監視マネージャとからなり、
前記第一の監視マネージャは、
前記情報通信手段が、前記負荷情報を対応する前記ノード識別子とともに前記統括マネージャに送信し、
前記第二の監視マネージャは、
前記ノードの故障を検知するノード故障検知手段を有し、
前記判断手段が、前記ノード故障検知手段が監視するノードの故障を検知した場合、保持された前記負荷情報と、所定の閾値とを比較し、保持されたすべての前記負荷情報が前記閾値以上か否かを判断し、
前記情報通信手段が、前記判断手段にて保持されたすべての前記負荷情報が前記閾値以上であると判断された場合、前記閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を送信し、
前記統括マネージャは、
前記受信情報記憶手段が、前記第一の監視マネージャから受け付けた前記負荷情報をノード識別子と対応づけて保持し、
前記要求に応じて、前記受信情報記憶手段に保持された前記負荷情報と、前記所定の閾値とを比較して、前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手段とを有し、
前記第二の監視マネージャは、
前記受付手段が、前記統括マネージャから前記ノード識別子を受け付け、
前記ノード故障検知手段が故障を検出した前記ノードのデータ処理を、前記受付手段にて受け付けた前記ノード識別子に対応する前記ノードに実行させるノード制御手段を有するノード監視システム。 The node monitoring system according to claim 5 ,
The monitoring manager comprises a first monitoring manager and a second monitoring manager,
The first monitoring manager is:
The information communication means transmits the load information together with the corresponding node identifier to the general manager,
The second monitoring manager is
A node failure detecting means for detecting a failure of the node;
When the determination unit detects a failure of the node monitored by the node failure detection unit, the stored load information is compared with a predetermined threshold, and all the stored load information is equal to or greater than the threshold. Determine whether or not
When the information communication unit determines that all the load information held by the determination unit is greater than or equal to the threshold value, the determination request whether or not there is the node having the load information that satisfies the threshold value Send
The general manager is
The reception information storage means holds the load information received from the first monitoring manager in association with a node identifier;
In response to the request, the load information held in the reception information storage means is compared with the predetermined threshold value, and if there is the load information satisfying the predetermined threshold value, the load information corresponds to the load information. Response communication means for transmitting the node identifier to the second monitoring manager;
The second monitoring manager is
The accepting means accepts the node identifier from the general manager;
A node monitoring system comprising node control means for causing the node corresponding to the node identifier received by the receiving means to execute data processing of the node where the node failure detecting means has detected a failure.
受け付けた前記負荷情報が所定の閾値以上か否かを判断するステップと、
受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記閾値未満であると判断された前記負荷情報と、該負荷情報とともに受け付けた前記ノード識別子とを関連づけて送信するステップと、
前記ノードの故障を検知するステップと、
一のノードの故障を検知した場合、保持された前記負荷情報と、前記閾値とを比較し、保持されたすべての前記負荷情報が前記閾値以上か否かを判断するステップと、
保持されたすべての前記負荷情報が前記閾値以上であると判断された場合、前記統括マネージャに前記閾値を満たす他のノードの前記負荷情報を問い合わせるステップとを含む監視マネージャのデータ処理方法。 Receiving, from a node executing data processing, load information indicating a load required to execute the data processing together with a node identifier for identifying the node;
Determining whether the received load information is greater than or equal to a predetermined threshold;
When it is determined that the received load information is less than the threshold value, the load information determined to be less than the threshold value for the general manager connected to a plurality of monitoring managers via a network; Associating and transmitting the received node identifier together with the load information;
Detecting a failure of the node;
When a failure of one node is detected, comparing the stored load information with the threshold value, and determining whether or not all the stored load information is equal to or greater than the threshold value;
A query manager data processing method including a step of inquiring the overall manager of the load information of another node satisfying the threshold when it is determined that all of the stored load information is equal to or greater than the threshold.
コンピュータに、
データ処理を実行するノードから前記データ処理の実行にかかるノードの負荷を示す負荷情報を、前記ノードを識別するノード識別子とともに受け付ける受付手順と、
前記ノードから受け付けた前記負荷情報が所定の閾値以上か否かを判断する第1の判断手順と、
受け付けた前記負荷情報が前記閾値未満であると判断された場合、ネットワークを介して複数の監視マネージャと接続している統括マネージャに対して、前記負荷情報を前記ノード識別子と対応づけて送信する情報通信手順と、
前記ノードの故障を検知する故障検知手順と、
一のノードの故障を検知した場合、保持された前記負荷情報と、前記閾値とを比較し、保持されたすべての前記負荷情報が前記閾値以上か否かを判断する第2の判断手順と、
保持されたすべての前記負荷情報が前記閾値以上であると判断された場合、前記統括マネージャに前記閾値を満たす他のノードの前記負荷情報を問い合わせる問い合わせ手順とを実行させるためのコンピュータプログラム。 A computer program for a monitoring manager,
On the computer,
A reception procedure for receiving load information indicating a load of a node related to execution of the data processing from a node executing the data processing together with a node identifier for identifying the node;
A first determination procedure for determining whether or not the load information received from the node is equal to or greater than a predetermined threshold;
When it is determined that the received load information is less than the threshold value, information for transmitting the load information in association with the node identifier to a general manager connected to a plurality of monitoring managers via a network Communication procedure;
A failure detection procedure for detecting a failure of the node;
A second determination procedure for comparing, when the failure of one node is detected, comparing the stored load information with the threshold, and determining whether all the stored load information is equal to or greater than the threshold;
A computer program for causing the overall manager to execute an inquiry procedure for inquiring the load information of another node satisfying the threshold when it is determined that all the stored load information is equal to or greater than the threshold.
受信した前記負荷情報と前記ノード識別子とを記憶するステップと、
前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付けるステップと、
前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較するステップと、
前記所定の閾値を満たす前記負荷情報があった場合、当該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信するステップとを含む統括マネージャのデータ処理方法。 Receiving load information indicating a load of a node monitored by a first monitoring manager connected via a network in association with a node identifier identifying the node from the first monitoring manager;
Storing the received load information and the node identifier;
Receiving a determination request as to whether or not there is the node having the load information satisfying a predetermined threshold from a second monitoring manager connected via the network;
In response to the request, comparing the stored load information with the predetermined threshold;
A data processing method of a general manager, including the step of transmitting the node identifier corresponding to the load information to the second monitoring manager when there is the load information satisfying the predetermined threshold.
コンピュータに、
ネットワークを介して接続している第一の監視マネージャが監視しているノードの負荷を示す負荷情報を、前記第一の監視マネージャから前記ノードを識別するノード識別子と対応づけて受信する受信手順と、
受信した前記負荷情報と前記ノード識別子とを記憶する受信情報記憶手順と、
前記ネットワークを介して接続している第二の監視マネージャから、所定の閾値を満たす前記負荷情報を有する前記ノードがあるか否かの判断要求を受け付ける要求受付手順と、
前記要求に応じて、記憶された前記負荷情報と、前記所定の閾値とを比較する検索手順と、
前記所定の閾値を満たす前記負荷情報があった場合、該負荷情報に対応する前記ノード識別子を前記第二の監視マネージャに送信する応答通信手順とを実行させるためのコンピュータプログラム。 A computer program for a general manager,
On the computer,
A reception procedure for receiving, from the first monitoring manager, load information indicating the load of the node monitored by the first monitoring manager connected via the network in association with the node identifier for identifying the node; ,
A received information storage procedure for storing the received load information and the node identifier;
A request reception procedure for receiving a determination request as to whether or not there is the node having the load information satisfying a predetermined threshold from the second monitoring manager connected via the network;
A search procedure for comparing the stored load information with the predetermined threshold in response to the request;
A computer program for executing a response communication procedure for transmitting the node identifier corresponding to the load information to the second monitoring manager when there is the load information satisfying the predetermined threshold.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009553409A JP5343863B2 (en) | 2008-02-13 | 2009-02-06 | Monitoring manager, general manager and node monitoring system |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008032041 | 2008-02-13 | ||
JP2008032041 | 2008-02-13 | ||
JP2009553409A JP5343863B2 (en) | 2008-02-13 | 2009-02-06 | Monitoring manager, general manager and node monitoring system |
PCT/JP2009/052074 WO2009101908A1 (en) | 2008-02-13 | 2009-02-06 | Monitor manager, general manager, and node monitor system |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2009101908A1 JPWO2009101908A1 (en) | 2011-06-09 |
JP5343863B2 true JP5343863B2 (en) | 2013-11-13 |
Family
ID=40956939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009553409A Expired - Fee Related JP5343863B2 (en) | 2008-02-13 | 2009-02-06 | Monitoring manager, general manager and node monitoring system |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5343863B2 (en) |
WO (1) | WO2009101908A1 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5560641B2 (en) * | 2009-09-30 | 2014-07-30 | 富士通株式会社 | Data management apparatus, data management program, and data management method |
JP2011076512A (en) * | 2009-10-01 | 2011-04-14 | Hitachi Solutions Ltd | Integrated management system of job management server |
JP6015057B2 (en) * | 2012-03-28 | 2016-10-26 | 日本電気株式会社 | Distribution system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH088909A (en) * | 1994-06-20 | 1996-01-12 | Hitachi Ltd | Diagnostic and monitoring equipment for state of network system |
JP2000298637A (en) * | 1999-04-15 | 2000-10-24 | Nec Software Kyushu Ltd | System and method for load distribution and recording medium |
JP2004110318A (en) * | 2002-09-18 | 2004-04-08 | Nec Corp | Hierarchical distributed processing system and hierarchical distributed processing method |
JP2005182702A (en) * | 2003-12-24 | 2005-07-07 | Fujitsu Ltd | Access control system in ip network |
-
2009
- 2009-02-06 JP JP2009553409A patent/JP5343863B2/en not_active Expired - Fee Related
- 2009-02-06 WO PCT/JP2009/052074 patent/WO2009101908A1/en active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH088909A (en) * | 1994-06-20 | 1996-01-12 | Hitachi Ltd | Diagnostic and monitoring equipment for state of network system |
JP2000298637A (en) * | 1999-04-15 | 2000-10-24 | Nec Software Kyushu Ltd | System and method for load distribution and recording medium |
JP2004110318A (en) * | 2002-09-18 | 2004-04-08 | Nec Corp | Hierarchical distributed processing system and hierarchical distributed processing method |
JP2005182702A (en) * | 2003-12-24 | 2005-07-07 | Fujitsu Ltd | Access control system in ip network |
Also Published As
Publication number | Publication date |
---|---|
WO2009101908A1 (en) | 2009-08-20 |
JPWO2009101908A1 (en) | 2011-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7475127B2 (en) | Real composite objects for providing high availability of resources on networked systems | |
JP4920391B2 (en) | Computer system management method, management server, computer system and program | |
US7418627B2 (en) | Cluster system wherein failover reset signals are sent from nodes according to their priority | |
US7631076B2 (en) | Apparatus, system, and method for adaptive polling of monitored systems | |
US7676610B2 (en) | Device and method for optimization of target host device process handling according to the status and the priority of the target host device process | |
US20100036956A1 (en) | Load balancing system | |
WO2015169199A1 (en) | Anomaly recovery method for virtual machine in distributed environment | |
JP5343863B2 (en) | Monitoring manager, general manager and node monitoring system | |
US11212174B2 (en) | Network management device and network management method | |
JP2008060971A (en) | Information processing system, information processor, information processing method and program | |
JP2007328413A (en) | Method for distributing load | |
US7607051B2 (en) | Device and method for program correction by kernel-level hardware monitoring and correlating hardware trouble to a user program correction | |
JP2009271858A (en) | Computing system and program | |
US9842029B2 (en) | Electronic device, method and storage medium | |
US8352960B2 (en) | Limiting receipt of unsolicited events by a logical partition in a data storage system | |
US8036105B2 (en) | Monitoring a problem condition in a communications system | |
JP4408122B2 (en) | Computer system, computer system control method and computer control program | |
JP2010146215A (en) | Cluster storage device, cluster storage system, and method for controlling same | |
CN112564927B (en) | Self-adaptive resource multi-domain dynamic organization method | |
JP2005031892A (en) | Job execution system and execution control method | |
JP4703681B2 (en) | Cluster system and takeover node determination method | |
JP5449471B2 (en) | Method for synchronous processing of update processing for shared data, data sharing system, and data sharing program | |
US20070030813A1 (en) | Monitoring a problem condition in a communications protocol implementation | |
JPH09274583A (en) | Managing information storage device | |
KR101148364B1 (en) | A dynamic integration among heterogeneous middleware, memory management system and the method for controller in cyber-physical system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120113 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130716 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130729 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |