JP5285044B2 - Cluster system recovery method, server, and program - Google Patents
Cluster system recovery method, server, and program Download PDFInfo
- Publication number
- JP5285044B2 JP5285044B2 JP2010252890A JP2010252890A JP5285044B2 JP 5285044 B2 JP5285044 B2 JP 5285044B2 JP 2010252890 A JP2010252890 A JP 2010252890A JP 2010252890 A JP2010252890 A JP 2010252890A JP 5285044 B2 JP5285044 B2 JP 5285044B2
- Authority
- JP
- Japan
- Prior art keywords
- status
- failure
- machine
- state
- spare
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
本発明は、クラスタシステム復旧方法及びサーバ及びプログラムに係り、特に、複数のサーバシステムを連携して一つのシステムとして運用するシステムにおいて、障害発生したサーバの故障を検出し、復旧させるためのクラスタシステム復旧方法及びサーバ及びプログラムに関する。 The present invention relates to a cluster system recovery method, a server, and a program, and more particularly to a cluster system for detecting and recovering from a failure of a failed server in a system that operates a plurality of server systems in cooperation as a single system. The present invention relates to a recovery method, a server, and a program.
サービスの重要性が増すにつれ、ダウンタイムの少ないシステムの要求が高まっている。このため、複数のサーバで冗長構成されたクラスタシステムを構築し、何らかの故障が発生したときに自動的にサーバを切り替えることにより、サービスの継続を可能とするHeartbeatおよびPacemakerなどの高可用性クラスタソフトが開発されている(非特許文献1参照)。 As the importance of services increases, so does the demand for systems with low downtime. For this reason, a highly available cluster software such as Heartbeat and Pacemaker that enables continuation of services by building a redundant cluster system with multiple servers and automatically switching servers when some failure occurs. It has been developed (see Non-Patent Document 1).
高可用性クラスタソフトでは、サーバ上のリソース、ネットワーク、共有ディスク等を監視しており、サービス稼働中のサーバで故障を検知すると、予め待機しているサーバに切り替え、サービスを継続させる。 High-availability cluster software monitors resources, networks, shared disks, etc. on the server. If a failure is detected on a server that is in service, the server is switched to a standby server in advance and the service is continued.
図1に、高可用性クラスタソフトを用いたクラスタシステムの概略図を示す。クラスタシステムは、ネットワークに接続されている複数のサーバ(現用機及び予備機)と、これらの複数のサーバで共有して用いられる共有ディスクとを有する。 FIG. 1 shows a schematic diagram of a cluster system using high-availability cluster software. The cluster system includes a plurality of servers (active machine and spare machine) connected to a network and a shared disk that is shared and used by the plurality of servers.
現用機及び予備機は、オペレーティングシステム(OS)と、高可用性クラスタソフトと、サービスを提供するために必要な構成要素であるリソースとをそれぞれ有する。高可用性クラスタソフトは、現用機での故障の発生を検知し、故障が発生したときに自動的に予備機に切り替える。サーバにおけるサービスの稼働状態、リソースの稼働状態及び故障状態は、内蔵ディスクの状態管理情報記憶部に格納され、故障箇所等の詳細な情報は内蔵ディスクのログ記憶部に格納され、故障状態を含むサーバのクラスタ状態の管理情報は状態管理情報記憶部に格納される。 The active machine and the spare machine each have an operating system (OS), high-availability cluster software, and resources that are components necessary for providing a service. The high-availability cluster software detects the occurrence of a failure in the active machine and automatically switches to a spare machine when a failure occurs. The service operating status, resource operating status, and failure status of the server are stored in the internal disk status management information storage unit, and detailed information such as failure location is stored in the internal disk log storage unit, including failure status Server cluster state management information is stored in a state management information storage unit.
現用機及び予備機は、サービスLANと呼ばれるネットワークに接続されており、リソースによるサービスをクライアントに提供する。また、現用機及び予備機は、インターコネクトLANと呼ばれるネットワークに接続されており、サーバにおけるサービスの稼働状態、リソースの稼働状態、故障状態等の情報を交換する。更に、現用機及び予備機は、管理LANと呼ばれるネットワークに接続されており、保守端末からのコマンドを受け付けることができる。 The active machine and the spare machine are connected to a network called a service LAN, and provide services based on resources to clients. In addition, the current machine and the spare machine are connected to a network called an interconnect LAN, and exchange information such as service operating status, resource operating status, and fault status in the server. Furthermore, the current machine and the spare machine are connected to a network called a management LAN, and can accept commands from the maintenance terminal.
また、現用機及び予備機は、高可用性クラスタソフトに故障時に他サーバの電源を強制的に切断する強制電源断機能を含めることができる。強制電源断機能は、管理LANを経由して他サーバのハードウェア制御ボードに対して電源を切断する指示を送信することにより、他サーバの電源を切断する。 In addition, the active machine and the spare machine can include a forced power-off function for forcibly turning off the power of other servers when a failure occurs in the high-availability cluster software. The forced power-off function cuts off the power of the other server by sending an instruction to turn off the power to the hardware control board of the other server via the management LAN.
共有ディスクは、サービスの一貫性を保つために、サービス提供に用いられるデータを保存する記憶装置である。共有ディスクにより、現用機から予備機に切り替わった後も、同じデータを用いてサービスを継続できる。 The shared disk is a storage device that stores data used for service provision in order to maintain service consistency. With the shared disk, the service can be continued using the same data even after switching from the current machine to the spare machine.
このように、高可用性クラスタソフトでリソースの故障を監視しているため、リソース故障が発生した場合に、予備機でサービスを継続させることができる。予備機に系切り替えを行った後は、予備機でサービスが継続される(特許文献1参照)。 As described above, the failure of the resource is monitored by the high availability cluster software. Therefore, when a resource failure occurs, the service can be continued with the spare machine. After the system is switched to the spare machine, the service is continued on the spare machine (see Patent Document 1).
上記従来の技術は、高可用性クラスタソフトは、現用機での故障の発生を検知し、故障が発生したときに自動的に予備機に切り替えることができるが、これは、予備機側に故障が発生していないことが前提となる。例えば、図2に示すように、予備機側に内蔵ディスク故障、ネットワーク故障、共有ディスク故障の少なくともいずれか1つの故障が発生していても、現用機側が正常にサービスを稼動している場合には問題がないが、現用機側で何らかの障害が発生した場合に予備機側に系切り替えを行おうとしても、系切り替えを行うことができず、現用機は、当該現用機側で実施されている停止処理が正常に終了するのを待機している"SBY[遷移中]"という状態になってしまう。 In the above conventional technology, the high availability cluster software can detect the occurrence of a failure in the active machine and can automatically switch to the spare machine when a failure occurs. It is assumed that it has not occurred. For example, as shown in FIG. 2, when at least one of the internal disk failure, the network failure, and the shared disk failure has occurred on the spare device side, but the service is operating normally on the active device side. There is no problem, but if any failure occurs on the active machine side, even if you try to switch the system to the spare machine side, the system switchover cannot be performed, and the active machine is implemented on the active machine side. It will be in the state of "SBY [Transitioning]" waiting for the stop processing to finish normally.
また、図3に示すように、現用機または予備機のいずれかに強制電源断機能の故障が考えられる場合は、クラスタ・ソフトウェアの強制電源断機能が正常に実行できなくなるが、現用機のサービス稼動状況には影響はなく、系切り替え処理が発生したとしても予備機に切り替えることができる。しかし、系切り替え時にサービス停止に失敗した場合には、強制電源断機能が実行されず、現用機は上記と同様に"SBY[遷移中]"という状態になってしまうという問題がある。 In addition, as shown in FIG. 3, if there is a failure of the forced power-off function in either the active machine or the standby machine, the forced power-off function of the cluster software cannot be executed normally, but the service of the active machine There is no effect on the operating status, and even if a system switching process occurs, it can be switched to a spare machine. However, if the service stoppage fails during the system switchover, the forced power-off function is not executed, and there is a problem that the active machine enters a state of “SBY [in transit]” as described above.
本発明は、上記の点に鑑みなされたもので、クラスタシステムの現用機として動作するサーバが、故障等による系切り替えが発生したが、リソース停止失敗等により系切り替えが終了していない状態に陥ることを回避することが可能なクラスタシステム復旧方法及びサーバ及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and a server operating as an active machine of a cluster system is in a state where system switching has occurred due to a failure or the like, but system switching has not been completed due to a resource stop failure or the like. An object of the present invention is to provide a cluster system recovery method, server and program capable of avoiding this.
上記の目的を達成するために、本発明のクラスタシステム復旧方法(請求項1)は、故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成されるクラスタシステムで、該現用機がクラスタ構成に組み入れられ、該予備機がACTに遷移可能か不明な状態(SBY:online)におけるクラスタシステム復旧方法であって、
現用機の状態確認手段が、現用機の状態管理手段を介して状態管理情報記憶手段から故障状態情報を取得する故障状態取得ステップと、
故障状態情報が強制電源断機能の故障を示している場合には、予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力ステップと、
ACTへ遷移可能かどうかは不明な状態(SBY:online)の予備機側で保守端末から導通確認が指示されると、該予備機の導通確認手段が、現用機側のハードウェア制御手段に対して導通を確認し、導通が確認された場合には、該予備機側の強制電源断機能の故障として、該予備機の状態管理手段が状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、現用機からの系切り替えを可能とする状態(SBY:online)に遷移する故障回数クリアステップと、を有する。
In order to achieve the above object, a cluster system recovery method of the present invention (claim 1) includes failure monitoring means for monitoring a failure state, and a cluster indicating service operating states of active and standby devices based on the failure state. State management means for managing the state, and the status of the service in operation (ACT), the state that can be changed to ACT, or the state that can be changed to ACT is stored (SBY: online) and the cluster state and failure state information are stored. state management information storage means and the working machine, each containing a spare machine, and, in a cluster system constituted by the shared disk shared by the developing for machine and said spare machine, the developing for machine incorporated in a cluster configuration, the A cluster system recovery method in a state where it is unknown whether the spare machine can transition to ACT (SBY: online)
A fault status acquisition step in which the status check means of the active machine acquires fault status information from the status management information storage means via the status management means of the active machine;
If the failure status information indicates a failure of the forced power-off function, a failure of the forced power-off function on the spare unit side is suspected, so a forced power-off function error output step that outputs an error to the maintenance terminal,
When it is instructed by the maintenance terminal on the spare unit in an unknown state (SBY: online) whether the transition to ACT is possible or not, the continuity confirmation unit of the spare unit will instruct the hardware control unit on the active unit side. If the continuity is confirmed and the continuity is confirmed, a failure of the forced power-off function monitoring resource of the state management information storage means is detected as a failure of the forced power-off function of the spare machine. A failure count clearing step for transitioning to a state (SBY: online) that clears the count and enables system switching from the active machine.
また、本発明(請求項2)は、故障状態取得ステップにおいて取得した故障状態情報が、ネットワーク故障を示している場合には、予備機側の導通確認手段からルータまでの導通を確認し、導通が失敗した場合には、保守端末に対してエラー出力するネットワークエラー出力ステップを更に有する。 In the present invention (Claim 2), when the failure state information acquired in the failure state acquisition step indicates a network failure, the continuity from the continuity confirmation means on the spare unit side to the router is confirmed. In the case of failure, a network error output step of outputting an error to the maintenance terminal is further provided.
また、本発明(請求項3)は、故障状態取得ステップにおいて取得した故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、保守端末に対してエラー出力するディスクエラー出力ステップを更に有する。 Further, the present invention (Claim 3) is a disk error output step for outputting an error to the maintenance terminal when the failure state information acquired in the failure state acquisition step indicates a failure of the shared disk or the built-in disk. It has further.
本発明(請求項4)は、故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成され、該現用機がクラスタ構成に組み入れられ、該予備機がACTに遷移可能か不明な状態(SBY:online)にある場合のクラスタシステム復旧システムであって、
現用機は、
状態管理手段を介して状態管理情報記憶手段から故障状態情報を取得する故障状態取得手段と、
故障状態情報が強制電源断機能の故障を示している場合には、予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
を有し、
予備機は、
ACTへ遷移可能かどうかは不明な状態(SBY:online)であるとき、保守端末から導通確認が指示されると、現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、を有する。
The present invention (Claim 4) includes a failure monitoring unit for monitoring a failure state, a state management unit for managing a cluster state indicating a service operation state of the active machine and the spare unit based on the failure state, and a state during service operation (ACT), state management information storage means for storing cluster state and failure state information including a state that can be changed to ACT or whether it is possible to change to ACT (SBY: online) and a spare And a shared disk shared by the working machine and the spare machine, the working machine is incorporated into the cluster configuration , and it is unknown whether the spare machine can transition to ACT (SBY: online) If the cluster system recovery system,
The current machine is
Failure state acquisition means for acquiring failure state information from the state management information storage means via the state management means;
If the failure status information indicates a failure of the forced power-off function, a failure of the forced power-off function on the spare unit side is suspected, so a forced power-off function error output means that outputs an error to the maintenance terminal,
Have
The spare machine is
When it is in an unknown state (SBY: online) whether it is possible to transition to ACT, when continuity confirmation is instructed from the maintenance terminal, continuity confirmation means for confirming continuity to the hardware control means on the active machine side,
When continuity is confirmed by the continuity confirmation means, the number of failure of the forced power-off function monitoring resource of the state management information storage means is cleared as a failure of the forced power-off function on the spare machine side, and the system from the active machine Fault number clearing means for transitioning to a state (SBY: online) that enables switching.
また、本発明(請求項5)の現用機は、故障状態取得手段にて取得した故障状態情報が、ネットワーク故障を示している場合には、ルータまでの導通を確認するルータ導通手段と、
ルータ導通手段による導通が失敗した場合には、保守端末に対してエラー出力するネットワークエラー出力手段と、を更に有する。
In addition, the active machine of the present invention (Claim 5), when the failure state information acquired by the failure state acquisition means indicates a network failure, router conduction means for confirming conduction to the router,
Network error output means for outputting an error to the maintenance terminal when the connection by the router conduction means fails.
また、本発明(請求項6)の現用機は、故障状態取得手段にて取得した前記故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、前記保守端末に対してエラー出力するディスクエラー出力手段、を更に有する。 In addition, the working machine according to the present invention (Claim 6) has an error to the maintenance terminal when the failure status information acquired by the failure status acquisition means indicates a failure of the shared disk or the built-in disk. Disk error output means for outputting.
本発明(請求項7)は、故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成され、該現用機がクラスタ構成に組み入れられ、該予備機がACTへ遷移可能かどうかは不明な状態(SBY:online)にある場合に現用機として動作するサーバであって、
状態管理手段を介して故障状態情報を取得する故障状態取得手段と、
故障状態情報が強制電源断機能の故障を示している場合には、予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
故障状態取得手段にて取得した故障状態情報が、ネットワーク故障を示している場合には、ルータまでの導通を確認するルータ導通手段と、
ルータ導通手段による導通が失敗した場合には、保守端末に対してエラー出力するネットワークエラー出力手段と、
故障状態取得手段にて取得した故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、保守端末に対してエラー出力するディスクエラー出力手段と、を有する。
The present invention (Claim 7) includes failure monitoring means for monitoring a failure state, state management means for managing a cluster state indicating a service operation state of the active machine and the spare machine based on the failure state, and a state in which the service is in operation (ACT), state management information storage means for storing cluster state and failure state information including a state that can be changed to ACT or whether it is possible to change to ACT (SBY: online) and a spare And a shared disk shared by the working machine and the spare machine, the working machine is incorporated in the cluster configuration, and it is unknown whether the spare machine can transition to ACT (SBY: online) A server that operates as an active machine when
Failure state acquisition means for acquiring failure state information via the state management means;
If the failure status information indicates a failure of the forced power-off function, a failure of the forced power-off function on the spare unit side is suspected, so a forced power-off function error output means that outputs an error to the maintenance terminal,
If the failure state information acquired by the failure state acquisition means indicates a network failure, the router conduction means for confirming continuity to the router;
A network error output means for outputting an error to the maintenance terminal when the connection by the router conduction means fails;
And disk error output means for outputting an error to the maintenance terminal when the failure state information acquired by the failure state acquisition means indicates a failure of the shared disk or the built-in disk.
本発明(請求項8)は、故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成され、該現用機がクラスタ構成に組み入れられ、該予備機がACTに遷移可能か不明な状態(SBY:online)にある場合に、予備機として動作するサーバであって、
保守端末から導通確認が指示されると、現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、を有する。
The present invention (Claim 8) includes a failure monitoring means for monitoring a failure state, a state management means for managing a cluster state indicating a service operation state of an active machine and a spare machine based on the failure state, and a state during service operation (ACT), state management information storage means for storing cluster state and failure state information including a state that can be changed to ACT or whether it is possible to change to ACT (SBY: online) and a spare And a shared disk shared by the working machine and the spare machine, the working machine is incorporated into the cluster configuration, and it is unknown whether the spare machine can transition to ACT (SBY: online) A server that acts as a spare machine,
When continuity confirmation is instructed from the maintenance terminal, continuity confirmation means for confirming continuity with respect to the hardware control means on the active machine side,
When continuity is confirmed by the continuity confirmation means, the number of failure of the forced power-off function monitoring resource of the state management information storage means is cleared as a failure of the forced power-off function on the spare machine side, and the system from the active machine Fault number clearing means for transitioning to a state (SBY: online) that enables switching.
本発明(請求項9)は、請求項7または8に記載のサーバを構成する各手段としてコンピュータを機能させるためのプログラムである。 The present invention (Claim 9) is a program for causing a computer to function as each means constituting the server according to Claim 7 or 8.
上記のように、本発明によれば、クラスタシステムの現用機がクラスタ構成に組み入れられている状態において、何らかの障害が発生し、予備機に系切り替えを行う際に、状態管理情報からネットワーク故障か、強制電源断機能故障か、または、共有ディスク・内蔵ディスクの故障であるかを判断し、ネットワーク故障または共用ディスクの故障である場合は予備機は切り替えが不可能なクラスタ状態であると判断し、予備系の強制電源断機能故障である場合は、系切り替えが可能なクラスタ状態であると判断することが可能となるため、強制電源断機能を復旧させることにより、対故障性を向上させることが可能となる。 As described above, according to the present invention, in the state in which the active device of the cluster system is incorporated in the cluster configuration, when a failure occurs and the system is switched to the standby device, whether the network failure is detected from the state management information. Determine whether it is a forced power-off function failure or a shared disk / built-in disk failure. If it is a network failure or a shared disk failure, determine that the spare is in a cluster state that cannot be switched. In the case of a failure of the forced power-off function of the standby system, it is possible to determine that the cluster is in a state where system switchover is possible, so that the fault tolerance can be improved by restoring the forced power-off function. Is possible.
以下図面と共に、本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
本発明の実施例に係るクラスタシステム及び方法を詳細に説明する前に、まず、本発明の実施例で用いられる用語について説明する。 Before describing the cluster system and method according to the embodiment of the present invention in detail, first, terms used in the embodiment of the present invention will be described.
・クラスタ構成:複数のサーバを相互に接続し、サービスを提供するユーザ又は他サーバに対して全体で1つのサーバであるかのように振舞わせる技術のことを言う。クラスタ構成により、1つのサーバが故障しても、システム全体でサービスを継続させることができ、また、サービス継続中に故障修理や交換を行うことができる。 Cluster configuration: A technology for connecting a plurality of servers to each other and making a user or other server providing a service behave as if they are one server as a whole. With a cluster configuration, even if one server fails, the service can be continued throughout the system, and failure repair or replacement can be performed while the service is continuing.
・現用機:クラスタシステムにおいて、サービス提供を開始して故障が発生していないときに、サービス稼働中であるサーバのことを言う。 -Active machine: A server that is in service when a service has started and no failure has occurred in a cluster system.
・予備機:クラスタシステムにおいて、現用機の故障発生時にサービスを引き継ぐサーバのことを言う。予備機は、1つの現用機のサービスを引き継いでもよく、複数の現用機のサービスを引き継いでもよい。すなわち、現用機と予備機との関係は、1対1の関係でもよく、N対1の関係でもよい。 Spare machine: A server that takes over services when a failure occurs in the active machine in a cluster system. The spare machine may take over the service of one working machine or may take over the services of a plurality of working machines. That is, the relationship between the active machine and the spare machine may be a one-to-one relationship or an N-to-one relationship.
・高可用性クラスタソフト:クラスタ構成を提供するためのソフトウェアのことを言う。高可用性クラスタソフトは、サーバの故障を監視し、故障時に系切り替えを実施する。 High availability cluster software: Software for providing a cluster configuration. High-availability cluster software monitors server failures and performs system switching when a failure occurs.
・リソース:サービスを提供するために必要な構成要素のことを言う。クラスタ構成におけるリソースとは、高可用性クラスタソフトが起動、停止、監視等の制御対象とするアプリケーションを示す。リソースには、データベース等が含まれる。 ・ Resource: Refers to the components necessary to provide a service. A resource in a cluster configuration refers to an application that is subject to control by the highly available cluster software such as starting, stopping, and monitoring. Resources include databases and the like.
・クラスタ状態:サーバにおけるサービスの稼働状態を言う。クラスタ状態には、"ACT"と、"SBY[online]"と、"SBY[standby]"と、"SBY[遷移中]"と、"OUS"と、"NONE"とが含まれる。 Cluster state: Refers to the service operating state in the server. The cluster state includes “ACT”, “SBY [online]”, “SBY [standby]”, “SBY [in transit]”, “OUS”, and “NONE”.
・リソース状態:サーバにおけるリソースの稼働状態を言う。リソース状態には、他サーバでリソース稼働中である状態と、自サーバでリソースが稼働中である状態と、リソースが停止中である状態と、リソースの管理を行わない状態とが含まれる。 Resource status: This refers to the operating status of resources in the server. The resource state includes a state where the resource is operating on another server, a state where the resource is operating on the local server, a state where the resource is stopped, and a state where the resource is not managed.
・"ACT":サーバでサービス稼働中の状態を言う。クラスタ構成において、データベース等のサービスを提供するリソースが稼働しているサーバの状態を言う。 ・ "ACT": Indicates that the service is running on the server. In a cluster configuration, it refers to the state of a server on which resources that provide services such as databases are operating.
・"SBY[online]":ACTへ遷移できる状態を言う。クラスタ構成において、故障等による系切り替えが発生した場合、ACTからリソースを切り替えることが可能なサーバの状態をと言う。 “SBY [online]”: A state in which transition to ACT is possible. In a cluster configuration, when system switching occurs due to a failure or the like, the state of a server that can switch resources from ACT is called.
・"SBY[standby]":"ACT"への遷移が抑止されている状態を言う。クラスタ構成において、故障等による系切り替えが発生した場合でも、"ACT"に遷移しないように抑止されているサーバの状態を言う。 “SBY [standby]”: A state where transition to “ACT” is suppressed. In a cluster configuration, this refers to the status of servers that are prevented from transitioning to "ACT" even when system switchover occurs due to a failure.
・"SBY[遷移中]":系切り替え中の状態を言う。クラスタ構成において、故障等による系切り替えが発生したが、リソース停止に失敗して系切り替えが終了していないサーバの状態を言う。 ・ "SBY [Transitioning]": Says the status during system switching. In a cluster configuration, this refers to the state of a server that has undergone system switchover due to a failure or the like, but has failed to stop resources and has not yet switched over.
・"OUS":サーバでリソース故障中の状態を言う。クラスタ構成において、リソース故障が発生している状態を言う。 ・ "OUS": Indicates that the resource is faulty on the server. A state in which a resource failure has occurred in a cluster configuration.
・"NONE":サーバがクラスタ構成に組み込まれていない状態を言う。高可用性クラスタソフトが停止している状態のように、クラスタ構成に組み込まれていないサーバの状態を言う。 -“NONE”: A state in which the server is not incorporated in the cluster configuration. The state of a server that is not built into the cluster configuration, such as when the highly available cluster software is stopped.
<クラスタシステムの構成>
図4は、本発明の一実施の形態におけるクラスタシステムの機能ブロック図を示す。クラスタシステムは、相互に接続されている複数のサーバ(現用機10及び予備機20)と、これらの複数のサーバで共有して用いられる共有ディスク30とを有する。現用機10及び予備機20は、ルータ40を介してクライアントにサービスを提供する。なお、現用機10の性能は、予備機20の性能より優れていてもよい。また、クラスタシステムは、2つ以上の現用機と1つの予備機とで構成されてもよい。
<Configuration of cluster system>
FIG. 4 shows a functional block diagram of the cluster system in one embodiment of the present invention. The cluster system includes a plurality of servers (
現用機10は、リソース101、高可用性クラスタソフト110、実行制御部120、状態管理情報記憶部119、オペレーティングシステム(OS)151、電源制御部153、電源155を有する。
The
高可用性クラスタソフト110は、状態管理手段であり、故障監視部111と、リソース起動・停止部113と、状態管理部115と、強制電源断機能部116、強制電源断機能監視部117から構成される。具体的には、本発明では、高可用性クラスタソフトを用いるものとする。
The high
制御実行部120は、導通確認部123と、クラスタ構成起動部125と、系切り替え指示部127と、状態確認部131と、コマンド実行部133から構成される。
The
予備機20は、リソース201、高可用性クラスタソフト210、実行制御部220、状態管理情報記憶部219、オペレーティングシステム(OS)251、電源制御部253、電源255を有する。
The
高可用性クラスタソフト210は、状態管理手段であり、故障監視部211と、リソース起動・停止部213と、状態管理部215、強制電源断機能部216、強制電源断機能監視部217とから構成される。
The high
制御実行部220は、導通確認部223と、クラスタ構成起動部225と、系切り替え指示部227と、状態確認部231と、コマンド実行部233から構成される。
The
リソース101及び201は、クライアントにサービスを提供するアプリケーションである。リソース101及び201は、クラスタ状態がサービス稼働中"ACT"のサーバで起動している。
高可用性クラスタソフト110,210の故障監視部111及び211は、サーバの故障状態を監視する。例えば、リソース、ネットワーク、共有ディスク・内臓ディスク等を監視する。リソースはサービス稼働中"ACT"のサーバのみで監視されるが、ネットワーク及び共有ディスク・内蔵ディスクは、現用機10と予備機20の双方で監視される。現用機10で故障が検知された場合、故障状態は、状態管理部115を介して状態管理情報記憶部119に格納される。例えば、故障状態として、故障回数や、故障発生タイミング(リソース開始失敗、リソース監視時の故障、リソース停止失敗)を示すエラーステータスが状態管理情報記憶部119に格納される。以下に説明するように、現用機10の故障状態は、状態管理部115から予備機の状態管理部215を介して状態管理情報記憶部219にも格納される。予備機20で故障が検知された場合も同様に、予備機の故障状態が、状態管理部215を介して状態管理情報記憶部219に格納され、更に、現用機10の状態管理部115を介して状態管理情報記憶部119に格納される。
The
リソース起動・停止部113及び213は、クラスタ状態及び故障状態に基づいてリソースを起動及び停止させる。サーバのクラスタ状態がACTへ遷移できる状態"SBY[online]"のときに他サーバのリソースが停止した場合、リソース起動・停止部113及び213は、リソースを起動させる。サーバのクラスタ状態がサービス稼働中"ACT"のときに故障が発生した場合、リソース起動・停止部113及び213は、リソースを停止させる。
The resource start /
状態管理部115及び215は、故障状態に基づいてクラスタ状態を管理する。現用機10の状態管理部115と予備機20の状態管理部215は、互いに状態管理情報記憶部に格納された故障状態(故障回数、エラーステータス)、クラスタ状態等の情報を交換し、各サーバの情報を状態管理情報記憶部119及び219に格納する。
The
強制電源断機能部116,216は、対向機(現用機であれば予備機、予備機であれば現用機)のハードウェア制御ボードを保守管理用LAN経由で監視し、その監視がタイムアウトの場合は、状態管理情報記憶部の対向機の故障回数を"1"、エラーステータスを"2"とする。
The forced power-
強制電源断機能監視部117,217は、自装置内の強制電源断機能部116,216を監視し、当該強制電源断機能部のプロセス故障の場合に、状態管理情報記憶部の故障回数を"1"、エラーステータスを"2"とする。
The forced power-off
図5に、状態管理部115及び215で管理されるクラスタ状態の状態遷移図を示す。クラスタ状態には、"ACT"と、"SBY[online]"と、"SBY[standby]"と、"SBY[遷移中]"と、"OUS"と、"NONE"とが含まれる。"ACT"のサーバにリソース故障が発生した場合、クラスタ状態は"ACT"から"OUS"になる(T1)。"ACT"のサーバにリソース以外の故障(ネットワーク、共有ディスク等の故障)が発生した場合、クラスタ状態は"ACT"から"SBY[遷移中]"になる(T2)。"OUS"のサーバの故障状態がクリアされた場合、クラスタ状態は"OUS"から"SBY[standby]"になる(T3)。故障等により系切り替えが発生して、"SBY[online]"のサーバがサービスを引き継ぐ場合、クラスタ状態は"SBY[online]"から"SBY[遷移中]"になり(T4)、更に、"ACT"になる(T5)。"ACT"のサーバから他サーバにサービスを引き継ぐために"ACT"のサーバでサービスの稼働が抑止された場合、クラスタ状態は"ACT"から"SBY[standby]"になる(T6)。"SBY[standby]"のサーバで"ACT"への遷移抑止が解除された場合、クラスタ状態は"SBY[standby]"から"SBY[standby]"になる(T7)。"SBY[standby]"のサーバでACTへの遷移が抑止された場合、クラスタ状態は"SBY[standby]"から"SBY[standby]"になる(T8)。また、電源の停止、オペレーティングシステムの停止又は高可用性クラスタソフト自体の停止により、高可用性クラスタソフトが停止した場合、クラスタ状態は"NONE"になる(T9〜T13)。高可用性クラスタソフトが起動した場合、クラスタ状態は"NONE"から"SBY[online]"になる(T14)。また、現用機及び予備機の双方のクラスタ状態がNONEのときに高可用性クラスタソフトが起動した場合、クラスタ状態はNONEからACTになる(T15)。
FIG. 5 shows a state transition diagram of the cluster state managed by the
状態管理情報記憶部119及び219は、各サーバ毎にクラスタ状態及び故障状態を格納する。具体的には、状態管理情報記憶部119及び219は、現用機10の情報と予備機20の情報との双方をそれぞれ格納し、状態管理部115と状態管理部215との情報交換によって、状態管理情報記憶部119に格納される情報と状態管理情報記憶部219に格納される情報とは同一に保持される。なお、状態管理情報記憶部119,219を参照する際には、サーバID等のサーバを一意に識別できる識別子を用いるものとする。
The state management
図6に、状態管理情報記憶部119及び219に格納される情報の例を示す。状態管理情報記憶部119及び219は、サーバ毎にクラスタ状態、故障回数、エラーステータス、リソース状態、及び、インタフェース属性値を格納する。状態管理情報記憶部119及び219は、クラスタ状態として、"ACT"と、"SBY[online]"と、"SBY[standby]"と、"SBY[遷移中]"と、"OUS"と、"NONE"とのうちいずれかを記憶する。故障回数として、故障が発生した回数(0〜Nの値)を記憶する。故障発生タイミングを示すエラーステータスとして、エラー無しの状態と、リソース開始に失敗した状態と、リソース監視時に故障を検知した状態と、リソース停止に失敗した状態とのうちいずれかを記憶する。リソース状態として、他サーバでリソース稼働中である状態と、自サーバでリソースが稼働中である状態と、リソースが停止中である状態と、リソースの管理を行わない状態とのうちいずれを記憶する。インタフェース属性値として、エラー無し"0"、PINGエラーがあり、"Link is failure"が表示されている状態"1"、ディスクエラーがあり"Disk is failure"が表示されている状態"2"を記憶する。
FIG. 6 shows an example of information stored in the state management
導通確認部123は、状態確認部131で故障箇所がネットワーク故障であると推定された場合には、ルータ40までの導通を確認する。導通確認が成功した場合には、ネットワークの瞬断による一時的な故障と考えられる。また、状態確認部131で故障箇所が電源制御部(ハードウェア制御ボード)253であると推定された場合には、他サーバ(予備機20)の電源制御部(ハードウェア制御ボード)253までの導通を確認する。これらの導通確認には、PINGが用いられてもよい。
The
状態確認部231で故障箇所が強制電源断機能の故障であると推定された場合に、導通確認部223は、現用機10の電源制御部153までの導通を確認する。導通確認には、PINGが用いられてもよい。導通確認が成功した場合には、ネットワークの瞬断による一時的な故障と考えられる。
When the
クラスタ構成起動部125は、現用機10をクラスタ構成に組み込み、状態管理情報記憶部119に格納された現用機のクラスタ状態をサービス稼働中へ遷移できる状態へ遷移させる。具体的には、クラスタ構成起動部125は、現用機10の高可用性クラスタソフト110を起動させる。例えば、クラスタ構成起動部125が状態管理部115を起動させ、状態管理部115が故障管理部111及びリソース起動・停止部113を起動させてもよい。この起動により、状態管理部215を介して、状態管理情報記憶部219に格納された現用機10のクラスタ状態も遷移し、現用機10のクラスタ状態は、"SBY[online]"になる。予備機20のクラスタ構成起動部225も同様である。
The cluster
系切り替え指示部127は、状態管理部115を介して、予備機20から現用機10への系切り替えを指示する。具体的には、状態管理情報記憶部119に格納された予備機20のクラスタ状態をサービス稼働中への遷移が抑止されている状態へ遷移させる。この遷移抑止により、現用機10のクラスタ状態はサービス稼働中へ遷移する。この結果、状態管理部215を介して、状態管理情報記憶部219に格納された予備機20及び現用機10のクラスタ状態も遷移し、予備機20のクラスタ状態は"SBY[standby]"になり、現用機10のクラスタ状態はACTになる。そして、予備機20のリソース201が停止し、現用機10のリソース101が起動する。予備機20の系切り替え指示部227も同様である。
The system switching
状態確認部131は、状態管理部115を介して、状態管理情報記憶部119に格納された情報を確認する。例えば、現用機10及び予備機20の双方のクラスタ状態、故障回数、エラーステータス及びリソース状態を確認する。予備機20の状態確認部231も同様である。
The
オペレーティングシステム151,251は、サーバ上で高可用性クラスタソフト110,210やアプリケーション等を動作させるための基本ソフトウェアである。
The
電源制御部153は、本実施の形態では、他サーバ(予備機20)の強制電源断機能部216から強制的に電源を切断する指示を受信し、サーバに電力を供給する電源155をオン及びオフにする。予備機の電源制御部253も同様である。
In the present embodiment, the
まず、現用機10と予備機20の故障状態について説明する。
First, the failure state of the
図7は、本発明の一実施の形態における通常運用状態から復旧手順終了の状態を示す。 FIG. 7 shows a state where the restoration procedure is completed from the normal operation state according to the embodiment of the present invention.
(1)同図(a)に示すように、現用機10は、クラスタ状態が"ACT"であるため、サービス稼動中であり、予備機20は、"SBY[online]"状態であり、"ACT"へ遷移可能な状態である。
(1) As shown in FIG. 5A, the
(2)上記の状態から、図2に示すように、予備機20が強制電源断機能部216の故障、または、インタフェース故障により、"ACT"に遷移可能かどうかは不明な状態になっている(図7(b))。このとき、リソース101は現用機10で稼動しているため、何もアクションは起こっていない状態である。つまり、この時点における現用機10、予備機20の状態は、
(現用機)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
I/F属性値:0
(予備機)
クラスタ状態:"SBY[online]"
故障回数:0
エラーステータス:0
リソース状態:0
I/F属性値:1or2
である。予備機20では、状態管理情報記憶部219のインタフェース(I/F)属性値が"1"または"2"であるため、ネットワーク故障か、ディスク故障のいずれかであると推測できる。この場合、現用機10から予備機20に系切り替え処理が発生した場合、I/F属性値が"0"以外の値をとっているため、系切り替えは実行できずに、現用機10が故障等による系切り替えが発生したが、リソース停止に失敗して系切り替えが終了していないサーバの状態である"SBY[遷移中] "のクラスタ状態となってしまう。
(2) From the above state, as shown in FIG. 2, it is unknown whether or not the
(Current machine)
Cluster status: "ACT"
Number of failures: 0
Error status: 0
Resource status: 1 (Started)
I / F attribute value: 0
(Spare machine)
Cluster status: "SBY [online]"
Number of failures: 0
Error status: 0
Resource status: 0
I / F attribute value: 1 or 2
It is. In the
また、図7(b)の状態として図3のようなケースが考えられる。 Moreover, the case as shown in FIG. 3 can be considered as the state of FIG.
図3の例は、現用機10、予備機20のいずれかの強制電源断機能部に故障が発生した場合である。
The example of FIG. 3 is a case where a failure has occurred in the forced power-off function unit of either the
このときの現用機10と予備機20の状態は、
(現用機)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
I/F属性値:0
(予備機)
クラスタ状態:"SBY[online]"
故障回数:1
エラーステータス:2
リソース状態:0
I/F属性値:0
である。上記では、予備機20のエラーステータスが"2"(リソース監視時にエラーを検出)となっている。この場合、強制電源断機能部216が正常に実行できなくなるが、サービス稼動状況には影響がなく、現用機10から予備機20への系切り替え処理が発生した場合でも予備機20に切り替えることが可能である。但し、系切り替え時にサービス停止に失敗した場合は強制電源断機能部216の処理が実行されず、現用機10は図2と同様に、"SBY[遷移中]"のクラスタ状態となってしまう。
At this time, the status of the
(Current machine)
Cluster status: "ACT"
Number of failures: 0
Error status: 0
Resource status: 1 (Started)
I / F attribute value: 0
(Spare machine)
Cluster status: "SBY [online]"
Number of failures: 1
Error status: 2
Resource status: 0
I / F attribute value: 0
It is. In the above, the error status of the
本発明は、上記のような状態(図7(b))において、予備機20のみの故障復旧処理を行うことで、図7(c)に示すように、現用機10からの系切り替え発生時に、予備機20を"ACT"へ遷移可能な状態"SBY[online]"に遷移させるものである。
In the state as described above (FIG. 7B), the present invention performs failure recovery processing for only the
図8は、本発明の一実施の形態における故障検出手順のフローチャートである。 FIG. 8 is a flowchart of the failure detection procedure in one embodiment of the present invention.
ステップ101) 保守端末から現用機10、予備機20にログインする。このとき、予備機20へのログインに成功した場合はステップ102に移行し、失敗した場合はステップ103に移行する。この時点の現用機10と予備機20の状態は以下の通りである。
Step 101) Log in to the
(現用機)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
I/F属性値:0
(予備機)
クラスタ状態:"SBY[online]"
故障回数:0or1
エラーステータス:0or2(エラー無しまたは、リソース監視時にエラー検出)
リソース状態:0(他サーバでリソース稼動中)
I/F属性値:1or2(エラー無しまたはリンクエラー)
ステップ102) 現用機10の状態確認部131は、状態確認コマンドを高可用性クラスタソフト110に実行させることにより、状態管理情報記憶部119の状態管理情報を取得する。取得した状態管理情報が故障回数"1"、エラーステータス"2"である場合は、予備機20の強制電源断機能部216の監視タイムアウトまたは、予備機20の強制電源断機能部216のプロセスが故障したと推測されるため、強制電源断機能のエラーを保守端末に出力して、ステップ105に移行する。それ以外の場合(故障回数"0"、エラーステータス"0")は、別原因であるので、ステップ103に移行する。
(Current machine)
Cluster status: "ACT"
Number of failures: 0
Error status: 0
Resource status: 1 (Started)
I / F attribute value: 0
(Spare machine)
Cluster status: "SBY [online]"
Number of failures: 0 or 1
Error status: 0 or 2 (no error or error detected during resource monitoring)
Resource status: 0 (resource is running on another server)
I / F attribute value: 1 or 2 (no error or link error)
Step 102) The
ステップ103) 現用機10の状態確認部131は、状態確認コマンドを高可用性クラスタソフト110に実行させることにより、状態管理情報記憶部119の状態管理情報を取得する。取得した状態管理情報のI/F属性値の値から、故障箇所の推定を行う。I/F属性値が"1"(Link is failure)の場合は、予備機20からルータ40間(ネットワーク)の通信が遮断していると推測されるためステップ104に移行する。I/F属性値が"2"(Disk is failure)の場合は、ディスク故障と推測されるため、ステップ107に移行する。
Step 103) The
ステップ104) 予備機20の導通確認部223において、故障推定精度を向上させるため、ルータ40に対してPINGコマンドによる導通確認を行い、導通が不可である場合はステップ107に移行する。導通できた場合にはステップ106に移行する。
Step 104) In the
ステップ105) ステップ102において予備機20の強制電源断機能部216の故障であると判断された場合は、保守端末は現用機10からエラーが表示されるので、保守者は、予備機20のログインし、予備機20に対して、現用機10の電源制御部153に対する導通確認を指示する。これにより、予備機20の導通確認部223は、故障推定精度を向上させるため、現用機10の電源制御部153に対してPINGコマンドを実行し導通確認を行う。導通できた場合は、ハードウェア制御ボード160の故障ではなく、予備機側の強制電源断機能部216のプロセスの一時的な故障と推測されるため、ステップ106に移行する。導通が不可であった場合はステップ107に移行する。
Step 105) If it is determined in Step 102 that the forced power-
ステップ106) ステップ104において、ルータ40との導通に成功する、または、ステップ105において現用機10の電源制御部153との導通に成功した場合は、現用機10の状態管理部115及び予備機20の状態管理部215は状態管理情報記憶部119の強制電源断機能監視リソースの故障数を0クリアし、ステップ108に移行する。この処理によって、故障などによる系切り替え時にリソース停止失敗が発生しても、強制電源断機能を利用できるようになる。
Step 106) If the connection to the
ステップ107) エラーを保守端末に出力する。 Step 107) Output the error to the maintenance terminal.
ステップ108) ログアウトする。 Step 108) Log out.
上記のような処理を行うことにより、図7(c)のように、予備機20の状態管理部210が予備機20状態管理情報記憶部219の状態を"ACT"へ遷移可能な状態にすることで、予備機20では、現用機10の系切り替え指示部127による系の切り替え処理に備えることが可能となる。
By performing the processing as described above, as shown in FIG. 7C, the
以下では、図8のフローチャートに沿って、図4に示す現用機10の故障監視部111、リソース起動・停止部113、状態管理部115からなる構成を高可用性クラスタソフト110、及び、予備機20の故障監視部211、リソース起動・停止部213、状態管理部215を、高可用性クラスタソフト210として説明する。
In the following, according to the flowchart of FIG. 8, the configuration including the failure monitoring unit 111, the resource start /
ステップ101) 保守端末50から現用機10、予備機20にログインする。双方へのログインが成功すればステップ102に移行し、予備機20のログインに失敗した場合は、ステップ103に移行する。
Step 101) Log in to the
ステップ102) 図9に示すように、制御実行部120の状態確認部131は、高可用性クラスタソフト110に状態確認コマンドを実行させ、予備機20の故障回数、エラーステータスを要求する。
Step 102) As shown in FIG. 9, the
これにより、高可用性クラスタソフト110は、状態管理情報記憶部119を参照し、予備機20が、
・故障回数"1";
・エラーステータス"2";
の場合は、強制電源断機能の故障と考えられるため、ステップ105に移行する。一方、予備機20が、
・故障回数"0";
・エラーステータス"0";
の場合は、故障原因が別原因であるため、ステップ103に移行する。
Thereby, the high
・ Number of failures "1";
・ Error status “2”;
In this case, since it is considered that the forced power-off function has failed, the routine proceeds to step 105. On the other hand, the
・ Frequency count “0”;
・ Error status “0”;
In the case of, since the cause of failure is another cause, the process proceeds to step 103.
ステップ103) 制御実行部120の状態確認部131は、図10に示すように、高可用性クラスタソフト110に状態確認コマンドを実行させ、状態管理情報記憶部119に予備機20のI/F属性値を要求する。予備機20のI/F属性値が"1"(リンクエラー)の場合は通信エラーと推定できるため、ステップ104に移行する。一方、予備機20のI/F属性値が"2"(ディスクエラー)の場合は、ディスク故障と推定できるため、保守端末50に対してエラーを出力してログアウトする。
Step 103) As shown in FIG. 10, the
ステップ104) 制御実行部120の導通確認部123は、図11に示すように、OS機能にあるPINGを実行し、ルータ40までの間の導通を確認する。導通が不可の場合は導線やルータ故障と考えられるため、保守端末50にエラーを出力してログアウトする。
Step 104) As shown in FIG. 11, the
ステップ105) ステップ102において、強制電源断機能の故障と推定された場合には、保守端末50は予備機20にログインし、図12に示すように、予備機20の制御実行部220の導通確認部223より、OS機能であるPINGを実行し、現用機10の電源制御部153までの導通を確認する。予備機20からのPINGが成功した場合には、現用機10の電源制御部153は正常であるため、予備機20の高可用性クラスタソフト210内の強制電源断機能部216の故障が予測される。
Step 105) In the case where it is estimated in Step 102 that the forced power-off function has failed, the
ステップ106) 予備機20の制御実行部220のコマンド実行部233は、図13に示すように、高可用性クラスタソフト210に故障回数クリアコマンドを実行させる。クリアコマンドを実行することにより、高可用性クラスタソフト110、210で管理している状態管理情報記憶部119、219の故障回数"1"、エラーステータス"2"を故障回数"0"、エラーステータス"0"に更新する。
Step 106) The
上記のように、故障回数及びエラーステータスの両方の値が"0"になることにより、現用機10から予備機20への系切り替え時に、リソース停止失敗が発生しても高可用性クラスタソフトの強制電源断機能が使用できるようになるため、現用機10において、"SBY[遷移中]"(故障等による系切り替えが発生したが、リソース停止に失敗して系切り替えが終了していない状態)となることを回避することが可能となる。
As described above, if both the failure count and error status values are "0", high availability cluster software is forced even if a resource stop failure occurs during system switching from the
説明の便宜上、本発明の実施例に係るシステムは機能的なブロック図を用いて説明しているが、本発明のシステムは、ハードウェア、ソフトウェア又はそれらの組み合わせで実現されてもよい。例えば、サーバ(現用機及び予備機)の各機能部がソフトウェアで実現され、オペレーションシステム上にインストールされてもよい。また、各機能部が必要に応じて組み合わせて使用されてもよい。 For convenience of explanation, the system according to the embodiment of the present invention is described using a functional block diagram. However, the system of the present invention may be realized by hardware, software, or a combination thereof. For example, each functional unit of the server (active machine and spare machine) may be realized by software and installed on the operation system. In addition, the functional units may be used in combination as necessary.
以上、本発明の実施の形態及び実施例について説明したが、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において、種々の変更・応用が可能である。 Although the embodiments and examples of the present invention have been described above, the present invention is not limited to the above-described embodiments and examples, and various modifications and applications are possible within the scope of the claims. is there.
10 サーバ(現用機)
20 サーバ(予備機)
30 共有ディスク
40 ルータ
50 保守端末
101,201 リソース
110,210 高可用性クラスタソフト
111,211 故障監視部
113,213 リソース・起動停止部
115、215 状態管理部
116,216 強制電源断機能部
117,217 強制電源断監視部
119,219 状態管理情報記憶部
120,220 制御実行部
123,223 導通確認部
125,225 クラスタ構成起動部
127,227 系切り替え指示部
131,231 状態確認部
133,233 コマンド実行部
151,251 OS(オペレーティングシステム)
153,253 電源制御部
155,255 電源
10 servers (current machine)
20 servers (spare machine)
30 shared
153, 253
Claims (9)
前記現用機の状態確認手段が、前記現用機の前記状態管理手段を介して前記状態管理情報記憶手段から故障状態情報を取得する故障状態取得ステップと、
前記故障状態情報が強制電源断機能の故障を示している場合には、前記予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力ステップと、
ACTへ遷移可能かどうかは不明な状態(SBY:online)の前記予備機側で前記保守端末から導通確認が指示されると、該予備機の導通確認手段が、前記現用機側のハードウェア制御手段に対して導通を確認し、導通が確認された場合には、該予備機側の強制電源断機能の故障として、該予備機の前記状態管理手段が前記状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、前記現用機からの系切り替えを可能とする状態(SBY:online)に遷移する故障回数クリアステップと、
を有することを特徴とするクラスタシステム復旧方法。 Fault monitoring means for monitoring the fault status, status management means for managing the cluster status indicating the service operating status of the active machine and the spare machine based on the fault status, status in which the service is operating (ACT), and status that can be changed to ACT Or status management information storage means for storing cluster status and failure status information including an unknown status (SBY: online) whether or not it is possible to transit to ACT, respectively, and a current machine and a spare machine, and the current machine and the This is a cluster system recovery method in a cluster system composed of shared disks shared by a spare machine, in which the current machine is incorporated into the cluster configuration and it is unknown whether the spare machine can transition to ACT (SBY: online) . And
A failure status acquisition step in which the status confirmation means of the active machine acquires failure status information from the status management information storage means via the status management means of the active machine;
If the failure status information indicates a failure of the forced power-off function, a failure of the forced power-off function on the spare unit side is suspected, so a forced power-off function error output step for outputting an error to the maintenance terminal When,
When continuity confirmation is instructed from the maintenance terminal on the spare machine side in an unknown state (SBY: online) whether it is possible to transition to ACT, the continuity confirmation means of the spare machine controls the hardware control on the active machine side If the continuity is confirmed with respect to the means, and if the continuity is confirmed, the state management means of the spare machine is forced to turn off the state management information storage means as a failure of the forced power-off function on the spare machine side. Clearing the number of failures of the function monitor resource, and clearing the number of failures to transition to a state (SBY: online) that enables system switching from the active machine,
A cluster system recovery method comprising:
を更に有することを特徴とする請求項1記載のクラスタシステム復旧方法。 If the failure state information acquired in the failure state acquisition step indicates a network failure, check the continuity from the continuity confirmation means on the spare unit side to the router, and if continuity fails, The cluster system recovery method according to claim 1, further comprising a network error output step of outputting an error to the maintenance terminal.
を更に有することを特徴とする請求項1記載のクラスタシステム復旧方法。 The failure status information acquired in the failure status acquisition step further includes a disk error output step of outputting an error to the maintenance terminal when the failure of the shared disk or the built-in disk is indicated. The cluster system recovery method according to claim 1.
前記現用機は、
前記状態管理手段を介して前記状態管理情報記憶手段から故障状態情報を取得する故障状態取得手段と、
前記故障状態情報が強制電源断機能の故障を示している場合には、前記予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
を有し、
前記予備機は、
ACTへ遷移可能かどうかは不明な状態(SBY:online)であるとき、前記保守端末から導通確認が指示されると、前記現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
前記導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、前記状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、前記現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、
を有することを特徴とするクラスタシステム復旧システム。 Fault monitoring means for monitoring the fault status, status management means for managing the cluster status indicating the service operating status of the active machine and the spare machine based on the fault status, status in which the service is operating (ACT), and status that can be changed to ACT Or status management information storage means for storing cluster status and failure status information including an unknown status (SBY: online) whether or not it is possible to transit to ACT, respectively, and a current machine and a spare machine, and the current machine and the A cluster system recovery system configured with a shared disk shared by a spare machine, the current machine is incorporated in a cluster configuration , and whether the spare machine can be changed to ACT or is in an unknown state (SBY: online) ,
The working machine is
Failure state acquisition means for acquiring failure state information from the state management information storage means via the state management means;
If the failure state information indicates a failure of the forced power-off function, a failure of the forced power-off function on the spare unit side is suspected, so a forced power-off function error output means for outputting an error to the maintenance terminal When,
Have
The spare machine is
When it is in an unknown state (SBY: online) whether or not it is possible to transition to ACT, when continuity confirmation is instructed from the maintenance terminal, continuity confirmation means for confirming continuity to the hardware control means on the working machine side When,
When continuity is confirmed by the continuity confirmation means, the number of failures of the forced power-off function monitoring resource of the state management information storage means is cleared as a failure of the forced power-off function on the spare machine side, and the working machine A failure frequency clearing means for transitioning to a state (SBY: online) that enables system switching from
A cluster system recovery system comprising:
前記故障状態取得手段にて取得した前記故障状態情報が、ネットワーク故障を示している場合には、ルータまでの導通を確認するルータ導通手段と、
前記ルータ導通手段による導通が失敗した場合には、前記保守端末に対してエラー出力するネットワークエラー出力手段と、
を更に有することを特徴とする請求項4記載のクラスタシステム復旧システム。 The working machine is
If the failure state information acquired by the failure state acquisition means indicates a network failure, router conduction means for confirming conduction to the router;
A network error output means for outputting an error to the maintenance terminal when the connection by the router conduction means fails;
The cluster system recovery system according to claim 4, further comprising:
前記故障状態取得手段にて取得した前記故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、前記保守端末に対してエラー出力するディスクエラー出力手段、
を更に有することを特徴とする請求項4記載のクラスタシステム復旧システム。 The working machine is
A disk error output means for outputting an error to the maintenance terminal when the failure status information acquired by the failure status acquisition means indicates a failure of a shared disk or a built-in disk;
The cluster system recovery system according to claim 4, further comprising:
前記状態管理手段を介して故障状態情報を取得する故障状態取得手段と、
前記故障状態情報が強制電源断機能の故障を示している場合には、前記予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
前記故障状態取得手段にて取得した前記故障状態情報が、ネットワーク故障を示している場合には、ルータまでの導通を確認するルータ導通手段と、
前記ルータ導通手段による導通が失敗した場合には、前記保守端末に対してエラー出力するネットワークエラー出力手段と、
前記故障状態取得手段にて取得した前記故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、前記保守端末に対してエラー出力するディスクエラー出力手段と、
を有することを特徴とするサーバ。 Fault monitoring means for monitoring the fault status, status management means for managing the cluster status indicating the service operating status of the active machine and the spare machine based on the fault status, status in which the service is operating (ACT), and status that can be changed to ACT Or status management information storage means for storing cluster status and failure status information including an unknown status (SBY: online) whether or not it is possible to transit to ACT, respectively, and a current machine and a spare machine, and the current machine and the It is configured with a shared disk shared by a spare machine , and the active machine is incorporated into a cluster configuration, and operates as the active machine when it is unknown whether the spare machine can transition to ACT (SBY: online) A server,
Failure state acquisition means for acquiring failure state information via the state management means;
If the failure state information indicates a failure of the forced power-off function, a failure of the forced power-off function on the spare unit side is suspected, so a forced power-off function error output means for outputting an error to the maintenance terminal When,
If the failure state information acquired by the failure state acquisition means indicates a network failure, router conduction means for confirming conduction to the router;
A network error output means for outputting an error to the maintenance terminal when the connection by the router conduction means fails;
When the failure status information acquired by the failure status acquisition means indicates a failure of the shared disk or internal disk, disk error output means for outputting an error to the maintenance terminal;
The server characterized by having.
保守端末から導通確認が指示されると、前記現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
前記導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、前記状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、前記現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、
を有することを特徴とするサーバ。 Fault monitoring means for monitoring the fault status, status management means for managing the cluster status indicating the service operating status of the active machine and the spare machine based on the fault status, status in which the service is operating (ACT), and status that can be changed to ACT Or status management information storage means for storing cluster status and failure status information including an unknown status (SBY: online) whether or not it is possible to transit to ACT, respectively, and a current machine and a spare machine, and the current machine and the A server that is configured with a shared disk shared by a spare machine, and that operates as a spare machine when the active machine is incorporated in a cluster configuration and the spare machine is in an unknown state (SBY: online) whether it can be changed to ACT Because
When continuity confirmation is instructed from the maintenance terminal, continuity confirmation means for confirming continuity with respect to the hardware control means on the active machine side,
When continuity is confirmed by the continuity confirmation means, the number of failures of the forced power-off function monitoring resource of the state management information storage means is cleared as a failure of the forced power-off function on the spare machine side, and the working machine A failure frequency clearing means for transitioning to a state (SBY: online) that enables system switching from
The server characterized by having.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010252890A JP5285044B2 (en) | 2010-06-04 | 2010-11-11 | Cluster system recovery method, server, and program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010128891 | 2010-06-04 | ||
JP2010128891 | 2010-06-04 | ||
JP2010252890A JP5285044B2 (en) | 2010-06-04 | 2010-11-11 | Cluster system recovery method, server, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014673A JP2012014673A (en) | 2012-01-19 |
JP5285044B2 true JP5285044B2 (en) | 2013-09-11 |
Family
ID=45600975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010252890A Active JP5285044B2 (en) | 2010-06-04 | 2010-11-11 | Cluster system recovery method, server, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5285044B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104267689B (en) * | 2014-09-22 | 2017-01-18 | 中国科学院寒区旱区环境与工程研究所 | Super computer room outage early warning and automatic power-on management method based on video image differentiation |
JP6421516B2 (en) * | 2014-09-25 | 2018-11-14 | 沖電気工業株式会社 | Server device, redundant server system, information takeover program, and information takeover method |
US11936540B2 (en) | 2020-01-22 | 2024-03-19 | Nippon Telegraph And Telephone Corporation | System determination apparatus, system determination method and system determination program |
CN115190040B (en) * | 2022-05-23 | 2023-09-29 | 浪潮通信技术有限公司 | High-availability realization method and device for virtual machine |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0895933A (en) * | 1994-09-21 | 1996-04-12 | Fujitsu Ltd | Computer system |
JP4353005B2 (en) * | 2004-06-29 | 2009-10-28 | 株式会社日立製作所 | System switching method for clustered computer systems |
JP2007249389A (en) * | 2006-03-14 | 2007-09-27 | Nec Computertechno Ltd | Cluster system and its failure detection method |
-
2010
- 2010-11-11 JP JP2010252890A patent/JP5285044B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012014673A (en) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110071821B (en) | Method, node and storage medium for determining the status of a transaction log | |
US6622261B1 (en) | Process pair protection for complex applications | |
CN108847982B (en) | Distributed storage cluster and node fault switching method and device thereof | |
JP4572250B2 (en) | Computer switching method, computer switching program, and computer system | |
JP2005209201A (en) | Node management in high-availability cluster | |
WO2016058307A1 (en) | Fault handling method and apparatus for resource | |
CN109471759B (en) | A kind of database failure switching method and equipment based on SAS dual control equipment | |
CN112181660A (en) | High-availability method based on server cluster | |
JP5285044B2 (en) | Cluster system recovery method, server, and program | |
CN108173971A (en) | A kind of MooseFS high availability methods and system based on active-standby switch | |
JP5285045B2 (en) | Failure recovery method, server and program in virtual environment | |
CN114461428A (en) | Arbitration method for split brain of double-computer cluster | |
CN114764380A (en) | Distributed cluster control method and device based on ETCD | |
US11418382B2 (en) | Method of cooperative active-standby failover between logical routers based on health of attached services | |
CN105959145A (en) | Method and system for parallel management server of high availability cluster | |
KR20140140719A (en) | Apparatus and system for synchronizing virtual machine and method for handling fault using the same | |
JP5277228B2 (en) | Cluster system recovery method, server and software | |
CN117240694A (en) | Method, device and system for switching active and standby hot standby based on keepaled | |
JP5277229B2 (en) | Cluster system recovery method, server and software | |
JP2010231257A (en) | High availability system and method for handling failure of high availability system | |
JP3325785B2 (en) | Computer failure detection and recovery method | |
CN115549751A (en) | Remote sensing satellite ground station monitoring system and method | |
JP5594668B2 (en) | Node, clustering system, clustering system control method, and program | |
US20130198377A1 (en) | Control method, control system, information processing apparatus, and computer-readable non-transitory medium | |
CN115499296B (en) | Cloud desktop hot standby management method, device and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5285044 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |