JP5285044B2 - クラスタシステム復旧方法及びサーバ及びプログラム - Google Patents
クラスタシステム復旧方法及びサーバ及びプログラム Download PDFInfo
- Publication number
- JP5285044B2 JP5285044B2 JP2010252890A JP2010252890A JP5285044B2 JP 5285044 B2 JP5285044 B2 JP 5285044B2 JP 2010252890 A JP2010252890 A JP 2010252890A JP 2010252890 A JP2010252890 A JP 2010252890A JP 5285044 B2 JP5285044 B2 JP 5285044B2
- Authority
- JP
- Japan
- Prior art keywords
- status
- failure
- machine
- state
- spare
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Hardware Redundancy (AREA)
Description
現用機の状態確認手段が、現用機の状態管理手段を介して状態管理情報記憶手段から故障状態情報を取得する故障状態取得ステップと、
故障状態情報が強制電源断機能の故障を示している場合には、予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力ステップと、
ACTへ遷移可能かどうかは不明な状態(SBY:online)の予備機側で保守端末から導通確認が指示されると、該予備機の導通確認手段が、現用機側のハードウェア制御手段に対して導通を確認し、導通が確認された場合には、該予備機側の強制電源断機能の故障として、該予備機の状態管理手段が状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、現用機からの系切り替えを可能とする状態(SBY:online)に遷移する故障回数クリアステップと、を有する。
現用機は、
状態管理手段を介して状態管理情報記憶手段から故障状態情報を取得する故障状態取得手段と、
故障状態情報が強制電源断機能の故障を示している場合には、予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
を有し、
予備機は、
ACTへ遷移可能かどうかは不明な状態(SBY:online)であるとき、保守端末から導通確認が指示されると、現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、を有する。
ルータ導通手段による導通が失敗した場合には、保守端末に対してエラー出力するネットワークエラー出力手段と、を更に有する。
状態管理手段を介して故障状態情報を取得する故障状態取得手段と、
故障状態情報が強制電源断機能の故障を示している場合には、予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
故障状態取得手段にて取得した故障状態情報が、ネットワーク故障を示している場合には、ルータまでの導通を確認するルータ導通手段と、
ルータ導通手段による導通が失敗した場合には、保守端末に対してエラー出力するネットワークエラー出力手段と、
故障状態取得手段にて取得した故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、保守端末に対してエラー出力するディスクエラー出力手段と、を有する。
保守端末から導通確認が指示されると、現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、を有する。
図4は、本発明の一実施の形態におけるクラスタシステムの機能ブロック図を示す。クラスタシステムは、相互に接続されている複数のサーバ(現用機10及び予備機20)と、これらの複数のサーバで共有して用いられる共有ディスク30とを有する。現用機10及び予備機20は、ルータ40を介してクライアントにサービスを提供する。なお、現用機10の性能は、予備機20の性能より優れていてもよい。また、クラスタシステムは、2つ以上の現用機と1つの予備機とで構成されてもよい。
(現用機)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
I/F属性値:0
(予備機)
クラスタ状態:"SBY[online]"
故障回数:0
エラーステータス:0
リソース状態:0
I/F属性値:1or2
である。予備機20では、状態管理情報記憶部219のインタフェース(I/F)属性値が"1"または"2"であるため、ネットワーク故障か、ディスク故障のいずれかであると推測できる。この場合、現用機10から予備機20に系切り替え処理が発生した場合、I/F属性値が"0"以外の値をとっているため、系切り替えは実行できずに、現用機10が故障等による系切り替えが発生したが、リソース停止に失敗して系切り替えが終了していないサーバの状態である"SBY[遷移中] "のクラスタ状態となってしまう。
(現用機)
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
I/F属性値:0
(予備機)
クラスタ状態:"SBY[online]"
故障回数:1
エラーステータス:2
リソース状態:0
I/F属性値:0
である。上記では、予備機20のエラーステータスが"2"(リソース監視時にエラーを検出)となっている。この場合、強制電源断機能部216が正常に実行できなくなるが、サービス稼動状況には影響がなく、現用機10から予備機20への系切り替え処理が発生した場合でも予備機20に切り替えることが可能である。但し、系切り替え時にサービス停止に失敗した場合は強制電源断機能部216の処理が実行されず、現用機10は図2と同様に、"SBY[遷移中]"のクラスタ状態となってしまう。
クラスタ状態:"ACT"
故障回数:0
エラーステータス:0
リソース状態:1(Started)
I/F属性値:0
(予備機)
クラスタ状態:"SBY[online]"
故障回数:0or1
エラーステータス:0or2(エラー無しまたは、リソース監視時にエラー検出)
リソース状態:0(他サーバでリソース稼動中)
I/F属性値:1or2(エラー無しまたはリンクエラー)
ステップ102) 現用機10の状態確認部131は、状態確認コマンドを高可用性クラスタソフト110に実行させることにより、状態管理情報記憶部119の状態管理情報を取得する。取得した状態管理情報が故障回数"1"、エラーステータス"2"である場合は、予備機20の強制電源断機能部216の監視タイムアウトまたは、予備機20の強制電源断機能部216のプロセスが故障したと推測されるため、強制電源断機能のエラーを保守端末に出力して、ステップ105に移行する。それ以外の場合(故障回数"0"、エラーステータス"0")は、別原因であるので、ステップ103に移行する。
・故障回数"1";
・エラーステータス"2";
の場合は、強制電源断機能の故障と考えられるため、ステップ105に移行する。一方、予備機20が、
・故障回数"0";
・エラーステータス"0";
の場合は、故障原因が別原因であるため、ステップ103に移行する。
20 サーバ(予備機)
30 共有ディスク
40 ルータ
50 保守端末
101,201 リソース
110,210 高可用性クラスタソフト
111,211 故障監視部
113,213 リソース・起動停止部
115、215 状態管理部
116,216 強制電源断機能部
117,217 強制電源断監視部
119,219 状態管理情報記憶部
120,220 制御実行部
123,223 導通確認部
125,225 クラスタ構成起動部
127,227 系切り替え指示部
131,231 状態確認部
133,233 コマンド実行部
151,251 OS(オペレーティングシステム)
153,253 電源制御部
155,255 電源
Claims (9)
- 故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成されるクラスタシステムで、該現用機がクラスタ構成に組み入れられ、該予備機がACTに遷移可能か不明な状態(SBY:online)におけるクラスタシステム復旧方法であって、
前記現用機の状態確認手段が、前記現用機の前記状態管理手段を介して前記状態管理情報記憶手段から故障状態情報を取得する故障状態取得ステップと、
前記故障状態情報が強制電源断機能の故障を示している場合には、前記予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力ステップと、
ACTへ遷移可能かどうかは不明な状態(SBY:online)の前記予備機側で前記保守端末から導通確認が指示されると、該予備機の導通確認手段が、前記現用機側のハードウェア制御手段に対して導通を確認し、導通が確認された場合には、該予備機側の強制電源断機能の故障として、該予備機の前記状態管理手段が前記状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、前記現用機からの系切り替えを可能とする状態(SBY:online)に遷移する故障回数クリアステップと、
を有することを特徴とするクラスタシステム復旧方法。 - 前記故障状態取得ステップにおいて取得した前記故障状態情報が、ネットワーク故障を示している場合には、前記予備機側の導通確認手段からルータまでの導通を確認し、導通が失敗した場合には、前記保守端末に対してエラー出力するネットワークエラー出力ステップ
を更に有することを特徴とする請求項1記載のクラスタシステム復旧方法。 - 前記故障状態取得ステップにおいて取得した前記故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、前記保守端末に対してエラー出力するディスクエラー出力ステップ
を更に有することを特徴とする請求項1記載のクラスタシステム復旧方法。 - 故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成され、該現用機がクラスタ構成に組み入れられ、該予備機がACTに遷移可能か不明な状態(SBY:online)にある場合のクラスタシステム復旧システムであって、
前記現用機は、
前記状態管理手段を介して前記状態管理情報記憶手段から故障状態情報を取得する故障状態取得手段と、
前記故障状態情報が強制電源断機能の故障を示している場合には、前記予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
を有し、
前記予備機は、
ACTへ遷移可能かどうかは不明な状態(SBY:online)であるとき、前記保守端末から導通確認が指示されると、前記現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
前記導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、前記状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、前記現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、
を有することを特徴とするクラスタシステム復旧システム。 - 前記現用機は、
前記故障状態取得手段にて取得した前記故障状態情報が、ネットワーク故障を示している場合には、ルータまでの導通を確認するルータ導通手段と、
前記ルータ導通手段による導通が失敗した場合には、前記保守端末に対してエラー出力するネットワークエラー出力手段と、
を更に有することを特徴とする請求項4記載のクラスタシステム復旧システム。 - 前記現用機は、
前記故障状態取得手段にて取得した前記故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、前記保守端末に対してエラー出力するディスクエラー出力手段、
を更に有することを特徴とする請求項4記載のクラスタシステム復旧システム。 - 故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成され、該現用機がクラスタ構成に組み入れられ、該予備機がACTへ遷移可能かどうかは不明な状態(SBY:online)にある場合に現用機として動作するサーバであって、
前記状態管理手段を介して故障状態情報を取得する故障状態取得手段と、
前記故障状態情報が強制電源断機能の故障を示している場合には、前記予備機側の強制電源断機能の故障が疑われるため、保守端末に対してエラー出力する強制電源断機能エラー出力手段と、
前記故障状態取得手段にて取得した前記故障状態情報が、ネットワーク故障を示している場合には、ルータまでの導通を確認するルータ導通手段と、
前記ルータ導通手段による導通が失敗した場合には、前記保守端末に対してエラー出力するネットワークエラー出力手段と、
前記故障状態取得手段にて取得した前記故障状態情報が、共有ディスクまたは内蔵ディスクの故障を示している場合には、前記保守端末に対してエラー出力するディスクエラー出力手段と、
を有することを特徴とするサーバ。 - 故障状態を監視する故障監視手段と、故障状態に基づいて現用機及び予備機のサービス稼働状態を示すクラスタ状態を管理する状態管理手段と、サービス稼動中の状態(ACT)、ACTに遷移できる状態またはACTへ遷移可能かどうかは不明な状態(SBY:online)を含むクラスタ状態及び故障状態情報を格納する状態管理情報記憶手段と、をそれぞれ含む現用機と予備機、及び、該現用機と該予備機で共有する共有ディスクとで構成され、該現用機がクラスタ構成に組み入れられ、該予備機がACTに遷移可能か不明な状態(SBY:online)にある場合に、予備機として動作するサーバであって、
保守端末から導通確認が指示されると、前記現用機側のハードウェア制御手段に対して導通を確認する導通確認手段と、
前記導通確認手段で導通が確認された場合には、該予備機側の強制電源断機能の故障として、前記状態管理情報記憶手段の強制電源断機能監視リソースの故障回数をクリアし、前記現用機からの系切り替えを可能とする状態(SBY:online)に遷移させる故障回数クリア手段と、
を有することを特徴とするサーバ。 - 請求項7または8に記載のサーバを構成する各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010252890A JP5285044B2 (ja) | 2010-06-04 | 2010-11-11 | クラスタシステム復旧方法及びサーバ及びプログラム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010128891 | 2010-06-04 | ||
JP2010128891 | 2010-06-04 | ||
JP2010252890A JP5285044B2 (ja) | 2010-06-04 | 2010-11-11 | クラスタシステム復旧方法及びサーバ及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014673A JP2012014673A (ja) | 2012-01-19 |
JP5285044B2 true JP5285044B2 (ja) | 2013-09-11 |
Family
ID=45600975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010252890A Active JP5285044B2 (ja) | 2010-06-04 | 2010-11-11 | クラスタシステム復旧方法及びサーバ及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5285044B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104267689B (zh) * | 2014-09-22 | 2017-01-18 | 中国科学院寒区旱区环境与工程研究所 | 一种基于视频图像判别的超级计算机房断电预警与自动开启的管理方法 |
JP6421516B2 (ja) * | 2014-09-25 | 2018-11-14 | 沖電気工業株式会社 | サーバ装置、冗長構成サーバシステム、情報引継プログラム及び情報引継方法 |
US11936540B2 (en) | 2020-01-22 | 2024-03-19 | Nippon Telegraph And Telephone Corporation | System determination apparatus, system determination method and system determination program |
CN115190040B (zh) * | 2022-05-23 | 2023-09-29 | 浪潮通信技术有限公司 | 虚拟机高可用的实现方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0895933A (ja) * | 1994-09-21 | 1996-04-12 | Fujitsu Ltd | コンピュータシステム |
JP4353005B2 (ja) * | 2004-06-29 | 2009-10-28 | 株式会社日立製作所 | クラスタ構成コンピュータシステムの系切替方法 |
JP2007249389A (ja) * | 2006-03-14 | 2007-09-27 | Nec Computertechno Ltd | クラスタシステムおよびその障害検出方法 |
-
2010
- 2010-11-11 JP JP2010252890A patent/JP5285044B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012014673A (ja) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110071821B (zh) | 确定事务日志的状态的方法,节点和存储介质 | |
US6622261B1 (en) | Process pair protection for complex applications | |
CN108847982B (zh) | 一种分布式存储集群及其节点故障切换方法和装置 | |
JP4572250B2 (ja) | 計算機切り替え方法、計算機切り替えプログラム及び計算機システム | |
JP2005209201A (ja) | 高可用性クラスタにおけるノード管理 | |
WO2016058307A1 (zh) | 资源的故障处理方法及装置 | |
CN109471759B (zh) | 一种基于sas双控设备的数据库故障切换方法及设备 | |
CN112181660A (zh) | 一种基于服务器集群的高可用方法 | |
JP5285044B2 (ja) | クラスタシステム復旧方法及びサーバ及びプログラム | |
CN108173971A (zh) | 一种基于主备切换的MooseFS高可用方法及系统 | |
JP5285045B2 (ja) | 仮想環境における故障復旧方法及びサーバ及びプログラム | |
CN114461428A (zh) | 一种用于双机集群脑裂的仲裁方法 | |
CN114764380A (zh) | 一种基于etcd的分布式集群控制方法和装置 | |
US11418382B2 (en) | Method of cooperative active-standby failover between logical routers based on health of attached services | |
CN105959145A (zh) | 一种适用高可用性集群的并行管理服务器的方法及系统 | |
KR20140140719A (ko) | 가상 머신 동기화 장치 및 시스템과 이를 이용한 장애 처리 방법 | |
JP5277228B2 (ja) | クラスタシステム復旧方法、サーバ及びソフトウェア | |
CN117240694A (zh) | 一种基于keepalived的双机热备主备切换方法、装置及系统 | |
JP5277229B2 (ja) | クラスタシステム復旧方法、サーバ及びソフトウェア | |
JP2010231257A (ja) | 高可用性システム、高可用性システムの対障害対策方法 | |
JP3325785B2 (ja) | 計算機の故障検出・回復方式 | |
CN115549751A (zh) | 遥感卫星地面站监控系统和方法 | |
JP5594668B2 (ja) | ノード、クラスタリングシステム、クラスタリングシステムの制御方法、およびプログラム | |
US20130198377A1 (en) | Control method, control system, information processing apparatus, and computer-readable non-transitory medium | |
CN115499296B (zh) | 一种云桌面热备管理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130215 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130226 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130430 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130530 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5285044 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |