[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JPWO2015104841A1 - 多重系システムおよび多重系システム管理方法 - Google Patents

多重系システムおよび多重系システム管理方法 Download PDF

Info

Publication number
JPWO2015104841A1
JPWO2015104841A1 JP2015556697A JP2015556697A JPWO2015104841A1 JP WO2015104841 A1 JPWO2015104841 A1 JP WO2015104841A1 JP 2015556697 A JP2015556697 A JP 2015556697A JP 2015556697 A JP2015556697 A JP 2015556697A JP WO2015104841 A1 JPWO2015104841 A1 JP WO2015104841A1
Authority
JP
Japan
Prior art keywords
power supply
computer
monitoring
predetermined
supply mechanism
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015556697A
Other languages
English (en)
Other versions
JP6130520B2 (ja
Inventor
和彦 小俣
和彦 小俣
信孝 岡本
信孝 岡本
貴文 秦泉寺
貴文 秦泉寺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of JPWO2015104841A1 publication Critical patent/JPWO2015104841A1/ja
Application granted granted Critical
Publication of JP6130520B2 publication Critical patent/JP6130520B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/28Supervision thereof, e.g. detecting power-supply failure by out of limits supervision
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3234Power saving characterised by the action undertaken
    • G06F1/3287Power saving characterised by the action undertaken by switching off individual functional units in the computer system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/24Resetting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/26Power supply means, e.g. regulation thereof
    • G06F1/32Means for saving power
    • G06F1/3203Power management, i.e. event-based initiation of a power-saving mode
    • G06F1/3206Monitoring of events, devices or parameters that trigger a change in power modality
    • G06F1/3228Monitoring task completion, e.g. by use of idle timers, stop commands or wait commands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1441Resetting or repowering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/18Error detection or correction of the data by redundancy in hardware using passive fault-masking of the redundant circuits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2028Failover techniques eliminating a faulty processor or activating a spare
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2038Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with a single idle spare processing component
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2041Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant with more than one idle spare processing component

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Hardware Redundancy (AREA)
  • Debugging And Monitoring (AREA)

Abstract

【課題】多重系システムにおける障害検知構成を多重化して、障害発生を的確に検知し、必要な系切替動作を確実に実行可能とする。【解決手段】多重系システム10において、多重化された各コンピュータ150、180の電源機構200が、当該電源機構200の記憶装置201に対する、他装置300ないし該当コンピュータ150、180の他機構112からの所定情報の書込処理を監視し、当該書込処理が所定規則に対応したものでなかった場合、電源装置230の停止ないしリセットの動作を実行し、当該動作実行後、各コンピュータ150、180のうち他方のコンピュータに対して回復動作の指示を実行する演算装置204を備える構成とする。

Description

本発明は、多重系システムおよび多重系システム管理方法に関する。
例えば金融機関の基幹システムなど安易なシステムダウンが許容されないミッションクリティカルなシステムは、クラスタ構成すなわち多重系システムであることが一般的である。こうした多重系システムでは、現用系と待機系の各装置が相互監視を行い、現用系に関する異常検知に応じて待機系を現用系に切替えるといった運用がなされる。
上述のような多重系システムの監視、運用の技術としては、例えば以下のようなものが提案されている。すなわち、クライアント端末が、二重化されたネットワーク管理システムにアクセスしてシステム切替えを監視する監視プログラムを取得する過程と、取得した監視プログラムを起動する過程と、起動した監視プログラムにより二重化されたネットワーク管理システムに定期的にアクセスし、その応答によりネットワーク管理システムが切り替わったことを検出する過程を実行する技術(特許文献1参照)などである。
特開2005−4404号公報
現状、確かに現用系と待機系とでシステムの多重化が図られているが、一方で、異常検知およびそれに伴う系切替を担う機構は多重化されていない。そのため、該当機構に障害が発生すると、多重系システムにおける異常検知動作が行われなくなり、系切替動作の契機自体も発生せずにそのままサービス停止につながる場合も生じうる。つまり、異常検知と系切替の機構が単一障害点となり、現用系と待機系からなるシステム多重化の効果を根本的に毀損する懸念が残されている。
そこで本発明の目的は、多重系システムにおける障害検知構成を多重化して、障害発生を的確に検知し、必要な系切替動作を確実に実行可能とする技術を提供することにある。
上記課題を解決する本発明の多重系システムは、多重化された各コンピュータの電源機構が、当該電源機構の記憶装置に対する、他装置ないし該当コンピュータの他機構からの所定情報の書込処理を監視し、前記書込処理が所定規則に対応したものでなかった場合、電源の停止ないしリセットの動作を実行し、当該動作実行後、前記各コンピュータのうち他方のコンピュータに対して回復動作の指示を実行する演算装置を備えるものであることを特徴とする。なお、多重系システムで従来から備わっているクラスタリングソフトによる相互監視機能は、上述の各コンピュータにおいても当然備わっているものとする(以下同様)。
また、本発明の多重系システム管理方法は、多重化された各コンピュータの電源機構が、当該電源機構の記憶装置に対する、他装置ないし該当コンピュータの他機構からの所定情報の書込処理を監視し、前記書込処理が所定規則に対応したものでなかった場合、電源の停止ないしリセットの動作を実行し、当該動作実行後、前記各コンピュータのうち他方のコンピュータに対して回復動作の指示を実行することを特徴とする。
本発明によれば、多重系システムで従来から備わっているクラスタリングソフトによる相互監視機能に加えて、電源機構での監視機能を更に備えることで、多重系システムにおける障害検知構成を多重化して、障害発生を的確に検知し、必要な系切替動作を確実に実行可能となる。
第1実施形態の多重系システムを含むネットワーク構成例を示す図である。 第1実施形態のサーバの構成例を示す図である。 第1実施形態の電源機構の構成例を示す図である。 第1実施形態の監視テーブルの構成例を示す図である。 第1実施形態における多重系システム管理方法の処理手順例1を示すフロー図である。 第1実施形態における多重系システム管理方法の処理手順例2を示すフロー図である。 第2実施形態の多重系システムを含むネットワーク構成例を示す図である。 第2実施形態の監視用コンピュータの構成例を示す図である。 第2実施形態のサーバの構成例を示す図である。 第2実施形態における多重系システム管理方法の処理手順例1を示すフロー図である。 第2実施形態における多重系システム管理方法の処理手順例2を示すフロー図である。
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は第1実施形態の多重系システム10を含むネットワーク構成例を示す図である。図1に示す多重系システム10は、障害検知構成を多重化して、障害発生を的確に検知し、必要な系切替動作を確実に実行可能とするためのコンピュータシステムである。
ここで想定する多重系システム10としては、一例として金融機関で運用されている基幹システムを想定する。勿論、多重系システム10としては金融機関におけるシステムに限定されず、他業界における各種のサーバシステム(クラスタ構成され多重系を成している)を想定可能である。
こうした多重系システム10は、通常時に業務処理を実行する現用系サーバ150と、この現用系サーバ150に異常が生じた場合に当該現用系サーバ150に成り代わる待機系サーバ180とを含んでいる。これら現用系サーバ150および待機系サーバ180は、ネットワーク20を介して通信可能に結ばれ、既存のクラスタリングソフトにより多重系を構成している。また、これら現用系サーバ150および待機系サーバ180のそれぞれには、稼働用電源を供給する電源機構200が付帯している。この電源機構200は、所定電圧の電源供給や通信を行うためのコネクタで電源供給対象の現用系サーバ150および待機系サーバ180と接続されているものの、これらサーバ装置とは別構成のハードウェアとなっている。
続いて、多重系システム10を構成する現用系サーバ150および待機系サーバ180のハードウェア構成について説明する。以下、特に区別する必要が無い場合には、現用系サーバ150および待機系サーバ180を、サーバ100と総称することとする。図2は、第1実施形態のサーバ100の構成例を示す図である。
多重系システム10を構成するサーバ100は、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶装置101、RAMなど揮発性記憶装置で構成されるメモリ104、記憶装置101に保持されるOS(Operating System)102を起動し、適宜なプログラム103を読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置105、ネットワーク20と接続し他装置との通信処理を担う通信装置106、可搬媒体の読み取りドライブ107を備える。
なお、記憶装置101内には、多重系システム10を構成するサーバ100として必要な機能を実装する為のOS102およびプログラム103が記憶されている。このプログラム103としては、業務プログラム110、クラスタ監視プログラム111、および生存通知プログラム112が含まれる。このうち業務プログラム110は、例えば金融機関の所定業務に対応した処理を実行するためのプログラムである。また、クラスタ監視プログラム111は、現用系および待機系のサーバ間相互の異常監視を実行するための既存プログラムであり、既存のクラスタリングソフトに含まれる。また、生存通知プログラム112は、電源機構200の記憶装置201に対する所定情報の書込処理を実行するためのプログラムである。
この場合、サーバ100の演算装置105が上述のクラスタ監視プログラム111を実行することで、クラスタ監視機能が実装される。クラスタ監視機能は、現用系サーバ150および待機系サーバ180の各々に常駐し、従来からのハートビートなどサーバ間で互いに死活監視を行う動作を実現する。
また、サーバ100の演算装置105が上述の生存通知プログラム112を実行することで、生存通知機能が実装される。生存通知機能は、現用系サーバ150および待機系サーバ180の各々に常駐し、所定情報として、例えば現在時刻情報すなわちタイムスタンプを一定時間間隔でOS102のクロック機能等から得て、これを内部信号線30を介して電源機構200に対し送信する動作を実現する。
なお、サーバ100のOS102や所定のプログラムが、上述の生存通知プログラム112による生存通知機能の稼働状況をモニタリングしておき、生存通知機能においてスローダウンあるいは停止といった何らかの不具合事象発生を検知した場合、所定時間内に生存通知プログラム112を再実行して生存通知機能の再起動を行うとすれば好適である。こうした運用を行うことにより、不具合を生じた生存通知機能を速やかに復旧して、速やかに書込処理を再開することができる。多重系システム10を成すサーバ100の本来機能(OS102や業務プログラム110によう機能など)自体に不具合は発生していないにも関わらず、上述の書込処理の機能のみの不具合に由来する障害検知により系切替が実行される事態を的確に回避出来る。
次に、上述のサーバ100すなわち、現用系サーバ150および待機系サーバ180のそれぞれに付帯し、稼働電源を供給する電源機構200のハードウェア構成は以下の如くとなる。図3は第1実施形態の電源機構200の構成例を示す図である。
この電源機構200は、コンピュータの電源ユニットとして一般的に備わるトランスやヒューズ、冷却ファン、ヒートシンクなどからなる電源装置230と、この電源装置230のオンオフ制御を行う電源制御装置240を備えている。
このうち電源装置230は、上述のサーバ100におけるマザーボード上のコネクタや、記憶装置101や可搬媒体の読み取りドライブ107のコネクタと所定のケーブルで接続され、それらに所定電圧の直流を供給する装置となる。なお、上述のケーブルのうち1つの線は、微弱な待機電流が常に流れており、WOL(Wake−up On LAN)の信号など、電源供給対象のサーバ100のチップセット側からの制御信号を、電源制御装置240に伝達する信号線としての役割を担っている。本実施例では、この線を内部信号線30とする。
また、電源制御装置240は、所定プロセッサを備えたシステム管理用コントローラであるBMC(Baseboard Management Controller)で構成されている。一般的にこのBMCは、電源装置230での供給電圧や冷却ファンの回転数、サーバ100のCPU(演算装置105)を含む各種パーツの温度といった各種事象について常時監視し、OS102に通知する機能を備えている。このBMCすなわち電源制御装置240は、サーバ本体が電源オフ状態であっても、商用電源等の適宜な電源ソースが電源装置230に接続されているかぎり電力が供給され、稼働が継続される。つまり電源制御装置240は、電源供給対象のサーバ100におけるOS102など上位ソフトウェアとは独立した構成となっている。
上述したBMCたる電源制御装置240は、ROMなど適宜な不揮発性記憶装置で構成される記憶装置201、RAMなど揮発性記憶装置で構成されるメモリ203、記憶装置201に保持されるプログラム202をメモリ203に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうプロセッサたる演算装置204、上述の内部信号線30を介して電源供給対象たるサーバ100のチップセットと接続し、サーバ100のOS102との間で通信を行う通信装置205を備える。
こうした電源機構200の記憶装置201内には、電源機構200として必要な機能を実装する為のプログラム202と、監視テーブル225が記憶されている。このうちプログラム202としては、テーブル監視プログラム210、および電源制御プログラム211が含まれている。テーブル監視プログラム210は、上述のサーバ100における生存通知機能から内部通信線30を介し送信されてきた所定情報、例えばタイムスタンプを監視テーブル225に書込処理し、当該書込処理を実行する度に所定タイマーをリセットする動作を繰り返すと共に、監視テーブル225における情報更新が一定時間内にあったか否か繰り返し判定するためのプログラムである。また、電源制御プログラム211は、テーブル監視プログラム210からの通知を受けて、電源装置230に対する電源オフないしリセットの動作を実行し、当該動作実行後、待機系サーバ180に対して回復動作の指示を行うプログラムである。この電源制御プログラム211における電源オフないしリセットの機能は一般的なBMCにおける電源制御機能と同様である。
電源制御装置240の演算装置204が上述のテーブル監視プログラム210を実行することで、テーブル監視機能が実装される。また、電源制御装置240の演算装置204が上述の電源制御プログラム211を実行することで、電源制御機能が実装される。
この場合、テーブル監視機能は、電源機構200に常駐し、例えば、サーバ100の生存通知機能から送信されてくるのがタイムスタンプである場合、このタイムスタンプを内部信号線30を介して受信する度に監視テーブル225に書き込んで更新し続けると共に、監視テーブル225におけるタイムスタンプの更新が一定時間内にあったか否か、タイムスタンプ更新ごとにタイマーを起動してモニタリングし、一定時間内のタイムスタンプ更新が継続されるべきとの規則に基づいた判定を実行する。この判定により、上述のタイムスタンプ更新が一定時間内になされなかった時点を検知した場合、テーブル監視機能は、サーバ100すなわちOS102側からの書込処理が滞っていることを認識し、上述の電源制御機能に対し、電源装置230の電源オフないしリセットを指示する。
なお、上述の書込処理で監視テーブル225に書き込まれる情報として、図4に示すようにタイムスタンプの例をあげたが、その他にも、書込処理機会で変化しない特定の固定値、あるいは、書込処理機会ごとにインクリメントされる数値、など適宜な規則に応じた様々なものを採用することも出来る。
書込処理機会で変化しない特定の固定値(例:1)を上述の生存通知機能から受信し、これを監視テーブル225に書き込む場合、テーブル監視機能は、固定値の書込を行う度に所定時間内に他の所定値(例:0)で上書き更新する。テーブル監視機能は、この上書き更新を行う度にタイマーを起動し、一定時間内に上書き更新が実行されるべきとの規則に基づいた判定を実行し、上述の上書き更新が一定時間内になされなかった時点を検知した場合、サーバ100すなわちOS102側からの書込処理が滞っていることを認識し、上述の電源制御機能に対し、電源装置230の電源オフないしリセットを指示する。
また、監視テーブル225に対し、書込処理機会ごとにインクリメントされる数値を書き込む場合、テーブル監視機能は、上述の生存通知機能から受けた数値の書込を行う度にタイマーを起動し、一定時間内に更にインクリメントされた数値の書き込みが実行されるべきとの規則に基づいた判定を実行し、上述の数値の書き込みが一定時間内になされなかった時点を検知した場合、サーバ100すなわちOS102側からの書込処理が滞っていることを認識し、上述の電源制御機能に対し、電源装置230の電源オフないしリセットを指示する。
なお、上述のテーブル監視プログラム210によるテーブル監視機能と監視テーブル225の組み合わせは、いわゆるウォッチドッグタイマとみなすこともできる。
以下、本実施形態における多重系システム管理方法の実際手順について図に基づき説明する。以下で説明する多重系システム管理方法に対応する各種動作は、多重系システム10を構成する、上述のサーバ100および電源機構200が各々実行するプログラムによって実現される。そして各プログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図5は、本実施形態における多重系システム管理方法の処理手順例1を示すフロー図である。ここで、多重系システム10における現用系サーバ150が、業務プログラム110により金融機関の所定業務処理を継続的に実行中であると共に、この現用系サーバ150と待機系サーバ180は、上述のクラスタ監視プログラム111によるクラスタ監視機能で従来からのハートビートによる死活監視を互いに行っている状況にあるとする。また、このクラスタ監視機能による従来の死活監視と平行し、現用系サーバ150および待機系サーバ180に常駐する上述の生存通知機能が、内部信号線30経由で電源機構200に対してタイムスタンプを一定時間毎に送信しているものとする。
こうした状況下において、現用系サーバ150は、自身に常駐している生存通知機能が発したタイムスタンプの値を、当該現用系サーバ150のマザーボード上のコネクタから内部信号線30を経由し、電源機構200における電源制御装置240に送信する(s100)。
一方、電源機構200における電源制御装置240は、上述の現用系サーバ150の生存通知機能から送信されてきたタイムスタンプを、記憶装置201の監視テーブル225に書込処理する(s101)と共に、テーブル監視プログラム210によるテーブル監視機能によって、監視テーブル225へのタイムスタンプの書込処理タイミングを検知し、当該検知に応じて、所定時間でタイムアップするタイマーをリセットし、経時計測を開始する(s102)。
上述のタイマーが起動された状態における電源制御装置240は、上述のテーブル監視機能により、タイマーにおけるタイムアップまでの所定時間中、監視テーブル225でのタイムスタンプの次なる書込処理、すなわち更新事象を監視する(s103)。このタイムアップまでの監視中に、新たなタイムスタンプが生存通知機能から送られてきて、監視テーブル225でのタイムスタンプ更新を行った場合(s104:OK)、電源制御装置240は、当該タイムスタンプ更新に応じて、処理をステップs102に戻し、上述のタイマーをリセットして経時計測を再度開始する。
他方、このタイムアップまでの監視中に、新たなタイムスタンプを生存通知機能から受信出来ず、監視テーブル225でのタイムスタンプ更新が無かった場合(s104:NG)、電源制御装置240のテーブル監視機能は、現用系サーバ150すなわちOS102においてタイムスタンプ発行が出来ない何らかの障害が発生していると認識し、電源制御プログラム211による電源制御機能に対し、電源装置230の電源オフないしリセットを指示する(s105)。この電源オフないしリセットの指示を受けた電源制御機能は、電源装置230を電源オフないしリセットさせる(s106)。この電源装置230を電源オフないしリセットさせる動作は従来の電源制御動作と同様である。
電源制御装置240は、電源制御機能により、上述の電源装置230での電源オフないしリセットの動作完了を検知し、内部信号線30およびネットワーク20を経由して、待機系サーバ180に対する回復動作の指示を実行する(s107)。この指示を受けた待機系サーバ180は従来同様の手順で、現用系サーバ150から速やかに業務処理を受け継いで、新たな現用系として稼働を開始することとなる。
なお、上述した、監視テーブル225でのタイムスタンプ更新を監視する動作フローとは別に、従来のクラスタ監視機能による死活監視で異常発生が検知された場合もステップs107と同様に、待機系サーバ180が現用系サーバ150に成り代わり、新たな現用系として稼働する動作フローが実行される。この処理については従来同様であるので説明を省略する。いずれにしても、異常発生を早く検知した方の動作フローが待機系サーバ180による回復動作に至る処理を実行する。
また、現用系サーバ150および待機系サーバ180におけるOS102等の本来機能、およびそれを実現するハードウェアに異常は無く、生存通知プログラム112による生存通知機能にのみ不具合が生じた場合、特に対応動作を行わないと、上述のタイムスタンプの送信、それに伴う監視テーブル225でのタイムスタンプ更新が実行されないことになり、無意味な回復動作が実行される事態となる。
そこで、図6のフローにて示すように、現用系サーバ150および待機系サーバ180のOS102や所定のプログラムは、上述の生存通知プログラム112による生存通知機能の稼働状況を常にモニタリングし(s200)、生存通知機能においてスローダウンあるいは停止といった何らかの不具合事象発生を検知した場合(s201:Y)、所定時間内に生存通知プログラム112を再実行して生存通知機能の再起動を行う(s202)。この一連の処理は、上述のステップs100〜s107の処理とは平行に実行されているものとする。
こうした運用を行うことにより、不具合を生じた生存通知機能を速やかに復旧して、速やかにタイムスタンプの発行と監視テーブル225でのタイムスタンプ更新の処理を再開することができる。
続いて、第1実施形態とは異なり、図7に例示するように、ネットワーク20を介し現用系サーバ150および待機系サーバ180と通信可能な監視用コンピュータ300が生存通知機能を実装する第2実施形態について説明する。
この場合、監視用コンピュータ300のハードウェア構成は以下のようなものとなる。図8は第2実施形態の監視用コンピュータ300の構成例を示す図である。監視用コンピュータ300は、ハードディスクドライブなど適宜な不揮発性記憶装置で構成される記憶装置301、RAMなど揮発性記憶装置で構成されるメモリ304、記憶装置301に保持されるOS(Operating System)302を起動し、適宜なプログラム303を読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUなどの演算装置305、ネットワーク20と接続しサーバ100との通信処理を担う通信装置306を備える。
なお、上述のプログラム303としては生存通知プログラム310が含まれている。この生存通知プログラム310は、上述した電源機構200における監視テーブル225に対するタイムスタンプの書込要求を、現用系サーバ150および待機系サーバ180に対して所定間隔で繰り返し送信するプログラムである。
この場合、監視用コンピュータ300の演算装置305が上述の生存通知プログラム310を実行することで生存通知機能が実装される。生存通知機能は、監視用コンピュータ300に常駐し、所定情報として、例えば現在時刻情報すなわちタイムスタンプを一定時間間隔でOS302のクロック機能等から得て、これを含む書込要求をネットワーク20を介して現用系サーバ150および待機系サーバ180に対し送信する動作を実現する。
こうしたシステム構成における現用系サーバ150および待機系サーバ180は、監視用コンピュータ300からの書込要求を受けるごとに、当該書込要求を電源機構200に転送することになる。この書込要求の転送処理は、現用系サーバ150および待機系サーバ180における転送プログラム113により実行される。第2実施形態における現用系サーバ150および待機系サーバ180すなわちサーバ100のハードウェア構成については図9に示すとおりであるが、この転送プログラム113を保持する一方、生存通知プログラム112を保持しない構成となっている以外は第1実施形態と同様である。
また、第1実施形態と同様に、監視用コンピュータ300のOS302や所定のプログラムが、上述の生存通知プログラム310による生存通知機能の稼働状況をモニタリングしておき、生存通知機能においてスローダウンあるいは停止といった何らかの不具合事象発生を検知した場合、所定時間内に生存通知プログラム310を再実行して生存通知機能の再起動を行うとすれば好適である。こうした運用を行うことにより、不具合を生じた生存通知機能を速やかに復旧して、速やかに書込処理を再開することができる。
一方、第2実施形態における電源機構200のハードウェア構成は、第1実施形態での構成と同様であるため説明は省略する。
続いて、当該第2実施形態における多重系システム管理方法について説明する。図10は第2実施形態における多重系システム管理方法の処理手順例1を示すフロー図である。ここで、多重系システム10における現用系サーバ150が、業務プログラム110により金融機関の所定業務処理を継続的に実行中であると共に、この現用系サーバ150と待機系サーバ180は、上述のクラスタ監視プログラム111によるクラスタ監視機能で従来からのハートビートによる死活監視を互いに行っている状況にあるとする。また、このクラスタ監視機能による従来の死活監視と平行し、監視用コンピュータ300に常駐する上述の生存通知機能が、ネットワーク20経由で上述の書込要求を現用系サーバ150に対して一定時間毎に送信しているものとする。
こうした状況下において、監視用コンピュータ300は、自身に常駐している生存通知機能が発したタイムスタンプの値を、通信装置306を用いてネットワーク20経由で現用系サーバ150に送信する(s300)。
一方、現用系サーバ150は、監視用コンピュータ300から書込要求を受信し、この書込要求を、上述の転送プログラム113による転送機能で、当該現用系サーバ150のマザーボード上のコネクタから内部信号線30を経由し、電源機構200における電源制御装置240に転送する(s301)。
電源機構200における電源制御装置240は、上述の現用系サーバ150の転送機能から送信されてきた書込要求を受信し、この書込要求が示すタイムスタンプを、記憶装置201の監視テーブル225に書込処理する(s302)と共に、テーブル監視プログラム210によるテーブル監視機能によって、監視テーブル225へのタイムスタンプの書込処理タイミングを検知し、当該検知に応じて、所定時間でタイムアップするタイマーをリセットし、経時計測を開始する(s303)。
上述のタイマーが起動された状態における電源制御装置240は、上述のテーブル監視機能により、タイマーにおけるタイムアップまでの所定時間中、監視テーブル225でのタイムスタンプの次なる書込処理、すなわち更新事象を監視する(s304)。このタイムアップまでの監視中に、新たなタイムスタンプが転送機能から送られてきて、監視テーブル225でのタイムスタンプ更新を行った場合(s305:OK)、電源制御装置240は、当該タイムスタンプ更新に応じて、処理をステップs303に戻し、上述のタイマーをリセットして経時計測を再度開始する。
他方、このタイムアップまでの監視中に、新たなタイムスタンプを転送機能から受信出来ず、監視テーブル225でのタイムスタンプ更新が無かった場合(s305:NG)、電源制御装置240のテーブル監視機能は、現用系サーバ150すなわちOS102において監視用コンピュータ300からの書込要求を転送出来ない何らかの障害が発生していると認識し、電源制御プログラム211による電源制御機能に対し、電源装置230の電源オフないしリセットを指示する(s306)。この電源オフないしリセットの指示を受けた電源制御機能は、電源装置230を電源オフないしリセットさせる(s307)。この電源装置230を電源オフないしリセットさせる動作は従来の電源制御動作と同様である。
電源制御装置240は、電源制御機能により、上述の電源装置230での電源オフないしリセットの動作完了を検知し、内部信号線30およびネットワーク20を経由して、待機系サーバ180に対する回復動作の指示を実行する(s308)。この指示を受けた待機系サーバ180は従来同様の手順で、現用系サーバ150から速やかに業務処理を受け継いで、新たな現用系として稼働を開始することとなる。
また、現用系サーバ150および待機系サーバ180におけるOS102等の本来機能、およびそれを実現するハードウェアに異常は無く、転送プログラム113による転送機能にのみ不具合が生じた場合、特に対応動作を行わないと、上述のタイムスタンプを含む書込要求の転送、それに伴う監視テーブル225でのタイムスタンプ更新が実行されないことになり、無意味な回復動作が実行される事態となる。
そこで、図11のフローにて示すように、監視用コンピュータ300のOS302や所定のプログラムは、上述の生存通知プログラム310による生存通知機能の稼働状況を常にモニタリングし(s400)、生存通知機能においてスローダウンあるいは停止といった何らかの不具合事象発生を検知した場合(s401:Y)、所定時間内に生存通知プログラム310を再実行して生存通知機能の再起動を行う(s402)。この一連の処理は、上述のステップs300〜s308の処理とは平行に実行されているものとする。
こうした運用を行うことにより、不具合を生じた生存通知機能を速やかに復旧して、速やかにタイムスタンプの発行と、これを含む書込要求の送信、ならびに書込要求に伴う監視テーブル225でのタイムスタンプ更新の処理を再開することができる。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明はこれに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、多重系システムで従来から備わっているクラスタリングソフトによる相互監視機能に加えて、電源機構での監視機能を更に備えることで、多重系システムにおける障害検知構成を多重化して、障害発生を的確に検知し、ひいては必要な系切替動作を確実に実行可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本実施形態の多重系システムにおいて、前記多重化された各コンピュータが、前記書込処理を、前記電源機構の記憶装置に対して所定間隔で繰り返し実行する演算装置を備えるものであるとしてもよい。
これによれば、電源機構の記憶装置に対する書込処理が一定頻度で実行され、この書込処理の途絶事象等を所定規則に対応しない事象として迅速に検知出来ることになる。
また、本実施形態の多重系システムにおいて、前記多重化された各コンピュータの演算装置は、前記書込処理として、現在時刻情報を所定時間ごとに前記電源機構の記憶装置に対して書き込むものであり、前記電源機構の演算装置は、当該電源機構の記憶装置に書込処理された前記現在時刻情報を所定時間ごとに読み取り、前記現在時刻情報が所定時間以上更新されていなかった場合、電源の停止ないしリセットの動作を実行し、当該動作実行後、前記各コンピュータのうち他方のコンピュータに対して回復動作の指示を実行するものである、としてもよい。
これによれば、電源機構の記憶装置での現在時刻情報すなわちタイムスタンプの更新が一定時間内にあったか否かといった判定を行うことで、該当コンピュータが上述の書込処理を実行できない何らかの異常状態にあることを簡便かつ確実に検知出来ることになる。
また、本実施形態の多重系システムにおいて、前記多重化された各コンピュータの演算装置は、前記書込処理の実行機能を、所定事象の発生検知に応じて再起動するものであるとしてもよい。
これによれば、上述の書込処理を行う機能(生存通知プログラムにより実装される機能)自体に何らかの不具合が生じた場合に対応して当該機能を再起動し、迅速に書込処理を再開することが可能となる。そのため、多重系システムを成すコンピュータ自体に不具合は発生していないにも関わらず、上述の書込処理の機能のみの不具合に由来する障害検知により系切替が実行される事態を回避出来る。
また、本実施形態の多重系システムにおいて、前記多重化された各コンピュータと通信する通信装置と、前記電源機構の記憶装置に対する前記所定規則に対応した前記所定情報の書込要求を、前記各コンピュータに対して所定間隔で繰り返し送信する演算装置と、を備えた監視用コンピュータを更に含み、前記多重化された各コンピュータの演算装置は、前記監視用コンピュータからの前記書込要求を受けるごとに、当該書込要求が示す所定情報を、前記電源機構の記憶装置に対して書き込むものである、としてもよい。
これによれば、多重系システムを成す現用系及び待機系の各コンピュータとは完全に別体の装置すなわち監視用コンピュータから、上述の書込処理に対応した要求を行うことになり、現用系及び待機系での生存通知プログラム自体の破損、停止といった事態とは無関係に障害検知機能が維持されやすくなる。
また、本実施形態の多重系システムにおいて、前記監視用コンピュータの演算装置は、前記書込要求として、現在時刻情報を所定時間ごとに前記電源機構の記憶装置に対して書き込む要求を、前記各コンピュータに送信するものであり、前記多重化された各コンピュータの演算装置は、前記監視用コンピュータからの前記書込要求を受けるごとに、当該書込要求が示す現在時刻情報を、前記電源機構の記憶装置に対して書き込むものである、としてもよい。
これによれば、電源機構の記憶装置での現在時刻情報すなわちタイムスタンプの更新が一定時間内にあったか否かといった判定を行うことで、該当コンピュータが上述の監視用コンピュータ由来の書込要求に応じた書込処理を実行できない何らかの異常状態にあることを簡便かつ確実に検知出来ることになる。
また、本実施形態の多重系システムにおいて、前記監視用コンピュータの演算装置は、前記書込要求の実行機能を、所定事象の発生検知に応じて再起動するものであるとしてもよい。
これによれば、上述の書込要求を行う機能(生存通知プログラムにより実装される機能)自体に何らかの不具合が生じた場合に対応して当該機能を再起動し、迅速に書込処理を再開することが可能となる。そのため、多重系システムを成すコンピュータ自体に不具合は発生していないにも関わらず、監視用コンピュータにおける不具合に由来する障害検知により系切替が実行される事態を回避出来る。
10 多重系システム
20 ネットワーク
30 内部信号線
100 サーバ(コンピュータ)
101 記憶装置
102 OS(Operating System)
103 プログラム
104 メモリ
105 演算装置
106 通信装置
107 ドライブ
110 業務プログラム
111 クラスタ監視プログラム
112 生存通知プログラム
113 転送プログラム
150 現用系サーバ
180 待機系サーバ
200 電源機構
201 記憶装置
202 プログラム
203 メモリ
204 演算装置
205 通信装置
210 テーブル監視プログラム
211 電源制御プログラム
225 監視テーブル
230 電源装置
240 電源制御装置
300 監視用コンピュータ
301 記憶装置
302 OS(Operating System)
303 プログラム
304 メモリ
305 演算装置
306 通信装置
310 生存通知プログラム

Claims (8)

  1. 多重化された各コンピュータの電源機構が、
    当該電源機構の記憶装置に対する、他装置ないし該当コンピュータの他機構からの所定情報の書込処理を監視し、前記書込処理が所定規則に対応したものでなかった場合、電源の停止ないしリセットの動作を実行し、当該動作実行後、前記各コンピュータのうち他方のコンピュータに対して回復動作の指示を実行する演算装置を備えるものである、
    ことを特徴とする多重系システム。
  2. 前記多重化された各コンピュータが、
    前記書込処理を、前記電源機構の記憶装置に対して所定間隔で繰り返し実行する演算装置を備えるものであることを特徴とする請求項1に記載の多重系システム。
  3. 前記多重化された各コンピュータの演算装置は、
    前記書込処理として、現在時刻情報を所定時間ごとに前記電源機構の記憶装置に対して書き込むものであり、
    前記電源機構の演算装置は、
    当該電源機構の記憶装置に書込処理された前記現在時刻情報を所定時間ごとに読み取り、前記現在時刻情報が所定時間以上更新されていなかった場合、電源の停止ないしリセットの動作を実行し、当該動作実行後、前記各コンピュータのうち他方のコンピュータに対して回復動作の指示を実行するものである、
    ことを特徴とする請求項2に記載の多重系システム。
  4. 前記多重化された各コンピュータの演算装置は、
    前記書込処理の実行機能を、所定事象の発生検知に応じて再起動するものであることを特徴とする請求項3に記載の多重系システム。
  5. 前記多重化された各コンピュータと通信する通信装置と、
    前記電源機構の記憶装置に対する前記所定規則に対応した前記所定情報の書込要求を、前記各コンピュータに対して所定間隔で繰り返し送信する演算装置と、
    を備えた監視用コンピュータを更に含み、
    前記多重化された各コンピュータの演算装置は、
    前記監視用コンピュータからの前記書込要求を受けるごとに、当該書込要求が示す所定情報を、前記電源機構の記憶装置に対して書き込むものである、
    ことを特徴とする請求項1に記載の多重系システム。
  6. 前記監視用コンピュータの演算装置は、
    前記書込要求として、現在時刻情報を所定時間ごとに前記電源機構の記憶装置に対して書き込む要求を、前記各コンピュータに送信するものであり、
    前記多重化された各コンピュータの演算装置は、
    前記監視用コンピュータからの前記書込要求を受けるごとに、当該書込要求が示す現在時刻情報を、前記電源機構の記憶装置に対して書き込むものである、
    ことを特徴とする請求項5に記載の多重系システム。
  7. 前記監視用コンピュータの演算装置は、
    前記書込要求の実行機能を、所定事象の発生検知に応じて再起動するものであることを特徴とする請求項6に記載の多重系システム。
  8. 多重化された各コンピュータの電源機構が、
    当該電源機構の記憶装置に対する、他装置ないし該当コンピュータの他機構からの所定情報の書込処理を監視し、前記書込処理が所定規則に対応したものでなかった場合、電源の停止ないしリセットの動作を実行し、当該動作実行後、前記各コンピュータのうち他方のコンピュータに対して回復動作の指示を実行する、
    ことを特徴とする多重系システム管理方法。
JP2015556697A 2014-01-10 2014-01-10 多重系システムおよび多重系システム管理方法 Active JP6130520B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/050354 WO2015104841A1 (ja) 2014-01-10 2014-01-10 多重系システムおよび多重系システム管理方法

Publications (2)

Publication Number Publication Date
JPWO2015104841A1 true JPWO2015104841A1 (ja) 2017-03-23
JP6130520B2 JP6130520B2 (ja) 2017-05-17

Family

ID=53523688

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015556697A Active JP6130520B2 (ja) 2014-01-10 2014-01-10 多重系システムおよび多重系システム管理方法

Country Status (7)

Country Link
US (1) US10055004B2 (ja)
EP (1) EP3093766A4 (ja)
JP (1) JP6130520B2 (ja)
CN (1) CN105579973A (ja)
AU (1) AU2014376751B2 (ja)
SG (1) SG11201602367WA (ja)
WO (1) WO2015104841A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023135083A (ja) * 2022-03-15 2023-09-28 Necプラットフォームズ株式会社 情報処理システム、制御方法およびプログラム

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157115B2 (en) * 2015-09-23 2018-12-18 Cloud Network Technology Singapore Pte. Ltd. Detection system and method for baseboard management controller
JP6787239B2 (ja) * 2017-04-25 2020-11-18 横河電機株式会社 制御装置、制御方法、及び制御プログラム
CN110018925B (zh) * 2018-01-10 2023-08-29 厦门雅迅网络股份有限公司 系统安全冗余方法及计算机可读存储介质
JP7221070B2 (ja) * 2019-02-07 2023-02-13 日立Astemo株式会社 電子制御装置、制御方法
JP6977740B2 (ja) * 2019-02-22 2021-12-08 横河電機株式会社 コンピュータシステム、コンピュータ装置およびライセンス管理方法
TWI715005B (zh) * 2019-04-08 2021-01-01 神雲科技股份有限公司 用於監控基板管理控制器之常駐程序的方法
US11985269B2 (en) * 2021-10-29 2024-05-14 Intermedia.Net, Inc. Voice media decoupling

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013051145A1 (ja) * 2011-10-06 2013-04-11 富士通株式会社 コンピュータシステム、管理装置、管理方法、及びプログラム
JP2013232142A (ja) * 2012-05-01 2013-11-14 Hitachi Ltd 二重化装置および電源停止方法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4912708A (en) * 1988-03-22 1990-03-27 Siemens Transmission Systems, Inc. Automatic microprocessor fault recovery system
JPH06180690A (ja) * 1992-12-11 1994-06-28 Mitsubishi Electric Corp 多重計算機システム制御方式
JPH06318160A (ja) * 1993-05-07 1994-11-15 Fujitsu Ltd 二重化プロセッサ・システムの系構成制御方式
US5491788A (en) * 1993-09-10 1996-02-13 Compaq Computer Corp. Method of booting a multiprocessor computer where execution is transferring from a first processor to a second processor based on the first processor having had a critical error
US5961622A (en) * 1997-10-23 1999-10-05 Motorola, Inc. System and method for recovering a microprocessor from a locked bus state
JP4679009B2 (ja) 2001-09-20 2011-04-27 キヤノン株式会社 画像形成装置
US6952795B2 (en) * 2001-09-24 2005-10-04 Motorola, Inc. Method and apparatus for verifying the integrity of control module operation
US6952785B1 (en) * 2002-03-04 2005-10-04 Cisco Technology, Inc. Methods and apparatus for powering a data communications port
JP4129381B2 (ja) * 2002-09-25 2008-08-06 株式会社ルネサステクノロジ 不揮発性半導体記憶装置
JP4596750B2 (ja) 2003-06-11 2010-12-15 日本電信電話株式会社 二重化ネットワーク管理システムの切替え自動検出方法,二重化ネットワーク管理システム,監視プログラムおよびネットワーク管理システム用プログラム
US7246256B2 (en) * 2004-01-20 2007-07-17 International Business Machines Corporation Managing failover of J2EE compliant middleware in a high availability system
JP2006285631A (ja) * 2005-03-31 2006-10-19 Yokogawa Electric Corp 二重化システム
JP5377898B2 (ja) * 2008-07-10 2013-12-25 株式会社日立製作所 クラスタリングを構成する計算機システムの系切替方法、及びシステム
JP5534021B2 (ja) 2010-09-16 2014-06-25 富士通株式会社 ストレージ装置、制御部およびストレージ装置制御方法
US8468383B2 (en) * 2010-12-08 2013-06-18 International Business Machines Corporation Reduced power failover system
CN102332751B (zh) 2011-07-13 2014-02-12 南京国电南自电网自动化有限公司 智能变电站接入双套过程层设备的测控装置及其测控方法
JP2013161252A (ja) 2012-02-03 2013-08-19 Fujitsu Ltd 冗長コンピュータ制御プログラム、方法、及び装置
WO2013140512A1 (ja) 2012-03-19 2013-09-26 富士通株式会社 情報処理装置、誤接続検出方法、及び誤接続検出プログラム
CN102902615B (zh) 2012-09-18 2016-12-21 曙光信息产业(北京)有限公司 一种Lustre并行文件系统错误报警方法及其系统
JP2015162000A (ja) * 2014-02-26 2015-09-07 富士通株式会社 情報処理装置,制御装置及びログ情報収集方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013051145A1 (ja) * 2011-10-06 2013-04-11 富士通株式会社 コンピュータシステム、管理装置、管理方法、及びプログラム
JP2013232142A (ja) * 2012-05-01 2013-11-14 Hitachi Ltd 二重化装置および電源停止方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023135083A (ja) * 2022-03-15 2023-09-28 Necプラットフォームズ株式会社 情報処理システム、制御方法およびプログラム

Also Published As

Publication number Publication date
SG11201602367WA (en) 2016-05-30
WO2015104841A1 (ja) 2015-07-16
US20160349830A1 (en) 2016-12-01
US10055004B2 (en) 2018-08-21
CN105579973A (zh) 2016-05-11
EP3093766A4 (en) 2017-09-06
JP6130520B2 (ja) 2017-05-17
AU2014376751B2 (en) 2017-07-27
EP3093766A1 (en) 2016-11-16
AU2014376751A1 (en) 2016-04-21

Similar Documents

Publication Publication Date Title
JP6130520B2 (ja) 多重系システムおよび多重系システム管理方法
US8954784B2 (en) Reduced power failover
WO2018095107A1 (zh) 一种bios程序的异常处理方法及装置
US8347139B2 (en) Power supply control device, a storage system, a control method of the power supply control device, a control method of a disk array unit and a computer readable medium thereof
CN111831488B (zh) 具有安全等级设计的tcms-mpu控制单元
JP2011048534A (ja) フォールトトレラントコンピュータ及び電源制御方法
US20130332751A1 (en) Power supply and program
JP6179101B2 (ja) 管理装置、管理方法、および管理プログラム
JP6124644B2 (ja) 情報処理装置および情報処理システム
JP2013218400A (ja) 計算機の制御方法、計算機及び計算機システム
JP2008203957A (ja) Nasシステム
JP2012128573A (ja) 二重化システムおよびそのシステムを用いたビル管理システム
JP2013125493A (ja) コンピュータシステム、待機電力削減方法、及びプログラム
JP5332257B2 (ja) サーバシステム、サーバ管理方法、およびそのプログラム
JP2008152552A (ja) 計算機システム及び障害情報管理方法
JP4655718B2 (ja) コンピュータシステム及びその制御方法
JP2008217728A (ja) 仮想計算機システムの障害情報採取方法
JPWO2014112039A1 (ja) 情報処理装置、情報処理装置制御方法及び情報処理装置制御プログラム
JP2009230262A (ja) 情報処理装置、情報処理方法および履歴情報蓄積部制御プログラム
TWI461905B (zh) 可遠端當機復原的運算裝置、用於運算裝置之遠端當機復原之方法及電腦可讀取媒體
JP2010026830A (ja) システムに負荷をかけないデータバックアップ方法
JP2017033321A (ja) 電源制御システム、電源制御装置および電源制御方法
US20240219986A1 (en) Multi-node system and power supply control method
JP2011204046A (ja) ストール監視装置、ストール監視方法及びプログラム
JP6540142B2 (ja) ベースボード管理コントローラ、情報処理システム及びベースボード管理コントローラの処理実行方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170413

R150 Certificate of patent or registration of utility model

Ref document number: 6130520

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150