JP2005250626A - コンピュータシステム及びそのプログラム。 - Google Patents
コンピュータシステム及びそのプログラム。 Download PDFInfo
- Publication number
- JP2005250626A JP2005250626A JP2004057306A JP2004057306A JP2005250626A JP 2005250626 A JP2005250626 A JP 2005250626A JP 2004057306 A JP2004057306 A JP 2004057306A JP 2004057306 A JP2004057306 A JP 2004057306A JP 2005250626 A JP2005250626 A JP 2005250626A
- Authority
- JP
- Japan
- Prior art keywords
- server
- site
- primary
- storage
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1034—Reaction to server failures by a load balancer
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/40—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass for recovering from a failure of a protocol instance or entity, e.g. service redundancy protocols, protocol state redundancy or protocol service redirection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1029—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】正サイトの障害発生によるサービスの停止時間を短くし、迅速にフェイルオーバする。
【解決手段】通常運用に供される第1サイトと、第1サイトに障害が発生した際に運用に供される第2サイトとを備え、第1ストレージ及び第2ストレージは、互いの記憶内容を等しくする同期部を有するコンピュータシステムであって、クライアントは、サービスが提供されるサーバにアクセスするためのアドレス情報、当該アドレス情報の有効期間を規定する情報と共に記録するキャッシュを有し、第1サーバは、第2サイトとの通信が不可能であることが検出されると、クライアントに対して、記録されたDNS情報の有効時間の短縮を指示する第1リクエストログ操作処理部を有する。
【選択図】 図1
【解決手段】通常運用に供される第1サイトと、第1サイトに障害が発生した際に運用に供される第2サイトとを備え、第1ストレージ及び第2ストレージは、互いの記憶内容を等しくする同期部を有するコンピュータシステムであって、クライアントは、サービスが提供されるサーバにアクセスするためのアドレス情報、当該アドレス情報の有効期間を規定する情報と共に記録するキャッシュを有し、第1サーバは、第2サイトとの通信が不可能であることが検出されると、クライアントに対して、記録されたDNS情報の有効時間の短縮を指示する第1リクエストログ操作処理部を有する。
【選択図】 図1
Description
本発明は、正サイトと副サイトによって運用されるコンピュータシステムに関し、特に障害発生時の切替技術に関する。
情報化社会において、インターネット(登録商標、以下同じ)を経由してサービスを提供するシステムが多く運用されている。例えば、指定券の予約システムやネットワークバンキングシステムがある。このようなシステムにおいては、二つのサイト(正サイトと副サイト)を設け、副サイトをホットスタンバイ状態で待機させることによって、正サイトに障害が生じても、副サイトに速やかに切り替えることによって、障害による停止時間を短くしている(例えば、特許文献1参照。)。
また、インターネット上にはDNSサーバが設けられており、クライアントからアクセス先のサーバのIPアドレスを与える名前解決処理を行っている。また、このIPアドレスを与えるDNS情報のキャッシュをインターネット上に設けることによって、DNSサーバの負荷を軽減し、名前解決処理時間を短縮している(例えば、非特許文献1参照。)。
特開2002−312189号公報
P. Mockapetris他、Request for Comments:1034、DOMAIN NAMES - CONCEPTS AND FACILITIES、1987年11月、インターネット<URL:http://www.ietf.org/rfc/rfc1034.txt>
前述した障害発生時に、アクセス先を正サイトから副サイトに切り替えるためにDNSサーバのDNS情報を書き換えたとしても、インターネット上に設けられたDNS情報のキャッシュの有効時間によっては、そのキャッシュされたDNS情報に基づいて、クライアントから正サイトに対するアクセスが生じ、副サイトへアクセス先を切り替えるのに時間を要し、サービスの停止時間が長くなることがあった。
本発明は、正サイトの障害発生によるサービスの停止時間を短くし、迅速にフェイルオーバすることを目的とする。
本発明は、クライアントにサービスを提供する第1サーバと、前記第1サーバに接続され前記第1サーバに提供されるデータを記憶する第1ストレージとを含む第1サイトと、クライアントにサービスを提供する第2サーバと、前記第2サーバに接続され前記第2サーバに提供されるデータを記憶する第2ストレージとを含む第2サイトと、を備え、前記第1サイトは通常運用に供され、前記副サイトは前記正サイトに障害が発生した際に運用に供され、前記第1ストレージ及び前記第2ストレージは、互いの記憶内容を等しくする同期部を有するコンピュータシステムであって;前記クライアントは、前記サービスが提供されるサーバにアクセスするためのアドレス情報、当該アドレス情報の有効期間を規定する情報と共に記録するキャッシュを有し;前記第1サーバは、前記第2サイトとの通信が不可能であることが検出されると、前記クライアントに対して、前記記録されたDNS情報の有効時間の短縮を指示する第1リクエストログ操作処理部を有する。
本発明によると、フェイルオーバ(副サイトへの処理の切り替え)を高速化することができる。
以下、本発明の実施の形態を図面を参照して説明する。
図1は、本発明の実施の形態のコンピュータシステムの構成を示すブロック図である。
本発明の実施の形態のコンピュータシステムは、正サーバホスト100、正サーバホスト100に接続される正ストレージ150、副サーバホスト200、副サーバホスト200に接続される副ストレージ250、正サーバホスト100から提供されるサービスを受けるクライアントホスト300及びDNSホスト400によって構成されている。なお、正サーバホスト100及び正ストレージ150は通常運用に供される正サイトを構成し、副サーバホスト200及び副ストレージ250は正サイトに障害が発生した時の運用に供される副サイトを構成している。
正サーバホスト100は、CPU、メモリ、記憶装置及びインターフェースが備わるコンピュータ装置であり、各種プログラムが動作している。具体的には、正サーバホスト100では、正リクエストログ操作プログラム101、正クラスタプログラム102及びアプリケーションプログラム103が動作している。
正リクエストログ操作プログラム101は、後述する障害サスペンド検出時にクライアントホスト300対してリクエストログに関する操作を指示する。
正クラスタプログラム102は、正ストレージ150のペア状態監視プログラム151からリモートコピーの監視結果の通知を受け、リモートコピーのペア状態を監視する。また、正クラスタプログラム102は、ハートビート等の障害監視手法を用いて、副サーバホスト200の動作を監視する。なお、副サーバホスト200の監視は、正クラスタプログラム102ではなく、正サーバホスト100の他の構成で実行してもよい。
アプリケーションプログラム103は、広域ネットワーク500を介してサーバ装置100に接続されたクライアントホスト300に、データベースサービスやウェブサービス等を提供する。
また、正サーバホスト100では、アプリケーションプログラム103から正ストレージ150へのアクセスを実現するための、データベースシステム104及び/又はファイルシステム105が動作している。
データベースシステム104は、アプリケーションプログラム(特にデータベースアプリケーションプログラム)103からのアクセスをブロックアクセス又はファイルI/Oに変更して、正ストレージ150にデータ入出力要求を送る。アプリケーションプログラム103は、データベースシステム104によってデータベースに記憶されたデータ単位でデータを入出力することができる。
ファイルシステム105は、アプリケーションプログラム103又はデータベースシステム104からのファイルアクセスをブロックアクセスに変更して、正ストレージ150にデータ入出力要求を送る。アプリケーションプログラム103は、ファイルシステム105によってファイル単位でデータを入出力することができる。
正サーバホスト100には、インターフェースとして、広域ネットワーク500に対するインターフェース(例えば、イーサネットカードのようなNIC:Network Interface Card)と、正ストレージ150に対するインターフェース(例えば、SCSI:Small Computer System Interface、FC:Fibre Channel等)とが備わっている。
正ストレージ装置150は、制御部、物理ディスク及びインターフェースを備えた記憶装置で、正サーバホスト100に提供されるデータを記憶している。
制御部は、CPU及びメモリを備え、正サーバホスト100からのデータ入出力要求を受け付け、正サーバホスト100にデータを送信する。また、制御部では、ペア状態通知プログラム151及びリモートコピープログラム153が動作している。
ペア状態通知プログラム151は、リモートコピープログラム153によるリモートコピーの状態を監視し、正サーバホスト100に該監視結果(リモートコピーのペア状態)を通知する。例えば、回線(リモートコピー用ネットワーク510)の障害によりリモートコピーに失敗したら、正クラスタプログラム102にその旨を通知する。
リモートコピープログラム153は、副ストレージ250側のリモートコピープログラム253と共に動作し、正ストレージ150に記憶されたデータを副ストレージ250に複写するリモートコピー処理を行う。このリモートコピーには、同期リモートコピーと非同期リモートコピーとの2種類が存在し、各々長所と短所がある。
具体的には、同期リモートコピーでは、ストレージはサーバホストからの書き込み要求があった場合、その書き込み要求に付随するデータのストレージへの転送が完了した後に、その書き込み要求に対する応答をサーバホストに行う。従って、同期リモートコピーでは障害の発生によってデータが消失することは少ないが、正副ストレージ間の距離が長く、回線による遅延が増加すると、サーバホストとストレージ間のI/O性能が悪化する。
一方、非同期リモートコピーでは、ストレージは、書き込み要求に対するサーバホストへの応答と書き込み要求に係るデータの転送とを独立したタイミングで実行する。従って、非同期リモートコピーでは、正副ストレージ間の距離が長くても、遠隔地にデータをコピーする前に計算機へ応答を返送することができるので、計算機への応答性能の低下を招きにくいが、データ消失の可能性は同期リモートコピーより高くなる。なお、本発明においては、いずれの方式でもよい。
物理ディスクには、論理的な領域である論理ユニット(LU)154が設定されている。また、複数の物理ディスクによってRAID(Redundant Array of Independent Disks)が構成されており、記憶されるデータに冗長性を持たせている。このため、物理ディスクの一部に障害が生じても、記憶されたデータが消失しないようになっている。
正ストレージ150には、正サーバサイト100に対するインターフェース(例えば、SCSI:Small Computer System Interface、FC:Fibre Channel、iSCSI:internet SCSI等)が備わっている。
副サーバホスト200は、CPU、メモリ、記憶装置及びインターフェースが備わるコンピュータ装置であり、正サーバホスト100と同じプログラムが動作している。すなわち、副サーバホスト200は、正サーバホスト100と同じ動作を行なって、常に同じ状態を保った待機状態(ホットスタンバイ状態)となっている。そして主系(正サイトを構成する正サーバホスト100、正ストレージ150)に障害が発生すると直ちに予備系(副サイトを構成する副サーバホスト200、副ストレージ250)に処理を引き継ぐフェイルオーバ処理を行うようにして、システムの信頼性を向上させている。なお、本発明は副サーバホスト200がホットスタンバイ状態で待機していなくても、コールドスタンバイ状態であっても、障害発生時に正サイトから副サイトへの業務の引き継ぎが行えればよい。
副サーバホスト200では、具体的には、副リクエストログ操作プログラム201、副クラスタプログラム202及びアプリケーションプログラム203が動作している。
副リクエストログ操作プログラム201は、主系に障害が発生した時にクライアントホスト300に対してリクエストログの収集を行う。
副クラスタプログラム202は、後述する障害サスペンド検出時に、正サーバホスト100に代わって、副サーバホスト200による運用を開始するための準備を行う。また、副クラスタプログラム202は、ハートビート等の障害監視手法を用いて、正サーバホスト100の動作を監視する。なお、正サーバホスト100の監視は、副クラスタプログラム102ではなく、副サーバホスト200の他の構成で実行してもよい。
アプリケーションプログラム203は、正サーバホスト100で動作しているアプリケーションプログラムと同じプログラムであり、フェイルオーバ時に、クライアントホスト300にデータベースサービスやウェブサービス等を提供する。
また、副サーバホスト200は、正サーバホスト100と同様にデータベースシステム204及びファイルシステム205が動作している。
また、副サーバホスト200には、インターフェースとして、広域ネットワーク500に対するインターフェース(例えば、イーサネットカードのようなNIC:Network Interface Card)と、副ストレージ250に対するインターフェース(例えば、SCSI:Small Computer System Interface、FC:Fibre Channel、iSCSI:internet SCSI等)とが備わっている。
副ストレージ装置250は、制御部、物理ディスク及びインターフェースを備えた記憶装置で、副サーバホスト200に提供されるデータを記憶している。
制御部は、CPU及びメモリを備え、副サーバホスト200からのデータ入出力要求を受け付け、副サーバホスト200にデータを送信する。また、制御部では、ペア状態通知プログラム251、スナップショットプログラム252及びリモートコピープログラム253が動作している。
ペア状態通知プログラム251は、リモートコピープログラム253によるリモートコピーの状態を監視し、正サーバホスト100に該監視結果(リモートコピーのペア状態)を通知する。例えば、通信回線(リモートコピー用ネットワーク510)の障害によりリモートコピーに失敗したら、正クラスタプログラム102にその旨を通知する。
スナップショットプログラム252は、論理ユニット254の運用ボリュームに対してスナップショットを生成する。このため、スナップショットの維持に必要な差分データを格納する差分ボリュームを管理し、ファイルシステム205(又は、データベースシステム204)の要求に応じて運用ボリュームのスナップショットを提供する仮想ボリュームにアクセス可能にする。また、その後の運用ボリュームへのアクセスに対応してスナップショット作成時のデータを差分ボリュームに書き込み、スナップショットを維持する。
リモートコピープログラム253は、正ストレージ150のリモートコピープログラム153と共に動作し、正ストレージ150に記憶されたデータを副ストレージ250に複写するデータコピー処理を行う。
物理ディスクには、論理的な領域である論理ユニット(LU)254が設定されている。また、複数の物理ディスクによってRAIDが構成されている。
副ストレージ250には、副サーバサイト200に対するインターフェース(例えば、SCSI:Small Computer System Interface、FC:Fibre Channel等)が備わっている。
クライアントホスト300は、CPU、メモリ、記憶装置及びインターフェースが備わるコンピュータ装置であり、正サーバホスト100(フェールオーバ時には副サーバホスト200)から提供されるデータベースサービスやウェブサービス等を利用する。
具体的には、クライアントホスト300では、クライアントプログラム301が動作している。クライアントプログラム301は、webブラウザやデータベースクライアント等のソフトウェアである。
また、クライアントホスト300には、クエストログ302及びDNSキャッシュ303が記録されている。リクエストログ302には、副サーバホスト200による障害サスペンド検出後に、当該クライアントホスト300からなされたデータ入出力要求が記録される。DNSキャッシュ303には、クライアントホスト300がDNSホスト400から取得したDNS情報が一時的に記憶される。このとき、DNS情報と共に、キャッシュされたDNS情報が有効に利用できる時間(キャッシュの有効時間(TTL:Time To Live))が記憶される。すなわち、クライアントホスト300は、キャッシュの有効時間内であれば、DNSホスト400にDNS情報を問い合わせることなく、キャッシュされたDNS情報に基づいてアクセス先のホストを選択する。
また、クライアントホスト300には、広域ネットワーク500に対するインターフェース(例えば、イーサネットカードのようなNIC:Network Interface Card)が備わっている。
DNSホスト400は、CPU、メモリ、記憶装置及びインターフェースが備わるコンピュータ装置であり、DNSサーバ401が動作している。
DNSサーバ401は、DNS情報402を参照して、ゾーン内のホスト(クライアントホスト300、サーバホスト100、200)に、DNS情報(ドメイン名に対応したIPアドレス)を供給する。DNS情報402には、ドメイン名に対してIPアドレスが記載されたゾーンファイルが記録されている。すなわち、クライアントホスト300がホスト名を用いてサーバホスト100等にアクセスする際に、DNSサーバ401に問い合わせることによってサーバホストのIPアドレスを得て、IPアドレスを用いたアクセスをすることができる。
また、DNSホスト400には、広域ネットワーク500に対するインターフェース(例えば、イーサネットカードのようなNIC:Network Interface Card)が備わっている。
広域ネットワーク500は、例えば、TCP/IPプロトコルによって、コンピュータ間でデータや制御情報を通信可能に構成されており、例えばイーサネットが用いられる。
リモートコピー用ネットワーク510は、例えばファイバチャネルプロトコルのような、データの転送に適するプロトコルで通信可能なネットワークである。なお、正ストレージ150と副ストレージ250との間は、1対1で接続されてもよい。
次に、本発明の実施の形態のコンピュータシステムの動作を説明する。
図2は、本発明の実施の形態の正サーバホスト100が障害を検出した時の動作を説明する図である。
正クラスタホスト100では、アプリケーションプログラム103が、クライアントホスト300からのデータ入出力要求の処理結果(例えば、要求に対して読み出したデータ、書き込み要求に対する成否)を送信する。このとき、正クラスタプログラム102が、ペア状態監視プログラム151からの通知を受けることによって、正ストレージ150と副ストレージ250との間のリモートコピーの失敗を検出したら、正サイトにも障害が発生する可能性があると判定する。これは、リモートコピーが失敗した時点では、通信回線(リモートコピー用ネットワーク510)に障害が発生したのか、ストレージに障害が発生したのかの区別をすることができず、また通信回線の障害の場合であってもその障害が正サイトに拡大する可能性があるからである。
このとき、正クラスタプログラム102が、ペア状態監視プログラム151からの通知を受ける。そして、ペア状態監視プログラム151からの通知に基づき正ストレージ150と副ストレージ250との間のリモートコピーの失敗を検出したら、障害が正サイト全体に波及する可能性が高いと判断し、正サイトが停止した場合に備えて以下の処理を実行する。なお、この時点では、正サイトが停止した場合に備えて副サイトへ処理を引き渡せるよう準備をするのみで、正サイトでの運用は継続して行われており、クライアントホストからの要求も正サイトにて処理される。リモートコピーの失敗は一時的な通信回線の障害に起因する可能性もあり、この場合短期で回線障害が復旧し、正サイトでの運用が続行可能な場合もあるからである。なお、正ストレージ150の障害検出は、他の障害監視手法によるものであってもよい。
正リクエストログ操作プログラム101は、まず、データ入出力要求の処理結果と共に、当該データ入出力要求に付される識別番号(例えば、当該データ入出力要求の処理の順に付されるシーケンシャル番号)をクライアントホスト300に送信する。クライアントホスト300は、この識別番号をリクエストログに記録することによって、その後リクエストログ302を取得した副サーバホスト200が、データ入出力要求を識別することができるようになる。
また、正リクエストログ操作プログラム101は、クライアントホスト300からサーバホスト100、200に対するデータ入出力要求をリクエストログ302に記録する指示を、クライアントホスト300に送信する。副サーバホスト200が、リクエストログ302に記録されたデータ入出力要求を収集することによって、障害検出からサーバの切り替えまでになされたデータ入出力要求を把握することができるようにするためである。
リクエストログ記録指示を受け取ったクライアントホスト300は、正サーバホスト100に対するデータ入出力要求のリクエストログ302への記録を開始する。
そして、後述するように、副リクエストログ操作プログラム201は、正サイトの障害が検出された段階で、クライアントホスト300からリクエストログを収集する(図4参照)。なお、障害が検出された段階で(障害サスペンド時に)、クライアントホスト300からリクエストログの収集を開始してもよい。さらに、リクエストログ記録指示を受け取ったクライアントプログラム301はリクエストログを記録しておき、定期的に副サーバホスト200(副クラスタプログラム202)へ該リクエストログを送信してもよい。なお、このときの副サーバホスト200のIPアドレスは、ログ取得指示と共にクライアントホスト300に通知するとよいが、他の方法を用いて副サーバホスト200のIPアドレスを通知してもよい。
さらに、正リクエストログ操作プログラム101は、DNSキャッシュの有効時間(TTL)を短縮する指示をクライアントホスト300に送信して、クライアントホスト300に記憶されているDNSキャッシュ303が参照される時間を短くして、アクセス先が速やかに切り替わるようにする。なお、このDNSキャッシュ有効時間の短縮指示は、正サーバホスト100が送信してもよいが、後述するように副サーバホスト200が送信してもよい。
図3は、本発明の実施の形態の副サーバホスト200が障害を検出した時の動作を説明する図である。
副クラスタホスト200では、副クラスタプログラム202が、ペア状態監視プログラム251からの通知を受けることによって、正ストレージ150と副ストレージ250との間のリモートコピーの失敗を検出したら、正ストレージ150に障害が発生したもの仮定して、正サイトが実行していた処理を副サイトで引き継がなければならない可能性があると判定する。そして、正サイトが停止した場合に備えて以下の処理を実行する。なお、正ストレージ150の障害検出は、他の障害監視手法によるものであってもよい。
副クラスタプログラム202は、まず、ハートビートによる正副サイト間の障害監視間隔を短縮し、障害監視頻度を多くして、正サーバホスト100や正ストレージ150の状態の変化が速やかに検出できるようにする。
また、この障害の検出時点におけるスナップショットを作成する。
さらに、ファイルチェックシステムを動作させ、スナップショットの仮想ボリュームを利用したデータベースの復旧を開始する。
さらに、DNSキャッシュの有効時間(TTL)の短縮指示をクライアントホスト300に送信して、アクセス先が速やかに切り替わるようにする。なお、このDNSキャッシュ有効時間短縮指示を、副サーバホスト200からも送信可能にすると、正サーバホスト100に障害が発生した時にも適切な対応をすることができる。
図4は、本発明の実施の形態の副サーバホスト200が、正サーバホスト100の停止を検出した時の動作を説明する図である。
副クラスタプログラム202は、ハートビート等の障害監視手法を用いて、正サーバホスト100の動作を監視している。この障害監視によって、正サーバホスト100の停止が確認されると、DNSホスト400に記憶されているDNS情報402を更新して、クライアントホスト300から正サーバホスト100へではなく、副サーバホスト200に対してアクセスがされるようにする。
そして、障害サスペンド検出後にアクセスをしたクライアントホスト300からリクエストログを収集し、正サーバホスト100の障害発生以後にクライアントホスト300からなされたデータ入出力要求に関するログを取得する。そして、アプリケーションプログラム203を実行して、収集したリクエストログをデータに反映させる。すなわち、正サーバホスト100の障害発生以後にクライアントホスト300からなされたデータ入出力要求は、正ストレージ150が記憶するデータに反映されていない場合があることから、アプリケーションプログラム203を実行して、収集したリクエストログの識別番号順に、リクエストログを取得したスナップショットの仮想ボリュームのデータに反映させることによって、障害発生以後の動作が正確に反映されていないデータを復旧させる。
その後、副サーバホスト200によるサービスの提供を開始する。
図5は、正クラスタプログラム102によって実行される、正クラスタの基幹処理のフローチャートである。
正クラスタプログラム102は、ペア状態通知プログラム151からの通知によってリモートコピーのペア状態を監視する(S101)。その結果、ペア状態が「サスペンド状態」でなければ(S102)、リモートコピーは正常に行われていると判定して、ステップS101に戻り、さらにリモートコピーのペア状態の監視を継続する。
一方、ペア状態が「サスペンド状態」であれば、リモートコピーは正常に行われていないと判定して、クライアントホスト300(クライアントプログラム301)にリクエストログの取得を指示する(S103)。なお、このとき、同時にDNSキャッシュ303の有効時間を短くする指示もする(図2参照)。さらに、クライアントホスト300からのデータ入出力要求対し、シーケンシャル番号を付して応答を返送する。
その後、正サーバホスト100と広域ネットワーク500とが正常に接続されているか否かを確認して、副サーバホスト200との通信が可能かを判定する(S104)。具体的には、DNSホスト400との通信(例えば、IPアドレスの問い合わせ)によって広域ネットワーク500との接続性を確認することができる。
その結果、正サーバホスト100と広域ネットワーク500とが正常に接続されていないと判断すると、正サーバホスト100によるサービスの提供を停止して(S110)、この正クラスタの基幹処理を終了する。
一方、正サーバホスト100と広域ネットワーク500とが正常に接続されていると判断すると、リモートコピー用ネットワーク510の状態を監視する(S106)。このリモートコピー用ネットワーク510の状態の監視は、公知の障害監視手法を用いる。例えば、リモートコピー用ネットワーク510を介してピング(PING:Packet INternet Groper)を送信して、その応答を確認することによって、リモートコピー用ネットワーク510を介した通信が可能か否かを知ることができる。
その監視の結果、リモートコピー用ネットワーク510の状態が回復していなければ、ステップS104に戻り、さらに広域ネットワーク500との接続性を確認をする。
一方、リモートコピー用ネットワーク510の状態が回復していれば、副サーバホスト200によるフェイルオーバの必要がないので、一時的にリモートコピーのペア状態を崩れていたものを再同期させる(S108)。この再同期処理は、リモートコピーのペア状態が障害サスペンドとなった以降の書き込み位置を示すビットマップを参照して、書き込みが行われた正ストレージ150のデータのみを副ストレージ250へコピーする。このいわゆる差分コピーを実行することで、障害サスペンド以降の正ストレージ150に対する書き込みを副ストレージ250へ反映させ、再び同期状態に復旧させる。
そして、クライアントホスト300(クライアントプログラム301)にリクエストログ取得指示の解除を通知する(S109)。このリクエストログの取得指示の解除は、クライアントホスト300から正サーバホスト100へのアクセスに対する応答に含ませて通知すればよい。また、ステップS103でリクエストログ取得指示を送信したクライアントホスト300に同報通知してもよい。
図6は、副クラスタプログラム202によって実行される、副クラスタの基幹処理のフローチャートである。
副クラスタプログラム202は、ペア状態通知プログラム151からの通知によってリモートコピーのペア状態を監視する(S121)。その結果、ペア状態が「サスペンド状態」でなければ(S122)、リモートコピーは正常に行われていると判定して、ステップS121に戻り、さらにリモートコピーのペア状態の監視を継続する。
一方、ペア状態が「サスペンド状態」であれば、リモートコピーは正常に行われていないと判定して、差分データ及び差分データの位置を表すマッピングテーブルをスナップショットとして作成する(S123)。
その後、副ストレージ250の論理ユニット254を組み込むボリュームマウント処理を行い(S124)、データベースシステム204を起動する(S125)。具体的には、データベースシステム204を再起動した後に、ステップS123で作成したスナップショットのデータに対して別に取得したログファイル(履歴ファイル)を反映して、データベースのリカバリ処理を行う。
その後、DNSキャッシュの有効時間(TTL)を短縮して、副サーバホスト200によるフェイルオーバが生じても、クライアントホスト100から、迅速に副サーバーホスト200に対してアクセスが行われるようにする(S126)。なお、ステップS126のDNSキャッシュ有効時間短縮処理には、DNSキャッシュを無効にすること(例えば、DNSキャッシュの有効時間を”0”にすること)も含まれる。ここまでの処理によって、副サーバホスト200によるフェイルオーバの準備が完了する。
そして、副クラスタプログラム202は、正サーバホスト100(正クラスタプログラム102)と広域ネットワーク500を介した通信を試みる(S127)。そして、正サーバホスト100との間で通信が可能かによって、正サーバホスト100が動作しているか否かを判定する(S128)。
その結果、正サーバホスト100との間で通信ができなければ、正サーバホスト100は動作していないものと判定して、ステップS132に移行し、副サーバホスト200によるフェイルオーバ処理を開始する。
一方、正サーバホスト100との間で通信が可能できれば、正サーバホスト100は動作しているものと判定して、ペア状態通知プログラム151からの通知によってリモートコピーのペア状態を監視する(S129)。その結果、ペア状態が「サスペンド状態」であれば(S130)、正副ストレージ間の通信が不可能な状態であると判定して、ステップS127に戻り、さらに、正クラスタプログラム102との通信によって、正サーバホスト100が動作しているかを判定する。
一方、ペア状態が「サスペンド状態」でなければ、正サイトと副サイトのリモートコピーが再開されたものと判定して、再同期処理(図7)を実行する(S131)。その後、S121に戻りさらにリモートコピーのペア状態の監視を継続する。
ステップS132からのフェイルオーバ処理では、まず、DNSホスト400に記憶されたDNS情報を書き換える(S132)。すなわち、正サーバホスト100のドメイン名に対応して記録されるIPアドレスを、正サーバホスト100のものから副サーバホスト200のものに変更する。このDNS情報の書き換えによって、ドメイン名を用いて正サーバホスト100にアクセスしようとするクライアントホスト300は、副サーバホスト200にアクセスすることになる。そして、ステップS126において、DNSキャッシュ有効時間が短縮されていることから、この書き換えられたDNS情報は速やかに反映され、クライアントホスト300から正サーバホスト100にのアクセスされる時間を短縮している。
そして、クライアントホスト300からリクエストログを収集する(S133)。このリクエストログは、正サーバホスト100からの指示(図5のステップS103)を契機として収集されたものである。
また、クライアントホスト300からのリクエストログの収集は、正サーバホスト100リクエストログ取得指示を送信(図5のステップS103)したクライアントホスト300(すなわち、障害サスペンド検出後にアクセスをしてきたクライアントホスト)を特定し、該特定されたクライアントホスト300に対してリクエストログの問い合わせをすることによって行うことができる。この方法は、不特定多数のクライアントホストが存在するインターネットのサービスに適する。また、すべてのクライアントホスト300に対して、リクエストログの問い合わせをすることもできる。業務系システム(例えば、銀行系)の端末のように、予めアクセスしてくるクライアントホストが分かっている場合に適する。
その後、副クラスタプログラム202は、取得したリクエストログに付されている識別番号(シーケンシャル番号)を用いて、取得したリクエストログに対応するデータ入出力要求がどこまでデータに反映されているかを照合する。そして、反映されていないデータ入出力要求を特定して、アプリケーションプログラム203によって、該特定されたデータ入出力要求をデータに反映し、データを復旧する。
その後、副サーバホスト200は、正サーバホスト100に代わって業務を開始して(S134)、この副クラスタの基幹処理を終了する。
図7は、副クラスタプログラム202(図6のステップS131)によって実行される、再同期処理のフローチャートである。
まず、再同期処理では、ペア状態通知プログラム151からの通知によってリモートコピーのペア状態を監視する(S141)。その結果、ペア状態が「同期」でなければ(S142)、リモートコピーは正常に行われていないと判定して、ステップS141に戻り、さらにリモートコピーのペア状態の監視を継続する。このとき、正クラスタプログラム102(図5のステップS108)によってリモートコピーが実行されているので、このリモートコピーが終了するまでステップS141により継続して監視がされる。
一方、ペア状態が「同期」であれば、リモートコピーは正常に行われている(図5のステップS108によるリモートコピーは正常に終了した)と判定して、データベースシステム204を停止し(S143)、副ストレージ250の論理ユニット254を切り離すボリュームアンマウント処理を行う(S144)。
その後、不要になった図5のステップS123で作成したスナップショット(差分データ及びマッピングテーブル)を消去する(S145)。
図8は、リクエストログ収集処理のフローチャートであり、クライアントプログラム301によって実行される。
リクエストログ収集処理は、正サーバホスト100からリクエストログ取得指示(図5のS103)によって起動され、クライアントホスト300から正サーバーホスト100へのアクセスが生じる毎にリクエストログ302にリクエスト内容を書き込む。
まず、リクエストログ収集処理では、正サーバホスト100にアクセスするために、DNSホスト400に対してドメイン名を送り、IPアドレスの問い合わせを発行して(S151)、IPアドレスを取得する。そして、アクセス先の正サーバホスト100に対してTCPコネクションを確立要求を送り、正サーバホスト100との間でTCPコネクションを確立する(S152)。
その後、正サーバホスト100に対して送信するデータ入出力要求(リクエスト)内容を作成する(S153)。そして、作成したリクエスト内容をリクエストログ302へ記録する(S154)。そして、確立したTCPコネクションを用いてリクエスト内容を送信する(S155)。
その後、リクエスト結果(読み出されたデータや、データの書込の成否等)、及び、正サーバホスト100がリクエスト結果に対して付す識別番号を受信すると(S156)、先にリクエストログ302に記録したリクエスト内容に関連してリクエストログ302に識別番号を記録する(S157)。
その後、確立したTCPコネクションを切断する(S158)。
図9は、リクエストログの内容の説明図である。
リクエストログ302には、正サーバホスト100に対して送信されたリクエスト(データ入出力要求)の内容、及び、正サーバホスト100によって該リクエストに付される識別番号(シーケンシャル番号)が対応するように記録されている。
図10は、本発明の実施の形態のコンピュータシステムの変形例を示すブロック図である。
この変形例のコンピュータシステムでは、前述したコンピュータシステム(図1)の構成に加えてDNSスレーブホスト450を有する。
DNSスレーブホスト450は、CPU、メモリ、記憶装置及びインターフェースが備わるコンピュータ装置であり、広域ネットワーク500を介して、クライアントホスト300及びDNSホスト400と接続されている。
DNSスレーブホスト450では、DNSスレーブサーバ451が動作しており、複写DNS情報452が保持されている。
複写DNS情報452は、DNSホスト400のDNS情報402と同じ内容が保持されている。
DNSスレーブサーバ451は、DNSホスト400に備わるDNSサーバ401と同じくクライアントホスト300からのDNS要求に対する応答を行う他に、複写DNS情報452のキャッシュ有効時間が過ぎたことを検出して、DNSホスト400からDNS情報を取得することによって複写DNS情報452を更新する。
この変形例のコンピュータシステムでも、リモートコピーペアの障害サスペンドを契機としたキャッシュ有効時間の短縮指示が、DNSホスト400に対して送信される。DNSスレーブホスト450は、複写DNS情報452のキャッシュ有効時間が経過したときに、新たな有効時間が短縮された複写DNS情報を取得する。そして、クライアントホスト300にもキャッシュ有効時間の短縮指示が伝達され、最終的に複写DNS情報452の有効時間及びクライアントホスト300のDNSキャッシュ303の有効時間が短縮される。なお、複写DNS情報452の有効時間と、クライアントホスト300のDNSキャッシュ303の有効時間との少なくとも一方が短縮されればよい。
なお、本実施形態におけるDNSキャッシュ300の有効時間制御が無効になっていた場合でも、DNSスレーブサーバー451のキャッシュ有効時間を短縮できる。従って、この場合も同様な効果が得られる。
100 正サーバホスト
150 正ストレージ
200 副サーバホスト
250 副ストレージ
300 クライアントホスト
400 DNSホスト
500 広域ネットワーク
510 リモートコピー用ネットワーク
150 正ストレージ
200 副サーバホスト
250 副ストレージ
300 クライアントホスト
400 DNSホスト
500 広域ネットワーク
510 リモートコピー用ネットワーク
Claims (10)
- クライアントにサービスを提供する正サーバと、前記正サーバに接続され前記正サーバに提供されるデータを記憶する正ストレージとを含む正サイトと、
クライアントにサービスを提供する副サーバと、前記副サーバに接続され前記副サーバ
に提供されるデータを記憶する副ストレージとを含む副サイトと、
前記クライアントから前記サービスが提供されるサーバにアクセスするためのDNS情報を提供するDNSサーバと、を備え、
前記正サイトは通常運用に供され、前記副サイトは前記正サイトに障害が発生した際に運用に供され、
前記正ストレージ及び前記副ストレージは、互いの記憶内容を等しくするリモートコピー部を有するコンピュータシステムであって;
前記クライアントは、前記DNSサーバから取得したDNS情報を、当該DNS情報の有効期間を規定する情報と共に記録し;
前記正サーバは、正リクエストログ操作処理部、正サイト処理部及びアプリケーション部を有し;
前記アプリケーション部は、前記クライアントからのデータ入出力要求を受け付け、当該要求に対する処理結果を当該クライアントに送信し;
前記正サイト処理部は、前記副サイトとの通信の可否を検出し;
前記正リクエストログ操作処理部は、前記正サイト処理部によって前記副サイトとの通信が不可能であることが検出されると、前記データ入出力要求の処理結果と共に当該データ入出力要求に付される識別番号を送信し、前記クライアントから前記正サーバに対して送信される要求を、前記識別番号と共に、前記リクエストログへの記録するように指示し、前記記録されたDNS情報の有効期間の短縮を指示し;
前記副サーバは、副リクエストログ操作処理部、副サイト処理部及びアプリケーション部を有し;
前記副サイト処理部は、前記副サイトとの通信が可否を検出し;
前記副リクエストログ操作処理部は、前記副サイト処理部によって前記正サイトとの通信が不可能であることが検出されると、前記正サイトに対する障害監視頻度を多くし、前記正ストレージのスナップショットを作成し、前記作成されたスナップショットを用いて、前記副サイトによるクライアントへのサービスの提供の準備を開始し、前記記録したDNS情報の有効期間の短縮を指示するコンピュータシステム。 - クライアントにサービスを提供する正サーバと、前記正サーバに接続され前記正サーバに提供されるデータを記憶する正ストレージとを含む正サイトと、
クライアントにサービスを提供する副サーバと、前記副サーバに接続され前記副サーバ
に提供されるデータを記憶する副ストレージとを含む副サイトと、
前記クライアントから前記サービスが提供されるサーバにアクセスするためのDNS情報を提供するDNSサーバと、を備え、
前記正サイトは通常運用に供され、前記副サイトは前記正サイトに障害が発生した際に運用に供されるコンピュータシステムにおいて動作するプログラムであって;
前記クライアントを、前記DNSサーバから取得したDNS情報を、当該DNS情報の有効期間を規定する情報と共に記録する手段として機能させ;
前記正ストレージ及び前記副ストレージを、互いの記憶内容を等しくする手段として機能させ;
前記正サーバを、
前記クライアントからのデータ入出力要求を受け付け、当該要求に対する処理結果を当該クライアントに送信する手段と、
前記副サイトとの通信の可否を検出する手段と、
前記副サイトとの通信が不可能であることが検出されると、前記データ入出力要求の処理結果と共に当該データ入出力要求に付される識別番号を送信する手段と、
前記副サイトに障害が発生したことが検出されると、前記クライアントから前記正サーバに対して送信される要求を、前記識別番号と共に、前記リクエストログへの記録を指示する手段と、
前記副サイトとの通信が不可能であることが検出されると、前記記録されたDNS情報の有効時間の短縮を指示する手段、として機能させ;
前記副サーバを、
前記正サイトとの通信の可否を検出する手段と;
前記正サイトとの通信が不可能であることが検出されると、前記正サイトに対する障害監視頻度を多くする手段と、
前記正サイトとの通信が不可能であることが検出されると、障害検出時点におけるスナップショットを作成する手段と、
前記正サイトに障害が発生したことが検出されると、前記作成されたスナップショットを用いて、前記副サイトによるクライアントへのサービスの提供の準備を開始する手段と、
前記正サイトに障害が発生したことが検出されると、記録したDNS情報の有効時間の短縮を指示する手段、として機能させるプログラム。 - 前記正サーバが動作していないときに、
前記副サーバを、
前記DNSサーバに記録されるDNS情報を書き換える手段と、
前記クライアントに記録されたリクエストログを収集する手段と、
前記収集したリクエストログに基づいて前記副ストレージに記録されたデータを再構築する手段と、
前記データの再構築後に、前記副サーバによる前記クライアントに対するサービスの提供を開始する手段、として機能させる請求項2に記載のプログラム。 - 前記副サーバを、前記正ストレージと前記副ストレージとの間のリモートコピーの状態を判定する手段として機能させ;
さらに、前記正サーバが動作しているときに、前記副サーバを、前記リモートコピーが停止状態でなければ、前記正ストレージと前記副ストレージとの記憶内容を等しくする再同期処理を行う手段として機能させる請求項2に記載のプログラム。 - クライアントにサービスを提供する第1サーバと、前記第1サーバに接続され前記第1サーバに提供されるデータを記憶する第1ストレージとを含む第1サイトと、
クライアントにサービスを提供する第2サーバと、前記第2サーバに接続され前記第2サーバに提供されるデータを記憶する第2ストレージとを含む第2サイトと、を備え、
前記第1サイトは通常運用に供され、前記第2サイトは前記第1サイトに障害が発生した際に運用に供され、
前記第1ストレージ及び前記第2ストレージは、互いの記憶内容を等しくする同期部を有するコンピュータシステムであって;
前記クライアントは、前記サービスが提供されるサーバにアクセスするためのアドレス情報、当該アドレス情報の有効期間を規定する情報と共に記録するキャッシュを有し;
前記第1サーバは、前記第2サイトとの通信が不可能であることが検出されると、前記クライアントに対して、前記記録されたDNS情報の有効時間の短縮を指示する第1リクエストログ操作処理部を有するコンピュータシステム。 - 前記第1サーバは、前記クライアントからのデータ入出力要求を受け付け、当該要求に対する処理結果を当該クライアントに送信するアプリケーション部を有し、
前記リクエストログ操作処理部は、
前記第2サイトとの通信が不可能であることが検出されると、前記データ入出力要求の処理結果と共に当該データ入出力要求に付される識別番号を前記クライアントに送信し、
前記クライアントから前記第1サーバに対して送信される要求を、前記識別番号と共に記録する指示をする請求項5に記載のコンピュータシステム。 - 前記第2サーバは、
前記第1サイトとの通信の可否を検出する第2サイト処理部と、
前記第1サイトとの通信が可能であることが検出されると、前記第1サイトに対する障害監視頻度を多くし、前記第1ストレージのスナップショットを作成し、前記作成されたスナップショットを用いて、前記副サイトによるクライアントへのサービスの提供の準備を開始し、前記記録したDNS情報の有効期間の短縮を指示する第2リクエストログ操作処理部と、を有する請求項5に記載のコンピュータシステム。 - 前記クライアントから前記サービスが提供されるサーバにアクセスするためのアドレス情報を、前記クライアントに提供するDNSサーバを備え、
前記第2サイト処理部は、前記第1サーバが動作していないときに、前記DNSサーバに記録されるアドレス情報を書き換え、前記クライアントに記録されたリクエストログを収集し、前記収集したリクエストログに基づいて前記第2ストレージに記録されたデータを再構築した後に、前記第2サーバによる前記クライアントに対するサービスの提供を開始する請求項5に記載のコンピュータシステム。 - 前記第2サイト処理部は、
前記第1ストレージと前記第1ストレージとの間のリモートコピーの状態を判定し、
前記第1サーバが動作しているときに、前記リモートコピーのペア状態がサスペンド状態でなければ、前記第1ストレージと前記第2ストレージとの記憶内容を等しくする再同期処理を行う請求項5に記載のコンピュータシステム。 - 前記第2サイト処理部は、
前記第1ストレージと前記第1ストレージとの間のリモートコピーの状態を判定し、
前記第1サーバが動作しているときに、前記リモートコピーのペア状態がサスペンド状態でなければ、前記第1ストレージと前記第2ストレージとの記憶内容を等しくする再同期処理を行い、
前記再同期処理の終了後に、前記作成されたスナップショットを消去する請求項7に記載のコンピュータシステム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004057306A JP2005250626A (ja) | 2004-03-02 | 2004-03-02 | コンピュータシステム及びそのプログラム。 |
US10/850,251 US7100070B2 (en) | 2004-03-02 | 2004-05-21 | Computer system capable of fast failover upon failure |
EP20040025834 EP1571798B1 (en) | 2004-03-02 | 2004-10-29 | Computer system capable of fast failover upon failure |
DE200460015719 DE602004015719D1 (de) | 2004-03-02 | 2004-10-29 | Rechnersystem mit einem schnellen Failover beim Systemausfall |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004057306A JP2005250626A (ja) | 2004-03-02 | 2004-03-02 | コンピュータシステム及びそのプログラム。 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005250626A true JP2005250626A (ja) | 2005-09-15 |
Family
ID=34747620
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004057306A Pending JP2005250626A (ja) | 2004-03-02 | 2004-03-02 | コンピュータシステム及びそのプログラム。 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7100070B2 (ja) |
EP (1) | EP1571798B1 (ja) |
JP (1) | JP2005250626A (ja) |
DE (1) | DE602004015719D1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008117300A (ja) * | 2006-11-07 | 2008-05-22 | Mitsubishi Electric Corp | 検索装置、データ処理装置および検索方法 |
JP2010198404A (ja) * | 2009-02-26 | 2010-09-09 | Nec Corp | 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム |
US7900013B2 (en) | 2007-05-01 | 2011-03-01 | Hitachi, Ltd. | Method and computer for determining storage device |
JP2011053918A (ja) * | 2009-09-02 | 2011-03-17 | Alaxala Networks Corp | ネットワークシステム、ネットワーク中継装置、それらの制御方法 |
US8266400B2 (en) | 2009-06-24 | 2012-09-11 | Hitachi, Ltd. | Computer system remote copying system and computer system |
WO2015045062A1 (ja) * | 2013-09-26 | 2015-04-02 | 三菱電機株式会社 | 通信システム、待機装置、通信方法及び待機プログラム |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060168145A1 (en) * | 2002-02-08 | 2006-07-27 | Pitts William M | Method for creating a secure and reliable content distribution framework |
US7434087B1 (en) * | 2004-05-21 | 2008-10-07 | Sun Microsystems, Inc. | Graceful failover using augmented stubs |
US7757236B1 (en) | 2004-06-28 | 2010-07-13 | Oracle America, Inc. | Load-balancing framework for a cluster |
US8224964B1 (en) | 2004-06-30 | 2012-07-17 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US7437364B1 (en) * | 2004-06-30 | 2008-10-14 | Google Inc. | System and method of accessing a document efficiently through multi-tier web caching |
US8676922B1 (en) | 2004-06-30 | 2014-03-18 | Google Inc. | Automatic proxy setting modification |
JP4401895B2 (ja) * | 2004-08-09 | 2010-01-20 | 株式会社日立製作所 | 計算機システム、計算機及びそのプログラム。 |
GB2419696B (en) * | 2004-10-29 | 2008-07-16 | Hewlett Packard Development Co | Communication link fault tolerance in a supercomputer |
GB2419699A (en) * | 2004-10-29 | 2006-05-03 | Hewlett Packard Development Co | Configuring supercomputer for reliable operation |
US7903546B2 (en) * | 2005-01-14 | 2011-03-08 | Cisco Technology, Inc. | Detecting unavailable network connections |
US8327003B2 (en) * | 2005-02-03 | 2012-12-04 | International Business Machines Corporation | Handling backend failover in an application server |
US7536481B2 (en) * | 2005-02-25 | 2009-05-19 | Microsoft Corporation | Method and system for re-synchronizing end points when an intermediary detects that the end points may be unsynchronized |
US7634679B2 (en) * | 2005-11-30 | 2009-12-15 | Microsoft Corporation | Remote location failover server application |
JP4839841B2 (ja) * | 2006-01-04 | 2011-12-21 | 株式会社日立製作所 | スナップショット再起動方法 |
US8327022B2 (en) * | 2006-10-10 | 2012-12-04 | International Business Machines Corporation | Method and apparatus for updating a domain name server |
US8812651B1 (en) | 2007-02-15 | 2014-08-19 | Google Inc. | Systems and methods for client cache awareness |
US7610510B2 (en) * | 2007-02-16 | 2009-10-27 | Symantec Corporation | Method and apparatus for transactional fault tolerance in a client-server system |
WO2008100120A1 (en) * | 2007-02-16 | 2008-08-21 | Lg Electronics Inc. | Method for managing domain using multi domain manager and domain system |
JP5032191B2 (ja) * | 2007-04-20 | 2012-09-26 | 株式会社日立製作所 | サーバ仮想化環境におけるクラスタシステム構成方法及びクラスタシステム |
BRPI0721658A2 (pt) * | 2007-06-26 | 2013-01-22 | Thomson Licensing | migraÇço de fluxo de protocolo em tempo real |
US8645524B2 (en) | 2007-09-10 | 2014-02-04 | Microsoft Corporation | Techniques to allocate virtual network addresses |
WO2009082390A1 (en) | 2007-12-20 | 2009-07-02 | Kevin Avon Foote | System and method for redirecting a website upon the occurrence of a disaster or emergency event |
US8001079B2 (en) * | 2008-02-29 | 2011-08-16 | Double-Take Software Inc. | System and method for system state replication |
US7975166B2 (en) * | 2008-03-05 | 2011-07-05 | Alcatel Lucent | System, method and computer readable medium for providing redundancy in a media delivery system |
JP2012501582A (ja) * | 2008-08-29 | 2012-01-19 | インターデイジタル パテント ホールディングス インコーポレイテッド | 複数の無線機を有する装置のためのip移動性 |
US8122284B2 (en) * | 2009-06-18 | 2012-02-21 | Taylor Tracy M | N+1 failover and resynchronization of data storage appliances |
US8074107B2 (en) * | 2009-10-26 | 2011-12-06 | Amazon Technologies, Inc. | Failover and recovery for replicated data instances |
FR2955405B1 (fr) * | 2010-01-19 | 2015-08-21 | Alcatel Lucent | Procede et systeme de prevention d'empoisonnement des caches dns |
US8555105B2 (en) * | 2010-04-12 | 2013-10-08 | International Business Machines Corporation | Fallover policy management in high availability systems |
US8386859B2 (en) | 2010-04-30 | 2013-02-26 | International Business Machines Corporation | On-chip non-volatile storage of a test-time profile for efficiency and performance control |
US8276018B2 (en) | 2010-04-30 | 2012-09-25 | International Business Machines Corporation | Non-volatile memory based reliability and availability mechanisms for a computing device |
US8850261B2 (en) | 2011-06-01 | 2014-09-30 | Microsoft Corporation | Replaying jobs at a secondary location of a service |
US20120311375A1 (en) * | 2011-06-01 | 2012-12-06 | Microsoft Corporation | Redirecting requests to secondary location during temporary outage |
US10585766B2 (en) | 2011-06-06 | 2020-03-10 | Microsoft Technology Licensing, Llc | Automatic configuration of a recovery service |
US10152415B1 (en) * | 2011-07-05 | 2018-12-11 | Veritas Technologies Llc | Techniques for backing up application-consistent data using asynchronous replication |
US9294604B1 (en) * | 2011-09-22 | 2016-03-22 | C-Marine Dynamics, Inc. | Serial wrap-around redundancy system |
CN102694696B (zh) * | 2012-05-14 | 2015-09-09 | 中国科学院计算机网络信息中心 | Dns服务器异常检测的方法及装置 |
US9251018B2 (en) * | 2012-12-19 | 2016-02-02 | International Business Machines Corporation | Enhanced recovery of highly available computing systems |
JP6289214B2 (ja) * | 2014-03-31 | 2018-03-07 | 三菱プレシジョン株式会社 | 情報処理システム及びその方法 |
CN105592173B (zh) * | 2014-10-23 | 2019-01-01 | 中国移动通信集团公司 | 一种防止dns缓存被染的方法、系统及本地dns服务器 |
US10540247B2 (en) | 2016-11-10 | 2020-01-21 | International Business Machines Corporation | Handling degraded conditions using a redirect module |
US10936452B2 (en) | 2018-11-14 | 2021-03-02 | International Business Machines Corporation | Dispersed storage network failover units used to improve local reliability |
CN111447247B (zh) * | 2018-12-29 | 2022-07-12 | 阿里巴巴集团控股有限公司 | 一种现场验票系统 |
KR102411260B1 (ko) * | 2020-11-06 | 2022-06-21 | 한국전자기술연구원 | 러기드 환경에서 관리 모듈간 데이터 이중화 처리 방법 |
US11785077B2 (en) | 2021-04-29 | 2023-10-10 | Zoom Video Communications, Inc. | Active-active standby for real-time telephony traffic |
US11575741B2 (en) * | 2021-04-29 | 2023-02-07 | Zoom Video Communications, Inc. | System and method for active-active standby in phone system management |
US11853099B2 (en) * | 2022-05-12 | 2023-12-26 | Hitachi, Ltd | Recovery method of remote copy |
US11929990B1 (en) * | 2022-11-25 | 2024-03-12 | Uab 360 It | Dynamic management of servers based on environmental events |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6006331A (en) * | 1997-07-29 | 1999-12-21 | Microsoft Corporation | Recovery of online sessions for dynamic directory services |
US6728748B1 (en) | 1998-12-01 | 2004-04-27 | Network Appliance, Inc. | Method and apparatus for policy based class of service and adaptive service level management within the context of an internet and intranet |
US6606643B1 (en) | 2000-01-04 | 2003-08-12 | International Business Machines Corporation | Method of automatically selecting a mirror server for web-based client-host interaction |
US6976090B2 (en) * | 2000-04-20 | 2005-12-13 | Actona Technologies Ltd. | Differentiated content and application delivery via internet |
US7275100B2 (en) | 2001-01-12 | 2007-09-25 | Hitachi, Ltd. | Failure notification method and system using remote mirroring for clustering systems |
JP2003050752A (ja) * | 2001-08-06 | 2003-02-21 | Fujitsu Ltd | サーバ障害復旧通知方法及び装置 |
JP3879594B2 (ja) | 2001-11-02 | 2007-02-14 | 日本電気株式会社 | スイッチ方法、装置およびプログラム |
US20030120680A1 (en) * | 2001-11-16 | 2003-06-26 | Rakesh Agrawal | Method for directly providing content and services via a computer network |
US20030126133A1 (en) | 2001-12-27 | 2003-07-03 | Slamdunk Networks, Inc. | Database replication using application program event playback |
WO2004023620A1 (en) | 2002-09-09 | 2004-03-18 | Evergreen Assurance, Inc. | System and method for application monitoring and automatic disaster recovery for high-availability |
-
2004
- 2004-03-02 JP JP2004057306A patent/JP2005250626A/ja active Pending
- 2004-05-21 US US10/850,251 patent/US7100070B2/en not_active Expired - Fee Related
- 2004-10-29 EP EP20040025834 patent/EP1571798B1/en not_active Expired - Lifetime
- 2004-10-29 DE DE200460015719 patent/DE602004015719D1/de not_active Expired - Lifetime
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008117300A (ja) * | 2006-11-07 | 2008-05-22 | Mitsubishi Electric Corp | 検索装置、データ処理装置および検索方法 |
US7900013B2 (en) | 2007-05-01 | 2011-03-01 | Hitachi, Ltd. | Method and computer for determining storage device |
JP2010198404A (ja) * | 2009-02-26 | 2010-09-09 | Nec Corp | 情報処理システム、ディザスタリカバリ方法及びディザスタリカバリプログラム |
US8266400B2 (en) | 2009-06-24 | 2012-09-11 | Hitachi, Ltd. | Computer system remote copying system and computer system |
JP2011053918A (ja) * | 2009-09-02 | 2011-03-17 | Alaxala Networks Corp | ネットワークシステム、ネットワーク中継装置、それらの制御方法 |
US8489913B2 (en) | 2009-09-02 | 2013-07-16 | Alaxala Networks Corporation | Network system and network relay apparatus |
WO2015045062A1 (ja) * | 2013-09-26 | 2015-04-02 | 三菱電機株式会社 | 通信システム、待機装置、通信方法及び待機プログラム |
KR20160047534A (ko) * | 2013-09-26 | 2016-05-02 | 미쓰비시덴키 가부시키가이샤 | 통신 시스템, 대기 장치, 통신 방법 및 대기 프로그램 |
CN105579981A (zh) * | 2013-09-26 | 2016-05-11 | 三菱电机株式会社 | 通信系统、备用装置、通信方法以及备用程序 |
JP5921782B2 (ja) * | 2013-09-26 | 2016-05-24 | 三菱電機株式会社 | 通信システム、待機装置、通信方法及び待機プログラム |
CN105579981B (zh) * | 2013-09-26 | 2017-08-25 | 三菱电机株式会社 | 通信系统、备用装置以及通信方法 |
US9934114B2 (en) | 2013-09-26 | 2018-04-03 | Mistubishi Electric Corporation | Communication system, standby device, communication method, and standby program |
Also Published As
Publication number | Publication date |
---|---|
EP1571798A3 (en) | 2006-05-10 |
US7100070B2 (en) | 2006-08-29 |
US20050198327A1 (en) | 2005-09-08 |
EP1571798B1 (en) | 2008-08-13 |
DE602004015719D1 (de) | 2008-09-25 |
EP1571798A2 (en) | 2005-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005250626A (ja) | コンピュータシステム及びそのプログラム。 | |
US11144211B2 (en) | Low overhead resynchronization snapshot creation and utilization | |
JP4405509B2 (ja) | データ管理方法、システム、およびプログラム(リモート記憶位置にフェイルオーバを行うための方法、システム、およびプログラム) | |
JP4301849B2 (ja) | 情報処理方法及びその実施システム並びにその処理プログラム並びにディザスタリカバリ方法およびシステム並びにその処理を実施する記憶装置およびその制御処理方法 | |
JP6476348B2 (ja) | 自動スイッチオーバーの実装 | |
US8209282B2 (en) | Method, system, and article of manufacture for mirroring data at storage locations | |
US7694177B2 (en) | Method and system for resynchronizing data between a primary and mirror data storage system | |
US9740573B1 (en) | Dynamic LUN resizing in a replication environment | |
US8001079B2 (en) | System and method for system state replication | |
US9582382B1 (en) | Snapshot hardening | |
US7251743B2 (en) | Method, system, and program for transmitting input/output requests from a primary controller to a secondary controller | |
US7600087B2 (en) | Distributed remote copy system | |
US7783606B2 (en) | Method and system for remote data recovery | |
US8285824B2 (en) | Storage system and data replication method that refuses one or more requests for changing the first logical configuration information until the first storage apparatus and second storage apparatus are synchronized | |
US9830088B2 (en) | Optimized read access to shared data via monitoring of mirroring operations | |
JP2007328778A (ja) | リモートミラーされたクラスタファイルサーバでのフェイルオーバ方法 | |
JP4671399B2 (ja) | データ処理システム | |
US20090024676A1 (en) | Managing the copying of writes from primary storages to secondary storages across different networks | |
JP2007052772A (ja) | データ複製システム並びにデータ移行方法 | |
CN115486052A (zh) | 一种数据存储方法、系统及存储介质 | |
JP4289056B2 (ja) | 計算機システム間のデータ二重化制御方法 | |
US7904682B2 (en) | Copying writes from primary storages to secondary storages across different networks | |
US20160170845A1 (en) | Database system control method and database system | |
JP2006072684A (ja) | ストレージネットワークシステム及び管理サーバ、ホストとストレージ装置 | |
CN113778746A (zh) | 时序数据库集群数据处理方法、装置、介质和电子设备 |