[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5352115B2 - ストレージシステム及びその監視条件変更方法 - Google Patents

ストレージシステム及びその監視条件変更方法 Download PDF

Info

Publication number
JP5352115B2
JP5352115B2 JP2008115878A JP2008115878A JP5352115B2 JP 5352115 B2 JP5352115 B2 JP 5352115B2 JP 2008115878 A JP2008115878 A JP 2008115878A JP 2008115878 A JP2008115878 A JP 2008115878A JP 5352115 B2 JP5352115 B2 JP 5352115B2
Authority
JP
Japan
Prior art keywords
status
site
primary
copy pair
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008115878A
Other languages
English (en)
Other versions
JP2009266015A (ja
Inventor
裕教 江丸
晋広 牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2008115878A priority Critical patent/JP5352115B2/ja
Priority to US12/213,524 priority patent/US8060478B2/en
Publication of JP2009266015A publication Critical patent/JP2009266015A/ja
Application granted granted Critical
Publication of JP5352115B2 publication Critical patent/JP5352115B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3485Performance evaluation by tracing or monitoring for I/O devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2069Management of state, configuration or failover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ホスト計算機とストレージ装置と管理計算機とを含むストレージシステム及びその監視条件設定方法に関し、特に、ストレージ装置内に設けられるボリュームの監視条件の変更を行う場合に適用しても好適なものである。
情報化社会の進展により、社会の至るところで計算機システムが導入され、そこで処理されるデータ量は爆発的に増えている。また、情報化社会の進展とともに計算機システムで扱われるデータの重要性が高まり、保持されるデータに高い信頼性が要求されるとともに、保持されるデータの喪失をあらゆる災害から防ぐことが情報システムの社会的な使命になっている。
このようなシステムでは、データの信頼性を保障するために、ボリュームの多重化が行われている。処理を行うホスト計算機から出力されるデータは、直接接続されているストレージ装置内のボリュームだけでなく、他のボリューム又は他のストレージ装置のボリュームへもコピーされる。これにより、データは二重化され、データの信頼性が保障される。
一般に、コピーされるボリュームが前記ボリュームと同一ストレージ装置内にある場合をローカルコピー、コピーされるボリュームが前記ボリュームと別ストレージ装置内にある場合をリモートコピーと称し、高信頼性が要求される情報システムに適用されている。また、ローカルコピー、リモートコピーをまとめてレプリケーションと称することもある。このレプリケーション技術によれば、一方のボリュームに障害が発生して動作不可能な状態に陥っても、他方のボリュームに格納されているデータを用いてシステム動作を続行することが可能である。レプリケーションの関係にあるコピー元とコピー先の2つのボリュームをコピーペアと呼ぶ。
通常、コピーペアはホスト計算機もしくはアプリケーションの単位にグルーピングされ、この単位でコピーペアの制御や監視が行われる。複数のコピーペアをホスト計算機もしくはアプリケーションの単位でグルーピングしたグループをコピーグループと呼ぶ。
特許文献1には、複数のホスト計算機と複数のストレージ装置を有したストレージシステムにおいて、コピーグループのレプリケーション監視を行う技術が開示されている。
特開2007−249447号公報
近年、ディザスタリカバリ(DR:Disaster Recovery)によってビジネス継続性を確保することの重要性が増してきている。DRを実現する要素技術としてレプリケーション技術が適用されることが多い。ディザスタリカバリを確実に行うためには、監視対象の構成に応じた監視を行うことにより被災をいち早く検出し、必要に応じてストレージシステム構成を変更し、運用を継続する必要がある。
ストレージシステムがDR構成をとっている場合、本番系システム(プライマリサイト)が被災すると、事前に決められた手順にしたがって待機系システム(リモートサイト)に引継ぎ処理が行われる。これにより業務継続性を確保するが、引継ぎ処理の結果発生した構成変更に応じて、これまで行われてきた監視の方法や監視条件の設定を変更しなければならない。
このような場合、従来技術では構成変更と監視が別個に行われていたため、行った構成変更に応じて管理者が手動で監視設定の切り替えを行う必要があった。特にストレージシステムが広域にわたって構築されるディザスタリカバリでは、構成変更が複数のサイトに影響を及ぼす。一方、監視はサイトごとに行われ、かつ上記構成変更がどのように行われるかは被災や障害の度合いによって異なる。そのため、あらかじめ監視条件を決めることが出来ず、現在観測している状態がシステム全体として正しいかどうかを判断できないためである。
本発明は、以上の点を考慮してなされたもので、管理者の管理負荷を軽減するとともに、監視負荷を低減することができるストレージシステム及びその監視条件変更方法を提案しようとするものである。
本発明は、1台以上のストレージ装置と、前記1台以上のストレージ装置へデータのリード/ライトを行なう1台以上のホスト計算機と、前記1台以上のホスト計算機を管理する管理計算機とを含むストレージシステムであって、前記1台以上のストレージ装置それぞれは、データを格納する1つ以上のディスク装置と、前記1つ以上のディスク装置が提供する記憶領域により構成される、複数のボリュームとを有し、前記1台以上のホスト計算機は、前記複数のボリュームのうちの所定数のボリュームで構成されるボリュームグループ(例えば、コピーペア、コピーグループ)の構成情報を管理し、前記管理計算機は、前記ボリュームグループの構成情報を利用して、ボリュームグループの構成変更の有無を検出し、構成変更があることを検出した場合に、予め設定された前記ボリュームグループの構成に合わせた監視条件の設定に基づいて、前記ボリュームグループの監視条件の設定を変更するものである。
この構成によると、複数サイトにわたる大規模なストレージシステムにおいて、ストレージシステムの管理計算機は、各サイトのホスト計算機からボリュームグループの構成情報(例えば、コピーペアのステータス情報)を収集し、収集した情報を解析することにより、ボリュームグループの構成変更(例えば、障害や災害が発生して本番系システムと、待機系システムの切り替え)が行われたことを検出すると、どのような構成変更が行われたかを判定して監視条件の設定を適切に切り替えることができる。
本発明によれば、管理者の管理負荷を軽減するとともに、監視負荷を低減することができるストレージシステム及びその監視条件変更方法を提案できる。
以下、本発明の各実施形態について説明する。なお、本発明は以下に説明する実施形態に限定されるものではない。
(第1の実施形態)
図1は、第1の実施形態のストレージシステムの構成を示すブロック図である。ストレージシステム1では、ストレージ装置1300(1300A,1300B)とホスト計算機1200(1200A,1200B)がデータネットワーク1500(1500A,1500B)で互いに接続される。なお、本第1の実施形態では、データネットワーク1500はストレージエリアネットワークとするが、IP(Internet Protocol)ネットワークであっても、あるいはこれら以外のデータ通信用ネットワークであってもよい。
ホスト計算機1200と管理計算機1100は管理ネットワーク1400を介して接続される。本第1の実施形態では、管理ネットワーク1400はIPネットワークとするが、ストレージエリアネットワークであっても、あるいはこれら以外のデータ通信用ネットワークであってもよい。また、本実施形態では、管理計算機1100はストレージ装置1300と直接接続されず、ホスト計算機1200を介して情報を取得するものとしたが、直接接続するような構成でも本発明を実施可能である。さらに、本実施形態では、データネットワーク1500と管理ネットワーク1400は別ネットワークであるとしたが、これら管理ネットワーク1400が同一ネットワークであってもよいし、管理計算機1100とホスト計算機1200は同一計算機であってもかまわない。なお、説明の都合上、図1では、ストレージ装置1300を2台、ホスト計算機1200を2台、管理計算機1100を1台としたが、本発明ではこれらの数は問わない。
ホスト計算機1200とストレージ装置1300とこれらを接続するデータネットワーク1500の組を本第1の実施形態ではサイトと呼ぶ。複数のサイトは、一般的にお互い地理的に離れた位置に配置される。あるサイトが被災した場合でも他のサイトで業務を継続できるようにするためである。図1は、業務を行うプライマリサイト1700と、そのバックアップサイトであるリモートサイト1800からなる。このような構成を2データセンタ(以下、2DCとする。)構成と呼称する。
2DC構成では、プライマリサイト1700、リモートサイト1800の間で、リモートネットワーク1600を介してリモートコピーが行われる。リモートコピーとは、ストレージ装置のあるボリュームのデータを別のストレージ装置のボリュームにコピーすることにより、データを二重化する技術である。リモートコピー技術によれば、一方のボリュームに障害が発生して動作不可能な状態に陥っても、他方のボリュームに格納されているデータを用いてシステム動作を続行することが可能である。リモートコピーの関係にあるコピー元とコピー先の2つのボリュームをコピーペアと呼ぶ。
以下、管理計算機1100の構成を図2に、ホスト計算機1200の構成を図3に、ストレージ装置1300の構成を図4に示す。
図2は、管理計算機1100の構成を示す図である。管理計算機1100は、キーボードやマウスなどの入力装置1130、CPU(Central Processing Unit)1140、CRT(Cathode Ray Tube)などの表示装置1150、メモリ1120、ローカルディスク1110、システム管理のためにホスト計算機1200とデータや制御命令を送受信する管理I/F1160を有している。
ローカルディスク1110は、管理計算機1100に接続されたハードディスクなどのディスク装置であり、管理プログラム1112が記憶されている。
管理プログラム1112は、管理計算機1100のメモリ1120にロードされ、CPU1140によって実行される。管理プログラム1112は、1つ以上のストレージ装置のコピーペアの監視を行うための機能をキーボードやマウスなどの入力装置1130やグラフィカルユーザインターフェース(GUI:Graphical User Interface)などの表示装置1150を介して提供するプログラムである。
メモリ1120上の管理テーブル1122については後述する。管理I/F1160は、管理ネットワーク1400とのインターフェースであって、ホスト計算機1200とデータや制御命令の送受信を行う。
図3は、ホスト計算機1200の構成を示す図である。ホスト計算機1200は、キーボードやマウスなどの入力装置1240、CPU1220、CRTなどの表示装置1250、メモリ1230、ストレージI/F1260及びローカルディスク1210を有している。
ストレージI/F1260はデータネットワーク1500に対するインターフェースであって、ストレージ装置1300とデータや制御命令の送受信を行う。ローカルディスク1210は、ホスト計算機1200に接続されたハードディスクなどのディスク装置であり、アプリケーション1212及び管理プログラム1214を格納している。
アプリケーション1212は、ホスト計算機1200のメモリ1230上にロードされ、CPU1220によって実行される。アプリケーション1212はストレージ装置1300上のボリュームに対してデータを読み書きすることにより処理を実行するプログラムであり、例えば、DBMS(Data Base Management System)やファイルシステムなどである。なお、説明の都合上、図3ではアプリケーション1212を1つとしたが、本発明ではこの数は問わない。
管理プログラム1214は、ホスト計算機1200のメモリ1230上にロードされ、CPU1220によって実行される。管理プログラム1214は、管理計算機1100からの指示に基づき、ストレージ装置1300の情報を取得するプログラムである。この情報は、例えば、後述するコピーペアのステータス情報である。
図4は、ストレージ装置1300の構成を示す図である。ストレージ装置1300は、データを格納するディスク装置1310、ストレージ装置1300の制御を行うディスクコントローラ1320で構成されている。
ディスク装置1310は、複数のボリューム1311、1312、1313から構成される。ボリュームは、ハードディスクドライブ(HDD)といった物理的なものであっても、論理デバイス(Logical Device)といった論理的なものであってもよく、本発明ではその種類を問わない。なお説明の都合上、図4ではボリュームの数を3個としたが、本発明ではこれらの数は問わない。ボリュームはコピーペアを構成することができる。
ディスクコントローラ1320には、ホストI/F1328、リモートI/F1326、ディスクI/F1325、メモリ1321、CPU1323、ローカルディスク1327が設けられている。
ローカルディスク1327は、ディスクコントローラ1320に接続されたハードディスクなどのディスク装置であり、ストレージマイクロプログラム1330が記憶されている。
ストレージマイクロプログラム1330は、ディスクコントローラ1320のメモリ1321にロードされ、CPU1323によって実行される。なお、本第1の実施形態では、ストレージマイクロプログラム1330がディスクコントローラ1320上のローカルディスク1327に記憶されているものとしたが、本発明はこれに限定されない。例えば、このストレージマイクロプログラム1330を、ディスクコントローラ1320上にフラッシュメモリなどを設け、そのフラッシュメモリに記憶することも、ディスク装置1310内の任意のディスクに記憶することも可能である。
ストレージマイクロプログラム1330は、ホスト計算機1200からの指示を受けて、コピーペアの制御や、コピーペアの状態の取得を行う。コピーペアの制御として、コピーペアを新規に作成するコピーペアの形成、同期の関係を中断するコピーペアの一時停止、一時停止状態から副側のボリュームの内容を正側のボリュームの内容と一致させるコピーペアの再同期といった制御がある。コピーペアの状態の取得とは、それぞれのコピーペアが上記のどの制御によりどの状態になっているかを取得することである。
ホストI/F1328は、データネットワーク1500に対するインターフェースであって、ホスト計算機1200とデータや制御命令の送受信を行う。リモートI/F1326は、リモートネットワーク1600とのインターフェースであって、サイト間にまたがって行われるリモートコピーのデータ転送に使用される。ディスクI/F1325は、ディスク装置1310に対するインターフェースであってデータや制御命令の送受信を行う。
ホスト計算機登録テーブル5001及び図5に示すペアステータス監視テーブル5000は、本第1の実施形態における管理テーブル1122を構成するテーブルである。ホスト計算機登録テーブル5001は、管理テーブル1122上に作成され、ホスト計算機1200の識別子とホスト計算機1200を呼び出すために必要な情報を持つ。このホスト計算機1200を呼び出すために必要な情報の一例はIPアドレスとポート番号である。なお、本テーブルは構成が単純であるため図示しない。
図5は、管理計算機1100上の管理テーブル1122を構成するペアステータス監視テーブル5000である。ペアステータス監視テーブル5000は、ペアステータスフィールド5100、被災状況フィールド5200及び監視設定フィールド5300を有している。ペアステータスフィールド5100には、各サイト1700,1800から収集されうるコピーペアのステータスが格納される。
本第1の実施形態では、プライマリサイト1700とリモートサイト1800の2つのサイトからなる構成を対象としており、それぞれのサイト1700,1800からペアステータスが取得できるものとする。したがって、ペアステータスフィールド5100には、プライマリサイト1700から取得されうるペアステータスをP:の後ろに、リモートサイト1800から取得されうるペアステータスをR:の後ろに格納する。
ここで、ペアステータスとして取得されうるステータスの種類を説明する。本第1の実施形態では、コピーペアの正側、副側のどちらから取得したか、コピーペアの状態はどのようになっているかによって、取得されうるステータスは9種類存在するものとする。
1個目のステータスはPAIR(P)である。これは、ステータスを取得した側が正側であること、コピーペアの正側と副側が同期の取れた状態にあることを示している。
2個目のステータスはPAIR(S)である。これは、ステータスを取得した側が副側であること、コピーペアの正側と副側が同期の取れた状態にあることを示している。
3個目のステータスはSUSP(P)である。これは、ステータスを取得した側が正側であること、コピーペアの正側と副側が同期を一時中断している状態にあることを示している。
4個目のステータスはSUSP(S)である。これは、ステータスを取得した側が副側であること、コピーペアの正側と副側が同期を一時中断している状態にあることを示している。
5個目のステータスはN/A(H)である。これは、管理計算機1100からホスト計算機1200に対して行ったステータス取得要求に対して応答がないことを示している。
6個目のステータスはN/A(S)である。これは、ホスト計算機1200がストレージ装置1300からのステータス取得に失敗したため、ホスト計算機1200がコピーペアのステータス情報を返せないことを示している。
7個目のステータスはPSUEである。ストレージシステム1では、副側のボリュームが障害などによって使用できなくなった場合、正側のストレージ装置1300に対して“Takeover”と呼ばれるコマンドを発行した後に、正側のボリュームのみで業務を再開する。このように“Takeover”コマンドを発行して正ボリュームのみで運用を行っている状態のことをPSUEと呼ぶ。
8個目のステータスはSSWSである。通常副側のボリュームは書込み禁止で運用している。そのため、ストレージシステム1では、正側のボリュームが障害などによって使用できなくなった場合、このままでは副側のボリュームを使用して業務を再開できない。そこで、副側のストレージ装置1300に対して“Takeover”と呼ばれるコマンドを発行して副ボリュームに書き込みを行えるような状態にした後に業務を再開する。このように“Takeover”コマンドを発行して副ボリュームのみで運用を行っている状態のことをSSWSと呼ぶ。
9個目のステータスはSMPLである。これはステータスを取得したボリュームがコピーペアを構成しておらず、正側でも副側でもないことを示している。なお、コピーペア運用を行っている場合でも、ペアを構成している相手側に災害が発生して回復の見込みがない場合は、コピーペアの関係を解消しSMPLにするケースがある。このような場合のステータスをSMPLと呼ぶ。
被災状況フィールド5200には、各サイト1700,1800から取得したペアステータスの組み合わせがペアステータスフィールド5100に格納されているものであった場合に、そこから導出される被災状況が格納される。
監視設定フィールド5300には、各サイト1700,1800から取得したペアステータスの組み合わせがペアステータスフィールド5100に格納されているものであった場合に、プライマリサイト1700に設定する監視条件をP:の後ろに、リモートサイト1800に設定する監視条件をS:の後ろに格納する。
5010から5080は、図1に示される構成のストレージシステム1において、プライマリサイト1700が正側、リモートサイト1800が副側のリモートコピーを構成している場合のペアステータス監視テーブル5000の構成要素である。
5010は、正常(被災なし)、すなわちコピーペアの正側と副側が同期の取れた状態にあることを示している。このような場合、正側、副側の両方からステータスを取得するのは冗長であるので、正側のみからステータスを取得すればよい。したがって、監視設定としては、プライマリサイト1700においてPAIR(P)であることを監視すればよい。なお、本第1実施形態では、プライマリサイト1700において監視を行うものとしたが、リモートサイト1800でPAIR(S)であることの監視を行ってもよい。
5020は、プライマリサイト被災、すなわちプライマリサイト1700のホスト計算機1200Aから応答がなく、ペアが解除された状態であることをリモートサイト1800からのみ検出できる場合である。このような場合、プライマリサイト1700が復旧するまでプライマリサイト1700の監視は行わず、リモートサイト1800がSMPLであることのみを監視すればよい。
5030は、プライマリサイト1700のホスト計算機1200Aがダウンしたため、リモートサイト1800のホスト計算機1200Bが業務を引き継ぎ、副側のストレージ装置1300Bに“Takeover”コマンドを発行してリモートサイト1800がコピーペアの正側として同期の取れた状態にある場合である。このような場合、プライマリサイト1700のホスト計算機1200Aの障害が復旧するまでプライマリサイト1700の監視は行わず、リモートサイト1800のステータスがPAIR(P)であることを監視すればよい。なお、この場合、障害が発生したのはプライマリサイト1700のホスト計算機1200Aのみであり、両サイト1700,1800のストレージ装置1300A,1300Bがともに稼動しているため、“Takeover”コマンドが発行されると、プライマリサイト1700とリモートサイト1800の正副の関係を入れ替える操作が行われる。
5040は、プライマリサイト1700のストレージ装置障害により、リモートサイト1800から“Takeover”コマンドを発行することによって、リモートサイト1800のみで業務を継続していることを示している。このような場合、プライマリサイト1700のストレージ装置障害が復旧するまでプライマリサイト1700の監視は行わず、リモートサイト1800のステータスがSSWSであることを監視すればよい。
5050は、リモートサイト被災、すなわちリモートサイト1800のホスト計算機1200Bから応答がなく、プライマリサイト1700はペアが解除された状態である。このような場合、リモートサイト1800が復旧するまでリモートサイト1800の監視は行わず、プライマリサイト1700がSMPLであることのみを監視すればよい。
5060は、リモートサイト1800のホスト計算機1200Bがダウンしたものの、ストレージ装置1300Bには障害が発生していない状態である。したがって、リモートサイト1800のホスト計算機1200Bからは応答はないものの、プライマリサイト1700からはコピーペアの正側として同期の取れた状態であることが返っている。このような場合、リモートサイト1800のホスト計算機障害が復旧するまでリモートサイト1800の監視は行わず、プライマリサイト1700のステータスがPAIR(P)であることを監視すればよい。
5070はリモートサイト1800のストレージ装置障害により、プライマリサイト1700から“Takeover”コマンドを発行することによって、プライマリサイト1700のみで業務継続していることを示している。このような場合、リモートサイト1800のストレージ装置障害が復旧するまでリモートサイト1800の監視は行わず、プライマリサイト1700のステータスがPSUEであることを監視すればよい。
5080は、サイト間のネットワーク被災により、コピーペアの正側と副側が同期を一時中断している状態であることを示している。このような場合、プライマリサイト1700、リモートサイト1800のそれぞれがSUSP(P)、SUSP(S)であることを監視すればよい。
図6は、管理計算機1100上の管理プログラム1112が実行する、監視条件変更処理を示すフローチャートである。
本処理はステップ6100によって開始されると、はじめにユーザからの終了指示の有無をチェックする(ステップ6110)。終了指示があった場合(ステップ6110にてYES)、処理を終了する(ステップ6230)。
終了指示がなかった場合(ステップ6110にてNO)、管理テーブル1122内のホスト計算機登録テーブル5001に登録されているすべてのホスト計算機1200上の管理プログラム1214に対し、ステータス取得要求を発行する(ステップ6120)。
ステータス取得要求を受信したホスト計算機1200上の管理プログラム1214は、当該指示に基づきコピーペアのステータスを取得し、その取得したステータスを管理計算機1100に返す。管理計算機1100は、コピーペアのステータスが応答として返ると、ペアステータス管理テーブル5000を参照する(ステップ6130)。
プライマリサイト1700、リモートサイト1800から取得したステータスと一致しているカラムを5010から5080の中から検索する(ステップ6140)。
一致するものがなかった場合(ステップ6140にてNO)は、想定外の障害が発生して予期しない状態になっているか、状態遷移中でしばらく待てば5010から5080のいずれかの状態に遷移するケースかのいずれかである。予期せぬ障害か遷移中であるかは切り分けられないため、管理者に対してアラートを通知し(ステップ6210)、一定時間待機(ステップ6220)の後、再びステップ6110に戻ってステータスの再取得を行う。
一致するものがあった場合(ステップ6140にてYES)には、一致したカラムの監視設定フィールド5300を参照し、監視条件の設定を行う(ステップ6150)。
設定を行うと一定時間待機する(ステップ6160)。本第1の実施形態では、ポーリング方式によって一定時間ごとに管理計算機1100からホスト計算機1200に情報取得を行う形態を想定しているためである。
その後、監視条件に基づいて情報の取得を行う(ステップ6170)。監視設定がSTOPであれば、監視を行わなくてもよいため、そのホスト計算機1200に対する情報の要求を行わない。
ホスト計算機1200から情報を取得すると、取得したステータスが監視設定を満たしているかを確認する(ステップ6180)。取得したステータスが、監視設定と同一ではない場合(ステップ6180にてNO)、構成が変わったことを示している。この場合、すべてのホスト計算機1200から情報を取得して、どの構成に変わったかを検出する必要がある。そのため、ステップ6110に戻り、ステップ6120において全ホスト計算機1200からのステータスの再取得を行う。
一方、取得したステータスが監視設定と同一である場合(ステップ6180にてYES)は、ホスト計算機1200からの通知の有無を確認する(ステップ6190)。
次に、管理プログラム1112は、ホスト計算機1200上の管理プログラム1214からの通知の受信有無を確認する。ホスト計算機1200上の管理プログラム1214は、起動時に管理計算機1100に対して通知を行う。管理計算機1100上の管理プログラム1112は、受信した通知が未知のホスト計算機1200からのものであった場合、そのホスト計算機1200を管理テーブル1122上のホスト計算機登録テーブル5001に登録する。
また既知のホスト計算機1200からの通知であっても、障害からの回復時はホスト計算機1200上の管理プログラム1214も再度起動されることになるため、障害回復のタイミングでホスト計算機1200から管理計算機1100に対する通知が行われる。
このように、ホスト計算機1200から通知があった場合(ステップ6190にてYES)、障害からの回復を含む何かしらの構成変更が行われたということであるので、最初のステップ6110に戻り、すべてのホスト計算機1200からのステータス取得を再度行う。
一方、ホスト計算機1200からの通知がない場合(ステップ6190にてNO)は、構成変更は行われていないということである。したがって、ユーザからの終了指示の有無をチェックし(ステップ6200)、終了指示があれば処理を終了し(ステップ6230)、終了指示がなければ、一定間隔でのポーリングを行うためステップ6160に遷移する。
なお、本第1の実施形態では、監視の対象はコピーペアとしたが、コピーグループであっても同様に本発明を実施可能である。また、本発明の対象となるコピー種別はリモートコピーとしたが、ローカルコピーであっても同様に本発明を実施可能である。
(第2の実施形態)
第1の実施形態では、コピーペアのステータスのみに着目したが、性能情報の監視設定も併せて行うことが可能である。たとえば、第1の実施形態で説明したリモートコピーが、ジャーナルボリュームを利用した非同期リモートコピーであった場合、使用しているジャーナルボリュームの量を監視し、事前に決められた閾値を超えるとユーザに対してアラートを通知するといった仕組みを設けることが可能である。
本第2の実施形態では、第1の実施形態のバリエーションとして、コピーペアのステータスに加えジャーナルボリュームを利用した非同期リモートコピーの性能情報の監視設定も行えることについて説明する。
なおジャーナルボリュームとは、非同期リモートコピーにおいてプライマリサイトに設けられるボリュームであり、リモートサイトのストレージ装置に未反映の書き込みデータを一時的にバッファリングするために使用される。ジャーナルボリュームは、ネットワークの帯域が減少したり、業務のI/O(Input Output)が想定以上に発生すると溢れてしまう可能性があるため、閾値を設けて、その閾値を超えないことを監視することが一般的に行われる。
本第2の実施形態のストレージシステムの構成は、第1の実施形態のストレージシステム1の構成と同一であるため、同一の構成には同一の符号を付して説明することとする。
図7に示すペアステータス監視テーブル7000、図8に示す閾値決定テーブル8000及びホスト計算機登録テーブル5001は、本第2の実施形態における管理テーブル1122を構成するテーブルである。以下、ペアステータス監視テーブル7000及び閾値決定テーブル8000について詳細に説明する。
図7は、性能情報として非同期リモートコピーのジャーナルボリュームの使用量を取得し、閾値監視を行う場合のペアステータス監視テーブル7000である。ここでは、ペアステータス監視テーブル7000の、図5に示したペアステータス監視テーブル5000との相違のみを説明する。ペアステータスフィールド5100及び被災状況フィールド5200はペアステータス監視テーブル5000の構成と同一である。
相違点は、監視設定フィールド5300にコピーペアのステータス監視だけではなく、ジャーナル(以下JNLと表記する。)の設定が付与された点である。すなわち、JNLと記載されている場合、記載された側のサイトにおいてジャーナルボリュームの閾値監視を行う。閾値の値は後述する閾値決定テーブル8000によって決定される。なおジャーナルボリュームの閾値監視は、コピーペアのステータスがPAIRである場合、すなわち正副のボリューム間の同期が取れている状態でのみ意味を持つ。
したがって、ペアステータス監視テーブル7000において、コピーペアのステータスがPAIRである、7010、7030、7060のケースにおいてのみジャーナルボリュームの閾値監視を行えばよい。なお、7010及び7060のケースではプライマリサイト1700が正側になっているためプライマリサイト1700が、7030のケースではリモートサイト1800が正側になっているためリモートサイト1800がJNLの監視対象となる。
図8は、ジャーナルの閾値を決定する、閾値決定テーブル8000である。閾値決定テーブル8000は、コピーペア名フィールド8100、コピーペア容量フィールド8200及びJNL閾値フィールド8300を有している。本第2の実施形態では、ジャーナルボリュームの閾値はコピーペアを構成しているボリューム容量の1%とするが、本発明はこの値に限定されるものではない。また、この値をユーザに指定させても本発明を実施可能である。
本第2の実施形態では、CG01という名称のコピーペアがあり、このコピーペアの容量は300TB、JNL閾値は3.0TBであることが示されている。
処理の流れについて、図6に示したフローチャートとの相違についてのみ以下で説明する。
ステップ6150において監視条件を設定する際、ペアステータス監視テーブル7000を参照し、ジャーナルボリュームの閾値を設定すべきであれば設定する。
ステップ6170においてステータスを取得する際、監視条件にジャーナルボリュームの閾値が含まれている場合は、ジャーナルボリューム使用量を取得する。
ステップ6180において、取得したステータスが監視条件と一致しているかをチェックする際に、ステップ6170においてジャーナル使用量を取得していれば、これが閾値決定テーブル8000に格納されている閾値を下回っていることを確認する。下回っている場合はステップ6190に進むが、上回っている場合には「ステータスが監視条件を満たしていない」とみなし、ステップ6110に進む。
上記の処理により、コピーペアのステータスに加えジャーナルボリュームを利用した非同期リモートコピーの性能情報の監視設定も行うことが可能である。
(第3の実施形態)
第1の実施形態は、災害や障害といった管理者が予めいつ発生するかを予期できない事象に対し、事象が発生して構成が切り替えられた後に、その構成の変更を検出して監視設定の切り替えを行うものである。しかしながら、バックアップなど予め設定されたスケジュールに基づいて行われ、コピーペアのステータスや構成に影響を及ぼすタスクも存在する。第1の実施形態は、監視設定の切り替えは監視の結果、構成の変更を検出して行うことを説明しているが、スケジュールが予め設定されている場合には、そのスケジュールを加味してあらかじめ監視設定を切り替えることが可能である。
本第3の実施形態では、監視設定の切り替えを、構成変更検出とスケジュール実行の両方をトリガとして行う方法について説明する。
本第3の実施形態のストレージシステムの構成は、第1の実施形態のストレージシステム1の構成と同一であるため、同一の構成には同一の符号を付して説明することとする。
図9に示すペアステータス監視テーブル9000、図10に示すスケジュールテーブル10000及びホスト計算機登録テーブル5001は、本第3の実施形態における管理テーブル1122を構成するテーブルである。以下、ペアステータス監視テーブル9000及びスケジュールテーブル10000について詳細に説明する。
図9は、スケジュール実行を加味したペアステータス監視テーブル9000である。ここでは、図5に示したペアステータス監視テーブル5000との相違のみを説明する。ペアステータス監視テーブル9000を説明するに当たり、これまでに述べた9つのステータスに加えて、2つのステータスを説明する。
10個目のステータスはRESYNC(P)である。これは、ステータスを取得した側が正側であること、コピーペアの正側と副側が同期を一時中断している状態から再び同期している状態に復帰中であることを示している。
11個目のステータスはRESYNC(S)である。これは、ステータスを取得した側が副側であること、コピーペアの正側と副側が同期を一時中断している状態から再び同期している状態に復帰中であることを示している。
ペアステータス監視テーブル9000のフィールドの構成はペアステータス監視テーブル5000と同一である。ペアステータス監視テーブルの構成要素5010から5080までは、ペアステータス監視テーブル5000と同一である。
9090は、バックアップ中のため、コピーペアの正側と副側が同期を一時中断している状態であることを示している。このような場合、プライマリサイト1700、リモートサイト1800のそれぞれがSUSP(P)、SUSP(S)であることを監視すればよい。5080と同じ条件であるが、バックアップ中は本状態を正常状態とみなし、それ以外の時間帯に本状態を検出した場合はネットワーク障害を疑うことになる。
9100は、バックアップが終了し、コピーペアの正側と副側が同期を一時中断している状態から再び同期している状態に復帰中であることを示している。このような場合、プライマリサイト1700、リモートサイト1800のそれぞれがRESYNC(P)、RESYNC(S)であることを監視すればよい。なお、この再同期の処理が完了すると、再び正側と副側は同期された状態になる。
図10は、スケジュールテーブル10000である。時刻フィールド10100には、タスクが実行される時間が格納される。タスクフィールド10200には、上記時間に実行されるタスクの名称が格納される。適用ルールフィールド10300には、タスクが実行される際に適用されるべき監視条件の番号が格納される。この番号は、ペアステータス監視テーブル9000の左側に記載されている番号である。
たとえば、10010は、2:00から3:00の間、バックアップタスクが実行され、その間はペアステータス監視テーブル9000の#9のルールすなわち、コピーペアの正側と副側が同期を一時中断している状態であることを監視すればよいことを示している。
管理計算機1100上の管理プログラム1112は、スケジュールテーブル10000を参照し、タスク開始時刻になると、監視条件設定処理を行う。本第3の実施形態では、タスク開始時刻は2:00、3:00及び3:10である。
監視条件設定処理はタスク開始時刻になると起動され、そのときの監視設定がスケジュールテーブル10000の該当するフィールドの1つ前のものであった場合、適用ルールフィールドに格納されたルールを適用する。例えば、3:00には、その時点で適用されている監視条件が#9、すなわち、プライマリサイト1700、リモートサイト1800がペアの同期を一時中断していることを監視中であれば、#10の監視条件に切り替えを行う。なお、このようにステータス設定が行なわれない場合は、バックアップ処理が正常に動作していないこととなる。このため、そのステータス設定が行なわれない場合はその旨をユーザに通知することにより、管理計算機1100は障害などが発生したことをユーザに報知することができる。この際、監視条件の設定処理は行わない。なお、ユーザは管理計算機1100の管理者でも良いし、各サイト1700,1800の管理者でも良い。
図6に示したフローチャートの処理に加え、上記の処理を行うことにより、監視設定の切り替えを、構成変更検出とスケジュール実行の両方をトリガとして行うことが可能となる。
(第4の実施形態)
第1の実施形態から第3の実施形態では、ストレージ装置1300に対して接続されるホスト計算機1200の台数を1台としていた。しかしながら、1台のストレージ装置に複数台のホスト計算機を接続しても本発明の実施が可能である。
図11は本実施形態のストレージシステム2の構成を示すブロック図である。図1に示したストレージシステム1との相違を説明する。ストレージシステム2では、プライマリサイト1700、リモートサイト1800の各サイトにおいて、1台のストレージ装置1300(1300A、1300B)と2台のホスト計算機1200(1200A,C、1200B,D)がデータネットワーク1500(1500A、1500B)で互いに接続される。
本第4の実施形態では、1台のストレージ装置1300に接続されるホスト計算機1200の数は2台としたが、本発明ではこれらの数は問わない。また、ホスト計算機1200は物理的なホスト計算機ではなく仮想的なホスト計算機でも構わない。すなわち、サーバ仮想化技術を適用することにより、物理的に1台のホスト計算機上に複数台の仮想的なホスト計算機を稼動させるような構成でも本発明を実施可能である。
この構成において、プライマリサイト1700の2つのホスト計算機1200A,C上でそれぞれ業務が稼動しており、ここからプライマリサイト1700のストレージ装置1300Aに書き込みが行われ、さらにリモートサイト1800のストレージ装置1300Bに非同期リモートコピーによりデータが転送されるものとする。ここで、プライマリサイト1700のそれぞれのホスト計算機1200A,Cが使用しているコピーペアの名称を、CG01及びCG02とする。なお、本第4の実施形態ではCG01及びCG02はコピーペアであるとしたが、コピーグループであっても本発明を実施することが可能である。
図7に示すペアステータス監視テーブル7000、図12に示す閾値決定テーブル12000及びホスト計算機登録テーブル5001は、本実施の形態における管理テーブル1122を構成するテーブルである。以下閾値決定テーブル12000について詳細に説明する。
図12はジャーナルの閾値を決定する、閾値決定テーブル12000である。閾値決定テーブル12000のフィールドの構成は、図8に示した閾値決定テーブル8000と同一である。本第4の実施形態では、ジャーナルボリュームの閾値はコピーペアを構成しているボリューム容量の1%とするが、本発明はこの値に限定されるものではない。また、この値をユーザに指定させても本発明を実施可能である。この閾値決定テーブル12000から、コピーペアがCG01、CG02の2つ定義されていること、CG01のコピーペア容量が300TBであり、JNL閾値が3.0TBであること、CG02のコピーペア容量が250TBであり、JNL閾値が2.5TBであることがわかる。
通常運用時は、2つの業務はプライマリサイト1700で稼動する。そのため、JNLの監視はプライマリサイト1700にて、5.5TBを閾値として行うことになる。
処理の流れは図6に示したフローチャートにより説明されるが、相違点のみを説明する。ステップ6190においてホスト計算機1200上の管理プログラム1214から通知を受信する際に、ホスト計算機1200が複数台あることを考慮する必要がある。災害や障害が発生すると、プライマリサイト1700からリモートサイト1800に“Takeover”コマンドが発行されるケースがある。この場合、コピーペアごとに、それぞれのコピーペアの正側がどちらのサイトであるかを監視し、正側のサイトに対し、閾値決定テーブル12000に基づいた閾値監視を行う。
さらに、災害や障害だけではなく、メンテナンスや負荷分散を目的に業務をプライマリサイト1700からリモートサイト1800にコピーペア単位で正副を入れ替えたり、片側を停止したりするケースがある。この場合も、業務が移動したことをホスト計算機1200上の管理プログラム1214が、管理計算機1100に通知する。この通知を受信すると、管理計算機1100は全ステータスを再取得することによって、業務がサイトを移動したことを検出する必要がある。
なお、この場合、移動した業務に対応するコピーペアのJNL閾値の和をそれぞれのサイトで監視すべき閾値として設定する。例えば、CG01、CG02の両方の正側がプライマリサイト1700であれば、プライマリサイト1700のJNL閾値を5.5TBに設定する。また、CG01の正側がプライマリサイト1700にあり、CG02の正側がリモートサイト1800にあれば、プライマリサイト1700のJNL閾値を3.0TBに、リモートサイト1800のJNL閾値を2.5TBに設定する。
なおサーバ仮想化技術として知られている技術を適用することにより、物理的に1台のホスト計算機1200上に複数台の仮想的なホスト計算機を稼動させるような構成をとることが可能である。サーバ仮想化技術をマルチサイト構成のストレージシステムに適用すると、通常時はバックアップなどしか行わず、被災時しか業務を行わないリモートサイト側には少ない数の物理的なホスト計算機しか用意しなくても本発明を実施可能なため、リモートサイトの構築コストを抑えられるというメリットがある。
この場合、仮想的なホスト計算機を管理する管理プログラムが、仮想的なホスト計算機の構成が変更された際に管理計算機1100上の管理プログラム1112に通知を行うようにして、それを図6に示したフローチャートのステップ6190において受信しても本発明を実施可能である。
(第5の実施形態)
リモートコピーには非同期リモートコピーの他に同期リモートコピーがある。同期リモートコピーとは、業務を行っているホスト計算機から発行された書き込みが、正側のストレージ装置と副側のストレージ装置の両方に書き込まれた後に業務を行っているホスト計算機に書き込み完了応答を返す方式である。同期リモートコピーは、正側と副側のデータが常に一致するため、被災時のデータロスがないという特徴がある。
第1から第4の実施形態説明したように、2つのサイト間でリモートコピーを行うことにより、1つのサイトが被災した場合でも残りのサイトで業務を継続することができる。しかしながら、1つのサイトが被災してしまうと残り1サイトでの運用となるため、冗長度は失われてしまう。また、2つのサイトを近距離に配置する場合、ネットワークの遅延が少ないため同期リモートコピーを使用することができ、被災時に失われてしまうデータの量を極小化することができるが、大規模災害に弱いという欠点がある。一方、2つのサイトを遠距離に配置する場合、大規模災害には強いが、ネットワークの遅延が大きいため非同期リモートコピーを使用せざるを得ず、被災時に失われてしまうデータの量が多くなってしまうという欠点がある。
そこで、これらの欠点をカバーするために、プライマリサイトに対して同期リモートコピーを行う近距離のローカルサイトと、非同期リモートコピーを行う遠距離のリモートサイトを組み合わせた3データセンタ(以下、3DCとする)構成を取る場合がある。3DC構成を取ることにより、プライマリサイトのみが被災してしまった場合には、ローカルサイトにおいてデータロスを極小におさえた業務継続を行い、プライマリサイトとローカルサイトの両方が被災するような大規模災害が発生した場合には、リモートサイトにおいて最小限のデータロスで業務継続を行うことができる。
本第5の実施形態では、3DC構成をとった場合でも本発明を実施可能であることを説明する。
図13は、本第5の実施形態のストレージシステムの構成を示すブロック図である。ストレージシステム3は、図1に示す構成に加えてローカルサイト13100が追加されている。ローカルサイト13100の構成は他のサイト1700,1800の構成と同様である。また、ローカルサイト13100内を構成する管理計算機1100、ホスト計算機1200E、ストレージ装置1300Eの構成は、第1の実施形態においてそれぞれ図2、図3、図4を用いてした説明と同様である。
ローカルサイト13100内のホスト計算機1200Eは、管理計算機1100と管理ネットワーク1400で互いに接続される。ローカルサイト13100内のストレージ装置1300Eは、リモートネットワーク1600を介して他サイトのストレージ装置1300A,1300Bと互いに接続される。なお、説明の都合上、図13では、ストレージ装置1300を3台、ホスト計算機1200を3台、管理計算機1100を1台としたが、本発明ではこれらの数は問わない。
この構成において、プライマリサイト1700のホスト計算機1200A上で業務が稼動しており、ここからプライマリサイト1700のストレージ装置1300Aに書き込みが行われる。さらに、プライマリサイト1700とローカルサイト13100の間で同期リモートコピーが行われ、プライマリサイト1700とリモートサイト1800の間で非同期リモートコピーが行われているものとする。ここで、ローカルサイト13100とリモートサイト1800の間では、プライマリサイト1700が被災した際に速やかに非同期リモートコピーの同期状態に移行できるようにプライマリサイト1700から書き込まれたデータの差分管理を行っているものとする。
図14及び図15に示すペアステータス監視テーブル14000、14001、及びホスト計算機登録テーブル5001は、本実施の形態における管理テーブル1122を構成するテーブルである。以下、ペアステータス監視テーブル14000、14001について詳細に説明する。
ペアステータス監視テーブル14000及び14001を説明するに当たり、これまでに述べた11種類のステータスに加えて、2種類のステータスを説明する。
12個目のステータスはHOLD(P)である。これは、ステータスを取得した側が正側であること、コピーペアの正側と副側が差分管理を行い、障害発生時には差分データの転送だけで同期状態に復帰できる状態であることを示している。
13個目のステータスはHOLD(S)である。これは、ステータスを取得した側が副側であること、コピーペアの正側と副側が差分管理を行い、障害発生時には差分データの転送だけで同期状態に復帰できる状態であることを示している。
ペアステータス監視テーブル14000及び14001は、ペアステータスフィールド5100、被災状況フィールド5200及び監視設定フィールド5300を有している。ペアステータスフィールド5100には、各サイトから収集されうるコピーペアのステータスが格納される。本第5の実施形態では、プライマリサイト1700とローカルサイト13100及びリモートサイト1800の3つのサイトからなる構成を対象としており、それぞれのサイトからペアステータスが取得できるものとする。したがって、ペアステータスフィールド5100には、プライマリサイト1700から取得したペアステータスをP:の後ろに、ローカルサイト13100から取得したペアステータスをL:の後ろに、リモートサイト1800から取得したペアステータスをR:の後ろに格納する。
以下、プライマリサイト1700とローカルサイト13100の間の同期リモートコピーをTC(True Copy)、プライマリサイト1700とリモートサイト1800の間の非同期リモートコピーをUR(Universal Replicate)と呼称する。なお、ローカルサイト13100とリモートサイト1800の間で行っているデータの差分管理をUR2と呼称する。
被災状況フィールド5200には、各サイト1700,13100,1800から取得したペアステータスの組み合わせから導出される被災状況が格納される。
監視設定フィールド5300には、正副のペアステータスがペアステータスフィールド5100に格納されているものであった場合にプライマリサイト1700に設定する監視条件をP:の後ろに、ローカルサイト13100に設定する監視条件をL:の後ろに、リモートサイト1800に設定する監視条件をR:の後ろに格納する。
14010から14130は、ストレージシステム3において、同期リモートコピーと非同期リモートコピーを組み合わせた3DCのストレージシステムが構成されている場合の、ペアステータス監視テーブル14000及び14001の構成要素である。
14010は、正常(被災なし)を示している。すなわち、TC及びURが同期の取れた状態にあり、UR2が差分管理している状態である。このような場合、正側、副側の両方からステータスを取得するのは冗長であるので、正側のみからステータスを取得すればよい。したがって、監視設定としては、プライマリサイト1700のTC、URがそれぞれPAIR(P)であること、ローカルサイト13100のUR2がHOLD(P)であることを監視すればよい。本第5の実施形態では、それぞれのコピーペアの正側を監視するものとしたが、副側で監視を行ってもよい。
14020は、プライマリサイト被災を示している。すなわちプライマリサイト1700がダウンしてTC及びURのペアは解除された状態にあり、差分管理を行っていたUR2が同期状態になることによって、ローカルサイト13100とリモートサイト1800の間でコピーを行っている状態である。このような場合、SMPLとなっているTC及びURペアの監視は行わず、同期が取れた状態のUR2の監視をコピーペアの正側すなわちローカルサイト13100から行えばよい。
14030は、プライマリサイトのホスト計算機がダウンした状態を示している。ローカルサイト13100のホスト計算機1200が業務を引き継ぎ、TCは“Takeover”コマンドが発行されてローカルサイト13100がコピーペアの正側として同期の取れた状態に、URは差分管理状態に、UR2はローカルサイト13100がコピーペアの正側として同期の取れた状態になる。したがって、監視設定としては、プライマリサイト1700のホスト計算機障害が復旧するまでプライマリサイト1700の監視は行わず、ローカルサイト13100のTC、UR2がそれぞれPAIR(P)であること、及びURは副側であるリモートサイト1800からしか監視できないため、リモートサイト1800のURがHOLD(S)であることを監視すればよい。
14040は、プライマリサイトでストレージ装置障害が発生した状態を示している。プライマリサイト1700のストレージ装置1300Aに障害が発生したため、ローカルサイト13100にて業務を引き継ぐ。TC、URはそれぞれローカルサイト13100、リモートサイト1800において“Takeover”コマンドが発行され副側のボリュームに書き込みを行えるような状態にし、差分管理を行っていたUR2が同期状態になることによって、ローカルサイト13100とリモートサイト1800の間でコピーを行う。したがって、監視設定としては、プライマリサイト1700のストレージ装置障害が復旧するまでプライマリサイト1700の監視は行わず、ローカルサイト13100においてTCがSSWSであること、UR2がPAIR(P)であることを、リモートサイト1800においてURがSSWSであることを監視すればよい。
14050は、ローカルサイト被災を示している。すなわちローカルサイト13100がダウンしてTC、UR2のペアは解除された状態にあり、URペアのみが同期状態にある場合である。したがって、監視設定としては、ローカルサイト13100が復旧するまでローカルサイト13100の監視は行わず、プライマリサイト1700においてURがPAIR(P)であることのみを監視すればよい。
14060は、ローカルサイトのホスト計算機がダウンしたものの、ストレージ装置には障害が発生していない状態である。すなわち、ローカルサイト13100のホスト計算機1200Eからは応答はないものの、プライマリサイト、リモートサイトからは正常時と同様の状態であることが返っている。このような場合、ローカルサイトのホスト計算機障害が復旧するまでローカルサイトの監視は行わず、プライマリサイトにおいて、TC及びURがPAIR(P)であること、リモートサイトにおいて、UR2がHOLD(S)であることを監視すればよい。
14070はローカルサイトでストレージ装置障害が発生した状態を示している。ローカルサイト13100のストレージ装置1300Eに障害が発生したため、プライマリサイト1700とリモートサイト1800の間のみが同期の取れた状態である。このような場合、ローカルサイト13100のストレージ装置障害が復旧するまでローカルサイト13100の監視は行わず、プライマリサイト1700において、TCがPSUEであること、URがPAIR(P)であること、リモートサイト1800において、UR2がSSWSであることを監視すればよい。
14080は、リモートサイト被災を示している。すなわちリモートサイト1800がダウンしてUR、UR2のペアは解除された状態にあり、TCペアのみが同期状態にある場合である。したがって、監視設定としては、リモートサイト1800が復旧するまでリモートサイト1800の監視は行わず、プライマリサイト1700においてTCがPAIR(P)であることのみを監視すればよい。
14090は、リモートサイトのホスト計算機がダウンしたものの、ストレージ装置には障害が発生していない状態である。すなわち、リモートサイト1800のホスト計算機1200Bからは応答はないものの、プライマリサイト1700、ローカルサイト13100からは正常時と同様の状態であることが返っている。このような場合、リモートサイト1800のホスト計算機障害が復旧するまでリモートサイト1800の監視は行わず、プライマリサイト1700において、TC及びURがPAIR(P)であること、ローカルサイト13100において、UR2がHOLD(P)であることを監視すればよい。
14100はリモートサイトでストレージ装置障害が発生した状態を示している。リモートサイト1800のストレージ装置1300Bに障害が発生したため、プライマリサイト1700とローカルサイト13100の間のみが同期の取れた状態である。このような場合、リモートサイト1800のストレージ装置障害が復旧するまでリモートサイト1800の監視は行わず、プライマリサイト1700において、TCがPAIR(P)であること、URがPSUEであること、ローカルサイト13100において、UR2がPSUEであることを監視すればよい。
14110は、プライマリサイトとローカルサイトの間のネットワーク被災により、コピーペアTCの正側と副側が同期を一時中断している状態であることを示している。このような場合、プライマリサイト1700において、TCがSUSP(P)であること、URがPAIR(P)であること、ローカルサイト13100において、TCがSUSP(S)であること、UR2がHOLD(P)であることを監視すればよい。
14120は、プライマリサイトとリモートサイトの間のネットワーク被災により、コピーペアURの正側と副側が同期を一時中断している状態であることを示している。このような場合、プライマリサイト1700において、TCがPAIR(P)であること、URがSUSP(P)であること、ローカルサイト13100において、UR2がHOLD(P)であること、リモートサイト1800において、URがSUSP(S)であることを監視すればよい。
14130は、ローカルサイトとリモートサイトの間のネットワーク被災により、コピーペアUR2の正側と副側が差分管理を一時中断している状態であることを示している。このような場合、プライマリサイト1700において、TC及びURがPAIR(P)であること、ローカルサイト13100において、UR2がSUSP(P)であること、リモートサイト1800において、UR2がSUSP(S)であることを監視すればよい。
本第5の実施形態の処理の流れは、第1の実施形態における図6に示すフローチャートによって説明されたものと同一である。相違点は、参照するテーブルがペアステータス監視テーブル5000ではなく、ペアステータス監視テーブル14000及び14001であることである。
なお、本第5の実施形態では、ペアのステータスのみを監視条件として設定するものとしたが、第2の実施形態で示したように性能情報も監視条件として追加することができる。
上記各実施形態のストレージシステム1,2及び3によると、構成の変更に応じて監視方法や監視条件の再設定を行うことによりレプリケーション管理者の管理負荷を軽減するとともに、監視対象を最適化することによって監視負荷を低減することができる。
本発明は、ストレージシステム及びその監視条件変更方法に広く適用することができる。
本発明の第1の実施形態に係わるストレーシシステムの構成を示す図である。 同実施形態に係わる管理計算機の構成を示す図である。 同実施形態に係わるホスト計算機の構成を示す図である。 同実施形態に係わるストレージ装置の構成を示す図である。 同実施形態に係わるペアステータス監視テーブルの一例を示す図である。 同実施形態に係わる管理計算機の管理プログラムの監視条件の設定を行う処理を示すフローチャートである。 本発明の第2の実施形態に係わるペアステータス監視テーブルの一例を示す図である。 同実施の態に係わる閾値決定テーブルの一例を示す図である。 本発明の第3の実施形態に係わるペアステータス監視テーブルの一例を示す図である。 同実施形態に係わるスケジュールテーブルの一例を示す図である。 本発明の第4の実施形態に係わるストレージシステムの構成を示す図である。 同実施形態に係わる閾値決定テーブルの一例を示す図である。 本発明の第5の実施形態に係わるストレージステムの構成を示す図である。 同実施形態に係わるペアステータス監視テーブルの一例の一部分を示す図である。 同実施形態に係わるペアステータス監視テーブルの一例の他の部分を示す図である。
符号の説明
1,2,3…ストレージシステム、1100…管理計算機、1110…ローカルディスク、1112…管理プログラム、1120…メモリ、1122…管理テーブル、1130…入力装置、1150…表示装置、1200(1200A,B,C,D,E)…ホスト計算機、1210…ローカルディスク、1212…アプリケーション、1214…管理プログラム、1230…メモリ、1240…入力装置、1250…表示装置、1300(1300A,B、E)…ストレージ装置、1310…ディスク装置、1311…ボリューム、1320 …ディスクコントローラ、1321…メモリ、1327…ローカルディスク、1330…ストレージマイクロプログラム、1400…管理ネットワーク、1500…データネットワーク、1600…リモートネットワーク、1700…プライマリサイト、1800…リモートサイト、5000…ペアステータス監視テーブル、5001…ホスト計算機登録テーブル、5010…構成要素、5100…ペアステータスフィールド、5200…被災状況フィールド、5300…監視設定フィールド、7000…ペアステータス監視テーブル、8000…閾値決定テーブル、8100…コピーペア名フィールド、8200…コピーペア容量フィールド、8300…閾値フィールド、9000…ペアステータス監視テーブル、10000…スケジュールテーブル、10100…時刻フィールド、10200…タスクフィールド、10300…適用ルールフィールド、12000…閾値決定テーブル、13100…ローカルサイト、14000…ペアステータス監視テーブル

Claims (7)

  1. 1台以上のストレージ装置と、前記1台以上のストレージ装置へデータのリード/ライトを行う1台以上のホスト計算機と、前記1台以上のホスト計算機を管理する管理計算機とを含むストレージシステムであって、
    前記1台以上のストレージ装置それぞれは、
    データを格納する1つ以上のディスク装置と、前記1つ以上のディスク装置が提供する記憶領域により構成される、複数のボリュームとを有し、
    前記1台以上のホスト計算機は、
    前記複数のボリュームのうちの所定数のボリュームで構成されるボリュームグループの構成情報を管理し、
    前記ボリュームグループの構成は、前記複数のボリュームのうちの1つのボリュームを前記1台以上のホスト計算機のいずれかからデータライトされる正ボリュームとし、前記正ボリュームでないボリュームを前記正ボリュームに書き込まれたデータのコピー先である副ボリュームとするコピーペアの構成であり、
    前記正ボリュームを備える前記ストレージ装置と前記ホスト計算機との組で構成されるプライマリサイトと、前記副ボリュームを備える前記ストレージ装置と前記ホスト計算機との組で構成されるリモートサイトとを有し、前記プライマリサイトと前記リモートサイトとは地理的に離れた位置に配置され、
    前記構成情報には、前記プライマリサイトの前記正ボリュームのコピーペアのステータス及び前記リモートサイトの前記副ボリュームのコピーペアのステータスが含まれ、
    前記管理計算機は、
    前記プライマリサイト及び前記リモートサイトを監視する監視設定として、前記コピーペアのステータスに応じて、前記プライマリサイトの前記正ボリュームまたは前記リモートサイトの前記副ボリュームに対して、前記コピーペアのステータスに関する監視条件を設定し、
    前記コピーペアのステータスが前記監視設定に設定された前記コピーペアのステータスに関する監視条件を満たしていない場合に、前記コピーペアのステータスに変更があるとして、変更後の前記コピーペアのステータスを取得し、該コピーペアのステータスに応じて、前記プライマリサイトの前記正ボリュームまたは前記リモートサイトの前記副ボリュームにそれぞれ対応する前記コピーペアのステータスに関する監視条件の設定を変更する
    ことを特徴とするストレージシステム。
  2. 前記管理計算機は、前記コピーペアのステータスの変更が予め前記監視設定に設定された範囲内の変更であった場合は前記コピーペアのステータスに対応して設定された前記監視条件変更し、前記コピーペアのステータスの変更が予め前記監視設定に設定された範囲内の変更でない場合は前記管理計算機の管理者にその旨を報知する
    ことを特徴とする請求項1に記載のストレージシステム。
  3. 前記1台以上のホスト計算機は、1台の物理的なホスト計算機上で仮想的なホスト計算機として稼動する、複数の仮想的なホスト計算機を含むことを特徴とする
    請求項1に記載のストレージシステム。
  4. 1台以上のストレージ装置と、前記1台以上のストレージ装置へデータのリード/ライトを行う1台以上のホスト計算機と、前記1台以上のホスト計算機を管理する管理計算機とを含むストレージシステムの監視条件変更方法であって、
    前記1台以上のストレージ装置それぞれは、データを格納する1つ以上のディスク装置と、前記1つ以上のディスク装置が提供する記憶領域により構成される、複数のボリュームとを有し、
    前記1台以上のホスト計算機は、前記複数のボリュームのうちの所定数のボリュームで構成されるボリュームグループの構成情報を管理し、
    前記1台以上のストレージ装置のうちの1台以上のストレージ装置と、前記1台以上のホスト計算機のうちの1台以上のホスト計算機と含んで構成される、複数のサイトを有し、
    前記ボリュームグループの構成は、前記複数のボリュームのうちの1つのボリュームを前記1台以上のホスト計算機のいずれかからデータライトされる正ボリュームとし、前記正ボリュームでないボリュームを前記正ボリュームに書き込まれたデータのコピー先である副ボリュームとするコピーペアの構成であり、
    前記正ボリュームを備える前記ストレージ装置と前記ホスト計算機との組で構成されるプライマリサイトと、前記副ボリュームを備える前記ストレージ装置と前記ホスト計算機との組で構成されるリモートサイトとを有し、前記プライマリサイトと前記リモートサイトとは地理的に離れた位置に配置され、
    前記構成情報には、前記プライマリサイトの前記正ボリュームのコピーペアのステータス及び前記リモートサイトの前記副ボリュームのコピーペアのステータスが含まれ、
    前記管理計算機が、前記プライマリサイト及び前記リモートサイトを監視する監視設定として、前記コピーペアのステータスに応じて、前記プライマリサイトの前記正ボリュームまたは前記リモートサイトの前記副ボリュームに対して、前記コピーペアのステータスに関する監視条件を設定するステップと、
    前記管理計算機が、前記コピーペアのステータスが前記監視設定に設定された前記コピーペアのステータスに関する監視条件を満たしていない場合に、前記コピーペアのステータスに変更があるとして、変更後の前記コピーペアのステータスを取得するステップと、
    前記管理計算機が、該コピーペアのステータスに応じて、前記プライマリサイトの前記正ボリュームまたは前記リモートサイトの前記副ボリュームにそれぞれ対応する前記コピーペアのステータスに関する監視条件の設定を変更するステップと
    を含むことを特徴とするストレージシステムの管理条件変更方法。
  5. 前記管理計算機が、前記コピーペアのステータスの変更が予め前記監視設定に設定された範囲内の変更であった場合は前記コピーペアのステータスに対応して設定された前記監視条件変更するステップと、
    前記管理計算機が、前記コピーペアのステータスの変更が予め前記監視設定に設定された範囲内の変更でない場合は前記管理計算機の管理者にその旨を報知するステップと
    を含むことを特徴とする請求項に記載のストレージシステムの管理条件変更方法。
  6. データを格納する1つ以上のディスク装置と、前記1つ以上のディスク装置が提供する記憶領域により構成される、複数のボリュームとを、それぞれ有する1台以上のストレージ装置と、
    前記1台以上のストレージ装置へデータのリード/ライトを行うとともに、前記複数のボリュームのうちの所定数のボリュームで構成されるボリュームグループの構成情報を管理する、1台以上のホスト計算機と、
    を含むストレージシステムにおいて前記1台以上のストレージ装置及び前記1台以上のホスト計算機を管理する管理計算機であって、
    前記ボリュームグループの構成は、前記複数のボリュームのうちの1つのボリュームを前記1台以上のホスト計算機のいずれかからデータライトされる正ボリュームとし、前記正ボリュームでないボリュームを前記正ボリュームに書き込まれたデータのコピー先である副ボリュームとするコピーペアの構成であり、
    前記正ボリュームを備える前記ストレージ装置と前記ホスト計算機との組で構成されるプライマリサイトと、前記副ボリュームを備える前記ストレージ装置と前記ホスト計算機との組で構成されるリモートサイトとを有し、前記プライマリサイトと前記リモートサイトとは地理的に離れた位置に配置され、
    前記構成情報には、前記プライマリサイトの前記正ボリュームのコピーペアのステータス及び前記リモートサイトの前記副ボリュームのコピーペアのステータスが含まれ、
    前記管理計算機は、
    前記プライマリサイト及び前記リモートサイトを監視する監視設定として、前記コピーペアのステータスに応じて、前記プライマリサイトの前記正ボリュームまたは前記リモートサイトの前記副ボリュームに対して、前記コピーペアのステータスに関する監視条件を設定し、
    前記コピーペアのステータスが前記監視設定に設定された前記コピーペアのステータスに関する監視条件を満たしていない場合に、前記コピーペアのステータスに変更があるとして、変更後の前記コピーペアのステータスを取得し、該コピーペアのステータスに応じて、前記プライマリサイトの前記正ボリュームまたは前記リモートサイトの前記副ボリュームにそれぞれ対応する前記コピーペアのステータスに関する監視条件の設定を変更する
    ことを特徴とする管理計算機。
  7. 前記コピーペアのステータスの変更が予め前記監視設定に設定された範囲内の変更であった場合は前記コピーペアのステータスに対応して設定された前記監視条件に変更し、前記コピーペアのステータスの変更が予め前記監視設定に設定された範囲内の変更でない場合は前記管理計算機の管理者にその旨を報知する
    ことを特徴とする請求項に記載の管理計算機。
JP2008115878A 2008-04-25 2008-04-25 ストレージシステム及びその監視条件変更方法 Expired - Fee Related JP5352115B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008115878A JP5352115B2 (ja) 2008-04-25 2008-04-25 ストレージシステム及びその監視条件変更方法
US12/213,524 US8060478B2 (en) 2008-04-25 2008-06-20 Storage system and method of changing monitoring condition thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008115878A JP5352115B2 (ja) 2008-04-25 2008-04-25 ストレージシステム及びその監視条件変更方法

Publications (2)

Publication Number Publication Date
JP2009266015A JP2009266015A (ja) 2009-11-12
JP5352115B2 true JP5352115B2 (ja) 2013-11-27

Family

ID=41216038

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008115878A Expired - Fee Related JP5352115B2 (ja) 2008-04-25 2008-04-25 ストレージシステム及びその監視条件変更方法

Country Status (2)

Country Link
US (1) US8060478B2 (ja)
JP (1) JP5352115B2 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4842720B2 (ja) * 2006-06-29 2011-12-21 株式会社日立製作所 ストレージシステム及びデータ複製方法
US8271704B2 (en) 2009-06-16 2012-09-18 International Business Machines Corporation Status information saving among multiple computers
JP5032620B2 (ja) * 2010-03-16 2012-09-26 株式会社東芝 ディスクアレイ装置及び同ディスクアレイ装置に適用される論理ディスク再構成方法
US8788877B2 (en) * 2011-08-03 2014-07-22 International Business Machines Corporation Acquiring a storage system into copy services management software
US9424152B1 (en) * 2012-10-17 2016-08-23 Veritas Technologies Llc Techniques for managing a disaster recovery failover policy
US9817739B1 (en) * 2012-10-31 2017-11-14 Veritas Technologies Llc Method to restore a virtual environment based on a state of applications/tiers
US20140164323A1 (en) * 2012-12-10 2014-06-12 Transparent Io, Inc. Synchronous/Asynchronous Storage System
US9819722B2 (en) * 2014-12-23 2017-11-14 Dell Products, L.P. System and method for controlling an information handling system in response to environmental events
US9823814B2 (en) 2015-01-15 2017-11-21 International Business Machines Corporation Disk utilization analysis
US10402451B2 (en) * 2016-01-26 2019-09-03 jSonar Inc. Hybrid storage and processing of very large databases
CN105897472B (zh) * 2016-04-05 2019-06-14 中国银联股份有限公司 提供业务连续性保护的数据处理系统
TWI647564B (zh) * 2017-11-07 2019-01-11 先智雲端數據股份有限公司 用於診斷資料中心儲存設備之剩餘壽命的方法與系統
US10664368B2 (en) 2017-11-30 2020-05-26 International Business Machines Corporation Modifying aspects of a storage system associated with data mirroring
US10592362B2 (en) * 2017-11-30 2020-03-17 International Business Machines Corporation Modifying journaling associated with data mirroring within a storage system
US10642703B2 (en) 2017-11-30 2020-05-05 International Business Machines Corporation Configuring a secondary storage system for data mirroring
CN114338369B (zh) * 2021-12-30 2023-08-08 苏州浪潮智能科技有限公司 一种环形两地三中心的故障诊断方法、系统及装置
US11947431B1 (en) * 2022-12-07 2024-04-02 Dell Products, L.P. Replication data facility failure detection and failover automation

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5544347A (en) * 1990-09-24 1996-08-06 Emc Corporation Data storage system controlled remote data mirroring with respectively maintained data indices
JP2002189570A (ja) * 2000-12-20 2002-07-05 Hitachi Ltd 記憶システムの二重化方法および記憶システム
JP2006323559A (ja) * 2005-05-18 2006-11-30 Hitachi Ltd データ処理システム
JP4827564B2 (ja) 2006-03-15 2011-11-30 株式会社日立製作所 コピーペアのペア状態の表示方法
JP4896593B2 (ja) * 2006-06-05 2012-03-14 株式会社日立製作所 性能監視方法、計算機及び計算機システム
JP4327831B2 (ja) * 2006-09-05 2009-09-09 株式会社日立製作所 ストレージシステム、管理計算機及びコピーペア監視方法
JP4890160B2 (ja) * 2006-09-06 2012-03-07 株式会社日立製作所 ストレージシステム及びバックアップ/リカバリ方法
JP4389915B2 (ja) * 2006-09-21 2009-12-24 日産自動車株式会社 ハイブリッド車両の降坂路走行制御装置
US8171485B2 (en) * 2007-03-26 2012-05-01 Credit Suisse Securities (Europe) Limited Method and system for managing virtual and real machines

Also Published As

Publication number Publication date
US8060478B2 (en) 2011-11-15
US20090271445A1 (en) 2009-10-29
JP2009266015A (ja) 2009-11-12

Similar Documents

Publication Publication Date Title
JP5352115B2 (ja) ストレージシステム及びその監視条件変更方法
US10489254B2 (en) Storage cluster failure detection
US10146472B2 (en) Tertiary storage unit management in bidirectional data copying
WO2019085875A1 (zh) 存储集群的配置修改方法、存储集群及计算机系统
US8914671B2 (en) Multiple hyperswap replication sessions
US7603581B2 (en) Remote copying of updates to primary and secondary storage locations subject to a copy relationship
JP5286212B2 (ja) ストレージクラスタ環境でのリモートコピー制御方法及びシステム
US10915406B2 (en) Storage unit replacement using point-in-time snap copy
US10719244B2 (en) Multi-mode data replication for data loss risk reduction
JP2010128644A (ja) 障害復旧方法、プログラムおよび管理サーバ
JP2007072571A (ja) 計算機システム及び管理計算機ならびにアクセスパス管理方法
JP2007249447A (ja) コピーペアのペア状態の表示方法
US8688939B2 (en) Storage system and storage subsystem
JP2008287405A (ja) パス管理方法、ホスト計算機及びパス管理プログラム
JP4571576B2 (ja) リモートコピー記憶装置システムおよびリモートコピー方法
JP6335336B2 (ja) ストレージシステムおよびその制御方法
JP2008276281A (ja) データ同期システム、方法、及び、プログラム
JP5947974B2 (ja) 情報処理装置及び情報処理装置の交換支援システム並びに交換支援方法
KR20180018195A (ko) 공정 관리 장치, 이와 연동하는 데이터 서버를 포함하는 반도체 공정 관리 시스템 및 이를 이용한 반도체 공정 관리 방법
JP2011081830A (ja) サーバ切替方法、プログラムおよび管理サーバ
JP2008033967A (ja) 外部記憶装置及び外部記憶装置のデータ回復方法並びにプログラム
WO2013073022A1 (ja) 計算機システム及び障害検出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120828

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130730

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130826

R150 Certificate of patent or registration of utility model

Ref document number: 5352115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees