[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP4902403B2 - 情報システム及びデータ転送方法 - Google Patents

情報システム及びデータ転送方法 Download PDF

Info

Publication number
JP4902403B2
JP4902403B2 JP2007085792A JP2007085792A JP4902403B2 JP 4902403 B2 JP4902403 B2 JP 4902403B2 JP 2007085792 A JP2007085792 A JP 2007085792A JP 2007085792 A JP2007085792 A JP 2007085792A JP 4902403 B2 JP4902403 B2 JP 4902403B2
Authority
JP
Japan
Prior art keywords
volume
storage device
virtual storage
data
storage apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007085792A
Other languages
English (en)
Other versions
JP2008134988A (ja
Inventor
恭男 渡辺
康友 山本
健太 二瀬
賢哲 江口
卓成 岩村
久雄 本間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2007085792A priority Critical patent/JP4902403B2/ja
Priority to US11/850,918 priority patent/US7802131B2/en
Publication of JP2008134988A publication Critical patent/JP2008134988A/ja
Priority to US12/856,712 priority patent/US8090979B2/en
Priority to US13/209,560 priority patent/US8386839B2/en
Application granted granted Critical
Publication of JP4902403B2 publication Critical patent/JP4902403B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2069Management of state, configuration or failover
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2071Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring using a plurality of controllers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/2053Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
    • G06F11/2056Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring
    • G06F11/2087Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant by mirroring with a common controller

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、複数の記憶領域を備えた情報システム及び該情報システムにおけるデータ転送方法に関する。
一般に、情報システムでは、記憶デバイスとしてHDD(ハードディスクドライブ)を用いるストレージ装置が備えられ、そのストレージ装置を含むストレージシステムが、ストレージエリアネットワーク(SAN:Storage Area Network)経由で、複数の上位装置(例えばホスト)からアクセスされる。一般的にストレージ装置では、RAID(Redundant Array of Independent (or Inexpensive) Disks)技術に従う高信頼化方法が採用されることでHDD単体の信頼性を超えた信頼性をストレージ装置として提供している。しかし、近年の情報化社会の進化によって上記RAIDによる信頼性が貢献する情報システムの可用性(サービス継続性)では不足してきた。
このような状況に対応する高可用化技術として、特許文献1に開示された技術がある。当該技術では、ホストコンピューター(以後ホストと省略する)とストレージ装置をそれぞれ有するプロダクションサイトとバックアップサイトを用意し、プロダクションサイトのストレージ装置が保存するデータをバックアップサイトのストレージ装置にミラーリングする。もし、プロダクションサイトのストレージ装置が障害停止した場合は、バックアップサイトのストレージ装置とホストを用いて装置停止の結果停止していたアプリケーション処理を再開させる。本技術は一般的にリモートコピー又はリモートミラーリングと呼ばれる。
特開平7‐244597号 米国特許 7,080,197号
特許文献1の技術ではストレージ装置の障害停止の結果、異なるホストでアプリケーションを再開させるため、アプリケーションの再起動処理が必要になる。当然ながらアプリケーション停止から再起動完了まではアプリケーションは通常動作ができないため、可用性については問題がある。
本発明は、2台以上のストレージ装置間でリモートコピーを行う情報システムと当該情報システムを利用するデータ転送の可用性を向上させることを目的とする。
かかる課題を解決するため本発明においては、上位装置としてのホストコンピューターと、前記ホストコンピューターに接続され、第1の主ボリューム及び第1の副ボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記ホストコンピューターに接続され、第2の主ボリューム及び第2の副ボリュームを有する第2のストレージ装置とを備え、前記第1及び第2のストレージ装置は、前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行し、前記第1及び第2のストレージ装置の少なくとも一方は、自ストレージ装置内の前記第1又は第2の主ボリュームに書き込まれた前記データを対応する前記第1又は第2の副ボリュームにコピーするローカルコピーを実行し、前記ホストコンピューターは、前記第1のストレージ装置に障害が発生したときには、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替え、前記第1及び第2のストレージ装置は、それぞれ前記ローカルコピーを制御するためのローカルコピー制御情報を保持し、前記第1のストレージ装置は、前記ローカルコピー制御情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、前記第2のストレージ装置は、前記第1のストレージ装置からの通知に応じて、自己が保持する前記ローカルコピー制御情報を更新することを特徴とする。
また本発明においては、上位装置としてのホストコンピューターと、前記ホストコンピューターに接続された第1のストレージ装置と、前記第1のストレージ装置及び前記ホストコンピューターに接続された第2のストレージ装置とを有する情報システムにおけるデータ転送方法において、前記第1のストレージ装置は、第1の主ボリューム及び第1の副ボリュームを有し、前記第2のストレージ装置は、第2の主ボリューム及び第2の副ボリュームを有し、前記第1及び第2のストレージ装置が、前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行すると共に、前記第1及び第2のストレージ装置の少なくとも一方が、自ストレージ装置内の前記第1又は第2の主ボリュームに書き込まれた前記データを対応する前記第1又は第2の副ボリュームにコピーするローカルコピーを実行する第1のステップと、前記ホストコンピューターが、前記第1のストレージ装置に障害が発生したときに、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替える第2のステップとを備前記第1及び第2のストレージ装置は、それぞれ前記ローカルコピーを制御するためのローカルコピー制御情報を保持し、前記第1のストレージ装置は、前記ローカルコピー制御情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、前記第2のストレージ装置は、前記第1のストレージ装置からの通知に応じて、自己が保持する前記ローカルコピー制御情報を更新することを特徴とする。
さらに本発明においては、情報システムにおいて、上位装置としてのホストコンピューターと、前記ホストコンピューターに接続され、第1の主ボリューム及び第1の副ボリュームを有する第1のストレージ装置と、前記第1のストレージ装置及び前記ホストコンピューターに接続され、第2の主ボリューム及び第2の副ボリュームを有する第2のストレージ装置とを備え、前記第1及び第2のストレージ装置は、前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行し、前記第1及び第2のストレージ装置の少なくとも一方は、論理スナップショットの作成指示以降に更新された前記第1又は第2の主ボリュームの更新前のデータを前記第1又は第2の副ボリュームに退避させ、前記ホストコンピューターは、前記第1のストレージ装置に障害が発生したときには、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替え、前記第1及び第2のストレージ装置は、それぞれ前記スナップショットを管理するためのスナップショット管理情報を保持し、前記第1のストレージ装置は、前記スナップショット管理情報を前記スナップショット管理情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、前記第2のストレージ装置は、前記第1のストレージ装置からの通知に応じて、自己が保持する前記スナップショット管理情報を更新することを特徴とする。
さらに本発明においては、上位装置としてのホストコンピューターと、前記ホストコンピューターに接続された第1のストレージ装置と、前記第1のストレージ装置及び前記ホストコンピューターに接続された第2のストレージ装置とを有する情報システムにおけるデータ転送方法において、前記第1のストレージ装置は、第1の主ボリューム及び第1の副ボリュームを有し、前記第2のストレージ装置は、第2の主ボリューム及び第2の副ボリュームを有し、前記第1及び第2のストレージ装置が、前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行すると共に、前記第1及び第2のストレージ装置の少なくとも一方が、論理スナップショットの作成指示以降に更新された前記第1又は第2の主ボリュームの更新前のデータを前記第1又は第2の副ボリュームに退避させる第1のステップと、前記ホストコンピューターが、前記第1のストレージ装置に障害が発生したときに、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替える第2のステップとを備え、前記第1及び第2のストレージ装置は、それぞれ前記スナップショットを管理するためのスナップショット管理情報を保持し、
前記第1のストレージ装置は、前記スナップショット管理情報を前記スナップショット管理情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、前記第2のストレージ装置は、前記第1のストレージ装置からの通知に応じて、自己が保持する前記スナップショット管理情報を更新することを特徴とする。
本発明によれば、2台以上のストレージ装置間でリモートコピーを行う情報システムと当該情報システムを利用するデータ転送の可用性を向上させることができる。
以下、図面を参照して、本発明の実施の形態を説明する。
(1)第1の実施の形態
<1.情報システムの構成>
図1は、本発明の一実施の形態に係る情報システムのハードウェア構成の一例を示す図である。
情報システムは、例えば、ストレージ装置1500、ホストコンピューター(以後ホストと省略する)1100、管理ホスト1200と、2台以上の仮想化ストレージ装置1000とから構成される。ストレージ装置1500、ホストコンピューター(以後ホストと省略する)1100、管理ホスト1200の数は、それぞれ、1以上とすることができる。仮想化ストレージ装置1000とホスト1100は、I/Oネットワーク1300を介して、相互に接続される。仮想化ストレージ装置1000とストレージ装置1500と管理ホスト1200は、管理ネットワーク(図示せず)又はI/Oネットワーク1300を介して相互に接続される。
ホスト1100には、ホスト内部ネットワーク1104があり、そのネットワーク1104に、プロセッサ(図中ではProcと略記)1101と、メモリ(図中ではMemと略記)1102と、I/Oポート(図中ではI/O Pと略記)1103とが接続されている。管理ホスト1200も、ホスト1100と同じハードウェア構成を有することができる。なお、I/Oポートをホスト1100に追加する拡張カードをHBA(Host Bas A
dapter)と呼ぶことがある。
管理ホスト1200は、表示装置を有し、その表示装置に、仮想化ストレージ装置1000とストレージ装置1500の管理用の画面を表示することができる。また、管理ホスト1200は、管理操作リクエストを、ユーザー(例えば管理ホスト1200のオペレーター)から受付け、その受け付けた管理操作リクエストを、仮想化ストレージ装置1000やストレージ装置1500に送信することができる。管理操作リクエストは、仮想化ストレージ装置1000やストレージ装置1500の操作のためのリクエストであり、例えば、パリティグループ作成リクエスト、内部LU(Logical Unit)作成リクエスト、パス定義リクエスト、及び仮想化機能に関する操作がある。
I/Oネットワーク1300は、ファイバーチャネルによる接続が第一に考えられる
が、それ以外でも、FICON(FIbre CONnection:登録商標)やEthernet(登録商標)とTCP/IP(Transmission Control Protocol/Internet Protocol)とiSCSI(internet SCSI(Small Computer System Interface))の組み合わせや、Ethernet(登録商標)とNFS(Network File System)やCIFS(Common Internet File System)等のネットワークファイルシステムの組み合わせ等が考えられる。さらに、I/Oネットワーク1300は、I/Oリクエストを転送可能な通信装置であればこれ以外でもよい。また、仮想化ストレージ装置1000とストレージ装置1500を接続するネットワークについてもI/Oネットワーク1300と同様である。
仮想化ストレージ装置1000は、コントローラー(図中はCTLと表記)1010と、キャッシュメモリ(図中はCMと表記)1020と、複数のHDD1030とを備える。好ましい形態としては、コントローラー1010及びキャッシュメモリ1020は、それぞれ複数のコンポーネントから構成することが考えられる。なぜなら、コンポーネント単体に障害が発生して閉塞した場合でも、残りのコンポーネントを用いてリードやライトに代表されるI/Oリクエストを引き続き受けることができるためである。
コントローラー1010は、仮想化ストレージ装置1000の動作を制御する装置(例えば回路基盤)である。コントローラー1010には、内部ネットワーク1017があり、その内部ネットワーク1017に、I/Oポート1013、キャッシュポート(図中ではC Pと表記)1015、管理ポート(図中ではM Pと表記)1016、バックエンドポート(図中ではB/E Pと表記)1014、プロセッサ(例えばCPU(Central Processing Unit))1011及びメモリ1012が接続されている。コントローラー1010同士とキャッシュメモリ1020は、ストレージ内部ネットワーク1050にて相互に接続される。また、コントローラー1010と各HDD1030は、複数のバックエンドネットワーク1040にて相互接続される。
ストレージ装置1500のハードウェア構成は仮想化ストレージ装置1000と同種の部品から構成される。なお、仮想化ストレージ装置1000がHDDを持たない仮想化専用装置またスイッチの場合は、ストレージ装置1500は仮想化ストレージ装置1000と同種の部品から構成されなくてもいい。さらに、ホスト1100及び仮想化ストレージ装置1000の内部のネットワークは、好ましくは、I/Oポート1013の有する転送帯域より広帯域であり、また、バスやスイッチ型のネットワークによって全てまた一部が代替されてもよい。また、図1では、I/Oポート1013は、コントローラー1010に一つ存在することになっているが、実際には、複数のI/Oポート1013がコントローラー1010に存在してもよい。
以上のハードウェア構成によって、仮想化ストレージ装置1000やストレージ装置1500のHDDに保存された全て又は一部のデータを、ホスト1100が読出したり書き込んだりすることができるようになる。なお、以後の説明では、データ保存を担当するシステムをストレージクラスタと呼ぶ。また、ストレージクラスタ内部に当該システムを2系統含むことで高可用化を実現するサブシステムで、仮想化ストレージ装置1000とストレージ装置1500の片方又は両方を含むサブシステムをストレージサブシステムと呼ぶ。
<2.本実施の形態の概要>
本実施の形態では、他のストレージ装置内のボリューム等の記憶領域を仮想化する仮想化機能を有する仮想化ストレージ装置1000を含むストレージシステムの可用性を向上させるため、もう一台の仮想化ストレージ装置1000を用いた二重化構成を採用する。図2はその概要を示した図である。
本概要では、ストレージシステムに仮想化ストレージ装置1000L、仮想化ストレージ装置1000R、ストレージ装置1500L、ストレージ装置1500Rが含まれる。なお、以下においては、説明を容易にするため、仮想化ストレージ装置1000L及びストレージ装置1500Lを正系(プロダクション系)、仮想化ストレージ装置1000R及びストレージ装置1500Rを副系(バックアップ系)の役割をもっているものとする。しかし、それぞれの仮想化ストレージ装置1000L,1000Rがホスト1100へ提供するボリュームが二つ以上の場合は、仮想化ストレージ装置単位で正系・副系を担当する代わりにボリューム単位で正系を担当する仮想化ストレージ装置1000L,1000Rが定まっていればよい。
それぞれの仮想化ストレージ装置1000L,1000Rは自身が有するHDD1030を構成要素とするパリティグループ(RAID技術によって構成される)の一部又は全ての領域をボリューム3000LAやボリューム3000RAとしてホスト1100に提供する(図中の円柱内に'A'と記された部分が対応)。また、仮想化ストレージ装置1000はオプションとして仮想化機能による仮想ボリューム3000LB,3000RB(対応するHDD等の不揮発記憶領域が仮想化ストレージ装置1000L,1000Rの外部に存在するボリュームのこと)を提供することができる。本概要ではストレージ装置1500L、1500Rが提供するボリューム3500LB、3500RBの一部又は全てを対応する不揮発記憶領域として用いている。なお、以後の説明では「ボリュームのデータ」と書いた場合は、HDD1030に保存されたデータに加えてキャッシュメモリ1020に一時保存されたデータも含む。また、後ほど述べる「仮想ボリュームのデータ」に関してはストレージ装置1500L,1500Rのボリューム3500LB、3500RBに保存されたデータに加えて仮想化ストレージ装置1000L,1000Rのキャッシュメモリ1020に一時保存されたデータを含む。
一方、ホスト1100上ではアプリケーションプログラム(以後、アプリケーションと略すことがある)2010と、OSと、OSの設定・処理を補佐するデーモンや管理プログラムに代表されるシステムプログラムとが動作している。OSはアプリケーション2010に対して仮想化ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000RB内に存在するデータに対するI/Oリクエスト用インターフェースを提供し、アプリケーション2010からの要求に応じて適切な仮想化ストレージ装置1000L,1000R及びボリューム3000LA,3000LB,3000RA,3000RBに対するI/Oリクエストを送信する。通常状態ではホスト1100は仮想化ストレージ装置1000Lのボリューム3000LA,3000LBに対してリードやライトに代表されるI/Oリクエストを発行し、データの送受信を行う。つまり、リードリクエストを受け取った場合、仮想化ストレージ装置1000Lは、リクエスト対象のボリューム3000LA,3000LB,3500LBが仮想化ストレージ装置1000L内部のHDD1030に対応している場合は当該HDD1030からデータを読み上げてこれをホスト1100に返したり、ストレージ装置1500Lに対してリードリクエストを発行することで必要なデータを取得し、そのデータ(の全て又は一部)をホスト1100に返す。
ライトリクエストの場合は、データの冗長化のために、ライトデータを受け取った仮想化ストレージ装置1000Lは副系である仮想化ストレージ装置1000Rへライトデータを送信し、仮想化ストレージ装置1000Lがライトデータの受け取り完了メッセージを仮想化ストレージ装置1000Rから受け取った後にホスト1100に対してライト完了メッセージを返す。なお、仮想化ストレージ装置1000Lに対するライトデータも仮想化ストレージ装置1000Rが仮想化ストレージ装置1000Lを経由して受け取ったライトデータも、各仮想化ストレージ装置1000L,1000R内のキャッシュメモリ1020L,1020Rに一時保持されてもよい。なお、本実施の形態の一つとして、このライトデータの転送はストレージリモートコピーによって行われる。
図3は通常状態下で仮想化ストレージ装置1000Lに障害が発生した後の情報システムの処理概要を示している。
正系の仮想化ストレージ装置1000Lが障害によって停止した場合、ホスト1100上のシステムプログラムはその障害を検知し、I/Oリクエストの発行先を正系の仮想化ストレージ装置1000Lから副系の仮想化ストレージ装置1000Rへ切り替える。ただし、その場合もアプリケーション2010はI/Oリクエストの発行先が切り替わったことを認識せずにI/Oを継続することができる。そのために、通常時からシステムプログラムはOSレイヤ(より具体的にはファイルシステムより下位のレイヤ)にて、アプリケーション2010やファイルシステムからI/Oリクエスト時に指定されるボリューム識別子として仮想的なボリューム識別子(又はデバイスファイル)を指定させるようにしておき、OSの下位レイヤは当該識別子と実際のボリュームに対して割り当てられた識別子(又はデバイスファイル)の対応を管理しておく。I/Oリクエストの発行先を切り替える場合は、その対応関係をこれまでの仮想化ストレージ装置1000Lのボリューム3000LA、ボリューム3000LB宛であったものを仮想化ストレージ装置1000Rのボリューム3000RAとボリューム3000RB宛に切り替えることでアプリケーション2010に対して透過に切り替えを実現する。
さらに、仮想化ストレージ装置1000Rもホスト1100からの当該ボリューム3000RA,3000RBに対するライトリクエストの到着やその他明示的なフェイルオーバー要求に応じて、ライトリクエストを処理できるようにする。この変更処理の一例としては、仮想化ストレージ装置1000Lから仮想化ストレージ装置1000Rに対するデータコピーに伴い、仮想化ストレージ装置1000Rのボリューム3000RA,3000RBに対するホスト1100からのライトリクエストの拒否が設定されている場合はそれを解除する。また、リモートコピーを用いてライトデータの転送を行っている場合はリモートコピーのコピー状態の変更を行うことも考えられる。
図4は仮想化ストレージ装置1000L,1000R間のネットワークに障害が発生した後の情報システムの処理概要を示している。
ネットワーク障害を検知した仮想化ストレージ装置1000Lはホスト1100に当該障害を通知する。障害通知を受けたホスト1100は、副系の仮想化ストレージ装置1000Rに対してライトリクエストを処理できるように要求し、以後のライトリクエストは正系の仮想化ストレージ装置1000L及び副系の仮想化ストレージ装置1000Rの両方に発行することで、正系と副系のデータを同一にする。
<3.ホスト1100で実行されるプログラム及び情報>
図5はホスト1100上で実行されるソフトウェアプログラムと、当該ソフトウェアプログラムが用いる情報とに加えて、各ソフトウェアプログラムが提供する概念について記した図である。なお、当該ソフトウェアプログラムはメモリ1102(図1)とプロセッサ1101(図1)とによって保持と実行がされるが、その一部をハードウェア化して実行してもよい。
ホスト1100上ではアプリケーション2010、リモートコピーマネージャー5030に加えて、OS又はKernel内部のプログラムモジュールとしてファイルシステム5020、I/Oパスマネージャー5000及びHBAデバイスドライバー5010が実行される(ファイルシステム5020、I/Oパスマネージャー5000又はHBAデバイスドライバー5010は、全ての処理がKernel内部で実行される必要はない)。
HBAデバイスドライバー5010はHBAに搭載されたI/Oポート1103(図1)を通じてI/Oリクエストやそれに伴うデータを送受信したり、その他の仮想化ストレージ装置1000L,1000Rやストレージ装置1500L,1500R等との通信を制御するプログラムである。HBAデバイスドライバー5010は、また、上位レイヤに対して仮想化ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000RBに対応する識別子を提供し、その識別子を伴ったI/Oリクエストを受け付けることができる。ボリューム5040はその概念を示したもので、仮想ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000RBにそれぞれ対応している。
I/Oパスマネージャー5000は、アプリケーション2010のI/Oリクエスト発信先を切り替えるためのモジュールである。当該モジュールはHBAデバイスドライバー5010が提供するボリューム5040に対応する識別子と同種のホスト1100内での仮想的なボリュームに対応する識別子及びI/Oリクエスト用インターフェースをファイルシステム5020に対して提供する。このホスト1100内での仮想的なボリュームに対応する識別子は当該モジュール内でHBAデバイスドライバー5010が提供するボリューム5040に対応する識別子と対応しており、デバイス関係テーブル5001がその対応関係を保持している。ボリューム5050はこのホスト1100内での仮想的なボリュームの概念を示したもので、本図ではその対応関係の一例として仮想化ストレージ装置1000Lのボリューム3000LA,3000LBに対応する識別子と対応している(他の言い方をすると、ホスト1100内での仮想的なボリューム5050の実体は仮想化ストレージ装置1000Lのボリューム3000LA,3000LBであるともいえる)。
ここまでのレイヤでのI/Oリクエストは通常固定長ブロックアクセス形式で指定する。ただし、ホスト1100がメインフレームの場合はこれに限定されず、CKD(Count Key Data)形式で指定してもよい。
ファイルシステム5020は、HBAデバイスドライバー5010が提供するボリューム5040に対応する識別子及びI/Oインターフェースと、I/Oパスマネージャー5000が提供するホスト1100内での仮想的なボリューム5050に対応する識別子及びI/Oインターフェースとを通じて、仮想化ストレージ装置1000L,1000RへのI/Oリクエストを送信したり、データの送受信を行うモジュールである。図5では例としてファイルシステム5020内部にディレクトリツリーの構造を示し、そのツリー構造の一部5052が、I/Oパスマネージャー5000がホスト1100内での仮想化で提供したボリューム5050に保存されている状態を示している(これまで説明した通り、より正確にはI/Oパスマネージャー5000のホスト1100内での仮想的なボリューム5050の提供は識別子を通じたものであり、さらに、そのボリューム5050に保存されていると書いたデータは実際にはデバイス関係テーブル5001にて示される仮想化ストレージ装置1000L,1000Rが提供するボリューム3000LA,3000LB,3000RA,3000PBに保存されている)。ファイルシステム5020はアプリケーション2010に対してファイルI/Oのインターフェースを提供する。ファイルI/Oインターフェースを通じてアプリケーション2010から呼び出されたファイルシステム5020は、ファイル名とファイル内でのデータオフセットを伴ったリード又はライトリクエストをディレクトリファイルやinodeといったファイルシステム5020内の構造化情報を参照しつつ、ブロック形式のリード又はライトリクエストに変換し、I/Oパスマネージャー5000又はHBAデバイスドライバー5010へリード又はライトリクエストを渡す。
なお、Unit系やWindows(登録商標)系のOSではファイルI/Oのインターフェースを用いて直接ボリュームのデータを操作するためのインターフェースとしてデバイスファイルシステムと呼ばれる機能を提供している。通常、デバイスファイルシステムはファイル空間の'/dev'ディレクトリ配下に展開されており、当該ディレクトリ以下のファイル(図中の例では、rsda等)のファイル名はファイルシステム5020の下位レイヤ(HBAデバイスドライバー5010やI/Oパスマネージャー5000)が提供するボリューム5040,5050に対応する。そして、当該ボリューム5040,5050に保存されたデータはデバイスファイル5070,5080に保存されたデータであるかのようにファイルI/O用インターフェースで読み書き可能となる。なお、図5では例としてデバイスファイル5070(rsda, rsdb, rsdc, rsdd)はHBAデバイスドライバー5010が認識し、提供しているボリューム5040に対応し、デバイスファイル5080(vsda, vsdb)はI/Oパスマネージャー5000が提供しているボリューム5050に対応している。このデバイスファイル5070,5080は、アプリケーション2010がデータベースである場合に、独自のデータ編成やバッファ管理を実現する目的で使われることがある。
リモートコピーマネージャー5030は仮想化ストレージ装置1000L,1000Rとの間のデータ転送を実現するリモートコピーの状態を取得したり、ホスト1100やI/Oパスマネージャー5000がリモートコピーの操作を行うためのプログラムで、当該プログラムを使用するプログラム、ユーザー又はI/Oパスマネージャー5000の要求に応じて仮想化ストレージ装置1000L,1000Rと通信を行う。
なお、これまで説明した通りHBAデバイスドライバー5010やI/Oパスマネージャー5000は一部又は全ての機能がKernel内部のモジュールとしてインストールやアンインストールすることができることが望ましい。なぜならば、HBAデバイスドライバー5020はHBAを制御するプログラムであるが故、HBAの製造会社が提供することが多い。同様にI/Oパスマネージャー5000は仮想化ストレージ装置1000L,1000Rの処理を前提として処理が決定されるため、一部又は全てのモジュールが仮想化ストレージ装置1000L,1000Rの製造会社が提供することが考えられる。したがって、当該プログラムがインストール・アンインストールできることによって幅広いHBAと仮想化ストレージ装置1000L,1000Rの組み合わせによる情報システムを構築することができる。また、本発明ではアプリケーション2010に対して透過に正系と副系の切り替えを行うためにKernel内部で処理を実行することでアプリケーション2010の再コンパイル等が不要な透過的な切り替えが可能である。さらに、I/Oパスマネージャー5000がファイルシステム5020とHBAデバイスドライバー5010の中間レイヤに存在することで、ファイルシステム5020に対する再コンパイル等を不要とし、さらにファイルシステム透過性も確保している。そして、I/Oパスマネージャー5000がHBAデバイスドライバー5010の機能を利用することができるようになっている。
また、Kernel内部にいるI/Oパスマネージャー5000がリモートコピーマネージャー5030を呼び出す場合やその逆の通信方法として以下の二通りが考えられる。
(A)I/Oパスマネージャー5000は通信用の仮想的なボリュームを作成し、ファイルシステム5020はこの通信用ボリュームをデバイスファイルとしてファイル空間に作成する。リモートコピーマネージャー5030は定期的にデバイスファイルに対してリードシステムコールを実行した状態で待つ。I/Oパスマネージャー5000はリモートコピーマネージャー5030からのI/Oリクエストを受信するが、内部で保留する。そして、当該モジュールがリモートコピーマネージャー5030に対するメッセージ送信をする必要が出てきたらI/Oリクエストの返り値として定められたメッセージを含むデータをファイルシステム5020を通じてリモートコピーマネージャー5030に返す。なおこの際リモートコピーマネージャーが発行するリードシステムコールは長時間Kernel内部で待たされることになる。それが好ましくない場合は、I/Oパスマネージャー5000が、一定時間経過後に何もメッセージがない旨のデータをファイルシステム5020を通じてリモートコピーマネージャー5030へ返し、それを受信したリモートコピーマネージャー5030が再度リードシステムコールを実行すればよい。
(B)Unix(登録商標)ドメインソケットを用いて仮想的なネットワーク通信として扱う。具体的には、ソケットの一方のエンドをリモートコピーマネージャー5030が操作し、残りのエンドをI/Oパスマネージャー5000が操作する。
なお、以後の説明ではI/Oパスマネージャー5000がリモートコピーの操作や状態参照を行う場合はこのような通信によってリモートコピーマネージャー5030を呼び出すことで操作を行っているものとする。
<4.仮想ストレージ装置1000で実行されるプログラム及び情報>
図6は、仮想化ストレージ装置1000(1000L,1000R)とストレージ装置1500(1500L,1500R)とで実行されるプログラムと、当該プログラムにより管理される情報とについて示した図である。なお、当該プログラムはメモリ1012(図1)と、プロセッサ1011(図1)と、キャッシュメモリ1020とによって保持と実行がされるが、その一部をハードウェア化して実行してもよい。
<4.1.I/O処理プログラム6020、パリティグループ情報6060及びボリューム情報6050>
パリティグループ情報6060には、パリティグループ毎の以下の構成に関連する情報が含まれる。
(1)パリティグループを構成するHDD1030の識別子。パリティグループには複数のHDD1030が参加しているため、当該情報はパリティグループ毎に複数存在する。
(2)RAIDレベル
また、ボリューム情報6050には、ボリューム毎の以下の構成に関連する情報が含まれる。
(1)ボリューム容量
(2)ボリュームに対応するデータが保存されるパリティグループの識別子とパリティグループ内の領域(開始アドレスと終了アドレスの片方又は両方)。
I/O処理プログラム6020は、ボリューム情報6050やパリティグループ情報6060を参照してホスト1100から受信したI/Oリクエストに関する以下の処理を実行する。
(A)ステージング: HDD1030に保存されたデータをキャッシュメモリ1020上にコピーする。
(B)デステージング:キャッシュメモリ1020に保存されたデータをHDD1030へコピーする。なお、その前の処理としてRAID技術による冗長データを作成してもよい。
(C)リード処理:ホスト1100から受信したリードリクエストに対して、当該リクエストに対応するデータがキャッシュメモリ1020上に存在するかどうか判定する。そして、当該リクエストに対応するデータがキャッシュメモリ1020上に存在しない場合は、ステージング処理を実行して当該データをキャッシュメモリ1020上にコピーした後に、そのデータをホスト1100に対して送信する。なお、キャッシュメモリ1020上にかかるデータが存在する場合は、当該データをホスト1100に対して送信する。
(D)ライト処理:ホスト1100から受信したライトデータをキャッシュメモリ1020上に保存する。なお、当該処理時にキャッシュメモリ1020上に十分な空き領域が無い場合はデステージング処理を実行して適切なデータをHDD1030上にコピーした後にキャッシュメモリ1020上の当該領域を流用する。また既にキャッシュメモリ1020上に保存された領域がライトリクエストに含まれる場合は、そのまま既存のキャッシュメモリ1020上の領域へ上書きすることもある。
(E)キャッシュアルゴリズム:キャッシュメモリ1020上のデータの参照頻度や参照時期等を元にLRU等のアルゴリズムによってステージングすべきHDD1030上のデータやデステージングすべきキャッシュメモリ1020上のデータを決定する。
<4.2.仮想化プログラム6030と仮想化情報6070>
仮想化情報6070には、仮想化ボリューム毎の以下の構成に関連する情報が含まれる。
(1)ストレージ装置1500内のボリューム内の領域とその領域が仮想ボリューム上のアドレス空間のどの領域としてホスト1100に提供するかに関する以下の情報。仮想ボリュームが複数で構成される場合は下記情報も複数存在する。
(1ー1)仮想ボリュームを構成する、ストレージ装置1500の識別子(又はポートの識別子)と、ボリュームの識別子と、ボリューム内の領域(開始アドレスと終了アドレス)
(1ー2)仮想ボリュームにおける領域(開始アドレスと終了アドレス)
(2)仮想ボリュームの容量
仮想化プログラム6030は、仮想化ストレージ装置1000が、ストレージ装置1500が提供するボリュームを用いてホスト1100にボリュームを提供するためのプログラムである。なお、仮想化プログラム6030が提供する仮想ボリュームと、それに対応するストレージ装置1500上のボリュームとの対応関係として、以下のパターンがある。
(A)ストレージ装置1500上のボリューム全体を仮想ボリュームの記憶領域として用いる場合。この場合、仮想ボリュームの容量は選択したボリュームとおおよそ同容量となる(制御情報や冗長情報をストレージ装置1500上のボリュームに保存する場合。当該情報等がない場合は同一容量)。
(B)ストレージ装置1500上のボリュームの一部の領域を仮想化ボリュームに対応する保存領域として用いる場合。この場合、仮想ボリュームの容量は当該利用対象の領域容量と大体同じとなる。
(C)複数のストレージ装置1500上の複数のボリュームを仮想ボリュームの記憶領域として結合して用いる場合。この場合、仮想ボリュームの容量は各ボリューム容量の合計値とおおよそ同容量となる。なお、この結合方式としてはストライピングやConcatenate(複数ボリュームを連結して一つのボリュームとして扱う方法)等がある。
(D)(C)のパターンに付随してパリティ情報やミラーデータを保存する場合。この場合、仮想ボリュームの容量はミラーデータを保存する場合は(C)の半分で、パリティを保存する場合はパリティ計算方式に依存する。ストレージ装置1500内部でRAIDによる高信頼化と組み合わせることによって仮想ボリュームに保存されたデータについての信頼性がより向上する。
なお、いずれのパターンについても、I/Oリクエストで指定するストレージ装置識別子(又はポート識別子)とボリューム識別子(I/Oリクエストで用いる、仮想化ストレージ装置内又はポート配下のボリュームを識別する情報で、LUN(Logical Unit Number)や、CKD形式のCU番号とLDEV(Logical DEVice)番号等がある)が元々のボリュームと異なる。
仮想化プログラム6030は、ステージングやデステージング対象となるデータが仮想ボリュームに対応する場合にI/O処理プログラム6020により呼び出され、仮想化情報6070を用いて以下の処理を実行する。
(A)ステージング: 仮想化ボリュームとストレージ装置1500のボリュームの対応関係を元に、どのストレージ装置1500のボリュームに保存されたデータをキャッシュメモリ1020上にコピーすべきかを決定した後に、キャッシュメモリ1020上へデータコピーする。
(B)デステージング:仮想化ボリュームとストレージ装置1500のボリュームの対応関係を元に、どのストレージ装置1500のボリュームへキャッシュメモリ1020上のデータをコピーすべきかを決定した後に、ストレージ装置1500のボリュームへデータコピーする。なお、その前の処理としてRAID技術による冗長データを作成してもよい。
<4.3.リモートコピープログラム6010とコピーペア情報6040>
コピーペア情報6040はリモートコピーのコピー元ボリュームとコピー先ボリュームのコピーペア(ペアと省略することがある)毎に以下の情報を持つ。なお、本実施の形態では、コピー元ボリューム及びコピー先ボリュームは高可用性を実現する対象ボリュームが指定されることになる:
(1)コピー元ボリュームを持つ仮想化ストレージ装置1000の識別子及びボリュームの識別子
(2)コピー先ボリュームを持つ仮想化ストレージ装置1000の識別子とボリュームの識別子
(3)コピーペアの状態(詳細は後ほど述べる)
リモートコピープログラム6010は、コピー元ボリュームに保存されたデータをコピー先ボリュームにミラーリングするプログラムであり、コピーペア情報6040を参照して処理を行う。以下にリモートコピー(特に同期リモートコピー)の処理概要とペア状態について説明する。
<4.3.1.同期リモートコピーのコピー処理動作>
同期リモートコピーとは、前述の様に、コピー元の仮想化ストレージ装置1000がホスト1100からコピー元ボリュームに対するライトリクエストを受け付けた場合、ライトデータをコピー先の仮想化ストレージ装置1000に送信した後に、ホスト1100に対してライトリクエスト完了を返すリモートコピー方法である。
同期リモートコピーが実行される際、コピー元ボリュームとコピー先ボリュームとのペア間におけるリモートコピーの状況を管理1200に表示したり、リモートコピーの状態を操作するために、仮想化ストレージ装置1000のコントローラー1010は、コピーペア状態(Simplex、Initial‐Copying、Duplex、Suspend及びDuplex‐Pending)と呼ばれる情報を管理する。図7に同期リモートコピーのペア状態に関する状態遷移図を示す。以下、各ペア状態について説明する。
<4.3.1.1.Simplex状態>
Simplex状態は、ペアを構成するコピー元ボリュームとコピー先ボリュームとの間でコピーが開始されていない状態である。
<4.3.1.2.Duplex状態>
Duplex状態は、同期リモートコピーが開始され、後述する初期化コピーも完了してペアを構成するコピー元ボリューム及びコピー先ボリュームのデータ内容が同一となった状態である。本状態では、書き込み途中の領域を除けば、コピー元ボリュームのデータ及びコピー先ボリュームのデータの内容は同じとなる。なお、Duplex中及びDuplex‐Pending及びInitial‐Copying状態ではホスト1100からコピー先ボリュームへのライトリクエストは拒否される。
<4.3.1.3.Initial‐Copying状態>
Initial‐Copying状態は、Simplex状態からDuplex状態へ遷移するまでの中間状態であり、この期間中に、必要ならばコピー元ボリュームからコピー先ボリュームへの初期化コピー(コピー元ボリュームに既に格納されていたデータのコピー先ボリュームへのコピー)が行われる。初期化コピーが完了し、Duplex状態へ遷移するために必要な処理が終わったら、ペア状態はDuplexとなる。
<4.3.1.4.Suspend状態>
Suspend状態は、コピー元ボリュームに対する書き込みの内容をコピー先ボリュームに反映させない状態である。この状態では、ペアを構成しているコピー元ボリューム及びコピー先ボリュームのデータの内容は同じでない。ユーザーやホスト1100からの指示を契機に、ペア状態は他の状態からSuspend状態へ遷移する。それ以外に、仮想化ストレージ装置1000間のネットワーク障害等が原因で同期リモートコピーを行うことが出来なくなった場合に自動的にペア状態がSuspend状態に遷移することが考えられる。
以後の説明では、後者の場合、即ち障害により生じたSuspend状態を障害Suspend状態と呼ぶことにする。障害Suspend状態となる代表的な原因としては、ネットワーク障害のほかに、コピー元ボリュームやコピー先ボリュームの障害、コントローラー1010の障害が考えられる。
Suspend状態となった場合、コピー元ストレージ1000は、Suspend状態となった時点以降にコピー元ボリュームに対するライトリクエストがあると、ライトリクエストに従ってライトデータを受信し、コピー元ボリュームに保存するが、コピー先の仮想化ストレージ装置1000にはライトデータを送信しない。またコピー元の仮想化ストレージ装置1000は、書き込まれたライトデータのコピー元ボリューム上での書き込み位置を差分ビットマップ等として記憶する。
なおSuspend状態となった時点以降にコピー先ボリュームに対してライトリクエストがあった場合には、コピー先の仮想化ストレージ装置1000も上記の動作を行う。また、ペアが障害Suspend状態となるより前に、当該ペアに対してフェンスと呼ばれる設定を行った場合、ペア状態が障害Suspendに遷移するとコピー元ボリュームに対するライトを拒否する。なお、コピー先の仮想化ストレージ装置1000は障害Suspend状態中のコピー先ボリュームに対するライトリクエストを拒否してもよい。
<4.3.1.5.Duplex‐Pending状態>
Duplex‐Pending状態は、Suspend状態からDuplex状態に遷移するまでの中間状態である。この状態では、コピー元ボリューム及びコピー先ボリュームのデータの内容を一致させるために、コピー元ボリュームからコピー先ボリュームへのデータのコピーが実行される。コピー元ボリューム及びコピー先ボリュームのデータの内容が同一になった後、ペア状態はDuplexとなる。
なお、Duplex‐Pending状態におけるデータのコピーは、Suspend状態の間、コピー元の仮想化ストレージ装置1000又はコピー先の仮想化ストレージ装置1000が記録した書き込み位置(例えば上述の差分ビットマップ等)を利用して、更新が必要な部分(即ちコピー元ボリュームとコピー先ボリュームとのデータの不一致部分)だけをコピーする差分コピーによって実行される。
また、以上の説明ではInitial‐Copying状態とDuplex‐Pending状態は別々な状態としたが、これらをまとめて一つの状態として管理ホスト1200の画面に表示したり、状態を遷移させても良い。
<4.3.1.6.ペア操作指示>
ペア状態はホスト1100や管理ホスト1200からの以下の指示によって他の状態へ遷移する。
(A)初期化指示:Simplex状態にて本指示を受信するとInitial‐Copying状態へ遷移する。
(B)再同期指示:Supend状態又は障害Suspend状態にて本指示を受信するとDuplex‐Pending状態へ遷移する。
(C)分割指示:Duplex状態にて本指示を受信するとSuspend状態へ遷移する。
(D)コピー方向反転指示:Duplex状態、Suspend状態又は障害Suspend状態にて本指示を受信すると、コピー元とコピー先との関係が反転する。Duplex状態の場合は、本指示を受信することでコピー方向も反転する。
なお、初期化指示はコピー元の仮想化ストレージ装置1000及びコピー元ボリュームと、コピー先の仮想化ストレージ装置1000及びコピー先ボリュームとを指定することが考えられ、その他の指示については既にペア関係が出来上がっているため当該関係を示す識別子(コピー元の仮想化ストレージ装置1000及びコピー元ボリュームと、コピー先の仮想化ストレージ装置1000及びコピー先ボリュームとの組み合わせもその識別子の一つである)を指示すればよい。
<5.ストレージ装置1500で実行されるプログラム及び情報>
図6にはストレージ装置1500にて実行されるプログラム及び情報について記されているが、それぞれのプログラム及び情報は仮想化ストレージ装置1000と同様の動作を行う。
<6.デバイス関係テーブル5001>
図8はデバイス関係テーブル5001が有する情報を示した図である。デバイス関係テーブル5001は、I/Oパスマネージャー5000が提供するホスト1100内で仮想的なボリューム(より正確には当該ボリュームに対応する識別子)毎に以下の情報を管理する。
(A)ホスト1100内で仮想的なボリュームの識別子
(B)関係ボリューム識別子リスト:上記ホスト1100で仮想的なボリュームの実体となりうるストレージ装置1500のボリュームの識別子が入る。なお、個々の識別子はI/Oパスマネージャー5000の下位レイヤであるHBAデバイスドライバー5010が割り当てた識別子を用いる。本実施の形態においては、正系の仮想化ストレージ装置1000(1000L)が有するボリュームと副系の仮想化ストレージ装置1000(1000R)が有するボリュームの識別子がリストアップされる(通常状態ならば)。
(C)正系ボリューム:(B)でリストアップしたどちらのボリュームが正系かを示す。
(D)障害状態
(E)ペア状態
なお、ファイルシステム5020の視点からは(A)の識別子も(B)の識別子も同様の扱いとするため、(A)や(B)の識別子はそれぞれ重複が許されない。また(A)と(B)をあわせた場合にも重複が許されないため、I/Oパスマネージャー5000はその点を考慮して(A)の識別子を生成する必要がある。
<7.初期化処理>
図9は、I/Oパスマネージャー5000の初期化処理について記したフローチャートである。以下、このフローチャートを参照して、かかる初期化処理について説明する。なお、以下においては各種処理の処理主体を「I/Oパスマネージャー5000」として説明する場合があるが、実際上は、ホスト1100のプロセッサ1101(図1)が「I/Oパスマネージャー5000」というプログラムに基づいて対応する処理を実行することは言うまでもない。
(S9001)I/Oパスマネージャー5000は、管理ホスト1200やホスト1100のユーザーからの以下の情報を含んだ初期化指示を受信する。尚、二重化システムの初期化処理として、HA(ハイ アベイラビリティ)初期化指示ともいう。
(A)正系の仮想化ストレージ装置1000とその中のボリューム
(B)副系の仮想化ストレージ装置1000とその中のボリューム
(S9002)I/Oパスマネージャー5000は、S9001で指示された仮想化ストレージ装置1000の両方と通信をしてボリュームの存在の有無及び容量を取得する。
(S9003)I/Oパスマネージャー5000は、S9001で指定されたボリュームが存在し、同容量であることを確認する。確認できない場合は、I/Oパスマネージャー5000は指示発信元へエラーを返す。
(S9004)I/Oパスマネージャー5000は、仮想化ストレージ装置1000の一つ又は両方に対して、リモートコピー初期化指示を送信する。この初期化指示には正系のボリュームをコピー元ボリューム、副系のボリュームをコピー先ボリュームとして指示を出す。本指示によって仮想化ストレージ装置1000はリモートコピーを開始する。
(S9005)I/Oパスマネージャー5000は、デバイス関係テーブル5001に以下の情報を登録し、その後初期化指示の発信元へ初期化開始応答を返す。
(A)ホスト1100内で仮想的なボリュームの識別子(=I/Oパスマネージャー5000が作成した値)
(B)関係ボリューム識別子リスト(=S9001で指定された仮想化ストレージ装置1000とボリュームに対応する識別子が二つ(正系及び副系の両方))。
(C)正系ボリューム(=S9001で指定された正系ボリューム)の識別子
(D)障害状態(=副系準備中)
(E)ペア状態(=Initial−Copying)
(S9006)I/Oパスマネージャー5000は、リモートコピーのペア状態を監視し、Duplex状態に遷移したらデバイス関係テーブル5001を以下の情報に更新する。
(D)障害状態(=通常状態)
(E)ペア状態(=Duplex)
以上の処理によって、I/Oパスマネージャー5000は、ユーザー指示に応じてリモートコピーの設定を含めた高可用化のための準備を開始することができる。なお、実際にはS9005の直後にI/Oパスマネージャー5000がホスト1100内で仮想的なボリュームを提供できるため、ファイル形式でアクセスしたいユーザーは当該ボリュームに対するマウント指示等を出して、ファイルI/Oを開始することができる。また、別な方法としてI/Oパスマネージャー5000はリモートコピー設定前に既に高可用化すべきボリュームに対応するホスト1100内で仮想的なボリュームを定義し、ファイルシステム5020も当該ボリュームをマウントした状態から、ユーザーが副系となるボリュームを指定することによって上記の処理を開始してもよい。
<8.ライトリクエスト処理フロー>
図10は、I/Oパスマネージャー5000がファイルシステム5020からライトリクエストを受信した時の処理フローを示した図である。
(S10001)I/Oパスマネージャー5000は、ファイルシステム5020より、ライト先となるホスト1100内の仮想的なボリュームの識別子と、当該ボリュームのライト位置と、ライト長とを含むライトリクエスト関数を呼び出される(又はメッセージを受信する)。
(S10002)I/Oパスマネージャー5000は、当該仮想的なボリュームの障害状態を確認し、リモートコピー失敗状態ならばS10020の両書き処理に制御を移し、それ以外ならばS10003を実行する。
(S10003)I/Oパスマネージャー5000は、正系ボリュームに対してライトリクエストを発行する。なお、当該ライトリクエストの発行は実際は下位レイヤのHBAデバイスドライバー5010を呼び出すことで実現する。
(S10004)I/Oパスマネージャー5000は、ライトリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、リモートコピー失敗ならS10020の両書き処理に制御を移し、無応答など、これ以外の場合はS10010の切り替え処理に制御を移す。
なお、S10020の両書き処理は以下のステップで実行される。
(S10021)リモートコピーの設定によって、正系又は副系のボリュームに対するライトが拒否されている場合は、I/Oパスマネージャー5000はこの設定を解除する。
(S10022)I/Oパスマネージャー5000は、正系ボリュームに対してライトリクエストを発行する。
(S10023)I/Oパスマネージャー5000は、副系ボリュームに対してライトリクエストを発行する。I/Oパスマネージャー5000は、正系と副系の両方からのライトリクエスト応答の到着を待って、ファイルシステム5020に対して完了応答を返す。
<8.1.切り替え処理のフロー>
以下、引き続き切り替え処理にて実現される処理を説明する。
(S10011)I/Oパスマネージャー5000は、まず、デバイス関係テーブル5001の障害状態を参照することで副系ボリュームが使用可能であるか確認し、使用不可能だと判断した場合はファイルシステム5020に対してエラー応答を返し、利用可能であればS10012を実行する。なお、使用不可能と判断できる状態としては、副系なし(障害によって副系の仮想化ストレージ装置1000が機能してない場合や、初めから副系の仮想化ストレージ装置1000を設定していないボリュームの場合)の状態や、前述の初期化準備中の状態がある。
(S10012)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの停止指示を発行し、コピー状態がSuspend状態となったことを確認後、コピー方向反転指示を指示する。
(S10013)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの再同期指示を発行する。なお、実際に再同期が完了してペア状態がDuplex状態に遷移するまで待つ必要はない。
(S10014)I/Oパスマネージャー5000は、デバイス関係テーブル5001の正系ボリューム識別子をこれまで副系であったボリューム識別子に更新し、正系と副系を入れ替える。そして新たに正系となったボリュームに対してライトリクエストを、HBAデバイスドライバー5010を通じて送信する。
(S10015)I/Oパスマネージャー5000は、ライトリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、エラーならばエラー応答を返して終了する。
<8.1.1.両書き処理中のライトリクエスト失敗への対策>
S10020の両書き処理中にS10022の正系ボリュームに対するライトリクエストが失敗に終わった場合は、S10010の切り替え処理に制御を移すことが考えられる。また、S10023の副系ボリュームに対するライトリクエストが失敗に終わった場合は、デバイス関係テーブル5001の障害状態を'副系なし'に変更し、ライト完了とする。
また、両書き処理中はペア状態が障害Suspend状態であるため、仮想化ストレージ装置1000のボリュームにはリモートコピーの差分ビットマップによってライト位置が記される。しかし、両書き処理によって両ボリュームに書かれるライトデータは同一であるため、両書き処理が正常に行われている間はこの差分ビットマップへの記録を回避し、通信障害回復後の再同期処理では差分データだけコピーできるようにすることが望ましい。その解決策として、両書き処理が正常に行われている間は正系と副系両方の仮想化ストレージ装置1000の当該ボリュームの差分ビットマップを一定時間ごとに繰り返しクリアすることが考えられる。この方式ではクリア指示をライトリクエスト毎に発行する必要がなく、かつリモートコピーの再同期では対象ボリュームの全領域コピーは回避できる。なぜならば、直近に実施したクリア以後に行われた両書きのライトリクエストは両書きが失敗したライトリクエストと共にライト位置が差分ビットマップに記録されるが、両書きにて記録されたデータ領域が再同期でコピーされた場合もコピー先のデータ内容が変わらないため、データ不整合やコピー漏れ領域が発生しないからである。
なお、上記解決策では正系と副系両方の差分ビットマップをクリアするために一時的にライトリクエストの処理を停止してもよい。その停止方法としてはI/Oパスマネージャー5000がファイルシステム5020から受け取ったライトリクエストを、両方の差分ビットマップのクリアが完了するまで、仮想化ストレージ装置1000へ転送しない方法が考えられるし、正系の仮想化ストレージ装置1000にて、両方の差分ビットマップのクリアが完了するまでライトリクエストの処理を保留する方法も考えられる。
第2の回避策としては、正系と副系のボリュームに対してそれぞれ2面の差分ビットマップを割り当てる方式がある。以下にその処理内容を示す。
(初期状態)正系と副系の仮想化ストレージ装置1000は、それぞれ2面の差分ビットマップの片面に対してライトリクエストの位置を記録する。そのために、両仮想化ストレージ装置1000は、アクティブ面(ライトリクエスト到着時にライト位置を記録する面を指し、もう一面の差分ビットマップは非アクティブ面と呼ぶ)に関する情報を保持・管理する。また、非アクティブ面の差分ビットマップは何も記録されていない状態が望ましい。
(Step1)正系の仮想化ストレージ装置1000は、アクティブ面の管理情報を非アクティブ面になっていたもう一つの差分ビットマップへ更新することで、ライトリクエストの位置の記録先となる差分ビットマップを切り替え、以後のライトリクエストは切り替え後の差分ビットマップへ記録する。副系の仮想化ストレージ装置1000も同様に切り替える。なお、当該切り替え処理開始の契機はI/Oパスマネージャー5000が両仮想化ストレージ装置1000へ与える。なお、正系と副系の切り替え処理はどちらが先に実行してもよく、並列に実行してもよい。
(Step2)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000からの切り替え完了の応答を待ってから、両仮想化ストレージ装置1000に対して差分ビットマップのクリア指示を出す。クリア指示を受信した仮想化ストレージ装置1000は、非アクティブ面となっている差分ビットマップのライト位置をクリアし、I/Oパスマネージャー5000へ応答を返す。切り替え処理と同様に、正系と副系のクリア処理はどちらが先に実行してもよく、並列に実行してもよい。
(Step3)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000からのクリア完了の応答を待ち、時間経過後にStep1から再度実行する。
本解決策の場合、通信障害回復後の再同期処理では、正系と副系のビットマップ4面の論理和を計算することで、Duplex‐Pending状態中に差分コピーを行う領域を決定することができる。また本方式ではビットマップの面数が多いものの、ライトリクエストの保留は必要ない。
第3の解決策としては、上記第2の解決策の変形の以下の方式がある。
(初期状態)正系及び副系の仮想化ストレージ装置1000は、それぞれ2面の差分ビットマップの両面に対してライトリクエストの位置を記録する。また、両仮想化ストレージ装置1000は前回クリアを行った差分ビットマップ面に関する情報を保持・管理しておく。
(Step1)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000に対して差分ビットマップのクリア指示を出す。クリア指示を受信した仮想化ストレージ装置1000は、前回クリアした差分ビットマップでないもう一つの差分ビットマップのライト位置をクリアし、I/Oパスマネージャーへ応答を返す。
(Step3)I/Oパスマネージャー5000は、両仮想化ストレージ装置1000からのクリア完了の応答を待ち、時間経過後にStep1から再度実行する。
<9.リードリクエスト処理フロー>
図11はI/Oパスマネージャー5000がファイルシステム5020からリードリクエストを受信したときの処理内容を示すフローチャートである。
(S11001)I/Oパスマネージャー5000は、ファイルシステム5020より、リード先となるホスト内の仮想的なボリュームの識別子と、当該ボリュームのライト位置と、ライト長とを含むライトリードリクエスト関数を呼び出される(又はメッセージを受信する)。
(S11002)I/Oパスマネージャー5000は、当該仮想的なボリュームの障害状態を確認し、通常状態でかつ正系ボリュームに対するI/O負荷が高い場合(たとえば、一定IOPSを超える場合や一定帯域を超える場合等)と判断したときにはS11021を実行し、それ以外の状態(副系なし、副系準備中、通常状態等)のときにはS11003を実行する。
(S11003)I/Oパスマネージャー5000は、正系ボリュームに対してリードリクエストを発行する。
(S11004)I/Oパスマネージャー5000は、リードリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、それ以外ならばS11010の切り替え処理に制御を移す。
(S11021)I/Oパスマネージャー5000は、副系ボリュームに対してリードリクエストを発行する。
(S11022)I/Oパスマネージャー5000は、リードリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、それ以外ならばS11023を実行する。
(S11023)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系なし'に更新し、S11003を実行する。
<9.1.切り替え処理のフロー>
以下、引き続き切り替え処理にて実現される処理を説明する。
(S11011)I/Oパスマネージャー5000は、まず、デバイス関係テーブル5001の障害状態を参照することで副系ボリュームが使用可能であるか確認し、使用不可能だと判断した場合はファイルシステム5020に対してエラー応答を返し、利用可能だと判断した場合はS11012を実行する。なお、使用不可能と判断できる状態としては、副系なし(障害によって副系の仮想化ストレージ装置1000が機能してない場合や、初めから副系の仮想化ストレージ装置1000を設定していないボリュームの場合)の状態や、前述の初期化準備中の状態がある。
(S10012)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの停止指示を発行し、コピー状態がSuspend状態となったことを確認後、コピー方向反転指示を指示する。
(S10013)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの再同期指示を発行する。なお、実際に再同期が完了してペア状態がDuplex状態に遷移するまで待つ必要はない。
(S10014)I/Oパスマネージャー5000は、デバイス関係テーブル5001の正系ボリューム識別子をこれまで副系であったボリュームの識別子に更新し、正系と副系を入れ替える。そして新たに正系となったボリュームに対してリードリクエストを、HBAデバイスドライバー5010を通じて送信する。
(S10015)I/Oパスマネージャー5000は、リードリクエストの応答を確認し、正常終了ならばファイルシステム5020に対して完了応答を返し、エラーならばエラー応答を返して終了する。
<10.障害対策処理フロー>
本章では、I/Oパスマネージャー5000が障害を検知してから回復を完了するまでの処理の流れを説明する。なお、本処理は定期的にバックグラウンドで実行される。
<10.1.仮想化ストレージ装置1000間のネットワーク障害>
(Step1)I/Oパスマネージャー5000は、リモートコピーのペア状態を監視し、障害Suspend状態を発見することで何らかの障害発生を検知する。
(Step2)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000に対してリモートコピーの停止指示を発行し、コピー状態がSuspend状態となった事を確認後、コピー方向を反転し、各仮想化ストレージ装置1000に対して状態問い合わせを行い、仮想化ストレージ装置1000自体に障害が発生しておらず、ネットワーク障害が原因であることを確認したら、デバイス関係テーブル5001の障害状態を'リモートコピー失敗'に更新する。なお、本処理はストレージ管理者が行った作業結果を利用してもよい。
(Step3)当該ネットワークが回復するまで待つ。
(Step4)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000に対してペアの再同期指示を発行する。
(Step5)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系準備中'に更新する。
(Step6)I/Oパスマネージャー5000は、ペア状態がDuplexになるまで待った後に、デバイス関係テーブル5001の障害状態を'通常状態'に更新する。
<10.2.正系仮想化ストレージ装置1000の障害停止>
(Step1)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000の状態を監視することで障害発生を検知する。
(Step2)I/Oパスマネージャー5000は、デバイス関係テーブル5001の正系ボリュームの識別子を副系ボリュームの識別子に変更することで以後のI/Oリクエスト先を副系の仮想化ストレージ装置1000に切り替え、さらに障害状態を'副系なし'に更新する。
(Step3)I/Oパスマネージャー5000は、旧正系(Step2にて切り替えたので現副系)の仮想化ストレージ装置1000が回復するまで待つ。
(Step4)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000に対してペアの再同期指示又は初期化指示を発行する。
(Step5)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系準備中'に更新する。
(Step6)I/Oパスマネージャー5000は、ペア状態がDuplexになるまで待った後に、デバイス関係テーブル5001の障害状態を'通常状態'に更新する。
<10.3.副系仮想化ストレージ装置1000の障害停止>
(Step1)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000の状態を監視することで障害発生を検知する。
(Step2)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系なし'に更新する。
(Step3)I/Oパスマネージャー5000は、副系の仮想化ストレージ装置1000が回復するまで待つ。
(Step4)I/Oパスマネージャー5000は、正系の仮想化ストレージ装置1000に対してペアの再同期指示又は初期化指示を発行する。
(Step5)I/Oパスマネージャー5000は、デバイス関係テーブル5001の障害状態を'副系準備中'に更新する。
(Step6)I/Oパスマネージャー5000は、ペア状態がDuplexになるまで待った後に、デバイス関係テーブル5001の障害状態を'通常状態'に更新する。
<11.もう一つの初期化方法>
これまでの説明では、I/Oパスマネージャー5000に出された初期化要求に応じて仮想化ストレージ装置1000にリモートコピーの設定を行ったが、以下に示す逆の方法も考えられる。
(Step1)管理ホスト1200は、仮想化ストレージ装置1000に対してリモートコピーのペア初期化指示を出することで、リモートコピーを開始する。
(Step2)I/Oパスマネージャー5000は、スキャニング要求を受信する。
(Step3)I/Oパスマネージャー5000は、HBAデバイスドライバー5010を通じて各ボリュームに対するリモートコピーの設定(リモートコピー設定の有無やコピー元かコピー先か、ペアの相手となる仮想化ストレージ装置1000とボリューム)を取得する。なお、この取得方法としてI/Oネットワーク上でSCSIコマンドを使うことも考えられるし、それ以外の通信ネットワークを用いて情報を取得してもよい。
(Step4)I/Oパスマネージャー5000は、前ステップで取得した情報を元に、デバイス関係テーブル5001を作成し、これまで説明してきた処理を開始する。なお、当該デバイス関係テーブル5001の作成例としては以下がある。
(A)ホスト1100内で仮想的なボリュームの識別子=I/Oパスマネージャー5000が作成した値
(B)関係ボリューム識別子リスト=リモートコピーのコピー元ボリュームとコピー先ボリュームの識別子
(C)正系ボリューム=リモートコピーのコピー元ボリューム
(D)障害状態=仮想化ストレージ装置1000から取得したペア状態がDuplex状態ならば'通常状態'、Initial‐Copying又はDuplex‐Pending状態ならば'副系準備中'、Suspend又は障害Suspend状態ならば'リモートコピー失敗'
(E)ペア状態=仮想化ストレージ装置1000から取得したペア状態
以上、これまで説明したハードウェア及びプログラムの動作によって本実施の形態では高可用性を実現する。なお、図10と図11等に記した切り替え処理に長時間要する場合の対策として、I/Oパスマネージャー5000がI/Oリクエストを再送信する必要が出てきた場合に、予備処理として前記切り替え処理の一部を実行してもよい。この場合、再送信したI/Oリクエストが正常応答で返ってきた場合は先行して行った切り替え処理を元に戻せば良く、一方で再送信したI/Oリクエストがエラー応答で返ってきたり、まったく応答がなければ前記切り替え処理の残り部分を実行すればよい。また、本実施の形態は全てのボリュームが仮想化ストレージ装置1000によって仮想化され、実体がストレージ装置1500にある仮想ボリュームで、仮想化ストレージ装置1000は仮想化専用のアプライアンスであってもよく、またその逆に全てのボリュームの実体が仮想化ストレージ装置1000の内部にある構成であってもよい。また、仮想化ストレージ装置1000が提供するボリュームには容量以外にもさまざまな属性が設定されることがある(たとえば、エミュレーションタイプやSCSI規格で定められたInquiryコマンドで取得可能なボリューム識別番号がある)。
こうした属性情報や属性変更もリモートコピーによって正系の仮想化ストレージ装置から副系の仮想化ストレージ装置へ転送し、両方の仮想化ストレージ装置にて管理することも考えられる。
<12.もう一つのリード/ライト処理>
図10や図11に記したライト・リード処理では、I/Oパスマネージャー5000が明示的にリモートコピーの操作を仮想化ストレージ装置1000へ転送する。しかし、当該リモートコピーの操作が仮想化ストレージ装置1000のベンダー毎に異なる場合があるため、I/Oパスマネージャー5000のライト処理やリード処理に含めないほうが好ましい場合がある。図19〜図21にこうした形態での処理内容を示す。なお、以下においては各種処理の処理主体を「仮想化ストレージ装置1000」として説明する場合があるが、実際上は、その仮想化ストレージ装置1000内のプロセッサ1011(図1)がメモリ1012(図1)に格納されたプログラムに基づいて対応する処理を実行することは言うまでもない。
<12.1.I/Oパスマネージャーのライト処理>
図19は、I/Oパスマネージャー5000で実行されるライト処理の処理内容を示したフローチャートである。図19のS19001〜S19023の各ステップにおける処理内容は、図10のS10001〜S10023の対応するステップにおける処理内容と同様である。図19は、以下の点が図10と異なる。
(相違点1)リモートコピーの操作S19012、S19013,S19021がスキップされる。
(相違点2)リモートコピー失敗時のフローS19020に到達しない。ただし、本相違点は通常のリード/ライト処理ではリモートコピー失敗を意味するエラーメッセージを識別できない場合に限った話である。
<12.2.ストレージ装置1000の処理>
図21は、仮想化ストレージ装置1000がライトリクエストを受信した時に行うリモートコピーの操作について示した図である。
(S21001)仮想化ストレージ装置1000は、ライトリクエストを受信する。
(S21002)仮想化ストレージ装置1000は、ライトリクエストが対象とするボリュームがリモートコピーに関係するかどうか判断し、無関係の場合はS21003を実行し、関係する場合はS21004を実行する。
(S21003)仮想化ストレージ装置1000は、通常のライト処理を行い、ホスト1100へ応答を返して終了する。
(S21004)仮想化ストレージ装置1000は、ライトリクエストが対象とするボリュームのリモートコピーの属性を判断し、コピー元属性の場合はS21005を実行し、コピー先属性の場合はS21011を実行する。
(S21005)仮想化ストレージ装置1000は、同期リモートコピー処理を実行し、副系ストレージへライトデータを転送し、応答を待つ。
(S21006)仮想化ストレージ装置1000は、コピーが成功したかどうか判断し、成功ならばS21008を実行し、失敗ならばS21007を実行する。
(S21007)仮想化ストレージ装置1000は、対象ボリュームがコピー元となるリモートコピーペアの状態を障害Suspend状態に遷移する。ただし、当該ボリュームに対するライトは禁止しない。
(S21008)仮想化ストレージ装置1000は、通常のライト処理を行い、ホスト1100へ応答を返して終了する。
(S21011)仮想化ストレージ装置1000は、リモートコピーを停止し、コピー元とコピー先の関係を反転する。
(S21012)仮想化ストレージ装置1000は、再同期処理を開始する。
(S21013)仮想化ストレージ装置1000は、通常のライト処理を行い、ホスト1100へ応答を返して終了する。
なお、S21012の再同期処理は完了まで待たなくても良い。なぜならば、S21012を実行する仮想化ストレージ装置1000は副系であり、正系の仮想化ストレージ装置1000が正常動作しているとは限らないこと、及び再同期処理が完了するまでの時間が長いことが考えられるからである。なお、こうしたケースは<10.障害対策処理フロー>で述べた処理によって回復される点はこれまでと同じである。
<12.3.I/Oパスマネージャーのリード処理>
図20は、I/Oパスマネージャー5000で実行されるリード処理の処理内容を示すフローチャートである。図21のS20001〜S20023の各ステップにおける処理内容は、図11のS11001〜S11023の対応するステップにおける処理内容と同様である。図21は、以下の点が図11と異なる。
(相違点1)リモートコピーの操作S11012、S11013がスキップされる。
なお、図11ではリード処理に応じてリモートコピーの向きが反転したが、本処理では反転させない。なぜならば、副系の仮想化ストレージ装置1000に対するリードリクエストは正系の仮想化ストレージ装置1000が(ホスト=仮想化ストレージ装置間の通信障害による原因を含めて)応答を返さない場合に加えて、正系の仮想化ストレージ装置1000の過負荷が原因の場合もあるからである。そのため、副系の仮想化ストレージ装置1000がコピー先ボリュームに対するリードリクエストを契機としてリモートコピーのペア反転を行うと、たまたま副系の仮想化ストレージ装置1000に出されたリードリクエストでペアが反転し、その次のリードリクエストで再びペアが反転してしまうため、リード性能が悪化する結果となるからである。
ただし、S20021の実行が抑制される場合は、仮想化ストレージ装置1000はリード処理に際して以下の処理を行うことでリモートコピーのペア反転を行っても良い。
(Step1)仮想化ストレージ装置1000は、リードリクエストを受信する。
(Step2)仮想化ストレージ装置1000は、通常のリード処理を行う。
(Step3)仮想化ストレージ装置1000は、リード対象のボリュームがリモートコピーのコピー先ボリュームであるかどうかを判断し、該当する場合は次のStep4を実行し、そうでない場合は終了する。
(Step4)仮想化ストレージ装置1000は、リモートコピーを停止し、コピー元とコピー先の関係を反転する。
(2)第2の実施の形態
次に第2の実施の形態について図12を用いて説明する。第1の実施の形態と異なる点は、ストレージ装置1500Lが複数の仮想化ストレージ装置1000L,1000Rに接続され、これら仮想化ストレージ装置1000L,1000Rがストレージ装置1500L内のボリュームを共有することによって、仮想化ストレージ装置1000L,1000Rの片方が停止した場合でも第1の実施の形態よりも低コストでサービスが継続できるようになる点である。
ただし、仮想化ストレージ装置1000L,1000Rはキャッシュメモリ1020L,1020Rを有するため、仮想化ボリュームに対してライトデータを書き込んだ直後に正系の仮想化ストレージ装置1000Lが災害停止した場合に備えて、ライトデータを副系の仮想化ストレージ装置1000Rのキャッシュメモリ1020Rにも保存する必要があり、また両方の仮想化ストレージ装置1000L,1000Rのデステージングやステージングに対して工夫が必要となる。
通常状態におけるライトリクエストは以下のステップにて処理される。
(Step1)ホスト1100からライトリクエストを受信した正系の仮想化ストレージ装置1000Lは当該ライトリクエストが当該仮想化ストレージ装置1000L内部のHDD1030に対応するボリューム3000LA宛なのか、両方の仮想化ストレージ装置1000L,1000Rがストレージ装置1500Lのボリューム3500Lを共有して提供する仮想化ボリューム(以後、共有仮想化ボリュームと呼ぶ)3000LB宛なのか、通常の仮想化ボリューム宛なのかを判断する。なお、共有仮想化ボリューム3000LB以外の処理については第1の実施の形態と同様の処理を行う。
(Step2)正系の仮想化ストレージ装置1000Lは自身のキャッシュメモリ1020Lに当該ライトデータを保存すると共に、当該ライトデータをリモートコピープログラムによって副系の仮想化ストレージ装置1000Rのキャッシュメモリ1020Rに保存した後に、ホスト1100に対して正常応答を返す。
(Step3)正系の仮想化ストレージ装置1000Lのキャッシングアルゴリズムが出ステージすべきキャッシュメモリ1020L上のデータを決定し、当該データをストレージ装置1500Lのボリュームにデステージする。
(Step4)デステージ完了後、正系の仮想化ストレージ装置1000Lはデステージしたキャッシュメモリ1020L上のデータのアドレスを破棄するように副系の仮想化ストレージ装置1000Rに指示する。なお、指示を受けた副系の仮想化ストレージ装置1000Rは指示を受けたデータをキャッシュメモリ1020Rから破棄する。
なお、本構成では仮想化ストレージ装置1000L,1000R間のネットワークが切断された状態で副系の仮想化ストレージ装置1000RにI/Oリクエストの切り替えを行った場合、仮想化ストレージ装置1000L,1000Rの両方が正系として自立的にデステージングを行う場合がある。そういった状況を回避するため、両仮想化ストレージ装置1000L,1000Rは自らを正系として処理する場合は先にストレージ装置1500L内のかかる共有化されたボリューム3500Lに対してSCSI Reserve等の機能を用いて排他制御を行ってもよい。また、これ以外の方式として共有仮想化ボリューム3000LBについては仮想化ストレージ装置1000Lのキャッシングを無効化してもよく、この場合は当該共有仮想ボリューム3000LBのアクセス権限がリードオンリーのアクセス権限へ変更された場合は当該変更に応じてキャッシングを有効にすることが考えられる。
(3)第3の実施の形態
次に第3の実施の形態について図13を用いて説明する。本実施の形態はこれまでの実施の形態に記した情報システムをこれまでのプロダクションサイトと異なる遠隔地(バックアップサイト)に別途用意し、リモートコピーを行うもので、これによりプロダクションサイト被災時にバックアップサイトでサービスを再開することができる。
なお、これ以後の説明では、上述の「仮想化ストレージ装置」をストレージ装置と、「コピー元ボリューム」を正ボリュームと、「コピー先ボリューム」を副ボリュームと、「正系」をアクティブ側と、「副系」をスタンバイ側と呼ぶことがある。また、プロダクションサイトとバックアップサイトの情報システムをあわせてリモートコピーシステムと呼ぶことがある。
<1.リモートコピーシステムの構成>
本実施の形態では、各サイトはホスト13010,13020と複数のストレージサブシステム13001,13002,13003,13004とから構成されている。そしてプロダクションサイトでは、ストレージサブシステム13001,13002同士でこれまで説明してきた高可用化構成を採用している。またバックアップサイトでも同様に、ストレージサブシステム13003,13004同士でかかる高可用化構成を採用している。
さらに本実施の形態では、プロダクションサイトのアクティブ側のストレージサブシステム(コピー元ボリュームを持つ)13001からバックアップサイトのアクティブ側のストレージサブシステム(コピー先ボリュームを持つ)13003に対して同期又は非同期リモートコピーを行う。そしてプロダクションサイト被災時にはバックアップサイトのホスト13010が高可用構成のストレージサブシステム13003,13004のいずれかアクティブな側に対してI/Oリクエストを発行することで、再起動したアプリケーション2010が処理を再開する。
なお、前述の通り、ストレージサブシステムとは仮想化ストレージ装置1000(図1)の仮想化機能を用いない設定の構成や、仮想化ストレージ装置1000とストレージ装置1500(図1)の組み合わせで仮想化ストレージ装置1000が仮想化機能を用いて仮想化ボリュームを提供している構成のどちらの概念も含んだものとして呼んでいる。また、本実施の形態では個々のストレージサブシステム13001、13002、13003、13004が別々な内部構成(例えば、ストレージサブシステム13001だけ仮想化ストレージ装置1000のみで構成し、仮想化機能を用いない場合や、バックアップサイトのストレージサブシステム13003と13004でストレージ装置1500(図1)を共有し、プロダクションサイト側では共有しない場合)を採用してもよい。
なお、以下においては各種処理の処理主体を「ストレージサブシステム」として説明する場合があるが、実際上は、そのストレージサブシステム内のプロセッサが当該ストレージサブシステム内のメモリに格納されたプログラムに基づいて対応する処理を実行することは言うまでもない。
<2.処理>
プロダクションサイトのホスト13010のアプリケーション2010がライトリクエストを発行すると、OSによってプロダクションサイト内のアクティブ側のストレージサブシステムを判断し、そちらにライトリクエストを転送する。なお、本図ではストレージサブシステム13001がこれに対応する。
プロダクションサイトのアクティブ側のストレージサブシステム13001は同期リモートコピーによってライトデータをプロダクションサイト内のスタンバイ側のストレージサブシステム(本図では13002が対応する)へ転送する。また、アクティブ側のストレージサブシステム13001はバックアップサイトのアクティブ側のストレージサブシステム(本図では13003が対応する)へ向けて同期又は非同期のリモートコピーとしてライトデータを転送する(本実施の形態による高可用構成ではアクティブ側にのみライトリクエストを処理するようにしているため、リモートコピーであっても同様にアクティブ側にて処理を行う)。ライトデータを受信したバックアップサイト内のアクティブ側のストレージサブシステム13003は受け取ったライトデータをサイト内のスタンバイ側のストレージサブシステム13004へ同期リモートコピーによって転送する。
そのため、プロダクションサイトのストレージサブシステム13001,13002はバックアップサイトのアクティブ側のストレージサブシステムを把握しており、バックアップサイトのストレージサブシステム13003,13004も想定外のストレージサブシステムからのリモートコピーを受け付けないために、プロダクションサイトのアクティブなストレージサブシステム(ストレージサブシステム1301)を把握している。
以上の処理によってプロダクションサイト、バックアップサイト共にサイト内の高い可用性を実現している。ただしバックアップサイト側では、コスト削減のために高可用構成をとらない構成であってもよい。
<3.非同期リモートコピー>
これまで説明してきた同期リモートコピーとは異なり、非同期リモートコピーはホスト13010からのライトリクエストが到着した時点でライトデータを転送するのではなく、当該リクエスト完了応答後に転送する(言い方を変えると、非同期リモートコピーはホスト13010へのリクエスト応答とは独立なタイミングでライトデータを転送する)。そのため、非同期リモートコピーはサイト間の距離が長く通信遅延が大きな場合でもライトリクエストの応答時間を低下させずにリモートコピーを行うことができる。しかし、非同期リモートコピーではプロダクションサイト側のストレージサブシステム13001にてライトデータをバッファリングする必要がある。このライトデータのバッファリング方式としては以下が考えられる。
(1)プロダクションサイトのストレージサブシステム13001は、コピー元ボリュームへのライトデータとライトデータの順序情報を含むジャーナルを作成し、これを自身のキャッシュメモリ又は専用ボリュームに保存すると共に、このジャーナルをバックアップサイトのストレージサブシステム13003へ転送し、バックアップサイトのストレージサブシステム13003はジャーナルの順序情報を参考にコピー先ボリュームへライトデータを保存する。これにより、プロダクションサイト災害時にはライト順序が守られた(より正確には依存関係のあるライトデータ)データをバックアップサイト側で提供できる。
(2)プロダクションサイトのストレージサブシステム13001は、ある期間毎のコピー元ボリュームへライトされたデータをグループ化して自身のキャッシュメモリ又は専用ボリュームへ保存し、非同期にバックアップサイトのストレージサブシステム13003へ転送し、当該グループ単位でバックアップサイトのストレージサブシステム13003が有するコピー先ボリュームへデータを保存する。
そのため、これら非同期リモートコピーのためにバッファリングされるライトデータもスタンバイ側のストレージサブシステム13002で保持しなければ、アクティブ側ストレージサブシステム13001が停止したときに非同期リモートコピーを引き継ぐことができない。よって、プロダクションサイトのアクティブ側のストレージサブシステム13001はライトデータだけではなく、コピー先ボリュームの情報や、前述の順序情報や、グループ化するタイミング等をスタンバイ側のストレージサブシステム13002へ伝え、スタンバイ側のストレージサブシステム13002はそれに従ってアクティブ側と同じ非同期リモートコピーのためのバッファリングデータを作成する。
なお、バックアップサイトのストレージサブシステム13003もプロダクションサイトから受け取ったライトデータを直ぐにコピー先ボリュームへ保存せずに、バッファリングを行うため、プロダクションサイト側と同様にアクティブ側の指示に従ってスタンバイ側も同様のバッファリングデータを作成し、また同様のタイミングでコピー先ボリュームにライトデータを保存する必要がある。
(4)第4の実施の形態
次に第4の実施の形態について図14を用いて説明する。本実施の形態では、2台のストレージ装置により先に説明した同期リモートコピーを用いて冗長構成された情報システムにおいて、ストレージ装置が提供する機能を制御するインターフェース(機能I/F)の構成について述べる。
なお、本実施の形態から第14の実施の形態までは、これまで仮想化ストレージ装置1000L,1000R、ストレージ装置1500L,1500Rと呼んでいたコンポーネントを、それぞれストレージ装置15000A,15000B及び外部ストレージ装置16000A,16000Bと呼ぶ。また、以下においては各種処理の処理主体を「ストレージ装置15000A,15000B」や「外部ストレージ装置16000A,16000B」として説明する場合があるが、実際上は、そのストレージ装置15000A,15000B内の図示しないプロセッサやその外部ストレージ装置16000A,16000B内のプロセッサが当該ストレージ装置15000A,15000B又は外部ストレージ装置16000A,16000B内のメモリに格納されたプログラムに基づいて対応する処理を実行することは言うまでもない。
本実施の形態は、ホスト14000からの機能制御要求が、ストレージ装置15000Aに送信された後、ストレージ装置15000Aが機能制御要求をストレージ装置15000Bに転送し、ストレージ装置15000A,15000Bの双方が当該機能制御要求を解釈し実行する例を示している。
コマンドデバイス15002A,コマンドデバイス15002Bはそれぞれストレージ装置15000A、ストレージ装置15000Bが提供する論理ボリュームであり、機能を制御するホスト14000とのインターフェースとなる。なお、本実施の形態ではコマンドデバイス15002Aがアクティブ側と仮定している。
また、同期リモートコピーにより、コマンドデバイス15002Aの内容はコマンドデバイス15002Bの内容と常に一致している。コマンドデバイス15002A、コマンドデバイス15002Bはオペレーティングシステム14001が提供するパス管理機能(I/Oパスマネージャー5000(図1)が提供する機能に相当する)によりひとつのボリューム14004として機能管理プログラム14003に提供される。
論理ボリューム15001A、論理ボリューム15001Bはそれぞれストレージ装置15000A、ストレージ装置15000Bが提供する論理ボリュームであり、機能制御対象の論理ボリュームである。なお、本実施の形態では論理ボリューム15001Aがアクティブ側と仮定している。
また、同期リモートコピーにより、論理ボリューム15001Aの内容は、論理ボリューム15001Bの内容と常に一致している。論理ボリューム15001A、論理ボリューム15001Bはオペレーティングシステム14001が提供するパス管理機能によりひとつのボリューム14005としてアプリケーションプログラム14002に提供される。
なお、ここで説明した機能制御対象の論理ボリュームは複数あってもよい。
機能管理プログラム14003の機能制御要求処理部14005は、ユーザーあるいはホスト14000内の他のプログラムあるいはホスト14000とは別のホスト(管理ホストなど)内のプログラムから、機能制御要求を受け付ける。機能制御要求を受け付けた機能制御要求処理部14005はボリューム14004に対する制御要求の内容をボリューム14004に対してライト/リードする。本実施の形態ではコマンドデバイス15002Aがアクティブ側であるため、ライト/リードはコマンドデバイス15002Aに対して発行される。
コマンドデバイス15002Aに対するライトは機能制御を起動するときに用いられ、コマンドデバイス15002Aに対するリードは機能制御の結果の出力値を得るために用いられる。
機能制御要求処理部14005が受け付ける制御要求には制御対象のストレージ装置15000A,15000Bを一意に識別する情報(装置情報とも呼ぶ)と、制御対象の論理ボリューム15001A,150001Bを一意に識別する情報(ボリューム情報とも呼ぶ)と、機能制御に付随する情報とが含まれる。
ストレージ装置15000Aの制御I/F処理部15003Aはコマンドデバイス15002Aに制御要求がライトされたことを検出する。制御I/F 処理部15003Aは制御要求の装置情報が自ストレージ装置(ストレージ装置15000A)に一致するか判定する(判定100)。本実施の形態ではコマンドデバイス15002Aがアクティブ側なので、判定の結果は「一致する」となる。一致した場合、制御I/F 処理部15003Aはボリューム情報に対応する論理ボリューム15001Aに対して所定の機能制御を実行するよう機能処理部15004Aを呼び出す。具体的な例としては、ストレージ装置15000Aが提供する機能のひとつであるローカルコピー機能(後で説明)のペア状態の参照操作がある。当該操作が論理ボリューム15001Aに対して呼び出された場合、機能処理部15004Aは、ローカルコピー機能の管理情報を参照し、ペア状態を取得した後、制御I/F処理部15003A、コマンドデバイス15002A及びボリューム14004を介して、機能制御要求処理部14005に対して、ペア状態を送信する。
一方、ストレージ装置15000Bの制御I/F 処理部15003Bも同様の処理を行うが、本実施の形態では、コマンドデバイス15002Bはスタンバイ側なので、判定100の結果は「一致しない」となる。この場合、制御I/F 処理部15003Bは同期リモートコピーのペアの管理情報を参照し、ボリューム情報(論理ボリューム15001Aに対応)に対応する自ストレージ装置(ストレージ装置15000B)内の論理ボリューム(論理ボリューム15001Bに対応)を特定する。そして、制御I/F処理部15003Bは論理ボリューム15001Bに対して所定の機能制御を実行するよう機能処理部15004Bを呼び出す。
以上により、ストレージ装置15000Aの論理ボリューム15001A、ストレージ装置15000Bの論理ボリューム15001Bに対して、所定の機能の制御が実行される。
本実施の形態では、ストレージ装置15000A,15000Bが提供するローカルコピー機能のペア状態の参照操作を例にとって説明したが、(1)ローカルコピー機能のその他のペア操作(ペアの作成、ペアの分割等)、(2)ストレージ装置15000A,15000Bが提供するローカルコピー機能の各種ペア操作、(3)ストレージ装置15000A,15000Bが提供する論理ボリューム15001A,15001Bに対するセキュリティ機能(後で説明するLDEVガード機能)の操作、(4)ストレージ装置15000A,15000Bが提供する論理スナップショット機能(後で説明)の操作、等、ストレージ装置15000A,15000Bが提供する各種機能の操作について適用できる。
なお、別な実行形態としては、アクティブ側とスタンバイ側両方のストレージ装置15000A,15000Bに発行すべきコマンドを受けた場合は、アクティブ側のストレージ装置15000Aは受取ったコマンドを処理すると共に、スタンバイ側のストレージ装置15000Bへ転送してコマンド処理をしてもらうことで、ホスト14000からは1回のコマンドで両方のストレージ処理を開始することも考えられる。また、プログラムの状態取得に関するコマンドの場合は、コマンドを受取ったアクティブ側のストレージ装置15000Aがスタンバイ側のストレージ装置15000Bに同じコマンドを転送して状態を取得し、アクティブ側のストレージ装置15000Aが両方の状態を比較した後にコマンド発信元へ状態を返すことも考えられる。
(5)第5の実施の形態
本実施の形態では機能I/Fの別の構成について述べる。図15を用いて本実施の形態の構成を説明する。
本実施の形態の構成は図14とほぼ同様である。図14との違いは、
(1)コマンドデバイス15002A、コマンドデバイス15002Bが同期リモートコピーのペアでない。
(2)機能管理プログラム14003からはコマンドデバイス15002A及びコマンドデバイス15002Bが別々のボリューム14004A、14004Bとして認識されている。
(3)機能制御要求処理部14005は機能制御要求をコマンドデバイス15002A及びコマンドデバイス15002Bに送信する。
という3点である。
本実施の形態では、第4の実施の形態と同様に、機能制御要求処理部14005が受け付ける制御要求には制御対象のストレージ装置15000A,15000Bを一意に識別する情報(装置情報とも呼ぶ)と、制御対象の論理ボリューム15001A,15001Bを一意に識別する情報(ボリューム情報とも呼ぶ)と、機能制御に付随する情報とが含まれる。
本実施の形態では、第4の実施の形態と異なり、前述のように、ユーザーあるいはホスト14000内の他のプログラムあるいはホスト14000とは別のホスト内のプログラムから機能制御要求を受け付けた機能制御要求処理部14005は、両方のコマンドデバイス15002A、15002Bに制御要求を送信する。
なお、機能制御要求処理部14005が装置情報を判定し、コマンドデバイス15002Aに対しては、ボリューム情報として論理ボリューム15001Aを指定し、コマンドデバイス15002Bに対しては、ボリューム情報として論理ボリューム15001Bを指定するように制御要求を書き換えてもよい。
さらにまた、ユーザーあるいはホスト14000内の他のプログラムあるいはホスト14000とは別のホスト内のプログラムがストレージ装置15000A,15000Bを識別し、ストレージ装置15000A、15000Bに対して二重に異なる制御要求を出してもよい。即ち、コマンドデバイス15002Aに対して、論理ボリューム15001Aの制御要求を出し、コマンドデバイス15002Bに対して、論理ボリューム15001Bの制御要求を出す。
(6)第6の実施の形態
本実施の形態では機能I/Fの更に別の構成について述べる。図16を用いて本実施の形態の構成を説明する。
第6の実施の形態は第4の実施の形態とほぼ同様である。第4の実施の形態との違いは以下の点である。
(1)ホスト14000、ストレージ装置15000A、ストレージ装置15000Bは互いにLAN(Local Area Network)のような相互結合網により接続されている。なお、これらはLANにより直結されていてもよいし、スイッチを経由して接続されていてもよい。
(2)コマンドデバイスがない構成であり、3者(ホスト14000、ストレージ装置15000A、ストレージ装置15000B)間の通信はLANを介して行なわれる。
(3)機能制御要求処理部14005はLANを介して、制御要求を制御I/F 処理部15003Aに送信する。
(4)制御要求を受け取った制御I/F 処理部15003AはLANを介して、制御要求を制御I/F 処理部15003Bに送信する。
制御I/F 処理部15003A、15003Bが受け取った制御要求を処理する点は第4の実施の形態と同様であり、第6の実施の形態は第4の実施の形態と同等の機能I/Fを提供することができる。
(7)第7の実施の形態
本実施の形態では機能I/Fの更に別の構成について述べる。図17を用いて本実施の形態の構成を説明する。
第7の実施の形態は第6の実施の形態とほぼ同様である。第6の実施の形態との違いは以下の点である。
(1)機能制御要求処理部14005はLANを介して、制御要求を両方の制御I/F 処理部15003A、15003Bに送信する。
(2)制御I/F 処理部15003Aは制御I/F 処理部15003Bに対して、制御要求を送信しない。
制御I/F 処理部15003A、15003Bが受け取った制御要求を処理する点は第6の実施の形態と同様であり、第7の実施の形態は第6の実施の形態と同等の機能I/Fを提供することができる。
(8)第8の実施の形態
本実施の形態では、ストレージ装置内の論理ボリュームに対してセキュリティ機能(LDEVセキュリティ機能)を適用する場合の例を説明する。
図18はLDEVセキュリティ機能の一実施の形態を示したものである。本実施の形態の構成は第4の実施の形態の図14とほぼ同一である。図14と異なる点は論理ボリュームセキュリティ情報15005A、15005Bが追加された点である。論理ボリュームセキュリティ情報15005A、15005Bは、ホスト14000からストレージ装置15000A,15000B内の論理ボリューム15001A,15001Bに対するアクセス制御を行うために用いられる。アクセス制御の例としては、論理ボリューム15001A,15001B内のデータの改ざんを抑止するために論理ボリューム15001A,15001Bに対するライトアクセスを一切禁止する制御がある。また、別の例としては、法令等により一定期間の保存を義務付けられたデータに対して、所定の期間ライトを禁止する機能がある。さらに、別の例としては、機密情報の保護の観点等から特定のホストからのリード/ライトアクセスを禁止する機能がある。
図18のように2台のストレージ構成15000A,15000Bを用いて同期リモートコピーにより冗長化を図った構成においてもLDEVセキュリティ機能を適用したい場合が考えられる。この場合においても第4の実施の形態で説明した機能I/Fを用いてLDEVセキュリティ機能を制御することができる。具体的には、機能処理部15004において、対象ボリュームに対するセキュリティ情報を格納する論理ボリュームセキュリティ情報15005A、15005Bに、LDEVセキュリティに関するパラメータを設定したり、参照したりすればよい。
(9)第9の実施の形態
本実施形態ではストレージ装置内の論理ボリュームにローカルコピー機能を適用した場合の例を説明する。
ローカルコピー機能とは、ユーザーから指定されたボリュームの複製を、コピー元ボリュームと同じストレージ装置内において作成する機能である。本機能を用いて作成されたボリュームの複製はデータマイニングやテープバックアップのためにホストがアクセスを行ったり、あるいはバックアップデータとして長時間保存される。ローカルコピー機能を利用する場合、複製を作成したいボリュームと複製先ボリュームとをコピーペア(ペアと省略することがある)として指定し、そのペアに対してユーザーが操作を行うことで複製を作成することができる。以後の説明では複製対象のボリュームを正ボリュームと呼び、複製先ボリュームを副ボリュームと呼ぶことがある。本実施の形態では、このローカルコピー機能についてもアクティブ側のストレージ装置とスタンバイ側のストレージ装置とで連携することで可用性を向上させる。
図22は、ローカルコピー機能が搭載された情報システムの一実施の形態を示したものである。図22においては、ホスト1100は仮想化ストレージ装置1000Lと仮想化ストレージ装置1000Rとに接続されている。また、仮想化ストレージ装置1000Lはストレージ装置1500Lに接続され、仮想化ストレージ装置1000Rはストレージ装置1500Rに接続されている。また、ローカルコピー機能及び差分ビットマップ(正ボリューム及び副ボリューム間の差分の有無を示す情報)が仮想化ストレージ装置1000L及び仮想化ストレージ装置1000Rにて実行及び管理される。ローカルコピー機能及び差分ビットマップについての詳細は後述する。
本実施の形態では、正ボリュームが仮想化ストレージ装置1000L,1000R内にあり、副ボリュームの実体がストレージ装置1500L,1500R内にある構成例を示している。正ボリューム3000LAと副ボリューム3000LBはペアであり、副ボリューム3000LBの実体はボリューム3500LB内にある。同様に、正ボリューム3000RAと副ボリューム3000RBはペアであり、副ボリューム3000RBの実体はボリューム3500RB内にある。
まず、図23を参照しながら、ローカルコピー機能を管理する情報であるローカルコピーペア情報6080について説明する。ローカルコピーペア情報6080は仮想化ストレージ装置1000L,1000Rのコントローラー1010(図1)内に保持されている。ローカルコピーペア情報6080には以下のような情報が含まれる。
(A)ペア番号:仮想化ストレージ装置1000L,1000R内のローカルコピーペアを一意に識別する番号である。
(B)正ボリューム情報
(B−1)装置識別子:正ボリュームのデータが保持されているストレージ装置を一意に識別する情報である。本実施の形態においては仮想化ストレージ装置1000L,1000Rやストレージ装置1500L,1500Rを識別できる情報であればよい。
(B−2)ボリューム識別子:正ボリュームの装置識別子で識別されるストレージ装置内のボリュームを一意に識別する情報である。
(C)副ボリューム情報
(C−1)装置識別子:副ボリュームのデータが保持されているストレージ装置を一意に識別する情報である。本実施の形態においては仮想化ストレージ装置1000L,1000Rやストレージ装置1500L,1500Rを識別できる情報であればよい。
(C−2)ボリューム識別子:副ボリュームの装置識別子で識別されるストレージ装置内のボリュームを一意に識別する情報である。
(D)ペア状態:後で詳述するリモートコピーペアの状態を保持する情報である。ペア状態にはDuplex状態、Suspend状態(Split状態と呼ぶこともある)、Simplex状態、Initial‐Copying状態、Duplex‐Pending状態が存在する。
(E)差分ビットマップ:正ボリュームと副ボリュームの差分位置を示す情報である。差分がある位置には1(オン)がセットされ、差分がない位置には0(オフ)がセットされる。
次に、ローカルコピー機能の基本的な動作について述べる。
<Duplex状態における動作>
Duplex状態とはペア状態のひとつで正ボリュームから副ボリュームへ後述するバックグラウンドコピーが行われている状態である。
以下ではDuplex状態におけるリード/ライト処理について述べる。なお、以下のリード/ライト処理の説明は、リード/ライト処理のアクティブ側が仮想化ストレージ装置1000Lであり、ボリューム3000LAが正ボリュームであるという前提である。
まずリード処理について説明する。ホスト1100において、アプリケーションプログラム2010からリード要求を受け付けたオペレーティングシステム(OS)は、I/Oパスマネージャー5000(図5)の機能により、(リード対象の正ボリュームに関して)アクティブ側が仮想化ストレージ装置1000L及び仮想化ストレージ装置1000Rのうちのどちらであるかを判断し、アクティブ側の仮想化ストレージ装置1000Lにリード要求を発行する。リード要求を受信した仮想化ストレージ装置1000Lはリードデータをホスト1100に送信する。アプリケーションプログラム2010はオペレーティングシステムを介してリードデータを受信する。以上によりリード処理は完了する。
次にライト処理の概要について説明する。ホスト1100において、アプリケーションプログラム2010からライト要求を受け付けたオペレーティングシステム(OS)は、I/Oパスマネージャー5000の機能により、(ライト対象の正ボリュームに関して)アクティブ側が仮想化ストレージ装置1000L及び仮想化ストレージ装置1000Rのうちのどちらであるかを判断し、アクティブ側の仮想化ストレージ装置1000Lにライト要求を発行する。ライト要求を受信した仮想化ストレージ装置1000Lは、ライトデータを受信し、キャッシュメモリ1050(図1)にライトデータを格納すると共にライトデータに対応する差分ビットマップのビットを1(オン)に設定する。
またライトデータは、この後リモートコピー機能により、仮想化ストレージ装置1000L内のキャッシュメモリ1050から仮想化ストレージ装置1000R内の正ボリューム3000RAにコピー(同期リモートコピー)される。なお、同期リモートコピーの方法はこれまで説明した通りである。同期リモートコピーにより仮想化ストレージ装置1000Lからライトデータを受信した仮想化ストレージ装置1000Rは、キャッシュメモリ1050にライトデータを格納すると共にライトデータに対応する差分ビットマップのビットを1(オン)に設定する。その後、仮想化ストレージ装置1000Rは、仮想化ストレージ装置1000Lに対してライト完了報告に送信し、ライト完了報告を受信した仮想化ストレージ装置1000Lはホスト1100に対してライト完了報告を送信する。そして仮想化ストレージ装置1000Lは、かかるライト完了報告を受信すると、キャッシュメモリ1050に格納したライトデータを自装置内の正ボリューム3000LAに格納する。
なお、仮想化ストレージ装置1000Lの正ボリューム3000LA及び仮想化ストレージ装置1000Rの正ボリューム3000RAにそれぞれライトされたライトデータは、正ボリューム3000LA,3000RAへのライトとは非同期にその仮想化ストレージ装置1000L,1000R内の副ボリューム3000LB,3000RBへコピーされる(以後、本処理をバックグラウンドコピー処理と呼ぶ)。
実際上、アクティブ側の仮想化ストレージ装置1000Lは、かかるバックグラウンドコピー処理として、差分ビットマップを定期的に監視し、差分あり(すなわちビットがオンまたは1)と記録された領域のデータを正ボリューム3000LA,3000RAから副ボリューム3000LB,3000RBへコピーし、コピーが終了したらビットをクリア(オフ又は0に)する。スタンバイ側のストレージ装置1000Rも同期リモートコピーによってライトデータが到着した時点を契機として同様の処理を行う。
なお、正ボリューム3000LA,3000RAがストレージ装置1500L,1500R内にあってもよいし、仮想化ストレージ装置1000L,1000R内にあってもよい。副ボリューム3000LB,3000RBについても同様である。
何らかの障害が発生し、アクティブ側の仮想化ストレージ装置1000L内の正ボリューム3000LAに対するリード/ライト要求が処理できなくなった場合には、すでに説明した通り、ホスト1100のオペレーティングシステムは、リード/ライト要求の対象をスタンバイ側の仮想化ストレージ装置1000R内の正ボリューム3000RAに切り替えてアクセスを継続する。この場合でも、仮想化ストレージ装置1000R内にはローカルコピーのペアが存在するため、副ボリューム3000RBを用いて先に述べたバックアップ等の処理を行なうことができる。
<ペアSplitとSuspend状態の動作>
Suspend状態とはペア状態のひとつで、副ボリューム3000LB,3000RBのイメージが確定した状態のことを指す。この状態では、正ボリューム3000LA,3000RA及び副ボリューム3000LB,3000RBの内容が一致しておらず、正ボリューム3000LA,3000RAと副ボリューム3000LB,3000RBの間の差分が差分ビットマップで管理されている。また、この状態においては、副ボリューム3000LB,3000RBが静止した状態になるため、ユーザーは先に述べたバックアップ等の処理を行なうことができる。
ホスト1100は、ローカルコピーのDuplex状態のペアをSuspend状態にする場合、これまで説明してきたバックグラウンドコピーの動作を停止させる(これをペアSplitと呼ぶ)。ペアSplitは第4〜第7の実施の形態で説明した機能I/Fを介して実施する。
(1)ホスト1100は機能I/Fを介して仮想化ストレージ装置1000L,1000Rにローカルコピーの停止命令を出す。通常、ホスト1100側ではこの停止命令直前にI/Oリクエストの発行を停止する。
(2)アクティブ側とスタンバイ側の仮想化ストレージ装置1000L,1000Rはそれぞれ差分ビットマップ上でオンとなった領域のバックグラウンドコピーを完了させる。ホスト1100は両仮想化ストレージ装置1000L,1000Rにおけるバックグラウンドコピーが完了したとのメッセージをアクティブ側の仮想化ストレージ装置1000Lもしくは両ストレージ装置1000L,1000Rから受領する。
(3)ホスト1100は当該メッセージを受領した後、I/O発行を再開する。
(2)までの処理により、アクティブ側及びスタンバイ側の仮想化ストレージ装置1000L,1000R内にそれぞれ存在するボリュームのペアはSuspend状態になったことが確定する。この時点で両ストレージ内のペア状態はSuspend状態となっている。
その後のリード/ライト要求の処理は、Duplex状態とほぼ同様である。Duplex状態との違いは、バックグラウンドコピー処理が動作しない点である。
<ペア作成>
正ボリュームと副ボリュームがペア関係にない状態をSimplex状態と呼ぶ。Simplex状態からDuplex状態に遷移させるための処理をペア作成と呼ぶ。ペア状態がSimplex状態からDuplex状態に遷移している過渡状態をInitial‐Copying状態と呼ぶ。
ペア作成の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施する。
(1)ホスト1100は、機能I/Fを介して、仮想化ストレージ装置1000L,1000Rに対してペア作成指示を出す。この結果アクティブ側及びスタンバイ側の両仮想化ストレージ装置1000L,1000Rでペア作成処理が開始される。
(2)両仮想化ストレージ装置1000L,1000Rは、ペア状態をInitial‐Copying状態に設定し、差分ビットマップを全てオンにし、バックグラウンドコピーを開始する。
(3)バックグラウンドコピーが差分ビットマップの最後まで完了したら、仮想化ストレージ装置1000L,1000Rは、ペア状態をDuplex状態に設定する。
なお、Initial‐Copying状態におけるリード/ライト処理はDuplex状態におけるリード/ライト処理と同様である。
<ペア再同期>
ペア状態をSusupend状態からDuplex状態に遷移させる操作をペア再同期と呼ぶ。ペア状態がSusupend状態からDuplex状態に遷移している過渡状態をDuplex‐Pending状態と呼ぶ。
ペア再同期の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施する。
(1)ホスト1100は、機能I/Fを介して仮想化ストレージ装置1000L,1000Rに対してペア再同期指示を出す。この結果アクティブ側とスタンバイ側の両仮想化ストレージ装置1000L,1000Rでペア再同期処理が開始される。
(2)両仮想化ストレージ装置1000L,1000Rはペア状態をDuplex‐Pendingに設定し、バックグラウンドコピーを開始する。
(3)バックグラウンドコピーが差分ビットマップの最後まで完了したら、仮想化ストレージ装置1000L,1000Rはペア状態をDuplex状態に設定する。
なお、Duplex‐Pending状態におけるリード/ライト処理はDuplex状態におけるリード/ライト処理と同様である。
次に、ローカルコピー機能が適用された仮想化ストレージ装置1000L,1000Rに対してホスト1100からライト要求が発行された場合の動作を、フローチャートを用いて詳細に説明する。
まず、図24を参照して、図10のステップS10003「正系ボリュームにWrite」におけるホスト1100の動作と、I/O処理プログラム6020(図6)のサブプログラムであるライト処理プログラム(図示せず)に基づくアクティブ側の仮想化ストレージ装置(以下、これを正系仮想化ストレージ装置と呼ぶ)1000Lのライト処理時の動作について説明する。
<ステップS10003「正系ボリュームにWrite」の動作>
(S24001)ホスト1100のオペレーティングシステムは、正系仮想化ストレージ装置1000Lに対してライト要求を送信する。
(S24002)ホスト1100のオペレーティングシステムは正系仮想化ストレージ装置1000Lからデータ受信準備完了報告を受信する。
(S24003)ホスト1100のオペレーティングシステムは正系仮想化ストレージ装置1000Lにライトデータを送信する。
(S24004)ホスト1100のオペレーティングシステムは正系仮想化ストレージ装置1000Lからライト完了報告を受信する。
<正系仮想化ストレージ装置側ライト処理の動作>
(S24005)正系仮想化ストレージ装置1000Lは、ホスト1100からのライト要求イベントを待つ。
(S24006)正系仮想化ストレージ装置1000Lは、ホスト1100からライト要求を受信する。
(S24007)正系仮想化ストレージ装置1000Lは、当該ライトデータを格納するためのキャッシュメモリ領域を確保する。
(S24008)正系仮想化ストレージ装置1000Lは、ホスト1100にデータ受信準備完了報告を送信する。
(S24009)正系仮想化ストレージ装置1000Lは、ホスト1100から当該ライトデータを受信し、上記キャッシュメモリ領域に格納する。
(S24010)正系仮想化ストレージ装置1000Lは、後述するリモートコピー処理を実行する。
(S24011)正系仮想化ストレージ装置1000Lは、後述するローカルコピー処理を実行する。
(S24012)正系仮想化ストレージ装置1000Lは、ホスト1100にライト完了報告を送信する。その後、S24005に戻り再びイベントを待つ。
なお、リモートコピー処理(S24010)とローカルコピー処理(S24011)は順序を逆にして実行してもよいし、同時並行に実行してもよい。
次に、図25を参照して、図24のステップS24010において行なわれるリモートコピー処理の具体的な処理内容について説明する。このリモートコピー処理は、リモートコピー処理プログラム6090(図6)に基づいて仮想化ストレージ装置1000L、1000Rによって行なわれる。
<リモートコピー処理の動作>
(S25001)仮想化ストレージ装置1000Lは、ホスト1100からのライト要求に対応する、コピーペア情報6040(図6)のペア状態を参照し、ペア状態に対応した処理を行う。ペア状態がSimplex状態の場合はリモートコピー処理を完了する。
(S25002)ペア状態がSuspend状態の場合は、仮想化ストレージ装置1000Lは当該ライト要求に対応する、差分ビットマップのビットをオン(または1)にする。
(S25003)ペア状態が上記のペア状態以外の場合は、後述する図26のRIO以下の処理を実行する。
次に、図26を参照して、ステップS25003における正系仮想化ストレージ装置1000Lの動作と、副系の仮想化ストレージ装置(以下、これを副系仮想化ストレージ装置と呼ぶ)1000Rのライト処理動作とについて説明する。なお、副系仮想化ストレージ装置1000Rにおけるライト処理は、I/O処理プログラム6020のサブプログラムであるライト処理プログラムに基づいて行なわれる。
<ステップS25003の動作>
(S26001)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rにライト要求を送信する。
(S26002)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rからデータ受信準備完了報告を受信する。
(S26003)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rにライトデータを送信する。
(S26004)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rからライト完了報告を受信する。
<副系仮想化ストレージ装置側ライト処理の動作>
(S26005)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lからのライト要求イベントを待つ。
(S26006)副系仮想化ストレージ装置1000Rは、当該ライトデータを格納するためのキャッシュメモリ領域を確保する。
(S26007)副系仮想化ストレージ装置1000Rは、データ受信準備完了報告を送信する。
(S26008)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lにデータ受信準備完了報告を送信する。
(S26009)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lから当該ライトデータを受信し、前記キャッシュメモリ領域に格納する。
(S26010)副系仮想化ストレージ装置1000Rは、後述するローカルコピー処理プログラムを実行する。
(S26011)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lにライト完了報告を送信する。その後、S26005に戻り再びライト要求イベントを待つ。
次に、図27を参照して、仮想化ストレージ装置1000L,1000Rにおけるローカルコピー処理の動作について説明する。このローカルコピー処理は、ローカルコピー処理プログラム6100(図6)に基づいて仮想化ストレージ装置1000L,1000Rにおいて行なわれる。
<ローカルコピー処理の動作>
(S27001)仮想化ストレージ装置1000L,1000Rは、ライト要求に対応する、ローカルコピーペア情報6080(図23)のペア状態を参照して、ペア状態に対応した処理を行う。ペア状態がSimplex状態の場合はローカルコピー処理を完了する。
(S27002)ペア状態が上記のペア状態以外の場合、仮想化ストレージ装置1000L,1000Rは当該ライト要求に対応する、ローカルコピーペア情報6080の差分ビットマップのビットをオン(又は1)にする。
次に、図28を参照して、仮想化ストレージ装置1000L,1000Rにおけるバックグラウンドコピー処理の動作について説明する。このバックグラウンドコピー処理は、バックグラウンドコピー処理プログラム6110(図6)に基づいて仮想化ストレージ装置1000L,1000Rにおいて行なわれる。
<バックグラウンドコピー処理の動作>
(S28001)仮想化ストレージ装置1000L,1000Rは、差分ビットマップを定期的に監視し、差分ビットがオン(又は1)に更新されるイベントを待つ。
(S28002)オン(又は1)の差分ビットを検出した場合、仮想化ストレージ装置1000L,1000Rは、当該差分ビットに対応する、ローカルコピーペア情報6080(図23)のペア状態を参照し、ペア状態に対応した処理を行う。ペア状態がSimplex状態もしくはSuspend状態の場合はS28001に戻り、再びイベントを待つ。
(S28003)ペア状態が上記のペア状態以外の場合、仮想化ストレージ装置1000L,1000Rは、上記差分ビットに対応する、キャッシュメモリ1050(図1)もしくはHDD1030(図1)上に格納されている正ボリュームへのライトデータを、対応する副ボリュームを有する仮想化ストレージ装置1000Rのキャッシュメモリ1020R上の対応する位置にコピーする。なお、仮想化ストレージ装置1000Rは、上記コピーの前にライトデータを格納するためのキャッシュメモリ領域を確保する。
(S28004)仮想化ストレージ装置1000L,1000Rは、前記差分ビットをクリア(オフ又は0に更新)した後、ステップS28001に戻り再び差分ビットがオン(又は1)に更新されるイベントを待つ。
次に、図29を参照して、ペア操作処理の動作について説明する。このペア操作処理は、ペア操作処理プログラム6120(図6)に基づいて仮想化ストレージ装置1000L,1000Rにおいて行なわれる。
<ペア操作処理の動作>
(S29001)仮想化ストレージ装置1000L,1000Rは、ペア操作に関するイベントを待つ。イベントの種類には次のものがある。(A)機能I/Fを介したユーザーからのペア作成指示、(B)機能I/Fを介したユーザーからのペア再同期指示、(C)機能I/Fを介したユーザーからのペアSplit指示、(D)ペア作成完了、(E)ペア再同期完了。
(S29002)仮想化ストレージ装置1000L,1000Rは、イベントの種類を判定して、以後の操作を決定する。
(S29003)イベントがペア作成の場合、仮想化ストレージ装置1000L,1000Rは、対象となるローカルコピーペアに対応する、ローカルコピーペア情報6080(図23)のペア状態をInitial‐Copying状態に変更する。ペア再同期の場合、ペア状態をDuplex‐Pending状態に変更する。
(S29004)その後、仮想化ストレージ装置1000L,1000Rは、対象となるローカルコピーペアに関するバックグランドコピー処理を開始する。
(S29005)イベントがペア作成完了もしくはペア再同期完了の場合、仮想化ストレージ装置1000L,1000Rは、対象となるローカルコピーペアに対応する、ローカルコピーペア情報6080のペア状態をDuplex状態に変更する。
(S29006)イベントの種類がペアSplitの場合、仮想化ストレージ装置1000L,1000Rは、対象となるローカルコピーペアに関して、差分ビットマップ上でオンとなった領域のバックグラウンドコピー処理を完了させ、バックグラウンドコピーを停止すると共に、ホスト1100に対して完了した旨のメッセージを送信する。
(S29007)その後、仮想化ストレージ装置1000L,1000Rは、対象となるローカルコピーペアに対応する、ローカルコピーペア情報6080のペア状態をSuspend状態に変更する。
次に、図30を参照して、デステージング処理の動作について説明する。デステージング処理は、I/O処理プログラム6020のサブプログラムであるデステージング処理プログラムに基づいて仮想化ストレージ装置1000L,1000Rにおいて行なわれる。
<デステージング処理の動作>
(S30001)仮想化ストレージ装置1000L,1000Rは、一定期間毎に、キャッシュメモリ1020L,1020R上のライトデータであって、HDD1030(図1)もしくはストレージ装置1500L,1500Rに未コピーのデータ(ダーティ状態のデータ)の合計量が一定量以上に達したかどうか判定する。一定量以上になったというイベントが発生したら次のステップに進む。
仮想化ストレージ装置1000L,1000Rは、一定期間毎に、キャッシュメモリ1020L,1020R上のダーティ状態のデータの合計量が一定量以上に達したかどうか判定する。ここで、ダーティ状態のデータとは、キャッシュメモリ1020L,1020Rに格納されているホスト1100からのライトデータであって、(A)仮想化ストレージ装置1000L,1000RのHDD1030に未コピーのデータ、もしくは、(B)ストレージ装置1500L,1500Rに未コピーのデータである。ダーティ状態のデータが一定量以上になったというイベントが発生したら次のステップに進む。
(S30002)仮想化ストレージ装置1000L,1000RはLRU等のアルゴリズムにより上記HDD1030もしくは前記ストレージ装置1500L,1500Rにコピーするデータを決定する。
(S30003)仮想化ストレージ装置1000L,1000Rは、キャッシュ管理情報6220(図6)を参照しデータのコピー先を特定する。
(S30004)仮想化ストレージ装置1000L,1000Rは、上記データをコピーする。
(S30005)仮想化ストレージ装置1000L,1000Rは、上記データの状態をクリーン状態にする。ここでクリーン状態のデータとは、キャッシュメモリ1020L,1020Rに格納されているデータであって、(A)仮想化ストレージ装置1000L,1000RのHDD1030内のデータ、もしくは、(B)ストレージ装置1500L,1500R内のデータと一致しているデータを指す。なお、データの状態を変更する代わりにキャッシュメモリ1020L,1020R上のデータを破棄してもよい。
次に、図31を参照して、障害時(正系の障害時又は正副間の回線の障害時)におけるホスト1100の動作と、副系仮想化ストレージ装置1000Rにおけるライト処理の動作とについて説明する。
<ホストの動作>
図31のステップS31001〜ステップS31004の処理は、図26のステップS26001〜S26004と同様である。
<副系仮想化ストレージ装置側ライト処理の動作>
図31のステップS31005〜ステップS31009、ステップS310011及びステップS31012の処理は、図26のステップSP26005〜ステップS26009、ステップS26010及びステップS26011の処理と同様である。
(10)第10の実施の形態
本実施の形態では第9の実施の形態とは異なるローカルコピー機能について説明する。本実施の形態による情報システムの一構成例を図32に示す。
まず、本実施の形態と第9の実施の形態との構成の違いは、ストレージ装置1500Rが存在せず、副ボリューム3000LB、3000RBの実体がいずれもストレージ装置1500L内のボリューム3500LBとなるようにマッピングされている点である。その他の構成は第9の実施の形態と同様である。このように構成することにより、副ボリューム3000LB、3000RBに必要とされる物理的な記憶装置を削減することができる。
本実施の形態と第9の実施の形態との処理動作の大きな違いはスタンバイ側の仮想化ストレージ装置1000Rがボリューム3500LBに対するバックグラウンドコピーを行なわず、ストレージ装置1000Lとの通信により、ペアに関する制御情報であるペア状態と差分ビットマップのみを操作する点である。以下では処理動作の概要を説明する。
<Duplex状態における動作>
以下ではDuplex状態におけるリード/ライト処理について述べる。
リード処理は第9の実施の形態でのリード処理と同様である。またライト処理は以下の通りである。
ホスト1100において、アプリケーションプログラム2010からライト要求を受け付けたオペレーティングシステムはI/Oパスマネージャー5000の機能により、(リード対象の正ボリュームに関して)アクティブ側が仮想化ストレージ装置1000L及び仮想化ストレージ装置1000Rのどちらであるかを判断し、アクティブ側の仮想化ストレージ装置1000Lにライト要求を発行する。ライト要求を受信した仮想化ストレージ装置1000Lは、ライトデータを受信し、キャッシュメモリ1020Lにライトデータを格納すると共にライトデータに対応する差分ビットマップのビットを1(オン)に設定する。
その後、このライトデータは、同期リモートコピー機能により、仮想化ストレージ装置1000L内の正ボリューム3000LAから仮想化ストレージ装置1000R内の正ボリューム3000RAにコピーされる。なお、同期リモートコピーの方法はこれまで説明した通りである。
同期リモートコピー機能により仮想化ストレージ装置1000Rからのライトデータを受信した仮想化ストレージ装置1000Rは、キャッシュメモリ1020Rにライトデータを格納すると共にライトデータに対応する差分ビットマップのビットを1(オン)に設定する。その後、仮想化ストレージ装置1000Rは、仮想化ストレージ装置1000Lに対してライト完了報告に送信し、ライト完了報告を受信した仮想化ストレージ装置1000Lはホスト1100に対してライト完了報告を送信する。
なお、仮想化ストレージ装置1000Lの正ボリューム3000LAにライトされたデータは、当該正ボリューム3000LAへのライトとは非同期に副ボリューム3000LBへバックグラウンドコピーされる。第9の実施の形態でのライト処理と異なり、仮想化ストレージ装置1000Rの正ボリューム3000RAにライトされたデータはバックグラウンドコピーされない。
仮想化ストレージ装置1000Lにおけるバックグラウンドコピー処理は、差分ビットマップを定期的に監視し、差分あり(すなわちビットがオン)と記録された領域のデータを正ボリューム3000LAから副ボリューム3000LBへコピーし、コピーが終了したらビットをクリア(オフ又は0に)する。なお、本実施の形態では、第9の実施の形態でのライト処理と異なり、仮想化ストレージ装置1000R側ではバックグラウンドコピーを行なわない。
その後、第9の実施の形態でのライト処理と異なり、仮想化ストレージ装置1000Lはクリアしたビットの位置情報を仮想化ストレージ装置1000Rに通知する。通知を受信した仮想化ストレージ装置1000Rは当該ビットに対応する仮想化ストレージ装置1000R内の差分ビットをクリアする。
なお、差分ビットの位置情報の通知は、仮想化ストレージ装置1000R内のコマンドデバイスを介して行なわれる。ただし、ストレージ装置1500L,1500R間がLANで接続された構成である場合は、LANを介した通信により通知を行なってもよい。以後、仮想化ストレージ装置1000Lと仮想化ストレージ装置1000Rとの間における、差分ビットやペア状態等といった、機能の制御情報に関する通信はコマンドデバイスやLANを介して行うものとする。
何らかの障害が発生し、アクティブ側の正ボリューム3000LAに対するリード/ライト要求が処理できなくなった場合、ホスト1100のオペレーティングシステムは、第9の実施の形態と同様に、リード/ライト要求の対象を正ボリューム3000RAに切り替えてアクセスを継続する。
<ペアSplitとSuspend状態の動作>
ホスト1100はローカルコピーのDuplex状態のペアをSuspend状態にする場合、第9の実施の形態と同様にペアSplitを行なう。なお、ペアSplitにおいては、バックグラウンドコピーの停止処理が行なわれるが、本実施の形態では仮想化ストレージ装置1000Rにおいては、バックグラウンドコピーを行わないため、実際には停止処理は行なわれない。
その後のリード/ライト要求の処理はDuplex状態とほぼ同様である。Duplex状態との違いは、仮想化ストレージ装置1000Rにおいてバックグラウンドコピー処理が動作しない点である。
<ペア作成>
ペア作成の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施されるのは、第9の実施の形態と同様である。
(1)ホスト1100は、機能I/Fを介して仮想化ストレージ装置1000L,1000Rに対してペア作成指示を出す。この結果アクティブ側とスタンバイ側の両仮想化ストレージ装置1000L,1000Rでペア作成処理が開始される。
(2)両仮想化ストレージ装置1000L,1000Rはペア状態をInitial‐Copying状態に設定する。仮想化ストレージ装置1000Lは差分ビットマップを全てオンにし、バックグラウンドコピーを開始する。第9の実施の形態と異なり、仮想化ストレージ装置1000Rは差分ビットマップを全てオンにするが、バックグラウンドコピーを行なわない。
(3)仮想化ストレージ装置1000Lにおけるバックグラウンドコピーが完了した領域に対応する差分ビットをクリアする動作と、それに付随する動作(差分ビットの位置情報の通知と差分ビットのクリア)は、Duplex状態における動作と同様である。
(4)第9の実施の形態と異なり、仮想化ストレージ装置1000Lは、バックグラウンドコピーが差分ビットマップの最後まで完了したら、ペア状態をDuplex状態に設定し、ペア状態がDuplex状態に変わったことを仮想化ストレージ装置1000Rに通知する。通知を受信したストレージ装置1000Rは、ペア状態をDuplex状態に設定する。
Initial‐Copying状態におけるリード/ライト処理は、Duplex状態におけるリード/ライト処理と同様である。
<ペア再同期>
ペア再同期の指示は、第4〜第7の実施の形態で説明した機能I/Fを介して実施されるのは、第9の実施の形態と同様である。
(1)ホスト1100は、機能I/Fを介して仮想化ストレージ装置1000L,1000Rに対してペア再同期指示を出す。この結果アクティブ側とスタンバイ側の両仮想化ストレージ装置1000L,1000Rでペア再同期処理が開始される。
(2)仮想化ストレージ装置1000Lは、ペア状態をDuplex−Pendingに設定し、バックグラウンドコピーを開始する。第9の実施の形態と異なり、仮想化ストレージ装置1000Rは、バックグラウンドコピーを行なわない。
(3)仮想化ストレージ装置1000Lは、バックグラウンドコピーが差分ビットマップの最後まで完了したら、ペア状態をDuplex状態に設定する。ただし、第9の実施の形態と異なり、この処理を行なうのは仮想化ストレージ装置1000Lのみである。その後、仮想化ストレージ装置1000Lは、ペア状態がDuplex状態に変わったことを仮想化ストレージ装置1000Rに通知する。通知を受信した仮想化ストレージ装置1000Rはペア状態をDuplex状態に設定する。
Duplex‐Pending状態におけるリード/ライト処理はDuplex状態におけるリード/ライト処理と同様である。
次に、ローカルコピー機能が適用された仮想化ストレージ装置1000Lに対してホスト1100からライト要求が発行された場合の動作を、フローチャートを用いて詳細に説明する。
正系仮想化ストレージ装置1000Lにおけるライト処理の具体的な処理内容は図24と同様である。リモートコピー処理の具体的な処理内容は図25の動作と同様である。
図33を参照して、第10の実施の形態における、図25のステップS25003の動作と副系仮想化ストレージ装置1000L,1000Rのライト処理の動作について説明する。このライト処理は、I/O処理プログラム6020(図6のサブプログラムであるライト処理プログラム(図示せず)に基づいて正系仮想化ストレージ装置1000L及び副系仮想化ストレージ装置1000Rにおいて行なわれる。
図33のS33001〜S33009及びS33010の処理は、図26のS26001〜S26009及びS260011の処理と同じであるが、図33では図26のステップS26010(副系仮想化ストレージ装置1000Rのライト処理時におけるローカルコピー処理)が行われない点が図26と異なる。
次に、図34を参照して、第10の実施の形態におけるバックグラウンドコピー処理(正系)とバックグラウンドコピー処理(副系)の動作について説明する。
<正系仮想化ストレージ装置の動作>
(S34001)正系仮想化ストレージ装置1000Lは、差分ビットマップを定期的に監視し、差分ビットがオン(又は1)に更新されるイベントを待つ。
(S34002)オン(又は1)の差分ビットを検出した場合、正系仮想化ストレージ装置1000Lは、当該差分ビットに対応する、ローカルコピーペア情報6080(図23)のペア状態を参照し、ペア状態に対応した処理を行う。ペア状態がSimplex状態もしくはSuspend状態の場合はS34001に戻り、再び差分ビットがオン(又は1)に更新されるイベントを待つ。
(S34003)ペア状態が上記のペア状態以外の場合、正系仮想化ストレージ装置1000Lは、上記差分ビットに対応する、キャッシュメモリ1020LもしくはHDD1030(図3)上に格納されている正ボリュームへのライトデータを、副ボリュームのキャッシュメモリ1020L上の対応する位置にコピーする。なお、正系仮想化ストレージ装置1000Lはかかるコピーの前にライトデータを格納するためのキャッシュメモリ領域を確保する。
(S34004)正系仮想化ストレージ装置1000Lは、上記差分ビットをクリア(オフ又は0に更新)する。
(S34005)正系仮想化ストレージ装置1000Lは、前ステップでクリアした差分ビットの情報を副系仮想化ストレージ装置1000Rに送信し、副系仮想化ストレージ装置1000Rでも同様の差分ビットのクリアが行われるよう要求する。
(S34006)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rから差分ビットクリアの完了報告を受信した後、ステップS34001に戻り再びイベントを待つ。
<副系仮想化ストレージ装置の動作>
(S34007)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lから差分ビットクリア要求のイベントを待つ。
(S34008)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lから差分ビットクリアの情報を受信する。
(S34009)副系仮想化ストレージ装置1000Rは、上記差分ビットに対応するローカルコピーペア情報6080(図23)の差分ビットをクリアする。
(S31010)副系仮想化ストレージ装置1000Rは、差分ビットのクリア完了の報告を正系仮想化ストレージ装置1000Lに送信する。
次に、図35を参照して、ペア操作処理の動作について説明する。
<ペア操作処理の動作>
(S35001)正系もしくは副系仮想化ストレージ装置1000L,1000Rは、ペア操作に関するイベントを待つ。ここで、イベントの種類としては、ペア作成指示、ペア再同期指示、ペア作成完了、ペア再同期完了、ペアSplit指示、正系からのペア状態変更指示の受信、が存在する。
(S35002)仮想化ストレージ装置1000L,1000Rは自身が、ペア操作対象のボリュームに関して正系か副系かを判断し、判定結果に従って以降の処理を行う。
<正系仮想化ストレージ装置の動作>
(S35003)かかる判定で正系であった場合、正系仮想化ストレージ装置1000Lはイベントの種類を判定し、イベントの種類に従い以後の処理を行う。
(S35004)イベントの種類がペア作成指示もしくはペア再同期指示の場合、正系仮想化ストレージ装置1000Lは、当該指示に対応するローカルコピーペア情報6080のペア状態をInitial‐Copying状態もしくはDuplex‐Pending状態に変更する。
(S35005)正系仮想化ストレージ装置1000Lは、当該指示に対応するローカルコピーペアのバックグラウンドコピーを開始する。
(S35006)イベントの種類がペア作成完了もしくはペア再同期完了の場合、正系仮想化ストレージ装置1000Lは、当該指示に対応するローカルコピーペア情報6080のペア状態をDuplex状態に変更する。
(S35007)イベントの種類がペアSplit操作の場合、正系仮想化ストレージ装置1000Lは、当該指示に対応するローカルコピーペアのバックグラウンドコピーを停止させる。ペアSplitの動作は第9の実施の形態で説明したとおりである。
(S35008)正系仮想化ストレージ装置1000Lは、当該指示に対応するローカルコピーペア情報6080のペア状態をSuspend状態に変更する。
(S35009)その後、正系仮想化ストレージ装置1000Lは副系仮想化ストレージ装置1000Rにペア状態の変更情報を送信する。
(S35009)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rからペア状態変更完了の報告を受信した後、S35001に戻り再びイベント待ちを行う。
<副系仮想化ストレージ装置の動作>
(S35011)S35002の判定で副系であった場合、副系仮想化ストレージ装置1000Rは正系仮想化ストレージ装置1000Lからペア状態の変更情報を受信する。
(S35012)副系仮想化ストレージ装置1000Rは、上記変更情報に基づき、ローカルコピーペア情報6080のペア状態を変更する。
(S35013)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lにペア状態の変更完了の報告を送信した後、S35001に戻り再びイベント待ちを行う。
図36は、第10の実施の形態によるローカルコピー処理の処理内容を示している。このローカルコピー処理は、ローカルコピー処理プログラム6100(図6)に基づいて正系仮想化ストレージ装置1000L及び副系仮想化ストレージ装置1000Rにおいて行われるものであり、その内容は第9の実施の形態と同様である。
次に、図37を参照して、第10の実施の形態におけるデステージング処理について説明する。このデステージング処理は、I/O処理プログラム6020(図6)のサブプログラムであるデステージング処理プログラム(図示せず)に基づいて仮想化ストレージ装置1000L,1000Rにおいて行なわれる。
(S37001)仮想化ストレージ装置1000L,1000Rは、デステージングに関するイベントを待つ。イベントの種類としては、HDD1030(図1)もしくはストレージ装置1500L,1500Rに未コピーのデータ(ダーティ状態のデータ)の合計量が一定量以上になったというイベントと、正系仮想化ストレージ装置からの通信があったというイベントが存在する。
(S37003)ダーティ状態のデータの合計量が一定量以上になったというイベントであった場合、仮想化ストレージ装置1000L,1000Rは、ダーティ状態のデータの中からHDD1030もしくはストレージ装置1500L,1500Rにコピーするデータを決定する。
(S37004)仮想化ストレージ装置1000L,1000Rは、キャッシュ管理情報6220を参照して、コピー対象のデータのコピー先を特定する。
(S37005)次に上記特定したコピー先がストレージ装置1500L内の共有ボリュームかどうかを判定する。
(S37006)上記判定の結果が共有ボリュームでなければ、(正系もしくは副系)仮想化ストレージ装置1000L,1000Rはキャッシュメモリ1020L,1020R上のデータを上記特定したコピー先にコピーする。
(S37007)(正系もしくは副系)仮想化ストレージ装置1000L,1000Rは、かかるキャッシュメモリ1020L,1020R上のデータの状態をクリーン状態(ライトデータがHDD1030もしくはストレージ装置1500L,1500Rに反映された状態)に変更する。なお、状態を変更する代わりに、キャッシュメモリ上のデータを破棄してもよい。その後、S37001に戻り、再びイベント待ちを行う。
(S37008)S37005の判定の結果が共有ボリュームである場合、仮想化ストレージ装置1000L,1000Rは自身がコピー対象のデータに関して正系か副系かを判定する。
(S37009)判定の結果が副系であった場合、ステップS37001に戻り再びイベントを待つ。即ち、この場合、デステージングは行われない。
(S37009)判定の結果が正系であった場合、正系仮想化ストレージ装置1000Lはキャッシュメモリ1020L上のデータを前記特定したコピー先にコピーする。
(S37010)正系仮想化ストレージ装置1000Lはキャッシュメモリ1020L上のデータの状態をクリーン状態に変更する。なお、状態を変更する代わりにキャッシュメモリ1020L上のデータを破棄してもよい。
(S37011)正系仮想化ストレージ装置1000Lはキャッシュメモリ1020L上のデータの状態を変更した旨(もしくはデータを破棄した旨)を副系仮想化ストレージ装置1000Rに通知する。
(S37012)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rからキャッシュメモリ1020R上のデータの状態を変更が完了した旨(もしくはデータの破棄が完了した旨)を受信する。その後、ステップS37001に戻り、再びイベント待ちを行う。
(S37013)ステップS37002でのイベントの種類が、正系仮想化ストレージ装置1000Lからの通信があったというイベントであった場合、副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lがキャッシュメモリ1020L上のデータの状態を変更した旨(もしくはデータを破棄した旨)を受信する。
(S37014)副系仮想化ストレージ装置1000Rは、受信した情報に基づいて、自身のキャッシュメモリ1020R上のデータの状態を変更(もしくはデータの破棄)を行う。
(S34015)副系仮想化ストレージ装置1000Rは、データの状態変更が完了した旨(もしくはデータを破棄した旨)を正系仮想化ストレージ装置1000Lに通知する。その後、ステップS37001に戻り、再びイベント待ちを行う。
(11)第11の実施の形態
本実施の形態では、ストレージ装置1500L,1500R内のボリュームに論理スナップショット機能を適用した場合の例を説明する。
論理スナップショット機能とは、ローカルコピー機能と類似した機能であり、ユーザーの指示時点の複製データをホストに提供する機能である。しかし、複製データを有する副ボリュームは、プールに属する実ボリュームの領域に保存された複製作成指示以後のライトデータと、正ボリュームのデータを用いて提供される仮想的な存在である。仮想的な副ボリュームの実体は実ボリュームの集合体であるプールに保持される。正ボリュームと副ボリュームの関係をスナップショットペアもしくは単にペアと呼ぶこともある。論理スナップショット機能においては、静止化ポイントにおける正ボリュームの内容と同一内容の論理ボリュームが実際に作成される訳ではないという意味で、副ボリュームは仮想的である。論理スナップショット機能は先に説明したローカルコピー機能とは異なり、正ボリュームのサイズと同一のサイズの副ボリュームが不要である。これにより、副ボリュームの内容を保持するために必要な記憶装置(HDDなど)の容量を削減することが可能である。
本実施の形態では、この論理スナップショット機能についてもアクティブ側のストレージ装置とスタンバイ側のストレージ装置で連携することで可用性を向上させることができる。
図38は、スナップショット機能の一実施の形態を示したものである。この図38を用いて本実施の形態の概要を説明する。
図38において、ホスト1100は、仮想化ストレージ装置1000Lと仮想化ストレージ装置1000Rに接続されている。また、仮想化ストレージ装置1000Lはストレージ装置1500Lと接続され、仮想化ストレージ装置1000Rはストレージ装置1500Rと接続されている。また、スナップショット機能及び差分ビットマップ(静止化ポイントにおける正ボリュームと現時点における正ボリュームとの間の差分の有無を示す情報)と仮想アドレス実アドレス変換テーブル(仮想的な副ボリュームの実体の位置を管理するテーブル)6130(図6)が仮想化ストレージ装置1000Lと仮想化ストレージ装置1000Rにて実行及び管理される。更に、仮想化ストレージ装置1000L内の正ボリューム3000LAと仮想化ストレージ装置1000R内の正ボリューム3000RAはリモートコピーのペアとなるように構成される。
本実施の形態は、正ボリュームが仮想化ストレージ装置1000L,1000R内にあり、プールがストレージ装置1500L,1500R内にある構成例を示している。なお、プールは仮想化ストレージ装置1000L,1000R内にあってもよい。
ここで、スナップショット機能を管理する情報であるローカルコピーペア情報としては、図23について上述した第9の実施の形態で説明したローカルコピーペア情報6080を用いる。ただし、ローカルコピーペア情報6080内の差分ビットマップの意味は第9の実施の形態とは異なることに注意する。次に、スナップショット機能を管理するもうひとつの情報である仮想アドレス実アドレス変換テーブル6130について図39を用いて説明する。仮想アドレス実アドレス変換テーブル6130には以下のような情報が含まれる。
(A)仮想アドレス
(A−1)ボリューム識別子:仮想化ストレージ装置内で副ボリュームを一意に識別するための情報である。
(A−2)アドレス:仮想アドレスのデータの開始アドレスを示す情報である。
(A−3)データ長:仮想アドレスのデータのデータ長を示す情報である。
(B)実アドレス
(B−1)装置識別子:仮想アドレスに対応する実データが保持されているストレージ装置を一意に識別する情報である。本実施の形態においては仮想化ストレージ装置1000L,1000Rやストレージ装置1500L,1500Rを識別できる情報であればよい。
(B−2)ボリューム識別子:仮想アドレスに対応する実データが保持されているストレージ装置内のボリュームを一意に識別する情報である。
(B−3)アドレス:仮想アドレスに対応する実データが保持されているボリューム内のアドレスを示す情報である。
次に論理スナップショット機能の動作の概要を説明する。
<論理スナップショット作成指示>
ホスト1100を利用するユーザーが論理スナップショット作成を指示すると、これまでの実施の形態に記載の方式によって、アクティブ側の仮想化ストレージ装置1000Lとスタンバイ側の仮想化ストレージ装置1000Rとに作成指示を発行する。作成指示を受信した仮想化ストレージ装置1000L、1000Rは当該指示を受けて、仮想的な副ボリュームを準備し、全て0(差分なしの意味)の(ローカルコピーペア情報6080内の)差分ビットマップと仮想アドレス実アドレス変換テーブル6130を割り当てる。
<正ボリュームに対するリード処理>
これまで述べた実施の形態と同じである。
<正ボリュームに対するライト処理>
ホスト1100において、アプリケーションプログラム2010からライト要求を受け付けたオペレーティングシステムは、I/Oパスマネージャー5000(図38)の機能により、(ライト対象の正ボリュームに関して)アクティブ側が仮想化ストレージ装置1000L及びストレージ装置1000Rのうちのどちらであるかを判断し、アクティブ側のストレージ装置1000Lにライト要求を発行する。ライト要求を受信した仮想化ストレージ装置1000Lは、ライト対象アドレスの差分ビットマップをチェックする。結果、1であれば、ライト要求と共にホスト1100から送信されるデータをキャッシュメモリ1020Lに正ボリュームのライトデータとして格納する。一方、0の場合は正ボリューム3000LAの更新前のデータを副ボリューム3000LB用のデータとして用いるための以下に示すCopy‐On‐Write処理を行う。
(Step1)プールに属する実ボリュームの記憶領域を確保する。
(Step2)正ボリューム3000LAから当該記憶領域へ更新前データを、キャッシュメモリ1020Lを利用しつつコピーする。
(Step3)退避する更新前データの保存先を管理するプール管理情報(仮想アドレス実アドレス変換テーブル6130(図39))を更新し、当該データがプール内の実ボリュームのどの領域に保存されたかわかるようにする。また、当該データに対応する差分ビットマップのビットを1に更新する。
(Step4)受信したライトデータをキャッシュメモリ1020Lに正ボリューム3000LAの当該アドレス宛のデータとして保存し、ライト完了応答を返す。
これと並行して、当該ライトデータはリモートコピー機能により、仮想化ストレージ装置1000L内の正ボリューム3000LAからストレージ装置1000R内の正ボリューム3000RAにコピーされ、同様の処理がなされる。そのため、各仮想化ストレージ装置1000L,1000Rはそれぞれで仮想アドレス実アドレス変換テーブル6130や差分ビットマップの管理を行う。
<副ボリュームに対するリード処理>
ホスト1100において、アプリケーションプログラム2010からライト要求を受け付けたオペレーティングシステムはI/Oパスマネージャー5000(図5)の機能により、(リード対象の副ボリュームに関して)アクティブ側が仮想化ストレージ装置1000L及びストレージ装置1000Rのうちのどちらであるかを判断し、アクティブ側の仮想化ストレージ装置1000Lにリード要求を発行する。リード要求を受信した仮想化ストレージ装置1000Lは、正ボリューム3000LAに対して記録していた差分ビットマップをチェックする。結果、リード対象アドレスのビットが0であれば正ボリューム3000LAの同じアドレスに保存されたデータをホスト1100へ返し、オペレーティングシステムは当該データをアプリケーション2010へ返す。一方、リード対象アドレスのビットが1の場合は仮想アドレス実アドレス変換テーブル6130を参照して、正ボリューム3000LAのリード対象アドレスに関する更新前のデータの場所を決定し、プールに属する実ボリュームからデータをホスト1100(アプリケーションプログラム2010)へ返す。
<副ボリュームに対するライト処理>
ホスト1100において、アプリケーションプログラム2010からライト要求を受け付けたオペレーティングシステムは、I/Oパスマネージャー5000の機能により、(ライト対象の副ボリュームに関して)アクティブ側が仮想化ストレージ装置1000L及び仮想化ストレージ装置1000Rのうちのどちらであるかを判断し、アクティブ側のストレージ装置1000Lにライト要求を発行する。ライト要求を受信した仮想化ストレージ装置1000Lは、正ボリューム3000LAに割り当てられたライト対象アドレスの差分ビットマップをチェックする。結果、1であれば仮想アドレス実アドレス変換テーブル6130を参照することで、正ボリューム3000LAの当該アドレスの更新前データが保存されたプール内の実ボリュームの記憶領域を探し、当該領域へライトデータを保存する。一方、0の場合は以下の処理を行う。
(A)プールに属する実ボリュームの領域を確保する。
(B)確保した領域にライトデータを保存し、仮想アドレス実アドレス変換テーブル6130を更新することで当該ライトデータがプール内の実ボリュームのどの領域に保存されたかわかるようにする。
(C)差分ビットマップの当該アドレスに対応するビットを1に更新する。
これと並行して、当該ライトデータはリモートコピー機能により、仮想化ストレージ装置1000L内の正ボリューム3000LAから仮想化ストレージ装置1000R内の正ボリューム3000RAにコピーされ、同様の処理がなされる。そのため、各仮想化ストレージ装置1000L,1000Rは、それぞれで仮想アドレス実アドレス変換テーブル6130や差分ビットマップの管理を行う。
<Copy‐After‐Write処理>
仮想化ストレージ装置1000L,1000Rは、正ボリューム3000LA,3000RAに対するライト時に実行するCopy‐On‐Write処理の代わりとして、以下に示すCopy‐After‐Write処理を実行してもよい。
(Step1)受信したライトデータをキャッシュメモリ1020L,1020Rに正ボリューム3000LA,3000RAの当該アドレス宛のデータとして保存し、ライト完了応答を返す。ただし、当該ライトデータのデステージングは抑制する。
(Step2)プールに属する実ボリュームの記憶領域を確保する。
(Step3)正ボリューム3000LA,3000RAから当該記憶領域に更新前データを、キャッシュメモリ1020L,1020Rを利用しつつコピーする。
(Step4)退避した更新前データの保存先を管理するプール管理情報(仮想アドレス実アドレス変換テーブル6130(図39))を更新し、当該データがプール内の実ボリュームのどの領域に保存されたかわかるようにする。
(Step5)抑制していたライトデータのデステージを許可する。
<障害>
何らかの障害が発生し、アクティブ側の正ボリューム3000LAや副ボリューム3000LBに対するリード/ライト要求が処理できなくなった場合には、すでに説明した通り、ホスト1100のオペレーティングシステムは、リード/ライト要求の対象をスタンバイ側の正ボリューム3000RAや副ボリューム3000RBに切り替えてアクセスを継続することができる。なお、前述の通り、同一のストレージ装置1000L,1000Rに対してライト要求を発行したいため、好ましくはスナップショット機能の正ボリューム3000LA,3000RAと副ボリューム3000LB,3000RBは、正ボリューム3000LA,3000RAに対する切り替えが必要な場合には副ボリューム3000LB,3000RBも同時に切り替えを行い、逆に副ボリューム3000LB,3000RBに対する切り替えが必要な場合には正ボリューム3000LA,3000RAに対しても切り替えを行う連携を行うようにする。
次に、フローチャートを参照して、論理スナップショット機能の動作の詳細を説明する。正系仮想化ストレージ装置1000Lのライト処理は第9の実施の形態の図24と同様である。またリモートコピー処理は第9の実施の形態の図25と同様である。副系仮想化ストレージ装置1000Rのライト処理は第9の実施の形態の図26と同様である。副系仮想化ストレージ装置1000Rのライト処理は図31と同様ある。デステージング処理は第9の実施の形態の図30と同様である。
次に、本実施の形態でのCopy‐On‐Write方式におけるローカルコピー処理6100の動作を、図40を参照して説明する。
<ローカルコピー処理(Copy‐On‐Write方式)の動作>
(S40001)ローカルコピーペア情報6080(図23)のペア状態を参照して、ローカルコピー対象のコピーペアのペア状態に応じて以降の処理を決定する。ペア状態がSimplex状態もしくはDuplex状態の場合は処理を終了する。
(S40002)ペア状態がSuspend状態の場合は、後述するバックグラウンドコピーを実行する。
次に、本実施の形態でのCopy‐On‐Write方式におけるバックグラウンドコピー処理の動作を、図41を参照して説明する。
<バックグラウンドコピー処理(Copy‐On‐Write方式)の動作>
(S41001)仮想化ストレージ装置1000L,1000Rは、ストレージ装置1500L,1500R内のプールに属する実ボリュームの記憶領域を確保する。同時に上記記憶領域に対応するキャッシュメモリ領域を確保する。
(S41002)仮想化ストレージ装置1000L,1000Rは、正系仮想化ストレージ装置1000Lのライト処理もしくは副系仮想化ストレージ装置1000Rのライト処理におけるライト位置に対応する、正ボリューム内の更新前データを上記確保したキャッシュメモリ領域にコピーする。
(S41003)仮想化ストレージ装置1000L,1000Rは、当該ライト処理に対応する差分ビットマップのビットを1に更新すると共に、仮想アドレス実アドレス変換テーブル6130(図39)に以下のようなデータを保持する行を追加する。
(A)仮想アドレス
(A−1)ボリューム識別子:当該ライトに対応するコピーペアの副ボリュームの識別子を設定する。
(A−2)アドレス:当該ライトのデータアドレスを設定する。
(A−3)データ長:当該ライトのデータ長を設定する。
(B)実アドレス
(B−1)装置識別子:図41のステップS41001で確保した、プールに属する実ボリュームが保持されているストレージ装置の識別子を設定する。
(B−2)アドレス:図41のステップS41001で確保した、実ボリューム内のデータ位置のアドレスを設定する。
次に、図42を参照して、本実施の形態におけるCopy‐After‐Write方式のローカルコピー処理6100の動作について説明する。
<ローカルコピー処理(Copy−After−Write方式)の動作>
(S42001)ローカルコピーペア情報6080のペア状態を参照して、ローカルコピー対象のコピーペアのペア状態に応じて以降の処理を決定する。ペア状態がSimplex状態もしくはDuplex状態の場合は処理を終了する。
(S42002)ペア状態がSuspend状態の場合は、正系又は副系仮想化ストレージ装置1000L,1000Rのライト処理におけるライト処理対象のライトデータに関して、デステージを抑止する。
次に、図43を参照して、本実施の形態におけるCopy‐After‐Write方式のバックグラウンドコピー処理プログラム6110(図6)に基づくバックグランドコピー処理の動作を説明する。
<バックグラウンドコピー処理(Copy‐After‐Write方式)の動作>
(S43001)仮想化ストレージ装置1000L,1000Rは、論理スナップショットのペアの正ボリューム3000LA,3000RAに前述のローカルコピー処理(Copy‐After‐Write方式)でデステージを抑止されたライトデータがないか監視する。デステージを抑止されたライトデータが発見されたというイベントが発生したら次のステップに進む。
(S43002)ステップS41001と同様である。
(S43003)ステップS41002と同様である。
(S43004)ステップS41003と同様である。
(S43005)当該ライトデータのデステージを許可する。
(12)第12の実施の形態
本実施の形態では、第10の実施の形態とは異なる論理スナップショット機能の実施形態を説明する。図44に本実施の形態の一構成例を示す。
まず、本実施の形態と第10の実施の形態との構成の違いは、ストレージ装置1500Rが存在せず、仮想的な副ボリューム3000LB、3000RBの実領域がいずれもストレージ装置1500L内のプール内の領域に割り当てられている点である。その他の構成は第10の実施の形態と同様である。
なお、本実施の形態は仮想化ストレージ装置1000Lと仮想化ストレージ装置1000Rとが共通のプールとして、共通のストレージ装置1500L内の実ボリュームを用いるため、第10の実施の形態と異なり、実ボリュームがストレージ装置1500L内にある構成に限定される。
このように構成することにより、プールに必要とされる物理的な記憶装置(HDDなど
)の容量を削減することができる。
本実施の形態と第10の実施の形態との処理動作の大きな違いは以下の通りである。
(A)通常時はスタンバイ側の仮想化ストレージ装置1000Rがキャッシュメモリ1020Rからストレージ装置1500L内の実ボリュームに対してライトを行なわない代わりに、アクティブ側の仮想化ストレージ装置1000Lが正ボリューム3000LA、副ボリューム3000LB、プール内の実ボリュームに対応するデータをデステージングする時にスタンバイ側の仮想化ストレージ装置1000Rにこれを伝え、スタンバイ側の仮想化ストレージ装置1000Rではこれによってキャッシュメモリ1020R上のデータを破棄する。
(B)仮想化ストレージ装置1000Lが仮想アドレス実アドレス変換テーブル6130(図6)への更新を仮想化ストレージ装置1000Rに通知し、通知を受けた仮想化ストレージ装置1000Rが仮想アドレス実アドレス変換テーブル6130を更新する。
また、(A)の処理に変えて副ボリューム3000LBまたはプール内の実ボリュームに対応するデータについてはキャッシングを無効化してもよい。この場合、前述のCopy‐On‐Write処理による更新前データ退避では正ボリューム3000LAに対するライト完了までにプール内の実ボリュームへの退避データ保存が含まれるため、性能が悪化するが、Copy‐After‐ライト方式ではそれが無いため、好適である。
次に、本実施の形態における論理スナップショットの処理動作の詳細を、フローチャートを参照して説明する。
本実施の形態における正系仮想化ストレージ装置1000Lのライト処理の動作は図24の動作と同様である。本実施の形態における副系想化ストレージ装置1000Rのライト処理の動作は図33の動作と同様である。本実施の形態におけるリモートコピー処理の動作は図25と同様である。本実施の形態におけるデステージング処理の動作は図37と同様である。
本実施の形態におけるCopy‐On‐Write方式のローカルコピー処理は図40の動作と同様である。なお、このローカルコピー処理は正系仮想化ストレージ装置1000Lのみで実行される。
本実施の形態におけるCopy‐On‐Write方式のバックグラウンドコピー処理の動作を、図45を参照して説明する。
<バックグラウンドコピー処理の動作(正系仮想化ストレージ装置)>
ステップS45001からステップS45003までの動作はステップS42001からステップS42003までの動作と同様である。
(S45004)正系仮想化ストレージ装置1000Lは、S45003における仮想アドレス実アドレス変換テーブル6130(図39)の更新の情報と当該ライトに対応する差分ビットマップのビットの更新の情報を副系仮想化ストレージ装置1000Rに送信する。
(S45005)正系仮想化ストレージ装置1000Lは、副系仮想化ストレージ装置1000Rから仮想アドレス実アドレス変換テーブル6130と差分ビットマップの更新の完了の報告を受信する。
<バックグラウンドコピー処理の動作(副系仮想化ストレージ装置)>
(S45006)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lからの仮想アドレス実アドレス変換テーブル6130と差分ビットマップとの更新要求イベントを待つ。
(S45007)副系仮想化ストレージ装置1000Rは、正系仮想化ストレージ装置1000Lから仮想アドレス実アドレス変換テーブル6130と差分ビットマップとの更新の情報を受信する。
(S45008)副系仮想化ストレージ装置1000Rは、受信した情報に基づき、仮想アドレス実アドレス変換テーブル6130と差分ビットマップとを更新する。
(S45009)副系仮想化ストレージ装置は、仮想アドレス実アドレス変換テーブル6130と差分ビットマップとの更新の完了報告を正系仮想化ストレージ装置1000Lに送信した後、ステップS45006に戻り再びイベント待ちを行う。
次に、本実施の形態におけるCopy‐After‐Write方式のローカルコピー処理は第10の実施の形態と同様である。なお、このローカルコピー処理は正系仮想化ストレージ装置1000Lのみで実行される。
本実施の形態におけるCopy‐After‐Write方式のバックグラウンドコピー処理の動作を、図46を参照して説明する。
<バックグラウンドコピー処理の動作(正系仮想化ストレージ装置)>
ステップS46001からステップS46005までの動作は図45のステップS45001からステップS45005までの動作と同様である。
(S46010)正系仮想化ストレージ装置1000Lは、処理対象のライトデータに関して、デステージを許可する。
<バックグラウンドコピー処理の動作(副系仮想化ストレージ装置)>
ステップS46006からステップS46009までの動作は図45のステップS45006からステップS45009までの動作と同様である。
以上、本発明の幾つかの実施態様を説明したが、これらの実施の形態は本発明の説明のための例示にすぎず、本発明の範囲をそれらの実施の形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱することなく、その他の様々な態様でも実施することができる。例えば、HDD1030やキャッシュメモリ1020L,1020Rの代わりに不揮発性メモリを使用することができる。不揮発性メモリとしては、例えば、フラッシュメモリ(具体的には、例えば、NAND型フラッシュメモリ)、MRAM(Magnetoresistive Random Access Memory)、PRAM(Parameter Random Access Memory)など、種々の不揮発性メモリを採用することができる。
図1は、第1の実施の形態にかかる情報システムのハードウェア構成の一例を示すブロック図である。 図2は、第1の実施の形態の概要を示す第1の概念図である。 図3は、第1の実施の形態の概要を示す第2の概念図である。 図4は、第1の実施の形態の概要を示す第3の概念図である。 図5は、ホスト上のソフトウェア構成を表した概念図である。 図6は、仮想化ストレージ装置及びストレージ装置上のソフトウェア構成を表したブロック図である。 図7は、リモートコピーのペア状態とペア状態の遷移を表した概念図である。 図8は、I/Oパスマネージャーが管理するデバイス関係テーブルを示す概念図である。 図9は、I/Oパスマネージャーが初期化処理を行うときのフローを示したフローチャートである。 図10は、I/Oパスマネージャーがライト処理を行うときのフローを示したフローチャートである。 図11は、I/Oパスマネージャーがリード処理を行うときのフローを示したフローチャートである。 図12は、第2の実施の形態の概要を示す概念図である。 図13は、第3の実施の形態の概要を示す概念図である。 図14は、第4の実施の形態の概要を示す概念図である。 図15は、第5の実施の形態の概要を示す概念図である。 図16は、第6の実施の形態の概要を示す概念図である。 図17は、第7の実施の形態の概要を示す概念図である。 図18は、第8の実施の形態の概要を示す概念図である。 図19は、第1の実施の形態における他のリード/ライト処理方法の説明に供するフローチャートである。 図20は、第1の実施の形態における他のリード/ライト処理方法の説明に供するフローチャートである。 図19は、第1の実施の形態における他のリード/ライト処理方法の説明に供するフローチャートである。 図20は、第9の実施の形態におけるローカルコピーペア情報を示す概念図である。 図23は、ローカルコピーペア情報の説明に供する概念図である。 図24は、第9の実施の形態における正系仮想化ストレージ装置側のライト処理の説明に供するフローチャートである。 図25は、第9の実施の形態におけるリモートコピー処理の説明に供するフローチャートである。 図26は、第9の実施の形態における副系仮想化ストレージ装置側のライト処理の説明に供するフローチャートである。 図27は、第9の実施の形態におけるローカルコピー処理の説明に供するフローチャートである。 図28は、第9の実施の形態におけるバックグラウンドコピー処理の説明に供するフローチャートである。 図29は、第9の実施の形態におけるペア操作処理の説明に供するフローチャートである。 図30は、第9の実施の形態におけるデステージング処理の説明に供するフローチャートである。 図31は、第9の実施の形態における障害時の副系仮想化ストレージ装置側のライト処理の説明に供するフローチャートである。 図32は、第10の実施の形態の概要を示す概念図である。 図33は、第10の実施の形態における副系仮想化ストレージ装置側のライト処理を示す図である。 図34は、第10の実施の形態におけるバックグラウンドコピー処理の説明に供するフローチャートである。 図35は、第10の実施の形態におけるペア操作処理の説明に供するフローチャートである。 図36は、第10の実施の形態におけるローカルコピー処理の説明に供するフローチャートである。 図37は、第10の実施の形態におけるデステージング処理の説明に供するフローチャートである。 図38は、第11の実施の形態の概要を示す概念図である。 図39は、仮想アドレス実アドレス変換テーブルの説明に供する概念図である。 図40は、第11の実施の形態におけるローカルコピー処理(Copy‐On‐Write方式)を示す図である。 図41は、第11の実施の形態におけるバックグラウンドコピー処理(Copy‐On‐Write方式)の説明に供するフローチャートである。 図42は、第11の実施の形態におけるローカルコピー処理(Copy‐After‐Write方式)の説明に供するフローチャートである。 図43は、第11の実施の形態におけるバックグラウンドコピー処理(Copy‐After‐Write方式)の説明に供するフローチャートである。 図44は、第12の実施の形態の概要を示す概念図である。 図45は、第12の実施の形態におけるバックグランドコピー処理(Copy‐On‐Write方式)の説明に供するフローチャートである。 図46は、第12の実施の形態におけるバックグラウンドコピー処理(Copy‐After‐Write方式)の説明に供するフローチャートである。
符号の説明
1000,1000L,1000R……仮想化ストレージ装置、1010……コントローラー、1020,1020L,1020R……キャッシュメモリ、1030……HDD、1100……ホスト、1500,1500L,1500R,15000,15000A,15000B……ストレージ装置,3500LB,3500RB,5040,5050……ボリューム、2010,14002……アプリケーションプログラム、5000……I/Oパスマネージャー、5010……HBAデバイスドライバー、5020……ファイルシステム、6020……I/O処理プログラム、6030……仮想化プログラム、6040……コピーペア情報、6050……ボリューム情報、6060……パリティグループ情報、6070……仮想化情報、6080……ローカルコピーペア情報、6090……リモートコピー処理プログラム、6100……ローカルコピー処理プログラム、6110……バックグラウンドコピー処理プログラム、6120……ペア操作処理プログラム、6130……仮想アドレス実アドレス変換テーブル。

Claims (12)

  1. 上位装置としてのホストコンピューターと、
    前記ホストコンピューターに接続され、第1の主ボリューム及び第1の副ボリュームを有する第1のストレージ装置と、
    前記第1のストレージ装置及び前記ホストコンピューターに接続され、第2の主ボリューム及び第2の副ボリュームを有する第2のストレージ装置と
    を備え、
    前記第1及び第2のストレージ装置は、
    前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行し、
    前記第1及び第2のストレージ装置の少なくとも一方は、
    自ストレージ装置内の前記第1又は第2の主ボリュームに書き込まれた前記データを対応する前記第1又は第2の副ボリュームにコピーするローカルコピーを実行し、
    前記ホストコンピューターは、
    前記第1のストレージ装置に障害が発生したときには、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替え、
    前記第1及び第2のストレージ装置は、
    それぞれ前記ローカルコピーを制御するためのローカルコピー制御情報を保持し、
    前記第1のストレージ装置は、
    前記ローカルコピー制御情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、
    前記第2のストレージ装置は、
    前記第1のストレージ装置からの通知に応じて、自己が保持する前記ローカルコピー制御情報を更新する
    ことを特徴とする情報システム。
  2. 前記第1のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置と、
    前記第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第4のボリュームを有する第4のストレージ装置と
    を備え、
    前記第1及び第2の副ボリュームは、
    対応する前記第3又は第4のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1及び第2のストレージ装置は、
    それぞれ前記第1又は第2の副ボリュームにコピーすべき前記データを、対応する前記第3又は第4のボリュームにコピーする
    ことを特徴とする請求項1に記載の情報システム。
  3. 前記第1及び第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置を備え、
    前記第1及び第2の副ボリュームは、
    それぞれ前記第3のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1及び第2のストレージ装置のいずれか一方のみが、前記第1又は第2の副ボリュームにコピーすべきデータを、前記第3のボリュームにコピーする
    ことを特徴とする請求項1に記載の情報システム。
  4. 上位装置としてのホストコンピューターと、前記ホストコンピューターに接続された第1のストレージ装置と、前記第1のストレージ装置及び前記ホストコンピューターに接続された第2のストレージ装置とを有する情報システムにおけるデータ転送方法において、 前記第1のストレージ装置は、第1の主ボリューム及び第1の副ボリュームを有し、 前記第2のストレージ装置は、第2の主ボリューム及び第2の副ボリュームを有し、 前記第1及び第2のストレージ装置が、前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行すると共に、前記第1及び第2のストレージ装置の少なくとも一方が、自ストレージ装置内の前記第1又は第2の主ボリュームに書き込まれた前記データを対応する前記第1又は第2の副ボリュームにコピーするローカルコピーを実行する第1のステップと、 前記ホストコンピューターが、前記第1のストレージ装置に障害が発生したときに、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替える第2のステップと
    を備
    前記第1及び第2のストレージ装置は、
    それぞれ前記ローカルコピーを制御するためのローカルコピー制御情報を保持し、
    前記第1のストレージ装置は、
    前記ローカルコピー制御情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、
    前記第2のストレージ装置は、
    前記第1のストレージ装置からの通知に応じて、自己が保持する前記ローカルコピー制御情報を更新する
    ことを特徴とするデータ転送方法。
  5. 前記情報システムは、
    前記第1のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置と、
    前記第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第4のボリュームを有する第4のストレージ装置とを備え、
    前記第1及び第2の副ボリュームは、
    対応する前記第3又は第4のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1のステップにおいて、
    前記第1及び第2のストレージ装置は、それぞれ前記第1又は第2の副ボリュームにコピーすべき前記データを、対応する前記第3又は第4のボリュームにコピーする
    ことを特徴とする請求項に記載のデータ転送方法。
  6. 前記情報システムは、
    前記第1及び第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置を備え、
    前記第1及び第2の副ボリュームは、
    それぞれ前記第3のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1のステップでは、
    前記第1及び第2のストレージ装置のいずれか一方のみが、前記第1又は第2の副ボリュームにコピーすべき前記データを、前記第3のボリュームにコピーする
    ことを特徴とする請求項に記載のデータ転送方法。
  7. 上位装置としてのホストコンピューターと、
    前記ホストコンピューターに接続され、第1の主ボリューム及び第1の副ボリュームを有する第1のストレージ装置と、
    前記第1のストレージ装置及び前記ホストコンピューターに接続され、第2の主ボリューム及び第2の副ボリュームを有する第2のストレージ装置と
    を備え、
    前記第1及び第2のストレージ装置は、
    前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行し、
    前記第1及び第2のストレージ装置の少なくとも一方は、
    論理スナップショットの作成指示以降に更新された前記第1又は第2の主ボリュームの更新前のデータを前記第1又は第2の副ボリュームに退避させ、
    前記ホストコンピューターは、
    前記第1のストレージ装置に障害が発生したときには、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替え、
    前記第1及び第2のストレージ装置は、
    それぞれ前記スナップショットを管理するためのスナップショット管理情報を保持し、
    前記第1のストレージ装置は、
    前記スナップショット管理情報を
    前記スナップショット管理情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、
    前記第2のストレージ装置は、
    前記第1のストレージ装置からの通知に応じて、自己が保持する前記スナップショット管理情報を更新する
    ことを特徴とする情報システム。
  8. 前記第1のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置と、
    前記第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第4のボリュームを有する第4のストレージ装置と
    を備え、
    前記第1及び第2の副ボリュームは、
    対応する前記第3又は第4のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1及び第2のストレージ装置は、
    それぞれ前記第1又は第2の副ボリュームに退避させるべきデータを、対応する前記第3又は第4のボリュームに退避させる
    ことを特徴とする請求項に記載の情報システム。
  9. 前記第1及び第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置を備え、
    前記第1及び第2の副ボリュームは、
    それぞれ前記第3のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1及び第2のストレージ装置のいずれか一方のみが、前記第1又は第2の副ボリュームに退避すべきデータを、前記第3のボリュームに退避させる
    ことを特徴とする請求項に記載の情報システム。
  10. 上位装置としてのホストコンピューターと、前記ホストコンピューターに接続された第1のストレージ装置と、前記第1のストレージ装置及び前記ホストコンピューターに接続された第2のストレージ装置とを有する情報システムにおけるデータ転送方法において、
    前記第1のストレージ装置は、第1の主ボリューム及び第1の副ボリュームを有し、
    前記第2のストレージ装置は、第2の主ボリューム及び第2の副ボリュームを有し、
    前記第1及び第2のストレージ装置が、前記ホストコンピューターにより前記第1の主ボリュームに書き込まれたデータを前記第2の主ボリュームへコピーするリモートコピーを実行すると共に、前記第1及び第2のストレージ装置の少なくとも一方が、論理スナップショットの作成指示以降に更新された前記第1又は第2の主ボリュームの更新前のデータを前記第1又は第2の副ボリュームに退避させる第1のステップと、
    前記ホストコンピューターが、前記第1のストレージ装置に障害が発生したときに、前記データのライトリクエストの送信先を前記第1のストレージ装置から前記第2のストレージ装置に切り替える第2のステップと
    を備え、
    前記第1及び第2のストレージ装置は、
    それぞれ前記スナップショットを管理するためのスナップショット管理情報を保持し、
    前記第1のストレージ装置は、
    前記スナップショット管理情報を
    前記スナップショット管理情報を更新したときには、更新内容を前記第2のストレージ装置に通知し、
    前記第2のストレージ装置は、
    前記第1のストレージ装置からの通知に応じて、自己が保持する前記スナップショット管理情報を更新する
    ことを特徴とするデータ転送方法。
  11. 前記情報システムは、
    前記第1のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置と、
    前記第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第4のボリュームを有する第4のストレージ装置と
    を備え、
    前記第1及び第2の副ボリュームは、
    対応する前記第3又は第4のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1のステップにおいて、
    前記第1及び第2のストレージ装置は、
    それぞれ前記第1又は第2の副ボリュームに退避させるべきデータを、対応する前記第3又は第4のボリュームに退避させる
    ことを特徴とする請求項10に記載のデータ転送方法。
  12. 前記情報システムは、
    前記第1及び第2のストレージ装置に接続され、搭載されたHDDが提供する記憶領域から構成される第3のボリュームを有する第3のストレージ装置を備え、
    前記第1及び第2の副ボリュームは、
    それぞれ前記第3のボリュームにマッピングされた仮想的なボリュームであり、
    前記第1のステップでは、
    前記第1及び第2のストレージ装置のいずれか一方のみが、前記第1又は第2の副ボリュームに退避すべきデータを、前記第3のボリュームに退避させる
    ことを特徴とする請求項10に記載のデータ転送方法。
JP2007085792A 2006-10-30 2007-03-28 情報システム及びデータ転送方法 Expired - Fee Related JP4902403B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2007085792A JP4902403B2 (ja) 2006-10-30 2007-03-28 情報システム及びデータ転送方法
US11/850,918 US7802131B2 (en) 2006-10-30 2007-09-06 Information system and data transfer method
US12/856,712 US8090979B2 (en) 2006-10-30 2010-08-16 Information system and data transfer method
US13/209,560 US8386839B2 (en) 2006-10-30 2011-08-15 Information system and data transfer method

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006293485 2006-10-30
JP2006293485 2006-10-30
JP2007085792A JP4902403B2 (ja) 2006-10-30 2007-03-28 情報システム及びデータ転送方法

Publications (2)

Publication Number Publication Date
JP2008134988A JP2008134988A (ja) 2008-06-12
JP4902403B2 true JP4902403B2 (ja) 2012-03-21

Family

ID=39331774

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007085792A Expired - Fee Related JP4902403B2 (ja) 2006-10-30 2007-03-28 情報システム及びデータ転送方法

Country Status (2)

Country Link
US (3) US7802131B2 (ja)
JP (1) JP4902403B2 (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4902403B2 (ja) 2006-10-30 2012-03-21 株式会社日立製作所 情報システム及びデータ転送方法
JP4990066B2 (ja) * 2007-08-21 2012-08-01 株式会社日立製作所 論理ボリュームのペアを利用したデータ保存の方式を変更する機能を備えたストレージシステム
JP2009093316A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd ストレージシステム及び仮想化方法
US9619171B2 (en) 2007-10-05 2017-04-11 Hitachi, Ltd. Storage system and virtualization method
JP4958739B2 (ja) * 2007-11-09 2012-06-20 株式会社日立製作所 障害の発生した記憶装置に記憶されているデータを修復するストレージシステム
US8065559B2 (en) * 2008-05-29 2011-11-22 Citrix Systems, Inc. Systems and methods for load balancing via a plurality of virtual servers upon failover using metrics from a backup virtual server
US8019732B2 (en) 2008-08-08 2011-09-13 Amazon Technologies, Inc. Managing access of multiple executing programs to non-local block data storage
JP2010039986A (ja) * 2008-08-08 2010-02-18 Hitachi Ltd データのバックアップを管理する計算機システム及び方法
EP3699765A1 (en) * 2008-08-08 2020-08-26 Amazon Technologies, Inc. Providing executing programs with reliable access to non-local block data storage
US8015343B2 (en) 2008-08-08 2011-09-06 Amazon Technologies, Inc. Providing executing programs with reliable access to non-local block data storage
JP5486793B2 (ja) * 2008-11-07 2014-05-07 株式会社日立製作所 リモートコピー管理システム、方法及び装置
JP4819113B2 (ja) * 2008-12-03 2011-11-24 富士通株式会社 バックアップ装置、バックアップ方法およびバックアッププログラム
US20110066801A1 (en) * 2009-01-20 2011-03-17 Takahito Sato Storage system and method for controlling the same
JP4806037B2 (ja) * 2009-01-26 2011-11-02 株式会社東芝 データ記憶システム及び非同期レプリケーション方法
JP2010186285A (ja) * 2009-02-12 2010-08-26 Fujitsu Ltd ミラーリング制御装置、ストレージ装置、ミラーリング制御方法
US8275958B2 (en) 2009-03-19 2012-09-25 Hitachi, Ltd. Storage system with remote copy controllers
JP4848443B2 (ja) * 2009-04-22 2011-12-28 株式会社日立製作所 暗号化/復号化機能を有するストレージシステムを制御する計算機
WO2010122676A1 (ja) 2009-04-23 2010-10-28 株式会社日立製作所 計算機システム、及び、それを用いたバックアップ方法
JP5456767B2 (ja) * 2009-04-23 2014-04-02 株式会社日立製作所 計算機システム及びバックアップ方法
US8447943B2 (en) * 2010-02-24 2013-05-21 Hitachi, Ltd. Reduction of I/O latency for writable copy-on-write snapshot function
US20110252208A1 (en) * 2010-04-12 2011-10-13 Microsoft Corporation Express-full backup of a cluster shared virtual machine
US8600999B2 (en) * 2010-05-17 2013-12-03 Symantec Corporation System and method for efficient resource management
JP5424992B2 (ja) * 2010-06-17 2014-02-26 株式会社日立製作所 計算機システム、及びシステム制御方法
US10003672B2 (en) 2011-02-09 2018-06-19 Cisco Technology, Inc. Apparatus, systems and methods for deployment of interactive desktop applications on distributed infrastructures
US8862933B2 (en) 2011-02-09 2014-10-14 Cliqr Technologies, Inc. Apparatus, systems and methods for deployment and management of distributed computing systems and applications
US10678602B2 (en) 2011-02-09 2020-06-09 Cisco Technology, Inc. Apparatus, systems and methods for dynamic adaptive metrics based application deployment on distributed infrastructures
US10225335B2 (en) 2011-02-09 2019-03-05 Cisco Technology, Inc. Apparatus, systems and methods for container based service deployment
US8423822B2 (en) * 2011-03-23 2013-04-16 Hitachi, Ltd. Storage system and method of controlling the same
CN103392164B (zh) 2011-05-31 2016-08-10 株式会社日立制作所 存储系统和存储控制方法
US9037901B2 (en) * 2011-08-19 2015-05-19 International Business Machines Corporation Data set autorecovery
US9009525B1 (en) * 2012-06-07 2015-04-14 Western Digital Technologies, Inc. Methods and systems for NAS device pairing and mirroring
WO2013190590A1 (en) * 2012-06-18 2013-12-27 Hitachi, Ltd. Computer system and data migration method
US9152552B2 (en) * 2012-09-11 2015-10-06 International Business Machines Corporation Securing sensitive information in a network cloud
US9606910B2 (en) * 2013-01-17 2017-03-28 Hitachi, Ltd. Method and apparatus for data reduction
IN2013CH01006A (ja) * 2013-03-08 2015-08-14 Lsi Corp
CN105144119A (zh) * 2013-05-08 2015-12-09 株式会社日立制作所 存储系统及数据管理方法
WO2014199447A1 (ja) * 2013-06-11 2014-12-18 株式会社日立製作所 計算機およびフェールオーバ方法
US8996908B1 (en) 2013-09-30 2015-03-31 Hitachi, Ltd. Information system, host system and access control method
US9485099B2 (en) 2013-10-25 2016-11-01 Cliqr Technologies, Inc. Apparatus, systems and methods for agile enablement of secure communications for cloud based applications
US9430213B2 (en) 2014-03-11 2016-08-30 Cliqr Technologies, Inc. Apparatus, systems and methods for cross-cloud software migration and deployment
US10114691B2 (en) * 2014-04-21 2018-10-30 Hitachi, Ltd. Information storage system
WO2015175720A1 (en) * 2014-05-13 2015-11-19 Netapp, Inc. Storage operations utilizing a multiple-data-storage-devices cartridge
JP6279731B2 (ja) 2014-06-11 2018-02-14 株式会社日立製作所 ストレージシステム、ストレージ装置及びデータ移行方法
JP6511737B2 (ja) * 2014-06-20 2019-05-15 富士通株式会社 冗長システム、冗長化方法および冗長化プログラム
JP6511738B2 (ja) * 2014-06-20 2019-05-15 富士通株式会社 冗長システム、冗長化方法および冗長化プログラム
JP6318902B2 (ja) 2014-06-20 2018-05-09 富士通株式会社 冗長システムおよび冗長化方法
JP6511739B2 (ja) 2014-06-20 2019-05-15 富士通株式会社 冗長システムおよび冗長化方法
US10185636B2 (en) * 2014-08-15 2019-01-22 Hitachi, Ltd. Method and apparatus to virtualize remote copy pair in three data center configuration
US10089307B2 (en) 2014-12-31 2018-10-02 International Business Machines Corporation Scalable distributed data store
US10574745B2 (en) 2015-03-31 2020-02-25 Western Digital Technologies, Inc. Syncing with a local paired device to obtain data from a remote server using point-to-point communication
WO2017046864A1 (ja) 2015-09-15 2017-03-23 株式会社日立製作所 ストレージシステム、計算機システム、およびストレージシステムの制御方法
US10223222B2 (en) * 2015-12-21 2019-03-05 International Business Machines Corporation Storage system-based replication for disaster recovery in virtualized environments
US10169155B2 (en) * 2016-03-30 2019-01-01 EMC IP Holding Company LLC System and method for synchronization in a cluster environment
US9891849B2 (en) * 2016-04-14 2018-02-13 International Business Machines Corporation Accelerated recovery in data replication environments
WO2017208319A1 (ja) * 2016-05-31 2017-12-07 株式会社日立製作所 ストレージシステム及びストレージシステムの管理方法
US10437730B2 (en) 2016-08-22 2019-10-08 International Business Machines Corporation Read cache synchronization in data replication environments
US10210061B2 (en) 2016-12-14 2019-02-19 Vmware, Inc. Fault tolerant application storage volumes for ensuring application availability and preventing data loss using forking techniques
US10339012B2 (en) * 2016-12-14 2019-07-02 Vmware, Inc. Fault tolerant application storage volumes for ensuring application availability and preventing data loss using suspend-resume techniques
KR102277728B1 (ko) * 2017-07-31 2021-07-14 삼성전자주식회사 데이터 저장 시스템, 데이터 저장 시스템의 데이터 저장 방법, 및 솔리드 스테이트 드라이브의 제조 방법
JP6734251B2 (ja) 2017-11-30 2020-08-05 株式会社日立製作所 システム及びその制御方法並びにプログラム
JP7050707B2 (ja) * 2019-03-15 2022-04-08 Necプラットフォームズ株式会社 ストレージ制御装置、ストレージシステム、ストレージ制御方法、及び、ストレージ制御プログラム

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0128271B1 (ko) 1994-02-22 1998-04-15 윌리암 티. 엘리스 재해회복을 위한 일관성 그룹 형성방법 및 레코드갱싱의 섀도잉 방법, 주시스템, 원격데이타 섀도잉 시스템과 비동기 원격데이타 복제 시스템
JP3228182B2 (ja) 1997-05-29 2001-11-12 株式会社日立製作所 記憶システム及び記憶システムへのアクセス方法
US6308284B1 (en) * 1998-08-28 2001-10-23 Emc Corporation Method and apparatus for maintaining data coherency
JP4689137B2 (ja) 2001-08-08 2011-05-25 株式会社日立製作所 リモートコピー制御方法、及びストレージシステム
JP4115060B2 (ja) 2000-02-02 2008-07-09 株式会社日立製作所 情報処理システムのデータ復旧方法及びディスクサブシステム
US6776838B2 (en) * 2001-03-02 2004-08-17 Albacem, Llc White pozzolan composition and blended cements containing same
JP4175788B2 (ja) 2001-07-05 2008-11-05 株式会社日立製作所 ボリューム制御装置
US7139885B2 (en) * 2001-12-27 2006-11-21 Hitachi, Ltd. Method and apparatus for managing storage based replication
US7152078B2 (en) * 2001-12-27 2006-12-19 Hitachi, Ltd. Systems, methods and computer program products for backup and restoring storage volumes in a storage area network
US7080197B2 (en) 2002-04-18 2006-07-18 Lsi Logic Corporation System and method of cache management for storage controllers
JP4704659B2 (ja) * 2002-04-26 2011-06-15 株式会社日立製作所 記憶装置システムの制御方法および記憶制御装置
US6973586B2 (en) 2002-04-29 2005-12-06 International Business Machines Corporation System and method for automatic dynamic address switching
US7085956B2 (en) 2002-04-29 2006-08-01 International Business Machines Corporation System and method for concurrent logical device swapping
US20050107645A1 (en) * 2002-06-27 2005-05-19 Asahi Glass Company Limited Fluorine-containing alcohol and method for its production
GB0216897D0 (en) * 2002-07-20 2002-08-28 Koninkl Philips Electronics Nv Switched-current analogue-to-digital converter
EP1585792B1 (en) * 2003-01-23 2007-04-11 Ciba SC Holding AG Platelet-shaped pigments
US7266654B2 (en) 2003-03-18 2007-09-04 Hitachi, Ltd. Storage system, server apparatus, and method for creating a plurality of snapshots
JP4394467B2 (ja) 2004-01-29 2010-01-06 株式会社日立製作所 ストレージシステム、サーバ装置及び先行コピーデータ生成方法
JP4292882B2 (ja) 2003-03-18 2009-07-08 株式会社日立製作所 複数のスナップショット維持方法及びサーバ装置及びストレージ装置
US7318133B2 (en) * 2003-06-03 2008-01-08 Hitachi, Ltd. Method and apparatus for replicating volumes
US7120825B2 (en) * 2003-06-06 2006-10-10 Hewlett-Packard Development Company, L.P. Adaptive batch sizing for asynchronous data redundancy
US7302536B2 (en) * 2003-06-17 2007-11-27 Hitachi, Ltd. Method and apparatus for managing replication volumes
US7467168B2 (en) * 2003-06-18 2008-12-16 International Business Machines Corporation Method for mirroring data at storage locations
US7043665B2 (en) * 2003-06-18 2006-05-09 International Business Machines Corporation Method, system, and program for handling a failover to a remote storage location
JP4374953B2 (ja) 2003-09-09 2009-12-02 株式会社日立製作所 データ処理システム
JP2005018510A (ja) * 2003-06-27 2005-01-20 Hitachi Ltd データセンタシステム及びその制御方法
US7286614B2 (en) * 2003-07-29 2007-10-23 Pctel, Inc. Pilotless, wireless, telecommunications apparatus, systems and methods
JP4598387B2 (ja) 2003-09-17 2010-12-15 株式会社日立製作所 記憶システム
JP4307202B2 (ja) * 2003-09-29 2009-08-05 株式会社日立製作所 記憶システム及び記憶制御装置
JP4282464B2 (ja) 2003-12-17 2009-06-24 株式会社日立製作所 リモートコピーシステム
US7383463B2 (en) * 2004-02-04 2008-06-03 Emc Corporation Internet protocol based disaster recovery of a server
US7133988B2 (en) * 2004-02-25 2006-11-07 Hitachi, Ltd. Method and apparatus for managing direct I/O to storage systems in virtualization
JP4422519B2 (ja) * 2004-03-18 2010-02-24 株式会社日立製作所 情報処理システム
JP2005293469A (ja) * 2004-04-05 2005-10-20 Nippon Telegr & Teleph Corp <Ntt> データコピーシステムおよびデータコピー方法
JP4476683B2 (ja) 2004-04-28 2010-06-09 株式会社日立製作所 データ処理システム
JP2006528203A (ja) * 2004-05-20 2006-12-14 テバ ファーマシューティカル ファイン ケミカルズ ソチエタ レスポンサビリタ リミテ レバルブテロールヒドロクロリド多形a
US7131027B2 (en) * 2004-07-09 2006-10-31 Hitachi, Ltd. Method and apparatus for disk array based I/O routing and multi-layered external storage linkage
US7774936B2 (en) * 2004-08-02 2010-08-17 Emcon Technologies Llc Catalytic converter and associated method of assembly
US7058731B2 (en) 2004-08-03 2006-06-06 Hitachi, Ltd. Failover and data migration using data replication
US7395265B2 (en) * 2004-08-27 2008-07-01 Hitachi, Ltd. Data processing system and storage subsystem provided in data processing system
JP2006127217A (ja) * 2004-10-29 2006-05-18 Hitachi Ltd 計算機システムおよび計算機システムの制御方法
JP4955996B2 (ja) 2005-09-20 2012-06-20 株式会社日立製作所 ボリューム移行方法およびストレージネットワークシステム
US7702851B2 (en) 2005-09-20 2010-04-20 Hitachi, Ltd. Logical volume transfer method and storage network system
JP4902403B2 (ja) 2006-10-30 2012-03-21 株式会社日立製作所 情報システム及びデータ転送方法

Also Published As

Publication number Publication date
US20110302447A1 (en) 2011-12-08
US20080104346A1 (en) 2008-05-01
US8386839B2 (en) 2013-02-26
US7802131B2 (en) 2010-09-21
US20100313068A1 (en) 2010-12-09
US8090979B2 (en) 2012-01-03
JP2008134988A (ja) 2008-06-12

Similar Documents

Publication Publication Date Title
JP4902403B2 (ja) 情報システム及びデータ転送方法
JP5057366B2 (ja) 情報システム及び情報システムのデータ転送方法
JP5244332B2 (ja) 情報システム、データ転送方法及びデータ保護方法
US7966463B2 (en) Asynchronous remote copy system and control method for the same
US7464236B2 (en) Storage system and storage management method
JP5222617B2 (ja) 情報システム及びi/o処理方法
US7130974B2 (en) Multi-site remote-copy system
US9632701B2 (en) Storage system
US7404051B2 (en) Method for replicating snapshot volumes between storage systems
US7509535B1 (en) System and method for managing failover in a data storage environment
US7370235B1 (en) System and method for managing and scheduling recovery after a failure in a data storage environment
US7401251B1 (en) Architecture for managing failover and recovery after failover in a data storage environment
US20220342762A1 (en) Remote replication of snapshots taken while replication was inactive

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111228

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees