JP4852118B2 - Storage device and logical disk management method - Google Patents
Storage device and logical disk management method Download PDFInfo
- Publication number
- JP4852118B2 JP4852118B2 JP2009072593A JP2009072593A JP4852118B2 JP 4852118 B2 JP4852118 B2 JP 4852118B2 JP 2009072593 A JP2009072593 A JP 2009072593A JP 2009072593 A JP2009072593 A JP 2009072593A JP 4852118 B2 JP4852118 B2 JP 4852118B2
- Authority
- JP
- Japan
- Prior art keywords
- disk
- failure
- physical disk
- failed
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明は、タイムアウト等の一時的障害が生じた場合でも継続使用が可能なストレージ装置及び論理ディスク管理方法に関する。 The present invention relates to a storage apparatus and a logical disk management method that can be used continuously even when a temporary failure such as a timeout occurs.
従来から、ストレージ装置においては、論理ディスクを構成する物理ディスクに障害が発生した場合、その障害が発生した物理ディスクが切り離されて縮退運転が行われている。例えば、RAID構成したストレージ装置では、物理ディスクへのアクセスでタイムアウト等の一時的障害が発生すると故障とみなされる。そして、その一時的障害が発生した物理ディスクが切り離されて縮退運転が行われる。 Conventionally, in a storage apparatus, when a failure occurs in a physical disk that constitutes a logical disk, the physical disk in which the failure has occurred is disconnected and a degeneration operation is performed. For example, in a RAID-configured storage apparatus, if a temporary failure such as a timeout occurs when accessing a physical disk, it is regarded as a failure. Then, the physical disk in which the temporary failure has occurred is disconnected and the degenerate operation is performed.
しかしながら、一時的障害の検出により切り離された物理ディスクであっても、その後の検査により、故障が生じていない場合がある。例えば物理ディスクの電源を再投入することにより正常な状態に復帰させることができる場合がある。このような場合、実際には物理ディスクは故障していないにもかかわらず、故障として扱われることとなり、故障発生頻度が増大する問題が生じる。 However, even a physical disk that has been separated by detecting a temporary failure may not have failed due to subsequent inspection. For example, it may be possible to restore the normal state by turning on the power of the physical disk again. In such a case, although the physical disk is not actually failed, it is treated as a failure, and a problem of increasing the frequency of failure occurs.
そこで、一時的障害が発生した物理ディスクを一旦論理ディスクから切り離したのち、その物理ディスクの診断処理を実施し、故障が生じていなければ論理ディスクのメンバーディスクに再度組み込む方法がある(例えば、非特許文献1参照)。
しかしながら、上述した従来の方法でも、物理ディスクが切り離された時点から論理ディスクが再構成されるまでの間は、論理ディスクの冗長性が失われるという問題がある。 However, the above-described conventional method also has a problem that the redundancy of the logical disk is lost from the time when the physical disk is disconnected until the logical disk is reconfigured.
また、例えばRAID−5構成のストレージ装置においては、複数の物理ディスクの障害にまでは対応しておらず、ひとつの物理ディスクに障害が生じている間は、他の物理ディスクに障害が生じても対応することができない。 Further, for example, in a RAID-5 configuration storage device, failure of a plurality of physical disks is not supported, and while one physical disk has a failure, a failure has occurred in another physical disk. Can not respond.
それゆえ、故障と判断された物理ディスクが切り離された時点から論理ディスクが再構成されるまでの間に別の物理ディスクに障害が発生すると、論理ディスクの運用が停止してしまい、データが失われることになる。 Therefore, if a failure occurs on another physical disk between the time when the physical disk determined to be failed and the time when the logical disk is reconfigured, the logical disk operation stops and data is lost. It will be.
本発明は上記実情に鑑みてなされたものであり、タイムアウト等の一時的障害が生じた場合でも継続使用が可能なストレージ装置及び論理ディスク管理方法を提供することを目的とする。 The present invention has been made in view of the above circumstances, and an object of the present invention is to provide a storage apparatus and a logical disk management method that can be used continuously even when a temporary failure such as a timeout occurs.
本発明は上記課題を解決するために、論理ディスクを構成する一以上の物理ディスクとホットスペアディスクとディスクコントローラとを備え、ネットワークを介して接続されたホスト装置からの要求に応じてデータを記憶するストレージ装置であって、前記ディスクコントローラは、前記物理ディスクに生じる一時的な障害を検出する一時的障害検出手段と、前記障害を検出した場合、該一時的な障害が生じた障害発生物理ディスクに対し障害回復処理を行なう障害回復手段と、前記障害発生物理ディスクのデータを前記ホットスペアディスクに複製するデータ複製手段と、障害回復処理の開始後一定期間、前記障害発生物理ディスクを監視し、前記ホスト装置からのコマンドに対する前記障害発生物理ディスクの応答データを記録する手段と、前記記録した応答データと基準応答データとを比較し、前記障害発生物理ディスクが故障か否かを判定する故障判定手段と、前記故障判定手段により故障と判定された場合、前記障害発生物理ディスクに替えて前記ホットスペアディスクを前記論理ディスクを構成する物理ディスクとする論理ディスク再構成部とを備えたストレージ装置を提供する。 In order to solve the above problems, the present invention includes at least one physical disk, a hot spare disk, and a disk controller that constitute a logical disk, and stores data in response to a request from a host device connected via a network. In the storage apparatus, the disk controller detects a temporary failure that occurs in the physical disk, and, when detecting the failure, the disk controller detects a failure in the failed physical disk. Failure recovery means for performing failure recovery processing, data replication means for copying data of the failed physical disk to the hot spare disk, monitoring the failed physical disk for a certain period after the start of failure recovery processing, and the host A method of recording response data of the failed physical disk in response to a command from the device And the recorded response data and reference response data to determine whether or not the failure physical disk is in failure, and if the failure determination means determines that there is a failure, the failure occurrence physical Provided is a storage device comprising a logical disk reconfiguration unit that uses the hot spare disk as a physical disk constituting the logical disk instead of a disk.
本発明によれば、タイムアウト等の一時的障害が生じた場合でも継続使用が可能なストレージ装置及び論理ディスク管理方法を提供することが可能となる。 According to the present invention, it is possible to provide a storage apparatus and a logical disk management method that can be used continuously even when a temporary failure such as a timeout occurs.
以下、図面を参照して本発明の実施形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<第1の実施形態>
図1は本発明の第1の実施形態に係るストレージ装置10の構成を示す模式図である。ストレージ装置10は、論理ディスク20を構成する一以上の物理ディスク21とホットスペアディスク22とディスクコントローラ30とを備えている。また、このストレージ装置10は、SCSI(small computer system interface)やFC(Fibre Channel)などによりネットワークを介してホスト装置5と接続しており、ホスト装置5からの要求に応じてデータを記憶する2次記憶装置である。物理ディスク21は、一般的にはHDD(hard disk drive)が用いられるが、これに限らず、半導体ディスクを含めたストレージデバイスであってもよい。ホットスペアディスク22は、障害が発生した物理ディスクを代替するものである。
<First Embodiment>
FIG. 1 is a schematic diagram showing a configuration of a
ディスクコントローラ30は、メモリ40とプロセッサ50とを有しており、メモリ40に格納された「論理ディスク管理プログラム」がプロセッサ50に読み込まれることにより、論理ディスク設定部51、一時的障害検出部52、障害回復部53、データ複製部54、ディスク監視部55、故障判定部56、論理ディスク再構成部57、警告データ出力部58としての機能するものである。なお、図1では各処理部51〜58をプロセッサ内部に記載しているが、これは便宜上の表現である。すなわち、各処理部51〜58は論理ディスク管理プログラムの機能の一部としてプログラムされ、そのプログラムをプロセッサ50が実行することで実現される。
The
メモリ40は、ディスクコントローラ30が情報処理するデータを記憶する記憶装置である。このメモリ40には、予め設定された「基準応答データ」が記憶されている。また、メモリ40には、後述するディスク監視部55により「応答データ」が書き込まれる。
The
なお、正常な平均レスポンスタイムはHDD機種により異なり、また、同じHDDであってもIO負荷(キューイングの深さ)により変動するので、これに対応した値が基準応答データとして用いられる。例えば、ストレージ装置10がサポートしているHDD機種毎のテーブルデータや、あらゆる機種と環境とを想定して確実に異常と判定できる値などが基準応答データとして用いられる。 論理ディスク設定部51は、一以上の物理ディスク21をまとめて論理ディスク20として設定するものである。これによりRAID(redundant array of inexpensive disks)機能が実現される。なお、論理ディスク20はRAIDの種類に応じて冗長性をもつ場合と持たない場合とがある。
The normal average response time differs depending on the HDD model, and even the same HDD varies depending on the IO load (queuing depth), and a value corresponding to this varies as the reference response data. For example, table data for each HDD model supported by the
一時的障害検出部52は、物理ディスク21に生じる一時的な障害を検出するものである。例えば、一時的障害検出部52は、ホスト装置5からライト要求を受けたときのタイムアウト等から一時的障害を検出する。
The temporary
障害回復部53は、一時的障害検出部52が一時的障害を検出した場合、その一時的な障害が生じた物理ディスク(以下、障害発生物理ディスク21Xという)に対し障害回復処理を行なうものである。例えば、障害回復部53は、デバイスリセットや物理ディスクの電源のオフオン等により障害回復処理を行う。なお、障害回復部53が障害回復処理中は、障害発生物理ディスク21Xへのホスト装置5からのアクセスは停止され、障害回復処理が完了した時点でI/O処理が再開される。
When the temporary
データ複製部54は、障害発生物理ディスク21Xのデータをホットスペアディスク22に複製してミラー化するものである。ここで、データ複製部54は、ホットスペアディスク22のデータが障害発生物理ディスク21Xのミラーであるため、障害発生物理ディスク21Xからデータを全面コピーすることができる。また、データ複製部54は、論理ディスク20が冗長性をもつRAID構成である場合、図2に示すように、論理ディスク20のメンバーディスクのうち、障害発生物理ディスク21X以外のメンバーディスクからホットスペアディスク22のデータを復元することも可能である。
The
ディスク監視部55は、障害回復処理の開始後一定期間、障害発生物理ディスク21Xを監視するものであり、ホスト装置5からのコマンドに対する障害発生物理ディスク21Xの応答データをメモリ40に記録する機能を有している。具体的には、ディスク監視部55は、物理ディスク21に最初の一時的障害が発生したときから、ホットスペアディスク22へのデータの復元中、さらにデータの復元完了後の一定期間(例えば24時間など)、障害発生物理ディスク21XのI/Oパターンなどを記録する。
The
故障判定部56は、障害回復処理後に記録した応答データを、メモリ40に記憶された基準応答データと比較して、障害発生物理ディスク21Xが故障であるか否かを判定するものである。例えば、故障判定部56は、I/Oの応答遅延や、その他の物理ディスク21の異常動作から、障害発生物理ディスク21Xが故障であるか否かを判定する。
The failure determination unit 56 compares the response data recorded after the failure recovery process with the reference response data stored in the
なお、ホットスペアディスク22へのデータの複製が完了した時点では、障害発生物理ディスク21Xとホットスペアディスク22とはデータがミラー化された状態で動作している。
Note that when the data replication to the
論理ディスク再構成部57は、図3に示すように、故障判定部56により障害発生物理ディスク21Xが故障であると判定された場合、その障害発生物理ディスク21Xに替えてホットスペアディスク22を論理ディスク20のメンバーディスクとして組み込むものである。
As shown in FIG. 3, when the failure determination unit 56 determines that the failed
また、論理ディスク再構成部57は、ホットスペアディスク22を論理ディスク20のメンバーディスクとして組み込んだ場合、ディスク監視部55による障害発生物理ディスク21Xに対する監視を解除し、応答データの記録を終了させる。この時点で障害発生物理ディスク21Xの故障が確定することになる。
In addition, when the hot
なお、論理ディスク再構成部57は、ホットスペアディスク22へのデータの復元中、またはデータ復元後の一定期間中に、監視対象の障害発生物理ディスク21Xで一時的障害が再度検出された場合、その時点で障害発生物理ディスク21Xを論理ディスク20から切り離し、ホットスペアディスク22を論理ディスク20のメンバーディスクとして割り当てる。
If a temporary failure is detected again on the failed
障害発生物理ディスク21Xに対して異常動作が観測されなければ、図4に示すように、論理ディスク再構成部57は障害発生物理ディスク21Xで発生した障害は一時的なものであったとみなし、ディスク監視部55による監視を解除し、応答データの記録を終了させる。それから、論理ディスク再構成部57は、障害発生物理ディスク21Xとホットスペアディスク22とのミラー構成を解除する。これにより論理ディスク20は元の状態に戻る。
If no abnormal operation is observed for the failed
警告データ出力部58は、故障判定部56により障害発生物理ディスク21Xが故障であると判定された場合、警告データを出力するものである。
The warning
次に本実施形態に係るストレージ装置10の動作を図5のフローチャートを用いて説明する。ディスクコントローラ30では一時的障害検出部52が常時稼動しており、物理ディスク21に一時的障害が発生すると、そのことが一時的障害検出部52により検出される(S1−Yes)。続いて、障害回復部53により障害発生物理ディスク21Xに対する障害回復処理が実行される(S2)。障害回復処理では、デバイスリセットや電源のオンオフを実行する。
Next, the operation of the
障害回復部53により障害発生物理ディスク21Xの障害回復処理が開始されると、データ複製部54により障害発生物理ディスク21Xに対してホットスペアディスク22が割り当てられる(S3)。これにより、ホットスペアディスク22が障害発生物理ディスク21Xのミラーディスクとして構成される。そして、データ複製部54により、障害発生物理ディスク21Xのデータがホットスペアディスク22に複製される。
When the failure recovery processing of the failed
また、障害回復部53により障害発生物理ディスク21Xの障害回復処理が開始されると、ディスク監視部55によりホスト装置5からのコマンドに対する障害発生物理ディスク21Xの応答データがメモリ40に記録される(S4)。
When the failure recovery processing of the failed
続いて、故障判定部56により、障害回復処理後に記録された応答データと、予めメモリ40に記憶された基準応答データとが比較されて、障害発生物理ディスク21Xが故障であるか否かが判定される(S5)。
Subsequently, the failure determination unit 56 compares the response data recorded after the failure recovery process with the reference response data stored in advance in the
故障判定部56により故障であると判定された場合(S5−Yes)、論理ディスク再構成部57により障害発生物理ディスク21Xに替えて、ホットスペアディスク22が論理ディスク20のメンバーディスクとして再構成される(S6)。論理ディスク20が再構成されると、障害発生物理ディスク21Xが切り離される(S7)。
If the failure determination unit 56 determines that there is a failure (S5-Yes), the logical disk reconfiguration unit 57 reconfigures the hot
一方、故障判定部56により故障であると判定されなかった場合、障害発生物理ディスク21Xが継続使用される(S5−No,S8)。なお、障害発生物理ディスク21Xとホットスペアディスク22とはミラー化されているので、障害発生物理ディスク21Xの継続使用ではなくホットスペアディスク22を論理ディスクに組み込み、障害ディスクとして判断されていたディスクをホットスペアディスクとして使用してもよい。
On the other hand, if the failure determination unit 56 does not determine that there is a failure, the failed
以上説明したように、本実施形態に係るストレージ装置10は、ディスクコントローラ30が、物理ディスク21に生じる一時的な障害を検出する一時的障害検出部52と、一時的な障害が生じた障害発生物理ディスク21Xに対し障害回復処理を行なう障害回復部53と、障害発生物理ディスク21Xのデータをホットスペアディスク22に複製するデータ複製部54とを備え、障害発生物理ディスク21Xとホットスペアディスク22をミラー化することで、タイムアウト等の一時的障害が生じた場合でも継続使用することができる。
As described above, in the
また、ディスクコントローラ30は、障害回復処理の開始後(障害発生物理ディスク21Xとホットスペアディスク22のミラー化後)一定期間、障害発生物理ディスク21Xを監視し、ホスト装置5からのコマンドに対する障害発生物理ディスク21Xの応答データを記録するので、障害発生物理ディスク21Xが故障しているか否か、どのような故障が発生しているのかを判断するための情報を提供できる。例えば、システム管理者が、この応答データのログから障害発生物理ディスク21Xの故障原因を分析することができ、最終的に故障であるとして切り離された障害発生物理ディスク21Xの一時的障害発生までのI/Oシーケンスを再現することで、故障原因を容易に検証できるようになる。
Further, the
また、障害発生物理ディスク21Xが故障であるか否かを判定する故障判定部56を具備しているので、ディスクコントローラ30は、障害回復処理後に記録した応答データを基準応答データと比較して、障害発生物理ディスク21Xを論理ディスク20から切り離すことなく、故障の有無を確認できる。結果として、故障判定作業に伴って生じる論理ディスク20の冗長性喪失の問題を回避できる。
In addition, since the failure determination unit 56 that determines whether or not the failure
また、故障判定部56により障害発生物理ディスク21Xが故障であると判定された場合、その障害発生物理ディスク21Xに替えてホットスペアディスク22を論理ディスク20のメンバーディスクに組み込むので、故障があると判定された場合でもストレージ装置10を継続使用することができる。
If the failure determining unit 56 determines that the failed
従来のストレージ装置では、図6(A)に示すように、正常状態の物理ディスク21に障害が発生すると(A1)、障害発生物理ディスク21Xを切り離し(A2)、ホットスペアディスク22をメンバーディスクとして論理ディスク20をリビルドする(A3)。この際、ホットスペアディスク22のリビルドが完了するまで(A4)、論理ディスク20の冗長性が維持できないという問題が生じていた。
In the conventional storage apparatus, as shown in FIG. 6A, when a failure occurs in the normal physical disk 21 (A1), the failed
これに対し、本実施形態に係るストレージ装置10は、図6(B)に示すように、正常状態の物理ディスク21に障害が発生すると(B1)、障害発生物理ディスク21Xのデータをホットスペアディスク22にコピーし(B2)、障害発生ディスク21Xとホットスペアディスク22とを一定期間ミラー動作する。そして、ミラー動作中のホスト装置5からのコマンドに対するI/Oパターン等を記録し(B3)、障害発生物理ディスク21Xが故障であるか否かを判定する(B4・B5)。それゆえ、一時的な障害が発生しただけでは障害発生物理ディスク21Xを切り離さずにホットスペアディスク22とミラー化して継続使用するので、冗長性を失わずに論理ディスク20を使用することができる。
On the other hand, as shown in FIG. 6B, when a failure occurs in the normal physical disk 21 (B1), the
また、ディスクコントローラ30は、故障判定部56により障害発生物理ディスク21Xが故障であると判定された場合、警告データを出力することで、障害発生物理ディスク21Xを継続使用するか、ホットスペアディスク22に切り替えるかの判断をシステム管理者に促すことが可能となる。
Further, when the failure determination unit 56 determines that the failed
ディスク監視部55による監視と故障判定部56による故障判定についての変形例を示す。
(監視方法1:I/Oパターンの監視)
監視方法1では、障害発生物理ディスク21Xに対して発行された監視期間中のすべての(あるいは少なくとも直近数十秒間の)コマンドのI/Oパターンをメモリに記録する。ここで、コマンドのI/Oパターンとは、コマンド種別(CDBイメージ)・発行時刻・完了時刻・完了ステータス(センス情報)を含むものである。センス情報には、コマンドの実行に一度に失敗したがHDD内部のリトライで成功した等のエラーリカバリ情報が記録される。
A modification of monitoring by the
(Monitoring method 1: I / O pattern monitoring)
In the
また、監視方法1では、故障判定部56は、リトライで成功したコマンドの、すべての発行コマンドに占める割合が既定の閾値を超えた場合に故障が生じたと判定する。(改行なし)なお、上記判定基準での判定を行わない場合でも、別の監視方法により故障と判定された場合、I/Oパターンの情報が必要となる。例えば、障害発生物理ディスク21Xを回収して再現試験を行なう場合、一時的障害に至るまでのコマンドシーケンスを再現するためにコマンドのI/Oパターンが必要となる。そのため、以下に示す監視方法を実施する場合でも、このI/Oパターンの記録を併用することが望ましい。
Also, in the
(監視方法2:レスポンスタイムの監視)
監視方法2では、ホットスペアディスク22へのコピー命令またはホスト装置5からのコマンドに対する応答時間の詳細な統計をメモリに記録する。上記のI/Oパターンの記録を監視期間全体にわたって保存するだけの容量的余裕がある場合は、この情報を統計的に処理するだけで済む。
(Monitoring method 2: Response time monitoring)
In the
また、監視方法2では、故障判定部56は、ディスク監視部55により得られた応答時間と、あらかじめメモリ40に記憶された基準応答時間とを比較して、所定の閾値を超える比率に応じて故障が生じたか否かを判定する。例えば応答時間が1秒を超えるコマンドが10%を超えるようならば、故障が生じたと判定する。
In the
(監視方法3:スループットの監視)
監視方法3では、ホットスペアディスク22へデータをコピーするときの障害発生物理ディスク21Xへの全面リード要求に対するリードスループットを測定する。ただし、障害発生物理ディスク21Xは、ホスト装置5からのコマンドも並行して受けているので、これによるデータの変化分の補正処理は別途実行される。
(Monitoring method 3: Throughput monitoring)
In the monitoring method 3, the read throughput is measured for a full-face read request to the failed
故障判定部56は、障害発生物理ディスク21Xが本来もつべきスループット性能をテーブルデータとして保持しておき、そのテーブルデータと実測値との性能差から故障であるか否かを判定する。例えば、この性能差がある程度の閾値(たとえば50%)を下回ったら故障であると判定する。
The failure determination unit 56 holds the throughput performance that the failure-occurring
(監視方法4:SMART機能によるエラー情報の監視)
監視方法4では、HDDのSMART機能によるエラー情報を取得する。一般的なHDDではSMART機能が搭載されており、SMART機能ではそのHDD自体の内部エラーの監視を実施している。そして、このエラー情報は外部から参照できるので、ディスク監視部55がこれを取得する。なお、SMART機能により取得できるエラー情報としては、リードエラーレート・ライトエラーレート・シークエラーレート・残り交代セクタ数・スピンアップ時間・Gリスト更新頻度・装置温度等が挙げられる。ただし、スピンアップ時間は電源投入時の記録なのでディスク監視部55の監視対象外とすべきものである。
(Monitoring method 4: Error information monitoring by SMART function)
In the monitoring method 4, error information obtained by the SMART function of the HDD is acquired. A general HDD is equipped with a SMART function, and the SMART function monitors an internal error of the HDD itself. Since this error information can be referred to from the outside, the
また、故障判定部56は、スピンアップ時間以外の各パラメータを定期的(例えば1分おき)に参照し、参照した各パラメータの値またはその増分が閾値を超えた場合に故障であると判定する。 Further, the failure determination unit 56 periodically refers to each parameter other than the spin-up time (for example, every 1 minute), and determines that a failure occurs when the value of each referenced parameter or its increment exceeds a threshold value. .
(監視方法5:最初の一時的障害と同様のエラー情報の監視)
監視方法5では、一時的障害検出部52が一時的障害を検出するための判定基準と同様の判定基準(たとえばタイムアウトまたはエラー応答のためリトライしたが、リトライアウトした等)により、最初の一時的障害と同様のエラー情報が再度得られるか否かを監視する。故障判定部56は、ディスク監視部55により最初の一時的障害と同様のエラー情報が再度得られた場合に故障であると判定する。
(Monitoring method 5: Monitoring error information similar to the first temporary failure)
In the
この監視方法5であれば、一般的には発生しないような一時的障害が物理ディスク21に発生した場合、2回目の一時的障害が検出されることは非常に稀なので、故障とみなされる回数を減らすことができる。
なお、監視方法5は、監視方法1と併用し、I/Oパターンの詳細なログを採取することで、障害要因を容易に調査することができる。
With this
Note that the
<その他>
本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。更に、異なる実施形態に構成要素を適宜組み合わせてもよい。
<Others>
The present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of components disclosed in the embodiment. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, you may combine a component suitably in different embodiment.
なお、上記実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリ、半導体ディスクなどの記憶媒体に格納して頒布することもできる。 Note that the method described in the above embodiment includes a magnetic disk (floppy (registered trademark) disk, hard disk, etc.), an optical disk (CD-ROM, DVD, etc.), a magneto-optical disk (MO) as programs that can be executed by a computer. ), Stored in a storage medium such as a semiconductor memory or a semiconductor disk, and distributed.
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。 In addition, as long as the storage medium can store a program and can be read by a computer, the storage format may be any form.
また、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。 In addition, an OS (operating system) running on a computer based on an instruction of a program installed in the computer from a storage medium, MW (middleware) such as database management software, network software, and the like realize the above-described embodiment. A part of each process may be executed.
さらに、本発明における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶または一時記憶した記憶媒体も含まれる。 Further, the storage medium in the present invention is not limited to a medium independent of a computer, but also includes a storage medium in which a program transmitted via a LAN, the Internet, or the like is downloaded and stored or temporarily stored.
また、記憶媒体は1つに限らず、複数の媒体から上記実施形態における処理が実行される場合も本発明における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。 Further, the number of storage media is not limited to one, and the case where the processing in the above embodiment is executed from a plurality of media is also included in the storage media in the present invention, and the media configuration may be any configuration.
尚、本発明におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。 The computer according to the present invention executes each process in the above-described embodiment based on a program stored in a storage medium, and is a single device such as a personal computer or a system in which a plurality of devices are connected to a network. Any configuration may be used.
また、本発明におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本発明の機能を実現することが可能な機器、装置を総称している。 In addition, the computer in the present invention is not limited to a personal computer, but includes an arithmetic processing device, a microcomputer, and the like included in an information processing device, and is a generic term for devices and devices that can realize the functions of the present invention by a program. .
5・・・ホスト装置、10・・・ストレージ装置、20・・・論理ディスク、21・・・物理ディスク、22・・・ホットスペアディスク、30・・・ディスクコントローラ、40・・・メモリ、50・・・プロセッサ、51・・・論理ディスク設定部、52・・・一時的障害検出部、53・・・障害回復部、54・・・データ複製部、55・・・ディスク監視部、56・・・故障判定部、57・・・論理ディスク再構成部、58・・・警告データ出力部。
5 ... Host device, 10 ... Storage device, 20 ... Logical disk, 21 ... Physical disk, 22 ... Hot spare disk, 30 ... Disk controller, 40 ... Memory, 50. ..
Claims (4)
前記ディスクコントローラは、
前記物理ディスクに生じる一時的な障害を検出する一時的障害検出手段と、
前記障害を検出した場合、該一時的な障害が生じた障害発生物理ディスクに対し障害回復処理を行なう障害回復手段と、
前記障害発生物理ディスクのデータを前記ホットスペアディスクに複製するデータ複製手段と、
障害回復処理の開始後一定期間、前記障害発生物理ディスクを監視し、前記ホスト装置からのコマンドに対する前記障害発生物理ディスクの応答データを記録する手段と、
前記記録した応答データと基準応答データとを比較し、前記障害発生物理ディスクが故障か否かを判定する故障判定手段と、
前記故障判定手段により故障と判定された場合、前記障害発生物理ディスクに替えて前記ホットスペアディスクを前記論理ディスクを構成する物理ディスクとする論理ディスク再構成部と
を備えたことを特徴とするストレージ装置。 A storage device that includes one or more physical disks, a hot spare disk, and a disk controller that constitute a logical disk, and stores data in response to a request from a host device connected via a network,
The disk controller is
Temporary failure detection means for detecting a temporary failure occurring in the physical disk;
When the failure is detected, failure recovery means for performing failure recovery processing on the failed physical disk in which the temporary failure has occurred;
Data duplicating means for duplicating the data of the failed physical disk to the hot spare disk ;
Means for monitoring the failed physical disk for a certain period after the start of failure recovery processing, and recording response data of the failed physical disk in response to a command from the host device;
A failure determination means for comparing the recorded response data with reference response data and determining whether the failure physical disk is a failure;
A logical disk reconfiguration unit configured to use the hot spare disk as a physical disk constituting the logical disk instead of the failed physical disk when the failure determination unit determines that a failure has occurred. Storage device.
前記ディスクコントローラが、
前記物理ディスクに生じる一時的な障害を検出した場合、該一時的な障害が生じた障害発生物理ディスクに対し障害回復処理を行なうとともに、前記障害発生物理ディスクのデータを前記ホットスペアディスクに複製し、
前記障害回復処理の開始後一定期間、前記障害発生物理ディスクを監視し、前記ホスト装置からのコマンドに対する前記障害発生物理ディスクの応答データを記録し、
前記障害回復処理後に記録した応答データを、基準応答データと比較して、前記障害発生物理ディスクが故障であるか否かを判定し、
前記判定の結果、故障である場合、前記障害発生物理ディスクに替えて前記ホットスペアディスクを前記論理ディスクを構成する物理ディスクとする
ことを特徴とする論理ディスク管理方法。 A logical disk management method used in a storage device that includes one or more physical disks, a hot spare disk, and a disk controller that constitute a logical disk, and that stores data in response to a request from a host device connected via a network. And
The disk controller is
When a temporary failure occurring in the physical disk is detected, a failure recovery process is performed on the failed physical disk in which the temporary failure has occurred, and data of the failed physical disk is copied to the hot spare disk,
Monitoring the failed physical disk for a certain period after the start of the failure recovery process, and recording response data of the failed physical disk in response to a command from the host device;
The response data recorded after the failure recovery process is compared with reference response data to determine whether or not the failed physical disk is faulty,
If the result of the determination is that there is a failure, the hot spare disk is used as a physical disk constituting the logical disk instead of the failed physical disk .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009072593A JP4852118B2 (en) | 2009-03-24 | 2009-03-24 | Storage device and logical disk management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009072593A JP4852118B2 (en) | 2009-03-24 | 2009-03-24 | Storage device and logical disk management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010224954A JP2010224954A (en) | 2010-10-07 |
JP4852118B2 true JP4852118B2 (en) | 2012-01-11 |
Family
ID=43042062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009072593A Active JP4852118B2 (en) | 2009-03-24 | 2009-03-24 | Storage device and logical disk management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4852118B2 (en) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5488709B2 (en) | 2010-10-14 | 2014-05-14 | 富士通株式会社 | Reference time setting method in storage control device |
JP5652130B2 (en) * | 2010-10-29 | 2015-01-14 | 日本電気株式会社 | Disk array controller device and control method thereof |
CN103019614B (en) * | 2011-09-23 | 2015-11-25 | 阿里巴巴集团控股有限公司 | Distributed memory system management devices and method |
JP5884606B2 (en) * | 2012-03-30 | 2016-03-15 | 富士通株式会社 | Storage management method, system, and program |
US20150378858A1 (en) * | 2013-02-28 | 2015-12-31 | Hitachi, Ltd. | Storage system and memory device fault recovery method |
JP7129148B2 (en) * | 2017-05-23 | 2022-09-01 | 株式会社アイ・オー・データ機器 | External storage device |
US11314596B2 (en) | 2018-07-20 | 2022-04-26 | Winbond Electronics Corp. | Electronic apparatus and operative method |
CN110880353B (en) * | 2018-09-06 | 2022-06-07 | 华邦电子股份有限公司 | Electronic device and operation method thereof |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06187102A (en) * | 1992-12-17 | 1994-07-08 | Toshiba Corp | Duplex disk processing system |
JP3400328B2 (en) * | 1997-12-26 | 2003-04-28 | 株式会社日立製作所 | Data storage method and data storage device |
JPH11296306A (en) * | 1998-04-08 | 1999-10-29 | Hitachi Ltd | Storage sub-system |
JP2004118397A (en) * | 2002-09-25 | 2004-04-15 | Nec Soft Ltd | Failure occurrence prediction system for magnetic disk device |
JP2004272325A (en) * | 2003-03-05 | 2004-09-30 | Nec Software Chubu Ltd | Method and system for predicting fault of external storage device |
JP2005115975A (en) * | 2003-10-02 | 2005-04-28 | Toshiba Tec Corp | Information processor |
JP4426262B2 (en) * | 2003-11-26 | 2010-03-03 | 株式会社日立製作所 | Disk array device and failure avoiding method for disk array device |
JP2006092070A (en) * | 2004-09-22 | 2006-04-06 | Nec Corp | Disk array device, its control method and control program |
JP4723290B2 (en) * | 2005-06-06 | 2011-07-13 | 株式会社日立製作所 | Disk array device and control method thereof |
WO2008090620A1 (en) * | 2007-01-25 | 2008-07-31 | Fujitsu Limited | Storage device, record recovery method, and record recovery program |
JP2009059280A (en) * | 2007-09-03 | 2009-03-19 | Mitsubishi Electric Corp | Storage control system |
-
2009
- 2009-03-24 JP JP2009072593A patent/JP4852118B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010224954A (en) | 2010-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4852118B2 (en) | Storage device and logical disk management method | |
US7409582B2 (en) | Low cost raid with seamless disk failure recovery | |
JP4821448B2 (en) | RAID controller and RAID device | |
CN103019885B (en) | Method and system for monitoring embedded Linux-based hard disc bad track | |
US9081697B2 (en) | Storage control apparatus and storage control method | |
US20040103246A1 (en) | Increased data availability with SMART drives | |
US7565573B2 (en) | Data-duplication control apparatus | |
US20080114932A1 (en) | Method, apparatus, and system for controlling data storage | |
JP2005322399A (en) | Maintenance method of track data integrity in magnetic disk storage device | |
JP2009187049A (en) | Device | |
US7506224B2 (en) | Failure recovering method and recording apparatus | |
US20090177916A1 (en) | Storage system, controller of storage system, control method of storage system | |
JP2016057876A (en) | Information processing apparatus, input/output control program, and input/output control method | |
JP2006079219A (en) | Disk array controller and disk array control method | |
JP5181795B2 (en) | RAID system and error sector repair method | |
JP4968078B2 (en) | Failure diagnosis apparatus and failure diagnosis method | |
US20120011317A1 (en) | Disk array apparatus and disk array control method | |
US20130031321A1 (en) | Control apparatus, control method, and storage apparatus | |
JP4947062B2 (en) | Storage device, recording recovery method, recording recovery program | |
JP4203034B2 (en) | Array controller, media error repair method and program | |
US20140380090A1 (en) | Storage control device and storage control method | |
KR20110039416A (en) | Data storage method, apparatus and system for interrupted write recovery | |
JP2005293119A (en) | Disk array control device, processing method applied to this device upon detection of data defect, and program | |
JP2008084168A (en) | Information processor and data restoration method | |
JP4176908B2 (en) | Disk array device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110621 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4852118 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141028 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |