JP2005267056A - Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program - Google Patents
Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program Download PDFInfo
- Publication number
- JP2005267056A JP2005267056A JP2004076561A JP2004076561A JP2005267056A JP 2005267056 A JP2005267056 A JP 2005267056A JP 2004076561 A JP2004076561 A JP 2004076561A JP 2004076561 A JP2004076561 A JP 2004076561A JP 2005267056 A JP2005267056 A JP 2005267056A
- Authority
- JP
- Japan
- Prior art keywords
- disk
- error
- mirroring
- software mirroring
- software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、ソフトウェアミラーリングディスク障害監視・復旧システム、ソフトウェアミラーリングディスク障害監視・復旧方法及びソフトウェアミラーリングディスク障害監視・復旧方法を実行させるためのプログラムに関する。 The present invention relates to a software mirroring disk failure monitoring / recovery system, a software mirroring disk failure monitoring / recovery method, and a program for executing a software mirroring disk failure monitoring / recovery method.
コンピュータ装置の高可用性を維持するための重要な項目の1つとして、ハードディスク装置に対する2重化が挙げられる。2重化の方法として、ディスクアレイ装置のような特別なハードウェア実装を必要としない、ソフトウェアミラーリングがよく使用されている。 One of the important items for maintaining the high availability of computer devices is duplication of hard disk devices. As a duplexing method, software mirroring that does not require special hardware implementation like a disk array device is often used.
従来の技術には、ディスクアレイを構成している複数のディスクドライブのいずれかでオフトラックが検出されると、オフトラックをアレイコントローラに通知し、再フォーマット処理によりデータ面のサーボシリンダが再フォーマットされ、これによって、オフトラックがサーボシリンダの測定限界値を超えている状態を解消することができ、オフトラックを起こしたディスクドライブをディスクアレイから交換修理することなく、正常な運用状態に回復させることができるディスクアレイ装置がある(特許文献1参照。)。 In the conventional technology, when off-track is detected in any of a plurality of disk drives constituting a disk array, the off-track is notified to the array controller, and the servo cylinder on the data surface is re-formatted by re-format processing. As a result, the situation where the off-track exceeds the measurement limit value of the servo cylinder can be resolved, and the disk drive that caused the off-track is restored to the normal operation state without exchanging and repairing the disk drive from the disk array. There is a disk array device that can be used (see Patent Document 1).
また、多重化されたハードディスク装置を具備した計算機システムにおいて、多重化ハードディスク装置を構成する一部のハードディスク装置に対して、健全性を診断するプログラムを実行させることにより、当該ハードディスク装置の読み取り不可障害をオンライン稼動中において早期に検出することが可能であるミラーディスクの診断方式がある(特許文献2参照。)。 In addition, in a computer system equipped with multiplexed hard disk devices, a hard disk device cannot be read by executing a program for diagnosing soundness on some of the hard disk devices constituting the multiplexed hard disk device. There is a mirror disk diagnostic method that can be detected early during online operation (see Patent Document 2).
また、サブミラーを構成する複数の物理ディスクのいずれかに障害が発生した場合には、物理ディスクを単位としてサブミラーから切り離し、物理ディスクが復旧した場合には、復旧した物理ディスクのみについて再同期処理を行うため、再同期処理に要する時間を短縮できる記録媒体制御装置がある(特許文献3参照。)。
従来は、ソフトウェアミラーリングを構築しているディスクにおいて、重度のメディアエラーが発生すると、エラーが発生したデータブロックの同期が不正となり、その状態を復旧させるためには、ディスクの交換を実施して再同期させるといった方法がよく採用されていた。このディスク交換に伴う問題点として以下のことが挙げられる。
1.交換ディスクモジュールの費用(購入費)が発生すること。
2.交換の際の人的な介在に伴って費用(人件費)が発生すること。
3.ディスクモジュールの準備時間と交換の時間が発生すること。ディスクモジュールが入手できず、すぐに処置が行われず、不正な状態のまま長時間放置される場合も有ること。
Conventionally, if a severe media error occurs on a disk with software mirroring, synchronization of the data block in which the error occurred becomes invalid. To recover the state, replace the disk and re-execute. The method of synchronizing was often adopted. Problems associated with this disk replacement include the following.
1. Expenses (purchase costs) for replacement disk modules.
2. Expenses (personnel costs) are incurred due to human intervention during the exchange.
3. Disk module preparation time and replacement time occur. In some cases, a disk module cannot be obtained, and no immediate action is taken, leaving it in an illegal state for a long time.
上述の従来技術の問題点に鑑み、本発明の目的は、特別なハードウェアによる実装が不要で、自動でミラーリングを復旧させるソフトウェアミラーリングディスク障害監視・復旧システム、その障害監視・復旧方法及びプログラムを提供することにある。 In view of the above-described problems of the prior art, an object of the present invention is to provide a software mirroring disk failure monitoring / recovery system, a failure monitoring / recovery method, and a program for automatically recovering mirroring that do not require special hardware implementation. It is to provide.
本発明のソフトウェアミラーリングディスク障害監視・復旧システムは、
ディスク装置のソフトウェアミラーリング状態を採取するためのコマンドを発行して、同期不正が発生しているデータ領域部分がないか監視をするミラーリング状態監視部と、同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するディスクエラーチェック部と、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するディスクフォーマット処理部と、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるミラーリング再同期処理部と、各検出内容と処理の実行結果の報告を行う処理結果報告部とを備える。
The software mirroring disk failure monitoring / recovery system of the present invention
Issue a command to collect the software mirroring status of the disk unit and monitor the data area part where the synchronization error has occurred. If the synchronization error has occurred, the hardware The log storing the error is confirmed, and it is confirmed whether or not the disk media error of the first disk device or the second disk device in the software mirroring configuration is recorded, or the internal statistical information of the disk The disk error check section that confirms that the error count has increased, the disk error check part that identifies the failed disk that caused the synchronization error, and the software mirroring function are stopped, and the disk with the disk media error has occurred. Issue a media format command to the By executing the format, the disk media error occurrence data block is masked and replaced, and the disk format processing unit that confirms that all data areas of the disk can be used normally, and the software mirroring resynchronization command are issued. A mirroring resynchronization processing unit that restores the software mirroring, and a processing result reporting unit that reports each detection content and the execution result of the processing.
また、ディスクエラーチェック部は、更に、同期不正の原因となった障害ディスクが特定されたタイミングにて、障害ディスクのエラー情報を通知し、交換用ディスクを手配してもよい。 Further, the disk error check unit may notify the error information of the failed disk at the timing when the failed disk causing the synchronization fraud is specified, and arrange a replacement disk.
本発明のロードバランスシステムは、
ロードバランスサーバの実サーバ群のサーバ配下のディスク装置に上述のソフトウェアミラーリングディスク障害監視・復旧システムを組み込み、実サーバ群のいずれかのサーバ配下のディスク装置でソフトウェアミラーリング復旧処理が行われた場合、ロードバランスサーバは復旧処理によるサーバの負荷上昇を検出して、そのサーバへ割当てる情報を抑制し、その分、他のサーバへの割当てを増加させ、サーバのソフトウェアミラーリング復旧処理が完了した時点で、情報の抑制を解除する。
The load balance system of the present invention is
When the above-mentioned software mirroring disk failure monitoring / recovery system is installed in the disk device under the server of the real server group of the load balance server, and software mirroring recovery processing is performed on the disk device under any of the servers in the real server group, The load balance server detects the server load increase due to the recovery process, suppresses the information allocated to that server, increases the allocation to other servers accordingly, and when the server software mirroring recovery process is completed, Release information suppression.
本発明のソフトウェアミラーリングディスク障害監視・復旧方法は、
ミラーリング状態監視部により、ディスク装置のソフトウェアミラーリング状態を採取するためのコマンドを発行して、同期不正が発生しているデータ領域部分がないか監視をするステップと、ディスクエラーチェック部により、同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するステップと、ディスクフォーマット処理部により、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するステップと、ミラーリング再同期処理部により、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるステップと、処理結果報告部により、各検出内容と処理の実行結果の報告を行うステップとを備える。
The software mirroring disk failure monitoring / recovery method of the present invention comprises:
Issue a command to collect the software mirroring status of the disk unit by the mirroring status monitoring unit, and monitor whether there is a data area part where synchronization fraud has occurred. If the error occurred, check the log that stores the hardware error, and check whether the disk media error of the first disk device or the second disk device in the software mirroring configuration has been recorded. Or, by referring to the internal statistical information of the disk, confirm that the error count has increased, identify the failed disk that caused the synchronization error, and use the disk format processing unit to perform software mirroring. Stop the function and generate a disk media error. Issuing a media format command to the specified disk, performing masking and replacement processing of the disk media error occurrence data block, and confirming that all data areas of the disk can be used normally by performing media formatting. The mirroring resynchronization processing unit issues a software mirroring resynchronization command to restore software mirroring, and the processing result reporting unit reports each detection content and the execution result of the processing.
また、ディスクエラーチェック部により、同期不正の原因となった障害ディスクを特定するステップは、同期不正の原因となった障害ディスクが特定されたタイミングにて、障害ディスクのエラー情報を通知し、交換用ディスクを手配するステップを、更に備えてもよい。 The step of identifying the failed disk that caused the synchronization error by the disk error check unit notifies the error information of the failed disk and replaces it when the failed disk that caused the synchronization error is identified. The method may further comprise the step of arranging a working disk.
本発明のプログラムは、
コンピュータ又はマイクロプロセッサに上述のソフトウェアミラーリングディスク障害監視・復旧方法を実行させる。
The program of the present invention
A computer or microprocessor is caused to execute the above-described software mirroring disk failure monitoring / recovery method.
本発明によるミラーリングシステムの復旧方式は、2台の単体のハードディスク装置を用いたソフトウェアミラーリングシステムにおいて、片側ディスクの媒体ディスクエラーによってミラーリングの同期不正を検出した場合に、エラー発生のディスクを自動でフォーマットを実行し、再同期させることにより、ミラーリングシステムを早期に復旧させることを特徴とする。 The recovery method of the mirroring system according to the present invention is a software mirroring system using two single hard disk devices. When a mirroring synchronization error is detected due to a medium disk error of one disk, an error disk is automatically formatted. The mirroring system is recovered early by executing and resynchronizing.
即ち、ミラーリングの同期状態の監視、及び復旧するシステムを構築し、このシステムは、ソフトウェアミラーリングされているハードディスク装置を監視する。 That is, a system for monitoring and recovering the synchronization state of mirroring is constructed, and this system monitors hard disk devices that are software mirrored.
このシステムでは、ミラーリングの状態/ディスクのエラーを監視する部分と、ディスク装置に対してフォーマット/再同期処理を命令する部分と、処理の結果を報告する部分を有する。いずれの処理も、特別なハードウェアの実装に依存しないソフトウェアモジュールによる実装を図ることにより、従来のシステムからの容易な機能拡張によって実現可能とする。 This system has a part for monitoring the mirroring state / disk error, a part for instructing the disk device to format / resynchronization processing, and a part for reporting the processing result. Any processing can be realized by easy function expansion from a conventional system by implementing a software module independent of special hardware implementation.
本発明には、以下の効果がある。 The present invention has the following effects.
第1の効果は、特別なハードウェアによる実装が不要であるということである。ローカルのオペレーティングシステム上で、ミラーリング監視・復旧システムプロセスをデーモンまたはサービスとして常駐させることにより、容易に適用可能である。また、リモートシステムにおいて、複数の別システム配下のミラーディスクを監視するような統合環境を構築するといった応用も可能である。 The first effect is that special hardware implementation is unnecessary. It can be easily applied by making the mirroring monitoring / recovery system process resident as a daemon or service on the local operating system. Further, in a remote system, an application such as building an integrated environment for monitoring a plurality of mirror disks under another system is possible.
第2の効果は、自動でミラーリングを復旧させることにより、これまで負担となってきた次に述べる3つの費用(コスト)が軽減、もしくは不要となることである。
1.交換ディスクモジュールの費用(購入費)、2.交換の際の人的な介在に伴って発生する費用(人件費)、3.交換前の準備時間と交換の時間的コストである。
The second effect is that the following three costs (costs), which have been burdened so far, are reduced or unnecessary by automatically restoring mirroring.
1. 1. Cost of replacement disk module (purchase cost); 2. Expenses (personnel costs) incurred due to human intervention during exchange; Preparation time before replacement and time cost of replacement.
(発明の第1の実施の形態)
本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムの構成を図1に示す。
(First Embodiment of the Invention)
FIG. 1 shows the configuration of the software mirroring fault monitoring / recovery system according to the first embodiment of this invention.
図1を参照すると、ソフトウェアミラーリング障害監視・復旧システム1は、ソフトウェアミラーリング構成(RAID1構成)のディスク装置2を監視し、同期不正を検出した場合に、ディスク装置2に対して自動で同期復旧のための命令を指示する。ソフトウェアミラーリング障害監視・復旧システム1は、ミラーリング状態監視部11、ディスクエラーチェック部12、ディスクフォーマット処理部13、ミラーリング再同期処理部14、及び処理結果報告部15を含んで構成される。
Referring to FIG. 1, the software mirroring failure monitoring /
ミラーリング状態監視部11は、定期的にディスク装置2のソフトウェアミラーリング状態を採取するためのコマンド(命令)を発行して、同期不正が発生しているデータ領域部分がないか監視をする。同期不正が発生していれば、ディスクエラーチェック部12は、ハードウェアのディスクメディアクエラーが格納されるログを確認して、ディスク装置21またはディスク装置22のディスクメディアエラーが、記録されていないかどうかを確認し、同期不正の原因となった障害ディスクを特定する。あるいは、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認する方法により、同期不正の原因となった障害ディスクを特定する。
The mirroring state monitoring unit 11 periodically issues a command (instruction) for collecting the software mirroring state of the
ディスクフォーマット処理部13は、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行する。メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認する。
The disk
ミラーリング再同期処理部14は、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させる。処理結果報告部15は、11〜14の各検出内容と処理の実行結果の報告を行う。 The mirroring resynchronization processing unit 14 issues a software mirroring resynchronization command to restore software mirroring. The processing result reporting unit 15 reports the detection contents of 11 to 14 and the execution result of the processing.
次に図1、図2を参照して本実施の形態の動作について詳細に説明する。 Next, the operation of the present embodiment will be described in detail with reference to FIGS.
本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムの動作のフローチャートを図2に示す。 FIG. 2 shows a flowchart of the operation of the software mirroring failure monitoring / recovery system according to the first embodiment of this invention.
ミラーリング監視・復旧システム1を起動しており、ディスク装置2がソフトウェアミラーリングを構成している。ミラーリング状態監視部11は、ディスク装置2のミラーリングの状態監視コマンドを定期的(ポーリング)に発行する(図2のステップA1)。状態監視コマンドの結果で、データ領域の同期不正が検出されていないかどうか確認を行う(図2のステップA2)。同期不正が検出されなかった場合は再び定期監視に戻るが、検出された場合は、ディスクエラーチェック部12において、ハードウェアエラーが格納されているログを検索してミラーリングを構成しているディスク装置21またはディスク装置22のメディアエラー情報が記録されていることを確認し、同期不正の原因となった障害ディスクを特定する(図2のステップA3)。ディスクエラーチェック部12の障害ディスク特定の別の方法として、SCSIディスクであれば、READ_DEFECT/LOG_SENSEコマンドを定期発行することにより、ディスク装置21またはディスク装置22の内部エラー統計情報を採取して、前回採取情報の差分よりメディアエラー発生のディスクを特定することも可能である(図2のステップA3)。
The mirroring monitoring /
次に、特定された障害ディスクに対して、ディスクフォーマット処理部13は、メディアフォーマットコマンド(命令)を発行する(図2のステップA4)。フォーマットの実施により、メディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認する(図2のステップA5)。ここでフォーマットが正常に完了できず、ディスクが使用不能となった場合は、自動復旧処理は失敗となる(図2のステップA10)。フォーマットが正常に完了した場合は、ミラーリング再同期処理部14において再同期コマンド(命令)を発行する(図2のステップA6)。ここで再同期処理中に処理の中断とか、処理後の状態確認にてミラー不正状態が検出された場合、再同期は正常に完了しなかったと判断して(図2のステップA7)、自動復旧処理は失敗となる(図2のステップA10)。再同期処理が正常に完了した場合は(図2のステップA8)、ミラーリングシステムは復旧し、その旨報告する(図2のステップA9)。自動復旧に失敗した場合(図2のステップA10)でも、ミラーリング不正障害の報告を行い(図2のステップA11)、その時点でディスク交換のための準備作業を開始する。
Next, the disk
(発明の第2の実施の形態)
次に、本発明の第2の実施の形態について、図面を参照して説明する。
(Second Embodiment of the Invention)
Next, a second embodiment of the present invention will be described with reference to the drawings.
本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムを組み込んだ本発明の第2の実施の形態のロードバランスシステムの構成を図3に示す。 FIG. 3 shows the configuration of the load balance system according to the second embodiment of the present invention in which the software mirroring failure monitoring / recovery system according to the first embodiment of the present invention is incorporated.
図3は、負荷分散システムであるロードバランスサーバ4の実サーバ群3のサーバ31〜35配下のディスク装置311、312、321、322、331、332、341、342、351、352にソフトウェアミラーリングディスク障害監視・復旧システム1を組み込んでいることを示している。ミラーリングの同期不正が検出された場合に行われるディスクフォーマット(図2のステップA4)やミラーリングの再同期(図2のステップA6)といった処理は、システムの負荷、特にI/O側にかかる負荷が非常に大きく、これらの処理には数時間を要するため、その間のシステムのスループットが低下する可能性がある。そのような問題を緩和させるための方法の一つとして、ロードバランスシステム内でのソフトウェアミラーリングディスク障害監視・復旧システム1の運用を実施する。これにより、実サーバ群3のいずれかのサーバ配下のディスク装置でミラーリング復旧処理が行われた場合、ロードバランスサーバ4は復旧処理によるサーバの負荷上昇を検出して、そのサーバへ割当てる情報を抑制し、その分、他のサーバへの割当てを増加させる。サーバのミラーリング復旧処理が完了した時点で、情報の抑制を解除する。
FIG. 3 shows software mirroring disks in the
ロードバランスサーバ4からリモートで実サーバ群3のサーバ31〜35配下のディスク装置311、312、321、322、331、332、341、342、351、352の状態監視や復旧処理を操作する統合環境を構築することもでき、その場合、ミラーリングの復旧処理を開始する前にロードバランスサーバ4のバランス制御を行っておくといった、ロードバランスシステムとの連携によりさらに効率良く処理を行うことが可能となる。
Integrated environment for operating the status monitoring and recovery processing of the
(発明の第3の実施の形態)
次に、本発明の第3の実施の形態について、図面を参照して説明する。
(Third embodiment of the invention)
Next, a third embodiment of the present invention will be described with reference to the drawings.
本発明の第3の実施の形態のソフトウェアミラーリング障害監視・復旧システムの動作のフローチャートを図4に示す。 FIG. 4 shows a flowchart of the operation of the software mirroring fault monitoring / restoring system according to the third embodiment of the present invention.
図4は、ミラーリングの同期不正が検出されて(図4のステップA2)、同期不正の原因となっている障害ディスクが特定(図4のステップA3)されたタイミングにて、障害ディスクのエラー情報を通知するステップ(図4のステップA12)と、交換用ディスクを手配するステップ(図4のA13)を追加している。ディスクのフォーマット実施や再同期において異常が発生した場合、自動復旧は失敗となり通報が挙げられて、ディスクの交換を実施することになる。しかし、自動復旧失敗直後に、ディスク交換を実施するためには、早い段階での準備が必要であり、その準備のためのステップ(図4のステップA12、A13)を追加する。 FIG. 4 shows error information of a failed disk at the timing when a mirroring synchronization fraud is detected (step A2 in FIG. 4) and the failed disk causing the synchronization fraud is identified (step A3 in FIG. 4). Is added (step A12 in FIG. 4), and a step for arranging replacement disks (A13 in FIG. 4) is added. If an error occurs during disk formatting or resynchronization, automatic recovery fails and a notification is given, and the disk is replaced. However, in order to perform disk replacement immediately after the automatic recovery failure, preparation at an early stage is necessary, and steps for the preparation (steps A12 and A13 in FIG. 4) are added.
これにより、ディスクミラーリングの自動復旧と、交換部品手配が同時に行われ、自動復旧に失敗した場合に即座に交換作業を開始することができる。 Thereby, automatic recovery of disk mirroring and replacement parts arrangement are performed at the same time, and when the automatic recovery fails, replacement work can be started immediately.
また、上述の本発明の実施の形態についてのソフトウェアミラーリングディスク障害監視・復旧方法のプログラムにより、コンピュータ又はマイクロプロセッサにそのソフトウェアミラーリングディスク障害監視・復旧方法を実行させることができる。 Further, the software mirroring disk failure monitoring / recovery method program according to the embodiment of the present invention described above can cause a computer or microprocessor to execute the software mirroring disk failure monitoring / recovery method.
1 ソフトウェアミラーリングディスク障害監視・復旧システム
2 ソフトウェアミラーリング構成のディスク装置
3 実サーバ群
4 ロードバランスサーバ
11 ミラーリング状態監視部
12 ディスクエラーチェック部
13 ディスクフォーマット処理部
14 ミラーリング再同期処理部
15 処理結果報告部
21、22、311、312、321、322、331、332、341、342、351、352 ディスク装置
31、32、33、34、35 サーバ
DESCRIPTION OF
Claims (6)
同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するディスクエラーチェック部と、
ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するディスクフォーマット処理部と、
ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるミラーリング再同期処理部と、
各検出内容と処理の実行結果の報告を行う処理結果報告部とを備える、ソフトウェアミラーリングディスク障害監視・復旧システム。 A mirroring status monitoring unit that issues a command to collect the software mirroring status of the disk device and monitors whether there is a data area part where synchronization fraud has occurred;
If a synchronization error has occurred, check the log in which the hardware error is stored, and check whether the disk media error of the first disk device or the second disk device in the software mirroring configuration has been recorded. Or by referring to the internal statistical information of the disk to confirm that the error count has increased, and to identify the failed disk that caused the synchronization fraud,
Stop the software mirroring function, issue the media format command to the disk where the disk media error occurred, perform the media format, mask and replace the data block where the disk media error occurred, and the entire data area of the disk A disk format processor to confirm that it can be used normally,
A mirroring resynchronization processor that issues software mirroring resynchronization commands to restore software mirroring;
A software mirroring disk failure monitoring / recovery system comprising a processing result reporting unit for reporting each detected content and a processing execution result.
前記実サーバ群のいずれかのサーバ配下のディスク装置でソフトウェアミラーリング復旧処理が行われた場合、前記ロードバランスサーバは復旧処理によるサーバの負荷上昇を検出して、そのサーバへ割当てる情報を抑制し、その分、他のサーバへの割当てを増加させ、サーバのソフトウェアミラーリング復旧処理が完了した時点で、情報の抑制を解除する、ロードバランスシステム。 The software mirroring disk failure monitoring and recovery system according to claim 1 is incorporated in a disk device under a server of a real server group of a load balance server,
When software mirroring recovery processing is performed on a disk device under any of the servers in the real server group, the load balance server detects an increase in server load due to the recovery processing, and suppresses information assigned to the server, A load balance system that increases the allocation to other servers and releases the information suppression when the server software mirroring recovery process is completed.
ディスクエラーチェック部により、同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するステップと、
ディスクフォーマット処理部により、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するステップと、
ミラーリング再同期処理部により、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるステップと、
処理結果報告部により、各検出内容と処理の実行結果の報告を行うステップとを備える、ソフトウェアミラーリングディスク障害監視・復旧方法。 Issuing a command for collecting the software mirroring status of the disk device by the mirroring status monitoring unit and monitoring whether there is a data area portion in which the synchronization fraud has occurred;
If a synchronization error has occurred by the disk error check unit, the log storing the hardware error is confirmed, and the disk media error of the first disk device or the second disk device in the software mirroring configuration is Confirming that the error count is increasing by checking if it is not recorded or by referring to the internal statistics of the disk, and identifying the failed disk that caused the synchronization fraud;
The disk format processing unit stops the software mirroring function, issues a media format command to the disk where the disk media error has occurred, performs masking and replacement processing of the disk media error occurrence data block by performing media formatting, Confirming that all data areas of the disk are available normally;
Issuing a software mirroring resynchronization command by the mirroring resynchronization processing unit to restore software mirroring;
A software mirroring disk failure monitoring / recovering method comprising a step of reporting each detected content and a process execution result by a process result reporting unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004076561A JP2005267056A (en) | 2004-03-17 | 2004-03-17 | Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004076561A JP2005267056A (en) | 2004-03-17 | 2004-03-17 | Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005267056A true JP2005267056A (en) | 2005-09-29 |
Family
ID=35091564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004076561A Pending JP2005267056A (en) | 2004-03-17 | 2004-03-17 | Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005267056A (en) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012509533A (en) * | 2008-11-20 | 2012-04-19 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Apparatus, method, and computer program for operating mirrored disk storage system |
JP2013508884A (en) * | 2009-10-26 | 2013-03-07 | アマゾン テクノロジーズ インコーポレイテッド | Monitoring replicated data instances |
JP2013508882A (en) * | 2009-10-26 | 2013-03-07 | アマゾン テクノロジーズ インコーポレイテッド | Provision and manage replicated data instances |
US9135283B2 (en) | 2009-10-07 | 2015-09-15 | Amazon Technologies, Inc. | Self-service configuration for data environment |
US9207984B2 (en) | 2009-03-31 | 2015-12-08 | Amazon Technologies, Inc. | Monitoring and automatic scaling of data volumes |
US9218245B1 (en) | 2009-03-31 | 2015-12-22 | Amazon Technologies, Inc. | Cloning and recovery of data volumes |
US9705888B2 (en) | 2009-03-31 | 2017-07-11 | Amazon Technologies, Inc. | Managing security groups for data instances |
JP2017138781A (en) * | 2016-02-03 | 2017-08-10 | Necプラットフォームズ株式会社 | Disk array controller, storage system, method, and program |
US10127149B2 (en) | 2009-03-31 | 2018-11-13 | Amazon Technologies, Inc. | Control service for data management |
US20200065019A1 (en) * | 2018-08-22 | 2020-02-27 | In Hye Kim | Cloud service providing device and method for managing cloud service providing device |
CN116414661A (en) * | 2023-06-08 | 2023-07-11 | 北京星辰天合科技股份有限公司 | Processing method and device for solid state disk of distributed storage |
CN117116333A (en) * | 2023-10-23 | 2023-11-24 | 江苏华存电子科技有限公司 | Method and device for testing VPD information of enterprise-level solid state disk |
-
2004
- 2004-03-17 JP JP2004076561A patent/JP2005267056A/en active Pending
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677178B2 (en) | 2008-11-20 | 2014-03-18 | International Business Machines Corporation | Recovery control in mirrored disks |
JP2012509533A (en) * | 2008-11-20 | 2012-04-19 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Apparatus, method, and computer program for operating mirrored disk storage system |
US9558084B2 (en) | 2008-11-20 | 2017-01-31 | International Business Machines Corporation | Recovery control in mirrored disks |
US9207984B2 (en) | 2009-03-31 | 2015-12-08 | Amazon Technologies, Inc. | Monitoring and automatic scaling of data volumes |
US10127149B2 (en) | 2009-03-31 | 2018-11-13 | Amazon Technologies, Inc. | Control service for data management |
US11132227B2 (en) | 2009-03-31 | 2021-09-28 | Amazon Technologies, Inc. | Monitoring and automatic scaling of data volumes |
US9218245B1 (en) | 2009-03-31 | 2015-12-22 | Amazon Technologies, Inc. | Cloning and recovery of data volumes |
US11550630B2 (en) | 2009-03-31 | 2023-01-10 | Amazon Technologies, Inc. | Monitoring and automatic scaling of data volumes |
US11770381B2 (en) | 2009-03-31 | 2023-09-26 | Amazon Technologies, Inc. | Managing security groups for data instances |
US9705888B2 (en) | 2009-03-31 | 2017-07-11 | Amazon Technologies, Inc. | Managing security groups for data instances |
US11914486B2 (en) | 2009-03-31 | 2024-02-27 | Amazon Technologies, Inc. | Cloning and recovery of data volumes |
US11385969B2 (en) | 2009-03-31 | 2022-07-12 | Amazon Technologies, Inc. | Cloning and recovery of data volumes |
US10798101B2 (en) | 2009-03-31 | 2020-10-06 | Amazon Technologies, Inc. | Managing security groups for data instances |
US10162715B1 (en) | 2009-03-31 | 2018-12-25 | Amazon Technologies, Inc. | Cloning and recovery of data volumes |
US10225262B2 (en) | 2009-03-31 | 2019-03-05 | Amazon Technologies, Inc. | Managing security groups for data instances |
US10282231B1 (en) | 2009-03-31 | 2019-05-07 | Amazon Technologies, Inc. | Monitoring and automatic scaling of data volumes |
US11379332B2 (en) | 2009-03-31 | 2022-07-05 | Amazon Technologies, Inc. | Control service for data management |
US10761975B2 (en) | 2009-03-31 | 2020-09-01 | Amazon Technologies, Inc. | Control service for data management |
US9135283B2 (en) | 2009-10-07 | 2015-09-15 | Amazon Technologies, Inc. | Self-service configuration for data environment |
US10977226B2 (en) | 2009-10-07 | 2021-04-13 | Amazon Technologies, Inc. | Self-service configuration for data environment |
US11477105B2 (en) | 2009-10-26 | 2022-10-18 | Amazon Technologies, Inc. | Monitoring of replicated data instances |
US11321348B2 (en) | 2009-10-26 | 2022-05-03 | Amazon Technologies, Inc. | Provisioning and managing replicated data instances |
US9806978B2 (en) | 2009-10-26 | 2017-10-31 | Amazon Technologies, Inc. | Monitoring of replicated data instances |
US9336292B2 (en) | 2009-10-26 | 2016-05-10 | Amazon Technologies, Inc. | Provisioning and managing replicated data instances |
JP2013508882A (en) * | 2009-10-26 | 2013-03-07 | アマゾン テクノロジーズ インコーポレイテッド | Provision and manage replicated data instances |
JP2013508884A (en) * | 2009-10-26 | 2013-03-07 | アマゾン テクノロジーズ インコーポレイテッド | Monitoring replicated data instances |
JP2017138781A (en) * | 2016-02-03 | 2017-08-10 | Necプラットフォームズ株式会社 | Disk array controller, storage system, method, and program |
US20200065019A1 (en) * | 2018-08-22 | 2020-02-27 | In Hye Kim | Cloud service providing device and method for managing cloud service providing device |
CN116414661A (en) * | 2023-06-08 | 2023-07-11 | 北京星辰天合科技股份有限公司 | Processing method and device for solid state disk of distributed storage |
CN116414661B (en) * | 2023-06-08 | 2023-09-08 | 北京星辰天合科技股份有限公司 | Processing method and device for solid state disk of distributed storage |
CN117116333A (en) * | 2023-10-23 | 2023-11-24 | 江苏华存电子科技有限公司 | Method and device for testing VPD information of enterprise-level solid state disk |
CN117116333B (en) * | 2023-10-23 | 2023-12-22 | 江苏华存电子科技有限公司 | Method and device for testing VPD information of enterprise-level solid state disk |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3776982B2 (en) | A software directed microcode state storage system for distributed storage controllers. | |
US6052758A (en) | Interface error detection and isolation in a direct access storage device DASD system | |
US7409582B2 (en) | Low cost raid with seamless disk failure recovery | |
JP4303187B2 (en) | Program, storage control method, and storage device | |
JP5090447B2 (en) | Method and computer program for control of computer storage system | |
EP0608344A4 (en) | DATA BACKUP SYSTEM FOR REPOSITIONING WITH RESTORATION. | |
JP2005267056A (en) | Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program | |
JPH10177498A (en) | Memory management of fault tolerant computer system | |
JPH07239799A (en) | Method for provision of remote data shadowing and remote data duplex system | |
Lyu et al. | Software fault tolerance in a clustered architecture: Techniques and reliability modeling | |
WO2006036812A2 (en) | System and method for network performance monitoring and predictive failure analysis | |
US20070234107A1 (en) | Dynamic storage data protection | |
JP2010224954A (en) | Storage device and logical disk management method | |
JP6540202B2 (en) | INFORMATION PROCESSING SYSTEM, CONTROL DEVICE, AND CONTROL PROGRAM | |
JP5440073B2 (en) | Information processing apparatus, information processing apparatus control method, and control program | |
US6970310B2 (en) | Disk control apparatus and its control method | |
JP2004227449A (en) | Diagnostic device for trouble in disk array device | |
WO2011051999A1 (en) | Information processing device and method for controlling information processing device | |
JP2006172390A (en) | Fault tolerant duplex computer system and its control method | |
US20040003313A1 (en) | Black box recorder using machine check architecture in system management mode | |
JP4774400B2 (en) | Monitoring system | |
TWI711288B (en) | Remote backup method | |
CN103116474B (en) | A kind of raid card method for designing for data recovery and selfreparing | |
JP5532687B2 (en) | Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system | |
JPH08190461A (en) | Disk array system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20060207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080516 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080604 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080801 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080917 |