[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2005267056A - Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program - Google Patents

Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program Download PDF

Info

Publication number
JP2005267056A
JP2005267056A JP2004076561A JP2004076561A JP2005267056A JP 2005267056 A JP2005267056 A JP 2005267056A JP 2004076561 A JP2004076561 A JP 2004076561A JP 2004076561 A JP2004076561 A JP 2004076561A JP 2005267056 A JP2005267056 A JP 2005267056A
Authority
JP
Japan
Prior art keywords
disk
error
mirroring
software mirroring
software
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004076561A
Other languages
Japanese (ja)
Inventor
Takashi Hotokegi
孝史 佛木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2004076561A priority Critical patent/JP2005267056A/en
Publication of JP2005267056A publication Critical patent/JP2005267056A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Debugging And Monitoring (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a software mirroring disk failure monitoring and a recovery system, its failure monitoring and a recovery method, without requiring the mounting of special hardware. <P>SOLUTION: A system 1 monitoring and recovering a synchronous state of a software mirroring disk is built up, and the system monitors a hard disk drive unit 2 in which software mirroring is carried out. The system has sections 11 and 12 for monitoring mirroring states and errors of disks, sections 13 and 14 for instructing formatting and resynchronous processings to the hard disk drive units, and a section 15 for reporting processing results. These processings can be performed by simple functional expansion from a conventional system by mounting a software module not depending on the mounting of special hardware. <P>COPYRIGHT: (C)2005,JPO&NCIPI

Description

本発明は、ソフトウェアミラーリングディスク障害監視・復旧システム、ソフトウェアミラーリングディスク障害監視・復旧方法及びソフトウェアミラーリングディスク障害監視・復旧方法を実行させるためのプログラムに関する。   The present invention relates to a software mirroring disk failure monitoring / recovery system, a software mirroring disk failure monitoring / recovery method, and a program for executing a software mirroring disk failure monitoring / recovery method.

コンピュータ装置の高可用性を維持するための重要な項目の1つとして、ハードディスク装置に対する2重化が挙げられる。2重化の方法として、ディスクアレイ装置のような特別なハードウェア実装を必要としない、ソフトウェアミラーリングがよく使用されている。   One of the important items for maintaining the high availability of computer devices is duplication of hard disk devices. As a duplexing method, software mirroring that does not require special hardware implementation like a disk array device is often used.

従来の技術には、ディスクアレイを構成している複数のディスクドライブのいずれかでオフトラックが検出されると、オフトラックをアレイコントローラに通知し、再フォーマット処理によりデータ面のサーボシリンダが再フォーマットされ、これによって、オフトラックがサーボシリンダの測定限界値を超えている状態を解消することができ、オフトラックを起こしたディスクドライブをディスクアレイから交換修理することなく、正常な運用状態に回復させることができるディスクアレイ装置がある(特許文献1参照。)。   In the conventional technology, when off-track is detected in any of a plurality of disk drives constituting a disk array, the off-track is notified to the array controller, and the servo cylinder on the data surface is re-formatted by re-format processing. As a result, the situation where the off-track exceeds the measurement limit value of the servo cylinder can be resolved, and the disk drive that caused the off-track is restored to the normal operation state without exchanging and repairing the disk drive from the disk array. There is a disk array device that can be used (see Patent Document 1).

また、多重化されたハードディスク装置を具備した計算機システムにおいて、多重化ハードディスク装置を構成する一部のハードディスク装置に対して、健全性を診断するプログラムを実行させることにより、当該ハードディスク装置の読み取り不可障害をオンライン稼動中において早期に検出することが可能であるミラーディスクの診断方式がある(特許文献2参照。)。   In addition, in a computer system equipped with multiplexed hard disk devices, a hard disk device cannot be read by executing a program for diagnosing soundness on some of the hard disk devices constituting the multiplexed hard disk device. There is a mirror disk diagnostic method that can be detected early during online operation (see Patent Document 2).

また、サブミラーを構成する複数の物理ディスクのいずれかに障害が発生した場合には、物理ディスクを単位としてサブミラーから切り離し、物理ディスクが復旧した場合には、復旧した物理ディスクのみについて再同期処理を行うため、再同期処理に要する時間を短縮できる記録媒体制御装置がある(特許文献3参照。)。
特開平9−167427号公報 特開2000−029638号公報 特開2000−330731号公報
If a failure occurs in any of the multiple physical disks that make up the submirror, the physical disk is detached from the submirror as a unit, and when the physical disk is recovered, only the recovered physical disk is resynchronized. Therefore, there is a recording medium control device that can reduce the time required for the resynchronization process (see Patent Document 3).
JP-A-9-167427 JP 2000-029638 A JP 2000-330731 A

従来は、ソフトウェアミラーリングを構築しているディスクにおいて、重度のメディアエラーが発生すると、エラーが発生したデータブロックの同期が不正となり、その状態を復旧させるためには、ディスクの交換を実施して再同期させるといった方法がよく採用されていた。このディスク交換に伴う問題点として以下のことが挙げられる。
1.交換ディスクモジュールの費用(購入費)が発生すること。
2.交換の際の人的な介在に伴って費用(人件費)が発生すること。
3.ディスクモジュールの準備時間と交換の時間が発生すること。ディスクモジュールが入手できず、すぐに処置が行われず、不正な状態のまま長時間放置される場合も有ること。
Conventionally, if a severe media error occurs on a disk with software mirroring, synchronization of the data block in which the error occurred becomes invalid. To recover the state, replace the disk and re-execute. The method of synchronizing was often adopted. Problems associated with this disk replacement include the following.
1. Expenses (purchase costs) for replacement disk modules.
2. Expenses (personnel costs) are incurred due to human intervention during the exchange.
3. Disk module preparation time and replacement time occur. In some cases, a disk module cannot be obtained, and no immediate action is taken, leaving it in an illegal state for a long time.

上述の従来技術の問題点に鑑み、本発明の目的は、特別なハードウェアによる実装が不要で、自動でミラーリングを復旧させるソフトウェアミラーリングディスク障害監視・復旧システム、その障害監視・復旧方法及びプログラムを提供することにある。   In view of the above-described problems of the prior art, an object of the present invention is to provide a software mirroring disk failure monitoring / recovery system, a failure monitoring / recovery method, and a program for automatically recovering mirroring that do not require special hardware implementation. It is to provide.

本発明のソフトウェアミラーリングディスク障害監視・復旧システムは、
ディスク装置のソフトウェアミラーリング状態を採取するためのコマンドを発行して、同期不正が発生しているデータ領域部分がないか監視をするミラーリング状態監視部と、同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するディスクエラーチェック部と、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するディスクフォーマット処理部と、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるミラーリング再同期処理部と、各検出内容と処理の実行結果の報告を行う処理結果報告部とを備える。
The software mirroring disk failure monitoring / recovery system of the present invention
Issue a command to collect the software mirroring status of the disk unit and monitor the data area part where the synchronization error has occurred. If the synchronization error has occurred, the hardware The log storing the error is confirmed, and it is confirmed whether or not the disk media error of the first disk device or the second disk device in the software mirroring configuration is recorded, or the internal statistical information of the disk The disk error check section that confirms that the error count has increased, the disk error check part that identifies the failed disk that caused the synchronization error, and the software mirroring function are stopped, and the disk with the disk media error has occurred. Issue a media format command to the By executing the format, the disk media error occurrence data block is masked and replaced, and the disk format processing unit that confirms that all data areas of the disk can be used normally, and the software mirroring resynchronization command are issued. A mirroring resynchronization processing unit that restores the software mirroring, and a processing result reporting unit that reports each detection content and the execution result of the processing.

また、ディスクエラーチェック部は、更に、同期不正の原因となった障害ディスクが特定されたタイミングにて、障害ディスクのエラー情報を通知し、交換用ディスクを手配してもよい。   Further, the disk error check unit may notify the error information of the failed disk at the timing when the failed disk causing the synchronization fraud is specified, and arrange a replacement disk.

本発明のロードバランスシステムは、
ロードバランスサーバの実サーバ群のサーバ配下のディスク装置に上述のソフトウェアミラーリングディスク障害監視・復旧システムを組み込み、実サーバ群のいずれかのサーバ配下のディスク装置でソフトウェアミラーリング復旧処理が行われた場合、ロードバランスサーバは復旧処理によるサーバの負荷上昇を検出して、そのサーバへ割当てる情報を抑制し、その分、他のサーバへの割当てを増加させ、サーバのソフトウェアミラーリング復旧処理が完了した時点で、情報の抑制を解除する。
The load balance system of the present invention is
When the above-mentioned software mirroring disk failure monitoring / recovery system is installed in the disk device under the server of the real server group of the load balance server, and software mirroring recovery processing is performed on the disk device under any of the servers in the real server group, The load balance server detects the server load increase due to the recovery process, suppresses the information allocated to that server, increases the allocation to other servers accordingly, and when the server software mirroring recovery process is completed, Release information suppression.

本発明のソフトウェアミラーリングディスク障害監視・復旧方法は、
ミラーリング状態監視部により、ディスク装置のソフトウェアミラーリング状態を採取するためのコマンドを発行して、同期不正が発生しているデータ領域部分がないか監視をするステップと、ディスクエラーチェック部により、同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するステップと、ディスクフォーマット処理部により、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するステップと、ミラーリング再同期処理部により、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるステップと、処理結果報告部により、各検出内容と処理の実行結果の報告を行うステップとを備える。
The software mirroring disk failure monitoring / recovery method of the present invention comprises:
Issue a command to collect the software mirroring status of the disk unit by the mirroring status monitoring unit, and monitor whether there is a data area part where synchronization fraud has occurred. If the error occurred, check the log that stores the hardware error, and check whether the disk media error of the first disk device or the second disk device in the software mirroring configuration has been recorded. Or, by referring to the internal statistical information of the disk, confirm that the error count has increased, identify the failed disk that caused the synchronization error, and use the disk format processing unit to perform software mirroring. Stop the function and generate a disk media error. Issuing a media format command to the specified disk, performing masking and replacement processing of the disk media error occurrence data block, and confirming that all data areas of the disk can be used normally by performing media formatting. The mirroring resynchronization processing unit issues a software mirroring resynchronization command to restore software mirroring, and the processing result reporting unit reports each detection content and the execution result of the processing.

また、ディスクエラーチェック部により、同期不正の原因となった障害ディスクを特定するステップは、同期不正の原因となった障害ディスクが特定されたタイミングにて、障害ディスクのエラー情報を通知し、交換用ディスクを手配するステップを、更に備えてもよい。   The step of identifying the failed disk that caused the synchronization error by the disk error check unit notifies the error information of the failed disk and replaces it when the failed disk that caused the synchronization error is identified. The method may further comprise the step of arranging a working disk.

本発明のプログラムは、
コンピュータ又はマイクロプロセッサに上述のソフトウェアミラーリングディスク障害監視・復旧方法を実行させる。
The program of the present invention
A computer or microprocessor is caused to execute the above-described software mirroring disk failure monitoring / recovery method.

本発明によるミラーリングシステムの復旧方式は、2台の単体のハードディスク装置を用いたソフトウェアミラーリングシステムにおいて、片側ディスクの媒体ディスクエラーによってミラーリングの同期不正を検出した場合に、エラー発生のディスクを自動でフォーマットを実行し、再同期させることにより、ミラーリングシステムを早期に復旧させることを特徴とする。   The recovery method of the mirroring system according to the present invention is a software mirroring system using two single hard disk devices. When a mirroring synchronization error is detected due to a medium disk error of one disk, an error disk is automatically formatted. The mirroring system is recovered early by executing and resynchronizing.

即ち、ミラーリングの同期状態の監視、及び復旧するシステムを構築し、このシステムは、ソフトウェアミラーリングされているハードディスク装置を監視する。   That is, a system for monitoring and recovering the synchronization state of mirroring is constructed, and this system monitors hard disk devices that are software mirrored.

このシステムでは、ミラーリングの状態/ディスクのエラーを監視する部分と、ディスク装置に対してフォーマット/再同期処理を命令する部分と、処理の結果を報告する部分を有する。いずれの処理も、特別なハードウェアの実装に依存しないソフトウェアモジュールによる実装を図ることにより、従来のシステムからの容易な機能拡張によって実現可能とする。   This system has a part for monitoring the mirroring state / disk error, a part for instructing the disk device to format / resynchronization processing, and a part for reporting the processing result. Any processing can be realized by easy function expansion from a conventional system by implementing a software module independent of special hardware implementation.

本発明には、以下の効果がある。   The present invention has the following effects.

第1の効果は、特別なハードウェアによる実装が不要であるということである。ローカルのオペレーティングシステム上で、ミラーリング監視・復旧システムプロセスをデーモンまたはサービスとして常駐させることにより、容易に適用可能である。また、リモートシステムにおいて、複数の別システム配下のミラーディスクを監視するような統合環境を構築するといった応用も可能である。   The first effect is that special hardware implementation is unnecessary. It can be easily applied by making the mirroring monitoring / recovery system process resident as a daemon or service on the local operating system. Further, in a remote system, an application such as building an integrated environment for monitoring a plurality of mirror disks under another system is possible.

第2の効果は、自動でミラーリングを復旧させることにより、これまで負担となってきた次に述べる3つの費用(コスト)が軽減、もしくは不要となることである。
1.交換ディスクモジュールの費用(購入費)、2.交換の際の人的な介在に伴って発生する費用(人件費)、3.交換前の準備時間と交換の時間的コストである。
The second effect is that the following three costs (costs), which have been burdened so far, are reduced or unnecessary by automatically restoring mirroring.
1. 1. Cost of replacement disk module (purchase cost); 2. Expenses (personnel costs) incurred due to human intervention during exchange; Preparation time before replacement and time cost of replacement.

(発明の第1の実施の形態)
本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムの構成を図1に示す。
(First Embodiment of the Invention)
FIG. 1 shows the configuration of the software mirroring fault monitoring / recovery system according to the first embodiment of this invention.

図1を参照すると、ソフトウェアミラーリング障害監視・復旧システム1は、ソフトウェアミラーリング構成(RAID1構成)のディスク装置2を監視し、同期不正を検出した場合に、ディスク装置2に対して自動で同期復旧のための命令を指示する。ソフトウェアミラーリング障害監視・復旧システム1は、ミラーリング状態監視部11、ディスクエラーチェック部12、ディスクフォーマット処理部13、ミラーリング再同期処理部14、及び処理結果報告部15を含んで構成される。   Referring to FIG. 1, the software mirroring failure monitoring / recovery system 1 monitors a disk device 2 having a software mirroring configuration (RAID 1 configuration), and automatically detects the synchronization recovery for the disk device 2 when a synchronization fraud is detected. Instructions for The software mirroring failure monitoring / recovery system 1 includes a mirroring state monitoring unit 11, a disk error check unit 12, a disk format processing unit 13, a mirroring resynchronization processing unit 14, and a processing result reporting unit 15.

ミラーリング状態監視部11は、定期的にディスク装置2のソフトウェアミラーリング状態を採取するためのコマンド(命令)を発行して、同期不正が発生しているデータ領域部分がないか監視をする。同期不正が発生していれば、ディスクエラーチェック部12は、ハードウェアのディスクメディアクエラーが格納されるログを確認して、ディスク装置21またはディスク装置22のディスクメディアエラーが、記録されていないかどうかを確認し、同期不正の原因となった障害ディスクを特定する。あるいは、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認する方法により、同期不正の原因となった障害ディスクを特定する。   The mirroring state monitoring unit 11 periodically issues a command (instruction) for collecting the software mirroring state of the disk device 2 and monitors whether there is a data area portion in which the synchronization fraud has occurred. If the synchronization fraud has occurred, the disk error check unit 12 confirms the log in which the hardware disk medium error is stored, and the disk medium error of the disk device 21 or the disk device 22 is not recorded. And identify the failed disk that caused the synchronization failure. Alternatively, by referring to the internal statistical information of the disk, a method for confirming that the error count has increased is used to identify the failed disk that caused the synchronization failure.

ディスクフォーマット処理部13は、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行する。メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認する。   The disk format processing unit 13 stops the software mirroring function and issues a media format command to the disk in which a disk media error has occurred. By executing the media format, the disk media error occurrence data block is masked and replaced, and it is confirmed that the entire data area of the disk can be used normally.

ミラーリング再同期処理部14は、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させる。処理結果報告部15は、11〜14の各検出内容と処理の実行結果の報告を行う。   The mirroring resynchronization processing unit 14 issues a software mirroring resynchronization command to restore software mirroring. The processing result reporting unit 15 reports the detection contents of 11 to 14 and the execution result of the processing.

次に図1、図2を参照して本実施の形態の動作について詳細に説明する。   Next, the operation of the present embodiment will be described in detail with reference to FIGS.

本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムの動作のフローチャートを図2に示す。   FIG. 2 shows a flowchart of the operation of the software mirroring failure monitoring / recovery system according to the first embodiment of this invention.

ミラーリング監視・復旧システム1を起動しており、ディスク装置2がソフトウェアミラーリングを構成している。ミラーリング状態監視部11は、ディスク装置2のミラーリングの状態監視コマンドを定期的(ポーリング)に発行する(図2のステップA1)。状態監視コマンドの結果で、データ領域の同期不正が検出されていないかどうか確認を行う(図2のステップA2)。同期不正が検出されなかった場合は再び定期監視に戻るが、検出された場合は、ディスクエラーチェック部12において、ハードウェアエラーが格納されているログを検索してミラーリングを構成しているディスク装置21またはディスク装置22のメディアエラー情報が記録されていることを確認し、同期不正の原因となった障害ディスクを特定する(図2のステップA3)。ディスクエラーチェック部12の障害ディスク特定の別の方法として、SCSIディスクであれば、READ_DEFECT/LOG_SENSEコマンドを定期発行することにより、ディスク装置21またはディスク装置22の内部エラー統計情報を採取して、前回採取情報の差分よりメディアエラー発生のディスクを特定することも可能である(図2のステップA3)。   The mirroring monitoring / recovery system 1 is activated, and the disk device 2 constitutes software mirroring. The mirroring state monitoring unit 11 periodically (polling) issues a mirroring state monitoring command for the disk device 2 (step A1 in FIG. 2). It is confirmed whether or not data area synchronization fraud is detected as a result of the state monitoring command (step A2 in FIG. 2). If no synchronization fraud is detected, the process returns to the periodic monitoring again. If detected, the disk error check unit 12 searches the log storing the hardware error and configures the mirroring. It is confirmed that the media error information of 21 or the disk device 22 is recorded, and the failed disk that caused the synchronization error is specified (step A3 in FIG. 2). As another method of identifying the failed disk of the disk error check unit 12, if the disk is a SCSI disk, internal error statistical information of the disk device 21 or the disk device 22 is collected by periodically issuing a READ_DEFECT / LOG_SENSE command, and the previous time. It is also possible to identify the disk in which a media error has occurred from the difference in the collection information (step A3 in FIG. 2).

次に、特定された障害ディスクに対して、ディスクフォーマット処理部13は、メディアフォーマットコマンド(命令)を発行する(図2のステップA4)。フォーマットの実施により、メディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認する(図2のステップA5)。ここでフォーマットが正常に完了できず、ディスクが使用不能となった場合は、自動復旧処理は失敗となる(図2のステップA10)。フォーマットが正常に完了した場合は、ミラーリング再同期処理部14において再同期コマンド(命令)を発行する(図2のステップA6)。ここで再同期処理中に処理の中断とか、処理後の状態確認にてミラー不正状態が検出された場合、再同期は正常に完了しなかったと判断して(図2のステップA7)、自動復旧処理は失敗となる(図2のステップA10)。再同期処理が正常に完了した場合は(図2のステップA8)、ミラーリングシステムは復旧し、その旨報告する(図2のステップA9)。自動復旧に失敗した場合(図2のステップA10)でも、ミラーリング不正障害の報告を行い(図2のステップA11)、その時点でディスク交換のための準備作業を開始する。   Next, the disk format processing unit 13 issues a media format command (command) to the identified failed disk (step A4 in FIG. 2). By performing the formatting, the media error occurrence data block is masked and replaced, and it is confirmed that the entire data area of the disk can be used normally (step A5 in FIG. 2). If the formatting cannot be completed normally and the disk becomes unusable, the automatic recovery process fails (step A10 in FIG. 2). If the formatting is completed normally, the mirroring resynchronization processing unit 14 issues a resynchronization command (command) (step A6 in FIG. 2). Here, if the processing is interrupted during the resynchronization process, or if a mirror invalid state is detected in the status confirmation after the process, it is determined that the resynchronization has not been completed normally (step A7 in FIG. 2), and automatic recovery is performed. The process fails (step A10 in FIG. 2). If the resynchronization process is completed normally (step A8 in FIG. 2), the mirroring system is restored and reports to that effect (step A9 in FIG. 2). Even if the automatic recovery fails (step A10 in FIG. 2), a mirroring failure is reported (step A11 in FIG. 2), and preparation work for disk replacement is started at that time.

(発明の第2の実施の形態)
次に、本発明の第2の実施の形態について、図面を参照して説明する。
(Second Embodiment of the Invention)
Next, a second embodiment of the present invention will be described with reference to the drawings.

本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムを組み込んだ本発明の第2の実施の形態のロードバランスシステムの構成を図3に示す。   FIG. 3 shows the configuration of the load balance system according to the second embodiment of the present invention in which the software mirroring failure monitoring / recovery system according to the first embodiment of the present invention is incorporated.

図3は、負荷分散システムであるロードバランスサーバ4の実サーバ群3のサーバ31〜35配下のディスク装置311、312、321、322、331、332、341、342、351、352にソフトウェアミラーリングディスク障害監視・復旧システム1を組み込んでいることを示している。ミラーリングの同期不正が検出された場合に行われるディスクフォーマット(図2のステップA4)やミラーリングの再同期(図2のステップA6)といった処理は、システムの負荷、特にI/O側にかかる負荷が非常に大きく、これらの処理には数時間を要するため、その間のシステムのスループットが低下する可能性がある。そのような問題を緩和させるための方法の一つとして、ロードバランスシステム内でのソフトウェアミラーリングディスク障害監視・復旧システム1の運用を実施する。これにより、実サーバ群3のいずれかのサーバ配下のディスク装置でミラーリング復旧処理が行われた場合、ロードバランスサーバ4は復旧処理によるサーバの負荷上昇を検出して、そのサーバへ割当てる情報を抑制し、その分、他のサーバへの割当てを増加させる。サーバのミラーリング復旧処理が完了した時点で、情報の抑制を解除する。   FIG. 3 shows software mirroring disks in the disk devices 311, 312, 321, 322, 331, 332, 341, 342, 351, 352 under the servers 31 to 35 of the real server group 3 of the load balance server 4 that is a load balancing system. It shows that the failure monitoring / recovery system 1 is incorporated. Processes such as disk formatting (step A4 in FIG. 2) and resynchronization of mirroring (step A6 in FIG. 2) that are performed when mirroring synchronization fraud is detected are subject to system load, particularly the load on the I / O side. These processes are very large and require several hours for these processes, which may reduce system throughput. As one method for alleviating such a problem, the software mirroring disk failure monitoring / recovery system 1 is operated in the load balance system. As a result, when mirroring recovery processing is performed on a disk device under one of the servers in the real server group 3, the load balance server 4 detects an increase in server load due to the recovery processing, and suppresses information to be assigned to that server. Therefore, the allocation to other servers is increased accordingly. When the server mirroring recovery process is complete, release the information suppression.

ロードバランスサーバ4からリモートで実サーバ群3のサーバ31〜35配下のディスク装置311、312、321、322、331、332、341、342、351、352の状態監視や復旧処理を操作する統合環境を構築することもでき、その場合、ミラーリングの復旧処理を開始する前にロードバランスサーバ4のバランス制御を行っておくといった、ロードバランスシステムとの連携によりさらに効率良く処理を行うことが可能となる。   Integrated environment for operating the status monitoring and recovery processing of the disk devices 311, 312, 321, 322, 331, 332, 341, 342, 351, 352 under the servers 31 to 35 of the real server group 3 remotely from the load balance server 4 In this case, it is possible to perform processing more efficiently by coordinating with the load balance system, such as performing balance control of the load balance server 4 before starting mirroring recovery processing. .

(発明の第3の実施の形態)
次に、本発明の第3の実施の形態について、図面を参照して説明する。
(Third embodiment of the invention)
Next, a third embodiment of the present invention will be described with reference to the drawings.

本発明の第3の実施の形態のソフトウェアミラーリング障害監視・復旧システムの動作のフローチャートを図4に示す。   FIG. 4 shows a flowchart of the operation of the software mirroring fault monitoring / restoring system according to the third embodiment of the present invention.

図4は、ミラーリングの同期不正が検出されて(図4のステップA2)、同期不正の原因となっている障害ディスクが特定(図4のステップA3)されたタイミングにて、障害ディスクのエラー情報を通知するステップ(図4のステップA12)と、交換用ディスクを手配するステップ(図4のA13)を追加している。ディスクのフォーマット実施や再同期において異常が発生した場合、自動復旧は失敗となり通報が挙げられて、ディスクの交換を実施することになる。しかし、自動復旧失敗直後に、ディスク交換を実施するためには、早い段階での準備が必要であり、その準備のためのステップ(図4のステップA12、A13)を追加する。   FIG. 4 shows error information of a failed disk at the timing when a mirroring synchronization fraud is detected (step A2 in FIG. 4) and the failed disk causing the synchronization fraud is identified (step A3 in FIG. 4). Is added (step A12 in FIG. 4), and a step for arranging replacement disks (A13 in FIG. 4) is added. If an error occurs during disk formatting or resynchronization, automatic recovery fails and a notification is given, and the disk is replaced. However, in order to perform disk replacement immediately after the automatic recovery failure, preparation at an early stage is necessary, and steps for the preparation (steps A12 and A13 in FIG. 4) are added.

これにより、ディスクミラーリングの自動復旧と、交換部品手配が同時に行われ、自動復旧に失敗した場合に即座に交換作業を開始することができる。   Thereby, automatic recovery of disk mirroring and replacement parts arrangement are performed at the same time, and when the automatic recovery fails, replacement work can be started immediately.

また、上述の本発明の実施の形態についてのソフトウェアミラーリングディスク障害監視・復旧方法のプログラムにより、コンピュータ又はマイクロプロセッサにそのソフトウェアミラーリングディスク障害監視・復旧方法を実行させることができる。   Further, the software mirroring disk failure monitoring / recovery method program according to the embodiment of the present invention described above can cause a computer or microprocessor to execute the software mirroring disk failure monitoring / recovery method.

本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムの構成を示す図である。It is a figure which shows the structure of the software mirroring failure monitoring and recovery system of the 1st Embodiment of this invention. 本発明の第1の実施の形態のソフトウェアミラーリング障害監視・復旧システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the software mirroring failure monitoring and recovery system of the 1st Embodiment of this invention. 本発明の第2の実施の形態のロードバランスシステムの構成を示す図である。It is a figure which shows the structure of the load balance system of the 2nd Embodiment of this invention. 本発明の第3の実施の形態のソフトウェアミラーリング障害監視・復旧システムの動作を示すフローチャートである。It is a flowchart which shows operation | movement of the software mirroring failure monitoring and recovery system of the 3rd Embodiment of this invention.

符号の説明Explanation of symbols

1 ソフトウェアミラーリングディスク障害監視・復旧システム
2 ソフトウェアミラーリング構成のディスク装置
3 実サーバ群
4 ロードバランスサーバ
11 ミラーリング状態監視部
12 ディスクエラーチェック部
13 ディスクフォーマット処理部
14 ミラーリング再同期処理部
15 処理結果報告部
21、22、311、312、321、322、331、332、341、342、351、352 ディスク装置
31、32、33、34、35 サーバ
DESCRIPTION OF SYMBOLS 1 Software mirroring disk failure monitoring and recovery system 2 Disk unit of software mirroring configuration 3 Real server group 4 Load balance server 11 Mirroring state monitoring unit 12 Disk error checking unit 13 Disk format processing unit 14 Mirroring resynchronization processing unit 15 Processing result reporting unit 21, 22, 311, 312, 321, 322, 331, 332, 341, 342, 351, 352 Disk unit 31, 32, 33, 34, 35 Server

Claims (6)

ディスク装置のソフトウェアミラーリング状態を採取するためのコマンドを発行して、同期不正が発生しているデータ領域部分がないか監視をするミラーリング状態監視部と、
同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するディスクエラーチェック部と、
ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するディスクフォーマット処理部と、
ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるミラーリング再同期処理部と、
各検出内容と処理の実行結果の報告を行う処理結果報告部とを備える、ソフトウェアミラーリングディスク障害監視・復旧システム。
A mirroring status monitoring unit that issues a command to collect the software mirroring status of the disk device and monitors whether there is a data area part where synchronization fraud has occurred;
If a synchronization error has occurred, check the log in which the hardware error is stored, and check whether the disk media error of the first disk device or the second disk device in the software mirroring configuration has been recorded. Or by referring to the internal statistical information of the disk to confirm that the error count has increased, and to identify the failed disk that caused the synchronization fraud,
Stop the software mirroring function, issue the media format command to the disk where the disk media error occurred, perform the media format, mask and replace the data block where the disk media error occurred, and the entire data area of the disk A disk format processor to confirm that it can be used normally,
A mirroring resynchronization processor that issues software mirroring resynchronization commands to restore software mirroring;
A software mirroring disk failure monitoring / recovery system comprising a processing result reporting unit for reporting each detected content and a processing execution result.
前記ディスクエラーチェック部は、更に、同期不正の原因となった障害ディスクが特定されたタイミングにて、障害ディスクのエラー情報を通知し、交換用ディスクを手配する、請求項1に記載のソフトウェアミラーリングディスク障害監視・復旧システム。   2. The software mirroring according to claim 1, wherein the disk error check unit further notifies error information of the failed disk and arranges a replacement disk at a timing when the failed disk that caused the synchronization error is identified. Disk failure monitoring and recovery system. ロードバランスサーバの実サーバ群のサーバ配下のディスク装置に請求項1に記載のソフトウェアミラーリングディスク障害監視・復旧システムを組み込み、
前記実サーバ群のいずれかのサーバ配下のディスク装置でソフトウェアミラーリング復旧処理が行われた場合、前記ロードバランスサーバは復旧処理によるサーバの負荷上昇を検出して、そのサーバへ割当てる情報を抑制し、その分、他のサーバへの割当てを増加させ、サーバのソフトウェアミラーリング復旧処理が完了した時点で、情報の抑制を解除する、ロードバランスシステム。
The software mirroring disk failure monitoring and recovery system according to claim 1 is incorporated in a disk device under a server of a real server group of a load balance server,
When software mirroring recovery processing is performed on a disk device under any of the servers in the real server group, the load balance server detects an increase in server load due to the recovery processing, and suppresses information assigned to the server, A load balance system that increases the allocation to other servers and releases the information suppression when the server software mirroring recovery process is completed.
ミラーリング状態監視部により、ディスク装置のソフトウェアミラーリング状態を採取するためのコマンドを発行して、同期不正が発生しているデータ領域部分がないか監視をするステップと、
ディスクエラーチェック部により、同期不正が発生していれば、ハードウェアのエラーが格納されるログを確認して、ソフトウェアミラーリング構成の第1のディスク装置または第2のディスク装置のディスクメディアエラーが、記録されていないかどうかを確認し、または、ディスクの内部統計情報を参照することによって、エラーカウントが増加していることを確認し、同期不正の原因となった障害ディスクを特定するステップと、
ディスクフォーマット処理部により、ソフトウェアミラーリング機能を停止させて、ディスクメディアエラー発生のディスクに対してメディアフォーマットコマンドを発行し、メディアフォーマットの実施により、ディスクメディアエラー発生データブロックのマスクと置換処理を行い、ディスクの全データ領域が正常に使用可能になることを確認するステップと、
ミラーリング再同期処理部により、ソフトウェアミラーリングの再同期コマンドを発行して、ソフトウェアミラーリングを復旧させるステップと、
処理結果報告部により、各検出内容と処理の実行結果の報告を行うステップとを備える、ソフトウェアミラーリングディスク障害監視・復旧方法。
Issuing a command for collecting the software mirroring status of the disk device by the mirroring status monitoring unit and monitoring whether there is a data area portion in which the synchronization fraud has occurred;
If a synchronization error has occurred by the disk error check unit, the log storing the hardware error is confirmed, and the disk media error of the first disk device or the second disk device in the software mirroring configuration is Confirming that the error count is increasing by checking if it is not recorded or by referring to the internal statistics of the disk, and identifying the failed disk that caused the synchronization fraud;
The disk format processing unit stops the software mirroring function, issues a media format command to the disk where the disk media error has occurred, performs masking and replacement processing of the disk media error occurrence data block by performing media formatting, Confirming that all data areas of the disk are available normally;
Issuing a software mirroring resynchronization command by the mirroring resynchronization processing unit to restore software mirroring;
A software mirroring disk failure monitoring / recovering method comprising a step of reporting each detected content and a process execution result by a process result reporting unit.
前記ディスクエラーチェック部により、同期不正の原因となった障害ディスクを特定するステップは、同期不正の原因となった障害ディスクが特定されたタイミングにて、障害ディスクのエラー情報を通知し、交換用ディスクを手配するステップを、更に備える、請求項4に記載のソフトウェアミラーリングディスク障害監視・復旧方法。   The step of identifying the failed disk that caused the synchronization error by the disk error check unit notifies the error information of the failed disk at the timing when the failed disk that caused the synchronization error is identified, and is used for replacement. 5. The software mirroring disk failure monitoring / recovering method according to claim 4, further comprising the step of arranging a disk. コンピュータ又はマイクロプロセッサに請求項4または請求項5に記載のソフトウェアミラーリングディスク障害監視・復旧方法を実行させるためのプログラム。   A program for causing a computer or a microprocessor to execute the software mirroring disk failure monitoring / recovering method according to claim 4 or 5.
JP2004076561A 2004-03-17 2004-03-17 Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program Pending JP2005267056A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004076561A JP2005267056A (en) 2004-03-17 2004-03-17 Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004076561A JP2005267056A (en) 2004-03-17 2004-03-17 Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program

Publications (1)

Publication Number Publication Date
JP2005267056A true JP2005267056A (en) 2005-09-29

Family

ID=35091564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004076561A Pending JP2005267056A (en) 2004-03-17 2004-03-17 Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program

Country Status (1)

Country Link
JP (1) JP2005267056A (en)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012509533A (en) * 2008-11-20 2012-04-19 インターナショナル・ビジネス・マシーンズ・コーポレーション Apparatus, method, and computer program for operating mirrored disk storage system
JP2013508884A (en) * 2009-10-26 2013-03-07 アマゾン テクノロジーズ インコーポレイテッド Monitoring replicated data instances
JP2013508882A (en) * 2009-10-26 2013-03-07 アマゾン テクノロジーズ インコーポレイテッド Provision and manage replicated data instances
US9135283B2 (en) 2009-10-07 2015-09-15 Amazon Technologies, Inc. Self-service configuration for data environment
US9207984B2 (en) 2009-03-31 2015-12-08 Amazon Technologies, Inc. Monitoring and automatic scaling of data volumes
US9218245B1 (en) 2009-03-31 2015-12-22 Amazon Technologies, Inc. Cloning and recovery of data volumes
US9705888B2 (en) 2009-03-31 2017-07-11 Amazon Technologies, Inc. Managing security groups for data instances
JP2017138781A (en) * 2016-02-03 2017-08-10 Necプラットフォームズ株式会社 Disk array controller, storage system, method, and program
US10127149B2 (en) 2009-03-31 2018-11-13 Amazon Technologies, Inc. Control service for data management
US20200065019A1 (en) * 2018-08-22 2020-02-27 In Hye Kim Cloud service providing device and method for managing cloud service providing device
CN116414661A (en) * 2023-06-08 2023-07-11 北京星辰天合科技股份有限公司 Processing method and device for solid state disk of distributed storage
CN117116333A (en) * 2023-10-23 2023-11-24 江苏华存电子科技有限公司 Method and device for testing VPD information of enterprise-level solid state disk

Cited By (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677178B2 (en) 2008-11-20 2014-03-18 International Business Machines Corporation Recovery control in mirrored disks
JP2012509533A (en) * 2008-11-20 2012-04-19 インターナショナル・ビジネス・マシーンズ・コーポレーション Apparatus, method, and computer program for operating mirrored disk storage system
US9558084B2 (en) 2008-11-20 2017-01-31 International Business Machines Corporation Recovery control in mirrored disks
US9207984B2 (en) 2009-03-31 2015-12-08 Amazon Technologies, Inc. Monitoring and automatic scaling of data volumes
US10127149B2 (en) 2009-03-31 2018-11-13 Amazon Technologies, Inc. Control service for data management
US11132227B2 (en) 2009-03-31 2021-09-28 Amazon Technologies, Inc. Monitoring and automatic scaling of data volumes
US9218245B1 (en) 2009-03-31 2015-12-22 Amazon Technologies, Inc. Cloning and recovery of data volumes
US11550630B2 (en) 2009-03-31 2023-01-10 Amazon Technologies, Inc. Monitoring and automatic scaling of data volumes
US11770381B2 (en) 2009-03-31 2023-09-26 Amazon Technologies, Inc. Managing security groups for data instances
US9705888B2 (en) 2009-03-31 2017-07-11 Amazon Technologies, Inc. Managing security groups for data instances
US11914486B2 (en) 2009-03-31 2024-02-27 Amazon Technologies, Inc. Cloning and recovery of data volumes
US11385969B2 (en) 2009-03-31 2022-07-12 Amazon Technologies, Inc. Cloning and recovery of data volumes
US10798101B2 (en) 2009-03-31 2020-10-06 Amazon Technologies, Inc. Managing security groups for data instances
US10162715B1 (en) 2009-03-31 2018-12-25 Amazon Technologies, Inc. Cloning and recovery of data volumes
US10225262B2 (en) 2009-03-31 2019-03-05 Amazon Technologies, Inc. Managing security groups for data instances
US10282231B1 (en) 2009-03-31 2019-05-07 Amazon Technologies, Inc. Monitoring and automatic scaling of data volumes
US11379332B2 (en) 2009-03-31 2022-07-05 Amazon Technologies, Inc. Control service for data management
US10761975B2 (en) 2009-03-31 2020-09-01 Amazon Technologies, Inc. Control service for data management
US9135283B2 (en) 2009-10-07 2015-09-15 Amazon Technologies, Inc. Self-service configuration for data environment
US10977226B2 (en) 2009-10-07 2021-04-13 Amazon Technologies, Inc. Self-service configuration for data environment
US11477105B2 (en) 2009-10-26 2022-10-18 Amazon Technologies, Inc. Monitoring of replicated data instances
US11321348B2 (en) 2009-10-26 2022-05-03 Amazon Technologies, Inc. Provisioning and managing replicated data instances
US9806978B2 (en) 2009-10-26 2017-10-31 Amazon Technologies, Inc. Monitoring of replicated data instances
US9336292B2 (en) 2009-10-26 2016-05-10 Amazon Technologies, Inc. Provisioning and managing replicated data instances
JP2013508882A (en) * 2009-10-26 2013-03-07 アマゾン テクノロジーズ インコーポレイテッド Provision and manage replicated data instances
JP2013508884A (en) * 2009-10-26 2013-03-07 アマゾン テクノロジーズ インコーポレイテッド Monitoring replicated data instances
JP2017138781A (en) * 2016-02-03 2017-08-10 Necプラットフォームズ株式会社 Disk array controller, storage system, method, and program
US20200065019A1 (en) * 2018-08-22 2020-02-27 In Hye Kim Cloud service providing device and method for managing cloud service providing device
CN116414661A (en) * 2023-06-08 2023-07-11 北京星辰天合科技股份有限公司 Processing method and device for solid state disk of distributed storage
CN116414661B (en) * 2023-06-08 2023-09-08 北京星辰天合科技股份有限公司 Processing method and device for solid state disk of distributed storage
CN117116333A (en) * 2023-10-23 2023-11-24 江苏华存电子科技有限公司 Method and device for testing VPD information of enterprise-level solid state disk
CN117116333B (en) * 2023-10-23 2023-12-22 江苏华存电子科技有限公司 Method and device for testing VPD information of enterprise-level solid state disk

Similar Documents

Publication Publication Date Title
JP3776982B2 (en) A software directed microcode state storage system for distributed storage controllers.
US6052758A (en) Interface error detection and isolation in a direct access storage device DASD system
US7409582B2 (en) Low cost raid with seamless disk failure recovery
JP4303187B2 (en) Program, storage control method, and storage device
JP5090447B2 (en) Method and computer program for control of computer storage system
EP0608344A4 (en) DATA BACKUP SYSTEM FOR REPOSITIONING WITH RESTORATION.
JP2005267056A (en) Software mirroring disk failure monitoring and recovery system, its failure monitoring and recovery method, and program
JPH10177498A (en) Memory management of fault tolerant computer system
JPH07239799A (en) Method for provision of remote data shadowing and remote data duplex system
Lyu et al. Software fault tolerance in a clustered architecture: Techniques and reliability modeling
WO2006036812A2 (en) System and method for network performance monitoring and predictive failure analysis
US20070234107A1 (en) Dynamic storage data protection
JP2010224954A (en) Storage device and logical disk management method
JP6540202B2 (en) INFORMATION PROCESSING SYSTEM, CONTROL DEVICE, AND CONTROL PROGRAM
JP5440073B2 (en) Information processing apparatus, information processing apparatus control method, and control program
US6970310B2 (en) Disk control apparatus and its control method
JP2004227449A (en) Diagnostic device for trouble in disk array device
WO2011051999A1 (en) Information processing device and method for controlling information processing device
JP2006172390A (en) Fault tolerant duplex computer system and its control method
US20040003313A1 (en) Black box recorder using machine check architecture in system management mode
JP4774400B2 (en) Monitoring system
TWI711288B (en) Remote backup method
CN103116474B (en) A kind of raid card method for designing for data recovery and selfreparing
JP5532687B2 (en) Information processing system, failure handling mechanism of information processing system, and failure handling method of information processing system
JPH08190461A (en) Disk array system

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20060207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080516

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080917