[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP6079578B2 - ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法 - Google Patents

ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法 Download PDF

Info

Publication number
JP6079578B2
JP6079578B2 JP2013239258A JP2013239258A JP6079578B2 JP 6079578 B2 JP6079578 B2 JP 6079578B2 JP 2013239258 A JP2013239258 A JP 2013239258A JP 2013239258 A JP2013239258 A JP 2013239258A JP 6079578 B2 JP6079578 B2 JP 6079578B2
Authority
JP
Japan
Prior art keywords
storage
control state
abnormality
cooling fan
fan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2013239258A
Other languages
English (en)
Other versions
JP2015099625A (ja
Inventor
小川 純一
純一 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2013239258A priority Critical patent/JP6079578B2/ja
Priority to US14/476,003 priority patent/US9384077B2/en
Publication of JP2015099625A publication Critical patent/JP2015099625A/ja
Application granted granted Critical
Publication of JP6079578B2 publication Critical patent/JP6079578B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0727Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a storage system, e.g. in a DASD or network based storage system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/20Cooling means
    • G06F1/206Cooling means comprising thermal management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0683Plurality of storage devices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Cooling Or The Like Of Electrical Apparatus (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法に関する。
近年のディスクドライブの高記録密度化に伴い、ディスクドライブのアクセス性能に対する外来振動の影響が増大している。ストレージ装置に備えられる冷却ファンは、こうした外来振動の発生源の1つになっている場合がある。冷却ファンの動作不良、あるいは組み付け不良などに起因してストレージ装置に異常な振動が発生し、ライトオフトラックエラーなどの異常が発生してディスクドライブのアクセス性能が低下する。こうした異常は、RAID(Redundant Array Inexpensive(Independent) Disks)データの保存機能に障害をもたらす場合があり、冷却ファンに関する不良を検出する要請がある。
多くのストレージ装置は、冷却性能を保持するために冷却ファンの回転数を監視し外来振動を検出するものではないが、加速度センサを搭載するなどして外来振動を検出可能にするものもある。
特開2012−94214号公報 特開2009−3665号公報 特開2008−208806号公報 特開2004−207450号公報
しかしながら、ストレージ装置にとって外来振動は、必ずしもディスクドライブのアクセス性能を低下させるものでない。そのため、過剰な異常検出は、正常な冷却ファンの切り離しによる冷却性能の低下や、過剰な異常報知による異常報知の信頼性の低下につながる。
1つの側面では、本発明は、ストレージ装置のアクセス性能を低下させる冷却ファンを検出可能なストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法を提供することを目的とする。
上記目的を達成するために、以下に示すような、ストレージ制御装置が提供される。ストレージ制御装置は、複数の記憶装置と該記憶装置を冷却する複数のファンを筐体内に備えるストレージ装置の制御をおこなう。ストレージ制御装置は、ストレージ異常取得部と、ファン制御部と、ファン異常検出部と、を備える。ストレージ異常取得部は、複数の記憶装置のそれぞれにおけるアクセスの異常に関するストレージ異常情報を取得する。ファン制御部は、複数のファンのそれぞれの運転態様の組み合わせで定まる制御状態を、第1の制御状態と、第1の制御状態と異なる第2の制御状態とに切替制御する。ファン異常検出部は、第1の制御状態におけるストレージ異常情報と、第2の制御状態におけるストレージ異常情報とから記憶装置の異常に関係する、複数のファンのうちの少なくとも1のファンを検出する。
1態様によれば、ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法において、ストレージ装置のアクセス性能を低下させる冷却ファンを検出できる。
第1の実施形態のストレージ制御装置の構成の一例を示す図である。 第2の実施形態のストレージ装置の構成の一例を示す図である。 第2の実施形態の冷却ファン監視制御部と冷却ファンの一例を示す図である。 第2の実施形態の冷却ファン監視制御部のハードウェア構成の一例を示す図である。 第2の実施形態の冷却ファン監視制御部の機能構成の一例を示す図である。 第2の実施形態のエラー通知処理のフローチャートを示す図である。 第2の実施形態のエラー記録処理のフローチャートを示す図である。 第2の実施形態のファン異常判定処理のフローチャートを示す図である。 第2の実施形態の異常ファン検出処理のフローチャートを示す図である。 第2の実施形態の異常運転パタン検出処理のフローチャートを示す図である。 第2の実施形態の運転パタンテーブルの一例を示す図である。 第2の実施形態の温度監視制御処理のフローチャートを示す図である。 第3の実施形態のファン運転処理のフローチャートを示す図である。 第3の実施形態の運転パタンテーブルの一例を示す図である。 第3の実施形態のファン異常判定処理のフローチャートを示す図である。 第3の実施形態のエラー集計テーブルの一例を示す図である。 第4の実施形態のストレージ装置におけるディスクと冷却ファンの配置構成の一例を示す図である。
以下、図面を参照して実施の形態を詳細に説明する。
[第1の実施形態]
まず、第1の実施形態のストレージ装置について図1を用いて説明する。図1は、第1の実施形態のストレージ制御装置の構成の一例を示す図である。
ストレージ制御装置1は、ストレージ装置2の制御をおこなう。ストレージ装置2は、複数の記憶装置3と、記憶装置3を冷却する複数の冷却ファン4を筐体内に備える。ストレージ制御装置1は、ストレージ装置2が備える記憶装置3と、ストレージ装置2が備える冷却ファン4とを制御対象とする。なお、ストレージ制御装置1は、ストレージ装置2と別体に設けられる場合に限らず、ストレージ装置2と一体にして設けられるものであってもよい。
ストレージ装置2は、複数の記憶装置3(3a,3b,3c,3d)を備える。記憶装置3は、機械的要素を有する記憶装置であり、たとえば、ハードディスク(HDD:Hard Disk Drive)などのディスク媒体である。ハードディスクの場合、機械的要素は、R/Wヘッドの駆動機構や、スピンドルの回転機構などがある。
記憶装置3は、外来振動を原因の1つとしてエラーを発生しえる。エラーは、記憶装置3のアクセスの以上として検出可能であり、たとえば、ディスク媒体のトラッキングを失敗するオフトラックエラー、読出エラー、書込エラーなどがある。ストレージ装置2は、記憶装置3のエラーが記憶装置3のアクセス性能を低下させるため、エラーを惹起する外来振動を抑制することが望ましい。なお、図1は、ストレージ装置2が4つの記憶装置3を備える場合を示すが、ストレージ装置2が1または2以上の記憶装置3を備えるものであってもよい。
また、ストレージ装置2は、複数の冷却ファン4(4a,4b,4c,4d)を備える。冷却ファン4は、ストレージ装置2の筺体の吸排気、または筺体内の空気流の生成によりストレージ装置2の排熱を補助する。なお、図1は、ストレージ装置2が4つの冷却ファン4を備える場合を示すが、ストレージ装置2が冗長性を有して2以上の冷却ファン4を備えるものであればよい。
ストレージ制御装置1は、ストレージ異常取得部1aと、ファン制御部1bと、ファン異常検出部1cと、を備える。ストレージ異常取得部1aは、複数の記憶装置3のそれぞれにおけるアクセスの異常に関するストレージ異常情報5を取得する。ストレージ異常情報5は、たとえば、記憶装置3へのデータの書込エラーや、記憶装置3からのデータの読出エラーがある。
ファン制御部1bは、複数の冷却ファン4のそれぞれの運転態様の組み合わせで定まる制御状態を、第1の制御状態と、第1の制御状態と異なる第2の制御状態とに切替制御する。第1の制御状態と第2の制御状態は、複数の冷却ファン4のそれぞれの運転態様の組み合わせで定まる制御状態である。第2の制御状態は、ストレージ装置2を冷却する能力が第1の制御状態のときと比較して低下するような制御状態である。
冷却ファン4は、ファン制御6にしたがい、それぞれ独立して運転態様(たとえば、運転状態、停止状態、低速運転状態など)を変更可能である。たとえば、冷却ファン4は、AC(Alternating Current)モータが駆動源であり、パルス幅変調(ファン制御6)により運転態様を変更可能である。
第1の制御状態と第2の制御状態は、複数の冷却ファン4の運転態様の組合せ態様が異なる制御状態である。たとえば、第1の制御状態は、冷却ファン4a,4b,4c,4dのすべてを運転状態とする制御状態であり、第2の制御状態は、冷却ファン4a,4b,4cを運転状態として、冷却ファン4dを停止状態とする制御状態である。
ファン異常検出部1cは、第1の制御状態におけるストレージ異常情報7と、第2の制御状態におけるストレージ異常情報8とから記憶装置3の異常に関係する、複数の冷却ファン4のうちの少なくとも1つの冷却ファン4を検出する。ストレージ異常情報7は、たとえば、第1の制御状態における記憶装置3のエラー頻度であり、ストレージ異常情報8は、たとえば、第2の制御状態における記憶装置3のエラー頻度である。ストレージ異常情報7とストレージ異常情報8とに相違がある場合、ファン異常検出部1cは、第1の制御状態における冷却ファン4の運転態様の組合せと第2の制御状態における冷却ファン4の運転態様の組合せとの相違が原因であると推定する。これにより、ファン異常検出部1cは、複数の冷却ファン4のうち第1の制御状態と第2の制御状態とで運転態様の異なる冷却ファン4を、記憶装置3の異常に関係する冷却ファン4として検出できる。
このようにして、ストレージ制御装置1は、ストレージ装置2のアクセス性能を低下させる冷却ファン4を検出できる。
[第2の実施形態]
次に、第2の実施形態のストレージ装置の構成について図2を用いて説明する。図2は、第2の実施形態のストレージ装置の構成の一例を示す図である。
ストレージ装置10は、大容量の記憶領域を有する。ストレージ装置10は、コントローラモジュール11と、ディスクエンクロージャ14とを含む。ストレージ装置10は、コントローラモジュール11と、ディスクエンクロージャ14とを1つの格納筺体に納める。なお、ストレージ装置10は、コントローラモジュール11と、ディスクエンクロージャ14とを、それぞれ別個の格納筺体に納めるものであってもよい。
コントローラモジュール11は、RAID制御部12と、冷却ファン監視制御部13とを備える。ディスクエンクロージャ14は、複数のディスク(記憶装置)15(151,152,153,154)と、複数の冷却ファン16(161,162,163,164)を備える。なお、図2は、ディスク151,152,153,154を図示するが、ディスクエンクロージャ14が備えるディスク15は、4つに限らずいくつでもよい。また、図2は、冷却ファン161,162,163,164を図示するが、ディスクエンクロージャ14が備える冷却ファン16は、4つに限らず2以上であればいくつでもよい。
ディスク15は、機械的要素を有する記憶装置であり、たとえば、ハードディスクである。冷却ファン16は、ディスク15を収容する格納筺体の吸排気、または格納筺体内の空気流の生成により格納筺体からの排熱を補助する。冷却ファン16は、回転数を制御可能なモータにより駆動される。複数の冷却ファン16のそれぞれは、外部からの指示にしたがい運転態様を変更可能であり、運転中の回転数を検出して外部に通知可能にしている。
RAID制御部12は、複数のディスク15によりRAIDを構成し、図示しない外部装置からI/O要求に応えてディスク15のRead/Write制御をおこなう。また、RAID制御部12は、複数のディスク15のそれぞれからエラー情報を含む状態情報を収集可能である。RAID制御部12は、ディスク15からの通知により、あるいはディスク15への問い合わせによりエラー情報を収集可能にしている。
冷却ファン監視制御部13は、ディスク15を収容する格納筺体の温度を検出する温度センサ17から温度情報を取得する。冷却ファン監視制御部13は、取得した温度情報にもとづいて冷却ファン16を運転し、ディスク15の稼働環境を好適に保つ。
冷却ファン監視制御部13は、各冷却ファン16に対して運転態様を指示し、各冷却ファン16の回転数を収集して運転態様を監視する。また、冷却ファン監視制御部13は、RAID制御部12を介して複数のディスク15のエラー情報を収集する。冷却ファン監視制御部13は、各冷却ファン16の運転態様と、複数のディスク15のエラー状況とからディスク15のエラー発生要因となっている冷却ファン16を検出する。
なお、図2に示すストレージ装置10は、1つのコントローラモジュール11と1つのディスクエンクロージャ14を備えるが、1つのコントローラモジュール11と2以上のディスクエンクロージャ14を備えるものであってもよい。
次に、冷却ファン監視制御部と冷却ファンについて図3を用いて説明する。図3は、第2の実施形態の冷却ファン監視制御部と冷却ファンの一例を示す図である。
冷却ファン監視制御部13は、冷却ファン161,162,163,164のそれぞれに対して交流パルス幅変調方式で指示する電圧信号(回転数指示)により運転態様を制御する。冷却ファン161,162,163,164は、交流を印加されて駆動するACモータによりファンを駆動し空気流を生成する。冷却ファン161,162,163,164は、それぞれACモータの回転数を検出する図示しないセンサを有し、検出した回転数を電圧信号でパルス出力する。冷却ファン監視制御部13は、冷却ファン161,162,163,164がそれぞれ出力するパルス(回転数出力)を計数することで回転数(運転態様)を検出することができる。
冷却ファン監視制御部13は、冷却ファン161,162,163,164の運転態様が指示した運転態様に一致するか否かを判定することにより、冷却ファン161,162,163,164の異常を検出可能にしている。このような異常検出は、冷却ファン161,162,163,164の動作不良を好適に検出する。
次に、冷却ファン監視制御部13のハードウェア構成について図4を用いて説明する。図4は、第2の実施形態の冷却ファン監視制御部のハードウェア構成の一例を示す図である。
冷却ファン監視制御部13は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス106を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。プロセッサ101は、マルチプロセッサであってもよい。プロセッサ101は、たとえばCPU(Central Processing Unit)、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。またプロセッサ101は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組合せであってもよい。
RAM102は、冷却ファン監視制御部13の主記憶装置として使用される。RAM102には、プロセッサ101に実行させるオペレーティングシステム(Operating System)のプログラムやファームウェア、アプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、プロセッサ101による処理に必要な各種データ(たとえば、システム制御の情報管理)が格納される。また、RAM102は、各種データの格納に用いるメモリと別体にキャッシュメモリを含むものであってもよい。
バス106に接続されている周辺機器としては、不揮発性メモリ103、入出力インタフェース104、および通信インタフェース105がある。
不揮発性メモリ103は、冷却ファン監視制御部13の電源遮断時においても記憶内容を保持する。不揮発性メモリ103は、たとえば、EEPROM(Electrically Erasable and Programmable Read-Only Memory)やフラッシュメモリなどの半導体記憶装置や、HDDなどである。また、不揮発性メモリ103は、冷却ファン監視制御部13の補助記憶装置として使用される。不揮発性メモリ103には、オペレーティングシステムのプログラムやファームウェア、アプリケーションプログラム、および各種データが格納される。
入出力インタフェース104は、冷却ファン161,162,163,164、温度センサ17、および図示しない入出力装置と接続して入出力をおこなう。
通信インタフェース105は、RAID制御部12と接続して所要のデータの送受信をおこなう。また、通信インタフェース105は、図示しないネットワーク経由で外部装置と接続し所要のデータの送受信をおこなう。
以上のようなハードウェア構成によって、第2の実施形態の冷却ファン監視制御部13の処理機能を実現することができる。なお、冷却ファン監視制御部13の他、RAID制御部12、第1の実施形態に示したストレージ制御装置1も、図示した冷却ファン監視制御部13と同様のハードウェアにより実現することができる。
冷却ファン監視制御部13は、たとえばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第2の実施形態の処理機能を実現する。冷却ファン監視制御部13に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。たとえば、冷却ファン監視制御部13に実行させるプログラムを不揮発性メモリ103に格納しておくことができる。プロセッサ101は、不揮発性メモリ103内のプログラムの少なくとも一部をRAM102にロードし、プログラムを実行する。また冷却ファン監視制御部13に実行させるプログラムを、図示しない光ディスク、メモリ装置、メモリカードなどの可搬型記録媒体に記録しておくこともできる。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。メモリ装置は、入出力インタフェース104あるいは図示しない機器接続インタフェースとの通信機能を搭載した記録媒体である。たとえば、メモリ装置は、メモリリーダライタによりメモリカードへのデータの書き込み、またはメモリカードからのデータの読み出しをおこなうことができる。メモリカードは、カード型の記録媒体である。
可搬型記録媒体に格納されたプログラムは、たとえばプロセッサ101からの制御により、不揮発性メモリ103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。
次に、冷却ファン監視制御部13の機能構成について図5を用いて説明する。図5は、第2の実施形態の冷却ファン監視制御部の機能構成の一例を示す図である。
冷却ファン監視制御部13は、温度検出部131と、エラー検出部132と、ファン制御部133と、エラー検出履歴記録部134と、異常ファン特定部135と、異常処理部136とを備える。温度検出部131は、ディスク15を収容する格納筺体の温度を検出する。ファン制御部133は、ディスク15を収容する格納筺体の温度にもとづいて冷却ファン16の運転制御をおこなう。また、ファン制御部133は、外来振動源としての冷却ファン16を検出するための冷却ファン16の運転制御をおこなう。
エラー検出部132は、ディスク15のエラー(たとえば、オフトラックエラー)を検出する。エラー検出履歴記録部134は、ディスク15のエラー検出履歴(ストレージ異常情報取得履歴)を記録する。なお、エラー検出履歴の記録は、エラー検出時の冷却ファン16の運転態様との対応関係を有する。
異常ファン特定部135は、エラー検出履歴と、エラー検出履歴に対応する冷却ファン16の運転態様とからエラーの原因となっている冷却ファン16を異常ファンとして特定する。異常処理部136は、異常ファンを報知する。また、異常処理部136は、異常ファンとして特定された冷却ファン16の運転態様を変更する。
次に、第2の実施形態のエラー通知処理について図6を用いて説明する。図6は、第2の実施形態のエラー通知処理のフローチャートを示す図である。エラー通知処理は、RAID制御部12がRAID制御中に実行する処理である。
[ステップS11]RAID制御部12は、ディスク15からエラー通知があるか否かを判定する。RAID制御部12は、ディスク15からエラー通知がない場合にステップS12にすすみ、ディスク15からエラー通知がある場合にステップS13にすすむ。
[ステップS12]RAID制御部12は、ディスク15に対してリクエスト(たとえば、I/O要求)をおこなっていてリクエストから所定時間内に応答がないとき、タイムアウトエラーを検出する。RAID制御部12は、ディスク15のタイムアウトエラーを検出の有無を判定する。RAID制御部12は、ディスク15のタイムアウトエラーを検出していない場合にステップS11にすすみ、ディスク15のタイムアウトエラーを検出した場合にステップS13にすすむ。
[ステップS13]RAID制御部12は、ディスク15から通知されたエラー、およびRAID制御部12が検出したタイムアウトエラーを冷却ファン監視制御部13に通知する。
次に、第2の実施形態のエラー記録処理について図7を用いて説明する。図7は、第2の実施形態のエラー記録処理のフローチャートを示す図である。エラー記録処理は、冷却ファン監視制御部13がストレージ装置10の稼働中に実行する処理である。
[ステップS21]冷却ファン監視制御部13(エラー検出部132)は、ディスク15がRAID制御部12に通知したエラー、またはRAID制御部12が検出したタイムアウトエラーを、RAID制御部12から通知されたか否かを判定する。冷却ファン監視制御部13は、エラーの通知があればステップS22にすすみ、エラーの通知がなければエラーの通知を待ち受ける。
[ステップS22]冷却ファン監視制御部13(エラー検出履歴記録部134)は、通知されたエラーをエラー検出履歴として記録する。冷却ファン監視制御部13は、併せて冷却ファン16の運転態様を記録する。なお、通知されたエラーについてエラー検出時の冷却ファン16の運転態様との対応関係を特定可能であればよく、エラー検出履歴は、必ずしも冷却ファン16の運転態様の記録を要しない。なお、エラー検出履歴は、エラー種別、ディスク15の識別情報、ディスク15の搭載位置(たとえば、スロット番号)などを含むものであってもよい。
これにより、冷却ファン監視制御部13は、ディスク15のエラーの検出と、エラー検出履歴の記録とをおこなうことができる。
次に、第2の実施形態のファン異常判定処理について図8を用いて説明する。図8は、第2の実施形態のファン異常判定処理のフローチャートを示す図である。ファン異常判定処理は、冷却ファン監視制御部13がストレージ装置10の稼働中に実行する処理である。
[ステップS31]冷却ファン監視制御部13(異常ファン特定部135)は、エラー検出履歴記録部134が記録するエラー検出履歴にもとづいて、所定の監視時間内のエラー発生異常の有無を判定する。たとえば、冷却ファン監視制御部13は、直近10分のディスク15のオフトラックエラーの発生頻度が所定の閾値を超えたか否かにより、エラー発生異常の有無を判定する。冷却ファン監視制御部13は、エラー発生異常があるとした場合にステップS32にすすみ、エラー発生異常がないとした場合にエラー発生異常を待ち受ける。
[ステップS32]冷却ファン監視制御部13(異常ファン特定部135)は、異常ファン検出処理を実行する。異常ファン検出処理は、ディスク15のオフトラックエラーの発生原因となる冷却ファン16(異常ファン)を検出する処理である。異常ファン検出処理の詳細は、図9を用いて後で説明する。
[ステップS33]冷却ファン監視制御部13(異常ファン特定部135)は、異常ファンを検出したか否かを判定する。冷却ファン監視制御部13は、異常ファンを検出した場合にステップS36にすすみ、異常ファンを検出していない場合にステップS34にすすむ。
[ステップS34]冷却ファン監視制御部13(異常ファン特定部135)は、異常運転パタン検出処理を実行する。異常運転パタン検出処理は、ディスク15のオフトラックエラーの発生原因となる冷却ファン16の運転パタン(異常運転パタン)を検出する処理である。異常運転パタンは、複数の冷却ファン16の運転態様の組合せのうちディスク15のオフトラックエラーの発生原因となる特定の組合せである。異常運転パタン検出処理の詳細は、図10を用いて後で説明する。
[ステップS35]冷却ファン監視制御部13(異常ファン特定部135)は、異常運転パタンを検出したか否かを判定する。冷却ファン監視制御部13は、異常運転パタンを検出した場合にステップS36にすすみ、異常運転パタンを検出していない場合にステップS31にすすむ。
[ステップS36]冷却ファン監視制御部13(異常処理部136)は、検出した異常ファンまたは異常運転パタンをあらかじめ設定した態様で報知する。たとえば、冷却ファン監視制御部13は、図示しない表示部により報知内容を表示出力することができる。また、冷却ファン監視制御部13は、図示しない外部装置に対して報知内容を送信することができる。
[ステップS37]冷却ファン監視制御部13(異常処理部136)は、検出した異常に対処する。具体的には、冷却ファン監視制御部13は、検出した異常ファンの運転態様を変更、または異常運転パタンの除外をおこなう。たとえば、冷却ファン監視制御部13は、検出した異常ファンを停止、あるいは通常運転から低速運転に変更する。冷却ファン監視制御部13は、検出した異常に対処した後、ステップS31にすすむ。
このように、冷却ファン監視制御部13は、オフトラックエラーの発生原因の特定と除去とをおこなうことができる。したがって、ストレージ装置10は、ストレージ装置10におけるディスク15のアクセス性能を低下させる冷却ファン16を検出できる。
なお、ステップS31における所定の監視時間内のエラー発生異常の有無の判定は、異常ファン検出処理および異常運転パタン検出処理の実行契機を決定するものである。冷却ファン監視制御部13は、所定の監視時間内のエラー発生異常の有無の判定に代えて、所定の設定タイミングや、所定の稼働時間経過タイミングを、異常ファン検出処理および異常運転パタン検出処理の実行契機としてもよい。
次に、第2の実施形態の異常ファン検出処理について図9を用いて説明する。図9は、第2の実施形態の異常ファン検出処理のフローチャートを示す図である。異常ファン検出処理は、冷却ファン監視制御部13(異常ファン特定部135)がファン異常判定処理のステップS32で実行する処理である。
[ステップS41]冷却ファン監視制御部13は、複数の冷却ファン16のうちから1つを、検証対象ファンとして選択する。
[ステップS42]冷却ファン監視制御部13は、検証対象ファンの運転態様を変更する。たとえば、冷却ファン監視制御部13は、検証対象ファンの運転態様が通常運転である場合に、検証対象ファンの運転態様を低速運転に変更し、検証対象ファンの運転態様が低速運転である場合に、検証対象ファンの運転態様を停止に変更する。
[ステップS43]冷却ファン監視制御部13は、検証対象ファンの検証時間を設定する。たとえば、冷却ファン監視制御部13は、検証時間として10分を設定する。
[ステップS44]冷却ファン監視制御部13は、ステップS43で設定した検証時間が経過したか否かを判定する。冷却ファン監視制御部13は、検証時間が経過した場合にステップS45にすすみ、検証時間が経過していない場合に検証時間の経過を待つ。
[ステップS45]冷却ファン監視制御部13は、検証時間のエラー検出履歴を取得する。
[ステップS46]冷却ファン監視制御部13は、検証前と比較して、検証時間中のエラー発生頻度が改善(減少)しているか否かを判定する。冷却ファン監視制御部13は、検証時間中のエラー発生頻度が改善している場合にステップS47にすすみ、検証時間中のエラー発生頻度が改善していない場合にステップS48にすすむ。
[ステップS47]冷却ファン監視制御部13は、運転態様の変更により検証時間中のエラー発生頻度を改善した検証対象ファンを異常ファンとして特定(検出)し、異常ファン検出処理を終了する。
[ステップS48]冷却ファン監視制御部13は、検証対象ファンについてすべての運転態様を検証したか否かを判定する。冷却ファン監視制御部13は、すべての運転態様を検証した場合にステップS49にすすみ、未だすべての運転態様を検証していない場合にステップS42にすすむ。これにより、冷却ファン監視制御部13は、検証対象ファンについてすべての運転態様(たとえば、停止、通常運転、低速運転)がオフトラックエラーの発生原因となっているかを検証することができる。
[ステップS49]冷却ファン監視制御部13は、すべての冷却ファン16を検証したか否かを判定する。冷却ファン監視制御部13は、すべての冷却ファン16を検証した場合にステップS50にすすみ、未だすべての冷却ファン16を検証していない場合にステップS41にすすむ。これにより、冷却ファン監視制御部13は、すべての冷却ファン16についてオフトラックエラーの発生原因となっているかを検証することができる。
[ステップS50]冷却ファン監視制御部13は、すべての冷却ファン16について単独でオフトラックエラーの発生原因となっていないと判定し、異常ファンを特定できないことから異常ファンを非検出とし、異常ファン検出処理を終了する。
これにより、冷却ファン監視制御部13は、冷却ファン16が単独でオフトラックエラーの発生原因となっている場合に、異常ファンを特定することができる。したがって、ストレージ装置10は、ストレージ装置10におけるディスク15のアクセス性能を低下させる冷却ファン16を検出できる。
なお、冷却ファン監視制御部13は、検証時間中のエラー発生頻度が改善している場合に、冷却ファン16の以降の検証をステップS46で打ち切っているが、すべての冷却ファン16の検証を待って異常ファン検出処理を終了するようにしてもよい。
次に、第2の実施形態の異常運転パタン検出処理について図10を用いて説明する。図10は、第2の実施形態の異常運転パタン検出処理のフローチャートを示す図である。異常運転パタン検出処理は、冷却ファン監視制御部13(異常ファン特定部135)がファン異常判定処理のステップS34で実行する処理である。
[ステップS51]冷却ファン監視制御部13は、複数の冷却ファン16の運転パタンの組合せから1つの運転パタンを、検証対象運転パタンとして選択する。なお、複数の冷却ファン16の運転パタンの組合せは、図11に示すような運転パタンテーブルとしてあらかじめ用意されるものであってもよい。図11は、第2の実施形態の運転パタンテーブルの一例を示す図である。運転パタンテーブル50は、あらかじめ複数の運転パタンP1,P2,P3,…を定義する。運転パタンは、冷却ファン16(161,162,163,164)に対応する冷却ファン(ファンA,ファンB,ファンC,ファンD)毎の運転態様の組合せを定義する。たとえば、運転パタンP1は、ファンAとファンBが「低速」運転、ファンCとファンDが「通常」運転である。運転パタンテーブルは、すべての運転パタンを定義したものであってもよいし、限定した運転パタンを定義したものであってもよい。このような運転パタンテーブル50を用いることにより、冷却ファン監視制御部13は、運転パタンテーブル50に定義されている運転パタンから検証対象運転パタンを選択することができる。
[ステップS52]冷却ファン監視制御部13は、冷却ファン16について検証対象運転パタンに対応する運転態様に変更する。
[ステップS53]冷却ファン監視制御部13は、検証対象運転パタンの検証時間を設定する。たとえば、冷却ファン監視制御部13は、検証時間として10分を設定する。
[ステップS54]冷却ファン監視制御部13は、ステップS53で設定した検証時間が経過したか否かを判定する。冷却ファン監視制御部13は、検証時間が経過した場合にステップS55にすすみ、検証時間が経過していない場合に検証時間の経過を待つ。
[ステップS55]冷却ファン監視制御部13は、検証時間のエラー検出履歴を取得する。
[ステップS56]冷却ファン監視制御部13は、検証前と比較して、検証時間中のエラー発生頻度が改善(減少)しているか否かを判定する。冷却ファン監視制御部13は、検証時間中のエラー発生頻度が改善している場合にステップS57にすすみ、検証時間中のエラー発生頻度が改善していない場合にステップS58にすすむ。
[ステップS57]冷却ファン監視制御部13は、運転態様の変更により検証時間中のエラー発生頻度を改善した検証対象運転パタンを異常運転パタンとして特定(検出)し、異常運転パタン検出処理を終了する。
[ステップS58]冷却ファン監視制御部13は、すべての検証対象運転パタンを検証したか否かを判定する。冷却ファン監視制御部13は、すべての検証対象運転パタンを検証した場合にステップS59にすすみ、未だすべての検証対象運転パタンを検証していない場合にステップS51にすすむ。これにより、冷却ファン監視制御部13は、冷却ファン16の運転態様(たとえば、停止、通常運転、低速運転)の組合せがオフトラックエラーの発生原因となっているかを検証することができる。
[ステップS59]冷却ファン監視制御部13は、すべての検証対象運転パタンについてオフトラックエラーの発生原因となっていないと判定し、異常運転パタンを特定できないことから異常運転パタンを非検出とし、異常運転パタン検出処理を終了する。
これにより、冷却ファン監視制御部13は、冷却ファン16の運転態様の組合せがオフトラックエラーの発生原因となっている場合に、異常ファンを特定することができる。したがって、ストレージ装置10は、ストレージ装置10におけるディスク15のアクセス性能を低下させる冷却ファン16を検出できる。
なお、冷却ファン監視制御部13は、検証時間中のエラー発生頻度が改善している場合に、運転パタンの以降の検証をステップS56で打ち切っているが、すべての運転パタンの検証を待って異常運転パタン検出処理を終了するようにしてもよい。
次に、第2の実施形態の温度監視制御処理について図12を用いて説明する。図12は、第2の実施形態の温度監視制御処理のフローチャートを示す図である。温度監視制御処理は、冷却ファン監視制御部13がストレージ装置10の稼働中に実行する処理である。
[ステップS61]冷却ファン監視制御部13(温度検出部131)は、ストレージ装置10のディスク15の格納筺体内の温度(装置内温度)を取得する。
[ステップS62]冷却ファン監視制御部13(ファン制御部133)は、装置内温度があらかじめ設定している第1の閾値温度を超える第1の温度異常であるか否かを判定する。冷却ファン監視制御部13は、第1の温度異常である場合にステップS63にすすみ、第1の温度異常でない場合にステップS61にすすむ。
[ステップS63]冷却ファン監視制御部13(ファン制御部133)は、冷却ファン監視制御部13(異常ファン特定部135)が異常ファン検出処理または異常運転パタン検出処理を実行中であるか否かを判定する。冷却ファン監視制御部13(ファン制御部133)は、冷却ファン監視制御部13(異常ファン特定部135)が異常ファン検出処理または異常運転パタン検出処理を実行中である場合にステップS64にすすむ。
[ステップS64]冷却ファン監視制御部13(異常ファン特定部135)は、実行中の異常ファン検出処理、または実行中の異常運転パタン検出処理を中止する。
[ステップS65]冷却ファン監視制御部13(ファン制御部133)は、装置内温度があらかじめ設定している第2の閾値温度を超える第2の温度異常であるか否かを判定する。なお、第2の閾値温度は、第1の閾値温度よりも高い温度である。たとえば、第2の閾値温度は、ストレージ装置10の正常な動作を保証できない温度である。冷却ファン監視制御部13は、第2の温度異常である場合にステップS66にすすみ、第2の温度異常でない場合にステップS61にすすむ。
[ステップS66]冷却ファン監視制御部13(ファン制御部133)は、異常温度検出処理を実行する。冷却ファン監視制御部13は、異常温度検出処理を実行後、ステップS61にすすむ。冷却ファン監視制御部13は、異常温度検出処理において温度異常を示す警報(ワーニング)出力をおこなう。なお、異常温度検出処理は、不良部品の特定、点検を管理者に促すために、ストレージ装置10を安全に停止するための処理を含むものであってもよい。
これにより、ストレージ装置10は、ストレージ装置10の稼働環境を安全に維持しながら、オフトラックエラーの発生原因を特定することができる。
また、ストレージ装置10は、単に、冷却ファン16の共振を検出して冷却ファン16の異常を判定するものではないことから、冷却ファン16に対して過剰な不良特定や、運転停止をおこなうことがない。これにより、ストレージ装置10は、冷却性能が逼迫するような冗長性の喪失機会を低減することができる。また、冷却ファン16に対して不必要な不良特定や、運転停止を排除することから、ストレージ装置10の冷却ファン16にかかる管理コスト(たとえば、交換部品の手配や、異常監視に係る人的コストなど)を低減することもできる。
また、冷却ファン16の共振を検出できないような場合であっても、ストレージ装置10は、オフトラックエラーの発生原因となる冷却ファン16を特定することができる。これにより、ストレージ装置10は、ディスク15がオフトラックエラーを繰り返すことによるディスク15の寿命劣化を低減することもできる。ストレージ装置10は、ディスク15の寿命劣化を低減することにより、ストレージ装置10のディスク15にかかる管理コスト(たとえば、交換部品の手配や、異常監視に係る人的コストなど)を低減することもできる。
[第3の実施形態]
次に、第3の実施形態について説明する。第3の実施形態は、通常時から運転パタンの切替をおこなう点で、エラー発生異常時に異常ファン検出処理または異常運転パタン検出処理を実行する第2の実施形態と異なる。なお、第3の実施形態の説明では、第2の実施形態との相違点について説明し、第2の実施形態と同様の構成については説明を省略する。
まず、第3の実施形態のファン運転処理について図13を用いて説明する。図13は、第3の実施形態のファン運転処理のフローチャートを示す図である。ファン運転処理は、冷却ファン監視制御部13がストレージ装置10の稼働中に実行する処理である。
[ステップS71]冷却ファン監視制御部13(温度検出部131)は、ストレージ装置10のディスク15の格納筺体内の温度(装置内温度)を取得する。
[ステップS72]冷却ファン監視制御部13(ファン制御部133)は、装置内温度に対応する冷却ファン16の運転パタンを選択し、冷却ファン16の運転態様を更新する。なお、複数の冷却ファン16の運転パタンの組合せは、図14に示すような運転パタンテーブルとしてあらかじめ用意されるものであってもよい。図14は、第3の実施形態の運転パタンテーブルの一例を示す図である。運転パタンテーブル51は、あらかじめ複数の運転パタンP01,P02,P03,…を定義する。運転パタンは、冷却ファン16(161,162,163,164)に対応する冷却ファン(ファンA,ファンB,ファンC,ファンD)毎の運転態様の組合せを定義する。たとえば、運転パタンP02は、ファンAが停止、ファンBとファンCとファンDが「通常」運転である。運転パタンP010は、ファンAとファンCが「低速」運転、ファンBとファンDが「通常」運転である。運転パタンテーブルは、すべての運転パタンを定義したものであってもよいし、限定した運転パタンを定義したものであってもよい。また、各運転パタンは、冷却ファン16毎の運転態様の組合せに加え、その運転パタンを選択可能な装置内温度が設定されている。たとえば、運転パタンP02は、装置内温度が「T1」以下で選択可能であり、装置内温度が「T1」を超えると選択不可となる。
このような運転パタンテーブル51を用いることにより、冷却ファン監視制御部13は、運転パタンテーブル51に定義されている運転パタンから装置内温度に応じて運転パタンを選択することができる。
[ステップS73]冷却ファン監視制御部13(ファン制御部133)は、選択した運転パタンの運転時間を設定する。たとえば、冷却ファン監視制御部13は、運転時間として60分を設定する。選択した運転パタンの運転時間は、通常時におこなうことから、第2の実施形態の検証時間と比較して長い時間を採用できる。
[ステップS74]冷却ファン監視制御部13(ファン制御部133)は、冷却ファン16の運転パタンを運転履歴(制御状態切替履歴)として記録する。
[ステップS75]冷却ファン監視制御部13(温度検出部131)は、ストレージ装置10のディスク15の格納筺体内の温度(装置内温度)を取得する。
[ステップS76]冷却ファン監視制御部13(ファン制御部133)は、装置内温度が冷却ファン16の運転パタンの選択条件の範囲内であるか否かを判定する。冷却ファン監視制御部13は、装置内温度が冷却ファン16の運転パタンの選択条件の範囲内である場合にステップS77にすすみ、装置内温度が冷却ファン16の運転パタンの選択条件の範囲外である場合にステップS71にすすむ。すなわち、冷却ファン監視制御部13は、装置内温度に応じた運転パタンを選択し直すことで、ストレージ装置10の装置内温度の上昇を抑制する。
[ステップS77]冷却ファン監視制御部13(ファン制御部133)は、ステップS73で設定した運転時間が経過したか否かを判定する。冷却ファン監視制御部13は、運転時間が経過した場合にステップS71にすすみ、運転時間が経過していない場合にステップS74にすすみ、運転時間の経過を待つ。すなわち、冷却ファン監視制御部13は、設定した運転時間の経過毎に運転パタンを選択し直すことで、ストレージ装置10における冷却ファン16の多様な運転履歴を蓄積する。
なお、ステップS72でおこなう運転パタンの選択は、運転パタンテーブル51から運転パタンを順次選択するものであってもよいし、無作為に選択するものであってもよい。また、ステップS72でおこなう運転パタンの選択は、あらかじめスケジュールされたものであってもよい。
このように、冷却ファン監視制御部13は、通常時から多様な運転履歴を蓄積することができるので、異常発生時に冷却ファン16の冷却能力を低減するような検証運転を必要としない。
次に、第3の実施形態のファン異常判定処理について図15を用いて説明する。図15は、第3の実施形態のファン異常判定処理のフローチャートを示す図である。第3の実施形態のファン異常判定処理は、冷却ファン監視制御部13が所定の契機で実行する処理である。たとえば、所定の契機は、24時間毎などのタイマ契機、あるいはエラー率の上昇検出などのイベント契機がある。
[ステップS81]冷却ファン監視制御部13(異常ファン特定部135)は、ファン運転処理で蓄積した運転履歴を取得する。
[ステップS82]冷却ファン監視制御部13(異常ファン特定部135)は、第2の実施形態で説明したエラー記録処理で蓄積したファン運転処理で蓄積したエラー検出履歴を取得する。
[ステップS83]冷却ファン監視制御部13(異常ファン特定部135)は、運転履歴とエラー検出履歴とから運転パタン毎のエラーを集計する。冷却ファン監視制御部13は、運転履歴から運転パタン毎の運転時間を特定し、エラー検出履歴から運転パタン毎のエラー発生回数を特定できる。冷却ファン監視制御部13は、運転パタン毎の運転時間と運転パタン毎のエラー発生回数とから運転パタン毎のエラー頻度を算出できる。
これにより、冷却ファン監視制御部13(異常ファン特定部135)は、図16に示すようなエラー集計テーブルを生成するようにしてもよい。図16は、第3の実施形態のエラー集計テーブルの一例を示す図である。エラー集計テーブル52は、運転パタン毎の運転時間とエラー発生回数とエラー頻度とを保持する。たとえば、運転パタンP01の運転時間はOT1であり、エラー発生回数はET1、エラー頻度はEF1である。冷却ファン監視制御部13は、エラー集計テーブル52を参照して運転パタンとエラーの関係を評価することができる。
[ステップS84]冷却ファン監視制御部13(異常ファン特定部135)は、運転パタン毎のエラー頻度を比較する。なお、エラー頻度の比較において、冷却ファン監視制御部13は、誤差を排除するため比較対象となる運転パタンを所定の運転時間を超えるものに制限してもよい。
[ステップS85]冷却ファン監視制御部13(異常ファン特定部135)は、運転パタンのうちから高頻度にエラーを発生する運転パタン(異常運転パタン)があるか否かを判定する。たとえば、冷却ファン監視制御部13は、運転パタン毎のエラー頻度のばらつきを評価し、あらかじめ設定した範囲内にない場合にエラー頻度が高頻度であるとする。冷却ファン監視制御部13は、異常運転パタンがある場合にステップS86にすすみ、異常運転パタンがない場合にファン異常判定処理を終了する。
[ステップS86]冷却ファン監視制御部13(異常処理部136)は、検出した異常運転パタンをあらかじめ設定した態様で報知する。たとえば、冷却ファン監視制御部13は、図示しない表示部により報知内容を表示出力することができる。また、冷却ファン監視制御部13は、図示しない外部装置に対して報知内容を送信することができる。
[ステップS87]冷却ファン監視制御部13(異常処理部136)は、検出した異常に対処する。具体的には、冷却ファン監視制御部13は、検出した異常運転パタンの除外をおこなう。たとえば、冷却ファン監視制御部13は、検出した異常運転パタンでの運転を制限する。冷却ファン監視制御部13は、検出した異常に対処した後、ファン異常判定処理を終了する。
これにより、ストレージ装置10は、ストレージ装置10の稼働環境を安全に維持しながら、オフトラックエラーの発生原因を特定することができる。また、冷却ファン監視制御部13は、具体的なストレージ装置10の障害を検出する前に、異常運転パタンを除外することができる。
また、ストレージ装置10は、単に、冷却ファン16の共振を検出して冷却ファン16の異常を判定するものではないことから、冷却ファン16に対して過剰な不良特定や、運転停止をおこなうことがない。これにより、ストレージ装置10は、冷却性能が逼迫するような冗長性の喪失機会を低減することができる。また、冷却ファン16に対して不必要な不良特定や、運転停止を排除することから、ストレージ装置10の冷却ファン16にかかる管理コスト(たとえば、交換部品の手配や、異常監視に係る人的コストなど)を低減することもできる。
ここで、ストレージ装置におけるディスクと冷却ファンの配置構成について図17を用いて説明する。図17は、第4の実施形態のストレージ装置におけるディスクと冷却ファンの配置構成の一例を示す図である。
ストレージ装置10は、2つの電源ユニット62と、2つの筐体監視制御ユニット63と、複数のディスク15を筐体61内に収容して備える。筐体監視制御ユニット63は、筐体61内の各部の監視制御をおこない、たとえば、コントローラモジュール11に相当する機能を有する。
ストレージ装置10は、筺体61の前面(紙面右上方向)側にディスク15を配置し、筺体61の背面(紙面左下方向)側に電源ユニット62と筐体監視制御ユニット63を配置する。電源ユニット62は、筺体61の底面側に位置し、筐体監視制御ユニット63は、対となる電源ユニット62の上面側に位置する。電源ユニット62は、2つの通風口64を筺体61の背面側に臨ませ、それぞれの通風口64に臨むようにして2つの冷却ファン16を備える。冷却ファン16は、大きな熱源となる電源ユニット62の冷却をおこなうほか、筐体61内に空気の流れを作り、ディスク15を含めて筺体61内を冷却する。このような冷却ファン16は、ストレージ装置10の振動源となり得る。また、冷却ファン16とディスク15の位置関係によっては、振動を直接観測することにより振動源を特定することが容易でない。
このようなストレージ装置10において、冷却ファン16の振動あるいは共振を検出できないような場合であっても、ストレージ装置10は、オフトラックエラーの発生原因となる冷却ファン16を特定することができる。これにより、ストレージ装置10は、ディスク15がオフトラックエラーを繰り返すことによるディスク15の寿命劣化を低減することもできる。ストレージ装置10は、ディスク15の寿命劣化を低減することにより、ストレージ装置10のディスク15にかかる管理コスト(たとえば、交換部品の手配や、異常監視に係る人的コストなど)を低減することもできる。
なお、異常ファン検出の対象となるディスク15のエラーとしてオフトラックエラーを例示したが、これはライトオフトラックエラー(ライト時のオフトラックエラー)と、リードオフトラックエラー(リード時のオフトラックエラー)を含むものである。また、ディスク15のエラーとしてオフトラックエラーに限らないエラーを、異常ファン検出の対象となるディスク15のエラーとしてもよい。また、ストレージ装置10は、すべてのディスク15のエラーのうちいずれを異常ファン検出の対象となるディスク15のエラーとするかを、あらかじめ設定可能にしてもよい。
なお、ストレージ装置10は、既知の統計的手法を用いて異常ファンまたは異常運転パタンを特定するようにしてもよい。また、ストレージ装置10は、エラー種別、ディスク15の識別情報、ディスク15の搭載位置などの情報を、運転履歴、エラー検出履歴、およびエラー集計テーブルに含めて記録するようにしてもよい。この場合、ストレージ装置10は、エラー種別、ディスク15の識別情報、ディスク15の搭載位置などの条件毎に統計処理をおこない、既知の統計的手法を用いて異常ファンまたは異常運転パタンを特定することができる。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、ストレージ装置10、第1の実施形態に示したストレージ制御装置1が有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD、DVD−RAM、CD−ROM/RWなどがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
また、上記の処理機能の少なくとも一部を、DSP、ASIC、PLDなどの電子回路で実現することもできる。
1 ストレージ制御装置
1a ストレージ異常取得部
1b ファン制御部
1c ファン異常検出部
2 ストレージ装置
3,3a,3b,3c,3d 記憶装置
4,4a,4b,4c,4d 冷却ファン
5 ストレージ異常情報
6 ファン制御
7,8 ストレージ異常情報
10 ストレージ装置
11 コントローラモジュール
12 RAID制御部
13 冷却ファン監視制御部
14 ディスクエンクロージャ
15,151,152,153,154 ディスク
16,161,162,163,164 冷却ファン
17 温度センサ
50,51 運転パタンテーブル
52 エラー集計テーブル
61 筐体
62 電源ユニット
63 筐体監視制御ユニット
64 通風口
101 プロセッサ
102 RAM
103 不揮発性メモリ
104 入出力インタフェース
105 通信インタフェース
106 バス
131 温度検出部
132 エラー検出部
133 ファン制御部
134 エラー検出履歴記録部
135 異常ファン特定部
136 異常処理部

Claims (10)

  1. 複数の記憶装置と該記憶装置を冷却する複数のファンを筐体内に備えるストレージ装置の制御をおこなうストレージ制御装置であって、
    前記複数の記憶装置のそれぞれにおけるアクセスの異常に関するストレージ異常情報を取得するストレージ異常取得部と、
    前記複数のファンのそれぞれの運転態様の組み合わせで定まる制御状態を、第1の制御状態と、前記第1の制御状態と異なる第2の制御状態とに切替制御するファン制御部と、
    前記第1の制御状態におけるストレージ異常情報と、前記第2の制御状態におけるストレージ異常情報とから前記記憶装置の異常に関係する、前記複数のファンのうちの少なくとも1のファンを検出するファン異常検出部と、
    を備えることを特徴とするストレージ制御装置。
  2. 前記ファン異常検出部は、前記第1の制御状態における前記記憶装置の異常発生頻度と前記第2の制御状態における前記記憶装置の異常発生頻度との比較により、前記複数のファンのうち前記第1の制御状態と前記第2の制御状態とで運転態様の異なるファンを前記記憶装置の異常に関係するファンとして検出することを特徴とする請求項1記載のストレージ制御装置。
  3. 前記ストレージ異常取得部は、前記ストレージ異常情報のストレージ異常情報取得履歴を記録し、
    前記ファン制御部は、所定の契機に前記第1の制御状態と前記第2の制御状態とを切り替え、前記第1の制御状態と前記第2の制御状態との制御状態切替履歴を記録し、
    前記ファン異常検出部は、前記ストレージ異常情報取得履歴と前記制御状態切替履歴とから、前記第1の制御状態におけるストレージ異常情報と前記第2の制御状態におけるストレージ異常情報とを比較し、前記記憶装置の異常に関係する前記複数のファンのうちの少なくとも1のファンを検出することを特徴とする請求項1記載のストレージ制御装置。
  4. 前記第2の制御状態は、前記ストレージ装置を冷却する能力が前記第1の制御状態のときと比較して低下するような、前記複数のファンのそれぞれの運転態様の組み合わせで定まる制御状態であることを特徴とする請求項1乃至請求項3のいずれか1項記載のストレージ制御装置。
  5. 前記第2の制御状態は、前記第1の制御状態と比較して、2以上の前記ファンの運転態様が異なることを特徴とする請求項1乃至請求項4のいずれか1項記載のストレージ制御装置。
  6. 前記運転態様は、通常運転、通常運転より回転速度を低下させた低速運転、運転停止の運転態様を少なくとも含むことを特徴とする請求項1乃至請求項5のいずれか1項記載のストレージ制御装置。
  7. 前記ファン制御部は、所定回数のアクセスの異常を検出した場合に、前記第1の制御状態から前記第2の制御状態に切り替えることを特徴とする請求項1記載のストレージ制御装置。
  8. 前記ストレージ異常情報は、前記記憶装置におけるオフトラックエラーを含むことを特徴とする請求項1乃至7のいずれか1項記載のストレージ制御装置。
  9. 複数の記憶装置と該記憶装置を冷却する複数のファンを筐体内に備えるストレージ装置のストレージ制御プログラムであって、
    コンピュータに、
    前記複数の記憶装置のそれぞれにおけるアクセスの異常に関するストレージ異常情報を取得し、
    前記複数のファンのそれぞれの運転態様の組み合わせで定まる制御状態を、第1の制御状態と、前記第1の制御状態と異なる第2の制御状態とに切替制御し、
    前記第1の制御状態におけるストレージ異常情報と、前記第2の制御状態におけるストレージ異常情報とから前記記憶装置の異常に関係する、前記複数のファンのうちの少なくとも1のファンを検出する、
    処理を実行させることを特徴とするストレージ制御プログラム。
  10. 複数の記憶装置と該記憶装置を冷却する複数のファンを筐体内に備えるストレージ装置のストレージ制御方法であって、
    コンピュータが、
    前記複数の記憶装置のそれぞれにおけるアクセスの異常に関するストレージ異常情報を取得し、
    前記複数のファンのそれぞれの運転態様の組み合わせで定まる制御状態を、第1の制御状態と、前記第1の制御状態と異なる第2の制御状態とに切替制御し、
    前記第1の制御状態におけるストレージ異常情報と、前記第2の制御状態におけるストレージ異常情報とから前記記憶装置の異常に関係する、前記複数のファンのうちの少なくとも1のファンを検出する、
    処理を実行することを特徴とするストレージ制御方法。
JP2013239258A 2013-11-19 2013-11-19 ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法 Expired - Fee Related JP6079578B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013239258A JP6079578B2 (ja) 2013-11-19 2013-11-19 ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法
US14/476,003 US9384077B2 (en) 2013-11-19 2014-09-03 Storage control apparatus and method for controlling storage apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013239258A JP6079578B2 (ja) 2013-11-19 2013-11-19 ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法

Publications (2)

Publication Number Publication Date
JP2015099625A JP2015099625A (ja) 2015-05-28
JP6079578B2 true JP6079578B2 (ja) 2017-02-15

Family

ID=53174540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013239258A Expired - Fee Related JP6079578B2 (ja) 2013-11-19 2013-11-19 ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法

Country Status (2)

Country Link
US (1) US9384077B2 (ja)
JP (1) JP6079578B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11023605B1 (en) * 2017-04-20 2021-06-01 EMC IP Holding Company LLC Data access threat detection and prevention
US20190116690A1 (en) * 2017-10-12 2019-04-18 Quanta Computer Inc. Dynamically adjust maximum fan duty in a server system
JP7045652B2 (ja) * 2018-05-10 2022-04-01 村田機械株式会社 ストレージ装置
US20240130069A1 (en) * 2022-10-18 2024-04-18 Mellanox Technologies, Ltd. Computing devices with improved thermal management

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2891435B2 (ja) * 1991-03-01 1999-05-17 富士通株式会社 冷却装置
JP3890295B2 (ja) 2002-12-25 2007-03-07 埼玉日本電気株式会社 放熱用ファンユニット及び放熱用ファン構成決定方法
JP4910766B2 (ja) 2007-02-27 2012-04-04 日本電気株式会社 ファン故障診断装置、ファン故障診断方法及びプログラム
JP2009003665A (ja) * 2007-06-21 2009-01-08 Hitachi Ltd Fan制御方法
US20090266511A1 (en) * 2008-04-29 2009-10-29 Rob Yang Methods and systems for using a storage device to control and manage external cooling devices
US8374731B1 (en) * 2008-12-24 2013-02-12 Emc Corporation Cooling system
WO2011155003A1 (en) * 2010-06-11 2011-12-15 Hitachi, Ltd. Storage apparatus and method of controlling cooling fans for storage apparatus
JP2012094214A (ja) 2010-10-27 2012-05-17 Hitachi Ltd 制振システム装置
US8904201B2 (en) * 2011-09-26 2014-12-02 Hitachi, Ltd. Storage system and its control method
WO2014061060A1 (en) * 2012-10-18 2014-04-24 Hitachi, Ltd. Storage apparatus and storage controller of said storage apparatus
JP5660179B1 (ja) * 2013-09-13 2015-01-28 日本電気株式会社 管理制御システム、サーバシステム、管理制御方法及び管理制御プログラム

Also Published As

Publication number Publication date
US20150143183A1 (en) 2015-05-21
US9384077B2 (en) 2016-07-05
JP2015099625A (ja) 2015-05-28

Similar Documents

Publication Publication Date Title
US7373559B2 (en) Method and system for proactive drive replacement for high availability storage systems
US7558988B2 (en) Storage system and control method thereof
US7765437B2 (en) Failure trend detection and correction in a data storage array
Allen Monitoring hard disks with smart
US7568122B2 (en) Method and apparatus for identifying a faulty component on a multiple component field replaceable unit
CN103019885B (zh) 基于嵌入式Linux的硬盘坏道监测方法及系统
JP6079578B2 (ja) ストレージ制御装置、ストレージ制御プログラム、およびストレージ制御方法
TW201743210A (zh) 風扇故障偵測及回報
US9857852B2 (en) Management control system, server system, management control method, and program recording medium
JP2009015584A (ja) 記憶制御装置及び筐体単位の電源制御方法
CN113179665B (zh) 使用基于纠错的度量来识别性能不佳的数据存储设备
Huang et al. Characterizing disk health degradation and proactively protecting against disk failures for reliable storage systems
JP4798037B2 (ja) ハードディスクドライブ状態監視装置およびハードディスクドライブ状態監視方法
JP2008257411A (ja) ディスク制御システム
JP2008198322A5 (ja)
US7457990B2 (en) Information processing apparatus and information processing recovery method
US10969969B2 (en) Use of recovery behavior for prognosticating and in-situ repair of data storage devices
JP5088170B2 (ja) ファン清掃時期判定装置、方法、プログラム及び記録媒体
US7508614B1 (en) Data storage drive having movement sensors
US8214683B2 (en) Image forming apparatus, control method, and storage medium
JPH10320131A (ja) ディスクサブシステム
JP5126389B2 (ja) 制御装置及び制御方法
JP2014207030A (ja) 光ディスクライブラリシステム、ライブラリ装置、及びライブラリ装置における光ディスクの管理方法
JP2020030670A (ja) 制御装置および制御プログラム
JP2011100367A (ja) ディスクアレイコントローラの管理制御方式

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160804

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170102

R150 Certificate of patent or registration of utility model

Ref document number: 6079578

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees