JP5246872B2 - Storage system and storage management method - Google Patents
Storage system and storage management method Download PDFInfo
- Publication number
- JP5246872B2 JP5246872B2 JP2009080148A JP2009080148A JP5246872B2 JP 5246872 B2 JP5246872 B2 JP 5246872B2 JP 2009080148 A JP2009080148 A JP 2009080148A JP 2009080148 A JP2009080148 A JP 2009080148A JP 5246872 B2 JP5246872 B2 JP 5246872B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- volume
- job
- storage
- hard disk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、計算機のデータを格納する記憶装置システム(以下「ストレージシステム」とも言う)に関し、特に複数のディスク装置から構成されるストレージ装置複数台を階層構成とした階層型ストレージシステムに関する。 The present invention relates to a storage device system (hereinafter also referred to as “storage system”) for storing computer data, and more particularly to a hierarchical storage system in which a plurality of storage devices composed of a plurality of disk devices are arranged in a hierarchy.
近年、データセンターの大規模化に伴う消費エネルギーの急増が問題となっている。その中で、データ量の急激な増大に伴い、ストレージシステムが消費するエネルギーの割合が増大している。特に、オンライントランザクションシステムやHPC(High Performance Computing)システム向けの用途に利用される高性能で、大容量のストレージシステムの消費エネルギーの占める割合が大きくなっている。最近ではデータセンターの約2割から3割の消費エネルギーがストレージシステムで消費されており、データ量の急増に伴い、その割合が今後ますます増えるという報告もあり、ストレージシステムの省電力化が今後の重要な課題の1つになると考えられている。 In recent years, there has been a problem of a rapid increase in energy consumption accompanying the enlargement of data centers. Among them, the rate of energy consumed by the storage system is increasing as the amount of data increases rapidly. In particular, a high-performance and large-capacity storage system occupies a large proportion of energy consumption used in applications for online transaction systems and HPC (High Performance Computing) systems. Recently, approximately 20% to 30% of energy consumption in data centers is consumed in storage systems, and there is a report that the rate will increase with the rapid increase in data volume. It is considered to be one of the important issues.
上記問題を解決する手段として、ストレージシステムに搭載されたハードディスクの電源のオン/オフを制御する技術が、特許文献1、2に開示されている。特許文献1の方法は、RAID(Redundant Arrays of Inexpensive Disks)を構成するハードディスクグループ内のハードディスク単位で電源制御を行うという方法で、さらにその方法を用いた製品では、アクセス要求に対して遅延なく応答するために、常時稼動しているハードディスクを複数台設けるという方法であった(非特許文献1)。
As means for solving the above-described problem,
特許文献2の方法は、アクセスがないRAIDを構成するハードディスクグループのハードディスクの電源をオフ、または節電状態にするという方法であった。
The method of
また、上記問題を解決する別の手段として、階層ストレージシステムを利用する技術が、非特許文献2に開示されている。その方法は、高速のストレージ装置と低電力・大容量のストレージ装置を階層化した階層ストレージシステムにおいて、生成したデータはまず高速のストレージ装置に保存し、アクセス頻度が低くなったデータを高速のストレージ装置から低電力・大容量のストレージ装置に移行することにより、消費電力の大きい高速のストレージ装置の容量増加を抑え、システム全体として、消費エネルギーの増加を抑制するという方法であった。
Further, as another means for solving the above problem, Non-Patent
また、上記問題を解決する別の手段として、データベース用に利用されるストレージシステムにおいて、データベース管理システムが有する情報を利用してハードディスクの回転数を制御する技術が、特許文献3に開示されている。その方法は、通常はハードディスクをスピンダウンして消費電力を下げ、データベース管理システムが作成するクエリプラン(ストレージ装置へのアクセス処理の列)を利用して、事前にどのハードディスクがアクセスされるかを知り、アクセスされるハードディスクのスピンアップ/ダウンを行うという方法であった。
As another means for solving the above problem,
ストレージシステムの省電力化の方法として、特許文献1、非特許文献1に開示されている従来技術は、アクセス要求に対して遅延なく応答するために、常時稼動しているハードディスクを複数台設けているが、そのハードディスクにアクセス要求があったデータが格納されていない場合、節電状態のハードディスクを稼働状態に戻してからアクセスさせるため、応答ペナルティが大きく、高性能が要求されるアプリケーションに適用できないという問題があった。
As a method for saving power in a storage system, the conventional techniques disclosed in
また、特許文献2に開示されている従来技術は、アクセスがないときにハードディスクの電源をオフするという受動的な電源制御であるため、上記の方法と同様に、アクセス要求に対して遅延なく応答することが難しく、高性能が要求されるアプリケーションに適用できないという問題があった。
Further, since the conventional technique disclosed in
また、非特許文献2に開示されている従来技術は、消費電力の大きい高速のストレージ装置の容量を抑えるために、データを頻繁に低電力・大容量のストレージ装置に移行すると、アクセス要求のあるデータが低速の低電力・大容量ストレージに格納されている割合が高まり、システム全体として性能が劣化するという、性能と省電力化がトレードオフの関係にあり、高性能と省電力化の両立が難しいという問題があった。
In addition, the conventional technique disclosed in Non-Patent
また、特許文献3に開示されている従来技術は、クエリプラン(ストレージ装置へのアクセス処理の列)の情報から、データベース管理システムがストレージに対していつ、どのハードディスクにアクセスするかをデータベース管理システム自身、すなわちアプリケーションが決定可能である。しかしながら、処理の実行開始時間がアプリケーション自身で決定できないようなバッチ処理型のアプリケーション、例えば、HPCシステムで実行される科学計算のようなアプリケーションには適用できないという問題があった。
そこで、本発明は、計算機上で実行される処理の実行開始時間をアプリケーション自身で決定できない場合であっても、高性能と低消費電力を両立することを目的とする。
In addition, the prior art disclosed in
Therefore, an object of the present invention is to achieve both high performance and low power consumption even when the execution start time of processing executed on a computer cannot be determined by the application itself.
上述した課題を解決するために、本発明の一実施態様は以下の構成を有する。具体的には、第一の管理装置(符号18に相当)が接続された複数の計算機に接続され、1以上の第一のハードディスク装置(符号42に相当)から構成される1以上の第一のボリューム(符号51に相当)を有する第一のストレージ装置(符号11に相当)と、上記第一のストレージ装置に接続され、1以上の第二のハードディスク装置(符号43に相当)から構成される1以上の第二のボリューム(符号52に相当)を有する第二のストレージ装置(符号12に相当)と、上記第一のストレージ装置と、上記第二のストレージ装置、及び上記第一の管理装置に接続される第二の管理装置(符号19に相当)を有するストレージシステムであって、上記第一の管理装置は、計算機上で逐次実行されるジョブの情報(ジョブ情報)と、実行中及び実行を待つジョブキューの情報(ジョブキュー情報)を有し、上記第二の管理装置は、上記ジョブ情報を収集する手段と上記ジョブキュー情報を収集する手段(符号24に相当)、及び収集した上記ジョブ情報と上記ジョブキュー情報を解析する解析手段(符号25に相当)を有し、上記解析手段は、上記ジョブ情報から該ジョブがアクセスする第二のボリュームを特定する手段と、上記ジョブキュー情報から実行を待つ各ジョブが実行開始されるまでの平均待ち時間を算出する手段を有する。 In order to solve the above-described problems, an embodiment of the present invention has the following configuration. Specifically, one or more first hard disks (corresponding to reference numeral 42) connected to a plurality of computers to which a first management apparatus (corresponding to reference numeral 18) is connected. The first storage device (corresponding to reference numeral 51) having a volume (corresponding to reference numeral 51) and one or more second hard disk devices (corresponding to reference numeral 43) connected to the first storage device. A second storage apparatus (corresponding to reference numeral 12) having one or more second volumes (corresponding to reference numeral 52), the first storage apparatus, the second storage apparatus, and the first management. A storage system having a second management apparatus (corresponding to reference numeral 19) connected to the apparatus, wherein the first management apparatus is information on jobs (job information) that are sequentially executed on the computer, and is being executed The second management device collects the job information, collects the job queue information (corresponding to reference numeral 24), and collects Analyzing means (corresponding to reference numeral 25) for analyzing the job information and the job queue information, the analyzing means specifying a second volume accessed by the job from the job information, and the job Means for calculating an average waiting time until the execution of each job waiting for execution is started from the queue information.
そして、上記第二のストレージ装置は、上記第二のハードディスク装置の電源を制御する手段を有し、上記第二のボリュームに全てのデータが格納され、アクセスされない上記第二のボリュームを構成する上記第二のハードディスク装置の電源を切断している。 The second storage device has a means for controlling the power supply of the second hard disk device, and all the data is stored in the second volume and constitutes the second volume that is not accessed. The second hard disk drive is turned off.
そして、上記第二の管理装置は、上記解析手段によって特定された第二のボリュームを構成する第二のハードディスク装置の電源を投入して稼働状態とし、該第二のボリュームを上記第一のボリュームにコピーするのに要する閾値時間を算出する手段と、上記平均待ち時間と上記閾値時間を比較する手段と、上記第二のハードディスク装置の電源を制御する指示と上記第一のストレージ装置と上記第二のストレージ装置間でデータをコピーする指示を発行する手段を有し、上記第二の管理装置は、ジョブが投入された時点で、該ジョブの平均待ち時間が該ジョブの閾値時間より短い場合は、該ジョブが投入された時点から少なくとも該閾値時間だけ、該ジョブの実行を遅らせる指示を第一の管理装置に発行する。 The second management device powers on the second hard disk device that constitutes the second volume specified by the analyzing means to put it in an operating state, and sets the second volume to the first volume. Means for calculating a threshold time required for copying to the disk, means for comparing the average waiting time with the threshold time, an instruction for controlling the power supply of the second hard disk device, the first storage device, and the first storage device. The second management device has a means for issuing an instruction to copy data between the two storage devices, and when the average waiting time of the job is shorter than the threshold time of the job when the job is submitted Issues an instruction to delay the execution of the job to the first management apparatus at least for the threshold time from the time the job is submitted.
また、上記第二の管理装置は、該ジョブがアクセスする第二のボリュームを構成する第二のハードディスク装置の電源を投入して稼働状態とし、該第二のボリュームを前記第一のボリュームへコピーする指示を上記第二のストレージ装置及び上記第一のストレージ装置に発行し、上記第二のボリュームの上記第一のボリュームへのコピーが終了した後、該第二のボリュームを構成する第二のハードディスク装置の電源を切断する指示を上記第二のストレージ装置に発行する。 In addition, the second management device turns on the second hard disk device constituting the second volume accessed by the job to put it in an operating state, and copies the second volume to the first volume. Is issued to the second storage device and the first storage device, and after the copying of the second volume to the first volume is completed, the second volume constituting the second volume is configured. An instruction to turn off the power of the hard disk device is issued to the second storage device.
また、上記第二の管理装置は、ジョブが投入された時点で、該ジョブの平均待ち時間が該ジョブの閾値時間より長い場合は、遅くとも該ジョブの平均待ち時間が該ジョブの閾値時間に達する直前までに、該ジョブがアクセスする第二のボリュームを構成する第二のハードディスク装置の電源を投入して稼働状態とし、該第二のボリュームを第一のボリュームへコピーする指示を上記第二のストレージ装置及び上記第一のストレージ装置に発行する。
その他、本願が開示する課題、及びその解決方法は、発明の実施形態の欄及び図面により明らかにされる。
In addition, when the average waiting time of the job is longer than the threshold time of the job when the job is submitted, the second management device reaches the threshold time of the job at the latest. Immediately before, the second hard disk device constituting the second volume accessed by the job is turned on to be in an operating state, and an instruction to copy the second volume to the first volume is sent to the second volume. Issued to the storage device and the first storage device.
In addition, the problem which this application discloses and the solution method are clarified by the column and drawing of embodiment of invention.
本発明によれば、計算機上で実行される処理の実行開始時間をアプリケーション自身で決定できない場合であっても、高性能と低消費電力を両立することができる。 According to the present invention, even when the execution start time of processing executed on a computer cannot be determined by the application itself, both high performance and low power consumption can be achieved.
以下、本発明を実施するための形態(「実施形態」という。)について、図面を参照しながら説明する。 Hereinafter, modes for carrying out the present invention (referred to as “embodiments”) will be described with reference to the drawings.
≪第一の実施形態≫
図1は、第一の実施形態のストレージシステムを含む計算機システムの構成例を示す図である。計算機システム1は、ストレージシステム2、IPスイッチ16、計算機14、及び計算機管理サーバ18を有する。また、ストレージシステム2は、ファイルサーバ13、第一階層ストレージ装置(第一のストレージ装置)11、第二階層ストレージ装置(第二のストレージ装置)12、ファイバチャネル(FC:Fibre Channel)スイッチ17、及びストレージ管理サーバ19を有する。
≪First embodiment≫
FIG. 1 is a diagram illustrating a configuration example of a computer system including a storage system according to the first embodiment. The
図1に示すように、IPスイッチ16を介してファイルサーバ13と計算機14を接続することにより、ストレージシステム2と計算機14は接続されている。また、計算機管理サーバ18とストレージ管理サーバ19はLAN(Local Area Network)15を介して互いに接続される。さらに、ストレージ管理サーバ19と、ファイルサーバ13、第一階層ストレージ装置11、及び第二階層ストレージ装置12間はLAN15を介して互いに接続される。
As illustrated in FIG. 1, the
第一階層ストレージ装置11は、ファイルサーバ13に直接接続される。接続インターフェースとしては、ファイバチャネル、iSCSI(Internet Small Computer system Interface)等のブロックデータを送るプロトコルのインターフェースを用いるのが一般的である。ここで、第一階層ストレージ装置11はスイッチを介してファイルサーバ13に接続されていても問題ない。
The first
第二階層ストレージ装置12は、FCスイッチ17を介して第一階層ストレージ装置12に接続される。接続インターフェースとしては、ファイバチャネル以外にiSCSI等のブロックデータを送るプロトコルのインターフェースを用いても問題ない。
The second tier storage apparatus 12 is connected to the first tier storage apparatus 12 via the
第一階層ストレージ装置11は、ファイルサーバ13が入出力処理を行うファイルを格納するためのファイル格納用第一ボリューム(第一のボリューム)51を有する。第二階層ストレージ装置12は、ファイルサーバ13が入出力処理を行うファイルを格納するためのファイル格納用第二ボリューム(第二のボリューム)52を有する。また、第一階層ストレージ装置11は、第二階層ストレージ装置12が有するボリュームを当該第一階層ストレージ装置11が計算機14に提供するボリュームとして、すなわちファイル格納用仮想ボリューム61として仮想的に提供する仮想化機能を有する。
なお、図1中のファイル格納用仮想ボリューム61およびファイル格納用第二ボリューム52に示される「usr1」、「usr2」、・・・との標記は、計算機14によるファイルの入出力処理を実行するために当該ボリュームを使用するユーザを意味する。換言すれば、各ユーザには、第一階層ストレージ装置11および第二階層ストレージ装置12において、使用することができるボリュームが割り当てられている。ただし、その割り当て方は、例えば計算機システム1の運用に応じて変更することができる。
The first
Note that “usr1”, “usr2”,... Shown in the file storage
図3に第一階層ストレージ装置11の構成の一例を示す。コントローラ31は、ファイルサーバ3や計算機14等の上位装置からのデータの書き込み/読み出しアクセスを制御するチャネルIF(interface:インターフェース)部32、複数の高速ハードディスク(第一のハードディスク装置)42に接続され、高速ハードディスク42へのデータの書き込み/読出しアクセスを制御するディスクIF(インターフェース)33、高速ハードディスク42への書き込み/読み出しデータを一時的に格納するキャッシュメモリ34、制御用データを格納する制御メモリ38及びチャネルIF部32、ディスクIF部33、及びキャッシュメモリ34を接続する結合部35を有する。結合部35は、1つ以上のスイッチから構成されるのが一般的であるが、1本以上の共通バスから構成しても問題ない。
FIG. 3 shows an example of the configuration of the first
チャネルIF部32は上位装置からのデータの書き込み/読み出しアクセスを受けた際に、キャッシュメモリ34との間のデータ転送を制御し、ディスクIF部33は、高速ハードディスク42へのデータの書き込み/読出し時にキャッシュメモリ34との間のデータ転送を制御する。このようなキャッシュメモリ34を介したチャネルIF部32とディスクIF部33の間のデータのやり取りにより、上位装置から高速ハードディスク42へのデータの書き込み/読出しを行う。このような制御を行うため、チャネルIF部32、ディスクIF部33は1つ以上のプロセッサ(図示していない)を有する。このプロセッサには内部LAN37が接続される。さらに、第一ストレージ装置11外部のストレージ管理サーバ19がLAN15を介して、内部LAN37に接続される。
The channel IF
ここで、上述のコントローラ31の構成は一例に過ぎず、構成を上記に限定するものではない。コントローラ31は、計算機14からのデータの書き込み/読み出し要求に応じて高速ハードディスク42へのデータの書き込み/読出しを行う機能を有していれば問題ない。
さらに、コントローラ31は高速ハードディスク42の電源のオン/オフ(投入/遮断)を制御する電源制御部36を有していても良く、その場合、電源制御部36は内部LAN37に接続される。
Here, the configuration of the controller 31 described above is merely an example, and the configuration is not limited to the above. There is no problem if the controller 31 has a function of writing / reading data to / from the high-speed hard disk 42 in response to a data write / read request from the computer 14.
Further, the controller 31 may include a
ハードディスク搭載部41A(41)は、複数の高速ハードディスク42の個々のハードディスクへ電源を供給するハードディスク電源46A(46)を有する。複数の高速ハードディスク42は複数台の高速ハードディスク42から構成されるRAIDグループ(Gr.)1:44にグルーピングされる。
The hard disk mounting unit 41A (41) has a hard
ここで、高速ハードディスク42としては、回転数が10,000rpm(revolution per minute)あるいは15,000rpmで、FCやSAS(Serial Attached SCSI)インターフェースを有する高速ハードディスクを用いるのが一般的である。また、最近ストレージ装置に搭載されるようになってきた固体メモリディスク(SSD:Solid State Memory)を用いても問題ない。そうすることにより、高速ハードディスクを利用した場合に比べ、第一階層ストレージ装置11をさらに高速かつ低消費電力にすることができる。
Here, as the high-speed hard disk 42, a high-speed hard disk having a rotation speed of 10,000 rpm (revolution per minute) or 15,000 rpm and having an FC or SAS (Serial Attached SCSI) interface is generally used. Further, there is no problem even if a solid state memory (SSD) that has recently been installed in a storage apparatus is used. By doing so, the first
またここで、ハードディスク電源46Aは、個々の高速ハードディスク42毎、またはRAID Gr.1:44毎に1個または2個(冗長構成を組む場合)程度設けても問題ない。
Here, the hard
コントローラ31内の電源制御部36は、ハードディスク電源46Aに接続され、電源のオン/オフの制御を行う。
ここで、電源制御部36は、コントローラ31の中ではなく、ハードディスク搭載部41Aの中にあっても問題ない。また、電源制御部36はストレージ管理サーバ19に直接接続されていても問題ない。
A power
Here, there is no problem even if the power
図1の説明で述べたファイル格納用第一ボリューム51は、複数台のハードディスク42から構成されるRAIDGr.1:44の領域上に形成される。
The file storing
図4に、第二階層ストレージ装置12の構成の一例を示す。コントローラ71は、第一階層ストレージ装置11等の上位装置を接続する計算機接続ポート76、複数の大容量ハードディスク(第二のハードディスク装置)43を接続するディスク接続ポート78、大容量ハードディスク43への書き込み/読み出しデータを一時的に格納する共有メモリ73、及びプロセッサ72を有する。また、計算機接続ポート76、ディスク接続ポート78、プロセッサ72、及び共有メモリ73は結合部74を介して接続される。結合部74は、スイッチから構成されるのが一般的であるが、共通バスから構成しても問題ない。
FIG. 4 shows an example of the configuration of the second tier storage apparatus 12. The controller 71 is a computer connection port 76 for connecting a host device such as the first
プロセッサ72は上位装置からのデータの書き込み/読み出しアクセスを受けた際に、計算機接続ポート76と共有メモリ73との間のデータ転送を制御するとともに、大容量ハードディスク43へのデータの書き込み/読出し時に、大容量ハードディスク43と共有メモリ73との間のデータ転送を制御する。このような共有メモリ73を介した計算機接続ポート76と大容量ハードディスク43の間のデータのやり取りにより、上位装置から大容量ハードディスク43へのデータの書き込み/読出しを行う。
The
プロセッサ72には内部LAN77が接続される。さらに、第二ストレージ装置12の外部のストレージ管理サーバ19がLAN15を介して、内部LAN77に接続される。
An internal LAN 77 is connected to the
ここで、上述のコントローラ71の構成は一例に過ぎず、構成を上記に限定するものではない。コントローラ71は計算機14からのデータの書き込み/読み出し要求に応じて大容量ハードディスク43へのデータの書き込み/読出しを行う機能を有していれば問題ない。
さらに、コントローラ71は大容量ハードディスク43の電源のオン/オフ(投入/遮断)を制御する電源制御部75を有していても良く、その場合、電源制御部75は内部LAN37に接続される。
Here, the configuration of the controller 71 described above is merely an example, and the configuration is not limited to the above. There is no problem if the controller 71 has a function of writing / reading data to / from the large-capacity hard disk 43 in response to a data write / read request from the computer 14.
Further, the controller 71 may include a
ハードディスク搭載部41B(41)およびハードディスク電源46B(46)については、図3で示した第一階層ストレージ装置11の構成(41A、46A)と同様であるため、説明は省略する。
The hard disk mounting unit 41B (41) and the hard
ここで、大容量ハードディスク43としては、回転数が7,200rpm(revolution per minute)以下で、SATA(Serial Advanced Technology Attached)インターフェースを有し、容量当たりの消費電力が高速ハードディスク42に比べて小さい、大容量・低電力ハードディスクを用いるのが一般的である。また、アクセスが来ない時は、回転数を落として消費電力を低減するといった省電力機能を備えたハードディスクを用いても良い。 Here, the large-capacity hard disk 43 has a rotation speed of 7,200 rpm (revolution per minute) or less, a SATA (Serial Advanced Technology Attached) interface, and power consumption per capacity is smaller than that of the high-speed hard disk 42. It is common to use large capacity, low power hard disks. Further, when access does not come, a hard disk having a power saving function such as reducing the number of rotations to reduce power consumption may be used.
図1の説明で述べたファイル格納用第二ボリューム52は、複数台の大容量ハードディスク43から構成されるRAID Gr.2:45の領域上に形成される。
The file storage
図3、図4において第一階層ストレージ装置11、第二階層ストレージ装置12の構成について、一般的な構成についてそれぞれ述べたが、それらは上記した構成に限定されるものではない。第一階層ストレージ装置11として要求されるI/O(Input/Output)処理性能としては、第二階層ストレージ装置12を上回るI/O処理性能を有する装置であれば良い。また、第二階層ストレージ装置12として要求される仕様としては、上記計算機14が必要とする容量を、第一階層ストレージ装置11に比べて少ない台数のハードディスクで実現できる装置であれば良い。言い換えると、容量当たりの消費電力が小さい装置であれば良い。
3 and 4, the general configurations of the first
ここで、第一階層ストレージ装置11と第二階層ストレージ装置12は、1つのストレージ装置で構成しても問題ない。すなわち、例えば、第一階層ストレージ装置11において、ハードディスク搭載部41A内に高速ハードディスク42と大容量ハードディスク43を混載し、それぞれのハードディスクでRAID Gr.1:44,RAID Gr.2:45を構成し、さらに、RAID Gr.1:44及びRAID Gr.2:45の領域上に,それぞれファイル格納用第一ボリューム51、ファイル格納用第二ボリューム52を形成しても良い。こうすることにより、第二階層ストレージ装置のコントローラ71の消費電力分を削減できる。
Here, there is no problem even if the first
図5に、ファイルサーバ13の構成の一例を示す。ファイルサーバ13は、入出力コントローラ251と、入出力コントローラ252と、プロセッサ250と,メモリ253からなる。入出力コントローラ251はIPスイッチ16に接続され、ファイルデータの入出力処理を行う。また入出力コントローラ252は第一階層ストレージ装置11に接続され、第一階層ストレージ装置11へのブロックデータの書き込み及び読み出し処理を行う。またメモリ253では,入出力コントローラ251と入出力コントローラ252間でのデータのバッファリング/キャッシングを行う。またプロセッサ250では,OS(Operating System)としてLINUX(登録商標)が動作しており,そのファイルシステムとしてNFS(Network File system)が動作している。このファイルシステムがホストサーバからアクセスされるファイルデータをブロックデータのアドレスに変換する処理を行う。ファイルデータとブロックデータの変換に必要な変換テーブル等の管理情報は、プロセッサ250がメモリ253に格納する。ここで,OSはLINUXに限らず,またファイルシステムもNFSに限らない。ホストサーバからファイルデータを受け取り,それをブロックデータに変換して第一階層ストレージ装置11へアクセスする機能を有していれば問題無い。
FIG. 5 shows an example of the configuration of the
図2に、計算機管理サーバ18及びストレージ管理サーバ19の機能構成を示す。
計算機管理サーバ18は、計算機14で実行するJOB(ジョブ)を管理するJOB管理部21、計算機14にJOBの実行を依頼するユーザを管理するユーザ管理部22、計算機14で実行されるJOB情報をストレージ管理サーバ19に提供するインターフェースとなる情報提供部23を有する。なお、前記ジョブは、バッチ処理型のアプリケーションにおいて、逐次実行されるジョブをいう。
FIG. 2 shows functional configurations of the
The
なお、本実施形態中の構成要素を説明する際に用いる、JOB管理部21、情報解析部25等の各機能部は、ソフトウェア(プログラム)により論理的に構成されても良いし、専用LSI(Large Scale Integration)等によりハードウェア的に構成されても良いし、さらには、ソフトウェアとハードウェアの組み合わせにより実現されても良い。なお、論理的に構成される場合、ストレージ管理サーバ19の各機能部は、メモリ94(記憶部)上に格納され、プロセッサ95(制御部)によって処理が実行されることで、その機能が実現される。また、計算機管理サーバ18の各機能部は、メモリ99上に格納され、プロセッサ98(計算機管理サーバ用制御部)によって処理が実行されることで、その機能が実現される。
Note that each functional unit such as the
JOB管理部21は、投入JOB管理部201、JOBスケジューラ202、終了JOB管理部206を有する。また、JOBスケジューラ202は、待ちキュー203と実行キュー205を有する。
The
ユーザは、計算機14で計算JOB(JOB)を実行するために、図13に示す計算実行スクリプト234を作成し、計算機管理サーバ18に入力する。その入力は、例えば、計算機管理サーバ18が備えるGUI(Graphical User Interface)やCLI(Command Line Interface)により、計算機管理サーバ18に直接か、計算機管理サーバ18に接続されるクライアント端末(図示していない)を通して行う。
The user creates a calculation execution script 234 shown in FIG. 13 and inputs it to the
入力された計算実行スクリプト234は、投入JOB管理部201で管理され、待ちキュー203内に優先度の高い順に用意されているキュー1:211、キュー2:212、キュー3:213、あるいはキュー4:214のいずれかに振り分けられる。その振分け方、つまり、優先度の付け方は、例えば、計算実行スクリプト234の中に記述された、使用するCPU(Central Processing Unit)数(Number of CPUs)301、最大計算時間(MAX CPU TIME)302の長短、使用する主記憶容量(Memory Size)303の多少等で判断することや、ユーザが計算実行スクリプト234の中で明示的に優先順位を指定すること等がある。JOBは各キューに並んだ順番に実行される。また、キュー1〜4:211〜214のJOBの実行順は、優先度の高いキュー1:211から順次実行される。優先度の高いキューのJOBが実行に入った後、計算機14のCPUリソースに空きがあり、次の優先度のJOBが実行可能であるならば、そのJOBについても空いているCPU上で並行して実行する。その次の優先度のJOBについても同様である。実行中のJOBは実行キュー205の中で管理され、JOBが終了すると終了JOB管理部206へ管理が移される。
The input calculation execution script 234 is managed by the input
ユーザ管理部22は、計算機管理サーバ18や、計算機管理サーバ18に接続されたクライアント端末から計算機14を利用するユーザの管理、すなわち、ユーザ認証やユーザが計算に使用するファイルを格納するためのユーザディレクトリの管理を行う。この管理のために、例えば、NIS(Network Information Service)やLDAP(Lightweight Directory Access Protocol)等のプロトコルが用いられる。
The
また、情報提供部23は、ストレージ管理サーバ19に対して各JOBの計算実行スクリプト234とJOBの実行順序を示す情報、及び計算機14を使用するユーザ及びそのユーザが使用するユーザディレクトリの情報を送信する。
In addition, the
ストレージ管理サーバ19は、計算機管理サーバ18の情報提供部23から計算機14で実行されるJOB情報及びJOBキュー情報を受け取る情報収集部24と、JOB情報及びJOBキュー情報をストレージ装置(11、12)で利用するために解析を行う情報解析部25、解析した情報を元に、ファイルサーバ13が管理するユーザディレクトリへの第一階層ストレージ装置11、第二階層ストレージ装置12が有するボリュームのマウント/アンマウントや、その第一階層ストレージ装置11と第二階層ストレージ装置12間でのファイルまたはボリュームのステージング/デステージングの管理を行うボリューム管理部26、ファイルサーバ13が取り扱うユーザディレクトリを管理するユーザエリア管理部27、ファイルサーバ13、第一階層ストレージ装置11、及び第二階層ストレージ装置12へボリュームの割り当てやボリュームのマウント/アンマウントを指示したり、第一階層ストレージ装置11及び第二階層ストレージ装置12内の電源制御部36、75にハードディスクの電源制御を指示したりするストレージ管理部28を有する。
The
図6は、ある1つのキュー(キュー4:214)において、1つのJOBが投入されたときのキューの状態を示している。ここで、λはJOBがキューに投入される際の平均投入頻度、μ(前記キューに投入されたJOBが実行される際の平均実行頻度)の逆数が、JOBが実行される際の平均JOB実行時間(平均実行時間)Teを表す。λの逆数はJOBの平均投入間隔Tiを表す。また、TwはJOBの実行までの平均待ち時間(この図では、投入されたJOBの実行までの平均待ち時間)を表す。平均待ち時間の算出方法については、以下に示す。 FIG. 6 shows the state of a queue when one JOB is input in one queue (queue 4: 214). Here, λ is an average input frequency when a JOB is input to the queue, and an inverse of μ (average execution frequency when the JOB input to the queue is executed) is an average JOB when the JOB is executed It represents the execution time (average execution time) Te. The reciprocal of λ represents the average JOB input interval Ti. Tw represents an average waiting time until the execution of the JOB (in this figure, an average waiting time until the execution of the input JOB). The calculation method of the average waiting time is shown below.
図7に計算機管理サーバ18のJOB管理部21に格納されているJOBキュー情報テーブル1:70の一例を示す。JOBキュー情報テーブル1:70は、各JOBの現在の状態を示す値を格納している。「JOB ID(Identifier)」701は、JOBを識別するための識別情報を示す。そして、JOBが投入された順にJOB IDが付与される。「JOB状態」702は、各JOBの現在の状態を示す。「実行中」は、JOBが実行されていることを示す。「待ち」は、JOBが実行待ち状態であることを示す。実行待ち状態のJOBについては、その実行の順番を示す優先度が付されている。通常、優先度は先に投入されたJOBの優先度を高くするように付される。しかしながら、ユーザが優先度を指定したり、計算機管理サーバ18の管理者が計算条件や計算機14の使用状況から判断して、その優先度を変えたりすることが可能である。ここで、図7のJOBキュー情報テーブル1:70のフォーマットは一例に過ぎず、フォーマットを図のように限定するものではない。上記に述べた情報が少なくとも含まれていれば良い。
FIG. 7 shows an example of the job queue information table 1:70 stored in the
図8にストレージ管理サーバ19のメモリ94に格納されるJOBキュー情報テーブル2:80の一例を示す。「JOB ID」801は、JOBを識別するための識別情報を示す。「JOB状態」802は、各JOBの現在の状態(キュー状態)を示す。「実行中」は、JOBが実行されていることを示す。「待ち」は、JOBが実行待ち状態であることを示す。実行待ち状態のJOBについては、その実行の順番を示す優先度が付されている。「Tw」803は、各JOBの平均待ち時間を示す。JOB1のように「実行中」である場合には、待ち時間は「0」であるため、Twは格納されない。「User ID」804は、各JOBを実行するUser(ユーザ)の識別情報を示す。「対象dir」805は、各JOBによって使用されるディレクトリの識別情報を示す。「Tth」806は、各JOBの実行に用いる論理ボリュームを構成する記憶装置(ストレージ装置)の電源を入れて稼動状態にし、その論理ボリューム、またはボリューム内に格納された使用されるファイルを第一階層ストレージ11内のファイル格納用第一ボリューム51にステージング(コピー)するのに要する時間(これを閾値時間と呼ぶ。)を示す。ここで、図8のJOBキュー情報テーブル2:80のフォーマットは一例に過ぎず、フォーマットを図のように限定するものではない。上記に述べた情報が少なくとも含まれていれば問題ない。
FIG. 8 shows an example of the JOB queue information table 2:80 stored in the memory 94 of the
図9は、ユーザが計算を開始する前のユーザディレクトリとボリュームの関係の一例を示している。ファイルサーバ13は、ストレージ管理部28の指示に基づいて、ファイル格納用仮想ボリューム61をユーザディレクトリであるファイル格納用ディレクトリ81としてマウントする。
FIG. 9 shows an example of the relationship between the user directory and the volume before the user starts the calculation. The
第一階層ストレージ装置11内のコントローラ31は、ストレージ管理部28の指示に基づいて、第二階層ストレージ装置12内のファイル格納用第二ボリューム52を、第一階層ストレージ装置11内のファイル格納用仮想ボリューム61として仮想化し、第一階層ストレージ装置11が管理する。こうすることにより、第一階層ストレージ装置11が第二階層ストレージ装置12のボリュームも一括して管理することができるため、ボリューム管理を簡単化することができる。
ここで、ファイル格納用第二ボリューム52を、直接、ファイル格納用ディレクトリ81としてマウントしても良い。
Based on an instruction from the
Here, the file storage
ディレクトリ・ツリー101に、ユーザディレクトリと、ファイル格納用仮想ボリューム61、及びファイル格納用第二ボリューム52との関係の一例を示す。ここでは、usr0下のディレクトリdir0,dir1と、usr1下のディレクトリdir0,dir1,dir2毎に別個のファイル格納用第二ボリューム52を割り当てている。
An example of the relationship between the user directory, the file storage
ここで、上記のユーザディレクトリ(ファイル格納用ディレクトリ81)とファイル格納用第二ボリューム52との対応関係(マッピング)は、ストレージ管理部19内のユーザエリア管理部27で管理される。またこの対応関係は、ストレージ管理サーバ19に接続されるクライアント端末からユーザが要求を出した際に、作成、または変更される。
Here, the correspondence (mapping) between the user directory (file storage directory 81) and the file storage
また、ユーザが扱うファイル(計算機14から入出力されるファイルを含む)は全て、ファイル格納用ディレクトリ81、すなわち、第2階層ストレージ装置12内のファイル格納用第二ボリューム52に格納される。さらに、通常、計算機14またはユーザからアクセスされない間、乃至はファイル/ボリュームのステージング/デステージングが行われない間は、ファイル格納用第二ボリューム52はアンマウントし、ファイル格納用第二ボリューム52を構成する大容量ハードディスク43の電源は落としておく。こうすることにより、ストレージシステム2全体の消費電力量を削減することが可能となる。
All files handled by the user (including files input / output from the computer 14) are stored in the
ここで、大容量ハードディスク43の電源を落とさずに、スピンダウン(ハードディスク装置のディスクを予め定められた回転速度(メモリに記憶されている回転速度)以下に回転させること)、スピンオフ(ハードディスク装置のディスクの回転を停止させること)あるいは省電力モードにしても良い。こうすることによって、削減される消費電力量は少なくなるが、アクセスが来る前に大容量ハードディスク43を立ち上げる時間(入出力可能状態になるまでの時間)を短くすることが可能となる。 Here, without turning off the power of the large-capacity hard disk 43, spin down (rotating the disk of the hard disk device below a predetermined rotation speed (rotation speed stored in the memory)), spin-off (removal of the hard disk device) The disk rotation may be stopped) or the power saving mode may be set. By doing this, the amount of power consumption to be reduced is reduced, but it is possible to shorten the time to start up the large-capacity hard disk 43 (time until input / output is enabled) before access.
ディレクトリ・ツリー101は、例えば、図10に示すボリューム管理テーブル100によりユーザ毎に管理されている。ボリューム管理テーブル100は、ストレージ管理サーバ19のメモリ94に格納されている。「User ID」1001は、各Userの識別情報を示す。「dir ID」1002は、Userごとのディレクトリの識別情報を示す。「LU ID」1003は、各dirに対応する論理ユニット(論理ボリューム)の識別情報を示す。「RAID ID」1004は、各LUを構成するRAIDグループの識別情報を示す。RAIDグループは、複数の記憶装置により構成される。ここで、図10のボリューム管理テーブルのフォーマットは一例に過ぎず、フォーマットを図のように限定するものではない。上記に述べた情報が少なくとも含まれていれば問題ない。
The directory tree 101 is managed for each user by, for example, the volume management table 100 shown in FIG. The volume management table 100 is stored in the memory 94 of the
図11は、ボリューム使用状況管理テーブル110を示す。ボリューム使用状況管理テーブル110は、第一階層ストレージ装置11の各論理ボリュームの使用状況を示す。ボリューム使用状況管理テーブル110は、ストレージ管理サーバ19のメモリ94に格納されている。「LU ID」1101は、第一階層ストレージ装置11の各論理ボリュームの識別情報を示す。「使用状況」1102は、第一階層ストレージ装置11の各論理ボリュームがUser(計算機)によって使用されているか否かを示す。「サイズ」1103は、各論理ボリュームの容量を示す。ここで、図11のボリューム使用状況管理テーブル110のフォーマットは一例に過ぎず、フォーマットを図のように限定するものではない。上記に述べた情報が少なくとも含まれていれば良い。
FIG. 11 shows the volume usage status management table 110. The volume usage status management table 110 indicates the usage status of each logical volume in the first
図12(図12A〜図12Cの総称)は、本実施形態のストレージシステムでのファイルのステージング/デステージングの手順を示している。この手順は、待ちキュー203内のキュー毎(キュー1:211からキュー4:214)に並行して実施する。プロセッサ95が処理主体となることで、各機能部(24、25等)による機能が実現され、前記手順が定期的に繰り返される。
FIG. 12 (generic name of FIG. 12A to FIG. 12C) shows a file staging / destaging procedure in the storage system of this embodiment. This procedure is executed in parallel for each queue in the waiting queue 203 (queue 1: 211 to queue 4: 214). By the
まずステップ401で、ストレージ管理サーバ19の情報収集部24は、定期的に、計算機管理サーバ18の情報提供部23から待ちキュー203内にある全てのJOBの実行順序を示す情報と終了JOB管理部206にある終了JOB情報(JOBキュー情報)を取得する。取得するときは、例えば計算機管理サーバ18のJOBスケジューラ202をモニタリングするためのコマンドが計算機管理サーバ18に送信され、計算機管理サーバ18による、そのコマンドに対する応答として前記情報を受信する。
First, in
そしてステップ402で、JOBキュー情報テーブル2:80に記載された前回受け取ったJOBキュー情報と、ステップ401で受け取ったJOBキュー情報テーブル1:70に記載された各JOBの現在の状態をJOB ID毎に比較し、待ちキュー203内の該当する1つのキュー(キュー1:211乃至キュー:214)について、キューの状態が変化したかどうかを調べる。ここで、キューの状態が変化したとは、新たなJOBが投入された、待ちキュー内のJOBが実行に移された、待ちキュー内のJOBがキャンセルされた、JOBの実行が終了したことを少なくとも意味する。具体的にいえば、当該レコードのJOB状態702の値と、JOB状態802の値が異なったことを意味する。
ここで、実行中のJOB(図7または図8の場合、JOB1)は、実行キュー205の中でそのJOB IDが管理される。また、実行を終了したJOBについては、終了JOB管理部206でそのJOB IDが管理される。
In
Here, the JOB ID of the job being executed (JOB1 in the case of FIG. 7 or FIG. 8) is managed in the
ここで、キュー状態が変化していなかった場合は(ステップ402でNo)、ステップ401に戻り、次のキュー状態取得まで待つ。キュー状態が変化していた場合は(ステップ402でYes)、JOBキュー情報テーブル2:80のJOB IDとJOB状態のカラム(801、802)を取得してきた内容に置き換え、ステップ403へ移る。 If the queue state has not changed (No in step 402), the process returns to step 401 and waits for the next queue state acquisition. If the queue status has changed (Yes in step 402), the job ID and job status columns (801, 802) in the job queue information table 2:80 are replaced with the acquired contents, and the process proceeds to step 403.
ステップ403では、キュー状態の変化がJOB実行終了(完了)であるかどうかをチェックする。キュー状態の変化がJOB実行終了であった場合(ステップ403でYes)、ステップ418に処理を移す。また、キュー状態の変化がJOB実行終了でなかった場合(ステップ403でNo)、ステップ404に移る。ここで、キュー状態の変化がJOB実行終了であったことは、実行キュー205内の該当するJOBが、JOB終了管理部206へ移ったことで確認できる。
In
次にステップ404では、キュー状態の変化がJOB投入であった場合、待ちキュー203内にある該当するキューのJOBの計算実行スクリプト234を取得し、その解析を行う。その解析について説明する前に、計算機14で実行される実行ジョブ(あるいは計算)の情報を記述した計算実行スクリプト234の一例を図13に示す。複数のユーザが計算実行スクリプト234を投入するので、図13では複数の計算実行スクリプト234があるイメージを示している。ファイルサーバ13が管理するユーザディレクトリ(ファイル格納用ディレクトリ81)への第一階層ストレージ装置11、第二階層ストレージ装置12が有するボリュームのマウント/アンマウントのスケジューリングや、そのユーザディレクトリ間でのファイルのステージング/デステージングのスケジューリング及びファイルサーバ13が取り扱うユーザディレクトリを管理するためには、計算実行スクリプト234は少なくとも計算のパラメータや計算の実行結果を格納するディレクトリの情報300を含む。
さらに、使用するCPU数(Number of CPUs)301、最大計算時間(MAX CPU TIME)302の長短、使用する主記憶容量(Memory Size)303を少なくとも含む。これら情報を元にJOBの優先順位付けが行われ、JOBは複数あるキューに優先順位ごとに振り分けられて投入される。
ここで、図13の計算実行スクリプトのフォーマットは一例に過ぎず、フォーマットを図のように限定するものではない。上記に述べた情報が少なくとも含まれていれば問題ない。
Next, in
Further, it includes at least the number of CPUs to be used (Number of CPUs) 301, the length of maximum calculation time (MAX CPU TIME) 302, and the main memory capacity to be used (Memory Size) 303. Prioritization of JOBs is performed based on these pieces of information, and the JOBs are distributed to a plurality of queues according to the priorities.
Here, the format of the calculation execution script of FIG. 13 is merely an example, and the format is not limited as shown in the figure. There is no problem if at least the information described above is included.
情報解析部25では、各JOBの計算実行スクリプト234から、入出力用ファイルのディレクトリ名(ディレクトリの情報300)を抽出し、JOBキュー情報テーブル2:80の対象dir(ディレクトリ)のカラム(805)の該当するJOB IDの箇所にそのディレクトリ名を入力する。
In the
さらに、キュー状態の変化がJOB投入である場合に限らず全ての場合について、該当するキューのJOBキュー情報から、JOBの投入間隔の平均値及び分散、JOB実行時間の平均値及び分散を計算する。これら平均値及び分散は、該当するキューの状態を取得するたびに統計情報として、以前JOBが投入された時刻からその次にJOBが投入されるまでの時間間隔、及び以前JOBが実行に移された時刻からその次にJOBが実行に移されるまでの時間間隔を収集することにより、それら収集した値から求めることができる。 Furthermore, the average value and variance of job submission intervals and the average value and variance of job execution times are calculated from the job queue information of the corresponding queue for all cases, not only when the change in queue status is job submission. . These average values and variances are used as statistical information every time the status of the corresponding queue is acquired, and the time interval from the time when the previous JOB was input until the next JOB is input, and the previous JOB is executed. By collecting the time interval from the time when the job is executed to the next time, it can be obtained from the collected values.
次にステップ405で、待ち行列理論から導かれる式を用いて、図6に示す、λとμから各JOBの実行までの平均の待ち時間Twを算出する。そして、JOBキュー情報テーブル2:80のTwのカラム(803)の該当するJOB IDの箇所にその値を入力する。ここで、λ及びμの分散の値を使うことにより、平均値を使う場合に比べてより正確に平均の待ち時間を計算することができる。
Next, in
さらに、JOBの投入時には、ステップ405で抽出した、該当するJOBが計算で使用するファイルのディレクトリから、図9に示すディレクトリ・ツリー101をたどって、該当するファイルが格納されているファイル格納用第二ボリューム52を、ボリューム管理部26において特定する。
そして、閾値時間Tthを算出する。閾値時間とは上述した通り、「その特定したボリュームを構成するRAID Gr2:45の大容量ハードディスク43の電源を入れて稼動状態にし、そのボリューム、またはボリューム内に格納された使用されるファイルを第一階層ストレージ11内のファイル格納用第一ボリューム51にステージング(コピー)するのに要する時間」である。Tthは、ステージングするファイル/ボリュームのサイズと第一階層ストレージ装置11と第二階層ストレージ装置12の間のデータ転送速度から求めることができる。Tthを算出後、JOBキュー情報テーブル2:80のTthのカラム(806)の該当するJOB IDの箇所にその値を入力する。
ここで、特定したボリュームを構成するRAID Gr2:45は、ボリューム管理テーブル:100のRAID ID(1004)から特定する。
Further, when a job is input, the directory for file storage in which the corresponding file is stored by tracing the directory tree 101 shown in FIG. 9 from the directory of the file used for calculation by the corresponding job extracted in
Then, a threshold time Tth is calculated. As described above, the threshold time is as follows: “The RAID Gr2: 45 large-capacity hard disk 43 configuring the specified volume is turned on and brought into operation, and the volume or a file to be used stored in the volume “Time required for staging (copying) to the
Here, the RAID Gr2: 45 constituting the specified volume is specified from the RAID ID (1004) of the volume management table: 100.
ステップ406では、キュー状態の変化がJOB投入かどうかをチェックする。キュー状態の変化がJOB投入でなかった場合(ステップ406でNo)、ステップ409へ処理を移す。また、キュー状態の変化がJOB投入であった場合(ステップ406でYes)、ステップ407に移る。ここで、キュー状態の変化がJOB投入であったとは、該当するキューの最後尾に新たなJOB(JOB ID)が存在していることで確認できる。
In
ステップ407で、図8に示すJOBキュー情報テーブル2:80を用いて、投入されたJOBの実行までの平均の待ち時間(Tw)と閾値時間(Tth)を比較し、Twが長い場合は(ステップ407でNo)ステップ401へ処理を移す。また、TwがTth以下の場合(ステップ407でYes)は、ステップ408に移る。
In
ステップ408では、投入したJOBの実行を少なくとも閾値時間Tthの間だけ待つように、ストレージ管理サーバ19の情報解析部25から計算機管理サーバ18のJOB管理部21へ通知する。これはTwがTth以下の場合には、該当するJOBが実行開始になる前に、そのJOBが実行中にアクセスするファイル/ディレクトリ(言い換えると、アクセスするファイル格納用第二ボリューム52)が、第一階層ストレージ装置11へのステージングを完了することができないためである。この場合、第一階層ストレージ装置11にアクセスされるファイル/ディレクトリがないため、計算機14から第一階層ストレージ装置11への入出力エラーとなる。あるいは、第二階層ストレージ装置12のファイル格納用第二ボリューム52から直接入出力することになるため、入出力性能が低下する。このような状態になるのを防ぐため、ジョブが投入された時点から少なくとも閾値時間TthだけJOBの実行を遅らせる処理を行う。
In
次にステップ409では、該当するキュー内の全てのキューについて、ジョブ実行までの平均の待ち時間(Tw)を、閾値時間(Tth)に一定の時間(α)を加えた時間と比較する。比較する際には、例えばJOBキュー情報テーブル2:80を用いる。そして、TwがTthにαを加えた時間より長い場合は(ステップ409でNo)、ステップ401へ処理を移す。また、TwがTthにαを加えた時間以下の場合は(ステップ409でYes)、ステップ410へ移る。この条件を満たすJOBがあった場合は、少なくともTthにαを加えた時間後に、該当するJOBの実行が開始される可能性があることを意味する。したがって、ステップ410以降でファイルまたはボリュームのステージング処理を行う必要がある。
Next, in
ここで、Tthはシステムの稼働状況により変動する場合があるため、αという余裕を付加する。この余裕を大きくとりすぎると、多くのJOBについて、JOBが使用するファイルまたはボリュームを第二階層ストレージ装置12から第一階層ストレージ装置11へステージングすることになるため、第一階層ストレージ装置11の容量が増える。その結果、消費電力の大きい高速ハードディスクの台数が増えるので、省電力効果が小さくなる。そのためαは、例えばTthの10%以下程度とする。
Here, since Tth may vary depending on the operating status of the system, a margin of α is added. If this margin is too large, the files or volumes used by the JOB will be staged from the second tier storage device 12 to the first
このように処理すると、平均待ち時間Twが閾値時間Tthよりも大きい場合であっても、結果的には平均待ち時間Twが閾値時間Tthと略同じ値になるまで、ステップ410以降の処理が保留される。そのため、ジョブが実行されるよりもかなり早い段階でステージングを実行してしまい、第一階層ストレージ装置11の容量を無駄に長時間使用してしまったことによる電力の無駄を省くことができる。
In this way, even if the average waiting time Tw is larger than the threshold time Tth, the processing after
次にステップ410で、計算機14からアクセスされるファイル格納用第二ボリューム52を構成する対象RAID Gr.2:45の大容量ハードディスク43の電源を投入(ON)するよう、ストレージ管理部28から第二階層ストレージ装置12に対して、指示する。対象RAIDグループは、図10に示すボリューム管理テーブル:100を用いて決定することができる。
Next, at
ステップ411で、大容量ハードディスク43の電源投入が完了し、大容量ハードディスク43が稼動状態となるまで待つ。
In
稼動状態となったら(ステップ411でYes)、ステップ412で、ストレージ管理部28から、ファイルサーバ13に対して、電源を投入し稼動状態としたファイル格納用第二ボリューム52をファイル格納用ディレクトリ81にマウントするように指示を出す。その後、ストレージ管理部28から第二階層ストレージ装置12及び第一階層ストレージ装置11に、アクセスされるファイル格納用第二ボリューム52、またはそのボリューム内に格納されている、アクセスされるファイルを第一階層ストレージ装置11のファイル格納用第一ボリューム51へステージング(コピー)するよう指示する。
When the operating state is reached (Yes in step 411), in step 412, the
ここで、ファイル格納用第一ボリューム51は複数のボリュームLU0乃至LUnを有しており、その中のどのボリュームにコピーを行うかを決定する必要がある。それは、これらのボリュームが未使用で、かつそのボリュームのサイズがコピーされるボリュームまたはファイルのサイズ以上であるボリュームの中から選択する。ファイル格納用ボリューム51の各ボリュームの使用状況及びサイズは、図11に示すボリューム使用状況管理テーブル:110で管理されており、ストレージ管理部28において、未使用でサイズの条件が合うボリュームをこの表110から選択する。
Here, the first
ステップ413で、ステージングが完了するまで待つ。
ステージングが完了したら(ステップ413でYes)、ステップ414でファイル格納用ディレクトリ81にマウントされていた該当するファイル格納用第二ボリューム52(アクセスされるボリューム)をアンマウントし、ステージングが完了したファイル格納用第一ボリューム51に当該ディレクトリをマウントしなおす(切り替える)よう、ストレージ管理部28からファイルサーバ13に対して、指示する。
In
When the staging is completed (Yes in step 413), the corresponding file storage second volume 52 (accessed volume) mounted in the
図14にステージングが終了して、マウント切り替えを行った後の、ディレクトリ及びボリュームの状態を示している。この図では、JOBからアクセスされるファイル格納用第二ボリューム52がLU00である場合について示している。LU00に格納されていたファイルが、未使用かつ当該ファイルを格納しうるサイズを持つLU0にステージング(コピー:移動)110される。マウント切り替えをした後、VLU00(LU00)とディレクトリusr0/dir0とのマッピングは一時的に消滅する。
FIG. 14 shows the state of the directory and volume after staging is completed and mount switching is performed. This figure shows a case where the file storage
ステップ415で、マウント切り替えが完了するまで待つ。
マウント切り替えが完了したら(ステップ415でYes)、ステップ416で、ステージングが終了した(データ準備が完了した)という情報(ステージング完了情報)をストレージ管理サーバ19のストレージ管理部28から計算機管理サーバ18のJOB管理部21へ通知する。計算機管理サーバ18では、上記ストレージ管理サーバ19から送信されるステージング完了情報に基づき、各JOBの実行開始前に、そのJOBの実行に必要なファイルのステージングが完了しているかどうかをチェックして、ステージングが完了していればJOBを実行し、完了していなければステージングが完了した後にJOBを実行するように制御する。つまり、その通知を受信するまでJOBの実行を遅らせる。こうすることによって、ステージング完了前にJOBの実行が開始されて、入出力エラーとなったり、性能の低い第二階層ストレージ装置12からの入出力を防いだりすることが可能となる。
In
When the mount switching is completed (Yes in step 415), information (staging completion information) that staging is completed (data preparation is completed) is sent from the
次にステップ417で、アンマウントしたファイル格納用第二ボリューム52を構成するRAID Gr.2:45を構成する大容量ハードディスク23の電源を切る(OFF)ように、ストレージ管理部28から第二階層ストレージ装置12に対して、指示する。指示した後、ステップ401に戻る。
Next, at step 417, the RAID Gr. The
次にステップ418以降の処理について説明するが、これらの処理はJOB実行終了時(ステップ403でYes)に行う処理である。ステップ418では、実行が終了したJOBからアクセスされていたファイル/ディレクトリが元々格納/マウントされていたファイル格納用第二ボリューム52を構成する対象RAID Gr.2:45の大容量ハードディスク43の電源を投入(ON)するよう、ストレージ管理部28から第二階層ストレージ装置12に対して、指示する。
Next, the processing after
ステップ419で、大容量ハードディスク43の電源投入が完了し、大容量ハードディスク43が稼動状態となるまで待つ。
In
稼動状態となったら(ステップ419でYes)、ステップ420で、ストレージ管理部28から第一階層ストレージ装置11及び第二階層ストレージ装置12に、第一階層ストレージ装置11の該当するJOBからアクセスされていたファイル格納用第一ボリューム51、またはそのボリューム内に格納されているアクセスされるファイルを、元々のファイル格納用第二ボリューム51へデステージング(コピー)するよう指示する。なお、デステージングの完了後、ファイル格納用第一ボリューム51に格納されているファイルは、タイミングを問わず、削除するようにしても良い。
When the operation state is reached (Yes in Step 419), the
ステップ421で、デステージングが完了するまで待つ。
デステージングが完了したら(ステップ421でYes)、ステップ422でファイル格納用ディレクトリ81にマウントされていた該当するファイル格納用第一ボリューム51(アクセスされていたボリューム)をアンマウントし、デステージングが完了したファイル格納用第二ボリューム52に当該ディレクトリをマウントしなおす(切り替える)よう、ストレージ管理部28からファイルサーバ13に対して、指示する。
In
When the destaging is completed (Yes in Step 421), the corresponding file storage first volume 51 (the accessed volume) mounted in the
ステップ423で、マウント切り替えが完了するまで待つ。
マウント切り替えが完了したら(ステップ423でYes)、ステップ424で、デステージングの終了したファイル格納用第二ボリューム52をファイル格納用ディレクトリ81からアンマウントするように、ストレージ管理部28からファイルサーバ13に対して、指示する。
In
When the mount switching is completed (Yes in Step 423), the
次に、ステップ425で、デステージングの終了したファイル格納用第二ボリューム52を構成する大容量ハードディスク23の電源を切る(OFF)よう、ストレージ管理部28から第二階層ストレージ装置12に対して、指示する。指示した後、ステップ401に戻る。
Next, in
本実施形態によれば、計算機14で実行されるJOBが必要なときに、必要なファイルを第一階層ストレージ装置11にステージングできるため、第一階層ストレージ装置11の高性能を活かして計算機14へのファイルの入出力を高速化することが可能となる。また、第二階層ストレージ装置12の大容量ハードディスク43は、アクセスされるとき以外は電源を切っておくことが可能となる。さらに、第一階層ストレージ装置11の容量を最小限にすることが可能となる。したがって、ストレージシステム2の消費電力量を削減することが可能となる。よって、高性能が要求されるバッチ処理型のアプリケーション向けに、性能劣化を最小限に抑え、且つ、低消費電力を可能とする高速・大容量の階層ストレージシステムを提供することが可能となる。
According to the present embodiment, when a job to be executed by the computer 14 is necessary, a necessary file can be staged on the first
≪第二の実施形態≫
次に、本発明の第二の実施形態について説明する。
図15(図15A〜図15Cの総称)に、第二の実施形態のステージング/デステージングの手順を示す。図15に示す手順は、以下の点を除いて、図12に示す手順と同様である(図15のステップ501からステップ525はそれぞれ、以下の点を除いて、図12のステップ401からステップ425と同様である)。
異なる点は、JOBの実行の遅延、ステージングの開始タイミングを判断するために、平均の待ち時間ではなく、キュー内に待っているJOBの数を利用する点である。以下、その異なる点について説明する。
<< Second Embodiment >>
Next, a second embodiment of the present invention will be described.
FIG. 15 (generic name of FIGS. 15A to 15C) shows a staging / destaging procedure of the second embodiment. The procedure shown in FIG. 15 is the same as the procedure shown in FIG. 12 except for the following points (
The difference is that the number of JOBs waiting in the queue is used instead of the average waiting time in order to determine the execution delay of JOB and the start timing of staging. Hereinafter, the different points will be described.
そのため、ステップ504では、該当するキュー内に待っているJOBの数(待ちJOB数)とそのキューにあった実行中のJOBの数(実行中JOB数)の和(図6中のkに相当)を抽出する。また、JOBの平均実行頻度μ(図6参照)の逆数をとり、平均JOB実行時間Te(JOB実行時間の平均値)を算出する。
Therefore, in
また、ステップ505では、JOBの実行の遅延、ステージングの開始タイミングを判断するための、kの閾値数(kth)を待ち行列理論により算出する。kthは、ステップ504で求める平均JOB実行時間と閾値時間Tth、及び閾値数をkthとしたときに、JOB実行開始前までに、アクセスされるファイル/ボリュームのステージングを終了できない確率(失敗確率)を用いて、待ち行列理論から導出される式を使って計算する。失敗確率の上限値は、予め指定する(メモリ94に記憶される)。その上限値以下になるように、kの閾値数(kth)が決定される。
そして、JOBの実行の遅延、ステージングの開始タイミングを、ステップ507及び509でそれぞれ判断する。
In
Then, the execution delay of JOB and the start timing of staging are determined in
具体的には、ステップ507では、図8に示すJOBキュー情報テーブル:80を用いて、該当するキュー内に待っているJOBの数とそのキューにあった実行中のJOBの数の和kと閾値数(kth)を比較する(待ち行列理論により、Te、Ti、及びTthからkthを算出することができる)。kが大きい場合は(ステップ507でNo)、ステップ501へ処理を移す。また、kがkth以下の場合(ステップ507でYes)は、ステップ508に移る。
Specifically, in
ステップ509では、該当するキュー内の全てのキューについて、該当するキュー内に待っているJOBの数とそのキューにあった実行中のJOBの数の和kを、閾値数(kth)と比較する。比較する際には、例えばJOBキュー情報テーブル2:80を用いる。そして、kがkthより大きい場合は(ステップ509でNo)、ステップ501へ処理を移す。また、kがkth以下の場合は(ステップ509でYes)、ステップ510へ移る。この条件を満たすJOBがあった場合は、少なくともkth番目に、該当するJOBの実行が開始される可能性があることを意味する。
In
このように処理すると、該当するキュー内に待っているJOBの数とそのキューにあった実行中のJOBの数の和kが閾値数kthよりも大きい場合であっても、結果的には前記和kが閾値数kthと略同じ値になるまで、ステップ510以降の処理が保留される。そのため、ジョブが実行されるよりもかなり早い段階でステージングを実行してしまい、第一階層ストレージ装置11の容量を無駄に長時間使用してしまったことによる電力の無駄を省くことができる。
If the processing is performed in this way, even if the sum k of the number of JOBs waiting in the corresponding queue and the number of jobs being executed in the queue is larger than the threshold number kth, the result is as described above. Until the sum k becomes substantially the same value as the threshold number kth, the processing after
本実施形態では、JOBの実行開始前にステージングを終えることができない確率(失敗確率)を管理者が予め指定する値以下に抑えることが可能となる。 In this embodiment, it is possible to suppress the probability (failure probability) that the staging cannot be completed before the start of JOB execution to a value that is specified in advance by the administrator.
≪その他≫
前記した各実施形態は、本発明を実施するために好適のものであるが、その実施形式はこれらに限定されるものでなく、本発明の要旨を変更しない範囲内において種々変形することが可能である。
≪Others≫
Each of the above-described embodiments is suitable for carrying out the present invention, but the form of implementation is not limited to these, and various modifications can be made without departing from the scope of the present invention. It is.
例えば、ストレージ管理サーバ19が、計算機管理サーバ18の機能を兼ねるようなシステム構成にしても良い。具体的には、ストレージ管理サーバ19が、JOB管理部21、ユーザ管理部22、情報提供部23等の機能部を有し、プロセッサ95が前記機能部による機能を実現するように処理を実行しても良い。
For example, the
その他、ハードウェア、ソフトウェア、各フローチャート等の具体的な構成について、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。 In addition, specific configurations of hardware, software, flowcharts, and the like can be appropriately changed without departing from the spirit of the present invention.
1 計算機システム
2 ストレージシステム
11 第一階層ストレージ装置(第一のストレージ装置)
12 第二階層ストレージ装置(第二のストレージ装置)
13 ファイルサーバ
14 計算機
15 LAN
16 IPスイッチ
17 FCスイッチ
18 計算機管理サーバ
19 ストレージ管理サーバ
21 JOB管理部
22 ユーザ管理部
23 情報提供部
24 情報収集部
25 情報解析部
26 ボリューム管理部
27 ユーザエリア管理部
28 ストレージ管理部
42 高速ハードディスク(第一のハードディスク装置)
43 大容量ハードディスク(第二のハードディスク装置)
51 ファイル格納用第一ボリューム(第一のボリューム)
52 ファイル格納用第二ボリューム(第二のボリューム)
61 ファイル格納用仮想ボリューム
94 メモリ(記憶部)
95 プロセッサ(制御部)
98 プロセッサ(計算機管理サーバ用制御部)
99 メモリ
1
12 Second tier storage device (second storage device)
13 File server 14
16
43 Large-capacity hard disk (second hard disk device)
51 First volume for file storage (first volume)
52 Second volume for storing files (second volume)
61 Virtual volume 94 for storing files Memory (storage unit)
95 Processor (control unit)
98 processor (control unit for computer management server)
99 memory
Claims (20)
1以上の第二のボリュームを構成する1以上の第二のハードディスク装置を含む第二のストレージ装置と、
計算機上で逐次実行されるジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第一のボリューム及び前記第二のボリュームを管理するストレージ管理サーバと、
が通信可能に接続しているストレージシステムにおいて、
前記ストレージ管理サーバは、
少なくとも、ジョブのキュー状態及びジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第二のボリュームの識別情報を、ジョブごとに記憶している記憶部を有し、
前記ジョブがキューに投入される際の平均投入間隔および前記キューに投入されたジョブが実行される際の平均実行頻度に基づいて平均待ち時間を算出する制御と、
前記第二のハードディスク装置を、前記ファイルの入出力処理が可能になる程度に稼働状態にし、前記第二のボリュームに格納される当該ファイルを前記第一のボリュームに移動するまでに要する時間を閾値時間として算出する制御と、
前記平均待ち時間と前記閾値時間とを比較し、前記平均待ち時間が前記閾値時間以下であるとき、ジョブが投入された時点から少なくとも前記閾値時間だけ、当該ジョブの実行を遅らせる制御と、
当該ジョブが実行までに、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動し、当該ファイルが前記第一のボリュームに格納された状態で当該ジョブを前記計算機上で実行させる制御と、を実行する制御部を有する
ことを特徴とするストレージシステム。 A first storage device including one or more first hard disk devices constituting one or more first volumes;
A second storage device including one or more second hard disk devices constituting one or more second volumes;
A storage management server that manages the first volume and the second volume in which files accessed from the computer when executing a job sequentially executed on the computer;
In a storage system that is connected so that
The storage management server
At least a storage unit that stores, for each job, identification information of the second volume in which a job queue state and a file accessed from the computer when the job is executed are stored;
A control in which the job is to calculate the average waiting time on the basis of the average execution frequency when the jobs submitted to the average loading interval and the queue when it is submitted to the queue is executed,
The second hard disk device is put in an operating state to such an extent that the file input / output processing can be performed, and the time required for moving the file stored in the second volume to the first volume is thresholded. Control to calculate as value time,
The average waiting time is compared with the threshold time, and when the average waiting time is equal to or less than the threshold time, the execution of the job is delayed by at least the threshold time from the time when the job is submitted;
Before the job is executed, the second hard disk device that constitutes the second volume in which the file is stored is put in an operating state to the extent that the input / output processing of the file can be performed, and the file is moved to the first volume. And a control unit that executes the job on the computer while the file is stored in the first volume and the file is stored in the first volume.
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする制御を実行する
ことを特徴とする請求項1に記載のストレージシステム。 Wherein,
After pre-SL movement is completed, the storage system according to claim 1, characterized in that to perform the control to the second hard disk device in a non-operating state.
前記平均待ち時間が前記閾値時間より大きいとき、遅くとも前記平均待ち時間が前記閾値時間と略同じ時間になるまでには、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動する制御と、
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする制御と、を実行する
ことを特徴とする請求項1に記載のストレージシステム。 The controller is
When the average waiting time is larger than the threshold time, the second hard disk constituting the second volume in which the file is stored until the average waiting time becomes substantially the same as the threshold time at the latest. Control the apparatus to be in an operating state to the extent that input / output processing of the file is possible, and to move the file to the first volume;
2. The storage system according to claim 1, wherein after the movement is completed, control is performed to place the second hard disk device in a non-operating state.
前記キュー状態を参照して、当該ジョブの実行が終了したことを確認すると、当該ファイルが元々格納されていた前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームから当該第二のボリュームに移動する制御と、
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする制御と、を実行する
ことを特徴とする請求項1から請求項3のいずれかに記載のストレージシステム。 The controller is
When it is confirmed that the execution of the job has been completed with reference to the queue status, the file input / output processing is performed on the second hard disk device that constitutes the second volume in which the file is originally stored. Control to move the file from the first volume to the second volume,
After the move is completed, the storage system according to any of claims 1 to 3, characterized by executing a control for the second hard disk device in a non-operating state, the.
前記計算機管理サーバは、
前記ストレージ管理サーバから、前記ファイルの前記移動が完了した通知を受信するまで、当該ジョブの実行を遅らせる制御を実行する計算機管理サーバ用制御部を有する
ことを特徴とする請求項1から請求項3のいずれかに記載のストレージシステム。 A computer management server that manages jobs executed sequentially on the computer is connected to be communicable,
The computer management server is
From the storage management server, until it receives a notification the movement of the file is complete, claims 1 to 3, characterized in that it comprises a computer management server control unit for executing control to delay the execution of the job The storage system according to any one of the above.
当該第二のボリュームを構成する前記第二のハードディスク装置の非稼働状態は、前記第二のハードディスク装置の電源を切断している、もしくは前記第二のハードディスク装置のディスクの回転を停止している、または予め定められた回転速度以下で回転させている状態である
ことを特徴とする請求項1から請求項4のいずれかに記載のストレージシステム。 All files that are not accessed from the computer are stored in the second volume,
The non-operating state of the second hard disk device constituting the second volume is that the power supply of the second hard disk device is turned off or the disk of the second hard disk device is stopped. The storage system according to any one of claims 1 to 4, wherein the storage system is in a state of being rotated at a rotation speed equal to or lower than a predetermined rotation speed.
前記第一のボリューム及び前記第二のボリュームは、前記ファイルサーバが管理するディレクトリにマウントされており、
前記記憶部は、前記ディレクトリをジョブごとに記憶している
ことを特徴とする請求項1から請求項4のいずれかに記載のストレージシステム。 A file server that is communicably connected via the computer and the first storage device is communicably connected,
The first volume and the second volume are mounted on a directory managed by the file server,
The storage system according to any one of claims 1 to 4, wherein the storage unit stores the directory for each job.
1以上の第二のボリュームを構成する1以上の第二のハードディスク装置を含む第二のストレージ装置と、
計算機上で逐次実行されるジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第一のボリューム及び前記第二のボリュームを管理するストレージ管理サーバと、
が通信可能に接続しているストレージシステムにおいて、
前記ストレージ管理サーバは、
少なくとも、ジョブのキュー状態及びジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第二のボリュームの識別情報を、ジョブごとに記憶している記憶部を有し、
前記記憶部を参照し、前記キュー状態が待ち状態のジョブ及び実行中のジョブの数の和を求めるとともに、前記キューに投入されたジョブが実行される際の平均実行頻度に基づいて前記ジョブが実行される際の平均実行時間を算出する制御と、
前記第二のハードディスク装置を、前記ファイルの入出力処理が可能になる程度に稼働状態にし、前記第二のボリュームに格納される当該ファイルを前記第一のボリュームに移動するまでに要する時間を閾値時間として算出する制御と、
前記移動を終了できない確率であり、前記平均実行時間、前記平均投入間隔、及び前記閾値時間に基づいて算出される失敗確率が、前記記憶部に記憶される値以下になるように、前記和の閾値数を決定する制御と、
前記和と前記閾値数とを比較し、前記和が前記閾値数以下であるとき、ジョブが投入された時点から少なくとも前記閾値時間だけ、当該ジョブの実行を遅らせる制御と、
当該ジョブが実行までに、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動し、当該ファイルが前記第一のボリュームに格納された状態で当該ジョブを前記計算機上で実行させる制御と、を実行する制御部を有する
ことを特徴とするストレージシステム。 A first storage device including one or more first hard disk devices constituting one or more first volumes;
A second storage device including one or more second hard disk devices constituting one or more second volumes;
A storage management server that manages the first volume and the second volume in which files accessed from the computer when executing a job sequentially executed on the computer;
In a storage system that is connected so that
The storage management server
At least a storage unit that stores, for each job, identification information of the second volume in which a job queue state and a file accessed from the computer when the job is executed are stored;
Referring to the storage unit, the sum of the number of jobs whose queue status is waiting and the number of jobs being executed is calculated, and the job is determined based on the average execution frequency when the jobs submitted to the queue are executed. Control for calculating the average execution time when executed,
The second hard disk device is put in an operating state to such an extent that the file input / output processing can be performed, and the time required for moving the file stored in the second volume to the first volume is thresholded. Control to calculate as value time,
The probability that the movement cannot be finished, and the failure probability calculated based on the average execution time, the average insertion interval, and the threshold time is less than or equal to a value stored in the storage unit. Control to determine the threshold number;
A control that compares the sum with the threshold number, and delays execution of the job for at least the threshold time from when the job is submitted when the sum is less than or equal to the threshold number;
Before the job is executed, the second hard disk device that constitutes the second volume in which the file is stored is put in an operating state to the extent that the input / output processing of the file can be performed, and the file is moved to the first volume. And a control unit that executes the job on the computer while the file is stored in the first volume and the file is stored in the first volume.
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする制御を実行する
ことを特徴とする請求項8に記載のストレージシステム。 Wherein,
After pre-SL movement is completed, the storage system according to claim 8, characterized in that to perform the control to the second hard disk device in a non-operating state.
前記和が前記閾値数より大きいとき、遅くとも前記和が前記閾値数と略同じ数になるまでには、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動する制御と、
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする制御と、を実行する
ことを特徴とする請求項8に記載のストレージシステム。 The controller is
When the sum is larger than the threshold number, the second hard disk device that constitutes the second volume in which the file is stored until the sum becomes substantially the same as the threshold number at the latest. Control to move the file to the first volume, and move the file to the first volume so that file input / output processing is possible;
The storage system according to claim 8, wherein after the movement is completed, control is performed to place the second hard disk device in a non-operating state.
1以上のファイル格納用第二ボリュームを構成する1以上の大容量ハードディスクを含む第二階層ストレージ装置と、
計算機上で逐次実行されるジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記ファイル格納用第一ボリューム及び前記ファイル格納用第二ボリュームを管理するストレージ管理サーバと、
が通信可能に接続しているストレージシステムにおいて、
前記ストレージ管理サーバは、
少なくとも、ジョブのJOB状態及びジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記ファイル格納用第二ボリュームの識別情報を、ジョブごとに記憶しているメモリを有し、
前記ジョブがキューに投入される際の平均投入間隔および前記キューに投入されたジョブが実行される際の平均実行頻度に基づいて平均待ち時間を算出する制御と、
前記大容量ハードディスクを、前記ファイルの入出力処理が可能になる程度に稼働状態にし、前記ファイル格納用第二ボリュームに格納される当該ファイルを前記ファイル格納用第一ボリュームにステージングするまでに要する時間を閾値時間として算出する制御と、
前記平均待ち時間と前記閾値時間とを比較し、その比較結果に基づいて、前記ジョブを実行するタイミング及び当該ファイルが格納される前記ファイル格納用第二ボリュームを構成する前記大容量ハードディスクを稼働状態または非稼働状態にするタイミングを調整し、当該ファイルが前記ファイル格納用第一ボリュームに格納された状態で当該ジョブを前記計算機上で実行させる制御と、を実行するプロセッサを有し、
前記プロセッサは、
前記平均待ち時間が前記閾値時間以下であるとき、ジョブが投入された時点から少なくとも前記閾値時間だけ、当該ジョブの実行を遅らせる制御と、
当該ファイルが格納される前記ファイル格納用第二ボリュームを構成する前記大容量ハードディスクを、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記ファイル格納用第一ボリュームにステージングする制御と、
前記ステージングが終了した後、当該大容量ハードディスクを非稼働状態にする制御と、を実行し、
前記平均待ち時間が前記閾値時間より大きいとき、遅くとも前記平均待ち時間が前記閾値時間と略同じ時間になるまでには、当該ファイルが格納される前記ファイル格納用第二ボリュームを構成する前記大容量ハードディスクを、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記ファイル格納用第一ボリュームにステージングする制御と、
前記ステージングが終了した後、当該大容量ハードディスクを非稼働状態にする制御と、を実行し、
前記JOB状態を参照して、当該ジョブの実行が終了したことを確認すると、当該ファイルが元々格納されていた前記ファイル格納用第二ボリュームを構成する前記大容量ハードディスクを、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記ファイル格納用第一ボリュームから当該ファイル格納用第二ボリュームにデステージングする制御と、
前記デステージングが終了した後、当該大容量ハードディスクを非稼働状態にする制御と、を実行する
ことを特徴とするストレージシステム。 A first tier storage apparatus including one or more high-speed hard disks constituting one or more file storage first volumes;
A second tier storage apparatus including one or more large-capacity hard disks constituting one or more file storage second volumes;
A storage management server for managing the file storage first volume and the file storage second volume in which files accessed from the computer when executing a job sequentially executed on the computer;
In a storage system that is connected so that
The storage management server
At least a job storing a job JOB state and identification information of the second volume for storing files in which a file accessed from the computer when executing the job is stored for each job;
A control in which the job is to calculate the average waiting time on the basis of the average execution frequency when the jobs submitted to the average loading interval and the queue when it is submitted to the queue is executed,
Time required for putting the large-capacity hard disk in an operating state to the extent that the file input / output processing is possible and staging the file stored in the file storage second volume to the file storage first volume a control for calculating a threshold value time,
The average waiting time and the threshold time are compared, and based on the comparison result, the job execution timing and the large-capacity hard disk constituting the file storage second volume in which the file is stored are operating. Or a control for adjusting the timing of making the non-operating state and executing the job on the computer in a state where the file is stored in the first volume for file storage,
The processor is
When the average waiting time is equal to or less than the threshold time, a control for delaying execution of the job by at least the threshold time from the time when the job is submitted;
The large-capacity hard disk that constitutes the second file storage volume in which the file is stored is brought into an operating state to the extent that the input / output processing of the file can be performed, and the file is staged on the first file storage volume Control to
After the staging is completed, control to put the large-capacity hard disk in a non-operating state, and
When the average waiting time is larger than the threshold time, the large capacity constituting the second volume for storing files in which the file is stored until the average waiting time becomes approximately the same as the threshold time at the latest Control the hard disk to be in an operating state to the extent that input / output processing of the file is possible, and staging the file to the first volume for storing the file;
After the staging is completed, control to put the large-capacity hard disk in a non-operating state, and
When it is confirmed that the execution of the job has been completed with reference to the JOB state, the input / output processing of the file is performed on the large-capacity hard disk constituting the second volume for file storage in which the file was originally stored. Control to bring the file into the operating state to the extent that it is possible and destage the file from the file storage first volume to the file storage second volume;
After the destaging is completed, a control for executing the large capacity hard disk in a non-operating state is executed.
1以上の第二のボリュームを構成する1以上の第二のハードディスク装置を含む第二のストレージ装置と、
計算機上で逐次実行されるジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第一のボリューム及び前記第二のボリュームを管理するストレージ管理サーバと、
が通信可能に接続しているストレージシステムにおけるストレージ管理方法において、
前記ストレージ管理サーバの記憶部は、
少なくとも、ジョブのキュー状態及びジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第二のボリュームの識別情報を、ジョブごとに記憶しており、
前記ストレージ管理サーバの制御部は、
前記ジョブがキューに投入される際の平均投入間隔および前記キューに投入されたジョブが実行される際の平均実行頻度に基づいて平均待ち時間を算出する処理と、
前記第二のハードディスク装置を、前記ファイルの入出力処理が可能になる程度に稼働状態にし、前記第二のボリュームに格納される当該ファイルを前記第一のボリュームに移動するまでに要する時間を閾値時間として算出する処理と、
前記平均待ち時間と前記閾値時間とを比較し、前記平均待ち時間が前記閾値時間以下であるとき、ジョブが投入された時点から少なくとも前記閾値時間だけ、当該ジョブの実行を遅らせる処理と、
当該ジョブが実行までに、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動し、当該ファイルが前記第一のボリュームに格納された状態で当該ジョブを前記計算機上で実行させる処理と、を実行する
ことを特徴とするストレージ管理方法。 A first storage device including one or more first hard disk devices constituting one or more first volumes;
A second storage device including one or more second hard disk devices constituting one or more second volumes;
A storage management server that manages the first volume and the second volume in which files accessed from the computer when executing a job sequentially executed on the computer;
In a storage management method in a storage system that is communicably connected,
The storage unit of the storage management server is
At least the job queue status and the identification information of the second volume in which the file accessed from the computer when the job is executed are stored for each job,
The control unit of the storage management server
And processing the job to calculate the average waiting time on the basis of the average execution frequency when the jobs submitted to the average loading interval and the queue when it is submitted to the queue is executed,
The second hard disk device is put in an operating state to such an extent that the file input / output processing can be performed, and the time required for moving the file stored in the second volume to the first volume is thresholded. Processing to calculate the value time;
Comparing the average waiting time with the threshold time, and when the average waiting time is equal to or less than the threshold time, a process of delaying execution of the job by at least the threshold time from the time when the job is submitted,
Before the job is executed, the second hard disk device that constitutes the second volume in which the file is stored is put in an operating state to the extent that the input / output processing of the file can be performed, and the file is moved to the first volume. A storage management method comprising: moving to one volume and executing the job on the computer in a state where the file is stored in the first volume.
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする処理を実行する
ことを特徴とする請求項12に記載のストレージ管理方法。 Wherein,
After pre-SL movement is completed, the storage management method according to claim 12, characterized in that performing the processing of the second hard disk device in a non-operating state.
前記平均待ち時間が前記閾値時間より大きいとき、遅くとも前記平均待ち時間が前記閾値時間と略同じ時間になるまでには、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動する処理と、
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする処理と、を実行する
ことを特徴とする請求項12に記載のストレージ管理方法。 The controller is
When the average waiting time is larger than the threshold time, the second hard disk constituting the second volume in which the file is stored until the average waiting time becomes substantially the same as the threshold time at the latest. A process for moving the file to the first volume by putting the device in an operating state to the extent that input / output processing of the file is possible; and
The storage management method according to claim 12, wherein after the movement is completed, a process of setting the second hard disk device to a non-operating state is executed.
前記キュー状態を参照して、当該ジョブの実行が終了したことを確認すると、当該ファイルが元々格納されていた前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームから当該第二のボリュームに移動する処理と、
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする処理と、を実行する
ことを特徴とする請求項12から請求項14のいずれかに記載のストレージ管理方法。 The controller is
When it is confirmed that the execution of the job has been completed with reference to the queue status, the file input / output processing is performed on the second hard disk device that constitutes the second volume in which the file is originally stored. A process for moving the file from the first volume to the second volume,
The storage management method according to any one of claims 12 to 14, wherein after the movement is completed, a process of setting the second hard disk device to a non-operating state is executed.
前記計算機管理サーバの計算機管理サーバ用制御部は、
前記ストレージ管理サーバから、前記ファイルの前記移動が完了した通知を受信するまで、当該ジョブの実行を遅らせる処理を実行する
ことを特徴とする請求項12から請求項14のいずれかに記載のストレージ管理方法。 A computer management server that manages jobs executed sequentially on the computer is connected to be communicable,
The computer management server control unit of the computer management server includes:
The storage management according to any one of claims 12 to 14, wherein processing for delaying execution of the job is executed until a notification of completion of the movement of the file is received from the storage management server. Method.
当該第二のボリュームを構成する前記第二のハードディスク装置の非稼働状態は、前記第二のハードディスク装置の電源を切断している、もしくは前記第二のハードディスク装置のディスクの回転を停止している、または予め定められた回転速度以下で回転させている状態である
ことを特徴とする請求項12から請求項15のいずれかに記載のストレージ管理方法。 All files that are not accessed from the computer are stored in the second volume,
The non-operating state of the second hard disk device constituting the second volume is that the power supply of the second hard disk device is turned off or the disk of the second hard disk device is stopped. The storage management method according to any one of claims 12 to 15, wherein the storage management method is in a state of being rotated at a rotation speed equal to or lower than a predetermined rotation speed.
1以上の第二のボリュームを構成する1以上の第二のハードディスク装置を含む第二のストレージ装置と、
計算機上で逐次実行されるジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第一のボリューム及び前記第二のボリュームを管理するストレージ管理サーバと、
が通信可能に接続しているストレージシステムにおけるストレージ管理方法において、
前記ストレージ管理サーバの記憶部は、
少なくとも、ジョブのキュー状態及びジョブを実行するときに前記計算機からアクセスされるファイルが格納される前記第二のボリュームの識別情報を、ジョブごとに記憶しており、
前記ストレージ管理サーバの制御部は、
前記記憶部を参照し、前記キュー状態が待ち状態のジョブ及び実行中のジョブの数の和を求めるとともに、前記キューに投入されたジョブが実行される際平均実行頻度に基づいて前記ジョブが実行される際の平均実行時間を算出する処理と、
前記第二のハードディスク装置を、前記ファイルの入出力処理が可能になる程度に稼働状態にし、前記第二のボリュームに格納される当該ファイルを前記第一のボリュームに移動するまでに要する時間を閾値時間として算出する処理と、
前記移動を終了できない確率であり、前記平均実行時間、前記平均投入間隔、及び前記閾値時間に基づいて算出される失敗確率が、前記記憶部に記憶される値以下になるように、前記和の閾値数を決定する処理と、
前記和と前記閾値数とを比較し、前記和が前記閾値数以下であるとき、ジョブが投入された時点から少なくとも前記閾値時間だけ、当該ジョブの実行を遅らせる処理と、
当該ジョブが実行までに、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動し、当該ファイルが前記第一のボリュームに格納された状態で当該ジョブを前記計算機上で実行させる処理と、を実行する
ことを特徴とするストレージ管理方法。 A first storage device including one or more first hard disk devices constituting one or more first volumes;
A second storage device including one or more second hard disk devices constituting one or more second volumes;
A storage management server that manages the first volume and the second volume in which files accessed from the computer when executing a job sequentially executed on the computer;
In a storage management method in a storage system that is communicably connected,
The storage unit of the storage management server is
At least the job queue status and the identification information of the second volume in which the file accessed from the computer when the job is executed are stored for each job,
The control unit of the storage management server
Referring to the storage unit, the sum of the number of jobs whose queue status is waiting and the number of jobs being executed is calculated, and the job is executed based on the average execution frequency when the job submitted to the queue is executed. Processing to calculate the average execution time when
The second hard disk device is put in an operating state to such an extent that the file input / output processing can be performed, and the time required for moving the file stored in the second volume to the first volume is thresholded. Processing to calculate the value time;
The probability that the movement cannot be finished, and the failure probability calculated based on the average execution time, the average insertion interval, and the threshold time is less than or equal to a value stored in the storage unit. Processing to determine the threshold number;
Comparing the sum with the threshold number, and when the sum is less than or equal to the threshold number, a process of delaying execution of the job for at least the threshold time from when the job was submitted,
Before the job is executed, the second hard disk device that constitutes the second volume in which the file is stored is put in an operating state to the extent that the input / output processing of the file can be performed, and the file is moved to the first volume. A storage management method comprising: moving to one volume and executing the job on the computer in a state where the file is stored in the first volume.
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする処理を実行する
ことを特徴とする請求項18に記載のストレージ管理方法。 Wherein,
After pre-SL movement is completed, the storage management method according to claim 18, characterized in that performing the processing of the second hard disk device in a non-operating state.
前記和が前記閾値数より大きいとき、遅くとも前記和が前記閾値数と略同じ数になるまでには、当該ファイルが格納される前記第二のボリュームを構成する前記第二のハードディスク装置を、当該ファイルの入出力処理が可能になる程度に稼働状態にし、当該ファイルを前記第一のボリュームに移動する処理と、
前記移動が終了した後、当該第二のハードディスク装置を非稼働状態にする処理と、を実行する
ことを特徴とする請求項18に記載のストレージ管理方法。 The controller is
When the sum is larger than the threshold number, the second hard disk device that constitutes the second volume in which the file is stored until the sum becomes substantially the same as the threshold number at the latest. A process for moving the file to the first volume, and an operation state that enables file input / output processing; and
The storage management method according to claim 18, further comprising: executing a process of bringing the second hard disk device into a non-operating state after the movement is completed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009080148A JP5246872B2 (en) | 2009-03-27 | 2009-03-27 | Storage system and storage management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009080148A JP5246872B2 (en) | 2009-03-27 | 2009-03-27 | Storage system and storage management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010231636A JP2010231636A (en) | 2010-10-14 |
JP5246872B2 true JP5246872B2 (en) | 2013-07-24 |
Family
ID=43047366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009080148A Expired - Fee Related JP5246872B2 (en) | 2009-03-27 | 2009-03-27 | Storage system and storage management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5246872B2 (en) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012105252A (en) | 2010-10-14 | 2012-05-31 | Hitachi Media Electoronics Co Ltd | Surface acoustic wave device |
WO2014167716A1 (en) * | 2013-04-12 | 2014-10-16 | 株式会社日立製作所 | Computer system management system and management method |
US10057338B2 (en) | 2014-03-26 | 2018-08-21 | Hitachi, Ltd. | Data distribution apparatus, data distribution method, and data distribution program for parallel computing processing system |
JP7399380B2 (en) * | 2019-12-24 | 2023-12-18 | フリーストリート合同会社 | Trading strategy verification method, its device and its program |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5081498B2 (en) * | 2007-05-24 | 2012-11-28 | 株式会社日立製作所 | Computer system and control method thereof |
-
2009
- 2009-03-27 JP JP2009080148A patent/JP5246872B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010231636A (en) | 2010-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4375435B2 (en) | Hierarchical storage system for predictive data migration | |
US8346934B2 (en) | Method for executing migration between virtual servers and server system used for the same | |
US8429346B1 (en) | Automated data relocation among storage tiers based on storage load | |
US7549016B2 (en) | Storage control apparatus for selecting storage media based on a user-specified performance requirement | |
US7568075B2 (en) | Apparatus, system and method for making endurance of storage media | |
JP4921054B2 (en) | Load balancing control system and load balancing control method | |
JP4183443B2 (en) | Data relocation method and apparatus | |
JP5037881B2 (en) | Storage system and control method thereof | |
US8892780B2 (en) | Management of shared storage I/O resources | |
EP2450784B1 (en) | Latency reduction associated with a response to a request in a storage system | |
US9323682B1 (en) | Non-intrusive automated storage tiering using information of front end storage activities | |
US8392670B2 (en) | Performance management of access to flash memory in a storage device | |
JP5529283B2 (en) | Storage system and cache configuration changing method in storage system | |
US8196034B2 (en) | Computer system and method for reducing power consumption of storage system | |
US9110591B2 (en) | Memory resource provisioning using SAS zoning | |
JP2005165852A (en) | Storage system, storage control device, and control method of storage system | |
JP2009053921A (en) | Storage system, computer and computer system | |
JP5246872B2 (en) | Storage system and storage management method | |
US8036076B2 (en) | Method of reducing storage power consumption by use of prefetch and computer system using the same | |
US10152242B1 (en) | Host based hints | |
US20230359359A1 (en) | Elastic request handling technique for optimizing workload performance | |
Mandagere | Techniques for Optimizing Cost of Enterprise Data Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130108 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130405 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |