[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP5293412B2 - コンピュータシステム、及びコンピュータシステムの障害処理方法 - Google Patents

コンピュータシステム、及びコンピュータシステムの障害処理方法 Download PDF

Info

Publication number
JP5293412B2
JP5293412B2 JP2009132140A JP2009132140A JP5293412B2 JP 5293412 B2 JP5293412 B2 JP 5293412B2 JP 2009132140 A JP2009132140 A JP 2009132140A JP 2009132140 A JP2009132140 A JP 2009132140A JP 5293412 B2 JP5293412 B2 JP 5293412B2
Authority
JP
Japan
Prior art keywords
device group
computer system
failure
operating system
service processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009132140A
Other languages
English (en)
Other versions
JP2010277514A (ja
Inventor
尚希 安達
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009132140A priority Critical patent/JP5293412B2/ja
Publication of JP2010277514A publication Critical patent/JP2010277514A/ja
Application granted granted Critical
Publication of JP5293412B2 publication Critical patent/JP5293412B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、拡張デバイスの実装されるコンピュータシステム、及びその障害処理方法に関する。
CPU、ノースブリッジ、及びサウスブリッジなどを含む本体系装置に、機能を拡張するための拡張デバイス(例えば、PCIデバイス)を複数個実装したコンピュータシステムが知られている。このようなコンピュータシステムにおいて、障害が発生した場合、再起動(システムリブート)が行われる場合がある。
図1は、障害発生による再起動時の動作を示すフローチャートである。図1に示されるように、コンピュータシステムに障害が発生すると(S101)、本体系装置において、DC OFF命令が実行され、オペレーティングシステム(以下、OS)がたち下げられる(S102)。DC OFF命令の実行が終了すると、電源が再投入される(ステップS103)。次に、Hand OFFが実行される(S104)。Hand OFFが終了すると、複数の拡張デバイス等のデバイスが初期化される(S105)。全ての拡張デバイスが初期化された後に、OSの立ち上げが開始される。OSの起動が完了し、OS Ready状態となった後に、障害復旧処理が開始される(S106)。
障害が復旧するまで、コンピュータシステムを利用することはできない。従って、障害復旧に要する時間は、短い方が望ましい。
障害復旧時の動作を工夫した技術として、特許文献1に記載された情報処理装置が挙げられる。特許文献1の情報処理装置は、障害を検出する障害検出回路と、複数の障害のそれぞれをグループ分けして格納する障害テーブルと、障害検出回路にて検出された障害について障害情報テーブルに格納されるグループのいずれに属するかを判定し、判定したグループに関するハードウェアのみを初期化する制御装置と、を備える。これにより、必要最低限のハードウェアの初期化が可能となり、発生した障害とは無関係なハードウェアの初期化を行わなくてもよいため、再試行処理の性能が向上すると記載されている。
また、特許文献2には、コアI/Oカードを2重化することによって、障害などにより使用していた一のコアI/Oカードが切り離された場合でも、他のコアI/Oカードを利用してリブートできることが記載されている。
また、特許文献3には、オペレーティングシステムの初期化プロセスに、起動対象となるシステムの稼動に必要なドライブを検索したことを判定してドライブの検索処理を終了する処理手段を具備したことを特徴とする情報処理装置が開示されている。この特許文献3によれば、起動時におけるドライブ検索数を必要最小限に抑える事ができ、システム起動にかかる処理時間を短縮できると記載されている。
また、特許文献4には、オペレーティングシステムを格納した記憶装置を含む情報処理装置において、第1スイッチ及び第1スイッチを本体に設けることが記載されている。第1スイッチの操作により本体の電源がオンされたときには、その記憶装置を含む複数のデバイスを初期化する処理を含む第1の起動処理が実行された後に、オペレーティングシステムが起動される。第2スイッチの操作により本体の電源がオンされたときには、第1の起動処理の所定の一部の処理の実行が省略された第2の起動処理が実行された後に、オペレーティングシステムが起動される。第2スイッチの操作により本体の電源がオンされた時には、オペレーティングシステムの起動のために必要とされない各デバイスの初期化処理の実行がスキップされ、電源オンからオペレーティングシステムが起動されるまでの時間を大幅に短縮できると記載されている。
特開2000−200199号公報 特開2005−266948号公報 特開2006−236058号公報 特開2006−252329号公報
再起動時における拡張デバイスの初期化は、拡張デバイスを使用可能にするために不可欠な動作であるが、多くの時間を要する。例えば、PCIスロットにPCIデバイスが実装されている場合、初期化時には、このPCIスロットにOption ROMが存在するか否かが確認される。Option ROMが存在すれば、Option ROMのコードがメモリ上に展開される。コードの展開には、多くの時間を要する。
従って、本発明の目的は、OSが起動する前に拡張デバイスの初期化に要する時間を、短縮することのできる、コンピュータシステム及びコンピュータシステムの障害復旧方法を提供することにある。
以下に、[発明を実施するための形態]で使用する括弧付き符号を用いて、課題を解決するための手段を説明する。これらの符号は、[特許請求の範囲]の記載と[発明を実施するための形態]の記載との対応関係を明らかにするために付加されたものであるが、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
本発明のコンピュータシステムは、CPU(11)を備える本体系装置(10)と、本体系装置(10)の機能を拡張するために前記本体系装置に実装された、複数の拡張デバイス(17〜19)と、CPU(11)とは独立に、本体系装置(10)の動作を制御するサービスプロセッサ(20)と、を具備する。サービスプロセッサ(20)は、障害発生により本体系装置(10)の電源が再投入されたときに、複数の拡張デバイス(17〜19)のうちでオペレーティングシステムの立ち上げに必要なデバイスである第1デバイス群(17)のみを初期化し、第1デバイス群(17)を初期化した後にオペレーティングシステムを起動させる。CPU(11)は、オペレーティングシステムの起動後に、オペレーティングシステム上で障害処理を実行する。サービスプロセッサ(20)は、CPU(11)による障害処理の実行が開始された後に、複数の拡張デバイス(17〜19)のうちの第1デバイス群(17)以外のデバイスである第2デバイス群(18、19)を初期化する。
本発明によれば、OSが起動する前に拡張デバイスの初期化に要する時間を、短縮することのできる、コンピュータシステム及びコンピュータシステムの障害復旧方法が提供される。
コンピュータシステムの障害処理方法を示すフローチャートである。 実施例のコンピュータシステムの構成を概略的に示すブロック図である。 実施例のコンピュータシステムの障害処理方法を示すフローチャートである。
図面を参照しつつ、本発明の実施例について説明する。
図2は、本実施例のコンピュータシステムの構成を示す概略ブロック図である。本実施例では、コンピュータシステムとして、サーバを例に挙げて説明する。このコンピュータシステムは、本体系装置10と、サービスプロセッサ20と、SNMP(Simple Network Management Protocol)マネージャ30と、カード情報記憶部40と、を備えている。
本体系装置10は、複数(4つ)のCPU(11−1〜11−4)と、ノースブリッジ12と、複数(2つ)のサウスブリッジ(13−1、13−2)と、主記憶装置14と、プロセッサバス15と、複数(2つ)のPCIバス(16−1、16−2)と、複数のPCIスロット17と、を備えている。4つのCPU(11−1〜11−4)は、プロセッサバス15を介してノースブリッジ12に接続されている。2つのサウスブリッジ(13−1、13−2)は、ノースブリッジ12に接続されている。サウスブリッジ(13−1、13−2)の配下には、それぞれ、PCIバス(16−1、16−2)が接続されている。PCIバス(16−1、16−2)の配下には、それぞれ、複数のPCIスロットが接続されている。
ノースブリッジ12は、ホスト−PCIブリッジを含むシステムコントローラである。ノースブリッジ12には、ホスト−PCIブリッジのほかにも、主記憶装置14のメモリコントローラなどが内蔵されている。
サウスブリッジ13は、配下に接続されているPCIバス16のインタフェース(PCIバスコントローラ)機能を有する。
複数のPCIスロット17は、PCIボード(拡張デバイス)を実装するために設けられている。本実施例では、PCIバス16−1、16−2の配下に、それぞれ、8個のPCIスロットが設けられている。PCIバス16−1の配下のPCIスロットには、PCIボードとして、SCSI(Small Computer System Interface)17−1、FC(Fiber Channel)18−1、及びNIC(Network Interface Card)19−1が接続されている。また、PCIバス16−2の配下のPCIスロットにも、同様に、SCSI(17−2)、FC(18−2)、NIC(19−2)が接続されている。尚、本実施例では、PCIボードとして、NIC、SCSI、FCの3種のインタフェースを例に挙げたが、他のPCIスロットにも各種PCIボードのインタフェースが実装されていてもよい。
本実施例では、SCSI(17−1、17−2)の配下に、それぞれ、OSを起動する際に用いるBoot Disk(1−1、1−2)が接続されているものとする。また、FC(18−1、18−2)の配下に、それぞれ、ディスク(2−1、2−2)が接続されているものとする。
サービスプロセッサ20は、本体系装置10のCPU(11−1〜11−4)とは独立して、本体系装置10の動作を制御するプロセッサである。詳細は後述するが、サービスプロセッサ20は、障害発生によりコンピュータシステムが再起動されるときに、本体系装置10の動作を制御する。
SNMPマネージャは、サービスプロセッサ20に接続されている。障害発生による再起動時には、SNMPマネージャからの指示により、サービスプロセッサ20が本体系装置10の動作を制御する。SNMPマネージャは、ネットワークを介してサービスプロセッサ20に接続されていてもよい。
カード情報記憶部40には、予め、複数のPCIデバイスのうちでオペレーティングシステムの立ち上げに必要なデバイス(第1デバイス群)を特定するための情報が記憶されている。本実施例では、オペレーティングシステムの立ち上げに必要なデバイスは、SCSI(17−1、17−2)に接続されたBoot Disk(1−1、1−2)である。したがって、カード情報記憶部40には、SCSI(17−1、17−2)の接続されたPCIスロットを特定するための情報が記憶されている。カード情報記憶部40は、サービスプロセッサ20に接続されている。サービスプロセッサ20は、障害発生による再起動時に、カード情報記憶部40にアクセスし、カード情報記憶部40に記憶された情報に基づいて、本体系装置10の動作を制御する。カード情報記憶部40は、たとえば、ハードディスクなどで構成することができる。
続いて、本実施例にかかるコンピュータシステムの障害処理方法について説明する。図3は、そのコンピュータシステムの障害処理方法の動作を示すフローチャートである。
コンピュータシステムの運用中に、コンピュータシステムを継続して運用できないような障害が発生するとする(ステップS10)。この場合、障害発生部位から、サービスプロセッサ20に、障害の発生が通知される。
サービスプロセッサ20は、DC OFF命令を図示しない電源供給回路に発行し、本体系装置10に対する電源の供給を遮断する(ステップS20)。また、サービスプロセッサ20は、SNMPマネージャ30に対して、Reset pendingのtrapを送信する。また、どの部位に障害が発生したかを示す情報も、SNMPマネージャ30に送信される。SNMPマネージャ30は、取得した情報に基づいて、本体形装置10の一部を論理的に切り離して再立ち上げをすることで継続運用が可能であるかどうかを判断する。再立ち上げが可能である場合、SNMPマネージャは、サービスプロセッサ20に障害部位の切り離しを命令する。この場合、サービスプロセッサ20は、障害部位を、論理的に切り離す。例えば、障害部位が、サウスブリッジ8の配下のPCIバス16−1であった場合には、サウスブリッジ13−1を論理的に本体系装置10から切り離す。
本体系装置10に対する電源の供給停止と、障害部位の切り離しが終了した後に、SNMPマネージャ30は、サービスプロセッサ20に、コンピュータシステムの再立ち上げを命令する(ステップS30)。サービスプロセッサ20は、再立ち上げの命令を受けると、本体系装置10に電源供給を行うように、電源供給回路の動作を制御する。
続いて、各装置のSDテスト、MEM14のテストなどが行われ、さらに、Hand offが行われる(ステップS40)。
続いて、PCIデバイスの初期化が行われる。この際、サービスプロセッサ20は、カード情報記憶部40を参照して、OSの起動に必要なPCIデバイスを特定する。そして、まず、OSの起動に必要なPCIデバイスのみを初期化する(ステップS50)。本実施例では、Boot Diskの接続されたSCSI(17−1)のみを初期化する。サウスブリッジ13−1が論理的に切り離されている場合には、サウスブリッジ13−2の配下のSCSI(17−2)が初期化される。
OS立ち上げに必要なPCIデバイス(SCSI17−1)の初期化が終了すると、サービスプロセッサ20は、Boot DiskからOSのブートローダをMEM14に読み込み、OSの起動を開始する(ステップS60)。
OSの起動が完了し、OS Ready状態となると(ステップS70)、CPU(11−1〜11−4)が、OS上において障害処理を開始する(ステップS80)。
サービスプロセッサ20は、ステップS80で障害処理が開始された後に、ステップS50で初期化を行わなかった他のPCIデバイスを初期化する(ステップS90)。
全てのPCIデバイスの初期化が終了すると、本実施例における一連の動作が終了する(ステップS100)。
PCIデバイスの初期化は、PCIデバイスを有効な状態とするのにあたり、不可欠な作業である。ただし、この過程で、例えば、Option ROMが存在するか否かを確認し、Option ROMが存在すればOption ROMのコードをメモリ上に展開する、といった動作を行うため、多くの時間を要する。
そのため、全てのPCIデバイスを初期化した後に、OSの立ち上げを行う場合、コンピュータシステムの障害処理が開始される時間は遅くなってしまう。
これに対して、本実施例では、OS立ち上げに必要なPCIデバイスのみをまず初期化し、OSを立ち上げて障害処理が開始された後に他のPCIデバイスの初期化が行われるので、障害処理着手前にOS立ち上げに必要のないデバイスの初期化に要していた時間を省略することができる。PCIデバイスが多ければ多いほど、大幅に障害処理開始時間を早めることが可能である。
すなわち、本実施例によれば、システムリブートを伴う障害が発生した場合、OS立ち上げに必要な最小限なPCIデバイスのみが初期化されるので、OS立ち上げに要する時間が短縮化され、素早く障害処理に着手することが可能となる。
1 ブートディスク
2 ディスク
11 CPU
12 ノースブリッジ
13 サウスブリッジ
14 主記憶メモリ
15 プロセッサバス
16 PCIバス
17 SCSI
18 FC
19 NIC
10 本体系装置
20 サービスプロセッサ
30 SNMPマネージャ
40 カード情報記憶部

Claims (6)

  1. CPUを備える本体系装置と、
    前記本体系装置の機能を拡張するために前記本体系装置に実装された、複数の拡張デバイスと、
    前記CPUとは独立に、前記本体系装置の動作を制御するサービスプロセッサと、
    を具備し、
    前記サービスプロセッサは、障害発生により前記本体系装置の電源が再投入されたときに、前記複数の拡張デバイスのうちでオペレーティングシステムの立ち上げに必要なデバイスである第1デバイス群のみを初期化し、前記第1デバイス群を初期化した後にオペレーティングシステムを起動させ、
    前記CPUは、オペレーティングシステムの起動後に、オペレーティングシステム上で障害処理を実行し、
    前記サービスプロセッサは、前記CPUによる障害処理の実行が開始された後に、前記複数の拡張デバイスのうちの前記第1デバイス群以外のデバイスである第2デバイス群を初期化する
    コンピュータシステム。
  2. 請求項1に記載されたコンピュータシステムであって、
    更に、
    予め、前記第1デバイス群と前記第2デバイス群とを特定する情報が格納されたデバイス情報記憶部、
    を具備し、
    前記サービスプロセッサは、前記拡張デバイス記憶部を参照して前記第1デバイス群を特定し、前記第1デバイス群を初期化する
    コンピュータシステム。
  3. 請求項1又は2に記載されたコンピュータシステムであって、
    前記拡張デバイスは、PCI(Peripheral Component Interconnect)カードである
    コンピュータシステム。
  4. 障害発生時に、CPUを備える本体系装置の電源を投入し直す電源再投入ステップと、
    前記電源再投入ステップの後に、第1デバイス群を初期化する第1デバイス群初期化ステップと、
    前記第1デバイス群初期化ステップの後に、オペレーティングシステムを起動させるOS起動ステップと、
    オペレーティングシステムの起動後に、前記CPUによって、オペレーティングシステム上で障害処理を実行するステップと、
    障害処理の実行が開始された後に、第2デバイス群を初期化する第2デバイス群初期化ステップと、
    を具備し、
    前記第1デバイス群は、前記本体系装置の機能を拡張するために前記本体系装置に実装された複数の拡張デバイスのうちで、オペレーティングシステムの立ち上げに必要なデバイス群であり、
    前記第2デバイス群は、前記複数の拡張デバイスのうちで、前記第1デバイス群以外のデバイス群であり、
    前記第1デバイス群初期化ステップ、前記OS起動ステップ、及び前記第2デバイス群初期化ステップは、前記CPUとは独立に前記本体系装置の動作を制御するサービスプロセッサにより行われる
    コンピュータシステムの障害処理方法。
  5. 請求項4に記載されたコンピュータシステムの障害処理方法であって、
    更に、
    予め、前記第1デバイス群と前記第2デバイス群とを特定する情報を記憶しておく記憶ステップ、
    を具備し、
    前記第1デバイス群初期化ステップにおいて、前記記憶ステップで記憶しておいた情報に基いて、前記第1デバイス群を特定し、前記第1デバイス群を初期化する
    コンピュータシステムの障害処理方法。
  6. 請求項4又は5に記載されたコンピュータシステムの障害処理方法であって、
    前記拡張デバイスは、PCI(Peripheral Component Interconnect)カードである
    コンピュータシステムの障害処理方法。
JP2009132140A 2009-06-01 2009-06-01 コンピュータシステム、及びコンピュータシステムの障害処理方法 Expired - Fee Related JP5293412B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009132140A JP5293412B2 (ja) 2009-06-01 2009-06-01 コンピュータシステム、及びコンピュータシステムの障害処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009132140A JP5293412B2 (ja) 2009-06-01 2009-06-01 コンピュータシステム、及びコンピュータシステムの障害処理方法

Publications (2)

Publication Number Publication Date
JP2010277514A JP2010277514A (ja) 2010-12-09
JP5293412B2 true JP5293412B2 (ja) 2013-09-18

Family

ID=43424387

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009132140A Expired - Fee Related JP5293412B2 (ja) 2009-06-01 2009-06-01 コンピュータシステム、及びコンピュータシステムの障害処理方法

Country Status (1)

Country Link
JP (1) JP5293412B2 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09237198A (ja) * 1996-02-29 1997-09-09 Nec Corp コンピュータシステム立ち上げ時の拡張デバイス試験方式
JPH10320080A (ja) * 1997-05-21 1998-12-04 Nec Shizuoka Ltd 情報処理装置のリセット回路およびリセット方法
JP5348813B2 (ja) * 2000-11-06 2013-11-20 株式会社アイ・オー・データ機器 ブートrom搭載ボード
JP3644399B2 (ja) * 2001-03-27 2005-04-27 ティーエム・ティーアンドディー株式会社 Pciバス不良個所切り離し方法およびそのプログラム
JP2007122653A (ja) * 2005-10-31 2007-05-17 Toshiba Corp 情報処理装置及び起動制御方法

Also Published As

Publication number Publication date
JP2010277514A (ja) 2010-12-09

Similar Documents

Publication Publication Date Title
CN101329632B (zh) 一种使用boot启动cpu的方法与装置
CN101232397B (zh) 多控制器系统修复的方法和装置
JP4448878B2 (ja) 障害回復環境の設定方法
US20200394144A1 (en) Information processing system, information processing device, bios updating method for information processing device, and bios updating program for information processing device
TWI337304B (en) Method for fast system recovery via degraded reboot
CN100492305C (zh) 一种计算机系统的快速恢复方法及设备
TW200416544A (en) Recovery method of multi-functional operating system and system thereof
US20130339718A1 (en) Information processing device and method for controlling information processing device
US10824517B2 (en) Backup and recovery of configuration files in management device
TWI786871B (zh) 電腦和系統啓動方法
EP1691281B1 (en) Memory dump program boot method
WO2012149774A1 (zh) 一种处理器启动方法及装置
JP6599725B2 (ja) 情報処理装置およびログ管理方法、並びにコンピュータ・プログラム
JP5387767B2 (ja) 実行中のプログラムの更新技術
JP2004302997A (ja) 大記憶容量と複数のbiosバックアップコピーを備えるデバイス
JP5293412B2 (ja) コンピュータシステム、及びコンピュータシステムの障害処理方法
JP2003186697A (ja) 周辺デバイス試験システム及び方法
JP2002049509A (ja) データ処理システム
JP2004054616A (ja) ファームウェア自動修復機能を有する情報処理装置
JP2006072492A (ja) システム制御装置、システム制御方法およびシステム制御プログラム
JP2006251945A (ja) 基本入出力制御システム
JP2010146436A (ja) 監視システム、及びその制御方法、プログラム
JP2009025967A (ja) 二重化ファームウェアのバックアップ方式、方法、及び、オペレーティングシステム
JP2007233667A (ja) 障害検出方式
JPH09288590A (ja) 仮想計算機システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120509

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130422

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130527

R150 Certificate of patent or registration of utility model

Ref document number: 5293412

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees