JP2007233667A - Method of detecting fault - Google Patents
Method of detecting fault Download PDFInfo
- Publication number
- JP2007233667A JP2007233667A JP2006054287A JP2006054287A JP2007233667A JP 2007233667 A JP2007233667 A JP 2007233667A JP 2006054287 A JP2006054287 A JP 2006054287A JP 2006054287 A JP2006054287 A JP 2006054287A JP 2007233667 A JP2007233667 A JP 2007233667A
- Authority
- JP
- Japan
- Prior art keywords
- boot
- server
- module
- server module
- diagnostic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Test And Diagnosis Of Digital Computers (AREA)
- Computer And Data Communications (AREA)
- Stored Programmes (AREA)
Abstract
Description
本発明はサーバの障害検出方式に関する。 The present invention relates to a server failure detection method.
通常、企業の基幹システムなどのエンタープライズ用途で使用する計算機システムには24時間365日休みなく稼動することが求められ、高い可用性が要求される。そのため、このような計算機システムにはサーバモジュール部の他に管理モジュールを含むことが一般的である。管理モジュールは、サーバモジュール部の各種制御や障害検出などを行う機能を有する。特に障害検出処理は高可用性を実現するために重要であり、障害発生時の早期検出が求められる。高可用性を実現する一つの方法として、特許文献1ではサーバモジュールの挿入時にサーバモジュールが自発的にエラーを検出し、管理コンソールへ通知する方式が開示されている。しかし、この方式で検出可能な障害は、サーバモジュールの電源投入後、自己診断機能により検出するエラーに限定され、たとえば自己診断機能の起動以前の段階で発生する電源、回路系の障害や、ネットワークスイッチを含むブートパス障害を検出することができないという問題があった。また、従来自己診断のプログラムはBIOS等の組み込みソフトに固定的に収容され、サーバモジュールに対し様々な組み合わせで接続されるIO装置に対して、処理を変更できないため、十分な障害検出ができないという問題があった。 Usually, computer systems used for enterprise applications such as enterprise backbone systems are required to operate 24 hours a day, 365 days a year, and high availability is required. Therefore, such a computer system generally includes a management module in addition to the server module unit. The management module has a function of performing various controls of the server module unit and fault detection. In particular, failure detection processing is important for realizing high availability, and early detection when a failure occurs is required. As one method for realizing high availability, Patent Document 1 discloses a method in which a server module spontaneously detects an error when a server module is inserted and notifies a management console. However, failures that can be detected by this method are limited to errors detected by the self-diagnosis function after the server module is turned on. For example, power failures, circuit failures, and network failures that occur before the start of the self-diagnosis function There was a problem that a boot path failure including a switch could not be detected. In addition, the conventional self-diagnosis program is fixedly stored in the embedded software such as BIOS, and the processing cannot be changed for IO devices connected in various combinations to the server module, so that sufficient failure detection cannot be performed. There was a problem.
本発明の目的は、サーバモジュールの電源投入後に実行される自己診断では検出不可能な障害を検出する手段を提供することにある。 An object of the present invention is to provide means for detecting a failure that cannot be detected by self-diagnosis executed after power-on of a server module.
本発明は、CPU、メモリを含んだサーバモジュールと該サーバモジュールの管理を行う管理モジュールとからなり、オペレーティングシステムを含むソフトウェアイメージを前記サーバモジュールにブートするブート手段を備えた計算機システムにおいて、サーバ診断用プログラムを含んだ診断ブートイメージを前記サーバモジュールにネットワークブートするネットワークブート手段を前記管理モジュールに備え、前記管理モジュールは前記ソフトウェアイメージがブートされる前に、前記ネットワークブート手段により前記診断ブートイメージを前記サーバモジュールにブートし、前記サーバモジュールが前記サーバ診断用プログラムを実行することを特徴とする。 The present invention relates to a server diagnosis in a computer system comprising a server module including a CPU and a memory and a management module for managing the server module, and having a boot means for booting a software image including an operating system onto the server module. The management module is provided with network boot means for network booting a diagnostic boot image including a program for the server module to the server module, and the management module receives the diagnostic boot image by the network boot means before the software image is booted. The server module is booted, and the server module executes the server diagnostic program.
本発明により、システム起動前の障害検出が可能になる。 According to the present invention, it is possible to detect a failure before starting the system.
以下、図面を参照して本発明の実施例を詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明に置ける実施例の全体図を示している。計算機システム101には、管理モジュール102、サーバモジュール109、スイッチモジュール114が含まれている。管理モジュール102と、サーバモジュール109はスイッチモジュール114を介して接続されている。管理モジュール102には、ネットワークブートサーバ部106、診断結果判定部105、電源制御部103、ブートデバイス切替制御部104、及び診断用ブートイメージ107が含まれている。電源制御部103は、サーバモジュール109の電源の投入、遮断を制御する機能を有する。ブートデバイス切替制御部104は、サーバモジュール109中のブートパス切替部110と、スイッチモジュール114中のパス切替部115に接続されており、これらにパス切替要求を行う機能を有する。パス切替要求の詳細は後述する。
FIG. 1 shows an overall view of an embodiment according to the present invention. The
診断用ブートイメージ107は、複数のサーバ診断用プログラム108を保持している。サーバ診断用プログラム108には全部位を汎用的にチェック可能な障害診断用プログラムと、特定部位を詳細に診断するプログラムが存在する。診断用ブートイメージ107をブートすると、自動的にサーバ診断用プログラム108が起動するようになっている。このとき起動するプログラムは外部より設定可能である。診断結果判定部105は、サーバ診断用プログラム108の結果を受け、障害が発生しているか否かの判定を行い、ある部位で障害を検出した場合、サーバ診断用プログラム108をさらに詳しい診断を実行可能なプログラムに変更する機能を有する。
The
サーバモジュール109にはCPU、メモリ111、電源112、ブートパス切替部110、電源・HWエラー検出回路130が含まれており、ブートパス切替部110中にはパス切替スイッチ116が存在する。ブートパス切替部110は、ブートデバイス切替制御部104からの要求を受け、パス切替スイッチ116を、ポイント117とポイント119の接続、もしくはポイント118とポイント119に切り替える機能を有する。通常運用では、パス切替スイッチ116はポイント117とポイント119を接続した状態になっており、サーバモジュールが持つブートデバイス113からオペレーティングシステムを含むソフトウェアイメージをブートする設定となっている。このパス切替スイッチ110は、機能的な概念図であり、ブート対象は、たとえば内蔵ハードディスクや、ネットワーク経由のブートパスであり、これらをBIOSなどの組み込みソフトウエアによって切り替える方式でも良い。
The
また、電源・HWエラー検出回路130は、サーバモジュール109内の電源状態や、ブートデバイス113の障害状態、CPU、メモリ111の障害状態を検出する回路であり、サーバモジュール109の主電源投入により、ステータスを管理モジュール102の診断結果判定部105に出力する。
The power / HW
スイッチモジュール114には、パス切替部115が含まれており、パス切替部115にはパス切替スイッチ120が存在する。パス切替部115は、ブートデバイス切替制御部104からの要求を受け、パス切替スイッチ120を、ポイント121とポイント123の接続、もしくはポイント122とポイント123に切り替える機能を有する。
The
通常運用では、パス切替スイッチ120はポイント122とポイント123を接続した状態になっており、計算機システム101外部のネットワーク124と接続する設定となっている。
In normal operation, the
本実施例の概要は以下の通りである。サーバモジュール109が計算機システム101に装着されたとき、管理モジュール102がそれを検出し、ブートデバイス切替制御部104からの指示でブートパス切替部110中のパス切替スイッチ116をポイント118とポイント119の接続とし、また、パス切替部115中のパス切替スイッチ120をポイント123とポイント121の接続とすることで、サーバモジュール109のブートデバイスパスを通常運用時のブートデバイス113から遮断し、管理モジュール中の診断用ブートイメージ107に接続する。次に、ネットワークブートサーバ部106を起動し、電源制御部103から電源投入を行うことで、ネットワークブートにより診断用ブートイメージ107を使用してサーバモジュール109をブートさせる。
The outline of the present embodiment is as follows. When the
診断用ブートイメージ107がロード完了すると、自動的に障害診断用プログラム108が起動する。このとき起動する診断プログラムは、全部位を汎用的にチェック可能な診断プログラムである。プログラムの終了後、結果を管理モジュールの診断結果判定部105に送信する。診断結果判定部105は診断結果を判定し、障害が発生しているかどうかを判断する。障害が発生していなかった場合、電源制御部103から電源遮断を行い、サーバモジュール109の電源を切断した後で、ブートパス切替部110とパス切替部115の設定を通常運用時の状態に戻すことで、再びブートデバイス113からのブートが可能になる。これにより、サーバモジュール109では障害が発生していないことが分かったため、ユーザの通常運用を開始する。
When loading of the
診断結果判定部105での判定結果で障害が発生していたとき、障害部位が特定できたならば、診断結果判定部105はサーバモジュール109の運用を停止し、保守員への通報などのアクションを行う。保守員は、通報された結果により障害が発生した部品の交換などを行う。
If a failure has occurred as a result of determination by the diagnosis
一方、第一回目の障害診断用プログラムにより、障害部位の大まかな箇所しか分からず、障害部位が特定できなかった場合、たとえばCPUで障害が起きているが、具体的にどのCPUに障害が発生しているか分からない状態などは、サーバ診断プログラム108をその特定部位を詳細に調査するプログラムに変更し、再度サーバ診断プログラム108を実行する。このように、障害を検出した場合に複数のプログラムを実行することで、障害部位特定の分解能を上げることができる。 On the other hand, if only the rough part of the faulty part is known by the first fault diagnosis program and the faulty part cannot be identified, for example, the CPU has a fault, but the specific fault has occurred in which CPU If the server diagnosis program 108 is not known, the server diagnosis program 108 is changed to a program that investigates the specific part in detail, and the server diagnosis program 108 is executed again. As described above, by executing a plurality of programs when a failure is detected, it is possible to increase the resolution for identifying the failure site.
図2は、本発明の方式を実現するための管理モジュール102のフローを示している。まず、管理モジュール102はサーバモジュール109の挿入を検出する(201)。管理モジュール102はサーバモジュール109の挿入を検出すると、ネットワークブートサーバ起動を行う(202)。これにより、管理モジュール102はネットワークブートサーバとなる。このとき、ネットワークブートを行うブートデバイスを、診断用ブートイメージ107に設定する方法を説明する。まず、ブートパス切替を行い(203)、サーバモジュール109のブートデバイスパスを、管理モジュール102中の診断用ブートイメージ107に変更する。次に、ネットワークパス切替えを行い(204)、スイッチモジュールのパスを、サーバモジュールと管理モジュールが接続するような設定に変更する。この状態で電源投入を行うと(205)、サーバモジュールは管理モジュール中のブートデバイスを使用して、ネットワークブートを行う。電源投入完了後、管理モジュールは診断結果の受信待ちに入る(206)。電源・ハードウェアエラー検出回路130により障害が検出された場合は、自己診断のプログラムが実行不可であるため、ユーザ運用停止(212)に移行する。
FIG. 2 shows a flow of the
この間、サーバモジュールでは診断用ブートイメージのブート、及び障害診断用プログラムの実行を行い、結果を管理モジュールに送信する。診断結果を受信すると(207)、電源の遮断を行い、202〜204で行った設定を解除する(208)。この時点で、201で挿入を検出したときと同じ構成に戻る。次に、診断結果の判定を行う(209)。診断結果が合格“OK”だった場合、該サーバモジュールに障害は発生していなかったので、サーバモジュールのユーザ運用を開始する(211)。診断結果が不合格“NG”だった場合、障害部位が特定できたかを判定する(210)。障害部位特定が“OK”だった場合、該サーバモジュールのユーザ運用を中止し(212)、障害が発生した部位の交換作業を行う。障害部位特定が“NG”だった場合、診断プログラムをより適したものに変更し、再度診断機能を実行する(213)。 During this time, the server module boots the diagnostic boot image and executes the fault diagnostic program, and transmits the result to the management module. When the diagnosis result is received (207), the power is shut off and the settings made in 202 to 204 are canceled (208). At this point, the process returns to the same configuration as when the insertion was detected in 201. Next, the diagnosis result is determined (209). If the diagnosis result is “OK”, no failure has occurred in the server module, and user operation of the server module is started (211). If the diagnosis result is “NG”, it is determined whether or not the faulty part has been identified (210). If the failure part specification is “OK”, the user operation of the server module is stopped (212), and the replacement work of the part where the failure has occurred is performed. If the failure site identification is “NG”, the diagnostic program is changed to a more suitable one and the diagnostic function is executed again (213).
上記説明のように、本発明では、電源・HWエラー検出回路130による障害検出、全部位を汎用的にチェック可能な診断プログラム、部位特定に特化したプログラムを段階的に実行することで、自己診断の期間を短縮し、かつ障害部位を詳細に特定することが可能となる。具体的な効果として、計算機システム101の起動時間を大幅に増加させず、かつ交換部品の特定がスムーズに進むため、ダウン時間を低減することができる。
As described above, in the present invention, the failure detection by the power source / HW
なお、本方式によれば、ブートデバイス113を接続する以前に、診断用ブートイメージ107によりサーバモジュール109の診断を実施しているため、ユーザ運用開始前に、これらブートパス切替え部分110と、スイッチモジュール114の動作を事前に確認することが可能である。
According to this method, since the
101 計算機システム
102 管理モジュール
103 電源制御部
104 ブートデバイス切替制御部
105 診断結果判定部
106 ネットワークブートサーバ部
107 診断用ブートイメージ
108 サーバ診断用プログラム
109 サーバモジュール
110 ブートパス切替部
111 CPU、メモリ
112 電源
113 サーバモジュールに接続されたブートデバイス
114 スイッチモジュール
115 パス切替部
116、117、118、119 ブートパス切替部内のパス切替スイッチ
120、121,122,123 パス切替部内のパス切替スイッチ
124 計算機システム外部のネットワーク
130 電源、HWエラー検出回路
DESCRIPTION OF
Claims (2)
The computer system includes switch means for switching a path for booting the software image and a path for booting the diagnostic boot image, and the management module instructs the switch means to switch the boot path. Failure detection method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006054287A JP4715552B2 (en) | 2006-03-01 | 2006-03-01 | Fault detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006054287A JP4715552B2 (en) | 2006-03-01 | 2006-03-01 | Fault detection method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233667A true JP2007233667A (en) | 2007-09-13 |
JP4715552B2 JP4715552B2 (en) | 2011-07-06 |
Family
ID=38554204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006054287A Expired - Fee Related JP4715552B2 (en) | 2006-03-01 | 2006-03-01 | Fault detection method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4715552B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013016182A (en) * | 2011-07-01 | 2013-01-24 | Apple Inc | Booting memory device from host |
JP2017062697A (en) * | 2015-09-25 | 2017-03-30 | 日本電気株式会社 | Information processing device, information processing system, information processing method, and program |
CN114089722A (en) * | 2021-11-17 | 2022-02-25 | 国家石油天然气管网集团有限公司 | Portable diagnosis method for industrial control network communication fault of gas transmission station |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58168160A (en) * | 1982-03-29 | 1983-10-04 | Fujitsu Ltd | Program loading system |
JPH10228434A (en) * | 1997-02-13 | 1998-08-25 | Pfu Ltd | Hardware diagnosis system using network |
JP2005165415A (en) * | 2003-11-28 | 2005-06-23 | Toshiba Corp | Information processor and method and program for starting system |
-
2006
- 2006-03-01 JP JP2006054287A patent/JP4715552B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58168160A (en) * | 1982-03-29 | 1983-10-04 | Fujitsu Ltd | Program loading system |
JPH10228434A (en) * | 1997-02-13 | 1998-08-25 | Pfu Ltd | Hardware diagnosis system using network |
JP2005165415A (en) * | 2003-11-28 | 2005-06-23 | Toshiba Corp | Information processor and method and program for starting system |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013016182A (en) * | 2011-07-01 | 2013-01-24 | Apple Inc | Booting memory device from host |
US8706955B2 (en) | 2011-07-01 | 2014-04-22 | Apple Inc. | Booting a memory device from a host |
JP2017062697A (en) * | 2015-09-25 | 2017-03-30 | 日本電気株式会社 | Information processing device, information processing system, information processing method, and program |
CN114089722A (en) * | 2021-11-17 | 2022-02-25 | 国家石油天然气管网集团有限公司 | Portable diagnosis method for industrial control network communication fault of gas transmission station |
CN114089722B (en) * | 2021-11-17 | 2024-03-26 | 国家石油天然气管网集团有限公司 | Portable diagnosis method for industrial control network communication faults of gas transmission station |
Also Published As
Publication number | Publication date |
---|---|
JP4715552B2 (en) | 2011-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113489597B (en) | Method and system for optimal startup path for network device | |
TWI337304B (en) | Method for fast system recovery via degraded reboot | |
US20090150528A1 (en) | Method for setting up failure recovery environment | |
WO2018095107A1 (en) | Bios program abnormal processing method and apparatus | |
MXPA05014131A (en) | Network equipment and a method for monitoring the start up of a such an equipment. | |
CN110445638B (en) | Switch system fault protection method and device | |
EP2835716A1 (en) | Information processing device and virtual machine control method | |
US10824517B2 (en) | Backup and recovery of configuration files in management device | |
KR100899582B1 (en) | Information processing apparatus, control apparatus therefor, control method therefor and control program | |
JP4886558B2 (en) | Information processing device | |
US20050033952A1 (en) | Dynamic scheduling of diagnostic tests to be performed during a system boot process | |
JP4715552B2 (en) | Fault detection method | |
JP5300059B2 (en) | Power supply system, diagnosis method and program thereof | |
JP2003186697A (en) | System and method for testing peripheral device | |
US20110173428A1 (en) | Computer system, method for booting a computer system, and method for replacing a component | |
JP2002049509A (en) | Data processing system | |
JP4830698B2 (en) | Disk controller for performing RAID control using responsible LUN control and diagnostic control method | |
JP6911591B2 (en) | Information processing device, control device and control method of information processing device | |
JP2009025967A (en) | Backup system of duplicated firmware, method and operating system | |
JP7389877B2 (en) | Network optimal boot path method and system | |
JP6627366B2 (en) | Information processing system, information processing method and program | |
TWI715005B (en) | Monitor method for demand of a bmc | |
GB2559967A (en) | Method for a computer system and computer system | |
US9195554B2 (en) | Information processing apparatus and maintenance method of an information processing apparatus | |
CN112084049B (en) | Method for monitoring resident program of baseboard management controller |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100702 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100903 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110301 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110314 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |