JPH07168729A - Restart control system - Google Patents
Restart control systemInfo
- Publication number
- JPH07168729A JPH07168729A JP5342866A JP34286693A JPH07168729A JP H07168729 A JPH07168729 A JP H07168729A JP 5342866 A JP5342866 A JP 5342866A JP 34286693 A JP34286693 A JP 34286693A JP H07168729 A JPH07168729 A JP H07168729A
- Authority
- JP
- Japan
- Prior art keywords
- restart
- failure
- information
- fault
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Retry When Errors Occur (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は、情報処理装置の運転中
に何らかの障害が発生した後、その再立上げ処理等を行
なう場合の制御に使用される再開始制御システムに関す
る。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a restart control system used for control when a restarting process or the like is performed after a failure occurs during operation of an information processing apparatus.
【0002】[0002]
【従来の技術】情報処理装置においては、ソフトウェア
あるいはハードウェア上の障害が発生し、装置の運転が
継続できないような場合、システムダウンとなる。こう
して装置の運転が中断すると保守員が障害情報を収集
し、リセットキーの押し下げ等によって運転再開を行な
うようにしている。2. Description of the Related Art In an information processing apparatus, when software or hardware failure occurs and the operation of the apparatus cannot be continued, the system goes down. In this way, when the operation of the device is interrupted, maintenance personnel collect failure information and restart the operation by pressing down the reset key or the like.
【0003】このような場合、具体的には次のように処
理される。図2に、従来処理のフローチャートを示す。
まず、情報処理装置を最初に起動する場合には、情報処
理装置に設けられた起動用のメモリ、即ちIPL(イニ
シャルプログラムローダ)ROMが初期動作を制御す
る。即ち、ステップS1において、IPLROMによる
初期診断が行なわれる。更に、ステップS2において、
IPLROMによる初期処理が実行され、ステップS3
において、システムの立上げ処理が実行される。In such a case, specifically, the following processing is performed. FIG. 2 shows a flowchart of conventional processing.
First, when the information processing apparatus is activated for the first time, an activation memory provided in the information processing apparatus, that is, an IPL (Initial Program Loader) ROM controls the initial operation. That is, in step S1, the initial diagnosis by the IPLROM is performed. Furthermore, in step S2,
Initial processing by the IPLROM is executed, and step S3
At, system startup processing is executed.
【0004】このような状態でシステムの立上げが完了
し、システムが運転中の状態となる。ここで、ステップ
S4において、例えば何らかの障害が発生したものとす
る。この場合、従来システムでは保守員が到着するのを
待ち、その保守員によってステップS5において、障害
情報の収集操作が行なわれる。即ち、障害原因の探索等
のために必要なデータが各部から集められる。更に、ス
テップS6において、保守員による再立上げ操作が行な
われる。これによって、再びステップS1の状態に戻
り、その後はIPLROMによる立上げ処理が実行され
る。In such a state, the start-up of the system is completed and the system is in a running state. Here, in step S4, for example, it is assumed that some kind of failure has occurred. In this case, in the conventional system, the maintenance staff waits for the arrival of the maintenance staff, and the maintenance staff performs the operation of collecting the failure information in step S5. That is, the data necessary for searching for the cause of the failure are collected from each unit. Further, in step S6, a restarting operation is performed by the maintenance staff. As a result, the process returns to the state of step S1 again, after which the startup process by the IPLROM is executed.
【0005】[0005]
【発明が解決しようとする課題】ところで、上記のよう
な従来の再開始制御システムには次のような解決すべき
課題があった。従来システムでは、障害の発生後、情報
処理装置の再開始のために保守員が指示を行なう。この
場合に、保守員による障害情報の収集が要求されるが、
その場合の操作ミスによって、障害情報が消滅し、障害
解析ができないことがある。また、障害発生の際、情報
処理装置の近くに保守員が待機していない場合には、再
開始を行なうことができない。また、保守員が遠距離に
いる場合に、保守員が到着するまで長時間、装置の動作
を中断させなければならない。また、障害発生に気付か
ないような場合や、再開始のための操作に手間取るよう
な場合には、装置の動作中断時間が長くなってしまう。The conventional restart control system as described above has the following problems to be solved. In the conventional system, a maintenance staff gives an instruction for restarting the information processing apparatus after a failure occurs. In this case, maintenance personnel are required to collect fault information,
Failure information may disappear and failure analysis may not be possible due to an operation error in that case. Further, at the time of failure occurrence, the restart cannot be performed unless the maintenance staff is on standby near the information processing apparatus. In addition, when the maintenance staff is at a long distance, the operation of the apparatus must be suspended for a long time until the maintenance staff arrives. In addition, when the occurrence of a failure is not noticed or when the operation for restarting is troublesome, the operation interruption time of the device becomes long.
【0006】情報処理装置の利用度が高いような場合に
は、できるだけ障害発生によるシステムダウンから再開
始までの時間を短縮したい。しかしながら、図2に示し
たような手順では、情報処理装置を起動する場合と同一
の立上げ時間が要求され、再開始のための時間を短縮す
ることが容易でなかった。また、障害要因の種類によっ
ては、そのままの状態で動作を再開するより、装置の動
作環境を変更した方が好ましい場合がある。しかしなが
ら、IPLROMに立上げ制御のためのプログラムが格
納され、その手順が確定しているような情報処理装置で
はこのような動作環境の再構築は容易でない。When the information processing apparatus is highly utilized, it is desirable to shorten the time from system down due to failure occurrence to restart. However, the procedure shown in FIG. 2 requires the same startup time as when starting the information processing apparatus, and it is not easy to shorten the time for restarting. Further, depending on the type of failure factor, it may be preferable to change the operating environment of the apparatus rather than restarting the operation as it is. However, it is not easy to reconstruct such an operating environment in an information processing apparatus in which a program for start-up control is stored in the IPLROM and the procedure is fixed.
【0007】本発明は以上の点に着目してなされたもの
で、障害が発生した場合、情報処理装置を自動的に立上
げ、更に障害要因に応じた再開始のための環境設定を容
易に行なうことができる再開始制御システムを提供する
ことを目的とするものである。The present invention has been made by paying attention to the above points. When a failure occurs, the information processing apparatus is automatically started up, and the environment for restarting according to the failure factor can be easily set. It is an object to provide a restart control system that can be performed.
【0008】[0008]
【課題を解決するための手段】本発明の再開始制御シス
テムは、障害発生時、自動的に立上げ処理を実行して、
動作を再開始させるための制御を行なう障害再開始制御
部と、障害発生の都度、障害情報を収集して、複数世代
にわたり障害情報の蓄積制御を行なう障害後処理制御部
と、障害要因に応じて設定された再開始のためのレベル
を含む情報を記憶するシステムパラメータメモリとを備
え、前記障害再開始制御部は、前記システムパラメータ
メモリを参照して、複数の障害再開始の手順の中から任
意の手順を選択することを特徴とするものである。The restart control system of the present invention automatically executes a startup process when a failure occurs,
A failure restart control section that performs control to restart the operation, a failure post-processing control section that collects failure information each time a failure occurs, and that accumulates failure information for multiple generations, and And a system parameter memory storing information including a level for restart set by the fault restart controller, referring to the system parameter memory, from among a plurality of fault restart procedures. It is characterized by selecting an arbitrary procedure.
【0009】[0009]
【作用】このシステムは、障害が発生すると障害開始制
御部が必要な障害情報を収集し、過去の障害情報を消去
することなくフリーズファイルに格納する。一方、その
ときの障害要因に応じ、再開始のためのレベルを設定す
る。再開始レベルが深ければ、装置の起動の際と同様の
立上げ処理が行なわれ、再開始レベルが浅いと、多くの
立上げ処理を省略して必要な初期処理のみを実行する。
このとき、再開始レベルに応じて立上げ環境も選択す
る。これにより、障害の種類に応じ、可能な限り迅速な
再開始処理が進められる。In this system, when a failure occurs, the failure start control unit collects necessary failure information and stores the past failure information in the freeze file without erasing it. On the other hand, the level for restarting is set according to the failure factor at that time. If the restart level is deep, the startup process similar to that at the time of starting the apparatus is performed, and if the restart level is shallow, many startup processes are omitted and only necessary initial processes are executed.
At this time, the startup environment is also selected according to the restart level. As a result, the restart process can be performed as quickly as possible according to the type of failure.
【0010】[0010]
【実施例】以下、本発明を図の実施例を用いて詳細に説
明する。図1は、本発明のシステム実施例を示すブロッ
ク図である。このシステムは、バスライン1に対し、ユ
ーザー操作パネル(UOP)2と、プロセッサ(CP
U)3と、IPLROM4と、システムパラメータメモ
リ(SPM)5と、RAM6と、フリーズファイル7が
接続されている。ユーザー操作パネル2は装置の保守運
用のために保守員が操作するためのパネルで、キーボー
ドやディスプレイ等から構成された会話型の操作盤であ
る。The present invention will be described in detail below with reference to the embodiments shown in the drawings. FIG. 1 is a block diagram showing a system embodiment of the present invention. This system includes a bus line 1, a user operation panel (UOP) 2 and a processor (CP).
U) 3, IPLROM 4, system parameter memory (SPM) 5, RAM 6, and freeze file 7 are connected. The user operation panel 2 is a panel for a maintenance person to operate for maintenance and operation of the apparatus, and is a conversational operation panel including a keyboard, a display and the like.
【0011】プロセッサ3は、この再開始制御システム
全体の制御処理を実行する部分である。IPLROM4
は、装置の立上げの際の初期動作用プログラムを格納し
たメモリで、この実施例では、IPLROM用ローディ
ングファイル21と、システム初期処理ファイル制御部
22とを格納している。The processor 3 is a part for executing control processing of the entire restart control system. IPLROM4
Is a memory that stores a program for initial operation when the apparatus is started up. In this embodiment, an IPLROM loading file 21 and a system initial processing file control unit 22 are stored.
【0012】図3に、IPLROM用ローディングファ
イルの構成説明図を示す。このIPLROM用ローディ
ングファイルは、装置の電源投入の際に最初に実行され
るプログラムから構成されている。これは、例えば図に
示すように、共通ローダ11、ブートローダ12、SG
ファイル13、ドライバファイル14及びシステムファ
イル15から構成される。これらのファイルがIPLR
OMのプログラムに従って、例えば図示しないハードデ
ィスク等から図1に示すRAM6に順番にローディング
され実行される。FIG. 3 is a diagram for explaining the structure of the IPLROM loading file. This IPLROM loading file is composed of a program which is first executed when the power of the apparatus is turned on. This is, for example, as shown in the figure, common loader 11, boot loader 12, SG
It is composed of a file 13, a driver file 14, and a system file 15. These files are IPLR
In accordance with the OM program, for example, a hard disk (not shown) or the like is sequentially loaded into the RAM 6 shown in FIG. 1 and executed.
【0013】なお、本発明においては、このような電源
投入の際、基本的に実行される処理を再立上げレベルの
最も深い処理ということにし、これらのファイルには図
に示すようにファイル名と再開始レベルが“A”である
ことを示す識別子とを使用することにする。In the present invention, when the power is turned on, the process basically executed is the deepest process at the restart level, and these files have file names as shown in the figure. And an identifier indicating that the restart level is "A".
【0014】図4に、システム用初期処理ファイルの構
成説明図を示す。これらのファイルはIPLROM用ロ
ーディングファイルによる立上げ処理実行後、引き続い
て実行されるプログラムファイルである。これらも図示
しないハードディスク装置等に格納される。そして、I
PLROMのシステム初期処理ファイル制御部22によ
ってローディングされる。ここには、初期処理定義と立
上げ環境定義が含まれる。初期処理定義にはハード診断
情報とチェック情報の定義が含まれる。ハード診断情報
は実装するハードの初期診断の実施の有無や実施する場
合の診断の範囲等を指定するものである。FIG. 4 shows the structure of the system initial processing file. These files are program files that are subsequently executed after the start-up process is executed by the IPLROM loading file. These are also stored in a hard disk device or the like (not shown). And I
It is loaded by the system initial processing file controller 22 of the PLROM. This includes the initial process definition and the startup environment definition. The initial processing definition includes the definitions of hardware diagnostic information and check information. The hardware diagnosis information specifies whether or not to carry out an initial diagnosis of the hardware to be mounted, the range of the diagnosis when it is carried out, and the like.
【0015】また、チェック情報としては、実装メモリ
の用量チェック、メモリのチェック、外部キャッシュの
チェック、組込み,切離し等の制御、BBMのチェック
等の診断が必要かどうかの指定が含まれる。立上げ環境
定義には環境定義とプログラム定義が含まれる。環境定
義はプログラムの動作環境を定義するための情報から構
成される。また、プログラム定義はローディングするア
プリケーションプログラムを定義する。Further, the check information includes designation of whether a dose check of the mounted memory, a check of the memory, a check of the external cache, a control such as incorporation and disconnection, a check of the BBM or the like is necessary. The startup environment definition includes the environment definition and the program definition. The environment definition is composed of information for defining the operating environment of the program. Further, the program definition defines the application program to be loaded.
【0016】システム立上げの際、これらの情報や定義
の設定や一定の処理を行なうために、これらのファイル
にはそれぞれ図に示すように、再開始レベルが“B”の
識別子をファイル名とともに使用する。即ち、障害原因
によってはIPLROM用ローディングファイルについ
ての再実行から始めなくても、システム用初期処理ファ
イルの設定等の処理から再開すればよい場合がある。こ
のような再開始レベルの相違に応じた処理を実行するた
め、各ファイル名の識別子を予め相違させるようにして
いる。なお、システム用初期処理ファイルは、障害の再
発生防止のため、後で説明するように、必要に応じて書
き換えることもできる。In order to perform setting of these information and definitions and constant processing when the system is started up, as shown in the figure, each of these files has an identifier whose restart level is "B" together with a file name. use. That is, depending on the cause of the failure, it may be possible to restart from the processing such as the setting of the system initial processing file without starting again from the re-execution of the IPLROM loading file. In order to execute the processing according to such a difference in restart level, the identifiers of the respective file names are made different in advance. Note that the system initial processing file can be rewritten as necessary, as described later, in order to prevent the occurrence of a failure again.
【0017】再び図1に戻って、システムパラメータメ
モリ5には、障害の種別23と、再開始カウンタ24
と、再開始コード25と、再開始レベル26と、再開始
詳細情報27が格納される構成となっている。図6に、
システムパラメータメモリ記憶内容説明図を示す。図に
示すように、例えば開始/再開始種別には、障害が発生
した場合に、電源を投入する際と同様の開始立上げを行
なうか、本発明において新たに設定された再開始レベル
に応じた再開始立上げを行なうかを示す情報が格納され
る。例えば、開始立上げの場合はこの情報が“0”、再
開始立上げの場合にはこの情報が“1”となる。なお、
開始立上げは、システムの電源投入あるいは保守者の介
入によるリセットキーの押し下げによって実行される従
来通りの立上げ方法である。また、再開始立上げは、障
害要因に応じた本発明による立上げである。Returning to FIG. 1 again, in the system parameter memory 5, the fault type 23 and the restart counter 24 are stored.
The restart code 25, the restart level 26, and the restart detailed information 27 are stored. In Figure 6,
The system parameter memory storage content explanatory drawing is shown. As shown in the figure, for example, for the start / restart type, when a failure occurs, the same start-up as when the power is turned on is performed, or according to the restart level newly set in the present invention. Stored is information indicating whether or not restart restart is performed. For example, in the case of start-up, this information is "0", and in the case of restart-startup, this information is "1". In addition,
Start-up is a conventional start-up method that is executed by pressing the reset key by turning on the power of the system or intervention of the maintenance person. In addition, restart startup is startup according to the present invention depending on the cause of failure.
【0018】再開始カウンタは、開始立上げの際に初期
化されるカウンタで、再開始立上げの際には“1”が加
算される。再開始立上げ後、再び障害が発生し、その
後、再開始立上げが実行された場合には、再び“1”が
加算される。即ち、再開始立上げが連続して繰り返され
た場合の回数がこの再開始カウンタに表示される。な
お、この実施例の場合、再開始カウンタの値が一定回数
を越えると、システムダウンとなる。The restart counter is a counter which is initialized at the time of start-up, and "1" is added at the time of restart-startup. After the restart start-up, a failure occurs again, and when the restart start-up is executed thereafter, "1" is added again. That is, the number of times when restart startup is continuously repeated is displayed on the restart counter. In the case of this embodiment, when the value of the restart counter exceeds a certain number of times, the system goes down.
【0019】また、再開始コードは、再開始の原因に応
じ、即ち障害要因に応じて設定された情報である。この
情報に基づいて再開始レベルが設定される。この実施例
中の再開始レベルA,Bは、再開始カウンタの値と再開
始コードの内容の組み合せに合わせて設定される。この
レベルが深ければ開始立上げに近い立上げ処理が実行さ
れ、浅ければ初期設定の一部を実行するだけで立上げが
完了し再開始となる。再開始詳細情報は保守員向けの情
報であって、障害発生後、自動的に再開始処理が行なわ
れた場合においても、保守員がその内容を読み、障害の
詳細やその対処手順等を認識することができる。なお、
再開始カウンタ以降の情報は再開始のときのみ有効な情
報である。The restart code is information set according to the cause of restart, that is, the cause of failure. The restart level is set based on this information. The restart levels A and B in this embodiment are set according to the combination of the value of the restart counter and the content of the restart code. If this level is deep, startup processing close to the startup startup is executed, and if this level is shallow, startup is completed and restarted by only executing part of the initial settings. The detailed restart information is for maintenance personnel, and even if the restart processing is automatically performed after a failure occurs, the maintenance staff will read the content and recognize the details of the failure and the coping procedure, etc. can do. In addition,
The information after the restart counter is valid only when restarting.
【0020】また、この実施例において、システムパラ
メータメモリ5の内容はソフトウェア制御やユーザー操
作パネル2等を用いて書換えが可能である。また、IP
LROM4の動作によって書き換えられるようにしても
よい。RAM6には、本発明のシステムの再開始立上げ
動作を制御するための障害再開始制御部28が設けられ
ている。この障害再開始制御部28は、システムパラメ
ータメモリ5に格納された先に説明した各種の情報を読
み取り、再開始レベル26の設定内容に応じて、適切な
深さの再開始処理を選択して実行する部分である。な
お、これは、具体的には再開始のための動作を実行する
プログラムから構成され、実際の動作はプロセッサ3で
実行することになる。Further, in this embodiment, the contents of the system parameter memory 5 can be rewritten using software control or the user operation panel 2. Also, IP
It may be rewritten by the operation of the LROM 4. The RAM 6 is provided with a fault restart control unit 28 for controlling the restart startup operation of the system of the present invention. The fault restart control unit 28 reads the above-described various information stored in the system parameter memory 5, and selects a restart process with an appropriate depth according to the setting content of the restart level 26. This is the part to be executed. Note that this is specifically composed of a program that executes an operation for restarting, and the actual operation is executed by the processor 3.
【0021】また、障害後処理制御部29は、障害発生
の際、情報処理装置各部から障害情報を収集し、フリー
ズファイル7に格納する部分である。これも情報格納処
理のためのプログラムから構成される。なお、本発明に
おいては、フリーズファイル7には、これまで過去に繰
り返された障害の際収集された障害情報が、複数世代に
わたり消去されず順番に蓄積される構成となっている。
これは、過去の障害情報等を元に装置の診断や復旧のた
めの手順決定を行なうことを目的とするもので、データ
量が膨大になる場合にはデータの圧縮処理等を実行す
る。格納量の上限はハードウェアの許容量により選択さ
れる。The post-fault processing control section 29 is a section for collecting fault information from each section of the information processing apparatus and storing it in the freeze file 7 when a fault occurs. This is also composed of a program for information storage processing. It should be noted that in the present invention, the freeze file 7 has a structure in which the failure information collected at the time of failure that has been repeated in the past is sequentially stored without being erased over a plurality of generations.
This is for the purpose of deciding the procedure for diagnosing and restoring the device based on the past failure information and the like, and when the data amount becomes enormous, the data compression process or the like is executed. The upper limit of the storage amount is selected according to the allowable amount of hardware.
【0022】以下、本発明のシステムの動作を具体的な
フローチャートを用いて説明する。図6は、本発明のシ
ステムによる情報処理装置の立上げ動作フローチャート
である。まず、ステップS1、S2は装置の電源オン等
の際の開始立上げ動作を示している。ステップS1にお
いて、システムのインストールがされるかどうかが判断
される。インストールされる場合にはステップS2にお
いて、必要な動作開始の情報等を設定する。インストー
ルが不要かあるいは開始情報が設定された後にはIPL
ROMによる立上げ動作が実行される。なお、ステップ
S1、S2は保守員の介入による電源等投入等で実行さ
れる。The operation of the system of the present invention will be described below with reference to a specific flow chart. FIG. 6 is a flowchart of the startup operation of the information processing apparatus according to the system of the present invention. First, steps S1 and S2 show a start-up operation when the power of the apparatus is turned on. In step S1, it is determined whether the system will be installed. When it is installed, necessary operation start information and the like are set in step S2. IPL after installation is unnecessary or start information is set
The start-up operation by the ROM is executed. It should be noted that steps S1 and S2 are executed by turning on the power or the like by the intervention of the maintenance personnel.
【0023】ステップS3以降は再開始立上げにおいて
実行される処理である。まず、ステップS3において、
IPLROMによる初期診断が行なわれる。次に、ステ
ップS4において、IPLROMによる初期処理が実行
される。その後ステップS5において、再開始情報の初
期設定が行なわれる。この再開始情報というのはシステ
ムパラメータメモリ5に格納した各種の情報を示す。こ
こでは、例えば種別23を再開始立上げに設定し、再開
始カウンタ24の初期化を行なう。これ以外の情報は、
特にシステムの運転に影響を与えないため初期化しな
い。The processes after step S3 are executed at the restart start-up. First, in step S3,
Initial diagnosis is performed by the IPLROM. Next, in step S4, initial processing by the IPLROM is executed. After that, in step S5, the restart information is initialized. The restart information indicates various kinds of information stored in the system parameter memory 5. Here, for example, the type 23 is set to restart startup, and the restart counter 24 is initialized. For other information,
Do not initialize because it does not affect the operation of the system.
【0024】次に、ステップS6において、システムの
立上げが行なわれ、システムの立上げが完了する。その
後、ステップS7において、システム運転中の状態とな
り、障害監視が開始される。なお、上記のように種別2
3を再開始立上げとし、再開始カウンタ24をリセット
しておくのは、その後、予期しない障害が発生した場
合、開始立上げでなく再開始立上げが実行されるように
しておくためである。また、再開始詳細情報27や再開
始レベル26、再開始詳細情報27をそのままにしてお
くのは、常に直前に発生した障害内容が分かるように障
害履歴として残しておくためである。Next, in step S6, the system is started up, and the system startup is completed. Then, in step S7, the system is in operation and the fault monitoring is started. As mentioned above, type 2
The reason why 3 is set as the restart start-up and the restart counter 24 is reset is that the restart start-up is executed instead of the start-up if an unexpected failure occurs thereafter. . Further, the reason why the restart detailed information 27, the restart level 26, and the restart detailed information 27 are left as they are is that they are always left as a failure history so that the failure content that occurred immediately before can be understood.
【0025】なお、ステップS7で正常に運転中状態と
なった場合には、再開始カウンタの初期化を行なう。再
開始カウンタは、システムの再立上げも行なっても直ち
に障害発生が繰り返されたときのリトライ回数をカウン
トし、障害の重大性を確認するためのものだからであ
る。If the operating state is normal in step S7, the restart counter is initialized. This is because the restart counter counts the number of retries when the occurrence of a failure is repeated immediately after the system is restarted, and confirms the seriousness of the failure.
【0026】図7に、図6の処理に続く障害監視動作フ
ローチャートを示す。システム運転中に障害が発生する
と、まずステップS8において、自動再開始立上げを実
行するかどうかが判断される。自動再開始立上げでない
場合には、従来通り保守員による再開始指示が実行され
る。この場合にはステップS9において、保守員が再開
始コードをマニュアル設定し、ステップS10におい
て、システムがリセットされる。その後は、図6に示す
ステップS3に移る。FIG. 7 shows a fault monitoring operation flowchart following the process of FIG. If a failure occurs during system operation, first in step S8, it is determined whether or not automatic restart startup is to be executed. If it is not the automatic restart start-up, the restart instruction is executed by the maintenance staff as usual. In this case, the maintenance person manually sets the restart code in step S9, and the system is reset in step S10. After that, the routine goes to Step S3 shown in FIG.
【0027】一方、自動立上げの場合には、ステップS
11において、再開始情報の設定が行なわれる。即ち、
システムパラメータメモリ5の再開始カウンタ24を更
新し、例えばこれまで1であったものを2というように
1ずつ加算する。また、再開始コード25を設定し、再
開始詳細情報27の内容を設定する。次に、ステップS
12において、再開始カウンタがオーバーしたかどうか
を判断する。もし、再開始カウンタがオーバーしていれ
ば、先に説明した通り、一定以上再開始をリトライして
も正常な立上げが不可能と判断し、最も深いレベルであ
る再開始レベルに設定し直す(ステップS13)。こう
して、図6に示す再開始立上げ処理、即ち図6のステッ
プS3に戻るようにする。On the other hand, in the case of automatic startup, step S
At 11, restart information is set. That is,
The restart counter 24 of the system parameter memory 5 is updated and, for example, the value that has been 1 up to now is incremented by 2 such as 2. Further, the restart code 25 is set, and the content of the restart detailed information 27 is set. Next, step S
At 12, it is determined if the restart counter has exceeded. If the restart counter is over, as described above, it is judged that normal startup is impossible even if retry is restarted for a certain amount or more, and the restart level, which is the deepest level, is set again. (Step S13). In this way, the process returns to the restart start-up process shown in FIG. 6, that is, step S3 in FIG.
【0028】一方、ステップS12において、再開始カ
ウンタがオーバーしていないと判断された場合、ステッ
プS14に移り、再開始コードの内容に応じた分岐処理
が行なわれる。例えば、再開始コードがハード障害とい
う内容を表わしていた場合、ステップS15に移り、ソ
フトへの割り込みが可能かどうかを判断する。ソフトへ
の割り込みが不可能な場合には、ステップS16に移
り、ステップS13と同様の再開始レベルにダウン設定
し、再開始立上げ処理へ移る。On the other hand, if it is determined in step S12 that the restart counter has not exceeded, the process proceeds to step S14, and branch processing is performed according to the content of the restart code. For example, when the restart code indicates the content of hardware failure, the process proceeds to step S15, and it is determined whether or not the software interrupt is possible. If interrupting the software is not possible, the process proceeds to step S16, the restart level is set to the same level as in step S13, and the process is restarted.
【0029】一方、再開始コードによる分岐の判断の
際、これがソフト障害であるという判断がなされた場合
と、ステップS15においてソフトへの割り込みが可能
と判断された場合、いずれもステップS17に移り、再
開始コードの内容に応じた再開始レベルを設定する。更
に、ステップS18において、再開始カウンタによるレ
ベルと再開始レベルとを比較し、チェックを行なう。そ
して、例えば再開始カウンタが大きな数値を示している
ような場合には、必要に応じて再開始コードにより設定
した再開始レベルより深いレベルにダウン設定する。こ
れによって、再開始立上げ処理へ移る。On the other hand, when it is judged that this is a soft fault when judging the branch by the restart code, and when it is judged in step S15 that the software can be interrupted, the process proceeds to step S17. Set the restart level according to the content of the restart code. Furthermore, in step S18, the restart counter level and the restart level are compared and checked. Then, for example, when the restart counter indicates a large numerical value, the level is set to a level deeper than the restart level set by the restart code, if necessary. As a result, the restart start-up process is performed.
【0030】図8に、本発明による障害後の再開始立上
げ動作フローチャートを示す。図7に示す処理が完了す
ると、この図に示すような再開始立上げ処理が実行され
る。まず、ステップS19において、障害が発生した際
の障害情報が図1に示す障害後処理制御部29によって
収集され、フリーズファイル7に格納される。一方、処
理が継続できないような状況となった場合には、システ
ムリセットの後、このようなフリーズ取得処理が実行さ
れてもよい。ステップS21のシステムリセットの後、
メモリを初期化しない状態ならばフリーズ取得が可能と
なる。このフリーズ取得は世代管理され、フリーズファ
イル7に格納される。FIG. 8 shows a restart start-up operation flowchart after a failure according to the present invention. When the process shown in FIG. 7 is completed, the restart start-up process as shown in this figure is executed. First, in step S19, failure information when a failure occurs is collected by the failure post-processing control unit 29 shown in FIG. 1 and stored in the freeze file 7. On the other hand, when the processing cannot be continued, such a freeze acquisition processing may be executed after the system reset. After the system reset in step S21,
Freeze can be acquired if the memory is not initialized. This freeze acquisition is generation-managed and stored in the freeze file 7.
【0031】次に、ステップS20において、再開始レ
ベルが最低値にダウンしたかどうかが判断される。即
ち、重大な障害で再開始レベルが最低値にダウンした場
合においては、ここでシステムの再開を行なわず、情報
処理装置の動作を完全に停止するシステムダウンとな
る。一方、ステップS20で再開始レベルが最低値でな
い場合には、ステップS21に移り、自動的にシステム
リセットが実行される。Next, in step S20, it is determined whether or not the restart level has dropped to the minimum value. That is, when the restart level is lowered to the minimum value due to a serious failure, the system is not restarted here, and the operation of the information processing apparatus is completely stopped. On the other hand, when the restart level is not the lowest value in step S20, the process proceeds to step S21, and the system reset is automatically executed.
【0032】ステップS22において、IPLROMに
よる初期化診断が行なわれ、ステップS23において、
IPLROMによる初期処理が実行される。なお、この
場合の処理は再開始レベルに応じて選択的に実行され
る。ステップS24におけるシステムの立上げ処理も同
様である。In step S22, initialization diagnosis by IPLROM is performed, and in step S23,
Initial processing by the IPLROM is executed. The process in this case is selectively executed according to the restart level. The same applies to the system startup processing in step S24.
【0033】即ち、再開始レベルが深い場合にはIPL
ROM用ローディングファイルを全て実行し、浅い場合
にはこれらのうち必要なファイルのみを選択的に実行す
る。また、全くこのローディングファイルを実行しない
場合も生じる。更に、ステップS24におけるシステム
の立上げの際に、図4に示したような初期処理ファイル
等が参照され、必要なレベルの処理のみが選択される。
従って、例えばローディングされたアプリケーションプ
ログラム自体の障害であれば、プログラムのローディン
グのみが立上げ処理の際に行なわれるが、主記憶装置の
一部のメモリ障害等の場合には、障害部分を排除するよ
うな処理とともにローディングファイルと初期処理ファ
イル等を使用した深い立上げ処理が実行される。That is, when the restart level is deep, the IPL
All the ROM loading files are executed, and if shallow, only the necessary files among these are selectively executed. Also, there may be cases where this loading file is not executed at all. Further, when the system is started up in step S24, the initial processing file as shown in FIG. 4 is referred to, and only the necessary level of processing is selected.
Therefore, for example, in the case of a fault of the loaded application program itself, only the loading of the program is performed during the startup processing, but in the case of a memory fault of a part of the main storage device, the faulty part is excluded. In addition to such processing, deep startup processing using a loading file, an initial processing file, etc. is executed.
【0034】ステップS24のシステムの立上げが完了
すると、システムの運転が再開される。そして、ステッ
プS25において、保守員に対し障害の情報を表示し、
また必要に応じて自動的に再立上げが行なわれた旨を保
守員に知らせるためのブザー等を鳴らす。When the system startup in step S24 is completed, the system operation is restarted. Then, in step S25, the failure information is displayed to the maintenance personnel,
If necessary, a buzzer etc. will be sounded to notify maintenance personnel that the restart has been performed automatically.
【0035】なお、このような再立上げの際の再開始レ
ベルの設定は、ユーザー操作パネルからも行なうことが
できるため、情報処理装置の環境の選択や切換え、拡
張、移行、あるいは移行失敗時の戻し作業等も容易に実
行することができる。また、フリーズファイル7に格納
された障害情報は、情報処理装置運転中にいつでも保守
員が必要に応じて出力することができるようにしておく
ことが好ましい。Since the setting of the restart level at the time of restarting can be performed from the user operation panel as well, when the environment of the information processing apparatus is selected, switched, expanded, transferred, or failed in the transfer. It is also possible to easily carry out the returning work and the like. Further, it is preferable that the maintenance personnel can output the failure information stored in the freeze file 7 whenever necessary while the information processing apparatus is operating.
【0036】本発明は以上の実施例に限定されない。上
記システムパラメータメモリ5はRAM6と別構成とし
たが、RAM6の中にシステムパラメータメモリ5の内
容を適当に移してもよい。また、再開始処理等の動作手
順は必要に応じて適宜変更して差し支えない。The present invention is not limited to the above embodiments. Although the system parameter memory 5 has a configuration different from that of the RAM 6, the contents of the system parameter memory 5 may be appropriately moved into the RAM 6. Further, the operation procedure such as the restart processing may be appropriately changed as necessary.
【0037】[0037]
【発明の効果】以上説明した本発明の再開始制御システ
ムは、障害が発生した際、自動的に立上げ処理を実行し
て動作を再開始させる障害再開始制御部と、障害情報を
収集して、複数世代、障害情報の蓄積制御を行なう障害
後処理制御部と、障害原因に応じて再開始のためのレベ
ルを設定し、これを障害再開始制御部が参照し、複数の
障害再開始のための手順の中から任意の手順を選択する
ようにしたので、保守員の介在無しに自動的に、最適な
しかも迅速な装置の立上げが可能となる。The restart control system of the present invention described above collects failure information and a failure restart control section that automatically executes a startup process to restart operation when a failure occurs. The failure post-processing control unit that controls the accumulation of failure information for multiple generations, and the level for restarting according to the cause of the failure. The failure restart control unit refers to this and restarts multiple failure restarts. Since an arbitrary procedure is selected from among the procedures for, it is possible to automatically and optimally start up the apparatus automatically without the intervention of maintenance personnel.
【0038】しかも複数世代の障害情報が蓄積されるこ
とによって障害の解析等が正確に行なわれ、これによっ
て障害原因による立上げ環境の変更を自由に適切に行な
うことができる。また、再開始のためのレベルを含む情
報を格納するシステムパラメータメモリの内容を自由に
変更できるようにすれば、障害発生時だけでなくシステ
ムの設置条件の変更、切換え、選択、移行等の際の作業
も容易に行なうことができる。In addition, failure information of a plurality of generations is accumulated, so that failure analysis and the like can be accurately performed, and thereby the startup environment can be freely and appropriately changed depending on the cause of the failure. In addition, if the contents of the system parameter memory that stores the information including the level for restart can be freely changed, not only when a failure occurs, but also when the system installation conditions are changed, switched, selected, transferred, etc. Can be easily performed.
【図1】本発明の再開始制御システム実施例を示すブロ
ック図である。FIG. 1 is a block diagram showing an embodiment of a restart control system of the present invention.
【図2】従来処理のフローチャートである。FIG. 2 is a flowchart of conventional processing.
【図3】IPLROM用ローディングファイルの構成説
明図である。FIG. 3 is an explanatory diagram of a configuration of an IPLROM loading file.
【図4】システム用初期処理ファイルの構成説明図であ
る。FIG. 4 is a diagram illustrating the configuration of a system initial processing file.
【図5】システムパラメータメモリ記憶内容説明図であ
る。FIG. 5 is an explanatory diagram of contents stored in a system parameter memory.
【図6】本発明による再立上げ動作のフローチャートで
ある。FIG. 6 is a flowchart of a restart operation according to the present invention.
【図7】本発明による障害監視動作のフローチャートで
ある。FIG. 7 is a flowchart of a fault monitoring operation according to the present invention.
【図8】本発明による障害後の再立上げ動作フローチャ
ートである。FIG. 8 is a flowchart of a restarting operation after a failure according to the present invention.
1 バスライン 2 ユーザー操作パネル 3 プロセッサ 4 IPLROM 5 システムパラメータメモリ 6 RAM 7 フリーズファイル 1 Bus line 2 User operation panel 3 Processor 4 IPLROM 5 System parameter memory 6 RAM 7 Freeze file
Claims (1)
して、動作を再開始させるための制御を行なう障害再開
始制御部と、 障害発生の都度、障害情報を収集して、複数世代にわた
り障害情報の蓄積制御を行なう障害後処理制御部と、 障害要因に応じて設定された再開始のためのレベルを含
む情報を記憶するシステムパラメータメモリとを備え、 前記障害再開始制御部は、前記システムパラメータメモ
リを参照して、複数の障害再開始の手順の中から任意の
手順を選択することを特徴とする再開始制御システム。1. A failure restart control unit that automatically executes a startup process when a failure occurs to control the operation to restart, and collects failure information each time a failure occurs and collects a plurality of pieces of failure information. A failure post-processing control unit that controls accumulation of failure information over generations, and a system parameter memory that stores information including a restart level set according to a failure factor are provided. A restart control system, wherein an arbitrary procedure is selected from a plurality of failure restart procedures with reference to the system parameter memory.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5342866A JPH07168729A (en) | 1993-12-15 | 1993-12-15 | Restart control system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5342866A JPH07168729A (en) | 1993-12-15 | 1993-12-15 | Restart control system |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07168729A true JPH07168729A (en) | 1995-07-04 |
Family
ID=18357109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP5342866A Pending JPH07168729A (en) | 1993-12-15 | 1993-12-15 | Restart control system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07168729A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004104834A1 (en) * | 2003-05-20 | 2004-12-02 | Bosch Corporation | Vehicle control system recovery control method |
JP2007264997A (en) * | 2006-03-28 | 2007-10-11 | Toyota Motor Corp | Distributed controller |
US7493513B2 (en) | 2003-04-29 | 2009-02-17 | International Business Machines Corporation | Automatically freezing functionality of a computing entity responsive to an error |
-
1993
- 1993-12-15 JP JP5342866A patent/JPH07168729A/en active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7493513B2 (en) | 2003-04-29 | 2009-02-17 | International Business Machines Corporation | Automatically freezing functionality of a computing entity responsive to an error |
US7793142B2 (en) | 2003-04-29 | 2010-09-07 | International Business Machines Corporation | Automatically freezing functionality of a computing entity responsive to an error |
WO2004104834A1 (en) * | 2003-05-20 | 2004-12-02 | Bosch Corporation | Vehicle control system recovery control method |
KR100785581B1 (en) * | 2003-05-20 | 2007-12-13 | 봇슈 가부시키가이샤 | Vehicle control system recovery control method |
CN100454263C (en) * | 2003-05-20 | 2009-01-21 | 博世株式会社 | Recovery control method for vehicle control system |
JP2007264997A (en) * | 2006-03-28 | 2007-10-11 | Toyota Motor Corp | Distributed controller |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5745669A (en) | System and method for recovering PC configurations | |
US5564054A (en) | Fail-safe computer boot apparatus and method | |
JP5176837B2 (en) | Information processing system, management method thereof, control program, and recording medium | |
CN113064747A (en) | Fault positioning method, system and device in server starting process | |
JPH11316687A (en) | Automatic recovery system | |
CN110908847A (en) | Abnormity recovery method, system, electronic equipment and storage medium | |
JP2007241832A (en) | Computer system, startup monitoring method, and startup monitoring program | |
CN112948182B (en) | Method and system for recovering and upgrading emergency backup of set top box | |
CN111949368A (en) | Application program control method and device | |
US20050033952A1 (en) | Dynamic scheduling of diagnostic tests to be performed during a system boot process | |
JP4279593B2 (en) | Elevator control device | |
KR100402639B1 (en) | A method and system for pre-selecting an operating system for loading during a subsequent boot process | |
JPH07168729A (en) | Restart control system | |
JP2752764B2 (en) | Failure handling method | |
CN115934390A (en) | Method and system for processing application program crash and device for running application program | |
JP3317361B2 (en) | Battery backup control method for memory | |
US7389442B1 (en) | Apparatus and method for self diagnosis, repair, removal by reversion of computer problems from desktop and recovery from booting or loading of operating system errors by removable media | |
JPH11327914A (en) | Automatic installation system and recording medium having recorded automatic installation program | |
CN112817642A (en) | Method and device for starting EFI operating system by X86 platform through automatic firmware switching | |
CN109783150A (en) | A kind of anti-brick method and device of embedded system starting | |
JPH07295670A (en) | Starting method for computer system | |
JP3265108B2 (en) | Data processing system | |
JP2882459B2 (en) | Error information collection test system | |
JP2677240B2 (en) | Automatic restart processor for AIN system | |
JPH05191496A (en) | Fault diagnostic system |