JP2021012498A - Distributed container monitoring system and distributed container monitoring method - Google Patents
Distributed container monitoring system and distributed container monitoring method Download PDFInfo
- Publication number
- JP2021012498A JP2021012498A JP2019125791A JP2019125791A JP2021012498A JP 2021012498 A JP2021012498 A JP 2021012498A JP 2019125791 A JP2019125791 A JP 2019125791A JP 2019125791 A JP2019125791 A JP 2019125791A JP 2021012498 A JP2021012498 A JP 2021012498A
- Authority
- JP
- Japan
- Prior art keywords
- container
- monitoring
- business
- signal
- monitors
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 232
- 238000000034 method Methods 0.000 title claims description 11
- 238000001514 detection method Methods 0.000 claims abstract description 74
- 230000008054 signal transmission Effects 0.000 claims abstract description 50
- 230000004044 response Effects 0.000 claims abstract description 49
- 238000012790 confirmation Methods 0.000 claims abstract description 43
- 238000011084 recovery Methods 0.000 claims description 12
- 230000004083 survival effect Effects 0.000 description 22
- 230000006870 function Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
Description
本発明は、分散型コンテナ監視システム及び分散型コンテナ監視方法に関するものである。 The present invention relates to a distributed container monitoring system and a distributed container monitoring method.
従来から、コンテナ環境において管理状態等を各サーバ資源がブロックチェーンとして保持することで、中央管理システムを使用せずに、サーバ資源に障害が発生した際、当該サーバ資源上で稼働していたコンテナの再配置先を決定し、再配置することでコンテナ環境を復旧するものがある(例えば、特許文献1参照)。 Conventionally, in a container environment, each server resource holds the management status as a blockchain, so that when a server resource fails without using the central management system, the container that was operating on the server resource. Some of them restore the container environment by determining the relocation destination of the server and relocating the server (see, for example, Patent Document 1).
特許文献1に記載の技術では、エージェントがサーバ資源を監視することで、サーバ資源に障害が発生しているか否かを判断しているが、当該エージェントを有する装置が、障害発生してしまった場合、適切に障害監視できない可能性がある。
In the technique described in
そこで本発明の目的は、より適切に障害監視することにある。 Therefore, an object of the present invention is to monitor failures more appropriately.
本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will become apparent from the description and accompanying drawings herein.
本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。 A brief description of typical inventions disclosed in the present application is as follows.
本発明の代表的な実施の形態による監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムでは、監視対象のコンテナを監視する第1の監視コンテナと、第1の監視コンテナを監視する第2の監視コンテナと、を備え、第1の監視コンテナは、監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信部と、第1信号送信部により送信された信号に対する監視対象のコンテナの応答状況に基づいて、監視対象のコンテナの障害を検知する第1検知部と、を有し、第2の監視コンテナは、第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信部と、第2信号送信部により送信された信号に対する第1の監視コンテナの応答状況に基づいて、第1の監視コンテナの障害を検知する第2検知部と、を有する。 In the distributed container monitoring system that monitors the operating status of the monitored container according to a typical embodiment of the present invention, the first monitoring container that monitors the monitored container and the first monitoring container that monitors the first monitoring container are monitored. The first monitoring container includes two monitoring containers, the first monitoring container monitors the signal transmitted by the first signal transmission unit and the first signal transmission unit that transmits a signal indicating status confirmation to the container to be monitored. It has a first detection unit that detects a failure of the monitored container based on the response status of the target container, and the second monitoring container sends a signal indicating status confirmation to the first monitoring container. It has a second signal transmitting unit for transmitting, and a second detecting unit for detecting a failure of the first monitoring container based on the response status of the first monitoring container to the signal transmitted by the second signal transmitting unit. ..
本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, the effects obtained by representative ones will be briefly described as follows.
すなわち、本発明の代表的な実施の形態によれば、より適切に障害監視することが可能となる。 That is, according to a typical embodiment of the present invention, fault monitoring can be performed more appropriately.
以下、本実施形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。 Hereinafter, the present embodiment will be described in detail with reference to the drawings. In addition, in all the drawings for explaining the embodiment, in principle, the same reference numerals are given to the same parts, and the repeated description thereof will be omitted. On the other hand, the parts described with reference numerals in one figure may be referred to with the same reference numerals in the explanation of other figures, although they are not shown again.
<概要>
図1は、本実施形態である分散型コンテナ監視システム1の構成について概要を示した図である。図1に示すように、分散型コンテナ監視システム1は、サーバ10(サーバ10a〜サーバ10c)、及びコントロールサーバ20を有する。
<Overview>
FIG. 1 is a diagram showing an outline of the configuration of the distributed
分散型コンテナ監視システム1は、監視対象のコンテナ(業務アプリケーションを実行するコンテナ等)の稼働状況を監視するシステムである。ここで、コンテナとは、仮想化技術により実現されるものである。
The distributed
サーバ10a〜サーバ10c、コントロールサーバ20は、いわゆるサーバ装置であり、ネットワーク30を介して互いに情報・信号を送受信できる。
The
サーバ10及びコントロールサーバ20は、図示しないCPU(Central Processing Unit)により、HDD(Hard Disk Drive)等の記録装置からメモリ上に展開したOS(Operating System)やDBMS(DataBase Management System)、Webサーバプログラム等のミドルウェアや、その上で稼働するソフトウェアを実行する。これにより、後述する各種機能を実現する。 The server 10 and the control server 20 are an OS (Operating System), a DBMS (DataBase Management System), or a Web server program developed on a memory from a recording device such as an HDD (Hard Disk Drive) by a CPU (Central Processing Unit) (not shown). Run middleware such as, and software running on it. As a result, various functions described later are realized.
コントロールサーバ20は、コンテナを管理し、サーバ10へコンテナ作成の指示をする。コントロールサーバ20は、サーバ10で実行しているコンテナの稼働状況の情報をサーバ10から取得し、取得した情報を出力処理する。 The control server 20 manages the container and instructs the server 10 to create the container. The control server 20 acquires information on the operating status of the container being executed on the server 10 from the server 10, and outputs and processes the acquired information.
このコントロールサーバ20は、Kubernetes等の、既存の分散型コンテナ運用管理ソフトウェアを実行することで、各種機能を実現する。 The control server 20 realizes various functions by executing existing distributed container operation management software such as Kubernetes.
サーバ10は、コントロールサーバ20からの指示に基づいて、コンテナを生成する。サーバ10は、コントロールサーバ20からの指示に基づいて、業務アプリケーションを実行するコンテナである業務コンテナ11(監視対象のコンテナ)や、当該業務コンテナを監視することが可能なコンテナである監視コンテナ12を生成する。
The server 10 creates a container based on the instruction from the control server 20. Based on the instruction from the control server 20, the server 10 includes a business container 11 (container to be monitored) which is a container for executing a business application and a
また、サーバ10における監視コンテナ12が、業務コンテナ11の監視をする。また、業務コンテナ11を監視する監視コンテナ12以外の監視コンテナ12が、業務コンテナ11を監視する監視コンテナ12を監視する。
Further, the
なお、図1に示す分散型コンテナ監視システム1では、サーバ10a(識別子はサーバS1)は、監視コンテナ12a(識別子は監視コンテナM1)有する。また、サーバ10b(識別子はサーバS2)は、業務コンテナ11と監視コンテナ12b(識別子は監視コンテナM2)とを有する。また、サーバ10c(識別子はサーバS3)は、監視コンテナ12c(識別子は監視コンテナM3)を有する。
In the distributed
このように、分散型コンテナ監視システム1では、監視コンテナ12が、各サーバ資源(サーバ10a〜サーバ10c)に分散配置されている。
As described above, in the distributed
続いて、監視コンテナ12の機能について、図2を用いて説明する。図2は、監視コンテナ12の機能ブロック図である。
Subsequently, the function of the
図2に示すように、監視コンテナ12は、役割決定部121、第1信号送信部122、第1検知部123、第2信号送信部124、第2検知部125、検知結果出力部126、及び復旧部127を有する。
As shown in FIG. 2, the
役割決定部121は、監視コンテナ12のそれぞれが、業務コンテナ11を監視する監視コンテナ12(第1の監視コンテナ)として機能するか、業務コンテナ11を監視する監視コンテナ12を監視するコンテナ(第2の監視コンテナ)として機能するかを決定する部分である。
In the
役割決定部121は、例えば、コントロールサーバ20からリーダ立候補の問い合わせを受けると、リーダ立候補を示す信号をコントロールサーバ20または他の監視コンテナ12へ送出する。ここでリーダとは、業務コンテナ11を監視するコンテナを意味する。
When, for example, the
また、役割決定部121は、他の監視コンテナ12からのリーダ立候補を示す信号を受信する。役割決定部121は、最も早くリーダ立候補を示す信号を送信した監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12に決定する。また、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12に決定する。
Further, the
また、役割決定部121は、自監視コンテナ12が、業務コンテナ11を監視する監視コンテナ12である場合、定期的にリーダ継続表明を示す信号を他の監視コンテナ12へ送信する。
Further, when the self-
また、業務コンテナ11を監視する監視コンテナ12に障害が発生していることが検知された場合に、役割決定部121は、リーダ立候補を示す信号をコントロールサーバ20や他の監視コンテナ12へ送信する。このように、役割決定部121は、リーダとなる監視コンテナ12に障害が発生した場合に、役割を決定し直す。このように、役割決定部121は、リーダである監視コンテナ12に障害が発生したことをトリガとして、障害が発生した監視コンテナ12以外の監視コンテナ12をリーダにする。
Further, when it is detected that a failure has occurred in the
第1信号送信部122は、監視対象のコンテナである業務コンテナ11に対して状況確認を示す信号を送信する部分である。
The first
役割決定部121により、自コンテナが、業務コンテナ11を監視する監視コンテナ12として機能することが決定された場合、第1信号送信部122は、予め定められているタイミングで業務コンテナ11へ生存確認を問い合わせる信号(ヘルスチェック信号)である生存確認信号を送信する。
When the
第1信号送信部122は、生存確認信号を送信すると、送信した旨を第1検知部123へ通知する。
When the first
第1検知部123は、第1信号送信部122により送信された信号に対する業務コンテナ11の応答状況に基づいて、業務コンテナ11の障害を検知する部分である。
The
第1検知部123は、第1信号送信部122により、生存確認信号が送信された旨の通知を取得すると、業務コンテナ11からの当該生存確認信号に対する応答信号の受付をする。
When the
第1検知部123は、当該応答信号の内容または、当該応答信号の受信状態に基づいて、業務コンテナ11の障害を検知する。
The
例えば、第1検知部123は、第1信号送信部122から生存確認信号が送信されてから予め定められている期間内に応答信号が送信されなかった場合、この結果に基づいて、業務コンテナ11の障害を検知する。
For example, if the
なお、第1検知部123は、応答信号を受信するタイミングが徐々に遅くなってきている場合に、業務コンテナ11の障害を検知するようにしてもよい。これは、業務コンテナ11の障害の蓋然性が高いためである。
The
第1検知部123は、応答信号を受信した場合、当該応答信号を検知結果出力部126へ送出する。また、第1検知部123は、業務コンテナ11の障害を検知した場合、障害を検知した旨を検知結果出力部126へ送出する。
When the
なお、第1検知部123は、当該応答信号自体や、当該応答信号に関する情報(応答信号を受信するまでの時間に関する情報)を検知結果出力部126へ送出してもよい。
The
第2信号送信部124は、業務コンテナ11を監視する監視コンテナ12に対して状況確認を示す信号を送信する部分である。
The second
役割決定部121により、自コンテナが、業務コンテナ11を監視する監視コンテナ12を監視する監視コンテナ12として機能することが決定された場合、第2信号送信部124は、所定のタイミングで監視対象の監視コンテナ12に対して生存確認信号を送信する。
When the
第2信号送信部124は、生存確認信号を送信すると、送信した旨を第2検知部125へ通知する。
When the second
第2検知部125は、第2信号送信部124により送信された信号に対する、監視対象の監視コンテナ12の応答状況に基づいて、監視対象の監視コンテナ12の障害を検知する部分である。
The
第2検知部125は、第2信号送信部124により、生存確認信号が送信された旨の通知を取得すると、監視対象の監視コンテナ12からの当該生存確認信号に対する応答信号の受付をする。監視対象の監視コンテナ12は、正常に稼働している場合、当該生存確認信号を受信すると、応答信号を当該生存確認信号の送信元へ送信する。
When the
第2検知部125は、当該応答信号の内容または、当該応答信号の受信状態に基づいて、監視対象の監視コンテナ12の障害を検知する。
The
例えば、第2検知部125は、第2信号送信部124から生存確認信号が送信されてから予め定められている期間内に応答信号が送信されなかった場合、この結果に基づいて、監視対象の監視コンテナ12の障害を検知する。
For example, if the response signal is not transmitted within a predetermined period after the survival confirmation signal is transmitted from the second
なお、第2検知部125は、応答信号を受信するタイミングが徐々に遅くなってきている場合に、監視対象の監視コンテナ12の障害を検知するようにしてもよい。これは、監視対象の監視コンテナ12の障害の蓋然性が高いためである。
The
第2検知部125は、応答信号を受信した場合、当該応答信号を検知結果出力部126へ送出する。また、第2検知部125は、監視対象の監視コンテナ12の障害を検知した場合、障害を検知した旨を検知結果出力部126へ送出する。なお、第2検知部125は、当該応答信号自体や、当該応答信号に関する情報(応答信号を受信するまでの時間に関する情報)を検知結果出力部126へ送出してもよい。
When the
検知結果出力部126は、第1検知部123または第2検知部125による検知結果を出力する部分である。
The detection
例えば、検知結果出力部126は、第1検知部123または第2検知部125による検知結果をコントロールサーバ20へ送信する。
For example, the detection
なお、検知結果出力部126は、第1検知部123または第2検知部125から取得した応答信号自体や当該応答信号に関する情報を取得して、これらの情報をコントロールサーバ20へ送信してもよい。
The detection
復旧部127は、第1検知部123により監視対象のコンテナである業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする部分である。
The
復旧部127は、第1検知部123から業務コンテナ11の障害が検知された旨の通知を受けると、障害が発生した業務コンテナ11以外のサーバ10に対して、コンテナ作成要求をして、業務コンテナ11の作成要求をする。この場合、要求先のサーバ10が、業務コンテナ11を作成して、当該業務コンテナ11を稼働させる。このように、復旧部127は、業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする。
When the
<処理手順>
続いて、図3を用いて、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、業務コンテナ11に障害を検知した場合の処理について説明する。
<Processing procedure>
Subsequently, with reference to FIG. 3, the processing when the
図3は、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、業務コンテナ11に障害を検知した場合の処理の流れを示すシーケンス図である。
FIG. 3 is a sequence diagram showing a processing flow when the
まず、サーバ10bにおいて、業務コンテナ11が稼働しているものとする(ステップS1)。コントロールサーバ20からリーダ候補の問い合わせを受信すると、役割決定部121は、リーダ立候補を示す信号を他の監視コンテナ12へ送信する。例えば、監視コンテナ12aの役割決定部121は、監視コンテナ12b及び監視コンテナ12cへリーダ立候補を示す信号を送信する(ステップS2、ステップS3)。
First, it is assumed that the
監視コンテナ12aの役割決定部121は、自監視コンテナ12aが最も早くリーダ立候補を示す信号を送信している場合、自監視コンテナ12aを、業務コンテナ11を監視する監視コンテナに決定する。また、監視コンテナ12aの役割決定部121は、監視コンテナ12b及び監視コンテナ12cを、監視コンテナ12aを監視する監視コンテナに決定する。
The
監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS4)。
The first
また、監視コンテナ12aの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12b及び監視コンテナ12cへ送信する(ステップS5、ステップS6)。
Further, the
また、監視コンテナ12bの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12bの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS7)。
Further, the second
また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS8)。
Further, the second
また、監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信する(ステップS9)。なお、ステップS4〜ステップS9の間で、サーバ10bにおいて、障害が発生している。
Further, the first
また、監視コンテナ12aの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12b及び監視コンテナ12cへ送信する(ステップS10、ステップS11)。
Further, the
また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS12)。
Further, the second
監視コンテナ12aの第1検知部123は、ステップS9において送信した生存確認を示す信号を送信してから所定期間応答信号が無いので、業務コンテナ11において障害が発生したことを検知する。復旧部127は、これに応じて、サーバ10cに対してコンテナ復旧指示の信号を送信し(ステップS13)、サーバ10cがこれに応じて、業務コンテナの生成(復旧)をする(ステップS14)。
The
ステップS15において、ステップS6と同様にリーダ継続表明し、ステップS16において、ステップS8と同様にリーダ生存確認処理をする。 In step S15, the leader continues to be announced as in step S6, and in step S16, the leader survival confirmation process is performed in the same manner as in step S8.
また、ステップS17において、ステップS6と同様にリーダ継続表明し、ステップS18において、ステップS8と同様にリーダ生存確認処理をする。 Further, in step S17, the leader continuation is announced in the same manner as in step S6, and in step S18, the leader survival confirmation process is performed in the same manner as in step S8.
また、ステップS19において、監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号をサーバ10cの業務コンテナ11に送信する(ステップS19)。
Further, in step S19, the first
続いて、図4を用いて、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、監視コンテナ12に障害を検知した場合の処理について説明する。図4は、本実施の形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、監視コンテナ12に障害を検知した場合の処理の流れを示すシーケンス図である。
Subsequently, with reference to FIG. 4, the processing when the
ステップS31〜ステップS38は、図3に示したシーケンス図のステップS1〜ステップS8と同様のため、説明を省略する。 Since steps S31 to S38 are the same as steps S1 to S8 in the sequence diagram shown in FIG. 3, description thereof will be omitted.
ステップS39では、ステップS34と同様に、監視コンテナ12aの第1信号送信部122が、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS39)。
In step S39, similarly to step S34, the first
ステップS40〜ステップS43は、ステップS35〜ステップS38と同様に、リーダ継続表明及びリーダ生存確認処理をする。 In steps S40 to S43, the leader continuation statement and the leader survival confirmation process are performed in the same manner as in steps S35 to S38.
ステップS43の後に、サーバ10aにおいて、障害が発生する。この後で、サーバ10b及びサーバ10cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信する(ステップS44、ステップS45)。
After step S43, a failure occurs in the
サーバ10b及びサーバ10cの第2検知部125は、第2信号送信部124により生存確認を示す信号を送信してから待機期間(ステップS46)を経過すると、監視コンテナ12aにおいて障害が発生したことを検知する。
The
これに応じて、監視コンテナ12bの役割決定部121は、リーダ立候補を示す信号を監視コンテナ12cへ送信し、監視コンテナ12bを、業務コンテナ11を監視する監視コンテナに決定する(ステップS47)。
In response to this, the
監視コンテナ12bの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS48)。
The first
また、監視コンテナ12bの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12cへ送信する(ステップS49)。また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12bへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12bから応答信号を受信することで生存確認をする(ステップS50)。
Further, the
また、監視コンテナ12bの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS51)。
Further, the first
続いて、監視状況の画面の例について、図5を用いて説明する。図5は、監視状況の画面例を説明する図である。 Subsequently, an example of the monitoring status screen will be described with reference to FIG. FIG. 5 is a diagram illustrating a screen example of the monitoring status.
図5の画面は、例えば、コントロールサーバ20が、検知結果出力部126から取得した情報に基づいて生成した画面である。
The screen of FIG. 5 is, for example, a screen generated by the control server 20 based on the information acquired from the detection
図5の例では、サーバ3台を管理していることが示されている。具体的に、ノード名が「Worker#1」であるサーバは、識別子が監視コンテナM1である監視コンテナを有する。また、ノード名が「Worker#2」であるサーバは、識別子が業務コンテナC1である業務コンテナと、識別子が監視コンテナM2である監視コンテナを有する。また、ノード名が「Worker#3」であるサーバは、識別子が業務コンテナC2である業務コンテナと、識別子が監視コンテナM3である監視コンテナを有する。
In the example of FIG. 5, it is shown that three servers are managed. Specifically, the server whose node name is "
図5の例では、監視コンテナM1が、業務コンテナC1及び業務コンテナC2を監視し、監視コンテナM2及び監視コンテナM3が、監視コンテナM1を監視することが示されている。 In the example of FIG. 5, it is shown that the monitoring container M1 monitors the business container C1 and the business container C2, and the monitoring container M2 and the monitoring container M3 monitor the monitoring container M1.
また、「HealthCheck Response Time」では、業務コンテナC1及び業務コンテナC2の生存確認を示す信号に対するレスポンスタイムのグラフを示している。 Further, in the "HealthCheck Response Time", a graph of the response time to the signal indicating the existence confirmation of the business container C1 and the business container C2 is shown.
また、「Message Count」では、メッセージのレベル毎(Info、Warn、Error)のメッセージ数の推移を示している。 In addition, "Message Count" shows the transition of the number of messages for each message level (Info, Warn, Error).
また、詳細欄D1では、メッセージを送信した業務コンテナ、メッセージの送信日、メッセージの送信時刻、メッセージのレベル、当該業務コンテナの所属ノード、具体的なメッセー内容を示している。 Further, the detail column D1 indicates the business container to which the message was sent, the message transmission date, the message transmission time, the message level, the node to which the business container belongs, and the specific message content.
上述の実施形態では、監視コンテナ12が、役割決定部121を有する場合について述べたが、コントロールサーバ20が、役割決定部121を有するようにしてもよい。
In the above-described embodiment, the case where the
上述の実施形態では、役割決定部121が、動的にリーダを決定する場合について述べたが、予め固定してリーダを決定していてもよい。
In the above-described embodiment, the case where the
監視コンテナ12が、第1信号送信部122、第1検知部123、第2信号送信部124、及び第2検知部125を有する場合について述べたが、これに限られず、予めリーダであるか否か決まっている場合、全て有していなくてもよい。
The case where the
<作用効果>
上述の分散型コンテナ監視システム1における、業務コンテナを監視する監視コンテナ12(上述の実施例における監視コンテナ12a)では、第1信号送信部122が、監視対象のコンテナである業務コンテナ11に対して状況確認を示す信号を送信し、第1検知部123が、第1信号送信部122により送信された信号に対する業務コンテナ11の応答状況に基づいて、業務コンテナ11の障害を検知する。
<Effect>
In the monitoring container 12 (
また、当該業務コンテナを監視する監視コンテナ12を監視する監視コンテナ12(上述の実施例における監視コンテナ12c)では、第2信号送信部124が、監視コンテナ12aに対して状況確認を示す信号を送信し、第2検知部125が、第2信号送信部124により送信された信号に対する監視コンテナ12aの応答状況に基づいて、監視コンテナ12aの障害を検知する。
Further, in the monitoring container 12 (
この場合、分散型コンテナ監視システム1では、業務コンテナ11を監視する監視コンテナ12をさらに監視するので、業務コンテナ11を監視する監視コンテナ12に障害が発生したとしても、速やかに障害に対応することができる。すなわち、より適切に障害監視することができる。また、上述の実施形態の分散型コンテナ監視システム1では、ブロックチェーンを用いることなく、サーバ資源を最大限有効活用し、より単純な実装で障害監視することができる。
In this case, since the distributed
また、役割決定部121は、監視コンテナ12のそれぞれが、業務コンテナ11を監視する監視コンテナ12として機能するか、業務コンテナ11を監視する監視コンテナ12を監視する監視コンテナ12として機能するかを決定する。
Further, the
このように、分散型コンテナ監視システム1では、役割決定部121が、複数の監視コンテナ12の役割分担をすることで、動的に役割分担することができる。
As described above, in the distributed
また、役割決定部121は、第2検知部125により、業務コンテナ11を監視する監視コンテナ12の障害が検知された場合、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12として機能させる。
Further, when the
このように、分散型コンテナ監視システム1は、業務コンテナ11を監視する監視コンテナ12の障害を検知して、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12とすることで、継続して、適切に業務コンテナ11を監視し続けることができる。
In this way, the distributed
また、復旧部127は、第1検知部123により監視対象のコンテナである業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする。これにより、分散型コンテナ監視システム1では、業務コンテナ11を適切に障害復旧することができる。また、業務コンテナ11を実行するアプリケーションによっては、アプリケーション自身の機能で復旧することもできるが、復旧部127によれば、それに依存することなく障害復旧することができる。
Further, when the
以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 Although the invention made by the present inventor has been specifically described above based on the embodiments, the present invention is not limited to the above embodiments and can be variously modified without departing from the gist thereof. Needless to say. For example, the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. It is also possible to replace a part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment. .. Further, it is possible to add / delete / replace other configurations with respect to a part of the configurations of each embodiment.
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、またはICカード、SDカード、DVD等の記録媒体に置くことができる。 Further, each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be placed in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.
また、上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。 Further, in each of the above figures, the control lines and information lines are shown as necessary for explanation, and not all the control lines and information lines in the implementation are necessarily shown. In practice, it can be considered that almost all configurations are interconnected.
本発明は、監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムに利用可能である。 The present invention can be used in a distributed container monitoring system that monitors the operating status of a container to be monitored.
1…分散型コンテナ監視システム、10…サーバ、11…業務コンテナ、12…監視コンテナ、121…役割決定部、122…第1信号送信部、123…第1検知部、
124…第2信号送信部、125…第2検知部、126…検知結果出力部、127…復旧部。
1 ... Distributed container monitoring system, 10 ... Server, 11 ... Business container, 12 ... Monitoring container, 121 ... Role determination unit, 122 ... First signal transmission unit, 123 ... First detection unit,
124 ... 2nd signal transmission unit, 125 ... 2nd detection unit, 126 ... detection result output unit, 127 ... recovery unit.
Claims (5)
前記監視対象のコンテナを監視する第1の監視コンテナと、
前記第1の監視コンテナを監視する第2の監視コンテナと、を備え、
前記第1の監視コンテナは、
前記監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信部と、
前記第1信号送信部により送信された信号に対する前記監視対象のコンテナの応答状況に基づいて、前記監視対象のコンテナの障害を検知する第1検知部と、を有し、
前記第2の監視コンテナは、
前記第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信部と、
前記第2信号送信部により送信された信号に対する前記第1の監視コンテナの応答状況に基づいて、前記第1の監視コンテナの障害を検知する第2検知部と、を有する、
分散型コンテナ監視システム。 A distributed container monitoring system that monitors the operating status of monitored containers.
The first monitoring container that monitors the monitored container and
A second monitoring container that monitors the first monitoring container is provided.
The first monitoring container is
A first signal transmission unit that transmits a signal indicating status confirmation to the container to be monitored, and
It has a first detection unit that detects a failure of the monitoring target container based on the response status of the monitoring target container to a signal transmitted by the first signal transmission unit.
The second monitoring container is
A second signal transmission unit that transmits a signal indicating status confirmation to the first monitoring container, and
It has a second detection unit that detects a failure of the first monitoring container based on the response status of the first monitoring container to a signal transmitted by the second signal transmission unit.
Distributed container monitoring system.
前記監視対象のコンテナを監視可能なコンテナである監視コンテナを複数有し、
前記監視コンテナのそれぞれが、前記第1の監視コンテナとして機能するか、前記第2の監視コンテナとして機能するかを決定する役割決定部をさらに有する、
分散型コンテナ監視システム。 The distributed container monitoring system according to claim 1.
It has a plurality of monitoring containers that can monitor the monitored container.
Each of the monitoring containers further has a role-determining unit that determines whether to function as the first monitoring container or the second monitoring container.
Distributed container monitoring system.
前記役割決定部は、前記第2検知部により前記第1の監視コンテナの障害が検知された場合、他の監視コンテナを第1の監視コンテナとして機能させる、
分散型コンテナ監視システム。 The distributed container monitoring system according to claim 2.
When the failure of the first monitoring container is detected by the second detection unit, the role determining unit causes another monitoring container to function as the first monitoring container.
Distributed container monitoring system.
前記第1の監視コンテナは、
前記第1検知部により前記監視対象のコンテナの障害が検知された場合、コンテナ環境の復旧処理をする復旧部をさらに有する、
分散型コンテナ監視システム。 The distributed container monitoring system according to claim 1 or 2.
The first monitoring container is
When the failure of the container to be monitored is detected by the first detection unit, it further has a recovery unit that performs restoration processing of the container environment.
Distributed container monitoring system.
前記監視対象のコンテナを監視する第1の監視コンテナと、
前記第1の監視コンテナを監視する第2の監視コンテナと、を有し、
前記第1の監視コンテナでは、
前記監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信ステップと、
前記第1信号送信ステップで送信した信号に対する前記監視対象のコンテナの応答状況に基づいて、前記監視対象のコンテナの障害を検知する第1検知ステップと、を含み、
前記第2の監視コンテナでは、
前記第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信ステップと、
前記第2信号送信ステップで送信した信号に対する前記第1の監視コンテナの応答状況に基づいて、前記第1の監視コンテナの障害を検知する第2検知ステップと、を含む、
分散型コンテナ監視方法。 It is a distributed container monitoring method executed by a distributed container monitoring system that monitors the operating status of the monitored container.
The first monitoring container that monitors the monitored container and
It has a second monitoring container that monitors the first monitoring container, and
In the first monitoring container,
The first signal transmission step of transmitting a signal indicating status confirmation to the monitored container, and
A first detection step of detecting a failure of the monitored container based on the response status of the monitored container to the signal transmitted in the first signal transmission step is included.
In the second monitoring container,
A second signal transmission step of transmitting a signal indicating status confirmation to the first monitoring container, and
A second detection step of detecting a failure of the first monitoring container based on the response status of the first monitoring container to the signal transmitted in the second signal transmission step is included.
Distributed container monitoring method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019125791A JP7311335B2 (en) | 2019-07-05 | 2019-07-05 | DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019125791A JP7311335B2 (en) | 2019-07-05 | 2019-07-05 | DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021012498A true JP2021012498A (en) | 2021-02-04 |
JP7311335B2 JP7311335B2 (en) | 2023-07-19 |
Family
ID=74227473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019125791A Active JP7311335B2 (en) | 2019-07-05 | 2019-07-05 | DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7311335B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7552433B2 (en) | 2021-02-25 | 2024-09-18 | 富士通株式会社 | CONTAINER MANAGEMENT METHOD AND CONTAINER MANAGEMENT PROGRAM |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282601A (en) * | 2008-05-20 | 2009-12-03 | Nec System Technologies Ltd | Operation monitoring program, monitoring system, and monitoring method |
JP2017083935A (en) * | 2015-10-23 | 2017-05-18 | 日本電気株式会社 | Information processor, cluster system, clustering method, and program |
JP2018067332A (en) * | 2011-07-26 | 2018-04-26 | オラクル・インターナショナル・コーポレイション | System and method for cloud computing |
-
2019
- 2019-07-05 JP JP2019125791A patent/JP7311335B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009282601A (en) * | 2008-05-20 | 2009-12-03 | Nec System Technologies Ltd | Operation monitoring program, monitoring system, and monitoring method |
JP2018067332A (en) * | 2011-07-26 | 2018-04-26 | オラクル・インターナショナル・コーポレイション | System and method for cloud computing |
JP2017083935A (en) * | 2015-10-23 | 2017-05-18 | 日本電気株式会社 | Information processor, cluster system, clustering method, and program |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7552433B2 (en) | 2021-02-25 | 2024-09-18 | 富士通株式会社 | CONTAINER MANAGEMENT METHOD AND CONTAINER MANAGEMENT PROGRAM |
Also Published As
Publication number | Publication date |
---|---|
JP7311335B2 (en) | 2023-07-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2644146C2 (en) | Method, device and control system of fault processing | |
US8910172B2 (en) | Application resource switchover systems and methods | |
JP5851503B2 (en) | Providing high availability for applications in highly available virtual machine environments | |
US9189316B2 (en) | Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster | |
US8726274B2 (en) | Registration and initialization of cluster-aware virtual input/output server nodes | |
US20150067387A1 (en) | Method and apparatus for data storage | |
US10819641B2 (en) | Highly available servers | |
JP2014197266A (en) | Information processing system, information processor, control program of information processor, and method for controlling information processing system | |
EP3301576A1 (en) | Method and apparatus for monitoring logs of multi-tenant systems | |
US20050234919A1 (en) | Cluster system and an error recovery method thereof | |
JP7311335B2 (en) | DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD | |
US11544091B2 (en) | Determining and implementing recovery actions for containers to recover the containers from failures | |
US20120023379A1 (en) | Storage device, storage system, and control method | |
US8738959B2 (en) | Selective message loss handling in a cluster of replicated servers | |
US8234345B2 (en) | Preserving a messaging service in a highly available environment | |
JP7181467B2 (en) | Control method, control program, and information processing device | |
US8036105B2 (en) | Monitoring a problem condition in a communications system | |
JP2018169920A (en) | Management device, management method and management program | |
JP2018097435A (en) | Parallel processing apparatus and inter-node communication program | |
KR101883251B1 (en) | Apparatus and method for determining failover in virtual system | |
JP2019212046A (en) | Control program, control method, and information processing device | |
JP7010986B2 (en) | Network management system, network management device, and network management method | |
WO2023275983A1 (en) | Virtualization system failure separation device and virtualization system failure separation device method | |
JP6760888B2 (en) | Redundant system and hardware failure detection method | |
KR102153622B1 (en) | Scalable network connected storage apparatus and method for handling fault |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220610 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230526 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230704 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230706 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7311335 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |