[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

JP2021012498A - Distributed container monitoring system and distributed container monitoring method - Google Patents

Distributed container monitoring system and distributed container monitoring method Download PDF

Info

Publication number
JP2021012498A
JP2021012498A JP2019125791A JP2019125791A JP2021012498A JP 2021012498 A JP2021012498 A JP 2021012498A JP 2019125791 A JP2019125791 A JP 2019125791A JP 2019125791 A JP2019125791 A JP 2019125791A JP 2021012498 A JP2021012498 A JP 2021012498A
Authority
JP
Japan
Prior art keywords
container
monitoring
business
signal
monitors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019125791A
Other languages
Japanese (ja)
Other versions
JP7311335B2 (en
Inventor
明彦 伊藤
Akihiko Ito
明彦 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2019125791A priority Critical patent/JP7311335B2/en
Publication of JP2021012498A publication Critical patent/JP2021012498A/en
Application granted granted Critical
Publication of JP7311335B2 publication Critical patent/JP7311335B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

To provide a distributed container monitoring system capable of appropriately monitoring failures even if a device that has an agent that monitors server resources is failed.SOLUTION: In a monitoring container 12 that monitors business containers in a distributed container monitoring system, a first signal transmission unit 122 transmits a signal indicating status confirmation to the business container, which is a container to be monitored, and a first detection unit 123 detects a failure of the business container based on the response status of the business container to the signal transmitted by the first signal transmission unit 122. The monitoring container 12 for monitoring the monitoring container 12 that monitors the business containers, a second signal transmission unit 124 transmits the signal indicating the status confirmation to the monitoring container, and a second detection unit 125 detects the failure of the monitoring container based on the response status of the monitoring container to the signal transmitted by the second signal transmission unit 124.SELECTED DRAWING: Figure 2

Description

本発明は、分散型コンテナ監視システム及び分散型コンテナ監視方法に関するものである。 The present invention relates to a distributed container monitoring system and a distributed container monitoring method.

従来から、コンテナ環境において管理状態等を各サーバ資源がブロックチェーンとして保持することで、中央管理システムを使用せずに、サーバ資源に障害が発生した際、当該サーバ資源上で稼働していたコンテナの再配置先を決定し、再配置することでコンテナ環境を復旧するものがある(例えば、特許文献1参照)。 Conventionally, in a container environment, each server resource holds the management status as a blockchain, so that when a server resource fails without using the central management system, the container that was operating on the server resource. Some of them restore the container environment by determining the relocation destination of the server and relocating the server (see, for example, Patent Document 1).

特開2018−156465号公報JP-A-2018-156465

特許文献1に記載の技術では、エージェントがサーバ資源を監視することで、サーバ資源に障害が発生しているか否かを判断しているが、当該エージェントを有する装置が、障害発生してしまった場合、適切に障害監視できない可能性がある。 In the technique described in Patent Document 1, the agent monitors the server resource to determine whether or not the server resource has a failure, but the device having the agent has a failure. In that case, it may not be possible to properly monitor the failure.

そこで本発明の目的は、より適切に障害監視することにある。 Therefore, an object of the present invention is to monitor failures more appropriately.

本発明の前記ならびにその他の目的と新規な特徴は、本明細書の記述及び添付図面から明らかになるであろう。 The above and other objects and novel features of the present invention will become apparent from the description and accompanying drawings herein.

本願において開示される発明のうち、代表的なものの概要を簡単に説明すれば、以下のとおりである。 A brief description of typical inventions disclosed in the present application is as follows.

本発明の代表的な実施の形態による監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムでは、監視対象のコンテナを監視する第1の監視コンテナと、第1の監視コンテナを監視する第2の監視コンテナと、を備え、第1の監視コンテナは、監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信部と、第1信号送信部により送信された信号に対する監視対象のコンテナの応答状況に基づいて、監視対象のコンテナの障害を検知する第1検知部と、を有し、第2の監視コンテナは、第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信部と、第2信号送信部により送信された信号に対する第1の監視コンテナの応答状況に基づいて、第1の監視コンテナの障害を検知する第2検知部と、を有する。 In the distributed container monitoring system that monitors the operating status of the monitored container according to a typical embodiment of the present invention, the first monitoring container that monitors the monitored container and the first monitoring container that monitors the first monitoring container are monitored. The first monitoring container includes two monitoring containers, the first monitoring container monitors the signal transmitted by the first signal transmission unit and the first signal transmission unit that transmits a signal indicating status confirmation to the container to be monitored. It has a first detection unit that detects a failure of the monitored container based on the response status of the target container, and the second monitoring container sends a signal indicating status confirmation to the first monitoring container. It has a second signal transmitting unit for transmitting, and a second detecting unit for detecting a failure of the first monitoring container based on the response status of the first monitoring container to the signal transmitted by the second signal transmitting unit. ..

本願において開示される発明のうち、代表的なものによって得られる効果を簡単に説明すれば以下のとおりである。 Among the inventions disclosed in the present application, the effects obtained by representative ones will be briefly described as follows.

すなわち、本発明の代表的な実施の形態によれば、より適切に障害監視することが可能となる。 That is, according to a typical embodiment of the present invention, fault monitoring can be performed more appropriately.

本実施形態である分散型コンテナ監視システムの構成について概要を示した図である。It is a figure which showed the outline about the structure of the distributed container monitoring system which is this embodiment. 本実施形態である監視コンテナの機能ブロック図である。It is a functional block diagram of the monitoring container which is this embodiment. 本実施形態における監視コンテナによる業務コンテナ及び監視コンテナを監視し、業務コンテナに障害を検知した場合の処理の流れを示すシーケンス図である。It is a sequence diagram which shows the flow of processing when the business container and the monitoring container are monitored by the monitoring container in this embodiment, and a failure is detected in the business container. 本実施形態における監視コンテナによる業務コンテナ及び監視コンテナを監視し、監視コンテナに障害を検知した場合の処理の流れを示すシーケンス図である。It is a sequence diagram which shows the flow of processing when the business container and the monitoring container are monitored by the monitoring container in this embodiment, and a failure is detected in the monitoring container. 監視状況の画面例を説明する図の例である。It is an example of the figure explaining the screen example of the monitoring situation.

以下、本実施形態を図面に基づいて詳細に説明する。なお、実施の形態を説明するための全図において、同一部には原則として同一の符号を付し、その繰り返しの説明は省略する。一方で、ある図において符号を付して説明した部位について、他の図の説明の際に再度の図示はしないが同一の符号を付して言及する場合がある。 Hereinafter, the present embodiment will be described in detail with reference to the drawings. In addition, in all the drawings for explaining the embodiment, in principle, the same reference numerals are given to the same parts, and the repeated description thereof will be omitted. On the other hand, the parts described with reference numerals in one figure may be referred to with the same reference numerals in the explanation of other figures, although they are not shown again.

<概要>
図1は、本実施形態である分散型コンテナ監視システム1の構成について概要を示した図である。図1に示すように、分散型コンテナ監視システム1は、サーバ10(サーバ10a〜サーバ10c)、及びコントロールサーバ20を有する。
<Overview>
FIG. 1 is a diagram showing an outline of the configuration of the distributed container monitoring system 1 according to the present embodiment. As shown in FIG. 1, the distributed container monitoring system 1 has a server 10 (servers 10a to 10c) and a control server 20.

分散型コンテナ監視システム1は、監視対象のコンテナ(業務アプリケーションを実行するコンテナ等)の稼働状況を監視するシステムである。ここで、コンテナとは、仮想化技術により実現されるものである。 The distributed container monitoring system 1 is a system that monitors the operating status of a container to be monitored (a container that executes a business application, etc.). Here, the container is realized by virtualization technology.

サーバ10a〜サーバ10c、コントロールサーバ20は、いわゆるサーバ装置であり、ネットワーク30を介して互いに情報・信号を送受信できる。 The servers 10a to 10c and the control server 20 are so-called server devices, and can send and receive information and signals to and from each other via the network 30.

サーバ10及びコントロールサーバ20は、図示しないCPU(Central Processing Unit)により、HDD(Hard Disk Drive)等の記録装置からメモリ上に展開したOS(Operating System)やDBMS(DataBase Management System)、Webサーバプログラム等のミドルウェアや、その上で稼働するソフトウェアを実行する。これにより、後述する各種機能を実現する。 The server 10 and the control server 20 are an OS (Operating System), a DBMS (DataBase Management System), or a Web server program developed on a memory from a recording device such as an HDD (Hard Disk Drive) by a CPU (Central Processing Unit) (not shown). Run middleware such as, and software running on it. As a result, various functions described later are realized.

コントロールサーバ20は、コンテナを管理し、サーバ10へコンテナ作成の指示をする。コントロールサーバ20は、サーバ10で実行しているコンテナの稼働状況の情報をサーバ10から取得し、取得した情報を出力処理する。 The control server 20 manages the container and instructs the server 10 to create the container. The control server 20 acquires information on the operating status of the container being executed on the server 10 from the server 10, and outputs and processes the acquired information.

このコントロールサーバ20は、Kubernetes等の、既存の分散型コンテナ運用管理ソフトウェアを実行することで、各種機能を実現する。 The control server 20 realizes various functions by executing existing distributed container operation management software such as Kubernetes.

サーバ10は、コントロールサーバ20からの指示に基づいて、コンテナを生成する。サーバ10は、コントロールサーバ20からの指示に基づいて、業務アプリケーションを実行するコンテナである業務コンテナ11(監視対象のコンテナ)や、当該業務コンテナを監視することが可能なコンテナである監視コンテナ12を生成する。 The server 10 creates a container based on the instruction from the control server 20. Based on the instruction from the control server 20, the server 10 includes a business container 11 (container to be monitored) which is a container for executing a business application and a monitoring container 12 which is a container capable of monitoring the business container. Generate.

また、サーバ10における監視コンテナ12が、業務コンテナ11の監視をする。また、業務コンテナ11を監視する監視コンテナ12以外の監視コンテナ12が、業務コンテナ11を監視する監視コンテナ12を監視する。 Further, the monitoring container 12 in the server 10 monitors the business container 11. Further, the monitoring container 12 other than the monitoring container 12 that monitors the business container 11 monitors the monitoring container 12 that monitors the business container 11.

なお、図1に示す分散型コンテナ監視システム1では、サーバ10a(識別子はサーバS1)は、監視コンテナ12a(識別子は監視コンテナM1)有する。また、サーバ10b(識別子はサーバS2)は、業務コンテナ11と監視コンテナ12b(識別子は監視コンテナM2)とを有する。また、サーバ10c(識別子はサーバS3)は、監視コンテナ12c(識別子は監視コンテナM3)を有する。 In the distributed container monitoring system 1 shown in FIG. 1, the server 10a (identifier is server S1) has a monitoring container 12a (identifier is monitoring container M1). Further, the server 10b (identifier is server S2) has a business container 11 and a monitoring container 12b (identifier is monitoring container M2). Further, the server 10c (identifier is server S3) has a monitoring container 12c (identifier is monitoring container M3).

このように、分散型コンテナ監視システム1では、監視コンテナ12が、各サーバ資源(サーバ10a〜サーバ10c)に分散配置されている。 As described above, in the distributed container monitoring system 1, the monitoring containers 12 are distributed and arranged in each server resource (server 10a to server 10c).

続いて、監視コンテナ12の機能について、図2を用いて説明する。図2は、監視コンテナ12の機能ブロック図である。 Subsequently, the function of the monitoring container 12 will be described with reference to FIG. FIG. 2 is a functional block diagram of the monitoring container 12.

図2に示すように、監視コンテナ12は、役割決定部121、第1信号送信部122、第1検知部123、第2信号送信部124、第2検知部125、検知結果出力部126、及び復旧部127を有する。 As shown in FIG. 2, the monitoring container 12 includes a role determination unit 121, a first signal transmission unit 122, a first detection unit 123, a second signal transmission unit 124, a second detection unit 125, a detection result output unit 126, and It has a recovery unit 127.

役割決定部121は、監視コンテナ12のそれぞれが、業務コンテナ11を監視する監視コンテナ12(第1の監視コンテナ)として機能するか、業務コンテナ11を監視する監視コンテナ12を監視するコンテナ(第2の監視コンテナ)として機能するかを決定する部分である。 In the role determination unit 121, each of the monitoring containers 12 functions as a monitoring container 12 (first monitoring container) that monitors the business container 11, or a container that monitors the monitoring container 12 that monitors the business container 11 (second). It is the part that determines whether it functions as a monitoring container).

役割決定部121は、例えば、コントロールサーバ20からリーダ立候補の問い合わせを受けると、リーダ立候補を示す信号をコントロールサーバ20または他の監視コンテナ12へ送出する。ここでリーダとは、業務コンテナ11を監視するコンテナを意味する。 When, for example, the role determination unit 121 receives an inquiry for a leader candidacy from the control server 20, it sends a signal indicating the leader candidacy to the control server 20 or another monitoring container 12. Here, the reader means a container that monitors the business container 11.

また、役割決定部121は、他の監視コンテナ12からのリーダ立候補を示す信号を受信する。役割決定部121は、最も早くリーダ立候補を示す信号を送信した監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12に決定する。また、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12に決定する。 Further, the role determination unit 121 receives a signal indicating a leader candidacy from another monitoring container 12. The role determination unit 121 determines the monitoring container 12 that transmits the signal indicating the leader candidacy earliest as the monitoring container 12 that monitors the business container 11. Further, the other monitoring container 12 is determined to be the monitoring container 12 that monitors the business container 11.

また、役割決定部121は、自監視コンテナ12が、業務コンテナ11を監視する監視コンテナ12である場合、定期的にリーダ継続表明を示す信号を他の監視コンテナ12へ送信する。 Further, when the self-monitoring container 12 is a monitoring container 12 that monitors the business container 11, the role determination unit 121 periodically transmits a signal indicating that the leader continues to be announced to another monitoring container 12.

また、業務コンテナ11を監視する監視コンテナ12に障害が発生していることが検知された場合に、役割決定部121は、リーダ立候補を示す信号をコントロールサーバ20や他の監視コンテナ12へ送信する。このように、役割決定部121は、リーダとなる監視コンテナ12に障害が発生した場合に、役割を決定し直す。このように、役割決定部121は、リーダである監視コンテナ12に障害が発生したことをトリガとして、障害が発生した監視コンテナ12以外の監視コンテナ12をリーダにする。 Further, when it is detected that a failure has occurred in the monitoring container 12 that monitors the business container 11, the role determination unit 121 transmits a signal indicating the leader candidacy to the control server 20 and other monitoring containers 12. .. In this way, the role determination unit 121 redetermines the role when a failure occurs in the monitoring container 12 which is the leader. In this way, the role determination unit 121 uses the monitoring container 12 other than the monitoring container 12 in which the failure has occurred as the leader, triggered by the failure of the monitoring container 12 which is the leader.

第1信号送信部122は、監視対象のコンテナである業務コンテナ11に対して状況確認を示す信号を送信する部分である。 The first signal transmission unit 122 is a unit that transmits a signal indicating status confirmation to the business container 11 which is a container to be monitored.

役割決定部121により、自コンテナが、業務コンテナ11を監視する監視コンテナ12として機能することが決定された場合、第1信号送信部122は、予め定められているタイミングで業務コンテナ11へ生存確認を問い合わせる信号(ヘルスチェック信号)である生存確認信号を送信する。 When the role determination unit 121 determines that the own container functions as the monitoring container 12 that monitors the business container 11, the first signal transmission unit 122 confirms the existence of the business container 11 at a predetermined timing. A survival confirmation signal, which is a signal for inquiring about (health check signal), is transmitted.

第1信号送信部122は、生存確認信号を送信すると、送信した旨を第1検知部123へ通知する。 When the first signal transmission unit 122 transmits the survival confirmation signal, the first signal transmission unit 122 notifies the first detection unit 123 that the signal has been transmitted.

第1検知部123は、第1信号送信部122により送信された信号に対する業務コンテナ11の応答状況に基づいて、業務コンテナ11の障害を検知する部分である。 The first detection unit 123 is a part that detects a failure of the business container 11 based on the response status of the business container 11 to the signal transmitted by the first signal transmission unit 122.

第1検知部123は、第1信号送信部122により、生存確認信号が送信された旨の通知を取得すると、業務コンテナ11からの当該生存確認信号に対する応答信号の受付をする。 When the first detection unit 123 receives the notification that the survival confirmation signal has been transmitted by the first signal transmission unit 122, the first detection unit 123 receives the response signal for the survival confirmation signal from the business container 11.

第1検知部123は、当該応答信号の内容または、当該応答信号の受信状態に基づいて、業務コンテナ11の障害を検知する。 The first detection unit 123 detects a failure of the business container 11 based on the content of the response signal or the reception state of the response signal.

例えば、第1検知部123は、第1信号送信部122から生存確認信号が送信されてから予め定められている期間内に応答信号が送信されなかった場合、この結果に基づいて、業務コンテナ11の障害を検知する。 For example, if the first detection unit 123 does not transmit the response signal within a predetermined period after the survival confirmation signal is transmitted from the first signal transmission unit 122, the business container 11 is based on this result. Detects a failure.

なお、第1検知部123は、応答信号を受信するタイミングが徐々に遅くなってきている場合に、業務コンテナ11の障害を検知するようにしてもよい。これは、業務コンテナ11の障害の蓋然性が高いためである。 The first detection unit 123 may detect the failure of the business container 11 when the timing of receiving the response signal is gradually delayed. This is because there is a high probability of failure of the business container 11.

第1検知部123は、応答信号を受信した場合、当該応答信号を検知結果出力部126へ送出する。また、第1検知部123は、業務コンテナ11の障害を検知した場合、障害を検知した旨を検知結果出力部126へ送出する。 When the first detection unit 123 receives the response signal, the first detection unit 123 sends the response signal to the detection result output unit 126. Further, when the first detection unit 123 detects a failure of the business container 11, it sends out to the detection result output unit 126 that the failure has been detected.

なお、第1検知部123は、当該応答信号自体や、当該応答信号に関する情報(応答信号を受信するまでの時間に関する情報)を検知結果出力部126へ送出してもよい。 The first detection unit 123 may send the response signal itself and information on the response signal (information on the time until the response signal is received) to the detection result output unit 126.

第2信号送信部124は、業務コンテナ11を監視する監視コンテナ12に対して状況確認を示す信号を送信する部分である。 The second signal transmission unit 124 is a unit that transmits a signal indicating status confirmation to the monitoring container 12 that monitors the business container 11.

役割決定部121により、自コンテナが、業務コンテナ11を監視する監視コンテナ12を監視する監視コンテナ12として機能することが決定された場合、第2信号送信部124は、所定のタイミングで監視対象の監視コンテナ12に対して生存確認信号を送信する。 When the role determination unit 121 determines that the own container functions as the monitoring container 12 that monitors the monitoring container 12 that monitors the business container 11, the second signal transmission unit 124 is monitored at a predetermined timing. A survival confirmation signal is transmitted to the monitoring container 12.

第2信号送信部124は、生存確認信号を送信すると、送信した旨を第2検知部125へ通知する。 When the second signal transmission unit 124 transmits the survival confirmation signal, the second signal transmission unit 124 notifies the second detection unit 125 of the transmission.

第2検知部125は、第2信号送信部124により送信された信号に対する、監視対象の監視コンテナ12の応答状況に基づいて、監視対象の監視コンテナ12の障害を検知する部分である。 The second detection unit 125 is a part that detects a failure of the monitoring container 12 to be monitored based on the response status of the monitoring container 12 to be monitored to the signal transmitted by the second signal transmission unit 124.

第2検知部125は、第2信号送信部124により、生存確認信号が送信された旨の通知を取得すると、監視対象の監視コンテナ12からの当該生存確認信号に対する応答信号の受付をする。監視対象の監視コンテナ12は、正常に稼働している場合、当該生存確認信号を受信すると、応答信号を当該生存確認信号の送信元へ送信する。 When the second detection unit 125 receives the notification that the survival confirmation signal has been transmitted by the second signal transmission unit 124, the second detection unit 125 receives the response signal to the survival confirmation signal from the monitoring container 12 to be monitored. When the monitoring container 12 to be monitored receives the survival confirmation signal when it is operating normally, it transmits a response signal to the source of the survival confirmation signal.

第2検知部125は、当該応答信号の内容または、当該応答信号の受信状態に基づいて、監視対象の監視コンテナ12の障害を検知する。 The second detection unit 125 detects a failure of the monitoring container 12 to be monitored based on the content of the response signal or the reception state of the response signal.

例えば、第2検知部125は、第2信号送信部124から生存確認信号が送信されてから予め定められている期間内に応答信号が送信されなかった場合、この結果に基づいて、監視対象の監視コンテナ12の障害を検知する。 For example, if the response signal is not transmitted within a predetermined period after the survival confirmation signal is transmitted from the second signal transmission unit 124, the second detection unit 125 is monitored based on this result. Detects a failure of the monitoring container 12.

なお、第2検知部125は、応答信号を受信するタイミングが徐々に遅くなってきている場合に、監視対象の監視コンテナ12の障害を検知するようにしてもよい。これは、監視対象の監視コンテナ12の障害の蓋然性が高いためである。 The second detection unit 125 may detect the failure of the monitoring container 12 to be monitored when the timing of receiving the response signal is gradually delayed. This is because there is a high probability that the monitoring container 12 to be monitored will fail.

第2検知部125は、応答信号を受信した場合、当該応答信号を検知結果出力部126へ送出する。また、第2検知部125は、監視対象の監視コンテナ12の障害を検知した場合、障害を検知した旨を検知結果出力部126へ送出する。なお、第2検知部125は、当該応答信号自体や、当該応答信号に関する情報(応答信号を受信するまでの時間に関する情報)を検知結果出力部126へ送出してもよい。 When the second detection unit 125 receives the response signal, the second detection unit 125 sends the response signal to the detection result output unit 126. When the second detection unit 125 detects a failure of the monitoring container 12 to be monitored, the second detection unit 125 sends a detection result output unit 126 to the effect that the failure has been detected. The second detection unit 125 may send the response signal itself and information on the response signal (information on the time until the response signal is received) to the detection result output unit 126.

検知結果出力部126は、第1検知部123または第2検知部125による検知結果を出力する部分である。 The detection result output unit 126 is a unit that outputs the detection result by the first detection unit 123 or the second detection unit 125.

例えば、検知結果出力部126は、第1検知部123または第2検知部125による検知結果をコントロールサーバ20へ送信する。 For example, the detection result output unit 126 transmits the detection result by the first detection unit 123 or the second detection unit 125 to the control server 20.

なお、検知結果出力部126は、第1検知部123または第2検知部125から取得した応答信号自体や当該応答信号に関する情報を取得して、これらの情報をコントロールサーバ20へ送信してもよい。 The detection result output unit 126 may acquire the response signal itself acquired from the first detection unit 123 or the second detection unit 125 and information on the response signal, and transmit the information to the control server 20. ..

復旧部127は、第1検知部123により監視対象のコンテナである業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする部分である。 The recovery unit 127 is a part that recovers the container environment when a failure of the business container 11 which is a container to be monitored is detected by the first detection unit 123.

復旧部127は、第1検知部123から業務コンテナ11の障害が検知された旨の通知を受けると、障害が発生した業務コンテナ11以外のサーバ10に対して、コンテナ作成要求をして、業務コンテナ11の作成要求をする。この場合、要求先のサーバ10が、業務コンテナ11を作成して、当該業務コンテナ11を稼働させる。このように、復旧部127は、業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする。 When the recovery unit 127 receives a notification from the first detection unit 123 that a failure of the business container 11 has been detected, the recovery unit 127 makes a container creation request to the servers 10 other than the business container 11 in which the failure has occurred, and performs business. Request the creation of container 11. In this case, the request destination server 10 creates the business container 11 and operates the business container 11. In this way, when the failure of the business container 11 is detected, the recovery unit 127 restores the container environment.

<処理手順>
続いて、図3を用いて、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、業務コンテナ11に障害を検知した場合の処理について説明する。
<Processing procedure>
Subsequently, with reference to FIG. 3, the processing when the business container 11 and the monitoring container 12 are monitored by the monitoring container 12 in the present embodiment and a failure is detected in the business container 11 will be described.

図3は、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、業務コンテナ11に障害を検知した場合の処理の流れを示すシーケンス図である。 FIG. 3 is a sequence diagram showing a processing flow when the business container 11 and the monitoring container 12 are monitored by the monitoring container 12 in the present embodiment and a failure is detected in the business container 11.

まず、サーバ10bにおいて、業務コンテナ11が稼働しているものとする(ステップS1)。コントロールサーバ20からリーダ候補の問い合わせを受信すると、役割決定部121は、リーダ立候補を示す信号を他の監視コンテナ12へ送信する。例えば、監視コンテナ12aの役割決定部121は、監視コンテナ12b及び監視コンテナ12cへリーダ立候補を示す信号を送信する(ステップS2、ステップS3)。 First, it is assumed that the business container 11 is running on the server 10b (step S1). Upon receiving the inquiry of the reader candidate from the control server 20, the role determination unit 121 transmits a signal indicating the leader candidacy to the other monitoring container 12. For example, the role determination unit 121 of the monitoring container 12a transmits a signal indicating a leader candidacy to the monitoring container 12b and the monitoring container 12c (steps S2 and S3).

監視コンテナ12aの役割決定部121は、自監視コンテナ12aが最も早くリーダ立候補を示す信号を送信している場合、自監視コンテナ12aを、業務コンテナ11を監視する監視コンテナに決定する。また、監視コンテナ12aの役割決定部121は、監視コンテナ12b及び監視コンテナ12cを、監視コンテナ12aを監視する監視コンテナに決定する。 The role determination unit 121 of the monitoring container 12a determines the self-monitoring container 12a as the monitoring container that monitors the business container 11 when the self-monitoring container 12a is transmitting the signal indicating the leader candidacy earliest. Further, the role determination unit 121 of the monitoring container 12a determines the monitoring container 12b and the monitoring container 12c as the monitoring container that monitors the monitoring container 12a.

監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS4)。 The first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating the existence confirmation of the business container 11, and when the first detection unit 123 receives the response signal from the business container 11, the business container 11 has failed. It is determined that there is no such thing (step S4).

また、監視コンテナ12aの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12b及び監視コンテナ12cへ送信する(ステップS5、ステップS6)。 Further, the role determining unit 121 of the monitoring container 12a transmits a signal indicating the leader continuation statement to the monitoring container 12b and the monitoring container 12c at predetermined intervals (steps S5 and S6).

また、監視コンテナ12bの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12bの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS7)。 Further, the second signal transmission unit 124 of the monitoring container 12b transmits a signal indicating survival confirmation to the monitoring container 12a, and the second detection unit 125 of the monitoring container 12b survives by receiving a response signal from the monitoring container 12a. Confirm (step S7).

また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS8)。 Further, the second signal transmission unit 124 of the monitoring container 12c transmits a signal indicating survival confirmation to the monitoring container 12a, and the second detection unit 125 of the monitoring container 12c survives by receiving a response signal from the monitoring container 12a. Confirm (step S8).

また、監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信する(ステップS9)。なお、ステップS4〜ステップS9の間で、サーバ10bにおいて、障害が発生している。 Further, the first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating the existence confirmation of the business container 11 (step S9). It should be noted that a failure has occurred in the server 10b between steps S4 and S9.

また、監視コンテナ12aの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12b及び監視コンテナ12cへ送信する(ステップS10、ステップS11)。 Further, the role determination unit 121 of the monitoring container 12a transmits a signal indicating the leader continuation statement to the monitoring container 12b and the monitoring container 12c at predetermined intervals (steps S10 and S11).

また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12aから応答信号を受信することで生存確認をする(ステップS12)。 Further, the second signal transmission unit 124 of the monitoring container 12c transmits a signal indicating survival confirmation to the monitoring container 12a, and the second detection unit 125 of the monitoring container 12c survives by receiving a response signal from the monitoring container 12a. Confirmation (step S12).

監視コンテナ12aの第1検知部123は、ステップS9において送信した生存確認を示す信号を送信してから所定期間応答信号が無いので、業務コンテナ11において障害が発生したことを検知する。復旧部127は、これに応じて、サーバ10cに対してコンテナ復旧指示の信号を送信し(ステップS13)、サーバ10cがこれに応じて、業務コンテナの生成(復旧)をする(ステップS14)。 The first detection unit 123 of the monitoring container 12a detects that a failure has occurred in the business container 11 because there is no response signal for a predetermined period after the signal indicating the survival confirmation transmitted in step S9 is transmitted. In response to this, the recovery unit 127 transmits a container recovery instruction signal to the server 10c (step S13), and the server 10c generates (recovers) a business container in response to this (step S14).

ステップS15において、ステップS6と同様にリーダ継続表明し、ステップS16において、ステップS8と同様にリーダ生存確認処理をする。 In step S15, the leader continues to be announced as in step S6, and in step S16, the leader survival confirmation process is performed in the same manner as in step S8.

また、ステップS17において、ステップS6と同様にリーダ継続表明し、ステップS18において、ステップS8と同様にリーダ生存確認処理をする。 Further, in step S17, the leader continuation is announced in the same manner as in step S6, and in step S18, the leader survival confirmation process is performed in the same manner as in step S8.

また、ステップS19において、監視コンテナ12aの第1信号送信部122は、業務コンテナ11の生存確認を示す信号をサーバ10cの業務コンテナ11に送信する(ステップS19)。 Further, in step S19, the first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating the existence confirmation of the business container 11 to the business container 11 of the server 10c (step S19).

続いて、図4を用いて、本実施形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、監視コンテナ12に障害を検知した場合の処理について説明する。図4は、本実施の形態における監視コンテナ12による業務コンテナ11及び監視コンテナ12を監視し、監視コンテナ12に障害を検知した場合の処理の流れを示すシーケンス図である。 Subsequently, with reference to FIG. 4, the processing when the business container 11 and the monitoring container 12 by the monitoring container 12 in the present embodiment are monitored and a failure is detected in the monitoring container 12 will be described. FIG. 4 is a sequence diagram showing a processing flow when the business container 11 and the monitoring container 12 are monitored by the monitoring container 12 in the present embodiment and a failure is detected in the monitoring container 12.

ステップS31〜ステップS38は、図3に示したシーケンス図のステップS1〜ステップS8と同様のため、説明を省略する。 Since steps S31 to S38 are the same as steps S1 to S8 in the sequence diagram shown in FIG. 3, description thereof will be omitted.

ステップS39では、ステップS34と同様に、監視コンテナ12aの第1信号送信部122が、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS39)。 In step S39, similarly to step S34, the first signal transmission unit 122 of the monitoring container 12a transmits a signal indicating the existence confirmation of the business container 11, and the first detection unit 123 receives the response signal from the business container 11. If so, it is determined that the business container 11 has not failed (step S39).

ステップS40〜ステップS43は、ステップS35〜ステップS38と同様に、リーダ継続表明及びリーダ生存確認処理をする。 In steps S40 to S43, the leader continuation statement and the leader survival confirmation process are performed in the same manner as in steps S35 to S38.

ステップS43の後に、サーバ10aにおいて、障害が発生する。この後で、サーバ10b及びサーバ10cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12aへ送信する(ステップS44、ステップS45)。 After step S43, a failure occurs in the server 10a. After that, the server 10b and the second signal transmission unit 124 of the server 10c transmit a signal indicating survival confirmation to the monitoring container 12a (step S44, step S45).

サーバ10b及びサーバ10cの第2検知部125は、第2信号送信部124により生存確認を示す信号を送信してから待機期間(ステップS46)を経過すると、監視コンテナ12aにおいて障害が発生したことを検知する。 The second detection unit 125 of the server 10b and the server 10c indicates that a failure has occurred in the monitoring container 12a when the waiting period (step S46) elapses after the second signal transmission unit 124 transmits the signal indicating the survival confirmation. Detect.

これに応じて、監視コンテナ12bの役割決定部121は、リーダ立候補を示す信号を監視コンテナ12cへ送信し、監視コンテナ12bを、業務コンテナ11を監視する監視コンテナに決定する(ステップS47)。 In response to this, the role determination unit 121 of the monitoring container 12b transmits a signal indicating the leader candidacy to the monitoring container 12c, and determines the monitoring container 12b as the monitoring container that monitors the business container 11 (step S47).

監視コンテナ12bの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS48)。 The first signal transmission unit 122 of the monitoring container 12b transmits a signal indicating the existence confirmation of the business container 11, and when the first detection unit 123 receives the response signal from the business container 11, the business container 11 has failed. It is determined that there is no such thing (step S48).

また、監視コンテナ12bの役割決定部121は、所定期間毎にリーダ継続表明を示す信号を監視コンテナ12cへ送信する(ステップS49)。また、監視コンテナ12cの第2信号送信部124は、生存確認を示す信号を監視コンテナ12bへ送信し、監視コンテナ12cの第2検知部125は、監視コンテナ12bから応答信号を受信することで生存確認をする(ステップS50)。 Further, the role determination unit 121 of the monitoring container 12b transmits a signal indicating the leader continuation statement to the monitoring container 12c at predetermined intervals (step S49). Further, the second signal transmission unit 124 of the monitoring container 12c transmits a signal indicating survival confirmation to the monitoring container 12b, and the second detection unit 125 of the monitoring container 12c survives by receiving a response signal from the monitoring container 12b. Confirmation (step S50).

また、監視コンテナ12bの第1信号送信部122は、業務コンテナ11の生存確認を示す信号を送信し、第1検知部123が、業務コンテナ11から応答信号を受信した場合、業務コンテナ11が障害していないと判断する(ステップS51)。 Further, the first signal transmission unit 122 of the monitoring container 12b transmits a signal indicating the existence confirmation of the business container 11, and when the first detection unit 123 receives the response signal from the business container 11, the business container 11 fails. It is determined that this has not been done (step S51).

続いて、監視状況の画面の例について、図5を用いて説明する。図5は、監視状況の画面例を説明する図である。 Subsequently, an example of the monitoring status screen will be described with reference to FIG. FIG. 5 is a diagram illustrating a screen example of the monitoring status.

図5の画面は、例えば、コントロールサーバ20が、検知結果出力部126から取得した情報に基づいて生成した画面である。 The screen of FIG. 5 is, for example, a screen generated by the control server 20 based on the information acquired from the detection result output unit 126.

図5の例では、サーバ3台を管理していることが示されている。具体的に、ノード名が「Worker#1」であるサーバは、識別子が監視コンテナM1である監視コンテナを有する。また、ノード名が「Worker#2」であるサーバは、識別子が業務コンテナC1である業務コンテナと、識別子が監視コンテナM2である監視コンテナを有する。また、ノード名が「Worker#3」であるサーバは、識別子が業務コンテナC2である業務コンテナと、識別子が監視コンテナM3である監視コンテナを有する。 In the example of FIG. 5, it is shown that three servers are managed. Specifically, the server whose node name is "Worker # 1" has a monitoring container whose identifier is the monitoring container M1. Further, the server whose node name is "Worker # 2" has a business container whose identifier is the business container C1 and a monitoring container whose identifier is the monitoring container M2. Further, the server whose node name is "Worker # 3" has a business container whose identifier is the business container C2 and a monitoring container whose identifier is the monitoring container M3.

図5の例では、監視コンテナM1が、業務コンテナC1及び業務コンテナC2を監視し、監視コンテナM2及び監視コンテナM3が、監視コンテナM1を監視することが示されている。 In the example of FIG. 5, it is shown that the monitoring container M1 monitors the business container C1 and the business container C2, and the monitoring container M2 and the monitoring container M3 monitor the monitoring container M1.

また、「HealthCheck Response Time」では、業務コンテナC1及び業務コンテナC2の生存確認を示す信号に対するレスポンスタイムのグラフを示している。 Further, in the "HealthCheck Response Time", a graph of the response time to the signal indicating the existence confirmation of the business container C1 and the business container C2 is shown.

また、「Message Count」では、メッセージのレベル毎(Info、Warn、Error)のメッセージ数の推移を示している。 In addition, "Message Count" shows the transition of the number of messages for each message level (Info, Warn, Error).

また、詳細欄D1では、メッセージを送信した業務コンテナ、メッセージの送信日、メッセージの送信時刻、メッセージのレベル、当該業務コンテナの所属ノード、具体的なメッセー内容を示している。 Further, the detail column D1 indicates the business container to which the message was sent, the message transmission date, the message transmission time, the message level, the node to which the business container belongs, and the specific message content.

上述の実施形態では、監視コンテナ12が、役割決定部121を有する場合について述べたが、コントロールサーバ20が、役割決定部121を有するようにしてもよい。 In the above-described embodiment, the case where the monitoring container 12 has the role determination unit 121 has been described, but the control server 20 may have the role determination unit 121.

上述の実施形態では、役割決定部121が、動的にリーダを決定する場合について述べたが、予め固定してリーダを決定していてもよい。 In the above-described embodiment, the case where the role determining unit 121 dynamically determines the leader has been described, but the leader may be fixed in advance.

監視コンテナ12が、第1信号送信部122、第1検知部123、第2信号送信部124、及び第2検知部125を有する場合について述べたが、これに限られず、予めリーダであるか否か決まっている場合、全て有していなくてもよい。 The case where the monitoring container 12 has the first signal transmission unit 122, the first detection unit 123, the second signal transmission unit 124, and the second detection unit 125 has been described, but the present invention is not limited to this, and whether or not the monitoring container 12 is a reader in advance. If it is decided, you do not have to have all of them.

<作用効果>
上述の分散型コンテナ監視システム1における、業務コンテナを監視する監視コンテナ12(上述の実施例における監視コンテナ12a)では、第1信号送信部122が、監視対象のコンテナである業務コンテナ11に対して状況確認を示す信号を送信し、第1検知部123が、第1信号送信部122により送信された信号に対する業務コンテナ11の応答状況に基づいて、業務コンテナ11の障害を検知する。
<Effect>
In the monitoring container 12 (monitoring container 12a in the above embodiment) that monitors the business container in the above-mentioned distributed container monitoring system 1, the first signal transmission unit 122 with respect to the business container 11 that is the container to be monitored. A signal indicating status confirmation is transmitted, and the first detection unit 123 detects a failure of the business container 11 based on the response status of the business container 11 to the signal transmitted by the first signal transmission unit 122.

また、当該業務コンテナを監視する監視コンテナ12を監視する監視コンテナ12(上述の実施例における監視コンテナ12c)では、第2信号送信部124が、監視コンテナ12aに対して状況確認を示す信号を送信し、第2検知部125が、第2信号送信部124により送信された信号に対する監視コンテナ12aの応答状況に基づいて、監視コンテナ12aの障害を検知する。 Further, in the monitoring container 12 (monitoring container 12c in the above-described embodiment) that monitors the monitoring container 12 that monitors the business container, the second signal transmission unit 124 transmits a signal indicating status confirmation to the monitoring container 12a. Then, the second detection unit 125 detects the failure of the monitoring container 12a based on the response status of the monitoring container 12a to the signal transmitted by the second signal transmission unit 124.

この場合、分散型コンテナ監視システム1では、業務コンテナ11を監視する監視コンテナ12をさらに監視するので、業務コンテナ11を監視する監視コンテナ12に障害が発生したとしても、速やかに障害に対応することができる。すなわち、より適切に障害監視することができる。また、上述の実施形態の分散型コンテナ監視システム1では、ブロックチェーンを用いることなく、サーバ資源を最大限有効活用し、より単純な実装で障害監視することができる。 In this case, since the distributed container monitoring system 1 further monitors the monitoring container 12 that monitors the business container 11, even if a failure occurs in the monitoring container 12 that monitors the business container 11, the failure should be dealt with promptly. Can be done. That is, fault monitoring can be performed more appropriately. Further, in the distributed container monitoring system 1 of the above-described embodiment, it is possible to make maximum effective use of server resources and monitor failures with a simpler implementation without using a blockchain.

また、役割決定部121は、監視コンテナ12のそれぞれが、業務コンテナ11を監視する監視コンテナ12として機能するか、業務コンテナ11を監視する監視コンテナ12を監視する監視コンテナ12として機能するかを決定する。 Further, the role determination unit 121 determines whether each of the monitoring containers 12 functions as a monitoring container 12 that monitors the business container 11 or a monitoring container 12 that monitors the monitoring container 12 that monitors the business container 11. To do.

このように、分散型コンテナ監視システム1では、役割決定部121が、複数の監視コンテナ12の役割分担をすることで、動的に役割分担することができる。 As described above, in the distributed container monitoring system 1, the role determination unit 121 can dynamically divide the roles by dividing the roles of the plurality of monitoring containers 12.

また、役割決定部121は、第2検知部125により、業務コンテナ11を監視する監視コンテナ12の障害が検知された場合、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12として機能させる。 Further, when the second detection unit 125 detects a failure of the monitoring container 12 that monitors the business container 11, the role determination unit 121 functions as another monitoring container 12 as a monitoring container 12 that monitors the business container 11. Let me.

このように、分散型コンテナ監視システム1は、業務コンテナ11を監視する監視コンテナ12の障害を検知して、他の監視コンテナ12を、業務コンテナ11を監視する監視コンテナ12とすることで、継続して、適切に業務コンテナ11を監視し続けることができる。 In this way, the distributed container monitoring system 1 detects the failure of the monitoring container 12 that monitors the business container 11, and sets the other monitoring container 12 as the monitoring container 12 that monitors the business container 11 to continue. Then, the business container 11 can be continuously monitored appropriately.

また、復旧部127は、第1検知部123により監視対象のコンテナである業務コンテナ11の障害が検知された場合、コンテナ環境の復旧処理をする。これにより、分散型コンテナ監視システム1では、業務コンテナ11を適切に障害復旧することができる。また、業務コンテナ11を実行するアプリケーションによっては、アプリケーション自身の機能で復旧することもできるが、復旧部127によれば、それに依存することなく障害復旧することができる。 Further, when the recovery unit 127 detects a failure of the business container 11 which is a container to be monitored by the first detection unit 123, the recovery unit 127 performs a restoration process of the container environment. As a result, in the distributed container monitoring system 1, the business container 11 can be appropriately recovered from the failure. Further, depending on the application that executes the business container 11, it is possible to recover by the function of the application itself, but according to the recovery unit 127, it is possible to recover from the failure without depending on it.

以上、本発明者によってなされた発明を実施の形態に基づき具体的に説明したが、本発明は上記の実施の形態に限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能であることはいうまでもない。例えば、上記の実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施の形態の構成の一部を他の実施の形態の構成に置き換えることが可能であり、また、ある実施の形態の構成に他の実施の形態の構成を加えることも可能である。また、各実施の形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。 Although the invention made by the present inventor has been specifically described above based on the embodiments, the present invention is not limited to the above embodiments and can be variously modified without departing from the gist thereof. Needless to say. For example, the above-described embodiment has been described in detail in order to explain the present invention in an easy-to-understand manner, and is not necessarily limited to the one including all the described configurations. It is also possible to replace a part of the configuration of one embodiment with the configuration of another embodiment, and it is also possible to add the configuration of another embodiment to the configuration of one embodiment. .. Further, it is possible to add / delete / replace other configurations with respect to a part of the configurations of each embodiment.

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば、集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリやハードディスク、SSD(Solid State Drive)等の記録装置、またはICカード、SDカード、DVD等の記録媒体に置くことができる。 Further, each of the above configurations, functions, processing units, processing means and the like may be realized by hardware by designing a part or all of them by, for example, an integrated circuit. Further, each of the above configurations, functions, and the like may be realized by software by the processor interpreting and executing a program that realizes each function. Information such as programs, tables, and files that realize each function can be placed in a memory, a hard disk, a recording device such as an SSD (Solid State Drive), or a recording medium such as an IC card, an SD card, or a DVD.

また、上記の各図において、制御線や情報線は説明上必要と考えられるものを示しており、必ずしも実装上の全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。 Further, in each of the above figures, the control lines and information lines are shown as necessary for explanation, and not all the control lines and information lines in the implementation are necessarily shown. In practice, it can be considered that almost all configurations are interconnected.

本発明は、監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムに利用可能である。 The present invention can be used in a distributed container monitoring system that monitors the operating status of a container to be monitored.

1…分散型コンテナ監視システム、10…サーバ、11…業務コンテナ、12…監視コンテナ、121…役割決定部、122…第1信号送信部、123…第1検知部、
124…第2信号送信部、125…第2検知部、126…検知結果出力部、127…復旧部。
1 ... Distributed container monitoring system, 10 ... Server, 11 ... Business container, 12 ... Monitoring container, 121 ... Role determination unit, 122 ... First signal transmission unit, 123 ... First detection unit,
124 ... 2nd signal transmission unit, 125 ... 2nd detection unit, 126 ... detection result output unit, 127 ... recovery unit.

Claims (5)

監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムであって、
前記監視対象のコンテナを監視する第1の監視コンテナと、
前記第1の監視コンテナを監視する第2の監視コンテナと、を備え、
前記第1の監視コンテナは、
前記監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信部と、
前記第1信号送信部により送信された信号に対する前記監視対象のコンテナの応答状況に基づいて、前記監視対象のコンテナの障害を検知する第1検知部と、を有し、
前記第2の監視コンテナは、
前記第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信部と、
前記第2信号送信部により送信された信号に対する前記第1の監視コンテナの応答状況に基づいて、前記第1の監視コンテナの障害を検知する第2検知部と、を有する、
分散型コンテナ監視システム。
A distributed container monitoring system that monitors the operating status of monitored containers.
The first monitoring container that monitors the monitored container and
A second monitoring container that monitors the first monitoring container is provided.
The first monitoring container is
A first signal transmission unit that transmits a signal indicating status confirmation to the container to be monitored, and
It has a first detection unit that detects a failure of the monitoring target container based on the response status of the monitoring target container to a signal transmitted by the first signal transmission unit.
The second monitoring container is
A second signal transmission unit that transmits a signal indicating status confirmation to the first monitoring container, and
It has a second detection unit that detects a failure of the first monitoring container based on the response status of the first monitoring container to a signal transmitted by the second signal transmission unit.
Distributed container monitoring system.
請求項1に記載の分散型コンテナ監視システムであって、
前記監視対象のコンテナを監視可能なコンテナである監視コンテナを複数有し、
前記監視コンテナのそれぞれが、前記第1の監視コンテナとして機能するか、前記第2の監視コンテナとして機能するかを決定する役割決定部をさらに有する、
分散型コンテナ監視システム。
The distributed container monitoring system according to claim 1.
It has a plurality of monitoring containers that can monitor the monitored container.
Each of the monitoring containers further has a role-determining unit that determines whether to function as the first monitoring container or the second monitoring container.
Distributed container monitoring system.
請求項2に記載の分散型コンテナ監視システムであって、
前記役割決定部は、前記第2検知部により前記第1の監視コンテナの障害が検知された場合、他の監視コンテナを第1の監視コンテナとして機能させる、
分散型コンテナ監視システム。
The distributed container monitoring system according to claim 2.
When the failure of the first monitoring container is detected by the second detection unit, the role determining unit causes another monitoring container to function as the first monitoring container.
Distributed container monitoring system.
請求項1または2に記載の分散型コンテナ監視システムであって、
前記第1の監視コンテナは、
前記第1検知部により前記監視対象のコンテナの障害が検知された場合、コンテナ環境の復旧処理をする復旧部をさらに有する、
分散型コンテナ監視システム。
The distributed container monitoring system according to claim 1 or 2.
The first monitoring container is
When the failure of the container to be monitored is detected by the first detection unit, it further has a recovery unit that performs restoration processing of the container environment.
Distributed container monitoring system.
監視対象のコンテナの稼働状況を監視する分散型コンテナ監視システムで実行する分散型コンテナ監視方法であって、
前記監視対象のコンテナを監視する第1の監視コンテナと、
前記第1の監視コンテナを監視する第2の監視コンテナと、を有し、
前記第1の監視コンテナでは、
前記監視対象のコンテナに対して状況確認を示す信号を送信する第1信号送信ステップと、
前記第1信号送信ステップで送信した信号に対する前記監視対象のコンテナの応答状況に基づいて、前記監視対象のコンテナの障害を検知する第1検知ステップと、を含み、
前記第2の監視コンテナでは、
前記第1の監視コンテナに対して状況確認を示す信号を送信する第2信号送信ステップと、
前記第2信号送信ステップで送信した信号に対する前記第1の監視コンテナの応答状況に基づいて、前記第1の監視コンテナの障害を検知する第2検知ステップと、を含む、
分散型コンテナ監視方法。
It is a distributed container monitoring method executed by a distributed container monitoring system that monitors the operating status of the monitored container.
The first monitoring container that monitors the monitored container and
It has a second monitoring container that monitors the first monitoring container, and
In the first monitoring container,
The first signal transmission step of transmitting a signal indicating status confirmation to the monitored container, and
A first detection step of detecting a failure of the monitored container based on the response status of the monitored container to the signal transmitted in the first signal transmission step is included.
In the second monitoring container,
A second signal transmission step of transmitting a signal indicating status confirmation to the first monitoring container, and
A second detection step of detecting a failure of the first monitoring container based on the response status of the first monitoring container to the signal transmitted in the second signal transmission step is included.
Distributed container monitoring method.
JP2019125791A 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD Active JP7311335B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019125791A JP7311335B2 (en) 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019125791A JP7311335B2 (en) 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD

Publications (2)

Publication Number Publication Date
JP2021012498A true JP2021012498A (en) 2021-02-04
JP7311335B2 JP7311335B2 (en) 2023-07-19

Family

ID=74227473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019125791A Active JP7311335B2 (en) 2019-07-05 2019-07-05 DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD

Country Status (1)

Country Link
JP (1) JP7311335B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7552433B2 (en) 2021-02-25 2024-09-18 富士通株式会社 CONTAINER MANAGEMENT METHOD AND CONTAINER MANAGEMENT PROGRAM

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282601A (en) * 2008-05-20 2009-12-03 Nec System Technologies Ltd Operation monitoring program, monitoring system, and monitoring method
JP2017083935A (en) * 2015-10-23 2017-05-18 日本電気株式会社 Information processor, cluster system, clustering method, and program
JP2018067332A (en) * 2011-07-26 2018-04-26 オラクル・インターナショナル・コーポレイション System and method for cloud computing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282601A (en) * 2008-05-20 2009-12-03 Nec System Technologies Ltd Operation monitoring program, monitoring system, and monitoring method
JP2018067332A (en) * 2011-07-26 2018-04-26 オラクル・インターナショナル・コーポレイション System and method for cloud computing
JP2017083935A (en) * 2015-10-23 2017-05-18 日本電気株式会社 Information processor, cluster system, clustering method, and program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7552433B2 (en) 2021-02-25 2024-09-18 富士通株式会社 CONTAINER MANAGEMENT METHOD AND CONTAINER MANAGEMENT PROGRAM

Also Published As

Publication number Publication date
JP7311335B2 (en) 2023-07-19

Similar Documents

Publication Publication Date Title
RU2644146C2 (en) Method, device and control system of fault processing
US8910172B2 (en) Application resource switchover systems and methods
JP5851503B2 (en) Providing high availability for applications in highly available virtual machine environments
US9189316B2 (en) Managing failover in clustered systems, after determining that a node has authority to make a decision on behalf of a sub-cluster
US8726274B2 (en) Registration and initialization of cluster-aware virtual input/output server nodes
US20150067387A1 (en) Method and apparatus for data storage
US10819641B2 (en) Highly available servers
JP2014197266A (en) Information processing system, information processor, control program of information processor, and method for controlling information processing system
EP3301576A1 (en) Method and apparatus for monitoring logs of multi-tenant systems
US20050234919A1 (en) Cluster system and an error recovery method thereof
JP7311335B2 (en) DISTRIBUTED CONTAINER MONITORING SYSTEM AND DISTRIBUTED CONTAINER MONITORING METHOD
US11544091B2 (en) Determining and implementing recovery actions for containers to recover the containers from failures
US20120023379A1 (en) Storage device, storage system, and control method
US8738959B2 (en) Selective message loss handling in a cluster of replicated servers
US8234345B2 (en) Preserving a messaging service in a highly available environment
JP7181467B2 (en) Control method, control program, and information processing device
US8036105B2 (en) Monitoring a problem condition in a communications system
JP2018169920A (en) Management device, management method and management program
JP2018097435A (en) Parallel processing apparatus and inter-node communication program
KR101883251B1 (en) Apparatus and method for determining failover in virtual system
JP2019212046A (en) Control program, control method, and information processing device
JP7010986B2 (en) Network management system, network management device, and network management method
WO2023275983A1 (en) Virtualization system failure separation device and virtualization system failure separation device method
JP6760888B2 (en) Redundant system and hardware failure detection method
KR102153622B1 (en) Scalable network connected storage apparatus and method for handling fault

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220610

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230526

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230704

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230706

R151 Written notification of patent or utility model registration

Ref document number: 7311335

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151