CN111052092A

CN111052092A - 集群系统、集群系统控制方法、服务器设备、控制方法和存储程序的非暂时性计算机可读介质

Info

Publication number: CN111052092A
Application number: CN201880057294.8A
Authority: CN
Inventors: 大泽良介
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2017-09-06
Filing date: 2018-05-17
Publication date: 2020-04-21
Anticipated expiration: 2038-05-17
Also published as: EP3680780A1; EP3680780A4; JP6866927B2; WO2019049433A1; CN111052092B; EP3680780B1; JPWO2019049433A1; US20200186410A1; US11223515B2

Abstract

本公开是为了更可靠地确定现用系统服务器是否适当地向客户端提供服务。一种集群系统(1)，其包括：现用系统服务器(2)，其通过网络(4)向客户端设备提供预定服务；以及备用系统服务器(3)，其在现用系统服务器(2)中发生异常时代替现用系统服务器(2)向客户端设备提供预定服务。备用系统服务器(3)包括监视单元(6)，其通过网络(4)访问由现用系统服务器(2)提供的预定服务以监视预定服务是否能正常访问。现用系统服务器(2)包括集群控制单元(5)，其在备用系统服务器(3)的监视单元(6)确定由现用系统服务器(2)提供的预定服务不能正常访问时执行故障转移。

Description

集群系统、集群系统控制方法、服务器设备、控制方法和存储程序的非暂时性计算机可读介质

技术领域

本发明涉及集群系统、集群系统控制方法、服务器设备、控制方法和存储程序的非暂时性计算机可读介质。

背景技术

作为提高系统可用性的技术，高可用性(HA)集群系统已被使用。例如，专利文献1公开了集群系统，其包括响应于来自客户端的处理请求而执行处理操作的运用系统设备、当运用系统设备故障时接管该处理操作的备用系统设备、连接运用系统设备与备用系统设备和客户端的局域网(LAN)以及连接运用设备和备用系统设备的连接路径。

通常，HA集群系统包括提供诸如商业服务的预定服务的现用系统服务器以及当发生故障时接管提供服务的备用系统服务器。构成集群的运行服务器相互监视相互通信是否被执行。即这种监视由心跳(heartbeat)执行。除此之外，现用系统服务器监视其自己的服务器是否正常提供服务，并且备用系统服务器也监视其自己的服务器是否正常接管服务。

引用列表

专利文献

日本未审查专利申请公开No.H11-338725

发明内容

技术问题

现用系统服务器通过在监视其自己的服务器时结合例如磁盘监视、网络接口卡(NIC)监视、公共LAN监视和对特定服务的监视(对超文本传输协议(HTTP)的协议监视)以确定其自己的服务器是否适当地提供了服务。然而，此确定由现用系统服务器自身来执行，并且不能确保通过公共LAN向外部客户端提供了服务。

考虑到上述问题，本发明的目的是提供能够可靠地确定现用系统服务器是否适当地向客户端提供了服务的集群系统、集群系统方法、服务器设备、控制方法和存储程序的非暂时性计算机可读介质。

技术解决方案

根据本发明一方面的集群系统包括通过网络向客户端设备提供预定服务的现用系统服务器设备，以及当现用系统服务器设备发生异常时，代替现用系统服务器设备向客户端设备提供预定服务的备用系统服务器设备，其中备用系统服务器设备包括第一监视装置，该第一监视装置用于通过网络访问由现用系统服务器设备提供的预定服务以监视预定服务是否可以正常访问，并且现用系统服务器设备包括集群控制装置，该集群控制装置用于当备用系统服务器设备的第一监视装置确定由现用系统服务器设备提供的预定服务不能正常访问时执行故障转移(failover)。

根据本发明一方面的集群系统控制方法包括由现用系统服务器设备通过网络向客户端设备提供预定服务，通过与现用系统服务器设备一起构成集群系统的备用系统服务器设备通过网络来访问由现用系统服务器设备提供的预定服务以监视预定服务是否可以正常访问，并且当备用系统服务器设备确定由现用系统服务器设备提供的预定服务不能正常访问时，由现用系统服务器设备执行故障转移。

根据本发明一方面的服务器设备包括：服务提供装置，该服务提供装置用于通过网络向客户端设备提供预定服务，以及集群控制装置，该集群控制装置用于获取从通过网络访问由服务提供装置提供的预定服务的备用系统服务器设备发送的监视结果以监视预定服务是否可以正常访问的集群控制装置，并且用于当监视结果表明从备用系统服务器设备不能正常访问预定服务时执行故障转移，其中当执行故障转移时，备用系统服务器设备接管向客户端设备提供预定服务。

根据本发明一方面的控制方法包括通过网络向客户端设备提供预定服务，并获取从备用系统服务器设备发送的监视结果，该备用系统服务器设备通过网络访问预定服务以监视预定服务是否可以正常访问，并当监视结果表明从备用系统服务器设备不能正常访问预定服务时执行故障转移，其中当执行故障转移时，备用系统服务器设备接管向客户端设备提供预定服务。

根据本发明一方面的程序使计算机执行服务提供步骤以及集群控制步骤，该服务提供步骤通过网络向客户端设备提供预定服务，该集群控制步骤获取从通过网络访问由处理服务提供步骤提供的预定服务的备用系统服务器设备发送的监视结果以监视预定服务是否可以正常访问，并当监视结果表明从备用系统服务器设备不能正常访问预定服务时执行故障转移，其中当执行故障转移时，备用系统服务器设备接管向客户端设备提供预定服务。

有利效果

根据本发明，可以提供能够可靠地确定现用系统服务器适当地向客户端提供了服务的集群系统、集群系统方法、服务器设备、控制方法和存储程序的非暂时性计算机可读介质。

附图说明

图1是示出根据示例实施例概述的集群系统的配置的示例的框图。

图2是示出根据示例实施例的集群系统的功能配置的示例的框图。

图3是示出根据示例实施例的构成集群系统的每一个服务器的硬件配置的示例的框图。

图4是示出当集群系统启动提供商业服务时操作示例的序列图。

图5是示出当备用系统服务器检测到商业服务的异常时集群系统的操作示例的序列图。

图6是示出当集群系统中的一个备用系统服务器发生异常时的操作示例的序列图。

图7是示出当集群系统中的全部备用系统服务器发生异常时的操作示例的序列图。

图8是示出根据示例实施例的服务器设备的配置的示例的框图。

具体实施方式

为清楚起见，以下描述和附图适当省略和简化。在附图中，相同元素由相同参考标记表示，并且根据需要省略重复描述。

示例实施例概述

在描述示例实施例前，描述根据本发明的示例实施例概述。图1是示出根据示例实施例概述的集群系统1的配置的示例的框图。如图1所示，集群系统1包括现用系统服务器2、备用系统服务器3和网络4。

现用系统服务器2是通过网络4向客户端设备(未显示)提供预定服务的服务器设备。即客户端设备通过网络4访问由现用系统服务器2提供的预定服务。

备用系统服务器3是当现用系统服务器2发生异常时代替现用系统服务器2向客户端设备提供预定服务的服务器设备。

备用系统服务器3包括监视单元6(监视装置)，并且现用系统服务器2包括集群控制单元5(集群控制装置)。监视单元6通过网络4访问由现用系统服务器2提供的预定服务，以监视预定服务是否可以正常访问。即监视单元6类似于客户端设备通过网络4访问现用系统服务器2。当备用系统服务器3的监视单元6确定由现用系统服务器2提供的预定服务不能正常访问时，集群控制单元5执行故障转移。例如，集群控制单元5执行故障转移以使备用服务器3接管提供预定服务。

通常，为了使现用系统服务器自身监视服务，使用回送地址。因此，通过在服务器中关闭的通信处理来执行监视。为此原因，无法由客户端设备实际使用的网络通过使用特定端口号的通信来确认服务是否可以访问。此外，可以使用ping(互联网控制消息协议(ICMP))确认与连接到服务器的网络设备的通信，但是当由于外部网络设备故障、操作系统(OS)的错误、防火墙的错误配置等未能使用特定端口号执行外部通信时，检测异常是困难的。为此原因，无法可靠地确定是否向客户端设备提供了服务。尽管可以通过引入用于监视服务的操作管理软件和操作管理服务器来更可靠地执行确定，但是这样需要引入和操作成本。

相反，在集群系统1中，备用系统服务器3通过客户端设备用于访问服务的网络4访问由现用系统服务器2提供的服务，以便监视现用系统服务器2是否提供了服务。因此，可以类似于实际接收服务的客户端设备通过访问服务来监视是否提供了服务。

因此，使用集群系统1可以更可靠地确定现用系统服务器是否向客户端设备适当地提供了服务。此外，由于使用备用系统服务器3执行监视，因此没有必要准备新的用于监视服务的操作管理服务器和引入用于监视服务的操作管理软件，并且可以减低引入和操作成本。

【第一示例实施例】

在下文中，描述本发明的示例实施例。图2是示出根据示例实施例的集群系统10的功能配置的示例的框图。图3是示出构成集群系统10的每一个服务器的硬件配置的示例的框图。

如图2所示，根据本示例实施例的集群系统10包括现用系统服务器100A、备用系统服务器100B、备用系统服务器100C、网络200和网络300。现用系统服务器100A和备用系统服务器100B以及100C分别包括集群件110A、110B和110C，并通过经由网络200和300相互通信构成HA集群系统。在下面的描述中，构成集群系统10的服务器可以没有区别地被称为服务器100。

现用系统服务器100A对应图1中的现用系统服务器2，并通过网络200向客户端提供商业服务。备用系统服务器100B和100C对应图1中的备用系统服务器3，并且当现用系统服务器100A发生异常时，代替现用系统服务器100A向客户端提供商业服务。即当执行故障转移时，备用系统服务器100B和100C接管向客户端提供商业服务。

如图2所示，现用系统服务器100A包括商业服务提供单元120A和集群件110A。集群件110A包括商业服务控制单元111A、其它服务器监视单元112A、自服务器监视单元113A和集群控制单元114A。备用系统服务器100B和100C均具有与现用系统服务器100A类似的配置。即备用系统服务器100B包括商业服务提供单元120B和包括商业服务控制单元111B、其它服务器监视单元112B、自服务器监视单元113B和集群控制单元114B的集群件110B。备用系统服务器100C包括商业服务提供单元120C和包括商业服务控制单元111C、其它服务器监视单元112C、自服务器监视单元113C和集群控制单元114C的集群件110C。

注意，商业服务提供单元120A、120B和120C可以没有区别地被称为商业服务提供单元120。集群件110A、110B和110C可以没有区别地被称为集群件110。商业服务控制单元111A、111B和111C可以没有区别地被称为商业服务控制单元111。其它服务器监视单元112A、112B和112C可以没有区别地被称为其它服务器监视单元112。自服务器监视单元113A、113B和113C可以没有区别地被称为自服务器监视单元113。集群控制单元114A、114B和114C可以没有区别地被称为集群控制单元114。

这里，参考图3示出了每个服务器100的硬件配置的示例。每个服务器100包括网络接口151、存储器152和处理器153。

网络接口151用于通过网络200或网络300与其它设备进行通信。例如网络接口151可以包括网络接口卡(NIC)。

存储器152由易失性存储器和非易失性存储器组合构成。存储器152可以包括在处理器153之外布置的存储。在这种情况下，处理器153可以通过输入/输出接口(未显示)访问存储器152。

存储器152用于存储将由处理器153处理的软件(计算机程序)等。

此程序可以存储在任何类型的非暂时性计算机可读介质中并提供给计算机。非暂时性计算机可读介质包括任何类型的有形存储介质。例如，非暂时性计算机可读介质包括诸如软盘、磁带或硬盘驱动器的磁记录介质、诸如磁光盘、光盘只读存储器(CD-ROM)、CD-R、CD-R/W的磁光记录介质和诸如掩膜ROM、可编程ROM(PROM)、可擦PROM(EPROM)和闪速ROM或者随机存取存储器(RAM)的半导体存储器。替换地，可以将程序提供给具有任何类型的暂时性计算机可读介质的计算机。例如，暂时性计算机可读介质包括电信号、光信号和电磁波。暂时性计算机可读介质可以通过诸如电缆、光纤等有线通信信道或者无线电通信信道将程序提供给计算机。

处理器153通过从存储器152加载计算机程序并处理该计算机程序来执行商业服务提供单元120的处理、集群件110的处理和其它处理。例如，处理器153可以是微处理器、MPU或者CPU。处理器153可以包括多个处理器。

网络200是公共LAN，并用于在服务器100和外部客户端之间通信。即网络200作为网络路径用于向外部客户端提供商业服务。

网络300是互连LAN，并用于在服务器100之间通信，但是不用于与外部客户端通信。考虑到避免对商业服务和安全的影响，网络300被用于集群系统10中的专用线路。网络300被用于在集群系统10中的内部通信，诸如处理请求、服务器100之间的心跳(生死监视(life-and-death monitoring))和商业数据的同步。

如上所述，网络200是与用于在现用系统和备用系统中的服务器100之间执行生死监视的网络300不同的网络。

下面，描述图2所示的每一个服务器100的配置。

商业服务提供单元120响应于访问而通过网络200提供预定商业服务。即商业服务提供单元120(服务提供装置)通过网络200向客户端设备提供预定服务。注意，商业服务提供单元120是在现用系统中的服务器100中操作的模块。因此，商业服务控制单元111A在现用系统服务器100A中进行操作，但是商业服务控制单元111B和111C不在备用系统服务器100B和100C中进行操作。

集群控制单元114对应于图1中的集群控制单元5，并且与其它服务器的集群控制单元114协作，以各种方式执行用于获取集群系统10的可用性的控制。集群控制单元114通过心跳、故障转移等执行其它服务器100的生死监视。集群控制单元114还通过其它服务器监视单元112通知其它服务器100监视结果，并且在服务器100之间同步监视结果。注意，服务器100之间同步的商业服务的监视结果用于确定商业服务是否被正常提供并且作为显示信息用于服务器100的集群管理图形用户界面(GUI)。集群控制单元114的其它处理将与集群系统10的操作一起描述。

商业服务控制单元111控制商业服务提供单元120的启动和终止。在本示例实施例中，商业服务控制单元111响应于来自集群控制单元114的启动请求而控制启动商业服务提供单元120，并且响应于来自集群控制单元114的终止请求而控制终止商业服务提供单元120。例如，即商业服务控制单元111A响应于来自集群控制单元114A的启动请求而控制启动商业服务提供单元120A，并且响应于来自集群控制单元114A的终止请求而控制终止商业服务提供单元120A。

自服务器监视单元113(监视装置)监视自服务器的磁盘、NIC等的状态。当通过监视检测到故障时，自服务器监视单元113将异常通知集群控制单元114。例如，即自服务器监视单元113A监视现用系统服务器100A自身的操作状态，并且将监视结果通知集群控制单元114A。类似地，例如，自服务器监视单元113B监视备用系统服务器100B自身的操作状态并将监视结果通知集群控制单元114B。

其它服务器监视单元112(监视装置)对应于图1中的监视单元6，并通过网络200访问现用系统中的服务器100的商业服务提供单元120提供的预定服务，以监视预定服务是否可以正常访问。例如，即其它服务器监视单元112B访问由商业服务提供单元120A提供的预定服务以监视预定服务是否可以正常访问。注意，其它服务器监视单元112是在备用系统中的服务器100中进行操作的模块。因此，其它服务器监视单元112B和112C在备用系统服务器100B和100C中进行操作，但是其它服务器监视单元112不在现用系统服务器100A中进行操作。即备用系统服务器100B和100C监视现用系统服务器100A提供的商业服务是否可以通过网络200从其它服务器监视单元112B和112C正常访问。注意，在本示例实施例中，其它服务器监视单元112定期执行监视。其它服务器监视单元112将监视结果通知集群控制单元114。例如，即其它服务器监视单元112B将监视结果通知集群控制单元114B。

其它服务器监视单元112根据由现用系统中的服务器100提供的商业服务的协议(FTP、HTTP、IMAP4、POP3、SMTP等)执行监视处理。此外，由于其它服务器监视单元112执行与由外部客户端实际执行的访问相类似的访问，因此如上所述其它服务器监视单元112通过网络200执行监视处理。这里，描述了其它服务器监视单元112的监视处理的具体示例。

当所提供的商业服务是使用文件传输协议(FTP)的服务时，即当现用系统服务器100A用作FTP服务器时，其它服务器监视单元112连接至要监视的FTP服务器并执行用户认证处理。然后，其它服务器监视单元112获取FTP服务器的文件列表。基于上述已正常执行的处理，其它服务器监视单元112确定服务被正常提供。

当所提供的商业服务是使用HTTP的服务时，即当现用系统服务器100A用作HTTP服务器时，其它服务器监视单元112发送HTTP请求至要监视的HTTP服务器，并基于来自HTTP服务器的HTTP响应的处理结果已正常来确定服务被正常提供。

当所提供的商业服务是使用互联网消息访问协议4(IMAP4)的服务时，即当现用系统服务器100A用作IMAP服务器时，其它服务器监视单元112连接至要监视的IMAP服务器，并执行用户认证处理。然后，其它服务器监视单元112执行NOOP命令。基于上述处理已正常执行，其它服务器监视单元112确定服务被正常提供。

当所提供的商业服务是使用邮局协议3(POP3)的服务时，即当现用系统服务器100A用作POP3服务器时，其它服务器监视单元112连接至要监视的POP3服务器，并执行用户认证处理。然后，其它服务器监视单元112执行NOOP命令。基于上述处理已正常执行，其它服务器监视单元112确定服务被正常提供。

当所提供的商业服务是使用简单邮件传输协议(SMTP)的服务时，即当现用系统服务器100A用作SMTP服务器时，其它服务器监视单元112连接至要监视的SMTP服务器，并执行用户认证处理。然后，其它服务器监视单元112执行NOOP命令。基于上述处理已正常执行，其它服务器监视单元112确定服务已正常提供。

注意，为了执行适合于系统环境的监视，其它服务器监视单元112可以使用超时时段或重试次数作为阈值以确定监视中的异常。例如，当商业服务不能在预定的超时时段内被正常访问时，其它服务器监视单元112可以确定现用系统中的服务器100不能正常提供服务。或者，当商业服务不能在预定的重试次数内被正常访问时，其它服务器监视单元112可以确定现用系统中的服务器100不能正常提供服务。

利用上述配置，集群系统10执行例如以下操作。在现用系统服务器100A中，响应于来自集群控制单元114A的请求，商业服务提供单元120A在商业服务控制单元111A的控制下启动。商业服务提供单元120A从而通过网络200向外部客户端提供商业服务。在现用系统服务器100A中，自服务器监视单元113监视现用系统服务器自身的操作状态，并且在故障发生时通知集群控制单元114A异常。被通知异常的集群控制单元114A请求商业服务控制单元111A终止提供商业服务以终止商业服务提供单元120A的操作。然后，集群控制单元114A通过请求备用系统服务器100B的集群控制单元114B启动商业服务提供单元120B来执行故障转移，以使备用系统服务器100B提供商业服务。

在备用系统服务器100B和100C中，自服务器监视单元113B和113C监视它们自身服务器的操作状态。此外，其它服务器监视单元112B和112C通过网络200监视由现用系统服务器100A提供的商业服务是否可以访问。集群控制单元114B和114C将其它服务器监视单元112的监视结果通知现用系统服务器100A的集群控制单元114A。当备用系统服务器100B和100C两者都获得表明现用系统服务器100A的商业服务无法访问的监视结果时，集群控制单元114A确定现用系统服务器100A发生故障并且执行商业服务的故障转移。

如上所述，在本示例实施例中，当多个备用系统服务器100的其它服务器监视单元112确定由现用系统服务器100A提供的预定服务不能正常访问时，集群控制单元114A执行故障转移。进一步而言，当备用系统中的多个服务器中的至少预定比例的备用系统服务器100的其它服务器监视单元112确定由现用系统服务器100A提供的预定服务不能正常访问时，集群控制单元114A执行故障转移。注意，在本示例实施例中，具体地，当多于一半的多个备用系统服务器100的备用系统服务器100的其它服务器监视单元112确定服务不能正常访问时，现用系统服务器100A的集群控制单元114A执行故障转移。以这种方式，在本示例实施例中，集群系统10考虑多个备用系统服务器100的其它服务器监视单元112的全部监视结果以确定是否执行故障转移。因此，可以防止由于备用系统服务器100的故障由其它服务器监视单元112的错误检测而引起的故障转移。

接下来，使用序列图描述集群系统10的具体示例操作。图4是示出当集群系统10启动提供商业服务时的操作的序列图。下面，用图4描述集群系统10的操作。

在步骤101(S101)中，集群控制单元114A请求商业服务控制单元111A启动商业服务提供单元120A。因此，在步骤102(S102)中,商业服务控制单元111A启动商业服务提供单元120A。

当商业服务可用时，在步骤3(S103)中，集群控制单元114A请求集群控制单元114B启动对现用系统服务器100A已经开始提供的商业服务的常规监视处理。因此，在步骤104(S104)中，集群控制单元114B请求其它服务器监视单元112B启动对现用系统服务器100A已经开始提供的商业服务的常规监视处理。

接下来，在步骤105(S105)中，集群控制单元114A请求集群控制单元114C启动对现用系统服务器100A已经开始提供的商业服务的常规监视过程。因此，在步骤106(S106)中，集群控制单元114C请求其它服务器监视单元112C启动对现用系统服务器100A已经开始提供的商业服务的常规监视处理。

接下来，在步骤107(S107)中，其它服务器监视单元112B执行对商业服务的常规监视处理。其它服务器监视单元112B实际上通过网络200访问商业服务以确认商业服务是否可用。注意，假设其它服务器监视单元112B确定商业服务可以正常访问(即商业服务正常可用)。

在步骤108(S108)中，其它服务器监视单元112B将步骤107中获得的监视结果(正常)通知集群控制单元114B。

在步骤109(S109)中，集群控制单元114B将步骤108中发送的监视结果(正常)通知其它服务器100以同步该监视结果。

接下来，在步骤110(S110)中，集群控制单元114A确认同步的监视结果以确定是否需要故障转移。这里，集群控制单元114A确定不需要故障转移。

接下来，在步骤111(S111)中，类似于其它服务器监视单元112B，其它服务器监视单元112C执行对商业服务的常规监视处理。注意，这里假设其它服务器监视单元112C确定商业服务可以正常访问(即商业服务正常可用)。

在步骤112(S112)中，其它服务器监视单元112C将步骤111中获得的监视结果(正常)通知集群控制单元114C。

在步骤113(S113)中，集群控制单元114C将步骤112中发送的监视结果(正常)通知其它服务器100以同步该监视结果。

接下来，在步骤114(S114)中，集群控制单元114A确认同步的监视结果以确定是否需要故障转移。这里，集群控制单元114A确定不需要故障转移。

图5是示出当备用系统服务器100检测商业服务的异常时集群系统10的操作示例的序列图。下面，用图5描述当其它服务器监视单元112检测到异常时集群系统10的操作。

在步骤201(S201)中，由商业服务提供单元120A提供的商业服务发生故障，并且该商业服务不能从外部客户端获得。

在步骤202(S202)中，类似于图4中的步骤107，其它服务器监视单元112B执行对商业服务的常规监视处理。在步骤202中，其它服务器监视单元112确定商业服务不能正常访问(即商业服务非正常可用)。

在步骤203(S203)中，其它服务器监视单元112B将在步骤202中获得的监视结果(异常)通知集群控制单元114B。

在步骤204(S204)中，集群控制单元114B将步骤203中发送的监视结果(异常)通知其它服务器100以同步该监视结果。

接下来，在步骤205(S205)中，集群控制单元114A确认同步的监视结果以确定是否需要故障转移。此时，由于已经检测到异常的备用服务器100的数量为一个，并且少于全部备用系统服务器100的一半，因此集群控制单元114A确定不需要故障转移。

在步骤206(S206)中，类似于图4中的步骤111，其它服务器监视单元112C执行对商业服务的常规监视处理。在步骤206中，其它服务器监视单元112确定商业服务不能正常访问(即商业服务非正常可用)。

在步骤207(S207)中，其它服务器监视单元112C将在步骤206中获得的监视结果(异常)通知集群控制单元114C。

在步骤208(S208)中，集群控制单元114C将步骤207发送的监视结果(异常)通知其它服务器100以同步该监视结果。

接下来，在步骤209(S209)中，集群控制单元114A确认同步的监视结果以确定是否需要故障转移。由于已经检测到异常的备用系统服务器100的数量是两个，并且多于备用系统服务器100全部数量的一半，因此集群控制单元114A启动故障转移。具体地，故障转移处理执行如下。

在步骤210(S210)中，集群控制单元114A请求集群控制单元114B终止对商业服务的常规监视处理。因此，在步骤211(S211)中，集群控制单元114B请求其它服务器监视单元112B终止对商业服务的常规监视处理。

在步骤212(S212)中，集群控制单元114A请求集群控制单元114C终止对商业服务的常规监视处理。因此，在步骤213(S213)中，集群控制单元114C请求其它服务器监视单元112C终止对商业服务的常规监视处理。

接下来，在步骤214(S214)中，集群控制单元114A请求商业服务控制单元111A终止提供商业服务。因此，在步骤215(S215)中，商业服务控制单元111A终止商业服务提供单元120A的处理。之后，备用系统服务器100中的任何一个执行启动处理，并且完成故障转移。即备用系统服务器100中的一个接管提供商业服务。

以上描述了第一示例实施例。在本示例实施例中，如上所述，现用系统服务器100A的集群控制单元114A获取从通过网络200访问由商业服务提供单元120A提供的预定服务的备用系统服务器100B和100C发送的监视结果以监视预定服务是否可以正常访问。然后，当所得监视结果表明预定服务不能从备用系统服务器100正常访问时，集群控制单元114A执行故障转移。因此，类似于接收服务的客户端，通过访问服务来执行关于服务是否被提供的监视。因此，利用根据第一示例实施例的集群系统10，可以更可靠地确定现用系统服务器100A是否适当地向客户端提供了服务。此外，利用备用系统服务器100B和100C执行监视，并且没有必要准备用于监视服务的新的操作管理服务器，也没有必要引入用于监视服务的新的操作管理软件。

此外，在本示例实施例中，当多于多个备用系统服务器100中的一半的备用系统服务器100的其它服务器监视单元112确定服务不能正常访问时，现用系统服务器100A的集群控制单元114A执行故障转移。因此，可以防止当由于备用系统服务器100或连接至备用系统服务器100的网络设备的故障，其它系统服务器监视单元112未正常执行监视时引起的错误检测的影响。

【第二示例实施例】

接下来，描述第二示例实施例中与第一示例实施例的不同之处。在第一示例实施例中，当构成集群系统10的全部备用系统服务器100中至少预定比例的备用系统服务器100的其它服务器监视单元112已经确定由现用系统服务器100A提供的预定服务不能正常访问时，集群控制单元114A已经执行故障转移。即在第一示例实施例中，无论备用系统服务器100是否正常操作，备用系统服务器100的其它服务器监视单元112的监视结果已用于确定是否执行故障转移。

相反，在本示例实施例中，当在其中自服务器监视单元113尚未检测到异常的多个备用系统服务器100中至少预定比例的备用系统服务器100的其它服务器监视单元112确定由现用系统服务器100A提供的预定服务可以正常访问时，现用系统服务器100A的集群控制单元114A执行故障转移。即在本示例实施例中，当备用系统服务器100的自服务器监视单元113已检测到它们自身的服务器有异常时，该服务器100的其它服务器监视单元112的监视结果不被用于多数决定的计入。

此外，在本示例实施例中，当在全部备用系统100中自服务器监视单元113已经检测到异常时，基于现用系统服务器100A的自服务器监视单元113A的监视结果，现用系统服务器100A的集群控制单元114A确定是否执行故障转移。即在本示例实施例中，当自服务器监视单元113已经确定全部备用系统服务器100未正常操作时，换言之，当全部备用系统服务器100的其它服务器监视单元112未正常操作时，基于自服务器监视单元113A的监视结果，现用系统服务器100A的集群控制单元114A确定商业服务是否正常提供。现用系统服务器100A的自服务器监视单元113A使用回送地址例如通过访问由商业服务控制单元111A提供的服务来执行对商业服务的监视处理。

参考序列图，描述根据第二示例实施例的集群系统10的具体操作示例。图6是示出当根据第二示例实施例的集群系统10中的一个备用系统服务器100发生异常时的操作示例的序列图。下面，用图6描述集群系统10的操作。注意，图6所示的示例示出了构成集群系统10的两个备用系统服务器100的备用系统服务器100B上发生异常。此外，图6所示的序列图接着例如图4所示的序列图。

在步骤301(S301)中，在备用系统服务器100B中发生故障，并且备用系统服务器100B的自服务器监视单元113B使用监视处理检测到故障。

在步骤302(S302)中，自服务器监视单元113B通知集群控制单元114B在步骤301中获得的监视结果(异常)。

在步骤303(S303)中，集群控制单元114B通知其它服务器100在步骤302中发送的监视结果(异常)以同步该监视结果。

接下来，在步骤304中，集群控制单元114A确认同步的监视结果。由于同步的监视结果表明备用系统服务器100B的异常，因此集群控制单元114A设置一个标志(除外标志)，该标志表明备用系统服务器100B的其它服务器监视单元112B的监视结果被从针对故障转移的确定中排除。

由于通过设置备用系统服务器100B的除外标记可以改变关于是否需要故障转移的确定，因此集群控制单元114A在步骤305(S305)中再次确认备用系统服务器100的其它服务器监视单元112的监视结果。注意，在这一点上，假设备用系统服务器100的其它服务器监视单元112中的任何一个尚未检测到异常。在这种情况下，集群控制单元114A确定不需要故障转移。

另一方面，备用系统服务器100B的集群控制单元114B在步骤306(S306)中挂起其它服务器监视单元112B的监视处理。直到备用系统服务器100B恢复到正常状态，才恢复其它服务器监视单元112B的被挂起的监视处理。

如上所述，当一个备用系统服务器100发送对应的服务器100中有异常发生时，集群控制单元114A设置除外标志。在第二示例实施例中，集群控制单元114A使用构成集群系统10的备用系统服务器100中未设置除外标志的备用系统服务器100的其它服务监视单元112的监视结果来确定是否执行故障转移。即假设构成集群系统10的备用系统服务器100的数量为N(N是大于等于1的整数)，并假设未设置除外标志的备用系统服务器100的数量为n₁(n₁是大于等于1且小于等于N的整数)。此外，在n₁个备用系统服务器100中，假设在其中其它服务监视单元112已经检测到异常的服务器数量为n₂(n₂是大于等于1且小于等于n₁的整数)。在这种情况下，当n₂/n₁大于预定的比例(例如，n₂多于n₁的一半)时，集群控制单元114A执行故障转移。

以这种方式，在本示例实施例中，如果备用系统服务器100的自服务器监视单元113检测到它们自身服务器的异常，该服务器100的其它服务器监视单元112的监视结果不被用于确定是否执行故障转移。因此，可以防止发生异常的备用系统服务器100的其它监视单元112的错误监视结果影响关于是否执行故障转移的确定。

图7是示出当根据第二示例实施例的集群系统10中的全部备用系统服务器100发生异常时的操作示例的序列图。注意，图7中所示的序列图接着图6中所示的序列图。即图7中所示的序列图是当备用系统服务器100B发生故障时的序列图。下面，用图7描述集群系统10的操作。

在步骤401(S401)中，备用系统服务器100C发生故障，并且备用系统服务器100C的自服务器监视单元113C使用监视处理检测到故障。

在步骤402(S402)中，自服务器监视单元113C通知集群控制单元114C在步骤401中获得的监视结果(异常)。

在步骤403(S403)中，集群控制单元114C通知其它服务器100在步骤402中发送的监视结果(异常)以同步该监视结果。

接下来，在步骤404(S404)中，集群控制单元114A确认同步的监视结果。由于同步的监视结果表明备用系统服务器100C的异常，因此集群控制单元114A设置标志(除外标志)，该标志表明备用系统服务器100C的其它服务器监视单元112C的监视结果被从针对故障转移的确定中排除。

接下来，在步骤405(S405)中，由于在全部备用系统服务器100中发生异常，集群控制单元114A切换以使现用系统服务器100A的自服务器监视单元113A监视商业服务。因此，集群控制单元114A请求现用系统服务器100A的自服务器监视单元113A启动监视商业服务。集群控制单元114A基于自服务器监视单元113A的监视结果来确定是否需要故障转移，直至备用系统服务器100中的任何一个恢复正常。

另一方面，备用系统服务器100C的集群控制单元114C在步骤406(S406)中挂起其它服务器监视单元112C的监视处理。直到备用系统服务器100C恢复到正常状态，才恢复其它服务器监视单元112C被挂起的监视处理。

以这种方式，在本示例实施例中，如果全部备用系统服务器100都不处于正常状态，利用现用系统服务器100的自服务器监视单元113的监视结果，可以执行对故障转移的确定。因此，尽管备用系统服务器100的其它服务器监视单元112的监视结果不可用，但是可以确定是否需要故障转移。

已描述的示例实施例与具有图8所示配置的服务器设备，可以可靠地确定服务是否适当地提供给客户端。图8中所示的服务器设备7包括服务提供单元8(服务提供装置)和集群控制单元9(集群控制装置)。注意，服务器设备7与备用系统服务器设备一起构成集群系统。

服务提供单元8对应于上述示例实施例中的商业服务提供单元120。服务提供单元8通过网络向客户端设备提供预定服务。

集群控制单元9对应于上述示例实施例中的集群控制单元114。集群控制单元9获取从备用系统服务器设备发送的监视结果，并且当监视结果表明预定服务不能从备用系统服务器设备正常访问时执行故障转移。这里，当执行故障转移时，备用系统服务器设备接管向客户端设备提供预定服务，并且通过网络访问由服务提供单元8提供的预定服务以监视服务是否可以正常访问。

以这种方式，服务器设备7基于备用系统服务器设备的访问来获取服务的监视结果，并且确定是否执行故障转移。因此，使用服务器设备7可以更可靠地确定是否适当地向客户端提供了服务。

注意，本发明不限于上述示例实施例，并且可以在不脱离本发明的范围内适当地进行修改。例如，HA集群系统由上述示例实施例中的三个服务器100构成，但是集群系统10只需要包括现用系统中的服务器100和备用系统中的服务器100，并且服务器的数量是任意的。此外，每一个服务器100可以是在集群配置中作为现用系统服务器或备用系统服务器进行操作的单向备用服务器，也可以是在集群配置中作为现用系统服务器或备用系统服务器进行操作的双向备用服务器以构建集群系统10。

本发明由上述示例实施例进行描述，但不限于上述示例实施例。可以在不脱离本发明的范围内对本发明的配置和细节进行本领域技术人员可以理解的各种修改。

本申请基于2017年9月6日提交的日本专利申请No.2017-171129并且要求该申请的优先权，该申请的公开内容通过引用全部并入本文。

附图标记列表

1,10 集群系统

2,100A 现用系统服务器

3,100B,100C 备用系统服务器

4,200,300 网络

5,9,114,114A,114B,114C 集群控制单元

6 监视单元

7 服务器设备

8 服务提供单元

9 集群控制单元

100 服务器

110,110A,110B,110C 集群件

111,111A,111B,111C 商业服务控制单元

112,112A,112B,112C 其它服务器监视单元

113,113A,113B,113C 自服务器监视单元

120,120A,120B,120C 商业服务提供单元

151 网络接口

152 存储器

153 处理器

Claims

1.一种集群系统，包括：

现用系统服务器设备，其被配置为通过网络向客户端设备提供预定服务；以及

备用系统服务器设备，其被配置为：当在所述现用系统服务器设备中发生异常时，代替所述现用系统服务器设备向所述客户端设备提供所述预定服务，

其中，

所述备用系统服务器设备包括第一监视装置，所述第一监视装置用于：通过所述网络访问由所述现用系统服务器设备提供的所述预定服务，以监视所述预定服务是否是可正常访问的，以及

所述现用系统服务器设备包括集群控制装置，所述集群控制装置用于：当所述备用系统服务器设备的所述第一监视装置确定了由所述现用系统服务器设备提供的所述预定服务不是可正常访问的时，执行故障转移。

2.根据权利要求1所述的集群系统，其中，

当所述多个备用系统服务器设备的所述第一监视装置确定了由所述现用系统服务器设备提供的所述预定服务不是可正常访问的时，所述集群控制装置执行故障转移。

3.根据权利要求1所述的集群系统，其中，

当所述多个备用系统服务器设备当中的至少预定比例的备用系统服务器设备的所述第一监视装置确定了由所述现用系统服务器设备提供的所述预定服务不是可正常访问的时，所述集群控制装置执行故障转移。

4.根据权利要求3所述的集群系统，其中，

所述备用系统服务器设备进一步包括第二监视装置，所述第二监视装置用于：监视所述备用系统服务器设备自身的操作状态，以及

当所述多个备用系统服务器设备当中的、其中所述第二监视装置没有检测到异常的至少预定比例的备用系统服务器设备的所述第一监视装置确定了由所述现用系统服务器设备提供的所述预定服务不是可正常访问的时，所述现用系统服务器设备的所述集群控制装置执行故障转移。

5.根据权利要求4所述的集群系统，其中，

所述现用系统服务器设备进一步包括第三监视装置，所述第三监视装置用于：监视所述现用系统服务器设备自身的操作状态，以及

当所述第二监视装置在全部所述备用系统服务器设备中检测到异常时，所述现用系统服务器设备的所述集群控制装置基于由所述第三监视装置的监视结果来确定是否执行故障转移。

6.根据权利要求1至5中的任何一个所述的集群系统，其中，

所述网络是公共LAN，并且是与被用于在所述现用系统服务器设备和所述备用系统服务器设备之间相互执行生死监视的互连LAN不同的网络。

7.一种集群系统控制方法，包括：

由现用系统服务器设备，通过网络向客户端设备提供预定服务；

由与所述现用系统服务器设备一起构成集群系统的备用系统服务器设备，通过所述网络访问由所述现用系统服务器设备提供的所述预定服务，以监视所述预定服务是否是可正常访问的；以及

当所述备用系统服务器设备确定了由所述现用系统服务器设备提供的所述预定服务不是可正常访问的时，由所述现用系统服务器设备执行故障转移。

8.一种服务器设备，包括：

服务提供装置，其用于通过网络向客户端设备提供预定服务；以及

集群控制装置，其用于获取从被配置为通过所述网络访问由所述服务提供装置提供的所述预定服务的备用系统服务器设备发送的监视结果以监视所述预定服务是否是可正常访问的，并且用于当所述监视结果表明所述预定服务不能从所述备用系统服务器设备来被正常访问时执行故障转移，

其中，所述备用系统服务器设备被配置为：当所述故障转移被执行时，接管向所述客户端设备提供所述预定服务。

9.一种控制方法，包括：

通过网络向客户端设备提供预定服务；以及

获取从被配置为通过所述网络访问所述预定服务的备用系统服务器设备发送的监视结果以监视所述预定服务是否是可正常访问的，并且当所述监视结果表明所述预定服务不能从所述备用系统服务器设备来被正常访问时，执行故障转移，

10.一种存储有程序的非暂时性计算机可读介质，所述程序使计算机执行：

服务提供步骤：通过网络向客户端设备提供预定服务；以及

集群控制步骤：获取从被配置为通过所述网络访问由所述服务提供步骤的处理提供的所述预定服务的备用系统服务器设备发送的监视结果以监视所述预定服务是否是可正常访问的，并且当所述监视结果表明所述预定服务不能从所述备用系统服务器设备来被正常访问时，执行故障转移，