CN109857445A - 存储系统和控制软件配置方法 - Google Patents
存储系统和控制软件配置方法 Download PDFInfo
- Publication number
- CN109857445A CN109857445A CN201810869345.9A CN201810869345A CN109857445A CN 109857445 A CN109857445 A CN 109857445A CN 201810869345 A CN201810869345 A CN 201810869345A CN 109857445 A CN109857445 A CN 109857445A
- Authority
- CN
- China
- Prior art keywords
- memory node
- control software
- control
- memory
- software
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1479—Generic software techniques for error detection or fault masking
- G06F11/1482—Generic software techniques for error detection or fault masking by means of middleware or OS functionality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2053—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where persistent mass storage functionality or persistent mass storage control functionality is redundant
- G06F11/2094—Redundant storage or storage space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/302—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3034—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a storage system, e.g. DASD based or network based
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3055—Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/60—Software deployment
- G06F8/65—Updates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/1658—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
- G06F11/1662—Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit the resynchronized component or unit being a persistent storage device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/2002—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant
- G06F11/2007—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media
- G06F11/201—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where interconnections or communication control functionality are redundant using redundant communication media between storage system components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/805—Real-time
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/815—Virtual
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/82—Solving problems relating to consistency
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/865—Monitoring of software
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computer Security & Cryptography (AREA)
- Hardware Redundancy (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出一种存储系统和控制软件配置方法,能够有效地使用系统整体的信息处理资源。在具有多个存储节点的存储系统中,存储节点设有各自提供存储区域的1个或多个存储装置和响应来自上级装置的请求而对相应的存储装置读写所请求的数据的1个或多个控制软件,各控制软件各自保持响应来自上级装置的请求而对相应的存储装置读写所请求的数据所需的规定的结构信息,多个控制软件被作为冗余化组来管理,属于同一个冗余化组的各控制软件各自保持的结构信息被同步地更新,将构成冗余化组的多个控制软件分别配置在不同的上述存储节点中以使各存储节点的负荷分散。
Description
技术领域
本发明涉及存储系统和控制软件配置方法,例如,适合应用于具有分别安装了1个或多个SDS(Software Defined Storage:软件定义存储)的多个存储节点的信息处理系统。另外,以下,SDS指的是通过在通用的服务器装置中安装具有存储功能的软件而构建的存储装置。
背景技术
以往,在信息处理系统中,为了提高可用性和可靠性较多地采用服务器装置的冗余化结构。因此,现有的信息处理系统中,提高系统整体的处理性能的情况下,广泛地使用按构成冗余化结构的多个服务器装置单位增减设置物理服务器的横向扩展(scale-out)方式。
但是,根据这样的现有的横向扩展方式,存在增加相当于1台的服务器功能的情况下为了冗余化也必须增设多个物理服务器,相应地需要较多的成本的问题。
另一方面,近年来,使多台虚拟机在1台物理服务器上运行的虚拟化技术正在广泛普及,也提出了较多的关于虚拟机的冗余化的发明。例如,专利文献1中,公开了将多个当前使用系统的虚拟机、和与这些当前使用系统的虚拟机分别对应地设置的后备系统的虚拟机配置在多个物理服务器中的技术。
根据这样的虚拟化技术,具有即使在增设当前使用系统的虚拟机、与其后备系统的虚拟机的组(以下将其称为虚拟机组)的情况下,也无需增设与构成虚拟机组的虚拟机相同数量的物理服务器、可以高效率且廉价地进行横向扩展的优点。
现有技术文献
专利文献
专利文献1:日本特开2014-75027号公报
发明内容
发明要解决的课题
专利文献1中,记载了将当前使用系统的虚拟机、和后备系统的虚拟机分别配置在不同的物理服务器(当前使用系统专用的物理服务器或后备系统专用的物理服务器)中的技术。此处,例如,存在通过在同一个物理服务器中配置一部分当前使用系统的虚拟机和一部分后备系统的虚拟机,而能够有效地使用系统整体的信息处理资源的可能性。
于是,提出可以维持对存储系统要求的可用性和可靠性、并且有效地使用系统整体的信息处理资源的存储控制软件的配置方法。
为了解决该课题,本发明中,一种具有多个存储节点的存储系统,所述存储节点设有:各自提供存储区域的1个或多个存储装置;和响应来自上级装置的请求而对相应的所述存储装置读写所请求的数据的1个或多个控制软件,各所述控制软件各自保持响应来自所述上级装置的请求而对相应的所述存储装置读写所请求的数据所需的规定的结构信息,多个所述控制软件被作为冗余化组来管理,属于同一个所述冗余化组的各所述控制软件各自保持的所述结构信息被同步地更新,将构成所述冗余化组的多个所述控制软件分别配置在不同的所述存储节点中以使各所述存储节点的负荷平准化。
另外,本发明中,一种在具有各自搭载了1个或多个存储装置的多个存储节点的存储系统中,配置响应来自上级装置的请求而对相应的所述存储装置读写所请求的数据的控制软件的控制软件配置方法,各所述控制软件各自保持响应来自所述上级装置的请求而对相应的所述存储装置读写所请求的数据所需的规定的结构信息,包括:第一步骤,构成所述冗余化组的多个所述控制软件分别配置在不同的所述存储节点中以使各所述存储节点的负荷平准化;和第二步骤,将多个所述控制软件作为冗余化组来管理,将属于同一个所述冗余化组的各所述控制软件各自保持的所述结构信息同步地更新。
发明效果
根据本发明,能够实现可有效地使用系统整体的信息处理资源的存储系统和控制软件配置方法。上述以外的课题、结构和效果,将通过以下实施方式的说明而说明。
附图说明
图1是表示本实施方式的信息处理系统的整体结构的框图。
图2是表示存储节点的概略结构的框图。
图3是用于说明与本冗余化功能关联地在存储节点的存储器中保存的程序和信息的框图。
图4是表示逻辑-物理变换表的结构例的图表。
图5是表示存储节点管理表的结构例的图表。
图6是表示控制软件管理表的结构例的图表。
图7是用于说明本实施方式的冗余化功能的框图。
图8是用于说明本实施方式的冗余化功能的框图。
图9是用于说明本实施方式的冗余化功能的框图。
图10是用于说明本实施方式的冗余化功能的框图。
图11是用于说明本实施方式的冗余化功能的框图。
图12是用于说明本实施方式的冗余化功能的框图。
图13是用于说明本实施方式的冗余化功能的框图。
图14是表示冗余化恢复处理的处理流程的流程图。
图15是表示配置位置存储节点决定处理的处理流程的流程图。
图16是表示再平衡处理的处理流程的流程图。
图17是表示移动对象控制软件决定处理的处理流程的流程图。
具体实施方式
以下,参考附图,详细叙述本发明的一个实施方式。以下记载和附图是用于说明本发明的示例,为了使说明明确,适当地进行省略和简化。另外,实施方式中说明的特征组合的全部对于发明的解决方案并不是必需的。本发明不受实施方式限制,符合本发明的思想的所有应用例都包括在本发明的技术范围中。对于本发明,如果是本行业从业人员,就能够在本发明的范围内进行各种追加和变更等。本发明也能够用其他各种方式实施。只要没有特别限定,各构成要素就可以是多个或单个。
以下说明中,有时用“表格(table)”、“表”、“列表”、“队列”等表达说明各种信息,但各种信息也可以用这些以外的数据结构表达。为了表示不依赖于数据结构,有时将“XX表”、“XX列表”等称为“XX信息”。说明各信息的内容时,使用“识别信息”、“识别符”、“名”、“ID”、“编号”等表达,但对于这些能够相互置换。
另外,以下说明中,不区分同种要素地进行说明的情况下,使用参考符号或参考符号中的共用编号,区分同种要素地进行说明的情况下,有时使用该要素的参考符号或者代替参考符号地使用对该要素分配的ID。
另外,以下说明中,存在说明执行程序进行的处理的情况,但程序通过由至少1个以上处理器(例如CPU)运行,而适当使用存储资源(例如存储器)和/或接口设备(例如通信端口)等进行规定的处理,所以也可以认为处理的主体是处理器。同样,运行程序进行的处理的主体也可以是具有处理器的控制器、装置、系统、计算机、节点、存储系统、存储装置、服务器、管理计算机、客户端、或主机。运行程序进行的处理的主体(例如处理器)也可以包括进行处理的一部分或全部的硬件电路。例如,运行程序进行的处理的主体可以包括运行加密和解密、或者压缩和解压缩的硬件电路。处理器通过按照程序工作,而作为实现规定的功能的功能部工作。包括处理器的装置和系统,是包括这些功能部的装置和系统。
程序可以从程序源安装至计算机这样的装置。程序源例如可以是程序发布服务器或计算机能够读取的存储介质。程序源是程序发布服务器的情况下,程序发布服务器可以包括处理器(例如CPU)和存储资源,存储资源可以进而存储发布程序和作为发布对象的程序。然后,通过程序发布服务器的处理器运行发布程序,程序发布服务器的处理器可以将发布对象的程序对其他计算机发布。另外,以下说明中,可以将2个以上程序作为1个程序实现,也可以将1个程序作为2个以上程序实现。
(1)本实施方式的信息处理系统的结构
图1是表示本实施方式的信息处理系统1的结构的图。该信息处理系统1具有多个计算节点2和多个存储节点3而构成。
各计算节点2和各存储节点3之间,例如经过由光纤通道(Fibre Channel)、以太网(注册商标)、InfiniBand或无线LAN(Local Area Network:局域网)等构成的存储服务网络4连接,并且各存储节点3之间经过由LAN、以太网(注册商标)、InfiniBand或无线LAN等构成的后端网络5连接。
其中,存储服务网络4和后端网络5可以由同一个网络构成,也可以是各计算节点2和各存储节点3与存储服务网络4和后端网络5以外的管理用网络连接。
计算节点2是对于存储节点3起到主机(上级装置)作用的通用的计算机装置。另外,计算节点2也可以是虚拟机这样的虚拟的计算机装置。计算节点2与用户操作和来自安装的应用程序的请求相应地,经由存储服务网络4对存储节点3读写数据。
存储节点3是对计算节点2提供用于读写数据的存储区域的服务器装置。存储节点3也可以是虚拟机。另外,也可以是存储节点3与计算节点2同处于同一个物理节点的结构。本实施方式的情况下,各存储节点3如图1所示,与其他1个或多个存储节点3一起合并为被称作集群6的组而被管理。图1的例子中,举例示出了仅设定了1个集群6的情况,但也可以在信息处理系统1内设置多个集群6。集群6也可以被称为分布式存储系统。
如图2所示,该存储节点3具备1个以上CPU(Central Processing Unit:中央处理器)10、1个以上的存储器11和多个存储装置12、和各1个或多个的第一和第二通信装置13、14。存储节点3由CPU10和存储装置12、与第一和第二通信装置13、14经由内部网络15连接的通用的物理服务器装置构成。
CPU10是负责存储节点3整体的动作控制的处理器。另外,存储器11由SRAM(StaticRAM(Random Access Memory:随机存取存储器))和DRAM(Dynamic RAM)等易失性的半导体存储器或非易失性的半导体存储器构成,作为CPU10的工作存储器用于暂时保持各种程序和需要的数据。通过由至少1个以上CPU10运行存储器11中保存的程序,来执行作为后述的存储节点3整体的各种处理。
存储装置12由HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态硬盘)或者SCM(Storage Class Memory:存储级内存)等大容量的非易失性的存储装置构成,用NVMe(Non-Volatile Memory Express:非易失性内存)或SAS(Serial Attached SCSI(Small Computer System Interface):串行连接小型计算机系统接口)、SATA(Serial ATA(Advanced Technology Attachment):串行高级技术附件)等接口连接,提供用于与来自计算节点2的读请求和写请求相应地读写数据的存储区域。
第一通信装置13是存储节点3用于经由存储服务网络4与计算节点2进行通信的接口,例如由光纤通道卡或以太网(注册商标)卡、InfiniBand卡、无线LAN卡等构成。第一通信装置13进行与计算节点2通信时的协议控制。
第二通信装置14是存储节点3用于经由后端网络5与其他存储节点3进行通信的接口,例如由光纤通道卡或以太网(注册商标)卡、InfiniBand卡、无线LAN卡、PCIe主适配器等构成。第二通信装置14进行与其他存储节点3通信时的协议控制。
另外,本实施方式的情况下,各存储节点3如图1所示,与其他1个或多个存储节点3一同合并为被称作集群6的组而被管理。图1的例子中,举例示出了仅设定了1个集群6的情况,但也可以在信息处理系统1内设置多个集群6。
(2)本信息处理系统中的各种处理的流程
(2-1)各存储节点的存储器中保存的程序和信息
接着,对于本信息处理系统1中的各种处理的流程进行说明。此时,首先对于与该各种功能关联地在各存储节点3的存储器11(图2)中保存的程序和信息,参考图3~图6进行说明。
如图3所示,在各存储节点3的存储器11中,分别保存多个控制软件(以下将其称为控制软件)20和与这些控制软件20分别对应地准备的多个结构信息21、和冗余化部22、集群控制部23、存储节点管理表24和控制软件管理表25。
控制软件20是用作SDS(Software Defined Storage)的存储控制器的软件。控制软件20具有接受来自计算节点2的读请求和写请求、对相应的存储装置12(图2)读写数据的功能。控制软件20也可以被称为存储控制部或存储控制程序。
本实施方式的情况下,如图7所示,存储节点3中安装的各控制软件20,分别与彼此不同的其他存储节点3中分别安装的1个或多个其他控制软件20一同被作为用于冗余化的1个组(以下将其称为冗余化组)26管理。
另外,图7示出了由2个控制软件20构成冗余化组26的情况,以下也按照由2个控制软件20构成冗余化组26进行说明,但也可以由3个以上控制软件20构成冗余化组26。
在冗余化组26中,至少1个控制软件20被设定为能够受理来自计算节点2的读请求和写请求的状态(当前使用系统的状态,以下将其称为主动模式),其余控制软件20被设定为不受理来自计算节点2的读请求和写请求的状态(待机系统的状态,以下将其称为被动模式)。
从而,由2个控制软件20构成的冗余化组26,采用这2个控制软件20双方被设定为主动模式的结构(以下将其称为主动-主动结构),和一方的控制软件20被设定为主动模式、另一方的控制软件20作为其后备被设定为被动模式的结构(以下将其称为主动-被动结构)中的某一方的结构。
而且,在采用了主动-被动结构的冗余化组26中,设定为主动模式的控制软件20或者该控制软件20所运行的存储节点3中发生了故障的情况、和从集群6撤去这样的存储节点3(存储节点3被削减)的情况下,将此前设定为被动模式的控制软件20的状态切换为主动模式。由此,设定为主动模式的控制软件20不再能够运行的情况下,对于该控制软件20执行的I/O(Input/Output)处理能够用此前设定为被动模式的控制软件20接管(故障转移功能)。
为了实现这样的故障转移功能,属于同一个冗余化组26的控制软件20总是保持相同内容的结构信息21。结构信息21是控制软件20执行与上述容量虚拟化功能、将访问频度高的数据移动至响应速度更快的存储区域的层级存储控制功能、从保存的数据中删除重复的数据的重复排除功能、将数据压缩存储的压缩功能、保持某一时刻的数据的状态的Snapshot(快照)功能、和为了应对灾害而同步或非同步地将数据复制至远程地点的远程复制功能等各种功能相关的处理所需的信息。
然后,构成冗余化组26的主动模式的控制软件20的结构信息21更新了的情况下,将更新前后的该结构信息21的差作为差数据传输至构成该冗余化组26的另一方的控制软件20,基于该差数据用该另一方的控制软件20更新该控制软件20所保持的结构信息21。由此构成冗余化组26的各控制软件20分别保持的结构信息21总是维持在同步的状态。
这样,构成冗余化组26的2个控制软件20总是保持相同内容的结构信息21,由此,在设定为主动模式的控制软件20、或配置有该控制软件20的存储节点3中发生故障或者该存储节点3被撤去的情况下,对于此前由该控制软件20执行的处理,也能够由与该控制软件20同一个冗余化组26内的其他控制软件20立即接管。
冗余化部22是具有这样使同一个冗余化组26内的各控制软件20各自保持的结构信息21总是同步的功能的程序。实际上,冗余化部22在本存储节点3内的某一个控制软件20更新了自身的结构信息21的情况下,将更新前后的该结构信息21的差作为差数据,经由后端网络5发送至与该控制软件20属于同一个冗余化组26的其他控制软件20安装在的存储节点3。此时,冗余化部22指定要基于该差数据更新结构信息21的控制软件20。然后,接收了该差数据的存储节点3的冗余化部22基于该差数据,对指定的控制软件20所保持的结构信息21进行更新。冗余化部22也可以被称为冗余化软件或冗余化程序。
集群控制部23是具有将由从计算节点2给出的写请求或读请求组成的I/O(Input/Output)请求,经由后端网络5传输至对应的存储节点3的集群控制部23,或者将从其他集群控制部23传输来的该I/O请求传递至对应的冗余化组26的控制软件20的功能的程序。集群控制部23也可以被称为集群控制软件或集群控制程序。
实际上,本实施方式的情况下,对于每一个冗余化组26,与该冗余化组26对应地定义1个或多个虚拟的逻辑卷(以下将其称为虚拟卷),这些虚拟卷被作为读/写数据的存储区域对计算节点2提供。
该情况下,虚拟卷内的存储区域被划分为规定大小的小区域(以下将其称为逻辑页)进行管理。另外,存储节点3中搭载的各存储装置12提供的存储区域被划分为与逻辑页相同大小的小区域(以下将其称为物理页)进行管理。但是,逻辑页和物理页也可以不是相同的大小。
然后,计算节点2在对要求的虚拟卷读/写数据的情况下,将指定了该数据的读/写目标的虚拟卷的识别符(LUN:Logical Unit Number,逻辑单元号)、和该虚拟卷中的该数据的读/写目标的开头的逻辑页、和该数据的数据长度的I/O请求发送至对应的集群6内的某一个存储节点3。
这样,接收了该I/O请求的存储节点3的集群控制部23,经由后端网络5,对与接收到的I/O请求中指定的读/写对象的虚拟卷关联的冗余化组26的控制软件20所配置在的各存储节点3的集群控制部23传输该I/O请求。
另外,接受了该I/O请求的集群控制部23将该I/O请求传递至与该I/O请求中指定为读/写目标的虚拟卷关联的冗余化组26的控制软件20。然后,该I/O请求传递至的控制软件20中、设定为主动模式的控制软件20,与该I/O请求相应地,在该I/O请求是写请求的情况下对该I/O请求中指定为数据的写目标的逻辑页动态地分配某一个物理页,之后对分配给该逻辑页的物理页读/写数据。
作为用于执行这样的一系列处理的手段,集群控制部23共享集群6内存在的各控制软件20分别配置在哪一个存储节点3中、属于哪一个冗余化组26、被设定为主动模式和被动模式中的哪一种状态等信息,将这些信息保存在后述的控制软件管理表25中进行管理。
另一方面,结构信息21如上所述由控制软件20实现容量虚拟化功能、层级存储控制功能、Snapshot功能、远程复制功能、重复排除功能、和压缩功能等各种功能所需的信息构成。
图4表示构成这样的结构信息21的一部分的逻辑-物理变换表27。逻辑-物理变换表27是与容量虚拟化功能关联地、为了管理上述逻辑页、与物理页的对应关系而使用的表,如图4所示,具备LUN栏27A、逻辑页栏27B和物理页栏27C而构成。在逻辑-物理变换表27中,1个行与1个逻辑页对应。
而且,在LUN栏27A中保存对该集群6提供给计算节点2的各虚拟卷分别赋予的该虚拟卷的LUN,在逻辑页栏27B中保存对于对应的虚拟卷内的各逻辑页分别赋予的识别符(逻辑页编号)。
另外,物理页栏27C被划分为节点ID栏27CA、驱动器编号栏27CB和扇区编号栏27CC。而且,在节点ID栏27CA中保存对提供给对应的逻辑页分配的物理页的存储节点3赋予的该存储节点3固有的识别符(节点ID),在驱动器编号栏27CB中保存对提供该物理页PP的存储装置12(图2)赋予的该存储装置12固有的识别符(驱动器编号)。进而,在扇区编号栏27CC中,保存对于对应的存储装置12内的相当于该物理页PP的存储区域(扇区)赋予的该扇区固有的识别符(扇区编号)。
从而,图4的例子的情况下,例如示出了对于赋予了LUN“1”的虚拟卷的逻辑页编号为“0”的逻辑页,分配了赋予了节点ID“0”的存储节点3中的驱动器编号为“1”的存储装置12内的扇区编号“0x00010000”的存储区域(扇区)作为物理页。
另外,存储节点管理表24是为了管理同一个集群6内的各存储节点3的负荷状况等而使用的表,如图5所示,具备节点ID栏24A、状态栏24B、容量栏24C、使用容量栏24D、CPU负荷栏24E、存储器量栏24F、使用存储器量栏24G、通信带宽栏24H、使用通信带宽栏24I和故障组ID栏24J构成。在存储节点管理表24中,1个行与1个存储节点3对应。
而且,在节点ID栏24A中分别保存构成该集群6的各存储节点3的节点ID,在状态栏24B中保存对应的存储节点3的当前状态(“正常”或“异常”)。另外,在容量栏24C中保存对应的存储节点3的全部存储装置的容量,在使用容量栏24D中保存对应的存储节点3中的当前的存储装置的使用容量。
进而,在CPU负荷栏24E中保存对应的存储节点3中的CPU10(图2)的当前的使用率,在存储器量栏24F中保存该存储节点3中的存储器11(图2)的容量,在使用存储器量栏24G中保存对应的存储节点3中的当前的存储器11的使用量。
进而,在通信带宽栏24H中保存对应的存储节点3能够使用的后端网络5的通信带宽的大小,在使用通信带宽栏24I中保存该存储节点3为了与其他存储节点3通信而当前正在使用的后端网络5的带宽量。
进而,在故障组ID栏24J中,保存对应的存储节点3所属的故障组的组ID。此处,故障组指的是共用同一个电源等、该电源等中发生了故障的情况下、发生由此引起的同样的故障的存储节点3的组。
该存储节点管理表24中保存的信息,是由构成同一个集群6的全部存储节点3的集群控制部23共享的信息。作为用于这样在同一个集群6内由各存储节点3的集群控制部23共享相同信息的手段,从构成集群6的各存储节点3中各自搭载的集群控制部23中用规定的方法将1个集群控制部23选定为代表集群控制部23。
然后,代表集群控制部23定期地从其他存储节点3的集群控制部23收集必要的信息,基于收集到的信息更新自身管理的存储节点管理表24。另外,代表集群控制部23通过将这些收集的信息传输至该集群6内的各存储节点3的集群控制部23,而使这些集群控制部23将该集群控制部23分别管理的存储节点管理表24更新为最新的状态。
但是,也可以是各存储节点3的集群控制部23定期地将必要的信息分别发送至同一个集群6内的其他全部存储节点3的集群控制部23,各存储节点3的集群控制部23基于该信息分别更新本节点内的存储节点管理表24。
控制软件管理表25是集群控制部23为了管理集群6内存在的全部控制软件20而使用的表,如图6所示,具备控制软件ID栏25A、状态栏25B、组ID栏25C、运行节点ID栏25D、使用容量栏25E、CPU负荷栏25F、使用存储器量栏25G、使用通信带宽栏25H和LUN栏25I构成。在控制软件管理表25中,1个行与1个控制软件20对应。
而且,在控制软件ID栏25A中保存对于对应的集群6内存在的当前运行中的控制软件20分别赋予的该控制软件20固有的识别符(控制软件ID),在状态栏25B中保存对应的控制软件20的当前的状态。其中,作为控制软件20的状态,在上述主动模式(“主动”)和被动模式(“被动”)之外,存在因故障等而不能运行的状态即死机(“死机”)、因维护等而停止I/O处理的状态即停止(“停止”)等。
另外,在组ID栏25C中保存对于对应的控制软件20构成的冗余化组26(图7)赋予的该冗余化组26固有的识别符(组ID),在运行节点ID栏25D中保存对应的控制软件20所运行在的存储节点3的节点ID。另外,在使用容量栏25E中,保存对应的控制软件20当前正在使用的存储区域的合计容量。
另外,在CPU负荷栏25F中保存用于使对应的控制软件20运行的CPU10(图2)的当前的使用率,在使用存储器量栏25G中保存为了对应的控制软件20当前正在使用的存储器11(图2)的容量。进而,在使用通信带宽栏25H中,保存对应的控制软件20为了与其他存储节点3通信而当前正在使用的后端网络5的带宽量。
LUN栏25I保存识别对计算节点2提供的虚拟卷的识别信息的LUN(Logical UnitNumber:卷编号),与管理用该LUN识别的虚拟卷的控制软件的控制软件ID25A关联地管理。
各存储节点3的集群控制部23,从计算节点2接受了I/O请求(读请求或写请求)时,取得I/O请求中包括的LUN,使用控制软件管理表25确定与该LUN关联的控制软件ID25A、运行节点ID。由此,各存储节点3的集群控制部23能够确定管理作为I/O请求目标的虚拟卷的控制软件和该控制软件的配置位置节点。另外,LUN栏25I的LUN也可以与对应于用该LUN识别的虚拟卷的冗余化组的组ID25C关联地管理。如果能够用控制软件管理表25根据I/O请求中包括的LUN确定组ID,则也能够确定用组ID识别的冗余化组中包括的控制软件ID和用该控制软件ID识别的控制软件。
该控制软件管理表25中保存的信息,也是由构成同一个集群6的全部存储节点3的集群控制部23共享的信息。因此,代表集群控制部23定期地从其他存储节点3的集群控制部23收集必要的信息,基于收集到的信息更新自身管理的控制软件管理表25。另外,代表集群控制部23通过将这些收集到的信息传输至该集群6内的各存储节点3的集群控制部23,而使这些集群控制部23将该集群控制部23分别管理的控制软件管理表25更新为最新的状态。
(2-2)各种处理的流程
(2-2-1)写处理的流程
图7表示本信息处理系统1中、平常时从计算节点2对集群6内的某一个存储节点3给出了写请求的情况下的处理的流程。
该图7中,“存储节点A”~“存储节点D”分别表示存储节点3,“控制软件A”~“控制软件H”分别表示控制软件20。而且,图7中示出了在“存储节点A”上运行的“控制软件A”和在“存储节点B”上运行的“控制软件B”构成冗余化组26,在“存储节点B”上运行的“控制软件C”和在“存储节点C”上运行的“控制软件D”构成冗余化组26,在“存储节点C”上运行的“控制软件E”和在“存储节点D”上运行的“控制软件F”构成冗余化组26,在“存储节点D”上运行的“控制软件G”和在“存储节点A”上运行的“控制软件H”构成同一个冗余化组26的例子。另外,此处,设通过控制软件20的冗余化生成的各冗余化组26的结构是主动-被动结构。
该情况下,各存储节点3的集群控制部23,在平常时,如上所述地共享各存储节点3的CPU10(图2)的负荷状态和存储器11(图2)的使用量等信息,将这些信息保存在存储节点管理表24和控制软件管理表25中进行管理(S1)。
然后,从计算节点2对集群6内的某一个存储节点3给出写请求时,该存储节点3的集群控制部23使用控制软件管理表25,如上所述基于该写请求中包括的LUN,经由对应的存储节点3的集群控制部23对相应的冗余化组26的各控制软件20分别传输写请求。用写请求传输至的控制软件20中的、设定为主动模式的控制软件20执行写处理。另外,集群控制部23也可以仅对设定为主动模式的控制软件20传输写请求。
此处,设该写请求以与由“控制软件A”和“控制软件B”构成的冗余化组26关联的虚拟卷为写目标。另外,设该冗余化组26中,“控制软件A”被设定为主动模式,“控制模式B”被设定为被动模式。从而,该情况下,设定为主动模式的“控制软件A”执行与该写请求相应的写处理。
然后,执行这样的写处理时,执行了该写处理的“控制软件A”所配置在的“存储节点A”的冗余化部22,从同一个存储节点3(“存储节点A”)内的集群控制部23取得与此时执行写处理的“控制软件A”一同构成冗余化组26的控制软件20(“控制软件B”)的控制软件ID和该控制软件20所配置在的存储节点3(“存储节点B”)的后端网络5上的IP地址(S2)。
另外,“存储节点A”的冗余化部22与该写处理的处理内容相应地对“控制软件A”所保持的结构信息21进行更新(S3),将表示该结构信息21的更新前后的差的差数据,经由后端网络5发送至步骤S2中取得的IP地址的存储节点3(“存储节点B”)(S4)。此时,该冗余化部22指定与“控制软件A”一同构成冗余化组26的“控制软件B”作为要用该差数据更新结构信息21的控制软件20。
这样,收到该差数据的“存储节点B”的冗余化部22基于该差数据,将“控制软件B”所保持的结构信息21更新为与“控制软件A”保持的结构信息21相同。
根据以上所述,构成同一个冗余化组26的2个控制软件20(“控制软件A”和“控制软件B”)各自保持的2个结构信息21被维持为相同的内容。
(2-2-2)存储节点发生故障时的处理的流程
接着,对于构成集群6的某一个存储节点3中发生了故障的情况下的处理的流程进行说明。另外,此处,如图8所示,说明“存储节点A”中发生故障,该“存储节点A”中安装的“控制软件A”和“控制软件H”停止运行的情况下的处理的流程。
该情况下,检测到该故障的某一个集群控制部23将该故障对代表集群控制部23通知。此处,设“存储节点B”的集群控制部23被选定为代表集群控制部23,该通知对“存储节点B”的集群控制部23给出。
接收到该通知的代表集群控制部23,参照控制软件管理表25(图6),对与“控制软件A”一同构成冗余化组26的“控制软件B”所安装在的“存储节点B”的集群控制部23通知“控制软件A”中发生了故障的消息。另外,代表集群控制部23对与“控制软件H”一同构成冗余化组26的“控制软件G”所安装在的“存储节点D”的集群控制部23通知“控制软件H”中发生了故障的消息(S10)。
接收了该通知的“存储节点B”的集群控制部23将此前设定为被动模式的“控制软件B”的状态变更为主动模式(S11)。由此此前由“控制软件A”执行的I/O处理被“控制软件B”接管。
另外,接收了该通知的“存储节点D”的集群控制部23,对与“控制软件G”关联的冗余化部22,给出即使之后“控制软件G”所保持的结构信息21被更新的情况下、也不将其差数据传输至“存储节点A”的指示(S12)。
接着,代表集群控制部23为了使“控制软件B”和“控制软件G”的冗余化结构恢复,如图9所示,分别决定要作为“控制软件A”的新的配置位置的存储节点3和要作为“控制软件H”的新的配置位置的存储节点3,将决定结果对各存储节点3内的集群控制部23分别通知(S13)。
此时,代表集群控制部23参照存储节点管理表24(图5),选择与构成同一个冗余化组26的其他控制软件20已经配置在的存储节点3不同的存储节点3、并且与构成该冗余化组26的其他控制软件20已经配置在的存储节点3属于不同的故障组的存储节点3,作为“控制软件A”和“控制软件H”的新的配置位置。另外,代表集群控制部23在这样的存储节点3(可以成为“控制软件A”和“控制软件H”的新的配置位置的候选的存储节点3)存在多个的情况下,参照存储管理表24和控制软件管理表25,将负荷低的存储节点3分别决定为“控制软件A”和“控制软件H”的新的配置位置。
其中,“负荷低的存储节点3”指的是可以成为候选的存储节点3中的、即使配置控制软件20也不超过存储节点3所具有的存储装置的容量、CPU负荷、存储器量、后端网络5的通信带宽的容许范围的存储节点3中CPU负荷最低的。此处,设分别将“控制软件A”的新的配置位置决定为“存储节点3”、将“控制软件H”的新的配置位置决定为“存储节点B”。另外,此处所谓“容许范围”,如果是容量和存储器量则指的是存储节点3所具有的存储装置的容量和存储器量的范围内,如果是CPU负荷则指的是100%以下,如果是后端网络5则指的是能够使用的通信带宽的范围内,或者,如果存在对于该容量、CPU负荷、存储器量和或后端网络5的通信带宽事先分别设定的阈值则指的是其范围内。以下也是同样的。
接收了该通知的“存储节点B”的集群控制部23对本存储节点3内的冗余化部22给出将“控制软件B”所保持的结构信息21完整复制至“控制软件A”的新的配置位置即“存储节点C”的指示(S14)。另外,接受了该指示的该冗余化部22将该结构信息21经由后端网络5传输至“存储节点C”(S15)。然后,接收了该结构信息21的“存储节点C”的集群控制部23将该结构信息21与“控制软件A”关联地保存在存储器11(图2)中。
另外,“控制软件B”保持的结构信息21向“存储节点C”的完整复制完成时,之后,“存储节点B”的冗余化部22每当“控制软件B”保持的结构信息21被更新时开始将与原来的结构信息21的差数据传输至“存储节点C”,由此“控制软件B”所保持的结构信息21与复制至“存储节点C”的结构信息21被同步地更新(S16)。
同样,接收了该通知的“存储节点4”的集群控制部23对本存储节点3内的冗余化部22给出将“控制软件G”保持的结构信息21完整复制至“控制软件H”的新的配置位置即“存储节点B”的指示(S17)。另外,接受了该指示的该冗余化部22将该结构信息21经由后端网络5传输至“存储节点B”(S18)。然后,接收了该结构信息21的“存储节点B”的集群控制部23将该结构信息21与“控制软件H”关联地保存在存储器11中。
另外,在“控制软件G”所保持的结构信息21向“存储节点B”的完整复制完成的情况下,之后,也是“存储节点D”的冗余化部22每当“控制软件G”保持的结构信息21被更新时开始将与原来的结构信息21的差数据传输至“存储节点B”,由此“控制软件G”保持的结构信息21与复制至“存储节点B”的结构信息21被同步地更新(S19)。
之后,“存储节点C”的集群控制部23使“存储节点C”中安装的控制软件20作为新的“控制软件A”以被动模式起动(S20)。同样,“存储节点B”的集群控制部23使“存储节点B”中安装的控制软件20作为新的“控制软件H”以被动模式起动(S21)。由此“控制软件B”和“控制软件G”的冗余化结构被恢复。
然后,代表集群控制部23之后与上述这样的结构变更相应地对自身管理的控制软件管理表25进行更新。具体而言,代表集群控制部23将控制软件管理表25中的与“控制软件A”对应的行的运行节点ID栏25D(图6)中保存的节点ID变更为“控制软件A”的新的配置位置即“存储节点C”的节点ID,并且将控制软件管理表25中的与“控制软件H”对应的行的运行节点ID栏25D中保存的节点ID变更为“控制软件H”的新的配置位置即“存储节点B”的节点ID。
另外,代表集群控制部23将这样更新的自身管理的控制软件管理表25的内容对同一个集群6内的各存储节点3的集群控制部23分别通知(S22)。这样,接受了该通知的各集群控制部23以成为与从代表集群控制部23通知的新的控制软件管理表25的内容相同的内容的方式分别更新自身管理的控制软件管理表25。
通过以上所述,“存储节点A”中发生了故障的情况下的一系列处理结束。
另外,上述例子中,如图9所示,最终成为在“存储节点B”上“控制软件B”、“控制软件C”和“控制软件H”这3个控制软件20运行,在“存储节点C”上“控制软件A”、“控制软件D”和“控制软件E”这3个控制软件20运行的结构,但为了抑制CPU负荷和存储器消费量,也可以将控制软件20的结构信息21合并,由一部分控制软件20接管其他控制软件20的I/O处理,由此减少在存储节点3上运行的控制软件20的数量。
例如,图9的例子中,能够将“控制软件C”所保持的结构信息21合并至“控制软件B”所保持的结构信息21而使“控制软件B”接管“控制软件C”的I/O处理,使属于同一个冗余化组的“控制软件C”和“控制软件D”停止。
另外,集群6内的存储节点3被削减(撤去某一个存储节点3)时在集群6内执行的处理的流程也基本上与上述相同。但是,该情况下,本信息处理系统1的管理者预先指定撤去对象的存储节点3,对代表集群控制部23给出将该存储节点3上运行的全部控制软件20移动至同一个集群6内的其他存储节点3的指示(以下将其称为全部控制软件移动指示)。
然后,收到该全部控制软件移动指示的代表集群控制部23,按照该全部控制软件移动指示,按将“撤去对象的存储节点3”与上述“发生了故障的存储节点3”置换的内容执行步骤S11以后的处理。由此,管理者在直到上述步骤S22的处理完成后,能够将撤去对象的存储节点3从集群6中撤去。
(2-2-3)存储节点增设时的流程
接着,说明从图7的状态起,如图10所示,在集群6内新增设“存储节点E”这一存储节点3的情况下在该集群6内执行的处理的流程。
首先,增设了“存储节点E”之后,使该“存储节点E”中安装的集群控制部23起动时,从该集群控制部23将“存储节点E”的CPU负荷和存储器消费量等信息对该集群6内的各存储节点3的集群控制部23分别通知。
然后,接收了该通知的上述代表集群控制部23(“存储节点B”的集群控制部23)为了各存储节点3的负荷平准化(再平衡),从此前在“存储节点A”~“存储节点D”中的某一个存储节点3中安装的“控制软件A”~“控制软件H”中决定要重新配置至增设的“存储节点E”的控制软件20。然后,代表集群控制部23将该决定结果对该集群6内的各集群控制部23分别通知(S30)。
此时,代表集群控制部23基于“存储节点A”~“存储节点E”的CPU负荷和空闲存储器量、和后端网络5的空闲带宽的大小,以使它们平准化的方式、并且以尽可能不使多个主动模式的控制软件20在同一个存储节点3上运行的方式决定重新配置至“存储节点E”的控制软件20。此处,设“存储节点A”上安装的“控制软件H”被决定为重新配置至“存储节点E”的控制软件20。
另一方面,与“控制软件H”一同构成冗余化组26的“控制软件G”安装在的“存储节点D”的集群控制部23,接收该决定结果时,对冗余化部22给出将在该冗余化组26中是主动模式的“控制软件G”的结构信息21完整复制至“存储节点E”的指示(S31)。另外,接受了该指示的冗余化部22将“控制软件G”的结构信息21经由后端网络5传输至“存储节点E”(S32)。这样,接收了该结构信息21的“存储节点E”的集群控制部23将该结构信息21保存在存储器11中。
另外,“存储节点D”的冗余化部22完成将“控制软件G”的结构信息21复制至“存储节点E”时,每当“控制软件G”的结构信息21被更新时开始将与该结构信息21的更新前的差数据经由后端网络5传输至“存储节点E”。这样,“存储节点E”内的“控制软件G”的结构信息21的复制结果(即结构信息21)被基于该差数据更新,由此“控制软件G”的结构信息21、与“存储节点E”内的“控制软件G”的结构信息21的复制结果的同步开始。
之后,“存储节点D”的集群控制部23如图11所示,对冗余化部22给出将“控制软件G”的冗余化目标设为仅有“存储节点E”的指示(S33)。另外,“存储节点D”的集群控制部23对“存储节点E”的集群控制部23通知“控制软件G”所保持的结构信息21向“存储节点E”的完整复制已完成的消息。
这样,接收了该通知的“存储节点E”的集群控制部23使该“存储节点E”中安装的控制软件20作为新的“控制软件H”以被动模式起动(S34)。另外,“存储节点E”的集群控制部23对原来的“控制软件H”所运行在的“存储节点A”的集群控制部23通知该消息。
然后,接受了该通知的“存储节点A”的集群控制部23使本存储节点3内运行的“控制软件H”的运行停止(S35)。通过以上所述,“控制软件H”向“存储节点E”的重新配置完成。
之后,代表集群控制部23与上述这样的系统的结构变更相应地对自身管理的控制软件管理表25进行更新。具体而言,代表集群控制部23将控制软件管理表25中的与“控制软件H”对应的行的运行节点ID栏25D(图6)中保存的节点ID,变更为“控制软件H”的新的配置位置即“存储节点E”的节点ID。
另外,代表集群控制部23将这样更新的自身所管理的控制软件管理表25的内容对同一个集群6内的各存储节点3的集群控制部23分别通知(S36)。这样,接受了该通知的各集群控制部23以成为与从代表集群控制部23通知的新的控制软件管理表25的内容相同的内容的方式分别更新自身管理的控制软件管理表25。
另一方面,代表集群控制部23之后参照存储节点管理表24和控制软件管理表25,在“存储节点E”的CPU负荷和空闲存储器量、和后端网络5的通信带宽充裕的情况下,如图12所示,对“存储节点E”的集群控制部23给出使新的控制软件20作为主动模式的“控制软件I”起动的指示。这样,接受了该“控制软件I”的起动指示的“存储节点E”的集群控制部23使该“存储节点E”内此时未使用的控制软件20作为“控制软件I”以主动模式起动(S37)。
另外,代表集群控制部23决定与“控制软件I”构成同一个冗余化组26的控制软件20(以下设其为“控制软件J”)的配置位置的存储节点3。此时,代表集群控制部23参照存储管理表24和控制软件管理表25,将负荷低的存储节点3决定为“控制软件J”的配置位置。此处,设“存储节点A”被决定为“控制软件J”的配置位置。
然后,代表集群控制部23对这样决定的存储节点3(“存储节点A”)的集群控制部23,给出使新的控制软件20作为被动模式的“控制软件J”起动的指示。这样,接受了该指示的“存储节点A”的集群控制部23在该“存储节点A”内使新的控制软件20作为“控制软件J”以被动模式起动(S38)。
之后,代表集群控制部23将“控制软件J”所配置在的存储节点3的节点ID对“存储节点E”的集群控制部23通知。另外,接受了该通知的“存储节点E”的集群控制部23将与“控制软件I”构成冗余化组26的控制软件20(“控制软件J”)的控制软件ID、和该控制软件20所配置在的存储节点3(“存储节点A”)的节点ID对本存储节点3内的冗余化部22通知(S39)。另外,以下,将这样从“存储节点E”的集群控制部23对本存储节点3内的冗余化部22给出的通知称为ID通知。
另外,代表集群控制部23与上述这样新的冗余化组26的构建相应地对自身管理的控制软件管理表25进行更新。具体而言,代表集群控制部23在控制软件管理表25中新登录“控制软件I”和“控制软件J”。
另外,代表集群控制部23在控制软件管理表25中的与“控制软件I”对应的行的状态栏25B(图6)中保存“主动”,在该行的组ID栏25C(图6)中保存对“控制软件I”构成的冗余化组26赋予的组ID,进而在该行的运行节点ID栏25D中保存“控制软件I”的配置位置即“存储节点E”的节点ID。
进而,代表集群控制部23在控制软件管理表25中的与“控制软件J”对应的行的状态栏25B(图6)中保存“被动”,在该行的组ID栏25C(图6)中保存对“控制软件J”构成的冗余化组26赋予的组ID,进而在该行的运行节点ID栏25D中保存“控制软件J”的配置位置即“存储节点A”的节点ID。
另一方面,接受了上述ID通知的冗余化部22之后开始接受对“控制软件I”的读请求和写请求,并且之后每当“控制软件I”的结构信息21被变更时,将与原来的结构信息21的差作为差数据发送至“控制软件J”所安装在的“存储节点A”,由此使“控制软件J”的结构信息21总是与“控制软件I”的结构信息21同步地变更(S40)。
另外,代表集群控制部23将这样更新的自身所管理的控制软件管理表25的内容对同一个集群6内的各存储节点3的集群控制部23分别通知(S41)。这样,接受了该通知的各集群控制部23以成为与从代表集群控制部23通知的新的控制软件管理表25的内容相同的内容的方式各自更新自身所管理的控制软件管理表25。
另外在如上所述增设了存储节点3之后、在增设的存储节点3上使控制软件20立刻运行的应用之外,也可以应用应对集群6内的其他存储节点3的负荷急剧增大的情况、而在存储节点3增设后不立刻在该存储节点3上使控制软件20运行、而是使该存储节点3保持空闲的应用。
(2-2-4)主动-主动结构
图13表示在各冗余化组26中、构成该冗余化组26的2个控制软件20都被设定为主动模式的情况下的集群6的逻辑结构例。
该情况下,在各冗余化组26中,在任意一个控制软件20更新了结构信息21的情况下,都将与更新前的结构信息21的差作为差数据传输至对方的控制软件20所运行在的存储节点3,基于该差数据将该对方的控制软件20所保持的结构信息21更新(S42)。由此,构成同一个冗余化组26的2个控制软件20各自保持的2个结构信息21总是被维持为相同的内容(同步地更新)。
另外,冗余化组26被设定为主动-主动结构的情况下,存储节点3发生故障时和增设时的处理的流程,也与对于图7~图12以上叙述的主动-被动结构的情况相同,因此省略此处的说明。
(2-3)存储节点增减设置时等的各程序的具体的处理内容
接着,对于上述存储节点3增减设置时等的代表集群控制部23和冗余化部22的具体的处理内容进行说明。另外,以下,以集群控制部23和冗余化部22等“程序”作为各种处理的处理主体进行说明,但实际上,基于该“程序”,由存储节点3的CPU10(图2)执行该处理。
(2-3-1)冗余化恢复处理
图14表示集群6内的某一个存储节点3中发生了故障的情况下、由该集群6内的代表集群控制部23执行的冗余化恢复处理的处理流程。
代表集群控制部23在平常时,如上所述地与该代表集群控制部23所属的集群6内的各存储节点3中分别安装的集群控制部23定期地通信,从这些各集群控制部23收集用于在对于图5以上叙述的存储节点管理表24、和对于图6以上叙述的控制软件管理表25中保存的信息。
另外,代表集群控制部23与该处理并行地执行图14所示的冗余化恢复处理,基于是否能够与各存储节点3的集群控制部23进行该定期的通信,来监视某一个存储节点3中是否发生了故障,或者监视是否收到了撤去某一个存储节点3的规定指示(S50)。
然后,代表集群控制部23因为检测出某一个存储节点3中发生了故障而在步骤S50中得到肯定结果时,对于发生了故障的存储节点3中配置的每一个控制软件(以下将其称为不能运行控制软件)20,以使与该不能运行控制软件20构成同一个冗余化组26的其他控制软件(以下将其称为同一个组内控制软件)20接管该不能运行控制软件20的I/O处理的方式,对该同一个组内控制软件20所配置在的存储节点3的集群控制部23给出指示(S51)。
此时,代表集群控制部23在该同一个组内控制软件20存在多个的情况下,将这些同一个组内控制软件20中的、即使接管不能运行控制软件20发生故障前使用的存储装置的容量、CPU负荷、存储器使用量和后端网络5的通信带宽、也不超过存储装置的容量、CPU负荷、存储器量和后端网络5的通信带宽的容许范围的存储节点3中配置的同一个组内控制软件20决定为要接管不能运行控制软件20的I/O处理的控制软件20,对该同一个组内控制软件20所配置在的存储节点3的集群控制部23给出指示。
这样,接受了该指示的集群控制部23参照控制软件管理表25,在同一个组内控制软件20被设定为被动模式的情况下,将该同一个组内控制软件20的状态变更为主动模式。
接着,代表集群控制部23执行决定作为该不能运行控制软件20的替代的新的控制软件20的配置位置的存储节点(以下将其称为配置位置存储节点)3的配置位置存储节点决定处理(S52)。例如,由不能运行控制软件20和同一个组内控制软件20构成的冗余化组26是主动-主动结构的情况下,代表集群控制部23参照存储节点管理表24(图5),将负荷低的存储节点3决定为该配置位置存储节点3。
接着,代表集群控制部23判断是否通过步骤S52的配置位置存储节点决定处理成功决定了该配置位置存储节点3(S53)。然后,代表集群控制部23在该判断中得到了否定结果的情况下,结束该冗余化恢复处理。
与此相对,代表集群控制部23在步骤S53的判断中得到肯定结果时,对上述同一个组内控制软件20所安装在的存储节点3的集群控制部23通知如上所述地决定的配置位置存储节点3的节点ID(S54)。
这样,接受了该通知的集群控制部23对本存储节点3的冗余化部22给出将同一个组内控制软件20所保持的结构信息21传输至配置位置存储节点3的指示。另外,接受了该指示的冗余化部22通过将同一个组内控制软件20所保持的结构信息21经由后端网络5传输至配置位置存储节点3,而将该结构信息21完整复制至该配置位置存储节点3。
另外,该冗余化部22之后在同一个组内控制软件20所保持的结构信息21被更新的情况下,将与更新前的结构信息21的差数据经由后端网络5传输至配置位置存储节点3。这样,在配置位置存储节点3一方,基于该差数据将该结构信息21的副本更新,由此同一个组内控制软件20保持的结构信息21、与配置位置存储节点3中的该结构信息21的副本被完全同步地更新。
另一方面,代表集群控制部12在步骤S54的处理后,等待同一个组内控制软件20所保持的结构信息21、与配置位置存储节点3中的该结构信息21的副本结束同步(S55)。然后,代表集群控制部23在这2个结构信息21最终结束同步时,对配置位置存储节点3的集群控制部23给出使作为不能运行控制软件20的替代的控制软件20起动的指示(S56)。
这样,接受了该指示的配置位置存储节点3的集群控制部23使此时未使用的控制软件20起动。此时,该集群控制部23在将由该控制软件20和同一个组内控制软件20构成的冗余化组26设为主动-被动结构的情况下,使该控制软件20以被动模式起动,在将该冗余化组26设为主动-主动结构情况下,使该控制软件20以主动模式起动。另外,该集群控制部23之后将步骤S54中完整复制至配置位置存储节点3的结构信息21与该控制软件20关联。这样,该控制软件20之后保持该结构信息21,基于该结构信息21执行I/O处理。
接着,代表集群控制部23将本存储节点3所保持的控制软件管理表25(图6)更新为如上所述地将不能运行控制软件20替换为步骤S56中起动的控制软件20后的状态(S57)。
具体而言,代表集群控制部23在本存储节点3内的控制软件管理表25中的与不能运行控制软件20对应的行的状态栏25B(图6)中保存表示该不能运行控制软件20不再能够使用的“死机”。
另外,代表集群控制部23确保1个该控制软件管理表25的未使用的行,在该行的控制软件ID栏25A(图6)中保存对步骤S56中起动的控制软件20赋予的该控制软件20固有的控制软件ID,在该行的状态栏25B(图6)中保存该控制软件20的状态(“主动”或“被动”),在该行的组ID栏25C(图6)中保存与不能运行控制软件20同一个冗余化组26的组ID,在该行的运行节点ID栏25D(图6)中保存配置位置存储节点3的节点ID。
进而,代表集群控制部23对同一个集群6内的其他存储节点3的集群控制部23,给出与上述同样地更新控制软件管理表25的指示。
然后,代表集群控制部23在如上所述地完成更新集群6内的各存储节点3的控制软件管理表25时返回步骤S50,之后,同样地反复进行步骤S50以后的步骤。
另外,收到指定了撤去对象的存储节点3的上述全部控制软件移动指示的情况下的代表集群控制部23的处理内容也与上述相同。该情况下,执行将上述“不能运行控制软件20”置换为“在撤去对象的存储节点3上运行的控制软件20”的处理。
(2-3-2)配置位置存储节点决定处理
图15表示在该冗余化恢复处理(图14)的步骤S52中由代表集群控制部23执行的配置位置存储节点决定处理的具体的处理流程。
代表集群控制部23前进至冗余化恢复处理的步骤S52时,开始该图15所示的配置位置存储节点决定处理,首先,参照存储节点管理表24(图5),生成将集群6内的各存储节点3的节点ID按CPU负荷从低到高的存储节点3的顺序排列的列表(以下将其称为配置位置节点候选列表)(S60)。此时,代表集群控制部23在CPU负荷相同的存储节点3存在多个的情况下,将控制软件20的运行数更少的存储节点3在这些存储节点3中设定为更接近开头的顺位。
接着,代表集群控制部23从在步骤S60中生成的配置位置节点候选列表中记载了节点ID的各存储节点3中选择开头的节点ID(S61),参照控制软件管理表25(图6)判断在与所选择的节点ID对应的存储节点(以下将其称为第一选择存储节点)3上是否有与不能运行控制软件20属于同一个冗余化组26的控制软件20(即同一个组内控制软件20)正在运行(S62)。然后,代表集群控制部23在该判断中得到肯定结果时前进至步骤S65。
与此相对,代表集群控制部23在步骤S62的判断中得到否定结果时,参照存储节点管理表24,判断第一选择存储节点3是否与与不能运行控制软件20属于同一个冗余化组26的其他控制软件20配置在的存储节点属于同一个故障组(S63)。然后,代表集群控制部23在该判断中得到肯定结果时,前进至步骤S65。
与此相对,代表集群控制部23在步骤S63的判断中得到否定结果时,参照存储节点管理表24,判断在第一选择存储节点3上配置了作为不能运行控制软件20的替代的控制软件20的情况下,是否超过第一选择存储节点3的存储装置的容量、CPU负荷、存储器量和后端网络5的通信带宽的容许范围(S64)。另外,作为替代的控制软件20使用的使用容量、CPU负荷、存储器使用量和使用通信带宽,例如能够通过在发生故障后立刻由控制软件管理表25保存不能运行控制软件20曾使用的CPU负荷、存储器使用量和使用通信带宽而判断。
然后,代表集群控制部23在步骤S64的判断中得到否定结果时,将被赋予了之前的步骤S61中选择的节点ID的存储节点(第一选择存储节点)3决定为上述配置位置存储节点3(S67),之后,结束该配置位置存储节点决定处理并返回冗余化恢复处理(图14)。
与此相对,代表集群控制部23在步骤S64的判断中得到肯定结果时,将之前的步骤S61中选择的节点ID从配置位置节点候选列表中删除后(S65),判断配置位置节点候选目标列表是否成为空(S66)。
然后,代表集群控制部23在该判断中得到否定结果时返回步骤S61,之后,同样地执行步骤S61以后的处理。另外,代表集群控制部23在步骤S66的判断中得到肯定结果时,结束该配置位置存储节点决定处理。
(2-3-3)再平衡处理
另一方面,图16表示在集群6中增设了存储节点3的情况、和在集群6中未增设存储节点3的情况下也定期或不定期地由该集群6内的代表集群控制部23执行的再平衡处理的处理流程。代表集群控制部23按照该处理流程,使集群6内的某一个控制软件20的功能移动至该集群6内的其他存储节点3(在集群6中增设了存储节点3的情况下,为该增设的存储节点(以下将其称为增设存储节点)3),由此在集群6内使各存储节点3的负荷分散。
实际上,该代表集群控制部23识别出增设了新的存储节点3、或者再平衡处理的定期或不定期的执行时机到来时,开始该图16所示的再平衡处理,首先,执行分别决定移动至集群6内的其他存储节点3(包括增设存储节点3)的控制软件(以下将其称为移动对象控制软件)20、和作为该移动对象控制软件20的移动目标(目的地)的存储节点(以下将其称为移动目标存储节点)3的移动对象控制软件和移动目标存储节点决定处理(S70)。
例如,代表集群控制部23,在各冗余化组26是主动-被动结构的情况下,将负荷高的存储节点3中安装的控制软件20中、设定为被动模式的1个控制软件20决定为移动对象控制软件20。另外,代表集群控制部23在集群6内增设了存储节点3的情况下,将增设存储节点3决定为移动目标存储节点3。
接着,代表集群控制部23对步骤S70中决定的移动对象控制软件20所运行在的存储节点3的集群控制部23,通知移动对象控制软件20的控制软件ID、和作为该移动对象控制软件20的移动目标的存储节点(移动目标存储节点)3的节点ID(S71)。
这样,接收了该通知的集群控制部23对本存储节点3内的冗余化部22给出对通知的移动目标存储节点3传输移动对象控制软件20所保持的结构信息21的指示。另外,接受了该指示的冗余化部22将移动对象控制软件20所保持的结构信息21,经由后端网络5传输至移动目标存储节点3。然后,存储节点3的集群控制部23接收该结构信息21时,将其保存在存储器11中。另外,该冗余化部22之后以使移动对象控制软件20保持的结构信息21、与移动目标存储节点3保持的该结构信息21的副本同步的方式,将差数据经由后端网络5传输至移动目标存储节点3。
另一方面,代表集群控制部23在步骤S71的处理后,等待移动对象控制软件20保持的结构信息21、与复制至移动目标存储节点3的结构信息21结束同步(S72)。然后,代表集群控制部23在这2个结构信息21终于结束同步时,对移动目标存储节点3的集群控制部23给出使作为移动对象控制软件20的替代的控制软件20起动的指示(S73)。
这样,收到该指示的移动目标存储节点3的集群控制部23,使作为移动对象控制软件20的替代的控制软件20起动。此时,该集群控制部23在移动对象控制软件20以被动模式运行的情况下使该控制软件20也以被动模式起动,在移动对象控制软件20以主动模式运行的情况下使该控制软件20也以主动模式起动。
之后,代表集群控制部23对移动对象控制软件20所运行在的存储节点3的集群控制部23,给出使移动对象控制软件20的运行停止的指示(S74)。这样,接受了该指示的集群控制部23使该移动对象控制软件20的运行停止。
接着,代表集群控制部23将本存储节点3所保持的控制软件管理表25(图6)更新为如上所述地将移动对象控制软件20替换为步骤S73中起动的控制软件20后的状态,并且对其他集群控制部23也给出同样地更新控制软件管理表25的指示(S75)。
具体而言,代表集群控制部23将本存储节点3内的控制软件管理表25中的与移动对象控制软件20对应的行的运行节点ID栏25D(图6)中保存的节点ID更新为移动目标存储节点3的节点ID。另外,代表集群控制部23对同一个集群6内的其他存储节点3的集群控制部23,给出与此同样地更新控制软件管理表25的指示。
接着,代表集群控制部23生成新的冗余化组26,分别决定构成该冗余化组26的各控制软件20的配置位置的存储节点3(S76)。该情况下,代表集群控制部23将构成该冗余化组26的各控制软件20中的1个控制软件20的配置位置决定为移动目标存储节点3,对于其他控制软件20的配置位置通过对于图15以上叙述的配置位置存储节点决定处理决定。
进而,代表集群控制部23按照步骤S76的决定结果,将构成新的冗余化组26的各控制软件20分别配置在步骤S76中决定的存储节点3中(S77)。具体而言,代表集群控制部23对移动目标存储节点3、和步骤S76中决定的各存储节点3的集群控制部23给出使新的控制软件20起动的指示。这样,接受了该指示的各集群控制部23,分别使本存储节点3内此时未使用的控制软件20起动。
此时,代表集群控制部23对步骤S77中起动的2个控制软件20中的要设定为主动模式的控制软件20所安装在的存储节点3(移动目标存储节点3)的集群控制部23,通知对方的控制软件20所配置在的存储节点3的节点ID(S78)。
这样,接受了该通知的集群控制部23,对本存储节点3内的冗余化部22通知该对方的控制软件20的控制软件ID、和该对方的控制软件20安装在的存储节点3的节点ID。另外,接受了该通知的集群控制部23,开始受理对该控制软件20的读请求和写请求,并且每当该控制软件20所保持的结构信息21被更新时,将与原来的结构信息21的差作为差数据经由后端网络5传输至对方的控制软件20安装在的存储节点3,由此使该对方的控制软件20保持的结构信息21同样地更新。
之后,代表集群控制部23基于步骤S76~步骤S78的处理结果对本存储节点3内的控制集群管理表25(图6)进行更新,进而与此同样地使其他存储节点3内的控制集群管理表25更新(S79)。
具体而言,代表集群控制部23在本存储节点3内的控制软件管理表25中分别新登录构成此时新生成的冗余化组26的各控制软件20,在与这些控制软件20中的、在移动目标存储节点3上运行的控制软件20对应的行的状态栏25B(图6)中保存“主动”,在与另一方的控制软件20对应的行的状态栏25B中保存“被动”。另外,代表集群控制部23在这些行的组ID栏25C(图6)中分别保存对此时生成的冗余化组26赋予的组ID,进而在这些行的运行节点ID栏(图6)中分别保存分别对应的控制软件20所运行在的存储节点3的节点ID。
进而,代表集群控制部23将这样更新的自身管理的控制软件管理表25的内容对同一个集群6内的各存储节点3的集群控制部23分别通知。这样,接受了该通知的各集群控制部23以成为与从代表集群控制部23通知的新的控制软件管理表25的内容相同的内容的方式分别更新自身管理的控制软件管理表25。
之后,代表集群控制部23结束该再平衡处理。
(2-3-4)移动对象控制软件和移动目标存储节点决定处理
图17表示在该再平衡处理的步骤S70中由代表集群控制部23执行的移动对象控制软件和移动目标(目的地)存储节点决定处理的具体的处理流程。
代表集群控制部23前进至再平衡处理的步骤S70时,开始该图17所示的移动对象控制软件和移动目标存储节点决定处理,首先,参照存储节点管理表24(图5),生成将集群6内的各存储节点3的节点ID按CPU负荷从高到低的存储节点的顺序排列的列表(以下将其称为移动源节点候选列表)(S80)。此时,代表集群控制部23在CPU负荷相同的存储节点3存在多个的情况下,将控制软件20的运行数更多的存储节点3在这些存储节点3中设定为更接近开头的顺位。
接着,代表集群控制部23从在步骤S80中生成的移动源节点候选列表中记载了节点ID的各存储节点3中选择开头的节点ID(S81),参照控制软件管理表25(图6)判断在与选择的节点ID对应的存储节点(以下将其称为第二选择存储节点)3上是否有1个以上控制软件20正在运行(S82)。然后,代表集群控制部23在该判断中得到否定结果时前进至步骤S86。
与此相对,代表集群控制部23在步骤S82的判断中得到肯定结果时,选择步骤S81中选择的节点ID的存储节点3上运行的控制软件20中的1个,将其决定为移动对象控制软件20(S83)。作为移动对象控制软件20的选择方法,例如为了抑制移动中对I/O性能的影响而选择设定为被动模式的控制软件20。或者,不存在设定为被动模式的控制软件20的情况下,选择设定为主动模式的控制软件20中的、CPU负荷低的控制软件20。
接着,代表集群控制部23通过执行对于图15以上叙述的配置位置存储节点决定处理,而决定移动对象控制软件20的配置位置存储节点(移动目标存储节点)3(S84)。
进而,代表集群控制部23判断是否通过步骤S84的配置位置存储节点决定处理成功决定了移动对象控制软件20的配置位置存储节点(移动目标存储节点)3(S85)。然后,代表集群控制部23在该判断中得到肯定结果时,结束该移动对象控制软件决定处理并返回再平衡处理。
与此相对,代表集群控制部23在步骤S85的判断中得到否定结果时,将步骤S81中选择的节点ID从移动源节点候选列表中删除后(S86),判断移动源节点候选列表是否成为空(S87)。
然后,代表集群控制部23在该判断中得到否定结果时返回步骤S81,之后,同样地执行步骤S81以后的处理。另外,代表集群控制部23在步骤S87的判断中得到肯定结果时,结束该移动对象控制软件决定处理并返回再平衡处理。
(3)本实施方式的效果
如以上所述,在本实施方式中,将构成同一个冗余化组26的控制软件20,以使构成集群6的各存储节点3的负荷分散的方式,分散地配置在分别不同的存储节点3中,因此控制软件20被分散地配置在各存储节点3中。
从而,根据本实施方式的信息处理系统1,能够用集群6内的各存储节点3分散处理负荷,有效地使用各存储节点3的CPU10和存储器11、存储装置12以及第一和第二通信装置13、14等信息处理资源。
另外,本信息处理系统1中,因存储节点3被削减或发生故障、冗余化组26的某一个控制软件20不再能够运行的情况下,作为其替代的控制软件20和该控制软件20使用的结构信息21也被立刻再现在适当的存储节点3上,因此能够总是可靠地维持控制软件20的冗余结构,相应地,能够提高系统整体的可用性和可靠性。
进而,本信息处理系统1中,在存储节点3增设时集群3内的某一个控制软件20被重新配置在该存储节点3中,所以能够不增加本信息处理系统1的管理者的作业地进行存储节点3的负荷分散,相应地,能够使系统整体的管理变得容易。
(4)其他实施方式
另外,上述实施方式中,叙述了由代表集群控制部23执行图14~图17的处理的情况,但本发明不限于此,也可以在存储节点3之外,将由服务器装置等计算机装置构成的管理装置(管理部)与存储服务网络4和后端网络5连接,由该管理装置代替代表集群控制部23执行图14~图17的处理的一部分或全部。
另外,上述实施方式中,叙述了在集群6中增设了存储节点3的情况下执行对于图16以上叙述的再平衡处理的情况,但本发明不限于此,也可以为了使各存储节点3的负荷分散,而适当地进行将必要的控制软件20重新配置在其他存储节点3中的再平衡处理。
另外,上述实施方式中,叙述了以将负荷分散至全部存储节点3的方式配置控制软件20的再平衡处理(图16),但本发明不限于此,也可以采用平常时,在一部分存储节点3中不配置主动模式的控制软件20,或者不限主动模式或被动模式地不配置控制软件20自身的分散方式。即,可以采用准备使存储装置的容量、CPU负荷、存储器量、后端网络5的通信带宽充裕的存储节点3,由此防止发生故障时计算资源不足的分散方式。
另外,也可以是在服务器上虚拟机管理器运行,在虚拟机管理器上1个或多个虚拟计算机运行,在该虚拟计算机上,图3所示的各种程序运行。即,各种程序(控制软件20、冗余化部22、集群控制部23)可以在物理计算机的硬件上运行,也可以在虚拟计算机上运行。同样地,计算节点2可以是在虚拟计算机上运行的应用程序(主机程序),也可以是物理的主机计算机(主机计算机)。信息处理系统1具有多个服务器时,服务器的一部分可以位于不同的地点。另外,也可以是信息处理系统1的服务器的一部分或全部存在于云上,经由网络对用户提供服务。
各种程序(控制软件20、冗余化部22、集群控制部23)所运行在的虚拟计算机、和主机程序所运行在的虚拟计算机可以是存在于同一个服务器(节点)上的结构(超融合基础架构(Hyper-Converged Infrastructure)),也可以是存在于经由网络连接的不同的服务器上的结构。
工业上的可利用性
本发明能够广泛应用于具有多个存储节点的各种结构的信息处理系统。
附图标记说明
1…信息处理系统,2…计算节点,3…存储节点,4…存储服务网络,5…后端网络,6…集群,10…CPU,11…存储器,12…存储装置,20…控制软件,21…结构信息,22…冗余化部,23…集群控制部,24…存储节点管理表,25…控制软件管理表。
Claims (10)
1.一种具有多个存储节点的存储系统,其特征在于:
所述存储节点包括:
各自提供存储区域的1个或多个存储装置;和
响应来自上级装置的请求而对相应的所述存储装置读写所请求的数据的1个或多个控制软件,
各所述控制软件分别保持响应来自所述上级装置的请求而对相应的所述存储装置读写所请求的数据所需的规定的结构信息,
多个所述控制软件被作为冗余化组来管理,属于同一个所述冗余化组的各所述控制软件各自保持的所述结构信息被同步地更新,
构成所述冗余化组的多个所述控制软件被分别配置在不同的所述存储节点中以使各所述存储节点的负荷分散。
2.如权利要求1所述的存储系统,其特征在于:
属于同一个所述冗余化组的多个所述控制软件中的至少1个所述控制软件被设定为受理来自所述上级装置的请求的第一状态,并且属于该冗余化组的其余所述控制软件被设定为不受理来自所述上级装置的请求的第二状态,
属于不同的所述冗余化组的多个所述控制软件被配置在同一个所述存储节点中,
以将设定为所述第一状态的多个所述控制软件尽可能地不配置在同一个所述存储节点中的方式分别决定各所述控制软件的配置位置。
3.如权利要求2所述的存储系统,其特征在于:
包括管理由多个所述存储节点构成的集群内的各所述控制软件的管理部,
所述管理部,在所述存储节点被削减时或发生故障时,将与配置在该存储节点中的所述第一状态的所述控制软件属于同一个所述冗余化组的所述第二状态的任意个所述控制软件切换为所述第一状态。
4.如权利要求3所述的存储系统,其特征在于:
所述存储节点包括:
运行所述控制软件的中央处理装置;和
用作所述中央处理装置的工作存储器的存储器,
所述管理部,当可接管配置在被削减或发生了故障的所述存储节点中的、设定为所述第一状态的所述控制软件的处理的所述控制软件的候选存在多个时,使该控制软件中的配置在下述存储节点中的所述控制软件接管该处理,其中,接管该处理的所述控制软件所配置的存储节点不会使所述中央处理装置的当前的负荷、所述存储器的当前的空闲容量、和与其他所述存储节点之间的网络的当前可使用通信带宽各自超过该负荷、该空闲容量和该通信带宽的容许范围。
5.如权利要求1所述的存储系统,其特征在于:
包括管理由多个所述存储节点构成的集群内的各所述控制软件的管理部,
所述管理部,对于所述控制软件的数量因所述存储节点被削减或发生故障而减少的所述冗余化组,在未配置属于该冗余化组的所述控制软件的所述存储节点中,使新的所述控制软件起动来作为配置在被削减或发生了故障的所述存储节点中的所述控制软件的替代。
6.如权利要求5所述的存储系统,其特征在于:
所述存储节点包括:
运行所述控制软件的中央处理装置;和
用作所述中央处理装置的工作存储器的存储器;
所述管理部,当能够成为作为配置在被削减或发生了故障的所述存储节点中的所述控制软件的替代的新的所述控制软件的配置位置的所述存储节点存在多个时,将该存储节点中的下述存储节点决定为作为配置在被削减或发生了故障的所述存储节点中的所述控制软件的替代的新的所述控制软件的配置位置,其中,决定为配置位置的所述存储节点不会使所述中央处理装置的当前的负荷、所述存储器的当前的空闲容量、和与其他所述存储节点之间的网络的当前可使用通信带宽各自超过该负荷、该空闲容量和该通信带宽的容许范围。
7.如权利要求1所述的存储系统,其特征在于:
包括管理由多个所述存储节点构成的集群内的各所述控制软件的管理部,
所述管理部,在所述集群内增设了所述存储节点的情况下,将配置在该集群内的其他所述存储节点中的一部分所述控制软件重新配置在增设的所述存储节点中。
8.如权利要求1所述的存储系统,其特征在于:
包括管理由多个所述存储节点构成的集群内的各所述控制软件的管理部,
所述管理部,在所述集群内增设了所述存储节点的情况下,生成新的所述冗余化组,将属于该冗余化组的1个所述控制软件配置在增设的所述存储节点中,将属于该冗余化组的其他所述控制软件配置在其他所述存储节点中。
9.如权利要求8所述的存储系统,其特征在于:
所述存储节点包括:
运行所述控制软件的中央处理装置;和
用作所述中央处理装置的工作存储器的存储器;
所述管理部,当能够成为属于新的所述冗余化组的其他所述控制软件的配置位置的所述存储节点存在多个时,将该存储节点中的下述存储节点决定为该其他控制软件的配置位置,其中,决定为配置位置的所述存储节点不会使所述中央处理装置的当前的负荷、所述存储器的当前的空闲容量、和与其他所述存储节点之间的网络的当前可使用通信带宽各自不超过该负荷、该空闲容量和该通信带宽的容许范围。
10.一种在存储系统中配置控制软件的控制软件配置方法,其中所述存储系统具有各自搭载了1个或多个存储装置的多个存储节点,所述控制软件响应来自上级装置的请求而对相应的所述存储装置读写所请求的数据,所述控制软件配置方法的特征在于:
各所述控制软件各自保持响应来自所述上级装置的请求而对相应的所述存储装置读写所请求的数据所需的规定的结构信息,
多个所述控制软件被作为冗余化组来管理,
所述控制软件配置方法包括:
第一步骤,将构成所述冗余化组的多个所述控制软件分别配置在不同的所述存储节点中以使各所述存储节点的负荷分散;和
第二步骤,将属于同一个所述冗余化组的各所述控制软件各自保持的所述结构信息同步地更新。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-231220 | 2017-11-30 | ||
JP2017231220A JP6791834B2 (ja) | 2017-11-30 | 2017-11-30 | 記憶システム及び制御ソフトウェア配置方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857445A true CN109857445A (zh) | 2019-06-07 |
CN109857445B CN109857445B (zh) | 2022-06-10 |
Family
ID=63556884
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810869345.9A Active CN109857445B (zh) | 2017-11-30 | 2018-08-02 | 存储系统和控制软件配置方法 |
Country Status (3)
Country | Link |
---|---|
US (4) | US10083100B1 (zh) |
JP (1) | JP6791834B2 (zh) |
CN (1) | CN109857445B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110990129A (zh) * | 2019-10-17 | 2020-04-10 | 上海海加网络科技有限公司 | 一种基于智能启发式算法的分布式存储系统调度方法 |
CN112306390A (zh) * | 2019-07-26 | 2021-02-02 | 株式会社日立制作所 | 存储控制系统以及方法 |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11360844B1 (en) * | 2015-10-23 | 2022-06-14 | Pure Storage, Inc. | Recovery of a container storage provider |
US10514978B1 (en) | 2015-10-23 | 2019-12-24 | Pure Storage, Inc. | Automatic deployment of corrective measures for storage arrays |
US11132274B2 (en) * | 2018-03-01 | 2021-09-28 | Target Brands, Inc. | Establishing and monitoring programming environments |
US10613780B1 (en) * | 2018-10-09 | 2020-04-07 | Cohesity, Inc. | Multi-node removal |
US10951469B2 (en) | 2019-01-31 | 2021-03-16 | EMC IP Holding Company LLC | Consumption-based elastic deployment and reconfiguration of hyper-converged software-defined storage |
US10708135B1 (en) * | 2019-01-31 | 2020-07-07 | EMC IP Holding Company LLC | Unified and automated installation, deployment, configuration, and management of software-defined storage assets |
US11029936B2 (en) * | 2019-04-11 | 2021-06-08 | Microsoft Technology Licensing, Llc | Deploying packages to devices in a fleet in stages |
US11221837B2 (en) | 2019-04-11 | 2022-01-11 | Microsoft Technology Licensing, Llc | Creating and deploying packages to devices in a fleet based on operations derived from a machine learning model |
CN110333770B (zh) * | 2019-07-10 | 2023-05-09 | 合肥兆芯电子有限公司 | 存储器管理方法、存储器存储装置及存储器控制电路单元 |
JP7419956B2 (ja) * | 2020-04-28 | 2024-01-23 | オムロン株式会社 | 情報処理装置、情報処理方法およびプログラム |
CN111708677B (zh) * | 2020-06-19 | 2023-07-07 | 浪潮云信息技术股份公司 | 一种云计算环境下的云硬盘使用量采集方法 |
CN112015568A (zh) * | 2020-07-06 | 2020-12-01 | 尚特杰电力科技有限公司 | 一种实现rtu远程升级和配置多线程并行的方法及系统 |
JP2022033515A (ja) | 2020-08-17 | 2022-03-02 | 株式会社日立製作所 | 記憶システム及び記憶制御方法 |
JP7149313B2 (ja) * | 2020-09-28 | 2022-10-06 | 株式会社日立製作所 | 記憶システム及びその制御方法 |
TWI739676B (zh) * | 2020-11-25 | 2021-09-11 | 群聯電子股份有限公司 | 記憶體控制方法、記憶體儲存裝置及記憶體控制電路單元 |
US11902089B2 (en) * | 2020-12-18 | 2024-02-13 | Dell Products L.P. | Automated networking device replacement system |
JP7331027B2 (ja) | 2021-02-19 | 2023-08-22 | 株式会社日立製作所 | スケールアウト型ストレージシステム及び記憶制御方法 |
JPWO2022196104A1 (zh) * | 2021-03-15 | 2022-09-22 | ||
JP7266060B2 (ja) * | 2021-04-30 | 2023-04-27 | 株式会社日立製作所 | ストレージシステムの構成変更方法及びストレージシステム |
JP7520773B2 (ja) * | 2021-06-16 | 2024-07-23 | 株式会社日立製作所 | 記憶システムおよびデータ処理方法 |
CN113407222B (zh) * | 2021-06-17 | 2022-11-11 | 南方电网数字电网研究院有限公司 | 一种服务更新方法、装置、计算机设备和存储介质 |
JP2023045641A (ja) | 2021-09-22 | 2023-04-03 | 株式会社日立製作所 | ストレージシステム及び制御方法 |
JP7498731B2 (ja) * | 2022-01-17 | 2024-06-12 | 株式会社日立製作所 | クラスタシステム、復旧方法 |
US11609698B1 (en) | 2022-03-31 | 2023-03-21 | Hitachi, Ltd. | Data storage system and storage control method including storing a log related to the stored data |
JP2023151189A (ja) * | 2022-03-31 | 2023-10-16 | 株式会社日立製作所 | ストレージシステム及びその制御方法 |
JP7506707B2 (ja) | 2022-04-28 | 2024-06-26 | 株式会社日立製作所 | 記憶システム及び障害対処方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005115506A (ja) * | 2003-10-06 | 2005-04-28 | Hitachi Ltd | ストレージシステム |
CN101004587A (zh) * | 2006-01-13 | 2007-07-25 | 艾默生过程管理电力和水力解决方案有限公司 | 用于正常和失配状况期间无缝切换的冗余控制器同步方法 |
JP2009048360A (ja) * | 2007-08-17 | 2009-03-05 | Fujitsu Ltd | ストレージ管理プログラム、ストレージ管理装置およびストレージ管理方法 |
CN102307221A (zh) * | 2011-03-25 | 2012-01-04 | 国云科技股份有限公司 | 一种云存储系统及其实现方法 |
CN107003945A (zh) * | 2014-12-23 | 2017-08-01 | 英特尔公司 | 缓冲存储器中的推测性读 |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6804730B1 (en) * | 1999-11-17 | 2004-10-12 | Tokyo Electron Device Limited | Access control device, access control method, recording medium, and computer data signal for controlling allowance of access to storage area using certification data |
US7111084B2 (en) * | 2001-12-28 | 2006-09-19 | Hewlett-Packard Development Company, L.P. | Data storage network with host transparent failover controlled by host bus adapter |
JP4297747B2 (ja) * | 2003-08-06 | 2009-07-15 | 株式会社日立製作所 | ストレージ装置 |
JP4147198B2 (ja) * | 2004-03-23 | 2008-09-10 | 株式会社日立製作所 | ストレージシステム |
JP2007086972A (ja) * | 2005-09-21 | 2007-04-05 | Hitachi Ltd | ストレージシステム、二重化制御方法、及びプログラム |
JP2007299227A (ja) * | 2006-04-28 | 2007-11-15 | Toshiba Corp | 情報処理装置及び情報処理装置のブート方法 |
CN101604250B (zh) * | 2008-06-12 | 2014-07-16 | 普安科技股份有限公司 | 储存虚拟化系统中更新实体储存装置的控制程序的方法 |
WO2011027388A1 (en) * | 2009-09-02 | 2011-03-10 | Hitachi,Ltd. | Storage system and control method |
JP5839774B2 (ja) | 2010-01-06 | 2016-01-06 | 三菱重工業株式会社 | 計算機及び計算機管理方法並びに計算機管理プログラム |
US20110231452A1 (en) * | 2010-03-19 | 2011-09-22 | Hitachi, Ltd. | Storage system and resource management method for storage system |
JP5767480B2 (ja) * | 2011-01-31 | 2015-08-19 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 情報処理装置、情報処理システム、配置構成決定方法、プログラムおよび記録媒体 |
JP5744244B2 (ja) * | 2011-10-19 | 2015-07-08 | 株式会社日立製作所 | ストレージシステム |
WO2013152216A1 (en) * | 2012-04-04 | 2013-10-10 | Nec Laboratories America, Inc. | Balancing database workloads through migration |
JP5872433B2 (ja) * | 2012-10-04 | 2016-03-01 | 日本電信電話株式会社 | 仮想マシン配置装置および仮想マシン配置方法 |
WO2014196000A1 (ja) * | 2013-06-03 | 2014-12-11 | 株式会社日立製作所 | ストレージ装置およびストレージ装置制御方法 |
KR102012259B1 (ko) * | 2013-08-21 | 2019-08-21 | 한국전자통신연구원 | 클라우드 가상 기지국의 자원을 제어하는 방법 및 장치 |
US9575855B2 (en) * | 2013-09-06 | 2017-02-21 | Hitachi, Ltd. | Storage apparatus and failure location identifying method |
JP2015060375A (ja) * | 2013-09-18 | 2015-03-30 | 日本電気株式会社 | クラスタシステム、クラスタ制御方法及びクラスタ制御プログラム |
WO2015068299A1 (ja) * | 2013-11-11 | 2015-05-14 | 株式会社日立製作所 | 管理計算機および計算機システムの管理方法 |
US9798596B2 (en) * | 2014-02-27 | 2017-10-24 | Commvault Systems, Inc. | Automatic alert escalation for an information management system |
US10187256B2 (en) * | 2014-10-09 | 2019-01-22 | Netapp Inc. | Configuration replication across distributed storage systems |
US9665292B2 (en) * | 2015-01-08 | 2017-05-30 | Dell Products, Lp | System and method for providing consistent metadata for RAID solutions |
US9836367B2 (en) * | 2015-08-28 | 2017-12-05 | Netapp, Inc. | Trust relationship migration for data mirroring |
-
2017
- 2017-11-30 JP JP2017231220A patent/JP6791834B2/ja active Active
-
2018
- 2018-03-02 US US15/910,063 patent/US10083100B1/en active Active
- 2018-08-02 CN CN201810869345.9A patent/CN109857445B/zh active Active
- 2018-09-18 US US16/133,798 patent/US10621060B2/en active Active
-
2020
- 2020-03-24 US US16/827,914 patent/US11144415B2/en active Active
-
2021
- 2021-10-08 US US17/496,980 patent/US11636015B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005115506A (ja) * | 2003-10-06 | 2005-04-28 | Hitachi Ltd | ストレージシステム |
CN101004587A (zh) * | 2006-01-13 | 2007-07-25 | 艾默生过程管理电力和水力解决方案有限公司 | 用于正常和失配状况期间无缝切换的冗余控制器同步方法 |
JP2009048360A (ja) * | 2007-08-17 | 2009-03-05 | Fujitsu Ltd | ストレージ管理プログラム、ストレージ管理装置およびストレージ管理方法 |
CN102307221A (zh) * | 2011-03-25 | 2012-01-04 | 国云科技股份有限公司 | 一种云存储系统及其实现方法 |
CN107003945A (zh) * | 2014-12-23 | 2017-08-01 | 英特尔公司 | 缓冲存储器中的推测性读 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112306390A (zh) * | 2019-07-26 | 2021-02-02 | 株式会社日立制作所 | 存储控制系统以及方法 |
CN112306390B (zh) * | 2019-07-26 | 2024-04-16 | 株式会社日立制作所 | 存储控制系统以及方法 |
CN110990129A (zh) * | 2019-10-17 | 2020-04-10 | 上海海加网络科技有限公司 | 一种基于智能启发式算法的分布式存储系统调度方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2019101703A (ja) | 2019-06-24 |
US10621060B2 (en) | 2020-04-14 |
US10083100B1 (en) | 2018-09-25 |
US11144415B2 (en) | 2021-10-12 |
CN109857445B (zh) | 2022-06-10 |
US20200226042A1 (en) | 2020-07-16 |
JP6791834B2 (ja) | 2020-11-25 |
US20220027246A1 (en) | 2022-01-27 |
US11636015B2 (en) | 2023-04-25 |
US20190163593A1 (en) | 2019-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857445A (zh) | 存储系统和控制软件配置方法 | |
KR102051282B1 (ko) | 선택적 리소스 이동을 이용하는 네트워크 결합 메모리 | |
CN105549904B (zh) | 一种应用于存储系统中的数据迁移方法及存储设备 | |
US8918392B1 (en) | Data storage mapping and management | |
JP5158074B2 (ja) | ストレージ管理プログラム、ストレージ管理方法、ストレージ管理装置およびストレージシステム | |
US9170743B2 (en) | Management method of virtual storage system and remote copy system | |
CN112099918A (zh) | 容器化环境中的集群的实时迁移 | |
JP5052376B2 (ja) | ストレージシステム及びストレージシステムにおける論理ユニットの引継方法 | |
JP6734251B2 (ja) | システム及びその制御方法並びにプログラム | |
CN109857334A (zh) | 存储系统及其控制方法 | |
JP2011516994A (ja) | 冗長データ記憶システムへの指示に従ってのデータ配置 | |
TW201039121A (en) | Intelligent tiers of backup data | |
JP2005222539A (ja) | 複数のコントローラ間に仮想ストレージセグメントを割り当てる能力を有するストレージシステム | |
JP2005216306A (ja) | データを移動することなく仮想ストレージデバイス群を移動させる能力を含むストレージシステム | |
JP5243991B2 (ja) | ストレージシステム、容量管理方法、および管理計算機 | |
CN107924289A (zh) | 计算机系统和访问控制方法 | |
CN108205573B (zh) | 一种数据分布式存储方法及系统 | |
JP7191059B2 (ja) | ストレージシステムおよびストレージシステムの分析方法 | |
CN109597903A (zh) | 图像文件处理装置和方法、文件存储系统及存储介质 | |
CN109154882A (zh) | 结构封装的弹性存储 | |
JP6961045B2 (ja) | システム及びその制御方法並びにプログラム | |
CN105353984A (zh) | 基于软磁盘阵列的高可用集群控制器、控制方法及系统 | |
WO2016174739A1 (ja) | 複合計算機システム、管理計算機、およびデータ連携管理方法 | |
JP7057408B2 (ja) | 記憶システム及びその制御方法 | |
JP4473206B2 (ja) | 計算機システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |