CN114116216A - 一种基于vip实现分布式块存储高可用方法和装置 - Google Patents
一种基于vip实现分布式块存储高可用方法和装置 Download PDFInfo
- Publication number
- CN114116216A CN114116216A CN202111403414.5A CN202111403414A CN114116216A CN 114116216 A CN114116216 A CN 114116216A CN 202111403414 A CN202111403414 A CN 202111403414A CN 114116216 A CN114116216 A CN 114116216A
- Authority
- CN
- China
- Prior art keywords
- vip
- high availability
- block storage
- session
- distributed block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0614—Improving the reliability of storage systems
- G06F3/0617—Improving the reliability of storage systems in relation to availability
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0629—Configuration or reconfiguration of storage systems
- G06F3/0631—Configuration or reconfiguration of storage systems by allocating resources to storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Software Systems (AREA)
- Hardware Redundancy (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及存储技术领域,具体涉及一种基于vip实现分布式块存储高可用方法和装置,本发明在分布式块存储集群中节点间分配多个VIP,来实现iSCSI高可用和负载均衡,多VIP保证在多个客户端链接到存储时,可以将链接均匀地分布到集群所有节点,达到链接数量、流量的均衡。本发明通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,保证了存储协议客户端的连接可靠性。本发明支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性。
Description
技术领域
本发明涉及存储技术领域,具体涉及一种基于vip实现分布式块存储高可用方法和装置。
背景技术
随着存储技术的发展,iSCSI作为软件定义存储的通用接口,具有构建价格低、客户端丰富通用等优点,大幅促进了存储局域网络(SAN)的普及应用。但在高可用性方面提供的冗余访问机制存在成本、客户端支持、配置管理复杂等缺点。一般情况下iSCSI协议提供了3种机制,即网卡绑定、多会话、多链接。
iSCSI的底层是IP与以太网,理论上可直接从网卡实施,利用Port Trunking/Teaming/Link Aggregation的方式,将主机上的多张网卡捆绑在1个IP下,再连接到iSCSI存储设备上,搭配iSCSI存储设备传输埠上的对应设定,从而实现实体多路径连接。见图1。
多会话可允许1个iSCSI Initiator透过多个Session连入同1个iSCSI Target设备,以便利用多网卡或iSCSI HBA启用故障失效切换机制,也可称作Multiple Sessionsper Initiator。见图2。
多链接可允许在同一个Session中,在iSCSI Initiator与iSCSI Target间建立多个TCP/IP连接,同样也能让用户利用多张网卡或iSCSI HBA启用故障失效切换机制。见图3。
简而言之,多会话是在更高的网络堆栈层上运作,且多条存取路径间的负载平衡机制,是针对1个指定的独立逻辑驱动器(LUN)运作;而多链接则iSCSI层上运作,具有更好的传输验证能力。
物理网卡绑定方式的问题在于,需有多张网卡或网络端口连接到Target端。主机若没有2个以上的网络端口可用,自然谈不上多路径存取,且需要额外的网卡管理工具,如图2所示,绑定方式在分布式环境中缺少节点间同步。因此只能作为其他方案的补充。
多会话和多链接需要iSCSI Initiator软件与提供iSCSI设备软件支持才能建立多路径存取,各主要操作系统厂商提供的iSCSI Initiator软件存在差异,在通用性上存在缺陷,并且多会话和多链接需要客户端额外配置管理。
发明内容
针对现有技术的不足,本发明公开了一种基于vip实现分布式块存储高可用方法和装置,用于在分布式块存储集群中节点间分配多个VIP,来实现iSCSI高可用和负载均衡。
本发明通过以下技术方案予以实现:
第一方面,本发明提供了一种基于vip实现分布式块存储高可用方法,包括以下步骤:
S1获取集群所有节点,通过raft算法选举出master节点,将master建立到所有target服务的心跳;
S2根据targetID建立统一hash视图,并将多VIP均匀分配到视图中;
S3各节点VIP服务向master获取分配结果,并active或inactive VIP;并在应用记录收到更新后active/inactivelocalVIP通过ARP广播到业务网;
S4在iSCSIinitiator收到ARP后,发送reset指令给服务,通过session处理新旧链接;
S5当master通过心跳调整target视图后,重复S1-S4重新应用浮动IP,保证服务IP可用,进而实现iSCSI协议高可用。
更进一步的,所述方法中,通过raft算法选举出master节点,采用外部组件etcd工具选举和漂移master。
更进一步的,所述方法中,master将多VIP均匀分配到视图中,过程采用一致性hash算法,实现多VIP均衡。
更进一步的,所述方法中,通过VIP服务订阅应用记录,在收到更新后active/inactivelocalVIP,并通过ARP广播到业务网。
更进一步的,所述方法中,session处理新旧链接时,重新建立session,session管理器切换新旧session。
更进一步的,所述方法中,session处理新旧链接时,将旧session上的onflydata全部重试。
更进一步的,所述方法通过统一视图保证浮动IP一定能绑定到集群中可用的target服务上。
更进一步的,所述方法中,VIP用于向客户端提供一个固定的“虚拟”访问地址。
更进一步的,所述方法中,VIP为一个或多个,并在一个或多个客户端链接到存储时,将链接均匀地分布到集群所有节点。
第二方面,本发明提供了一种基于vip实现分布式块存储高可用装置,所述装置用于实现第一方面所述的基于vip实现分布式块存储高可用方法,包括
master节点,用于通过raft算法在存储节点间选出的控制节点,控制VIP的分布和漂移;
slave节点,用于接受master同步的统一视图,对外公布可用VIP;
vip服务,用于运行在所有节点上,用于active或inactivevip,并向业务网进行ARP广播;
session管理器,用于在VIP切换过程中,记录新旧session,并处理旧session上的onflydata。
本发明的有益效果为:
本发明通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,从而保证了存储协议客户端的连接可靠性。
本发明支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明背景技术网卡绑定高可用模式图;
图2是本发明背景技术多会话高可用图;
图3是本发明背景技术多链接高可用图;
图4是本发明实施例VIP分配流程图;
图5是本发明实施例VIP服务流程图;
图6是本发明实施例session管理器切换流程图;
图7是本发明实施例VIP漂移流程图;
图8是本发明实施例VIP高可用效果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供了一种基于vip实现分布式块存储高可用方法,包括以下步骤:
S1获取集群所有节点,通过raft算法选举出master节点,将master建立到所有target服务的心跳;
S2根据targetID建立统一hash视图,并将多VIP均匀分配到视图中;
S3各节点VIP服务向master获取分配结果,并active或inactive VIP;并在应用记录收到更新后active/inactivelocalVIP通过ARP广播到业务网;
S4在iSCSIinitiator收到ARP后,发送reset指令给服务,通过session处理新旧链接;
S5当master通过心跳调整target视图后,重复S1-S4重新应用浮动IP,保证服务IP可用,进而实现iSCSI协议高可用。
本实施例在分布式块存储集群中节点间分配多个VIP,来实现iSCSI高可用和负载均衡。
本实施例VIP即Virtual IP Address,VIP用于向客户端提供一个固定的“虚拟”访问地址,以避免后端服务器发生切换时对客户端的影响。
本实施例多VIP保证在多个客户端链接到存储时,可以将链接均匀地分布到集群所有节点,达到链接数量、流量的均衡。
实施例2
在具体实施层面,本实施例提供了一种基于vip实现分布式块存储高可用方法的具体实施,具体如下:
1)集群所有节点通过raft算法选举出master节点,本发明中采用外部组件etcd工具选举和漂移master。
2)master建立到所有target服务的心跳,并根据targetID建立统一hash视图。
3)master将多VIP均匀分配到视图中,本过程采用一致性hash算法,实现了多VIP均衡。
4)各节点vip服务向master获取分配结果,并active或inactive VIP。具体流程见图4。
5)VIP服务订阅应用记录,收到更新后active/inactivelocalVIP,并通过ARP广播到业务网。具体见图5。
6)session处理新旧链接,iSCSIinitiator收到ARP后,发送reset指令给服务,重新建立session,session管理器切换新旧session,并将旧session上的onflydata全部重试。具体见图6。
7)当master通过心跳调整target视图后,重复1-6步骤重新应用浮动IP。保证服务IP可用,从而实现iSCSI协议高可用。具体见图7。
本实施例通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,从而保证了存储协议客户端的连接可靠性。
本实施例支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性,其效果图如8所示。
实施例3
本实施例提供了一种基于vip实现分布式块存储高可用装置,包括
master节点,用于通过raft算法在存储节点间选出的控制节点,控制VIP的分布和漂移;
slave节点,用于接受master同步的统一视图,对外公布可用VIP;
vip服务,用于运行在所有节点上,用于active或inactivevip,并向业务网进行ARP广播;
session管理器,用于在VIP切换过程中,记录新旧session,并处理旧session上的onflydata。
综上,本发明通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,从而保证了存储协议客户端的连接可靠性。
本发明支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于vip实现分布式块存储高可用方法,其特征在于,包括以下步骤:
S1获取集群所有节点,通过raft算法选举出master节点,将master建立到所有target服务的心跳;
S2根据targetID建立统一hash视图,并将多VIP均匀分配到视图中;
S3各节点VIP服务向master获取分配结果,并active或inactive VIP;并在应用记录收到更新后active/inactivelocalVIP通过ARP广播到业务网;
S4在iSCSIinitiator收到ARP后,发送reset指令给服务,通过session处理新旧链接;
S5当master通过心跳调整target视图后,重复S1-S4重新应用浮动IP,保证服务IP可用,进而实现iSCSI协议高可用。
2.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,通过raft算法选举出master节点,采用外部组件etcd工具选举和漂移master。
3.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,master将多VIP均匀分配到视图中,过程采用一致性hash算法,实现多VIP均衡。
4.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,通过VIP服务订阅应用记录,在收到更新后active/inactivelocalVIP,并通过ARP广播到业务网。
5.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,session处理新旧链接时,重新建立session,session管理器切换新旧session。
6.根据权利要求5所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,session处理新旧链接时,将旧session上的onflydata全部重试。
7.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法通过统一视图保证浮动IP一定能绑定到集群中可用的target服务上。
8.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,VIP用于向客户端提供一个固定的“虚拟”访问地址。
9.根据权利要求8所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,VIP为一个或多个,并在一个或多个客户端链接到存储时,将链接均匀地分布到集群所有节点。
10.一种基于vip实现分布式块存储高可用装置,所述装置用于实现如权利要求1-9任一项所述的基于vip实现分布式块存储高可用方法,其特征在于,包括
master节点,用于通过raft算法在存储节点间选出的控制节点,控制VIP的分布和漂移;
slave节点,用于接受master同步的统一视图,对外公布可用VIP;
vip服务,用于运行在所有节点上,用于active或inactivevip,并向业务网进行ARP广播;
session管理器,用于在VIP切换过程中,记录新旧session,并处理旧session上的onflydata。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111403414.5A CN114116216A (zh) | 2021-11-24 | 2021-11-24 | 一种基于vip实现分布式块存储高可用方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111403414.5A CN114116216A (zh) | 2021-11-24 | 2021-11-24 | 一种基于vip实现分布式块存储高可用方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114116216A true CN114116216A (zh) | 2022-03-01 |
Family
ID=80371870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111403414.5A Pending CN114116216A (zh) | 2021-11-24 | 2021-11-24 | 一种基于vip实现分布式块存储高可用方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114116216A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115103004A (zh) * | 2022-06-30 | 2022-09-23 | 浪潮电子信息产业股份有限公司 | 一种会话建立方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106453360A (zh) * | 2016-10-26 | 2017-02-22 | 上海爱数信息技术股份有限公司 | 基于iSCSI协议的分布式块存储数据访问方法及系统 |
CN109032830A (zh) * | 2018-07-25 | 2018-12-18 | 广东浪潮大数据研究有限公司 | 一种分布式存储系统的故障恢复方法、系统及相关组件 |
CN113301005A (zh) * | 2020-09-29 | 2021-08-24 | 阿里云计算有限公司 | 数据获取方法及装置 |
-
2021
- 2021-11-24 CN CN202111403414.5A patent/CN114116216A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106453360A (zh) * | 2016-10-26 | 2017-02-22 | 上海爱数信息技术股份有限公司 | 基于iSCSI协议的分布式块存储数据访问方法及系统 |
CN109032830A (zh) * | 2018-07-25 | 2018-12-18 | 广东浪潮大数据研究有限公司 | 一种分布式存储系统的故障恢复方法、系统及相关组件 |
CN113301005A (zh) * | 2020-09-29 | 2021-08-24 | 阿里云计算有限公司 | 数据获取方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115103004A (zh) * | 2022-06-30 | 2022-09-23 | 浪潮电子信息产业股份有限公司 | 一种会话建立方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110912780B (zh) | 一种高可用集群检测方法、系统及受控终端 | |
TWI724106B (zh) | 資料中心間的業務流量控制方法、裝置及系統 | |
CN107078969B (zh) | 实现负载均衡的计算机设备、系统和方法 | |
US7911939B2 (en) | Fault tolerant symmetric multi-computing system | |
US8880935B2 (en) | Redundancy and load balancing in remote direct memory access communications | |
US7089281B1 (en) | Load balancing in a dynamic session redirector | |
US8842518B2 (en) | System and method for supporting management network interface card port failover in a middleware machine environment | |
US9037719B2 (en) | Hypervisor level distributed load-balancing | |
US9762669B2 (en) | Service management roles of processor nodes in distributed node service management | |
US11734138B2 (en) | Hot standby method, apparatus, and system | |
US6944785B2 (en) | High-availability cluster virtual server system | |
US6112249A (en) | Non-disruptively rerouting network communications from a secondary network path to a primary path | |
US5917997A (en) | Host identity takeover using virtual internet protocol (IP) addressing | |
CN104468151B (zh) | 一种集群切换时保持tcp会话的系统和方法 | |
US7805520B2 (en) | Storage system, program and method | |
CN110928637A (zh) | 负载均衡方法和系统 | |
US10771402B2 (en) | Link aggregated fibre channel over ethernet system | |
CN114116216A (zh) | 一种基于vip实现分布式块存储高可用方法和装置 | |
JPH1027146A (ja) | 通信処理装置及び通信処理方法 | |
US20240364622A1 (en) | Multi-host link aggregation for active-active cluster | |
CN118101442A (zh) | 网络状态恢复方法、处理系统和计算设备集群 | |
KR20100111443A (ko) | 금융업무처리 시스템 및 그 제어 방법 | |
JPH04252537A (ja) | 通信処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20220301 |