[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114116216A - 一种基于vip实现分布式块存储高可用方法和装置 - Google Patents

一种基于vip实现分布式块存储高可用方法和装置 Download PDF

Info

Publication number
CN114116216A
CN114116216A CN202111403414.5A CN202111403414A CN114116216A CN 114116216 A CN114116216 A CN 114116216A CN 202111403414 A CN202111403414 A CN 202111403414A CN 114116216 A CN114116216 A CN 114116216A
Authority
CN
China
Prior art keywords
vip
high availability
block storage
session
distributed block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111403414.5A
Other languages
English (en)
Inventor
刘爱贵
王孝海
阮薛平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dadao Yunxing Technology Co ltd
Original Assignee
Beijing Dadao Yunxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dadao Yunxing Technology Co ltd filed Critical Beijing Dadao Yunxing Technology Co ltd
Priority to CN202111403414.5A priority Critical patent/CN114116216A/zh
Publication of CN114116216A publication Critical patent/CN114116216A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0617Improving the reliability of storage systems in relation to availability
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0629Configuration or reconfiguration of storage systems
    • G06F3/0631Configuration or reconfiguration of storage systems by allocating resources to storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Hardware Redundancy (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及存储技术领域,具体涉及一种基于vip实现分布式块存储高可用方法和装置,本发明在分布式块存储集群中节点间分配多个VIP,来实现iSCSI高可用和负载均衡,多VIP保证在多个客户端链接到存储时,可以将链接均匀地分布到集群所有节点,达到链接数量、流量的均衡。本发明通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,保证了存储协议客户端的连接可靠性。本发明支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性。

Description

一种基于vip实现分布式块存储高可用方法和装置
技术领域
本发明涉及存储技术领域,具体涉及一种基于vip实现分布式块存储高可用方法和装置。
背景技术
随着存储技术的发展,iSCSI作为软件定义存储的通用接口,具有构建价格低、客户端丰富通用等优点,大幅促进了存储局域网络(SAN)的普及应用。但在高可用性方面提供的冗余访问机制存在成本、客户端支持、配置管理复杂等缺点。一般情况下iSCSI协议提供了3种机制,即网卡绑定、多会话、多链接。
iSCSI的底层是IP与以太网,理论上可直接从网卡实施,利用Port Trunking/Teaming/Link Aggregation的方式,将主机上的多张网卡捆绑在1个IP下,再连接到iSCSI存储设备上,搭配iSCSI存储设备传输埠上的对应设定,从而实现实体多路径连接。见图1。
多会话可允许1个iSCSI Initiator透过多个Session连入同1个iSCSI Target设备,以便利用多网卡或iSCSI HBA启用故障失效切换机制,也可称作Multiple Sessionsper Initiator。见图2。
多链接可允许在同一个Session中,在iSCSI Initiator与iSCSI Target间建立多个TCP/IP连接,同样也能让用户利用多张网卡或iSCSI HBA启用故障失效切换机制。见图3。
简而言之,多会话是在更高的网络堆栈层上运作,且多条存取路径间的负载平衡机制,是针对1个指定的独立逻辑驱动器(LUN)运作;而多链接则iSCSI层上运作,具有更好的传输验证能力。
物理网卡绑定方式的问题在于,需有多张网卡或网络端口连接到Target端。主机若没有2个以上的网络端口可用,自然谈不上多路径存取,且需要额外的网卡管理工具,如图2所示,绑定方式在分布式环境中缺少节点间同步。因此只能作为其他方案的补充。
多会话和多链接需要iSCSI Initiator软件与提供iSCSI设备软件支持才能建立多路径存取,各主要操作系统厂商提供的iSCSI Initiator软件存在差异,在通用性上存在缺陷,并且多会话和多链接需要客户端额外配置管理。
发明内容
针对现有技术的不足,本发明公开了一种基于vip实现分布式块存储高可用方法和装置,用于在分布式块存储集群中节点间分配多个VIP,来实现iSCSI高可用和负载均衡。
本发明通过以下技术方案予以实现:
第一方面,本发明提供了一种基于vip实现分布式块存储高可用方法,包括以下步骤:
S1获取集群所有节点,通过raft算法选举出master节点,将master建立到所有target服务的心跳;
S2根据targetID建立统一hash视图,并将多VIP均匀分配到视图中;
S3各节点VIP服务向master获取分配结果,并active或inactive VIP;并在应用记录收到更新后active/inactivelocalVIP通过ARP广播到业务网;
S4在iSCSIinitiator收到ARP后,发送reset指令给服务,通过session处理新旧链接;
S5当master通过心跳调整target视图后,重复S1-S4重新应用浮动IP,保证服务IP可用,进而实现iSCSI协议高可用。
更进一步的,所述方法中,通过raft算法选举出master节点,采用外部组件etcd工具选举和漂移master。
更进一步的,所述方法中,master将多VIP均匀分配到视图中,过程采用一致性hash算法,实现多VIP均衡。
更进一步的,所述方法中,通过VIP服务订阅应用记录,在收到更新后active/inactivelocalVIP,并通过ARP广播到业务网。
更进一步的,所述方法中,session处理新旧链接时,重新建立session,session管理器切换新旧session。
更进一步的,所述方法中,session处理新旧链接时,将旧session上的onflydata全部重试。
更进一步的,所述方法通过统一视图保证浮动IP一定能绑定到集群中可用的target服务上。
更进一步的,所述方法中,VIP用于向客户端提供一个固定的“虚拟”访问地址。
更进一步的,所述方法中,VIP为一个或多个,并在一个或多个客户端链接到存储时,将链接均匀地分布到集群所有节点。
第二方面,本发明提供了一种基于vip实现分布式块存储高可用装置,所述装置用于实现第一方面所述的基于vip实现分布式块存储高可用方法,包括
master节点,用于通过raft算法在存储节点间选出的控制节点,控制VIP的分布和漂移;
slave节点,用于接受master同步的统一视图,对外公布可用VIP;
vip服务,用于运行在所有节点上,用于active或inactivevip,并向业务网进行ARP广播;
session管理器,用于在VIP切换过程中,记录新旧session,并处理旧session上的onflydata。
本发明的有益效果为:
本发明通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,从而保证了存储协议客户端的连接可靠性。
本发明支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明背景技术网卡绑定高可用模式图;
图2是本发明背景技术多会话高可用图;
图3是本发明背景技术多链接高可用图;
图4是本发明实施例VIP分配流程图;
图5是本发明实施例VIP服务流程图;
图6是本发明实施例session管理器切换流程图;
图7是本发明实施例VIP漂移流程图;
图8是本发明实施例VIP高可用效果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本实施例提供了一种基于vip实现分布式块存储高可用方法,包括以下步骤:
S1获取集群所有节点,通过raft算法选举出master节点,将master建立到所有target服务的心跳;
S2根据targetID建立统一hash视图,并将多VIP均匀分配到视图中;
S3各节点VIP服务向master获取分配结果,并active或inactive VIP;并在应用记录收到更新后active/inactivelocalVIP通过ARP广播到业务网;
S4在iSCSIinitiator收到ARP后,发送reset指令给服务,通过session处理新旧链接;
S5当master通过心跳调整target视图后,重复S1-S4重新应用浮动IP,保证服务IP可用,进而实现iSCSI协议高可用。
本实施例在分布式块存储集群中节点间分配多个VIP,来实现iSCSI高可用和负载均衡。
本实施例VIP即Virtual IP Address,VIP用于向客户端提供一个固定的“虚拟”访问地址,以避免后端服务器发生切换时对客户端的影响。
本实施例多VIP保证在多个客户端链接到存储时,可以将链接均匀地分布到集群所有节点,达到链接数量、流量的均衡。
实施例2
在具体实施层面,本实施例提供了一种基于vip实现分布式块存储高可用方法的具体实施,具体如下:
1)集群所有节点通过raft算法选举出master节点,本发明中采用外部组件etcd工具选举和漂移master。
2)master建立到所有target服务的心跳,并根据targetID建立统一hash视图。
3)master将多VIP均匀分配到视图中,本过程采用一致性hash算法,实现了多VIP均衡。
4)各节点vip服务向master获取分配结果,并active或inactive VIP。具体流程见图4。
5)VIP服务订阅应用记录,收到更新后active/inactivelocalVIP,并通过ARP广播到业务网。具体见图5。
6)session处理新旧链接,iSCSIinitiator收到ARP后,发送reset指令给服务,重新建立session,session管理器切换新旧session,并将旧session上的onflydata全部重试。具体见图6。
7)当master通过心跳调整target视图后,重复1-6步骤重新应用浮动IP。保证服务IP可用,从而实现iSCSI协议高可用。具体见图7。
本实施例通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,从而保证了存储协议客户端的连接可靠性。
本实施例支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性,其效果图如8所示。
实施例3
本实施例提供了一种基于vip实现分布式块存储高可用装置,包括
master节点,用于通过raft算法在存储节点间选出的控制节点,控制VIP的分布和漂移;
slave节点,用于接受master同步的统一视图,对外公布可用VIP;
vip服务,用于运行在所有节点上,用于active或inactivevip,并向业务网进行ARP广播;
session管理器,用于在VIP切换过程中,记录新旧session,并处理旧session上的onflydata。
综上,本发明通过在统一视图上漂移IP方式实现高可用网络协议,统一视图保证浮动IP一定能绑定到集群中可用的target服务上,由于分布式存储服务的高可用性,即能保证在集群可用情况下,VIP一定可用,从而保证了存储协议客户端的连接可靠性。
本发明支持通用硬件,通用iSCSI客户端,不增加硬件成本和客户端配置管理工作。优化了软件定义存储产品的可用性及通用性。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于vip实现分布式块存储高可用方法,其特征在于,包括以下步骤:
S1获取集群所有节点,通过raft算法选举出master节点,将master建立到所有target服务的心跳;
S2根据targetID建立统一hash视图,并将多VIP均匀分配到视图中;
S3各节点VIP服务向master获取分配结果,并active或inactive VIP;并在应用记录收到更新后active/inactivelocalVIP通过ARP广播到业务网;
S4在iSCSIinitiator收到ARP后,发送reset指令给服务,通过session处理新旧链接;
S5当master通过心跳调整target视图后,重复S1-S4重新应用浮动IP,保证服务IP可用,进而实现iSCSI协议高可用。
2.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,通过raft算法选举出master节点,采用外部组件etcd工具选举和漂移master。
3.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,master将多VIP均匀分配到视图中,过程采用一致性hash算法,实现多VIP均衡。
4.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,通过VIP服务订阅应用记录,在收到更新后active/inactivelocalVIP,并通过ARP广播到业务网。
5.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,session处理新旧链接时,重新建立session,session管理器切换新旧session。
6.根据权利要求5所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,session处理新旧链接时,将旧session上的onflydata全部重试。
7.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法通过统一视图保证浮动IP一定能绑定到集群中可用的target服务上。
8.根据权利要求1所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,VIP用于向客户端提供一个固定的“虚拟”访问地址。
9.根据权利要求8所述的基于vip实现分布式块存储高可用方法,其特征在于,所述方法中,VIP为一个或多个,并在一个或多个客户端链接到存储时,将链接均匀地分布到集群所有节点。
10.一种基于vip实现分布式块存储高可用装置,所述装置用于实现如权利要求1-9任一项所述的基于vip实现分布式块存储高可用方法,其特征在于,包括
master节点,用于通过raft算法在存储节点间选出的控制节点,控制VIP的分布和漂移;
slave节点,用于接受master同步的统一视图,对外公布可用VIP;
vip服务,用于运行在所有节点上,用于active或inactivevip,并向业务网进行ARP广播;
session管理器,用于在VIP切换过程中,记录新旧session,并处理旧session上的onflydata。
CN202111403414.5A 2021-11-24 2021-11-24 一种基于vip实现分布式块存储高可用方法和装置 Pending CN114116216A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111403414.5A CN114116216A (zh) 2021-11-24 2021-11-24 一种基于vip实现分布式块存储高可用方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111403414.5A CN114116216A (zh) 2021-11-24 2021-11-24 一种基于vip实现分布式块存储高可用方法和装置

Publications (1)

Publication Number Publication Date
CN114116216A true CN114116216A (zh) 2022-03-01

Family

ID=80371870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111403414.5A Pending CN114116216A (zh) 2021-11-24 2021-11-24 一种基于vip实现分布式块存储高可用方法和装置

Country Status (1)

Country Link
CN (1) CN114116216A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115103004A (zh) * 2022-06-30 2022-09-23 浪潮电子信息产业股份有限公司 一种会话建立方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453360A (zh) * 2016-10-26 2017-02-22 上海爱数信息技术股份有限公司 基于iSCSI协议的分布式块存储数据访问方法及系统
CN109032830A (zh) * 2018-07-25 2018-12-18 广东浪潮大数据研究有限公司 一种分布式存储系统的故障恢复方法、系统及相关组件
CN113301005A (zh) * 2020-09-29 2021-08-24 阿里云计算有限公司 数据获取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453360A (zh) * 2016-10-26 2017-02-22 上海爱数信息技术股份有限公司 基于iSCSI协议的分布式块存储数据访问方法及系统
CN109032830A (zh) * 2018-07-25 2018-12-18 广东浪潮大数据研究有限公司 一种分布式存储系统的故障恢复方法、系统及相关组件
CN113301005A (zh) * 2020-09-29 2021-08-24 阿里云计算有限公司 数据获取方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115103004A (zh) * 2022-06-30 2022-09-23 浪潮电子信息产业股份有限公司 一种会话建立方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110912780B (zh) 一种高可用集群检测方法、系统及受控终端
TWI724106B (zh) 資料中心間的業務流量控制方法、裝置及系統
CN107078969B (zh) 实现负载均衡的计算机设备、系统和方法
US7911939B2 (en) Fault tolerant symmetric multi-computing system
US8880935B2 (en) Redundancy and load balancing in remote direct memory access communications
US7089281B1 (en) Load balancing in a dynamic session redirector
US8842518B2 (en) System and method for supporting management network interface card port failover in a middleware machine environment
US9037719B2 (en) Hypervisor level distributed load-balancing
US9762669B2 (en) Service management roles of processor nodes in distributed node service management
US11734138B2 (en) Hot standby method, apparatus, and system
US6944785B2 (en) High-availability cluster virtual server system
US6112249A (en) Non-disruptively rerouting network communications from a secondary network path to a primary path
US5917997A (en) Host identity takeover using virtual internet protocol (IP) addressing
CN104468151B (zh) 一种集群切换时保持tcp会话的系统和方法
US7805520B2 (en) Storage system, program and method
CN110928637A (zh) 负载均衡方法和系统
US10771402B2 (en) Link aggregated fibre channel over ethernet system
CN114116216A (zh) 一种基于vip实现分布式块存储高可用方法和装置
JPH1027146A (ja) 通信処理装置及び通信処理方法
US20240364622A1 (en) Multi-host link aggregation for active-active cluster
CN118101442A (zh) 网络状态恢复方法、处理系统和计算设备集群
KR20100111443A (ko) 금융업무처리 시스템 및 그 제어 방법
JPH04252537A (ja) 通信処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220301