[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN118764491A - 一种管理实例的方法和实例管理平台 - Google Patents

一种管理实例的方法和实例管理平台 Download PDF

Info

Publication number
CN118764491A
CN118764491A CN202310308241.1A CN202310308241A CN118764491A CN 118764491 A CN118764491 A CN 118764491A CN 202310308241 A CN202310308241 A CN 202310308241A CN 118764491 A CN118764491 A CN 118764491A
Authority
CN
China
Prior art keywords
telescoping
historical
historical task
telescopic
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310308241.1A
Other languages
English (en)
Inventor
田靖轩
郭辉
王文辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Cloud Computing Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Cloud Computing Technologies Co Ltd filed Critical Huawei Cloud Computing Technologies Co Ltd
Priority to CN202310308241.1A priority Critical patent/CN118764491A/zh
Priority to PCT/CN2024/070390 priority patent/WO2024198602A1/zh
Publication of CN118764491A publication Critical patent/CN118764491A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/101Server selection for load balancing based on network conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1029Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers using data related to the state of servers by a load balancer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1031Controlling of the operation of servers by a load balancer, e.g. adding or removing servers that serve requests

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种管理实例的方法和实例管理平台,该方法包括:实例管理平台对伸缩组中运行任务的实例进行监控,以得到实例的资源利用率等监控指标数据,并根据资源利用率生成历史任务画像;实例管理平台使用第一模型根据历史任务画像生成一个或者多个伸缩策略,并向用户推荐该伸缩策略,用户选择之后,实例管理平台再根据用户选择的伸缩策略调整伸缩组中实例的数量或者实例的规格。本方法可以能够使用模型根据历史任务画像自动生成合理的伸缩策略,从而减小了人工配置伸缩策略所引起的配置繁琐、误差大的问题。

Description

一种管理实例的方法和实例管理平台
技术领域
本申请涉及云服务领域,并且更为具体地,涉及一种管理实例的方法和实例管理平台。
背景技术
基于云服务的分布式任务调度系统主要提供任务的切分和编排,以及对任务进行实时、精准的调度,具有例如定时任务、一次性任务、任务编排、分布式执行批量任务等功能。为了提高云服务平台的服务化能力,任务调度系统还需要控制云服务器(ElasticCompute Service,ECS)资源进行弹性伸缩,即在资源忙时补充,闲时回收,从而进一步降低资源成本。
分布式任务调度系统的使用中,使用者需要根据历史经验,制定符合任务执行画像的弹性伸缩策略,即制定用于决定何时伸缩、如何伸缩、采用那种哪种指标进行伸缩的策略,该策略的配置过程繁琐,并且由于人工干预程度较大,容易产生误差。
发明内容
本申请提供一种管理实例的方法和实例管理平台,该方法能够自动生成伸缩策略,解决了伸缩策略配置繁琐、人工干预程度大易产生误差的问题。
第一方面,提供了一种管理实例的方法,该方法包括:实例管理平台监控伸缩组中运行任务的实例,以得到实例的资源利用率,资源利用率包括以下的一种或多种:中央处理器CPU使用率、内存使用率;实例管理平台基于资源利用率生成历史任务画像,历史任务画像包括以下的一种或多种:历史任务时序特征、历史任务资源特征,其中,历史任务时序特征用于指示历史任务在伸缩组运行时的时序上的特性,历史任务资源特征用于指示伸缩组的资源类型,资源类型包括如下的一种或多种:计算密集型、内存型、输入输出密集(In OutIntensive,IO Intensive)型(或称为读写密集型)、图形密集型;实例管理平台使用第一模型根据历史任务画像生成一个或多个伸缩策略,第一模型的输入为历史任务画像,第一模型的输出为一个或者多个伸缩策略;实例管理平台向用户推荐一个或者多个伸缩策略;实例管理平台确定用户选择的伸缩策略;实例管理平台根据用户选择的伸缩策略,调整伸缩组中实例的数量或者实例的规格。
基于上述技术方案,能够充分利用大量优质的数据,使用模型根据历史任务画像自动生成合理的伸缩策略,从而解决了伸缩策略配置繁琐、人工干预误差大的问题,还能够提升伸缩效果;并且,根据历史任务画像来制定伸缩策略,能够减少直接根据监控相关数据来制定伸缩策略所带来的数据计算量大,参数转换繁琐、准确率低等问题,使得伸缩策略的生成更为高效和合理。
结合第一方面,在第一方面的某些实现方式中,伸缩策略包括以下一种或多种:定时伸缩策略、告警伸缩策略,使用第一模型根据历史任务画像生成一个或多个伸缩策略,包括:使用第一模型根据历史任务画像确定定时伸缩策略的以下一种或多种参数:伸缩时间、定时伸缩语义、以及定时伸缩规模;使用第一模型根据历史任务画像确定告警伸缩策略的以下一种或多种参数:告警指标、告警阈值、告警伸缩语义、以及告警伸缩规模。
基于上述实施方式,具体细化了所需要策略生成模型确定的相关参数,能够使得后续伸缩组能够更准确的对实例进行调整,从而能够进一步提升伸缩效果。
结合第一方面,在第一方面的某些实现方式中,方法还包括:实例管理平台根据实例的数量和实例的规格确定伸缩组的剩余资源量;实例管理平台根据伸缩组的资源类型和剩余资源量决定将任务挂起等待,或将任务在伸缩组之间进行调度。
基于上述实施方式,能够根据伸缩组中的类型和剩余资源量,动态调整任务执行限流参数,并选择最优的伸缩组完成任务下发,能够避免资源的浪费,提高伸缩组的任务执行效率。
结合第一方面,在第一方面的某些实现方式中,该方法还包括:实例管理平台向用户呈现历史任务时序特征和历史任务资源特征。
基于该技术方案,在用户自行制定伸缩策略时,该历史任务画像能够辅助用户完成伸缩策略制定,从而有利于提升伸缩策略的伸缩效果。
结合第一方面,在第一方面的某些实现方式中,基于资源利用率生成历史任务画像,包括:对资源利用率进行预处理以得到处理数据,预处理包括以下一种或多种:归一化、向量化;使用第二模型根据处理数据生成历史任务画像,第二模型的输入为处理数据,第二模型的输出为历史任务画像。
基于本方案,通过第二模型根据资源利用率等数据来对历史任务画像进行提取,相比于人工分析提取任务画像,能够更快、更准确地提取出历史任务画像;并且第二模型可以基于预处理后的处理数据提取历史任务画像,有利于历史任务画像的生成更为高效和准确。
结合第一方面,在第一方面的某些实现方式中,历史任务时序特征包括以下的一种或多种:历史任务平均运行时长、历史任务量高峰时段、历史任务量低谷时段、历史任务执行周期。
第二方面,提供一种实例管理平台,包括:监控模块,用于监控伸缩组中运行任务的实例,得到实例的资源利用率,资源利用率包括以下的一种或多种:中央处理器CPU使用率、内存使用率;策略生成模块,用于基于资源利用率生成历史任务画像,历史任务画像包括以下的一种或多种:历史任务时序特征、历史任务资源特征,其中,历史任务时序特征用于指示历史任务在伸缩组运行时的时序上的特性,历史任务资源特征用于指示伸缩组的资源类型,资源类型包括如下的一种或多种:计算密集型、内存型、输入输出密集型、图形密集型;策略生成模块还用于,使用第一模型根据历史任务画像生成一个或多个伸缩策略,第一模型的输入为历史任务画像,第一模型的输出为一个或多个伸缩策略;执行模块,用于向用户推荐一个或多个伸缩策略;执行模块还用于,确定用户选择的伸缩策略;执行模块还用于,根据用户选择的伸缩策略,调整伸缩组中实例的数量或者实例的规格。
基于上述技术方案,策略生成模块能够充分利用大量优质的数据,使用模型根据历史任务画像自动生成合理的伸缩策略,并且能够通过与用户进行交互来启用伸缩策略,从而解决了伸缩策略配置繁琐、人工干预误差大的问题,能够提升伸缩效果;并且,根据历史任务画像来制定伸缩策略,减少直接根据监控的数据来制定伸缩策略所带来的数据计算量大,参数转换繁琐、准确率低等问题,使得伸缩策略的生成更为高效和合理。
结合第二方面,在第二方面的某些实现方式中,伸缩策略包括以下一种或多种:定时伸缩策略、告警伸缩策略,策略生成模块具体用于,使用第一模型根据历史任务画像确定定时伸缩策略的以下一种或多种参数:伸缩时间、定时伸缩语义、以及定时伸缩规模;使用第一模型根据历史任务画像确定告警伸缩策略的以下一种或多种参数:告警指标、告警阈值、告警伸缩语义、以及告警伸缩规模。
结合第二方面,在第二方面的某些实现方式中,执行模块还用于:根据实例的数量和实例的规格确定伸缩组的剩余资源量;根据伸缩组的资源类型和剩余资源量决定将任务挂起等待,或将任务在伸缩组之间进行调度。
结合第二方面,在第二方面的某些实现方式中,执行模块还用于:向用户呈现历史任务时序特征和历史任务资源特征。
结合第二方面,在第二方面的某些实现方式中,策略生成模块具体用于:对资源利用率进行预处理以得到处理数据,预处理包括以下一种或多种:归一化、向量化;使用第二模型根据处理数据生成历史任务画像,第二模型的输入为处理数据,第二模型的输出为历史任务画像。
结合第二方面,在第二方面的某些实现方式中,历史任务时序特征包括以下的一种或多种:历史任务平均运行时长、历史任务量高峰时段、历史任务量低谷时段、历史任务执行周期。
第三方面,提供一种计算设备,包括处理器和存储器,其中,存储器用于存储指令,处理器用于从存储器中调用并运行该指令,使得该计算设备执行第一方面或第一方面任意一种可能的实现方式中的方法。
第四方面,提供一种计算设备集群,包括至少一个计算设备,每个计算设备包括处理器和存储器,其中,存储器用于存储指令,处理器用于从存储器中调用并运行该指令,使得该计算设备集群执行第一方面或第一方面任意一种可能的实现方式中的方法。
结合第四方面,在第四方面的某些实现方式中,该处理器可以是通用处理器,可以通过硬件来实现也可以通过软件来实现。当通过硬件来实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外独立存在。
第五方面,提供了一种计算机可读存储介质,包括计算机程序指令,当该计算机指令由计算设备集群运行时,使得计算设备集群执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
结合第五方面,在第五方面的某些实现方式中,上述存储介质具体可以是非易失性存储介质。
第六方面,提供了一种包含指令的计算机程序产品,当该指令被计算设备集群运行时,使得计算设备集群执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
第七方面,提供了一种芯片,该芯片获取指令并执行该指令来实现上述第一方面或第一方面任意一种可能的实现方式中的方法。
结合第七方面,在第七方面的某些实现方式中,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
结合第七方面,在第七方面的某些实现方式中,该芯片还可以包括存储器,该存储器中存储有指令,该处理器用于执行该存储器上存储的指令,当该指令被运行时,该处理器用于执行上述第一方面或第一方面任意一种可能的实现方式中的方法。
附图说明
图1为本申请实施例提供的一种云服务系统架构的示意图。
图2为本申请实施例提供的一种管理实例的方法200的示意性流程图。
图3为本申请实施例提供一种历史任务画像的生成方法300的示意性流程图。
图4为本申请实施例提供的一种客户端界面示意图。
图5为本申请实施例提供的一种实例管理平台的示意性结构框图。
图6是本申请实施例提供的一种计算设备的示意性结构框图。
图7是本申请实施例提供的一种计算设备集群的示意性结构框图。
图8是本申请实施例提供的另一计算设备集群的示意性结构框图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
本申请将围绕包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是,各个系统可以包括另外的设备、组件、模块等,并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外,还可以使用这些方案的组合。
另外,在本申请实施例中,“示例性的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例描述的架构以及业务场景是为了更加清楚地说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:包括单独存在A,同时存在A和B,以及单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
本申请的技术方案适用于云平台系统,以下简称云平台。云平台是一种服务器平台,云平台为应用提供运行环境和资源,例如实例、内存等,并且支持应用的多实例部署,以支持高并发的外部用户访问。
图1示出了本申请实施例提供的一种云服务系统架构的示意图。如图1所示,客户端可以通过互联网接入云平台。通常情况下,云平台中包含多个服务器,如服务器1至服务器n,每个服务器中分别包括云服务资源,如服务器1中包括云服务1、云服务2,云服务资源为租户提供相应的云服务。客户端通过管理平台10与服务器相连接。服务器的硬件层可以包括处理器、存储器、网卡以及数据总线等。
为了便于理解,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
1、伸缩组
伸缩组可以理解为具有相同应用场景的ECS实例的集合,或者说是用于管理弹性伸缩云服务器的最小单元。伸缩组中的实例的个数是可以弹性伸缩的,例如,若伸缩组中的实例的负载过大,则可以增加伸缩组中实例的个数,以分担伸缩组中每个实例的负载;若伸缩组中的实例的负载较低,则可以删除部分实例,以节约系统的资源。
2、伸缩策略
伸缩策略用于规定伸缩组如何进行弹性伸缩。经典的弹性伸缩策略包括定时伸缩策略以及告警伸缩策略。
定时伸缩策略用于指示根据设定的时刻执行弹性伸缩活动,需要指定:伸缩时间,即何时伸缩;伸缩规模,即当触发伸缩时,扩容或缩容的数量;伸缩语义,即执行的动作,包括增加、减少、调整至、增加百分之几、减少百分之几等。
告警伸缩策略用于指示根据可观测性指标以及设置的阈值,当击穿时执行弹性伸缩活动,需要指定:告警指标,如中央处理器(Central Processing Unit,CPU)利用率、内存使用率、自定义业务指标等;告警阈值,即当监控指标数据达到该阈值时,执行伸缩;告警伸缩规模,即当触发伸缩时,扩容或缩容的数量;告警伸缩语义,即执行的动作,包括增加、减少、调整至、增加百分之几、减少百分之几等。
上面对本申请中涉及到的术语做了简单说明,下文实施例中不再赘述。此外,上文关于术语的说明,仅是为便于理解进行的说明,其对本申请实施例的保护范围不造成限定。
分布式任务调度系统广泛应用于DevOps(一种重视“软件开发人员(Dev)”和“IT运维技术人员(Ops)”之间沟通合作的过程、方法与系统的统称)等持续交付场景,分布式任务调度系统能够合理地屏蔽了云平台中ECS资源调度的细节,从而降低使用者心智负担,更好的聚焦业务。
任务调度系统能够获取目标任务的任务数据,并将任务数据上传至云平台。目前用于云平台的任务调度系统,例如kubernetes,能够提供组件kubernetes Auto Scaler完成伸缩组管理及伸缩,但是往往需要用户自行分析业务负载特征,以及自行进行伸缩策略的配置,即,确定伸缩周期、伸缩规模、告警指标等。之后,系统收集监控指标数据,按告警或按时间触发伸缩策略,通过云计算厂商提供的资源调整接口,完成ECS实例的动态调整。繁琐的伸缩策略手动配置过程需要耗费大量人力、物力,并且依据人工经验来进行配置可能会产生误差。
鉴于此,本申请实施例提供了一种管理实例的方法,该方法能够根据监控伸缩组中运行任务的实例以得到资源利用率,并根据资源利用率生成历史任务画像,再使用模型来根据历史任务画像自动地生成伸缩策略,能够有效解决伸缩策略配置繁琐、人工干预程度大易产生误差的问题。
图2示出了本申请实施例提供的一种管理云平台上的资源的方法200的示意性流程图,该方法包括以下步骤。
S210,实例管理平台监控伸缩组中运行任务的实例,以得到实例的监控指标数据;
在一些实施例中,实例管理平台可以为云平台。云可以通俗地理解为一组或一堆远程计算机,这些远程计算机协同工作构建出一个平台,对用户提供各种各样的服务,例如,对业务数据进行计算分析的算力,其中计算可以指构建业务系统的各种需求。在一些实施例中,云平台还可以称为云计算平台。
具体的,实例可以是服务器资源。例如,实例可以是虚拟机、容器、数据库、微服务等。在一些实施例中,实例还可以称为ECS实例。
在一些实施例中,监控指标数据可以包括资源利用率,其中资源利用率可以包括以下的一种或多种:CPU使用率、内存使用率、GPU使用率、磁盘利用率、显存使用率。
在一些实施例中,监控指标数据还可以包括以下一种或多种:负载指标、网络指标、自定义指标、磁盘读速率、磁盘写速率。其中,网络指标可以包含公网带宽指标和内网带宽指标。
S220,实例管理平台基于监控指标数据生成历史任务画像;
其中,历史任务画像可以用来反映伸缩组中实例运行的历史任务的特征。可以理解的是,历史任务可以是实例所运行的全部或部分历史任务。在一些实施方式中,历史任务画像可以包括以下的一种或多种:历史任务时序特征、历史任务资源特征。其中,历史任务时序特征可以用于指示历史任务在伸缩组运行时的时序上的特性,历史任务资源特征可以用于指示伸缩组的资源类型。
可选的,历史任务时序特征可以包括历史任务平均运行时长、历史任务量高峰时段、历史任务量低谷时段、历史任务执行周期中的一项或多项。通过上述参数来反映历史任务时序特征,有利于后续策略生成模型根据上述参数更准确、有效地生成伸缩策略。
可选的,资源类型可以包括如下的一种或多种:计算密集型、内存型、输入输出密集(In Out Intensive,IO Intensive)型(或称为读写密集型)、图形密集型中的一项或多项。其中,计算密集型通常需要进行大量的计算,消耗CPU资源;IO密集型通常CPU消耗较少,任务的大部分时间都在等待IO操作完成;图形密集型通常需要大量的对图形进行渲染,需要较强的处理和存储能力。本实施例基于历史任务资源特征,有利于后续策略生成模型根据该特征更准确地预测在任务执行过程中不同时刻所需要的资源量,从而生成更合理的伸缩策略。
S230,实例管理平台使用第一模型根据历史任务画像生成一个或多个伸缩策略;
本申请具体示例中的“第一模型”还可以描述为“策略生成模型”,下文不再重复赘述。应理解,以下仅是为便于描述和理解给出的示例,不应构成对技术方案的任何限定。
在一些实施方式中,策略生成模型可以是机器学习模型。可以理解的是,该策略生成模型可以是训练好的,并且能够根据输入的历史任务画像输出伸缩策略。示例性的,实现该画像生成模型的机器学习算法可以包括以下算法中的一项或多项:分类的算法,如K-近邻算法;或者回归的算法,如线性回归;或者聚类的算法,如K-均值算法等。
可选的,伸缩策略可以包括以下一种或多种:定时伸缩策略、告警伸缩策略、周期伸缩策略。其中,告警伸缩策略可以指示实例管理平台基于监控系统告警数据(例如CPU使用率),自动增加、减少或设置实例的数量或规格;定时伸缩策略可以指示实例管理平台基于配置的某个时间点,自动增加、减少或设置实例的数量或规格;周期伸缩策略可以指示实例管理平台按照配置周期(例如,按天、按周、按月),周期性地增加、减少或设置实例的数量或规格。
S240,实例管理平台向用户推荐一个或者多个伸缩策略,并确定用户选择的伸缩策略;
在一些实施方式中,实例管理平台生成一个或者多个伸缩策略之后,可以和用户进行交互,例如可以向用户推荐上述伸缩策略。
示例性的,可以通过前端向用户呈现该伸缩策略。示例性的,可以通过前端向用户呈现伸缩策略中定时伸缩策略中的以下一项或多项参数:伸缩时间、定时伸缩语义、定时伸缩规模。示例性的,还可以向通过前端向用户呈现告警伸缩策略中的以下一项或多项参数:告警指标,告警阈值,告警伸缩语义,告警伸缩规模。
可以理解的是,用户可以自行选择是否启用推荐的伸缩策略,以及选择一个或多个伸缩策略中的哪一个或哪几个。对于用户选择启用的伸缩策略,当满足策略条件时,将触发伸缩组的伸缩;用户未选择启用的伸缩策略则不会触发伸缩组的伸缩。
S250,实例管理平台根据用户选择的伸缩策略,调整伸缩组中实例的数量或者实例的规格。
在一些实施方式中,伸缩组可以进行横向伸缩(或称为水平伸缩),也可以进行纵向伸缩(或称为纵向伸缩)。其中,横向伸缩可以理解为对伸缩组中实例的数量进行调整,例如,增加或者减少实例的数量。纵向伸缩可以理解为对伸缩组中实例的规格进行调整,例如,增大或者减小实例的CPU、内存、带宽等配置。
基于上述技术方案,能够充分利用大量优质的数据,使用模型根据历史任务画像自动生成合理的伸缩策略,并且能够通过与用户进行交互来启用伸缩策略,从而解决了伸缩策略配置繁琐、人工干预误差大的问题,能够提升伸缩效果;并且,根据历史任务画像来制定伸缩策略,减少直接根据监控相关数据来制定伸缩策略所带来的数据计算量大,参数转换繁琐、准确率低等问题,使得伸缩策略的生成更为高效和合理。
可选的,历史任务画像可以由人工根据历史任务数据分析得到,历史任务画像也可以由机器学习模型根据历史任务数据生成。在一些实施的方式中,步骤S220中基于监控指标数据生成历史任务画像,具体可以包括:使用第二模型根据监控指标数据生成历史任务画像,第二模型的输入为监控指标数据,第二模型的输出为历史任务画像。
本申请具体示例中的“第二模型”可以描述为“画像生成模型”,下文不再重复赘述。应理解,以下仅是为便于描述和理解给出的示例,不应构成对技术方案的任何限定。
可选的,画像生成模型也可以为训练好的机器学习模型,其中,画像生成模型的输入可以为监控指标数据,输出为历史任务画像。实现该画像生成模型的机器学习算法选择较广,可以使用常用的深度学习算法,例如梯度下降算法、反向传播算法、池化等;还可以使用分类的算法,如K-近邻算法;或者聚类的算法,如K-均值算法等。
基于本方案,通过第二模型根据监控指标数据中的资源利用率等数据来对历史任务画像进行提取,相比于人工分析提取任务画像,能够更快、更准确地提取出历史任务画像。
在一些实施的方式中,在监控指标数据输入画像生成模型之前,还可以对监控指标数据进行预处理以得到处理数据。图3提供一种历史任务画像的生成方法,如图3所示,上述步骤S220具体可以包括以下步骤:
S221,对监控指标数据进行预处理以得到处理数据;
其中,预处理可以包括以下一种或多种:归一化、向量化。
S222,使用第二模型根据处理数据生成历史任务画像,第二模型的输入为处理数据,第二模型的输出为历史任务画像。
基于本方案,画像生成模型可以基于预处理后的监控指标数据提取历史任务画像,有利于历史任务画像的生成更为高效和准确。
在一些实施方式中,在步骤S220生成历史任务画像后,还可以向用户呈现该历史任务画像,即向用户呈现该历史任务时序特征和/或历史任务资源特征。具体的,可以通过前端的用户界面来呈现该任务画像。基于该技术方案,在用户自行制定伸缩策略时,该历史任务画像能够辅助用户完成伸缩策略制定,从而有利于提升伸缩策略的伸缩效果。
在一些实施方式中,上述步骤S230中的使用策略生成模型根据历史任务画像生成伸缩策略,具体可以使用策略生成模型根据历史任务画像确定定时伸缩策略的以下参数的一项或多项:伸缩时间,定时伸缩语义,以及定时伸缩规模。定时伸缩策略的示例:“2023/03/0100:00:00,增加3个实例”,另一个示例:“2023/03/01 00:00:00,扩容3”。
在一些实施方式中,上述步骤S230中具体可以使用策略生成模型确定告警伸缩策略的以下参数的一项或多项:告警指标,告警阈值,告警伸缩语义,以及告警伸缩规模。可选的,告警阈值可以包括上限阈值和下限阈值。告警伸缩策略的示例:“CPU使用率>70%,增加2个实例”;“CPU使用率<30%,减少2个实例”
可选的,上述步骤S230中具体可以使用策略生成模型确定周期伸缩策略的以下参数的一项或多项:伸缩周期,周期伸缩语义,以及周期伸缩规模。周期伸缩策略的示例:“2023/03/01 00:00:00-2023/03/31 23:59:59,每天增加10%的实例”。
可选的,当业务负载难以预测时,用户可以选择告警策略,系统会根据实时的监控数据(如CPU使用率)触发伸缩活动,动态调整伸缩组内的实例数量或规格。
当业务负载的变化有规律时,用户可以选择定时策略或周期策略调整伸缩组内的实例数量或规格。
通过上述实施方式,具体细化了所需要策略生成模型确定的相关参数,能够使得后续伸缩组能够更准确的对实例进行调整,从而能够进一步提升伸缩效果。
在一些实施方式中,步骤S260中,调整伸缩组中实例的数量或者实例的规格,具体可以有以下几种调整模式:直接调整模式、递进式调整模式、跟踪型调整模式。
直接调整模式是指直接将伸缩组中实例的数量或者实例的规格调整至设定值。示例性的,伸缩策略包括“CPU使用率>70%,扩容3”,触发告警伸缩策略时,实例管理平台可以直接在伸缩组中增加3个实例。
递进式调整模式是指基于监控报警进行分段扩缩容,在直接调整模式的基础上增加了分步定义,可以精细地控制扩缩容。
跟踪型调整模式是指,可以选择一项监控指标数据,并指定目标值。实例管理平台会自动计算所需的实例数量并进行扩缩容,从而将监控指标数据维持在目标值附近。例如,伸缩策略包括“维持CPU使用率70%”,触发告警伸缩策略时,计算所需的实例数量并进行扩缩容,从而将CPU使用率维持在70%附近。
当伸缩组执行伸缩操作后,伸缩组内的资源容量发生改变,可能会引起任务与资源实际负载能力不匹配。例如,实例数量增加后,任务因一些限流原因未能匹配资源实际负载能力,从而造成资源浪费。
可选的,任务下发时,可以根据任务的业务归属,例如流水线业务、大数据业务、模型训练业务等,来判断任务的类型。任务的类型也可以分为计算密集型、内存型、读/写密集型、图形密集型等。在一些实施方式中,任务可以优先调度给类型匹配的伸缩组。例如,计算密集型的任务可以优先调度给计算密集型的伸缩组,内存密集型的任务可以优先调度给内存密集型的伸缩组。
在一些实施方式中,实例管理平台还可以根据伸缩组中实例数量和规格计算伸缩组的剩余资源量。可选的,任务可以优先调度给剩余资源量较大的伸缩组。
在一些实施方式中,实例管理平台可以根据伸缩组的资源类型和剩余资源量决定将任务挂起等待,或将任务在伸缩组之间进行调度。换句话说,实例管理平台可以根据伸缩组的资源类型和剩余资源量来对任务限流进行动态调整。任务下发时,可以优先将任务调度给与任务类型匹配、剩余资源量大的伸缩组,该伸缩组可以称为最优伸缩组。当与任务类型匹配的伸缩组的剩余资源量都比较小时,可以将任务进行挂起等待。
基于上述实施方式,能够根据伸缩组中的资源类型和剩余资源量,动态调整任务执行限流参数,并选择最优的伸缩组完成任务下发,能够避免资源的浪费,提高伸缩组的任务执行效率。
如图4所示,为本申请实施例提供的一种客户端界面示意图。示例性的,用户可以点击“伸缩策略配置推荐”选项来查看当前策略以及推荐策略。其中,推荐策略1、推荐策略2可以为本申请策略推荐模型所生成的策略。可选的,用户可以点击“推荐策略1”选项可以查看伸缩策略的具体参数,例如点击推荐策略1后,界面上可以显示“CPU使用率>70%,扩容3”。
可选的,实例管理平台可以对实例的各监控指标进行实时监测。正常作业时,各项性能指标在合理的范围内。
示例性的,用户可以点击“启用”选项来启用对应的推荐策略,例如用户点击推荐策略1对应的“启用”选项后,则当监测到实例CPU使用率大于70%时,则会触发该推荐策略1的伸缩活动,使得云平台执行该扩容操作,在伸缩组中增加3个实例,以避免任务执行异常。
示例性的,推荐策略2可以为“CPU使用率<30%,缩容1”,用户点击推荐策略2对应的“启用”选项后,则当监测到CPU使用率小于30%时,则会触发该推荐策略2的伸缩活动,以减少资源浪费,降低运营成本。
上文详细地描述了本申请实施例的方法实施例,下面描述本申请实施例的装置实施例,装置实施例与方法实施例相互对应,因此装置实施例中未详细描述的部分可参见前面方法实施例。
图5示出了本申请实施例提供的一种实例管理平台500的示意性结构框图。该实例管理平台可以包括:监控模块510,用于监控伸缩组中运行任务的实例,以得到实例的资源利用率,资源利用率包括以下的一种或多种:CPU使用率、内存使用率;策略生成模块520,用于基于资源利用率生成历史任务画像,历史任务画像包括以下的一种或多种:历史任务时序特征、历史任务资源特征,其中,历史任务时序特征用于指示历史任务在伸缩组运行时的时序上的特性,历史任务资源特征用于指示伸缩组的资源类型,资源类型可以包括如下的一种或多种:计算密集型、内存型、输入输出密集型、图形密集型;策略生成模块520还用于,使用第一模型根据历史任务画像生成一个或多个伸缩策略,第一模型的输入为历史任务画像,第一模型的输出为一个或多个伸缩策略;执行模块530,用于向用户推荐一个或多个伸缩策略;执行模块530还用于,确定用户选择的伸缩策略;执行模块530还用于,根据用户选择的伸缩策略,调整伸缩组中实例的数量或者实例的规格。
基于上述技术方案,策略生成模块520能够充分利用大量优质的数据,使用模型根据历史任务画像自动生成合理的伸缩策略,并且能够通过执行模块530与用户进行交互来启用伸缩策略,从而解决了伸缩策略配置繁琐、人工干预误差大的问题,能够提升伸缩效果;并且,策略生成模块520根据历史任务画像来制定伸缩策略,减少直接根据监控的数据来制定伸缩策略所带来的数据计算量大,参数转换繁琐、准确率低等问题,使得伸缩策略的生成更为高效和合理。
在一些可能的实施方式中,伸缩策略可以包括以下一种或多种:定时伸缩策略、告警伸缩策略,策略生成模块具体用于,使用第一模型根据历史任务画像确定定时伸缩策略的以下一种或多种参数:伸缩时间,定时伸缩语义,以及定时伸缩规模;使用第一模型根据历史任务画像确定告警伸缩策略的以下一种或多种参数:告警指标,告警阈值,以及告警伸缩语义,以及告警伸缩规模。
基于上述实施方式,具体细化了所需要策略生成模型确定的相关参数,能够使得后续伸缩组能够更准确的对实例进行调整,从而能够进一步提升伸缩效果。
在一些可能的实施方式中,执行模块530还可以用于:根据实例的数量和实例的规格确定剩余资源量;根据伸缩组的资源类型和剩余资源量决定将任务挂起等待,或将任务在伸缩组之间进行调度。
基于上述实施方式,能够根据伸缩组中的类型和剩余资源量,动态调整任务执行限流参数,并选择最优的伸缩组完成任务下发,能够减小资源的浪费,提高伸缩组的任务执行效率。
在一些实施方式中,执行模块530还可以向用户呈现历史任务时序特征和历史任务资源特征。
基于该技术方案,在用户自行制定伸缩策略时,历史任务画像能够辅助用户完成伸缩策略制定,从而有利于提升伸缩策略的伸缩效果。
在一些实施方式中,策略生成模块520具体可以用于:对资源利用率进行预处理以得到处理数据,预处理包括以下一种或多种:归一化、向量化;使用第二模型根据处理数据生成历史任务画像,第二模型的输入为处理数据,第二模型的输出为历史任务画像。
基于本方案,策略生成模块520能够使用第二模型根据资源利用率等数据来对历史任务画像进行提取,相比于人工分析提取任务画像,能够更快、更准确地提取出历史任务画像;并且第二模型可以基于预处理后的处理数据提取历史任务画像,有利于历史任务画像的生成更为高效和准确。
本申请的在一些实施方式中,历史任务时序特征可以包括以下的一种或多种:历史任务平均运行时长、历史任务量高峰时段、历史任务量低谷时段、历史任务执行周期。
其中,监控模块、策略生成模块和执行模块均可以通过软件实现,或者可以通过硬件实现。示例性的,接下来以监控模块为例,介绍监控模块的实现方式。类似的,策略生成模块和执行模块的实现方式可以参考监控模块的实现方式。
模块作为软件功能单元的一种举例,监控模块可以包括运行在计算实例上的代码。其中,计算实例可以包括物理主机(计算设备)、虚拟机、容器中的至少一种。进一步地,上述计算实例可以是一台或者多台。例如,监控模块可以包括运行在多个主机/虚拟机/容器上的代码。需要说明的是,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的区域(region)中,也可以分布在不同的region中。进一步地,用于运行该代码的多个主机/虚拟机/容器可以分布在相同的可用区(availability zone,AZ)中,也可以分布在不同的AZ中,每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中,通常一个region可以包括多个AZ。
同样,用于运行该代码的多个主机/虚拟机/容器可以分布在同一个虚拟私有云(virtual private cloud,VPC)中,也可以分布在多个VPC中。其中,通常一个VPC设置在一个region内,同一region内两个VPC之间,以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关,经通信网关实现VPC之间的互连。
模块作为硬件功能单元的一种举例,监控模块可以包括至少一个计算设备,如服务器等。或者,监控模块也可以是利用专用集成电路(application-specific integratedcircuit,ASIC)实现、或可编程逻辑器件(programmable logic device,PLD)实现的设备等。其中,上述PLD可以是复杂程序逻辑器件(complex programmable logical device,CPLD)、现场可编程门阵列(field-programmable gate array,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合实现。
监控模块包括的多个计算设备可以分布在相同的region中,也可以分布在不同的region中。监控模块包括的多个计算设备可以分布在相同的AZ中,也可以分布在不同的AZ中。同样,监控模块包括的多个计算设备可以分布在同一个VPC中,也可以分布在多个VPC中。其中,所述多个计算设备可以是服务器、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。
需要说明的是,在其他实施例中,监控模块可以用于执行管理实例的方法中的任意步骤,策略生成模块可以用于执行管理实例的方法中的任意步骤,执行模块可以用于执行管理实例的方法中的任意步骤,监控模块、策略生成模块、以及执行模块负责实现的步骤可根据需要指定,通过监控模块、策略生成模块、以及执行模块分别实现管理实例的方法中不同的步骤来实现实例管理平台的全部功能。
本申请还提供一种计算设备600。如图6所示,计算设备600包括:总线602、处理器604、存储器606和通信接口608。处理器604、存储器606和通信接口608之间通过总线602通信。计算设备600可以是服务器或终端设备。应理解,本申请不限定计算设备100中的处理器、存储器的个数。
总线602可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。总线602可包括在计算设备600各个部件(例如,存储器606、处理器604、通信接口608)之间传送信息的通路。
处理器604可以包括中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
存储器606可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。处理器604还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,机械硬盘(hard diskdrive,HDD)或固态硬盘(solid state drive,SSD)。
存储器606中存储有可执行的程序代码,处理器604执行该可执行的程序代码以分别实现前述监控模块、策略生成模块、执行模块的功能,从而实现上述管理实例的方法。也即,存储器606上存有用于执行上述管理实例的方法的指令。
通信接口608使用例如但不限于网络接口卡、收发器一类的收发模块,来实现计算设备600与其他设备或通信网络之间的通信。
本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备。该计算设备可以是服务器,例如是中心服务器、边缘服务器,或者是本地数据中心中的本地服务器。在一些实施例中,计算设备也可以是台式机、笔记本电脑或者智能手机等终端设备。
如图7所示,计算设备集群包括至少一个计算设备600。计算设备集群中的一个或多个计算设备600中的存储器606中可以存有相同的用于执行上述管理实例的方法的指令。
在一些可能的实现方式中,该计算设备集群中的一个或多个计算设备600的存储器606中也可以分别存有用于执行上述管理实例的方法的部分指令。换言之,一个或多个计算设备600的组合可以共同执行用于执行上述管理实例的方法的指令。
需要说明的是,计算设备集群中的不同的计算设备600中的存储器606可以存储不同的指令,分别用于执行上述实例管理平台的部分功能。也即,不同的计算设备600中的存储器606存储的指令可以实现数据监控模块、策略生成模块、执行模块中的一个或多个模块的功能。
在一些可能的实现方式中,计算设备集群中的一个或多个计算设备可以通过网络连接。其中,所述网络可以是广域网或局域网等等。图8示出了一种可能的实现方式。如图8所示,两个计算设备600A和600B之间通过网络进行连接。具体地,通过各个计算设备中的通信接口与所述网络进行连接。在这一类可能的实现方式中,计算设备600A中的存储器606中存有执行监控模块和执行模块的功能的指令。同时,计算设备600B中的存储器606中存有执行策略生成模块的功能的指令。
图8所示的计算设备集群之间的连接方式可以是考虑到本申请提供的管理实例的方法模型训练需要大量地计算,因此考虑将策略生成模块实现的功能交由计算设备600B执行。
应理解,图8中示出的计算设备600A的功能也可以由多个计算设备600完成。同样,计算设备600B的功能也可以由多个计算设备600完成。
本申请实施例还提供了一种包含指令的计算机程序产品。所述计算机程序产品可以是包含指令的,能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当所述计算机程序产品在至少一个计算设备上运行时,使得至少一个计算设备执行上述管理实例的方法。
本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,所述指令指示计算设备执行上述管理实例的方法。
本申请实施例还提供一种芯片,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,以执行上述管理实例的方法。
可选的,该芯片包括处理器与数据接口,该处理器通过该数据接口读取存储器上存储的指令,执行上述管理实例的的方法。
可选的,该芯片还可以包括存储器,该存储器中存储有指令,该处理器用于执行该存储器上存储的指令,当该指令被运行时,该处理器用于执行上述管理实例的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。

Claims (15)

1.一种管理实例的方法,其特征在于,包括:
实例管理平台监控伸缩组中运行任务的实例,以得到所述实例的资源利用率,所述资源利用率包括以下的一种或多种:中央处理器CPU使用率、内存使用率;
所述实例管理平台基于所述资源利用率生成历史任务画像,所述历史任务画像包括以下的一种或多种:历史任务时序特征、历史任务资源特征,其中,所述历史任务时序特征用于指示历史任务在所述伸缩组运行时的时序上的特性,所述历史任务资源特征用于指示所述伸缩组的资源类型,所述资源类型包括如下的一种或多种:计算密集型、内存型、输入输出密集型、图形密集型;
所述实例管理平台使用第一模型根据所述历史任务画像生成一个或多个伸缩策略,所述第一模型的输入为所述历史任务画像,所述第一模型的输出为所述一个或多个伸缩策略;
所述实例管理平台向用户推荐所述一个或多个伸缩策略;
所述实例管理平台确定用户选择的伸缩策略;
所述实例管理平台根据所述用户选择的伸缩策略,调整所述伸缩组中实例的数量或者实例的规格。
2.根据权利要求1所述的方法,其特征在于,所述伸缩策略包括以下一种或多种:定时伸缩策略、告警伸缩策略,
所述使用第一模型根据所述历史任务画像生成一个或多个伸缩策略,包括:
使用所述第一模型根据所述历史任务画像确定所述定时伸缩策略的以下一种或多种参数:伸缩时间、定时伸缩语义、定时伸缩规模;
使用所述第一模型根据所述历史任务画像确定所述告警伸缩策略的以下一种或多种参数:告警指标、告警阈值、告警伸缩语义、告警伸缩规模。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
所述实例管理平台根据所述实例的数量和所述实例的规格确定所述伸缩组的剩余资源量;
所述实例管理平台根据所述伸缩组的所述资源类型和所述剩余资源量决定将任务挂起等待,或将任务在伸缩组之间进行调度。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述方法还包括:
所述实例管理平台向用户呈现所述历史任务时序特征和所述历史任务资源特征。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述基于所述资源利用率生成历史任务画像,包括:
对所述资源利用率进行预处理以得到处理数据,所述预处理包括以下一种或多种:归一化、向量化;
使用第二模型根据所述处理数据生成所述历史任务画像,所述第二模型的输入为所述处理数据,所述第二模型的输出为所述历史任务画像。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述历史任务时序特征包括以下的一种或多种:历史任务平均运行时长、历史任务量高峰时段、历史任务量低谷时段、历史任务执行周期。
7.一种实例管理平台,其特征在于,包括:
监控模块,用于监控伸缩组中运行任务的实例,以得到所述实例的资源利用率,所述资源利用率包括以下的一种或多种:中央处理器CPU使用率、内存使用率;
策略生成模块,用于基于所述资源利用率生成历史任务画像,所述历史任务画像包括以下的一种或多种:历史任务时序特征、历史任务资源特征,其中,所述历史任务时序特征用于指示历史任务在所述伸缩组运行时的时序上的特性,所述历史任务资源特征用于指示所述伸缩组的资源类型,所述资源类型包括如下的一种或多种:计算密集型、内存型、输入输出密集、图形密集型;
所述策略生成模块还用于,使用第一模型根据所述历史任务画像生成一个或多个伸缩策略,所述第一模型的输入为所述历史任务画像,所述第一模型的输出为所述一个或多个伸缩策略;
执行模块,用于向用户推荐所述一个或多个伸缩策略;
所述执行模块还用于,确定用户选择的伸缩策略;
所述执行模块还用于,根据所述用户选择的伸缩策略,调整所述伸缩组中实例的数量或者实例的规格。
8.根据权利要求7所述的实例管理平台,其特征在于,所述伸缩策略包括以下一种或多种:定时伸缩策略、告警伸缩策略,
所述策略生成模块具体用于,使用所述第一模型根据所述历史任务画像确定所述定时伸缩策略的以下一种或多种参数:伸缩时间、定时伸缩语义、定时伸缩规模;
使用所述第一模型根据所述历史任务画像确定所述告警伸缩策略的以下一种或多种参数:告警指标、告警阈值、告警伸缩语义、告警伸缩规模。
9.根据权利要求7或8所述的实例管理平台,其特征在于,所述执行模块还用于:
根据所述实例的数量和所述实例的规格确定所述伸缩组的剩余资源量;
根据所述伸缩组的所述资源类型和所述剩余资源量决定将任务挂起等待,或将任务在伸缩组之间进行调度。
10.根据权利要求7-9中任一项所述的实例管理平台,其特征在于,所述执行模块还用于:
向用户呈现所述历史任务时序特征和所述历史任务资源特征。
11.根据权利要求7-10中任一项所述的实例管理平台,其特征在于,所述策略生成模块具体用于:
对所述资源利用率进行预处理以得到处理数据,所述预处理包括以下一种或多种:归一化、向量化;
使用第二模型根据所述处理数据生成所述历史任务画像,所述第二模型的输入为所述处理数据,所述第二模型的输出为所述历史任务画像。
12.根据权利要求7-11中任一项所述的实例管理平台,其特征在于,所述历史任务时序特征包括以下的一种或多种:历史任务平均运行时长、历史任务量高峰时段、历史任务量低谷时段、历史任务执行周期。
13.一种计算设备集群,其特征在于,包括至少一个计算设备,每个计算设备包括处理器和存储器;
所述至少一个计算设备的处理器用于执行所述至少一个计算设备的存储器中存储的指令,以使得所述计算设备集群执行如权利要求1至6中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,包括计算机程序指令,当所述计算机指令由计算设备集群运行时,使得所述计算设备集群执行如权利要求1至6中任一项所述的方法。
15.一种包含指令的计算机程序产品,其特征在于,当所述指令被计算设备集群运行时,使得所述计算设备集群执行如权利要求1至6中任一项所述的方法。
CN202310308241.1A 2023-03-27 2023-03-27 一种管理实例的方法和实例管理平台 Pending CN118764491A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202310308241.1A CN118764491A (zh) 2023-03-27 2023-03-27 一种管理实例的方法和实例管理平台
PCT/CN2024/070390 WO2024198602A1 (zh) 2023-03-27 2024-01-03 一种管理实例的方法和实例管理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310308241.1A CN118764491A (zh) 2023-03-27 2023-03-27 一种管理实例的方法和实例管理平台

Publications (1)

Publication Number Publication Date
CN118764491A true CN118764491A (zh) 2024-10-11

Family

ID=92903235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310308241.1A Pending CN118764491A (zh) 2023-03-27 2023-03-27 一种管理实例的方法和实例管理平台

Country Status (2)

Country Link
CN (1) CN118764491A (zh)
WO (1) WO2024198602A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463492B (zh) * 2014-12-23 2017-12-26 国家电网公司 一种电力系统云仿真平台的运营管理方法
CN109445911B (zh) * 2018-11-06 2020-12-18 北京金山云网络技术有限公司 Cvm实例的调整方法、装置、云平台和服务器
CN112000459B (zh) * 2020-03-31 2023-06-27 华为云计算技术有限公司 一种用于服务的扩缩容的方法及相关设备
CN113760516A (zh) * 2020-06-03 2021-12-07 华为技术有限公司 一种多云环境下的弹性伸缩方法、装置、设备及介质

Also Published As

Publication number Publication date
WO2024198602A1 (zh) 2024-10-03

Similar Documents

Publication Publication Date Title
WO2021197364A1 (zh) 一种用于服务的扩缩容的方法及相关设备
CN111045814B (zh) 资源调度方法和终端设备
Morris et al. Model-driven computational sprinting
US20190324805A1 (en) Method, apparatus and computer program product for resource scheduling
EP4394595A1 (en) Job solving method and apparatus
CN114185679B (zh) 容器资源调度方法、装置、计算机设备和存储介质
US10216530B2 (en) Method for mapping between virtual CPU and physical CPU and electronic device
CN113515382B (zh) 云资源的分配方法、装置、电子设备及存储介质
Dogani et al. K-agrued: A container autoscaling technique for cloud-based web applications in kubernetes using attention-based gru encoder-decoder
CN113010312B (zh) 一种超参数调优方法、装置及存储介质
CN112486642B (zh) 资源调度方法、装置、电子设备及计算机可读存储介质
CN109840141A (zh) 基于云监控的线程控制方法、装置、电子设备及存储介质
CN110096339B (zh) 一种基于系统负载实现的扩缩容配置推荐系统及方法
CN113127173B (zh) 一种异构感知的集群调度方法及装置
CN118764491A (zh) 一种管理实例的方法和实例管理平台
CN112948109A (zh) 一种ai计算集群的配额弹性调度方法、装置及介质
CN113760550A (zh) 资源分配方法和资源分配装置
CN114201369A (zh) 一种服务器集群管理方法、装置、电子设备及存储介质
CN116185578A (zh) 计算任务的调度方法和计算任务的执行方法
WO2022104500A9 (zh) 一种负载控制方法、装置、计算机设备及存储介质
CN116436853A (zh) 一种流量调度的方法及装置
Kim et al. GPGPU-Perf: efficient, interval-based DVFS algorithm for mobile GPGPU applications
Kanagasabai et al. Ec2bargainhunter: It's easy to hunt for cost savings on amazon ec2!
CN113296870B (zh) 预测Kubernetes集群配置的方法以及装置
CN114598705B (zh) 消息负载均衡方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication