[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN112559191B - 动态部署gpu资源的方法、装置和计算机设备 - Google Patents

动态部署gpu资源的方法、装置和计算机设备 Download PDF

Info

Publication number
CN112559191B
CN112559191B CN202011538689.5A CN202011538689A CN112559191B CN 112559191 B CN112559191 B CN 112559191B CN 202011538689 A CN202011538689 A CN 202011538689A CN 112559191 B CN112559191 B CN 112559191B
Authority
CN
China
Prior art keywords
date
specified
model
historical
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011538689.5A
Other languages
English (en)
Other versions
CN112559191A (zh
Inventor
孙浩鑫
王晟宇
赖众程
李会璟
李骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202011538689.5A priority Critical patent/CN112559191B/zh
Publication of CN112559191A publication Critical patent/CN112559191A/zh
Application granted granted Critical
Publication of CN112559191B publication Critical patent/CN112559191B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/20Processor architectures; Processor configuration, e.g. pipelining
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5021Priority
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/508Monitor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及大数据领域,揭示了动态部署GPU资源的方法,包括:获取待匹配系统中指定模型对应的历史业务数据;根据各历史日期、各历史日期分别对应的工作日状态及位于各历史日期前一天的业务请求量,预测指定模型对应的指定日期的响应时间;根据指定日期的响应时间,计算指定模型对应指定日期的响应效率;获取指定模型在历史业务数据对应的统计终止日的监控数据;根据指定模型对应指定日期的响应效率,及统计终止日的监控数据,计算指定模型对应指定日期的业务效果评分;根据指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配指定模型对应指定日期的GPU资源占比。根据动态调整GPU资源的部署状态,合理分配GPU资源。

Description

动态部署GPU资源的方法、装置和计算机设备
技术领域
本申请涉及大数据领域,特别是涉及到动态部署GPU资源的方法、装置和计算机设备。
背景技术
随着互联网业务的快速增长,业务访问量和数据流量也随之迅速增加,对系统计算资源的需求也相应增大,而GPU显卡作为应用计算的关键性资源,其资源的部署方式直接影响业务的进展状态。目前AI工程化尚处于初级阶段的情况下,对AI应用计算中的GPU资源的部署一般依赖人工进行调整,GPU资源部署固化,应用访问流量增大则需要手动扩充部署,流量减少再次变小时则容易存在过剩的GPU资源浪费,造成了不能根据应用访问流量的动态变化实时调整GPU资源部署方案,不能及时释放过剩计算资源,无法满足业务匹配需求。
发明内容
本申请的主要目的为提供动态部署GPU资源的方法,旨在解决不能根据应用访问流量的动态变化实时调整GPU资源的技术问题。
本申请提出一种动态部署GPU资源的方法,包括:
获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;
根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;
根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;
获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;
根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;
根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比。
优选地,所述根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率的步骤,包括:
获取所述指定模型对应的响应时间阈值;
根据所述指定日期的响应时间以及所述响应时间阈值,通过第一计算公式计算所述指定模型对应所述指定日期的响应效率,其中,所述第一计算公式为P=(Tm-T)/Tm,P表示响应效率,P属于(0,1],Tm表示所述响应时间阈值,Tm属于(0,1],T表示所述指定日期的响应时间,T属于(0,1]。
优选地,所述监控数据包括显卡使用率、GPU使用率和温度占比,所述根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分的步骤,包括:
根据所述显卡使用率、GPU使用率和温度占比,通过第二计算公式计算GPU负载状态量,其中,所述第二计算公式为F=(a*Wa+b*Wb+c*Wc)/(Wa+Wb+Wc),F表示GPU负载状态量,a表示显卡使用率,a属于(0,1],b表示GPU使用率,b属于(0,1],c表示温度占比,c属于(0,1],Wa表示显卡使用率对应的权重,Wb表示GPU使用率对应的权重,Wc表示温度占比对应的权重,Wa、Wb和Wc为非零实数;
获取所述指定模型对应的预设优先级;
根据所述GPU负载状态量、所述预设优先级以及所述响应效率,通过第三计算公式计算所述指定模型对应的业务效果评分,其中,所述第二计算公式为Y=(P*Wp+U*Wu)/F,Y表示业务效果评分,U表示优先级,U属于(0,1],Wp表示所述响应效率对应的权重,Wu表示预设优先级对应的权重,Wp和Wu为非零实数。
优选地,所述根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比的步骤,包括:
获取预设的扩容阈值和缩容阈值,其中,所述扩容阈值小于所述缩容阈值,所述扩容阈值和所述缩容阈值为非零实数;
比较所述业务效果评分分别与所述扩容阈值和缩容阈值的数值关系;
根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比。
优选地,所述根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比的步骤,包括:
判断所述数值关系是否为所述业务效果评分小于所述扩容阈值;
若所述业务效果评分小于所述扩容阈值,则通过创建指定服务容器增加所述指定模型对应的GPU资源占比,若所述业务效果评分不小于所述扩容阈值,则判断所述数值关系是否为所述业务效果评分大于所述缩容阈值;
若所述业务效果评分大于所述缩容阈值,则通过销毁指定服务容器降低所述指定模型对应的GPU资源占比,否则不调整所述指定模型对应的GPU资源占比。
优选地,根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间的步骤,包括:
将各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,组成XGBoost模型的训练集;
利用所述XGBoost模型的训练集,在目标函数下训练所述XGBoost模型;
判断所述XGBoost模型的目标函数是否收敛;
若是,则将所述指定模型的历史业务数据统计终止日的响应时间,输入至所述XGBoost模型中;
获取所述XGBoost模型根据所述指定模型的历史业务数据统计终止日的响应时间,预测得到的所述指定模型在指定日期的响应时间。
本申请还提供了一种动态部署GPU资源的装置,包括:
第一获取模块,用于获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;
预测模块,用于根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;
第一计算模块,用于根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;
第二获取模块,用于获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;
第二计算模块,用于根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;
匹配模块,用于根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过在业务应用层面设计应用层资源监控功能模块,并通过应用层资源监控功能模块根据业务优先级以及各模型响应效率,综合动态调整GPU资源的部署状态,达到合理分配GPU资源的效果,提高高效运行各业务的使用需求。
附图说明
图1本申请一实施例的动态部署GPU资源的方法流程示意图;
图2本申请一实施例的动态部署GPU资源的系统流程示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的动态部署GPU资源的方法,包括:
S1:获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;
S2:根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;
S3:根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;
S4:获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;
S5:根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;
S6:根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比。
本申请实施例中,通过设置应用层资源管理功能模块,实时分析待匹配系统中共用GPU资源的多个模型的运行状态,实时调整各模型占用GPU资源的占比。上述应用层资源管理功能模块包括运行效果打分功能块、GPU资源管理功能块、响应时间预测功能块以及动态资源调整功能块,动态资源调整功能块通过实时搜集运行效果打分功能块、GPU资源管理功能块、响应时间预测功能块的实时数据进行逻辑分析,并将分析结果传递给Kubernetes容器集群的Kubernetes调度功能块,以通过Kubernetes调度功能块实时调整GPU资源池中各模型的GPU资源占比,调整后GPU资源池通过服务监控和硬件监控实时反馈调整服务信息至应用层资源管理功能模块的运行效果打分功能块,实现对各模型实时动态调整GPU资源分配。
上述GPU资源管理功能块维护GPU资源池,保证多个模型同时顺利运行,并尽量在kubernetes集群中分配到合适的GPU资源。响应时间预测功能块根据模型响应时间的历史数据,预测出未来一天的响应时间。动态资源调整功能块为急需资源的任务分配更多的GPU资源,为不重要不紧急的任务缩减GPU资源。Kubernetes调度功能块调用kubernetes API进行服务器资源监控以及资源匹配操作。kubernetes可以通过当前容器使用情况实现HPA(Horizontal Pod Autoscaling,自动扩缩容),Kubernetes通过HPA的设定,实现了容器的弹性伸缩功能。对于Kubernetes中的容器集群来说,HPA可以实现很多自动化功能,比如当容器集群中业务负载上升的时候,可以创建新的服务容器来保证业务系统稳定运行,当容器集群中业务负载下降的时候,可以销毁部分服务容器来减少资源浪费。当前的弹性伸缩的指标包括:CPU、内存、并发数以及包传输大小。
服务监控、硬件监控反馈服务,可以将深度模型的服务状态和GPU资源的健康状态、GPU资源的分配状态、以及GPU卡的充分利用效率都反馈到资源监控服务中,同时也记录每一次的监控数据。
上述运行效果打分功能块,根据各模型的响应时间以及硬件资源的负载情况,对该业务场景下各模型的运行效果分别进行综合打分,更具体的反映各模型运行状态情况。上述响应时间预测功能块根据各模型响应时间的历史数据,预测出该模型统计终止日的时序之后相邻的未来日期的响应时间,为未来日期中各模型的运行效果提供重要的参考数据,以便能更及时地对各模型的GPU资源作出扩容或缩容的调整规划。上述未来日期指统计终止日的后一天。本申请实施例中,应用层资源管理功能模块与kubernetes的资源调度服务模块之间完成了解耦,降低了各个功能模块之间的依赖,增加了资源调整机制的延展性以及可维护性。
本申请实施例中,历史业务数据包括历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量。上述工作日状态表示是否为工作日,是工作日标记为0,否则标记为1。前一天的业务请求量是某一具体历史日期的前一天,上述历史业务数据为连续日期数据,如下表1。表1的历史日期为2020/9/1至2020/9/15,相邻于所述历史业务数据对应的统计终止日对应为2020/9/15,指定日期为位于统计终止日的时序之后相邻日期,即为2020/9/16。
表1
Figure BDA0002854293480000071
本申请通过在业务应用层面设计应用层资源监控功能模块,并通过应用层资源监控功能模块根据业务优先级以及各模型响应效率,综合性的动态调整GPU资源的部署状态,达到合理分配GPU资源的效果,高效运行各业务的使用需求。
进一步地,根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率的步骤S3,包括:
S31:获取所述指定模型对应的响应时间阈值;
S32:根据所述指定日期的响应时间以及所述响应时间阈值,通过第一计算公式计算所述指定模型对应所述指定日期的响应效率,其中,所述第一计算公式为P=(Tm-T)/Tm,P表示响应效率,P属于(0,1],Tm表示所述响应时间阈值,Tm属于(0,1],T表示所述指定日期的响应时间,T属于(0,1]。
本申请实施例中,模型的响应效率通过(响应时间阈值-响应时间)/响应时间阈值计算得到,模型的响应效率直接影响模型的运行效果打分,进而影响到GPU资源的分配,GPU资源的分配以各模型的响应效率均处于正常状态。本实施例中响应时间阈值为0.22,可通过统计分析得到。响应时间超过响应时间阈值的,响应效率统一置为0.1。
进一步地,所述监控数据包括显卡使用率、GPU使用率和温度占比,所述根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分的步骤S5,包括:
S51:根据所述显卡使用率、GPU使用率和温度占比,通过第二计算公式计算GPU负载状态量,其中,所述第二计算公式为F=(a*Wa+b*Wb+c*Wc)/(Wa+Wb+Wc),F表示GPU负载状态量,a表示显卡使用率,a属于(0,1],b表示GPU使用率,b属于(0,1],c表示温度占比,c属于(0,1],Wa表示显卡使用率对应的权重,Wb表示GPU使用率对应的权重,Wc表示温度占比对应的权重,Wa、Wb和Wc为非零实数;
S52:获取所述指定模型对应的预设优先级;
S53:根据所述GPU负载状态量、所述预设优先级以及所述响应效率,通过第三计算公式计算所述指定模型对应的业务效果评分,其中,所述第二计算公式为Y=(P*Wp+U*Wu)/F,Y表示业务效果评分,U表示优先级,U属于(0,1],Wp表示所述响应效率对应的权重,Wu表示预设优先级对应的权重,Wp和Wu为非零实数。
本申请实施例中,根据GPU负载状态量、预设优先级以及响应效率,计算模型对应的业务效果评分,以精准评估运行状态。上述GPU负载状态量与显卡使用率、GPU使用率和温度占比有关,显存使用率和GPU使用率均为硬件监控数据,均为一段时间内的统计平均值,均不超过数值1。温度占比等于GPU硬件温度除以GPU硬件温度阈值,数值为0到1的非零实数。上述预设优先级根据业务的紧迫程度由业务层设定,1为最高优先级,本实施例中优先级为0.6。上述各权重值可根据具体的业务场景进行试验测试得到,比如本申请实施例中Wa为2,Wb为3,Wc为1,Wp为6,Wu为4。除了业务效果评分以外的参量数值均为0到1的非零实数,超过1的则计数值为1。业务效果评分,分数越高代表业务效果越好,总分10分,超过10分置为10分。
进一步地,所述根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比的步骤S6,包括:
S61:获取预设的扩容阈值和缩容阈值,其中,所述扩容阈值小于所述缩容阈值,所述扩容阈值和所述缩容阈值为非零实数;
S62:比较所述业务效果评分分别与所述扩容阈值和缩容阈值的数值关系;
S63:根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比。
本申请实施例根据业务效果评分与预设的扩容阈值和缩容阈值的大小关系,决定如何动态调整所述指定模型对应的GPU资源占比,即对其扩容还是缩容。
进一步地,所述根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比的步骤S63,包括:
S631:判断所述数值关系是否为所述业务效果评分小于所述扩容阈值;
S632:若所述业务效果评分小于所述扩容阈值,则通过创建指定服务容器增加所述指定模型对应的GPU资源占比,若所述业务效果评分不小于所述扩容阈值,则判断所述数值关系是否为所述业务效果评分大于所述缩容阈值;
S633:若所述业务效果评分大于所述缩容阈值,则通过销毁指定服务容器降低所述指定模型对应的GPU资源占比,否则不调整所述指定模型对应的GPU资源占比。
本申请实施例通过比较业务效果评分与预设的扩容、缩容阈值进行动态调整GPU资源,调整规则如下:如果业务效果评分小于扩容阈值,则为该模型增加GPU资源;如果业务效果评分大于缩容阈值,则为该模型缩减GPU资源;如果业务效果评分在扩容阈值、缩容阈值之间,则不做GPU资源调整操作。举例地,本申请实施例的业务效果评分=(0.36*6+0.6*4)/0.8=5.7,GPU资源扩容阈值为7,缩容阈值为8,业务效果评分小于扩容阈值,则为本实施例的该模型增加GPU资源,即扩容。调整后符合了该模型优先级稍高,但响应时间正变得越来越长,业务效果评分逐渐变差的事实改善需求,通过GPU资源的扩容操作,使该模型处于更顺畅有效的运行。
进一步地,根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间的步骤S2,包括:
S21:将各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,组成XGBoost模型的训练集;
S22:利用所述XGBoost模型的训练集,在目标函数下训练所述XGBoost模型;
S23:判断所述XGBoost模型的目标函数是否收敛;
S24:若是,则将所述指定模型的历史业务数据统计终止日的响应时间,输入至所述XGBoost模型中;
S25:获取所述XGBoost模型根据所述指定模型的历史业务数据统计终止日的响应时间,预测得到的所述指定模型在指定日期的响应时间。
本申请实施例中,根据历史业务数据预测模型数据的未来走向,进而预测模型的负荷情况,从而得到对该模型所占GPU资源的分配规划,即扩容或缩容。本申请实施例通过历史业务数据收集与处理,形成XGBoost(Extreme Gradient Boost,时间序列预测)模型的训练数据。举例地,上述表1中的数据,将各历史日期、各历史日期分别对应的工作日状态以及前一天的业务请求量,分别对应记作x1、x2、x3,业务请求的响应时间记作作为y,作为模型的训练数据训练XGBoost模型,使得训练后的XGBoost模型可根据历史业务数据来预测未来的响应时间,并进行负荷情况的预测,进而决定是否对其进行GPU扩容或缩容。本申请为简化计算本申请实施例中,将x3进行了归一化处理。归一化公式如下:
Figure BDA0002854293480000101
其中Xnorm表示x3归一化后的值,X表示待归一化的x3,Xmin和Xmax分别为所有x3的最小值和最大值。
本申请实施例根据AI应用场景,将XGBoost模型目标函数的表达式设为:
Figure BDA0002854293480000111
其中,yi为真实值,
Figure BDA0002854293480000112
为预测值,上述
Figure BDA0002854293480000113
是整个模型的累加输出。上述目标函数分为两部分:损失函数和正则化项,损失函数揭示模型训练误差,即预测值和真实值之间的差距,正则化项
Figure BDA0002854293480000114
是则表示树的复杂度的函数,值越小复杂度越低,泛化能力越强,其表达式为
Figure BDA0002854293480000115
T表示叶子节点的个数,γ控制叶子结点的个数,ω表示叶子节点的分数。训练目标为预测误差尽量小,且叶子节点T尽量少,叶子节点数值ω尽量不极端,即λ控制叶子节点的分数不会过大,以防止过拟合。本申请实施例经过反复迭代训练,训练收敛时得到的XGBoost模型最优参数如下:learning_rate:0.085;n_estimators:500;max_depth:5;
min_child_weight:1;subsample:0.75;colsample_bytree:0.8;gamma:0;reg_alpha:0;reg_lambda:1。
举例地,利用上述表1中的2020年9月1日至15日的历史业务数据训练后的XGBoost模型,预测2020年9月16日的模型响应时间为0.3S,具体结果如下表2所示。然后通过将预测的响应时间代入上述的第一计算公式,并结合第二计算公式和第三计算公式,计算得到2020年9月16日的业务效果评分,以便根据业务效果评分调整CPU资源占比。
表2
日期 是否工作日 前一天请求数 RT
2020/9/16 0 39064 0.30
参照图2,本申请一实施例的动态部署GPU资源的装置,包括:
第一获取模块1,用于获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;
预测模块2,用于根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;
第一计算模块3,用于根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;
第二获取模块4,用于获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;
第二计算模块5,用于根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;
匹配模块6,用于根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比。
本申请实施例的相关解释参照对应方法部分,不赘述。
进一步地,第一计算模块3,包括:
第一获取单元,用于获取所述指定模型对应的响应时间阈值;
第一计算单元,用于根据所述指定日期的响应时间以及所述响应时间阈值,通过第一计算公式计算所述指定模型对应所述指定日期的响应效率,其中,所述第一计算公式为P=(Tm-T)/Tm,P表示响应效率,P属于(0,1],Tm表示所述响应时间阈值,Tm属于(0,1],T表示所述指定日期的响应时间,T属于(0,1]。
进一步地,所述监控数据包括显卡使用率、GPU使用率和温度占比,第二计算模块5,包括:
第二计算单元,用于根据所述显卡使用率、GPU使用率和温度占比,通过第二计算公式计算GPU负载状态量,其中,所述第二计算公式为F=(a*Wa+b*Wb+c*Wc)/(Wa+Wb+Wc),F表示GPU负载状态量,a表示显卡使用率,a属于(0,1],b表示GPU使用率,b属于(0,1],c表示温度占比,c属于(0,1],Wa表示显卡使用率对应的权重,Wb表示GPU使用率对应的权重,Wc表示温度占比对应的权重,Wa、Wb和Wc为非零实数;
第二获取单元,用于获取所述指定模型对应的预设优先级;
第三计算单元,用于根据所述GPU负载状态量、所述预设优先级以及所述响应效率,通过第三计算公式计算所述指定模型对应的业务效果评分,其中,所述第二计算公式为Y=(P*Wp+U*Wu)/F,Y表示业务效果评分,U表示优先级,U属于(0,1],Wp表示所述响应效率对应的权重,Wu表示预设优先级对应的权重,Wp和Wu为非零实数。
进一步地,匹配模块6,包括:
第三获取单元,用于获取预设的扩容阈值和缩容阈值,其中,所述扩容阈值小于所述缩容阈值,所述扩容阈值和所述缩容阈值为非零实数;
比较单元,用于比较所述业务效果评分分别与所述扩容阈值和缩容阈值的数值关系;
调整单元,用于根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比。
进一步地,调整单元,包括:
第一判断子单元,用于判断所述数值关系是否为所述业务效果评分小于所述扩容阈值;
第二判断子单元,用于若所述业务效果评分小于所述扩容阈值,则通过创建指定服务容器增加所述指定模型对应的GPU资源占比,若所述业务效果评分不小于所述扩容阈值,则判断所述数值关系是否为所述业务效果评分大于所述缩容阈值;
调整子单元,用于若所述业务效果评分大于所述缩容阈值,则通过销毁指定服务容器降低所述指定模型对应的GPU资源占比,否则不调整所述指定模型对应的GPU资源占比。
进一步地,预测模块2,包括:
组成单元,用于将各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,组成XGBoost模型的训练集;
训练单元,用于利用所述XGBoost模型的训练集,在目标函数下训练所述XGBoost模型;
判断单元,用于判断所述XGBoost模型的目标函数是否收敛;
输入单元,用于若收敛,则将所述指定模型的历史业务数据统计终止日的响应时间,输入至所述XGBoost模型中;
第四获取单元,用于获取所述XGBoost模型根据所述指定模型的历史业务数据统计终止日的响应时间,预测得到的所述指定模型在指定日期的响应时间。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储动态部署GPU资源的过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现动态部署GPU资源的方法。
上述处理器执行上述动态部署GPU资源的方法,包括:获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比。
上述计算机设备,通过在业务应用层面设计应用层资源监控功能模块,并通过应用层资源监控功能模块根据业务优先级以及各模型响应效率,综合动态调整GPU资源的部署状态,达到合理分配GPU资源的效果,提高高效运行各业务的使用需求。
在一个实施例中,上述处理器根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率的步骤,包括:获取所述指定模型对应的响应时间阈值;根据所述指定日期的响应时间以及所述响应时间阈值,通过第一计算公式计算所述指定模型对应所述指定日期的响应效率,其中,所述第一计算公式为P=(Tm-T)/Tm,P表示响应效率,P属于(0,1],Tm表示所述响应时间阈值,Tm属于(0,1],T表示所述指定日期的响应时间,T属于(0,1]。
在一个实施例中,所述监控数据包括显卡使用率、GPU使用率和温度占比,上述处理器根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分的步骤,包括:根据所述显卡使用率、GPU使用率和温度占比,通过第二计算公式计算GPU负载状态量,其中,所述第二计算公式为F=(a*Wa+b*Wb+c*Wc)/(Wa+Wb+Wc),F表示GPU负载状态量,a表示显卡使用率,a属于(0,1],b表示GPU使用率,b属于(0,1],c表示温度占比,c属于(0,1],Wa表示显卡使用率对应的权重,Wb表示GPU使用率对应的权重,Wc表示温度占比对应的权重,Wa、Wb和Wc为非零实数;获取所述指定模型对应的预设优先级;根据所述GPU负载状态量、所述预设优先级以及所述响应效率,通过第三计算公式计算所述指定模型对应的业务效果评分,其中,所述第二计算公式为Y=(P*Wp+U*Wu)/F,Y表示业务效果评分,U表示优先级,U属于(0,1],Wp表示所述响应效率对应的权重,Wu表示预设优先级对应的权重,Wp和Wu为非零实数。
在一个实施例中,上述处理器根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比的步骤,包括:获取预设的扩容阈值和缩容阈值,其中,所述扩容阈值小于所述缩容阈值,所述扩容阈值和所述缩容阈值为非零实数;比较所述业务效果评分分别与所述扩容阈值和缩容阈值的数值关系;根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比。
在一个实施例中,上述处理器根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比的步骤,包括:判断所述数值关系是否为所述业务效果评分小于所述扩容阈值;若所述业务效果评分小于所述扩容阈值,则通过创建指定服务容器增加所述指定模型对应的GPU资源占比,若所述业务效果评分不小于所述扩容阈值,则判断所述数值关系是否为所述业务效果评分大于所述缩容阈值;若所述业务效果评分大于所述缩容阈值,则通过销毁指定服务容器降低所述指定模型对应的GPU资源占比,否则不调整所述指定模型对应的GPU资源占比。
在一个实施例中,上述处理器根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间的步骤,包括:将各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,组成XGBoost模型的训练集;利用所述XGBoost模型的训练集,在目标函数下训练所述XGBoost模型;判断所述XGBoost模型的目标函数是否收敛;若是,则将所述指定模型的历史业务数据统计终止日的响应时间,输入至所述XGBoost模型中;获取所述XGBoost模型根据所述指定模型的历史业务数据统计终止日的响应时间,预测得到的所述指定模型在指定日期的响应时间。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现动态部署GPU资源的方法,包括:获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比。
上述计算机可读存储介质,通过在业务应用层面设计应用层资源监控功能模块,并通过应用层资源监控功能模块根据业务优先级以及各模型响应效率,综合动态调整GPU资源的部署状态,达到合理分配GPU资源的效果,提高高效运行各业务的使用需求。
在一个实施例中,上述处理器根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率的步骤,包括:获取所述指定模型对应的响应时间阈值;根据所述指定日期的响应时间以及所述响应时间阈值,通过第一计算公式计算所述指定模型对应所述指定日期的响应效率,其中,所述第一计算公式为P=(Tm-T)/Tm,P表示响应效率,P属于(0,1],Tm表示所述响应时间阈值,Tm属于(0,1],T表示所述指定日期的响应时间,T属于(0,1]。
在一个实施例中,所述监控数据包括显卡使用率、GPU使用率和温度占比,上述处理器根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分的步骤,包括:根据所述显卡使用率、GPU使用率和温度占比,通过第二计算公式计算GPU负载状态量,其中,所述第二计算公式为F=(a*Wa+b*Wb+c*Wc)/(Wa+Wb+Wc),F表示GPU负载状态量,a表示显卡使用率,a属于(0,1],b表示GPU使用率,b属于(0,1],c表示温度占比,c属于(0,1],Wa表示显卡使用率对应的权重,Wb表示GPU使用率对应的权重,Wc表示温度占比对应的权重,Wa、Wb和Wc为非零实数;获取所述指定模型对应的预设优先级;根据所述GPU负载状态量、所述预设优先级以及所述响应效率,通过第三计算公式计算所述指定模型对应的业务效果评分,其中,所述第二计算公式为Y=(P*Wp+U*Wu)/F,Y表示业务效果评分,U表示优先级,U属于(0,1],Wp表示所述响应效率对应的权重,Wu表示预设优先级对应的权重,Wp和Wu为非零实数。
在一个实施例中,上述处理器根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比的步骤,包括:获取预设的扩容阈值和缩容阈值,其中,所述扩容阈值小于所述缩容阈值,所述扩容阈值和所述缩容阈值为非零实数;比较所述业务效果评分分别与所述扩容阈值和缩容阈值的数值关系;根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比。
在一个实施例中,上述处理器根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比的步骤,包括:判断所述数值关系是否为所述业务效果评分小于所述扩容阈值;若所述业务效果评分小于所述扩容阈值,则通过创建指定服务容器增加所述指定模型对应的GPU资源占比,若所述业务效果评分不小于所述扩容阈值,则判断所述数值关系是否为所述业务效果评分大于所述缩容阈值;若所述业务效果评分大于所述缩容阈值,则通过销毁指定服务容器降低所述指定模型对应的GPU资源占比,否则不调整所述指定模型对应的GPU资源占比。
在一个实施例中,上述处理器根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间的步骤,包括:将各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,组成XGBoost模型的训练集;利用所述XGBoost模型的训练集,在目标函数下训练所述XGBoost模型;判断所述XGBoost模型的目标函数是否收敛;若是,则将所述指定模型的历史业务数据统计终止日的响应时间,输入至所述XGBoost模型中;获取所述XGBoost模型根据所述指定模型的历史业务数据统计终止日的响应时间,预测得到的所述指定模型在指定日期的响应时间。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (9)

1.一种动态部署GPU资源的方法,其特征在于,包括:
获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;
根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;
根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;
获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;
根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;
根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比;
所述监控数据包括显卡使用率、GPU使用率和温度占比,所述根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分的步骤,包括:
根据所述显卡使用率、GPU使用率和温度占比,通过第二计算公式计算GPU负载状态量,其中,所述第二计算公式为F=(a*Wa+b*Wb+c*Wc)/
(Wa+Wb+Wc),F表示GPU负载状态量,a表示显卡使用率,a属于(0,1],b表示GPU使用率,b属于(0,1],c表示温度占比,c属于(0,1],Wa表示显卡使用率对应的权重,Wb表示GPU使用率对应的权重,Wc表示温度占比对应的权重,Wa、Wb和Wc为非零实数;
获取所述指定模型对应的预设优先级;
根据所述GPU负载状态量、所述预设优先级以及所述响应效率,通过第三计算公式计算所述指定模型对应的业务效果评分,其中,所述第二计算公式为Y=(P*Wp+U*Wu)/F,Y表示业务效果评分,U表示优先级,U属于(0,1],Wp表示所述响应效率对应的权重,Wu表示预设优先级对应的权重,Wp和Wu为非零实数
2.根据权利要求1所述的动态部署GPU资源的方法,其特征在于,所述根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率的步骤,包括:
获取所述指定模型对应的响应时间阈值;
根据所述指定日期的响应时间以及所述响应时间阈值,通过第一计算公式计算所述指定模型对应所述指定日期的响应效率,其中,所述第一计算公式为P=(Tm-T)/Tm,P表示响应效率,P属于(0,1],Tm表示所述响应时间阈值,Tm属于(0,1],T表示所述指定日期的响应时间,T属于(0,1]。
3.根据权利要求1所述的动态部署GPU资源的方法,其特征在于,所述根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比的步骤,包括:
获取预设的扩容阈值和缩容阈值,其中,所述扩容阈值小于所述缩容阈值,所述扩容阈值和所述缩容阈值为非零实数;
比较所述业务效果评分分别与所述扩容阈值和缩容阈值的数值关系;
根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比。
4.根据权利要求3所述的动态部署GPU资源的方法,其特征在于,所述根据所述数值关系,通过容器集群控制服务容器的数量,动态调整所述指定模型对应的GPU资源占比的步骤,包括:
判断所述数值关系是否为所述业务效果评分小于所述扩容阈值;
若所述业务效果评分小于所述扩容阈值,则通过创建指定服务容器增加所述指定模型对应的GPU资源占比,若所述业务效果评分不小于所述扩容阈值,则判断所述数值关系是否为所述业务效果评分大于所述缩容阈值;
若所述业务效果评分大于所述缩容阈值,则通过销毁指定服务容器降低所述指定模型对应的GPU资源占比,否则不调整所述指定模型对应的GPU资源占比。
5.根据权利要求1所述的动态部署GPU资源的方法,其特征在于,根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间的步骤,包括:
将各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,组成XGBoost模型的训练集;
利用所述XGBoost模型的训练集,在目标函数下训练所述XGBoost模型;
判断所述XGBoost模型的目标函数是否收敛;
若是,则将所述指定模型的历史业务数据统计终止日的响应时间,输入至所述XGBoost模型中;
获取所述XGBoost模型根据所述指定模型的历史业务数据统计终止日的响应时间,预测得到的所述指定模型在指定日期的响应时间。
6.一种动态部署GPU资源的装置,其特征在于,用于执行权利要求1-5任一项所述的动态部署GPU资源的方法,包括:
第一获取模块,用于获取待匹配系统中指定模型对应的历史业务数据,其中,所述历史业务数据包括所述历史业务数据对应的统计终止日、各历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,所述待匹配系统中包括共用GPU资源的多个模型,所述指定模型为所述待匹配系统中所有模型中的任一个;
预测模块,用于根据各所述历史日期、各所述历史日期分别对应的工作日状态以及位于各所述历史日期前一天的业务请求量,预测所述指定模型对应的指定日期的响应时间,其中,所述指定日期为相邻于所述历史业务数据对应的统计终止日,且位于所述历史业务数据对应的统计终止日的时序之后的日期;
第一计算模块,用于根据所述指定日期的响应时间,计算所述指定模型对应所述指定日期的响应效率;
第二获取模块,用于获取所述指定模型在所述历史业务数据对应的统计终止日的监控数据;
第二计算模块,用于根据所述指定模型对应所述指定日期的响应效率,以及所述统计终止日的监控数据,计算所述指定模型对应所述指定日期的业务效果评分;
匹配模块,用于根据所述指定模型对应的业务效果评分,通过容器集群控制服务容器的数量,动态匹配所述指定模型对应所述指定日期的GPU资源占比。
7.根据权利要求6所述的动态部署GPU资源的装置,其特征在于,第一计算模块,包括:
第一获取单元,用于获取所述指定模型对应的响应时间阈值;
第一计算单元,用于根据所述指定日期的响应时间以及所述响应时间阈值,通过第一计算公式计算所述指定模型对应所述指定日期的响应效率,其中,所述第一计算公式为P=(Tm-T)/Tm,P表示响应效率,P属于(0,1],Tm表示所述响应时间阈值,Tm属于(0,1],T表示所述指定日期的响应时间,T属于(0,1]。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
CN202011538689.5A 2020-12-23 2020-12-23 动态部署gpu资源的方法、装置和计算机设备 Active CN112559191B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011538689.5A CN112559191B (zh) 2020-12-23 2020-12-23 动态部署gpu资源的方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011538689.5A CN112559191B (zh) 2020-12-23 2020-12-23 动态部署gpu资源的方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN112559191A CN112559191A (zh) 2021-03-26
CN112559191B true CN112559191B (zh) 2023-04-25

Family

ID=75030960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011538689.5A Active CN112559191B (zh) 2020-12-23 2020-12-23 动态部署gpu资源的方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN112559191B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113568741B (zh) * 2021-07-19 2024-05-10 咪咕文化科技有限公司 分布式系统的服务扩缩容方法、装置、设备及存储介质
CN118535335B (zh) * 2024-05-28 2024-11-05 北京科杰科技有限公司 一种基于大模型的运算环境自动切换系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766182A (zh) * 2018-12-18 2019-05-17 平安科技(深圳)有限公司 系统资源动态扩缩容方法、装置、计算机设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2887219A1 (en) * 2013-12-23 2015-06-24 Deutsche Telekom AG System and method for mobile augmented reality task scheduling
WO2016040699A1 (en) * 2014-09-10 2016-03-17 Amazon Technologies, Inc. Computing instance launch time
CN106549772B (zh) * 2015-09-16 2019-11-19 华为技术有限公司 资源预测方法、系统和容量管理装置
US10942776B2 (en) * 2016-09-21 2021-03-09 Accenture Global Solutions Limited Dynamic resource allocation for application containers
CN109714395B (zh) * 2018-12-10 2021-10-26 平安科技(深圳)有限公司 云平台资源使用预测方法及终端设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109766182A (zh) * 2018-12-18 2019-05-17 平安科技(深圳)有限公司 系统资源动态扩缩容方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112559191A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112559191B (zh) 动态部署gpu资源的方法、装置和计算机设备
CN112668880B (zh) 配网网格的工单调度方法、装置、计算机设备和存储介质
CN105320559A (zh) 一种云计算系统的调度方法和装置
CN111813524B (zh) 一种任务执行方法、装置、电子设备和存储介质
CN104462432A (zh) 自适应的分布式计算方法
CN112817721A (zh) 基于人工智能的任务调度方法、装置、计算机设备和介质
CN108509280A (zh) 一种基于推送模型的分布式计算集群本地性调度方法
CN117435306A (zh) 集群容器扩缩容方法、装置、设备及存储介质
CN111105050B (zh) 风机维护计划的生成方法、装置、设备及存储介质
CN115086244B (zh) 带宽分配方法、装置、计算机设备及存储介质
CN115514020A (zh) 跨区域电力调度方法、装置、计算机设备和存储介质
CN113918341B (zh) 设备调度方法、装置、设备及存储介质
CN117573382B (zh) 一种数据采集任务编排方法、装置
CN112700111A (zh) 工作数据处理方法、装置、计算机设备及存储介质
CN117687784A (zh) 一种基于机器学习的Docker容器智能动态调配方法及装置
CN116662014A (zh) 一种任务分配方法、装置、设备及介质
CN113742059B (zh) 任务分配方法、装置、计算机设备和存储介质
CN117408662A (zh) 智能工作分配比例提醒方法、装置、设备和介质
CN115375199A (zh) 一种长距离智能供水调度方法及其系统
CN113641471A (zh) 基于遗传算法模型的软负载调度方法、装置、设备及介质
CN113487132A (zh) 配电网灾后抢修资源分配方法、装置和计算机设备
CN111354449A (zh) 长期护理策略分配方法、装置、计算机设备和存储介质
CN115686865B (zh) 一种基于多场景应用的超算节点资源分配系统
Alasheev et al. Methods and models for decision-making in systems engineering for creating (developing) distributed organizational information and control systems
CN117094539B (zh) 一种保电智能工单管控方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant