CN114003388A - 大数据计算引擎任务参数确定方法及装置 - Google Patents
大数据计算引擎任务参数确定方法及装置 Download PDFInfo
- Publication number
- CN114003388A CN114003388A CN202111310246.5A CN202111310246A CN114003388A CN 114003388 A CN114003388 A CN 114003388A CN 202111310246 A CN202111310246 A CN 202111310246A CN 114003388 A CN114003388 A CN 114003388A
- Authority
- CN
- China
- Prior art keywords
- data
- determining
- task
- scale
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供一种大数据计算引擎任务参数确定方法及装置,方法包括:获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数;根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源;根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数;本申请能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
Description
技术领域
本申请涉及大数据处理领域,具体涉及一种大数据计算引擎任务参数确定方法及装置。
背景技术
近年来,数据产生的速度越来越快,积累的数据越来越多。业界也因此诞生出许多大数据计算引擎,Apache Spark便是其中的佼佼者。Apache Spark是一个用于大规模数据处理的分析引擎。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架。用来构建大型的、低延迟的数据分析应用程序。高效地支撑多种计算模式,包括交互式查询和流处理。Spark引擎将数据抽象为弹性分布式数据集(RDD),并将数据集分布在集群的多台机器上,使得多台机可以同时对数据进行相同的操作,实现数据的并行处理。
发明人发现,目前Spark任务需要人工手动设置任务参数。同时Spark参数数量众多、作用各异,对使用者有较高的要求,需要使用者熟练掌握任务参数的相关知识。当任务的硬件资源等参数配置不足时,将导致任务执行失败,浪费计算机集群运算资源。当任务的硬件资源等参数配置过大时,Spark任务可能在资源队列中长时间等待资源无法执行,或在执行过程中占用不必要的计算机集群运算资源。由于实际数据处理流程、数据来源和数据规模的不同,Spark任务的参数组合差异十分巨大,现有通过模型自适应生成Spark任务参数的方法仍存在不足。
发明内容
针对现有技术中的问题,本申请提供一种大数据计算引擎任务参数确定方法及装置,能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种大数据计算引擎任务参数确定方法,包括:
获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数;
根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源;
根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
进一步地,所述根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,包括:
在所述延时参数不大于预设延时阈值的情况下,根据所述数据集特征信息确定所述数据集中最大规模数据集;
根据所述最大规模数据集和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
进一步地,所述根据所述最大规模数据集和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源,包括:
根据所述最大规模数据集确定所述数据集的中间数据规模;
根据所述中间数据规模的行数和列数的乘积确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源,其中,所述行数为所有所述数据集的行数之积,所述列数为所有所述数据集的列数之和,所述所需硬件资源包括CPU计算资源、内存存储资源中的至少一种。
进一步地,所述根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,包括:
在所述延时参数大于预设延时阈值的情况下,根据所述数据集特征信息和预设复合数据集计算规则进行复合数据集计算;
根据所述复合数据集计算的结果和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
进一步地,所述根据所述复合数据集计算的结果和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源,包括:
对所述复合数据集计算得到的复合数据规模采用预设阶梯式函数确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源。
进一步地,所述根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数,包括:
根据所述大数据计算引擎的处理器硬件配置和所述所需硬件资源中的CPU数量,确定所述数据计算规模中的节点数量;
根据所述节点数量和所述所需硬件资源中的内存空间大小,确定所述大数据计算引擎的驱动参数和执行器参数。
进一步地,在所述确定所述大数据计算引擎的任务参数之后,包括:
生成包含有所述任务参数的任务提交命令并提交至大数据计算引擎集群,以使所述大数据计算引擎集群根据所述任务参数确定本次计算任务的集群资源并执行所述计算任务。
第二方面,本申请提供一种大数据计算引擎任务参数确定装置,包括:
延时参数确定模块,用于获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数;
计算规模确定模块,用于根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源;
任务参数确定模块,用于根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
进一步地,所述计算规模确定模块包括:
最大规模数据集确定单元,用于在所述延时参数不大于预设延时阈值的情况下,根据所述数据集特征信息确定所述数据集中最大规模数据集;
第一计算规模确定单元,用于根据所述最大规模数据集和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
进一步地,所述第一计算规模确定单元包括:
中间数据规模确定子单元,用于根据所述最大规模数据集确定所述数据集的中间数据规模;
中间数据计算子单元,用于根据所述中间数据规模的行数和列数的乘积确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源,其中,所述行数为所有所述数据集的行数之积,所述列数为所有所述数据集的列数之和,所述所需硬件资源包括CPU计算资源、内存存储资源中的至少一种。
进一步地,所述计算规模确定模块包括:
复合数据集计算单元,用于在所述延时参数大于预设延时阈值的情况下,根据所述数据集特征信息和预设复合数据集计算规则进行复合数据集计算;
第二计算规模确定单元,用于根据所述复合数据集计算的结果和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
进一步地,所述第二计算规模确定单元包括:
复合数据计算子单元,用于对所述复合数据集计算得到的复合数据规模采用预设阶梯式函数确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源。
进一步地,所述任务参数确定模块包括:
节点数量确定单元,用于根据所述大数据计算引擎的处理器硬件配置和所述所需硬件资源中的CPU数量,确定所述数据计算规模中的节点数量;
驱动和执行器参数确定单元,用于根据所述节点数量和所述所需硬件资源中的内存空间大小,确定所述大数据计算引擎的驱动参数和执行器参数。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的大数据计算引擎任务参数确定方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的大数据计算引擎任务参数确定方法的步骤。
由上述技术方案可知,本申请提供一种大数据计算引擎任务参数确定方法及装置,通过根据大数据计算引擎任务代码中的行动算子确定对应的延时参数,并根据获取到的数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,以此结合预设参数计算规则确定所述大数据计算引擎的任务参数,由此能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的大数据计算引擎任务参数确定方法的流程示意图之一;
图2为本申请实施例中的大数据计算引擎任务参数确定方法的流程示意图之二;
图3为本申请实施例中的大数据计算引擎任务参数确定方法的流程示意图之三;
图4为本申请实施例中的大数据计算引擎任务参数确定方法的流程示意图之四;
图5为本申请实施例中的大数据计算引擎任务参数确定方法的流程示意图之五;
图6为本申请实施例中的大数据计算引擎任务参数确定方法的结构图之一;
图7为本申请实施例中的大数据计算引擎任务参数确定方法的结构图之二;
图8为本申请实施例中的大数据计算引擎任务参数确定方法的结构图之三;
图9为本申请实施例中的大数据计算引擎任务参数确定方法的结构图之四;
图10为本申请实施例中的大数据计算引擎任务参数确定方法的结构图之五;
图11为本申请实施例中的大数据计算引擎任务参数确定方法的结构图之六;
图12为本申请一具体实施例中的低代码平台中数据处理场景示意图;
图13为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到目前Spark任务需要人工手动设置任务参数。同时Spark参数数量众多、作用各异,对使用者有较高的要求,需要使用者熟练掌握任务参数的相关知识。当任务的硬件资源等参数配置不足时,将导致任务执行失败,浪费计算机集群运算资源。当任务的硬件资源等参数配置过大时,Spark任务可能在资源队列中长时间等待资源无法执行,或在执行过程中占用不必要的计算机集群运算资源。由于实际数据处理流程、数据来源和数据规模的不同,Spark任务的参数组合差异十分巨大,现有通过模型自适应生成Spark任务参数的方法仍存在不足的问题,本申请提供一种大数据计算引擎任务参数确定方法及装置,通过根据大数据计算引擎任务代码中的行动算子确定对应的延时参数,并根据获取到的数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,以此结合预设参数计算规则确定所述大数据计算引擎的任务参数,由此能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
为了能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费,本申请提供一种大数据计算引擎任务参数确定方法的实施例,参见图1,所述大数据计算引擎任务参数确定方法具体包含有如下内容:
步骤S101:获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数。
可选的,本申请所涉及的大数据计算引擎可以为Apache Spark(用于大规模数据处理的分析引擎),也可以为其他现有的大数据计算引擎,本申请下文所指Spark即本申请所述大数据计算引擎。
可选的,本申请的大数据计算引擎可以首先获取上游多个数据集(例如来源于HDFS、HIVE)的数据集特征信息,所述数据集特征信息包括但不限于:所有输入数据集的行数、列数和表结构(即每列数据的类型)。
可选的,由于Spark的众多行动算子会对任务运行时间产生不同的影响,因此本申请可以通过统计和计算不同权重的行动算子得到延时参数,所述延时参数是指:通过解析代码中的关键字,设置延时参数(整数),如代码中调用了Spark API中的“join”,则为延时参数k加1。
步骤S102:根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源。
可以理解的是,通过延时参数可以估计在执行Spark任务的过程中中间数据的规模,其中,所述中间数据的规模和shuffle运算决定了所提供的集群资源是否足够。
可选的,本申请可以根据上述获取的所述数据集特征信息和所述延时参数与一预设延时阈值的数值比较关系,以此来确定对应的数据计算规模和所需硬件资源。
具体的,所述数据计算规模是指待处理数据及处理过程中的中间数据的数据量,如一份数据的计算规模约等于行数×列数。
步骤S103:根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
可选的,在通过上述内容确定了数据计算规模和所需硬件资源后,本申请可以通过一预设参数计算规则,确定所述大数据计算引擎的任务参数,即自动生成该大数据计算引擎的任务参数并自动进行参数配置。
具体的,延时阈值一般设置为1,即代码中出现类似join操作,则延时参数超过延时阈值。当任务低于延时阈值时,数据集规模信息取当前任务中所有数据规模最大值对应的数据集规模信息(必要信息为行数、列数,可另包含每列数据的在存储中的数据类型,如整型、浮点型);当任务高于延时阈值时,数据集规模信息中,行数等于所有数据集行数之积,列数等于所有数据集列数之和。数据集规模可粗略地等于行数×列数。
可以理解的是,参数计算函数与数据集规模正相关,计算结果不超过计算集群的可用最大硬件资源(由集群管理员配置)。硬件资源包括集群中机器的CPU、内存、硬盘。
一般的,y(CPU)=k1*x,y(RAM)=k2*x,kn为大于0的系数,x为该任务的数据集规模,y(CPU)单位为“个”,y(RAM)单位为“Gb”。根据一般性经验,一个Spark任务所需的节点个数和CPU个数的对应关系约为:节点个数*N=CPU个数(N一般为4-8,取决于计算机处理器的配置),因此任务中节点个数R=y(CPU)/N。Spark任务参数中,driver-cores及executor-cores默认值为N;num-executors为R-1,driver-memory为n*y(RAM)(0<n<1,一般的,当任务低于延时阈值时,n=20%,否则n=40%),executor-memory为(1-n)*y(RAM)/(R-1)。
从上述描述可知,本申请实施例提供的大数据计算引擎任务参数确定方法,能够通过根据大数据计算引擎任务代码中的行动算子确定对应的延时参数,并根据获取到的数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,以此结合预设参数计算规则确定所述大数据计算引擎的任务参数,由此能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
为了能够准确确定大数据计算引擎的数据计算规模和所需硬件资源,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图2,上述步骤S102还可以具体包含如下内容:
步骤S201:在所述延时参数不大于预设延时阈值的情况下,根据所述数据集特征信息确定所述数据集中最大规模数据集。
步骤S202:根据所述最大规模数据集和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
可选的,当延时参数不大于预设延时阈值,本申请可以选取所有数据集中单个最大规模数据集以此来预估中间数据规模。
具体的,参见图3,上述步骤S202可以包括:
步骤S301:根据所述最大规模数据集确定所述数据集的中间数据规模。
步骤S302:根据所述中间数据规模的行数和列数的乘积确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源,其中,所述行数为所有所述数据集的行数之积,所述列数为所有所述数据集的列数之和,所述所需硬件资源包括CPU计算资源、内存存储资源中的至少一种。
具体来说,若k<k’,则数据规模L=Max(F(S1),F(S2),,...,F(Sn))),其中,k为延时参数,k’为延时阈值,S为各数据集的数据集特征信息,F为预设数据集规模计算规则(也即预设数据集规模函数,延时阈值一般设置为1,即代码中出现类似join操作,则延时参数超过延时阈值。当延时参数低于延时阈值时,数据集规模信息取当前任务中所有数据规模最大值对应的数据集规模信息(必要信息为行数、列数,可另包含每列数据的在存储中的数据类型,如整型、浮点型);当任务高于延时阈值时,数据集规模信息中,行数等于所有数据集行数之积,列数等于所有数据集列数之和。例如,数据集规模可粗略地等于行数×列数)。
可选的,在确定了数据计算规模后,还可对应性确定所需硬件资源,例如CPU、内存。
为了能够准确确定大数据计算引擎的数据计算规模和所需硬件资源,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图4,上述步骤S102还可以具体包含如下内容:
步骤S401:在所述延时参数大于预设延时阈值的情况下,根据所述数据集特征信息和预设复合数据集计算规则进行复合数据集计算。
步骤S402:根据所述复合数据集计算的结果和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
可选的,当延时参数达到或超过预设延时阈值时,此时意味着存在数据间的笛卡尔积,本申请可以使用预设复合数据集计算规则(也即复合数据集函数)计算复合数据规模。同时,对于不同的数据规模本申请可以采取预设数据集规模计算规则(也即阶梯式函数)确定应分配的计算集群资源。
具体的,上述步骤S402可以具体包括:
对所述复合数据集计算得到的复合数据规模采用预设阶梯式函数确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源。
具体来说,若k≥k’,则数据规模L=Max(F(G(S1,S2,...,Sn)),Rmax),其中,Rmax为最大可支持数据规模,G为预设复合数据集计算规则(也即复合数据集函数,例如数据集规模信息中,行数等于所有数据集行数之积,列数等于所有数据集列数之和)。
为了能够准确确定大数据计算引擎的任务参数,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图5,上述步骤S103还可以具体包含如下内容:
步骤S501:根据所述大数据计算引擎的处理器硬件配置和所述所需硬件资源中的CPU数量,确定所述数据计算规模中的节点数量。
可选的,y(CPU)=k1*x,y(RAM)=k2*x,kn为大于0的系数,x为该任务的数据集规模,y(CPU)单位为“个”,y(RAM)单位为“Gb”。根据一般性经验,一个Spark任务所需的节点个数和CPU个数的对应关系约为:节点个数*N=CPU个数(N一般为4-8,取决于计算机处理器的配置),因此所述数据计算规模中的节点数量R=y(CPU)/N。
步骤S502:根据所述节点数量和所述所需硬件资源中的内存空间大小,确定所述大数据计算引擎的驱动参数和执行器参数。
可以理解的是,参数计算函数与数据集规模正相关,计算结果不超过计算集群的可用最大硬件资源(由集群管理员配置)。
可以理解的是,硬件资源可以包括集群中机器的CPU、内存、硬盘。
可选的,所述大数据计算引擎的驱动参数和执行器参数包括但不限于:驱动核心参数driver-cores、执行器核心参数executor-cores、执行器数量num-executors、驱动存储参数driver-memory以及执行存储参数executor-memory。
具体来说,Spark任务参数中,驱动核心参数driver-cores及执行器核心参数executor-cores默认值为N;执行器数量num-executors为R-1,驱动存储参数driver-memory为n*y(RAM)(0<n<1,一般的,当任务低于延时阈值时,n=20%,否则n=40%),执行存储参数executor-memory为(1-n)*y(RAM)/(R-1)。
在本申请的大数据计算引擎任务参数确定方法的一实施例中,上述步骤S103之后还包括:
生成包含有所述任务参数的任务提交命令并提交至大数据计算引擎集群,以使所述大数据计算引擎集群根据所述任务参数确定本次计算任务的集群资源并执行所述计算任务。
可选的,所述大数据计算引擎集群例如Spark集群,所述集群资源例如包括CPU核心数、内存大小等,通过Spark集群根据任务参数来确定本次计算任务所需调用的集群资源,避免了用户自定义所需调用的集群资源而造成资源浪费或资源不足任务失败的情况,提高了大数据计算任务的成功率和效率。
为了能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费,本申请提供一种用于实现所述大数据计算引擎任务参数确定方法的全部或部分内容的大数据计算引擎任务参数确定方法的实施例,参见图6,所述大数据计算引擎任务参数确定方法具体包含有如下内容:
延时参数确定模块10,用于获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数。
计算规模确定模块20,用于根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源。
任务参数确定模块30,用于根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
从上述描述可知,本申请实施例提供的大数据计算引擎任务参数确定方法,能够通过根据大数据计算引擎任务代码中的行动算子确定对应的延时参数,并根据获取到的数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,以此结合预设参数计算规则确定所述大数据计算引擎的任务参数,由此能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
为了能够准确确定大数据计算引擎的数据计算规模和所需硬件资源,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图7,所述计算规模确定模块20包括:
最大规模数据集确定单元21,用于在所述延时参数不大于预设延时阈值的情况下,根据所述数据集特征信息确定所述数据集中最大规模数据集。
第一计算规模确定单元22,用于根据所述最大规模数据集和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
为了能够准确确定大数据计算引擎的数据计算规模和所需硬件资源,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图8,所述第一计算规模确定单元22包括:
中间数据规模确定子单元221,用于根据所述最大规模数据集确定所述数据集的中间数据规模。
中间数据计算子单元222,用于根据所述中间数据规模的行数和列数的乘积确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源,其中,所述行数为所有所述数据集的行数之积,所述列数为所有所述数据集的列数之和,所述所需硬件资源包括CPU计算资源、内存存储资源中的至少一种。
为了能够准确确定大数据计算引擎的数据计算规模和所需硬件资源,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图9,所述计算规模确定模块20包括:
复合数据集计算单元23,用于在所述延时参数大于预设延时阈值的情况下,根据所述数据集特征信息和预设复合数据集计算规则进行复合数据集计算。
第二计算规模确定单元24,用于根据所述复合数据集计算的结果和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
为了能够准确确定大数据计算引擎的数据计算规模和所需硬件资源,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图10,所述第二计算规模确定单元24包括:
复合数据计算子单元241,用于对所述复合数据集计算得到的复合数据规模采用预设阶梯式函数确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源。
为了能够准确确定大数据计算引擎的任务参数,在本申请的大数据计算引擎任务参数确定方法的一实施例中,参见图11,所述任务参数确定模块30包括:
节点数量确定单元31,用于根据所述大数据计算引擎的处理器硬件配置和所述所需硬件资源中的CPU数量,确定所述数据计算规模中的节点数量。
驱动和执行器参数确定单元32,用于根据所述节点数量和所述所需硬件资源中的内存空间大小,确定所述大数据计算引擎的驱动参数和执行器参数。
为了更进一步说明本方案,本申请还提供一种应用上述大数据计算引擎任务参数确定方法应用于低代码平台的具体应用实例,参见图12,具体包含有如下内容:
模块1:数据处理场景。
模块2-6:为低代码平台的各个可拖曳组件。其中:
(1)模块2、3为需要处理的数据集(数据来源包括HDFS、HIVE等)。
(2)模块4为Spark任务,用户可编辑Spark任务代码片段。
(3)模块5、6用于体现模块2、3与模块4的连接和依赖关系。
由上述内容可知,本申请降低了配置Spark任务参数的难度。减少计算机集群运算的占用资源,避免Spark任务运行失败造成硬件资源浪费。
此外,本申请也可作为Spark任务参数自动优化中用于训练模型的初始数据,其效果优于随机初始化的任务参数,减少模型的训练时间。在低代码平台中,让用户得以专注代码编写,减少任务参数的修改次数,降低配置难度。也可作为Spark任务参数自动优化中用于训练模型的初始数据,减少模型的训练时间,提高模型的训练效果。
从硬件层面来说,为了能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费,本申请提供一种用于实现所述大数据计算引擎任务参数确定方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现大数据计算引擎任务参数确定方法与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的大数据计算引擎任务参数确定方法的实施例,以及大数据计算引擎任务参数确定方法的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,大数据计算引擎任务参数确定方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图13为本申请实施例的电子设备9600的系统构成的示意框图。如图13所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图13是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,大数据计算引擎任务参数确定方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数。
步骤S102:根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源。
步骤S103:根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
从上述描述可知,本申请实施例提供的电子设备,通过根据大数据计算引擎任务代码中的行动算子确定对应的延时参数,并根据获取到的数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,以此结合预设参数计算规则确定所述大数据计算引擎的任务参数,由此能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
在另一个实施方式中,大数据计算引擎任务参数确定方法可以与中央处理器9100分开配置,例如可以将大数据计算引擎任务参数确定方法配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现大数据计算引擎任务参数确定方法功能。
如图13所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图13中所示的所有部件;此外,电子设备9600还可以包括图13中没有示出的部件,可以参考现有技术。
如图13所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的大数据计算引擎任务参数确定方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的大数据计算引擎任务参数确定方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数。
步骤S102:根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源。
步骤S103:根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过根据大数据计算引擎任务代码中的行动算子确定对应的延时参数,并根据获取到的数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,以此结合预设参数计算规则确定所述大数据计算引擎的任务参数,由此能够有效降低配置任务参数的难度,减少计算机集群运算的资源占用,避免任务运行失败造成硬件资源浪费。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种大数据计算引擎任务参数确定方法,其特征在于,所述方法包括:
获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数;
根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源;
根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
2.根据权利要求1所述的大数据计算引擎任务参数确定方法,其特征在于,所述根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,包括:
在所述延时参数不大于预设延时阈值的情况下,根据所述数据集特征信息确定所述数据集中最大规模数据集;
根据所述最大规模数据集和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
3.根据权利要求2所述的大数据计算引擎任务参数确定方法,其特征在于,所述根据所述最大规模数据集和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源,包括:
根据所述最大规模数据集确定所述数据集的中间数据规模;
根据所述中间数据规模的行数和列数的乘积确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源,其中,所述行数为所有所述数据集的行数之积,所述列数为所有所述数据集的列数之和,所述所需硬件资源包括CPU计算资源、内存存储资源中的至少一种。
4.根据权利要求1所述的大数据计算引擎任务参数确定方法,其特征在于,所述根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源,包括:
在所述延时参数大于预设延时阈值的情况下,根据所述数据集特征信息和预设复合数据集计算规则进行复合数据集计算;
根据所述复合数据集计算的结果和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源。
5.根据权利要求4所述的大数据计算引擎任务参数确定方法,其特征在于,所述根据所述复合数据集计算的结果和预设数据集规模计算规则确定对应的数据计算规模和所需硬件资源,包括:
对所述复合数据集计算得到的复合数据规模采用预设阶梯式函数确定对应的数据计算规模,并根据所述数据计算规模确定相应的所需硬件资源。
6.根据权利要求1所述的大数据计算引擎任务参数确定方法,其特征在于,所述根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数,包括:
根据所述大数据计算引擎的处理器硬件配置和所述所需硬件资源中的CPU数量,确定所述数据计算规模中的节点数量;
根据所述节点数量和所述所需硬件资源中的内存空间大小,确定所述大数据计算引擎的驱动参数和执行器参数。
7.根据权利要求1所述的大数据计算引擎任务参数确定方法,其特征在于,在所述确定所述大数据计算引擎的任务参数之后,包括:
生成包含有所述任务参数的任务提交命令并提交至大数据计算引擎集群,以使所述大数据计算引擎集群根据所述任务参数确定本次计算任务的集群资源并执行所述计算任务。
8.一种大数据计算引擎任务参数确定装置,其特征在于,包括:
延时参数确定模块,用于获取上游数据集特征信息,并根据大数据计算引擎任务代码中的行动算子确定对应的延时参数;
计算规模确定模块,用于根据所述数据集特征信息和所述延时参数与预设延时阈值的数值比较关系确定对应的数据计算规模和所需硬件资源;
任务参数确定模块,用于根据所述数据计算规模、所述所需硬件资源以及预设参数计算规则,确定所述大数据计算引擎的任务参数。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的大数据计算引擎任务参数确定方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述的大数据计算引擎任务参数确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310246.5A CN114003388A (zh) | 2021-11-04 | 2021-11-04 | 大数据计算引擎任务参数确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111310246.5A CN114003388A (zh) | 2021-11-04 | 2021-11-04 | 大数据计算引擎任务参数确定方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114003388A true CN114003388A (zh) | 2022-02-01 |
Family
ID=79927860
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111310246.5A Pending CN114003388A (zh) | 2021-11-04 | 2021-11-04 | 大数据计算引擎任务参数确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114003388A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116048817A (zh) * | 2023-03-29 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 数据处理控制方法、装置、计算机设备和存储介质 |
-
2021
- 2021-11-04 CN CN202111310246.5A patent/CN114003388A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116048817A (zh) * | 2023-03-29 | 2023-05-02 | 腾讯科技(深圳)有限公司 | 数据处理控制方法、装置、计算机设备和存储介质 |
CN116048817B (zh) * | 2023-03-29 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 数据处理控制方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109993299B (zh) | 数据训练方法及装置、存储介质、电子装置 | |
CN110389816B (zh) | 用于资源调度的方法、装置以及计算机可读介质 | |
CN110648054A (zh) | 机器人流程自动化的任务并行处理方法及装置 | |
CN111190718A (zh) | 实现任务调度的方法、装置及系统 | |
CN109241099B (zh) | 一种数据查询方法及终端设备 | |
CN111338787B (zh) | 一种数据处理方法及装置、存储介质、电子装置 | |
CN113055479A (zh) | 分布式服务集群负载自适应处理方法、装置及系统 | |
CN112506581A (zh) | 渲染小程序的方法、装置、电子设备和可读存储介质 | |
CN113850394A (zh) | 联邦学习方法、装置、电子设备及存储介质 | |
CN111464352A (zh) | 调用链路数据处理方法及装置 | |
CN107249144A (zh) | 多媒体文件解码的方法、多媒体播放器和播放设备 | |
US11023825B2 (en) | Platform as a service cloud server and machine learning data processing method thereof | |
CN112817694A (zh) | 分布式系统的自动负载均衡方法及装置 | |
CN114003388A (zh) | 大数据计算引擎任务参数确定方法及装置 | |
CN114237896A (zh) | 分布式节点资源动态调度方法及装置 | |
CN112396511A (zh) | 分布式风控变量数据处理方法、装置及系统 | |
CN112799858A (zh) | 异构联合仿真环境下的异构仿真模型数据处理方法及系统 | |
CN106648895A (zh) | 一种处理数据的方法、装置及终端 | |
CN114817845B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN112597200B (zh) | 批量与流式结合的数据处理方法及装置 | |
CN115495519A (zh) | 报表数据加工方法及装置 | |
CN114662689A (zh) | 一种神经网络的剪枝方法、装置、设备及介质 | |
CN109656708B (zh) | Android的动画播放限制方法、存储介质、电子设备及系统 | |
CN112035324A (zh) | 批量作业执行情况监控方法及装置 | |
CN117891618B (zh) | 人工智能模型训练平台的资源任务处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |