CN113760677A - 异常链路分析方法、装置、设备及存储介质 - Google Patents
异常链路分析方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113760677A CN113760677A CN202110142549.4A CN202110142549A CN113760677A CN 113760677 A CN113760677 A CN 113760677A CN 202110142549 A CN202110142549 A CN 202110142549A CN 113760677 A CN113760677 A CN 113760677A
- Authority
- CN
- China
- Prior art keywords
- task
- abnormal
- processed
- operation information
- link analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 226
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 212
- 238000012545 processing Methods 0.000 claims description 52
- 238000000034 method Methods 0.000 claims description 48
- 238000004590 computer program Methods 0.000 claims description 17
- 230000000737 periodic effect Effects 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012544 monitoring process Methods 0.000 abstract description 22
- 238000010586 diagram Methods 0.000 description 22
- 230000005856 abnormality Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 15
- 238000013461 design Methods 0.000 description 14
- 238000013500 data storage Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000003993 interaction Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012508 change request Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000010223 real-time analysis Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000013070 change management Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请实施例提供一种异常链路分析方法、装置、设备及存储介质,通过接收用户的异常链路分析请求,根据异常链路分析请求包括的待处理任务的标识,获取待处理任务的当前运行信息和历史运行信息,首先根据当前运行信息、历史运行信息和预先配置的服务等级协议,确定待处理任务是否异常,在确定待处理任务异常时,基于任务层级信息,递归分析待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。该技术方案中,可以基于用户的需要执行异常链路的分析,并且能够定位出异常链路的原因,提高了任务监控的准确性,为提高大数据平台输出的数据质量提供了实现条件。
Description
技术领域
本申请实施例涉及互联网技术领域,尤其涉及一种异常链路分析方法、装置、设备及存储介质。
背景技术
随着互联网技术的迅速发展,各个企业开始重视大数据平台的建设,利用大数据平台进行各种类型数据的加工和处理,能够得到需要的数据。为了满足大数据平台输出的数据满足质量要求,需要对运行在大数据平台中的任务进行监控,以保障大数据平台输出准时且准确的数据。
相关技术中,对大数据平台中的任务监控主要是通过对所有的任务进行分级、打标签、设置服务等级协议(service level agreement,SLA)等操作为每个任务设置一些报警属性,然后,在实际应用中,对某个任务分析时,可以结合该任务的报警属性和该任务的历史运行情况,对该任务进行异常分析,并在确定该任务异常时发出报警通知。具体的,给每个任务设置运行的时间阈值,然后周期性的扫描被监控的任务,判断被监控的任务的运行时间是否超过阈值时间,若是,则触发报警。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:在某个被监控任务由于其运行时间不满足时间阈值而触发报警时,很有可能不是任务本身的异常导致,而是由于当前任务上级的某一个或者多个父任务的运行异常导致的,现有的任务监控方法无法直接定位出任务异常报警的真正原因,存在任务监控准确性低的问题。
发明内容
本申请实施例提供一种异常链路分析方法、装置、设备及存储介质,用以解决现有任务监控方法中存在的任务监控准确性低的问题。
根据本申请的第一方面,本申请实施例提供一种异常链路分析方法,包括:
接收用户的异常链路分析请求,所述异常链路分析请求包括:待处理任务的标识;
根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息;
根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常;
在确定所述待处理任务异常时,基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。
在第一方面的一种可能设计中,所述根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息,包括:
根据所述待处理任务的标识,从缓存数据库中获取所述待处理任务的当前运行信息,以及从数据仓库中获取所述待处理任务的历史运行信息;
其中,所述缓存数据库中的信息是通过消费大数据平台中各个任务的元数据信息得到的;所述数据仓库中保存有所述大数据平台中各任务的历史运行信息。
可选的,在所述根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息之前,所述方法还包括:
从业务系统中获取各个任务的元数据信息;
对各个任务的元数据信息进行清洗,确定出各个任务的当前运行信息;
将各个任务的当前运行信息存储至所述缓存数据库中,所述缓存数据库中各个任务的运行信息均具有一个过期时间。
可选的,所述方法还包括:
确定所述缓存数据库的周期处理时刻;
在当前时刻到达所述周期处理时刻时,将所述缓存数据库中存储时间超过所述过期时间的至少一个任务的运行信息传输至所述数据仓库;
更新所述数据仓库中各个任务的历史运行信息。
在第一方面的另一种可能设计中,所述根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常,包括:
根据所述当前运行信息和所述服务等级协议,确定所述待处理任务的完成时间是否超过所述服务等级协议中设置的阈值时间;
在所述待处理任务的完成时间超过所述服务等级协议中设置的阈值时间时,根据所述当前运行信息和所述历史运行信息,确定所述待处理任务是否异常。
在第一方面的再一种可能设计中,所述基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果,包括:
根据所述任务层级信息,确定所述待处理任务的所有上一级任务;
根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果。
可选的,所述根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果,包括:
在所述上一级任务中存在未运行的任务时,对所有的未运行任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中不存在未运行的任务,但存在运行中的任务和运行完成的任务时,对所有运行中的任务和运行结束时间超过阈值时间的任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中的任务全部为运行完成的任务时,对所述上一级任务中运行结束时间超过阈值时间的任务进行异常分析,直到确定出无异常任务的任务层级,得到异常链路分析结果。
在第一方面的又一种可能设计中,所述方法还包括:
通过链路图的形式,输出所述异常链路分析结果。
根据本申请的第二方面,本申请实施例提供一种异常链路分析装置,包括:
接收模块,用于接收用户的异常链路分析请求,所述异常链路分析请求包括:待处理任务的标识;
获取模块,用于根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息;
处理模块,用于根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常,以及在确定所述待处理任务异常时,基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。
在第二方面的一种可能设计中,所述获取模块,具体用于根据所述待处理任务的标识,从缓存数据库中获取所述待处理任务的当前运行信息,以及从数据仓库中获取所述待处理任务的历史运行信息;
其中,所述缓存数据库中的信息是通过消费大数据平台中各个任务的元数据信息得到的;所述数据仓库中保存有所述大数据平台中各任务的历史运行信息。
可选的,所述获取模块,还用于在根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息之前,从业务系统中获取各个任务的元数据信息;
所述处理模块,还用于对各个任务的元数据信息进行清洗,确定出各个任务的当前运行信息,将各个任务的当前运行信息存储至所述缓存数据库中,所述缓存数据库中各个任务的运行信息均具有一个过期时间。
可选的,所述处理模块,还用于:
确定所述缓存数据库的周期处理时刻;
在当前时刻到达所述周期处理时刻时,将所述缓存数据库中存储时间超过所述过期时间的至少一个任务的运行信息传输至所述数据仓库;
更新所述数据仓库中各个任务的历史运行信息。
在第二方面的另一种可能设计中,所述处理模块,用于根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常,具体为:
所述处理模块,具体用于:
根据所述当前运行信息和所述服务等级协议,确定所述待处理任务的完成时间是否超过所述服务等级协议中设置的阈值时间;
在所述待处理任务的完成时间超过所述服务等级协议中设置的阈值时间时,根据所述当前运行信息和所述历史运行信息,确定所述待处理任务是否异常。
在第二方面的再一种可能设计中,所述处理模块,用于基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果,具体为:
所述处理模块,具体用于:
根据所述任务层级信息,确定所述待处理任务的所有上一级任务;
根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果。
可选的,所述处理模块,用于根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果,具体为:
所述处理模块,具体用于:
在所述上一级任务中存在未运行的任务时,对所有的未运行任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中不存在未运行的任务,但存在运行中的任务和运行完成的任务时,对所有运行中的任务和运行结束时间超过阈值时间的任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中的任务全部为运行完成的任务时,对所述上一级任务中运行结束时间超过阈值时间的任务进行异常分析,直到确定出无异常任务的任务层级,得到异常链路分析结果。
在第二方面的又一种可能设计中,所述装置还包括:
输出模块,用于通过链路图的形式,输出所述异常链路分析结果。
根据本申请的第三方面,本申请实施例提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面及各可能设计所述的方法。
根据本申请的第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现如上述第一方面及各可能设计所述的方法。
根据本申请的第五方面,本申请实施例提供一种计算机程序产品,包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。
本申请实施例提供的异常链路分析方法、装置、设备及存储介质,通过接收用户的异常链路分析请求,根据异常链路分析请求包括的待处理任务的标识,获取待处理任务的当前运行信息和历史运行信息,首先根据当前运行信息、历史运行信息和预先配置的服务等级协议,确定待处理任务是否异常,在确定待处理任务异常时,基于任务层级信息,递归分析待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。该技术方案中,可以基于用户的需要执行异常链路的分析,并且能够定位出异常链路的原因,提高了任务监控的准确性,为提高大数据平台输出的数据质量提供了实现条件。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请实施例提供的异常链路分析方法所适用的网络架构示意图;
图2为本申请实施例提供的异常链路分析方法实施例一的流程示意图;
图3为本申请实施例提供的异常链路分析方法实施例二的流程示意图;
图4为本申请实施例提供的异常链路分析方法实施例三的流程示意图;
图5为本申请实施例提供的异常链路分析方法实施例四的流程示意图;
图6为本申请实施例中任务调度系统具有的多个层级的任务链路分布示意图;
图7为本申请实施例提供的异常链路分析装置实施例的结构示意图;
图8为本申请实施例提供的电子设备实施例的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
首先对本申请实施例所涉及的名词进行解释:
调度系统:任务调度系统(Buffalo),也称为工作流调度系统,其是大数据平台离线计算的重量级产品,既承载了各类数据库与数据集之间的同步工作,还承载了各类的离线数据计算工作。通过任务调度系统,能够方便、快捷的管理定时任务,比如,定时从数据库将新增数据导入到数据平台,将数据平台处理后的数据导出到数据库或者是文件系统等。此外,任务调度系统还支持任务间建立依赖关系,任务的快速补数和重跑,以及强大的监控功能等,从而提供了良好的作业管理服务。
数据仓库:数据仓库(data warehouse,DW或DWH)。数据仓库主要为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建,可以为需要业务智能的企业提供指导业务的流程改进、监视时间、成本、质量以及控制。
Hive:hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。
Kafka:Kafka是一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。
Redis:远程字典服务(remote dictionary server,Redis)是一个开源的、使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库,并提供多种语言的API。
Flink:Apache Flink是一种开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时,系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。
SLA:服务级别协议(service level agreement,SLA)是指提供服务的企业与客户之间就服务的品质、水准、性能等方面所达成的双方共同认可的协议或契约。典型的服务级别协议包括下列内容:参与各方对所提供服务及协议有效期限的规定;服务提供期间的时间规定,包括测试、维护和升级;对用户数量、地点以及提供的相应硬件的服务的规定;对故障报告流程的说明,包括故障升级到更高水平支持的条件;对故障报告期望的应答时间的规定;对变更请求流程的说明。可选的,服务级别协议还可能包括完成例行的变更请求的期望时间;对服务级别目标的规定;与服务相关的收费规定;用户责任的规定(用户培训、确保正确的桌面配置、没有不必要的软件、没有妨碍变更管理流程等);对解决与服务相关的不同意见的流程说明等。
随着网络技术的迅速发展和各个企业业务的增长,大量和流程、规则相关的非结构化数据也爆发式增长。大数据平台能够对海量数据提供资源管理、数据计算与分析、数据存储、服务监控管理等服务,以分布式文件系统和分布式并行计算为基础,集成了系统安装、集群配置、安全访问控制、监控及预警等多方面服务,为企业大数据核心业务、商业智能、运营分析、业务决策等提供可靠的数据支持。
为了满足用户对大数据平台中输出的数据质量的要求,现有技术中可以对运行在大数据平台中的任务进行运行监控,以保障数据能够准时,准确的生产。
由上述背景技术中的记载可知,相关技术中的任务监控方案,若监控的当前任务的运行时间不满足设定的时间阈值时,便会触发报警,但其实际上可能不是任务本身的异常导致,而是由于当前任务上级的某一个或者多个父任务的运行异常导致的,其无法直接定位出任务异常报警的真正原因,存在任务监控准确性低的问题。
针对上述技术问题,本申请技术方案的构思过程如下:通过溯源的方式,对大数据平台的任务调度系统进行任务监控,并周期性的对调度系统中各个任务的运行信息进行处理,使得各个任务在当前时间段的运行信息与历史时间段的运行信息分开存储,这样为后续对任务的异常分析奠定了基础,其次,在接收到异常分析请求时,首先对当前任务进行异常分析,在确定出当前任务异常时,则递归分析当前任务的父任务,直到确定出最后一级的异常任务或没有异常任务的层级,通过这种方式能够确定出任务异常的真正原因,提高了任务监控的准确性。
基于上述技术构思过程,本申请实施例提供了一种异常链路分析方法,在接收到用户的异常链路分析请求时,可以根据异常链路分析请求包括的待处理任务的标识,获取待处理任务的当前运行信息和历史运行信息,首先根据当前运行信息、历史运行信息和预先配置的服务等级协议,确定待处理任务是否异常,在确定待处理任务异常时,基于任务层级信息,递归分析待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。该技术方案中,可以基于用户的需要执行异常链路的分析,并且能够定位出异常链路的原因,提高了任务监控的准确性,为提高大数据平台输出的数据质量提供了实现条件。
示例性的,图1为本申请实施例提供的异常链路分析方法所适用的网络架构示意图。如图1所示,在本实施例中,该网络结构示意图可以包括:相互连接的数据平台11和链路分析设备12。其中,数据平台11可以包括数据源111、数据处理模块112和数据存储模块113。该数据存储模块113与链路分析设备12连接,两者实现信息交互。
数据源111提供的数据可以是应用数据、数据库存储的数据、数据日志以及其他数据源的数据等,本申请实施例并不限定数据源111中数据的来源,其可以根据实际场景确定,此处不作赘述。
数据处理模块112可以对数据源111提供的数据进行清洗、分类等预处理,并将处理后的数据存储至数据存储模块113中。
数据存储模块113可以包括:缓存数据库1131和数据仓库1132。缓存数据库1131中数据可以是数据平台11在当前时间段内执行各任务得到的当前运行信息,该数据仓库1132中的数据可以是缓存数据库1131中的过期数据,其可以作为缓存数据库1131中各任务的历史运行信息。
在本申请的一种实施例中,在链路分析设备12具有人机交互界面时,用户可以通过该人机交互界面向链路分析设备12发出包括待处理任务标识的链路分析请求,以使得链路分析设备12可以从数据存储模块113包括的缓存数据库1131和数据仓库1132中分别获取待处理任务的当前运行信息和历史运行信息,相应的,链路分析设备12可以基于待处理任务的当前运行信息、历史运行信息和预先配置的服务等级协议执行异常任务的分析定位。可选的,链路分析设备12还可以通过该人机交互界面输出异常链路分析结果。
在本申请的另一种实施例中,该网络结构示意图还可以包括:用户终端13,这时,用户可以通过用户终端13向链路分析设备12发送异常链路分析请求,以使得基于异常链路分析请求中的待处理任务的标识,从数据存储模块113包括的缓存数据库1131和数据仓库1132中分别获取待处理任务的当前运行信息和历史运行信息,相应的,链路分析设备12可以基于待处理任务的当前运行信息、历史运行信息和预先配置的服务等级协议执行异常任务的分析定位。示例性的,链路分析设备12可以将异常链路分析结果反馈至用户终端13,使得用户终端13执行异常链路分析结果的展示。
可选的,在本申请的再一种实施例中,该网络结构示意图还可以包括:显示设备14,该显示设备14可以接收链路分析设备12发送的异常链路分析结果,并对其进行展示。
可选的,在本申请的实施例中,该链路分析设备可以是通过服务器实现,也可以通过终端设备实现,此处不作限定。
可以理解的是,本申请实施例并不限定该网络结构示意图中包括的设备类型和数量,其可以根据场景需求设定,此处不作赘述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请实施例提供的异常链路分析方法实施例一的流程示意图。该方法以图1所述网络架构示意图中的链路分析设备作为执行主体进行解释说明。如图2所示,该异常链路分析方法可以包括如下步骤:
S201、接收用户的异常链路分析请求,该异常链路分析请求包括:待处理任务的标识。
在本申请的实施例中,链路分析设备可以抽象成是一个监控系统,但其与现有技术中的监控系统的区别在于,该链路分析设备具有能够接收外部请求的接口。
示例性的,链路分析设备通过运行加载的程序可以启动一个http服务,通过该http服务可以接收用户提交的针对待处理任务的异常链路分析请求,以便该链路分析设备可以对大数据平台中任务调度系统中各任务的运行情况进行分析。
示例性的,链路分析设备的http服务接收到来自用户的异常链路分析请求后,对该异常链路分析请求进行解析,可以得到待处理任务的标识。
在本申请的实施例中,该异常链路分析请求主要是针对异常链路的分析,在实际应用中,该异常链路分析请求还可以替换为最晚链路分析请求,以使链路分析设备基于最晚链路分析请求执行链路分析。可理解,链路分析设备针对不同的链路分析请求可以采用不同的分析逻辑,此处不作赘述。
S202、根据待处理任务的标识,获取待处理任务的当前运行信息和历史运行信息。
在本申请的实施例中,链路分析设备对异常链路分析请求进行解析,得到待处理任务的标识后,便可以基于待处理任务的标识,通过查询用于存储待处理任务的运行信息的数据存储模块,以获取待处理任务的当前运行信息和历史运行信息。
示例性的,在本申请的一种实施例中,链路分析设备可以根据待处理任务的标识,从缓存数据库中获取待处理任务的当前运行信息,以及从数据仓库中获取待处理任务的历史运行信息。
其中,缓存数据库中的信息是通过消费大数据平台中各个任务的元数据信息得到的;数据仓库中保存有大数据平台中各任务的历史运行信息。
可以理解的是,该缓存数据库和数据仓库可以是大数据平台中数据存储模块的组成部分,也可以是链路分析设备的组成部分,其可以根据实际场景设置其所在的具体位置,本实施例不对其进行限定。
本步骤中,通过对大数据平台中各个任务的元数据信息进行消费,可以得到各个任务的当前运行信息,将其存储至缓存数据库中,以便后续的使用。可选的,缓存数据库中各个任务的数据有一个过期时间,当各个任务的数据在缓存数据库中的存储时间超过过期时间时,便得到了各个任务的历史运行信息。可选的,各个任务的历史运行信息被周期性的更新到数据仓库中,以便后续的获取。
在实际应用中,由于各个业务请求的实现通常需要涉及到依次执行的多个任务,各个任务的执行是相互关联的,将这些任务的信息串联起来便形成了链路,本申请中所述的链路分析即是待处理任务所在的链路进行分析。
S203、根据当前运行信息、历史运行信息和预先配置的服务等级协议,确定待处理任务是否异常。
在本申请的实施例中,链路分析设备中存储有为每个任务预先配置的服务等级协议,该服务等级协议包括对应任务的运行时间阈值等。通常情况下,服务等级协议包括的对应任务的运行时间阈值可以作为判断任务是否异常的一个重要依据。因而,当用户请求查看异常链路的时候,可以根据用户传入的参数信息并结合任务运行的历史情况来对比待处理任务是否异常,具体的,在获取到待处理任务的当前运行信息、历史运行信息后,可以根据预先配置的服务等级协议确定出待处理任务的时间阈值,然后在结合当前运行信息以及历史运行信息共同判断待处理任务是否异常,以提高判断的准确性。
S204、在确定待处理任务异常时,基于任务层级信息,递归分析待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。
在本实施例中,每个任务可能涉及到多条链路,每条链路可以包括多个层级。在确定待处理任务异常时,为了确定该待处理任务异常的真正原因,这时可以基于任务层级信息,通过递归分析的方式向上分析,即首先分析待处理任务的上一级任务是否异常,在上一级任务也异常时,再向上分析,直到分析出没有出现异常任务的任务层级,即确定了待处理任务的根源所在,从而得到该异常链路分析请求对应的异常链路分析结果。
本申请实施例提供的异常链路分析方法,通过接收用户的异常链路分析请求,根据异常链路分析请求包括的待处理任务的标识,获取待处理任务的当前运行信息和历史运行信息,随后根据当前运行信息、历史运行信息和预先配置的服务等级协议,确定待处理任务是否异常,在确定待处理任务异常时,基于任务层级信息,递归分析待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果,这种方案能够定位出异常链路的原因,提高了任务监控的准确性,为提高大数据平台输出的数据质量提供了实现条件。
在上述各实施例的基础上,图3为本申请实施例提供的异常链路分析方法实施例二的流程示意图。如图3所示,在本实施例中,在上述S202之前,该异常链路分析方法还可以包括如下步骤:
S301、从业务系统中获取各个任务的元数据信息。
示例性的,在本申请的实施例中,任务调度系统调度任务运行的过程中可以实时产生各个任务的元数据信息。可选的,在大数据平台中,一个任务在运行过程中有空闲(即成功)、失败、运行中等状态,当任务的状态发生变更时,便产生了任务的元数据信息,可以将其写入大数据平台的业务系统中。相应的,本申请的实施例中,链路分析设备可以通过实时计算引擎消费业务系统中的各个任务的元数据信息,从而获取到各个任务的元数据信息,以便对其进行分析。
可选的,该业务系统也可以是分布式发布订阅消息系统,例如,Kafka,其可以处理用户在网站中的所有动作流数据。实时计算引擎可以是flink,在实际应用中,该实时计算引擎还可以是storm、spark等计算引擎,本实施例并不对实时计算引擎的具体实现进行限定。
可选的,各个任务的元数据信息可以包括任务名称、任务Id、任务的运行状态、任务的开始运行时间、任务的运行结束时间等。本实施例并不对各个元数据信息包括的具体内容进行限定,其可以根据实际场景确定。
S302、对各个任务的元数据信息进行清洗,确定出各个任务的当前运行信息。
示例性的,在本实施例中,为了避免缓存数据库中存储过多对链路分析无用的数据,链路分析设备可以首先对各个任务的元数据信息进行清洗过滤,剔除一些对异常分析无用的数据,得到各个任务的当前运行信息。
S303、将各个任务的当前运行信息存储至缓存数据库中,该缓存数据库中各个任务的运行信息均具有一个过期时间。
可选的,链路分析设备可以将得到的各个任务的当前运行信息保存到缓存数据库中,并为各个任务的运行信息设置一个过期时间。示例性的,链路分析设备可以为各个任务的运行信息设置24小时的过期时间,即缓存各个任务一天的运行信息。
示例性的,该缓存数据库可选为Redis、Hbase、ClickHouse等缓存中的任意一种,本实施例并不对其进行限定。
可理解的是,对待处理任务进行异常链路分析时,需要利用到上级任务(父任务)的运行情况,因而,链路分析设备还需要提前将父任务的运行信息缓存至缓存数据库中,其存储的方式与当前任务的存储方式类似,此处不作赘述。
S304、确定缓存数据库的周期处理时刻。
在本申请的实施例中,缓存数据库均具有一个周期处理时刻,这样链路分析设备可以基于该周期处理时刻周期性的对缓存数据库中的数据进行处理。
示例性的,若缓存数据库的处理周期为1天,则根据任务的调度日期,可以在每天的同一个时刻进行缓存数据库的更新,例如,在每天的夜间11点55分更新,以便在第二天进行实时分析的时候进行利用。可理解,本申请实施例并不限定具体的周期处理时刻,其可以根据实际场景确定。
S305、在当前时刻到达周期处理时刻时,将缓存数据库中存储时间超过过期时间的至少一个任务的运行信息传输至数据仓库。
在本申请的实施例中,链路分析设备可以将当前时刻与上述周期处理时刻进行比较,并在每个周期的周期处理时刻对缓存数据库中各个任务的运行进行处理,例如,将缓存数据库中存储时间超过过期时间的至少一个任务的运行信息传输至数据仓库,以便链路分析设备在下一个周期中利用数据仓库中的运行信息,即任务的历史运行信息。
S306、更新数据仓库中各个任务的历史运行信息。
可选的,链路分析设备在接收到缓存数据库传输来的至少一个任务的运行信息后,便可以对各个任务的历史运行信息进行周期性的更新。
示例性的,数据仓库中各个任务的历史运行信息,例如,可以包括任务的平均开始运行时间,平均结束运行时间,平均执行时长,前后级信息(任务血缘信息),任务的标签信息等。本申请实施例并不对历史运行信息的具体体现进行限定,其可以根据实际场景确定。
本申请实施例提供的异常链路分析方法,通过从业务系统中获取各个任务的元数据信息,对各个任务的元数据信息进行清洗,确定出各个任务的当前运行信息,并将各个任务的当前运行信息存储至缓存数据库中,该缓存数据库中各个任务的运行信息均具有一个过期时间;相应的,在当前时刻到达缓存数据库的周期处理时刻时,可以将缓存数据库中存储时间超过过期时间的至少一个任务的运行信息传输至数据仓库,并更新数据仓库中各个任务的历史运行信息。该技术方案,通过将各个任务的当前运行信息存储至缓存数据库以及将各个历史运行信息更新至数据仓库,为后续任务的实时链路分析奠定了基础,提高了异常定位的效率和准确性。
在上述各实施例的基础上,图4为本申请实施例提供的异常链路分析方法实施例三的流程示意图。如图4所示,在本实施例中,上述S203可以通过如下步骤实现:
S401、根据当前运行信息和服务等级协议,确定待处理任务的完成时间是否超过服务等级协议中设置的阈值时间。
示例性的,链路分析设备中存储有预先配置的服务等级协议,每个服务等级协议包括有各个任务运行的阈值时间,因而,首先可以基于待处理任务的标识,通过查询待处理任务的服务等级协议,得到服务等级协议中设置的阈值时间,然后根据待处理人任务的当前运行信息得到待处理人物的完成时间,并将两者进行对比,判断待处理任务的完成时间是否超过服务等级协议中设置的阈值时间。
作为一种示例,在待处理任务的完成时间未超过服务等级协议中设置的阈值时间时,表明待处理任务正常,不需要向上递归分析。
作为另一种示例,在待处理任务的完成时间超过服务等级协议中设置的阈值时间时,这时需要判断待处理任务是否异常。
S402、在待处理任务的完成时间超过服务等级协议中设置的阈值时间时,根据当前运行信息和历史运行信息,确定待处理任务是否异常。
可选的,在待处理任务的完成时间超过服务等级协议中设置的阈值时间时,可以将待处理任务的当前运行信息与待处理任务的历史运行信息进行比较,例如,将当前运行信息中的开始运行时间与历史运行信息中的开始运行时间进行比较,或者,将当前运行信息中的结束运行时间与历史运行信息中的结束运行时间进行比较,或者直接判断待处理任务的执行时长与平均执行时长的关系,进而确定出待处理任务是否异常。
示例性的,在待处理任务的执行时长与平均执行时长的误差小于预设误差时,可以认为待处理任务正常,此时不需要向上递归分析。而在待处理任务的执行时长与平均执行时长的误差大于或等于预设误差时,可以认为待处理任务异常,此时需要向上递归分析,以确定待处理任务异常的真正原因。
本申请实施例提供的异常链路分析方法,根据当前运行信息和服务等级协议,确定待处理任务的完成时间是否超过服务等级协议中设置的阈值时间,在待处理任务的完成时间超过服务等级协议中设置的阈值时间时,根据当前运行信息和历史运行信息,确定待处理任务是否异常。该技术方案中,根据当前运行信息、历史运行信息以及服务等级协议共同判定待处理任务是否异常,提高了异常分析的准确性,从而提高大数据平台输出数据质量奠定了基础。
在上述各实施例的基础上,图5为本申请实施例提供的异常链路分析方法实施例四的流程示意图。如图5所示,在本实施例中,上述S204可以通过如下步骤实现:
S501、根据任务层级信息,确定待处理任务的所有上一级任务。
在本申请的实施例中,大数据平台中任务调度系统中的任务通常具有多个等级,每个任务可以与不同等级的任务在同一个链路上,为了准确分析待处理任务异常的原因,则需要基于任务调度系统中的任务层级信息,确定出待处理任务的所有上一级任务。
示例性的,图6为本申请实施例中任务调度系统具有的多个层级的任务链路分布示意图。如图6所示,在本实施例中,以任务调度系统具有8个层级进行解释说明,自上向下分别为第1层级至第8层级。每个层级可以分布有相同或不同数量的任务,例如,第1层级具有3个任务,分别为任务11、任务12和任务13,第2个层级具有5个任务,分别为任务21至任务25。
可选的,在图6所示的示意图中,每个层级的上一级任务(即,父任务)可以有多个,而且可以位于不同的层级中。示例性的,在图6所示的示意图中,第8个层级的任务81具有4个上一级任务,其中有一个上一级任务位于第7个层级,为任务71,而其他三个上一级任务均位于第2个层级,分别为任务23、任务24和任务25。
S502、根据上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果。
在本申请的实施例中,链路分析设备可以根据上一级任务中各个任务的运行状态,确定需要递归分析的上一级任务,并在递归分析过程中,确定出待处理任务异常的真正原因,得到异常链路分析结果。
示例性的,该步骤具体可以通过如下方案实现:
作为一种示例,在上一级任务中存在未运行的任务时,对所有的未运行任务进行异常分析,得到异常链路分析结果。
若上一级任务中存在未运行的任务,表明上一级任务未运行可能是由于异常造成的,这时只需要对所有未运行的任务进行分析即可,通过对未运行的上一级任务进行异常分析,确定出待处理任务异常的真正原因,从而得到异常链路分析结果。
作为另一种示例,在上一级任务中不存在未运行的任务,但存在运行中的任务和运行完成的任务时,对所有运行中的任务和运行结束时间超过阈值时间的任务进行异常分析,得到异常链路分析结果。
可选的,若上一级任务中不存在未运行的任务,则表明上一级任务均可以正常开始执行,但是由于存在运行中的任务和运行完成的任务,这时可以对所有运行中的任务和运行结束时间超过阈值时间的任务进行异常分析,分析上一级任务处于运行中的真实原因,以及运行结束时间超过阈值时间的原因,进而得到异常链路分析结果。
作为再一种示例,在上一级任务中的任务全部为运行完成的任务时,对上一级任务中运行结束时间超过阈值时间的任务进行异常分析,直到确定出无异常任务的任务层级,得到异常链路分析结果。
可选的,若上一级任务中的任务全部为运行完成的任务,则表明上一级任务均可以运行完成,这时可以对运行结束时间超过阈值时间的任务进行异常分析,分析上一级任务是否异常,若运行结束时间超过阈值时间的上一级任务中存在异常的任务,则递归向上分析上一级任务的父任务的异常情况,直到确定出无异常任务的任务层级,得到异常链路分析结果。
本申请实施例的异常链路分析方法,通过根据任务层级信息,确定待处理任务的所有上一级任务,根据上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果。该技术方案中,通过递归分析方法能够确定出链路异常的真正原因,提高了大数据平台中的任务监控效率和监控效果。
进一步的,在本申请的实施例中,该异常链路分析方法还可以包括如下步骤:
通过链路图的形式,输出异常链路分析结果。
在本实施例中,链路分析设备在得到异常分析结果后,可以将其通过链路图的形式进行表示,最终输出时以链路图的形式输出。
作为一种示例,在链路分析设备具有显示功能时,链路分析设备可以通过自身具有的显示功能输出链路图形式的异常链路分析结果。
作为另一种示例,在链路分析设备不具有显示功能时,链路分析设备可以把链路图形式的异常链路分析结果传输给与其连接显示设备,以便显示设备对其进行展示。
可以理解的是,上述两种示例均可以将异常链路分析结果以链路图的方式输出给用户,即每当用户根据待处理任务去查询链路异常时,均会得到一个实时的异常链路分析结果,并显示给用户,便于用户得到一个直观的分析结果。
示例性的,参照上述图6所示,在各个层级的任务中均可能存在异常任务,例如,第1层级中的任务11,第2层级中的任务23,第3层级中的任务31,第4层级中的任务43,第5层级中的任务53和任务54,以及第6层级中的任务61等。可以理解的是,图6所示的链路图是根据每一个异常链路分析请求进行即时分析的结果。每个异常任务连接下一个子任务的链路为异常链路。图6中的细实线为正常链路线,粗虚线为异常链路线。每条链路线的箭头表示任务的从上级到下一级。本实施例并不对其进行限定。
由上述分析可知,本申请实施例通过获取待处理任务的当前运行信息,比如,任务的状态、运行开始时间、运行结束时间、运行时长等信息,然后结合任务的历史运行情况和任务直接的血缘关系(层级关系)进行实时的异常链路的分析,可以得到异常链路分析结果,并将异常链路分析结果以链路图的方式展现出来,这样用户在进行异常的链路分析时,可以定位到异常原因的真实情况,并通过直观的观察上游任务运行的情况来判断任务的异常是由于父任务导致的还是本身任务执行异常所导致的,提高了任务监控的准确性。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
图7为本申请实施例提供的异常链路分析装置实施例的结构示意图。参照图7所示,该异常链路分析装置可以包括:
接收模块701,用于接收用户的异常链路分析请求,所述异常链路分析请求包括:待处理任务的标识;
获取模块702,用于根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息;
处理模块703,用于根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常,以及在确定所述待处理任务异常时,基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。
在本申请实施例的一种可能设计中,所述获取模块702,具体用于根据所述待处理任务的标识,从缓存数据库中获取所述待处理任务的当前运行信息,以及从数据仓库中获取所述待处理任务的历史运行信息;
其中,所述缓存数据库中的信息是通过消费大数据平台中各个任务的元数据信息得到的;所述数据仓库中保存有所述大数据平台中各任务的历史运行信息。
可选的,所述获取模块702,还用于在根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息之前,从业务系统中获取各个任务的元数据信息;
所述处理模块703,还用于对各个任务的元数据信息进行清洗,确定出各个任务的当前运行信息,将各个任务的当前运行信息存储至所述缓存数据库中,所述缓存数据库中各个任务的运行信息均具有一个过期时间。
可选的,所述处理模块703,还用于:
确定所述缓存数据库的周期处理时刻;
在当前时刻到达所述周期处理时刻时,将所述缓存数据库中存储时间超过所述过期时间的至少一个任务的运行信息传输至所述数据仓库;
更新所述数据仓库中各个任务的历史运行信息。
在本申请实施例的另一种可能设计中,所述处理模块703,用于根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常,具体为:
所述处理模块703,具体用于:
根据所述当前运行信息和所述服务等级协议,确定所述待处理任务的完成时间是否超过所述服务等级协议中设置的阈值时间;
在所述待处理任务的完成时间超过所述服务等级协议中设置的阈值时间时,根据所述当前运行信息和所述历史运行信息,确定所述待处理任务是否异常。
在本申请实施例的再一种可能设计中,所述处理模块703,用于基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果,具体为:
所述处理模块703,具体用于:
根据所述任务层级信息,确定所述待处理任务的所有上一级任务;
根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果。
可选的,所述处理模块703,用于根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果,具体为:
所述处理模块703,具体用于:
在所述上一级任务中存在未运行的任务时,对所有的未运行任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中不存在未运行的任务,但存在运行中的任务和运行完成的任务时,对所有运行中的任务和运行结束时间超过阈值时间的任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中的任务全部为运行完成的任务时,对所述上一级任务中运行结束时间超过阈值时间的任务进行异常分析,直到确定出无异常任务的任务层级,得到异常链路分析结果。
在本申请实施例的又一种可能设计中,所述装置还包括:
输出模块704,用于通过链路图的形式,输出所述异常链路分析结果。
本申请实施例提供的装置,可用于执行方法实施例所述的技术方案,其实现原理和技术效果类似,在此不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,处理模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上处理模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
图8为本申请实施例提供的电子设备实施例的结构示意图。如图8所示,该电子设备可以包括:处理器801、存储器802、通信接口803和系统总线804,所述存储器802和所述通信接口803通过所述系统总线804与所述处理器801连接并完成相互间的通信,所述存储器802用于存储计算机指令,所述通信接口803用于和其他设备进行通信,所述处理器801执行所述计算机指令时实现如上述方法实施例所述的技术方案。
可选的,在本申请的实施例中,该电子设备还可以包括用户操作界面805,该用户操作界面805可以用于用户的异常链路分析请求。
其中,上述图7所示异常链路分析装置中的接收模块701和输出模块704可以通过通信接口803实现,上述的处理模块703可以通过处理器801实现。
在该图8中,上述的处理器801可以是通用处理器,包括中央处理器CPU、网络处理器(network processor,NP)等;还可以是数字信号处理器DSP、专用集成电路ASIC、现场可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器802可能包含随机存取存储器(random access memory,RAM),也可能包括只读存储器(read-only memory,RAM),还可能包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
通信接口803用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。
系统总线804可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。系统总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机指令,当该计算机指令在计算机上运行时,使得计算机执行如上述方法实施例所述的技术方案。
可选的,本申请实施例还提供一种运行指令的芯片,所述芯片用于执行上述方法实施例所述的技术方案。
本申请实施例还提供了一种计算机程序产品,包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。
Claims (12)
1.一种异常链路分析方法,其特征在于,包括:
接收用户的异常链路分析请求,所述异常链路分析请求包括:待处理任务的标识;
根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息;
根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常;
在确定所述待处理任务异常时,基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息,包括:
根据所述待处理任务的标识,从缓存数据库中获取所述待处理任务的当前运行信息,以及从数据仓库中获取所述待处理任务的历史运行信息;
其中,所述缓存数据库中的信息是通过消费大数据平台中各个任务的元数据信息得到的;所述数据仓库中保存有所述大数据平台中各任务的历史运行信息。
3.根据权利要求2所述的方法,其特征在于,在所述根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息之前,所述方法还包括:
从业务系统中获取各个任务的元数据信息;
对各个任务的元数据信息进行清洗,确定出各个任务的当前运行信息;
将各个任务的当前运行信息存储至所述缓存数据库中,所述缓存数据库中各个任务的运行信息均具有一个过期时间。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定所述缓存数据库的周期处理时刻;
在当前时刻到达所述周期处理时刻时,将所述缓存数据库中存储时间超过所述过期时间的至少一个任务的运行信息传输至所述数据仓库;
更新所述数据仓库中各个任务的历史运行信息。
5.根据权利要求1所述的方法,其特征在于,所述根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常,包括:
根据所述当前运行信息和所述服务等级协议,确定所述待处理任务的完成时间是否超过所述服务等级协议中设置的阈值时间;
在所述待处理任务的完成时间超过所述服务等级协议中设置的阈值时间时,根据所述当前运行信息和所述历史运行信息,确定所述待处理任务是否异常。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果,包括:
根据所述任务层级信息,确定所述待处理任务的所有上一级任务;
根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述上一级任务中各个任务的运行状态,对满足预设条件的任务进行异常分析,得到异常链路分析结果,包括:
在所述上一级任务中存在未运行的任务时,对所有的未运行任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中不存在未运行的任务,但存在运行中的任务和运行完成的任务时,对所有运行中的任务和运行结束时间超过阈值时间的任务进行异常分析,得到所述异常链路分析结果;
在所述上一级任务中的任务全部为运行完成的任务时,对所述上一级任务中运行结束时间超过阈值时间的任务进行异常分析,直到确定出无异常任务的任务层级,得到异常链路分析结果。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过链路图的形式,输出所述异常链路分析结果。
9.一种异常链路分析装置,其特征在于,包括:
接收模块,用于接收用户的异常链路分析请求,所述异常链路分析请求包括:待处理任务的标识;
获取模块,用于根据所述待处理任务的标识,获取所述待处理任务的当前运行信息和历史运行信息;
处理模块,用于根据所述当前运行信息、所述历史运行信息和预先配置的服务等级协议,确定所述待处理任务是否异常,以及在确定所述待处理任务异常时,基于任务层级信息,递归分析所述待处理任务的上一级任务是否异常,直到确定出无异常任务的任务层级,得到异常链路分析结果。
10.一种电子设备,包括处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上述权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机指令,所述计算机指令被处理器执行时用于实现如上述权利要求1-8任一项所述的方法。
12.一种计算机程序产品,包括:计算机程序,其特征在于,所述计算机程序被处理器执行时用于实现如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142549.4A CN113760677A (zh) | 2021-02-02 | 2021-02-02 | 异常链路分析方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110142549.4A CN113760677A (zh) | 2021-02-02 | 2021-02-02 | 异常链路分析方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113760677A true CN113760677A (zh) | 2021-12-07 |
Family
ID=78786584
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110142549.4A Pending CN113760677A (zh) | 2021-02-02 | 2021-02-02 | 异常链路分析方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113760677A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510329A (zh) * | 2022-01-21 | 2022-05-17 | 北京火山引擎科技有限公司 | 一种确定任务节点预计产出时间的方法、装置及设备 |
CN114756469A (zh) * | 2022-04-24 | 2022-07-15 | 阿里巴巴(中国)有限公司 | 数据关系分析方法、装置及电子设备 |
CN115842860A (zh) * | 2023-02-28 | 2023-03-24 | 江苏金恒信息科技股份有限公司 | 一种针对数据链路的监控方法、装置及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108183927A (zh) * | 2017-11-22 | 2018-06-19 | 链家网(北京)科技有限公司 | 一种分布式系统中链路调用的监控方法及系统 |
US20190068619A1 (en) * | 2017-08-24 | 2019-02-28 | At&T Intellectual Property I, L.P. | Systems and methods for dynamic analysis and resolution of network anomalies |
US20190079821A1 (en) * | 2017-09-13 | 2019-03-14 | Tmaxsoft Co., Ltd | Technique for Processing Fault Event of IT System |
CN109672741A (zh) * | 2018-12-25 | 2019-04-23 | 鼎信信息科技有限责任公司 | 微服务监控方法、装置、计算机设备和存储介质 |
CN110213203A (zh) * | 2018-03-06 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 网络调度方法、装置及计算机存储介质 |
CN111400130A (zh) * | 2020-03-06 | 2020-07-10 | 平安科技(深圳)有限公司 | 任务监控方法、装置、电子设备及存储介质 |
CN111858065A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安财产保险股份有限公司 | 数据处理方法、设备、存储介质及装置 |
-
2021
- 2021-02-02 CN CN202110142549.4A patent/CN113760677A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190068619A1 (en) * | 2017-08-24 | 2019-02-28 | At&T Intellectual Property I, L.P. | Systems and methods for dynamic analysis and resolution of network anomalies |
US20190079821A1 (en) * | 2017-09-13 | 2019-03-14 | Tmaxsoft Co., Ltd | Technique for Processing Fault Event of IT System |
CN108183927A (zh) * | 2017-11-22 | 2018-06-19 | 链家网(北京)科技有限公司 | 一种分布式系统中链路调用的监控方法及系统 |
CN110213203A (zh) * | 2018-03-06 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 网络调度方法、装置及计算机存储介质 |
CN109672741A (zh) * | 2018-12-25 | 2019-04-23 | 鼎信信息科技有限责任公司 | 微服务监控方法、装置、计算机设备和存储介质 |
CN111400130A (zh) * | 2020-03-06 | 2020-07-10 | 平安科技(深圳)有限公司 | 任务监控方法、装置、电子设备及存储介质 |
CN111858065A (zh) * | 2020-07-28 | 2020-10-30 | 中国平安财产保险股份有限公司 | 数据处理方法、设备、存储介质及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114510329A (zh) * | 2022-01-21 | 2022-05-17 | 北京火山引擎科技有限公司 | 一种确定任务节点预计产出时间的方法、装置及设备 |
CN114510329B (zh) * | 2022-01-21 | 2023-08-08 | 北京火山引擎科技有限公司 | 一种确定任务节点预计产出时间的方法、装置及设备 |
CN114756469A (zh) * | 2022-04-24 | 2022-07-15 | 阿里巴巴(中国)有限公司 | 数据关系分析方法、装置及电子设备 |
CN115842860A (zh) * | 2023-02-28 | 2023-03-24 | 江苏金恒信息科技股份有限公司 | 一种针对数据链路的监控方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210133622A1 (en) | Ml-based event handling | |
US10116534B2 (en) | Systems and methods for WebSphere MQ performance metrics analysis | |
WO2022151668A1 (zh) | 数据任务调度方法、装置、存储介质及调度工具 | |
CN113760677A (zh) | 异常链路分析方法、装置、设备及存储介质 | |
US10372572B1 (en) | Prediction model testing framework | |
CN112905323B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111400288A (zh) | 数据质量检查方法及系统 | |
CN109254912A (zh) | 一种自动化测试的方法及装置 | |
CN113360581A (zh) | 数据处理方法、装置及存储介质 | |
US9922116B2 (en) | Managing big data for services | |
AU2021244852B2 (en) | Offloading statistics collection | |
WO2015187001A2 (en) | System and method for managing resources failure using fast cause and effect analysis in a cloud computing system | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
CN109324892B (zh) | 分布式管理方法、分布式管理系统及装置 | |
CN110011845B (zh) | 日志采集方法及系统 | |
CN113779017A (zh) | 数据资产管理的方法和装置 | |
CN114090268B (zh) | 容器管理方法及容器管理系统 | |
CN113722141B (zh) | 数据任务的延迟原因确定方法、装置、电子设备及介质 | |
US20190303259A1 (en) | Executing Test Scripts with Respect to a Server Stack | |
CN113114612B (zh) | 分布式系统调用链的确定方法和装置 | |
CN113064807A (zh) | 日志诊断方法及装置 | |
CN115039079A (zh) | 管理起源信息以用于数据处理管道 | |
CN117389841B (zh) | 加速器资源监控方法、装置、集群设备及存储介质 | |
CN115202979A (zh) | 一种sql实时监控方法、系统、电子设备及存储介质 | |
Curtis | A Comparison of Real Time Stream Processing Frameworks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |