[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN111913824B - 确定数据链路故障原因的方法及相关设备 - Google Patents

确定数据链路故障原因的方法及相关设备 Download PDF

Info

Publication number
CN111913824B
CN111913824B CN202010578137.0A CN202010578137A CN111913824B CN 111913824 B CN111913824 B CN 111913824B CN 202010578137 A CN202010578137 A CN 202010578137A CN 111913824 B CN111913824 B CN 111913824B
Authority
CN
China
Prior art keywords
data
file
data file
information
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010578137.0A
Other languages
English (en)
Other versions
CN111913824A (zh
Inventor
谢凌杰
陈洁
李颖
李颢
张新
周政明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202010578137.0A priority Critical patent/CN111913824B/zh
Publication of CN111913824A publication Critical patent/CN111913824A/zh
Application granted granted Critical
Publication of CN111913824B publication Critical patent/CN111913824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/80Database-specific techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种确定数据链路故障原因的方法及相关设备,该方法包括:获取目标数据文件的文件信息;根据所述文件信息从数据链路全视图中查找所述目标数据文件对应的数据链路;获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息;根据所述数据异常信息生成所述目标数据文件在其对应的数据链路上的数据异常向量;将所述数据异常向量输入到与所述数据链路对应的故障原因决策模型中;获取所述故障原因决策模型输出的所述目标数据文件的数据链路故障的原因。本发明提供的确定数据链路故障原因的方法可以降低对运维人员经验的依赖,准确的确定出数据链路故障的根本原因,提高故障排查效率。

Description

确定数据链路故障原因的方法及相关设备
技术领域
本发明涉及运维技术领域,特别涉及一种确定数据链路故障原因的方法及相关设备。
背景技术
近年来,随着商业银行业务的持续扩展,以及大数据应用的不断推广,银行IT(信息技术)系统需要处理的数据量呈指数级增长。这就使处在数据链路上的各系统压力越来越大,经常会因为各种原因无法及时生成和传输数据,可能对银行的重要资金业务、监管报送及管理分析等造成重大影响。
目前,在数据链路发生故障后,通常通过人工进行检查和操作,排查故障原因。但这种方式往往很被动,难以保证时效性。并且,在故障排查时只能顺藤摸瓜,在下游系统未接收到数据时,只能查找其上游系统,如果上游系统确认已经供给了数据,则需要上下游系统双方共同排查传输工具是否有问题。如果上游系统未供给数据,在需要查找该上游系统的上一级上游系统,进而来排查上一级上游系统是否有问题。依次类推,直到查找到故障原因。
由于不同数据依赖的上游数据不同,架构逻辑复杂性也不同,这种方法极大的依赖于运维人员的经验,并局限在已经暴露出的故障中,运维人员有时耗费大量的人力精力,也找不到数据链路发生故障的根本原因。
发明内容
为解决上述技术问题,本发明实施例提供了一种确定数据链路故障原因的方法及相关系统,通过将目标数据文件在其对应的数据链路上的数据异常向量输入到该数据链路对应的故障原因决策模型来准确的确定出目标数据文件的数据链路发生故障的原因,降低故障排查对运维人员经验的依赖。
第一方面,本发明实施例提供了一种确定数据链路故障原因的方法,所述方法包括:
获取目标数据文件的文件信息,其中所述文件信息唯一标识所述目标数据文件;
根据所述文件信息从数据链路全视图中查找所述目标数据文件对应的数据链路;
获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息,所述数据异常信息包括:所述节点系统中与所述目标数据文件对应的中间数据文件的文件生成是否异常、所述节点系统在生成所述中间数据文件的过程中的作业加工是否异常、所述节点系统对所述中间数据文件的文件传输是否异常、所述节点系统在设定时间段内的系统资源是否异常、所述节点系统在设定时间段内的数据库指标是否异常;
根据所述数据异常信息生成所述目标数据文件在其对应的数据链路上的数据异常向量;
将所述数据异常向量输入到与所述数据链路对应的故障原因决策模型中,其中,所述故障原因决策模型为使用多个样本数据训练随机森林模型得到的,所述样本数据包括:样本数据文件在所述数据链路上的数据异常向量、标识故障原因的标签;
获取所述故障原因决策模型输出的所述目标数据文件的数量链路故障的原因。
在本发明的一种实施例中,所述方法还包括:
监控并采集各节点系统中各数据文件的传输信息,其中,所述传输信息包括:当前数据文件本身的数据文件信息,当前数据文件依赖的上游数据文件信息,当前数据文件对应的下游数据文件信息;
根据各数据文件的传输信息生成所述数据链路全视图。
在本发明的一种实施例中,所述方法还包括:
监控并记录各节点系统中各数据文件的数据异常信息。
在本发明的一种实施例中,所述获取所述数据链路上的各节点系统中与所述数据文件对应的数据异常信息包括:
根据所述文件信息从所记录的数据异常信息中查找所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息。
在本发明的一种实施例中,所述故障原因包括:发生故障的系统名称以及所述故障系统发生故障的原因,所述故障系统发生故障的原因包括:系统资源紧张、系统数据库异常、系统作业错误、系统数据未生成、系统传输故障。
第二方面,本发明实施例提供一种确定数据链路故障原因的装置,所述装置包括:
文件信息获取模块,用于获取目标数据文件的文件信息,其中所述文件信息唯一标识所述目标数据文件;
数据链路获取模块,用于根据所述文件信息从数据链路全视图中查找所述目标数据文件对应的数据链路;
异常信息获取模块,获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息,所述数据异常信息包括:所述节点系统中与所述目标数据文件对应的中间数据文件的文件生成是否异常、所述节点系统在生成所述中间数据文件的过程中的作业加工是否异常、所述节点系统对所述中间数据文件的文件传输是否异常、所述节点系统在设定时间段内的系统资源是否异常、所述节点系统在设定时间段内的数据库指标是否异常;
异常向量生成模块,用于根据所述数据异常信息生成所述目标数据文件在其对应的数据链路上的数据异常向量;
异常向量输入模块,用于将所述数据异常向量输入到与所述数据链路对应的故障原因决策模型中,其中,所述故障原因决策模型为使用多个样本数据训练随机森林模型得到的,所述样本数据包括:样本数据文件在所述数据链路上的数据异常向量、标识故障原因的标签;
故障原因获取模块,用于获取所述故障原因决策模型输出的所述目标数据文件的数据链路故障的原因。
在本发明的一种实施例中,所述装置还包括:
传输信息采集模块,用于监控并采集各节点系统中各数据文件的传输信息,其中,所述传输信息包括:当前数据文件本身的数据文件信息,当前数据文件依赖的上游数据文件信息,当前数据文件对应的下游数据文件信息;
数据链路全视图生成模块,用于根据各数据文件的传输信息生成所述数据链路全视图。
在本发明的一种实施例中,所述装置还包括:
数据异常信息记录模块,用于监控并记录各节点系统中各数据文件的数据异常信息。
在本发明的一种实施例中,所述获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息包括:
根据所述文件信息从所记录的数据异常信息中查找所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息。
在本发明的一种实施例中,所述故障原因包括:发生故障的系统名称以及所述故障系统发生故障的原因,所述故障系统发生故障的原因包括:系统资源紧张、系统数据库异常、系统作业错误、系统数据未生成、系统传输故障。
第三方面,本发明实施例提供一种计算机存储介质,其上存储有计算机指令,该计算机指令能够被处理器执行以实现前述任意一个实施例所述的确定数据链路故障原因的方法。
第四方面,本发明实施例提供一种计算机设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述计算机程序以实现前述任意一个实施例所述的确定数据链路故障原因的方法。
本发明实施例提供的方法相比于现有技术具有如下有益技术效果:
本发明实施例提供的确定数据链路故障原因的方法和相关设备,从数据链路全视图中查找目标数据文件对应的数据链路,根据该数据链路上的各节点系统中与目标数据文件对应的数据异常信息生成数据异常向量,然后将该数据异常向量输入到故障原因决策模型中来确定目标数据文件的数据链路发生故障的原因,可以降低故障排查对于运维人员经验的依赖,准确的确定出目标数据文件的数据链路发生故障的根本原因,节省排查故障耗费的人力和时间。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简要的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的数据链路全视图的结构示意图;
图2是根据本发明实施例的确定数据链路故障原因的方法流程图;
图3是根据本发明实施例的一种随机森林模型的原理示意图;
图4示出了根据本发明一个实施例的训练初始决策树的训练示意图;
图5是根据本发明实施例的确定数据链路故障原因的装置结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先,对本发明实施例涉及的术语做简要说明。
作业:IT系统的数据处理组件,其包括数据接收、数据处理和数据传输三个部分,主要通过自定义的程序逻辑实现对数据文件的加工处理。
数据链路:IT运维实践中,根据每档数据文件的上下游依赖关系绘制的虚拟线路。
数据链路全视图:多个系统中的多档数据文件的上下游依赖关系图,其通常是一个网状有向图。每档数据文件与其上下游数据文件可能存在“一对一”、“多对一”和“一对多”的关系。
到数时间和作业处理时间:每档数据都有其特定的业务定义和用途,为了满足各个IT系统的特定功能,每档数据通常都有要求最晚的生成和到达时间,对应的处理作业也被要求在固定的时间范围内完成,否则会有业务影响。
图1是根据本发明实施例的数据链路全视图的结构示意图。如图1所示,A、B1、B2、C为四个节点系统。A系统为最上游供数系统,该系统产生多档数据文件,其中一些数据文件供给B1系统,一些数据文件供给B2系统。B1系统和B2系统分别通过不同的作业对接收的数据文件进行加工处理,然后将处理后的数据文件发送给下游的C系统。C系统通过作业对接收的数据文件进行加工处理,从而生成最终的数据文件。
如果目标数据文件没有按时到达,或出现了错误,即目标数据文件的数据链路出现了故障,则会产生告警。目标数据文件的数据链路出现故障的原因有很多,其可能是该数据文件的某个上游节点系统的文件传输出现了问题,也可能是该数据文件的某个上游节点系统的作业加工处理过程出现了问题,或者是该数据文件的某个上游节点系统中的数据文件未及时生成等。
为了确定目标数据文件的数据链路发生故障的根本原因,本实施例提供了一种确定数据链路故障原因的方法。图2示出了根据本发明实施例的确定数据链路故障原因的方法流程图。如图2所示,本实施例所述的确定数据链路故障原因的方法包括:
S101:获取目标数据文件的文件信息,其中所述文件信息唯一标识所述目标数据文件。
其中,目标数据文件可以为需要得到的最终数据文件,可以在数据链路的末端节点系统监控最终数据文件是否按时到达或是否出现了错误,即监控目标数据文件是否出现了异常,若出现了异常,则判断目标数据文件对应的数据链路出现了故障,产生告警。在发生告警时,可以根据告警信息获取引发告警的目标数据文件的文件信息。目标数据文件的文件信息是目标数据文件的唯一标识,其可以由目标数据文件所在的系统、路径及目标数据文件名称组合而成。
S102:根据所述文件信息从数据链路全视图中查找所述目标数据文件对应的数据链路。
其中,可以获取预先生成的数据链路全视图,根据目标数据文件的文件信息来查找该目标数据文件对应的数据链路。
数据链路全视图表示各系统中的各数据文件的上下游依赖关系,在本实施例的一种实现方式中,可以通过以下方式来预先生成数据链路全视图:
监控各系统中的各数据文件,采集各数据文件的传输信息。在采集到各数据文件的传输信息后,根据采集到的各数据文件的传输信息生成表示各数据文件上下游依赖关系的数据链路全视图。
其中,各系统可以为跨平台的系统,比如,Linux系统、HP-UX系统、AIX系统、以及Windows等多种系统。一个系统中可以包括多台主机,可以在各系统的每一台主机上都部署代理脚本(例如,shell脚本或python脚本),来采集各数据文件的传输信息。对于一个系统而言,采集的数据文件的传输信息可以包括该系统中的数据文件本身的数据文件信息,例如,数据文件的名称、其所在的系统名称及路径;该数据文件依赖的上游数据文件信息,例如,上游数据文件的名称、所在的系统及路径;以及该数据文件对应的下游数据文件信息,例如,下游数据文件的名称、所在的系统及路径。
S103:获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息,所述数据异常信息包括:所述节点系统中与所述目标数据文件对应的中间数据文件的文件生成是否异常、所述节点系统在生成所述中间数据文件的过程中的作业加工是否异常、所述节点系统的对所述中间数据文件的文件传输是否异常、所述节点系统在设定时间段内的系统资源是否异常、所述节点系统在设定时间段内的数据库指标是否异常。
其中,目标数据文件对应的数据链路为有向的数据链路,该数据链路上的节点系统依次可以包括第一级节点系统、第二级节点系统、…、第n级中间节点系统等多个节点系统。相邻节点系统的数据文件之间具有上下游的依赖关系或对应关系。对于目标数据文件而言,其对应的数据链路上的各节点系统中与该目标数据文件对应的数据文件为该目标数据文件的中间数据文件。可以根据目标数据文件的文件信息确定目标数据文件对应的数据链路,然后确定该数据链路上的节点系统名称以及这些节点系统中与目标数据文件对应的中间数据文件的文件信息。
发明人在实现本发明实施例的过程中发现,目标数据文件出现故障的原因有很多,主要有:
1、上游节点系统的中间数据文件未生成;
2、上游节点系统由于系统资源不足、作业调度拥塞、作业加工逻辑错误、数据格式异常等原因,作业执行超时;
3、上游节点系统和下游节点系统之间的文件传输异常,或网路故障导致传输中断,上游节点系统生成的中间数据文件未成功传给下游节点系统;
4、下游节点系统由于磁盘空间不足、系统资源不足、传输组件异常等原因,无法成功接收上游发送的中间数据文件;
5、节点系统的数据库异常导致文件的读写异常。
因此,在确定出目标数据文件对应的数据链路、该数据链路上的节点系统名称及节点系统中与目标数据文件对应的中间数据文件的文件信息后,本实施例可以在该数据链路上的节点系统中采集以下数据异常信息:
1、节点系统中与目标数据文件对应的中间数据文件的文件生成是否异常(即文件生成是否异常)。例如,可以监测节点系统指定目录下的中间数据文件是否生成,获取该中间数据文件的大小,来判断中间数据文件的生成是否异常。若指定目录下的中间数据文件没有生成,或生成的中间数据文件的大小异常,例如为0KB,则判断该中间数据文件的生成异常。其中,指定目录可以为节点系统中与目标数据文件对应的中间数据文件应该存放的目录。
在一些实施例中,节点系统中与目标数据文件对应的中间数据文件为多个,则可以将各中间数据文件的文件生成是否异常的信息进行聚合。例如,B系统中与目标数据文件对应的中间数据文件为文件1和文件2,文件1的生成正常(值为1),文件2的生成异常(值为0),则可以对文件1和文件2的值进行与运算,从而确定该节点系统中与目标数据文件对应的中间数据文件的文件生成异常(与运算后的值为0)。
2、节点系统在生成与目标数据文件对应的中间数据文件的过程中的作业加工是否出现异常。例如,可以通过脚本分析节点系统中的作业日志,来确定该节点系统中与目标数据文件对应的中间数据文件的作业加工是否异常。其中,在与目标数据文件对应的中间数据文件为多个时,可以将各中间数据文件的作业加工是否异常的信息进行聚合,从而确定该节点系统在生成与目标数据文件对应的中间数据文件的过程中的作业加工是否出现异常。
3、节点系统对与目标数据文件对应的中间数据文件的文件传输是否异常。例如,可以通过脚本分析传输日志,来确定该节点系统中与目标数据文件对应的中间数据文件的文件传输是否出现了异常。其中,在与目标数据文件对应的中间数据文件为多个时,可以将各中间数据文件的文件传输是否异常的信息进行聚合,从而确定该节点系统中对与目标数据文件对应的中间数据文件的文件传输是否异常。
4、节点系统在设定时间段的系统资源是否异常。其中,系统资源可以包括CPU使用率、内存使用率、磁盘IO响应时间、文件使用率等,可以通过判断在设定时间段内的系统资源的平均使用率是否大于设定阈值来判断系统资源是否异常。例如,则可以采集10:30到11:00这一时间段内的CPU使用率,判断这一时间段内的CPU使用率的平均值是否大于设定阈值,从而来确定CPU资源是否紧张。基于同样的原理,也可以通过判断设定时间段内的内存使用率是否大于设定阈值来确定内存资源是否紧张,通过判断设定时间段内的磁盘IO响应时间是否大于设定阈值来确定磁盘资源是否紧张等。之后,可以对各系统资源的异常信息进行聚合,从而确定节点系统的系统资源是否异常。例如,可以在上述系统资源中的一项系统资源出现异常时,确定节点系统的系统资源异常。
其中,采集CPU使用率、内存使用率、磁盘IO响应时间、文件使用率等系统资源项的设定时间段可以由节点系统中与目标数据文件对应的中间数据文件的信息来确定,例如,可以根据设定的中间数据文件的到数时间来设定该时间段。
5、节点系统在设定时间段的数据库指标是否异常(即数据库是否异常)。其中,数据库指标可以包括是否有超长的SQL、大事务、会话是否阻塞、是否有死锁、是否有无效索引等,可以通过脚本来获取设定时间段的数据库指标信息。之后,可以根据这些数据库指标信息来确定节点系统的数据库是否异常。例如,可以在上述指标项中的一项出现异常时,确定节点系统的数据库异常。其中,采集数据库指标的设定时间段可以由节点系统中与目标数据文件对应的中间数据文件的信息来确定,例如,可以根据中间数据文件的作业处理时间来设定该时间段。
在本实施例的一种实现方式中,可以每隔一段时间监控并记录各系统中的各数据文件的文件生成信息、文件传输信息、作业加工信息以及各系统的资源信息、数据库指标信息等数据异常信息。从而,在根据目标数据文件的文件信息查找到目标数据文件对应的数据链路时,可以从记录的信息中查找与该目标数据文件对应的中间数据文件,进而获得与该目标数据文件对应的数据异常信息。
例如,可以在每个系统的每台主机上设置采集脚本,每隔一段时间采集系统中的各数据文件的数据异常信息,并将采集的各数据文件的数据异常信息记录在数据异常信息记录表中。在获取到目标数据文件的文件信息及其对应的数据链路后,可以根据目标数据文件的文件信息从该数据异常信息记录表中查找该目标数据文件在其对应的数据链路上的数据异常信息。
S104:根据所述数据异常信息生成所述目标数据文件在其对应的数据链路上的数据异常向量。
在获取到数据异常信息后,可以对数据异常信息进行处理,例如,进行数字化、标准化的表示,从而形成目标数据文件在其对应的数据链路上的数据异常向量。该数据异常向量可以为由0、1组成的数据串,每一位都表示一个节点系统中的一种数据异常信息,其中,0可以表示异常、1可以表示正常。
例如,文件1对应的数据链路为从A->B->C,文件1在其对应的数据链路上的数据异常向量为:[1,1,1,1,1,0,1,1,0,0,0,0,0,0,0],其中,前5位分别表示从A系统中的文件生成是否异常、作业加工是否异常、文件传输是否异常、系统资源是否异常、数据库是否异常,中间5位分别表示B系统中的文件生成是否异常、作业加工是否异常、文件传输是否异常、系统资源是否异常、数据库是否异常,最后5位分别表示C系统的文件生成是否异常、作业加工是否异常、文件传输是否异常、系统资源是否异常、数据库是否异常。当然,对于目标数据文件而言,其末端节点系统C的文件生成信息可以缺省,即,可以省略C节点系统的文件生成异常信息,从而得到14位的数据异常向量。
S105:将所述数据异常向量输入到与所述数据链路对应的故障原因决策模型中,其中,所述故障原因决策模型为使用多组样本数据训练随机森林模型得到的,所述样本数据包括:样本数据文件在所述数据链路上的数据异常向量、标识故障原因的标签。
具体而言,对于一个目标数据文件,其对应的数据链路上的各项数据异常信息可能相互关联,仅根据目标数据文件的数据异常向量往往无法确定究竟是哪一个原因导致目标数据文件异常,即无法确定目标数据文件的数据链路故障的根本原因。比如,若目标数据文件对应的数据异常向量为[0,0,0,1,1,0,0,0,1,1,0,0,0,1],根据该数据异常向量无法确定目标数据文件的数据链路故障的根本原因。
为确定目标数据文件的数据链路故障的根本原因,本实施例将目标数据文件的数据异常向量输入到其数据链路对应的故障原因决策模型中来确定目标数据文件的数据链路故障的根本原因。
其中,可以通过将样本数据文件的数据异常向量和其故障原因标签输入到随机森林模型中对随机森林模型进行训练,预先得到故障原因决策模型。
故障原因标签可以由发生故障的故障系统名称、故障系统发生故障的原因组成。故障系统发生故障的原因可以包括:系统资源紧张、系统数据库异常、系统作业错误、系统数据未生成、系统传输故障等。例如,故障原因标签可以为sys_A_gen,其表示故障原因为系统A的文件生成故障。
随机森林模型是一种集成学习模型,其通过构建并结合多个决策树来完成学习任务,比单个决策树模型具有更好的泛化性能和准确性。图3是根据本发明实施例的一种随机森林模型的原理示意图。如图3所示,本实施例先生成多个相互独立的决策树,然后将数据异常向量分别输入到各决策树中,得到各决策树的判定结果,然后采用“少数服从多数”原则确定最终的判定结果,即如果判定结果相同的决策树的个数大于设定阈值(例如多于一半),则将该相同的判定结果确定为最终结果;如果没有,则输出各决策树的判定结果,人工确认。由此,确定数据链路发生故障的根本原因。训练初始决策树的训练示意图如图4所示。
在本实施例的一种可行的实现方式中,可以通过不同的样本数据文件训练出不同的故障原因决策模型,每一种故障原因决策模型都对应一条数据链路。在确定出目标数据文件对应的数据链路后,可以将目标数据文件的数据异常向量输入到其数据链路对应的故障原因决策模型中来进行确定目标数据文件的数据链路故障的根本原因。
S106:获取所述故障原因决策模型输出的所述目标数据文件的数据链路故障的原因。
将目标数据文件在其对应的数据链路上的数据异常向量输入到其数据链路对应的故障原因决策模型后,故障原因决策模型可以输出目标数据文件的故障原因标签,例如,sys_A_gen,说明目标数据文件的数据链路故障的根本原因为系统A的文件生成故障。
图5示出了根据本发明一种实施例的确定数据链路故障原因的装置结构示意图。如图5所示,本实施例的确定数据链路故障原因的装置10可以包括:文件信息获取模块11、数据链路获取模块12、异常信息获取模块13、异常向量生成模块14、异常向量输入模块15以及故障原因获取模块16。
其中,文件信息获取模块11,用于获取目标数据文件的文件信息,其中所述文件信息唯一标识所述目标数据文件;
数据链路获取模块12,用于根据所述文件信息从数据链路全视图中查找所述目标数据文件对应的数据链路;
异常信息获取模块13,获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息,所述数据异常信息包括:所述节点系统中与所述目标数据文件对应的中间数据文件的文件生成是否异常、所述节点系统在生成所述中间数据文件的过程中的作业加工是否异常、所述节点系统对所述中间数据文件的文件传输是否异常、所述节点系统在设定时间段内的系统资源是否异常、所述节点系统在设定时间段内的数据库指标是否异常;
异常向量生成模块14,用于根据所述数据异常信息生成所述目标数据文件在其对应的数据链路上的数据异常向量;
异常向量输入模块15,用于将所述数据异常向量输入到与所述数据链路对应的故障原因决策模型中,其中,所述故障原因决策模型为使用多组样本数据训练随机森林模型得到的,所述样本数据包括:样本数据文件在所述数据链路上的数据异常向量、标识故障原因的标签。
故障原因获取模块16,用于获取所述故障原因决策模型输出的所述目标数据文件的数据链路故障的原因。
在本实施例的一种实现方式中,装置10还包括:
传输信息采集模块,用于监控并采集各节点系统中各数据文件的传输信息,其中,所述传输信息包括:当前数据文件本身的数据文件信息,当前数据文件依赖的上游数据文件信息,当前数据文件依赖的下游数据文件信息;
数据链路全视图生成模块,用于根据各数据文件的传输信息生成所述数据链路全视图。
在本实施例的一种实现方式中,装置10还包括:
数据异常信息记录模块,用于监控并记录各节点系统中各数据文件的数据异常信息。
在本实施例的一种实现方式中,所述获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息包括:
根据所述文件信息从所记录的数据异常信息中查找所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息。
在本实施例的一种实现方式中,所述故障原因包括:发生故障的系统名称以及所述故障系统发生故障的原因,所述故障系统发生故障的原因包括:系统资源紧张、系统数据库异常、系统作业错误、系统数据未生成、系统传输故障。
本实施例的确定数据文件故障原因的装置,可以用于执行本发明上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施方式的某些部分所述的方法。
本发明的又一个实施例提供了一种计算机存储介质,如硬盘、光盘、闪存、软盘、磁带等,其上存储有计算机可读指令,该计算机可读指令能够被处理器执行以实现上述任意一种实施例所述的确定数据链路故障原因的方法。
本发明的再一个实施例提供了一种计算机设备,包括:
存储器,其上存储有计算机程序,
处理器,其可以执行所述计算机程序以实现上述任意一种实施例所述的确定数据链路故障原因的方法。
本说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的保护范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (12)

1.一种确定数据链路故障原因的方法,其特征在于,所述方法包括:
获取目标数据文件的文件信息,其中所述文件信息唯一标识所述目标数据文件;
根据所述文件信息从数据链路全视图中查找所述目标数据文件对应的数据链路;
获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息,所述数据异常信息包括:所述节点系统中与所述目标数据文件对应的中间数据文件的文件生成是否异常、所述节点系统在生成所述中间数据文件的过程中的作业加工是否异常、所述节点系统对所述中间数据文件的文件传输是否异常、所述节点系统在设定时间段内的系统资源是否异常、所述节点系统在设定时间段内的数据库指标是否异常;
根据所述数据异常信息生成所述目标数据文件在其对应的数据链路上的数据异常向量;
将所述数据异常向量输入到与所述数据链路对应的故障原因决策模型中,其中,所述故障原因决策模型为使用多个样本数据训练随机森林模型得到的,所述样本数据包括:样本数据文件在所述数据链路上的数据异常向量、标识故障原因的标签;
获取所述故障原因决策模型输出的所述目标数据文件的数据链路故障的原因。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
监控并采集各节点系统中各数据文件的传输信息,其中,所述传输信息包括:当前数据文件本身的数据文件信息,当前数据文件依赖的上游数据文件信息,当前数据文件对应的下游数据文件信息;
根据各数据文件的传输信息生成所述数据链路全视图。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
监控并记录各节点系统中各数据文件的数据异常信息。
4.根据权利要求3所述的方法,其特征在于,所述获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息包括:
根据所述文件信息从所记录的数据异常信息中查找所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息。
5.根据权利要求1所述的方法,其特征在于,所述故障原因包括:发生故障的系统名称以及所述故障系统发生故障的原因,所述故障系统发生故障的原因包括:系统资源紧张、系统数据库异常、系统作业错误、系统数据未生成、系统传输故障。
6.一种确定数据链路故障原因的装置,其特征在于,所述装置包括:
文件信息获取模块,用于获取目标数据文件的文件信息,其中所述文件信息唯一标识所述目标数据文件;
数据链路获取模块,用于根据所述文件信息从数据链路全视图中查找所述目标数据文件对应的数据链路;
异常信息获取模块,获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息,所述数据异常信息包括:所述节点系统中与所述目标数据文件对应的中间数据文件的文件生成是否异常、所述节点系统在生成所述中间数据文件的过程中的作业加工是否异常、所述节点系统对所述中间数据文件的文件传输是否异常、所述节点系统在设定时间段内的系统资源是否异常、所述节点系统在设定时间段内的数据库指标是否异常;
异常向量生成模块,用于根据所述数据异常信息生成所述目标数据文件在其对应的数据链路上的数据异常向量;
异常向量输入模块,用于将所述数据异常向量输入到与所述数据链路对应的故障原因决策模型中,其中,所述故障原因决策模型为使用多个样本数据训练随机森林模型得到的,所述样本数据包括:样本数据文件在所述数据链路上的数据异常向量、标识故障原因的标签;
故障原因获取模块,用于获取所述故障原因决策模型输出的所述目标数据文件的数据链路故障的原因。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
传输信息采集模块,用于监控并采集各节点系统中各数据文件的传输信息,其中,所述传输信息包括:当前数据文件本身的数据文件信息,当前数据文件依赖的上游数据文件信息,当前数据文件对应的下游数据文件信息;
数据链路全视图生成模块,用于根据各数据文件的传输信息生成所述数据链路全视图。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
数据异常信息记录模块,用于监控并记录各节点系统中各数据文件的数据异常信息。
9.根据权利要求8所述的装置,其特征在于,所述获取所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息包括:
根据所述文件信息从所记录的数据异常信息中查找所述数据链路上的各节点系统中与所述目标数据文件对应的数据异常信息。
10.根据权利要求6所述的装置,其特征在于,所述故障原因包括:发生故障的系统名称以及所述故障系统发生故障的原因,所述故障系统发生故障的原因包括:系统资源紧张、系统数据库异常、系统作业错误、系统数据未生成、系统传输故障。
11.一种计算机存储介质,其特征在于,其上存储有计算机指令,该计算机指令能够被处理器执行以实现权利要求1-5中任意一项权利要求所述的方法。
12.一种计算机设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述计算机程序以实现权利要求1-5中任意一项权利要求所述的方法。
CN202010578137.0A 2020-06-23 2020-06-23 确定数据链路故障原因的方法及相关设备 Active CN111913824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010578137.0A CN111913824B (zh) 2020-06-23 2020-06-23 确定数据链路故障原因的方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010578137.0A CN111913824B (zh) 2020-06-23 2020-06-23 确定数据链路故障原因的方法及相关设备

Publications (2)

Publication Number Publication Date
CN111913824A CN111913824A (zh) 2020-11-10
CN111913824B true CN111913824B (zh) 2024-03-05

Family

ID=73226479

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010578137.0A Active CN111913824B (zh) 2020-06-23 2020-06-23 确定数据链路故障原因的方法及相关设备

Country Status (1)

Country Link
CN (1) CN111913824B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672776B (zh) * 2021-08-25 2024-04-12 中国农业银行股份有限公司 一种故障分析方法及装置
CN113641736B (zh) * 2021-10-13 2022-01-25 云和恩墨(北京)信息技术有限公司 展示会话阻塞源头的方法及装置
CN114356617B (zh) * 2021-11-29 2024-03-08 苏州浪潮智能科技有限公司 注错测试方法、装置、系统及计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611568A (zh) * 2011-12-21 2012-07-25 华为技术有限公司 一种故障业务路径诊断方法及装置
CN108809731A (zh) * 2018-06-28 2018-11-13 珠海兴业新材料科技有限公司 一种基于地铁调光投影系统业务数据链的控制方法
CN109218114A (zh) * 2018-11-12 2019-01-15 西安微电子技术研究所 一种基于决策树的服务器故障自动检测系统及检测方法
CN109298703A (zh) * 2017-07-25 2019-02-01 富泰华工业(深圳)有限公司 故障诊断系统及方法
CN110493025A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种基于多层有向图的故障根因诊断的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3922375B2 (ja) * 2004-01-30 2007-05-30 インターナショナル・ビジネス・マシーンズ・コーポレーション 異常検出システム及びその方法
US7333962B2 (en) * 2006-02-22 2008-02-19 Microsoft Corporation Techniques to organize test results

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102611568A (zh) * 2011-12-21 2012-07-25 华为技术有限公司 一种故障业务路径诊断方法及装置
CN109298703A (zh) * 2017-07-25 2019-02-01 富泰华工业(深圳)有限公司 故障诊断系统及方法
CN110493025A (zh) * 2018-05-15 2019-11-22 中国移动通信集团浙江有限公司 一种基于多层有向图的故障根因诊断的方法及装置
CN108809731A (zh) * 2018-06-28 2018-11-13 珠海兴业新材料科技有限公司 一种基于地铁调光投影系统业务数据链的控制方法
CN109218114A (zh) * 2018-11-12 2019-01-15 西安微电子技术研究所 一种基于决策树的服务器故障自动检测系统及检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨波.基于数据链的软件故障定位方法.软件学报.2015,第26卷(第2期),254-268. *

Also Published As

Publication number Publication date
CN111913824A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
KR102483025B1 (ko) 운영 유지 시스템 및 방법
CN106656536B (zh) 一种用于处理服务调用信息的方法与设备
US9542255B2 (en) Troubleshooting based on log similarity
US20220261403A1 (en) Systems and methods for data quality monitoring
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN105095052B (zh) Soa环境下的故障检测方法及装置
CN111814999B (zh) 一种故障工单生成方法、装置、设备
US10177984B2 (en) Isolation of problems in a virtual environment
CN109669844A (zh) 设备故障处理方法、装置、设备和存储介质
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及系统
US11790249B1 (en) Automatically evaluating application architecture through architecture-as-code
CN117407256A (zh) 一种基于图注意力网络的微服务异常检测方法和装置
CN107579944B (zh) 基于人工智能和MapReduce安全攻击预测方法
CN115374595A (zh) 一种基于过程挖掘的自动化软件过程建模方法及系统
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN111835566A (zh) 一种系统故障管理方法、装置及系统
CN112579402A (zh) 一种应用系统故障定位的方法和装置
US20230306343A1 (en) Business process management system and method thereof
CN116506340A (zh) 流量链路的测试方法、装置、电子设备及存储介质
US12073295B2 (en) Machine learning model operation management system and method
US9372746B2 (en) Methods for identifying silent failures in an application and devices thereof
US20200391885A1 (en) Methods and systems for identifying aircraft faults
WO2021123924A1 (en) Log analyzer for fault detection
Chen et al. Proverr: System level statistical fault diagnosis using dependency model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant