CN112507720B - 基于因果语义关系传递的图卷积网络根因识别方法 - Google Patents
基于因果语义关系传递的图卷积网络根因识别方法 Download PDFInfo
- Publication number
- CN112507720B CN112507720B CN202011264456.0A CN202011264456A CN112507720B CN 112507720 B CN112507720 B CN 112507720B CN 202011264456 A CN202011264456 A CN 202011264456A CN 112507720 B CN112507720 B CN 112507720B
- Authority
- CN
- China
- Prior art keywords
- causal
- alarm
- relation
- root cause
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims abstract description 158
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012546 transfer Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 68
- 238000012549 training Methods 0.000 claims description 19
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000005096 rolling process Methods 0.000 claims description 7
- 239000013604 expression vector Substances 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 2
- 230000006854 communication Effects 0.000 abstract description 9
- 238000004891 communication Methods 0.000 abstract description 6
- 238000012423 maintenance Methods 0.000 abstract description 5
- 238000010129 solution processing Methods 0.000 abstract 1
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000012360 testing method Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000008439 repair process Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004579 scanning voltage microscopy Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- JIGWWGDIEUWCOR-UHFFFAOYSA-N 3-(1,4-diazabicyclo[3.2.2]nonan-4-yl)-6-fluorodibenzothiophene 5,5-dioxide Chemical compound C1=C2S(=O)(=O)C=3C(F)=CC=CC=3C2=CC=C1N1CCN2CCC1CC2 JIGWWGDIEUWCOR-UHFFFAOYSA-N 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于因果语义关系传递的图卷积网络根因识别方法,解决了大规模复杂通信网络的故障快速准确定位问题。在知识图谱嵌入模型的启发下,假设根因识别问题中的切片样本内告警和根因告警存在因果关系,并且因果关联网络同构,即:因果关系向量r、样本序列在因果关系空间表示xseq以及序列的根因告警在因果关系空间表示构成三元组满足关系结合概率统计知识、基于均值聚合器的GraphSAGE模型以及语义关系传递模块提出深层神经网络方法,在无需专家知识的前提下提升对运维故障的根因告警识别准确性,从而可以快速准确地定位通信过程中的关键问题便于后续针对性解决处理。
Description
技术领域
本发明属于智能运维(AIOPS)领域,具体涉及一种基于因果语义关系传递的图卷积网络根因识别方法。
背景技术
随着通信相关技术的不断发展和应用领域的不断扩展,通信在生产生活中的角色越来越重要,用户对于故障的响应速度需求也不断提升。
在通信系统的运维领域,为保障设备的正常运转和服务的正常进行,设备或服务发生故障时会触发系统告警用于定位故障,并且单个故障可能导致关联故障,每个故障都可能触发多个告警。此外,存在对服务质量(业务)无显著影响或者系统自动修复的故障,此类故障也会触发告警,且告警可能与业务相关告警时间重合,但该类故障无需人工解决。因此单次故障所处时段会存在大量告警,并且其中包含根本原因对应的告警,识别该告警可以快速定位故障并且后续进行针对性修复,这对于提升故障响应速度和提高服务体验具有重要意义。但是,告警之间存在复杂因果关联关系,并且单个时段存在大量告警,这使得识别根因告警成为一项困难且耗时繁重的任务。
目前,学术界对于故障定位和根因分析任务的研究主要集中在因果关系和解释,运用条件独立测试、隐马尔科夫模型等侧重统计学的方法解决,获得完整的因果关联图。在现实场景中,除响应的准确率外,响应时间也是重要因素,但是因果推断方法的时间复杂度普遍较高;并且,根因识别任务无需确定完整的因果关联图,只需根据推测的根因告警信息即可进行故障修复。工业界完成根因识别任务的主要技术为专家系统,依赖于专家的经验和技术,但难以及时进行更新迭代,难以满足用户对识别准确率的要求。由于近年来数据存储和计算成本呈指数级下降,告警数据的存储和分析处理难度降低,鉴于上述情况,基于数据驱动的机器学习方法开始融入根因识别的方法之中,使提高根因识别的准确率、故障处理的响应速度和提升方案的更新能力成为可能。
发明内容
针对上述问题,本发明提供了一种使用时序信息的平移向量进行语义因果关系传递的图卷积网络根因识别方法,该方法可以学习告警之间的因果关联关系,构建因果关系表示,从而精准有效地在海量告警中捕捉根因告警。
为达到上述目的,本发明采用如下技术方案来实现的:
基于因果语义关系传递的图卷积网络根因识别方法,该方法在知识图谱嵌入模型的启发下,基于因果语义关系传递的图卷积网络根因识别方法假设根因识别问题中的切片样本内告警和根因告警存在因果关系,并且因果关联网络同构,即:因果关系向量r、样本序列在因果关系空间表示xseq以及序列的根因告警在因果关系空间表示构成三元组满足关系结合概率统计知识、基于均值聚合器的GraphSAGE图卷积网络模型以及语义关系传递模块搭建基于因果语义关系传递的图卷积网络根因识别方法。
本发明进一步的改进在于,具体包括以下步骤:
1)数据特征选取及预处理:
选取告警细节属性作为输入数据在时间顺序下进行语义分析,基于GloVe模型提取告警细节的词向量表示;
2)全局因果关联先验邻接矩阵生成:
将训练集作为先验信息,计算两个告警xi,xj在同一样本中出现时告警xi为根因告警的频率,生成全局因果关联先验邻接矩阵;
3)因果关联邻接矩阵生成:
采取的因果关联邻接矩阵生成方法考虑语义和概率两个部分,使用全连接神经网络和激活函数进一步提取告警在关系层面的特征,结合范数获取语义邻接矩阵;将全局因果关联先验邻接矩阵作为概率邻接矩阵和权重矩阵,联合语义邻接矩阵生成因果关联邻接矩阵;
4)序列特征表示和告警特征表示学习:
由于单个切片样本内告警存在时序关系,因此首先使用双向LSTM网络即BiLSTM学习告警的时序特征表示;此外,考虑告警之间存在的因果图结构,将步骤3)中生成的因果关联邻接矩阵作为告警因果关联的网络拓扑结构,选取深层均值聚合器的GraphSAGE图卷积网络模型分别学习各个告警的特征表示;
5)因果语义关系传递模块:
将样本序列和样本中各告警的特征表示投影到低维因果关系空间,在假设因果关系r、样本序列在因果关系空间表示xpool以及序列的根因告警在因果关系空间表示构成三元组满足关系的前提下,运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式,预测序列中各个告警为根因告警的概率,完成根因告警的识别。
本发明进一步的改进在于,步骤1)的具体操作为:告警数据中的告警细节属性对应时段内包含专家知识的故障或异常的语言描述,语义信息含有告警之间关系的隐式信息;选取告警细节属性作为输入数据在时间顺序下进行语义分析,将告警细节作为词表示模型中的分词,切片样本内告警细节组成的序列集合构成词表示模型的语料库,基于GloVe模型提取告警细节的词向量表示。
本发明进一步的改进在于,步骤2)的具体操作为:基于训练集先验信息,采用确定概率的频率方法,获取告警之间的因果频率,生成全局因果关联先验邻接矩阵。
本发明进一步的改进在于,步骤3)的具体操作为:因果关联邻接矩阵作为图卷积网络的输入数据之一,为模型提供图中节点之间的邻接信息;因果邻接矩阵生成考虑语义和概率两个部分,语义部分结合全连接层和激活函数学习告警的加权词向量表示,获取向量之间的2-范数,表示告警之间的相似关系,近似语义因果关联关系,生成语义邻接矩阵;概率部分则采用步骤2)中的全局因果关联先验邻接矩阵,作为因果关联邻接矩阵的权重矩阵;因果关联邻接矩阵则由语义邻接矩阵和概率邻接矩阵联合生成。
本发明进一步的改进在于,步骤5)的具体操作为:知识图谱嵌入模型的启发下,假设根因识别问题中的切片样本内告警和根因告警存在因果关系,并且因果关联网络同构,即:因果关系向量r、样本序列在因果关系空间表示xseq以及序列的根因告警在因果关系空间表示构成三元组满足关系
首先,为获取序列和根因告警的特征表示,将步骤4)中生成的因果关联邻接矩阵作为告警因果关联的网络拓扑结构,选取深层均值聚合器的GraphSAGE图卷积网络模型进行学习;为统一特征表示向量所属空间,样本序列特征表示向量和样本中各个告警的特征表示向量分别通过全连接层和激活层投影到低维因果关系空间;之后考虑不同三元组因果关系表示的特殊性,因果关系与序列相关,根据样本序列在因果关系空间表示xseq、样本序列表示及根因概率向量P,运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式:
其中,为切片序列的矩阵表示,为切片序列中第i个告警的向量表示;P=[P1…Pl]为告警的根因概率向量,Pi表示训练集统计的告警i在切片样本中为根因告警的频率;l为告警切片中的告警数量,[;]为concatenate操作,·为Hadamard乘法;
最终采用2-范数对比序列根因告警预测值xseq+r与根因告警在因果关系空间表示作为当前方法的输出,预测序列中各个告警为根因告警的概率。
本发明至少具有如下有益的技术效果:
本发明提供一种基于因果语义关系传递的图卷积网络根因识别方法,该方法提出告警的因果关系模拟,提升了方法的可解释性,提升了海量告警中识别根因告警、捕捉根本问题的效率和准确率,同时节省了在现实场景处理IT或CT领域告警根因识别问题过程中投入的人力物力。对比分析无论是训练集还是测试集本发明的算法的准确率远高于其他四种PCMCI、SVM、CNN、Random Forest算法,在训练集上可达到99.6%,在测试集可达到99.8%。训练速度方面远快于PCMCIplus算法。相对于其它方法,本发明提出的方法在无需专家知识的前提下可快速且准确的识别出根因告警,从而可以定位通信过程中的关键问题便于后续针对性解决处理。
附图说明
图1为基于因果语义关系传递的图卷积网络根因识别方法的整体框架;
图2为基于因果语义关系传递的图卷积网络根因识别方法模块示意图;
图3为本方法与其他对比方法对根因告警进行识别的准确率对照图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。
参考图1,在通信系统的运维领域,为保障设备的正常运转和服务的正常进行,设备或服务发生故障时会触发系统告警用于定位故障。但是,单个故障会触发大量告警,因此识别根因告警可以快速定位故障并且后续进行针对性修复。对于故障定位和根因分析问题,学术界的研究主要关注因果推断方法的因果关系和解释性,但是因果推断方法的时间复杂度普遍较高;工业界的主要技术为专家系统,依赖于专家的经验和技术,但难以及时进行更新迭代,难以满足用户对识别准确率的要求。
综合上述情况,本发明提出一种基于因果语义关系传递的图卷积网络根因识别方法。本发明将不同时段告警触发的一系列告警视为不同的会话切片序列,除根因告警外会话内包含大量告警,并且每个告警具有时间、告警名称、告警细节描述、会话类型等属性。由于告警细节描述属性为文本描述涵盖大量背景知识关系信息,因此本发明将会话的告警细节描述属性作为输入。本发明通过概率估计和关联学习获取告警之间的因果关联邻接矩阵,同时借助邻接矩阵和语义信息学习文本类型的告警和序列的特征表示,搭建告警之间的因果语义关系及关系传递模块,从而精准有效地在海量告警中捕捉根因告警。
参考图1和图2,本发明利用概率信息和文本语义信息,使用概率统计知识、基于均值聚合器的GraphSAGE模型(简称为naSAGE)以及语义关系传递模块搭建基于因果语义关系传递的图卷积网络根因识别方法,快速准确地定位根因告警,以便针对性快速修复故障。
首先,由于当前方法为数据驱动方法,在数据量充足的情况下,概率信息可以作为先验知识指导进行特征学习;其次,告警细节标签描述了时段内故障或异常的包含专家知识和逻辑关系,因此语义信息也可以指导特征学习;此外,由于告警之间存在复杂的因果关联关系,告警之间的关系结构可以视为因果关系图,因果关系图也可以指导特征学习,因此方法中的特征表示学习部分主要采用naSAGE图卷积网络,将因果图结构作为告警节点之间的邻接信息进行图中节点的表示学习。
基于上述方法,本发明主要包含四个模块:数据预处理模块、因果关联邻接矩阵生成模块、特征表示学习模块和因果语义关系传递模块。其中,第一个模块选取告警细节属性作为输入数据在时间顺序下进行语义分析,基于GloVe模型提取告警细节的词向量表示(注:图2中未包含模块一,矩阵X为GloVe模型训练后的告警的词向量表示矩阵)。第二个模块基于训练集先验信息,考虑语义和概率两个部分,分别采用确定概率的频率方法、全连接神经网络和激活函数进一步提取告警在关系层面的特征,联合生成因果关联邻接矩阵。第三个模块将模块二生成的因果关联邻接矩阵作为网络拓扑信息,使用BiLSTM和naSAGE模型学习告警的特征表示。第四个模块根据告警表示和因果关联邻接矩阵信息学习样本序列和样本中各告警的特征表示,再投影到低维因果关系空间,在假设因果关系r、样本序列在因果关系空间表示xpool以及序列的根因告警在因果关系空间表示构成三元组满足关系的前提下,运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式,预测序列中各个告警为根因告警的概率,完成根因告警的识别。
具体来说,各个模块的进一步详细描述如下:
模块一——数据预处理
GloVe模型是一种用于获取单词向量表示的无监督学习算法,对来自语料库的汇总的全局单词-单词共现统计信息和局部的上下文特征信息进行训练。为了将文本形式的告警细节属性转换为数值矩阵形式,选取告警细节属性作为输入数据在时间顺序下进行语义分析,将告警细节作为GloVe模型中的分词,切片样本内告警细节组成的序列集合构成GloVe模型的语料库,基于GloVe模型学习告警细节属性的词向量表示xi,其中i=1,…,d,d表示非重复告警细节属性个数。
模块二——因果关联邻接矩阵生成
因果关联邻接矩阵作为图卷积网络的输入数据之一,为模型提供节点的结构信息,根据节点的结构关系进行卷积。由于数据量充足时频率近似概率,共现统计频率在一定程度可以反映因果关系的概率;又由于告警细节标签描述了时段内故障或异常的包含专家知识和逻辑关系,因此本方法的因果邻接矩阵生成模块考虑概率和语义两个部分。
概率部分采用确定概率的频率方法,将训练集作为先验信息,计算两个告警xi,xj在同一样本中出现时告警xi为根因告警的频率:
(告警i是根因|告警i,j在同序列中出现)
生成全局因果关联先验邻接矩阵Aprob。
语义部分结合全连接层和激活函数学习告警的加权词向量表示,获取向量之间的2-范数,表示告警之间的相似关系,近似语义因果关联邻接关系。距离越近,则两个词表示之差的范数越小,其对应邻近关系的概率越大,生成语义邻接矩阵Asem:
其中xi为序列中第i个告警在GloVe预处理后的词表示,W1,W2为两个权重矩阵,‖·‖2为2-范数。
因果关联邻接矩阵A则由语义邻接矩阵和概率邻接矩阵联合生成:
A=Asem·Aprob
其中(·)表示矩阵点乘,为元素导向乘积。
模块三——特征表示学习
由于单个切片样本内告警存在时序关系,因此首先使用双向LSTM网络(BiLSTM)学习告警的时序特征表示。此外,考虑告警之间存在的因果图关系,选取深层均值聚合器的GraphSAGE图卷积网络模型(naSAGE),将因果关联邻接矩阵作为告警因果关联的网络拓扑结构,分别学习告警的特征表示。
naSAGE模型的层数设置根据对比实验确定,设置为2层。预处理模型可以表示为:
Xpre=naSAGE(naSAGE(LSTM(X)))
naSAGE模型为GraphSAGE模型中提到的均值聚合器GCN。均值聚合GCN的结点状态更新策略为对结点及其邻居结点集合进行均值计算,并进行线性加权计算得到最终结果,具体表示如下:
其中N(v)为结点v的邻居结点集合。
模块四——因果语义关系传递
在知识图谱嵌入模型的启发下,假设根因识别问题中的切片样本内告警和根因告警存在因果关系,并且因果关联网络同构,即:因果关系向量r、样本序列在因果关系空间表示xseq以及序列的根因告警在因果关系空间表示构成三元组满足关系:
若应用上述假设预测识别结果,则需要确定三元组元素的表示。模块继续沿用naSAGE模型分别学习样本序列特征表示和样本中各个告警的特征。
告警特征表示学习继续使用2层naSAGE模型,可以表示为:
序列特征则为序列的整体特征,首先使用naSAGE模型训练序列表示,再结合最大池化方法,确定序列的最显著特征表示,序列特征向量可以表示为:
为统一特征表示的位置空间,首先将学习的样本序列特征表示和样本中各个告警的特征表示分别通过全连接层和激活层投影到低维因果关系空间,得到低维因果关系空间样本序列特征表示xseq和告警的特征表示矩阵Xroot:
其中,Wseq和Wroot分别表示序列空间到因果关系空间的投影矩阵,bseq和broot为投影偏差。
之后考虑不同三元组因果关系表示的特殊性,与传统的知识图谱不同,根因数据的head entity对应输入的切片告警,切片告警为序列形式而非单一元素,且切片告警存在时序属性,因此使用BiLSTM模型学习切片内告警的上下文信息。此外,由于告警的根因概率向量可以反映告警为根因告警的水平,根因概率视为根因(tail entity)层面的信息,因此时序因果模型将其视为权重参数加权作用于时序分析后的切片表示,时序因果关系的计算如下:
其中,为告警切片的矩阵表示,为告警切片中第i个告警的向量表示;P=[P1…Pl]为告警的根因概率向量,Pi表示训练集统计的告警i在告警切片中为根因告警的概率;l为告警切片中的告警数量,·为Hadamard乘法。
由于根因概率向量的元素为经验统计值,且与训练集密切相关,在测试过程中缺乏泛化能力,因此使用与根因概率无关的均值操作同时处理切片序列中告警表示,与上述时序因果关系表示r1结合,得到因果关系的表示如下:
r=W2[r1;r′]
其中,为切片序列的矩阵表示,为切片序列中第i个告警的向量表示;l为告警切片中的告警数量,[;]为concatenate操作,·为Hadamard乘法。
最终,为了确定序列的预测结果,即当前序列预测的根因告警对应序列中的某个具体告警,考虑将投影到关系空间的序列向量与序列中各个根因告警向量对比,采用相似度计算的方法,相似度越接近则说明序列与该告警越相似,将其作为根因告警预测的结果,具体的表达式如下:
其中,为序列根因的近似表示;为切片中第i个告警的根因告警表示。
参考图3,为SVM、CNN、Random Forest(简记为RF)以及本发明提出的算法在通信系统的运维领域训练数据集以及测试数据集上根因识别准确率的对比。此外,本发明还选用PCMCI、PCMCIplus算法作为对比算法,前者训练集准确率为24.6%、测试集准确率为25.0%,后者由于训练时间过长未输出结果。从图中可以看出无论是训练集还是测试集本发明的算法的准确率接近100%,远高于其他算法,在训练集上可达到99.6%,在测试集可达到99.8%。相对于其它算法,本发明提出的算法可快速且准确的识别出根因告警,从而可以定位通信过程中的关键问题便于后续针对性解决处理。
Claims (1)
1.基于因果语义关系传递的图卷积网络根因识别方法,其特征在于,该方法在知识图谱嵌入模型的启发下,基于因果语义关系传递的图卷积网络根因识别方法假设根因识别问题中的切片样本内告警和根因告警存在因果关系,并且因果关联网络同构,即:因果关系向量r、样本序列在因果关系空间表示xseq以及序列的根因告警在因果关系空间表示构成三元组满足关系结合概率统计知识、基于均值聚合器的GraphSAGE图卷积网络模型以及语义关系传递模块搭建基于因果语义关系传递的图卷积网络根因识别方法;具体包括以下步骤:
1)数据特征选取及预处理:
选取告警细节属性作为输入数据在时间顺序下进行语义分析,基于GloVe模型提取告警细节的词向量表示;具体操作为:告警数据中的告警细节属性对应时段内包含专家知识的故障或异常的语言描述,语义信息含有告警之间关系的隐式信息;选取告警细节属性作为输入数据在时间顺序下进行语义分析,将告警细节作为词表示模型中的分词,切片样本内告警细节组成的序列集合构成词表示模型的语料库,基于GloVe模型提取告警细节的词向量表示;
2)全局因果关联先验邻接矩阵生成:
将训练集作为先验信息,计算两个告警xi,xj在同一样本中出现时告警xi为根因告警的频率,生成全局因果关联先验邻接矩阵;具体操作为:基于训练集先验信息,采用确定概率的频率方法,获取告警之间的因果频率,生成全局因果关联先验邻接矩阵;
3)因果关联邻接矩阵生成:
采取的因果关联邻接矩阵生成方法考虑语义和概率两个部分,使用全连接神经网络和激活函数进一步提取告警在关系层面的特征,结合范数获取语义邻接矩阵;将全局因果关联先验邻接矩阵作为概率邻接矩阵和权重矩阵,联合语义邻接矩阵生成因果关联邻接矩阵;具体操作为:因果关联邻接矩阵作为图卷积网络的输入数据之一,为模型提供图中节点之间的邻接信息;因果邻接矩阵生成考虑语义和概率两个部分,语义部分结合全连接层和激活函数学习告警的加权词向量表示,获取向量之间的2-范数,表示告警之间的相似关系,近似语义因果关联关系,生成语义邻接矩阵;概率部分则采用步骤2)中的全局因果关联先验邻接矩阵,作为因果关联邻接矩阵的权重矩阵;因果关联邻接矩阵则由语义邻接矩阵和概率邻接矩阵联合生成;
4)序列特征表示和告警特征表示学习:
由于单个切片样本内告警存在时序关系,因此首先使用双向LSTM网络即BiLSTM学习告警的时序特征表示;此外,考虑告警之间存在的因果图结构,将步骤3)中生成的因果关联邻接矩阵作为告警因果关联的网络拓扑结构,选取深层均值聚合器的GraphSAGE图卷积网络模型分别学习各个告警的特征表示;
5)因果语义关系传递模块:
将样本序列和样本中各告警的特征表示投影到低维因果关系空间,在假设因果关系r、样本序列在因果关系空间表示xpool以及序列的根因告警在因果关系空间表示构成三元组满足关系的前提下,运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式,预测序列中各个告警为根因告警的概率,完成根因告警的识别;具体操作为:知识图谱嵌入模型的启发下,假设根因识别问题中的切片样本内告警和根因告警存在因果关系,并且因果关联网络同构,即:因果关系向量r、样本序列在因果关系空间表示xseq以及序列的根因告警在因果关系空间表示构成三元组满足关系
首先,为获取序列和根因告警的特征表示,将步骤4)中生成的因果关联邻接矩阵作为告警因果关联的网络拓扑结构,选取深层均值聚合器的GraphSAGE图卷积网络模型进行学习;为统一特征表示向量所属空间,样本序列特征表示向量和样本中各个告警的特征表示向量分别通过全连接层和激活层投影到低维因果关系空间;之后考虑不同三元组因果关系表示的特殊性,因果关系与序列相关,根据样本序列在因果关系空间表示xseq、样本序列表示及根因概率向量P,运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式:
其中,为切片序列的矩阵表示,为切片序列中第i个告警的向量表示;P=[P1 … Pl]为告警的根因概率向量,Pi表示训练集统计的告警i在切片样本中为根因告警的频率;l为告警切片中的告警数量,[;]为concatenate操作,·为Hadamard乘法,W2为权重矩阵;
最终采用2-范数对比序列根因告警预测值xseq+r与根因告警在因果关系空间表示作为当前方法的输出,预测序列中各个告警为根因告警的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264456.0A CN112507720B (zh) | 2020-11-12 | 2020-11-12 | 基于因果语义关系传递的图卷积网络根因识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011264456.0A CN112507720B (zh) | 2020-11-12 | 2020-11-12 | 基于因果语义关系传递的图卷积网络根因识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112507720A CN112507720A (zh) | 2021-03-16 |
CN112507720B true CN112507720B (zh) | 2024-08-20 |
Family
ID=74956199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011264456.0A Active CN112507720B (zh) | 2020-11-12 | 2020-11-12 | 基于因果语义关系传递的图卷积网络根因识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507720B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114325232B (zh) * | 2021-12-28 | 2023-07-25 | 微梦创科网络科技(中国)有限公司 | 一种故障定位方法和装置 |
CN114637649B (zh) * | 2022-03-01 | 2024-07-09 | 清华大学 | 一种基于oltp数据库系统的告警根因分析方法及装置 |
CN114639483B (zh) * | 2022-03-23 | 2024-10-18 | 浙江大学 | 一种基于图神经网络的电子病历检索方法及装置 |
CN114757784B (zh) * | 2022-05-25 | 2024-10-22 | 浙江网商银行股份有限公司 | 需融资企业识别方法、模型训练方法、装置和设备 |
CN116032725B (zh) * | 2022-12-27 | 2024-06-11 | 中国联合网络通信集团有限公司 | 故障根因定位模型的生成方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109446519A (zh) * | 2018-10-10 | 2019-03-08 | 西安交通大学 | 一种融合数据类别信息的文本特征提取方法 |
CN110609759A (zh) * | 2018-06-15 | 2019-12-24 | 华为技术有限公司 | 一种故障根因分析的方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503791B2 (en) * | 2017-09-04 | 2019-12-10 | Borislav Agapiev | System for creating a reasoning graph and for ranking of its nodes |
CN109902283B (zh) * | 2018-05-03 | 2023-06-06 | 华为技术有限公司 | 一种信息输出方法及装置 |
CN111274395B (zh) * | 2020-01-19 | 2021-11-12 | 河海大学 | 基于卷积和长短期记忆网络的电网监控告警事件识别方法 |
CN111414744B (zh) * | 2020-03-25 | 2023-04-07 | 上海擎创信息技术有限公司 | 一种基于社区检测的运维告警场景生成方法 |
CN111897673B (zh) * | 2020-07-31 | 2022-10-21 | 平安科技(深圳)有限公司 | 运维故障根因识别方法、装置、计算机设备和存储介质 |
-
2020
- 2020-11-12 CN CN202011264456.0A patent/CN112507720B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110609759A (zh) * | 2018-06-15 | 2019-12-24 | 华为技术有限公司 | 一种故障根因分析的方法及装置 |
CN109446519A (zh) * | 2018-10-10 | 2019-03-08 | 西安交通大学 | 一种融合数据类别信息的文本特征提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112507720A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507720B (zh) | 基于因果语义关系传递的图卷积网络根因识别方法 | |
CN114241282B (zh) | 一种基于知识蒸馏的边缘设备场景识别方法及装置 | |
CN113283027A (zh) | 一种基于知识图谱和图神经网络的机械故障诊断方法 | |
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN109858390A (zh) | 基于端到端时空图学习神经网络的人体骨架的行为识别方法 | |
CN110866542B (zh) | 一种基于特征可控融合的深度表示学习方法 | |
CN112699247A (zh) | 一种基于多类交叉熵对比补全编码的知识表示学习框架 | |
CN112217674B (zh) | 基于因果网络挖掘和图注意力网络的告警根因识别方法 | |
CN113094822A (zh) | 一种机械设备剩余寿命预测方法和系统 | |
Dai et al. | Hybrid deep model for human behavior understanding on industrial internet of video things | |
CN116205265A (zh) | 一种基于深层神经网络的电网故障诊断方法及装置 | |
CN115114409A (zh) | 一种基于软参数共享的民航不安全事件联合抽取方法 | |
CN116402352A (zh) | 一种企业风险预测方法、装置、电子设备及介质 | |
CN116129286A (zh) | 基于知识图谱的图神经网络遥感图像分类方法 | |
CN118134017A (zh) | 一种采用脉冲神经网络预测社交网络链路的方法 | |
CN116012880A (zh) | 分布式边缘协同推理的行人重识别方法、系统及装置 | |
CN112380427B (zh) | 基于迭代图注意力网络的用户兴趣预测方法及电子装置 | |
Li | Computer network connection enhancement optimization algorithm based on convolutional neural network | |
CN117743595A (zh) | 一种基于图神经网络的电力监控事件识别与智能分析方法 | |
WO2023273171A1 (zh) | 图像处理方法、装置、设备和存储介质 | |
CN115168678A (zh) | 一种时序感知的异质图神经谣言检测模型 | |
CN115577757A (zh) | 基于图卷积网络节点标签异构图的社区发现方法 | |
CN114861792A (zh) | 一种基于深度强化学习的复杂电网关键节点识别方法 | |
CN114444506B (zh) | 一种融合实体类型的关系三元组抽取方法 | |
CN118568568B (zh) | 内容分类模型的训练方法以及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |