CN112507720B

CN112507720B - 基于因果语义关系传递的图卷积网络根因识别方法

Info

Publication number: CN112507720B
Application number: CN202011264456.0A
Authority: CN
Inventors: 高炅; 杨煜乾; 杨树森
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2020-11-12
Filing date: 2020-11-12
Publication date: 2024-08-20
Anticipated expiration: 2040-11-12
Also published as: CN112507720A

Abstract

本发明公开了一种基于因果语义关系传递的图卷积网络根因识别方法，解决了大规模复杂通信网络的故障快速准确定位问题。在知识图谱嵌入模型的启发下，假设根因识别问题中的切片样本内告警和根因告警存在因果关系，并且因果关联网络同构，即：因果关系向量r、样本序列在因果关系空间表示x^seq以及序列的根因告警在因果关系空间表示构成三元组满足关系结合概率统计知识、基于均值聚合器的GraphSAGE模型以及语义关系传递模块提出深层神经网络方法，在无需专家知识的前提下提升对运维故障的根因告警识别准确性，从而可以快速准确地定位通信过程中的关键问题便于后续针对性解决处理。

Description

基于因果语义关系传递的图卷积网络根因识别方法

技术领域

本发明属于智能运维(AIOPS)领域，具体涉及一种基于因果语义关系传递的图卷积网络根因识别方法。

背景技术

随着通信相关技术的不断发展和应用领域的不断扩展，通信在生产生活中的角色越来越重要，用户对于故障的响应速度需求也不断提升。

在通信系统的运维领域，为保障设备的正常运转和服务的正常进行，设备或服务发生故障时会触发系统告警用于定位故障，并且单个故障可能导致关联故障，每个故障都可能触发多个告警。此外，存在对服务质量(业务)无显著影响或者系统自动修复的故障，此类故障也会触发告警，且告警可能与业务相关告警时间重合，但该类故障无需人工解决。因此单次故障所处时段会存在大量告警，并且其中包含根本原因对应的告警，识别该告警可以快速定位故障并且后续进行针对性修复，这对于提升故障响应速度和提高服务体验具有重要意义。但是，告警之间存在复杂因果关联关系，并且单个时段存在大量告警，这使得识别根因告警成为一项困难且耗时繁重的任务。

目前，学术界对于故障定位和根因分析任务的研究主要集中在因果关系和解释，运用条件独立测试、隐马尔科夫模型等侧重统计学的方法解决，获得完整的因果关联图。在现实场景中，除响应的准确率外，响应时间也是重要因素，但是因果推断方法的时间复杂度普遍较高；并且，根因识别任务无需确定完整的因果关联图，只需根据推测的根因告警信息即可进行故障修复。工业界完成根因识别任务的主要技术为专家系统，依赖于专家的经验和技术，但难以及时进行更新迭代，难以满足用户对识别准确率的要求。由于近年来数据存储和计算成本呈指数级下降，告警数据的存储和分析处理难度降低，鉴于上述情况，基于数据驱动的机器学习方法开始融入根因识别的方法之中，使提高根因识别的准确率、故障处理的响应速度和提升方案的更新能力成为可能。

发明内容

针对上述问题，本发明提供了一种使用时序信息的平移向量进行语义因果关系传递的图卷积网络根因识别方法，该方法可以学习告警之间的因果关联关系，构建因果关系表示，从而精准有效地在海量告警中捕捉根因告警。

为达到上述目的，本发明采用如下技术方案来实现的：

基于因果语义关系传递的图卷积网络根因识别方法，该方法在知识图谱嵌入模型的启发下，基于因果语义关系传递的图卷积网络根因识别方法假设根因识别问题中的切片样本内告警和根因告警存在因果关系，并且因果关联网络同构，即：因果关系向量r、样本序列在因果关系空间表示x^seq以及序列的根因告警在因果关系空间表示构成三元组满足关系结合概率统计知识、基于均值聚合器的GraphSAGE图卷积网络模型以及语义关系传递模块搭建基于因果语义关系传递的图卷积网络根因识别方法。

本发明进一步的改进在于，具体包括以下步骤：

1)数据特征选取及预处理：

选取告警细节属性作为输入数据在时间顺序下进行语义分析，基于GloVe模型提取告警细节的词向量表示；

2)全局因果关联先验邻接矩阵生成：

将训练集作为先验信息，计算两个告警x_i,x_j在同一样本中出现时告警x_i为根因告警的频率，生成全局因果关联先验邻接矩阵；

3)因果关联邻接矩阵生成：

采取的因果关联邻接矩阵生成方法考虑语义和概率两个部分，使用全连接神经网络和激活函数进一步提取告警在关系层面的特征，结合范数获取语义邻接矩阵；将全局因果关联先验邻接矩阵作为概率邻接矩阵和权重矩阵，联合语义邻接矩阵生成因果关联邻接矩阵；

4)序列特征表示和告警特征表示学习：

由于单个切片样本内告警存在时序关系，因此首先使用双向LSTM网络即BiLSTM学习告警的时序特征表示；此外，考虑告警之间存在的因果图结构，将步骤3)中生成的因果关联邻接矩阵作为告警因果关联的网络拓扑结构，选取深层均值聚合器的GraphSAGE图卷积网络模型分别学习各个告警的特征表示；

5)因果语义关系传递模块：

将样本序列和样本中各告警的特征表示投影到低维因果关系空间，在假设因果关系r、样本序列在因果关系空间表示x^pool以及序列的根因告警在因果关系空间表示构成三元组满足关系的前提下，运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式，预测序列中各个告警为根因告警的概率，完成根因告警的识别。

本发明进一步的改进在于，步骤1)的具体操作为：告警数据中的告警细节属性对应时段内包含专家知识的故障或异常的语言描述，语义信息含有告警之间关系的隐式信息；选取告警细节属性作为输入数据在时间顺序下进行语义分析，将告警细节作为词表示模型中的分词，切片样本内告警细节组成的序列集合构成词表示模型的语料库，基于GloVe模型提取告警细节的词向量表示。

本发明进一步的改进在于，步骤2)的具体操作为：基于训练集先验信息，采用确定概率的频率方法，获取告警之间的因果频率，生成全局因果关联先验邻接矩阵。

本发明进一步的改进在于，步骤3)的具体操作为：因果关联邻接矩阵作为图卷积网络的输入数据之一，为模型提供图中节点之间的邻接信息；因果邻接矩阵生成考虑语义和概率两个部分，语义部分结合全连接层和激活函数学习告警的加权词向量表示，获取向量之间的2-范数，表示告警之间的相似关系，近似语义因果关联关系，生成语义邻接矩阵；概率部分则采用步骤2)中的全局因果关联先验邻接矩阵，作为因果关联邻接矩阵的权重矩阵；因果关联邻接矩阵则由语义邻接矩阵和概率邻接矩阵联合生成。

本发明进一步的改进在于，步骤5)的具体操作为：知识图谱嵌入模型的启发下，假设根因识别问题中的切片样本内告警和根因告警存在因果关系，并且因果关联网络同构，即：因果关系向量r、样本序列在因果关系空间表示x^seq以及序列的根因告警在因果关系空间表示构成三元组满足关系

首先，为获取序列和根因告警的特征表示，将步骤4)中生成的因果关联邻接矩阵作为告警因果关联的网络拓扑结构，选取深层均值聚合器的GraphSAGE图卷积网络模型进行学习；为统一特征表示向量所属空间，样本序列特征表示向量和样本中各个告警的特征表示向量分别通过全连接层和激活层投影到低维因果关系空间；之后考虑不同三元组因果关系表示的特殊性，因果关系与序列相关，根据样本序列在因果关系空间表示x^seq、样本序列表示及根因概率向量P，运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式：

其中，为切片序列的矩阵表示，为切片序列中第i个告警的向量表示；P＝[P₁…P_l]为告警的根因概率向量，P_i表示训练集统计的告警i在切片样本中为根因告警的频率；l为告警切片中的告警数量，[；]为concatenate操作，·为Hadamard乘法；

最终采用2-范数对比序列根因告警预测值x^seq+r与根因告警在因果关系空间表示作为当前方法的输出，预测序列中各个告警为根因告警的概率。

本发明至少具有如下有益的技术效果：

本发明提供一种基于因果语义关系传递的图卷积网络根因识别方法，该方法提出告警的因果关系模拟，提升了方法的可解释性，提升了海量告警中识别根因告警、捕捉根本问题的效率和准确率，同时节省了在现实场景处理IT或CT领域告警根因识别问题过程中投入的人力物力。对比分析无论是训练集还是测试集本发明的算法的准确率远高于其他四种PCMCI、SVM、CNN、Random Forest算法，在训练集上可达到99.6％，在测试集可达到99.8％。训练速度方面远快于PCMCIplus算法。相对于其它方法，本发明提出的方法在无需专家知识的前提下可快速且准确的识别出根因告警，从而可以定位通信过程中的关键问题便于后续针对性解决处理。

附图说明

图1为基于因果语义关系传递的图卷积网络根因识别方法的整体框架；

图2为基于因果语义关系传递的图卷积网络根因识别方法模块示意图；

图3为本方法与其他对比方法对根因告警进行识别的准确率对照图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

参考图1，在通信系统的运维领域，为保障设备的正常运转和服务的正常进行，设备或服务发生故障时会触发系统告警用于定位故障。但是，单个故障会触发大量告警，因此识别根因告警可以快速定位故障并且后续进行针对性修复。对于故障定位和根因分析问题，学术界的研究主要关注因果推断方法的因果关系和解释性，但是因果推断方法的时间复杂度普遍较高；工业界的主要技术为专家系统，依赖于专家的经验和技术，但难以及时进行更新迭代，难以满足用户对识别准确率的要求。

综合上述情况，本发明提出一种基于因果语义关系传递的图卷积网络根因识别方法。本发明将不同时段告警触发的一系列告警视为不同的会话切片序列，除根因告警外会话内包含大量告警，并且每个告警具有时间、告警名称、告警细节描述、会话类型等属性。由于告警细节描述属性为文本描述涵盖大量背景知识关系信息，因此本发明将会话的告警细节描述属性作为输入。本发明通过概率估计和关联学习获取告警之间的因果关联邻接矩阵，同时借助邻接矩阵和语义信息学习文本类型的告警和序列的特征表示，搭建告警之间的因果语义关系及关系传递模块，从而精准有效地在海量告警中捕捉根因告警。

参考图1和图2，本发明利用概率信息和文本语义信息，使用概率统计知识、基于均值聚合器的GraphSAGE模型(简称为naSAGE)以及语义关系传递模块搭建基于因果语义关系传递的图卷积网络根因识别方法，快速准确地定位根因告警，以便针对性快速修复故障。

首先，由于当前方法为数据驱动方法，在数据量充足的情况下，概率信息可以作为先验知识指导进行特征学习；其次，告警细节标签描述了时段内故障或异常的包含专家知识和逻辑关系，因此语义信息也可以指导特征学习；此外，由于告警之间存在复杂的因果关联关系，告警之间的关系结构可以视为因果关系图，因果关系图也可以指导特征学习，因此方法中的特征表示学习部分主要采用naSAGE图卷积网络，将因果图结构作为告警节点之间的邻接信息进行图中节点的表示学习。

基于上述方法，本发明主要包含四个模块：数据预处理模块、因果关联邻接矩阵生成模块、特征表示学习模块和因果语义关系传递模块。其中，第一个模块选取告警细节属性作为输入数据在时间顺序下进行语义分析，基于GloVe模型提取告警细节的词向量表示(注：图2中未包含模块一，矩阵X为GloVe模型训练后的告警的词向量表示矩阵)。第二个模块基于训练集先验信息，考虑语义和概率两个部分，分别采用确定概率的频率方法、全连接神经网络和激活函数进一步提取告警在关系层面的特征，联合生成因果关联邻接矩阵。第三个模块将模块二生成的因果关联邻接矩阵作为网络拓扑信息，使用BiLSTM和naSAGE模型学习告警的特征表示。第四个模块根据告警表示和因果关联邻接矩阵信息学习样本序列和样本中各告警的特征表示，再投影到低维因果关系空间，在假设因果关系r、样本序列在因果关系空间表示x^pool以及序列的根因告警在因果关系空间表示构成三元组满足关系的前提下，运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式，预测序列中各个告警为根因告警的概率，完成根因告警的识别。

具体来说，各个模块的进一步详细描述如下：

模块一——数据预处理

GloVe模型是一种用于获取单词向量表示的无监督学习算法，对来自语料库的汇总的全局单词-单词共现统计信息和局部的上下文特征信息进行训练。为了将文本形式的告警细节属性转换为数值矩阵形式，选取告警细节属性作为输入数据在时间顺序下进行语义分析，将告警细节作为GloVe模型中的分词，切片样本内告警细节组成的序列集合构成GloVe模型的语料库，基于GloVe模型学习告警细节属性的词向量表示x_i，其中i＝1,…,d，d表示非重复告警细节属性个数。

模块二——因果关联邻接矩阵生成

因果关联邻接矩阵作为图卷积网络的输入数据之一，为模型提供节点的结构信息，根据节点的结构关系进行卷积。由于数据量充足时频率近似概率，共现统计频率在一定程度可以反映因果关系的概率；又由于告警细节标签描述了时段内故障或异常的包含专家知识和逻辑关系，因此本方法的因果邻接矩阵生成模块考虑概率和语义两个部分。

概率部分采用确定概率的频率方法，将训练集作为先验信息，计算两个告警x_i,x_j在同一样本中出现时告警x_i为根因告警的频率：

(告警i是根因|告警i,j在同序列中出现)

生成全局因果关联先验邻接矩阵A^prob。

语义部分结合全连接层和激活函数学习告警的加权词向量表示，获取向量之间的2-范数，表示告警之间的相似关系，近似语义因果关联邻接关系。距离越近，则两个词表示之差的范数越小，其对应邻近关系的概率越大，生成语义邻接矩阵A^sem：

其中x_i为序列中第i个告警在GloVe预处理后的词表示，W₁,W₂为两个权重矩阵，‖·‖₂为2-范数。

因果关联邻接矩阵A则由语义邻接矩阵和概率邻接矩阵联合生成：

A＝A^sem·A^prob

其中(·)表示矩阵点乘，为元素导向乘积。

模块三——特征表示学习

由于单个切片样本内告警存在时序关系，因此首先使用双向LSTM网络(BiLSTM)学习告警的时序特征表示。此外，考虑告警之间存在的因果图关系，选取深层均值聚合器的GraphSAGE图卷积网络模型(naSAGE)，将因果关联邻接矩阵作为告警因果关联的网络拓扑结构，分别学习告警的特征表示。

naSAGE模型的层数设置根据对比实验确定，设置为2层。预处理模型可以表示为：

X_pre＝naSAGE(naSAGE(LSTM(X)))

naSAGE模型为GraphSAGE模型中提到的均值聚合器GCN。均值聚合GCN的结点状态更新策略为对结点及其邻居结点集合进行均值计算，并进行线性加权计算得到最终结果，具体表示如下：

其中N(v)为结点v的邻居结点集合。

模块四——因果语义关系传递

在知识图谱嵌入模型的启发下，假设根因识别问题中的切片样本内告警和根因告警存在因果关系，并且因果关联网络同构，即：因果关系向量r、样本序列在因果关系空间表示x^seq以及序列的根因告警在因果关系空间表示构成三元组满足关系：

若应用上述假设预测识别结果，则需要确定三元组元素的表示。模块继续沿用naSAGE模型分别学习样本序列特征表示和样本中各个告警的特征。

告警特征表示学习继续使用2层naSAGE模型，可以表示为：

序列特征则为序列的整体特征，首先使用naSAGE模型训练序列表示，再结合最大池化方法，确定序列的最显著特征表示，序列特征向量可以表示为：

为统一特征表示的位置空间，首先将学习的样本序列特征表示和样本中各个告警的特征表示分别通过全连接层和激活层投影到低维因果关系空间，得到低维因果关系空间样本序列特征表示x^seq和告警的特征表示矩阵X^root：

其中，W_seq和W_root分别表示序列空间到因果关系空间的投影矩阵，b_seq和b_root为投影偏差。

之后考虑不同三元组因果关系表示的特殊性，与传统的知识图谱不同，根因数据的head entity对应输入的切片告警，切片告警为序列形式而非单一元素，且切片告警存在时序属性，因此使用BiLSTM模型学习切片内告警的上下文信息。此外，由于告警的根因概率向量可以反映告警为根因告警的水平，根因概率视为根因(tail entity)层面的信息，因此时序因果模型将其视为权重参数加权作用于时序分析后的切片表示，时序因果关系的计算如下：

其中，为告警切片的矩阵表示，为告警切片中第i个告警的向量表示；P＝[P₁…P_l]为告警的根因概率向量，P_i表示训练集统计的告警i在告警切片中为根因告警的概率；l为告警切片中的告警数量，·为Hadamard乘法。

由于根因概率向量的元素为经验统计值，且与训练集密切相关，在测试过程中缺乏泛化能力，因此使用与根因概率无关的均值操作同时处理切片序列中告警表示，与上述时序因果关系表示r₁结合，得到因果关系的表示如下：

r＝W₂[r₁；r′]

其中，为切片序列的矩阵表示，为切片序列中第i个告警的向量表示；l为告警切片中的告警数量，[；]为concatenate操作，·为Hadamard乘法。

最终，为了确定序列的预测结果，即当前序列预测的根因告警对应序列中的某个具体告警，考虑将投影到关系空间的序列向量与序列中各个根因告警向量对比，采用相似度计算的方法，相似度越接近则说明序列与该告警越相似，将其作为根因告警预测的结果，具体的表达式如下：

其中，为序列根因的近似表示；为切片中第i个告警的根因告警表示。

参考图3，为SVM、CNN、Random Forest(简记为RF)以及本发明提出的算法在通信系统的运维领域训练数据集以及测试数据集上根因识别准确率的对比。此外，本发明还选用PCMCI、PCMCIplus算法作为对比算法，前者训练集准确率为24.6％、测试集准确率为25.0％，后者由于训练时间过长未输出结果。从图中可以看出无论是训练集还是测试集本发明的算法的准确率接近100％，远高于其他算法，在训练集上可达到99.6％，在测试集可达到99.8％。相对于其它算法，本发明提出的算法可快速且准确的识别出根因告警，从而可以定位通信过程中的关键问题便于后续针对性解决处理。

Claims

1.基于因果语义关系传递的图卷积网络根因识别方法，其特征在于，该方法在知识图谱嵌入模型的启发下，基于因果语义关系传递的图卷积网络根因识别方法假设根因识别问题中的切片样本内告警和根因告警存在因果关系，并且因果关联网络同构，即：因果关系向量r、样本序列在因果关系空间表示x^seq以及序列的根因告警在因果关系空间表示构成三元组满足关系结合概率统计知识、基于均值聚合器的GraphSAGE图卷积网络模型以及语义关系传递模块搭建基于因果语义关系传递的图卷积网络根因识别方法；具体包括以下步骤：

1)数据特征选取及预处理：

选取告警细节属性作为输入数据在时间顺序下进行语义分析，基于GloVe模型提取告警细节的词向量表示；具体操作为：告警数据中的告警细节属性对应时段内包含专家知识的故障或异常的语言描述，语义信息含有告警之间关系的隐式信息；选取告警细节属性作为输入数据在时间顺序下进行语义分析，将告警细节作为词表示模型中的分词，切片样本内告警细节组成的序列集合构成词表示模型的语料库，基于GloVe模型提取告警细节的词向量表示；

2)全局因果关联先验邻接矩阵生成：

将训练集作为先验信息，计算两个告警x_i,x_j在同一样本中出现时告警x_i为根因告警的频率，生成全局因果关联先验邻接矩阵；具体操作为：基于训练集先验信息，采用确定概率的频率方法，获取告警之间的因果频率，生成全局因果关联先验邻接矩阵；

3)因果关联邻接矩阵生成：

采取的因果关联邻接矩阵生成方法考虑语义和概率两个部分，使用全连接神经网络和激活函数进一步提取告警在关系层面的特征，结合范数获取语义邻接矩阵；将全局因果关联先验邻接矩阵作为概率邻接矩阵和权重矩阵，联合语义邻接矩阵生成因果关联邻接矩阵；具体操作为：因果关联邻接矩阵作为图卷积网络的输入数据之一，为模型提供图中节点之间的邻接信息；因果邻接矩阵生成考虑语义和概率两个部分，语义部分结合全连接层和激活函数学习告警的加权词向量表示，获取向量之间的2-范数，表示告警之间的相似关系，近似语义因果关联关系，生成语义邻接矩阵；概率部分则采用步骤2)中的全局因果关联先验邻接矩阵，作为因果关联邻接矩阵的权重矩阵；因果关联邻接矩阵则由语义邻接矩阵和概率邻接矩阵联合生成；

4)序列特征表示和告警特征表示学习：

5)因果语义关系传递模块：

将样本序列和样本中各告警的特征表示投影到低维因果关系空间，在假设因果关系r、样本序列在因果关系空间表示x^pool以及序列的根因告警在因果关系空间表示构成三元组满足关系的前提下，运用BiLSTM模型、概率加权策略以及拼接策略得到最终的因果关系向量表达式，预测序列中各个告警为根因告警的概率，完成根因告警的识别；具体操作为：知识图谱嵌入模型的启发下，假设根因识别问题中的切片样本内告警和根因告警存在因果关系，并且因果关联网络同构，即：因果关系向量r、样本序列在因果关系空间表示x^seq以及序列的根因告警在因果关系空间表示构成三元组满足关系

其中，为切片序列的矩阵表示，为切片序列中第i个告警的向量表示；P＝[P₁ … P_l]为告警的根因概率向量，P_i表示训练集统计的告警i在切片样本中为根因告警的频率；l为告警切片中的告警数量，[；]为concatenate操作，·为Hadamard乘法，W₂为权重矩阵；