CN110704616B - 设备告警工单识别方法及装置 - Google Patents
设备告警工单识别方法及装置 Download PDFInfo
- Publication number
- CN110704616B CN110704616B CN201910847257.3A CN201910847257A CN110704616B CN 110704616 B CN110704616 B CN 110704616B CN 201910847257 A CN201910847257 A CN 201910847257A CN 110704616 B CN110704616 B CN 110704616B
- Authority
- CN
- China
- Prior art keywords
- work order
- type
- alarm
- equipment
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供一种设备告警工单识别方法及装置,其中,该方法包括:获取预设场景的待识别设备告警工单内容;将预设场景的待识别设备告警工单内容输入工单类型识别模型,得到待识别设备告警工单的类型;所述工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,所述类型均衡的子训练集根据历史不均衡类型告警工单样本数据处理得到。上述技术方案提高了设备告警工单类型识别的准确率和效率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种设备告警工单识别方法及装置。
背景技术
设备运行过程中,在监控到设备出现运行异常等情况时,生成告警工单。目前,特别在集团型企业内生成的告警工单越来越庞大,在对大量的告警工单进行分类的过程中,对告警工单的类型进行识别主要是通过人工等普通方法进行的,该普通方法不能够对告警工单的类型进行正确识别,导致对告警工单分类错误,还需要核查告警工单类型识别的正确性,效率也低。
针对上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种设备告警工单识别方法,用以提高设备告警工单识别的准确率和效率,该方法包括:
获取预设场景的待识别设备告警工单;
将预设场景的待识别设备告警工单输入工单类型识别模型,得到待识别设备告警工单的类型;所述工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,所述类型均衡的子训练集根据历史不均衡类型告警工单样本数据处理得到。
本发明实施例还提供了一种设备告警工单识别装置,用以提高设备告警工单识别的准确率和效率,该装置包括:
获取单元,用于获取预设场景的待识别设备告警工单;
识别单元,用于将预设场景的待识别设备告警工单输入工单类型识别模型,得到待识别设备告警工单的类型;所述工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,所述类型均衡的子训练集根据历史不均衡类型告警工单样本数据处理得到。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述设备告警工单识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述设备告警工单识别方法的计算机程序。
本发明实施例提供的技术方案:
首先,由于发明人发现了历史告警工单样本数据为不均衡类型样本数据的技术问题,因此提出:根据对历史不均衡类型告警工单样本数据进行处理,得到多个类型均衡的子训练集,再根据多个类型均衡的子训练集预先训练生成工单类型识别模型,利用该工单类型识别模型对于待识别设备告警工单进行识别,得到待识别设备告警工单的类型,提高了设备告警工单识别的准确率,同时,省去了核查告警工单类型识别的正确性的步骤,也就提高了设备告警工单识别的效率。
其次,该工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,基于考虑了场景的工单类型识别模型,识别待识别设备告警工单的类型,也提高了设备告警工单识别的准确率。
综上,本发明实施例提供的技术方案提高了设备告警工单识别的准确率和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施中设备告警工单识别方法的流程示意图;
图2是本发明实施中设备告警工单的流程示意图;
图3是本发明实施中历史不均衡类型告警工单样本数据的示意图;
图4是本发明实施中工单类型识别模型的原理示意图;
图5是本发明实施中工单类型识别模型包括的一个分类器模型的原理示意图;
图6是本发明实施中XGBoost识别模型优点的原理示意图;
图7是本发明实施中设备告警工单识别装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
发明人发现技术问题:现有告警工单数据为类型不均衡的数据集。由于发明人发现该技术问题,提出了一种针对不均衡类别的告警工单进行识别的方案,进而根据识别结果,对告警工单进行分类。该方案包括:根据历史告警工单分类数据得到训练集,该训练集是由历史告警工单所得,以温度类为例,细分为不同类别的告警工单,分别为不干预类、确认业务状态回单类、转人工干预类。该类型的文本解析分类属于自然语言处理范畴中的短文本分类。根据历史告警工单类别进行统计分布发现训练集为不均衡数据集,对于不均衡数据集的分类的处理是难点。根据所述训练集通过文本表示、学习分类,生成针对不均衡数据集的分类器,提高自动分类正确率。根据目标告警工单的内容通过所述分类器对目标告警工单进行分类,得到告警工单分类结果,解决了现有自然语言处理之不均衡类别文本分类技术中存在的分类效率低以及准确性低的技术难点。
具体地,本发明涉及数据处理技术领域、自然语言处理领域,尤其是涉及一种不均衡类别的告警工单分类方法及装置。电子工单告警的分类目前是手工分类,以温度类工单为例,温度类工单的处理分为3类,不干预类、确认业务状态回单类、转人工干预类。且类别1不干预类的占比远远大于类别2确认业务状态回单类和类别3转人工干预类,随机选出数据集中类别1的占比为类别3的10倍,为类别2的5倍左右。若使用普通的分类方法分类召回率很低,不能够对告警工单进行正确识别及后续进行分类,随着工单数据的与日俱增,工单数据量越来越庞大,若能使用适合该场景(不均衡的工单类型场景)的机器学习的方法实现正确的自动分类,能大大提高效率,节省时间。下面对该设备告警工单识别方案进行详细介绍。
图1是本发明实施中设备告警工单识别方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101:获取预设场景的待识别设备告警工单;
步骤102:将预设场景的待识别设备告警工单输入工单类型识别模型,得到待识别设备告警工单的类型;所述工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,所述类型均衡的子训练集根据历史不均衡类型告警工单样本数据处理得到。
本发明实施例提供的技术方案:
首先,由于发明人发现了历史告警工单样本数据为不均衡类型样本数据的技术问题,因此提出:根据对历史不均衡类型告警工单样本数据进行处理,得到多个类型均衡的子训练集,再根据多个类型均衡的子训练集预先训练生成工单类型识别模型,利用该工单类型识别模型对于待识别设备告警工单进行识别,得到待识别设备告警工单的类型,提高了设备告警工单识别的准确率,同时,省去了核查告警工单类型识别的正确性的步骤,也就提高了设备告警工单识别的效率。
其次,该工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,基于考虑了场景的工单类型识别模型,识别待识别设备告警工单的类型,也提高了设备告警工单识别的准确率。
综上,本发明实施例提供的技术方案提高了设备告警工单识别的准确率和效率。
具体实施时,本发明实施例涉及的告警工单的含义是:企业,例如集团企业会对各地区的设备进行监控,若设备发生故障时,会向集团统一管理平台发送告警工单,集团根据告警工单的具体内容进行反馈,例如告警工单的内容及字段截图如图2所示。
具体实施时,本发明实施例涉及的预设场景的含义是:包括温度类场景,该温度类表示该告警工单是有温度引起的告警,还包括:其他场景类型,例如性能类场景、流量类场景。
具体实施时,本发明实施例涉及的工单类型的含义是:以温度类为例,包括:不干预类、确认业务状态回单类、转人工干预类;其中:不干预类表示包括处理中、省自动无效内容反馈;确认业务状态回单类表示包括确认业务状态及咨询是否回单,查无告警;转人工干预类表示工单需割接、调度、板卡返修等符合挂起条件、空调问题等短时间无法处理好的情况。需集团帮忙挂起工单。举例如下,例如不干预类内容示例:“正在处理”;确认业务状态回单类内容示例:“郑州现场查看机房温度正常,设备温度正常”;转人工干预类内容示例:“烦请集团酌情挂起工单”。
具体实施时,本发明实施例中提到的分类器可以指的是工单类型识别模型。工单分类器模型可以指的是工单识别模型。
下面结合图2至图7,对本发明实施例提供的设备告警工单识别方法涉及的各个步骤进行详细介绍。
一、首先介绍,预先训练生成所述工单类型识别模型的步骤。
在一个实施例中,可以按照如下方法预先训练生成所述工单类型识别模型:
获取历史不均衡类型告警工单样本数据;所述历史不均衡类型告警工单样本数据包括告警工单内容及其对应的类型;历史不均衡类型告警工单样本数据包括多个类型不均衡的告警工单样本数据;
对所述多个类型不均衡的告警工单样本数据进行处理,确定每一类型告警工单样本的数量;
将样本数量最少的告警工单类型样本复制成预设份数;将其他每一类型的告警工单样本数据抽样分成所述预设份数,且每一份数量与样本数量最少告警工单类型样本数量相同;
按照如下方法形成多个类型均衡的子训练集:将样本数量最少的告警工单类型样本的一份与其他每一类型的告警工单样本数据的一份组合形成一个子训练集,依次类推组成多个类型均衡的子训练集;
对每一子训练集,进行训练,生成基识别模型;
根据多个基识别模型,生成所述工单类型识别模型。
下面对该生成工单类型识别模型的详细步骤进行介绍。
1、首先,介绍将类型不均衡的告警工单样本数据处理成类型均衡的子训练集的步骤。
具体实施时,根据历史不均衡告警工单样本数据得到均衡的训练集,所述历史不均衡工单样本数据包括工单内容与历史告警工单类型,得到的训练集为指定份数的均衡数据集。对告警工单数据进行多次有放回的过抽样,具体的,将数量较少的工单类型作为基准,对其他类别的工单进行抽样基准数量的指定份数,最终得到指定份数的均衡类别的样本。
具体实施时,上述历史不均衡告警工单数据部分截图如图3所示,包含两列,反馈内容和标签。其中label列中的1,2,3分别表示不干预类、确认业务状态回单类、转人工干预类。统计出类别最少的工单类型,若最少类别为类别3,共2000条样本。以该工单类别为基准,对其他类别的工单进行抽样基准数量的指定份数例如10份,则需要分别有放回的随机抽样出类别1和类别2,20000条样本,然后将这些样本分为10份,每一份都包含相同数量的类别1,2,3样本组合得到新的子训练集。
2、其次,介绍利用上述得到的子训练集训练得到工单类型识别模型的过程。
具体实施时,针对每一份子训练集通过文本表示、学习分类,生成告警工单分类器(工单类型识别模型),具体的,对于每一份训练集均需要通过文本表示、学习分类训练生成基分类器。每一个训练集进行增加用户词典、文本分词、去停用词、去低频词、特征工程,进一步使用多个XGBoost(Extreme Gradient Boosting/极限梯度提升)分类器,组合生成告警工单分类器。下面介绍详细过程。
(1)首先,介绍生成一个基识别模型(一个分类器)。
在一个实施例中,对每一子训练集,进行训练,生成基识别模型,可以包括:
对每一子训练集的每一告警工单样本数据进行分词,得到第一词语集合;
对所述第一词语集合中的词语进行去除停用词处理,得到第二词语集合;
对所述第二词语集合中的词语进行去除低频词处理,得到第三词语集合;
对所述第三词语集合中的词语构建特征向量;
根据特征向量及对应的工单类型进行训练,生成基识别模型。
具体实施时,对每一份训练数据集(子训练集)进行以下操作:
①科研利用隐马尔科夫模型,对训练集每一条记录进行分词,分词时加入用户词典,获取词语集合(第一词语集合),例如将“请集团查看是否恢复”被切分为“请/集团/查看/是否/恢复”。
②对①中(第一词语集合中)分词结果去除停用词后获取词语集合(第二词语集合),停用词是自然语言中没有实际含义的词,例如一些功能词、限定词、数字标点符号等。
③对②中(第二词语集合中)词语集合去除低频词后获取词语集合(第三词语集合),例如可以去掉词频小于2的单词,有益于提取重要的词用于分析。
④对③中(第三词语集合中)词语集合构建特征向量(具体可以生成一个如图4所示的特征向量模型,用于后续对待识别设备告警工单进行特征向量转换),可将工单文本内容转换为向量格式,作为分类算法(具体可以构建一个如图4所示的分类器模型,也可以称为工单识别模型,该工单识别模型的结构示意图可以如图5所示)的输入。
⑤将④中的特征向量及对应的其工单类别数据集作为XGBoost(ExtremeGradient Boosting/极限梯度提升)分类器的输入。
(2)接着,介绍根据多个基识别模型,生成所述工单类型识别模型的过程,该过程即为综合上述“(1)⑤”的分类器组合生成告警工单分类器(工单类型识别模型)。
在一个实施例中,对每一子训练集,进行训练,生成基识别模型,可以包括:对于每一子训练集,进行训练,生成XGBoost识别模型;
根据多个基识别模型,生成所述工单类型识别模型,可以包括:根据多个XGBoost识别模型,生成所述工单类型识别模型。
具体实施时,利用特征向量及对应的其工单类别数据集,训练多个分类器(基识别模型),可以为XGBoost(Extreme Gradient Boosting/极限梯度提升)基识别模型,XGBoost算法的主要思想是建立K个CART树,使得树群的预测值尽量接近真实值(准确率)而且有尽量大的泛化能力。XGBoost算法(Extreme Gradient Boosting/极限梯度提升)相对于其他算法的优势,XGBoost优势如下。
XGBoost(Extreme Gradient Boosting/极限梯度提升)是Gradient Boosting(梯度提升)算法的一种更先进和更有效的实现。相对于其它Boosting(提升)技术的优点:速度比普通的Gradient Boosting(梯度提升)快10倍,因为其可以实现并行处理。XGBoost(Extreme Gradient Boosting/极限梯度提升)优于GBDT(Gradient Boosting DecisionTree,梯度提升树)的一个特性是它在代价函数中加入了正则化项,用于控制模型的复杂度,新增的是叶子节点输出L2平滑。新增了shrinkage(收缩)和column subsampling(列特征抽样),为了防止过拟合。
XGBoost原理如下:对于一个给定n个样本和m个特征的数据集D=(xi,yi)(|D|=n,xi∈Rm,yi∈R)一个tree ensemble model(树集成模型)使用K个累加的函数来预测输出:
其中:F=f(x)=wq(x)(q:R→T,w∈RT)是CART树(Classification and RegressionTrees分类与回归树)的空间。其中q代表每个树的结构其可以将每个样本映射到对应的节点中,T是树中叶子节点的个数。每个fk对应于一个独立的树结构q和叶子权重w。不同于决策树,每个回归树在每一个叶节点上包含一个连续分数值,wi代表第i个节点的分数。wq(x)是对样本x的打分,即模型预测值。对于每个样本使用多个树中决策规则来将它分类到叶节点中,并通过累加对应叶子中的分数w来获得最终的预测(每个样本的预测结果就是每棵树预测分数的总和,如图6所示)。
为了学习模型中使用的函数集合,需要最小化下列正则化目标:
其中l是一个可微凸损失函数,度量预测值与目标值之间的差。第二项Ω惩罚模型的复杂度(所有回归树的复杂度之和)。该项中包含了两个部分,一个是叶子结点的总数,一个是叶子结点得到的L2正则化项。这个额外的正则化项能够平滑每个叶节点的学习权重来避免过拟合。正则化的目标将倾向于选择采用简单和预测函数的模型。当正则化参数为零时,这个函数就变为传统的gradient tree boosting(梯度提升树)。
除了正则化目标,还另外使用了两种技术来进一步防止过度拟合。第一种技术是收缩(Shinkage),在tree boosting的每个步骤之后,收缩比例通过因子η新增加权重。与随机优化中的学习速率类似,shinkage降低了每棵独立树的影响,并为将来的树木留出了空间来优化模型。第二种技术是列特征抽样(Column Subsampling)。使用列抽样比传统的行抽样更加能够防止过度拟合,而且还加速了并行算法的计算。
综上所述,以上XGBoost的优势能有效处理不均衡数据集,防止过拟合。因此,针对本发明“不均衡数据集”的特殊性,选用XGBoost识别模型最为合适,提高了设备告警工单类型识别的准确率和效率。
二、其次,介绍上述步骤101。
获取预设场景的待识别设备告警工单内容,即目标告警工单内容。
三、接着,介绍上述步骤102。
具体实施时,根据目标告警工单内容通过不均衡分类器(工单类型识别模型)对目标告警工单进行分类(识别,进而实现分类),得到告警工单分类结果。
在一个实施例中,将预设场景的待识别设备告警工单输入工单类型识别模型,得到待识别设备告警工单的类型,可以包括:
将预设场景的待识别设备告警工单内容转换为特征向量;
根据所述特征向量,得到待识别设备告警工单的类型。
具体实施时,如图4所示,将目标告警工单内容输入到分类装置(上文提到的工单类型识别模型、告警工单分类器)中,即可获取目标告警工单的类型。分类装置可以包含几个流程,如图4所示。
具体实施时,如图4所示,训练分类器(工单类型识别模型)过程中,会产生特征向量模型以及训练结果的告警工单的分类器模型,即工单类型识别模型可以包括如图4所示的特征向量模型和分类器模型。在预测目标告警工单过程中,会先调用特征向量模型,进一步调用分类器模型,最后工单类型识别模型会输出目标告警工单的类别(类型)。分类器模型的核心模块包含采样模块(获取工单内容)、分词模块(详见上述“一、2、(1)”中的介绍)和分类模块(最终确定类型识别结果,进而确定工单类别)。
综上所述,本发明实施例提出的方案:
1.利用机器学习方法代替传统人工对告警工单进行分类提高分类效率。
2.适用于不均衡数据集,解决了短文本分类不均衡数据集的技术难点。
基于同一发明构思,本发明实施例中还提供了一种设备告警工单识别装置,如下面的实施例所述。由于设备告警工单识别装置解决问题的原理与设备告警工单识别方法相似,因此设备告警工单识别装置的实施可以参见设备告警工单识别方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图7是本发明实施中设备告警工单识别装置的结构示意图,如图7所示,该装置包括:
获取单元01,用于获取预设场景的待识别设备告警工单内容;
识别单元02,用于将预设场景的待识别设备告警工单内容输入工单类型识别模型,得到待识别设备告警工单的类型;所述工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,所述类型均衡的子训练集根据历史不均衡类型告警工单样本数据处理得到。
在一个实施例中,上述设备告警工单识别装置还可以包括:训练单元,用于按照如下方法预先训练生成所述工单类型识别模型:
获取历史不均衡类型告警工单样本数据;所述历史不均衡类型告警工单样本数据包括告警工单内容及其对应的类型;历史不均衡类型告警工单样本数据包括多个类型不均衡的告警工单样本数据;
对所述多个类型不均衡的告警工单样本数据进行处理,确定每一类型告警工单样本的数量;
将样本数量最少的告警工单类型样本复制成预设份数;将其他每一类型的告警工单样本数据抽样分成所述预设份数,且每一份数量与样本数量最少告警工单类型数量相同;
按照如下方法形成多个类型均衡的子训练集:将样本数量最少的告警工单类型样本的一份与其他每一类型的告警工单样本数据的一份组合形成一个子训练集,依次类推组成多个类型均衡的子训练集;
对每一子训练集,进行训练,生成基识别模型;
根据多个基识别模型,生成所述工单类型识别模型。
在一个实例中,对每一子训练集,进行训练,生成基识别模型,可以包括:对于每一子训练集,进行训练,生成XGBoost识别模型;
根据多个基识别模型,生成所述工单类型识别模型,包括:根据多个XGBoost识别模型,生成所述工单类型识别模型。
在一个实例中,所述识别单元具体可以用于:
将预设场景的待识别设备告警工单内容转换为特征向量(即可以利用图4中特征向量模型来实现);
根据所述特征向量,得到待识别设备告警工单的类型(即可以利用图4中分类器模型来实现)。
本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
本发明实施例提供的设备告警工单识别方法及装置达到的有益技术效果是:提高了设备告警工单识别的准确率和效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种设备告警工单识别方法,其特征在于,包括:
获取预设场景的待识别设备告警工单内容;预设场景为温度类场景、性能类场景和流量类场景的不均衡的工单类型场景;告警工单为集团企业对各地区的设备进行监控,若设备发生故障时,向集团统一管理平台发送的告警工单;
将预设场景的待识别设备告警工单内容输入工单类型识别模型,得到待识别设备告警工单的类型;所述工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,所述类型均衡的子训练集根据历史不均衡类型告警工单样本数据处理得到;
所述的设备告警工单识别方法还包括:按照如下方法预先训练生成所述工单类型识别模型:获取历史不均衡类型告警工单样本数据;所述历史不均衡类型告警工单样本数据包括告警工单内容及其对应的类型;历史不均衡类型告警工单样本数据包括多个类型不均衡的告警工单样本数据;对所述多个类型不均衡的告警工单样本数据进行处理,确定每一类型告警工单样本的数量;将样本数量最少的告警工单类型样本复制成预设份数;将其他每一类型的告警工单样本数据抽样分成所述预设份数,且每一份数量与样本数量最少告警工单类型样本数量相同;按照如下方法形成多个类型均衡的子训练集:将样本数量最少的告警工单类型样本的一份与其他每一类型的告警工单样本数据的一份组合形成一个子训练集,依次类推组成多个类型均衡的子训练集;每一子训练集包含相同数量的每一类别的样本;对每一子训练集,进行训练,生成基识别模型;根据多个基识别模型,生成所述工单类型识别模型。
2.如权利要求1所述的设备告警工单识别方法,其特征在于,对每一子训练集,进行训练,生成基识别模型,包括:对于每一子训练集,进行训练,生成XGBoost识别模型;
根据多个基识别模型,生成所述工单类型识别模型,包括:根据多个XGBoost识别模型,生成所述工单类型识别模型。
3.如权利要求1所述的方法,其特征在于,对每一子训练集,进行训练,生成基识别模型,包括:
对每一子训练集的每一告警工单样本数据进行分词,得到第一词语集合;
对所述第一词语集合中的词语进行去除停用词处理,得到第二词语集合;
对所述第二词语集合中的词语进行去除低频词处理,得到第三词语集合;
对所述第三词语集合中的词语构建特征向量;
根据特征向量及对应的工单类型进行训练,生成基识别模型。
4.如权利要求1所述的设备告警工单识别方法,其特征在于,将预设场景的待识别设备告警工单内容输入工单类型识别模型,得到待识别设备告警工单的类型,包括:
将预设场景的待识别设备告警工单内容转换为特征向量;
根据所述特征向量,得到待识别设备告警工单的类型。
5.一种设备告警工单识别装置,其特征在于,包括:
获取单元,用于获取预设场景的待识别设备告警工单内容;预设场景为温度类场景、性能类场景和流量类场景的不均衡的工单类型场景;告警工单为集团企业对各地区的设备进行监控,若设备发生故障时,向集团统一管理平台发送的告警工单;
识别单元,用于将预设场景的待识别设备告警工单内容输入工单类型识别模型,得到待识别设备告警工单的类型;所述工单类型识别模型根据预设场景的多个类型均衡的子训练集预先训练生成,所述类型均衡的子训练集根据历史不均衡类型告警工单样本数据处理得到;
所述的设备告警工单识别装置还包括:训练单元,用于按照如下方法预先训练生成所述工单类型识别模型:获取历史不均衡类型告警工单样本数据;所述历史不均衡类型告警工单样本数据包括告警工单内容及其对应的类型;历史不均衡类型告警工单样本数据包括多个类型不均衡的告警工单样本数据;对所述多个类型不均衡的告警工单样本数据进行处理,确定每一类型告警工单样本的数量;将样本数量最少的告警工单类型样本复制成预设份数;将其他每一类型的告警工单样本数据抽样分成所述预设份数,且每一份数量与样本数量最少告警工单类型样本数量相同;按照如下方法形成多个类型均衡的子训练集:将样本数量最少的告警工单类型样本的一份与其他每一类型的告警工单样本数据的一份组合形成一个子训练集,依次类推组成多个类型均衡的子训练集;每一子训练集包含相同数量的每一类别的样本;对每一子训练集,进行训练,生成基识别模型;根据多个基识别模型,生成所述工单类型识别模型。
6.如权利要求5所述的设备告警工单识别装置,其特征在于,所述识别单元具体用于:
将预设场景的待识别设备告警工单内容转换为特征向量;
根据所述特征向量,得到待识别设备告警工单的类型。
7.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4任一所述方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至4任一所述方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910847257.3A CN110704616B (zh) | 2019-09-09 | 2019-09-09 | 设备告警工单识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910847257.3A CN110704616B (zh) | 2019-09-09 | 2019-09-09 | 设备告警工单识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110704616A CN110704616A (zh) | 2020-01-17 |
CN110704616B true CN110704616B (zh) | 2023-05-12 |
Family
ID=69195219
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910847257.3A Active CN110704616B (zh) | 2019-09-09 | 2019-09-09 | 设备告警工单识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110704616B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113497729A (zh) * | 2020-04-03 | 2021-10-12 | 中移动信息技术有限公司 | 告警识别模型的训练方法、告警识别的方法以及装置 |
CN112258235A (zh) * | 2020-10-28 | 2021-01-22 | 国家电网有限公司客户服务中心 | 一种电力营销稽核新业务发现方法及系统 |
CN112699944B (zh) * | 2020-12-31 | 2024-04-23 | 中国银联股份有限公司 | 退单处理模型训练方法、处理方法、装置、设备及介质 |
CN113360346B (zh) * | 2021-06-22 | 2023-07-11 | 北京百度网讯科技有限公司 | 用于训练模型的方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015225434A (ja) * | 2014-05-27 | 2015-12-14 | 三菱電機株式会社 | 入退室管理システムおよび入退室管理方法 |
CN108897798A (zh) * | 2018-06-12 | 2018-11-27 | 广东电网有限责任公司 | 用电客服工单分类方法、装置以及电子设备 |
CN109905269A (zh) * | 2018-01-17 | 2019-06-18 | 华为技术有限公司 | 确定网络故障的方法和装置 |
CN110096410A (zh) * | 2019-03-15 | 2019-08-06 | 中国平安人寿保险股份有限公司 | 告警信息处理方法、系统、计算机装置及可读存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005121639A (ja) * | 2003-09-22 | 2005-05-12 | Omron Corp | 検査方法および検査装置ならびに設備診断装置 |
US8509093B2 (en) * | 2008-03-26 | 2013-08-13 | Verizon Patent And Licensing Inc. | Outage analysis system |
CN104809226B (zh) * | 2015-05-07 | 2018-01-12 | 武汉大学 | 一种早期分类不平衡多变量时间序列数据的方法 |
CN109492091A (zh) * | 2018-09-28 | 2019-03-19 | 科大国创软件股份有限公司 | 一种基于卷积神经网络的投诉工单智能分类方法 |
CN109491914B (zh) * | 2018-11-09 | 2021-11-30 | 大连海事大学 | 基于不平衡学习策略高影响缺陷报告预测方法 |
CN109635292B (zh) * | 2018-12-05 | 2023-07-28 | 杭州东方通信软件技术有限公司 | 基于机器学习算法的工单质检方法和装置 |
-
2019
- 2019-09-09 CN CN201910847257.3A patent/CN110704616B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015225434A (ja) * | 2014-05-27 | 2015-12-14 | 三菱電機株式会社 | 入退室管理システムおよび入退室管理方法 |
CN109905269A (zh) * | 2018-01-17 | 2019-06-18 | 华为技术有限公司 | 确定网络故障的方法和装置 |
CN108897798A (zh) * | 2018-06-12 | 2018-11-27 | 广东电网有限责任公司 | 用电客服工单分类方法、装置以及电子设备 |
CN110096410A (zh) * | 2019-03-15 | 2019-08-06 | 中国平安人寿保险股份有限公司 | 告警信息处理方法、系统、计算机装置及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
柳加伟 等."告警关联规则挖掘的方法及系统".《电信技术》.2018,第18-21页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110704616A (zh) | 2020-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110704616B (zh) | 设备告警工单识别方法及装置 | |
CN111754345B (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
CN112699246A (zh) | 基于知识图谱的领域知识推送方法 | |
CN113095927B (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN109582963A (zh) | 一种基于极限学习机的档案自动分类方法 | |
CN113704389A (zh) | 一种数据评估方法、装置、计算机设备及存储介质 | |
CN115408525B (zh) | 基于多层级标签的信访文本分类方法、装置、设备及介质 | |
CN112528031A (zh) | 一种工单智能派发方法和系统 | |
CN111861690A (zh) | 账务数据核对方法及账务数据核对装置 | |
CN109271516A (zh) | 一种知识图谱中实体类型分类方法及系统 | |
CN113626607A (zh) | 异常工单识别方法、装置、电子设备及可读存储介质 | |
CN109543038B (zh) | 一种应用于文本数据的情感分析方法 | |
CN115659244A (zh) | 故障预测方法、装置及存储介质 | |
Gao et al. | An improved XGBoost based on weighted column subsampling for object classification | |
CN113469288A (zh) | 融合多个机器学习算法的高危人员预警方法 | |
CN113824580A (zh) | 一种网络指标预警方法及系统 | |
CN117574262A (zh) | 一种面向小样本问题的水声信号分类方法、系统及介质 | |
CN113259158B (zh) | 网络流量预测方法和设备、模型构建及训练方法和装置 | |
CN116432099A (zh) | 日志分类方法、装置、电子设备及存储介质 | |
CN116226747A (zh) | 数据分类模型的训练方法、数据分类方法和电子设备 | |
CN115618297A (zh) | 识别异常企业的方法及其装置 | |
CN115563225A (zh) | 基于知识图谱关系推理的电网设备故障诊断方法及系统 | |
CN114936615A (zh) | 一种基于表征一致性校对的小样本日志信息异常检测方法 | |
CN113420733A (zh) | 一种高效分布式大数据数据采集实现方法及系统 | |
CN116976339B (zh) | 一种针对高速公路的特情分析方法、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder |
Address after: Room 702-2, No. 4811, Cao'an Highway, Jiading District, Shanghai Patentee after: CHINA UNITECHS Address before: 100872 5th floor, Renmin culture building, 59 Zhongguancun Street, Haidian District, Beijing Patentee before: CHINA UNITECHS |
|
CP02 | Change in the address of a patent holder |