CN116048912B - 一种基于弱监督学习的云服务器配置异常识别方法 - Google Patents
一种基于弱监督学习的云服务器配置异常识别方法 Download PDFInfo
- Publication number
- CN116048912B CN116048912B CN202211636518.5A CN202211636518A CN116048912B CN 116048912 B CN116048912 B CN 116048912B CN 202211636518 A CN202211636518 A CN 202211636518A CN 116048912 B CN116048912 B CN 116048912B
- Authority
- CN
- China
- Prior art keywords
- server
- model
- variables
- time length
- configuration information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000015654 memory Effects 0.000 claims description 23
- 230000005856 abnormality Effects 0.000 claims description 19
- 230000002159 abnormal effect Effects 0.000 claims description 15
- 238000003066 decision tree Methods 0.000 claims description 14
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 6
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000011985 exploratory data analysis Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241000109539 Conchita Species 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 229940070527 tourmaline Drugs 0.000 description 1
- 229910052613 tourmaline Inorganic materials 0.000 description 1
- 239000011032 tourmaline Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3006—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
- G06F11/3072—Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据处理领域,具体涉及一种基于弱监督学习的云服务器配置异常识别方法主要包括以下步骤:S1:读取服务器基础配置信息,所述服务器基础配置信息包括离散变量与非离散变量,读取历史服务器使用时长;S2:将服务器基础配置信息作为CatBoost回归模型的特征变量,将历史服务器使用时长作为CatBoost回归模型的监督信息,得到服务器使用时长的预测模型;S3:将服务器基础配置信息中的非离散变量、使用服务器使用时长的预测模型得到的预期服务器使用时长作为孤立森林模型的特征变量,得到异常识别模型。本发明利用了服务器使用时长作为服务器搭配异常问题的弱监督信号,从而提升了模型的表现力。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种基于弱监督学习的云服务器配置异常识别方法。
背景技术
云计算平台也称为云平台,是指基于算力资源的服务,提供计算、网络和存储能力。算力资源可以分为硬件资源和软件资源,其中的硬件资源有服务器、存储器和CPU等,软件资源包括应用软件和集成开发环境等。用户只需要通过网络发送请求就可以从云端获取满足需求的资源到本地的计算机,所有的计算任务都是在远程的云数据中心完成。云计算平台与人们熟知的电商平台在组成上十分相似,都拥有用户、提供商、商品三大要素。在云计算平台中,用户是算力资源的使用者,其人群主要由科研人员(教师、学生等)、企业中的技术人员(软件开发、数据库管理者),以及部分有需求的大众组成,通常具备一定的计算机软硬件知识。云计算平台的提供商是算力资源的实际拥有者,往往是拥有算力基础设施的大型互联网公司。云计算平台的商品含云、网、边、端四大类,其中以云这一类别中的云服务器为主。云服务器通常分为通用云服务器和GPU云服务器,随着人工智能的发展,为了满足日益增长的神经网络训练的需求,GPU云服务器成为不可或缺的热门商品。
将合适的商品推荐给用户可以提升用户体验,是推荐系统最重要的目标。推荐系统本质上一种信息过滤系统,通过一定的算法在数据中过滤掉用户不太可能产生行为的物品,从而为用户推荐所需要的物品。推荐系统在日常生活中应用十分广泛,小到商场的捆绑销售,大到电商、新闻网站,无时不刻不在影响和改变着人们都生活方式。传统的推荐系统是基于用户的行为,通过协同过滤算法,计算商品与商品之间或是用户与用户之间的相似度,然后进行推荐。目前市场上最常见的电商平台推荐系统是以多路召回架构为基石,通过嵌入学习和知识图谱等人工智能相关的手段,提供个性化、智能化的推荐方案。然而云计算平台在用户行为、商品类型等各方面都与传统推荐系统所适用的电商平台存在一定差异,因此不能完全参考电商平台的推荐系统。计算平台用户通常购买的商品类型较少,且会较为长期的使用,像电商平台那样频繁地推荐琳琅满目的不同类型的商品并不合适。此外,云计算平台有一个很为关键的场景,即部分商品需要用户自定义相关的配置,例如购买云服务器的用户需要对磁盘容量、CPU、内存、GPU等做出选择。因此,在构建云计算平台推荐系统时需要结合平台自身的真实数据,致力于发觉各类应用场景并通过场景创新的方式将人工智能相关技术更好地落实在应用层面,从而全方位提高用户体验、给云计算平台赋能。
在上述的服务器配置选择场景中,由于用户的专业背景不同,有些用户并不知道自己的选择是否合理。例如用户在购买GPU云服务器时选择了32GB的内存,但是磁盘容量却只选择了30GB。由于选择多核高内存GPU服务器的用户大多是为了训练机器学习模型,因此若是将这样的配置直接投入使用,很快便会出现磁盘空间不足引起的各种错误。
异常检测的传统方法有以下两种:
1)基于规则的方式:根据用户可选择的配置,手动定义各类异常状况的触发条件。例如手动定义所选的内存容量与磁盘空间异常时的规则。
2)基于统计学的方式:利用统计学的指标,通过某个连续变量衡量当前用户所选的配置和绝大多数用户相比是否属于异常的。例如,统计中使用IQR方法(InterquartileRange,四分距离)或是正态分布对某一连续变量的值进行异常识别。
但这两种方法,均有一定的局限性,第一种方法有太多的主观因素,性能不稳定,且费时费力,第二种方法,模型过于粗糙,适用性不强。
发明内容
本发明的目的是解决用户云在计算平台上选择服务器这一场景下的配置搭配相关的推荐问题,提出了一种基于弱监督学习的配置搭配异常识别方案。
一种基于弱监督学习的云服务器配置异常识别方法,包括以下步骤:
S1:从历史数据中,读取服务器基础配置信息,所述服务器基础配置信息包括离散变量与非离散变量,读取历史服务器使用时长;
S2:将服务器基础配置信息作为CatBoost回归模型的特征变量,将历史服务器使用时长作为CatBoost回归模型的监督信息,得到服务器使用时长的预测模型,用于计算预期服务器使用时长;
S3:将服务器基础配置信息中的非离散变量、使用服务器使用时长的预测模型得到的预期服务器使用时长作为孤立森林模型的特征变量,得到异常识别模型;
S4:将待测试的数据中,服务器基础配置信息输入服务器使用时长的预测模型,并将得到的预期服务器使用时长作为异常识别模型的输入,同时将服务器基础配置信息中的非离散变量作为异常识别模型的输入,即可得到被识别为异常的服务器。
进一步的,
S1中还包括从历史数据中,读取用户族群信息;
S2中还包括将用户族群信息作为CatBoost回归模型的特征变量;
S4中还包括将待测试的数据中,用户族群信息输入服务器使用时长的预测模型。
进一步的,
S3中服务器基础配置信息中的非离散变量,变量间相关度低于相关度阈值的变量独立作为孤立森林模型的特征变量,变量间相关度高于相关度阈值的变量取互相之间的比例,作为孤立森林模型的特征变量。
进一步的,对所述比例进行对数转化处理后,再作为孤立森林模型的特征变量。
进一步的,所述相关度阈值为皮尔森相关系数0.25。
进一步的,所述孤立森林模型生成的异常识别模型,在其异常识别步骤增加一个条件,需同时满足预期服务器使用时长低于服务器使用时长阈值时,才能判定为异常。
进一步的,所述服务器使用时长阈值为168小时。
进一步的,所述服务器基础配置信息的离散变量为系统、架构,所述所述服务器基础配置信息的非离散变量为CPU核数、内存容量、硬盘容量、网络带宽。
进一步的,所述S2中CatBoost回归模型使用的超参数包括:迭代次数:1000,决策树结构:对称,L2正则化强度:3,决策树最大深度:6,学习率:0.0496,最大叶子数量:64。
进一步的,所述S3中孤立森林模型的超参数包括:是否使用Bootstrap:是的,污染度:0.01,最大特征数:1.0,决策树数量:1000。
有益效果:
关键点1,使用服务器使用时长作为弱监督信号。技术效果:从某种意义上说给用户推荐其能够最长期使用的商品可以被视为一种合理的推荐,因为使用时长往往与用户满意程度成正相关。往往用户发现配置不合适后会注销原服务器并重新创建新服务器,因此服务器使用时长与配置合理性存在一定的关联。但是由于部分被长时间投入使用的服务器也存在配置搭配不合理的情况,因此服务器使用时长只能作为弱监督学习中不确切监督的粗粒度信号,对服务器配置搭配的合理性进行一定程度的量化,但是不能作为服务器配置是否合理的唯一判定标准。由于用户在创建新服务器选择配置时尚未使用该服务器,因此需要基于已有的配置信息和用户自身信息对该用户使用服务器的时长做出预测。该方案中弱监督学习在具体实施时可以被拆分为有监督机器学习和无监督机器学习两个步骤(由关键点2和关键点3中阐述)。
关键点2,基于有监督学习模型CatBoost,通过服务器配置和用户族群信息对服务器的使用时长进行回归预测。技术效果:用户在使用的过程中若是发现所选的云服务器配置不合适,往往会删除已有的服务器并重新选择新的服务器,因此配置搭配不合理的服务器往往总使用时长要小于长期投入使用的配置搭配合理的服务器。因此,服务器的使用时长可以提供与配置搭配合理性相关的监督信号。本方法利用了CatBoost模型对离散变量的特殊处理机制,综合考虑了服务器使用时长相对于用户族群、操作系统等离散变量的不同分布情况。
关键点3,基于非监督学习模型Isolation Forest(孤立森林),通过服务器配置间的比例关系和基于有监督学习模型预测出的服务器使用时长,进行异常识别。技术效果:使用配置间的比例代替独立的配置信息,可以避免高配置的服务器由于数量稀少被判定为不合理的情况;特征变量中引入了预期使用时长,可以起到微弱监督信号的作用。传统的用于异常检测的非监督学习模型是基于数据点之间的距离计算密度或是分离程度(距离),而这样的计算中不同的特征变量的贡献是相同的,若是特征变量之间本身的含义或是标度差异较大,则这样的计算存在不合理性。本方法中所使用的孤立森林算法不牵涉距离、密度等指标,而是通过组合不同的随机决策树对数据分割的情况孤立出样本中的异常点。此外,由于服务器使用时长与配置搭配合理性呈正相关,因此为了避免模型将预测使用时长“过高”的样本识别为异常样本,本方案对原有的孤立森林算法做出了改进,在模型识别异常样本时除了需要满足原方法中的异常得分高于一定阈值的条件,还需要额外满足预测使用时长小于一定阈值的条件。
本发明与现有的技术相比有以下几个方面的优势:第一,相比于基于规则和统计学的识别方式而言,该方法使用了机器学习相关的技术,可以综合考虑多个特征变量以及用户群组行为习惯的差异,解决了传统异常识别模型无法处理离散变量从而可能导致建模时重要信息缺失的问题。第二,本发明利用了服务器使用时长作为服务器搭配异常问题的弱监督信号,将通过模型预测得到的预期服务器使用时长加入非监督学习的特征变量和预测结果的筛选条件中,从而提升模型的表现力。第三,本发明使用了孤立森林算法来建立非监督学习模型,该算法不需要计算有关距离、密度的指标,且由于其基于ensemble(组合模型)架构,具有线性的时间复杂度,可大幅度提升速度,减小系统开销。孤立森林算法中的每颗决策树都是独立生成的,因此可以部署在大规模分布式系统上来加速运算,相比于传统算法更具有可拓展性,更适用于大数据场景,满足数据量不断增长下的需求。
附图说明
图1方法流程图;
图2硬盘容量-内存容量比结果图;
图3硬盘容量-内存容量比的对数转化结果图;
图4硬盘容量-CPU核数比的结果图;
图5硬盘容量-CPU核数比的对数转化结果图;
图6内存容量-CPU核数比的结果图;
图7内存容量-CPU核数比的对数转化结果图;
图8服务器使用时长与比例变量log(硬盘容量:内存容量)关系图;
图9服务器使用时长与比例变量log(硬盘容量:CPU核数)关系图。
具体实施方式
1.探索性数据分析
探索性数据分析是机器学习建模不可或缺的第一步。合理的数据分析可以提升对数据的理解、指导设计特征变量以及模型的选择。在探索性数据分析阶段主要进行以下工作:
1)数据的筛选
数据来源于中科院计算所信息高铁研究院OneITLab平台的3147台服务器,其中2904台服务器已经停止使用。分析的目标为其中创建成功并有完整时间记录的1170台服务器。部分服务器为测试服务器,仅用于测试平台功能是否正常运作,在做分析时将删去。该方法中着重研究的配置有:CPU核数、内存容量、网络带宽、硬盘容量、GPU数量、操作系统、架构、GPU类型。
2)用户族群差异性分析
OneITLab中包含的用户分组有:学生、实验床用户、教师、科研人员、科研团队负责人、管理员、超级管理员,其中一个用户可以拥有多个身份。因此当一个拥有多重身份的用户创建服务器时,该服务器会被同时计入统计中。
用户分组 | CPU核数 | 内存容量 | 网络带宽 | 硬盘容量 | 服务器数量 |
学生 | 6.87 | 15.80 | 1.41 | 95.98 | 717 |
实验床用户 | 4.15 | 8.95 | 1.09 | 55.46 | 224 |
教师 | 5.49 | 13.11 | 1.46 | 79.96 | 1012 |
科研团队负责人 | 7.21 | 17.19 | 10.85 | 130.24 | 1013 |
管理员 | 5.00 | 12.98 | 0.95 | 51.85 | 324 |
超级管理员 | 7.94 | 23.21 | 1.78 | 60.16 | 107 |
表1:各用户族群的平均服务器配置
从上表中可以看出不同的用户分组所使用的平均配置存在一定的差异:科研团队负责人选择的配置较高,管理员选择的平均配置较低。
此外,熵值和吉尼系数(Gini Index)是用来衡量集合中元素混沌程度的指标,因此可以被用来衡量用户在做各种配置选择时的多样性(值越高代表更具多样性):
设集合X中的元素x1,x2,…的取值范围为v1,…,vn(共n个值),上述公式中的pi表示元素值为vi的概率,即pi=Pr(x=vi)。
表2:各用户族群服务器配置熵值
从上表中可以看出部分用户组,例如科研团队负责人,选择的配置比较多样化,而管理员、实验床用户选择的配置比较单一。
3)各配置间相关性分析
统计学中皮尔森相关系数(Pearson Correlation Coefficient)用于度量两组数据的变量X和Y之间的线性相关的程度。它是两个变量的协方差与其标准差的乘积之比,其值在-1到1之间,越接近1表示正相关性越强,越接近-1表示负相关性越强,等于0表示不相关:
表3:服务器配置见的皮尔森相关系数
整体上来看各配置之间呈正相关,其中CPU核数与内存容量的相关性高达0.97,因为用户在选择配置时CPU和内存容量往往是以组合形式出现的。
表4:各CPU核数的平均服务器配置
从上表可以看出CPU核数较小的服务器普遍不搭配GPU,且CPU核数较小的服务器数量较多。
2.服务器使用时长预测
此方案中的服务器使用时长使用CatBoost回归模型进行预测。CatBoost属于集成学习模型,使用的提升法结构,以回归决策树作为基模型,即从表现力较差的回归决策树开始,通过根据残差不断优化迭代的方式,提升模型效果、并将多个基模型组合产生最终预测结果。CatBoost使用One-Hot编码法处理低基数离散变量,以及目标变量统计法(TargetStatistics)处理高基数离散变量,相较于其它集成模型,例如随机森林和XGBoost,在离散变量处理上更为高效。
离散变量,指的是变量离散且相互比较并无意义的变量,比如这里的用户族群、系统、架构,在传统的算法中,无法处理这些离散变量从而可能导致建模时重要信息缺失的问题。非离散变量指的是其他如CPU核数、内存容量、硬盘容量、网络带宽。
本专利中,将服务器基础配置信息分为离散变量与非离散变量,例如系统、架构这两个配置,或者叫变量,属于离散变量;而CPU核数、内存容量、硬盘容量、网络带宽这几个配置,或者叫变量,就属于非离散变量。
根据第一步的分析,用户族群间,选用的配置差异很大,比如实验床用户对配置的选择比较单一,且平均配置较低,此时如果这个族群选择了配置较高的“合理配置”,仍然有很大概率属于异常状态,导致服务器使用时长非常短,因此在预测服务器使用时长的模型中,本发明将用户族群信息也作为特征变量,可以提高模型预测的准确性。
综上所述,使用CatBoost回归模型时,本实施例使用历史服务器使用时长作为监督信号,选用的特征变量及超参数为:
1)特征变量选择:
变量名称 | 例子 |
CPU核数 | 4核、8核等 |
内存容量 | 16GB、32GB等 |
系统 | Ubuntu或者CentOS |
硬盘容量 | 30GB、100GB等 |
网络带宽 | 1M、1000M等 |
用户族群 | 教师、学生、科研团队负责人等 |
架构 | X86或者ARM |
表5
2)模型超参数设置:
超参数名称 | 超参数值 |
预设离散变量 | 用户族群、系统、架构 |
迭代次数 | 1000 |
决策树结构 | 对称 |
L2正则化强度 | 3 |
决策树最大深度 | 6 |
学习率 | 0.0496 |
最大叶子数量 | 64 |
表6
(注:模型的超参数可以根据实际场景调整)
3)模型效果评估:
表7
公式:
(1)确定系数:
其中yi表示第i个实际值,表示第i个预测值,表示实际值的平均数
R2是在当前数据下衡量模型是否比常数(平均数)模型好的标准,取值在0~1之间,0代表等同于使用平均数做预测,接近1表示远优于平均数模型。
(2)加权平均绝对百分比误差:
WMAPE是衡量非负数目标的回归评估指标,反映了误差相对于实际值的比例,取值范围在0到无穷,越接近0说明模型效果越好。
这个过程如图1所示,选取了服务器基础配置信息、用户族群信息作为特征变量,历史服务器使用时长作为监督信号,使用CatBoost回归模型,得到了一个服务器使用时长的预测模型,用于计算预期服务器使用时长。
3.异常识别模型
本发明的异常识别模型,使用孤立森林模型进行生成,孤立森林对离散变量的支持不太好,因此孤立森林的特征变量,从非离散变量中去选择。
在之前第一步的分析中,可以知道,这些服务器基础配置信息中,内存容量,CPU核数,内存容量,这三个配置高度正相关,要么同增要么同减,因此,如果不加处理直接使这些配置信息,会导致模型判定“配置搭配异常”的能力大打折扣。
在本实施例中,选择皮尔森相关系数0.25作为相关度阈值,在选用服务器基础配置信息时,其中变量间相关度低于相关度阈值的变量独立作为孤立森林模型的特征变量,变量间相关度高于相关度阈值的变量取互相之间的比例,作为孤立森林模型的特征变量。
在孤立森林模型的特征变量选择时,将与其他配置相关度很低的网络带宽作为特征变量单独使用,将内存容量,CPU核数,内存容量这几个配置间的比例信息,作为特征变量进行使用,同时,加入了预期服务器使用时长作为特征变量。
理论上说过高和过低的配置比例都属于不合理,因此我们需要对“内存容量:CPU核数”、“硬盘容量:内存容量”、“硬盘容量:CPU核数”三个变量做对数转化处理,使得其分布接近于正态分布,从而方便同时识别过高或者过低的配置比例,也使得配置在比例中出现的顺序不重要(数据分布一致)。对数转化的结果见图2至图9。此外,由于服务器使用时长与服务器配置合理性呈正关系,因此从图5、图6上服务器使用时长的分布在(对数)比例变量log(硬盘容量:内存容量)和log(硬盘容量:CPU核数)上呈现两端低中间高的趋势。
综上所述,使用孤立森林模型时,本实施例选用的特征变量及超参数为:
1)特征变量选择:
表82)模型超参数设置:
超参数名称 | 超参数值 |
是否使用Bootstrap | 是的 |
污染度 | 0.01 |
最大特征数 | 1.0 |
决策树数量 | 1000 |
预期服务器使用时长最大值 | 168小时(一周) |
表9
(注:模型的超参数可以根据实际场景调整)
3)模型结果:
模型的预测结果是由异常分数来决定的,通常选择一定百分比的异常得分来作为判定标准,即模型超参数中的污染度。
-h(x)表示样本x在树上的深度,E[h(x)]表示其在所有树上的平均深度;
-c(n)表示使用n个样本构建二叉树时的平均路径长度,用来对E[h(x)]做标准化处理。
-得分s(x,n)取值范围为0到1,其中越接近于1是异常点的可能性越大。
有些特别定制的服务器的配置搭配比较罕见,但是用户往往会长时间使用,因此不该被识别为异常。然而由于非监督学习原理上容易将拥有罕见的特征值的样本识别为异常,因此本方案创新地对孤立森林在预测结果生成步骤做出了改进:必须同时满足异常得分大于一定阈值和预测服务器使用时长小于一定阈值时,样本才会被判定为异常。本文中使用168小时,即一周的时长作为服务器使用时长的阈值。
本实施例选择直接改进孤立模型的方式达到上述效果,经过本发明改进的孤立森林模型,可添加预期服务器使用时长最大值作为参数,用以调整在预测结果生成步骤时的服务器使用时长阈值。所述技术领域的技术人员也可以不付出创造性劳动的使用其它方式,增加上述效果,使得异常识别模型,在异常识别步骤增加一个条件,需同时满足预期服务器使用时长低于服务器使用时长阈值时,才能判定为异常。
该异常识别模型利用服务器使用时长预测模型产生的结果作为弱监督信号,从而起到在判定时综合考虑配置搭配和使用时长两个因素的效果。从某种意义上说,给用户推荐其能够最长期使用的商品可以被视为一种合理的推荐,因为使用时长往往与用户满意程度成正比。
使用待测试的数据进行测试,以下的服务器配置被该方案的模型识别成异常:
表10:服务器配置异常识别结果。
Claims (5)
1.一种基于弱监督学习的云服务器配置异常识别方法,其特征在于,包括以下步骤:
S1:从历史数据中,读取服务器基础配置信息,所述服务器基础配置信息包括离散变量与非离散变量,读取历史服务器使用时长;
S2:将服务器基础配置信息作为CatBoost回归模型的特征变量,将历史服务器使用时长作为CatBoost回归模型的监督信息,得到服务器使用时长的预测模型,用于计算预期服务器使用时长;
S3:将服务器基础配置信息中的非离散变量、使用服务器使用时长的预测模型得到的预期服务器使用时长作为孤立森林模型的特征变量,得到异常识别模型;
S4:将待测试的数据中,服务器基础配置信息输入服务器使用时长的预测模型,并将得到的预期服务器使用时长作为异常识别模型的输入,同时将服务器基础配置信息中的非离散变量作为异常识别模型的输入,即可得到被识别为异常的服务器;
其中,S3中服务器基础配置信息中的非离散变量,非离散变量间相关度低于相关度阈值的变量独立作为孤立森林模型的特征变量,非离散变量间相关度高于相关度阈值的变量取互相之间的比例,作为孤立森林模型的特征变量;
其中,所述孤立森林模型生成的异常识别模型,在其异常识别步骤增加一个条件,需同时满足预期服务器使用时长低于服务器使用时长阈值时,才能判定为异常;
其中,所述服务器基础配置信息的离散变量为系统、架构,所述服务器基础配置信息的非离散变量为CPU核数、内存容量、硬盘容量、网络带宽;
其中,所述S2中CatBoost回归模型使用的超参数包括:迭代次数:1000,决策树结构:对称,L2正则化强度:3,决策树最大深度:6,学习率:0.0496,最大叶子数量:64;
其中,所述S3中孤立森林模型的超参数包括:是否使用Bootstrap:是的,污染度:0.01,最大特征数:1.0,决策树数量:1000;
其中,异常识别模型的预测结果是由异常分数来决定的,即模型超参数中的污染度s(x,n),具体公式为:
-h(x)表示样本x在树上的深度,E[h(x)]表示其在所有树上的平均深度;
-c(n)表示使用n个样本构建二叉树时的平均路径长度,用来对E[h(x)]做标准化处理;
s(x,n)的数值范围为0到1,其中越接近于1是异常点的可能性越大。
2.根据权利要求1所述的一种基于弱监督学习的云服务器配置异常识别方法,其特征在于,
S1中还包括从历史数据中,读取用户族群信息;
S2中还包括将用户族群信息作为CatBoost回归模型的特征变量;
S4中还包括将待测试的数据中,用户族群信息输入服务器使用时长的预测模型。
3.根据权利要求1所述的一种基于弱监督学习的云服务器配置异常识别方法,其特征在于,对所述比例进行对数转化处理后,再作为孤立森林模型的特征变量。
4.根据权利要求1所述的一种基于弱监督学习的云服务器配置异常识别方法,其特征在于,所述相关度阈值为皮尔森相关系数0.25。
5.根据权利要求1所述的一种基于弱监督学习的云服务器配置异常识别方法,其特征在于,所述服务器使用时长阈值为168小时。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211636518.5A CN116048912B (zh) | 2022-12-20 | 2022-12-20 | 一种基于弱监督学习的云服务器配置异常识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211636518.5A CN116048912B (zh) | 2022-12-20 | 2022-12-20 | 一种基于弱监督学习的云服务器配置异常识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116048912A CN116048912A (zh) | 2023-05-02 |
CN116048912B true CN116048912B (zh) | 2024-07-30 |
Family
ID=86130405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211636518.5A Active CN116048912B (zh) | 2022-12-20 | 2022-12-20 | 一种基于弱监督学习的云服务器配置异常识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116048912B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116760881B (zh) * | 2023-08-17 | 2023-12-22 | 北京智芯微电子科技有限公司 | 配电终端的系统配置方法、装置、存储介质及电子设备 |
CN117609470B (zh) * | 2023-12-08 | 2024-08-09 | 中科南京信息高铁研究院 | 基于大语言模型和知识图谱的问答系统、其构建方法及智能化数据治理平台 |
CN117786236B (zh) * | 2023-12-27 | 2024-08-16 | 中科南京信息高铁研究院 | 云边协同推理与个性化学习方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288025A (zh) * | 2020-11-03 | 2021-01-29 | 中国平安财产保险股份有限公司 | 基于树结构的异常案件识别方法、装置、设备及存储介质 |
CN115033591A (zh) * | 2022-06-01 | 2022-09-09 | 广东技术师范大学 | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111061620B (zh) * | 2019-12-27 | 2022-07-01 | 南京林科斯拉信息技术有限公司 | 一种混合策略的服务器异常智能检测方法及检测系统 |
EP3979080A1 (en) * | 2020-09-30 | 2022-04-06 | Mastercard International Incorporated | Methods and systems for predicting time of server failure using server logs and time-series data |
CN114118162A (zh) * | 2021-12-01 | 2022-03-01 | 盐城工学院 | 基于改进深度森林算法的轴承故障检测方法 |
CN115359393A (zh) * | 2022-08-16 | 2022-11-18 | 武汉东智科技股份有限公司 | 一种基于弱监督学习的图像花屏异常识别方法 |
-
2022
- 2022-12-20 CN CN202211636518.5A patent/CN116048912B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112288025A (zh) * | 2020-11-03 | 2021-01-29 | 中国平安财产保险股份有限公司 | 基于树结构的异常案件识别方法、装置、设备及存储介质 |
CN115033591A (zh) * | 2022-06-01 | 2022-09-09 | 广东技术师范大学 | 一种电费数据异常智能检测方法、系统、存储介质及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116048912A (zh) | 2023-05-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116048912B (zh) | 一种基于弱监督学习的云服务器配置异常识别方法 | |
Osman | Data mining techniques | |
CN111401433B (zh) | 用户信息获取方法、装置、电子设备及存储介质 | |
CN111179016B (zh) | 一种售电套餐推荐方法、设备及存储介质 | |
CN110956273A (zh) | 融合多种机器学习模型的征信评分方法及系统 | |
CN117151870B (zh) | 一种基于客群画像行为分析方法及系统 | |
CN108921604B (zh) | 一种基于代价敏感分类器集成的广告点击率预测方法 | |
KR102129962B1 (ko) | 딥 러닝과 부스티드 디시즌 트리를 활용한 고객이탈 예측장치 및 이를 이용한 고객이탈 예측방법 | |
CN114841268B (zh) | 基于Transformer和LSTM融合算法的异常电力客户识别方法 | |
Xu et al. | Novel key indicators selection method of financial fraud prediction model based on machine learning hybrid mode | |
CN112417294A (zh) | 一种基于神经网络挖掘模型的业务智能推荐方法 | |
CN113449004A (zh) | 数据匹配方法及装置 | |
CN115204985A (zh) | 购物行为预测方法、装置、设备及存储介质 | |
CN113962160A (zh) | 基于用户画像的互联网卡用户流失预测方法及系统 | |
CN114861050A (zh) | 一种基于神经网络的特征融合推荐方法及系统 | |
CN112529319A (zh) | 基于多维特征的评分方法、装置、计算机设备及存储介质 | |
Šimović et al. | Classifying the variety of customers’ online engagement for churn prediction with a mixed-penalty logistic regression | |
CN111309994A (zh) | 用户匹配方法、装置、电子设备及可读存储介质 | |
Becher et al. | Automating exploratory data analysis for efficient data mining | |
CN112148919A (zh) | 一种基于梯度提升树算法的音乐点击率预测方法及装置 | |
CN112819499A (zh) | 信息发送方法、装置、服务器及存储介质 | |
CN118037401A (zh) | 基于知识图谱的农产品电商推荐系统 | |
CN116777345A (zh) | 一种库存量预测方法、系统、装置及存储介质 | |
Ulkhaq et al. | Predicting customer churn: A comparison of eight machine learning techniques: A case study in an Indonesian telecommunication company | |
CN115187312A (zh) | 基于深度学习的客户流失预测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |