[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN113553222A - 一种存储硬盘检测预警方法及系统 - Google Patents

一种存储硬盘检测预警方法及系统 Download PDF

Info

Publication number
CN113553222A
CN113553222A CN202110683186.5A CN202110683186A CN113553222A CN 113553222 A CN113553222 A CN 113553222A CN 202110683186 A CN202110683186 A CN 202110683186A CN 113553222 A CN113553222 A CN 113553222A
Authority
CN
China
Prior art keywords
hard disk
information
state information
detection
service life
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110683186.5A
Other languages
English (en)
Other versions
CN113553222B (zh
Inventor
宋柏森
唐卓
纪军刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Zhengtong Cloud Calculating Co ltd
Shenzhen Zhengtong Electronics Co Ltd
Original Assignee
Changsha Zhengtong Cloud Calculating Co ltd
Shenzhen Zhengtong Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Zhengtong Cloud Calculating Co ltd, Shenzhen Zhengtong Electronics Co Ltd filed Critical Changsha Zhengtong Cloud Calculating Co ltd
Priority to CN202110683186.5A priority Critical patent/CN113553222B/zh
Publication of CN113553222A publication Critical patent/CN113553222A/zh
Application granted granted Critical
Publication of CN113553222B publication Critical patent/CN113553222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • G06F11/2221Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested to test input/output devices or peripheral units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Optimization (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种存储硬盘检测预警方法及系统,其包括如下步骤:采集物理硬盘状态信息;获取硬盘状态信息检测种类;根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;基于贝叶斯预测算法获取硬盘的预测寿命;根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果。本发明通过获取硬盘状态信息检测种类之后,再根据硬盘状态信息检测种类获取硬盘状态信息检测结果,通过多个种类的硬盘状态信息检测结果对服务器上的物理硬盘的运行状态进行监测,可以很好地保障分布式存储系统的稳定正常运行,减少因物理硬盘问题而对用户的业务系统产生的影响。

Description

一种存储硬盘检测预警方法及系统
技术领域
本发明涉及存储硬盘管理技术领域,尤其是涉及一种存储硬盘检测预警方法及系统。
背景技术
随着大数据信息时代的到来,每天都会产生大量的数据进行存储。传承的集中式SAN存储已经不能满足用户的要求,进而产生了容量没有限制,可以持续增加节点,通过网络进行交互的分布式存储。分布式存储的到来解决了容量和性能两个方面的瓶颈,但是也同样的带来了木桶原理的瓶颈问题。在分布式存储系统中,因为客户端会将请求的IO发送到节点的所有的物理硬盘上,如果有一块物理硬盘是坏盘或者是慢盘,这将会影响到IO落到此硬盘的客户端的访问,给客户带来很不好的体验。
因此,如果在分布式存储系统中,可以主动地发现慢盘和坏盘以减少对客户业务系统的影响,同时在分布式系统中,数据的可靠性是基于主机间的副本或者纠删码的方式进行容灾的,若果有一块或者几块硬盘损坏,那需要在主机间进行新的数据平衡来重建丢失的副本数据。基于网络进行通信的分布式存储系统,这种数据重建的过程对于网络交换机的压力,以及正在数据重建的物理硬盘也会是客户端业务访问的硬盘,因此双重压力的影响很容易对客户的业务造成影响。
因此,如何在第一时间知道哪块物理硬盘即将损坏,进而进行主动的干预处理,以避免因为慢盘或者坏盘影响客户的业务系统的使用,成为本领域技术人员亟待解决的技术问题。
发明内容
基于此,本发明的目的在于提供一种存储硬盘检测预警方法及系统,可以主动的发现慢盘和坏盘,或通过利用朴素贝叶斯预测方法结合物理硬盘的各种参数对物理硬盘的预测寿命进行预测,如此可以优先获取物理硬盘即将损坏的反馈信息,进行主动干预处理,避免因为慢盘或者坏盘影响客户的业务系统的使用。
为解决上述技术问题,本发明采用以下技术方案:
本发明提供了一种存储硬盘检测预警方法,其包括如下步骤:
步骤S110、采集物理硬盘状态信息;
步骤S120、对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
步骤S130、根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;若否,则执行步骤S140;若是,则执行步骤S160;
步骤S140、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S150;若否,则执行步骤S160;
步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160;
步骤S160、发送硬盘故障警告信息;
步骤S170、结束硬盘检测预警。
在其中一个实施例中,所述步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160之后,还包括:
步骤S180、判断服务器的所有物理硬盘是否检测完毕;若是,则执行步骤S170;若否,则执行步骤S110。
在其中一个实施例中,所述步骤S150中基于贝叶斯预测算法获取硬盘的预测寿命的方法,包括如下步骤:
基于朴素贝叶斯预测公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN)采集SMART信息中的各项指标信息及硬盘的预测寿命,形成训练样本;其中,SMART参数信息分别定义为F1~FN,N为SMART参数信息的总项数;硬盘的预测寿命作为分类类别,分别定义为C1~CM,M为硬盘的预测寿命对应的时间分类总项数;
对公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN)进行处理获得简化的朴素贝叶斯预测公式P(C/F1F2...FN)=P(F1/C)*P(F2/C)..P(FN/C)*P(C);
通过公式P(C/F1F2...FN)=P(F1/C)*P(F2/C)..P(FN/C)*P(C)基于物理硬盘的SMART参数信息,结合采集的其他物理硬盘状态信息,获取分类类别下各个SMART参数信息特征的条件概率;
通过公式
Figure BDA0003123497040000031
获取硬盘的预测寿命。
在其中一个实施例中,所述步骤S140、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S150;若否,则执行步骤S160的方法,包括如下步骤:
采集服务器上物理硬盘的IO读写速率信息;
设定不同型号硬盘对应的硬盘的IO读写速率基准值,获取预设读写速率阈值;
将物理硬盘的IO读写速率信息与预设读写速率阈值进行比较,若是,则执行步骤S150;若否,则执行步骤S160。
在其中一个实施例中,所述硬盘损坏信息包括SMART信息是否有错误信息、或硬盘坏道检测的结果是否有错误信息。
一种存储硬盘检测预警方法,其包括如下步骤:
步骤S110、采集物理硬盘状态信息;
步骤S120、对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
步骤S130、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S140;若否,则执行步骤S160;
步骤S140、根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;若否,则执行步骤S150;若是,则执行步骤S160;
步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160;
步骤S160、发送硬盘故障警告信息;
步骤S170、结束硬盘检测预警。
在其中一个实施例中,所述步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160之后,还包括:
步骤S180、判断服务器的所有物理硬盘是否检测完毕;若是,则执行步骤S170;若否,则执行步骤S110。
在其中一个实施例中,所述硬盘损坏信息包括SMART信息是否有错误信息、或硬盘坏道检测的结果是否有错误信息。
一种存储硬盘检测预警系统,其包括:
采集模块,用于采集物理硬盘状态信息;
分类模块,用于对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
第一检测结果模块,用于根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;
第二检测结果模块,用于根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;
第三检测结果模块,用于基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿是否高于预设寿命阈值获取硬盘状态信息检测结果。
在其中一个实施例中,还包括判断模块,用于判断服务器的所有物理硬盘是否检测完毕。
综上所述,本发明提供的一种存储硬盘检测预警方法及系统通过获取硬盘状态信息检测种类之后,再根据硬盘状态信息检测种类获取硬盘状态信息检测结果,通过多个种类的硬盘状态信息检测结果对服务器上的物理硬盘的运行状态进行监测,以方便对硬盘的常见故障进行处理和预警,可以很好地保障分布式存储系统的稳定正常运行,减少因物理硬盘问题而对用户的业务系统产生的影响,提高分布式存储系统的稳定性和可靠性。
附图说明
图1为本发明实施例提供的第一种存储硬盘检测预警方法的流程示意图;
图2为本发明实施例提供的第二种存储硬盘检测预警方法的流程示意图;
图3为本发明实施例提供的第三种存储硬盘检测预警方法的流程示意图;
图4为本发明实施例提供的第四种存储硬盘检测预警方法的流程示意图;
图5为本发明实施例提供的一种存储硬盘检测预警系统的结构框图;
图6为本发明实施例提供的一种存储硬盘检测预警系统另一实施例的结构框图。
具体实施方式
为能进一步了解本发明的特征、技术手段以及所达到的具体目的、功能,下面结合附图与具体实施方式对本发明作进一步详细描述。
图1是本发明实施例提供的第一种存储硬盘检测预警方法的流程示意图,如图1所示,该存储硬盘检测预警方法,具体包括如下步骤:
步骤S110、采集物理硬盘状态信息;其中,物理硬盘状态信息包括但不限于SMART信息、硬盘的IO读写速率信息及硬盘的预测寿命,SMART信息包括但不限于预设时间段内硬盘坏道分析信息、错误发生时的SMART检测到硬盘的错误读取率信息、加点次数信息、重新分配扇区数信息、旋转重试次数信息、奇偶检验错误率信息等参数信息;本实施例中,预设时间段内硬盘坏道分析信息为一个月时间间隔周期的硬盘坏道分析信息,此为已知技术,在此不必进行赘述。
分布式存储系统是由若干个服务器构成的,所述服务器之间通过网络方式进行连接,每个服务器会根据需要挂载有多个物理硬盘,本实施例中,每个服务器上挂载的物理硬盘数量为10~20,此时需要通过对每个服务器对应的物理硬盘状态信息进行采集并进行存储。
步骤S120、对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息。
具体地,当获取硬盘状态检测种类为硬盘损坏信息时,所述硬盘损坏信息包括SMART信息是否有错误信息、或硬盘坏道检测的结果是否有错误信息;当获取硬盘状态检测种类为硬盘的IO读写速率信息时,通过判断硬盘的IO读写速率信息来判断硬盘是否为慢盘,其中,慢盘是指硬盘读写工作正常,但是比同类硬盘读写速度性能差很多的硬盘,这种硬盘会拖累整体的分布式存储系统的读写IO性能。
步骤S130、根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;若否,则执行步骤S140;若是,则执行步骤S160,以便通知运维管理人员对出现坏道或者SMART信息错误的硬盘进行处理。
具体地,所述硬盘损坏信息还包括硬盘的位置信息,运维管理人员可通过硬盘故障警告信息迅速获取到故障硬盘对应的服务器及对应的物理硬盘。
步骤S140、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S150;若否,则执行步骤S160,以便通知运维管理人员对出现读写速度性能差很多的硬盘进行处理。
其中,所述步骤S140、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S150;若否,则执行步骤S160的方法,包括如下步骤:
步骤S141、采集服务器上物理硬盘的IO读写速率信息;本实施例中,服务器所采用的物理硬盘有着对应的硬盘型号,该硬盘型号对应有硬盘的IO读写性能数据。
步骤S142、设定不同型号硬盘对应的硬盘的IO读写速率基准值,获取预设读写速率阈值;本实施例中,硬盘的IO读写速率基准值为硬盘的IO读写速率最大值的40%。
步骤S143、将物理硬盘的IO读写速率信息与预设读写速率阈值进行比较,若是,则执行步骤S150;若否,则执行步骤S160,以通知运维管理人员对出现读写速度性能差很多的硬盘进行处理。
本发明中,获取硬盘状态信息检测种类之后,再根据硬盘状态信息检测种类获取硬盘状态信息检测结果,进而执行后续其他步骤,通过多个种类的硬盘状态信息检测结果对服务器上的物理硬盘的运行状态进行监测,以方便对硬盘的常见故障进行处理和预警,可以很好地保障分布式存储系统的稳定正常运行,减少因物理硬盘问题而对用户的业务系统产生的影响,提高分布式存储系统的稳定性和可靠性。
步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160,以便通知运维管理人员;预设寿命阈值可根据需要自定义设置,在本实施例中,预设寿命阈值设定为1个月。
具体地,硬盘预测寿命包括硬盘的剩余使用寿命信息,通过获取硬盘的预设寿命来判断硬盘是否即将损坏,进而进行主动的干预处理,避免因为坏盘而影响客户的业务系统的使用。
在其中一个实施例中,所述步骤S150中基于贝叶斯预测算法获取硬盘的预测寿命的方法,包括如下步骤:
S151、基于朴素贝叶斯预测公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN)采集SMART信息中的各项指标信息及硬盘的预测寿命,形成训练样本;其中,SMART参数信息分别定义为F1~FN,N为SMART参数信息的总项数;硬盘的预测寿命作为分类类别,分别定义为C1~CM,M为硬盘的预测寿命对应的时间分类总项数。
本实施例中,硬盘的SMART各项指标信息如错误发生时的SMART检测到硬盘的错误读取率、加点次数、重新分配扇区数、旋转重试次数、奇偶检验错误率等SMART参数信息,均可作为训练样本进行使用,其中,错误发生时的SMART检测到硬盘的错误读取率、加点次数、重新分配扇区数、旋转重试次数、奇偶检验错误率等SMART参数信息分别定义为F1~FN,N为SMART参数信息的总项数;硬盘的预测寿命作为分类类别,分别定义为C1~CM,M为硬盘的预测寿命对应的时间分类总项数,本实施例中,硬盘的预测寿命按照硬盘剩余使用寿命的月份数量来进行分类。
S152、对公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN)进行处理获得简化的朴素贝叶斯预测公式P(C/F1F2...FN)=P(F1/C)*P(F2/C)..P(FN/C)*P(C);具体地,对于公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN),因为分母P(F1F2..FN)对于所有分类类别为常数,因此我们只需要将分子最大化即可,并且各SMART参数信息特征是相互独立的,因此,可以将公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN)简化为公式P(C/F1F2...FN)=P(F1/C)*P(F2/C)..P(FN/C)*P(C);
步骤S153、通过公式P(C/F1F2...FN)=P(F1/C)*P(F2/C)..P(FN/C)*P(C)基于物理硬盘的SMART参数信息,结合采集的其他物理硬盘状态信息,获取各个分类类别下各个SMART参数信息特征的条件概率,即P(F1丨C1),P(F2丨C1),…,P(FN丨C1);P(F1丨C2),P(F2丨C2),…,P(FN丨C2);…;P(F1丨CM),P(F2丨CM),…,P(FN丨CM)。
步骤S154、通过公式
Figure BDA0003123497040000091
获取硬盘的预测寿命。
步骤S160、发送硬盘故障警告信息。
步骤S170、结束硬盘检测预警。
在其中一个实施例中,图2是本发明实施例提供的第二种存储硬盘检测预警方法的流程示意图,如图2所示,所述步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160之后,还包括:
步骤S180、判断服务器的所有物理硬盘是否检测完毕;若是,则执行步骤S170;若否,则执行步骤S110。
为了更加清晰本发明的技术方案,下面再阐述优选实施例。
步骤S110、采集物理硬盘状态信息;
步骤S120、对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
步骤S130、根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;若否,则执行步骤S140;若是,则执行步骤S160;
步骤S140、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S150;若否,则执行步骤S160;
步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160;
步骤S160、发送硬盘故障警告信息;
步骤S170、结束硬盘检测预警;
步骤S180、判断服务器的所有物理硬盘是否检测完毕;若是,则执行步骤S170;若否,则执行步骤S110。
本发明中,获取硬盘状态信息检测种类之后,再根据硬盘状态信息检测种类获取硬盘状态信息检测结果,进而执行后续其他步骤;步骤S140也可设置在步骤S130之前,通过多个种类的硬盘状态信息检测结果对服务器上的物理硬盘的运行状态进行监测,以方便对硬盘的常见故障进行处理和预警,可以很好地保障分布式存储系统的稳定正常运行,减少因物理硬盘问题而对用户的业务系统产生的影响,提高分布式存储系统的稳定性和可靠性。
图3是本发明实施例提供的第三种存储硬盘检测预警方法的流程示意图,如图3所示,该存储硬盘检测预警方法,具体包括如下步骤:
步骤S110、采集物理硬盘状态信息;
步骤S120、对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
具体地,所述硬盘损坏信息包括SMART信息是否有错误信息、或硬盘坏道检测的结果是否有错误信息。
步骤S130、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S140;若否,则执行步骤S160;
步骤S140、根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;若否,则执行步骤S150;若是,则执行步骤S160;
步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160;
步骤S160、发送硬盘故障警告信息;
步骤S170、结束硬盘检测预警。
图4是本发明实施例提供的第四种存储硬盘检测预警方法的流程示意图,如图4所示,所述步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160之后,还包括:
步骤S180、判断服务器的所有物理硬盘是否检测完毕;若是,则执行步骤S170;若否,则执行步骤S110。
图5示出了本发明提供的一种存储硬盘检测预警系统的结构框图,如图5所示,对应于上述一种存储硬盘检测预警方法,本发明还提供一种存储硬盘检测预警系统,该存储硬盘检测预警装置系统包括用于执行上述存储硬盘检测预警装置方法的模块,该存储硬盘检测预警系统可以被配置于云平台,本发明提供一种存储硬盘检测预警装置系统,通过获取硬盘状态信息检测种类之后,再根据硬盘状态信息检测种类获取硬盘状态信息检测结果,通过多个种类的硬盘状态信息检测结果对服务器上的物理硬盘的运行状态进行监测,以方便对硬盘的常见故障进行处理和预警,可以很好地保障分布式存储系统的稳定正常运行,减少因物理硬盘问题而对用户的业务系统产生的影响,提高分布式存储系统的稳定性和可靠性。
具体地,请参考图5,该一种存储硬盘检测预警系统包括采集模块110、分类模块120、第一检测结果模块130、第二检测结果模块140及第三检测结果模块150。
采集模块110,用于采集物理硬盘状态信息;
分类模块120,用于对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
第一检测结果模块130,用于根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;
第二检测结果模块140,用于根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;
第三检测结果模块150,用于基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿是否高于预设寿命阈值获取硬盘状态信息检测结果。
图6示出了本发明提供的一种存储硬盘检测预警系统另一实施例的结构框图,如图6所示,本实施例提供的存储硬盘检测预警系统的基础上增加了判断模块160,所述判断模块160用于判断服务器的所有物理硬盘是否检测完毕。
本发明一种存储硬盘检测预警系统通过获取硬盘状态信息检测种类之后,再根据硬盘状态信息检测种类获取硬盘状态信息检测结果,通过多个种类的硬盘状态信息检测结果对服务器上的物理硬盘的运行状态进行监测,以方便对硬盘的常见故障进行处理和预警,可以很好地保障分布式存储系统的稳定正常运行,减少因物理硬盘问题而对用户的业务系统产生的影响,提高分布式存储系统的稳定性和可靠性。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述一种存储硬盘检测预警系统和各模块的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
综上所述,本发明一种存储硬盘检测预警方法及系统通过获取硬盘状态信息检测种类之后,再根据硬盘状态信息检测种类获取硬盘状态信息检测结果,通过多个种类的硬盘状态信息检测结果对服务器上的物理硬盘的运行状态进行监测,以方便对硬盘的常见故障进行处理和预警,可以很好地保障分布式存储系统的稳定正常运行,减少因物理硬盘问题而对用户的业务系统产生的影响,提高分布式存储系统的稳定性和可靠性。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,终端,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明的保护范围应以所附权利要求为准。

Claims (10)

1.一种存储硬盘检测预警方法,其特征在于,包括如下步骤:
步骤S110、采集物理硬盘状态信息;
步骤S120、对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
步骤S130、根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;若否,则执行步骤S140;若是,则执行步骤S160;
步骤S140、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S150;若否,则执行步骤S160;
步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160;
步骤S160、发送硬盘故障警告信息;
步骤S170、结束硬盘检测预警。
2.根据权利要求1所述的一种存储硬盘检测预警方法,其特征在于,所述步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160之后,还包括:
步骤S180、判断服务器的所有物理硬盘是否检测完毕;若是,则执行步骤S170;若否,则执行步骤S110。
3.根据权利要求1或2所述的一种存储硬盘检测预警方法,其特征在于,所述步骤S150中基于贝叶斯预测算法获取硬盘的预测寿命的方法,包括如下步骤:
基于朴素贝叶斯预测公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN)采集SMART信息中的各项指标信息及硬盘的预测寿命,形成训练样本;其中,SMART参数信息分别定义为F1~FN,N为SMART参数信息的总项数;硬盘的预测寿命作为分类类别,分别定义为C1~CM,M为硬盘的预测寿命对应的时间分类总项数;
对公式P(C/F1F2...FN)=P(F1F2...FN/C)P(C)/P(F1F2...FN)进行处理获得简化的朴素贝叶斯预测公式P(C/F1F2...FN)=P(F1/C)*P(F2/C)..P(FN/C)*P(C);
通过公式P(C/F1F2...FN)=P(F1/C)*P(F2/C)..P(FN/C)*P(C)基于物理硬盘的SMART参数信息,结合采集的其他物理硬盘状态信息,获取分类类别下各个SMART参数信息特征的条件概率;
通过公式
Figure FDA0003123497030000021
获取硬盘的预测寿命。
4.根据权利要求1或2所述的一种存储硬盘检测预警方法,其特征在于,所述步骤S140、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S150;若否,则执行步骤S160的方法,包括如下步骤:
采集服务器上物理硬盘的IO读写速率信息;
设定不同型号硬盘对应的硬盘的IO读写速率基准值,获取预设读写速率阈值;
将物理硬盘的IO读写速率信息与预设读写速率阈值进行比较,若是,则执行步骤S150;若否,则执行步骤S160。
5.根据权利要求1或2所述的一种存储硬盘检测预警方法,其特征在于:所述硬盘损坏信息包括SMART信息是否有错误信息、或硬盘坏道检测的结果是否有错误信息。
6.一种存储硬盘检测预警方法,其特征在于,包括如下步骤:
步骤S110、采集物理硬盘状态信息;
步骤S120、对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
步骤S130、根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;若是,则执行步骤S140;若否,则执行步骤S160;
步骤S140、根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;若否,则执行步骤S150;若是,则执行步骤S160;
步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160;
步骤S160、发送硬盘故障警告信息;
步骤S170、结束硬盘检测预警。
7.根据权利要求6所述的一种存储硬盘检测预警方法,其特征在于,所述步骤S150、基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿命是否高于预设寿命阈值获取硬盘状态信息检测结果;若是,则执行步骤S170;若否,则执行步骤S160之后,还包括:
步骤S180、判断服务器的所有物理硬盘是否检测完毕;若是,则执行步骤S170;若否,则执行步骤S110。
8.根据权利要求6所述的一种存储硬盘检测预警方法,其特征在于:所述硬盘损坏信息包括SMART信息是否有错误信息、或硬盘坏道检测的结果是否有错误信息。
9.一种存储硬盘检测预警系统,其特征在于,包括:
采集模块,用于采集物理硬盘状态信息;
分类模块,用于对采集的物理硬盘状态信息进行分类,获取硬盘状态信息检测种类;其中,硬盘状态信息检测种类包括硬盘损坏信息及硬盘的IO读写速率信息;
第一检测结果模块,用于根据硬盘损坏信息是否错误获取硬盘状态信息检测结果;
第二检测结果模块,用于根据硬盘的IO读写速率信息是否高于预设读写速率阈值获取硬盘状态信息检测结果;
第三检测结果模块,用于基于贝叶斯预测算法获取硬盘的预测寿命,根据硬盘的预测寿是否高于预设寿命阈值获取硬盘状态信息检测结果。
10.根据权利要求9所述的一种存储硬盘检测预警系统,其特征在于:还包括判断模块,用于判断服务器的所有物理硬盘是否检测完毕。
CN202110683186.5A 2021-06-21 2021-06-21 一种存储硬盘检测预警方法及系统 Active CN113553222B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110683186.5A CN113553222B (zh) 2021-06-21 2021-06-21 一种存储硬盘检测预警方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110683186.5A CN113553222B (zh) 2021-06-21 2021-06-21 一种存储硬盘检测预警方法及系统

Publications (2)

Publication Number Publication Date
CN113553222A true CN113553222A (zh) 2021-10-26
CN113553222B CN113553222B (zh) 2022-05-13

Family

ID=78130729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110683186.5A Active CN113553222B (zh) 2021-06-21 2021-06-21 一种存储硬盘检测预警方法及系统

Country Status (1)

Country Link
CN (1) CN113553222B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647136A (zh) * 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110413430A (zh) * 2019-07-19 2019-11-05 苏州浪潮智能科技有限公司 一种固态硬盘的寿命预测方法、装置及设备
US20200104200A1 (en) * 2018-09-27 2020-04-02 Oracle International Corporation Disk drive failure prediction with neural networks
CN111309502A (zh) * 2020-02-16 2020-06-19 西安奥卡云数据科技有限公司 固态硬盘寿命预测方法
CN112115004A (zh) * 2020-07-29 2020-12-22 西安交通大学 一种基于反向传播贝叶斯深度学习的硬盘寿命预测方法
CN112446557A (zh) * 2021-01-29 2021-03-05 北京蒙帕信创科技有限公司 一种基于深度学习的磁盘故障预测规避方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108647136A (zh) * 2018-05-10 2018-10-12 南京道熵信息技术有限公司 基于smart信息和深度学习的硬盘损坏预测方法及装置
US20200104200A1 (en) * 2018-09-27 2020-04-02 Oracle International Corporation Disk drive failure prediction with neural networks
CN110413227A (zh) * 2019-06-22 2019-11-05 华中科技大学 一种硬盘设备的剩余使用寿命在线预测方法和系统
CN110413430A (zh) * 2019-07-19 2019-11-05 苏州浪潮智能科技有限公司 一种固态硬盘的寿命预测方法、装置及设备
CN111309502A (zh) * 2020-02-16 2020-06-19 西安奥卡云数据科技有限公司 固态硬盘寿命预测方法
CN112115004A (zh) * 2020-07-29 2020-12-22 西安交通大学 一种基于反向传播贝叶斯深度学习的硬盘寿命预测方法
CN112446557A (zh) * 2021-01-29 2021-03-05 北京蒙帕信创科技有限公司 一种基于深度学习的磁盘故障预测规避方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YONGMIN TAN ET AL: "On Predictability of System Anomalies in Real World", 《2010 18TH ANNUAL IEEE/ACM INTERNATIONAL SYMPOSIUM ON MODELING, ANALYSIS AND SIMULATION OF COMPUTER AND TELECOMMUNICATION SYSTEMS》 *
康艳龙: "基于深度学习的硬盘故障预测技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Also Published As

Publication number Publication date
CN113553222B (zh) 2022-05-13

Similar Documents

Publication Publication Date Title
WO2017011708A1 (en) Apparatus and method of leveraging machine learning principals for root cause analysis and remediation in computer environments
WO2022001125A1 (zh) 一种存储系统的存储故障预测方法、系统及装置
US11165668B2 (en) Quality assessment and decision recommendation for continuous deployment of cloud infrastructure components
KR101948634B1 (ko) 스마트 컴퓨팅을 위한 시스템 자원의 장애 예측 방법
CN109918313B (zh) 一种基于GBDT决策树的SaaS软件性能故障诊断方法
Zhang et al. Multi-view feature-based {SSD} failure prediction: What, when, and why
CN112951311B (zh) 一种基于变权重随机森林的硬盘故障预测方法及系统
US20200236123A1 (en) Detection of anomalies in communities based on access patterns by users
CN113539352A (zh) 一种固态硬盘隐性故障检测方法及相关设备
CN115599077B (zh) 车辆故障定界方法、装置、电子设备及存储介质
CN117421145A (zh) 一种异构硬盘系统故障预警方法及装置
CN116820339A (zh) 磁盘状态的确定方法及装置、存储介质及电子装置
CN114860540B (zh) 一种云数据中心服务器健康度评估方法
CN113553222B (zh) 一种存储硬盘检测预警方法及系统
Agarwal et al. Discovering rules from disk events for predicting hard drive failures
CN117093433B (zh) 故障检测方法、装置、电子设备及存储介质
CN115705274A (zh) 硬盘故障预测方法、装置、计算机可读介质及电子设备
KR20220043844A (ko) 장애 예측 방법, 그리고 이를 구현하기 위한 장치
Ahmad et al. Feature Selection for Improving Failure Detection in Hard Disk Drives Using a Genetic Algorithm and Significance Scores.
Zhang et al. {MSFRD}: Mutation Similarity based {SSD} Failure Rating and Diagnosis for Complex and Volatile Production Environments
Yazdi et al. SEFEE: Lightweight storage error forecasting in large-scale enterprise storage systems
CN118820026A (zh) 云服务集群状态监测方法、装置、设备和存储介质
CN117076167A (zh) 固态驱动器的异常检测处理方法和装置
CN115617604A (zh) 基于图像模式匹配的磁盘故障预测方法及系统
CN115509853A (zh) 一种集群数据异常检测方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant