[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN107943654A - 一种快速判定服务器环境温度监控异常原因的方法 - Google Patents

一种快速判定服务器环境温度监控异常原因的方法 Download PDF

Info

Publication number
CN107943654A
CN107943654A CN201711190686.5A CN201711190686A CN107943654A CN 107943654 A CN107943654 A CN 107943654A CN 201711190686 A CN201711190686 A CN 201711190686A CN 107943654 A CN107943654 A CN 107943654A
Authority
CN
China
Prior art keywords
temperature
bmc
register
server
environmental temperature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711190686.5A
Other languages
English (en)
Inventor
岳远斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201711190686.5A priority Critical patent/CN107943654A/zh
Publication of CN107943654A publication Critical patent/CN107943654A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请发明一种快速判定服务器环境温度监控异常原因的方法,通过直接带外读取并显示温度传感器的寄存器数值,将读取到的寄存器数值进行换算,然后和BMC显示的数值进行对比,再结合服务器运行所处的实际环境温度,从而判断故障原因。使用本发明所述的方法可以有效的提高故障诊断的时效性,提高了客户满意度及产品的竞争力。

Description

一种快速判定服务器环境温度监控异常原因的方法
技术领域
本发明涉及服务器温度监测领域,具体涉及一种快速判定服务器环境温度监控异常原因的方法。
背景技术
随着大数据、云计算、人工智能时代的到来,互联网业务量和数据量出现猛烈增长,计算量及计算频率随之增大;在服务器系统中,随着用于存储和计算的数据量的增加,服务器的运载压力越来越大,其核心部件如CPU、内存、硬盘等发热量变大,机器内部温度升高,核心部件所能承受的温度是有一定限制的,如果达到承受点,性能会降低,元器件的寿命会降低,甚至服务器不能使用。在服务器运行过程中,如果环境温度过高,会导致服务器整体工作在一个高温环境中,此时CPU等核心部件本体的温度会更高,当CPU的温度达到一定高度时,服务器就会发生降频,严重影响服务器的计算性能;如果温度继续升高,服务器会发生异常关机,由此所引发的后果则是客户的业务中断,数据丢失,造成的损失不可预估。因此,为了保证服务器的正常稳定运行,需要对服务器的环境温度的监控提出更高的要求。
目前在服务器系统中,通常使用BMC(Baseboard Management Controller基板管理控制器)来对主板的健康状况进行监控和管理。主板上的一些重要的参数如电压、温度、功耗等都是通过BMC监控记录的。服务器环境温度的监控链路是由两部分构成:一是温度传感器及外挂三极管,二是BMC芯片。服务器环境温度的监控的具体工作方式为:首先温度传感器会收集本身内部三极管及外挂三极管的温度信息,并将之存放在不同的寄存器中,其次BMC芯片通过I2C bus来收集温度传感器中的寄存器信息,并在BMC芯片内部进行转化计算形成我们能够识别的摄氏度,进而实现主板温度信息的收集及监控。
当环境温度出现异常时,需要结合上述链路状况进行分析,异常产生的原因一般可能是三种情况:1、温度传感器或者三极管出现故障;2、BMC芯片本身转化计算出现故障;3、由于空调异常等因素导致的环境温度本身变高。具体是何种原因需要进一步定位故障位置,只有定位了故障位置才能针对问题解决问题,因此定位位置确定故障发生的原因非常重要。
基于上述问题,本申请发明一种快速判定服务器环境温度监控异常原因的方法,通过直接带外读取并显示温度传感器的寄存器数值,将读取到的寄存器数值进行换算,然后和BMC显示的数值进行对比,从而判断故障原因。使用本发明所述的方法可以有效的提高故障诊断的时效性,提高了客户满意度及产品的竞争力。
发明内容
本申请发明一种快速判定服务器环境温度监控异常原因的方法,首先通过带外的IPMI(Intelligent Platform Management Interface智能平台管理接口)工具远程读取温度传感器对应的寄存器空间,寄存器会返回十六进制的数值,将十六进制数值转化为二进制数值并进行温度的换算,就可以得出以摄氏度为单位的温度信息;然后读取BMC记录的以摄氏度为单位的温度信息;最后两者相比较即可以判断BMC显示的温度和温度传感器原始的数据是否一致。再结合服务器运行所处的实际环境温度,就可以准确的判断出是哪个链路出现故障,进而判定故障位置。
本发明使用带外的IPMI工具,利用远程操作的方式进行寄存器信息的收集,在方便快捷的同时,还不会影响的系统的正常运转,因此可以提高分析问题时系统的稳定性和可靠性;同时,使用这种设计方法,可以大大的提高故障处理效率,提高产品的竞争力。
具体地,本申请请求保护一种快速判定服务器环境温度监控异常原因的方法,其特征在于,该方法具体包括如下步骤:
获取服务器运行的正常环境温度;
读取BMC芯片记录并显示的温度;
通过IPMI带外工具读取温度传感器的寄存器信息;
将读取到的传感器信息进行转化计算得到寄存器温度;
三个温度信息进行对比判断;
如果其中一个的温度与其余两者的温度不同,则可以确定该部件出现异常。
如上所述的快速判定服务器环境温度监控异常原因的方法,其特征还在于,将读取到的传感器信息进行转化计算是将从寄存器中的十六进制数值转化为二进制数值并进行温度的换算。
如上所述的快速判定服务器环境温度监控异常原因的方法,其特征还在于,通过IPMI带外工具读取温度传感器的寄存器信息具体包括以下几个步骤:
步骤一:获取BMC的IP地址、用户名和密码;
步骤二:在系统主机上安装IPMI工具包,同时把主机的IP设置为和BMC的IP相同网段;
步骤三:通过网线连接主机和BMC专用管理网口,在主机DOS下执行读取温度传感器的寄存器信息命令。
附图说明
图1、服务器环境温度监控异常原因判定架构示意图
具体实施方式
本发明所提出的判定方法是依托于服务器工作的实际环境温度,通过带外的IPMI工具远程读取温度传感器用于存储温度信息的寄存器空间,并将得到的返回值进行转化计算,然后和实际环温及BMC显示温度对比,最终判断出环温记录异常的原因。
下面通过一个实施例对本发明所述的查看方法具体实现步骤进行说明。
如附图1所示,首先,整个架构包含3个主要部分,分别是服务器运行的正常环境温度、BMC芯片读取并显示的温度、使用带外IPMI工具读取的寄存器数值。当服务器的环境温度记录异常的时候,只需要将收集到的三部分温度进行对比,即可判定故障位置。
以服务器运行的正常环境温度作为参考,如果BMC显示温度和寄存器温度一致,均不同于服务器环温,则说明是温度传感器出现异常;
如果二者温度不一致,且寄存器温度和正常环境温度一致,则说明是BMC出现异常。使用这种方法就可以很明显看出异常点。
整个判定架构具体实现主要包括以下几个步骤:
(1)获取服务器运行的正常环境温度;
(2)读取BMC芯片记录并显示的温度;
(3)通过IPMI带外工具读取温度传感器的寄存器信息;
(4)将读取到的传感器信息进行转化计算;
(5)三个温度信息进行对比判断。
通过IPMI带外工具读取温度传感器的寄存器信息主要包括以下几个步骤:
(1)获取BMC的IP地址、用户名和密码;
(2)选取一台装有windows或者linux系统主机,并安装IPMI工具包;同时把主机的IP设置为和BMC的IP相同网段;
(3)通过网线连接主机和BMC专用管理网口,在主机DOS下执行如下命令:
ipmitool–H IP–I lanplus–U ADMIN–P ADMIN raw 0x6 0x52 0xd 0x98 0x010xF8
ipmitool–H IP–I lanplus–U ADMIN–P ADMIN raw 0x6 0x52 0xd 0x98 0x010xF9
其中,IP代表BMC的IP地址;0x98代表温度传感器的地址;0XF8和0XF9代表环境温度存储的寄存器空间。
显而易见地,上面所示的仅仅是本发明的一个具体实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据上述实施例获得其他的技术方案,以及在本发明保护的范围内做出的等同变化均应落入本发明的保护范围内,都属于本发明保护的范围。
综上所述,本发明采用直接读取温度传感器的寄存器空间并转化计算的方式,依托于服务器运行的正常环境温度,通过对比,即可在服务器环境温度记录异常时刻能够精确的定位故障位置,能够有效改善故障处理效率;使用带外IPMI工具读取寄存器空间,不仅方便快捷,而且具有较高的安全性,提高产品的可维护性的同时,提升了客户满意度。

Claims (3)

1.一种快速判定服务器环境温度监控异常原因的方法,其特征在于,该方法具体包括如下步骤:
获取服务器运行的正常环境温度;
读取BMC芯片记录并显示的温度;
通过IPMI带外工具读取温度传感器的寄存器信息;
将读取到的传感器信息进行转化计算得到寄存器温度;
三个温度信息进行对比判断;
如果其中一个的温度与其余两者的温度不同,则可以确定该部件出现异常。
2.如权利要求1所述的快速判定服务器环境温度监控异常原因的方法,其特征还在于,将读取到的传感器信息进行转化计算是将从寄存器中的十六进制数值转化为二进制数值并进行温度的换算。
3.如权利要求2所述的快速判定服务器环境温度监控异常原因的方法,其特征还在于,通过IPMI带外工具读取温度传感器的寄存器信息具体包括以下几个步骤:
步骤一:获取BMC的IP地址、用户名和密码;
步骤二:在系统主机上安装IPMI工具包,同时把主机的IP设置为和BMC的IP相同网段;
步骤三:通过网线连接主机和BMC专用管理网口,在主机DOS下执行读取温度传感器的寄存器信息命令。
CN201711190686.5A 2017-11-24 2017-11-24 一种快速判定服务器环境温度监控异常原因的方法 Pending CN107943654A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711190686.5A CN107943654A (zh) 2017-11-24 2017-11-24 一种快速判定服务器环境温度监控异常原因的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711190686.5A CN107943654A (zh) 2017-11-24 2017-11-24 一种快速判定服务器环境温度监控异常原因的方法

Publications (1)

Publication Number Publication Date
CN107943654A true CN107943654A (zh) 2018-04-20

Family

ID=61949688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711190686.5A Pending CN107943654A (zh) 2017-11-24 2017-11-24 一种快速判定服务器环境温度监控异常原因的方法

Country Status (1)

Country Link
CN (1) CN107943654A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450822A (zh) * 2018-10-30 2019-03-08 山东超越数控电子股份有限公司 一种带自身管理功能的交换机结构及控制方法
CN109614259A (zh) * 2018-11-28 2019-04-12 郑州云海信息技术有限公司 一种服务器PCIe设备定位故障原因的系统及方法
CN109981366A (zh) * 2019-03-28 2019-07-05 苏州浪潮智能科技有限公司 一种服务器sensor读值异常容错的报警方法
CN112114989A (zh) * 2020-08-19 2020-12-22 苏州浪潮智能科技有限公司 一种服务器系统故障诊断设计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122181A (zh) * 2011-03-23 2011-07-13 上海华为技术有限公司 一种控制温度的方法、网络管理系统和通信系统
CN102662818A (zh) * 2012-04-28 2012-09-12 浪潮电子信息产业股份有限公司 一种基于智能手持设备的服务器远程监控管理方法
CN103593028A (zh) * 2013-11-01 2014-02-19 浪潮电子信息产业股份有限公司 一种服务器环境温度的调控设计方法
CN105512004A (zh) * 2015-12-11 2016-04-20 浪潮电子信息产业股份有限公司 一种避免环境温、湿度异常导致服务器硬盘故障的方法
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102122181A (zh) * 2011-03-23 2011-07-13 上海华为技术有限公司 一种控制温度的方法、网络管理系统和通信系统
CN102662818A (zh) * 2012-04-28 2012-09-12 浪潮电子信息产业股份有限公司 一种基于智能手持设备的服务器远程监控管理方法
CN103593028A (zh) * 2013-11-01 2014-02-19 浪潮电子信息产业股份有限公司 一种服务器环境温度的调控设计方法
CN105512004A (zh) * 2015-12-11 2016-04-20 浪潮电子信息产业股份有限公司 一种避免环境温、湿度异常导致服务器硬盘故障的方法
CN106815119A (zh) * 2016-12-20 2017-06-09 曙光信息产业(北京)有限公司 服务器的硬件监控装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网友: ""BMC之ipmitool 命令收集"", 《URL:HTTPS://BLOG.CSDN.NET/ZYGBLOCK/ARTICLE/DETAILS/53432479》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109450822A (zh) * 2018-10-30 2019-03-08 山东超越数控电子股份有限公司 一种带自身管理功能的交换机结构及控制方法
CN109614259A (zh) * 2018-11-28 2019-04-12 郑州云海信息技术有限公司 一种服务器PCIe设备定位故障原因的系统及方法
CN109981366A (zh) * 2019-03-28 2019-07-05 苏州浪潮智能科技有限公司 一种服务器sensor读值异常容错的报警方法
CN112114989A (zh) * 2020-08-19 2020-12-22 苏州浪潮智能科技有限公司 一种服务器系统故障诊断设计方法
CN112114989B (zh) * 2020-08-19 2023-01-10 苏州浪潮智能科技有限公司 一种服务器系统故障诊断设计方法

Similar Documents

Publication Publication Date Title
CN103728965B (zh) 一种航空发动机的监视装置和方法、fadec系统
JP5571847B2 (ja) 複数の制御システムの異常を検知する異常検知システム
JP2020027615A (ja) サーバハードウェア障害の分析及びリカバリ
US20190004507A1 (en) Equipment management apparatus, equipment management system, computer readable medium, and equipment management method
US8340923B2 (en) Predicting remaining useful life for a computer system using a stress-based prediction technique
CN107943654A (zh) 一种快速判定服务器环境温度监控异常原因的方法
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和系统
CN111353911A (zh) 电力设备运维方法、系统、设备和存储介质
JP4573179B2 (ja) 性能負荷異常検出システム、性能負荷異常検出方法、及びプログラム
JP7260292B2 (ja) 異常診断装置及び異常診断方法
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN109976959A (zh) 一种用于服务器故障检测的便携式设备及方法
JP2017507432A (ja) 複数のセンサを有する測定システム
CN106201804A (zh) 一种测试计算机主板的装置、方法及系统
CN110471816B (zh) 固态硬盘的数据管理方法及装置
CN109344983A (zh) 故障检测方法、装置及计算机可读存储介质
CN117289085A (zh) 一种多线路故障分析诊断方法及系统
JP6482743B1 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
JP6574533B2 (ja) リスク評価装置、リスク評価システム、リスク評価方法、及び、リスク評価プログラム
CN116126772A (zh) 一种应用于arm服务器的uart串口管理系统及方法
CN118331161B (zh) 一种集中器运行环境监控管理系统
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN111654405B (zh) 通信链路的故障节点方法、装置、设备及存储介质
CN108880916B (zh) 一种基于iic总线的故障定位方法及系统
CN114265324B (zh) 设备运行状态的监测方法、装置及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180420