CN112148535A - 一种机架式设备双监控系统 - Google Patents
一种机架式设备双监控系统 Download PDFInfo
- Publication number
- CN112148535A CN112148535A CN202011037543.2A CN202011037543A CN112148535A CN 112148535 A CN112148535 A CN 112148535A CN 202011037543 A CN202011037543 A CN 202011037543A CN 112148535 A CN112148535 A CN 112148535A
- Authority
- CN
- China
- Prior art keywords
- monitoring board
- monitoring
- board
- standby
- rack
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3017—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is implementing multitasking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2035—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant without idle spare hardware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3031—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a motherboard or an expansion card
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0654—Management of faults, events, alarms or notifications using network fault recovery
- H04L41/0663—Performing the actions predefined by failover planning, e.g. switching to standby network elements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0811—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Cardiology (AREA)
- Environmental & Geological Engineering (AREA)
- Hardware Redundancy (AREA)
Abstract
本发明公开了一种机架式设备双监控系统,涉及机架式设备监控系统技术领域。该系统包括由多张监控板堆叠组成的监控系统,且多张监控板之间采用动态主备选举协议切换主监控板和备监控板;主监控板用于对每个任务的优先级进行设置,并且对机架式设备的运行状态进行监控,当机架式设备出现异常状态时进行上报并响应,并按任务优先级进行任务调度;备监控板用于与主监控板进行数据通信,并在异常状况下切换为主监控板。本发明采用独立监控板,不占用管理卡资源,同时采用监控板堆叠技术,将多张监控板进行堆叠,大大提高了机架式设备运行的稳定性与安全性,能够有效的监控机架式设备的运行状态,并对机架式设备运行过程中出现的各种情况进行处理。
Description
技术领域
本发明涉及机架式设备监控系统技术领域,具体涉及一种机架式设备双监控系统。
背景技术
对于机架式设备,由于机架中板卡数量较多,这些板卡大致可以分为管理性板卡和业务性板卡。业务性板卡主要用于业务性报文转发,管理性板卡用于对这些业务板卡的运行状态以及配置数据管理,它们之间有专用的管理通路。由于机架设备的复杂特性,整机的稳定性与安全性对整个机架式设备显得尤为重要,若机架运行状态不稳定,很可能出现管理板卡下发的配置数据被丢失导致业务板报文转发异常;也可能出现电源、电流波动、机箱温度过高等情况,导致各个板卡异常下电甚至烧毁板卡;为了保证机架式设备能够安全稳定的运行,需要有专门的监控系统,用于监视整个机架的运行状态,例如:机架中温度、电压、电流等。当监控系统发现机架设备运行异常时,要能够做出相应的处理,例如:(1)当监控到机架中温度过高时,就调节风扇转速,增强风扇转速将机架内部热量释出,温度降下来之后则降低风扇转速,增加整个系统的能效比;(2)当监控到机架式设备中电源模块的电压或电流异常时,将发生异常的电压模块进行相应的处理,并发送系统级告警,便于用户查看整机的运行状态并做相应处理。
目前,国内外机架式设备的监控系统主要有两种实现方案:
(1)一般而言,在管理卡上实现对整机温度、电源、电流、能效比等运行状态进行监控,发生异常时做出相应的响应。
在管理卡上实现监控系统,需要占用管理卡CPU资源,管理卡在管理多张业务板时,本身就占用大量CPU资源,其资源紧张。若再在管理卡上实现整机运行状态的监控系统,那么机箱的运行效率将受到影响。为了不影响管理卡上的其他任务,很难做到对机箱的实时响应。
(2)使用单片机设计独立的监控板,让监控板来监控整机的运行状态,并对各种突发状况进行响应。在这种监控板上,由于其目的单一,一般运行裸机程序来实现对机箱运行状态的监控。监控板单独运行,它不占用机箱中管理板卡的资源。
使用单片机裸机程序来实现机箱运行状态的监控,该方案虽然不占用管理卡CPU资源,但是裸机程序中不存在任务调度以及优先级的概念,所有任务都是按先后顺序执行,发生嵌套中断时,在中断服务程序执行结束并退出的时候,会返回到被中断的代码位置继续执行,存在着异常状态上报后,处理不及时的情况,这种情况下也可能导致机箱运行不稳定。
发明内容
针对现有技术中的上述不足,本发明提供了一种机架式设备双监控系统。
为了达到上述发明目的,本发明采用的技术方案为:
一种机架式设备双监控系统,包括由多张监控板堆叠组成的监控系统,且多张监控板之间采用动态主备选举协议切换主监控板和备监控板;
所述主监控板用于对每个任务的优先级进行设置,并且对机架式设备的运行状态进行监控,当机架式设备出现异常状态时进行上报响应,并按任务优先级进行任务调度;
所述备监控板用于与所述主监控板进行数据通信,并在异常状况下切换为主监控板。
本发明的有益效果是:本发明采用独立的监控板,不占用管理卡资源,并能有效的监控机架式设备的运行状态,并对机架式设备运行过程中出现的各种情况进行处理;同时采用监控板堆叠技术,将多张监控板进行堆叠,大大提高了机架式设备运行的稳定性与安全性。当主监控板发生异常时,由备监控接替主监控板的工作,迅速完成主备切换。
优选地,所述监控板采用单片机并基于UCOSIII操作系统对每个任务的优先级进行设置并进行任务调度。
上述优选方案的有益效果是:本发明的监控板采用单片机并基于Real-TimeOperation System之一的UCOSIII操作系统进行监控软件设计,通过更改底层汇编代码,使UCOSIII操作系统能够运行在独立设计的监控板上,相比裸机程序可利用UCOSIII操作系统根据实际的需求对监控板上各个任务的优先级进行设定,然后由操作系统按该优先级来对各个任务进行调度,能够及时响应高优先级的任务,能够克服在涉及多级中断嵌套,退出中断服务程序的后,裸机程序由于返回被中断的位置继续执行而导致机架异常事件上报后得不到及时处理的问题。当监控板检测到机架中出现异常的时候,监控系统能够及时地检测到该异常并作出相应的处理。
优选地,所述监控板采用启动时序控制,设定监控板对应槽位的启动时序,并将先启动的监控板设置为主监控板,其它监控板作为备监控板。
上述优选方案的有益效果是:本发明采用启动时序控制可以有效的保证在初始状态下,选出一张监控板作为主监控板,另外一张监控板为备监控板,以便简化两张监控板初始状态下的主备选举,确保在整机其他部件起来前,双监控系统已经正常运行。
优选地,所述多张监控板启动后检测对端监控板是否为设定的在位电平值;若是,则该监控板将自身状态设置为备监控状态,再发出本板在位信号;否则,该监控板先发出本板在位信号,再将自身状态设置为主监控状态。
上述优选方案的有益效果是:本发明能够确保两张监控板的主备状态是互斥的,即一张为主监控板,另外一张为备监控板;并结合上述启动时序控制,可以有效控制两张监控板的启动时序。
优选地,所述动态主备选举协议具体为:
主监控板周期性地向备监控板发送心跳报文或者同步报文,并以中断的方式通知备监控板心跳报文或者同步报文已经发送;
在主监控板发送心跳报文之后,触发中断通知备监控板,备监控板收到该中断信号后向对应任务中发送心跳报文事件标志,然后由心跳报文事件标志触发心跳报文处理任务,若备监控板收到的心跳报文是正常的心跳报文,则处理结束;否则,记录未收到正常心跳报文的次数,当该次数超过预先设定的阈值时,切换监控板的运行状态,使自身成为主监控板,并将对端原主监控板复位,使其恢复初始状态;
在主监控板发送同步报文之后,触发中断通知备监控板,备监控板收到该中断信号后向对应的处理任务发送同步报文事件标志,然后由同步报文事件标志触发同步报文处理任务,若备监控板收到的同步报文是正常的同步报文,则将同步报文的内容保存。
上述优选方案的有益效果是:本发明能够保证在系统运行过程中,当出现主监控板运行异常时可以让备监控板迅速接替原主监控板的工作。
优选地,所述监控板将自身任务的运行状态保存在一个状态机中,并周期性地检查状态机中任务运行状态,并根据任务运行状态进行相应处理,即:
首先判断该监控板是否为主监控板,若是则检查状态机中任务运行状态,若状态正常,则处理结束,否则将本监控板状态置为备监控板,并以中断的方式通知对端备监控板;若本监控板为备监控板,则检查状态机中任务运行状态,若状态正常,则处理结束;否则,通过中断告知对端主监控板。
上述优选方案的有益效果是:本发明能够保证当原主监控板在运行过程中出现问题时,由动态选举协议切换主备监控板之后,新选出的主监控板能有电源、风扇等器件的一个初始数据。
优选地,所述主监控板和备监控板在机架中的管理卡启动后,接收管理卡发送的监控板主备选举报文,根据监控板主备选举报文进行对应的主备状态切换。
上述优选方案的有益效果是:本发明中双监控板的主备状态可以由管理卡来进行配置,实现主备选举的灵活操作。
优选地,所述管理卡与监控板之间通过通信模块进行数据交互,其中数据交互的方法为:
首先等待帧处理事件标志;若帧处理事件标志发生,则对直接存储器访问缓冲区中的数据进行处理,并将数据解析为有效的帧,然后进行相应处理;若帧处理事件标志没有发生,则进入等待态,利用UCOSIII操作系统进行任务切换,调度就绪任务表中优先级最高的任务。
上述优选方案的有益效果是:本发明通过对UCOSIII操作系统的事件标志进行处理,可以充分利用CPU资源,在没有事件发生时CPU可以去做其他任务。
优选地,所述通信模块调用帧处理模块对直接存储器访问缓冲区中的数据进行处理的方法为:
首先识别主监控板,确定需要处理直接存储器访问缓冲区中的数据;再从直接存储器访问缓冲区中查找帧尾,然后根据帧尾查找帧头;再在循环缓冲区中查询自定义协议的完整的帧;若能找到,则对完整的帧进行CRC校验,若校验通过,则找到的帧为有效的帧,然后对该有效的帧进行处理,否则处理结束,并清理缓冲区中该帧的数据,并通告对端该帧有CRC错误,需要重传;若不能在该缓冲区中找到完整的一帧数据,则结束处理,并从缓冲区中清理掉该帧。
上述优选方案的有益效果是:本发明使用直接存储器访问方式进行数据传输,不占用CPU性能,能够加快直接存储器访问缓冲区中帧处理的效率;并且在直接存储器访问缓冲区中的数据达到阈值后,能够触发中断并向任务发送事件标志,从而触发任务处理流程。
优选地,所述主监控板对机架式设备的运行状态进行监控包括读取风扇转速、根据管理卡下发的风扇转速值进行风扇转速调节、查询电源信息、电源异常检测及处理;其中电源异常检测方法为:
首先判断电源模块是否在线;若是,则读取电源模块状态寄存器;否则将异常记录清零并对相关器件进行处理;
再判断电源是否异常;若是,则记录电源模块出现的异常次数;否则将异常记录清零并对相关器件进行处理;
最后判断电源模块出现的异常次数是否大于设定次数;若是,则进行相应的异常处理;否则结束检测。
上述优选方案的有益效果是:本发明能够避免由瞬间出现的瞬间微小的波动,实现将电源模块下电处理。
附图说明
图1为本发明的机架式设备双监控系统结构示意图;
图2为本发明实施例中双监控系统启动时主备选举信号交互示意图;
图3为本发明实施例中双监控系统启动时监控板的主备选举流程示意图;
图4为本发明实施例中双监控系统之间动态主备选举流程示意图;
图5为本发明实施例中双监控板之间同步报文及心跳报文处理流程示意图;
图6为本发明实施例中管理卡下发监控板的主备选举报文流程示意图;
图7为本发明实施例中管理卡与监控板的通信模块处理流程示意图;
图8为本发明实施例中管理卡与监控板之间帧处理流程示意图;
图9为本发明实施例中双监控系统任务优先级分布示意图;
图10为本发明实施例中电源异常检测流程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,本发明实施例提供了一种机架式设备双监控系统,包括由多张监控板堆叠组成的监控系统,且多张监控板之间采用动态主备选举协议切换主监控板和备监控板;
所述主监控板用于对每个任务的优先级进行设置,并且对机架式设备的运行状态进行监控,当机架式设备出现异常状态时进行上报响应,并按任务优先级进行任务调度;
所述备监控板用于与所述主监控板进行数据通信,并在异常状况下切换为主监控板。
本发明不使用管理卡来进行机架式运行状态的管理,而通过对监控板进行堆叠,使用两张监控板来对机架运行状态进行监控,一张主监控板与一张备监控板,主监控板和备监控板之间通过通信接口进行数据交互。一般情况下,由主监控板来对机架式设备的运行状态进行监控,当收到管理卡下发主备切换,或者是主备监控板心跳报文异常、自身任务运行状态异常、主备监控板通信中断时,由备监控板切换为主监控板继续进行监控工作。
在本发明的一个可选实施例中,本发明的监控板采用单片机并基于UCOSIII操作系统开发设计监控软件。本发明利用UCOSIII操作系统进行任务调度,对每个任务设置优先级,当机架式设备在运行过程中出现异常时,通过中断对该异常状态进行上报,中断服务程序退出后,系统将从已就绪任务中调度优先级最高的任务。因此,本发明可以根据实际的需求,对整个系统中各个任务的优先级进行设置,来达到实时响应的效果。
在本发明的一个可选实施例中,由于监控板启动远比管理卡快,因此在系统上电或者复位时,两张监控板先根据谁先上线谁为主的原则,然后主监控获取机架相关信息,以便管理卡启动之后来读取信息。之后再进行两张监控板运行过程中的主备动态选举,或者是接受管理卡的主备选举报文,强制对两张监控板进行主备选举。
如图2所示,双监控系统启动时,本发明利用本板在位信号与远端在位信号信号进行启动时序控制,设定监控板对应槽位的启动时序,并将先启动的监控板设置为主监控板,其它监控板作为备监控板。例如,设定槽位1比槽位2的监控板先启动。
双监控系统启动时,监控板的主备选举流程如图3所示。双监控系统启动后,首先检测对端监控板是否为设定的在位电平值;若是,则表明对端已经在位,且对端状态为主监控状态,此时该监控板将自身状态设置为备监控状态,然后发出本板在位信号;否则,表明对端不在位,此时该监控板先发出本板在位信号,然后将自身状态设置为主监控状态。对于图2中,监控板1(Monitor1)的对端在位信号为remote_present_sig,本板在位信号为local_present_sig,而对于监控板1(Monitor2)对端在位信号为图中的local_remote_sig,而本板在位信号为remote_present_sig。
在本发明的一个可选实施例中,在双监控系统启动后,管理卡还处于启动过程中,此时主监控板和备监控板之间通过动态主备选举协议切换主备监控状态,主监控板定期地向备监控发送同步报文,同步报文内容为监控板所需要的监控的机架式设备的状态信息。
主监控板和备监控板之间的动态主备选举协议具体为:
主监控板周期性地向备监控板发送心跳报文或者同步报文,并以中断的方式通知备监控板心跳报文或者同步报文已经发送;
在主监控板发送心跳报文之后,触发中断通知备监控板,备监控板收到该中断信号后向对应任务中发送心跳报文事件标志,然后由心跳报文事件标志触发心跳报文处理任务,若备监控板收到的心跳报文是正常的心跳报文,则处理结束;否则,记录未收到正常心跳报文的次数,当该次数超过预先设定的阈值时,切换监控板的运行状态,使自身成为主监控板,并将对端原主监控板复位,使其恢复初始状态;
在主监控板发送同步报文之后,触发中断通知备监控板,备监控板收到该中断信号后向对应的处理任务发送同步报文事件标志,然后由同步报文事件标志触发同步报文处理任务,若备监控板收到的同步报文是正常的同步报文,则将同步报文的内容保存,如风扇转速、电源信息等,以便在需要主备切换时,使用它来完成自己初始状态的设置。
主监控板向备监控板发送心跳报文与同步报文的周期是不同的,同时备监控板检测接收的心跳报文与同步报文的周期也是不同的,从而使得主备监控板都能及时处理这些报文,同时又不影响本板优先级高的任务的执行效率。
双监控板之间动态主备选举协议流程,如图4所示。备监控板若正常接收到主监控板发送的心跳报文与同步报文,则双监控系统的主备状态保持不变;否则,备监控板切换为主监控状态,同时将原主监控板复位,并将该事件以事件的方式通知管理卡,以此来实现主备选举功能;此处复位是因为主监控此时可能工作异常或者双监控之间的通信通路出现异常,此时原主监控板已经不能感知该主备状态的变化。
监控板将自身任务的运行状态保存在一个状态机中,并周期性地检查状态机中,任务运行的状态,并根据任务运行状态,做出相应的处理。其处理方法为:
首先判断该监控板是否为主监控板,若是则检查状态机中任务运行状态,若状态正常,则处理结束。否则,将本监控板状态置为备监控板,并以中断的方式通知对端备监控板,以便完成整个监控系统的主备切换。若本监控板为备监控板,则检查状态机中任务运行状态,若状态正常,则处理结束;否则,将通过中断告知对端主监控板,以便主监控板对备监控板做相应的处理,如复位备监控板等。
如图5所示,主监控板和备监控板之间通过同步报文模块进行同步,其中同步报文模块的处理方法为:
首先判断监控板是否为主监控板;若是,则将通信接口模式动态切换为主监控状态,然后按照第一周期向备监控板发送心跳报文和同步报文;否则,将通信接口模式动态切换为备监控状态,然后按照第二周期接收心跳报文和同步报文,并对同步报文进行处理。
在本发明的一个可选实施例中,在机架设备中的管理卡启动后,双监控板之间仍然运行动态主备选举协议,同时能够接收管理卡发送的监控板主备选举报文,然后根据监控板主备选举报文进行对应的主备状态切换。
如图6所示,管理卡启动后,管理卡下发到主监控的报文没有得到响应,可以由管理卡以命令的形式向两张监控板下发主备选举报文,来完成主备选举。管理卡生成的要下发到两张监控板的报文在实际发送之前会经由管理卡与监控系统之间的通信模块进行检查,确定其发送的主备选举报文的主备状态是否互斥,如果为互斥的,则继续后续流程;否则直接终止,不进行后续流程。这里后续流程具体为:监控板接收主备选举报文,判断是否选举本板为主监控板;若是,则将自身状态设置为主监控状态,否则将自身状态设置为备监控状态。
管理卡与监控板之间通过通信模块进行数据交互,通信任务加入到UCOSIII操作系统内核中时,进入就绪态。其中数据交互的方法为:
首先等待帧处理事件标志;若帧处理事件标志发生,则对直接存储器访问(DirectMemory Access,DMA)缓冲区中的数据进行处理,并将数据解析为有效的帧,然后进行相应处理,即对电源模块信息查询、风扇转速查询、风扇转速控制等处理;这里事件标志的产生,是由DMA外设是否接收到半满或满的数据,触发相应的中断,在中断服务函数中,向该通信任务发送事件标志;若帧处理事件标志没有发生,则进入等待态,利用UCOSIII操作系统进行任务切换,调度就绪任务表中优先级最高的任务。通信模块的处理流程如图7所示。
如图8所示,通信模块调用帧处理模块对直接存储器访问缓冲区中的数据进行处理的方法为:
首先识别主监控板,确定需要处理直接存储器访问缓冲区中的数据;再从直接存储器访问缓冲区中查找帧尾,然后根据帧尾查找帧头;再在循环缓冲区中查询自定义协议的完整的帧;若能找到,则对完整的帧进行CRC校验,若校验通过,则找到的帧为有效的帧,然后对该有效的帧进行处理,即根据帧的type,来进行对应的操作,如:查询电源模块信息、查询风扇转速、控制风扇转速等;否则处理结束,并清理缓冲区中该帧的数据,并通告对端该帧有CRC错误,需要重传;若不能在该缓冲区中找到完整的一帧数据,则结束处理,并从缓冲区中清理掉该帧。
在本发明的一个可选实施例中,双监控系统正常启动后,本发明将监控系统中的各个任务按照任务优先级添加到UCOSIII操作系统中,任务的数量可以根据需求进行增减,任务的优先级也可以根据实际的需求进行调整。
双监控系统中任务优先级分布如图9所示,优先级从上到下逐渐降低,中断服务管理任务、时钟节拍任务、空闲任务属于UCOSIII操作系统的系统级任务,其他任务为本监控系统的用户级任务,包括:启动任务、系统启动第一个任务级任务、管理卡与监控间的帧处理任务、电源异常检测任务、风扇异常检测任务、风扇转速获取任务、电源信息获取任务、双监控板之间的同步报文任务。启动任务是完成各个用户级任务的创建,然后开启UCOSIII操作系统;系统启动第一个任务级任务是对一些需要操作系统开启后才可使用模块的一些初始化;管理卡与监控间的帧处理任务是完成管理卡与监控之家通信的帧处理;电源异常检测任务是周期性地对电源模块运行状态进行检查,并对出现的异常进行相应的处理;风扇异常检测任务是周期性地对各个风扇运行状态进行检查,若出现异常,则进行相应的处理;风扇信息获取任务是周期性获取风扇转速信息;电源信息获取任务是周期性获取电源相关信息。
当然系统中并不限于这些任务,UCOSIII操作系统中并没有对任务数量进行限制,可以根据实际需要来进行添加任务。
在本发明的一个可选实施例中,主监控板对机架式设备的运行状态进行监控包括读取风扇转速、根据管理卡下发的风扇转速值进行风扇转速调节、查询电源信息、电源异常检测及处理。
获取风扇转速流程为:先判断本板主备状态,若为主监控板,则周期性地读取风扇转速,若为备监控板,则直接退出该任务。
风扇异常检测流程为:先判断本板主备状态,若为主监控板,则进行异常检测并进行相应的处理,若为备监控板,则直接退出该任务。
电源信息采集处理流程为:先判断本板是否为主监控板,若为主监控板,则周期性地查询电源信息,若为备监控板,则直接结束该任务。
电源异常检测处理流程为:先判断本板主从状态,若为主监控板,则进行异常检测及处理;若为备监控板,则不进行异常检测,但是要做一些收尾处理,即对备监控板上一些用作指示设备运行状态的led进行控制,让其恢复成初始状态。
如图10所示,电源异常检测方法为:
首先判断电源模块是否在线;若是,则读取电源模块状态寄存器;否则将异常记录清零并对相关器件进行处理;
再判断电源是否异常;若是,则记录电源模块出现的异常次数;否则将异常记录清零并对相关器件进行处理;
最后判断电源模块出现的异常次数是否大于设定次数;若是,则进行相应的异常处理;否则结束检测。
对于设备供电安全,如电源模块输出过流、过压等可能导致设备烧毁的异常,采取设置电源模块中相关参数(电压、电流等)的阈值,若达到阈值,则由电源模块断开其输出,防止设备因过流、过压等异常导致的损坏。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种机架式设备双监控系统,其特征在于,包括由多张监控板堆叠组成的监控系统,且多张监控板之间采用动态主备选举协议切换主监控板和备监控板;
所述主监控板用于对每个任务的优先级进行设置,并且对机架式设备的运行状态进行监控,当机架式设备出现异常状态时进行上报响应,并按任务优先级进行任务调度;
所述备监控板用于与所述主监控板进行数据通信,并在异常状况下切换为主监控板。
2.根据权利要求1所述的机架式设备双监控系统,其特征在于,所述监控板采用单片机并基于UCOSIII操作系统对每个任务的优先级进行设置并进行任务调度。
3.根据权利要求2所述的机架式设备双监控系统,其特征在于,所述监控板采用启动时序控制,设定监控板对应槽位的启动时序,并将先启动的监控板设置为主监控板,其它监控板作为备监控板。
4.根据权利要求3所述的机架式设备双监控系统,其特征在于,所述多张监控板启动后检测对端监控板是否为设定的在位电平值;若是,则该监控板将自身状态设置为备监控状态,再发出本板在位信号;否则,该监控板先发出本板在位信号,再将自身状态设置为主监控状态。
5.根据权利要求4所述的机架式设备双监控系统,其特征在于,所述动态主备选举协议具体为:
主监控板周期性地向备监控板发送心跳报文或者同步报文,并以中断的方式通知备监控板心跳报文或者同步报文已经发送;
在主监控板发送心跳报文之后,触发中断通知备监控板,备监控板收到该中断信号后向对应任务中发送心跳报文事件标志,然后由心跳报文事件标志触发心跳报文处理任务,若备监控板收到的心跳报文是正常的心跳报文,则处理结束;否则,记录未收到正常心跳报文的次数,当该次数超过预先设定的阈值时,切换监控板的运行状态,使自身成为主监控板,并将对端原主监控板复位,使其恢复初始状态;
在主监控板发送同步报文之后,触发中断通知备监控板,备监控板收到该中断信号后向对应的处理任务发送同步报文事件标志,然后由同步报文事件标志触发同步报文处理任务,若备监控板收到的同步报文是正常的同步报文,则将同步报文的内容保存。
6.根据权利要求5所述的机架式设备双监控系统,其特征在于,所述监控板将自身任务的运行状态保存在一个状态机中,并周期性地检查状态机中任务运行状态,并根据任务运行状态进行相应处理,即:
首先判断该监控板是否为主监控板,若是则检查状态机中任务运行状态,若状态正常,则处理结束,否则将本监控板状态置为备监控板,并以中断的方式通知对端备监控板;若本监控板为备监控板,则检查状态机中任务运行状态,若状态正常,则处理结束;否则,通过中断告知对端主监控板。
7.根据权利要求6所述的机架式设备双监控系统,其特征在于,所述主监控板和备监控板在机架设备中的管理卡启动后,接收管理卡发送的监控板主备选举报文,根据监控板主备选举报文进行对应的主备状态切换。
8.根据权利要求7所述的机架式设备双监控系统,其特征在于,所述管理卡与监控板之间通过通信模块进行数据交互,其中数据交互的方法为:
首先等待帧处理事件标志;若帧处理事件标志发生,则对直接存储器访问缓冲区中的数据进行处理,并将数据解析为有效的帧,然后进行相应处理;若帧处理事件标志没有发生,则进入等待态,利用UCOSIII操作系统进行任务切换,调度就绪任务表中优先级最高的任务。
9.根据权利要求8所述的机架式设备双监控系统,其特征在于,所述通信模块调用帧处理模块对直接存储器访问缓冲区中的数据进行处理的方法为:
首先识别主监控板,确定需要处理直接存储器访问缓冲区中的数据;再从直接存储器访问缓冲区中查找帧尾,然后根据帧尾查找帧头;再在循环缓冲区中查询自定义协议的完整的帧;若能找到,则对完整的帧进行CRC校验,若校验通过,则找到的帧为有效的帧,然后对该有效的帧进行处理,否则处理结束,并清理缓冲区中该帧的数据,并通告对端该帧有CRC错误,需要重传;若不能在该缓冲区中找到完整的一帧数据,则结束处理,并从缓冲区中清理掉该帧。
10.根据权利要求9所述的机架式设备双监控系统,其特征在于,所述主监控板对机架式设备的运行状态进行监控包括读取风扇转速、根据管理卡下发的风扇转速值进行风扇转速调节、查询电源信息、电源异常检测及处理;其中电源异常检测方法为:
首先判断电源模块是否在线;若是,则读取电源模块状态寄存器;否则将异常记录清零并对相关器件进行处理;
再判断电源是否异常;若是,则记录电源模块出现的异常次数;否则将异常记录清零并对相关器件进行处理;
最后判断电源模块出现的异常次数是否大于设定次数;若是,则进行相应的异常处理;否则结束检测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011037543.2A CN112148535B (zh) | 2020-09-28 | 2020-09-28 | 一种机架式设备双监控系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011037543.2A CN112148535B (zh) | 2020-09-28 | 2020-09-28 | 一种机架式设备双监控系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112148535A true CN112148535A (zh) | 2020-12-29 |
CN112148535B CN112148535B (zh) | 2023-09-01 |
Family
ID=73895119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011037543.2A Active CN112148535B (zh) | 2020-09-28 | 2020-09-28 | 一种机架式设备双监控系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112148535B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113719463A (zh) * | 2021-07-20 | 2021-11-30 | 深圳市风云实业有限公司 | 一种机架设备的散热系统及其异常识别方法 |
CN115941450A (zh) * | 2022-12-13 | 2023-04-07 | 深圳市瑞沃德生命科技有限公司 | 用于板卡堆叠拓展的通信切换方法、装置、系统及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997024670A1 (fr) * | 1995-12-27 | 1997-07-10 | Koken Co., Ltd. | Dispositif de controle |
CN1321004A (zh) * | 2000-04-25 | 2001-11-07 | 华为技术有限公司 | 交换机的主备倒换方法及其实现装置 |
CN1815908A (zh) * | 2006-03-02 | 2006-08-09 | 迈普(四川)通信技术有限公司 | 通信设备主从切换方法及通信设备 |
CN101290588A (zh) * | 2008-03-07 | 2008-10-22 | 重庆邮电大学 | 一种微嵌入式实时任务调度器及调度方法 |
CN101841735A (zh) * | 2009-03-17 | 2010-09-22 | 华为技术有限公司 | 框式交换机及堆叠系统以及堆叠后故障处理方法 |
US20150195102A1 (en) * | 2014-01-09 | 2015-07-09 | Alaxala Networks Corporation | Data transfer device system, network system, and method of changing configuration of network system |
CN109597723A (zh) * | 2018-11-26 | 2019-04-09 | 南京轨道交通系统工程有限公司 | 用于地铁综合监控系统的双机热备冗余实现系统及方法 |
CN111338992A (zh) * | 2020-02-25 | 2020-06-26 | 邦彦技术股份有限公司 | 基于fpga的vpx机框板卡管理方法和装置 |
CN111628944A (zh) * | 2020-05-25 | 2020-09-04 | 深圳市信锐网科技术有限公司 | 交换机及交换机系统 |
-
2020
- 2020-09-28 CN CN202011037543.2A patent/CN112148535B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1997024670A1 (fr) * | 1995-12-27 | 1997-07-10 | Koken Co., Ltd. | Dispositif de controle |
CN1321004A (zh) * | 2000-04-25 | 2001-11-07 | 华为技术有限公司 | 交换机的主备倒换方法及其实现装置 |
CN1815908A (zh) * | 2006-03-02 | 2006-08-09 | 迈普(四川)通信技术有限公司 | 通信设备主从切换方法及通信设备 |
CN101290588A (zh) * | 2008-03-07 | 2008-10-22 | 重庆邮电大学 | 一种微嵌入式实时任务调度器及调度方法 |
CN101841735A (zh) * | 2009-03-17 | 2010-09-22 | 华为技术有限公司 | 框式交换机及堆叠系统以及堆叠后故障处理方法 |
US20150195102A1 (en) * | 2014-01-09 | 2015-07-09 | Alaxala Networks Corporation | Data transfer device system, network system, and method of changing configuration of network system |
CN109597723A (zh) * | 2018-11-26 | 2019-04-09 | 南京轨道交通系统工程有限公司 | 用于地铁综合监控系统的双机热备冗余实现系统及方法 |
CN111338992A (zh) * | 2020-02-25 | 2020-06-26 | 邦彦技术股份有限公司 | 基于fpga的vpx机框板卡管理方法和装置 |
CN111628944A (zh) * | 2020-05-25 | 2020-09-04 | 深圳市信锐网科技术有限公司 | 交换机及交换机系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113719463A (zh) * | 2021-07-20 | 2021-11-30 | 深圳市风云实业有限公司 | 一种机架设备的散热系统及其异常识别方法 |
CN115941450A (zh) * | 2022-12-13 | 2023-04-07 | 深圳市瑞沃德生命科技有限公司 | 用于板卡堆叠拓展的通信切换方法、装置、系统及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112148535B (zh) | 2023-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6012150A (en) | Apparatus for synchronizing operator initiated commands with a failover process in a distributed processing system | |
CN102761439B (zh) | Pon接入系统中基于看门狗的异常检测记录装置及方法 | |
US6502206B1 (en) | Multi-processor switch and main processor switching method | |
CN103354503A (zh) | 一种可自动检测及替换故障节点的云存储系统及其方法 | |
CN111475288A (zh) | 一种服务器及其供电保护系统 | |
CN112148535A (zh) | 一种机架式设备双监控系统 | |
US20150019671A1 (en) | Information processing system, trouble detecting method, and information processing apparatus | |
CN101964724A (zh) | 通信单板的节能方法和一种通信单板 | |
CN112631820A (zh) | 软件系统的故障恢复方法及装置 | |
JP3712556B2 (ja) | 電源装置、電源制御装置および電源システムのスケジュール運転監視制御方法 | |
CN117992270B (zh) | 一种内存资源管理系统、方法、装置、设备及存储介质 | |
CN114828135B (zh) | 一种网络旁路功能控制处理方法和装置 | |
CN109408293B (zh) | 一种实时监测rack机柜电源的方法 | |
CN114509981A (zh) | 控制器硬件冗余控制方法及系统 | |
CN101174230B (zh) | 一种多核处理器活性检测方法及系统 | |
CN117544584B (zh) | 基于双cpu架构的控制方法、装置、交换机及介质 | |
CN102629228B (zh) | 多核通信系统中检测数据核故障的方法及装置 | |
WO2024119777A1 (zh) | 框式设备通信链路异常处理方法、框式设备及介质 | |
KR100784595B1 (ko) | 이동통신 시스템에서 프로세스 상태 관리 방법 | |
US20240219986A1 (en) | Multi-node system and power supply control method | |
JPH07121394A (ja) | 多重化装置 | |
CN116962906A (zh) | 故障处理方法、基带板、主控板、电子设备及存储介质 | |
JP2005018710A (ja) | 複数の電源入力部を持つ情報処理装置に対応した無停電電源装置及び情報処理システム | |
JP2000148540A (ja) | プロセッサシステム | |
CN118409931A (zh) | 一种多线程的监测系统、方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |