[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114816539A - 设备板卡、电子设备及设备板卡的控制方法 - Google Patents

设备板卡、电子设备及设备板卡的控制方法 Download PDF

Info

Publication number
CN114816539A
CN114816539A CN202110112993.1A CN202110112993A CN114816539A CN 114816539 A CN114816539 A CN 114816539A CN 202110112993 A CN202110112993 A CN 202110112993A CN 114816539 A CN114816539 A CN 114816539A
Authority
CN
China
Prior art keywords
controller
sensor
signal
management controller
hardware controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110112993.1A
Other languages
English (en)
Inventor
王新兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110112993.1A priority Critical patent/CN114816539A/zh
Publication of CN114816539A publication Critical patent/CN114816539A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/4401Bootstrapping
    • G06F9/442Shutdown

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Power Sources (AREA)

Abstract

本申请实施例公开了一种设备板卡、电子设备及设备板卡的控制方法,属于板卡技术领域。所述设备板卡包括PSU、保护电路、管理控制器、硬件控制器和至少一个传感器;其中,PSU与保护电路耦合,保护电路分别与管理控制器和硬件控制器耦合,管理控制器与硬件控制器耦合;传感器用于在确定设备板卡的运行状态发生异常的情况下,向硬件控制器发送告警信号;硬件控制器用于基于告警信号向管理控制器发送中断信号;硬件控制器还用于在管理控制器超时未发送关机信号的情况下,向保护电路发送关闭信号。本申请实施例可以有效降低设备板卡烧板现象发生的概率。

Description

设备板卡、电子设备及设备板卡的控制方法
技术领域
本申请实施例涉及板卡技术领域,特别涉及一种设备板卡、电子设备及设备板卡的控制方法。
背景技术
服务器在工业使用中,往往会出现各种各样的烧板现象,小到电子元器件的烧毁,大到整个服务器着火,无论何种烧板现象,都对服务器的使用带来严重影响。
在相关技术中,导致服务器发生烧板现象的原因有很多,PCB(Printed CircuitBoard,印刷电路板)制程不良、电子元器件损坏或异常、工作环境超出元器件标准、连接器接触不良、元器件到达使用寿命、散热较差等原因都有机会导致服务器烧板,而通常烧板现象比较难以复现。通常通过基板管理控制器向可编程逻辑器件发送关机指令,可编程逻辑器件才会向保护电路发送关闭信号,从而停止向服务器板卡供电。
然而,上述相关技术中基板管理控制器的处理时效性差,无法保证及时地向可编程逻辑器件发送关机指令,从而可能导致板卡烧板现象。
发明内容
本申请实施例提供了一种设备板卡、电子设备及设备板卡的控制方法,有效降低了设备板卡烧板现象发生的概率。技术方案如下:
一方面,本申请实施例提供一种设备板卡,所述设备板卡包括电源供电单元PSU、保护电路、管理控制器、硬件控制器和至少一个传感器;其中,所述PSU与所述保护电路耦合,所述保护电路分别与所述管理控制器和所述硬件控制器耦合,所述管理控制器与所述硬件控制器耦合;
所述传感器用于在确定所述设备板卡的运行状态发生异常的情况下,向所述硬件控制器发送告警信号;
所述硬件控制器用于基于所述告警信号向所述管理控制器发送中断信号,所述中断信号用于触发所述管理控制器在成功记录异常数据的情况下向所述硬件控制器发送关机信号;
所述硬件控制器还用于在所述管理控制器超时未发送所述关机信号的情况下,向所述保护电路发送关闭信号,所述关闭信号用于触发所述保护电路停止基于所述PSU向所述设备板卡供电。
另一方面,本申请实施例提供一种电子设备,所述电子设备包括如上述方面所述的设备板卡。
另一方面,本申请实施例提供一种设备板卡的控制方法,所述设备板卡包括电源供电单元PSU、保护电路、管理控制器、硬件控制器和至少一个传感器;其中,所述PSU与所述保护电路耦合,所述保护电路分别与所述管理控制器和所述硬件控制器耦合,所述管理控制器与所述硬件控制器耦合;
所述方法包括:
所述传感器在确定所述设备板卡的运行状态发生异常的情况下,向所述硬件控制器发送告警信号;
所述硬件控制器基于所述告警信号向所述管理控制器发送中断信号,所述中断信号用于触发所述管理控制器在成功记录异常数据的情况下向所述硬件控制器发送关机信号;
所述硬件控制器在所述管理控制器超时未发送所述关机信号的情况下,向所述保护电路发送关闭信号,所述关闭信号用于触发所述保护电路停止基于所述PSU向所述设备板卡供电。
本申请实施例提供的技术方案可以带来如下有益效果:
硬件控制器在超时未接收到来自于管理控制器的关机信号的情况下,直接向保护电路发送关闭信号,而不是等待管理控制器的响应,相较于相关技术中硬件控制器一直在等待接收来自于管理控制器的关机信号后,才向保护电路发送关闭信号,本申请实施例可以在设备板卡发生烧板现象之前就先关闭电源保护设备板卡,有效降低设备板卡烧板现象发生的概率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的设备板卡的示意图;
图2是本申请另一个实施例提供的设备板卡的示意图;
图3是本申请一个实施例提供的电流传感器的示意图;
图4是本申请一个实施例提供的温度传感器的示意图;
图5是本申请一个实施例提供的硬件控制器的示意图;
图6是本申请一个实施例提供的电子设备的示意图;
图7是本申请一个实施例提供的设备板卡的控制方法的流程图;
图8是本申请一个实施例提供的服务器板卡的控制方法的流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的设备板卡的示意图。该设备板卡100包括PSU(Power Supply Unit,电源供电单元)110、保护电路120、管理控制器130、硬件控制器140和至少一个传感器150;其中,PSU与保护电路耦合,保护电路分别与管理控制器和硬件控制器耦合,管理控制器与硬件控制器耦合。
PSU是指为设备板卡供电的器件,PSU可以提供12V(伏)或48V的电压,当然,在其他可能的实现方式中,PSU还可以提供其他大小的电压,本申请实施例对此不作限定。
保护电路120是指用于保护设备板卡100的电路,保护电路120在设备板卡100中起到总开关的作用,若保护电路120处于关闭状态,则设备板卡100处于断电状态。
管理控制器130是指用于提供管理功能的控制器。管理控制器130可在本地和远程对电子设备的运行状态进行管理,管理控制器130是电子设备的基本核心功能子系统,可以负责电子设备的硬件状态管理、操作系统管理、健康状态管理、功耗管理等核心功能。管理控制器是独立于电子设备系统之外的小型操作系统,是一个集成在设备板卡上的芯片。
硬件控制器140是指用于提供硬件控制功能的控制器,示例性地,硬件控制器140可用于对设备板卡100上的芯片(除管理控制器130之外的芯片)进行控制,例如,硬件控制器140可以用于对设备板卡100上的芯片的关闭(或称之为下电)进行控制。
传感器150是指用于检测设备板卡的运行状态的器件,例如,传感器可以用于检测设备板卡100的电流或电压或温度等运行状态。示例性地,至少一个传感器150分别与硬件控制器140耦合。在本申请实施例中,传感器用于在确定设备板卡100的运行状态发生异常的情况下,向硬件控制器140发送告警信号。告警信号用于指示设备板卡100的运行状态发生异常。
例如,运行状态包括电流状态,则传感器可以是电流传感器,电流传感器用于在确定设备板卡的电流发生异常的情况下,向硬件控制器发送告警信号;又例如,运行状态包括温度状态,则传感器可以是温度传感器,温度传感器用于在确定设备板卡的温度发生异常的情况下,向硬件控制器发送告警信号。
硬件控制器140用于基于告警信号向管理控制器130发送中断信号,中断信号用于触发管理控制器130在成功记录异常数据的情况下向硬件控制器140发送关机信号。硬件控制器140在接收到告警信号的情况下,会向管理控制器130发送中断信号,管理控制器130在接收到中断信号的情况下,会去访问确定异常的传感器,从而成功记录异常数据,在成功记录异常数据的情况下,管理控制器130会向硬件控制器140发送关机信号,该关机信号用于触发硬件控制器140向保护电路120发送关闭信号。
硬件控制器140还用于在管理控制器130超时未发送关机信号的情况下,向保护电路120发送关闭信号,关闭信号用于触发保护电路120停止基于PSU110向设备板卡100供电。示例性地,关闭信号用于触发保护电路120停止基于PSU110向设备板卡100上的芯片(例如,CPU、网络芯片、南桥芯片、北桥芯片、时钟芯片等芯片)供电。
在相关技术中,管理控制器处理时效性差,可能出现挂死的情况,若硬件控制器仍然在接收到来自于管理控制器的关机信号后,才向保护电路发送关闭信号,则设备板卡可能已经被烧坏,因此,本申请实施例中的硬件控制器在管理控制器超时未发送关机信号的情况下,就向保护电路发送关闭信号,可以有效降低设备板卡烧板现象发生的概率,在设备板卡发生烧板现象之前先关闭电源保护设备板卡。
示例性地,上述硬件控制器可以包括CPLD(Complex Programmable LogicDevice,复杂可编程逻辑器件),CPLD由完全可编程与/或阵列以及宏单元库构成,与/或阵列可重编程,能够执行众多逻辑功能。宏单元是执行组合逻辑或时序逻辑的功能块,同时还提供了真值或补码输出和以不同的路径反馈等更高灵活性。CPLD适合用来实现各种运算和组合逻辑(Combinational Logic)。一颗CPLD内等于包含了数颗的PAL(ProgrammableArray Logic,可编程阵列逻辑),各PAL间的互接连线可以进行程序性的规划。
示例性地,上述设备板卡是电子设备中的板卡,该电子设备可以包括终端和服务器,终端可以包括基站、用户设备或其它设备,服务器可以包括云服务器或普通服务器等。在设备板卡是服务器中的板卡的情况下,上述管理控制器可以包括BMC(BaseboardManagement Controller,基板管理控制器),BMC可在本地和远程对服务器的运行状态进行管理,支持可视化控制台界面,可轻松对服务器进行硬件管理和故障排除。BMC是服务器的基本核心功能子系统,负责服务器的硬件状态管理、操作系统管理、健康状态管理、功耗管理等核心功能。BMC是独立于服务器系统之外的小型操作系统,是一个集成在设备板卡上的芯片。
需要说明的是,上述仅以硬件控制器为CPLD、管理控制器为BMC为例进行介绍说明,在其他可能的实现方式中,不同电子设备中的硬件控制器和管理控制器可能不同,本申请实施例对此不作限定。
综上所述,本申请实施例提供的技术方案中,硬件控制器在超时未接收到来自于管理控制器的关机信号的情况下,直接向保护电路发送关闭信号,而不是等待管理控制器的响应,相较于相关技术中硬件控制器一直在等待接收来自于管理控制器的关机信号后,才向保护电路发送关闭信号,本申请实施例可以在设备板卡发生烧板现象之前就先关闭电源保护设备板卡,有效降低设备板卡烧板现象发生的概率。
请参考图2,其示出了本申请另一个实施例提供的设备板卡的示意图。
在示意性实施例中,如图2所示,传感器150包括温度传感器151和电流传感器152。温度传感器151是一种温度检测装置,能感受到被测温度的信息,并能将检测到的信息,按一定规律变换成为符合一定标准需要的电信号或者其它所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。电流传感器152是一种电流检测装置,能感受到被测电流的信息,并能将检测到的信息,按一定规律变换成为符合一定标准需要的电信号或其它所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。
温度传感器151用于检测设备板卡100的温度是否发生异常,电流传感器152用于检测设备板卡100的电流是否发生异常。示例性地,设备板卡中包括m个温度传感器151和n个电流传感器152,m、n为正整数。示例性地,在同一时间点硬件控制器140可以接收到(m+n)个信号,该(m+n)个信号中可以包括告警信号,也可以不包括告警信号。在可能的实现方式中,告警信号可以包括高电平信号(例如,电平“1”),非告警信号可以包括低电平信号(例如,电平“0”),此时,若硬件控制器140接收到高电平信号,则硬件控制器140可以确定接收到告警信号;若硬件控制器接收到低电平信号,则硬件控制器可以确定接收到非告警信号。
在示意性实施例中,管理控制器130与至少一个传感器150分别耦合,管理控制器130可以通过I2C(Inter-Integrated Circuit)总线分别与至少一个传感器耦合,I2C总线是由SDA(Serial Data,数据线)和SCL(Serial Clock,时钟)构成的串行总线,可发送和接收数据。I2C总线的接口直接在组件之上,因此I2C总线占用的空间非常小,减少了电路板的空间和芯片管脚的数量,降低了互连成本。管理控制器130用于将至少一个传感器150各自的保护阈值发送给对应的传感器,传感器用于在确定设备板卡100的运行状态达到保护阈值的情况下,向硬件控制器140发送告警信号。保护阈值可以根据每一路电源的实际运行状态设定,并保留一定的余量。例如,保护阈值可以包括1.2-1.5倍的实际运行状态(实际运行状态是设备板卡未发生异常下测量得到的运行状态)。例如,运行状态包括电流状态,则在实际运行状态为10A的情况下,保护阈值可以为12A-15A;又例如,运行状态包括温度状态,则在实际运行状态为50℃的情况下,保护阈值可以为60℃-75℃。当然,在其他可能的实现方式中,保护阈值还可以基于其他方式确定,本申请实施例对此不作限定。在示意性实施例中,管理控制器130通过I2C总线设置各个温度传感器和电流传感器的过温保护点(在传感器为温度传感器的情况下,保护阈值可以称之为过温保护点)或者过流保护点(在传感器为电流传感器的情况下,保护阈值可以称之为过流保护点),屏蔽也就是说只有过流或者过温才会触发告警(alert)信号给硬件控制器140。所有的传感器都会有独立的告警信号发送给硬件控制器140,硬件控制器140收到告警信号之后可以迅速定位到具体的传感器。
示例性地,如图3所示,其示出了本申请实施例提供的电流传感器的示意图。通过在负载电路中串一个精密电阻310,电流传感器300检测精密电阻310两端的电压,从而计算出电流的大小,并基于电流的大小和保护阈值,确定是否需要向硬件控制器发送告警信号。示例性地,电流传感器可以设置在设备板卡中易产生大电流的位置处,或者,电流传感器可以设置在设备板卡中易产生较大功率的位置处。示例性地,可以基于芯片区域放置电流传感器,例如,可以在风扇对应区域放置电流传感器,和/或,可以在背板对应区域放置电流传感器,和/或,可以在网卡对应区域放置电流传感器。A0A1用于指示设备地址,不同设备地址对应的A0A1的值不同。
示例性地,如图4所示,其示出了本申请实施例提供的温度传感器的示意图。通过在局部热点放置温度传感器400的方式,侦测PCB(Printed Circuit Board,印刷电路板)局部热点,当温度达到保护阈值时,温度传感器400触发告警信号。示例性地,可以在出风口或者入风口对应区域放置温度传感器,和/或,可以在设备板卡中易产生较大电流的位置处放置温度传感器。
示例性地,本申请实施例可以同时监控设备板卡各个部位的电流传感器和温度传感器,针对于PCB局部微短路,出现高温从而烧板的问题可以进行很好的规避;板卡正常工作温度应该在60度以下,但是要烧板至少要达到150度以上,因此具有足够的余量,不容易误触发。另外,可以通过先监控电流,如果电流过大,再通过对应位置的温度传感器再次确认是否温度超高,如果两者都确认,再触发下电保护,这样可以降低误触发的概率。在这种情况下,若电流传感器确定设备板卡的电流达到保护阈值,则向硬件控制器发送告警信号,硬件控制器在接收到告警信号后,等待一段时间,确认是否接收到来自于与该电流传感器处于对应位置处的温度传感器的告警信号,若硬件控制器接收到上述温度传感器的告警信号,则再向管理控制器发送中断信号,降低误触发的概率。由于温度上升需要时间,所以硬件控制器需要等待一段时间,该等待时间可以由技术人员进行设定,例如,该等待时间可以为2ms(毫秒),等待时间不宜过长,过长可能会导致在还未接收到温度传感器的告警信号的情况下,设备板卡已发生烧板现象,因此,等待时间需要合理设置。
示例性地,本申请实施例不再局限传感器的集成路数,如果采用独立的电流传感器和温度传感器,可以将传感器尽量靠近监控的电源或者温度源,从而可以降低因传感器线过长,而耦合进噪声的风险。
本申请实施例提供的电流传感器可以同时用来监控整个电子设备各个部分的实时功耗,可实现每一路12V或者48V电源的电流及功耗监控,更加方便的了解整个电子设备的功耗分布。另外还可以利用温度传感器同时监控电子设备各个部分的实时温度,可以实现精细化的风扇调速策略,从而降低电子设备的总体功耗。
在示意性实施例中,保护电路120包括电子开关121和电子开关控制器122。电子开关121和电子开关控制器122耦合;电子开关121和PSU110耦合;电子开关控制器122和硬件控制器140耦合。其中,电子开关控制器122用于在接收到来自于硬件控制器140的关闭信号的情况下,向电子开关121发送关闭使能信号;电子开关121用于在接收到来自于电子开关控制器122的关闭使能信号的情况下,停止基于PSU110向设备板卡100上的芯片供电。
示例性地,电子开关控制器122可以包括EFUSE(Electrical Fuse,电子熔断器)控制器,电子开关121可以包括MOSFET(Metal-Oxide-Semiconductor Field-EffectTransistor,金属氧化物半导体场效应晶体管)。
在示意性实施例中,设备板卡100还包括VR(Voltage Regulator,电压调节器)160。VR160是用于将PSU110提供的电能转换为设备板卡100上的各个芯片的可用电压的硬件。VR160与设备板卡100上的芯片耦合,示例性地,不同芯片要求的工作电压可能不同,因此不同芯片可能对应不同的VR,不同的工作电压对应不同的VR(也即,不同VR转换成的工作电压可能不同),例如,假设存在如下几种工作电压:1.8V、1.2V、3.3V、0.9V,则设备板卡中可能存在与1.8V对应的VR1、与1.2V对应的VR2、与3.3V对应的VR3、与0.9V对应的VR4。
在可能的实现方式中,在电子开关121包括MOSFET的情况下,MOSFET的D(Drain,漏)极连接PSU110,MOSFET的S(Source,源)极连接VR160,MOSFET的G(Gate,栅)极连接电子开关控制器122。
在示意性实施例中,如图5所示,硬件控制器140包括异常记录寄存器141,异常记录寄存器141用于记录告警信号。异常记录寄存器141分别与管理控制器130和至少一个传感器150耦合。管理控制器130用于在接收到中断信号的情况下,访问异常记录寄存器141,确定至少一个传感器150中的目标传感器,目标传感器是指确定设备板卡的运行状态发生异常的传感器;访问目标传感器,记录并保存目标传感器中的传感器数据。
在示意性实施例中,在管理控制器130未成功记录异常数据的情况下,在管理控制器130重新启动后,管理控制器130用于再次访问异常记录寄存器141,确定目标传感器;再次访问目标传感器,记录并保存目标传感器中的传感器数据。在实际应用中,可能存在管理控制器130还未成功记录异常数据,但硬件控制器140已向保护电路发送关闭信号的情况,也即,管理控制器130记录异常数据的时间超过了硬件控制器140等待管理控制器130响应的时间,管理控制器130可以等重新启动后,再次访问异常记录寄存器141,确定目标传感器;然后再次访问目标传感器,记录并保存目标传感器中的传感器数据,异常数据包括目标传感器中的传感器数据。此时,异常记录寄存器是一个带有记忆功能的寄存器,在可能的实现方式中,管理控制器成功记录异常数据后,可以向异常记录寄存器发送删除信号,该删除信号用于删除异常记录寄存器中此次存储的告警信号。
在示意性实施例中,如图5所示,硬件控制器140包括或门电路142,或门电路142的各个输入端与至少一个传感器150中对应的传感器耦合,或门电路142的输出端与管理控制器130耦合;其中,或门电路140用于在接收到来自于至少一个传感器中的任意传感器的告警信号的情况下,向管理控制器130发送中断信号。示例性地,或门电路140在接收到来自于至少一个传感器中的任意一个或多个传感器的告警信号的情况下,向管理控制器130发送中断信号。或门电路142是指用于进行或运算的电路,示例性地,或门电路142是指用于对来自于传感器的信号进行或运算的电路。在接收到告警信号的情况下,以告警信号包括高电平信号为例,或门电路142对上述告警信号进行或运算后,中断信号也为高电平信号。
在示意性实施例中,异常记录寄存器141的存储区域与或门电路142的输入端的数量匹配,异常记录寄存器141的存储区域与传感器的数量匹配。也即,异常记录寄存器141用于记录来自于每个传感器的信号,该信号可以是告警信号,也可以是非告警信号。在可能的实现方式中,异常记录寄存器141仅用于记录告警信号,在硬件控制器接收到告警信号的情况下,硬件控制器将告警信号写入异常记录寄存器与该告警信号对应的存储区域中。异常记录寄存器141中包括与各个传感器对应的存储区域,可以对应存储各个传感器发送的信号。示例性地,仍然以上述示例为例,假设传感器的数量为(m+n)个,则异常记录寄存器141可以包括(m+n)个存储区域,或门电路142可以包括(m+n)个输入端。
在示意性实施例中,硬件控制器140还用于对告警信号进行防抖处理,得到防抖处理后的告警信号,防抖处理用于确认告警信号是否因误触发产生;在防抖处理后的告警信号用于指示设备板卡的运行状态发生异常的情况下,向管理控制器130发送中断信号。
示例性地,硬件控制器140可以将告警信号延迟(delay)一段时间(例如,1ms),若延迟后的告警信号仍然是高电平信号,则硬件控制器140可以确定该告警信号不是因误触发产生的信号,该告警信号是真实有效的。
在示意性实施例中,硬件控制器140包括计时器143。硬件控制器140还用于在接收到来自于传感器150的告警信号的情况下,启动计时器143;获取计时器143的测量时长;在计时器143的测量时长达到预设时长的情况下,向保护电路120发送关闭信号。
示例性地,计时器143与管理控制器130耦合,管理控制器130可以向计时器143发送心跳,若管理控制器130处于异常状态时,则计时器143不会收到来自于管理控制器130的心跳信号。
所有的告警信号发送给硬件控制器140之后会做或处理,产生中断发送给管理控制器130,同时硬件控制器140会启动计时器143(计时器也可以称之为看门狗计时器),并将告警信号记录在异常记录寄存器141中。管理控制器130收到中断信号之后可以通过I2C接口来查询异常记录寄存器141,确定是哪个温度或者电流传感器检测到异常,然后再到对应的传感器中去读取更详细的状态,并记录和保存日志。最后通过I2C接口控制硬件控制器先按照正常的下电时序关闭设备板卡上的各个芯片,然后再关闭保护电路,从而达到防烧板的目的,如果在这个过程中计时器溢出,硬件控制器140会直接按照下电时序关闭芯片,不管管理控制器130是否记录完日志或者是否收到管理控制器130的关机信号。
由于硬件控制器内部有硬件的计时器,可以确保服务器板卡发生过流或者过温的情况下,在预定的时间里通过硬件控制器一定可以关闭,从而降低了管理控制器软件挂死的情况下无法保护服务器板卡的概率。
在可能的实现方式中,硬件控制器140,还用于:在接收到来自于管理控制器130的关机信号的情况下,基于下电时序关闭设备板卡100上的芯片;在成功关闭设备板卡100上的芯片的情况下,向保护电路120发送关闭信号。示例性地,在硬件控制器140接收到来自于管理控制器130的关机信号的情况下,硬件控制器140会先按照设备板卡100上的各芯片的下电时序对上述各芯片进行下电,在成功完成对各芯片下电后,硬件控制器140向保护电路120发送关闭信号。
在示意性实施例中,管理控制器130用于向硬件控制器140发送上电信号;硬件控制器140还用于基于上电信号,触发开机上电时序。
示例性地,管理控制器130启动之后,通过I2C总线或者GPIO(General PurposeInput Output,通用输入输出接口)发送上电信号给硬件控制器140,硬件控制器140触发开机上电时序,同时管理控制器130通过I2C总线设置各个温度传感器和电流传感器的过温保护点或者过流保护点,并且屏蔽其他类型错误,也就是说只有过流或者过温才会触发告警信号给硬件控制器140,如果硬件控制器140收到某个告警信号(电流传感器发送的告警信号可以称之为过流信号,温度传感器发送的告警信号可以称之为过温信号),首先会进行防抖处理,确保不会误触发保护流程,如果确认收到的告警信号是真实有效的,硬件控制器140会发送中断信号给管理控制器130,同时启动计时器143(例如50ms),管理控制器130如果挂死,或者忙于处理其他业务一直无法响应硬件控制器140的中断,不触发关机信号的话,硬件控制器140可以在计时器143超时后直接按照下电时序关机。同时管理控制器130收到中断之后,可以通过I2C总线到硬件控制器140确定具体出错的传感器,并到具体的传感器中读取相应的寄存器信息,记录日志,最后再通过I2C总线命令硬件控制器140关闭电子开关。
示例性地,传感器和硬件控制器可以称之为检测电路。
请参考图6,其示出了本申请一个实施例提供的电子设备的示意图。该电子设备600包括如上述实施例所述的设备板卡100。示例性地,该电子设备可以包括终端和服务器,终端可以包括基站、用户设备、智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表或其它设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图7,其示出了本申请一个实施例提供的设备板卡的控制方法的流程图,该方法可以应用于上文实施例介绍的设备板卡中,该设备板卡包括PSU、保护电路、管理控制器、硬件控制器和至少一个传感器。其中,PSU与保护电路耦合,保护电路分别与管理控制器和硬件控制器耦合,管理控制器与硬件控制器耦合。所述方法包括如下几个步骤:
步骤701,传感器在确定设备板卡的运行状态发生异常的情况下,向硬件控制器发送告警信号。
步骤702,硬件控制器基于告警信号向管理控制器发送中断信号。
在本申请实施例中,中断信号用于触发管理控制器在成功记录异常数据的情况下向硬件控制器发送关机信号。
步骤703,硬件控制器在管理控制器超时未发送关机信号的情况下,向保护电路发送关闭信号,关闭信号用于触发保护电路停止基于PSU向设备板卡供电。
需要说明的是,上述实施例提供的方法与结构实施例属于同一构思,其具体实现过程详见结构实施例,此处不再赘述。对于本申请方法实施例中未披露的细节,请参考本申请结构实施例。
综上所述,本申请实施例提供的技术方案中,硬件控制器在超时未接收到来自于管理控制器的关机信号的情况下,直接向保护电路发送关闭信号,而不是等待管理控制器的响应,相较于相关技术中硬件控制器一直在等待接收来自于管理控制器的关机信号后,才向保护电路发送关闭信号,本申请实施例可以在设备板卡发生烧板现象之前就先关闭电源保护设备板卡,有效降低设备板卡烧板现象发生的概率。
以电子设备为服务器、设备板卡是服务器上的服务器板卡、硬件控制器是CPLD、管理控制器是BMC为例进行介绍说明,请参考图8,其示出了本申请一个实施例提供的服务器板卡的控制方法的流程图,该方法可以包括如下几个步骤:
步骤801,BMC启动,发送上电信号给CPLD。
步骤802,CPLD基于上电信号触发开机上电时序。
步骤803,BMC设定电流传感器和温度传感器的过流保护点和过温保护点,屏蔽其他类型错误。
需要说明的是,步骤803可以在步骤801之前执行,也可以在步骤801之后执行,还可以与步骤801同时执行。
步骤804,CPLD接收来自于传感器的告警信号。
传感器确定服务器板卡的运行状态发生异常,向CPLD发送告警信号,CPLD检测某一路电源过流,或者某一个温度传感器过温。
步骤805,CPLD对告警信号进行防抖处理,得到防抖处理后的告警信号。
CPLD对告警信号进行防抖处理,确定是否真正产生过流或者过温信号。
步骤806,CPLD在防抖处理后的告警信号用于指示服务器板卡的运行状态发生异常的情况下,向BMC发送中断信号,以及同时启动计时器。
CPLD确认触发过温或者过流信号,启动计时器,并向BMC发送中断信号。
步骤807,BMC记录异常数据。
示例性地,BMC记录异常数据和遗言,该遗言用于告诉用户后续处理流程。
步骤808,BMC在成功记录异常数据的情况下,向CPLD发送关机信号。
步骤809,CPLD确定是否收到关机信号。若未接收到关机信号,则从步骤810开始执行;若接收到关机信号,则从步骤811开始执行。
步骤810,CPLD确定计时器是否溢出;若未溢出,则再次从步骤810开始执行;若溢出,则从步骤811开始执行。
步骤811,CPLD向保护电路发送关闭信号。
示例性地,CPLD按照下电时序关闭系统。
步骤812,保护电路关闭。
示例性地,系统电源关闭。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种设备板卡,其特征在于,所述设备板卡包括电源供电单元PSU、保护电路、管理控制器、硬件控制器和至少一个传感器;其中,所述PSU与所述保护电路耦合,所述保护电路分别与所述管理控制器和所述硬件控制器耦合,所述管理控制器与所述硬件控制器耦合;
所述传感器用于在确定所述设备板卡的运行状态发生异常的情况下,向所述硬件控制器发送告警信号;
所述硬件控制器用于基于所述告警信号向所述管理控制器发送中断信号,所述中断信号用于触发所述管理控制器在成功记录异常数据的情况下向所述硬件控制器发送关机信号;
所述硬件控制器还用于在所述管理控制器超时未发送所述关机信号的情况下,向所述保护电路发送关闭信号,所述关闭信号用于触发所述保护电路停止基于所述PSU向所述设备板卡供电。
2.根据权利要求1所述的设备板卡,其特征在于,所述硬件控制器包括异常记录寄存器,所述异常记录寄存器用于记录所述告警信号;
所述异常记录寄存器分别与所述管理控制器和所述至少一个传感器耦合;
所述管理控制器用于在接收到所述中断信号的情况下,访问所述异常记录寄存器,确定所述至少一个传感器中的目标传感器,所述目标传感器是指确定所述设备板卡的运行状态发生异常的传感器;访问所述目标传感器,记录并保存所述目标传感器中的传感器数据。
3.根据权利要求2所述的设备板卡,其特征在于,在所述管理控制器未成功记录异常数据的情况下,在所述管理控制器重新启动后,所述管理控制器用于再次访问所述异常记录寄存器,确定所述目标传感器;再次访问所述目标传感器,记录并保存所述目标传感器中的传感器数据。
4.根据权利要求1所述的设备板卡,其特征在于,所述硬件控制器包括或门电路,所述或门电路的各个输入端与所述至少一个传感器中对应的传感器耦合,所述或门电路的输出端与所述管理控制器耦合;
其中,所述或门电路用于在接收到来自于所述至少一个传感器中的任意传感器的告警信号的情况下,向所述管理控制器发送所述中断信号。
5.根据权利要求1所述的设备板卡,其特征在于,所述管理控制器用于将所述至少一个传感器各自的保护阈值发送给对应的传感器,所述传感器用于在确定所述设备板卡的运行状态达到所述保护阈值的情况下,向所述硬件控制器发送所述告警信号。
6.根据权利要求1所述的设备板卡,其特征在于,所述硬件控制器包括计时器;
所述硬件控制器还用于在接收到来自于所述传感器的告警信号的情况下,启动所述计时器;获取所述计时器的测量时长;在所述计时器的测量时长达到预设时长的情况下,向所述保护电路发送所述关闭信号。
7.根据权利要求1所述的设备板卡,其特征在于,所述硬件控制器,还用于:
对所述告警信号进行防抖处理,得到防抖处理后的告警信号,所述防抖处理用于确认所述告警信号是否因误触发产生;
在所述防抖处理后的告警信号用于指示所述设备板卡的运行状态发生异常的情况下,向所述管理控制器发送中断信号。
8.根据权利要求1所述的设备板卡,其特征在于,所述保护电路包括电子开关和电子开关控制器;
所述电子开关和所述电子开关控制器耦合;
所述电子开关和所述PSU耦合;
所述电子开关控制器和所述硬件控制器耦合;
其中,所述电子开关控制器用于在接收到来自于所述硬件控制器的关闭信号的情况下,向所述电子开关发送关闭使能信号;
所述电子开关用于在接收到来自于所述电子开关控制器的关闭使能信号的情况下,停止基于所述PSU向所述设备板卡供电。
9.根据权利要求1所述的设备板卡,其特征在于,所述硬件控制器,还用于:
在接收到来自于所述管理控制器的关机信号的情况下,基于下电时序关闭所述设备板卡上的芯片;
在成功关闭所述设备板卡上的芯片的情况下,向所述保护电路发送所述关闭信号。
10.根据权利要求1所述的设备板卡,其特征在于,
所述管理控制器用于向所述硬件控制器发送上电信号;
所述硬件控制器还用于基于所述上电信号,触发开机上电时序。
11.根据权利要求1至10任一项所述的设备板卡,其特征在于,所述传感器包括温度传感器和电流传感器;
其中,所述温度传感器用于检测所述设备板卡的温度是否发生异常,所述电流传感器用于检测所述设备板卡的电流是否发生异常。
12.一种电子设备,其特征在于,所述电子设备包括如权利要求1至11任一项所述的设备板卡。
13.一种设备板卡的控制方法,其特征在于,所述设备板卡包括电源供电单元PSU、保护电路、管理控制器、硬件控制器和至少一个传感器;其中,所述PSU与所述保护电路耦合,所述保护电路分别与所述管理控制器和所述硬件控制器耦合,所述管理控制器与所述硬件控制器耦合;
所述方法包括:
所述传感器在确定所述设备板卡的运行状态发生异常的情况下,向所述硬件控制器发送告警信号;
所述硬件控制器基于所述告警信号向所述管理控制器发送中断信号,所述中断信号用于触发所述管理控制器在成功记录异常数据的情况下向所述硬件控制器发送关机信号;
所述硬件控制器在所述管理控制器超时未发送所述关机信号的情况下,向所述保护电路发送关闭信号,所述关闭信号用于触发所述保护电路停止基于所述PSU向所述设备板卡供电。
CN202110112993.1A 2021-01-27 2021-01-27 设备板卡、电子设备及设备板卡的控制方法 Pending CN114816539A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110112993.1A CN114816539A (zh) 2021-01-27 2021-01-27 设备板卡、电子设备及设备板卡的控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110112993.1A CN114816539A (zh) 2021-01-27 2021-01-27 设备板卡、电子设备及设备板卡的控制方法

Publications (1)

Publication Number Publication Date
CN114816539A true CN114816539A (zh) 2022-07-29

Family

ID=82523735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110112993.1A Pending CN114816539A (zh) 2021-01-27 2021-01-27 设备板卡、电子设备及设备板卡的控制方法

Country Status (1)

Country Link
CN (1) CN114816539A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117992389A (zh) * 2024-04-03 2024-05-07 南京群顶科技股份有限公司 一种面向边缘计算网关的电源管理装置及方法
WO2024103745A1 (zh) * 2022-11-16 2024-05-23 苏州元脑智能科技有限公司 一种主板防护系统和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024103745A1 (zh) * 2022-11-16 2024-05-23 苏州元脑智能科技有限公司 一种主板防护系统和方法
CN117992389A (zh) * 2024-04-03 2024-05-07 南京群顶科技股份有限公司 一种面向边缘计算网关的电源管理装置及方法

Similar Documents

Publication Publication Date Title
EP1358555B1 (en) Service processor and system and method using a service processor
CN110941323B (zh) 计算机实施方法、计算装置及计算机可读取储存介质
CN112286709B (zh) 一种服务器硬件故障的诊断方法、诊断装置及诊断设备
US10691185B2 (en) Cooling behavior in computer systems
CN114816539A (zh) 设备板卡、电子设备及设备板卡的控制方法
CN113204466B (zh) 一种过温保护方法和电子设备
US7490252B2 (en) Abnormal power interruption internal circuitry protection method and system for computer platform
US20240220385A1 (en) Power source consumption management apparatus for four-way server
CN115525486A (zh) Ssd smbus温度报警及低功耗状态的测试验证方法及装置
CN117033063B (zh) 一种服务器漏液处理方法、系统、装置、电子设备及介质
CN218824636U (zh) 一种用于服务器硬盘背板的电源检测装置
CN102750234B (zh) 存储器的控制方法及控制器
CN105468495B (zh) 复杂式可程序逻辑控制装置
CN111865411A (zh) 一种交换机光模块监控方法、装置及相关组件
CN110442539B (zh) 手机otg切换方法和装置
CN222028611U (zh) 一种计算设备
CN113721747B (zh) 一种服务器及其防烧板电路和方法
CN220252420U (zh) 一种浸没式液冷设备的液位检测控制电路
CN111274096A (zh) 一种多i2c通道温度监测模块和服务器
CN110647435A (zh) 服务器、硬盘远程控制方法及控制组件
TWI757923B (zh) 預啟動執行環境判斷系統及其方法
CN216210909U (zh) 一种cpu降频控制系统
CN218886570U (zh) 一种模拟温度传感器失效的装置、服务器板卡、服务器
CN118860104A (zh) 主板安全控制方法及相关装置
CN115934395A (zh) 固态硬盘的故障注入方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40070996

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination