[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

CN114780283B - 一种故障处理的方法及装置 - Google Patents

一种故障处理的方法及装置 Download PDF

Info

Publication number
CN114780283B
CN114780283B CN202210698612.7A CN202210698612A CN114780283B CN 114780283 B CN114780283 B CN 114780283B CN 202210698612 A CN202210698612 A CN 202210698612A CN 114780283 B CN114780283 B CN 114780283B
Authority
CN
China
Prior art keywords
fault
data
register
specified
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210698612.7A
Other languages
English (en)
Other versions
CN114780283A (zh
Inventor
赵俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Information Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Information Technologies Co Ltd filed Critical New H3C Information Technologies Co Ltd
Priority to CN202210698612.7A priority Critical patent/CN114780283B/zh
Publication of CN114780283A publication Critical patent/CN114780283A/zh
Application granted granted Critical
Publication of CN114780283B publication Critical patent/CN114780283B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0721Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本说明书公开了一种故障处理的方法及装置,该故障处理的方法包括:若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据,根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,以及,根据所述请求表数据,确定所述指定故障对应的故障源,作为第二故障源,根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源,根据所述目标故障源,对所述设备进行故障处理。

Description

一种故障处理的方法及装置
技术领域
本说明书涉及故障处理领域,尤其涉及一种故障处理的方法及装置。
背景技术
在对设备进行运维的过程中,对于诸如部署在数据中心机房中的服务器来说,由于其负载较高,而且需要保持长时间的运行,在这种高负荷的运行模式下服务器难免会发生各种故障,而一旦发生故障,服务器就无法继续为业务提供服务。
通常情况下,会有30%的故障来源于请求表超时(Table Of Request Timeout,TOR Timeout)错误,当服务器发生这种故障时,就需要找到相应的故障源并执行相应的处理,以使服务器能够恢复正常运行。
而在目前所采用的方法中,一旦检测到服务器发生了TOR Timeout故障,便会立即找到可能出现该故障的核心处理器(Central Processing Unit,CPU)并对该CPU进行更换,而如果同时出现多个CPU的TOR Timeout故障,则会同时更换这多个CPU,但是这样的运维成本较高,而且发生该故障的原因也可能出现在内存条、其他串行总线(PCI express,PCIe)设备、主板以及相关联的其他CPU中,所以仅是更换CPU往往无法解决实际问题。
因此,如何准确地确定出当前设备发生故障的故障源,并对该故障源进行相应的处理,是一个亟待解决的问题。
发明内容
本说明书提供一种故障处理的方法及装置,以部分的解决现有技术存在的上述问题。
本说明书采用下述技术方案:
本说明书提供了一种故障处理的方法,包括:
若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据;
根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,以及,根据所述请求表数据,确定所述指定故障对应的故障源,作为第二故障源;
根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源;
根据所述目标故障源,对所述设备进行故障处理。
可选地,所述指定寄存器包括:地址ADDR寄存器、杂项MISC寄存器;
根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,具体包括:
若确定所述ADDR寄存器以及所述MISC寄存器处于正常工作状态,则根据所述ADDR寄存器对应的寄存器数据以及所述MISC寄存器对应的寄存器数据,确定所述第一故障源。
可选地,根据所述ADDR寄存器对应的寄存器数据以及所述MISC寄存器对应的寄存器数据,确定所述第一故障源,具体包括:
若所述ADDR寄存器对应的寄存器数据中包含的第一指定数据为第一指定值时,则确定输入或输出I/O设备出现故障,并根据所述设备基本输入输出系统BIOS对应的初始化数据中包含的互联网协议IP地址,确定所述I/O设备中出现故障的部件,作为第一故障源。
可选地,根据所述ADDR寄存器对应的寄存器数据以及所述MISC寄存器对应的寄存器数据,确定所述第一故障源,具体包括:
若所述ADDR寄存器对应的寄存器数据中包含的第一指定数据不为所述第一指定值时,则确定所述MISC寄存器对应寄存器数据中第一指定数据和第二指定数据的组合值;
根据所述组合值,确定所述第一故障源。
可选地,根据所述组合值,确定所述第一故障源,具体包括:
若所述组合值为第一数据表中记录的组合值,则确定所述第一故障源为所述CPU故障。
可选地,根据所述组合值,确定所述第一故障源,具体包括:
若所述组合值不为第一数据表中记录的组合值,且所述设备发生超路径互联UPI故障,则判断所述MISC寄存器对应的寄存器数据中第一指定数据是否为第二指定值,以及判断所述MISC寄存器对应的寄存器数据中第二指定数据是否为第三指定值;
若确定所述第一指定数据为第二指定值,且所述第二指定数据为第三指定值,则确定所述第一故障源为所述CPU故障;
若确定所述第一指定数据不为第二指定值,和/或所述第二指定数据不为第三指定值,则确定所述第一故障源为内存故障。
可选地,根据所述组合值,确定所述第一故障源,具体包括:
若所述组合值不为第一数据表中记录的组合值,且所述设备未发生所述UPI故障,则判断所述组合值是否为第二数据表中记录的组合值;
若所述组合值为第二数据表中记录的组合值,则确定所述第一故障源为所述CPU故障;
若所述组合值不为第二数据表中记录的组合值,则确定所述第一故障源为内存故障。
可选地,根据所述请求表数据,确定所述指定故障对应的故障源,作为第二故障源,具体包括:
确定所述请求表中的有效数据;
根据所述请求表中所述有效数据对应的目标端口信息,确定所述目标端口信息对应的故障源,作为所述第二故障源。
可选地,若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据,具体包括:
若监测到在所述设备同时发生的所有故障中所述指定故障的优先级最高,则获取所述CPU中指定寄存器对应的寄存器数据,以及所述请求表数据。
可选地,所述方法还包括:
若监测到在所述设备同时发生的其他故障中存在优先级高于所述指定故障的故障,则根据优先级高于所述指定故障的其他故障,确定所述目标故障源。
可选地,根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源,具体包括:
若所述第一故障源与所述第二故障源不同,则将所述第一故障源作为所述目标故障源。
本说明书提供了一种故障处理的装置,包括:
获取模块,若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据;
第一确定模块,根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,以及,根据所述请求表数据,确定所述指定故障对应的故障源,作为第二故障源;
第二确定模块,根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源;
处理模块,根据所述目标故障源,对所述设备进行故障处理。
本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述故障处理的方法。
本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述故障处理的方法。
本说明书采用的上述至少一个技术方案能够达到以下有益效果:
在本说明书提供的故障处理的方法中,当监测到设备发生指定故障时,会获取该设备CPU中指定寄存器对应的寄存器数据,以及请求表数据,并根据该寄存器数据,确定第一故障源,以及,根据该请求表数据,确定第二故障源,而后根据第一故障源以及第二故障源,确定该设备实际发生故障的目标故障源,并根据该目标故障源,对该设备进行故障处理。
从上述方法可以看出,本方案在监测到设备发生指定故障后,会分别根据请求表数据以及寄存器数据来确定出可能发生故障的故障源,进而根据该故障源确定出设备实际发生故障的故障源,并进行相应的故障处理,相比于现有方案只要发生上述指定故障就会立即更换CPU的方法,本方案能够准确的判断出实际发生故障的故障源,并根据该故障源进行故障处理,有效地解决了设备实际发生的故障,保证了设备的正常运行。
附图说明
此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本说明书的示意性实施例及其说明用于解释本说明书,并不构成对本说明书的不当限定。在附图中:
图1为本说明书中提供的一种故障处理的方法的流程示意图;
图2为本说明书中提供的一种第一数据表示意图;
图3为本说明书中提供的一种第二数据表示意图;
图4为本说明书中提供的一种请求表示意图;
图5为本说明书提供的一种多种故障同时出现时的故障确定示意图;
图6为本说明书中提供的一种故障处理的装置的示意图;
图7为本说明书中提供的一种对应于图1的电子设备示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
以下结合附图,详细说明本说明书各实施例提供的技术方案。
图1为本说明书中提供的一种故障处理的方法的流程示意图,包括以下步骤:
S101:若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据。
在服务器运行过程中,通常会以请求表的方式来与集成I/O控制器(IntegratedI/O Controller,IIO),核心单元Core,以及超路径互联(Ultra Path Interconnect,UPI)等单元进行数据同步,以完成不同Core以及不同核心处理器(Central Processing Unit,CPU)之间的数据一致性校验。其中,IIO用于将CPU与串行设备(如显卡、声卡、网卡等)相连接,而Core是CPU的核心处理单元,通常情况下,一个CPU中会有至少一个Core,UPI用于实现CPU与CPU之间数据的相互通信。
而当上述任何一个单元出现错误时,都会导致请求表中的请求在规定时间内未被响应,从而发生请求表超时(Table Of Request,TOR timeout)故障,进而使CPU停止运行。因此,当设备发生TOR timeout故障时,就需要找到该故障发生的故障源(如串行设备故障、其他CPU故障、CPU自身故障、主板故障等),从而根据该故障源进行处理以使该设备恢复运行。
基于此,本说明书提供了一种故障处理的方法,其中,若监测到设备发生指定故障(即TOR timeout故障),服务器需要获取CPU中指定寄存器对应的寄存器数据,以及请求表数据。
当设备出现故障时,会首先触发该设备的机器检测架构(Machine CheckArchitecture,MCA),而后设置在该设备主板上的可编程逻辑器件(Complex Programminglogic device,CPLD)会将检测到的硬件信息存储在相应的寄存器中,而后服务器可以通过平台环境控制接口(Platform Environment Control Interface, PCIe),来获取到CPU的寄存器信息。
因此,在实际应用中,可以通过CPU中的状态Status寄存器,来确定发生的故障是否为上述指定故障,其中,Status寄存器用于存储设备发生故障的故障类型以及CPU中其他寄存器是否有效的信息,当Status寄存器第16位~第31位字节(即bit[31:16])的值为0x0C时,说明该设备发生的故障为TOR timeout故障。
当确定设备发生TOR timeout故障后,则可以获取CPU中指定寄存器对应的寄存器数据,以及请求表数据,其中,该指定寄存器包括地址(Address,ADDR)寄存器,杂项(Miscellaneous,MISC)寄存器等,ADDR寄存器用于存储设备系统地址数据以及各部件对应的地址数据,杂项寄存器用于存储诸如状态机数据、中断请求数据等补充数据。请求表数据将在下文进行详细描述,在此处不做过多赘述。
需要说明的是,在确定设备发生TOR timeout故障之前,还需要判断Status寄存器是否有效(即Status寄存器的第63位字节是否为1),若Status寄存器的bit63不为1,则说明该寄Status寄存器是无效的,那么此时需要通过其他寄存器来判断出发生故障的故障源。
在本说明书中,发生故障的设备可以是指服务器,当然,也可以是诸如笔记本电脑、台式电脑、手机等指定设备,本说明书对此不做具体限定。
另外,在本说明书中用于实现故障的处理方法的执行主体,可以为上述设备内部设置的基板管理控制器(Baseboard Management Controller,BMC),当然,也可以为服务器,为了便于描述,本说明书仅以服务器是执行主体为例,对本说明书提供的一种故障处理的方法进行说明。
S102:根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,以及,根据所述请求表数据,确定所述指定故障对应的故障源,作为第二故障源。
在服务器获取到ADDR寄存器对应的寄存器数据以及MISC寄存器对应的寄存器数据之后,服务器可以根据上述寄存器数据,来确定出指定故障(即TOR timeout故障)对应的故障源,作为第一故障源。
具体的,服务器需要先判断上述ADDR寄存器以及MISC寄存器是否都处于正常工作状态,其中,当Status寄存器的第58位字节置1时(即bit[58]=1),说明ADDR寄存器有效(即处于正常工作状态),当Status寄存器的第59位字节置1时(即bit[59]=1),说明MISC寄存器有效。
当确定上述指定寄存器均有效后,服务器可以进一步判断ADDR寄存器对应的寄存器数据中包含的第一指定数据是否为第一指定值,在实际应用中,MISC寄存器的第45位字节~第55为字节(即bit[55:45])对应的数据通常为与错误相关联的原始中断请求(Original IRQ/IPQ request associated with the error,ORIGERO)数据,所以第一指定数据可以为该ORIGERO数据,而MISC寄存器的第56位字节~第61为字节(即bit[56:61])对应的数据为与错误相关联的请求表状态机(TOR FSM associated with the error,FSM)数据,所以第二指定数据可以为该FSM数据。
当上述ORIGERO数据(第一指定数据)的数据值为0x1D5或0x1DC(即第一指定值)时,则说明ADDR寄存器对应的寄存器数据中包含的地址数据为I/O设备对应的地址数据,进而可以根据该设备基本输入输出系统(Basic Input Output System,BIOS)对应的初始化数据中包含的互联网协议IP地址,确定故障源地址(如总线、设备、功能(Bus,Device,Function)BDF)。进而服务器可以根据该故障源地址,来确定I/O设备中出现故障的部件,并将该部件作为第一故障源。当发生故障的部件是主板上的集成南桥(Platform ControllerHub,PCH)时,则更换相应的主板,而若是PCIe部件故障,则可以更换相应的PCIe部件。
当上述ORIGERO数据(第一指定数据)的数据值不为0x1D5或0x1DC时,服务器可以确定MISC寄存器对应寄存器数据中第一指定数据(ORIGERO数据)和第二指定数据(FSM数据)的组合值,根据该组合值确定出该指定故障对应的故障源,并将该故障源作为第一故障源。
根据对大量的实际故障数据进行分析可以获知,当上述组合值在图2所示的第一数据表中时,可以说明该第一故障源为CPU故障。
图2为本说明书中提供的第一数据表示意图。
在图2中,每一行的数据都代表一组ORIGERO数据与FSM数据的组合值,当服务器确定出的组合值为该第一数据表中记录的组合值时,则说明第一故障源为CPU故障。
而当服务器确定出的组合值为该第一数据表中记录的组合值时,说明第一故障源可能不是CPU故障,所以需要进一步对其进行判断。
因此,在这种情况下,服务器可以先判断该设备是否还出现有UPI故障,如果出现UPI故障,由于UPI用于CPU与CPU间数据通信,一旦发生UPI故障,则发生故障的故障源很可能是该CPU故障或者与该CPU相关联的其他CPU故障,当然,也可能是与其相连接的内存设备(如内存条)故障。
具体的,服务器可以先确定该设备UPI对应Status寄存器的值是否为0,若该UPI对应Status寄存器的值为0,说明该寄存器是无效的,则此时出现UPI故障,而若该UPI对应的Status寄存器的值为1,则说明该寄存器是有效的,此时没有出现UPI故障。
在确定该设备出现UPI故障后,服务器可以判断MISC寄存器对应的寄存器数据中第一指定数据(ORIGERO数据)是否为第二指定值,以及判断MISC寄存器对应的寄存器数据中第二指定数据(FSM数据)是否为第三指定值,来确定第一故障源是否为该CPU本身,根据对大量的实际故障数据进行分析可以获知,当ORIGREQ=0x200/0x202(即第二指定值)和FSM=0x02/0x03(即第三指定值)同时满足时,则说明第一故障源为该CPU本身,此时可以通过更换该CPU来对故障进行处理。
而当ORIGREQ=0x200/0x202和FSM=0x02/0x03不同时满足时,说明第一故障源不是该CPU本身,而是与其相连接的内存设备,则此时可以通过地址寄存器中对应的地址数据,来确定出发生故障的内存设备。
而若该设备没有位于第一数据表,且没有发生UPI故障,服务器可以进一步判断ORIGERO数据和FSM数据的组合值是否在图3所示的第二数据表中。
图3为本说明书中提供的第二数据表示意图。
其中,通过该表判断第一故障源的前置条件是设备没有出现UPI故障,根据对大量的实际故障数据进行分析可以获知,当设备没有出现UPI故障且上述组合值为该第二数据表中记录的组合值时,说明第一故障源为该CPU故障,则此时可以更换相应的CPU,而当上述组合值不是该第二数据表中记录的组合值时,说明第一故障源不是该CPU本身,而是相应的内存设备,则此时可以通过地址寄存器中对应的地址数据,来确定出发生故障的内存设备。
由此可以确定出TOR timeout对应的第一故障源。需要说明的是通过,第二数据表与上述第一数据表确定故障源的前置条件时不同的,只有当设备没有出现UPI故障时且上述组合值不为第一数据表中记录的组合值时,才会根据第二数据表确定出故障源。
另外,服务器还可以根据获取到的请求表数据,确定指定故障(即TOR timeout故障)对应的故障源,作为第二故障源。其中,该请求表中存储有数据的流向,从而可以根据该数据的流向判断出发生故障的部件,另外,该请求表可以与先存储在该设备的CPLD中,当确定发生TOR timeout并且Status寄存器有效时,服务器中部署的BMC可以通过PECI通道获取存储在CPLD中的请求表数据。
具体的,当服务器确定Status寄存器有效,且发生上述TOR timeout故障时,服务器可以根据获取到的请求表,来确定出其中的有效数据,而后根据该请求表中有效数据对应的目标端口信息,确定该目标端口信息对应的故障源,作为所述第二故障源。该请求表如图4所示。
图4为本说明书中提供的一种请求表示意图。
其中,Valid用于表示数据是否有效,当Valid=1时,在该行的数据为有效数据,而当Valid=0时,则该行数据为无效数据,Retry为重试符,Slice_Number为切片号,TOR_Entry_Number为请求表号,Address为部件地址,FSM_State为状态机对应的状态,Target_Port为目标端口信息,当Target_Port对应的数据为IMC时,则说明第二故障源为内存设备,当Target_Port对应的数据为PCI时,说明第二故障源为PCIe设备,当Target_Port对应的数据为KTI时,说明第二故障源为主板或者与该CPU相关联的其他CPU。而从图4中可以看出,有效数据对应的目标端口信息为IMC,说明该第二故障源为内存设备。
当然,在本说明书中,上述目标端口信息也可以指向诸如UPI、IIO等其他单元,本说明书对此不做具体限定。
此外,服务器可以分别通过上述两种方式确定出该设备实际发生故障的故障源,当然也可以结合上述两种方式,根据第一故障源以及第二故障源确定出该设备实际发生故障的故障源。
S103:根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源。
在服务器确定出第一故障源以及第二故障源以后,可以根据该第一故障源以及第二故障源,确定该设备实际发生故障的目标故障源。
具体的,当服务器确定出的第一故障源与第二故障源相同时,则说明该第一故障源以及第二故障源即为设备实际发生故障的目标故障源。
而当服务器确定出的第一故障源与第二故障源不相同时,由于通过寄存器数据确定出的故障源相较于通过请求表确定出的故障源更为准确,所以服务器可以将第一故障源作为该设备实际发生故障的目标故障源。当然,服务器也可以将第二故障源作为该设备实际发生故障的目标故障源。
由于设备在实际运行的过程中,很有可能在发生上述指定故障(TOR timeout)故障的同时,还发生有其他故障,而当有一些其他故障发生时,该故障一定也会导致TORtimeout故障,并且通过该其他故障能够直接判断出发生故障的故障源,因此,当监测到设备发生指定故障时,服务器还可以判断该指定故障的优先级是否高于该设备同时发生的其他故障的优先级,若是,则服务器可以获取CPU中指定寄存器对应的寄存器数据,以及所述请求表数据,并通过上述方法确定出目标故障源。
而若监测到指定故障的优先级,低于该设备同时发生的其他故障的优先级,则根据优先级高于TOR timeout故障的其他故障,确定目标故障源。
在实际应用中,设备通常出现的其他故障还包含有:三次打击超时3-striketimeout故障、平台环境控制接口(Platform Environment Control Interface,PECI)0x91故障、PECI0x81故障、内存Uce或CE故障、内部电源控制单元(Power Control Unit,PCU)故障、数据缓存单元(Data Cache Unit,DCU)故障等。
当设备同时出现TOR timeout故障与其他故障时,服务器可以根据各故障对应的优先级,来确定出优先级最高的故障对应的故障源,并将该故障源作为目标故障源。
其中,当设备出现PECI 0x81的故障(PECI 0x81代表通过PECI通道访问CPU时返回码为0x81,该返回码代表访问失败)时,可以直接判断目标故障源为CPU故障,此时哪一个CPU 的PECI返回0x81,则判断哪颗CPU出现故障。
当与内存相关的寄存器中出现内存Uce或CE故障时,则可以直接判断目标故障源为内存故障。
当存在PCU故障时,说明CPU内部的电源控制单元发生故障,则此时也可以直接判断目标故障源为CPU故障。
当二级缓存(Middle Level Cache,MLC)的返回值为0x0040时,说明此时CPU的二级缓存出现故障,则此时也可以直接判断目标故障源为CPU故障。其中判断该故障的方法为查看MLC对应的Status寄存器第16字节~第31字节(即bit[31:16])的值是否为0x0040。
当DCU存在Posion故障时,则可以直接判断目标故障源为内存故障,此时可以根据DCU对应的ADDR寄存器指向的地址数据,确定出发生故障的内存设备。
当设备的UPI存在Uce故障时,可以继续判断MISC寄存器对应的寄存器数据是否满足ORIGREQ=0x200/0x202+FSM=0x01/0x02/0x03若满足则判断目标故障源为CPU故障,若不满足则根据ADDR寄存器指向的地址数据,确定发生故障的内存设备。
而当设备出现3-strike timeout故障时,说明从CPU核心单元向非核心单元发送一个数据没有在规定时间内完成,或者,在一级缓存或二级缓存中查找数据时没有在规定的时间内完成,当TOR timeout故障发生时,此时必定也会产生3-strike timeout,所以当这两种故障同时发生时,则可以认为故障的本质是TOR timeout故障,此时可以通过第一故障源以及第二故障源确定出目标故障源。
当设备出现PECI0x91故障时,该数据通常情况下较为可靠,所以可以将其当做正常数据进行解析处理,所以此时可以认为故障的本质是TOR timeout故障,服务器可以通过第一故障源以及第二故障源确定出目标故障源。
基于此,可以确定出MLC0x0040故障、PECI 0x81故障、内存电压Uce或CE故障、PCU故障、DCU的 Posion故障、UPI的Uce故障对应的优先级均要高于TOR timeout故障对应的优先级,而3-strike timeout故障以及PECI 0x91故障对应的优先级要低于TOR timeout故障对应的优先级。
为了便于理解,本说明书还提供了一种多种故障同时出现时的故障确定示意图。
图5为本说明书提供的一种多种故障同时出现时的故障确定示意图。
其中,当设备出现包括TOR timeout故障在内的多种故障时,服务器可以先确定是否发生PECI 0x81故障,若是则判断目标故障源为CPU故障,若不是则继续判断是否发生Uce或CE故障,若是则判断为内存故障,若不是则继续判断是否发生PCU故障,若是则判断为CPU故障,若不是则继续判断是否发生MLC0x0040故障,若是则判断为CPU故障,若不是则继续判断是否发生DCUPosion故障,若是则判断为内存故障,若不是则继续判断是否发生UPIUce故障,若是则根据其寄存器中的指定数据是否满足指定数值来判断是CPU故障还是内存故障,若没有发生DCUPosion,则无论是否发生3-strike timeout以及PECI 0x91,都会按照只发生TOR timeout故障时的目标故障源的确定方法来确定出最终的目标故障源。
此处仅是以几种具有代表性的故障类型来对故障源确定的方法进行说明,在实际应用中还可以包含其他的故障类型,此处不再进行一一列举。
S104:根据所述目标故障源,对所述设备进行故障处理。
确定出该设备实际发生故障的目标故障源后,服务器可以根据该目标故障源进行相应的故障处理,例如,当确定目标故障源为CPU故障时,则此时只能更换发生故障的CPU,而当目标故障源为内存故障时,服务器可以将发生故障的内存设备对应的地址数据解析为物理地址(即确定出实际发生故障的是哪一个内存设备),进而对该内存设备进行更换,当确定出目标故障源PCIe设备时,则可以确定出相应的PCIe设备对应的物理地址,进而更换相应的PCIe设备,当目标故障源为PCH设备时,则此时只能更换设备的主板。
从上述方法可以看出,本方案在监测到设备发生指定故障后,会分别根据请求表数据以及寄存器数据来确定出可能发生故障的故障源,进而根据该故障源确定出设备实际发生故障的故障源,并进行相应的故障处理,相比于现有方案只要发生上述指定故障就会立即更换CPU的方法,本方案能够准确的判断出实际发生故障的故障源,并根据该故障源进行故障处理,有效地解决了设备实际发生的故障,保证了设备的正常运行。
另外,当服务器监测到同时发生的其他故障的优先级高于指定故障对应的优先级时,可以直接根据其他故障确定出相应故障源,进一步提高了故障源确定以及故障处理的效率。
以上为本说明书的一个或多个实施故障处理的方法,基于同样的思路,本说明书还提供了相应的故障处理的装置,如图6所示。
图6为本说明书提供的一种故障处理的装置的示意图,包括:
获取模块601,若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据;
第一确定模块602,根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,以及,根据所述请求表数据,确定所述指定故障对应的故障源,作为第二故障源;
第二确定模块603,根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源;
处理模块604,根据所述目标故障源,对所述设备进行故障处理。
可选地,所述指定寄存器包括:地址ADDR寄存器、杂项MISC寄存器;
所述第一确定模块602具体用于,若确定所述ADDR寄存器以及所述MISC寄存器处于正常工作状态,则根据所述ADDR寄存器对应的寄存器数据以及所述MISC寄存器对应的寄存器数据,确定所述第一故障源。
可选地,所述第一确定模块602具体用于,若所述ADDR寄存器对应的寄存器数据中包含的第一指定数据为第一指定值时,则确定输入或输出I/O设备出现故障,并根据所述设备基本输入输出系统BIOS对应的初始化数据中包含的互联网协议IP地址,确定所述I/O设备中出现故障的部件,作为第一故障源。
可选地,所述第一确定模块602具体用于若所述ADDR寄存器对应的寄存器数据中包含的第一指定数据不为所述第一指定值时,则确定所述MISC寄存器对应寄存器数据中第一指定数据和第二指定数据的组合值;根据所述组合值,确定所述第一故障源。
可选地,所述第一确定模块602具体用于,若所述组合值为第一数据表中记录的组合值,则确定所述第一故障源为所述CPU故障。
可选地,所述第一确定模块602具体用于,若所述组合值不为第一数据表中记录的组合值,且所述设备发生超路径互联UPI故障,则判断所述MISC寄存器对应的寄存器数据中第一指定数据是否为第二指定值,以及判断所述MISC寄存器对应的寄存器数据中第二指定数据是否为第三指定值;若确定所述第一指定数据为第二指定值,且所述第二指定数据为第三指定值,则确定所述第一故障源为所述CPU故障;若确定所述第一指定数据不为第二指定值,和/或所述第二指定数据不为第三指定值,则确定所述第一故障源为内存故障。
可选地,所述第一确定模块602具体用于,若所述组合值不为第一数据表中记录的组合值,且所述设备未发生所述UPI故障,则判断所述组合值是否为第二数据表中记录的组合值;若所述组合值为第二数据表中记录的组合值,则确定所述第一故障源为所述CPU故障;若所述组合值不为第二数据表中记录的组合值,则确定所述第一故障源为内存故障。
可选地,所述第一确定模块602具体用于,确定所述请求表中的有效数据;根据所述请求表中所述有效数据对应的目标端口信息,确定所述目标端口信息对应的故障源,作为所述第二故障源。
可选地,所述获取模块601具体用于,若监测到在所述设备同时发生的所有故障中所述指定故障的优先级最高,则获取所述CPU中指定寄存器对应的寄存器数据,以及所述请求表数据。
可选地,所述获取模块601还用于,若监测到在所述设备同时发生的其他故障中存在优先级高于所述指定故障的故障,则根据优先级高于所述指定故障的其他故障,确定所述目标故障源。
可选地,所述第二确定模块603具体用于,若所述第一故障源与所述第二故障源不同,则将所述第一故障源作为所述目标故障源。
本说明书还提供了一种计算机可读存储介质,该存储介质存储有计算机程序,计算机程序可用于执行上述图1提供的一种故障处理的方法。
本说明书还提供了图7所示的一种对应于图1的电子设备的示意结构图。如图7所述,在硬件层面,该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器,当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,以实现上述图1所述的故障处理的方法。当然,除了软件实现方式之外,本说明书并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device, PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20 以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (13)

1.一种故障处理的方法,其特征在于,包括:
若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据;
根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,以及,确定所述请求表中的有效数据,根据所述请求表中所述有效数据对应的目标端口信息,确定所述目标端口信息对应的故障源,作为第二故障源,所述请求表中存储有数据的流向,所述数据的流向用于判断出发生故障的部件;
根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源;
根据所述目标故障源,对所述设备进行故障处理。
2.如权利要求1所述的方法,其特征在于,所述指定寄存器包括:地址ADDR寄存器、杂项MISC寄存器;
根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,具体包括:
若确定所述ADDR寄存器以及所述MISC寄存器处于正常工作状态,则根据所述ADDR寄存器对应的寄存器数据以及所述MISC寄存器对应的寄存器数据,确定所述第一故障源。
3.如权利要求2所述的方法,其特征在于,根据所述ADDR寄存器对应的寄存器数据以及所述MISC寄存器对应的寄存器数据,确定所述第一故障源,具体包括:
若所述ADDR寄存器对应的寄存器数据中包含的第一指定数据为第一指定值时,则确定输入或输出I/O设备出现故障,并根据所述设备基本输入输出系统BIOS对应的初始化数据中包含的互联网协议IP地址,确定所述I/O设备中出现故障的部件,作为第一故障源。
4.如权利要求2所述的方法,其特征在于,根据所述ADDR寄存器对应的寄存器数据以及所述MISC寄存器对应的寄存器数据,确定所述第一故障源,具体包括:
若所述ADDR寄存器对应的寄存器数据中包含的第一指定数据不为第一指定值时,则确定所述MISC寄存器对应寄存器数据中第一指定数据和第二指定数据的组合值;
根据所述组合值,确定所述第一故障源。
5.如权利要求4所述的方法,其特征在于,根据所述组合值,确定所述第一故障源,具体包括:
若所述组合值为第一数据表中记录的组合值,则确定所述第一故障源为所述CPU故障。
6.如权利要求4所述的方法,其特征在于,根据所述组合值,确定所述第一故障源,具体包括:
若所述组合值不为第一数据表中记录的组合值,且所述设备发生超路径互联UPI故障,则判断所述MISC寄存器对应的寄存器数据中第一指定数据是否为第二指定值,以及判断所述MISC寄存器对应的寄存器数据中第二指定数据是否为第三指定值;
若确定所述第一指定数据为第二指定值,且所述第二指定数据为第三指定值,则确定所述第一故障源为所述CPU故障;
若确定所述第一指定数据不为第二指定值,和/或所述第二指定数据不为第三指定值,则确定所述第一故障源为内存故障。
7.如权利要求4所述的方法,其特征在于,根据所述组合值,确定所述第一故障源,具体包括:
若所述组合值不为第一数据表中记录的组合值,且所述设备未发生UPI故障,则判断所述组合值是否为第二数据表中记录的组合值;
若所述组合值为第二数据表中记录的组合值,则确定所述第一故障源为所述CPU故障;
若所述组合值不为第二数据表中记录的组合值,则确定所述第一故障源为内存故障。
8.如权利要求1所述的方法,其特征在于,若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据,具体包括:
若监测到在所述设备同时发生的所有故障中所述指定故障的优先级最高,则获取所述CPU中指定寄存器对应的寄存器数据,以及所述请求表数据。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
若监测到在所述设备同时发生的其他故障中存在优先级高于所述指定故障的故障,则根据优先级高于所述指定故障的其他故障,确定所述目标故障源。
10.如权利要求1所述的方法,其特征在于,根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源,具体包括:
若所述第一故障源与所述第二故障源不同,则将所述第一故障源作为所述目标故障源。
11.一种故障处理的装置,其特征在于,包括:
获取模块,若监测到设备发生指定故障时,获取所述设备核心处理器CPU中指定寄存器对应的寄存器数据,以及请求表数据;
第一确定模块,根据所述寄存器数据,确定所述指定故障对应的故障源,作为第一故障源,以及,确定所述请求表中的有效数据,根据所述请求表中所述有效数据对应的目标端口信息,确定所述目标端口信息对应的故障源,作为第二故障源,所述请求表中存储有数据的流向,所述数据的流向用于判断出发生故障的部件;
第二确定模块,根据所述第一故障源以及所述第二故障源,确定所述设备实际发生故障的故障源,作为目标故障源;
处理模块,根据所述目标故障源,对所述设备进行故障处理。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述权利要求1~10任一项所述的方法。
13.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述权利要求1~10任一项所述的方法。
CN202210698612.7A 2022-06-20 2022-06-20 一种故障处理的方法及装置 Active CN114780283B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210698612.7A CN114780283B (zh) 2022-06-20 2022-06-20 一种故障处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210698612.7A CN114780283B (zh) 2022-06-20 2022-06-20 一种故障处理的方法及装置

Publications (2)

Publication Number Publication Date
CN114780283A CN114780283A (zh) 2022-07-22
CN114780283B true CN114780283B (zh) 2022-11-01

Family

ID=82420319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210698612.7A Active CN114780283B (zh) 2022-06-20 2022-06-20 一种故障处理的方法及装置

Country Status (1)

Country Link
CN (1) CN114780283B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57133598A (en) * 1981-02-10 1982-08-18 Fujitsu Ltd System for write control of erroneous operation address
US6629271B1 (en) * 1999-12-28 2003-09-30 Intel Corporation Technique for synchronizing faults in a processor having a replay system
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器
WO2017215377A1 (zh) * 2016-06-16 2017-12-21 中兴通讯股份有限公司 内存硬错误的处理方法及装置
CN108282383A (zh) * 2017-12-18 2018-07-13 瑞斯康达科技发展股份有限公司 一种实现故障处理的方法及设备
CN109086193A (zh) * 2017-06-13 2018-12-25 阿里巴巴集团控股有限公司 监控方法、装置及系统
CN109947585A (zh) * 2019-03-13 2019-06-28 西安易朴通讯技术有限公司 Pcie设备故障的处理方法及装置
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN112256507A (zh) * 2020-10-22 2021-01-22 地平线(上海)人工智能技术有限公司 芯片故障诊断方法、装置、可读存储介质及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040221198A1 (en) * 2003-04-17 2004-11-04 Vecoven Frederic Louis Ghislain Gabriel Automatic error diagnosis
US7340582B2 (en) * 2004-09-30 2008-03-04 Intel Corporation Fault processing for direct memory access address translation
WO2012053110A1 (ja) * 2010-10-22 2012-04-26 富士通株式会社 障害監視装置、障害監視方法及びプログラム
JP2013061887A (ja) * 2011-09-14 2013-04-04 Fujitsu Ltd 故障位置判定回路、記憶装置、および情報処理装置
US9003223B2 (en) * 2012-09-27 2015-04-07 International Business Machines Corporation Physical memory fault mitigation in a computing environment
JP2015185968A (ja) * 2014-03-24 2015-10-22 三菱電機インフォメーションネットワーク株式会社 障害メッセージ集約装置および障害メッセージ集約プログラム
CN106330501A (zh) * 2015-06-26 2017-01-11 中兴通讯股份有限公司 一种故障关联方法和装置
CN110135604A (zh) * 2019-05-22 2019-08-16 北京秦淮数据有限公司 故障处理方法、装置及处理设备
US11237928B2 (en) * 2019-12-02 2022-02-01 Advanced Micro Devices, Inc. Method for a reliability, availability, and serviceability-conscious huge page support
CN112148515B (zh) * 2020-09-16 2023-06-20 锐捷网络股份有限公司 一种故障定位方法、系统、装置、介质和设备
CN114461439A (zh) * 2022-04-13 2022-05-10 苏州浪潮智能科技有限公司 一种故障诊断方法、装置、设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57133598A (en) * 1981-02-10 1982-08-18 Fujitsu Ltd System for write control of erroneous operation address
US6629271B1 (en) * 1999-12-28 2003-09-30 Intel Corporation Technique for synchronizing faults in a processor having a replay system
CN105589776A (zh) * 2015-12-23 2016-05-18 华为技术有限公司 一种故障定位方法及服务器
WO2017215377A1 (zh) * 2016-06-16 2017-12-21 中兴通讯股份有限公司 内存硬错误的处理方法及装置
CN109086193A (zh) * 2017-06-13 2018-12-25 阿里巴巴集团控股有限公司 监控方法、装置及系统
CN108282383A (zh) * 2017-12-18 2018-07-13 瑞斯康达科技发展股份有限公司 一种实现故障处理的方法及设备
CN109947585A (zh) * 2019-03-13 2019-06-28 西安易朴通讯技术有限公司 Pcie设备故障的处理方法及装置
CN111414268A (zh) * 2020-02-26 2020-07-14 华为技术有限公司 故障处理方法、装置及服务器
CN111625382A (zh) * 2020-05-21 2020-09-04 浪潮电子信息产业股份有限公司 一种服务器故障诊断方法、装置、设备及介质
CN112256507A (zh) * 2020-10-22 2021-01-22 地平线(上海)人工智能技术有限公司 芯片故障诊断方法、装置、可读存储介质及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CPU小系统故障定位方法;季力等;《轻工机械》;20090630(第03期);全文 *
面向崩溃预测的寄存器软错误故障传播分析;薛利兴等;《计算机工程与应用》;20171031(第20期);全文 *
龙芯3号板卡HT互联及内存故障诊断方法的设计与实现;冯珂珂等;《计算机测量与控制》;20200625(第06期);全文 *

Also Published As

Publication number Publication date
CN114780283A (zh) 2022-07-22

Similar Documents

Publication Publication Date Title
CN107239324B (zh) 业务流转处理方法、装置及系统
US8769504B2 (en) Method and apparatus for dynamically instrumenting a program
CN109086193B (zh) 监控方法、装置及系统
US20140164827A1 (en) Method and device for managing hardware errors in a multi-core environment
US9342393B2 (en) Early fabric error forwarding
JP2007188315A (ja) デバイス故障検出装置、制御方法、及びプログラム
US9395992B2 (en) Instruction swap for patching problematic instructions in a microprocessor
US10423795B2 (en) Method, checking device, and system for determining security of a processor
US10133654B1 (en) Firmware debug trace capture
CN114548744A (zh) 一种业务风险管理方法、装置及设备
CN114003416B (zh) 内存错误动态处理方法、系统、终端及存储介质
CN114780283B (zh) 一种故障处理的方法及装置
US9092333B2 (en) Fault isolation with abstracted objects
US11126486B2 (en) Prediction of power shutdown and outage incidents
US20120159247A1 (en) Automatically changing parts in response to tests
US7617417B2 (en) Method for reading input/output port data
CN111796864A (zh) 一种数据校验的方法及装置
CN110532150A (zh) 一种机箱管理方法、装置、存储介质及处理器
US20210119646A1 (en) Employing single error correction and triple error detection to optimize bandwidth and resilience under multiple bit failures
CN112559565A (zh) 一种异常检测方法、系统及装置
CN116743550B (zh) 一种分布式存储集群的故障存储节点的处理方法
US12147701B2 (en) Systems, methods, and devices for accessing a device program on a storage device
US20230114636A1 (en) Systems, methods, and devices for accessing a device program on a storage device
CN109992510B (zh) 一种远程调试装置及方法
US20220229932A1 (en) Method for performing multi-system log access management, associated system on chip integrated circuit and non-transitory computer-readable medium

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant