[go: up one dir, main page]
More Web Proxy on the site http://driver.im/

TWI777628B - 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法 - Google Patents

電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法 Download PDF

Info

Publication number
TWI777628B
TWI777628B TW110122675A TW110122675A TWI777628B TW I777628 B TWI777628 B TW I777628B TW 110122675 A TW110122675 A TW 110122675A TW 110122675 A TW110122675 A TW 110122675A TW I777628 B TWI777628 B TW I777628B
Authority
TW
Taiwan
Prior art keywords
processing unit
central processing
crash dump
error data
error
Prior art date
Application number
TW110122675A
Other languages
English (en)
Other versions
TW202234242A (zh
Inventor
蕭名智
黃志嘉
顏載益
蘇庭毅
Original Assignee
廣達電腦股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 廣達電腦股份有限公司 filed Critical 廣達電腦股份有限公司
Publication of TW202234242A publication Critical patent/TW202234242A/zh
Application granted granted Critical
Publication of TWI777628B publication Critical patent/TWI777628B/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0778Dumping, i.e. gathering error/state information after a fault for later diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0787Storage of error reports, e.g. persistent data storage, storage using memory protection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/42Bus transfer protocol, e.g. handshake; Synchronisation
    • G06F13/4282Bus transfer protocol, e.g. handshake; Synchronisation on a serial bus, e.g. I2C bus, SPI bus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0772Means for error signaling, e.g. using interrupts, exception flags, dedicated error registers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

一種系統及方法,使用崩潰轉存裝置記錄來自電腦系統的中央處理單元的錯誤資料。中央處理單元具有管理引擎。中央處理單元傳送錯誤訊號。崩潰轉存裝置耦接至中央處理單元,以接收錯誤訊號。儲存裝置耦接至崩潰轉存裝置。崩潰轉存裝置傳送請求至中央處理單元,以索取錯誤資料。崩潰轉存裝置自中央處理單元接收錯誤資料。崩潰轉存裝置儲存錯誤資料於儲存裝置中。

Description

電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法
總體而言,本揭露係關於運算裝置的運作可靠度。特定而言,本揭露之各面向係關於一專用崩潰轉存(crash dump)硬體電路,儲存來自電腦系統中損壞的處理器的錯誤資料。
電腦系統可進行一般的運算操作。一個典型的電腦系統,例如伺服器,一般而言包括硬體部件,例如處理器、記憶裝置、網路介面卡、電源供應器及其他專用硬體。電腦系統具有基本輸入/輸出系統(BIOS),通常為一晶片。BIOS用於在電腦系統啟動(boot up)前自該等硬體部件測試基本輸入及輸出。
當電腦系統的中央處理單元(CPU)發生錯誤時,該電腦系統可能崩潰(crash)。一般而言,中央處理單元包括多個不同晶片,進行不同支援功能。例如,在Intel處理器中,當處理器故障時,可能傳送一個災難性錯誤(catastrophic error, CATERR)事件訊號。若電腦系統中出現損壞的處理器,則該電腦系統在隨後的開機(power on)嘗試中將無法開機。因此,該電腦系統將無法正常啟動。Intel處理器具有管理引擎(ME),收集與崩潰相關的錯誤資料,以協助對損壞處理器的分析。
複雜的電腦系統,例如伺服器,使用基板管理控制器(BMC)將損壞部件的資料儲存於系統錯誤記錄(system error log, SEL)中。第1圖顯示一習知電腦系統10,根據智慧型平台管理介面(IPMI)規格,包括中央處理單元(CPU)12及BMC 14。在此範例中,CPU 12可包括特定晶片(例如平台路徑控制器(PCH))供特定操作使用,以及多個處理核心。在此範例中,BMC 14可為複雜處理器(complex processor),例如但不限於信驊科技(ASPEED)的AST2500。BMC 14包括與一匯流排的連接,例如I2C匯流排16,使BMC 14得以與CPU 12通訊。BMC 14亦包括一通用輸入/輸出(GPIO)接腳20,使錯誤訊號得以自CPU 12通訊。BMC 14為一服務處理器,監控電腦系統10的物理狀態,且一般而言包括對進階功能的支援。例如,BMC 14包括對鍵盤、影像、滑鼠(KVM)的支援、一網路介面,用於一管理網路、及內部記憶體,用於儲存運作資料,例如系統錯誤記錄。
然而,可能有某些電腦系統,例如網路交換器(network switch),並不具有基板管理控制器。此外,許多使用者期望不具有基板管理控制器的電腦系統。例如,將一BMC併入一電腦系統需要特定知識及通訊協定,以符合IPMI標準,以寫入韌體,供系統其餘部分使用。更進一步地,BMC基本上為分離的處理器單元,增加了電腦系統的整體成本。在某些情況下,BMC會造成安全風險,因運作資料可經由BMC存取。然而,若無BMC,則無法進行CPU故障的錯誤記錄,故不具有BMC的電腦系統無法分析CPU中發生的錯誤。此一情況會增加故障時間(downtime),因技術人員必須花費時間及資源決定CPU故障的原因。
因此,吾人亟需一專用硬體電路,用於電腦系統,使錯誤記錄得以經由自動關閉部件而進行,該自動關閉部件動作防止該電腦系統開機。吾人更亟需一簡單部件,用於錯誤記錄,以除去對複雜的基板管理控制器的需求。吾人更亟需一部件,使系統管理功能得以整合於單一處理器中。
「實施例」一詞及相似之詞彙,乃意圖廣泛指稱本揭露及下列請求項之所有標的。包含該等詞彙之陳述,應理解為並非用以限定本揭露之標的,或用以限定下列請求項之意義或範圍。本揭露所涵蓋之實施例乃由下列請求項定義,而非由本節內容定義。本節內容為本揭露多個不同樣態的總體概述,並介紹部分概念,該等概念將於「實施方式」一節中進一步詳述。本節內容並非意圖識別請求項所請標的之關鍵或基本特徵;亦非意圖單獨用於決定請求項所請標的之範圍。對該標的之理解,應參照本揭露之說明書全文、任一或所有圖式及每一請求項中適當之部分進行。
揭露之一範例為一電腦系統,包括一中央處理單元,可運作以傳送一錯誤訊號。該中央處理單元具有一管理引擎,被配置以收集錯誤資料。一專用崩潰轉存裝置耦接至該中央處理單元,以接收該錯誤訊號。一儲存裝置耦接至該崩潰轉存裝置。該崩潰轉存裝置被配置為傳送一錯誤資料請求至該中央處理單元、回應於該請求自該中央處理單元接收錯誤資料、並儲存該錯誤資料於該儲存裝置中。
該範例系統的一種進一步實施為一實施例,其中該電腦系統為一伺服器。另一實施為其中該崩潰轉存裝置為一可程式化裝置。另一實施為其中該崩潰轉存裝置為以下之一:複雜可程式化邏輯裝置、現場可程式化邏輯閘陣列、或可程式化微控制器積體電路。另一實施為其中該系統包括一匯流排,耦接至該儲存裝置、該中央處理單元及該崩潰轉存電路(裝置)。另一實施為其中該儲存裝置被配置為儲存指令,該等指令指示該崩潰轉存裝置以一預設通訊協定傳送該請求,並以該預設通訊協定於該匯流排接收該錯誤資料。另一實施為其中該匯流排為一I2C匯流排,且該預設通訊協定為智慧型平台管理匯流排(IPMB)通訊協定。另一實施為其中該儲存裝置為電子可抹除式可程式化唯讀記憶體(EEPROM)。另一實施為其中該崩潰轉存裝置包括一通用輸入/輸出接腳,被配置為自該中央處理單元接收該錯誤訊號。
揭露之另一範例為一方法,自一電腦系統中的一處理器記錄錯誤資料。一錯誤訊號自該中央處理單元傳送。該錯誤訊號由一專用崩潰轉存裝置接收,該崩潰轉存裝置耦接至該中央處理單元。一錯誤資料請求由該崩潰轉存裝置傳送至該中央處理單元。該錯誤資料自該中央處理單元被接收。該已接收之錯誤資料被儲存於一儲存裝置中,該儲存裝置耦接至該崩潰轉存裝置。
該範例方法的另一實施為其中該電腦系統為一伺服器。另一實施為其中該崩潰轉存裝置為一可程式化裝置。另一實施為其中該崩潰轉存裝置為以下之一:複雜可程式化邏輯裝置、現場可程式化邏輯閘陣列、或可程式化微控制器積體電路。另一實施為其中該請求經由一匯流排傳送,該匯流排耦接至該儲存裝置、該中央處理單元及該崩潰轉存電路。另一實施為其中該儲存裝置儲存指令,指示該崩潰轉存裝置以一預設通訊協定傳送該請求,並以該預設通訊協定於該匯流排接收該錯誤資料。另一實施為其中該匯流排為一I2C匯流排,且該預設通訊協定為IPMB通訊協定。另一實施為其中該儲存裝置為電子可抹除式可程式化唯讀記憶體(EEPROM)。另一實施為其中該崩潰轉存裝置包括一通用輸入/輸出接腳,自該中央處理單元接收該錯誤訊號。
揭露之另一範例為一專用崩潰轉存硬體裝置,包括一通用輸入/輸出接腳,被配置為自一中央處理單元接收一錯誤訊號。該硬體裝置包括一匯流排介面,與一匯流排通訊,該匯流排耦接至該中央處理單元及一儲存裝置。該裝置包括一崩潰轉存電路,可運作以回應於在該匯流排介面接收該錯誤訊號,傳送一請求至該中央處理單元。該崩潰轉存電路可運作以自該中央處理單元經由該匯流排介面接收錯誤資料。該崩潰轉存電路可運作以經由該匯流排儲存該錯誤資料於該儲存裝置中。
本發明可以多種不同形式實施。代表實施例顯示於圖式中,並將於本說明書中詳述。本揭露乃其原理之範例或圖示,而非意圖將本揭露之寬廣面向限制於所示之實施例中。就此而言,於例如「發明摘要」、「發明內容」及「實施方式」等節中揭露、但未於請求項中明確陳述的元件及限制,不應以單獨或集體、隱含、推論或其他形式被併入請求項中。為本節敘述方便起見,除非特別聲明,否則單數詞彙皆包括複數詞彙,反之亦然;「包括」一詞意指「包括而不限於」。此外,表近似之詞彙,例如「大約」、「近乎」、「基本上」、「近於」等,於本說明書中可意指例如「於」、「接近」或「近似於」、或「於3-5%誤差範圍內」、或「在容許的製造誤差範圍內」、或上述範圍的任何邏輯組合。
本揭露係關於一電腦系統,不需管理控制器即可進行崩潰轉存(crash dump)功能,記錄關於中央處理單元的錯誤資料。該系統中具有一特定專用崩潰轉存硬體裝置及非揮發性記憶體,用於錯誤記錄功能。因此,基板管理控制器的其餘系統監控運作可由該中央處理單元進行,因而除去了對基板管理控制器的需求。
第2圖為一方塊圖,顯示電腦系統100中的部件,使錯誤記錄得以經由一專用崩潰轉存硬體電路進行。電腦系統100具有一中央處理單元(CPU)110,該CPU 110可包括特定晶片,例如平台路徑控制器(platform controller hub),用於特定運作,亦可包括多個處理核心。CPU 110亦包括一管理引擎(ME),提供型號特定暫存器(model specific register, MSR)錯誤資料,該錯誤資料係關聯於造成CPU 110故障的錯誤。一專用崩潰轉存硬體裝置112用於處理錯誤報告。儲存裝置114使來自CPU 110的錯誤資料得以儲存。在此範例中,匯流排120,例如但不限於積體匯流排電路(inter-integrated circuit, I2C)匯流排,使CPU 110、崩潰轉存硬體裝置112及儲存裝置114之間的訊息通訊得以依據一預設通訊協定進行。崩潰轉存硬體裝置112包括電路,以進行崩潰轉存功能、一匯流排介面,耦接至匯流排120、及一通用輸入/輸出(GPIO)接腳122,耦接至一導線,以自CPU 110接收訊號。此訊號的一範例為災難性錯誤(CATERR)事件訊號,依據Intel x86標準,當CPU 110故障時,由CPU 110產生。
電腦系統100亦可包括雙列直插式記憶體模組(DIMM),以提供額外的記憶體支援CPU 110。特定功能可由特定處理器進行,例如安裝於主機板或擴充卡上的圖形處理器(GPU)或現場可程式化邏輯閘陣列(FPGA)。電腦系統100亦可包括額外的硬體部件,例如但不限於網路介面卡(NIC)、磁碟陣列(RAID)卡、現場可程式化邏輯閘陣列(FPGA)卡、電源供應單元(PSU)、硬碟(HDD)、固態硬碟(SSD)、雙列直插式記憶體模組(DIMM)、中央處理單元(CPU)、及圖形處理器(GPU)。
在此範例中,崩潰轉存硬體裝置112可為一專用電路裝置,例如複雜可程式化邏輯裝置(CPLD)、特定應用積體電路(ASIC)、現場可程式化邏輯閘陣列(FPGA)、或任何實施崩潰轉存功能的可程式化微控制器積體電路。在此範例中,該崩潰轉存硬體裝置為一MAX10。在此範例中,崩潰轉存硬體裝置112可經由儲存於儲存裝置114中的指令進行程式化。若崩潰轉存硬體裝置112為一專用特定電路(例如ASIC),則該等功能被設計於該硬體自身之中。若崩潰轉存硬體裝置112包括可程式化硬體(例如CPLD或FPGA),則該硬體裝置可在安裝於電腦系統100之前被程式化。在此範例中,儲存裝置114為一分離部件,例如電子可抹除式可程式化唯讀記憶體(EEPROM),惟其他合適之非揮發性記憶體裝置亦可使用。或者,儲存裝置114可內建於硬體裝置112之中。
在此範例中,崩潰轉存硬體裝置112經由GPIO接腳122自CPU 110接收錯誤訊號。崩潰轉存硬體裝置112經由匯流排120自CPU 110請求及接收錯誤資料,以進行崩潰轉存功能。崩潰轉存硬體裝置112經由匯流排120將該錯誤資料移動至儲存裝置114,以儲存該錯誤資料。該特定崩潰轉存硬體裝置112及儲存裝置114使錯誤資料得以儲存,而不須使用複雜的管理控制器,例如BMC。技術人員可經由存取硬體裝置112讀取CPU的型號特定暫存器(MSR),進而讀取儲存於儲存裝置114中的資料。此外,儲存於EEPROM儲存裝置114中的資料亦可經由I2C匯流排120讀取。此資料可包括分析錯誤訊息、及該型號特定暫存器中其他由CPU型號經由管理引擎定義的資料。
在正常運作狀態下,崩潰轉存硬體裝置112總是(always)偵測GPIO接腳122上是否出現錯誤訊號。當崩潰轉存硬體裝置112在GPIO接腳122上偵測到錯誤訊號時,會啟動崩潰轉存功能。崩潰轉存硬體裝置112將對CPU 110的管理引擎發出詢問(query),以索取來自該型號特定暫存器的所有資料。該崩潰轉存硬體電路的詢問或要求指令儲存於儲存裝置114中,用以經由匯流排120以一資料通訊協定(例如智慧型平台管理匯流排(IPMB)通訊協定)接收錯誤資料。
第3圖為一方塊圖,顯示崩潰轉存功能因硬體裝置112自CPU 110接收一CATERR訊息而啟動時的要求與回應訊息。當崩潰轉存功能由崩潰轉存硬體裝置112啟動時,要求訊息310會經由匯流排120傳送至CPU 110。接著,該錯誤資料以一回應訊息312經由匯流排120回傳至崩潰轉存硬體裝置112。
如上所述,儲存裝置114中的記憶體區塊被分配以儲存指令,或用於儲存資料。在此範例中,儲存裝置114包括一指令區塊320集合,該集合包括用於一預設通訊協定(例如IPMB)的指令,使崩潰轉存硬體裝置112得以經由匯流排120對該CPU進行請求,並自該CPU接收回應。儲存裝置114亦包括一系列資料結果區塊(data result blocks)322,用於儲存接收的錯誤資料。技術人員可由資料結果區塊322檢視該等儲存的錯誤資料,以分析CPU崩潰的原因。例如,指令區塊320可儲存4KB的崩潰轉存指令,而資料結果區塊322儲存4KB的CPU MSR(型號特定暫存器)暫存器資料。
在此範例中,該等用於IPMB通訊協定的指令預先燒錄於儲存裝置114中。接著,儲存裝置114及崩潰轉存硬體裝置112被安裝於電腦系統100中。當硬體裝置112經由GPIO接腳122自CPU 110接收一錯誤訊號時,崩潰轉存硬體裝置112中的專用電路會執行崩潰轉存功能。
在此範例中,崩潰轉存硬體裝置112使用顯示於第4A圖中的請求指令400,該請求指令400以IPMB格式經由第3圖中的匯流排120傳送至CPU 110的管理引擎。在此範例中,該請求指令具有一機器叢集(machine bank),該機器叢集具有五個20位元組區段,用於暫存器401、402、403、404、405,分別標記為機器控制(MCi_CTL)、機器狀態(MCi_STATUS)、機器位址(MCi_ADDR)、機器雜項(MCi_MISC)、及另一機器控制(MCi_CTL2)。請求指令400的總大小為指令數量與指令大小的乘積。例如,指令數量為200且指令大小為20位元組時,請求指令大小為4KB。
如第4A圖所示,請求指令400包括位元組4,為從屬(Rs)位址;位元組5,為待存取的功能及邏輯單元編號(netfn/Lun);位元組6,為第一校驗和(checksum);位元組7,為請求器(Rq)位址;位元組8,為回應序列及邏輯單元編號(Rq Seq/Lun);位元組9,為指令(cmd)位元組;及位元組18,為第二校驗和。位元組10-17儲存資料酬載(payload),於本範例中為該請求指令。
第4B圖顯示一回應450,自CPU 110傳送至第3圖中的崩潰轉存硬體裝置112。回應450以IPMB格式呈現,故可依據崩潰轉存硬體裝置112的指令被讀取。在此範例中,回應450具有五個20位元組區段。回應450包括位元組1,為請求器(Rq)位址;位元組2,為待存取的功能及邏輯單元編號(netfn/Lun);位元組3,為第一校驗和;位元組4,為從屬(Rs)位址;位元組5,為回應序列及邏輯單元編號(Rq Seq/Lun);位元組6,為指令(cmd)位元組;位元組7,為錯誤檢查(CCODE);及位元組19,為第二校驗和。位元組8-18儲存資料酬載,於本範例中為來自CPU 110管理引擎的錯誤資料。
在接收回應450後,崩潰轉存硬體裝置112自CPU 110讀取資料(例如來自該等型號特定暫存器的資料),並儲存該錯誤資料於儲存裝置114中。技術人員可自儲存裝置114讀取以IPMB格式呈現的所有錯誤資料。技術人員可對該錯誤資料使用比較工具,以快速決定導致CPU 110故障的原因。
第5圖為一流程圖,顯示經由第2圖中的特定崩潰轉存硬體裝置112處理錯誤訊號的一般流程。當CPU 110發生一錯誤時,一錯誤訊號(例如一CATERR事件訊號)被傳送至GPIO接腳122(步驟510)。此常式(routine)決定是否有自GPIO接腳122接收一訊號(步驟512)。若未接收錯誤訊號,則自動崩潰轉存功能維持關閉(步驟514)。若接收錯誤訊號,則崩潰轉存硬體裝置112的崩潰轉存功能啟動(步驟516)。接著,崩潰轉存硬體裝置112將經由匯流排120傳送一IPMB要求指令。
當CPU 110經由匯流排120接收該IPMB要求指令時,CPU 110會回傳相關的程式碼錯誤資料至崩潰轉存硬體裝置112(步驟518)。崩潰轉存硬體裝置112使用匯流排120儲存該錯誤資料於儲存裝置114中。因此,技術人員可自儲存裝置114讀取該資料,以決定CPU錯誤訊息及錯誤類型。此資料有助於解決造成CPU崩潰的問題。當該等錯誤訊息儲存於儲存裝置114後,自動崩潰轉存功能關閉(步驟514)。
第5圖中的流程圖代表範例機器可讀指令,用於第2圖中的崩潰轉存硬體裝置112,以進行錯誤偵測及記錄。在此範例中,該等機器可讀指令包括一演算法,經由下列裝置執行:(a)一處理器;(b)一控制器;及/或(c)一個或多個其他合適的處理裝置。該演算法可以軟體形式實施,儲存於有形媒體中,例如快閃記憶體、CD-ROM、軟碟、硬碟、DVD、或其他儲存裝置。然而,於本發明所屬領域具技術之人可輕易認識到,該演算法之整體或部分亦可以習知之方式(例如以特定應用積體電路(ASIC)、可程式化邏輯裝置(PLD)、現場可程式化邏輯裝置(FPLD)、現場可程式化邏輯閘陣列(FPGA)、離散邏輯閘等實施),由處理器以外的裝置執行,及/或以韌體或專用硬體的形式實施。例如,該等介面的任何或全部部件可以軟體、硬體及/或韌體形式實施。此外,部分或全部由前述流程圖所代表的機器可讀指令可以人工實施。更進一步地,儘管該範例演算法乃參照第5圖所示的流程圖而敘述,然而於本發明所屬領域具技術之人可輕易認識到亦可使用多種其他方法實施該等範例機器可讀指令。例如,可改變第5圖中各方塊的執行順序,及/或可改變、除去或合併部分所述方塊。
本專利申請文件中所使用的「部件」、「模組」、「系統」或相似詞彙,一般而言係指稱一電腦相關實體,其可能為硬體(例如電路)、硬體及軟體之組合、軟體、或關聯於一運作機器的實體,該運作機器具有一種或多種特定功能。例如,一部件可能但不限定為運作於一處理器(例如數位訊號處理器)上的一程序、一處理器、一物件、一執行檔、一執行緒、一程式、及/或一電腦。舉例而言,在一控制器上運行的一應用程式及該控制器皆可為一部件。一個或多個部件可能位於一程序及/或一執行緒內,且一部件可能位於一電腦內及/或分布在二個或更多電腦之間。更進一步地,一「裝置」可以特定設計的硬體、特定化的通用硬體(經由在該硬體上執行軟體,使該硬體得以進行特定功能)、儲存於電腦可讀媒體上的軟體、或上述各種實體之組合的形式實施。
儘管上文敘述了本發明的多個實施例,然而應注意,該等實施例之呈現僅作為範例之用,而非限制。儘管本發明的一種或多種實施已被圖式及敘述,然而於本發明所屬領域具技術之人當可於閱讀並理解本說明書及附隨之圖式後,知悉等效之改造或改良。此外,儘管本發明的一特定特徵可能僅揭露於數種實施中之一,然而若對於任何給定或特定之應用為所欲或有利,則該特徵亦可與一種或多種其他實施中的其他特徵合併。因此,本發明的廣度及範圍不應限定於任何前述實施例之中。反之,本發明的範圍應依據下列請求項及其等效敘述而定義。
本說明書中使用的詞彙,僅是為了敘述特定實施例,而非意圖限制本發明。除非文中另有指稱,否則本說明書中使用的單數詞彙「一」、「一個」及「該」亦意圖包括複數詞彙。此外,於「實施方式」及/或請求項中使用的「包括」、「包含」、「具有」、「有」等詞彙,乃意圖指稱開放式(inclusive)意涵,與「含有」(comprising)一詞相若。
除非另有定義,否則本說明書中使用的所有詞彙(包括技術及科學詞彙)之意義皆與本發明所屬領域具通常技術之人所普遍知悉之意義相同。此外,各詞彙,例如於常用辭典中有定義者,除非於本說明書中有明確定義,否則其意義應解讀為與其在相關技術脈絡中之意義一致者,而不應以理想化或過度正式之方式解讀。
10: 電腦系統 12: 中央處理單元(CPU) 14: 基板管理控制器(BMC) 16: I2C匯流排 20: 通用輸入/輸出(GPIO)接腳 100: 電腦系統 110: 中央處理單元(CPU) 112: 崩潰轉存硬體裝置 114: 儲存裝置 120: 匯流排 122: 通用輸入/輸出(GPIO)接腳 310: 要求訊息 312: 回應訊息 320: 指令區塊 322: 資料結果區塊 400: 請求指令 401-405: 暫存器 450: 回應 510、512、514、516、518: 步驟
於閱讀以下範例實施例之敘述,並參照附隨之圖式一同閱讀後,可達對本揭露最佳之理解,其中: 第1圖為一方塊圖,顯示一先前技術系統,使用基板管理控制器以進行錯誤記錄; 第2圖為一方塊圖,顯示一電腦系統,使用一範例專用崩潰轉存硬體裝置,以進行CPU的錯誤記錄; 第3圖為一詳細圖表,顯示第2圖中的專用崩潰轉存硬體裝置及CPU之間的請求及回應,以進行錯誤記錄; 第4A圖為一圖表,顯示來自該專用崩潰轉存硬體裝置的請求訊息;以及 第4B圖為一圖表,顯示來自該CPU的回應訊息;以及 第5圖為一流程圖,顯示由第2圖中的範例專用崩潰轉存硬體裝置進行的錯誤記錄程序。
本揭露可具有多種改良及替換形式。某些代表實施例已在圖式中以範例呈現,並將於本說明書中詳述。然而,應注意,本發明並非意圖限制於已揭露之特定形式。反之,本揭露乃意圖涵蓋落於本發明精神與範圍內的所有改良物、等效物及替換物,該精神與範圍如附錄之請求項所定義。
100: 電腦系統 110: 中央處理單元(CPU) 112: 崩潰轉存硬體裝置 114: 儲存裝置 120: 匯流排 122: 通用輸入/輸出(GPIO)接腳

Claims (5)

  1. 一種電腦系統,包括:一中央處理單元,可運作以傳送一錯誤訊號,該中央處理單元包括一管理引擎,該管理引擎被配置為收集錯誤資料;一崩潰轉存裝置,耦接至該中央處理單元,且被配置為接收該錯誤訊號;一儲存裝置,耦接至該崩潰轉存裝置;以及一匯流排,耦接至該儲存裝置、該中央處理單元及該崩潰轉存裝置;其中該崩潰轉存裝置被配置為:回應於接收到該錯誤訊號,傳送一錯誤資料請求至該中央處理單元;回應於該錯誤資料請求,自該中央處理單元接收錯誤資料;以及儲存該錯誤資料於該儲存裝置中;其中該儲存裝置被配置為儲存指令,供該崩潰轉存裝置以一預設通訊協定傳送該錯誤資料請求,並於該匯流排以該預設通訊協定接收該錯誤資料。
  2. 如請求項1之系統,其中該崩潰轉存裝置包括一通用輸入/輸出(GPIO)接腳,被配置為自該中央處理單元接收該錯誤訊號。
  3. 一種記錄錯誤資料的方法,該錯誤資料來自一電腦 系統的中央處理單元,該方法包括:自該中央處理單元傳送一錯誤訊號;以一崩潰轉存裝置接收該錯誤訊號,該崩潰轉存裝置耦接至該中央處理單元;回應於接收到該錯誤訊號,由該崩潰轉存裝置傳送一錯誤資料請求至該中央處理單元;自該中央處理單元接收該錯誤資料;以及將接收的該錯誤資料儲存於一儲存裝置中,該儲存裝置耦接至該崩潰轉存裝置;其中該錯誤資料請求經由一匯流排傳送,該匯流排耦接至該儲存裝置、該中央處理單元及該崩潰轉存裝置;其中該儲存裝置被配置為儲存指令,供該崩潰轉存裝置以一預設通訊協定傳送該錯誤資料請求,並於該匯流排以該預設通訊協定接收該錯誤資料。
  4. 如請求項3之方法,其中該崩潰轉存裝置包括一通用輸入/輸出(GPIO)接腳,被配置為自該中央處理單元接收該錯誤訊號。
  5. 一種專用崩潰轉存硬體裝置,包括:一通用輸入/輸出(GPIO)接腳,被配置為自一中央處理單元接收一錯誤訊號:一匯流排介面,與一匯流排通訊,該匯流排耦接至該中央處理單元及一儲存裝置;以及 一崩潰轉存電路,可運作以:回應於在該匯流排介面接收該錯誤訊號,傳送一錯誤資料請求至該中央處理單元;經由該匯流排介面,自該中央處理單元接收錯誤資料;以及經由該匯流排儲存該錯誤資料於該儲存裝置中;其中該儲存裝置被配置為儲存指令,供該崩潰轉存電路以一預設通訊協定傳送該錯誤資料請求,並於該匯流排以該預設通訊協定接收該錯誤資料。
TW110122675A 2021-02-26 2021-06-22 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法 TWI777628B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US17/187,207 US11360839B1 (en) 2021-02-26 2021-02-26 Systems and methods for storing error data from a crash dump in a computer system
US17/187,207 2021-02-26

Publications (2)

Publication Number Publication Date
TW202234242A TW202234242A (zh) 2022-09-01
TWI777628B true TWI777628B (zh) 2022-09-11

Family

ID=81944289

Family Applications (1)

Application Number Title Priority Date Filing Date
TW110122675A TWI777628B (zh) 2021-02-26 2021-06-22 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法

Country Status (3)

Country Link
US (1) US11360839B1 (zh)
CN (1) CN114968629A (zh)
TW (1) TWI777628B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113253941B (zh) * 2021-06-22 2021-10-15 苏州浪潮智能科技有限公司 一种寄存器读取方法、装置、设备和介质
US20230161599A1 (en) * 2021-11-24 2023-05-25 Rambus Inc. Redundant data log retrieval in multi-processor device

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622322A (zh) * 2012-02-24 2012-08-01 华为技术有限公司 一种利用黑匣子获取崩溃信息的方法、黑匣子及服务器
TW201704929A (zh) * 2015-07-30 2017-02-01 神雲科技股份有限公司 伺服器及電力重置偵測方法
CN108563719A (zh) * 2018-04-02 2018-09-21 郑州云海信息技术有限公司 一种用于异常日志转储的lzo压缩方法及系统
CN111625389A (zh) * 2020-05-28 2020-09-04 山东海量信息技术研究院 一种vr的故障数据获取方法、装置及相关组件

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005089400A2 (en) * 2004-03-17 2005-09-29 Riverstone Networks, Inc. Managing process state information in an operating system environment
US7555676B2 (en) * 2005-07-18 2009-06-30 Dell Products L.P. Systems and methods for providing remotely accessible in-system emulation and/or debugging
US9842036B2 (en) * 2015-02-04 2017-12-12 Apple Inc. Methods and apparatus for controlled recovery of error information between independently operable processors
US11294749B2 (en) * 2017-12-30 2022-04-05 Intel Corporation Techniques to collect crash data for a computing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102622322A (zh) * 2012-02-24 2012-08-01 华为技术有限公司 一种利用黑匣子获取崩溃信息的方法、黑匣子及服务器
TW201704929A (zh) * 2015-07-30 2017-02-01 神雲科技股份有限公司 伺服器及電力重置偵測方法
CN108563719A (zh) * 2018-04-02 2018-09-21 郑州云海信息技术有限公司 一种用于异常日志转储的lzo压缩方法及系统
CN111625389A (zh) * 2020-05-28 2020-09-04 山东海量信息技术研究院 一种vr的故障数据获取方法、装置及相关组件

Also Published As

Publication number Publication date
TW202234242A (zh) 2022-09-01
US11360839B1 (en) 2022-06-14
CN114968629A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
US7676694B2 (en) Managing system components
US20090150721A1 (en) Utilizing A Potentially Unreliable Memory Module For Memory Mirroring In A Computing System
US11461085B2 (en) Firmware upgrade method in multiple node storage system
WO2020239060A1 (zh) 错误恢复的方法和装置
TWI777628B (zh) 電腦系統及其專用崩潰轉存硬體裝置與記錄錯誤資料之方法
US20150169221A1 (en) Information processing apparatus and method for monitoring the same
TW202137034A (zh) 自動偵測及警示計算裝置組件變更的方法和系統
US9063854B1 (en) Systems and methods for cluster raid data consistency
US10776193B1 (en) Identifying an remediating correctable hardware errors
TW202042062A (zh) 提供系統資料之方法、系統及伺服器
TWI772024B (zh) 減少停機時間的方法及系統
US11163644B2 (en) Storage boost
JP4299634B2 (ja) 情報処理装置及び情報処理装置の時計異常検出プログラム
TWI832173B (zh) 快閃記憶體監控系統、方法及其電腦系統
US9268644B1 (en) Systems and methods for raid acceleration
US20230055136A1 (en) Systems and methods to flush data in persistent memory region to non-volatile memory using auxiliary processor
US11593209B2 (en) Targeted repair of hardware components in a computing device
US11900150B2 (en) Methods and systems for collection of system management interrupt data
CN113626275A (zh) 资讯的建立方法及分析方法
CN118656307B (zh) 基板管理控制器的故障检测方法、服务器、介质和产品
WO2024113295A1 (en) System, method and apparatus for filtering configuration accesses to unimplemented devices
TWI781452B (zh) 監控及復原異質性元件的系統及方法
US20240362131A1 (en) Systems and methods for configuration of witness sleds
TW202414229A (zh) 用於致動一毀損記憶碟之視覺指示器的系統及方法
CN118160038A (zh) 用于触发故障存储器驱动器的视觉指示器的系统及方法

Legal Events

Date Code Title Description
GD4A Issue of patent certificate for granted invention patent