TWI635401B - Arm架構伺服器及其管理方法 - Google Patents
Arm架構伺服器及其管理方法 Download PDFInfo
- Publication number
- TWI635401B TWI635401B TW106130901A TW106130901A TWI635401B TW I635401 B TWI635401 B TW I635401B TW 106130901 A TW106130901 A TW 106130901A TW 106130901 A TW106130901 A TW 106130901A TW I635401 B TWI635401 B TW I635401B
- Authority
- TW
- Taiwan
- Prior art keywords
- arm
- event message
- peripheral device
- arm processor
- management controller
- Prior art date
Links
Landscapes
- Hardware Redundancy (AREA)
- Debugging And Monitoring (AREA)
Abstract
本發明提出一種ARM架構伺服器,包括至少一個周邊裝置、基板管理控制器以及ARM處理器,其中ARM處理器包括ARM可信賴韌體(ARM Trusted Firmware,ATF)。基板管理控制器用以監控並判斷至少一個周邊裝置以及ARM處理器是否發生異常,並且依據判斷結果產生對應於ARM處理器或其中一個周邊裝置的事件訊息。ARM可信賴韌體用以接收來自基板管理控制器的事件訊息,並且用以對事件訊息所對應的ARM處理器或周邊裝置執行事件處理操作。此外,一種ARM架構伺服器的管理方法亦被提出。
Description
本發明是有關於一種伺服器管理方法,且特別是有關於一種可自動排除障礙的ARM架構伺服器及其管理方法。
基板管理控制器(Baseboard Management Controller,BMC)是用於管理伺服器系統。一般而言,為了監控電腦系統的內部運作是否正常,使用者可利用配置於主機板上的基板管理控制器來檢測電腦系統。常見的方式包括遠端控制基板管理控制器,以偵測電腦系統中用以感測各個元件運作情況的各個感測器的讀值(例如:風扇的轉速或者處理器的溫度等)。當使用者發現感測器讀值出現異常時,必須親自到現場對伺服器進行修復(例如,零件的替換等)。然而,過長的反應時間可能導致伺服器發生異常之後造成更嚴重的毀損與資料的遺失。因此,為了維持伺服器的正常運作與良好的服務,在感測器讀值異常後過長的反應時間是不被允許的。
本發明提供一種ARM架構伺服器及其管理方法,能夠在BMC檢測到元件出現異常時自動進行修復,因而能夠使伺服器不中斷地正常運作。
本發明提出一種ARM架構伺服器,包括至少一個周邊裝置、基板管理控制器以及ARM處理器。基板管理控制器耦接於所述至少一個周邊裝置,用以監控並判斷至少一個周邊裝置以及ARM處理器是否發生異常,並且依據判斷結果產生對應於ARM處理器或其中一個周邊裝置的事件訊息。ARM處理器耦接於所述至少一個周邊裝置以及基板管理控制器,其中包括ARM可信賴韌體(ARM Trusted Firmware,ATF)。ARM可信賴韌體用以接收來自基板管理控制器的事件訊息,並且用以對事件訊息所對應的ARM處理器或周邊裝置執行事件處理操作。
從一另觀點而言,本發明提出一種ARM架構伺服器的管理方法。ARM架構伺服器包括至少一個周邊裝置、基板管理控制器以及ARM處理器。所述管理方法包括:基板管理控制器監控並判斷所述至少一個周邊裝置以及ARM處理器是否發生異常;基板管理控制器依據判斷結果產生對應於ARM處理器或其中一個周邊裝置的事件訊息;基板管理控制器傳送事件訊息至ARM處理器;以及藉由ARM處理器中的ARM可信賴韌體,對事件訊息所對應的ARM處理器或周邊裝置執行事件處理操作。
在本發明的一實施例中,上述的事件訊息對應於ARM處理器,並且事件處理操作包括調整ARM處理器的工作頻率。
在本發明的一實施例中,上述的周邊裝置包括具有至少兩個記憶體通道的記憶體裝置,上述的事件訊息對應於其中一個記憶體通道,並且事件處理操作包括關閉事件訊息所對應的記憶體通道。
在本發明的一實施例中,上述的周邊裝置包括PCI-E裝置,事件訊息對應於PCI-E裝置,並且事件處理操作包括執行PCI-E重置。
在本發明的一實施例中,上述的ARM架構伺服器包括多個例外層級,其中ARM架構伺服器的作業系統運行於第一例外層級,並且ARM可信賴韌體運行於不低於第一例外層級的第二例外層級。
基於上述,本發明實施例所提出的ARM架構伺服器及其管理方法,基板管理控制器將異常事件通知ARM可信賴韌體,並且藉由ARM可信賴韌體來直接對發生異常的裝置進行處理。如此一來,使用者無須在作業系統安裝監控程式,便能夠及時的對ARM伺服器進行修復,也能同時兼顧安全性。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
圖1繪示本發明一實施例的ARM架構伺服器的概要方塊圖。請參照圖1,本發明實施例的ARM架構伺服器100包括基板管理控制器110、至少一個周邊裝置120,以及ARM處理器130,其中基板管理控制器110 以及ARM處理器130皆耦接於各周邊裝置120。特別是,基板管理控制器110亦耦接於ARM處理器。
在一實施例中,ARM架構伺服器100例如但不限於是ARMv8-A架構,其中包括多個例外層級(Exception levels),而例外層級越高表示存取權限(privilege)越高。舉例而言,ARM架構伺服器100包括EL0到EL3四個例外層級,其中,EL0為無特權層級(unprivileged),EL1為作業系統核心模式(OS kernel mode),EL2為虛擬機器監視器層級(Hypervisor mode),而EL3為TrustZone
®監視層級(TrustZone
®monitor mode)。
基板管理控制器110例如是透過智慧平台管理匯流排(Intelligent Platform Management Bus,IPMB)與各周邊裝置120中相連接,以監控各周邊裝置120。在一實施例中,周邊裝置120包括監控風扇轉速或處理器溫度等的感測器、雙通道(Dual-channel)雙倍資料率同步動態隨機存取記憶體(Double Data Rate Synchronous Dynamic Random Access Memory,DDR SDRAM),以及PCI-E乙太網路(Ethernet)卡等元件,但本發明並不限於此。關於基板管理控制器110與其監控伺服器各項周邊裝置120的相關說明,所屬領域具備通常知識者當可從習知技術中獲致足夠的教示,故在此不再贅述。
ARM處理器130是以精簡指令集(Reduced Instruction Set Computing,RISC)架構設計的處理器,例如為ARM Cortex-A、ARM Cortex-M、Cortex-A50系列或CortexA-73的處理器等,但本發明並不在此限。
在一實施例中,ARM處理器130包括ARM可信賴韌體(ARM Trusted Firmware,ATF)131,用以提供ATF服務。值得一提的是,ARM可信賴韌體131是運行於不低於作業系統的例外層級。舉例來說,ARM伺服器100的作業系統例如是運行於第一例外層級(例如,EL1),而ARM可信賴韌體131則是運行於不低於第一例外層級的第二例外層級(例如,EL3)。因此,ARM可信賴韌體131可以存取所有ARM處理器130本身以及各種介面(例如,SATA、PCI-E、LAN、GPIO、SPI或I2C等介面)的外掛或非外掛周邊裝置120。關於ARM可信賴韌體131及其所能夠提供的ATF服務,所屬技術領域具備通常知識者當可從ARM架構相關的習知技術中獲致足夠的教示,在此不再贅述。
特別是,當基板管理控制器110偵測到ARM處理器130本身或是有周邊元件120出現異常時,會將異常狀況通知ARM處理器130。由於ARM處理器130中的ARM可信賴韌體131是運行於不低於作業系統的例外層級,因此ARM可信賴韌體131能夠直接對ARM伺服器100中發生異常的元件進行處理或修復。
圖2繪示本發明一實施例的ARM架構伺服器的管理方法的流程圖。圖2實施例中的管理方法適用於圖1中的ARM架構伺服器100,以下將參照圖1中ARM架構伺服器100的各組件來描述圖2實施例方法的詳細步驟。
請參照圖2,在步驟S210中,基板管理控制器110監控並判斷至少一個周邊裝置120以及ARM處理器130是否發生異常。
舉例來說,基板管理控制器110可例如監控ARM處理器130中的溫度感測器以判斷ARM處理器130是否過熱;基板管理控制器110可例如監控ARM伺服器100中的記憶體裝置以判斷其是否正常運作;或基板管理控制器110可例如監控ARM伺服器100的PCI-E匯流排上的PCI-E裝置是否正常運作等,但不在此限。所屬領域具備通常知識者當可從基板管理控制器與習知的相關知識中獲致足夠的教示,以設定各元件的異常狀態並且完成上述判斷各元件是否發生異常的操作,故在此不再一一贅述。
若基板管理控制器110沒有發現異常時,則繼續執行步驟S210。反之,若基板管理控制器110判斷ARM處理器130或有其中一個周邊裝置120發生異常時,則進入步驟S220,基板管理控制器110會依據判斷結果來產生事件訊息,並在步驟S230中將其傳遞給ARM處理器130。
詳細來說,基板管理控制器110依據判斷結果所產生的事件訊息是對應於發生異常的ARM處理器130或周邊元件120。舉例來說,當基板管理控制器110判斷ARM處理器130過熱時,會產生指示ARM處理器130過熱的事件訊息;當基板管理控制器110判斷記憶體裝置不正常運作(例如,資料的錯誤位元過多而錯誤糾正碼機制無法校正)時,會產生指示記憶體裝置無法正常運作的事件訊息等,但本發明並不限於此。
在步驟S240中,ARM處理器130中的ARM可信賴韌體131會接收來自基板管理控制器110的事件訊息,並且對事件訊息所對應的ARM處理器130或周邊裝置120進行事件處理操作,以不中斷運行ARM架構伺服器100。
在一實施例中,ARM處理器130連接於周邊裝置120(例如,溫度感測器),而事件訊息對應於ARM處理器130,例如是指示ARM處理器130發生過熱。在ARM可信賴韌體131接收到此事件訊息後,會對ARM處理器130執行事件處理操作。舉例而言,ARM可信賴韌體131例如會降低ARM處理器130的工作頻率,或調整ARM處理器130中CPU溫度調節器(throttle)的等級,來達到降溫的效果。如此一來,雖然ARM處理器130發生異常(過熱),仍然能夠藉由ARM可信賴韌體及時的進行處理,以避免更嚴重的毀損而導致ARM架構伺服器100中斷運行而停止服務。
在一實施例中,ARM架構伺服器100中包括周邊裝置120(例如,雙通道雙倍資料率同步動態隨機存取記憶體),而事件訊息對應於雙通道雙倍資料率同步動態隨機存取記憶體的其中一個記憶體通道,例如是指示該記憶體通道的記憶體無法正常運作。在ARM可信賴韌體131接收到此事件訊息後,會對事件訊息所對應的該記憶體通道130執行事件處理操作。舉例而言,ARM可信賴韌體131例如會關閉事件訊息所對應的記憶體通道,而保留另外一條記憶體通道的記憶體能夠正常運作。如此一來,ARM架構伺服器100依然能夠不中斷服務的繼續運行。
在一實施例中,ARM架構伺服器100中包括周邊裝置120(例如,PCI-E裝置),而事件訊息對應於其中一個PCI-E裝置或終端(例如,PCI-E乙太網路卡),例如是指示該PCI-E裝置無法正常運作。在ARM可信賴韌體131接收到此事件訊息後,會對PCI-E裝置執行事件處理操作。舉例而言,ARM可信賴韌體131例如會執行PCI-E重置(PCI-E reset)的操作,以嘗試修復PCI-E裝置。如此一來,能夠不重啟ARM架構伺服器100而進行PCI-E重置的操作,以修復PCI-E裝置使其恢復正常運作。所屬技術領域具備通常知識者當可從PCI-E重置的相關習知技術中獲致足夠的教示,以完成本實施例所述之PCI-E重置操作,故在此並不贅述。
綜上所述,本發明實施例所提出的ARM架構伺服器及其管理方法,利用ARM處理器中的ATF韌體來直接對ARM架構伺服器中發生異常的元件進行處理或修復,能夠避免伺服器產生嚴重的毀損與資料的遺失。另一方面,使用者無須在作業系統中安裝額外的監控程式,可以免去監控程式中暗藏後門程式導致機密資料外流的風險,對於伺服器的服務而言亦提升了安全性。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
100‧‧‧ARM架構伺服器
110‧‧‧基板管理控制器
120‧‧‧至少一個周邊裝置
130‧‧‧ARM處理器
131‧‧‧ARM可信賴韌體
S210~S240‧‧‧ARM架構伺服器的管理方法的步驟
110‧‧‧基板管理控制器
120‧‧‧至少一個周邊裝置
130‧‧‧ARM處理器
131‧‧‧ARM可信賴韌體
S210~S240‧‧‧ARM架構伺服器的管理方法的步驟
圖1繪示本發明一實施例的ARM架構伺服器的概要方塊圖。 圖2繪示本發明一實施例的ARM架構伺服器的管理方法的流程圖。
Claims (10)
- 一種ARM架構伺服器,包括: 至少一周邊裝置; 一基板管理控制器,耦接於該至少一周邊裝置;以及 一ARM處理器,耦接於該至少一周邊裝置以及該基板管理控制器,其中該ARM處理器包括一ARM可信賴韌體, 其中該基板管理控制器用以監控並判斷該至少一周邊裝置以及該ARM處理器是否發生異常,並依據一判斷結果產生一事件訊息, 其中該ARM可信賴韌體用以接收來自該基板管理控制器的該事件訊息,其中該事件訊息對應於該ARM處理器或該至少一周邊裝置的其中之一, 其中該ARM可信賴韌體更用以對該事件訊息所對應的該ARM處理器或該周邊裝置執行一事件處理操作。
- 如申請專利範圍第1項所述的ARM架構伺服器,其中該事件訊息對應於該ARM處理器,其中該事件處理操作包括調整該ARM處理器的工作頻率。
- 如申請專利範圍第1項所述的ARM架構伺服器,其中該至少一周邊裝置包括一記憶體裝置,該記憶體裝置包括至少兩個記憶體通道, 其中該事件訊息對應於該些記憶體通道的其中之一,並且該事件處理操作包括關閉該事件訊息所對應的該記憶體通道。
- 如申請專利範圍第1項所述的ARM架構伺服器,其中該至少一周邊裝置包括一PCI-E裝置,其中該事件訊息對應於該PCI-E裝置,並且該事件處理操作包括執行一PCI-E重置。
- 如申請專利範圍第1項所述的ARM架構伺服器,其中該ARM架構伺服器包括多個例外層級,其中該ARM架構伺服器的一作業系統運行於一第一例外層級,並且該ARM可信賴韌體運行於不低於該第一例外層級的一第二例外層級。
- 一種ARM架構伺服器的管理方法,其中該ARM架構伺服器包括至少一周邊裝置、一基板管理控制器以及一ARM處理器,該管理方法包括: 該基板管理控制器監控並判斷該至少一周邊裝置以及該ARM處理器是否發生異常; 該基板管理控制器依據一判斷結果產生一事件訊息,其中該事件訊息對應於該ARM處理器或該至少一周邊裝置的其中之一; 該基板管理控制器傳送該事件訊息至該ARM處理器;以及 藉由該ARM處理器中的一ARM可信賴韌體,對該事件訊息所對應的該ARM處理器或該周邊裝置執行一事件處理操作。
- 如申請專利範圍第6項所述的管理方法,其中該事件訊息對應於該ARM處理器,其中該事件處理操作包括: 調整該ARM處理器的工作頻率。
- 如申請專利範圍第6項所述的管理方法,其中該至少一周邊裝置包括一記憶體裝置,該記憶體裝置包括至少兩個記憶體通道,並且該事件訊息對應於該些記憶體通道的其中之一,其中該事件處理操作包括: 關閉該事件訊息所對應的該記憶體通道。
- 如申請專利範圍第6項所述的管理方法,其中該至少一周邊裝置包括一PCI-E裝置,其中該事件訊息對應於該PCI-E裝置,並且該事件處理操作包括: 執行一PCI-E重置。
- 如申請專利範圍第6項所述的管理方法,其中該ARM架構伺服器包括多個例外層級,其中該ARM架構伺服器的一作業系統運行於一第一例外層級,並且該ARM可信賴韌體運行於不低於該第一例外層級的一第二例外層級。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106130901A TWI635401B (zh) | 2017-09-11 | 2017-09-11 | Arm架構伺服器及其管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106130901A TWI635401B (zh) | 2017-09-11 | 2017-09-11 | Arm架構伺服器及其管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
TWI635401B true TWI635401B (zh) | 2018-09-11 |
TW201913407A TW201913407A (zh) | 2019-04-01 |
Family
ID=64452768
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW106130901A TWI635401B (zh) | 2017-09-11 | 2017-09-11 | Arm架構伺服器及其管理方法 |
Country Status (1)
Country | Link |
---|---|
TW (1) | TWI635401B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI697766B (zh) * | 2018-12-10 | 2020-07-01 | 神雲科技股份有限公司 | 電子裝置與電子裝置的重置方法 |
CN111414272A (zh) * | 2019-01-04 | 2020-07-14 | 佛山市顺德区顺达电脑厂有限公司 | 电子装置与电子装置的重置方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130326514A1 (en) * | 2012-05-31 | 2013-12-05 | Electronics And Telecommunications Research Institute | Method and apparatus for supporting virtualization of loadable module |
TW201417536A (zh) * | 2012-10-24 | 2014-05-01 | Hon Hai Prec Ind Co Ltd | 伺服器自動管理方法及系統 |
TW201447767A (zh) * | 2013-06-11 | 2014-12-16 | Samsung Electronics Co Ltd | 處理器模組,微伺服器和控制處理器模組的方法 |
TW201523239A (zh) * | 2013-12-06 | 2015-06-16 | Hon Hai Prec Ind Co Ltd | 風扇錯誤偵測系統及方法 |
US20160118121A1 (en) * | 2014-10-24 | 2016-04-28 | Microsoft Technology Licensing, Llc | Configurable Volatile Memory Data Save Triggers |
CN105607716A (zh) * | 2016-01-12 | 2016-05-25 | 浪潮(北京)电子信息产业有限公司 | 一种服务器及其服务器散热系统及监控方法 |
-
2017
- 2017-09-11 TW TW106130901A patent/TWI635401B/zh active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130326514A1 (en) * | 2012-05-31 | 2013-12-05 | Electronics And Telecommunications Research Institute | Method and apparatus for supporting virtualization of loadable module |
TW201417536A (zh) * | 2012-10-24 | 2014-05-01 | Hon Hai Prec Ind Co Ltd | 伺服器自動管理方法及系統 |
TW201447767A (zh) * | 2013-06-11 | 2014-12-16 | Samsung Electronics Co Ltd | 處理器模組,微伺服器和控制處理器模組的方法 |
TW201523239A (zh) * | 2013-12-06 | 2015-06-16 | Hon Hai Prec Ind Co Ltd | 風扇錯誤偵測系統及方法 |
US20160118121A1 (en) * | 2014-10-24 | 2016-04-28 | Microsoft Technology Licensing, Llc | Configurable Volatile Memory Data Save Triggers |
CN105607716A (zh) * | 2016-01-12 | 2016-05-25 | 浪潮(北京)电子信息产业有限公司 | 一种服务器及其服务器散热系统及监控方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI697766B (zh) * | 2018-12-10 | 2020-07-01 | 神雲科技股份有限公司 | 電子裝置與電子裝置的重置方法 |
CN111414272A (zh) * | 2019-01-04 | 2020-07-14 | 佛山市顺德区顺达电脑厂有限公司 | 电子装置与电子装置的重置方法 |
CN111414272B (zh) * | 2019-01-04 | 2023-08-08 | 佛山市顺德区顺达电脑厂有限公司 | 电子装置与电子装置的重置方法 |
Also Published As
Publication number | Publication date |
---|---|
TW201913407A (zh) | 2019-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9971609B2 (en) | Thermal watchdog process in host computer management and monitoring | |
US20040148528A1 (en) | Using multiple thermal points to enable component level power and thermal management | |
JP6481900B2 (ja) | ハードウェア構成レポーティング用の装置、ハードウェア構成アービトレーションの方法、プログラム、機械可読記録媒体、及び、ハードウェア構成アービトレーション用の装置 | |
US11556490B2 (en) | Baseboard management controller-based security operations for hot plug capable devices | |
US9021317B2 (en) | Reporting and processing computer operation failure alerts | |
US20100228960A1 (en) | Virtual memory over baseboard management controller | |
US20120136502A1 (en) | Fan speed control system and fan speed reading method thereof | |
US20100306598A1 (en) | Operating Computer Memory | |
US20090150660A1 (en) | Pre-boot environment power management | |
JP2007226617A (ja) | 電子機器の冷却システム、コンピュータおよび冷却方法 | |
TW201417536A (zh) | 伺服器自動管理方法及系統 | |
US20130100599A1 (en) | Electronic system, and preheating method and apparatus thereof | |
TWI635401B (zh) | Arm架構伺服器及其管理方法 | |
US8230446B2 (en) | Providing a computing system with real-time capabilities | |
US7017062B2 (en) | Method and apparatus for recovering from an overheated microprocessor | |
US20140379162A1 (en) | Server system and monitoring method | |
US20140321014A1 (en) | Power distribution method, power distribution apparatus, and information handling system | |
US20230009470A1 (en) | Workspace-based fixed pass-through monitoring system and method for hardware devices using a baseboard management controller (bmc) | |
JP6800935B2 (ja) | 電子システムでのファンの制御方法 | |
JP5689783B2 (ja) | コンピュータ、コンピュータシステム、および障害情報管理方法 | |
CN109491813B (zh) | Arm架构服务器及其管理方法 | |
US11797679B2 (en) | Trust verification system and method for a baseboard management controller (BMC) | |
JPH10307635A (ja) | コンピュータシステム及び同システムに適用する温度監視方法 | |
US11714696B2 (en) | Custom baseboard management controller (BMC) firmware stack watchdog system and method | |
US8543755B2 (en) | Mitigation of embedded controller starvation in real-time shared SPI flash architecture |