CN101410808A - 检查管理网络的潜在故障的方法 - Google Patents
检查管理网络的潜在故障的方法 Download PDFInfo
- Publication number
- CN101410808A CN101410808A CNA2007800108442A CN200780010844A CN101410808A CN 101410808 A CN101410808 A CN 101410808A CN A2007800108442 A CNA2007800108442 A CN A2007800108442A CN 200780010844 A CN200780010844 A CN 200780010844A CN 101410808 A CN101410808 A CN 101410808A
- Authority
- CN
- China
- Prior art keywords
- module
- management controller
- incipient fault
- buffer module
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000002955 isolation Methods 0.000 claims abstract description 9
- 230000000694 effects Effects 0.000 claims description 9
- 238000007689 inspection Methods 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 7
- 238000012790 confirmation Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 description 181
- 230000006870 function Effects 0.000 description 11
- 230000008901 benefit Effects 0.000 description 8
- 239000004744 fabric Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 108010028984 3-isopropylmalate dehydratase Proteins 0.000 description 3
- 238000001816 cooling Methods 0.000 description 3
- 239000011229 interlayer Substances 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- JEOQACOXAOEPLX-WCCKRBBISA-N (2s)-2-amino-5-(diaminomethylideneamino)pentanoic acid;1,3-thiazolidine-4-carboxylic acid Chemical compound OC(=O)C1CSCN1.OC(=O)[C@@H](N)CCCN=C(N)N JEOQACOXAOEPLX-WCCKRBBISA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/004—Error avoidance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Hardware Redundancy (AREA)
- Small-Scale Networks (AREA)
Abstract
一种检查管理网络的潜在故障的方法可以包括:在管理网络上传送关于计算模块的管理数据的管理总线;管理计算模块的管理控制器;操作管理总线的主管理控制器;以及位于管理控制器和主管理控制器其中每一个与管理总线之间的缓冲器模块,其中缓冲器模块被耦合来提供管理控制器和主管理控制器其中每一个与管理总线的隔离。在管理网络中出现活动故障之前,对所述缓冲器模块执行潜在故障检查模块,以判断潜在故障检查模块是否检查出缓冲器模块的潜在故障。
Description
背景技术
管理总线,诸如智能平台管理总线(IPMB),可用于管理模块式计算机系统中的模块。例如智能平台管理控制器(IPMC)的管理控制器可用于操作该管理总线。在现有技术中,缓冲器用于将发生故障的管理控制器从管理总线上隔离开,以释放管理总线,以便总线能被其他管理控制器所用。这为管理控制器的故障提供了故障包容。然而,在现有技术中,缓冲器可能以不再提供与管理总线的隔离这种方式发生故障。这种类型的故障可能在第二管理控制器出现故障之前才会被检查到,此时缓冲器需要为管理总线提供故障隔离和故障包容。现有技术在缓冲器实际需要提供隔离之前检查管理控制器缓冲器的故障方面是低效的。这具有这样的缺点,即计算机系统中的故障包容、故障恢复和可靠性的级别很低。
需要一种现有技术不能满足的方法和装置,以便能在实际需要缓冲器来包容管理控制器故障之前检查到管理控制器缓冲器的故障。因此,十分需要一种能克服上述现有技术缺点的装置。
附图说明
本发明的代表性元件、操作特征、应用和/或优点等存在于下文中更全面地示出、描述和要求保护的结构和操作的细节中,对附图的引用和附图形成说明的一部分,在所有附图中,相应的附图标记表示相应的部件。根据具体实施方式中陈述的某些示例性实施例,其他元件、操作特征、应用和/或优点将变得显而易见,附图中:
图1代表性地示出根据本发明的示例性实施例的计算机系统;
图2代表性地示出根据本发明的示例性实施例的计算机系统的逻辑表达;
图3代表性地示出根据本发明的示例性实施例的计算机系统的逻辑表达;以及
图4代表性地示出根据本发明的示例性实施例的示例性方法的流程图。
附图中的元件是以简单和清楚为目的示出的,因此没有必要按比例绘制。例如,图中的某些元件的尺寸可相对于其他元件放大,以帮助改善对本发明的各个实施例的理解。而且,本文中如果出现术语“首先”、“第二”等,则其特别用于区分相似的元件,而不一定用于描述次序上的或时间上的顺序。而且,说明书和/或权利要求中如果存在术语“前”、“后”、“顶”、“底”、“上方”、“下方”等,则其主要出于描述的目的,而没必要理解为描述排他性的相对位置。这样使用的任意上述术语可以在合适的环境下互换,使得本文描述的本发明的各个实施例能够在与明确阐述和描述的配置和/或取向不同的其他配置和/或取向中操作。
具体实施方式
以下对本发明的代表性描述,主要涉及示例性实施例和发明人的最佳模式概念,而并不打算以任意方式限制本发明的应用或配置。而是,以下描述旨在提供对实施本发明的各个实施例的方便的说明。如将显现的那样,可以在不偏离本发明的精神和范围的情况下,对所公开的示例性实施例中描述的任意元件的功能和/或结构做出改变。
为了解释清楚,本发明的实施例部分地呈现为包含独立的功能块。这些功能块代表的功能可以通过使用共享的或专用的硬件来提供,这些硬件包括但不限于能够执行软件的硬件。本发明不限于由任意元件组实施的方式,并且本文的描述仅代表实施例。
实施本发明实施例的软件功能块可以是计算机程序模块的一部分,该计算机程序模块包括计算机指令,诸如存储在例如存储器等计算机可读介质中的控制算法。计算机指令可以指挥处理器实施以下所述的任意方法。在其他实施例中,如有需要可以提供额外的模块。
对示例性应用的详细描述作为特定生效的公开内容,该公开内容可普遍适用于根据本发明各个实施例的用于管理网络的潜在故障检查的公开系统、装置和方法的任意应用情况。
图1代表性地示出了根据本发明的示例性实施例的计算机系统100。如图1所示,计算机100可以包括具有背板103的嵌入式计算机机壳(embeddedcomputer chassis)101,该机壳101具有软件和用于插入模块的多个插槽102,这些模块例如是交换模块(switch module)108和载荷处理模块(payloadmodule)104。背板103可用于耦合多个插槽102中放置的模块,以便于数据传输和电能分配。在一个实施例中,背板103例如可以包括但不限于100-ohm差分信号对(differential signaling pair)。
如图1所示,计算机系统100可以包括至少一个交换模块108,其经由背板103耦合到任意数目的载荷处理模块104。背板103可以容纳包括分布式交换结构(distributed switched fabric)的分组交换背板(packet switchedbackplane)或多支路总线型背板(multi-drop bus type backplane)的任意组合。总线背板可以包括CompactPCI、高级电信计算架构(AdvancedTCA)、MicroTCA等。
载荷处理模块104可以通过处理器、存储器、存储装置、I/O元件等的添加为计算机系统100增添功能。换句话说,载荷处理模块104可以包括处理器、存储器、存储装置、I/O元件等的任意组合,以为计算机系统100赋予用户所希望的任意功能。承载卡(carrier card)是载荷处理卡(payload card),被设计成具有插入到其中的一个或多个夹层卡(mazzanine card),从而为计算机系统增加更多的模块功能。夹层卡不同于载荷处理卡之处在于夹层卡不被耦合成与背板在物理上直接相连,而载荷处理卡与背板在物理上直接相连。
在所示的实施例中,存在16个插槽102来容纳交换模块108和载荷处理模块104的任意组合。不过,具有任意数目插槽的计算机系统100,包括基于母板的没有插槽的系统,都可以包括在本发明的范围内。
在一个实施例中,计算机系统100可以使用交换模块108作为中央交换集线器,其中任意数目的载荷处理模块104耦合到交换模块108。计算机系统100可以支持点到点、交换式输入/输出(I/O)结构。计算机系统100可以通过使用一个或多个交换式结构网络标准实施,这些标准例如是但不限于InfiniBandTM、Serial RapidIOTM、EthernetTM、AdvancedTCATM、PCI ExpressTM、Gigabit Ethernet等。计算机系统100不限于这些交换式结构网络标准的使用,且任意交换式结构网络标准的使用都处于本发明的范围内。
在一个实施例中,计算机系统100和嵌入式计算机机壳101可以遵从PICMG 3.0 AdancedTCA规范中定义的高级电信计算架构(ATCATM)标准,其中,在交换式结构中使用交换模块108和载荷处理模块104。在另一实施例中,计算机系统100和嵌入式计算机机壳101可以遵从CompactPCI标准。在又一实施例中,计算机系统100和嵌入式计算机机壳101可以遵从如PICMGMicroTCA.0草案0.6中定义的MicroTCA.0标准-微电信计算架构基本规范(及后续版本)。本发明的实施例不限于这些标准的使用,且其他标准的使用也处于本发明的范围内。
在一个实施例的MicroTCA实施中,计算机系统100是互联元件的结合,这些互联元件包括至少一个高级夹层卡(AMC)模块(类似于载荷处理模块104)、至少一个虚拟承载卡管理器(VCM)(类似于交换模块108)以及支持它们所需的互联、电源、冷却和机械资源。典型的现有技术的MicroTCA系统可以由12个AMC模块、耦合到背板103的一个(也可以是两个,以便于有冗余)虚拟承载卡管理器组成。在高级夹层卡基本规范(PICMGAMC.0RC1.1和后续版本)中详细说明了AMC模块。在MicroTCA规范-MicroTCA.0草案0.6-微电信计算架构基本规范(及后续版本)中详细说明了VCM。
AMC模块可以是如AMC规范定义的单宽、双宽、全高、半高模块或其任意组合。VCM用作虚拟承载卡,模拟高级夹层卡基本规范(PICMGAMC.0RC1.1)中定义的高级夹层卡的需求,以恰当地托管AMC模块。承载卡功能需求包括电能输送、互联、智能平台管理接口(IPMI)管理等。VCM将AMC模块所用的控制和管理基础设施、互联结构资源和功率控制基础设施组合到单个单元中。VCM包括被所有AMC模块共享的那些公共元件,且位于背板103、一个或多个AMC模块或其组合上。
图2代表性地示出了根据本发明的示例性实施例的计算机系统200的逻辑表达。计算机系统200可包括计算模块202,该模块可以代表如上所示和所述的交换模块、载荷处理模块、AMC模块、VCM等其中任意一个。
耦合到计算模块202的是主管理控制器216,该主管理控制器可用于控制管理总线218。在一个实施例中,管理总线218可以在主管理控制器216和管理控制器214之间传送管理数据222。管理数据222可以包括从计算模块发送的信息,诸如计算机模块202的温度、电压、安培数、总线流量、状态指示等。管理数据222也可以包括从主管理控制器216发送的信息,诸如关于冷却风扇的指示、电源的调节等。通过管理总线218传送的管理数据222,用于监视和维护计算模块202。管理数据222与数据总线(为清楚起见,未示出)上发送的数据的不同之处在于,管理数据222用于监视和维护计算模块202,而数据总线用于传送被发送到计算模块202或从计算模块202发送的数据以及计算模块202处理的数据。
计算机系统200可以包括一个或多个管理控制器214,其可用于监视和管理一个或多个计算模块202。例如,计算机系统200可包括两个管理控制器214,以便于监视和管理两个计算机模块202(一个活动,一个备用)。管理控制器214可以监视从计算模块202接收的状态数据(温度、电压、安培数等)且提供管理指令给计算模块202(增大/减小冷却风扇速度,开启/关闭电源等)。一个或多个管理控制器214可以被一个或多个主管理控制器216控制(在任意时刻仅有一个主管理控制器是有效的)。在一个实施例中,主管理控制器216可以作为主用(master)工作,而一个或多个管理控制器214作为从用(slave)操作。主管理控制器216用作管理总线218的主管理器。
计算机系统200还可以包括插入到每个管理控制器214和管理总线218之间的缓冲器模块212。缓冲器模块212也可以插入到每个主管理控制器216和管理总线218之间。在一个实施例中,缓冲器模块212还用于分别提供管理控制器214或主管理控制器216与管理总线218之间的隔离。在管理控制器214或主管理控制器216发生故障的情况下,缓冲器模块212可以作为开关操作,并使有故障的管理控制器214或主管理控制器216从管理总线218上断开或隔离开。这允许通信能通过管理总线218在某些主管理控制器216和某些管理控制器214之间继续进行,因而确保有故障的管理控制器214或主管理控制器216不会导致整个管理总线218都发生故障。
在一个实施例中,管理总线218可以是智能平台管理接口规范中规定的智能平台管理总线(IPMB)。智能平台管理总线可以是在机壳内的不同板之间提供标准互联的基于I2C的总线。IPMB也可以用作辅助或紧急管理附加卡的标准接口。
在一个实施例中,管理控制器可以是智能平台管理控制器(IPMC)。术语“平台管理”用于表示内置于平台硬件中的监视和控制功能,该功能主要用于监视系统硬件的健康状况。这典型地可以包括监视诸如系统温度、电压、风扇、电源、总线错误、系统物理安全等元素(管理数据222)。它还可以包括自动和手动驱动恢复能力,诸如本地或远程复位和电源开/关操作。它还可以包括将之后检查的异常或“溢出”情况记录下来,且当平台在没有运行的软件的帮助下发出警报时报警。在一个实施例中,主管理控制器可以是如已知的在AdvancedTCA计算机平台中的机箱管理控制器(ShMC)。
图3代表性地示出了根据本发明的示例性实施例的计算机系统300的逻辑表达。图3的计算机系统300代表管理网络350,该管理网络350可以包括一个或多个主管理控制器316、一个或多个缓冲器模块312、管理总线318以及一个或多个管理控制器314。如上所述,管理网络350被耦合成监视和控制一个或多个计算模块302。一个或多个主管理控制器316被耦合成作为主用的来操作(在任意时刻仅有一个主管理控制器能够工作),而一个或多个管理控制器314作为从用的来操作。
在一个实施例中,管理网络350的故障包容的主要机制是缓冲器模块312,它由管理控制器314或主管理控制器316控制。如图所示,每个主管理控制器316和管理控制器314可以具有它们自己的缓冲器模块312。例如,如果管理控制器314或主管理控制器316发生故障从而导致管理总线318发生故障,则缓冲器模块312可用于将发生故障的管理控制器314或主管理控制器316与管理总线318隔离开,从而释放管理总线318,以便总线能被其他管理控制器所用。
在现有技术中,当缓冲器模块312在管理控制器314或主管理控制器316仍然能够访问管理总线318的“闭合”位置(有效)中发生故障时,如果相关的管理控制器314或主管理控制器316发生故障,则没有对管理总线318的保护或隔离。这被称为潜在故障,因为它是缓冲器模块312的故障,但是不会导致管理总线318发生故障。若要管理总线318发生故障,必须在管理网络350中发生第二故障,例如,管理控制器314或主管理控制器316的故障。换句话说,潜在故障是存在但不可见或活动的(active)故障。为了维持高度可靠、高度可用的系统,需要在第二故障发生并将潜在故障激活到活动故障状态之前,检查出缓冲器模块312中的潜在故障。这是潜在故障检查模块360的功能,该模块可以是软件或硬件的任意组合,用于在潜在故障作为活动故障出现之前检查出缓冲器模块的潜在故障。
在一个实施例中,在管理网络350中出现活动故障之前,管理控制器314或主管理控制器316可以经由使能电路361来手动地停用或启用缓冲器模块312。换句话说,管理控制器314或主管理控制器316可以将缓冲器模块312置于停用状态359或启用状态358。停用状态359是管理控制器314或主管理控制器316从管理总线318上断开的“打开”状态。启用状态358是管理控制器314或主管理控制器316与管理总线318相连的“闭合”状态。
在一个实施例中,主管理控制器316或管理控制器314可以周期地启动管理控制器314或主管理控制器316中的潜在故障检查模块360。例如,主管理控制器316或管理控制器314可以规则的时间间隔或随机地向管理控制器314或主管理控制器316传送启动信号356,以执行潜在故障检查模块360。
潜在故障检查模块360基于将缓冲器模块312停用、向管理总线318上的另一控制器发送潜在故障检查消息362以及查看是否接收到确认消息364来操作。为了发送潜在故障检查消息362,需要知道管理控制器314或主管理控制器316的总线地址。这例如可以通过从活动的或备用的主管理控制器316发送启动信号356到活动或备用的管理控制器314完成,但并不限于这种方式,其中启动信号356命令管理控制器314开始执行潜在故障检查模块360。
在另一示例中,例如但不限于,主管理控制器316可以测试其自己的缓冲器模块312。在该实施例中,例如,主管理控制器316可以向管理控制器314发送启动信号356,并使得管理控制器参与潜在故障检查处理,或者进行广播以向管理总线318上的所有管理控制器314请求应答。
其他实施例可以包括管理控制器314启动与连接到主管理控制器316或另一个管理控制器314的缓冲器模块312相关的潜在故障检查模块360,且管理控制器314启动与其自己缓冲器模块312相关的潜在故障检查模块360。一旦启动信号356被接收,则潜在故障检查模块360可以通过在停用状态359中测试缓冲器模块312来执行。
在第一示例性实施例中,可以由主管理控制器316来对与管理控制器314相连的缓冲器模块312启动潜在故障检查模块360。主管理控制器316可以请求管理控制器314将缓冲器模块312置于停用状态359。一旦处于停用状态359,管理控制器314可向主管理控制器316发送潜在故障检查消息362。如果缓冲器模块312处于停用状态359,则潜在故障检查消息362不能到达管理总线318和/或主管理控制器316。在这种情况下,判定操作状态372,因为根据来自于管理控制器314的指令,缓冲器模块312看上去工作正常,因为它处于停用状态359。如果缓冲器模块312处于启用状态358(在本示例中处于“闭合”启用状态358),则潜在故障检查消息362将到达管理总线318和主管理控制器316,它们将返回确认消息364给管理控制器314。在这种情况下,潜在故障状态370被表示为缓冲器模块312看上去具有潜在故障,因为缓冲器模块312并不处于停用状态359(缓冲器模块可能在启用状态中保持“闭合”)。
在第二示例性实施例中,可以由管理控制器314对与主管理控制器316相连的缓冲器模块312启动潜在故障检查模块360。管理控制器314可以请求主管理控制器316将缓冲器模块312置于停用状态359。一旦处于停用状态359,主管理控制器316可以发送潜在故障检查消息362到管理控制器314。如果缓冲器模块312处于停用状态359,则潜在故障检查消息362不能到达管理总线318和/或管理控制器314。在这种情况下,判定为操作状态372,因为根据来自主管理控制器316的指令,缓冲器模块312看上去工作正常,因为它处于停用状态359。如果缓冲器模块312处于启用状态358(在本示例中处于“闭合”启用状态358),则潜在故障检查消息362将到达管理总线318和管理控制器314,它们将返回确认消息364给主管理控制器316。在这种情况下,潜在故障状态370被表示为缓冲器模块312看上去具有潜在故障,因为缓冲器模块312并不处于停用状态359(缓冲器模块可在启用状态中保持“闭合”)。
在第三示例性实施例中,潜在故障检查模块360可以由管理控制器314对它自己的缓冲器模块312执行。在该实施例中,管理控制器314可以使用管理总线318上的其他活动或备用控制器来执行潜在故障检查模块360。在第四示例性实施例中,潜在故障检查模块360可以由主管理控制器316对其自己的缓冲器模块312执行。在该实施例中,主管理控制器316可以使用管理总线318上的其他活动或备用控制器来执行潜在故障检查模块360。
上述示例性实施例是代表性的,并不会限制本发明。本领域技术人员将认识到其他实施例也处于本发明的范围内。
在任意一个上述实施例中,一旦在停用状态359中测试缓冲器模块312,缓冲器模块312的状态可以被传送到主管理控制器316和管理控制器314,或由主管理控制器316和管理控制器314来推断出缓冲器模块312的状态(取决于实施例和启动潜在故障检查模块360的实体)。如果在任一时刻指示潜在故障状态370,则潜在故障状态370可以被传送到主管理控制器316或管理控制器314,或由它们推断出该潜在故障状态370。如果不指示潜在故障状态370,则操作状态372可以被传送到主管理控制器316和管理控制器314,或由它们推断出。在一个实施例中,如果检查出潜在故障状态370,另一管理控制器314或主管理控制器316可以变成活动的,而与潜在故障相关的实体可以被停用(或切换到备用)。而且,可以向系统管理员传送通知,使得具有潜在故障情况370的缓冲器模块312可以被替换掉或修理好。
在一个实施例中,潜在故障检查消息362可以是整条消息或来源于消息中的一个或多个字节。在另一实施例中,确认消息364可以是对整条潜在故障检查消息362或来自潜在故障检查消息362的一个或多个字节的确认。在又一实施例中,确认消息364可以包括对管理总线318的操纵,例如,设置数字输出为逻辑“1”或逻辑“0”。如果管理总线318处于逻辑“0”或逻辑“1”足够长的时间,将通过管理总线318上的其他活动实体(控制器)检查协议错误。
图4代表性地示出了根据本发明的示例性实施例的示例性方法的流程图400。图4中示出的方法说明了由主管理控制器启动的对管理控制器执行潜在故障检查模块360,但适用于任意上述实施例。
在步骤402,通过将缓冲器模块置于停用状态将其停用。在步骤404,经由缓冲器模块传送潜在故障检查消息。在步骤406,判断是否响应于潜在故障检查消息而接收到确认消息。如果没有,通过步骤410,判断缓冲器模块为操作状态。如果接收到了确认消息,则通过步骤408判断为潜在故障状态。在步骤412,可选地通过将缓冲器模块置于启用状态使之启用。
在停用状态中测试缓冲器模块之后,可将结果传送到主管理控制器,或由主管理控制器推断出结果,且主管理控制器在必要时采取补救行为(将管理控制器切换到备用状态),和/或由系统管理员在必要时采取补救行为(修复或置换包含管理控制器的模块)。
在上述说明中,已经参考特定示例性实施例描述了本发明;然而,应当意识到,可以在不偏离本发明范围的情况下做出各种修改和变化,而本发明的范围是由权利要求定义得。说明和附图被认为是说明方式而不是限制方式,且所有这种修改旨在被包括在本发明的范围内。因此,本发明的范围应当由权利要求和它们的合理等同物决定,而不是仅由上述示例决定。
例如,在任意方法权利要求或处理权利要求中陈述的步骤可以以任意顺序执行,而不限于以权利要求中提出的特定顺序执行。另外,在任意装置权利要求中陈述的组件和/或元件可以被装配或可选地以各种变化形式配置,以产生与本发明基本相同的结果,且相应地不受限于权利要求中陈述的特定配置。
如上所述,已经参照特定实施例描述了其他益处、其他优点和对问题的解决方法;不过,可以使任意特定益处、优点和问题的解决方法变得更明确的任意益处、优点和问题的解决方法或任意元件并不应被解释为任意或全部权利要求的严格的、必需的或本质的特征或组件。
当在此使用时,术语“包含”、“具有”、“包括”及其任何变形,旨在表示不排他的包括,使得包含一系列元件的处理、方法、项目、组成或装置不仅包括陈述的这些元件,而且也可以包括没有明确列出的或这些处理、方法、项目、组成或装置所固有的其他元件。除了没有明确陈述的,本发明的实践中使用的上述结构、布置、应用、比例、元件、材料或组件的其他组合和/或修改可以变更,或者尤其可被调适以用于特定环境、制作规范、设计参数或其他操作需要,而不偏离本发明的一般原则。
Claims (20)
1.一种检查管理网络的潜在故障的方法,包括:
提供在所述管理网络上传送用于计算模块的管理数据的管理总线;
提供管理所述计算模块的管理控制器;
提供操作所述管理总线的主管理控制器;
在所述管理控制器和所述主管理控制器其中每一个与所述管理总线之间提供缓冲器模块,其中所述缓冲器模块被耦合来为所述管理控制器和所述主管理控制器其中每一个提供与所述管理总线的隔离;
在所述管理网络出现活动故障之前,对所述缓冲器模块执行潜在故障检查模块;以及
判断所述潜在故障检查模块是否检查出缓冲器模块上的潜在故障。
2.根据权利要求1所述的方法,还包括所述主管理控制器启动用于所述缓冲器模块的所述潜在故障检查模块。
3.根据权利要求1所述的方法,还包括所述管理控制器启动用于所述缓冲器模块的所述潜在故障检查模块。
4.根据权利要求1所述的方法,其中,所述潜在故障检查模块包括:
停用所述缓冲器模块;
经由所述缓冲器模块传送潜在故障检查消息。
5.根据权利要求4所述的方法,其中,当所述缓冲器模块处于停用状态中时:
如果响应于所述潜在故障检查消息接收到确认消息,判断所述缓冲器模块为潜在故障状态,而如果响应于所述潜在故障检查消息没有接收到确认消息,判断所述缓冲器模块为操作状态。
6.根据权利要求1所述的方法,其中,所述潜在故障检查模块是对与所述主管理控制器相连的缓冲器模块实施的。
7.根据权利要求1所述的方法,其中,所述潜在故障检查模块是对与所述管理控制器相连的缓冲器模块实施的。
8.根据权利要求1所述的方法,其中,所述管理总线是智能平台管理总线(IPMB)。
9.根据权利要求1所述的方法,其中,所述管理控制器是智能平台管理控制器(IPMC)。
10.一种潜在故障检查模块,被耦合成通过管理控制器和主管理控制器其中之一来执行,所述管理控制器操作管理总线,该潜在故障检查模块包括:
停用缓冲器模块,其中,该缓冲器模块被耦合来提供所述管理控制器和所述主管理控制器其中一个与所述管理总线之间的隔离;
经由所述缓冲器模块传送潜在故障检查消息;以及
当所述缓冲器模块处于停用状态中时,如果响应于所述潜在故障检查消息接收到确认消息,则判断所述缓冲器模块为潜在故障状态,而如果响应于所述潜在故障检查消息没有接收到确认消息,则判断所述缓冲器模块为操作状态。
11.根据权利要求10所述的潜在故障检查模块,其中,所述潜在故障检查模块是对与所述主管理控制器相连的缓冲器模块执行的。
12.根据权利要求10所述的潜在故障检查模块,其中,所述潜在故障检查模块是对与所述管理控制器相连的缓冲器模块执行的。
13.根据权利要求10所述的潜在故障检查模块,其中,所述管理总线是智能平台管理总线(IPMB)。
14.根据权利要求10所述的潜在故障检查模块,其中,所述管理控制器是智能平台管理控制器(IPMC)。
15.一种具有计算模块的计算机系统,该计算机系统包括:
管理总线,其中,该管理总线传送用于所述计算模块的管理数据;
主管理控制器,被耦合成操作所述管理总线;
管理控制器,被耦合成操作所述计算模块;
缓冲器模块,插入在所述管理控制器和所述主管理控制器中的每一个与所述管理总线之间,其中该缓冲器模块被耦合来为所述管理控制器和所述主管理控制器其中每一个提供与所述管理总线的隔离;以及
潜在故障检查模块,被耦合成通过所述管理控制器和所述主管理控制器其中之一执行,其中在活动故障出现之前,该潜在故障检查模块执行以下步骤:
停用所述缓冲器模块;
经由所述缓冲器模块传送潜在故障检查消息;以及
当所述缓冲器模块处于停用状态中时,如果响应于所述潜在故障检查消息接收到确认消息,则判断所述缓冲器模块为潜在故障状态,而如果响应于所述潜在故障检查消息没有接收到确认消息,则判断所述缓冲器模块为操作状态。
16.根据权利要求15所述的计算机系统,其中,所述潜在故障检查模块是对与所述主管理控制器相连的缓冲器模块执行的。
17.根据权利要求15所述的计算机系统,其中,所述潜在故障检查模块是对与所述管理控制器相连的缓冲器模块执行的。
18.根据权利要求15所述的计算机系统,其中,所述管理总线是智能平台管理总线(IPMB)。
19.根据权利要求15所述的计算机系统,其中,所述管理控制器是智能平台管理控制器(IPMC)。
20.根据权利要求15所述的计算机系统,其中所述主管理控制器是机箱管理控制器。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/344,450 | 2006-01-31 | ||
US11/344,450 US20070180329A1 (en) | 2006-01-31 | 2006-01-31 | Method of latent fault checking a management network |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101410808A true CN101410808A (zh) | 2009-04-15 |
Family
ID=38323576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2007800108442A Pending CN101410808A (zh) | 2006-01-31 | 2007-01-19 | 检查管理网络的潜在故障的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20070180329A1 (zh) |
EP (1) | EP1982259A2 (zh) |
CN (1) | CN101410808A (zh) |
WO (1) | WO2007089993A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455406A (zh) * | 2013-07-17 | 2013-12-18 | 国家电网公司 | 一种智能的机箱平台管理方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101415127B (zh) * | 2007-10-16 | 2011-07-27 | 华为技术有限公司 | 小型电信和计算通用硬件平台架构系统及可靠性管理方法 |
US11645155B2 (en) * | 2021-02-22 | 2023-05-09 | Nxp B.V. | Safe-stating a system interconnect within a data processing system |
JP7266067B2 (ja) * | 2021-06-25 | 2023-04-27 | 株式会社日立製作所 | ストレージシステム |
Family Cites Families (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1203875A (en) * | 1983-06-16 | 1986-04-29 | Mitel Corporation | Switching system loopback test circuit |
US5510725A (en) * | 1994-06-10 | 1996-04-23 | Westinghouse Electric Corp. | Method and apparatus for testing a power bridge for an electric vehicle propulsion system |
US6147967A (en) * | 1997-05-09 | 2000-11-14 | I/O Control Corporation | Fault isolation and recovery in a distributed control network |
US6209051B1 (en) * | 1998-05-14 | 2001-03-27 | Motorola, Inc. | Method for switching between multiple system hosts |
US6545852B1 (en) * | 1998-10-07 | 2003-04-08 | Ormanco | System and method for controlling an electromagnetic device |
US6186260B1 (en) * | 1998-10-09 | 2001-02-13 | Caterpillar S.A.R.L. | Arm rest/seat switch circuit configuration for use as an operational state sensor for a work machine |
US6487208B1 (en) * | 1999-09-09 | 2002-11-26 | International Business Machines Corporation | On-line switch diagnostics |
GB0031534D0 (en) * | 2000-12-22 | 2001-02-07 | British Telecomm | Fault management stystem for a communications network |
US20020087844A1 (en) * | 2000-12-29 | 2002-07-04 | Udo Walterscheidt | Apparatus and method for concealing switch latency |
US7529819B2 (en) * | 2001-01-11 | 2009-05-05 | Microsoft Corporation | Computer-based switch for testing network servers |
US6769078B2 (en) * | 2001-02-08 | 2004-07-27 | International Business Machines Corporation | Method for isolating an I2C bus fault using self bus switching device |
US6766466B1 (en) * | 2001-05-15 | 2004-07-20 | Lsi Logic Corporation | System and method for isolating fibre channel failures in a SAN environment |
US6704682B2 (en) * | 2001-07-09 | 2004-03-09 | Angela E. Summers | Dual sensor process pressure switch having high-diagnostic one-out-of-two voting architecture |
US6593758B2 (en) * | 2001-08-02 | 2003-07-15 | Honeywell International Inc. | Built-in test system for aircraft indication switches |
US6851071B2 (en) * | 2001-10-11 | 2005-02-01 | International Business Machines Corporation | Apparatus and method of repairing a processor array for a failure detected at runtime |
US7206287B2 (en) * | 2001-12-26 | 2007-04-17 | Alcatel Canada Inc. | Method and system for isolation of a fault location in a communications device |
US6948008B2 (en) * | 2002-03-12 | 2005-09-20 | Intel Corporation | System with redundant central management controllers |
US6957369B2 (en) * | 2002-05-30 | 2005-10-18 | Corrigent Systems Ltd. | Hidden failure detection |
US20040003160A1 (en) * | 2002-06-28 | 2004-01-01 | Lee John P. | Method and apparatus for provision, access and control of an event log for a plurality of internal modules of a chipset |
US7363546B2 (en) * | 2002-07-31 | 2008-04-22 | Sun Microsystems, Inc. | Latent fault detector |
EP1443624A1 (en) * | 2003-01-31 | 2004-08-04 | Viserge Limited | Fault control and restoration in a multi-feed power network |
US6823669B2 (en) * | 2003-04-02 | 2004-11-30 | Sikorsky Aircraft Corporation | Transfer valve system |
US6931024B2 (en) * | 2003-05-07 | 2005-08-16 | Qwest Communications International Inc. | Systems and methods for providing pooled access in a telecommunications network |
US6985357B2 (en) * | 2003-08-28 | 2006-01-10 | Galactic Computing Corporation Bvi/Bc | Computing housing for blade server with network switch |
US6947391B2 (en) * | 2003-09-12 | 2005-09-20 | Motorola, Inc. | Method of optimizing a network |
US20050111151A1 (en) * | 2003-11-25 | 2005-05-26 | Lam Don T. | Isolation circuit for a communication system |
US7197670B2 (en) * | 2003-12-31 | 2007-03-27 | Intel Corporation | Methods and apparatuses for reducing infant mortality in semiconductor devices utilizing static random access memory (SRAM) |
TW200537305A (en) * | 2004-05-04 | 2005-11-16 | Quanta Comp Inc | Communication system, transmission device and the control method thereof |
US7984136B2 (en) * | 2004-06-10 | 2011-07-19 | Emc Corporation | Methods, systems, and computer program products for determining locations of interconnected processing modules and for verifying consistency of interconnect wiring of processing modules |
US7409594B2 (en) * | 2004-07-06 | 2008-08-05 | Intel Corporation | System and method to detect errors and predict potential failures |
US7817394B2 (en) * | 2004-07-28 | 2010-10-19 | Intel Corporation | Systems, apparatus and methods capable of shelf management |
US20060106968A1 (en) * | 2004-11-15 | 2006-05-18 | Wooi Teoh Gary C | Intelligent platform management bus switch system |
TWI296477B (en) * | 2005-03-23 | 2008-05-01 | Quanta Comp Inc | Single logon method on a server system and a server system with single logon functionality |
US7373278B2 (en) * | 2006-01-20 | 2008-05-13 | Emerson Network Power - Embedded Computing, Inc. | Method of latent fault checking a cooling module |
-
2006
- 2006-01-31 US US11/344,450 patent/US20070180329A1/en not_active Abandoned
-
2007
- 2007-01-19 WO PCT/US2007/060733 patent/WO2007089993A2/en active Application Filing
- 2007-01-19 EP EP07710215A patent/EP1982259A2/en not_active Withdrawn
- 2007-01-19 CN CNA2007800108442A patent/CN101410808A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103455406A (zh) * | 2013-07-17 | 2013-12-18 | 国家电网公司 | 一种智能的机箱平台管理方法及系统 |
CN103455406B (zh) * | 2013-07-17 | 2016-04-20 | 国家电网公司 | 一种智能的机箱平台管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
EP1982259A2 (en) | 2008-10-22 |
US20070180329A1 (en) | 2007-08-02 |
WO2007089993A2 (en) | 2007-08-09 |
WO2007089993A3 (en) | 2008-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100450044C (zh) | 一种智能平台管理接口系统中的后插板监控装置 | |
CN101132314B (zh) | 实现冗余备份的方法 | |
CN105721546A (zh) | 一种基于工业物联通讯的多数据集成服务平台 | |
CN1863081B (zh) | 基板管理控制器的管理系统和方法 | |
CN101379470B (zh) | 对冷却模块进行潜在故障检查的方法 | |
CN101344807A (zh) | 风扇控制架构 | |
CN109857614A (zh) | 一种机架服务器的容灾装置和方法 | |
CN103473152A (zh) | 一种刀片服务器主备管理模块备份及更新方法 | |
CN103139248A (zh) | 机架系统 | |
CN101410808A (zh) | 检查管理网络的潜在故障的方法 | |
CN111338992A (zh) | 基于fpga的vpx机框板卡管理方法和装置 | |
CN102478938A (zh) | 服务器系统 | |
CN117992270B (zh) | 一种内存资源管理系统、方法、装置、设备及存储介质 | |
CN111880999B (zh) | 用于高密度刀片服务器的高可用监控管理装置及冗余切换方法 | |
CN113038299A (zh) | 一种交换机、配置方法、控制方法以及存储介质 | |
CN109995597B (zh) | 一种网络设备故障处理方法及装置 | |
Rodrigues et al. | Intelligent platform management controller for nuclear fusion fast plant system controllers | |
CN109684136A (zh) | 一种灵活配置主控的通信架构系统 | |
CN109491867A (zh) | 一种通讯自动恢复方法和装置 | |
CN108182163B (zh) | 一种计算板级热插拔控制装置及控制方法 | |
CN1327666C (zh) | 用于在服务器系统中路由业务的方法和系统 | |
KR100950555B1 (ko) | 스위치 보드 변경 방법 | |
CN115408239A (zh) | 一种基于总线仲裁的冗余系统 | |
KR100895463B1 (ko) | Atca 플랫폼에서의 이중화 장치의 제어 방법 및 이를이용하여 구현된 atca 시스템 | |
CN109683676B (zh) | 扩展卡 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090415 |