JP4882736B2 - 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 - Google Patents
情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 Download PDFInfo
- Publication number
- JP4882736B2 JP4882736B2 JP2006352001A JP2006352001A JP4882736B2 JP 4882736 B2 JP4882736 B2 JP 4882736B2 JP 2006352001 A JP2006352001 A JP 2006352001A JP 2006352001 A JP2006352001 A JP 2006352001A JP 4882736 B2 JP4882736 B2 JP 4882736B2
- Authority
- JP
- Japan
- Prior art keywords
- failure
- hardware resource
- shared
- mode
- physical
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
- G06F15/16—Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0775—Content or structure details of the error report, e.g. specific table structure, specific error fields
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0712—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
- G06F11/0781—Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F13/00—Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Mathematical Physics (AREA)
- Computer Hardware Design (AREA)
- Debugging And Monitoring (AREA)
- Hardware Redundancy (AREA)
Description
この図6に示す例においては、サーバ200は、筐体管理装置201をそなえるとともに、メモリやPCI(Peripheral Component Interconnect)カード,チップセット等のハードウェアリソースを、物理分割機能により複数(図6に示す例ではm個;mは自然数)のXPAR(Extended Partitioning)202−1,202−2・・・202−mに分割可能に構成されている。
また、図6に示す例においては、複数のXPAR202を複数(図6に示す例ではP0〜Pnのn+1個;nは整数)のパーティション(Partition)によって使用しており、上述したパーティショニング機能により、例えば、パーティションP0はXPAR202−1,202−2を束ねて用いており、又、パーティションPnはXPAR202−mを用いている。
パーティションは、OS(Operating System)205が稼動する単位であり、1のパーティションには少なくとも1つのプロセッサが用いられる。
さて、この図6に示すような物理分割機能およびパーティショニング機能を使用して構成されたサーバ200においても、物理分割機能を使用しない場合と同様に、ハードウェアリソースにおいて生じた障害について、正確な障害情報解析やその通知機能が必要とされる。
しかしながら、この特許文献1に開示された手法は、ハードウェアリソースの配分や情報の振り分け機能をファームウェア等のソフトウェアによって全て行なう仮想化技術に関するものであって、サーバのハードウェアリソースをソフトウェアレベルで分割する仮想化に関する手法であり、ハードウェアリソースを物理的に分割する物理分割機能に適用できるものではない。又、この特許文献1に開示された手法では、ファームウェアの負荷が増大したり、仮想化を実現するためのゲストOS等を新たにそなえたりする必要もあるという課題もある。
さらに、OS上においてユーザが管理エージェントをきちんと実行させるか等、サーバを提供するベンダ側において管理することができないという課題もある。
本発明は、このような課題に鑑み創案されたもので、ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能なサーバにおいて、共有ハードウェア資源において障害が発生した場合においても障害が過剰に報告されることがなく正確な障害発生回数の管理を行なうことが出来る他、低い製造コストで実現することができるようにすることを目的とする。
該物理パーティション毎にそなえられ、該ハードウェア資源における障害発生を検知し、障害検知通知を行なう障害通知部と、該分割モード情報保持部に保持された該分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出部と、該障害通知部により該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源管理情報保持部に保持された該ハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断部と、前記パーティショニングモードであることが該動作モード検出部により検出され、且つ、該障害通知部によって該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断部により判断された場合に、当該共有ハードウェア資源を共有する前記複数の物理パーティションにそなえられた各障害通知部からそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成部とをそなえることを特徴としている。
ョンのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能な情報処理装置における障害処理方法であって、該物理パーティション毎にそなえられた障害通知部により、該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、分割モード情報保持部に保持された、該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、プロセッサにより、該パーティショニングモードであることを検出する動作モード検出ステップと、該プロセッサにより、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、ハードウェア資源管理情報保持部に保持された、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該プロセッサにより、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとをそなえることを特徴としている。
(1)パーティショニングモードであることが検出され、且つ、障害発生が検知されたハードウェア資源が共有ハードウェア資源であると判断された場合に、その共有ハードウェア資源を共有する複数の物理パーティション単位でそれぞれ通知される障害検知通知に基づいて、一の共通障害報告を生成することにより、重複した障害通知が行なわれることがなく、実際にハードウェア資源において生じた障害の回数に応じた障害報告が行なわれるので、正確の障害発生頻度を管理を行なうことができ、信頼性を向上させることができる(請求項1〜請求項4)。
図1は本発明の一実施形態としてのサーバ(情報処理装置)における障害処理手法にかかる機能ブロック図、図2はそのハードウェア構成例を示す論理ブロック図である。
本サーバ100は、例えば、基幹システムで運用される情報処理装置(コンピュータ)であって、CPU53(図2参照)がOS20やファームウェア(F/W)10,その他のプログラムを実行することにより、サーバ100としての各種機能を実現するようになっている。
そして、本サーバ100においては、上述した物理分割機能やパーティショニング機能は、ASIC30やファームウェア10の機能により実現されるようになっている。
なお、以下、パーティションを示す符号としては、複数のパーティションのうち1つを特定する必要があるときには符号P0〜Pnを用いるが、任意のパーティションを指すときには符号Pを用いる。
また、本サーバ100は、図1に示すように、筐体管理装置101をそなえて構成されている。この筐体管理装置101は、サーバ100の筐体内の各ユニットの電源制御,筐体内の温度,電圧等の環境監視等のシステム管理を行なうものであり、図示しないサービスプロセッサ等をそなえて構成されている。又、この筐体管理装置101は、本サーバ100における障害の発生も管理しており、例えば、一部のSB(System Board;詳細は後述)50(図2参照)において故障が検出された場合に、故障したSB50に代えて代理のSB50を用いて再起動を行なったりする制御を行なうようになっている。
さて、本サーバ100は、図2に示すように、複数のSB50と複数のIOU70とをそなえ、これらのSB50とIOU70とがクロスバー60により相互結合されている。
CPU53a,53bはそれぞれプログラムを実行・演算することにより本サーバ100としての機能を実現するものであり、DIMM51a,51bはCPU53a,53bがプログラムを実行するに際して、各種プログラム(コマンド)やデータを一時的に格納・展開するためのメモリである。
同様に、以下、DIMMを示す符号としては、複数のDIMMのうち1つを特定する必要があるときには符号51a,51bを用いるが、任意のDIMMを指すときには符号51を用いる。
IOU70は、LANやハードディスク等の周辺装置(図示省略)を接続するためのユニットであり、図2に示すように、SBRG(South Bridge)71,PCIEPL(PCI Express Physical Layer)72,78,IOC(Input Output Controller)73a,73b,PHX74a,74b,SCSI/GbLAN76a,76b,PCIカード77およびPCI Box79をそなえて構成されている。
SCSI/GbLAN76a,76bは、SCSI(Small Computer System Interface)カードやLAN(ギガビットLAN)カード等のIOインタフェースであり、ハードディスク等のSCSI規格の機器や、LANケーブル等が接続されるようになっている。なお、この図2に示す例においては、便宜上、これらのSCSIインタフェースとLANインタフェースとを一のIOインタフェース機器として表示しているが、これに限定されるものではなく、別々にそなえる等、種々変形して用いることができる。
クロスバー60は、SB50とIOU70とを相互接続するものであり、アドレスクロスバーとデータクロスバー(いずれも図示省略)をそなえて構成されている。
一方、IOU70は、上述した物理分割機能により、LIOU701aとLIOU701bとに分割され、IOC73a,PHX74aおよびSCSI/GbLAN76aがLIOU701aに、IOC73b,PHX74bおよびSCSI/GbLAN76bがLIOU701bに、それぞれそなえられるように物理分割されている。又、SBRG71,PCIEPL72,78,PCIカード77およびPCI Box79は、LIOU701aとLIOU701bとで共有(共用)されるようになっている。
なお、LIOUとは、IOUのパーティション粒度である。以下、LIOUを示す符号としては、複数のLIOUのうち1つを特定する必要があるときには符号701a,701bを用いるが、任意のLIOUを指すときには符号701を用いる。
そして、例えば、図2中におけるMLDS52,NB54,SBRG71,およびPCIEPL72が、図1中におけるASIC30として総称されるものである。
また、ASIC30は、ハードウェアリソースにおける障害(図1の点E参照)の発生を検知し、その通知(障害検知通知)を行なう障害通知機能をそなえており、配下のハードウェアリソースにおいて障害が発生すると、その障害に関する障害情報(発生場所や内容(エラーコード)等)を記録するとともに、そのXSBもしくはLIOUが属するパーティションPのCPU53にトラップを入力することにより、障害発生を通知するようになっている。
なお、Home LSBとは、パーティションの先頭アドレスが割り当てられたLSBであって、エラー原因であるハードウェアリソースの上位のLSBである。又、LSBとはSB50のパーティション粒度を示しており、XPAR分割時(物理分割機能で動作時)はLSB=XSBであり、非分割時(物理分割機能が非動作時)は、LSB=PSBである。又、PSBとは、SB50をXPAR分割せずに、1つのLSBとして使用する場合におけるSB50の呼び方を示す。
なお、このASIC30が検出する、ハードウェアリソースにおける障害には、そのハードウェアリソースで発生した障害(原発)の他、他のハードウェアリソースにおいて発生し、そのハードウェアリソースに伝播してきた障害(伝播)を含むものであり、ASIC30は、これらのいずれの障害についても、検知を行ないファームウェア10に通知するようになっている。
そして、このファームウェア10は、上述の如き物理分割機能やパーティショニング機能を実現させる他、本サーバ100において、後述するハードウェア資源管理情報管理部12,動作モード検出部13,共有ハードウェア資源判断部14および共通障害報告生成部15としての各機能を実現するためのプログラムであって、サーバ100の各CPU53が、ファームウェア10をそれぞれ実行することにより、図1に示すように、これらのハードウェア資源管理情報管理部12,動作モード検出部13,共有ハードウェア資源判断部14および共通障害報告生成部15としてそれぞれ機能するようになっている。
なお、このファームウェア10は、上述の如くASIC30上のROMチップに格納して提供する他、例えばフレキシブルディスク,CD(CD−ROM,CD−R,CD−RW等),DVD(DVD−ROM,DVD−RAM,DVD−R,DVD+R,DVD−RW,DVD+RW等),磁気ディスク,光ディスク,光磁気ディスク等の、コンピュータ読取可能な記録媒体に記録された形態で提供してもよい。そして、サーバ100はその記録媒体からファームウェア10を読み取って内部記憶装置または外部記憶装置に転送し格納して用いてもよい。又、そのファームウェア10を、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してサーバ100に提供するようにしてもよい。
ハードウェア資源管理情報管理部12は、ハードウェア資源のパーティションモードに基づく共有状態に関するリソース情報(ハードウェア資源管理情報)を管理するものであり、例えば、DIMM51等の予め設定された所定の記憶領域(ハードウェア資源管理情報保持部)にリソース情報を記録し、管理するようになっている。
そして、本サーバ100においては、DIMM51等のファームウェア10によって管理・利用されている所定の記憶領域が、リソース情報(ハードウェア資源管理情報)を保持するハードウェア資源管理情報保持部として機能するようになっている。なお、以下、ファームウェア10によって利用・管理されているDIMM51等の所定の記憶領域に情報を保持することを、単にファームウェア10が保持すると表現する場合がある。
共通障害報告生成部15は、動作モード検出部13がパーティショニングモードであることを検出し、且つ、ASIC30によって障害発生が検知されたハードウェアリソース(障害源)が共有リソースであると共有ハードウェア資源判断部14により判断された場合に、その障害源の共有リソースを共有する複数のXPAR102からそれぞれ通知される障害検知通知に基づいて、一の共通障害報告を生成するものである。
ハードウェアリソースにおいて障害が発生した場合には、対応するASIC30のレジスタ(所定の物理位置)にビット(障害報告ビット)が立つようになっており、ファームウェア10は、このビットを確認することにより、障害情報を取得するようになっている。
また、ASIC30のレジスタに設定された障害報告ビットをファームウェア10が読み取った後には、この障害報告ビットのクリアを行なうのであるが、共通障害報告生成部15が複数の障害報告ビットを1の情報にマージを行なった際の情報に基づいて、全ての障害報告ビットのクリアが行なわれる。
また、ファームウェア10は、XPAR102から通知された障害発生報告に基づき、その障害が検出されたハードウェアリソースが原発であるか伝播であるかを判断するようになっており、伝播にかかる障害については障害が発生したと判断せずに、処理を行なないようになっている。すなわち、ファームウェア10においては、原発にかかる障害についてのみ、処理を行なうようになっている。
OS20や筐体管理装置101は、ファームウェア10から共通障害報告や障害報告を受信すると、これらに基づいて、所定の処理を行なうようになっている。
本サーバ100のハードウェアリソースにおいて障害が生じると、その障害が発生したXSB501もしくはLIOU701が属するCPU53にトラップが入る。又、Home LSBのNB54のレジスタにエラー強度や部位情報等の障害情報が記録され(ステップS10)、ファームウェア10は割り込みを受け付ける。
ここで、パーティショニングモードである場合には(ステップS30のYESルート参照)、共有ハードウェア資源判断部14が、ASIC30により障害発生が検知されたハードウェアリソースが、共有リソースであるか否かをリソース情報に基づいて判断し、共有リソースの障害情報をASIC30の管理単位でマージして、一のエラー情報(共通障害報告)に生成する(ステップS40)。
その後、ファームウェア10は、マージして生成したエラー情報を解析し、必要な倍には、更に、MLDS52/SBRG71/PCIEPL72/PXH74の情報を追加で採取/解析する(ステップS50)。一方、本サーバ100がパーティショニングモードではない場合には(ステップS30のNOルート参照)、ステップS50に移行する。
図5は本発明の一実施形態としてのサーバ100におけるパーティションPの構成例を示す図であり、物理分割機能およびパーティショニング機能を用いて、4つのパーティションP0〜P3を形成した例を示している。
そして、パーティショニング機能により、パーティションP0には、PSB50−1とIOU70−1のLIOU701aとがそなえられ、パーティションP1には、SB50−2のXSB501aとIOU70−1のLIOU701bがそなえられている。同様に、パーティションP2には、SB50−2のXSB501bとIOU70−2がそなえられている。更に、パーティションP3には、SB50−3のXSB501a,XSB501b,IOU70−3のLIOU701a,701b,PSB50−4およびIOU70−4がそなえられている。
一方、占有リソースで障害が発生した場合には、その占有リソースに対応するそれぞれのPSB50−1,50−4,SXB501a,501b,IOU70−2,70−4,LIOU701a,701bに対してのみ障害報告が行なわれるので、障害発生回数は正しく取り扱われるのである。
なお、上述した実施形態に関わらず、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。
例えば、本サーバ100のハードウェア構成は、図2に示す構成に限定されるものではなく、本発明の主旨を逸脱しない範囲で種々変形して実施することができる。
12 ハードウェア資源管理情報管理部
13 動作モード検出部
14 共有ハードウェア資源判断部
15 共通障害報告生成部
20 OS
30 ASIC(分割モード情報保持部)
50,50−1,50−2,50−3,50−4 SB(PSB)
53,53a,53b CPU
51,51a,51b DIMM(ハードウェア資源管理情報保持部)
54 NB
52 MLDS
60 クロスバー
70 IOU
71 SBRG
72,78 PCIEPL
73,73a,73b IOC
74,74a,74b PHX
76a,76b SCSI/GbLAN
77 PCIカード
79 PCI Box
100 サーバ(情報処理装置)
101 筐体管理装置
102,102−1〜102−m XPAR(物理パーティション)
501,501a,501b XSB
701,701a,701b LIOU
P,P0〜Pn パーティション
Claims (4)
- ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能な情報処理装置において、
該パーティショニングモードで実行中であるか否かの情報を分割モード情報として保持する分割モード情報保持部と、
該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報を保持するハードウェア資源管理情報保持部と、
該物理パーティション毎にそなえられ、該ハードウェア資源における障害発生を検知し、障害検知通知を行なう障害通知部と、
該分割モード情報保持部に保持された該分割モード情報に基づいて、該パーティショニングモードであることを検出する動作モード検出部と、
該障害通知部により該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、該ハードウェア資源管理情報保持部に保持された該ハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断部と、
前記パーティショニングモードであることが該動作モード検出部により検出され、且つ、該障害通知部によって該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断部により判断された場合に、当該共有ハードウェア資源を共有する前記複数の物理パーティションにそなえられた各障害通知部からそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成部とをそなえることを特徴とする、情報処理装置。 - ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能な情報処理装置における障害処理方法であって、
該物理パーティション毎にそなえられた障害通知部により、該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、
分割モード情報保持部に保持された、該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、プロセッサにより、該パーティショニングモードであることを検出する動作モード検出ステップと、
該プロセッサにより、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、ハードウェア資源管理情報保持部に保持された、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、
前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該プロセッサにより、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとをそなえることを特徴とする、障害処理方法。 - ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能なコンピュータに障害処理機能を実行させるための障害処理プログラムであって、
該物理パーティション毎にそなえられた障害通知部により、該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、
分割モード情報保持部に保持された、該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、プロセッサにより、該パーティショニングモードであることを検出する動作モード検出ステップと、
該プロセッサにより、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、ハードウェア資源管理情報保持部に保持された、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、
前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該プロセッサにより、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとを、該コンピュータに実行させることを特徴とする、障害処理プログラム。 - ハードウェア資源を複数の物理パーティションに分割する物理分割モードで動作可能であるとともに、前記複数の物理パーティションのうち少なくとも2以上の該物理パーティションを独立したパーティションとして分割するパーティショニングモードで動作可能なコンピュータに障害処理機能を実行させるための障害処理プログラムを記録したコンピュータ読取可能な記録媒体であって、
該障害処理プログラムが、
該物理パーティション毎にそなえられた障害通知部により、該ハードウェア資源における障害発生を検知し、該物理パーティション単位で障害検知通知を行なう障害通知ステップと、
分割モード情報保持部に保持された、該パーティショニングモードで実行中であるか否かの分割モード情報に基づいて、プロセッサにより、該パーティショニングモードであることを検出する動作モード検出ステップと、
該プロセッサにより、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が、前記複数の物理パーティションにより分割して共有された共有ハードウェア資源であるか否かを、ハードウェア資源管理情報保持部に保持された、該ハードウェア資源の該パーティションモードに基づく共有状態に関するハードウェア資源管理情報に基づいて判断する、共有ハードウェア資源判断ステップと、
前記パーティショニングモードであることが該動作モード検出ステップにおいて検出され、且つ、該障害通知ステップにおいて該障害発生が検知された該ハードウェア資源が該共有ハードウェア資源であると該共有ハードウェア資源判断ステップにおいて判断された場合に、該プロセッサにより、該障害通知ステップにおいて、当該共有ハードウェア資源を共有する前記複数の物理パーティション単位でそれぞれ通知される該障害検知通知に基づいて、一の共通障害報告を生成する共通障害報告生成ステップとを、該コンピュータに実行させることを特徴とする、障害処理プログラムを記録したコンピュータ読取可能な記録媒体。
Priority Applications (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006352001A JP4882736B2 (ja) | 2006-12-27 | 2006-12-27 | 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
| US11/876,098 US8145956B2 (en) | 2006-12-27 | 2007-10-22 | Information processing apparatus, failure processing method, and recording medium in which failure processing program is recorded |
| EP07119624.0A EP1956486B1 (en) | 2006-12-27 | 2007-10-30 | Failure processing in a partitioned computer system |
| CN2007101870261A CN101211283B (zh) | 2006-12-27 | 2007-11-19 | 信息处理装置和故障处理方法 |
| KR1020070117901A KR100990700B1 (ko) | 2006-12-27 | 2007-11-19 | 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체 |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006352001A JP4882736B2 (ja) | 2006-12-27 | 2006-12-27 | 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008165347A JP2008165347A (ja) | 2008-07-17 |
| JP4882736B2 true JP4882736B2 (ja) | 2012-02-22 |
Family
ID=39509624
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006352001A Expired - Fee Related JP4882736B2 (ja) | 2006-12-27 | 2006-12-27 | 情報処理装置,障害処理方法,障害処理プログラムおよび同プログラムを記録したコンピュータ読取可能な記録媒体 |
Country Status (5)
| Country | Link |
|---|---|
| US (1) | US8145956B2 (ja) |
| EP (1) | EP1956486B1 (ja) |
| JP (1) | JP4882736B2 (ja) |
| KR (1) | KR100990700B1 (ja) |
| CN (1) | CN101211283B (ja) |
Families Citing this family (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4495248B2 (ja) * | 2007-03-29 | 2010-06-30 | 富士通株式会社 | 情報処理装置、障害処理方法 |
| US8998710B2 (en) * | 2008-09-24 | 2015-04-07 | Keith Atkinson | Marketing system and methods for use with electronic gaming machines |
| US8839032B2 (en) * | 2009-12-08 | 2014-09-16 | Hewlett-Packard Development Company, L.P. | Managing errors in a data processing system |
| US8151147B2 (en) * | 2009-12-17 | 2012-04-03 | Hewlett-Packard Development Company, L.P. | Synchronize error handling for a plurality of partitions |
| JPWO2012056561A1 (ja) * | 2010-10-29 | 2014-03-20 | 富士通株式会社 | 装置監視システム,方法およびプログラム |
| JP5371123B2 (ja) * | 2011-03-16 | 2013-12-18 | エヌイーシーコンピュータテクノ株式会社 | 障害検出方法、制御装置、マルチプロセッサシステム |
| CN102819464B (zh) * | 2012-01-13 | 2015-08-19 | 金蝶软件(中国)有限公司 | 单据临时存储的方法和装置 |
| CN104572417B (zh) * | 2015-01-20 | 2018-02-23 | 天津市英贝特航天科技有限公司 | 基于cmos存储器的操作系统故障跟踪分析方法 |
| CN114911655B (zh) * | 2017-12-19 | 2025-10-24 | 超聚变数字技术有限公司 | 一种自检方法和服务器 |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2002229806A (ja) * | 2001-02-02 | 2002-08-16 | Hitachi Ltd | 計算機システム |
| US6823482B2 (en) * | 2001-03-08 | 2004-11-23 | International Business Machines Corporation | System and method for reporting platform errors in partitioned systems |
| US6842870B2 (en) * | 2001-09-20 | 2005-01-11 | International Business Machines Corporation | Method and apparatus for filtering error logs in a logically partitioned data processing system |
| JP3640187B2 (ja) | 2002-07-29 | 2005-04-20 | 日本電気株式会社 | マルチプロセッサシステムの障害処理方法、マルチプロセッサシステム及びノード |
| US7139940B2 (en) * | 2003-04-10 | 2006-11-21 | International Business Machines Corporation | Method and apparatus for reporting global errors on heterogeneous partitioned systems |
| JP4357433B2 (ja) * | 2005-02-15 | 2009-11-04 | 株式会社日立製作所 | ストレージシステム |
-
2006
- 2006-12-27 JP JP2006352001A patent/JP4882736B2/ja not_active Expired - Fee Related
-
2007
- 2007-10-22 US US11/876,098 patent/US8145956B2/en active Active
- 2007-10-30 EP EP07119624.0A patent/EP1956486B1/en not_active Ceased
- 2007-11-19 CN CN2007101870261A patent/CN101211283B/zh not_active Expired - Fee Related
- 2007-11-19 KR KR1020070117901A patent/KR100990700B1/ko not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| EP1956486A2 (en) | 2008-08-13 |
| EP1956486A3 (en) | 2009-12-02 |
| US20100100776A1 (en) | 2010-04-22 |
| KR20080061258A (ko) | 2008-07-02 |
| KR100990700B1 (ko) | 2010-10-29 |
| CN101211283B (zh) | 2011-07-20 |
| US8145956B2 (en) | 2012-03-27 |
| EP1956486B1 (en) | 2018-09-26 |
| CN101211283A (zh) | 2008-07-02 |
| JP2008165347A (ja) | 2008-07-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| KR100990700B1 (ko) | 정보 처리 장치, 장해 처리 방법, 및 장해 처리 프로그램을기록한 컴퓨터 판독 가능한 기록 매체 | |
| US8832501B2 (en) | System and method of processing failure | |
| US8046641B2 (en) | Managing paging I/O errors during hypervisor page fault processing | |
| US6425094B1 (en) | Diagnostic cage for testing redundant system controllers | |
| CN104572517B (zh) | 提供被请求数据的方法、控制器以及计算机系统 | |
| TWI310899B (en) | Method, system, and product for utilizing a power subsystem to diagnose and recover from errors | |
| US9141463B2 (en) | Error location specification method, error location specification apparatus and computer-readable recording medium in which error location specification program is recorded | |
| KR20040089485A (ko) | 이종 분할 시스템에서의 글로벌 에러 보고 방법 및 장치 | |
| US8166273B2 (en) | Degeneration method and information processing apparatus | |
| US20250147968A1 (en) | Platform and service disruption avoidance using deployment metadata | |
| JP4726915B2 (ja) | コンピュータ構成においてデバイスのクリティカル性を判断する方法及びシステム | |
| US7673082B2 (en) | Method and system to determine device criticality for hot-plugging in computer configurations | |
| TW200532563A (en) | Cache optimized logical partitioning of a symmetric multi-processor data processing system | |
| CN102216903B (zh) | 响应于并行维护的硬件恢复 | |
| JP2005327288A (ja) | パーティション間の隠れストレージ・チャネル及びパーティション分析を排除する方法及び装置 | |
| JP5696492B2 (ja) | 故障検出装置、故障検出方法、及び、故障検出プログラム | |
| JP5842655B2 (ja) | 情報処理装置、プログラムおよびエラー処理方法 | |
| US20080133962A1 (en) | Method and system to handle hardware failures in critical system communication pathways via concurrent maintenance | |
| CN119271467A (zh) | 一种识别故障存储设备的方法以及相关设备 | |
| Heaton | Ai Bee Lim |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090907 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110222 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110906 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111021 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111108 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111121 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141216 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4882736 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |