Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7600878B2 - Information processing device and recovery method - Google Patents
[go: Go Back, main page]

JP7600878B2 - Information processing device and recovery method - Google Patents

Information processing device and recovery method Download PDF

Info

Publication number
JP7600878B2
JP7600878B2 JP2021093594A JP2021093594A JP7600878B2 JP 7600878 B2 JP7600878 B2 JP 7600878B2 JP 2021093594 A JP2021093594 A JP 2021093594A JP 2021093594 A JP2021093594 A JP 2021093594A JP 7600878 B2 JP7600878 B2 JP 7600878B2
Authority
JP
Japan
Prior art keywords
information processing
unit
bmc
interrupt request
management unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021093594A
Other languages
Japanese (ja)
Other versions
JP2022185768A (en
Inventor
悦男 須藤
Original Assignee
エフサステクノロジーズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エフサステクノロジーズ株式会社 filed Critical エフサステクノロジーズ株式会社
Priority to JP2021093594A priority Critical patent/JP7600878B2/en
Publication of JP2022185768A publication Critical patent/JP2022185768A/en
Application granted granted Critical
Publication of JP7600878B2 publication Critical patent/JP7600878B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Multi Processors (AREA)

Description

本発明は、復旧技術に関する。 The present invention relates to recovery technology.

サーバシステムの運用中に、ファームウェア又はハードウェアの問題に起因して、サーバ内のBMC(Baseboard Management Controller)がハングアップする故障が発生することがある。BMCの故障の発生頻度は、例えば、1年に数件程度である。 During operation of a server system, a failure may occur in which the BMC (Baseboard Management Controller) in the server hangs up due to a problem with the firmware or hardware. The frequency of BMC failures is, for example, about a few times a year.

BMCは、リモート端末からサーバを管理するための制御用IC(Integrated Circuit)チップである。リモート端末は、BMCを介して、サーバ内のハードウェアの情報を取得したり、ハードウェアに対するリモート操作を行ったりすることができる。BMCがハングアップしてもサーバの運用に支障はないが、ハードウェアの情報の取得及びリモート操作に支障が生じるため、BMCの復旧作業が行われる。 The BMC is a control IC (Integrated Circuit) chip used to manage the server from a remote terminal. The remote terminal can obtain information about the hardware in the server and perform remote operations on the hardware via the BMC. If the BMC hangs up, it will not impede the operation of the server, but since it will cause problems in obtaining hardware information and in remote operations, work will be done to recover the BMC.

BMCの復旧作業に関連して、BMC、又は、サーバシステムの別のコンポーネントをリセットするためのシステムが知られている(例えば、特許文献1を参照)。BMC等のコントローラを二重化することなく、BMC等のコントローラにストールが発生した場合でも、コンピュータシステムを継続して動作させるストール監視装置も知られている(例えば、特許文献2を参照)。 In relation to BMC recovery operations, a system for resetting the BMC or another component of a server system is known (see, for example, Patent Document 1). A stall monitoring device is also known that allows a computer system to continue operating even if a stall occurs in a controller such as a BMC, without duplicating the controller such as a BMC (see, for example, Patent Document 2).

特開2019-125339号公報JP 2019-125339 A 特開2011-204046号公報JP 2011-204046 A

BMCの復旧作業では、BMCのリセットが行われる。BMCには、オペレーティングシステム(Operating System,OS)が使用するVGA(Video Graphics Array)チップも内蔵されているため、BMCのリセットはOSにも影響して、サーバシステムの動作に異常が発生する。このため、OSを含むサーバシステム全体を停止させてから、BMCのリセットが行われる。 In the BMC recovery process, the BMC is reset. Because the BMC also contains a VGA (Video Graphics Array) chip used by the Operating System (OS), resetting the BMC also affects the OS, causing abnormalities in the operation of the server system. For this reason, the entire server system, including the OS, is shut down before resetting the BMC.

このように、BMCの復旧作業は大掛かりな作業である。顧客のサーバシステムにおいて、BMCがハングアップした場合、作業者がサーバシステムの設置場所へ出向いて、BMCの復旧作業を実施する。このため、BMCがハングアップする度に作業者が客先へ出向く手間が発生し、かつ、BMCが復旧するまでに長い時間がかかる。復旧作業によりサーバシステムの運用が長時間停止すると、顧客の業務に与える影響が大きくなる。 As such, BMC recovery work is a major undertaking. If the BMC hangs up in a client's server system, an operator must travel to the server system's location to carry out BMC recovery work. This requires an operator to visit the client's site every time the BMC hangs up, and it takes a long time to recover the BMC. If the server system is shut down for an extended period of time due to recovery work, this has a significant impact on the client's business.

なお、かかる問題は、BMCの故障に限らず、情報処理装置(コンピュータ)を管理する様々な管理部の故障が発生したときに生ずるものである。 This problem is not limited to BMC failures, but can also occur when failures occur in various management units that manage information processing devices (computers).

1つの側面において、本発明は、情報処理装置を管理する管理部を故障から復旧させる際に、情報処理装置の運用を継続することを目的とする。 In one aspect, the present invention aims to continue the operation of an information processing device when recovering a management unit that manages the information processing device from a failure.

1つの案では、情報処理装置は、管理部、監視部、及び情報処理部を含む。管理部は、画像処理を行う画像処理部を含み、情報処理装置を管理する。監視部は、管理部を監視し、管理部の異常を検出した場合、異常検出信号を出力する。情報処理部は、情報処理を行い、監視部から異常検出信号が出力された場合、異常検出信号に基づいて画像処理部を切り離し、管理部を再起動する。 In one proposal, the information processing device includes a management unit, a monitoring unit, and an information processing unit. The management unit includes an image processing unit that performs image processing, and manages the information processing device. The monitoring unit monitors the management unit, and outputs an abnormality detection signal when it detects an abnormality in the management unit. The information processing unit processes information, and when an abnormality detection signal is output from the monitoring unit, it disconnects the image processing unit based on the abnormality detection signal and restarts the management unit.

1つの側面によれば、情報処理装置を管理する管理部を故障から復旧させる際に、情報処理装置の運用を継続することができる。 According to one aspect, when the management unit that manages the information processing device is restored from a failure, the operation of the information processing device can be continued.

比較例のサーバシステムにおけるサーバのハードウェア構成図である。FIG. 2 is a hardware configuration diagram of a server in a server system of a comparative example. 実施形態の情報処理装置の機能的構成図である。FIG. 2 is a functional configuration diagram of the information processing apparatus according to the embodiment. 復旧処理のフローチャートである。13 is a flowchart of a recovery process. 実施形態のサーバシステムのハードウェア構成図である。FIG. 2 is a hardware configuration diagram of a server system according to an embodiment. 実施形態のサーバシステムにおけるサーバのハードウェア構成図である。FIG. 2 is a hardware configuration diagram of a server in the server system according to the embodiment. BMCの復旧処理を示す図である。FIG. 13 illustrates a recovery process of a BMC. 第1の復旧処理のフローチャート(その1)である。1 is a flowchart (part 1) of a first recovery process. 第1の復旧処理のフローチャート(その2)である。13 is a flowchart (part 2) of the first recovery process. 第1の復旧処理のフローチャート(その3)である。13 is a flowchart (part 3) of the first recovery process. 第1の復旧処理のフローチャート(その4)である。11 is a flowchart (part 4) of the first recovery process. 第2の復旧処理のフローチャート(その1)である。13 is a flowchart (part 1) of a second recovery process. 第2の復旧処理のフローチャート(その2)である。13 is a flowchart (part 2) of the second recovery process. 第3の復旧処理のフローチャート(その1)である。13 is a flowchart (part 1) of the third recovery process. 第3の復旧処理のフローチャート(その2)である。13 is a flowchart (part 2) of the third recovery process. 第3の復旧処理のフローチャート(その3)である。13 is a flowchart (part 3) of the third recovery process. 第3の復旧処理のフローチャート(その4)である。13 is a flowchart (part 4) of the third recovery process. 第4の復旧処理のフローチャート(その1)である。13 is a flowchart (part 1) of the fourth recovery process. 第4の復旧処理のフローチャート(その2)である。13 is a flowchart (part 2) of the fourth recovery process. 第4の復旧処理のフローチャート(その3)である。13 is a flowchart (part 3) of the fourth recovery process. 第4の復旧処理のフローチャート(その4)である。13 is a flowchart (part 4) of the fourth recovery process.

以下、図面を参照しながら、実施形態を詳細に説明する。 The following describes the embodiment in detail with reference to the drawings.

図1は、比較例のサーバシステムにおけるサーバのハードウェア構成例を示している。図1のサーバ101は、BMC111、チップセット112、及びCPU(Central Processing Unit)113を含み、BMC111は、VGA121を含む。これらの構成要素は、ハードウェアである。VGA121とチップセット112は、PCI-E(Peripheral Component Interconnect-Express)バス122により接続されている。 Figure 1 shows an example of the hardware configuration of a server in a server system of a comparative example. The server 101 in Figure 1 includes a BMC 111, a chipset 112, and a CPU (Central Processing Unit) 113, and the BMC 111 includes a VGA 121. These components are hardware. The VGA 121 and the chipset 112 are connected by a PCI-E (Peripheral Component Interconnect-Express) bus 122.

サーバシステムは、サーバ101に加えて、RAID(Redundant Arrays of Inexpensive Disks)装置、テープ装置等の他の装置を含んでいてもよい。 In addition to the server 101, the server system may include other devices such as a RAID (Redundant Arrays of Inexpensive Disks) device and a tape device.

CPU113は、基本入出力システム(Basic Input/Output System,BIOS)131及びOS132を実行する。OS132は、VGAドライバ141を含む。OS132は、VGAドライバ141を用いてVGA121にアクセスすることで、VGA121にビデオリダイレクション等の画像処理を行わせる。 The CPU 113 executes a basic input/output system (BIOS) 131 and an OS 132. The OS 132 includes a VGA driver 141. The OS 132 accesses the VGA 121 using the VGA driver 141, causing the VGA 121 to perform image processing such as video redirection.

BMC111の復旧作業において、BMC111がリセットされると、VGA121もリセットされる。PCI-Eバス122及びチップセット112を介してVGA121に接続されているCPU113は、VGA121がリセットされると、VGA121に対するアクセスのタイムアウトを検出し、OS132の実行を停止する。このため、リモート端末の表示装置に、OS132の画面が表示されなくなる。 When BMC 111 is reset during the recovery process for BMC 111, VGA 121 is also reset. When VGA 121 is reset, CPU 113, which is connected to VGA 121 via PCI-E bus 122 and chipset 112, detects a timeout in access to VGA 121 and stops execution of OS 132. As a result, the screen of OS 132 is no longer displayed on the display device of the remote terminal.

PCI Hotplugの機能を用いてOS132からVGA121を切り離すことは可能であるが、OS132は、BMC111がハングアップしたことを検知しないため、VGA121を切り離すことはない。また、BMC111は、OS132とは独立にサーバ101を監視する役割を有するため、OS132からBMC111を切り離す仕組みが存在しない。 It is possible to disconnect VGA 121 from OS 132 using the PCI Hotplug function, but OS 132 will not disconnect VGA 121 because it does not detect that BMC 111 has hung up. Also, BMC 111 has the role of monitoring server 101 independently of OS 132, so there is no mechanism for disconnecting BMC 111 from OS 132.

このため、図1のサーバ101では、以下のような手順でBMC111の復旧作業が実施される。 For this reason, in the server 101 in FIG. 1, the recovery work for the BMC 111 is carried out in the following procedure.

(P1)リモート端末のWeb UI(User Interface)に不具合が発生し、作業者が異常の発生に気付く。 (P1) A problem occurs in the web UI (User Interface) of a remote terminal, and the worker notices that something is wrong.

(P2)作業者は、サーバシステムの設置場所(サーバルーム等)へ出向いて、サーバ101のLED(Light Emitting Diode)を確認する。そして、LEDが点灯から消灯に変化していることから、BMC111の異常であることが判明する。 (P2) The worker goes to the location where the server system is installed (such as the server room) and checks the LED (Light Emitting Diode) of server 101. The worker then finds out that there is an abnormality in BMC 111 because the LED has changed from on to off.

(P3)作業者は、サーバ101で実行中の処理をすべて終了させてから、OS132を停止する。 (P3) The worker terminates all processes running on server 101 and then shuts down OS 132.

(P4)作業者は、サーバ101以外の各装置の電源をオフにすることで、サーバシステムを停止する。 (P4) The operator shuts down the server system by turning off the power to all devices other than the server 101.

(P5)作業者は、BMC111のリセットを行う。 (P5) The operator resets the BMC 111.

(P6)作業者は、監視画面上でリセットの結果を確認し、結果が正常であれば、(P7)の作業に進み、結果が異常であれば、保守作業を依頼する。 (P6) The worker checks the reset result on the monitoring screen, and if the result is normal, proceeds to (P7); if the result is abnormal, he or she requests maintenance work.

(P7)作業者は、各装置の電源をオンにすることで、サーバシステムを起動する。 (P7) The worker starts up the server system by turning on the power of each device.

このように、OS132を含むサーバシステム全体を停止させてから、BMC111のリセットが行われるため、作業者がサーバルーム等へ出向く手間が発生し、かつ、BMC111が復旧するまでに長い時間がかかる。 In this way, the entire server system, including OS 132, must be shut down before BMC 111 is reset, which requires an operator to go to the server room, etc., and takes a long time to restore BMC 111.

図2は、実施形態の情報処理装置の機能的構成例を示している。図2の情報処理装置201は、管理部211、監視部212、及び情報処理部213を含む。管理部211は、画像処理を行う画像処理部221を含み、情報処理装置201を管理する。 FIG. 2 shows an example of the functional configuration of an information processing device according to an embodiment. The information processing device 201 in FIG. 2 includes a management unit 211, a monitoring unit 212, and an information processing unit 213. The management unit 211 includes an image processing unit 221 that performs image processing, and manages the information processing device 201.

図3は、図2の情報処理装置201が行う復旧処理の例を示すフローチャートである。情報処理部213は、情報処理を行う(ステップ301)。そして、監視部212は、管理部211を監視し、管理部211の異常を検出した場合、異常検出信号を出力する。 Figure 3 is a flowchart showing an example of recovery processing performed by the information processing device 201 of Figure 2. The information processing unit 213 performs information processing (step 301). Then, the monitoring unit 212 monitors the management unit 211, and outputs an abnormality detection signal when an abnormality in the management unit 211 is detected.

監視部212から異常検出信号が出力された場合、情報処理部213は、異常検出信号に基づいて画像処理部221を切り離し(ステップ302)、管理部211を再起動する(ステップ303)。 When an abnormality detection signal is output from the monitoring unit 212, the information processing unit 213 disconnects the image processing unit 221 based on the abnormality detection signal (step 302) and restarts the management unit 211 (step 303).

図2の情報処理装置201によれば、情報処理装置201を管理する管理部211を故障から復旧させる際に、情報処理装置201の運用を継続することができる。 According to the information processing device 201 of FIG. 2, when the management unit 211 that manages the information processing device 201 is restored from a failure, the operation of the information processing device 201 can be continued.

図4は、実施形態のサーバシステムのハードウェア構成例を示している。図4のサーバシステムは、サーバ401及びRAID装置402を含む。サーバ401は、図2の情報処理装置201に対応する。サーバ401とRAID装置402は、通信ネットワークにより接続されている。 Figure 4 shows an example of the hardware configuration of a server system according to an embodiment. The server system in Figure 4 includes a server 401 and a RAID device 402. The server 401 corresponds to the information processing device 201 in Figure 2. The server 401 and the RAID device 402 are connected via a communication network.

RAID装置402は、サーバ401が使用するデータを記憶する。RAID装置402は、補助記憶装置の一例である。サーバ401は、RAID装置402が記憶するデータを用いて情報処理を行い、処理結果をRAID装置402に格納する。 The RAID device 402 stores data used by the server 401. The RAID device 402 is an example of an auxiliary storage device. The server 401 performs information processing using the data stored in the RAID device 402, and stores the processing results in the RAID device 402.

図5は、図4のサーバ401のハードウェア構成例を示している。図5のサーバ401は、BMC511、チップセット512、CPU513、監視回路514、メモリ515、及び通信回路516を含む。BMC511は、VGA521を含む。これらの構成要素は、ハードウェアである。CPU513は、プロセッサと呼ばれることもある。 Figure 5 shows an example of the hardware configuration of the server 401 in Figure 4. The server 401 in Figure 5 includes a BMC 511, a chipset 512, a CPU 513, a monitoring circuit 514, a memory 515, and a communication circuit 516. The BMC 511 includes a VGA 521. These components are hardware. The CPU 513 is sometimes called a processor.

BMC511、CPU513、監視回路514、及びVGA521は、図2の管理部211、情報処理部213、監視部212、及び画像処理部221にそれぞれ対応する。監視回路514は、例えば、CPLD(Complex Programmable Logic Device)である。 The BMC 511, the CPU 513, the monitoring circuit 514, and the VGA 521 correspond to the management unit 211, the information processing unit 213, the monitoring unit 212, and the image processing unit 221, respectively, in FIG. 2. The monitoring circuit 514 is, for example, a complex programmable logic device (CPLD).

CPU513、メモリ515、及び通信回路516は、チップセット512に接続されており、監視回路514は、BMC511及びチップセット512に接続されている。VGA521とチップセット512は、PCI-Eバス522により接続されている。 The CPU 513, memory 515, and communication circuit 516 are connected to the chipset 512, and the monitoring circuit 514 is connected to the BMC 511 and chipset 512. The VGA 521 and chipset 512 are connected by a PCI-E bus 522.

メモリ515は、例えば、RAM(Random Access Memory)等の半導体メモリであり、情報処理に用いられるプログラム及びデータを記憶する。通信回路516は、通信ネットワークに接続され、RAID装置402と通信する。 The memory 515 is, for example, a semiconductor memory such as a random access memory (RAM) and stores programs and data used in information processing. The communication circuit 516 is connected to a communication network and communicates with the RAID device 402.

CPU513は、通信回路516を介して、RAID装置402からデータを取得し、取得されたデータをメモリ515に格納する。そして、CPU513は、メモリ515に格納されたデータを用いてプログラムを実行することにより情報処理を行い、通信回路516を介して、処理結果をRAID装置402へ送信する。 The CPU 513 acquires data from the RAID device 402 via the communication circuit 516 and stores the acquired data in the memory 515. The CPU 513 then performs information processing by executing a program using the data stored in the memory 515, and transmits the processing results to the RAID device 402 via the communication circuit 516.

BMC511は、サーバ401を管理する。不図示のリモート端末は、BMC511を介して、サーバ401内のハードウェアの情報を取得したり、ハードウェアに対するリモート操作を行ったりすることができる。VGA521は、ビデオリダイレクション等の画像処理を行う。 The BMC 511 manages the server 401. A remote terminal (not shown) can obtain information about the hardware in the server 401 and perform remote operations on the hardware via the BMC 511. The VGA 521 performs image processing such as video redirection.

CPU513は、情報処理を行う際、BIOS531及びOS532を実行する。BIOS531は、第1プログラムの一例であり、OS532は、第2プログラムの一例である。 When performing information processing, the CPU 513 executes the BIOS 531 and the OS 532. The BIOS 531 is an example of a first program, and the OS 532 is an example of a second program.

BIOS531は、割り込み処理ルーチン541を含む。割り込み処理ルーチン541は、OS532に対する割り込み要求を生成する処理と、CPU513とVGA521との間の通信状態をチェックする処理とを含む。割り込み処理ルーチン541は、割り込みサービスルーチンと呼ばれることもある。 The BIOS 531 includes an interrupt processing routine 541. The interrupt processing routine 541 includes a process for generating an interrupt request to the OS 532 and a process for checking the communication state between the CPU 513 and the VGA 521. The interrupt processing routine 541 is sometimes called an interrupt service routine.

OS532は、VGAドライバ542を含む。OS532は、VGAドライバ542を用いてVGA521にアクセスすることで、VGA521に画像処理を行わせる。また、OS532は、VGAドライバ542が有するPCI Hotplugの機能を用いて、OS532からVGA521を切り離すことができる。 The OS 532 includes a VGA driver 542. The OS 532 accesses the VGA 521 using the VGA driver 542, causing the VGA 521 to perform image processing. The OS 532 can also disconnect the VGA 521 from the OS 532 using the PCI Hotplug function of the VGA driver 542.

BIOS531は、OS532と通信することができるため、BMC511がハングアップした場合、BIOS531からOS532へBMC511の異常を通知することが可能である。しかし、BIOS531は、BMC511を監視しているわけではなく、BMC511の状態を認識していない。そこで、BMC511の異常を検出するために、監視回路514が設けられる。 Since BIOS 531 can communicate with OS 532, if BMC 511 hangs up, BIOS 531 can notify OS 532 of the abnormality in BMC 511. However, BIOS 531 does not monitor BMC 511, and is not aware of the state of BMC 511. Therefore, a monitoring circuit 514 is provided to detect abnormalities in BMC 511.

監視回路514は、ウォッチドッグ機能によりBMC511を監視する。監視回路514は、問合せ信号をBMC511へ送信し、所定期間内にBMC511から応答信号を受信したか否かをチェックする。所定期間内に応答信号を受信しない場合、監視回路514は、BMC511に異常が発生したと判定する。これにより、BMC511の異常を検出することができる。 The monitoring circuit 514 monitors the BMC 511 using a watchdog function. The monitoring circuit 514 transmits an inquiry signal to the BMC 511 and checks whether a response signal has been received from the BMC 511 within a specified period of time. If a response signal is not received within the specified period of time, the monitoring circuit 514 determines that an abnormality has occurred in the BMC 511. This makes it possible to detect an abnormality in the BMC 511.

BMC511の異常が検出された場合、監視回路514は、BIOS531に対する割り込み要求を、チップセット512を介してCPU513へ出力する。BIOS531に対する割り込み要求は、第1プログラムに対する第1割り込み要求の一例であり、異常検出信号に対応する。 When an abnormality in the BMC 511 is detected, the monitoring circuit 514 outputs an interrupt request to the BIOS 531 to the CPU 513 via the chipset 512. The interrupt request to the BIOS 531 is an example of a first interrupt request to the first program, and corresponds to an abnormality detection signal.

CPU513は、監視回路514からの割り込み要求に基づいて、BIOS531の割り込み処理ルーチン541を実行することで、OS532に対する割り込み要求を生成する。OS532に対する割り込み要求は、第2プログラムに対する第2割り込み要求の一例である。 The CPU 513 generates an interrupt request for the OS 532 by executing an interrupt processing routine 541 of the BIOS 531 based on the interrupt request from the monitoring circuit 514. The interrupt request for the OS 532 is an example of a second interrupt request for the second program.

CPU513は、割り込み処理ルーチン541からの割り込み要求に基づき、OS532のVGAドライバ542を用いて、PCI-Eバス522からVGA521を切り離すことで、CPU513からVGA521を切り離す。 Based on an interrupt request from the interrupt processing routine 541, the CPU 513 uses the VGA driver 542 of the OS 532 to disconnect the VGA 521 from the PCI-E bus 522, thereby disconnecting the VGA 521 from the CPU 513.

CPU513からVGA521を切り離す処理は、CPU513とVGA521との間の通信状態を、通信可能な状態から通信不可の状態に変更する処理を表す。通信可能な状態は、リンクアップに対応し、通信不可の状態は、リンクダウンに対応する。 The process of disconnecting the VGA 521 from the CPU 513 represents a process of changing the communication state between the CPU 513 and the VGA 521 from a communication possible state to a communication impossible state. The communication possible state corresponds to a link up, and the communication impossible state corresponds to a link down.

監視回路514がBIOS531に対する割り込み要求を出力することで、BMC511の異常をBIOS531に通知することができる。また、BIOS531の割り込み処理ルーチン541がOS532に対する割り込み要求を生成することで、BMC511の異常をOS532に通知することができる。 The monitoring circuit 514 outputs an interrupt request to the BIOS 531, thereby notifying the BIOS 531 of an abnormality in the BMC 511. In addition, the interrupt processing routine 541 of the BIOS 531 generates an interrupt request to the OS 532, thereby notifying the OS 532 of an abnormality in the BMC 511.

監視回路514は、BIOS531に対する割り込み要求を出力した後、BIOS531に対する次の割り込み要求を、チップセット512を介してCPU513へ出力する。BIOS531に対する次の割り込み要求は、第1プログラムに対する第3割り込み要求の一例である。 After outputting the interrupt request to BIOS 531, the monitoring circuit 514 outputs the next interrupt request to BIOS 531 to the CPU 513 via the chipset 512. The next interrupt request to BIOS 531 is an example of a third interrupt request to the first program.

CPU513は、監視回路514からの次の割り込み要求に基づいて、割り込み処理ルーチン541を実行することで、CPU513とVGA521との間の通信状態をチェックする。そして、通信状態が通信不可である場合、CPU513は、BMC511をリセットすることで、BMC511を再起動する。 The CPU 513 checks the communication state between the CPU 513 and the VGA 521 by executing the interrupt processing routine 541 based on the next interrupt request from the monitoring circuit 514. If the communication state is not possible, the CPU 513 resets the BMC 511 to restart the BMC 511.

監視回路514がBIOS531に対する次の割り込み要求を出力することで、VGA521が切り離されたか否かを割り込み処理ルーチン541にチェックさせることができる。そして、VGA521が切り離されている場合にBMC511をリセットすることで、OS532に影響を与えることなく、BMC511を再起動することが可能になる。 The monitoring circuit 514 outputs the next interrupt request to the BIOS 531, which allows the interrupt processing routine 541 to check whether the VGA 521 has been disconnected. If the VGA 521 has been disconnected, the BMC 511 is reset, making it possible to restart the BMC 511 without affecting the OS 532.

図6は、図5のサーバ401におけるBMC511の復旧処理の例を示している。復旧処理は、以下のような手順で行われる。 Figure 6 shows an example of recovery processing of the BMC 511 in the server 401 in Figure 5. The recovery processing is performed in the following procedure.

(P11)監視回路514は、定期的にウォッチドッグ機能によりBMC511を監視する。 (P11) The monitoring circuit 514 periodically monitors the BMC 511 using a watchdog function.

(P12)BMC511に異常が発生し、BMC511がハングアップする。 (P12) An abnormality occurs in BMC511, causing it to hang up.

(P13)所定期間内にBMC511から応答信号を受信しないため、監視回路514は、BMC511に異常が発生したと判定し、BIOS531に対する最初の割り込み要求をCPU513へ出力する。その後、監視回路514は、定期的に、BIOS531に対する割り込み要求をCPU513へ出力する。 (P13) Because no response signal is received from the BMC 511 within a predetermined period of time, the monitoring circuit 514 determines that an abnormality has occurred in the BMC 511, and outputs an initial interrupt request to the BIOS 531 to the CPU 513. After that, the monitoring circuit 514 periodically outputs interrupt requests to the BIOS 531 to the CPU 513.

(P14)CPU513は、監視回路514からの最初の割り込み要求に基づいて割り込み処理ルーチン541を実行することで、OS532に対する割り込み要求を生成する。これにより、CPU513は、VGA521の切り離しをOS532に要求する。 (P14) The CPU 513 generates an interrupt request to the OS 532 by executing the interrupt processing routine 541 based on the first interrupt request from the monitoring circuit 514. As a result, the CPU 513 requests the OS 532 to disconnect the VGA 521.

(P15)CPU513は、割り込み処理ルーチン541からの割り込み要求に基づき、OS532のVGAドライバ542を用いて、CPU513からVGA521を切り離す。 (P15) Based on an interrupt request from the interrupt processing routine 541, the CPU 513 uses the VGA driver 542 of the OS 532 to disconnect the VGA 521 from the CPU 513.

(P16)CPU513は、監視回路514から定期的に出力される割り込み要求に基づいて、割り込み処理ルーチン541を実行することで、CPU513とVGA521との間の通信がリンクダウンしているか否かをチェックする。 (P16) The CPU 513 executes an interrupt processing routine 541 based on an interrupt request periodically output from the monitoring circuit 514 to check whether the communication between the CPU 513 and the VGA 521 is linked down.

(P17)CPU513とVGA521との間の通信がリンクダウンしている場合、CPU513は、VGA521が切り離されたと判定し、BMC511をリセットすることで、BMC511を再起動する。そして、BMC511は、監視回路514をリセットすることで、割り込み要求の出力を停止させる。 (P17) If the communication between the CPU 513 and the VGA 521 is link down, the CPU 513 determines that the VGA 521 has been disconnected, and restarts the BMC 511 by resetting it. The BMC 511 then resets the monitoring circuit 514 to stop outputting interrupt requests.

(P18)BMC511は、再起動された後、BIOS531に対する割り込み要求をCPU513へ出力する。これにより、BMC511は、VGA521の接続をBIOS531に要求する。 (P18) After being restarted, the BMC 511 outputs an interrupt request to the CPU 513 for the BIOS 531. This causes the BMC 511 to request the BIOS 531 to connect the VGA 521.

(P19)CPU513は、BMC511からの割り込み要求に基づいて、割り込み処理ルーチン541を実行することで、OS532に対する割り込み要求を生成する。これにより、CPU513は、VGA521の接続をOS532に要求する。 (P19) Based on the interrupt request from the BMC 511, the CPU 513 executes the interrupt processing routine 541 to generate an interrupt request to the OS 532. As a result, the CPU 513 requests the OS 532 to connect the VGA 521.

(P20)CPU513は、割り込み処理ルーチン541からの割り込み要求に基づき、OS532のVGAドライバ542を用いて、VGA521をPCI-Eバス522に組み込むことで、VGA521をCPU513に接続する。 (P20) Based on an interrupt request from the interrupt processing routine 541, the CPU 513 uses the VGA driver 542 of the OS 532 to incorporate the VGA 521 into the PCI-E bus 522, thereby connecting the VGA 521 to the CPU 513.

(P16)において、CPU513は、CPU513とVGA521との間の通信がリンクダウンしているか否かを、以下のような手順でチェックすることができる。 At (P16), the CPU 513 can check whether the communication between the CPU 513 and the VGA 521 is linked down by the following procedure.

(P21)CPU513は、lspci、PCI device info等のコマンド、又はライブラリ関数を用いて、PCIデバイスの一覧を取得する。PCIデバイスは、PCI-Eバス522に組み込まれているデバイスを表す。 (P21) The CPU 513 obtains a list of PCI devices using commands such as lspci and PCI device info, or library functions. The PCI devices represent the devices that are installed in the PCI-E bus 522.

(P22)CPU513は、PCIデバイスの一覧からVGA521を検索する。 (P22) The CPU 513 searches for the VGA 521 from the list of PCI devices.

(P23)PCIデバイスの一覧にVGA521が含まれている場合、CPU513は、通信がリンクダウンしていないと判定し、(P21)以降の処理を繰り返す。 (P23) If the list of PCI devices includes VGA521, CPU513 determines that communication is not linked down and repeats the process from (P21) onwards.

(P24)PCIデバイスの一覧にVGA521が含まれていない場合、CPU513は、通信がリンクダウンしていると判定する。 (P24) If VGA521 is not included in the list of PCI devices, CPU513 determines that communication is link down.

図5のサーバ401によれば、監視回路514及び割り込み処理ルーチン541を設けることで、BMC511の異常を検出してOS532に通知することができ、自動的にBMC511を故障から復旧させることが可能になる。 According to the server 401 in FIG. 5, by providing a monitoring circuit 514 and an interrupt processing routine 541, it is possible to detect an abnormality in the BMC 511 and notify the OS 532, and it becomes possible to automatically recover the BMC 511 from the failure.

復旧処理を行う際、作業者がサーバルーム等へ出向いて復旧作業を行う必要がないため、復旧作業開始までの待ち時間が発生しない。また、サーバシステムを停止する必要がなく、BMC511が活性でリセットされるため、復旧処理の間もサーバシステムの運用を継続することができる。 When performing recovery processing, there is no need for an operator to go to a server room or the like to perform the recovery work, so there is no waiting time until the recovery work can begin. In addition, there is no need to shut down the server system, and the BMC 511 is actively reset, so the operation of the server system can continue even during the recovery process.

新たなハードウェアとしては監視回路514を追加するだけで済むため、既存のサーバシステムにも容易に図6の復旧処理を適用することができる。また、BIOS531及びOS532の割り込み処理を利用することで、容易に復旧処理を実装することができる。 The only new hardware required is the addition of a monitoring circuit 514, so the recovery process in FIG. 6 can be easily applied to existing server systems. In addition, the recovery process can be easily implemented by utilizing the interrupt processing of the BIOS 531 and the OS 532.

次に、図7Aから図10Dまでを参照しながら、図5のサーバ401におけるBMC511の復旧処理について、より詳細に説明する。以下では、CPU513がOS532を実行することで行われる処理を、OS532が行う処理として記述することがある。また、CPU513がBIOS531の割り込み処理ルーチン541を実行することで行われる処理を、割り込み処理ルーチン541が行う処理として記述することがある。 Next, the recovery process of the BMC 511 in the server 401 in FIG. 5 will be described in more detail with reference to FIG. 7A through FIG. 10D. In the following, the process performed by the CPU 513 executing the OS 532 may be described as the process performed by the OS 532. Also, the process performed by the CPU 513 executing the interrupt processing routine 541 of the BIOS 531 may be described as the process performed by the interrupt processing routine 541.

図7A~図7Dは、OS532が動作している場合の第1の復旧処理の例を示すフローチャートである。まず、ユーザは、サーバ401の電源をオンにする(ステップ701)。これにより、BMC511が起動し(ステップ702)、サーバ401は、BMC511の起動に失敗したか否かをチェックする(ステップ703)。 Figures 7A to 7D are flowcharts showing an example of the first recovery process when OS 532 is running. First, the user turns on the power of server 401 (step 701). This starts up BMC 511 (step 702), and server 401 checks whether or not the start-up of BMC 511 has failed (step 703).

BMC511の起動に失敗した場合(ステップ703,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、BMC511の起動に成功した場合(ステップ703,NO)、BMC511は、サーバ401の管理を開始する。そして、BMC511は、監視回路514を起動し(ステップ704)、監視回路514の起動に失敗したか否かをチェックする(ステップ705)。 If the startup of the BMC 511 fails (step 703, YES), the server 401 outputs an alarm (step 724) and ends the process. On the other hand, if the startup of the BMC 511 is successful (step 703, NO), the BMC 511 starts managing the server 401. The BMC 511 then starts the monitoring circuit 514 (step 704) and checks whether the startup of the monitoring circuit 514 has failed (step 705).

監視回路514の起動に失敗した場合(ステップ705,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、監視回路514の起動に成功した場合(ステップ705,NO)、監視回路514は、ウォッチドッグ機能を開始し(ステップ706)、ウォッチドッグ機能の開始に失敗したか否かをチェックする(ステップ707)。 If the start of the monitoring circuit 514 fails (step 705, YES), the server 401 outputs an alarm (step 724) and ends the process. On the other hand, if the start of the monitoring circuit 514 is successful (step 705, NO), the monitoring circuit 514 starts the watchdog function (step 706) and checks whether the start of the watchdog function has failed (step 707).

ウォッチドッグ機能の開始に失敗した場合(ステップ707,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、ウォッチドッグ機能の開始に成功した場合(ステップ707,NO)、CPU513は、OS532を起動する(ステップ708)。これにより、OS532が起動し(ステップ731)、CPU513は、OS532の起動に失敗したか否かをチェックする(ステップ732)。 If the start of the watchdog function fails (step 707, YES), the server 401 outputs an alarm (step 724) and ends the process. On the other hand, if the start of the watchdog function is successful (step 707, NO), the CPU 513 starts the OS 532 (step 708). This starts the OS 532 (step 731), and the CPU 513 checks whether the start of the OS 532 has failed (step 732).

OS532の起動に失敗した場合(ステップ732,YES)、CPU513は、アラームを出力して(ステップ736)、処理を終了する。一方、OS532の起動に成功した場合(ステップ732,NO)、CPU513は、OS532を実行する。 If the startup of OS 532 fails (step 732, YES), CPU 513 outputs an alarm (step 736) and ends the process. On the other hand, if the startup of OS 532 is successful (step 732, NO), CPU 513 executes OS 532.

次に、監視回路514は、問合せ信号をBMC511へ送信し(ステップ709)、所定期間内にBMC511から応答信号を受信したか否かをチェックする(ステップ710)。所定期間内に応答信号を受信した場合(ステップ710,YES)、監視回路514は、ステップ709以降の処理を繰り返す。 Next, the monitoring circuit 514 transmits an inquiry signal to the BMC 511 (step 709) and checks whether a response signal has been received from the BMC 511 within a predetermined period (step 710). If a response signal has been received within the predetermined period (step 710, YES), the monitoring circuit 514 repeats the processing from step 709 onwards.

一方、所定期間内に応答信号を受信しない場合(ステップ710,NO)、監視回路514は、BIOS531に対する割り込み要求をCPU513へ出力する(ステップ711)。BIOS531に対する割り込み要求により起動された割り込み処理ルーチン541は、OS532に対する割り込み要求を出力する(ステップ712)。 On the other hand, if the response signal is not received within the specified period (step 710, NO), the monitoring circuit 514 outputs an interrupt request to the BIOS 531 to the CPU 513 (step 711). The interrupt processing routine 541, which is started by the interrupt request to the BIOS 531, outputs an interrupt request to the OS 532 (step 712).

OS532は、OS532に対する割り込み要求を受け付け(ステップ733)、VGAドライバ542を用いて、PCI-Eバス522からVGA521を切り離す(ステップ734)。 OS 532 accepts the interrupt request for OS 532 (step 733) and uses VGA driver 542 to disconnect VGA 521 from PCI-E bus 522 (step 734).

次に、監視回路514から定期的に出力される割り込み要求により、割り込み処理ルーチン541が起動される。起動された割り込み処理ルーチン541は、タイマを起動して、一定期間の間、CPU513とVGA521との間の通信がリンクダウンしているか否かの判定を繰り返す。 Next, an interrupt processing routine 541 is started by an interrupt request that is periodically output from the monitoring circuit 514. The started interrupt processing routine 541 starts a timer and repeatedly determines whether or not the communication between the CPU 513 and the VGA 521 is in a link-down state for a certain period of time.

リンクダウンの判定において、割り込み処理ルーチン541は、コマンド又はライブラリ関数を用いてPCIデバイスの一覧を取得し(ステップ713)、タイムアウトしたか否かをチェックする(ステップ714)。 To determine whether a link is down, the interrupt processing routine 541 obtains a list of PCI devices using a command or library function (step 713) and checks whether a timeout has occurred (step 714).

タイムアウトしていない場合(ステップ714,NO)、割り込み処理ルーチン541は、PCIデバイスの一覧からVGA521を検索する(ステップ715)。PCIデバイスの一覧にVGA521が含まれている場合(ステップ715,YES)、割り込み処理ルーチン541は、ステップ713以降の処理を繰り返す。 If the timeout has not occurred (step 714, NO), the interrupt processing routine 541 searches for the VGA 521 in the list of PCI devices (step 715). If the list of PCI devices includes the VGA 521 (step 715, YES), the interrupt processing routine 541 repeats the processing from step 713 onwards.

一方、PCIデバイスの一覧にVGA521が含まれていない場合(ステップ715,NO)、割り込み処理ルーチン541は、CPU513とVGA521との間の通信がリンクダウンしていると判定し、BMC511をリセットする(ステップ716)。そして、サーバ401は、BMC511のリセットに失敗したか否かをチェックする(ステップ717)。 On the other hand, if the list of PCI devices does not include the VGA 521 (step 715, NO), the interrupt processing routine 541 determines that the communication between the CPU 513 and the VGA 521 is link down, and resets the BMC 511 (step 716). The server 401 then checks whether the reset of the BMC 511 has failed (step 717).

BMC511のリセットに失敗した場合(ステップ717,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、BMC511のリセットに成功した場合(ステップ717,NO)、BMC511は、監視回路514をリセットし(ステップ718)、監視回路514のリセットに失敗したか否かをチェックする(ステップ719)。 If the reset of the BMC 511 fails (step 717, YES), the server 401 outputs an alarm (step 724) and ends the process. On the other hand, if the reset of the BMC 511 is successful (step 717, NO), the BMC 511 resets the monitoring circuit 514 (step 718) and checks whether the reset of the monitoring circuit 514 failed (step 719).

監視回路514のリセットに失敗した場合(ステップ719,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、監視回路514のリセットに成功した場合(ステップ719,NO)、監視回路514は、ウォッチドッグ機能を開始し(ステップ720)、ウォッチドッグ機能の開始に失敗したか否かをチェックする(ステップ721)。 If resetting the monitoring circuit 514 fails (step 719, YES), the server 401 outputs an alarm (step 724) and ends the process. On the other hand, if resetting the monitoring circuit 514 is successful (step 719, NO), the monitoring circuit 514 starts the watchdog function (step 720) and checks whether starting the watchdog function has failed (step 721).

ウォッチドッグ機能の開始に失敗した場合(ステップ721,YES)、サーバ401は、アラームを出力して(ステップ724)、処理を終了する。一方、ウォッチドッグ機能の開始に成功した場合(ステップ721,NO)、BMC511は、BIOS531に対する割り込み要求をCPU513へ出力する(ステップ722)。BIOS531に対する割り込み要求により起動された割り込み処理ルーチン541は、OS532に対する割り込み要求を出力する(ステップ723)。 If the start of the watchdog function fails (step 721, YES), the server 401 outputs an alarm (step 724) and ends the process. On the other hand, if the start of the watchdog function is successful (step 721, NO), the BMC 511 outputs an interrupt request to the BIOS 531 to the CPU 513 (step 722). The interrupt processing routine 541, which is started by the interrupt request to the BIOS 531, outputs an interrupt request to the OS 532 (step 723).

OS532は、OS532に対する割り込み要求に基づき、VGAドライバ542を用いて、VGA521をPCI-Eバス522に組み込む(ステップ735)。 Based on the interrupt request to OS 532, OS 532 incorporates VGA 521 into PCI-E bus 522 using VGA driver 542 (step 735).

リンクダウンの判定においてタイムアウトした場合(ステップ714,YES)、サーバ401は、ステップ716以降の処理を行うことで、強制的にBMC511をリセットする。 If the link-down determination times out (step 714, YES), the server 401 forcibly resets the BMC 511 by performing the processing from step 716 onwards.

図8A及び図8Bは、OS532が停止している場合の第2の復旧処理の例を示すフローチャートである。ステップ801~ステップ823の処理は、図7Aのステップ701~ステップ707及びステップ709~ステップ715と図7Bのステップ716~ステップ724の処理と同様である。 Figures 8A and 8B are flowcharts showing an example of the second recovery process when OS 532 is stopped. The processes in steps 801 to 823 are similar to the processes in steps 701 to 707 and steps 709 to 715 in Figure 7A and steps 716 to 724 in Figure 7B.

第1の復旧処理とは異なり、ウォッチドッグ機能の開始に成功した場合(ステップ807,NO)、OS532は起動されず、停止したままである。このため、ステップ811において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合、割り込み要求はペンディングされる。そして、OS532が起動されたときに、ペンディングされている割り込み要求が消去される。 Unlike the first recovery process, if the watchdog function is successfully started (step 807, NO), OS 532 is not started and remains stopped. Therefore, in step 811, if an interrupt request is output from interrupt processing routine 541 to OS 532, the interrupt request becomes pending. Then, when OS 532 is started, the pending interrupt request is cleared.

同様に、ステップ822において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合も、割り込み要求はペンディングされる。そして、OS532が起動されたときに、ペンディングされている割り込み要求が消去される。 Similarly, in step 822, when an interrupt request is output from the interrupt processing routine 541 to the OS 532, the interrupt request is also pending. Then, when the OS 532 is started, the pending interrupt request is cleared.

OS532が停止しているため、VGA521の切り離しが行われず、リンクダウンの判定においてタイムアウトが発生する(ステップ813,YES)。したがって、ステップ815以降の処理が行われ、BMC511が強制的にリセットされる。 Because OS 532 is stopped, VGA 521 is not disconnected, and a timeout occurs in determining whether the link is down (step 813, YES). Therefore, the process from step 815 onwards is performed, and BMC 511 is forcibly reset.

図9A~図9Dは、OS532からの応答がない場合の第3の復旧処理の例を示すフローチャートである。ステップ901~ステップ924の処理は、図7Aのステップ701~ステップ715と図7Bのステップ716~ステップ724の処理と同様である。また、ステップ931、ステップ932、及びステップ934の処理は、図7Cのステップ731及びステップ732と図7Dのステップ736の処理と同様である。 Figures 9A to 9D are flowcharts showing an example of the third recovery process when there is no response from OS 532. The processes in steps 901 to 924 are similar to the processes in steps 701 to 715 in Figure 7A and steps 716 to 724 in Figure 7B. In addition, the processes in steps 931, 932, and 934 are similar to the processes in steps 731 and 732 in Figure 7C and step 736 in Figure 7D.

第1の復旧処理とは異なり、OS532の起動に成功した場合(ステップ932,NO)、起動されたOS532がハングアップし(ステップ933)、無応答の状態になる。このため、ステップ912において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合、割り込み要求はペンディングされる。そして、OS532が次に起動されたときに、ペンディングされている割り込み要求が消去される。 Unlike the first recovery process, if OS 532 is successfully started (step 932, NO), the started OS 532 hangs up (step 933) and becomes unresponsive. Therefore, if an interrupt request is output from interrupt processing routine 541 to OS 532 in step 912, the interrupt request becomes pending. Then, the next time OS 532 is started, the pending interrupt request is cleared.

同様に、ステップ923において、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合も、割り込み要求はペンディングされる。そして、OS532が次に起動されたときに、ペンディングされている割り込み要求が消去される。 Similarly, in step 923, when an interrupt request is output from the interrupt processing routine 541 to the OS 532, the interrupt request is also pending. Then, the next time the OS 532 is started, the pending interrupt request is cleared.

OS532がハングアップしているため、VGA521の切り離しが行われず、リンクダウンの判定においてタイムアウトが発生する(ステップ914,YES)。したがって、ステップ916以降の処理が行われ、BMC511が強制的にリセットされる。 Because OS 532 is hung up, VGA 521 is not disconnected, and a timeout occurs in determining whether the link is down (step 914, YES). Therefore, the process from step 916 onwards is carried out, and BMC 511 is forcibly reset.

図10A~図10Dは、VGA521の切り離しが失敗した場合の第4の復旧処理の例を示すフローチャートである。ステップ1001~ステップ1024の処理は、図7Aのステップ701~ステップ715と図7Bのステップ716~ステップ724の処理と同様である。また、ステップ1031~ステップ1036の処理は、図7Cのステップ731~ステップ734と図7Dのステップ735及びステップ736の処理と同様である。 Figures 10A to 10D are flowcharts showing an example of a fourth recovery process when disconnection of VGA 521 fails. The processes in steps 1001 to 1024 are similar to the processes in steps 701 to 715 in Figure 7A and steps 716 to 724 in Figure 7B. In addition, the processes in steps 1031 to 1036 are similar to the processes in steps 731 to 734 in Figure 7C and steps 735 and 736 in Figure 7D.

第1の復旧処理とは異なり、OS532は、OS532に対する割り込み要求を受け付けた後(ステップ1033)、VGAドライバ542を用いて、PCI-Eバス522からVGA521を切り離そうとするが、切り離しに失敗する(ステップ1034)。このため、リンクダウンの判定においてタイムアウトが発生し(ステップ1014,YES)、ステップ1016以降の処理が行われて、BMC511が強制的にリセットされる。 Unlike the first recovery process, after OS 532 receives an interrupt request for OS 532 (step 1033), it attempts to disconnect VGA 521 from PCI-E bus 522 using VGA driver 542, but the disconnection fails (step 1034). As a result, a timeout occurs in determining whether the link is down (step 1014, YES), and the processes from step 1016 onwards are performed, forcing BMC 511 to be reset.

その後、割り込み処理ルーチン541からOS532に対する割り込み要求が出力された場合(ステップ1023)、OS532は、VGAドライバ542を用いて、VGA521をPCI-Eバス522に組み込もうとする。しかし、VGA521の切り離しが行われていないため、OS532は、VGA521の組み込みに失敗する(ステップ1035)。 After that, when an interrupt request is output from the interrupt processing routine 541 to the OS 532 (step 1023), the OS 532 attempts to incorporate the VGA 521 into the PCI-E bus 522 using the VGA driver 542. However, because the VGA 521 has not been detached, the OS 532 fails to incorporate the VGA 521 (step 1035).

図2の情報処理装置201の構成は一例に過ぎず、情報処理装置201の用途又は条件に応じて一部の構成要素を省略又は変更してもよい。図4のサーバシステムの構成は一例に過ぎず、サーバシステムの用途又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、サーバシステムは、複数のサーバを含んでいてもよく、テープ装置等の他の装置を含んでいてもよい。 The configuration of the information processing device 201 in FIG. 2 is merely an example, and some of the components may be omitted or changed depending on the use or conditions of the information processing device 201. The configuration of the server system in FIG. 4 is merely an example, and some of the components may be omitted or changed depending on the use or conditions of the server system. For example, the server system may include multiple servers, and may also include other devices such as a tape device.

図1のサーバ101及び図5のサーバ401の構成は一例に過ぎず、サーバシステムの構成又は条件に応じて一部の構成要素を省略又は変更してもよい。例えば、図5のサーバ401がRAID装置402と通信しない場合は、通信回路516を省略することができる。 The configurations of server 101 in FIG. 1 and server 401 in FIG. 5 are merely examples, and some components may be omitted or changed depending on the configuration or conditions of the server system. For example, if server 401 in FIG. 5 does not communicate with RAID device 402, communication circuit 516 can be omitted.

図3及び図7A~図10Dのフローチャートは一例に過ぎず、サーバシステムの構成又は条件に応じて一部の処理を省略又は変更してもよい。図6に示したBMC511の復旧処理は一例に過ぎず、サーバシステムの構成又は条件に応じて一部の処理を省略又は変更してもよい。 The flowcharts in Figures 3 and 7A to 10D are merely examples, and some of the processes may be omitted or changed depending on the configuration or conditions of the server system. The recovery process of BMC 511 shown in Figure 6 is merely an example, and some of the processes may be omitted or changed depending on the configuration or conditions of the server system.

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。 Although the disclosed embodiments and their advantages have been described in detail, it will be understood that those skilled in the art may make various modifications, additions, and omissions without departing from the scope of the present invention as expressly set forth in the claims.

図1乃至図10Dを参照しながら説明した実施形態に関し、さらに以下の付記を開示する。
(付記1)
情報処理を行う情報処理装置であって、
画像処理を行う画像処理部を含み、前記情報処理装置を管理する管理部と、
前記管理部を監視し、前記管理部の異常を検出した場合、異常検出信号を出力する監視部と、
前記情報処理を行い、前記監視部から前記異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、前記管理部を再起動する情報処理部と、
を備えることを特徴とする情報処理装置。
(付記2)
前記情報処理部は、第1プログラム及び第2プログラムを実行し、
前記監視部は、前記第1プログラムに対する第1割り込み要求を、前記異常検出信号として前記情報処理部へ出力し、
前記情報処理部は、前記第1割り込み要求に基づいて、前記第2プログラムに対する第2割り込み要求を生成し、前記第2割り込み要求に基づいて前記画像処理部を切り離すことを特徴とする付記1記載の情報処理装置。
(付記3)
前記監視部は、前記第1割り込み要求を出力した後、前記第1プログラムに対する第3割り込み要求を前記情報処理部へ出力し、
前記情報処理部は、前記第3割り込み要求に基づいて、前記情報処理部と前記画像処理部との間の通信状態をチェックし、前記通信状態が通信不可である場合、前記管理部を再起動することを特徴とする付記2記載の情報処理装置。
(付記4)
前記第1プログラムは、基本入出力システムであり、前記第2プログラムは、オペレーティングシステムであることを特徴とする付記2又は3記載の情報処理装置。
(付記5)
前記監視部は、問合せ信号を前記管理部へ送信し、所定期間内に前記管理部から応答信号を受信しない場合、前記管理部の異常が発生したと判定して、前記異常検出信号を出力することを特徴とする付記1乃至4の何れか1項に記載の情報処理装置。
(付記6)
情報処理を行い、
画像処理を行う画像処理部を含み、情報処理装置を管理する管理部が、監視部により監視され、前記監視部により前記管理部の異常が検出されて異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、
前記管理部を再起動する、
処理をプロセッサが実行することを特徴とする復旧方法。
(付記7)
前記情報処理を行う処理は、第1プログラム及び第2プログラムを実行する処理を含み、
前記監視部は、前記第1プログラムに対する第1割り込み要求を、前記異常検出信号として出力し、
前記画像処理部を切り離す処理は、
前記第1割り込み要求に基づいて、前記第2プログラムに対する第2割り込み要求を生成する処理と、
前記第2割り込み要求に基づいて前記画像処理部を切り離す処理とを含むことを特徴とする付記6記載の復旧方法。
(付記8)
前記監視部は、前記第1割り込み要求を出力した後、前記第1プログラムに対する第3割り込み要求を出力し、
前記プロセッサは、前記第3割り込み要求に基づいて、前記プロセッサと前記画像処理部との間の通信状態をチェックする処理をさらに実行し、
前記管理部を再起動する処理は、前記通信状態が通信不可である場合、前記管理部を再起動する処理を含むことを特徴とする付記7記載の復旧方法。
(付記9)
前記第1プログラムは、基本入出力システムであり、前記第2プログラムは、オペレーティングシステムであることを特徴とする付記7又は8記載の復旧方法。
(付記10)
前記監視部は、問合せ信号を前記管理部へ送信し、所定期間内に前記管理部から応答信号を受信しない場合、前記管理部の異常が発生したと判定して、前記異常検出信号を出力することを特徴とする付記6乃至9の何れか1項に記載の復旧方法。
The following notes are further disclosed regarding the embodiment described with reference to FIGS. 1 to 10D.
(Appendix 1)
An information processing device for processing information,
a management unit that includes an image processing unit that performs image processing and manages the information processing device;
a monitoring unit that monitors the management unit and outputs an abnormality detection signal when an abnormality is detected in the management unit;
an information processing unit that performs the information processing and, when the abnormality detection signal is output from the monitoring unit, separates the image processing unit based on the abnormality detection signal and restarts the management unit;
An information processing device comprising:
(Appendix 2)
The information processing unit executes a first program and a second program,
the monitoring unit outputs a first interrupt request for the first program to the information processing unit as the abnormality detection signal;
2. The information processing device according to claim 1, wherein the information processing unit generates a second interrupt request for the second program based on the first interrupt request, and separates the image processing unit based on the second interrupt request.
(Appendix 3)
after outputting the first interrupt request, the monitoring unit outputs a third interrupt request for the first program to the information processing unit;
The information processing device according to claim 2, characterized in that the information processing unit checks the communication status between the information processing unit and the image processing unit based on the third interrupt request, and if the communication status is not communication possible, restarts the management unit.
(Appendix 4)
4. The information processing apparatus according to claim 2, wherein the first program is a basic input/output system, and the second program is an operating system.
(Appendix 5)
The information processing device described in any one of appendices 1 to 4, characterized in that the monitoring unit sends an inquiry signal to the management unit, and if it does not receive a response signal from the management unit within a specified period of time, it determines that an abnormality has occurred in the management unit and outputs the abnormality detection signal.
(Appendix 6)
Processing information,
a management unit including an image processing unit for performing image processing and for managing an information processing device, the management unit being monitored by a monitoring unit, and when an abnormality in the management unit is detected by the monitoring unit and an abnormality detection signal is output, the image processing unit is separated based on the abnormality detection signal;
Restart the management unit.
A recovery method, comprising the steps of: executing a process by a processor;
(Appendix 7)
the information processing includes a process of executing a first program and a second program,
the monitoring unit outputs a first interrupt request to the first program as the abnormality detection signal;
The process of separating the image processing unit includes:
generating a second interrupt request for the second program based on the first interrupt request;
and isolating the image processing unit based on the second interrupt request.
(Appendix 8)
the monitoring unit outputs a third interrupt request to the first program after outputting the first interrupt request;
The processor further executes a process of checking a communication state between the processor and the image processing unit based on the third interrupt request;
8. The recovery method according to claim 7, wherein the process of restarting the management unit includes a process of restarting the management unit when the communication state is communication impossible.
(Appendix 9)
9. The recovery method according to claim 7 or 8, wherein the first program is a basic input/output system, and the second program is an operating system.
(Appendix 10)
The recovery method according to any one of appendices 6 to 9, characterized in that the monitoring unit sends an inquiry signal to the management unit, and if it does not receive a response signal from the management unit within a specified period of time, it determines that an abnormality has occurred in the management unit and outputs the abnormality detection signal.

101、401 サーバ
111、511 BMC
112、512 チップセット
113、513 CPU
121、521 VGA
122、522 PCI-Eバス
131、531 BIOS
132、532 OS
141、542 VGAドライバ
201 情報処理装置
211 管理部
212 監視部
213 情報処理部
221 画像処理部
401 サーバ
402 RAID装置
514 監視回路
515 メモリ
516 通信回路
541 割り込み処理ルーチン
101, 401 Server 111, 511 BMC
112, 512 Chipset 113, 513 CPU
121, 521 VGA
122, 522 PCI-E bus 131, 531 BIOS
132,532 OS
141, 542 VGA driver 201 Information processing device 211 Management unit 212 Monitoring unit 213 Information processing unit 221 Image processing unit 401 Server 402 RAID device 514 Monitoring circuit 515 Memory 516 Communication circuit 541 Interrupt processing routine

Claims (6)

情報処理を行う情報処理装置であって、
画像処理を行う画像処理部を含み、前記情報処理装置を管理する管理部と、
前記管理部を監視し、前記管理部の異常を検出した場合、異常検出信号を出力する監視部と、
前記情報処理を行い、前記監視部から前記異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、前記管理部を再起動する情報処理部と、
を備えることを特徴とする情報処理装置。
An information processing device for processing information,
a management unit that includes an image processing unit that performs image processing and manages the information processing device;
a monitoring unit that monitors the management unit and outputs an abnormality detection signal when an abnormality is detected in the management unit;
an information processing unit that performs the information processing and, when the abnormality detection signal is output from the monitoring unit, separates the image processing unit based on the abnormality detection signal and restarts the management unit;
An information processing device comprising:
前記情報処理部は、第1プログラム及び第2プログラムを実行し、
前記監視部は、前記第1プログラムに対する第1割り込み要求を、前記異常検出信号として前記情報処理部へ出力し、
前記情報処理部は、前記第1割り込み要求に基づいて、前記第2プログラムに対する第2割り込み要求を生成し、前記第2割り込み要求に基づいて前記画像処理部を切り離すことを特徴とする請求項1記載の情報処理装置。
The information processing unit executes a first program and a second program,
the monitoring unit outputs a first interrupt request for the first program to the information processing unit as the abnormality detection signal;
2 . The information processing apparatus according to claim 1 , wherein the information processing section generates a second interrupt request for the second program based on the first interrupt request, and separates the image processing section based on the second interrupt request.
前記監視部は、前記第1割り込み要求を出力した後、前記第1プログラムに対する第3割り込み要求を前記情報処理部へ出力し、
前記情報処理部は、前記第3割り込み要求に基づいて、前記情報処理部と前記画像処理部との間の通信状態をチェックし、前記通信状態が通信不可である場合、前記管理部を再起動することを特徴とする請求項2記載の情報処理装置。
after outputting the first interrupt request, the monitoring unit outputs a third interrupt request for the first program to the information processing unit;
3. The information processing device according to claim 2, wherein the information processing unit checks the communication status between the information processing unit and the image processing unit based on the third interrupt request, and if the communication status is communication impossible, restarts the management unit.
前記第1プログラムは、基本入出力システムであり、前記第2プログラムは、オペレーティングシステムであることを特徴とする請求項2又は3記載の情報処理装置。 The information processing device according to claim 2 or 3, characterized in that the first program is a basic input/output system, and the second program is an operating system. 前記監視部は、問合せ信号を前記管理部へ送信し、所定期間内に前記管理部から応答信号を受信しない場合、前記管理部の異常が発生したと判定して、前記異常検出信号を出力することを特徴とする請求項1乃至4の何れか1項に記載の情報処理装置。 The information processing device according to any one of claims 1 to 4, characterized in that the monitoring unit transmits an inquiry signal to the management unit, and if it does not receive a response signal from the management unit within a predetermined period of time, it determines that an abnormality has occurred in the management unit and outputs the abnormality detection signal. 情報処理を行い、
画像処理を行う画像処理部を含み、情報処理装置を管理する管理部が、監視部により監視され、前記監視部により前記管理部の異常が検出されて異常検出信号が出力された場合、前記異常検出信号に基づいて前記画像処理部を切り離し、
前記管理部を再起動する、
処理をプロセッサが実行することを特徴とする復旧方法。
Processing information,
a management unit including an image processing unit for performing image processing and for managing an information processing device, the management unit being monitored by a monitoring unit, and when an abnormality in the management unit is detected by the monitoring unit and an abnormality detection signal is output, the image processing unit is separated based on the abnormality detection signal;
Restart the management unit.
A recovery method, comprising the steps of: executing a process by a processor;
JP2021093594A 2021-06-03 2021-06-03 Information processing device and recovery method Active JP7600878B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021093594A JP7600878B2 (en) 2021-06-03 2021-06-03 Information processing device and recovery method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021093594A JP7600878B2 (en) 2021-06-03 2021-06-03 Information processing device and recovery method

Publications (2)

Publication Number Publication Date
JP2022185768A JP2022185768A (en) 2022-12-15
JP7600878B2 true JP7600878B2 (en) 2024-12-17

Family

ID=84442080

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021093594A Active JP7600878B2 (en) 2021-06-03 2021-06-03 Information processing device and recovery method

Country Status (1)

Country Link
JP (1) JP7600878B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193492A (en) 2008-02-18 2009-08-27 Nec Computertechno Ltd Computer system, information processing method, and program
JP2011128795A (en) 2009-12-16 2011-06-30 Nec Corp Information processor, and recovery method for information processor
JP2011204046A (en) 2010-03-26 2011-10-13 Nec Corp Stall monitoring device, stall monitoring method and program
JP2016076193A (en) 2014-10-09 2016-05-12 東芝テック株式会社 Information processing unit and program
JP2019125339A (en) 2018-01-12 2019-07-25 廣達電脳股▲ふん▼有限公司 System and method for remote system restoration

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193492A (en) 2008-02-18 2009-08-27 Nec Computertechno Ltd Computer system, information processing method, and program
JP2011128795A (en) 2009-12-16 2011-06-30 Nec Corp Information processor, and recovery method for information processor
JP2011204046A (en) 2010-03-26 2011-10-13 Nec Corp Stall monitoring device, stall monitoring method and program
JP2016076193A (en) 2014-10-09 2016-05-12 東芝テック株式会社 Information processing unit and program
JP2019125339A (en) 2018-01-12 2019-07-25 廣達電脳股▲ふん▼有限公司 System and method for remote system restoration

Also Published As

Publication number Publication date
JP2022185768A (en) 2022-12-15

Similar Documents

Publication Publication Date Title
KR101712172B1 (en) The preliminary diagnosis and analysis and recovery system of computer error, and method thereof
US8677177B2 (en) Apparatus, a recovery method and a program thereof
WO2018095107A1 (en) Bios program abnormal processing method and apparatus
CN105357038A (en) Method and system for monitoring virtual machine cluster
CN111538624A (en) Server power supply maintenance method, device, equipment and medium
CN105095001A (en) Virtual machine exception recovery method under distributed environment
US10824517B2 (en) Backup and recovery of configuration files in management device
TW200426571A (en) Policy-based response to system errors occurring during os runtime
KR20040047209A (en) Method for automatically recovering computer system in network and recovering system for realizing the same
CN108737153B (en) Blockchain disaster recovery system, method, server and computer-readable storage medium
JP7600878B2 (en) Information processing device and recovery method
CN120255970B (en) Baseboard management controller starting method, computer equipment, medium and product
US8819483B2 (en) Computing device with redundant, dissimilar operating systems
JP3325785B2 (en) Computer failure detection and recovery method
JP2001331330A (en) Process error detection and recovery system
JP2015106226A (en) Dual system
JP7181467B2 (en) Control method, control program, and information processing device
JP7001236B2 (en) Information processing equipment, fault monitoring method, and fault monitoring computer program
JP7435035B2 (en) PCIe devices, failure recovery methods, programs
JP2002229798A (en) Computer system, its bios management method, and bios management program
CN121029475B (en) Server storage controller recovery methods, electronic devices
KR102917965B1 (en) Network error self-recovery methods and programs, devices, and systems utilizing them
JP7782727B2 (en) Accelerated failure recovery system, accelerated failure recovery method, and accelerated failure recovery program
JP2001175545A (en) Server system, fault diagnosing method, and recording medium
CN116701036A (en) A BMC system automatic detection and repair method and device

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20231024

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240208

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20240906

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20240911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20241009

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20241018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241118

R150 Certificate of patent or registration of utility model

Ref document number: 7600878

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150