JP2785992B2 - Server program management processing method - Google Patents
Server program management processing methodInfo
- Publication number
- JP2785992B2 JP2785992B2 JP2032259A JP3225990A JP2785992B2 JP 2785992 B2 JP2785992 B2 JP 2785992B2 JP 2032259 A JP2032259 A JP 2032259A JP 3225990 A JP3225990 A JP 3225990A JP 2785992 B2 JP2785992 B2 JP 2785992B2
- Authority
- JP
- Japan
- Prior art keywords
- server
- management server
- active
- space management
- dual
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Hardware Redundancy (AREA)
- Multi Processors (AREA)
Description
【発明の詳細な説明】 〔概要〕 マルチプロセッサシステムに展開される現用サーバと
待機サーバとを管理するためのサーバプログラムの管理
処理方式に関し、 現用及び待機サーバにより提供されるサービスの完全
無停止運転を実現することを目的とし、 少なくとも3個以上のプロセッサモジュール上に、現
用及び待機サーバの無停止運転のための管理処理を実行
する双空間管理サーバを展開し、更に、プロセッサモジ
ュールの識別番号の書込領域と、現用双空間管理サーバ
の生存通知情報の書込領域とを持つメモリ部を用意する
構成を採り、かつ、双空間管理サーバは、メモリ部にプ
ロセッサモジュールの識別番号が書き込まれていないと
きに、自サーバを現用双空間管理サーバとして設定する
とともに、メモリ部に自プロセッサモジュールの識別番
号を書き込む現用設定部と、自サーバが現用双空間管理
サーバとして設定されているときに、メモリ部に周期的
に生存通知情報を書き込む生存通知部と、自サーバが現
用双空間管理サーバとして設定されていないときに、メ
モリ部の生存通知情報を監視することで、現用双空間管
理サーバの障害発生を監視して、障害発生を検出すると
きに、自サーバを現用双空間管理サーバとして設定する
とともに、メモリ部に自プロセッサモジュールの識別番
号を書き込む現用監視部と、現用監視部が障害発生を検
出するときに、メモリ部に書き込まれていた更新前のプ
ロセッサモジュールの識別番号により特定される双空間
管理サーバに対して再起動を指示する再起動指示部とを
備えるよう構成する。DETAILED DESCRIPTION OF THE INVENTION [Overview] Regarding a management processing method of a server program for managing an active server and a standby server deployed in a multiprocessor system, completely non-stop operation of services provided by the active and standby servers A dual space management server that executes management processing for non-stop operation of the active and standby servers is deployed on at least three or more processor modules, and the identification number of the processor module is further increased. The memory unit having a writing area and a writing area for the live notification information of the active dual-space management server is prepared, and the identification number of the processor module is written in the memory unit of the dual-space management server. When the server is not present, the server is set as the active dual space management server, and the The active setting unit that writes the identification number of the file, the live notification unit that periodically writes the live notification information to the memory unit when the own server is set as the active dual space management server, When the server is not set as a server, it monitors the survival notification information in the memory unit to monitor the occurrence of a failure in the active dual-space management server. The current monitoring unit writes the identification number of its own processor module in the memory unit, and when the current monitoring unit detects a failure, it is specified by the identification number of the processor module before update written in the memory unit. And a restart instruction unit that instructs the dual space management server to perform a restart.
本発明は、マルチプロセッサシステムに展開される現
用サーバと待機サーバとを管理するためのサーバプログ
ラムの管理処理方式に関し、特に、マルチプロセッサシ
ステムに展開される現用及び待機サーバの完全無停止運
転を実現できるようにするサーバプログラムの管理処理
方式に関するものである。The present invention relates to a management processing method of a server program for managing an active server and a standby server deployed in a multiprocessor system, and in particular, realizes a completely non-stop operation of the active and standby servers deployed in a multiprocessor system. The present invention relates to a management processing method of a server program which enables the server program.
コンピュータシステムでは、汎用的なサービスを提供
するサーバプログラムを用意してデータ処理を実行して
いく構成が採られることになる。そして、このサーバプ
ログラムがダウンすることで、そのサービスを提供でき
なくなることを防止するために、複数の同一のサーバプ
ログラムを用意して、その内の1つを現用サーバとして
機能させ、残りの1つ又は複数のサーバプログラムを待
機サーバとして機能させて、現用サーバがダウンしたと
きには、いずれかの待機サーバに対して制御を渡してい
くことで、サービスの提供の停止を防止していくという
構成を採っている。The computer system adopts a configuration in which a server program for providing a general-purpose service is prepared and data processing is executed. Then, in order to prevent the service from being unable to be provided due to the server program going down, a plurality of identical server programs are prepared, and one of them is made to function as the active server, and the remaining one is used as the active server. One or more server programs function as standby servers, and when the active server goes down, pass control to one of the standby servers to prevent suspension of service provision. I am taking it.
一方、近年、データ処理の分散化を図って信頼性の向
上と高速化を図るために、データ処理システムをマルチ
プロセッサ構成で構成していくことが多くなっている。On the other hand, in recent years, a data processing system is often configured with a multiprocessor configuration in order to improve the reliability and speed of the data processing by decentralizing the data processing.
このようなマルチプロセッサシステムでは、現用サー
バと待機サーバとを別々のプロセッサモジュールに展開
しておき、現用サーバの運用情報等を不揮発メモリに退
避させるとともに、現用サーバの異常発生(サーバクラ
ッシュ)や現用サーバの展開されているプロセッサモジ
ュールの異常発生(PMクラッシュ)により現用サーバの
サービス提供が実行できなくなる場合には、別のプロセ
ッサモジュールに展開されている待機サーバが、その不
揮発メモリから引き継ぎ用の情報を得て、現用サーバの
サービス処理を引き継いでいくという方式を採ってい
る。In such a multiprocessor system, the active server and the standby server are deployed in separate processor modules, the operation information of the active server is saved in a non-volatile memory, and an abnormality (server crash) of the active server or the active server is saved. If the active server cannot be service-provided due to an error (PM crash) in the processor module in which the server is deployed, the standby server deployed in another processor module takes over the information for taking over from its non-volatile memory. And take over the service processing of the active server.
しかしながら、マルチプロセッサシステムにおいて、
このように、現用サーバと待機サーバ自身が無停止化の
処理を実行することは制御が複雑になるとともに、現用
サーバと待機サーバの双方が同時にクラッシュした場合
に対処できないために信頼性の低下をもたらすことにな
る。However, in a multiprocessor system,
As described above, the non-stop processing performed by the active server and the standby server itself complicates the control, and the reliability cannot be reduced because both the active server and the standby server cannot cope with a simultaneous crash. Will bring.
そこで、より信頼性の高い無停止化運転システムを構
築するために、現用及び待機サーバにより提供されるサ
ービスの無停止化運転のための管理処理を行う双空間管
理サーバを用意して、この双空間管理サーバが、現用
サーバや待機サーバの起動処理とその生存監視処理、
待機サーバに対しての引き継ぎ指示処理、新たに待機
サーバとなるサーバに対しての新待機起動処理、それ
まで現用として動作していたサーバの再起動処理等を実
行する構成を採ることが考えられる。しかるに、このよ
うな双空間管理サーバによるサーバプログラムの無停止
化運転を構築するためには、双空間管理サーバ自身の無
停止化の仕組みを構築していく必要があるのである。Therefore, in order to construct a more reliable nonstop operation system, a dual space management server that performs management processing for nonstop operation of services provided by the active and standby servers is prepared. The space management server starts the active server and the standby server and monitors their existence,
It is conceivable to adopt a configuration in which a takeover instruction process for the standby server, a new standby start process for the server to be newly set as the standby server, a restart process for the server that has been operating as a current server, and the like are executed. . However, in order to construct such a non-stop operation of the server program by the dual space management server, it is necessary to construct a non-stop mechanism of the dual space management server itself.
本発明はかかる事情に鑑みてなされたものであって、
現用及び待機サーバにより提供されるサービスの無停止
化運転のための管理処理を行う双空間管理サーバの無停
止化を実現することで、マルチプロセッサシステムに展
開される現用及び待機サーバの完全無停止化運転を実現
できるようにする新たなサーバプログラムの管理処理方
式の提供を目的とするものである。The present invention has been made in view of such circumstances,
Complete non-stop of the active and standby servers deployed in a multiprocessor system by realizing the non-stop of the dual space management server that performs management processing for the operation of the service provided by the active and standby servers without stop It is an object of the present invention to provide a new server program management processing method for realizing a simplified operation.
第1図は本発明の原理構成図である。 FIG. 1 is a diagram illustrating the principle of the present invention.
図中、1は本発明を具備するデータ処理装置であっ
て、マルチプロセッサシステムにより構成されるもの、
2はプロセッサモジュールであって、データ処理装置1
のマルチプロセッサシステムを構成するもの、3はプロ
セッサモジュール2に展開される現用サーバであって、
所定のサービスを提供するもの、4はプロセッサモジュ
ール2に展開される1つ又は複数の待機サーバであっ
て、現用サーバ3のバックアップ用として用意されるも
の、5は少なくとも3個以上のプロセッサモジュール2
に展開される双空間管理サーバである。In the figure, reference numeral 1 denotes a data processing device equipped with the present invention, which is constituted by a multiprocessor system;
2 is a processor module, which is a data processing device 1
3 is an active server deployed in the processor module 2;
A server that provides a predetermined service, 4 is one or a plurality of standby servers that are deployed in the processor module 2 and is provided for backup of the active server 3, and 5 is at least three or more processor modules 2
Is a dual-space management server deployed on
この双空間管理サーバ5は、現用及び待機サーバ3,4
の無停止化運転のための管理処理を実行するサーバ管理
部50と、後述するメモリ部7に対して生存通知を書き込
む生存通知部51と、他のプロセッサモジュール2の双空
間管理サーバ5の生存通知部51により書き込まれるメモ
リ部7の生存通知情報を監視する現用監視部52と、ダウ
ンした他のプロセッサモジュール2の双空間管理サーバ
5のサーバ管理部50に対して再起動を指示する再起動指
示部53と、メモリ部7に対して自プロセッサモジュール
の識別番号を書き込むことで自サーバを現用双空間管理
サーバとして設定する現用設定部54とを備える。The dual space management server 5 includes the active and standby servers 3, 4
Server management unit 50 that executes management processing for non-stop operation of the server, a survival notification unit 51 that writes a survival notification to the memory unit 7 described later, and a survival of the dual space management server 5 of the other processor module 2. A restart that instructs the active monitoring unit 52 that monitors the survival notification information of the memory unit 7 written by the notification unit 51 and the server management unit 50 of the dual space management server 5 of the other processor module 2 that has gone down. An instructing unit 53 and an active setting unit 54 that sets the own server as the active dual space management server by writing the identification number of the own processor module into the memory unit 7 are provided.
7はメモリ部であって、双空間管理サーバ5の運用情
報を管理する運用情報管理部70を持つ。この運用情報管
理部70には、生存通知情報とプロセッサモジュールの識
別番号とが書き込まれることになる。Reference numeral 7 denotes a memory unit having an operation information management unit 70 for managing operation information of the dual space management server 5. In this operation information management unit 70, the survival notification information and the identification number of the processor module are written.
本発明では、図示しないカーネルから起動要求がかか
ると、各プロセッサモジュール2の双空間管理サーバ5
の現用設定部54は、メモリ部7の運用情報管理部70にプ
ロセッサモジュール2の識別番号が書き込まれているの
か否かをチェックする処理を行う。後述することから分
かるように、プロセッサモジュール2の識別番号が書き
込まれている場合には、その識別番号のプロセッサモジ
ュール2に展開される双空間管理サーバ5が現用として
動作していることを意味する。In the present invention, when a boot request is received from a kernel (not shown), the dual space management server 5 of each processor module 2
The active setting unit 54 performs a process of checking whether or not the identification number of the processor module 2 has been written in the operation information management unit 70 of the memory unit 7. As will be understood from the description below, when the identification number of the processor module 2 is written, it means that the dual-space management server 5 deployed in the processor module 2 of the identification number is operating as an active use. .
この起動開始状態では、どのプロセッサモジュール2
の双空間管理サーバ5も現用として設定されていないこ
とから、運用情報管理部70にはプロセッサモジュールの
識別番号が書き込まれていない状態にある。これから、
最初に運用情報管理部70のプロセッサモジュールの識別
番号をチェックした双空間管理サーバ5の現用設定部54
が、現用の双空間管理サーバ5が存在しないことを検出
することになる。In this activation start state, which processor module 2
Since the dual space management server 5 is not set as a working server, the operation information management unit 70 is in a state where the identification number of the processor module is not written. from now on,
First, the active setting unit 54 of the dual space management server 5 that has checked the identification number of the processor module of the operation information management unit 70
Will detect that there is no active dual space management server 5.
現用の双空間管理サーバ5が存在しないことを検出し
た現用設定部54は、自らの双空間管理サーバ5のサーバ
管理部50に対して現用の双空間管理サーバ5として動作
するよう指示するとともに、メモリ部7の運用情報管理
部70に自プロセッサモジュールの識別番号を書き込む。The active setting unit 54 that has detected that there is no active dual-space management server 5 instructs the server management unit 50 of its own dual-space management server 5 to operate as the active dual-space management server 5, and The identification number of the own processor module is written in the operation information management unit 70 of the memory unit 7.
この現用に入ることの指示を受け取ると、そのサーバ
管理部50は、現用及び待機サーバ3,4の管理処理の実行
に入るとともに、自らの双空間管理サーバ5の生存通知
部51に対して生存通知を書き込むように指示し、この指
示を受けて、その生存通知部51は、運用情報管理部70に
対して周期的に生存状態にあることを書き込むよう処理
する。そして、この運用情報管理部70に書き込まれる生
存通知を受けて、他のプロセッサモジュール2の双空間
管理サーバ5の現用監視部52は、現用として動作する双
空間管理サーバ5の生存状態の監視処理に入る。このよ
うにして、マルチプロセッサシステムが起動されると、
いずれか1つの双空間管理サーバ5が現用として動作す
るようになるとともに、残りの少なくとも2個以上の双
空間管理サーバ5が待機として動作することになる。Upon receiving the instruction to enter the active mode, the server management section 50 starts to execute the management processing of the active and standby servers 3 and 4 and alives to the liveness notification section 51 of its own dual space management server 5. An instruction is given to write a notification, and in response to the instruction, the survival notification unit 51 performs a process to periodically write to the operation information management unit 70 that it is alive. Then, in response to the survival notification written to the operation information management unit 70, the active monitoring unit 52 of the dual space management server 5 of the other processor module 2 monitors the live state of the dual space management server 5 operating as the active. to go into. Thus, when the multiprocessor system is started,
Any one of the dual space management servers 5 will operate as the active one, and the remaining at least two dual space management servers 5 will operate as the standby.
現用として動作する双空間管理サーバ5のサーバ管理
部50に異常が発生することで、現用及び待機サーバ3,4
の管理処理が実行できない状態になると、その双空間管
理サーバ5の生存通知部51は、運用情報管理部70に対し
て生存通知の書込処理を中止する。この書込処理の中止
を受けて、最初にこの状態を検出する他のプロセッサモ
ジュール2の現用監視部52は、自らの双空間管理サーバ
5のサーバ管理部50に対して現用の双空間管理サーバ5
として動作するよう指示するとともに、メモリ部7の運
用情報管理部70に自プロセッサモジュールの識別番号を
書き込む。そして、この現用に入ることの指示に従っ
て、そのサーバ管理部50は、現用及び待機サーバ3,4の
管理処理の実行に入る。この処理に従って、現用及び待
機サーバ3,4により提供されるサービスの無停止化運転
が実現されることになる。When an error occurs in the server management unit 50 of the dual space management server 5 that operates as the active server, the active and standby servers 3 and 4 are activated.
When the management processing of the two-space management server 5 cannot be executed, the survival notification unit 51 of the dual-space management server 5 stops writing the survival notification to the operation information management unit 70. In response to the suspension of the write processing, the active monitoring unit 52 of the other processor module 2 which first detects this state sends the active dual space management server to the server management unit 50 of its own dual space management server 5. 5
And writes the identification number of its own processor module in the operation information management unit 70 of the memory unit 7. Then, in accordance with the instruction to enter the active server, the server management unit 50 starts executing the management processing of the active and standby servers 3 and 4. According to this processing, nonstop operation of the service provided by the active and standby servers 3 and 4 is realized.
この現用に転じたサーバ管理部50は、自らの双空間管
理サーバ5の生存通知部51に対して生存通知を書き込む
ように指示し、この指示を受けて、その生存通知部51
は、運用情報管理部70に対して周期的に生存状態にある
ことを書き込むよう処理し、この書き込まれる生存通知
を受けて、他のプロセッサモジュール2の双空間管理サ
ーバ5の現用監視部52は、現用に転じた双空間管理サー
バ5のダウンに備えることになる。The server management unit 50 that has turned to the current operation instructs the survival notification unit 51 of its own dual space management server 5 to write a survival notification, and upon receiving this instruction, the survival notification unit 51
Processes the operation information management unit 70 to periodically write that it is alive, and upon receiving the written alive notification, the active monitoring unit 52 of the dual space management server 5 of the other processor module 2 , In preparation for the downtime of the dual space management server 5 which has been turned to the current use.
そして、この現用に転じた双空間管理サーバ5の再起
動指示部53は、メモリ部7の運用情報管理部70に書き込
まれていた更新前のプロセッサモジュールの識別番号に
より特定される双空間管理サーバ5のサーバ管理部50
(それまで現用として動作していたもの)に対して再起
動処理を実行していくことで、そのサーバ管理部50の再
生を図って、常に、少なくとも2個以上の双空間管理サ
ーバ5が待機状態にあるよう処理する。この処理によ
り、現用として動作している双空間管理サーバ5に異常
が発生し、かつ待機として選択された双空間管理サーバ
5に同時に異常が発生することがあっても、少なくとも
1個の双空間管理サーバ5が待機として残されているの
で、現用及び待機サーバ3,4の運転が停止されるような
ことは起こらないのである。Then, the restart instructing unit 53 of the dual space management server 5 that has been turned to the current use is the dual space management server specified by the identification number of the processor module before update written in the operation information management unit 70 of the memory unit 7. 5 server management unit 50
The server management unit 50 is regenerated by executing the restart process for (the one that has been operating as before) so that at least two or more dual space management servers 5 are always on standby. Process to be in state. By this processing, even if an abnormality occurs in the dual-space management server 5 that is operating as a working server and an abnormality occurs simultaneously in the dual-space management server 5 that is selected as a standby, at least one dual-space management server 5 can be used. Since the management server 5 is left on standby, the operation of the active and standby servers 3 and 4 does not stop.
以下、実施例に従って本発明を詳細に説明する。 Hereinafter, the present invention will be described in detail with reference to examples.
第2図に、本発明の一実施例を図示する。図中、 第1図で説明したものと同じものについては同一の記
号で示してある。6は各プロセッサモジュール2に展開
される核プログラムであるところのカーネル、7aは第1
図のメモリ部7に対応する不揮発メモリ、71は第1図の
運用情報管理部70を構成するプロセッサ番号格納部であ
って、現用の双空間管理サーバ5を展開するプロセッサ
モジュール2のプロセッサ番号を格納するもの、72は第
1図の運用情報管理部70を構成するカウンタ部であっ
て、現用の双空間管理サーバ5が歩進する計数値を書き
込むものである。ここで、システムの起動時には、プロ
セッサ番号格納部71には、初期値として存在しないプロ
セッサ番号がセットされるとともに、カウンタ部72に
は、初期値として“0"がセットされることになる。FIG. 2 shows an embodiment of the present invention. In the figure, the same components as those described in FIG. 1 are indicated by the same symbols. Reference numeral 6 denotes a kernel which is a nuclear program developed in each processor module 2;
A non-volatile memory 71 corresponding to the memory unit 7 shown in the figure is a processor number storage unit constituting the operation information management unit 70 shown in FIG. 1, and stores the processor number of the processor module 2 which deploys the active dual space management server 5. A counter 72 stores the operation information management unit 70 shown in FIG. 1, and is used to write a count value by which the active dual space management server 5 advances. Here, when the system is started, a processor number that does not exist is set as an initial value in the processor number storage 71, and “0” is set as an initial value in the counter 72.
この実施例では、マルチプロセッサシステムを構成す
る全てのプロセッサモジュール2に、サーバプログラム
(現用サーバ3と待機サーバ4)が展開されるととも
に、この現用及び待機サーバ3,4の無停止化運転のため
の管理処理を実行する双空間管理サーバ5が展開される
ものを示してある。プロセッサモジュール2の個数に余
裕がある場合には、双空間管理サーバ5を展開するプロ
セッサモジュール2を現用及び待機サーバ3,4を展開す
るプロセッサモジュール2と別構成にすることが可能で
あるが、この構成を採る場合にあっても、双空間管理サ
ーバ5の複合的なクラッシュに対応するために、少なく
とも3個以上のプロセッサモジュール2上に双空間管理
サーバ5を展開する構成が採られることになる。In this embodiment, a server program (the active server 3 and the standby server 4) is deployed in all the processor modules 2 constituting the multiprocessor system, and the non-stop operation of the active and standby servers 3 and 4 is performed. Is shown in which the dual space management server 5 that executes the management process of FIG. If the number of the processor modules 2 has a margin, the processor module 2 that deploys the dual space management server 5 can be configured differently from the processor module 2 that deploys the active and standby servers 3 and 4. Even in the case of adopting this configuration, a configuration is adopted in which the dual space management server 5 is deployed on at least three or more processor modules 2 in order to cope with a compound crash of the dual space management server 5. Become.
このように用意される双空間管理サーバ5は、第1図
でも説明したように、現用及び待機サーバ3,4の無停止
化運転のための管理処理を実行するサーバプログラムと
して機能するものであって、具体的には、現用サーバ
3や待機サーバ4の起動処理とその生存監視処理、待
機サーバ4に対しての引き継ぎ指示処理、新たに待機
サーバ4となるサーバに対しての新待機起動処理、そ
れまで現用として動作していたサーバの再起動処理等の
処理を実行する。The dual space management server 5 prepared as described above functions as a server program for executing management processing for nonstop operation of the active and standby servers 3 and 4, as described in FIG. More specifically, the activation processing of the active server 3 and the standby server 4 and their survival monitoring processing, the takeover instruction processing to the standby server 4, the new standby activation processing to the server to be the new standby server 4 Then, a process such as a restart process of the server which has been operating as a current server is executed.
次に、各プロセッサモジュール2の双空間管理サーバ
5が実行する第3図に示すフローチャートに従って、本
発明の動作処理について詳細に説明する。Next, the operation processing of the present invention will be described in detail with reference to the flowchart shown in FIG. 3 executed by the dual space management server 5 of each processor module 2.
先ず最初に、ステップ1で、システムIPLが実行され
る。このようにしてIPLが実行されると、各プロセッサ
モジュール2のカーネル6は、次にステップ2で、自ら
のプロセッサモジュール2の双空間管理サーバ5を起動
する処理を行う。このようにして起動されると、各プロ
セッサモジュール2の双空間管理サーバ5は、続くステ
ップ3で、プロセッサ番号格納部71を参照することで、
現用として設定されている双空間管理サーバ5があるの
か否かをチェックする。システムの起動時には、上述し
たようなプロセッサ番号格納部71には初期値として存在
しないプロセッサ番号が書き込まれている。これから、
最初にプロセッサ番号格納部71を参照した双空間管理サ
ーバ5が、現用の双空間管理サーバ5が存在しないこと
を検出することになる。First, in step 1, a system IPL is performed. When the IPL is executed in this manner, the kernel 6 of each processor module 2 performs a process of activating the dual space management server 5 of its own processor module 2 in step 2. When started in this way, the dual space management server 5 of each processor module 2 refers to the processor number storage 71 in the subsequent step 3 to
It is checked whether or not there is a dual space management server 5 that is set as the working space. When the system is started, a nonexistent processor number is written in the processor number storage 71 as described above as an initial value. from now on,
First, the dual space management server 5 referring to the processor number storage unit 71 detects that there is no active dual space management server 5.
この現用の双空間管理サーバ5が存在しないことを最
初に検出した双空間管理サーバ5は、ステップ4に進ん
で、現用の双空間管理サーバ5として動作すべく初期化
処理を実行し、この初期化処理に従って現用とされた双
空間管理サーバ5は、現用及び待機サーバ3,4の無停止
化運転のための管理処理の実行に入るよう処理する。そ
して、続くステップ5で、プロセッサ番号格納部71に対
して自らが展開されているプロセッサモジュール2のプ
ロセッサ番号を格納するとともに、所定の周期に従って
カウンタ部72の計数値を歩進していくことで、不揮発メ
モリ7aに対して現用として動作していることを表示する
生存情報の書き込みのループ処理に入る。The bi-spatial management server 5, which first detects that the active bi-spatial management server 5 does not exist, proceeds to step 4 and executes an initialization process to operate as the active bi-spatial management server 5. The dual space management server 5, which has been made active according to the conversion processing, performs processing to start the execution of management processing for nonstop operation of the active and standby servers 3, 4. Then, in the following step 5, the processor number of the processor module 2 in which it is deployed is stored in the processor number storage unit 71, and the count value of the counter unit 72 is incremented according to a predetermined cycle. Then, the process enters a loop process of writing survival information indicating that the nonvolatile memory 7a is currently operating.
一方、ステップ3の処理において、現用として設定さ
れた双空間管理サーバ5より遅れてプロセッサ番号格納
部71の参照を行う双空間管理サーバ5は、ステップ5の
処理により格納されるプロセッサ番号に従って現用の双
空間管理サーバ5が存在することを検出することになる
ので、ステップ6に進んで、待機の双空間管理サーバ5
として動作すべく初期化処理を実行し、この初期化処理
に従って待機とされた双空間管理サーバ5は、現用とし
て動作している双空間管理サーバ5のバックアップ処理
に入るよう動作する。このようにして、マルチプロセッ
サシステムが起動されると、いずれか1つの双空間管理
サーバ5が現用として動作するようになるとともに、残
りのすべての双空間管理サーバ5(少なくとも2個以上
は存在する)が待機して動作することになる。そして、
この待機の双空間管理サーバ5は、続くステップ7にお
いて、所定の周期に従ってカウンタ部72の計数値を参照
することで、現用として動作している双空間管理サーバ
5が生存しているか否かを監視するループ処理に入る。On the other hand, in the processing of step 3, the twin space management server 5, which refers to the processor number storage unit 71 later than the dual space management server 5 set as current, uses the current space according to the processor number stored in the processing of step 5. Since the presence of the dual space management server 5 is detected, the process proceeds to step 6 and the standby dual space management server 5
The dual space management server 5 that has been on standby according to this initialization process operates to enter the backup process of the dual space management server 5 that is currently operating. In this way, when the multiprocessor system is started, one of the dual space management servers 5 operates as an active server, and all the remaining dual space management servers 5 (at least two or more exist). ) Will wait and work. And
In the subsequent step 7, the standby dual space management server 5 refers to the count value of the counter unit 72 according to a predetermined cycle to determine whether the active dual space management server 5 is alive or not. Enter the monitoring loop process.
現用として動作する双空間管理サーバ5に異常が発生
すると、ステップ5の処理が実行されなくなるので、カ
ウンタ部72の計数値は一定の値に止まって歩進されなく
なる。これから、ステップ7の処理に従って、最初にこ
のカウンタ部72の計数値の歩進の停止を検出する待機の
双空間管理サーバ5は、ステップ8に進んで、それまで
動作していた現用の双空間管理サーバ5の処理を引き継
いで新たな現用の双空間管理サーバ5として動作するこ
とで、現用及び待機サーバ3,4の無停止化運転のための
管理処理の実行に入るよう処理し、更にステップ5に進
んで、プロセッサ番号格納部71に対して自らが展開され
ているプロセッサモジュール2のプロセッサ番号を格納
するとともに、新たに自らがカウンタ部72の計数値を歩
進していく処理を実行することで、不揮発メモリ7aに対
して現用として動作していることを表示する生存情報の
書込処理に入るよう処理する。この新たな現用の双空間
管理サーバ5の登録処理に従い、他の待機の双空間管理
サーバ5は、ステップ7の処理において現用の双空間管
理サーバ5の生存を検出していくことになるので、その
まま現用として動作している双空間管理サーバ5が生存
しているか否かを監視するループ処理を続行していくこ
とになる。If an abnormality occurs in the dual-space management server 5 that is operating as a working device, the process of step 5 is not performed, so that the count value of the counter unit 72 stops at a constant value and does not advance. From now on, according to the processing of step 7, the standby dual space management server 5, which first detects the stop of the increment of the count value of the counter unit 72, proceeds to step 8, and operates the current dual space By taking over the processing of the management server 5 and operating as a new active dual-space management server 5, processing is performed to execute the management processing for the non-stop operation of the active and standby servers 3, 4, and Proceeding to step 5, the processor number of the processor module 2 in which the processor module 2 is loaded is stored in the processor number storage section 71, and a new step of incrementing the count value of the counter section 72 is executed. In this way, a process is started to write the survival information indicating that the nonvolatile memory 7a is currently operating. In accordance with the registration processing of the new active dual-space management server 5, the other standby dual-space management servers 5 will detect the survival of the active dual-space management server 5 in the processing of step 7, so that The loop processing for monitoring whether or not the dual space management server 5 operating as it is still alive is continued.
現用となった双空間管理サーバ5の展開されるプロセ
ッサモジュール2のカーネル6は、次に、ステップ9
で、ダウンした双空間管理サーバ5(それまで現用とし
て動作していた双空間管理サーバ5である)のダウンの
原因が、双空間管理サーバ5のサーバクラッシュにある
のか、あるいはプロセッサモジュール2のPMクラッシュ
にあるのかを判断する。The kernel 6 of the processor module 2 to be deployed in the active dual-space management server 5 then proceeds to step 9
Then, is the cause of the down of the double space management server 5 (which is the dual space management server 5 which has been operating as the current one) being caused by the server crash of the double space management server 5 or the PM of the processor module 2? Determine if you are in a crash.
このステップ9の判断で、サーバクラッシュによるも
のと判断するときには、ステップ10に進んで、現用とな
った双空間管理サーバ5はダウンした双空間管理サーバ
5を再起動し、そして、この再起動された双空間管理サ
ーバ5は、ステップ3を介してステップ6に進むこと
で、待機の双空間管理サーバ5として動作するよう処理
されることになる。一方、ステップ9の判断で、PMクラ
ッシュによるものと判断するときには、ステップ1に戻
って、システムIPLと同様の処理であるPM初期化処理を
実行し、続くステップ2の処理に従ってカーネル6によ
り双空間管理サーバ5が再起動され、ステップ3を介し
てステップ6に進むことで、待機の双空間管理サーバ5
として動作するよう処理されることになる。If it is determined in step 9 that it is due to a server crash, the process proceeds to step 10, in which the active twin space management server 5 restarts the down dual space management server 5, and then restarts. The bi-spatial management server 5 proceeds to step 6 via step 3 and is processed to operate as a standby bi-spatial management server 5. On the other hand, when it is determined in step 9 that the crash is caused by the PM crash, the process returns to step 1 to execute the PM initialization process, which is the same process as in the system IPL. By restarting the management server 5 and proceeding to step 6 via step 3, the standby dual space management server 5
Will be processed.
このように、本発明によれば、現用及び待機サーバ3,
4の管理処理を実行する双空間管理サーバ5が、現用の
他に常に少なくとも2個以上の双空間管理サーバ5が待
機状態として登録されるよう構成されることになる。Thus, according to the present invention, the active and standby servers 3,
The bi-spatial management server 5 that executes the management process 4 is configured such that at least two or more bi-spatial management servers 5 other than the active one are always registered in a standby state.
第4図に、以上に説明した本発明の処理内容を図式化
して示す。FIG. 4 schematically shows the processing contents of the present invention described above.
すなわち、第4図(a)に示すように、カーネル6
は、プロセッサモジュール2の初期化を終了すると対応
する双空間管理サーバ5を起動(図中の)し、この起
動された各双空間管理サーバ5は、プロセッサ番号格納
部71を参照することで現用の双空間管理サーバ5が存在
するか否かを調査し、最初に現用の双空間管理サーバ5
が存在しないことを検出(図中の)した双空間管理サ
ーバ5(この図の例ではPM01の双空間管理サーバ5)
は、プロセッサ番号格納部71に自分のPM番号を書き込ん
だ(図中の)後、自身を現用として初期化(図中の
)する。この後、別のプロセッサモジュール2の双空
間管理サーバ5がカウンタ部72を参照(図中の)する
ことで、現用の双空間管理サーバ5(この図の例ではPM
01の双空間管理サーバ5)が存在することを検出する
と、待機の双空間管理サーバ5として初期化(図中の
)する。That is, as shown in FIG.
Starts the corresponding dual space management server 5 (in the figure) when the initialization of the processor module 2 is completed, and each activated dual space management server 5 refers to the processor number storage unit 71 to make the active It is checked whether or not the dual space management server 5 exists, and first, the current dual space management server 5 is used.
Space management server 5 (in the figure) that detects that there is no (the space management server 5 of PM01 in the example of this figure)
After writing its own PM number in the processor number storage unit 71 (in the figure), it initializes itself (in the figure) as the current working. Thereafter, the dual space management server 5 of another processor module 2 refers to the counter unit 72 (in the figure), and thereby the current dual space management server 5 (PM in the example of this figure).
When the presence of the dual space management server 5) 01 is detected, it is initialized (in the figure) as a standby dual space management server 5.
そして、第4図(b)に示すように、現用として動作
する双空間管理サーバ5(この図の例ではPM01の双空間
管理サーバ5)は、正常動作時にはカウンタ部72の計数
値を歩進(図中の)させ、一方、待機として動作する
双空間管理サーバ5は、このカウンタ部72の計数値の歩
進状態を参照(図中の)することで現用の双空間管理
サーバ5が正常動作しているか否かを監視する。この監
視処理に従い、現用の双空間管理サーバ5がクラッシュ
(図中の)することを検出すると、そのクラッシュを
最初に検出した双空間管理サーバ5(この図の例ではPM
03の双空間管理サーバ5)が、プロセッサ番号格納部71
のプロセッサ番号を自らのものに変更(図中の)し
て、現用として動作するための引き継ぎ処理(図中の
)を行って現用の双空間管理サーバ5として動作に入
る。Then, as shown in FIG. 4 (b), the dual space management server 5 (the dual space management server 5 of PM01 in the example shown in FIG. 4) operating as an active device increments the count value of the counter 72 during normal operation. On the other hand, the bi-spatial management server 5 that operates as a stand-by, refers to the stepped state of the count value of the counter unit 72 (in the drawing), and the current bi-spatial management server 5 operates normally. Monitors whether it is running. In accordance with this monitoring process, when it is detected that the current dual-space management server 5 crashes (in the figure), the dual-space management server 5 (PM in the example of this figure) that first detects the crash.
03 dual space management server 5), the processor number storage 71
Is changed to its own processor number (in the figure), a takeover process (in the figure) for operating as the current working is performed, and the operation starts as the active dual space management server 5.
そして、第4図(c)に示すように、クラッシュリカ
バリの後、サーバクラッシュであるならば、新たに現用
となった双空間管理サーバ5(この図の例ではPM03の双
空間管理サーバ5)が、それまで現用であったプロセッ
サモジュール2の双空間管理サーバ5を再起動(図中の
)し、また、PMクラッシュであるならば、それまで現
用であったプロセッサモジュール2のカーネル6が、そ
の双空間管理サーバ5を再起動(図中の)する。この
後、この再起動された双空間管理サーバ5は、待機の双
空間管理サーバ5として初期化(図中の)されること
になる。Then, as shown in FIG. 4 (c), if a server crash occurs after the crash recovery, the newly used dual space management server 5 (in this example, the dual space management server 5 of PM03). Restarts the dual space management server 5 of the currently active processor module 2 (in the figure), and if a PM crash occurs, the kernel 6 of the currently active processor module 2 becomes The dual space management server 5 is restarted (in the figure). Thereafter, the restarted twin space management server 5 is initialized (in the figure) as a standby twin space management server 5.
図示実施例について説明したが、本発明はこれに限定
されるものではない。例えば、実施例では、同一のプロ
セッサモジュール2上に、現用及び待機サーバ3,4と双
空間管理サーバ5とを展開する構成のものを開示した
が、本発明はこれに限られることなく、これらが別々の
プロセッサモジュール2に展開されるものであってもよ
いのである。Although the illustrated embodiment has been described, the present invention is not limited to this. For example, in the embodiment, the configuration in which the active and standby servers 3 and 4 and the dual space management server 5 are deployed on the same processor module 2 is disclosed. However, the present invention is not limited thereto. May be developed in separate processor modules 2.
以上説明したように、本発明によれば、マルチプロセ
ッサシステム上に展開される現用及び待機サーバの管理
処理の実行する双空間管理サーバに異常が発生しても、
常に少なくとも1個の双空間管理サーバが待機として残
されるよう構成されるものであることから、現用及び待
機サーバの管理処理が停止することがない。これから、
マルチプロセッサシステムに展開される現用及び待機サ
ーバにより提供されるサービスの無停止運転が実現され
ることになる。As described above, according to the present invention, even if an abnormality occurs in the dual space management server that executes the management processing of the active and standby servers deployed on the multiprocessor system,
Since at least one dual space management server is always configured to be left as a standby, the management processing of the active and standby servers does not stop. from now on,
The non-stop operation of the service provided by the active and standby servers deployed in the multiprocessor system will be realized.
第1図は本発明の原理構成図、 第2図は本発明の一実施例、 第3図は双空間管理サーバが実行するフローチャート、 第4図は本発明の処理の説明図である。 図中、1はデータ処理装置、2はプロセッサモジュー
ル、3は現用サーバ、4は待機サーバ、5は双空間管理
サーバ、6はカーネル、7はメモリ部、7aは不揮発メモ
リ、50はサーバ管理部、51は生存通知部、52は現用監視
部、53は再起動指示部、70は運用情報管理部、71はプロ
セッサ番号格納部、72はカウンタ部である。FIG. 1 is a block diagram of the principle of the present invention, FIG. 2 is an embodiment of the present invention, FIG. 3 is a flowchart executed by a dual space management server, and FIG. 4 is an explanatory diagram of the processing of the present invention. In the figure, 1 is a data processing device, 2 is a processor module, 3 is an active server, 4 is a standby server, 5 is a dual space management server, 6 is a kernel, 7 is a memory unit, 7a is a non-volatile memory, and 50 is a server management unit Reference numeral 51 denotes a survival notification unit, 52 denotes an active monitoring unit, 53 denotes a restart instruction unit, 70 denotes an operation information management unit, 71 denotes a processor number storage unit, and 72 denotes a counter unit.
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.6,DB名) G06F 15/177 G06F 15/167──────────────────────────────────────────────────続 き Continued on the front page (58) Field surveyed (Int.Cl. 6 , DB name) G06F 15/177 G06F 15/167
Claims (1)
用サーバ(3)と待機サーバ(4)とを管理するための
サーバプログラムの管理処理方式であって、 少なくとも3個以上のプロセッサモジュール(2)上
に、現用及び待機サーバ(3,4)の無停止運転のための
管理処理を実行する双空間管理サーバ(5)を展開し、
更に、プロセッサモジュールの識別番号の書込領域と、
現用双空間管理サーバの生存通知情報の書込領域とを持
つメモリ部(7)を用意する構成を採り、 かつ、上記双空間管理サーバ(5)は、 上記メモリ部(7)にプロセッサモジュールの識別番号
が書き込まれていないときに、自サーバを現用双空間管
理サーバとして設定するとともに、上記メモリ部(7)
に自プロセッサモジュールの識別番号を書き込む現用設
定部(54)と、 自サーバが現用双空間管理サーバとして設定されている
ときに、上記メモリ部(7)に周期的に生存通知情報を
書き込む生存通知部(51)と、 自サーバが現用双空間管理サーバとして設定されていな
いときに、上記メモリ部(7)の生存通知情報を監視す
ることで、現用双空間管理サーバの障害発生を監視し
て、障害発生を検出するときに、自サーバを現用双空間
管理サーバとして設定するとともに、上記メモリ部
(7)に自プロセッサモジュールの識別番号を書き込む
現用監視部(52)と、 上記現用監視部(52)が障害発生を検出するときに、上
記メモリ部(7)に書き込まれていた更新前のプロセッ
サモジュールの識別番号により特定される双空間管理サ
ーバ(5)に対して再起動を指示する再起動指示部(5
3)とを備えることを、 特徴とするサーバプログラムの管理処理方式。1. A server program management system for managing an active server (3) and a standby server (4) deployed in a multiprocessor system, wherein at least three or more processor modules (2) are provided. Then, a dual space management server (5) for executing management processing for non-stop operation of the active and standby servers (3, 4) is developed,
Further, a writing area for the identification number of the processor module,
A memory unit (7) having an area for writing the survival notification information of the active dual space management server is adopted, and the dual space management server (5) includes a processor module in the memory unit (7). When the identification number is not written, the own server is set as the active dual space management server and the memory unit (7)
An active setting unit (54) for writing the identification number of the own processor module to the server; and an alive notification that periodically writes alive notification information to the memory unit (7) when the own server is set as the active dual space management server. And monitoring the occurrence of a failure in the active dual space management server by monitoring the survival notification information in the memory unit (7) when the own server is not set as the active dual space management server. When detecting the occurrence of a failure, the current monitoring unit (52) that sets its own server as the current dual space management server and writes the identification number of its own processor module into the memory unit (7); When 52) detects the occurrence of a failure, the dual space management server (5) specified by the identification number of the processor module before update written in the memory unit (7) Restart instruction unit that instructs the restart for (5
And 3) a server program management processing method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2032259A JP2785992B2 (en) | 1990-02-13 | 1990-02-13 | Server program management processing method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2032259A JP2785992B2 (en) | 1990-02-13 | 1990-02-13 | Server program management processing method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH03235159A JPH03235159A (en) | 1991-10-21 |
| JP2785992B2 true JP2785992B2 (en) | 1998-08-13 |
Family
ID=12354015
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2032259A Expired - Fee Related JP2785992B2 (en) | 1990-02-13 | 1990-02-13 | Server program management processing method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2785992B2 (en) |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3467750B2 (en) * | 1997-01-17 | 2003-11-17 | 日本電信電話株式会社 | Distributed object processing system |
| JP2007172334A (en) | 2005-12-22 | 2007-07-05 | Internatl Business Mach Corp <Ibm> | Method, system and program for securing redundancy of parallel computing system |
| JP6278602B2 (en) * | 2013-03-05 | 2018-02-14 | 三菱電機株式会社 | High availability system |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS6252907A (en) * | 1985-08-31 | 1987-03-07 | Sony Corp | Magnetically soft thin film |
| JPS63100563A (en) * | 1986-10-16 | 1988-05-02 | Nissin Electric Co Ltd | Faulty processor detecting system |
-
1990
- 1990-02-13 JP JP2032259A patent/JP2785992B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH03235159A (en) | 1991-10-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3072048B2 (en) | Computer system and software failure recovery method for computer system | |
| JP5392594B2 (en) | Virtual machine redundancy system, computer system, virtual machine redundancy method, and program | |
| JP3481737B2 (en) | Dump collection device and dump collection method | |
| JP5183542B2 (en) | Computer system and setting management method | |
| CN118132386B (en) | System crash information storage method, device and computer system | |
| KR20040047209A (en) | Method for automatically recovering computer system in network and recovering system for realizing the same | |
| EP3499373B1 (en) | Method and apparatus for processing process | |
| JP6599725B2 (en) | Information processing apparatus, log management method, and computer program | |
| CN120255970B (en) | Baseboard management controller starting method, computer equipment, medium and product | |
| JP2785992B2 (en) | Server program management processing method | |
| CN120653326A (en) | Control method and device of target object, electronic equipment, medium and product | |
| JP2001101032A (en) | OS monitoring method by controlling between different types of OS | |
| WO2025113286A1 (en) | Fault handling method and device, and readable storage medium | |
| CN116991637B (en) | Operation control method and device, electronic equipment and storage medium of embedded system | |
| JP2002049509A (en) | Data processing system | |
| JP2001101034A (en) | Failure recovery method by controlling between different OSs | |
| CN116662117A (en) | Method, device and storage medium for monitoring linux system based on timer | |
| CN112148531B (en) | A dual-core chip and a method for backing up and restoring its program | |
| JPH05216855A (en) | Multi CPU control system | |
| JPH11175108A (en) | Redundant computer equipment | |
| JPH0534877B2 (en) | ||
| JPS62212865A (en) | Multiprocessor control system | |
| CN119025030A (en) | A log storage method, BMC and computing device | |
| JPH04124735A (en) | System starting system | |
| JP2002189706A (en) | System and method for decentralized initialization of communication device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080529 Year of fee payment: 10 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090529 Year of fee payment: 11 |
|
| LAPS | Cancellation because of no payment of annual fees |