JP3513484B2 - Management system for parallel computer system - Google Patents
Management system for parallel computer systemInfo
- Publication number
- JP3513484B2 JP3513484B2 JP2000368897A JP2000368897A JP3513484B2 JP 3513484 B2 JP3513484 B2 JP 3513484B2 JP 2000368897 A JP2000368897 A JP 2000368897A JP 2000368897 A JP2000368897 A JP 2000368897A JP 3513484 B2 JP3513484 B2 JP 3513484B2
- Authority
- JP
- Japan
- Prior art keywords
- management
- management terminal
- nodes
- terminal device
- processor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Power Sources (AREA)
- Multi Processors (AREA)
Description
【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、並列計算機システ
ムの管理装置に関し、特に、並列計算機システムを構成
する複数のノードのメインプロセッサが動作していない
場合であっても前記複数のノードの保守及び管理を行う
並列計算機システムの管理装置に適用して有効な技術に
関するものである。
【0002】
【従来の技術】従来、複数の計算機で構成される計算機
システムの運用管理方法及びその実施装置について、い
くつかのものが提案されている。
【0003】複数のUNIX(登録商標)マシンのコン
ソールを1台にまとめたときに発生する運用と監視の負
荷増大を防止する複数のUNIXマシンの集中運用およ
び監視コンソールディスプレイについては、特開平6−
214763号公報に記載されている。
【0004】その概要は、複数のUNIXマシンを集中
運用及び管理するサーバーであるセンター・コンソール
に、運用目的別にコマンドの宛先を格納した宛先テーブ
ルを作成しておき、前記宛先テーブルに従ってコマンド
を実行するものである。
【0005】複数の計算機から構成される複合計算機シ
ステムにおいて、単一のシステムコンソールにより接続
する計算機を切り換えて保守及び操作を行った場合の誤
操作を防止する複合計算機システムにおけるコンソール
切替制御方式については、特開平5−120247号公
報に記載されている。
【0006】その概要は、複数の計算機内のサービスプ
ロセッサ同士を切替装置に接続し、前記切替装置にシス
テムコンソールを接続し、前記システムコンソールから
は、計算機を識別する識別子を用いて、メッセージ出力
対象の計算機を順次切り替えていくことにより、複数の
計算機で1台のシステムコンソールを共有する方式であ
り、システムコンソールにより保守及び操作を行う際
に、操作を行おうとしている計算機の識別子と、システ
ムコンソールに接続されている計算機の識別子を比較
し、識別子が一致する場合に操作を実行するものであ
る。
【0007】分散処理システムを構成する各計算機から
のメッセージを集中管理するメッセージ集中管理方式に
ついては、特開平5−20281号公報に記載されてい
る。
【0008】その概要は、ネットワークにて接続された
複数の計算機内で集中管理ノードを決定し、その集中管
理ノードが監視対象ノードの発行する稼働状況メッセー
ジを集中管理する方式である。
【0009】
【発明が解決しようとする課題】本発明者は、前記従来
技術を検討した結果、以下の問題点を見い出した。
【0010】すなわち、前記従来の複数の計算機から成
る計算機システムの管理装置では、管理対象の計算機上
で動作しているネットワークソフトウェアの機能を使用
してた為、管理対象の計算機が動作していない場合やオ
ペレーティングシステムが動作していない場合及びネッ
トワークソフトウェアが動作していない場合には、運用
管理を行えないという問題があった。
【0011】前記従来の複数のUNIXマシンの集中運
用および監視コンソールディスプレイを使用する方法で
は、管理対象となる計算機は、オペレーティングシステ
ムのUNIXが動作していることが前提となる為、オペ
レーティングシステムが動作していない場合には、コン
ソールディスプレイから集中運用および監視ができない
という問題があった。
【0012】前記従来の複合計算機システムにおけるコ
ンソール切替制御方式では、システムコンソールと各々
のサービスプロセッサとの間に切替装置が存在している
為、切替装置なる特別なハードウェアが必要となるとい
う問題があった。
【0013】前記従来のメッセージ集中管理方式では、
複数の計算機から集中管理ノードにメッセージが送られ
てくる為、前記集中管理ノードがシステムダウンとなっ
たときには、メッセージの集中管理が行えないという問
題と、前記メッセージは、ノードが接続されるネットワ
ーク経由で送信されてくる為、各ノードのオペレーティ
ングシステム及びネットワークが起動されていない場
合、集中管理ノードから各ノードの状態を管理すること
が出来ないという問題があった。
【0014】
【0015】
【0016】
【0017】
【0018】
【0019】
【0020】
【0021】
【0022】
【0023】本発明の目的は、並列計算機システムの運
用管理を遠隔地から行うことが可能な技術を提供するこ
とにある。
【0024】本発明の前記並びにその他の目的と新規な
特徴は、本明細書の記述及び添付図面によって明らかに
なるであろう。
【0025】
【課題を解決するための手段】本願において開示される
発明のうち、代表的なものの概要を簡単に説明すれば、
下記のとおりである。
【0026】
【0027】
【0028】
【0029】
【0030】
【0031】
【0032】
【0033】
【0034】
【0035】
【0036】
【0037】
【0038】
【0039】
【0040】
【0041】
【0042】
【0043】
【0044】
【0045】
【0046】
【0047】
【0048】
【0049】
【0050】
【0051】
【0052】
【0053】
【0054】
【0055】
【0056】
【0057】
【0058】
【0059】
【0060】
【0061】
【0062】
【0063】
【0064】
【0065】
【0066】
【0067】
【0068】
【0069】
【0070】
【0071】
【0072】
【0073】
【0074】複数の計算機であるノードを接続した並列
計算機システムを管理する管理端末装置を備えた並列計
算機システムの管理装置において、前記複数のノード
は、当該ノードの主電源により動作し並列処理を実行す
るメインプロセッサと、当該ノードの補助電源により動
作し前記メインプロセッサを管理するシステム制御コマ
ンドを実行するサブプロセッサと、前記補助電源により
動作し前記管理端末装置との通信を行い、前記管理端末
装置から発行されたシステム制御コマンドをもとに制御
データを生成するシステム制御機構と、該システム制御
機構とは異なるネットワークで前記管理端末装置に接続
され、前記管理端末装置の制御下で前記ノードのアプリ
ケーションソフトウェアを管理するLAN制御機構とを
備え、前記管理端末装置は、前記複数のノードの複数の
システム制御機構と通信を行うシステム制御機構と、補
助電源で動作し、特定の信号を入力すると前記管理端末
装置の主電源を投入する電源投入論理と、前記電源投入
論理により主電源が投入されたときに、前記複数のノー
ドのサブプロセッサに、一括または個別に主電源を投入
するシステム制御コマンドを前記システム制御機構経由
で送信する手段とを備え、前記複数のノードの複数のシ
ステム制御機構と前記管理端末装置のシステム制御機構
とを接続して成り、前記複数のノードの複数のメインプ
ロセッサを管理するシステム制御コマンドを前記管理端
末装置から前記複数のノードの複数のシステム制御機構
に送信するシステム制御インタフェースを備えるもので
ある。
【0075】前記の並列計算機システムの管理装置で
は、前記管理端末装置に、補助電源で動作し、特定の信
号を入力すると前記管理端末装置の主電源を投入する電
源投入論理を接続し、前記電源投入論理をネットワーク
や他の通信回線に接続しておく。
【0076】また、前記管理端末装置の主電源が投入さ
れたときに実行されるシステム立ち上げ処理の最後に、
前記複数のノードのサブプロセッサに一括または個別に
主電源を投入するシステム制御コマンドを送信するプロ
グラムを追加しておく。
【0077】次に、前記ネットワークや他の通信回線を
介して、他の端末装置から前記電源投入論理に特定の信
号を送り、前記管理端末装置の主電源を投入する。
【0078】前記管理端末装置の主電源が投入される
と、前記管理端末装置のシステム立ち上げ処理を行った
後、前記複数のノードのサブプロセッサに一括または個
別に主電源を投入するシステム制御コマンドを送信する
プログラムが実行され、前記並列計算機システムの運用
開始を、オペレータが直接前記管理端末装置を操作する
こと無く行うことができる。
【0079】以上の様に、前記並列計算機システムの管
理装置によれば、遠隔地からのアクセスにより管理端末
装置の主電源を投入するので、並列計算機システムの運
用管理を遠隔地から行うことが可能である。
【0080】
【発明の実施の形態】以下、本発明について、実施形態
とともに図面を参照して詳細に説明する。
【0081】なお、実施形態を説明するための全図にお
いて、同一機能を有するものは同一符号を付け、その繰
り返しの説明は省略する。
【0082】(実施形態1)以下に、本発明の並列計算
機システムの管理装置を実施する実施形態1の概略構成
について説明する。
【0083】図1は、本発明の並列計算機システムの管
理装置を実施する実施形態1の概略構成を示す図であ
る。図1において、100a〜100cはノード、10
1は通信処理装置、102a〜102cは通信インタフ
ェース機構、103a〜103cは通信ケーブル、10
4は管理端末装置、105a〜105dはシステム制御
機構、106a〜106dは通信ケーブル、107はネ
ットワーク集線装置、108a〜108dはLAN(L
ocal Area Network)制御機構、10
9a〜109dは通信ケーブル、110はネットワーク
集線装置である。
【0084】図1に示す様に、本実施形態の並列計算機
システムの管理装置は、並列計算機システムを構成する
ノード100a〜100cと、並列処理中のノード10
0a〜100cでの通信を制御する通信処理装置101
と、ノード100a〜100cのシステム管理を行う管
理端末装置104と、管理端末装置104とノード10
0a〜100cとを接続するネットワーク集線装置10
7と、ネットワーク集線装置110とを備えており、管
理端末装置104は、システム制御機構105aと、L
AN制御機構108aとを有し、ノード100aは、通
信インタフェース機構102aと、システム制御機構1
05bと、LAN制御機構108bとを有し、ノード1
00bは、通信インタフェース機構102bと、システ
ム制御機構105cと、LAN制御機構108cとを有
し、ノード100cは、通信インタフェース機構102
cと、システム制御機構105dと、LAN制御機構1
08dとを有している。
【0085】また、図1に示す様に、本実施形態の並列
計算機システムの管理装置では、ノード100a〜10
0cの通信インタフェース機構102a〜102cを通
信ケーブル103a〜103c及び通信処理装置101
を介して接続し、ノード100a〜100cのシステム
制御機構105b〜105dを通信ケーブル106a〜
106d及びネットワーク集線装置107を介して管理
端末装置104のシステム制御機構105aに接続し、
ノード100a〜100cのLAN制御機構108b〜
108dを通信ケーブル109a〜109d及びネット
ワーク集線装置110を介して管理端末装置104のL
AN制御機構108aに接続している。
【0086】本実施形態の並列計算機システムの管理装
置のシステム制御インタフェースは、前記の様に、管理
端末装置104側のシステム制御機構105aとノード
100a〜100c側のシステム制御機構105b〜1
05dとをイーサネット(登録商標)等の通信ケーブル
106及びマルチポートリピータ等のネットワーク集線
装置107を用いて相互接続することにより実現される
インタフェースである。
【0087】また、本実施形態の並列計算機システムの
管理装置のシステム運用支援インタフェースは、管理端
末装置104側のLAN制御機構108aとノード10
0a〜100c側のLAN制御機構108b〜108d
とをイーサネット等の通信ケーブル109及びマルチポ
ートリピータ等のネットワーク集線装置110を用いて
相互接続することにより実現されるインタフェースであ
る。
【0088】前記システム運用支援インタフェースは、
従来の並列計算機システムの運用管理を行うインタフェ
ースであり、ノード100a〜100cのメインプロセ
ッサが動作している場合に使用し、ノード100a〜1
00cのメインプロセッサで実行しているアプリケーシ
ョンソフトウェアが出力するメッセージを管理端末装置
104に表示する等のシステム管理を行うものである。
【0089】以下に、本実施形態の並列計算機システム
の管理装置において並列計算機システムを構成するノー
ド100a〜100cについて説明する。
【0090】図2は、本実施形態の並列計算機システム
の管理装置において並列計算機システムを構成するノー
ド100a〜100cの概略構成を示す図である。
【0091】図2において、200は主電源、201は
補助電源、202はメインプロセッサ、203はソフト
ウェア、204はメインメモリ、205はプロセッサメ
モリ制御機構、206はシステムバス、207はシステ
ムディスク、208はI/O制御機構、209はRS−
232C制御機構、210はブートストラップROM
(Read Only Memory)、211はシス
テムサポート機構、212はサブプロセッサ、213は
ROM、214はSRAM(Static Rando
m Access Memory;不揮発メモリ)、2
15はローカルバス、216は電源投入/切断信号、2
17はプロセッサリセット信号、218はLAN制御
部、219はRS−232C制御部、220はプロセッ
サ、221はROM、222はRAM(Random
Access Memory)、223はデータインタ
フェース、224は制御インタフェースである。
【0092】図2に示す様に、本実施形態の並列計算機
システムの管理装置のノード100a〜100cは、通
信インタフェース機構102a〜102cと、システム
制御機構105b〜105dと、LAN制御機構108
b〜108dとを有し、ノード100a〜100cで並
列処理を行うアプリケーションソフトウェアを実行する
メインプロセッサ202と、サブプロセッサ212を有
するシステムサポート機構211と、主電源200と、
補助電源201とを備えている。
【0093】また、本実施形態の並列計算機システムの
管理装置のノード100a〜100cは、メインプロセ
ッサ202により実行されるオペレーティングシステム
及びネットワークソフトウェアであるソフトウェア20
3と、ソフトウェア203を格納するメインメモリ20
4と、メインプロセッサ202とメインメモリ204と
のインタフェース制御を行うプロセッサメモリ制御機構
205と、システムバス206と、システムディスク2
07と、システムディスク207を制御するI/O制御
機構208と、ノードメッセージの出力やシステム制御
機構105b〜105d経由のオペレータとのインタラ
クティブなやりとりを行うRS−232C制御機構20
9と、メインプロセッサ202のシステム立ち上げ処理
を行うブートストラッププログラムを格納しているブー
トストラップROM210とを備えている。
【0094】本実施形態の並列計算機システムの管理装
置において、サブプロセッサ212を有し、メインプロ
セッサ202のステータス管理等のシステム制御を行う
システムサポート機構211は、サブプロセッサ212
上で動作する制御プログラムを格納しているROM21
3と、ハードウェアに依存した情報を格納しているSR
AM214を備えている。
【0095】本実施形態の並列計算機システムの管理装
置のノード100a〜100cのシステム制御機構10
5b〜105dは、管理端末装置104との間でイーサ
ネットパケットの送受信を制御するLAN制御部218
と、RS−232C制御機構209及びサブプロセッサ
212との間でのRS−232Cパケットの送受信を制
御するRS−232C制御部219と、イーサネットパ
ケットとRS−232Cパケットとのプロトコル変換を
行うプロセッサ220と、プロセッサ220上で動作す
る制御プログラムを格納するROM221と、サブプロ
セッサ212及びRS−232C制御機構209から送
られて来るノードメッセージを格納するRAM222と
を備えている。
【0096】図2に示す様に、本実施形態の並列計算機
システムの管理装置のノード100a〜100cでは、
システム制御機構105b〜105dを、RS−232
C制御部219と、データインタフェース223と、R
S−232C制御機構209と、システムバス206
と、プロセッサメモリ制御機構205とを介してメイン
プロセッサ202に接続し、また、システム制御機構1
05b〜105dをRS−232C制御部219及び制
御インタフェース224を介してシステムサポート機構
211のサブプロセッサ212に接続し、システムサポ
ート機構211のサブプロセッサ212を、ローカルバ
ス215とプロセッサメモリ制御機構205とを介して
メインプロセッサ202に接続している。また、サブプ
ロセッサ212は、プロセッサリセット信号217によ
りメインプロセッサ202をリセットし、電源投入/切
断信号216により主電源200を制御する。
【0097】尚、図2に示す様に、本実施形態の並列計
算機システムの管理装置のノード100a〜100cに
おいて、システム制御機構105b〜105dを、RS
−232C制御部219と、データインタフェース22
3と、RS−232C制御機構209とを介してメイン
プロセッサ202に接続しているのは、システム制御機
構105b〜105dとメインプロセッサ202との間
をRS−232C等のシリアルインタフェースで接続す
ることによりその通信ソフトウェアをコンパクトなもの
とし、メインプロセッサ202に障害が発生した場合で
あっても、システム制御機構105b〜105dとメイ
ンプロセッサ202との間の通信が、できるだけ損なわ
れることの無い様にする為である。
【0098】本実施形態の並列計算機システムの管理装
置のノード100a〜100cは、主電源200で動作
する部位と補助電源201で動作する部位より構成され
ている。
【0099】主電源200で動作する部位としては、ノ
ード100a〜100cのメインプロセッサ202、ソ
フトウェア203を格納するメインメモリ204、メイ
ンプロセッサ202とメインメモリ204とのインタフ
ェース制御を行うプロセッサメモリ制御機構205、ノ
ード100a〜100cのメインプロセッサ202のシ
ステム立ち上げ処理を行うブートストラッププログラム
を格納しているブートストラップROM210等があ
り、これらに、システムバス206を介して、通信イン
タフェース機構102a〜102c、LAN制御機構1
08b〜108d等が接続され、また、システムディス
ク207はI/O制御機構208経由にて接続される。
【0100】補助電源201で動作する部位としては、
ノード100a〜100cの主電源200の制御やメイ
ンプロセッサ202のステータス管理等のシステム制御
を行う部位であるシステムサポート機構211と、ノー
ド100a〜100cと管理端末装置104との通信を
制御するシステム制御機構105b〜105dがある。
【0101】サブプロセッサ212は、管理端末装置1
04からの指示により電源投入/切断信号216を出力
することで、主電源200の制御を行い、プロセッサリ
セット信号217を出力することで、メインプロセッサ
202をリセットする機能を持つ。
【0102】ノード100a〜100cのノードメッセ
ージは、メインプロセッサ202が動作し、メインプロ
セッサ202を制御するオペレーティングシステム及び
ネットワークソフトウェアであるソフトウェア203が
起動されている状態では、データインタフェース223
を介してRS−232C制御機構209からRAM22
2に蓄積され、ソフトウェア203が起動されていない
状態では、サブプロセッサ212より、制御インタフェ
ース224を介してブートストラップメッセージ等がR
AM222に蓄積される。
【0103】本実施形態の並列計算機システムの管理装
置のシステム制御機構105b〜105dのプロセッサ
220は、前記のパケットのプロトコル変換の他に、以
下の処理も行う。
【0104】すなわち、管理端末装置104からのイー
サネットパケットを解釈し、パケットの内容に応じた処
理を行い、管理端末装置104からの指示によりRAM
222に格納しているノードメッセージを管理端末装置
104に送信する処理を行い、サブプロセッサ212
は、制御インタフェース224を介して送られてきたパ
ケットを解釈し、その内容に応じた制御を行う。
【0105】以下に、本実施形態の並列計算機システム
の管理装置の管理端末装置104の概略構成について説
明する。
【0106】図3は、本実施形態の並列計算機システム
の管理装置の管理端末装置104の概略構成を示す図で
ある。図3において、300はプロセッサ、301はソ
フトウェア、302はメインメモリ、303はブートス
トラップROM、304はプロセッサメモリ制御機構、
305はシステムバス、306はI/O制御機構、30
7はシステムディスク、308、309はRS−232
C制御機構、310はグラフィックス制御機構、311
はLAN制御部、312はRS−232C制御部、31
3はプロセッサ、314はROM、315はRAM、3
16は制御インタフェース、317はデータインタフェ
ースである。
【0107】図3に示す様に、本実施形態の並列計算機
システムの管理装置の管理端末装置104は、管理端末
装置104内の全ての処理を制御/統括するプロセッサ
300と、管理端末装置104のオペレーティングシス
テム及びネットワークソフトウェアであるソフトウェア
301が格納されているメインメモリ302と、管理端
末装置104のシステム立ち上げ処理を行うブートスト
ラッププログラムを格納しているブートストラップRO
M303と、プロセッサ300、メインメモリ302及
びブートストラップROM303のインタフェース制御
を行うプロセッサメモリ制御機構304とを備えてい
る。
【0108】また、本実施形態の並列計算機システムの
管理装置の管理端末装置104は、システムバス305
と、システムディスク307を制御するI/O制御機構
306と、システムディスク307と、ソフトウェア3
01がノード100a〜100cに対し電源制御等のシ
ステム制御コマンドを発行する際に使用するRS−23
2C制御機構308と、ノードメッセージの出力やシス
テム制御機構105a経由にてオペレータとのインタラ
クティブなやりとりを行うRS−232C制御機構30
9と、ディスプレイターミナルやキーボード及びマウス
といったマンマシンインタフェースを制御するグラフィ
ックス制御機構310と、システム制御機構105aと
を備えている。
【0109】本実施形態の並列計算機システムの管理装
置の管理端末装置104のシステム制御機構105a
は、ノード100a〜100cとの間でイーサネットパ
ケットの送受信を制御するLAN制御部311と、RS
−232C制御機構308及び309との間でのRS−
232Cパケットの送受信を制御するRS−232C制
御部312と、イーサネットパケットとRS−232C
パケットとのプロトコル変換を行うプロセッサ313
と、プロセッサ313で動作する制御プログラムを格納
するROM314と、ノード100a〜100cより送
られてくるノードメッセージを格納するRAM315と
を備えている。
【0110】また、図3に示す様に、本実施形態の並列
計算機システムの管理装置の管理端末装置104では、
プロセッサ300をプロセッサメモリ制御機構304を
介してメインメモリ302、ブートストラップROM3
03及びシステムバス305に接続し、システムディス
ク307をI/O制御機構306を介してシステムバス
305に接続し、LAN制御機構108aと、RS−2
32C制御機構308及び309と、グラフィックス制
御機構310とをシステムバス305に接続している。
【0111】更に、図3に示す様に、本実施形態の並列
計算機システムの管理装置の管理端末装置104では、
システム制御機構105aのRS−232C制御部31
2を、制御インタフェース316及びデータインタフェ
ース317を介してRS−232C制御機構308及び
309に接続している。
【0112】本実施形態の並列計算機システムの管理装
置において、システム制御インタフェースは、ノード1
00a〜100cのシステム制御機構105b〜105
dと管理端末装置104のシステム制御機構105aと
をイーサネットケーブル等を用いて、相互接続すること
により形成されている。
【0113】前記システム制御インタフェースは、管理
端末装置104側のシステム制御機構105aが動作可
能な状態であり、ノード100a〜100cの補助電源
201が投入されており、サブプロセッサ212及びシ
ステム制御機構105b〜105dが動作可能な状態で
あれば、ノード100a〜100cの主電源200が投
入されておらず、すなわちメインプロセッサ202が動
作しておらず、メインプロセッサ202全体を制御する
オペレーティングシステム及びネットワークソフトウェ
アであるソフトウェア203が起動されていなくとも使
用可能である。
【0114】これに対し、システム運用支援インタフェ
ースは、管理端末装置104のLAN制御機構108a
とノード100a〜100cのLAN制御機構108b
〜108dとをイーサネットケーブル等を用いて、相互
接続することにより形成されており、前記システム運用
支援インタフェースは、TCP/IP(Transmi
ssion Control Protocol/In
ternet Protocol)にて使用するため、
管理端末装置104及びノード100a〜100cのオ
ペレーティングシステム及びそのネットワークソフトウ
ェアであるソフトウェア203及びソフトウェア301
が起動され、TCP/IPをサポートするネットワーク
ソフトウェアを実行している状態でのみ使用可能とな
る。
【0115】以下に、本実施形態の並列計算機システム
の管理装置の管理端末装置104とノード100a〜1
00cとの通信シーケンスについて説明する。
【0116】図4は、本実施形態の並列計算機システム
の管理装置の管理端末装置104とノード100a〜1
00cとの通信シーケンスの一例を示す図である。図4
において、401はアダプタ制御コマンド及びそのレス
ポンス、402はシステム制御コマンド及びそのレスポ
ンス、403はノードメッセージである。
【0117】図4に示す様に、本実施形態の並列計算機
システムの管理装置では、アダプタ制御コマンド及びそ
のレスポンス401、または、システム制御コマンド及
びそのレスポンス402であるパケットの送受信、或い
は、ノードメッセージ403の送受信により通信を行
う。
【0118】アダプタ制御コマンド及びそのレスポンス
401は、管理端末装置104のソフトウェア301が
管理端末装置104のシステム制御機構105aと通信
を行う際、およびサブプロセッサ212がシステム制御
機構105b〜105dと通信を行う際に使用し、制御
インタフェース316または制御インタフェース224
を介して送受信される。
【0119】システム制御コマンド及びそのレスポンス
402は、管理端末装置104のソフトウェア301が
ノード100a〜100cのサブプロセッサ212と通
信を行う際に使用し、制御インタフェース316及び制
御インタフェース224を介して送受信される。
【0120】ノードメッセージ403は、ソフトウェア
203が起動していないときは、サブプロセッサ212
からシステム制御機構105b〜105dのRAM22
2へ送信されて蓄積され、また、ソフトウェア203が
起動されているときは、メインプロセッサ202からR
S−232C制御機構209よりシステム制御機構10
5b〜105dのRAM222へ送信されて蓄積され
る。
【0121】システム制御機構105b〜105dのR
AM222に蓄積されたノードメッセージ403は、管
理端末装置104からの要求により、ノード100a〜
100cのシステム制御機構105b〜105dのRA
M222から、管理端末装置104のシステム制御機構
105aを介し、管理端末装置104のRS−232C
制御機構309へ送信され、管理端末装置104のグラ
フィックス制御機構310に接続されるグラフィックス
ディスプレイ等に表示される。
【0122】以下に、本実施形態の並列計算機システム
の管理装置におけるアダプタ制御コマンド及びそのレス
ポンス401のパケットフォーマットについて説明す
る。
【0123】図5は、本実施形態の並列計算機システム
の管理装置におけるアダプタ制御コマンド及びそのレス
ポンス401のパケットフォーマットを示す図である。
図5において、501は種別フィールド、502は送信
元アドレスフィールド、503は受信先アドレスフィー
ルド、504は情報部フィールド、505は識別子であ
る。
【0124】図5に示す様に、本実施形態の並列計算機
システムの管理装置におけるアダプタ制御コマンド及び
そのレスポンス401のパケットは、種別フィールド5
01と、送信元アドレスフィールド502と、受信先ア
ドレスフィールド503と、情報部フィールド504
と、識別子505とを備えている。
【0125】本実施形態の並列計算機システムの管理装
置において、種別フィールド501にはアダプタ制御コ
マンドまたはそのレスポンスであることを示すパケット
識別子、例えば「A」が格納され、送信元アドレスフィ
ールド502にはパケットの送信元アドレス、受信先ア
ドレスフィールド503にはパケットの受信先アドレス
が格納される。
【0126】また、情報部フィールド504には、パケ
ットの種類により、異なったパラメータが格納され、さ
らにパケットの末尾には、パケットの終わりを示す識別
子505、例えば「LF」(ラインフィード)が付加さ
れる。
【0127】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御コマンド及びそのレス
ポンス402のパケットフォーマットについて説明す
る。
【0128】図6は、本実施形態の並列計算機システム
の管理装置におけるシステム制御コマンド及びそのレス
ポンス402のパケットフォーマットを示す図である。
図6において、601は種別フィールド、602は送信
元アドレスフィールド、603は受信先アドレスフィー
ルド、604は情報部フィールド、605は識別子であ
る。
【0129】図6に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御コマンド及び
そのレスポンス402のパケットは、種別フィールド6
01と、送信元アドレスフィールド602と、受信先ア
ドレスフィールド603と、情報部フィールド604
と、識別子605とを備えている。
【0130】本実施形態の並列計算機システムの管理装
置において、種別フィールド601には、システム制御
コマンドまたはそのレスポンスであることを示すパケッ
ト識別子、例えば「d」が格納され、送信元アドレスフ
ィールド602にはパケットの送信元アドレス、受信先
アドレスフィールド603にはパケットの受信先アドレ
スが格納される。
【0131】また、情報部フィールド604には、パケ
ットの種別により異なったパラメータが格納され、さら
にパケットの末尾には、パケットの終わりを示す識別子
605、例えば「LF」が付加される。
【0132】また、本実施形態の並列計算機システムの
管理装置において、管理端末装置104からの送信パケ
ットの受信先アドレスフィールド603に16進数の
「0xffffffff」が格納されると、そのパケッ
トはブロードキャストパケットとなり、全てのノード1
00a〜100cで受信される。
【0133】尚、本実施形態の並列計算機システムの管
理装置において、「0x」が付加された数字は16進数
を示すものとする。
【0134】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構105a〜105
dの、パケットモードと非パケットモードのモード遷移
について説明する。
【0135】図7は、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構のモード遷移を示
す図である。図7において、701はパケットモード、
702は非パケットモード、703は「SET−MOD
E」コマンドである。
【0136】図7に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御機構は、固定
長のパケットの送受信を行うパケットモード701と、
不定長のノードメッセージ403の送受信を行う非パケ
ットモード702とを備え、パケットモード701と非
パケットモード702のモード遷移は、サブプロセッサ
212からのアダプタ制御コマンドである「SET−M
ODE」コマンド703を実行することにより行う。
【0137】前記の様に、本実施形態の並列計算機シス
テムの管理装置のシステム制御機構105a〜105d
の動作モードは、パケットモード701及び非パケット
モード702の2種類があり、パケットモード701
は、管理端末装置104と複数のノード100a〜10
0cが通信を行う際に設定されるモードであり、非パケ
ットモード702は、特定のノードとコネクション型通
信を行い、前記特定のノードからのノードメッセージ4
03を管理端末装置104に表示する際に設定されるモ
ードである。
【0138】尚、本実施形態の並列計算機システムの管
理装置において、管理端末装置104及びノード100
a〜100cのシステム制御機構105a〜105d
は、補助電源201投入時にはパケットモード701に
て動作するものとする。
【0139】以下に、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構105a〜105
dの非パケットモード702でのコネクション状態の遷
移について説明する。
【0140】図8は、本実施形態の並列計算機システム
の管理装置におけるシステム制御機構の非パケットモー
ド702でのコネクション状態の遷移を示す図である。
図8において、800はディスコネクト状態、801は
ウェイトコネクト状態、802はコネクト状態、803
は「SET−CONNECT」コマンド、804は管理
端末装置104上のシステム制御機構105aとノード
100a〜100c上のシステム制御機構105b〜1
05cとの間で行われる呼制御である。
【0141】図8に示す様に、本実施形態の並列計算機
システムの管理装置におけるシステム制御機構の非パケ
ットモード702でのコネクション状態には、相手のシ
ステム制御機構が接続されておらずRAM222にノー
ドメッセージ403を蓄積していない状態であるディス
コネクト状態800と、相手のシステム制御機構が接続
されていないがノードメッセージ403をRAM222
に蓄積中である状態のウェイトコネクト状態801と、
相手のシステム制御機構が接続されているコネクト状態
802とがあり、前記コネクション状態の遷移は、「S
ET−CONNECT」コマンド803またはシステム
制御機構からの呼制御804により行う。
【0142】図8に示す様に、本実施形態の並列計算機
システムの管理装置において、非パケットモード702
設定時には、ディスコネクト状態800、ウェイトコネ
クト状態801及びコネクト状態802の3つのコネク
ト状態を保持し、ディスコネクト状態800では、シス
テム制御機構同士の通信は不可となり、ウェイトコネク
ト状態801では、相手のシステム制御機構との通信は
不可であるが、ノードメッセージ403は、RAM22
2内に順次蓄積される。
【0143】通信を行うシステム制御機構同士がコネク
ト状態802にあるとき、非パケットモード702での
コネクション型通信が可能となる。
【0144】これらの状態は、「SET−CONNEC
T」コマンド803を発行することにより遷移する。ま
た、相手のシステム制御機構からの呼制御804による
コネクト要求があった場合、ウェイトコネクト状態80
1からコネクト状態802に遷移する。
【0145】本実施形態の並列計算機システムの管理装
置にて使用するアダプタ制御コマンド及びそのレスポン
ス401の一覧を表1に示す。表1において、情報部は
情報部フィールド504に格納される情報を示してお
り、情報部のバイト0の数字は、パケット種別を示す番
号である。
【0146】
【表1】
【0147】本実施形態の並列計算機システムの管理装
置にて使用するシステム制御コマンド及びそのレスポン
ス402の一覧を表2に示す。表2において、情報部は
情報部フィールド604に格納される情報を示してお
り、情報部のバイト0の数字は、パケット種別を示す番
号である。
【0148】
【表2】【0149】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ム制御機構105b〜105dのプロセッサ220の処
理手順について説明する。
【0150】図9は、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ム制御機構105b〜105dのプロセッサ220の処
理手順の一部を示すフローチャートである。
【0151】図9に示す様に、本実施形態の並列計算機
システムの管理装置におけるノード100a〜100c
のシステム制御機構105b〜105dのプロセッサ2
20では、ステップ900の処理にて、「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からコネクト要求があるかどうかを調べる。
【0152】ステップ900の処理で、「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からのコネクト要求がある場合には、ステップ901
の処理に進み、ノード100a〜100cのシステム制
御機構105b〜105dが非パケットモード702で
あるかどうかをチェックする。
【0153】ステップ901の処理で、ノード100a
〜100cのシステム制御機構105b〜105dが非
パケットモード702であれば、ステップ902の処理
へ進み、ステップ901の処理で、ノード100a〜1
00cのシステム制御機構105b〜105dが非パケ
ットモード702でなければ、ステップ903の処理に
て、サブプロセッサ212からのシステム制御コマンド
「SET−MODE」により、ノード100a〜100
cのシステム制御機構105b〜105dを非パケット
モード702に設定し、ステップ902の処理へ進む。
【0154】ステップ902の処理では、ノード100
a〜100cのシステム制御機構105b〜105dの
RAM222に蓄積されたノードメッセージ403をシ
ステム制御インタフェース経由で管理端末装置104へ
送信し、ステップ900の処理に戻る。
【0155】ステップ900の処理にて「SET−CO
NNECT」コマンドや呼制御により管理端末装置10
4からコネクト要求が無い場合には、ステップ904の
処理に進み、ステップ904の処理にて、システム制御
コマンドにより、管理端末装置104からのシステム制
御があるかどうかを調べる。
【0156】ステップ904の処理にて、前記システム
制御コマンドにより、管理端末装置104からのシステ
ム制御がある場合には、ステップ905の処理に進み、
ノード100a〜100cのシステム制御機構105b
〜105dがパケットモード701かどうかをチェック
する。
【0157】ステップ904の処理にて、システム制御
コマンドによる管理端末装置104からのシステム制御
がない場合には、ステップ909の処理に進む。
【0158】ステップ905の処理で、ノード100a
〜100cのシステム制御機構105b〜105dがパ
ケットモード701であれば、ステップ906の処理へ
進み、ノード100a〜100cのシステム制御機構1
05b〜105dがパケットモード701でなければ、
ステップ907の処理にて、サブプロセッサ212から
のシステム制御コマンド「SET−MODE」により、
システム制御機構105b〜105dをパケットモード
701に設定し、ステップ906の処理へ進む。
【0159】ステップ906の処理にて、前記システム
制御コマンドの受信先アドレスフィールド603をチェ
ックし、前記システム制御コマンドの受信先アドレスフ
ィールド603が、自論理アドレスまたは「0xfff
fffff」である場合は、ステップ908の処理に進
み、前記システム制御コマンドの内容をサブプロセッサ
212に通知し、ステップ900の処理に戻る。
【0160】ステップ906の処理にて、前記システム
制御コマンドの受信先アドレスフィールド603が、自
論理アドレス及び「0xffffffff」でない場合
は、ステップ900の処理に戻る。
【0161】ステップ909の処理にて、ノード100
a〜100cのサブプロセッサ212からの処理の結果
が返ってきたかどうかを調べ、サブプロセッサ212か
らの処理の結果が返ってきた場合には、ステップ910
の処理に進み、管理端末装置104に対し、前記システ
ム制御コマンドのレスポンスパケットを送信し、ステッ
プ900の処理に戻る。
【0162】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのシステ
ムサポート機構211のサブプロセッサ212の処理手
順について説明する。
【0163】図10は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのシス
テムサポート機構211のサブプロセッサ212の処理
手順の一部を示すフローチャートである。
【0164】図10に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのシステムサポート機構211のサブプロセッサ21
2では、補助電源201が投入されると、ステップ10
00の処理にて、ノード100a〜100cの論理アド
レスを設定し、ノード100a〜100cに備えられた
パネルに表示するステータスコードを格納するSRAM
214内のパネルステータス管理領域に「0000」を
設定する。
【0165】次に、ステップ1001の処理にて、ノー
ド100a〜100cのシステム制御機構105b〜1
05dを非パケットモード702に設定し、ステップ1
002の処理にて、ノード100a〜100cのシステ
ム制御機構105b〜105dの非パケットモード70
2のコネクション状態をウェイトコネクト状態801に
設定する。
【0166】ノード100a〜100cのシステム制御
機構105b〜105dのモードを非パケットモード7
02に設定し、システム制御機構105b〜105dの
非パケットモード702のコネクション状態をウェイト
コネクト状態801に設定するのは、ノード100a〜
100cのノードメッセージをシステム制御機構105
b〜105dのRAM222に蓄積すると共に、管理端
末装置104のシステム制御機構105aからの呼制御
804によるコネクト要求があったときに、ノード10
0a〜100cのシステム制御機構105b〜105d
のRAM222に蓄積したノードメッセージを管理端末
装置104に送る為である。
【0167】また、こうすることでノード100a〜1
00c上のソフトウェア203が起動されていない場合
でも管理端末装置104からRAM222に蓄積したノ
ードメッセージを読み出すことが可能となる。
【0168】次に、管理端末装置104のシステム制御
機構105aから、ノード100a〜100cのシステ
ム制御機構105b〜105dにシステム制御コマンド
が送られた場合には、前記システム制御コマンドをノー
ド100a〜100cのサブプロセッサ212に送り、
サブプロセッサ212にて前記システム制御コマンドを
実行する。
【0169】ステップ1003の処理にて、管理端末装
置104のシステム制御機構105aからノード100
a〜100cのシステム制御機構105b〜105dを
介して、ノード100a〜100cの主電源200を投
入または切断する電源制御指示のシステム制御コマンド
が送られてきているかどうかを調べる。
【0170】ステップ1003の処理で管理端末装置1
04からの電源制御指示があるかどうかを調べた結果、
管理端末装置104からの電源制御指示がある場合に
は、ステップ1004の処理にて、ノード100a〜1
00cの主電源200を投入または切断する電源制御処
理を実行し、ステップ1005の処理にて、前記電源制
御処理の実行結果をノード100a〜100cのシステ
ム制御機構105b〜105dへ報告した後、ステップ
1003の処理に戻る。
【0171】ステップ1003の処理で管理端末装置1
04からの電源制御指示があるかどうかを調べた結果、
管理端末装置104からの電源制御指示がない場合に
は、ステップ1006の処理に進み、管理端末装置10
4のシステム制御機構105aからノード100a〜1
00cのシステム制御機構105b〜105dを介し
て、ノード100a〜100cに備えられたパネルを制
御するパネル制御指示のシステム制御コマンドが送られ
てきているかどうかを調べる。
【0172】ステップ1006の処理にて、管理端末装
置104からのパネル制御指示があるかどうかを調べた
結果、管理端末装置104からのパネル制御指示がある
場合には、ステップ1007の処理に進み、パネル制御
処理を実行し、ステップ1008の処理にて、前記パネ
ル制御処理の実行結果をノード100a〜100cのシ
ステム制御機構105b〜105dへ報告した後、ステ
ップ1003の処理に戻る。
【0173】ステップ1006の処理にて、管理端末装
置104からのパネル制御指示があるかどうかを調べた
結果、管理端末装置104からのパネル制御指示がない
場合には、ステップ1009の処理に進み、管理端末装
置104のシステム制御機構105aからノード100
a〜100cのシステム制御機構105b〜105dを
介して、ノード100a〜100cのメインプロセッサ
202をリセットするリセット指示のシステム制御コマ
ンドが送られてきているかどうかを調べる。
【0174】ステップ1009の処理にて、管理端末装
置104からのリセット指示があるかどうかを調べた結
果、管理端末装置104からのリセット指示がある場合
には、ステップ1010の処理に進み、ノード100a
〜100cのメインプロセッサ202のリセット処理を
実行し、ステップ1011の処理にて、前記リセット処
理の実行結果をノード100a〜100cのシステム制
御機構105b〜105dへ報告した後、ステップ10
03の処理に戻る。
【0175】ステップ1012の処理にてシステム制御
機構105b〜105dからモード切り替えの要求があ
るかどうかを調べた結果、モード切り替え要求がある場
合には、ステップ1013の処理に進み、アダプタ制御
コマンド「SET−MODE」を実行し、システム制御
機構105b〜105dの動作モードを切り替え、ステ
ップ1003の処理に戻る。
【0176】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、ノード100a〜10
0cの補助電源201で動作し、メインプロセッサ20
2が使用するネットワークソフトウェア及び通信ケーブ
ル109b〜109dとは別のネットワークソフトウェ
ア及び通信ケーブル106b〜106dを使用して管理
端末装置104と通信を行うシステム制御機構105b
〜105dに、管理端末装置104からシステム制御コ
マンドを送信し、前記システム制御コマンドを補助電源
201で動作するサブプロセッサ212で実行すること
より、複数のノード100a〜100cのメインプロセ
ッサ202の制御を行うので、並列処理を実行するメイ
ンプロセッサ202の動作並びにメインプロセッサ20
2のオペレーティングシステム及びネットワークソフト
ウェアであるソフトウェア203の動作とは無関係に、
並列計算機システムを構成する複数のノード100a〜
100cの運用管理を管理端末装置104で一括して行
うことが可能である。
【0177】(実施形態2)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104か
ら複数のノード100a〜100dに主電源200の投
入を指示し、ノード100a〜100dのステータスコ
ードを監視し、ノード100a〜100dのメインプロ
セッサ202が動作を開始したかどうかを管理する実施
形態2について説明する。
【0178】図11は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104からノード1
00a〜100dへ主電源200の投入を指示する電源
投入シーケンスの一例を示す図である。図11におい
て、100dはノード、1101〜1112は電源投入
の各段階を示すシーケンスである。
【0179】図11に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104から
ノード100a〜100dへ主電源200の投入を指示
する電源投入シーケンスでは、シーケンス1101に
て、ノード100a〜100dの補助電源201が投入
されている。
【0180】ノード100a〜100dの補助電源20
1が投入されると、ノード100a〜100dのサブプ
ロセッサ212は、シーケンス1102にて、システム
サポート機構211内の初期化を行い、アダプタ制御コ
マンド「SET−ADDRESS」によって、システム
制御機構105b〜105dの初期化、及び、管理端末
装置104がノード100a〜100dを管理するため
に必要なアドレスである論理アドレスの設定を行う。
【0181】ここで、例えば、論理アドレス「0x00
000001」を設定する「SET−ADDRESS」
コマンド及びそのレスポンスのフォーマットの一例は、
下記の通りとなる。
【0182】<コマンド>:
A0x00000001:(受信先アドレスフィールド503は省
略):0x01 LF
<レスポンス>:
A0x00000001:0x00000001:0x01(ステータス情報)LF
シーケンス1103にて、管理端末装置104の電源が
投入されると、管理端末装置104のブートストラップ
ROM303に格納されているブートストラッププログ
ラムが、管理端末装置104のシステム立ち上げ処理を
行う。
【0183】シーケンス1104にて、管理端末装置1
04のシステム立ち上げ処理が終わると、シーケンス1
105にて、管理端末装置104のソフトウェア301
は、管理端末装置104の論理アドレスを「SET−A
DDRESS」にて設定する。
【0184】管理端末装置104及びノード100a〜
100dの論理アドレスが設定されると、シーケンス1
106にて、管理端末装置104のソフトウェア301
は、システム制御コマンドのブロードキャストパケット
を用いて、ノード100a〜100dの状態を示すステ
ータスコードを読み出す。
【0185】ステータスコードは、ノード100a〜1
00dのSRAM214内のパネルステータス管理領域
にて管理されており、例えば、ノード100a〜100
dの補助電源201が正常に投入されると、ある一定の
ステータスコードが前記パネルステータス管理領域に書
き込まれ、また、そのステータスコードは、サブプロセ
ッサ212により読み出すことができる(本実施形態の
並列計算機システムの管理装置ではコード「0000」
が読み出せるものとする。)。
【0186】ここでは、管理端末装置104は「STA
TUS−READ」コマンドを使用して、ノード100
a〜100dに対し、ブロードキャストを行う。
【0187】論理アドレスが「0xa0000000」
である管理端末装置104が、「STATUS−REA
D」コマンドをブロードキャストした場合と、そのコマ
ンドに対する、論理アドレスが「0x0000000
5」であるノードからのレスポンスのフォーマットの一
例は、下記の通りとなる。
【0188】<コマンド>:
d0xa0000000:0xffffffff:0x4 LF
<レスポンス>
d0x00000005:0xa0000000:0x04 0000 LF
シーケンス1107にて、ノード100a〜100dで
前記「STATUS−READ」コマンドが受信され、
サブプロセッサ212によりステータスコード「000
0」が読み出された後、シーケンス1108にて、ノー
ド100a〜100dから管理端末装置104に対し、
前記の様にレスポンスが返ってくる。
【0189】ここで、管理端末装置104のソフトウェ
ア301は、正常なレスポンスが返ってきたノードの論
理アドレスと、予め管理端末装置104のソフトウェア
301内または特定のファイルに保持しておいた、並列
計算機システムを構成するノード100a〜100dの
構成情報とを照らし合わせ、正常なレスポンスが返って
こないノードに対しては、予め設定された一定の時間間
隔で再び「STATUS−READ」コマンドを送るリ
トライ処理を行う。
【0190】シーケンス1109にて、管理端末装置1
04のソフトウェア301は、シーケンス1108で正
常なレスポンスパケットが返ってきたノードの主電源2
00を「P−ON」コマンドにて投入する。
【0191】例えば、論理アドレスが「0xa0000
000」である管理端末装置104から、論理アドレス
が「0x00000005」であるノードに対する「P
−ON」コマンド及びそのレスポンスのフォーマットの
一例は、下記の通りとなる。
【0192】<コマンド>:
d0xa0000000:0x00000005:0x01LF
<レスポンス>:
d0x00000005:0xa0000000:0x01(完了コード)LF
このとき、管理端末装置104のソフトウェア301の
制御により、予め設定された一定の時間間隔で「P−O
N」コマンドをずらしながらノード100a〜100d
に送信することで、並列計算機システム全体に電源を供
給している電源設備への突入電流を低く抑えることが出
来る。
【0193】シーケンス1110にて、「P−ON」コ
マンドを受け取ったノード100a〜100dのサブプ
ロセッサ212は、電源投入信号216を出力し、主電
源200をオンにした後、「P−ON」コマンドに対す
るレスポンスを、管理端末装置104に返送する。
【0194】ノード100a〜100dの主電源200
がオンになると、メインプロセッサ202によりブート
ストラップROM210に格納されているブートストラ
ッププログラムが実行され、システム立ち上げ処理が開
始される。
【0195】尚、システム立ち上げ処理中にブートスト
ラッププログラムがインクリメントするステータスコー
ドには、例えば以下のようなものがある。ここで、本実
施形態の並列計算機システムの管理装置では、ステータ
スコードは16進数で示されている。
【0196】
【表3】【0197】ノード100a〜100dのメインプロセ
ッサ202のブートストラッププログラムは、ノード1
00a〜100dのSRAM214内のパネルステータ
ス管理領域にステータスコードを書き込み、システム立
ち上げ処理が進むと、定期的に前記ステータスコードを
更新する。
【0198】また、前記パネルステータス管理領域は、
ノード100a〜100dのサブプロセッサ212から
も参照可能であり、例えば、ノード100a〜100d
に備えられたパネル等の表示装置に表示することによ
り、オペレータに対し、前記ステータスコードを開示す
ることも可能である。
【0199】管理端末装置104のソフトウェア301
は、これらのノード100a〜100dのステータスコ
ードを「STATUS−READ」コマンドを使用して
定期的に読み出すことにより、ノード100a〜100
dの状態を監視する。
【0200】シーケンス1110にて、管理端末装置1
04のソフトウェア301は、システム制御コマンドの
送信からそのレスポンスの受信までを一定の時間で監視
しており、図11に示す様に、何らかの障害が発生して
おり、一定時間内に正常なレスポンスが返ってこないノ
ード100dに対しては、シーケンス1111にて、予
め設定された一定の時間間隔で再度システム制御コマン
ドを送信するリトライ処理を行う。
【0201】図11に示す様に、本実施形態の並列計算
機システムの管理装置において、一定回数(本実施形態
では3回)のリトライ処理の結果、ノード100dから
正常なレスポンスが返って来なかった場合、シーケンス
1112にて、管理端末装置104のソフトウェア30
1は、ノード100dに障害が発生していることを認識
する。
【0202】管理端末装置104のソフトウェア301
は、前記の様に、特定のシステム制御コマンドに対する
正常なレスポンスが一定時間内の間に受信されない場合
に、予め設定された一定の時間間隔で前記特定のシステ
ム制御コマンドを再度送信する制御を行うことで、ノー
ド100a〜100dのソフトウェア203が起動され
ていなくとも、ノード100a〜100dのメインプロ
セッサ202のシステム立ち上げ処理が正常に終了して
いるかどうかの管理を行うことが可能である。
【0203】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、管理端末装置104か
らの指示により複数のノード100a〜100dの主電
源200の投入または切断を行うので、並列計算機シス
テムを構成する複数のノード100a〜100dの主電
源200の投入または切断を管理端末装置104で一括
または個別に行うことが可能である。
【0204】また、本実施形態の並列計算機システムの
管理装置によれば、ノード100a〜100dへの主電
源200の投入指示を、予め設定された特定の時間間隔
で行うので、並列計算機システムに電力を供給する電源
設備の突入電流を低く抑えることが可能である。
【0205】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの指示によ
りノード100a〜100dのステータスコードを読み
出すので、複数のノード100a〜100dの状態を管
理端末装置104で一括して管理することが可能であ
る。
【0206】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの特定のシ
ステム制御コマンドに対する正常なレスポンスが一定時
間中に受信されるかどうかを調べるので、並列計算機シ
ステムを構成する複数のノードが正常に動作中であるか
を管理端末装置104で監視することが可能である。
【0207】(実施形態3)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104に
ノード100aからのノードメッセージ403を表示
し、必要に応じて保守を行う実施形態3について説明す
る。
【0208】図12は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104にノード10
0aからのノードメッセージ403を表示するシーケン
スの一例を示す図である。図12において、1201〜
1217はノードメッセージ403を表示する各段階の
シーケンスを示している。
【0209】図12に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104にノ
ード100aからのノードメッセージ403を表示する
シーケンスにおいて、シーケンス1201では、ノード
100aには、予め補助電源201が投入されており、
システム制御機構105b(動作モードはパケットモー
ド701)、サブプロセッサ212及びプロセッサ22
0は動作可能な状態にある。
【0210】補助電源201が投入されているノード1
00aのサブプロセッサ212は、シーケンス1202
で「SET−ADDRESS」コマンドにて、ノード1
00aの論理アドレスを設定する。
【0211】次に、ノード100aのサブプロセッサ2
12は、シーケンス1203で、「SET−MODE」
コマンドにてシステム制御機構105bの動作モードを
非パケットモード702(ディスコネクト状態800)
に設定する。
【0212】ノード100aのサブプロセッサ212
は、シーケンス1204で、さらに「SET−CONN
ECT」コマンドにて、コネクション状態を非パケット
モード702のウェイトコネクト状態801に設定す
る。
【0213】一方、管理端末装置104は、シーケンス
1205で、管理端末装置104の電源が投入される
と、管理端末装置104のシステム立ち上げ処理を開始
する。
【0214】管理端末装置104のシステム立ち上げ処
理が終了すると、シーケンス1206で、管理端末装置
104のソフトウェア301は、ノード100aと同様
にして、「SET−ADDRESS」コマンドを用いて
管理端末装置104の論理アドレスの設定を行い、シー
ケンス1207で、「SET−MODE」を用いて、動
作モードを非パケットモード702のディスコネクト状
態800に設定する。
【0215】シーケンス1208にて、管理端末装置1
04のソフトウェア301は、「STATUS−REA
D」コマンドによってノード100aのステータスコー
ドを読み出し、ステータスコード「0000」が読み出
せると、シーケンス1209にて、「P−ON」コマン
ドをノード100aに送信し、ノード100aの主電源
200の投入を指示する。
【0216】管理端末装置104からの「P−ON」コ
マンドを受信し、主電源200を投入したノード100
aは、ブートストラップROM210に格納されている
ブートストラッププログラムをメインプロセッサ202
により実行し、ノード100aのシステム立ち上げ処理
を行う。
【0217】このとき、ノード100aのブートストラ
ッププログラムから出力されるノードメッセージ403
は、サブプロセッサ212を経由し、ノード100aの
システム制御機構105bのRAM222に蓄積され
る。
【0218】管理端末装置104のソフトウェア301
は、シーケンス1210で、「SET−CONNEC
T」コマンドにより、管理端末装置104のシステム制
御機構105aのコネクション状態をコネクト状態80
2にすることで、ノード100aのシステム制御機構1
05bのRAM222に蓄積されているノード100a
のメインプロセッサ202のシステム立ち上げ処理中の
ノードメッセージ403の監視を開始する。
【0219】「SET−CONNECT」を受けた管理
端末装置104のシステム制御機構105aは、シーケ
ンス1211で、ノード100aのシステム制御機構1
05bと呼制御804を行い、これを受けたノード10
0aのシステム制御機構105bのコネクション状態
は、ウェイトコネクト状態801からコネクト状態80
2に遷移する。
【0220】同時にノード100aのシステム制御機構
105bは、シーケンス1212で、「REPORT−
CONNECT」コマンドを、ノード100aのサブプ
ロセッサ212に発行し、管理端末装置104からのコ
ネクト要求があったことを伝える。
【0221】このときの「REPORT−CONNEC
T」コマンド及びそのレスポンスのフォーマットの一例
は、下記の通りとなる。尚、以下の「REPORT−C
ONNECT」コマンド及びそのレスポンスでは、送受
信アドレスは省略されている。
【0222】<コマンド>:
A::0xA(コネクト状態変化状況)LF
<レスポンス>:
A::0xA LF
シーケンス1213にて、ノード100aのノードメッ
セージ403は、ノード100aのシステム制御機構1
05bが呼制御804によるコネクト要求を受け取った
時点で、ノード100aのシステム制御機構105bの
RAM222からLAN制御部218を経由して管理端
末装置104へ送信される。
【0223】ここで、図12には特に示していないが、
もし、ノード100aのメインプロセッサ202のシス
テム立ち上げ処理中に、ノード100aのメインプロセ
ッサ202が使用するファイルシステムに矛盾が発見さ
れ、前記システム立ち上げ処理が中断した場合には、シ
ーケンス1214にて、オペレータは、管理端末装置1
04の表示装置に出力されるノード100aのメインプ
ロセッサ202のシステム立ち上げ処理中のノードメッ
セージ403により、ノード100aに障害が発生して
いることを認識し、UNIXのfsck等のファイルシ
ステムを検査する保守コマンドを投入することで、ノー
ド100aの保守を行うことも可能である。
【0224】また、ノード100aのメインプロセッサ
202のシステム立ち上げ処理は正常終了したが、その
後の通常の業務でノード100aのメインプロセッサ2
02を使用中に、パニックメッセージを出力してノード
100aのメインプロセッサ202がシステムダウンを
起こした場合には、オペレータは、ノード100aのシ
ステム制御機構105bのRAM222に蓄積されたノ
ードメッセージ403を管理端末装置104に表示さ
せ、ノードメッセージ403の内容によりシステムダウ
ンの要因を検討することも可能である。
【0225】ノード100aとのコネクションを切断す
る場合には、シーケンス1210〜1212までの処理
と同様、管理端末装置104のソフトウェア301が、
シーケンス1215にて、「SET−CONNECT」
コマンドを発行する。
【0226】管理端末装置104のソフトウェア301
が「SET−CONNECT」コマンドを発行すること
により、管理端末装置104のシステム制御機構105
aはディスコネクト状態800になり、シーケンス12
16にて、管理端末装置104のシステム制御機構10
5aは、ノード100aのシステム制御機構105bに
対し呼制御804を行う。
【0227】シーケンス1217にて、ノード100a
のシステム制御機構105bは、前記の管理端末装置1
04のシステム制御機構105aからの呼制御804に
より、相手からコネクション断の要求があったことを認
識し、同時にノード100aのサブプロセッサ212に
対し、このことを「REPORT−CONNECT」コ
マンドにて報告する。
【0228】以上の様に、管理端末装置104からノー
ド100a〜100cに対し、システム制御コマンドを
送信することで、管理端末装置104からノード100
a〜100cの主電源200の電源制御及びノード10
0a〜100cの状態監視が可能となる。
【0229】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、パケットモード701
及び非パケットモード702のモード切り替えをサブプ
ロセッサ212により行うので、パケットを用い、シス
テム制御コマンド及びそのレスポンスを複数のノード1
00a〜100cと送受信する通信と、特定のノードと
のコネクションを設定し、特定のノードのノードメッセ
ージ403を連続して受信する通信とを、切替装置の様
な特別のハードウェアを用いることなく同一の管理端末
装置104で行うことが可能である。
【0230】また、本実施形態の並列計算機システムの
管理装置によれば、特定のノードのメインプロセッサ2
02またはサブプロセッサ212が動作時に出力するノ
ードメッセージ403を蓄積し、管理端末装置104が
前記の蓄積されたノードメッセージ403を読み取るの
で、並列計算機システムを構成する複数のノード100
a〜100cのメインプロセッサ202がノードメッセ
ージ403を出力した後にその動作を停止した場合であ
っても、ノードメッセージ403を管理端末装置104
で一括して管理することが可能である。
【0231】(実施形態4)以下に、本発明の並列計算
機システムの管理装置において、ノード100a〜10
0cのメインプロセッサ202のシステム立ち上げ処理
を実行し、必要に応じてそのブートストラップデバイス
を変更してシステム立ち上げ処理を行う実施形態4につ
いて説明する。
【0232】本実施形態の並列計算機システムの管理装
置では、ブートストラップデバイスからのロード処理が
異常終了した場合に、ノード100a〜100cのメイ
ンメモリ204の内容を読み書きすることによってその
内容を変更し、ノード100a〜100cのメインプロ
セッサ202をリセットすることによって、他のブート
ストラップデバイスからのロード処理を行うことが可能
である。
【0233】本実施形態の並列計算機システムの管理装
置において、ノード100a〜100cのメインメモリ
204の内容を読み書きする場合には、「MS−REA
D」コマンド及び「MS−WRITE」コマンドを使用
する。これらのシステム制御コマンドは、ノード100
a〜100cのメインプロセッサ202にて通常の業務
として並列処理を実行中に障害が発生したときに、ノー
ド100a〜100cのメインメモリ204の内容を調
査する場合にも使用することが可能である。
【0234】また、本実施形態の並列計算機システムの
管理装置では、ノード100a〜100cのメインプロ
セッサ202、サブプロセッサ212及びプロセッサメ
モリ制御機構205等のハードウェアモジュール内のレ
ジスタの内容を読み書きすることも可能であり、その場
合には、「REG−READ」コマンド及び「REG−
WRITE」コマンドを使用する。
【0235】例えば、ノード100a〜100cのメイ
ンプロセッサ202にて、通常の業務である並列処理を
実行中に障害が発生した場合は、ノード100a〜10
0c内の各ハードウェアリソースが採取する障害ログを
レジスタに退避しておき、前記の「REG−READ」
コマンドにより管理端末装置104から前記障害ログを
読み出すことにより、管理端末装置104からの障害要
因の特定が可能となる。
【0236】また、本実施形態の並列計算機システムの
管理装置では、「STATUS−READ」コマンドに
より、ノード100a〜100cのステータスコードを
読み出し、システムダウンを起こしているノードがあれ
ば、「PROC−RESET」コマンドを送信すること
で、前記のシステムダウンを起こしているノードのメイ
ンプロセッサ202をリセットし、再起動させるオペレ
ーションも可能となる。
【0237】以下に、本実施形態の並列計算機システム
の管理装置におけるノード100a〜100cのメイン
プロセッサ202のシステム立ち上げ処理について説明
する。
【0238】図13は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのメイ
ンプロセッサ202のシステム立ち上げ処理手順を示す
フローチャートである。
【0239】図14は、本実施形態の並列計算機システ
ムの管理装置におけるノード100a〜100cのSR
AM214のメモリマップを示す図である。図14にお
いて、1400はプライマリブートストラップパス情
報、1401はオルタネートブートストラップパス情報
である。
【0240】図14に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのSRAM214のメモリマップは、オペレーティン
グシステム等のソフトウェア203を格納している第1
のブートストラップデバイスを示すプライマリブートス
トラップパス情報1400と、第1のブートストラップ
デバイスが使用できない場合に使用するブートストラッ
プデバイスを示すオルタネートブートストラップパス情
報1401とを備えている。
【0241】図13に示す様に、本実施形態の並列計算
機システムの管理装置におけるノード100a〜100
cのメインプロセッサ202のシステム立ち上げ処理手
順では、管理端末装置104からの電源投入指示により
主電源200が投入されると、メインプロセッサ202
によりブートストラップROM210に格納されている
ブートストラッププログラムが実行され、ステップ13
00の処理にて、SRAM214内のパネルステータス
管理領域のステータスコードを「1000」とし、ステ
ップ1301の処理にて、ノード100a〜100c内
の各ハードウェアモジュールの初期診断及び初期化を行
う。
【0242】ステップ1302の処理では、ステップ1
301の処理のハードウェアの初期診断及び初期化が正
常終了したかどうかをチェックし、ステップ1301の
処理でハードウェアの初期診断及び初期化が正常終了し
ている場合には、ステップ1303の処理に進む。
【0243】ステップ1301の処理でハードウェアの
初期診断及び初期化が異常終了している場合には、ステ
ップ1313の処理にて、当該ノードに備えられたパネ
ルにステータスコード「1FFF」を表示し、当該ノー
ドのメインプロセッサ202のシステム立ち上げ処理は
異常終了となる。
【0244】ステップ1303の処理では、ステータス
コードを「2000」とし、ステップ1304の処理に
て、SRAM214に格納されているハードウェア依存
情報のうち、図14に示すブートストラップパス情報を
参照し、プライマリブートストラップパス情報1400
にて指定されるブートストラップデバイス(例えば、シ
ステムディスク207等)から、オペレーティングシス
テム等のソフトウェア203をメインメモリ204にロ
ードする。
【0245】SRAM214内のブートストラップパス
情報は、ブートストラップROM210に格納されてい
るブートストラッププログラムの実行時にメインメモリ
204内の特定領域にコピーされ、システムが立ち上が
るとソフトウェア203にて参照可能となる。
【0246】また、本実施形態の並列計算機システムの
管理装置では、ブートストラップデバイスには、自ノー
ド内のローカルファイルの他にイーサネット経由(シス
テム制御インタフェース)にてbootpプロトコル
(Request For Connectブートのベ
ースとなるプロトコル)を使用し、イーサネットに接続
される他のノードから取得可能となるブートストラップ
ファイルも適用可能である。
【0247】ステップ1305の処理では、プライマリ
ブートストラップパス情報1400にて指定されるブー
トストラップデバイスからオペレーティングシステム等
のソフトウェア203をメインメモリ204にロードす
るロード処理が正常終了したかどうかをチェックしてお
り、前記のロード処理に成功すると、ステップ1306
の処理に進み、失敗するとステップ1314の処理に進
む。
【0248】ステップ1306の処理にて、ステータス
コードを「3000」とし、メインメモリ204にロー
ドされたソフトウェア203が起動され、ステップ13
07の処理でステータスコードを「A000」とし、ス
テップ1308の処理にて各種システムパラメータを設
定し、ステップ1309の処理にて、ファイルシステム
の初期化を行い、ステップ1310の処理にて、TCP
/IPなどのネットワークの初期化を行う。
【0249】本実施形態の並列計算機システムの管理装
置では、ノード100a〜100cのメインプロセッサ
202で動作するオペレーティングシステム及びネット
ワークソフトウェア等のソフトウェア203の機能を使
用するシステム運用支援インタフェースは、この時点で
使用可能となる。
【0250】ステップ1311の処理にて、アプリケー
ションソフトウェアの起動を行い、ステップ1312の
処理にてステータスコードを「F000」とし、メイン
プロセッサ202のシステム立ち上げ処理を終了する。
【0251】一方、ステップ1314の処理では、SR
AM214内のオルタネートブートストラップパス情報
1401を参照し、オルタネートブートストラップパス
情報1401にて指定されるブートストラップデバイス
(本実施形態の並列計算機システムの管理装置では特に
開示していないが、DAT(Digital Audi
o Tape)等の入出力装置)からのオペレーティン
グシステム等のソフトウェア203をメインメモリ20
4にロードする。
【0252】ステップ1315の処理にて、オルタネー
トブートストラップパス情報1401にて指定されるブ
ートストラップデバイスからのロードに成功したかどう
かをチェックし、成功するとステップ1306の処理に
進む。
【0253】ステップ1315の処理にて、オルタネー
トブートストラップパス情報1401にて指定されるブ
ートストラップデバイスからのロードが成功しない場
合、ステップ1316の処理にて、オペレータによるブ
ートストラップデバイス指定によりロード処理を行う。
【0254】ステップ1317の処理にて、ステップ1
316の処理でのオペレータのブートストラップデバイ
ス指定によるロード処理が正常終了したかどうかをチェ
ックし、正常終了している場合にはステップ1306の
処理に進み、正常終了していない場合には、ステップ1
318の処理にて、ステータスコードを「2FFF」と
し、メインプロセッサ202のシステム立ち上げ処理が
異常終了する。
【0255】前記の様にして行ったノード100a〜1
00cのメインプロセッサ202のシステム立ち上げ処
理が異常終了した場合には、さらに、以下の様に、ブー
トストラップデバイスを変更したシステム立ち上げ処理
を行う。
【0256】管理端末装置104のソフトウェア301
は、「MS−READ」コマンドを使用して、システム
制御インタフェース経由にて、ノード100a〜100
cのメインメモリ204のブートストラップパス情報が
格納されている前記特定領域を参照し、メインプロセッ
サ202のシステム立ち上げ処理に失敗したブートスト
ラップデバイスを確認する。
【0257】次に、管理端末装置104のソフトウェア
301は、「MS−WRITE」コマンドを使用し、シ
ステム制御インタフェース経由にて、ノード100a〜
100cのメインメモリ204のブートストラップパス
情報が格納されている前記特定領域に、メインプロセッ
サ202のシステム立ち上げ処理に失敗したブートスト
ラップデバイス以外のブートストラップデバイス名を書
き込む。
【0258】管理端末装置104のソフトウェア301
は、前記の様に、ノード100a〜100cのメインメ
モリ204の前記特定領域のブートストラップパス情報
を書き替えた後、「PROC−RESET」コマンドを
使用し、ノード100a〜100cのメインプロセッサ
202をリセットしてメインプロセッサ202のシステ
ム立ち上げ処理を再度行うことで、ブートストラップ先
を変更したシステム立ち上げ処理を行うことが出来る。
【0259】また、ブートストラップパス情報の書き換
えについては、ノード100a〜100cのメインプロ
セッサ202のシステム立ち上げ処理が正常終了してい
る場合には、以下の方法でも可能である。
【0260】すなわち、ノード100a〜100cのS
RAM214のブートストラップパス情報は、ノード1
00a〜100cのソフトウェア203からも書き換え
可能であるので、管理端末装置104のソフトウェア3
01は、システム運用支援インタフェース経由にて、ノ
ード100a〜100cのソフトウェア203に対し、
ブートストラップパス情報の書き換えを指示し、指示さ
れたソフトウェア203が当該ノードのブートストラッ
プパス情報を書き替える。
【0261】ノード100a〜100cのソフトウェア
203は、更新されたブートストラップパス情報をシス
テム制御インタフェース経由にて管理端末装置104の
ソフトウェア301に通知し、管理端末装置104のソ
フトウェア301が、システム制御インタフェース経由
にて、前記「PROC−RESET」コマンドを使用し
てノード100a〜100cのメインプロセッサ202
をリセットすれば、直ちに更新されたブートストラップ
パスからのロード処理が行われる。
【0262】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、管理端末装置104か
らの指示によりノード100a〜100cのメインメモ
リ204またはレジスタの内容を参照または更新するの
で、並列計算機システムを構成する複数のノード100
a〜100cの障害発生時のメインメモリ204の内容
を管理端末装置104で一括して管理することが可能で
ある。
【0263】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104からの指示によ
りノード100a〜100cのメインプロセッサ202
のリセットを行うので、並列計算機システムを構成する
複数のノード100a〜100cのメインプロセッサ2
02のリセットを管理端末装置104から一括して行う
ことが可能である。
【0264】また、本実施形態の並列計算機システムの
管理装置によれば、管理端末装置104は、ノード10
0a〜100cとの間のインタフェースを使い分けるこ
とが可能であり、管理端末装置104からの指示により
ノード100a〜100cのメインメモリ204のブー
トストラップパス情報を変更し、メインプロセッサ20
2のリセットを行うので、並列計算機システムを構成す
る複数のノード100a〜100cの特定のブートスト
ラップデバイスに障害が発生した場合に、管理端末装置
104からの指示により、ブートストラップデバイスを
変更してノード100a〜100cのメインプロセッサ
202のシステム立ち上げ処理を行うことが可能であ
る。
【0265】(実施形態5)以下に、本発明の並列計算
機システムの管理装置において、複数の管理端末装置を
用いて信頼性を向上させた実施形態5の概略構成につい
て説明する。
【0266】図15は、本発明の並列計算機システムの
管理装置において、管理端末装置を二重化した実施形態
5の概略構成を示す図である。図15において、105
eはシステム制御機構、106eは通信ケーブル、10
8eはLAN制御機構、109eは通信ケーブル、11
1は管理端末装置である。
【0267】図15に示す様に、本実施形態の並列計算
機システムの管理装置は、管理端末装置111と、通信
ケーブル106eと、通信ケーブル109eとを備え、
管理端末装置111は、システム制御機構105eと、
LAN制御機構108eとを有しており、管理端末装置
111のシステム制御機構105eを通信ケーブル10
6eを介してネットワーク集線装置107に接続し、管
理端末装置111のLAN制御機構108eを通信ケー
ブル109eを介してネットワーク集線装置110に接
続している。
【0268】前記の様に、本実施形態の並列計算機シス
テムの管理装置では、複数の管理端末装置104及び1
11を備えているので、1つの管理端末装置が故障して
も、他の管理端末装置により、並列計算機システムの運
用管理を続行することが可能であるが、複数の管理端末
装置を同時に使用して並列計算機システムの運用管理を
行うと、複数の管理端末装置が送信するシステム制御コ
マンドやアダプタ制御コマンドの内容が互いに競合する
ことがあるので、複数の管理端末装置を用いているとき
に管理端末装置の動作の競合を防止する処理が必要にな
る。
【0269】以下に、本実施形態の並列計算機システム
の管理装置において複数の管理端末装置を用いていると
きに管理端末装置の動作の競合を防止する処理手順につ
いて説明する。
【0270】図16は、本実施形態の並列計算機システ
ムの管理装置において複数の管理端末装置の動作の競合
を防止する処理手順を示すフローチャートである。
【0271】本実施形態の並列計算機システムの管理装
置において、管理端末装置を二重化している場合には、
管理端末装置の二重化情報を、例えば、管理端末装置1
04及び管理端末装置111の両方のソフトウェア30
1から参照可能な記憶領域に予め設定しておくことで、
二重化した管理端末装置の競合を防止することが可能と
なる。
【0272】図16に示す様に、本実施形態の並列計算
機システムの管理装置において管理端末装置を二重化し
ているときの処理手順では、ステップ1600の処理
で、管理端末装置104及び管理端末装置111の両方
のソフトウェア301は、管理端末装置が二重化されて
いることを示す二重化ビットを参照し、ビットが立って
いる場合には、管理端末装置が二重化されていることを
認識する。
【0273】ステップ1601の処理では、ネットワー
ク(例えば、システム運用支援インタフェース)経由に
て、相手の管理端末装置のIPアドレスを取得する。
【0274】ステップ1602の処理では、メイン管理
端末装置と、前記メイン管理端末装置をバックアップす
るサブ管理端末装置とを決定するため、例えば、IPア
ドレスの若い方をメイン管理端末装置、そうでない方を
サブ管理端末装置とする。
【0275】このとき、メイン管理端末装置のみを動作
させておき、前記メイン管理端末装置に障害が発生した
ときに、直ちにサブ管理端末装置に切り替える運用方法
と、メイン管理端末装置とサブ管理端末装置とを同時に
動作させる運用方法とを行うことが可能であるが、後者
の場合は、双方からのノード100a〜100cを制御
するシステム制御コマンドや、アダプタ制御コマンドの
内容が競合することがあるため、サブ管理端末装置から
送信可能なシステム制御コマンド及びアダプタ制御コマ
ンドを一部制限する。
【0276】例えば、ステップ1603の処理にて、自
管理端末装置がメイン管理端末装置であるかどうかを判
定し、メイン管理端末装置でなかった場合には、ステッ
プ1604の処理にて、システム制御コマンド(「P−
ON」「P−OFF」等)や、また、アダプタ制御コマ
ンド(「SET−CONNECT」等)を発行禁止にす
ることで、ノード100a〜100cを制御するシステ
ム制御コマンドや、アダプタ制御コマンドの内容が競合
しても、並列計算機システムとしての整合性を保つこと
が可能である。
【0277】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、複数の管理端末装置を
備えているので、1つの管理端末装置に障害が発生した
場合でも並列計算機システムの運用管理を続行し、並列
計算機システムの信頼性を向上させることが可能であ
る。
【0278】また、本実施形態の並列計算機システムの
管理装置によれば、複数の管理端末装置にメイン管理端
末装置とサブ管理端末装置とを設定するので、並列計算
機システムを複数の管理端末装置で管理した場合に、前
記複数の管理端末装置の動作の競合を防止することが可
能である。
【0279】(実施形態6)以下に、本発明の並列計算
機システムの管理装置において、管理端末装置104に
補助電源で動作する電源投入論理を付加し、管理端末装
置104の主電源を遠隔地から投入することにより並列
計算機システムの主電源の投入を行う実施形態6につい
て説明する。
【0280】図17は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104に補助電源で
動作する電源投入論理を付加した場合の管理端末装置内
のハードウェアの概略構成を示す図である。図17にお
いて、1700は補助電源、1701は電源投入論理、
1702は電源制御信号、1703は主電源、1704
は端末装置、1705はネットワークである。
【0281】図17に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104は、
補助電源1700と、電源投入論理1701と、主電源
1703とを備え、補助電源1700から電力の供給を
受けている電源投入論理1701を電源制御信号170
2を介して主電源1703に接続すると共にネットワー
ク1705を介して別の端末装置1704に接続してい
る。
【0282】図17に示す様に、本実施形態の並列計算
機システムの管理装置における管理端末装置104は、
補助電源1700で動作する電源投入論理1701を設
けており、電源投入論理1701は、ここでは特に図示
していないが、ネットワーク制御部、電源制御部及びマ
イクロプロセッサ等から構成されており、ネットワーク
1705経由で電源制御指示を受け取ると、主電源17
03を制御する論理回路を備えている。
【0283】この電源投入論理1701により、例えば
下記のような管理端末装置104の遠隔オペレーション
が可能となる。
【0284】本実施形態の並列計算機システムの管理装
置において、ネットワーク1705で接続された別の端
末装置1704は、例えばtelnetプロトコルを使
用して、電源投入論理1701にログインする。(この
時、管理端末装置104には補助電源1700が投入さ
れている状態である。)次に、端末装置1704は、電
源投入論理1701にパワーオンコマンドを発行する。
電源投入論理1701は、パワーオンコマンドを受け取
ると、外部から電源投入指示があったことを認識し、電
源制御信号1702を出力し、管理端末装置104の主
電源1703を投入する。
【0285】管理端末装置104の主電源1703が投
入されると、ブートストラップROM303に格納され
ているブートストラッププログラムが管理端末装置10
4のシステム立ち上げ処理を行い、ソフトウェア301
を起動する。
【0286】図18は、本実施形態の並列計算機システ
ムの管理装置における管理端末装置104のシェルプロ
グラムの一例を示す図である。ここで、シェルプログラ
ムとは、汎用のオペレーティングシステムであるUNI
Xで実行される複数のコマンド名またはプログラム名を
記載した、一連の手続きを行うプログラムを指すが、図
18においては、UNIXのコマンド名またはプログラ
ム名の代わりに、そのコマンドの機能を簡単に記載して
いる。
【0287】図18に示す様に、本実施形態の並列計算
機システムの管理装置の管理端末装置104のシステム
立ち上げ処理の際に実行されるシェルプログラムに、予
め、ノード100a〜100cの主電源200を投入指
示するシステム制御コマンドを記載しておき、管理端末
装置104の主電源1703が投入されたときに、この
シェルプログラムが実行されるようにしておく。
【0288】このようにすることで管理端末装置104
の起動を契機として、ノード100a〜100cの主電
源200を投入し、ノード100a〜100cのメイン
プロセッサ202のシステム立ち上げ処理を自動的に行
うことが可能である。
【0289】以上説明した様に、本実施形態の並列計算
機システムの管理装置によれば、遠隔地からのアクセス
により管理端末装置104の主電源1703を投入し、
さらにノード100a〜100cの起動(主電源200
の投入)が可能となり、並列計算機システムの運用管理
を遠隔地から行うことができる。
【0290】以上、説明してきた本実施形態の並列計算
機システムの管理装置では、特に図示していないが、下
記のようなシステムにも適用可能である。
【0291】(1)各ノードに汎用のオペレーティング
システムを搭載していない、特定の機能を実行する専用
の並列計算機システムにおいては、汎用のオペレーティ
ングシステムのネットワーク機能を使用しない前記シス
テム制御インタフェースのみを用いて運用管理を行う。
【0292】本発明の並列計算機システムの管理装置に
よれば、前記システム制御インタフェースは、運用管理
の対象となるプロセッサとは独立した補助電源とネット
ワーク機能を備えており、汎用のオペレーティングシス
テムのTCP/IP等のネットワーク機能を使用しない
ので、前記汎用のオペレーティングシステムを搭載して
いない専用の並列計算機システムにおいても適用するこ
とが可能である。
【0293】(2)各ノードに補助電源で動作する機能
を持たない、或いは補助電源で動作する機能が限定され
ている様な並列計算機システムにおいては、補助電源を
使用しない前記システム運用支援インタフェースのみを
用いて管理を行う。
【0294】この場合には、主電源の投入等、補助電源
を必須とする機能を除き、システム制御インタフェース
の機能をシステム運用支援インタフェースによって代行
することにより、本発明の並列計算機システムの管理装
置を適用することが可能である。
【0295】以上、本発明を、前記実施形態に基づき具
体的に説明したが、本発明は、前記実施形態に限定され
るものではなく、その要旨を逸脱しない範囲において種
々変更可能であることは勿論である。
【0296】
【発明の効果】本願において開示される発明のうち代表
的なものによって得られる効果を簡単に説明すれば、下
記のとおりである。
【0297】
【0298】
【0299】
【0300】
【0301】
【0302】
【0303】
【0304】
【0305】
【0306】遠隔地からのアクセスにより管理端末装置
の主電源を投入し、さらに複数のノードの主電源を投入
するので、並列計算機システムの運用管理を遠隔地から
行うことが可能である。DETAILED DESCRIPTION OF THE INVENTION
[0001]
The present invention relates to a parallel computer system.
In particular, a parallel computer system is configured for the system management device.
Main processor of multiple nodes not working
Perform maintenance and management of the plurality of nodes even in the case
Effective technology applied to the management system of parallel computer systems
It is about.
[0002]
2. Description of the Related Art Conventionally, a computer comprising a plurality of computers
Regarding the system operation management method and its execution device,
Several have been proposed.
The control of a plurality of UNIX (registered trademark) machines
Operation and monitoring problems that occur when the soles are combined into one
Centralized operation and operation of multiple UNIX machines to prevent
For the monitoring console display, see
No. 2,147,633.
[0004] The outline is to concentrate multiple UNIX machines
Center console, which is a server to operate and manage
Destination table that stores command destinations for each operation purpose
File according to the destination table.
Is to execute.
[0005] A composite computer system comprising a plurality of computers
Connected by a single system console on the system
Error when performing maintenance and operation by switching computers
Console in compound computer system to prevent operation
The switching control method is disclosed in JP-A-5-120247.
It is stated in the report.
[0006] An overview of this is based on service programs in a plurality of computers.
Connect the processors to a switching device, and connect the
Connect the system console and from the system console
Outputs a message using an identifier that identifies the computer.
By switching the target computer sequentially, multiple
In this method, one system console is shared by computers.
When performing maintenance and operation using the system console
The identifier of the computer on which the operation is to be performed and the system
Compare the identifiers of computers connected to the console
Perform the operation if the identifiers match.
You.
[0007] From each computer constituting the distributed processing system
Centralized message management system for centralized management of messages
This is described in JP-A-5-20281.
You.
[0008] The outline is that the
A central management node is determined in multiple computers, and the central management
Operation status messages issued by the monitored node
This is a method for centrally managing the data.
[0009]
SUMMARY OF THE INVENTION The inventor of the present invention
As a result of studying the technology, the following problems were found.
That is, the conventional computer comprises a plurality of computers.
The management device of the computer system
Use the functions of network software running on
If the computer to be managed is not
If the operating system is not operating and the network
If the network software is not running,
There was a problem that management could not be performed.
Centralized operation of the conventional plurality of UNIX machines
And how to use the monitoring console display
The managed computers are operating system
Operating system UNIX is assumed to be operating.
If the rating system is not running,
Central operation and monitoring cannot be performed from the sole display
There was a problem.
[0012] The core in the conventional complex computer system is
Console switching control, the system console and each
There is a switching device between the service processor
Therefore, special hardware such as a switching device will be required
There was a problem.
In the conventional message centralized management system,
Messages are sent from multiple computers to the central management node.
The central management node goes down.
The centralized management of messages
And the message is the network to which the node is connected.
Operation via each node
If the operating system and network are not running
In this case, the status of each node must be managed from the central management node.
There was a problem that can not be.
[0014]
[0015]
[0016]
[0017]
[0018]
[0019]
[0020]
[0021]
[0022]
The present inventionEyesThe goal is to run parallel computer systems.
Provide technology that enables remote management of
And there.
The above and other objects of the present invention and a novel
Features will be apparent from the description of this specification and the accompanying drawings.
Will be.
[0025]
SUMMARY OF THE INVENTION The present invention is disclosed.
Of the inventions, a brief description of the typical ones is as follows:
It is as follows.
[0026]
[0027]
[0028]
[0029]
[0030]
[0031]
[0032]
[0033]
[0034]
[0035]
[0036]
[0037]
[0038]
[0039]
[0040]
[0041]
[0042]
[0043]
[0044]
[0045]
[0046]
[0047]
[0048]
[0049]
[0050]
[0051]
[0052]
[0053]
[0054]
[0055]
[0056]
[0057]
[0058]
[0059]
[0060]
[0061]
[0062]
[0063]
[0064]
[0065]
[0066]
[0067]
[0068]
[0069]
[0070]
[0071]
[0072]
[0073]
[0074]Parallel connection of multiple computer nodes
Equipped with a management terminal device for managing the computer systemParallel meter
In the management device of the computer system,The plurality of nodes
Operates on the main power supply of the node and executes parallel processing.
Powered by the main processor and the auxiliary power supply of the node.
System control frame for managing the main processor
And a sub-processor for executing commands.
Operate and communicate with the management terminal device, the management terminal
Control based on system control commands issued from the device
System control mechanism for generating data and system control
Connect to the management terminal on a different network
The application of the node under the control of the management terminal device.
LAN control mechanism to manage application software
Prepare,The management terminal device,A plurality of said plurality of nodes
A system control mechanism that communicates with the system control mechanism;Supplement
Operates on the auxiliary power supply, and when a specific signal is input, the management terminal
Power-on logic for turning on the main power of the device, and power-on
When the main power is turned on by logic, the plurality of nodes
Turn on the main power supply to the sub-processors in batch or individually
System control commandsVia the system control mechanism
soMeans to sendAnd a plurality of systems of the plurality of nodes.
Stem control mechanism and system control mechanism of the management terminal device
And a plurality of main nodes of the plurality of nodes.
The system control command for managing the processor is transmitted to the management terminal.
Device to a plurality of system control mechanisms of the plurality of nodes
System control interface to send toWith
is there.
BeforeOfWith the management device of the parallel computer system
Is operated by an auxiliary power supply and transmits a specific signal to the management terminal device.
Input the main power of the management terminal device.
Connect the power-on logic and connect the power-on logic to the network
And other communication lines.
Further, the main power of the management terminal device is turned on.
At the end of the system startup process that is executed when
Collectively or individually to the sub processors of the plurality of nodes
A program that sends a system control command to turn on the main power
Add a gram.
Next, the network and other communication lines are connected.
A specific signal from another terminal device to the power-on logic.
And the main power supply of the management terminal device is turned on.
The main power of the management terminal device is turned on.
And the system startup processing of the management terminal device was performed.
Later, collectively or individually to the sub-processors of the plurality of nodes.
Send a system control command to turn on the main power separately
The program is executed and the parallel computer system is operated.
To start, the operator directly operates the management terminal device
It can be done without.
As described above, the parallel computer system
According to the management device, the management terminal
Since the main power of the device is turned on, the operation of the parallel computer system
Management can be performed from a remote location.
[0080]
BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, the present invention will be described with reference to embodiments.
This will be described in detail with reference to the drawings.
Note that, in all drawings for explaining the embodiment, FIG.
And those having the same function are given the same reference
The description of the return is omitted.
(Embodiment 1) The parallel computing of the present invention will be described below.
Configuration of Embodiment 1 for Implementing Management Device for Machine System
Will be described.
FIG. 1 is a diagram showing a pipe of a parallel computer system according to the present invention.
1 is a diagram showing a schematic configuration of a first embodiment for implementing a processing device.
You. In FIG. 1, 100a to 100c are nodes, 10
1 is a communication processing device, and 102a to 102c are communication interfaces.
Ace mechanism, 103a to 103c are communication cables, 10
4 is a management terminal device, 105a to 105d are system control
Mechanism, 106a to 106d are communication cables, 107 is
Network concentrators 108a-108d are LAN (L
ocal Area Network) control mechanism, 10
9a to 109d are communication cables, 110 is a network
It is a line concentrator.
As shown in FIG. 1, the parallel computer of this embodiment
System management device constitutes a parallel computer system
Nodes 100a to 100c and node 10 in parallel processing
Communication processing device 101 for controlling communication in 0a to 100c
And a pipe for performing system management of the nodes 100a to 100c.
Management terminal device 104, management terminal device 104 and node 10
Network concentrator 10 for connecting 0a-100c
7 and a network concentrator 110.
The management terminal device 104 includes a system control mechanism 105a and L
The node 100a has an AN control mechanism 108a.
Communication interface mechanism 102a and system control mechanism 1
05b and the LAN control mechanism 108b, and the node 1
00b is a communication interface mechanism 102b and a system.
System control mechanism 105c and LAN control mechanism 108c.
And the node 100c communicates with the communication interface
c, the system control mechanism 105d, and the LAN control mechanism 1
08d.
Further, as shown in FIG.
In the management device of the computer system, the nodes 100a to 10a
0c through the communication interface mechanisms 102a to 102c.
Communication cables 103a to 103c and communication processing device 101
Through the nodes 100a to 100c
The control mechanisms 105b to 105d are connected to the communication cables 106a to 106d.
Management via 106d and network concentrator 107
Connect to the system control mechanism 105a of the terminal device 104,
LAN control mechanism 108b of nodes 100a to 100c
108d is a communication cable 109a-109d and a network
L of the management terminal device 104 via the work concentrator 110
It is connected to the AN control mechanism 108a.
The management system of the parallel computer system of the present embodiment
System control interface, as described above,
System control mechanism 105a on terminal device 104 side and node
System control mechanisms 105b-1 on the 100a-100c side
05d to a communication cable such as Ethernet (registered trademark)
Concentration of network such as 106 and multiport repeater
Implemented by interconnecting using device 107
Interface.
The parallel computer system according to the present embodiment
The system operation support interface of the management device is
LAN control mechanism 108a on the terminal 104 side and the node 10
LAN control mechanisms 108b to 108d on the side of 0a to 100c
And communication cable 109 such as Ethernet
-Using a network concentrator 110 such as a repeater
An interface realized by interconnecting
You.
The system operation support interface includes:
An interface that manages the operation of a conventional parallel computer system
And the main process of the nodes 100a to 100c.
The node 100a-1 is used when the server is operating.
Application running on main processor 00c
Management software to output messages output by the
System management such as display on the display 104 is performed.
The parallel computer system according to the present embodiment will be described below.
Of the parallel computer system in the management device
The nodes 100a to 100c will be described.
FIG. 2 shows a parallel computer system according to the present embodiment.
Of the parallel computer system in the management device
FIG. 2 is a diagram illustrating a schematic configuration of nodes 100a to 100c.
In FIG. 2, reference numeral 200 denotes a main power supply, and 201 denotes a main power supply.
Auxiliary power supply, 202 is main processor, 203 is software
Hardware, 204 is the main memory, 205 is the processor
Memory control mechanism, 206 is system bus, 207 is system
Disk, 208 is an I / O control mechanism, 209 is an RS-
232C control mechanism, 210 is bootstrap ROM
(Read Only Memory), 211 is cis
System support mechanism, 212 is a sub processor, 213 is
ROM and 214 are SRAM (Static Lando)
m Access Memory; nonvolatile memory), 2
15 is a local bus, 216 is a power on / off signal, 2
17 is a processor reset signal, 218 is LAN control
Section, 219 is an RS-232C control section, and 220 is a processor.
221 is a ROM, 222 is a RAM (Random)
Access Memory) 223 is a data interface.
A face 224 is a control interface.
As shown in FIG. 2, the parallel computer of this embodiment
The nodes 100a to 100c of the management device of the system
Communication interface mechanism 102a-102c and system
Control mechanisms 105b to 105d and LAN control mechanism 108
b to 108d, and the nodes 100a to 100c
Run application software that performs column processing
A main processor 202 and a sub-processor 212
System support mechanism 211, main power supply 200,
An auxiliary power supply 201 is provided.
The parallel computer system according to the present embodiment
The nodes 100a to 100c of the management device
Operating system executed by the server 202
And network software 20
3 and main memory 20 for storing software 203
4, the main processor 202 and the main memory 204
Memory Control Mechanism for Interface Control
205, a system bus 206, and a system disk 2
07 and I / O control for controlling the system disk 207
Mechanism 208, node message output and system control
Interaction with the operator via mechanisms 105b-105d
RS-232C control mechanism 20 for active exchange
9 and system startup processing of the main processor 202
Bootstrap that contains the bootstrap program
And a strap ROM 210.
The management system of the parallel computer system of the present embodiment
In the configuration, a sub processor 212 is provided,
Performs system control such as status management of the processor 202
The system support mechanism 211 includes a sub-processor 212
ROM 21 storing a control program that operates on
3 and SR storing hardware-dependent information
AM 214 is provided.
The management system of the parallel computer system of the present embodiment
System control mechanism 10 of each of the nodes 100a to 100c
5b to 105d are Ethernet communication with the management terminal device 104.
LAN control unit 218 for controlling transmission and reception of net packets
, RS-232C control mechanism 209 and sub-processor
Control the transmission and reception of RS-232C packets between
Controlling the RS-232C control unit 219 and the Ethernet
Protocol conversion between packet and RS-232C packet
And a processor that operates on the processor 220.
ROM 221 for storing a control program
Sent from the processor 212 and the RS-232C control mechanism 209
RAM 222 for storing incoming node messages
It has.
As shown in FIG. 2, the parallel computer of this embodiment
In the nodes 100a to 100c of the system management device,
The system control mechanisms 105b to 105d are
C control unit 219, data interface 223, and R
S-232C control mechanism 209 and system bus 206
Through the processor memory control mechanism 205
Connected to the processor 202;
05b to 105d are transmitted to the RS-232C control unit 219 and
System support mechanism via the control interface 224
Connected to the sub-processor 212 of the
The sub processor 212 of the
215 and the processor memory control mechanism 205
It is connected to the main processor 202. In addition,
The processor 212 responds to the processor reset signal 217.
Reset the main processor 202 and turn on / off the power.
The main power supply 200 is controlled by the disconnection signal 216.
Note that, as shown in FIG.
To the nodes 100a to 100c of the management system of the computer system
In addition, the system control mechanisms 105b to 105d
-232C control unit 219 and data interface 22
3 and the main unit via the RS-232C control mechanism 209.
Connected to the processor 202 is a system controller
Between the structures 105b to 105d and the main processor 202
With a serial interface such as RS-232C.
Communication software
And when a failure occurs in the main processor 202.
If any, the system control mechanisms 105b to 105d and the main
Communication with the processor 202 is impaired as much as possible.
This is to ensure that they are not lost.
The management system of the parallel computer system of the present embodiment
Nodes 100a to 100c operate on the main power supply 200
And a part operated by the auxiliary power supply 201.
ing.
The parts operated by the main power supply 200 include:
The main processor 202 of the
Main memory 204 for storing software 203,
Interface between the main processor 202 and the main memory 204.
Processor memory control mechanism 205 for performing
Of the main processor 202 of each of the cards 100a to 100c.
Bootstrap program that performs system startup processing
Bootstrap ROM 210 that stores
These are connected to the communication interface via the system bus 206.
Interface mechanisms 102a to 102c, LAN control mechanism 1
08b to 108d are connected.
207 is connected via an I / O control mechanism 208.
The parts operated by the auxiliary power supply 201 include:
Control of main power supply 200 of nodes 100a to 100c and main
Control such as status management of the processor 202
And a system support mechanism 211 that performs
Communication between the nodes 100a to 100c and the management terminal device 104
There are system control mechanisms 105b to 105d for controlling.
[0101] The sub-processor 212
The power on / off signal 216 is output according to the instruction from the controller 04
By controlling the main power supply 200, the processor
By outputting the set signal 217, the main processor
It has a function to reset 202.
The node messages of the nodes 100a to 100c
The main processor 202 operates and the main
An operating system that controls the processor 202;
Software 203 which is network software
In the activated state, the data interface 223
From the RS-232C control mechanism 209 to the RAM 22
2 and the software 203 is not running
In this state, the control interface
Bootstrap message or the like via source 224
Stored in AM 222.
The management system of the parallel computer system of this embodiment
Processor of the system control mechanism 105b to 105d
220 is the following in addition to the protocol conversion of the packet.
The following processing is also performed.
That is, the e-mail from the management terminal device 104
Interpret the Ethernet packet and process according to the contents of the packet.
And RAM in accordance with an instruction from the management terminal device 104.
Management terminal device storing the node message stored in the storage device 222
A process for transmitting to the sub-processor 212 is performed.
Is the password sent through the control interface 224.
Interpret the packet and perform control according to its contents.
The parallel computer system according to the present embodiment will be described below.
The general configuration of the management terminal device 104 of the management device of FIG.
I will tell.
FIG. 3 shows a parallel computer system according to the present embodiment.
Is a diagram showing a schematic configuration of a management terminal device 104 of the management device of FIG.
is there. In FIG. 3, reference numeral 300 denotes a processor, and 301 denotes a software.
Software, 302 is main memory, 303 is boots
A trap ROM 304, a processor memory control mechanism,
305 is a system bus, 306 is an I / O control mechanism, 30
7 is a system disk, 308 and 309 are RS-232
C control mechanism, 310 is a graphics control mechanism, 311
Is a LAN controller, 312 is an RS-232C controller, 31
3 is a processor, 314 is a ROM, 315 is a RAM, 3
16 is a control interface, 317 is a data interface
It is a source.
As shown in FIG. 3, the parallel computer of this embodiment
The management terminal device 104 of the system management device is a management terminal
A processor that controls and controls all processes in the device 104
300 and the operating system of the management terminal device 104.
System and network software
A main memory 302 in which the memory 301 is stored;
Boots up to perform system startup processing of
Bootstrap RO storing wrap program
M303, processor 300, main memory 302 and
And interface control of bootstrap ROM 303
And a processor memory control mechanism 304 for performing
You.
The parallel computer system of the present embodiment
The management terminal device 104 of the management device includes a system bus 305
And an I / O control mechanism for controlling the system disk 307
306, system disk 307, and software 3
01 for the nodes 100a to 100c such as power control.
RS-23 used when issuing a stem control command
The 2C control mechanism 308 is connected to the node message output and system
Interaction with the operator via the system control mechanism 105a
RS-232C control mechanism 30 for active exchange
9 and display terminal, keyboard and mouse
Graphics that control man-machine interfaces such as
Control mechanism 310, the system control mechanism 105a,
It has.
The management system of the parallel computer system of this embodiment
System control mechanism 105a of the management terminal device 104
Is an Ethernet path between the nodes 100a to 100c.
A LAN control unit 311 for controlling transmission and reception of the
RS-232C between control mechanisms 308 and 309
RS-232C system for controlling transmission and reception of 232C packets
Control unit 312, Ethernet packet and RS-232C
Processor 313 that performs protocol conversion with packets
And a control program operated by the processor 313 are stored.
ROM 314 and the nodes 100a to 100c
RAM 315 for storing incoming node messages
It has.
Further, as shown in FIG.
In the management terminal device 104 of the management device of the computer system,
Processor 300 to processor memory control mechanism 304
Main memory 302, bootstrap ROM 3
03 and the system bus 305,
To the system bus via the I / O control mechanism 306.
305, and the LAN control mechanism 108a and the RS-2
32C control mechanisms 308 and 309 and graphics system
The control mechanism 310 is connected to the system bus 305.
Further, as shown in FIG.
In the management terminal device 104 of the management device of the computer system,
RS-232C control unit 31 of system control mechanism 105a
2 with the control interface 316 and the data interface
RS-232C control mechanism 308 via the source 317 and
309.
The management system of the parallel computer system of the present embodiment
, The system control interface is node 1
00a to 100c system control mechanisms 105b to 105
d and the system control mechanism 105 a of the management terminal device 104.
Must be interconnected using an Ethernet cable, etc.
Is formed.
The system control interface is
The system control mechanism 105a on the terminal device 104 side can operate
And the auxiliary power supply for the nodes 100a to 100c
201 is turned on, and the sub-processor 212 and the
With the stem control mechanisms 105b to 105d operable
If any, the main power supply 200 of the nodes 100a to 100c is turned on.
The main processor 202 is not running.
Control the entire main processor 202
Operating system and network software
Even if the software 203 is not running.
Is available.
In contrast, the system operation support interface
Source is the LAN control mechanism 108a of the management terminal device 104.
And LAN control mechanism 108b of nodes 100a to 100c
To 108d using Ethernet cable etc.
The system operation is formed by connecting
The support interface is TCP / IP (Transmi
session Control Protocol / In
telnet protocol)
E of the management terminal device 104 and the nodes 100a to 100c.
Operating system and its network software
Software 203 and software 301
Is started and a network that supports TCP / IP
Available only when the software is running
You.
Hereinafter, the parallel computer system according to the present embodiment will be described.
Terminal device 104 and the nodes 100a to 1
The communication sequence with 00c will be described.
FIG. 4 shows a parallel computer system according to this embodiment.
Terminal device 104 and the nodes 100a to 1
It is a figure which shows an example of the communication sequence with 00c. FIG.
, 401 is an adapter control command and its
And 402, a system control command and its response.
403 is a node message.
As shown in FIG. 4, the parallel computer of this embodiment
In the system management device, the adapter control command and its
Response 401 or a system control command and
And transmission and reception of the packet which is the response 402
Communicates by sending and receiving node messages 403.
U.
Adapter control command and its response
Reference numeral 401 denotes the software of the management terminal device 104.
Communication with the system control mechanism 105a of the management terminal device 104
And the sub processor 212 controls the system.
Used to communicate with the mechanisms 105b to 105d and control
Interface 316 or control interface 224
Sent and received via
System control command and its response
402, the software 301 of the management terminal device 104
Communication with the sub-processors 212 of the nodes 100a to 100c
Control interface 316 and control
It is transmitted and received via the control interface 224.
The node message 403 is software
When the sub-processor 212 is not running,
To the RAM 22 of the system control mechanisms 105b to 105d
2 and stored, and the software 203
When activated, the main processor 202
System control mechanism 10 from S-232C control mechanism 209
5b to 105d RAM 222
You.
R of system control mechanisms 105b to 105d
The node message 403 stored in the AM 222 is
In response to a request from the management terminal device 104, the nodes 100a to 100a
RA of the system control mechanism 105b-105d of 100c
From M222, the system control mechanism of the management terminal device 104
105a, the RS-232C of the management terminal device 104
Sent to the control mechanism 309,
Graphics connected to fix control mechanism 310
It is displayed on a display or the like.
Hereinafter, the parallel computer system according to the present embodiment will be described.
Control command and its control in the management device
The packet format of the response 401 will be described.
You.
FIG. 5 shows a parallel computer system according to this embodiment.
Control command and its control in the management device
FIG. 3 is a diagram showing a packet format of a Ponce 401.
In FIG. 5, reference numeral 501 denotes a type field, and 502 denotes transmission.
Source address field, 503 is the destination address field
Field, 504 is an information field, and 505 is an identifier.
You.
As shown in FIG. 5, the parallel computer of this embodiment
An adapter control command in the system management device;
The packet of the response 401 has a type field 5
01, a source address field 502, and a destination address.
Dress field 503 and information field 504
And an identifier 505.
The management system of the parallel computer system of the present embodiment
In the type field 501, the adapter control
Command or its response packet
An identifier, for example, “A” is stored in the
Field 502 contains the source address and destination address of the packet.
The destination address of the packet is stored in the dress field 503.
Is stored.
In the information field 504, the packet
Different parameters are stored depending on the type of
In addition, the end of the packet has an identification that indicates the end of the packet.
Child 505, for example, "LF" (line feed) is added.
It is.
Hereinafter, the parallel computer system according to the present embodiment will be described.
Control command and its control in the management device
The packet format of the Ponce 402 will be described.
You.
FIG. 6 shows a parallel computer system according to this embodiment.
Control command and its control in the management device
FIG. 4 is a diagram showing a packet format of a Ponce 402.
In FIG. 6, reference numeral 601 denotes a type field, and 602 denotes transmission.
Source address field, 603 is the recipient address field
Field, 604 is an information field, and 605 is an identifier.
You.
As shown in FIG. 6, the parallel computer of this embodiment
A system control command in a system management device; and
The packet of the response 402 has a type field 6
01, a source address field 602, and a destination address
Dress field 603 and information field 604
And an identifier 605.
The management system of the parallel computer system of the present embodiment
In the field, the type field 601 includes the system control
A packet that indicates a command or its response
A packet identifier, for example, "d" is stored in the
The field 602 contains the source address and the destination of the packet.
The address field 603 contains the destination address of the packet.
Is stored.
The information field 604 contains a packet
Different parameters are stored depending on the type of
At the end of the packet, an identifier indicating the end of the packet
605, for example, “LF” is added.
Further, the parallel computer system of the present embodiment
In the management device, the transmission packet from the management terminal device 104 is transmitted.
Hexadecimal number in the destination address field 603 of the
When “0xffffffff” is stored, the packet
Is a broadcast packet, and all nodes 1
00a to 100c.
The pipes of the parallel computer system of the present embodiment
In the processor, the number with “0x” added is a hexadecimal number
Shall be shown.
Hereinafter, the parallel computer system according to the present embodiment will be described.
Control mechanisms 105a to 105 in the management device of
d, mode transition between packet mode and non-packet mode
Will be described.
FIG. 7 shows a parallel computer system according to this embodiment.
Shows the mode transition of the system control mechanism in the management device
FIG. In FIG. 7, reference numeral 701 denotes a packet mode;
702 is a non-packet mode, and 703 is “SET-MOD
E "command.
As shown in FIG. 7, the parallel computer of this embodiment
The system control mechanism in the system management device is fixed
A packet mode 701 for transmitting and receiving long packets,
Non-packet for sending and receiving node message 403 of undefined length
A packet mode 701, and a packet mode 702.
The mode transition of the packet mode 702 is performed by the sub processor
"SET-M" which is an adapter control command
This is performed by executing the “ODE” command 703.
As described above, the parallel computer system of this embodiment is
System control mechanisms 105a to 105d of system management devices
The operation modes are packet mode 701 and non-packet mode.
There are two types of modes 702, the packet mode 701
Is connected to the management terminal device 104 and the plurality of nodes 100a to 100a.
0c is a mode set when performing communication,
The connection mode 702 is for connection-oriented communication with a specific node.
And sends a node message 4 from the specific node.
03 to be displayed on the management terminal device 104.
Mode.
The pipes of the parallel computer system of the present embodiment
In the management device, the management terminal device 104 and the node 100
a to 100c system control mechanisms 105a to 105d
Switches to the packet mode 701 when the auxiliary power supply 201 is turned on.
It works.
Hereinafter, the parallel computer system of this embodiment will be described.
Control mechanisms 105a to 105 in the management device of
Transition of connection state in non-packet mode 702 of d
The transfer will be described.
FIG. 8 shows a parallel computer system according to this embodiment.
Non-packet mode of the system control
FIG. 10 is a diagram showing transition of the connection state in the node 702.
8, reference numeral 800 denotes a disconnected state, and 801 denotes a disconnected state.
Wait connected state, 802 is connected state, 803
Is "SET-CONNECT" command, 804 is management
System control mechanism 105a and node on terminal device 104
System control mechanism 105b-1 on 100a-100c
05c.
As shown in FIG. 8, the parallel computer of this embodiment
Non-package of system control mechanism in system management device
In the connection state in the cut mode 702, the partner
No stem control mechanism is connected and no
Disk message 403 is not stored.
Connected state 800 is connected to partner system control mechanism
The node message 403 is not stored in the RAM 222
A wait connect state 801 that is accumulating in the
Connected state where the partner system control mechanism is connected
802, and the transition of the connection state is “S
ET-CONNECT "command 803 or system
This is performed by call control 804 from the control mechanism.
As shown in FIG. 8, the parallel computer of this embodiment
In the system management device, the non-packet mode 702
When setting, disconnect state 800, wait connect
Connection state 801 and connection state 802
In the disconnect state 800, the system state is maintained.
Communication between the system control mechanisms becomes impossible, and wait connection
In the default state 801, communication with the partner system control mechanism is
Although not possible, the node message 403 is stored in the RAM 22
2 are sequentially stored.
The system control mechanisms for communication are connected
In the non-packet mode 702 when in the
Connection type communication becomes possible.
These states are described in “SET-CONNECT”.
The transition is made by issuing a “T” command 803. Ma
Also, call control 804 from the partner system control mechanism
If there is a connect request, wait connect state 80
The state transits from 1 to the connect state 802.
The management system of the parallel computer system of the present embodiment
Control commands used by the device and their responses
Table 1 shows a list of the resources 401. In Table 1, the information section
The information stored in the information field 504 is shown.
The number in byte 0 of the information part is a number indicating the packet type.
No.
[0146]
[Table 1]
The management system of the parallel computer system of the present embodiment
Control commands used by the device and their responses
Table 2 shows a list of the resources 402. In Table 2, the information section is
The information stored in the information field 604 is shown.
The number in byte 0 of the information part is a number indicating the packet type.
No.
[0148]
[Table 2]The following describes the parallel computer system of the present embodiment.
Of the nodes 100a to 100c in the management device
Of the processor 220 of the system control mechanisms 105b to 105d.
The management procedure will be described.
FIG. 9 shows a parallel computer system according to this embodiment.
Of the nodes 100a to 100c in the management device
Of the processor 220 of the system control mechanisms 105b to 105d.
9 is a flowchart showing a part of a management procedure.
As shown in FIG. 9, the parallel computer of this embodiment
Nodes 100a to 100c in system management device
Processor 2 of the system control mechanism 105b to 105d
In step 20, in the process of step 900, “SET-CO
NNECT ”command or call control by the management terminal 10
4 to check if there is a connect request.
In the process of step 900, “SET-CO
NNECT ”command or call control by the management terminal 10
If there is a connect request from step 4, step 901
To the system control of the nodes 100a to 100c.
Control mechanism 105b-105d is in non-packet mode 702
Check if there is.
In the process of step 901, the node 100a
To 100c are not controlled by the system control mechanisms 105b to 105d.
If it is the packet mode 702, the process of step 902
The processing proceeds to step 901, and the nodes 100a-1
00c is a non-packet.
If not in the cut mode 702, the
And a system control command from the sub processor 212.
By “SET-MODE”, the nodes 100a to 100
non-packet with the system control mechanisms 105b to 105d
The mode is set to mode 702, and the process proceeds to step 902.
In the process of step 902, the node 100
a to 100c of the system control mechanisms 105b to 105d
The node message 403 stored in the RAM 222 is
To management terminal device 104 via stem control interface
Then, the process returns to step 900.
In the processing of step 900, “SET-CO
NNECT ”command or call control by the management terminal 10
If there is no connect request from step 4,
Proceed to the process, and in the process of step 904, the system control
The system control from the management terminal device 104 is executed by a command.
Check to see if you have.
In the processing of step 904, the system
A system from the management terminal device 104 is issued by a control command.
If there is a program control, the process proceeds to step 905,
System control mechanism 105b of nodes 100a to 100c
Check if ~ 105d is in packet mode 701
I do.
At step 904, the system control
System control from management terminal device 104 by command
If not, the process proceeds to step 909.
In the process of step 905, the node 100a
100c are controlled by the system control mechanisms 105b to 105d.
If it is the packet mode 701, the process proceeds to step 906.
Go to the system control mechanism 1 of the nodes 100a to 100c
If 05b to 105d are not the packet mode 701,
In the processing of step 907, the sub-processor 212
By the system control command "SET-MODE" of
Set the system control mechanisms 105b to 105d in packet mode
701, and the process proceeds to step 906.
In the processing of step 906, the system
Check the destination address field 603 of the control command.
Check the address of the system control command
Field 603 has its own logical address or "0xffff
ffffff ”, the process proceeds to step 908.
The contents of the system control command
Notification is sent to 212, and the process returns to step 900.
In step 906, the system
The destination address field 603 of the control command is
If not a logical address and "0xffffffff"
Returns to the process of step 900.
In the processing of step 909, the node 100
Results of processing from sub processors 212 of a to 100c
Is returned and whether the sub-processor 212
If the result of these processes is returned, step 910
The processing proceeds to the processing of
Sends a response packet to the
The process returns to the step 900.
Hereinafter, the parallel computer system according to the present embodiment will be described.
Of the nodes 100a to 100c in the management device
Of the sub-processor 212 of the system support mechanism 211
The order will be described.
FIG. 10 shows a parallel computer system according to this embodiment.
Of the nodes 100a to 100c in the system management device.
Of the sub-processor 212 of the system support mechanism 211
It is a flowchart which shows a part of procedure.
[0164] As shown in FIG.
100a to 100a in the management device of the machine system
Sub-processor 21 of system support mechanism 211 of c
In step 2, when the auxiliary power supply 201 is turned on,
00, the logical add of the nodes 100a to 100c
Address, and provided for the nodes 100a to 100c.
SRAM for storing status code to be displayed on panel
"0000" in the panel status management area in the 214
Set.
Next, in the processing of step 1001, no
System control mechanisms 105b-1 of the nodes 100a-100c
05d in non-packet mode 702, and step 1
In the process of 002, the system of the nodes 100a to 100c is
Non-packet mode 70 of the system control mechanisms 105b to 105d
2 connection state to wait connect state 801
Set.
System control of nodes 100a-100c
Change the mode of the mechanisms 105b to 105d to the non-packet mode 7
02 for the system control mechanisms 105b to 105d.
Wait for connection state in non-packet mode 702
The connection state 801 is set for the nodes 100a to 100a.
The node message of 100c is transmitted to the system control unit 105.
b to 105d of the RAM 222.
Control from the system control mechanism 105a of the terminal device 104
When a connection request is made by the node 804, the node 10
0a to 100c system control mechanisms 105b to 105d
Terminal message stored in the RAM 222 of the management terminal
This is for sending to the device 104.
Also, by doing so, the nodes 100a-1
When the software 203 on 00c is not running
However, the information stored in the RAM 222 from the management terminal device 104
The load message can be read.
Next, the system control of the management terminal device 104 is performed.
From the mechanism 105a, the system of the nodes 100a to 100c
System control commands to the system control mechanisms 105b to 105d.
Is sent, the system control command
To the sub-processors 212 of the nodes 100a to 100c,
The sub-processor 212 transmits the system control command.
Execute.
In the process of step 1003, the management terminal
From the system control mechanism 105a of the
a to 100c of the system control mechanisms 105b to 105d
Through the main power supply 200 of the nodes 100a to 100c.
System control command for power control instruction to turn on or off
Check to see if a message has been sent.
In the process of step 1003, the management terminal 1
As a result of checking whether there is a power control instruction from
When there is a power control instruction from the management terminal device 104
Are the nodes 100a-1
00c power supply control processing for turning on or off the main power supply 200
The power supply control is executed in step 1005.
The execution result of the control process is stored in the system of the nodes 100a to 100c.
Steps after reporting to the system control mechanisms 105b to 105d
It returns to the process of 1003.
In the processing of step 1003, the management terminal 1
As a result of checking whether there is a power control instruction from
When there is no power control instruction from the management terminal device 104
Proceeds to the process of step 1006, and the management terminal 10
4 from the system control mechanism 105a to the nodes 100a to 1
00c via the system control mechanisms 105b to 105d.
Control the panels provided in the nodes 100a to 100c.
The system control command of the panel control instruction to be
Find out if it is.
In the process of step 1006, the management terminal
It is checked whether there is a panel control instruction from the device 104
As a result, there is a panel control instruction from the management terminal device 104.
In this case, the process proceeds to step 1007 and the panel control is performed.
The process is executed, and in the process of step 1008, the panel
The execution result of the file control process is transmitted to the nodes 100a to 100c.
After reporting to the stem control mechanisms 105b to 105d,
The process returns to step 1003.
In the processing of step 1006, the management terminal
It is checked whether there is a panel control instruction from the device 104
As a result, there is no panel control instruction from the management terminal device 104
In this case, the process proceeds to step 1009, where the management terminal
From the system control mechanism 105a of the
a to 100c of the system control mechanisms 105b to 105d
Via the main processors of the nodes 100a to 100c
System control frame for reset instruction to reset 202
Find out if a command has been sent.
In the process of step 1009, the management terminal
It is checked whether there is a reset instruction from the device 104.
As a result, when there is a reset instruction from the management terminal device 104
Proceeds to the processing of step 1010,
~ 100c of the main processor 202
Then, in the process of step 1011, the reset process is executed.
System execution results of the nodes 100a to 100c
After reporting to the control mechanisms 105b to 105d, step 10
It returns to the process of 03.
System control in the process of step 1012
There is a mode switching request from the mechanisms 105b to 105d.
If there is a mode switching request as a result of
If not, the process proceeds to step 1013, where the adapter control
Execute the command “SET-MODE” and control the system.
The operation modes of the mechanisms 105b to 105d are switched, and
The process returns to step 1003.
As described above, the parallel computing of this embodiment
According to the management device of the machine system, the nodes 100a to 100a
0c operated by the auxiliary power supply 201, and the main processor 20
Network software and communication cable used by 2
Network software that is different from
Management using communication cables 106b to 106d
System control mechanism 105b for communicating with terminal device 104
To 105d, the system control command from the management terminal device 104.
Command to send the system control command to the auxiliary power
To be executed by the sub-processor 212 operating on the server 201
The main process of the plurality of nodes 100a to 100c
Control the processor 202, so that the main
Operation of main processor 202 and main processor 20
2. Operating system and network software
Irrespective of the operation of the software 203,
A plurality of nodes 100a to 100a constituting a parallel computer system
100c is collectively managed by the management terminal device 104.
It is possible to
(Embodiment 2) The parallel computing of the present invention is described below.
The management terminal device 104
From the main power supply 200 to the plurality of nodes 100a to 100d.
And the status of the nodes 100a to 100d.
Monitor the nodes and monitor the main programs of the nodes 100a to 100d.
Implementation to manage whether the processor 202 has started operation
Mode 2 will be described.
FIG. 11 shows a parallel computer system according to this embodiment.
From the management terminal device 104 to the node 1
Power supply that instructs 00a to 100d to turn on main power supply 200
It is a figure showing an example of a throwing sequence. Figure 11
100d is a node, 1101-1112 is power on
Is a sequence showing each stage.
As shown in FIG. 11, the parallel computing of this embodiment
From the management terminal device 104 in the management device of the machine system
Instruct nodes 100a-100d to turn on main power supply 200
Power on sequence, the sequence 1101
And the auxiliary power supply 201 of the nodes 100a to 100d is turned on.
Have been.
Auxiliary power supply 20 for nodes 100a-100d
1 is input, the sub-programs of the nodes 100a to 100d
The processor 212 executes the system
Initialize the support mechanism 211, and
Command "SET-ADDRESS"
Initialization of control mechanisms 105b to 105d and management terminal
For the device 104 to manage the nodes 100a to 100d
Of the logical address which is an address necessary for the operation.
Here, for example, the logical address “0x00”
“SET-ADDRESS” to set “000001”
An example of the format of a command and its response is
It is as follows.
<Command>:
A0x00000001: (Recipient address field 503 is omitted.
Omitted): 0x01 LF
<Response>:
A0x00000001: 0x00000001: 0x01 (status information) LF
In sequence 1103, the power of the management terminal device 104 is
When turned on, the bootstrap of the management terminal device 104
Bootstrap program stored in ROM 303
RAM executes the system startup process of the management terminal device 104.
Do.
In sequence 1104, management terminal device 1
When the system start-up process of 04 is completed, sequence 1
At 105, the software 301 of the management terminal device 104
Sets the logical address of the management terminal device 104 to “SET-A
DDRESS ”.
The management terminal device 104 and the nodes 100a to
When the logical address of 100d is set, the sequence 1
At 106, the software 301 of the management terminal device 104
Is the broadcast packet of the system control command
Is used to indicate the status of the nodes 100a to 100d.
Read the status code.
The status codes correspond to nodes 100a-1
00d Panel status management area in SRAM 214
, For example, nodes 100a to 100
d when the auxiliary power supply 201 is turned on normally,
The status code is written in the panel status management area.
And the status code is
Can be read out by the
Code "0000" in the management device of the parallel computer system
Can be read. ).
[0186] Here, the management terminal device 104 sets "STA
Using the “TUS-READ” command, the node 100
Broadcast is performed for a to 100d.
The logical address is “0xa00000000”
Is the STATUS-REA.
"D" command and the frame
The logical address for the command is "0x00000000
One of the formats of the response from the node that is "5"
An example is as follows.
<Command>:
d0xa0000000: 0xffffffff: 0x4 LF
<Response>
d0x00000005: 0xa0000000: 0x04 0000 LF
In sequence 1107, nodes 100a to 100d
The “STATUS-READ” command is received,
The status code “000” is output by the sub processor 212.
After “0” is read out,
From the terminals 100a to 100d to the management terminal device 104,
A response is returned as described above.
Here, the software of the management terminal device 104
A 301 is the theory of the node that returned a normal response.
Management address and software of the management terminal device 104 in advance.
Parallels stored in 301 or in a specific file
Of the nodes 100a to 100d constituting the computer system
Checking the configuration information and returning a normal response
For a node that does not come,
Send a STATUS-READ command again
Perform a try process.
In the sequence 1109, the management terminal device 1
04 software 301 is correct in sequence 1108.
Main power supply 2 of the node that returned a normal response packet
00 is input by a “P-ON” command.
For example, if the logical address is “0xa0000”
000 ”from the management terminal device 104,
Is "0x00000005" for the node "P
-ON ”command and its response format
An example is as follows.
<Command>:
d0xa0000000: 0x00000005: 0x01LF
<Response>:
d0x00000005: 0xa0000000: 0x01 (completion code) LF
At this time, the software 301 of the management terminal device 104
By the control, “PO” is performed at predetermined time intervals set in advance.
N "while shifting the command
Power to the entire parallel computer system.
Inrush current to the power supply equipment being supplied can be kept low.
come.
In the sequence 1110, the “P-ON”
Of the nodes 100a to 100d that received the command
The processor 212 outputs a power-on signal 216 and outputs
After the source 200 is turned on, a "P-ON" command
Is returned to the management terminal device 104.
Main power supply 200 of nodes 100a-100d
Is turned on, the main processor 202 boots
Bootstrap stored in the strap ROM 210
The backup program is executed and the system start-up process starts.
Begun.
During the system start-up process, the boot
Status code that the lap program increments
For example, there are the following types. Where the real
In the management device of the parallel computer system of the embodiment, the status
The code is shown in hexadecimal.
[0196]
[Table 3]The main process of the nodes 100a to 100d
Bootstrap program of the node 202
Panel stator in SRAM 214 of 00a-100d
Write a status code to the
When the start-up process proceeds, the status code is periodically
Update.
Further, the panel status management area includes:
From the sub-processor 212 of the nodes 100a to 100d
Can also be referred to, for example, nodes 100a to 100d
Display on a display device such as a panel provided in
The status code to the operator.
It is also possible.
Software 301 of management terminal device 104
Is the status code of these nodes 100a to 100d.
Mode using the “STATUS-READ” command.
By periodically reading, the nodes 100a to 100a
Monitor the state of d.
At sequence 1110, management terminal device 1
04 software 301 is a system control command
Monitor from transmission to reception of the response in a fixed time
As shown in FIG.
And a normal response is not returned within a certain period of time.
For the code 100d, the sequence 1111
System control command at a set time interval.
Perform a retry process to send the password.
As shown in FIG. 11, the parallel computing of this embodiment
A certain number of times (in this embodiment,
As a result of the retry process of 3 times), from the node 100d
If a normal response is not returned, the sequence
At 1112, the software 30 of the management terminal device 104
1 recognizes that a failure has occurred in node 100d
I do.
The software 301 of the management terminal device 104
Is, as described above, a specific system control command.
When a normal response is not received within a certain time
At a predetermined time interval, the specific system
By performing control to transmit the system control command again,
The software 203 of the nodes 100a to 100d is activated.
If not, the main program of the nodes 100a to 100d
After the system start-up process of the
Can be managed.
As described above, the parallel calculation of the present embodiment
According to the management device of the machine system, the management terminal device 104
The main power supply of the plurality of nodes 100a to 100d is
Since the power source 200 is turned on or off, the parallel computer system
Of the plurality of nodes 100a to 100d configuring the system
ON / OFF of the power source 200 is collectively performed by the management terminal device 104.
Or it can be done individually.
The parallel computer system of the present embodiment
According to the management device, the main power supply to the nodes 100a to 100d
An instruction to turn on the power source 200 is given at a predetermined time interval.
Power supply that supplies power to the parallel computer system
It is possible to keep the rush current of the equipment low.
The parallel computer system of the present embodiment
According to the management device, in response to an instruction from the management terminal device 104,
Read the status codes of the nodes 100a to 100d.
The status of the nodes 100a to 100d.
Can be collectively managed by the management terminal device 104.
You.
Further, the parallel computer system of the present embodiment
According to the management device, a specific system from the management terminal device 104 is specified.
When the normal response to the stem control command is constant
To check if it is received in the middle
The multiple nodes that make up the system are operating normally
Can be monitored by the management terminal device 104.
(Embodiment 3) The parallel calculation of the present invention will be described below.
In the management device of the machine system, the management terminal device 104
Display node message 403 from node 100a
Embodiment 3 where maintenance is performed as necessary will be described.
You.
FIG. 12 shows a parallel computer system according to this embodiment.
Node 10 in the management terminal device 104 in the management device
Sequence displaying node message 403 from 0a
FIG. 3 is a diagram illustrating an example of a service. In FIG.
Reference numeral 1217 denotes each step of displaying the node message 403.
4 shows a sequence.
[0209] As shown in FIG.
Is added to the management terminal device 104 in the management system
Display node message 403 from node 100a
In the sequence, in the sequence 1201, the node
An auxiliary power supply 201 is turned on in advance to 100a.
System control mechanism 105b (operation mode is packet mode
701), the sub-processor 212 and the processor 22
0 is in an operable state.
Node 1 to which auxiliary power supply 201 is turned on
00a, the sub-processor 212
In the "SET-ADDRESS" command, node 1
00a logical address is set.
Next, the sub processor 2 of the node 100a
12 is a sequence 1203, “SET-MODE”
The operation mode of the system control mechanism 105b is changed by a command.
Non-packet mode 702 (disconnect state 800)
Set to.
Sub processor 212 of node 100a
Is a sequence 1204, and further “SET-CONN
ECT ”command to change connection status to non-packet
Set to wait connect state 801 in mode 702
You.
On the other hand, the management terminal 104
At 1205, the management terminal device 104 is turned on.
Starts the system startup process of the management terminal device 104
I do.
System start-up process of management terminal device 104
When the management is completed, in a sequence 1206, the management terminal
104 has the same software 301 as the node 100a.
And use the “SET-ADDRESS” command
The logical address of the management terminal device 104 is set, and the
In case 1207, the operation is performed using “SET-MODE”.
Operation mode is disconnected in non-packet mode 702
State 800.
In sequence 1208, management terminal device 1
04 software 301 is “STATUS-REA
D ”command causes the status code of node 100a to be
Status code "0000"
Then, in the sequence 1209, the “P-ON” command
Node 100a to the node 100a.
Instruct 200 to be inserted.
The “P-ON” command from the management terminal device 104
Node 100 receiving the command and turning on the main power supply 200
a is stored in the bootstrap ROM 210
Bootstrap program to main processor 202
And the system start-up processing of the node 100a
I do.
At this time, the bootstrap of the node 100a is
Message 403 output from the backup program
Is transmitted to the node 100a via the sub-processor 212.
Stored in the RAM 222 of the system control mechanism 105b
You.
Software 301 of management terminal device 104
In the sequence 1210, “SET-CONNECT
T ”command, the system control of the management terminal device 104 is performed.
The connection state of the control mechanism 105a is changed to the connection state 80.
2, the system control mechanism 1 of the node 100a
Node 100a stored in the RAM 222 of the device 05b
During the system start-up process of the main processor 202
The monitoring of the node message 403 starts.
Management receiving “SET-CONNECT”
The system control mechanism 105a of the terminal device 104
The system control mechanism 1 of the node 100a
05b and the call control 804.
0a connection state of the system control mechanism 105b
Changes from wait connect state 801 to connect state 80
Transition to 2.
At the same time, the system control mechanism of the node 100a
105b is a sequence 1212 in which "REPORT-
CONNECT ”command to the sub-process of the node 100a.
Issued to the processor 212 and received from the management terminal 104
Inform that there was a nect request.
At this time, the "REPORT-CONNECT"
Of "T" command and its response format
Is as follows. In addition, the following "REPORT-C
ONNET "command and its response
The communication address is omitted.
<Command>:
A :: 0xA (connect status change status) LF
<Response>:
A :: 0xA LF
In sequence 1213, the node message of node 100a is
The message 403 is the system control mechanism 1 of the node 100a.
05b received a connect request by call control 804
At this point, the system control mechanism 105b of the node 100a
Management terminal from RAM 222 via LAN control unit 218
Transmitted to the terminal device 104.
Although not specifically shown in FIG. 12,
If the system of the main processor 202 of the node 100a
During the system startup process, the main
Inconsistency was found in the file system used by
If the system startup process is interrupted,
In sequence 1214, the operator operates the management terminal 1
Of the node 100a output to the display device
Node messages during the system startup process of the processor 202
The message 403 causes the node 100a to fail.
File system such as UNIX fsck.
By issuing a maintenance command to check the stem,
The maintenance of the node 100a is also possible.
The main processor of the node 100a
Although the system start-up process of 202 has been completed normally,
In a later normal operation, the main processor 2 of the node 100a
02, while using panic message
100a main processor 202
If it does, the operator will
The information stored in the RAM 222 of the stem control mechanism 105b
Is displayed on the management terminal device 104.
System down according to the contents of the node message 403.
It is also possible to consider the factors of the investment.
Disconnect connection with node 100a
In the case where the
Similarly, the software 301 of the management terminal device 104 is
In sequence 1215, "SET-CONNECT"
Issue a command.
Software 301 of management terminal device 104
Issues a “SET-CONNECT” command
As a result, the system control mechanism 105 of the management terminal device 104
a goes to the disconnect state 800 and the sequence 12
At 16, the system control mechanism 10 of the management terminal device 104
5a is transmitted to the system control mechanism 105b of the node 100a.
Call control 804 is performed.
At sequence 1217, node 100a
The system control mechanism 105b of the management terminal device 1
04 to the call control 804 from the system control mechanism 105a.
From the other party
To the sub-processor 212 of the node 100a at the same time.
On the other hand, this is referred to as “REPORT-CONNECT”
Report in Mand.
As described above, the management terminal 104
Commands to the nodes 100a to 100c.
By transmitting the information, the management terminal device 104
Power control of main power supply 200 and nodes 10a to 100c
Status monitoring of 0a to 100c becomes possible.
As described above, the parallel computing of the present embodiment
According to the management apparatus of the communication system, the packet mode 701
And the non-packet mode 702
Since the processing is performed by the processor 212, the
System control commands and their responses to multiple nodes 1
00a to 100c and a specific node
Set up a connection for
The communication that continuously receives pages 403 is like a switching device.
Same management terminal without using any special hardware
This can be done with the device 104.
The parallel computer system according to the present embodiment
According to the management device, the main processor 2 of the specific node
02 or the sub-processor 212 outputs the
Mode message 403, and the management terminal device 104
To read the stored node message 403
And a plurality of nodes 100 constituting a parallel computer system
a to 100c of the node processor 202
When the operation is stopped after outputting page 403
However, the node message 403 is
Can be managed collectively.
(Embodiment 4) The following is a parallel calculation of the present invention.
In the management device of the machine system, the nodes 100a to 100a
0c main processor 202 system startup processing
Run and optionally its bootstrap device
Embodiment 4 in which system startup processing is performed by changing
Will be described.
The management system of the parallel computer system of the present embodiment
The loading process from the bootstrap device
If the operation ends abnormally, the nodes 100a to 100c
By reading and writing the contents of the memory 204,
Change the contents and change the main program of nodes 100a-100c.
Resetting the processor 202 causes another boot
Loading process from strap device is possible
It is.
The management system of the parallel computer system of this embodiment
Main memory of the nodes 100a to 100c
When reading / writing the contents of the MS-REA 204
Use "D" command and "MS-WRITE" command
I do. These system control commands are
Normal business in main processor 202 of a to 100c
When a failure occurs during parallel processing,
The contents of the main memory 204 of the nodes 100a to 100c.
It can also be used for inspection.
Also, the parallel computer system of the present embodiment
In the management device, the main processor of the nodes 100a to 100c
Processor 202, sub-processor 212 and processor
In the hardware module such as the memory control mechanism 205
It is also possible to read and write the contents of the
In this case, the “REG-READ” command and the “REG-READ”
WRITE command.
For example, the names of the nodes 100a to 100c
Parallel processing, which is a normal business,
If a failure occurs during execution, the nodes 100a to 100a
The error log collected by each hardware resource in 0c
Save the data in the register and use the "REG-READ"
The failure log is sent from the management terminal device 104 by a command.
By reading the information, the trouble from the management terminal device 104 is required.
The cause can be specified.
Also, the parallel computer system of the present embodiment
In the management device, the "STATUS-READ" command
From the status codes of the nodes 100a to 100c.
If there is a node that has caused readout and system down
To send a “PROC-RESET” command
The main node of the node that caused the system
Resets and restarts the processor 202
Is also possible.
The following describes the parallel computer system of the present embodiment.
Of the nodes 100a to 100c in the management device
Explanation of system start-up processing of processor 202
I do.
FIG. 13 shows a parallel computer system according to this embodiment.
Of the nodes 100a to 100c in the system management device.
2 shows a system start-up processing procedure of the processor 202.
It is a flowchart.
FIG. 14 shows a parallel computer system according to this embodiment.
Of the nodes 100a to 100c in the system management device
It is a figure showing a memory map of AM214. In FIG.
1400 is the primary bootstrap path information.
Information, 1401 is alternate bootstrap path information
It is.
As shown in FIG. 14, the parallel computing of this embodiment
100a to 100a in the management device of the machine system
c SRAM 214 memory map is
First storing software 203 such as
Bootstrap device showing primary bootstrap device
Trap path information 1400 and first bootstrap
Bootstrap used when device is unavailable
Bootstrap path information indicating the boot device
Information 1401.
As shown in FIG. 13, the parallel computing of this embodiment
100a to 100a in the management device of the machine system
c: System startup processing operator of main processor 202
In order, in response to a power-on instruction from the management terminal device 104,
When the main power supply 200 is turned on, the main processor 202
Stored in the bootstrap ROM 210
The bootstrap program is executed, and step 13
00, the panel status in the SRAM 214
Set the status code of the management area to "1000"
In the nodes 100a to 100c in the process of
Initial diagnosis and initialization of each hardware module
U.
In the processing of step 1302, step 1
Initial diagnosis and initialization of hardware in the process of 301 are correct.
It is checked whether or not the process has been completed normally, and
Initial diagnosis and initialization of hardware are completed normally
If yes, the process proceeds to step 1303.
In the processing of step 1301, the hardware
If the initial diagnosis and initialization have been abnormally completed,
In the process of step 1313, the panel provided for the node
The status code "1FFF" is displayed on the
The system startup process of the main processor 202
Abnormal termination.
In the processing of step 1303, the status
Set the code to "2000" and go to step 1304
Depending on the hardware stored in the SRAM 214
Of the information, the bootstrap path information shown in FIG.
Refer to the primary bootstrap path information 1400
Bootstrap device (for example,
Operating system)
Software 203 such as a system to the main memory 204.
To load.
Bootstrap path in SRAM 214
The information is stored in the bootstrap ROM 210.
The main memory when executing the bootstrap program
204 is copied to a specific area, and the system starts up.
Then, it can be referred to by the software 203.
The parallel computer system of the present embodiment
On the management device, the bootstrap device
Via Ethernet (system) in addition to local files in the
System control interface) bootp protocol
(Before the Request For Connect boot
Connection to Ethernet using
Bootstrap that can be obtained from other nodes
Files are also applicable.
In the processing of step 1305, the primary
Bootstrap specified in bootstrap path information 1400
From the strap device to the operating system, etc.
Software 203 to the main memory 204
Check whether the loading process has completed normally.
If the above-mentioned loading process is successful, step 1306
If the process fails, the process proceeds to step 1314.
No.
In the process of step 1306, the status
Set the code to "3000"
The activated software 203 is started, and step 13 is executed.
07, the status code is set to "A000"
Various system parameters are set in the process of step 1308.
File system in step 1309.
Is initialized, and in the process of step 1310, the TCP
Initializes the network such as / IP.
The management system of the parallel computer system of this embodiment
The main processors of the nodes 100a to 100c
Operating system and net operating on 202
Use the functions of software 203 such as work software
The system operation support interface to use at this point
It can be used.
In the process of step 1311, the application
The application software is started, and the
Set the status code to "F000" by processing
The system start-up process of the processor 202 ends.
On the other hand, in the processing of step 1314, the SR
Alternate bootstrap path information in AM214
1401 and the alternate bootstrap pass
Bootstrap device specified by information 1401
(Especially in the management device of the parallel computer system of the present embodiment,
Although not disclosed, DAT (Digital Audio
o Operating from input / output devices such as Tape)
Software 203 such as a
Load 4
In the processing of step 1315, the alternate
Bootstrap path information 1401
Successful loading from the smart strap device
Is checked, and if successful, the process proceeds to step 1306.
move on.
In the processing of step 1315, the alternate
Bootstrap path information 1401
If loading from a smart strap device is not successful
In step 1316, the operator
Load processing is performed by specifying the strap device.
In the processing of step 1317, step 1
The operator's bootstrap device in the process of 316
Check whether the load processing by specifying the
If the operation has been completed normally,
Proceeds to the processing, and if not completed normally, step 1
In the process of 318, the status code is set to “2FFF”
Then, the system startup process of the main processor 202 is performed.
Abnormal termination.
Nodes 100a to 100a-1 performed as described above
00c system startup process of the main processor 202
If the process ends abnormally,
System start-up processing with changed strap device
I do.
The software 301 of the management terminal device 104
Uses the “MS-READ” command to
Via the control interface, the nodes 100a to 100
c, the bootstrap path information in the main memory 204 is
Referring to the specific area stored, the main processor
Boots that failed to start the system
Check the wrap device.
Next, the software of the management terminal device 104
301 uses the “MS-WRITE” command,
Via the stem control interface, nodes 100a-
Bootstrap path of main memory 204 of 100c
In the specific area where the information is stored, the main processor
Boots that failed to start the system
Write the name of the bootstrap device other than the wrap device.
Get in.
The software 301 of the management terminal device 104
Is the main menu of the nodes 100a to 100c as described above.
Bootstrap path information of the specific area of the memory 204
After rewriting the “PROC-RESET” command
Used and the main processor of the nodes 100a to 100c
202 is reset and the system of the main processor 202 is reset.
By restarting the system startup process, the bootstrap destination
Can be performed to change the system.
Rewriting bootstrap path information
The main program of the nodes 100a to 100c
The system startup process of the processor 202 has been completed normally.
In this case, the following method is also possible.
That is, the S of the nodes 100a to 100c
The bootstrap path information of the RAM 214 is
Rewritten from software 203 of 00a to 100c
Since it is possible, the software 3 of the management terminal device 104
01 via the system operation support interface
For the software 203 of the code 100a to 100c,
Specify that bootstrap path information be rewritten, and
Installed software 203 is
Rewrite pass information.
Software of the nodes 100a to 100c
The system 203 updates the bootstrap path information.
Of the management terminal device 104 via the system control interface.
Notify the software 301, and
Software 301 via the system control interface
Use the “PROC-RESET” command at
Processor 202 of each of the nodes 100a to 100c
Reset, immediately updated bootstrap
Load processing from the path is performed.
As described above, the parallel computing of the present embodiment
According to the management device of the machine system, the management terminal device 104
The main memo of nodes 100a to 100c
To refer to or update the contents of registers 204 or registers
And a plurality of nodes 100 constituting a parallel computer system
Contents of the main memory 204 at the time of occurrence of a failure from a to 100c
Can be collectively managed by the management terminal device 104.
is there.
The parallel computer system according to the present embodiment
According to the management device, in response to an instruction from the management terminal device 104,
Processor 202 of each of the nodes 100a to 100c
To configure a parallel computer system
Main processor 2 of a plurality of nodes 100a to 100c
02 is collectively performed from the management terminal device 104.
It is possible.
Further, the parallel computer system of this embodiment
According to the management device, the management terminal device 104
Use different interfaces between 0a and 100c
Is possible, and by an instruction from the management terminal device 104
The boot of the main memory 204 of the nodes 100a to 100c
Change the trap strap path information and change the main processor 20
Since the reset of 2 is performed, the parallel computer system is configured.
Bootstrap of a plurality of nodes 100a to 100c
When a failure occurs in the wrap device, the management terminal
According to the instruction from 104, the bootstrap device is
Main processor of nodes 100a-100c
It is possible to perform the system
You.
(Embodiment 5) The parallel computing of the present invention is described below.
Multiple management terminal devices in the management system
The schematic configuration of Embodiment 5 in which the reliability is improved by using
Will be explained.
FIG. 15 shows a parallel computer system according to the present invention.
An embodiment in which the management terminal is duplicated in the management device
5 is a diagram showing a schematic configuration of No. 5. FIG. In FIG.
e is a system control mechanism, 106e is a communication cable, 10
8e is a LAN control mechanism, 109e is a communication cable, 11
Reference numeral 1 denotes a management terminal device.
As shown in FIG. 15, the parallel computing of this embodiment
The management device of the communication system communicates with the management terminal device 111.
A cable 106e and a communication cable 109e,
The management terminal device 111 includes a system control mechanism 105e,
A management terminal device having a LAN control mechanism 108e.
111 to the communication cable 10
6e to the network concentrator 107
The LAN control mechanism 108e of the
Connected to the network concentrator 110 via the
Has continued.
As described above, the parallel computer system of this embodiment
The system management device includes a plurality of management terminal devices 104 and 1
11 so that one management terminal device
Operation of the parallel computer system by another management terminal.
Management can continue, but multiple management terminals
Operation and management of a parallel computer system using devices simultaneously
When this is done, the system control commands transmitted by the
Commands and adapter control commands conflict with each other
When using multiple management terminal devices
Processing to prevent contention between management terminal devices
You.
The following describes the parallel computer system of the present embodiment.
If multiple management terminal devices are used in the management device of
Procedure to prevent conflicts in operation of the management terminal
Will be described.
FIG. 16 shows a parallel computer system according to this embodiment.
Conflict between the operations of multiple management terminal devices in the management device
5 is a flowchart showing a processing procedure for preventing the problem.
The management system of the parallel computer system of this embodiment
If the management terminal device is duplicated,
For example, the management terminal device 1
04 and the management terminal device 111
By setting in advance to a storage area that can be referenced from 1,
It is possible to prevent contention between redundant management terminal devices.
Become.
As shown in FIG. 16, the parallel computing of this embodiment
Management terminal device in the management system
In the processing procedure when the
Thus, both the management terminal device 104 and the management terminal device 111
Software 301, the management terminal device is duplicated
Refer to the duplicated bit to indicate that the bit is up
If the management terminal is duplicated,
recognize.
In the processing of step 1601, the network
(For example, via a system operation support interface)
Then, the IP address of the partner management terminal device is obtained.
In the processing of step 1602, the main management
Backup the terminal device and the main management terminal device
In order to determine the sub-management terminal device to be
The younger one in the dress is the main management terminal, and the other one is
A sub-management terminal device.
At this time, only the main management terminal operates.
And a failure has occurred in the main management terminal.
Operation method to switch to sub-management terminal immediately
And the main management terminal device and the sub management terminal device
It is possible to do the operation method to operate, but the latter
In the case of, control the nodes 100a to 100c from both sides
System control commands and adapter control commands
Because the content may conflict,
Transmittable system control commands and adapter control frames
Some restrictions.
For example, in the process of step 1603,
Determines whether the management terminal is the main management terminal
If it is not the main management terminal,
The system control command (“P-
ON, P-OFF, etc.)
Commands (such as “SET-CONNECT”)
By controlling the nodes 100a to 100c.
Content of the system control command and the adapter control command
Even so, maintain consistency as a parallel computer system
Is possible.
As described above, the parallel computing of this embodiment
According to the management device of the machine system, a plurality of management terminal devices
Failure occurred in one management terminal device
Even if the operation management of the parallel computer system is continued,
It is possible to improve the reliability of computer systems.
You.
The parallel computer system according to the present embodiment
According to the management device, the main management terminal is connected to a plurality of management terminal devices.
Since the terminal device and sub-management terminal device are set,
If the management system is managed by multiple management terminal devices,
It is possible to prevent conflicts in operation of multiple management terminal devices.
Noh.
(Embodiment 6) The parallel calculation of the present invention will be described below.
In the management device of the machine system, the management terminal device 104
A power-on logic that operates on the auxiliary power supply is added, and the management terminal
Parallel by turning on the main power of the device 104 from a remote location
Embodiment 6 for turning on the main power supply of the computer system
Will be explained.
FIG. 17 shows a parallel computer system according to this embodiment.
With an auxiliary power supply to the management terminal device 104 in the system management device.
In the management terminal when the power-on logic that operates is added
FIG. 2 is a diagram showing a schematic configuration of hardware of FIG. FIG.
1700 is an auxiliary power supply, 1701 is a power-on logic,
1702 is a power control signal, 1703 is a main power supply, 1704
Is a terminal device, and 1705 is a network.
As shown in FIG. 17, the parallel computing of this embodiment
The management terminal device 104 in the management device of the machine system
Auxiliary power supply 1700, power-on logic 1701, main power supply
1703, and supplies power from the auxiliary power supply 1700.
The received power-on logic 1701 is
2 to the main power supply 1703 and the network
Connected to another terminal device 1704 via the
You.
As shown in FIG. 17, the parallel computing of this embodiment
The management terminal device 104 in the management device of the machine system
A power-on logic 1701 operated by the auxiliary power supply 1700 is provided.
And power-up logic 1701 is specifically shown here.
Network control unit, power control unit, and
It is composed of microprocessors, etc.
When a power supply control instruction is received via 1705, the main power supply 17
03 is provided.
With this power-on logic 1701, for example,
Remote operation of the management terminal device 104 as follows
Becomes possible.
The management system of the parallel computer system of this embodiment
At another end connected by a network 1705
The terminal device 1704 uses, for example, the telnet protocol.
To log in to the power-on logic 1701. (this
At this time, the auxiliary power supply 1700 is
It is in the state that has been done. Next, the terminal device 1704 is
A power-on command is issued to the power-on logic 1701.
The power on logic 1701 receives the power on command.
Recognizes that there has been an instruction to turn on the power from outside,
Output the power source control signal 1702, and
The power supply 1703 is turned on.
When the main power supply 1703 of the management terminal device 104 is
When inserted, it is stored in the bootstrap ROM 303.
Bootstrap program is the management terminal device 10
4 performs the system start-up processing, and
Start
FIG. 18 shows a parallel computer system according to this embodiment.
Shell program of the management terminal device 104 in the system management device
It is a figure showing an example of a gram. Where the shell program
Is a universal operating system, UNI
Multiple command names or program names executed in X
Refers to a program that performs a series of procedures described.
In step 18, the UNIX command name or program
Instead of a program name, simply describe the function of the command.
I have.
[0287] As shown in FIG.
System of the management terminal device 104 of the management device of the machine system
The shell program executed during the startup process
To turn on the main power supply 200 of the nodes 100a to 100c.
Describe the system control commands to be displayed, and
When the main power supply 1703 of the device 104 is turned on,
Make sure that the shell program is executed.
By doing so, the management terminal device 104
Of the nodes 100a to 100c
The source 200 is turned on, and the mains of the nodes 100a to 100c are
The system startup process of the processor 202 is automatically executed.
It is possible to
As described above, the parallel computation of this embodiment
According to the management system of the machine, access from remote locations
To turn on the main power supply 1703 of the management terminal device 104,
Further, the nodes 100a to 100c are activated (main power supply 200
Operation of the parallel computer system
Can be performed from a remote location.
The parallel computing of the present embodiment described above
Although not shown in the illustration,
The present invention is also applicable to such a system.
(1) General-purpose operating system for each node
Dedicated to perform certain functions without a system
General-purpose operating system
System that does not use the network function of the
Operation management is performed using only the system control interface.
The management apparatus of the parallel computer system of the present invention
According to the system control interface, the operation management
Auxiliary power supply and network independent of the target processor
Work function and a general-purpose operating system.
Not use network functions such as TCP / IP of the system
So, with the general-purpose operating system
It does not need to be applied to dedicated parallel computer systems.
It is possible.
(2) Function of operating each node with an auxiliary power supply
Or has limited functions that operate with auxiliary power supply
In a parallel computer system like this,
Only the system operation support interface that is not used
Use to manage.
In this case, an auxiliary power supply such as turning on the main power supply
System control interface except for functions that require
Functions by the system operation support interface
By doing so, the management system of the parallel computer system of the present invention
It is possible to apply the arrangement.
As described above, the present invention is based on the above-described embodiment.
Although described physically, the present invention is limited to the above-described embodiment.
Species within the scope of the gist.
Of course, it can be changed variously.
[0296]
The invention disclosed in the present application is representative.
To briefly explain the effects that can be achieved by the traditional,
It is as described.
[0297]
[0298]
[0299]
[0300]
[0301]
[0302]
[0303]
[0304]
[0305]
[0306]FarManagement terminal device by access from remote place
Turn on the main power of all nodes, and then turn on the main power of multiple nodes.
Operation management of the parallel computer system from a remote location.
It is possible to do.
【図面の簡単な説明】
【図1】本発明の並列計算機システムの管理装置を実施
する実施形態1の概略構成を示す図である。
【図2】実施形態1の並列計算機システムの管理装置に
おいて並列計算機システムを構成するノードの概略構成
を示す図である。
【図3】実施形態1の並列計算機システムの管理装置に
おける管理端末装置の概略構成を示す図である。
【図4】実施形態1の並列計算機システムの管理装置に
おける管理端末装置と各ノードとの通信シーケンスの一
例を示す図である。
【図5】実施形態1の並列計算機システムの管理装置に
おけるアダプタ制御コマンド及びそのレスポンスのパケ
ットフォーマットを示す図である。
【図6】実施形態1の並列計算機システムの管理装置に
おけるシステム制御コマンド及びそのレスポンスのパケ
ットフォーマットを示す図である。
【図7】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構のモード遷移を示す図である。
【図8】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構の非パケットモードでのコネク
ション状態の遷移を示す図である。
【図9】実施形態1の並列計算機システムの管理装置に
おけるシステム制御機構のプロセッサの処理手順の一部
を示すフローチャートである。
【図10】実施形態1の並列計算機システムの管理装置
におけるシステムサポート機構のサブプロセッサの処理
手順の一部を示すフローチャートである。
【図11】実施形態2の並列計算機システムの管理装置
における管理端末装置から各ノードへ主電源の投入を指
示する電源投入シーケンスの一例を示す図である。
【図12】実施形態3の並列計算機システムの管理装置
における管理端末装置に各ノードのノードメッセージを
表示するシーケンスの一例を示す図である。
【図13】実施形態4の並列計算機システムの管理装置
におけるノードのメインプロセッサのシステム立ち上げ
処理手順を示すフローチャートである。
【図14】実施形態4の並列計算機システムの管理装置
におけるノード内のSRAM内のメモリマップを示す図
である。
【図15】本発明の並列計算機システムの管理装置にお
いて管理端末装置を二重化した実施形態5の概略構成を
示す図である。
【図16】実施形態5の並列計算機システムの管理装置
において複数の管理端末装置の動作の競合を防止する処
理手順を示すフローチャートである。
【図17】実施形態6の並列計算機システムの管理装置
における管理端末装置に補助電源で動作する電源投入論
理を付加した場合の管理端末装置内のハードウェアの概
略構成を示す図である。
【図18】実施形態6の並列計算機システムの管理装置
における管理端末装置のシェルプログラムを示す。
【符号の説明】
100a〜100c…ノード、101…通信処理装置、
102a〜102c…通信インタフェース機構、103
a〜103c…通信ケーブル、104…管理端末装置、
105a〜105d…システム制御機構、106a〜1
06d…通信ケーブル、107…ネットワーク集線装
置、108a〜108d…LAN制御機構、109a〜
109d…通信ケーブル、110…ネットワーク集線装
置、200…主電源、201…補助電源、202…メイ
ンプロセッサ、203…ソフトウェア、204…メイン
メモリ、205…プロセッサメモリ制御機構、206…
システムバス、207…システムディスク、208…I
/O制御機構、209…RS−232C制御機構、21
0…ブートストラップROM、211…システムサポー
ト機構、212…サブプロセッサ、213…ROM、2
14…SRAM、215…ローカルバス、216…電源
投入/切断信号、217…プロセッサリセット信号、2
18…LAN制御部、219…RS−232C制御部、
220…プロセッサ、221…ROM、222…RA
M、223…データインタフェース、224…制御イン
タフェース、300…プロセッサ、301…ソフトウェ
ア、302…メインメモリ、303…ブートストラップ
ROM、304…プロセッサメモリ制御機構、305…
システムバス、306…I/O制御機構、307…シス
テムディスク、308及び309…RS−232C制御
機構、310…グラフィックス制御機構、311…LA
N制御部、312…RS−232C制御部、313…プ
ロセッサ、314…ROM、315…RAM、316…
制御インタフェース、317…データインタフェース、
401…アダプタ制御コマンド及びそのレスポンス、4
02…システム制御コマンド及びそのレスポンス、40
3…ノードメッセージ、501…種別フィールド、50
2…送信元アドレスフィールド、503…受信先アドレ
スフィールド、504…情報部フィールド、505…識
別子、601…種別フィールド、602…送信元アドレ
スフィールド、603…受信先アドレスフィールド、6
04…情報部フィールド、605…識別子、701…パ
ケットモード、702…非パケットモード、703…
「SET−MODE」コマンド、800…ディスコネク
ト状態、801…ウェイトコネクト状態、802…コネ
クト状態、803…「SET−CONNECT」コマン
ド、804…システム制御機構間の呼制御、1400…
プライマリブートストラップパス情報、1401…オル
タネートブートストラップパス情報、105e…システ
ム制御機構、106e…通信ケーブル、108e…LA
N制御機構、109e…通信ケーブル、111…管理端
末装置、1700…補助電源、1701…電源投入論
理、1702…電源制御信号、1703…主電源、17
04…端末装置、1705…ネットワーク。BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a diagram showing a schematic configuration of a first embodiment for implementing a management device for a parallel computer system according to the present invention. FIG. 2 is a diagram illustrating a schematic configuration of a node configuring the parallel computer system in the management device of the parallel computer system according to the first embodiment. FIG. 3 is a diagram illustrating a schematic configuration of a management terminal device in the management device of the parallel computer system according to the first embodiment. FIG. 4 is a diagram illustrating an example of a communication sequence between a management terminal device and each node in the management device of the parallel computer system according to the first embodiment. FIG. 5 is a diagram illustrating a packet format of an adapter control command and its response in the management device of the parallel computer system according to the first embodiment. FIG. 6 is a diagram illustrating a packet format of a system control command and its response in the management device of the parallel computer system according to the first embodiment. FIG. 7 is a diagram illustrating a mode transition of a system control mechanism in the management device of the parallel computer system according to the first embodiment. FIG. 8 is a diagram illustrating a transition of a connection state in a non-packet mode of a system control mechanism in the management device of the parallel computer system according to the first embodiment. FIG. 9 is a flowchart illustrating a part of a processing procedure of a processor of a system control mechanism in the management device for the parallel computer system according to the first embodiment; FIG. 10 is a flowchart illustrating a part of a processing procedure of a sub-processor of the system support mechanism in the management device of the parallel computer system according to the first embodiment. FIG. 11 is a diagram showing an example of a power-on sequence for instructing each node to turn on main power from a management terminal device in the management device of the parallel computer system according to the second embodiment. FIG. 12 is a diagram illustrating an example of a sequence of displaying a node message of each node on a management terminal device in the management device of the parallel computer system according to the third embodiment. FIG. 13 is a flowchart illustrating a system startup processing procedure of a main processor of a node in the management device for the parallel computer system according to the fourth embodiment. FIG. 14 is a diagram showing a memory map in an SRAM in a node in the management device of the parallel computer system according to the fourth embodiment. FIG. 15 is a diagram showing a schematic configuration of a fifth embodiment in which a management terminal device is duplicated in the management device of the parallel computer system of the present invention. FIG. 16 is a flowchart illustrating a processing procedure for preventing contention between operations of a plurality of management terminal devices in the management device of the parallel computer system according to the fifth embodiment. FIG. 17 is a diagram illustrating a schematic configuration of hardware in the management terminal device when a power-on logic operating on an auxiliary power supply is added to the management terminal device in the management device of the parallel computer system according to the sixth embodiment. FIG. 18 shows a shell program of a management terminal device in the management device of the parallel computer system according to the sixth embodiment. [Description of References] 100a to 100c: nodes, 101: communication processing device,
102a to 102c: communication interface mechanism, 103
a to 103c: communication cable, 104: management terminal device,
105a to 105d: System control mechanism, 106a to 1
06d: communication cable, 107: network concentrator, 108a to 108d: LAN control mechanism, 109a to
109d communication cable, 110 network concentrator, 200 main power supply, 201 auxiliary power supply, 202 main processor, 203 software, 204 main memory, 205 processor memory control mechanism, 206
System bus, 207: system disk, 208: I
/ O control mechanism, 209 ... RS-232C control mechanism, 21
0: bootstrap ROM, 211: system support mechanism, 212: subprocessor, 213: ROM, 2
14 SRAM, 215 local bus, 216 power on / off signal, 217 processor reset signal, 2
18 LAN control unit, 219 RS-232C control unit,
220: Processor, 221: ROM, 222: RA
M, 223: data interface, 224: control interface, 300: processor, 301: software, 302: main memory, 303: bootstrap ROM, 304: processor memory control mechanism, 305:
System bus, 306 I / O control mechanism, 307 System disk, 308 and 309 RS-232C control mechanism, 310 Graphics control mechanism, 311 LA
N control unit, 312 ... RS-232C control unit, 313 ... processor, 314 ... ROM, 315 ... RAM, 316 ...
Control interface, 317 ... data interface,
401 ... Adapter control command and its response, 4
02: system control command and its response, 40
3: node message, 501: type field, 50
2 ... source address field, 503 ... destination address field, 504 ... information field, 505 ... identifier, 601 ... type field, 602 ... source address field, 603 ... destination address field, 6
04: information field, 605: identifier, 701: packet mode, 702: non-packet mode, 703:
"SET-MODE" command, 800: disconnect state, 801: wait connect state, 802: connect state, 803: "SET-CONNECT" command, 804: call control between system control mechanisms, 1400 ...
Primary bootstrap path information, 1401 alternate bootstrap path information, 105e system control mechanism, 106e communication cable, 108e LA
N control mechanism, 109e communication cable, 111 management terminal device, 1700 auxiliary power supply, 1701 power-on logic, 1702 power control signal, 1703 main power supply, 17
04: terminal device, 1705: network.
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平7−129282(JP,A) 特開 平5−324133(JP,A) 特開 平3−12772(JP,A) 特開 昭64−25270(JP,A) 実開 昭60−5541(JP,U) (58)調査した分野(Int.Cl.7,DB名) G06F 15/16 - 15/177 G06F 1/26 - 1/32 ──────────────────────────────────────────────────続 き Continuation of front page (56) References JP-A-7-129282 (JP, A) JP-A-5-324133 (JP, A) JP-A-3-12772 (JP, A) JP-A 64-64 25270 (JP, A) Japanese Utility Model Showa 60-5541 (JP, U) (58) Fields investigated (Int. Cl. 7 , DB name) G06F 15/16-15/177 G06F 1/26-1/32
Claims (1)
列計算機システムを管理する管理端末装置を備えた並列
計算機システムの管理装置において、 前記複数のノードは、当該ノードの主電源により動作し
並列処理を実行するメインプロセッサと、当該ノードの
補助電源により動作し前記メインプロセッサを管理する
システム制御コマンドを実行するサブプロセッサと、前
記補助電源により動作し前記管理端末装置との通信を行
い、前記管理端末装置から発行されたシステム制御コマ
ンドをもとに制御データを生成するシステム制御機構
と、該システム制御機構とは異なるネットワークで前記
管理端末装置に接続され、前記管理端末装置の制御下で
前記ノードのアプリケーションソフトウェアを管理する
LAN制御機構とを備え、 前記管理端末装置は、前記複数のノードの複数のシステ
ム制御機構と通信を行うシステム制御機構と、補助電源
で動作し、特定の信号を入力すると前記管理端末装置の
主電源を投入する電源投入論理と、前記電源投入論理に
より主電源が投入されたときに、前記複数のノードのサ
ブプロセッサに、一括または個別に主電源を投入するシ
ステム制御コマンドを前記システム制御機構経由で送信
する手段とを備え、 前記複数のノードの複数のシステム制御機構と前記管理
端末装置のシステム制御機構とを接続して成り、前記複
数のノードの複数のメインプロセッサを管理するシステ
ム制御コマンドを前記管理端末装置から前記複数のノー
ドの複数のシステム制御機構に送信するシステム制御イ
ンタフェースを備えることを特徴とする並列計算機シス
テムの管理装置。(57) [Claim 1] In a management apparatus for a parallel computer system having a management terminal device for managing a parallel computer system to which a plurality of nodes are connected, wherein the plurality of nodes are A main processor that is operated by a main power supply of the node and executes parallel processing; a sub-processor that is operated by an auxiliary power supply of the node and executes a system control command for managing the main processor; and the management terminal device that is operated by the auxiliary power supply A system control mechanism that communicates with the management terminal apparatus and generates control data based on a system control command issued from the management terminal apparatus; and LAN control mechanism for managing application software of the node under control of a terminal device The management terminal device is operated by an auxiliary power supply and a system control mechanism that communicates with a plurality of system control mechanisms of the plurality of nodes, and turns on the main power supply of the management terminal device when a specific signal is input. a power-on logic that, when the main power is turned on by the power on logic, to the sub processor of the plurality of nodes transmits a system control command for collectively or individually after the main power is turned on via the system controls Means for connecting a plurality of system control mechanisms of the plurality of nodes and a system control mechanism of the management terminal device, wherein the management terminal issues a system control command for managing a plurality of main processors of the plurality of nodes. characterized in that the device comprises a system control interface you sent to a plurality of system control mechanism of the plurality of nodes Management unit of column computer system.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000368897A JP3513484B2 (en) | 2000-12-04 | 2000-12-04 | Management system for parallel computer system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2000368897A JP3513484B2 (en) | 2000-12-04 | 2000-12-04 | Management system for parallel computer system |
Related Parent Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP25142795A Division JP3163237B2 (en) | 1995-09-28 | 1995-09-28 | Management device for parallel computer system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2001209623A JP2001209623A (en) | 2001-08-03 |
| JP3513484B2 true JP3513484B2 (en) | 2004-03-31 |
Family
ID=18839029
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2000368897A Expired - Fee Related JP3513484B2 (en) | 2000-12-04 | 2000-12-04 | Management system for parallel computer system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3513484B2 (en) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5793950B2 (en) * | 2011-05-09 | 2015-10-14 | 富士ゼロックス株式会社 | Image forming system, management apparatus, management program |
| WO2014158181A1 (en) * | 2013-03-29 | 2014-10-02 | Hewlett-Packard Development Company, L.P. | Sharing firmware among agents in a computing node |
| JP6907487B2 (en) | 2016-09-09 | 2021-07-21 | 富士通株式会社 | Parallel processing equipment, control method for parallel processing equipment, and control equipment used for parallel processing equipment |
| JP6604427B1 (en) * | 2018-12-28 | 2019-11-13 | 富士通クライアントコンピューティング株式会社 | Information processing system |
-
2000
- 2000-12-04 JP JP2000368897A patent/JP3513484B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2001209623A (en) | 2001-08-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP3163237B2 (en) | Management device for parallel computer system | |
| CN100391176C (en) | Method and system for remotely updating functions of household devices | |
| US7200845B2 (en) | System and method for high availability firmware load | |
| JPS62115556A (en) | Program loading system | |
| US7499987B2 (en) | Deterministically electing an active node | |
| CN102455951A (en) | Fault tolerance method and system of virtual machines | |
| JP4964666B2 (en) | Computer, program and method for switching redundant communication paths | |
| US20070266120A1 (en) | System and method for handling instructions in a pre-boot execution environment | |
| JP3513484B2 (en) | Management system for parallel computer system | |
| US5321830A (en) | Reset method when adaptor module is faulty and computer system executing same | |
| CN113824620A (en) | Partition switching method, device, vehicle and storage medium | |
| US11853175B2 (en) | Cluster system and restoration method that performs failover control | |
| JPWO2001025934A1 (en) | Server/Client System | |
| JP2519276B2 (en) | Failure information collection processing method | |
| CN119376803A (en) | Remote restart method, device, storage medium and computer program product | |
| JPH1069470A (en) | Multiprocessor system | |
| JP3190880B2 (en) | Standby system, standby method, and recording medium | |
| US20100229028A1 (en) | Information processing apparatus, information processing system, and control method therefor | |
| KR0168947B1 (en) | Method for booting node without disk in real-time distributing system | |
| JP3144787B2 (en) | Distributed processing system and interactive processing method thereof | |
| JPH06266685A (en) | Decentralized control system | |
| JPH0464162A (en) | Control command execution method for computer | |
| JPH0713787A (en) | Information processing equipment | |
| JP2002140206A (en) | Standby redundant control device and its application program development device | |
| JPS61213932A (en) | Decentralized duplex computer system and its control method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040106 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040109 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080116 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090116 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090116 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100116 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110116 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110116 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120116 Year of fee payment: 8 |
|
| LAPS | Cancellation because of no payment of annual fees |