JP2826466B2 - Performance measurement method of parallel computer system - Google Patents
Performance measurement method of parallel computer systemInfo
- Publication number
- JP2826466B2 JP2826466B2 JP6060385A JP6038594A JP2826466B2 JP 2826466 B2 JP2826466 B2 JP 2826466B2 JP 6060385 A JP6060385 A JP 6060385A JP 6038594 A JP6038594 A JP 6038594A JP 2826466 B2 JP2826466 B2 JP 2826466B2
- Authority
- JP
- Japan
- Prior art keywords
- memory
- buffer
- units
- input buffer
- request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000691 measurement method Methods 0.000 title claims description 14
- 230000015654 memory Effects 0.000 claims description 143
- 239000000872 buffer Substances 0.000 claims description 131
- 238000012545 processing Methods 0.000 claims description 80
- 230000004044 response Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 19
- 238000000034 method Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 6
- 102100022103 Histone-lysine N-methyltransferase 2A Human genes 0.000 description 3
- 101001045846 Homo sapiens Histone-lysine N-methyltransferase 2A Proteins 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Landscapes
- Multi Processors (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Description
【0001】[0001]
【産業上の利用分野】本発明は並列コンピュータシステ
ムの性能測定方式に関し、特に並列コンピュータシステ
ムにおけるメモリアクセスの競合の並列コンピュータシ
ステムの性能測定方式に関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a method for measuring the performance of a parallel computer system, and more particularly, to a method for measuring the performance of a parallel computer system in which a memory access conflict occurs in the parallel computer system.
【0002】[0002]
【従来の技術】まず、並列コンピュータシステムの構成
について図4を参照して説明する。2. Description of the Related Art First, a configuration of a parallel computer system will be described with reference to FIG.
【0003】図4に示す並列コンピュータシステムは、
同時に演算処理が可能な演算処理部1−0〜1−31か
らなる演算処理部1と、複数の演算処理部1−0〜1−
31のそれぞれに属しその演算処理部より発行されたメ
モリアクセス系のリクエストを要求されたメモリポート
へ接続する演算処理部側ネットワーク2−0〜2−31
よりなる演算処理部側ネットワーク2と、各々同時にア
クセス可能な複数のメモリバンクを有する複数のメモリ
部4−0〜4−31からなるメモリ部4と、配下のそれ
ぞれのメモリ部4−0〜4−31の該当するメモリバン
クにメモリアクセス系のリクエストを接続するメモリ部
側ネットワーク3−0〜3−31よりなるメモリ部側ネ
ットワーク3とから構成されている。[0003] The parallel computer system shown in FIG.
An arithmetic processing unit 1 comprising arithmetic processing units 1-0 to 1-31 capable of performing arithmetic processing at the same time;
And a network 2-0 to 2-31, which connects a memory access request issued by the processing unit to the requested memory port.
And a memory unit 4 comprising a plurality of memory units 4-0 to 4-31 each having a plurality of memory banks which can be accessed simultaneously, and respective subordinate memory units 4-0 to 4-4. And a memory unit side network 3 comprising memory unit side networks 3-0 to 3-31 for connecting a memory access system request to a corresponding memory bank of -31.
【0004】図4では演算処理部1、演算処理部側ネッ
トワーク2、メモリ部側ネットワーク3、メモリ部4と
もにそれぞれ32台構成で示してあるが実際は2n 台で
の構成が可能である。以下は全て32台構成で説明す
る。In FIG. 4, each of the arithmetic processing unit 1, the network 2 for the arithmetic processing unit, the network 3 for the memory unit, and the memory unit 4 is shown as having 32 units. However, in practice, 2 n units can be used. The following description is based on a 32-unit configuration.
【0005】また、図4はメモリアクセス系のメモリ向
きのインターフエースのみを示してあるが実際はメモリ
部4から演算処理部1に向かうインターフエースも存在
する。FIG. 4 shows only an interface for a memory of a memory access system, but actually there is an interface from the memory unit 4 to the arithmetic processing unit 1.
【0006】次に図4の並列コンピュータシステムの動
作について説明する。Next, the operation of the parallel computer system shown in FIG. 4 will be described.
【0007】演算処理部1よりメモリアクセス系の命令
が発行されると、まず配下の演算処理部側ネットワーク
2に対してリクエストが発行される。When an instruction for a memory access system is issued from the arithmetic processing unit 1, a request is first issued to the subordinate operation processing unit side network 2.
【0008】演算処理部側ネットワーク2ではリクエス
トを受け取ると、メモリ部4に属するどのメモリ部(3
2個の中の)に対するアクセスかを認識する。ここで、
演算処理部1の中の一つの演算処理部には複数のパイプ
ラインが存在し、それぞれ同時に命令を発行するため、
演算処理部側ネットワーク2の各演算処理部側ネットワ
ークでは同時に同一メモリ部へアクセスするリクエスト
の競合調停を行なっている。ここで、競合調停の結果、
アクセスが許可されたリクエストはメモリ部側ネットワ
ーク3に発行される。When the request is received by the arithmetic processing unit side network 2, any one of the memory units (3
Recognize whether it is access to (of the two). here,
A plurality of pipelines exist in one arithmetic processing unit in the arithmetic processing unit 1, and instructions are issued at the same time.
Competition arbitration of requests for accessing the same memory unit is performed simultaneously in each operation processing unit side network of the operation processing unit side network 2. Here, as a result of competitive arbitration,
The request for which access is permitted is issued to the memory unit side network 3.
【0009】メモリ部側ネットワーク3の各メモリ部側
ネットワークでは異なる演算処理部からのリクエストが
同時に受け取られることがある。また、異なる演算処理
部から同じメモリ部の同じメモリバンクに対するリクエ
ストが同時に発行された場合は演算処理部側ネットワー
クと同じように各メモリ部側ネットワーク内で競合調停
を行なう。ここで、競合調停の結果アクセスが許可され
たリクエストはメモリ部の指定されたバンクに対してア
クセスする。In each of the memory side networks of the memory side network 3, requests from different arithmetic processing units may be received simultaneously. When requests for the same memory bank of the same memory unit are issued simultaneously from different arithmetic processing units, contention arbitration is performed in each memory unit network in the same manner as the arithmetic processing unit network. Here, the request permitted to access as a result of the contention arbitration accesses the designated bank in the memory unit.
【0010】図5は図4における演算処理部1に属する
演算処理部1−0〜1−31の中の1つの演算処理部の
ブロック図である。FIG. 5 is a block diagram of one of the processing units 1-0 to 1-31 belonging to the processing unit 1 in FIG.
【0011】図5の演算処理部はそれぞれ同時にベクト
ル命令を実行するベクトルプロセッサ10〜17と、命
令の先取り、発行およびスカラ命令を実行するスカラプ
ロセッサ18とから構成されている。The arithmetic processing unit shown in FIG. 5 includes vector processors 10 to 17 for simultaneously executing vector instructions, and a scalar processor 18 for prefetching, issuing, and executing scalar instructions.
【0012】図5では一つの演算処理部にベクトルプロ
セッサが8台の構成で示してあるが、実際は2n 台での
構成が可能である。以下は全てベクトルプロセッサが8
台の構成で説明する。Although FIG. 5 shows a configuration in which one arithmetic processing unit has eight vector processors, a configuration with 2 n units is actually possible. Below are all 8 vector processors
A description will be given of the configuration of the stand.
【0013】まず、スカラプロセッサ18で命令の先取
りが実行される。先取りされた命令がスカラ命令の場合
はそのままメモリに対してリクエストが発行される。実
際にはこの演算処理部の配下の演算処理部側ネットワー
クに対してリクエストが発行される。また、先取りされ
た命令がベクトル命令の場合は各ベクトルプロセッサに
対して命令の実行を指示する。First, the scalar processor 18 executes instruction prefetching. If the prefetched instruction is a scalar instruction, the request is issued to the memory as it is. Actually, a request is issued to the network on the operation processing unit side under the operation processing unit. When the prefetched instruction is a vector instruction, it instructs each vector processor to execute the instruction.
【0014】図6は図4における演算処理部側ネットワ
ーク2に属する演算処理部側ネットワーク2−0〜2−
31の中の1つの演算処理部側ネットワークの従来の構
成を示すブロック図である。FIG. 6 is a diagram showing the operation processing unit side networks 2-0 to 2--2 belonging to the operation processing unit side network 2 in FIG.
31 is a block diagram illustrating a conventional configuration of one arithmetic processing unit side network among 31. FIG.
【0015】図6の演算処理部側ネットワークは、各プ
ロセッサからのリクエストを受け取るリクエスト受け付
けバッフア21と、リクエスト受け付けバッフア21で
受け取ったリクエストがどのメモリポートに対するリク
エストかを判断し他のプロセッサからのリクエストと競
合している場合にはそのアクセスの優先順位を決める競
合調停部22と、競合調停部22にてメモリへのアクセ
スが許可されたリクエストの出力ポートの選択を行なう
クロスバ部24とから構成されている。The arithmetic processing unit side network shown in FIG. 6 determines a request reception buffer 21 for receiving a request from each processor and a memory port to which the request received by the request reception buffer 21 is directed. If there is a conflict, the contention arbitration unit 22 determines the priority of the access, and the crossbar unit 24 selects an output port of a request permitted to access the memory by the contention arbitration unit 22. ing.
【0016】各プロセッサから発行されたメモリアクセ
ス系のリクエストはまずリクエスト受け付けバッフア2
1で受け取られる。ここで、リクエスト受け付けバッフ
ア21に、先行するリクエストが溜まっていない場合
は、そのリクエストは競合調停部22へと送られる。A memory access request issued from each processor is first received by a request reception buffer 2.
Received at 1. Here, when a preceding request is not stored in the request reception buffer 21, the request is sent to the contention arbitration unit 22.
【0017】リクエスト受け付けバッフア21でリクエ
ストが保留される条件としては、競合調停部22におい
てリクエストの競合が発生し後続リクエストの処理がで
きない場合である。The condition for suspending a request in the request receiving buffer 21 is when a conflict between requests occurs in the conflict arbitration unit 22 and the subsequent request cannot be processed.
【0018】リクエスト受け付けバッフア21は前記の
条件によりリクエストの保持を行なうが、その保持量に
は制限があり、その制限に達するとプロセッサに対して
リクエスト受け取り不可能であることを示すホールド信
号を転送する。次に、リクエスト受け付けバッフア21
から競合調停部22に対してリクエストは転送される。The request receiving buffer 21 holds the request under the above-mentioned conditions, but the amount of the request is limited. When the limit is reached, a hold signal indicating that the request cannot be received is transferred to the processor. I do. Next, the request receiving buffer 21
The request is transferred to the contention arbitration unit 22 from.
【0019】競合調停部22の動作としては各プロセッ
サからのリクエストがどのメモリポートに対してアクセ
スするのかを判断する。実際は複数あるメモリ部側ネッ
トワーク3−0〜3−31のどのメモリ部側ネットワー
クに対するアクセスであるかを判断する。これは、リク
エストのアドレスの一部のビットによって認識すること
ができる。The operation of the contention arbitration unit 22 determines to which memory port a request from each processor accesses. In practice, it is determined which one of the plurality of memory unit networks 3-0 to 3-31 is to be accessed. This can be recognized by some bits of the address of the request.
【0020】ここで、あるメモリポートに対するリクエ
ストが唯一であったときはそのままクロスバ部24に対
してリクエストが発行される。しかし、あるプロセッサ
からのリクエストが他のプロセッサからのリクエストと
同じメモリポートに対して発行されているいるときはこ
こで競合調停を行なう。Here, when there is only one request for a certain memory port, the request is issued to the crossbar unit 24 as it is. However, when a request from a certain processor is issued to the same memory port as a request from another processor, contention arbitration is performed here.
【0021】競合調停は、決められた優先順位に従って
リクエストをシリアルにメモリポートに対して発行す
る。リクエストをシリアルに発行している間はリクエス
ト受け付けバッフア21に対しては後続リクエストの発
行を許さない。In the contention arbitration, a request is issued serially to a memory port according to a determined priority. While the request is issued serially, the request reception buffer 21 is not allowed to issue the subsequent request.
【0022】図7は、図4におけるメモリ部側ネットワ
ーク4に属するメモリ部側ネットワーク4−0〜4−3
1の中の1つのメモリ部側ネットワークのブロック図で
ある。FIG. 7 shows the memory unit side networks 4-0 to 4-3 belonging to the memory unit side network 4 in FIG.
FIG. 2 is a block diagram of one memory unit side network in FIG.
【0023】図7のメモリ部側ネットワークは、演算処
理部側ネットワーク2−0〜2−31からのリクエスト
をそれぞれ受け取るリクエストバッフア部300〜33
1と、リクエストバッフア部300〜331のリクエス
トを受け取りメモリ部4−0〜4−31のそれぞれのメ
モリバンクに対する競合調停を行なう競合調停部332
と、競合調停部332にてメモリバンクへのアクセスが
許可されたリクエストの出力ポート選択を行なうクロス
バ部333とから構成されている。The memory unit side network in FIG. 7 includes request buffer units 300 to 33 which receive requests from the arithmetic processing unit side networks 2-0 to 2-31, respectively.
1 and a contention arbitration unit 332 that receives requests from the request buffer units 300 to 331 and performs contention arbitration for each memory bank of the memory units 4-0 to 4-31.
And a crossbar unit 333 for selecting an output port of a request whose access to the memory bank is permitted by the contention arbitration unit 332.
【0024】各演算処理部側ネットワーク2−0〜2−
31より転送されたリクエストは対応するリクエストバ
ッフア部300〜331にて受け取られる。本バッフア
は演算処理部側ネットワーク2−0〜2−31対応であ
るので競合によるホールドはポート単位で行なわれる。
ここで受け取られたリクエストは競合調停部332へ送
られる。Each network 2-0 to 2-
The request transferred from 31 is received by the corresponding request buffer units 300 to 331. Since this buffer is compatible with the arithmetic processing unit side networks 2-0 to 2-31, the hold due to contention is performed on a port basis.
The request received here is sent to the contention arbitration unit 332.
【0025】競合調停部332ではまず受け取ったリク
エストがどのメモリポートに対するリクエストかを判断
する。ここで、競合する他の演算処理部側ネットワーク
からのリクエストが存在しなければそのリクエストはそ
のままクロスバ部333に対して出力される。他の演算
処理部側ネットワークからのリクエストが同じメモリポ
ートに対してアクセスしようとした場合、競合調停部3
32は決められた優先順位に従ってリクエストの発行許
可をシリアルに出力する。リクエストの発行を許可され
たリクエストはクロスバ部333に出力される。クロス
バ部333は競合調停部332によって発行許可された
リクエストを受け取りリクエストで指定されたメモリポ
ートに対してリクエストを発行する。The contention arbitration unit 332 first determines to which memory port the received request is. Here, if there is no conflicting request from the other processing unit side network, the request is output to the crossbar unit 333 as it is. When a request from another operation processing unit side network attempts to access the same memory port, the contention arbitration unit 3
Reference numeral 32 serially outputs a request issuance permission according to the determined priority. The request permitted to issue the request is output to the crossbar unit 333. The crossbar unit 333 receives the request issued by the contention arbitration unit 332 and issues the request to the memory port specified by the request.
【0026】図8は図4におけるメモリ部4に属するメ
モリ部4−0〜4−31の中の1つのメモリ部のブロッ
ク図である。FIG. 8 is a block diagram of one of the memory units 4-0 to 4-31 belonging to the memory unit 4 in FIG.
【0027】図8のメモリ部は同時にアクセス可能な複
数のメモリ400〜431から構成されている。The memory section shown in FIG. 8 comprises a plurality of memories 400 to 431 which can be accessed simultaneously.
【0028】メモリ部側ネットワーク3から出力された
リクエストはメモリ部に属するメモリ400〜431の
中の指定された1つのメモリに到着するとそのままメモ
リアクセスを開始する。ここでは他のリクエストとの競
合は起らないためである。When a request output from the memory unit side network 3 arrives at one specified memory among the memories 400 to 431 belonging to the memory unit, the memory access is started as it is. This is because no conflict with other requests occurs.
【0029】上述のように、並列コンピュータシステム
においては、メモリアクセスの競合が発生し、これが、
システムやソフトウエアの性能評価の尺度となってい
る。As described above, in the parallel computer system, contention for memory access occurs.
It is a measure of system and software performance evaluation.
【0030】上述の構成による並列コンピュータシステ
ムにおいてのメモリアクセスの競合の並列コンピュータ
システムの性能測定方式では、同一演算処理部の異なる
プロセッサ同志の競合による待ち時間を測定するために
演算処理部側ネットワークのそれぞれに、また、異なる
演算処理部からのリクエスト同志の競合による待ち時間
を測定するためにメモリ部側ネットワークのそれぞれに
待ち時間測定機能を有していた。In the performance measurement method of the parallel computer system for competing for memory access in the parallel computer system having the above-described configuration, in order to measure the waiting time due to the competition between different processors of the same processing unit, the network of the processing unit side network is used. Each of the networks on the memory unit side has a waiting time measurement function for measuring the waiting time due to competition between requests from different arithmetic processing units.
【0031】同一演算処理部の異なるプロセッサ同志の
競合による待ち時間を測定するための従来の並列コンピ
ュータシステムの性能測定方式について図9を参照して
説明する。Referring to FIG. 9, a performance measuring method of a conventional parallel computer system for measuring a waiting time due to competition between different processors of the same arithmetic processing unit will be described.
【0032】図9は、図6のリクエスト受け付けバッフ
ア21のブロック図である。FIG. 9 is a block diagram of the request receiving buffer 21 of FIG.
【0033】図9のリクエスト受け付けバッフア21
は、プロセッサ毎のリクエストをそれぞれ受け付けるレ
ジスタ2100〜2108と、収容ワード数がWで1ワ
ードにプロセッサの数だけの待ち合せリクエストを保持
できるインプットバッフア2119と、インプットバッ
フア2119の書き込みアドレスを保持する+1回路を
含むライトアドレスレジスタ(WAR)2117と、イ
ンプットバッフア2119の読み出しアドレスを保持す
る+1回路を含むリードアドレスレジスタ(RAR)2
118と、WAR2117とRAR2118の値を比較
するコンパレータ2120と、コンパレータ2120の
出力を保持するレジスタ2121と、プロセッサ対応リ
クエスト受け付けレジスタ2100〜2108の出力と
インプットバッフア2119の出力とのいずれかを選択
するセレクタ2122と、セレクタ2122の出力を受
け取るレジスタ2123とから構成されている。The request receiving buffer 21 shown in FIG.
Holds registers 2100 to 2108 that receive requests for each processor, an input buffer 2119 that can hold waiting requests of the number of processors in one word with an accommodation word number of W, and a write address of the input buffer 2119. A write address register (WAR) 2117 including a +1 circuit, and a read address register (RAR) 2 including a +1 circuit holding a read address of the input buffer 2119
118, a comparator 2120 for comparing the values of the WAR 2117 and the RAR 2118, a register 2121 for holding the output of the comparator 2120, and one of the outputs of the processor corresponding request reception registers 2100 to 2108 and the output of the input buffer 2119. It comprises a selector 2122 and a register 2123 for receiving the output of the selector 2122.
【0034】プロセッサから出力されたリクエストはレ
ジスタ2100〜2108にて受け取られる。このとき
同一タイミングに出力された他のプロセッサからのリク
エストも全て受け取られる。ここで、先行リクエストが
ない場合や、先行リクエストが競合調停部22を抜けて
しまっている場合はインプットバッフア2119はバイ
パスされてリクエストはレジスタ2123にセットされ
る。その後、競合調停部22へとリクエストは転送され
る。しかし、先行リクエストが詰まっている場合はリク
エストはインプットバッフア2119にて保持される。
このとき、WAR2117はプラス1される。Requests output from the processor are received by registers 2100 to 2108. At this time, all requests from other processors output at the same timing are also received. Here, when there is no preceding request or when the preceding request has passed through the contention arbitration unit 22, the input buffer 2119 is bypassed and the request is set in the register 2123. Thereafter, the request is transferred to the contention arbitration unit 22. However, if the preceding request is jammed, the request is held in the input buffer 2119.
At this time, WAR2117 is incremented by one.
【0035】インプットバッフア2119にリクエスト
が溜まっているときに先行リクエストの競合調停が終わ
ったときはインプットバッフア2119から次リクエス
トを読み出し、競合調停部22に対してリクエストを転
送する。その際、RAR2118はプラス1される。イ
ンプットバッフア2119から読み出されたリクエスト
はセレクタ2122によってセレクトされレジスタ21
23にセットされ競合調停部22に転送される。ここ
で、コンパレータ2120は(WAR2117−RAR
2118)がインプットバッフア2119の最大収容ワ
ード数Wと等しい場合に″1″を出力する。この状態で
は、インプットバッフア2119はこれ以上リクエスト
を収容することはできないインプットバッフアビジーの
状態であり、このコンパレータ2120の出力″1″の
信号はインプットバッフアビジー信号として対応する演
算処理部に送出され、そこからのリクエストの発行を停
止させる。When the contention arbitration of the preceding request is completed while the requests are accumulated in the input buffer 2119, the next request is read from the input buffer 2119 and the request is transferred to the contention arbitration unit 22. At that time, RAR2118 is incremented by one. The request read from the input buffer 2119 is selected by the selector 2122 and
23 and transferred to the contention arbitration unit 22. Here, the comparator 2120 is (WAR2117-RAR
2118) is equal to the maximum number of words W accommodated in the input buffer 2119, "1" is output. In this state, the input buffer 2119 is in an input buffer busy state in which no more requests can be accommodated, and the signal of the output “1” of the comparator 2120 is input to the corresponding processing unit as an input buffer busy signal. It is sent and stops issuing requests from it.
【0036】性能測定回路(図示せず)はレジスタ21
21がコンパレータ2120の出力″1″を保持する時
間を測定し、この時間を演算処理部側ネットワーク2で
他のプロセッサとの競合等により待たされた時間として
いる。The performance measuring circuit (not shown) is connected to the register 21
21 measures the time during which the output “1” of the comparator 2120 is held, and uses this time as the time that the arithmetic processing unit side network 2 waits due to competition with another processor or the like.
【0037】また、異なる演算処理部からのリクエスト
同志の競合による待ち時間を測定するためのメモリ部側
ネットワークの待ち時間測定は、上述の同一演算処理部
の異なるプロセッサ同志の競合による待ち時間を測定す
るための演算処理部側ネットワークの待ち時間測定と同
様に行なわれるが、この場合には図7のリクエストバッ
フア300〜331のそれぞれに図9のインプットバッ
フア2119に設けたと同様の書き込み、読み出しの回
路であるWAR2117、RAR2118と、コンパレ
ータ2120と、レジスタ2121とを設けて性能測定
回路(図示せず)により測定を行なっている。The latency measurement of the memory side network for measuring the latency due to competition between requests from different arithmetic processing units measures the latency due to competition between different processors of the same arithmetic processing unit. In this case, the same write and read operations as those provided in the input buffer 2119 of FIG. 9 are performed for each of the request buffers 300 to 331 of FIG. 7 in this case. WAR2117 and RAR2118, a comparator 2120, and a register 2121 are provided, and the performance is measured by a performance measuring circuit (not shown).
【0038】上述のシステム構成では、どのプロセッサ
からのリクエストであるか、また、ベクトル命令の場合
は戻り先のベクトルレジスタの値を付随情報としてリク
エストと同時に、メモリ部側ネットワークに対して送っ
ている。ロード系の命令の場合にデータが戻ってきたと
きは同時に上記の付随情報もメモリ部側ネットワークか
ら帰ってくる。演算処理部側ネットワークではこの付随
情報を元にロードデータを戻すことになる。In the above system configuration, the processor from which the request is issued, and in the case of a vector instruction, the value of the vector register of the return destination is sent to the memory unit side network as the accompanying information at the same time as the request. . When data is returned in the case of a load-type instruction, the accompanying information is also returned from the memory-side network at the same time. The arithmetic processing unit side network returns the load data based on the accompanying information.
【0039】しかし、このようにすると、転送データ量
が多くなりネットワーク間のインタフエース線の本数が
増大し、配線が輻輳することなるので、最近では、図1
0に示すように、演算処理部側ネットワーク2−0〜2
−31のそれぞれにID発行管理部23を設け、メモリ
部側ネットワークに対して付随情報を送らずにID発行
管理部23に設けてある各メモリ部対応のIDバッフア
にプロセッサから発行されたリクエストの付随情報を書
き込み登録し、そのライトアドレスをID番号としてメ
モリ部側ネットワークに送る。そして、ロードおよびス
トアの両命令でID番号がメモリ部側ネットワークから
戻ってくるとID番号をリードアドレスとしてIDバッ
フアの内容を読み出し、命令の付随情報を得るようにし
て、配線の輻輳を緩和している。However, in this case, the amount of transfer data increases, the number of interface lines between networks increases, and wiring becomes congested.
0, the arithmetic processing unit side networks 2-0 to 2
-31, an ID issuance management unit 23 is provided for each of the memory units, without sending accompanying information to the memory unit side network. The accompanying information is written and registered, and the write address is sent to the memory side network as an ID number. Then, when the ID number returns from the network on the memory unit side in both the load and store instructions, the contents of the ID buffer are read using the ID number as a read address, and the accompanying information of the instruction is obtained to reduce the congestion of the wiring. ing.
【0040】[0040]
【発明が解決しようとする課題】上述の従来の並列コン
ピュータシステムの性能測定方式は、配線の輻輳を回避
するためにID発行管理部23を有する構成とした場合
には、リクエスト受け付けバッフア21でリクエストが
保留される条件として、上記で考慮した競合調停部22
においてリクエストの競合が発生し後続リクエストの処
理ができない場合の他に、ID発行管理部23において
もリクエスト保留の条件が発生する。In the above-described conventional performance measurement method for a parallel computer system, if the ID issue management unit 23 is provided to avoid wiring congestion, the request receiving buffer 21 As a condition for suspending, the contention arbitration unit 22 considered above
In addition to the case where a request conflict occurs and the subsequent request cannot be processed, a request suspension condition also occurs in the ID issuance management unit 23.
【0041】それは、メモリ部側ネットワークからのリ
プライが帰ってこないリクエストが各メモリ部対応のI
Dバッフアに残っていて、各メモリ部対応のIDバッフ
アに新たなリクエストを登録することができない場合が
生ずるからである。このような場合には従来の並列コン
ピュータシステムの性能測定方式では、メモリ部側ネッ
トワークでの遅れがID発行管理部23の遅れとして測
定されることとなり、少なくとも一部のメモリ部側ネッ
トワークの影響を除外して演算処理部側ネットワークの
遅れを正確に測定することができないという問題点があ
る。The reason is that a request from which a reply from the network on the memory unit side does not return is sent to the I / O corresponding to each memory unit.
This is because a new request may remain in the D buffer and a new request cannot be registered in the ID buffer corresponding to each memory unit. In such a case, in the performance measurement method of the conventional parallel computer system, the delay in the memory unit side network is measured as the delay of the ID issue management unit 23, and the influence of at least a part of the memory unit side network is reduced. There is a problem that it is not possible to accurately measure the delay of the arithmetic processing unit side network by excluding it.
【0042】本発明の目的は、ID発行管理部を設けて
配線の輻輳を回避した構成の並列コンピュータシステム
においても、少なくとも一部のメモリ部側ネットワーク
の影響を除外して性能を測定することができ、ユーザプ
ログラムの改善解析に寄与できる並列コンピュータシス
テムの性能測定方式を提供することにある。An object of the present invention is to measure the performance of a parallel computer system provided with an ID issue management unit by eliminating the influence of at least a part of the memory unit side network, even in a parallel computer system in which wiring congestion is avoided. It is an object of the present invention to provide a method for measuring the performance of a parallel computer system that can contribute to the improvement analysis of a user program.
【0043】[0043]
【課題を解決するための手段】第1の発明の並列コンピ
ュータシステムの性能測定方式は、それぞれm(自然
数)個のプロセッサからなるn(自然数)個の演算処理
部とそれぞれn個の同時にアクセスできるメモリからな
るn個のメモリ部と前記各演算処理部に対応して設けら
れ対応する演算処理部の各プロセッサからの出力を対応
する前記メモリ部に接続するn個の演算処理部側ネット
ワークと前記メモリ部のそれぞれに対して設けられ各演
算処理部側ネットワークからの出力を前記メモリ部の対
応するメモリに接続するn個のメモリ部側ネットワーク
とから構成される並列コンピュータシステムの性能測定
方式において、前記各演算処理部側ネットワークには対
応する演算処理部の2以上のプロセッサから同時に同一
の前記メモリ部に対するメモリアクセスリクエストが発
行されたときにその競合調停のためにこれに続くメモリ
アクセスリクエストを保持するインプットバッフアと前
記メモリ部対応に設けられ発行されたメモリアクセスリ
クエストの付随情報を登録するとともにこれに代えてI
D番号を発行しこれに対する応答があったときにはこの
登録を無効にするn個のIDバッフア部とを有し、前記
インプットバッフアが満杯になったときにはインプット
バッフアビジー信号を発生するインプットバッフアビジ
ー信号発生手段と、前記IDバッフア部の登録が満杯に
なったときにはIDバッフアビジー信号を発生するID
バッフアビジー信号発生手段と、前記インプットバッフ
アビジー信号と前記IDバッフアビジー信号との供給を
受けインプットバッフアが満杯で前記n個のすべてのI
Dバッフア部の登録が満杯でない時間を測定する時間測
定手段とを有して構成されている。According to the performance measuring method of the parallel computer system of the first invention, n (natural number) arithmetic processing units each including m (natural number) processors and n simultaneous processing units can be simultaneously accessed. N memory sections each including a memory section, and n arithmetic processing section side networks which are provided corresponding to the respective arithmetic processing sections and connect outputs from respective processors of the corresponding arithmetic processing sections to the corresponding memory sections; In a performance measurement method for a parallel computer system comprising n memory unit-side networks provided for each of the memory units and connecting an output from each arithmetic processing unit-side network to a corresponding memory of the memory unit, Each of the arithmetic processing unit side networks simultaneously receives the same memory unit from two or more processors of the corresponding arithmetic processing unit. When the memory access request is issued, the input buffer for holding the subsequent memory access request for contention arbitration and the accompanying information of the issued memory access request provided for the memory unit are registered and registered. I instead of
An input buffer for generating an input buffer busy signal when the input buffer becomes full when the input buffer is full. A busy signal generating means for generating an ID buffer busy signal when registration of the ID buffer section is full;
A buffer busy signal generating means for receiving the input buffer busy signal and the ID buffer busy signal, and when the input buffer is full and all of the n I
And a time measuring means for measuring a time when the registration of the D buffer is not full.
【0044】第2の発明の並列コンピュータシステムの
性能測定方式は、それぞれm(自然数)個のプロセッサ
からなるn(自然数)個の演算処理部とそれぞれn個の
同時にアクセスできるメモリからなるn個のメモリ部と
前記各演算処理部に対応して設けられ対応する演算処理
部の各プロセッサからの出力を対応する前記メモリ部に
接続するn個の演算処理部側ネットワークと前記メモリ
部のそれぞれに対して設けられ各演算処理部側ネットワ
ークからの出力を前記メモリ部の対応するメモリに接続
するn個のメモリ部側ネットワークとから構成される並
列コンピュータシステムの性能測定方式において、前記
各演算処理部側ネットワークには対応する演算処理部の
2以上のプロセッサから同時に同一の前記メモリ部に対
するメモリアクセスリクエストが発行されたときにその
競合調停のためにこれに続くメモリアクセスリクエスト
を保持するインプットバッフアと前記メモリ部対応に設
けられ発行されたメモリアクセスリクエストの付随情報
を登録するとともにこれに代えてID番号を発行しこれ
に対する応答があったときにはこの登録を無効にするn
個のIDバッフア部とを有し、前記インプットバッフア
が満杯になったときにはインプットバッフアビジー信号
を発生するインプットバッフアビジー信号発生手段と、
前記IDバッフア部の登録が満杯になったときにはID
バッフアビジー信号を発生するIDバッフアビジー信号
発生手段と、前記インプットバッフアビジー信号と前記
IDバッフアビジー信号との供給を受けインプットバッ
フアが満杯で前記n個のうちから選択された1つのID
バッフア部の登録が満杯でない時間を測定する時間測定
手段とを有して構成されている。The performance measurement method of the parallel computer system according to the second aspect of the present invention is characterized in that n (natural number) arithmetic processing units each having m (natural number) processors and n (n) natural memory units each having n simultaneously accessible memories. For each of the n processing unit side networks and the memory unit, which are provided corresponding to the memory unit and the respective processing units and connect the output from each processor of the corresponding processing unit to the corresponding memory unit. The performance of a parallel computer system comprising an n number of memory unit side networks connected to outputs corresponding to the respective memory units in the memory unit. The network is simultaneously accessed by two or more processors of the corresponding arithmetic processing unit for the same memory unit. When a request is issued, an input buffer for holding a subsequent memory access request for contention arbitration and accompanying information of the issued memory access request provided for the memory unit are registered and replaced. Issue an ID number and invalidate this registration when there is a response to it.
Input buffer busy signal generating means for generating an input buffer busy signal when the input buffer is full;
When the ID buffer section registration is full, the ID
An ID buffer busy signal generating means for generating a buffer busy signal, one of the IDs selected from among the n when the input buffer is full and the input buffer busy signal and the ID buffer busy signal are supplied;
And time measuring means for measuring the time when the registration of the buffer section is not full.
【0045】[0045]
【実施例】次に、本発明の実施例について図面を参照し
て説明する。Next, embodiments of the present invention will be described with reference to the drawings.
【0046】それに先立ち、配線の輻輳を緩和するため
に演算処理部側ネットワークに図10に示すように設け
られたID発行管理部23の構成およびその動作につい
て説明する。Prior to this, the configuration and operation of the ID issuance management unit 23 provided as shown in FIG. 10 in the arithmetic processing unit side network to reduce the congestion of wiring will be described.
【0047】図3はID発行管理部23のブロック図で
ある。FIG. 3 is a block diagram of the ID issue management section 23.
【0048】図3のID発行管理部23は、競合調停部
22から送られてくる各プロセッサからのリクエスト付
随情報をメモリ部対応に振り分けるクロスバ部230
と、メモリ部対応にそれぞれ設けられそのメモリ部に発
行されたリクエストの付随情報を登録するとともにこれ
に代えてID番号を発行しリクエストの発行を制御管理
するIDバッフア部2300〜2331と、各IDバッ
フア部2300〜2331からのビジー信号の論理和信
号を作成する論理和回路231とから構成されている。The ID issuance management unit 23 shown in FIG. 3 is a crossbar unit 230 for distributing the request accompanying information from each processor sent from the contention arbitration unit 22 according to the memory unit.
ID buffer units 2300 to 2331 which are respectively provided corresponding to the memory units, register accompanying information of the issued requests in the memory units, issue ID numbers instead of the registered information, and control and manage the issuance of requests. And a logical sum circuit 231 for generating a logical sum signal of the busy signals from the buffer units 2300 to 2331.
【0049】IDバッフア部2300〜2331の構成
は同一であり、IDバッフア23000のライトアドレ
スをデコードするデコーダ(WADEC)23200
と、IDバッフア23000のリードアドレスをデコー
ドするデコーダ(RADEC)23300と、IDバッ
フア23000のワード数分のビット数をもち各ワード
毎に有効なリクエスト付随情報が書き込まれているかど
うかを示すv−ビットを収容しているv−ビットレジス
タ23400と、v−ビットレジスタ23400の各ビ
ットがすべて1であることを検出するALL1検出回路
23500と、v−ビットレジスタ23400の各ビッ
トのうち0であるビットを検出しそれに対応するIDバ
ッフア23000のライトアドレスを作成するエンコー
ダ(ENC)23600と、クロスバ部230からの出
力である付随情報を受けとるレジスタ23700と、I
Dバッフア23000のライトアドレスを保持するレジ
スタ(IDWAR)23800と、IDバッフア230
00のリードアドレスを保持するレジスタ(IDRA
R)23900と、レジスタ23700からの値を入力
データ、レジスタ23800の値をライトアドレス、レ
ジスタ23900の値をリードアドレスとするIDバッ
フア23000と、IDバッフア23000からの読み
出しデータを保持するレジスタ23100とから構成さ
れている。The configuration of the ID buffer units 2300 to 2331 is the same, and a decoder (WADEC) 23200 for decoding the write address of the ID buffer 23000 is used.
A decoder (RADEC) 23300 for decoding the read address of the ID buffer 23000; and a v-bit indicating whether valid request accompanying information having the number of bits corresponding to the number of words of the ID buffer 23000 is written for each word. , A ALL1 detection circuit 23500 that detects that all bits of the v-bit register 23400 are all 1, and a bit that is 0 among the bits of the v-bit register 23400. An encoder (ENC) 23600 for detecting and creating a write address of the ID buffer 23000 corresponding thereto, a register 23700 for receiving accompanying information output from the crossbar unit 230,
A register (IDWAR) 23800 for holding the write address of the D buffer 23000, and an ID buffer 230
00 to hold a read address (IDRA
R) 23900, an ID buffer 23000 having the value of the register 23700 as input data, the value of the register 23800 as a write address, and the value of the register 23900 as a read address, and a register 23100 for holding data read from the ID buffer 23000. It is configured.
【0050】次にこのID発行管理部23の動作につい
て説明する。Next, the operation of the ID issue management section 23 will be described.
【0051】競合調停部22より発行が許可されたリク
エストのリクエスト付随情報はクロスバ部230に入力
され行先のメモリ部に対応するIDバッフア部のレジス
タ23700にセットされ、次いで、IDバッフア23
000に空きワード(有効でないデータを格納している
ワード)がある場合にはそこに格納される。The request accompanying information of the request permitted to be issued by the contention arbitration unit 22 is input to the crossbar unit 230 and set in the register 23700 of the ID buffer unit corresponding to the destination memory unit.
If there is a free word in 000 (a word storing invalid data), it is stored there.
【0052】IDバッフア23000の有効データの格
納状態はv−ビットレジスタ23400に格納されてい
る各v−ビットに示されているので、IDバッフア23
000に空きがあり、新たなリクエスト付随情報を受け
取ることのできる状態であると、v−ビットレジスタ2
3400の出力をもとにエンコーダ23600によりエ
ンコードされて空きワードに対応するライトアドレスが
作成されてレジスタ23800にセットされ、レジスタ
23700のデータはIDバッフア23000のレジス
タ23800の示すアドレスに対応するワードに格納さ
れる。Since the storage state of valid data in ID buffer 23000 is indicated by each v-bit stored in v-bit register 23400, ID buffer 23
000 is empty and is ready to receive new request accompanying information, the v-bit register 2
The write address corresponding to the empty word is created by encoding by the encoder 23600 based on the output of 3400, and is set in the register 23800. The data of the register 23700 is stored in the word corresponding to the address indicated by the register 23800 of the ID buffer 23000. Is done.
【0053】それと同時に、レジスタ23800の出力
であるライトアドレスはID番号としてメモリ部に対し
てリクエストデータと共に出力される。At the same time, the write address output from the register 23800 is output to the memory unit together with the request data as an ID number.
【0054】更に、ライトアドレスはエンコーダ236
00からデコーダ23200に送られデコードされ、今
データが格納されたワードに対応するv−ビットレジス
タ23400のvビットを1にセットし、有効なデータ
が格納されたことを示す。Further, the write address is stored in the encoder 236.
From 00, the data is sent to the decoder 23200, decoded, and the v bit of the v-bit register 23400 corresponding to the word in which the data is now stored is set to 1, indicating that valid data has been stored.
【0055】このvビットはリクエストに対するリプラ
イがメモリ部側ネットワークから戻ってくるまで1にセ
ットされている。This v bit is set to 1 until the reply to the request returns from the network on the memory unit side.
【0056】リクエストに対するリプライがメモリ部側
ネットワークから戻ってくるときには、同時にID番号
も図3のRYID端子を介して戻ってくる。メモリロー
ド系の命令の場合はロードデータと共にID番号が帰っ
てくる。メモリストア系の命令のときは、リプライはI
D番号のみがメモリ部側ネットワークから戻ってくる。
有効なリプライがメモリ部側ネットワークから戻ってく
ると、レジスタ23900にて受けとられる。この値を
リードアドレスとしてIDバッフア23000からデー
タが読み出されてレジスタ23100にセットされると
同時に、デコーダ23300でこのID番号がデコード
されて今データが読み出されたワードに対応するv−ビ
ットレジスタ23100のvビットを0にリセットし、
そのワードが空きワードになったことを示す。When the reply to the request returns from the network on the memory unit side, the ID number also returns via the RYID terminal in FIG. In the case of a memory load instruction, the ID number is returned together with the load data. For memory store instructions, the reply is I
Only the D number returns from the network on the memory unit side.
When a valid reply returns from the memory side network, it is received by the register 23900. Using this value as a read address, data is read from the ID buffer 23000 and set in the register 23100, and at the same time, the ID number is decoded by the decoder 23300, and the v-bit register corresponding to the word from which the data has just been read is read. Reset the v bit of 23100 to 0,
Indicates that the word has become an empty word.
【0057】以上説明したように、IDバッフア230
00に空きワードがある場合には、リクエスト付随情報
はIDバッフア23000に登録され、代りにID番号
が発行されるが、空きワードがない場合にはID番号を
発行することができず、後続のリクエスト付随情報は受
け取ることができないので、この場合には競合調停部2
2およびインプットバッフア21にID発行管理部ビジ
ー信号を送出し、それらからのリクエスト付随情報の供
給を停止させる。ID発行管理部ビジー信号はID発行
管理部23にあるIDバッフア部2300〜2331の
何れがビジーになっても送出できるように、論理和回路
231により各IDバッフア部のビジー信号、すなわ
ち、各のALL1検出回路23500の出力、の論理和
信号を作成している。As described above, the ID buffer 230
If there is an empty word at 00, the request accompanying information is registered in the ID buffer 23000 and an ID number is issued instead. If there is no empty word, the ID number cannot be issued and the subsequent Since the request accompanying information cannot be received, in this case, the contention arbitration unit 2
2 and sends a busy signal to the input buffer 21 to stop the supply of request accompanying information from them. The logical sum circuit 231 outputs a busy signal of each ID buffer unit, that is, each of the ID buffer management units busy signals, so that any of the ID buffer units 2300 to 2331 in the ID issuance management unit 23 can transmit the busy signal. The logical sum signal of the output of the ALL1 detection circuit 23500 is created.
【0058】このようにして、メモリ部側ネットワーク
に起因して生ずるIDバッフアビジーによってもインプ
ットバッフアビジーが生ずるので、演算処理部側の性能
を測定するためには、このメモリ部側ネットワークに起
因するフアクタを除去する必要がある。As described above, the input buffer busy also occurs due to the ID buffer busy caused by the network on the memory unit side. Therefore, in order to measure the performance of the arithmetic processing unit side, the input buffer busy is caused by the network on the memory unit side. Factors need to be removed.
【0059】そこで、本発明では、インプットバッフア
ビジーで、かつ、IDバッフアがビジーでない時間を測
定することとした。Therefore, in the present invention, the time when the input buffer is busy and the time when the ID buffer is not busy is measured.
【0060】図1は本発明の並列コンピュータシステム
の性能測定方式の第1の実施例のブロック図である(以
下の説明では既述のインプットバッフアビジー信号の作
成手段およびIDバッフア部ビジー信号の作成手段につ
いての繰り返し記述は省略する。第2の実施例について
も同じ。)。FIG. 1 is a block diagram of a first embodiment of a performance measuring method for a parallel computer system according to the present invention (in the following description, the input buffer busy signal generating means and the ID buffer busy signal generating means described above). The repeated description of the creation means is omitted, and the same applies to the second embodiment.)
【0061】図1の並列コンピュータシステムの性能測
定方式は、ID発行管理部ビジー信号線により供給され
る第1の信号(2値信号でビジーの場合は1、そうでな
い場合は0)を反転するインバータ232と、反転され
た第1の信号を一時格納するレジスタ233と、インプ
ットバッフアビジー信号線により供給される第2の信号
(2値信号でビジーの場合は1、そうでない場合は0)
を一時格納するレジスタ234と、論理積回路235
と、論理積回路235の出力が1なる時間を測定する時
間測定回路236とから構成されている。The performance measurement method of the parallel computer system of FIG. 1 inverts the first signal (1 if the binary signal is busy and 0 otherwise) supplied by the ID issue management section busy signal line. An inverter 232, a register 233 for temporarily storing the inverted first signal, and a second signal supplied by the input buffer busy signal line (1 if the binary signal is busy, otherwise 0)
234 for temporarily storing the data and a logical product circuit 235
And a time measuring circuit 236 for measuring the time when the output of the AND circuit 235 becomes 1.
【0062】時間測定回路236は、論理積回路235
の出力1をカウントアップ信号としてカウントアップし
その計数値を出力するカウンタ回路である。The time measuring circuit 236 includes a logical product circuit 235
Is a counter circuit that counts up the output 1 of the above as a count-up signal and outputs the count value.
【0063】このように構成することにより、論理積回
路235の出力が1である時間を測定することは、レジ
スタ234および233に格納されているデータがそれ
ぞれ1である時間、すなわち、インプットバッフアビジ
ーで、かつ、ID発行管理部23がビジーでない時間を
測定していることになる。With this configuration, measuring the time when the output of the AND circuit 235 is 1 means that the data stored in the registers 234 and 233 is 1 each, that is, the input buffer. This means that the time is busy and the ID issuance management unit 23 is not busy.
【0064】このようにして第1の実施例では、同一演
算処理部内で発生した競合による遅れ時間を測定でき、
この測定結果を元にしてユーザプログラムのチューンア
ップを行ない、同一演算処理部内で発生する競合時間を
最小にすることにより、並列コンピュータシステムの演
算処理部側ネットワークの持つデータ転送能力を最大限
に発揮せしめることができるという効果を有する。As described above, in the first embodiment, the delay time due to contention occurring in the same arithmetic processing unit can be measured.
Tune up the user program based on this measurement result and minimize the contention time that occurs in the same processing unit to maximize the data transfer capability of the processing unit side network of the parallel computer system. It has the effect that it can be done.
【0065】図2は本発明の並列コンピュータシステム
の性能測定方式の第2の実施例のブロック図である。FIG. 2 is a block diagram of a second embodiment of the performance measuring method of the parallel computer system according to the present invention.
【0066】図2の並列コンピュータシステムの性能測
定方式は、ID発行管理部23にある各IDバッフア部
のビジー信号線の中から任意の1つのビジー信号線を選
択する選択回路237と、選択されたビジー信号線によ
り供給される第3の信号(2値信号でビジーの場合は
1、そうでない場合は0)を反転するインバータ232
と、反転された第3の信号を一時格納するレジスタ23
3と、インプットバッフアビジー信号線により供給され
る第4の信号(2値信号でビジーの場合は1、そうでな
い場合は0)を一時格納するレジスタ234と、論理積
回路235と、論理積回路235の出力が1なる時間を
測定する時間測定回路236とから構成されている。The performance measurement method of the parallel computer system shown in FIG. 2 includes a selection circuit 237 for selecting any one busy signal line from the busy signal lines of each ID buffer unit in the ID issue management unit 23. 232 that inverts the third signal (1 if the binary signal is busy and 0 otherwise) supplied by the busy signal line
And a register 23 for temporarily storing the inverted third signal.
3, a register 234 for temporarily storing a fourth signal (1 if the binary signal is busy and 0 otherwise) supplied by the input buffer busy signal line, a logical product circuit 235, and a logical product And a time measuring circuit 236 for measuring the time when the output of the circuit 235 becomes 1.
【0067】時間測定回路236は、論理積回路235
の出力1をカウントアップ信号としてカウントアップし
その計数値を出力するカウンタ回路である。The time measuring circuit 236 has a logical product circuit 235
Is a counter circuit that counts up the output 1 of the above as a count-up signal and outputs the count value.
【0068】このように構成することにより、論理積回
路235の出力が1である時間を測定することは、レジ
スタ234および233に格納されているデータがそれ
ぞれ1である時間、すなわち、インプットバッフアビジ
ーで、かつ、選択されたビジー信号線に対応するIDバ
ッフア部がビジーでない時間を測定していることにな
る。With this configuration, measuring the time when the output of the AND circuit 235 is 1 means that the data stored in the registers 234 and 233 is 1 each, that is, the input buffer. This means that the time when the ID buffer unit is busy and the ID buffer unit corresponding to the selected busy signal line is not busy is measured.
【0069】このようにして、第2の実施例では、選択
回路237により選択されたIDバッフア部に対応する
メモリ部側ネットワークにおける演算処理部同志による
競合時間を除いたそれ以外の競合時間、すなわち、選択
回路237により選択されたIDバッフア部に対応する
メモリ部側ネットワーク以外の他のメモリ部側ネットワ
ークにおける演算処理部同志による競合と同一演算処理
部内で発生した競合とによる遅れ時間を測定することが
できる。As described above, in the second embodiment, the contention time other than the contention time by the arithmetic processing units in the memory side network corresponding to the ID buffer unit selected by the selection circuit 237, that is, the contention time, Measuring the delay time caused by the competition between the arithmetic processing units in the other memory network other than the memory network corresponding to the ID buffer selected by the selection circuit 237 and the competition generated in the same arithmetic processing unit. Can be.
【0070】第1の実施例による測定時間と第2の実施
例による測定時間との差は、選択されたIDバッフア部
に対応するメモリ部側ネットワークにおける演算処理部
同志による競合に起因する遅れ時間であり、これを各I
Dバッフア部について測定することによりシステム全体
のスループットのためのユーザプログラムの改善解析に
寄与することができるという効果を有する。The difference between the measurement time according to the first embodiment and the measurement time according to the second embodiment is the delay time caused by the competition between the arithmetic processing units in the memory side network corresponding to the selected ID buffer unit. And this is
By measuring the D-buffer section, it is possible to contribute to the improvement analysis of the user program for the throughput of the entire system.
【0071】[0071]
【発明の効果】以上説明したように、本発明の並列コン
ピュータシステムの性能測定方式は、インプットバッフ
アビジーで、かつ、IDバッフアがビジーでない時間を
測定することにより、少なくとも一部のメモリ部側ネッ
トワークの影響を除外して性能を測定することができ、
ユーザプログラムの改善解析に寄与できるという効果を
有している。As described above, the performance measurement method of the parallel computer system according to the present invention measures at least a part of the memory unit side by measuring the time when the input buffer is busy and the time when the ID buffer is not busy. Performance can be measured without network impact,
This has the effect of contributing to improvement analysis of the user program.
【図1】本発明の並列コンピュータシステムの性能測定
方式の第1の実施例を示すブロック図である。FIG. 1 is a block diagram showing a first embodiment of a performance measurement method for a parallel computer system according to the present invention.
【図2】本発明の並列コンピュータシステムの性能測定
方式の第2の実施例を示すブロック図である。FIG. 2 is a block diagram showing a second embodiment of the performance measuring method of the parallel computer system of the present invention.
【図3】本発明の並列コンピュータシステムの性能測定
方式のIDバッフアビジーを発生するID発行管理部の
ブロック図である。FIG. 3 is a block diagram of an ID issuance management unit that generates an ID buffer busy of the performance measurement method of the parallel computer system of the present invention.
【図4】本発明の並列コンピュータシステムの性能測定
方式を適用する並列コンピュータシステムの構成を示す
ブロック図である。FIG. 4 is a block diagram showing a configuration of a parallel computer system to which the performance measurement method of the parallel computer system of the present invention is applied.
【図5】図4の並列コンピュータシステムの演算処理部
の構成を示すブロック図である。FIG. 5 is a block diagram illustrating a configuration of an arithmetic processing unit of the parallel computer system of FIG. 4;
【図6】図4の並列コンピュータシステムの従来の演算
処理部側ネットワークの構成を示すブロック図である。6 is a block diagram showing a configuration of a conventional arithmetic processing unit side network of the parallel computer system of FIG. 4;
【図7】図4の並列コンピュータシステムのメモリ部側
ネットワークの構成を示すブロック図である。FIG. 7 is a block diagram illustrating a configuration of a memory-side network of the parallel computer system of FIG. 4;
【図8】図4の並列コンピュータシステムのメモリ部の
構成を示すブロック図である。FIG. 8 is a block diagram illustrating a configuration of a memory unit of the parallel computer system of FIG. 4;
【図9】図6および図10の演算処理部側ネットワーク
にあり、本発明の並列コンピュータシステムの性能測定
方式のインプットバッフアビジーを発生するリクエスト
受け付けバッフアの構成を示すブロック図である。9 is a block diagram showing a configuration of a request receiving buffer for generating an input buffer busy of the performance measurement method of the parallel computer system of the present invention, which is located in the network of the processing unit in FIGS. 6 and 10. FIG.
【図10】図4の並列コンピュータシステムのID発行
管理部を有する演算処理部側ネットワークの構成を示す
ブロック図である。FIG. 10 is a block diagram illustrating a configuration of an arithmetic processing unit side network including an ID issue management unit of the parallel computer system of FIG. 4;
1、1−0〜1−31 演算処理部 2、2−0〜2−31 演算処理部側ネットワーク 3、3−0〜3−31 メモリ部側ネットワーク 4、4−0〜4−31 メモリ部 10〜17 ベクトルプロセッサ 18 スカラプロセッサ 21 リクエスト受け付けバッフア 22、332 競合調停部 23 ID発行管理部 24、230、333 クロスバ部 231 論理和回路 232 インバータ 233、234、2100〜2108 レジスタ 235 論理積回路 236 時間測定回路 237 選択回路 300〜331 リクエストバッフア 400〜431 メモリ 2117 レジスタ(WAR) 2118 レジスタ(RAR) 2119 インプットバッフア 2120,23400〜23131 コンパレータ 2122 セレクタ 2300〜2331 IDバッフア部 23000 IDバッフア 23200 デコーダ(WADEC) 23300 デコーダ(RADEC) 23400 v−ビットレジスタ(IDBV) 23500 ALL1検出回路 23600 エンコーダ(ENC) 23800 レジスタ(IDWAR) 23900 レジスタ(IDRAR) 1, 1-0 to 1-31 Arithmetic processing unit 2, 2-0 to 2-31 Network for arithmetic processing unit 3, 3-0 to 3-31 Network for memory unit 4, 4-0 to 4-31 Memory unit 10-17 Vector processor 18 Scalar processor 21 Request receiving buffer 22, 332 Competition arbitration unit 23 ID issue management unit 24, 230, 333 Crossbar unit 231 Logical OR circuit 232 Inverter 233, 234, 2100-2108 Register 235 Logical product circuit 236 hours Measurement circuit 237 Selection circuit 300 to 331 Request buffer 400 to 431 Memory 2117 Register (WAR) 2118 Register (RAR) 2119 Input buffer 2120, 23400 to 23131 Comparator 2122 Selector 2300 to 2331 ID buffer 23000 ID Baffua 23200 decoder (WADEC) 23300 decoder (RADEC) 23400 v- bit register (IDBV) 23500 ALL1 detection circuit 23600 encoder (ENC) 23800 register (IDWAR) 23900 register (IDRAR)
Claims (2)
らなるn(自然数)個の演算処理部とそれぞれn個の同
時にアクセスできるメモリからなるn個のメモリ部と前
記各演算処理部に対応して設けられ対応する演算処理部
の各プロセッサからの出力を対応する前記メモリ部に接
続するn個の演算処理部側ネットワークと前記メモリ部
のそれぞれに対して設けられ各演算処理部側ネットワー
クからの出力を前記メモリ部の対応するメモリに接続す
るn個のメモリ部側ネットワークとから構成される並列
コンピュータシステムの性能測定方式において、前記各
演算処理部側ネットワークには対応する演算処理部の2
以上のプロセッサから同時に同一の前記メモリ部に対す
るメモリアクセスリクエストが発行されたときにその競
合調停のためにこれに続くメモリアクセスリクエストを
保持するインプットバッフアと前記メモリ部対応に設け
られ発行されたメモリアクセスリクエストの付随情報を
登録するとともにこれに代えてID番号を発行しこれに
対する応答があったときにはこの登録を無効にするn個
のIDバッフア部とを有し、前記インプットバッフアが
満杯になったときにはインプットバッフアビジー信号を
発生するインプットバッフアビジー信号発生手段と、前
記IDバッフア部の登録が満杯になったときにはIDバ
ッフアビジー信号を発生するIDバッフアビジー信号発
生手段と、前記インプットバッフアビジー信号と前記I
Dバッフアビジー信号との供給を受けインプットバッフ
アが満杯で前記n個のすべてのIDバッフア部の登録が
満杯でない時間を測定する時間測定手段とを有すること
を特徴とする並列コンピュータシステムの性能測定方
式。1. An n (natural number) arithmetic processing unit including m (natural number) processors and an n memory unit including n simultaneously accessible memories, respectively, and a corresponding one of the arithmetic processing units. N processing unit side networks for connecting the outputs from the respective processors of the provided corresponding processing units to the corresponding memory units, and outputs from the respective processing unit side networks provided for each of the memory units Are connected to the corresponding memories of the memory unit, and the network of the n memory units is connected to the corresponding memory of the memory unit.
When a memory access request to the same memory unit is issued simultaneously from the above processor, an input buffer for holding a subsequent memory access request for contention arbitration and a memory provided corresponding to the memory unit It has n ID buffer units for registering the accompanying information of the access request, issuing an ID number in place of this, and invalidating the registration when there is a response to the ID number, so that the input buffer becomes full. Input buffer busy signal generating means for generating an input buffer busy signal when the input buffer is busy, ID buffer busy signal generating means for generating an ID buffer busy signal when the registration of the ID buffer section is full, and the input buffer busy signal. And said I
A time measuring means for measuring the time when the input buffer is full and the registration of all the n ID buffer units is not full when supplied with the D buffer busy signal. .
らなるn(自然数)個の演算処理部とそれぞれn個の同
時にアクセスできるメモリからなるn個のメモリ部と前
記各演算処理部に対応して設けられ対応する演算処理部
の各プロセッサからの出力を対応する前記メモリ部に接
続するn個の演算処理部側ネットワークと前記メモリ部
のそれぞれに対して設けられ各演算処理部側ネットワー
クからの出力を前記メモリ部の対応するメモリに接続す
るn個のメモリ部側ネットワークとから構成される並列
コンピュータシステムの性能測定方式において、前記各
演算処理部側ネットワークには対応する演算処理部の2
以上のプロセッサから同時に同一の前記メモリ部に対す
るメモリアクセスリクエストが発行されたときにその競
合調停のためにこれに続くメモリアクセスリクエストを
保持するインプットバッフアと前記メモリ部対応に設け
られ発行されたメモリアクセスリクエストの付随情報を
登録するとともにこれに代えてID番号を発行しこれに
対する応答があったときにはこの登録を無効にするn個
のIDバッフア部とを有し、前記インプットバッフアが
満杯になったときにはインプットバッフアビジー信号を
発生するインプットバッフアビジー信号発生手段と、前
記IDバッフア部の登録が満杯になったときにはIDバ
ッフアビジー信号を発生するIDバッフアビジー信号発
生手段と、前記インプットバッフアビジー信号と前記I
Dバッフアビジー信号との供給を受けインプットバッフ
アが満杯で前記n個のうちから選択された1つのIDバ
ッフア部の登録が満杯でない時間を測定する時間測定手
段とを有することを特徴とする並列コンピュータシステ
ムの性能測定方式。2. Corresponding to n (natural number) arithmetic processing units each including m (natural number) processors, n memory units each including n simultaneously accessible memories, and the arithmetic processing units. N processing unit side networks for connecting the outputs from the respective processors of the provided corresponding processing units to the corresponding memory units, and outputs from the respective processing unit side networks provided for each of the memory units Are connected to the corresponding memories of the memory unit, and the network of the n memory units is connected to the corresponding memory of the memory unit.
When a memory access request to the same memory unit is issued simultaneously from the above processor, an input buffer for holding a subsequent memory access request for contention arbitration and a memory provided corresponding to the memory unit It has n ID buffer units for registering the accompanying information of the access request, issuing an ID number in place of this, and invalidating the registration when there is a response to the ID number, so that the input buffer becomes full. Input buffer busy signal generating means for generating an input buffer busy signal when the input buffer is busy, ID buffer busy signal generating means for generating an ID buffer busy signal when the registration of the ID buffer section is full, and the input buffer busy signal. And said I
Parallel computer having a D buffer busy signal and a time measuring means for measuring a time when the input buffer is full and the registration of one of the n ID buffer units is not full. System performance measurement method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6060385A JP2826466B2 (en) | 1994-03-30 | 1994-03-30 | Performance measurement method of parallel computer system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP6060385A JP2826466B2 (en) | 1994-03-30 | 1994-03-30 | Performance measurement method of parallel computer system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH07271741A JPH07271741A (en) | 1995-10-20 |
| JP2826466B2 true JP2826466B2 (en) | 1998-11-18 |
Family
ID=13140636
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP6060385A Expired - Lifetime JP2826466B2 (en) | 1994-03-30 | 1994-03-30 | Performance measurement method of parallel computer system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2826466B2 (en) |
-
1994
- 1994-03-30 JP JP6060385A patent/JP2826466B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JPH07271741A (en) | 1995-10-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US8521982B2 (en) | Load request scheduling in a cache hierarchy | |
| US5450564A (en) | Method and apparatus for cache memory access with separate fetch and store queues | |
| EP0361176B1 (en) | Method and apparatus for communicating data between multiple tasks in data processing systems | |
| US7093079B2 (en) | Snoop filter bypass | |
| US4169284A (en) | Cache control for concurrent access | |
| US4115851A (en) | Memory access control system | |
| US8527708B2 (en) | Detecting address conflicts in a cache memory system | |
| US20050177689A1 (en) | Programmed access latency in mock multiport memory | |
| JPH01303543A (en) | Memory access control system | |
| JP2561261B2 (en) | Buffer storage access method | |
| US5361342A (en) | Tag control system in a hierarchical memory control system | |
| EP0165823B1 (en) | Tag control circuit for buffer storage | |
| EP0730237A1 (en) | Multi-processor system with virtually addressable communication registers and controlling method thereof | |
| US20030051103A1 (en) | Shared memory system including hardware memory protection | |
| JP2826466B2 (en) | Performance measurement method of parallel computer system | |
| US7240144B2 (en) | Arbitration of data transfer requests | |
| JPH06161873A (en) | Hang-up processing method for multiple access points to main memory | |
| EP0437712A2 (en) | Tandem cache memory | |
| JP3265226B2 (en) | Bank access control method | |
| JP2637320B2 (en) | Buffer storage control method | |
| JP3130569B2 (en) | Cache memory store method | |
| JPH0330175B2 (en) | ||
| US5555560A (en) | Request cancel system for cancelling a second access request having the same address as a first access request | |
| JPH04195576A (en) | Cache memory system | |
| JP2982197B2 (en) | Bus monitor circuit for cache |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 19980811 |