JP3479288B2 - Remote diagnostic maintenance method, method, and program - Google Patents
Remote diagnostic maintenance method, method, and programInfo
- Publication number
- JP3479288B2 JP3479288B2 JP2001032370A JP2001032370A JP3479288B2 JP 3479288 B2 JP3479288 B2 JP 3479288B2 JP 2001032370 A JP2001032370 A JP 2001032370A JP 2001032370 A JP2001032370 A JP 2001032370A JP 3479288 B2 JP3479288 B2 JP 3479288B2
- Authority
- JP
- Japan
- Prior art keywords
- error rate
- failure
- computer system
- fault
- error
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012423 maintenance Methods 0.000 title claims description 35
- 238000000034 method Methods 0.000 title claims description 9
- 238000013461 design Methods 0.000 claims description 30
- 238000004891 communication Methods 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 6
- 244000309464 bull Species 0.000 claims 1
- 238000012937 correction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004171 remote diagnosis Methods 0.000 description 1
Landscapes
- Debugging And Monitoring (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
- Computer And Data Communications (AREA)
Description
【0001】[0001]
【発明の属する技術分野】本発明はリモート診断保守方
式,方法,およびプログラムに関し、特にコンピュータ
システムを構成する装置ごとに設定したエラーレートを
基準にして保守の処置を判断するリモート診断保守方
式,方法,およびプログラムに関する。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a remote diagnostic maintenance system, method, and program, and more particularly, to a remote diagnostic maintenance system, method for deciding a maintenance action based on an error rate set for each device constituting a computer system. , And about the program.
【0002】[0002]
【従来の技術】現在のコンピュータシステムでは障害発
生時のシステムの停止を防止し運用に支障を与えないた
めに、リトライ機能が各装置に実装されている。すなわ
ち、リトライ機能によってシステム運用の継続をはかる
ことができる。2. Description of the Related Art In a current computer system, a retry function is installed in each device in order to prevent the system from being stopped when a failure occurs and not to hinder the operation. That is, the retry function enables the system operation to be continued.
【0003】しかしながら、リトライ機能によりシステ
ムの停止が救済された場合でもリトライの回数や障害内
容によっては装置の交換が必要となる。交換の判断基準
は、装置毎に存在する。判断基準、すなわち、しきい値
はOSや診断装置に設定することができる。However, even if the system stop is remedied by the retry function, the device must be replaced depending on the number of retries and the contents of the failure. The criterion for replacement exists for each device. The criterion, that is, the threshold value can be set in the OS and the diagnostic device.
【0004】従来、上記のしきい値の設定方法は明確で
なく、固定の値を長期間にわたって管理されずに使用し
ている場合も多い。すなわち、その基準は装置の出荷時
期や使用素子によって変化するものであり、したがっ
て、装置交換の是非は作業者が個別に判断しなければな
らない。Conventionally, the method of setting the threshold value is not clear, and a fixed value is often used for a long period of time without being managed. That is, the standard varies depending on the shipping time of the device and the element used, and therefore the operator must individually judge whether or not to replace the device.
【0005】[0005]
【発明が解決しようとする課題】上記のように、従来の
リトライ機能を利用したシステム保守管理では、障害の
処置を行う判断の基準があいまいであり、結局、システ
ムごとに保守を担当している作業者の経験と勘に頼って
個別に判断せざるを得ないという問題点がある。As described above, in the conventional system maintenance management using the retry function, the criteria for determining the failure treatment are ambiguous, and in the end, each system is in charge of maintenance. There is a problem that it is necessary to make an individual judgment based on the experience and intuition of the worker.
【0006】本発明の目的は、上記のような欠点を改善
するために、発生が予測される障害の理論値及びその実
績値に基いて、障害の処置を行う判断基準となるしきい
値を変動させるようにして適切な予防保守を行うことが
できるリモート診断保守方式,方法,およびプログラム
を提供することにある。An object of the present invention is to improve the above-mentioned drawbacks by setting a threshold value which is a criterion for judging a failure on the basis of the theoretical value of the failure predicted to occur and its actual value. It is to provide a remote diagnostic maintenance method, method, and program that can perform appropriate preventive maintenance in a variable manner.
【0007】[0007]
【課題を解決するための手段】本発明のリモート診断保
守方式は、自システムを構成する装置ごとのエラーレー
トを保持し,障害が発生したときその障害が発生した装
置のエラーレートを参照して前記装置の処置を示すコメ
ントを生成し,それを前記障害の障害情報とともに通報
するコンピュータシステムと、前記コンピュータシステ
ムが通報してくる障害情報を障害履歴として蓄積し,前
記コンピュータシステムを構成する装置ごとの設計障害
率をあらかじめ保持し,前記障害履歴および前記設計障
害率を定期的に参照し該当の装置のエラーレートを設定
しそれを前記コンピュータシステムに送信し,前記コン
ピュータシステムが通報してくるコメントを表示し前記
障害に対する処置を促すリモートセンタシステムと、前
記コンピュータシステムおよび前記リモートセンタシス
テムを接続する通信回線とを有することを特徴とする。According to the remote diagnostic maintenance system of the present invention, the error rate of each device constituting the own system is held, and when a fault occurs, the error rate of the faulty device is referred to. A computer system that generates a comment indicating the action of the device and reports it together with the fault information of the fault, and a device that stores the fault information reported by the computer system as a fault history and configures the computer system. The design failure rate is held in advance, the failure history and the design failure rate are periodically referred to, the error rate of the corresponding device is set, the error rate is transmitted to the computer system, and the computer system reports. Is displayed to prompt the user to take corrective action against the fault, and the computer system And having a communication line connecting Temu and the remote center system.
【0008】さらに、本発明のリモート診断保守方式に
おいて、前記リモートセンタシステムは、コンピュータ
システムが通報してくる障害情報を障害履歴として蓄積
する障害履歴データファイルと、コンピュータシステム
を構成する装置ごとの設計障害率をあらかじめ保持する
設計障害率データファイルと、前記障害履歴データファ
イルおよび前記設計障害率データファイルを定期的に参
照し装置ごとのエラーレートを設定しそれを保持するエ
ラーレートマスタファイルと、コンピュータシステムを
構成する装置の装置情報を保持するユーザ装置構成デー
タファイルと、前記ユーザ装置構成データファイルに基
いて前記エラーレートマスタファイルを参照し前記コン
ピュータシステムを構成する装置ごとのエラーレートを
抽出しそれを前記コンピュータシステムに送信する手段
と、コンピュータシステムが送信してくる通報データを
取込みそれに含まれる障害情報を前記障害履歴データフ
ァイルに書込む手段とを具備することを特徴とする。Further, in the remote diagnostic maintenance system of the present invention, the remote center system has a fault history data file for accumulating fault information reported by the computer system as a fault history, and a design for each device constituting the computer system. A design failure rate data file that holds a failure rate in advance, an error rate master file that sets an error rate for each device by periodically referencing the failure history data file and the design failure rate data file, and holds the error rate, and a computer A user device configuration data file that holds device information of devices that configure the system, and an error rate for each device that configures the computer system is extracted by referring to the error rate master file based on the user device configuration data file. The above Means for transmitting to the computer system, wherein the computer system and means for writing fault information contained therein takes in the notification data that is sent to the fault history data file.
【0009】さらに、本発明のリモート診断保守方式に
おいて、前記コンピュータシステムは、自システムを構
成する装置ごとのエラーレートを前記リモートセンタシ
ステムから受信しそれを保持するシステムエラーレート
テーブルと,自システムに発生した障害の障害情報を保
持するエラーログファイルと,前記障害情報を前記リモ
ートセンタシステムに送信する手段とを備える保守プロ
セッサと、前記システムエラーレートテーブルから演算
系装置のエラーレートを取込み演算系装置エラーレート
テーブルを作成して保持し,前記演算系装置に障害が発
生したときには前記演算系装置エラーレートテーブルを
参照し該当の装置の障害の処置を示すコメントを生成し
それを前記エラーログファイルに書込む診断プロセッサ
と、前記システムエラーレートテーブルから入出力系装
置のエラーレートを取込み入出力系装置エラーレートテ
ーブルを作成して保持し,前記入出力系装置に障害が発
生したときには前記入出力系装置エラーレートテーブル
を参照し該当の装置の障害の処置を示すコメントを生成
しそれを前記エラーログファイルに書込むOSとを具備
することを特徴とする。Further, in the remote diagnostic maintenance system according to the present invention, the computer system has a system error rate table for receiving an error rate for each device constituting the own system from the remote center system and holding the error rate table, and a system error rate table for the own system. A maintenance processor having an error log file for holding fault information of a fault that has occurred, a means for transmitting the fault information to the remote center system, and an error rate of the arithmetic unit from the system error rate table. An error rate table is created and stored, and when a failure occurs in the operation system device, the operation system device error rate table is referred to, a comment indicating the action for the failure of the corresponding device is generated, and the comment is written in the error log file. Diagnostic processor for writing and said system The error rate of the I / O system device is fetched from the error rate table, the I / O system device error rate table is created and held, and when a failure occurs in the I / O system device, the I / O system device error rate table is referred to. And an OS for writing a comment indicating the treatment of the device failure and writing the comment in the error log file.
【0010】また、本発明のリモート診断方法は、運用
中に発生した障害を検知し通報するコンピュータシステ
ムを構成する装置ごとのエラーレートを保持し、障害が
発生したときその障害が発生した装置のエラーレートを
参照して前記装置の処置を示すコメントを生成し、前記
コンピュータシステムの障害状況を監視するリモートセ
ンタシステムへ前記障害の障害情報とともに前記コメン
トを通報し、前記リモートセンタシステムでは前記コン
ピュータシステムが通報してくる障害情報を障害履歴と
して蓄積し、前記コンピュータシステムを構成する装置
ごとの設計障害率をあらかじめ保持し、前記障害履歴お
よび前記設計障害率を定期的に参照し該当の装置のエラ
ーレートを設定しそれを前記コンピュータシステムに送
信し、前記コンピュータシステムが通報してくるコメン
トを表示し前記障害に対する処置を促すことを特徴とす
る。Further, the remote diagnosis method of the present invention holds an error rate for each device constituting a computer system that detects and reports a fault that has occurred during operation, and when a fault occurs, the device that has the fault is detected. with reference to the error rate to generate a comment showing the treatment of the device, the
A remote session that monitors the failure status of a computer system.
To the input system together with the failure information of the failure
The remote center system, the failure information reported by the computer system is accumulated in the remote center system as a failure history, and the design failure rate for each device constituting the computer system is held in advance. It is characterized in that the failure rate is periodically referred to, the error rate of the corresponding apparatus is set, the error rate is transmitted to the computer system, the comment notified by the computer system is displayed, and the action for the failure is prompted.
【0011】また、本発明のプログラムは、運用中のコ
ンピュータシステムを監視するコンピュータに、前記コ
ンピュータシステムが通報してくる障害情報を障害履歴
として障害履歴データファイルに蓄積する機能と、コン
ピュータシステムを構成する装置ごとの設計障害率を設
計障害率データファイルにあらかじめ保持する機能と、
前記障害履歴データファイルおよび前記設計障害率デー
タファイルを定期的に参照し装置ごとのエラーレートを
設定しそれをエラーレートマスタファイルに保持する機
能と、コンピュータシステムを構成する装置の装置情報
をユーザ装置構成データファイルに保持する機能と、前
記ユーザ装置構成データファイルに基いて前記エラーレ
ートマスタファイルを参照し前記コンピュータシステム
を構成する装置ごとのエラーレートを抽出しそれを前記
コンピュータシステムに送信する機能とを実現させるこ
とを特徴とする。Also, the program of the present invention is
The computer that monitors the computer system must have the above
Failure history of failure information reported by the computer system
As a function to accumulate in the fault history data file as
Set the design failure rate for each device that constitutes the computer system.
A function to hold the total failure rate data file in advance,
The failure history data file and the design failure rate data
The data file is regularly referenced and the error rate
A machine to set and keep it in the error rate master file
Function and device information of the devices that make up the computer system
The user device configuration data file
Based on the user device configuration data file, the error
Computer system with reference to a computer master file
The error rate for each device that constitutes
And a function of transmitting to a computer system .
【0012】 さらに、本発明のプログラムは、監視シ
ステムに接続された運用システムのコンピュータに、前
記運用システムを構成する装置ごとのエラーレートを前
記監視システムから受信しそれをシステムエラーレート
テーブルに保持する機能と、前記運用システムに発生し
た障害の障害情報をエラーログファイルに保持する機能
と、前記障害情報を前記監視システムに送信する機能
と、前記システムエラーレートテーブルから演算系装置
のエラーレートを取込み演算系装置エラーレートテーブ
ルを作成して保持する機能と、前記演算系装置に障害が
発生したときには前記演算系装置エラーレートテーブル
を参照し該当の装置の障害の処置を示すコメントを生成
しそれを前記エラーログファイルに書込む機能と、前記
システムエラーレートテーブルから入出力系装置のエラ
ーレートを取込み入出力系装置エラーレートテーブルを
作成して保持する機能と、前記入出力系装置に障害が発
生したときには前記入出力系装置エラーレートテーブル
を参照し該当の装置の障害の処置を示すコメントを生成
しそれを前記エラーログファイルに書込む機能とを実現
させることを特徴とする。Further, the program of the present invention is a monitoring system.
To the computer of the operation system connected to the system,
The error rate for each device that constitutes the operation system
Received from the monitoring system and received it from the system error rate
The function to hold in the table and the occurrence in the operation system
A function that retains the failure information of a failure in the error log file
And a function for transmitting the failure information to the monitoring system
From the system error rate table
Error rate table
Function for creating and holding
When it occurs, the error rate table of the arithmetic unit
Refer to to generate a comment indicating the action for the failure of the corresponding device.
And the ability to write it to the error log file,
From the system error rate table, I / O device error
-Import the rate and display the error rate table
The function to create and hold and the failure of the input / output device
When the error occurs, the error rate table of the I / O device
Refer to to generate a comment indicating the action for the failure of the corresponding device.
And the function to write it to the error log file
It is characterized by
【0013】[0013]
【0014】従来、コンピュータシステムには障害救済
や障害の早期発見機能として
(1)CPUのRAMチップ訂正機能
(2)DISKのリトライエラーのしきい値機能
がある。訂正可能エラーやリトライエラーのような障害
が発生した場合、障害箇所の部品を交換する処置基準
が、現在は固定であったり未設定である。Conventionally, a computer system has (1) a RAM chip correction function of a CPU (2) a retry error threshold value function of a DISK as a failure relief function and an early detection function of a failure. When a failure such as a correctable error or a retry error occurs, the treatment standard for replacing the component at the failure location is currently fixed or not set.
【0015】本発明では、この処置基準として
(1)回路設計時の故障率(理論値)
(2)リモートセンタの自動通報統計値(実測値)
を比較し算出した実エラーレートをリモートセンタシス
テムからタイムリにユーザーコンピュータシステムに設
定し、訂正可能エラーやリトライエラーのような障害が
発生した場合の処置を的確なものにする。In the present invention, the actual error rate calculated by comparing (1) the failure rate (theoretical value) at the time of circuit design (2) the automatic reporting statistical value (actual measurement value) of the remote center is used as the treatment center in the remote center system. To set the user computer system in a timely manner and take appropriate measures when a failure such as a correctable error or a retry error occurs.
【0016】[0016]
【発明の実施の形態】以下、本発明について図面を参照
しながら説明する。DETAILED DESCRIPTION OF THE INVENTION The present invention will be described below with reference to the drawings.
【0017】図1は本発明の実施の一形態を示す説明図
である。同図において、本発明によるリモート診断保守
方式は、自システムを構成する装置ごとのエラーレート
を保持し,障害が発生したときその障害が発生した装置
のエラーレートを参照して前記装置の処置を示すコメン
トを生成し,それを前記障害の障害情報とともに通報す
るコンピュータシステム100と、前記コンピュータシ
ステムが通報してくる障害情報を障害履歴として蓄積
し,前記コンピュータシステムを構成する装置ごとの設
計障害率をあらかじめ保持し,前記障害履歴および前記
設計障害率を定期的に参照し該当の装置のエラーレート
を設定しそれを前記コンピュータシステムに送信し,前
記コンピュータシステムが通報してくるコメントを表示
し前記障害に対する処置を促すリモートセンタシステム
200と、前記コンピュータシステムおよび前記リモー
トセンタシステムを接続する通信回線300とを有す
る。FIG. 1 is an explanatory view showing an embodiment of the present invention. In the figure, a remote diagnostic maintenance system according to the present invention holds an error rate for each device that constitutes its own system, and when a failure occurs, refers to the error rate of the device in which the failure has occurred and measures the device. A computer system 100 that generates a comment indicating the failure and reports the failure together with failure information, and failure information that the computer system reports, is stored as a failure history, and a design failure rate for each device that constitutes the computer system. In advance, periodically refer to the failure history and the design failure rate, set the error rate of the corresponding device, send it to the computer system, and display the comment reported by the computer system. Remote center system 200 for prompting treatment for failure, and the computer And a communication line 300 for connecting the stem and the remote center system.
【0018】上記のリモートセンタシステム200は、
コンピュータシステムが通報してくる障害情報を障害履
歴として蓄積する障害履歴データファイル1と、コンピ
ュータシステムを構成する装置ごとの設計障害率をあら
かじめ保持する設計障害率データファイル3と、前記障
害履歴データファイルおよび前記設計障害率データファ
イルを定期的に参照し装置ごとのエラーレートを設定し
それを保持するエラーレートマスタファイル4と、コン
ピュータシステムを構成する装置の装置情報を保持する
ユーザ装置構成データファイル2と、前記ユーザ装置構
成データファイルに基いて前記エラーレートマスタファ
イルを参照し前記コンピュータシステムを構成する装置
ごとのエラーレートを抽出しそれを前記コンピュータシ
ステムに送信する手段と、コンピュータシステムが送信
してくる通報データを取込みそれに含まれる障害情報を
前記障害履歴データファイルに書込む障害受信部5とを
具備する。The remote center system 200 described above is
A fault history data file 1 for accumulating fault information reported by a computer system as a fault history, a design fault rate data file 3 for preliminarily holding a design fault rate for each device constituting the computer system, and the fault history data file. And an error rate master file 4 for periodically setting the error rate for each device by referring to the design failure rate data file and holding the error rate, and a user device configuration data file 2 for holding the device information of the devices constituting the computer system. A means for extracting an error rate for each device constituting the computer system by referring to the error rate master file based on the user device configuration data file and transmitting the error rate to the computer system; Coming report day Uptake; and a failure receiving unit 5 to the failure information written in the fault history data files contained in it.
【0019】すなわち、リモートセンタシステム200
は障害履歴データファイル1,ユーザ装置構成データフ
ァイル2,設計障害率データファイル3,エラーレート
マスタファイル4,および障害受信部5より構成されて
いる。That is, the remote center system 200
Is composed of a fault history data file 1, a user device configuration data file 2, a design fault rate data file 3, an error rate master file 4, and a fault receiving section 5.
【0020】障害受信部5は、コンピュータシステム1
00の保守プロセッサから通信回線300を介して転送
されるデータ(以下、通報データとよぶ)を一時蓄え、
障害履歴データファイル1へ送付する。なお、通報デー
タには、ユーザ名,装置名,および障害内容を含む。The fault receiver 5 is the computer system 1
00 (hereinafter, referred to as notification data) temporarily transferred from the maintenance processor 00 via the communication line 300,
Send to fault history data file 1. The notification data includes the user name, device name, and failure content.
【0021】障害履歴データファイル1は、障害受信部
5より送付された通報データを蓄積し保有する。The fault history data file 1 stores and retains the notification data sent from the fault receiver 5.
【0022】ユーザ装置構成データファイル2は、コン
ピュータシステム100の装置構成情報を蓄積したユー
ザー装置構成データを保有する。The user device configuration data file 2 holds user device configuration data in which device configuration information of the computer system 100 is accumulated.
【0023】設計障害率データファイル3は、装置開発
時の障害率を蓄積したデータを保有する。The design failure rate data file 3 holds data in which failure rates during device development are accumulated.
【0024】エラーレートマスタファイル4は、障害履
歴データファイル1と設計障害率データファイル3とを
元に設定された装置毎のエラーレートデータを保有す
る。The error rate master file 4 holds error rate data for each device set based on the failure history data file 1 and the design failure rate data file 3.
【0025】図2は上記のコンピュータシステム100
の構成を示す説明図である。同図において、コンピュー
タシステム100は、自システムを構成する装置ごとの
エラーレートを前記リモートセンタシステムから受信し
それを保持するシステムエラーレートテーブル14と,
自システムに発生した障害の障害情報を保持するエラー
ログファイル13と,前記障害情報を前記リモートセン
タシステムに送信する手段とを備える保守プロセッサ6
と、前記システムエラーレートテーブルから演算系装置
8のエラーレートを取込み演算系装置エラーレートテー
ブル15を作成して保持し,前記演算系装置に障害が発
生したときには前記演算系装置エラーレートテーブルを
参照し該当の装置の障害の処置を示すコメントを生成し
それを前記エラーログファイルに書込む診断プロセッサ
7と、前記システムエラーレートテーブルから入出力系
装置9のエラーレートを取込み入出力系装置エラーレー
トテーブル16を作成して保持し,前記入出力系装置に
障害が発生したときには前記入出力系装置エラーレート
テーブルを参照し該当の装置の障害の処置を示すコメン
トを生成しそれを前記エラーログファイルに書込むOS
12とを具備する。FIG. 2 shows the computer system 100 described above.
It is explanatory drawing which shows the structure of. In the figure, the computer system 100 receives from the remote center system the error rate of each device constituting the system, and holds the system error rate table 14,
A maintenance processor 6 including an error log file 13 for holding failure information of a failure that has occurred in its own system, and means for transmitting the failure information to the remote center system.
And the error rate of the arithmetic operation system device 8 is taken from the system error rate table and the arithmetic operation device error rate table 15 is created and held. When a failure occurs in the arithmetic operation device, the arithmetic operation device error rate table is referred to. An error rate of the I / O system device 9 is taken from the diagnostic error processor 7 which generates a comment indicating the action for the failure of the corresponding device and writes it in the error log file, and the I / O system device error rate. The table 16 is created and held, and when a failure occurs in the I / O system device, the I / O system device error rate table is referred to and a comment indicating the action for the failure of the corresponding device is generated and the comment is generated in the error log file. OS to write to
12 and.
【0026】上記の入出力系装置9は、磁気ディスク等
10および通信装置等11を含む。The input / output system device 9 includes a magnetic disk 10 and the like, and a communication device 11 and the like.
【0027】すなわち、コンピュータシステム100
は、ユーザ業務の処理を受け持つ磁気ディスク装置およ
び通信装置を含む入出力系装置9,演算系装置8,OS
12,それらを管理するための診断プロセッサ7および
保守プロセッサ6から構成されている。That is, the computer system 100
Is an input / output device 9, an operation device 8, an OS including a magnetic disk device and a communication device which are in charge of user task processing.
12, a diagnostic processor 7 and a maintenance processor 6 for managing them.
【0028】保守プロセッサ6は、エラーレート管理を
する全装置のシステムエラーレートテーブル14および
障害情報を格納するエラーログファイル13を有する。
システムエラーレートテーブル14には演算系装置8や
入出力系装置9の各装置ごとに、基準となる時間に対す
る障害発生の許容回数を格納している。The maintenance processor 6 has a system error rate table 14 for all devices that manage error rates and an error log file 13 for storing failure information.
The system error rate table 14 stores the allowable number of failure occurrences with respect to a reference time for each of the arithmetic system device 8 and the input / output system device 9.
【0029】診断プロセッサ7は演算系装置エラーレー
トテーブル15を保有し、OS12は入出力系装置エラ
ーレートテーブル16を保有する。The diagnostic processor 7 has an arithmetic system device error rate table 15, and the OS 12 has an input / output system device error rate table 16.
【0030】ここで、障害の内容は、CPUのRAMチ
ップ訂正などの救済可能障害や、磁気ディスクのリトラ
イエラーのしきい値機能などにより早期発見可能な障害
である。Here, the content of the failure is a repairable failure such as correction of the RAM chip of the CPU, or a failure that can be detected early by a threshold function of the retry error of the magnetic disk.
【0031】図3,図4,および図5は上記のリモート
診断保守方式の動作を示す流れ図である。次に、これら
の図面を参照しながら本発明の動作を説明する。FIGS. 3, 4 and 5 are flow charts showing the operation of the above remote diagnostic maintenance system. Next, the operation of the present invention will be described with reference to these drawings.
【0032】まず、コンピュータシステム100は、発
生した障害の障害情報を保守プロセッサのエラーログフ
ァイル13に格納する(ステップA1)。そして、格納
した障害データをリモートセンタシステム200へ通信
回線を介して送信する(ステップA2)。First, the computer system 100 stores the fault information of the fault that has occurred in the error log file 13 of the maintenance processor (step A1). Then, the stored fault data is transmitted to the remote center system 200 via the communication line (step A2).
【0033】リモートセンタシステム200は、受信し
た通報データを障害受信部5を介して障害履歴データフ
ァイル1に蓄積する(ステップA3,A4)。そして、
リモートセンタシステム200は決められた周期で障害
履歴データファイル1を参照して装置個別の一定期間の
障害発生率を算出する(ステップA5)。The remote center system 200 stores the received notification data in the failure history data file 1 via the failure receiving section 5 (steps A3 and A4). And
The remote center system 200 refers to the failure history data file 1 at a determined cycle and calculates the failure occurrence rate for each device for a certain period (step A5).
【0034】なお、リモートセンタシステム200は、
装置開発時の理論障害率を元に、装置個別の障害率デー
タを蓄積した設計障害率データファイル3を作成してい
る(ステップA6,A7)。The remote center system 200 is
Based on the theoretical failure rate at the time of developing the apparatus, the design failure rate data file 3 accumulating the failure rate data for each apparatus is created (steps A6 and A7).
【0035】次に、リモートセンタシステム200は、
決められた周期で実際の障害発生率と理論障害率とを比
較し、発生頻度の高い数値を演算系装置8や入出力系装
置9の実エラーレートとして装置毎にエラーレートマス
タファイル4に格納する(ステップA8,A9)。Next, the remote center system 200
The actual failure occurrence rate and the theoretical failure rate are compared in a determined cycle, and a numerical value with a high occurrence frequency is stored in the error rate master file 4 for each device as the actual error rate of the arithmetic operation system device 8 and the input / output system device 9. (Steps A8 and A9).
【0036】次に、リモートセンタシステム200は、
決められた周期で格納された装置毎のエラーレートマス
ターファイル4およびユーザ装置構成データファイル2
を元に、コンピュータシステム100の演算系装置8お
よび入出力系装置9の装置毎の実エラーレートを抽出す
る(ステップB1)。そして、抽出したユーザ個別の実
エラーレートをコンピュータシステム100の保守プロ
セッサ6に送信する(ステップB2)。Next, the remote center system 200
Error rate master file 4 and user device configuration data file 2 for each device stored in a determined cycle
Based on the above, the actual error rate of each of the arithmetic operation system device 8 and the input / output system device 9 of the computer system 100 is extracted (step B1). Then, the extracted actual error rate for each user is transmitted to the maintenance processor 6 of the computer system 100 (step B2).
【0037】保守プロセッサ6は、受信した演算系装置
8および入出力系装置9の装置毎の実エラーレートをシ
ステムエラーレートテーブル14に格納する(ステップ
B3)。The maintenance processor 6 stores the received actual error rate of each of the arithmetic system device 8 and the input / output system device 9 in the system error rate table 14 (step B3).
【0038】さらに、保守プロセッサ6は、コンピュー
タシステム100を立ち上げる際に演算系装置8の実エ
ラーレートをシステムエラーレートテーブル14から診
断プロセッサ7に送信し、診断プロセッサ7はそれを演
算系装置エラーレートテーブル15に格納し管理する。
同時に保守プロセッサ6は、入出力系装置9の実エラー
レートをOS12へ送信し、OS12はそれを入出力系
装置エラーレートテーブル16に格納し管理する(ステ
ップB4,B5)。Further, the maintenance processor 6 transmits the actual error rate of the arithmetic unit 8 from the system error rate table 14 to the diagnostic processor 7 when the computer system 100 is started up, and the diagnostic processor 7 sends it to the arithmetic unit error. Stored in the rate table 15 and managed.
At the same time, the maintenance processor 6 transmits the actual error rate of the input / output system device 9 to the OS 12, and the OS 12 stores and manages it in the input / output system device error rate table 16 (steps B4 and B5).
【0039】実エラーレートを格納後にコンピュータシ
ステム100に障害が発生すると、診断プロセッサ7お
よびOS12は実エラーレートを参照し、障害がエラー
レート以上か未満か、すなわち、基準となる時間に対す
る障害発生の許容回数を越えていないかをチェックする
(ステップC1,C2)。When a failure occurs in the computer system 100 after storing the actual error rate, the diagnostic processor 7 and the OS 12 refer to the actual error rate to determine whether the failure is equal to or more than the error rate or less than the error rate, that is, the failure occurrence for the reference time. It is checked whether the allowable number of times is exceeded (steps C1 and C2).
【0040】そして、診断プロセッサ7およびOS12
は、エラーレート以上ならば交換処置が必要である旨の
コメントを付加し、障害情報を保守プロセッサ6に送信
する(ステップC3)。エラーレート未満の場合には処
置不要のコメントを付加し、障害情報を保守プロセッサ
6に送信する(ステップC4)。Then, the diagnostic processor 7 and the OS 12
Adds a comment to the effect that replacement is necessary if the error rate is exceeded, and sends fault information to the maintenance processor 6 (step C3). If the error rate is less than the error rate, a comment that no action is required is added and the failure information is transmitted to the maintenance processor 6 (step C4).
【0041】保守プロセッサ6は、障害がエラーレート
以上である場合および未満である場合のいずれの場合
も、障害情報とコメントをリモートセンタシステム20
0へ送信し、エラーログファイル13に障害情報を格納
する(ステップC5)。The maintenance processor 6 sends the fault information and the comment to the remote center system 20 regardless of whether the fault is equal to or higher than the error rate or lower than the error rate.
0, and the failure information is stored in the error log file 13 (step C5).
【0042】リモートセンタシステム200では、受信
した障害情報とコメントを元に、障害の処置の判断をす
る(ステップC6)。In the remote center system 200, the failure treatment is judged based on the received failure information and comment (step C6).
【0043】なお、上記のリモート診断保守方式は、コ
ンピュータシステム100およびリモートセンタシステ
ム200の各主記憶(図示していない。)に保持された
プログラムを実行することにより動作する。このプログ
ラムは、通常、ハードディスクなどの二次記憶に格納さ
れており、システムの運用時に主記憶にロードされて実
行される。The remote diagnostic maintenance system described above operates by executing a program stored in each main memory (not shown) of the computer system 100 and the remote center system 200. This program is normally stored in a secondary storage such as a hard disk, and is loaded and executed in the main storage during system operation.
【0044】[0044]
【発明の効果】以上、詳細に説明したように、本発明に
よれば、装置の設計時に想定される設計障害率および実
際の障害発生率に基いて定期的に見直したエラーレート
を障害処置の判断基準に取込んでいるので、保守担当者
の経験や勘に頼ることなく、コンピュータシステムの予
防保守を的確に行うことができるという効果がある。As described above in detail, according to the present invention, the error rate regularly reviewed based on the design failure rate and the actual failure occurrence rate assumed at the time of designing the device can be used for the failure treatment. Since the judgment criteria are incorporated, there is an effect that the preventive maintenance of the computer system can be accurately performed without depending on the experience and intuition of the person in charge of maintenance.
【図1】本発明の実施の一形態を示す説明図。FIG. 1 is an explanatory diagram showing an embodiment of the present invention.
【図2】保守対象のコンピュータシステムを示す説明
図。FIG. 2 is an explanatory diagram showing a computer system to be maintained.
【図3】本発明の動作を示す流れ図(1)。FIG. 3 is a flowchart (1) showing the operation of the present invention.
【図4】本発明の動作を示す流れ図(2)。FIG. 4 is a flowchart (2) showing the operation of the present invention.
【図5】本発明の動作を示す流れ図(3)。FIG. 5 is a flowchart (3) showing the operation of the present invention.
1 障害履歴データファイル 2 ユーザ装置構成データファイル 3 設計障害率データファイル 4 エラーレートマスターファイル 5 障害受信部 6 保守プロセッサ 7 診断プロセッサ 8 演算系装置 9 入出力系装置 10 磁気ディスク等 11 通信装置等 12 OS 13 エラーログファイル 14 システムエラーレートテーブル 15 演算系装置エラーレートテーブル 16 入出力系装置エラーレートテーブル 100 コンピュータシステム 200 リモートセンタシステム 300 通信回線 1 Fault history data file 2 User device configuration data file 3 Design failure rate data file 4 Error rate master file 5 Fault receiver 6 Maintenance processor 7 Diagnostic processor 8 arithmetic unit 9 Input / output equipment 10 Magnetic disk, etc. 11 Communication devices, etc. 12 OS 13 Error log file 14 System error rate table 15 Calculation system error rate table 16 Input / output system device error rate table 100 computer system 200 remote center system 300 communication lines
フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06F 11/22 - 11/26 G06F 11/28 - 11/34 G06F 13/00 JSTPLUSファイル(JOIS)Front page continued (58) Fields surveyed (Int.Cl. 7 , DB name) G06F 11/22-11/26 G06F 11/28-11/34 G06F 13/00 JSTPLUS file (JOIS)
Claims (6)
レートを保持し,障害が発生したときその障害が発生し
た装置のエラーレートを参照して前記装置の処置を示す
コメントを生成し,それを前記障害の障害情報とともに
通報するコンピュータシステムと、前記コンピュータシ
ステムが通報してくる障害情報を障害履歴として蓄積
し,前記コンピュータシステムを構成する装置ごとの設
計障害率をあらかじめ保持し,前記障害履歴および前記
設計障害率を定期的に参照し該当の装置のエラーレート
を設定しそれを前記コンピュータシステムに送信し,前
記コンピュータシステムが通報してくるコメントを表示
し前記障害に対する処置を促すリモートセンタシステム
と、前記コンピュータシステムおよび前記リモートセン
タシステムを接続する通信回線とを有することを特徴と
するリモート診断保守方式。1. An error rate for each device constituting the own system is held, and when a failure occurs, a comment indicating the action of the device is generated by referring to the error rate of the device in which the failure has occurred, and the comment is generated. A computer system that reports with the fault information of the fault, fault information that the computer system reports is accumulated as a fault history, and a design fault rate for each device that constitutes the computer system is held in advance. A remote center system for periodically referring to the design failure rate, setting an error rate of a corresponding device, transmitting the error rate to the computer system, displaying a comment notified by the computer system, and urging action for the failure; Connecting the computer system and the remote center system A remote diagnostic maintenance system characterized by having a communication line.
ュータシステムが通報してくる障害情報を障害履歴とし
て蓄積する障害履歴データファイルと、コンピュータシ
ステムを構成する装置ごとの設計障害率をあらかじめ保
持する設計障害率データファイルと、前記障害履歴デー
タファイルおよび前記設計障害率データファイルを定期
的に参照し装置ごとのエラーレートを設定しそれを保持
するエラーレートマスタファイルと、コンピュータシス
テムを構成する装置の装置情報を保持するユーザ装置構
成データファイルと、前記ユーザ装置構成データファイ
ルに基いて前記エラーレートマスタファイルを参照し前
記コンピュータシステムを構成する装置ごとのエラーレ
ートを抽出しそれを前記コンピュータシステムに送信す
る手段と、コンピュータシステムが送信してくる通報デ
ータを取込みそれに含まれる障害情報を前記障害履歴デ
ータファイルに書込む手段とを具備することを特徴とす
る請求項1記載のリモート診断保守方式。2. The remote center system, wherein a fault history data file for accumulating fault information reported by a computer system as a fault history and a design fault rate for preliminarily retaining a design fault rate for each device constituting the computer system A data file, an error rate master file that periodically refers to the failure history data file and the design failure rate data file, sets an error rate for each device, and holds the error rate, and device information of devices that configure a computer system. A user device configuration data file to be held, and means for referring to the error rate master file based on the user device configuration data file, extracting an error rate for each device that constitutes the computer system, and transmitting it to the computer system. , Compu 2. The remote diagnostic maintenance system according to claim 1 , further comprising means for taking in the report data transmitted from the data system and writing the fault information contained therein in the fault history data file.
ムを構成する装置ごとのエラーレートを前記リモートセ
ンタシステムから受信しそれを保持するシステムエラー
レートテーブルと,自システムの発生した障害の障害情
報を保持するエラーログファイルと,前記障害情報を前
記リモートセンタシステムに送信する手段とを備える保
守プロセッサと、前記システムエラーレートテーブルか
ら演算系装置のエラーレートを取込み演算系装置エラー
レートテーブルを作成して保持し,前記演算系装置に障
害が発生したときには前記演算系装置エラーレートテー
ブルを参照し該当の装置の障害の処置を示すコメントを
生成しそれをエラーログファイルに書込む診断プロセッ
サと、前記システムエラーレートテーブルから入出力系
装置のエラーレートを取込み入出力系装置エラーレート
テーブルを作成して保持し,前記入出力系装置に障害が
発生したときには前記入出力系装置エラーレートテーブ
ルを参照し該当の装置の障害の処置を示すコメントを生
成しそれを前記エラーログファイルに書込む手段とを具
備することを特徴とする請求項1または2記載のリモー
ト診断保守方式。3. The computer system holds a system error rate table for receiving an error rate of each device constituting the own system from the remote center system and holding the error rate table, and fault information of a fault occurring in the own system. A maintenance processor including an error log file and means for transmitting the failure information to the remote center system; an error rate of an arithmetic unit from the system error rate table; When a failure occurs in the operation system device, a diagnostic processor that refers to the operation system device error rate table, generates a comment indicating a failure action of the device, and writes the comment in an error log file, and the system error rate Error rate of I / O device from table Takes in and creates an I / O system device error rate table and holds it, and when a failure occurs in the I / O system device, refers to the I / O system device error rate table and generates a comment indicating the action for the failure of the corresponding device The remote diagnostic maintenance system according to claim 1 or 2 , further comprising: a means for writing it in the error log file.
コンピュータシステムを構成する装置ごとのエラーレー
トを保持し、障害が発生したときその障害が発生した装
置のエラーレートを参照して前記装置の処置を示すコメ
ントを生成し、前記コンピュータシステムの障害状況を
監視するリモートセンタシステムへ前記障害の障害情報
とともに前記コメントを通報し、前記リモートセンタシ
ステムでは前記コンピュータシステムが通報してくる障
害情報を障害履歴として蓄積し、前記コンピュータシス
テムを構成する装置ごとの設計障害率をあらかじめ保持
し、前記障害履歴および前記設計障害率を定期的に参照
し該当の装置のエラーレートを設定しそれを前記コンピ
ュータシステムに送信し、前記コンピュータシステムが
通報してくるコメントを表示し前記障害に対する処置を
促すことを特徴とするリモート診断保守方法。4. An error rate for each device that constitutes a computer system that detects and reports a fault that occurs during operation is held, and when a fault occurs, the error rate of the device in which the fault occurs is referenced and the device is referred to. A comment indicating the action of
Fault information of the above fault to the monitored remote center system
Report the comment with the remote center
The system accumulates failure information reported by the computer system as a failure history, holds a design failure rate for each device constituting the computer system in advance, and refers to the failure history and the design failure rate regularly. A remote diagnostic maintenance method characterized by setting an error rate of a corresponding device, transmitting the error rate to the computer system, displaying a comment reported by the computer system, and urging action for the failure.
るコンピュータに、前記コンピュータシステムが通報し
てくる障害情報を障害履歴として障害履歴データファイ
ルに蓄積する機能と、コンピュータシステムを構成する
装置ごとの設計障害率を設計障害率データファイルにあ
らかじめ保持する機能と、前記障害履歴データファイル
および前記設計障害率データファイルを定期的に参照し
装置ごとのエラーレートを設定しそれをエラーレー トマ
スタファイルに保持する機能と、コンピュータシステム
を構成する装置の装置情報をユーザ装置構成データファ
イルに保持する機能と、前記ユーザ装置構成データファ
イルに基いて前記エラーレートマスタファイルを参照し
前記コンピュータシステムを構成する装置ごとのエラー
レートを抽出しそれを前記コンピュータシステムに送信
する機能とを実現させるプログラム。5. A computer system under operation is monitored.
The computer system
The failure history data file is used as the failure history of the incoming failure information.
Functions to be stored in a computer and configure a computer system
The design failure rate for each device is stored in the design failure rate data file.
A function to hold the data and the history data file
And refer to the design failure rate data file regularly.
Erare Tomah it sets the error rate per unit
Computer system
The device information of the devices that make up the
Function of the user device configuration data file
Refer to the above error rate master file based on
Error for each device that constitutes the computer system
Extract the rate and send it to the computer system
A program that realizes the function to do .
のコンピュータに、前記運用システムを構成する装置ご
とのエラーレートを前記監視システムから受信しそれを
システムエラーレートテーブルに保持する機能と、前記
運用システムに発生した障害の障害情報をエラーログフ
ァイルに保持する機能と、前記障害情報を前記監視シス
テムに送信する機能と、前記システムエラーレートテー
ブルから演算系装置のエラーレートを取込み演算系装置
エラーレートテーブルを作成して保持する機能と、前記
演算系装置に障害が発生したときには前記演算系装置エ
ラーレートテーブルを参照し該当の装置の障害の処置を
示すコメントを生成しそれを前記エラーログファイルに
書込む機能と、前記システムエラーレートテーブルから
入出力系装置のエラーレートを取込み入出力系装置エラ
ーレートテーブルを作成して保持する機能と、前記入出
力系装置に障害が発生したときには前記入出力系装置エ
ラーレートテーブルを参照し該当の装置の障害の処置を
示すコメントを生成しそれを前記エラーログファイルに
書込む機能とを実現させるプログラム。6. An operation system connected to a monitoring system
Each computer has a device
And receive the error rate from the monitoring system
The function to hold in the system error rate table,
The error log of the error that occurred in the operating system
Function to hold in the file and the failure information to the monitoring system.
System, and the system error rate table
The error rate of the operation system device is acquired from the bull
The function to create and maintain the error rate table, and
When a failure occurs in a computing system device, the computing system device
Refer to the error rate table and take corrective action for the failure of the device.
Generate a comment that shows it in the error log file
From the function to write and the system error rate table
Capture the error rate of the I / O system device
-A function to create and hold a rate table and
When a failure occurs in the power system device, the input / output system device
Refer to the error rate table and take corrective action for the failure of the device.
Generate a comment that shows it in the error log file
A program that realizes the writing function .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001032370A JP3479288B2 (en) | 2001-02-08 | 2001-02-08 | Remote diagnostic maintenance method, method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2001032370A JP3479288B2 (en) | 2001-02-08 | 2001-02-08 | Remote diagnostic maintenance method, method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2002236599A JP2002236599A (en) | 2002-08-23 |
| JP3479288B2 true JP3479288B2 (en) | 2003-12-15 |
Family
ID=18896313
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2001032370A Expired - Fee Related JP3479288B2 (en) | 2001-02-08 | 2001-02-08 | Remote diagnostic maintenance method, method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3479288B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4667962B2 (en) * | 2005-05-26 | 2011-04-13 | オリンパス株式会社 | Fault monitoring apparatus and method |
| KR100888474B1 (en) | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | Apparatus and method for encoding/decoding multichannel audio signal |
-
2001
- 2001-02-08 JP JP2001032370A patent/JP3479288B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2002236599A (en) | 2002-08-23 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109726072B (en) | WebLogic server monitoring and alarming method, device and system and computer storage medium | |
| CN109783262B (en) | Fault data processing method, device, server and computer readable storage medium | |
| US8161323B2 (en) | Health monitor | |
| US7281040B1 (en) | Diagnostic/remote monitoring by email | |
| US8839032B2 (en) | Managing errors in a data processing system | |
| US7617074B2 (en) | Suppressing repeated events and storing diagnostic information | |
| US7506314B2 (en) | Method for automatically collecting trace detail and history data | |
| CN113407391A (en) | Fault processing method, computer system, substrate management controller and system | |
| CN106789306B (en) | Method and system for detecting, collecting and recovering software fault of communication equipment | |
| CN101023411A (en) | Method and system for minimizing loss in a computer application | |
| EP3591485B1 (en) | Method and device for monitoring for equipment failure | |
| US20220058103A1 (en) | Dynamic post-change computing-system evaluation | |
| EP2329384B1 (en) | Memory management techniques selectively using mitigations to reduce errors | |
| CN120407265A (en) | Server processing system, method, electronic device and storage medium | |
| CN120354246B (en) | Troubleshooting methods, systems, and media | |
| JP3479288B2 (en) | Remote diagnostic maintenance method, method, and program | |
| JP2007323193A (en) | System, method and program for detecting abnormality of performance load | |
| CN111105314A (en) | Insurance data clearing system | |
| JP5768503B2 (en) | Information processing apparatus, log storage control program, and log storage control method | |
| CN120045368A (en) | Fault processing method, device, BMC, storage medium and computer program product | |
| CN119668921A (en) | A method, device and storage medium for repairing a faulty node in a container orchestration system | |
| CN118939184A (en) | A real-time control method and device for the number of Kafka cluster copies | |
| CN118733316A (en) | SOA adaptive fusing method, system and terminal | |
| CN113391611A (en) | Early warning method, device and system for dynamic environment monitoring system | |
| CN116775088A (en) | An online upgrade method, device, equipment and readable storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20030902 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081003 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091003 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091003 Year of fee payment: 6 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101003 Year of fee payment: 7 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111003 Year of fee payment: 8 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121003 Year of fee payment: 9 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131003 Year of fee payment: 10 |
|
| LAPS | Cancellation because of no payment of annual fees |