Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4842738B2 - Fault management support system and information management method thereof - Google Patents
[go: Go Back, main page]

JP4842738B2 - Fault management support system and information management method thereof - Google Patents

Fault management support system and information management method thereof Download PDF

Info

Publication number
JP4842738B2
JP4842738B2 JP2006237291A JP2006237291A JP4842738B2 JP 4842738 B2 JP4842738 B2 JP 4842738B2 JP 2006237291 A JP2006237291 A JP 2006237291A JP 2006237291 A JP2006237291 A JP 2006237291A JP 4842738 B2 JP4842738 B2 JP 4842738B2
Authority
JP
Japan
Prior art keywords
information
failure
support system
hardware
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006237291A
Other languages
Japanese (ja)
Other versions
JP2008059413A (en
Inventor
浩美 吉田
英子 露木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2006237291A priority Critical patent/JP4842738B2/en
Publication of JP2008059413A publication Critical patent/JP2008059413A/en
Application granted granted Critical
Publication of JP4842738B2 publication Critical patent/JP4842738B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Description

本発明は、顧客などが使用する単一または複数の監視対象機器から構成されるコンピュータシステムなどにおいて、障害の検知および障害復旧への対策事例の検索・対応時に必要な障害対策事例などの提供によって障害発生時の復旧支援を行なう障害管理支援システム及びその情報管理方法に関する。   The present invention provides a failure countermeasure case necessary for detecting and responding to failure detection and failure recovery cases in a computer system composed of a single or a plurality of monitored devices used by customers and the like. The present invention relates to a failure management support system that performs recovery support in the event of a failure and an information management method thereof.

従来、インターネット等のネットワークを経由して遠隔から監視対象機器の監視、情報収集、障害を自動解析し、インターネットなどのネットワークを介して自動通報することで監視対象機器のハードウェア・ソフトウェアの管理・保守を一元的にサポートする支援システムが知れている。例えば、特許文献1などでは、それぞれ外部記憶装置、入出力装置等の周辺装置を接続したクライアント、該クライアントを管理する複数の営業店サーバおよび該営業店サーバを一元管理する統合サーバ、ならびに該統合サーバに接続された保守拠点の複数階層からなるクライアントサーバシステムにおいて、各階層の周辺装置内ユニット毎に採取されるハードウェア障害の障害詳細情報およびエラー統計情報を示すエラーログ情報を接続された外部記憶装置の特定エリアに記録し、記録された情報を定期的に読み出して、上位のサーバに順次送信することにより、上位サーバに情報を一括して収集した後、編集を行って見易くし、障害詳細情報の障害発生推移リストおよびエラー統計情報の閾値を超えた時の異常値リストを上位のサーバの出力装置に出力するとともに、上記統合サーバに収集されたエラーログ情報を保守拠点の端末に転送した後、編集した保守用リストを保守端末の出力装置に出力することにより、該保守用リストをフィードバックデータとして各周辺装置に活用するエラーログ情報管理方法が提案されている。   Conventionally, monitoring and monitoring of monitored devices via a network such as the Internet, information collection, automatic analysis of faults, and automatic management and monitoring of the hardware and software of monitored devices via a network such as the Internet Support systems that support maintenance centrally are known. For example, in Patent Document 1 or the like, a client to which peripheral devices such as an external storage device and an input / output device are connected, a plurality of sales office servers that manage the client, an integrated server that centrally manages the sales office server, and the integration In a client server system consisting of multiple levels of maintenance bases connected to a server, externally connected error log information indicating detailed error information and error statistical information collected for each peripheral unit in each level By recording in a specific area of the storage device, periodically reading the recorded information and sequentially sending it to the host server, the information is collected in the host server, and then edited to make it easier to read. The failure information transition list in the detailed information and the abnormal value list when the error statistics information threshold is exceeded are displayed on the upper server. The error log information collected in the integrated server is transferred to the maintenance base terminal, and the edited maintenance list is output to the maintenance terminal output device to feed back the maintenance list. An error log information management method that is used as data for each peripheral device has been proposed.

特開平7−21059公報JP-A-7-21059

前記障害管理支援システムにおいては、ハードウェア障害の障害詳細情報およびエラー統計情報を示すエラーログ情報を上位のサーバに順次送信するものであるが、ハードウェア障害とともに、その障害が発生した監視対象機器のOS、アプリケーション又はデータベースなどのソフトウェアのログ情報を採取し、これらハードウェアの障害情報とソフトウェアのログ情報を収集して綜合的に解析すれば、より信頼性の高いサービスを提供することが可能となる。しかし、ハードウェアの障害情報のみならず障害が発生した対象監視機器のソフトウェアのログ情報を収集するには、別途、障害発生機器のソフトウェアのログ情報を採取して支援システムに送信するためのシステムを別途構築する必要がある。しかし、このようなハードウェア障害の情報を自動送信する既存のシステムに新たにソフトウェアのログ情報を収集するシステムを加えて再構築するには、膨大なコストが掛かるばかりでなく、作業負荷も大きいものとなる。このため、ハードウェアの障害情報を自動送信する既存のシステムの大幅な変更を行うことなく、障害が発生した監視対象機器のソフトウェアのログ情報を採取する場合、例えば、障害が発生した監視対象機器のある現場に出向あるいは常駐した作業者がソフトウェアのログ情報を採取し、その情報をハードウェア障害とは別に支援システムに送信することが考えられるが、この場合、前述したハードウェアの障害情報は、ハードウェアの障害情報を蓄積するサーバなどに自動送信され、一方、作業者が人手によってソフトウェアのログ情報を採取する場合、これらハードウェアの障害情報とソフトウェアのログ情報とが相互に関連付けされることなく、バラバラで管理されるといったことが懸念される。このため、ハードウェアの障害情報とソフトウェアのログ情報とを個別に確認するなど、適切かつ効率よくハードウェアの障害情報とソフトウェアのログ情報とを取得することができない。また、ハードウェアの障害情報に対して異なるソフトウェアのログ情報を参照するといった危険性も懸念され、障害発生に対する対策方法を効率的に提供できず、復旧作業に多大の時間を要する、という問題がある。   In the fault management support system, error log information indicating detailed fault information of hardware faults and error statistical information is sequentially transmitted to a higher-level server. It is possible to provide more reliable services by collecting log information of software such as OS, applications or databases of the software, and collecting and analyzing these hardware failure information and software log information. It becomes. However, in order to collect not only hardware failure information but also software log information of the target monitoring device in which a failure has occurred, a separate system for collecting software log information of the failed device and sending it to the support system Need to be built separately. However, adding a new system that collects software log information to an existing system that automatically transmits information on hardware failures in this way not only costs enormous costs but also increases the workload. It will be a thing. For this reason, when collecting software log information for a monitored device that has failed, without significantly changing the existing system that automatically transmits hardware failure information, for example, the monitored device that has failed It is conceivable that a worker who is seconded or resident at a certain site collects software log information and sends the information to the support system separately from the hardware failure. In this case, the hardware failure information mentioned above is Automatically sent to a server or the like that accumulates hardware failure information. On the other hand, when an operator manually collects software log information, the hardware failure information and software log information are associated with each other. There is concern that it will be managed separately. For this reason, hardware failure information and software log information cannot be acquired appropriately and efficiently, such as individually checking hardware failure information and software log information. In addition, there is a risk of referring to log information of different software for hardware failure information, and there is a problem that it is impossible to efficiently provide a countermeasure method against the occurrence of a failure and a long time is required for recovery work. is there.

本発明は上記課題を鑑みてなされたものであり、障害発生時に支援システムに送られるハードウェアの障害情報とソフトウェアのログ情報とを関連付けて一元的に管理することによって、より詳細で確実性の高い障害対策事例の提供することが可能な障害管理支援システム及びその情報管理方法を提供することを目的とする。   The present invention has been made in view of the above-described problems, and by managing the hardware failure information and software log information sent to the support system in the event of a failure in association with each other, more detailed and certainty is achieved. An object of the present invention is to provide a failure management support system capable of providing high failure countermeasure examples and an information management method thereof.

請求項1に係る障害管理支援システムは、顧客などが使用するクライアントシステムと、そのクライアントシステムの監視対象機器の管理・保守をサポートする支援システムとが通信ネットワークを介して接続され、前記支援システムは前記監視対象機器の障害情報やそれらの対策情報が蓄積されているデータベースを有し、前記監視対象機器のハードウェア障害発生時に前記クライアントシステムからの障害情報を受けて、前記データベースに蓄積又は検索結果としての対策情報をクライアントに提供する障害管理支援システムであって、前記支援システムは、前記ハードウェア障害情報を受けた際、そのハードウェア障害情報毎にそれぞれ異なる識別IDを付与するとともに、そのハードウェア障害が発生した監視対象機器のソフトウェアのログ情報を採取し、支援システムに送る際、前記ハードウェア障害情報の識別IDと関連付けしたIDを付与することによって、前記ハードウェア障害情報と前記ソフトウェアのログ情報とを共通情報として一元的に管理するように構成したことを特徴とする。   In the failure management support system according to claim 1, a client system used by a customer or the like and a support system that supports management / maintenance of monitored devices of the client system are connected via a communication network. A database in which failure information of the monitoring target device and countermeasure information thereof are stored; a failure information received from the client system when a hardware failure occurs in the monitoring target device; In the failure management support system for providing countermeasure information to the client, when receiving the hardware failure information, the support system assigns a different identification ID to each piece of hardware failure information. Software of the monitored device in which a hardware failure has occurred When the log information is collected and sent to the support system, the hardware fault information and the log information of the software are unified as common information by giving an ID associated with the identification ID of the hardware fault information. It is configured to be managed.

請求項1の構成によれば、ソフトウェアのログ情報にハードウェア障害情報の識別IDと関連付けたIDを付与することによって、以後、ハードウェア障害情報とソフトウェアのログ情報とが共通した障害対策必要情報として紐付けされる。そして、クライアントシステムの障害発生時にクライアントシステムから受取ったハード障害を解析し、解析した情報を基に、データベースから障害対策必要情報を検索して障害原因の検討し、交換部品手配処理などといった障害対策を指示することにより、障害が発生した監視対象機器の復旧を図る。   According to the configuration of claim 1, by providing an ID associated with the identification ID of the hardware failure information to the software log information, the failure countermeasure necessary information in which the hardware failure information and the software log information are common thereafter It is tied as Then, analyze the hardware failure received from the client system when a failure occurs in the client system, search the database for necessary failure countermeasure information based on the analyzed information, investigate the cause of the failure, and handle the failure measures such as replacement parts arrangement processing By instructing, recovery of the monitored device in which the failure has occurred is attempted.

請求項2に係る障害管理支援システムの情報管理方法は、請求項1記載の障害管理支援システムにおいて、前記クライアントシステムから自動送信されるハードウェア障害情報を前記支援システムが受け付ける際、前記ハードウェア障害情報に識別IDを自動的に採番するとともに、前記支援システムは、前記識別IDが付与されたハードウェア障害情報と前記監視対象機器から採取したソフトウェアのログ情報とを格納するログサーバーを有し、このログサーバーに前記ソフトウェアのログ情報をアップロードするためのアップロードコードを前記識別IDが採番されたハードウェア障害情報と関連付けることによって、前記ソフトウェアのログ情報のIDとして前記ハードウェア障害情報の識別IDとを関連付けしたことを特徴とする。   The fault management support system information management method according to claim 2 is the fault management support system according to claim 1, wherein when the support system receives hardware fault information automatically transmitted from the client system, the hardware fault The identification system automatically assigns an identification ID, and the support system includes a log server that stores hardware failure information to which the identification ID is assigned and log information of software collected from the monitored device The hardware failure information is identified as an ID of the software log information by associating an upload code for uploading the software log information to the log server with the hardware failure information assigned with the identification ID. It is characterized by associating with an ID.

請求項2の構成によれば、障害対策技術者が障害の発生した監視対象機器のソフトウェアのログ情報を採取し、このログ情報をインターネットなどを経由して支援システムにアップロードするために処理を行う。この際、アップロード用のサーバにログインするため、アップロードコードがハードウェア障害情報に自動的に採番された識別IDと関連付けしたIDとなり、以後、ハードウェア障害情報とソフトウェアのログ情報とが共通した障害対策必要情報として紐付けされる。   According to the configuration of claim 2, the failure countermeasure engineer collects log information of the software of the monitored device in which the failure has occurred, and performs processing to upload this log information to the support system via the Internet or the like. . At this time, in order to log in to the upload server, the upload code becomes an ID associated with the identification ID automatically assigned to the hardware failure information, and thereafter, the hardware failure information and the software log information are common. It is linked as necessary information for troubleshooting.

請求項3に係る障害管理支援システムの情報管理方法は、請求項2記載の障害管理支援システムにおいて、前記支援システムは、前記データベースから検索した障害情報や対策情報などを表示する表示部を備え、前記ログサーバーに前記ログファイルをアップロードした際、前記表示部に前記ログファイルのアップロード完了を報知するポップアップ表示が成されることを特徴とする。   An information management method for a failure management support system according to claim 3 is the failure management support system according to claim 2, wherein the support system includes a display unit that displays failure information, countermeasure information, and the like retrieved from the database, When the log file is uploaded to the log server, a pop-up display for notifying completion of the upload of the log file is made on the display unit.

請求項3の構成によれば、現場の障害対策技術者がソフトウェアのログ情報をアップロードすると、支援システムの表示部にアップロードが完了したことを示すポップアップ表示が成されるから、迅速な障害対応が可能となる。   According to the configuration of claim 3, when the on-site failure countermeasure engineer uploads the software log information, a pop-up display indicating that the upload is completed is made on the display unit of the support system. It becomes possible.

請求項1に係る障害管理支援システムによれば、顧客などが使用するクライアントシステムと、そのクライアントシステムの監視対象機器の管理・保守をサポートする支援システムとが通信ネットワークを介して接続され、前記支援システムは前記監視対象機器の障害情報やそれらの対策情報が蓄積されているデータベースを有し、前記監視対象機器のハードウェア障害発生時に前記クライアントシステムからの障害情報を受けて、前記データベースに蓄積又は検索結果としての対策情報をクライアントに提供する障害管理支援システムであって、前記支援システムは、前記ハードウェア障害情報を受けた際、そのハードウェア障害情報毎にそれぞれ異なる識別IDを付与するとともに、そのハードウェア障害が発生した監視対象機器のソフトウェアのログ情報を採取し、支援システムに送る際、前記ハードウェア障害情報の識別IDと関連付けしたIDを付与することによって、前記ハードウェア障害情報と前記ソフトウェアのログ情報とを共通情報として一元的に管理するように構成したものであるから、クライアントシステムから自動的に送られるハード障害を解析し、解析した情報を基に、障害対策必要情報を検索する際、ハードウェア障害情報とソフトウェアのログ情報とが共通した障害対策必要情報として紐付けされ、より迅速に障害対策事例の提供が可能となる。また、障害が発生に伴うハード障害データのみならず、ソフトソフトウェアのログ情報を参照することが可能となるから、より詳細で確実性の高い障害対策情報を提供することが可能となる。   According to the failure management support system according to claim 1, a client system used by a customer or the like and a support system that supports management and maintenance of a monitoring target device of the client system are connected via a communication network, and the support The system has a database in which failure information of the monitored device and countermeasure information thereof are stored, and receives failure information from the client system when a hardware failure occurs in the monitored device, and stores or stores the failure information in the database. In the failure management support system that provides countermeasure information as a search result to the client, the support system, when receiving the hardware failure information, gives a different identification ID for each hardware failure information, The software of the monitored device in which the hardware failure occurred When collecting hardware log information and sending it to the support system, the hardware fault information and the software log information are unified as common information by assigning an ID associated with the identification ID of the hardware fault information. Therefore, when a hardware failure automatically sent from the client system is analyzed and the information necessary for troubleshooting is searched based on the analyzed information, the hardware failure information and software log The information is linked as common information necessary for troubleshooting, and it becomes possible to provide troubleshooting examples more quickly. Further, since it is possible to refer to not only hardware failure data associated with the occurrence of a failure but also software software log information, it is possible to provide more detailed and reliable failure countermeasure information.

請求項2に係る障害管理支援システムの情報管理方法によれば、請求項1記載の障害管理支援システムにおいて、前記クライアントシステムから自動送信されるハードウェア障害情報を前記支援システムが受け付ける際、前記ハードウェア障害情報に識別IDを自動的に採番するとともに、前記支援システムは、前記識別IDが付与されたハードウェア障害情報と前記監視対象機器から採取したソフトウェアのログ情報とを格納するログサーバーを有し、このログサーバーに前記ソフトウェアのログ情報をアップロードするためのアップロードコードを前記識別IDが採番されたハードウェア障害情報と関連付けることによって、前記ソフトウェアのログ情報のIDとして前記ハードウェア障害情報の識別IDとを関連付けしたものであるから、採取したソフトウェアのログ情報をアップロードする際のアップロードコードがハードウェア障害情報に自動的に採番された識別IDと関連付けられたIDとなるから、以後、ハードウェア障害情報とソフトウェアのログ情報とが共通した障害対策必要情報として紐付けされ、障害対策情報を検索する際、ハードウェア障害情報とソフトウェアのログ情報とが共通した障害対策情報として検索することが可能となり、迅速かつ効率的に障害対策情報を検索することができる。   According to the information management method of the failure management support system according to claim 2, in the failure management support system according to claim 1, when the support system accepts hardware failure information automatically transmitted from the client system, the hardware The support system automatically assigns an identification ID to the hardware failure information, and the support system includes a log server that stores hardware failure information to which the identification ID is assigned and log information of software collected from the monitored device. The hardware fault information as an ID of the log information of the software by associating an upload code for uploading the log information of the software to the log server with the hardware fault information assigned with the identification ID Whether the ID is associated with Since the upload code when uploading the collected software log information is an ID associated with the identification ID automatically assigned to the hardware fault information, the hardware fault information, the software log information, Are linked as common troubleshooting information, and when troubleshooting information is searched, hardware troubleshooting information and software log information can be searched as common troubleshooting information, enabling quick and efficient troubleshooting. Countermeasure information can be searched.

請求項3に係る障害管理支援システムの情報管理方法によれば、請求項2記載の障害管理支援システムの情報管理方法において、前記支援システムは、前記データベースから検索した障害情報や対策情報などを表示する表示部を備え、前記ログサーバーに前記ログファイルをアップロードした際、前記表示部に前記ログファイルのアップロード完了を報知するポップアップ表示が成されるものであるから、より迅速な障害対応が可能となる。   According to the information management method of the failure management support system according to claim 3, in the failure management support system information management method according to claim 2, the support system displays the failure information and countermeasure information retrieved from the database. When the log file is uploaded to the log server, a pop-up display for notifying the completion of the upload of the log file is made on the display unit. Become.

以下、本発明を実施するための最良の形態としての実施例を図1及び図2を参照して説明する。もちろん、本発明は、その発明の趣旨に反さない範囲で、実施例において説明した以外のものに対しても容易に適用可能なことは説明を要するまでもない。   Hereinafter, an embodiment as the best mode for carrying out the present invention will be described with reference to FIGS. Of course, it goes without saying that the present invention can be easily applied to other than those described in the embodiments without departing from the spirit of the invention.

以下、本発明の一実施例の構成について図1のシステムの概念構成図を参照して説明する。図1において、符号1は、支援システムであり、この支援システム1はクライアント(顧客)システム2のハード障害が発生した場合に障害通知メールを受信する電子メールサーバ3、メインフレーム4などで構成され、これら支援システム1とクライアントシステム2とが通信ネットワーク6を介して接続されている。メインフレーム4は、データ処理能力を具備する例えばパーソナル・コンピュータやワーク・ステーションなどで構成されている。   Hereinafter, the configuration of an embodiment of the present invention will be described with reference to the conceptual configuration diagram of the system of FIG. In FIG. 1, reference numeral 1 denotes a support system, and this support system 1 includes an e-mail server 3 and a mainframe 4 that receive a failure notification mail when a hardware failure of the client (customer) system 2 occurs. The support system 1 and the client system 2 are connected via a communication network 6. The main frame 4 is composed of, for example, a personal computer or a work station having data processing capability.

クライアントシステム2は、例えば、複数のコンピュータシステムやこれらのオペレーティング・システム、そのオペレーティング・システム下で動作しネットワークあるいはデータベース等を管理するシステムを含み、これらのコンピュータシステムや周辺機器などの監視対象機器にハード障害が生じた際、クライアントシステム2から電子メールサーバ3に障害通知メールが自動的に送信され、さらにそのハード障害情報が中央監視センタ20に送られる。中央監視センタ20は、クライアントシステム2からのハード障害情報やその障害対策情報を格納するデータベース21を有しており、クライアントシステム2からハード障害の発生を受けた際、その通報内容を解析し、データベース21の障害案件ファイル22に格納する。また、ハード障害に対する対策情報は、データベース21の障害対策必要情報ファイル23に格納される。   The client system 2 includes, for example, a plurality of computer systems, their operating systems, and a system that operates under the operating systems and manages a network or a database. When a hardware failure occurs, a failure notification mail is automatically transmitted from the client system 2 to the electronic mail server 3, and the hardware failure information is further transmitted to the central monitoring center 20. The central monitoring center 20 has a database 21 for storing hardware fault information from the client system 2 and its fault countermeasure information. When a hardware fault occurs from the client system 2, it analyzes the report contents, Stored in the failure case file 22 of the database 21. Further, the countermeasure information for the hardware failure is stored in the failure countermeasure necessary information file 23 of the database 21.

支援システム1のプログラムは、クライアントシステム2で障害が発生した時に起動され、クライアントシステム2から電子メールサーバ3に障害通知メールが送信されると、そのハード障害データを解析し、その解析情報を中央監視センタ20に送り、その解析したハード障害データをデータベース21の障害案件ファイル22に格納する。また、支援システム1はデータベース21とは別にハード障害情報を記憶するログサーバー25を備えており、このログサーバー25にはハード障害情報と共にハード障害が発生した監視対象機器のOS、アプリケーション又はデータベースなどのソフトウェアのログ情報を記憶する。なお、ソフトウェアのログ情報は、クライアントシステム2からのハード障害情報を受けて中央監視センタ20から障害対策技術者に監視対象機器のソフトウェアのログ情報を採取するための要請が成され、採取したソフトウェアのログ情報を支援システム1のアップロード用のサーバ27にアップロードする。   The program of the support system 1 is activated when a failure occurs in the client system 2, and when a failure notification mail is transmitted from the client system 2 to the e-mail server 3, the hardware failure data is analyzed and the analysis information is centralized. The data is sent to the monitoring center 20 and the analyzed hardware failure data is stored in the failure case file 22 of the database 21. Further, the support system 1 includes a log server 25 that stores hardware failure information separately from the database 21, and the log server 25 includes the OS, application, database, or the like of the monitoring target device in which the hardware failure has occurred along with the hardware failure information. Log information of software. Note that the software log information is received from the hardware failure information from the client system 2, and a request is made from the central monitoring center 20 to the failure countermeasure engineer to collect the log information of the software of the monitoring target device. Is uploaded to the upload server 27 of the support system 1.

また、前記障害対策必要情報ファイル23には、自動通知の詳細ログ、採取ログ、障害履歴、点検履歴、障害事例、通達や注意事項、保守マニュアル、クライアントに対する送受信メールなどの情報が蓄積され、クライアントシステム2の障害発生時にクライアントシステム2から受取ったハード障害を解析し、解析した情報を基に、障害対策必要情報ファイル23から対策メッセージを検索して出力する。   Further, the trouble countermeasure necessary information file 23 stores information such as a detailed log of automatic notification, a collection log, a trouble history, an inspection history, trouble cases, notifications and precautions, a maintenance manual, and a transmission / reception mail for the client. A hardware failure received from the client system 2 when the failure of the system 2 occurs is analyzed, and a countermeasure message is retrieved from the failure countermeasure necessary information file 23 and output based on the analyzed information.

次に、このような流れのサポートを行う場合の、支援システム1における処理について図2のチャート図を参照して説明する。まず、クライアントシステム2の監視対象機器にハード障害が発生すると、自動通報受信処理を行う(ステップS1)。自動通報受信処理は、まず、クライアントシステム2から送られる障害通知メールを受信し、自動通報処理システムによりデータベース21への障害案件登録処理が行われる(ステップS2)。すなわち、自動通報処理システムによりクライアントシステム2から送られるハード障害情報に識別IDとしての管理ナンバーが自動的に採番され、その管理ナンバーが付与されたハード障害情報が中央監視センタ20に自動転送され、データベース21の障害案件ファイル22に登録される。次に、中央監視センタ20のオペレータ(障害対策担当者)は、クライアントシステム2からの自動通報により支援システム1の表示部(モニタ)でハード障害の状況を表示させて確認する(ステップS3)。その後、支援システム1の内部処理として障害関連情報自動収集処理が実行され(ステップS4)、障害対策必要情報ファイル23にリンク情報を登録することでキーボードなどによるキー入力操作によってハード障害に対する障害対策関連情報が前記表示部(モニタ)で確認可能となる(ステップS5)。この後、オペレータが障害対策必要情報ファイル23から障害原因や対策情報を検索し、障害原因の検討と交換部品の特定を行なう。また、障害対策技術者に対してクライアントへの出勤を依頼(ステップS6)するとともに、障害対策に伴うスケジュールの調整、クライアントへの連絡、交換部品の手配などを行う。オペレータからの依頼を受けた障害対策技術者は、オペレータからの指示に従って障害が発生した監視対象機器のソフトウェアのログ情報を採取し、これをアップロード用のサーバ27にアップロードするためにアップロード処理を行う(ステップS7)。このアップロード処理は障害対策技術者による手作業であり、アップロード作業に際し、アップロード機能を利用してクライアントシステム2から取得したソフトウェアのログ情報をインターネット経由で転送する。この際、アップロード用のサーバ27にログインする必要があるため、携帯端末30などで現地の障害対策技術者から中央監視センタ20のオペレータへアップロードコードの依頼を受け付けると、中央監視センタ20のオペレータがアップロードコード取得処理を行う(ステップS8)。アップロードコード取得は、中央監視センタ20にて支援システム1の表示部(モニタ)上にて[アップロードコード]取得ボタンを押すことにより、前記識別IDとしての管理ナンバーがセットされたアップロードコード取得画面が表示され、ここで取得したアップロードコードを携帯端末30などで現地の障害対策技術者に知らせ、採取したソフトウェアのログ情報(現地採取資料)をアップロードする。このアップロードコードがソフトウェアのログ情報のIDとなり、そのIDとハード障害データ毎に自動的に付与された識別IDとが関連付けされる。以後、障害が発生した監視対象機器のハード障害情報と、その監視対象機器におけるソフトウェアのログ情報とが相互に関連付けされてデータベース21に登録される。このように現地のソフトウェアのログ情報がアップロードされると、支援システム1から参照可能にするために、データベース21の障害対策必要情報ファイル23にリンク情報を登録する(ステップS10)。これにより、表示部(モニタ)の画面にはソフトウェアのログ情報(現地採取資料)がアップロードされたことを報知するポップアップ表示され、支援システム1を利用しているオペレータは、瞬時にソフトウェアのログ情報(現地採取資料)がアップロードされたことが視覚的に判断可能となる(ステップS11、S12)。このようにしてログサーバー25に相互に関連付けされたハード障害情報とソフトウェアのログ情報(現地採取資料)を記憶することにより、クライアントシステム2の障害発生時にクライアントシステム2から受取ったハード障害を解析し、解析した情報を基に、中央監視センタ20のオペレータが障害対策必要情報ファイル23を参照し、障害原因の検討し(ステップS13)、交換部品手配処理などといった障害対策を指示することにより、障害が発生した監視対象機器を復旧させる。こうして、障害対策が完了した障害案件は、事例としてデータベース21の障害案件ファイル22に蓄積され(ステップS14)、以降の障害対策に活用される。   Next, processing in the support system 1 when performing such a flow support will be described with reference to the chart of FIG. First, when a hardware failure occurs in the monitoring target device of the client system 2, automatic report reception processing is performed (step S1). In the automatic notification receiving process, first, a failure notification mail sent from the client system 2 is received, and a failure case registration process in the database 21 is performed by the automatic notification processing system (step S2). That is, the management number as the identification ID is automatically assigned to the hardware failure information sent from the client system 2 by the automatic report processing system, and the hardware failure information to which the management number is assigned is automatically transferred to the central monitoring center 20. Are registered in the failure case file 22 of the database 21. Next, the operator (fault countermeasure person in charge) of the central monitoring center 20 confirms the status of the hardware fault on the display unit (monitor) of the support system 1 by automatic notification from the client system 2 (step S3). After that, the failure related information automatic collection processing is executed as internal processing of the support system 1 (step S4), and the link information is registered in the failure countermeasure necessary information file 23, so that the failure countermeasure related to the hardware failure by the key input operation with the keyboard or the like. Information can be confirmed on the display unit (monitor) (step S5). Thereafter, the operator searches for the cause of the failure and the countermeasure information from the failure countermeasure necessary information file 23, examines the cause of the failure and specifies the replacement part. In addition to requesting the trouble countermeasure engineer to attend the client (step S6), adjustment of the schedule associated with the trouble countermeasure, communication with the client, arrangement of replacement parts, and the like are performed. Upon receiving the request from the operator, the failure countermeasure engineer collects the log information of the software of the monitoring target device in which the failure has occurred in accordance with the instruction from the operator, and performs upload processing to upload this to the upload server 27. (Step S7). This upload process is a manual work by a failure countermeasure engineer, and at the time of the upload work, the log information of the software acquired from the client system 2 using the upload function is transferred via the Internet. At this time, since it is necessary to log in to the upload server 27, the operator of the central monitoring center 20 receives the request for the upload code from the local trouble countermeasure engineer to the operator of the central monitoring center 20 using the portable terminal 30 or the like. An upload code acquisition process is performed (step S8). Upload code acquisition is performed by pressing the [Upload code] acquisition button on the display unit (monitor) of the support system 1 at the central monitoring center 20 to display an upload code acquisition screen in which the management number as the identification ID is set. The upload code acquired here is notified to the local failure countermeasure engineer using the portable terminal 30 or the like, and the log information (local collection material) of the collected software is uploaded. This upload code becomes the ID of the log information of the software, and the ID is associated with the identification ID automatically given for each hardware failure data. Thereafter, the hardware failure information of the monitoring target device in which the failure has occurred and the software log information in the monitoring target device are associated with each other and registered in the database 21. When the log information of the local software is uploaded in this way, the link information is registered in the failure countermeasure necessary information file 23 of the database 21 so that it can be referred to from the support system 1 (step S10). As a result, a pop-up is displayed on the screen of the display unit (monitor) to notify that the software log information (local collection material) has been uploaded, and the operator using the support system 1 can instantaneously log the software log information. It is possible to visually determine that (local collection material) has been uploaded (steps S11 and S12). By storing the hardware failure information and the software log information (locally collected data) that are associated with each other in the log server 25 in this way, the hardware failure received from the client system 2 when the failure of the client system 2 occurs is analyzed. Based on the analyzed information, the operator of the central monitoring center 20 refers to the failure countermeasure necessity information file 23, examines the cause of the failure (step S13), and instructs the failure countermeasure such as replacement parts arrangement processing. Restore the monitored device in which the error occurred. Thus, the trouble cases for which the trouble countermeasures have been completed are stored in the trouble case file 22 of the database 21 as examples (step S14), and are used for the subsequent trouble countermeasures.

以上のように、本実施例においては、障害が発生に伴うハード障害データとソフトウェアのログ情報は、それぞれの識別ID(管理ナンバー)とその識別IDに対応したID(アップロードコード)によって関連付けされ、以後、共通した障害対策必要情報との紐付けが保たれるので、より詳細で確実性の高い障害対策事例の提供が可能となる。また、障害が発生に伴うハード障害データのみならず、ソフトウェアのログ情報を参照することが可能となるから、より高度で信頼性の高い障害対策情報を提供することが可能となる。また、既存の支援システム1を大幅に改造することなく、ソフトソフトウェアのログ情報を参照することができるから、コスト削減の向上を図ることができる。さらに、現場の障害対策技術者がソフトウェアのログ情報(現地採取資料)をアップロードすると、表示部(モニタ)の画面にポップアップ表示によりアップロードの完了が表示され、迅速な障害対応が可能となり、障害によるシステム停止時間を短縮できる効果もある。   As described above, in this embodiment, hardware failure data and software log information associated with the occurrence of a failure are associated with each identification ID (management number) and an ID (upload code) corresponding to the identification ID, Thereafter, since the linkage with the common information necessary for failure countermeasures is maintained, it is possible to provide more detailed and reliable failure countermeasure examples. Further, since it is possible to refer to not only hardware failure data associated with a failure but also software log information, it is possible to provide more advanced and highly reliable failure countermeasure information. In addition, log information of the software software can be referred to without significantly modifying the existing support system 1, so that cost reduction can be improved. In addition, when the on-site troubleshooting engineer uploads the software log information (local collection data), the pop-up display is displayed on the display (monitor) screen, indicating that the upload is complete, enabling quick response to the failure. There is also an effect that the system stop time can be shortened.

本発明の一実施例を示す支援システムの構成を示した概略説明図である。It is the schematic explanatory drawing which showed the structure of the assistance system which shows one Example of this invention. 同上、支援システムにおける処理を示すチャート図である。It is a chart figure which shows the process in a support system same as the above.

符号の説明Explanation of symbols

1 支援システム
2 クライアントシステム
4 メインフレーム
6 通信ネットワーク
21 データベース
20 中央監視センタ
22 障害案件ファイル
23 障害対策必要情報ファイル
25 ログサーバー
DESCRIPTION OF SYMBOLS 1 Support system 2 Client system 4 Mainframe 6 Communication network 21 Database 20 Central monitoring center 22 Failure matter file 23 Failure countermeasure required information file 25 Log server

Claims (3)

顧客などが使用するクライアントシステムと、そのクライアントシステムの監視対象機器の管理・保守をサポートする支援システムとが通信ネットワークを介して接続され、前記支援システムは前記監視対象機器の障害情報やそれらの対策情報が蓄積されているデータベースを有し、前記監視対象機器のハードウェア障害発生時に前記クライアントシステムからの障害情報を受けて、前記データベースに蓄積又は検索結果としての対策情報をクライアントに提供する障害管理支援システムであって、前記支援システムは、前記ハードウェア障害情報を受けた際、そのハードウェア障害情報毎にそれぞれ異なる識別IDを付与するとともに、そのハードウェア障害が発生した監視対象機器のソフトウェアのログ情報を採取し、支援システムに送る際、前記ハードウェア障害情報の識別IDと関連付けしたIDを付与することによって、前記ハードウェア障害情報と前記ソフトウェアのログ情報とを共通情報として一元的に管理するように構成したことを特徴とする障害管理支援システム。   A client system used by a customer or the like and a support system that supports management / maintenance of the monitoring target device of the client system are connected via a communication network, and the support system includes failure information of the monitoring target device and countermeasures for them. Fault management having a database in which information is stored, receiving fault information from the client system when a hardware fault occurs in the monitored device, and providing countermeasure information as a result of storage or search in the database to the client When the hardware failure information is received, the support system assigns a different identification ID to each piece of hardware failure information, and the software of the monitored device in which the hardware failure has occurred Collect log information and send it to the support system At this time, the hardware fault information and the log information of the software are centrally managed as common information by giving an ID associated with the identification ID of the hardware fault information. Fault management support system. 前記クライアントシステムから自動送信されるハードウェア障害情報を前記支援システムが受け付ける際、前記ハードウェア障害情報に識別IDを自動的に採番するとともに、前記支援システムは、前記識別IDが付与されたハードウェア障害情報と前記監視対象機器から採取したソフトウェアのログ情報とを格納するログサーバーを有し、このログサーバーに前記ソフトウェアのログ情報をアップロードするためのアップロードコードを前記識別IDが採番されたハードウェア障害情報と関連付けることによって、前記ソフトウェアのログ情報のIDとして前記ハードウェア障害情報の識別IDとを関連付けしたことを特徴とする請求項1記載の障害管理支援システムの情報管理方法。   When the support system receives hardware failure information automatically transmitted from the client system, the support system automatically assigns an identification ID to the hardware failure information, and the support system includes a hardware to which the identification ID is assigned. A log server for storing software failure information and software log information collected from the monitored device, and the identification ID is assigned an upload code for uploading the software log information to the log server 2. The information management method for a failure management support system according to claim 1, wherein the hardware failure information is associated with an identification ID of the hardware failure information as an ID of the log information of the software. 前記支援システムは、前記データベースから検索した障害情報や対策情報などを表示する表示部を備え、前記ログサーバーに前記ログファイルをアップロードした際、前記表示部に前記ログファイルのアップロード完了を報知するポップアップ表示が成されることを特徴とする請求項2記載の障害管理支援システムの情報管理方法。
The support system includes a display unit that displays failure information and countermeasure information retrieved from the database, and when the log file is uploaded to the log server, a pop-up that notifies the display unit of completion of uploading the log file 3. The information management method for a failure management support system according to claim 2, wherein display is performed.
JP2006237291A 2006-09-01 2006-09-01 Fault management support system and information management method thereof Expired - Fee Related JP4842738B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006237291A JP4842738B2 (en) 2006-09-01 2006-09-01 Fault management support system and information management method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006237291A JP4842738B2 (en) 2006-09-01 2006-09-01 Fault management support system and information management method thereof

Publications (2)

Publication Number Publication Date
JP2008059413A JP2008059413A (en) 2008-03-13
JP4842738B2 true JP4842738B2 (en) 2011-12-21

Family

ID=39242043

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006237291A Expired - Fee Related JP4842738B2 (en) 2006-09-01 2006-09-01 Fault management support system and information management method thereof

Country Status (1)

Country Link
JP (1) JP4842738B2 (en)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4951034B2 (en) * 2009-06-25 2012-06-13 株式会社日立製作所 Computer system and its operation information management method
WO2011051999A1 (en) 2009-10-26 2011-05-05 富士通株式会社 Information processing device and method for controlling information processing device
JP5378551B2 (en) * 2012-01-26 2013-12-25 株式会社日立製作所 Computer system and its operation information management method
CN106095642A (en) * 2016-06-16 2016-11-09 浪潮电子信息产业股份有限公司 A Solution to Fan Fault Based on RMC Management
CN109509134A (en) * 2018-12-21 2019-03-22 株洲中车电气科技有限公司 System and method is instructed applied to the emergency troubleshooting on AC-DC locomotive
JP7788903B2 (en) * 2022-03-23 2025-12-19 三菱電機株式会社 Support system, support device, support method, and program
CN115396282B (en) * 2022-07-20 2024-03-15 北京奇艺世纪科技有限公司 Information processing method, system and device
JP7756309B2 (en) 2022-10-13 2025-10-20 パナソニックIpマネジメント株式会社 Information processing device, information processing method, and program
CN116560893B (en) * 2023-07-07 2023-09-22 湖南开放大学(湖南网络工程职业学院、湖南省干部教育培训网络学院) Computer application program operation data fault processing system

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0721059A (en) * 1993-07-02 1995-01-24 Hitachi Ltd Error log information management method
JPH1069400A (en) * 1996-08-29 1998-03-10 Hitachi Ltd Computer system and its failure recovery support method
JP4255366B2 (en) * 2003-11-28 2009-04-15 富士通株式会社 Network monitoring program, network monitoring method, and network monitoring apparatus

Also Published As

Publication number Publication date
JP2008059413A (en) 2008-03-13

Similar Documents

Publication Publication Date Title
US11789760B2 (en) Alerting, diagnosing, and transmitting computer issues to a technical resource in response to an indication of occurrence by an end user
JP3612472B2 (en) Remote monitoring diagnosis system and remote monitoring diagnosis method
US7051244B2 (en) Method and apparatus for managing incident reports
CN105531680B (en) Long-Range Surveillance System and remote monitoring method
CN108667666A (en) An intelligent operation and maintenance method and system based on visualization technology
JP2007172131A (en) Failure prediction system, failure prediction method and failure prediction program
JP4842738B2 (en) Fault management support system and information management method thereof
CN105049223A (en) Electric power communication network defect and fault processing decision-aided analysis method
JP4648961B2 (en) Apparatus maintenance system, method, and information processing apparatus
JP4774929B2 (en) Monitoring device, monitoring system
JP2004178296A (en) Knowledge based operation management system, method and program
JP2014199618A (en) Fault monitoring system
JP2005071191A (en) User support system, method and server, and computer-executable program
JP4575020B2 (en) Failure analysis device
CN112835780A (en) A service detection method and device
JP2010224829A (en) Operation management system
CN115080284B (en) Fault handling methods, devices and electronic equipment for business systems
KR20050058772A (en) System and method for providing internet failure management using wire and wireless network
JP2009093522A (en) Maintenance-management service support system
CN116266426A (en) Fire event pattern analysis and cross-building data analysis
CN115576736A (en) Refined intelligent monitoring method for data center
JP2003244055A (en) Base station monitoring system
CN114387123A (en) Data acquisition management method
JP2008181432A (en) Health check device, health check method and program
JP2004013798A (en) System and method for repairing personal computer by using network

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090901

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110221

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110913

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111006

R150 Certificate of patent or registration of utility model

Ref document number: 4842738

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141014

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees