JP4848979B2 - Monitoring system, monitoring method and program - Google Patents
Monitoring system, monitoring method and program Download PDFInfo
- Publication number
- JP4848979B2 JP4848979B2 JP2007057347A JP2007057347A JP4848979B2 JP 4848979 B2 JP4848979 B2 JP 4848979B2 JP 2007057347 A JP2007057347 A JP 2007057347A JP 2007057347 A JP2007057347 A JP 2007057347A JP 4848979 B2 JP4848979 B2 JP 4848979B2
- Authority
- JP
- Japan
- Prior art keywords
- monitoring
- unit
- processing device
- result
- management
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012544 monitoring process Methods 0.000 title claims description 505
- 238000000034 method Methods 0.000 title claims description 36
- 230000010365 information processing Effects 0.000 claims description 36
- 230000005856 abnormality Effects 0.000 claims description 31
- 238000012806 monitoring device Methods 0.000 claims description 15
- 230000002159 abnormal effect Effects 0.000 claims description 10
- 238000007726 management method Methods 0.000 description 83
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は、監視システムおよび監視方法ならびにプログラムに係り、特に、情報処理システムの障害監視における信頼性向上のための技術に係る。 The present invention relates to a monitoring system, a monitoring method, and a program, and more particularly, to a technique for improving reliability in fault monitoring of an information processing system.
情報処理システムの障害を監視する監視システム(監視装置)には、高い信頼性が要求される。そこで、監視システムの信頼性向上のために様々な工夫がなされている。例えば、特許文献1には、システム監視装置に対する負荷の集中、及び情報量の集中によるオーバーフローがなく、また、単一の監視装置のように、万一その機器が障害を起こした場合、システム情報を管理することが不可能となることがないように、信頼性を向上した監視システムが開示されている。このシステムは、サーバがクライアントへヘルスチェックを行っておりクライアントが正常に機能しているかをチェックするサーバ/クライアントシステムである。
High reliability is required for a monitoring system (monitoring device) that monitors a failure of an information processing system. Therefore, various ideas have been made to improve the reliability of the monitoring system. For example, in
また、特許文献2には、監視装置に障害が発生したとき、遠隔から再起動することができる監視システムが開示されている。この監視システムは、被監視装置を監視する監視装置と、この監視装置からログデータを受信し、ログデータの受信状態により監視装置の障害を検出すると共に、監視装置の障害を電子メールにて遠隔管理者に通知するログ収集送信装置を備えたものである。
さらに、特許文献3には、複数の処理装置の状態を効率よく監視することができる情報処理システムが記載されている。このシステムにおいて、ネットワーク上の処理装置は、それぞれ自分自身を監視し、監視情報を取得する監視手段と、その監視情報を監視装置に送信する送信手段を持つ。複数の処理装置からそれぞれ送信された監視情報は、監視装置によって受信される。監視装置はそのための受信手段と、それを表示装置に表示する表示手段とを持つ。そして、監視装置の監視情報受信手段、表示手段、表示ウィンドウを、監視対象処理装置毎に設ける。
Furthermore,
また、特許文献4には、マネージャに管理データ記憶手段と、資源利用関係検索手段と、エージェント動作手段を設け、エージェントで障害が発生または修復した場合、障害が発生した資源を利用するアプリケーションを停止または再開するシステム管理装置が記載されている。 In Patent Document 4, the manager is provided with management data storage means, resource utilization relation retrieval means, and agent operation means, and when a failure occurs or is repaired in the agent, the application that uses the failed resource is stopped. Or, a system management apparatus to be resumed is described.
なお、関連する技術として、特許文献5には、上位装置との間のパスが二重化され、上位装置から下位装置に対するヘルスチェックを行う回線アダプタに関する障害検知技術が記載されている。 As a related technique, Patent Document 5 describes a failure detection technique related to a line adapter that performs a health check on a lower-level device from a higher-level device by duplicating a path with the higher-level device.
従来の監視システムでは、クライアントマシンの監視手段がプロセスや性能情報等の被監視オブジェクトを監視しており、異常を検知するとサーバマシンの出力装置に通知する仕組みを持っている。しかし、監視手段やイベント通知パス自体に障害があると、被監視対象に関するイベントを通知することができない。例えば、特許文献2では、監視装置の障害を電子メールにて遠隔管理者に通知するが、送信装置に障害が発生すると、遠隔管理者は、この障害を検知することができない。また、特許文献3では、監視装置自体に障害が発生すると、監視情報を受信することができず、監視結果を表示することもできない。さらに、特許文献4でも同様に、マネージャに障害が発生すると、管理そのものができなくなってしまう。
In a conventional monitoring system, a monitoring unit of a client machine monitors monitored objects such as processes and performance information, and has a mechanism for notifying an output device of a server machine when an abnormality is detected. However, if there is a failure in the monitoring means or the event notification path itself, an event related to the monitored object cannot be notified. For example, in
一方、特許文献1に記載された監視サーバ・クライアントシステムでは、サーバは、クライアントへヘルスチェックを行っておりクライアントが正常に機能しているかをチェックしている。また、サーバを多重化することにより信頼性を向上させている。しかし、この監視サーバ・クライアントシステムには、マネージャを多重化することでエージェント・マネージャ間を保証しているが、マネージャ・出力部間が正常に機能しない場合を考慮していない。したがって、監視システム全体としては、信頼性を充分に確保した監視を行っているとはいえない。
On the other hand, in the monitoring server / client system described in
したがって、本発明の目的は、監視手段やイベント通知パスに障害があった場合であっても、システム全体として信頼性を確保した監視を行う監視システムおよび監視方法ならびにプログラムを提供することにある。 Accordingly, it is an object of the present invention to provide a monitoring system, a monitoring method, and a program for performing monitoring while ensuring reliability as a whole system even when there is a failure in the monitoring means and the event notification path.
本発明の1つのアスペクトに係る監視システムは、第1、第2および第3の処理装置をそれぞれ含む第1、第2および第3の情報処理装置群を備え、第3の処理装置は、第2の処理装置を監視し、第2の処理装置は、第1の処理装置を監視する監視システムであって、第1の処理装置は、被監視対象とされるオブジェクトを監視する第1の監視部と、第1の監視部を監視する第2の監視部と、を備え、第2の処理装置は、第1の監視部における監視結果を管理する第1の管理部と、第2の監視部および第1の管理部を監視する第3の監視部と、を備え、第3の処理装置は、第1の管理部における監視結果を管理する第2の管理部と、第3の監視部および第2の管理部を監視する第4の監視部と、第2の管理部および第4の監視部の監視結果を出力する出力部と、を備える。 A monitoring system according to an aspect of the present invention includes first, second, and third information processing device groups including first, second, and third processing devices, respectively. The second processing device is a monitoring system that monitors the first processing device , and the first processing device monitors the object to be monitored. And a second monitoring unit that monitors the first monitoring unit, and the second processing device includes a first management unit that manages a monitoring result in the first monitoring unit, and a second monitoring unit And a third monitoring unit that monitors the first management unit, and the third processing device includes a second management unit that manages a monitoring result in the first management unit, and a third monitoring unit. And the fourth monitoring unit for monitoring the second management unit, and the monitoring results of the second management unit and the fourth monitoring unit. And an output unit for force, the.
本発明の監視システムにおいて、第2の監視部は、第1の監視部が正常であるか否かを判断し、第1の監視部を異常と判断した場合には、第1の監視部がダウンしていることを表すイベントを発行し、第1の監視部におけるプロセスの再起動を試み、一定時間内に起動すれば、第1の監視部の再起動成功のイベントを発行し、一定時間内に起動しなかった場合には、第1の監視部の再起動失敗のイベントを発行し、該発行したイベントを、第3の監視部に通知するようにしてもよい。 In the monitoring system of the present invention, the second monitoring unit determines whether or not the first monitoring unit is normal. If the first monitoring unit determines that the first monitoring unit is abnormal, If an event indicating that it is down is issued, the process of restarting the process in the first monitoring unit is attempted, and if the process is started within a predetermined time, an event of a successful restart of the first monitoring unit is issued, and the predetermined time is If the first monitoring unit does not start, a restart failure event of the first monitoring unit may be issued, and the issued event may be notified to the third monitoring unit.
本発明の監視システムにおいて、第3の処理装置は、第4の監視部を監視すると共に監視結果を第1の管理部に通知する第5の監視部をさらに備え、第1の管理部は、第5の監視部における監視結果をさらに管理するようにしてもよい。 In the monitoring system of the present invention, the third processing device further includes a fifth monitoring unit that monitors the fourth monitoring unit and notifies the first management unit of the monitoring result, and the first management unit includes: You may make it manage the monitoring result in a 5th monitoring part further.
本発明の監視システムにおいて、第2の情報処理装置群は、第1の監視部の監視結果を第1の管理部に転送する第1の転送部と、第2の監視部および第1の転送部を監視する第6の監視部と、を備える第4の処理装置を含み、第1の管理部は、第1の転送部からの監視結果をさらに管理し、第3の監視部は、第6の監視部をさらに監視するようにしてもよい。 In the monitoring system of the present invention, the second information processing apparatus group includes a first transfer unit that transfers a monitoring result of the first monitoring unit to the first management unit, a second monitoring unit, and a first transfer. A fourth processing unit comprising: a sixth monitoring unit that monitors the first monitoring unit, wherein the first management unit further manages the monitoring result from the first transfer unit, and the third monitoring unit includes: The 6 monitoring units may be further monitored.
本発明の監視システムにおいて、第1の管理部は、第1の監視部にヘルスチェックイベントの発行を依頼し、第1の監視部および第1の転送部の双方あるいは一方から一定時間内にヘルスチェックイベントの通知があるか否かを判定し、判定結果を第2の管理部に発行し、第1の監視部は、ヘルスチェックイベントを第1の管理部および第1の転送部に発行し、第2の管理部は、所定時間内に判定結果が得られない場合には、第1の管理部における定期通報が未着である旨のイベントを出力部に発行するようにしてもよい。 In the monitoring system of the present invention, the first management unit requests the first monitoring unit to issue a health check event, and the health of the first monitoring unit and / or the first transfer unit is within a certain period of time. It is determined whether there is a check event notification, the determination result is issued to the second management unit, and the first monitoring unit issues a health check event to the first management unit and the first transfer unit. If the determination result is not obtained within a predetermined time, the second management unit may issue an event to the output unit indicating that the regular notification in the first management unit has not arrived.
本発明の監視システムにおいて、第3の情報処理装置群は、第3の処理装置と同様に構成される、第4の処理装置を管理する第5の処理装置をさらに含むようにしてもよい。 In the monitoring system of the present invention, the third information processing device group may further include a fifth processing device that manages the fourth processing device, which is configured similarly to the third processing device.
本発明の監視システムにおいて、第1の情報処理装置群は、複数の第1の処理装置を含み、第2および第4の処理装置は、それぞれ1または2以上の第1の処理装置を管理するようにしてもよい。 In the monitoring system of the present invention, the first information processing device group includes a plurality of first processing devices, and each of the second and fourth processing devices manages one or more first processing devices. You may do it.
本発明の監視システムにおいて、第1の情報処理装置群は、複数の第1の処理装置を含み、第2の情報処理装置群は、複数の第6の処理装置をさらに含み、第6の処理装置のそれぞれは、複数の第1の処理装置のいずれか1以上の第1の監視部の監視結果を転送する第2の転送部と、複数の第1の処理装置のいずれか1以上の第2の監視部および第2の転送部を監視する第7の監視部と、を備え、第2の処理装置は、第1の処理装置を監視および管理する替わりに、複数の第6の処理装置のいずれかを監視および管理し、第4の処理装置は、第1の処理装置の監視および第1の処理装置の監視結果の転送を行う替わりに、複数の第6の処理装置のいずれかの監視および監視結果の転送を行うようにしてもよい。 In the monitoring system of the present invention, the first information processing device group includes a plurality of first processing devices, the second information processing device group further includes a plurality of sixth processing devices, and a sixth process Each of the devices includes a second transfer unit that transfers a monitoring result of any one or more first monitoring units of the plurality of first processing devices, and any one or more first of the plurality of first processing devices. 2 monitoring units and a seventh monitoring unit that monitors the second transfer unit, and the second processing device monitors a plurality of sixth processing devices instead of monitoring and managing the first processing device. One of the plurality of sixth processing devices instead of monitoring the first processing device and transferring the monitoring result of the first processing device. Monitoring and monitoring result transfer may be performed.
本発明の監視システムにおいて、第2の情報処理装置群は、複数の第7の処理装置をさらに含み、第7の処理装置のそれぞれは、複数の第6の処理装置のいずれか1以上の第2の転送部の転送結果を転送する第3の転送部と、複数の第6の処理装置のいずれか1以上の第7の監視部および第3の転送部を監視する第8の監視部と、を備え、第2の処理装置は、複数の第6の処理装置のいずれかを監視および管理する替わりに、複数の第7の処理装置のいずれかを監視および管理し、第4の処理装置は、複数の第6の処理装置のいずれかの監視および監視結果の転送を行う替わりに、複数の第7の処理装置のいずれかの監視および監視結果の転送を行うようにしてもよい。 In the monitoring system of the present invention, the second information processing apparatus group further includes a plurality of seventh processing apparatuses, and each of the seventh processing apparatuses is one or more of the plurality of sixth processing apparatuses. A third transfer unit that transfers the transfer results of the two transfer units, an eighth monitoring unit that monitors any one or more seventh monitoring units and the third transfer unit of the plurality of sixth processing devices; The second processing device monitors and manages any of the plurality of seventh processing devices instead of monitoring and managing any of the plurality of sixth processing devices, and the fourth processing device. Instead of monitoring any one of the plurality of sixth processing devices and transferring the monitoring result, any one of the plurality of seventh processing devices may be monitored and the monitoring result transferred.
本発明の他のアスペクトに係る監視方法は、第1、第2および第3の処理装置をそれぞれ含む第1、第2および第3の情報処理装置群を備え、第3の処理装置は、第2の処理装置を監視し、第2の処理装置は、第1の処理装置を監視する監視システムにおける監視方法であって、前記第1の処理装置において、被監視対象とされるオブジェクトを監視する第1の監視ステップと、前記第1の監視ステップにおける監視状況を監視する第2の監視ステップと、を含み、前記第2の処理装置において、前記第1の監視ステップにおける監視結果の有無を判定する第1の管理ステップと、前記第2の監視ステップおよび前記第1の管理ステップにおける状況を監視する第3の監視ステップと、を含み、前記第3の処理装置において、前記第1の管理ステップにおける判定結果の有無を監視する第2の管理ステップと、前記第3の監視ステップおよび前記第2の管理ステップにおける状況を監視する第4の監視ステップと、前記第2の管理ステップおよび前記第4の監視ステップの監視結果を出力する出力ステップと、を含む。 A monitoring method according to another aspect of the present invention includes first, second, and third information processing device groups including first, second, and third processing devices, respectively. The second processing device is a monitoring method in a monitoring system that monitors the first processing device, and monitors an object to be monitored in the first processing device. A first monitoring step; and a second monitoring step for monitoring a monitoring status in the first monitoring step. In the second processing device, the presence or absence of a monitoring result in the first monitoring step is determined. And a third monitoring step for monitoring the status in the second monitoring step and the first management step, and in the third processing apparatus, the first management step A second management step for monitoring the presence / absence of a determination result in the step, a fourth monitoring step for monitoring a situation in the third monitoring step and the second management step, the second management step, and the second And an output step for outputting the monitoring results of the four monitoring steps .
本発明のさらに他のアスペクトに係るプログラムは、第1、第2および第3の処理装置をそれぞれ含む第1、第2および第3の情報処理装置群を備え、第3の処理装置は、第2の処理装置を監視し、第2の処理装置は、第1の処理装置を監視する監視システムを構成するコンピュータのプログラムであって、プログラムは、前記第1の処理装置を構成するコンピュータに、前記第1の処理装置を、被監視対象とされるオブジェクトを監視する第1の監視部、前記第1の監視部を監視する第2の監視部、として機能させ、前記第2の処理装置を構成するコンピュータに、前記第2の処理装置を、前記第1の監視部おける監視結果の有無を判定する第1の管理部、前記第2の監視部および前記第1の管理部を監視する第3の監視部、として機能させ、前記第3の処理装置を構成するコンピュータに、前記第3の処理装置を、前記第1の管理部おける判定結果の有無を監視する第2の管理部、前記第3の監視部および前記第2の管理部を監視する第4の監視部、前記第2の管理部および前記第4の監視部の監視結果を出力する出力部、として機能させる。 A program according to still another aspect of the present invention includes first, second, and third information processing device groups including first, second, and third processing devices, respectively. The second processing device is a computer program constituting a monitoring system for monitoring the first processing device, and the program is stored in the computer constituting the first processing device. The first processing device functions as a first monitoring unit that monitors an object to be monitored, and a second monitoring unit that monitors the first monitoring unit, and the second processing device is A second computer that configures the second processing device to monitor the first management unit, the second monitoring unit, and the first management unit that determine whether there is a monitoring result in the first monitoring unit. 3 function as a monitoring unit The third processing device is connected to the computer that constitutes the third processing device, the second management unit that monitors the presence or absence of a determination result in the first management unit, the third monitoring unit, and the second monitoring unit. The second monitoring unit functions as a fourth monitoring unit that monitors the second management unit, and an output unit that outputs the monitoring results of the second management unit and the fourth monitoring unit .
本発明によれば、2つの監視系統によって監視システム全体が正常に機能していることを監視し、被監視オブジェクトに関するイベントを出力部までより確実に通報することができる。したがって、信頼性を充分に確保した監視を行うことができる。 According to the present invention, it is possible to monitor that the entire monitoring system is functioning normally by two monitoring systems, and to more reliably report an event related to the monitored object to the output unit. Therefore, monitoring with sufficient reliability can be performed.
本発明の実施形態に係る監視システムは、第1の処理装置(図1のエージェントマシン10)、第2の処理装置(図1のマネージャマシン20a)および第3の処理装置(図1のビューマシン30)をそれぞれ含む第1の情報処理装置群(図1のエージェント層1)、第2の情報処理装置群(図1のマネージャ層2)および第3の情報処理装置群(図1のビュー層3)を備え、第3の処理装置は、第2の処理装置を監視し、第2の処理装置は、第1の処理装置を監視する監視システムである。第1、第2および第3の処理装置は、それぞれ少なくとも独立に監視機能を有すると共に監視情報を伝達する第1の監視系統(図1の監視手段12、イベント管理手段22、32)および第2の監視系統(図1のメタ監視手段11、21a、31)を含み、第2の監視系統は、第1の監視系統を監視するように機能する。
The monitoring system according to the embodiment of the present invention includes a first processing device (
第1の処理装置(図1のエージェントマシン10)は、被監視対象とされるオブジェクト(図1の被監視オブジェクト13)を監視する第1の監視部(図1の監視手段12)と、第1の監視部を監視する第2の監視部(図1のメタ監視手段11)と、を備える。第2の処理装置(図1のマネージャマシン20a)は、第1の監視部における監視結果を管理する第1の管理部(図1のイベント管理手段22)と、第2の監視部および第1の管理部を監視する第3の監視部(図1のメタ監視手段21a)と、を備える。第3の処理装置(図1のビューマシン30)は、第1の管理部における監視結果を管理する第2の管理部(図1のイベント管理手段32)と、第3の監視部および第2の管理部を監視する第4の監視部(図1のメタ監視手段31)と、第2の管理部および第4の監視部の監視結果を出力する出力部(図1の出力装置33)と、を備える。
The first processing device (
また、第2の監視部(図1のメタ監視手段11)は、第1の監視部(図1の監視手段12)が正常であるか否かを判断し、第1の監視部を異常と判断した場合には、第1の監視部がダウンしていることを表すイベントを発行し、第1の監視部におけるプロセスの再起動を試み、一定時間内に起動すれば、第1の監視部の再起動成功のイベントを発行し、一定時間内に起動しなかった場合には、第1の監視部の再起動失敗のイベントを発行し、該発行したイベントを、第3の監視部(図1のメタ監視手段21a)に通知するようにしてもよい。
The second monitoring unit (
さらに、第3の処理装置(図1のビューマシン30a)は、第4の監視部(図1のメタ監視手段31)を監視すると共に監視結果を第1の管理部(図1のイベント管理手段22)に通知する第5の監視部(図1の監視手段34)をさらに備え、第1の管理部は、第5の監視部における監視結果をさらに管理するようにしてもよい。
Further, the third processing device (
また、第2の情報処理装置群(図1のマネージャ層2)は、第1の監視部(図1の監視手段12)の監視結果を第1の管理部(図1のイベント管理手段22)に転送する第1の転送部(図1のイベント転送手段23)と、第2の監視部(図1のメタ監視手段11)および第1の転送部を監視する第6の監視部(図1のメタ監視手段21b)と、を備える第4の処理装置(図1のマネージャマシン20b)を含み、第1の管理部は、第1の転送部からの監視結果をさらに管理し、第3の監視部は、第6の監視部をさらに監視するようにしてもよい。
Further, the second information processing apparatus group (
さらに、第1の管理部(図1のイベント管理手段22)は、第1の監視部にヘルスチェックイベントの発行を依頼し、第1の監視部および第1の転送部の双方あるいは一方から一定時間内にヘルスチェックイベントの通知があるか否かを判定し、判定結果を第2の管理部(図1のイベント管理手段32)に発行し、第1の監視部は、ヘルスチェックイベントを第1の管理部および第1の転送部に発行し、第2の管理部は、所定時間内に判定結果が得られない場合には、第1の管理部における定期通報が未着である旨のイベントを出力部に発行するようにしてもよい。
Further, the first management unit (
また、第3の情報処理装置群(図1のビュー層3)は、第3の処理装置(図1のビューマシン30a)と同様に構成される、第4の処理装置(図1のマネージャマシン20b)を管理する第5の処理装置(図1のビューマシン30b)をさらに含むようにしてもよい。
Further, the third information processing apparatus group (
さらに、第1の情報処理装置群(図7のエージェント層1a)は、複数の第1の処理装置(図7のエージェントマシン10a、10b、10c、10d)を含み、第2および第4の処理装置は、それぞれ1または2以上の第1の処理装置を管理するようにしてもよい。
Further, the first information processing apparatus group (agent layer 1a in FIG. 7) includes a plurality of first processing apparatuses (
また、第1の情報処理装置群は、複数の第1の処理装置を含み、第2の情報処理装置群(図7のマネージャ層2a)は、複数の第6の処理装置(図7のマネージャマシン20c、20d、20f、20g)をさらに含み、第6の処理装置のそれぞれは、複数の第1の処理装置のいずれか1以上の第1の監視部の監視結果を転送する第2の転送部(図7のイベント転送手段23c、23d、23f、23g)と、複数の第1の処理装置のいずれか1以上の第2の監視部および第2の転送部を監視する第7の監視部(図7のメタ監視手段21c、21d、21f、21g)と、を備え、第2の処理装置は、第1の処理装置を監視および管理する替わりに、複数の第6の処理装置のいずれかを監視および管理し、第4の処理装置は、第1の処理装置の監視および第1の処理装置の監視結果の転送を行う替わりに、複数の第6の処理装置のいずれかの監視および監視結果の転送を行うようにしてもよい。
The first information processing device group includes a plurality of first processing devices, and the second information processing device group (
さらに、第2の情報処理装置群は、複数の第7の処理装置(図7のマネージャマシン20e、20h)をさらに含み、第7の処理装置のそれぞれは、複数の第6の処理装置(図7のマネージャマシン20c、20d、20f、20g)のいずれか1以上の第2の転送部の転送結果を転送する第3の転送部(図7のイベント転送手段23e、23h)と、複数の第6の処理装置のいずれか1以上の第7の監視部および第3の転送部を監視する第8の監視部(図7のメタ監視手段21e、21h)と、を備え、第2の処理装置(図7のマネージャマシン20j)は、複数の第6の処理装置のいずれかを監視および管理する替わりに、複数の第7の処理装置のいずれかを監視および管理し、第4の処理装置(図7のマネージャマシン20i)は、複数の第6の処理装置のいずれかの監視および監視結果の転送を行う替わりに、複数の第7の処理装置のいずれかの監視および監視結果の転送を行うようにしてもよい。
Furthermore, the second information processing device group further includes a plurality of seventh processing devices (
このような構成の監視システムは、主に以下の(1)〜(3)で説明するそれぞれの機能によってシステム全体の健全性を監視する。 The monitoring system having such a configuration mainly monitors the soundness of the entire system by the functions described in the following (1) to (3).
(1)監視手段(図1の12)を監視する機能
メタ監視手段(図1の11)は、監視手段(図1の12)を監視し、メタ監視手段(図1の12)が不正な動作やプロセスダウンを検知すると出力装置(図1の33)に向けてメタイベントを通知し、また、監視手段(図1の12)を再起動させ復旧しようとを試みる。ここでメタイベントとは、メタ監視手段が発行する、監視オペレータへ異常を通知するためのイベントである。
(1) The function meta monitoring means (11 in FIG. 1) for monitoring the monitoring means (12 in FIG. 1) monitors the monitoring means (12 in FIG. 1), and the meta monitoring means (12 in FIG. 1) is illegal. When an operation or process down is detected, a meta event is notified to the output device (33 in FIG. 1), and the monitoring means (12 in FIG. 1) is restarted to attempt recovery. Here, the meta event is an event issued by the meta monitoring means for notifying the monitoring operator of an abnormality.
(2)監視システム全体の監視機能
各マシンにメタ監視手段を備えることでシステムの健全性の監視を行う。上位層のメタ監視手段(例えば、マネージャ層であればメタ監視手段(図1の21a))は、下位層のメタ監視手段(図1の11)および同位層の他の手段(図1の22、21b)を監視しており、下位層のメタ監視手段や同位層の他の手段に異常があれば、より上位層のメタ監視手段(図1の31)を経由して出力装置(図1の33)に向けてメタイベントを通知する。このような監視機能によって監視システム全体を監視することができる。
(2) Monitoring function of the entire monitoring system Each machine is equipped with a meta monitoring means to monitor the health of the system. The meta monitoring means in the upper layer (for example, the meta monitoring means (21a in FIG. 1) in the case of the manager layer), the meta monitoring means in the lower layer (11 in FIG. 1) and other means (22 in FIG. 1). 21b), and if there is an abnormality in the lower layer meta monitoring means and other means in the same layer, the output device (FIG. 1) is passed through the higher layer meta monitoring means (31 in FIG. 1). 33) is notified of the meta event. The entire monitoring system can be monitored by such a monitoring function.
(3)マネージャ層(図7の2a)における多重化機能
1台のマネージャマシンが監視することができるエージェント数には限界がある。したがって、大規模システムにあっては、単一マネージャマシンでは管理しきれなくなる。そこでマネージャ層を多段化し、マネージャマシンを複数配置して負荷分散することで、多数のエージェントの監視を実現する。
(3) Multiplexing function in the manager layer (2a in FIG. 7) There is a limit to the number of agents that can be monitored by one manager machine. Therefore, in a large-scale system, it cannot be managed by a single manager machine. Therefore, monitoring of a large number of agents is realized by multi-leveling the manager layer and arranging a plurality of manager machines to distribute the load.
以下、実施例に即し、図面を参照して詳しく説明する。 Hereinafter, it will be described in detail with reference to the drawings in accordance with embodiments.
図1は、本発明の第1の実施例に係る監視システムの構成を示すブロック図である。図1において、監視システムは、マネージャ層2によって監視されるマシンの集合からなるエージェント層1と、監視を行うマシンの集合からなるマネージャ層2と、主に監視システム全体で発生したイベントを表示するマシンを含むビュー層3とから構成される。ここで、各マシンは、プログラムを実行して所定の機能を実現するように構成される情報処理装置に相当する。
FIG. 1 is a block diagram showing the configuration of the monitoring system according to the first embodiment of the present invention. In FIG. 1, the monitoring system displays an
エージェント層1は、エージェントマシン10を備える。エージェントマシン10は、プロセスやログファイルに相当する被監視オブジェクト13と、被監視オブジェクト13を監視する監視手段12と、監視手段12を監視するメタ監視手段11とを備える。
The
マネージャ層2は、エージェントマシン10を監視するマネージャマシン20a、20bを備える。運用管理ではマネージャ層を二重化することが一般的であり、ここでもマネージャ層を二重化している。ただし、クラスタ構成ではなく両現用のシステムを採用している。マネージャマシン20aは、イベント管理手段22とメタ監視手段21aとを備える。マネージャマシン20bは、イベント転送手段23とメタ監視手段21bとを備える。
The
ビュー層3は、ビューマシン30a、30bを備える。ビューマシン30aは、イベント管理手段32、メタ監視手段31、出力装置33、監視手段34を備える。ビューマシン30bは、ビューマシン30aと同様に構成される。
The
次に、各部について説明する。マネージャマシン20aにおいて、イベント管理手段22は、監視手段12から通知(送信)されたイベント(イベント通知)をイベント管理手段32へ通知(送信)する。また、イベント管理手段22は、定期的に監視手段12に対して正常性を確認するヘルスチェックイベントを通知するように依頼し、イベント転送手段23を経由したイベントと監視手段12から直接到来するヘルスチェックイベントとを照らし合わせて、対応するイベントとヘルスチェックイベントをイベント管理手段32へ通知する。
Next, each part will be described. In the
また、メタ監視手段21aは、メタ監視手段11とイベント管理手段22を監視しており、監視によって異常を確認するとメタ監視手段31にイベント(メタイベント通知)を通知する。メタ監視手段21aは、イベント管理手段22と同様の判断機能を有しており、メタ監視手段11から到来するヘルスチェックイベントやメタ監視手段21bを経由してきたヘルスチェックイベントによってメタ監視手段31へイベントを通知する。
The meta monitoring unit 21a monitors the
マネージャマシン20bにおいて、イベント転送手段23は、監視手段12から通知されてきたヘルスチェックイベントをイベント管理手段22とビューマシン30bへ転送する。通常のイベントは、マネージャマシン20bに接続しているビューマシン30bへ転送する。
In the
また、メタ監視手段21bは、メタ監視手段11とイベント転送手段23を監視しており、監視によって異常を確認するとビューマシン30bへ通知する。また、メタ監視手段11から送信されたイベントをビューマシン30bへ転送し、ヘルスチェックイベントを、メタ監視手段21aとビューマシン30bへ転送する。
The
ビューマシン30aにおいて、イベント管理手段32は、イベント管理手段22から通知されてきたイベントやヘルスチェックイベントを出力装置33へ通知する。また、定期的に発行されるべきヘルスチェックイベントが通知されない場合、イベント通報パスが異常であると判断し、異常である旨を表すイベントを出力装置33に通知する。
In the
また、メタ監視手段31は、メタ監視手段21aとイベント管理手段32を監視しており、異常を確認すると出力装置33へ異常である旨を表すイベントを通知する。メタ監視手段31は、イベント管理手段32と同様の判断機能を有しており、メタ監視手段21aが通知してきたヘルスチェックイベントによって出力装置33にイベントを通知する。
Further, the
さらに、監視手段34は、エージェント層1の監視手段12と同様のものであって、メタ監視手段31を監視するために存在する。監視手段34によって最上位のメタ監視手段31を監視することができる。
Further, the
次に、本発明の第1の実施例に係る監視システムの動作について、以下の(1)〜(3)の機能別に説明する。 Next, the operation of the monitoring system according to the first embodiment of the present invention will be described according to the following functions (1) to (3).
(1)監視手段12を監視する機能
図2は、エージェントマシンの動作を表すフローチャートである。まず、メタ監視手段11は、監視手段12が正常であるか否かを判断する(ステップS11)。監視手段12を異常と判断した場合(ステップS11のN)、監視手段12がダウンしていることを表すイベントの発行を行う(ステップS12)。次に監視手段12のプロセスの再起動を試み(ステップS13)、一定時間内に起動すれば(ステップS14のY)、監視手段12の再起動成功のイベントを発行する(ステップS15)。一定時間内に起動しなかった場合(ステップS14のN)、監視手段12の再起動失敗のイベントを発行する(ステップS16)。発行されたイベントは、上位のマシンを経由し、出力装置33において、監視オペレータに通知される。このように動作することでシステム全体を監視しているメタ監視手段が正常に機能していることがわかる。
(1) Function for
また、監視手段12が正常であるか異常であるかを判断するには、まず、監視手段12は、定期的に監視手段自身が正常であると証明するためのログをログファイル14として出力する(図3の(A))。ログファイル14の形式としては、図4に示すような、id(identification)、日時、監視手段名、詳細を含むログからなる。次にメタ監視手段11は、定期的にログファイル14を読みにいき、前回から更新されたログが存在しない場合、または異常のログが存在する場合、監視手段12を異常と判断する(図3の(B))。そして、監視手段12が正常に機能していない場合、上位のメタ監視手段21aにイベントを発行する(図3の(C))。
In order to determine whether the
(2)イベント通報パスの監視機能
図5は、マネージャマシン20aの動作を表すフローチャートである。まず、イベント管理手段22は、監視手段12へヘルスチェックイベント発行の依頼をだす(ステップS21)。監視手段12は、この依頼を受信すると、イベント管理手段22およびイベント転送手段23へヘルスチェックイベントを発行する(ステップS22、S23)。イベント転送手段23は、イベント管理手段22にヘルスチェックイベントを転送する(ステップS24)。一定時間内にイベント転送手段23および監視手段12の両方からヘルスチェックイベントが通知されれば、イベント通報パスが正常であると判断し(ステップS25のY)、ステップS31に進む。
(2) Event Notification Path Monitoring Function FIG. 5 is a flowchart showing the operation of the
また、両方からヘルスチェックイベントが通知されない場合(ステップS25のN)、一定時間内に管理手段12およびイベント転送手段23のいずれか一方からヘルスチェックイベントが通知されるか否かをチェックする(ステップS26)。一定時間内に通知がない場合(ステップS26のN)、エージェントマシン10発の定期通報未着のイベントを発行し(ステップS30)、ステップS31に進む。また、一定時間内に通知があった場合(ステップS26のY)、イベント転送手段23からヘルスチェックイベントが通知されるか否かをチェックする(ステップS27)。イベント転送手段23からヘルスチェックイベントが通知された場合、すなわち、監視手段12から直接ヘルスチェックイベントが通知されない場合、マネージャマシン20a経由の定期通報未着のイベントを発行し(ステップS28)、マネージャマシン20b経由のヘルスチェックイベントが通知されないときは、マネージャマシン20b経由の定期通報未着のイベントを発行する(ステップS29)。
Further, when the health check event is not notified from both (N in Step S25), it is checked whether or not the health check event is notified from either the management means 12 or the event transfer means 23 within a certain time (Step S25). S26). If there is no notification within a certain time (N in Step S26), an event that the
次に、イベント管理手段22は、ヘルスチェックイベントをイベント管理手段32に発行する(ステップS31)。イベント管理手段32は、一定時間内にイベント管理手段22からヘルスチェックイベントを受信できないとき(ステップS32のN)、イベント管理手段22発の定期通報未着のイベントを出力装置33に発行する(ステップS33)。
Next, the
また、メタ監視手段21aも上記と同様な機能を有しており、ヘルスチェックイベントにより、イベント通報パスの健全性をチェックしている。これにより、監視手段12が発行するイベントの通報パスが正常に機能しているかを確認することができる。
The meta monitoring means 21a also has the same function as described above, and checks the soundness of the event notification path by a health check event. As a result, it is possible to confirm whether the event notification path issued by the
(3)監視システム全体の監視機能
図6は、メタ監視手段の動作を表すフローチャートである。まず、上位のメタ監視手段が下位のメタ監視手段および同位の手段を監視しており、異常を発見すると(ステップS41のN)、すぐに下位のメタ監視手段あるいは同位の手段がダウンしている旨のイベントを発行し出力装置33に向けて通知する(ステップS42)。
(3) Monitoring function of the entire monitoring system FIG. 6 is a flowchart showing the operation of the meta monitoring means. First, the upper meta monitoring means monitors the lower meta monitoring means and the peer means, and if an abnormality is found (N in step S41), the lower meta monitoring means or the peer means are immediately down. An event to that effect is issued and notified to the output device 33 (step S42).
なお、監視対象が正常か異常かの判断は、図3に示すようなメタ監視手段11が監視手段12を監視する方法と同じである。すなわち、メタ監視手段31は、イベント管理手段32とメタ監視手段21aを監視し、メタ監視手段21aは、イベント管理手段22、メタ監視手段21bおよびメタ監視手段11を監視しており、メタ監視手段21bは、イベント転送手段23およびメタ監視手段11を監視しており、メタ監視手段11は、監視手段12を監視している。
Whether the monitoring target is normal or abnormal is the same as the method in which the
最後に、ビュー層3に存在する最上位のメタ監視手段31は、エージェント層1の監視手段12と同様の監視手段34によって監視され、異常があれば監視手段34→イベント管理手段22→イベント管理手段32→出力装置33の経路で異常が通知される。このとき、メタ監視手段31は、監視手段34から見ると被監視オブジェクトに相当するものとして認識される。
Finally, the uppermost meta monitoring means 31 existing in the
以上のように動作する監視システムによれば、監視オペレータが出力装置33に表示されるイベントをチェックすることで、被監視オブジェクト13だけでなく監視システム全体として監視が正常に機能しているか否かを判断することができる。その理由は、上位のメタ監視手段が下位のメタ監視手段を監視しており、異常を発見するとすぐにイベントを発行して出力装置33に通知することができることによる。
According to the monitoring system that operates as described above, whether or not monitoring is functioning normally not only for the monitored
また、システムの一部が故障したときに異常をすばやく検知することができ、また監視において支障がない。その理由は、通報経路の異常がイベント経路とメタイベント経路とに二重化されており、また手段の異常検知機能がマネージャ層とビュー層に多重化されているためである。 Further, when a part of the system fails, an abnormality can be detected quickly, and there is no trouble in monitoring. The reason is that the abnormality in the notification path is duplicated in the event path and the meta event path, and the abnormality detection function of the means is multiplexed in the manager layer and the view layer.
図7は、本発明の第2の実施例に係る監視システムの構成を示すブロック図である。図7において、図1と同じ符号は、同一物を表し、その説明を省略する。ただし、監視システムは、図1に示された第1の実施例とはマネージャ層2aが3段に構成されている点およびエージェント層1aに多数のエージェントマシンが備えられる点で大きく異なる。
FIG. 7 is a block diagram showing the configuration of the monitoring system according to the second embodiment of the present invention. 7, the same reference numerals as those in FIG. 1 represent the same items, and description thereof is omitted. However, the monitoring system differs greatly from the first embodiment shown in FIG. 1 in that the
エージェント層1aは、エージェントマシン10a、10b、10c、10dを備える。エージェントマシン10a、10b、10c、10dは、それぞれ図1におけるエージェントマシン10と同様の構成である。
The agent layer 1a includes
マネージャ層2aは、マネージャマシン20c、20d、20e、20f、20g、20h、20i、20jを備える。マネージャ層2aにおいて、マネージャマシン20c、20d、20f、20gが一段目として、マネージャマシン20e、20hが二段目として、マネージャマシン20i、20jが三段目として構成される。それぞれのマネージャマシン20c〜20iが備えるメタ監視手段21c〜21i、イベント転送手段23c〜23iのそれぞれは、図1のメタ監視手段21b、イベント転送手段23と同等の構成である。また、マネージャマシン20jが備えるメタ監視手段21j、イベント管理手段22jは、図1のメタ監視手段21a、イベント管理手段22と同等の構成である。
The
マネージャマシン20c、20dは、それぞれエージェントマシン10a、10bを監視している。マネージャマシン20f、20gは、それぞれエージェントマシン10c、10dを監視している。マネージャマシン20eは、マネージャマシン20c、20fを監視している。マネージャマシン20hは、マネージャマシン20d、20gを監視している。マネージャマシン20jは、マネージャマシン20e、20iを監視している。マネージャマシン20iは、マネージャマシン20hを監視している。
The
なお、以上の例では、マネージャ層2aにおけるマネージャマシンを3段に構成する場合を示した。マネージャマシン20i、20jの処理能力が充分あれば、2段で構成するようにしてもよい。すなわち、マネージャマシン20e、20hを省き、マネージャマシン20jが直接マネージャマシン20c、20fを管理し、マネージャマシン20iが直接マネージャマシン20d、20gを管理するようにしてもよい。
In the above example, the manager machine in the
一般に、一つのマネージャマシンは、監視可能なエージェントマシン数に限界がある。そこで、図7に示すようにマネージャ層を多段に構成してマネージャマシンを複数配置して負荷分散することで、監視可能なエージェントマシン数を増やすことができる。このような構成の監視システムによれば、システム全体として信頼性を充分に確保した監視を行うと共に、大規模なデータセンタ等における数千台のエージェントマシンの監視に対しても対応可能である。 In general, one manager machine has a limit on the number of agent machines that can be monitored. Therefore, as shown in FIG. 7, the number of agent machines that can be monitored can be increased by configuring the manager layers in multiple stages and arranging a plurality of manager machines to distribute the load. According to the monitoring system having such a configuration, it is possible to perform monitoring with sufficiently ensured reliability as a whole system, and it is also possible to cope with monitoring of thousands of agent machines in a large-scale data center or the like.
1、1a エージェント層
2、2a マネージャ層
3 ビュー層
10、10a、10b、10c、10d エージェントマシン
11 メタ監視手段
12 監視手段
13 被監視オブジェクト
14 ログファイル
20a、20b、20c、20d、20e、20f、20g、20h、20i、20j マネージャマシン
21a、21b、21c、21d、21e、21f、21g、21h、21i、21j メタ監視手段
22、22j イベント管理手段
23、23c、23d、23e、23f、23g、23h、23i イベント転送手段
30a、30b ビューマシン
31 メタ監視手段
32 イベント管理手段
33 出力装置
34 監視手段
1,
Claims (18)
前記第3の処理装置は、前記第2の処理装置を監視し、前記第2の処理装置は、前記第1の処理装置を監視する監視システムであって、
前記第1の処理装置は、
被監視対象とされるオブジェクトを監視する第1の監視部と、
前記第1の監視部の異常を監視して監視結果を前記第2の処理装置に通知すると共に、前記第1の監視部における前記オブジェクトの監視結果を前記第2の処理装置に通知する第2の監視部と、
を備え、
前記第2の処理装置は、
第1の管理部と、
前記第2の監視部および前記第1の管理部の異常を監視して監視結果を前記第3の処理装置に通知すると共に、前記第2の監視部から通知される監視結果をさらに前記第3の処理装置に通知する第3の監視部と、
を備え、
前記第3の処理装置は、
第2の管理部と、
前記第3の監視部および前記第2の管理部の異常を監視して監視結果を得ると共に、前記第3の監視部から通知される監視結果を新たな監視結果とする第4の監視部と、
前記第2の管理部および前記第4の監視部の監視結果を出力する出力部と、
を備え、
前記第1の管理部は、前記第1の監視部にヘルスチェックイベントの発行を依頼し、前記第1の監視部から一定時間内に前記ヘルスチェックイベントの通知があるか否かを判定し、判定結果を前記第2の管理部に発行し、
前記第1の監視部は、前記ヘルスチェックイベントを前記第1の管理部に発行し、
前記第2の管理部は、所定時間内に前記判定結果が得られない場合には、前記第1の管理部における定期通報が未着である旨のイベントを異常を表す監視結果として前記出力部に発行することを特徴とする監視システム。 A first, second, and third information processing device group including first, second, and third processing devices, respectively;
The third processing device monitors the second processing device, and the second processing device is a monitoring system that monitors the first processing device,
The first processing device includes:
A first monitoring unit that monitors an object to be monitored;
The second monitoring unit monitors the abnormality of the first monitoring unit and notifies the second processing device of the monitoring result, and notifies the second processing unit of the monitoring result of the object in the first monitoring unit. The monitoring section of
With
The second processing device includes:
A first management unit;
An abnormality in the second monitoring unit and the first management unit is monitored and a monitoring result is notified to the third processing device, and a monitoring result notified from the second monitoring unit is further added to the third monitoring unit. A third monitoring unit for notifying the processing device;
With
The third processing device includes:
A second manager,
A fourth monitoring unit that monitors the abnormality of the third monitoring unit and the second management unit to obtain a monitoring result, and uses the monitoring result notified from the third monitoring unit as a new monitoring result; ,
An output unit for outputting a monitoring result of the second management unit and the fourth monitoring unit;
With
The first management unit requests the first monitoring unit to issue a health check event, determines whether or not there is a notification of the health check event within a predetermined time from the first monitoring unit, The determination result is issued to the second management unit,
The first monitoring unit issues the health check event to the first management unit,
If the determination result is not obtained within a predetermined time, the second management unit outputs an event indicating that the regular notification in the first management unit has not arrived as a monitoring result indicating an abnormality. Monitoring system characterized by being issued to.
前記第1の管理部は、前記第5の監視部における監視結果をさらに前記第2の管理部に通知することを特徴とする請求項1記載の監視システム。 The third processing apparatus further includes a fifth monitoring unit that monitors the abnormality of the fourth monitoring unit and notifies the first management unit of a monitoring result,
The monitoring system according to claim 1, wherein the first management unit further notifies the second management unit of a monitoring result in the fifth monitoring unit.
前記第1の監視部の監視結果を前記第1の管理部に転送する第1の転送部と、
前記第2の監視部および前記第1の転送部の異常を監視する第6の監視部と、
を備える第4の処理装置を含み、
前記第1の管理部は、前記第1の転送部からの監視結果をさらに前記第2の管理部に通知し、
前記第3の監視部は、前記第6の監視部の異常をさらに監視することを特徴とする請求項1または3記載の監視システム。 The second information processing device group includes:
A first transfer unit that transfers a monitoring result of the first monitoring unit to the first management unit;
A sixth monitoring unit for monitoring an abnormality of the second monitoring unit and the first transfer unit;
A fourth processing device comprising:
The first management unit further notifies the second management unit of a monitoring result from the first transfer unit,
The monitoring system according to claim 1, wherein the third monitoring unit further monitors an abnormality of the sixth monitoring unit.
前記第1の監視部は、前記ヘルスチェックイベントを前記第1の転送部に発行し、
前記第2の管理部は、所定時間内に前記判定結果が得られない場合には、前記第1の管理部における定期通報が未着である旨のイベントを異常を表す監視結果として前記出力部に発行することを特徴とする請求項4記載の監視システム。 The first management unit determines whether or not there is a notification of the health check event within a predetermined time from the first transfer unit, and issues a determination result to the second management unit,
The first monitoring unit issues the health check event to the first transfer unit,
If the determination result is not obtained within a predetermined time, the second management unit outputs an event indicating that the regular notification in the first management unit has not arrived as a monitoring result indicating an abnormality. The monitoring system according to claim 4, wherein the monitoring system is issued.
前記第2および第4の処理装置は、それぞれ1または2以上の前記第1の処理装置との間の通知機能及び監視機能を有することを特徴とする請求項4または6記載の監視システム。 The first information processing device group includes a plurality of the first processing devices,
The monitoring system according to claim 4 or 6, wherein each of the second and fourth processing devices has a notification function and a monitoring function with one or more of the first processing devices.
前記第2の情報処理装置群は、複数の第6の処理装置をさらに含み、
前記第6の処理装置のそれぞれは、
複数の前記第1の処理装置のいずれか1以上の前記第1の監視部の監視結果を転送する第2の転送部と、
複数の前記第1の処理装置のいずれか1以上の前記第2の監視部および前記第2の転送部を監視する第7の監視部と、
を備え、
前記第2の処理装置は、前記第1の処理装置の替わりに、前記複数の第6の処理装置のいずれかとの間の通知機能及び監視機能を有し、
前記第4の処理装置は、前記第1の処理装置の監視および前記第1の処理装置の監視結果の転送を行う替わりに、前記複数の第6の処理装置のいずれかの監視および監視結果の転送を行うことを特徴とする請求項4または6記載の監視システム。 The first information processing device group includes a plurality of the first processing devices,
The second information processing device group further includes a plurality of sixth processing devices,
Each of the sixth processing devices is
A second transfer unit that transfers a monitoring result of one or more of the first monitoring units of the plurality of first processing devices;
A seventh monitoring unit that monitors any one or more of the second monitoring unit and the second transfer unit of the plurality of first processing devices;
With
The second processing device has a notification function and a monitoring function with any of the plurality of sixth processing devices instead of the first processing device,
Instead of monitoring the first processing device and transferring the monitoring result of the first processing device, the fourth processing device monitors one of the plurality of sixth processing devices and 7. The monitoring system according to claim 4, wherein transfer is performed.
前記第7の処理装置のそれぞれは、
複数の前記第6の処理装置のいずれか1以上の前記第2の転送部の転送結果を転送する第3の転送部と、
複数の前記第6の処理装置のいずれか1以上の前記第7の監視部および前記第3の転送部を監視する第8の監視部と、
を備え、
前記第2の処理装置は、前記複数の第6の処理装置のいずれかの替わりに、前記複数の第7の処理装置のいずれかとの間の通知機能及び監視機能を有し、
前記第4の処理装置は、前記複数の第6の処理装置のいずれかの監視および監視結果の転送を行う替わりに、前記複数の第7の処理装置のいずれかの監視および監視結果の転送を行うことを特徴とする請求項8記載の監視システム。 The second information processing device group further includes a plurality of seventh processing devices,
Each of the seventh processing devices is
A third transfer unit that transfers a transfer result of one or more of the second transfer units of a plurality of the sixth processing devices;
An eighth monitoring unit that monitors any one or more of the seventh monitoring unit and the third transfer unit of the plurality of sixth processing devices;
With
The second processing device has a notification function and a monitoring function with any of the plurality of seventh processing devices instead of any of the plurality of sixth processing devices,
Instead of performing monitoring and transfer of monitoring results of the plurality of sixth processing devices, the fourth processing device performs monitoring and transfer of monitoring results of the plurality of seventh processing devices. The monitoring system according to claim 8, wherein the monitoring system is performed.
前記第1の処理装置において、
被監視対象とされるオブジェクトを監視する第1の監視ステップと、
前記第1の監視ステップにおける異常を監視して監視結果を前記第2の処理装置に通知すると共に、前記第1の監視ステップにおける前記オブジェクトの監視結果を前記第2の処理装置に通知する第2の監視ステップと、
を含み、
前記第2の処理装置において、
第1の管理ステップと、
前記第2の監視ステップおよび前記第1の管理ステップにおける異常を監視して監視結果を前記第3の処理装置に通知すると共に、前記第2の監視ステップにおいて通知される監視結果をさらに前記第3の処理装置に通知する第3の監視ステップと、
を含み、
前記第3の処理装置において、
第2の管理ステップと、
前記第3の監視ステップおよび前記第2の管理ステップにおける異常を監視して監視結果を得ると共に、前記第3の監視ステップにおいて通知される監視結果を新たな監視結果とする第4の監視ステップと、
前記第2の管理ステップおよび前記第4の監視ステップの監視結果を出力する出力ステップと、
を含み、
前記第1の管理ステップにおいて、前記第1の監視ステップに対しヘルスチェックイベントの発行を依頼するし、前記第1の監視ステップの後に一定時間内に前記ヘルスチェックイベントの通知があるか否かを判定し、判定結果を前記第2の管理ステップに発行し、
前記第1の監視ステップにおいて、前記ヘルスチェックイベントを前記第1の管理ステップに発行し、
前記第2の管理ステップにおいて、所定時間内に前記判定結果が得られない場合には、前記第1の管理ステップにおける定期通報が未着である旨のイベントを異常を表す監視結果として前記出力ステップに発行することを特徴とする監視方法。 First, second, and third information processing device groups each including a first, second, and third processing device are provided, the third processing device monitors the second processing device, and The processing apparatus 2 is a monitoring method in a monitoring system for monitoring the first processing apparatus,
In the first processing apparatus,
A first monitoring step for monitoring an object to be monitored;
Secondly, the abnormality in the first monitoring step is monitored and the monitoring result is notified to the second processing device, and the monitoring result of the object in the first monitoring step is notified to the second processing device. Monitoring steps,
Including
In the second processing apparatus,
A first management step;
An abnormality in the second monitoring step and the first management step is monitored and a monitoring result is notified to the third processing device, and a monitoring result notified in the second monitoring step is further transmitted to the third monitoring device. A third monitoring step for notifying the processing device;
Including
In the third processing apparatus,
A second management step;
A fourth monitoring step in which an abnormality in the third monitoring step and the second management step is monitored to obtain a monitoring result, and the monitoring result notified in the third monitoring step is a new monitoring result; ,
An output step for outputting monitoring results of the second management step and the fourth monitoring step;
Including
In the first management step, the first monitoring step is requested to issue a health check event, and whether or not there is a notification of the health check event within a certain time after the first monitoring step. Determine and issue a determination result to the second management step;
Issuing the health check event to the first management step in the first monitoring step;
In the second management step, when the determination result is not obtained within a predetermined time, the output step is performed with the event that the regular notification in the first management step is not received as a monitoring result indicating abnormality. The monitoring method characterized by issuing to.
前記第1の監視ステップにおける監視結果が正常であるか否かを判断するステップと、
前記第1の監視ステップにおける監視結果を異常と判断した場合には、前記第1の監視ステップにおいてダウンしていることを表すイベントを発行するステップと、
前記第1の監視ステップにおけるプロセスの再起動を試み、一定時間内に起動すれば、前記第1の監視ステップにおける再起動成功のイベントを前記第3の監視ステップに対し発行するステップと、
一定時間内に起動しなかった場合には、前記第1の監視ステップにおける再起動失敗のイベントを前記第3の監視ステップに対し発行するステップと、
を含むことを特徴とする請求項10記載の監視方法。 The second monitoring step includes
Determining whether the monitoring result in the first monitoring step is normal;
If it is determined that the monitoring result in the first monitoring step is abnormal, issuing an event indicating that it is down in the first monitoring step;
Attempting to restart the process in the first monitoring step and issuing a successful restart event in the first monitoring step to the third monitoring step if started within a certain time;
Issuing a restart failure event in the first monitoring step to the third monitoring step if it has not started within a predetermined time;
The monitoring method according to claim 10, further comprising:
前記第1の管理ステップにおいて、前記第5の監視ステップにおける監視結果をさらに前記第2の管理ステップに対して通知することを特徴とする請求項10記載の監視方法。 The third processing device includes a fifth monitoring step of monitoring an abnormality in the fourth monitoring step and notifying a monitoring result to the first management step;
The monitoring method according to claim 10, wherein in the first management step, a monitoring result in the fifth monitoring step is further notified to the second management step.
前記第4の処理装置が、前記第1の監視ステップの監視結果を前記第1の管理ステップに対して転送する第1の転送ステップと、
前記第4の処理装置が、前記第2の監視ステップおよび前記第1の転送ステップにおける異常を監視する第6の監視ステップと、
を含み、
前記第1の管理ステップにおいて、前記第1の転送ステップからの監視結果をさらに前記第2の管理ステップに通知するステップと、
前記第3の監視ステップにおいて、前記第6の監視ステップにおける異常をさらに監視するステップと、
を含むことを特徴とする請求項12記載の監視方法。 The second information processing device group further includes a fourth processing device,
A first transfer step in which the fourth processing device transfers a monitoring result of the first monitoring step to the first management step;
A sixth monitoring step in which the fourth processing device monitors an abnormality in the second monitoring step and the first transfer step;
Including
In the first management step, further notifying the monitoring result from the first transfer step to the second management step;
In the third monitoring step, further monitoring the abnormality in the sixth monitoring step;
The monitoring method according to claim 12, further comprising:
前記第1の転送ステップの後、一定時間内に前記ヘルスチェックイベントの通知があるか否かを判定し、判定結果を前記第2の管理ステップに発行し、
前記第1の監視ステップにおいて、前記ヘルスチェックイベントを前記第1の転送ステップに発行し、
前記第2の管理ステップにおいて、所定時間内に前記判定結果が得られない場合には、前記第1の管理ステップにおける定期通報が未着である旨のイベントを異常を表す監視結果として前記出力ステップに発行することを特徴とする請求項13記載の監視方法。 In the first management step,
After the first transfer step, determine whether there is a notification of the health check event within a certain time, issue a determination result to the second management step,
Issuing the health check event to the first transfer step in the first monitoring step;
In the second management step, when the determination result is not obtained within a predetermined time, the output step is performed with the event that the regular notification in the first management step is not received as a monitoring result indicating abnormality. The monitoring method according to claim 13, wherein the monitoring method is issued.
前記第5の処理装置において、前記第4の処理装置との間の通知機能及び監視機能を有することを特徴とする請求項13記載の監視方法。 The third information processing device group further includes a fifth processing device configured similarly to the third processing device,
The monitoring method according to claim 13, wherein the fifth processing apparatus has a notification function and a monitoring function with the fourth processing apparatus.
前記第2および第4の処理装置において、それぞれ1または2以上の前記第1の処理装置との間の通知機能及び監視機能を有することを特徴とする請求項13または15記載の監視方法。 The first information processing device group includes a plurality of the first processing devices,
The monitoring method according to claim 13 or 15, wherein each of the second and fourth processing devices has a notification function and a monitoring function with respect to one or more of the first processing devices.
前記第2の情報処理装置群は、複数の第6の処理装置をさらに含み、
前記第6の処理装置のそれぞれが、複数の前記第1の処理装置のいずれか1以上における前記第1の監視ステップの監視結果を転送する第2の転送ステップと、
前記第6の処理装置のそれぞれが、複数の前記第1の処理装置のいずれか1以上における前記第2の監視ステップおよび前記第2の転送ステップを監視する第7の監視ステップと、
を含み、
前記第2の処理装置が、前記第1の処理装置の替わりに、前記複数の第6の処理装置のいずれかとの間の通知機能及び監視機能を有し、
前記第4の処理装置が、前記第1の処理装置の監視および前記第1の処理装置の監視結果の転送を行う替わりに、前記複数の第6の処理装置のいずれかの監視および監視結果の転送を行うことを特徴とする請求項13または15記載の監視方法。 The first information processing device group includes a plurality of the first processing devices,
The second information processing device group further includes a plurality of sixth processing devices,
A second transfer step in which each of the sixth processing devices transfers a monitoring result of the first monitoring step in any one or more of the plurality of first processing devices;
A seventh monitoring step in which each of the sixth processing devices monitors the second monitoring step and the second transfer step in any one or more of the plurality of first processing devices;
Including
The second processing device has a notification function and a monitoring function with any of the plurality of sixth processing devices instead of the first processing device,
Instead of monitoring the first processing device and transferring the monitoring result of the first processing device, the fourth processing device monitors the monitoring and monitoring results of any of the plurality of sixth processing devices. 16. The monitoring method according to claim 13, wherein transfer is performed.
前記第7の処理装置のそれぞれが、複数の前記第6の処理装置のいずれか1以上における前記第2の転送ステップにおける転送結果を転送する第3の転送ステップと、
前記第7の処理装置のそれぞれが、複数の前記第6の処理装置のいずれか1以上における前記第7の監視ステップおよび前記第3の転送ステップにおける監視を行う第8の監視ステップと、
を含み、
前記第2の処理装置が、前記複数の第6の処理装置のいずれかの替わりに、前記複数の第7の処理装置のいずれかとの間の通知機能及び監視機能を有し、
前記第4の処理装置が、前記複数の第6の処理装置のいずれかの監視および監視結果の転送を行う替わりに、前記複数の第7の処理装置のいずれかの監視および監視結果の転送を行うことを特徴とする請求項17記載の監視方法。 The second information processing device group further includes a plurality of seventh processing devices,
A third transfer step in which each of the seventh processing devices transfers a transfer result in the second transfer step in any one or more of the sixth processing devices;
An eighth monitoring step in which each of the seventh processing devices performs monitoring in the seventh monitoring step and the third transfer step in any one or more of the plurality of sixth processing devices;
Including
The second processing device has a notification function and a monitoring function with any of the plurality of seventh processing devices instead of any of the plurality of sixth processing devices,
Instead of performing monitoring and monitoring result transfer of any of the plurality of sixth processing devices, the fourth processing device performs monitoring and transfer of the monitoring result of any of the plurality of seventh processing devices. The monitoring method according to claim 17, wherein the monitoring method is performed.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007057347A JP4848979B2 (en) | 2007-03-07 | 2007-03-07 | Monitoring system, monitoring method and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2007057347A JP4848979B2 (en) | 2007-03-07 | 2007-03-07 | Monitoring system, monitoring method and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008217682A JP2008217682A (en) | 2008-09-18 |
| JP4848979B2 true JP4848979B2 (en) | 2011-12-28 |
Family
ID=39837615
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2007057347A Expired - Fee Related JP4848979B2 (en) | 2007-03-07 | 2007-03-07 | Monitoring system, monitoring method and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4848979B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2011072662A1 (en) | 2009-12-18 | 2011-06-23 | Conti Temic Microelectronic Gmbh | Monitoring computer in a control device |
| JP6562980B2 (en) * | 2017-07-27 | 2019-08-21 | キヤノン株式会社 | System, system control method, information processing apparatus, information processing apparatus control method, and program |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH0612289A (en) * | 1992-06-26 | 1994-01-21 | Nec Corp | Centralized supervisory and controlling system |
| JP2006107080A (en) * | 2004-10-05 | 2006-04-20 | Hitachi Ltd | Storage device system |
-
2007
- 2007-03-07 JP JP2007057347A patent/JP4848979B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2008217682A (en) | 2008-09-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP5747615B2 (en) | Communication system and communication method | |
| KR101888029B1 (en) | Method and system for monitoring virtual machine cluster | |
| US6859889B2 (en) | Backup system and method for distributed systems | |
| JP6095140B2 (en) | Remote monitoring system, remote monitoring method, and program | |
| JP6595861B2 (en) | Information processing apparatus, log acquisition method, and log acquisition program | |
| JP6317074B2 (en) | Failure notification device, failure notification program, and failure notification method | |
| JP4848979B2 (en) | Monitoring system, monitoring method and program | |
| JP2009211279A (en) | Handling data management server system | |
| JP2006154991A (en) | Information processing system, information processing system control method, monitoring device, monitoring program, maintenance management program | |
| JP3325785B2 (en) | Computer failure detection and recovery method | |
| JP2016200961A (en) | Server failure monitoring system | |
| KR100566610B1 (en) | automatic disaster recovery system and recovery method thereof | |
| WO2011114834A1 (en) | Network device and network apparatus | |
| JP2000112847A (en) | Client server system and client operation monitoring method | |
| JP2007280155A (en) | Reliability improvement method in distributed system | |
| JP5029697B2 (en) | Server system of operation system | |
| JP5691248B2 (en) | Task takeover program, processing device, and computer system | |
| JP2008204113A (en) | Network monitoring system | |
| JP2008040750A (en) | Remote monitoring control device and system | |
| JP2013003956A (en) | Failure recovery management device, failure recovery management method, and failure recovery management program | |
| JPH06290126A (en) | Computer system failure monitoring method | |
| JP4459185B2 (en) | Computer system | |
| JP2009230458A (en) | Configuration check system | |
| JP2010055509A (en) | System, method, and program for fault recovery, and cluster system | |
| JP2007041646A (en) | Client-server system, management method and management program thereof |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100212 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101214 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110214 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110509 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20110531 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110829 |
|
| A911 | Transfer of reconsideration by examiner before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110901 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110920 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111003 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141028 Year of fee payment: 3 |
|
| LAPS | Cancellation because of no payment of annual fees |