JP6149549B2 - Monitoring system and monitoring program - Google Patents
Monitoring system and monitoring program Download PDFInfo
- Publication number
- JP6149549B2 JP6149549B2 JP2013138960A JP2013138960A JP6149549B2 JP 6149549 B2 JP6149549 B2 JP 6149549B2 JP 2013138960 A JP2013138960 A JP 2013138960A JP 2013138960 A JP2013138960 A JP 2013138960A JP 6149549 B2 JP6149549 B2 JP 6149549B2
- Authority
- JP
- Japan
- Prior art keywords
- capture
- packet
- information
- execution
- monitored device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012544 monitoring process Methods 0.000 title claims description 51
- 238000004458 analytical method Methods 0.000 claims description 40
- 238000012360 testing method Methods 0.000 claims description 24
- 230000004044 response Effects 0.000 claims description 20
- 238000009825 accumulation Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 96
- 238000012806 monitoring device Methods 0.000 description 46
- 238000012423 maintenance Methods 0.000 description 28
- 230000033458 reproduction Effects 0.000 description 24
- 238000004891 communication Methods 0.000 description 22
- 238000000034 method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 10
- 238000001514 detection method Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000001914 filtration Methods 0.000 description 4
- 238000002955 isolation Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 102100022183 E3 ubiquitin-protein ligase MIB1 Human genes 0.000 description 1
- 102100022199 E3 ubiquitin-protein ligase MIB2 Human genes 0.000 description 1
- 101000973503 Homo sapiens E3 ubiquitin-protein ligase MIB1 Proteins 0.000 description 1
- 101000973495 Homo sapiens E3 ubiquitin-protein ligase MIB2 Proteins 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、監視システム及び監視プログラムに関し、例えば、SNMP(Simple Network Management Protocol)アーキテクチャを利用して、サーバやネットワーク機器等を監視する監視システム及び監視プログラムに適用し得るものである。 The present invention relates to a monitoring system and a monitoring program. For example, the present invention can be applied to a monitoring system and a monitoring program for monitoring a server, a network device, and the like using an SNMP (Simple Network Management Protocol) architecture.
従来、ネットワーク上の装置の運用状態を監視する監視システムの1つとして、SNMPプロトコルを用いるものがある。監視対象とする被監視装置がSNMPプロトコルに対応している場合、監視装置は、被監視装置からTRAPの受信、あるいは定期的にSNMPエージェントの管理情報(例えば、MIB(Manegement Information Base)情報等)をポーリングにより取得することで被監視装置の状態変化を監視している。 2. Description of the Related Art Conventionally, there is a system that uses the SNMP protocol as one of monitoring systems that monitor the operational status of devices on a network. When the monitored device to be monitored is compatible with the SNMP protocol, the monitoring device receives TRAP from the monitored device or periodically manages SNMP agent management information (for example, MIB (Management Information Base) information). Is monitored by polling to monitor the status change of the monitored device.
SNMPはUDP/IPプロトコルで通信するため、SNMPマネージャとSNMPエージェントとの間のデータ通信が保証されておらず、稀に、例えばSNMPのパケットロスが発生し、TRAPの不達や、MIB情報の取得エラー等が生じ得る。 Since SNMP communicates with the UDP / IP protocol, data communication between the SNMP manager and the SNMP agent is not guaranteed. In rare cases, for example, an SNMP packet loss occurs, TRAP fails, MIB information An acquisition error or the like may occur.
パケットロスの発生原因は、例えば、被監視装置の故障や、被監視装置に搭載されるOSやアプリケーションのバグや、ネットワークの問題等、被疑範囲が広く、ログ解析だけでは特定することが困難な場合が多い。そのため、被疑箇所を特定する手段として、パケットキャプチャによるトラフィック解析がログ解析と併せて用いられる。 The cause of packet loss has a wide range of suspicions, such as a failure of the monitored device, a bug in the OS or application installed in the monitored device, a network problem, etc., and is difficult to identify by log analysis alone. There are many cases. Therefore, traffic analysis by packet capture is used in combination with log analysis as means for identifying the suspected location.
つまり、監視装置と、被監視装置との間の経路上の装置・機器を通過するSNMPパケットをキャプチャする。そして、障害発生時と同様の問題事象が再現されたときに、保守者が、キャプチャ情報からパケットロス発生箇所を解析することで被疑箇所を特定する。 That is, an SNMP packet that passes through a device / device on the path between the monitoring device and the monitored device is captured. Then, when a problem event similar to that at the time of the occurrence of the failure is reproduced, the maintenance person identifies the suspected location by analyzing the packet loss occurrence location from the capture information.
図2は、従来のパケットキャプチャによるトラフィック解析手順を示すフローチャートである。 FIG. 2 is a flowchart showing a traffic analysis procedure by conventional packet capture.
従来、パケットロス等の障害が発生すると、保守者が障害ログから1次切り分けを行い、保守者がパケットキャプチャの準備を行う(S91)。具体的には、保守者が、障害ログを調査して、トラフィック監視に係る被監視装置やフィルタリング条件(例えば、LANインタフェース、ポート番号等)を決定する。 Conventionally, when a failure such as packet loss occurs, the maintenance person performs primary isolation from the failure log, and the maintenance person prepares for packet capture (S91). Specifically, the maintenance person investigates the failure log and determines a monitored device and a filtering condition (for example, a LAN interface, a port number, etc.) related to traffic monitoring.
保守者は、監視対象とする被監視装置にターミナルソフト等を利用してリモート接続し、S91で決定した実行条件に従ってパケットキャプチャを実行する。これにより、SNMPパケットのパケット情報の収集開始を行う(S92)。 The maintenance person remotely connects to the monitored apparatus to be monitored using terminal software or the like, and executes packet capture according to the execution conditions determined in S91. Thereby, collection of the packet information of the SNMP packet is started (S92).
つまり、SNMPマネージャとSNMPエージェントとの間の通信経路上のネットワーク機器の通信ポートを通過するパケットのパケット情報を取得する。また、SNMPエージェントを備える被監視装置からパケット情報を取得するだけなく、SNMPマネージャとSNMPエージェントとの間の経路上のネットワーク機器(例えばルータ等)の通信ポートを通過したパケット情報も取得する。 That is, the packet information of the packet passing through the communication port of the network device on the communication path between the SNMP manager and the SNMP agent is acquired. Further, not only the packet information is acquired from the monitored device including the SNMP agent, but also the packet information that has passed through the communication port of the network device (for example, router) on the path between the SNMP manager and the SNMP agent is acquired.
保守者は、問題事象と同様の事象が発生するまで継続して被監視装置やネットワーク機器等を監視する。なお、問題事象が発生しない場合、想定される原因に基づいて再現試験を行う場合もある(S93)。 The maintenance person continuously monitors monitored devices and network devices until an event similar to the problem event occurs. If no problem event occurs, a reproduction test may be performed based on an assumed cause (S93).
保守者は、監視対象とする被監視装置にターミナルソフト等を利用してリモート接続し、S92で実行したパケットキャプチャを停止する(S94)。 The maintenance person remotely connects to the monitored device to be monitored using terminal software or the like, and stops the packet capture executed in S92 (S94).
その後、保守者がパケットキャプチャにより収集したパケット情報から問題事象が発生した時刻のパケット伝送状況を解析することで、パケットロスが発生した装置、ネットワーク区間を切り分ける(S95)。 After that, by analyzing the packet transmission status at the time when the problem event occurs from the packet information collected by the packet capture by the maintenance person, the apparatus and the network section where the packet loss has occurred are separated (S95).
特許文献1の記載技術は、ネットワーク構築時・施工時の障害解析に関するものであり、パケットキャプチャ部が受信ポートで受信する通信線上の通信データからパケットデータを取り込み、通信接続/切断判断部が接続状態判断用テーブルに基づいて正常又は異常を判断し、保守者が、GUI部を通じて判断結果を表示するものである。
The technology described in
しかしながら、上述した従来のパケットキャプチャによるトラフィック解析方法は、以下に示すような問題が生じ得る。 However, the above-described conventional traffic analysis method using packet capture may cause the following problems.
まず、パケットキャプチャを実行する場合、保守者が障害ログから1次切り分けし、キャプチャする装置やフィルタリング条件を判断するため、準備に時間がかかるという問題がある。 First, when executing packet capture, there is a problem in that preparation takes time because a maintenance person first classifies from a failure log and determines a device to be captured and a filtering condition.
また、問題事象が再現されるまで、パケットキャプチャを実行した場合、大量のパケット情報がファイルに出力されるため、常にファイル出力先のディスク容量を監視し、且つ、問題が再現したら、すみやかにパケットキャプチャを停止する必要がある。そのため、保守者はディスク容量監視と問題再現監視を常に行わなければならないという問題がある。 Also, if packet capture is executed until the problem event is reproduced, a large amount of packet information is output to the file, so the disk capacity of the file output destination is always monitored, and if the problem is reproduced, the packet is promptly You need to stop the capture. Therefore, there is a problem that the maintenance person must always perform disk capacity monitoring and problem reproduction monitoring.
さらに、トラフィック解析を行う際、保守者は大量に出力されたパケット情報から障害解析を行わなければならないため、被疑箇所の特定までに非常に時間がかかるという問題がある。 Furthermore, when performing traffic analysis, the maintenance person must perform failure analysis from a large amount of output packet information, which causes a problem that it takes a very long time to identify a suspected place.
特許文献1の記載技術を適用する場合も、保守者が、パケットキャプチャの開始又は停止命令を行なう必要が生じる。また、特許文献1の記載技術は、通信対象機器、および、通信経路上のネットワーク機器の間の障害の切り分けを実施できないという同様の課題がある。
Even when the technique described in
そのため、障害発生を契機に自動的にパケットキャプチャの実行開始又は停止を行うことができ、収集された大量のパケット情報から自動的に被疑箇所を解析することができる監視システム及び監視プログラムが求められている。 Therefore, there is a need for a monitoring system and a monitoring program that can automatically start or stop the execution of packet capture when a failure occurs, and that can automatically analyze a suspected location from a large amount of collected packet information. ing.
上述した課題を解決するために、第1の本発明は、(1)1又は複数の被監視装置のそれぞれから状態管理パケットを取得して、各被監視装置の状態を管理する状態管理手段と、(2)状態管理手段により障害が検出されると、状態管理手段から当該障害に係る被監視装置までの、複数の経由装置から状態管理パケットのパケット情報の収集を開始し、収集したパケット情報に基づいて被疑箇所を解析するものであり、障害事象の再現試験の実行回数又は再現試験の実行時間に基づいてパケット情報の収集を停止するキャプチャ制御手段とを備えることを特徴とする監視システムである。 In order to solve the above-described problem, the first aspect of the present invention is (1) a state management unit that acquires a state management packet from each of one or a plurality of monitored devices and manages the state of each monitored device; (2) When a failure is detected by the state management unit, collection of packet information of the state management packet is started from a plurality of relay devices from the state management unit to the monitored device related to the failure, and the collected packet information And a capture control means for stopping the collection of packet information based on the number of times of execution of the failure event reproduction test or the execution time of the reproduction test. is there.
第2の本発明は、コンピュータを、(1)1又は複数の被監視装置のそれぞれから状態管理パケットを取得して、各被監視装置の状態を管理する状態管理手段と、(2)状態管理手段により障害が検出されると、状態管理手段から当該障害に係る被監視装置までの、複数の経由装置から状態管理パケットのパケット情報の収集を開始し、収集したパケット情報に基づいて被疑箇所を解析するものであり、障害事象の再現試験の実行回数又は再現試験の実行時間に基づいてパケット情報の収集を停止するキャプチャ制御手段として機能させることを特徴とする監視プログラムである。 According to a second aspect of the present invention, there is provided: (1) a state management unit that acquires a state management packet from each of one or a plurality of monitored devices and manages the state of each monitored device; When a failure is detected by the means, collection of the packet information of the state management packet from a plurality of transit devices from the state management means to the monitored device related to the failure is started, and the suspected location is determined based on the collected packet information. The monitoring program is to be analyzed and to function as capture control means for stopping the collection of packet information based on the number of times of execution of the failure event reproduction test or the execution time of the reproduction test.
本発明によれば、障害発生を契機に自動的にパケットキャプチャの実行開始又は停止を行うことができ、収集された大量のパケット情報から自動的に被疑箇所を解析することができる。 According to the present invention, it is possible to automatically start or stop the execution of packet capture when a failure occurs, and to automatically analyze a suspected place from a large amount of collected packet information.
(A)主たる実施形態
以下では、本発明の監視システム及び監視プログラムの実施形態を、図面を参照しながら詳細に説明する。
(A) Main Embodiments Hereinafter, embodiments of a monitoring system and a monitoring program of the present invention will be described in detail with reference to the drawings.
この実施形態では、例えばSNMPを用いて監視装置が被監視装置の運用状態を監視するシステムにおいて、パケットロス等の障害が発生した際に、監視装置が自動的に経路上の装置や機器からパケット情報(SNMPパケット)を取得するパケットキャプチャを行い、障害発生箇所を解析するシステムに、本発明を適用する場合を例示する。 In this embodiment, for example, in a system in which the monitoring device monitors the operation state of the monitored device using SNMP, the monitoring device automatically sends a packet from a device or device on the path when a failure such as packet loss occurs. A case where the present invention is applied to a system that performs packet capture to acquire information (SNMP packet) and analyzes a failure occurrence point will be exemplified.
(A−1)実施形態の構成
図1は、実施形態に係る監視システムの全体的な構成イメージを示す構成図である。図1において、実施形態に係る監視システム10は、監視装置1、被監視装置2−1及び2−2を有する。
(A-1) Configuration of Embodiment FIG. 1 is a configuration diagram illustrating an overall configuration image of a monitoring system according to an embodiment. In FIG. 1, a
図1では、監視装置1の監視対象とする被監視装置が2台の場合を例示するが、被監視装置の数は特に限定されるものではない。なお、被監視装置の共通構成を説明する場合には、被監視装置2と表記して説明する。
Although FIG. 1 illustrates a case where there are two monitored devices to be monitored by the
また、図1では、監視装置1と被監視装置2−1及び2−2とがネットワーク5を介して接続している場合を例示し、監視装置1はネットワーク5上のルータ3−1と接続し、被監視装置2−1はネットワーク5上のルータ3−2と接続し、被監視装置2−3はネットワーク5上のルータ3−3と接続しているものとする。
FIG. 1 illustrates a case where the
被監視装置2は、監視装置1によりSNMPを用いて運用状態を監視されるものである。被監視装置2は、例えばCPU、ROM、RAM、EEPROM、入出力インタフェース部、通信部等を有するものであり、CPUが、ROMに格納される処理プログラムを実行してソフトウェア処理により、被監視装置2の機能を実現するものである。
The monitored
また、被監視装置2は、汎用OS(例えばLinux(登録商標)等)により構築されており、被監視装置2が具備するネットワークインタフェースのポートを通過するパケット情報をファイル(キャプチャファイル)に保持するものである。パケット情報のファイルには、キャプチャファイル名が付与されている。また、キャプチャファイルには、SNMPパケットのヘッダ情報や、SNMPのプロトコル情報、PDU Type(コマンドタイプ)、Request ID(コマンド識別子)等が記録される。つまり、キャプチャファイルには、通過したSNMPパケットのコマンドタイプやコマンド識別子等を含むものである。
The monitored
図1に示すように、被監視装置2は、機能的に、SNMPエージェント21、管理情報としてのMIB情報(図1ではMIBと表記)22を有している。
As shown in FIG. 1, the monitored
SNMPエージェント21は、後述するSNMPマネージャ13からのSNMPリクエストに応じて、MIB22を参照してSNMPレスポンスをSNMPマネージャ13に送信するものである。SNMPエージェント21は、既存のSNMPエージェントを適用することができる。
The
MIB22は、被監視装置2の状態を示す管理情報である。MIB22における管理情報は、例えば、RFC1156に規定される情報(MIB1)や、RFC1213に規定される情報(MIB2)や、独自に定義した情報とすることができる。
The
ルータ3−1〜3−3は、監視装置1と被監視装置2との間に介在するネットワーク機器の一例である。図1では、ネットワーク機器の一例としてルータ3−1〜3−3を例示しているが、監視装置1と被監視装置2との間のネットワーク機器であれば、ネットワーク機器がスイッチ装置等であっても良い。
The routers 3-1 to 3-3 are examples of network devices that are interposed between the
ネットワーク機器としてのルータ3−1〜3−3は、この実施形態において、監視装置1によるパケットキャプチャの対象装置となり得る。ネットワーク機器であるルータ3−1〜3−3は、パケットキャプチャの実行コマンドであるtcpdumpコマンドを実装していない。そのため、ルータ3−1〜3−3は、ポートミラーリング機能を有してキャプチャ情報(キャプチャファイル)を転送する。具体的には、ルータ3−1〜3−3はミラーポートを介してキャプチャ用装置32と接続している。また、ルータ3−1〜3−3は、特定の通信ポートを通過するパケットをコピーしてミラーポートに転送するポートミラーリング機能を有する。これにより、特定の通信ポートを通過するパケットを、ミラーポートを介してキャプチャ用装置32に転送することができる。
In this embodiment, the routers 3-1 to 3-3 as network devices can be packet capture target devices by the
キャプチャ用装置32は、監視装置1からのキャプチャ要求に従って、ルータ3−1〜3−3を通過するパケットのパケット情報を監視装置1に送信するものである。キャプチャ用装置32は、例えばOSとして汎用OS(例えばLinux(登録商標))とする情報処理装置(例えば、サーバ、パーソナルコンピュータ等)を適用することができる。
The
キャプチャ用装置32は、接続するルータ等のネットワーク機器のモニターポートからミラーポートに転送されたパケットのパケット情報をファイル(キャプチャファイル)として保持する。つまり、キャプチャ用装置32は、ネットワーク機器のモニターポートとミラーポートとを対応付けて管理しておき、どのモニターポートからポートミラーリングされたパケットであるかを管理する。
The
パケット情報のファイルには、キャプチャファイル名が付与されている。また、キャプチャファイルには、SNMPパケットのヘッダ情報や、SNMPのプロトコル情報、PDU Type(コマンドタイプ)、Request ID(コマンド識別子)等が記録される。つまり、キャプチャファイルには、通過したSNMPパケットのコマンドタイプやコマンド識別子等を含むものである。 A capture file name is given to the packet information file. Also, the header information of the SNMP packet, SNMP protocol information, PDU Type (command type), Request ID (command identifier), etc. are recorded in the capture file. That is, the capture file includes the command type and command identifier of the passed SNMP packet.
監視装置1は、SNMPを用いて監視対象である被監視装置2の運用状態を監視するものである。
The
また、監視装置1は、SNMPを用いた監視においてパケットロス等の障害が発生した際、当該監視装置1と被監視装置2との間の通信経路上に存在する装置・機器(以下、キャプチャ対象装置ともいう)の通信ポートを通過するSNMPパケットのパケット情報を取得(キャプチャ)し、監視装置1と被監視装置2との間の経路上で障害が発生したものと疑わしい箇所(被疑箇所)を解析する再現試験を行うものである。
In addition, when a failure such as packet loss occurs in monitoring using SNMP, the
監視装置1は、例えばGUI(Graphical User Interface)制御等により、保守端末14に対して、各被監視装置2のネットワークトラフィック情報、CPUやメモリの使用率、ハードウェアの稼働状況等の画面情報を与える。保守端末14に表示させる画面は、様々な表示形式を適用することができ、被監視装置2のネットワーク構成のマップ表示や、各装置状態の種類に応じてグラフ化表示等とすることができる。また、各被監視装置2の装置状態情報に応じて警告アラーム音の出力や表示色を変えて出力させるようにしても良い。
The
ここで、キャプチャ対象装置とは、監視装置から被監視装置までの間でパケット通信に関与する装置であって、被疑箇所の切り分けのためにパケット情報を取得する対象とする装置をいう。キャプチャ対象装置は、監視装置1及び被監視装置2を含むと共に、通信経路上に存在するネットワーク機器(例えば、ルータやスイッチ装置等)も含むものである。
Here, the capture target device is a device that is involved in packet communication between the monitoring device and the monitored device, and is a device that is a target for acquiring packet information for identifying a suspected location. The capture target device includes the
監視装置1は、例えばCPU、ROM、RAM、EEPROM、入出力インタフェース部、通信部等を有するものであり、CPUが、ROMに格納される処理プログラムを実行してソフトウェア処理により、監視装置1の機能を実現するものである。図1に示すように、監視装置1は、機能的に、被監視装置2のSNMPを用いて運用状態を管理するSNMPマネージャ13、監視アプリケーション12、キャプチャ制御部11を有する。
The
SNMPマネージャ13は、SNMPによって、ネットワーク上の被監視装置2の状態を管理するものである。SNMPマネージャ13は、既存のSNMPマネージャを適用することができる。
The
例えば、SNMPマネージャ13は、被監視装置2のSNMPエージェント21に対して、被監視装置2の状態を示す管理情報(MIB情報)の取得要求を行い、被監視装置2からのMIB情報に基づいて被監視装置2の状態を管理する。より具体的には、SNMPマネージャ13は、SNMPエージェント21から被監視装置2の状態(状態値)が設定状態(設定値)に達した旨を示すTRAPの受信や、被監視装置2のMIB情報22(被監視装置2のMIBに格納される全部又は一部のMIB情報)の取得などを行う。SNMPマネージャ13は、被監視部2から取得したMIB情報22に基づいて、ネットワークシステムに接続されている被監視装置2の稼働状況や、サービスの稼働状況、システムリソース(システムパフォーマンス)の状況、ネットワークトラフィック量、システムログに記録される特定のメッセージの有無、システムログの急激な増加(又は減少)等を管理する。
For example, the
監視アプリケーション12は、被監視装置2の状態を監視するアプリケーションである。監視アプリケーション12は、SNMPマネージャ13に対してMIB情報22の取得要求を指示したり、キャプチャ制御部11に対してパケット情報のキャプチャ要求を指示したりするものである。ここで、SNMPマネージャ13が被監視装置2に対してMIB情報22の取得要求を送信したが、SNMPマネージャ13が被監視装置2から応答を受信しない場合に、監視アプリケーション12は、障害検出と見做し、キャプチャ制御部11に対してキャプチャの実行要求を行う。
The
また、監視アプリケーション12は、例えば、SNMPマネージャ13により管理される被監視装置2の状態情報を保守端末14のディスプレイに表示させたり、被監視装置2との間の経路情報を表示したり、キャプチャ制御部11によりキャプチャされたパケット情報の収集結果を表示したり、被疑箇所を示したりするものである。
In addition, the
キャプチャ制御部11は、監視アプリケーション12からパケット情報のキャプチャの実行要求の通知を受けると、当該監視装置1と被監視装置2との間の経路上の装置・機器の通信ポートを通過するパケットのパケット情報を取得するキャプチャ処理の実行開始又は停止、キャプチャ情報の蓄積、キャプチャ情報の解析、問題事象の再現確認等を行うものである。
When the
図3は、実施形態に係るキャプチャ制御部11の機能的な構成を示す機能構成図である。
FIG. 3 is a functional configuration diagram illustrating a functional configuration of the
図3において、実施形態に係るキャプチャ制御部11は、キャプチャ制御機能部111、キャプチャ実行機能部112、キャプチャ蓄積機能部113、キャプチャ情報データベース114、キャプチャ解析機能部115、データベース116を有する。
3, the
キャプチャ制御機能部111は、キャプチャ制御部11が行う、キャプチャ実行機能、キャプチャ蓄積機能、キャプチャ解析機能の実行制御を行うものである。また、キャプチャ制御機能部111は、ユーザインタフェースである保守端末14と接続し、保守者操作による各種要求に対して応答する機能を有する。
The capture control function unit 111 performs execution control of the capture execution function, capture accumulation function, and capture analysis function performed by the
キャプチャ実行機能部112は、キャプチャ制御機能部111の制御の下、キャプチャ対象装置に対して、パケットキャプチャの実行開始及び停止を行うものである。
The capture
キャプチャ実行機能部112は、被監視装置2との間で監視制御パケットの送受信を確認することができるコマンドを用いてパケットキャプチャを行う。例えば、被監視装置2のOSが汎用OS(例えばLinux(登録商標)の場合)、キャプチャ実行機能部112は、OS標準で提供されるtcpdumpコマンドを用いることができる。勿論、tcpdumpコマンドに限定されるものではない。
The capture
また、キャプチャ実行機能部112は、パケットキャプチャによりキャプチャ対象装置からキャプチャファイルを収集するものである。このとき、キャプチャ実行機能部112は、収集したキャプチャファイルを一時的に保存用の記憶領域に保存するようにする。これは、後述するキャプチャ蓄積機能部113が、収集されたキャプチャファイルの内容から所定のテーブル形式のキャプチャ情報を形成してキャプチャ情報データベース114に蓄積するので、収集したキャプチャファイルを一時的に保持するためである。例えば、監視装置1のファイル保存用ディレクトリにキャプチャファイルを転送することで一時的にキャプチャファイルを保存することができる。
The capture
キャプチャ実行機能部112は、監視アプリケーション12から障害検出の通知を受けたことをトリガとしてパケットキャプチャの実行を開始する。
The capture
ここで、障害検出は、例えば、SNMPマネージャ13が被監視装置2に対してMIB情報22の取得要求を行ったが、SNMPマネージャ13が被監視装置2からの応答を受信しない場合とすることができる。より具体的には、SNMPマネージャ13が取得要求先である被監視装置2(SNMPエージェント21)のIPアドレスを保持しておき、SNMPマネージャ13がSNMPマネージャ21からの応答受信の有無を管理することで実現できる。監視アプリケーション12は、応答受信がない被監視装置2のIPアドレスを含む障害通知をキャプチャ制御機能部111に通知することでパケットキャプチャの実行を開始させることができる。このとき、例えば、被監視装置2への取得要求時から所定時間経過しても応答受信がない場合に障害検出としても良い。また、所定のリトライ回数を設定し、取得要求の回数がリトライ回数を超えた場合に障害検出としても良い。
Here, for example, the failure detection may be performed when the
キャプチャ蓄積機能部113は、キャプチャ制御機能部111の制御の下、キャプチャ実行機能部112により各キャプチャ対象装置から収集されたキャプチャファイルに保存されているパケット情報を読み出して、データベース116のキャプチャ情報テーブル54に蓄積するものである。キャプチャ蓄積機能部113は、キャプチャ実行機能部112によるパケットキャプチャが停止した後、キャプチャ制御機能部111からの指示に従って、キャプチャ情報の蓄積処理を開始する。
The capture
キャプチャ解析機能部115は、キャプチャ制御機能部111の制御の下、データベース116のキャプチャ情報テーブル54に蓄積されているパケット情報を解析して、パケットロス発生箇所を切り分けるものである。
The capture
データベース116は、パケットキャプチャの実行に必要な各種情報を記憶するものである。図3に示すように、データベース116は、経路情報テーブル51、装置情報テーブル52、フィルタ条件テーブル53、キャプチャ情報テーブル54、キャプチャ実行テーブル55を有する。
The
経路情報テーブル51は、監視装置1から被監視装置2までの間の経路上でパケットが経由する装置の一覧情報である。経路情報テーブル51は、キャプチャ実行機能部112がパケット情報をキャプチャするキャプチャ対象装置を決定する際に利用されるものである。つまり、障害通知に係る被監視装置2との間のトラフィック解析を行う際に、キャプチャ実行機能部112が、経路情報テーブル51を参照して当該被監視装置2までの経路上のキャプチャ対象装置を決定する。
The route information table 51 is list information of devices through which packets pass on the route from the
図4は、実施形態に係る経路情報テーブル51の構成例を示す構成図である。図4に示すように、経路情報テーブル51は、被監視装置2の識別情報(例えばIPアドレス)を示す項目「被監視装置」と、監視装置1から被監視装置2までの経路上で経由する全てのキャプチャ装置の識別情報をパケット伝送方向の順に登録した項目「経由装置1」〜「経由装置N(Nは整数)」とを対応付けたものである。項目「経由装置」に登録するデータは、例えば、予めコンフィグファイルに定義しておき、監視装置1の起動時に読み込むようにしても良いし、又は保守端末14のユーザインタフェースから登録するようにしても良い。例えば、図4の第1行目の例の場合、監視装置1から「被監視装置(IPアドレス):192.162.2.100」までの間の経由装置は、「経由装置1:192.168.0.1」、…、「経由装置N:192.162.2.10」であることを示す。
FIG. 4 is a configuration diagram illustrating a configuration example of the route information table 51 according to the embodiment. As illustrated in FIG. 4, the route information table 51 passes through an item “monitored device” indicating identification information (for example, an IP address) of the monitored
装置情報テーブル52は、パケット情報をキャプチャするキャプチャ対象装置が、被監視装置2であるか又はネットワーク機器(例えばルータやスイッチ装置等)であるかを認識するための情報である。
The device information table 52 is information for recognizing whether a capture target device that captures packet information is the monitored
図5は、実施形態に係る装置情報テーブル52の構成例を示す構成図である。図5に示すように、装置情報テーブル52は、装置の識別情報(例えばIPアドレス)を示す項目「装置」と、装置種別を示す項目「装置種類」と、項目「キャプチャ用装置」と、項目「モニターポート」と、項目「ミラーポート」とを対応付けたものである。 FIG. 5 is a configuration diagram illustrating a configuration example of the device information table 52 according to the embodiment. As illustrated in FIG. 5, the device information table 52 includes an item “device” indicating device identification information (for example, an IP address), an item “device type” indicating a device type, an item “capture device”, and an item. The “monitor port” is associated with the item “mirror port”.
ここで、項目「装置種類」は、装置(キャプチャ対象装置)が、被監視装置2であるか又はネットワーク機器であるかを示す情報である。例えば、「装置種類:1」は被監視装置2であることを示し、「装置種類:2」はネットワーク機器であることを示す。なお、「装置種類」の分類数は、被監視装置2とネットワーク機器の2種類に限定されるものではない。
Here, the item “device type” is information indicating whether the device (capture target device) is the monitored
また、キャプチャ対象装置がネットワーク機器の場合、ネットワーク機器はパケットキャプチャ機能がない。そのため、ネットワーク機器からパケットキャプチャを行うために、ネットワーク機器が有するポートミラーリング機能を利用し、キャプチャ用装置32上でキャプチャする必要がある。そのため、図5に示すように、追加情報として、キャプチャ用装置32のIPアドレスを示す項目「キャプチャ用装置」、ネットワーク機器の特定の通信ポートのモニターポート番号を示す項目「モニターポート番号」、ネットワーク機器の特定の通信ポートに対応するミラーポート番号を示す項目「ミラーポート」を有する。項目「キャプチャ用装置」と、項目「モニターポート」と、項目「ミラーポート」に登録するデータは、予めコンフィグファイルに定義しておき、監視装置1の起動時に読み込んでもよいし、保守端末14のユーザインタフェースから登録してもよい。
When the capture target device is a network device, the network device does not have a packet capture function. Therefore, in order to perform packet capture from a network device, it is necessary to capture on the
フィルタ条件テーブル53は、キャプチャ対象装置毎に、パケットキャプチャのフィルタリング条件を示す情報である。フィルタ条件テーブル53は、キャプチャ実行機能部112が、パケットキャプチャを行う際、tcpdumpコマンド実行時のパラメータ指定に利用する。
The filter condition table 53 is information indicating packet capture filtering conditions for each capture target device. The filter condition table 53 is used by the capture
図6は、実施形態に係るフィルタ条件テーブル53の構成例を示す構成図である。図6に示すように、フィルタ条件テーブル53は、項目「装置」、項目「LANインタフェース」、項目「プロトコル」、項目「ポート」、項目「キャプチャファイル名」を対応付けたものである。項目「装置」はキャプチャ対象装置の識別情報(例えばIPアドレス)である。項目「LANインタフェース」は、キャプチャ対象装置のLANインタフェース名である。項目「プロトコル」はキャプチャ対象装置からパケットキャプチャする際に利用するプロトコルであり、項目「ポート」は、キャプチャ対象装置からパケットキャプチャに利用するポート番号である。項目「キャプチャファイル名」は、キャプチャ対象装置から取得するキャプチャファイルのファイル名である。 FIG. 6 is a configuration diagram illustrating a configuration example of the filter condition table 53 according to the embodiment. As shown in FIG. 6, the filter condition table 53 associates an item “device”, an item “LAN interface”, an item “protocol”, an item “port”, and an item “capture file name”. The item “device” is identification information (for example, IP address) of the capture target device. The item “LAN interface” is the LAN interface name of the capture target device. The item “protocol” is a protocol used when capturing a packet from the capture target apparatus, and the item “port” is a port number used for packet capture from the capture target apparatus. The item “capture file name” is the file name of the capture file acquired from the capture target device.
フィルタ条件テーブル53において、キャプチャ対象装置がネットワーク機器の場合は、キャプチャ用装置でキャプチャするためのフィルタリング条件を設定する必要がある。フィルタ条件テーブル53の各項目に登録するデータは、予めコンフィグファイルに定義しておき、装置監視システム起動時に読み込んでもよいし、保守端末のユーザインタフェースから登録してもよい。 In the filter condition table 53, when the capture target device is a network device, it is necessary to set a filtering condition for capturing by the capture device. Data to be registered in each item of the filter condition table 53 may be defined in the configuration file in advance and read when the apparatus monitoring system is activated, or may be registered from the user interface of the maintenance terminal.
キャプチャ情報テーブル54は、キャプチャ蓄積機能部115により各キャプチャ対象装置から収集したキャプチャファイルに含まれるパケット情報を登録したものである。キャプチャ情報テーブル54に登録されるパケット情報は、キャプチャ解析機能部115によりパケットロス発生箇所の切り分けに利用される。
The capture information table 54 registers packet information included in the capture file collected from each capture target device by the capture
図7は、実施形態に係るキャプチャ情報テーブル54の構成例を示す構成図である。図7に示すように、キャプチャ情報テーブル54は、項目「装置」、項目「タイムスタンプ」、項目「PDUType(コマンドタイプ)」、項目「RequestID(コマンド識別子)」を対応付けたものである。 FIG. 7 is a configuration diagram illustrating a configuration example of the capture information table 54 according to the embodiment. As illustrated in FIG. 7, the capture information table 54 associates an item “device”, an item “time stamp”, an item “PDUType (command type)”, and an item “RequestID (command identifier)”.
図7において、項目「タイムスタンプ」は、キャプチャ対象装置が送信したパケット情報の送信時刻を示すものであり、例えば、(HH(時):MM(分):SS(秒).ミリ秒))が登録される。 In FIG. 7, the item “time stamp” indicates the transmission time of the packet information transmitted by the capture target device. For example, (HH (hour): MM (minute): SS (second). Millisecond)) Is registered.
また、項目「PDUType(コマンドタイプ)」は、SNMPで定義されているPDUType(コマンドタイプ)が登録される。つまり、キャプチャ対象装置から収集したパケット情報がどのPDUTypeに関する情報であるかを示す情報を登録する。例えば、「PDUType(コマンドタイプ)」に登録される「a0」はSNMPエージェント21にMIB情報の要求を示す「GetRequest」、「a1」は管理対象オブジェクトインスタンスの値を増加させながら、SNMPエージェントから全てのMIB情報を要求する「GetNextRequest」、「a2」はGetRequestコマンドやGetNextRequestコマンドに対する応答である「GetResponse」等を示す。
In the item “PDUType (command type)”, PDUType (command type) defined in SNMP is registered. That is, information indicating which PDUType the packet information collected from the capture target device is registered is registered. For example, “a0” registered in “PDUType (command type)” is “GetRequest” indicating a request for MIB information to the
項目「RequestID(コマンド識別子)」は、SNMPで定義されているSNMPパケットのRequestID(コマンド識別子)が登録される。つまり、キャプチャ対象装置から収集したパケット情報(SNMPパケット)のRequestIDが登録される。 In the item “RequestID (command identifier)”, a RequestID (command identifier) of an SNMP packet defined by SNMP is registered. That is, RequestID of packet information (SNMP packet) collected from the capture target device is registered.
キャプチャ実行テーブル55は、パケットキャプチャの実行状況及び解析結果(パケットロス発生箇所)を示す情報である。キャプチャ実行テーブル55は、パケットキャプチャの実行状況及び解析結果を管理するために利用する。 The capture execution table 55 is information indicating a packet capture execution status and an analysis result (packet loss occurrence location). The capture execution table 55 is used to manage the execution status and analysis result of packet capture.
図8は、実施形態に係るキャプチャ実行テーブル55の構成例を示す構成図である。図8に示すように、キャプチャ実行テーブル55は、項目「実行中フラグ」、被監視装置2の識別情報(例えばIPアドレス)を示す項目「被監視装置」、項目「問題再現回数」、項目「最大実行時間」、項目「キャプチャ開始時刻」、項目「キャプチャ終了時刻」、項目「解析結果」を対応付けたものである。
FIG. 8 is a configuration diagram illustrating a configuration example of the capture execution table 55 according to the embodiment. As shown in FIG. 8, the capture execution table 55 includes an item “execution flag”, an item “monitored device” indicating identification information (for example, an IP address) of the monitored
図8において、項目「実行中フラグ」は、被監視装置2に関連するパケットキャプチャが実行中であるか否かを示す情報である。例えば「実行中フラグ:1」はパケットキャプチャ実行中である旨を示し、「実行中フラグ:0」は実行中でない旨(終了した旨)を示す。
In FIG. 8, the item “execution flag” is information indicating whether or not a packet capture related to the monitored
項目「問題再現回数」は、被監視装置2に関するパケットキャプチャの停止条件であり、被監視装置2に関する障害発生通知の回数が登録される。項目「最大実行時間」は、キャプチャ開始時刻からの実行時間によりキャプチャ停止するための条件である。項目「キャプチャ開始時刻」、項目「キャプチャ終了時刻」は、パケットキャプチャの開始した時刻又は終了した時刻である。項目「解析結果」は、被監視装置2に関するパケットキャプチャの解析結果(パケットロス発生箇所)が登録される。例えば、項目「解析結果」には、パケットロスが発生した装置のIPアドレスが登録される。
The item “number of times of problem reproduction” is a condition for stopping packet capture related to the monitored
図8において、項目「実行中フラグ」、項目「監視対象装置」、項目「キャプチャ開始時刻」、項目「キャプチャ終了時刻」は、キャプチャ制御機能部111が登録又は更新する。項目「問題再現回数」、項目「最大実行時間」は、予めコンフィグファイルに定義しておき、キャプチャ制御機能部111がパケットキャプチャを開始する契機に読み込んで登録するようにしても良い。項目「解析結果」は、キャプチャ解析機能部115が解析結果を更新する。
In FIG. 8, the item “execution flag”, item “monitoring target device”, item “capture start time”, and item “capture end time” are registered or updated by the capture control function unit 111. The item “problem reproduction times” and the item “maximum execution time” may be defined in the configuration file in advance, and may be read and registered when the capture control function unit 111 starts packet capture. For the item “analysis result”, the capture
保守端末14は、監視装置1と接続して、監視装置1がSNMPにより監視した被監視装置2の状態結果や監視装置1がパケットキャプチャにより解析した障害発生箇所等の解析結果を表示したり、保守者操作により各種設定等を行ったりするものである。
The
(A−2)実施形態の動作
次に、この実施形態の監視システム10におけるSNMPパケットのキャプチャによる被疑箇所の解析処理の動作を、図面を参照しながら詳細に説明する。
(A-2) Operation of Embodiment Next, the operation of the suspected place analysis process by capturing the SNMP packet in the
図9は、実施形態に係る監視システム10におけるSNMPパケットのキャプチャによる被疑箇所の解析処理を説明する説明図である。
FIG. 9 is an explanatory diagram for explaining a suspected place analysis process by capturing an SNMP packet in the
図9は、実施形態に係る監視システム10における全体的な処理の流れを示しており、例えば、図9に記載の(a)等の記号は、以下で説明する各処理手順に対応する番号である。
FIG. 9 shows an overall processing flow in the
以下では、適宜、動作フローチャートを用いながら、実施形態の処理動作の処理手順を順番に説明する。 Hereinafter, the processing procedure of the processing operation according to the embodiment will be described in order using the operation flowchart as appropriate.
(a)障害発生の通知
まず、監視装置1において、SNMPマネージャ13が、被監視装置2に対して、SNMPによる管理情報の取得要求を行う。例えば、SNMPマネージャ13が、被監視装置2のSNMPエージェント21に対してMIB22の取得要求であるSNMPリクエストを送信する。監視アプリケーション12は、SNMPマネージャ13のSNMPリクエストに対するSNMPレスポンスの有無を監視しており、被監視装置2のSNMPエージェント21からSNMPレスポンスの受信があるか否かを確認する。
(A) Notification of Failure First, in the
そして、SNMPエージェント21からのSNMPレスポンスが受信されない場合、監視アプリケーション12は、当該被監視装置2に関する監視について障害が発生したと判断し、キャプチャ制御機能部111に対して障害発生通知を行う。
When the SNMP response from the
監視アプリケーション12は、SNMPリクエストに対するレスポンスがない場合、SNMPマネージャ13からSNMPリクエストの宛先IPアドレスを取得する。これにより、障害発生に係る被監視装置2を決定することができる。
When there is no response to the SNMP request, the
また、監視アプリケーション12は、決定した障害発生に係る被監視装置2のIPアドレスを含む情報を障害発生通知としてキャプチャ制御機能部111に与える。これにより、キャプチャ制御機能部111に対して、パケットキャプチャに係る被監視装置2を認識させることができる。
In addition, the
なお、ここでは、被監視装置2に対するMIB22の取得要求(SNMPリクエスト)のレスポンスがない場合に、障害検出とするが、障害検出はこれに限定されない。例えば、SNMPエージェント21がTRAPを送信すべきことをSNMPマネージャ13が認識している場合に、TRAP受信がないとき障害が発生したと判断するようにしても良い。
Here, the failure detection is performed when there is no response of the
(b)パケットキャプチャ開始/終了
監視アプリケーション12から障害発生通知を受けると、キャプチャ制御機能部111は、キャプチャ実行機能部112に対して、パケットキャプチャの開始要求又は終了要求を行う。
(B) Packet Capture Start / End Upon receiving a failure notification from the
キャプチャ制御機能部111は、図8のキャプチャ実行テーブル55の項目「実行中フラグ」を参照し、被監視装置2に対するパケットキャプチャが実行中であるか否かを確認することで、パケットキャプチャの開始要求を行うか判断する。
The capture control function unit 111 refers to the item “execution flag” in the capture execution table 55 in FIG. 8 and checks whether or not packet capture for the monitored
また、パケットキャプチャの終了要求は、被監視装置2に関する障害発生通知の回数が図8のキャプチャ実行テーブル55の項目「問題再現回数」に達した場合、又は、パケットキャプチャ開始からの実行時間が、図8のキャプチャ実行テーブル55の項目「最大実行時間」に達した場合に行われる。これにより、障害に係る問題事象の再現確率が低い場合でも、問題再現回数又は最大実行時間に応じて処理を停止させることができる。
The packet capture end request is sent when the number of failure occurrence notifications related to the monitored
なお、パケットキャプチャの終了要求は、項目「問題再現回数」又は項目「最大実行時間」のどちらか一方の条件を満たした場合に行うようにしても良い。 The packet capture end request may be issued when either of the items “problem reproduction count” or the item “maximum execution time” is satisfied.
例えば、項目「問題再現回数」を設定しないでおけば、項目「最大実行時間」のみの条件でパケットキャプチャの終了要求が行われるようにすることができる。 For example, if the item “number of times of problem reproduction” is not set, a packet capture end request can be made only under the condition of the item “maximum execution time”.
図10は、実施形態に係るキャプチャ制御機能部111によるパケットキャプチャの開始要求又は終了要求の処理を示すフローチャートである。 FIG. 10 is a flowchart illustrating processing of a packet capture start request or end request by the capture control function unit 111 according to the embodiment.
図10において、まず、キャプチャ制御機能部111は、パケットキャプチャの開始要求を行うか否かの判定をするために、図8のキャプチャ実行テーブル55の項目「実行中フラグ」を参照する。そして、障害発生通知に含まれる被監視装置2のIPアドレスを用いて、被監視装置2に対するパケットキャプチャが実行中であるか否かを確認する(S101)。パケットキャプチャの開始要求は、被監視対象2に対するパケットキャプチャが未実行であることが条件である。
In FIG. 10, first, the capture control function unit 111 refers to the item “execution flag” in the capture execution table 55 in FIG. 8 in order to determine whether or not to make a packet capture start request. Then, using the IP address of the monitored
図8のキャプチャ実行テーブル55の項目「実行中フラグ」が実行中の場合、
被監視装置2に対するパケットキャプチャが既に実行されているため、キャプチャ制御機能部111は、メモリに保持する問題再現カウンタの値をインクリメントする(S102)。そして、問題再現カウンタの値が図8のキャプチャ実行テーブル55の項目「問題再現回数」の設定値に達した場合(S103)、キャプチャ制御機能部111は、キャプチャ実行機能部112に対して、当該被監視装置2に対するパケットキャプチャの終了要求を行い(S104)、図8のキャプチャ実行テーブル55の項目「キャプチャ終了時刻」に終了時刻を記録する(S105)。なお、問題再現カウンタの値が図8のキャプチャ実行テーブル55の項目「問題再現回数」の設定値に達していない場合(S103)には、パケットキャプチャの終了要求は行わない。
When the item “execution flag” in the capture execution table 55 in FIG. 8 is being executed,
Since the packet capture for the monitored
一方、図8のキャプチャ実行テーブル55の項目「実行中フラグ」が未実行の場合、被監視装置2に対するパケットキャプチャがまだ実行されていないため、キャプチャ制御機能部111は、キャプチャ実行機能部112に対して、当該被監視装置2に対するパケットキャプチャの開始要求を行う(S106)。このとき、キャプチャ制御機能部111は、図8のキャプチャ実行テーブル55の項目「実行中フラグ」に実行中を示すフラグを設定し、項目「被監視装置」に被監視装置2のIPアドレスを登録し、項目「問題再現回数」及び項目「最大実行時間」にパケットキャプチャの終了条件となる設定値を設定し、項目「キャプチャ開始時刻」に開始時刻を登録する(S107)。
On the other hand, if the item “execution flag” in the capture execution table 55 in FIG. 8 is not executed, the packet capture for the monitored
図11は、実施形態に係るキャプチャ制御機能部111によるキャプチャ実行時間によるパケットキャプチャの終了要求の処理を示すフローチャートである。 FIG. 11 is a flowchart illustrating a packet capture end request process based on a capture execution time by the capture control function unit 111 according to the embodiment.
図11において、キャプチャ制御機能部111は、被監視対象2に対するパケットキャプチャの実行時間を監視している。ここで、キャプチャ制御機能部111は、現在時刻から、図8のキャプチャ実行テーブル55の項目「キャプチャ開始時刻」に設定されている時刻を差し引いた時間を、実行時間とする(S151)。
In FIG. 11, the capture control function unit 111 monitors the packet capture execution time for the monitored
そして、パケットキャプチャの実行時間が、図8のキャプチャ実行テーブル55の項目「最大実行時間」の設定値に達した場合(S152)、キャプチャ制御機能部111は、当該被監視装置2に対するパケットキャプチャの終了要求を、キャプチャ実行機能部112に行い(S153)、図8のキャプチャ実行テーブル55の「キャプチャ終了時刻」に終了時刻を記録する(S154)。なお、パケットキャプチャの実行時間が「最大実行時間」に達していない場合(S152)には、処理はS151に戻る。
When the packet capture execution time reaches the set value of the item “maximum execution time” in the capture execution table 55 of FIG. 8 (S152), the capture control function unit 111 performs packet capture for the monitored
(c)パケットキャプチャ(tcpdump)の実行
図12は、実施形態に係るキャプチャ実行機能部112によるパケットキャプチャ実行処理を示すフローチャートである。
(C) Execution of Packet Capture (tcpdump) FIG. 12 is a flowchart showing packet capture execution processing by the capture
図12において、キャプチャ実行機能部112がキャプチャ制御機能部111からパケットキャプチャの開始要求を受け取ると(S201)、キャプチャ実行機能部112は、図4の経路情報テーブル51を参照して、該当する被監視装置2のIPアドレスと、監視装置1から被監視装置2までの経路上の経由装置のIPアドレスとを取得する(S202)。つまり、キャプチャ対象装置のIPアドレスを取得する。
In FIG. 12, when the capture
次に、キャプチャ実行機能部112は、図5の装置情報テーブル52を参照して、各キャプチャ対象装置の「装置種類」に基づいて、キャプチャ対象装置がネットワーク機器であるか否かを確認する(S203)。キャプチャ対象装置がネットワーク機器の場合、キャプチャ実行機能部112は、図5の装置情報テーブル52から、当該ネットワーク機器が接続するキャプチャ用装置32のIPアドレスと、当該ネットワーク機器のポートミラーリングの設定条件としてモニターポートのポート番号及びミラーポートのポート番号を取得する(S204)。
Next, the capture
キャプチャ実行機能部112は、図6のフィルタ条件テーブル53を参照して、それぞれのキャプチャ対象装置のフィルタ条件を取得する(S205)。そして、キャプチャ実行機能部112は、S205で取得したフィルタ条件を用いて、tcpdumpコマンドを実行する(S206)。
The capture
例えば、キャプチャ実行機能部112が、IPアドレスが「192.168.1.10」の装置からパケットキャプチャする場合、キャプチャ実行機能部112は、図6のフィルタ条件テーブル53を参照して、「装置:192.168.1.10」に対応する「LANインタフェース:bond0」、「プロトコル:udp」、「ポート:161」、「キャプチャファイル名:equip_A_cap」をフィルタ条件として取得し、これらをフィルタ条件とするtcpdumpコマンドを実行する。
For example, when the capture
なお、tcpdumpコマンドを実行する際のオプションは、図6のフィルタ条件テーブル53に登録されている条件に限定されるものではなく、その他の条件をオプションとして設定するようにしても良い。 Note that the options for executing the tcpdump command are not limited to the conditions registered in the filter condition table 53 of FIG. 6, and other conditions may be set as options.
また、キャプチャ実行機能部112が、ネットワーク機器に対してパケットキャプチャを行う場合には、ネットワーク機器が有するポートミラーリング機能を利用し、ネットワーク機器のモニターポートからミラーポートにパケットをコピー転送する設定を合わせて行う。
When the capture
キャプチャ実行機能部112が、監視装置1及び被監視装置2と、その間の通信経路上に存在するネットワーク機器(例えば、ルータやスイッチ装置等)に接続されるキャプチャ用装置32にてtcpdumpコマンドを実行すると、図13に例示するSNMPパケット情報の全てがキャプチャファイルに保存される。
The capture
図13は、SNMPパケットを構成する情報を一部列挙したものである。図13に示すように、SNMPパケットには、「タイムスタンプ」、「送信元IPアドレス」、「宛先IPアドレス」、「SNMP Version(プロトコルバージョン)」、「Community(コミュニティ名)」、「PDU Type(コマンドタイプ)」、「Request ID(コマンド識別子)」、「Object ID(OID)」、「Value(値)」の情報が含まれる。 FIG. 13 shows a part of information constituting the SNMP packet. As shown in FIG. 13, the SNMP packet includes “time stamp”, “source IP address”, “destination IP address”, “SNMP Version (protocol version)”, “Community (community name)”, “PDU Type”. (Command type) ”,“ Request ID (command identifier) ”,“ Object ID (OID) ”, and“ Value (value) ”are included.
(d)パケットキャプチャ(tcpdump)の停止
キャプチャ実行機能部112は、キャプチャ制御機能部111からパケットキャプチャの終了要求を受信すると、(c)で実行したパケットキャプチャ(tcpdump)の停止、及びポートミラーリングの設定を解除する。
(D) Stop of packet capture (tcpdump) Upon receiving a packet capture end request from the capture control function unit 111, the capture
tcpdumpコマンドにより出力されたキャプチャファイルは、監視装置1のファイル保存用ディレクトリにファイル転送後、削除する。このように、監視装置1のファイル保存用ディレクトリにファイルが転送し、その後収集したキャプチャファイルを削除することにより、従来のように保守者がディスク容量の監視を行う必要性がなくなる。
The capture file output by the tcpdump command is deleted after file transfer to the file storage directory of the
(e)キャプチャ情報の蓄積
キャプチャ制御機能部111は、(d)のパケットキャプチャの停止完了を契機に、キャプチャ蓄積機能部113にキャプチャ情報の蓄積を要求する。
(E) Accumulation of Capture Information The capture control function unit 111 requests the capture
キャプチャ蓄積機能部113は、監視装置1に収集された各キャプチャ対象装置のキャプチャファイルを読み出し、キャプチャファイルに含まれている情報の中から所定のパケット情報を抽出して、キャプチャ情報テーブル54を形成してデータベース116に保存する。
The capture
換言すると、キャプチャ蓄積機能部113は、SNMPパケットのパケット情報を、図7のキャプチャ情報テーブル54の形式でデータベース116に保存する。ここでは、キャプチャ蓄積機能部113は、各キャプチャ対象装置のキャプチャファイルから、SNMPパケットの「タイムスタンプ」、「PDU Type(コマンドタイプ)」、「Request ID(コマンド識別子)」を少なくともキャプチャ情報テーブル54として保存する。これにより、キャプチャ対象装置が送信したSNMPパケットが、いつ送信され、どのIDの及びどのタイプのリクエスト又はレスポンスが送信されたかを認識することができる。
In other words, the capture
(f)キャプチャ情報の解析
キャプチャ制御機能部111は、(e)のキャプチャ情報の蓄積完了を契機に、キャプチャ解析機能部115にキャプチャ情報の解析を要求する。
(F) Analysis of capture information The capture control function unit 111 requests the capture
キャプチャ解析機能部115は、図7のキャプチャ情報テーブルを参照して、Request IDが同一のパケット情報を検出し、パケットロス発生箇所の切り分け方法の考え方(後述)でパターンマッチングを行うことにより、パケットロス発生箇所を特定する。
The capture
ここで、図14及び図15を参照しながら、実施形態に係るキャプチャ情報の解析処理を説明する。 Here, the analysis processing of the capture information according to the embodiment will be described with reference to FIGS.
図14は、実施形態に係る監視装置1によるパケットキャプチャの様子を説明する説明図である。図14では、監視装置1が、SNMPを用いた被監視装置2−1の監視においてパケットロス等の障害が発生した場合に、監視装置1と、被監視装置2−1と、その間の通信経路上に存在するネットワーク機器(ルータ3−1、ルータ3−2)に対するパケットキャプチャを行う場合を例示する。
FIG. 14 is an explanatory diagram illustrating a state of packet capture by the
パケットキャプチャの箇所は、監視装置1のポートA、ルータ3−1のポートB1及びB2、ルータ3−2のポートC1及びC2、被監視装置2のポートDの6箇所とする。
There are six packet capture locations: port A of the
図15は、図14の例の場合のSNMPパケットの被疑箇所の切り分け方法を説明する説明図である。図15において、例えば「A」等は図14に記載のパケットキャプチャ箇所に対応しているものとする。 FIG. 15 is an explanatory diagram for explaining a method for isolating a suspected portion of an SNMP packet in the example of FIG. In FIG. 15, for example, “A” or the like corresponds to the packet capture location shown in FIG.
図7のキャプチャ情報テーブル54の項目「Request ID(コマンド識別子)」は、SNMPリクエスト(例えば、Get Request、Get Next Request等)と、これに対応するSNMPレスポンス(例えば、Get Response等)とを関連付けるための識別子である。 The item “Request ID (command identifier)” in the capture information table 54 in FIG. 7 associates an SNMP request (for example, Get Request, Get Next Request, etc.) with a corresponding SNMP response (for example, Get Response, etc.). It is an identifier for
キャプチャ解析機能部115は、図7のキャプチャ情報テーブル54の項目「PDU Type(コマンドタイプ)」及び項目「Request ID(コマンド識別子)」を参照して、全てのパケットキャプチャ箇所でRequest IDが同一のSNMPリクエストとSNMPレスポンスの受信有無を確認する。つまり、Request IDが同一のSNMPリクエストとSNMPレスポンスがある場合には、そのパケットキャプチャ箇所で、SNMPパケット受信があると判断する。一方、Request IDが同一のSNMPリクエストとSNMPレスポンスがない場合には、そのパケットキャプチャ箇所で、SNMPパケット受信がないと判断する。
The capture
キャプチャ解析機能部115は、図15に示すように、各パケットキャプチャ箇所におけるパケットの受信有無を、パケット伝送方向の順に確認することで、被疑箇所(パケットロス発生箇所)の切り分けを行う。
As shown in FIG. 15, the capture
例えば、図15において、キャプチャ結果パターン「1」の場合、図14の全てのパケットキャプチャ箇所においてパケットが伝送されていることから、監視装置1内が被疑箇所と考えられる。また例えば、キャプチャ結果パターン「2」の場合、ルータ3−1のポートB1から伝送されたパケットを監視装置1で受信していないことから、ルータ3−1又は監視装置1が被疑箇所というと考えられる。
For example, in the case of the capture result pattern “1” in FIG. 15, since the packet is transmitted in all the packet capture locations in FIG. 14, the inside of the
キャプチャ解析機能部115は、被疑箇所が特定できた場合、パケットロスが発生した被疑装置のIPアドレスを、図8のキャプチャ実行テーブルの項目「解析結果」に登録して終了する。
If the suspected location can be identified, the capture
また、被疑箇所が特定できない場合、キャプチャ制御機能部111は、(b)の処理手順に戻って、同じフィルタ条件でパケットキャプチャを再度実施する。 If the suspected place cannot be identified, the capture control function unit 111 returns to the processing procedure of (b) and performs packet capture again under the same filter conditions.
(g)キャプチャ実行結果の確認
保守者は、保守端末14のユーザインタフェースを利用し、図8のキャプチャ実行テーブル55の情報を取得することができる。このキャプチャ実行テーブル55情報の取得は、GUI画面上に表示する方法でもよいし、又はファイルに出力する方法でもよい。これにより、保守者はパケットキャプチャの実行状況及び解析結果(パケットロス発生箇所)を即時に確認することができる。
(G) Confirmation of Capture Execution Result The maintenance person can acquire information of the capture execution table 55 in FIG. 8 by using the user interface of the
(A−3)実施形態の効果
以上のように、この実施形態によれば、障害発生を契機に、被監視装置及び経由装置に対して自動的にパケットキャプチャを実行するので、保守者は障害ログの1次切り分け及びパケットキャプチャの準備作業が不要となる。
(A-3) Effects of the Embodiment As described above, according to this embodiment, the packet is automatically captured for the monitored device and the relay device when the failure occurs, so that the maintenance person Log primary segmentation and packet capture preparation are not required.
また、この実施形態によれば、パケットキャプチャの停止条件(問題再現回数、最大実行時間)を設定することで、自動的にパケットキャプチャを停止することが可能となり、保守者はパケットキャプチャ実行中のディスク容量監視や問題再現監視の作業が不要となる。 Further, according to this embodiment, it is possible to automatically stop the packet capture by setting the packet capture stop condition (problem reproduction number, maximum execution time), and the maintenance person can There is no need for disk capacity monitoring or problem reproduction monitoring.
さらに、この実施形態によれば、収集された大量のパケット情報から自動的にパケットロス発生箇所が解析されるため、保守者はパケット情報の解析作業が不要となる。 Further, according to this embodiment, the packet loss occurrence location is automatically analyzed from the collected large amount of packet information, so that the maintenance person does not need to analyze the packet information.
(B)他の実施形態
上述した実施形態においても本発明の種々の変形実施形態を説明したが、本発明は、以下の変形実施形態にも適用することができる。
(B) Other Embodiments Although various modified embodiments of the present invention have been described in the above-described embodiments, the present invention can also be applied to the following modified embodiments.
本発明は、SNMPアーキテクチャを利用した装置監視システムに広く適用可能である。 The present invention can be widely applied to a device monitoring system using the SNMP architecture.
上述した実施形態では、SNMPパケットのキャプチャ結果に基づいて被疑解析を行う場合を例示したが、本発明は、キャプチャ蓄積機能部とキャプチャ解析機能部をICMP等の別プロトコルに対応させれば、SNMPパケット以外の被疑箇所(パケットロス発生箇所)を解析することも可能である。 In the above-described embodiment, the case where the suspicious analysis is performed based on the capture result of the SNMP packet has been exemplified. It is also possible to analyze a suspected place (packet loss occurrence place) other than the packet.
10…監視システム、1…監視装置、11…キャプチャ制御部、12…監視アプリケーション、13…SNMPマネージャ、111…キャプチャ制御機能部、112…キャプチャ実行機能部、113…キャプチャ蓄積機能部、115…キャプチャ解析機能部、116…データベース、51…経路情報テーブル、52…装置情報テーブル、53…フィルタ条件テーブル、54…キャプチャ情報テーブル、55…キャプチャ実行テーブル、2−1及び2−2…被監視装置、21…SNMPエージェント、22…MIB、3−1及び3−2…ルータ、32…キャプチャ用装置。
DESCRIPTION OF
Claims (8)
上記状態管理手段により障害が検出されると、上記状態管理手段から当該障害に係る被監視装置までの、複数の経由装置から状態管理パケットのパケット情報の収集を開始し、収集したパケット情報に基づいて被疑箇所を解析するものであり、障害事象の再現試験の実行回数又は再現試験の実行時間に基づいてパケット情報の収集を停止するキャプチャ制御手段と
を備えることを特徴とする監視システム。 Status management means for acquiring a status management packet from each of one or more monitored devices and managing the status of each monitored device;
When a failure is detected by the state management unit, collection of packet information of the state management packet from a plurality of transit devices from the state management unit to the monitored device related to the failure is started, and based on the collected packet information And a capture control means for stopping the collection of packet information based on the number of times of execution of the failure event reproduction test or the execution time of the reproduction test.
少なくとも、被監視装置毎に、再現試験の実行中か否かを示す実行中フラグを含むキャプチャ実行情報を記憶する記憶部と、
障害検出時に、上記キャプチャ実行情報を参照して、当該障害に係る被監視装置に対する再現試験が未実行のときに、当該被監視装置に対する再現試験の実行を開始させるキャプチャ制御部と
を有することを特徴とする請求項1に記載の監視システム。 The capture control means is
At least a storage unit that stores capture execution information including an in-execution flag indicating whether or not a reproduction test is being executed for each monitored device;
A capture control unit that refers to the capture execution information when a failure is detected, and starts a reproduction test for the monitored device when a reproduction test for the monitored device related to the failure is not performed. The monitoring system according to claim 1, wherein:
上記キャプチャ制御部が、当該障害に係る被監視装置に対する再現試験が実行中のとき、当該被監視装置に対する再現試験の実行回数を更新し、再現試験の実行回数が上記キャプチャ実行情報の再現回数を超えたときに、当該被監視装置に対する再現試験の実行を停止させるものである
ことを特徴とする請求項2に記載の監視システム。 The above capture execution information includes the number of times of reproduction test reproduction,
When the reproduction control for the monitored device related to the failure is being executed, the capture control unit updates the number of times the reproduction test is executed for the monitored device, and the number of times the reproduction test is executed sets the number of times the capture execution information is reproduced. The monitoring system according to claim 2, wherein when it exceeds, the execution of the reproduction test for the monitored device is stopped.
上記キャプチャ制御部が、当該障害に係る被監視装置に対する再現試験が実行中のとき、当該被監視装置に対する再現試験の実行時間が上記キャプチャ実行情報の最大実行時間に達したときに、当該被監視装置に対する再現試験の実行を停止させるものである
ことを特徴とする請求項2又は3に記載の監視システム。 The above capture execution information includes the maximum execution time of the reproduction test,
When the capture control unit is executing a reproduction test for the monitored device related to the failure, and when the execution time of the reproduction test for the monitored device reaches the maximum execution time of the capture execution information, The monitoring system according to claim 2 or 3, wherein execution of a reproduction test on the apparatus is stopped.
上記状態管理手段から上記各被監視装置までの各経由装置のアドレス情報を含む経路情報と、
上記各経路装置のパケットキャプチャに関する条件を含む条件情報と
を記憶するものであり、
キャプチャ制御手段が、
上記キャプチャ制御部からの再現試験の開始要求を受けると、上記経路情報及び上記条件情報を参照して、障害に係る被監視装置に対する再現試験を実行し、上記キャプチャ制御部からの停止要求を受けると再現試験を停止するキャプチャ実行部を有することを特徴とする請求項2〜4のいずれかに記載の監視システム。 The storage unit is
Path information including address information of each transit device from the state management means to each monitored device;
And condition information including conditions related to packet capture of each of the above routing devices,
The capture control means
Upon receiving a reproduction test start request from the capture control unit, a reproduction test is performed on the monitored device related to the failure with reference to the path information and the condition information, and a stop request is received from the capture control unit The monitoring system according to claim 2, further comprising a capture execution unit that stops the reproduction test.
上記キャプチャ実行部により上記各経由装置から収集した状態管理パケットのパケット情報を用いて、所定形式のキャプチャ情報を蓄積するキャプチャ蓄積部を有することを特徴とする請求項2〜5のいずれかに記載の監視システム。 The capture control means
6. A capture storage unit for storing capture information in a predetermined format using packet information of a state management packet collected from each of the relay devices by the capture execution unit. Monitoring system.
上記キャプチャ蓄積部により蓄積された上記キャプチャ情報を参照して、上記状態管理パケットのリクエストと、リクエストに対するレスポンスとを対応付けて上記各経由装置でのパケット受信の有無を確認することで被疑箇所を解析するキャプチャ解析部を有することを特徴とする請求項2〜6のいずれかに記載の監視システム。 The capture control means
By referring to the capture information accumulated by the capture accumulation unit, the request for the state management packet and the response to the request are associated with each other to confirm the presence / absence of packet reception in each transit device. The monitoring system according to claim 2, further comprising a capture analysis unit that performs analysis.
1又は複数の被監視装置のそれぞれから状態管理パケットを取得して、各被監視装置の状態を管理する状態管理手段と、
上記状態管理手段により障害が検出されると、上記状態管理手段から当該障害に係る被監視装置までの、複数の経由装置から状態管理パケットのパケット情報の収集を開始し、収集したパケット情報に基づいて被疑箇所を解析するものであり、障害事象の再現試験の実行回数又は再現試験の実行時間に基づいてパケット情報の収集を停止するキャプチャ制御手段と
して機能させることを特徴とする監視プログラム。 Computer
Status management means for acquiring a status management packet from each of one or more monitored devices and managing the status of each monitored device;
When a failure is detected by the state management unit, collection of packet information of the state management packet from a plurality of transit devices from the state management unit to the monitored device related to the failure is started, and based on the collected packet information A monitoring program for analyzing a suspected part and functioning as a capture control means for stopping the collection of packet information based on the number of times of execution of a failure event reproduction test or the execution time of a reproduction test.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013138960A JP6149549B2 (en) | 2013-07-02 | 2013-07-02 | Monitoring system and monitoring program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2013138960A JP6149549B2 (en) | 2013-07-02 | 2013-07-02 | Monitoring system and monitoring program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2015012572A JP2015012572A (en) | 2015-01-19 |
| JP6149549B2 true JP6149549B2 (en) | 2017-06-21 |
Family
ID=52305323
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2013138960A Active JP6149549B2 (en) | 2013-07-02 | 2013-07-02 | Monitoring system and monitoring program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6149549B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6941575B2 (en) * | 2018-03-23 | 2021-09-29 | 三菱電機インフォメーションネットワーク株式会社 | Virtual router and relay program |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2001077814A (en) * | 1999-09-08 | 2001-03-23 | Mitsubishi Electric Corp | Network failure analysis support device, network failure analysis method, and recording medium recording failure analysis program |
| JP2010147595A (en) * | 2008-12-16 | 2010-07-01 | Mitsubishi Electric Corp | Apparatus and method for management of network |
| WO2011155510A1 (en) * | 2010-06-08 | 2011-12-15 | 日本電気株式会社 | Communication system, control apparatus, packet capture method and program |
-
2013
- 2013-07-02 JP JP2013138960A patent/JP6149549B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2015012572A (en) | 2015-01-19 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20120297059A1 (en) | Automated creation of monitoring configuration templates for cloud server images | |
| JP5530864B2 (en) | Network system, management server, and management method | |
| CN109474685A (en) | Service monitoring method and system under a kind of framework based on micro services | |
| CN112333044B (en) | Shunting equipment performance test method, device and system, electronic equipment and medium | |
| JP2011210064A (en) | Log information collection system, device, method and program | |
| CN103326874A (en) | System and method for alarm management | |
| JP5342082B1 (en) | Network failure analysis system and network failure analysis program | |
| CN113676723A (en) | Non-homologous network video monitoring fault positioning method and device based on Internet of things | |
| JP2013222313A (en) | Failure contact efficiency system | |
| KR100908131B1 (en) | Fault detection device and method using log filtering and fault detection system using the device | |
| WO2016091019A1 (en) | Method and corresponding device for counting and analyzing traffic of characteristic data packet | |
| JP6149549B2 (en) | Monitoring system and monitoring program | |
| JP6542538B2 (en) | Network monitoring system, monitoring device and monitoring method | |
| CN106301826A (en) | A kind of fault detection method and device | |
| JP5067386B2 (en) | Apparatus and method for identifying service impact on network failure | |
| KR100500836B1 (en) | Fault management system of metro ethernet network and method thereof | |
| JP6733923B1 (en) | Network management system, network management method, and network management program | |
| CN117729236A (en) | Terminal information acquisition method, server, equipment and storage medium | |
| JP4775894B2 (en) | Intermediary device for remote diagnosis | |
| KR20040001627A (en) | System for managing fault of internet and method thereof | |
| KR101214651B1 (en) | Apparatus for notifying the occurrence of the failure of the GPS by using the SMS MFP | |
| KR100852192B1 (en) | Network management apparatus and method thereof, and recoing medium | |
| KR100900505B1 (en) | WBEM-based fault management system and method with Differentiated path protection for inter-AS Traffic Engineering | |
| US7894459B2 (en) | Determining availability of a network service | |
| JP2008148017A (en) | Node detection device and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160517 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170324 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170425 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170508 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6149549 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |