JP7602181B2 - Alarm analysis device, alarm analysis method, Bayesian network model, and alarm analysis program - Google Patents
Alarm analysis device, alarm analysis method, Bayesian network model, and alarm analysis program Download PDFInfo
- Publication number
- JP7602181B2 JP7602181B2 JP2023527151A JP2023527151A JP7602181B2 JP 7602181 B2 JP7602181 B2 JP 7602181B2 JP 2023527151 A JP2023527151 A JP 2023527151A JP 2023527151 A JP2023527151 A JP 2023527151A JP 7602181 B2 JP7602181 B2 JP 7602181B2
- Authority
- JP
- Japan
- Prior art keywords
- alarm
- node
- difference
- location
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING SYSTEMS, e.g. PERSONAL CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B25/00—Alarm systems in which the location of the alarm condition is signalled to a central station, e.g. fire or police telegraphic systems
-
- G—PHYSICS
- G08—SIGNALLING
- G08B—SIGNALLING SYSTEMS, e.g. PERSONAL CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
- G08B31/00—Predictive alarm systems characterised by extrapolation or other computation using updated historic data
Landscapes
- Business, Economics & Management (AREA)
- Emergency Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラムに関する。 The present invention relates to an alarm analysis device, an alarm analysis method, a Bayesian network model and an alarm analysis program.
ネットワーク監視運用業務には、常時監視により装置の状態変化および警報を検出し、故障や工事等の事象の把握、故障要因の切り分け等を分析・判断し、故障回復を実施(対処)するプロセスが存在する。 Network monitoring operations involve processes that involve constant monitoring to detect changes in the status of equipment and alarms, identifying events such as failures and construction work, analyzing and determining the cause of failures, and implementing (dealing with) failure recovery.
当該プロセスは、ネットワーク全体を管理する保守者(リモート作業者)が、現地での故障装置の修理・交換等の物理作業が必要になった場合に、現地作業者を現地に派遣することで実現している。保守者は、全国に配置される装置の管理を、集約拠点からリモートで実施する。This process is realized by dispatching a local technician to the site when physical work such as repairing or replacing faulty equipment becomes necessary, while the maintenance technician who manages the entire network (remote technician) manages the equipment located throughout the country remotely from a centralized location.
ネットワークで発生した事象に対処するために、保守者は、検出した警報群がどのような事象(工事や故障)によって発生したかを把握することが重要である。 In order to respond to events that occur on the network, it is important for maintenance personnel to understand what event (construction or failure) caused the detected alarms.
非特許文献1には、ネットワーク接続構成情報と事前定義したルールを組み合わせることで、一つの事象で発生する複数の警報をコリレーションする技術が記載されている。Non-patent
警報は一つの事象によって複数の装置から発生し、かつ、全国のネットワークでは同時に複数の事象が発生するため、警報は大量に発生する。保守者は、この警報群を事象毎にコリレーション(関連付け)を行っている。 Because an alarm can be generated by multiple devices in response to a single event, and multiple events can occur simultaneously on a nationwide network, a large number of alarms are generated. Maintenance personnel correlate these alarms by event.
通信事業者ネットワークは、伝送装置で構成される伝送レイヤや、NGNマス装置で構成されるIPレイヤといった、複数のレイヤによって構成されるマルチレイヤであるため、多様な装置が大量に存在し、警報も様々な種類が大量に混在している。このようなネットワークにおいて発生する警報の関連付けは、保守者に高度な知識や経験が求められ、負担も大きい。このため、警報の関連性を見極める保守者の負荷軽減やスキルレス化が求められている。 Telecommunications carrier networks are multi-layered, consisting of multiple layers, such as the transmission layer made up of transmission equipment and the IP layer made up of NGN mass equipment, so there are a large number of diverse devices and a large number of different types of alarms. Correlating alarms that occur in such networks requires advanced knowledge and experience from maintenance personnel, and places a large burden on them. For this reason, there is a demand to reduce the burden on maintenance personnel who determine alarm correlations and to make it less skilled.
非特許文献1では、保守者が事前にルールを定義する必要があり、このルール定義には保守者の高度な知識や経験が求められ、全て自動化できるわけではない。In
本発明は、上記事情に鑑みてなされたものであり、本発明の目的は、警報の相関付けを容易に行うための警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラムを提供することにある。The present invention has been made in consideration of the above circumstances, and an object of the present invention is to provide an alarm analysis device, an alarm analysis method, a Bayesian network model, and an alarm analysis program for easily correlating alarms.
上記目的を達成するため、本発明の一態様は警報解析装置であって、ベイジアンネットワークモデルと、複数の警報の第1関連度を、前記ベイジアンネットワークモデルを用いて推定する推定部と、前記第1関連度を用いて、同じ事象で発生した警報群をグルーピングする判定部と、を備え、前記ベイジアンネットワークモデルは、警報種別を示す複数の種別ノードと、各種別ノードにリンクされた時刻ノードおよび場所ノードとを有し、前記時刻ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生時刻との差分に応じた第2関連度が設定され、前記場所ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生場所との差分に応じた第3関連度が設定される。In order to achieve the above object, one aspect of the present invention is an alarm analysis device comprising a Bayesian network model, an estimation unit that estimates a first relevance of multiple alarms using the Bayesian network model, and a determination unit that uses the first relevance to group alarms that have occurred due to the same event, wherein the Bayesian network model has multiple type nodes indicating alarm types, and time nodes and location nodes linked to the type nodes, wherein a second relevance is set to the time node according to the difference between the time of occurrence of an alarm of a child node or parent node of the linked type node, and a third relevance is set to the location node according to the difference between the location of occurrence of an alarm of a child node or parent node of the linked type node.
本発明の一態様は、警報解析装置が行う警報解析方法であって、複数の警報の第1関連度を、ベイジアンネットワークモデルを用いて推定するステップと、前記第1関連度を用いて、同じ事象で発生した警報群をグルーピングするステップと、を行い、前記ベイジアンネットワークモデルは、警報種別を示す複数の種別ノードと、各種別ノードにリンクされた時刻ノードおよび場所ノードとを有し、前記時刻ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生時刻との差分に応じた第2関連度が設定され、前記場所ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生場所との差分に応じた第3関連度が設定される。One aspect of the present invention is an alarm analysis method performed by an alarm analysis device, which includes the steps of estimating a first relevance of multiple alarms using a Bayesian network model, and grouping alarms that have occurred due to the same event using the first relevance, wherein the Bayesian network model has multiple type nodes indicating alarm types, and time nodes and location nodes linked to the type nodes, and a second relevance is set to the time node according to the difference between the time of occurrence of an alarm of a child node or parent node of the linked type node, and a third relevance is set to the location node according to the difference between the location of occurrence of an alarm of a child node or parent node of the linked type node.
本発明の一態様は、上記警報解析装置として、コンピュータを機能させる警報解析プログラムである。 One aspect of the present invention is an alarm analysis program that causes a computer to function as the above-mentioned alarm analysis device.
本発明によれば、警報の相関付けを容易に行うための警報解析装置、警報解析方法、ベイジアンネットワークモデルおよび警報解析プログラムを提供することができる。 According to the present invention, it is possible to provide an alarm analysis device, an alarm analysis method, a Bayesian network model and an alarm analysis program for easily correlating alarms.
以下、本発明の実施の形態について、図面を参照して説明する。 Below, an embodiment of the present invention is described with reference to the drawings.
図1は、本実施形態の警報解析装置1の構成を示す構成図である。同一事象で発生する警報群は、ほぼ同時に、物理的接続または論理的接続をもつ複数の装置から発生する。したがって、警報の発生時刻及び警報の発生場所(発生エリア)が近ければ、同一事象で発生した警報である可能性が高いと推定できる。本実施形態では、新たに発生した複数の警報の中で、警報の発生時刻と発生場所、および、1つの事象で発生する警報の種類が、ベイジアンNWモデルと近い場合に、同一事象で発生した警報群であると判定する。
Figure 1 is a configuration diagram showing the configuration of the
図示する警報解析装置1は、取得部11と、推定部12と、判定部13と、警報情報DB14と、モデル記憶部15と、構成情報DB16とを備える。The illustrated
取得部11は、複数の装置から発出される警報情報101(警報リスト)を取得し、警報情報DB15に記憶する。警報情報101には、複数の警報が含まれる。警報には、警報種別、発生時刻、発生場所、装置識別子等を有する。The
例えば、取得部11は、少なくとも1つのOpS(Operation Support System)から、警報情報を取得する。一般的な通信事業者の装置(例えば、ネットワーク装置)は、OpSで監視されている。OpSは、装置からの警報情報の収集、警報の画面表示などの機能を保守者向けに提供する。取得部11は、OpSが保存する警報情報を所定のタイミングで取得し、当該警報情報を警報情報DB15に格納するとともに、推定部12に送出する。For example, the
推定部12は、警報情報に含まれる複数の警報の関連度を、ベイジアンNWモデルを用いて推定する。
The
判定部13は、関連度を用いて、同じ事象で発生した警報群をグルーピングする。具体的には、判定部13は、関連度に基づいてある警報(第1警報)と他の警報(第2警報)とが同じ事象で発生した警報か否かを判定し、事象毎に警報をグルーピングする。The
モデル記憶部15には、ベイジアンネットワークモデル(以下、「ベイジアンNWモデル」)が、あらかじめ記憶されている。
A Bayesian network model (hereinafter referred to as the "Bayesian NW model") is pre-stored in the
図2は、本実施形態のベイジアンNWモデルの一例を示す図である。ベイジアンNWモデルは、グラフ構造をもつ確率モデルの一つである。ベイジアンNWモデルでは、各イベントがノードで示され、ノード同士が依存関係を示す一方向のリンク(矢印)で接続されている。各ノードには、条件付確率(CPT:Conditional Probability Table)が付されている。 Figure 2 is a diagram showing an example of a Bayesian network model of this embodiment. The Bayesian network model is one of the probabilistic models with a graph structure. In the Bayesian network model, each event is represented by a node, and the nodes are connected by one-way links (arrows) that indicate dependencies. Each node is assigned a conditional probability (CPT: Conditional Probability Table).
図示するベイジアンNWモデルは、警報種別(ALM種別)を示す複数の種別ノードA、B、Cと、各種別ノードにリンクされた時刻ノードA1、B1、B3、C1および場所ノードA2、B2、B4、C2とを有する。種別ノードは、メインノードで、時刻ノードおよび場所ノードはサブノードである。なお、図2のベイジアンNWモデルは一例であって、図2のモデルに限定されるものではない。例えばベイジアンNWモデルは、種別ノードが2つでも、4以上でもよい。 The Bayesian network model shown in the figure has multiple type nodes A, B, and C that indicate alarm types (ALM types), and time nodes A1, B1, B3, and C1 and location nodes A2, B2, B4, and C2 linked to the type nodes. The type nodes are main nodes, and the time nodes and location nodes are subnodes. Note that the Bayesian network model in Figure 2 is just an example and is not limited to the model in Figure 2. For example, the Bayesian network model may have two type nodes or four or more type nodes.
各時刻ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生時刻との差分に応じた関連度(第2関連度)が設定される。各場所ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生場所との差分に応じた関連度(第3関連度)が設定される。 For each time node, a relevance (second relevance) is set according to the difference between the time when the alarm occurred for the child node or parent node of the linked type node. For each location node, a relevance (third relevance) is set according to the difference between the location when the alarm occurred for the child node or parent node of the linked type node.
具体的には、種別ノードAは、警報種別Aの警報の発生を示すイベントであり、種別ノードBは、警報種別Bの警報の発生を示すイベントであり、種別ノードCは警報種別Cの警報の発生を示すイベントである。種別ノードA、B、Cの依存関係は、種別ノードA→種別ノードB→種別ノードCと表すことができる。 Specifically, type node A is an event indicating the occurrence of an alarm of alarm type A, type node B is an event indicating the occurrence of an alarm of alarm type B, and type node C is an event indicating the occurrence of an alarm of alarm type C. The dependency relationship between type nodes A, B, and C can be expressed as type node A → type node B → type node C.
リンクの先に来るノードを子ノード、リンクの元にあるノードを親ノードとする。種別ノードA→種別ノードBでは、種別ノードAが親ノードで、種別ノードBが子ノードとなる。各種別ノードA、B、Cには、条件付確率が設定される。条件付確率には、種別ノードの子ノードまたは親ノードの警報の発生時刻との差分および発生場所との差分に応じた発生確率が設定される。 The node at the end of the link is the child node, and the node at the start of the link is the parent node. In the case of type node A → type node B, type node A is the parent node and type node B is the child node. A conditional probability is set for each type node A, B, and C. The conditional probability is set to the probability of occurrence based on the difference between the time of occurrence of the alarm and the difference between the occurrence location and the child node or parent node of the type node.
図2には、始点となる種別ノードAの条件付確率201を示す。ここでは省略するが、種別ノードBの条件付確率には、親ノードの警報の発生時刻および発生場所との差分、および、子ノードの警報の発生時刻および発生場所との差分に応じた発生確率が設定される。種別ノードCの条件付確率には、親ノードの警報の発生時刻および発生場所との差分に応じた発生確率が設定される。
Figure 2 shows the
図示する条件付確率201には、種別ノードAの子ノード(種別ノードB)の警報の発生時刻との差分および発生場所との差分に応じた発生確率が設定される。例えば、発生場所の差分が無い場合(すなわち、警報が同一装置で発生した場合)で、発生時刻の差分が±5秒未満の場合に、警報種別Aの警報が発生する確率を「0.9」とし、未発生の確率を「0.1」と定義している。また、発生場所の差が無い場合で、発生時刻の差分が±5秒以上の場合に、警報種別Aの警報が発生する確率を「0.8」とし、未発生の確率を「0.2」と定義している。
In the
また、発生場所の差分が同一ビル内の場合で、発生時刻の差分が±5秒未満の場合に、警報種別Aの警報が発生する確率を「0.8」とし、未発生の確率を「0.2」と定義している。また、発生場所の差分が同一ビルの場合で、発生時刻の差分が±5秒以上の場合に、警報種別Aの警報が発生する確率を「0.7」とし、未発生の確率を「0.3」と定義している。 In addition, when the difference in the occurrence location is within the same building and the difference in the occurrence time is less than ±5 seconds, the probability of an alarm of alarm type A occurring is defined as "0.8" and the probability of it not occurring is defined as "0.2." In addition, when the difference in the occurrence location is within the same building and the difference in the occurrence time is ±5 seconds or more, the probability of an alarm of alarm type A occurring is defined as "0.7" and the probability of it not occurring is defined as "0.3."
なお、図示する条件付確率201では、発生時刻の差分を、5秒未満と5秒以上に分けて2つの確率を設定しているが、3つ以上に分けて発生時刻の差分が小さいほど、高い確率となるように設定してもよい。In the
また、図示する条件付確率201では、発生場所の差分を、差分なしの同一装置、同一ビル内、同一都道府県内、それ以外(異なる都道府県)に分けて発生場所の差分が小さいほど、高い確率となるように設定しているが、これ以外の方法で発生場所の差分を分類してしてもよい。
In addition, in the
本実施形態のベイジアンNWモデルでは、各種別ノードA、B、Cにリンクする時刻ノードおよび場所ノードを定義する。例えば、種別ノードBには、時刻ノードB1、B3と、場所ノードB2、B4とが定義されている。時刻ノードB1は親ノード(ここでは、種別ノードA)との発生時刻の差分に関するノードであり、時刻ノードB3は子ノード(ここでは、種別ノードC)との発生時刻の差分に関するノードである。場所ノードB2は親ノードとの発生場所の差分に関するノードであり、場所ノードB4は子ノードとの発生場所の差分に関するノードである。これらのノードB1~B4には、それぞれ条件付確率が付されている。In the Bayesian network model of this embodiment, time nodes and location nodes that link to type nodes A, B, and C are defined. For example, type node B has time nodes B1 and B3 and location nodes B2 and B4 defined. Time node B1 is a node related to the difference in occurrence time with the parent node (type node A in this case), and time node B3 is a node related to the difference in occurrence time with the child node (type node C in this case). Location node B2 is a node related to the difference in occurrence location with the parent node, and location node B4 is a node related to the difference in occurrence location with the child node. Each of these nodes B1 to B4 is assigned a conditional probability.
例えば、時刻ノードB1の条件付確率202には、親ノード(種別ノードA)の警報との発生時刻の差分が±5秒未満の場合の関連度を「0.9」とし、発生時刻の差分が±5秒以上の場合の関連度を「0.1」とする。For example, the
場所ノードB2の条件付確率203には、親ノード(種別ノードA)の警報と同一装置で発生していた場合の関連度を「0.5」とし、親ノードの警報の装置と同一ビルの装置で発生していた場合の関連度を「0.3」とし、親ノードの警報の装置と同一都道府県の装置で発生していた場合の関連度を「0.15」とし、それ以外(親ノードの警報の装置と異なる都道府県の装置で発生した場合)の関連度を「0.05」とする。For the
このように、時刻ノードには、発生時刻の差分が小さいほど高い関連度(第2関連度)が設定され、場所ノードには、発生場所の差分が小さいほど高い関連度(第3関連度)が設定される。In this way, a higher relevance level (second relevance level) is set for a time node the smaller the difference in occurrence time, and a higher relevance level (third relevance level) is set for a location node the smaller the difference in occurrence location.
他の時刻ノードA1、B3、C1および他の場所ノードA2、B4、C2は、図2では省略されているが同様の条件付確率が定義されている。 Similar conditional probabilities are defined for other time nodes A1, B3, C1 and other location nodes A2, B4, C2, although they are omitted in Figure 2.
本実施形態では、発生時刻及び発生場所が近い警報については、高い関連度(第1関連度)が算出されるベイジアンNWモデルを用いて、同一事象で発生した警報群をグルーピングする。In this embodiment, for alerts that occur at similar times and locations, a Bayesian network model is used to calculate a high relevance (first relevance), and alerts that occur due to the same event are grouped.
以下に、推定部12および判定部13が、ベイジアンNWモデルを用いて、警報をグルーピングする処理を具体的に説明する。
Below, we will explain in detail the process in which the
図3は、警報解析装置1に入力される警報情報(警報リスト)の一例を示す。警報情報には、複数の警報が含まれる。図示する各警報は、警報識別子と、発生時刻(発生日時)と、警告種別(ALM種別)と、都道府県と、ビルと、装置識別子とを有する。この警報情報では、警報識別子1の警報から順に各警報が発生したことを示している。
Figure 3 shows an example of alarm information (alarm list) input to the
警報種別には、例えば、装置故障を示す種別(例:Eqp故障警報)、装置のインタフェース関連の異常を示す種別(例:Link down警報)などがある。都道府県と、ビルと、装置識別子は、警報の発生場所を示す情報である。 Examples of alarm types include types indicating equipment failure (e.g., Eqp failure alarm) and types indicating an abnormality related to the device's interface (e.g., Link down alarm). The prefecture, building, and equipment identifier are information that indicates the location where the alarm occurred.
図4は、図3に示す警報情報の各警報に対する判定結果の一例を示す。判定結果には、各警報(警報識別情報)にグループ番号が設定されている。 Figure 4 shows an example of a judgment result for each alarm in the alarm information shown in Figure 3. In the judgment result, a group number is set for each alarm (alarm identification information).
推定部12は、警報情報の各警報を順次読み出し、当該警報の前に読み出した警報との関連度を推定し、判定部13は、関連度を用いて同じ事象で発生した警報群をグルーピングする。The
(1)警報識別子1[ALM種別B]の警報
推定部12は、図3に示す警報情報101から警報識別子1の[ALM種別B]の警報を読み出す。推定部12は、 警報識別子1より前に発生した警報は存在しないため、警報識別子1の関連度の推定を行わず、判定部13は、当該警報に対し、所定のグループ番号を設定する。図4に示す判定結果では、判定部13は、グループ番号として「1」を設定する。
(1) Alarm with alarm identifier 1 [ALM type B]
The
(2)警報識別子2[ALM種別A]の警報
次に、推定部12は、警報識別子2の[ALM種別A]の警報を読み出し、当該警報より前に発生した子ノード側の警報(警報識別子1[ALM種別B])との関連度を推定する。すなわち、推定部12は、警報識別子2-1間の関連度を、ベイジアンNWモデルを用いて推定する。
(2) Alarm with alarm identifier 2 [ALM type A]
Next, the
図3に示すように、警報識別子1、2の警報間の発生時刻の差分は5秒であり、発生場所の差分はそれ以外(異なる都道府県)である。そのため、推定部12は、図2の条件付確率201の発生場所の差分がその他で、発生時刻の差分が5秒以上で発生する確率「0.3」を、関連度として推定する。
As shown in Figure 3, the difference in occurrence time between the warnings with
P(ALM種別A =発生 | 時刻差= ±5s以上, 場所差= それ以外)=0.3
判定部13は、関連度「0.3」が所定の閾値(例えば0.5)未満であるため、警報識別子2と警報識別子1の警報は、別のグループと判定する。判定部13は、警報識別子1のグループ番号「1」とは異なるグループ番号「2」を、警報識別子2の警報に設定する。
P(ALM type A = occurrence | time difference = ±5s or more, location difference = other) = 0.3
Because the relevance level "0.3" is less than a predetermined threshold value (e.g., 0.5), the
なお、警報の一部の情報が欠損している場合に、推定部12は、時刻ノードA1と場所ノードA2の条件付確率を使用する。例えば、警報識別子2の[ALM種別A]の発生時刻が取得できずに欠損している場合、「発生時刻の差分」というエビデンス(条件)が存在しない。この場合、以下の式となり、推定部12は、場所ノードA2の条件付確率を用いて「発生場所の差分」というエビデンスのみを用いた確率推論の計算を行う。
If some information about the alarm is missing, the
P(ALM種別A =発生 | 場所差= それ以外)=0.48
ベイジアンNWモデルでは、全てのエビデンスが分からなくても、得られたエビデンスを元に確率推論により、着目したい状態の発生確率を算出することができる。
P(ALM type A = occurrence | location difference = other) = 0.48
In the Bayesian NW model, even if all the evidence is not known, it is possible to calculate the probability of occurrence of a state of interest using probabilistic inference based on the available evidence.
(3)警報識別子3[ALM種別B]の警報
次に、推定部12は、警報識別子3の[ALM種別B]の警報を読み出し、当該警報より前に発生した警報のうち、警報識別子1はALM種別が同一のため関連度の推定は行わず、親ノード側の警報(警報識別子2[ALM種別A])との関連度を推定する。すなわち、推定部12は、警報識別子3-2間の関連度を、ベイジアンNWモデルを用いて推定する。
(3) Alarm with alarm identifier 3 [ALM type B]
Next, the
図3に示すように、警報識別子3、2の警報間の発生時刻の差分は1秒であり、発生場所の差分は同一都道府県である。推定部12は、図2の時刻ノードB1の条件付確率202と、場所ノードB2および203と、図示しない種別ノードBの条件付確率とを用いて、警報識別子3-2間の関連度を算出する。
As shown in Figure 3, the difference in occurrence time between the warnings with
例えば、推定部12は、条件付確率202の「0.9」と、条件付確率203の「0.15」と、図示しない種別ノードBの条件付確率の対応する確率から、ALM種別Bが発生する確率を、確率推論により求めることで、警報識別子3-2間の関連度を算出する。算出される関連度は、ここでは「0.8」とする。For example, the
P(ALM種別B =発生 | 時刻差= ±5s未満, 場所差= 同一都道府県)=0.8
判定部13は、関連度「0.8」が所定の閾値(例えば0.5)以上であるため、警報識別子3と警報識別子2の警報は、同一グループと判定する。すなわち、判定部13は、警報識別子3と警報識別子2の警報を、同じ事象で発生した警報群として関連付ける。したがって、判定部13は、警報識別子2のグループ番号「2」と同じグループ番号「2」を、警報識別子3の警報に設定する。
P(ALM type B = occurrence | time difference = less than ±5s, location difference = same prefecture) = 0.8
Because the degree of association "0.8" is equal to or greater than a predetermined threshold (e.g., 0.5), the
(4)警報識別子4[ALM種別A]の警報
次に、推定部12は、警報識別子4の[ALM種別A]の警報を読み出し、当該警報より前に発生した警報のうち、子ノード側の警報(警報識別子1[ALM種別B]、警報識別子3[ALM種別B])との関連度を推定する。
(4) Alarm with alarm identifier 4 [ALM type A] Next, the
まず、推定部12は、警報識別子4-1間の関連度を、ベイジアンNWモデルを用いて推定する。図3に示すように、警報識別子4、1の警報間の発生時刻の差分は5秒以上であり、発生場所の差分は同一ビルである。そのため、推定部12は、図2の種別ノードAの条件付確率201の発生場所の差分が同一ビルで、子ノードAとの差分が5秒以上で発生する確率「0.7」を、関連度として推定する。
First, the
P(ALM種別A =発生 | 時刻差= ±5s以上, 場所差= 同一ビル)=0.7
そして、推定部12は、警報識別子4-3間の関連度を、ベイジアンNWモデルを用いて推定する。図3に示すように、警報識別子4、3の警報間の発生時刻の差分は5未満であり、発生場所の差分はそれ以外である。そのため、推定部12は、図2の種別ノードAの条件付確率201の発生場所の差分がそれ以外で、子ノードAとの差分が5秒未満で発生する確率「0.5」を、関連度として推定する。
P(ALM type A = occurrence | time difference = ±5s or more, location difference = same building) = 0.7
Then, the
P(ALM種別A =発生 | 時刻差= ±5s未満, 場所差= それ以外)=0.5
判定部13は、どちらも関連度は0.5以上であるが、より関連度の高い警報識別子1と4の警報を同一グループと判定し、警報識別子1のグループ番号「1」と同じグループ番号「1」を、警報識別子4の警報に設定する。
P(ALM type A = occurrence | time difference = less than ±5s, location difference = other) = 0.5
Although both have a relevance level of 0.5 or higher, the
推定部12および判定部13は、警報識別子5以降の警報についても同様にグループ番号を設定し、警報をグルーピングする。
The
例えば、ALM種別CとALM種別Bとの関連度を算出する場合、読み出した警報がALM種別C の場合、推定部12は、種別ノードC、時刻ノードC1および場所ノードC2の条件付確率を用いる。なお、発生時刻の差分および発生場所の差分が分かる場合は、推定部12は、種別ノードCの条件付確率のみで関連度を算出する。一方、読み出した警報がALM種別Bの場合は、種別ノードB、時刻ノードB3および場所ノードB4の条件付確率を用いる。ALM種別CとALM種別Aとの関連度については、種別ノードCと種別ノードAとはノードが2つ以上離れているため、推定部12は、関連度を算出しない。For example, when calculating the degree of association between ALM type C and ALM type B, if the read alarm is ALM type C, the
このように、本実施形態の警報解析装置1は、発生時刻及び発生場所が近い警報については算出される関連度を高くするベイジアンNWモデルを用いて、新たに発生した複数の警報の中で、警報の発生時刻、発生場所および警報種類が、ベイジアンNWモデルと近い場合に、同一事象で発生した警報群である判定することができる。In this way, the
なお、本実施形態の推定部12は、各警報の発生場所を、図3に示す警報情報から取得するが、発生場所を構成情報DB16から取得してもよい。構成情報DB16は、各装置のネットワーク構成に関する情報が格納されたデータベースである。ネットワーク構成に関する情報には、各装置の装置ID、物理的場所(ビル名、都道府県など)、論理的場所(AS番号、IPアドレス、IPアドレスのサブネットワークなど)、ポート(IF)、ポートの接続先情報などが含まれる。この場合、推定部12は、警報に含まれる装置識別子などをキーとして、各警報の発生場所を構成情報DB16から取得してもよい。
In this embodiment, the
また、本実施形態では、警報の発生場所の差分として、物理的な場所の差分(距離)を用いたが、発生場所の差分は、AS番号、IPアドレスのサブネットワークなどの論理的な場所の差分を用いることとしてもよい。この場合、推定部12は、各警報に含まれる論理的な発生場所を取得してもよく、あるいは、警報に含まれる装置識別子などをキーとして、各警報の論理的な発生場所を構成情報DB16から取得してもよい。
In addition, in this embodiment, the difference in physical location (distance) is used as the difference in the location of the alarm, but the difference in the location of the alarm may be the difference in logical location such as an AS number or an IP address subnetwork. In this case, the
図5は、警報解析装置1の動作を示すフローチャートである。取得部11は、所定のタイミング(時間間隔)で、例えばOpSなどから各装置が発出した警報情報を取得する(S11)。推定部12は、警報情報に含まれる第1警報を読み出し、第1警報の前に読み出した第2警報との関連度(第1関連度)を、ベイジアンNWモデルを用いて推定する(S12)。
Figure 5 is a flowchart showing the operation of the
判定部13は、第1警報と第2警報とが、同じ事象で発生した、同じグループの警報であるか否かを、関連度と所定の閾値とを比較することで判定する(S13)。同じグループの警報と判定した場合(S13:YES)、判定部13は、第1警報に第2警報と同じグループ番号を設定してグルーピングする(S14)。一方、異なるグループと判定した場合(S13:NO)、判定部13は、第1警報に第2警報とは異なるグループ番号を設定する(S15)。The
推定部12は、警報情報に未処理の次の警報がある場合は(S16:YES)、S12に戻り以降の処理を行い、警報情報に次の警報がない場合は(S16:NO)、図4に示すような判定結果を出力し(S17)、処理を終了する。If the warning information contains a next unprocessed warning (S16: YES), the
以上説明した本実施形態の警報解析装置1は、ベイジアンネットワークモデルと、複数の警報の第1関連度を、前記ベイジアンネットワークモデルを用いて推定する推定部12と、前記第1関連度を用いて、同じ事象で発生した警報群をグルーピングする判定部13と、を備え、前記ベイジアンネットワークモデルは、警報種別を示す複数の種別ノードと、各種別ノードにリンクされた時刻ノードおよび場所ノードとを有し、前記時刻ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生時刻との差分に応じた第2関連度が設定され、前記場所ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生場所との差分に応じた第3関連度が設定される。The
これにより、本実施形態では、警報の相関付け(コリレーション)を容易に行うことができる。具体的には、保守者の負担が大きい警報の相関付けを自動化し、新たに発生した警報情報を入力するだけで効率よく警報をグルーピングすることができる。As a result, in this embodiment, alarm correlation can be easily performed. Specifically, alarm correlation, which is a heavy burden on maintenance personnel, is automated, and alarms can be efficiently grouped simply by inputting newly generated alarm information.
上記説明した警報解析装置1は、例えば、図6に示すような汎用的なコンピュータシステムを用いることができる。図示するコンピュータシステムは、CPU(Central Processing Unit、プロセッサ)901と、メモリ902と、ストレージ903(HDD:Hard Disk Drive、SSD:Solid State Drive)と、通信装置904と、入力装置905と、出力装置906とを備える。メモリ902およびストレージ903は、記憶装置である。このコンピュータシステムにおいて、CPU901がメモリ902上にロードされた所定のプログラムを実行することにより、警報解析装置1の各機能が実現される。The above-described
また、警報解析装置1は、1つのコンピュータで実装されてもよく、あるいは複数のコンピュータで実装されても良い。また、警報解析装置1は、コンピュータに実装される仮想マシンであっても良い。
The
警報解析装置1用のプログラムは、HDD、SSD、USB(Universal Serial Bus)メモリ、CD (Compact Disc)、DVD (Digital Versatile Disc)などのコンピュータ読取り可能な記録媒体に記憶することも、ネットワークを介して配信することもできる。
The program for the
なお、本発明は上記実施形態および変形例に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。The present invention is not limited to the above-described embodiments and variations, and many modifications are possible within the scope of the invention.
1 :警報解析装置
11:取得部
12:推定部
13:判定部
14:警報情報DB
15:モデル記憶部
16:構成情報DB
1: Alarm analysis device 11: Acquisition unit 12: Estimation unit 13: Judgment unit 14: Alarm information DB
15: Model storage unit 16: Configuration information DB
Claims (7)
複数の警報の第1関連度を、前記ベイジアンネットワークモデルを用いて推定する推定部と、
前記第1関連度を用いて、同じ事象で発生した警報群をグルーピングする判定部と、を備え、
前記ベイジアンネットワークモデルは、警報種別を示す複数の種別ノードと、各種別ノードにリンクされた時刻ノードおよび場所ノードとを有し、
前記時刻ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生時刻との差分に応じた第2関連度が設定され、前記場所ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生場所との差分に応じた第3関連度が設定される
警報解析装置。 Bayesian network model,
an estimation unit that estimates a first relevance degree of a plurality of alarms by using the Bayesian network model;
a determination unit that uses the first relevance degree to group a group of alarms that have occurred due to the same event,
The Bayesian network model has a plurality of type nodes indicating alarm types, and a time node and a location node linked to each type node,
The time node is set with a second relevance degree according to a difference between the time when an alarm occurred at a child node or parent node of the linked type node, and the location node is set with a third relevance degree according to a difference between the location when an alarm occurred at a child node or parent node of the linked type node.
請求項1に記載の警報解析装置。 The alarm analysis device according to claim 1 , wherein an occurrence probability is set for the type node according to a difference between an occurrence time and an occurrence location of an alarm of a child node or a parent node of the type node.
請求項1または2に記載の警報解析装置。 The alarm analysis device according to claim 1 or 2, wherein a higher second relevance level is set for the time node as a difference in occurrence time is smaller, and a higher third relevance level is set for the place node as a difference in occurrence place is smaller.
請求項1から3のいずれか1項に記載の警報解析装置。 The alarm analysis device according to claim 1 , wherein the difference in the occurrence location is a difference in a physical location of a device that has outputted an alarm, or a difference in a logical location of the device.
複数の警報の第1関連度を、ベイジアンネットワークモデルを用いて推定するステップと、
前記第1関連度を用いて、同じ事象で発生した警報群をグルーピングするステップと、を行い、
前記ベイジアンネットワークモデルは、警報種別を示す複数の種別ノードと、各種別ノードにリンクされた時刻ノードおよび場所ノードとを有し、
前記時刻ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生時刻との差分に応じた第2関連度が設定され、前記場所ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生場所との差分に応じた第3関連度が設定される
警報解析方法。 An alarm analysis method performed by an alarm analysis device, comprising:
estimating a first relevance of the plurality of alarms using a Bayesian network model;
using the first relevance to group a group of alarms generated by the same event;
The Bayesian network model has a plurality of type nodes indicating alarm types, and a time node and a location node linked to each type node,
a second relevance degree is set for the time node according to a difference between the time when an alarm occurred and a child node or parent node of the linked type node, and a third relevance degree is set for the location node according to a difference between the location when an alarm occurred and a child node or parent node of the linked type node.
各種別ノードにリンクされた時刻ノードおよび場所ノードと、を有し、
前記時刻ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生時刻との差分に応じた関連度が設定され、前記場所ノードには、リンクされた種別ノードの子ノードまたは親ノードの警報の発生場所との差分に応じた関連度が設定される
ベイジアンネットワークモデル。 A plurality of type nodes indicating alarm types;
a time node and a place node linked to each type node;
A Bayesian network model in which a relevance level is set for the time node according to a difference between the time when an alarm occurred at a child node or parent node of the linked type node, and a relevance level is set for the location node according to a difference between the location where an alarm occurred at a child node or parent node of the linked type node.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/021559 WO2022259307A1 (en) | 2021-06-07 | 2021-06-07 | Alarm analysis device, alarm analysis method, bayesian network model, and alarm analysis program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2022259307A1 JPWO2022259307A1 (en) | 2022-12-15 |
| JP7602181B2 true JP7602181B2 (en) | 2024-12-18 |
Family
ID=84425008
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023527151A Active JP7602181B2 (en) | 2021-06-07 | 2021-06-07 | Alarm analysis device, alarm analysis method, Bayesian network model, and alarm analysis program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7602181B2 (en) |
| WO (1) | WO2022259307A1 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025173064A1 (en) * | 2024-02-13 | 2025-08-21 | Ntt株式会社 | Alarm analysis device, alarm analysis method, and alarm analysis program |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019114992A (en) | 2017-12-26 | 2019-07-11 | ココロプラン株式会社 | Alert information transmitter |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2536551B2 (en) * | 1987-10-19 | 1996-09-18 | 横河電機株式会社 | Process error cause diagnosis method |
| JPH09307550A (en) * | 1996-05-10 | 1997-11-28 | Hitachi Ltd | Network system monitoring equipment |
| JP3765674B2 (en) * | 1998-03-16 | 2006-04-12 | Kddi株式会社 | Failure location estimation method |
-
2021
- 2021-06-07 JP JP2023527151A patent/JP7602181B2/en active Active
- 2021-06-07 WO PCT/JP2021/021559 patent/WO2022259307A1/en not_active Ceased
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019114992A (en) | 2017-12-26 | 2019-07-11 | ココロプラン株式会社 | Alert information transmitter |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2022259307A1 (en) | 2022-12-15 |
| WO2022259307A1 (en) | 2022-12-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9571334B2 (en) | Systems and methods for correlating alarms in a network | |
| US8645769B2 (en) | Operation management apparatus, operation management method, and program storage medium | |
| JP5874936B2 (en) | Operation management apparatus, operation management method, and program | |
| US20160378583A1 (en) | Management computer and method for evaluating performance threshold value | |
| JP6280862B2 (en) | Event analysis system and method | |
| JP5267749B2 (en) | Operation management apparatus, operation management method, and program | |
| CN105659528B (en) | A kind of method and device for realizing fault location | |
| US9524223B2 (en) | Performance metrics of a computer system | |
| JPWO2011155621A1 (en) | Fault detection apparatus, fault detection method, and program recording medium | |
| CN104639368A (en) | Method and device for processing faults of communications network equipment | |
| CN115037597A (en) | Fault detection method and equipment | |
| US8601318B2 (en) | Method, apparatus and computer program product for rule-based directed problem resolution for servers with scalable proactive monitoring | |
| CN116418653A (en) | Fault location method and device based on multi-index root cause location algorithm | |
| JP6109662B2 (en) | Operation management apparatus, operation management method, and program | |
| JP2019057139A (en) | Operation management system, monitoring server, method and program | |
| JP7322958B2 (en) | Abnormal location estimation device, method and program | |
| JP7602181B2 (en) | Alarm analysis device, alarm analysis method, Bayesian network model, and alarm analysis program | |
| JP4598065B2 (en) | Monitoring simulation apparatus, method and program thereof | |
| CN119718737B (en) | Container failure analysis methods, equipment and storage media | |
| CN119299347B (en) | Method, system, equipment and medium for analyzing performance of single board of full network element | |
| JP7215574B2 (en) | MONITORING SYSTEM, MONITORING METHOD AND PROGRAM | |
| CN115150253B (en) | A fault root cause determination method, device and electronic equipment | |
| JP7534700B2 (en) | Apparatus for generating correct data, method for generating correct data, and program for generating correct data | |
| CN118541656A (en) | Fault Diagnosis in Multi-Component Systems | |
| KR101520103B1 (en) | System and method for inference and surveillance of application fault of it service using functional partitioning |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231128 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241105 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241118 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7602181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |