JP7761155B2 - Causal model construction device, causal model construction method, and program - Google Patents
Causal model construction device, causal model construction method, and programInfo
- Publication number
- JP7761155B2 JP7761155B2 JP2024540129A JP2024540129A JP7761155B2 JP 7761155 B2 JP7761155 B2 JP 7761155B2 JP 2024540129 A JP2024540129 A JP 2024540129A JP 2024540129 A JP2024540129 A JP 2024540129A JP 7761155 B2 JP7761155 B2 JP 7761155B2
- Authority
- JP
- Japan
- Prior art keywords
- anomaly
- causal
- causal model
- data
- model construction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本開示は、因果モデル構築装置、因果モデル構築方法、及びプログラムに関する。
The present disclosure relates to a causal model construction device , a causal model construction method , and a program.
ICT(Information and Communication Technology)事業者にとって、ICTシステム内で発生する異常の状態を把握し、その対応を迅速に行うことは重要な業務である。こうした中で、ICTシステム内で発生した異常を早期に検知するための手法や異常箇所を推定するための手法の研究が従来から行われている。For ICT (Information and Communication Technology) providers, it is important to understand the status of abnormalities that occur within ICT systems and to respond quickly to them. In this context, research has been conducted on methods for early detection of abnormalities that occur within ICT systems and methods for estimating the location of abnormalities.
異常箇所を推定するための手法として、異常箇所とその異常によって引き起こされるICTシステム内のデータ(以下、「観測データ」ともいう。)の変化との関係性を因果モデルとしてベイジアンネットワークによりモデル化し、異常時の観測データから異常箇所を推定する手法が提案されている(非特許文献1~3)。これらの手法は、ルールベース手法又はデータドリブン手法のいずれかに分類することができる。 One method proposed for estimating abnormal locations is to use a Bayesian network to model the relationship between the abnormal location and the changes in data (hereinafter also referred to as "observation data") within the ICT system caused by that abnormality as a causal model, and then estimate the abnormal location from the observation data at the time of the abnormality (Non-Patent Documents 1-3). These methods can be categorized as either rule-based or data-driven.
ルールベース手法は、事前に定義したルールに従ってモデル化する手法である。ルールベース手法では、主にICTシステムのオペレータ等のエキスパートの知識を用いて、異常箇所と観測データの変化との関係性をモデル化する。例えば、非特許文献1では、ルータの正常・異常は隣接しているリンクの観測データのみに影響するというルールをエキスパートの知識から作成し、このルールとICTシステムのネットワークトポロジーにおける隣接関係とを用いて因果モデルを構築している。また、非特許文献2では、テンプレートという抽象的なルールを作成することで、因果モデルの構築を容易するための提案がなされている。 The rule-based approach is a modeling method that follows predefined rules. The rule-based approach primarily uses the knowledge of experts, such as ICT system operators, to model the relationship between abnormal locations and changes in observed data. For example, in Non-Patent Document 1, a rule is created from expert knowledge that states that the normality or abnormality of a router only affects the observed data of adjacent links, and a causal model is constructed using this rule and the adjacent relationships in the ICT system's network topology. Furthermore, Non-Patent Document 2 proposes making it easier to construct causal models by creating abstract rules known as templates.
データドリブン手法は、データからモデル化する手法である。データドリブン手法では、過去に異常が発生したときの観測データを用いて、異常箇所とそのときの観測データの変化との関係性をモデル化する。例えば、非特許文献3では、或る障害に関して過去の複数の事例のデータを用いてその関係性をモデル化している。 Data-driven methods are methods of modeling from data. In data-driven methods, observed data from past anomalies is used to model the relationship between the location of the anomaly and changes in the observed data at that time. For example, in Non-Patent Document 3, the relationship between a certain failure and data from multiple past cases is modeled.
ところで、異常箇所を推定するための手法ではICTシステムのsyslogやトラヒック情報を用いて異常箇所を推定しているが、近年では、syslogやトラヒック情報以外にも、例えば、フローデータやテレメトリーデータ、通信機器に関するセンサデータ等の多様な種類の観測データが容易に取得できるようになってきている。このため、これらの多様な種類の観測データを用いることで、より細かい粒度で異常箇所を推定することができるようになると考えられる。 Methods for estimating abnormal locations use syslogs and traffic information from ICT systems. However, in recent years, it has become easier to obtain a variety of types of observational data in addition to syslogs and traffic information, such as flow data, telemetry data, and sensor data related to communications equipment. Therefore, it is believed that using these various types of observational data will enable the estimation of abnormal locations with finer granularity.
しかしながら、多様な種類の観測データを用いて因果モデルを構築する場合、以下の課題がある。However, when constructing a causal model using diverse types of observational data, the following challenges arise:
課題1:ルールベース手法ではモデル化のために事前にエキスパートの知識が必要となるが、従来技術で使用していた観測データの種類数は非常に少なく、また、ICTシステムで発生する異常は波及して様々な観測データに影響を及ぼすため、ICTシステムで発生する異常と多様な種類の観測データとの関係性を一つ一つルール化することは困難である。 Challenge 1: Rule-based methods require expert knowledge in advance for modeling, but the number of types of observational data used in conventional technology is very small.In addition, abnormalities that occur in ICT systems have a ripple effect and affect various types of observational data, making it difficult to create rules for each and every relationship between abnormalities that occur in ICT systems and the various types of observational data.
課題2:多様な種類の観測データをベイジアンネットワークに入力する場合、ICTシステムから取得した各観測データの値が正常又は異常のいずれであるかを決定しなければならない(これは2値化とも呼ばれる。)。従来技術では観測データの種類数が非常に少なく、また2値化が容易な観測データ(例えば、「アラートが発生したか否か」を表すアラート情報等)を対象としているが、多様な種類の観測データを入力とする場合、各観測データの正常範囲はそれぞれ特性があり、それらを考慮して2値化をすることは困難である。 Issue 2: When various types of observational data are input into a Bayesian network, it is necessary to determine whether the value of each piece of observational data obtained from an ICT system is normal or abnormal (this is also known as binarization). Conventional technology deals with a very small number of types of observational data, and is designed for observational data that is easy to binarize (for example, alert information indicating whether an alert has occurred). However, when various types of observational data are input, the normal range for each piece of observational data has its own characteristics, making it difficult to binarize it while taking these into account.
課題3:データドリブン手法では過去に異常が発生したときの観測データが必要であるが、ICTシステムでは異常が頻発することは一般に少なく、また、観測データの種類が多様になることにより異常に対して観測データが取り得るパターン数が増加する。このため、その増加分を補うだけの異常事例を収集することは一般に困難である。 Challenge 3: Data-driven methods require observational data from past anomalies, but anomalies generally do not occur frequently in ICT systems. Furthermore, as the types of observational data become more diverse, the number of patterns that the observational data can take for anomalies increases. For this reason, it is generally difficult to collect enough anomaly cases to compensate for this increase.
課題4:更に、近年では、ICTシステムの仮想化技術により、ICTシステムのネットワークトポロジーが高頻度で変化することが増えている。また、それに伴い、ICTシステムから取得される観測データも高頻度で変化する。このため、ルールベース手法では異常と観測データとの関係性を一つ一つルール化することが困難であり、データドリブン手法では十分な異常事例を収集することが困難である。Issue 4: Furthermore, in recent years, ICT system virtualization technology has led to increasingly frequent changes in the network topology of ICT systems. Consequently, the observational data acquired from ICT systems also changes frequently. For this reason, it is difficult to create rules for the relationship between anomalies and observational data one by one using rule-based methods, and it is difficult to collect sufficient anomaly cases using data-driven methods.
本開示は、上記の点に鑑みてなされたもので、多様な種類の観測データに対する因果モデルを構築する際に、ネットワークトポロジー情報から因果モデルを構築できる技術を提供することを目的とする。 This disclosure has been made in consideration of the above points and aims to provide a technology that can construct a causal model from network topology information when building a causal model for various types of observation data.
本開示の一態様による因果モデル構築装置は、異常箇所の推定対象となるICTシステムのネットワークトポロジーを表すネットワークトポロジー情報を取得するように構成されている収集部と、前記ネットワークトポロジー情報を用いて、前記ICTシステムに異常が発生したときの観測データから前記異常箇所を推定するための因果モデルを構築するように構成されているモデル構築部と、を有する。 A causal model construction device according to one aspect of the present disclosure includes a collection unit configured to acquire network topology information representing the network topology of an ICT system for which an abnormality location is to be estimated, and a model construction unit configured to use the network topology information to construct a causal model for estimating the abnormality location from observation data when an abnormality occurs in the ICT system.
多様な種類の観測データに対する因果モデルを構築する際に、ネットワークトポロジー情報から因果モデルを構築できる技術が提供される。 When building causal models for various types of observational data, technology is provided that can build causal models from network topology information.
以下、本発明の一実施形態について説明する。以下の実施形態では、ICTシステムのネットワークトポロジー情報から因果モデルを構築し、この因果モデルを用いて多様な種類の観測データからICTシステムの異常箇所を推定する異常箇所推定装置10について説明する。ここで、本実施形態に係る異常箇所推定装置10には、ICTシステムのネットワークトポロジー情報から因果モデルを構築する「モデル構築フェーズ」と、この因果モデルを用いて異常発生時の観測データから異常箇所を推定する「異常箇所推定フェーズ」とが存在する。なお、モデル構築フェーズにおける異常箇所推定装置10は、例えば、「モデル構築装置」等と称されてもよい。また、ネットワークトポロジー情報とは、ICTシステムのネットワークトポロジーを表す情報のことである。ネットワークトポロジー情報は、例えば、ICTシステムを構成する種々の機器(例えば、ルータやサーバ等)をノード、ノード間の通信経路等をリンクとするグラフ構造を表現する情報のことである。 An embodiment of the present invention will now be described. In the following embodiment, an anomaly location estimation device 10 will be described that constructs a causal model from network topology information of an ICT system and uses this causal model to estimate anomaly locations in the ICT system from various types of observation data. The anomaly location estimation device 10 of this embodiment has a "model construction phase" in which a causal model is constructed from network topology information of the ICT system, and an "anomaly location estimation phase" in which this causal model is used to estimate anomaly locations from observation data at the time of an anomaly occurrence. The anomaly location estimation device 10 in the model construction phase may be referred to as, for example, a "model construction device." Network topology information is information that represents the network topology of an ICT system. Network topology information is, for example, information that represents a graph structure in which various devices (e.g., routers, servers, etc.) that make up the ICT system are represented as nodes and communication paths between the nodes are represented as links.
<理論的構成>
まず、モデル構築フェーズにおける因果モデル構築と、異常箇所推定フェーズにおける異常箇所推定との理論的構成について説明する。
<Theoretical structure>
First, the theoretical configuration of the causal model construction in the model construction phase and the abnormality location estimation in the abnormality location estimation phase will be described.
因果モデル構築及び異常箇所推定の対象とするICTシステムを構成する機器をi∈{1,・・・,N}として、機器iの状態をxi∈{0,1}とする。ここで、Nは機器数を表し、xiは0のとき正常状態、1のとき異常状態を表すものとする。 Let i∈{1,...,N} denote the devices that make up the ICT system for which a causal model is constructed and anomaly locations are to be identified, and let x i ∈{0,1} denote the state of device i. Here, N represents the number of devices, and x i = 0 indicates a normal state and 1 indicates an abnormal state.
また、観測データをj∈{1,・・・,M}として、観測データjの状態をyj∈{0,1}とする。ここで、Mは観測データ数を表し、yjは0のとき正常状態、1のとき異常状態を表すものとする。なお、観測データjとしては、例えば、ICTシステムを構成する機器から取得可能な様々なデータ(例えば、syslog、トラヒック情報、フローデータ、テレメトリーデータ、センサデータ等)が挙げられる。 Furthermore, let the observed data be j∈{1, ..., M}, and the state of the observed data j be y j ∈{0, 1}. Here, M represents the number of observed data, and y j represents a normal state when it is 0 and an abnormal state when it is 1. Note that examples of the observed data j include various data that can be obtained from devices that make up the ICT system (e.g., syslog, traffic information, flow data, telemetry data, sensor data, etc.).
各機器iに対して代表ノードk∈{1,・・・,N}を導入し、代表ノードkの状態をrk∈{0,1}とする。ここで、rkは0のとき正常状態、1のとき異常状態を表すものとする。 A representative node kε{1, ..., N} is introduced for each device i, and the state of representative node k is defined as r k ε{0, 1}, where r k is 0 when it represents a normal state and 1 when it represents an abnormal state.
なお、xi、yj及びrkは0又は1の2値ではなく、3値以上の多値を取るものとすることも可能である。 It should be noted that x i , y j and r k may not be binary, 0 or 1, but may be multi-valued, ternary or more.
各機器iは代表ノードkを1つ持つ。代表ノードkは、それに対応する機器iから取得できる観測データの状態を表すノードである。代表ノードkの状態rkは、観測データの異常への寄与度(後述)をもとに決定される。本実施形態では、状態xiに対応する機器iから取得できる観測データの状態を表すrkの因果モデル(つまり、代表ノードkの状態rkに関する因果モデル)を構築する。 Each device i has one representative node k. Representative node k is a node that represents the state of observation data that can be obtained from the corresponding device i. The state r k of representative node k is determined based on the contribution of the observation data to an anomaly (described later). In this embodiment, a causal model of r k that represents the state of observation data that can be obtained from device i that corresponds to state x i (that is, a causal model related to the state r k of representative node k) is constructed.
以下、因果モデルの構築方法と異常箇所推定方法を説明した後、異常への寄与度と代表ノードの状態の決定方法について説明する。 Below, we will explain how to construct a causal model and how to estimate the location of an anomaly, and then explain how to determine the contribution to the anomaly and the state of the representative node.
・因果モデルの構築方法と異常箇所推定方法
因果モデルは、事前確率P(X=x1,・・・,xN|α)と条件付き確率P(R=r1,・・・,rN|X,β,φ)を規定することにより構築する。事前確率は各機器の異常状態へのなりやすさを表す確率であり、以下のように規定する。
- Method for constructing a causal model and method for estimating anomaly locations A causal model is constructed by specifying the prior probability P(X = x1 , ..., xN | α) and the conditional probability P(R = r1 , ..., rN | X, β, φ). The prior probability is the probability that each device is likely to enter an abnormal state, and is specified as follows:
次に、条件付き確率を規定する。条件付き確率は、機器と代表ノードの因果関係と、その度合いとを表す。また、因果関係は、或る機器iが或る代表ノードkと因果関係がある場合、xiとrkの間にエッジei,kを加えることで表す。ここで、機器Xと代表ノードRとの間の因果関係は、ネットワークトポロジー情報を用いて、以下のように規定する。 Next, conditional probability is defined. Conditional probability represents the causal relationship between a device and a representative node and its degree. Furthermore, when a certain device i has a causal relationship with a certain representative node k, the causal relationship is expressed by adding an edge e i,k between x i and r k . Here, the causal relationship between device X and representative node R is defined as follows using network topology information:
そして、機器Xと代表ノードRとの間のすべてのエッジの集合をEとして、エッジei,kのインデックスを表すパラメータをφi,kとすると、以下のようになる。 Then, if the set of all edges between device X and representative node R is E and the parameter representing the index of edge e i,k is φ i,k , then the following holds:
最後に、代表ノードの状態が与えられたとき、事前確率と条件付き確率を用いて、以下を解くことにより異常箇所を推定する。 Finally, given the state of the representative node, the anomaly location is estimated by solving the following using the prior probability and conditional probability:
以上のように、ネットワークトポロジー情報のみを用いて、様々な種類の観測データに対する因果モデルを構築することができる。 As described above, causal models can be constructed for various types of observed data using only network topology information.
・異常への寄与度と代表ノードの状態の決定方法
次に、異常への寄与度と代表ノードの決定方法について説明する。cをM次元のベクトルで、各ベクトルの要素cjが観測データjの異常への寄与度を表しているものとする。ここで、異常への寄与度は、各観測データが異常にどの程度影響しているかを表す値である。このため、異常状態になった機器に近い機器から取得される観測データは、異常になった機器から遠い機器から取得される観測データよりも寄与度が高くなる。このように、観測データの値を直接使うのではなく、寄与度を入力として使うことで、異常状態の機器はその近傍の機器から取得した観測データのみに影響を与えると仮定することができる。また、異常への寄与度は各観測データが異常にどの程度影響しているかを表しているため、各観測データの特性の多様性を考慮する必要がなく、寄与度の大きさだけで2値化の閾値を設定することが可能となる。
Method for Determining the Contribution to an Anomaly and the State of a Representative Node Next, a method for determining the contribution to an anomaly and the representative node will be described. Let c be an M-dimensional vector, and each vector element cj represents the contribution of observation data j to the anomaly. Here, the contribution to an anomaly is a value that represents the extent to which each observation data item contributes to the anomaly. Therefore, observation data acquired from devices closer to an abnormal device will have a higher contribution than observation data acquired from devices farther from the abnormal device. In this way, by using the contribution as an input rather than directly using the observation data value, it is possible to assume that an abnormal device only affects the observation data acquired from its nearby devices. Furthermore, because the contribution to an anomaly represents the extent to which each observation data item contributes to the anomaly, there is no need to consider the diversity of the characteristics of each observation data item, and it is possible to set the binarization threshold based solely on the magnitude of the contribution.
異常への寄与度は、M次元の正常な観測データを用いて学習を行ったAutoEncoder(参考文献2)に対して、例えば、参考文献3や参考文献4に記載されている手法を適用することで計算することができる。 The contribution to anomalies can be calculated by applying the methods described in, for example, References 3 and 4 to an AutoEncoder (Reference 2) trained using M-dimensional normal observation data.
例えば、AutoEncoderの学習に使用した損失関数をL(v)=||v-^v||とする。ただし、vはAutoEncoderへの入力、^vはAutoEncoderからの出力である。このとき、寄与度cは、c=argminγL(v+γ)+λ|γ|により計算することができる。ここで、λは予め設定された定数である。これは、L(v)の値が下がる(つまり、異常度が下がる)ようなγを見つけるということを意味している。見つかったγは異常度を下げる、つまり異常へ寄与しているものであると考えられるためである。なお、上記の寄与度cを計算するための式の第2項は、γがスパース性を満たすようにするためのペナルティ項である。 For example, let the loss function used in training the AutoEncoder be L(v) = ∥v - ^v∥. Here, v is the input to the AutoEncoder, and ^v is the output from the AutoEncoder. In this case, the contribution c can be calculated as c = argmin γ L(v + γ) + λ|γ|. Here, λ is a preset constant. This means finding a γ that reduces the value of L(v) (i.e., reduces the degree of anomaly). This is because the found γ is considered to reduce the degree of anomaly, that is, to contribute to anomalies. Note that the second term in the above equation for calculating the contribution c is a penalty term to ensure that γ satisfies sparsity.
次に、代表ノードの状態の決定方法について説明する。異常への寄与度cの各要素の絶対値が大きい順に上位s個の値を集めた集合をDsとする。ここで、sの値は任意に決めることができるが、例えば、観測データの種類数Mの1%の整数部分、等とすることが考えられる。そして、cの各要素の要素番号のうち、Dsに含まれる値に対応する要素の要素番号の集合Ωsとする。すなわち、Ωs={j||cj|∈Ds}とする。 Next, a method for determining the state of the representative node will be described. Let Ds be a set of the top s values, sorted in descending order by the absolute value of each element of the contribution c to the anomaly. Here, the value of s can be determined arbitrarily, but it could be, for example, the integer part of 1% of the number M of types of observed data. Then, let Ωs be a set of element numbers of elements of c that correspond to the values included in Ds . That is, let Ωs = {j|| cj | ∈Ds }.
そして、代表ノードの状態rkを以下の式により決定する。 Then, the state r k of the representative node is determined by the following equation.
すなわち、各k∈{1,・・・,N}に対してf(k)を計算し、その計算の結果を表すインデックス集合の中にΩsの要素が1つでも入っていればrk=1、そうでなければrk=0とする。 That is, f(k) is calculated for each kε{1, . . . , N}, and if at least one element of Ω s is included in the index set representing the calculation result, r k =1; otherwise, r k =0.
<異常箇所推定装置10のハードウェア構成例>
本実施形態に係る異常箇所推定装置10のハードウェア構成例を図1に示す。図1に示すように、本実施形態に係る異常箇所推定装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続されている。
<Example of hardware configuration of abnormality location estimation device 10>
An example of the hardware configuration of an abnormality location estimation device 10 according to this embodiment is shown in Fig. 1. As shown in Fig. 1, the abnormality location estimation device 10 according to this embodiment includes an input device 101, a display device 102, an external I/F 103, a communication I/F 104, a random access memory (RAM) 105, a read only memory (ROM) 106, an auxiliary storage device 107, and a processor 108. These pieces of hardware are connected to each other via a bus 109 so as to be able to communicate with each other.
入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、異常箇所推定装置10は、入力装置101及び表示装置102のうちの少なくとも一方を有していなくてもよい。 The input device 101 is, for example, a keyboard, a mouse, a touch panel, a physical button, etc. The display device 102 is, for example, a display, a display panel, etc. Note that the abnormality location estimation device 10 does not necessarily have to have at least one of the input device 101 and the display device 102.
外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。異常箇所推定装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。なお、記録媒体103aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。 The external I/F 103 is an interface with external devices such as a recording medium 103a. The abnormality location estimation device 10 can read and write data from and to the recording medium 103a via the external I/F 103. Examples of the recording medium 103a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), an SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.
通信I/F104は、異常箇所推定装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等のストレージ装置(記憶装置)である。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置である。 The communication I/F 104 is an interface for connecting the anomaly location estimation device 10 to a communication network. The RAM 105 is a volatile semiconductor memory (storage device) that temporarily stores programs and data. The ROM 106 is a non-volatile semiconductor memory (storage device) that can store programs and data even when the power is turned off. The auxiliary storage device 107 is a storage device (storage device) such as an HDD (Hard Disk Drive), SSD (Solid State Drive), or flash memory. The processor 108 is an arithmetic device such as a CPU (Central Processing Unit) or GPU (Graphics Processing Unit).
本実施形態に係る異常箇所推定装置10は、図1に示すハードウェア構成を有することにより、後述する因果モデル構築処理や異常箇所推定処理を実現することができる。なお、図1に示すハードウェア構成は一例であって、異常箇所推定装置10のハードウェア構成はこれに限られるものではない。例えば、異常箇所推定装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。 The anomaly location estimation device 10 according to this embodiment has the hardware configuration shown in FIG. 1, and is therefore capable of performing the causal model construction process and the anomaly location estimation process described below. Note that the hardware configuration shown in FIG. 1 is merely an example, and the hardware configuration of the anomaly location estimation device 10 is not limited to this. For example, the anomaly location estimation device 10 may have multiple auxiliary storage devices 107 or multiple processors 108, may not have some of the hardware shown in the figure, or may have various hardware components other than the hardware shown in the figure.
<異常箇所推定装置10の機能構成例>
本実施形態に係る異常箇所推定装置10の機能構成例を図2に示す。図2に示すように、本実施形態に係る異常箇所推定装置10は、収集部201と、因果モデル構築部202と、寄与度計算部203と、推定部204と、ユーザインタフェース部205とを有する。これら各部は、例えば、異常箇所推定装置10にインストールされた1以上のプログラムが、プロセッサ108等に実行させる処理により実現される。また、本実施形態に係る異常箇所推定装置10は、ICTシステムデータDB301と、因果モデルDB302と、寄与度DB303とを有する。これら各DBは、例えば、補助記憶装置107等により実現される。
<Example of functional configuration of abnormality location estimation device 10>
An example of the functional configuration of the anomaly location estimation device 10 according to this embodiment is shown in Fig. 2. As shown in Fig. 2, the anomaly location estimation device 10 according to this embodiment includes a collection unit 201, a causal model construction unit 202, a contribution degree calculation unit 203, an estimation unit 204, and a user interface unit 205. Each of these units is realized, for example, by processing in which one or more programs installed in the anomaly location estimation device 10 are executed by the processor 108 or the like. The anomaly location estimation device 10 according to this embodiment also includes an ICT system data DB 301, a causal model DB 302, and a contribution degree DB 303. Each of these DBs is realized, for example, by the auxiliary storage device 107 or the like.
収集部201は、ネットワークトポロジー情報と各観測データjとをICTシステムから収集する。収集部201によって収集されたネットワークトポロジー情報及び各観測データjはICTシステムデータDB301に格納される。 The collection unit 201 collects network topology information and each observation data j from the ICT system. The network topology information and each observation data j collected by the collection unit 201 are stored in the ICT system data DB 301.
因果モデル構築部202は、ICTシステムデータDB301に格納されているネットワークトポロジー情報を用いて、因果モデル(つまり、上記の数1に示す事前確率P(X=x1,・・・,xN|α)と上記の数4に示す条件付き確率P(R=r1,・・・,rN|X,β,φ))を構築する。因果モデル構築部202によって構築された因果モデルは因果モデルDB302に格納される。 The causal model construction unit 202 constructs a causal model (i.e., the prior probability P(X= x1 , ..., xN |α) shown in the above equation 1 and the conditional probability P(R= r1 , ..., rN |X, β, φ) shown in the above equation 4) using network topology information stored in the ICT system data DB 301. The causal model constructed by the causal model construction unit 202 is stored in the causal model DB 302.
寄与度計算部203は、異常箇所を推定する際に、ICTシステムデータDB301に格納されている各観測データjを用いて、異常への寄与度cを計算する。寄与度計算部203によって計算された寄与度cは寄与度DB303に格納される。 When estimating the location of an anomaly, the contribution calculation unit 203 calculates the contribution c to the anomaly using each observation data j stored in the ICT system data DB 301. The contribution c calculated by the contribution calculation unit 203 is stored in the contribution DB 303.
推定部204は、因果モデルDB302に格納されている因果モデルと、寄与度DB303に格納されている寄与度cとを用いて、異常箇所^Xを推定する。すなわち、推定部204は、寄与度cから代表ノードkの状態rkを決定した上で、これら代表ノードkの状態rkを用いて上記の数5により異常箇所^Xを推定する。 The estimation unit 204 estimates the abnormality location ^X using the causal model stored in the causal model DB 302 and the contribution c stored in the contribution DB 303. That is, the estimation unit 204 determines the state r k of the representative node k from the contribution c, and then estimates the abnormality location ^X according to the above equation 5 using the state r k of the representative node k.
ユーザインタフェース部205は、推定部204によって推定された異常箇所^Xをユーザ(例えば、ICTシステムのオペレータ等)に提示する。 The user interface unit 205 presents the abnormality location ^X estimated by the estimation unit 204 to a user (e.g., an operator of an ICT system).
<因果モデル構築処理>
以下、本実施形態に係る因果モデル構築処理について、図3を参照しながら説明する。因果モデル構築処理は、モデル構築フェーズで実行される処理である。なお、以下では、収集部201によって収集されたネットワークトポロジー情報がICTシステムデータDB301に格納されているものとする。
<Causal model construction process>
The causal model construction process according to this embodiment will be described below with reference to Fig. 3. The causal model construction process is a process executed in the model construction phase. In the following, it is assumed that the network topology information collected by the collection unit 201 is stored in the ICT system data DB 301.
因果モデル構築部202は、ICTシステムデータDB301に格納されているネットワークトポロジー情報を入力する(ステップS101)。 The causal model construction unit 202 inputs network topology information stored in the ICT system data DB 301 (step S101).
次に、因果モデル構築部202は、上記のステップS101で入力したネットワークトポロジー情報を用いて、因果モデル(上記の数1に示す事前確率P(X=x1,・・・,xN|α)と上記の数4に示す条件付き確率P(R=r1,・・・,rN|X,β,φ))を構築する(ステップS102)。 Next, the causal model construction unit 202 constructs a causal model (the prior probability P(X = x1 , ..., xN | α) shown in the above equation 1 and the conditional probability P(R = r1 , ..., rN | X, β, φ) shown in the above equation 4) using the network topology information input in the above step S101 (step S102).
そして、因果モデル構築部202は、上記のステップS102で構築した因果モデルを因果モデルDB302に格納する(ステップS103)。 Then, the causal model construction unit 202 stores the causal model constructed in step S102 above in the causal model DB 302 (step S103).
<異常箇所推定処理>
以下、本実施形態に係る異常箇所推定処理について、図4を参照しながら説明する。異常箇所推定処理は、異常箇所推定フェーズで実行される処理である。なお、以下では、ICTシステムで何等かの異常が発生しており、そのときの各観測データjが収集部201によって収集されてICTシステムデータDB301に格納されているものとする。
<Abnormal location estimation process>
The abnormality location estimation process according to this embodiment will be described below with reference to Fig. 4. The abnormality location estimation process is executed in the abnormality location estimation phase. In the following, it is assumed that some abnormality has occurred in the ICT system, and that each piece of observation data j at that time has been collected by the collection unit 201 and stored in the ICT system data DB 301.
寄与度計算部203は、当該異常発生時の各観測データjを入力する(ステップS201)。 The contribution calculation unit 203 inputs each observation data j at the time the abnormality occurred (step S201).
次に、寄与度計算部203は、上記のステップS201で入力した各観測データjを用いて、当該異常への寄与度cを計算する(ステップS202)。すなわち、寄与度計算部203は、例えば、AutoEncoderの学習に使用した損失関数をL(v)=||v-^v||として、c=argminγL(v+γ)+λ|γ|により寄与度cを計算する。 Next, the contribution calculation unit 203 calculates the contribution c to the anomaly using each piece of observation data j input in step S201 (step S202). That is, the contribution calculation unit 203 calculates the contribution c by c = argmin γ L(v + γ) + λ|γ|, where L(v) = ∥v - ^v∥ is the loss function used in learning the AutoEncoder, for example.
次に、寄与度計算部203は、上記のステップS202で計算した寄与度cを寄与度DB303に格納する(ステップS203)。 Next, the contribution calculation unit 203 stores the contribution c calculated in step S202 above in the contribution DB 303 (step S203).
次に、推定部204は、因果モデルDB302に格納されている因果モデルと、寄与度DB303に格納されている寄与度cとを用いて、異常箇所^Xを推定する(ステップS204)。すなわち、推定部204は、上記の数6により寄与度cから代表ノードkの状態rkを決定した上で、これら代表ノードkの状態rkを用いて上記の数5により異常箇所^Xを推定する。 Next, the estimation unit 204 estimates the abnormality location ^X using the causal model stored in the causal model DB 302 and the contribution c stored in the contribution DB 303 (step S204). That is, the estimation unit 204 determines the state r k of the representative node k from the contribution c using the above equation 6, and then estimates the abnormality location ^X using the above equation 5 using the state r k of the representative node k.
そして、ユーザインタフェース部205は、上記のステップS204で推定された異常箇所^Xをディスプレイ等の表示装置102に出力し、ユーザに提示する(ステップS205)。 Then, the user interface unit 205 outputs the abnormal location ^X estimated in step S204 above to a display device 102 such as a display and presents it to the user (step S205).
<まとめ>
以上により、モデル構築フェーズにおいて、本実施形態に係る異常箇所推定装置10は、「或る機器で異常が発生した場合はその機器と隣接する機器の観測データに影響が出る」という仮定の下で、ネットワークトポロジー情報のみを用いて、代表ノードkの状態rkに関する因果モデル(ベイジアンネットワーク)を構築する。また、異常箇所推定フェーズにおいて、本実施形態に係る異常箇所推定装置10は、異常発生時の各観測データjから計算される寄与度cを用いて、因果モデル(ベイジアンネットワーク)により異常箇所を推定することができる。これにより、本実施形態に係る異常箇所推定装置10は、上記の課題1~課題4を解決することができる。
<Summary>
As described above, in the model construction phase, the anomaly location estimation device 10 according to this embodiment constructs a causal model (Bayesian network) for the state r k of the representative node k using only network topology information under the assumption that "when an abnormality occurs in a certain device, it will affect the observation data of that device and its adjacent devices." Furthermore, in the anomaly location estimation phase, the anomaly location estimation device 10 according to this embodiment can estimate the anomaly location through the causal model (Bayesian network) using the contribution c calculated from each piece of observation data j at the time of the anomaly occurrence. As a result, the anomaly location estimation device 10 according to this embodiment can solve the above problems 1 to 4.
すなわち、本実施形態に係る異常箇所推定装置10は、課題1の「異常が波及して様々な観測データに影響を及ぼす」という点を「異常への寄与度」というデータを用いることで解決し、また「異常と多様な種類の観測データとの関係性を一つ一つルール化することが困難」という点をベイジアンネットワークに代表ノードというノードを導入することで解決している。 In other words, the anomaly location estimation device 10 according to this embodiment solves problem 1, that "anomalies spread and affect various types of observation data," by using data called "contribution to the anomaly," and solves problem 1, that "it is difficult to create rules for the relationships between anomalies and various types of observation data one by one," by introducing a node called a representative node into the Bayesian network.
また、「異常への寄与度」というデータを用いることで、各観測データjの正常状態を考える必要がなく、寄与度の値の大きさのみで2値化することが可能となり、課題2を解決している。更に、ネットワークトポロジー情報のみから因果モデルを構築できるため課題4を解決しており、加えて過去の異常データを使用しないため課題3が問題とならない。 In addition, by using data called "contribution to anomalies," there is no need to consider the normal state of each observation data j; it is possible to binarize based solely on the magnitude of the contribution value, thereby resolving problem 2. Furthermore, problem 4 is resolved because a causal model can be constructed from network topology information alone, and problem 3 is not an issue because past anomaly data is not used.
以上により、本実施形態に係る異常箇所推定装置10では、上記の課題1~課題4を解決し、ICTシステムから取得できる多様な種類の観測データに対する因果モデルにより当該ICTシステムの異常箇所を推定することが可能となる。 As a result, the anomaly location estimation device 10 of this embodiment solves the above-mentioned problems 1 to 4 and makes it possible to estimate anomaly locations in an ICT system using a causal model for various types of observation data that can be obtained from the ICT system.
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。 The present invention is not limited to the specifically disclosed embodiments above, and various modifications, alterations, and combinations with known technologies are possible without departing from the scope of the claims.
[参考文献]
参考文献1:田中和之, [チュートリアル講演] 確率的情報処理と確率伝搬アルゴリズムの基礎, 信学技報, 2004.
参考文献2:M. Sakurada and T. Yairi, "Anomaly detection using autoencoders with nonlinear dimensionality reduction," in Proc. MLSDA, ser. MLSDA'14, 2014, p. 4-11.
参考文献3:Y. Ikeda, K. Tajiri, Y. Nakano, K. Watanabe, and K. Ishibashi, "Estimation of dimensions contributing to detected anomalies with variational autoencoders," arXiv preprint arXiv:1811.04576, 2018.
参考文献4:Scott Lundberg, Su-In Lee,"A Unified Approach to Interpreting Model Predictions,", in Proc. NIPS 2017.
[References]
Reference 1: Kazuyuki Tanaka, [Tutorial Lecture] Fundamentals of Probabilistic Information Processing and Belief Propagation Algorithms, IEICE Technical Report, 2004.
Reference 2: M. Sakurada and T. Yairi, "Anomaly detection using autoencoders with nonlinear dimensionality reduction," in Proc. MLSDA, ser. MLSDA'14, 2014, p. 4-11.
Reference 3: Y. Ikeda, K. Tajiri, Y. Nakano, K. Watanabe, and K. Ishibashi, "Estimation of contributing dimensions to detected anomalies with variational autoencoders," arXiv preprint arXiv:1811.04576, 2018.
Reference 4: Scott Lundberg, Su-In Lee, "A Unified Approach to Interpreting Model Predictions," in Proc. NIPS 2017.
10 異常箇所推定装置
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 収集部
202 因果モデル構築部
203 寄与度計算部
204 推定部
205 ユーザインタフェース部
301 ICTシステムデータDB
302 因果モデルDB
303 寄与度DB
10 Abnormality location estimation device 101 Input device 102 Display device 103 External I/F
103a Recording medium 104 Communication I/F
105 RAM
106 ROM
107 Auxiliary storage device 108 Processor 109 Bus 201 Collection unit 202 Causal model construction unit 203 Contribution calculation unit 204 Estimation unit 205 User interface unit 301 ICT system data DB
302 Causal Model DB
303 Contribution DB
Claims (3)
前記ネットワークトポロジー情報を用いて、前記ICTシステムに異常が発生したときの観測データから前記異常箇所を推定するための因果モデルを構築するように構成されているモデル構築部と、
を有し、
前記モデル構築部は、
前記ICTシステムを構成する機器の異常状態へのなりやすさを表す事前確率と、前記機器と該機器から取得される観測データの状態を表す代表ノードの状態との因果関係及び該因果関係の度合いを表す条件付き確率とで規定されるベイジアンネットワークを前記因果モデルとして構築するように構成されている、因果モデル構築装置。 a collection unit configured to acquire network topology information representing a network topology of an ICT system in which an abnormality location is to be estimated;
a model construction unit configured to construct a causal model for estimating the location of an anomaly from observation data when an anomaly occurs in the ICT system, using the network topology information; and
and
The model construction unit
A causal model construction device configured to construct a Bayesian network as the causal model, which is defined by a priori probability representing the likelihood of an equipment constituting the ICT system falling into an abnormal state, and a conditional probability representing the causal relationship between the equipment and the state of a representative node representing the state of the observation data obtained from the equipment, and the degree of the causal relationship.
前記ネットワークトポロジー情報を用いて、前記ICTシステムに異常が発生したときの観測データから前記異常箇所を推定するための因果モデルを構築するモデル構築手順と、
をコンピュータが実行し、
前記モデル構築手順は、
前記ICTシステムを構成する機器の異常状態へのなりやすさを表す事前確率と、前記機器と該機器から取得される観測データの状態を表す代表ノードの状態との因果関係及び該因果関係の度合いを表す条件付き確率とで規定されるベイジアンネットワークを前記因果モデルとして構築する、因果モデル構築方法。 a collection procedure for acquiring network topology information representing the network topology of an ICT system in which an anomaly location is to be estimated;
a model construction step of constructing a causal model for estimating the location of an anomaly from observation data when an anomaly occurs in the ICT system, using the network topology information;
The computer executes
The model building procedure includes:
A causal model construction method in which a Bayesian network is constructed as the causal model, which is defined by a priori probability representing the likelihood of an equipment constituting the ICT system falling into an abnormal state, and a conditional probability representing the causal relationship between the equipment and the state of a representative node representing the state of the observation data obtained from the equipment, and the degree of the causal relationship.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2022/030489 WO2024034024A1 (en) | 2022-08-09 | 2022-08-09 | Causal model construction device, abnormal location estimation device, causal model construction method, abnormal location estimation method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2024034024A1 JPWO2024034024A1 (en) | 2024-02-15 |
| JP7761155B2 true JP7761155B2 (en) | 2025-10-28 |
Family
ID=89851272
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024540129A Active JP7761155B2 (en) | 2022-08-09 | 2022-08-09 | Causal model construction device, causal model construction method, and program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7761155B2 (en) |
| WO (1) | WO2024034024A1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016118436A (en) | 2014-12-19 | 2016-06-30 | 三菱電機株式会社 | Target type identification device |
| JP2019101712A (en) | 2017-12-01 | 2019-06-24 | 日本電信電話株式会社 | Abnormality estimation device, abnormality estimation method and program |
-
2022
- 2022-08-09 JP JP2024540129A patent/JP7761155B2/en active Active
- 2022-08-09 WO PCT/JP2022/030489 patent/WO2024034024A1/en not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016118436A (en) | 2014-12-19 | 2016-06-30 | 三菱電機株式会社 | Target type identification device |
| JP2019101712A (en) | 2017-12-01 | 2019-06-24 | 日本電信電話株式会社 | Abnormality estimation device, abnormality estimation method and program |
Non-Patent Citations (1)
| Title |
|---|
| 松尾洋一 ほか,異常への寄与度を用いた異常箇所推定手法,2019年電子情報通信学会総合大会講演論文集 通信2,日本,一般社団法人電子情報通信学会,2019年,p. 100,ISSN 1349-1369,特に第2-4章、表2 |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2024034024A1 (en) | 2024-02-15 |
| JPWO2024034024A1 (en) | 2024-02-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| SG11202109673PA (en) | Adaptive error correction in quantum computing | |
| WO2009090939A1 (en) | Apparatus and method for detecting network abnormality | |
| JP7414135B2 (en) | Model construction device, estimation device, model construction method, estimation method and program | |
| Bogojeska et al. | Classifying server behavior and predicting impact of modernization actions | |
| Yang et al. | A causal approach to detecting multivariate time-series anomalies and root causes | |
| EP3956771B1 (en) | Timeout mode for storage devices | |
| JP6835702B2 (en) | Anomaly estimation device, anomaly estimation method and program | |
| Han et al. | On the complexity of counterfactual reasoning | |
| JP6649294B2 (en) | State determination device, state determination method, and program | |
| JP7761155B2 (en) | Causal model construction device, causal model construction method, and program | |
| US11115280B2 (en) | Data-driven identification of features related to a state change of a network component | |
| JP6787873B2 (en) | Abnormal type judgment device, abnormal type judgment method and program | |
| JP7414136B2 (en) | Model construction device, estimation device, model construction method, estimation method and program | |
| CN119544520A (en) | A method and system for constructing a fault propagation simulation model for a power communication network | |
| JP7517482B2 (en) | Learning device, anomaly detection device, learning method, anomaly detection method, and program | |
| JP2020086474A (en) | Recovery support apparatus, recovery support method and program | |
| Ramoliya et al. | Advanced techniques to predict and detect cloud system failure: A survey | |
| JP7619487B2 (en) | Distributed computing method, distributed computing device, and program | |
| US12008418B2 (en) | Automated causal analysis of issues affecting workloads executing in an information technology infrastructure | |
| WO2023188017A1 (en) | Training data generation device, training data generation method, and program | |
| JP7647916B2 (en) | Learning device, learning method, and program | |
| Tao et al. | ReLVaaS: Verification-as-a-Service to Analyze Trustworthiness of RL-based Solutions in 6G Networks | |
| JP7784592B1 (en) | Anomaly detection device and anomaly detection method | |
| WO2024252479A1 (en) | Log processing device, log processing method, and program | |
| JP7517467B2 (en) | System monitoring device, system monitoring method, and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20241203 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250624 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250812 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250916 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250929 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7761155 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |