JP7694702B2 - Fault information estimation device, fault information estimation method, and fault information estimation program - Google Patents
Fault information estimation device, fault information estimation method, and fault information estimation program Download PDFInfo
- Publication number
- JP7694702B2 JP7694702B2 JP2023564300A JP2023564300A JP7694702B2 JP 7694702 B2 JP7694702 B2 JP 7694702B2 JP 2023564300 A JP2023564300 A JP 2023564300A JP 2023564300 A JP2023564300 A JP 2023564300A JP 7694702 B2 JP7694702 B2 JP 7694702B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- fault information
- information estimation
- fault
- time series
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Description
本発明は、障害情報推定装置、障害情報推定方法、および障害情報推定プログラムに関する。 The present invention relates to a fault information estimation device, a fault information estimation method, and a fault information estimation program.
サービス保守業務においては、サービスに障害が発生した際に、監視対象システム内の多数の監視対象(装置やアプリケーションなど)からデータを取得して解析することにより、障害が発生している監視対象の障害の状況・原因等の障害情報を推定することが行われる。 In service maintenance work, when a service failure occurs, data is collected and analyzed from a large number of monitored targets (devices, applications, etc.) within the monitored system to estimate failure information such as the status and cause of the failure in the monitored target.
監視対象システムにおいて、障害発生後のユーザへの悪影響を最小限にするため、障害情報の推定は効率良く短時間で行われることが望まれる。 In monitored systems, it is desirable to estimate fault information efficiently and quickly in order to minimize the adverse impact on users after a fault occurs.
本発明は、上記事情に着目してなされたもので、その目的は、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムを提供することにある。The present invention has been made in light of the above-mentioned circumstances, and its purpose is to provide a fault information estimation device, a fault information estimation method, and a fault information estimation program that efficiently and quickly estimate fault information of a monitored object in which a fault has occurred.
本発明の一態様は、障害情報推定装置である。障害情報推定装置は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部と、前記枝刈り部によって抽出された時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する時系列データエンコーダを有する。 One aspect of the present invention is a fault information estimation device, which includes a data acquisition unit that acquires data having time series data and metadata of multiple metrics of multiple monitoring targets in a monitored system, a pruning unit that extracts metrics data related to a fault from the multiple metrics data, a fault information estimation unit that estimates fault information of a monitoring target in which a fault has occurred based on the data extracted by the pruning unit , and a time series data encoder that converts a timestamp representing an absolute time of the time series data extracted by the pruning unit into a timestamp representing a relative time within a time window .
本発明の一態様は、障害情報推定方法である。障害情報推定方法は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得することと、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することと、障害に関連する前記メトリクスの時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換することを有する。 One aspect of the present invention is a fault information estimation method, which includes acquiring data having time series data and metadata of multiple metrics of multiple monitored targets in a monitored system, extracting metrics data related to a fault from the multiple metrics data, estimating fault information of a monitored target in which a fault has occurred based on the metrics data related to the fault, and converting a timestamp representing an absolute time of the time series data of the metrics related to the fault into a timestamp representing a relative time within a time window .
本発明の一態様は、障害情報推定プログラムである。障害情報推定プログラムは、上記の障害情報推定装置の各構成要素の機能をコンピュータに実行させる。One aspect of the present invention is a fault information estimation program. The fault information estimation program causes a computer to execute the functions of each component of the fault information estimation device described above.
本発明によれば、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムが提供される。 According to the present invention, there is provided a fault information estimation device, a fault information estimation method, and a fault information estimation program that efficiently and quickly estimate fault information of a monitored object in which a fault has occurred.
以下、図面を参照して本発明に係る実施形態について説明する。 Below, an embodiment of the present invention is described with reference to the drawings.
[構成例]
(機能構成)
まず、実施形態に係る障害情報推定装置の機能構成について説明する。図1は、実施形態に係る障害情報推定装置30の機能構成の一例を示すブロック図である。図1には、障害情報推定装置30に加えて、監視対象システム内のノード10と監視システム20が併せて図示されている。監視対象システム内には多数のノード10が存在するが、図1には、便宜上、代表的に1つのノード10だけが図示されている。
[Configuration example]
(Functional configuration)
First, the functional configuration of a fault information estimation device according to an embodiment will be described. Fig. 1 is a block diagram showing an example of the functional configuration of a fault
図1に示されるように、各ノード10は、アプリケーション11と、監視エージェント12と、データ記録部13を有する。監視エージェント12は、同じノード10に配置されアプリケーション11に関する監視項目の時系列データとメタデータを収集し、これをデータ記録部13に記録する。監視エージェント12はまた、データ記録部13に記録した時系列データとメタデータを監視システム20にポーリング/テレメトリで送信する。
As shown in Fig. 1, each
監視システム20は、監視対象システム内の複数のノード10から各監視対象のメトリクスのデータを収集する。以下では、メトリクスのデータを便宜的にメトリクスデータとも称する。The
障害情報推定装置30は、監視システム20から複数の監視対象の複数のメトリクスデータを取得して障害情報を推定して障害レポートを出力する装置である。The fault
障害情報推定装置30は、データ取得部31と、枝刈り部33と、時系列データエンコーダ34と、メタデータエンコーダ35と、障害情報推定部36と、障害レポート出力部37を有する。The fault
データ取得部31は、監視システム20から複数の監視対象の複数のメトリクスのデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。各時系列データは、各時刻におけるタイムスタンプと他のデータ値の集合で構成される。各メタデータは、メトリクスに付与された名前、変数名、コンテナ名などのテキスト情報で構成される。The
枝刈り部33は、データ取得部31が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータだけを抽出(枝刈り)する。例えば、枝刈り部33は、数千個のメトリクスデータから数十個のメトリクスデータを抽出する。これにより、障害情報の推定に使用するメトリクスデータを低減する。障害に関連するメトリクスデータは、時間ウィンドウ中に異常な変動のある時系列データと、これに対応するメタデータである。メトリクスデータの抽出は、例えば、時系列データに対して1次元時系列異常検知モデルを用いて異常スコアを計算することにより行う。1次元時系列異常検知には、Spectral Residual(SR法)や、フーリエ変換ベースの異常検知手法などの手法が利用可能である。枝刈り部33は、抽出したメトリクスデータを、時系列データエンコーダ34とメタデータエンコーダ35に供給する。The
時系列データエンコーダ34は、時系列データのタイムスタンプとデータ値を同時にエンコードする。エンコードは、時系列データのタイムスタンプの変換を含む。タイムスタンプの変換は、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、時系列データエンコーダ34は、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。時系列データエンコーダ34は、エンコード結果をメタデータエンコーダ35に供給する。The time
メタデータエンコーダ35は、メトリクス毎に、時系列データエンコーダ34から供給される時系列データと、枝刈り部33から供給されるメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。メタデータエンコーダ35は、エンコード結果を障害情報推定部36に供給する。
The
障害情報推定部36は、時系列データエンコーダ34のエンコード結果とメタデータエンコーダ35のエンコード結果に基づいて、障害が発生している監視対象の障害の状況・原因等の障害情報を推定する。障害情報推定部36はまた、推定結果に基づいて障害レポートを作成し、これを障害レポート出力部37に供給する。The fault
障害レポート出力部37は、障害情報推定部36から障害レポートを受け取り、これを出力する。The fault
(ハードウェア構成)
次に、障害情報推定装置30のハードウェア構成について説明する。障害情報推定装置30は、コンピュータで構成される。例えば、障害情報推定装置30は、パーソナルコンピュータやサーバコンピュータ等で構成される。
(Hardware configuration)
Next, a description will be given of a hardware configuration of the fault
図2は、実施形態に係る障害情報推定装置30のハードウェア構成の一例を示すブロック図である。図2に示されるように、障害情報推定装置30は、入力装置41と、CPU42と、記憶装置45と、出力装置48を有する。障害情報推定装置30はさらに、これらに加えて、他の周辺装置を有していてもよい。2 is a block diagram showing an example of a hardware configuration of the fault
入力装置41とCPU42と記憶装置45と出力装置48は、バス49を介して互いに電気的に接続されており、バス49を介してデータや命令のやりとりを行う。
The
入力装置41は、監視システム20からデータを受け取る装置である。例えば、入力装置41は、受信装置などで構成される。入力装置41は、これに限らず、他の任意の入力機器で構成されてもよい。The
出力装置48は、障害レポートを出力する装置である。例えば、出力装置48は、ディスプレーや送信装置などで構成される。出力装置48は、これに限らず、他の任意の出力機器で構成されてもよい。The
記憶装置45は、CPU42が実行する処理に必要なプログラムとデータを記憶している。CPU42は、記憶装置45から必要なプログラムとデータを読み出して実行することにより、各種の処理を行う。The
記憶装置45は、主記憶装置46と、補助記憶装置47を有する。主記憶装置46と補助記憶装置47は、相互間でプログラムとデータのやりとりを行う。The
主記憶装置46は、CPU42の処理に一時的に必要なプログラムとデータを記憶する。例えば、主記憶装置46は、RAM(Random Access Memory)等の揮発性メモリで構成される。The
補助記憶装置47は、外部機器やネットワークを介して供給されるプログラムやデータを記憶しており、CPU42の処理に一時的に必要なプログラムとデータを主記憶装置46に提供する。例えば、補助記憶装置47は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性メモリで構成される。The
CPU42は、プロセッサであり、データや命令を処理するハードウェアである。CPU42は、制御装置43と、演算装置44を有する。The
制御装置43は、入力装置41と演算装置44と記憶装置45と出力装置48を制御する。
The
演算装置44は、主記憶装置46からプログラムとデータを読み込み、プログラムを実行してデータを処理し、処理したデータを主記憶装置46に提供する。The
このようなハードウェア構成において、入力装置41は、データ取得部31を構成する。CPU42と記憶装置45は、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36を構成する。出力装置48は、障害レポート出力部37を構成する。In such a hardware configuration, the
例えば、CPU42は、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36の機能を実行するプログラムを補助記憶装置47から主記憶装置46に読み込み、読み込んだプログラムを実行することによって、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36の動作を行う。For example, the
[動作例]
(障害情報の推定の処理)
次に、図3を参照して、障害情報推定装置30が実行する障害情報の推定の処理の流れについて説明する。図3は、障害情報推定装置30が実行する障害情報の推定の処理の流れを模式的に示す図である。
[Example of operation]
(Fault information estimation process)
Next, a flow of a process of estimating fault information executed by the fault
入力層において、データ取得部31は、複数のメトリクスデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。In the input layer, the
枝刈り層において、枝刈り部33は、Spectral Residual(p1)により、時系列データ(td1)に1次元時系列異常検知を適用して異常スコア(td2)を算出する。In the pruning layer, the
図4は、1次元時系列異常検知によって異常が検知される一例の概要を模式的に示す図である。図4の左側は、入力データである時系列データを示す。時系列データは、各時刻におけるタイムスタンプとデータ値の集合である。図4の中央は、この入力データに対して得られる時系列データのグラフを示す。このグラフは、障害の発生に起因して、他の点と比較して特出して高い値を持つ点a1を含んでいる。図4の右側は、図4の中央のグラフを処理して得られる異常スコアを示す。この異常スコアは、障害の発生に起因して、他の点がほぼ0の値であるのに対して、特出して高い値を持つ異常点a2を含んでいる。 Figure 4 is a schematic diagram showing an example of an anomaly detection by one-dimensional time series anomaly detection. The left side of Figure 4 shows time series data, which is input data. Time series data is a collection of time stamps and data values at each time. The center of Figure 4 shows a graph of the time series data obtained for this input data. This graph includes point a1, which has a particularly high value compared to other points due to the occurrence of a fault. The right side of Figure 4 shows the anomaly score obtained by processing the graph in the center of Figure 4. This anomaly score includes anomaly point a2, which has a particularly high value compared to other points, which have a value of almost 0 due to the occurrence of a fault.
次に、枝刈り部33は、Pruning(p3)により、異常スコア(td2)に基づいて、障害に関連する時系列データ(td3)と異常スコア(td4)とメタデータ(md2)を抽出する。Pruning(p3)は、異常スコアを所定のしきい値と比較して異常点の有無を判断し、異常点を含む異常スコア(td4)と、それに対応する時系列データ(td3)とメタデータ(md2)を抽出する。Next, the
次に、図3に示されるエンコード層において、時系列データエンコーダ34は、Transformer(p4)または他のモデルを用いて、時系列データ(td3,td4)のタイムスタンプとデータ値を同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。これにより、非同期的な時系列データを統一的に扱える。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。Next, in the encoding layer shown in FIG. 3, the time
図5は、タイムスタンプの変換の一例の様子を模式的に示す図である。図5の左側がタイムスタンプの変換前の時系列データを示し、図5の右側がタイムスタンプの変換後の時系列データを示している。 Figure 5 is a diagram showing an example of timestamp conversion. The left side of Figure 5 shows the time series data before the timestamp conversion, and the right side of Figure 5 shows the time series data after the timestamp conversion.
変換後の時系列データのタイムスタンプは、変換前の時系列データのタイムスタンプから一定のタイムスタンプ(1628143990)を減算したものとなっている。例えば、1行目の変換後のタイムスタンプは、1628142121-1628143990=-1866となっている。 The timestamp of the converted time series data is the timestamp of the time series data before conversion minus a certain timestamp (1628143990). For example, the converted timestamp of the first row is 1628142121-1628143990=-1866.
さらに、図3に示されるエンコード層において、メタデータエンコーダ35は、Transformer(p3)または他のモデルを用いて、時系列データとメタデータ(md2)を同時に学習する。その結果、時系列データエンコーダ34とメタデータエンコーダ35によるエンコード結果(d1)が得られる。
In addition, in the encoding layer shown in Fig. 3, the
これまでに述べた一連の処理は、メトリクス毎に行われる。この一連の処理は、図3において、破線の四角で囲んで示される。メトリクスの数をMとすると、この一連の処理は、M回、繰り返し行われる。The series of processes described above is performed for each metric. This series of processes is shown in Figure 3 by a dashed box. If the number of metrics is M, then this series of processes is repeated M times.
図6は、枝刈り部33によるメトリクスデータの枝刈りの一例の様子を模式的に示す図である。図6の左側が枝刈り前のメトリクスデータを示し、図6の右側が枝刈り後のメトリクスデータを示している。図6の左側の枝刈り前のメトリクスデータには、図4を参照して説明した1次元時系列異常検知により得られる時系列グラフと異常スコアが併せて描かれている。
Figure 6 is a schematic diagram showing an example of pruning of metrics data by the
図6から分かるように、枝刈り後のメトリクスデータは、異常値を持つ異常スコアに対応する時系列データと、その時系列データに対応するメタデータで構成されている。また、枝刈り後の時系列データは、枝刈り前の時系列データと、異常スコアで構成されている。As can be seen from Figure 6, the metrics data after pruning consists of time series data corresponding to anomaly scores with abnormal values and metadata corresponding to that time series data. In addition, the time series data after pruning consists of the time series data before pruning and the anomaly scores.
一般に監視対象システム内の監視対象のメトリクスの数は膨大である。また、それらメトリクスのデータには、障害に関連しない時系列データが多数含まれる。これは、障害情報の推定の解析作業に要する時間を増大させる要因である。 Generally, the number of metrics monitored within a monitored system is huge. Furthermore, the data for these metrics contains a large amount of time-series data that is not related to failures. This increases the time required for analysis work to estimate failure information.
実施形態では、枝刈り層において、入力層において取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減する。これは、障害情報の推定の解析作業に要する時間の短縮に貢献する。In an embodiment, in the pruning layer, metrics data related to failures is extracted from the multiple metrics data acquired in the input layer. This reduces the amount of metrics data used in the analysis work to estimate failure information. This contributes to shortening the time required for the analysis work to estimate failure information.
監視対象システム内に分散した監視対象のメトリクスの時系列データは、非同期的に収集されるため、タイムスタンプが一致していない。このため、時系列データを行列形式に集約する際に欠損値が生じる。その場合、欠損値の前処理、例えば、欠損値の補間やデータの補正が必要となる。これは、障害情報の推定の解析作業に要する手間やコストを増大させる要因である。 Time series data for metrics of monitored targets distributed within a monitored system is collected asynchronously, so the timestamps do not match. This results in missing values when aggregating the time series data into a matrix format. In such cases, preprocessing of the missing values is required, for example, by interpolating the missing values or correcting the data. This increases the effort and cost required for analysis work to estimate fault information.
時系列データエンコーダ34は、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換するとともに、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱える。このため、非同期的なメトリクス間の関係性を捉えることができる。
The time
監視対象システム内の監視対象のメトリクスの数と種類が動的に変化する場合がある。メトリクスが変化する原因としては、アプリケーションの異常終了、コンテナのスケールアウトなどがある。図7は、アプリケーションの異常終了の一例の様子を模式的に示している。また、図8は、コンテナのスケールアウトの一例の様子を模式的に示している。メトリクスが変化した場合、メトリクスのメタデータが無ければ時系列データの意味を把握できない。 The number and type of metrics monitored within a monitored system may change dynamically. Metrics changes can occur due to an abnormal termination of an application or the scale-out of a container. Figure 7 shows a schematic diagram of an example of an abnormal termination of an application. Figure 8 shows a schematic diagram of an example of a scale-out of a container. When metrics change, the meaning of the time series data cannot be understood without metric metadata.
メタデータエンコーダ35は、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができる。また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。つまり、メトリクスの数と種類が変化しても、変化前後の対応関係を把握できる。
The
次に、図3に示されるエンコード層において、障害情報推定部36は、Transformer(p5)または他のモデルを用いて、エンコード結果(d1)に基づいて、障害の状況・原因等の障害情報(d2)を推定する。続いて、障害情報推定部36は、Fault Report Decorder(p6)または他のモデルを用いて、障害情報(d2)に基づいて、障害レポート(d3)を作成する。3, the fault
次に、出力層において、障害レポート出力部37は、障害レポートを出力する。
Next, in the output layer, the fault
図9は、実施形態に係る障害情報推定装置30における入力と出力の一例を模式的に示す図である。図9の入力であるメトリクスデータすなわち時系列データとメタデータの一例を示し、図9の右側が出力である障害レポートの一例を示している。
Figure 9 is a diagram showing an example of input and output in the fault
(フローチャート)
次に、図10を参照して、障害情報推定装置30が実行する障害情報の推定の処理手順と処理内容について説明する。図10は、実施形態に係る障害情報推定装置30が実行する障害情報の推定の処理手順と処理内容を示すフローチャートである。
(flowchart)
Next, a process procedure and process contents of the fault information estimation process executed by the fault
ステップS1において、データ取得部31は、監視システム20から複数のメトリクスデータすなわち時系列データとメタデータを取得する。In step S1, the
ステップS2において、枝刈り部33は、複数のメトリクスデータの中から、障害に関連する時系列データだけを抽出する。枝刈り部33は、抽出した時系列データと、それに対応するメタデータを時系列データエンコーダ34とメタデータエンコーダ35に供給する。これにより、障害情報の推定に使用するメトリクスデータを低減する。In step S2, the
ステップS3において、時系列データエンコーダ34は、時系列データとタイムスタンプを同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。In step S3, the time
ステップS4において、メタデータエンコーダ35は、メタデータをエンコードする。このエンコードでは、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。In step S4, the
ステップS5において、障害情報推定部36は、時系列データエンコーダ34のエンコード結果とメタデータエンコーダ35のエンコード結果に基づいて、障害監視システム内に発生している障害の状況・原因等の障害情報を推定する。障害情報推定部36はまた、推定結果に基づいて障害レポートを作成する。In step S5, the fault
ステップS6において、障害レポート出力部37は、障害情報推定部36から障害レポートを受け取り、障害レポートを出力する。In step S6, the fault
[効果]
実施形態では、データ取得部31が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを枝刈り部33が抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減し、障害情報の推定の解析作業に要する時間が短縮される。
[effect]
In the embodiment, the
また、時系列データエンコーダ34が、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換し、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱えるようになり、非同期的なメトリクス間の関係性を捉えることができる。
In addition, the time
さらに、メタデータエンコーダ35が時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができ、また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。
Furthermore, the
その結果、監視システムの監視対象の適用範囲が広がり、開発コストの削減につながる。さらに、メトリクスを用いた障害検知の精度が向上する。As a result, the scope of monitoring targets of the monitoring system will be expanded, leading to reduced development costs. In addition, the accuracy of fault detection using metrics will be improved.
なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 Note that the present invention is not limited to the above-described embodiments, and can be modified in various ways in the implementation stage without departing from the gist of the invention. The embodiments may also be implemented in appropriate combination, in which case the combined effects can be obtained. Furthermore, the above-described embodiments include various inventions, and various inventions can be extracted by combinations selected from the multiple constituent elements disclosed. For example, if the problem can be solved and an effect can be obtained even if some constituent elements are deleted from all the constituent elements shown in the embodiments, the configuration from which these constituent elements are deleted can be extracted as an invention.
10…ノード
11…アプリケーション
12…監視エージェント
13…データ記録部
20…監視システム
30…障害情報推定装置
31…データ取得部
33…枝刈り部
34…時系列データエンコーダ
35…メタデータエンコーダ
36…障害情報推定部
37…障害レポート出力部
41…入力装置
42…CPU
43…制御装置
44…演算装置
45…記憶装置
46…主記憶装置
47…補助記憶装置
48…出力装置
49…バス
LIST OF
43: control device 44: arithmetic unit 45: storage device 46: main storage device 47: auxiliary storage device 48: output device 49: bus
Claims (6)
前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、
前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部と、
前記枝刈り部によって抽出された時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する時系列データエンコーダを有する、
障害情報推定装置。 a data acquisition unit that acquires data having time series data and metadata of a plurality of metrics of a plurality of monitored targets in a monitored system;
a pruning unit that extracts metrics data related to a fault from the plurality of metrics data;
a fault information estimation unit that estimates fault information of a monitoring target in which a fault has occurred based on the data extracted by the pruning unit;
a time series data encoder that converts a timestamp representing an absolute time of the time series data extracted by the pruning unit into a timestamp representing a relative time within a time window;
Fault information estimation device.
請求項1に記載の障害情報推定装置。 The pruning unit extracts data by calculating an anomaly score for the time series data using a one-dimensional time series anomaly detection model.
The fault information estimation device according to claim 1 .
請求項1または請求項2に記載の障害情報推定装置。 The time series data encoder further calculates a vector representation for each metric from a timestamp representing a relative time and other data values and aggregates them.
The fault information estimation device according to claim 1 or 2.
前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、
障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することと、
障害に関連する前記メトリクスの時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換することを有する、
障害情報推定方法。 Obtaining data having time series data and metadata for a plurality of metrics of a plurality of monitored targets in a monitored system;
extracting metric data related to a fault from the plurality of metric data;
estimating fault information of a monitoring target in which a fault has occurred based on the metric data related to the fault;
converting timestamps representing absolute times of the metric time series data related to the faults into timestamps representing relative times within a time window;
Fault information estimation method.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/043844 WO2023100242A1 (en) | 2021-11-30 | 2021-11-30 | Failure information estimation device, failure information estimation method, and failure information estimation program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2023100242A1 JPWO2023100242A1 (en) | 2023-06-08 |
| JP7694702B2 true JP7694702B2 (en) | 2025-06-18 |
Family
ID=86611721
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023564300A Active JP7694702B2 (en) | 2021-11-30 | 2021-11-30 | Fault information estimation device, fault information estimation method, and fault information estimation program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7694702B2 (en) |
| WO (1) | WO2023100242A1 (en) |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009076056A (en) | 2007-07-27 | 2009-04-09 | General Electric Co <Ge> | Abnormal aggregation method |
| US20150205692A1 (en) | 2014-01-23 | 2015-07-23 | Concurix Corporation | Behavior clustering analysis and alerting system for computer applications |
-
2021
- 2021-11-30 JP JP2023564300A patent/JP7694702B2/en active Active
- 2021-11-30 WO PCT/JP2021/043844 patent/WO2023100242A1/en not_active Ceased
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009076056A (en) | 2007-07-27 | 2009-04-09 | General Electric Co <Ge> | Abnormal aggregation method |
| US20150205692A1 (en) | 2014-01-23 | 2015-07-23 | Concurix Corporation | Behavior clustering analysis and alerting system for computer applications |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2023100242A1 (en) | 2023-06-08 |
| WO2023100242A1 (en) | 2023-06-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US7421351B2 (en) | Monitoring and fault detection in dynamic systems | |
| CN111858265A (en) | A storage failure prediction method, system and device for a storage system | |
| CN117313015A (en) | A time series anomaly detection method and system based on time series and multivariables | |
| US20190265088A1 (en) | System analysis method, system analysis apparatus, and program | |
| CN101218786A (en) | Communication network fault detection system, communication network fault detection method and fault detection program | |
| WO2011138911A1 (en) | Malfunction analysis apparatus, malfunction analysis method, and recording medium | |
| US20170024400A1 (en) | Method for automatic processing of a number of protocol files of an automation system | |
| JP6915693B2 (en) | System analysis method, system analyzer, and program | |
| US11748321B2 (en) | Time-series data condensation and graphical signature analysis | |
| CN118133962A (en) | Correlation analysis method, device and system of fault event and storage medium | |
| US12072838B2 (en) | Method for generating a coherent representation for at least two log files | |
| US12019595B2 (en) | Failure probability evaluation system | |
| WO2017150286A1 (en) | System analyzing device, system analyzing method, and computer-readable recording medium | |
| JP7694702B2 (en) | Fault information estimation device, fault information estimation method, and fault information estimation program | |
| Davari et al. | Fault forecasting using data-driven modeling: a case study for metro do Porto data set | |
| CN113076211A (en) | Quality-related fault diagnosis and false alarm feedback method based on fault reconstruction | |
| JP2022165669A (en) | Abnormality detection device, abnormality detection method, and abnormality detection program | |
| CN116595353B (en) | A remote fault diagnosis and intelligent decision-making system for synchronous condensers | |
| CN118860771A (en) | Method, device, computer equipment, readable storage medium and program product based on microservice instance number and call chain inspection | |
| JP7801647B2 (en) | Failure analysis device, failure analysis method, and program | |
| CN115543727B (en) | Anomaly Detection Method and Device Based on Multivariate Monitoring Indicators of Cloud Services | |
| US20200133253A1 (en) | Industrial asset temporal anomaly detection with fault variable ranking | |
| JP7771576B2 (en) | Device management system, method for estimating the cause of device failure, and program | |
| Borse et al. | URCD: unsupervised root cause detection in microservices architecture with HGAN | |
| KR102895863B1 (en) | Operating server and method for diagnosing malfunction of factory automation equipment |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240311 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250121 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250220 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250304 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250328 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250507 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250520 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7694702 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |