Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7694702B2 - Fault information estimation device, fault information estimation method, and fault information estimation program - Google Patents
[go: Go Back, main page]

JP7694702B2 - Fault information estimation device, fault information estimation method, and fault information estimation program - Google Patents

Fault information estimation device, fault information estimation method, and fault information estimation program Download PDF

Info

Publication number
JP7694702B2
JP7694702B2 JP2023564300A JP2023564300A JP7694702B2 JP 7694702 B2 JP7694702 B2 JP 7694702B2 JP 2023564300 A JP2023564300 A JP 2023564300A JP 2023564300 A JP2023564300 A JP 2023564300A JP 7694702 B2 JP7694702 B2 JP 7694702B2
Authority
JP
Japan
Prior art keywords
data
fault information
information estimation
fault
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023564300A
Other languages
Japanese (ja)
Other versions
JPWO2023100242A1 (en
Inventor
展和 福田
超 呉
信吾 堀内
健一 田山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2023100242A1 publication Critical patent/JPWO2023100242A1/ja
Application granted granted Critical
Publication of JP7694702B2 publication Critical patent/JP7694702B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Description

本発明は、障害情報推定装置、障害情報推定方法、および障害情報推定プログラムに関する。 The present invention relates to a fault information estimation device, a fault information estimation method, and a fault information estimation program.

サービス保守業務においては、サービスに障害が発生した際に、監視対象システム内の多数の監視対象(装置やアプリケーションなど)からデータを取得して解析することにより、障害が発生している監視対象の障害の状況・原因等の障害情報を推定することが行われる。 In service maintenance work, when a service failure occurs, data is collected and analyzed from a large number of monitored targets (devices, applications, etc.) within the monitored system to estimate failure information such as the status and cause of the failure in the monitored target.

Zhang, Chuxu et al. “A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data.” ArXiv abs/1811.08055 (2019).Zhang, Chuxu et al. “A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data.” ArXiv abs/1811.08055 (2019).

監視対象システムにおいて、障害発生後のユーザへの悪影響を最小限にするため、障害情報の推定は効率良く短時間で行われることが望まれる。 In monitored systems, it is desirable to estimate fault information efficiently and quickly in order to minimize the adverse impact on users after a fault occurs.

本発明は、上記事情に着目してなされたもので、その目的は、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムを提供することにある。The present invention has been made in light of the above-mentioned circumstances, and its purpose is to provide a fault information estimation device, a fault information estimation method, and a fault information estimation program that efficiently and quickly estimate fault information of a monitored object in which a fault has occurred.

本発明の一態様は、障害情報推定装置である。障害情報推定装置は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部と、前記枝刈り部によって抽出された時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する時系列データエンコーダを有する。 One aspect of the present invention is a fault information estimation device, which includes a data acquisition unit that acquires data having time series data and metadata of multiple metrics of multiple monitoring targets in a monitored system, a pruning unit that extracts metrics data related to a fault from the multiple metrics data, a fault information estimation unit that estimates fault information of a monitoring target in which a fault has occurred based on the data extracted by the pruning unit , and a time series data encoder that converts a timestamp representing an absolute time of the time series data extracted by the pruning unit into a timestamp representing a relative time within a time window .

本発明の一態様は、障害情報推定方法である。障害情報推定方法は、監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得することと、前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することと、障害に関連する前記メトリクスの時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換することを有する。 One aspect of the present invention is a fault information estimation method, which includes acquiring data having time series data and metadata of multiple metrics of multiple monitored targets in a monitored system, extracting metrics data related to a fault from the multiple metrics data, estimating fault information of a monitored target in which a fault has occurred based on the metrics data related to the fault, and converting a timestamp representing an absolute time of the time series data of the metrics related to the fault into a timestamp representing a relative time within a time window .

本発明の一態様は、障害情報推定プログラムである。障害情報推定プログラムは、上記の障害情報推定装置の各構成要素の機能をコンピュータに実行させる。One aspect of the present invention is a fault information estimation program. The fault information estimation program causes a computer to execute the functions of each component of the fault information estimation device described above.

本発明によれば、障害が発生している監視対象の障害情報を効率良く短時間で推定する障害情報推定装置、障害情報推定方法、および障害情報推定プログラムが提供される。 According to the present invention, there is provided a fault information estimation device, a fault information estimation method, and a fault information estimation program that efficiently and quickly estimate fault information of a monitored object in which a fault has occurred.

図1は、実施形態に係る障害情報推定装置の機能構成の一例を示すブロック図である。FIG. 1 is a block diagram illustrating an example of a functional configuration of a fault information estimation device according to an embodiment. 図2は、実施形態に係る障害情報推定装置のハードウェア構成の一例を示すブロック図である。FIG. 2 is a block diagram illustrating an example of a hardware configuration of the fault information estimation device according to the embodiment. 図3は、実施形態に係る障害情報推定装置が実行する障害情報の推定の処理の流れを模式的に示す図である。FIG. 3 is a diagram illustrating a flow of a process of estimating fault information executed by the fault information estimation device according to the embodiment. 図4は、1次元時系列異常検知によって異常が検知される一例の概要を模式的に示す図である。FIG. 4 is a diagram illustrating an example of an anomaly detected by one-dimensional time series anomaly detection. 図5は、タイムスタンプの変換の一例の様子を模式的に示す図である。FIG. 5 is a diagram showing an example of time stamp conversion. 図6は、メトリクスデータの枝刈りの一例の様子を模式的に示す図である。FIG. 6 is a diagram illustrating an example of pruning of metrics data. 図7は、アプリケーションの異常終了の一例の様子を模式的に示す図である。FIG. 7 is a diagram illustrating an example of an abnormal termination of an application. 図8は、コンテナのスケールアウトの一例の様子を模式的に示す図である。FIG. 8 is a diagram illustrating an example of a scale-out of a container. 図9は、実施形態に係る障害情報推定装置における入力と出力の一例を模式的に示す図である。FIG. 9 is a diagram illustrating an example of input and output in the fault information estimation device according to the embodiment. 図10は、実施形態に係る障害情報推定装置が実行する障害情報の推定の処理手順と処理内容を示すフローチャートである。FIG. 10 is a flowchart showing the procedure and contents of a fault information estimation process executed by the fault information estimation device according to the embodiment.

以下、図面を参照して本発明に係る実施形態について説明する。 Below, an embodiment of the present invention is described with reference to the drawings.

[構成例]
(機能構成)
まず、実施形態に係る障害情報推定装置の機能構成について説明する。図1は、実施形態に係る障害情報推定装置30の機能構成の一例を示すブロック図である。図1には、障害情報推定装置30に加えて、監視対象システム内のノード10と監視システム20が併せて図示されている。監視対象システム内には多数のノード10が存在するが、図1には、便宜上、代表的に1つのノード10だけが図示されている。
[Configuration example]
(Functional configuration)
First, the functional configuration of a fault information estimation device according to an embodiment will be described. Fig. 1 is a block diagram showing an example of the functional configuration of a fault information estimation device 30 according to an embodiment. In addition to the fault information estimation device 30, Fig. 1 also shows a node 10 in a monitored system and a monitoring system 20. Although many nodes 10 exist in the monitored system, Fig. 1 shows only one representative node 10 for convenience.

図1に示されるように、各ノード10は、アプリケーション11と、監視エージェント12と、データ記録部13を有する。監視エージェント12は、同じノード10に配置されアプリケーション11に関する監視項目の時系列データとメタデータを収集し、これをデータ記録部13に記録する。監視エージェント12はまた、データ記録部13に記録した時系列データとメタデータを監視システム20にポーリング/テレメトリで送信する。 As shown in Fig. 1, each node 10 has an application 11, a monitoring agent 12, and a data recording unit 13. The monitoring agent 12 is placed on the same node 10 and collects time series data and metadata of monitoring items related to the application 11, and records this in the data recording unit 13. The monitoring agent 12 also transmits the time series data and metadata recorded in the data recording unit 13 to the monitoring system 20 by polling/telemetry.

監視システム20は、監視対象システム内の複数のノード10から各監視対象のメトリクスのデータを収集する。以下では、メトリクスのデータを便宜的にメトリクスデータとも称する。The monitoring system 20 collects metrics data for each monitored object from multiple nodes 10 in the monitored system. Hereinafter, the metrics data will be referred to as metrics data for convenience.

障害情報推定装置30は、監視システム20から複数の監視対象の複数のメトリクスデータを取得して障害情報を推定して障害レポートを出力する装置である。The fault information estimation device 30 is a device that acquires multiple metrics data for multiple monitored targets from the monitoring system 20, estimates fault information, and outputs a fault report.

障害情報推定装置30は、データ取得部31と、枝刈り部33と、時系列データエンコーダ34と、メタデータエンコーダ35と、障害情報推定部36と、障害レポート出力部37を有する。The fault information estimation device 30 has a data acquisition unit 31, a pruning unit 33, a time series data encoder 34, a metadata encoder 35, a fault information estimation unit 36, and a fault report output unit 37.

データ取得部31は、監視システム20から複数の監視対象の複数のメトリクスのデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。各時系列データは、各時刻におけるタイムスタンプと他のデータ値の集合で構成される。各メタデータは、メトリクスに付与された名前、変数名、コンテナ名などのテキスト情報で構成される。The data acquisition unit 31 acquires multiple metrics data for multiple monitored targets from the monitoring system 20. Each metric data has time series data and metadata. Each time series data consists of a timestamp at each time and a collection of other data values. Each metadata consists of text information such as the name assigned to the metric, variable names, container names, etc.

枝刈り部33は、データ取得部31が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータだけを抽出(枝刈り)する。例えば、枝刈り部33は、数千個のメトリクスデータから数十個のメトリクスデータを抽出する。これにより、障害情報の推定に使用するメトリクスデータを低減する。障害に関連するメトリクスデータは、時間ウィンドウ中に異常な変動のある時系列データと、これに対応するメタデータである。メトリクスデータの抽出は、例えば、時系列データに対して1次元時系列異常検知モデルを用いて異常スコアを計算することにより行う。1次元時系列異常検知には、Spectral Residual(SR法)や、フーリエ変換ベースの異常検知手法などの手法が利用可能である。枝刈り部33は、抽出したメトリクスデータを、時系列データエンコーダ34とメタデータエンコーダ35に供給する。The pruning unit 33 extracts (prunes) only the metrics data related to the fault from the multiple metrics data acquired by the data acquisition unit 31. For example, the pruning unit 33 extracts several tens of metrics data from several thousand metrics data. This reduces the metrics data used to estimate fault information. The metrics data related to the fault is time series data with abnormal fluctuations during a time window and the corresponding metadata. The metrics data is extracted, for example, by calculating an anomaly score for the time series data using a one-dimensional time series anomaly detection model. For one-dimensional time series anomaly detection, methods such as the Spectral Residual (SR) method and a Fourier transform-based anomaly detection method can be used. The pruning unit 33 supplies the extracted metrics data to the time series data encoder 34 and the metadata encoder 35.

時系列データエンコーダ34は、時系列データのタイムスタンプとデータ値を同時にエンコードする。エンコードは、時系列データのタイムスタンプの変換を含む。タイムスタンプの変換は、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、時系列データエンコーダ34は、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。時系列データエンコーダ34は、エンコード結果をメタデータエンコーダ35に供給する。The time series data encoder 34 simultaneously encodes the timestamps and data values of the time series data. The encoding includes converting the timestamps of the time series data. The timestamp conversion converts a timestamp representing an absolute time into a timestamp representing a relative time within a time window. Furthermore, the time series data encoder 34 calculates a vector representation from the timestamp representing the relative time and other data values for each metric, and aggregates these. This allows asynchronous time series data to be handled in a unified manner. The time series data encoder 34 supplies the encoding results to the metadata encoder 35.

メタデータエンコーダ35は、メトリクス毎に、時系列データエンコーダ34から供給される時系列データと、枝刈り部33から供給されるメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。メタデータエンコーダ35は、エンコード結果を障害情報推定部36に供給する。 The metadata encoder 35 simultaneously learns the time series data supplied from the time series data encoder 34 and the metadata supplied from the pruning unit 33 for each metric. This allows the meaning of the time series data to be understood from the text information of the metadata. It also allows the relationships between the time series data to be understood. The metadata encoder 35 supplies the encoding results to the fault information estimation unit 36.

障害情報推定部36は、時系列データエンコーダ34のエンコード結果とメタデータエンコーダ35のエンコード結果に基づいて、障害が発生している監視対象の障害の状況・原因等の障害情報を推定する。障害情報推定部36はまた、推定結果に基づいて障害レポートを作成し、これを障害レポート出力部37に供給する。The fault information estimation unit 36 estimates fault information such as the status and cause of the fault in the monitored object in which a fault has occurred, based on the encoding result of the time-series data encoder 34 and the encoding result of the metadata encoder 35. The fault information estimation unit 36 also creates a fault report based on the estimation result, and supplies this to the fault report output unit 37.

障害レポート出力部37は、障害情報推定部36から障害レポートを受け取り、これを出力する。The fault report output unit 37 receives a fault report from the fault information estimation unit 36 and outputs it.

(ハードウェア構成)
次に、障害情報推定装置30のハードウェア構成について説明する。障害情報推定装置30は、コンピュータで構成される。例えば、障害情報推定装置30は、パーソナルコンピュータやサーバコンピュータ等で構成される。
(Hardware configuration)
Next, a description will be given of a hardware configuration of the fault information estimation device 30. The fault information estimation device 30 is configured by a computer. For example, the fault information estimation device 30 is configured by a personal computer, a server computer, or the like.

図2は、実施形態に係る障害情報推定装置30のハードウェア構成の一例を示すブロック図である。図2に示されるように、障害情報推定装置30は、入力装置41と、CPU42と、記憶装置45と、出力装置48を有する。障害情報推定装置30はさらに、これらに加えて、他の周辺装置を有していてもよい。2 is a block diagram showing an example of a hardware configuration of the fault information estimation device 30 according to an embodiment. As shown in FIG. 2, the fault information estimation device 30 has an input device 41, a CPU 42, a storage device 45, and an output device 48. In addition to these, the fault information estimation device 30 may further have other peripheral devices.

入力装置41とCPU42と記憶装置45と出力装置48は、バス49を介して互いに電気的に接続されており、バス49を介してデータや命令のやりとりを行う。 The input device 41, CPU 42, memory device 45, and output device 48 are electrically connected to each other via a bus 49, and exchange data and commands via the bus 49.

入力装置41は、監視システム20からデータを受け取る装置である。例えば、入力装置41は、受信装置などで構成される。入力装置41は、これに限らず、他の任意の入力機器で構成されてもよい。The input device 41 is a device that receives data from the monitoring system 20. For example, the input device 41 is configured as a receiving device. The input device 41 is not limited to this and may be configured as any other input device.

出力装置48は、障害レポートを出力する装置である。例えば、出力装置48は、ディスプレーや送信装置などで構成される。出力装置48は、これに限らず、他の任意の出力機器で構成されてもよい。The output device 48 is a device that outputs a fault report. For example, the output device 48 is configured as a display or a transmission device. The output device 48 is not limited to this and may be configured as any other output device.

記憶装置45は、CPU42が実行する処理に必要なプログラムとデータを記憶している。CPU42は、記憶装置45から必要なプログラムとデータを読み出して実行することにより、各種の処理を行う。The storage device 45 stores programs and data necessary for the processing executed by the CPU 42. The CPU 42 reads out the necessary programs and data from the storage device 45 and executes them to perform various types of processing.

記憶装置45は、主記憶装置46と、補助記憶装置47を有する。主記憶装置46と補助記憶装置47は、相互間でプログラムとデータのやりとりを行う。The storage device 45 has a main storage device 46 and an auxiliary storage device 47. The main storage device 46 and the auxiliary storage device 47 exchange programs and data between each other.

主記憶装置46は、CPU42の処理に一時的に必要なプログラムとデータを記憶する。例えば、主記憶装置46は、RAM(Random Access Memory)等の揮発性メモリで構成される。The main memory device 46 stores programs and data temporarily required for processing by the CPU 42. For example, the main memory device 46 is composed of a volatile memory such as a RAM (Random Access Memory).

補助記憶装置47は、外部機器やネットワークを介して供給されるプログラムやデータを記憶しており、CPU42の処理に一時的に必要なプログラムとデータを主記憶装置46に提供する。例えば、補助記憶装置47は、HDD(Hard Disk Drive)やSSD(Solid State Drive)等の不揮発性メモリで構成される。The auxiliary storage device 47 stores programs and data supplied via an external device or a network, and provides the programs and data temporarily required for processing by the CPU 42 to the main storage device 46. For example, the auxiliary storage device 47 is composed of a non-volatile memory such as a hard disk drive (HDD) or a solid state drive (SSD).

CPU42は、プロセッサであり、データや命令を処理するハードウェアである。CPU42は、制御装置43と、演算装置44を有する。The CPU 42 is a processor and is hardware that processes data and instructions. The CPU 42 has a control device 43 and an arithmetic unit 44.

制御装置43は、入力装置41と演算装置44と記憶装置45と出力装置48を制御する。 The control device 43 controls the input device 41, the calculation device 44, the memory device 45 and the output device 48.

演算装置44は、主記憶装置46からプログラムとデータを読み込み、プログラムを実行してデータを処理し、処理したデータを主記憶装置46に提供する。The computing device 44 reads the program and data from the main memory device 46, executes the program to process the data, and provides the processed data to the main memory device 46.

このようなハードウェア構成において、入力装置41は、データ取得部31を構成する。CPU42と記憶装置45は、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36を構成する。出力装置48は、障害レポート出力部37を構成する。In such a hardware configuration, the input device 41 constitutes the data acquisition unit 31. The CPU 42 and the storage device 45 constitute the pruning unit 33, the time series data encoder 34, the metadata encoder 35, and the fault information estimation unit 36. The output device 48 constitutes the fault report output unit 37.

例えば、CPU42は、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36の機能を実行するプログラムを補助記憶装置47から主記憶装置46に読み込み、読み込んだプログラムを実行することによって、枝刈り部33と時系列データエンコーダ34とメタデータエンコーダ35と障害情報推定部36の動作を行う。For example, the CPU 42 loads a program that executes the functions of the pruning unit 33, the time series data encoder 34, the metadata encoder 35, and the fault information estimation unit 36 from the auxiliary storage device 47 into the main storage device 46, and executes the loaded program to perform the operations of the pruning unit 33, the time series data encoder 34, the metadata encoder 35, and the fault information estimation unit 36.

[動作例]
(障害情報の推定の処理)
次に、図3を参照して、障害情報推定装置30が実行する障害情報の推定の処理の流れについて説明する。図3は、障害情報推定装置30が実行する障害情報の推定の処理の流れを模式的に示す図である。
[Example of operation]
(Fault information estimation process)
Next, a flow of a process of estimating fault information executed by the fault information estimation device 30 will be described with reference to Fig. 3. Fig. 3 is a diagram showing a schematic flow of a process of estimating fault information executed by the fault information estimation device 30.

入力層において、データ取得部31は、複数のメトリクスデータを取得する。各メトリクスデータは、時系列データとメタデータを有する。In the input layer, the data acquisition unit 31 acquires multiple metrics data. Each metric data has time series data and metadata.

枝刈り層において、枝刈り部33は、Spectral Residual(p1)により、時系列データ(td1)に1次元時系列異常検知を適用して異常スコア(td2)を算出する。In the pruning layer, the pruning unit 33 applies one-dimensional time series anomaly detection to the time series data (td1) using the Spectral Residual (p1) to calculate an anomaly score (td2).

図4は、1次元時系列異常検知によって異常が検知される一例の概要を模式的に示す図である。図4の左側は、入力データである時系列データを示す。時系列データは、各時刻におけるタイムスタンプとデータ値の集合である。図4の中央は、この入力データに対して得られる時系列データのグラフを示す。このグラフは、障害の発生に起因して、他の点と比較して特出して高い値を持つ点a1を含んでいる。図4の右側は、図4の中央のグラフを処理して得られる異常スコアを示す。この異常スコアは、障害の発生に起因して、他の点がほぼ0の値であるのに対して、特出して高い値を持つ異常点a2を含んでいる。 Figure 4 is a schematic diagram showing an example of an anomaly detection by one-dimensional time series anomaly detection. The left side of Figure 4 shows time series data, which is input data. Time series data is a collection of time stamps and data values at each time. The center of Figure 4 shows a graph of the time series data obtained for this input data. This graph includes point a1, which has a particularly high value compared to other points due to the occurrence of a fault. The right side of Figure 4 shows the anomaly score obtained by processing the graph in the center of Figure 4. This anomaly score includes anomaly point a2, which has a particularly high value compared to other points, which have a value of almost 0 due to the occurrence of a fault.

次に、枝刈り部33は、Pruning(p3)により、異常スコア(td2)に基づいて、障害に関連する時系列データ(td3)と異常スコア(td4)とメタデータ(md2)を抽出する。Pruning(p3)は、異常スコアを所定のしきい値と比較して異常点の有無を判断し、異常点を含む異常スコア(td4)と、それに対応する時系列データ(td3)とメタデータ(md2)を抽出する。Next, the pruning unit 33 extracts time series data (td3), anomaly scores (td4), and metadata (md2) related to the fault based on the anomaly scores (td2) by pruning (p3). Pruning (p3) compares the anomaly scores with a predetermined threshold value to determine the presence or absence of anomalies, and extracts the anomaly scores (td4) including the anomalies, and the corresponding time series data (td3) and metadata (md2).

次に、図3に示されるエンコード層において、時系列データエンコーダ34は、Transformer(p4)または他のモデルを用いて、時系列データ(td3,td4)のタイムスタンプとデータ値を同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。これにより、非同期的な時系列データを統一的に扱える。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。Next, in the encoding layer shown in FIG. 3, the time series data encoder 34 uses Transformer (p4) or other models to simultaneously encode the timestamps and data values of the time series data (td3, td4). In this encoding, timestamps representing absolute times are converted to timestamps representing relative times within a time window. This allows asynchronous time series data to be handled in a unified manner. Furthermore, for each metric, a vector representation is calculated from the timestamps representing relative times and other data values, and these are aggregated.

図5は、タイムスタンプの変換の一例の様子を模式的に示す図である。図5の左側がタイムスタンプの変換前の時系列データを示し、図5の右側がタイムスタンプの変換後の時系列データを示している。 Figure 5 is a diagram showing an example of timestamp conversion. The left side of Figure 5 shows the time series data before the timestamp conversion, and the right side of Figure 5 shows the time series data after the timestamp conversion.

変換後の時系列データのタイムスタンプは、変換前の時系列データのタイムスタンプから一定のタイムスタンプ(1628143990)を減算したものとなっている。例えば、1行目の変換後のタイムスタンプは、1628142121-1628143990=-1866となっている。 The timestamp of the converted time series data is the timestamp of the time series data before conversion minus a certain timestamp (1628143990). For example, the converted timestamp of the first row is 1628142121-1628143990=-1866.

さらに、図3に示されるエンコード層において、メタデータエンコーダ35は、Transformer(p3)または他のモデルを用いて、時系列データとメタデータ(md2)を同時に学習する。その結果、時系列データエンコーダ34とメタデータエンコーダ35によるエンコード結果(d1)が得られる。 In addition, in the encoding layer shown in Fig. 3, the metadata encoder 35 simultaneously learns the time-series data and the metadata (md2) using a Transformer (p3) or other model. As a result, the encoding result (d1) by the time-series data encoder 34 and the metadata encoder 35 is obtained.

これまでに述べた一連の処理は、メトリクス毎に行われる。この一連の処理は、図3において、破線の四角で囲んで示される。メトリクスの数をMとすると、この一連の処理は、M回、繰り返し行われる。The series of processes described above is performed for each metric. This series of processes is shown in Figure 3 by a dashed box. If the number of metrics is M, then this series of processes is repeated M times.

図6は、枝刈り部33によるメトリクスデータの枝刈りの一例の様子を模式的に示す図である。図6の左側が枝刈り前のメトリクスデータを示し、図6の右側が枝刈り後のメトリクスデータを示している。図6の左側の枝刈り前のメトリクスデータには、図4を参照して説明した1次元時系列異常検知により得られる時系列グラフと異常スコアが併せて描かれている。 Figure 6 is a schematic diagram showing an example of pruning of metrics data by the pruning unit 33. The left side of Figure 6 shows the metrics data before pruning, and the right side of Figure 6 shows the metrics data after pruning. The metrics data before pruning on the left side of Figure 6 is shown together with a time series graph and anomaly score obtained by one-dimensional time series anomaly detection described with reference to Figure 4.

図6から分かるように、枝刈り後のメトリクスデータは、異常値を持つ異常スコアに対応する時系列データと、その時系列データに対応するメタデータで構成されている。また、枝刈り後の時系列データは、枝刈り前の時系列データと、異常スコアで構成されている。As can be seen from Figure 6, the metrics data after pruning consists of time series data corresponding to anomaly scores with abnormal values and metadata corresponding to that time series data. In addition, the time series data after pruning consists of the time series data before pruning and the anomaly scores.

一般に監視対象システム内の監視対象のメトリクスの数は膨大である。また、それらメトリクスのデータには、障害に関連しない時系列データが多数含まれる。これは、障害情報の推定の解析作業に要する時間を増大させる要因である。 Generally, the number of metrics monitored within a monitored system is huge. Furthermore, the data for these metrics contains a large amount of time-series data that is not related to failures. This increases the time required for analysis work to estimate failure information.

実施形態では、枝刈り層において、入力層において取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減する。これは、障害情報の推定の解析作業に要する時間の短縮に貢献する。In an embodiment, in the pruning layer, metrics data related to failures is extracted from the multiple metrics data acquired in the input layer. This reduces the amount of metrics data used in the analysis work to estimate failure information. This contributes to shortening the time required for the analysis work to estimate failure information.

監視対象システム内に分散した監視対象のメトリクスの時系列データは、非同期的に収集されるため、タイムスタンプが一致していない。このため、時系列データを行列形式に集約する際に欠損値が生じる。その場合、欠損値の前処理、例えば、欠損値の補間やデータの補正が必要となる。これは、障害情報の推定の解析作業に要する手間やコストを増大させる要因である。 Time series data for metrics of monitored targets distributed within a monitored system is collected asynchronously, so the timestamps do not match. This results in missing values when aggregating the time series data into a matrix format. In such cases, preprocessing of the missing values is required, for example, by interpolating the missing values or correcting the data. This increases the effort and cost required for analysis work to estimate fault information.

時系列データエンコーダ34は、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換するとともに、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱える。このため、非同期的なメトリクス間の関係性を捉えることができる。 The time series data encoder 34 converts timestamps that represent absolute times into timestamps that represent relative times, and calculates vector expressions from the timestamps that represent relative times and other data values, and aggregates them. This allows asynchronous time series data to be handled in a unified manner without processing missing values. This makes it possible to capture relationships between asynchronous metrics.

監視対象システム内の監視対象のメトリクスの数と種類が動的に変化する場合がある。メトリクスが変化する原因としては、アプリケーションの異常終了、コンテナのスケールアウトなどがある。図7は、アプリケーションの異常終了の一例の様子を模式的に示している。また、図8は、コンテナのスケールアウトの一例の様子を模式的に示している。メトリクスが変化した場合、メトリクスのメタデータが無ければ時系列データの意味を把握できない。 The number and type of metrics monitored within a monitored system may change dynamically. Metrics changes can occur due to an abnormal termination of an application or the scale-out of a container. Figure 7 shows a schematic diagram of an example of an abnormal termination of an application. Figure 8 shows a schematic diagram of an example of a scale-out of a container. When metrics change, the meaning of the time series data cannot be understood without metric metadata.

メタデータエンコーダ35は、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができる。また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。つまり、メトリクスの数と種類が変化しても、変化前後の対応関係を把握できる。 The metadata encoder 35 learns the time series data and metadata simultaneously. This allows the meaning of the time series data to be understood from the text information of the metadata. It also allows the encoder to understand the relationships between time series data. This allows the encoder to respond to dynamic changes in the number and type of metrics. In other words, even if the number and type of metrics change, the correspondence before and after the change can be understood.

次に、図3に示されるエンコード層において、障害情報推定部36は、Transformer(p5)または他のモデルを用いて、エンコード結果(d1)に基づいて、障害の状況・原因等の障害情報(d2)を推定する。続いて、障害情報推定部36は、Fault Report Decorder(p6)または他のモデルを用いて、障害情報(d2)に基づいて、障害レポート(d3)を作成する。3, the fault information estimation unit 36 uses a Transformer (p5) or other model to estimate fault information (d2) such as the fault status and cause based on the encoding result (d1). Then, the fault information estimation unit 36 uses a Fault Report Decorder (p6) or other model to create a fault report (d3) based on the fault information (d2).

次に、出力層において、障害レポート出力部37は、障害レポートを出力する。 Next, in the output layer, the fault report output unit 37 outputs the fault report.

図9は、実施形態に係る障害情報推定装置30における入力と出力の一例を模式的に示す図である。図9の入力であるメトリクスデータすなわち時系列データとメタデータの一例を示し、図9の右側が出力である障害レポートの一例を示している。 Figure 9 is a diagram showing an example of input and output in the fault information estimation device 30 according to the embodiment. An example of metrics data, i.e., time series data and metadata, which are the input of Figure 9, is shown, and the right side of Figure 9 shows an example of a fault report, which is the output.

(フローチャート)
次に、図10を参照して、障害情報推定装置30が実行する障害情報の推定の処理手順と処理内容について説明する。図10は、実施形態に係る障害情報推定装置30が実行する障害情報の推定の処理手順と処理内容を示すフローチャートである。
(flowchart)
Next, a process procedure and process contents of the fault information estimation process executed by the fault information estimation device 30 will be described with reference to Fig. 10. Fig. 10 is a flowchart showing a process procedure and process contents of the fault information estimation process executed by the fault information estimation device 30 according to the embodiment.

ステップS1において、データ取得部31は、監視システム20から複数のメトリクスデータすなわち時系列データとメタデータを取得する。In step S1, the data acquisition unit 31 acquires multiple metrics data, i.e., time series data and metadata, from the monitoring system 20.

ステップS2において、枝刈り部33は、複数のメトリクスデータの中から、障害に関連する時系列データだけを抽出する。枝刈り部33は、抽出した時系列データと、それに対応するメタデータを時系列データエンコーダ34とメタデータエンコーダ35に供給する。これにより、障害情報の推定に使用するメトリクスデータを低減する。In step S2, the pruning unit 33 extracts only the time series data related to the fault from among the multiple metrics data. The pruning unit 33 supplies the extracted time series data and the corresponding metadata to the time series data encoder 34 and the metadata encoder 35. This reduces the metrics data used to estimate the fault information.

ステップS3において、時系列データエンコーダ34は、時系列データとタイムスタンプを同時にエンコードする。このエンコードでは、絶対的な時刻を表すタイムスタンプを時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する。さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、非同期的な時系列データを統一的に扱える。In step S3, the time series data encoder 34 simultaneously encodes the time series data and the timestamps. In this encoding, the timestamps representing absolute times are converted into timestamps representing relative times within a time window. Furthermore, for each metric, a vector representation is calculated from the timestamps representing relative times and other data values, and these are aggregated. This allows asynchronous time series data to be handled in a unified manner.

ステップS4において、メタデータエンコーダ35は、メタデータをエンコードする。このエンコードでは、時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えられる。また、時系列データ間の関係性を捉えられる。In step S4, the metadata encoder 35 encodes the metadata. In this encoding, the time series data and the metadata are learned simultaneously. This allows the meaning of the time series data to be understood from the text information of the metadata. In addition, the relationships between the time series data can be understood.

ステップS5において、障害情報推定部36は、時系列データエンコーダ34のエンコード結果とメタデータエンコーダ35のエンコード結果に基づいて、障害監視システム内に発生している障害の状況・原因等の障害情報を推定する。障害情報推定部36はまた、推定結果に基づいて障害レポートを作成する。In step S5, the fault information estimation unit 36 estimates fault information such as the status and cause of a fault occurring in the fault monitoring system based on the encoding result of the time-series data encoder 34 and the encoding result of the metadata encoder 35. The fault information estimation unit 36 also creates a fault report based on the estimation result.

ステップS6において、障害レポート出力部37は、障害情報推定部36から障害レポートを受け取り、障害レポートを出力する。In step S6, the fault report output unit 37 receives a fault report from the fault information estimation unit 36 and outputs the fault report.

[効果]
実施形態では、データ取得部31が取得した複数のメトリクスデータの中から、障害に関連するメトリクスデータを枝刈り部33が抽出する。これにより、障害情報の推定の解析作業に使用するメトリクスデータを低減し、障害情報の推定の解析作業に要する時間が短縮される。
[effect]
In the embodiment, the pruning unit 33 extracts metrics data related to a failure from among the multiple metrics data acquired by the data acquisition unit 31. This reduces the amount of metrics data used in the analysis work to estimate the failure information, and shortens the time required for the analysis work to estimate the failure information.

また、時系列データエンコーダ34が、絶対的な時刻を表すタイムスタンプを相対的な時刻を表すタイムスタンプに変換し、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する。これにより、欠損値の処理をすることなく、非同期的な時系列データを統一的に扱えるようになり、非同期的なメトリクス間の関係性を捉えることができる。 In addition, the time series data encoder 34 converts timestamps that represent absolute times into timestamps that represent relative times, and calculates vector expressions from the timestamps that represent relative times and other data values to aggregate them. This makes it possible to handle asynchronous time series data in a unified manner without processing missing values, and to capture relationships between asynchronous metrics.

さらに、メタデータエンコーダ35が時系列データとメタデータを同時に学習する。これにより、メタデータのテキスト情報から時系列データの意味を捉えることができ、また、時系列データ間の関係性を捉えることができる。これにより、メトリクスの数と種類の動的な変化に対応できる。 Furthermore, the metadata encoder 35 simultaneously learns the time-series data and the metadata. This allows the meaning of the time-series data to be captured from the text information of the metadata, and also allows the relationship between the time-series data to be captured. This allows the system to respond to dynamic changes in the number and type of metrics.

その結果、監視システムの監視対象の適用範囲が広がり、開発コストの削減につながる。さらに、メトリクスを用いた障害検知の精度が向上する。As a result, the scope of monitoring targets of the monitoring system will be expanded, leading to reduced development costs. In addition, the accuracy of fault detection using metrics will be improved.

なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。 Note that the present invention is not limited to the above-described embodiments, and can be modified in various ways in the implementation stage without departing from the gist of the invention. The embodiments may also be implemented in appropriate combination, in which case the combined effects can be obtained. Furthermore, the above-described embodiments include various inventions, and various inventions can be extracted by combinations selected from the multiple constituent elements disclosed. For example, if the problem can be solved and an effect can be obtained even if some constituent elements are deleted from all the constituent elements shown in the embodiments, the configuration from which these constituent elements are deleted can be extracted as an invention.

10…ノード
11…アプリケーション
12…監視エージェント
13…データ記録部
20…監視システム
30…障害情報推定装置
31…データ取得部
33…枝刈り部
34…時系列データエンコーダ
35…メタデータエンコーダ
36…障害情報推定部
37…障害レポート出力部
41…入力装置
42…CPU
43…制御装置
44…演算装置
45…記憶装置
46…主記憶装置
47…補助記憶装置
48…出力装置
49…バス
LIST OF SYMBOLS 10 Node 11 Application 12 Monitoring agent 13 Data recording unit 20 Monitoring system 30 Fault information estimation device 31 Data acquisition unit 33 Pruning unit 34 Time-series data encoder 35 Metadata encoder 36 Fault information estimation unit 37 Fault report output unit 41 Input device 42 CPU
43: control device 44: arithmetic unit 45: storage device 46: main storage device 47: auxiliary storage device 48: output device 49: bus

Claims (6)

監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得するデータ取得部と、
前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出する枝刈り部と、
前記枝刈り部によって抽出されたデータに基づいて、障害が発生している監視対象の障害情報を推定する障害情報推定部と、
前記枝刈り部によって抽出された時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換する時系列データエンコーダを有する、
障害情報推定装置。
a data acquisition unit that acquires data having time series data and metadata of a plurality of metrics of a plurality of monitored targets in a monitored system;
a pruning unit that extracts metrics data related to a fault from the plurality of metrics data;
a fault information estimation unit that estimates fault information of a monitoring target in which a fault has occurred based on the data extracted by the pruning unit;
a time series data encoder that converts a timestamp representing an absolute time of the time series data extracted by the pruning unit into a timestamp representing a relative time within a time window;
Fault information estimation device.
前記枝刈り部は、前記時系列データに対して1次元時系列異常検知モデルを用いて異常スコアを計算することによりデータの抽出を行う、
請求項1に記載の障害情報推定装置。
The pruning unit extracts data by calculating an anomaly score for the time series data using a one-dimensional time series anomaly detection model.
The fault information estimation device according to claim 1 .
前記時系列データエンコーダは、さらに、メトリクス毎に、相対的な時刻を表すタイムスタンプと他のデータ値からベクトル表現を計算してこれらを集約する、
請求項1または請求項2に記載の障害情報推定装置。
The time series data encoder further calculates a vector representation for each metric from a timestamp representing a relative time and other data values and aggregates them.
The fault information estimation device according to claim 1 or 2.
メトリクス毎に、前記時系列データエンコーダから供給される時系列データと、前記枝刈り部から供給されるメタデータを同時に学習するメタデータエンコーダをさらに有する 請求項1から請求項3までのいずれかひとつに記載の障害情報推定装置。 The fault information estimation device according to any one of claims 1 to 3, further comprising a metadata encoder that simultaneously learns, for each metric, the time-series data supplied from the time-series data encoder and the metadata supplied from the pruning unit. 監視対象システム内の複数の監視対象の複数のメトリクスの時系列データとメタデータを有するデータを取得することと、
前記複数のメトリクスのデータの中から、障害に関連するメトリクスのデータを抽出することと、
障害に関連する前記メトリクスのデータに基づいて、障害が発生している監視対象の障害情報を推定することと、
障害に関連する前記メトリクスの時系列データの絶対的な時刻を表すタイムスタンプを、時間ウィンドウ内の相対的な時刻を表すタイムスタンプに変換することを有する、
障害情報推定方法。
Obtaining data having time series data and metadata for a plurality of metrics of a plurality of monitored targets in a monitored system;
extracting metric data related to a fault from the plurality of metric data;
estimating fault information of a monitoring target in which a fault has occurred based on the metric data related to the fault;
converting timestamps representing absolute times of the metric time series data related to the faults into timestamps representing relative times within a time window;
Fault information estimation method.
請求項1から請求項までのいずれかひとつに記載の障害情報推定装置の各構成要素の機能をコンピュータに実行させる障害情報推定プログラム。 A fault information estimation program that causes a computer to execute the functions of each component of the fault information estimation device according to any one of claims 1 to 4 .
JP2023564300A 2021-11-30 2021-11-30 Fault information estimation device, fault information estimation method, and fault information estimation program Active JP7694702B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/043844 WO2023100242A1 (en) 2021-11-30 2021-11-30 Failure information estimation device, failure information estimation method, and failure information estimation program

Publications (2)

Publication Number Publication Date
JPWO2023100242A1 JPWO2023100242A1 (en) 2023-06-08
JP7694702B2 true JP7694702B2 (en) 2025-06-18

Family

ID=86611721

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023564300A Active JP7694702B2 (en) 2021-11-30 2021-11-30 Fault information estimation device, fault information estimation method, and fault information estimation program

Country Status (2)

Country Link
JP (1) JP7694702B2 (en)
WO (1) WO2023100242A1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009076056A (en) 2007-07-27 2009-04-09 General Electric Co <Ge> Abnormal aggregation method
US20150205692A1 (en) 2014-01-23 2015-07-23 Concurix Corporation Behavior clustering analysis and alerting system for computer applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009076056A (en) 2007-07-27 2009-04-09 General Electric Co <Ge> Abnormal aggregation method
US20150205692A1 (en) 2014-01-23 2015-07-23 Concurix Corporation Behavior clustering analysis and alerting system for computer applications

Also Published As

Publication number Publication date
JPWO2023100242A1 (en) 2023-06-08
WO2023100242A1 (en) 2023-06-08

Similar Documents

Publication Publication Date Title
US7421351B2 (en) Monitoring and fault detection in dynamic systems
CN111858265A (en) A storage failure prediction method, system and device for a storage system
CN117313015A (en) A time series anomaly detection method and system based on time series and multivariables
US20190265088A1 (en) System analysis method, system analysis apparatus, and program
CN101218786A (en) Communication network fault detection system, communication network fault detection method and fault detection program
WO2011138911A1 (en) Malfunction analysis apparatus, malfunction analysis method, and recording medium
US20170024400A1 (en) Method for automatic processing of a number of protocol files of an automation system
JP6915693B2 (en) System analysis method, system analyzer, and program
US11748321B2 (en) Time-series data condensation and graphical signature analysis
CN118133962A (en) Correlation analysis method, device and system of fault event and storage medium
US12072838B2 (en) Method for generating a coherent representation for at least two log files
US12019595B2 (en) Failure probability evaluation system
WO2017150286A1 (en) System analyzing device, system analyzing method, and computer-readable recording medium
JP7694702B2 (en) Fault information estimation device, fault information estimation method, and fault information estimation program
Davari et al. Fault forecasting using data-driven modeling: a case study for metro do Porto data set
CN113076211A (en) Quality-related fault diagnosis and false alarm feedback method based on fault reconstruction
JP2022165669A (en) Abnormality detection device, abnormality detection method, and abnormality detection program
CN116595353B (en) A remote fault diagnosis and intelligent decision-making system for synchronous condensers
CN118860771A (en) Method, device, computer equipment, readable storage medium and program product based on microservice instance number and call chain inspection
JP7801647B2 (en) Failure analysis device, failure analysis method, and program
CN115543727B (en) Anomaly Detection Method and Device Based on Multivariate Monitoring Indicators of Cloud Services
US20200133253A1 (en) Industrial asset temporal anomaly detection with fault variable ranking
JP7771576B2 (en) Device management system, method for estimating the cause of device failure, and program
Borse et al. URCD: unsupervised root cause detection in microservices architecture with HGAN
KR102895863B1 (en) Operating server and method for diagnosing malfunction of factory automation equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250220

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250328

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250507

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250520

R150 Certificate of patent or registration of utility model

Ref document number: 7694702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350