JP7574673B2 - Anomaly detection device, anomaly detection program, and anomaly detection method - Google Patents
Anomaly detection device, anomaly detection program, and anomaly detection method Download PDFInfo
- Publication number
- JP7574673B2 JP7574673B2 JP2021014548A JP2021014548A JP7574673B2 JP 7574673 B2 JP7574673 B2 JP 7574673B2 JP 2021014548 A JP2021014548 A JP 2021014548A JP 2021014548 A JP2021014548 A JP 2021014548A JP 7574673 B2 JP7574673 B2 JP 7574673B2
- Authority
- JP
- Japan
- Prior art keywords
- dissimilarity
- feature vector
- anomaly
- feedback
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims description 89
- 239000013598 vector Substances 0.000 claims description 119
- 238000012549 training Methods 0.000 claims description 54
- 238000010801 machine learning Methods 0.000 claims description 40
- 230000002159 abnormal effect Effects 0.000 claims description 31
- 238000000034 method Methods 0.000 claims description 22
- 230000006870 function Effects 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims 2
- 238000004891 communication Methods 0.000 description 17
- 230000005856 abnormality Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 6
- 238000011835 investigation Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Description
本発明は、異常検知装置、異常検知プログラム、及び異常検知方法に関し、例えば、セキュリティ機器のログを分析し、マルウェア感染や情報漏洩といった異常を検知する異常検知装置に適用し得る。 The present invention relates to an anomaly detection device, an anomaly detection program, and an anomaly detection method, and can be applied to an anomaly detection device that analyzes logs from security devices and detects anomalies such as malware infections and information leaks, for example.
年々増加・進化するサイバー攻撃が社会問題となっている。特に近年では既存のセキュリティ製品の機能だけでは防げない未知のサイバー攻撃も増加している。そのような中、組織のサイバー攻撃対策として、プロキシサーバやファイアウォールなどのセキュリティ製品のログを分析し、セキュリティ製品での検知漏れを監視する方法が存在する。 Cyberattacks, which increase and evolve year by year, have become a social problem. In particular, in recent years, there has been an increase in unknown cyberattacks that cannot be prevented by the functions of existing security products alone. In such a situation, there is a method for organizations to protect against cyberattacks by analyzing logs from security products such as proxy servers and firewalls, and monitoring for missed detections by security products.
しかしながら、従業員数の多い企業などでは、セキュリティ製品のログの量は膨大であり、人手での分析は現実的ではない。膨大なログに対しては機械的に異常なログを絞り込むアプローチが有効である。 However, in companies with many employees, the volume of logs from security products is enormous, making manual analysis impractical. For large volumes of logs, an approach that mechanically narrows down abnormal logs is effective.
機械的にログを絞り込むアプローチとして、例えば、サイバー攻撃によるマルウェア感染や情報漏洩といった異常な通信ログを教師データとして機械学習し、異常な通信に似たログを絞り込む方法が存在する。サイバー攻撃は、一般に単一のログで完結するものではなく複数のログにわたってその挙動が観測されることが多い。そのため、機械学習器に入力する特徴量として、ユーザ毎に一定期間の通信ログから通信の特徴を抽出したものを使用する。これにより分類精度の向上につながる。 One approach to mechanically narrowing down logs is to use machine learning to train abnormal communication logs, such as those resulting from malware infections or information leaks caused by cyber attacks, as training data, and then narrow down logs that resemble abnormal communications. Cyber attacks are generally not completed in a single log, and their behavior is often observed across multiple logs. For this reason, the features input to the machine learning machine are extracted from communication logs for each user over a certain period of time. This leads to improved classification accuracy.
また、機械学習を用いる場合、誤検知数が多いという課題があるが、誤検知に対しては運用者が検知結果を調査し、結果の正誤をフィードバックする仕組みを持たせることで誤検知を運用の中で削減することができる。しかしながら、サイバー攻撃のような異常な通信ログは一般に入手が難しく、教師データのバリエーションを増やすことが難しいという課題がある。このような場合、学習させた一部の異常通信は検知できるが、それ以外の異常通信は見逃してしまうことになる。 Furthermore, when using machine learning, there is an issue of a high number of false positives, but by having an operator investigate the detection results and provide feedback on whether the results are correct, false positives can be reduced during operation. However, there is an issue that abnormal communication logs such as those of cyber attacks are generally difficult to obtain, making it difficult to increase the variety of training data. In such cases, while some of the abnormal communications that have been learned can be detected, other abnormal communications will be overlooked.
また、サイバー攻撃を受けたユーザの通信ログには、サイバー攻撃に関する通信だけでなく、そのユーザの平常時の通信も含まれる。つまり、複数のユーザで同一のサイバー攻撃を受けたとしても、ユーザ毎に形成される特徴量は異なる場合がある。このような場合、ある教師データの特徴量に近いユーザは異常検知できても、そうでないユーザは異常検知できない可能性がある。しかしながら、同一のサイバー攻撃であれば、その攻撃の特徴を表す共通の要素が存在するはずである。 In addition, the communication logs of a user who has been subjected to a cyber attack contain not only communications related to the cyber attack, but also that user's normal communications. In other words, even if multiple users are subjected to the same cyber attack, the features formed for each user may be different. In such cases, while a user whose features are close to those of a certain training data may be able to detect an anomaly, a user whose features are not may not be able to detect an anomaly. However, if it is the same cyber attack, there should be common elements that represent the characteristics of that attack.
例えば、マルウェア配布先のホスト名やC&C(Command and Control)サーバのホスト名などが該当する。このような宛先ホスト名をキーとして、同一のホストにアクセスしたログを持つユーザの特徴量をフィードバック候補として運用者に提示することで、異常と判定する特徴量のバリエーションを増やし、サイバー攻撃の見逃しも防止することができる。このような、フィードバック候補データを提示する仕組みが必要である。 For example, this would include the hostname of the malware distribution destination or the hostname of a C&C (Command and Control) server. By using such destination hostnames as a key and presenting the features of users who have logs of having accessed the same host to the operator as feedback candidates, it is possible to increase the variety of features that are judged to be abnormal and prevent cyber attacks from being overlooked. A mechanism for presenting such feedback candidate data is needed.
特許文献1では、画像をいくつかのクラスに分類するシステムにおいて、誤判定した画像の分類精度を高めるために、運用者に誤判定した画像の類似画像を画像データベースから検索し複数枚提示して、運用者に正しく分類できている画像をフィードバックさせる技術が開示されている。特許文献1に記載の技術では、画像の分類には教師ありの機械学習を用い、類似画像の検索には教師なしの機械学習を用いる。教師なしの機械学習器も画像をクラス分類するが、その特徴量は教師ありの特徴量と異なるもの(例えば色、テクスチャ、形状など)を用いることができる。特許文献1に記載の技術により、誤判定された画像に近い特徴を持つ同一クラスの画像が教師データとしてフィードバックされるため、効率的に分類精度を向上させることができる。
また、特許文献2では、分類対象のデータを教師あり学習で正例/負例判定するシステムが開示されている。特許文献2に記載の技術は、フィードバックされた日付が新しいほど、教師データの重みを大きくすることに特徴がある。このように重み付けすることで、新しくフィードバックされた特徴量に近いデータが正例判定されやすくなるため、その特徴量周辺の正例のバリエーションを増やすことができる。 Patent Document 2 discloses a system that uses supervised learning to determine whether data to be classified is a positive or negative example. The technology described in Patent Document 2 is characterized by the fact that the more recent the feedback date, the greater the weighting of the supervised data. By weighting in this way, data close to the newly fed back feature is more likely to be determined as a positive example, and the variation of positive examples around that feature can be increased.
しかしながら、上述の特許文献1に記載の技術は、教師なし機械学習器により、同一のクラスに属する画像をフィードバック候補画像として複数枚提示することになるが、画像であれば複数枚提示されてもそれらの正誤判定に時間はかからないが、セキュリティログのように、一つの検知結果の調査に時間を要するものを対象とする場合、このような提示方法では全ての候補を調査するのは現実的でない場合がある。
However, the technology described in the above-mentioned
また、特許文献2に記載の技術は、教師データの特徴量に近いデータのみがフィードバック候補として提示されることになるため、広範に特徴量のバリエーションを増やすことはできない。 In addition, the technology described in Patent Document 2 only presents data that is close to the features of the training data as feedback candidates, so it is not possible to broadly increase the variation in features.
以上より、教師データのバリエーションを増やすために、教師データの特徴量の傾向に現れず(非類似度の高い)、且つ異常である可能性が高いデータを優先的にフィードバック候補として提示できる異常検知装置、異常検知プログラム、及び異常検知方法が望まれている。 In view of the above, in order to increase the variety of training data, there is a need for an anomaly detection device, an anomaly detection program, and an anomaly detection method that can preferentially present as feedback candidates data that does not appear in the trends of the training data's features (high dissimilarity) and is highly likely to be abnormal.
第1の本発明は、ログを解析して異常検知する異常検知装置であって、(1)前記ログから特徴量ベクトルを生成する特徴量ベクトル生成手段と、(2)教師データとなる前記特徴量ベクトルを第1の機械学習器で学習することにより異常判別器を生成し、該異常判別器を用いて前記特徴量ベクトルの異常を判別する異常学習判別手段と、(3)前記教師データを第2の機械学習器で学習することにより前記教師データの特徴量ベクトルに対する非類似度を算出する非類似度算出器を生成し、該非類似度算出器を用いて前記特徴量ベクトルについて前記非類似度が高いかを判定する非類似度学習判定手段と、(4)前記教師データに対応する前記ログにおいて、異常なフィールドの値をキー要素として出力し、前記キー要素と同一の要素を持つ前記非類似度学習判定手段で前記非類似度が高いと判定された前記特徴量ベクトルにフィードバック優先ラベルを付与するフィードバック優先ラベル付与手段と、(5)前記フィードバック優先ラベルが付与された前記特徴量ベクトルを含むデータをフィードバック候補データとして優先的に表示し、前記フィードバック候補データの正誤をフィードバック可能なインタフェースを提供するフィードバック候補表示手段とを有することを特徴とする。 The first invention is an anomaly detection device that detects anomalies by analyzing a log, comprising: (1) a feature vector generation means for generating a feature vector from the log; (2) an anomaly learning and discrimination means for generating an anomaly discriminator by learning the feature vector, which is training data, with a first machine learning device, and discriminating an anomaly in the feature vector using the anomaly discriminator; and (3) a dissimilarity learning and discrimination means for generating a dissimilarity calculator that calculates a dissimilarity between the training data and the feature vector of the training data by learning the training data with a second machine learning device, and for determining whether the dissimilarity is high for the feature vector using the dissimilarity calculator. (4) a feedback priority label assignment means for outputting, as a key element, the value of an abnormal field in the log corresponding to the training data, and assigning a feedback priority label to the feature vector having an element identical to the key element and determined by the dissimilarity learning determination means to have a high dissimilarity; and (5) a feedback candidate display means for preferentially displaying data including the feature vector to which the feedback priority label has been assigned as feedback candidate data, and providing an interface that allows feedback on the accuracy of the feedback candidate data.
第2の本発明の異常検知プログラムは、ログを解析して異常検知する異常検知装置に搭載されるコンピュータを、(1)前記ログから特徴量ベクトルを生成する特徴量ベクトル生成手段と、(2)教師データとなる前記特徴量ベクトルを第1の機械学習器で学習することにより異常判別器を生成し、該異常判別器を用いて前記特徴量ベクトルの異常を判別する異常学習判別手段と、(3)前記教師データを第2の機械学習器で学習することにより前記教師データの特徴量ベクトルに対する非類似度を算出する非類似度算出器を生成し、該非類似度算出器を用いて前記特徴量ベクトルについて前記非類似度が高いかを判定する非類似度学習判定手段と、(4)前記教師データに対応する前記ログにおいて、異常なフィールドの値をキー要素として出力し、前記キー要素と同一の要素を持つ前記非類似度学習判定手段で前記非類似度が高いと判定された前記特徴量ベクトルにフィードバック優先ラベルを付与するフィードバック優先ラベル付与手段と、(5)前記フィードバック優先ラベルが付与された前記特徴量ベクトルを含むデータをフィードバック候補データとして優先的に表示し、前記フィードバック候補データの正誤をフィードバック可能なインタフェースを提供するフィードバック候補表示手段として機能させることを特徴とする。 The second anomaly detection program of the present invention includes a computer mounted on an anomaly detection device that detects anomalies by analyzing a log, the computer comprising: (1) a feature vector generation means for generating a feature vector from the log; (2) an anomaly learning and discrimination means for generating an anomaly discriminator by learning the feature vector, which is to be training data, with a first machine learning device, and discriminating anomalies in the feature vector using the anomaly discriminator; and (3) a dissimilarity calculator for calculating dissimilarity to the feature vector of the training data by learning the training data with a second machine learning device, and determining whether the dissimilarity is high for the feature vector using the dissimilarity calculator. (4) a feedback priority label assignment means that outputs, as a key element, the value of an abnormal field in the log corresponding to the training data, and assigns a feedback priority label to the feature vector that has an element identical to the key element and is determined to have a high dissimilarity by the dissimilarity learning assignment means; and (5) a feedback candidate display means that preferentially displays data including the feature vector to which the feedback priority label has been assigned as feedback candidate data, and provides an interface that allows feedback on the accuracy of the feedback candidate data.
第3の本発明は、ログを解析して異常検知する異常検知装置に使用する異常検知方法であって、(1)特徴量ベクトル生成手段は、前記ログから特徴量ベクトルを生成し、(2)異常学習判別手段は、教師データとなる前記特徴量ベクトルを第1の機械学習器で学習することにより異常判別器を生成し、該異常判別器を用いて前記特徴量ベクトルの異常を判別し、(3)非類似度学習判定手段は、前記教師データを第2の機械学習器で学習することにより前記教師データの特徴量ベクトルに対する非類似度を算出する非類似度算出器を生成し、該非類似度算出器を用いて前記特徴量ベクトルについて前記非類似度が高いかを判定し、(4)フィードバック優先ラベル付与手段は、前記教師データに対応する前記ログにおいて、異常なフィールドの値をキー要素として出力し、前記キー要素と同一の要素を持つ前記非類似度学習判定手段で前記非類似度が高いと判定された前記特徴量ベクトルにフィードバック優先ラベルを付与し、(5)フィードバック候補表示手段は、前記フィードバック優先ラベルが付与された前記特徴量ベクトルを含むデータをフィードバック候補データとして優先的に表示し、前記フィードバック候補データの正誤をフィードバック可能なインタフェースを提供する。 The third invention is an anomaly detection method used in an anomaly detection device that detects anomalies by analyzing a log, in which (1) a feature vector generation means generates a feature vector from the log, (2) an anomaly learning and discrimination means generates an anomaly discriminator by learning the feature vector, which is teacher data, with a first machine learning device, and discriminates an anomaly in the feature vector using the anomaly discriminator, and (3) a dissimilarity learning and discrimination means generates a dissimilarity calculator that calculates dissimilarity to the feature vector of the teacher data by learning the teacher data with a second machine learning device, and discriminates an anomaly in the feature vector using the dissimilarity calculator. (4) the feedback priority label assignment means outputs, as a key element, the value of an abnormal field in the log corresponding to the training data, and assigns a feedback priority label to the feature vector having an element identical to the key element and determined by the dissimilarity learning judgment means to have a high dissimilarity; (5) the feedback candidate display means preferentially displays data including the feature vector to which the feedback priority label has been assigned as feedback candidate data, and provides an interface that allows feedback on the accuracy of the feedback candidate data.
本発明によれば、教師データのバリエーションを増やすために、教師データの特徴量の傾向に現れず、且つ異常である可能性が高いデータを優先的にフィードバック候補として提示できる。 According to the present invention, in order to increase the variety of training data, data that does not appear in the trend of the features of the training data and is likely to be abnormal can be presented preferentially as feedback candidates.
(A)主たる実施形態
以下、本発明に係る異常検知装置、異常検知プログラム、及び異常検知方法の一実施形態を、図面を参照しながら詳述する。
(A) Main embodiment Hereinafter, an embodiment of an anomaly detection device, an anomaly detection program, and an anomaly detection method according to the present invention will be described in detail with reference to the drawings.
(A-1)実施形態の構成
(A-1-1)異常検知装置の概要
まず、本実施形態の異常検知装置の概要を述べる。本実施形態は、セキュリティ製品のログ(以下、「セキュリティログ」と呼ぶ)からサイバー攻撃のような異常な通信を教師ありの機械学習器で検知する異常検知装置に関するものである。ここでは、セキュリティログは、例えばプロキシサーバのログを想定するものとする。本実施形態の異常検知装置では、異常な通信挙動を定義した複数の検知エンジンを用意し、それぞれの観点で定義した挙動に一致するログを抽出し、さらに抽出したログに対して異常を表すスコアを0~100点で付ける。異常な通信挙動を定義した検知エンジンとは、例えば、「不正な拡張子のファイルをダウンロードしている」であったり、「普段アクセスされないホストにアクセスしている」などである。次に、図2のような、送信元アドレス毎に一定期間のログ(通信ログ)に対して検知エンジン毎にスコアを合計したものを、機械学習器に入力する特徴量ベクトルとする。そして、異常検知装置は、異常な通信ログを含む特徴量ベクトルに対して教師ラベルを付けて学習し異常分類器を出力する。異常分類結果は、GUI(Graphical User Interface)などで運用者に提示される。運用者は異常分類結果を起点として、検知エンジンの検知結果や通信ログを調査し、異常分類結果の正否を判定してシステム(異常検知装置)にフィードバックする。異常検知装置は、フィードバック情報をもとに定期的に異常分類器を再学習する。
(A-1) Configuration of the embodiment (A-1-1) Overview of the anomaly detection device First, an overview of the anomaly detection device of this embodiment will be described. This embodiment relates to an anomaly detection device that detects abnormal communication such as a cyber attack from a log of a security product (hereinafter referred to as a "security log") using a supervised machine learning machine. Here, the security log is assumed to be, for example, a log of a proxy server. In the anomaly detection device of this embodiment, multiple detection engines that define abnormal communication behavior are prepared, logs that match the behavior defined from each viewpoint are extracted, and a score indicating anomaly is assigned to the extracted log with a score of 0 to 100 points. An example of a detection engine that defines abnormal communication behavior is "downloading a file with an invalid extension" or "accessing a host that is not usually accessed." Next, the sum of the scores for each detection engine for logs (communication logs) for a certain period for each source address as shown in FIG. 2 is used as a feature vector to be input to the machine learning machine. Then, the anomaly detection device assigns a teacher label to the feature vector including the abnormal communication log, learns, and outputs an anomaly classifier. The anomaly classification result is presented to the operator via a GUI (Graphical User Interface) or the like. The operator uses the anomaly classification result as a starting point to investigate the detection results of the detection engine and communication logs, judges whether the anomaly classification result is correct or not, and feeds it back to the system (anomaly detection device). The anomaly detection device periodically re-learns the anomaly classifier based on the feedback information.
本実施形態における異常検知装置では、前述の異常検知のための機械学習器とは別に、教師データに対して非類似度の高い特徴量を持つデータを抽出する機械学習器を備える。この機械学習器は、例えばオートエンコーダのように、教師データの特徴量ベクトルを次元削減し、次元数を元に戻したものを出力とした時に、入力と出力が同じになるように学習を行う。この時、非類似度は、あるデータを学習済みの機械学習器に入力した時の入力と出力のベクトルをベクトル要素毎に差をとって合計した値として求める。以後、この機械学習器によって出力される非類似度を算出する機構を「非類似度算出器」と呼ぶ。非類似度が高いと判定されたデータは、フィードバック候補データとしてGUIなどで運用者に提示される。さらにフィードバック候補データのうち、教師データと共通のキー要素を持つデータが優先的に提示される。キー要素とは、その教師データを異常とみなすのに寄与したログのフィールドの値を表し、例えばマルウェア配布サイトのアクセスログであれば、そのログの宛先ホスト名(宛先IPアドレス)がキー要素となる。フィードバック候補データは、上記異常分類結果と同様の手順で運用者に調査され、正誤の判定結果がシステム(異常検知装置で)にフィードバックされる。異常検知装置は、フィードバック情報をもとに定期的に非類似度算出器を再学習する。 In the anomaly detection device in this embodiment, in addition to the machine learning machine for anomaly detection described above, a machine learning machine is provided that extracts data having features with high dissimilarity to the teacher data. This machine learning machine performs learning so that the input and output are the same when the feature vector of the teacher data is reduced in dimension and the number of dimensions is restored to the original value and output, for example, like an autoencoder. At this time, the dissimilarity is calculated as a value obtained by taking the difference between the input and output vectors for each vector element when a certain data is input to a trained machine learning machine and summing them. Hereinafter, the mechanism that calculates the dissimilarity output by this machine learning machine is called a "dissimilarity calculator". Data that is determined to have high dissimilarity is presented to the operator as feedback candidate data using a GUI or the like. Furthermore, among the feedback candidate data, data that has a key element in common with the teacher data is presented preferentially. The key element represents the value of the field of the log that contributed to determining that the teacher data is abnormal. For example, in the case of an access log of a malware distribution site, the destination host name (destination IP address) of the log is the key element. The feedback candidate data is surveyed by the operator using the same procedure as for the anomaly classification results described above, and the result of the judgment as to whether it is correct or incorrect is fed back to the system (the anomaly detection device). The anomaly detection device periodically retrains the dissimilarity calculator based on the feedback information.
(A-1-2)異常検知装置10の詳細構成
図1は、実施形態に係る異常検知装置の内部構成を示すブロック図である。図1において、異常検知装置10は、処理部11、特徴量生成部12、異常学習/判別部13、非類似度学習/判定部14、フィードバック優先ラベル付与部15、異常判別結果表示部16、フィードバック候補表示部17、及び記憶部18を備える。
(A-1-2) Detailed configuration of the
異常検知装置10は、例えば、プロセッサ及びメモリ等を有するコンピュータにプログラムをインストールすることにより構築するようにしても良い。また、異常検知装置10は、一部又は全部をハードウェア(例えば、専用の半導体チップや電気回路等)を用いて構成するようにしても良い。
The
処理部11は、外部からセキュリティログを受け付ける手段を有する。処理部11は、受け取ったセキュリティログを特徴量生成部12に与え、特徴量の生成を要求する。また、処理部11は、教師データとなる異常なセキュリティログを受け取った場合、特徴量生成部12にその旨を併せて通知する。与えられたセキュリティログが教師データであることは、外部から明示的に示されるものとする。
The
さらに、処理部11は、異常判別結果およびフィードバック候補のGUI表示要求を受け付ける手段を有する。処理部11は、表示要求に応じて(例えば、専用のインタフェースを介して運用者から表示要求を受けると)、異常判別結果表示部16又はフィードバック候補表示部17に、GUI表示を要求する。
The
特徴量生成部12は、処理部11からセキュリティログを受け取ると、各検知エンジンを実行しスコアを算出し、機械学習器に入力する特徴量ベクトルを生成する手段を有する。検知エンジンが複数のセキュリティログを使って実行されるものである場合、必要な数のログが揃った段階で検知エンジンを実行する。各検知エンジンには、ログのどの要素に着目して検知するかを表す、検知エンジンの観点情報が紐づけられて記憶部18に保持される。
When the
検知エンジンの観点情報は、例えば検知エンジンが「普段アクセスされないホストにアクセスしている」であれば、アクセス先ホストのフィールドを示す情報である。特徴量生成部12は、特徴量を生成するために必要な期間のセキュリティログが集まった時、送信元アドレス単位で検知エンジンのその期間のスコアを合計したものを特徴量とし、各特徴量を連結したもの特徴量ベクトルとして生成する(例えば上述の図2)。この時、特徴量生成に使用したログに教師データが含まれる場合、この特徴量ベクトルに異常を表す教師ラベルを付与する。特徴量生成部12は、セキュリティログと生成した特徴量ベクトルを記憶部18に保存する。特徴量生成部12は、非類似度学習/判定部14及び異常学習/判別部13に非類似度判定及び異常判別を要求する。
The viewpoint information of the detection engine is, for example, information indicating the field of the accessed host if the detection engine is "accessing a host that is not usually accessed". When security logs for the period required to generate features are collected, the
異常学習/判別部13は、教師あり学習により、入力された特徴量ベクトルの正常/異常を判別する異常判別器を作成する手段を有する。教師あり学習器には、異常判別に寄与する特徴量を得られるもの(以下、「特徴量重要度情報」と呼ぶ)を用いる。例えば決定木ベースの教師あり学習器である。異常学習/判別部13は、記憶部18から定期的に教師データを取得し、前回の学習から更新があった場合、学習を実施する。
The anomaly learning/
また、異常学習/判別部13は、学習後、フィードバック優先ラベル付与部15に教師データのキー要素の推定と、非教師データについて後述のフィードバック優先ラベルの付与を要求する。ここでキー要素は、例えばアクセス先ホスト名やダウンロードファイル名である。
After learning, the anomaly learning/
異常学習/判別部13は、特徴量生成部12から特徴量ベクトルを受けると、生成した異常判別器で当該特徴量ベクトルを異常判別する手段を有する。異常学習/判別部13は、異常判別器、特徴量重要度情報、及び異常判別結果を記憶部18に保存する。
The anomaly learning/
非類似度学習/判定部14は、入力された特徴量ベクトルと教師データの特徴量ベクトルとの非類似度を算出する非類似度算出器を生成する手段を有する。機械学習器には、例えばオートエンコーダを用い、入力の特徴量ベクトルをエンコード(次元削減)し、エンコードしたものをデコードして入力と同じ特徴量ベクトルが出力されるように学習を行う。このように学習された結果、学習に使われた特徴量ベクトルはデコードされた時の誤差が小さく、学習されていない特徴量ベクトルは誤差が大きくなるような非類似度算出器が生成される。この誤差の大きさを非類似度の高さとして扱う。非類似度学習/判定部14は、記憶部18から定期的に教師データを取得し、前回の学習から教師データの更新があった場合、学習を実施する。
The dissimilarity learning/
また、非類似度学習/判定部14は、特徴量生成部12から特徴量ベクトルを受けると、生成した非類似度算出器で当該特徴量データの非類似度が高いかを判定する手段を有する。非類似度学習/判定部14は、非類似度算出器により算出された非類似度が予め決められた閾値以上であった時、非類似度が高いと判定する。非類似度学習/判定部14は、非類似度が高いと判定した特徴量ベクトルについて、フィードバック優先ラベル付与部15にフィードバック優先ラベルの付与を要求する。非類似度学習/判定部14は、非類似度算出器及び非類似度判定結果を記憶部18に保存する。
When the dissimilarity learning/
フィードバック優先ラベル付与部15は、各教師データについて、教師データの特徴量ベクトル、異常判別器の特徴量重要度情報、及び検知エンジンの観点情報から、当該教師データを構成する一連のセキュリティログにおけるキー要素を推定する手段を有する。キー要素は、例えばアクセス先ホスト名やダウンロードファイル名である。フィードバック優先ラベル付与部15におけるキー要素推定方法は、まず教師データの特徴量ベクトルと特徴量重要度情報から重要度の高い教師データの特徴量を抽出する。当該抽出方法は、特に限定しないが、例えば特徴量重要度情報の重要度の高い特徴量から順に、対応する教師データの特徴量の値が0より大きいか見ていき、初めて条件に合致した特徴量を重要度の高い特徴量とするなどである。
The feedback priority
次に、フィードバック優先ラベル付与部15は、重要度の高い特徴量に対応する検知エンジンにおける、検知エンジンの観点情報を取得する。例えば、重要度の高い特徴量に対応する検知エンジンが「普段アクセスされないホストにアクセスしている」であれば、アクセス先ホストというフィールド情報が取得される。最後に、教師データのセキュリティログの中から重要度の高い検知エンジンで検知されたログを取得し、当該ログにおける前記観点情報のフィールドの値をキー要素として出力する。この時、複数のログで検知エンジンが検知され、キー要素が複数存在する場合は、その全てを出力してもよいし、最も高いスコアが付いたログの要素だけを出力しても良い。フィードバック優先ラベル付与部15は、推定したキー要素を教師データと対応付けて記憶部18に保存する。
Next, the feedback priority
また、フィードバック優先ラベル付与部15は、教師データのキー要素と同一の要素を持つ、未学習の特徴量ベクトルに対してフィードバック優先ラベルを付与する手段を有する。フィードバック優先ラベル付与部15は、フィードバック優先ラベルを付けた特徴量ベクトルを記憶部18に保存する。
The feedback priority
異常判別結果表示部16は、異常判別結果を運用者に表示する手段を有する。異常判別結果の表示方法は特に限定しないが、例えば、異常判別器が、入力された特徴量ベクトルが異常である確率値を出力する場合、図3のように確率の大きさを円で表してより異常なデータを判別しやすくする表示方法などが考えられる。また、異常判別結果表示部16は、異常判別した特徴量ベクトルの特徴量に対応する検知エンジンの検知結果やセキュリティログを運用者に提示する。さらに、異常判別結果表示部16は、運用者が異常判別結果を調査した結果の正誤判定結果をシステムにフィードバックできる手段を有する。フィードバック方法は特に限定しないが、例えばセキュリティログ単位に異常か正常かを選択できるラジオボタン等のインタフェースを介してフィードバックする方法が考えられる。異常判別結果表示部16は、フィードバックがあると、そのログを含む特徴量ベクトルの教師ラベルを更新し、記憶部18に保存する。
The abnormality determination
フィードバック候補表示部17は、非類似度の高い特徴量ベクトルについて、フィードバック優先ラベルの情報を使ってフィードバック候補となる特徴量ベクトルを運用者に表示する手段を有する。フィードバック候補の表示方法については限定しないが、例えば、上述の図3の異常判別結果の表示例のように、非類似度が高く、かつフィードバック優先ラベル有の特徴量データを大きい円で表示する方法が考えられる。
The feedback
また、フィードバック候補表示部17は、異常判別結果表示部16と同様に、非類似度の高い特徴量ベクトルについて、特徴量ベクトルの特徴量に対応する検知エンジンの検知結果やセキュリティログを運用者に提示する手段を有する。さらにフィードバック候補表示部17は、運用者が調査した結果の正誤判定結果をシステムにフィードバックできる手段を有する。フィードバック候補表示部17は、フィードバックがあると、フィードバックされたログに対する特徴量ベクトルの教師ラベルを更新し、記憶部18に保存する。
Furthermore, like the anomaly discrimination
記憶部18は、セキュリティログ、特徴量ベクトル、教師ラベル、フィードバック優先ラベル、教師データのキー要素、検知エンジン、検知エンジンの観点情報、特徴量重要度情報等を保持する手段を有する。
The
(A-2)実施形態の動作
次に、以上のような構成を有する実施形態に係る異常検知装置10の動作を説明する。以下、異常検知装置10におけるセキュリティログ投入時動作、異常判別器の学習動作、非類似度算出器の学習動作、及びフィードバック候補調査動作、異常判別結果調査動作についてそれぞれ説明する。
(A-2) Operation of the embodiment Next, the operation of the
(A-2-1)セキュリティログの投入時動作
図4は、実施形態に係るセキュリティログ投入時の異常検知装置の特徴動作を示すフローチャートである。
(A-2-1) Operation at the Time of Entering a Security Log FIG. 4 is a flowchart showing a characteristic operation of the anomaly detection device at the time of entering a security log according to this embodiment.
セキュリティログ(以下、単に「ログ」と呼ぶ)が処理部11に投入(入力)されると、処理部11は、特徴量生成部12にログを与え特徴量の生成を要求する(S101)。
When a security log (hereinafter simply referred to as "log") is input to the
特徴量生成部12は、入力されたログとこれまでに投入されたログから、特徴量生成に必要な期間のログが蓄積されたか否かを確認する(S102)。特徴量生成部12は、ログが蓄積されていない場合には一連の処理を終了し(即ち次のログが入力されるのを待ち)、一方、特徴量生成部12はログが蓄積されたと判断すると次の処理を実行する。
The
特徴量生成部12は、ログが蓄積されたと判断した場合、当該ログ群に対して各検知エンジンを実行する(S103)。
When the
特徴量生成部12は、未完了の検知エンジンが存在しなくなったことを確認する(即ち、全ての検知エンジンを実行したかを確認する)。特徴量生成部12は、全ての検知エンジンを実行した場合、次の処理を実行する(S104)。
The
特徴量生成部12は、全ての検知エンジンの実行が完了すると、特徴量生成単位の期間のログについて送信元アドレス単位に検知エンジン毎にスコアを合計して、特徴量ベクトル(例えば上述の図2)を生成する(S105)。特徴量生成部12は、生成した特徴量ベクトルと投入されたセキュリティログを記憶部18に保存する。
When the execution of all the detection engines is completed, the
特徴量生成部12は、ログの中に教師データが含まれているか否か確認する(S106)。特徴量生成部12は、ログの中に教師データ(例えば異常な通信ログ)が含まれている場合、次の処理を実行し、一方、ログの中に教師データが含まれていない場合、後述するステップS108の処理を実行する。
The
特徴量生成部12は、ログの中に教師データが含まれる場合、教師データの特徴量ベクトルに対して異常の教師ラベルを付与する(S107)。
If training data is included in the log, the
一方、特徴量生成部12は、生成した特徴量ベクトルが教師データでない場合、異常学習/判別部13に当該特徴量ベクトルの異常判別を要求する(S108)。異常学習/判別部13は、異常判別器で正常/異常を判別し、判別結果を記憶部18に保存する。
On the other hand, if the generated feature vector is not teacher data, the
特徴量生成部12は、非類似度学習/判定部14に当該特徴量ベクトルの非類似度判定を要求する(S109)。非類似度学習/判定部14は、非類似度算出器で非類似度を算出し、算出された非類似度が閾値以上の時、非類似度が高いと判定し、記憶部18に保存する。
The
非類似度学習/判定部14は、非類似度が高いと判定した特徴量ベクトルについては、フィードバック優先ラベル付与部15にフィードバック優先ラベルの付与を要求する(S110)。フィードバック優先ラベル付与部15は、記憶部18から教師データのキー要素を取得し、当該特徴量ベクトルを構成するログの中にキー要素が含まれるか検索する。いずれかのログにキー要素が含まれる場合、当該特徴量ベクトルにフィードバック優先ラベルを付与し記憶部18に保存する。
For feature vectors determined to have high dissimilarity, the dissimilarity learning/
(A-2-2)異常学習/判別部13の特徴動作(異常判別器の学習動作)
図5は、実施形態に係る異常学習/判別部の特徴動作(異常判別器の学習動作)を示すフローチャートである。
(A-2-2) Characteristic Operation of the Anomaly Learning/Discrimination Unit 13 (Learning Operation of the Anomaly Discriminator)
FIG. 5 is a flowchart showing a characteristic operation (learning operation of the anomaly discriminator) of the anomaly learning/discrimination unit according to the embodiment.
異常学習/判別部13は、定期的に記憶部18から教師データを取得し、前回学習時の教師データから更新があったか否かを確認する(S201)。
The anomaly learning/
教師データの更新があった場合、異常学習/判別部13は機械学習器で学習を行う(S202、S203)。ここでの機械学習器には、特徴量の重要度が得られるものを用いる。異常学習/判別部13は、学習の結果生成された異常判別器と特徴量重要度を記憶部18に保存する。
When the teacher data is updated, the anomaly learning/
異常学習/判別部13は、キー要素が紐づけられていない教師データについて、フィードバック優先ラベル付与部15にキー要素の推定を要求する(S204)。フィードバック優先ラベル付与部15は、記憶部18から特徴量重要度情報を取得し、特徴量重要度情報の重要度の高い特徴量から順に、教師データの特徴量ベクトルの対応する特徴量の値が0より大きいかを調べる。フィードバック優先ラベル付与部15は、最初に見つかった特徴量について、対応する検知エンジンのスコアが0より大きい当該教師データのログと、検知エンジンの観点情報を記憶部18から取得し、観点情報に一致するログのフィールドの値をキー要素として推定する。フィードバック優先ラベル付与部15は、教師データに推定したキー要素を関連付けて記憶部18に保存する。
The anomaly learning/
フィードバック優先ラベル付与部15は、さらに記憶部18から非類似度の高い特徴量ベクトルと、特徴量ベクトルを構成するログを取得し、推定したキー要素が含まれるログの特徴量ベクトノルに対してフィードバック優先ラベルを付与し、記憶部18に保存する。
The feedback priority
(A-2-3)非類似度学習/判定部14の特徴動作(非類似度算出器の学習動作)
図6は、実施形態に係る非類似度学習/判定部の特徴動作(非類似度算出器の学習動作)を示すフローチャートである。
(A-2-3) Characteristic Operation of Dissimilarity Learning/Determination Unit 14 (Learning Operation of Dissimilarity Calculator)
FIG. 6 is a flowchart showing a characteristic operation (learning operation of the dissimilarity calculator) of the dissimilarity learning/determination unit according to the embodiment.
非類似度学習/判定部14は、定期的に記憶部18から教師データを取得し、前回学習時の教師データから更新があったか否かを確認する(S301、S302)。
The dissimilarity learning/
教師データの更新があった場合、非類似度学習/判定部14は、機械学習器で学習を行う(S303)。機械学習器には、例えばオートエンコーダを用い、教師データの特徴量ベクトルを再現する非類似度算出器を生成する。非類似度学習/判定部14は、生成した非類似度算出器を記憶部18に保存する。
When the teacher data is updated, the dissimilarity learning/
(A-2-4)フィードバック候補表示部17の特徴動作
図7は、実施形態に係るフィードバック候補表示部の特徴動作を示すフローチャートである。即ち、運用者がフィードバック候補の表示をシステムに要求し、運用者が結果を調査してフィードバックするまでの一連の動作を示すものである。
(A-2-4) Characteristic Operation of the Feedback
処理部11は、フィードバック候補表示要求を受けると(例えば、運用者から専用のインタフェースを介してフィードバック候補表示要求を受けると)、フィードバック候補表示部17に表示を要求する(S401)。
When the
フィードバック候補表示部17は、記憶部18から非類似度の高い特徴量ベクトルと、フィードバック優先ラベル情報を取得する。そして、フィードバック候補表示部17は、非類似度の高い特徴量ベクトルを表示し、さらにその中でフィードバック優先ラベルが付与されたものについては優先付けして表示する(S402)。
The feedback
フィードバック候補表示部17は、運用者から特徴量ベクトルに対してフィードバックがあるか否か判定する(S403)。
The feedback
フィードバック候補表示部17は、運用者から特徴量ベクトルに対してフィードバックがあると、当該特徴量ベクトルに対して異常/正常ラベルを付与し記憶部18に保存する(S404)。フィードバックされた特徴量ベクトルは、フィードバック候補表示画面から削除して良い。
When the feedback
(A-2-5)異常判別結果表示部16の特徴動作
図8は、実施形態に係る異常判別結果表示部の特徴動作を示すフローチャートである。即ち、図8は、運用者が異常判別結果の表示をシステムに要求し、運用者が結果を調査してフィードバックするまでの一連の動作を示すものである。
(A-2-5) Characteristic Operation of the Anomaly Determination
処理部11は、異常判別結果表示要求を受けると(例えば、運用者から専用のインタフェースを介してフィードバック異常判別結果表示要求を受けると)、異常判別結果表示部16に表示を要求する(S501)。
When the
異常判別結果表示部16は、記憶部18から異常判別された特徴量ベクトルを取得し表示する(S502)。
The abnormality determination
異常判別結果表示部16は、運用者から特徴量ベクトルに対してフィードバックがあるか否か判定する(S503)。
The anomaly detection
異常判別結果表示部16は、運用者から特徴量ベクトルに対してフィードバックがあると、当該特徴量ベクトルに対して異常/正常ラベルを付与し記憶部18に保存する(S504)。
When the operator provides feedback on the feature vector, the anomaly determination
(A-3)実施形態の効果
本実施形態によれば、以下の効果を奏する。
(A-3) Effects of the Embodiment According to the present embodiment, the following effects are obtained.
本実施形態の異常検知装置10は、異常判別を行う機械学習器(異常学習/判別部13)に加え、教師データの特徴量ベクトルと非類似度が高い特徴量ベクトルを持つデータを判定する別の機械学習器(非類似度学習/判定部14)を備え、異常判別結果とは別にフィードバック候補として運用者に提示することに特徴がある。このような構成により、フィードバック候補のデータが調査され、判定結果がシステムにフィードバックされると、新しい特徴量ベクトルの傾向を持つ教師データが増え、教師データのバリエーションを増やし判別精度の向上や異常通信の検知漏れを防ぐことにつながる。
The
また、異常検知装置10は、教師データのログにおけるキー要素を推定し、同一の要素を持つフィードバック候補に優先付けして表示することに特徴がある。優先付けを行うことで、異常と判定される可能性が高いものが優先して調査され、異常検知漏れのデータを早期に発見しシステムにフィードバックすることができる。また優先付けされたものだけを調査するような運用にすることによって、運用者の調査工数の削減にもつながる。
The
(B)他の実施形態
本発明は、上記実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B) Other Embodiments The present invention is not limited to the above-described embodiment, and modified embodiments such as those exemplified below can also be mentioned.
(B-1)上記実施形態では、特徴量の重要度情報を用いて自動でキー要素を推定する方法について説明したが、これに限定されるものではない。例えば、運用者がシステムにフィードバックする際に異常と判定するのに寄与した要素を明示的に与える方法も考えられる。自動でキー要素を推定する場合、推定が誤ってしまう可能性があるが、明示的に与える場合は誤る可能性を回避することができ、フィードバックの優先候補が真に異常である確率を高めることができる。また、教師データとなるセキュリティログを異常検知装置10に与える際に、当該ログと共にキー要素を明示して与えても良い。
(B-1) In the above embodiment, a method for automatically estimating key elements using feature importance information has been described, but the present invention is not limited to this. For example, a method can be considered in which the operator explicitly provides the elements that contributed to determining an anomaly when providing feedback to the system. When automatically estimating key elements, there is a possibility that the estimation will be erroneous, but when providing the elements explicitly, the possibility of error can be avoided and the probability that the priority candidate for feedback is truly an anomaly can be increased. In addition, when providing a security log that serves as training data to the
(B-2)上記実施形態では、非類似度算出のための機械学習器にオートエンコーダを用いたが、これに限定されるものではない。例えばクラスタリングにより、教師データをいくつかのクラスに分類し、データを入力すると各クラスからの距離(クラスへの属しやすさ)が出力される機械学習器を用い、非教師データをこの機械学習器に入力した時にどのクラスからも距離が離れている場合に非類似度が高いと判定する方法が考えられる。 (B-2) In the above embodiment, an autoencoder is used as the machine learning machine for calculating dissimilarity, but this is not limited to this. For example, a conceivable method is to classify training data into several classes by clustering, and use a machine learning machine that outputs the distance from each class (ease of belonging to a class) when data is input, and when non-training data is input to this machine learning machine, if the distance from each class is large, it is determined that the dissimilarity is high.
10…異常検知装置、11…処理部、12…特徴量生成部、13…判別部、14…判定部、15…フィードバック優先ラベル付与部、16…異常判別結果表示部、17…フィードバック候補表示部、18…記憶部。
10: anomaly detection device, 11: processing unit, 12: feature generation unit, 13: discrimination unit, 14: judgment unit, 15: feedback priority label assignment unit, 16: anomaly discrimination result display unit, 17: feedback candidate display unit, 18: memory unit.
Claims (9)
前記ログから特徴量ベクトルを生成する特徴量ベクトル生成手段と、
教師データとなる前記特徴量ベクトルを第1の機械学習器で学習することにより異常判別器を生成し、該異常判別器を用いて前記特徴量ベクトルの異常を判別する異常学習判別手段と、
前記教師データを第2の機械学習器で学習することにより前記教師データの特徴量ベクトルに対する非類似度を算出する非類似度算出器を生成し、該非類似度算出器を用いて前記特徴量ベクトルについて前記非類似度が高いかを判定する非類似度学習判定手段と、
前記教師データに対応する前記ログにおいて、異常なフィールドの値をキー要素として出力し、前記キー要素と同一の要素を持つ前記非類似度学習判定手段で前記非類似度が高いと判定された前記特徴量ベクトルにフィードバック優先ラベルを付与するフィードバック優先ラベル付与手段と、
前記フィードバック優先ラベルが付与された前記特徴量ベクトルを含むデータをフィードバック候補データとして優先的に表示し、前記フィードバック候補データの正誤をフィードバック可能なインタフェースを提供するフィードバック候補表示手段と
を有することを特徴とする異常検知装置。 An anomaly detection device that analyzes logs to detect anomalies,
a feature vector generating means for generating a feature vector from the log;
an anomaly learning and discrimination means for generating an anomaly discriminator by learning the feature vector serving as training data with a first machine learning device, and discriminating an anomaly in the feature vector using the anomaly discriminator;
a dissimilarity learning and determination means for generating a dissimilarity calculator that calculates a dissimilarity between the training data and a feature vector by training the training data with a second machine learning device, and determining whether the dissimilarity between the training data and the feature vector is high using the dissimilarity calculator;
a feedback priority label assignment means for outputting an abnormal field value as a key element in the log corresponding to the training data, and assigning a feedback priority label to the feature vector having an element identical to the key element and determined by the dissimilarity learning determination means to have a high dissimilarity;
and a feedback candidate display means for preferentially displaying data including the feature vector to which the feedback priority label has been assigned as feedback candidate data, and providing an interface enabling feedback on the accuracy of the feedback candidate data.
前記第1の機械学習器は、前記異常判別器において前記特徴量ベクトルのいずれかの特徴量が異常判別に強く寄与するかを示す特徴量重要度情報が得られるものであり、
前記フィードバック優先ラベル付与手段における前記キー要素の出力方法は、
前記教師データの前記特徴量ベクトルから前記特徴量重要度情報の中で重要度の高い特徴量を抽出し、
重要度の高い前記特徴量の観点から、対応する前記ログのフィールド値を前記キー要素として出力する
ことを特徴とする請求項1又は2に記載の異常検知装置。 the feature vector is composed of features extracted from a plurality of perspectives for the log,
the first machine learning machine obtains feature importance information indicating whether any feature of the feature vector strongly contributes to anomaly determination in the anomaly discriminator,
The method of outputting the key elements in the feedback priority labeling means is as follows:
extracting a feature quantity having a high importance among the feature quantity importance information from the feature quantity vector of the training data;
The anomaly detection device according to claim 1 or 2, further comprising: a field value of the log corresponding to the feature amount having a high degree of importance being output as the key element.
外部から前記教師データである前記ログが投入される場合、前記教師データと共に前記キー要素が明示的に与えられ、
前記異常判別結果表示手段及び又は前記フィードバック候補表示手段は、フィードバックにより前記教師データの投入を受け付ける場合、前記キー要素を選択して受け付け可能である
ことを特徴とする請求項2に記載の異常検知装置。 The method of outputting the key elements in the feedback priority labeling means is as follows:
When the log, which is the training data, is input from the outside, the key element is explicitly given together with the training data,
3. The anomaly detection device according to claim 2, wherein the anomaly determination result display means and/or the feedback candidate display means are capable of selecting and accepting the key element when accepting input of the teacher data by feedback.
前記第2の機械学習器が、前記教師データの前記特徴量ベクトルを次元削減し、元の次元に戻したときに出力される値が入力の前記特徴量ベクトルと同一になるように学習し、前記入力の前記特徴量ベクトルと出力のベクトルの各次元の差を前記非類似度として出力する前記非類似度算出器を生成し、
前記入力の前記特徴量ベクトルを前記非類似度算出器に適用した場合に、前記非類似度が閾値以上であった時に、前記非類似度が高いと判定する
ことを特徴とする請求項1~4のいずれかに記載の異常検知装置。 The method of calculating the dissimilarity in the dissimilarity learning and determining means includes the steps of:
the second machine learning machine reduces the dimensions of the feature vector of the training data, learns so that a value output when the feature vector is restored to the original dimensions is identical to the feature vector of the input, and generates the dissimilarity calculator that outputs a difference in each dimension between the feature vector of the input and the vector of the output as the dissimilarity;
5. The anomaly detection device according to claim 1, wherein when the input feature vector is applied to the dissimilarity calculator, if the dissimilarity is equal to or greater than a threshold, the dissimilarity is determined to be high.
前記第2の機械学習器が、クラスタリングによって前記教師データを複数のクラスに分類するように学習し、各クラスとの距離を出力する前記非類似度算出器を生成し、
入力の前記特徴量ベクトルを前記非類似度算出器に適用した場合に、いずれのクラスとの距離も閾値以上である場合に、前記非類似度が高いと判定する
ことを特徴とする請求項1~4のいずれかに記載の異常検知装置。 The method of calculating the dissimilarity in the dissimilarity learning and determining means includes the steps of:
the second machine learning machine learns to classify the training data into a plurality of classes by clustering, and generates the dissimilarity calculator that outputs a distance to each class;
5. The anomaly detection device according to claim 1, wherein when the input feature vector is applied to the dissimilarity calculator, if a distance between the input feature vector and any class is equal to or greater than a threshold, the dissimilarity is determined to be high.
前記ログから特徴量ベクトルを生成する特徴量ベクトル生成手段と、
教師データとなる前記特徴量ベクトルを第1の機械学習器で学習することにより異常判別器を生成し、該異常判別器を用いて前記特徴量ベクトルの異常を判別する異常学習判別手段と、
前記教師データを第2の機械学習器で学習することにより前記教師データの特徴量ベクトルに対する非類似度を算出する非類似度算出器を生成し、該非類似度算出器を用いて前記特徴量ベクトルについて前記非類似度が高いかを判定する非類似度学習判定手段と、
前記教師データに対応する前記ログにおいて、異常なフィールドの値をキー要素として出力し、前記キー要素と同一の要素を持つ前記非類似度学習判定手段で前記非類似度が高いと判定された前記特徴量ベクトルにフィードバック優先ラベルを付与するフィードバック優先ラベル付与手段と、
前記フィードバック優先ラベルが付与された前記特徴量ベクトルを含むデータをフィードバック候補データとして優先的に表示し、前記フィードバック候補データの正誤をフィードバック可能なインタフェースを提供するフィードバック候補表示手段と
して機能させることを特徴とする異常検知プログラム。 A computer installed in an anomaly detection device that analyzes logs and detects anomalies,
a feature vector generating means for generating a feature vector from the log;
an anomaly learning and discrimination means for generating an anomaly discriminator by learning the feature vector serving as training data with a first machine learning device, and discriminating an anomaly in the feature vector using the anomaly discriminator;
a dissimilarity learning and determination means for generating a dissimilarity calculator that calculates a dissimilarity between the training data and a feature vector by training the training data with a second machine learning device, and determining whether the dissimilarity between the training data and the feature vector is high using the dissimilarity calculator;
a feedback priority label assignment means for outputting an abnormal field value as a key element in the log corresponding to the training data, and assigning a feedback priority label to the feature vector having an element identical to the key element and determined by the dissimilarity learning determination means to have a high dissimilarity;
and causing the program to function as a feedback candidate display means for preferentially displaying data including the feature vector to which the feedback priority label has been assigned as feedback candidate data and providing an interface through which the program can provide feedback on the accuracy of the feedback candidate data.
特徴量ベクトル生成手段は、前記ログから特徴量ベクトルを生成し、
異常学習判別手段は、教師データとなる前記特徴量ベクトルを第1の機械学習器で学習することにより異常判別器を生成し、該異常判別器を用いて前記特徴量ベクトルの異常を判別し、
非類似度学習判定手段は、前記教師データを第2の機械学習器で学習することにより前記教師データの特徴量ベクトルに対する非類似度を算出する非類似度算出器を生成し、該非類似度算出器を用いて前記特徴量ベクトルについて前記非類似度が高いかを判定し、
フィードバック優先ラベル付与手段は、前記教師データに対応する前記ログにおいて、異常なフィールドの値をキー要素として出力し、前記キー要素と同一の要素を持つ前記非類似度学習判定手段で前記非類似度が高いと判定された前記特徴量ベクトルにフィードバック優先ラベルを付与し、
フィードバック候補表示手段は、前記フィードバック優先ラベルが付与された前記特徴量ベクトルを含むデータをフィードバック候補データとして優先的に表示し、前記フィードバック候補データの正誤をフィードバック可能なインタフェースを提供する
ことを特徴とする異常検知方法。
An anomaly detection method for use in an anomaly detection device that detects anomalies by analyzing logs, comprising:
The feature vector generating means generates a feature vector from the log;
the anomaly learning and discrimination means generates an anomaly discriminator by learning the feature vector serving as training data with a first machine learning device, and discriminates an anomaly in the feature vector using the anomaly discriminator;
the dissimilarity learning determination means generates a dissimilarity calculator that calculates a dissimilarity between the teacher data and a feature vector of the teacher data by learning the teacher data with a second machine learning device, and determines whether the dissimilarity between the teacher data and the feature vector is high using the dissimilarity calculator;
a feedback priority label assignment means for outputting, as a key element, a value of an abnormal field in the log corresponding to the training data, and assigning a feedback priority label to the feature vector having an element identical to the key element and determined by the dissimilarity learning determination means to have a high dissimilarity;
the feedback candidate display means displays, with priority, data including the feature vector to which the feedback priority label has been assigned as feedback candidate data, and provides an interface that enables feedback on the accuracy of the feedback candidate data.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021014548A JP7574673B2 (en) | 2021-02-01 | 2021-02-01 | Anomaly detection device, anomaly detection program, and anomaly detection method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021014548A JP7574673B2 (en) | 2021-02-01 | 2021-02-01 | Anomaly detection device, anomaly detection program, and anomaly detection method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022117827A JP2022117827A (en) | 2022-08-12 |
| JP7574673B2 true JP7574673B2 (en) | 2024-10-29 |
Family
ID=82750605
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021014548A Active JP7574673B2 (en) | 2021-02-01 | 2021-02-01 | Anomaly detection device, anomaly detection program, and anomaly detection method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7574673B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116561612B (en) * | 2023-05-26 | 2025-12-23 | 中国工商银行股份有限公司 | Semi-supervision-based self-correction method for searching Kmeans abnormal log in center |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011065579A (en) | 2009-09-18 | 2011-03-31 | Nec Corp | Standard pattern learning device, labeling criterion calculating device, standard pattern learning method and program |
| JP2019080201A (en) | 2017-10-25 | 2019-05-23 | 沖電気工業株式会社 | Communication analysis apparatus, communication analysis program, and communication analysis method |
| JP2019139277A (en) | 2018-02-06 | 2019-08-22 | オムロン株式会社 | Evaluation device, motion control device, evaluation method, and evaluation program |
| JP2020009141A (en) | 2018-07-06 | 2020-01-16 | 株式会社 日立産業制御ソリューションズ | Machine learning device and method |
| JP2020170350A (en) | 2019-04-03 | 2020-10-15 | 沖電気工業株式会社 | Abnormality judgment learner, abnormality judgment learning program, abnormality judgment learning method, and abnormality judgment system |
-
2021
- 2021-02-01 JP JP2021014548A patent/JP7574673B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2011065579A (en) | 2009-09-18 | 2011-03-31 | Nec Corp | Standard pattern learning device, labeling criterion calculating device, standard pattern learning method and program |
| JP2019080201A (en) | 2017-10-25 | 2019-05-23 | 沖電気工業株式会社 | Communication analysis apparatus, communication analysis program, and communication analysis method |
| JP2019139277A (en) | 2018-02-06 | 2019-08-22 | オムロン株式会社 | Evaluation device, motion control device, evaluation method, and evaluation program |
| JP2020009141A (en) | 2018-07-06 | 2020-01-16 | 株式会社 日立産業制御ソリューションズ | Machine learning device and method |
| JP2020170350A (en) | 2019-04-03 | 2020-10-15 | 沖電気工業株式会社 | Abnormality judgment learner, abnormality judgment learning program, abnormality judgment learning method, and abnormality judgment system |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022117827A (en) | 2022-08-12 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11528294B2 (en) | Systems and methods for automated threat detection | |
| JP6860070B2 (en) | Analytical equipment, log analysis method and analysis program | |
| US11334771B2 (en) | Methods, devices and systems for combining object detection models | |
| US20220350733A1 (en) | Systems and methods for generating and executing a test case plan for a software product | |
| US8041710B2 (en) | Automatic diagnosis of search relevance failures | |
| US20180357214A1 (en) | Log analysis system, log analysis method, and storage medium | |
| Sreelakshmi et al. | Enhancing intrusion detection systems with machine learning | |
| US9558346B1 (en) | Information processing systems with security-related feedback | |
| Jha et al. | Detecting cloud-based phishing attacks by combining deep learning models | |
| JP7574673B2 (en) | Anomaly detection device, anomaly detection program, and anomaly detection method | |
| Shinde et al. | Ensemble voting for enhanced robustness in darknet traffic detection | |
| elShehaby et al. | Adversarial evasion attacks practicality in networks: Testing the impact of dynamic learning | |
| Ourston et al. | Coordinated internet attacks: responding to attack complexity | |
| WO2022185576A1 (en) | Unauthorized intrusion analysis assistance device and unauthorized intrusion analysis assistance method | |
| CN113420777A (en) | Abnormal log detection method, device storage medium and equipment | |
| Baliyan et al. | Enhancing phishing website detection using ensemble machine learning models | |
| Hassan | On determining the most effective subset of features for detecting phishing websites | |
| Melendrez et al. | Boosted Ensemble Voting for Intrusion Detection: A SHAP-Driven Analysis of XGBoost and CatBoost | |
| WO2021106028A1 (en) | Machine-learning device, machine-learning method, and recording medium having machine-learning program stored therein | |
| Hirani et al. | A deep learning approach for detection of SQL injection attacks using convolutional neural networks | |
| CN116166795A (en) | Semantic analysis method and related device for self-checking alarm information of relay protection equipment | |
| Pina | Automatic detection of anomalous user access patterns to sensitive data | |
| JP2023031591A (en) | Anomaly determination system, anomaly determination program, and anomaly determination method | |
| JP7283315B2 (en) | Anomaly detection device, anomaly detection program, and anomaly detection method | |
| Younesian et al. | Syslog anomaly detection using supervised machine learning models |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231109 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240904 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240917 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240930 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7574673 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |