Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6018024B2 - CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM - Google Patents
[go: Go Back, main page]

JP6018024B2 - CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM - Google Patents

CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM Download PDF

Info

Publication number
JP6018024B2
JP6018024B2 JP2013134086A JP2013134086A JP6018024B2 JP 6018024 B2 JP6018024 B2 JP 6018024B2 JP 2013134086 A JP2013134086 A JP 2013134086A JP 2013134086 A JP2013134086 A JP 2013134086A JP 6018024 B2 JP6018024 B2 JP 6018024B2
Authority
JP
Japan
Prior art keywords
value
appearance frequency
period
change
predetermined data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013134086A
Other languages
Japanese (ja)
Other versions
JP2015011391A (en
Inventor
正圭 韓
正圭 韓
浩之 牧野
浩之 牧野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2013134086A priority Critical patent/JP6018024B2/en
Publication of JP2015011391A publication Critical patent/JP2015011391A/en
Application granted granted Critical
Publication of JP6018024B2 publication Critical patent/JP6018024B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、変化検知装置、変化検知システム、変化検知方法及びプログラムに関する。   The present invention relates to a change detection device, a change detection system, a change detection method, and a program.

近年、ユーザが感想、気づき等を短い文書で手軽に投稿(エントリ)し共有するマイクロブログサービスが普及している。このマイクロブログサービスは、一般大衆の身近な意見をタイムリーに得られるため、マーケティング事業方針の判断材料等として注目を集めている。代表的なマイクロブログサービスのいくつかは、コンピュータにより自動でデータを取得可能なAPI(Application Programming Interface)を公開しており、マイクロブログに逐次エントリされたデータの集合であるマイクロブログストリームデータ(以下、ストリームデータと呼ぶ)の分析が普及しつつある。   In recent years, microblogging services that allow users to easily post (entry) and share impressions and awareness in short documents have become widespread. This microblogging service is attracting attention as a judgment material for marketing business policies, etc., because it allows timely feedback from the general public. Some typical microblog services publish an API (Application Programming Interface) that can automatically acquire data by a computer, and microblog stream data (hereinafter referred to as a set of data sequentially entered in a microblog). , Called stream data) is becoming widespread.

上記のストリームデータは、形式的な特徴として、多数の一般ユーザが書き込むため、サービス全体として生成されるデータ量が多い。また、内容的な特徴として、書き込みの対象がユーザの関心事全てに及ぶため内容の種類は多岐にわたるという特徴を持つ。   Since the above-mentioned stream data is written by many general users as a formal feature, the amount of data generated as a whole service is large. In addition, as a characteristic feature, since the target of writing covers all the interests of the user, there are various types of content.

一般的に、あるデータ特性を持つデータ分析をリアルタイム(タイムリー)に、最小限の費用で効率的に行うためには、分析対象となる所定データ(例えばマーケティング事業方針の判断材料となるターム(商品名など))のみをリアルタイムでフィルタリングし、処理すべきデータ量を削減する。さらに、一定期間内に生成されるデータ量の変化が激しい期間においては、いつもとは違う内容が出現する確率が高いため、データ量の変化が激しい期間を検知し、該当期間に生成されたデータを分析対象データとする。   In general, in order to perform data analysis with certain data characteristics in real time (timely) and efficiently at a minimum cost, predetermined data to be analyzed (for example, terms that serve as judgment materials for marketing business policies) Filter product names only)) in real time to reduce the amount of data to be processed. In addition, during a period when the change in the amount of data generated within a certain period is drastic, there is a high probability that unusual content will appear. Is the data to be analyzed.

しかし、マイクロブログサービスに加入しているユーザ、つまり人間がデータの生成主体であるため、生成されるデータ量は、短期的には人間のライフサイクルに従い周期的に変動する。また、長期的にはマイクロブログサービスの人気の推移に従い変化する。また、分析対象毎に生成されるデータ量もばらばらである。よって、分析対象となる所定データの出現頻度パターンの変化が激しい期間を判断するための基準(閾値)は上記要素の状態に従い時々刻々と変化する。このため、全ての要素を分析者が事前に考慮して、分析対象となる所定データの出現頻度パターンの変化が激しい期間をデータ出現頻度変化期間として判断する基準を設定・維持することは難しく、リアルタイムで自律的に変化を検知することは困難である。   However, since a user who subscribes to the microblog service, that is, a human being is a data generation subject, the amount of data to be generated fluctuates periodically according to the human life cycle in the short term. In the long run, it will change according to the popularity of microblogging services. In addition, the amount of data generated for each analysis target varies. Therefore, the reference (threshold value) for determining the period in which the change in the appearance frequency pattern of the predetermined data to be analyzed is drastically changes according to the state of the element. For this reason, it is difficult for an analyst to consider all factors in advance, and to set and maintain a standard for determining a period in which the change in the appearance frequency pattern of the predetermined data to be analyzed is a severe change as the data appearance frequency change period. It is difficult to detect changes autonomously in real time.

上述したストリームデータについて、分析対象となる所定データのデータ出現頻度パターンの変化時点であり、所定データの出現頻度が急激に変化する時点をほぼ同時刻に検出するリアルタイム検知手法の最も簡単な手法としては、予め閾値を設けておき、所定データの出現頻度が閾値を超えた瞬間を変化する時点とみなして通知する手法がある。   As the simplest technique of the above-mentioned stream data, the real-time detection method that detects the time when the data appearance frequency pattern of the predetermined data to be analyzed changes, and the time when the appearance frequency of the predetermined data suddenly changes is detected at almost the same time. There is a method in which a threshold value is set in advance, and the moment when the appearance frequency of the predetermined data exceeds the threshold value is regarded as a change time point and notified.

また、周辺環境を途切れず測定し、測定値をストリームで伝送する多数の個別センサーで構成されるセンサーネットワークにおいて、センサーのデータ伝送量を減少させるデータ伝送量減少アルゴリズムを、上述したリアルタイム検知に用いる手法もある。データ伝送量減少アルゴリズムでは、自然界で測定されるデータ値は周期性を持つことが多いことに着目している。まず、周期を相互に被らない複数の部分期間に分解し、蓄積された過去のデータから部分期間毎の値の平均と標準偏差を計算する。個別センサーは、実測した値が、平均と標準偏差から計算した範囲を超える場合にデータを送信することでデータの伝送量を減少させている。また、計算した範囲の陳腐化を防ぐため、一定期間毎に過去データを利用して範囲を更新している。このデータ伝送量減少アルゴリズムにおける、センサーがデータを伝送するケースを、変化が発生したケースに置き換えることにより、リアルタイム検知に用いる。   In addition, in the sensor network composed of a large number of individual sensors that measure the surrounding environment without interruption and transmit the measured values in a stream, the data transmission amount reduction algorithm that reduces the data transmission amount of the sensor is used for the real-time detection described above. There is also a technique. The data transmission reduction algorithm focuses on the fact that data values measured in nature often have periodicity. First, the period is divided into a plurality of partial periods that do not suffer from each other, and the average and standard deviation of the values for each partial period are calculated from the accumulated past data. The individual sensor reduces the data transmission amount by transmitting data when the actually measured value exceeds the range calculated from the average and the standard deviation. In addition, in order to prevent the calculated range from becoming obsolete, the range is updated by using past data at regular intervals. In this data transmission amount reduction algorithm, the case in which the sensor transmits data is replaced with a case in which a change has occurred, and is used for real-time detection.

Energy-Efficient Sensor Data Acquisition based on Periodic Patterns, Guan-Rong Lin, Yao-Chung Fan, En Tzu Wang, Tao Zou, Arbee L.P.Chen, 2009 15th International Conference on Parallel and Distributed Systems,IEEE COMPUTER SOCIETY, 2009Energy-Efficient Sensor Data Acquisition based on Periodic Patterns, Guan-Rong Lin, Yao-Chung Fan, En Tzu Wang, Tao Zou, Arbee L.P. Chen, 2009 15th International Conference on Parallel and Distributed Systems, IEEE COMPUTER SOCIETY, 2009

しかしながら、予め閾値を設ける手法では、閾値が固定されるため、時間経過、時間帯により正常と見なすことが可能となるような、分析対象となる所定データの出現頻度が異なる環境での検知精度がよくなかった。   However, since the threshold value is fixed in the method in which the threshold value is set in advance, the detection accuracy in an environment in which the appearance frequency of the predetermined data to be analyzed is different, which can be regarded as normal depending on the passage of time and the time zone. It was not good.

また、データ伝送量減少アルゴリズムを用いる手法は、そもそもデータ伝送量の削減を目的とするアルゴリズムによる手法であるため、閾値の範囲外の値が測定されることが必ずしも所定データの出現頻度の変化を示すものではない。データ出現頻度の急激な変化を検知する精度の向上という課題に対して、データ伝送量減少アルゴリズムを用いる手法における詳細な評価と、その評価のフィードバックによる精度の向上は、上述した課題を考慮の対象としていないため、変化の検知精度の向上に寄与しない場合がある。また、一定期間毎に過去データを用い、その範囲を更新しているため、過去データを蓄積する必要があり、更新タイミング以前に判定基準(閾値)が変化した場合、その更新タイミングまで変化を反映できないことがある。   In addition, since the method using the data transmission amount reduction algorithm is based on an algorithm aimed at reducing the data transmission amount in the first place, measurement of a value outside the threshold range does not necessarily change the appearance frequency of the predetermined data. It is not shown. In response to the problem of improving the accuracy of detecting sudden changes in the frequency of data appearance, detailed evaluation in the method using the data transmission amount reduction algorithm and the improvement of accuracy by feedback of the evaluation are subject to the above-mentioned issues Therefore, there is a case where it does not contribute to improvement of change detection accuracy. In addition, past data is used at regular intervals and the range is updated, so it is necessary to accumulate past data. If the criteria (threshold) changes before the update timing, the change is reflected until the update timing. There are things that cannot be done.

本発明は、上記に鑑みてなされたものであって、ストリームデータに含まれる分析対象となる所定データの出現頻度変化を、リアルタイムに精度よく検知することを可能とする変化検知装置、変化検知システム、変化検知方法及びプログラムを提供することを目的とする。   The present invention has been made in view of the above, and includes a change detection apparatus and a change detection system that can accurately detect in real time a change in the appearance frequency of predetermined data to be analyzed included in stream data. An object of the present invention is to provide a change detection method and program.

上述した課題を解決し、目的を達成するために、実施形態にかかる変化検知装置は、所定の周期内で分割した区分期間ごとに集計された、ストリームデータに含まれる所定データの出現頻度に基づいて、将来の区分期間における前記所定データの出現頻度の予測値を算出する予測部と、前記算出された予測値の中の、現在の区分期間における予測値と、前記現在の区分期間で集計された前記所定データの出現頻度との差が、前記区分期間ごとに集計された所定データの出現頻度のパターンに基づく閾値を超える場合に、前記所定データの出現頻度に変化が生じていると判定する判定部と、を備えることを特徴とする。   In order to solve the above-described problems and achieve the object, the change detection device according to the embodiment is based on the appearance frequency of predetermined data included in stream data, which is aggregated for each divided period within a predetermined period. A prediction unit for calculating a predicted value of the frequency of occurrence of the predetermined data in a future segment period, a predicted value in a current segment period among the calculated forecast values, and an aggregation in the current segment period In addition, when the difference from the appearance frequency of the predetermined data exceeds a threshold value based on the appearance frequency pattern of the predetermined data aggregated for each of the division periods, it is determined that the appearance frequency of the predetermined data has changed. And a determination unit.

実施形態にかかる変化検知装置によれば、ストリームデータに含まれる分析対象となる所定データの出現頻度を、リアルタイムに精度よく検知することを可能とする、という効果を奏する。   According to the change detection device according to the embodiment, there is an effect that it is possible to accurately detect the appearance frequency of the predetermined data to be analyzed included in the stream data in real time.

図1は、実施形態にかかる変化検知システムの構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a configuration of a change detection system according to the embodiment. 図2は、実施形態にかかる変化検知システムの動作の一例を示すラダーチャートである。FIG. 2 is a ladder chart illustrating an example of the operation of the change detection system according to the embodiment. 図3は、所定データの出現数についての周期を説明する図である。FIG. 3 is a diagram for explaining a cycle for the number of appearances of predetermined data. 図4は、所定データの出現頻度の加速度と、時間の経過との関係を例示するグラフである。FIG. 4 is a graph illustrating the relationship between the acceleration of the appearance frequency of the predetermined data and the passage of time. 図5は、記憶領域の一例を示す図である。FIG. 5 is a diagram illustrating an example of a storage area. 図6−1は、通常予測の更新方式を例示するグラフである。FIG. 6A is a graph illustrating a normal prediction update method. 図6−2は、修正予測の更新方式を例示するグラフである。FIG. 6B is a graph illustrating an example of a modified prediction update method. 図7は、ドリフト効果を例示するグラフである。FIG. 7 is a graph illustrating the drift effect. 図8は、スケールによるバーストの誤検知を例示するグラフである。FIG. 8 is a graph illustrating erroneous detection of a burst due to a scale. 図9は、閾値以下のMACD差分の連続出現におけるバーストを例示するグラフである。FIG. 9 is a graph illustrating bursts in successive appearances of MACD differences equal to or less than a threshold value. 図10は、ドリフトのようなバーストの検知を例示するグラフである。FIG. 10 is a graph illustrating detection of bursts such as drift. 図11は、通知部による通知を例示する図である。FIG. 11 is a diagram illustrating notification by the notification unit. 図12は、実施形態にかかる変化検知システムの変化検知装置における処理がコンピュータを用いて具体的に実現されることを示す図である。FIG. 12 is a diagram illustrating that the processing in the change detection device of the change detection system according to the embodiment is specifically realized using a computer.

以下、添付図面を参照して実施形態にかかる変化検知装置、変化検知システム、変化検知方法及びプログラムを詳細に説明する。なお、以下の説明において、同様の構成要素には共通の符号を付与するとともに、重複する説明を省略する。   Hereinafter, a change detection device, a change detection system, a change detection method, and a program according to embodiments will be described in detail with reference to the accompanying drawings. In the following description, common constituent elements are given common reference numerals, and redundant description is omitted.

図1は、実施形態にかかる変化検知システム1の構成の一例を示す図である。図2は、実施形態にかかる変化検知システム1の動作の一例を示すラダーチャートである。   FIG. 1 is a diagram illustrating an example of a configuration of a change detection system 1 according to the embodiment. FIG. 2 is a ladder chart illustrating an example of the operation of the change detection system 1 according to the embodiment.

図1に示すように、変化検知システム1は、パターン検出装置10、頻度集計装置20、変化検知装置30を備え、マイクロブロクサービスなどで多くのユーザが途切れなくエントリするストリームデータにおいて、分析対象となる所定データの出現パターンを認識、そのパターンの出現状況を監視する。そして、変化検知システム1は、所定データの出現頻度が急激に変化する(バースト)時点を、パターン変化の発生時点として、変化時刻とほぼ同時刻に検出して通知する。ここでいう、分析対象となる所定データとは、マーケティング事業方針の判断材料となるタームなどであり、一例としては商品名であってよい。この所定データは、ユーザの入力操作などによって予め登録されているものとする。   As shown in FIG. 1, the change detection system 1 includes a pattern detection device 10, a frequency counting device 20, and a change detection device 30. In the stream data that many users enter without interruption in a micro block service or the like, The appearance pattern of the predetermined data is recognized and the appearance status of the pattern is monitored. Then, the change detection system 1 detects and notifies the time point at which the appearance frequency of the predetermined data suddenly changes (burst) as a pattern change occurrence time at approximately the same time as the change time. The predetermined data to be analyzed here is a term or the like that is a material for determining the marketing business policy, and may be a product name as an example. This predetermined data is registered in advance by a user input operation or the like.

パターン検出装置10は、入力されるストリームデータを逐次監視しており、ストリームデータに対して予め登録した所定データの出現頻度のパターンを検出する(図2:S1)。パターン検出装置10は、検出したパターンの説明と検出した事実を示す出現情報を頻度集計装置20に検出毎にリアルタイムに通知する(図2:S2)。なお、パターン検出装置10におけるリアルタイムの通知は、検出と通知の時間差が予め定められた時間以内であることを示す。本実施形態では、この時間差は10秒以下であるものとする。   The pattern detection apparatus 10 sequentially monitors input stream data, and detects a pattern of appearance frequency of predetermined data registered in advance for the stream data (FIG. 2: S1). The pattern detection apparatus 10 notifies the frequency counting apparatus 20 of the appearance information indicating the description of the detected pattern and the detected fact in real time for each detection (FIG. 2: S2). The real-time notification in the pattern detection apparatus 10 indicates that the time difference between detection and notification is within a predetermined time. In this embodiment, it is assumed that this time difference is 10 seconds or less.

パターン検出装置10が検出する所定データの出現頻度は、周期性をみせる環境があるとする。この周期性は、データをエントリするユーザの生活リズムなどが要因の一例として挙げられる。例えば、所定データが食品名などである場合は、1日周期の中でユーザの食事の時間帯に多くのエントリが見込まれ、食事の時間帯以外ではエントリが見込まれないこととなる。よって、周期を所定の間隔で区分した部分期間(区分期間)で出現頻度の集計を行うと、食事の時間帯に対応した部分期間における所定データの出現頻度が大きく、他の時間帯に対応した部分期間における所定データの出現頻度は小さくなる。   It is assumed that the appearance frequency of the predetermined data detected by the pattern detection apparatus 10 has an environment showing periodicity. One example of the periodicity is a life rhythm of a user who enters data. For example, when the predetermined data is a food name or the like, many entries are expected in the meal time zone of the user in the daily cycle, and no entries are expected outside the meal time zone. Therefore, when the appearance frequency is aggregated in the partial period (segment period) divided by a predetermined interval, the appearance frequency of the predetermined data in the partial period corresponding to the meal time zone is large, and it corresponds to other time zones The appearance frequency of the predetermined data in the partial period is reduced.

図3は、所定データの出現頻度についての周期を説明する図である。図3において、個々の周期をTnとする(nは自然数、観測開始時の周期を1とする)。一つの周期は、同じ長さを持ち、それぞれの時間を共有しない固定数の部分期間で構成される。この部分期間の数は分割元となる全ての周期において同一である。それぞれの部分期間は周期を構成する順序により連番を付与する。例えば、図3では周期は3個の部分期間を持ち、各周期を構成する部分期間はその構成順序により、1、2、3の連番が付与されている。   FIG. 3 is a diagram for explaining a cycle of appearance frequency of predetermined data. In FIG. 3, each cycle is Tn (n is a natural number, and the cycle at the start of observation is 1). One period is composed of a fixed number of partial periods having the same length and not sharing each time. The number of the partial periods is the same in all the cycles that are the division sources. Each partial period is given a serial number in the order of constituting the period. For example, in FIG. 3, the cycle has three partial periods, and the partial periods constituting each cycle are assigned serial numbers 1, 2, and 3 according to the order of the components.

よって、各周期において、部分期間に付与された連番数が同じとなる部分期間は、過去、現在、未来において互いに対応する部分期間となる。例えば、現在時刻が周期T2の部分期間T2−2に相当する場合、その部分期間T2−2と対応する、1周期前の過去の部分期間はT1−2である。また、部分期間T2−2と対応する、未来の周期Tnの部分期間はTn−2である。図3に示すように、所定データの出現頻度は、部分期間T1−2、T2−2、…、Tn−2で大きく、他の部分期間では少なくなるような周期性を示している。   Accordingly, in each cycle, the partial periods having the same number of serial numbers assigned to the partial periods are partial periods corresponding to each other in the past, the present, and the future. For example, when the current time corresponds to the partial period T2-2 of the period T2, the past partial period one period before corresponding to the partial period T2-2 is T1-2. Further, the partial period of the future cycle Tn corresponding to the partial period T2-2 is Tn-2. As shown in FIG. 3, the appearance frequency of the predetermined data shows a periodicity that is large in the partial periods T1-2, T2-2,..., Tn-2 and decreases in the other partial periods.

頻度集計装置20は、検出された所定データの出現頻度を、所定の周期内で分割した部分期間ごとに集計する。具体的には、頻度集計装置20は、パターン検出装置10に登録されたパターンのリストを保持しており、パターン検出装置10からの通知をパターン毎に集計する(図2:S3)。そして、頻度集計装置20は、RTC(Real Time Clock)機能により計時している時刻をもとに、部分期間が変化する時点で集計結果を頻度情報として変化検知装置30へ出力する(図2:S4)。   The frequency counting device 20 totals the appearance frequencies of the detected predetermined data for each partial period divided within a predetermined period. Specifically, the frequency counting device 20 holds a list of patterns registered in the pattern detection device 10, and counts notifications from the pattern detection device 10 for each pattern (FIG. 2: S3). Then, the frequency counting device 20 outputs the counting result as frequency information to the change detecting device 30 when the partial period changes based on the time measured by the RTC (Real Time Clock) function (FIG. 2: S4).

なお、周期および部分期間については、ユーザの操作入力などを介して予め適正値が設定されているものとする。例えば、周期は1日単位、1周間単位、1月単位などであってよい。また、部分期間は、その周期を等分に分割するものであってよく、周期が1日単位で設定されている場合には、10分単位、1時間単位などであってよい。   In addition, about a period and a partial period, an appropriate value shall be preset through a user's operation input. For example, the period may be a daily unit, a weekly unit, a monthly unit, or the like. In addition, the partial period may divide the cycle into equal parts, and may be in units of 10 minutes or 1 hour when the period is set in units of one day.

頻度集計装置20は、集計結果を頻度情報として変化検知装置30へ出力した後、パターン毎の集計結果を0にリセットし、集計を継続する。   The frequency tabulation device 20 outputs the tabulation result as frequency information to the change detection device 30, and then resets the tabulation result for each pattern to 0 and continues the tabulation.

例えば、ある部分期間(T2−1)中にパターンAが3回、パターンBが2回、パターンCが0回、パターン検出装置10から通知されたものとする。そして、それに続く部分期間(T2−2)中に、パターンAが2回、パターンBが0回、パターンCが1回、パターン検出装置10から通知されたものとする。   For example, it is assumed that the pattern detection apparatus 10 notifies the pattern A three times, the pattern B twice, the pattern C zero times during a certain partial period (T2-1). Then, during the subsequent partial period (T2-2), it is assumed that the pattern detection device 10 notifies the pattern A twice, the pattern B zero times, and the pattern C once.

頻度集計装置20は、ある部分期間(T2−1)に続く部分期間(T2−2)に遷移する時点で、パターンAが3回、パターンBが2回、パターンCが0回現れた事実を変化検知装置30に出力する。また、頻度集計装置20は、続く部分期間(T2−2)から更に続く部分期間(T2−3)に遷移する時点で、パターンAが2回、パターンBが0回、パターンCが1回現れた事実を変化検知装置30に出力する。なお、本実施形態では、説明を簡単にするために0回の場合も通知したが、通知しない場合は0と見なし計算し、0回の場合は通知しなくてもよい。   The frequency counting device 20 indicates that the pattern A appears 3 times, the pattern B 2 times, and the pattern C 0 times at the time of transition to a partial period (T2-2) following a certain partial period (T2-1). Output to the change detection device 30. In addition, the frequency counting device 20 shows that the pattern A appears twice, the pattern B appears zero, and the pattern C appears once at the time of transition from the subsequent partial period (T2-2) to the subsequent partial period (T2-3). This fact is output to the change detection device 30. In this embodiment, in order to simplify the description, the case of 0 times is also notified. However, when not notified, it is assumed that 0 is calculated, and in the case of 0 times, it is not necessary to notify.

また、本実施形態では、頻度集計装置20は所定データの出現頻度パターン毎の出現頻度の単純集計の代わりに、異なるサイズの短い窓と長い窓を用いた出現頻度の指数平滑移動平均(Exponential Moving Average)を計算する。そして、頻度集計装置20は、計算したEMA値の内、短い窓を用いたEMA値を所定データに関する出現頻度(出現数)とし、短い窓を用いたEMA値から長い窓を用いたEMA値を引いた差分である、MACD(Moving Average Convergence and Divergence)の指数平滑移動平均(MACD Histogram)を利用する。   Further, in the present embodiment, the frequency counting device 20 uses an exponential moving average (Exponential Moving Average) of appearance frequencies using short windows and long windows of different sizes instead of simple aggregation of appearance frequencies for each appearance frequency pattern of predetermined data. Calculate Average). Then, the frequency counting device 20 sets the EMA value using the short window among the calculated EMA values as the appearance frequency (number of appearances) regarding the predetermined data, and the EMA value using the long window from the EMA value using the short window. The subtracted difference, MACD (Moving Average Convergence and Divergence) exponential smoothing moving average (MACD Histogram) is used.

このMACD Histogramは、出現頻度数変化の加速度である。また、EMA値の計算は,複数の連続した部分期間で測定された所定データの出現頻度データを入力に用いるが、この計算の入力となる複数の連続した部分期間が窓に該当する。そして、“今現在”を起点として何個の部分期間まで遡るかを定めた値が窓のサイズとなる。例えば、本実施形態では、短い窓の長さを7、長い窓の長さを9、MACD Histogramを計算するための用いた窓の長さを5としたが、この値はシステムを適用する領域により適切な値を与えることが可能である。   This MACD Histogram is the acceleration of the appearance frequency number change. The calculation of the EMA value uses appearance frequency data of predetermined data measured in a plurality of continuous partial periods as an input, and a plurality of continuous partial periods serving as inputs for the calculation correspond to windows. The window size is a value that determines how many sub-periods are traced back from “now”. For example, in the present embodiment, the length of the short window is set to 7, the length of the long window is set to 9, and the length of the window used for calculating the MACD histogram is set to 5, but this value is an area to which the system is applied. It is possible to give a more appropriate value.

変化検知装置30は、予測部31と、判定部32とを備える。変化検知装置30は、頻度集計装置20から出力された頻度情報をもとに、予測部31、判定部32によって、所定データの出現頻度が急激に変化するバーストの時点を、パターン変化の発生時点として、変化時刻とほぼ同時刻に検出して通知する処理(図2:S5)を実行する。   The change detection device 30 includes a prediction unit 31 and a determination unit 32. Based on the frequency information output from the frequency counting device 20, the change detection device 30 uses the prediction unit 31 and the determination unit 32 to determine the burst time point at which the appearance frequency of the predetermined data changes rapidly as the pattern change occurrence time point. Then, a process of detecting and notifying at approximately the same time as the change time (FIG. 2: S5) is executed.

予測部31は、頻度集計装置20により部分期間ごとに集計された、ストリームデータに含まれる所定データの出現頻度に基づいて、将来の部分期間における所定データの出現頻度の予測値を算出する(図2:S51)。判定部32は、予測部31により算出された予測値の中の、現在の部分期間における予測値と、頻度集計装置20により現在の部分期間として集計された所定データの出現頻度との差が、部分期間ごとに集計された所定データの出現頻度のパターンに基づく閾値を超える場合に、所定データの出現頻度に変化が生じているバーストと判定する(図2:S52)。   The prediction unit 31 calculates a predicted value of the appearance frequency of the predetermined data in the future partial period based on the appearance frequency of the predetermined data included in the stream data, which is aggregated for each partial period by the frequency totaling device 20 (FIG. 2: S51). The determination unit 32 has a difference between a prediction value in the current partial period in the prediction values calculated by the prediction unit 31 and an appearance frequency of the predetermined data tabulated as the current partial period by the frequency tabulation device 20. When the threshold based on the appearance frequency pattern of the predetermined data aggregated for each partial period is exceeded, it is determined that the burst has changed in the appearance frequency of the predetermined data (FIG. 2: S52).

判定部32によりバーストとして判定された場合は、現在バーストが生じているとする変化の通知としてディスプレイなどに出力され、ユーザに通知される。また、判定部32による判定結果(変化判定)は、予測部31に通知される。予測部31は、判定結果に基づき、現在の区分期間に対応した将来の区分期間における所定データの出現頻度の予測値を更新する。   When it is determined as a burst by the determination unit 32, it is output to a display or the like as a notification of a change that a burst is currently occurring, and is notified to the user. Further, the determination result (change determination) by the determination unit 32 is notified to the prediction unit 31. The prediction unit 31 updates the predicted value of the appearance frequency of the predetermined data in the future segment period corresponding to the current segment period based on the determination result.

図4は、所定データの出現頻度の加速度と、時間の経過との関係を例示するグラフである。具体的には、図4は、データ出現頻度パターンの急激な変化であるバーストが発生した時点(=データ出現頻度パターンの異常発生のポイント)の検出を具体的に例示するためのグラフである。図4において、グラフの縦軸はMACD Histogram(加速度)の値を横軸は時間の経過を意味している。また、周期は1日単位であり、棒グラフの一つが一つの部分期間に該当している。   FIG. 4 is a graph illustrating the relationship between the acceleration of the appearance frequency of the predetermined data and the passage of time. Specifically, FIG. 4 is a graph for specifically illustrating detection of a point in time when a burst, which is a rapid change in the data appearance frequency pattern (= point of occurrence of an abnormality in the data appearance frequency pattern). In FIG. 4, the vertical axis of the graph represents the value of MACD histogram (acceleration), and the horizontal axis represents the passage of time. Further, the cycle is in units of one day, and one of the bar graphs corresponds to one partial period.

マイクロブログの情報は、ユーザである人間が生成(書き込む)するため、例えば日本のような一定地域に限定した場合、あるパターンの出現頻度は時間帯により変化する。例えば、食べ物に関する話題は食事の時間帯が多く、その他の時間帯にける出現頻度は食事の時間帯に比べて大幅に低下する。   Since the microblog information is generated (written) by a human user, for example, when the information is limited to a certain region such as Japan, the appearance frequency of a certain pattern varies depending on the time zone. For example, food-related topics have many meal time periods, and the frequency of appearance in other time periods is greatly reduced compared to meal time periods.

従って、マイクロブログ等の世界では、図4の左から2番目の棒グラフのように、ある時間帯で急激に出現頻度が高くなったとしても、必ずしもバーストが発生しているとは限らない。図4の左から7番目の棒のように他の日の同じ時間帯でも同じ位増加していることがあり得るからである。従って、本実施形態では、上述したケースではバーストと見なさず、図4の左から8番目の棒のように他の日の同じ時間帯と異なって、出現頻度が急激に増加している時間帯ではバーストが生じていると検知する。   Therefore, in the world such as microblogging, even if the appearance frequency suddenly increases in a certain time zone as in the second bar graph from the left in FIG. This is because, as in the seventh bar from the left in FIG. 4, it may increase as much in the same time zone on other days. Therefore, in this embodiment, in the above-described case, it is not regarded as a burst, and unlike the same time zone on other days as in the eighth bar from the left in FIG. Then, it is detected that a burst has occurred.

このため、予測部31は、現時点まで実測した部分期間の頻度情報を基に未来の部分期間の予想値を管理する。そして、判定部32は、部分期間の予測値と、現在の部分期間で実測した頻度情報と評価し、現在の部分期間にバーストが起きているか否かを判定する。   Therefore, the prediction unit 31 manages the predicted value of the future partial period based on the frequency information of the partial period actually measured up to the present time. Then, the determination unit 32 evaluates the predicted value of the partial period and the frequency information measured in the current partial period, and determines whether or not a burst is occurring in the current partial period.

予測部31は、部分期間の予想値を管理するための記憶領域を確保している。図5は、記憶領域Rの一例を示す図である。   The prediction unit 31 secures a storage area for managing the predicted value of the partial period. FIG. 5 is a diagram illustrating an example of the storage area R.

図5に示すように、予測部31は、少なくとも一つの周期を構成する部分期間を管理する記憶領域Rを設ける。なお、予測部31は、複数の周期について、周期ごとに部分期間を管理する記憶領域Rを設けてもよい。本実施形態では、一つの周期は144個(6×24)の部分期間で構成されるが、利用者は適用環境に適した値を選択することが可能である。記憶領域Rに確保された部分期間には、予測部31が計算した予測値が格納される。この予測値は該当する部分期間の現在の実測値(頻度情報)を得たタイミングで新たな予測値に更新される。   As shown in FIG. 5, the prediction unit 31 provides a storage area R that manages a partial period constituting at least one period. Note that the prediction unit 31 may provide a storage area R that manages a partial period for each of a plurality of periods. In this embodiment, one period is composed of 144 (6 × 24) partial periods, but the user can select a value suitable for the application environment. In the partial period secured in the storage area R, the predicted value calculated by the prediction unit 31 is stored. This predicted value is updated to a new predicted value at the timing when the current measured value (frequency information) for the corresponding partial period is obtained.

具体的には、一つの周期は1日であり1日は144個のそれぞれの長さが10分の部分期間で構成される。ここで、現在の時間が10:08であるとすると、61(00:00から10:10)番までの部分期間には、未来(明日)の予測が格納されており、62番から144番までの部分期間には今日10:10から24:00までの予測が格納される。そして、予測部31は、10:10に10:00から10:10までの所定データに関する出現頻度データの実測値を計算し、61番の予測値と、計算した実測値と判定部32の判定結果を用いて、61番目の部分期間の予測値(明日の10:00から10:10までの予測値)を計算して更新する。   Specifically, one cycle is one day, and each day is composed of 144 partial periods each having a length of 10 minutes. Here, assuming that the current time is 10:08, predictions of the future (tomorrow) are stored in the partial period from 61 (00:00 to 10:10), and from 62 to 144 The predictions from 10:10 to 24:00 today are stored in the partial period until. Then, the prediction unit 31 calculates the actual value of the appearance frequency data regarding the predetermined data from 10:00 to 10:10 at 10:10, and the 61st prediction value, the calculated actual value, and the determination by the determination unit 32 Using the result, the predicted value (the predicted value from 10:00 to 10:10 tomorrow) of the 61st partial period is calculated and updated.

ここで、予測部31における予測値の算出(予測値の更新)について、詳細に説明する。図6−1は、通常予測の更新方式を例示するグラフである。図6−2は、修正予測の更新方式を例示するグラフである。   Here, calculation of the predicted value (update of the predicted value) in the prediction unit 31 will be described in detail. FIG. 6A is a graph illustrating a normal prediction update method. FIG. 6B is a graph illustrating an example of a modified prediction update method.

図6−1、6−2に示すように、予測部31は、現在の部分期間の出現頻度データの実測値((今日)の最初の棒グラフ)と、その部分期間の出現頻度データの予測値を用い、未来の部分期間の出現頻度データの予測値((明日)の最初の棒グラフ)を計算する。予測部31は、予測の際、実測値と予測値に異なる重みを与える。一般的に実測値により重みを与えることにより、未来の予測値が既存の実測履歴を反映しながら、より現在の変化(トレンド)を反映するようになる。   As shown in FIGS. 6A and 6B, the prediction unit 31 measures the actual value of the appearance frequency data of the current partial period (the first bar graph of (today)) and the predicted value of the appearance frequency data of the partial period. Is used to calculate the predicted value of the appearance frequency data in the future partial period (the first bar graph of (tomorrow)). The prediction unit 31 gives different weights to the actual measurement value and the prediction value in the prediction. In general, by assigning weights based on actual measurement values, future prediction values reflect the current change (trend) while reflecting existing measurement history.

具体的には、予測部31は、次の式(1)をもとに、(更新方式1.そのまま)、(更新方式2.通常予測)、(更新方式3.修正予測)のいずれかの式を用いて予測値の算出を行う。   Specifically, the prediction unit 31 is one of (update method 1. as it is), (update method 2. normal prediction), and (update method 3. modified prediction) based on the following equation (1). The predicted value is calculated using the formula.

Figure 0006018024
Figure 0006018024

式(1)において、MACDHistogramReal(p,t)は周期pの番目の部分期間のMACD Histogramの実測値、MACDHistogramPrediction(p,t)は周期pのt番目の部分期間のMACD Histogramの予測値を意味する。また、αは重み付けの値を意味する。   In Equation (1), MACDHistogramReal (p, t) means an actual measurement value of MACD Histogram for the pth partial period of period p, and MACDHHistogramPrediction (p, t) means a predicted value of MACD Histogram for the tth partial period of period p. To do. Α means a weighting value.

本実施形態では、重みαは0.5にしているが、適用先システムにより適切な値を選択可能である。このように未来を予想するにあたり、後述する2個の異常ケースを考慮する必要がある。異常ケースでない場合は、(更新方式2.通常予測)によって、重みα(=0.5)を与えることにより、未来の予測値が既存の実測履歴を反映しながら、より現在の変化(トレンド)を反映した予測値が算出される。   In the present embodiment, the weight α is 0.5, but an appropriate value can be selected by the application destination system. Thus, in anticipating the future, it is necessary to consider two abnormal cases described later. If it is not an abnormal case, a weight α (= 0.5) is given by (update method 2. normal prediction), so that the future prediction value reflects the existing actual measurement history, and more current change (trend) A predicted value reflecting the above is calculated.

異常ケースの一つは、現在の実測値がバーストでありかつバーストであることが分かるケースである。また、もう一つの異常ケースは、過去(現在の部分周期の一周期前の部分周期)の部分周期がバーストでありかつ該当過去の部分周期の予測値が存在しなかったケースである。例えば、二番目の異常ケースはシステム稼働の初期に現れる。   One of the abnormal cases is a case where the current measured value is a burst and it can be seen that it is a burst. Another abnormal case is a case where a partial period in the past (partial period one period before the current partial period) is a burst and a predicted value of the corresponding partial period does not exist. For example, the second abnormal case appears early in system operation.

一番目の異常ケースは、実測値が異常であるため、この異常な実測値を含め未来を予想すると実態より大きい値を持つ未来予測になる。従って、一番目の異常ケースは、式(1)における(更新方式1.そのまま)のように、既存の予測値をそのまま未来の予測値とする。   In the first abnormal case, since the actual measurement value is abnormal, if the future including the abnormal actual measurement value is predicted, the future prediction has a value larger than the actual value. Therefore, in the first abnormal case, the existing predicted value is used as the future predicted value as it is, as in the formula (1) (update method 1. as it is).

二番目の異常ケースは、予測値が過大評価されているため修正する必要がある。具体的には、図6−2のように、現在の実測値をより未来値の予想に反映させる。この場合、予測部31は、式(1)における(更新方式3.修正予測)によって予測値を算出する。   The second abnormal case needs to be corrected because the predicted value is overestimated. Specifically, as shown in FIG. 6B, the current measured value is reflected in the prediction of the future value. In this case, the prediction unit 31 calculates a predicted value by (update method 3. modified prediction) in the equation (1).

ここで、(更新方式3.修正予測)の閾値は、次の式(2)で求める。   Here, the threshold value of (update method 3. corrected prediction) is obtained by the following equation (2).

Figure 0006018024
なお、(更新方式3.修正予測)の閾値は、差分のスケールは実測値と予測値の差分のlog値を用いているが、適用先システムにより適切な値を選択可能である。
Figure 0006018024
As the threshold of (update method 3. modified prediction), the difference scale uses the log value of the difference between the actual measurement value and the prediction value, but an appropriate value can be selected by the application system.

また、予測部31は判定部32の判定補助のため、直近の未来の周期の所定データの最大出現頻度予測値(MaximumAppearanceCountPredict(p+1))を次の式(3)を用いて計算する。   In addition, the prediction unit 31 calculates the maximum appearance frequency predicted value (MaximumAppearanceCountPredict (p + 1)) of the predetermined data in the latest future cycle using the following equation (3) for the determination assistance of the determination unit 32.

Figure 0006018024
Figure 0006018024

また、予測部31は、未来の部分期間の所定データの現頻度予測値(AppearanceCountPredict(p+1, t))を次の式(4)を用いて計算する。   In addition, the prediction unit 31 calculates a current frequency prediction value (AppearanceCountPredict (p + 1, t)) of predetermined data in a future partial period using the following equation (4).

Figure 0006018024
Figure 0006018024

ここで、AppearanceCountPredictの計算方式は、次の式(5)のとおりである。   Here, the calculation method of AppearanceCountPredict is as the following equation (5).

Figure 0006018024
Figure 0006018024

なお、MaximumAppearanceCountPredict(p)は周期pの所定データの最大の出現頻度の予測値、MaximumAppearanceCount(p)は周期pの所定データの最大の出現頻度の実測値、AppearanceCountPredict(p,t)は周期p、部分期間tの所定データの最大の出現頻度の予測値、AppearanceCountReal(p,t)は周期p、部分期間tの所定データの最大の出現頻度の実測値をそれぞれ示す。   Note that MaximumAppearanceCountPredict (p) is a predicted value of the maximum appearance frequency of the predetermined data in the period p, MaximumAppearanceCount (p) is an actually measured value of the maximum appearance frequency of the predetermined data in the period p, and AppearanceCountPredict (p, t) is a period of p, t. A predicted value of the maximum appearance frequency of the predetermined data in the partial period t, AppearanceCount Real (p, t) indicates a measured value of the maximum appearance frequency of the predetermined data in the period p and the partial period t, respectively.

本実施形態に基づく検証では、ACCEPTANCE_RATIOは1.3、T2は30を用いて実施しているが、この値に限定されず、システムを適用する領域により適切な値を与えることが可能である。   In the verification based on this embodiment, ACCEPTANCE_RATIO is 1.3 and T2 is 30. However, the present invention is not limited to this value, and an appropriate value can be given depending on the area to which the system is applied.

判定部32は、判断部321、通知部322、フィードバック部323を備える。判断部321は、予測部31が計算した現在の部分区間における予想値と、頻度集計装置20が集計した現在の部分期間の実測値を用い、現在の部分期間の実測値がバーストか否かを判定する(図2:S52)。通知部322は、判断部321の判定結果をユーザと予測部31とに通知する(図2:S53)。   The determination unit 32 includes a determination unit 321, a notification unit 322, and a feedback unit 323. The determination unit 321 uses the predicted value in the current partial section calculated by the prediction unit 31 and the actual measurement value of the current partial period calculated by the frequency counting device 20, and determines whether the actual measurement value of the current partial period is a burst. Determination is made (FIG. 2: S52). The notification unit 322 notifies the determination result of the determination unit 321 to the user and the prediction unit 31 (FIG. 2: S53).

フィードバック部323は、通知部322がユーザに通知した判定結果の評価(ユーザ評価)を操作入力などによってそのユーザより受け付ける(図2:S54)。そして、フィードバック部323は、受け付けたユーザ評価を予測部31にフィードバックする(図2:S55)。予測部31では、フィードバック部323のフィードバックを基に、予測部31における(更新方式1.そのまま)、(更新方式2.通常予測)、(更新方式3.修正予測)の選択にかかる評価(現在の部分期間におけるバースト発生の有無)を修正する。   The feedback unit 323 receives evaluation (user evaluation) of the determination result notified to the user by the notification unit 322 from the user by an operation input or the like (FIG. 2: S54). Then, the feedback unit 323 feeds back the received user evaluation to the prediction unit 31 (FIG. 2: S55). In the prediction unit 31, based on the feedback of the feedback unit 323, an evaluation (currently, an update method 1. as it is), (update method 2. normal prediction), and (update method 3. modified prediction) selection (current (Existence of occurrence of bursts in the partial period).

判断部321は、予測部31が計算した現在の部分区間における予想値と、頻度集計装置20が集計した現在の部分期間の実測値との差が予め設定された閾値を超えたケースをバーストと判定する。ただし、閾値は、固定されているのではなく、対象となる所定データの出現頻度のパターンの特徴を考慮し自動で調整される。   The determination unit 321 determines that a case in which the difference between the predicted value in the current partial section calculated by the prediction unit 31 and the actual measurement value of the current partial period calculated by the frequency counting device 20 exceeds a preset threshold is a burst. judge. However, the threshold value is not fixed, but is automatically adjusted in consideration of the feature of the pattern of the appearance frequency of the target predetermined data.

本実施形態では、パターン毎に、各部分期間で出現頻度(短い窓のEMA)の規模とその周期での最大値(出現頻度の規模)との比率、部分期間でのMACD histogramの規模、直前のMACD histogramの差(直近の部分期間同士のMACD histogramの差)の履歴を考慮して閾値を決定する。ここでいう規模とは、桁数などである。例えば、出現頻度の規模といった場合は、出現頻度の値の桁数を示し、桁数が大きい場合を出現頻度の規模が大きい、桁数が小さい場合を出現頻度の規模が小さいものとする。   In the present embodiment, for each pattern, the ratio between the frequency of appearance (short window EMA) in each partial period and the maximum value in that period (appearance frequency), the size of the MACD histogram in the partial period, immediately before The threshold is determined in consideration of the history of the difference in MACD histogram (the difference in MACD histogram between the latest partial periods). The scale here is the number of digits. For example, in the case of the appearance frequency, the number of digits of the value of the appearance frequency is indicated, the appearance frequency is large when the number of digits is large, and the appearance frequency is small when the number of digits is small.

ここで、バーストの判定において考慮すべき事象を、図7、8、9、10を参照して説明する。図7は、ドリフト効果を例示するグラフである。図8は、スケールによるバーストの誤検知を例示するグラフである。図9は、閾値以下のMACD差分の連続出現におけるバーストを例示するグラフである。図10は、ドリフトのようなバーストの検知を例示するグラフである。ここで、図7、8、9、10における点線のグラフは、ある期間に対して、予測により計算した所定データの出現頻度パターンを示す。また、実線のグラフは、実測の所定データの出現頻度パターンを示す。   Here, events to be considered in burst determination will be described with reference to FIGS. FIG. 7 is a graph illustrating the drift effect. FIG. 8 is a graph illustrating erroneous detection of a burst due to a scale. FIG. 9 is a graph illustrating bursts in successive appearances of MACD differences equal to or less than a threshold value. FIG. 10 is a graph illustrating detection of bursts such as drift. Here, the dotted line graphs in FIGS. 7, 8, 9, and 10 indicate the appearance frequency pattern of the predetermined data calculated by prediction for a certain period. The solid line graph shows the appearance frequency pattern of the measured predetermined data.

バーストの判定において考慮すべき事象の一つには、ドリフト効果がある。具体的には、図7に示すように、ドリフト効果とは、周期性のパターンの特性は予測と実測とで同じであるが、そのパターンが現れる部分期間が予測と実測との間で速くなったり遅くなったりする性質である。   One of the events that should be considered in determining a burst is the drift effect. Specifically, as shown in FIG. 7, the drift effect is the same in the characteristics of the periodic pattern between the prediction and the actual measurement, but the partial period in which the pattern appears is faster between the prediction and the actual measurement. It is a nature that slows down or slows down.

人間の目でみた図7の点線のグラフと実線のグラフとの変化の推移は、変化時間のずれはあるものの同じと判断できる。しかし、機械的にMACD histogramの差分を比較して一定閾値以上をバーストとする場合、図7でDriftと示している部分をバーストと誤検知する可能性が高い。ただし、図10に示すように、ドリフトのようなバーストについては、正しくバーストとして検知する必要がある。   The transition of the change between the dotted line graph and the solid line graph of FIG. 7 as seen by human eyes can be determined to be the same although there is a shift in the change time. However, when the MACD histogram difference is mechanically compared and a burst equal to or greater than a certain threshold is used as a burst, there is a high possibility that the portion indicated as “Drift” in FIG. However, as shown in FIG. 10, it is necessary to correctly detect a burst like a drift as a burst.

また、バーストの判定において考慮すべき事象の一つには、平均スケールによる誤検知がある。具体的には、図8に示すように、所定データの出現頻度のパターンの平均スケールが(Small scale)、(Big scale)のように異なる場合は、バーストの誤検知が生じることがある。   Also, one of the events that should be taken into account in burst determination is false detection based on an average scale. Specifically, as shown in FIG. 8, when the average scale of the frequency pattern of the predetermined data is different (Small scale) and (Big scale), erroneous detection of a burst may occur.

例えば、図8の(Small scale)、(Big scale)のグラフのように、実測値と予測値のMACD histogram(加速度)の差分が同じの場合、出現頻度の差も同じである。しかし、出現頻度のスケールが小さい(Small scale)のグラフではバーストと判定できても、出現頻度のスケールが大きい(Big scale)のグラフでは同じ差をバーストと判定することは困難になる。   For example, when the difference between the measured value and the predicted value MACD histogram (acceleration) is the same as in the graphs (Small scale) and (Big scale) in FIG. 8, the difference in the appearance frequency is also the same. However, even if a graph with a small scale of appearance frequency (Small scale) can be determined as a burst, it is difficult to determine the same difference as a burst with a graph with a large scale of appearance frequency (Big scale).

また、バーストの判定において考慮すべき事象の一つには、閾値以下のMACD histogramの連続出現がある。図9に示すように、閾値以下のMACD histogramの連続出現によっては、バーストが生じていることがある。ここで、図9の上のグラフはある周期内の所定データの出現頻度のパターンの実測値と予測値である。また、図9の下のグラフは対応するMACD histogramの差分である。また、下のグラフの太い横線はバーストを検知するための固定閾値である。図9に示すように、実際にはバーストであるが、対応するMACD histogramが閾値以下のため、バーストとして検知されないケースがある。   Also, one of the events to be considered in burst determination is the continuous appearance of MACD histograms below the threshold. As shown in FIG. 9, bursts may occur depending on the continuous appearance of MACD histograms below the threshold. Here, the upper graph of FIG. 9 shows the actual measurement value and the predicted value of the pattern of the appearance frequency of the predetermined data within a certain period. Further, the lower graph of FIG. 9 shows the difference between the corresponding MACD histograms. The thick horizontal line in the lower graph is a fixed threshold for detecting a burst. As shown in FIG. 9, although it is actually a burst, there is a case where the corresponding MACD histogram is not detected as a burst because the corresponding MACD histogram is equal to or smaller than the threshold value.

上述した事象を考慮してバーストを判定するため、判断部321は、次の式(a)〜(d)を用いてバーストであるか否かを判定する。   In order to determine a burst in consideration of the above-described event, the determination unit 321 determines whether the burst is performed using the following equations (a) to (d).

Figure 0006018024
Figure 0006018024

Figure 0006018024
Figure 0006018024

Figure 0006018024
Figure 0006018024

Figure 0006018024
Figure 0006018024

基本的には式(a)のように、判断部321は、周期pの部分期間tの判定スコア(IdentificationScore(p,t,w))が閾値T以上の場合をバースト、T未満の場合をバーストではないと判定する。   Basically, as shown in equation (a), the determination unit 321 performs burst when the determination score (IdentificationScore (p, t, w)) of the partial period t of the period p is equal to or greater than the threshold value T, and It is determined that it is not a burst.

判定スコアは、式(b)のように、周期pの部分期間tとt以前の部分期間w個の部分期間スコア(Partialperiodscore(p,t))の合計である。ただし、t−1, t−2, … t−wと引いていく過程で値が0以下のxとなった場合、部分期間は一つ前の周期の部分期間を用いる(p =p−1, i = 最大部分期間番号−w)。   The judgment score is the sum of the partial period t of the period p and the partial period score (Partial period scores (p, t)) of the partial period w before t as shown in the equation (b). However, in the process of subtracting t−1, t−2,..., T−w, when the value becomes x of 0 or less, the partial period uses the partial period of the previous cycle (p = p−1). , I = maximum partial period number-w).

部分期間スコアは、式(c)のように、該当期間tの部分期間のMACDHistogramの実測値からMACDHistogramの予測値を引いた値に、現在の出現頻度カウンタの規模による重み(式の右側の括弧1番目)、現在の出現頻度カウンタと最大出現頻度カウンタ(予想値)との比率による重み(式の右側の括弧2番目)、括弧2番目の重みのキャンセル関数(式の右側の括弧3番目、式(d)、以下キャンセル関数)をかけた値である。   As shown in equation (c), the partial period score is obtained by subtracting the predicted value of MACDHistogram from the actual measured value of MACDHistogram of the partial period of the corresponding period t, and the weight based on the current appearance frequency counter (the parenthesis on the right side of the equation) The first), the weight by the ratio between the current appearance frequency counter and the maximum appearance frequency counter (predicted value) (the second parenthesis on the right side of the expression), the cancel function of the second weight on the parenthesis (the third parenthesis on the right side of the expression, This is a value obtained by multiplying the expression (d), hereinafter referred to as a cancel function.

出現頻度カウンタの規模による重みは、図8を参照して説明したスケールの問題を解決するためである。これにより、MACDHistogramの実測値とMACDHistogramの予測値の差分(加速度の差)が同じであっても、データ出現頻度の規模が小さい方がよりバーストと判定されやすくなる。   The weight due to the scale of the appearance frequency counter is to solve the scale problem described with reference to FIG. Thereby, even if the difference (acceleration difference) between the actual measured value of MACDHHistogram and the predicted value of MACDHHistogram is the same, a smaller data appearance frequency is more likely to be determined as a burst.

また、現在の出現頻度カウンタと最大出現頻度カウンタ(予想値)との比率による重みは、図7を参照して説明したドリフトの問題を解決するためである。これにより、例えバーストと判定されるMACDHistogramの実測値とMACDHistogramの予測値の差(加速度の差)であっても、現在の出現頻度カウンタと最大出現頻度カウンタに近づいていなければ、バースト成分が低く評価される。   The weight based on the ratio between the current appearance frequency counter and the maximum appearance frequency counter (predicted value) is for solving the drift problem described with reference to FIG. Thus, even if the difference (acceleration difference) between the actual measured value of MACDHistogram determined as a burst and the predicted value of MACDHistogram is not close to the current appearance frequency counter and the maximum appearance frequency counter, the burst component is low. Be evaluated.

また、キャンセル関数は、図7を用い説明したドリフト問題を解く仮定で、図10の様にドリフトのようなバーストのケースを検知するためである。実測値と予測値の差が閾値比率W3以上あるケースにおいては、ドリフトではなくバーストとして判断させるため、式(c)の右側の括弧3番目の重みを打ち消す、括弧3番目の重みの逆数になっている。   The cancellation function is for detecting a burst case such as drift as shown in FIG. 10 on the assumption that the drift problem described with reference to FIG. 7 is solved. In the case where the difference between the actual measurement value and the predicted value is greater than or equal to the threshold ratio W3, in order to make the determination as a burst rather than a drift, the third weight of the parenthesis on the right side of the equation (c) is cancelled. ing.

また、図9を参照して説明した閾値以下のMACDhistogramの連続出現についての問題を解決するため、式(b)のように直近の部分期間スコアの合計が閾値を超えているかをバースト判定の根拠とする。   In addition, in order to solve the problem of continuous appearance of MACDistogram below the threshold described with reference to FIG. 9, the basis of the burst determination is whether or not the sum of the latest partial period scores exceeds the threshold as shown in equation (b) And

なお、本実施形態に基づく検証において、wは3、Tは8、W1及びW2は1、W3は0.5を用いたが、利用者は適用環境に適した値を選択することが可能である。   In the verification based on this embodiment, w is 3, T is 8, W1 and W2 are 1, and W3 is 0.5. However, the user can select a value suitable for the application environment. is there.

判断部321は、上述したバースト判定のための計算を、所定データの出現頻度変化パターン毎に行うため、パターン毎に過去計算した直近のw個の部分期間のスコアを管理し、その値を取得可能な装置(記憶領域)を持つ。また、バースト判定のため、予測部31から部分期間の所定データの出現頻度カウンタ実測値と予測値、出現頻度カウント予測値、MACD Histogram実測値と予測値を受け取る。   Since the determination unit 321 performs the above-described calculation for burst determination for each occurrence frequency change pattern of predetermined data, the determination unit 321 manages the scores of the last w partial periods calculated in the past for each pattern and acquires the value. It has a possible device (storage area). Further, for the burst determination, the appearance frequency counter actual measurement value and prediction value, the appearance frequency count prediction value, the MACD Histogram actual measurement value and the prediction value of the predetermined data of the partial period are received from the prediction unit 31.

通知部322は、判断部321の判定結果を、ユーザと予測部31とに通知する。ここで、ユーザへの通知は、例えばディスプレイへの表示出力などで行う。図11は、通知部322による通知を例示する図である。   The notification unit 322 notifies the user and the prediction unit 31 of the determination result of the determination unit 321. Here, notification to the user is performed, for example, by display output on a display. FIG. 11 is a diagram illustrating notification by the notification unit 322.

図11に示すように、判断部321がバーストと判断した部分期間に対して、実測値と予想値のそれぞれの絶対値を求め、実測値の絶対値が予想値の絶対値より小さい場合、通知部322は予測部31に対して[更新方式3:修正予測]を通知し、ユーザには正常を通知する。また、予測値の絶対値が高い場合、通知部322は予測部31に対し[更新方式1:そのまま]、ユーザに対しバーストを通知する。判断部321がバーストでないと判断したケースでは、通知部322は予測部31に[更新方式1:通常予測]、ユーザに正常を通知する。   As shown in FIG. 11, the absolute values of the actual measurement value and the predicted value are obtained for the partial period determined by the determination unit 321 as a burst, and notification is given when the absolute value of the actual measurement value is smaller than the absolute value of the predicted value. The unit 322 notifies the prediction unit 31 of [Update method 3: modified prediction] and notifies the user of normality. When the absolute value of the predicted value is high, the notification unit 322 notifies the prediction unit 31 [update method 1: as it is] and notifies the user of the burst. In a case where the determination unit 321 determines that the burst is not present, the notification unit 322 notifies the prediction unit 31 [update method 1: normal prediction] and notifies the user of normality.

フィードバック部323は、所定データの出現頻度変化パターンに対し、ランダムな部分期間でのシステムの判定結果(例えば図11の「ユーザ」項目の内容)と判断に用いた情報(例えば図9に例示したグラフなど)をディスプレイ表示などによりユーザに提示する。そして、フィードバック部323は、提示した部分期間におけるユーザ評価をコンソールなどの操作入力を介して受け付ける。   The feedback unit 323 determines the determination result of the system (for example, the contents of the “user” item in FIG. 11) and information (for example, illustrated in FIG. 9) in a random partial period with respect to the appearance frequency change pattern of the predetermined data. A graph or the like) is presented to the user by a display display or the like. Then, the feedback unit 323 receives the user evaluation during the presented partial period via an operation input such as a console.

フィードバック部323は、システムの判定結果とユーザ評価が一致した場合(例えば判定結果「バースト」に対するユーザ評価「バースト」)はなにもしない。システムの判定結果がバーストでユーザ評価がバーストでない場合、フィードバック部323は判定部32における式(a)の閾値Tを一定量増加させる。システムの判定結果がバーストでなく、ユーザ評価がバーストの場合、フィードバック部323は判定部32における式(a)の閾値Tを一定量低減させる。これにより、ユーザ評価を反映したバースト判定を行うことが可能となる。   The feedback unit 323 does nothing when the determination result of the system matches the user evaluation (for example, the user evaluation “burst” with respect to the determination result “burst”). When the determination result of the system is burst and the user evaluation is not burst, the feedback unit 323 increases the threshold value T of the expression (a) in the determination unit 32 by a certain amount. When the determination result of the system is not a burst and the user evaluation is a burst, the feedback unit 323 reduces the threshold value T of the expression (a) in the determination unit 32 by a certain amount. This makes it possible to perform burst determination reflecting user evaluation.

以上のように、変化検知装置30は、所定の周期内で分割した部分期間ごとに集計された、ストリームデータに含まれる所定データの出現頻度に基づいて、将来の部分期間における所定データの出現頻度の予測値を算出する。そして、変化検知装置30は、算出された予測値の中の、現在の部分期間における予測値と、現在の部分期間で集計された所定データの出現頻度との差が、部分期間ごとに集計された所定データの出現頻度のパターンに基づく閾値を超えている場合に、所定データの出現頻度に変化が生じていると判定する。したがって、変化検知装置30は、計算のためのデータ格納を最低限に抑えながら、ストリームデータに含まれる分析対象となる所定データの出現頻度を、リアルタイムに精度よく検知することができる。   As described above, the change detection device 30 calculates the appearance frequency of the predetermined data in the future partial period based on the appearance frequency of the predetermined data included in the stream data, which is aggregated for each partial period divided within the predetermined period. The predicted value of is calculated. Then, the change detection device 30 calculates, for each partial period, a difference between the predicted value in the current partial period and the appearance frequency of the predetermined data totaled in the current partial period among the calculated predicted values. If the threshold based on the pattern of appearance frequency of the predetermined data is exceeded, it is determined that a change has occurred in the appearance frequency of the predetermined data. Therefore, the change detection device 30 can accurately detect in real time the appearance frequency of the predetermined data to be analyzed included in the stream data while minimizing the storage of data for calculation.

また、変化検知装置30を用いることで、サーバ等少ない計算リソースとシステムチューニングの専門家ではない一般的な運用人員が、ストリームデータ環境で高精度な所定データに関する出現頻度パターンの変化を認識できるようになる。そのため、企業が大規模ストリームデータの解析を容易に行えるようになり、企業が新たな事業機会創出、製品評判調査、マーケット動向調査をすることが可能となる。また、解析作業において必要な情報を可能な限り削減させることにより、システムを構築に必要なサーバ等計算リソース量を低減することが可能となる。   In addition, by using the change detection device 30, it is possible for a general operation person who is not a specialist of system computing and a small amount of computing resources such as a server to recognize a change in an appearance frequency pattern related to predetermined data with high accuracy in a stream data environment. become. As a result, companies can easily analyze large-scale stream data, and companies can create new business opportunities, conduct product reputation surveys, and market trend surveys. Further, by reducing as much information necessary for the analysis work as possible, it is possible to reduce the amount of calculation resources such as servers required for constructing the system.

なお、変化検知装置30が所定データの出現頻度に変化が生じていると判定している現在の部分期間については、本実施形態では、リアルタイムにストリームデータを解析していることから、現時点の部分期間であるが、特に現時点の部分期間に限定しない。具体的には、現在の部分期間は、現在、判定についての処理対象となっている部分期間という意味であってよい。例えば、処理に必要なデータ(ストリームデータ)をバッファやハードディスクドライブ等の記憶装置に記憶しておき、後でストリームデータを解析する場合もある。この場合は、記憶装置から読み出して、所定データの出現頻度に変化が生じているか否かの処理の対象としている部分期間が現在の部分期間ということとなる。   Note that the current partial period in which the change detection device 30 determines that the frequency of occurrence of the predetermined data has changed has been analyzed in real time in the present embodiment, so that the current partial period Although it is a period, it is not limited to the current partial period. Specifically, the current partial period may mean a partial period that is currently a processing target for determination. For example, data (stream data) necessary for processing may be stored in a storage device such as a buffer or a hard disk drive, and the stream data may be analyzed later. In this case, the partial period which is read from the storage device and is the target of processing whether or not the appearance frequency of the predetermined data has changed is the current partial period.

また、上述した実施形態において説明したパターン検出装置10、頻度集計装置20及び変化検知装置30が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成することもできる。この場合、コンピュータがプログラムを実行することにより、上述した実施形態にかかる変化検知システム1の変化検知装置30における処理と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上述した実施形態と同様の処理を実現してもよい。以下に、上述したプログラムを実行するコンピュータの一例を説明する。   It is also possible to create a program in which the processing executed by the pattern detection device 10, the frequency counting device 20, and the change detection device 30 described in the above-described embodiments is described in a language that can be executed by a computer. In this case, when the computer executes the program, the same effect as the process in the change detection device 30 of the change detection system 1 according to the above-described embodiment can be obtained. Further, such a program may be recorded on a computer-readable recording medium, and the program recorded on the recording medium may be read by the computer and executed to realize the same processing as that of the above-described embodiment. An example of a computer that executes the above-described program will be described below.

図12は、実施形態にかかる変化検知システムの変化検知装置における処理がコンピュータを用いて具体的に実現されることを示す図である。図12に例示するように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有し、これらの各部はバス1080によって接続される。   FIG. 12 is a diagram illustrating that the processing in the change detection device of the change detection system according to the embodiment is specifically realized using a computer. As illustrated in FIG. 12, the computer 1000 includes, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These units are connected by a bus 1080.

メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1031に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1041に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブに挿入される。シリアルポートインタフェース1050は、例えばマウス1051、キーボード1052に接続される。ビデオアダプタ1060は、例えばディスプレイ1061に接続される。   The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012. The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). The hard disk drive interface 1030 is connected to the hard disk drive 1031. The disk drive interface 1040 is connected to the disk drive 1041. For example, a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive. The serial port interface 1050 is connected to a mouse 1051 and a keyboard 1052, for example. The video adapter 1060 is connected to the display 1061, for example.

ハードディスクドライブ1031は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記のプログラムは、コンピュータ1000によって実行される指令が記述されたプログラムモジュール1093として、例えばハードディスクドライブ1031に記憶される。例えば、図1に例示した予測部31、判定部32と同様の情報処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1031に記憶される。   The hard disk drive 1031 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, the above program is stored in, for example, the hard disk drive 1031 as a program module 1093 in which a command to be executed by the computer 1000 is described. For example, a program module 1093 for executing the same information processing as the prediction unit 31 and the determination unit 32 illustrated in FIG. 1 is stored in the hard disk drive 1031.

また、上述した実施形態で説明した記憶領域Rなどは、RAM1012に確保される。処理に必要な設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1031に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1031に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。   Further, the storage area R and the like described in the above-described embodiment are secured in the RAM 1012. Setting data necessary for processing is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1031. Then, the CPU 1020 reads the program module 1093 and the program data 1094 stored in the memory 1010 and the hard disk drive 1031 to the RAM 1012 as necessary, and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1031に記憶される場合に限られず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093やプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。また、パターン検出装置10、頻度集計装置20、変化検知装置30を備える変化検知システム1は、上述した一つのコンピュータで実現されるものであってよいことは言うまでもないことである。   The program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1031, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive or the like. Alternatively, the program module 1093 and the program data 1094 are stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.) and read by the CPU 1020 via the network interface 1070. May be issued. Needless to say, the change detection system 1 including the pattern detection device 10, the frequency counting device 20, and the change detection device 30 may be realized by the one computer described above.

1…変化検知システム、10…パターン検出装置、20…頻度集計装置、30…変化検知装置、31…予測部、32…判定部、321…判断部、322…通知部、323…フィードバック部、R…記憶領域、1000…コンピュータ。   DESCRIPTION OF SYMBOLS 1 ... Change detection system, 10 ... Pattern detection apparatus, 20 ... Frequency totaling apparatus, 30 ... Change detection apparatus, 31 ... Prediction part, 32 ... Determination part, 321 ... Determination part, 322 ... Notification part, 323 ... Feedback part, R ... storage area, 1000 ... computer.

Claims (7)

所定の周期内で分割した区分期間ごとに集計された、投稿データであるストリームデータに含まれる所定データの出現頻度の指数平滑移動平均に基づいて、将来の区分期間における前記所定データの出現頻度の変化の加速度の予測値を算出し、第1の値で重み付けをした前記予測値と、前記第1の値より大きい第2の値で重み付けをした前記出現頻度の変化の加速度の実測値とを基に、前記予測値を更新する予測部と、
前記算出された予測値の中の、現在の区分期間における予測値と、前記現在の区分期間で集計された前記所定データの出現頻度の変化の加速度との差が、前記区分期間ごとに集計された所定データの出現頻度のパターンに基づく閾値を超えている場合に、前記所定データの出現頻度に変化が生じていると判定する判定部と、
を備えることを特徴とする変化検知装置。
Aggregated by division period divided by the predetermined period, based on the exponential smoothing moving average of frequency of occurrence of predetermined data included in the stream data is post data, the frequency of occurrence of said predetermined data at a future sectional period A predicted value of change acceleration is calculated, and the predicted value weighted with a first value and the measured acceleration value of the change in appearance frequency weighted with a second value greater than the first value. Based on the prediction unit for updating the prediction value ,
Of the calculated predicted values, the difference between the predicted value in the current segment period and the acceleration of the change in the appearance frequency of the predetermined data aggregated in the current segment period is aggregated for each segment period. A determination unit that determines that a change has occurred in the appearance frequency of the predetermined data when a threshold based on a pattern of the appearance frequency of the predetermined data is exceeded,
A change detection device comprising:
前記判定部は、前記区分期間ごとに集計された所定データの出現頻度の規模と当該区分期間の周期での出現頻度の規模の最大値との比率、前記出現頻度の変化の加速度の規模、直近の区分期間同士の前記加速度の差をもとに前記閾値を決定する、
ことを特徴とする請求項1に記載の変化検知装置。
The determination unit includes a ratio between the appearance frequency scale of the predetermined data aggregated for each of the segment periods and the maximum value of the appearance frequency in the period of the segment period, the acceleration scale of the change in the appearance frequency, and the latest The threshold value is determined based on the difference in acceleration between the segment periods.
The change detection apparatus according to claim 1.
前記判定部の判定結果を前記予測部に通知する通知部を更に備え、前記予測部は、前記通知された判定結果に基づいて、前記現在の区分期間に対応した将来の区分期間における前記所定データの出現頻度の変化の加速度の予測値を更新する、
ことを特徴とする請求項1又は2に記載の変化検知装置。
The information processing apparatus further includes a notification unit that notifies the determination result of the determination unit to the prediction unit, the prediction unit based on the notified determination result, the predetermined data in a future segment period corresponding to the current segment period Update the predicted acceleration of the change in the appearance frequency of
The change detection apparatus according to claim 1 or 2, wherein
前記所定データの出現頻度に変化についてのユーザ入力を受け付け、当該入力結果に基づいた値を前記閾値にフィードバックするフィードバック部を更に備える、
ことを特徴とする請求項1乃至3の何れか一項に記載の変化検知装置。
A feedback unit that accepts a user input about a change in the appearance frequency of the predetermined data and feeds back a value based on the input result to the threshold;
The change detection device according to any one of claims 1 to 3, wherein
入力される投稿データであるストリームデータをもとに、当該ストリームデータに含まれる所定データの出現頻度を検出する検出装置と、
前記検出された所定データの出現頻度を、所定の周期内で分割した区分期間ごとに集計する集計装置と、
前記区分期間ごとに集計された所定データの出現頻度の指数平滑移動平均に基づいて、将来の区分期間における前記所定データの出現頻度の変化の加速度の予測値を算出し、第1の値で重み付けをした前記予測値と、前記第1の値より大きい第2の値で重み付けをした前記出現頻度の変化の加速度の実測値とを基に、前記予測値を更新する予測部、および前記算出された予測値の中の、現在の区分期間における予測値と、前記現在の区分期間で集計された前記所定データの出現頻度の変化の加速度との差が、前記区分期間ごとに集計された所定データの出現頻度のパターンに基づく閾値を超える場合に、前記所定データの出現頻度に変化が生じていると判定する判定部を備える変化検知装置と、
を備えることを特徴とする変化検知システム。
A detection device that detects the appearance frequency of predetermined data included in the stream data based on the stream data that is the input post data ;
An aggregation device that aggregates the frequency of appearance of the detected predetermined data for each divided period divided within a predetermined period;
Based on the exponential smoothing average of the appearance frequency of the predetermined data aggregated for each segment period, a predicted value of the acceleration of the change in the appearance frequency of the predetermined data in the future segment period is calculated and weighted with the first value A prediction unit that updates the predicted value based on the predicted value that has been calculated, and the actual value of the acceleration of the change in the appearance frequency that is weighted with a second value that is greater than the first value , and the calculated Among the predicted values, the difference between the predicted value in the current segment period and the acceleration of the change in the appearance frequency of the predetermined data aggregated in the current segment period is aggregated for each segment period. A change detection device comprising a determination unit that determines that a change has occurred in the appearance frequency of the predetermined data when a threshold value based on the pattern of the appearance frequency is exceeded,
A change detection system comprising:
変化検知装置によって実行される変化検知方法であって、
所定の周期内で分割した区分期間ごとに集計された、投稿データであるストリームデータに含まれる所定データの出現頻度の指数平滑移動平均に基づいて、将来の区分期間における前記所定データの出現頻度の変化の加速度の予測値を算出し、第1の値で重み付けをした前記予測値と、前記第1の値より大きい第2の値で重み付けをした前記出現頻度の変化の加速度の実測値とを基に、前記予測値を更新する予測ステップと、
前記算出された予測値の中の、現在の区分期間における予測値と、前記現在の区分期間で集計された前記所定データの出現頻度の変化の加速度との差が、前記区分期間ごとに集計された所定データの出現頻度のパターンに基づく閾値を超える場合に、前記所定データの出現頻度に変化が生じていると判定する判定ステップと、
を含むことを特徴とする変化検知方法。
A change detection method executed by a change detection device,
Aggregated by division period divided by the predetermined period, based on the exponential smoothing moving average of frequency of occurrence of predetermined data included in the stream data is post data, the frequency of occurrence of said predetermined data at a future sectional period A predicted value of change acceleration is calculated, and the predicted value weighted with a first value and the measured acceleration value of the change in appearance frequency weighted with a second value greater than the first value. Based on the prediction step of updating the prediction value ;
Of the calculated predicted values, the difference between the predicted value in the current segment period and the acceleration of the change in the appearance frequency of the predetermined data aggregated in the current segment period is aggregated for each segment period. A determination step of determining that a change has occurred in the appearance frequency of the predetermined data when exceeding a threshold based on the pattern of the appearance frequency of the predetermined data;
The change detection method characterized by including.
変化検知装置のコンピュータに、
所定の周期内で分割した区分期間ごとに集計された、投稿データであるストリームデータに含まれる所定データの出現頻度の指数平滑移動平均に基づいて、将来の区分期間における前記所定データの出現頻度の変化の加速度の予測値を算出し、第1の値で重み付けをした前記予測値と、前記第1の値より大きい第2の値で重み付けをした前記出現頻度の変化の加速度の実測値とを基に、前記予測値を更新する予測ステップと、
前記算出された予測値の中の、現在の区分期間における予測値と、前記現在の区分期間で集計された前記所定データの出現頻度の変化の加速度との差が、前記区分期間ごとに集計された所定データの出現頻度のパターンに基づく閾値を超える場合に、前記所定データの出現頻度に変化が生じていると判定する判定ステップと、
を実行させるためのプログラム。
In the computer of the change detection device,
Aggregated by division period divided by the predetermined period, based on the exponential smoothing moving average of frequency of occurrence of predetermined data included in the stream data is post data, the frequency of occurrence of said predetermined data at a future sectional period A predicted value of change acceleration is calculated, and the predicted value weighted with a first value and the measured acceleration value of the change in appearance frequency weighted with a second value greater than the first value. Based on the prediction step of updating the prediction value ;
Of the calculated predicted values, the difference between the predicted value in the current segment period and the acceleration of the change in the appearance frequency of the predetermined data aggregated in the current segment period is aggregated for each segment period. A determination step of determining that a change has occurred in the appearance frequency of the predetermined data when exceeding a threshold based on the pattern of the appearance frequency of the predetermined data;
A program for running
JP2013134086A 2013-06-26 2013-06-26 CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM Active JP6018024B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013134086A JP6018024B2 (en) 2013-06-26 2013-06-26 CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013134086A JP6018024B2 (en) 2013-06-26 2013-06-26 CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM

Publications (2)

Publication Number Publication Date
JP2015011391A JP2015011391A (en) 2015-01-19
JP6018024B2 true JP6018024B2 (en) 2016-11-02

Family

ID=52304532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013134086A Active JP6018024B2 (en) 2013-06-26 2013-06-26 CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM

Country Status (1)

Country Link
JP (1) JP6018024B2 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6638351B2 (en) * 2015-11-27 2020-01-29 富士通株式会社 Analysis method, analysis program, analysis device, information display method, information display program, and information display device
WO2017154140A1 (en) * 2016-03-09 2017-09-14 株式会社日立製作所 Data management system and data search method
JP7043650B1 (en) 2021-03-19 2022-03-29 ヤフー株式会社 Estimator, estimation method and estimation program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5077711B2 (en) * 2009-10-05 2012-11-21 Necビッグローブ株式会社 Time series analysis apparatus, time series analysis method, and program
JP5476275B2 (en) * 2010-11-05 2014-04-23 株式会社日立製作所 Water distribution plan prediction system, prediction method thereof, and program thereof

Also Published As

Publication number Publication date
JP2015011391A (en) 2015-01-19

Similar Documents

Publication Publication Date Title
US11012289B2 (en) Reinforced machine learning tool for anomaly detection
CN114528934A (en) Time series data abnormity detection method, device, equipment and medium
US20100131952A1 (en) Assistance In Performing Action Responsive To Detected Event
JP5768983B2 (en) Contract violation prediction system, contract violation prediction method, and contract violation prediction program
CN113342559A (en) Diagnostic framework in a computing system
CN108154252A (en) Method and apparatus for estimating the flow deadline
CN112685390B (en) Database instance management method and device and computing equipment
CN109697247B (en) Method and device for detecting data accuracy
US20200012541A1 (en) Unified events framework
JP6018024B2 (en) CHANGE DETECTION DEVICE, CHANGE DETECTION SYSTEM, CHANGE DETECTION METHOD, AND PROGRAM
CN106913313B (en) Sleep monitoring method and system
US20190164067A1 (en) Method and device for monitoring a process of generating metric data for predicting anomalies
Gopalappa et al. Combinations of interventions to achieve a national HIV incidence reduction goal: insights from an agent-based model
CN119004009A (en) Electronic commerce data index monitoring method and platform based on big data
CN102376020B (en) Information processor and information processing method
JP2007094850A (en) Communication analyzing device and method
JPWO2018207225A1 (en) Analysis control method and analysis control device for time series data
JP7626657B2 (en) Anomaly detection device, anomaly detection method, and anomaly detection program
JP2010152431A (en) Unauthorized access detection device, unauthorized access detection program, recording medium and unauthorized access detection method
EP2882139A1 (en) System and method for IT servers anomaly detection using incident consolidation
CN119828648A (en) Abnormality detection method, abnormality detection device, electronic device, and computer storage medium
US11762953B2 (en) Event-triggered analysis for high fidelity simulation
US11030214B2 (en) System for identification of outlier groups
CN118861187A (en) Interactive map system with multi-mode rendering
JP2006260102A (en) Dialog activity evaluation device and method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150715

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20151001

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20151005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160614

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160812

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160929

R150 Certificate of patent or registration of utility model

Ref document number: 6018024

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350