JP4452234B2 - Data stream processing method, data stream processing program, storage medium, and data stream processing apparatus - Google Patents
Data stream processing method, data stream processing program, storage medium, and data stream processing apparatus Download PDFInfo
- Publication number
- JP4452234B2 JP4452234B2 JP2005339584A JP2005339584A JP4452234B2 JP 4452234 B2 JP4452234 B2 JP 4452234B2 JP 2005339584 A JP2005339584 A JP 2005339584A JP 2005339584 A JP2005339584 A JP 2005339584A JP 4452234 B2 JP4452234 B2 JP 4452234B2
- Authority
- JP
- Japan
- Prior art keywords
- data stream
- summary information
- stream processing
- correlation
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Complex Calculations (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Description
本発明は、ストリームマイニング技術におけるデータストリーム処理方法、データストリーム処理プログラム、記憶媒体、および、データストリーム処理装置に関する。 The present invention relates to a data stream processing method, a data stream processing program, a storage medium, and a data stream processing apparatus in stream mining technology.
データストリームとはネットワークから高速に流れてくる大量のデータのことである。ストリームマイニングとは、時系列として表現されるデータストリームから役に立つ情報を素早く見つけ出す技術である。これは、単にデータベースに蓄えられた大規模データを分析するのではなく、増え続けるデータの流れをリアルタイムに分析し、監視するための技術である。 A data stream is a large amount of data flowing from a network at high speed. Stream mining is a technique for quickly finding useful information from a data stream expressed as a time series. This is not a technique for simply analyzing large-scale data stored in a database, but a technique for analyzing and monitoring an increasing flow of data in real time.
例えば、ストリームマイニングの分野では、複数のストリームから相関のあるストリームのペアを検出する技術がある。非特許文献1の手法は、離散フーリエ変換を用いることによって、複数のストリームから相関のあるストリームのペアを高速に検出している。しかし、多くの相関のあるストリームには大抵いくらかの遅延があり、非特許文献1の手法では相関のあるストリームでも遅延があるもの(以下、遅延相関とする)は、検出できなかった。
For example, in the field of stream mining, there is a technique for detecting a pair of correlated streams from a plurality of streams. The method of Non-Patent
遅延相関があるストリームのペアを検出するためには、相互相関関数を計算する必要がある。相互相関関数は統計学の分野でよく使われる関数である。なお、長さnの2つの時系列X=(x1,x2,…,xn)と、Y=(y1,y2,…,yn)が与えられているとき、以下に示す(式1)が相互相関関数である。
図7は、二つの時系列データの相互相関関数の一例を示す図である。図7(a)および図7(b)の二つの時系列は温度センサデータである。30秒毎に計測した温度を示している。二つの温度センサはよく似た傾向を示しているが、若干のずれがある。具体的には、温度センサAの方が少々遅れている。図7(c)は相互相関関数である。縦軸は相関値、つまり二つの時系列にどれほど相関があるのかを示している。横軸は遅延の大きさ(遅延時間)である。つまり、相互相関関数は片方の時系列をずらしたときに両者にどれほどの相関値があるのかを示したものである。 FIG. 7 is a diagram illustrating an example of a cross-correlation function of two time series data. Two time series in FIG. 7A and FIG. 7B are temperature sensor data. The temperature measured every 30 seconds is shown. The two temperature sensors show a similar tendency, but there is a slight deviation. Specifically, the temperature sensor A is slightly delayed. FIG. 7C shows a cross-correlation function. The vertical axis shows the correlation value, that is, how much the two time series are correlated. The horizontal axis is the magnitude of the delay (delay time). In other words, the cross-correlation function indicates how much correlation value exists between the two time series when they are shifted.
図7では、二つの温度センサに遅延がないものとして相関を調べると、あまり相関がないという結果になるが、温度センサBを少し遅らせて両者の相関を調べると高い相関値が得られる。そして、遅延が1300[秒]のところで相関値のピークがある。この場合は「温度センサAは1300[秒]の遅延で温度センサBと相関している」と言える。 In FIG. 7, when the correlation is examined on the assumption that there is no delay between the two temperature sensors, the result is that there is not much correlation. There is a correlation value peak at a delay of 1300 [seconds]. In this case, it can be said that “temperature sensor A correlates with temperature sensor B with a delay of 1300 [seconds]”.
遅延相関があるストリームのペアを検出する手法において、効率化が求められている。効率化の要因として、例えば、増え続ける大規模なデータを分析するため、また利用者に情報をリアルタイムに提供するため、高速化と省メモリ化を図る必要があることが挙げられる。 Efficiency is demanded in a technique for detecting a pair of streams having a delayed correlation. As a factor of efficiency, for example, it is necessary to increase the speed and save memory in order to analyze a large amount of data that is increasing and to provide information to users in real time.
効率化を達成するために有効となるのは、データストリームの要約情報(以下、要約情報と表記する)の計算方法と要約情報を用いた問合せ処理方法である。これは、オリジナルのデータストリームの長さは非常に長くなるため、データストリームをコンパクトに表現した要約情報が、高速化と省メモリ化には有効となるためである。要約情報を保持することにより、オリジナルのデータストリームを破棄しながら、遅延相関があるストリームのペアを求めるための問合せ処理を実行することができる。 What is effective for achieving efficiency is a data stream summary information (hereinafter referred to as summary information) calculation method and a query processing method using summary information. This is because the length of the original data stream becomes very long, and summary information that expresses the data stream in a compact manner is effective for speeding up and saving memory. By holding the summary information, it is possible to execute a query process for obtaining a pair of streams having a delayed correlation while discarding the original data stream.
データストリームの要約情報をもとに遅延相関のあるストリームのペアを効率的に計算する方法として、非特許文献2の方法が提案されている。遅延相関を求めるためにデータストリームの統計値(平均、分散、内積)を要約情報として持っており、そしてデータを受信する毎に、それらの要約情報を更新する。
As a method for efficiently calculating a pair of streams having delay correlation based on summary information of a data stream, the method of Non-Patent
遅延相関のあるストリームのペアを効率的に計算する方法として、非特許文献2の方法が提案されている。非特許文献2の方法は、利用者もしくはアプリケーションからの要求があると、要約情報から遅延相関を計算し、相関のあるストリームのペアとその遅延の値を出力する。遅延相関を計算するための時間とメモリ量は、データストリームの長さに線形に比例して大きくなる。そこで、高速化と省メモリ化を達成するために、平滑化とサンプリングを用いて相互相関関数を近似している。
As a method for efficiently calculating a pair of streams having a delay correlation, the method of Non-Patent
非特許文献2の方法では、相互相関関数の近似によって遅延相関の計算時間を低減化させている。しかし、非特許文献2の方法では、ストリームの数が増えたとき、要約情報の更新コストはストリームの数の2乗に比例するという問題がある。
しかし、従来の手法は、遅延相関のあるストリームのペアを効率的に計算できていない。ここで、効率的ではないとは、計算における計算量およびメモリ使用量を過剰に浪費することを意味する。 However, the conventional method cannot efficiently calculate a pair of streams having a delay correlation. Here, being inefficient means that the calculation amount and the memory usage amount in the calculation are excessively wasted.
遅延相関の計算のためのメモリ使用量は以下の通りである。データストリームの数をmとする。このとき、(式1)をそのまま計算する手法(以下、ナイーブな手法とする)を用いた場合、O(m2)のメモリを必要とする。なお、関数Oは、計算量のオーダーを示す。何故ならナイーブな手法では、全てのデータストリームの和と分散、さらに全てのデータストリームのペアの内積を計算し、要約情報としてメモリに保存するためである。つまり、各データストリームのペアに対して、内積を保存し、その内積を用いて相関値を計算するため、O(m2)のメモリを必要とする。 The memory usage for calculating the delay correlation is as follows. Let m be the number of data streams. At this time, when a method for calculating (Equation 1) as it is (hereinafter referred to as a naive method) is used, a memory of O (m 2 ) is required. The function O indicates the order of calculation amount. This is because the naive method calculates the sum and variance of all the data streams and further calculates the inner product of all the data stream pairs and stores them in the memory as summary information. That is, an inner product is stored for each pair of data streams, and a correlation value is calculated using the inner product, so that an O (m 2 ) memory is required.
非特許文献1の方法では、そもそも遅延相関のあるストリームのペアを計算できない。また、非特許文献2の方法では、要約情報の更新に関する計算量はO(m2)になり、効率化が不十分である。
In the method of Non-Patent
そこで、本発明は、前記した問題を解決し、遅延相関のあるストリームのペアを効率的に計算することを主な目的とする。 Therefore, the main object of the present invention is to solve the above-described problem and to efficiently calculate a pair of streams having a delay correlation.
前記課題を解決するために、本発明は、時系列で測定された複数のデータストリーム間の遅延相関を求めるデータストリーム処理方法であって、コンピュータが、入力された前記データストリームのランダム射影、時系列の和、および、時系列の2乗和に基づく要約情報を作成して記憶手段に格納し、前記データストリームの測定値の更新に基づき前記要約情報を更新する要約情報計算手順と、前記記憶手段に格納された前記要約情報を読み取り、その前記要約情報をもとに前記データストリームの相互相関関数を計算し、前記相互相関関数から前記データストリーム間の遅延相関を求めて出力する遅延相関計算手順と、を実行することを特徴とする。 In order to solve the above-mentioned problem, the present invention provides a data stream processing method for obtaining a delayed correlation between a plurality of data streams measured in time series, wherein a computer performs random projection, time Summary information calculation procedure for creating summary information based on sum of series and sum of squares of time series, storing the summary information in storage means, and updating the summary information based on update of the measurement value of the data stream, and the storage A delay correlation calculation that reads the summary information stored in the means, calculates a cross-correlation function of the data stream based on the summary information, and obtains and outputs a delay correlation between the data streams from the cross-correlation function And a procedure is executed.
これにより、要約情報を更新する際の計算時間とメモリ使用量を、従来技術よりも低減化することができる。 As a result, the calculation time and memory usage when updating the summary information can be reduced as compared with the prior art.
本発明は、前記要約情報計算手順が、指数関数により計算された時間間隔で更新された前記データストリームをもとに、前記要約情報を更新することを特徴とする。 The present invention is characterized in that the summary information calculation procedure updates the summary information based on the data stream updated at time intervals calculated by an exponential function.
これにより、データストリームのサンプル数が減ることで、要約情報を更新する際の計算時間とメモリ使用量を、従来技術よりも低減化することができる。 As a result, the number of samples of the data stream is reduced, so that the calculation time and the memory usage when updating the summary information can be reduced as compared with the prior art.
本発明は、コンピュータが、あらかじめ相関があると指定された前記データストリームのペアが、前記遅延相関計算手順により未検出のときには、故障として検出することを特徴とする。 The present invention is characterized in that when a pair of the data streams designated as having a correlation in advance is not detected by the delay correlation calculation procedure, it is detected as a failure.
これにより、データストリームの測定装置の故障を迅速に検出することができる。 This makes it possible to quickly detect a failure in the data stream measurement device.
本発明は、複数のコンピュータが、担当する前記データストリームに関する前記要約情報を、他のコンピュータとは並列に計算することを特徴とする。 The present invention is characterized in that a plurality of computers calculate the summary information about the data stream in charge in parallel with other computers.
これにより、データストリームの計算が並列化されることで、要約情報を更新する際の計算時間を、従来技術よりも低減化することができる。 Thereby, since the calculation of the data stream is parallelized, the calculation time for updating the summary information can be reduced as compared with the prior art.
本発明は、前記データストリーム処理方法を、コンピュータに実行させるためのデータストリーム処理プログラムである。 The present invention is a data stream processing program for causing a computer to execute the data stream processing method.
これにより、要約情報を更新する際の計算時間とメモリ使用量を、従来技術よりも低減化することができる。 As a result, the calculation time and memory usage when updating the summary information can be reduced as compared with the prior art.
本発明は、前記データストリーム処理プログラムを格納した、コンピュータが読み取り可能な記憶媒体である。 The present invention is a computer-readable storage medium storing the data stream processing program.
これにより、要約情報を更新する際の計算時間とメモリ使用量を、従来技術よりも低減化することができる。 As a result, the calculation time and memory usage when updating the summary information can be reduced as compared with the prior art.
本発明は、時系列で測定された複数のデータストリーム間の遅延相関を求めるデータストリーム処理装置であって、入力された前記データストリームのランダム射影、時系列の和、および、時系列の2乗和に基づく要約情報を作成して記憶手段に格納し、前記データストリームの測定値の更新に基づき前記要約情報を更新する要約情報計算部と、前記記憶手段に格納された前記要約情報を読み取り、その前記要約情報をもとに前記データストリームの相互相関関数を計算し、前記相互相関関数から前記データストリーム間の遅延相関を求めて出力する遅延相関計算部と、を有することを特徴とする。 The present invention is a data stream processing apparatus for obtaining a delay correlation between a plurality of data streams measured in time series, the random projection of the input data stream, the sum of time series, and the square of time series Summary information based on the sum is created and stored in the storage means, the summary information calculation unit that updates the summary information based on the update of the measurement value of the data stream, and the summary information stored in the storage means is read, A delay correlation calculating unit that calculates a cross-correlation function of the data stream based on the summary information, and obtains and outputs a delay correlation between the data streams from the cross-correlation function;
これにより、要約情報を更新する際の計算時間とメモリ使用量を、従来技術よりも低減化することができる。 As a result, the calculation time and memory usage when updating the summary information can be reduced as compared with the prior art.
本発明は、前記要約情報計算部が、指数関数により計算された時間間隔で更新された前記データストリームをもとに、前記要約情報を更新することを特徴とする。 The present invention is characterized in that the summary information calculation unit updates the summary information based on the data stream updated at time intervals calculated by an exponential function.
これにより、データストリームのサンプル数が減ることで、要約情報を更新する際の計算時間とメモリ使用量を、従来技術よりも低減化することができる。 As a result, the number of samples of the data stream is reduced, so that the calculation time and the memory usage when updating the summary information can be reduced as compared with the prior art.
本発明は、あらかじめ相関があると指定された前記データストリームのペアが、前記遅延相関計算部により未検出のときには、故障として検出することを特徴とする。 The present invention is characterized in that when the pair of data streams designated as having a correlation in advance is not detected by the delayed correlation calculation unit, it is detected as a failure.
これにより、データストリームの測定装置の故障を迅速に検出することができる。 This makes it possible to quickly detect a failure in the data stream measurement device.
本発明は、複数の前記データストリーム処理装置が、担当する前記データストリームに関する前記要約情報を、他の前記データストリーム処理装置とは並列に計算することを特徴とする。 The present invention is characterized in that a plurality of the data stream processing devices calculate the summary information related to the data stream in charge in parallel with the other data stream processing devices.
これにより、データストリームの計算が並列化されることで、要約情報を更新する際の計算時間を、従来技術よりも低減化することができる。 Thereby, since the calculation of the data stream is parallelized, the calculation time for updating the summary information can be reduced as compared with the prior art.
本発明によれば、要約情報の更新コストをO(m)に引き下げることにより、データストリームの遅延相関を高精度に検出しつつ、高速かつ省メモリに処理をすることができる。これは、本発明の手法では、要約情報として各データストリームの平均値、分散値、ランダム射影を保存し、相関値はそれらから計算するために、O(m)のメモリしか必要としないためである。 According to the present invention, by reducing the update cost of summary information to O (m), it is possible to perform high-speed and memory-saving processing while detecting the delay correlation of the data stream with high accuracy. This is because the method of the present invention stores the average value, variance value, and random projection of each data stream as summary information, and the correlation value requires only O (m) memory to calculate from them. is there.
以下に、本発明が適用されるデータストリーム処理システムの一実施形態について、図面を参照して詳細に説明する。まず、本実施形態のデータストリーム処理システムの構成について、図1を参照して説明する。 Hereinafter, an embodiment of a data stream processing system to which the present invention is applied will be described in detail with reference to the drawings. First, the configuration of the data stream processing system of this embodiment will be described with reference to FIG.
図1は、データストリーム処理システムを示す構成図である。データストリーム処理システムは、データストリームを計測するセンサ2、および、データストリームを処理するデータストリーム処理装置1を含めて構成される。なお、データストリーム処理装置1は、演算処理を行う際に用いられる記憶手段としてのメモリと、前記演算処理を行う演算処理装置とを少なくとも備えるコンピュータとして構成される。なお、メモリは、RAM(Random Access Memory)などにより構成され、データストリームの要約情報などを格納する。演算処理は、CPU(Central Processing Unit)によって構成される演算処理装置が、メモリ上のプログラムを実行することで、実現される。データストリーム処理装置1は、要約情報計算部10、および、遅延相関計算部20を有する。
FIG. 1 is a configuration diagram showing a data stream processing system. The data stream processing system includes a
要約情報計算部10は、データストリームを受信するたびに、各データストリームの要約情報を計算し、オリジナルのデータストリームを破棄する。なお、本実施形態における要約情報とは、ランダム射影、時系列の和、および、時系列の2乗和をもとに算出される。
Each time the summary
データストリームX=(x1,x2,…,xn)が与えられているとき、Xの時系列の和Sx、2乗和Sxxは、それぞれ以下の(式2)のように計算される。要約情報計算部10は、計算したSxおよびSxxを遅延相関計算部20に通知する。
また、要約情報計算部10は、各データストリームのペアに対して、一つの相関値のみならず様々な遅延がある場合の相関値も計算する。したがって、要約情報計算部10は、
データストリームXについては以下の(式3)のように、データストリームYについては以下の(式4)のように、それぞれ複数個の和と分散を計算する。ここで、lは、遅延の大きさである。
A plurality of sums and variances are calculated for the data stream X as shown in (Formula 3) below, and for the data stream Y as shown in (Formula 4) below. Here, l is the magnitude of the delay.
なお、要約情報のランダム射影とは、コンピュータ科学において使われている次元縮退のための一手法であり、時系列から空間ベクトルへの射影(マッピング)にはランダム関数が用いられる。ランダム射影は、例えば、文献(Dimitris Achlioptas“Database-friendly random projections.”In Proceedings of PODS,pp.274-281,May 2001.)に記載されている。Xのランダム射影のベクトルをPx=(p1,p2,…,pd)、Pxの次元数をd、ランダム関数をU=(uti)とすると、Pxにおけるi次元の値は、以下の(式5)となる。
ここで、要約情報計算部10は、遅延lを考慮した場合、和と分散と同様に、複数のランダム射影Px(l+1,n)を計算する。これはデータストリームYについても同様であり、要約情報計算部10は、Py(1,n−l)を計算する。
Here, the summary
遅延相関計算部20は、アプリケーションもしくは利用者からの問合せ要求を受け付けると、要約情報計算部10が計算したデータストリームの要約情報を用いて、遅延相関の計算を行う。要約情報計算部10は、1回の問合せ要求を受け付けると、データストリーム処理装置1に入力されたデータストリームのペアを総当たりで調査し、遅延相関を有するペアおよびその遅延値をリストとして出力する。
When receiving a query request from an application or a user, the delay
遅延相関計算部20は、要約情報を用いて、データストリームのペアの相互相関関数を計算する。まず、ランダム射影と時系列の2乗和を用いて内積を計算する(式6)。そして、遅延相関計算部20は、計算した内積を用いて相互相関関数R(l)を計算する(式7)。
図2は、データストリーム処理の概要を示すフローチャートである。 FIG. 2 is a flowchart showing an outline of data stream processing.
まず、データストリーム処理装置1は、データストリームの更新があるか否かを判定する(S101)。データストリームの更新は、要約情報計算部10に過去に入力されていないデータストリームの新たなデータが、新たに要約情報計算部10に入力されたことを示す。データストリームの更新がないときには(S101,No)、処理をS103に進める。データストリームの更新があるときには(S101,Yes)、サブルーチン処理「要約情報の更新処理」を呼び出して(S102)、処理をS103に進める。
First, the data
次に、データストリーム処理装置1は、問い合わせ要求があるか否かを判定する(S103)。問い合わせ要求がないときには(S103,No)、処理をS101に戻す。以下、問い合わせ要求があるとき(S103,Yes)の処理を説明する。
Next, the data
データストリーム処理装置1は、サブルーチン処理「遅延情報の計算処理」を呼び出し(S104)、その結果である遅延相関を有するペアおよびその遅延値をリストとして出力する。
The data
さらに、データストリーム処理装置1は、S104で算出した結果を入力として、遅延情報の応用処理を実行してもよい(S105)。遅延情報の応用処理は、例えば、センサネットワークにおける故障検出である。具体的には、データストリーム処理装置1は、連動(すなわち相関)するべきセンサ2のペアをあらかじめ登録しておき、S104で算出した遅延相関のあるセンサ2のペアとして検出されなければ、故障の可能性を示唆することができる。
Further, the data
遅延情報の応用処理(S105)の他の一例として、センサ2が測定するネットワークトラヒックの異常検出が挙げられる。ネットワークトラヒックは、例えば、毎週同じ曜日には、ほぼ同じ測定値が期待されるとする。そして、同じセンサ2において先週測定した測定値と、今週測定した測定値との相関を調べ、相関がないときには、ネットワークトラヒックの異常検出を通知する。
Another example of the delay information application process (S105) is an abnormality detection of network traffic measured by the
図3は、「要約情報の更新処理」(S102)を示すフローチャートである。 FIG. 3 is a flowchart showing the “summary information update process” (S102).
まず、要約情報計算部10は、ループ変数kを1からmまで1つずつ加算するループ(S201〜S209)を実行する。要約情報計算部10は、変数Xにk番目のデータストリームを代入する(S202)。そして、要約情報計算部10は、時刻tにおいて、xtを受信する(S203)。要約情報計算部10は、SxにSx+xtを、および、SxxにSxx+xt 2を、それぞれ代入する(S204)。なお、S204における各パラメータは、(式2,3,6,7)に記載されている。
First, the summary
そして、要約情報計算部10は、ループ変数iを1からdまで1つずつ加算するループ(S205〜S208)を実行する。要約情報計算部10は、ランダム関数からutiを生成し(S206)、piにpi+xtutiを代入する(S207)。なお、S207における各パラメータは、(式5)に記載されている。以上、図3の処理について、説明した。
Then, the summary
以上説明した要約情報計算部10は、O(m)の計算コストとメモリ使用量で済むので、計算コストとメモリ使用量の低減化が可能となる。なお、非特許文献2の方式では、m個のデータストリームを扱う場合、非特許文献2が全てのデータストリームのペアの内積を計算しなければならないため、要約情報の更新にO(m2)の計算コストとメモリ使用量が必要であり、非効率であった。
Since the summary
ここで、要約情報計算部10の計算コストがO(m)であることを説明する。図3において、ループは、2つ存在する。1つめのループ(S201〜S209)は、ループ変数kの上限値がmであるため、計算コストは、O(m)である。そして、2つめのループ(S205〜S208)は、ループ変数iの上限値がdである。ここで、dは、ランダム射影のベクトルVxの次元数である。この次元数dは、1つのデータストリームの属性であるので、要約情報計算部10に入力された他のデータストリームの個数mには依存しないパラメータである。よって、1からdまでのループは、計算量のオーダーに影響しないので、図3のトータルの計算コストは、O(m)である。
Here, it will be described that the calculation cost of the summary
図4は、「遅延情報の計算処理」(S104)を示すフローチャートである。 FIG. 4 is a flowchart showing the “delay information calculation process” (S104).
まず、遅延相関計算部20は、ループ変数kを1からmまで1つずつ加算するループ(S301〜S308)を実行する。遅延相関計算部20は、変数Xにk番目のデータストリームを代入する(S302)。そして、遅延相関計算部20は、ループ変数jをkからmまで1つずつ加算するループ(S303〜S307)を実行する。
First, the delay
遅延相関計算部20は、変数Yにj番目のデータストリームを代入する(S304)。遅延相関計算部20は、Xの要約情報(Sx,Sxx,Px)とYの要約情報(Sy,Syy,Py)から相互相関関数を計算する(S305)。遅延相関計算部20は、S305で計算した相互相関関数から遅延情報を検出する(S306)。
The delayed
なお、遅延情報の検出(S306)は、具体的には以下の通りである。時系列XとYが与えられたとき、以下の条件を満たすとき、XとYはlの遅延相関を持つと定義される。よって、以下の条件を満たすか否かによって、遅延情報の検出が可能か否かを判定する。
(1)相関値の絶対値|R(l)|をスコアとすると、xtとyt−lのスコアが閾値γを超える極大値である。
(2)複数の極大値がある場合は、最初の極大値を指す。
The delay information detection (S306) is specifically as follows. Given time series X and Y, X and Y are defined to have a delay correlation of l when the following conditions are met: Therefore, whether or not the delay information can be detected is determined depending on whether or not the following condition is satisfied.
(1) the absolute value of the correlation value | R (l) | When the score is a local maximum score of x t and y t-l exceeds the threshold value gamma.
(2) When there are a plurality of maximum values, the first maximum value is indicated.
ここで、図4において、遅延相関計算部20の計算コストは、O(m2)である。しかし、図4の処理を起動させる契機が、問い合わせ要求であるので、図3の処理を起動させる契機(データストリームの更新)よりも極めて頻度が少ない。よって、図4の処理の計算コストは、図3の処理に比べて大きく影響しない。
Here, in FIG. 4, the calculation cost of the delay
以上説明したデータストリーム処理装置1は、インクリメンタルに要約情報を更新することを特徴とする。インクリメンタルとは、繰り返し動作の状態において、あるデータ項目に対してある一定の規則で量または値を加算することを意味する。要約情報計算部10は、要約情報にランダム射影を用いているため、インクリメンタルに要約情報を更新することができる。それにより、オリジナルのデータストリームを破棄してもよいので、メモリ使用量を節約できる。そして、遅延相関計算部20では、オリジナルのデータストリームを使わず、インクリメンタルに更新されている各要約情報のみを用いて、相関のあるデータストリームのペアおよびその遅延値を見つける。
The data
なお、データストリーム処理装置1は、1台の計算機により構成されてもよいし、複数の計算機により構成されてもよい。例えば、センサ2ごとにデータストリームは生成されるので、センサ2ごとにデータストリーム処理装置1を設けて、並列に図3および図4の処理を実行させてもよい。そのときには、図3のループ(S201〜S209)および図4のループ(S301〜S308)は、センサ2を担当するデータストリーム処理装置1に分配される。また、センサ2とデータストリーム処理装置1とを、同一の筐体に収容してもよい。
The data
以上説明したデータストリーム処理装置1を、以下で評価する。評価は、出力結果の精度と計算時間という2つの尺度でそれぞれ行っている。以下に示すように、本実施形態のデータストリーム処理装置1は、出力結果の精度を落とすことなく、計算時間の短縮化を実現している。
The data
図5は、出力結果の精度を示すための実験結果を示す。図5(a)の光センサC、および、図5(b)の光センサDは、それぞれ照明のセンサデータである。図5(c)の相互相関関数では、点線は相互相関関数をそのまま計算した結果であり、「ナイーブな手法」と表記している。図5(c)の実線は本実施形態によって近似的に計算した結果である。これら2本の線は、ほぼ同じ結果をなぞっているので、本実施形態は、非常に高精度に近似していることが分かる。なお、非特許文献2の手法で求まる解は、本実施形態と同じように近似解である。よって、本実施形態の結果は、非特許文献2の結果と比較する代わりに、ナイーブな手法と比較することにより、充分な精度を実証できた。
FIG. 5 shows experimental results for indicating the accuracy of the output results. The optical sensor C in FIG. 5A and the optical sensor D in FIG. 5B are sensor data of illumination, respectively. In the cross-correlation function of FIG. 5C, the dotted line is the result of calculating the cross-correlation function as it is, and is expressed as “naive method”. The solid line in FIG. 5C is the result of the approximate calculation according to this embodiment. Since these two lines trace almost the same result, it can be seen that the present embodiment approximates with very high accuracy. Note that the solution obtained by the method of
なお、図5(c)の実線上の「*」マークは、計算値を示す。そして、図5(c)における実線は、計算値をなめらかにつなぐことにより生成される。ここで、図5(c)では、計算値が横軸の左にいくほど密になり、右にいくほど粗になる。これは、データストリームのサンプリング間隔が、一定ではなく、指数関数に基づいているためである。例えば、時刻t=1,2,4,8,16,…においてサンプリングする。これにより、計算値の精度を大きく落とすことなく、計算値の個数を少なくすることができるので、計算量を適切に削減することができる。 The “*” mark on the solid line in FIG. 5C indicates the calculated value. The solid line in FIG. 5C is generated by smoothly connecting the calculated values. Here, in FIG. 5C, the calculated value becomes denser as it goes to the left of the horizontal axis and becomes coarser as it goes to the right. This is because the sampling interval of the data stream is not constant and is based on an exponential function. For example, sampling is performed at time t = 1, 2, 4, 8, 16,. As a result, the number of calculated values can be reduced without greatly reducing the accuracy of the calculated values, so that the amount of calculation can be appropriately reduced.
図6は、ナイーブな手法と本実施形態の手法の計算時間を比較したものである。横軸で示すデータストリームの数の増加に対して、縦軸の計算時間に着目する。ナイーブな手法は、計算時間が指数関数的に増加してしまうのに対し、本実施形態の手法は、データストリームの数の増加に影響されず、ほぼ一定の計算時間で済む。これにより、本実施形態の手法が、大幅な計算コストの低減化を達成していることが分かる。 FIG. 6 compares the calculation time of the naive method and the method of the present embodiment. Pay attention to the calculation time on the vertical axis with respect to the increase in the number of data streams shown on the horizontal axis. The naive method increases the calculation time exponentially, whereas the method of the present embodiment is not affected by the increase in the number of data streams, and requires a substantially constant calculation time. Thereby, it can be seen that the method of the present embodiment achieves a significant reduction in calculation cost.
1 データストリーム処理装置
2 センサ
10 要約情報計算部
20 遅延相関計算部
DESCRIPTION OF
Claims (10)
コンピュータが、
入力された前記データストリームのランダム射影、時系列の和、および、時系列の2乗和に基づく要約情報を作成して記憶手段に格納し、前記データストリームの測定値の更新に基づき前記要約情報を更新する要約情報計算手順と、
前記記憶手段に格納された前記要約情報を読み取り、その前記要約情報をもとに前記データストリームの相互相関関数を計算し、前記相互相関関数から前記データストリーム間の遅延相関を求めて出力する遅延相関計算手順と、
を実行することを特徴とするデータストリーム処理方法。 A data stream processing method for obtaining a delayed correlation between a plurality of data streams measured in time series,
Computer
Summarization information based on random projection of the input data stream, sum of time series, and sum of squares of time series is created and stored in storage means, and the summary information is based on the update of the measurement value of the data stream The summary information calculation procedure to update
A delay that reads the summary information stored in the storage means, calculates a cross-correlation function of the data stream based on the summary information, and obtains and outputs a delayed correlation between the data streams from the cross-correlation function Correlation calculation procedure;
The data stream processing method characterized by performing.
入力された前記データストリームのランダム射影、時系列の和、および、時系列の2乗和に基づく要約情報を作成して記憶手段に格納し、前記データストリームの測定値の更新に基づき前記要約情報を更新する要約情報計算部と、
前記記憶手段に格納された前記要約情報を読み取り、その前記要約情報をもとに前記データストリームの相互相関関数を計算し、前記相互相関関数から前記データストリーム間の遅延相関を求めて出力する遅延相関計算部と、
を有することを特徴とするデータストリーム処理装置。 A data stream processing apparatus for obtaining a delay correlation between a plurality of data streams measured in time series,
Summarization information based on random projection of the input data stream, sum of time series, and sum of squares of time series is created and stored in storage means, and the summary information is based on the update of the measurement value of the data stream A summary information calculator for updating
A delay that reads the summary information stored in the storage means, calculates a cross-correlation function of the data stream based on the summary information, and obtains and outputs a delayed correlation between the data streams from the cross-correlation function A correlation calculator;
A data stream processing apparatus comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005339584A JP4452234B2 (en) | 2005-11-25 | 2005-11-25 | Data stream processing method, data stream processing program, storage medium, and data stream processing apparatus |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2005339584A JP4452234B2 (en) | 2005-11-25 | 2005-11-25 | Data stream processing method, data stream processing program, storage medium, and data stream processing apparatus |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007150484A JP2007150484A (en) | 2007-06-14 |
| JP4452234B2 true JP4452234B2 (en) | 2010-04-21 |
Family
ID=38211386
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2005339584A Expired - Fee Related JP4452234B2 (en) | 2005-11-25 | 2005-11-25 | Data stream processing method, data stream processing program, storage medium, and data stream processing apparatus |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4452234B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9317537B2 (en) | 2009-09-25 | 2016-04-19 | Adnan Fakeih | Database and method for evaluating data therefrom |
| US9785683B2 (en) | 2009-09-25 | 2017-10-10 | Adnan Fakeih | Database and method for evaluating data therefrom |
| CN109145033B (en) * | 2009-09-25 | 2022-09-13 | 阿德南·法科 | Computer system and computer-implemented method |
| JP5528372B2 (en) * | 2011-02-18 | 2014-06-25 | 日本電信電話株式会社 | Flow quality degradation identification device and method |
| WO2018141410A1 (en) * | 2017-02-06 | 2018-08-09 | Siemens Aktiengesellschaft | Method, electronic module and computer program product for detecting time delayed relationship between a first and at least a second sensor data stream of measurements |
-
2005
- 2005-11-25 JP JP2005339584A patent/JP4452234B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007150484A (en) | 2007-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| RU2722692C1 (en) | Method and system for detecting malicious files in a non-isolated medium | |
| US11397628B2 (en) | Method and system for real-time and scalable anomaly detection and classification of multi-dimensional multivariate high-frequency transaction data in a distributed environment | |
| US11074237B2 (en) | Method and system to estimate the cardinality of sets and set operation results from single and multiple HyperLogLog sketches | |
| JP5493597B2 (en) | Search method and search system | |
| Fournier-Viger et al. | Hue-span: Fast high utility episode mining | |
| JP6183449B2 (en) | System analysis apparatus and system analysis method | |
| US7363172B2 (en) | Method and apparatus for detecting damage in structures | |
| CN104820663A (en) | Method and device for discovering low performance structural query language (SQL) statements, and method and device for forecasting SQL statement performance | |
| JP2009253362A (en) | Network performance prediction system, network performance prediction method, and program | |
| CN106796520A (en) | Software-based instrumentation for real-time reporting | |
| CN106598822A (en) | Abnormal data detection method and device applied to capacity estimation | |
| US20140052413A1 (en) | Data processing system, data processing method, and program | |
| JP4452234B2 (en) | Data stream processing method, data stream processing program, storage medium, and data stream processing apparatus | |
| US20130304782A1 (en) | Method for searching a lookup table | |
| Mazahir et al. | Probabilistic error analysis of approximate adders and multipliers | |
| JP5863180B2 (en) | Video analysis processing device, video analysis processing method, and video analysis processing program | |
| JP2011154487A (en) | Content availability management system, method, and program | |
| CN114077532B (en) | SQL statement execution efficiency detection method and device | |
| Zaarour et al. | Automatic anomaly detection over sliding windows: Grand challenge | |
| CN113270181B (en) | Index data distinguishing method, device, equipment and storage medium | |
| JP2715904B2 (en) | Computer system performance evaluation device | |
| Lazerson et al. | One for all and all for one: Simultaneous approximation of multiple functions over distributed streams | |
| JP7119484B2 (en) | Information aggregation device, information aggregation method, and program | |
| US9734035B1 (en) | Data quality | |
| US20080126029A1 (en) | Run-Time Characterization of On-Demand Analytical Model Accuracy |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080204 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100126 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100129 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130205 Year of fee payment: 3 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| LAPS | Cancellation because of no payment of annual fees |