JP4113169B2 - Method for estimating the number of signal sources, estimation apparatus, estimation program, and recording medium - Google Patents
Method for estimating the number of signal sources, estimation apparatus, estimation program, and recording medium Download PDFInfo
- Publication number
- JP4113169B2 JP4113169B2 JP2004238174A JP2004238174A JP4113169B2 JP 4113169 B2 JP4113169 B2 JP 4113169B2 JP 2004238174 A JP2004238174 A JP 2004238174A JP 2004238174 A JP2004238174 A JP 2004238174A JP 4113169 B2 JP4113169 B2 JP 4113169B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- separated
- storage unit
- value
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
本発明は、混合された未知数の信号を複数のセンサにより観測した観測値を用いて信号の数を推定する技術に関し、特に、実環境において信号源の数を正しく推定する技術に関する。 The present invention relates to a technique for estimating the number of signals using observation values obtained by observing a mixed unknown number of signals with a plurality of sensors, and more particularly to a technique for correctly estimating the number of signal sources in an actual environment.
複数の音源が混合した観測信号を短時間フーリエ変換し、各周波数ビンで空間相関行列の固有値を調べることにより、信号源の数を推定する方法が提案されている(例えば、非特許文献1参照。)。
[問題の定式化]
まず、この方法で取り扱う問題の定式化を行う。すべての信号はあるサンプリング周波数でサンプリングされ、離散的に表現されるものとする。N個の信号が混合されてM個のセンサで観測されたとする。以下では、信号の発生源からセンサまでに距離があり、信号が減衰・遅延し、かつ複数の経路を経てセンサに到達する状況を扱う。このような状況での混合は、信号源kからセンサjヘのインパルス応答hjk(l)による畳み込み混合
[Problem formulation]
First, the problem handled by this method is formulated. All signals are sampled at a certain sampling frequency and expressed discretely. Assume that N signals are mixed and observed by M sensors. The following deals with the situation where there is a distance from the signal source to the sensor, the signal is attenuated / delayed, and reaches the sensor via a plurality of paths. Mixing in this situation is convolutional mixing with impulse response h jk (l) from signal source k to sensor j.
[固有値に基づく方法]
次に、非特許文献1で提案された信号源数の推定方法を、順を追って説明する。なお、センサの数は信号源の数と同等かそれ以上、すなわちN≦Mを仮定する。
まず、センサjでの観測信号xj(t)にL点の短時間離散フーリエ変換を適用して周波数毎の時間系列
Next, the method for estimating the number of signal sources proposed in
First, a time series for each frequency is applied to the observation signal x j (t) at sensor j by applying a short-time discrete Fourier transform of L points.
畳み込み混合された信号には、周波数領域での操作が有効である。式(1)で示される時間領域での畳み込み混合が、周波数領域では
次に、X(f,τ)=[X1(f,τ),..., XM(f,τ)]Tに対して相関行列R(f)=〈X(f,τ) X(f,τ)H〉τを計算し、これをR(f)=V(f)・Λ(f)・V(f)Hのように固有値分解する。なお、V(f)=[v1(f),v2(f),...,vM(f)]であり、Λ(f)はλ1(f),λ2(f),...,λM(f)を対角要素とするM行M列の対角行列である。また、・Hは行列の共役転置を求める操作、〈・〉τは時間τに関する平均、vj(f)は固有ベクトル(M次元の縦ベクトル)、λj(f)はこれに対応する固有値であり、λ1(f)≧λ2(f)≧...≧λM(f)の順にソートされている。また、各固有値λj(f)は、[Y1(f,τ),...,YM(f,τ)]T←V(f)H・[X1(f,τ),...,XM(f,τ)]Tとしたときのj番目の信号Yj(f,τ)のパワー値を示す。 Next, for X (f, τ) = [X 1 (f, τ), ..., X M (f, τ)] T , the correlation matrix R (f) = <X (f, τ) X (f, τ) H > τ is calculated, and this is subjected to eigenvalue decomposition as R (f) = V (f) · Λ (f) · V (f) H. Note that V (f) = [v 1 (f), v 2 (f), ..., v M (f)], and Λ (f) is λ 1 (f), λ 2 (f), ..., a diagonal matrix of M rows and M columns with λ M (f) as diagonal elements.・H is the operation to find the conjugate transpose of the matrix, 〈〉 τ is the average over time τ, v j (f) is the eigenvector (M-dimensional vertical vector), λ j (f) is the corresponding eigenvalue Yes, they are sorted in the order of λ 1 (f) ≧ λ 2 (f) ≧ ... ≧ λ M (f). Each eigenvalue λ j (f) is expressed as [Y 1 (f, τ), ..., Y M (f, τ)] T ← V (f) H・ [X 1 (f, τ),. .., X M (f, τ)] indicates the power value of the j-th signal Y j (f, τ) when T.
そして、分解された固有値のうち支配的な値を持つ固有値の個数Nを信号源の数と推定し、残りのM-N個の固有値の大きさをノイズのパワー値σn(f)2と推定する(λN+1(f)=…=λM(f)=σn(f)2)。
しかし、従来技術の固有値に基づく方法では、実際の信号源の数を正しく推定できない場合があるという問題点がある。
例えば、上述の固有値に基づく方法を現実的な状況で用いる場合、以下に挙げる2つの問題を考慮しなければならない。
1つ目の問題は残響の影響である。一般に、残響の長さは短時間離散フーリエ変換のフレーム長Lよりも長いため、ある信号のある時刻の成分が複数のフレームに影響する。その結果、支配的な固有値の数が実際の信号の数よりも多く推定されることがある。
However, the conventional method based on eigenvalues has a problem that the actual number of signal sources may not be estimated correctly.
For example, when the above-described method based on eigenvalues is used in a realistic situation, the following two problems must be considered.
The first problem is the effect of reverberation. In general, since the reverberation length is longer than the frame length L of the short-time discrete Fourier transform, a certain time component of a certain signal affects a plurality of frames. As a result, the number of dominant eigenvalues may be estimated more than the actual number of signals.
図11(a)は、図10に示す条件で1つの音源だけを鳴らした場合の各周波数における固有値の正規化パワー値である。この図に示すように、残響の影響により2番目に大きな値をとる固有値のパワー値が−20dB程度になっている。上述の固有値に基づく方法の場合、所定のしきい値よりも値が大きな固有値の個数を信号源の数と判断することになるが、このしきい値が−20dBより小さかった場合、上述の2番目に値が大きな固有値も「支配的な固有値」の一つにカウントされ、音源の数が2個と推定されてしまう。すなわち、残響の影響から、このしきい値をある程度大きな値としなければ正確な音源数の推定はできない。
2つ目の問題は、各信号のパワーが固有値に適切に現れていない場合があるということである。この問題は特に位相差が小さくなる低周波数で顕著になる。
FIG. 11A shows normalized power values of eigenvalues at each frequency when only one sound source is played under the conditions shown in FIG. As shown in this figure, the power value of the eigenvalue taking the second largest value due to the effect of reverberation is about −20 dB. In the case of the above-described method based on the eigenvalue, the number of eigenvalues having a value larger than a predetermined threshold value is determined as the number of signal sources. When this threshold value is smaller than −20 dB, the above-described 2 The eigenvalue with the second largest value is counted as one of the “dominant eigenvalues”, and the number of sound sources is estimated to be two. That is, due to the effects of reverberation, the number of sound sources cannot be estimated accurately unless this threshold is set to a certain large value.
The second problem is that the power of each signal may not appear properly in the eigenvalue. This problem is particularly noticeable at low frequencies where the phase difference is small.
図11(b)は、図10に示す条件で3音源すべてを鳴らした場合の各周波数における固有値の正規化パワー値である。この例の場合、音源数は3であるから3つの支配的な固有値が存在するはずである。しかし、この図に示すように、各音源のパワー値は同等に設定したにもかかわらず、固有値のパワー値は、2番目、3番目となるにつれ次第に小さくなっていく。この傾向は、低周波数になるほど顕著となる。そのため、この状況において多くの周波数で3音源が存在すると推定されるためには、上述のしきい値を−30dB程度以下に設定しなければならない。しかし、しきい値を小さく設定すると、今度は残響に対応する固有値も「支配的な固有値」にカウントされ、例えば、図11(a)の1音源の場合に2音源以上と推定されてしまう。 FIG. 11B shows normalized power values of eigenvalues at each frequency when all three sound sources are played under the conditions shown in FIG. In this example, since the number of sound sources is 3, there should be three dominant eigenvalues. However, as shown in this figure, although the power values of the sound sources are set to be equal, the power value of the eigenvalue gradually decreases as it becomes the second and third. This tendency becomes more prominent as the frequency becomes lower. Therefore, in order to estimate that there are three sound sources at many frequencies in this situation, the above threshold value must be set to about −30 dB or less. However, if the threshold is set small, the eigenvalue corresponding to reverberation is also counted as a “dominant eigenvalue”, and for example, in the case of one sound source in FIG.
以上説明してきたように、従来技術の固有値に基づく方法では、残響の影響の問題と、各信号のパワーが固有値に適切に現れていない問題とにより、実際の信号源の数を正しく推定できないことがある。
本発明はこのような点に鑑みてなされたものであり、実環境でも信号源の数を正しく推定できる技術を提供することを目的とする。
As explained above, the method based on the eigenvalues of the prior art cannot accurately estimate the actual number of signal sources due to the effect of reverberation and the problem that the power of each signal does not appear properly in the eigenvalues. There is.
The present invention has been made in view of these points, and an object thereof is to provide a technique capable of correctly estimating the number of signal sources even in an actual environment.
本発明では上記課題を解決するために、まず、M個のセンサでの観測信号xj(t)(j={1,...,M})を周波数毎の時系列データXj(f,τ)に変換し、この時系列データXj(f,τ)から分離信号Yi(f,τ)(i={1,...,M})を生成して記憶部に格納する。次に、上記の各分離信号Yi(f,τ)のパワー値を求めて記憶部に格納し、異なる分離信号Yi(f,τ)間の時間差Δτに対するエンベロープの相関値を算出して記憶部に格納する。なお、分離信号Yi(f,τ)のエンベロープとは、分離信号の絶対値の包絡線|Yi(f,τ)|を意味する。そして、各分離信号Yi(f,τ)のパワー値及びエンベロープ相関値と、記憶部に格納されている複数のパラメータとを比較し、当該分離信号Yi(f,τ)が源信号成分であるか否かを判断する。 In the present invention, in order to solve the above-described problem, first, observation signals x j (t) (j = {1,..., M}) from M sensors are converted to time-series data X j (f , τ), and generates a separated signal Y i (f, τ) (i = {1, ..., M}) from the time series data X j (f, τ) and stores it in the storage unit . Next, the power value of each separated signal Y i (f, τ) is obtained and stored in the storage unit, and the correlation value of the envelope with respect to the time difference Δτ between the different separated signals Y i (f, τ) is calculated. Store in the storage. Note that the envelope of separated signals Y i (f, τ), the envelope of the absolute value of the separated signal | Y i (f, τ) | means. Then, the power value and envelope correlation value of each separated signal Y i (f, τ) are compared with a plurality of parameters stored in the storage unit, and the separated signal Y i (f, τ) is a source signal component. It is determined whether or not.
ここで、源信号と残響信号とは相関を持つため、これらの間のエンベロープ相関値は高い。また、残響信号は対応する源信号よりもパワーが小さい。つまり、エンベロープ相関値が高く、パワー値が比較的小さいのが残響信号である。本発明ではこの特徴に着目し、分離信号のエンベロープ相関値やパワー値を各しきい値を示す複数のパラメータと比較して、その分離信号が源信号であるか否かを判断する。これにより、固有値のパワー値のみを指標として源信号を判別していた場合に比べ、実環境を考慮した信号源数の推定が可能となる。 Here, since the source signal and the reverberation signal have a correlation, the envelope correlation value between them is high. Also, the reverberation signal has less power than the corresponding source signal. That is, the reverberation signal has a high envelope correlation value and a relatively small power value. In the present invention, paying attention to this feature, the envelope correlation value or power value of the separated signal is compared with a plurality of parameters indicating each threshold value to determine whether or not the separated signal is a source signal. This makes it possible to estimate the number of signal sources in consideration of the actual environment, compared to the case where the source signal is determined using only the power value of the eigenvalue as an index.
以上のように、本発明では、分離信号のエンベロープ相関値とパワー値とを算出し、それらと複数のパラメータとを比較して源信号を判別することとしたため、実環境において信号源の数を正しく推定することが可能となる。 As described above, in the present invention, the envelope correlation value and the power value of the separated signal are calculated, and the source signal is determined by comparing them with a plurality of parameters. It becomes possible to estimate correctly.
以下、この発明の実施の形態を図面を参照して説明する。
〔第1の実施の形態〕
まず、本発明における第1の実施の形態について説明する。
<全体の構成>
図1は本形態における推定装置1の全体を示すブロック図である。
推定装置1は、例えば、CPU(central processing unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク等がバスで接続されたノイマン型コンピュータに所定のプログラム(推定プログラム)を実行させることにより構築されるものである。
Embodiments of the present invention will be described below with reference to the drawings.
[First Embodiment]
First, a first embodiment of the present invention will be described.
<Overall configuration>
FIG. 1 is a block diagram showing an
The
図1に例示するように、本形態の推定装置1は、メモリ10、周波数領域変換部20、信号源数推定部30、結果統合部40及び制御部50を有している。ここで、信号源数推定部30は、信号分離部31、パワー算出部32、エンベロープ相関算出部33及び判定部34を有し、メモリ10は、観測信号領域11、周波数毎の時系列データ領域12、分離信号領域13、パワー値領域14、エンベロープ領域15、パラメータ領域16及び信号源数領域17を有している。また、制御部50はレジスタ51を有し、推定装置1全体を制御する。また、この図における破線の矢印は理論上の情報の流れを示し、実線の矢印は現実のデータの流れ(同時に電気的或いは情報的な接続関係も)を示している。ただし、制御部50における入出力データの表記は省略してある。
As illustrated in FIG. 1, the
<処理の概要>
本形態では、源信号が混合された混合信号をM個のセンサで観測した観測信号x1(t),...,xM(t)から源信号の数を推定する。
本形態では、まず前処理として複数のパラメータ(ノイズレベルのしきい値を示す第1パラメータthnoise、残響レベルのしきい値を示す第2パラメータthrev、及びエンベロープ相関値のしきい値を示す第3パラメータthcor)を特定するデータをメモリ10に格納しておく。入力された時間領域の観測信号xj(t)(j={1,...,M})は、それぞれ、周波数領域変換部20で周波数毎の時系列データXj(f,τ)に変換され、信号源数推定部30の信号分離部31に送られる。信号分離部31は、周波数f毎にこの時系列データXj(f,τ)から分離信号Yi(f,τ)(i={1,...,M})を生成する。そして、パワー算出部32が、各分離信号Yi(f,τ)のパワー値を算出し、エンベロープ相関算出部33が、異なる分離信号Yi(f,τ)間の時間差Δτに対するエンベロープ相関値を算出する。これらが算出されると、判定部34は、各分離信号Yi(f,τ)のパワー値及びエンベロープ相関値とメモリ内の各パラメータとを比較し、当該分離信号Yi(f,τ)が源信号成分であるか否かを判断して、周波数fに対する信号源の数EN(f)を推定する。
<Outline of processing>
In this embodiment, the number of source signals is estimated from observation signals x 1 (t),..., X M (t) obtained by observing mixed signals obtained by mixing source signals with M sensors.
In this embodiment, as a pre-process, a plurality of parameters (a first parameter th noise indicating a noise level threshold, a second parameter th rev indicating a reverberation level threshold, and an envelope correlation value threshold are shown. Data specifying the third parameter th cor ) is stored in the
その後、音声などの広帯域信号に対しては、最後に結果統合部40において周波数毎の推定値が統合され、全体としての信号源数の推定値enを得る。一方、通信分野などで用いられる狭帯域信号に対しては、周波数毎の推定値を統合する必要はなく、着目する周波数fでの推定値EN(f)を得れば良い。
<本形態の詳細>
図2(a)は図1に例示した信号分離部31の機能構成を、図2(b)はパワー算出部32の機能構成を、図3(a)はエンベロープ相関算出部33の機能構成を、図3(b)は判定部の機能構成を、それぞれ例示したブロック図である。また、図4及び図5は、本形態における信号源数の推定方法を説明するためのフローチャートである。
Thereafter, for a wideband signal such as voice, finally, the estimated value for each frequency is integrated in the
<Details of this embodiment>
2A shows the functional configuration of the
以下、図1〜図5を用い、本形態における構成・処理の詳細について説明する。
[前処理]
まず、前処理としてノイズレベルのしきい値を示す第1パラメータthnoise、残響レベルのしきい値を示す第2パラメータthrev、及びエンベロープ相関値のしきい値を示す第3パラメータthcorを特定するデータを、メモリ10(「記憶部」に相当)のパラメータ領域16に格納する。なおパラメータとしては、例えば、thnoise=0.01、threv =0.2、thcor=0.5を例示できる。ただし、実際の測定時において、鳴っている音源数が分かるサンプルがあれば、その観測データをもとに各パラメータを調整していってもよい。具体的には、例えば、第1パラメータthnoiseを、ノイズ信号の正規化パワー値よりも大きく残響信号の正規化パワー値よりも小さくなるように調整し、第2パラメータthrevを、源信号の正規化パワー値よりも小さく残響信号の正規化パワー値よりも大きくなるように調整し、第3パラメータthcorを、源信号と残響信号とのエンベロープ相関値より小さくなるように調整する。なお、正規化パワー値やエンベロープ相関値の意味については後述する。
また、信号源数の推定対象となる時間領域の観測信号xj(t)(j={1,...,M})をメモリ10の観測信号領域11に書き込む。なお、この観測信号xj(t)はM個のセンサ(マイクロホン等)での観測信号であり、下付添字のjは、その観測信号xj(t)がj番目のセンサで観測されたことを示す。
The details of the configuration and processing in this embodiment will be described below with reference to FIGS.
[Preprocessing]
First, as preprocessing, a first parameter th noise indicating a noise level threshold, a second parameter th rev indicating a reverberation level threshold, and a third parameter th cor indicating an envelope correlation value threshold are specified. The data to be stored is stored in the
Further, the observation signal x j (t) (j = {1,..., M}) in the time domain that is the target of estimating the number of signal sources is written in the observation signal area 11 of the
[周波数領域への変換]
まず、制御部50(図1)が変数jに1を代入し、それをレジスタ51に格納する(ステップS1)。次に、周波数領域変換部20が、メモリ10の観測信号領域11にアクセスし、観測信号xj(t)を読み込む(ステップS2)。観測信号xj(t)を読み込んだ周波数領域変換部20は、それを周波数毎の時間系列データXj(f,τ)に変換してメモリ10の周波数毎の時系列データ領域12に格納する(ステップS3)。なお、この例では、サンプリング周波数fs、L点の短時間離散フーリエ変換を利用してこの変換を行う。
次に制御部50は、レジスタ51に格納された変数jがMか否かを判断する(ステップS4)。ここでj=Mでないと判断された場合、制御部50がjに1を加算した値を新たなjとし(ステップS5)、それをレジスタ51に格納してステップS2の処理に戻る。一方、j=Mであると判断された場合、以下の信号源推定処理に移る。
[Conversion to frequency domain]
First, the control unit 50 (FIG. 1) assigns 1 to the variable j and stores it in the register 51 (step S1). Next, the frequency
Next, the
[信号源推定処理]
まず、制御部50(図1)が、変数fに0を代入してレジスタ51に格納する(ステップS6)。
独立成分分析(ICA:Independent Component Analysis)処理:
次に、独立成分分析(ICA)部31a(図2(a))が、メモリ10の周波数毎の時系列データ領域12から時系列データXj(f,τ)を抽出し、独立成分分析(ICA)を用い、X(f,τ)=[X1(f,τ),...,XM(f,τ)]Tから、M×M行列の分離行列W(f)とICA分離信号Z(f,τ)=[Z1(f,τ),...,ZM(f,τ)]Tとを生成してレジスタ31b(「記憶部」に相当)に格納する(ステップS7)。ここでICAによる信号分離は、ICA分離信号Z(f,τ)の各要素が互いに独立になるようにZ(f,τ)=W(f)・X(f,τ)となるW(f) を算出する手法である。また、ICAのアルゴリズムは、A. Hyvarinen and J. Karhunen and E. Oja, "Independent Component Analysis," John Wiley & Sons, 2001, ISBN 0-471-40540,などに様々なものが示されている。
[Signal source estimation processing]
First, the control unit 50 (FIG. 1) assigns 0 to the variable f and stores it in the register 51 (step S6).
Independent component analysis (ICA) processing:
Next, the independent component analysis (ICA) unit 31a (FIG. 2A) extracts the time series data X j (f, τ) from the time series data region 12 for each frequency in the
なおICAの解にはスケーリングの任意性がある。Z(f,τ)のある要素にあるスカラ値を掛けても、要素間の独立性は変化しないからである。従って、この段階では、センサで観測された源信号のパワーがICA分離信号に正しく反映されていない可能性が高い。また、源信号の数Nがセンサ数Mより少なければ、ICA分離信号Z(f,τ)のN個の要素は源信号に対応し、残りのM-N個の要素はノイズや残響成分に対応するが、この段階のノイズや残響に対応する要素の大きさは一般に増幅されている。そこで、次にスケーリング部31c(図2(a))において、このスケーリングの任意性の問題を解決する。
Note that the ICA solution has arbitrary scaling. This is because the independence between elements does not change even if a scalar value in an element of Z (f, τ) is multiplied. Therefore, at this stage, there is a high possibility that the power of the source signal observed by the sensor is not correctly reflected in the ICA separation signal. If the number N of source signals is less than the number M of sensors, N elements of the ICA separation signal Z (f, τ) correspond to the source signal, and the remaining MN elements correspond to noise and reverberation components. However, the size of the element corresponding to the noise and reverberation at this stage is generally amplified. Therefore, next, the
スケーリング問題解決処理:
スケーリング部31cでは、スケーリングの任意性の問題を解決するため、以下に示す操作を行う。まず、対角行列生成部31caが、レジスタ31bから分離行列W(f)を読み出し、この分離行列W(f)からスケーリング問題を解決するための対角行列Λ(f)を生成する(ステップS8)。この対角行列Λ(f)としては、例えば、
Λ(f)=sqrt(diag[(W(f)・W(f)H)-1]) …(4)
が例示できる。ここで、・-1は逆行列、・Hは共役転置行列、diagは対角成分以外を0にする操作、sqrtは各要素の平方根を計算する操作である。
Scaling problem solving process:
In the
Λ (f) = sqrt (diag [(W (f) ・ W (f) H ) -1 ]) (4)
Can be illustrated. Here, • −1 is an inverse matrix, • H is a conjugate transpose matrix, diag is an operation for setting values other than diagonal components to 0, and sqrt is an operation for calculating the square root of each element.
生成された対角行列Λ(f)は、積演算部31cbに送られ、積演算部31cbは、これとレジスタ31bから読み出したICA分離信号Z(f,τ)とを用い、[Y1(f,τ),...,YM(f,τ)]T←Λ(f)・[Z1(f,τ),...,ZM(f,τ)]Tの演算によって、スケーリング問題を解決した(パワーを回復した)分離信号Yi(f,τ)(i={1,...,M})を生成し、メモリ10の分離信号領域13(図1)に格納する(ステップS9)。
ここで、式(4)を含む上記一連の操作により、分離信号Yi(f,τ)は、以下の2つの性質を持つ。第一に分離信号Yi(f,τ)が互いに無相関であれば、
Here, the separation signal Y i (f, τ) has the following two properties by the series of operations including the expression (4). First, if the separated signals Y i (f, τ) are uncorrelated with each other,
が成り立つ。なお、Sk(f,τ)(k={1,...,N})は源信号成分を示す。すなわち、ある分離信号Yi(f,τ)のパワーと、それに対応する源信号Sk(f,τ)をすべてのセンサで観測した際のパワーの総和とは等しくなる。分離信号Yi(f,τ)が互いに無相関、さらには互いに独立になることは、独立成分分析の目的であり、多くの場合この条件はほぼ満たされている。従って、上記一連の操作により、各分離信号Yi(f,τ)のパワーは、それに対応する源信号Sk(f,τ)がセンサで観測された際のパワーの総和に近くなる。
なお、式(4)の対角行列Λ(f)の代わりに、対角行列Λ(f)=diag[W(f)-1]を使用してもよく、より一般的にW(f)-1のi列j行目の要素をj行目の対角成分とする対角行列Λを使用してもよい。この場合、各分離信号Yi(f,τ)のパワーは、対応する源信号Sk(f,τ)をあるセンサjで観測したパワー、すなわち|Hjk(f)・Sk(f,τ)|2に近似する。
Holds. Note that S k (f, τ) (k = {1,..., N}) represents a source signal component. That is, the power of a certain separated signal Y i (f, τ) is equal to the sum of the power when the corresponding source signal S k (f, τ) is observed by all sensors. That the separated signals Y i (f, τ) are uncorrelated with each other and further independent of each other is the purpose of the independent component analysis, and in many cases, this condition is almost satisfied. Therefore, the power of each separated signal Y i (f, τ) becomes close to the sum of the power when the corresponding source signal S k (f, τ) is observed by the sensor by the above series of operations.
Note that the diagonal matrix Λ (f) = diag [W (f) -1 ] may be used instead of the diagonal matrix Λ (f) in equation (4), and more generally W (f) It is also possible to use a diagonal matrix [Lambda] having a -1 column i-th row and j-th row as a diagonal component of the j-th row. In this case, the power of each separated signal Y i (f, τ) is the power obtained by observing the corresponding source signal S k (f, τ) with a certain sensor j, that is, | H jk (f) · S k (f, τ) | approximates to 2.
[判定処理]
判定処理では、スケーリング問題を解決した(パワーを回復した)分離信号Yi(f,τ)から、源信号の数を推定する。まず、制御部50(図1)が変数iに1を代入し、レジスタ51に格納する(ステップS10)。
次に、パワー算出部32の平均パワー算出部32a(図2(b))が、例えばメモリ10の分離信号領域13(図1)から各τに対する分離信号Yi(f,τ)を順次抽出し、そのパワー値|Yi(f,τ)|2を順次算出してレジスタ32bに格納する。そして、平均パワー算出部32aは、レジスタ32bに格納されたパワー値|Yi(f,τ)|2を読み出し、分離信号Yi(f,τ)の時間τに関する平均パワー値
σi 2(f)←〈|Yi(f,τ)|2〉τ
を算出して、レジスタ32b(「記憶部」に相当)に格納する(ステップS11)。
[Determination process]
In the determination process, the number of source signals is estimated from the separated signal Y i (f, τ) that has solved the scaling problem (recovered power). First, the control unit 50 (FIG. 1) assigns 1 to the variable i and stores it in the register 51 (step S10).
Next, the average
Is calculated and stored in the register 32b (corresponding to the “storage unit”) (step S11).
次に、エンベロープ相関算出部33のエンベロープ算出部33a(図3(a))が、例えばメモリ10の分離信号領域13(図1)から各τに対する分離信号Yi(f,τ)を順次抽出し、その絶対値|Yi(f,τ)|を順次算出してレジスタ33bに格納する。次に、エンベロープ算出部33aは、レジスタ32bに格納された絶対値|Yi(f,τ)|を読み出し、時間τに関する平均が0になるように分離信号Yi(f,τ)の絶対値|Yi(f,τ)|を正規化したエンベロープ
vi(f,τ)←|Yi(f,τ)|-〈|Yi(f,τ)|〉τ
を算出してレジスタ33b(「記憶部」に相当)に格納する(ステップS12)。
Next, the
Is calculated and stored in the
次に、制御部50(図1)が、レジスタ51に格納された変数iがMであるか否かを判断する(ステップ13)。ここでi=Mでなければ、制御部50がiに1を加算し、その値を新たなiとしレジスタ51に格納し(ステップS14)、ステップS11に戻る。一方、i=Mであれば、制御部50は、この変数iに1を代入してレジスタ51に格納し(ステップS15)、以下の処理を実行する。
まず、パワー算出部32のパワー正規化部32c(図2(b))が、レジスタ32bから平均パワー値σ1 2(f),...,σM 2(f)を抽出し、平均パワー値σi 2(f)を正規化した正規化パワー値
First, the
次に、制御部50(図1)が、変数kに1を代入し、レジスタ51に格納する(ステップS17)。次に、エンベロープ相関算出部33の相関算出部33c(図3(a))が、レジスタ33bからエンベロープvi(f,τ)及びvk(f,τ)を抽出する。そして、相関算出部33cは、これらのエンベロープvi(f,τ)及びvk(f,τ)を用い、時間差Δτ(例えばL/2やL/4)による分離信号Yi(f,τ)の分離信号Yk(f,τ)とのエンベロープ相関値
次に、制御部50(図1)はレジスタ51に格納された変数kがMであるか否かを判断する(ステップS19)。ここで、k=Mでなかった場合、制御部50がkに1を加算し、その値を新たなkとしてレジスタ51に格納し、ステップS18に戻る(ステップS20)。一方、k=Mであった場合、エンベロープ相関算出部33の最大値算出部33d(図3(a))は、レジスタ33b(図3(a))から、エンベロープ相関値Cori,1(f),...,Cori,M(f)を抽出する。そして、最大値算出部33dは、これらを用い、エンベロープ相関値Cori,k(f)のiごとの最大値maxCori(f)を算出し、メモリ10のエンベロープ領域15(図1)に格納する(ステップS21)。
Next, the control unit 50 (FIG. 1) determines whether or not the variable k stored in the
次に、判定部34の比較部34a(図3(b))が、メモリ10のパワー値領域14、エンベロープ領域15及びパラメータ領域16から、平均パワー値の正規化値NPi(f)、エンベロープ相関値の最大値maxCori(f)並びに第1パラメータthnoise、第2パラメータthrev及び第3パラメータthcorを読み出す。そして、比較部34aは、以下の論理式により、分離信号Yi(f,τ)が、源信号に対応するか、ノイズや残響成分に対応するかを判定する(ステップS22)。
すなわち、ここでは3種類のパラメータthnoise、threv、thcorを用いている。そして、平均パワー値の正規化値NPi(f)が第1パラメータthnoise未満であればノイズ成分と判定し、平均パワー値の正規化値NPi(f)が第2パラメータthrev未満であり、さらにエンベロープ相関値の最大値maxCori(f)が第3パラメータthcorを超えれば残響成分と判定する。結局、sigi(f)が0になれば、分離信号Yi(f,τ)がノイズや残響成分に対応する(源信号成分でない)と判定されたことになり、sigi(f)=1になれば、分離信号Yi(f,τ)が源信号に対応すると判定されたことになる。そして、このように生成された判定結果sigiはレジスタ34b(図3(b))に送られて格納される。なお、上記論理式中の「<」の少なくとも一部を「≦」としてもよく、「>」を「≧」としてもよい。 That is, here, three types of parameters th noise , th rev , and th cor are used. If the normalized value NP i (f) of the average power value is less than the first parameter th noise , it is determined as a noise component, and the normalized value NP i (f) of the average power value is less than the second parameter th rev In addition, if the maximum value maxCor i (f) of the envelope correlation value exceeds the third parameter th cor , it is determined as a reverberation component. Eventually, when sig i (f) becomes 0, it is determined that the separated signal Y i (f, τ) corresponds to noise and reverberation components (not source signal components), and sig i (f) = When it is 1, it is determined that the separated signal Y i (f, τ) corresponds to the source signal. The determination result sig i generated in this way is sent to and stored in the register 34b (FIG. 3B). Note that at least a part of “<” in the above logical expression may be “≦”, and “>” may be “≧”.
次に、制御部50はレジスタ51(図1)に格納されている変数iがMであるか否かを判断する(ステップS23)。ここで、i=Mでなければ、制御部50がiに1を加算し、その値を新たなiとしてレジスタ51に格納してステップS16に戻る(ステップS24)。一方、i=Mであれば、判定部34の信号源数算出部34c(図3(b))が、レジスタ34bから判定結果sig1(f),...,sigM(f)を抽出し、信号源数推定値
EN(f)=Σi sigi(f)
を算出し、それをメモリ10の信号源数領域17(図1)に格納する(ステップS25)。
Next, the
EN (f) = Σ i sig i (f)
Is stored in the signal source number area 17 (FIG. 1) of the memory 10 (step S25).
次に、制御部50は、レジスタ51に格納された変数fが{(L-1)/L}fs(fsはサンプリング周波数)であるか否かを判断する(ステップS26)。ここで、変数fが{(L-1)/L}fsでなかった場合、制御部50が変数fにfs/Lを加算し、その値を新たな変数fとし、レジスタ51に格納してステップS7の処理に戻る(ステップS27)。一方、変数fが{(L-1)/L}fsであった場合、以下の結果統合処理を行う。
[結果統合処理]
まず結果統合部40が、メモリ10の信号源数領域17から各周波数fで推定された信号源数推定値EN(0),...,EN({(L-1)/L}fs)を読み出し、これを元に、全体としての信号源数の推定値enを算出して出力する(ステップS28)。この例では、単純に多数決で全体の推定値enを決定する。信頼できる周波数(例えば、高い周波数)に大きな重みを与えて、重みづけの多数決で全体の推定値enを決定しても良い。
Next, the
[Result integration processing]
First, the
[適用結果]
本形態の信号源数の推定方法を音源数の推定に適用した結果を示す。
図10に一般的な実験条件を例示する。この実験条件は以下である。
・信号源:7秒間の音声
・残響時間:TR=200 ms
・背景ノイズパワー:−21.8 dB
・サンプリング周波数:fs=8000 Hz
・部屋の大きさ:4.45 m×3.55 m×2.50 m
・音源数:1〜3個
・音源配置・間隔:4cmの間隔で直線上に配置
・センサの数:3個
・中心音源と各センサとの距離:1.1 m
・中心音源と各センサを結んだ直線と、各センサが配置される直線とがなす角度:45°,90°,120°
この図10に示す条件で1〜3個の音源を鳴らし、3個のマイクでの観測信号を用いて鳴っている音源の数を推定した。
[Application result]
The result of having applied the estimation method of the number of signal sources of this form to estimation of the number of sound sources is shown.
FIG. 10 illustrates general experimental conditions. The experimental conditions are as follows.
・ Signal source: 7 seconds of sound ・ Reverberation time: T R = 200 ms
-Background noise power: -21.8 dB
・ Sampling frequency: f s = 8000 Hz
-Room size: 4.45 m x 3.55 m x 2.50 m
・ Number of sound sources: 1 to 3 ・ Sound source arrangement / interval: 4 cm in a straight line ・ Number of sensors: 3 ・ Distance between the central sound source and each sensor: 1.1 m
・ An angle between a straight line connecting the central sound source and each sensor and a straight line where each sensor is arranged: 45 °, 90 °, 120 °
1 to 3 sound sources were sounded under the conditions shown in FIG. 10, and the number of sound sources sounding was estimated using observation signals from three microphones.
図6に従来手法と本形態の手法とによる推定結果の比較を示す。ここで、図6(a)は固有値に基づく従来手法による信号源数の推定結果を示しており、図6(b)は本形態の手法よる信号源数の推定結果を示している。また、横軸は真の音源数、縦軸は音源数0,1,2,3としてそれぞれ推定した周波数ビンの数を示す。
この図に示すように、従来手法では、1音源や3音源の場合にも多数決によると2音源と推定してしまっている。このように従来手法が推定を誤る原因は、図11を用いて説明したように、個々の音源やノイズのパワーが固有値に適切に現れていないことや、残響の影響を考慮されていないことである。一方、本形態の手法によるとすべての場合に正しく推定されている。
FIG. 6 shows a comparison of estimation results between the conventional method and the method of this embodiment. Here, FIG. 6A shows the estimation result of the number of signal sources by the conventional method based on the eigenvalue, and FIG. 6B shows the estimation result of the number of signal sources by the method of the present embodiment. The horizontal axis represents the number of true sound sources, and the vertical axis represents the number of frequency bins estimated as the number of
As shown in this figure, in the conventional method, even in the case of one sound source or three sound sources, it is estimated that there are two sound sources according to the majority vote. As described above with reference to FIG. 11, the reason why the conventional method makes a mistake in estimation is that the power of each sound source or noise does not appear properly in the eigenvalue, and the influence of reverberation is not taken into consideration. is there. On the other hand, according to the method of this embodiment, it is correctly estimated in all cases.
次に本形態の手法による推定が正確である理由を示す。
まず、パワーの回復(各分離信号が、各信号のパワーを適切に反映しているか)に関して考察する。図7は、3音源の場合にセンサで観測された真のパワー値(図7(a))と、これらの混合音を本形態の手法により分離した分離信号(図7(b))のパワー値との比較を示すものである。なお、図7(a)の観測結果は、各音源を1つずつ鳴らして測定し、その結果を正規化したものである。これらの図に示すように、本形態の手法による各分離信号のパワー値は、各音源の観測値の真のパワー値に近似し、音源数を推定できる程度に正しくパワーが回復されていることがわかる。
Next, the reason why the estimation by the method of this embodiment is accurate will be described.
First, consider power recovery (whether each separated signal appropriately reflects the power of each signal). FIG. 7 shows the true power value (FIG. 7 (a)) observed by the sensor in the case of three sound sources and the power of the separated signal (FIG. 7 (b)) obtained by separating these mixed sounds by the method of this embodiment. The comparison with the value is shown. In addition, the observation result of Fig.7 (a) is measured by sounding each sound source one by one, and normalizing the result. As shown in these figures, the power value of each separated signal according to the method of the present embodiment approximates the true power value of the observed value of each sound source, and the power is restored correctly enough to estimate the number of sound sources. I understand.
次に、残響の影響ヘの対処に関して考察する。図8は、1音源の場合の1番目と2番目(i=1,2)の分離信号のパワー値(図8(a))とそれらのエンベロープの相関値(図8(b))を示すものである。図8(a)のパワー値だけを見ると、2番目の分離信号のパワー値が決して十分には小さくないので、信号源なのか残響を含むノイズなのか判断し難い。しかし、右側に示す1番目と2番目の分離信号のエンベロープの相関値を見ると、その値が十分に大きいため、2番目の分離信号は1番目の分離信号の残響成分を多く含むノイズであることがわかる。すなわち、エンベロープの相関値は−1〜+1の値をとり、信号間の相関性が低いほど0に近づく。図8(b)の例では、エンベロープの相関値が0.6〜1の間に集中しており、1番目の分離信号と2番目の分離信号の相関性が高いことが分かる。そしてパワー値が弱い2番目の分離信号が1番目の信号の残響成分であることが推定できる。 Next, let us consider how to deal with the effects of reverberation. FIG. 8 shows the power values (FIG. 8 (a)) of the first and second (i = 1, 2) separated signals in the case of one sound source and the correlation values (FIG. 8 (b)) of their envelopes. Is. Looking only at the power value in FIG. 8A, the power value of the second separated signal is never sufficiently small, so it is difficult to determine whether it is a signal source or noise including reverberation. However, when the correlation value of the envelopes of the first and second separated signals shown on the right side is seen, the value is sufficiently large, so the second separated signal is a noise containing a large amount of reverberation components of the first separated signal. I understand that. That is, the correlation value of the envelope takes a value of −1 to +1, and approaches 0 as the correlation between signals is lower. In the example of FIG. 8B, the correlation values of the envelope are concentrated between 0.6 and 1, and it can be seen that the correlation between the first separated signal and the second separated signal is high. It can be estimated that the second separated signal having a weak power value is the reverberation component of the first signal.
そして、これらの判断に必要なノイズレベルのしきい値を示す第1パラメータthnoise、残響レベルのしきい値を示す第2パラメータthrev、及びエンベロープ相関値のしきい値を示す第3パラメータthcorを適切に設定することにより、ノイズや残響の影響が無視できない実環境において、アクティブな源信号の数を精度良く推定することができる。
〔第2の実施の形態〕
次に、本発明における第2の実施の形態について説明する。
本形態は第1の実施の形態の変形例であり、ICAを用いた信号分離の代わりに固有値に基づく信号分離を行う形態である。以下では、第1の実施の形態との相違点を中心に説明を行い、第1の実施の形態と共通する事項については説明を省略する。
The first parameter th noise indicating the noise level threshold necessary for these determinations, the second parameter th rev indicating the reverberation level threshold, and the third parameter th indicating the envelope correlation value threshold. By appropriately setting cor , the number of active source signals can be accurately estimated in an actual environment where the influence of noise and reverberation cannot be ignored.
[Second Embodiment]
Next, a second embodiment of the present invention will be described.
The present embodiment is a modification of the first embodiment, and is a form in which signal separation based on eigenvalues is performed instead of signal separation using ICA. Below, it demonstrates centering around difference with 1st Embodiment, and abbreviate | omits description about the matter which is common in 1st Embodiment.
図9(a)は、本形態における信号分離部131の構成を例示したブロック図である。
なお、本形態の推定装置と第1の実施の形態の推定装置1との相違点は、信号分離部31が信号分離部131になる点のみである。また、本形態の処理と第1の実施の形態の処理との相違点は、信号分離処理(図4:ステップS7〜9)と平均パワー算出処理(図4:ステップS11)のみである。
FIG. 9A is a block diagram illustrating the configuration of the
Note that the only difference between the estimation apparatus of the present embodiment and the
[信号分離処理]
図9(b)は、本形態の信号分離処理を説明するためのフローチャートである。
まず、信号分離部131の相関行列生成部131a(図9(a))が、メモリ10の周波数毎の時系列データ領域12(図1)から時系列データXj(f,τ)を順次抽出し、時系列ベクトルX(f,τ)=[X1(f,τ),...,XM(f,τ)]Tに対する相関行列R(f)=〈X(f,τ)・X(f,τ)H〉τを生成する(ステップS31)。
生成された相関行列R(f)は固有値分解部131b(図9(a))に送られ、固有値分解部131bはこの相関行列R(f)を、R(f)=V(f)・Λ(f)・V(f)Hの積に分解する(ステップS32)。なお、V(f)=[v1(f),v2(f),...,vM(f)]とし、Λ(f)をλ1(f),λ2(f),...,λM(f)を対角要素とするM行M列の対角行列とし、vj(f)を固有ベクトルとし、λj(f)をこれに対応する固有値とする。生成された固有値λ1(f),λ2(f),...,λM(f)は対応するτに関連つけてメモリ10(図1)に格納され(ステップS32)、V(f)は積演算部131c(図9(a))に送られる。
[Signal separation processing]
FIG. 9B is a flowchart for explaining the signal separation processing of the present embodiment.
First, the correlation
The generated correlation matrix R (f) is sent to the
積演算部131cは、メモリ10の周波数毎の時系列データ領域12(図1)から時系列データXj(f,τ)を抽出し、[Y1(f,τ),...,YM(f,τ)]T=V(f)H・[X1(f,τ),...,XM(f,τ)]Tの演算によって、分離信号Yi(f,τ)(i={1,...,M})を生成してメモリ10の分離信号領域13に格納する(ステップS33)。なお、〈|Yi(f,τ)|2〉τ=λi(f)が成立する。
The
[平均パワー算出処理]
本形態では、第1の実施の形態のステップS11において、パワー算出部32の平均パワー算出部32a(図2(b))が、分離信号Yi(f,τ)からパワー値|Yi(f,τ)|2を算出し、平均パワー値σi 2(f)←〈|Yi(f,τ)|2〉τを算出してレジスタ32bに格納していた代わりに、平均パワー算出部32aがメモリ10(図1)から固有値λi(f)を順次抽出し、分離信号Yi(f,τ)の時間τに関する平均パワー値
σi 2(f)←λi(f)
を算出して、レジスタ32bに格納する。
なお、その他の処理については第1の実施の形態と同様である。
[Average power calculation processing]
In this embodiment, in step S11 of the first embodiment, the average
Is calculated and stored in the register 32b.
Other processes are the same as those in the first embodiment.
以上のような構成の場合、パワーが適切に回復されない問題(各信号のパワーが固有値に適切に現れていない問題)は解決されないが、第1の実施の形態と同様、残響の影響の問題は解決できる。そのため、パワーが適切に回復されない問題の影響が少ない周波数領域では、本形態でも正確な信号源数の推定ができる。
なお、本発明は上述の各実施の形態に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
In the case of the configuration described above, the problem that the power is not properly recovered (the problem that the power of each signal does not appear properly in the eigenvalue) is not solved, but the problem of the effect of reverberation is the same as in the first embodiment. can be solved. Therefore, the number of signal sources can be accurately estimated even in this embodiment in the frequency region where the influence of the problem that power is not properly recovered is small.
The present invention is not limited to the embodiments described above. For example, the various processes described above are not only executed in time series according to the description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Needless to say, other modifications are possible without departing from the spirit of the present invention.
また、上述の構成をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよいが、具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
Further, when the above-described configuration is realized by a computer, processing contents of functions that each device should have are described by a program. The processing functions are realized on the computer by executing the program on the computer.
The program describing the processing contents can be recorded on a computer-readable recording medium. The computer-readable recording medium may be any medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory. Specifically, for example, the magnetic recording device may be a hard disk device or a flexible Discs, magnetic tapes, etc. as optical disks, DVD (Digital Versatile Disc), DVD-RAM (Random Access Memory), CD-ROM (Compact Disc Read Only Memory), CD-R (Recordable) / RW (ReWritable), etc. As the magneto-optical recording medium, MO (Magneto-Optical disc) or the like can be used, and as the semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory) or the like can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Furthermore, the program may be distributed by storing the program in a storage device of the server computer and transferring the program from the server computer to another computer via a network.
A computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing the process, the computer reads a program stored in its own recording medium and executes a process according to the read program. As another execution form of the program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and the program is transferred from the server computer to the computer. Each time, the processing according to the received program may be executed sequentially. Also, the program is not transferred from the server computer to the computer, and the above-described processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition. It is good. Note that the program in this embodiment includes information that is used for processing by an electronic computer and that conforms to the program (data that is not a direct command to the computer but has a property that defines the processing of the computer).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In this embodiment, the present apparatus is configured by executing a predetermined program on a computer. However, at least a part of these processing contents may be realized by hardware.
本発明の音信号に対する応用例としては、例えば、適応ビームフォーマやブラインド音源分離の前処理において、ある区間でのアクティブな音源数を推定する処理を例示できる。 As an application example of the sound signal of the present invention, for example, a process of estimating the number of active sound sources in a certain section in pre-processing of adaptive beamformer or blind sound source separation can be exemplified.
1 推定装置 31 信号分離部
10 メモリ 32 パワー算出部
20 周波数領域変換部 33 エンベロープ相関算出部
30 信号減数推定部 34 判定部
DESCRIPTION OF
Claims (9)
複数のパラメータを特定するデータが記憶部に格納されており、
周波数領域変換部が、M個のセンサでの観測信号xj(t)(j={1,...,M})を周波数毎の時系列データXj(f,τ)に変換して記憶部に格納する手順と、
信号分離部が、上記時系列データXj(f,τ)から分離信号Yi(f,τ)(i={1,...,M})を生成して記憶部に格納する手順と、
パワー算出部が、上記の各分離信号Yi(f,τ)のパワー値を算出して記憶部に格納する手順と、
エンベロープ相関算出部が、異なる上記分離信号Yi(f,τ)間の時間差Δτに対するエンベロープ相関値を算出して記憶部に格納する手順と、
判定部が、上記の各分離信号Yi(f,τ)のパワー値及びエンベロープ相関値と、上記の各パラメータとを比較し、当該分離信号Yi(f,τ)が源信号成分であるか否かを判断する手順と、
を有することを特徴とする信号源数の推定方法。 A method for estimating the number of signal sources, which estimates the number of signal sources from observed signals,
Data for specifying a plurality of parameters is stored in the storage unit,
The frequency domain converter converts the observation signal x j (t) (j = {1, ..., M}) from M sensors into time-series data X j (f, τ) for each frequency. The procedure of storing in the storage unit;
A procedure in which the signal separation unit generates a separation signal Y i (f, τ) (i = {1, ..., M}) from the time series data X j (f, τ) and stores it in the storage unit; ,
The power calculation unit calculates the power value of each of the separated signals Y i (f, τ) and stores it in the storage unit,
A procedure in which an envelope correlation calculating unit calculates an envelope correlation value for a time difference Δτ between different separated signals Y i (f, τ) and stores it in a storage unit;
The determination unit compares the power value and envelope correlation value of each of the separated signals Y i (f, τ) with the parameters, and the separated signal Y i (f, τ) is a source signal component. A procedure for determining whether or not
A method for estimating the number of signal sources.
上記時系列データXj(f,τ)から分離信号Yi(f,τ)を生成して記憶部に格納する手順は、
独立成分分析部が、独立成分分析を用い、上記時系列データX1(f,τ),...,XM(f,τ)からM×M行列の分離行列W(f)とICA分離信号[Z1(f,τ),...,ZM(f,τ)]Tとを生成して記憶部に格納する手順と、
対角行列生成部が、上記分離行列W(f)から、スケーリング問題を解決するための対角行列Λ(f)を生成する手順と、
積演算部が、[Y1(f,τ),...,YM(f,τ)]T←Λ(f)・[Z1(f,τ),...,ZM(f,τ)]Tの演算によって、上記分離信号Yi(f,τ)を生成して記憶部に格納する手順と、
を有することを特徴とする信号源数の推定方法。 A method for estimating the number of signal sources according to claim 1,
The procedure for generating the separated signal Y i (f, τ) from the time series data X j (f, τ) and storing it in the storage unit is as follows.
The independent component analysis unit uses the independent component analysis to separate the M × M matrix separation matrix W (f) and ICA from the time series data X 1 (f, τ),..., X M (f, τ). Generating a signal [Z 1 (f, τ), ..., Z M (f, τ)] T and storing it in the storage unit;
A diagonal matrix generation unit generating a diagonal matrix Λ (f) for solving the scaling problem from the separation matrix W (f);
The product operation unit is [Y 1 (f, τ), ..., Y M (f, τ)] T ← Λ (f) ・ [Z 1 (f, τ), ..., Z M (f , τ)] T to generate the separated signal Y i (f, τ) and store it in the storage unit by calculating T ;
A method for estimating the number of signal sources.
上記時系列データXj(f,τ)から分離信号Yi(f,τ)を生成して記憶部に格納する手順は、
相関行列生成部が、時系列ベクトルX(f,τ)=[X1(f,τ),...,XM(f,τ)]Tに対する相関行列R(f)←〈X(f,τ)・X(f,τ)H〉τを生成する手順と、
固有値分解部が、上記相関行列R(f)を、V(f)=[v1(f),v2(f),...,vM(f)]とし、Λ(f)をλ1(f),λ2(f),...,λM(f)を対角要素とするM行M列の対角行列とし、vj(f)を固有ベクトルとし、λj(f)をこれに対応する固有値とした場合における、R(f)=V(f)・Λ(f)・V(f)Hの積に分解する手順と、
積演算部が、[Y1(f,τ),...,YM(f,τ)]T←V(f)H・[X1(f,τ),...,XM(f,τ)]Tの演算によって、上記分離信号Yi(f,τ)を生成して記憶部に格納する手順と、
を有することを特徴とする信号源数の推定方法。 A method for estimating the number of signal sources according to claim 1,
The procedure for generating the separated signal Y i (f, τ) from the time series data X j (f, τ) and storing it in the storage unit is as follows.
The correlation matrix generator generates a correlation matrix R (f) ← <X (f for time series vector X (f, τ) = [X 1 (f, τ), ..., X M (f, τ)] T , τ) ・ X (f, τ) H 〉 τ ,
The eigenvalue decomposition unit sets the correlation matrix R (f) to V (f) = [v 1 (f), v 2 (f), ..., v M (f)], and sets Λ (f) to λ 1 (f), λ 2 (f),..., Λ M (f) are diagonal elements of M rows and M columns, v j (f) is an eigenvector, and λ j (f) Is a product of R (f) = V (f) · Λ (f) · V (f) H , where E is the corresponding eigenvalue,
The product operation unit is [Y 1 (f, τ), ..., Y M (f, τ)] T ← V (f) H・ [X 1 (f, τ), ..., X M ( f, τ)] T to generate the separated signal Y i (f, τ) and store it in the storage unit by calculating T ,
A method for estimating the number of signal sources.
上記の各分離信号Yi(f,τ)のパワー値を算出して記憶部に格納する手順は、
平均パワー算出部が、各分離信号Yi(f,τ)の時間τに関する平均パワー値を算出する手順と、
パワー正規化部が、上記平均パワー値を正規化する手順と、を有し、
上記分離信号Yi(f,τ)が源信号成分であるか否かを判断する手順は、
上記平均パワー値の正規化値及びエンベロープ相関値と、上記の各パラメータとを比較し、当該分離信号Yi(f,τ)が源信号成分であるか否かを判断する手順である、
ことを特徴とする信号源数の推定方法。 A method for estimating the number of signal sources according to claim 1,
The procedure for calculating the power value of each separated signal Y i (f, τ) and storing it in the storage unit is as follows:
The average power calculation unit calculates the average power value for the time τ of each separated signal Y i (f, τ),
A power normalization unit normalizing the average power value,
The procedure for determining whether the separated signal Y i (f, τ) is a source signal component is as follows:
It is a procedure for comparing the normalized value of the average power value and the envelope correlation value with each of the above parameters and determining whether or not the separated signal Y i (f, τ) is a source signal component.
A method for estimating the number of signal sources.
上記エンベロープ相関値を算出して記憶部に格納する手順は、
エンベロープ算出部が、時間τに関する平均が0になるように上記の各分離信号Yi(f,τ)の絶対値|Yi(f,τ)|を正規化したエンベロープvi(f,τ)を算出して記憶部に格納する手順と、
相関算出部が、
最大値算出部が、iごとに上記エンベロープ相関値Cori,k(f)の最大値maxCori(f)を算出する手順と、を有し、
上記分離信号Yi(f,τ)が源信号成分であるか否かを判断する手順は、
上記の各分離信号Yi(f,τ)のパワー値及び上記最大値maxCori(f)と、上記の各パラメータとを比較し、当該分離信号Yi(f,τ)が源信号成分であるか否かを判断する手順である、
ことを特徴とする信号源数の推定方法。 A method for estimating the number of signal sources according to claim 1,
The procedure for calculating the envelope correlation value and storing it in the storage unit is as follows.
Envelope calculation unit, the isolated signals in the so average with respect to time tau becomes 0 Y i (f, τ) the absolute value of | Y i (f, τ) | envelope was normalized v i (f, τ ) And storing it in the storage unit;
The correlation calculator
A maximum value calculating unit calculating a maximum value maxCor i (f) of the envelope correlation value Cor i, k (f) for each i , and
The procedure for determining whether the separated signal Y i (f, τ) is a source signal component is as follows:
The power value of each of the separated signals Y i (f, τ) and the maximum value maxCor i (f) are compared with the parameters, and the separated signal Y i (f, τ) is a source signal component. It is a procedure to determine whether there is,
A method for estimating the number of signal sources.
上記複数のパラメータは、
ノイズレベルのしきい値を示す第1パラメータthnoise、残響レベルのしきい値を示す第2パラメータthrev、及びエンベロープ相関値のしきい値を示す第3パラメータthcorであり、
上記分離信号Yi(f,τ)が源信号成分であるか否かを判断する手順は、
上記分離信号Yi(f,τ)の上記パワー値が上記第1パラメータthnoise以下若しくは未満である場合、又は上記分離信号Yi(f,τ)の上記パワー値が上記第2パラメータthrev以下若しくは未満であって上記エンベロープ相関値が上記第3パラメータthcor以上若しくは超える場合、当該分離信号Yi(f,τ)は源信号成分でないと判断する手順を有する、
ことを特徴とする信号源数の推定方法。 A method for estimating the number of signal sources according to claim 1,
The above parameters are
A first parameter th noise indicating a threshold of a noise level, a second parameter th rev indicating a threshold of a reverberation level, and a third parameter th cor indicating a threshold of an envelope correlation value,
The procedure for determining whether the separated signal Y i (f, τ) is a source signal component is as follows:
When the power value of the separated signal Y i (f, τ) is less than or less than the first parameter th noise , or the power value of the separated signal Y i (f, τ) is the second parameter th rev Or less, and when the envelope correlation value is greater than or equal to the third parameter th cor , the separated signal Y i (f, τ) has a procedure for determining that it is not a source signal component.
A method for estimating the number of signal sources.
複数のパラメータを特定するデータが格納された記憶部と、
M個のセンサでの観測信号xj(t)(j={1,...,M})を周波数毎の時系列データXj(f,τ)に変換して記憶部に格納する周波数領域変換部と、
上記時系列データXj(f,τ)から分離信号Yi(f,τ)(i={1,...,M})を生成して記憶部に格納するする信号分離部と、
上記の各分離信号Yi(f,τ)のパワー値を算出して記憶部に格納するパワー算出部と、
異なる上記分離信号Yi(f,τ)間の時間差Δτに対するエンベロープ相関値を算出して記憶部に格納するエンベロープ相関算出部と、
上記の各分離信号Yi(f,τ)のパワー値及びエンベロープ相関値と、上記の各パラメータとを比較し、当該分離信号Yi(f,τ)が源信号成分であるか否かを判断する判定部と、
を有することを特徴とする推定装置。 An estimation device for estimating the number of signal sources from observed signals,
A storage unit storing data for specifying a plurality of parameters;
Frequency to convert observation signal x j (t) (j = {1, ..., M}) from M sensors into time-series data X j (f, τ) for each frequency and store in memory An area conversion unit;
A signal separation unit that generates a separation signal Y i (f, τ) (i = {1, ..., M}) from the time series data X j (f, τ) and stores it in a storage unit;
A power calculation unit that calculates the power value of each of the separated signals Y i (f, τ) and stores it in the storage unit;
Calculating an envelope correlation value for a time difference Δτ between the different separated signals Y i (f, τ) and storing the envelope correlation value in a storage unit;
The power value and envelope correlation value of each separated signal Y i (f, τ) is compared with each of the above parameters, and whether or not the separated signal Y i (f, τ) is a source signal component is determined. A determination unit for determining;
The estimation apparatus characterized by having.
上記時系列データXj(f,τ)から分離信号Yi(f,τ)(i={1,...,M})を生成して記憶部に格納する手順と、
上記の各分離信号Yi(f,τ)のパワー値を算出して記憶部に格納する手順と、
異なる上記分離信号Yi(f,τ)間の時間差Δτに対するエンベロープ相関値を算出して記憶部に格納する手順と、
上記の各分離信号Yi(f,τ)のパワー値及びエンベロープ相関値と、記憶部に格納された各パラメータとを比較し、当該分離信号Yi(f,τ)が源信号成分であるか否かを判断する手順と、
をコンピュータに実行させるための推定プログラム。 A procedure for converting observation signals x j (t) (j = {1, ..., M}) from M sensors into time-series data X j (f, τ) for each frequency;
A procedure for generating a separation signal Y i (f, τ) (i = {1, ..., M}) from the time series data X j (f, τ) and storing it in a storage unit,
A procedure for calculating the power value of each separated signal Y i (f, τ) and storing it in the storage unit,
A procedure for calculating an envelope correlation value for a time difference Δτ between different separated signals Y i (f, τ) and storing it in a storage unit;
The power value and envelope correlation value of each separated signal Y i (f, τ) described above are compared with each parameter stored in the storage unit, and the separated signal Y i (f, τ) is the source signal component. A procedure for determining whether or not
An estimation program for causing a computer to execute.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004238174A JP4113169B2 (en) | 2004-08-18 | 2004-08-18 | Method for estimating the number of signal sources, estimation apparatus, estimation program, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004238174A JP4113169B2 (en) | 2004-08-18 | 2004-08-18 | Method for estimating the number of signal sources, estimation apparatus, estimation program, and recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2006058065A JP2006058065A (en) | 2006-03-02 |
| JP4113169B2 true JP4113169B2 (en) | 2008-07-09 |
Family
ID=36105655
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004238174A Expired - Fee Related JP4113169B2 (en) | 2004-08-18 | 2004-08-18 | Method for estimating the number of signal sources, estimation apparatus, estimation program, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4113169B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4676920B2 (en) * | 2006-05-12 | 2011-04-27 | 日本電信電話株式会社 | Signal separation device, signal separation method, signal separation program, and recording medium |
| JP5163063B2 (en) * | 2007-11-09 | 2013-03-13 | ブラザー工業株式会社 | Wireless tag communication device |
| JP6148440B2 (en) * | 2012-06-21 | 2017-06-14 | 旭化成エレクトロニクス株式会社 | Sensor signal processing apparatus and sensor signal processing method |
| JP5150004B1 (en) * | 2012-08-09 | 2013-02-20 | リオン株式会社 | Noise observation apparatus and noise observation method |
| CN120122067B (en) * | 2025-05-14 | 2025-08-01 | 比亚迪股份有限公司 | Signal source number estimation method, device, direction of arrival estimation method, radar system and vehicle |
-
2004
- 2004-08-18 JP JP2004238174A patent/JP4113169B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006058065A (en) | 2006-03-02 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4195267B2 (en) | Speech recognition apparatus, speech recognition method and program thereof | |
| RU2642353C2 (en) | Device and method for providing informed probability estimation and multichannel speech presence | |
| US8271277B2 (en) | Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium | |
| EP2123116B1 (en) | Multi-sensor sound source localization | |
| US7065487B2 (en) | Speech recognition method, program and apparatus using multiple acoustic models | |
| US7590526B2 (en) | Method for processing speech signal data and finding a filter coefficient | |
| CN113470685B (en) | Training method and device for voice enhancement model and voice enhancement method and device | |
| US7856353B2 (en) | Method for processing speech signal data with reverberation filtering | |
| US12455341B2 (en) | Location of an acoustic source | |
| US12348938B2 (en) | Acoustic processing device, acoustic processing method, and storage medium | |
| JP4113169B2 (en) | Method for estimating the number of signal sources, estimation apparatus, estimation program, and recording medium | |
| JP3949074B2 (en) | Objective signal extraction method and apparatus, objective signal extraction program and recording medium thereof | |
| JP4858663B2 (en) | Speech recognition method and speech recognition apparatus | |
| JP4871191B2 (en) | Target signal section estimation device, target signal section estimation method, target signal section estimation program, and recording medium | |
| JP6891144B2 (en) | Generation device, generation method and generation program | |
| JP4422662B2 (en) | Sound source position / sound receiving position estimation method, apparatus thereof, program thereof, and recording medium thereof | |
| EP3557576B1 (en) | Target sound emphasis device, noise estimation parameter learning device, method for emphasizing target sound, method for learning noise estimation parameter, and program | |
| JP2017151216A (en) | Sound source direction estimating apparatus, sound source direction estimating method, and program | |
| JP6969597B2 (en) | Acoustic signal processing equipment, methods and programs | |
| Koutrouvelis et al. | Estimation of sensor array signal model parameters using factor analysis | |
| Reyes-Gomez et al. | Multi-channel source separation by beamforming trained with factorial hmms | |
| Eaton et al. | Direct-to-reverberant ratio estimation on the ACE corpus using a two-channel beamformer | |
| JP2010072164A (en) | Target signal section estimation device, target signal section estimation method, target signal section estimation program and recording medium | |
| JP4378098B2 (en) | Sound source selection apparatus and method | |
| JPH0466887A (en) | Decision of number of sound sources |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060719 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20060719 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080213 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080401 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080410 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110418 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120418 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130418 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140418 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |