Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP5826465B2 - Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program - Google Patents
[go: Go Back, main page]

JP5826465B2 - Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program - Google Patents

Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program Download PDF

Info

Publication number
JP5826465B2
JP5826465B2 JP2010134494A JP2010134494A JP5826465B2 JP 5826465 B2 JP5826465 B2 JP 5826465B2 JP 2010134494 A JP2010134494 A JP 2010134494A JP 2010134494 A JP2010134494 A JP 2010134494A JP 5826465 B2 JP5826465 B2 JP 5826465B2
Authority
JP
Japan
Prior art keywords
direct ratio
frequency domain
signal
sound
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010134494A
Other languages
Japanese (ja)
Other versions
JP2011259397A (en
Inventor
裕輔 日岡
裕輔 日岡
阪内 澄宇
澄宇 阪内
古家 賢一
賢一 古家
羽田 陽一
陽一 羽田
健太 丹羽
健太 丹羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010134494A priority Critical patent/JP5826465B2/en
Publication of JP2011259397A publication Critical patent/JP2011259397A/en
Application granted granted Critical
Publication of JP5826465B2 publication Critical patent/JP5826465B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

この発明は、例えば、音声通話や、音声入力によって機器を操作するハンズフリー方式等に応用でき、マイクロホンから特定の距離範囲内に位置する音源の音だけを強調して収音する際に用いられる瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置、各装置の方法と各装置プログラムに関する。   The present invention can be applied to, for example, a voice call, a hands-free method of operating a device by voice input, and the like, and is used when collecting sound by emphasizing only the sound of a sound source located within a specific distance range from a microphone. The present invention relates to an instantaneous direct ratio estimation device, a noise removal device, a perspective determination device, a sound source distance measurement device, a method of each device, and a device program.

従来、音源との距離を識別し特定の距離範囲にある音源からの音だけを強調若しくは抑圧する目的で、マイクロホンから受信した信号から、直接音と残響音のそれぞれのパワーを推定して直間比を求める考えがある(例えば、非特許文献1)。図面を参照して従来の直間比推定装置で直間比を求める考えを説明する。   Conventionally, for the purpose of identifying the distance from a sound source and enhancing or suppressing only the sound from the sound source within a specific distance range, the power of the direct sound and reverberant sound is estimated from the signal received from the microphone, There is an idea of obtaining the ratio (for example, Non-Patent Document 1). The idea of obtaining the direct ratio with a conventional direct ratio estimating device will be described with reference to the drawings.

図1に直間比推定装置を利用する場面を例示する。小型マイクロホンアレー11を、例えば4人の発話者12〜14が取り囲んで会議をしている場面を想定する。その会議室内には、テレビ16、電話17、館内放送用のスピーカ18が配置されているものとする。このような場面において、館内放送の音声や、電話の音等を収音せずに、小型マイクロホンアレー11を中心として所定の距離範囲内(破線で示す円内)に位置する発話者12〜14の発話だけを収音したい。   FIG. 1 illustrates a scene in which the direct ratio estimation apparatus is used. Assume that a small microphone array 11 is surrounded by, for example, four speakers 12 to 14 for a conference. It is assumed that a television 16, a telephone 17, and a speaker 18 for broadcasting in the hall are arranged in the conference room. In such a scene, the speakers 12 to 14 located within a predetermined distance range (within a circle indicated by a broken line) around the small microphone array 11 without picking up the voice of the in-house broadcast or the sound of the telephone. I want to collect only the utterances.

マイクロホンアレーから音源までの距離を見分けるために、受信音に含まれる直接音と間接音(残響音)との比(以降、直間比と称する)に着目する。図2に屋内にマイクロホンを置いて音を収録した際の、音源21からマイクロホン22までの音の伝搬経路を示す。直接音とは、音源21からマイクロホンまで直接到達する太い実線で示す音波である。一方の残響音とは、音源21から発した音が壁や床や天井などで反射してからマイクロホン22に到達する破線で示す音波である。   In order to distinguish the distance from the microphone array to the sound source, attention is paid to the ratio of direct sound and indirect sound (reverberation sound) included in the received sound (hereinafter referred to as direct ratio). FIG. 2 shows a sound propagation path from the sound source 21 to the microphone 22 when a microphone is placed indoors and a sound is recorded. The direct sound is a sound wave indicated by a thick solid line that directly reaches from the sound source 21 to the microphone. One reverberant sound is a sound wave indicated by a broken line that reaches the microphone 22 after the sound emitted from the sound source 21 is reflected by a wall, floor, ceiling, or the like.

図3に直間比とマイクロホン間距離との関係を示す。図3の横軸はマイクロホンから音源までの距離、縦軸は直間比である。一般的に間接音はマイクロホンからの距離に依存しない一定の大きさを示す。その間接音に対して直接音は、マイクロホンからの距離の増加に伴って単調に減少する特性を示す。その直接音を間接音で除した直間比は、直接音と同様に距離の増加に伴って単調に減少する特性になる。   FIG. 3 shows the relationship between the direct ratio and the distance between the microphones. The horizontal axis in FIG. 3 is the distance from the microphone to the sound source, and the vertical axis is the direct ratio. In general, the indirect sound has a certain magnitude that does not depend on the distance from the microphone. In contrast to the indirect sound, the direct sound exhibits a characteristic that monotonously decreases as the distance from the microphone increases. The direct ratio obtained by dividing the direct sound by the indirect sound has a characteristic that decreases monotonously as the distance increases, as in the case of the direct sound.

従来の直間比推定装置は、受信音からこの直間比を推定し、受信音に含まれる音源のマイクロホンアレーからの距離を推定することができる。   The conventional direct ratio estimation device can estimate the direct ratio from the received sound, and can estimate the distance of the sound source included in the received sound from the microphone array.

Y.Hioka, K.Niwa, S.Sakauchi, K.Furuya, and Y.Haneda. Estimating direct-to-reverberant energy ratio based on spatial correlation model segregating direct sound and reverberation. Proceedings of 2010 IEEE International Conference of Acoustics, Speech and Signal Processing(ICASSP2010), pages 149-152, 2010.Y.Hioka, K.Niwa, S.Sakauchi, K.Furuya, and Y.Haneda. Estimating direct-to-reverberant energy ratio based on spatial correlation model segregating direct sound and reverberation.Proceedings of 2010 IEEE International Conference of Acoustics, Speech and Signal Processing (ICASSP2010), pages 149-152, 2010. 日岡裕輔,阪内澄宇,古家賢一,羽田陽一,“受音信号の直間比に基づく距離別収音の検討”,日本音響学会2009年秋季研究発表会,pp.633-634Yusuke Hioka, Sumio Hannai, Kenichi Furuya, Yoichi Haneda, “Examination of sound collection by distance based on direct ratio of received signal”, Acoustical Society of Japan 2009 Autumn Meeting, pp.633-634

従来の方法では、音源が移動していて直間比が時々刻々変化しているような場合に、その変化に追従した直間比を推定できない課題がある。   In the conventional method, when the sound source is moving and the direct ratio changes from moment to moment, there is a problem that the direct ratio following the change cannot be estimated.

この発明は、このような問題点に鑑みてなされたものであり、音源が移動する場合でも信号を長時間観測することなく直間比を正しく推定することができる瞬時直間比推定装置と、それを用いた雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラムを提供することを目的とする。   This invention was made in view of such problems, and even when the sound source moves, an instantaneous direct ratio estimation device that can correctly estimate the direct ratio without observing the signal for a long time, and It is an object of the present invention to provide a noise removal device, a perspective determination device, a sound source distance measurement device, a method of each device, and a device program using the same.

この発明の瞬時直間比推定装置は、マイクロホンアレーと、複数の周波数領域変換部と、空間相関行列算出部と、固有値展開部と、固有値分布算出部と、を具備する。マイクロホンアレーは、少数のマイクロホンから成る小マイクロホンアレーの平行移動で重なる位置に設けられる複数のマイクロホンで構成される。複数の周波数領域変換部は、マイクロホンアレーで受音された受音信号がそれぞれ入力され受音信号を周波数領域の信号に変換する。空間相関行列算出部は、複数の周波数領域変換部の出力する周波数領域の信号を入力として、その周波数領域の信号を使い小マイクロホンアレー毎に求めた空間相関行列の和または平均で求まる小空間相関行列を算出する。固有値展開部は、小空間相関行列を固有値展開して固有値と固有ベクトルに分解し、上記固有値を出力する。固有値分布算出部は、固有値の分布の割合を数値化して直間比相当値を出力する。   The instantaneous direct ratio estimation apparatus of the present invention includes a microphone array, a plurality of frequency domain conversion units, a spatial correlation matrix calculation unit, an eigenvalue expansion unit, and an eigenvalue distribution calculation unit. The microphone array is composed of a plurality of microphones provided at overlapping positions by parallel movement of a small microphone array composed of a small number of microphones. The plurality of frequency domain converters each receive a received sound signal received by a microphone array and convert the received sound signal into a frequency domain signal. The spatial correlation matrix calculation unit receives the frequency domain signals output from a plurality of frequency domain transformation units, and uses the frequency domain signals to obtain the small spatial correlation obtained by the sum or average of the spatial correlation matrices obtained for each small microphone array. Calculate the matrix. The eigenvalue expansion unit expands the small space correlation matrix into eigenvalues, decomposes them into eigenvalues and eigenvectors, and outputs the eigenvalues. The eigenvalue distribution calculation unit converts the eigenvalue distribution ratio into a numerical value and outputs a direct ratio equivalent value.

また、この発明の雑音除去装置等は、この発明の瞬時直間比推定装置を含むものであって、その他に処理対象信号生成部と、対象信号調整部と、逆周波数領域変換部と、を具備する。   Further, the noise removal apparatus of the present invention includes the instantaneous direct ratio estimation apparatus of the present invention, and additionally includes a processing target signal generation unit, a target signal adjustment unit, and an inverse frequency domain conversion unit. It has.

この発明の瞬時直間比推定装置は、マイクロホンアレーの観測信号から相互相関を求める際に、従来技術で行っていた複数時刻での空間相関行列の平均を求める方法の代わりに、複数の異なる位置に配置された小マイクロホンアレーの観測信号から求めた空間相関行列の和または平均を求める。この小マイクロホンアレーの空間相関行列の平均は各時刻ごとに得られるため、直間比が時々刻々と変化するような場合でも正しい直間比相当値を推定することができる。   The instantaneous direct ratio estimation apparatus according to the present invention provides a plurality of different positions instead of the method of obtaining an average of spatial correlation matrices at a plurality of times, which has been performed in the prior art, when obtaining a cross-correlation from observation signals of a microphone array. The sum or the average of the spatial correlation matrix obtained from the observation signal of the small microphone array arranged in is obtained. Since the average of the spatial correlation matrix of the small microphone array is obtained at each time, a correct direct ratio equivalent value can be estimated even when the direct ratio changes from moment to moment.

また、このことから本発明の雑音除去装置は、音源が移動しても雑音を除去した直接音のみを抽出することができる。   In addition, from this, the noise removal apparatus of the present invention can extract only the direct sound from which noise is removed even if the sound source moves.

従来の直間比推定装置を利用する場面の一例を示す図。The figure which shows an example of the scene using the conventional direct ratio estimation apparatus. 屋内での音の伝搬経路を示す図。The figure which shows the propagation path of the sound indoors. 直間比とマイクロホン間距離との関係を示す図。The figure which shows the relationship between direct ratio and the distance between microphones. この発明のマイクロホンアレーの一例を示す図。The figure which shows an example of the microphone array of this invention. この発明の瞬時直間比推定装置100の機能構成例を示す図。The figure which shows the function structural example of the instantaneous direct ratio estimation apparatus 100 of this invention. 瞬時直間比推定装置100の動作フローを示す図。The figure which shows the operation | movement flow of the instantaneous direct ratio estimation apparatus 100. この発明の雑音除去装置200の機能構成例を示す図。The figure which shows the function structural example of the noise removal apparatus 200 of this invention. 雑音除去装置200の動作フローを示す図。The figure which shows the operation | movement flow of the noise removal apparatus. 処理対象信号生成部46の機能構成例を示す図。The figure which shows the function structural example of the process target signal production | generation part 46. FIG. この発明の遠近判定装置300の機能構成例を示す図。The figure which shows the function structural example of the perspective determination apparatus 300 of this invention. 直間比推定部84の機能構成例を示す図。The figure which shows the function structural example of the direct ratio estimation part 84. FIG. 処理対象信号生成部83の機能構成例を示す図。The figure which shows the function structural example of the process target signal generation part 83. FIG. この発明の瞬時直間比推定装置400の機能構成例を示す図。The figure which shows the function structural example of the instantaneous direct ratio estimation apparatus 400 of this invention. この発明の遠近判定装置500の機能構成例を示す図。The figure which shows the function structural example of the distance determination apparatus 500 of this invention. この発明の音源距離測定装置600の機能構成例を示す図。The figure which shows the function structural example of the sound source distance measuring apparatus 600 of this invention. この発明の雑音除去装置700の機能構成例を示す図。The figure which shows the function structural example of the noise removal apparatus 700 of this invention. 雑音除去装置700の動作フローを示す図。The figure which shows the operation | movement flow of the noise removal apparatus 700. この発明の瞬時直間比推定装置400′の機能構成例を示す図。The figure which shows the function structural example of instantaneous direct ratio estimation apparatus 400 'of this invention. この発明のマイクロホンアレーの他の例を示す図であり、(a)は少数のマイクロホンの数を3個とした例、(b)は少数のマイクロホンを立体的に配置した例を示す図である。It is a figure which shows the other example of the microphone array of this invention, (a) is a figure which shows the example which made the number of a few microphones three, (b) is a figure which shows the example which has arrange | positioned a small number of microphones three-dimensionally. .

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。また、以下の説明において、テキスト中で使用する記号「 ̄」や「^」等は、本来直前の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直後に記載する。式中においてはこれらの記号は本来の位置に記述している。   Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated. In the following description, the symbols “ ̄”, “^”, etc. used in the text should be written directly above the immediately preceding character, but immediately after the character due to restrictions on the text notation. It describes. In the formula, these symbols are written in their original positions.

実施例の説明の前にこの発明の考えについて説明する。   Prior to the description of the embodiments, the idea of the present invention will be described.

〔この発明の考え〕
従来の直間比を求める方法は、複数のマイクロホンで受音した受音信号を周波数領域の信号に変換し、その周波数領域の信号X1(ω,l),…,XM(ω,l)をベクトル化し、その入力信号を用いて式(1)に示す空間相関行列R(ω,l)を算出し、この空間相関行列から直接音と間接音のパワーを推定し、直間比を求める。
[Concept of this invention]
A conventional method for determining the direct ratio is to convert a received signal received by a plurality of microphones into a signal in the frequency domain, and signal X 1 (ω, l),..., X M (ω, l) in the frequency domain. ) Is vectorized, the spatial correlation matrix R (ω, l) shown in Equation (1) is calculated using the input signal, the power of the direct sound and the indirect sound is estimated from the spatial correlation matrix, and the direct ratio is calculated. Ask.

Figure 0005826465
Figure 0005826465

ここでTは行列の転置、Hは共役転置を、Lは平均を求めるフレームの数、Mはマイクロホンの数を表す。式(1)から明らかなように、従来技術で求めた直間比は、所定フレーム数の空間相関行列の平均を元に計算された値である。よって、移動する音源の場合のように、時々刻々と変化する直間比を正確に推定することが出来ない。   Here, T is a matrix transposition, H is a conjugate transposition, L is the number of frames for which an average is obtained, and M is the number of microphones. As is clear from the equation (1), the direct ratio obtained by the conventional technique is a value calculated based on the average of the spatial correlation matrix of a predetermined number of frames. Therefore, as in the case of a moving sound source, the direct ratio that changes from moment to moment cannot be accurately estimated.

この発明の考えは、時間平均をする前の空間相関行列を用いる点で新しい。その空間相関行列の各成分は、式(3)に示すように瞬時(任意の1フレーム)の周波数領域の信号を用いる。ただし式(3)において[]ijは、行列のi行目、j列目の成分を示す。 The idea of the present invention is new in that a spatial correlation matrix before time averaging is used. As each component of the spatial correlation matrix, an instantaneous (arbitrary one frame) frequency domain signal is used as shown in Expression (3). However, in formula (3), [] ij represents a component of the i-th row and j-th column of the matrix.

Figure 0005826465
Figure 0005826465

この発明は、マイクロホンアレーとして、図4に示すような、例えば間隔dを空けて配置される2個のマイクロホンから成る小マイクロホンアレーを平行移動した位置に、別の小マイクロホンアレーが配置されるように、複数のマイクロホンで構成されるマイクロホンアレー40を用いる。そして、その小マイクロホンアレー毎(40a〜40g)に求めた空間相関行列の和または平均で求まる小空間相関行列を元に直間比を推定する。ここで小マイクロホンアレー毎に求めた空間相関行列の和または平均を求めることは、従来技術において必要であった空間相関行列の複数フレームの平均処理に対応する。すなわち本発明による方法では、複数フレームの平均処理を行う必要がなく、空間相関行列を瞬時に求めることが可能になる。   In the present invention, as the microphone array, as shown in FIG. 4, for example, another small microphone array is arranged at a position obtained by translating a small microphone array composed of two microphones arranged with an interval d therebetween. In addition, a microphone array 40 including a plurality of microphones is used. Then, the direct ratio is estimated based on the small spatial correlation matrix obtained by the sum or average of the spatial correlation matrices obtained for each small microphone array (40a to 40g). Here, obtaining the sum or average of the spatial correlation matrices obtained for each small microphone array corresponds to the average processing of a plurality of frames of the spatial correlation matrix required in the prior art. That is, in the method according to the present invention, it is not necessary to perform an average process for a plurality of frames, and a spatial correlation matrix can be obtained instantaneously.

図5に、この発明の瞬時直間比推定装置100の機能構成例を示す。その動作フローを図6に示す。瞬時直間比推定装置100は、マイクロホンアレー41と、複数の周波数領域変換部421〜42Mと、空間相関行列算出部43と、固定値展開部44と、固定値算出部45と、を具備する。空間相関行列算出部43と固定値展開部44と固定値算出部45とで直間比推定部50を構成する。瞬時直間比推定装置100の各部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。 FIG. 5 shows a functional configuration example of the instantaneous direct ratio estimation apparatus 100 of the present invention. The operation flow is shown in FIG. The instantaneous direct ratio estimation apparatus 100 includes a microphone array 41, a plurality of frequency domain conversion units 42 1 to 42 M , a spatial correlation matrix calculation unit 43, a fixed value expansion unit 44, and a fixed value calculation unit 45. It has. The spatial correlation matrix calculation unit 43, the fixed value expansion unit 44, and the fixed value calculation unit 45 constitute a direct ratio estimation unit 50. Each unit of the instantaneous direct ratio estimation apparatus 100 is realized by a predetermined program being read into a computer including, for example, a ROM, a RAM, a CPU, and the like, and the CPU executing the program.

マイクロホンアレー41は、少数のマイクロホンから成る小マイクロホンアレー41の平行移動で重なる位置の41,41,…,41M-1,41Mに設けられる複数のマイクロホンm1〜mMで構成される。複数の周波数領域変換部421〜42Mのそれぞれには、マイクロホンアレー41を構成する複数のマイクロホンm1〜mMで受音された受音信号が入力される。 The microphone array 41 includes a plurality of microphones m 1 to m M provided at positions 41 b , 41 c ,..., 41 M−1 , 41 M that are overlapped by parallel movement of a small microphone array 41 a composed of a small number of microphones. Is done. Each of the plurality of frequency domain transform unit 42 1 through 42 M, the received sound signals received sound by a plurality of microphones m 1 ~m M constituting the microphone array 41 is input.

複数の周波数領域変換部421,…,42Mは、複数のマイクロホンm1,…mMで受音された受音信号xm(n)を周波数領域の信号に変換する(ステップS42)。周波数領域変換部421,…,42Mは、受音信号xm(n)を、例えばサンプリング周波数16kHzでサンプリングしてディジタル信号に変換し、例えば256個のサンプルを1フレームとして、それぞれのフレームにおいて離散フーリエ変換を行い周波数成分Xm(ω,l)を出力する(ステップS42)。ωは周波数、lはフレーム番号である。なお、受音信号xm(n)をディジタル信号に変換するA/D変換器は省略している。 A plurality of frequency domain transform section 42 1, ..., 42 M converts a plurality of microphones m 1, ... received sound signals are received sound in m M x m (n) to a frequency domain signal (step S42). The frequency domain converters 42 1 ,..., 42 M sample the received sound signal x m (n), for example, at a sampling frequency of 16 kHz and convert it into a digital signal, for example, 256 samples as one frame. In Step S42, discrete Fourier transform is performed to output a frequency component X m (ω, l) (step S42). ω is a frequency, and l is a frame number. An A / D converter that converts the received sound signal x m (n) into a digital signal is omitted.

空間相関行列算出部43は、複数の周波数領域変換部421,…,42Mが出力する周波数領域の信号X1(ω,l),…,XM(ω,l)を入力として、その周波数領域の信号を使い小マイクロホンアレー毎41〜41Mに求めた空間相関行列の和で求まる小空間相関行列R′(ω,l)を算出する(式(4)、ステップS43)。 Spatial correlation matrix calculating section 43, a plurality of frequency domain transform section 42 1, ..., 42 signal X 1 in the frequency domain M is output (ω, l), ..., X M (ω, l) as input, the A small spatial correlation matrix R ′ (ω, l) obtained from the sum of the spatial correlation matrices obtained for each small microphone array 41 a to 41 M is calculated using the frequency domain signal (equation (4), step S43).

Figure 0005826465
Figure 0005826465

但し、R′(ω,l)の各要素であるRij(ω,l)は式(3)に定義される値、すなわち式(5)に示す行列の各要素である。 However, R ij (ω, l) which is each element of R ′ (ω, l) is a value defined in Expression (3), that is, each element of the matrix shown in Expression (5).

Figure 0005826465
Figure 0005826465

小空間相関行列R′(ω,l)は、固有値展開部44に入力される。固有値展開部44は、小空間相関行列R′(ω,l)を固有値展開して固有値λm(ω,l)と固有ベクトルvm(ω,l)に分解(式(6))し、固有値λm(ω,l)を固有値分布算出部45に出力する(固定値展開ステップ)。 The small space correlation matrix R ′ (ω, l) is input to the eigenvalue expansion unit 44. The eigenvalue expansion unit 44 expands the small space correlation matrix R ′ (ω, l) into eigenvalues and decomposes them into eigenvalues λm (ω, l) and eigenvectors v m (ω, l) (equation (6)), and eigenvalues λ m (ω, l) is output to the eigenvalue distribution calculation unit 45 (fixed value expansion step).

Figure 0005826465
Figure 0005826465

ここでvH m(ω,l)は、固有ベクトルvm(ω,l)のエルミート転置である。また、固有値λm(ω,l)は、昇順(λ1(ω,l)<λ2(ω,l)<…<λM(ω,l))に並べられているものとする。 Here, v H m (ω, l) is a Hermitian transpose of the eigenvector v m (ω, l). Further, it is assumed that the eigenvalues λ m (ω, l) are arranged in ascending order (λ 1 (ω, l) <λ 2 (ω, l) <... <Λ M (ω, l)).

固有値分布算出部45は、固有値λm(ω,l)の分布の割合を数値化して、直間比相当値EF(ω,l)を出力する(固有値分布算出ステップ)。この数値化は、例えば式(7)に示すように最大固有値λM(ω,l)の全体(固有値の総和)に対する割合や式(8)に示すエントロピー等が用いられる。 The eigenvalue distribution calculation unit 45 quantifies the distribution ratio of the eigenvalue λ m (ω, l) and outputs a direct ratio equivalent value E F (ω, l) (eigenvalue distribution calculation step). For this digitization, for example, the ratio of the maximum eigenvalue λ M (ω, l) to the whole (the sum of eigenvalues) as shown in Expression (7), the entropy shown in Expression (8), or the like is used.

Figure 0005826465
Figure 0005826465

式(4)と式(5)は、図5に示すように隣接するマイクロホンを2個ずつの小マイクロホンアレーとして移動した場合の空間相関行列の和または平均で求まる小空間相関行列を算出する。つまり、隣接するマイクロホンを2個ずつ括った小マイクロホンアレーを移動(41a→41b→ … →41M-1→41M)して空間相関行列の和または平均を求める。マイクロホンをM個に一般化した式は後述する。 Equations (4) and (5) calculate a small spatial correlation matrix obtained by the sum or average of the spatial correlation matrices when adjacent microphones are moved as two small microphone arrays as shown in FIG. That is, a small microphone array including two adjacent microphones is moved (41a → 41b →... → 41 M−1 → 41 M ) to obtain the sum or average of the spatial correlation matrix. A formula that generalizes M microphones will be described later.

この瞬時直間比推定装置100は、雑音除去装置に利用することができる。図7に、瞬時直間比推定装置100を含む雑音除去装置200の機能構成例を示す。その動作フローを図8に示す。   This instantaneous direct ratio estimation apparatus 100 can be used for a noise removal apparatus. FIG. 7 shows a functional configuration example of the noise removal apparatus 200 including the instantaneous direct ratio estimation apparatus 100. The operation flow is shown in FIG.

雑音除去装置200は、上記した瞬時直間比推定装置100と、処理対象信号生成部46と、対象信号調整部47と、逆周波数領域変換部48と、を具備する。マイクロホンアレー41を除く各機能構成部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
処理対象信号生成部46は、複数の周波数領域変換部421,…,42Mが出力する周波数領域の信号Xm(ω,l)を合成して処理対象信号Y(ω,l)を生成する(ステップS46)。
The noise removal apparatus 200 includes the above-described instantaneous direct ratio estimation apparatus 100, a processing target signal generation unit 46, a target signal adjustment unit 47, and an inverse frequency domain conversion unit 48. Each functional configuration unit excluding the microphone array 41 is realized by a predetermined program being read into a computer including, for example, a ROM, a RAM, and a CPU, and the CPU executing the program.
Processing signal generating unit 46, a plurality of frequency domain transform section 42 1, ..., generates a 42 M signals X m of frequency domain output (omega, l) synthesizing the processing object signal Y (ω, l) (Step S46).

直間比推定部50は、複数の周波数領域変換部421,…,42mが出力する周波数領域の信号Xm(ω,l)を入力として受音信号の直間比に相当する直間比相当値EF(ω,l)を推定する(ステップS50)。
対象信号調整部47は、処理対象信号Y(ω,l)と、直間比相当値EF(ω,l)を入力としてその値に応じて処理対象信号Y(ω,l)の振幅を調整した処理後信号Z(ω,l)を生成する(ステップS47)。
The direct ratio estimation unit 50 receives the frequency domain signal X m (ω, l) output from the plurality of frequency domain transform units 42 1 ,..., 42 m as an input and corresponds to the direct ratio corresponding to the direct ratio of the received sound signal. A ratio equivalent value E F (ω, l) is estimated (step S50).
The target signal adjustment unit 47 receives the processing target signal Y (ω, l) and the direct ratio equivalent value E F (ω, l) as input, and determines the amplitude of the processing target signal Y (ω, l) according to the values. The adjusted post-processing signal Z (ω, l) is generated (step S47).

逆周波数領域変換部48は、処理後信号Z(ω,l)を時間領域の信号z(n)に変換する(ステップS48)。ステップS41〜ステップS48までの動作は、全ての受音信号xm(n)が終了するまで継続される。 The inverse frequency domain transform unit 48 transforms the processed signal Z (ω, l) into a time domain signal z (n) (step S48). The operations from step S41 to step S48 are continued until all sound reception signals x m (n) are completed.

ここで、直間比相当値EF(ω,l)の値に応じて調整とは、EF(ω,l)の閾値処理や、その値が大きいほど処理後信号Z(ω,l)の振幅を大きくする処理や、その値が大きいほど処理後信号Z(ω,l)の振幅を小さくする等の処理を含む。詳しくは後述する。 Here, adjustment according to the value of the direct ratio equivalent value E F (ω, l) is the threshold processing of E F (ω, l) or the processed signal Z (ω, l) as the value increases. Includes a process of increasing the amplitude of the signal Z, and a process of decreasing the amplitude of the processed signal Z (ω, l) as the value increases. Details will be described later.

以上の動作により、1個のマイクロホンアレーによって、例えば、特定の距離範囲にある音だけを強調し、その範囲外の音は抑圧して収音する雑音除去が行われる。以降、各部のより具体的な機能構成例を示して更に詳しくこの発明を説明する。   With the above operation, noise removal is performed by, for example, emphasizing only sounds within a specific distance range and suppressing and collecting sounds outside the range by one microphone array. Hereinafter, the present invention will be described in more detail by showing more specific functional configuration examples of the respective units.

〔処理対象信号生成部〕
図9に処理対象信号生成部46のより具体的な機能構成例を示す。処理対象信号生成部46は、複数の重み乗算手段4611〜461Mと、加算手段462を備える。複数の重み乗算手段4611〜461Mは、M個のマイクロホンで受音した複数の受音信号xm(n)の、それぞれの周波数成分X1(ω,l),…,XM(ω,l)に重み係数wm(ω)を乗ずる。
[Processing signal generator]
FIG. 9 shows a more specific functional configuration example of the processing target signal generation unit 46. The processing target signal generation unit 46 includes a plurality of weight multiplication units 461 1 to 461 M and an addition unit 462. The plurality of weight multiplying means 461 1 to 461 M are respectively frequency components X 1 (ω, l),..., X M (ω) of a plurality of received signals x m (n) received by M microphones. , L) is multiplied by a weighting factor w m (ω).

重み乗算手段4611〜461Mで使用する重みには、例えばM個のマイクロホンが無指向性の場合にはwm=1/Mとすることで全ての周波数成分X1(ω,l),…,XM(ω,l)の平均を取ることで、処理対象信号Y(ω,l)を安定化させる。また、M個のマイクロホンが指向性を持つ場合には、w1=1,wm=0(m={2,…,M})とすることで、特定のマイクロホンの信号だけを使用することができる。例えば、参考文献「大賀、山崎、金田著、“音響システムとディジタル信号処理”電子情報通信学会発行」に記載されているような方法を利用して、重みビームフォーミングのフィルタ係数を使用すれば、マイクロホンアレーで任意の指向性を形成することもできる。 For the weights used in the weight multiplication means 461 1 to 461 M , for example, when M microphones are omnidirectional, w m = 1 / M so that all frequency components X 1 (ω, l), .., X M (ω, l) is averaged to stabilize the processing target signal Y (ω, l). Also, when M microphones have directivity, use only a specific microphone signal by setting w 1 = 1, w m = 0 (m = {2,..., M}). Can do. For example, using a method such as that described in the reference “Oga, Yamazaki, Kanada,“ Sound System and Digital Signal Processing ”published by the Institute of Electronics, Information and Communication Engineers”, using filter coefficients for weighted beamforming, Arbitrary directivity can be formed with a microphone array.

加算手段432は、重みが乗ぜられた全ての周波数成分X1(ω,l),…,XM(ω,l)を加算して処理対象信号Y(ω,l)を出力する。 The adding means 432 adds all the frequency components X 1 (ω, l),..., X M (ω, l) multiplied by the weights and outputs the processing target signal Y (ω, l).

〔対象信号調整部〕
対象信号調整部47は、例えば、フィルタ係数算出手段471と、乗算手段472とで構成できる(図7)。フィルタ係数算出手段471は、直間比相当値EF(ω,l)を入力としてフィルタ係数G(ω,l)を算出して出力する。フィルタ係数G(ω,l)の算出には、例えば式(9)に示すように閾値を用いた2値のフィルタなどが用いられる。
[Target signal adjustment section]
The target signal adjustment unit 47 can be configured by, for example, a filter coefficient calculation unit 471 and a multiplication unit 472 (FIG. 7). The filter coefficient calculation means 471 calculates and outputs the filter coefficient G (ω, l) with the direct ratio equivalent value E F (ω, l) as an input. For the calculation of the filter coefficient G (ω, l), for example, a binary filter using a threshold as shown in Expression (9) is used.

Figure 0005826465
Figure 0005826465

なお、閾値Thは、直間比相当値EF(ω,l)の最小値と最大値の間の任意の値が設定できる。閾値Thを最小値(0)に近づけると音質は向上する。逆に閾値Thを最大値に近づけると雑音抑圧効果は高めるが受音信号の歪みが大きくなり音質が劣化する。 The threshold Th can be set to any value between the minimum value and the maximum value of the direct ratio equivalent value E F (ω, l). The sound quality is improved when the threshold Th is brought close to the minimum value (0). On the contrary, when the threshold value Th is brought close to the maximum value, the noise suppression effect is enhanced, but the distortion of the received sound signal is increased and the sound quality is deteriorated.

このように閾値Thは、音質と雑音抑圧との関係でトレードオフの関係を持つ。よって、閾値Thは、このトレードオフの関係を考慮した上で、利用目的に応じて経験的に決定される。   Thus, the threshold Th has a trade-off relationship between the sound quality and the noise suppression. Therefore, the threshold Th is determined empirically in accordance with the purpose of use in consideration of this trade-off relationship.

また、フィルタ係数G(ω,l)の算出に際して式(10)に示すように、直間比相当値EFが閾値Th2を下回る時間周波数帯域を強調するようにすれば、特定の距離範囲より遠くの音源を強調することができる。 The filter coefficients G (omega, l) as shown in equation (10) when calculating the, if to emphasize time-frequency band Chokkan ratio equivalent value E F is less than the threshold value Th 2, the specific distance range Distant sound sources can be emphasized.

Figure 0005826465
Figure 0005826465

なお、フィルタ係数G(ω,l)の例として0か1の2値のフィルタを挙げたが、フィルタ係数G(ω,l)は必ずしも0と1である必要はなく、例えば、0.1と0.9のように十分異なる値であれば良い。   In addition, although the binary filter of 0 or 1 was mentioned as an example of filter coefficient G ((omega), l), filter coefficient G ((omega), l) does not necessarily need to be 0 and 1, for example, 0.1 And a sufficiently different value such as 0.9.

また、フィルタ係数G(ω,l)には、1以上の実数を設定するようにしても良い。つまり、処理対象信号Y(ω,l)を増幅するようにしても良い。また、0.1以下の値に設定して処理対象信号Y(ω,l)を大きく抑圧するようにしても良い。   Further, a real number of 1 or more may be set for the filter coefficient G (ω, l). That is, the processing target signal Y (ω, l) may be amplified. Alternatively, the processing target signal Y (ω, l) may be greatly suppressed by setting the value to 0.1 or less.

このようにして求めたフィルタ係数G(ω,l)が、乗算手段472において、処理対象信号Y(ω,l)に乗じて処理後信号Z(ω,l)=G(ω,l)・Y(ω,l)が生成される。よって、処理後信号Z(ω,l)を、直間比相当値EF(ω,l)の大きな処理対象信号Y(ω,l)のみで構成することができる。つまり、直接音のみを抽出することができる。 The multiplication coefficient 472 multiplies the processing target signal Y (ω, l) by the filter coefficient G (ω, l) obtained in this way, and the processed signal Z (ω, l) = G (ω, l) · Y (ω, l) is generated. Therefore, the post-processing signal Z (ω, l) can be configured only with the processing target signal Y (ω, l) having a large direct ratio equivalent value E F (ω, l). That is, only the direct sound can be extracted.

図10にこの発明の雑音除去装置300の機能構成例を示す。雑音除去装置300は、上記した雑音除去装置200に対して、処理対象信号生成部83と、直間比推定部84の動作が異なる。   FIG. 10 shows a functional configuration example of the noise removal apparatus 300 of the present invention. The noise removal apparatus 300 differs from the noise removal apparatus 200 described above in the operations of the processing target signal generation unit 83 and the direct ratio estimation unit 84.

図11に直間比推定部84の機能構成例を示す。直間比推定部84は、固有値展開手段842が、最大の固有値λM(ω,l)に対応する固有ベクトルvL(ω,l)を出力する点が直間比推定部50(図5)と異なる。その固有ベクトルvL(ω,l)は処理対象信号生成部83に入力される。 FIG. 11 shows a functional configuration example of the direct ratio estimation unit 84. The direct ratio estimator 84 is such that the eigenvalue expansion means 842 outputs the eigenvector v L (ω, l) corresponding to the maximum eigenvalue λ M (ω, l). And different. The eigenvector v L (ω, l) is input to the processing target signal generation unit 83.

図12に処理対象信号生成部83の機能構成例を示す。処理対象信号生成部83は、固有ベクトルvL(ω,l)を重み乗算部8311〜831Mの重みとして用いる点で、処理対象信号生成部46と異なる。 FIG. 12 shows a functional configuration example of the processing target signal generation unit 83. The processing target signal generation unit 83 is different from the processing target signal generation unit 46 in that the eigenvector v L (ω, l) is used as a weight of the weight multiplication units 831 1 to 831 M.

マイクロホンアレー41を構成するマイクロホンの数、M個に対応する数の固有ベクトルが、それぞれ重み乗算部8311〜831Mの重みとして用いられる。つまり、m番目のマイクロホンの重みwm(ω)には、固有ベクトルvL(ω,l)のm番目の成分vL,m(ω,l)が用いられる。 The number of microphones constituting the microphone array 41 and the number of eigenvectors corresponding to M are used as the weights of the weight multipliers 831 1 to 831 M , respectively. That is, the m-th component v L, m (ω, l) of the eigenvector v L (ω, l) is used as the weight w m (ω) of the m-th microphone.

最大の固有値λM(ω,l)に対応する固有ベクトルvL(ω,l)は、直接音を強調するビームフォーミングの重みとして機能することが知られている。従って、雑音除去装置300は、雑音除去装置200よりも雑音除去性能を向上させることが可能である。 It is known that the eigenvector v L (ω, l) corresponding to the maximum eigenvalue λ M (ω, l) functions as a beamforming weight that enhances the direct sound. Therefore, the noise removal device 300 can improve the noise removal performance as compared with the noise removal device 200.

実施例3として、真の直間比ER(l)を求める瞬時直間比推定装置400を説明する。図13に瞬時直間比推定装置400の機能構成例を示す。瞬時直間比推定装置400は、直間比推定部85の信号パワー推定部44と直間比算出部45とが、瞬時直間比推定装置100のものと異なる。 As the third embodiment, an instantaneous direct ratio estimation apparatus 400 that calculates the true direct ratio E R (l) will be described. FIG. 13 shows a functional configuration example of the instantaneous direct ratio estimation apparatus 400. In the instantaneous direct ratio estimation device 400, the signal power estimation unit 44 and the direct ratio calculation unit 45 of the direct ratio estimation unit 85 are different from those of the instantaneous direct ratio estimation device 100.

信号パワー推定部44は、空間相関行列算出部43が出力する小空間相関行列R′(ω,l)の各成分R′i,j(ω,l)と、予め与えられているマイクロホンアレーのマイクロホン配置と、音源の方向より与えられる行列Rd(ω)(式(11))と、行列Rr(ω)(式(12))の各行列のi行目、j列目の成分、di,j(ω)と、ri,j(ω)より、それぞれ構成される式(13)に示す行列A(ω)と、式(14)に示すB(ω,l)を用いる。ここで、小空間相関行列R′(ω,l)とは、小マイクロホンアレー毎に求めた空間相関行列の和または平均で求まる行列である(式(4))。 The signal power estimation unit 44 includes components R ′ i, j (ω, l) of the small spatial correlation matrix R ′ (ω, l) output from the spatial correlation matrix calculation unit 43 and a microphone array given in advance. The components of the i-th row and j-th column of each matrix of the matrix R d (ω) (formula (11)) and matrix R r (ω) (formula (12)) given by the microphone arrangement and the direction of the sound source; From d i, j (ω) and r i, j (ω), a matrix A (ω) shown in Equation (13) and B (ω, l) shown in Equation (14) are used. Here, the small spatial correlation matrix R ′ (ω, l) is a matrix obtained by the sum or average of the spatial correlation matrices obtained for each small microphone array (formula (4)).

Figure 0005826465
Figure 0005826465

Figure 0005826465
Figure 0005826465

但し、B(ω,l)の各成分であるR11′(ω,l),R12′(ω,l),R21′(ω,l),R22′(ω,l)は、式(4)に示すR′(ω,l)の各要素である。 However, R 11 ′ (ω, l), R 12 ′ (ω, l), R 21 ′ (ω, l), R 22 ′ (ω, l), which are the components of B (ω, l), Each element of R ′ (ω, l) shown in Formula (4).

上記した式(4)と式(5)は、隣接するマイクロホンを2個ずつの小マイクロホンアレーとした場合の、それぞれの小マイクロホンアレーで求められる空間相関行列の和または平均である小空間相関行列を算出するものである。またより一般的な表現として、1つの小マイクロホンアレーを構成するマイクロホンの数をM′個とすると、式(13)は式(15)、式(14)は式(16)、式(4)は式(17)で表せる。   Equations (4) and (5) above represent the small spatial correlation matrix that is the sum or the average of the spatial correlation matrices obtained from each small microphone array when two adjacent microphones are used as the small microphone array. Is calculated. As a more general expression, when the number of microphones constituting one small microphone array is M ′, Expression (13) is Expression (15), Expression (14) is Expression (16), Expression (4). Can be expressed by equation (17).

Figure 0005826465
Figure 0005826465

そして、式(18)に示す連立方程式を立て、これを解くことで直接音のパワーPd(ω,l)と残響音のパワーPr(ω,l)で構成されるベクトルP(ω,l)(式(19))を求め、直接音パワーPd(ω,l)と残響音パワーPr(ω,l)を出力する。 Then, a simultaneous equation shown in the equation (18) is set up and solved to solve the vector P (ω, l) composed of the direct sound power P d (ω, l) and the reverberant power P r (ω, l). l) (Expression (19)) is obtained, and direct sound power P d (ω, l) and reverberant power P r (ω, l) are output.

Figure 0005826465
Figure 0005826465

なお、マイクロホンアレー41の配置が直線以外の配置の場合の行列Rd(ω)は、より一般的な式(20)に示す形式で表せる。 Note that the matrix R d (ω) in the case where the arrangement of the microphone array 41 is an arrangement other than a straight line can be expressed in the form shown in the more general expression (20).

Figure 0005826465
Figure 0005826465

ここでDmn(θ) ̄は、角度θ°方向から見たときのm番目のマイクロホンとn番目のマイクロホンの距離差を表す。また、式(18)の連立方程式の解の導出は、例えば式(22)に示すようにA(ω)の擬似逆行列A(ω)(式(21))を、B(ω,l)の左から掛ける方法で行われる。 Here, D mn (θ)  ̄ represents a distance difference between the m-th microphone and the n-th microphone when viewed from the direction of the angle θ °. Further, the derivation of the solution of the simultaneous equations of Expression (18) is performed by, for example, converting the pseudo inverse matrix A + (ω) (Expression (21)) of A (ω) to B (ω, l as shown in Expression (22). ) From the left side.

Figure 0005826465
Figure 0005826465

直間比算出部45は、直接音パワーPd(ω,l)と残響音パワーPr(ω,l)より、式(23)によって直間比ER(l)を算出して出力する。 The direct ratio calculation unit 45 calculates the direct ratio E R (l) from the direct sound power P d (ω, l) and the reverberation sound power P r (ω, l) according to the equation (23) and outputs it. .

Figure 0005826465
Figure 0005826465

この実施例3の方法は、直接的に直間比を求めるので、正確な直間比の推定が可能である。   In the method of the third embodiment, since the direct ratio is directly obtained, it is possible to accurately estimate the direct ratio.

この発明の実施例4として、実施例1で述べた直間比相当値EF(ω,l)又は実施例3で述べた直間比ER(l)を用いて音源の遠近を判定する遠近判定装置120を説明する。図14に遠近判定装置500の機能構成例を示す。遠近判定装置500は、直間比推定装置100と、遠近判定部121と、を備える。マイクロホンアレー41と、複数の周波数領域変換部421〜42Mと、直間比推定部44とは、雑音除去装置300のものと同じである。遠近判定装置500も、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現される。 As the fourth embodiment of the present invention, the perspective of the sound source is determined using the direct ratio equivalent value E F (ω, l) described in the first embodiment or the direct ratio E R (l) described in the third embodiment. The perspective determination device 120 will be described. FIG. 14 shows a functional configuration example of the perspective determination device 500. The perspective determination device 500 includes a direct ratio estimation device 100 and a perspective determination unit 121. The microphone array 41, the plurality of frequency domain conversion units 42 1 to 42 M, and the direct ratio estimation unit 44 are the same as those of the noise removal apparatus 300. The perspective determination device 500 is also realized by a predetermined program being read into a computer constituted by, for example, a ROM, a RAM, and a CPU, and the CPU executing the program.

遠近判定装置500は、複数の異なる距離にある音源が異なる時刻に発音するときに、ある時刻に受音された音の音源が遠くにあるのか近くにあるのかを判定するものである。遠近判定装置500を構成する遠近判定部121は、周波数平均手段1210と、蓄積手段1211と、判定手段1212と、を備える。   The perspective determination device 500 determines whether a sound source of a sound received at a certain time is far or near when sound sources at a plurality of different distances sound at different times. The perspective determination unit 121 included in the perspective determination device 500 includes a frequency averaging unit 1210, an accumulation unit 1211, and a determination unit 1212.

周波数平均手段1210は、直間比相当値EF(ω,l)を入力として、直間比相当値EF(ω,l)を周波数方向に平均して周波数平均直間比相当値El ̄を出力する(式(24))。 The frequency averaging means 1210 receives the direct ratio equivalent value E F (ω, l) as an input and averages the direct ratio equivalent value E F (ω, l) in the frequency direction to obtain a frequency average direct ratio equivalent value E l.  ̄ is output (formula (24)).

Figure 0005826465
Figure 0005826465

周波数平均手段1210に、直間比ER(l)を入力した場合には、特に処理をせずそのまま出力する(図14の周波数平均手段1210をパスする破線)。 When the direct ratio E R (l) is input to the frequency averaging means 1210, it is output as it is without any particular processing (broken line passing through the frequency averaging means 1210 in FIG. 14).

ここで、Kは周波数領域変換部421〜42Mで行ったフーリエ変換の周波数ビンの総数である。なお、以降の説明は周波数平均直間比相当値El ̄を用いた例で説明する。周波
数平均直間比相当値El ̄を直間比ER(l)に置換えても遠近判定装置500の動作に変わりはない。
Here, K is the total number of frequency bins of the Fourier transform performed by the frequency domain transform units 42 1 to 42 M. In the following description, an example using the frequency average direct ratio equivalent value E l  ̄ will be described. Replacing the frequency average direct ratio equivalent value E lに with the direct ratio E R (l) does not change the operation of the perspective determination device 500 .

蓄積手段1211は、周波数平均直間比相当値El ̄を過去L時間フレーム分蓄積して、比較対象直間比相当値E^を出力する。比較対象直間比相当値E^には、例えば蓄積された周波数平均直間比相当値El ̄の平均値E^=1/LΣl Ll ̄や、最小値と最大値の平均値E^=1/2(maxEl ̄+minEl ̄)等が用いられる。 The accumulating unit 1211 accumulates the frequency average direct ratio equivalent value E l分 for the past L time frames and outputs the comparison target direct ratio equivalent value E ^. In comparison Chokkan ratio equivalent value E ^, for example stored frequency mean Chokkan ratio equivalent value E l ¯ of the average value E ^ = 1 / LΣ l L E l ¯ and the minimum and the average value of the maximum value E ^ = 1/2 (maxE l  ̄ + minE l  ̄) or the like is used.

判定手段1212は、周波数平均直間比相当値El ̄と、比較対象直間比相当値E^を比較して、El ̄>E^の時には遠近判定結果Ylに距離が近いことを表す例えば1を、El ̄<E^の時には遠近判定結果Ylに距離が遠いことを表す例えば0を出力する。この遠近判定結果Ylは、直近の過去L時間分の受音信号が、比較的近い音源からの音であるか、又は、比較的遠い音源からの音であるかを表すものである。 The determination unit 1212 compares the frequency average direct ratio equivalent value E l  ̄ with the comparison target direct ratio equivalent value E ^, and if E l  ̄> E ^, the distance is close to the perspective determination result Y l. For example, 1 is output, and when E l  ̄ <E ^, for example, 0 indicating that the distance is long is output to the perspective determination result Y l . The distance determination result Y l is nearest received sound signals of the past L time period is either a sound from relatively close sound source or those indicating which sounds from a relatively distant sound source.

この遠近判定結果Ylを用いることで、逐次入力される受音信号を、マイクロホンとその音源間との距離によって切り分けることが可能である。つまり、複数の音源の音を、マイクロホンからの距離に応じて選択することができる。 The distance determination result by using a Y l, the received sound signal inputted sequentially, it is possible to isolate the distance between the between the microphone and the sound source. That is, sounds from a plurality of sound sources can be selected according to the distance from the microphone.

図15にこの発明の音源距離測定装置600の機能構成例を示す。音源距離測定装置600は、瞬時直間比推定装置100と、距離−直間比データベース(以降、距離−直間比DBと称する)55と、距離判定部56と、を具備する。音源距離測定装置600のマイクロホンアレー41を除く各機能構成部は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。   FIG. 15 shows a functional configuration example of the sound source distance measuring apparatus 600 of the present invention. The sound source distance measuring device 600 includes an instantaneous direct ratio estimation device 100, a distance-direct ratio database (hereinafter referred to as a distance-direct ratio DB) 55, and a distance determination unit 56. Each functional configuration unit excluding the microphone array 41 of the sound source distance measuring apparatus 600 is realized by reading a predetermined program into a computer including, for example, a ROM, a RAM, and a CPU and executing the program by the CPU. Is.

瞬時直間比推定装置100は、実施例1および実施例3で説明済みの動作によって、受音信号の直間比相当値EFまたは直間比ERを推定する。距離−直間比DB56は、直間比相当値EFまたは直間比ERと、マイクロホンアレーと音源との距離との関係を記録している。距離判定部55は、直間比相当値または直間比を入力として距離−直間比DB56を参照してその直間比相当値または直間比と対応する音源距離推定値d^を推定する。 The instantaneous direct ratio estimation apparatus 100 estimates the direct ratio equivalent value E F or the direct ratio E R of the received sound signal by the operation described in the first and third embodiments. The distance-direct ratio DB 56 records the relationship between the direct ratio equivalent value E F or the direct ratio E R and the distance between the microphone array and the sound source. The distance determination unit 55 receives the direct ratio equivalent value or direct ratio and inputs the direct-to-direct ratio DB 56 and estimates the sound source distance estimated value d ^ corresponding to the direct ratio equivalent value or direct ratio. .

受音信号の中には、特定の周波数帯域に成分が集中しているものもある。そのような受音信号の直間比Eを、直間比算出部45(図13)で算出した場合、直間比Eの推定精度は劣化してしまう。   Some received signals have components concentrated in a specific frequency band. When the direct ratio E of such a sound reception signal is calculated by the direct ratio calculation unit 45 (FIG. 13), the estimation accuracy of the direct ratio E deteriorates.

そこで、式(25)に示すように、特定の周波数領域Ωにおける直間比Eを算出する直間比算出部45′(図13)を用いることで、直間比の推定精度を向上させることが出来る。   Therefore, as shown in the equation (25), by using the direct ratio calculation unit 45 ′ (FIG. 13) that calculates the direct ratio E in a specific frequency region Ω, the accuracy of the direct ratio is improved. I can do it.

Figure 0005826465
Figure 0005826465

ここで周波数領域Ωは、例えば信号成分の集中する周波数帯域を選択するなどして決定される。例えば、任意のm番目のマイクロホンに接続された周波数領域変換部42mの出力Xm(ω,l)のうち、式(26)に示す様にXm(ω,l)の絶対値が予め設定された閾値Pthより大きい値を持つ周波数ωを選んだり、Xm(ω,l)の絶対値が大きい方からK番目までの周波数ωを選ぶことで決定される。 Here, the frequency region Ω is determined, for example, by selecting a frequency band in which signal components are concentrated. For example, among the outputs X m (ω, l) of the frequency domain converter 42 m connected to an arbitrary m-th microphone, the absolute value of X m (ω, l) is preliminarily set as shown in Expression (26). It is determined by selecting the frequency ω having a value larger than the set threshold value P th or by selecting the frequency ω from the largest absolute value of X m (ω, l) to the Kth.

Figure 0005826465
Figure 0005826465

ここで、Pthは、例えば|Xm(ω,l)|の全周波数の平均値などが用いられる。 Here, P th is, for example | X m (ω, l) | of an average value of all the frequency used.

図16に、この発明の雑音除去装置700の機能構成例を示す。その動作フローを図17に示す。雑音除去装置700は、実施例3で述べた瞬時直間比推定装置400と、処理対象信号生成部72と、対象信号調整部73と、逆周波数領域変換部74と、を具備する。   FIG. 16 shows a functional configuration example of the noise removal apparatus 700 of the present invention. The operation flow is shown in FIG. The noise removal apparatus 700 includes the instantaneous direct ratio estimation apparatus 400 described in the third embodiment, a processing target signal generation unit 72, a target signal adjustment unit 73, and an inverse frequency domain conversion unit 74.

処理対象信号生成部72は、瞬時直間比推定装置00内の複数の周波数領域変換部421〜42Mが出力する周波数領域の信号Xm(ω,l)を入力として処理対象信号X(ω
,l)を出力する(ステップS72)。処理対象信号X(ω,l)は、周波数領域の信号Xm(ω,l)を例えば図示しない加算手段等で合成したものである。加算する前に、各
周波数領域の信号Xm(ω,l)に、重みを乗じる様にしても良い。
The processing target signal generation unit 72 receives the frequency domain signal X m (ω, l) output from the plurality of frequency domain conversion units 421 to 42 M in the instantaneous direct ratio estimation device 400 as an input. ω
, L) is output (step S72). The processing target signal X (ω, l) is a signal obtained by synthesizing the frequency domain signal X m (ω, l) with, for example, an adding means (not shown). Before the addition, the signal X m (ω, l) in each frequency domain may be multiplied by a weight.

対象信号調整部73は、瞬時直間比推定装置00が出力する直間比E R )と、処理対象信号生成部72が出力する処理対象信号X(ω,l)を入力として、処理対象信号X(ω,l)の振幅を調整した処理後信号Y(ω,l)を生成する(ステップS73)。逆周波数領域変換部74は、処理後信号Y(ω,l)を時間領域の信号y(n)に変換する(ステップS74)。 The target signal adjustment unit 73 receives the direct ratio E R ( l ) output from the instantaneous direct ratio estimation device 400 and the processing target signal X (ω, l) output from the processing target signal generation unit 72 as inputs. A post-processing signal Y (ω, l) in which the amplitude of the processing target signal X (ω, l) is adjusted is generated (step S73). The inverse frequency domain transform unit 74 transforms the processed signal Y (ω, l) into a time domain signal y (n) (step S74).

対象信号調整部73は、例えば、距離算出手段731、フィルタ形成手段732、乗算手段733、を備える。距離算出手段731は、マイクロホンアレー41と音源との間の距離と、直間比Eとの関係を示す関数式d=f(E)を内蔵し、入力される直間比Eに応じた音源距離推定値d^を算出する(距離算出ステップS731)。   The target signal adjustment unit 73 includes, for example, a distance calculation unit 731, a filter formation unit 732, and a multiplication unit 733. The distance calculation means 731 incorporates a function formula d = f (E) indicating the relationship between the distance between the microphone array 41 and the sound source and the direct ratio E, and the sound source corresponding to the input direct ratio E An estimated distance d ^ is calculated (distance calculation step S731).

フィルタ形成手段732は、式(27)に示すように、音源距離推定値d^が、2つの大きさが異なる閾値dfとdnの間の値を取る時間周波数成分を強調するように設定し、2つの距離区間内の帯状の領域にある音源だけを強調するフィルタを形成する。 Filter formation section 732, as shown in equation (27), set as the sound source distance estimate d ^ are two size to emphasize the temporal frequency components take values between different threshold d f and d n Then, a filter that emphasizes only the sound source in the band-like region within the two distance sections is formed.

Figure 0005826465
Figure 0005826465

ここで、G(ω,l)のlとωは、上記した直間比推定部85の処理の内、直間比算出部45′において平均を行った周波数Ω(式(25))に含まれる全ての周波数に対して、同じG(ω,l)が乗算される。また、式(27)においてG(ω,l)の値は必ずしも1と0である必要は無く、例えば、0.9と0.1のように十分大きさが異なる値でも良い。   Here, l and ω of G (ω, l) are included in the frequency Ω (formula (25)) obtained by averaging in the direct ratio calculation unit 45 ′ in the processing of the direct ratio estimation unit 85 described above. The same G (ω, l) is multiplied for all frequencies that are transmitted. In the equation (27), the value of G (ω, l) is not necessarily 1 and 0, and may be a sufficiently different value such as 0.9 and 0.1, for example.

乗算手段733は、処理対象信号X(ω,l)に、フィルタG(ω,l)を乗じて処理後信号Y(ω,l)を生成する。したがって、処理後信号Y(ω,l)は、2つの距離区間内、つまり、マイクロホンアレー41から特定の距離範囲に位置する音源の音声が、強調若しくは抑圧されたものとなる。この処理後信号Y(ω,l)は、逆周波数領域変換部74で時間領域の信号y(n)に変換される。   The multiplying unit 733 multiplies the processing target signal X (ω, l) by the filter G (ω, l) to generate a processed signal Y (ω, l). Therefore, the post-processing signal Y (ω, l) is obtained by enhancing or suppressing the sound of the sound source located in a specific distance range from the microphone array 41 in two distance sections. The post-process signal Y (ω, l) is converted into a time domain signal y (n) by the inverse frequency domain converter 74.

上記した実施例では、それぞれのマイクロホンに重畳する電気雑音を考慮していなかった。したがって、雑音レベルが大きい場合に直間比の推定精度が劣化することがある。図18に、雑音による直間比推定精度の劣化を防ぐことができる瞬時直間比推定装置400′の機能構成例を示す。瞬時直間比推定装置400′は、瞬時直間比推定装置400における信号パワー推定部44が、信号パワー推定部44′と成っている点のみが異なる。   In the above-described embodiment, electric noise superimposed on each microphone is not taken into consideration. Therefore, when the noise level is high, the estimation accuracy of the direct ratio may be deteriorated. FIG. 18 shows a functional configuration example of the instantaneous direct ratio estimation apparatus 400 ′ that can prevent the deterioration of the direct ratio estimation accuracy due to noise. The instantaneous direct ratio estimation apparatus 400 ′ is different only in that the signal power estimation unit 44 in the instantaneous direct ratio estimation apparatus 400 is formed of a signal power estimation unit 44 ′.

信号パワー推定部44′は、空間相関行列算出部43が出力する小空間相関行列R′(ω,l)の各成分R′i,j(ω,l)と、予め与えられているマイクロホンアレーのマイクロホン配置と、音源の方向より与えられる行列Rd(ω)(式(11))と、行列Rr(ω)(式(12))と行列Rn(ω)(式(28))の各成分、di,j(ω)と、ri,j(ω)と、ni,j(ω)より、それぞれ構成される式(29)に示す行列A(ω)を用いる点が、信号パワー推定部44と異なる。ただし行列Rn(ω)は、小マイクロホンアレーのマイクロホン数と等しい大きさを持つ単位行列である。 The signal power estimator 44 'includes each component R' i, j (ω, l) of the small spatial correlation matrix R '(ω, l) output from the spatial correlation matrix calculator 43 and a microphone array given in advance. , The matrix R d (ω) (formula (11)) given by the direction of the sound source, the matrix R r (ω) (formula (12)), and the matrix R n (ω) (formula (28)) The point of using the matrix A (ω) shown in Expression (29), which is composed of each component, d i, j (ω), r i, j (ω), and n i, j (ω). , Different from the signal power estimation unit 44. However, the matrix R n (ω) is a unit matrix having a size equal to the number of microphones of the small microphone array.

Figure 0005826465
Figure 0005826465

Figure 0005826465
Figure 0005826465

そして、B(ω,l)に式(14)を用い式(30)に示す連立方程式を立て、これを解くことで直接音のパワーPd(ω,l)と残響音のパワーPr(ω,l)と雑音のパワーP(ω,l)で構成されるベクトルP(ω,l)(式(31))を求め、直接音パワーPd(ω,l)と残響音パワーPr(ω,l)を出力する。式(23)と同様に、雑音のパワーを除いた直接音パワーPd(ω,l)と残響音パワーPr(ω,l)より直間比を求めるので、各マイクロホンに重畳する電気雑音の影響を受けない正確な直間比の推定が可能である。 Then, the simultaneous equation shown in the equation (30) is established by using the equation (14) for B (ω, l), and by solving this, the direct sound power P d (ω, l) and the reverberant power P r ( A vector P (ω, l) (formula (31)) composed of ω, l) and noise power P n (ω, l) is obtained, and direct sound power P d (ω, l) and reverberant power P r (ω, l) is output. Similarly to the equation (23), the direct ratio is obtained from the direct sound power P d (ω, l) excluding the noise power and the reverberant power P r (ω, l), so that the electric noise superimposed on each microphone is obtained. It is possible to accurately estimate the direct ratio without being affected by the above.

Figure 0005826465
Figure 0005826465

なお、式(29)および上記した式(14)は、図13に示すように隣接するマイクロホンを2個ずつの小アレーとして求めた空間相関行列の和または平均で求まる小空間相関行列を算出するものである。小マイクロホンアレーのマイクロホンの数をM′個とすると、式(29)は式(32)、式(14)は式(16)で表せる。また式(28)は大きさがM′×M′の単位行列となる。   It should be noted that Equation (29) and Equation (14) described above calculate a small spatial correlation matrix obtained by summing or averaging the spatial correlation matrices obtained by making adjacent microphones into two small arrays as shown in FIG. Is. When the number of microphones in the small microphone array is M ′, Expression (29) can be expressed by Expression (32), and Expression (14) can be expressed by Expression (16). Equation (28) is a unit matrix of size M ′ × M ′.

Figure 0005826465
Figure 0005826465

なお、この瞬時直間比推定装置400′は、説明済みの雑音除去装置200,300,700、遠近判定装置500、音源距離推定装置600の、それぞれの瞬時直間比推定装置100と置き換えることが可能である。置き換えた場合の各々の装置は、雑音のある環境下で且つ音源が移動しても正確な直間比を推定することが可能である。   It should be noted that this instantaneous direct ratio estimation apparatus 400 ′ can be replaced with the respective instantaneous direct ratio estimation apparatuses 100 of the noise elimination apparatuses 200, 300, 700, the perspective determination apparatus 500, and the sound source distance estimation apparatus 600 that have already been described. Is possible. Each device in the case of replacement can estimate an accurate direct ratio even when the sound source moves in a noisy environment.

また、少数のマイクロホンから成る小マイクロホンアレーを構成するマイクロホンの数を2個の例で説明したが、その数はいくつでも良く、そのマイクロホンの配置も等間隔に直線配置されたリニアアレーに限定されない。マイクロホンの数は、図19(a)に示すように3個でも良い。3個の●が小マイクロホンアレーを示し、その平行移動で重なる位置を○で表す。また、図19(b)に示すようにマイクロホンを立体的に配置しても良い。要するに、一定規則で配列された少数のマイクロホンから成る小マイクロホンアレーの平行移動で重なる位置に、別の小マイクロホンアレーが配置されるように複数のマイクロホンが設けられるマイクロホンアレーであれば何でも良い。   In addition, although the number of microphones constituting a small microphone array including a small number of microphones has been described with two examples, the number of microphones may be any number, and the arrangement of the microphones is not limited to a linear array arranged linearly at equal intervals. The number of microphones may be three as shown in FIG. Three black circles indicate small microphone arrays, and the overlapping positions are indicated by ◯. Further, as shown in FIG. 19B, the microphones may be arranged three-dimensionally. In short, any microphone array may be used as long as a plurality of microphones are provided so that another small microphone array is arranged at a position overlapping by parallel movement of a small microphone array composed of a small number of microphones arranged in a regular rule.

なお、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Note that the processes described in the above method and apparatus are not only executed in time series according to the order of description, but may also be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。   Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。   The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。   The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.

また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。   Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.

Claims (19)

少数のマイクロホンから成る小マイクロホンアレーの平行移動で重なる位置に設けられる複数のマイクロホンで構成されるマイクロホンアレーと、
上記マイクロホンアレーで受音された受音信号がそれぞれ入力され、上記受音信号を周波数領域の信号に変換する複数の周波数領域変換部と、
上記複数の周波数領域変換部の出力する周波数領域の信号を入力として、その周波数領域の信号を使い上記小マイクロホンアレー毎に求めた空間相関行列の和または平均で求まる小空間相関行列を算出する空間相関行列算出部と、
上記小空間相関行列を固有値展開して固有値と固有ベクトルに分解し、上記固有値を出力する固有値展開部と、
上記固有値の分布の割合を数値化して直間比相当値を出力する固有値分布算出部と
を具備する瞬時直間比推定装置。
A microphone array composed of a plurality of microphones provided at overlapping positions by translation of a small microphone array composed of a small number of microphones;
A plurality of frequency domain conversion units that receive the received sound signals received by the microphone array and convert the received sound signals into frequency domain signals;
A space for calculating a small spatial correlation matrix obtained by summing or averaging the spatial correlation matrices obtained for each of the small microphone arrays using the frequency domain signals output from the plurality of frequency domain transform units as inputs. A correlation matrix calculation unit;
An eigenvalue expansion unit that expands the small space correlation matrix into eigenvalues, decomposes them into eigenvalues and eigenvectors, and outputs the eigenvalues;
An instantaneous direct ratio estimation apparatus comprising: an eigenvalue distribution calculation unit that digitizes a distribution ratio of the eigenvalues and outputs a direct ratio equivalent value.
少数のマイクロホンから成る小マイクロホンアレーの平行移動で重なる位置に設けられる複数のマイクロホンで構成されるマイクロホンアレーと、
上記マイクロホンアレーで受音された受音信号がそれぞれ入力され、上記受音信号を周波数領域の信号に変換する複数の周波数領域変換部と、
上記複数の周波数領域変換部の出力する周波数領域の信号を入力として、その周波数領域の信号を使い上記小マイクロホンアレー毎に求めた空間相関行列の和または平均で求まる小空間相関行列を算出する空間相関行列算出部と、
予め与えられる上記マイクロホンの配置情報と、上記空間相関行列とから直接音のパワーと残響音のパワーと雑音のパワーとで構成されるベクトルを求め、そのベクトル要素の内の直接音のパワーと残響音のパワーを出力する信号パワー推定部と、
上記直接音のパワーを上記残響音のパワーで除した直間比を算出する直間比算出部と、
を具備する瞬時直間比推定装置。
A microphone array composed of a plurality of microphones provided at overlapping positions by translation of a small microphone array composed of a small number of microphones;
A plurality of frequency domain conversion units that receive the received sound signals received by the microphone array and convert the received sound signals into frequency domain signals;
A space for calculating a small spatial correlation matrix obtained by summing or averaging the spatial correlation matrices obtained for each of the small microphone arrays using the frequency domain signals output from the plurality of frequency domain transform units as inputs. A correlation matrix calculation unit;
A vector composed of direct sound power, reverberant sound power and noise power is obtained from the microphone arrangement information given in advance and the spatial correlation matrix, and the direct sound power and reverberation among the vector elements are obtained. A signal power estimator that outputs the power of the sound;
A direct ratio calculation unit for calculating a direct ratio obtained by dividing the power of the direct sound by the power of the reverberant sound;
An instantaneous direct ratio estimation apparatus comprising:
請求項1に記載した瞬時直間比推定装置を含む雑音除去装置であって、
上記複数の周波数領域変換部の出力する周波数領域の信号を合成して処理対象信号を生成する処理対象信号生成部と、
上記直間比相当値が大きいほど上記処理対象信号の振幅を大きく調整した処理後信号を生成する対象信号調整部と、
上記処理後信号を時間領域の信号に変換する逆周波数領域変換部と、
を具備する雑音除去装置。
A noise removal device including the instantaneous direct ratio estimation device according to claim 1,
A processing target signal generation unit that generates a processing target signal by combining frequency domain signals output from the plurality of frequency domain conversion units;
A target signal adjusting unit that generates a post-processing signal in which the amplitude of the processing target signal is largely adjusted as the direct ratio equivalent value is large;
An inverse frequency domain transform unit for transforming the processed signal into a time domain signal;
A noise removal apparatus comprising:
請求項1に記載した瞬時直間比推定装置を含む雑音除去装置であって、
上記複数の周波数領域変換部の出力する周波数領域の信号を合成して処理対象信号を生成する処理対象信号生成部と、
上記直間比相当値が小さいほど上記処理対象信号の振幅を大きく調整した処理後信号を生成する対象信号調整部と、
上記処理後信号を時間領域の信号に変換する逆周波数領域変換部と、
を具備する雑音除去装置。
A noise removal device including the instantaneous direct ratio estimation device according to claim 1,
A processing target signal generation unit that generates a processing target signal by combining frequency domain signals output from the plurality of frequency domain conversion units;
A target signal adjustment unit that generates a post-processing signal in which the amplitude of the processing target signal is largely adjusted as the direct ratio equivalent value is small;
An inverse frequency domain transform unit for transforming the processed signal into a time domain signal;
A noise removal apparatus comprising:
請求項1に記載した瞬時直間比推定装置を含み、遠近判定部を備えた遠近判定装置であって、
上記遠近判定部は、
上記直間比相当値を、周波数方向に平均して周波数平均直間比相当値を出力する周波数平均手段と、
上記周波数平均直間比相当値を過去所定のフレーム分の時間蓄積して、比較対象直間比相当値を出力する蓄積手段と、
上記周波数平均直間比相当値と、上記比較対象直間比相当値とを比較して遠近判定結果を出力する判定手段と、
を具備する遠近判定装置。
A perspective determination device including the instantaneous direct ratio estimation device according to claim 1 and including a perspective determination unit,
The perspective determination unit
A frequency averaging means for averaging the direct ratio equivalent value in the frequency direction and outputting a frequency average direct ratio equivalent value;
Accumulating means for accumulating the frequency average direct ratio equivalent value for a predetermined time in the past and outputting a comparison target direct ratio equivalent value;
A determination means for comparing the frequency average direct ratio equivalent value and the comparison target direct ratio equivalent value to output a perspective determination result;
A perspective determination device comprising:
請求項1に記載した瞬時直間比推定装置を含む音源距離測定装置であって、
上記直間比相当値と距離との関係を記録した距離−直間比データベースと、
上記直間比相当値を入力として上記距離−直間比データベースを参照して当該直間比相当値と対応する音源距離推定値を推定する距離判定部と、
を具備する音源距離測定装置。
A sound source distance measuring device including the instantaneous direct ratio estimating device according to claim 1,
A distance-direct ratio database that records the relationship between the direct ratio equivalent value and distance;
A distance determination unit that estimates the sound source distance estimated value corresponding to the direct ratio equivalent value by referring to the distance-direct ratio database with the direct ratio equivalent value as an input;
A sound source distance measuring device comprising:
請求項2に記載した瞬時直間比推定装置を含む雑音除去装置であって、
上記複数の周波数領域変換部の出力する周波数領域の信号を合成して処理対象信号を生成する処理対象信号生成部と、
上記直間比が大きいほど上記処理対象信号の振幅を大きく調整した処理後信号を生成する対象信号調整部と、
上記処理後信号を時間領域の信号に変換する逆周波数領域変換部と、
を具備する雑音除去装置。
A noise removal device including the instantaneous direct ratio estimation device according to claim 2,
A processing target signal generation unit that generates a processing target signal by combining frequency domain signals output from the plurality of frequency domain conversion units;
A target signal adjustment unit that generates a post-processing signal in which the amplitude of the processing target signal is adjusted to be larger as the direct ratio is larger;
An inverse frequency domain transform unit for transforming the processed signal into a time domain signal;
A noise removal apparatus comprising:
請求項2に記載した瞬時直間比推定装置を含む雑音除去装置であって、
上記複数の周波数領域変換部の出力する周波数領域の信号を合成して処理対象信号を生成する処理対象信号生成部と、
上記直間比が小さいほど上記処理対象信号の振幅を大きく調整した処理後信号を生成する対象信号調整部と、
上記処理後信号を時間領域の信号に変換する逆周波数領域変換部と、
を具備する雑音除去装置。
A noise removal device including the instantaneous direct ratio estimation device according to claim 2,
A processing target signal generation unit that generates a processing target signal by combining frequency domain signals output from the plurality of frequency domain conversion units;
A target signal adjustment unit that generates a post-processing signal in which the amplitude of the processing target signal is adjusted to be larger as the direct ratio is smaller;
An inverse frequency domain transform unit for transforming the processed signal into a time domain signal;
A noise removal apparatus comprising:
請求項2に記載した瞬時直間比推定装置を含み、遠近判定部を備えた遠近判定装置であって、
上記遠近判定部は、
上記直間比を過去所定のフレーム分の時間蓄積して、比較対象直間比を出力する蓄積手段と、
上記直間比と、上記比較対象直間比とを比較して遠近判定結果を出力する判定手段と、
を具備する遠近判定装置。
A perspective determination device including the instantaneous direct ratio estimation device according to claim 2 and including a perspective determination unit,
The perspective determination unit
Accumulating means for accumulating the direct ratio for a predetermined time in the past and outputting the comparative direct ratio;
A determination means for comparing the direct ratio and the comparison target direct ratio and outputting a perspective determination result;
A perspective determination device comprising:
請求項2に記載した瞬時直間比推定装置を含む音源距離測定装置であって、
上記直間比と距離との関係を記録した距離−直間比データベースと、
上記直間比を入力として上記距離−直間比データベースを参照して当該直間比と対応する音源距離推定値を推定する距離判定部と、
を具備する音源距離測定装置。
A sound source distance measuring device including the instantaneous direct ratio estimating device according to claim 2,
A distance-direct ratio database that records the relationship between the direct ratio and distance;
A distance determination unit that estimates the sound source distance estimation value corresponding to the direct ratio by referring to the distance-direct ratio database using the direct ratio as an input;
A sound source distance measuring device comprising:
請求項10に記載した音源距離測定装置において、
上記直接音のパワーと上記残響音のパワーと上記雑音のパワーのそれぞれが、特定の周波数領域における加算値であることを特徴とする音源距離測定装置。
The sound source distance measuring device according to claim 10,
The sound source distance measuring device, wherein each of the direct sound power, the reverberant power, and the noise power is an added value in a specific frequency region.
請求項1に記載した瞬時直間比推定装置を含む雑音除去装置であって、
上記複数の周波数領域変換部が出力する周波数領域の信号を入力として処理対象信号を出力する処理対象信号生成部と、
上記瞬時直間比推定装置が出力する直間比相当値と、上記処理対象信号とを入力として上記マイクロホンアレーから特定の距離範囲に位置する音源の音声を、強調若しくは抑圧した処理後信号を生成する対象信号調整部と、
上記処理後信号を時間領域の信号に変換する逆周波数領域変換部と、
を具備する雑音除去装置。
A noise removal device including the instantaneous direct ratio estimation device according to claim 1,
A processing target signal generation unit that outputs a processing target signal with the frequency domain signals output by the plurality of frequency domain conversion units;
Generates a post-processing signal that emphasizes or suppresses the sound of a sound source located within a specific distance range from the microphone array, with the direct ratio equivalent value output from the instantaneous direct ratio estimation device and the processing target signal as inputs. A target signal adjustment unit to perform,
An inverse frequency domain transform unit for transforming the processed signal into a time domain signal;
A noise removal apparatus comprising:
請求項2に記載した瞬時直間比推定装置を含む雑音除去装置であって、
上記複数の周波数領域変換部が出力する周波数領域の信号を入力として処理対象信号を出力する処理対象信号生成部と、
上記瞬時直間比推定装置が出力する直間比と、上記処理対象信号とを入力として上記マイクロホンアレーから特定の距離範囲に位置する音源の音声を、強調若しくは抑圧した処理後信号を生成する対象信号調整部と、
上記処理後信号を時間領域の信号に変換する逆周波数領域変換部と、
を具備する雑音除去装置。
A noise removal device including the instantaneous direct ratio estimation device according to claim 2,
A processing target signal generation unit that outputs a processing target signal with the frequency domain signals output by the plurality of frequency domain conversion units;
Target for generating a post-processing signal that emphasizes or suppresses the sound of a sound source located in a specific distance range from the microphone array, with the direct ratio output from the instantaneous direct ratio estimation device and the processing target signal as inputs. A signal conditioning unit;
An inverse frequency domain transform unit for transforming the processed signal into a time domain signal;
A noise removal apparatus comprising:
複数の周波数領域変換部が、少数のマイクロホンから成る小マイクロホンアレーの平行移動で重なる位置に設けられる複数のマイクロホンで構成されるマイクロホンアレーで受音された受音信号を周波数領域の信号に変換する周波数領域変換過程と、
空間相関行列算出部が、上記複数の周波数領域変換部の出力する周波数領域の信号を入力として、その周波数領域の信号を使い上記小マイクロホンアレー毎に求めた空間相関行列の和または平均で求まる小空間相関行列を算出する空間相関行列算出過程と、
固有値展開部が、上記小空間相関行列を固有値展開して固有値と固有ベクトルに分解し、上記固有値を出力する固有値展開過程と、
固有値分布算出部が、上記固有値の分布の割合を数値化して直間比相当値を出力する固有値分布算出過程と
を含む瞬時直間比推定方法。
A plurality of frequency domain converters convert a received sound signal received by a microphone array composed of a plurality of microphones provided at overlapping positions by parallel movement of a small microphone array consisting of a small number of microphones into a frequency domain signal. Frequency domain transformation process,
The spatial correlation matrix calculation unit receives the frequency domain signals output from the plurality of frequency domain transform units, and uses the frequency domain signals to obtain the small or the average of the spatial correlation matrices obtained for each small microphone array. A spatial correlation matrix calculation process for calculating a spatial correlation matrix;
An eigenvalue expansion unit eigenvalue-expanding the small spatial correlation matrix to decompose it into eigenvalues and eigenvectors, and outputting the eigenvalues;
An eigenvalue distribution calculation unit, wherein the eigenvalue distribution calculation unit quantifies the distribution ratio of the eigenvalues and outputs a direct ratio equivalent value.
複数の周波数領域変換部が、少数のマイクロホンから成る小マイクロホンアレーの平行移動で重なる位置に設けられる複数のマイクロホンで構成されるマイクロホンアレーで受音された受音信号を周波数領域の信号に変換する周波数領域変換過程と、
空間相関行列算出部が、上記複数の周波数領域変換部の出力する周波数領域の信号を入力として、その周波数領域の信号を使い上記小マイクロホンアレー毎に求めた空間相関行列の和または平均で求まる小空間相関行列を算出する空間相関行列算出過程と、
信号パワー推定部が、予め与えられる上記マイクロホンの配置情報と、上記空間相関行列とから直接音のパワーと残響音のパワーとで構成されるベクトルを求め、そのベクトルの要素の内の直接音のパワーと残響音のパワーとを出力する信号パワー推定過程と、
直間比算出部が、上記直接音のパワーを上記残響音のパワーで除した直間比を算出する直間比算出過程と、
を含む瞬時直間比推定方法。
A plurality of frequency domain converters convert a received sound signal received by a microphone array composed of a plurality of microphones provided at overlapping positions by parallel movement of a small microphone array consisting of a small number of microphones into a frequency domain signal. Frequency domain transformation process,
The spatial correlation matrix calculation unit receives the frequency domain signals output from the plurality of frequency domain transform units, and uses the frequency domain signals to obtain the small or the average of the spatial correlation matrices obtained for each small microphone array. A spatial correlation matrix calculation process for calculating a spatial correlation matrix;
The signal power estimation unit obtains a vector composed of the direct sound power and the reverberant power from the microphone arrangement information given in advance and the spatial correlation matrix, and the direct sound among the elements of the vector is obtained. A signal power estimation process for outputting power and the power of reverberation,
The direct ratio calculation unit calculates the direct ratio obtained by dividing the power of the direct sound by the power of the reverberant sound; and
An instantaneous direct ratio estimation method including
請求項1又は2に記載した瞬時直間比推定装置としてコンピュータを機能させるための装置プログラム。 Device program for causing a computer to function as the instantaneous Chokkan ratio estimation equipment according to claim 1 or 2. 請求項3又は請求項4又は請求項7又は請求項8又は請求項12又は請求項13に記載した雑音除去装置としてコンピュータを機能させるための装置プログラム。  An apparatus program for causing a computer to function as the noise removing apparatus according to claim 3, claim 4, claim 7, claim 8, claim 12, or claim 13. 請求項5又は請求項9に記載した遠近判定装置としてコンピュータを機能させるための装置プログラム。  An apparatus program for causing a computer to function as the perspective determination apparatus according to claim 5. 請求項6又は請求項10又は請求項11に記載した音源距離測定装置としてコンピュータを機能させるための装置プログラム。  An apparatus program for causing a computer to function as the sound source distance measuring apparatus according to claim 6, claim 10, or claim 11.
JP2010134494A 2010-06-11 2010-06-11 Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program Expired - Fee Related JP5826465B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010134494A JP5826465B2 (en) 2010-06-11 2010-06-11 Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010134494A JP5826465B2 (en) 2010-06-11 2010-06-11 Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program

Publications (2)

Publication Number Publication Date
JP2011259397A JP2011259397A (en) 2011-12-22
JP5826465B2 true JP5826465B2 (en) 2015-12-02

Family

ID=45475034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010134494A Expired - Fee Related JP5826465B2 (en) 2010-06-11 2010-06-11 Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program

Country Status (1)

Country Link
JP (1) JP5826465B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6211890B2 (en) * 2013-01-24 2017-10-11 日本電信電話株式会社 Sound collector
EP3151534A1 (en) * 2015-09-29 2017-04-05 Thomson Licensing Method of refocusing images captured by a plenoptic camera and audio based refocusing image system

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001166025A (en) * 1999-12-14 2001-06-22 Matsushita Electric Ind Co Ltd Sound source direction estimation method, sound pickup method and apparatus therefor
JP2008079256A (en) * 2006-09-25 2008-04-03 Toshiba Corp Acoustic signal processing apparatus, acoustic signal processing method, and program
JP5123595B2 (en) * 2007-07-31 2013-01-23 独立行政法人情報通信研究機構 Near-field sound source separation program, computer-readable recording medium recording this program, and near-field sound source separation method
JP5235605B2 (en) * 2008-10-21 2013-07-10 日本電信電話株式会社 Utterance direction estimation apparatus, method and program

Also Published As

Publication number Publication date
JP2011259397A (en) 2011-12-22

Similar Documents

Publication Publication Date Title
JP6584930B2 (en) Information processing apparatus, information processing method, and program
JP5079761B2 (en) Direct ratio estimation device, sound source distance measurement device, noise removal device, method of each device, and device program
CN106710601B (en) Noise-reduction and pickup processing method and device for voice signals and refrigerator
KR101442446B1 (en) Sound acquisition via the extraction of geometrical information from direction of arrival estimates
JP5123595B2 (en) Near-field sound source separation program, computer-readable recording medium recording this program, and near-field sound source separation method
JP2017503388A5 (en)
JP6225245B2 (en) Signal processing apparatus, method and program
JP2001309483A (en) Sound pickup method and sound pickup device
US20090034756A1 (en) System and method for extracting acoustic signals from signals emitted by a plurality of sources
JP5738218B2 (en) Acoustic signal emphasizing device, perspective determination device, method and program thereof
JP5143802B2 (en) Noise removal device, perspective determination device, method of each device, and device program
JP5635024B2 (en) Acoustic signal emphasizing device, perspective determination device, method and program thereof
JP5826465B2 (en) Instantaneous direct ratio estimation device, noise removal device, perspective determination device, sound source distance measurement device, method of each device, and device program
JP5683140B2 (en) Noise-to-noise direct ratio estimation device, interference noise elimination device, perspective determination device, sound source distance measurement device, method of each device, and device program
CN116106826A (en) Sound source localization method, related device and medium
JP5698166B2 (en) Sound source distance estimation apparatus, direct ratio estimation apparatus, noise removal apparatus, method thereof, and program
JP3862685B2 (en) Sound source direction estimating device, signal time delay estimating device, and computer program
JP4116600B2 (en) Sound collection method, sound collection device, sound collection program, and recording medium recording the same
JP5815489B2 (en) Sound enhancement device, method, and program for each sound source
JP4051325B2 (en) Speaker position detection method, apparatus, program, and recording medium
JP2017083566A (en) Noise suppression device, noise suppression method, and program
JP2010103617A (en) Speech direction estimation device and method, and program
JP5713933B2 (en) Sound source distance measuring device, acoustic direct ratio estimating device, noise removing device, method and program thereof
JP7721089B2 (en) Sound processing device, sound processing method and program
KR101534781B1 (en) Apparatus and method for estimating sound arrival direction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130725

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130924

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140728

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150312

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151006

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151014

R150 Certificate of patent or registration of utility model

Ref document number: 5826465

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees