Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7639382B2 - Audio signal enhancement device, method and program - Google Patents
[go: Go Back, main page]

JP7639382B2 - Audio signal enhancement device, method and program - Google Patents

Audio signal enhancement device, method and program Download PDF

Info

Publication number
JP7639382B2
JP7639382B2 JP2021020858A JP2021020858A JP7639382B2 JP 7639382 B2 JP7639382 B2 JP 7639382B2 JP 2021020858 A JP2021020858 A JP 2021020858A JP 2021020858 A JP2021020858 A JP 2021020858A JP 7639382 B2 JP7639382 B2 JP 7639382B2
Authority
JP
Japan
Prior art keywords
sound source
dereverberation
time
sound
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021020858A
Other languages
Japanese (ja)
Other versions
JP2022123507A (en
Inventor
智広 中谷
林太郎 池下
慶介 木下
章子 荒木
哲也 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2021020858A priority Critical patent/JP7639382B2/en
Publication of JP2022123507A publication Critical patent/JP2022123507A/en
Application granted granted Critical
Publication of JP7639382B2 publication Critical patent/JP7639382B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

特許法第30条第2項適用 (1)ウェブサイト掲載日:2020年10月18日 (2)ウェブサイトのアドレス:Interspeech2020(国際会議)WEBサイト:http://www.interspeech2020.org/ http://www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=244&id=325 http://www.interspeech2020.org/uploadfile/pdf/Mon-1-2-9.pdfArticle 30, paragraph 2 of the Patent Act applies (1) Date posted on the website: October 18, 2020 (2) Website address: Interspeech2020 (International Conference) WEB site: http://www.interspeech2020.org/ http://www.interspeech2020.org/index.php?m=content&c=index&a=show&catid=244&id=325 http://www.interspeech2020.org/uploadfile/pdf/Mon-1-2-9.pdf

特許法第30条第2項適用 (1)開催日:2020年10月25日~10月29日(公開日:2020年10月26日) (2)集会名:Interspeech2020(国際会議)WEB開催Article 30, paragraph 2 of the Patent Act applies. (1) Date: October 25th to October 29th, 2020 (opening date: October 26th, 2020) (2) Name of the conference: Interspeech 2020 (international conference) held online

この発明は、複数の音やその残響が混ざって、複数のマイクロホンで集音された音響信号から、各構成音に関する事前情報なしで、残響を抑圧するとともに、個別の音に分離する音響信号強調技術に関する。 This invention relates to an audio signal enhancement technology that suppresses reverberation and separates individual sounds from an audio signal that is a mixture of multiple sounds and their reverberations and is collected by multiple microphones, without prior information about each component sound.

従来より、各構成音に関する事前情報なしの状況で、すべての構成音に関する残響をオンライン処理に基づき抑圧するオンライン残響抑圧法が考案されている(例えば、非特許文献1参照。)。 In the past, online dereverberation methods have been devised that suppress the reverberation of all component sounds based on online processing in a situation where there is no prior information about each component sound (see, for example, Non-Patent Document 1).

また、残響を含まない混合音を個別の音に分離するオンライン音源分離法が考案されている(例えば、非特許文献2)。 In addition, an online sound source separation method has been devised that separates a mixed sound that does not contain reverberation into individual sounds (for example, non-patent document 2).

したがって、それぞれを残響抑圧ステップ、音源分離ステップとして、図6のように接続することで、オンライン処理によりすべての構成音の残響を抑圧するとともに個別の音に分離する音響信号強調法は、従来から構成することができた。 Therefore, by connecting the steps as shown in Figure 6 as a dereverberation step and a sound source separation step, it has been possible to construct an acoustic signal enhancement method that suppresses the reverberation of all component sounds and separates them into individual sounds through online processing.

J. Caroselli, et al. “Adap-tive multichannel dereverberation for automatic speech recog-nition.”, inProc. Interspeech, 2017, pp. 3877-3881.J. Caroselli, et al. “Adaptive multichannel dereverberation for automatic speech recog-nition.”, inProc. Interspeech, 2017, pp. 3877-3881. T. Taniguchi, et al. “An anauxiliary-function approach to online independent vector anal-ysis for real-time blind source separation”, inProc. HSCMA, 2014, pp. 107-111.T. Taniguchi, et al. “An anauxiliary-function approach to online independent vector anal-ysis for real-time blind source separation”, inProc. HSCMA, 2014, pp. 107-111.

しかし、従来法では、残響抑圧ステップの処理は、後段の音源分離ステップの処理と独立して行なわれるため、残響抑圧と音源分離を同時に行う上で、全体として最適な処理が行えなかった。 However, in conventional methods, the dereverberation step is performed independently of the subsequent sound source separation step, making it impossible to achieve optimal overall processing when simultaneously performing dereverberation and sound source separation.

この発明は、全体として最適な処理を行う音響信号強調装置、方法及びプログラムを提供することを目的とする。 The objective of this invention is to provide an audio signal enhancement device, method, and program that performs optimal processing overall.

この発明の一態様による音響信号強調装置は、各時刻tにおいて、時刻tの観測信号ベクトルと時刻t-1に求められた時間空間共分散行列の逆行列を受け取り、観測信号ベクトルに対応する、音源nに対応する又は全音源共通の残響抑圧信号ベクトルを生成する残響抑圧部と、各時刻tにおいて、生成された音源nに対応する又は全音源共通の残響抑圧信号ベクトルを用いて、音源nの強調音及び音源nのパワーを求める音源分離部と、各時刻tにおいて、音源nのパワーと、観測信号ベクトルとを受け取り、音源nに対応する時間空間共分散行列の逆行列を求める時空間パラメータ更新部と、を備えている。 An acoustic signal enhancement device according to one aspect of the present invention includes a reverberation reduction unit that receives, at each time t, an observation signal vector at time t and an inverse matrix of a time-space covariance matrix determined at time t−1, and generates a dereverberation-reduced signal vector corresponding to the observation signal vector and corresponding to a sound source n or common to all the sound sources ; a sound source separation unit that determines, at each time t, an enhanced sound for the sound source n and a power of the sound source n, using the generated reverberation-reduced signal vector corresponding to the sound source n or common to all the sound sources; and a space-time parameter update unit that receives, at each time t, the power of the sound source n and the observation signal vector, and determines an inverse matrix of the time-space covariance matrix corresponding to the sound source n.

この発明の一態様による音響信号強調装置は、tは時間フレームの番号であり、fは周波数の番号であり、Nは音源の個数であり、Mはマイクの個数であり、n=1,…,Nであり、m=1,…,Mであり、音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号yn,m(f,t)から構成される、音源nの強調音に関する残響抑圧信号ベクトルYn(f,t)を生成する残響抑圧部と、音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)と、生成された残響抑圧信号ベクトルYn(f,t)とを用いて、音源nの強調音sn(f,t)及び音源nのパワーvn(t)を求める音源分離部と、音源nのパワーvn(t)と、観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める時空間パラメータ更新部と、を含み、残響抑圧部は、音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、音源nに対応するカルマンゲインKn(f,t)と、音源nのパワーvn(t)を用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求め、音源分離部は、残響抑圧信号ベクトルYn(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求め、求まった音源nに対応する空間共分散行列Σn(f,t)と、音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める。 An audio signal enhancement device according to one aspect of the present invention includes a reverberation suppression unit that generates a dereverberation suppression signal vector Y n (f,t) for an enhanced sound of the sound source n, the dereverberation signal vector Y n (f,t) composed of a dereverberation suppression signal y n,m (f,t) corresponding to an observation signal x m (f,t) using a dereverberation filter G n (f;t-1) corresponding to the sound source n obtained one time ago and an observation signal vector X (f,t) composed of an observation signal x m (f,t) of the microphone m, a sound source separation unit that obtains an enhanced sound s n (f,t) of the sound source n and a power v n (t) of the sound source n using a sound source separation filter Q n (f;t-1) corresponding to the sound source n obtained one time ago and the generated dereverberation suppression signal vector Y n (f, t ), and and a spatio-temporal parameter updating unit that uses the dereverberation filter G n (f; t-1) corresponding to the sound source n obtained one time ago, the Kalman gain K n (f, t) corresponding to the sound source n, and the inverse matrix R n -1 (f; t-1) of the spatio-temporal covariance matrix corresponding to the sound source n , the dereverberation filter G n (f; t) corresponding to the sound source n is obtained using the dereverberation filter G n (f; t-1) corresponding to the sound source n obtained one time ago, the Kalman gain K n (f, t) corresponding to the sound source n, and the power v n (t) of the sound source n. The sound source separation unit uses the dereverberation filter vector Y n (f, t) and the power v n (t) of the sound source n to obtain a spatial covariance matrix Σ n (f, t) corresponding to the sound source n, and obtains the obtained spatial covariance matrix Σ n A sound source separation filter Q n (f; t) corresponding to sound source n is obtained by using (f, t) and a sound source separation filter Q n (f; t-1) corresponding to sound source n that was generated one time before.

この発明の一態様による音響信号強調装置は、tは時間フレームの番号であり、fは周波数の番号であり、Nは音源の個数であり、Mはマイクの個数であり、n=1,…,Nであり、m=1,…,Mであり、一時刻前に求まった残響抑圧フィルタG(f;t-1)と、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号ym(f,t)から構成される残響抑圧信号ベクトルY(f,t)を生成する残響抑圧部と、一時刻前に生成された音源分離フィルタQ(f;t-1)と、生成された残響抑圧信号ベクトルY(f,t)とを用いて、音源nの強調音sn(f,t)から構成される強調音ベクトルS(f,t)及び音源nのパワーvn(t)を求める音源分離部と、音源nのパワーvn(t)と、観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める時空間パラメータ更新部と、を含み、残響抑圧部は、音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、音源nに対応するカルマンゲインKn(f,t)と、音源nのパワーvn(t)を用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求め、求まった各音源nに対応する残響抑圧フィルタGn(f;t)と、一時刻前に生成された音源分離フィルタQ(f;t-1)とを用いて、残響抑圧フィルタG(f;t)を求め、音源分離部は、残響抑圧信号ベクトルY(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求め、求まった音源nに対応する空間共分散行列Σn(f,t)と、音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める。 An audio signal enhancement device according to one aspect of the present invention includes a reverberation suppression unit that generates a dereverberation suppression signal vector Y(f,t) composed of a dereverberation suppression signal ym(f,t) corresponding to an observation signal xm(f,t) using a dereverberation filter G(f;t-1) obtained one time ago and an observation signal vector X (f,t) composed of an observation signal xm (f,t) of microphone m , a sound source separation unit that obtains an enhancement sound vector S(f,t) composed of an enhancement sound sn(f,t) of sound source n and a power vn (t) of sound source n using a sound source separation filter Q (f;t-1) generated one time ago and the generated reverberation suppression signal vector Y (f,t), and the sound source separation unit determines a dereverberation filter G n (f; t) corresponding to the sound source n using the dereverberation filter G n (f; t-1) corresponding to the sound source n determined one time ago, the Kalman gain K n (f, t) corresponding to the sound source n, and the power v n (t) of the sound source n, and determines a dereverberation filter G n ( f; t) corresponding to each sound source n using the determined dereverberation filter G n (f; t) corresponding to each sound source n and the sound source separation filter Q( f ; t-1) generated one time ago, and the sound source separation unit determines a dereverberation filter G (f; t) corresponding to each sound source n using the dereverberation filter G n (f; t) corresponding to each sound source n determined one time ago, the Kalman gain K n (f, t) corresponding to the sound source n, and the power v n (t) of the sound source n . (t) is used to determine the spatial covariance matrix Σ n (f,t) corresponding to the sound source n, and a sound source separation filter Q n (f;t) corresponding to the sound source n is determined using the spatial covariance matrix Σ n (f,t) corresponding to the sound source n thus determined and a sound source separation filter Q n (f;t-1) corresponding to the sound source n that was generated one time earlier.

全体として最適な処理を行うことができる。 This allows for optimal processing overall.

図1は、第一実施形態の音響信号強調装置の機能構成の例を示す図である。FIG. 1 is a diagram illustrating an example of a functional configuration of an acoustic signal enhancement device according to a first embodiment. 図2は、音響信号強調方法の処理手続きの例を示す図である。FIG. 2 is a diagram showing an example of a processing procedure of the audio signal enhancement method. 図3は、第一実施形態の音響信号強調装置の機能構成の例を示す図である。FIG. 3 is a diagram illustrating an example of a functional configuration of the acoustic signal enhancement device according to the first embodiment. 図4は、第一実施形態と第二実施形態の上位概念の音響信号強調装置の機能構成の例を示す図である。FIG. 4 is a diagram showing an example of a functional configuration of an acoustic signal enhancement device according to a higher-level concept of the first and second embodiments. 図5は、コンピュータの機能構成例を示す図である。FIG. 5 is a diagram illustrating an example of a functional configuration of a computer. 図6は、背景技術を説明するための図である。FIG. 6 is a diagram for explaining the background art.

以下、本発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 The following describes in detail an embodiment of the present invention. Note that components having the same functions in the drawings are given the same numbers, and duplicated explanations are omitted.

[第一実施形態]
第一実施形態の音響信号強調装置は、音源ごとに異なる残響抑圧フィルタGn(f,t)を用いて残響抑圧をするものである。
[First embodiment]
The sound signal enhancing device of the first embodiment performs dereverberation using a different dereverberation filter G n (f,t) for each sound source.

第一実施形態の音響信号強調装置は、図1に示すように、初期化部1、残響抑圧部2、音源分離部3及び時空間パラメータ更新部4を例えば備えている。 As shown in FIG. 1, the audio signal enhancement device of the first embodiment includes, for example, an initialization unit 1, a reverberation suppression unit 2, a sound source separation unit 3, and a spatiotemporal parameter update unit 4.

第一実施形態の音響信号強調方法は、音響信号強調装置の各構成部が、以下に説明する及び図2に示すステップS1からステップS6の処理を行うことにより例えば実現される。 The acoustic signal enhancement method of the first embodiment is realized, for example, by each component of the acoustic signal enhancement device performing the processes from step S1 to step S6 described below and shown in FIG. 2.

なお、文中で使用する記号「-」は、本来直後の文字の真上に記載されるべきものであるが、テキスト記法の制限により、当該文字の直前に記載する。数式中においてはこれらの記号は本来の位置、すなわち文字の真上に記載している。例えば、文中の「-X」は、数式中では以下のように記載される。

Figure 0007639382000001

まず、記号の使い方について説明する。 In addition, the symbol " - " used in a sentence should be written directly above the character immediately following it, but due to limitations in text notation, it is written immediately before the character in question. In mathematical expressions, these symbols are written in their original position, that is, directly above the character. For example, " - X" in a sentence is written in a mathematical expression as follows:
Figure 0007639382000001

First, the use of symbols will be explained.

Mはマイクの数であり、m(1≦m≦M)はマイクの番号である。Mは、2以上の正の整数である。 M is the number of microphones, and m (1≦m≦M) is the microphone number. M is a positive integer greater than or equal to 2.

Nは音源の数であり、n(1≦n≦N)は音源の番号である。Nは、2以上の正の整数である。 N is the number of sound sources, and n (1≦n≦N) is the number of the sound source. N is a positive integer greater than or equal to 2.

なお、マイクの番号及び音源の番号は、右下添え字で表される。 The microphone number and sound source number are indicated by subscripts at the bottom right.

t, τ(1≦t,τ≦T)は、時間フレームの番号である。Tは、時間フレームの総数であり、2以上の正の整数である。 t, τ (1≦t, τ≦T) are the time frame numbers. T is the total number of time frames and is a positive integer greater than or equal to 2.

f(1≦f≦F)は、周波数の番号である。Fは、最も高い周波数ビンに対応する周波数である。 f (1≦f≦F) is the frequency number. F is the frequency corresponding to the highest frequency bin.

(・)Tは行列又はベクトルの非共役転置であり、(・)Hは行列又はベクトルの共役転置である。・は任意の行列又はベクトルである。 (·) T is the anti-conjugate transpose of a matrix or vector, and (·) H is the conjugate transpose of a matrix or vector. · is any matrix or vector.

アルファベットの小文字は、スカラー変数である。例えば、マイクmにおける時刻t、周波数fの観測信号xm(f,t)は、スカラー変数である。 Lowercase letters denote scalar variables. For example, an observed signal x m (f,t) at microphone m with time t and frequency f is a scalar variable.

アルファベットの大文字は、ベクトル又は行列を表す。例えば、X(f,t)=[x1(f,t),x2(f,t),…,xN(f,t)]T∈CM×1は、時刻t、周波数fでの、全マイクにおける観測信号ベクトルである。 Capital letters represent vectors or matrices, e.g., X(f,t)=[ x1 (f,t), x2 (f,t),..., xN (f,t)] TC M×1 is the observed signal vector at all microphones at time t and frequency f.

CM×Nは、M×N次元複素行列の全体集合である。X∈CM×Nは、その要素であることを示す記法である。すなわち、Xは、CM×Nの要素であることを示す。 C M×N is the universal set of M×N dimensional complex matrices. X∈C M×N is a notation that indicates that it is an element. In other words, X indicates that it is an element of C M×N .

-X(f,t)は、時刻t-D-L+1から時刻t-Dの過去の観測信号時系列のベクトルであり、-X(f,t)=[X(f,t-D)T,x(f,t-D+1)T,…,xN(f,t-D-L+1)T]T∈CML×1である。Dは、予測遅延であり、1以上の正の整数である。 - X(f,t) is a vector of past observed signal time series from time tD-L+1 to time tD, - X(f,t)=[X(f,tD) T ,x(f,t-D+1) T ,…,x N (f,tD-L+1) T ] T ∈C ML×1 . D is the prediction delay, a positive integer equal to or greater than 1.

vn(t)は、時刻tにおける音源nのパワーであり、スカラーである。 v n (t) is the power of source n at time t and is a scalar.

sn(f,t)は、時刻t、周波数fにおける音源nの強調音であり、スカラーである。 s n (f,t) is the emphasis sound of sound source n at time t and frequency f, and is a scalar.

Gn(f,t)∈CM(L-D)×M,G(f,t)∈CM(L-D)×Mは、周波数fにおける音源nの残響抑圧フィルタの時刻tにおける推定値である。Lは、フィルタ次数であり、2以上の正の整数である。 Gn (f,t)∈CM (LD)×M , G(f,t)∈CM (LD)×M are the estimates of the dereverberation filter for sound source n at frequency f at time t. L is the filter order and is a positive integer equal to or greater than 2.

Q(f;t)=[Q1(f;t), Q2(f;t),…, QN(f;t)]T∈CM×Nは、周波数fの分離行列であり、Qn(f;t)は周波数fにおける音源nの音源分離フィルタである。 Q(f;t) = [ Q1 (f;t), Q2 (f;t), ..., QN (f;t)] TC M × N is the separation matrix for frequency f, and Qn (f;t) is the source separation filter for source n at frequency f.

Rn -1(f;t)∈CM(L-D)×M(L-D)は、周波数f、時刻tにおける音源nに関する時間空間共分散行列の逆行列である。 R n -1 (f;t) ∈ C M(LD) × M(LD) is the inverse of the time-space covariance matrix for sound source n at frequency f and time t.

Kn(f,t)∈CM(L-D)×1は、周波数f、時刻tにおける音源nに関するカルマンゲインである。 K n (f,t) ∈ C M(LD)×1 is the Kalman gain for source n at frequency f and time t.

以下、音響信号強調装置の各構成部について説明する。なお、以下では、時刻t及び周波数fは、所与のものとして説明するが、実際には、以下に説明する処理は、各時刻tにおいて各周波数fに対して行われる。すなわち、音響信号強調装置は、短時間フーリエ変換などにより周波数分割された音響信号を逐次的に受け取り、各時刻t及び各周波数fごとに以下の処理を行う。 Each component of the audio signal enhancement device will be described below. Note that in the following description, the time t and frequency f are assumed to be given, but in reality, the processing described below is performed for each frequency f at each time t. In other words, the audio signal enhancement device sequentially receives audio signals that have been frequency-divided by short-time Fourier transform or the like, and performs the following processing for each time t and each frequency f.

<初期化部1>
n=1,…,Nとして、初期化部1は、初期化として、残響抑圧フィルタGn(f;0)の全要素を所定の値(例えば0)、音源分離フィルタQ(f;0)=[Q1(f;0),Q2(f;0),…,QN(f;0)]と時間空間共分散行列の逆行列Rn -1(f;0)と音源ごとの残響抑圧音の空間共分散行列Σn(f,0)をそれぞれ所定の行列(例えば単位行列)とする。
<Initialization section 1>
For n=1, ..., N, the initialization unit 1 initializes all elements of the dereverberation filter G n (f;0) to predetermined values (e.g., 0), and sets the sound source separation filter Q(f;0)=[Q 1 (f;0), Q 2 (f;0), ..., Q N (f;0)], the inverse matrix R n -1 (f;0) of the time-space covariance matrix, and the spatial covariance matrix Σ n (f,0) of the reverberation-suppressed sound for each sound source to predetermined matrices (e.g., unit matrices).

所定の値は、0以外の値であってもよい。所定の行列は、単位行列以外の行列であってもよい。 The predetermined value may be a value other than 0. The predetermined matrix may be a matrix other than an identity matrix.

初期化された残響抑圧フィルタGn(f;0)は、残響抑圧部2に出力され記憶される。 The initialized dereverberation filter G n (f;0) is output to the dereverberation unit 2 and stored therein.

初期化された音源分離フィルタQ(f;0)及び空間共分散行列Σn(f,0)は、音源分離部3に出力され記憶される。 The initialized sound source separation filter Q(f;0) and spatial covariance matrix Σ n (f,0) are output to the sound source separation unit 3 and stored.

時間空間共分散行列の逆行列Rn -1(f;0)は、時空間パラメータ更新部4に出力され記憶される。 The inverse matrix R n -1 (f;0) of the time-space covariance matrix is output to the time-space parameter update unit 4 and stored therein.

なお、初期化部1の処理は、時刻t=0のときに1度だけ行われる。以下に説明する残響抑圧部2、音源分離部3及び時空間パラメータ更新部4の処理は、各時刻tにおいて行われる。 The processing of the initialization unit 1 is performed only once at time t=0. The processing of the reverberation reduction unit 2, sound source separation unit 3, and spatiotemporal parameter update unit 4 described below is performed at each time t.

<残響抑圧部2(第一の処理)>
残響抑圧部2は、第一の処理及び後述する第二の処理を行う。ここでは、残響抑圧部2の第一の処理について説明する。
<Dereverberation Unit 2 (First Processing)>
The dereverberation unit 2 performs a first process and a second process, which will be described later. Here, the first process performed by the dereverberation unit 2 will be described.

残響抑圧部2には、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)が入力される。 The dereverberation unit 2 receives an observed signal vector X(f,t) formed from an observed signal x m (f,t) of a microphone m.

n=1,…,Nとして、残響抑圧部2は、音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号yn,m(f,t)から構成される、音源nの強調音に関する残響抑圧信号ベクトルYn(f,t)を生成する(ステップS2)。 For n=1, ..., N, the dereverberation unit 2 uses the dereverberation filter G n (f;t-1) corresponding to the sound source n obtained one time earlier and the observed signal vector X(f,t) to generate a dereverberation signal vector Y n (f,t) for the emphasized sound of the sound source n, which is composed of a dereverberation signal y n ,m (f,t) corresponding to the observed signal x m (f,t) (step S2).

すなわち、残響抑圧部2は、各音源1,…,Nに対応する残響抑圧信号ベクトルY1(f,t),…,YN(f,t)を生成する。ここで、Yn(f,t)=[yn,1(f,t),yn,2(f,t),…,yn,M(f,t)]であり、m=1,…,Mとして、yn,m(f,t)は、音源nの強調音に関する、観測信号xm(f,t)に対応する残響抑圧信号である。 That is, the dereverberation unit 2 generates dereverberation signal vectors Y1 (f,t),..., YN (f,t) corresponding to each sound source 1,...,N, where Yn (f,t)=[ yn,1 (f,t),yn ,2 (f,t),..., yn,M (f,t)], where m=1,...,M , yn,m (f,t) is a dereverberation signal corresponding to the observed signal xm (f,t) for the emphasized sound of sound source n.

生成された残響抑圧信号ベクトルYn(f,t)は、音源分離部3に出力される。 The generated dereverberation signal vector Y n (f, t) is output to the sound source separation unit 3 .

音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)は、残響抑圧部2に記憶されている。残響抑圧部2は、この記憶された音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)を用いて処理を行う。 The dereverberation filter G n (f; t-1) obtained one time before and corresponding to the sound source n is stored in the dereverberation unit 2. The dereverberation unit 2 performs processing using the stored dereverberation filter G n (f; t-1) obtained one time before and corresponding to the sound source n.

残響抑圧部2は、例えば以下の式に基づいて残響抑圧信号ベクトルYn(f,t)を求める。

Figure 0007639382000002

<音源分離部3(第一の処理)>
音源分離部3は、第一の処理及び後述する第二の処理を行う。ここでは、音源分離部3の第一の処理について説明する。 The dereverberation unit 2 calculates the dereverberation signal vector Y n (f,t) based on, for example, the following equation.
Figure 0007639382000002

<Sound source separation unit 3 (first process)>
The sound source separation unit 3 performs a first process and a second process, which will be described later. Here, the first process performed by the sound source separation unit 3 will be described.

音源分離部3には、残響抑圧部2で生成された残響抑圧信号ベクトルYn(f,t)が入力される。 The dereverberation signal vector Y n (f, t) generated by the dereverberation unit 2 is input to the sound source separation unit 3 .

n=1,…,Nとして、音源分離部3は、音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)と、残響抑圧信号ベクトルYn(f,t)とを用いて、音源nの強調音sn(f,t)及び音源nのパワーvn(t)を求める(ステップS3)。 For n=1, ..., N, the sound source separation unit 3 uses the sound source separation filter Q n (f; t-1) generated one time earlier and corresponding to the sound source n, and the dereverberation suppression signal vector Y n (f, t) to obtain the emphasized sound s n (f, t) of the sound source n and the power v n (t) of the sound source n (step S3).

すなわち、音源分離部3は、各音源1,…,Nに対応する強調音s1(f,t),…,sN(f,t)と、各音源1,…,Nに対応するv1(f),…,vN(t)を生成する。 That is, the sound source separation unit 3 generates emphasized sounds s1 (f,t),...,sN(f,t) corresponding to each sound source 1,..., N , and v1(f),..., vN (t) corresponding to each sound source 1 ,...,N.

生成された音源nの強調音sn(f,t)は、音響信号強調装置から出力される。生成された音源nのパワーvn(t)は、時空間パラメータ更新部4に出力される。 The generated emphasized sound s n (f, t) of the sound source n is output from the sound signal emphasis device. The generated power v n (t) of the sound source n is output to the spatio-temporal parameter update unit 4.

音源nに対応する一時刻前に求まった音源分離フィルタQn(f;t-1)は、音源分離部3に記憶されている。音源分離部3は、この記憶された音源nに対応する一時刻前に求まった音源分離フィルタQn(f;t-1)を用いて処理を行う。 The sound source separation filter Q n (f; t-1) obtained one time before and corresponding to the sound source n is stored in the sound source separation unit 3. The sound source separation unit 3 performs processing using the stored sound source separation filter Q n (f; t-1) obtained one time before and corresponding to the sound source n.

音源分離部3は、例えば以下の式に基づいて音源nの強調音sn(f,t)を求める。

Figure 0007639382000003

また、音源分離部3は、例えば以下の式に基づいて音源nのパワーvn(t)を求める。
Figure 0007639382000004

<時空間パラメータ更新部4>
時空間パラメータ更新部4には、観測信号ベクトルX(f,t)と、音源分離部3で生成された音源nのパワーvn(t)とが入力される。 The sound source separation unit 3 obtains an emphasis sound s n (f, t) of the sound source n based on, for example, the following formula.
Figure 0007639382000003

Further, the sound source separation unit 3 obtains the power v n (t) of the sound source n based on, for example, the following formula.
Figure 0007639382000004

<Time-space parameter update unit 4>
The spatio-temporal parameter update unit 4 receives the observed signal vector X(f,t) and the power v n (t) of the sound source n generated by the sound source separation unit 3 .

n=1,…,Nとして、時空間パラメータ更新部4は、音源nのパワーvn(t)と、観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める(ステップS4)。 For n=1, ..., N, the spatiotemporal parameter update unit 4 uses the power v n (t) of sound source n, the observed signal vector X (f,t), and the inverse matrix R n -1 (f;t-1) of the spatiotemporal covariance matrix corresponding to sound source n calculated one time earlier (step S4).

すなわち、時空間パラメータ更新部4は、各音源1,…,Nに対応するカルマンゲインK1(f,t),…,KN(f,t)と、各音源1,…,Nに対応する時間空間共分散行列の逆行列R1 -1(f;t),…,RN -1(f;t)を求める。 That is, the spatiotemporal parameter update unit 4 calculates the Kalman gains K 1 (f,t), ..., K N (f,t) corresponding to each sound source 1, ..., N, and the inverse matrices R 1 -1 (f;t), ..., R N -1 (f;t) of the spatiotemporal covariance matrices corresponding to each sound source 1, ..., N.

求まった音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)は、残響抑圧部2に出力される。 The obtained Kalman gain K n (f, t) corresponding to the sound source n and the inverse matrix R n −1 (f; t) of the time-space covariance matrix corresponding to the sound source n are output to the dereverberation unit 2 .

音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)は、時空間パラメータ更新部4に記憶されている。時空間パラメータ更新部4は、この記憶された音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)を用いて処理を行う。 The inverse matrix R n -1 (f; t-1) of the spatiotemporal covariance matrix obtained one time before and corresponding to the sound source n is stored in the spatiotemporal parameter update unit 4. The spatiotemporal parameter update unit 4 performs processing using the stored inverse matrix R n -1 (f; t-1) of the spatiotemporal covariance matrix obtained one time before and corresponding to the sound source n.

時空間パラメータ更新部4は、例えば以下の式に基づいて音源nに対応するカルマンゲインKn(f,t)を求める。ここで、βは、忘却係数であり、0<β<1である。

Figure 0007639382000005

また、時空間パラメータ更新部4は、例えば以下の式に基づいて音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める。
Figure 0007639382000006

<残響抑圧部2(第二の処理)>
残響抑圧部2の第二の処理について説明する。 The spatio-temporal parameter update unit 4 obtains a Kalman gain K n (f,t) corresponding to a sound source n based on, for example, the following equation: where β is a forgetting factor, and 0<β<1.
Figure 0007639382000005

Furthermore, the spatiotemporal parameter update unit 4 obtains an inverse matrix R n -1 (f;t) of the spatiotemporal covariance matrix corresponding to the sound source n, for example, based on the following equation.
Figure 0007639382000006

<Dereverberation Unit 2 (Second Processing)>
The second process of the dereverberation unit 2 will be described.

残響抑圧部には、時空間パラメータ更新部4が求めた音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)と、音源分離部3で生成された音源nのパワーvn(t)とが入力される。 The reverberation suppression unit receives the Kalman gain K n (f,t) corresponding to the sound source n calculated by the spatio-temporal parameter update unit 4, the inverse matrix R n -1 (f;t) of the spatio-temporal covariance matrix corresponding to the sound source n, and the power v n (t) of the sound source n generated by the sound source separation unit 3.

n=1,…,Nとして、残響抑圧部2は、音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、音源nに対応するカルマンゲインKn(f,t)とを用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求める(ステップS5)。 For n=1, ..., N, the dereverberation unit 2 determines a dereverberation filter G n (f; t) corresponding to the sound source n using the dereverberation filter G n (f; t-1) determined one time earlier and corresponding to the sound source n, and the Kalman gain K n (f, t) corresponding to the sound source n (step S5).

すなわち、残響抑圧部2は、各音源1,…,Nに対応する残響抑圧フィルタG1(f;t),…,GN(f;t)を求める。 That is, the dereverberation unit 2 obtains dereverberation filters G 1 (f;t), . . . , G N (f;t) corresponding to the sound sources 1, .

求まった音源nに対応する残響抑圧フィルタGn(f;t)は、残響抑圧部2に記憶される。この音源nに対応する残響抑圧フィルタGn(f;t)は、次の時刻t+1の処理で、音源nに対応する一時刻前の残響抑圧フィルタとして用いられる。 The obtained dereverberation filter G n (f; t) corresponding to the sound source n is stored in the reverberation suppression unit 2. This dereverberation filter G n (f; t) corresponding to the sound source n is used as the dereverberation filter corresponding to the sound source n at the previous time point in the processing at the next time point t+1.

残響抑圧部2は、例えば以下の式に基づいて音源nに対応する残響抑圧フィルタGn(f;t)を求める。

Figure 0007639382000007

<音源分離部3(第二の処理)>
音源分離部3の第二の処理について説明する。 The dereverberation unit 2 obtains a dereverberation filter G n (f;t) corresponding to the sound source n based on, for example, the following equation.
Figure 0007639382000007

<Sound source separation unit 3 (second processing)>
The second process of the sound source separation unit 3 will be described.

n=1,…,Nとして、音源分離部3は、残響抑圧信号ベクトルYn(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求め、求まった音源nに対応する空間共分散行列Σn(f,t)と、音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める(ステップS6)。 For n=1, ..., N, the sound source separation unit 3 calculates a spatial covariance matrix Σ n (f,t) corresponding to the sound source n using the dereverberation signal vector Y n (f,t) and the power v n (t) of the sound source n, and calculates a sound source separation filter Q n (f;t) corresponding to the sound source n using the calculated spatial covariance matrix Σ n (f,t) corresponding to the sound source n and a sound source separation filter Q n (f;t-1) corresponding to the sound source n that was generated one time earlier (step S6).

すなわち、音源分離部3は、各音源1,…,Nに対応する音源分離フィルタQ1(f;t),…,QN(f;t)を求める。 That is, the sound source separation unit 3 obtains sound source separation filters Q 1 (f;t), . . . , Q N (f;t) corresponding to each of the sound sources 1, .

求まった音源nに対応する音源分離フィルタQn(f;t)は、音源分離部3に記憶される。この音源nに対応する音源分離フィルタQn(f;t)は、次の時刻t+1の処理で、音源nに対応する一時刻前の音源分離フィルタQn(f;t)として用いられる。 The obtained sound source separation filter Q n (f; t) corresponding to the sound source n is stored in the sound source separation unit 3. This sound source separation filter Q n (f; t) corresponding to the sound source n is used as the sound source separation filter Q n (f; t) corresponding to the sound source n at the previous time point in the processing at the next time point t+1.

音源分離部3は、例えば以下の式に基づいて空間共分散行列Σn(f,t)を求める。ここで、Lbは、ブロック長であり、正の整数である。

Figure 0007639382000008

音源分離部3は、例えば以下の式(3),(4)に基づいて音源分離フィルタQn(f;t)を更新する。より詳細には、式(3’)で一時刻前に求められたQ(f,t-1)をQ(f,t)にコピーしたのち、すべてのnに関して順に式(3)でQn(f;t)を更新し、得られたQn(f;t)を式(4)の右辺に代入して式(4)で定義されるQn(f;t)を計算することで、音源分離フィルタQn(f;t)を更新する。
Figure 0007639382000009

Figure 0007639382000010

Figure 0007639382000011

ここで、n=1,…,Nとして、enは、n番目の要素が1であり、他の要素が0であるN次元ベクトルである。 The sound source separation unit 3 calculates the spatial covariance matrix Σ n (f, t) based on, for example, the following equation: Here, L b is a block length and is a positive integer.
Figure 0007639382000008

The sound source separation unit 3 updates the sound source separation filter Q n (f;t) based on, for example, the following formulas (3) and (4). More specifically, Q(f,t-1) calculated one time before by formula (3') is copied to Q(f,t), and then Q n (f;t) is updated sequentially by formula (3) for all n, and the obtained Q n (f;t) is substituted into the right side of formula (4) to calculate Q n (f;t) defined in formula (4), thereby updating the sound source separation filter Q n (f;t).
Figure 0007639382000009

Figure 0007639382000010

Figure 0007639382000011

Here, e n , for n=1,…,N, is an N-dimensional vector whose nth element is 1 and the other elements are 0.

このようにして、音源分離の結果を時空間パラメータ更新部4の処理にフィードバックすることで、全体として最適な処理を行うことができる。また、音源nごとに時空間パラメータであるカルマンゲインKn(f,t)及び時間空間共分散行列の逆行列Rn -1(f;t)を個別にオンライン処理で求めることで、音源間の関係を考慮する必要がなくなるため、背景技術と比べて最適化に必要な行列のサイズを小さくできる。このため、全体の計算コストを削減できる。 In this way, the sound source separation results are fed back to the processing of the spatio-temporal parameter update unit 4, thereby enabling optimal processing overall. In addition, by individually calculating the Kalman gain K n (f,t) and the inverse matrix R n -1 (f;t) of the spatio-temporal covariance matrix, which are spatio-temporal parameters, for each sound source n through online processing, it becomes unnecessary to consider the relationship between the sound sources, and therefore the size of the matrix required for optimization can be made smaller than that of the background art. As a result, the overall calculation cost can be reduced.

なお、第一実施形態においては、全体最適化を行うために、1つの最適化基準で全パラメータを最適化している。1つ最適化基準の例は、以下の式(5)により示される基準である。

Figure 0007639382000012

ここで、Xtは、Xt={xm(f,t’)}f,t’≦t,nであり、過去の時刻t’から現在の時刻tまでの観測信号である。 In the first embodiment, in order to perform global optimization, all parameters are optimized using one optimization criterion. An example of the one optimization criterion is the criterion shown in the following formula (5).
Figure 0007639382000012

Here, Xt is Xt = { xm (f,t')} f,t' ≤ t,n , and is the observed signal from the past time t' to the current time t.

上記の処理では、各時刻において、例えば式(5)を最大化する残響抑圧フィルタGn(f,t)、音源分離フィルタQn(f,t)、各分離音のパワーvn(t)をオンライン処理で求めているといえる。 In the above process, the dereverberation filter G n (f, t), sound source separation filter Q n (f, t), and power v n (t) of each separated sound that maximize equation (5) at each time are found by online processing.

なお、式(5)は、(i)各分離音は、そのパワーvn(t)が時間変化する複素ガウス分布に従い、(ii)各時刻で、直近の観測信号を重視する(=古い過去の観測信号を忘れる)忘却係数βを用いるという仮定の下、例えば式(1)及び式(2)による処理を考慮し、最尤法に基づき導出された基準である。 Note that equation (5) is a criterion derived based on the maximum likelihood method, taking into account, for example, the processing by equations (1) and (2), under the assumption that (i) each separated sound follows a complex Gaussian distribution whose power vn(t) varies over time, and (ii) a forgetting factor β is used that places importance on the most recent observed signal at each time (= forgets older observed signals).

なお、残響抑圧と音源分離は別々で処理されるので、部分的に異なる基準を用いて最適化する(例えば、異なる忘却係数を用いる)などの修正を加えてもよい。 Note that since dereverberation and sound source separation are processed separately, modifications may be made, such as optimizing using partially different criteria (e.g., using different forgetting coefficients).

[第二実施形態]
第二実施形態の音響信号強調装置は、第一実施形態の音響信号強調装置とは異なり、全音源共通の残響抑圧フィルタG(f,t-1)を用いて、全ての音源を同時に残響抑圧し、全音源共通の残響抑圧信号ベクトルY(f,t)∈CM×1を求めるものである。
[Second embodiment]
The acoustic signal enhancement device of the second embodiment differs from the acoustic signal enhancement device of the first embodiment in that it uses a dereverberation filter G(f,t−1) common to all sound sources to simultaneously dereverberate all sound sources and obtain a dereverberation-suppressed signal vector Y(f,t)∈C M×1 common to all sound sources.

以下、第一実施形態の音響信号強調装置とは異なる部分を中心に説明する。第一実施形態と同様の部分については重複説明を省略する。 The following will focus on the differences from the first embodiment of the audio signal enhancement device. A duplicated explanation of the parts that are the same as the first embodiment will be omitted.

第二実施形態の音響信号強調装置は、第一実施形態の音響信号強調装置と同様に、図3に示すように、初期化部1、残響抑圧部2、音源分離部3及び時空間パラメータ更新部4を例えば備えている。 The audio signal enhancement device of the second embodiment, like the audio signal enhancement device of the first embodiment, includes, for example, an initialization unit 1, a reverberation suppression unit 2, a sound source separation unit 3, and a spatiotemporal parameter update unit 4, as shown in FIG. 3.

<初期化部1>
初期化部1は、残響抑圧フィルタG(f;0)の全要素を所定の値(例えば0)とすることで、残響抑圧フィルタG(f;0)の初期化を行う。また、初期化部1は、第一実施形態と同様にして、音源分離フィルタQ(f;0)と時間空間共分散行列の逆行列Rn -1(f;0)と音源ごとの残響抑圧音の空間共分散行列Σn(f,0)の初期化を行う。
<Initialization section 1>
The initialization unit 1 initializes the dereverberation filter G(f;0) by setting all elements of the dereverberation filter G(f;0) to a predetermined value (for example, 0). Similarly to the first embodiment, the initialization unit 1 also initializes the sound source separation filter Q(f;0), the inverse matrix R n -1 (f;0) of the time-space covariance matrix, and the spatial covariance matrix Σ n (f,0) of the dereverberation sound for each sound source.

<残響抑圧部2(第一の処理)>
残響抑圧部2は、第一の処理として、一時刻前に求まった残響抑圧フィルタG(f;t-1)と、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号ym(f,t)から構成される残響抑圧信号ベクトルY(f,t)を生成する(ステップS2)。
<Dereverberation Unit 2 (First Processing)>
As a first process, the dereverberation unit 2 uses the dereverberation filter G(f;t-1) obtained one time ago and an observed signal vector X(f,t) composed of an observed signal x m (f,t) from microphone m to generate a dereverberation signal vector Y(f,t) composed of a dereverberation signal y m (f,t) corresponding to the observed signal x m (f,t) (step S2).

ここで、Y(f,t)=[y1(f,t),…,yM(f,t)]である。残響抑圧信号ベクトルY(f,t)は、全音源に共通の残響抑圧音ともいえる。 Here, Y(f,t)=[y 1 (f,t),...,y M (f,t)]. The dereverberation signal vector Y(f,t) can be said to be a dereverberation sound common to all sound sources.

生成された残響抑圧信号ベクトルY(f,t)は、音源分離部3に出力される。 The generated dereverberation signal vector Y(f,t) is output to the sound source separation unit 3.

残響抑圧部2は、例えば以下の式に基づいて残響抑圧信号ベクトルY(f,t)を求める。

Figure 0007639382000013

<音源分離部3(第一の処理)>
n=1,…,Nとして、音源分離部3は、第一の処理として、一時刻前に生成された音源分離フィルタQ(f;t-1)と、残響抑圧部2で生成された残響抑圧信号ベクトルY(f,t)とを用いて、音源nの強調音sn(f,t)から構成される強調音ベクトルS(f,t)及び音源nのパワーvn(t)を求める(ステップS3)。 The dereverberation unit 2 calculates a dereverberation signal vector Y(f,t) based on, for example, the following equation:
Figure 0007639382000013

<Sound source separation unit 3 (first process)>
As a first process, for n=1, ..., N, the sound source separation unit 3 uses the sound source separation filter Q(f;t-1) generated one time ago and the reverberation suppression signal vector Y(f,t) generated by the reverberation suppression unit 2 to obtain an emphasis sound vector S(f,t) composed of the emphasis sound s n (f,t) of the sound source n and the power v n (t) of the sound source n (step S3).

音源分離部3は、例えば以下の式に基づいて強調音ベクトルS(f,t)を求める。ここで、S(f,t)=[s1(f,t),…,sN(f,t)]である。また、Q(f;t-1)=[Q1(f;t-1),…,QN(f;t-1)]である。

Figure 0007639382000014

強調音ベクトルS(f,t)に基づく音源nのパワーvn(t)の求め方は、第一実施形態と同様である。 The sound source separation unit 3 obtains an emphasis sound vector S(f,t) based on, for example, the following formula, where S(f,t)=[ s1 (f,t),..., sN (f,t)], and Q(f;t-1)=[ Q1 (f;t-1),..., QN (f;t-1)].
Figure 0007639382000014

The method of calculating the power v n (t) of the sound source n based on the emphasis sound vector S(f,t) is the same as in the first embodiment.

生成された強調音ベクトルS(f,t)を構成する音源nの強調音sn(f,t)は、音響信号強調装置から出力される。生成された音源nのパワーvn(t)は、時空間パラメータ更新部4に出力される。 The generated emphasis sound s n (f, t) of the sound source n constituting the emphasis sound vector S (f, t) is output from the audio signal emphasis device. The generated power v n (t) of the sound source n is output to the spatio-temporal parameter update unit 4.

<時空間パラメータ更新部4>
時空間パラメータ更新部4の処理は、第一実施形態と同様である。すなわち、n=1,…,Nとして、時空間パラメータ更新部4は、音源nのパワーvn(t)と、観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める(ステップS4)
求まった音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)は、残響抑圧部2に出力される。
<Time-space parameter update unit 4>
The processing of the spatio-temporal parameter update unit 4 is the same as that of the first embodiment. That is, for n=1,...,N, the spatio-temporal parameter update unit 4 calculates the Kalman gain Kn( f ,t) corresponding to the sound source n and the inverse matrix Rn -1 (f;t) of the spatio-temporal covariance matrix corresponding to the sound source n by using the power vn(t) of the sound source n, the observed signal vector X (f,t), and the inverse matrix Rn -1 (f;t-1) of the spatio-temporal covariance matrix corresponding to the sound source n calculated one time before (step S4).
The obtained Kalman gain K n (f, t) corresponding to the sound source n and the inverse matrix R n −1 (f; t) of the time-space covariance matrix corresponding to the sound source n are output to the dereverberation unit 2 .

<残響抑圧部2(第二の処理)>
第二実施形態では、初期化部1で初期化された又は音源分離部3で更新された音源分離フィルタQ(f;t)は、残響抑圧部2にも入力される。
<Dereverberation Unit 2 (Second Processing)>
In the second embodiment, the sound source separation filter Q(f;t) initialized by the initialization unit 1 or updated by the sound source separation unit 3 is also input to the reverberation reduction unit 2 .

n=1,…,Nとして、残響抑圧部2は、第二の処理として、第一実施形態と同様の処理により、音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、音源nに対応するカルマンゲインKn(f,t)と、音源nのパワーvn(t)を用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求める(ステップS51)。 As a second process, the dereverberation unit 2, for n=1, ..., N, performs processing similar to that in the first embodiment to find a dereverberation filter G n (f; t) corresponding to sound source n using the dereverberation filter G n (f; t-1) corresponding to sound source n found one time ago, the Kalman gain K n (f, t) corresponding to sound source n, and the power v n (t) of sound source n (step S51).

そして、残響抑圧部2は、求まった各音源nに対応する残響抑圧フィルタGn(f;t)と、一時刻前に生成された音源分離フィルタQ(f;t-1)とを用いて、残響抑圧フィルタG(f;t)を求める(ステップS52)。 Then, the dereverberation unit 2 obtains a dereverberation filter G(f;t) using the obtained dereverberation filter G n (f;t) corresponding to each sound source n and the sound source separation filter Q(f;t-1) generated one time earlier (step S52).

残響抑圧部2は、例えば以下の式に基づいて残響抑圧フィルタG(f;t)を求める。

Figure 0007639382000015

ステップS51及びステップS52の処理が、ステップS5に相当する。 The dereverberation unit 2 calculates the dereverberation filter G(f;t) based on, for example, the following equation:
Figure 0007639382000015

The processes in steps S51 and S52 correspond to step S5.

残響抑圧フィルタG(f,t)は、全音源に共通の残響抑圧フィルタである。 The dereverberation filter G(f,t) is a common dereverberation filter for all sound sources.

<音源分離部3(第二の処理)>
n=1,…,Nとして、音源分離部3は、第二の処理として、残響抑圧信号ベクトルY(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求める(ステップS61)。
<Sound source separation unit 3 (second processing)>
As a second process, the sound source separation unit 3 calculates a spatial covariance matrix Σ n (f,t) corresponding to sound source n, where n=1, ..., N, using the dereverberation signal vector Y(f,t) and the power v n (t) of sound source n (step S61).

第二実施形態の音源分離部3は、第一実施形態とは異なり、例えば以下の式に基づいて空間共分散行列Σn(f,t)を求める。

Figure 0007639382000016

そして、音源分離部3は、第一実施形態の処理と同様の処理により、求まった音源nに対応する空間共分散行列Σn(f,t)と、音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める(ステップS62)。 The sound source separation unit 3 of the second embodiment differs from that of the first embodiment in that it calculates the spatial covariance matrix Σ n (f,t) based on, for example, the following equation.
Figure 0007639382000016

Then, the sound source separation unit 3 uses the spatial covariance matrix Σ n (f,t) corresponding to the obtained sound source n and the sound source separation filter Q n (f;t-1) generated one time earlier and corresponding to the sound source n, by processing similar to that in the first embodiment, to find the sound source separation filter Q n (f;t) corresponding to the sound source n (step S62).

ステップS61及びステップS62の処理が、ステップS6の処理に相当する。 The processing in steps S61 and S62 corresponds to the processing in step S6.

第二実施形態でも、全体最適化を行うために、1つの最適化基準に基づいて各時刻の全パラメータを最適化している。最適化基準の例は、第一実施形態と同様に、式(5)により示される基準である。 In the second embodiment, in order to perform global optimization, all parameters at each time are optimized based on one optimization criterion. An example of the optimization criterion is the criterion shown in formula (5), as in the first embodiment.

上記の処理では、各時刻において、例えば式(5)を最大化する残響抑圧フィルタG(f,t)、音源分離フィルタQ(f;t)、各分離音のパワーv(t)をオンライン処理で求めているといえる。 In the above process, the dereverberation filter G(f,t), the sound source separation filter Q(f;t), and the power v(t) of each separated sound that maximizes, for example, equation (5) are found online at each time.

なお、第一実施形態と同様に、残響抑圧と音源分離は別々で処理されるので、部分的に異なる基準を用いて最適化する(例えば、異なる忘却係数を用いる)などの修正を加えてもよい。 As in the first embodiment, dereverberation and sound source separation are processed separately, so modifications may be made, such as optimizing using partially different criteria (e.g., using different forgetting coefficients).

[第一実施形態と第二実施形態の上位概念]
第一実施形態と第二実施形態の音響信号強調装置及び方法は、少なくとも以下の点で共通している。
[Generic Concept of First and Second Embodiments]
The acoustic signal enhancement device and method of the first and second embodiments have at least the following points in common.

言い換えれば、第一実施形態及び第二実施形態の音響信号強調装置の残響抑圧部2、音源分離部3及び時空間パラメータ更新部4は、以下の処理を行っていると言える。 In other words, the reverberation suppression unit 2, the sound source separation unit 3, and the spatiotemporal parameter update unit 4 of the audio signal enhancement device of the first and second embodiments perform the following processes.

残響抑圧部2は、各時刻tにおいて、時刻tの観測信号ベクトルと時刻t-1に求められた時間空間共分散行列の逆行列を受け取り、観測信号ベクトルに対応する残響抑圧信号ベクトルを生成する。 At each time t, the dereverberation unit 2 receives the observed signal vector at time t and the inverse matrix of the time-space covariance matrix calculated at time t-1, and generates a dereverberation signal vector corresponding to the observed signal vector.

音源分離部3は、各時刻tにおいて、残響抑圧部2で生成された残響抑圧信号ベクトルを受け取り、音源nの強調音及び音源nのパワーを求める。 The sound source separation unit 3 receives the dereverberation signal vector generated by the dereverberation unit 2 at each time t, and calculates the emphasis sound of sound source n and the power of sound source n.

時空間パラメータ更新部4は、各時刻tにおいて、音源分離部3で求まった音源nのパワーと、観測信号ベクトルとを受け取り、音源nに対応する時間空間共分散行列の逆行列を求める。 The spatiotemporal parameter update unit 4 receives the power of sound source n determined by the sound source separation unit 3 and the observed signal vector at each time t, and calculates the inverse of the spatiotemporal covariance matrix corresponding to sound source n.

本発明の音響信号強調装置は、これらの第一実施形態及び第二実施形態に共通の構成を少なくとも有していればよい。 The audio signal enhancement device of the present invention may have at least the configuration common to the first and second embodiments.

言い換えれば、音響信号強調装置は、各時刻tにおいて、時刻tの観測信号ベクトルと時刻t-1に求められた時間空間共分散行列の逆行列を受け取り、観測信号ベクトルに対応する残響抑圧信号ベクトルを生成する残響抑圧部2と、各時刻tにおいて、生成された残響抑圧信号ベクトルを受け取り、音源nの強調音及び音源nのパワーを求める音源分離部3と、各時刻tにおいて、音源nのパワーと、観測信号ベクトルとを受け取り、音源nに対応する時間空間共分散行列の逆行列を求める時空間パラメータ更新部4と、を備えていればよい。 In other words, the audio signal enhancement device may include a dereverberation unit 2 that receives, at each time t, an observed signal vector at time t and the inverse matrix of the time-space covariance matrix calculated at time t-1, and generates a dereverberation-reduction signal vector corresponding to the observed signal vector, a sound source separation unit 3 that receives, at each time t, the generated dereverberation-reduction signal vector, and calculates an enhanced sound for sound source n and the power of sound source n, and a spatio-temporal parameter update unit 4 that receives, at each time t, the power of sound source n and the observed signal vector, and calculates the inverse matrix of the time-space covariance matrix corresponding to sound source n.

時空間パラメータ更新部4が音源分離部3で求まった音源nのパワーを用いることにより、音源分離の結果が時空間パラメータ更新部4の処理にフィードバックされるため、全体として最適な処理を行うことができる。 The spatiotemporal parameter update unit 4 uses the power of the sound source n obtained by the sound source separation unit 3, and the results of the sound source separation are fed back to the processing of the spatiotemporal parameter update unit 4, allowing optimal processing to be performed overall.

[変形例]
以上、本発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、本発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、本発明に含まれることはいうまでもない。
[Variations]
Although the embodiments of the present invention have been described above, the specific configurations are not limited to these embodiments, and it goes without saying that appropriate design changes, etc., are included in the present invention as long as they do not deviate from the spirit of the present invention.

実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 The various processes described in the embodiments may not only be executed in chronological order according to the order described, but may also be executed in parallel or individually depending on the processing capabilities of the device executing the processes or as necessary.

例えば、音響信号強調装置の構成部間のデータのやり取りは直接行われてもよいし、図示していない記憶部を介して行われてもよい。 For example, data may be exchanged directly between components of the audio signal enhancement device, or may be exchanged via a storage unit (not shown).

[プログラム、記録媒体]
上述した各装置の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図5に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Programs, recording media]
The processing of each unit of each of the above-mentioned devices may be realized by a computer, in which case the processing contents of the functions that each device should have are described by a program. Then, by loading this program into the storage unit 1020 of the computer 1000 shown in Fig. 5 and operating the arithmetic processing unit 1010, the input unit 1030, the output unit 1040, etc., various processing functions of each of the above-mentioned devices are realized on the computer.

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。 The program describing this processing can be recorded on a computer-readable recording medium. A computer-readable recording medium is, for example, a non-transitory recording medium, specifically, a magnetic recording device, an optical disk, etc.

また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program may be distributed, for example, by selling, transferring, or lending portable recording media such as DVDs and CD-ROMs on which the program is recorded. Furthermore, the program may be stored in a storage device of a server computer, and the program may be distributed by transferring the program from the server computer to other computers via a network.

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program, for example, first stores the program recorded on a portable recording medium or the program transferred from a server computer in its own non-transient storage device, the auxiliary recording unit 1050. Then, when executing the process, the computer reads the program stored in its own non-transient storage device, the auxiliary recording unit 1050, into the storage unit 1020, and executes the process according to the read program. In addition, as another execution form of this program, the computer may read the program directly from the portable recording medium into the storage unit 1020 and execute the process according to the program, or, further, each time a program is transferred from the server computer to this computer, the computer may execute the process according to the received program one by one. In addition, the server computer may not transfer the program to this computer, but may execute the above-mentioned process by a so-called ASP (Application Service Provider) type service that realizes the processing function only by issuing an execution instruction and obtaining the result. In this embodiment, the program includes information used for processing by a computer that is equivalent to a program (such as data that is not a direct command to a computer but has properties that dictate computer processing).

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 In addition, in this embodiment, the device is configured by executing a specific program on a computer, but at least a portion of the processing may be realized by hardware.

その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。 Needless to say, other modifications are possible without departing from the spirit of this invention.

[実験結果]
残響のある環境下で収録した同時に話す2人の声から、前記の実施形態により残響抑圧と音源分離を行った。マイクの個数が4個の場合のオンライン処理の処理遅延は、8.89ミリ秒であった。また、このとき、分離音の信号対歪み比(SDR)は、6.81dBであった。従来法によるSDRは、3.81dBであることを考慮すると、低遅延(8.98ミリ秒)のオンライン処理で、SDRを従来法よりも改善できたことがわかる。
[Experimental Results]
The above embodiment performed dereverberation and sound source separation from the voices of two people speaking simultaneously recorded in a reverberant environment. The processing delay of online processing when the number of microphones was four was 8.89 milliseconds. In addition, the signal-to-distortion ratio (SDR) of the separated sound was 6.81 dB. Considering that the SDR by the conventional method was 3.81 dB, it can be seen that the SDR was improved compared to the conventional method by low-delay (8.98 milliseconds) online processing.

Claims (7)

各時刻tにおいて、時刻tの観測信号ベクトルと時刻t-1に求められた時間空間共分散行列の逆行列を受け取り、観測信号ベクトルに対応する、音源nに対応する又は全音源共通の残響抑圧信号ベクトルを生成する残響抑圧部と、
各時刻tにおいて、前記生成された音源nに対応する又は全音源共通の残響抑圧信号ベクトルを用いて、音源nの強調音及び音源nのパワーを求める音源分離部と、
各時刻tにおいて、前記音源nのパワーと、前記観測信号ベクトルとを受け取り、音源nに対応する時間空間共分散行列の逆行列を求める時空間パラメータ更新部と、
を含む音響信号強調装置。
a dereverberation unit that receives, at each time t, an observation signal vector at time t and an inverse matrix of a time-space covariance matrix calculated at time t−1, and generates a dereverberation signal vector corresponding to the observation signal vector , corresponding to sound source n, or common to all sound sources ;
a sound source separation unit that obtains an enhanced sound of the sound source n and a power of the sound source n by using the generated dereverberation signal vector corresponding to the sound source n or common to all sound sources at each time t;
a space-time parameter update unit that receives the power of the sound source n and the observed signal vector at each time t, and calculates an inverse matrix of a space-time covariance matrix corresponding to the sound source n;
16. An acoustic signal enhancement device comprising:
tは時間フレームの番号であり、fは周波数の番号であり、Nは音源の個数であり、Mはマイクの個数であり、n=1,…,Nであり、m=1,…,Mであり、
音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号yn,m(f,t)から構成される、音源nの強調音に関する残響抑圧信号ベクトルYn(f,t)を生成する残響抑圧部と、
音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)と、前記生成された残響抑圧信号ベクトルYn(f,t)とを用いて、音源nの強調音sn(f,t)及び音源nのパワーvn(t)を求める音源分離部と、
前記音源nのパワーvn(t)と、前記観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める時空間パラメータ更新部と、を含み、
前記残響抑圧部は、前記音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、前記音源nに対応するカルマンゲインKn(f,t)と、前記音源nのパワーvn(t)を用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求め、
前記音源分離部は、前記残響抑圧信号ベクトルYn(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求め、求まった音源nに対応する空間共分散行列Σn(f,t)と、前記音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める、
ことを特徴とする音響信号強調装置。
where t is the time frame number, f is the frequency number, N is the number of sound sources, M is the number of microphones, n = 1, ..., N, m = 1, ..., M,
a dereverberation unit that uses a dereverberation filter Gn (f;t-1) corresponding to a sound source n obtained one time before and an observation signal vector X (f,t) composed of an observation signal xm(f,t) of a microphone m to generate a dereverberation signal vector Yn (f,t) for an emphasized sound of the sound source n, the dereverberation signal vector Yn(f,t) being composed of a dereverberation signal yn , m(f,t) corresponding to the observation signal xm(f,t);
a sound source separation unit that obtains an emphasized sound s n (f,t) of the sound source n and a power v n (t) of the sound source n by using a sound source separation filter Q n (f;t-1) generated one time before and corresponding to the sound source n and the generated dereverberation signal vector Y n (f,t);
a space-time parameter update unit that calculates a Kalman gain K n (f,t) corresponding to the sound source n and an inverse matrix R n -1 (f;t) of the space-time covariance matrix corresponding to the sound source n, using the power v n (t) of the sound source n, the observed signal vector X (f,t), and an inverse matrix R n -1 (f;t-1) of the space-time covariance matrix corresponding to the sound source n calculated one time before,
the dereverberation unit obtains a dereverberation filter G n (f; t) corresponding to the sound source n by using a dereverberation filter G n (f; t-1) obtained one time before and corresponding to the sound source n, a Kalman gain K n (f, t) corresponding to the sound source n, and a power v n (t) of the sound source n;
the sound source separation unit obtains a spatial covariance matrix Σ n (f,t) corresponding to the sound source n by using the dereverberation signal vector Y n (f,t) and a power v n (t) of the sound source n, and obtains a sound source separation filter Q n (f;t) corresponding to the sound source n by using the obtained spatial covariance matrix Σ n (f,t) corresponding to the sound source n and a sound source separation filter Q n (f;t-1) corresponding to the sound source n that was generated one time ago.
13. An audio signal enhancement device comprising:
tは時間フレームの番号であり、fは周波数の番号であり、Nは音源の個数であり、Mはマイクの個数であり、n=1,…,Nであり、m=1,…,Mであり、
一時刻前に求まった残響抑圧フィルタG(f;t-1)と、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号ym(f,t)から構成される残響抑圧信号ベクトルY(f,t)を生成する残響抑圧部と、
一時刻前に生成された音源分離フィルタQ(f;t-1)と、前記生成された残響抑圧信号ベクトルY(f,t)とを用いて、音源nの強調音sn(f,t)から構成される強調音ベクトルS(f,t)及び音源nのパワーvn(t)を求める音源分離部と、
前記音源nのパワーvn(t)と、前記観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める時空間パラメータ更新部と、を含み、
前記残響抑圧部は、前記音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、前記音源nに対応するカルマンゲインKn(f,t)と、前記音源nのパワーvn(t)を用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求め、前記求まった各音源nに対応する残響抑圧フィルタGn(f;t)と、前記一時刻前に生成された音源分離フィルタQ(f;t-1)とを用いて、残響抑圧フィルタG(f;t)を求め、
前記音源分離部は、前記残響抑圧信号ベクトルY(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求め、求まった音源nに対応する空間共分散行列Σn(f,t)と、前記音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める、
ことを特徴とする音響信号強調装置。
where t is the time frame number, f is the frequency number, N is the number of sound sources, M is the number of microphones, n = 1, ..., N, m = 1, ..., M,
a dereverberation unit that uses a dereverberation filter G(f;t-1) obtained one time before and an observation signal vector X (f,t) composed of an observation signal xm(f,t) of a microphone m to generate a dereverberation signal vector Y(f,t) composed of a dereverberation signal ym (f,t) corresponding to the observation signal xm(f,t);
a sound source separation unit that uses a sound source separation filter Q(f;t-1) generated one time before and the generated dereverberation signal vector Y(f,t) to obtain an emphasis sound vector S(f,t) composed of an emphasis sound s n (f,t) of a sound source n and a power v n (t) of the sound source n;
a space-time parameter update unit that calculates a Kalman gain K n (f,t) corresponding to the sound source n and an inverse matrix R n -1 (f;t) of the space-time covariance matrix corresponding to the sound source n, using the power v n (t) of the sound source n, the observed signal vector X (f,t), and an inverse matrix R n -1 (f;t-1) of the space-time covariance matrix corresponding to the sound source n calculated one time before,
the dereverberation unit obtains a dereverberation filter G n (f; t) corresponding to the sound source n using a dereverberation filter G n (f; t-1) obtained one time ago and corresponding to the sound source n, a Kalman gain K n (f, t) corresponding to the sound source n, and a power v n (t) of the sound source n; and obtains a dereverberation filter G(f; t) using the obtained dereverberation filter G n (f; t) corresponding to each sound source n and the sound source separation filter Q(f; t-1) generated one time ago;
the sound source separation unit obtains a spatial covariance matrix Σ n (f, t) corresponding to the sound source n by using the dereverberation signal vector Y(f, t) and a power v n (t) of the sound source n, and obtains a sound source separation filter Q n (f; t) corresponding to the sound source n by using the obtained spatial covariance matrix Σ n (f, t) corresponding to the sound source n and a sound source separation filter Q n (f; t-1) corresponding to the sound source n that was generated one time ago.
13. An audio signal enhancement device comprising:
残響抑圧部が、各時刻tにおいて、時刻tの観測信号ベクトルと時刻t-1に求められた時間空間共分散行列の逆行列を受け取り、観測信号ベクトルに対応する、音源nに対応する又は全音源共通の残響抑圧信号ベクトルを生成する残響抑圧ステップと、
音源分離部が、各時刻tにおいて、前記生成された音源nに対応する又は全音源共通の残響抑圧信号ベクトルを用いて、音源nの強調音及び音源nのパワーを求める音源分離ステップと、
時空間パラメータ更新部が、各時刻tにおいて、前記音源nのパワーと、前記観測信号ベクトルとを受け取り、音源nに対応する時間空間共分散行列の逆行列を求める時空間パラメータ更新ステップと、
を含む音響信号強調方法。
a dereverberation step in which a dereverberation unit receives an observation signal vector at time t and an inverse matrix of a time-space covariance matrix calculated at time t−1, and generates a dereverberation signal vector corresponding to the observation signal vector , corresponding to sound source n, or common to all sound sources ;
a sound source separation step in which a sound source separation unit obtains an enhanced sound of the sound source n and a power of the sound source n by using the generated dereverberation signal vector corresponding to the sound source n or common to all sound sources at each time t;
a space-time parameter updating step in which a space-time parameter updating unit receives the power of the sound source n and the observed signal vector at each time t, and calculates an inverse matrix of a space-time covariance matrix corresponding to the sound source n;
2. A method for enhancing an acoustic signal comprising:
tは時間フレームの番号であり、fは周波数の番号であり、Nは音源の個数であり、Mはマイクの個数であり、n=1,…,Nであり、m=1,…,Mであり、
残響抑圧部が、音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号yn,m(f,t)から構成される、音源nの強調音に関する残響抑圧信号ベクトルYn(f,t)を生成する残響抑圧ステップと、
音源分離部が、音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)と、前記生成された残響抑圧信号ベクトルYn(f,t)とを用いて、音源nの強調音sn(f,t)及び音源nのパワーvn(t)を求める音源分離ステップと、
時空間パラメータ更新部が、前記音源nのパワーvn(t)と、前記観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める時空間パラメータ更新ステップと、を含み、
前記残響抑圧部は、前記音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、前記音源nに対応するカルマンゲインKn(f,t)と、前記音源nのパワーvn(t)を用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求め、
前記音源分離部は、前記残響抑圧信号ベクトルYn(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求め、求まった音源nに対応する空間共分散行列Σn(f,t)と、前記音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める、
とを特徴とする音響信号強調方法。
where t is the time frame number, f is the frequency number, N is the number of sound sources, M is the number of microphones, n = 1, ..., N, m = 1, ..., M,
a dereverberation step in which the dereverberation unit generates a dereverberation signal vector Y n (f,t) for the emphasized sound of the sound source n, the dereverberation signal vector Y n (f,t) being composed of a dereverberation signal y n, m (f,t) corresponding to the observation signal x m (f,t), using a dereverberation filter G n (f;t-1) obtained one time before and corresponding to the sound source n, and an observation signal vector X(f,t) composed of an observation signal x m (f,t) of the microphone m;
a sound source separation step in which the sound source separation unit obtains an emphasized sound s n (f,t) of the sound source n and a power v n (t) of the sound source n by using a sound source separation filter Q n (f;t-1) generated one time before and corresponding to the sound source n and the generated dereverberation signal vector Y n (f,t);
a space-time parameter updating step in which a space-time parameter updating unit calculates a Kalman gain K n ( f ,t) corresponding to the sound source n and an inverse matrix R n -1 (f;t) of the space-time covariance matrix corresponding to the sound source n, using the power v n (t) of the sound source n, the observed signal vector X (f,t), and an inverse matrix R n -1 (f;t-1) of the space-time covariance matrix corresponding to the sound source n calculated one time ago,
the dereverberation unit obtains a dereverberation filter G n (f; t) corresponding to the sound source n by using a dereverberation filter G n (f; t-1) obtained one time before and corresponding to the sound source n, a Kalman gain K n (f, t) corresponding to the sound source n, and a power v n (t) of the sound source n;
the sound source separation unit obtains a spatial covariance matrix Σ n (f,t) corresponding to the sound source n by using the dereverberation signal vector Y n (f,t) and a power v n (t) of the sound source n, and obtains a sound source separation filter Q n (f;t) corresponding to the sound source n by using the obtained spatial covariance matrix Σ n (f,t) corresponding to the sound source n and a sound source separation filter Q n (f;t-1) corresponding to the sound source n that was generated one time ago.
13. A method for enhancing an acoustic signal comprising:
tは時間フレームの番号であり、fは周波数の番号であり、Nは音源の個数であり、Mはマイクの個数であり、n=1,…,Nであり、m=1,…,Mであり、
残響抑圧部が、一時刻前に求まった残響抑圧フィルタG(f;t-1)と、マイクmの観測信号xm(f,t)から構成される観測信号ベクトルX(f,t)とを用いて、観測信号xm(f,t)に対応する残響抑圧信号ym(f,t)から構成される残響抑圧信号ベクトルY(f,t)を生成する残響抑圧ステップと、
音源分離部が、一時刻前に生成された音源分離フィルタQ(f;t-1)と、前記生成された残響抑圧信号ベクトルY(f,t)とを用いて、音源nの強調音sn(f,t)から構成される強調音ベクトルS(f,t)及び音源nのパワーvn(t)を求める音源分離ステップと、
時空間パラメータ更新部が、前記音源nのパワーvn(t)と、前記観測信号ベクトルX(f,t)と、音源nに対応する一時刻前に求まった時間空間共分散行列の逆行列Rn -1(f;t-1)とを用いて、音源nに対応するカルマンゲインKn(f,t)及び音源nに対応する時間空間共分散行列の逆行列Rn -1(f;t)を求める時空間パラメータ更新ステップと、を含み、
前記残響抑圧部は、前記音源nに対応する一時刻前に求まった残響抑圧フィルタGn(f;t-1)と、前記音源nに対応するカルマンゲインKn(f,t)と、前記音源nのパワーvn(t)を用いて、音源nに対応する残響抑圧フィルタGn(f;t)を求め、前記求まった各音源nに対応する残響抑圧フィルタGn(f;t)と、前記一時刻前に生成された音源分離フィルタQ(f;t-1)とを用いて、残響抑圧フィルタG(f;t)を求め、
前記音源分離部は、前記残響抑圧信号ベクトルY(f,t)及び音源nのパワーvn(t)を用いて、音源nに対応する空間共分散行列Σn(f,t)を求め、求まった音源nに対応する空間共分散行列Σn(f,t)と、前記音源nに対応する一時刻前に生成された音源分離フィルタQn(f;t-1)とを用いて、音源nに対応する音源分離フィルタQn(f;t)を求める、
ことを特徴とする音響信号強調方法。
where t is the time frame number, f is the frequency number, N is the number of sound sources, M is the number of microphones, n = 1, ..., N, m = 1, ..., M,
a dereverberation step in which the dereverberation unit generates a dereverberation signal vector Y(f,t) composed of a dereverberation signal ym(f,t) corresponding to the observation signal xm (f,t) by using a dereverberation filter G (f;t-1) obtained one time before and an observation signal vector X (f,t) composed of an observation signal xm(f,t) of a microphone m;
a sound source separation step in which the sound source separation unit obtains an emphasis sound vector S(f,t) composed of an emphasis sound s n (f,t) of the sound source n and a power v n (t) of the sound source n by using a sound source separation filter Q(f;t-1) generated one time before and the generated dereverberation signal vector Y( f ,t);
a space-time parameter updating step in which a space-time parameter updating unit calculates a Kalman gain K n ( f ,t) corresponding to the sound source n and an inverse matrix R n -1 (f;t) of the space-time covariance matrix corresponding to the sound source n, using the power v n (t) of the sound source n, the observed signal vector X (f,t), and an inverse matrix R n -1 (f;t-1) of the space-time covariance matrix corresponding to the sound source n calculated one time ago,
the dereverberation unit obtains a dereverberation filter G n (f; t) corresponding to the sound source n using a dereverberation filter G n (f; t-1) obtained one time ago and corresponding to the sound source n, a Kalman gain K n (f, t) corresponding to the sound source n, and a power v n (t) of the sound source n; and obtains a dereverberation filter G(f; t) using the obtained dereverberation filter G n (f; t) corresponding to each sound source n and the sound source separation filter Q(f; t-1) generated one time ago;
the sound source separation unit obtains a spatial covariance matrix Σ n (f, t) corresponding to the sound source n by using the dereverberation signal vector Y(f, t) and a power v n (t) of the sound source n, and obtains a sound source separation filter Q n (f; t) corresponding to the sound source n by using the obtained spatial covariance matrix Σ n (f, t) corresponding to the sound source n and a sound source separation filter Q n (f; t-1) corresponding to the sound source n that was generated one time ago.
13. A method for enhancing an acoustic signal comprising:
請求項1から3の何れかの音響信号強調装置の各部としてコンピュータを機能させるためのプログラム。 A program for causing a computer to function as each part of the audio signal enhancement device according to any one of claims 1 to 3.
JP2021020858A 2021-02-12 2021-02-12 Audio signal enhancement device, method and program Active JP7639382B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021020858A JP7639382B2 (en) 2021-02-12 2021-02-12 Audio signal enhancement device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021020858A JP7639382B2 (en) 2021-02-12 2021-02-12 Audio signal enhancement device, method and program

Publications (2)

Publication Number Publication Date
JP2022123507A JP2022123507A (en) 2022-08-24
JP7639382B2 true JP7639382B2 (en) 2025-03-05

Family

ID=82940186

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021020858A Active JP7639382B2 (en) 2021-02-12 2021-02-12 Audio signal enhancement device, method and program

Country Status (1)

Country Link
JP (1) JP7639382B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115567841B (en) * 2022-11-03 2025-05-23 西北工业大学 Microphone array sound source separation method and system with gain linkage parameter updated
CN116364103B (en) * 2023-03-01 2026-04-28 北京奕斯伟计算技术股份有限公司 A speech signal processing method, apparatus, and electronic device

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144320A (en) 2018-02-16 2019-08-29 日本電信電話株式会社 Signal analyzer, signal analyzing method and program
WO2020121590A1 (en) 2018-12-14 2020-06-18 日本電信電話株式会社 Signal processing device, signal processing method, and program

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5129794B2 (en) * 2009-08-11 2013-01-30 日本電信電話株式会社 Objective signal enhancement device, method and program
JP6584930B2 (en) * 2015-11-17 2019-10-02 株式会社東芝 Information processing apparatus, information processing method, and program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019144320A (en) 2018-02-16 2019-08-29 日本電信電話株式会社 Signal analyzer, signal analyzing method and program
WO2020121590A1 (en) 2018-12-14 2020-06-18 日本電信電話株式会社 Signal processing device, signal processing method, and program

Also Published As

Publication number Publication date
JP2022123507A (en) 2022-08-24

Similar Documents

Publication Publication Date Title
JP7115562B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND PROGRAM
Erdogan et al. Deep recurrent networks for separation and recognition of single-channel speech in nonstationary background audio
Ikeshita et al. Independent vector extraction for fast joint blind source separation and dereverberation
JP7639382B2 (en) Audio signal enhancement device, method and program
KR20220022286A (en) Method and apparatus for extracting reverberant environment embedding using dereverberation autoencoder
WO2020017226A1 (en) Noise-tolerant voice recognition device and method, and computer program
Wang et al. Hybrid neural networks for on-device directional hearing
JP2025066148A (en) Signal processing device, signal processing method, and signal processing program
JP7450911B2 (en) Acoustic analysis equipment, acoustic analysis method and acoustic analysis program
CN112242145B (en) Speech filtering method, device, medium and electronic equipment
Heitkaemper et al. A study on online source extraction in the presence of changing speaker positions
JP7582439B2 (en) Audio signal enhancement device, method and program
JP7485066B2 (en) Audio signal enhancement device, method and program
Yang et al. LaSNet: An end-to-end network based on steering vector filter for sound source localization and separation
JP2020148880A (en) Noise space covariance matrix estimation device, noise space covariance matrix estimation method, and program
Mo et al. Low algorithmic delay implementation of convolutional beamformer for online joint source separation and dereverberation
JP7444243B2 (en) Signal processing device, signal processing method, and program
JP2023089431A (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD, AND PROGRAM
JP2018142835A (en) Controller design device, controller and program
Chern et al. Voice direction-of-arrival conversion
JP7776016B2 (en) Signal processing device, signal processing method, and program
Nandal Speech Separation Using Deep Learning
Firoozabadi et al. A multi-channel speech enhancement method based on subband affine projection algorithm in combination with proposed circular nested microphone array
WO2025032710A1 (en) Signal processing device and signal processing method
JP7518429B2 (en) Audio signal conversion model learning device, audio signal conversion device, audio signal conversion model learning method and program

Legal Events

Date Code Title Description
A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20210212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230609

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240321

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240917

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250203

R150 Certificate of patent or registration of utility model

Ref document number: 7639382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350