JP7619564B2 - Sound collection device, sound collection program, and sound collection method - Google Patents
Sound collection device, sound collection program, and sound collection method Download PDFInfo
- Publication number
- JP7619564B2 JP7619564B2 JP2021025965A JP2021025965A JP7619564B2 JP 7619564 B2 JP7619564 B2 JP 7619564B2 JP 2021025965 A JP2021025965 A JP 2021025965A JP 2021025965 A JP2021025965 A JP 2021025965A JP 7619564 B2 JP7619564 B2 JP 7619564B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- signal
- input signal
- target sound
- target area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
本発明は、収音装置、収音プログラム、及び収音方法に関し、例えば、目的エリアに存在する音源から到来する音(以下、「目的エリア音」と呼ぶ)を収音するエリア収音処理に関する。 The present invention relates to a sound collection device, a sound collection program, and a sound collection method, and, for example, to an area sound collection process for collecting sound coming from a sound source present in a target area (hereinafter referred to as "target area sound").
従来、多チャンネルマイクロホンを用いたエリア収音技術として、非特許文献1に記載されたMUBASE(Multiple Beam-forming Area Sound Enhancement)が挙げられる。MUBASEは、2チャンネルのマイクロホンの観測信号の差分により周囲からの妨害音を抽出できることを利用し、正面方向のエリアを強調する手法である。 Conventionally, an area sound collection technology using a multi-channel microphone is MUBASE (Multiple Beam-forming Area Sound Enhancement) described in Non-Patent Document 1. MUBASE is a method that emphasizes the area in the front direction by utilizing the ability to extract disturbing sounds from the surroundings by using the difference in the observation signals of two-channel microphones.
図7は、2つのマイクロホンMl、Mrを備えるマイクロホンアレイMAの観測信号を用いて、MUBASEにより正面方向(目的エリア音が存在する方向)の音の成分を強調して取得する例について示した図である。 Figure 7 shows an example of how MUBASE is used to emphasize and acquire sound components from the front direction (the direction in which the target area sound is located) using observation signals from a microphone array MA equipped with two microphones Ml and Mr.
ここで、マイクロホンMl、Mrの観測信号をそれぞれ以下、(1)式、(2)式としたとき(fは周波数ビンのインデックス)、観測信号の差分は以下の(3)式のように示すことができる。そして、その観測信号の差分は、正面方向にnullを向けるフィルタ(以下、「差分フィルタ」と呼ぶ)となり、エリア外からの妨害音が抽出される。ただし、差分フィルタにより得られる推定妨害音は実際の妨害音に比べ低周波ほどパワーが弱くなることが知られている。差分フィルタにより得られる推定妨害音を利用し、正面の目的エリア内の音源yfからの音は、以下の式(4)で表されるサブトラクションを用いて抽出できる。
ただし、(4)式において、サブトラクション係数αfはハイパーパラメータである。(4)式において、係数αfの値により強調するエリアの幅が変化し、αfの値が大きいほど狭いビームとなる。 In equation (4), the subtraction coefficient αf is a hyperparameter. In equation (4), the width of the emphasized area changes depending on the value of coefficient αf . The larger the value of αf , the narrower the beam becomes.
従来のMUBASEを用いたエリア収音処理では、目的エリア内の音源の位置等により最適な係数αfの値は異なる。 In the conventional area sound collection processing using MUBASE, the optimum value of the coefficient αf varies depending on the position of the sound source within the target area.
例えば、従来のMUBASEを用いたエリア収音処理において手動で係数αfを調整しようとした場合を想定すると、係数αfが大きすぎればオーバーサブトラクションになり、収音処理により得られる信号(目的エリア音を強調した信号)が歪んでしまい、係数αfが小さすぎれば妨害音(非目的エリア音)の抑圧が不十分となってしまうため、係数αfの最適な調整は困難である。 For example, assuming that an attempt is made to manually adjust the coefficient αf in area sound collection processing using the conventional MUBASE, if the coefficient αf is too large, over-subtraction occurs, and the signal obtained by the sound collection processing (a signal in which the target area sound is emphasized) is distorted, whereas if the coefficient αf is too small, suppression of interference sounds (non-target area sounds) becomes insufficient, making it difficult to optimally adjust the coefficient αf .
以上のような問題を鑑みて、目的エリア内の音源に関する環境変化(例えば、音源の移動)に対してより頑健な収音装置、収音プログラム、及び収音方法が望まれている。 In view of the above problems, there is a need for a sound collection device, a sound collection program, and a sound collection method that are more robust against environmental changes (e.g., movement of the sound source) related to the sound source within the target area.
第1の本発明の収音装置は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段と、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段とを有することを特徴とする。 The first sound collection device of the present invention is characterized in having a target sound extraction processing means for using a learning model to obtain a target sound enhancement signal that emphasizes the target sound component contained in a first input signal from a first microphone that constitutes a microphone array and a differential signal that is the difference between the first input signal and a second input signal from a second microphone that constitutes the microphone array, and a learning means for obtaining the learning model by learning and processing the first input signal, the differential signal, and data including the target sound signal as teacher data .
第2の本発明の収音プログラムは、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段と、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段として機能させることを特徴とする。 The second sound collection program of the present invention is characterized in that it functions as a target sound extraction processing means for using a learning model to obtain a target sound emphasis signal that emphasizes the target sound component contained in a first input signal from a first microphone that constitutes a microphone array and a differential signal that is the difference between the first input signal and a second input signal from a second microphone that constitutes the microphone array, and as a learning means for obtaining the learning model by learning and processing data including the first input signal, the differential signal, and the target sound signal as teacher data .
第3の本発明は、収音装置が行う収音方法において、前記収音装置は目的音抽出処理手段と学習手段とを備え、前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得し、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得ることを特徴とする。
The third invention is a sound collection method performed by a sound collection device, the sound collection device being equipped with a target sound extraction processing means and a learning means , and the target sound extraction processing means uses a learning model to obtain a target sound enhancement signal that emphasizes the target sound component contained in a first input signal from a first microphone that constitutes a microphone array and a differential signal that is the difference between the first input signal and a second input signal from a second microphone that constitutes the microphone array, and obtains the learning model by learning and processing data including the first input signal, the differential signal, and the target sound signal as teacher data .
本発明によれば、目的エリア内の音源に関する環境変化に対してより頑健な収音処理を提供することができる。 The present invention provides a sound collection process that is more robust against environmental changes related to sound sources within a target area.
(A)主たる実施形態
以下、本発明による収音装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。
(A) Main embodiment Hereinafter, an embodiment of a sound collection device, a program, and a method according to the present invention will be described in detail with reference to the drawings.
(A-1)実施形態の構成
図3は、この実施形態の収音装置100の機能的構成について示したブロック図である。
(A-1) Configuration of the Embodiment FIG. 3 is a block diagram showing the functional configuration of the
収音装置100は、2つのマイクロホンMr、Mlを備えるマイクロホンアレイMAを用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。
The
マイクロホンアレイMAは、目的エリアが存在する空間の任意の場所に配置される。なお、この実施形態では、説明を簡易とするため、マイクロホンアレイMAで収音の対象となる目的エリア(目的エリアに配置された目的音源)は1つだけであるものとする。 The microphone array MA is placed anywhere in the space in which the target area exists. Note that in this embodiment, for ease of explanation, it is assumed that there is only one target area (target sound source placed in the target area) that is the target of sound pickup by the microphone array MA.
次に、収音装置100の内部構成について説明する。
Next, the internal configuration of the
収音装置100は、信号入力部101、目的エリア音抽出部102、及び信号出力部103を備える。なお、収音装置100を構成する各機能ブロックの詳細処理については後述する。
The
信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、ディジタル信号に変換して、目的エリア音抽出部102で処理可能な形式の信号(この実施形態では、周波数領域の信号)に変換する機能を担っている。信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、アナログ信号からディジタル信号に変換し、さらに時間領域から周波数領域に変換(例えば、高速フーリエ変換等により変換)して、目的エリア音抽出部102に供給する。
The
なお、ここでは、信号入力部101から目的エリア音抽出部102に供給されるマイクロホンMl、Mrの観測信号(周波数領域に変換された音響信号)を、それぞれXr、Xlと表すものとする。
It should be noted that, here, the observation signals (acoustic signals converted into the frequency domain) of the microphones Ml and Mr supplied from the
目的エリア音抽出部102は、信号入力部101から供給された信号について、目的エリア音の成分を推定して抽出する機能を担っている。
The target area sound extraction unit 102 has the function of estimating and extracting the target area sound components from the signal supplied from the
信号出力部103は、目的エリア音抽出部102から出力された信号を、周波数領域から時間領域へ変換して、所定の形式で出力する。なお、信号出力部103による信号出力の形式や方式については限定されないものである。 The signal output unit 103 converts the signal output from the target area sound extraction unit 102 from the frequency domain to the time domain and outputs the signal in a predetermined format. Note that there are no limitations on the format or method of signal output by the signal output unit 103.
次に、収音装置100のハードウェア構成の例について説明する。
Next, an example of the hardware configuration of the
収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。
The
図4は、収音装置100のハードウェア構成の例について示したブロック図である。
Figure 4 is a block diagram showing an example of the hardware configuration of the
図4では、収音装置100を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。
Figure 4 shows an example of the hardware configuration when the
図4に示す収音装置100は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ400を有している。また、コンピュータ400は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。
The
図4に示すコンピュータ400は、プロセッサ401、一次記憶部402、及び二次記憶部403を有している。一次記憶部402は、プロセッサ401の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部403は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ400では、プロセッサ401が起動する際、二次記憶部403に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部402上に展開して実行する。
The
なお、コンピュータ400の具体的な構成は図4の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部402が不揮発メモリ(例えば、FLASH(登録商標)メモリ等)であれば、二次記憶部403については除外した構成としてもよい。
The specific configuration of the
次に、目的エリア音抽出部102による目的エリア音抽出処理の概要について説明する。 Next, we will provide an overview of the target area sound extraction process performed by the target area sound extraction unit 102.
ここで述べる目的エリア音抽出処理は、従来のMUBASEと同様、2つのマイクロホンの観測信号から目的エリア音を抽出する処理として設計される。従来のMUBASEの処理では、上記の(4)式が適用されるが、目的音源や妨害音(非目的エリア音)の到来角によって最適な係数αfは異なり、手動で設定することは困難となる場合があった。また、従来のMUBASEの処理において、αfの値が大きすぎると、オーバーサブトラクションとなり、目的エリア内の音声が歪んでしまう場合があった。反対に、従来のMUBASEの処理において、αfの値が小さければ、エリア外の妨害音をあまり抑圧できない場合があった。 The target area sound extraction process described here is designed as a process for extracting target area sound from observation signals of two microphones, similar to the conventional MUBASE. In the conventional MUBASE process, the above formula (4) is applied, but the optimal coefficient αf varies depending on the arrival angle of the target sound source and the interference sound (non-target area sound), and it may be difficult to set it manually. In addition, in the conventional MUBASE process, if the value of αf is too large, oversubtraction may occur, and the sound within the target area may be distorted. On the other hand, in the conventional MUBASE process, if the value of αf is small, the interference sound outside the area may not be suppressed very much.
この実施形態の目的エリア音抽出部102では、上記の(4)式で表されるサブトラクションにあたる計算を、深層ニューラルネットワーク(DNN(Deep Neural Network)を用いて学習することにより目的エリア音を収音する構成(以下、「深層エリア収音」又は「DMUBASE」と呼ぶ)を適用するものとして説明する。この実施形態の目的エリア音抽出部10では、深層エリア収音(DMUBASE)により、目的音や妨害音の到来角に依らず、高精度なエリア収音を実現することができる。
In this embodiment, the target area sound extraction unit 102 will be described as applying a configuration (hereinafter referred to as "deep area sound collection" or "DMUBASE") that collects target area sound by learning using a deep neural network (DNN) to perform the subtraction calculation represented by the above formula (4). In this embodiment, the target area
ところで、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音(DMUBASE)では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。 Incidentally, in area sound collection processing, it is desirable to be robust against the movement of sound sources within the target area, but in deep area sound collection (DMUBASE), filters are learned in a data-driven manner, so constraints are needed to ensure robustness.
そのため、深層エリア収音(DMUBASE)では、「エリア外の妨害音を抑圧できること」と、「エリア内における目的音源の動きに対し頑健であること」という要件を満たしていることが望ましい。 Therefore, it is desirable for deep area sound collection (DMUBASE) to meet the requirements of "being able to suppress interfering sounds outside the area" and "being robust against the movement of the target sound source within the area."
以上を踏まえて、この実施形態では、目的エリア音抽出部102のモデルアーキテクチャとして、例えば、図1に示す第1の目的エリア音抽出部102A又は、図2に示す第2の目的エリア音抽出部102Bのいずれかを適用するものとする。
In light of the above, in this embodiment, for example, either the first target area
まず、図1に示す第1の目的エリア音抽出部102Aについて説明する。
First, we will explain the first target area
第1の目的エリア音抽出部102Aは、推定処理部200、マスク処理部210、位相処理部220、及び差分抽出器230を有している。
The first target area
推定処理部200は、各マイクロホンアレイの観測信号Xl、Xrに基づいて、Xrに含まれる妨害音(非目的エリア音)の成分を推定し、Xrに含まれる非目的エリア音の成分を抑圧するための係数(フィルタ係数)を設定した信号(以下、「マスク信号」と呼ぶ)を出力する。マスク信号には、周波数ごとにXrに含まれる妨害音(非目的エリア音)の成分を抑圧するためのフィルタ係数(0~1の間のいずれかの値)が設定されている。
The
具体的には、推定処理部200は、DNNを用いて、観測信号|Xr|と、Xl、Xrの差分(差分フィルタの出力)となる|d|=|Xr-Xl|に基づいてマスク信号を推定する処理を行う。なお、ここでは、マイクロホンMrの観測信号Xrから目的エリア音の成分を抽出する処理を行うため、観測信号|Xr|と差分フィルタの出力|Xr-Xl|に基づいてマスク信号を推定する処理を行うものとして説明するが、観測信号|Xl|を基準とし、フィルタの出力|Xl-Xr|に基づいてマスク信号を推定する処理を行うようにしてもよい。
Specifically, the
マスク処理部210は、推定処理部200から供給されるマスク信号(フィルタ係数)に基づいて、|Xr|に含まれる妨害音(非目的エリア音)の成分をマスク(減衰;抑圧;フィルタ処理)させて、目的エリア音を強調した信号を出力する。
The
位相処理部220は、マスク処理部210から供給される信号にXrの位相(位相情報)を付与(同期)させる処理を行って出力する。ここでは、位相処理部220から出力される信号を「y^」と表す。ここでは、y^を、第1の目的エリア音抽出部102Aの出力信号としている。すなわち、ここでは、y^が、目的エリア音を抽出(強調;推定)した結果と言える。
The
差分抽出器230は、位相処理部220から出力されるy^(目的エリア音を推定した結果)と、機械学習における教師ラベル(正解ラベル)となるクリーンな目的エリア音(以下、「y」と表す)との差分を取得し、この差分を推定処理部200にloss(機械学習におけるloss)としてフィードバックする。すなわち、差分抽出器230は、推定処理部200に学習処理させる際にのみ機能する要素である。したがって、すでに推定処理部200で新たな学習処理が行われない場合には、第1の目的エリア音抽出部102Aから差分抽出器230を除外するようにしてもよい。
The
以上のように、第1の目的エリア音抽出部102Aでは、推定処理部200に観測信号|Xr|と差分フィルタの出力として得られる非目的エリア音(妨害音)が支配的な|d|を入力としたニューラルネットワーク(推定処理部200)により、マイクロホンアレイMA正面の扇形領域(図7参照)に相当する目的エリア内の音源(目的エリア音)を抽出するためのマスク信号を推定する。
As described above, in the first target area
この実施形態の第1の目的エリア音抽出部102Aでは、推定処理部200に対して学習処理を実行させる動作モード(以下、「学習処理モード」と呼ぶ)と、供給された観測信号Xl,Xrに基づいて、目的エリア音抽出処理(マスク信号及びy^の抽出)を行う動作モード(以下、「信号処理モード」と呼ぶ)の両方に対応しているものとする。なお、第1の目的エリア音抽出部102Aにおいて、学習処理モードに対応しない構成(例えば、既に学習モデルを取得しているか外部から学習モデルを取得する構成等)としてもよい。
The first target area
第1の目的エリア音抽出部102Aは、学習処理モードで動作する場合、教師データとしての観測信号(Xl、Xr)のサンプルと、教師ラベルとしてのクリーンな目的エリア音yを含むデータセット(以下、「教師データセット」と呼ぶ)が供給されると、教師データセットの観測信号(Xl、Xr)から、|Xr|と|d|を取得して推定処理部200に供給するとともに、差分抽出器230が抽出したloss(差分)を推定処理部200にフィードバックさせる。これにより、推定処理部200では、教師データセットに基づいて学習(ディープラーニング)した学習モデルを取得することができる。
When the first target area
次に、推定処理部200の内部構成の例について図1を用いて説明する。
Next, an example of the internal configuration of the
ここでは、推定処理部200の内部構成として、図1の例を説明するが、推定処理部200としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習(ディープラーニング)のフレームワークを適用することができる。
Here, the example of Figure 1 will be described as the internal configuration of the
そして、この実施形態の例では、推定処理部200のニューラルネットワークは、図1に示す5層の構成となっているものとして説明するが、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の構成を適用することができる。
In this embodiment, the neural network of the
図1に示す推定処理部200では、入力層から順に、「FC層211、212」、「FC層221、222」、「FC層231」、「FC層241」、「FC層251」が配置されている。図1に示す推定処理部200では入力のFC層211、212にそれぞれ|xr|、|d|が入力されている。また、図1に示す推定処理部200のニューラルネットワークでは、FC層251のみ活性化関数がシグモイド(Sigmoid)であり、それ以外のFC層の活性化関数がReLU(Rectified Linear Unit)となっている。
In the
図1に示す推定処理部200のニューラルネットワークでは、|xr|と|d|の各々に対し、FC層211、212、221、222により非線形変換を施した後に、2入力を結合して3層目のFC層231に入力している。さらに、図1に示す推定処理部200のニューラルネットワークでは、その後の2層のFC層241、251により変換(逆変換)を行いマスク信号(時間周波数マスク)を出力する構成となっている。上記の通りFC層251の活性化関数はシグモイドになっているため、推定処理部200では、周波数ごとに0~1の間の数値で表される係数(フィルタ係数)を出力することができる。
In the neural network of the
推定処理部200のでは、図1に示すようなニューラルネットワークを構成することにより、妨害音が優勢の|d|と観測信号(観測音)である|Xr|からマイクロホンアレイMAの正面方向を音源とする目的エリア音を強調するマスク信号(フィルタ係数)を抽出する過程をデータから学習することで、(4)式に相当するサブトラクション処理をDNNにより学習することができる。言い換えると、推定処理部200のでは、図1に示すようなニューラルネットワークを構成することにより、マイクロホンアレイMAの正面方向にある目的エリア内における音源の動きに対して頑健なエリア収音処理を行うことができる。特に、推定処理部200では、2入力が結合する中間層となるFC層231が上記のサブトラクション処理を担う構成となる。
In the
次に、図2に示す第2の目的エリア音抽出部102Bについて説明する。図2では、上述の図1と同一部分または対応部分には同一符号又は対応符号を付している。
Next, the second target area
以下では、第2の目的エリア音抽出部102Bについて、第1の目的エリア音抽出部102Aとの差異を説明する。
The following describes the differences between the second target area
図2に示すように、第2の目的エリア音抽出部102Bは、推定処理部300、位相処理部220、及び差分抽出器230を有している。
As shown in FIG. 2, the second target area
推定処理部200は、マイクロホンアレイの観測信号|Xr|と|d|に基づいてマスク信号を推定する処理を行っていたが、推定処理部300は、目的エリア音yを推定した結果得られるパワースペクトラム(目的エリア音の成分を強調した信号のスペクトラム;周波数領域の信号)を出力する点で、推定処理部200と異なっている。
The
位相処理部220は、推定処理部300から供給されるパワースペクトラムにXrの位相(位相情報)を付与(同期)させる処理を行って、信号y^として出力する。
The
以上のように、第2の目的エリア音抽出部102Bでは、推定処理部300に観測信号|Xr|と差分フィルタの出力として得られる非目的エリア音(妨害音)が支配的な|d|を入力としたニューラルネットワーク(推定処理部300)により、マイクロホンアレイMA正面の扇形領域(図7参照)に相当する目的エリア内の音源(目的エリア音)のパワースペクトラムを推定する。
As described above, in the second target area
そして、第2の目的エリア音抽出部102Bでは、第1の目的エリア音抽出部102Aと同様に、学習処理モードと信号処理モードに対応するようにしてもよい。
The second target area
次に、推定処理部300の内部構成の例について図2を用いて説明する。
Next, an example of the internal configuration of the
ここでは、推定処理部300の内部構成として、図2の例を説明するが、推定処理部300としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習(ディープラーニング)の構成を適用することができる。
Here, the example of Figure 2 will be described as the internal configuration of the
ここでは、推定処理部300のニューラルネットワークは、図2に示す通り、推定処理部300のニューラルネットワークの最後段(出力層)のFC層251がFC層351に置き換わっている点で推定処理部200と異なっている。推定処理部300のFC層351では、活性化関数がsigmoidではなくReLuとなっている点で推定処理部200と異なっている。これにより、推定処理部300のFC層351では、パワースペクトラムを出力することができる。
Here, the neural network of the
推定処理部300では、図2に示すようなニューラルネットワークにより、妨害音が優勢の|d|と観測音である|Xr|からマイクロホンアレイMAの正面方向を音源とする目的エリア音を出力する機構を構成することで、(4)式に相当するサブトラクション処理をデータから学習することができる。
In the
(A-2)実施形態の動作
次に、以上のような構成を有するこの実施形態における収音装置100の動作(実施形態に係る収音方法)を説明する。
(A-2) Operation of the Embodiment Next, the operation of the
まず、収音装置100の目的エリア音抽出部102が学習処理モードで動作する場合の処理について説明する。
First, we will explain the processing performed when the target area sound extraction unit 102 of the
学習処理モードで動作する目的エリア音抽出部102に教師データセットが供給されると、目的エリア音抽出部102は、教師データセットの観測信号(Xl、Xr)から、|Xr|と|d|を取得してニューラルネットワークに入力して、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)を行う。 When a teacher data set is supplied to the target area sound extraction unit 102 operating in a learning processing mode, the target area sound extraction unit 102 acquires | Xr | and |d| from the observed signals ( Xl , Xr ) of the teacher data set and inputs them to the neural network to perform learning processing for deep area sound collection (learning the process of extracting target area sound using a neural network).
収音装置100に、第1の目的エリア音抽出部102Aが適用される場合、第1の目的エリア音抽出部102Aでは、|Xr|と|d|が推定処理部200に入力される。また、このとき、第1の目的エリア音抽出部102Aでは、差分抽出器230により位相処理部220から出力される信号y^と教師ラベルyとのlossが抽出されて推定処理部200にフィードバックされる。第1の目的エリア音抽出部102Aでは、上記のようなフィードバックにより、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)が行われる。
When the first target area
一方、収音装置100に、第2の目的エリア音抽出部102Bが適用される場合、第2の目的エリア音抽出部102Bでは、|Xr|と|d|が推定処理部300に入力される。また、このとき、第2の目的エリア音抽出部102Bでは、差分抽出器230により推定処理部300から出力されるパワースペクトラムのlossが抽出されて推定処理部300にフィードバックされる。第2の目的エリア音抽出部102Bでは、上記のようなフィードバックにより、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)が行われる。
On the other hand, when the second target area
次に、収音装置100の目的エリア音抽出部102が信号処理モードで動作する場合の動作について説明する。
Next, we will explain the operation of the target area sound extraction unit 102 of the
ここで、マイクロホンアレイMA(マイクロホンMr、Ml)から信号入力部101を介して、信号処理モードで動作する目的エリア音抽出部102に観測信号(Xl、Xr)が供給されたものとする。そうすると、目的エリア音抽出部102は、ニューラルネットワーク(推定処理部200又は推定処理部300)に|Xr|と|d|を供給し、結果としてy^を取得して信号出力部103に供給することになる。信号出力部103は、y^を周波数領域から時間領域に変換して出力する。
Assume here that observed signals ( Xl , Xr ) are supplied from the microphone array MA (microphones Mr, Ml) to the target area sound extraction unit 102 operating in signal processing mode via the
次に、発明者が、実際に収音装置100を構築して、目的エリア音を収音する処理を行い、その品質を評価するための実験(以下、「本実験」と呼ぶ)を行った際の実験結果及びその評価結果について説明する。
Next, the inventors will explain the experimental results and evaluation results of an experiment (hereinafter referred to as "this experiment") in which they actually constructed a
図5は、本実験の環境について示した図である。 Figure 5 shows the environment of this experiment.
図5では、マイクロホンMr、Ml、目的音源、妨害音源が全て同じ平面上に存在する場合の例について示している。また、図5では、マイクロホンMr、Mlの位置(中心位置)を結んだ線Lの中点の位置(マイクロホンアレイMAの中心点)をP1と図示している。さらに、図5では、P1からみてマイクロホンMrの方向を0°、P1からみてマイクロホンMlの方向を180°として、目的音源及び妨害音源はP1からみて0°~180°のいずれかの角度から到来するものとする。以下では、P1から見た目的音源及び妨害音源の存在する方向を「到来角」又は「到来方向」とも呼ぶものとする。また、図5に示すように、目的音源及び妨害音源(非目的エリアの音源)の位置はP1から1mの距離の半円の線上であるものとする。 Figure 5 shows an example in which microphones Mr, Ml, the target sound source, and the interfering sound source are all on the same plane. Also, in Figure 5, the position of the midpoint of line L connecting the positions (center positions) of microphones Mr, Ml (center point of microphone array MA) is shown as P1. Furthermore, in Figure 5, the direction of microphone Mr as viewed from P1 is 0°, and the direction of microphone Ml as viewed from P1 is 180°, and the target sound source and the interfering sound source arrive from any angle between 0° and 180° as viewed from P1. Hereinafter, the direction in which the apparent sound source and the interfering sound source exist from P1 will also be referred to as the "arrival angle" or "arrival direction". Also, as shown in Figure 5, the target sound source and the interfering sound source (sound source in a non-target area) are located on a semicircular line at a distance of 1 m from P1.
本実験では、学習処理モード(訓練時)、信号処理モード(信号処理時)のいずれの動作モードにおいても、目的音源のドライソース(信号)としてTIMITコーパス(以下の参考文献1参照)を用い、妨害音のドライソース(信号)として、TMITコーパス又はDEMAND(Diverse Environments Multi-channel Acoustic Noise Database)コーパス(以下の参考文献2参照)を用いた。 In this experiment, in both the learning processing mode (during training) and the signal processing mode (during signal processing), the TIMIT corpus (see Reference 1 below) was used as the dry source (signal) of the target sound source, and the TIMIT corpus or the DEMAND (Diverse Environments Multi-channel Acoustic Noise Database) corpus (see Reference 2 below) was used as the dry source (signal) of the interference sound.
参考文献1:J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G.Fiscus, D. S. Pallett, N. L. Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,”Linguistic Data Consotrium, 1992.
参考文献2:J. Thiemann, N. Ito, and E. Vincent, “The diverseenvironments multi-channel acoustic noise database(DEMAND): A database of multichannel environmental noise recordings”, The Journal of the Acoustical Society of America,vol. 133, p. 3591,05, 2013.
Reference 1: JS Garofolo, LF Lamel, WM Fisher, JGFiscus, DS Pallett, NL Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,” Linguistic Data Consotrium, 1992.
Reference 2: J. Thiemann, N. Ito, and E. Vincent, “The diverseenvironments multi-channel acoustic noise database(DEMAND): A database of multichannel environmental noise recordings”, The Journal of the Acoustical Society of America, vol. 133, p. 3591,05, 2013.
本実験では、図5のような音場(モデル環境)においてマイクロホンMl、Mrで捕捉される観測信号(音響信号)をコンピュータ上のシミュレーションにより取得し、さらに取得した観測信号を収音装置100に入力した結果を評価した。
In this experiment, the observed signals (acoustic signals) captured by microphones Ml and Mr in a sound field (model environment) like that shown in Figure 5 were obtained by computer simulation, and the obtained observed signals were then input to the
具体的には、本実験では、PyRoomAcoustics(以下の参考文献3参照)を用いて、図5のような音場(モデル環境)を設定したシミュレーションを行ってインパルス応答を取得し、取得したインパルス応答を上記のドライソース(目的音源及び妨害音源のドライソース)に畳み込むことで、マイクロホンMl、Mrの観測信号Xl、Xrを得た。 Specifically, in this experiment, a simulation was performed using PyRoomAcoustics (see Reference 3 below) with a sound field (model environment) as shown in FIG. 5 to obtain an impulse response, and the obtained impulse response was convoluted with the above-mentioned dry sources (the dry sources of the target sound source and the interfering sound source) to obtain the observation signals Xl and Xr of the microphones Ml and Mr.
参考文献3:Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018 Reference 3: Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018
また、本実験のシミュレーションでは、観測信号Xl、XrにおけるSNRがおよそ0.0[dB]となるよう調整している。なお、以下では、本実験用の音場の3D空間を(x,y,z)の三次元の座標系で表すものとする。 In addition, in the simulation of this experiment, the SNR of the observed signals Xl and Xr is adjusted to be approximately 0.0 [dB]. In the following, the 3D space of the sound field for this experiment is represented by a three-dimensional coordinate system of (x, y, z).
そして、本実験のシミュレーションでは、モデル環境の音場を構成する部屋の大きさは(x,y,z)[m]=(5,3,3)とし、2chのマイクロホンMl,Mrの座標を、それぞれ(x,y,z)[m]=(2.49,1.5,1)、(x,y,z)[m]=(2.51,1.5,1)とした。これにより、マイクロホンMl,Mrの間の間隔は2[cm]となる。また、本実験のシミュレーションでは、部屋の吸音率を0.2、部屋の反射回数を3と設定した。 In the simulation of this experiment, the size of the room that constitutes the sound field of the model environment was set to (x, y, z) [m] = (5, 3, 3), and the coordinates of the 2ch microphones Ml and Mr were set to (x, y, z) [m] = (2.49, 1.5, 1) and (x, y, z) [m] = (2.51, 1.5, 1), respectively. This results in a distance of 2 [cm] between microphones Ml and Mr. In addition, in the simulation of this experiment, the sound absorption coefficient of the room was set to 0.2, and the number of reflections in the room was set to 3.
本実験では、収音装置100の目的エリア音抽出部102に、マスク推定により目的エリア音を推定する第1の目的エリア音抽出部102Aを適用した場合(以下、「第1の本発明の実験モデル」とよぶ)、パワースペクトラム推定により目的エリア音を推定する第2の目的エリア音抽出部102Bを適用した場合(以下、「第2の本発明の実験モデル」と呼ぶ)、及び従来のMUBASEによる目的エリア音推定を適用した場合(以下、「従来構成の実験モデル」と呼ぶ)を適用した場合のそれぞれについてシミュレーションを行った。
In this experiment, simulations were performed for the following cases: a first target area
次に、本実験のシミュレーションにおける各音源の位置について説明する。 Next, we will explain the position of each sound source in the simulation of this experiment.
本実験では、学習時は目的音源の位置を90°に固定し、テスト時には目的音源をエリア内(P1から距離1mで80°~90°の範囲内)で動かすことで、収音装置100が上記の2つの要件を満たしているかを検証した。また、妨害音源については、学習時・テスト時共に、0°、15°、30°、45°、135°、150°、165°、180°の計8か所のうちランダムに1~3か所に設置した。本実験では、このような目的音源及び妨害音原の位置変更を、コーパス上データ処理単位(例えば、単語単位)で行った。
In this experiment, the position of the target sound source was fixed at 90° during learning, and during testing, the target sound source was moved within the area (within a range of 80° to 90° at a distance of 1 m from P1) to verify whether the
次に、本実験のシミュレーションにおける詳細なパラメータ設定について説明する。 Next, we will explain the detailed parameter settings for the simulation of this experiment.
「従来のMUBASEのモデル」を適用したシミュレーションでは、目的エリア音抽出部102において、差分フィルタにより非目的エリア音(妨害音)を推定する際に、低周波ほどパワーが弱いという傾向に基づき、αの値を200/(f+0.01)と設定した。 In a simulation using the "conventional MUBASE model," the value of α was set to 200/(f+0.01) in the target area sound extraction unit 102 when estimating non-target area sound (interference sound) using a differential filter, based on the tendency for the power to be weaker at lower frequencies.
また、「第1の本発明の実験モデル」及び「第2の本発明の実験モデル」の学習では、バッチサイズを32、エポック数を200と設定し、損失関数として平均二乗誤差を用いた。また、「第1の本発明の実験モデル」及び「第2の本発明の実験モデル」の学習では、最適化アルゴリズムにAdam(以下の参考文献4を参照)を用い、学習率は0.001とした。 In addition, in training the "first experimental model of the present invention" and the "second experimental model of the present invention", the batch size was set to 32, the number of epochs was set to 200, and the mean squared error was used as the loss function. In training the "first experimental model of the present invention" and the "second experimental model of the present invention", Adam (see Reference 4 below) was used as the optimization algorithm, and the learning rate was set to 0.001.
参考文献4:D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR), 2015. Reference 4: D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR), 2015.
本実験では、第1の本発明の実験モデル(マスク推定)、第2の本発明の実験モデル(パワースペクトラム推定)、及び従来構成の実験モデル(MUBASE)の環境を構築し、それぞれについて、上記の学習処理及び信号処理(テスト処理)を行った。本実験の信号処理(テスト処理)では、3つの実験モデルのそれぞれについてSNR(Signal-to-Noise Ratio)とSTOI(Short-Time Objective Intelligibility)の2つの指標を測定した。また、本実験のテスト処理では、それぞれの実験モデルについて、目的音源の位置を90°で固定したパターン(以下、「目的音源固定パターン」と呼ぶ)と、目的音源を80°~90°の間でランダムに移動させたパターン(以下、「目的音源移動パターン」と呼ぶ)でのテスト処理を行った。図6は、本実験の結果について示した図である。 In this experiment, an environment was constructed for the first experimental model of the present invention (mask estimation), the second experimental model of the present invention (power spectrum estimation), and the conventional experimental model (MUBASE), and the above-mentioned learning process and signal processing (test process) were performed for each of them. In the signal processing (test process) of this experiment, two indices, SNR (Signal-to-Noise Ratio) and STOI (Short-Time Objective Intelligence), were measured for each of the three experimental models. In addition, in the test process of this experiment, test processes were performed for each experimental model in a pattern in which the position of the target sound source was fixed at 90° (hereinafter referred to as the "target sound source fixed pattern") and a pattern in which the target sound source was moved randomly between 80° and 90° (hereinafter referred to as the "target sound source moving pattern"). Figure 6 shows the results of this experiment.
(A-3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
(A-3) Advantages of the Embodiment According to this embodiment, the following advantages can be obtained.
従来のMUBASEを用いた構成では、所定の係数を伴うスペクトル減算によってエリア収音処理を行っていたが、この実施形態の収音装置100では、教師データにより学習したニューラルネットワークを用いた深層エリア収音(DMUBASE)を行っている。特に、この実施形態の収音装置100では、2チャンネルのマイクロホンアレイMAにおいて、差分フィルタの出力dをとることで正面方向以外から到来する妨害音(非目的エリア音)を得られることを利用し、ニューラルネットワークに差分フィルタの出力d(妨害音が優勢となる情報)を観測信号と共にニューラルネットワークに入力することで、正面方向の目的エリア音が強調された出力を得ることができる。
In a conventional configuration using MUBASE, area sound collection processing was performed by spectral subtraction involving a predetermined coefficient, but the
上記の通り、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音(DMUBASE)では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。そして、この実施形態の収音装置100では、単純なデータドリブン(例えば、観測信号のみ)でなく、差分フィルタの出力d等の物理的な情報を補助情報に用いることで、環境変化への頑強性を向上させている。そして、図6に示すように、この実施形態の構成を再現した実験モデル(第1及び第2の本発明の実験モデル)はいずれも、目的音源固定パターン及び目的音源移動パターンの両方で、従来構成の実験モデル(MUBASE)の精度を上回った。つまり、本発明の実験モデルは、従来よりも目的エリア音の音源の移動に対しても頑健であることが確認できた。
As described above, in the area sound collection process, it is desirable to be robust against the movement of the sound source within the target area, but in the deep area sound collection (DMUBASE), the filter is learned in a data-driven manner, so constraints are required to ensure robustness. In addition, in the
(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B) Other Embodiments The present invention is not limited to the above-described embodiments, and modified embodiments such as those exemplified below can also be mentioned.
(B-1)上記の実施形態において、収音装置100は、学習処理モードと信号処理モード(テストモード)の両方に対応するものとして説明したが、予め学習モデルが保持されていれば信号処理モードだけに対応し、学習処理モードに必要な手段(学習手段)については除外した構成としてもよい。
(B-1) In the above embodiment, the
100…収音装置、101…信号入力部、102…目的エリア音抽出部、103…信号出力部、102A…第1の目的エリア音抽出部、200…推定処理部、212、221、222、231、241、251、211、…FC層、210…マスク処理部、220…位相処理部、230…差分抽出器、102B…第2の目的エリア音抽出部、…推定処理部300、212、221、222、231、241、351、211…FC層、230…差分抽出器。
100...sound collection device, 101...signal input section, 102...target area sound extraction section, 103...signal output section, 102A...first target area sound extraction section, 200...estimation processing section, 212, 221, 222, 231, 241, 251, 211,...FC layer, 210...mask processing section, 220...phase processing section, 230...difference extractor, 102B...second target area sound extraction section,...
Claims (5)
前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段と
を有することを特徴とする収音装置。 a target sound extraction processing means for acquiring a target sound emphasis signal in which a component of a target sound included in a first input signal is emphasized from a first input signal from a first microphone constituting a microphone array and a difference signal which is a difference between the first input signal and a second input signal from a second microphone constituting the microphone array, using a learning model;
a learning means for acquiring the learning model by performing learning processing on data including the first input signal, the difference signal, and the target sound signal as teacher data;
A sound collecting device comprising:
前記目的音抽出処理手段は、前記マスク係数を用いて前記第1の入力信号から前記非目的音の成分を抑圧することで前記目的音強調信号を取得する
ことを特徴とする請求項1に記載の収音装置。 the learning model outputs a mask coefficient that suppresses components of non-target sounds other than the target sound included in the first input signal from the first input signal and the differential signal;
The sound collection device according to claim 1 , wherein the target sound extraction processing means acquires the target sound emphasis signal by suppressing the non-target sound components from the first input signal using the mask coefficient.
学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段と、
前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段と
して機能させることを特徴とする収音プログラム。 Computer,
a target sound extraction processing means for acquiring a target sound emphasis signal in which a component of a target sound included in a first input signal is emphasized from a first input signal from a first microphone constituting a microphone array and a difference signal which is a difference between the first input signal and a second input signal from a second microphone constituting the microphone array, using a learning model ;
a learning means for acquiring the learning model by performing learning processing on data including the first input signal, the difference signal, and the target sound signal as teacher data;
A sound recording program characterized by functioning as follows.
前記収音装置は目的音抽出処理手段及び学習手段を備え、
前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得し、
前記学習手段は、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る
ことを特徴とする収音方法。 In the sound collection method performed by the sound collection device,
The sound collection device includes a target sound extraction processing means and a learning means ,
the target sound extraction processing means acquires, using a learning model, a target sound enhancement signal in which a component of the target sound included in a first input signal is enhanced from a first input signal from a first microphone constituting a microphone array and a differential signal which is a difference between the first input signal and a second input signal from a second microphone constituting the microphone array ;
The learning means obtains the learning model by performing a learning process using data including the first input signal, the difference signal, and the target sound signal as teacher data.
A sound collection method comprising:
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021025965A JP7619564B2 (en) | 2021-02-22 | 2021-02-22 | Sound collection device, sound collection program, and sound collection method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021025965A JP7619564B2 (en) | 2021-02-22 | 2021-02-22 | Sound collection device, sound collection program, and sound collection method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022127777A JP2022127777A (en) | 2022-09-01 |
| JP7619564B2 true JP7619564B2 (en) | 2025-01-22 |
Family
ID=83061295
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021025965A Active JP7619564B2 (en) | 2021-02-22 | 2021-02-22 | Sound collection device, sound collection program, and sound collection method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7619564B2 (en) |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016127457A (en) | 2015-01-05 | 2016-07-11 | 沖電気工業株式会社 | Sound pickup device, program and method |
| US20200051580A1 (en) | 2019-07-30 | 2020-02-13 | Lg Electronics Inc. | Method and apparatus for sound processing |
| JP2020194093A (en) | 2019-05-28 | 2020-12-03 | 沖電気工業株式会社 | Speech recognition device, speech recognition program, and speech recognition method |
| WO2021260868A1 (en) | 2020-06-25 | 2021-12-30 | 三菱電機株式会社 | Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method |
Family Cites Families (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3154151B2 (en) * | 1993-03-10 | 2001-04-09 | ソニー株式会社 | Microphone device |
-
2021
- 2021-02-22 JP JP2021025965A patent/JP7619564B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2016127457A (en) | 2015-01-05 | 2016-07-11 | 沖電気工業株式会社 | Sound pickup device, program and method |
| JP2020194093A (en) | 2019-05-28 | 2020-12-03 | 沖電気工業株式会社 | Speech recognition device, speech recognition program, and speech recognition method |
| US20200051580A1 (en) | 2019-07-30 | 2020-02-13 | Lg Electronics Inc. | Method and apparatus for sound processing |
| WO2021260868A1 (en) | 2020-06-25 | 2021-12-30 | 三菱電機株式会社 | Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022127777A (en) | 2022-09-01 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Wang et al. | Deep learning based target cancellation for speech dereverberation | |
| Tolooshams et al. | Channel-attention dense u-net for multichannel speech enhancement | |
| US12230259B2 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
| JP4774100B2 (en) | Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium | |
| Schwartz et al. | Multi-microphone speech dereverberation and noise reduction using relative early transfer functions | |
| Xiao et al. | Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation | |
| JP6348427B2 (en) | Noise removal apparatus and noise removal program | |
| Janský et al. | Auxiliary function-based algorithm for blind extraction of a moving speaker | |
| JP6827908B2 (en) | Speech enhancement device, speech enhancement learning device, speech enhancement method, program | |
| JP2015135437A (en) | Model estimation device, noise suppression device, speech enhancement device, and method and program therefor | |
| CN113870893A (en) | Multi-channel double-speaker separation method and system | |
| JP7630723B2 (en) | Method and system for dereverberating a speech signal - Patents.com | |
| Malek et al. | Block‐online multi‐channel speech enhancement using deep neural network‐supported relative transfer function estimates | |
| Sharma et al. | Development of a speech separation system using frequency domain blind source separation technique | |
| Sivasankaran et al. | Analyzing the impact of speaker localization errors on speech separation for automatic speech recognition | |
| KR101537653B1 (en) | Method and system for noise reduction based on spectral and temporal correlations | |
| JP7619564B2 (en) | Sound collection device, sound collection program, and sound collection method | |
| Raikar et al. | Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and Quality. | |
| Li et al. | MAF-Net: multidimensional attention fusion network for multichannel speech separation | |
| Dam et al. | Source separation employing beamforming and SRP-PHAT localization in three-speaker room environments | |
| Dehghan Firoozabadi et al. | A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers | |
| JP7589943B2 (en) | Sound collection device, sound collection program, and sound collection method | |
| Schwartz et al. | A recursive expectation-maximization algorithm for speaker tracking and separation | |
| Ingale et al. | Deep neural network based speech enhancement using mono channel mask | |
| Cui et al. | Correntropy-based multi-objective multi-channel speech enhancement |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210526 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231002 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240531 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240702 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240830 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241126 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241225 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7619564 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |