Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7619564B2 - Sound collection device, sound collection program, and sound collection method - Google Patents
[go: Go Back, main page]

JP7619564B2 - Sound collection device, sound collection program, and sound collection method - Google Patents

Sound collection device, sound collection program, and sound collection method Download PDF

Info

Publication number
JP7619564B2
JP7619564B2 JP2021025965A JP2021025965A JP7619564B2 JP 7619564 B2 JP7619564 B2 JP 7619564B2 JP 2021025965 A JP2021025965 A JP 2021025965A JP 2021025965 A JP2021025965 A JP 2021025965A JP 7619564 B2 JP7619564 B2 JP 7619564B2
Authority
JP
Japan
Prior art keywords
sound
signal
input signal
target sound
target area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021025965A
Other languages
Japanese (ja)
Other versions
JP2022127777A (en
Inventor
大 藤枝
一浩 片桐
耕平 西城
哲司 小川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Waseda University
Oki Electric Industry Co Ltd
Original Assignee
Waseda University
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Waseda University, Oki Electric Industry Co Ltd filed Critical Waseda University
Priority to JP2021025965A priority Critical patent/JP7619564B2/en
Publication of JP2022127777A publication Critical patent/JP2022127777A/en
Application granted granted Critical
Publication of JP7619564B2 publication Critical patent/JP7619564B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

本発明は、収音装置、収音プログラム、及び収音方法に関し、例えば、目的エリアに存在する音源から到来する音(以下、「目的エリア音」と呼ぶ)を収音するエリア収音処理に関する。 The present invention relates to a sound collection device, a sound collection program, and a sound collection method, and, for example, to an area sound collection process for collecting sound coming from a sound source present in a target area (hereinafter referred to as "target area sound").

従来、多チャンネルマイクロホンを用いたエリア収音技術として、非特許文献1に記載されたMUBASE(Multiple Beam-forming Area Sound Enhancement)が挙げられる。MUBASEは、2チャンネルのマイクロホンの観測信号の差分により周囲からの妨害音を抽出できることを利用し、正面方向のエリアを強調する手法である。 Conventionally, an area sound collection technology using a multi-channel microphone is MUBASE (Multiple Beam-forming Area Sound Enhancement) described in Non-Patent Document 1. MUBASE is a method that emphasizes the area in the front direction by utilizing the ability to extract disturbing sounds from the surroundings by using the difference in the observation signals of two-channel microphones.

図7は、2つのマイクロホンMl、Mrを備えるマイクロホンアレイMAの観測信号を用いて、MUBASEにより正面方向(目的エリア音が存在する方向)の音の成分を強調して取得する例について示した図である。 Figure 7 shows an example of how MUBASE is used to emphasize and acquire sound components from the front direction (the direction in which the target area sound is located) using observation signals from a microphone array MA equipped with two microphones Ml and Mr.

ここで、マイクロホンMl、Mrの観測信号をそれぞれ以下、(1)式、(2)式としたとき(fは周波数ビンのインデックス)、観測信号の差分は以下の(3)式のように示すことができる。そして、その観測信号の差分は、正面方向にnullを向けるフィルタ(以下、「差分フィルタ」と呼ぶ)となり、エリア外からの妨害音が抽出される。ただし、差分フィルタにより得られる推定妨害音は実際の妨害音に比べ低周波ほどパワーが弱くなることが知られている。差分フィルタにより得られる推定妨害音を利用し、正面の目的エリア内の音源yからの音は、以下の式(4)で表されるサブトラクションを用いて抽出できる。

Figure 0007619564000001
Here, when the observation signals of the microphones Ml and Mr are respectively expressed as the following formulas (1) and (2) (f is a frequency bin index), the difference of the observation signals can be expressed as the following formula (3). The difference of the observation signals becomes a filter (hereinafter referred to as a "difference filter") that faces null in the front direction, and interference sounds from outside the area are extracted. However, it is known that the estimated interference sounds obtained by the difference filter have weaker power at lower frequencies than the actual interference sounds. Using the estimated interference sounds obtained by the difference filter, the sound from the sound source yf in the target area in front can be extracted using subtraction expressed by the following formula (4).
Figure 0007619564000001

ただし、(4)式において、サブトラクション係数αはハイパーパラメータである。(4)式において、係数αの値により強調するエリアの幅が変化し、αの値が大きいほど狭いビームとなる。 In equation (4), the subtraction coefficient αf is a hyperparameter. In equation (4), the width of the emphasized area changes depending on the value of coefficient αf . The larger the value of αf , the narrower the beam becomes.

Kazuhiro Katagiri,Tokuo Yamaguchi,Takashi Yazu,and Yoong Keok Lee, “Multiple beam-forming area sound enhancement(MUBASE) and stereophonic area sound reproduction(SASR)system”,SIGGRAPH Asia 2015 Emerging Technologies,2015.Kazuhiro Katagiri, Tokuo Yamaguchi, Takashi Yazu, and Yoong Keok Lee, “Multiple beam-forming area sound enhancement (MUBASE) and stereophonic area sound reproduction (SASR) system”, SIGGRAPH Asia 2015 Emerging Technologies, 2015.

従来のMUBASEを用いたエリア収音処理では、目的エリア内の音源の位置等により最適な係数αの値は異なる。 In the conventional area sound collection processing using MUBASE, the optimum value of the coefficient αf varies depending on the position of the sound source within the target area.

例えば、従来のMUBASEを用いたエリア収音処理において手動で係数αを調整しようとした場合を想定すると、係数αが大きすぎればオーバーサブトラクションになり、収音処理により得られる信号(目的エリア音を強調した信号)が歪んでしまい、係数αが小さすぎれば妨害音(非目的エリア音)の抑圧が不十分となってしまうため、係数αの最適な調整は困難である。 For example, assuming that an attempt is made to manually adjust the coefficient αf in area sound collection processing using the conventional MUBASE, if the coefficient αf is too large, over-subtraction occurs, and the signal obtained by the sound collection processing (a signal in which the target area sound is emphasized) is distorted, whereas if the coefficient αf is too small, suppression of interference sounds (non-target area sounds) becomes insufficient, making it difficult to optimally adjust the coefficient αf .

以上のような問題を鑑みて、目的エリア内の音源に関する環境変化(例えば、音源の移動)に対してより頑健な収音装置、収音プログラム、及び収音方法が望まれている。 In view of the above problems, there is a need for a sound collection device, a sound collection program, and a sound collection method that are more robust against environmental changes (e.g., movement of the sound source) related to the sound source within the target area.

第1の本発明の収音装置は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段と、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段とを有することを特徴とする。 The first sound collection device of the present invention is characterized in having a target sound extraction processing means for using a learning model to obtain a target sound enhancement signal that emphasizes the target sound component contained in a first input signal from a first microphone that constitutes a microphone array and a differential signal that is the difference between the first input signal and a second input signal from a second microphone that constitutes the microphone array, and a learning means for obtaining the learning model by learning and processing the first input signal, the differential signal, and data including the target sound signal as teacher data .

第2の本発明の収音プログラムは、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段と、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段として機能させることを特徴とする。 The second sound collection program of the present invention is characterized in that it functions as a target sound extraction processing means for using a learning model to obtain a target sound emphasis signal that emphasizes the target sound component contained in a first input signal from a first microphone that constitutes a microphone array and a differential signal that is the difference between the first input signal and a second input signal from a second microphone that constitutes the microphone array, and as a learning means for obtaining the learning model by learning and processing data including the first input signal, the differential signal, and the target sound signal as teacher data .

第3の本発明は、音装置が行う収音方法において、前記収音装置は目的音抽出処理手段と学習手段とを備え、前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得し、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得ることを特徴とする。
The third invention is a sound collection method performed by a sound collection device, the sound collection device being equipped with a target sound extraction processing means and a learning means , and the target sound extraction processing means uses a learning model to obtain a target sound enhancement signal that emphasizes the target sound component contained in a first input signal from a first microphone that constitutes a microphone array and a differential signal that is the difference between the first input signal and a second input signal from a second microphone that constitutes the microphone array, and obtains the learning model by learning and processing data including the first input signal, the differential signal, and the target sound signal as teacher data .

本発明によれば、目的エリア内の音源に関する環境変化に対してより頑健な収音処理を提供することができる。 The present invention provides a sound collection process that is more robust against environmental changes related to sound sources within a target area.

実施形態に係る第1の目的エリア音抽出部の機能的構成について示したブロック図である。FIG. 2 is a block diagram showing a functional configuration of a first target area sound extraction unit according to the embodiment. 実施形態に係る第2の目的エリア音抽出部の機能的構成について示したブロック図である。FIG. 11 is a block diagram showing a functional configuration of a second target area sound extraction unit according to the embodiment. 実施形態に係る収音装置の機能的構成について示したブロック図である。1 is a block diagram showing a functional configuration of a sound collection device according to an embodiment. 実施形態に係る収音装置のハードウェア構成の例について示したブロック図である。1 is a block diagram showing an example of a hardware configuration of a sound collection device according to an embodiment. 実施形態に係る収音装置の実験環境について示した図である。FIG. 1 is a diagram showing an experimental environment for a sound collection device according to an embodiment. 実施形態に係る収音装置の実験結果について示した図である。11A to 11C are diagrams showing experimental results of the sound collection device according to the embodiment. 従来の2チャンネルマイクロホンアレイを用いた収音処理について示した図である。FIG. 1 is a diagram showing a conventional sound collection process using a two-channel microphone array.

(A)主たる実施形態
以下、本発明による収音装置、プログラム及び方法の一実施形態を、図面を参照しながら詳述する。
(A) Main embodiment Hereinafter, an embodiment of a sound collection device, a program, and a method according to the present invention will be described in detail with reference to the drawings.

(A-1)実施形態の構成
図3は、この実施形態の収音装置100の機能的構成について示したブロック図である。
(A-1) Configuration of the Embodiment FIG. 3 is a block diagram showing the functional configuration of the sound collection device 100 of this embodiment.

収音装置100は、2つのマイクロホンMr、Mlを備えるマイクロホンアレイMAを用いて、目的エリアの音源からの目的エリア音を収音する目的エリア音収音処理を行う。 The sound collection device 100 performs target area sound collection processing to collect target area sound from a sound source in the target area using a microphone array MA having two microphones Mr and Ml.

マイクロホンアレイMAは、目的エリアが存在する空間の任意の場所に配置される。なお、この実施形態では、説明を簡易とするため、マイクロホンアレイMAで収音の対象となる目的エリア(目的エリアに配置された目的音源)は1つだけであるものとする。 The microphone array MA is placed anywhere in the space in which the target area exists. Note that in this embodiment, for ease of explanation, it is assumed that there is only one target area (target sound source placed in the target area) that is the target of sound pickup by the microphone array MA.

次に、収音装置100の内部構成について説明する。 Next, the internal configuration of the sound collection device 100 will be described.

収音装置100は、信号入力部101、目的エリア音抽出部102、及び信号出力部103を備える。なお、収音装置100を構成する各機能ブロックの詳細処理については後述する。 The sound collection device 100 includes a signal input unit 101, a target area sound extraction unit 102, and a signal output unit 103. The detailed processing of each functional block constituting the sound collection device 100 will be described later.

信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、ディジタル信号に変換して、目的エリア音抽出部102で処理可能な形式の信号(この実施形態では、周波数領域の信号)に変換する機能を担っている。信号入力部101は、各マイクロホンで観測された音響信号(アナログ信号)を、アナログ信号からディジタル信号に変換し、さらに時間領域から周波数領域に変換(例えば、高速フーリエ変換等により変換)して、目的エリア音抽出部102に供給する。 The signal input unit 101 has the function of converting the acoustic signals (analog signals) observed by each microphone into digital signals, and then converting them into a signal format that can be processed by the target area sound extraction unit 102 (in this embodiment, a frequency domain signal). The signal input unit 101 converts the acoustic signals (analog signals) observed by each microphone from analog signals to digital signals, and further converts them from the time domain to the frequency domain (for example, by using a fast Fourier transform, etc.), and supplies them to the target area sound extraction unit 102.

なお、ここでは、信号入力部101から目的エリア音抽出部102に供給されるマイクロホンMl、Mrの観測信号(周波数領域に変換された音響信号)を、それぞれX、Xと表すものとする。 It should be noted that, here, the observation signals (acoustic signals converted into the frequency domain) of the microphones Ml and Mr supplied from the signal input unit 101 to the target area sound extraction unit 102 are represented as Xr and Xl , respectively.

目的エリア音抽出部102は、信号入力部101から供給された信号について、目的エリア音の成分を推定して抽出する機能を担っている。 The target area sound extraction unit 102 has the function of estimating and extracting the target area sound components from the signal supplied from the signal input unit 101.

信号出力部103は、目的エリア音抽出部102から出力された信号を、周波数領域から時間領域へ変換して、所定の形式で出力する。なお、信号出力部103による信号出力の形式や方式については限定されないものである。 The signal output unit 103 converts the signal output from the target area sound extraction unit 102 from the frequency domain to the time domain and outputs the signal in a predetermined format. Note that there are no limitations on the format or method of signal output by the signal output unit 103.

次に、収音装置100のハードウェア構成の例について説明する。 Next, an example of the hardware configuration of the sound collection device 100 will be described.

収音装置100は、全てハードウェア(例えば、専用チップ等)により構成するようにしてもよいし一部又は全部についてソフトウェア(プログラム)として構成するようにしてもよい。収音装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態の収音プログラムを含む)をインストールすることにより構成するようにしてもよい。 The sound collection device 100 may be configured entirely from hardware (e.g., a dedicated chip, etc.), or may be configured partially or entirely as software (program). The sound collection device 100 may be configured, for example, by installing a program (including the sound collection program of the embodiment) on a computer having a processor and memory.

図4は、収音装置100のハードウェア構成の例について示したブロック図である。 Figure 4 is a block diagram showing an example of the hardware configuration of the sound collection device 100.

図4では、収音装置100を、ソフトウェア(コンピュータ)を用いて構成する際のハードウェア構成の例について示している。 Figure 4 shows an example of the hardware configuration when the sound collection device 100 is configured using software (computer).

図4に示す収音装置100は、ハードウェア的な構成要素として、プログラム(実施形態の収音プログラムを含む)がインストールされたコンピュータ400を有している。また、コンピュータ400は、収音プログラム専用のコンピュータとしてもよいし、他の機能のプログラムと共用される構成としてもよい。 The sound collection device 100 shown in FIG. 4 has, as a hardware component, a computer 400 on which a program (including the sound collection program of the embodiment) is installed. The computer 400 may be a computer dedicated to the sound collection program, or may be configured to be shared with programs of other functions.

図4に示すコンピュータ400は、プロセッサ401、一次記憶部402、及び二次記憶部403を有している。一次記憶部402は、プロセッサ401の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリを適用することができる。二次記憶部403は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASH(登録商標)メモリやHDDやSSD等の不揮発性メモリを適用することができる。この実施形態のコンピュータ400では、プロセッサ401が起動する際、二次記憶部403に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部402上に展開して実行する。 The computer 400 shown in FIG. 4 has a processor 401, a primary storage unit 402, and a secondary storage unit 403. The primary storage unit 402 is a storage unit that functions as a working memory (work memory) for the processor 401, and can be, for example, a high-speed memory such as a dynamic random access memory (DRAM). The secondary storage unit 403 is a storage unit that records various data such as an operating system (OS) and program data (including data of the sound collection program according to the embodiment), and can be, for example, a non-volatile memory such as a FLASH (registered trademark) memory, HDD, or SSD. In the computer 400 of this embodiment, when the processor 401 starts up, the OS and programs (including the sound collection program according to the embodiment) recorded in the secondary storage unit 403 are read, deployed on the primary storage unit 402, and executed.

なお、コンピュータ400の具体的な構成は図4の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部402が不揮発メモリ(例えば、FLASH(登録商標)メモリ等)であれば、二次記憶部403については除外した構成としてもよい。 The specific configuration of the computer 400 is not limited to that shown in FIG. 4, and various configurations can be applied. For example, if the primary storage unit 402 is a non-volatile memory (e.g., FLASH (registered trademark) memory, etc.), the secondary storage unit 403 may be excluded.

次に、目的エリア音抽出部102による目的エリア音抽出処理の概要について説明する。 Next, we will provide an overview of the target area sound extraction process performed by the target area sound extraction unit 102.

ここで述べる目的エリア音抽出処理は、従来のMUBASEと同様、2つのマイクロホンの観測信号から目的エリア音を抽出する処理として設計される。従来のMUBASEの処理では、上記の(4)式が適用されるが、目的音源や妨害音(非目的エリア音)の到来角によって最適な係数αは異なり、手動で設定することは困難となる場合があった。また、従来のMUBASEの処理において、αの値が大きすぎると、オーバーサブトラクションとなり、目的エリア内の音声が歪んでしまう場合があった。反対に、従来のMUBASEの処理において、αの値が小さければ、エリア外の妨害音をあまり抑圧できない場合があった。 The target area sound extraction process described here is designed as a process for extracting target area sound from observation signals of two microphones, similar to the conventional MUBASE. In the conventional MUBASE process, the above formula (4) is applied, but the optimal coefficient αf varies depending on the arrival angle of the target sound source and the interference sound (non-target area sound), and it may be difficult to set it manually. In addition, in the conventional MUBASE process, if the value of αf is too large, oversubtraction may occur, and the sound within the target area may be distorted. On the other hand, in the conventional MUBASE process, if the value of αf is small, the interference sound outside the area may not be suppressed very much.

この実施形態の目的エリア音抽出部102では、上記の(4)式で表されるサブトラクションにあたる計算を、深層ニューラルネットワーク(DNN(Deep Neural Network)を用いて学習することにより目的エリア音を収音する構成(以下、「深層エリア収音」又は「DMUBASE」と呼ぶ)を適用するものとして説明する。この実施形態の目的エリア音抽出部10では、深層エリア収音(DMUBASE)により、目的音や妨害音の到来角に依らず、高精度なエリア収音を実現することができる。 In this embodiment, the target area sound extraction unit 102 will be described as applying a configuration (hereinafter referred to as "deep area sound collection" or "DMUBASE") that collects target area sound by learning using a deep neural network (DNN) to perform the subtraction calculation represented by the above formula (4). In this embodiment, the target area sound extraction unit 10 can achieve highly accurate area sound collection by using deep area sound collection (DMUBASE), regardless of the arrival angle of the target sound or interfering sound.

ところで、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音(DMUBASE)では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。 Incidentally, in area sound collection processing, it is desirable to be robust against the movement of sound sources within the target area, but in deep area sound collection (DMUBASE), filters are learned in a data-driven manner, so constraints are needed to ensure robustness.

そのため、深層エリア収音(DMUBASE)では、「エリア外の妨害音を抑圧できること」と、「エリア内における目的音源の動きに対し頑健であること」という要件を満たしていることが望ましい。 Therefore, it is desirable for deep area sound collection (DMUBASE) to meet the requirements of "being able to suppress interfering sounds outside the area" and "being robust against the movement of the target sound source within the area."

以上を踏まえて、この実施形態では、目的エリア音抽出部102のモデルアーキテクチャとして、例えば、図1に示す第1の目的エリア音抽出部102A又は、図2に示す第2の目的エリア音抽出部102Bのいずれかを適用するものとする。 In light of the above, in this embodiment, for example, either the first target area sound extraction unit 102A shown in FIG. 1 or the second target area sound extraction unit 102B shown in FIG. 2 is applied as the model architecture of the target area sound extraction unit 102.

まず、図1に示す第1の目的エリア音抽出部102Aについて説明する。 First, we will explain the first target area sound extraction unit 102A shown in Figure 1.

第1の目的エリア音抽出部102Aは、推定処理部200、マスク処理部210、位相処理部220、及び差分抽出器230を有している。 The first target area sound extraction unit 102A has an estimation processing unit 200, a mask processing unit 210, a phase processing unit 220, and a difference extractor 230.

推定処理部200は、各マイクロホンアレイの観測信号X、Xに基づいて、Xに含まれる妨害音(非目的エリア音)の成分を推定し、Xに含まれる非目的エリア音の成分を抑圧するための係数(フィルタ係数)を設定した信号(以下、「マスク信号」と呼ぶ)を出力する。マスク信号には、周波数ごとにXに含まれる妨害音(非目的エリア音)の成分を抑圧するためのフィルタ係数(0~1の間のいずれかの値)が設定されている。 The estimation processing unit 200 estimates the components of the interference sound (non-target area sound) contained in Xr based on the observation signals Xl and Xr of each microphone array, and outputs a signal (hereinafter referred to as a "mask signal") in which a coefficient (filter coefficient) for suppressing the components of the non-target area sound contained in Xr is set. In the mask signal, a filter coefficient (any value between 0 and 1) for suppressing the components of the interference sound (non-target area sound) contained in Xr is set for each frequency.

具体的には、推定処理部200は、DNNを用いて、観測信号|X|と、X、Xの差分(差分フィルタの出力)となる|d|=|X-X|に基づいてマスク信号を推定する処理を行う。なお、ここでは、マイクロホンMrの観測信号Xrから目的エリア音の成分を抽出する処理を行うため、観測信号|X|と差分フィルタの出力|X-X|に基づいてマスク信号を推定する処理を行うものとして説明するが、観測信号|X|を基準とし、フィルタの出力|X-X|に基づいてマスク信号を推定する処理を行うようにしてもよい。 Specifically, the estimation processing unit 200 uses a DNN to perform processing to estimate a mask signal based on the observed signal | Xr | and |d| = | Xr - Xl |, which is the difference between Xl and Xr (output of a differential filter). Note that, in this embodiment, in order to perform processing to extract components of the target area sound from the observed signal Xr of the microphone Mr, processing to estimate a mask signal is performed based on the observed signal | Xr | and the output of a differential filter | Xr - Xl |, but processing to estimate a mask signal may be performed based on the observed signal | Xl | as a reference and the output of the filter | Xl - Xr |.

マスク処理部210は、推定処理部200から供給されるマスク信号(フィルタ係数)に基づいて、|X|に含まれる妨害音(非目的エリア音)の成分をマスク(減衰;抑圧;フィルタ処理)させて、目的エリア音を強調した信号を出力する。 The mask processing unit 210 masks (attenuates; suppresses; filters) the components of the interference sound (non-target area sound) contained in |X r | based on the mask signal (filter coefficient) supplied from the estimation processing unit 200, and outputs a signal in which the target area sound is emphasized.

位相処理部220は、マスク処理部210から供給される信号にXの位相(位相情報)を付与(同期)させる処理を行って出力する。ここでは、位相処理部220から出力される信号を「y^」と表す。ここでは、y^を、第1の目的エリア音抽出部102Aの出力信号としている。すなわち、ここでは、y^が、目的エリア音を抽出(強調;推定)した結果と言える。 The phase processing unit 220 performs processing to impart (synchronize) a phase of Xr (phase information) to the signal supplied from the mask processing unit 210, and outputs the result. Here, the signal output from the phase processing unit 220 is represented as "y^". Here, y^ is the output signal of the first target area sound extraction unit 102A. In other words, here, y^ can be said to be the result of extracting (emphasizing; estimating) the target area sound.

差分抽出器230は、位相処理部220から出力されるy^(目的エリア音を推定した結果)と、機械学習における教師ラベル(正解ラベル)となるクリーンな目的エリア音(以下、「y」と表す)との差分を取得し、この差分を推定処理部200にloss(機械学習におけるloss)としてフィードバックする。すなわち、差分抽出器230は、推定処理部200に学習処理させる際にのみ機能する要素である。したがって、すでに推定処理部200で新たな学習処理が行われない場合には、第1の目的エリア音抽出部102Aから差分抽出器230を除外するようにしてもよい。 The difference extractor 230 obtains the difference between y^ (the result of estimating the destination area sound) output from the phase processing unit 220 and the clean destination area sound (hereinafter referred to as "y") which serves as the teacher label (correct label) in machine learning, and feeds this difference back to the estimation processing unit 200 as a loss (loss in machine learning). In other words, the difference extractor 230 is an element which functions only when the estimation processing unit 200 is made to perform learning processing. Therefore, if new learning processing has already not been performed by the estimation processing unit 200, the difference extractor 230 may be excluded from the first destination area sound extraction unit 102A.

以上のように、第1の目的エリア音抽出部102Aでは、推定処理部200に観測信号|X|と差分フィルタの出力として得られる非目的エリア音(妨害音)が支配的な|d|を入力としたニューラルネットワーク(推定処理部200)により、マイクロホンアレイMA正面の扇形領域(図7参照)に相当する目的エリア内の音源(目的エリア音)を抽出するためのマスク信号を推定する。 As described above, in the first target area sound extraction unit 102A, a mask signal for extracting a sound source (target area sound) within a target area corresponding to a sector-shaped area in front of the microphone array MA (see Figure 7) is estimated by a neural network (estimation processing unit 200) that receives as input the observed signal | Xr | and |d| in which non-target area sound (interference sound) is dominant, obtained as the output of a differential filter.

この実施形態の第1の目的エリア音抽出部102Aでは、推定処理部200に対して学習処理を実行させる動作モード(以下、「学習処理モード」と呼ぶ)と、供給された観測信号Xl,Xrに基づいて、目的エリア音抽出処理(マスク信号及びy^の抽出)を行う動作モード(以下、「信号処理モード」と呼ぶ)の両方に対応しているものとする。なお、第1の目的エリア音抽出部102Aにおいて、学習処理モードに対応しない構成(例えば、既に学習モデルを取得しているか外部から学習モデルを取得する構成等)としてもよい。 The first target area sound extraction unit 102A in this embodiment is compatible with both an operation mode in which the estimation processing unit 200 executes a learning process (hereinafter referred to as the "learning processing mode"), and an operation mode in which the target area sound extraction process (extraction of the mask signal and y^) is performed based on the supplied observation signals Xl and Xr (hereinafter referred to as the "signal processing mode"). Note that the first target area sound extraction unit 102A may be configured not to support the learning processing mode (for example, a configuration in which a learning model has already been acquired or a learning model is acquired from outside, etc.).

第1の目的エリア音抽出部102Aは、学習処理モードで動作する場合、教師データとしての観測信号(X、X)のサンプルと、教師ラベルとしてのクリーンな目的エリア音yを含むデータセット(以下、「教師データセット」と呼ぶ)が供給されると、教師データセットの観測信号(X、X)から、|X|と|d|を取得して推定処理部200に供給するとともに、差分抽出器230が抽出したloss(差分)を推定処理部200にフィードバックさせる。これにより、推定処理部200では、教師データセットに基づいて学習(ディープラーニング)した学習モデルを取得することができる。 When the first target area sound extraction unit 102A operates in the learning processing mode, upon being supplied with a data set (hereinafter referred to as the "teacher data set") including samples of observed signals ( Xl , Xr ) as teacher data and clean target area sound y as a teacher label, the first target area sound extraction unit 102A acquires | Xr | and |d| from the observed signals ( Xl , Xr ) of the teacher data set and supplies them to the estimation processing unit 200, and also feeds back the loss (difference) extracted by the difference extractor 230 to the estimation processing unit 200. This allows the estimation processing unit 200 to acquire a learning model that has been learned (deep learning) based on the teacher data set.

次に、推定処理部200の内部構成の例について図1を用いて説明する。 Next, an example of the internal configuration of the estimation processing unit 200 will be described with reference to FIG. 1.

ここでは、推定処理部200の内部構成として、図1の例を説明するが、推定処理部200としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習(ディープラーニング)のフレームワークを適用することができる。 Here, the example of Figure 1 will be described as the internal configuration of the estimation processing unit 200, but as the estimation processing unit 200, various machine learning (deep learning) frameworks can be applied as long as learning processing and signal processing based on the above teacher dataset are possible.

そして、この実施形態の例では、推定処理部200のニューラルネットワークは、図1に示す5層の構成となっているものとして説明するが、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の構成を適用することができる。 In this embodiment, the neural network of the estimation processing unit 200 is described as having the five-layer configuration shown in FIG. 1, but various configurations can be applied as long as learning processing and signal processing based on the above teacher data set are possible.

図1に示す推定処理部200では、入力層から順に、「FC層211、212」、「FC層221、222」、「FC層231」、「FC層241」、「FC層251」が配置されている。図1に示す推定処理部200では入力のFC層211、212にそれぞれ|x|、|d|が入力されている。また、図1に示す推定処理部200のニューラルネットワークでは、FC層251のみ活性化関数がシグモイド(Sigmoid)であり、それ以外のFC層の活性化関数がReLU(Rectified Linear Unit)となっている。 In the estimation processing unit 200 shown in Fig. 1, "FC layers 211, 212", "FC layers 221, 222", "FC layer 231", "FC layer 241", and "FC layer 251" are arranged in this order from the input layer. In the estimation processing unit 200 shown in Fig. 1, | xr | and |d| are input to the input FC layers 211 and 212, respectively. In the neural network of the estimation processing unit 200 shown in Fig. 1, only the FC layer 251 has an activation function of sigmoid, and the activation functions of the other FC layers are ReLU (Rectified Linear Unit).

図1に示す推定処理部200のニューラルネットワークでは、|x|と|d|の各々に対し、FC層211、212、221、222により非線形変換を施した後に、2入力を結合して3層目のFC層231に入力している。さらに、図1に示す推定処理部200のニューラルネットワークでは、その後の2層のFC層241、251により変換(逆変換)を行いマスク信号(時間周波数マスク)を出力する構成となっている。上記の通りFC層251の活性化関数はシグモイドになっているため、推定処理部200では、周波数ごとに0~1の間の数値で表される係数(フィルタ係数)を出力することができる。 In the neural network of the estimation processing unit 200 shown in Fig. 1, after a nonlinear transformation is performed on each of | xr | and |d| by the FC layers 211, 212, 221, and 222, the two inputs are combined and input to the third layer, the FC layer 231. Furthermore, in the neural network of the estimation processing unit 200 shown in Fig. 1, the two subsequent FC layers 241 and 251 perform a transformation (inverse transformation) and output a mask signal (time-frequency mask). As described above, the activation function of the FC layer 251 is sigmoid, so that the estimation processing unit 200 can output a coefficient (filter coefficient) represented by a numerical value between 0 and 1 for each frequency.

推定処理部200のでは、図1に示すようなニューラルネットワークを構成することにより、妨害音が優勢の|d|と観測信号(観測音)である|X|からマイクロホンアレイMAの正面方向を音源とする目的エリア音を強調するマスク信号(フィルタ係数)を抽出する過程をデータから学習することで、(4)式に相当するサブトラクション処理をDNNにより学習することができる。言い換えると、推定処理部200のでは、図1に示すようなニューラルネットワークを構成することにより、マイクロホンアレイMAの正面方向にある目的エリア内における音源の動きに対して頑健なエリア収音処理を行うことができる。特に、推定処理部200では、2入力が結合する中間層となるFC層231が上記のサブトラクション処理を担う構成となる。 In the estimation processing unit 200, by configuring a neural network as shown in Fig. 1, a process of extracting a mask signal (filter coefficient) that emphasizes a target area sound whose sound source is in the front direction of the microphone array MA from |d| where the interfering sound is dominant and | Xr | which is an observation signal (observation sound) can be learned from data, and a subtraction process corresponding to the formula (4) can be learned by the DNN. In other words, in the estimation processing unit 200, by configuring a neural network as shown in Fig. 1, it is possible to perform area sound collection processing that is robust against the movement of a sound source in the target area in the front direction of the microphone array MA. In particular, in the estimation processing unit 200, the FC layer 231, which is an intermediate layer to which two inputs are connected, is configured to be responsible for the above-mentioned subtraction process.

次に、図2に示す第2の目的エリア音抽出部102Bについて説明する。図2では、上述の図1と同一部分または対応部分には同一符号又は対応符号を付している。 Next, the second target area sound extraction unit 102B shown in FIG. 2 will be described. In FIG. 2, the same or corresponding parts as those in FIG. 1 above are denoted by the same or corresponding reference numerals.

以下では、第2の目的エリア音抽出部102Bについて、第1の目的エリア音抽出部102Aとの差異を説明する。 The following describes the differences between the second target area sound extraction unit 102B and the first target area sound extraction unit 102A.

図2に示すように、第2の目的エリア音抽出部102Bは、推定処理部300、位相処理部220、及び差分抽出器230を有している。 As shown in FIG. 2, the second target area sound extraction unit 102B has an estimation processing unit 300, a phase processing unit 220, and a difference extractor 230.

推定処理部200は、マイクロホンアレイの観測信号|X|と|d|に基づいてマスク信号を推定する処理を行っていたが、推定処理部300は、目的エリア音yを推定した結果得られるパワースペクトラム(目的エリア音の成分を強調した信号のスペクトラム;周波数領域の信号)を出力する点で、推定処理部200と異なっている。 The estimation processing unit 200 performs processing to estimate a mask signal based on the observed signals | Xr | and |d| of the microphone array, but the estimation processing unit 300 differs from the estimation processing unit 200 in that it outputs a power spectrum obtained as a result of estimating the target area sound y (the spectrum of a signal in which the components of the target area sound are emphasized; a signal in the frequency domain).

位相処理部220は、推定処理部300から供給されるパワースペクトラムにXの位相(位相情報)を付与(同期)させる処理を行って、信号y^として出力する。 The phase processing section 220 performs processing to add (synchronize) the phase of Xr (phase information) to the power spectrum supplied from the estimation processing section 300, and outputs the result as a signal y^.

以上のように、第2の目的エリア音抽出部102Bでは、推定処理部300に観測信号|X|と差分フィルタの出力として得られる非目的エリア音(妨害音)が支配的な|d|を入力としたニューラルネットワーク(推定処理部300)により、マイクロホンアレイMA正面の扇形領域(図7参照)に相当する目的エリア内の音源(目的エリア音)のパワースペクトラムを推定する。 As described above, in the second target area sound extraction unit 102B, the power spectrum of the sound source (target area sound) in the target area corresponding to the sector-shaped area in front of the microphone array MA (see Figure 7) is estimated by a neural network (estimation processing unit 300) that receives as input the observed signal | Xr | and |d| in which non-target area sound (interference sound) is dominant, obtained as the output of a differential filter.

そして、第2の目的エリア音抽出部102Bでは、第1の目的エリア音抽出部102Aと同様に、学習処理モードと信号処理モードに対応するようにしてもよい。 The second target area sound extraction unit 102B may be configured to support a learning processing mode and a signal processing mode, similar to the first target area sound extraction unit 102A.

次に、推定処理部300の内部構成の例について図2を用いて説明する。 Next, an example of the internal configuration of the estimation processing unit 300 will be described with reference to FIG. 2.

ここでは、推定処理部300の内部構成として、図2の例を説明するが、推定処理部300としては、上記の教師データセットに基づく学習処理と信号処理が可能であれば、種々の機械学習(ディープラーニング)の構成を適用することができる。 Here, the example of Figure 2 will be described as the internal configuration of the estimation processing unit 300, but as the estimation processing unit 300, various machine learning (deep learning) configurations can be applied as long as learning processing and signal processing based on the above teacher data set are possible.

ここでは、推定処理部300のニューラルネットワークは、図2に示す通り、推定処理部300のニューラルネットワークの最後段(出力層)のFC層251がFC層351に置き換わっている点で推定処理部200と異なっている。推定処理部300のFC層351では、活性化関数がsigmoidではなくReLuとなっている点で推定処理部200と異なっている。これにより、推定処理部300のFC層351では、パワースペクトラムを出力することができる。 Here, the neural network of the estimation processing unit 300 differs from the estimation processing unit 200 in that the FC layer 251 at the last stage (output layer) of the neural network of the estimation processing unit 300 is replaced with an FC layer 351, as shown in FIG. 2. The FC layer 351 of the estimation processing unit 300 differs from the estimation processing unit 200 in that the activation function is ReLu instead of sigmoid. This allows the FC layer 351 of the estimation processing unit 300 to output a power spectrum.

推定処理部300では、図2に示すようなニューラルネットワークにより、妨害音が優勢の|d|と観測音である|X|からマイクロホンアレイMAの正面方向を音源とする目的エリア音を出力する機構を構成することで、(4)式に相当するサブトラクション処理をデータから学習することができる。 In the estimation processing unit 300, a mechanism is configured using a neural network as shown in FIG. 2 to output a target area sound whose sound source is in front of the microphone array MA from |d|, where the interfering sound is dominant, and | Xr |, which is the observed sound, so that the subtraction processing equivalent to equation (4) can be learned from data.

(A-2)実施形態の動作
次に、以上のような構成を有するこの実施形態における収音装置100の動作(実施形態に係る収音方法)を説明する。
(A-2) Operation of the Embodiment Next, the operation of the sound collection device 100 in this embodiment having the above-mentioned configuration (sound collection method according to the embodiment) will be described.

まず、収音装置100の目的エリア音抽出部102が学習処理モードで動作する場合の処理について説明する。 First, we will explain the processing performed when the target area sound extraction unit 102 of the sound collection device 100 operates in the learning processing mode.

学習処理モードで動作する目的エリア音抽出部102に教師データセットが供給されると、目的エリア音抽出部102は、教師データセットの観測信号(X、X)から、|X|と|d|を取得してニューラルネットワークに入力して、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)を行う。 When a teacher data set is supplied to the target area sound extraction unit 102 operating in a learning processing mode, the target area sound extraction unit 102 acquires | Xr | and |d| from the observed signals ( Xl , Xr ) of the teacher data set and inputs them to the neural network to perform learning processing for deep area sound collection (learning the process of extracting target area sound using a neural network).

収音装置100に、第1の目的エリア音抽出部102Aが適用される場合、第1の目的エリア音抽出部102Aでは、|X|と|d|が推定処理部200に入力される。また、このとき、第1の目的エリア音抽出部102Aでは、差分抽出器230により位相処理部220から出力される信号y^と教師ラベルyとのlossが抽出されて推定処理部200にフィードバックされる。第1の目的エリア音抽出部102Aでは、上記のようなフィードバックにより、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)が行われる。 When the first target area sound extraction unit 102A is applied to the sound collection device 100, the first target area sound extraction unit 102A inputs | Xr | and |d| to the estimation processing unit 200. At this time, the first target area sound extraction unit 102A extracts the loss between the signal y^ output from the phase processing unit 220 and the teacher label y by the difference extractor 230 and feeds it back to the estimation processing unit 200. The first target area sound extraction unit 102A performs a learning process for deep area sound collection (learning the process of extracting the target area sound by a neural network) by the above-mentioned feedback.

一方、収音装置100に、第2の目的エリア音抽出部102Bが適用される場合、第2の目的エリア音抽出部102Bでは、|X|と|d|が推定処理部300に入力される。また、このとき、第2の目的エリア音抽出部102Bでは、差分抽出器230により推定処理部300から出力されるパワースペクトラムのlossが抽出されて推定処理部300にフィードバックされる。第2の目的エリア音抽出部102Bでは、上記のようなフィードバックにより、深層エリア収音の学習処理(ニューラルネットワークにより目的エリア音を抽出する処理の学習)が行われる。 On the other hand, when the second target area sound extraction unit 102B is applied to the sound collection device 100, the second target area sound extraction unit 102B inputs | Xr | and |d| to the estimation processing unit 300. At this time, the second target area sound extraction unit 102B extracts the loss of the power spectrum output from the estimation processing unit 300 by the difference extractor 230 and feeds it back to the estimation processing unit 300. The second target area sound extraction unit 102B performs a learning process for deep area sound collection (learning the process of extracting the target area sound by a neural network) by the above-mentioned feedback.

次に、収音装置100の目的エリア音抽出部102が信号処理モードで動作する場合の動作について説明する。 Next, we will explain the operation of the target area sound extraction unit 102 of the sound collection device 100 when it operates in signal processing mode.

ここで、マイクロホンアレイMA(マイクロホンMr、Ml)から信号入力部101を介して、信号処理モードで動作する目的エリア音抽出部102に観測信号(X、X)が供給されたものとする。そうすると、目的エリア音抽出部102は、ニューラルネットワーク(推定処理部200又は推定処理部300)に|X|と|d|を供給し、結果としてy^を取得して信号出力部103に供給することになる。信号出力部103は、y^を周波数領域から時間領域に変換して出力する。 Assume here that observed signals ( Xl , Xr ) are supplied from the microphone array MA (microphones Mr, Ml) to the target area sound extraction unit 102 operating in signal processing mode via the signal input unit 101. The target area sound extraction unit 102 then supplies | Xr | and |d| to the neural network (the estimation processing unit 200 or the estimation processing unit 300), and as a result, obtains y^ and supplies it to the signal output unit 103. The signal output unit 103 converts y^ from the frequency domain to the time domain and outputs it.

次に、発明者が、実際に収音装置100を構築して、目的エリア音を収音する処理を行い、その品質を評価するための実験(以下、「本実験」と呼ぶ)を行った際の実験結果及びその評価結果について説明する。 Next, the inventors will explain the experimental results and evaluation results of an experiment (hereinafter referred to as "this experiment") in which they actually constructed a sound collection device 100, performed a process to collect target area sound, and evaluated its quality.

図5は、本実験の環境について示した図である。 Figure 5 shows the environment of this experiment.

図5では、マイクロホンMr、Ml、目的音源、妨害音源が全て同じ平面上に存在する場合の例について示している。また、図5では、マイクロホンMr、Mlの位置(中心位置)を結んだ線Lの中点の位置(マイクロホンアレイMAの中心点)をP1と図示している。さらに、図5では、P1からみてマイクロホンMrの方向を0°、P1からみてマイクロホンMlの方向を180°として、目的音源及び妨害音源はP1からみて0°~180°のいずれかの角度から到来するものとする。以下では、P1から見た目的音源及び妨害音源の存在する方向を「到来角」又は「到来方向」とも呼ぶものとする。また、図5に示すように、目的音源及び妨害音源(非目的エリアの音源)の位置はP1から1mの距離の半円の線上であるものとする。 Figure 5 shows an example in which microphones Mr, Ml, the target sound source, and the interfering sound source are all on the same plane. Also, in Figure 5, the position of the midpoint of line L connecting the positions (center positions) of microphones Mr, Ml (center point of microphone array MA) is shown as P1. Furthermore, in Figure 5, the direction of microphone Mr as viewed from P1 is 0°, and the direction of microphone Ml as viewed from P1 is 180°, and the target sound source and the interfering sound source arrive from any angle between 0° and 180° as viewed from P1. Hereinafter, the direction in which the apparent sound source and the interfering sound source exist from P1 will also be referred to as the "arrival angle" or "arrival direction". Also, as shown in Figure 5, the target sound source and the interfering sound source (sound source in a non-target area) are located on a semicircular line at a distance of 1 m from P1.

本実験では、学習処理モード(訓練時)、信号処理モード(信号処理時)のいずれの動作モードにおいても、目的音源のドライソース(信号)としてTIMITコーパス(以下の参考文献1参照)を用い、妨害音のドライソース(信号)として、TMITコーパス又はDEMAND(Diverse Environments Multi-channel Acoustic Noise Database)コーパス(以下の参考文献2参照)を用いた。 In this experiment, in both the learning processing mode (during training) and the signal processing mode (during signal processing), the TIMIT corpus (see Reference 1 below) was used as the dry source (signal) of the target sound source, and the TIMIT corpus or the DEMAND (Diverse Environments Multi-channel Acoustic Noise Database) corpus (see Reference 2 below) was used as the dry source (signal) of the interference sound.

参考文献1:J. S. Garofolo, L. F. Lamel, W. M. Fisher, J. G.Fiscus, D. S. Pallett, N. L. Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,”Linguistic Data Consotrium, 1992.
参考文献2:J. Thiemann, N. Ito, and E. Vincent, “The diverseenvironments multi-channel acoustic noise database(DEMAND): A database of multichannel environmental noise recordings”, The Journal of the Acoustical Society of America,vol. 133, p. 3591,05, 2013.
Reference 1: JS Garofolo, LF Lamel, WM Fisher, JGFiscus, DS Pallett, NL Dahlgren, V. Zue, “TIMIT acoustic phonetic continuous speech corpus,” Linguistic Data Consotrium, 1992.
Reference 2: J. Thiemann, N. Ito, and E. Vincent, “The diverseenvironments multi-channel acoustic noise database(DEMAND): A database of multichannel environmental noise recordings”, The Journal of the Acoustical Society of America, vol. 133, p. 3591,05, 2013.

本実験では、図5のような音場(モデル環境)においてマイクロホンMl、Mrで捕捉される観測信号(音響信号)をコンピュータ上のシミュレーションにより取得し、さらに取得した観測信号を収音装置100に入力した結果を評価した。 In this experiment, the observed signals (acoustic signals) captured by microphones Ml and Mr in a sound field (model environment) like that shown in Figure 5 were obtained by computer simulation, and the obtained observed signals were then input to the sound collection device 100 to evaluate the results.

具体的には、本実験では、PyRoomAcoustics(以下の参考文献3参照)を用いて、図5のような音場(モデル環境)を設定したシミュレーションを行ってインパルス応答を取得し、取得したインパルス応答を上記のドライソース(目的音源及び妨害音源のドライソース)に畳み込むことで、マイクロホンMl、Mrの観測信号X、Xを得た。 Specifically, in this experiment, a simulation was performed using PyRoomAcoustics (see Reference 3 below) with a sound field (model environment) as shown in FIG. 5 to obtain an impulse response, and the obtained impulse response was convoluted with the above-mentioned dry sources (the dry sources of the target sound source and the interfering sound source) to obtain the observation signals Xl and Xr of the microphones Ml and Mr.

参考文献3:Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018 Reference 3: Scheibler, E. Bezzam, I. Dokmani´c, “Pyroomacoustics: A Python package for audio room simulations and array processing algorithms”, Proc. IEEE ICASSP, 2018

また、本実験のシミュレーションでは、観測信号X、XにおけるSNRがおよそ0.0[dB]となるよう調整している。なお、以下では、本実験用の音場の3D空間を(x,y,z)の三次元の座標系で表すものとする。 In addition, in the simulation of this experiment, the SNR of the observed signals Xl and Xr is adjusted to be approximately 0.0 [dB]. In the following, the 3D space of the sound field for this experiment is represented by a three-dimensional coordinate system of (x, y, z).

そして、本実験のシミュレーションでは、モデル環境の音場を構成する部屋の大きさは(x,y,z)[m]=(5,3,3)とし、2chのマイクロホンMl,Mrの座標を、それぞれ(x,y,z)[m]=(2.49,1.5,1)、(x,y,z)[m]=(2.51,1.5,1)とした。これにより、マイクロホンMl,Mrの間の間隔は2[cm]となる。また、本実験のシミュレーションでは、部屋の吸音率を0.2、部屋の反射回数を3と設定した。 In the simulation of this experiment, the size of the room that constitutes the sound field of the model environment was set to (x, y, z) [m] = (5, 3, 3), and the coordinates of the 2ch microphones Ml and Mr were set to (x, y, z) [m] = (2.49, 1.5, 1) and (x, y, z) [m] = (2.51, 1.5, 1), respectively. This results in a distance of 2 [cm] between microphones Ml and Mr. In addition, in the simulation of this experiment, the sound absorption coefficient of the room was set to 0.2, and the number of reflections in the room was set to 3.

本実験では、収音装置100の目的エリア音抽出部102に、マスク推定により目的エリア音を推定する第1の目的エリア音抽出部102Aを適用した場合(以下、「第1の本発明の実験モデル」とよぶ)、パワースペクトラム推定により目的エリア音を推定する第2の目的エリア音抽出部102Bを適用した場合(以下、「第2の本発明の実験モデル」と呼ぶ)、及び従来のMUBASEによる目的エリア音推定を適用した場合(以下、「従来構成の実験モデル」と呼ぶ)を適用した場合のそれぞれについてシミュレーションを行った。 In this experiment, simulations were performed for the following cases: a first target area sound extraction unit 102A that estimates the target area sound by mask estimation is applied to the target area sound extraction unit 102 of the sound collection device 100 (hereinafter referred to as the "first experimental model of the present invention"), a second target area sound extraction unit 102B that estimates the target area sound by power spectrum estimation is applied (hereinafter referred to as the "second experimental model of the present invention"), and target area sound estimation using conventional MUBASE is applied (hereinafter referred to as the "experimental model of conventional configuration").

次に、本実験のシミュレーションにおける各音源の位置について説明する。 Next, we will explain the position of each sound source in the simulation of this experiment.

本実験では、学習時は目的音源の位置を90°に固定し、テスト時には目的音源をエリア内(P1から距離1mで80°~90°の範囲内)で動かすことで、収音装置100が上記の2つの要件を満たしているかを検証した。また、妨害音源については、学習時・テスト時共に、0°、15°、30°、45°、135°、150°、165°、180°の計8か所のうちランダムに1~3か所に設置した。本実験では、このような目的音源及び妨害音原の位置変更を、コーパス上データ処理単位(例えば、単語単位)で行った。 In this experiment, the position of the target sound source was fixed at 90° during learning, and during testing, the target sound source was moved within the area (within a range of 80° to 90° at a distance of 1 m from P1) to verify whether the sound collection device 100 satisfied the above two requirements. In addition, the interfering sound source was randomly placed in 1 to 3 of a total of 8 positions, namely 0°, 15°, 30°, 45°, 135°, 150°, 165°, and 180°, during both learning and testing. In this experiment, such changes in the positions of the target sound source and the interfering sound source were performed in data processing units (e.g., word units) on the corpus.

次に、本実験のシミュレーションにおける詳細なパラメータ設定について説明する。 Next, we will explain the detailed parameter settings for the simulation of this experiment.

「従来のMUBASEのモデル」を適用したシミュレーションでは、目的エリア音抽出部102において、差分フィルタにより非目的エリア音(妨害音)を推定する際に、低周波ほどパワーが弱いという傾向に基づき、αの値を200/(f+0.01)と設定した。 In a simulation using the "conventional MUBASE model," the value of α was set to 200/(f+0.01) in the target area sound extraction unit 102 when estimating non-target area sound (interference sound) using a differential filter, based on the tendency for the power to be weaker at lower frequencies.

また、「第1の本発明の実験モデル」及び「第2の本発明の実験モデル」の学習では、バッチサイズを32、エポック数を200と設定し、損失関数として平均二乗誤差を用いた。また、「第1の本発明の実験モデル」及び「第2の本発明の実験モデル」の学習では、最適化アルゴリズムにAdam(以下の参考文献4を参照)を用い、学習率は0.001とした。 In addition, in training the "first experimental model of the present invention" and the "second experimental model of the present invention", the batch size was set to 32, the number of epochs was set to 200, and the mean squared error was used as the loss function. In training the "first experimental model of the present invention" and the "second experimental model of the present invention", Adam (see Reference 4 below) was used as the optimization algorithm, and the learning rate was set to 0.001.

参考文献4:D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR), 2015. Reference 4: D. Kingma, and J. Ba, “Adam: A method for stochastic optimization”, International Conference on Learning Representations (ICLR), 2015.

本実験では、第1の本発明の実験モデル(マスク推定)、第2の本発明の実験モデル(パワースペクトラム推定)、及び従来構成の実験モデル(MUBASE)の環境を構築し、それぞれについて、上記の学習処理及び信号処理(テスト処理)を行った。本実験の信号処理(テスト処理)では、3つの実験モデルのそれぞれについてSNR(Signal-to-Noise Ratio)とSTOI(Short-Time Objective Intelligibility)の2つの指標を測定した。また、本実験のテスト処理では、それぞれの実験モデルについて、目的音源の位置を90°で固定したパターン(以下、「目的音源固定パターン」と呼ぶ)と、目的音源を80°~90°の間でランダムに移動させたパターン(以下、「目的音源移動パターン」と呼ぶ)でのテスト処理を行った。図6は、本実験の結果について示した図である。 In this experiment, an environment was constructed for the first experimental model of the present invention (mask estimation), the second experimental model of the present invention (power spectrum estimation), and the conventional experimental model (MUBASE), and the above-mentioned learning process and signal processing (test process) were performed for each of them. In the signal processing (test process) of this experiment, two indices, SNR (Signal-to-Noise Ratio) and STOI (Short-Time Objective Intelligence), were measured for each of the three experimental models. In addition, in the test process of this experiment, test processes were performed for each experimental model in a pattern in which the position of the target sound source was fixed at 90° (hereinafter referred to as the "target sound source fixed pattern") and a pattern in which the target sound source was moved randomly between 80° and 90° (hereinafter referred to as the "target sound source moving pattern"). Figure 6 shows the results of this experiment.

(A-3)実施形態の効果
この実施形態によれば、以下のような効果を奏することができる。
(A-3) Advantages of the Embodiment According to this embodiment, the following advantages can be obtained.

従来のMUBASEを用いた構成では、所定の係数を伴うスペクトル減算によってエリア収音処理を行っていたが、この実施形態の収音装置100では、教師データにより学習したニューラルネットワークを用いた深層エリア収音(DMUBASE)を行っている。特に、この実施形態の収音装置100では、2チャンネルのマイクロホンアレイMAにおいて、差分フィルタの出力dをとることで正面方向以外から到来する妨害音(非目的エリア音)を得られることを利用し、ニューラルネットワークに差分フィルタの出力d(妨害音が優勢となる情報)を観測信号と共にニューラルネットワークに入力することで、正面方向の目的エリア音が強調された出力を得ることができる。 In a conventional configuration using MUBASE, area sound collection processing was performed by spectral subtraction involving a predetermined coefficient, but the sound collection device 100 of this embodiment performs deep area sound collection (DMUBASE) using a neural network trained with teacher data. In particular, the sound collection device 100 of this embodiment utilizes the fact that in the two-channel microphone array MA, the output d of the differential filter can be taken to obtain interference sounds (non-target area sounds) arriving from directions other than the front, and by inputting the output d of the differential filter (information in which interference sounds are dominant) into the neural network together with the observation signal, an output can be obtained in which the target area sounds in the front direction are emphasized.

上記の通り、エリア収音処理では、目的エリア内の音源の動きに対して頑健であることが望ましいが、深層エリア収音(DMUBASE)では、データドリブンにフィルタを学習することになるため、頑健性を保証するような制約が必要となる。そして、この実施形態の収音装置100では、単純なデータドリブン(例えば、観測信号のみ)でなく、差分フィルタの出力d等の物理的な情報を補助情報に用いることで、環境変化への頑強性を向上させている。そして、図6に示すように、この実施形態の構成を再現した実験モデル(第1及び第2の本発明の実験モデル)はいずれも、目的音源固定パターン及び目的音源移動パターンの両方で、従来構成の実験モデル(MUBASE)の精度を上回った。つまり、本発明の実験モデルは、従来よりも目的エリア音の音源の移動に対しても頑健であることが確認できた。 As described above, in the area sound collection process, it is desirable to be robust against the movement of the sound source within the target area, but in the deep area sound collection (DMUBASE), the filter is learned in a data-driven manner, so constraints are required to ensure robustness. In addition, in the sound collection device 100 of this embodiment, robustness against environmental changes is improved by using physical information such as the output d of the differential filter as auxiliary information, rather than a simple data-driven (e.g., only the observed signal). As shown in FIG. 6, both of the experimental models that reproduce the configuration of this embodiment (the first and second experimental models of the present invention) exceeded the accuracy of the experimental model (MUBASE) of the conventional configuration in both the target sound source fixed pattern and the target sound source moving pattern. In other words, it was confirmed that the experimental model of the present invention is more robust against the movement of the sound source of the target area sound than the conventional one.

(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B) Other Embodiments The present invention is not limited to the above-described embodiments, and modified embodiments such as those exemplified below can also be mentioned.

(B-1)上記の実施形態において、収音装置100は、学習処理モードと信号処理モード(テストモード)の両方に対応するものとして説明したが、予め学習モデルが保持されていれば信号処理モードだけに対応し、学習処理モードに必要な手段(学習手段)については除外した構成としてもよい。 (B-1) In the above embodiment, the sound collection device 100 has been described as being compatible with both the learning processing mode and the signal processing mode (test mode), but if a learning model is stored in advance, it may be configured to be compatible with only the signal processing mode and to exclude the means (learning means) required for the learning processing mode.

100…収音装置、101…信号入力部、102…目的エリア音抽出部、103…信号出力部、102A…第1の目的エリア音抽出部、200…推定処理部、212、221、222、231、241、251、211、…FC層、210…マスク処理部、220…位相処理部、230…差分抽出器、102B…第2の目的エリア音抽出部、…推定処理部300、212、221、222、231、241、351、211…FC層、230…差分抽出器。 100...sound collection device, 101...signal input section, 102...target area sound extraction section, 103...signal output section, 102A...first target area sound extraction section, 200...estimation processing section, 212, 221, 222, 231, 241, 251, 211,...FC layer, 210...mask processing section, 220...phase processing section, 230...difference extractor, 102B...second target area sound extraction section,...estimation processing section 300, 212, 221, 222, 231, 241, 351, 211...FC layer, 230...difference extractor.

Claims (5)

学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段と、
前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段と
を有することを特徴とする収音装置。
a target sound extraction processing means for acquiring a target sound emphasis signal in which a component of a target sound included in a first input signal is emphasized from a first input signal from a first microphone constituting a microphone array and a difference signal which is a difference between the first input signal and a second input signal from a second microphone constituting the microphone array, using a learning model;
a learning means for acquiring the learning model by performing learning processing on data including the first input signal, the difference signal, and the target sound signal as teacher data;
A sound collecting device comprising:
前記学習モデルは、前記第1の入力信号と前記差分信号から、前記第1の入力信号に含まれる目的音以外の非目的音の成分を抑圧するマスク係数を出力し、
前記目的音抽出処理手段は、前記マスク係数を用いて前記第1の入力信号から前記非目的音の成分を抑圧することで前記目的音強調信号を取得する
ことを特徴とする請求項1に記載の収音装置。
the learning model outputs a mask coefficient that suppresses components of non-target sounds other than the target sound included in the first input signal from the first input signal and the differential signal;
The sound collection device according to claim 1 , wherein the target sound extraction processing means acquires the target sound emphasis signal by suppressing the non-target sound components from the first input signal using the mask coefficient.
前記学習モデルは、前記第1の入力信号と前記差分信号から、前記第1の入力信号に含まれる非目的音の成分を抑圧して前記目的音の成分を強調した目的音強調信号を出力することを特徴とする請求項1に記載の収音装置。 The sound collection device according to claim 1, characterized in that the learning model outputs a target sound emphasis signal in which non-target sound components contained in the first input signal are suppressed and the target sound components are emphasized from the first input signal and the difference signal. コンピュータを、
学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得する目的音抽出処理手段と
前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る学習手段と
して機能させることを特徴とする収音プログラム。
Computer,
a target sound extraction processing means for acquiring a target sound emphasis signal in which a component of a target sound included in a first input signal is emphasized from a first input signal from a first microphone constituting a microphone array and a difference signal which is a difference between the first input signal and a second input signal from a second microphone constituting the microphone array, using a learning model ;
a learning means for acquiring the learning model by performing learning processing on data including the first input signal, the difference signal, and the target sound signal as teacher data;
A sound recording program characterized by functioning as follows.
音装置が行う収音方法において、
前記収音装置は目的音抽出処理手段及び学習手段を備え、
前記目的音抽出処理手段は、学習モデルを用いて、マイクロホンアレイを構成する第1のマイクロホンからの第1の入力信号と、前記第1の入力信号と前記マイクロホンアレイを構成する第2のマイクロホンからの第2の入力信号との差分となる差分信号から、前記第1の入力信号に含まれる目的音の成分を強調した目的音強調信号を取得し、
前記学習手段は、前記第1の入力信号と前記差分信号と、前記目的音の信号を含むデータを教師データとして学習処理することにより前記学習モデルを得る
ことを特徴とする収音方法。
In the sound collection method performed by the sound collection device,
The sound collection device includes a target sound extraction processing means and a learning means ,
the target sound extraction processing means acquires, using a learning model, a target sound enhancement signal in which a component of the target sound included in a first input signal is enhanced from a first input signal from a first microphone constituting a microphone array and a differential signal which is a difference between the first input signal and a second input signal from a second microphone constituting the microphone array ;
The learning means obtains the learning model by performing a learning process using data including the first input signal, the difference signal, and the target sound signal as teacher data.
A sound collection method comprising:
JP2021025965A 2021-02-22 2021-02-22 Sound collection device, sound collection program, and sound collection method Active JP7619564B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021025965A JP7619564B2 (en) 2021-02-22 2021-02-22 Sound collection device, sound collection program, and sound collection method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021025965A JP7619564B2 (en) 2021-02-22 2021-02-22 Sound collection device, sound collection program, and sound collection method

Publications (2)

Publication Number Publication Date
JP2022127777A JP2022127777A (en) 2022-09-01
JP7619564B2 true JP7619564B2 (en) 2025-01-22

Family

ID=83061295

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021025965A Active JP7619564B2 (en) 2021-02-22 2021-02-22 Sound collection device, sound collection program, and sound collection method

Country Status (1)

Country Link
JP (1) JP7619564B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127457A (en) 2015-01-05 2016-07-11 沖電気工業株式会社 Sound pickup device, program and method
US20200051580A1 (en) 2019-07-30 2020-02-13 Lg Electronics Inc. Method and apparatus for sound processing
JP2020194093A (en) 2019-05-28 2020-12-03 沖電気工業株式会社 Speech recognition device, speech recognition program, and speech recognition method
WO2021260868A1 (en) 2020-06-25 2021-12-30 三菱電機株式会社 Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3154151B2 (en) * 1993-03-10 2001-04-09 ソニー株式会社 Microphone device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127457A (en) 2015-01-05 2016-07-11 沖電気工業株式会社 Sound pickup device, program and method
JP2020194093A (en) 2019-05-28 2020-12-03 沖電気工業株式会社 Speech recognition device, speech recognition program, and speech recognition method
US20200051580A1 (en) 2019-07-30 2020-02-13 Lg Electronics Inc. Method and apparatus for sound processing
WO2021260868A1 (en) 2020-06-25 2021-12-30 三菱電機株式会社 Sound source separation model learning device, sound source separation device, program, sound source separation model learning method, and sound source separation method

Also Published As

Publication number Publication date
JP2022127777A (en) 2022-09-01

Similar Documents

Publication Publication Date Title
Wang et al. Deep learning based target cancellation for speech dereverberation
Tolooshams et al. Channel-attention dense u-net for multichannel speech enhancement
US12230259B2 (en) Array geometry agnostic multi-channel personalized speech enhancement
JP4774100B2 (en) Reverberation removal apparatus, dereverberation removal method, dereverberation removal program, and recording medium
Schwartz et al. Multi-microphone speech dereverberation and noise reduction using relative early transfer functions
Xiao et al. Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation
JP6348427B2 (en) Noise removal apparatus and noise removal program
Janský et al. Auxiliary function-based algorithm for blind extraction of a moving speaker
JP6827908B2 (en) Speech enhancement device, speech enhancement learning device, speech enhancement method, program
JP2015135437A (en) Model estimation device, noise suppression device, speech enhancement device, and method and program therefor
CN113870893A (en) Multi-channel double-speaker separation method and system
JP7630723B2 (en) Method and system for dereverberating a speech signal - Patents.com
Malek et al. Block‐online multi‐channel speech enhancement using deep neural network‐supported relative transfer function estimates
Sharma et al. Development of a speech separation system using frequency domain blind source separation technique
Sivasankaran et al. Analyzing the impact of speaker localization errors on speech separation for automatic speech recognition
KR101537653B1 (en) Method and system for noise reduction based on spectral and temporal correlations
JP7619564B2 (en) Sound collection device, sound collection program, and sound collection method
Raikar et al. Effect of Microphone Position Measurement Error on RIR and its Impact on Speech Intelligibility and Quality.
Li et al. MAF-Net: multidimensional attention fusion network for multichannel speech separation
Dam et al. Source separation employing beamforming and SRP-PHAT localization in three-speaker room environments
Dehghan Firoozabadi et al. A novel nested circular microphone array and subband processing-based system for counting and DOA estimation of multiple simultaneous speakers
JP7589943B2 (en) Sound collection device, sound collection program, and sound collection method
Schwartz et al. A recursive expectation-maximization algorithm for speaker tracking and separation
Ingale et al. Deep neural network based speech enhancement using mono channel mask
Cui et al. Correntropy-based multi-objective multi-channel speech enhancement

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210526

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231002

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241126

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20241225

R150 Certificate of patent or registration of utility model

Ref document number: 7619564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150