Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7293162B2 - Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program - Google Patents
[go: Go Back, main page]

JP7293162B2 - Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program - Google Patents

Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program Download PDF

Info

Publication number
JP7293162B2
JP7293162B2 JP2020070081A JP2020070081A JP7293162B2 JP 7293162 B2 JP7293162 B2 JP 7293162B2 JP 2020070081 A JP2020070081 A JP 2020070081A JP 2020070081 A JP2020070081 A JP 2020070081A JP 7293162 B2 JP7293162 B2 JP 7293162B2
Authority
JP
Japan
Prior art keywords
adaptation
neural network
signal processing
target speaker
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020070081A
Other languages
Japanese (ja)
Other versions
JP2021167850A (en
Inventor
マーク デルクロア
翼 落合
慶介 木下
直弘 俵
智広 中谷
章子 荒木
カテリナ モリコバ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2020070081A priority Critical patent/JP7293162B2/en
Publication of JP2021167850A publication Critical patent/JP2021167850A/en
Application granted granted Critical
Publication of JP7293162B2 publication Critical patent/JP7293162B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Description

特許法第30条第2項適用 IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING VOL.13,NO.4 発行日 2019年6月13日 https://arxiv.org/abs/2001.08378 https://arxiv.org/pdf/2001.08378.pdf ウェブサイト掲載日 2020年1月23日Application of Article 30, Paragraph 2 of the Patent Law IEEE JOURNAL OF SELECTED TOPICS IN SIGNAL PROCESSING VOL. 13, NO. 4 Date of issue June 13, 2019 https://arxiv. org/abs/2001.08378 https://arxiv. org/pdf/2001.08378. pdf Posted on website January 23, 2020

本発明は、信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラムに関する。 The present invention relates to a signal processing device, a signal processing method, a signal processing program, a learning device, a learning method, and a learning program.

複数の話者の音声から得られる混合音声信号から、目的話者の音声を抽出する技術としてスピーカービーム(SpeakerBeam)が知られている(例えば、非特許文献1を参照)。例えば、非特許文献1に記載の手法は、混合音声信号を周波数領域に変換し、周波数領域の混合音声信号から目的話者の音声を抽出するメインNN(neural network:ニューラルネットワーク)と、目的話者の音声信号から特徴量を抽出する補助NNとを有し、メインNNの中間部分に設けられた適応層に補助NNの出力を入力することで、周波数領域の混合音声信号に含まれる目的話者の音声信号を推定し、出力するものである。 SpeakerBeam is known as a technique for extracting the speech of a target speaker from a mixed speech signal obtained from speeches of a plurality of speakers (see, for example, Non-Patent Document 1). For example, the method described in Non-Patent Document 1 converts a mixed speech signal into the frequency domain and extracts the speech of the target speaker from the mixed speech signal in the frequency domain. The output of the auxiliary NN is input to the adaptive layer provided in the middle part of the main NN, and the target speech included in the mixed speech signal in the frequency domain is input. It estimates and outputs the speech signal of the person.

K. Zmolikova, M. Delcroix, K. Kinoshita, T. Higuchi, A. Ogawa, and T. Nakatani, “Speaker-aware neural network based beamformer for speaker extraction in speech mixtures,” in Proc. of Interspeech’17, 2017, pp. 2655-2659.K. Zmolikova, M. Delcroix, K. Kinoshita, T. Higuchi, A. Ogawa, and T. Nakatani, “Speaker-aware neural network based beamformer for speaker extraction in speech mixtures,” in Proc. of Interspeech'17, 2017 , pp. 2655-2659.

しかしながら、従来の手法には、混合音声信号から目的話者の音声信号を精度良く抽出することができない場合があるという問題がある。例えば、混合音声信号に含まれる音声信号の特徴が似ている場合、非特許文献1に記載された手法では、十分な精度が得られない場合がある。例えば、同性の複数の話者の音声から得られた音声信号の特徴は、互いに似ることがある。 However, the conventional method has a problem that it may not be possible to accurately extract the speech signal of the target speaker from the mixed speech signal. For example, when the features of the audio signals included in the mixed audio signal are similar, the method described in Non-Patent Document 1 may not provide sufficient accuracy. For example, features of speech signals obtained from speech of multiple speakers of the same sex may resemble each other.

上述した課題を解決し、目的を達成するために、信号処理装置は、目的話者の発話から得られた時間領域の音声信号を適応用特徴量に変換する第1変換部と、複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、ニューラルネットワークにより、適応前特徴量に変換する第2変換部と、前記適応用特徴量を用いて前記適応前特徴量を前記目的話者に適応させた適応後特徴量を、1つ以上の層を備えたニューラルネットワークにより、出力用の情報に変換する第3変換部と、を有することを特徴とする。 In order to solve the above-described problems and achieve the object, the signal processing device includes a first transforming unit that transforms a time-domain speech signal obtained from an utterance of a target speaker into an adaptive feature amount; A second conversion unit that converts a multi-channel time-domain mixed speech signal obtained by recording the voice with a plurality of microphones into a pre-adaptive feature value by a neural network, and using the adaptation feature value and a third conversion unit that converts the post-adaptation feature amount obtained by adapting the pre-adaptation feature amount to the target speaker into information for output by a neural network having one or more layers. do.

本発明によれば、混合音声信号から目的話者の音声信号を精度良く抽出することができる。 According to the present invention, it is possible to accurately extract the speech signal of the target speaker from the mixed speech signal.

図1は、第1の実施形態に係る信号処理装置の構成例を示す図である。FIG. 1 is a diagram illustrating a configuration example of a signal processing device according to the first embodiment. 図2は、マイクロホン及び話者の配置例を示す図である。FIG. 2 is a diagram showing an example of arrangement of microphones and speakers. 図3は、第1の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。FIG. 3 is a flow chart showing the processing flow of the signal processing device according to the first embodiment. 図4は、第1補助NNの処理の流れを示すフローチャートである。FIG. 4 is a flowchart showing the processing flow of the first auxiliary NN. 図5は、メインNNの処理の流れを示すフローチャートである。FIG. 5 is a flowchart showing the processing flow of the main NN. 図6は、第2の実施形態に係る信号処理装置の構成例を示す図である。FIG. 6 is a diagram illustrating a configuration example of a signal processing device according to the second embodiment. 図7は、第2の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。FIG. 7 is a flow chart showing the processing flow of the signal processing device according to the second embodiment. 図8は、第2補助NNの処理の流れを示すフローチャートである。FIG. 8 is a flow chart showing the processing flow of the second auxiliary NN. 図9は、メインNNの処理の流れを示すフローチャートである。FIG. 9 is a flow chart showing the processing flow of the main NN. 図10は、第3の実施形態に係る学習装置の構成例を示す図である。FIG. 10 is a diagram showing a configuration example of a learning device according to the third embodiment. 図11は、第3の実施形態に係る学習装置の処理の流れを示すフローチャートである。FIG. 11 is a flow chart showing the processing flow of the learning device according to the third embodiment. 図12は、実験用のデータを示す図である。FIG. 12 shows experimental data. 図13は、実験結果を示す図である。FIG. 13 is a diagram showing experimental results. 図14は、実験結果を示す図である。FIG. 14 is a diagram showing experimental results. 図15は、実験結果を示す図である。FIG. 15 is a diagram showing experimental results. 図16は、実験結果を示す図である。FIG. 16 is a diagram showing experimental results. 図17は、プログラムを実行するコンピュータの一例を示す図である。FIG. 17 is a diagram of an example of a computer that executes a program;

以下に、本願に係る信号処理装置、信号処理方法、信号処理プログラム、学習装置、学習方法及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。 Hereinafter, embodiments of a signal processing device, a signal processing method, a signal processing program, a learning device, a learning method, and a learning program according to the present application will be described in detail based on the drawings. In addition, this invention is not limited by embodiment described below.

[第1の実施形態]
図1は、第1の実施形態に係る信号処理装置の構成例を示す図である。図1に示すように、信号処理装置10は、第1補助NN11を実行するための処理部として、第1変換部111及び統合部112を有する。また、信号処理装置10は、メインNN12を実行するための処理部として、第2変換部121、適応部122及び第3変換部123を有する。また、信号処理装置10は、各ニューラルネットワークの重み及びバイアス等のパラメータをモデル情報15として記憶する。ここでモデル情報15として記憶されるパラメータの具体的な値は、後述の学習装置又は学習方法において予め学習させることで求めた情報を記憶しておけばよい。
[First Embodiment]
FIG. 1 is a diagram illustrating a configuration example of a signal processing device according to the first embodiment. As shown in FIG. 1, the signal processing device 10 has a first conversion unit 111 and an integration unit 112 as processing units for executing the first auxiliary NN 11 . The signal processing device 10 also has a second transforming unit 121 , an adapting unit 122 and a third transforming unit 123 as processing units for executing the main NN 12 . The signal processing device 10 also stores parameters such as weights and biases of each neural network as model information 15 . Here, the specific values of the parameters stored as the model information 15 may be obtained by pre-learning in a learning device or learning method, which will be described later.

ここで、メインNN12は、混合音声信号から目的話者の音声信号を抽出するためのニューラルネットワークである。また、第1補助NN11は、メインNN12を目的話者に適応させるための適応用特徴量を得るためのニューラルネットワークである。 Here, the main NN 12 is a neural network for extracting the speech signal of the target speaker from the mixed speech signal. The first auxiliary NN 11 is a neural network for obtaining adaptation features for adapting the main NN 12 to the target speaker.

ここで、畳み込みブロックは、1次元の畳み込み及び正規化等を行うための層の集合である。また、エンコーダは、音声信号を所定の特徴空間にマッピング、すなわち音声信号を特徴量ベクトルに変換するニューラルネットワークである。逆に、デコーダは、所定の特徴空間上の特徴量を音声信号の空間にマッピングする、すなわち特徴量ベクトルを音声信号に変換するニューラルネットワークである。エンコーダ及びデコーダは、畳み込みブロックと同様の構成を有していてもよい。 Here, the convolution block is a set of layers for performing one-dimensional convolution, normalization, and the like. Also, the encoder is a neural network that maps the speech signal to a predetermined feature space, that is, converts the speech signal into a feature amount vector. Conversely, the decoder is a neural network that maps features in a predetermined feature space to the space of speech signals, that is, converts feature vectors into speech signals. The encoder and decoder may have a similar structure as the convolution block.

畳み込みブロック(1-D Conv)、エンコーダ及びデコーダの構成は、参考文献1(Y. Luo and N. Mesgarani, “Conv-TasNet: Surpassing ideal time-frequency magnitude masking for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 8, pp. 1256-1266, 2019.)に記載の構成と同様であってもよい。また、時間領域の音声信号は、参考文献1に記載の方法により得られたものであってもよい。また、以降の説明における各特徴量は、ベクトルで表されるものとする。 The configuration of the convolution block (1-D Conv), encoder and decoder is described in reference 1 (Y. Luo and N. Mesgarani, “Conv-TasNet: Surpassing ideal time-frequency magnitude masking for speech separation,” IEEE/ACM Trans. ASLP, vol. 27, no. 8, pp. 1256-1266, 2019.). Alternatively, the audio signal in the time domain may be obtained by the method described in Reference 1. Also, each feature amount in the following description shall be represented by a vector.

第1変換部111は、目的話者の発話から得られた時間領域の音声信号を、適応用特徴量に変換する。つまり、第1変換部111は、時間領域の音声信号の入力を受け付け、適応用特徴量を出力する。図1の例では、第1変換部111はニューラルネットワークにより実現するものとし、時間領域の音声信号をニューラルネットワークにより、適応用特徴量に変換する。以降の説明では、第1変換部111で用いられるニューラルネットワークを第1のニューラルネットワークと呼ぶ。第1のニューラルネットワークは、第1補助NN11の一部である。図1の例では、第1のニューラルネットワークには、エンコーダ及び畳み込みブロックが備えられている。適応用特徴量は、目的話者の埋め込みベクトルということができる。 The first conversion unit 111 converts a time-domain speech signal obtained from an utterance of the target speaker into a feature quantity for adaptation. That is, the first transforming unit 111 receives an input of a time-domain audio signal and outputs an adaptation feature amount. In the example of FIG. 1, the first conversion unit 111 is assumed to be implemented by a neural network, and the neural network converts the speech signal in the time domain into a feature quantity for adaptation. In the following description, the neural network used in the first conversion unit 111 will be called the first neural network. The first neural network is part of the first auxiliary NN11. In the example of FIG. 1, the first neural network comprises an encoder and a convolution block. The adaptive feature amount can be said to be an embedding vector of the target speaker.

なお、第1変換部111は図1の構成例のように、ニューラルネットワークに限定されるものではなく、例えば、i-vectorかx-vector等の周知の話者埋め込みベクトル(embeddingベクトル)を抽出する手法を用いてもよい。 Note that the first conversion unit 111 is not limited to a neural network as in the configuration example of FIG. You may use the method to do.

また、統合部112は、適応用特徴量を複数時間フレームについて平均する。入力として与えられる目的話者の音声信号が短い発話であれば全ての時間フレームについて平均してもよいし、複数発話等の長時間の音声信号であれば、その一部の時間区間であって、第1変換部の処理単位である時間フレームよりも長い時間区間であればよい。つまり、統合部112は、平均化前の適応用特徴量の入力を受け付け、平均化した適応用特徴量を出力する。なお、統合部112は、複数の全結合層により構成されるものであってもよい。 In addition, the integration unit 112 averages the adaptation feature amount for a plurality of time frames. If the speech signal of the target speaker given as an input is a short utterance, it may be averaged over all time frames. , a time interval longer than the time frame that is the processing unit of the first conversion unit. In other words, the integration unit 112 receives an input of the feature amount for adaptation before averaging, and outputs an averaged feature amount for adaptation. Note that the integration unit 112 may be configured by a plurality of fully connected layers.

第2変換部121は、複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、ニューラルネットワークにより、適応前特徴量に変換する。つまり、第2変換部121は、マルチチャネルの時間領域の音声信号の入力を受け付け、適応前特徴量を出力する。以降の説明では、第2変換部121で用いられるニューラルネットワークを第2のニューラルネットワークと呼ぶ。第2のニューラルネットワークは、メインNN12の一部である。図1の例では、第2のニューラルネットワークには、エンコーダ及び畳み込みブロックが備えられている。 The second conversion unit 121 converts a multi-channel time-domain mixed speech signal obtained by recording sounds from a plurality of sound sources with a plurality of microphones into a pre-adaptive feature value using a neural network. That is, the second transform unit 121 receives an input of a multi-channel time-domain audio signal and outputs a pre-adaptation feature amount. In the following description, the neural network used in the second conversion section 121 will be called a second neural network. A second neural network is part of the main NN 12 . In the example of FIG. 1, the second neural network is provided with encoders and convolution blocks.

適応部122は、平均化した適応用特徴量を用いて適応前特徴量を目的話者に適応させた特徴量である適応後特徴量に変換する。つまり、適応用特徴量と適応前特徴量の入力を受け付け、適応後特徴量を出力する。適応部122は、従来のスピーカービームと同様の方法で目的話者への適応を行うことができる。例えば、適応部122は、いずれも同じ次元数のベクトルである適応用特徴量と適応前特徴量の、要素ごとの積(element-wise product)を計算することにより適応後特徴量を得ることができる。 The adaptation unit 122 converts the pre-adaptation feature quantity into the post-adaptation feature quantity adapted to the target speaker using the averaged feature quantity for adaptation. In other words, it receives the input of the adaptation feature amount and the pre-adaptation feature amount, and outputs the post-adaptation feature amount. The adaptation unit 122 can adapt to the target speaker in the same manner as the conventional speaker beam. For example, the adaptation unit 122 can obtain the post-adaptation feature quantity by calculating the element-wise product of the adaptation feature quantity and the pre-adaptation feature quantity, which are vectors of the same number of dimensions. can.

ここで、適応部122は、ニューラルネットワークにおける層、すなわち適応層として実現される。図1に示すように、メインNN12全体を見ると、適応層は、エンコーダに続く1番目の畳み込みブロックと2番目の畳み込みブロックとの間に挿入されている。 Here, the adaptation unit 122 is realized as a layer in the neural network, that is, as an adaptation layer. Looking at the main NN 12 as a whole, as shown in FIG. 1, the adaptation layer is inserted between the first and second convolutional blocks following the encoder.

第3変換部123は、適応後特徴量を、ニューラルネットワークにより、出力用の情報に変換する。つまり、第3変換部123は、適応後特徴量の入力を受け付け、出力用の情報を推定結果として出力する。出力用の情報は、入力された混合音声中の目的話者の音声信号に対応する情報であり、音声信号そのものであってもよいし、音声信号を導出可能な所定の形式のデータであってもよい。以降の説明では、第3変換部123で用いられるニューラルネットワークを第3のニューラルネットワークと呼ぶ。第3のニューラルネットワークは、メインNN12の一部である。図1の例では、第3のニューラルネットワークには、1つ以上の畳み込みブロック及びデコーダが備えられている。 The third conversion unit 123 converts the post-adaptation feature quantity into information for output by a neural network. That is, the third transforming unit 123 receives an input of the post-adaptation feature amount and outputs information for output as an estimation result. The output information is information corresponding to the speech signal of the target speaker in the input mixed speech, and may be the speech signal itself or data in a predetermined format from which the speech signal can be derived. good too. In the following description, the neural network used by the third conversion unit 123 is called a third neural network. A third neural network is part of the main NN 12 . In the example of FIG. 1, the third neural network comprises one or more convolution blocks and decoders.

ここで、第3変換部123は、第2変換部121のエンコーダから出力される中間特徴量と、第3変換部123の畳み込みブロックから出力される中間特徴量とから推定結果を得ることができる。また、目的話者への適応が行われるため、第3変換部123は、混合音声信号を話者ごとに分離するだけでなく、目的話者の音声信号を抽出して出力することができる。 Here, the third transform unit 123 can obtain an estimation result from the intermediate feature amount output from the encoder of the second transform unit 121 and the intermediate feature amount output from the convolution block of the third transform unit 123. . Also, since adaptation to the target speaker is performed, the third conversion unit 123 can not only separate the mixed speech signal for each speaker, but also extract and output the speech signal of the target speaker.

図2を用いて、混合音声信号の元になる混合音声の収録方法を説明する。図2は、マイクロホン及び話者の配置例を示す図である。マイクロホンアレイ30は、マイクロホン301、マイクロホン302、マイクロホン303、マイクロホン304を有する。また、話者41は目的話者である。また、話者42は非目的話者である。 Using FIG. 2, a method of recording a mixed sound that is the source of a mixed sound signal will be described. FIG. 2 is a diagram showing an example of arrangement of microphones and speakers. The microphone array 30 has microphones 301 , 302 , 303 and 304 . Also, the speaker 41 is the target speaker. Also, speaker 42 is a non-target speaker.

マイクロホンアレイ30の各マイクロホンは、話者41及び話者42の両方の音声を収録する。その結果、マイクロホンアレイ30が収録した音声の音声信号は、各マイクロホンに対応するチャネルごとの音声信号として扱うことができる。第1の実施形態では、少なくとも2つのマイクロホンを備えたマイクロホンアレイによって収録された音声から得られた混合音声信号が用いられるものとする。なお、混合音声信号には、話者の発話によって生じる音声だけでなく、背景雑音等が含まれる場合がある。 Each microphone in microphone array 30 records the voice of both speaker 41 and speaker 42 . As a result, the audio signal of the audio recorded by the microphone array 30 can be treated as an audio signal for each channel corresponding to each microphone. In a first embodiment, it is assumed that mixed audio signals obtained from audio recorded by a microphone array comprising at least two microphones are used. Note that the mixed speech signal may include not only the speech produced by the speaker's speech, but also background noise and the like.

一方、目的話者の音声信号は、目的話者である話者41の音声のみを収録することにより得られる。また、その場合マイクロホンは1つであってもよい。すなわち、目的話者の音声信号はシングルチャネルであってもよい。さらに、話者41の位置は、混合音声信号を得るための収録を行う場合と、目的話者の音声信号を得るための収録を行う場合とで異なっていてもよい。 On the other hand, the speech signal of the target speaker is obtained by recording only the speech of the speaker 41 who is the target speaker. Also, in that case, the number of microphones may be one. That is, the target speaker's speech signal may be single-channel. Furthermore, the position of the speaker 41 may be different when recording to obtain the mixed speech signal and when recording to obtain the speech signal of the target speaker.

図3は、第1の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。図3に示すように、信号処理装置10は、目的話者の音声信号及び混合音声信号の入力を受け付ける(ステップS11)。 FIG. 3 is a flow chart showing the processing flow of the signal processing device according to the first embodiment. As shown in FIG. 3, the signal processing device 10 receives an input of a target speaker's speech signal and a mixed speech signal (step S11).

信号処理装置10は、第1補助NN11を実行する(ステップS12)。また、信号処理装置10は、メインNN12を実行する(ステップS13)。ここで、信号処理装置10は、第1補助NN11とメインNN12を並行して実行してもよい。ただし、メインNN12には第1補助NN11の出力が使用されるため、第1補助NN11の実行が完了するまでは、メインNN12の実行は完了しない。 The signal processing device 10 executes the first auxiliary NN 11 (step S12). The signal processing device 10 also executes the main NN 12 (step S13). Here, the signal processing device 10 may execute the first auxiliary NN 11 and the main NN 12 in parallel. However, since the main NN12 uses the output of the first auxiliary NN11, the execution of the main NN12 is not completed until the execution of the first auxiliary NN11 is completed.

図4は、第1補助NNの処理の流れを示すフローチャートである。図4に示すように、第1変換部111は、入力された目的話者の時間領域の音声信号を適応用特徴量に変換する(ステップS121)。次に、統合部112は、適応用特徴量を時間フレームについて統合し出力する(ステップS122)。 FIG. 4 is a flowchart showing the processing flow of the first auxiliary NN. As shown in FIG. 4, the first conversion unit 111 converts the input speech signal of the target speaker in the time domain into a feature for adaptation (step S121). Next, the integration unit 112 integrates and outputs the adaptive feature amount for the time frame (step S122).

図5は、メインNNの処理の流れを示すフローチャートである。図5に示すように、まず、第2変換部121は、入力された時間領域の混合音声信号を混合音声特徴量に変換する(ステップS131)。適応部122は、統合済みの適応用特徴量を用いて混合音声特徴量を目的話者に適応させた適応後特徴量を取得する(ステップS132)。第3変換部123は、適応後特徴量を音声信号に変換し出力する(ステップS133)。 FIG. 5 is a flowchart showing the processing flow of the main NN. As shown in FIG. 5, first, the second conversion unit 121 converts the input mixed speech signal in the time domain into a mixed speech feature quantity (step S131). The adaptation unit 122 acquires post-adaptation feature values obtained by adapting the mixed speech feature values to the target speaker using the integrated feature values for adaptation (step S132). The third conversion unit 123 converts the post-adaptation feature amount into an audio signal and outputs the audio signal (step S133).

これまで説明してきたように、第1変換部111は、目的話者の発話から得られた時間領域の音声信号を、適応用特徴量に変換する。また、第2変換部121は、複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、第2のニューラルネットワークにより、適応前特徴量に変換する。また、第3変換部123は、適応用特徴量を用いて適応前特徴量を目的話者に適応させた適応後特徴量を、1つ以上の層を備えた第3のニューラルネットワークにより、出力用の情報に変換する。このように、信号処理装置10に入力される混合音声信号はマルチチャンネルである。このため、混合音声信号には、音声を収録した際の空間に関する情報が含まれていることになる。その結果、第1の実施形態によれば、シングルチャネルの混合音声信号を入力する場合に比べて、目的話者の音声信号を精度良く抽出することができるようになる。 As described above, the first transforming unit 111 transforms the time-domain speech signal obtained from the speech of the target speaker into the feature quantity for adaptation. In addition, the second conversion unit 121 converts a multi-channel time-domain mixed speech signal obtained by recording sounds from a plurality of sound sources with a plurality of microphones into a pre-adaptive feature amount using a second neural network. . Further, the third transforming unit 123 outputs the post-adaptation feature amount obtained by adapting the pre-adaptation feature amount to the target speaker using the adaptation feature amount by a third neural network having one or more layers. Convert to information for Thus, the mixed audio signal input to the signal processing device 10 is multi-channel. Therefore, the mixed audio signal contains information about the space in which the audio was recorded. As a result, according to the first embodiment, the speech signal of the target speaker can be extracted with higher accuracy than when a single-channel mixed speech signal is input.

[第2の実施形態]
第2の実施形態では、さらにIPD(Inter-microphone phase difference)特徴量を用いて空間に関する情報を取得する。以降の実施形態の説明においては、説明済みの実施形態と同様の機能を有する部には同じ符号を付し、適宜説明を省略する。
[Second embodiment]
In the second embodiment, the IPD (Inter-microphone phase difference) feature amount is further used to acquire spatial information. In the description of the embodiments below, the same reference numerals are given to the parts having the same functions as those of the already described embodiments, and the description thereof will be omitted as appropriate.

IPD特徴量は、混合音声信号の各チャネルに対応するマイクロホン間の位相差に関する情報の一例である。IPD特徴量の要素を計算するための角度Φは、(1)式のように計算される。 The IPD feature amount is an example of information on the phase difference between microphones corresponding to each channel of the mixed audio signal. The angle Φ for calculating the elements of the IPD feature quantity is calculated as shown in Equation (1).

Figure 0007293162000001
Figure 0007293162000001

ここで、Yi,t,fは、時間インデックスがt、周波数インデックスがfである場合の、混合音声信号のSTFT(short-time Fourier transform)のマイクロホンiに対応する係数である。さらに、IPD特徴量は、(2)式のように計算される。ただし、Fは周波数ビンの数である。また、∠は複素数表現された位相を表す。 where Y i,t,f are the coefficients corresponding to microphone i in the short-time Fourier transform (STFT) of the mixed speech signal with time index t and frequency index f. Furthermore, the IPD feature quantity is calculated as in Equation (2). where F is the number of frequency bins. Also, ∠ represents a phase represented by a complex number.

Figure 0007293162000002
Figure 0007293162000002

なお、IPD特徴量を得るためのSTFTのウィンドウサイズ及びシフト幅は、メインNN12のエンコーダに応じて決定されるものであってもよい。 Note that the STFT window size and shift width for obtaining the IPD feature amount may be determined according to the encoder of the main NN 12 .

図6は、第2の実施形態に係る信号処理装置の構成例を示す図である。図6に示すように信号処理装置10aは、第2補助NN13を実行するための第4変換部132を有する。また、信号処理装置10aは結合部122aを有する。また、信号処理装置10aは、各ニューラルネットワークの重み及びバイアス等のパラメータをモデル情報15aとして記憶する。 FIG. 6 is a diagram illustrating a configuration example of a signal processing device according to the second embodiment. As shown in FIG. 6, the signal processing device 10a has a fourth conversion section 132 for executing the second auxiliary NN13. The signal processing device 10a also has a coupling unit 122a. The signal processing device 10a also stores parameters such as weights and biases of each neural network as model information 15a.

第4変換部132は、混合音声信号の各チャネルに対応するマイクロホン間の位相差に関する空間情報を、空間情報特徴量に変換する。つまり、第4変換部132は、空間情報の入力を受け付け、空間情報特徴量を出力する。例えば、空間情報はIPD特徴量である。また、第4変換部132を構成するニューラルネットワークには、畳み込みブロック及びアップサンプリングのための層が備えられている。空間情報特徴量は、畳み込みブロックによって得られた特徴量をアップサンプリングした上で、さらに畳み込みブロックによる変換が行われた特徴量ということができる。 The fourth conversion unit 132 converts the spatial information about the phase difference between the microphones corresponding to each channel of the mixed audio signal into a spatial information feature amount. In other words, the fourth conversion unit 132 receives an input of spatial information and outputs a spatial information feature amount. For example, spatial information is an IPD feature. In addition, the neural network forming the fourth transform unit 132 is provided with layers for convolution blocks and upsampling. The spatial information feature amount can be said to be a feature amount obtained by up-sampling the feature amount obtained by the convolution block and then converting it by the convolution block.

結合部122aは、適応部122によって出力される適応後特徴量と空間情報特徴量とを結合させる。結合部122aは、単に、ベクトルである適応後特徴量の各要素の後に、ベクトルである空間情報特徴量の各要素が続くように結合してもよい。第3変換部123は、空間情報特徴量を結合させた適応後特徴量を、出力用の情報に変換する。 The combining unit 122a combines the post-adaptation feature quantity output by the adaptation unit 122 and the spatial information feature quantity. The combining unit 122a may simply combine so that each element of the spatial information feature amount that is a vector follows each element of the post-adaptation feature amount that is a vector. The third conversion unit 123 converts the post-adaptation feature amount obtained by combining the spatial information feature amounts into information for output.

図7は、第2の実施形態に係る信号処理装置の処理の流れを示すフローチャートである。図7に示すように、信号処理装置10aは、目的話者の音声信号、混合音声信号及び空間情報の入力を受け付ける(ステップS21)。 FIG. 7 is a flow chart showing the processing flow of the signal processing device according to the second embodiment. As shown in FIG. 7, the signal processing device 10a receives input of the target speaker's speech signal, mixed speech signal, and spatial information (step S21).

信号処理装置10aは、第1補助NN11を実行する(ステップS22)。また、信号処理装置10aは、第2補助NN13を実行する(ステップS23)。また、信号処理装置10aは、メインNN12を実行する(ステップS24)。信号処理装置10aが第1補助NN11を実行する処理の流れは、図4で説明したものと同様である。 The signal processing device 10a executes the first auxiliary NN 11 (step S22). The signal processing device 10a also executes the second auxiliary NN 13 (step S23). The signal processing device 10a also executes the main NN 12 (step S24). The flow of processing in which the signal processing device 10a executes the first auxiliary NN 11 is the same as that described with reference to FIG.

図8は、第2補助NNの処理の流れを示すフローチャートである。図8に示すように、第4変換部132は、入力された空間情報を空間情報特徴量に変換する(ステップS231)。そして、第4変換部132は、空間情報特徴量をアップサンプリングして出力する(ステップS232)。 FIG. 8 is a flow chart showing the processing flow of the second auxiliary NN. As shown in FIG. 8, the fourth conversion unit 132 converts the input spatial information into a spatial information feature amount (step S231). Then, the fourth conversion unit 132 up-samples the spatial information feature quantity and outputs it (step S232).

図9は、メインNNの処理の流れを示すフローチャートである。図9に示すように、まず、第2変換部121は、入力された時間領域の混合音声信号を混合音声特徴量に変換する(ステップS241)。適応部122は、統合済みの適応用特徴量を用いて混合音声特徴量を目的話者に適応させた適応後特徴量を取得する(ステップS242)。 FIG. 9 is a flow chart showing the processing flow of the main NN. As shown in FIG. 9, first, the second conversion unit 121 converts the input mixed speech signal in the time domain into mixed speech features (step S241). The adapting unit 122 acquires the post-adaptation feature amount by adapting the mixed speech feature amount to the target speaker using the integrated feature amount for adaptation (step S242).

ここで、結合部122aは、空間情報特徴量を適応後特徴量に結合する(ステップS243)。第3変換部123は、空間情報特徴量を結合済みの適応後特徴量を音声信号に変換し出力する(ステップS244)。 Here, the combining unit 122a combines the spatial information feature quantity with the post-adaptation feature quantity (step S243). The third transforming unit 123 transforms the post-adaptation feature amount in which the spatial information feature amount has been combined into an audio signal and outputs the audio signal (step S244).

これまで説明してきたように、第4変換部132は、混合音声信号の各チャネルに対応するマイクロホン間の位相差に関する空間情報を、空間情報特徴量に変換する。また、第3変換部123は、空間情報特徴量を結合させた適応後特徴量を、出力用の情報に変換する。このように、信号処理装置10aは、空間情報がより明確になるような特徴量を利用して目的話者の音声を抽出することができる。その結果、第2の実施形態によれば、目的話者の音声信号をより精度良く抽出することができるようになる。 As described above, the fourth conversion unit 132 converts the spatial information regarding the phase difference between the microphones corresponding to each channel of the mixed audio signal into the spatial information feature quantity. Also, the third transforming unit 123 transforms the post-adaptation feature amount obtained by combining the spatial information feature amounts into information for output. In this way, the signal processing device 10a can extract the speech of the target speaker by using the feature amount that makes the spatial information clearer. As a result, according to the second embodiment, the speech signal of the target speaker can be extracted with higher accuracy.

適応部122によって実現される適応層では、目的話者の音声信号から得られる特徴量を手掛かりとして、混合音声信号の特徴量から目的話者の音声の特徴量を抽出する。さらに、第2の実施形態では、適応層より出力側の層では、空間情報を用いることで、混合音声中の各音声の方向を考慮した補正ができる。つまり、第2の実施形態では、適応後特徴量に本来必要ない方向の音声が含まれている場合に、その音声に係る特徴を取り除くことで、より分離性能の高い音声信号の特徴量を得ることができると考えられる。 The adaptation layer realized by the adaptation unit 122 extracts the feature amount of the target speaker's speech from the feature amount of the mixed speech signal, using the feature amount obtained from the target speaker's speech signal as a clue. Furthermore, in the second embodiment, spatial information is used in the layer on the output side of the adaptive layer, so that correction can be made in consideration of the direction of each voice in the mixed voice. In other words, in the second embodiment, if the post-adaptation feature amount includes a sound in an essentially unnecessary direction, the feature amount of the audio signal with higher separation performance is obtained by removing the feature related to the sound. It is considered possible.

さらに、図6の例では、空間情報特徴量を適応層より出力側の層に入力している。一方で、空間情報特徴量を適応層より入力側の層に入力する実施形態も考えられる。ただし、適応層はスペクトラル的な情報に基づき話者を選択するものであるため、適応層より入力側の層に入力された空間情報特徴量は、話者を選択する作用に悪影響を与えることが考えられる。このことは、後に提示する実験結果にも表れる。 Furthermore, in the example of FIG. 6, the spatial information feature amount is input to the layer on the output side of the adaptation layer. On the other hand, an embodiment is also conceivable in which the spatial information feature amount is input to a layer closer to the input side than the adaptive layer. However, since the adaptation layer selects a speaker based on spectral information, the spatial information features input to the layer on the input side from the adaptation layer may adversely affect speaker selection. Conceivable. This is also reflected in the experimental results presented later.

[第3の実施形態]
第3の実施形態では、第1の実施形態の信号処理装置10のモデル情報15を生成するための学習処理を行う学習装置について説明する。図10は、第3の実施形態に係る学習装置の構成例を示す図である。
[Third embodiment]
In the third embodiment, a learning device that performs learning processing for generating the model information 15 of the signal processing device 10 of the first embodiment will be described. FIG. 10 is a diagram showing a configuration example of a learning device according to the third embodiment.

図10に示すように、学習装置20は、第1の実施形態の信号処理装置10と同様に、学習用データに対し、第1補助NN11及びメインNN12を実行する。例えば、学習用データは、混合音声信号及び当該混合音声信号に含まれる目的話者の音声信号を正解として含むデータである。 As shown in FIG. 10, the learning device 20 executes the first auxiliary NN11 and the main NN12 on the learning data, like the signal processing device 10 of the first embodiment. For example, the learning data is data containing a mixed speech signal and the speech signal of the target speaker included in the mixed speech signal as a correct answer.

第1変換部111、第2変換部121及び第3変換部123は、第1の実施形態と同様の処理を行う。また、更新部24は、混合音声信号に含まれる目的話者の音声信号と出力用の情報とを基に計算される損失が最適化されるように、第1のニューラルネットワーク、第2のニューラルネットワーク及び第3のニューラルネットワークのパラメータを更新する。例えば、更新部24は、誤差逆伝播法によりパラメータを更新する。更新部24は、各ニューラルネットワークのパラメータであるモデル情報25を更新していく。 The first conversion unit 111, the second conversion unit 121, and the third conversion unit 123 perform the same processing as in the first embodiment. Further, the updating unit 24 updates the first neural network, the second neural Update the parameters of the network and the third neural network. For example, the update unit 24 updates the parameters by error backpropagation. The updating unit 24 updates the model information 25, which is the parameter of each neural network.

ここで、更新部24は、出力用の情報によって示される目的話者の音声信号の推定結果と、目的話者の音声信号の正解との信号雑音比が最適化されるように、かつ、適応用特徴量による目的話者の音声信号の識別能力が向上するように、パラメータを更新することができる。この場合、更新部24は、(3)式のように計算される損失が最適化されるようにパラメータの更新を行う。言い換えると、学習装置20は、音声認識と話者識別という2つのタスクの両方が正解に近づくようにマルチタスク学習を行う。 Here, the update unit 24 is adapted to optimize the signal-to-noise ratio between the estimation result of the speech signal of the target speaker indicated by the information for output and the correct answer of the speech signal of the target speaker. The parameters can be updated so that the ability to discriminate the target speaker's speech signal by the feature quantity is improved. In this case, the updating unit 24 updates the parameters so that the loss calculated as in equation (3) is optimized. In other words, the learning device 20 performs multi-task learning so that both of the two tasks of speech recognition and speaker identification are closer to correct answers.

Figure 0007293162000003
Figure 0007293162000003

(3)式に示すように、損失関数は、メインNN12の出力に関する損失と、第1補助NN11の出力に関する損失との重みづけ和である。メインNN12の出力に関する損失は、例えば、(3)式の第1項に示すように、メインNNから出力される推定結果の音声信号^xs(xの直上に^)と、学習データに含まれる目的話者の音声信号の正解xsとの信号雑音比(signal-to-noise ratio:SiSNR)である。また、第1補助NN11の出力に関する損失は、「入力された音声信号の話者が目的話者のものであるか否か」を識別する話者識別のタスクにおける識別能力を用いて表される。例えば、(3)式の第2項は、話者ラベルlsと目的話者の特徴量es(第1補助NN11の出力)を行列Wにより変換し、ソフトマックス関数σ(・)を適用した結果とのクロスエントロピー(CE)に重み(スケーリングパラメータ)αを掛けたものにより、第1補助NN11の出力に関する損失を表現している。 As shown in equation (3), the loss function is the weighted sum of the loss related to the output of the main NN12 and the loss related to the output of the first auxiliary NN11. For example, as shown in the first term of equation (3), the loss related to the output of the main NN 12 is the audio signal ^x s (right above x) output from the main NN, and the loss included in the training data. is the signal-to-noise ratio (SiSNR) of the target speaker's speech signal to the correct answer xs . In addition, the loss related to the output of the first auxiliary NN 11 is expressed using the discriminating ability in the task of speaker discrimination to discriminate "whether or not the speaker of the input speech signal belongs to the target speaker". . For example, the second term of equation (3) converts the speaker label l s and the target speaker's feature quantity e s (output of the first auxiliary NN 11) using the matrix W, and applies the softmax function σ(・) The loss related to the output of the first auxiliary NN 11 is expressed by the cross entropy (CE) with the result obtained by multiplying the weight (scaling parameter) α.

図11は、第3の実施形態に係る学習装置の処理の流れを示すフローチャートである。図11に示すように、学習装置20は、目的話者の音声信号及び混合音声信号の入力を受け付ける(ステップS31)。学習装置20に入力される各音声信号は、正解が既知の学習用のデータである。 FIG. 11 is a flow chart showing the processing flow of the learning device according to the third embodiment. As shown in FIG. 11, the learning device 20 receives input of the target speaker's speech signal and mixed speech signal (step S31). Each audio signal input to the learning device 20 is learning data whose correct answer is known.

学習装置20は、第1補助NN11を実行する(ステップS32)。また、学習装置20は、メインNN12を実行する(ステップS33)。ここで、更新部24は、損失が最適化されるようにモデル情報25を更新する(ステップS34)。 The learning device 20 executes the first auxiliary NN 11 (step S32). Also, the learning device 20 executes the main NN 12 (step S33). Here, the updating unit 24 updates the model information 25 so that the loss is optimized (step S34).

学習装置20は、所定の条件が満たされている場合、収束したと判定し(ステップS35、Yes)処理を終了する。一方、学習装置20は、所定の条件が満たされていない場合、収束していないと判定し(ステップS35、No)ステップS32に戻り処理を繰り返す。例えば、条件は、所定の繰り返し回数に到達したこと、損失関数値が所定の閾値以下となったこと、パラメータの更新量(損失関数値の微分値等)が所定の閾値以下となったこと等である。 If the predetermined condition is satisfied, the learning device 20 determines that convergence has occurred (step S35, Yes) and ends the process. On the other hand, if the predetermined condition is not satisfied, the learning device 20 determines that convergence has not occurred (step S35, No) and returns to step S32 to repeat the process. For example, the conditions are that a predetermined number of iterations has been reached, that the loss function value has become equal to or less than a predetermined threshold value, that the parameter update amount (differential value of the loss function value, etc.) has become equal to or less than a predetermined threshold value, etc. is.

これまで説明してきたように、第1変換部111は、目的話者の発話から得られた時間領域の音声信号を、1つ以上の層を備えた第1のニューラルネットワークにより、適応用特徴量に変換する。第2変換部121は、複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、第1のニューラルネットワークに含まれる層の数と同じ数の層を備えた第2のニューラルネットワークにより、適応前特徴量に変換する。第3変換部123は、適応用特徴量を用いて適応前特徴量を目的話者に適応させた適応後特徴量を、1つ以上の層を備えた第3のニューラルネットワークにより、出力用の情報に変換する。更新部24は、混合音声信号に含まれる目的話者の音声信号と出力用の情報とを基に計算される損失が最適化されるように、第1のニューラルネットワーク、第2のニューラルネットワーク及び第3のニューラルネットワークのパラメータを更新する。この結果、第3の実施形態によれば、目的話者の音声信号を抽出する精度を向上させることができる。 As described above, the first transforming unit 111 converts a time-domain speech signal obtained from an utterance of the target speaker into a feature value for adaptation using a first neural network having one or more layers. Convert to The second conversion unit 121 converts multi-channel time-domain mixed speech signals obtained by recording sounds from a plurality of sound sources with a plurality of microphones into the same number of layers as the number of layers included in the first neural network. is converted into pre-adaptive features by a second neural network with The third transforming unit 123 converts the post-adaptation feature quantity obtained by adapting the pre-adaptation feature quantity to the target speaker using the feature quantity for adaptation, by a third neural network having one or more layers, to output Convert to information. The update unit 24 updates the first neural network, the second neural network, and the Update the parameters of the third neural network. As a result, according to the third embodiment, it is possible to improve the accuracy of extracting the speech signal of the target speaker.

更新部24は、出力用の情報によって示される目的話者の音声信号の推定結果と、目的話者の音声信号の正解との信号雑音比が最適化されるように、かつ、適応用特徴量による目的話者の音声信号の識別能力が向上するように、パラメータを更新する。これにより、音声抽出のためのNNだけでなく、目的話者へ適応のためのNNの精度が向上する。その結果、第3の実施形態によれば、目的話者の音声信号を抽出する精度を向上させることができる。 The update unit 24 optimizes the signal-to-noise ratio between the estimation result of the speech signal of the target speaker indicated by the information for output and the correct answer of the speech signal of the target speaker, and also updates the adaptive feature amount. The parameters are updated so that the ability to discriminate the target speaker's speech signal by is improved. This improves the accuracy of not only the NN for speech extraction but also the NN for adaptation to the target speaker. As a result, according to the third embodiment, it is possible to improve the accuracy of extracting the speech signal of the target speaker.

[実験結果]
ここで、実施形態と従来の手法とを比較するために行った実験の結果を説明する。図12は、実験用のデータを示す図である。図13から図16は、実験結果を示す図である。実験では、図12に示すマルチチャネルの2種類の混合音声WSJ(MC-WSJ0-2 mix)及びCSJ(CSJ-2mix)を使用した。なお、#Spksは話者の数、#Fは女性の話者の数、#Mは男性の話者の数、#Mixtureは混合発話の数である。
[Experimental result]
Here, the results of experiments conducted to compare the embodiment with the conventional method will be described. FIG. 12 shows experimental data. 13 to 16 are diagrams showing experimental results. In the experiment, two types of multi-channel mixed speech WSJ (MC-WSJ0-2 mix) and CSJ (CSJ-2mix) shown in FIG. 12 were used. #Spks is the number of speakers, #F is the number of female speakers, #M is the number of male speakers, and #Mixture is the number of mixed utterances.

図13及び図14は、各手法によって抽出した目的話者の音声信号をSDR(signal-to-distortionratio)によって評価した結果である。図13の(7)は、第1の実施形態の推定方法に相当する。また、図13の(9)は、第2の実施形態の推定方法に相当する。また、図13の(8)は、第2の実施形態の推定方法において、空間情報特徴量を、適応層より入力側の層に入力した場合に相当する。また、FFは、女性の音声同士の混合音声を示している。また、MMは、男性の音声同士の混合音声を示している。また、FMは、女性と男性の音声の混合音声を示している。図13に示すように、実施形態は、特に話者の性別が異なる場合の混合音声に対して高い精度を示している。また、(9)の手法は、話者の性別が同一である場合にさらに精度が向上する。 13 and 14 are the results of evaluating the speech signal of the target speaker extracted by each method by SDR (signal-to-distortion ratio). (7) in FIG. 13 corresponds to the estimation method of the first embodiment. (9) in FIG. 13 corresponds to the estimation method of the second embodiment. In addition, (8) in FIG. 13 corresponds to the case where the spatial information feature amount is input to the layer on the input side from the adaptation layer in the estimation method of the second embodiment. FF indicates mixed voices of female voices. MM indicates a mixed voice of male voices. Also, FM indicates a mixture of female and male voices. As shown in FIG. 13, embodiments show high accuracy for mixed speech, especially for speakers of different genders. Also, the method (9) is more accurate when the gender of the speaker is the same.

図14の(5)は、第1の実施形態の推定方法に相当し、さらに第3の実施形態による学習時の損失関数に第1補助NN11の出力に関する損失を含まない場合の結果である。一方、(6)は、学習時の損失関数に第1補助NN11の出力に関する損失(SI-loss)を含む場合の結果である。図14に示すように、第1の実施形態は、従来の手法に比べて高い精度を示しており、SI-lossを導入することでさらに精度が向上する。特に、SI-lossを導入することで、FFの場合の精度が大きく向上した。 FIG. 14(5) corresponds to the estimation method of the first embodiment, and is the result when the loss function during learning according to the third embodiment does not include the loss related to the output of the first auxiliary NN11. On the other hand, (6) is the result when the loss function during learning includes the loss (SI-loss) related to the output of the first auxiliary NN 11 . As shown in FIG. 14, the first embodiment exhibits higher accuracy than the conventional method, and introducing SI-loss further improves the accuracy. In particular, the introduction of SI-loss greatly improved the accuracy in the case of FF.

図15は、FF、MM、FMの各ケースにおけるSDRの向上度合いを示している。図15に示すように、実施形態の手法(TD-SpkBeam、TD-SpkBeam+SI-loss)によれば、SDRが0を超えることが多く、精度が向上する。図16は、学習用データの話者数に応じたSDRを示している。図16に示すように、実施形態の手法(TD-SpkBeam、TD-SpkBeam+SI-loss)によれば、特に話者数が100を超える場合にSDRが大きく向上する。 FIG. 15 shows the degree of SDR improvement in each case of FF, MM, and FM. As shown in FIG. 15, according to the method of the embodiment (TD-SpkBeam, TD-SpkBeam+SI-loss), the SDR often exceeds 0, improving the accuracy. FIG. 16 shows the SDR according to the number of speakers in the training data. As shown in FIG. 16, according to the method of the embodiment (TD-SpkBeam, TD-SpkBeam+SI-loss), the SDR is greatly improved especially when the number of speakers exceeds 100.

[システム構成等]
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU(Central Processing Unit)及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
[System configuration, etc.]
Also, each component of each device illustrated is functionally conceptual, and does not necessarily need to be physically configured as illustrated. In other words, the specific form of distribution and integration of each device is not limited to the illustrated one, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured. Furthermore, all or any part of each processing function performed by each device is realized by a CPU (Central Processing Unit) and a program analyzed and executed by the CPU, or hardware by wired logic can be realized as

また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。 Further, among the processes described in the present embodiment, all or part of the processes described as being automatically performed can be performed manually, or the processes described as being performed manually can be performed manually. All or part of this can also be done automatically by known methods. In addition, information including processing procedures, control procedures, specific names, and various data and parameters shown in the above documents and drawings can be arbitrarily changed unless otherwise specified.

[プログラム]
一実施形態として、信号処理装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の音声信号の抽出処理を実行する信号処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の信号処理プログラムを情報処理装置に実行させることにより、情報処理装置を信号処理装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
[program]
As one embodiment, the signal processing apparatus 10 can be implemented by installing a signal processing program for executing the above-described audio signal extraction processing as package software or online software in a desired computer. For example, the information processing device can function as the signal processing device 10 by causing the information processing device to execute the above signal processing program. The information processing apparatus referred to here includes a desktop or notebook personal computer. In addition, information processing devices include smart phones, mobile communication terminals such as mobile phones and PHS (Personal Handyphone Systems), and slate terminals such as PDAs (Personal Digital Assistants).

また、信号処理装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の信号処理に関するサービスを提供する信号処理サーバ装置として実装することもできる。例えば、信号処理サーバ装置は、混合音声信号を入力とし、目的話者の音声信号を抽出する信号処理サービスを提供するサーバ装置として実装される。この場合、信号処理サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の信号処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。 Further, the signal processing device 10 can be implemented as a signal processing server device that uses a terminal device used by a user as a client and provides the client with the service related to the above signal processing. For example, the signal processing server device is implemented as a server device that receives a mixed speech signal as an input and provides a signal processing service for extracting the speech signal of the target speaker. In this case, the signal processing server device may be implemented as a web server, or may be implemented as a cloud that provides services related to the above signal processing through outsourcing.

図17は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。 FIG. 17 is a diagram of an example of a computer that executes a program; The computer 1000 has a memory 1010 and a CPU 1020, for example. Computer 1000 also has hard disk drive interface 1030 , disk drive interface 1040 , serial port interface 1050 , video adapter 1060 and network interface 1070 . These units are connected by a bus 1080 .

メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。 The memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM 1012 . The ROM 1011 stores a boot program such as BIOS (Basic Input Output System). Hard disk drive interface 1030 is connected to hard disk drive 1090 . A disk drive interface 1040 is connected to the disk drive 1100 . A removable storage medium such as a magnetic disk or optical disk is inserted into the disk drive 1100 . Serial port interface 1050 is connected to mouse 1110 and keyboard 1120, for example. Video adapter 1060 is connected to display 1130, for example.

ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、信号処理装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、信号処理装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。 The hard disk drive 1090 stores an OS 1091, application programs 1092, program modules 1093, and program data 1094, for example. That is, a program that defines each process of the signal processing device 10 is implemented as a program module 1093 in which computer-executable code is described. Program modules 1093 are stored, for example, on hard disk drive 1090 . For example, the hard disk drive 1090 stores a program module 1093 for executing processing similar to the functional configuration of the signal processing device 10 . Note that the hard disk drive 1090 may be replaced by an SSD.

また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。 Also, setting data used in the processing of the above-described embodiment is stored as program data 1094 in the memory 1010 or the hard disk drive 1090, for example. Then, the CPU 1020 reads out the program modules 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.

なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。 Note that the program modules 1093 and program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in, for example, a removable storage medium and read by the CPU 1020 via the disk drive 1100 or the like. Alternatively, program modules 1093 and program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). Program modules 1093 and program data 1094 may then be read by CPU 1020 through network interface 1070 from other computers.

10、10a 信号処理装置
11 第1補助NN
12 メインNN
15、15a、25 モデル情報
20 学習装置
24 更新部
30 マイクロホンアレイ
41、42 話者
111 第1変換部
112 統合部
121 第2変換部
122 適応部
122a 結合部
123 第3変換部
132 第4変換部
301、302、303、304 マイクロホン
10, 10a Signal processing device 11 First auxiliary NN
12 main NN
15, 15a, 25 model information 20 learning device 24 update unit 30 microphone array 41, 42 speaker 111 first conversion unit 112 integration unit 121 second conversion unit 122 adaptation unit 122a combining unit 123 third conversion unit 132 fourth conversion unit 301, 302, 303, 304 Microphones

Claims (8)

目的話者の発話から得られた時間領域の音声信号を適応用特徴量に変換する第1変換部と、
複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、ニューラルネットワークにより、適応前特徴量に変換する第2変換部と、
前記適応用特徴量を用いて前記適応前特徴量を前記目的話者に適応させた適応後特徴量を、ニューラルネットワークにより、出力用の情報に変換する第3変換部と、
を有することを特徴とする信号処理装置。
a first conversion unit that converts a time-domain speech signal obtained from an utterance of a target speaker into a feature quantity for adaptation;
a second conversion unit that converts a multi-channel time-domain mixed speech signal obtained by recording sounds from a plurality of sound sources with a plurality of microphones into a pre-adaptive feature value by a neural network;
a third conversion unit that converts the post-adaptation feature amount obtained by adapting the pre-adaptation feature amount to the target speaker using the adaptation feature amount into information for output by a neural network;
A signal processing device comprising:
前記混合音声信号の各チャネルに対応するマイクロホン間の位相差に関する情報を、空間情報特徴量に変換する第4変換部をさらに有し、
前記第3変換部は、前記空間情報特徴量を結合させた前記適応後特徴量を、前記出力用の情報に変換することを特徴とする請求項1に記載の信号処理装置。
further comprising a fourth conversion unit that converts information about a phase difference between microphones corresponding to each channel of the mixed audio signal into a spatial information feature amount;
2. The signal processing apparatus according to claim 1, wherein the third conversion unit converts the post-adaptation feature amount obtained by combining the spatial information feature amounts into the information for output.
信号処理装置によって実行される信号処理方法であって、
目的話者の発話から得られた時間領域の音声信号を適応用特徴量に変換する第1変換工程と、
複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、ニューラルネットワークにより、適応前特徴量に変換する第2変換工程と、
前記適応用特徴量を用いて前記適応前特徴量を前記目的話者に適応させた適応後特徴量を、ニューラルネットワークにより、出力用の情報に変換する第3変換工程と、
を含むことを特徴とする信号処理方法。
A signal processing method performed by a signal processing device, comprising:
a first transformation step of transforming a time-domain speech signal obtained from an utterance of a target speaker into a feature quantity for adaptation;
a second conversion step of converting a multi-channel time-domain mixed speech signal obtained by recording sounds from a plurality of sound sources with a plurality of microphones into a pre-adaptive feature amount by a neural network;
a third conversion step of converting the post-adaptation feature quantity obtained by adapting the pre-adaptation feature quantity to the target speaker using the adaptation feature quantity into information for output by a neural network;
A signal processing method comprising:
コンピュータを、請求項1又は2に記載の信号処理装置として機能させるための信号処理プログラム。 A signal processing program for causing a computer to function as the signal processing device according to claim 1 or 2. 目的話者の発話から得られた時間領域の音声信号を適応用特徴量に変換する第1変換部と、
複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、ニューラルネットワークにより、適応前特徴量に変換する第2変換部と、
前記適応用特徴量を用いて前記適応前特徴量を前記目的話者に適応させた適応後特徴量を、ニューラルネットワークにより、出力用の情報に変換する第3変換部と、
前記混合音声信号に含まれる前記目的話者の音声信号と前記出力用の情報とを基に計算される損失が最適化されるように、前記第2変換部で用いられるニューラルネットワーク及び前記第3変換部で用いられるニューラルネットワークのパラメータを更新することを特徴とする更新部と、
を有することを特徴とする学習装置。
a first conversion unit that converts a time-domain speech signal obtained from an utterance of a target speaker into a feature quantity for adaptation;
a second conversion unit that converts a multi-channel time-domain mixed speech signal obtained by recording sounds from a plurality of sound sources with a plurality of microphones into a pre-adaptive feature value by a neural network;
a third conversion unit that converts the post-adaptation feature amount obtained by adapting the pre-adaptation feature amount to the target speaker using the adaptation feature amount into information for output by a neural network;
The neural network used in the second conversion unit and the third an update unit characterized by updating parameters of a neural network used in the conversion unit;
A learning device characterized by comprising:
前記更新部は、前記出力用の情報によって示される前記目的話者の音声信号の推定結果と、前記目的話者の音声信号の正解との信号雑音比が最適化されるように、かつ、前記適応用特徴量による前記目的話者の音声信号の識別能力が向上するように、前記パラメータを更新することを特徴とする請求項5に記載の学習装置。 The update unit optimizes a signal-to-noise ratio between the estimation result of the speech signal of the target speaker indicated by the information for output and the correct answer of the speech signal of the target speaker, and 6. The learning apparatus according to claim 5, wherein said parameter is updated so as to improve the ability to discriminate the speech signal of said target speaker by means of the feature quantity for adaptation. コンピュータによって実行される学習方法であって、
目的話者の発話から得られた時間領域の音声信号を、適応用特徴量に変換する第1変換工程と、
複数の音源の音声を複数のマイクロホンで録音して得られたマルチチャネルの時間領域の混合音声信号を、ニューラルネットワークにより、適応前特徴量に変換する第2変換工程と、
前記適応用特徴量を用いて前記適応前特徴量を前記目的話者に適応させた適応後特徴量を、ニューラルネットワークにより、出力用の情報に変換する第3変換工程と、
前記混合音声信号に含まれる前記目的話者の音声信号と前記出力用の情報とを基に計算される損失が最適化されるように、前記第2変換工程で用いられるニューラルネットワーク及び前記第3変換工程で用いられるニューラルネットワークのパラメータを更新することを特徴とする更新工程と、
を含むことを特徴とする学習方法。
A computer implemented learning method comprising:
a first transformation step of transforming a time-domain speech signal obtained from an utterance of a target speaker into a feature quantity for adaptation;
a second conversion step of converting a multi-channel time-domain mixed speech signal obtained by recording sounds from a plurality of sound sources with a plurality of microphones into a pre-adaptive feature amount by a neural network;
a third conversion step of converting the post-adaptation feature quantity obtained by adapting the pre-adaptation feature quantity to the target speaker using the adaptation feature quantity into information for output by a neural network;
The neural network used in the second transformation step and the third an update step characterized by updating the parameters of the neural network used in the conversion step;
A learning method comprising:
コンピュータを、請求項5又は6に記載の学習装置として機能させるための学習プログラム。 A learning program for causing a computer to function as the learning device according to claim 5 or 6.
JP2020070081A 2020-04-08 2020-04-08 Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program Active JP7293162B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020070081A JP7293162B2 (en) 2020-04-08 2020-04-08 Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020070081A JP7293162B2 (en) 2020-04-08 2020-04-08 Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program

Publications (2)

Publication Number Publication Date
JP2021167850A JP2021167850A (en) 2021-10-21
JP7293162B2 true JP7293162B2 (en) 2023-06-19

Family

ID=78079690

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020070081A Active JP7293162B2 (en) 2020-04-08 2020-04-08 Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program

Country Status (1)

Country Link
JP (1) JP7293162B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022083900A1 (en) * 2020-10-20 2022-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for providing a processed audio signal, a method for providing a processed audio signal, an apparatus for providing neural network parameters and a method for providing neural network parameters
CN114974259B (en) * 2021-12-23 2024-07-12 号百信息服务有限公司 Voiceprint recognition method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198306A1 (en) 2018-04-12 2019-10-17 日本電信電話株式会社 Estimation device, learning device, estimation method, learning method, and program
JP2020181060A (en) 2019-04-24 2020-11-05 ヤフー株式会社 Information processing device, information processing method, information processing program, learning device, learning method and learning program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019198306A1 (en) 2018-04-12 2019-10-17 日本電信電話株式会社 Estimation device, learning device, estimation method, learning method, and program
JP2020181060A (en) 2019-04-24 2020-11-05 ヤフー株式会社 Information processing device, information processing method, information processing program, learning device, learning method and learning program

Also Published As

Publication number Publication date
JP2021167850A (en) 2021-10-21

Similar Documents

Publication Publication Date Title
Kleijn et al. Generative speech coding with predictive variance regularization
Richter et al. Speech enhancement and dereverberation with diffusion-based generative models
Li et al. An overview of noise-robust automatic speech recognition
US9824683B2 (en) Data augmentation method based on stochastic feature mapping for automatic speech recognition
Kwon et al. NMF-based speech enhancement using bases update
Weiss et al. Speech separation using speaker-adapted eigenvoice speech models
JP7329393B2 (en) Audio signal processing device, audio signal processing method, audio signal processing program, learning device, learning method and learning program
WO2019240228A1 (en) Voice conversion learning device, voice conversion device, method, and program
CN110998723B (en) Signal processing device using neural network, signal processing method, and recording medium
JP7112348B2 (en) SIGNAL PROCESSING DEVICE, SIGNAL PROCESSING METHOD AND SIGNAL PROCESSING PROGRAM
Williamson et al. Reconstruction techniques for improving the perceptual quality of binary masked speech
Li et al. Deep causal speech enhancement and recognition using efficient long-short term memory Recurrent Neural Network
Haridas et al. A novel approach to improve the speech intelligibility using fractional delta-amplitude modulation spectrogram
JP7293162B2 (en) Signal processing device, signal processing method, signal processing program, learning device, learning method and learning program
Yecchuri et al. Sub-convolutional U-Net with transformer attention network for end-to-end single-channel speech enhancement
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
JP6973254B2 (en) Signal analyzer, signal analysis method and signal analysis program
WO2012105385A1 (en) Sound segment classification device, sound segment classification method, and sound segment classification program
WO2012023268A1 (en) Multi-microphone talker sorting device, method, and program
Wu et al. Denoising Recurrent Neural Network for Deep Bidirectional LSTM Based Voice Conversion.
WO2022101967A1 (en) Voice signal conversion model learning device, voice signal conversion device, voice signal conversion model learning method, and program
CN113129920A (en) Music and human voice separation method based on U-shaped network and audio fingerprint
Xu et al. Robust One-step Speech Enhancement via Consistency Distillation
JP7795138B2 (en) Learning device, conversion device, learning method, conversion method, and program
JP7485050B2 (en) Signal processing device, signal processing method, signal processing program, learning device, learning method, and learning program

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20200409

A80 Written request to apply exceptions to lack of novelty of invention

Free format text: JAPANESE INTERMEDIATE CODE: A80

Effective date: 20200430

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220728

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230530

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230607

R150 Certificate of patent or registration of utility model

Ref document number: 7293162

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350