JP7404657B2 - Speech recognition device, speech recognition program, and speech recognition method - Google Patents
Speech recognition device, speech recognition program, and speech recognition method Download PDFInfo
- Publication number
- JP7404657B2 JP7404657B2 JP2019099690A JP2019099690A JP7404657B2 JP 7404657 B2 JP7404657 B2 JP 7404657B2 JP 2019099690 A JP2019099690 A JP 2019099690A JP 2019099690 A JP2019099690 A JP 2019099690A JP 7404657 B2 JP7404657 B2 JP 7404657B2
- Authority
- JP
- Japan
- Prior art keywords
- mixing
- speech recognition
- target area
- sound
- area sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Description
この発明は、音声認識装置、音声認識プログラム、及び音声認識方法に関し、例えば、雑音環境下で用いられる収音システム等の特定のエリアの音を強調し、それ以外のエリアの音を抑制するシステムに適用し得る。 The present invention relates to a speech recognition device, a speech recognition program, and a speech recognition method, such as a system that emphasizes sound in a specific area and suppresses sound in other areas, such as a sound collection system used in a noisy environment. can be applied to
雑音環境下で音声通信システムや音声認識応用システムを利用する場合、必要な目的音声と同時に混入する周囲の雑音は、良好なコミュニケーションを阻害し、音声認識率の低下をもたらす厄介な存在である。従来、このような複数の音源が存在する環境下において、特定の方向の音のみ分離・収音することで不要音の混入を避け必要な目的音を得る技術として、マイクアレイを用いたビームフォーマ(Beam Former;以下「BF」と呼ぶ)がある。 When using a voice communication system or a voice recognition application system in a noisy environment, ambient noise that mixes in with the necessary target voice is a nuisance that hinders good communication and causes a decrease in voice recognition rate. Conventionally, in environments where multiple sound sources exist, beamformers using microphone arrays have been used as a technology to separate and collect only sounds in specific directions, thereby avoiding the mixing of unnecessary sounds and obtaining the necessary target sounds. (Beam Former; hereinafter referred to as "BF").
BFとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である(非特許文献1参照)。BFは、加算型と減算型の大きく2つの種類に分けられる。特に減算型BFは、加算型BFに比べ、少ないマイクロホン数で指向性を形成できるという利点がある。 BF is a technology that forms directivity using the time difference between signals reaching each microphone (see Non-Patent Document 1). BF can be roughly divided into two types: additive type and subtractive type. In particular, the subtractive BF has the advantage that directivity can be formed with a smaller number of microphones than the additive BF.
図4は、マイクロホン数が2個(M1、M2)の場合の減算型BF400に係る構成を示すブロック図である。 FIG. 4 is a block diagram showing the configuration of the subtraction type BF 400 when the number of microphones is two (M1, M2).
減算型BF400は、遅延器410と減算器420を有している。
The
減算型BF400は、目的とする方向に存在する音(以下、「目的音」と呼ぶ)が各マイクロホンに到来する信号の時間差を算出し、遅延器410により遅延を加えることにより目的音の位相を合わせる。このときの時間差は下記(1)式により算出される。ここで、dはマイクロホン間の距離であり、cは音速であり、τiは遅延量であり、θLは各マイクロホンを結んだ直線に対する垂直方向から目的方向への角度である。
The
また、ここで、遅延器410は、死角がマイクロホンmc1とマイクロホンmc2の中心に対し、マイクロホンmc1の方向に存在する場合、マイクロホンmc1の入力信号x1(t)に対し遅延処理を行う。その後、減算器420が、(2)式に従った減算処理を行う。
Further, here, if the blind spot exists in the direction of the microphone mc1 with respect to the centers of the microphones mc1 and mc2, the
減算器420では、周波数領域でも同様に減算処理を行うことができ、その場合(2)式は以下の(3)式のように変更される。
ここでθL=±π/2の場合、形成される指向性は図5(a)に示すように、カージオイド型の単一指向性となり、θL=0,πの場合は、図5(b)のような8の字型の双指向性となる。ここでは、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。 Here, when θ L = ±π/2, the formed directivity becomes a cardioid type unidirectivity, as shown in FIG. 5(a), and when θ L =0,π, This results in a figure-eight bidirectional pattern as shown in (b). Here, a filter that forms a unidirectional pattern from an input signal will be referred to as a "unidirectional filter," and a filter that forms a bidirectional pattern will be referred to as a "bidirectional filter."
減算器420では、スペクトル減算法(Spectral Subtraction;以下、「SS」とも呼ぶ)を用いることで、双指向性の死角に強い指向性を形成することもできる。SSによる指向性は、(4)式に従い全周波数、もしくは指定した周波数帯域で形成される。(4)式では、マイクロホンmc1の入力信号X1を用いているが、マイクロホンmc2の入力信号X2でも同様の効果を得ることができる。ここでβはSSの強度を調節するための係数である。(4)式に従ってSSの処理を行う際、減算時に値がマイナスになった場合は、0または元の値を小さくした値に置き換えるフロアリング処理を行う。この方式は、双指向性フィルタにより目的方向以外に存在する音(以下、「非目的音」と呼ぶ)を抽出し、抽出した非目的音の振幅スペクトルを入力信号の振幅スペクトルから減算することで、目的音方向を強調することができる。
ある特定のエリア内に存在する音(以下、「目的エリア音」と呼ぶ)だけを収音したい場合、減算型BFを用いるだけでは、そのエリアの周囲に存在する音源(以下、「非目的エリア音」と呼ぶ)も収音してしまう可能性がある。そこで、特許文献1の記載技術では、複数のマイクアレイを用い、それぞれ別々の方向から目的エリアへ指向性を向け、指向性を目的エリアで交差させることで目的エリア音を収音する手法(エリア収音)を提案している。
If you want to collect only the sounds that exist in a certain area (hereinafter referred to as "target area sounds"), it is not possible to collect only the sound sources that exist around that area (hereinafter referred to as "non-target area sounds") by simply using a subtractive BF. There is also a possibility that sound may be picked up. Therefore, the technology described in
図6は、2つのマイクアレイMA1、MA2を用いて、目的エリアの音源からの目的エリア音を収音する処理について示した説明図である。 FIG. 6 is an explanatory diagram showing a process of collecting target area sound from a target area sound source using two microphone arrays MA1 and MA2.
図6(a)は、各マイクアレイの構成例について示した説明図である。図6(b)、図6(c)は、それぞれ図6(a)に示すマイクアレイMA1、MA2のBF出力について周波数領域で示したグラフ(イメージ図)である。エリア収音では、図6(a)に示すようは、マイクアレイMA1、MA2の指向性を別々の方向から収音したいエリア(目的エリア)で交差させて収音する。図6(a)の状態では、各マイクアレイMA1、MA2の指向性に目的エリア内に存在する音(目的エリア音)だけでなく、目的エリア方向の雑音(非目的エリア音)も含まれている。しかし、図6(b)、図6(c)に示すように、マイクアレイMA1、MA2の指向性を周波数領域で比較すると、目的エリア音成分はどちらの出力にも含まれるが、非目的エリア音成分は各マイクアレイで異なることになる。従来のエリア収音技術では、このような特性を利用し、2つのマイクアレイMA1、MA2のBF出力に、共通に含まれる成分以外を抑圧することで目的エリア音のみ抽出することができる。 FIG. 6A is an explanatory diagram showing a configuration example of each microphone array. FIGS. 6(b) and 6(c) are graphs (image diagrams) showing the BF outputs of the microphone arrays MA1 and MA2 shown in FIG. 6(a) in the frequency domain, respectively. In area sound collection, as shown in FIG. 6A, sound is collected by crossing the directivity of microphone arrays MA1 and MA2 from different directions at an area where sound is desired to be collected (target area). In the state shown in Fig. 6(a), the directivity of each microphone array MA1, MA2 includes not only the sound existing within the target area (target area sound) but also the noise in the direction of the target area (non-target area sound). There is. However, as shown in FIGS. 6(b) and 6(c), when comparing the directivity of microphone arrays MA1 and MA2 in the frequency domain, the target area sound components are included in both outputs, but the non-target area The sound components will be different for each microphone array. In conventional area sound collection technology, by utilizing such characteristics, only the target area sound can be extracted by suppressing components other than those commonly included in the BF outputs of the two microphone arrays MA1 and MA2.
図6(a)のような環境で従来のエリア収音処理を行う場合、まず各マイクアレイのBF出力に含まれる目的エリア音の振幅スペクトルの比率を推定し、それを補正係数とする例として2つのマイクアレイを使用することになる。このとき、目的エリア音振幅スペクトルの補正係数は、「(5)、(6)式」または「(7)、(8)式」により算出される。ここで、Y1k(n)、Y2k(n)はマイクアレイMA1、MA2のBF出力の振幅スペクトルであり、Nは周波数ピンの総数であり、kは周波数であり、α1(n)、α2(n)は各BF出力に対する振幅スペクトル補正係数である。また、ここで、modeは最頻値、medianは中央値を表している。
その後、補正係数により各BF出力を補正し、SSすることで、目的エリア方向に存在する非目的エリア音を抽出することができる。さらに、抽出した非目的エリア音を各BFの出力からSSすることにより目的エリア音を抽出することができる。例えば、マイクアレイMA1からみた目的エリア方向に存在する非目的エリア音N1(n)を抽出するには、(9)式に示すように、マイクアレイMA1のBF出力Y1(n)からマイクアレイMA2のBF出力Y2(n)に振幅スペクトル補正係数的を掛けたものをSSする。同様に(10)式に従い、マイクアレイMA2からみた目的エリア方向に存在する非目的エリア音N2(n)を抽出する。 Thereafter, by correcting each BF output using a correction coefficient and performing SS, it is possible to extract non-target area sounds that exist in the direction of the target area. Furthermore, the target area sound can be extracted by performing SS on the extracted non-target area sound from the output of each BF. For example, in order to extract the non-target area sound N 1 (n) existing in the direction of the target area as seen from microphone array MA1, as shown in equation (9), from the BF output Y 1 (n) of microphone array MA1, SS is obtained by multiplying the BF output Y 2 (n) of array MA2 by the amplitude spectrum correction coefficient. Similarly, according to equation (10), non-target area sound N 2 (n) existing in the target area direction as seen from microphone array MA2 is extracted.
その後、(11)、(12)式に従い、各BF出力から非目的エリア音をSSして目的エリア音を抽出することができる。(11)式は、マイクアレイMA1を基準として、また(12)式は、マイクアレイMA2を基準として目的エリア音を抽出することを示している。なお、(11)式、(12)式において、γ1(n)、γ2(n)はSS時の強度を変更するための係数である。
ところで、背景雑音や非目的エリア音の音量レベルが大きい場合、目的エリア音抽出の際に行うSSにより、目的エリア音が歪んだり、ミュージカルノイズという耳障りな異音が発生する可能性がある。 By the way, when the volume level of the background noise or non-target area sound is high, the SS performed when extracting the target area sound may distort the target area sound or generate a harsh abnormal sound called musical noise.
そこで、特許文献2の手法では、背景雑音と非目的エリア音の大きさに応じて、マイクの入力信号と推定雑音の音量レベルをそれぞれ調節し、抽出した目的エリア音に混合している。目的エリア音を抽出する処理により発生するミュージカルノイズは、背景雑音と非目的エリア音の音量レベルが大きいほど強くなるため、混合する入力信号と推定雑音の総和の音量レベルも、背景雑音と非目的エリア音の音量レベルに比例して大きくする。背景雑音の音量レベルは、背景雑音を抑圧する過程で求める推定雑音から算出することができる。また、非目的エリア音の音量レベルは、目的エリア音を強調する過程で抽出する目的エリア方向に存在する非目的エリア音と、目的エリア方向以外に存在する非目的エリア音を合わせたものから算出することができる。
Therefore, in the method of
特許文献2の手法では、混合する入力信号と推定雑音の比率は、推定雑音と非目的エリア音の音量レベルから決定する。しかし、目的エリアの近くに非目的エリア音が存在する場合、混合する入力信号の音量レベルが大きすぎると目的エリア音に非目的エリア音が混入し、どちらが目的エリア音なのかが分からなくなってしまう。そこで、特許文献2の手法では、非目的エリア音が大きいときは混合する入力信号の音量レベルを下げ、推定雑音の音量レベルを大きくして混合する。つまり、特許文献2の手法では、非目的エリア音が存在しないか音量レベルが小さい場合は入力信号の割合を多くし、逆に非目的エリア音の音量レベルが大きい場合推定雑音の割合を多くして混合する。
In the method of
このように特許文献2の手法を用いれば、目的エリア音に入力信号及び推定雑音を混合することにより、ミュージカルノイズをマスキングし、通常の背景雑音のように違和感なく聞かせることができる。また、特許文献2の手法では、マイク入力信号に含まれる目的エリア音の成分により、目的エリア音の歪みを補正し、音質を改善することができる。
In this way, by using the technique of
ところで、長年の音声認識技術の進展により、従来でも静粛環境ではかなり高精度な認識が実現できるようになっていた。しかし、実環境では、目的話者の音声には周囲からの様々な雑音、妨害音声が混入し、認識率を著しく低下させる要因となる。そのため、音声認識エンジンに入力する音声から、いかに背景雑音を取り除くかが音声インタフェース実現する上で、重要な課題となっていた。そこでは、目的音声に多少の変形、歪があっても、雑音抑圧効果、とりわけ妨害音声の抑圧効果が高い前処理が求められた。 By the way, with the advancement of speech recognition technology over the years, it has become possible to achieve fairly high-precision recognition even in a quiet environment. However, in a real environment, the target speaker's voice is mixed with various noises and interfering voices from the surroundings, which causes a significant decrease in the recognition rate. Therefore, how to remove background noise from the speech input to the speech recognition engine has become an important issue in realizing a speech interface. Therefore, there is a need for preprocessing that is highly effective in suppressing noise, especially in suppressing interfering speech, even if the target speech has some deformation or distortion.
ところが近年、機械学習とりわけ深層学習の導入は、音声認識に革新的な進歩をもたらし、背景雑音に対する頑健性も従来とは比較にならないほど向上した。そのような音声認識エンジンに対しては、雑音抑圧性能を最優先にするのではなく、雑音抑圧性能と雑音抑圧後の音声品質のバランスが重要となる。 However, in recent years, the introduction of machine learning, particularly deep learning, has brought about revolutionary advances in speech recognition, making it far more robust against background noise than ever before. For such a speech recognition engine, it is important not to give top priority to noise suppression performance, but to balance the noise suppression performance and the speech quality after noise suppression.
特許文献1、2のようなエリア収音やBFなどの手法は、周囲の雑音が抑圧され音声の了解性は上がるが、そのまま音声認識率が改善するとは限らない。どの程度の雑音抑制が最適かは、使用環境、雑音の種類、音声認識エンジンの特性、など様々な要因に左右され、一概に決定することは困難である。
Although methods such as area sound collection and BF as in
そのため、音声認識処理の認識精度向上に寄与する収音処理に基づく音声認識処理を行う音声認識装置、音声認識プログラム、及び音声認識方法が求められている。 Therefore, there is a need for a speech recognition device, a speech recognition program, and a speech recognition method that perform speech recognition processing based on sound collection processing that contributes to improving the recognition accuracy of speech recognition processing.
第1の本発明は、(1)目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出するエリア音抽出手段と、(2)前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、(3)それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、(4)前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段とを有し、(5)前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数の分の混合音を生成し、(6)前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段をさらに有することを特徴とする。 A first aspect of the present invention provides: (1) Based on input signals input from a plurality of microphone arrays capable of directing directivity toward a target area, beamformer outputs of each of the microphone arrays are acquired; (2) area sound extraction means for extracting a target area sound by performing area sound collection processing of the target area using the beamformer output; a signal mixing means that performs a mixing process of mixing signals at a plurality of mixing amounts to generate a mixed sound for each mixing amount, and (3) obtaining the results of performing voice recognition processing on each of the mixed sounds. (4) a voice recognition means that performs a reliability calculation process to calculate the reliability of the voice recognition process results for each of the mixed sounds; (5) the signal mixing means selects and outputs a high speech recognition processing result; (6) applying the changed mixing amount to the mixing process to generate mixed sounds for the number of stages; The method further includes a mixture content determining means for determining the quantity, the range of change, and the number of stages.
第2の本発明の音声認識プログラムは、コンピュータを、(1)目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出するエリア音抽出手段と、(2)前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、(3)それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、(4)前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段として機能させ、(5)前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数の分の混合音を生成し、(6)前記コンピュータを、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段としても機能させることを特徴とする。 The speech recognition program according to the second aspect of the present invention causes a computer to: (1) select a beamformer for each of the microphone arrays based on input signals input from a plurality of microphone arrays capable of directing directionality toward a target area; (2) an area sound extraction means for acquiring the output and performing area sound collection processing of the target area using the acquired beamformer output to extract the target area sound; and (2) a purpose extracted by the area sound extraction means. (3) signal mixing means for performing a mixing process of mixing a mixing signal in a plurality of mixing amounts with respect to the area sound to generate a mixed sound for each mixing amount; and (3) speech recognition for each of the mixed sounds. (4) a voice recognition unit that performs a reliability calculation process that acquires the results of the processing and calculates the reliability of the voice recognition process result for each of the mixed sounds; and (4) a voice recognition process result performed by the voice recognition unit. (5) The signal mixing means selects and outputs the most reliable speech recognition processing result from among the speech recognition processing results; (6) applying the mixture amount changed by the number of stages set in the mixing process to generate mixed sounds for the number of stages; (6) controlling the computer according to the selection result of the recognition result selection means; It is characterized in that it also functions as a mixture content determining means for determining the central mixing amount, the variation width, and the number of stages to be applied to the signal mixing means.
第3の本発明は、音声認識方法において、(1)エリア音抽出手段、信号混合手段、音声認識手段、認識結果選択手段、及び混合内容決定手段を有し、(2)前記エリア音抽出手段は、目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出し、(3)前記信号混合手段は、前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成し、(4)前記音声認識手段は、それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行い、(5)前記認識結果選択手段は,前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力し、(6)前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数の分の混合音を生成し、(7)前記混合内容決定手段は、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定することを特徴とする。
A third aspect of the present invention provides a speech recognition method, which includes (1) an area sound extraction means, a signal mixing means, a speech recognition means, a recognition result selection means, and a mixed content determination means, and (2) the area sound extraction means. acquires the beamformer output of each of the microphone arrays based on the input signals input from the plurality of microphone arrays that can direct the directivity toward the target area, and uses the acquired beamformer output to (3) The signal mixing means applies a mixing signal to the target area sound extracted by the area sound extracting means, and mixes a plurality of mixing amounts. (4) The voice recognition means obtains the results of voice recognition processing for each of the mixed sounds, and generates mixed sounds for each mixing amount. (5) the recognition result selection means selects the voice with the highest reliability among the voice recognition processing results performed by the voice recognition means; Selecting and outputting the recognition processing result, (6) the signal mixing means applies to the mixing process a mixture amount that has been changed by a set number of steps in a set change width around the set center mixing amount; (7) the mixture content determining means selects the central mixing amount to be applied to the signal mixing means, the mixing amount to be applied to the signal mixing means, and The method is characterized in that the variation width and the number of steps are determined.
本発明によれば、音声認識処理の認識精度向上に寄与する収音処理に基づく音声認識処理を行うことができる。 According to the present invention, it is possible to perform speech recognition processing based on sound collection processing that contributes to improving the recognition accuracy of speech recognition processing.
(A)第1の実施形態
以下、本発明による音声認識装置、音声認識プログラム、及び音声認識方法の第1の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを収音システムに適用した例について説明する。
(A) First Embodiment Hereinafter, a first embodiment of a speech recognition device, a speech recognition program, and a speech recognition method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound collection system of the present invention is applied to a sound collection system will be described.
(A-1)第1の実施形態の構成
図1は、第1の実施形態の音声認識装置200の全体構成を示すブロック図である。
(A-1) Configuration of First Embodiment FIG. 1 is a block diagram showing the overall configuration of a
音声認識装置200は、マイクアレイ部100から供給される入力信号に基づいて、目的エリアを音源とする目的エリア音(目的エリアに存在する話者の音声)を区別して収音し、収音した目的エリア音を音声認識処理(例えば、収音した音声をテキスト化する処理)して、その音声認識処理結果を出力する装置である。
Based on the input signal supplied from the
マイクアレイ部100は、複数のマイクアレイを用いて収音エリアを含む領域の音を捕捉する手段である。
The
この実施形態では、マイクアレイ部100は、2つのマイクアレイMA1、MA2を備えているものとする。
In this embodiment, it is assumed that the
マイクアレイMA1、MA2は、それぞれ目的エリアが存在する空間の任意の場所に配置される。目的エリアに対するマイクアレイMA1、MA2の位置は、各マイクアレイの指向性が目的エリアでのみ重なればどこでも良い。例えば、マイクアレイMA1、MA2を、目的エリアを挟んで対向に配置しても良い。マイクアレイ部100を構成するマイクアレイの数は2つに限定するものではなく、目的エリアが複数存在する場合、全てのエリアをカバーできる数のマイクアレイを配置する。
Microphone arrays MA1 and MA2 are each placed at an arbitrary location in the space where the target area exists. The positions of the microphone arrays MA1 and MA2 with respect to the target area may be anywhere as long as the directivity of each microphone array overlaps only in the target area. For example, the microphone arrays MA1 and MA2 may be placed opposite to each other with the target area in between. The number of microphone arrays constituting the
そして、マイクアレイMA1、MA2は、それぞれ2つ以上のマイクロホンを用いて構成することができる。この実施形態では、マイクアレイMA1、MA2は、それぞれ2つのマイクロホンを備えているものとして説明する。ここでは、マイクアレイMA1はmc1、mc2を備え、マイクアレイMA2はmc3、mc4を備えるものとする。また、この実施形態の例では、マイクアレイMA1、MA2において、2つのマイクロホンの間の距離は3cmであるものとする。 The microphone arrays MA1 and MA2 can each be configured using two or more microphones. In this embodiment, each of the microphone arrays MA1 and MA2 will be described as having two microphones. Here, it is assumed that microphone array MA1 includes mc1 and mc2, and microphone array MA2 includes mc3 and mc4. Further, in the example of this embodiment, it is assumed that the distance between two microphones in microphone arrays MA1 and MA2 is 3 cm.
次に、音声認識装置200の内部構成について説明する。
Next, the internal configuration of the
図1に示すように、音声認識装置200は、信号入力部201、時間/周波数変換部202、指向性形成部203、エリア音抽出部204、信号混合部205、周波数/時間変換部206、振幅スペクトル比算出部207、音声区間検出部208、音声認識部209、及び認識結果選択部210を有している。音声認識装置200を構成する各要素の詳細については後述する。
As shown in FIG. 1, the
音声認識装置200は、例えば、プロセッサやメモリ等を備えるコンピュータにプログラム(実施形態に係る音声認識プログラムを含む)を実行させるようにしてもよいが、その場合であっても、機能的には、図1のように示すことができる。音声認識装置200の各構成要素の処理の詳細については後述する。
The
図2は、音声認識装置200のハードウェア構成の例について示したブロック図である。なお、図2における括弧内の符号は後述する第2の実施形態で用いられる符号である。
FIG. 2 is a block diagram showing an example of the hardware configuration of the
図2では、音声認識装置200をソフトウェア(コンピュータ)を用いて実現する際の構成について示している。
FIG. 2 shows a configuration in which the
図2に示す音声認識装置200は、ハードウェア的な構成要素として、少なくとも信号入力部201と、プログラム(実施形態の音声認識プログラムを含むプログラム)がインストールされたコンピュータ500を有している。
The
信号入力部201は、例えば、A/Dコンバータを用いて構成することができる。なお、コンピュータ500自体にA/Dコンバータが搭載されていれば、信号入力部201を別途設ける必要はない。
The
コンピュータ500は、信号入力部201から供給される音響信号(デジタル音響信号)にエリア収音処理を施して出力する処理を行う。この実施形態では、コンピュータ500に、この実施形態の収音プログラムを含むプログラム(ソフトウェア)がインストールされているものとする。
The
なお、コンピュータ500は、収音プログラム専用のコンピュータとしてもよいし、他の機能(例えば、記録装置300)のプログラムと共用される構成としてもよい。
Note that the
図2に示すコンピュータ500は、プロセッサ501、一次記憶部502、及び二次記憶部503を有している。一次記憶部502は、プロセッサ501の作業用メモリ(ワークメモリ)として機能する記憶手段であり、例えば、DRAM(Dynamic Random Access Memory)等の高速動作するメモリが適用される。二次記憶部503は、OS(Operating System)やプログラムデータ(実施形態に係る収音プログラムのデータを含む)等の種々のデータを記録する記憶手段であり、例えば、FLASHメモリやHDD等の不揮発性メモリが適用される。この実施形態のコンピュータ500では、プロセッサ501が起動する際、二次記憶部503に記録されたOSやプログラム(実施形態に係る収音プログラムを含む)を読み込み、一次記憶部502上に展開して実行する。
The
なお、コンピュータ500の具体的な構成は図2の構成に限定されないものであり、種々の構成を適用することができる。例えば、一次記憶部502が不揮発メモリ(例えば、FLASHメモリ等)であれば、二次メモリについては除外した構成としてもよい。
Note that the specific configuration of the
(A-2)第1の実施形態の動作
次に、以上のような構成を有する第1の実施形態の音声認識装置200の動作を説明する。
(A-2) Operation of First Embodiment Next, the operation of the
信号入力部201は、各マイクアレイMA1、MA2の各マイクロホンmc1~mc4で収音した音響信号をアナログ信号からデジタル信号に変換し、時間/周波数変換部202に供給する。以下では、マイクロホンmc1~mc4で収音したデジタル形式の音響信号(以下、「入力信号」とも呼ぶ)を、それぞれx1~x4と表す。
The
時間/周波数変換部202は供給されたマイクロホン信号を時間領域から周波数領域へ変換する。以下では、入力信号x1~x4を周波数領域に変換した信号を、それぞれX1~X4と表す。
The time/
指向性形成部203は、時間/周波数変換部202によって時間・周波数変換された各マイクロホンの入力信号(X1~X4)を用いて上記の(3)式、(4)式に従いBFにより指向性を形成する。以下では、マイクアレイMA1によるBF出力をY1、マイクアレイMA2によるBF出力をY2とする。
The
エリア音抽出部204は、指向性形成部203で生成されたBF出力Y1、Y2を用いて(9)、もしくは(10)式に従いSSし、目的工リア方向に存在する非目的エリア音を抽出する。さらに、エリア音抽出部204は、抽出した雑音を各BFの出力から(11)、もしくは(12)式に従いSSすることにより目的エリア音Zを抽出する。
The area
ここまでのエリア収音処理によって、目的音が存在するエリアで発生した音だけが抽出され、周囲に音声認識に不要な雑音があっても、目的とする音声(目的エリアに存在する話者の発話した音声)だけを取り出すことができる。一般に雑音抑圧処理において、雑音の抑圧量と音質はトレードオフの関係にある。抑圧量を増やせば歪みは増える。エリア収音は、目的エリアで発生する音だけを強調可能な優れた方式であるが、一般の雑音抑圧同様、強調効果を高めれば、それだけ歪みは増すことになる。そのためエリア収音によって抽出した目的音信号を、そのまま記録装置300(音声認識部301)に与えても、高い認識率が得られない可能性がある。 The area sound collection processing up to this point extracts only the sounds that occur in the area where the target sound exists, and even if there is noise unnecessary for speech recognition in the surroundings, the target sound (of the speaker in the target area) is extracted. Only the spoken voice can be extracted. Generally, in noise suppression processing, there is a trade-off relationship between the amount of noise suppression and sound quality. If the amount of suppression is increased, the distortion will increase. Area sound collection is an excellent method that can emphasize only the sounds occurring in the target area, but as with general noise suppression, the higher the emphasis effect, the more the distortion will increase. Therefore, even if the target sound signal extracted by area sound collection is directly supplied to the recording device 300 (speech recognition unit 301), a high recognition rate may not be obtained.
上述の通り、エリア音出力Zに、混合用信号として入力信号成分を混合すれば、エリア収音処理によって生じる目的音声の歪みを軽減することができる。そこで、この実施形態の音声認識装置200では、エリア音出力Zに混合用信号としての入力信号を一定量混合し、エリア音出力Zにおける目的音成分の歪軽減を図る。
As described above, by mixing the input signal component with the area sound output Z as a mixing signal, it is possible to reduce the distortion of the target sound caused by the area sound collection process. Therefore, in the
エリア音出力Zに対する入力信号の混合量(混合する入力信号のレベル)を増やせば目的音成分の歪は減るが、それと引き換えに雑音の抑圧量は少なくなる。エリア音出力に入力信号をどの程度の割合で混合すればよいかは、目的音の音量、雑音量、雑音の種類、装置の使用環境、使用する音声認識エンジンの特性など種々の要因に左右され、一律に決定するのは困難である。そこで、この実施形態の信号混合部205は、入力信号の混合量(混合する入力信号のレベル)の異なる複数の混合音Mを生成するものとする。
If the amount of input signal mixing (level of the input signal to be mixed) with respect to the area sound output Z is increased, the distortion of the target sound component will be reduced, but in exchange, the amount of noise suppression will be reduced. The ratio of the input signal to the area sound output depends on various factors, such as the volume of the target sound, the amount of noise, the type of noise, the environment in which the device is used, and the characteristics of the speech recognition engine used. , it is difficult to uniformly determine. Therefore, it is assumed that the
具体的には、信号混合部205は、最終的に目的エリア音のエリア収音結果として出力する混合音として、混合量の異なるQ個(Qは2以上の整数)の混合音M(M1~MQ)を生成する。混合音M1~MQは、それぞれ、元の入力信号に対する減衰量At(At1~AtQ)が異なる入力信号をエリア音出力Zに混合したものである。以下では、Qは「段階数」と呼ぶものとする。
Specifically, the
この実施形態では段階数Qは7として説明する。そして、減衰量At1~At7は、-5db~35dbの範囲で-5dB刻みに設定(―5dbの幅で7段階に設定)されるものとする。すなわち、減衰量At1~At7は、それぞれ-5dB、-10dB、-15dB、-20dB、-25dB、-30dB、-35dB[混合量小]に設定される。この場合At1(=-5db)の減衰量が最も小さく(混合量が最も大きく)、At7(=-35db)の減衰量が最も大きく(混合量が最も小さく)なる。 In this embodiment, the number of stages Q will be explained as seven. It is assumed that the attenuation amounts At1 to At7 are set in the range of -5 db to 35 db in increments of -5 dB (set in 7 steps with a width of -5 db). That is, the attenuation amounts At1 to At7 are set to -5 dB, -10 dB, -15 dB, -20 dB, -25 dB, -30 dB, and -35 dB [small mixing amount], respectively. In this case, the attenuation amount of At1 (=-5 db) is the smallest (the mixing amount is the largest), and the attenuation amount of At7 (=-35 db) is the largest (the mixing amount is the smallest).
そして、信号混合部205は、混合用信号としての入力信号を、At1~At7のそれぞれの減衰量で減衰させた混合音M1~M7を生成する。
Then, the
周波数/時間変換部206は、エリア音出力Zに入力信号(入力音)を混合することによって歪みを低減した混合音M1~M7を時間領域の信号(混合音)m1~m7に変換して、音声認識部209に供給する。
The frequency/
音声認識装置200では、混合音m1~m7を音声認識部209に投入するに当たり、音声区間検出部208が音声区間の検出をおこなうものとする。
In the
音声区間検出部208が、収音エリア内の目的エリア音の存在の有無を判定する方法については限定されないものであり、種々の方法を適用することができる。例えば、音声区間検出部208では、収音エリア内の目的エリア音の存在の有無を判定する方法として、エリア収音出力と入力音との振幅スペクトル比を用いる方法(以下の参考文献1参照)や、リア収音を行なう際のBF出力間のコヒーレンスを用いる方法などを適用することができる。この実施形態の例では、音声区間検出部208は、振幅スペクトル比を用いる方法で、収音エリア内の目的エリア音の存在の有無を判定するものとして説明する。
参考文献1:特関2016-127457号公報
The method by which the audio
Reference 1: Special Seki No. 2016-127457
振幅スペクトル比算出部207は、時間/周波数変換部202から入力信号を、エリア音抽出部204からエリア音出力Zを取得して、振幅スペクトル比Rの算出を行う。
The amplitude spectrum
例えば振幅スペクトル比算出部207は、下記の(13)式、又は(14)式を用いて、エリア音出力(Z1又はZ2)と入力信号の振幅スペクトル比(R1又はR2)を周波数ごとに算出する。(13)、(14)式において、Win1はマイクアレイMA1の入力信号の振幅スペクトルであり、Win2は、マイクアレイMA2の入力信号の振幅スペクトルである。なお、Win1、Win2の算出に用いるマイクロホンは、マイクアレイMA1、MA2を構成するいずれかのマイクロホンでも良い。ここではWin1はマイクロホンmc1の入力信号X1に基づいて算出されたものとし、Win2はマイクロホンmc3の入力信号X3に基づいて算出されたものとする。また、ここで、Z1は、マイクアレイMA1をメインとしてエリア収音処理を行った場合(上述の(11)式を用いた場合)のエリア音出力の振幅スペクトルであり、Z2は、マイクアレイMA2をメインとしてエリア収音処理を行った場合(上述の(12)式を用いた場合)のエリア音出力の振幅スペクトルである。
For example, the amplitude spectrum
そして、振幅スペクトル比算出部207は、下記(15)又は(16)式を用いて、全周波数の振幅スペクトル比を加算して、振幅スペクトル比加算値(U1又はU2)を求める。
Then, the amplitude spectrum
ここで、(15)式を用いて行われる処理において得られるU1は、各周波数の振幅スペクトル比R1iを周波数の下限jから上限kでの帯域で足し合わせたものであり、式(16)の処理を用いて行われるU2は、各周波数の振幅スペクトル比R2iを、周波数の下限jから上限kでの帯域で足し合わせたものである。ここでは、振幅スペクトル比算出部207において演算対象とする周波数の帯域を制限しても良い。例えば、演算対象を音声情報が十分に含まれる100Hzから6kHzに制限して、上記演算を行うようにしても良い。
Here, U 1 obtained in the process performed using equation (15) is the sum of the amplitude spectrum ratio R 1i of each frequency in the band from the lower frequency limit j to the upper frequency limit k, and is obtained by equation (16). ) is obtained by adding up the amplitude spectrum ratio R 2i of each frequency in the band from the lower frequency limit j to the upper frequency limit k. Here, the frequency band to be calculated in the amplitude spectrum
そして、振幅スペクトル比算出部207は、U1又はU2を算出した結果をUとして音声区間検出部208に供給する。
Then, the amplitude spectrum
なお、振幅スペクトル比算出部207は、エリア音抽出部204で目的エリア音Zを算出する際に、マイクアレイMA1のBF出力Y1(n)をメインとしてエリア収音処理を行った場合(上述の(11)式を用いた場合)には、(15)式を用いて算出したU1を振幅スペクトル比加算値Uとして出力することが好ましい。また、振幅スペクトル比算出部207は、エリア音抽出部204で目的エリア音Zを算出する際に、マイクアレイMA2のBF出力Y2(n)をメインとしてエリア収音処理を行った場合(上述の(12)式を用いた場合)には、(16)式を用いて算出したU2を振幅スペクトル比加算値Uとして出力することが好ましい。
音声区間検出部208は、振幅スペクトル比算出部207から供給された振幅スペクトル比加算値Uを予め設定した閾値と比較し、目的エリア内で目的エリア音(音声)が存在するかしないかを判定する。突発的な雑音と音声を区別するため、音声区間検出部208は、一定以上の時間、エリア音が存在したときに音声区間(目的エリア内の話者が発話中の期間)と見倣す、あるいは発話の終了と、破裂音や息継ぎなど一時的な無音区間を区別するために無音検出後一定時間は音声区間と見做す、など音声区間の判定には一般的手法を用いればよい。音声区間検出部208は、これらの処理により音声区間を検出し、その音声区間検出結果Sを音声認識部209に供給する。
The voice
ここで、音声区間検出部208は、目的エリア内で目的エリア音が存在することを検出した場合、音声区間検出結果Sとして「true」を出力し、目的エリア内で目的エリア音が存在しないことを検出した場合、音声区間検出結果Sとして「false」を出力するものとする。
Here, when the voice
音声認識部10は、混合レベルを段階的に変えた混合音m1~m7を用いて、個別に音声認識処理を試み、それぞれに対する音声認識処理の結果(以下、「認識結果」と呼ぶ)A1~A7と、認識結果A1~A7のそれぞれの信頼性の度合いを数値化した値(以下、「認識信頼度」と呼ぶ)Re1~Re7を得る処理(以下、「認識信頼度算出処理」と呼ぶ)を行う。 The speech recognition unit 10 attempts speech recognition processing individually using the mixed sounds m1 to m7 whose mixing levels are changed in stages, and obtains the results of the speech recognition processing for each (hereinafter referred to as "recognition results") A1 to A process to obtain values Re1 to Re7 (hereinafter referred to as "recognition reliability") that quantify the degree of reliability of each of A7 and recognition results A1 to A7 (hereinafter referred to as "recognition reliability calculation process") I do.
音声認識部10が、混合音m1~m7のそれぞれに対して音声認識処理(例えば、音声をテキスト化する処理;いわゆる「Speech to Text」の処理)を行って認識結果A1~A7を生成する際の具体的な手法については限定されないものであり、種々の手法を適用することができる。 When the speech recognition unit 10 performs speech recognition processing (for example, processing for converting speech into text; so-called "Speech to Text" processing) on each of the mixed sounds m1 to m7 to generate recognition results A1 to A7. The specific method is not limited, and various methods can be applied.
また、音声認識部10が、認識結果A1~A7のそれぞれを分析して認識信頼度Re1~Re7を算出する認識信頼度算出処理の手法については限定されないものであり、種々の手法を適用することができる。例えば、音声認識部10では、認識信頼度算出処理に以下の参考文献2、3の手法等を用いるようにしてもよい。音声認識部10が認識信頼度を算出する間隔(以下、「信頼度算出間隔」と呼ぶ)は限定されないものである。音声認識部10は、例えば、一定時間ごとに認識信頼度を算出するようにしてもよい。
参考文献2:特開2005-148342号公報
参考文献3:特開2010-175807号公報
Further, the method of recognition reliability calculation processing in which the speech recognition unit 10 analyzes each of the recognition results A1 to A7 to calculate the recognition reliability Re1 to Re7 is not limited, and various methods may be applied. I can do it. For example, the speech recognition unit 10 may use the methods described in
Reference document 2: Japanese Patent Application Publication No. 2005-148342 Reference document 3: Japanese Patent Application Publication No. 2010-175807
認識結果選択部210は、音声区間(S=trueの区間)に対して最も信頼度が高かった認識結果を選択して、最終の認識結果Asとして出力する。認識結果選択部210は、例えば、信頼度算出間隔ごとに、出力する認識結果(A1~A7)を、最も認識信頼度の高い認識結果に切り替える処理を行うようにしてもよい。
The recognition
(A-3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
(A-3) Effects of the first embodiment According to the first embodiment, the following effects can be achieved.
第1の実施形態の音声認識装置200では、混合量(減衰量;混合レベル)の異なる複数の混合音を生成し、それぞれの混合音の音声認識処理結果に対する信頼度を算出し、最も信頼度の高い音声認識処理結果を最終的な認識結果として出力する。これにより、第1の実施形態の音声認識装置200では、種々の使用環境において、音声認識処理にとっての最適な混合量を用いることが可能となる。結果として、音声認識装置200では、音声認識の精度が向上する。
The
(B)第2の実施形態
以下、本発明による音声認識装置、音声認識プログラム、及び音声認識方法の第2の実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の収音システムを収音システムに適用した例について説明する。
(B) Second Embodiment Hereinafter, a second embodiment of a speech recognition device, a speech recognition program, and a speech recognition method according to the present invention will be described in detail with reference to the drawings. In this embodiment, an example in which the sound collection system of the present invention is applied to a sound collection system will be described.
(B-1)第2の実施形態の構成
図3は、第2の実施形態の音声認識装置200Aの全体構成を示すブロック図である。
(B-1) Configuration of Second Embodiment FIG. 3 is a block diagram showing the overall configuration of a
図3では、上述の図1と同一又は対応する部分に、同一又は対応する符号を付している。以下では、第2の実施形態について第1の実施形態との差異を中心に説明する。 In FIG. 3, the same or corresponding parts as in FIG. 1 described above are given the same or corresponding symbols. The second embodiment will be described below, focusing on the differences from the first embodiment.
第2の実施形態の音声認識装置200Aでは、信号混合部205と認識結果選択部210が、信号混合部205Aと認識結果選択部210Aに置き換わり、さらに、混合レベル決定部211が追加されている点で第1の実施形態と異なっている。
In the
第1の実施形態では、信号混合部205における入力信号の混合量(減衰量)が複数固定であった。これに対して、第2の実施形態では、混合レベル決定部211を備え、音声認識部209による認識結果に基づいて、信号混合部205Aで適用する混合量(減衰量)を適応的に決定するところが第1の実施形態と異なっている。信号混合部205、認識結果選択部210及び混合レベル決定部211の具体的な処理の内容(第1の実施形態との差異)については後述する。
In the first embodiment, a plurality of mixing amounts (attenuation amounts) of input signals in the
(B-2)第2の実施形態の動作
次に、以上のような構成を有する第2の実施形態の音声認識装置200Aの動作を説明する。
(B-2) Operation of Second Embodiment Next, the operation of the
マイクアレイ部100、信号入力部201、時間/周波数変換部202、指向性形成部203、及びエリア音抽出部204の動作は、第1の実施形態と同様であるため、説明を省略する。
The operations of the
第1の実施形態では、7段階の異なる混合レベルを設定した。この段階数は、多ければ、細かな段階が設定されることで、より好適な混合量が選択できるようになるが、1つの音声区間に対しての認識処理量が増え、装置の大規模化、処理の遅延などの問題が生じる。一方、段階数を減らせば処理は簡単になるが、設定できる混合量が限定されるため、適量抽出の精度が低下する。そこでこの実施形態では、音声認識処理の認識結果に基づいて、エリア音出力に対する入力信号の混合量を適応的に決定する。 In the first embodiment, seven different mixing levels were set. If the number of stages is large, finer stages can be set and a more suitable mixing amount can be selected, but the amount of recognition processing for one speech section will increase and the scale of the device will increase. , problems such as processing delays may occur. On the other hand, if the number of stages is reduced, the process becomes simpler, but since the amount of mixture that can be set is limited, the accuracy of extracting the appropriate amount decreases. Therefore, in this embodiment, the mixing amount of the input signal with respect to the area sound output is adaptively determined based on the recognition result of the speech recognition process.
信号混合部205Aでは、第1の実施形態と同様、エリア音出力Zに対して入力信号の混合を行なうが、混合レベル(混合する入力信号の減衰量)の決定は、混合レベル決定部211で行なわれるものとする。
The
ここでは例として、混合レベル決定部211において、初期設定として、第1の実施形態と同様に、混合レベルを7段階(段階数Q=7)とし、そのときの入力信号に対する減衰量をAt1~At7として、第1の実施形態と同様に、-5db~―35dbの間で、-5dB刻みに7段階(-5dB、-10dB、-15dB、-20dB、-25dB、-30dB、-35dB)が設定されているものとする。なお、以下では、減衰量At~AQを設定する際の1段階分の減衰量の幅を「変化幅」と呼ぶものとする。例えば、上記のように、減衰量At1~At7を、-5db~35dbの範囲で-5dB刻みに設定する場合の「変化幅」は-5となる。ここでは、説明を簡易とするため、変化幅は一定であるものとして説明するが、必ずしも変化幅は一定である必要はない。
Here, as an example, in the mixing
そして、第1の実施形態と同様に、周波数/時間変換部206で時間変換された混合音m1~m7は、音声認識部209に入力される。
Then, as in the first embodiment, the mixed sounds m1 to m7 time-converted by the frequency/
音声認識部209は、第1の実施形態と同様に、混合レベルを段階的に変えた混合音m1~m7を個別に音声認識し、それぞれに対する認識結果A1~A7、および認識信頼度Re1~Re7を得る。
Similarly to the first embodiment, the
認識結果選択部210Aは、第1の実施形態と同様に、音声区間(S=trueの区間)に対して最も信頼度が高かった認識結果を選択して、最終の認識結果Asとして出力する。
Similar to the first embodiment, the recognition
次に、混合レベル決定部211における混合量を適応化する方法について説明する。
Next, a method of adapting the mixing amount in the mixing
混合レベル決定部211における混合量の適応化の方法(以下、「混合量適応化方法」と呼ぶ)としては、例えば、以下の2つの方法が考えられる。 As a method for adapting the mixing amount in the mixing level determination unit 211 (hereinafter referred to as a "mixing amount adaptation method"), for example, the following two methods can be considered.
第1の混合量適応化方法としては、段階数Qは変えず範囲を限定して、混合量の設定を綴密化(変化幅を小さくする)する方法がある。また、第2の混合量適応化方法としては、設定する混合量の1段階の変化幅は変えないが段階数Qを減らして処理を軽くする方法がある。 As a first mixture amount adaptation method, there is a method in which the range is limited without changing the number of stages Q, and the setting of the mixture amount is made more dense (reducing the range of change). Further, as a second mixture amount adaptation method, there is a method of reducing the number of steps Q to lighten the processing while not changing the variation width of one step of the set mixing amount.
[第1の混合量適応化方法について]
まず、混合レベル決定部211に、第1の混合量適応化方法(混合量緻密化)を適用する場合の詳細について説明する。
[About the first mixture amount adaptation method]
First, the details of applying the first mixture amount adaptation method (mixture amount densification) to the mixture
ここでは、まず、初期の状態から、音声認識部209において、混合音m1~m7について音声認識処理を行い、その結果、混合音m4の信頼度R4が最も高かったとする。この結果は、認識結果選択部210から混合レベル決定部211に供給される。混合レベル決定部211は、この結果を受けて、以降のエリア音出力Zに対する混合量を、前回最も信頼度が高かった減衰量(-20dB)を中心として混合量の変化幅を低減するものとする。この場合、混合レベル決定部211は、-20dbを中心(At4=-20db)とし、さらに変化幅を1/2の-2.5dB刻みとして、減衰量At1~At7を再設定する。この場合、混合レベル決定部211は、減衰量At1~At7を、それぞれ-12.5dB、-15dB、-17.5dB、-20dB、-22.5dB、-25dB、-27.5dBとする。以後、混合レベル決定部211は、次の認識結果に基づき、同様の手法により、さらに変化幅を精密化することによって、混合レベルを最適値に収束させてゆく。
Here, it is assumed that the
混合レベル決定部211は、所定の条件となるまでを限度として、混合量の適応化(変化幅の精密化)を行うようにしてもよい。混合レベル決定部211は、例えば、変化幅が所定の値(以下、「最低変化幅」と呼ぶ)となるまで、又は、音声認識部209で認識された認識信頼度が所定以上となるまで、混合量の適応化(変化幅の精密化)を行うようにしてもよい。
The mixing
以上のように、混合レベル決定部211は、第1の混合量適応化方法の処理を行う。
As described above, the mixture
[第2の混合量適応化方法について]
次に、混合レベル決定部211に、第2の混合量適応化方法を適用する場合の詳細について説明する。
[About the second mixture amount adaptation method]
Next, details of applying the second mixture amount adaptation method to the mixture
ここでは、まず、初期の状態から、音声認識部209において、混合音m1~m7について音声認識処理を行い、その結果、混合音m4の信頼度R4が最も高かったとする。このとき、混合レベル決定部211は、この結果を受けて、以降のエリア音出力Zに対する混合量を、前回最も信頼度が高かった混合音m4の減衰量(-20dB)を中心として、段階数Qを7から5に減らすようにしてもよい。段階数Qは、奇数であるほうが中心となる減衰量の設定が容易であるため、混合レベル決定部211は、段階数Qを2ずつ変動させることが好ましい。そして、混合レベル決定部211は、次の認識結果に基づき、同様の手法により、さらに段階数Qを減らして処理量を減らしていくようにしてもよい。
Here, it is assumed that the
混合レベル決定部211は、所定の条件となるまでを限度として、混合量の適応化(段階数Qの低減)を行うようにしてもよい。この場合、混合レベル決定部211は、例えば、段階数Qが所定の段階数(以下、「最低段階数」と呼ぶ)となった時点で、混合量の適応化(段階数Qの低減)を終了するようにしてもよい。
The mixture
以上のように、混合レベル決定部211は、第2の混合量適応化方法の処理を行う。
As described above, the mixture
上記では、第1、第2の混合量適応化方法で、適応対象のパラメータとして、変化幅又は段階数Qを適応化する方法を示したが、混合レベル決定部211は、どちらか一方に限定することなく双方を適応化してもよい。
In the above, the first and second mixture amount adaptation methods have shown a method of adapting the variation width or the number of stages Q as the parameter to be adapted, but the mixture
上記の例では、適応対象のパラメータ(変化幅、段階数Q)を減らす方向のみについて説明したが、1方向(減らす方向)だけでは、認識信頼度が局所値に陥り値が動かなくなってしまう。したがって、適応には、パラメータ(変化幅、段階数Q)を増やす方向も備える必要がある。増やす側の評価指標として、たとえば認識結果の信頼度Rを用いることができる。認識結果選択部210Aにおいて、認識結果の中で最も信頼度が高く最終の認識結果として選択された信頼度の値が、一定の水準に達しない場合、混合レベル決定部211は、混合量の変化幅、あるいは段階数を増やす方向の調整を行なうようにしてもよい。このとき、混合レベル決定部211は、変化幅については一度に2ずつ変動させ、変化幅については2倍ずつ変動させるようにしてもよい。
In the above example, only the direction of reducing the adaptation target parameter (change width, number of stages Q) was explained, but if only one direction (reducing direction) is used, the recognition reliability falls to a local value and the value does not change. Therefore, for adaptation, it is necessary to also provide a direction for increasing parameters (change width, number of stages Q). As an evaluation index to be increased, for example, the reliability R of the recognition result can be used. If the reliability value selected by the recognition
なお、混合レベル決定部211は、上記のように適応対象のパラメータ(変化幅、段階数Q)を1度に変動する量(以下、「適応速度」と呼ぶ)を一定としてもよいし、変動させるようにしてもよい。例えば、混合レベル決定部211は、認識信頼度Rを適応速度の調整に用いるようにしてもよい。すなわち、混合レベル決定部211は、認識信頼度Rの高さ(例えば、最も高かった認識信頼度Rの値)に応じて適応速度を変化させるようにしてもよい。例えば、混合レベル決定部211は、認識信頼度R(例えば、最も高かった認識信頼度Rの値)が非常に高い(低い)場合は変化幅や段階数を大きく減らし(増やし)、やや高い(低い)程度では、増減幅を小さくするなどが考えられる。
Note that the mixing
(B-3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
(B-3) Effects of the second embodiment According to the second embodiment, the following effects can be achieved.
第2の実施形態の音声認識装置200Aでは、認識結果に基づいて混合量を適応的に最適値に調整・決定しているため、非常に精度の高い混合量の決定、あるいは少ない処理量での混合量の決定が可能となる。
In the
(C)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(C) Other Embodiments The present invention is not limited to the above embodiments, and may include modified embodiments as exemplified below.
(C-1)上記の各実施形態では、音声認識装置200、200A自体が音声認識部209を有しており、自装置が有する音声認識部209を用いて音声認識処理の結果を取得しているが、音声認識装置200、200A自体が音声認識部209を備えず、外部の音声認識手段を用いて音声認識処理の結果を取得するようにしてもよい。
(C-1) In each of the above embodiments, the
10…音声認識部、100…マイクアレイ部、200、200A…音声認識装置、201…信号入力部、202…周波数変換部、203…指向性形成部、204…エリア音抽出部、205、205A…信号混合部、206…時間変換部、207…振幅スペクトル比算出部、208…音声区間検出部、209…音声認識部、210、210A…認識結果選択部、211…混合レベル決定部、300…記録装置、301…音声認識部、410…遅延器、420…減算器、500…コンピュータ、501…プロセッサ、502…一次記憶部、503…二次記憶部、MA1、MA2…マイクアレイ、mc1~mc4…マイクロホン。 DESCRIPTION OF SYMBOLS 10... Voice recognition part, 100... Microphone array part, 200, 200A... Voice recognition device, 201... Signal input part, 202... Frequency conversion part, 203... Directivity formation part, 204... Area sound extraction part, 205, 205A... Signal mixing section, 206... Time conversion section, 207... Amplitude spectrum ratio calculation section, 208... Speech section detection section, 209... Speech recognition section, 210, 210A... Recognition result selection section, 211... Mixing level determination section, 300... Recording Apparatus, 301... Speech recognition unit, 410... Delay unit, 420... Subtractor, 500... Computer, 501... Processor, 502... Primary storage unit, 503... Secondary storage unit, MA1, MA2... Microphone array, mc1 to mc4... Microphone.
Claims (5)
前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、
それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、
前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段とを有し、
前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数の分の混合音を生成し、
前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段をさらに有する
ことを特徴とする音声認識装置。 Based on the input signals input from a plurality of microphone arrays capable of directing directivity toward the target area, the beamformer output of each of the microphone arrays is acquired, and the acquired beamformer output is used to direct the direction toward the target area. area sound extraction means for extracting target area sound by performing area sound collection processing;
signal mixing means for performing a mixing process of mixing a mixing signal in a plurality of mixing amounts with respect to the target area sound extracted by the area sound extracting means to generate a mixed sound for each mixing amount;
a voice recognition unit that performs a reliability calculation process of acquiring the results of voice recognition processing for each of the mixed sounds and calculating the reliability of the voice recognition process results of each of the mixed sounds;
recognition result selection means for selecting and outputting the most reliable voice recognition processing result from among the voice recognition processing results performed by the voice recognition means;
The signal mixing means applies to the mixing process a mixture amount that is changed by a set number of steps in a set change width around a set center mixing amount, and generates mixed sounds for the number of steps. death,
The speech recognition device further comprises a mixture content determining unit that determines the central mixing amount, the change width, and the number of stages to be applied to the signal mixing unit according to the selection result of the recognition result selecting unit. .
前記音声認識手段は、前記発話区間検出手段によって発話区間が検出されている間だけ、音声認識処理及び信頼度算出処理を行う
ことを特徴する請求項1に記載の音声認識装置。 further comprising a speech section detection means for detecting a speech section in which the voice uttered by the speaker is occurring in the target area,
The speech recognition device according to claim 1, wherein the speech recognition means performs the speech recognition process and the reliability calculation process only while the speech interval is detected by the speech interval detection means.
目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出するエリア音抽出手段と、
前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成する信号混合手段と、
それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行う音声認識手段と、
前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する認識結果選択手段として機能させ、
前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数の分の混合音を生成し、
前記コンピュータを、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する混合内容決定手段としても機能させる
ことを特徴とする音声認識プログラム。 computer,
Based on the input signals input from a plurality of microphone arrays capable of directing directivity toward the target area, the beamformer output of each of the microphone arrays is acquired, and the acquired beamformer output is used to direct the direction toward the target area. area sound extraction means for extracting target area sound by performing area sound collection processing;
signal mixing means for performing a mixing process of mixing a mixing signal in a plurality of mixing amounts with respect to the target area sound extracted by the area sound extracting means to generate a mixed sound for each mixing amount;
a voice recognition unit that performs a reliability calculation process of acquiring the results of voice recognition processing for each of the mixed sounds and calculating the reliability of the voice recognition process results of each of the mixed sounds;
functioning as recognition result selection means for selecting and outputting the most reliable voice recognition processing result among the voice recognition processing results performed by the voice recognition means;
The signal mixing means applies to the mixing process a mixture amount that is changed by a set number of steps in a set change width around a set center mixing amount, and generates mixed sounds for the number of steps. death,
The computer is also made to function as a mixture content determining unit that determines the central mixing amount, the change width, and the number of stages to be applied to the signal mixing unit in accordance with the selection result of the recognition result selecting unit. speech recognition program.
エリア音抽出手段、信号混合手段、音声認識手段、認識結果選択手段、及び混合内容決定手段を有し、
前記エリア音抽出手段は、目的エリアに指向性を向けることが可能な複数のマイクアレイから入力された入力信号に基づいて、それぞれの前記マイクアレイのビームフォーマ出力を取得し、取得したビームフォーマ出力を用いて、前記目的エリアのエリア収音処理を行って目的エリア音を抽出し、
前記信号混合手段は、前記エリア音抽出手段により抽出された目的エリア音に対し、混合用信号を、複数の混合量で混合する混合処理を行って、混合量ごとの混合音を生成し、
前記音声認識手段は、それぞれの前記混合音に対して音声認識処理を行った結果を取得し、それぞれの前記混合音の音声認識処理結果に対する信頼度を算出する信頼度算出処理を行い、
前記認識結果選択手段は,前記音声認識手段が行った音声認識処理結果のうち、最も信頼度の高い音声認識処理結果を選択して出力する
前記信号混合手段は、設定された中心混合量を中心として、設定された変化幅で設定された段階数変化させた混合量を前記混合処理に適用し、前記段階数の分の混合音を生成し、
前記混合内容決定手段は、前記認識結果選択手段の選択結果に応じて、前記信号混合手段に適用する前記中心混合量、前記変化幅、及び前記段階数を決定する
ことを特徴とする音声認識方法。 In the speech recognition method,
It has an area sound extraction means, a signal mixing means, a voice recognition means, a recognition result selection means, and a mixed content determination means,
The area sound extraction means acquires beamformer outputs of each of the microphone arrays based on input signals input from a plurality of microphone arrays capable of directing directivity toward a target area, and extracts beamformer outputs from the acquired beamformer outputs. Extract the target area sound by performing area sound collection processing of the target area using
The signal mixing means performs a mixing process of mixing a mixing signal at a plurality of mixing amounts with respect to the target area sound extracted by the area sound extracting means, and generates a mixed sound for each mixing amount,
The voice recognition means obtains the results of voice recognition processing for each of the mixed sounds, and performs a reliability calculation process of calculating the reliability of the voice recognition processing results for each of the mixed sounds,
The recognition result selection means selects and outputs the most reliable speech recognition processing result from among the speech recognition processing results performed by the speech recognition means. The signal mixing means selects and outputs the most reliable speech recognition processing result from among the speech recognition processing results performed by the speech recognition means. applying a mixture amount changed by a set number of steps with a set change width to the mixing process, and generating mixed sounds for the number of steps;
The speech recognition method characterized in that the mixture content determining means determines the central mixing amount, the change width, and the number of stages to be applied to the signal mixing means in accordance with the selection result of the recognition result selection means. .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019099690A JP7404657B2 (en) | 2019-05-28 | 2019-05-28 | Speech recognition device, speech recognition program, and speech recognition method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019099690A JP7404657B2 (en) | 2019-05-28 | 2019-05-28 | Speech recognition device, speech recognition program, and speech recognition method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2020194093A JP2020194093A (en) | 2020-12-03 |
| JP7404657B2 true JP7404657B2 (en) | 2023-12-26 |
Family
ID=73546596
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2019099690A Active JP7404657B2 (en) | 2019-05-28 | 2019-05-28 | Speech recognition device, speech recognition program, and speech recognition method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7404657B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7619564B2 (en) * | 2021-02-22 | 2025-01-22 | 沖電気工業株式会社 | Sound collection device, sound collection program, and sound collection method |
| GB2617613B (en) * | 2022-04-14 | 2024-10-30 | Toshiba Kk | An audio processing method and apparatus |
Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003241792A (en) | 2002-02-22 | 2003-08-29 | Matsushita Electric Works Ltd | Device and method for speech recognition |
| JP2007086554A (en) | 2005-09-26 | 2007-04-05 | Toshiba Tec Corp | Speech recognition apparatus and speech recognition processing program |
| JP2016126330A (en) | 2014-12-26 | 2016-07-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Speech recognition apparatus and speech recognition method |
| JP2017183902A (en) | 2016-03-29 | 2017-10-05 | 沖電気工業株式会社 | Sound collection device and program |
-
2019
- 2019-05-28 JP JP2019099690A patent/JP7404657B2/en active Active
Patent Citations (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003241792A (en) | 2002-02-22 | 2003-08-29 | Matsushita Electric Works Ltd | Device and method for speech recognition |
| JP2007086554A (en) | 2005-09-26 | 2007-04-05 | Toshiba Tec Corp | Speech recognition apparatus and speech recognition processing program |
| JP2016126330A (en) | 2014-12-26 | 2016-07-11 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | Speech recognition apparatus and speech recognition method |
| JP2017183902A (en) | 2016-03-29 | 2017-10-05 | 沖電気工業株式会社 | Sound collection device and program |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2020194093A (en) | 2020-12-03 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7109542B2 (en) | AUDIO NOISE REDUCTION METHOD, APPARATUS, SERVER AND STORAGE MEDIUM | |
| JP5573517B2 (en) | Noise removing apparatus and noise removing method | |
| US9269367B2 (en) | Processing audio signals during a communication event | |
| JP6187626B1 (en) | Sound collecting device and program | |
| EP2665292A2 (en) | Hearing assistance apparatus | |
| US20130016854A1 (en) | Microphone array processing system | |
| CN108305637A (en) | Earphone voice processing method, terminal equipment and storage medium | |
| WO2018167960A1 (en) | Speech processing device, speech processing system, speech processing method, and speech processing program | |
| JP7404657B2 (en) | Speech recognition device, speech recognition program, and speech recognition method | |
| JP6840302B2 (en) | Information processing equipment, programs and information processing methods | |
| CN110447239B (en) | Sound pickup device and sound pickup method | |
| JP6879340B2 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
| JP7158976B2 (en) | Sound collecting device, sound collecting program and sound collecting method | |
| JP6854967B1 (en) | Noise suppression device, noise suppression method, and noise suppression program | |
| JP2019176328A (en) | Sound collection device, program, and method | |
| JP6943120B2 (en) | Sound collectors, programs and methods | |
| JP2021157134A (en) | Signal processing method, signal processing device and hearing device | |
| JP6436180B2 (en) | Sound collecting apparatus, program and method | |
| US11095979B2 (en) | Sound pick-up apparatus, recording medium, and sound pick-up method | |
| JP7380783B1 (en) | Sound collection device, sound collection program, sound collection method, determination device, determination program, and determination method | |
| JP6725014B1 (en) | Sound collecting device, sound collecting program, and sound collecting method | |
| JP6624255B1 (en) | Sound pickup device, program and method | |
| JP2024027617A (en) | Voice recognition device, voice recognition program, voice recognition method, sound collection device, sound collection program and sound collection method | |
| JP7833912B2 (en) | Speech processing device and speech processing method | |
| CN119811348B (en) | Spatial noise reduction methods, apparatus, electronic devices and computer-readable storage media |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220208 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221209 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221220 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230217 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230613 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230809 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231114 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231127 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7404657 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |