JP5609182B2 - Speech recognition apparatus, speech recognition method, and speech recognition program - Google Patents
Speech recognition apparatus, speech recognition method, and speech recognition program Download PDFInfo
- Publication number
- JP5609182B2 JP5609182B2 JP2010059791A JP2010059791A JP5609182B2 JP 5609182 B2 JP5609182 B2 JP 5609182B2 JP 2010059791 A JP2010059791 A JP 2010059791A JP 2010059791 A JP2010059791 A JP 2010059791A JP 5609182 B2 JP5609182 B2 JP 5609182B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- acoustic model
- input signal
- speech recognition
- statistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 133
- 230000006978 adaptation Effects 0.000 claims description 129
- 230000001629 suppression Effects 0.000 claims description 69
- 230000008569 process Effects 0.000 claims description 67
- 238000006243 chemical reaction Methods 0.000 claims description 27
- 230000004044 response Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 239000004615 ingredient Substances 0.000 claims 1
- 238000001228 spectrum Methods 0.000 description 35
- 238000010586 diagram Methods 0.000 description 18
- 230000008859 change Effects 0.000 description 13
- 238000009408 flooring Methods 0.000 description 12
- 230000002441 reversible effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 230000002411 adverse Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000004069 differentiation Effects 0.000 description 2
- 238000011410 subtraction method Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Description
本発明は、入力信号から音声を認識する音声認識装置、音声認識方法および音声認識プログラムに関する。 The present invention relates to a speech recognition device that recognizes speech from an input signal, a speech recognition method, and a speech recognition program.
音声認識システムの性能は、雑音の影響によって著しく劣化する。このため実運用にあたっては、雑音が混在していても所望の音声が認識できるようにするための耐雑音手法が必要となる。雑音による性能劣化の原因は、音響モデル学習時に用いる音声データと、実運用で使用する入力信号との間のミスマッチに起因する。このようなミスマッチを抑制するため、音声認識向けの耐雑音手法には大別して二つの方法が存在する。 The performance of a speech recognition system is significantly degraded due to the effects of noise. For this reason, in actual operation, a noise proofing method is required to enable a desired voice to be recognized even if noise is mixed. The cause of performance degradation due to noise is due to a mismatch between audio data used during acoustic model learning and an input signal used in actual operation. In order to suppress such mismatches, there are roughly two methods for noise resistance for speech recognition.
一つは、入力信号から雑音成分を抑圧・除去し、入力信号側を音響モデル学習時に用いた音声データに近づける方法(以下、雑音抑圧方法と記す。)である。もう一つは、音響モデル側を入力信号と同じ雑音環境に適応させる方法(以下、音響モデル適応方法と記す。)である。 One is a method (hereinafter referred to as a noise suppression method) in which noise components are suppressed / removed from an input signal, and the input signal side is brought close to voice data used during acoustic model learning. The other is a method of adapting the acoustic model side to the same noise environment as the input signal (hereinafter referred to as acoustic model adaptation method).
雑音抑圧方法としては、スペクトルサブトラクション法(以下、SS法と記す。)が広く用いられている(例えば、特許文献1、非特許文献1参照。)。SS法は、周波数領域における雑音抑圧方法の一つであり、雑音を含む音声信号(入力信号)のパワースペクトルから、別途推定した雑音のパワースペクトルを減算することによって、入力信号に含まれる雑音を抑圧する方法である。なお、特許文献1には、SNR(signal−noise ratio:SN比)に応じて、雑音の抑圧量を制御するパラメータである抑圧係数を変化させる方法が記載されている。また、非特許文献2に記載されているように、雑音推定の精度をより高めるための技術も研究されている。
As a noise suppression method, a spectral subtraction method (hereinafter referred to as SS method) is widely used (see, for example,
一方、音響モデル適応方法としては、HMM合成法(例えば、非特許文献1参照。)や、ヤコビ法、Vector Talyer Series(VTS)法(例えば、非特許文献3参照。)などが知られている。 On the other hand, as an acoustic model adaptation method, an HMM synthesis method (see, for example, Non-Patent Document 1), a Jacobian method, a Vector Tallyer Series (VTS) method (see, for example, Non-Patent Document 3), and the like are known. .
HMM合成法は、予め雑音が混在していないクリーンな音声を用いて生成したHMM(以下、クリーンHMMと記す。)と、推定された雑音を用いて生成したHMMとを合成し、対象となる雑音環境で発声された音声に適合するHMMを生成する方法である。このようなHMM合成法の具体的手法の一つに、例えば、Parallel Model Combination法(以下、PMC法と記す。)がある。PMC法では、特徴量をスペクトル領域の量に逆変換し、スペクトル領域で2つのHMMを合成する。 The HMM synthesis method synthesizes an HMM generated using clean speech that does not contain noise in advance (hereinafter referred to as a clean HMM) and an HMM generated using estimated noise, and is an object. This is a method for generating an HMM suitable for speech uttered in a noisy environment. One specific method of such an HMM synthesis method is, for example, a Parallel Model Combination method (hereinafter referred to as PMC method). In the PMC method, feature quantities are inversely converted into spectral domain quantities, and two HMMs are synthesized in the spectral domain.
また、ヤコビ法とVTS法は、推定された雑音によってクリーンHMMを構成する各分布が雑音環境でどのように変化するかを線形の式で近似する方法である。 Further, the Jacobi method and the VTS method are methods that approximate how each distribution constituting the clean HMM changes in a noise environment by estimated noise by a linear expression.
しかし、上述したHMM合成法やヤコビ法、VTS法といった音響モデル適応方法や、SS法といった雑音抑圧方法では、変化する雑音環境下において、必ずしも変化する雑音環境に追従して高精度に音声認識を行うことができないという問題がある。 However, in the acoustic model adaptation method such as the HMM synthesis method, the Jacobi method, and the VTS method described above, and the noise suppression method such as the SS method, speech recognition is performed with high accuracy by following the changing noise environment. There is a problem that can not be done.
例えば、音響モデル適応方法では、音響モデルを雑音適応させるためにかかる計算時間が雑音の変化時間に追いつかない可能性があり、その場合には音声認識精度が劣化するという問題がある。一般に、音響モデルのサイズが大きくなると、音響モデルを雑音適応させるための計算量も増大する。このため、かかる計算時間が雑音の変化時間よりも大きくなる状況では、音響モデルが変化する雑音環境に適合しきれず、音声認識精度が劣化してしまう。 For example, in the acoustic model adaptation method, there is a possibility that the calculation time required for noise adaptation of the acoustic model may not catch up with the noise change time, and in this case, there is a problem that the speech recognition accuracy deteriorates. In general, as the size of an acoustic model increases, the amount of calculation for adapting the acoustic model to noise also increases. For this reason, in a situation where the calculation time is longer than the noise change time, the acoustic model cannot be adapted to the changing noise environment, and the speech recognition accuracy deteriorates.
また、SS法といった周波数領域での演算を用いて推定雑音の抑圧を行う雑音抑圧方法には、例えばフロアリング処理の問題がある。一般に行われている音声認識では、入力信号をケプストラムなどの特徴量に変換して、その特徴量と音響モデル中に含まれる音素毎の確率密度関数との距離等を比較し、入力信号に対応する単語列を探索する。このケプストラムなどの特徴量に変換する際に行う対数演算において、入力信号とされる雑音抑圧した信号が悪影響を及ぼすことがある。 In addition, a noise suppression method that suppresses estimated noise using calculation in the frequency domain, such as the SS method, has a problem of flooring processing, for example. In general speech recognition, the input signal is converted into a feature value such as a cepstrum, and the distance between the feature value and the probability density function for each phoneme included in the acoustic model is compared, and the input signal is supported. Search for the word string you want. In a logarithmic calculation performed when converting to a feature amount such as a cepstrum, a noise-suppressed signal that is used as an input signal may have an adverse effect.
以下の式(1)は、SS法における雑音抑圧された信号(すなわち、抑圧結果として出力される音声信号)を表したものである。なお、式(1)は各周波数帯域毎またはサブバンド毎に定義される。 The following equation (1) represents a signal in which noise is suppressed in the SS method (that is, an audio signal output as a suppression result). Equation (1) is defined for each frequency band or subband.
X=max[Y−N,α] ・・・式(1) X = max [Y−N, α] (1)
式(1)において、Xは音声のパワースペクトル、Yは入力信号のパワースペクトル、Nは入力信号に対して推定された雑音のパワースペクトルを示す。また、max[A,B]は、AかBのどちらか大きい方の値を取る演算を示す。また、αはフロアリング係数を示す。 In Expression (1), X represents a power spectrum of speech, Y represents a power spectrum of an input signal, and N represents a power spectrum of noise estimated for the input signal. Further, max [A, B] indicates an operation that takes a larger value of A or B. Α represents a flooring coefficient.
例えば、低SNR環境や音声が発声されていない区間では、入力信号のパワースペクトルYが推定された雑音のパワースペクトラムNと比較して、ほぼ等しくなるまたは小さくなることが起こる。このような条件下で、単純に減算演算の結果を雑音抑圧した信号のパワースペクトルとすると、その後の対数演算で得られる値が非常に不安定になるまたは値自体が得られないという事態が生じてしまう。SS法ではこのような事態を防ぐために、式(1)にあるようなフロアリング係数αを導入することによって、雑音を抑圧(除去)するために周波数領域において行う減算の後の値が、マイナス値および0付近の値となることを防いでいる。 For example, in a low SNR environment or a section where no voice is uttered, the power spectrum Y of the input signal may be substantially equal to or smaller than the estimated power spectrum N of noise. Under these conditions, if the result of the subtraction operation is simply the power spectrum of the noise-suppressed signal, the value obtained by the subsequent logarithmic operation becomes very unstable or the value itself cannot be obtained. End up. In the SS method, in order to prevent such a situation, a value after subtraction performed in the frequency domain in order to suppress (remove) noise is negative by introducing a flooring coefficient α as in Equation (1). Value and values near 0 are prevented.
しかし、変化する雑音環境下では、雑音の種類やSNRに依存するフロアリング係数αに最適値を設定することは困難である。フロアリング係数αが大きすぎると認識精度が劣化するという問題や、逆に小さすぎるとフロアリングの効果がなくなって不安定な値のまま音声認識が行われるかまたは音声認識処理がエラーとなってしまうという問題が生じる。なお、非特許文献2に記載されているような推定雑音の精度を高める技術を用いた場合であっても、入力信号のパワースペクトルYが推定された雑音のパワースペクトラムNと比較して、ほぼ等しくなるまたは小さくなるような状況では、少しの誤差でフロアリング処理が行われることになるため、上記のような問題は依然として存在する。 However, in a changing noise environment, it is difficult to set an optimum value for the flooring coefficient α depending on the noise type and SNR. If the flooring coefficient α is too large, the recognition accuracy deteriorates. On the other hand, if the flooring coefficient α is too small, the flooring effect is lost and speech recognition is performed with an unstable value or the speech recognition process results in an error. Problem arises. Even when a technique for improving the accuracy of estimated noise as described in Non-Patent Document 2 is used, the power spectrum Y of the input signal is almost equal to the estimated power spectrum N of noise. In situations where they are equal or smaller, the flooring process will be performed with a small error, so the above problem still exists.
そこで、本発明は、変化する雑音環境下においても、高精度に音声認識を行うことができる音声認識装置、音声認識方法および音声認識プログラムを提供することを目的とする。 Accordingly, an object of the present invention is to provide a speech recognition apparatus, a speech recognition method, and a speech recognition program that can perform speech recognition with high accuracy even in a changing noise environment.
本発明による音声認識装置は、入力信号の複数フレームに対して推定された雑音のデータから、雑音の統計量を算出する雑音統計量算出手段と、雑音統計量算出手段によって算出された雑音の統計量に基づいて、入力信号の各フレームに含まれる雑音の短時間変動成分を算出する短時間変動雑音成分算出手段と、雑音統計量算出手段によって算出された雑音の統計量を用いて、音響モデルを雑音に適応させる音響モデル適応手段と、入力信号の各フレームに対して、短時間変動雑音成分算出手段によって算出された当該フレームに含まれる雑音の短時間変動成分を抑圧する雑音抑圧手段と、雑音抑圧手段によって抑圧された入力信号を、音響モデル適応手段によって雑音適応された音響モデルを用いて音声認識を行う音声認識手段とを備えたことを特徴とする。 The speech recognition apparatus according to the present invention includes a noise statistic calculating unit that calculates a noise statistic from noise data estimated for a plurality of frames of an input signal, and a noise statistic calculated by the noise statistic calculating unit. An acoustic model using a short-time fluctuation noise component calculating means for calculating a short-time fluctuation component of noise included in each frame of the input signal based on the amount and a noise statistic calculated by the noise statistic calculation means; Acoustic model adaptation means for adapting to noise, noise suppression means for suppressing the short-time fluctuation component of noise included in the frame calculated by the short-time fluctuation noise component calculation means for each frame of the input signal, Speech recognition means for performing speech recognition on the input signal suppressed by the noise suppression means using an acoustic model noise-adapted by the acoustic model adaptation means And wherein the door.
本発明による音声認識方法は、入力信号の複数フレームに対して推定された雑音のデータから、雑音の統計量を算出し、算出された雑音の統計量を用いて、音響モデルを雑音に適応させ、入力信号の各フレームに対して、雑音適応された音響モデルに用いられた雑音の統計量に基づき算出される雑音の短時間変動成分を抑圧し、雑音の短時間変動成分が抑圧された入力信号を、雑音適応された音響モデルを用いて音声認識を行うことを特徴とする。 The speech recognition method according to the present invention calculates a noise statistic from noise data estimated for a plurality of frames of an input signal, and adapts an acoustic model to the noise using the calculated noise statistic. For each frame of the input signal, the short-term fluctuation component of the noise calculated based on the noise statistics used in the noise-adapted acoustic model is suppressed, and the short-term fluctuation component of the noise is suppressed. Speech recognition is performed on the signal using a noise-adapted acoustic model.
本発明による音声認識プログラムは、コンピュータに、入力信号の複数フレームに対して推定された雑音のデータから、雑音の統計量を算出する雑音統計量算出処理と、雑音統計量算出処理によって算出された雑音の統計量に基づいて、入力信号の各フレームに含まれる雑音の短時間変動成分を算出する短時間変動雑音成分算出処理と、雑音統計量算出処理によって算出された雑音の統計量を用いて、音響モデルを雑音に適応させる音響モデル適応処理と、入力信号の各フレームに対して、短時間変動雑音成分算出処理によって算出された当該フレームに含まれる雑音の短時間変動成分を抑圧する雑音抑圧処理と、雑音抑圧処理によって抑圧された入力信号を、音響モデル適応処理によって雑音適応された音響モデルを用いて音声認識を行う音声認識処理とを実行させることを特徴とする。
Speech recognition program according to the present invention, the computer, from the noise of the data estimated for a plurality of frames of the input signal, and a noise statistic calculation processing for calculating the noise statistics have been calculated by the noise statistic calculation processing Based on the noise statistic, the short-time fluctuation noise component calculation process that calculates the short-time fluctuation component of the noise included in each frame of the input signal, and the noise statistic calculated by the noise statistic calculation process , An acoustic model adaptation process for adapting the acoustic model to noise, and noise suppression for suppressing the short-time fluctuation component of the noise included in the frame calculated by the short-time fluctuation noise component calculation process for each frame of the input signal and processing the input signal is suppressed by the noise suppressing process, speech recognition is conducted using noise adapted acoustic models by the acoustic model adaptation process Characterized in that to execute the voice recognition process.
本発明によれば、変化する雑音環境下においても、高精度に音声認識を行うことができる。 According to the present invention, voice recognition can be performed with high accuracy even in a changing noise environment.
実施形態1.
以下、本発明の実施形態を図面を参照して説明する。図1は、本発明の第1の実施形態の音声認識装置の構成例を示すブロック図である。図1に示す音声認識装置は、音声認識部100と音響モデル適応部200とを備える。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration example of the speech recognition apparatus according to the first embodiment of this invention. The speech recognition apparatus shown in FIG. 1 includes a
また、音声認識部100は、入力信号取得手段101と、雑音推定手段102と、短時間変動雑音成分算出手段103と、雑音抑圧手段104と、サーチ手段105と、音響モデル格納手段106とを含む。また、音響モデル適応部200は、推定雑音保持手段201と、雑音統計量算出手段202と、音響モデル適応手段203とを含む。
The
入力信号取得手段101は、マイクロホンなどを用いて集音された信号を入力し、入力信号の時系列をフレーム毎に切り出し、取得する。雑音推定手段102は、入力信号取得手段101によって取得された入力信号の時系列から、雑音を推定する。
The input
短時間変動雑音成分算出手段103は、雑音推定手段102によって推定された雑音と、後述の雑音統計量算出手段202によって算出された雑音の統計量とに基づいて、雑音の短時間変動成分を算出する。以下、雑音の短時間変動成分を短時間変動雑音成分と表現する場合がある。
The short-time variation noise
ここで、雑音の統計量とは、例えば、雑音の平均や分散であって、音響モデルの適応時から次の音響モデル適応時に至るまでの比較的長時間に対して変化しない量である。仮に、音響モデルを雑音適応させるために必要な計算時間をTとした場合、T以上の時間に対して変化しない量とする。従って、例えば、T時間以上の所定の時間区間内の雑音データから求めた平均や分散であってもよい。従って、例えば、T時間以上の所定の時間区間内の雑音データから求めた平均や分散であってもよい。なお、雑音の平均や分散は、パワースペクトルなどの雑音成分の平均や分散に限らず、特徴量領域での雑音の平均や分散や、さらに一階微分,二階微分,・・・,N階微分の平均や分散も含む。特徴量の例としてはケプストラムが挙げられる。またケプストラム以外にもその一次差分成分、二次差分成分や、ピッチ周波数の値など様々な音声認識向けの特徴量を用いることが可能である。 Here, the noise statistic is, for example, the average or variance of the noise, and is an amount that does not change over a relatively long time from the time of adaptation of the acoustic model to the time of adaptation of the next acoustic model. Assuming that the calculation time necessary for noise adaptation of the acoustic model is T, it is set to an amount that does not change with respect to a time equal to or longer than T. Therefore, for example, an average or variance obtained from noise data in a predetermined time interval equal to or longer than T time may be used. Therefore, for example, an average or variance obtained from noise data in a predetermined time interval equal to or longer than T time may be used. Note that the mean and variance of noise are not limited to the mean and variance of noise components such as power spectrum, but the mean and variance of noise in the feature region, as well as first-order differentiation, second-order differentiation,. Including mean and variance of. An example of the feature amount is cepstrum. In addition to the cepstrum, various feature quantities for speech recognition such as the primary difference component, the secondary difference component, and the pitch frequency value can be used.
これに対し、雑音の短時間変動成分とは、概念的には雑音の比較的短時間(ここでは、雑音の統計量を求める時間区間に比して短い時間区間をいう。)において変化する成分をいい、具体的には、雑音から、雑音の統計量のうちの一つである平均を引いた残りの雑音成分をいう。以下、「雑音成分の平均」と表現した場合には、短時間変動成分を求めるために用いた雑音の統計量のうちの一つとしての雑音成分の平均をいうものとする。 On the other hand, the short-time fluctuation component of noise is a component that conceptually changes in a relatively short time of noise (in this case, a time interval shorter than the time interval for obtaining the statistical amount of noise). Specifically, it means the remaining noise component obtained by subtracting the average, which is one of the noise statistics, from the noise. Hereinafter, the expression “average of noise components” means the average of noise components as one of the statistical quantities of noise used for obtaining the short-time fluctuation component.
なお、本実施形態では、短時間変動雑音成分算出手段103が短時間変動雑音成分を算出する際に用いる雑音成分の平均は、当該入力信号に対して適用する音響モデルの雑音適応時に使用された雑音の統計量のものを用いる。例えば、雑音統計量算出手段202は、後述する音響モデル格納手段106に雑音適応させた音響モデルを格納する際に、該音響モデルに適応させた雑音の統計量の情報を対応づけて記憶させ、その統計量の情報を短時間変動雑音成分算出手段103からの雑音の統計量の取得要求に応じて出力するようにしてもよい。このようにして、入力信号に抑圧させる雑音の雑音環境と音響モデルに適応させた雑音の雑音環境とを同期させる。
In the present embodiment, the average of the noise components used when the short-time fluctuation noise
雑音抑圧手段104は、入力信号の時系列に対して、短時間変動雑音成分算出手段103によって算出された短時間変動雑音成分を抑圧する雑音抑圧処理を行う。
The
サーチ手段105は、後述の音響モデル格納手段106に格納されている音響モデルを用いて、雑音抑圧手段104によって雑音抑圧処理された入力信号に対して、音声認識を行う。サーチ手段105は、例えば、雑音抑圧処理された入力信号の時系列から特徴量を抽出し、入力信号の特徴量と音響モデル中に含まれる音素毎の確率密度関数との距離を比較して、入力信号に対応する単語列を探索し、その探索結果を入力信号の音声認識結果として出力してもよい。 The search means 105 performs speech recognition on the input signal subjected to noise suppression processing by the noise suppression means 104 using an acoustic model stored in an acoustic model storage means 106 described later. The search means 105 extracts, for example, a feature value from the time series of the noise-suppressed input signal, compares the distance between the feature value of the input signal and the probability density function for each phoneme included in the acoustic model, A word string corresponding to the input signal may be searched, and the search result may be output as a speech recognition result of the input signal.
音響モデル格納手段106は、音響モデル適応部200において雑音適応された音響モデルを格納する。本実施形態では、音響モデル格納手段106は、後述する音響モデル適応手段203によって雑音の統計量に基づき雑音適応された音響モデルを格納する。音響モデル格納手段106は、音響モデルの情報として、例えば、音響モデルを規定するパラメタの値を記憶してもよい。例えば、音声の変化を音素毎に特徴量の確率密度関数で表したHMMなどの音響モデルのパラメタの値を記憶する。また、音響モデル格納手段106は、音響モデルの情報とともに、当該音響モデルに適応した雑音の統計量の情報を記憶してもよい。例えば、雑音の統計量のうちの雑音成分の平均の値や別途保持されている雑音の統計量を指し示す値を、音響モデルと対応づけて記憶してもよい。
The acoustic
推定雑音保持手段201は、雑音推定手段102によって推定された雑音のデータを保持する。推定雑音保持手段201は、少なくとも雑音統計量算出手段202が雑音の統計量を求めるために必要な分の雑音データを逐次保持できるものとする。
The estimated noise holding means 201 holds noise data estimated by the noise estimating means 102. It is assumed that the estimated
雑音統計量算出手段202は、推定雑音保持手段201に保持されている雑音データを用いて、雑音の統計量を算出する。
The noise
音響モデル適応手段203は、雑音統計量算出手段202によって算出された雑音の統計量を用いて、音響モデルを雑音適応させる。音響モデル適応手段205は、例えば、雑音の統計量として示される雑音成分の平均や分散、特徴量領域で算出された雑音の平均や分散の値を、雑音が混在していない音声を用いて生成した音響モデルのパラメタの値に上乗せしてもよい。このようにして雑音の統計量によって示される雑音環境に音響モデルを適応させる。なお、既に説明したように、音響モデル適応手段203によって雑音適応させた音響モデルは、音響モデル格納手段106に格納され、サーチ手段105により利用される。音響モデル適応手段203は、音響モデルの情報を音響モデル格納手段106に格納する際に、その音響モデルに適応させた雑音の統計量の情報を併せて格納させてもよい。
The acoustic
なお、本実施形態において、入力信号取得手段101は、例えばマイクロホンなどの集音装置とプログラムに従って動作するCPU等とによって実現される。また、雑音推定手段102、短時間変動雑音成分算出手段103、雑音抑圧手段104、サーチ手段105、雑音統計量算出手段202、音響モデル適応手段203は、例えばプログラムに従って動作するCPU等によって実現される。また、音響モデル格納手段106、推定雑音保持手段201は、例えば記憶装置によって実現される。
In the present embodiment, the input
なお、本例では、音声認識部100が音響モデル格納手段106を含み、音響モデル適応部200が推定雑音保持手段201を含む例を示したが、それらの記憶手段を音声認識部100と音響モデル適応部200との間で共用される記憶手段として音声認識装置内または外部に独立して備えることも可能である。また、当該音声認識装置が備えるCPUは、例えばマルチスレッド環境を実装するなどして、音声認識部100を構成する各手段と音響モデル適応部200を構成する各手段とが別々のスレッドとして動作することがより好ましい。なお、音声認識部100内において、さらに、入力信号取得手段101と雑音推定手段102とそれ以外の手段とを別々のスレッドとして動作させてもよい。
In this example, the
次に、本実施形態の動作について説明する。図2は、本実施形態の音声認識装置の全体の動作の一例を示すフローチャートである。なお、図2に示す例は、例えば、信号(音データ)が入力された旨を通知するイベントを受信することによって動作する。また、入力信号に対する処理はフレーム毎に行われるものとする。 Next, the operation of this embodiment will be described. FIG. 2 is a flowchart showing an example of the overall operation of the speech recognition apparatus of this embodiment. Note that the example shown in FIG. 2 operates by receiving an event notifying that a signal (sound data) has been input, for example. In addition, the processing for the input signal is performed for each frame.
図2に示すように、まず音声認識部100において入力信号取得手段101が、集音された時系列の入力音データを単位時間のフレーム毎に切り出して取得する(ステップS101)。例えば、入力音データがサンプリング周波数8000Hzの16bit Liner−PCMのデータの場合、1秒あたり8000点分の波形データが入力される。入力信号取得手段101は、例えば、このような波形データに対して、フレーム幅200点(25ミリ秒)、フレームシフト80点(10ミリ秒)で時系列に沿って逐次切り出し、所定の記憶領域にデータを保持させてもよい。その際、切り出した波形データに対して、短時間離散フーリエ変換(FFT)を行い、パワースペクトルに変換してもよい。
As shown in FIG. 2, first, in the
次に、雑音推定手段103が、入力信号取得手段101によって取得された入力信号から該入力信号に含まれる雑音を推定し、推定した雑音データを推定雑音保持手段201に保持させる(ステップS102)。雑音の推定方法は、例えば、対象となる音声が発声される前の非音声区間の入力信号の平均値を用いる方法や前述の非特許文献2に記載されている方法(以下、重み付き雑音推定方法という。)などを用いてもよい。重み付き雑音推定方法は、主にSNR推定,重み係数計算,平均化の3種類の処理により構成される方法であって、入力信号を推定SNRに基づいて計算された重み係数で重み付けし、その重み付き入力信号の平均値により、推定雑音を推定する方法である(非特許文献2参照)。
Next, the
ここで、音響モデルの適応タイミングである場合には(ステップS103のYes)、ステップS106に進み、音響モデル適応部200が音響モデルの雑音適応処理を行う。以下では、当該入力信号に用いる音響モデルは既に雑音適応されおり、現時点では音響モデルの適応タイミングでないものとして説明を進める。
Here, if it is the adaptation timing of the acoustic model (Yes in step S103), the process proceeds to step S106, where the acoustic
音響モデルの適応タイミングでない場合(ステップS103のNo)、または当該入力信号に用いる音響モデルの雑音適応処理が完了すると、音声認識部100では雑音抑圧・音声認識処理(ステップS104)を行う。なお、図2では、全ての入力信号を音声認識の処理対象とする例を示しているが、例えば音声認識処理の指示がある場合にのみ以降の雑音抑圧・音声認識処理を行うようにしてもよい。また、例えば当該入力信号を含む所定の時間区間内の全ての雑音データを用いて雑音の統計量を算出する場合などには、雑音の統計量が算出され、それに基づき音響モデルの雑音適応処理が完了するまでの間、雑音抑圧・音声認識処理(ステップS104)を待機させておき、雑音推定を必要な分だけ先に行い、それにより音響モデルが雑音適応された後で以降の雑音抑圧・音声認識処理を行うようにしてもよい。
When it is not the adaptation timing of the acoustic model (No in step S103) or when the noise adaptation processing of the acoustic model used for the input signal is completed, the
図3は、音声抑圧・音声認識処理(図2のステップS104)の処理フローの一例を示すフローチャートである。図3に示すように、音声抑圧・音声認識処理では、まず短時間変動雑音成分算出手段103が、当該入力信号に含まれる雑音の統計量を取得し、取得した雑音の統計量(より具体的には雑音成分の平均)と、雑音推定手段103によって推定された雑音とに基づいて、該入力信号についての短時間変動雑音成分を算出する(図3のステップS111)。なお、当該入力信号に含まれる雑音の統計量とは、当該入力信号の音声認識に用いる音響モデルに適応されている雑音の統計量であって、雑音統計量算出手段202から取得される値を用いればよい。ここでは、雑音統計量算出手段202によって算出された、当該入力信号を含む時間区間または当該入力信号より前の時間区間における入力信号の推定雑音の統計量が取得される。
FIG. 3 is a flowchart showing an example of a processing flow of the voice suppression / voice recognition process (step S104 in FIG. 2). As shown in FIG. 3, in the speech suppression / recognition processing, first, the short-time fluctuation noise
ステップS111では、例えば、雑音推定手段103によって推定された雑音のパワースペクトルをN、雑音統計量算出手段202によって算出された当該入力信号に含まれる雑音成分の平均パワースペクトルをN_Lとすると、当該入力信号の短時間変動雑音成分のパワースペクトルN_Sを、以下の式(2)によって算出する。なお、短時間変動雑音成分算出手段103は、例えば、式(2)の演算を周波数帯域毎やサブバンド毎といった周波数領域において定めた所定の単位毎に行う。
In step S111, for example, if the noise power spectrum estimated by the
N_S=N−N_L ・・・式(2) N_S = N−N_L (2)
次に、雑音抑圧手段104は、処理対象とされた入力信号の時系列から、短時間変動雑音成分算出手段103によって算出された短時間変動雑音成分を抑圧する(ステップS112)。抑圧方法は、例えば、スペクトル減算法(SS法)やウィナーフィルタ(Wiener Filter)法といった方法を用いてもよい。例えば、以下の式(3)は、SS法を用いて抑圧した例である。
Next, the
X=max[Y−N_S,α] ・・・式(3) X = max [Y−N_S, α] (3)
なお、式(3)のY−N_S(雑音の短時間変動成分が抑圧された入力信号)は、雑音が全て除去されているのではなく、理論上、雑音の統計量によって示される雑音成分の平均に相当する成分が残っていることになる。 It should be noted that YN_S (input signal in which the short-time fluctuation component of noise is suppressed) in Expression (3) does not remove all of the noise, but theoretically indicates the noise component indicated by the noise statistic. The component corresponding to the average remains.
また、以下の式(4),(5)は、ウィナーフィルタ法により雑音抑圧された入力信号を表すものである。このような式(5),(6)を用いて雑音抑圧してもよい。 Also, the following equations (4) and (5) represent input signals that are noise-suppressed by the Wiener filter method. Noise suppression may be performed using such equations (5) and (6).
X=D_t/(D_t+N_S)*Y ・・・式(4)
D_t=γ*D_(t−1)+(1−γ)*max[Y−N_S,α] ・・・式(5)
X = D_t / (D_t + N_S) * Y Expression (4)
D_t = γ * D_ (t−1) + (1−γ) * max [Y−N_S, α] (5)
なお、式(4)および式(5)において、tはフレームの番号を示す。また、αはフロアリング係数を示す。また、γ>0.9である。 In equations (4) and (5), t represents a frame number. Α represents a flooring coefficient. Further, γ> 0.9.
なお、雑音抑圧手段104は、例えば、上記式(3)または上記式(4)および式(5)の演算を、周波数帯域毎やサブバンド毎といった周波数領域において定めた所定の単位毎に行う。
The
次に、サーチ手段105は、雑音抑圧手段104によって雑音抑圧された信号(雑音抑圧信号X)から、音声認識に使用する特徴量を抽出する(ステップS113)。次いで、抽出した特徴量と音響モデル中に含まれる音素毎の確率密度関数との距離を比較し、入力信号に対応する単語列を探索する(ステップS114)。音響モデルの例としては、HMMが挙げられる。
Next, the
本例の雑音抑圧・音声認識処理では、雑音推定済みの入力信号であって音声認識処理の対象とされる入力信号全てに対してステップS111〜114の処理を行う。そして、未処理の入力信号が無くなると、呼び出し元へ復帰する(ステップS115のNo、図2のステップS105に進む)。 In the noise suppression / speech recognition process of this example, the processes in steps S111 to S114 are performed on all input signals that have been noise-estimated and that are the targets of the speech recognition process. When there is no unprocessed input signal, the process returns to the caller (No in step S115, proceeds to step S105 in FIG. 2).
ステップS105では、信号入力が終了したか否かを判定し、信号入力が終了していれば(ステップS107のYes)、一連の処理を終了する。信号入力が終了していなければ、入力信号取得処理から再度同様の処理を行う(ステップS101に戻る)。 In step S105, it is determined whether or not the signal input has ended. If the signal input has ended (Yes in step S107), the series of processing ends. If the signal input has not ended, the same processing is performed again from the input signal acquisition processing (return to step S101).
また、このようにして入力される信号に対して音声認識処理を行う中で、音響モデルの適応タイミングがきた場合に(ステップS103のYes)、音響モデル適応部200において音響モデル雑音適応処理(ステップS106)を動作させればよい。音響モデルの適応タイミングは、例えば、マイクロホンでの集音が開始された数秒後に動作し、以降一定の間隔毎に動作するなどが考えられる。なお、音響モデルの適応タイミングがきたか否かに関わらず、入力信号に対する音声認識処理を行う前の初期動作として少なくとも1度、音響モデル雑音適応処理を行うようにしてもよい。
In addition, when the acoustic model adaptation timing comes while performing the speech recognition process on the input signal in this way (Yes in step S103), the acoustic
図4は、音響モデル雑音適応処理(図2のステップS106)の処理フローの一例を示すフローチャートである。図4に示すように、音響モデル雑音適応処理では、まず雑音統計量算出手段202が、推定雑音保持手段201に保持されている雑音のデータを用いて、雑音の統計量を算出する(ステップS121)。雑音統計量算出手段202は、例えば、推定雑音保持手段201に保持されている最新K個の雑音データから、雑音の統計量を算出してもよい。
FIG. 4 is a flowchart showing an example of the processing flow of the acoustic model noise adaptation processing (step S106 in FIG. 2). As shown in FIG. 4, in the acoustic model noise adaptation process, first, the noise
雑音統計量算出手段202は、雑音の統計量として、例えば、K個のパワースペクトルの平均値を算出してもよい。この他にも、その平均値を元にさらに分散を算出したり、N階微分の平均値や分散を算出してもよい。また、雑音成分をケプストラムなどの特徴量に変換し、特徴量領域での平均値や分散、N階微分の平均値や分散を算出してもよい。なお、どのような統計量を算出するかは、雑音適応させる音響モデルに応じて定めればよい。なお、少なくとも雑音成分の平均は含むものとする。
The noise
なお、雑音統計量算出手段202は、例えば、周期的に音響モデルを雑音適応させるような場合には、入力信号の時間区間と対応づけて雑音の統計量を算出してもよい。例えば、音響モデルの適応タイミングとなった現時点から開始される時間区間の全ての入力信号についての雑音データが保持されるのを待ち、それらの雑音データを用いて、当該時間区間において有効とする雑音の統計量として算出としてもよい。また、例えば、音響モデルの適応タイミングとなった時点において既に推定雑音保持手段201に保持されている一つ前の時間区間の雑音データ(すなわち、一つ前に時間区間に含まれる入力信号から推定された雑音データ)を用いて、現時点から開始される時間区間において有効とする雑音の統計量として算出してもよい。雑音統計量算出手段202は、入力信号の時間区間と対応づけて雑音の統計量を算出した場合には、雑音の統計量と併せて、その統計量に対応する入力信号の時間区間の情報を出力してもよい。
Note that the noise
次に、音響モデル適応手段206は、雑音統計量算出手段202によって算出された雑音の統計量を基に、雑音の特徴量を抽出し、音響モデルを雑音適応させる(ステップS122,S123)。なお、雑音の統計量として既に特徴量領域での統計量が算出されている場合には、ステップS122の処理は省略される。
Next, the acoustic model adaptation unit 206 extracts a noise feature amount based on the noise statistic calculated by the noise
また、音響モデルの適用手法としては、例えば、VTS法やPMC法などを用いてもよい。例えば、音響モデルの適応手法の一つであるVTS法を用いる場合には、音響モデル適応手段206は、雑音統計量算出手段202によって算出された雑音の統計量と、音響モデルのパラメタとを用いて、線形演算を行うことにより、音響モデルを雑音適応させてもよい。VTS法は、音響モデルを雑音環境に適応させる際に用いる近似を線形近似としたものである。音響モデルのパラメータと雑音環境の雑音統計量との関係は非線形であるが、これを線形近似することで、線形演算のみで雑音環境の音声で学習した音響モデルを近似的に生成する方法である(非特許文献3参照。)。
As an application method of the acoustic model, for example, a VTS method or a PMC method may be used. For example, when the VTS method, which is one of acoustic model adaptation methods, is used, the acoustic model adaptation unit 206 uses the noise statistic calculated by the noise
そして、音響モデル適応手段206は、雑音適応させた音響モデルを音響モデル格納手段106に格納する。音響モデル適応手段206は、例えば、音響モデルの情報として、音響モデルのパラメータの値を音響モデル格納手段106に格納してもよい。また、例えば、音響モデルの情報と対応づけて、当該音響モデルに適応させた雑音の統計量における雑音成分の平均の値や、必要であれば対応する入力信号の時間区間の情報を格納してもよい。
Then, the acoustic model adaptation unit 206 stores the acoustic model subjected to noise adaptation in the acoustic
なお、音響モデルと入力信号の時間区間とは必ずしも対応づけられていなくてもよく、少なくとも音響モデルに適応させた雑音の統計量における雑音成分の平均と、その音響モデルに入力する入力信号である雑音抑圧信号に残された雑音成分の平均とが一致するように、各情報が対応づけられていればよい。なお、入力信号の時間区間と対応づけて雑音の統計量を算出したような場合には、さらにその算出元となった雑音データの時間区間の情報を保持するようにしてもよい。 Note that the acoustic model and the time interval of the input signal are not necessarily associated with each other, and are at least the average noise component in the noise statistic adapted to the acoustic model and the input signal input to the acoustic model. Each information should just be matched so that the average of the noise component left to the noise suppression signal may correspond. When noise statistics are calculated in association with the time interval of the input signal, information on the time interval of the noise data that is the source of the calculation may be retained.
図5は、雑音(推定雑音)のパワースペクトルNと該雑音から算出される雑音成分の平均パワースペクトルN_Lと該雑音の短時間変動成分(短時間変動雑音成分)のパワースペクトルN_Sの時間変化の一例を示す説明図である。なお、図5(a)は、ある周波数帯域またはサブバンドにおける雑音のパワースペクトルNの時間変化の一例を示す説明図である。図5(b)は、図5(a)に示す雑音から算出される雑音成分の平均パワースペクトルN_Lの時間変化の一例を示す説明図である。図5(c)は、図5(a)に示す雑音の短時間変動成分のパワースペクトルN_Sの時間変化の一例を示す説明図である。また、図5(a)の上部に示した時間軸に対する下向きの白矢印は、音響モデルを雑音適応させるタイミングの一例である。 FIG. 5 shows the time change of the power spectrum N_S of the noise (estimated noise), the average power spectrum N_L of the noise component calculated from the noise, and the power spectrum N_S of the short-time fluctuation component (short-time fluctuation noise component) of the noise. It is explanatory drawing which shows an example. FIG. 5A is an explanatory diagram showing an example of a temporal change of the noise power spectrum N in a certain frequency band or subband. FIG. 5B is an explanatory diagram illustrating an example of a temporal change in the average power spectrum N_L of the noise component calculated from the noise illustrated in FIG. FIG.5 (c) is explanatory drawing which shows an example of the time change of the power spectrum N_S of the short time fluctuation component of the noise shown to Fig.5 (a). Moreover, the downward white arrow with respect to the time axis shown in the upper part of FIG. 5A is an example of the timing for applying noise to the acoustic model.
図5に示す例は、周期的に音響モデルを雑音適応させる場合の例であり、かつ各時間区間内の各入力信号に含まれる雑音の統計量を当該時間区間の終了時に当該時間区間内の入力信号の雑音データから算出する例である。例えば、図5に示す例では、入力信号の時系列におけるFt0,Ft1,Ft2,Ft3,Ft4,・・・が音響モデルの雑音適応タイミングである。本例では、例えば時間区間Ft0−Ft1の入力信号に含まれる雑音の統計量は、当該時間区間Ft0−Ft1の入力信号の雑音データを用いて算出する。従って、時間区間Ft0−Ft1内のある入力信号フレームに対する雑音抑圧処理は、当該時間区間Ft0−Ft1内の全入力信号の雑音推定処理を待って行うことになる。なお、音声認識処理は、さらにそれらの雑音の統計量に基づく音声認識モデルの適応処理の完了を待って行うことになる。 The example shown in FIG. 5 is an example in which the acoustic model is periodically subjected to noise adaptation, and the noise statistic included in each input signal in each time interval is calculated at the end of the time interval. It is an example calculated from noise data of an input signal. For example, in the example shown in FIG. 5, Ft0, Ft1, Ft2, Ft3, Ft4,... In the time series of the input signal are noise adaptation timings of the acoustic model. In this example, for example, the statistical amount of noise included in the input signal in the time interval Ft0-Ft1 is calculated using the noise data of the input signal in the time interval Ft0-Ft1. Therefore, the noise suppression process for a certain input signal frame in the time interval Ft0-Ft1 is performed after the noise estimation process for all input signals in the time interval Ft0-Ft1. Note that the speech recognition processing is performed after completion of the adaptation processing of the speech recognition model based on the statistics of the noise.
なお、他の例として、音声認識の即時応答性を重視する場合などには、各時間区間の開始時にその直前の時間区間内の入力信号の雑音データを用いて当該時間区間内の入力信号に含まれる雑音の統計量を算出することも可能である。この場合、図5(a)に示す時間区間を例にして説明すると、Ft1−Ft2までの時間区間内の入力信号に含まれる雑音の統計量は、その前の時間区間であるFt0−Ft1までの時間区間の雑音データから算出される。このような場合には、例えば、開始から一定時間(例えば、Ft0−Ft1まで)の入力信号に対しては雑音推定のみを行い、その雑音データを基に音響モデルを雑音適応させ、その後は、現時点で生成されている音響モデルを用いて、即座に入力信号の各フレームに対する雑音抑圧処理および音声認識処理を行うことができる。 As another example, when emphasizing the immediate responsiveness of voice recognition, at the start of each time interval, the noise data of the input signal in the immediately preceding time interval is used to convert the input signal in that time interval. It is also possible to calculate the statistics of the included noise. In this case, the time interval shown in FIG. 5A will be described as an example. The statistical amount of noise included in the input signal in the time interval from Ft1 to Ft2 is from Ft0 to Ft1 that is the previous time interval. It is calculated from the noise data of the time interval. In such a case, for example, only noise estimation is performed on an input signal for a certain time from the start (for example, from Ft0 to Ft1), and the acoustic model is subjected to noise adaptation based on the noise data. Using the acoustic model generated at the present time, it is possible to immediately perform noise suppression processing and speech recognition processing for each frame of the input signal.
図6は、入力信号の雑音(推定雑音)のパワースペクトルNに対して、該雑音から算出される雑音成分の平均パワースペクトルN_Lと該雑音の短時間変動成分(短時間変動雑音成分)のパワースペクトルN_Sの時間変化の他の例を示す説明図である。なお、図6においても図5と同様、図6(a)に雑音のパワースペクトルNを示し、図6(b)に雑音から算出される雑音成分の平均のパワースペクトルN_Lを示し、図6(c)に、雑音の短時間変動成分のパワースペクトルN_Sを示している。図6に示す例では、入力信号の時系列におけるFt1,Ft2,Ft3,Ft4,・・・が音響モデルの雑音適応タイミングである。本例では、例えば時間区間Ft1−Ft2の入力信号に含まれる雑音の統計量は、音響モデルを雑音適応させるタイミングのときに推定雑音保持手段201に保持されている、当該時間区間Ft1−Ft2の前の時間区間Ft0−Ft1の入力信号の雑音データを用いて算出する。従って、時間区間Ft1−Ft2内のある入力信号フレームに対する雑音抑圧処理および音声認識処理を、当該時間区間Ft0−Ft1内の全入力信号の雑音推定処理を待たずに行うことができる。
FIG. 6 shows, for the power spectrum N of the noise (estimated noise) of the input signal, the average power spectrum N_L of the noise component calculated from the noise and the power of the short-time fluctuation component (short-time fluctuation noise component) of the noise. It is explanatory drawing which shows the other example of the time change of spectrum N_S. 6A and 6B, FIG. 6A shows a noise power spectrum N, FIG. 6B shows an average power spectrum N_L of noise components calculated from the noise, and FIG. c) shows a power spectrum N_S of a short-time fluctuation component of noise. In the example shown in FIG. 6, Ft1, Ft2, Ft3, Ft4,... In the time series of the input signal are noise adaptation timings of the acoustic model. In this example, for example, the statistic of noise included in the input signal of the time interval Ft1-Ft2 is stored in the estimated
なお、図5および図6に示すように、時間区間内において入力信号に含まれる雑音の統計量は変化しない。換言すると、雑音の統計量は、音響モデルを雑音適応させるタイミングで算出された後は次の音響モデルを雑音適応させるタイミングまで一定の値が保持される。 Note that, as shown in FIGS. 5 and 6, the statistical amount of noise included in the input signal does not change in the time interval. In other words, after the noise statistic is calculated at the timing of noise adaptation of the acoustic model, a constant value is held until the timing of noise adaptation of the next acoustic model.
また、図7および図8は、入力信号から推定された雑音の例とともに、音響モデル雑音適応処理および該入力信号に対する雑音抑圧処理の動作タイミングの例を示す説明図である。 FIGS. 7 and 8 are explanatory diagrams showing examples of operation timings of the acoustic model noise adaptation process and the noise suppression process for the input signal, along with examples of noise estimated from the input signal.
図7(a)は、入力信号から推定された雑音の例を示す説明図である。なお、図7(a)の上部に示した時間軸に対する下向きの白矢印は、音響モデルを雑音適応させるタイミングの例である。図7(a)では、入力信号の時系列におけるFt0,Ft1,Ft2,Ft3,Ft4,・・・が音響モデルの雑音適応タイミングとして示されている。また、図7(a)の下部にある右向き矢印およびその時間t1は、その開始位置から始まる時間区間内の入力信号に含まれる雑音の統計量を求めるのに用いる雑音データが当該時間区間の入力信号の雑音データであり、時間t1分の雑音データであることを示している。 FIG. 7A is an explanatory diagram illustrating an example of noise estimated from an input signal. In addition, the downward white arrow with respect to the time axis shown in the upper part of FIG. 7A is an example of timing at which the acoustic model is adapted to noise. In FIG. 7A, Ft0, Ft1, Ft2, Ft3, Ft4,... In the time series of the input signal are shown as noise adaptation timings of the acoustic model. The right arrow at the bottom of FIG. 7 (a) and its time t1 indicate that the noise data used to calculate the statistical quantity of noise included in the input signal in the time interval starting from the start position is input to the time interval. This is signal noise data, indicating that the noise data is for time t1.
図7(b)は、図7(a)に示す雑音に対して算出される雑音の統計量と、音響モデルの雑音適応処理の動作タイミングの例を示す説明図である。図7(b)において、上部に示した時間軸に対する下向きの白矢印は、音声モデル適応部200(より具体的には雑音統計量算出手段202)が雑音の統計量の算出処理を開始するタイミングを示している。図7(b)では、雑音統計量算出手段202が動作するタイミングは、図7(a)で示した音響モデルを雑音適応させるタイミングからt1時間を経過した時としている。また、本例では、雑音の統計量の算出処理を開始してから音響モデルの雑音適応処理が完了するまでに時間t2がかかるものとしている。なお、図7(b)では、雑音の統計量を算出してもその雑音の統計量が音響モデルに適応されるまでの間、すなわち音響モデルの雑音適応処理が完了するまでの間は、短時間変動雑音成分算出手段103に出力する雑音成分の平均とはしないため、適応中を表す破線で示している。短時間変動雑音成分算出手段103へは実線で示した値が出力される。
FIG. 7B is an explanatory diagram showing an example of noise statistics calculated for the noise shown in FIG. 7A and the operation timing of the noise adaptation processing of the acoustic model. In FIG. 7B, the downward white arrow with respect to the time axis shown at the top indicates the timing at which the speech model adaptation unit 200 (more specifically, the noise statistic calculation unit 202) starts the noise statistic calculation process. Is shown. In FIG. 7B, the timing at which the noise
図7(c)は、音声認識処理の動作タイミングの例を示す説明図である。図7(c)において、上部に示す時間軸に対する下向きの白矢印は、音声認識部100(より具体的には短時間変動雑音成分算出手段103)が雑音抑圧・音声認識処理を開始するタイミングを示している。本例では、音響モデルの雑音適応処理が完了したことを受けて、短時間変動雑音成分算出手段103が、改めてその音響モデルの雑音適応に用いられた雑音の統計量の算出元となる雑音データを得た入力信号に対する雑音抑圧処理を開始する。すなわち、入力信号に対して雑音推定をした後、当該入力信号に用いる音響モデルが雑音適用されるのを待って、当該音響モデルに用いられた雑音の統計量を取得して、それを基に雑音抑圧を行う。その後、それによって得た抑圧信号を入力信号にして現在保持されている音響モデルを用いて音声認識処理を行う例である。 FIG. 7C is an explanatory diagram illustrating an example of the operation timing of the voice recognition process. In FIG. 7C, the downward white arrow with respect to the time axis shown at the top indicates the timing at which the speech recognition unit 100 (more specifically, the short-time fluctuation noise component calculation unit 103) starts the noise suppression / speech recognition processing. Show. In this example, in response to the completion of the noise adaptation processing for the acoustic model, the short-time fluctuation noise component calculation means 103 is the noise data from which the noise statistic used for the noise adaptation of the acoustic model is calculated again. Noise suppression processing for the obtained input signal is started. That is, after estimating the noise for the input signal, wait for the acoustic model used for the input signal to be applied with noise, and obtain the statistics of the noise used for the acoustic model. Noise suppression is performed. Thereafter, the speech recognition process is performed using the currently stored acoustic model using the suppression signal obtained thereby as an input signal.
また、図8では、図7とは異なる動作タイミングの例を示している。図8(a)は、入力信号から推定された雑音の例を示す説明図である。なお、図8(a)の上部に示した時間軸に対する下向きの白矢印は、音響モデルを雑音適応させるタイミングの例である。図8(a)では、入力信号の時系列におけるFt1,Ft2,Ft3,Ft4,・・・が音響モデルの雑音適応タイミングとして示されている。また、図8(a)の下部にある左向き矢印およびその時間t1は、その開始位置から始まる時間区間の入力信号に含まれる雑音の統計量を求めるのに用いる雑音データが直前の時間区間の入力信号の雑音データであり、時間t1分の雑音データであることを示している。 8 shows an example of operation timing different from that in FIG. FIG. 8A is an explanatory diagram illustrating an example of noise estimated from an input signal. In addition, the downward white arrow with respect to the time axis shown in the upper part of FIG. 8A is an example of timing at which the acoustic model is adapted to noise. In FIG. 8A, Ft1, Ft2, Ft3, Ft4,... In the time series of the input signal are shown as noise adaptation timing of the acoustic model. Also, the left arrow at the bottom of FIG. 8A and its time t1 indicate that the noise data used to calculate the statistical amount of noise included in the input signal in the time interval starting from the start position is input in the previous time interval. This is signal noise data, indicating that the noise data is for time t1.
図8(b)は、図8(a)に示す雑音に対して算出される雑音の統計量と、音響モデルの雑音適応処理の動作タイミングの例を示す説明図である。図8(b)では、雑音統計量算出手段202が動作するタイミングは、図8(a)で示した音響モデルを雑音適応させるタイミングと同じタイミングとしている。すなわち、即座に現在保持されている雑音データを用いて雑音の統計量を算出する。なお、他の点に関しては、図7(b)と同様である。
FIG. 8B is an explanatory diagram showing an example of noise statistics calculated for the noise shown in FIG. 8A and the operation timing of the noise adaptation processing of the acoustic model. In FIG. 8B, the timing at which the noise
図8(c)は、音声認識処理の動作タイミングの例を示す説明図である。なお、図8(c)に示す例では、短時間変動雑音成分算出手段103およびサーチ手段105による雑音抑圧・音声認識処理の動作タイミングは特に規定されない。すなわち、現在処理中の入力信号に対して、雑音適応済みの音響モデルが存在していればその音響モデルに用いられた雑音の統計量を取得して、それを基に雑音抑圧を行う。本例は、ある時間区間の入力信号に対して、それよりも前の時間区間の雑音データによる雑音の統計量に基づいて雑音適応された音響モデルを用いる例である。
FIG. 8C is an explanatory diagram illustrating an example of operation timing of the voice recognition process. In the example shown in FIG. 8C, the operation timing of the noise suppression / voice recognition processing by the short-time fluctuation noise
以上のように、本実施形態によれば、入力信号の時系列から推定雑音ではなく短時間変動雑音成分を抑圧することによって、フロアリング係数αによる悪影響を防ぐことができる。短時間変動雑音成分は推定雑音に比べて値が小さい。このため式(3)と式(1)とを比較すると、式(3)の方がフロリングの処理を必要とする可能性を小さく抑えることができる。従って、式(1)のような推定雑音を抑圧する雑音抑圧方法と比べて、本実施形態における雑音抑圧方法はフロアリング係数による悪影響を少なくできる。 As described above, according to the present embodiment, it is possible to prevent an adverse effect due to the flooring coefficient α by suppressing the short-time fluctuation noise component instead of the estimated noise from the time series of the input signal. The value of the short-time fluctuation noise component is smaller than the estimated noise. For this reason, when the formula (3) is compared with the formula (1), the possibility that the formula (3) requires a flooring process can be reduced. Therefore, the noise suppression method according to the present embodiment can reduce the adverse effects due to the flooring coefficient, as compared with the noise suppression method that suppresses the estimated noise as in Expression (1).
残っている雑音成分による入力信号と音響モデル間のミスマッチは、音響モデルを雑音の統計量に基づき雑音適応させることによって抑制することができる。また、音響モデル雑音の統計量に基づき雑音適応することで、推定雑音に基づき音響モデルを雑音適応させる方法と比べて、計算量の多い音響モデルの雑音適応処理の頻度を少なくできるので、計算コストを少なく抑えながら変動する雑音に追従させることができる。 Mismatch between the input signal and the acoustic model due to the remaining noise component can be suppressed by applying noise adaptation to the acoustic model based on the statistics of noise. In addition, by performing noise adaptation based on the statistic of acoustic model noise, the frequency of noise adaptation processing for acoustic models with a large amount of computation can be reduced compared to the method of applying noise adaptation to acoustic models based on estimated noise. It is possible to follow the fluctuating noise while suppressing the noise.
実施形態2.
次に、本発明の第2の実施形態について図面を参照して説明する。図9は、本実施形態の音声認識装置の構成例を示すブロック図である。図9に示すように、本実施形態の音声認識装置は、図1に示す第1の実施形態と比べて、さらにトリガ発生手段301を備える点が異なる。
Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 9 is a block diagram illustrating a configuration example of the speech recognition apparatus according to the present embodiment. As shown in FIG. 9, the speech recognition apparatus according to the present embodiment is different from the first embodiment shown in FIG. 1 in that it further includes trigger generation means 301.
トリガ発生手段301は、音響モデルの雑音適応のタイミングを制御する。トリガ発生手段301は、例えば、音声検出手段に基づくものや、ユーザの意思によってトリガを発生させることのできる入力装置などによって実現してもよい。なお、本実施形態では、音響モデル適応部200の雑音統計量算出手段202および音響モデル適応手段203は、トリガ発生手段301が発生させるトリガによって動作の開始タイミングを得る。
The trigger generation means 301 controls the noise adaptation timing of the acoustic model. The
図10は、本実施形態の音声認識装置の動作例を示すフローチャートである。なお、図10に示す動作例は、基本的には図2に示した第1の実施形態と同様である。ただし、音響モデル雑音適応処理(ステップS206)の動作のタイミングが、トリガ発生手段301によって制御される。すなわち、本例では図2のステップS103に代わり、ステップS203で、トリガ発生手段301によるトリガが発生したか否かを判定し、トリガの有無に基づいて音響モデル適応部200の動作の有無を決定する。なお、他の動作については第1の実施形態と同様であるため、説明省略する。
FIG. 10 is a flowchart showing an operation example of the speech recognition apparatus of the present embodiment. Note that the operation example shown in FIG. 10 is basically the same as that of the first embodiment shown in FIG. However, the timing of the operation of the acoustic model noise adaptation process (step S206) is controlled by the
トリガ発生手段301は、例えば、図示しない音声検出手段を用いて、入力信号取得手段101で得られる入力信号に基づいて音声検出を行い、主に無音区間であると判断された場合にトリガを発生させてもよい。このような場合には、入力信号の無音区間の間に、音響モデルの雑音適応処理を動作させることができる。すなわち、有音区間において音声認識処理にCPU資源を優先的に割り当てることができる。
For example, the
また、例えばトリガ発生手段301は、図示しない入力装置を介して入力されるユーザの指示に基づいてトリガを発生させてもよい。このような場合には、ユーザが音響モデルを適応させたいと思ったタイミングで、音響モデル適応部200を動作させることができる。
For example, the
図11〜図12は、入力信号から推定された雑音の例とともに、本実施形態における音響モデル雑音適応処理および該入力信号に対する雑音抑圧処理の動作タイミングの例を示す説明図である。なお、音響モデル適応部200の動作指示のタイミングが周期ではなく任意のタイミングとなる以外は基本的には第1の実施形態と同様である。
FIGS. 11 to 12 are explanatory diagrams illustrating examples of operation timings of the acoustic model noise adaptation process and the noise suppression process for the input signal in the present embodiment, along with examples of noise estimated from the input signal. Note that the operation is basically the same as in the first embodiment except that the operation instruction timing of the acoustic
なお、図11に示す例は、音響モデル適応部200の動作指示がされるタイミングが周期的でないだけで、基本的には、図8に示す例と同様である。すなわち、本例では、雑音統計量算出手段202は、音響モデル適応部200の動作指示がされたタイミングと同じタイミングで雑音の統計量を算出する(図11(b)参照。)。なお、このとき用いる雑音データは、その時点において保持されているt1時間分の雑音データとする。また、短時間変動雑音成分算出手段103は、雑音適応済みの音響モデルが存在していればその音響モデルに用いられた雑音の統計量を取得して、それを基に雑音抑圧を行う。その後、サーチ手段105が、それによって得た抑圧信号を入力信号にして現在保持されている音響モデルを用いて音声認識処理を行う(図11(c)参照。)。
Note that the example shown in FIG. 11 is basically the same as the example shown in FIG. 8 except that the operation instruction of the acoustic
また、図12は、短時間変動雑音成分算出手段103が、音響モデルの雑音適応処理が完了したことを受けて、そのトリガ発生時の入力信号から雑音抑圧処理を行う例である(図12(c)参照。)。なお、雑音の統計量の算出タイミングは、図11と同様でよい。その上で、本例では、短時間変動雑音成分算出手段103が、音響モデルの雑音適応処理が完了したことを受けて、そのトリガ発生時の入力信号から雑音抑圧処理を行う。例えば、入力信号の時系列におけるFt1でトリガが発生した場合には、そのトリガによって開始された音響モデルの雑音適応処理が完了するのを待ち、その処理により生成された音響モデルに用いられた雑音の統計量を取得して、それを基にトリガ発声時の入力信号Ft1から雑音抑圧を行ってもよい。この他にも、様々なタイミング制御が可能である。例えば、第1の実施形態と同様に、雑音の統計量をそのトリガ発声時以降のデータを用いて算出するようにしたり、音響モデルを雑音の統計量を算出するのに用いた入力信号から適用したりすることも可能である。
FIG. 12 shows an example in which the short-time fluctuation noise
以上のように、本実施形態によれば、入力信号の無音区間に音響モデルの雑音適応処理を行ったり、ユーザの意思に基づいて音響モデルの雑音適応処理を行うことができるため、例えば、発話中の音響モデル適応の動作による計算量の増加を避けることができる。また、例えば、ユーザの指示によって雑音環境が変化した時にのみ音響モデルの雑音適応処理を行えば、少ない計算量でより効果的に変化する雑音に追従した音声認識処理を行うことができる。すなわち、CPU効率を上げることができるので、音声認識処理の高速化に繋がる。 As described above, according to the present embodiment, noise adaptation processing of the acoustic model can be performed in the silent section of the input signal, or noise adaptation processing of the acoustic model can be performed based on the user's intention. It is possible to avoid an increase in the amount of calculation due to the operation of the acoustic model adaptation. Further, for example, if the noise adaptation processing of the acoustic model is performed only when the noise environment changes according to the user's instruction, it is possible to perform the speech recognition processing that follows the noise that changes more effectively with a small amount of calculation. That is, since the CPU efficiency can be increased, the speed of the voice recognition process is increased.
実施形態3.
次に、本発明の第3の実施形態について図面を参照して説明する。図13は、本実施形態の音声認識装置の構成例を示すブロック図である。図13に示すように、本実施形態の音声認識装置は、図1に示す第1の実施形態と比べて、さらに特徴量変換手段401と特徴量逆変換手段402とを含む点が異なる。また、音声認識部100がさらに特徴量変換手段107を含む点が異なる。
Embodiment 3. FIG.
Next, a third embodiment of the present invention will be described with reference to the drawings. FIG. 13 is a block diagram illustrating a configuration example of the speech recognition apparatus according to the present embodiment. As shown in FIG. 13, the speech recognition apparatus of this embodiment is different from the first embodiment shown in FIG. 1 in that it further includes a feature
特徴量変換手段401、107は、それぞれ雑音成分を特徴量に変換する。なお、図13では、特徴量変換手段401、107とを別々の手段として示しているが、1つの特徴量変換手段を共用することも可能である。また、第1の実施形態において説明したように、サーチ手段105が特徴量変換機能を有している場合には、特徴量変換手段107は省略してもよい。
The feature amount conversion means 401 and 107 respectively convert noise components into feature amounts. In FIG. 13, the feature quantity conversion means 401 and 107 are shown as separate means, but one feature quantity conversion means can also be shared. Further, as described in the first embodiment, when the
特徴量逆変換手段402は、雑音の特徴量から雑音成分に逆変換を行う。具体的には、雑音統計量算出手段202によって算出された雑音の特徴量領域での平均を雑音成分に変換する。
The feature amount
特徴量変換手段401、107および特徴量逆変換手段402は、例えば、プログラムに従って動作するCPUによって実現される。
The feature
次に、本実施形態の動作について説明する。図14は、本実施形態の音響モデル雑音適応処理の処理フローの一例を示すフローチャートである。図14に示すように、本実施形態では、音響モデル雑音適応処理において、特徴量変換ステップ(図4のステップS122参照。)が不要となる。また、本実施形態では、雑音統計量算出手段202は、推定雑音保持手段201に保持されている推定雑音の特徴量から、雑音の統計量を求める(ステップS221)。
Next, the operation of this embodiment will be described. FIG. 14 is a flowchart illustrating an example of the processing flow of the acoustic model noise adaptation processing of the present embodiment. As shown in FIG. 14, in this embodiment, a feature amount conversion step (see step S <b> 122 in FIG. 4) is not necessary in the acoustic model noise adaptation process. In the present embodiment, the noise
なお、図示省略しているが、本実施形態では雑音推定・データ保持ステップ(図4のステップS102参照。)において、推定した雑音データを推定雑音保持手段201に保持させる際に、特徴量変換手段401を介すことによって、雑音の特徴量に変換して保持させる。また、雑音抑圧・音声認識処理の短時間変動雑音成分算出ステップ(図3のステップS111参照。)において、雑音成分の平均を取得する際に、特徴量逆変換手段402を介すことによって、雑音成分として示される平均を取得する。特徴量逆変換手段402は、例えば、短時間変動雑音成分算出手段103への入力のために、雑音統計量算出手段202によって算出された雑音の特徴量領域での平均値をパワースペクトルなどの雑音成分の形式に変換する。なお、他の点に関しては、第1の実施形態と同様である。
Although not shown, in the present embodiment, in the noise estimation / data holding step (see step S102 in FIG. 4), when the estimated noise data is held in the estimated noise holding means 201, the feature amount conversion means. Through 401, it is converted into a noise feature and held. Further, in the short-time fluctuation noise component calculation step (see step S111 in FIG. 3) of the noise suppression / voice recognition processing, noise is obtained through the feature amount inverse conversion means 402 when obtaining the average of the noise components. Get the average shown as a component. For example, the feature amount
このように、本実施形態では、特徴量変換手段を介して、推定した雑音データを推定雑音保持手段201に保持させることによって、推定雑音保持手段201には、推定雑音の特徴量が保持されることになる。また、雑音統計量算出手段202では、推定雑音の特量から雑音の統計量を計算することになる。
As described above, in the present embodiment, the estimated noise data is held in the estimated
一般に、1フレームにおける入力信号のデータ量と特徴量のデータ量とでは、特徴量のデータ量の方が少ない。このため、本実施形態によれば、推定雑音保持手段201の保存領域の節約ができ、雑音統計量算出手段202における計算量の節約が可能となる。
In general, the data amount of the feature amount is smaller between the data amount of the input signal and the data amount of the feature amount in one frame. Therefore, according to the present embodiment, the storage area of the estimated
なお、本実施形態では、第1の実施形態に対して特徴量変換手段401、107および特徴量逆変換手段402を追加する例を示したが、このような追加は、第2の実施形態に対しても可能である。
In this embodiment, the example in which the feature
以下、本発明の概要について説明する。図15は、本発明の概要を示すブロック図である。図15に示す音声認識装置は、雑音統計量算出手段11と、短時間変動雑音成分算出手段12と、音響モデル適応手段13と、雑音抑圧手段14と、音声認識手段15とを備える。
The outline of the present invention will be described below. FIG. 15 is a block diagram showing an outline of the present invention. The speech recognition apparatus shown in FIG. 15 includes a noise
雑音統計量算出手段11は、入力信号の複数フレームに対して推定された雑音のデータから、雑音の統計量を算出する。なお、雑音統計量算出手段11は、上記実施形態では、雑音特徴量算出手段202として示されている。
The noise statistic calculation means 11 calculates a noise statistic from noise data estimated for a plurality of frames of the input signal. Note that the noise
短時間変動雑音成分算出手段12は、雑音統計量算出手段11によって算出された雑音の統計量に基づいて、入力信号の各フレームに含まれる雑音の短時間変動成分を算出する。なお、短時間変動雑音成分算出手段12は、上記実施形態では、短時間変動雑音成分算出手段103として示されている。
The short-time fluctuation noise
音響モデル適応手段13は、雑音統計量算出手段11によって算出された雑音の統計量を用いて、音響モデルを雑音に適応させる。なお、音響モデル適応手段13は、上記実施形態では、音響モデル適応手段203として示されている。
The acoustic model adaptation unit 13 adapts the acoustic model to noise using the noise statistic calculated by the noise
雑音抑圧手段14は、入力信号の各フレームに対して、短時間変動雑音成分算出手段12によって算出された当該フレームに含まれる雑音の短時間変動成分を抑圧する。なお、雑音抑圧手段14は、上記実施形態では、雑音抑圧手段104として示されている。
The
音声認識手段15は、雑音抑圧手段14によって抑圧された入力信号を、音響モデル適応手段13によって雑音適応された音響モデルを用いて音声認識を行う。なお、音声認識手段15は、上記実施形態では、サーチ手段105として示されている。
The
このような構成により、変化する雑音環境下においても、高精度に音声認識を行うことが可能となる。 With such a configuration, it is possible to perform speech recognition with high accuracy even in a changing noise environment.
また、短時間変動雑音成分算出手段は、入力信号の各フレームに含まれる雑音成分から、雑音統計量算出手段によって算出された雑音の統計量によって示される雑音成分の平均を減算することによって、当該各フレームに含まれる雑音の短時間変動成分を算出してもよい。 Further, the short-time fluctuation noise component calculation means subtracts the average of the noise component indicated by the noise statistic calculated by the noise statistic calculation means from the noise component included in each frame of the input signal. A short-time fluctuation component of noise included in each frame may be calculated.
また、本発明による音声認識装置は、入力信号の各フレームに対して推定された雑音のデータを逐次保持する推定雑音保持手段(例えば、推定雑音保持手段201)を備え、雑音統計量算出手段は、推定雑音保持手段に保持されている雑音のデータを用いて、雑音の統計量を算出してもよい。 The speech recognition apparatus according to the present invention further includes estimated noise holding means (for example, estimated noise holding means 201) that sequentially holds noise data estimated for each frame of the input signal, and the noise statistic calculating means includes: The noise statistics may be calculated using noise data held in the estimated noise holding means.
また、本発明による音声認識装置は、音響モデルの情報と、音響モデルに適応させた雑音の統計量の情報とを対応づけて記憶する音響モデル記憶手段(例えば、音響モデル格納手段106)を備え、短時間変動雑音成分算出手段は、音響モデル記憶手段に記憶されている雑音の統計量に基づいて、当該フレームに含まれる雑音の短時間変動成分を算出し、音声認識手段は、音響モデル記憶手段に記憶されている音響モデルを用いて入力信号の各フレームに対して音声認識を行ってもよい。 In addition, the speech recognition apparatus according to the present invention includes acoustic model storage means (for example, acoustic model storage means 106) that stores information on the acoustic model and information on the statistical amount of noise adapted to the acoustic model in association with each other. The short-time fluctuation noise component calculation means calculates the short-time fluctuation component of noise included in the frame based on the noise statistic stored in the acoustic model storage means, and the speech recognition means Speech recognition may be performed on each frame of the input signal using an acoustic model stored in the means.
また、雑音統計量算出手段は、入力信号の時間区間における所定の時間区間毎に雑音の統計量を算出し、音響モデル適応手段は、雑音の統計量が更新される毎に音響モデルを雑音に適応させ、短時間変動雑音成分算出手段は、算出対象とされたフレームを含む時間区間内のフレームの雑音データを用いて算出された雑音の統計量に基づいて、当該フレームに含まれる雑音の短時間変動成分を算出し、音声認識手段は、入力信号の各フレームに対して、当該フレームを含む時間区間内のフレームの雑音データを用いて算出された雑音の統計量を用いて雑音適応された音響モデルを用いて音声認識を行ってもよい。 The noise statistic calculation means calculates noise statistic for each predetermined time interval in the input signal time interval, and the acoustic model adaptation means converts the acoustic model to noise every time the noise statistic is updated. The short-time fluctuation noise component calculation means is adapted to reduce the noise included in the frame based on the noise statistic calculated using the noise data of the frame in the time interval including the frame to be calculated. The time recognition component is calculated, and the speech recognition means is subjected to noise adaptation for each frame of the input signal using noise statistics calculated using noise data of frames in the time interval including the frame. Speech recognition may be performed using an acoustic model.
また、本発明による音声認識装置は、音響モデルを雑音適応させるタイミングを制御するトリガ発生手段(例えば、トリガ発生手段301)を備えていてもよい。 In addition, the speech recognition apparatus according to the present invention may include trigger generation means (for example, trigger generation means 301) for controlling the timing of noise adaptation of the acoustic model.
また、トリガ発生手段は、入力信号に対して無音区間と判断した場合に、音響モデル適応手段に音響モデルの適応処理を開始させるためのトリガを発生させてもよい。 The trigger generation means may generate a trigger for causing the acoustic model adaptation means to start the acoustic model adaptation processing when it is determined that the input signal is a silent section.
また、トリガ発生手段は、ユーザからの指示に応じて、音響モデル適応手段に音響モデルの適応処理を開始させるためのトリガを発生させてもよい。 The trigger generation means may generate a trigger for causing the acoustic model adaptation means to start the acoustic model adaptation processing in response to an instruction from the user.
また、本発明による音声認識装置は、特徴量領域で雑音の統計量を得るための特徴量変換手段(例えば、特徴量変換手段401,107)と、特徴量領域で算出された雑音の統計量から雑音の短時間変動成分を得るための特徴量逆変換手段(例えば、特徴量逆変換手段402)とを備えていてもよい。
In addition, the speech recognition apparatus according to the present invention includes a feature amount conversion unit (for example, feature
また、本発明による音声認識方法は、音響モデルの適応処理を開始させるためのトリガを発生させ、トリガにより、入力信号の複数フレームに対して推定された雑音のデータから、雑音の統計量を算出し、算出された雑音の統計量を用いて、音響モデルを雑音に適応させてもよい。 Further, the speech recognition method according to the present invention generates a trigger for starting the adaptive processing of the acoustic model, and calculates noise statistics from the noise data estimated for a plurality of frames of the input signal by the trigger. Then, the acoustic model may be adapted to noise using the calculated noise statistic.
また、本発明による音声認識方法は、入力信号の各フレームに対して推定された雑音のデータを逐次保持する際に、雑音のデータを特徴量に変換して保持し、保持された雑音の特徴量のデータから、雑音の特徴量領域での統計量を算出してもよい。 In addition, the speech recognition method according to the present invention converts the noise data into feature amounts and holds the noise data when sequentially storing the estimated noise data for each frame of the input signal. A statistic in the noise feature quantity region may be calculated from the quantity data.
また、本発明による音声認識プログラムは、コンピュータに、音響モデルを雑音適応させるタイミングを制御するトリガを発生させる処理を実行させてもよい。 In addition, the speech recognition program according to the present invention may cause the computer to execute a process for generating a trigger for controlling the timing of noise adaptation of the acoustic model.
また、本発明による音声認識プログラムは、コンピュータに、特徴量領域で雑音の統計量を得るための特徴量変換処理と、特徴量領域で算出された雑音の統計量から雑音の短時間変動成分を得るための特徴量逆変換処理とを実行させてもよい。 In addition, the speech recognition program according to the present invention allows a computer to perform a feature amount conversion process for obtaining a noise statistic in the feature amount region, and a short-time fluctuation component of noise from the noise statistic calculated in the feature amount region. You may perform the feature-value reverse transformation process for obtaining.
本発明は、音声認識に限らず、入力音声に対して雑音を抑圧して所望のデータを得る用途に適用可能である。 The present invention is not limited to speech recognition, and can be applied to uses for obtaining desired data by suppressing noise with respect to input speech.
11 雑音統計量算出手段
12 短時間変動雑音成分算出手段
13 音響モデル適応手段
14 雑音抑圧手段
15 音声認識手段
101 入力信号取得手段
102 雑音推定手段
103 短時間変動雑音成分算出手段
104 雑音抑圧手段
105 サーチ手段
106 音響モデル格納手段
201 推定雑音保持手段
202 雑音統計量取得手段
203 音響モデル適応手段
301 トリガ発生手段
401,107 特徴量変換手段
402 特徴量逆変換手段
DESCRIPTION OF
Claims (15)
前記雑音統計量算出手段によって算出された雑音の統計量に基づいて、入力信号の各フレームに含まれる雑音の短時間変動成分を算出する短時間変動雑音成分算出手段と、
前記雑音統計量算出手段によって算出された雑音の統計量を用いて、音響モデルを雑音に適応させる音響モデル適応手段と、
入力信号の各フレームに対して、前記短時間変動雑音成分算出手段によって算出された当該フレームに含まれる雑音の短時間変動成分を抑圧する雑音抑圧手段と、
前記雑音抑圧手段によって抑圧された入力信号を、前記音響モデル適応手段によって雑音適応された音響モデルを用いて音声認識を行う音声認識手段とを備えた
ことを特徴とする音声認識装置。 A noise statistic calculating means for calculating a noise statistic from noise data estimated for a plurality of frames of the input signal;
A short-time fluctuation noise component calculation means for calculating a short-time fluctuation component of noise included in each frame of the input signal based on the noise statistics calculated by the noise statistics calculation means;
Acoustic model adaptation means for adapting the acoustic model to noise using the noise statistics calculated by the noise statistics calculation means;
Noise suppression means for suppressing, for each frame of the input signal, the short-time fluctuation component of the noise included in the frame calculated by the short-time fluctuation noise component calculation means;
A speech recognition apparatus comprising speech recognition means for performing speech recognition on an input signal suppressed by the noise suppression means using an acoustic model noise-adapted by the acoustic model adaptation means.
請求項1に記載の音声認識装置。 The short-time fluctuation noise component calculation means subtracts the average of noise components indicated by the noise statistic calculated by the noise statistic calculation means from the noise components included in each frame of the input signal, thereby The speech recognition device according to claim 1, wherein a short-time variation component of noise included in the noise is calculated.
雑音統計量算出手段は、前記推定雑音保持手段に保持されている雑音のデータを用いて、雑音の統計量を算出する
請求項1または請求項2に記載の音声認識装置。 Estimated noise holding means for sequentially holding noise data estimated for each frame of the input signal,
The speech recognition apparatus according to claim 1, wherein the noise statistic calculation unit calculates a noise statistic using noise data held in the estimated noise holding unit.
短時間変動雑音成分算出手段は、前記音響モデル記憶手段に記憶されている雑音の統計量に基づいて、当該フレームに含まれる雑音の短時間変動成分を算出し、
音声認識手段は、前記音響モデル記憶手段に記憶されている音響モデルを用いて入力信号の各フレームに対して音声認識を行う
請求項1から請求項3のうちのいずれか1項に記載の音声認識装置。 Acoustic model storage means for storing the information of the acoustic model and the information of the statistical amount of noise adapted to the acoustic model in association with each other;
The short-time fluctuation noise component calculation means calculates a short-time fluctuation component of noise included in the frame based on a noise statistic stored in the acoustic model storage means,
The voice according to any one of claims 1 to 3, wherein the voice recognition means performs voice recognition on each frame of the input signal using an acoustic model stored in the acoustic model storage means. Recognition device.
音響モデル適応手段は、雑音の統計量が更新される毎に音響モデルを雑音に適応させ、
短時間変動雑音成分算出手段は、算出対象とされたフレームを含む前記時間区間内のフレームの雑音データを用いて算出された雑音の統計量に基づいて、当該フレームに含まれる雑音の短時間変動成分を算出し、
音声認識手段は、入力信号の各フレームに対して、当該フレームを含む前記時間区間内のフレームの雑音データを用いて算出された雑音の統計量を用いて雑音適応された音響モデルを用いて音声認識を行う
請求項1から請求項4のうちのいずれか1項に記載の音声認識装置。 The noise statistic calculating means calculates a noise statistic for each predetermined time interval in the time interval of the input signal,
The acoustic model adaptation means adapts the acoustic model to noise every time the noise statistic is updated,
The short-time fluctuation noise component calculation means is configured to calculate a short-time fluctuation of noise included in a frame based on a noise statistic calculated using noise data of the frame in the time interval including the frame to be calculated. Calculate the ingredients,
The speech recognition means performs speech for each frame of the input signal using an acoustic model that is noise-adapted using a noise statistic calculated using noise data of the frame in the time interval including the frame. The speech recognition apparatus according to any one of claims 1 to 4, wherein recognition is performed.
請求項1から請求項4のうちのいずれか1項に記載の音声認識装置。 The speech recognition apparatus according to any one of claims 1 to 4, further comprising trigger generation means for controlling a timing at which the acoustic model is subjected to noise adaptation.
請求項6に記載の音声認識装置。 The speech recognition apparatus according to claim 6, wherein the trigger generation unit generates a trigger for causing the acoustic model adaptation unit to start the acoustic model adaptation process when it is determined that the input signal is a silent section.
請求項6に記載の音声認識装置。 The speech recognition apparatus according to claim 6, wherein the trigger generation unit generates a trigger for causing the acoustic model adaptation unit to start an acoustic model adaptation process in response to an instruction from a user.
特徴量領域で算出された雑音の統計量から雑音の短時間変動成分を得るための特徴量逆変換手段とを備えた
請求項1から請求項8のうちのいずれか1項に記載の音声認識装置。 A feature value conversion means for obtaining noise statistics in the feature value region;
The speech recognition according to any one of claims 1 to 8, further comprising a feature amount inverse transform unit for obtaining a short-time fluctuation component of noise from a noise statistic calculated in the feature amount region. apparatus.
前記算出された雑音の統計量を用いて、音響モデルを雑音に適応させ、
入力信号の各フレームに対して、前記雑音適応された音響モデルに用いられた雑音の統計量に基づき算出される雑音の短時間変動成分を抑圧し、
前記雑音の短時間変動成分が抑圧された入力信号を、前記雑音適応された音響モデルを用いて音声認識を行う
ことを特徴とする音声認識方法。 Calculate noise statistics from noise data estimated for multiple frames of the input signal,
Adapting the acoustic model to noise using the calculated noise statistic,
For each frame of the input signal, suppress the short-time fluctuation component of the noise calculated based on the noise statistics used in the noise-adapted acoustic model,
A speech recognition method, wherein speech recognition is performed on the input signal in which the short-time fluctuation component of the noise is suppressed using the noise-adapted acoustic model.
前記トリガにより、入力信号の複数フレームに対して推定された雑音のデータから、雑音の統計量を算出し、
前記算出された雑音の統計量を用いて、音響モデルを雑音に適応させる
請求項10に記載の音声認識方法。 Generate a trigger to start the adaptive processing of the acoustic model,
From the noise data estimated for multiple frames of the input signal by the trigger, the noise statistics are calculated,
The speech recognition method according to claim 10, wherein an acoustic model is adapted to noise using the calculated noise statistic.
前記保持された雑音の特徴量のデータから、雑音の特徴量領域での統計量を算出する
請求項10または請求項11に記載の音声認識方法。 When sequentially storing the estimated noise data for each frame of the input signal, the noise data is converted into feature values and stored,
The speech recognition method according to claim 10, wherein a statistic in a noise feature amount region is calculated from the retained noise feature amount data.
入力信号の複数フレームに対して推定された雑音のデータから、雑音の統計量を算出する雑音統計量算出処理と、
前記雑音統計量算出処理によって算出された雑音の統計量に基づいて、入力信号の各フレームに含まれる雑音の短時間変動成分を算出する短時間変動雑音成分算出処理と、
前記雑音統計量算出処理によって算出された雑音の統計量を用いて、音響モデルを雑音に適応させる音響モデル適応処理と、
入力信号の各フレームに対して、前記短時間変動雑音成分算出処理によって算出された当該フレームに含まれる雑音の短時間変動成分を抑圧する雑音抑圧処理と、
前記雑音抑圧処理によって抑圧された入力信号を、前記音響モデル適応処理によって雑音適応された音響モデルを用いて音声認識を行う音声認識処理と
を実行させるための音声認識プログラム。 On the computer,
A noise statistic calculation process for calculating a noise statistic from noise data estimated for a plurality of frames of the input signal;
Based on the statistics of the noise calculated by the noise statistic calculation processing, a short time variation noise component calculating process of calculating a short-time variation component of the noise contained in each frame of the input signal,
An acoustic model adaptation process for adapting the acoustic model to noise using the noise statistic calculated by the noise statistic calculation process ;
For each frame of the input signal, a noise suppression process for suppressing the short-time fluctuation component of the noise included in the frame calculated by the short-time fluctuation noise component calculation process ;
A speech recognition program for executing speech recognition processing for performing speech recognition on an input signal suppressed by the noise suppression processing using an acoustic model noise-adapted by the acoustic model adaptation processing .
音響モデルを雑音適応させるタイミングを制御するトリガを発生させる処理を実行させる
請求項13に記載の音声認識プログラム。 On the computer,
The speech recognition program according to claim 13, wherein a process for generating a trigger for controlling a timing for applying noise to the acoustic model is executed.
特徴量領域で雑音の統計量を得るための特徴量変換処理と、
特徴量領域で算出された雑音の統計量から雑音の短時間変動成分を得るための特徴量逆変換処理とを実行させる
請求項13または請求項14に記載の音声認識プログラム。 On the computer,
Feature amount conversion processing for obtaining noise statistics in the feature amount region,
The speech recognition program according to claim 13 or 14, wherein a feature amount inverse transform process for obtaining a short-time fluctuation component of noise is executed from a noise statistic calculated in a feature amount region.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010059791A JP5609182B2 (en) | 2010-03-16 | 2010-03-16 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2010059791A JP5609182B2 (en) | 2010-03-16 | 2010-03-16 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011191682A JP2011191682A (en) | 2011-09-29 |
| JP5609182B2 true JP5609182B2 (en) | 2014-10-22 |
Family
ID=44796632
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2010059791A Active JP5609182B2 (en) | 2010-03-16 | 2010-03-16 | Speech recognition apparatus, speech recognition method, and speech recognition program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5609182B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9785613B2 (en) * | 2011-12-19 | 2017-10-10 | Cypress Semiconductor Corporation | Acoustic processing unit interface for determining senone scores using a greater clock frequency than that corresponding to received audio |
| JP5961530B2 (en) * | 2012-11-06 | 2016-08-02 | 日本電信電話株式会社 | Acoustic model generation apparatus, method and program thereof |
| JP5885686B2 (en) * | 2013-02-22 | 2016-03-15 | 日本電信電話株式会社 | Acoustic model adaptation apparatus, acoustic model adaptation method, and program |
| CN105609100B (en) * | 2014-10-31 | 2019-08-20 | 中国科学院声学研究所 | Acoustic model training construction method, acoustic model and speech recognition system |
| CN111145752B (en) * | 2020-01-03 | 2022-08-02 | 百度在线网络技术(北京)有限公司 | Intelligent audio device, method, electronic device and computer readable medium |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH04264596A (en) * | 1991-02-20 | 1992-09-21 | N T T Data Tsushin Kk | Voice recognizing method in noisy enviroment |
| JP3397568B2 (en) * | 1996-03-25 | 2003-04-14 | キヤノン株式会社 | Voice recognition method and apparatus |
| JP3250604B2 (en) * | 1996-09-20 | 2002-01-28 | 日本電信電話株式会社 | Voice recognition method and apparatus |
| JP2000075888A (en) * | 1998-09-01 | 2000-03-14 | Oki Electric Ind Co Ltd | Learning method of hidden markov model and voice recognition system |
| JP3310225B2 (en) * | 1998-09-29 | 2002-08-05 | 松下電器産業株式会社 | Noise level time variation calculation method and apparatus, and noise reduction method and apparatus |
| JP2003316381A (en) * | 2002-04-23 | 2003-11-07 | Toshiba Corp | Noise suppression method and noise suppression program |
| JP4123835B2 (en) * | 2002-06-13 | 2008-07-23 | 松下電器産業株式会社 | Noise suppression device and noise suppression method |
| JP2005321539A (en) * | 2004-05-07 | 2005-11-17 | Nippon Telegr & Teleph Corp <Ntt> | Voice recognition method, apparatus and program thereof, and recording medium thereof |
| JP4603429B2 (en) * | 2005-06-17 | 2010-12-22 | 日本電信電話株式会社 | Client / server speech recognition method, speech recognition method in server computer, speech feature extraction / transmission method, system, apparatus, program, and recording medium using these methods |
| JP2009003008A (en) * | 2007-06-19 | 2009-01-08 | Advanced Telecommunication Research Institute International | Noise suppression device, speech recognition device, noise suppression method, and program |
-
2010
- 2010-03-16 JP JP2010059791A patent/JP5609182B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011191682A (en) | 2011-09-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4765461B2 (en) | Noise suppression system, method and program | |
| Zhao et al. | HMM-based gain modeling for enhancement of speech in noise | |
| JP4532576B2 (en) | Processing device, speech recognition device, speech recognition system, speech recognition method, and speech recognition program | |
| JP5572445B2 (en) | Reverberation suppression apparatus and reverberation suppression method | |
| JP5645419B2 (en) | Reverberation removal device | |
| JP5949553B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| KR100919223B1 (en) | The method and apparatus for speech recognition using uncertainty information in noise environment | |
| KR101737824B1 (en) | Method and Apparatus for removing a noise signal from input signal in a noisy environment | |
| AU2009203194A1 (en) | Noise spectrum tracking in noisy acoustical signals | |
| CN108464015A (en) | Microphone array signals processing system | |
| JP5609182B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| KR101892733B1 (en) | Voice recognition apparatus based on cepstrum feature vector and method thereof | |
| JP2009139894A (en) | Noise suppression device, speech recognition device, noise suppression method, and program | |
| JP5187666B2 (en) | Noise suppression device and program | |
| WO2007141923A1 (en) | Gain control system, gain control method, and gain control program | |
| US7120580B2 (en) | Method and apparatus for recognizing speech in a noisy environment | |
| JP3907194B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| JP2009003008A (en) | Noise suppression device, speech recognition device, noise suppression method, and program | |
| JP2005257817A (en) | Device and method of eliminating noise, and program therefor | |
| JP4705414B2 (en) | Speech recognition apparatus, speech recognition method, speech recognition program, and recording medium | |
| JP2009276365A (en) | Processor, voice recognition device, voice recognition system and voice recognition method | |
| JP2006243290A (en) | Disturbance component suppression device, computer program, and speech recognition system | |
| JPH08160994A (en) | Noise suppressor | |
| JP6439174B2 (en) | Speech enhancement device and speech enhancement method | |
| JP4965891B2 (en) | Signal processing apparatus and method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130205 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130924 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131105 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131114 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140520 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140626 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140805 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140818 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5609182 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |