JP4981850B2 - Voice recognition apparatus and method, program, and recording medium - Google Patents
Voice recognition apparatus and method, program, and recording medium Download PDFInfo
- Publication number
- JP4981850B2 JP4981850B2 JP2009143173A JP2009143173A JP4981850B2 JP 4981850 B2 JP4981850 B2 JP 4981850B2 JP 2009143173 A JP2009143173 A JP 2009143173A JP 2009143173 A JP2009143173 A JP 2009143173A JP 4981850 B2 JP4981850 B2 JP 4981850B2
- Authority
- JP
- Japan
- Prior art keywords
- sound quality
- voice
- frame
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は、様々な音質の音声データを効率良く音声認識する音声認識装置とその方法と、プログラムと記録媒体に関する。 The present invention relates to a speech recognition apparatus and method, a program, and a recording medium for efficiently recognizing speech data of various sound qualities.
近年、音声データを記録するメモリ素子が安価になることに伴い大量の音声データを容易に入手することが可能になった。それらの音声データを音声認識する際に、音声データの品質によって認識精度や処理時間が大きく変動する問題が発生する。 In recent years, it has become possible to easily obtain a large amount of audio data as a memory element for recording audio data becomes cheaper. When recognizing such audio data, there arises a problem that the recognition accuracy and processing time greatly vary depending on the quality of the audio data.
図10に従来の音声認識装置900の機能構成を示す。音声認識装置900は、A/D変換部90、特徴量分析部91、音声認識処理部92、音響モデルパラメータメモリ93、言語モデルパラメータメモリ94を備える。
FIG. 10 shows a functional configuration of a conventional speech recognition apparatus 900. The speech recognition apparatus 900 includes an A /
A/D変換部90は、入力されるアナログ信号の音声を、例えばサンプリング周波数16kHzで離散的なディジタル信号に変換する。特徴量分析部91は、離散値化された音声ディジタル信号を入力として、例えば320個の音声ディジタル信号を1フレーム(20ms)としたフレーム毎に、音声特徴量Otを算出する。音声特徴量Otは、例えばメル周波数ケプストラム係数(MFCC)分析によって算出される。
The A /
音声認識処理部92は、音声特徴量Otを入力として音響モデルパラメータメモリ93に記録された音響モデルと、言語モデルパラメータメモリ94に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。ビーム探索アルゴリズムとは、フレーム毎に最も高い累積尤度(音響モデルの尤度と言語モデルの尤度の和)から最終的に最も累積尤度が高い認識結果の存在をおおよそ保証できる所定数(ビーム幅)の音声認識結果候補(仮説)を残しながら探索する手順である。
Based on the beam search algorithm, the speech
ここで従来は、音響モデルを適応的に変化させることで音声データの品質の変動に対応していた(非特許文献1)。図11にその考えを示す。現場で収録した音声データに含まれる背景雑音や音声歪みを推定し、適応の基になる標準音響モデルを変化させる変換行列を生成する。そして、標準音響モデルに変換行列を掛け合わせて音響モデルを、その現場の環境に適応させる。このように音響モデルを様々な環境に適応させることで、音声データの品質変動に対応していた。 Here, conventionally, the acoustic model is adaptively changed to cope with a change in the quality of the audio data (Non-Patent Document 1). FIG. 11 shows the idea. Estimate background noise and audio distortion included in audio data recorded in the field, and generate a transformation matrix that changes the standard acoustic model on which adaptation is based. Then, the standard acoustic model is multiplied by the transformation matrix to adapt the acoustic model to the environment in the field. By adapting the acoustic model to various environments in this way, it has been possible to cope with fluctuations in the quality of audio data.
従来、様々に変化する音声データの品質に対応する方法としては、上述した音響モデルを適応させる考え方が一般的であった。つまり、音声データの品質の変化に対しては音声認識装置側で対処しようとする考え方である。この結果、過剰に歪んでいる音声データ等に対しては、音響モデルをたとえ適応させたとしてもビーム探索途中の仮説間の尤度に十分な差が付かず、探索効率が悪くなり処理時間が増大する。その結果、時間ばかり掛かって高い精度の認識結果が得られない問題が発生する。 Conventionally, the idea of adapting the above-described acoustic model has been common as a method for dealing with the quality of variously changing audio data. In other words, this is the idea that the speech recognition device side should cope with a change in the quality of the speech data. As a result, for excessively distorted speech data and the like, even if the acoustic model is adapted, there is not a sufficient difference in the likelihood between hypotheses during the beam search, and the search efficiency becomes poor and the processing time is reduced. Increase. As a result, there is a problem that it takes a long time and a highly accurate recognition result cannot be obtained.
この発明は、このような問題点に鑑みてなされたものであり、音声認識処理の事前処理として音声データの品質を評価し、その評価結果で認識処理の動作を制御するようにした音声認識装置と、その考えに基づいて複数の音声ファイルを効率良く音声認識する音声認識装置と、それらの方法とプログラムと記録媒体を提供することを目的とする。 The present invention has been made in view of such problems, and a speech recognition apparatus that evaluates the quality of speech data as a preliminary process of speech recognition processing and controls the operation of the recognition processing based on the evaluation result. Another object of the present invention is to provide a speech recognition apparatus that efficiently recognizes a plurality of sound files based on the idea, a method, a program thereof, and a recording medium.
この発明の音声認識装置は、特徴量分析部と、フレーム音質推定部と、平均音質推定部と、音声認識処理制御部と、音声認識処理部とを具備する。特徴量分析部は、入力された音声ファイルに含まれる音声ディジタル信号の音声特徴量をフレーム単位で分析する。フレーム音質推定部は、フレーム毎にGMMを参照して上記フレームの音声特徴量に対応するGMM尤度を算出し、上記フレーム音質として出力する。平均音質推定部は、音声ファイルの全フレームのフレーム音質から、当該音声ファイルの音質である音質レベルを算出する。音声認識処理制御部は、音質レベルが所定の閾値よりも悪い時には、音声認識処理を行わせないことを示す認識対象外指示信号を含む制御信号を出力する。音声認識処理部は、上記制御信号に認識対象外指示信号が含まれている場合には上記音声ファイルの音声認識処理を行わない。 The speech recognition apparatus according to the present invention includes a feature amount analysis unit, a frame sound quality estimation unit, an average sound quality estimation unit, a speech recognition processing control unit, and a speech recognition processing unit. The feature amount analysis unit analyzes the speech feature amount of the speech digital signal included in the input speech file in units of frames. The frame sound quality estimation unit refers to the GMM for each frame, calculates a GMM likelihood corresponding to the sound feature amount of the frame, and outputs the GMM likelihood as the frame sound quality . The average sound quality estimation unit calculates a sound quality level that is the sound quality of the sound file from the frame sound quality of all frames of the sound file. The voice recognition processing control unit outputs a control signal including a non-recognition instruction signal indicating that voice recognition processing is not performed when the sound quality level is lower than a predetermined threshold. The voice recognition processing unit does not perform voice recognition processing on the voice file when the control signal includes a non-recognition instruction signal.
また、複数の音声ファイルを効率良く音声認識する音声認識装置は、上記した機能構成の他に、更に、音声ファイル制御部と、音声ファイル処理部と、音声ファイルメモリとを具備する。音声ファイル制御部は、音声ディジタル信号の音声ファイル情報と制御信号とを入力として音声ファイル情報の処理順を決定する。音声ファイル処理部は、音声ファイルメモリに音声ディジタル信号をその音声ファイル単位で記録すると共に、上記処理順に記録した音声ディジタル信号を音声認識処理部に出力する。 In addition to the functional configuration described above, the voice recognition device that efficiently recognizes a plurality of voice files further includes a voice file control unit, a voice file processing unit, and a voice file memory. The audio file control unit inputs the audio file information of the audio digital signal and the control signal and determines the processing order of the audio file information. The voice file processing unit records the voice digital signal in the voice file memory in units of the voice file, and outputs the voice digital signal recorded in the order of processing to the voice recognition processing unit.
この発明の音声認識装置によれば、音声データの品質に対応する制御信号によって音声認識処理部の動作を適応的に変化させるので、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。また、複数の音声ファイルの音声認識を行うこの発明の音声認識装置においては、制御信号に基づいて音声品質の高い順番で音声ファイルの処理を行うことが可能である。また、音声品質が所定の水準に達しないものを認識対象外にすることも可能なので、音声認識処理全体の処理効率を改善する効果を奏する。つまり、品質の悪い音声データがボトルネックになることが無いので音声認識処理の効率が向上する。 According to the speech recognition apparatus of the present invention, since the operation of the speech recognition processing unit is adaptively changed by the control signal corresponding to the quality of the speech data, it is possible to improve the processing time efficiency while maintaining the speech recognition accuracy. I can do it. Moreover, in the voice recognition apparatus of the present invention that performs voice recognition of a plurality of voice files, it is possible to process the voice files in order of high voice quality based on the control signal. In addition, since it is possible to exclude those whose voice quality does not reach a predetermined level from the recognition target, there is an effect of improving the processing efficiency of the whole voice recognition process. That is, since the voice data with poor quality does not become a bottleneck, the efficiency of the voice recognition process is improved.
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。 Embodiments of the present invention will be described below with reference to the drawings. The same reference numerals are given to the same components in a plurality of drawings, and the description will not be repeated.
図1にこの発明の音声認識装置100の機能構成例を示す。その動作フローを図2に示す。音声認識装置100は、特徴量分析部91と、フレーム音質推定部10と、平均音質推定部20と、音声認識処理制御部30と、音声認識処理部92′と、音響モデルパラメータメモリ93と、言語モデルパラメータメモリ94と、制御部35とを具備する。特徴量分析部91と音響モデルパラメータメモリ93と言語モデルパラメータメモリ94は、従来の音声認識装置900と同じものである。音声認識処理部92′は、音声認識処理制御部30が出力する制御信号に基づいて音声認識処理を行う点のみが、音声認識装置92と異なりその他の動作は同じである。アナログ信号の音声データが入力される場合にA/D変換部90が設けられる点も、音声認識装置900と同じである。
FIG. 1 shows a functional configuration example of the speech recognition apparatus 100 of the present invention. The operation flow is shown in FIG. The speech recognition apparatus 100 includes a feature
音声認識装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。 The speech recognition apparatus 100 is realized by reading a predetermined program into a computer configured with, for example, a ROM, a RAM, a CPU, and the like, and executing the program by the CPU.
音声認識装置100は、従来の音声認識装置900と比較してフレーム音質推定部10と、平均音質推定部20と、音声認識処理制御部30とを具備する点で新しい。以降の説明では、その異なる部分を中心に説明を行う。
Compared with the conventional speech recognition apparatus 900, the speech recognition apparatus 100 is new in that it includes a frame sound
特徴量分析部91は、離散値化された音声ディジタル信号を入力として、所定の数の音声ディジタル信号を1フレーム(例えば20ms)としたフレーム毎に、音声特徴量Otを算出する(ステップS91)。フレーム音質推定部10は、フレーム毎(t)に音声ディジタル信号の音質を評価してフレーム音質q(t)を出力する(ステップS10)。
The feature
平均音質推定部20は、複数フレームのフレーム音質q(t)から音質レベルQTを推定する(ステップS20)。添え字のTは複数フレームの通し番号である。
The average sound
音声認識処理制御部30は、音質レベルQTに基づいて音声認識時の制御信号を設定する(ステップS30)。制御信号の具体例については後述する。音声認識処理部92′は、音声認識処理制御部30が設定した制御信号に基づいて音声認識処理を行う(ステップS92′)。
Speech recognition
以上の動作は、全てのフレームについて終了するまで繰り返される(ステップS35のN)。この音声認識装置100の各部の動作及び繰り返し動作の制御は、制御部35が行う。なお、制御部35は、フレーム毎に処理するばかりでなく、音声ファイル単位や、発話単位毎に、上記した動作が実行されるように各部を制御しても良い。
The above operation is repeated until completion for all frames (N in step S35). The
音声認識装置100によれば、音声認識処理部92が、音声認識処理制御部30によって設定された制御信号に応じて適応的に認識処理を行う。つまり、複数フレームの音質レベルQTに応じた制御信号を設定することで、音声認識精度を維持したまま処理時間の効率を向上させることが出来る。次に、各部の具体的な構成例を示して更に詳しく音声認識装置100の動作を説明する。
According to the speech recognition apparatus 100, the speech
〔フレーム音質推定部〕
図3にフレーム音質推定部10の機能構成例を示す。フレーム音質推定部10は、例えばGMM尤度算出手段101と、GMM(Gaussian Mixture Model:混合正規分布モデル)102を備える。GMM102は、音響モデルパラメータメモリ93内に格納しても良い。GMM尤度算出手段101は、音声特徴量Otを入力として、GMM102を参照し、フレーム音質q(t)を現す音声特徴量Otに対応するGMM尤度を算出する。GMM102は、例えば音響モデルの学習データの全ての音素から学習されているので、その尤度は音響モデルと音声特徴量Otの合致度を示し、GMM尤度の値q(t)によって各フレームの音質(音響モデルに合致しているか否か)を評価することが可能である。つまり、GMM尤度が大きければ音質が良好(音声認識精度が高くなる)、また、その値が小さければ音質が悪い(音声認識精度が低くなる)と評価することが出来る。
[Frame sound quality estimation unit]
FIG. 3 shows a functional configuration example of the frame sound
なお、GMM尤度に代えて、対数値に変換する前の出力確率値を用いても良い。更に、GMM102の学習データから無音を取り除き、そのGMM102を音声GMMとしても良い。また、音声GMMとpause(無音)モデルの両方を照合し、尤度の高い方の尤度値を用いても良い。
Instead of the GMM likelihood, an output probability value before conversion to a logarithmic value may be used. Furthermore, silence may be removed from the learning data of the
図4に他の機能構成例のフレーム音質推定部11を示す。フレーム音質推定部11は、パワー算出手段111と、音声・非音声区間検出手段112と、S/N計算手段113とを備える。パワー算出手段111は、音声特徴量Otから各フレームのパワーを算出する。音声・非音声区間検出手段112は、例えば一定値以上のパワーのフレームを音声区間として検出する。また、前述の音声GMMとpauseモデルの尤度を比較して、音声GMMの尤度が高い区間を音声区間としても良い。S/N計算手段113は、非音声区間に対する音声区間のパワーの比率であるS/N比を計算する。このS/N比がフレーム音質q(t)となる。
FIG. 4 shows a frame sound quality estimation unit 11 of another functional configuration example. The frame sound quality estimation unit 11 includes a
〔平均音質推定部〕
平均音質推定部20は、フレーム音質推定部10が出力するフレーム音質q(t)である例えばGMM尤度やS/N比を、複数フレームに渡って平均して音質レベルQTを推定する(式(1))。
[Average sound quality estimation section]
The average sound
ここでtはフレーム番号、Tは複数フレームの数である。添え字のTは、その複数フレームの通し番号である。 Here, t is a frame number and T is the number of a plurality of frames. The subscript T is a serial number of the plurality of frames.
〔音声認識処理制御部〕
音声認識処理制御部30は、音質レベルQTを入力として制御信号を出力する。制御信号の具体例としては、例えばビーム探索幅N(QT)が考えられる。その一例を式(2)に示す。
[Voice recognition processing control unit]
Speech recognition
図5に音質レベルQTとビーム探索幅N(QT)との関係を例示する。横軸は音質レベルQTであり、縦軸はビーム探索幅N(QT)である。 FIG. 5 illustrates the relationship between the sound quality level Q T and the beam search width N (Q T ). The horizontal axis is the sound quality level Q T , and the vertical axis is the beam search width N (Q T ).
図5に示すように式(2)は、所定の範囲の音質レベルQT(Qmin〜Qmax)に対応するビーム探索幅N(QT)(Nmin〜Nmax)を、音質レベルQTの値で比例配分する考えである。ここでは、比例係数が負の値なので、音質レベルQTが小でビーム探索幅N(QT)が大であり、QTが大でN(QT)が小となる関係である。もちろん、音質レベルQTとビーム探索幅N(QT)との関係は、非線形な関数で表せる関係であっても良い。また、制御信号としてビーム探索幅N(QT)を用いる場合、ビーム探索幅は、個数ビーム幅に限定したものではなく、例えばスコアビーム幅、単語終端スコアビーム幅や、単語終端個数ビーム幅等であっても良い。 As shown in FIG. 5, the expression (2) represents the beam search width N (Q T ) (N min to N max ) corresponding to the sound quality level Q T (Q min to Q max ) in a predetermined range as the sound quality level Q. The idea is to proportionally distribute by the value of T. Here, since the proportionality coefficient is a negative value, the sound quality level Q T is small, the beam search width N (Q T ) is large, Q T is large, and N (Q T ) is small. Of course, the relationship between the sound quality level Q T and the beam search width N (Q T ) may be a relationship that can be expressed by a non-linear function. When the beam search width N (Q T ) is used as the control signal, the beam search width is not limited to the number beam width, and for example, the score beam width, the word end score beam width, the word end number beam width, etc. It may be.
ここで、S/N比やGMM尤度等の音質の範囲に関しては、例えばQmaxやQminをそれぞれ音響モデル学習データに対する音質の分布から最大/最小値として良い。また、音質をS/N比とした場合には、例えばQmax=30[dB]、Qmin=10[dB]のように予め定めた範囲を用いても良い。またビーム探索幅に関しては、例えばNmaxを通常用いるビーム幅の1.5倍、Nminを通常用いるビーム幅の半分等とすれば良い。 Here, regarding the sound quality ranges such as the S / N ratio and the GMM likelihood, for example, Q max and Q min may be set to the maximum / minimum values from the sound quality distribution for the acoustic model learning data. Further, when the sound quality is set to the S / N ratio, a predetermined range such as Q max = 30 [dB] and Q min = 10 [dB] may be used. Regarding the beam search width, for example, N max may be 1.5 times the beam width that is normally used, N min may be half the beam width that is normally used, and the like.
また、音質レベルが極端に悪い場合(例えば、QT<Qmin)には、ビーム探索幅を拡大しても精度向上が望めず処理時間ばかり掛かるので、ビーム探索幅を小さく、例えばNminにしても良い。また、制御信号に認識対象外指示信号を含ませて音声認識処理を行わせないようにしても良い。 In addition, when the sound quality level is extremely bad (for example, Q T <Q min ), even if the beam search width is increased, it is not possible to improve the accuracy and it takes much processing time. Therefore, the beam search width is reduced to, for example, N min . May be. Further, the speech recognition process may not be performed by including the non-recognition instruction signal in the control signal.
〔音声認識処理部〕
音声認識処理部92′は、音声特徴量Otと制御信号のビーム探索幅N(QT)を入力として音響モデルパラメータメモリ93に記録された音響モデルと、言語モデルパラメータメモリ94に記録された言語モデルとを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する。音声認識処理部92′は、ビーム探索幅N(QT)個の音声認識結果候補から正解を探索する点のみが従来の音声認識装置と異なる。つまり、適応的に音声認識処理部の動作が変化する。ビーム探索方法そのものは、従来からの音声認識装置と同じであるので詳細な説明は省略する。
[Voice recognition processing unit]
The speech
以上述べたように、音声認識装置100は、音質レベルQTによって適応的に音声認識処理を変化させる。図5に示した例では、音質レベルQTが悪い時にはビーム探索幅N(QT)を大、音質レベルが良い時にはビーム探索幅N(QT)を小にする。すなわち、音質が良い場合には音声認識結果候補(仮説)間に尤度差が付くので、ビーム探索幅を狭めても音声認識精度が劣化することが無く、処理速度を向上させることが出来る。一方、音質が悪い場合には音声認識結果候補(仮説)間に尤度差が付き難いので、ビーム幅を広げることで音声認識精度を向上させることが可能である。但し、極端に音質が悪い場合には、ビーム探索幅を広げたとしても音声認識結果候補(仮説)間に尤度差が付かないので、逆にビーム探索幅を狭めるか音声認識対象外にすることで処理速度を向上させることが出来る。したがって、音声認識精度を維持したまま処理時間の効率を向上させることが可能である。 As described above, the speech recognition apparatus 100 adaptively changes the speech recognition processing by the quality level Q T. In the example shown in FIG. 5, when the quality level Q T is poor beam search width N (Q T) large and the small beam search width N (Q T) when quality level is good. That is, when the sound quality is good, a likelihood difference is added between the speech recognition result candidates (hypotheses), so that the speech recognition accuracy does not deteriorate even if the beam search width is narrowed, and the processing speed can be improved. On the other hand, if the sound quality is poor, it is difficult to add a likelihood difference between the speech recognition result candidates (hypotheses), so it is possible to improve the speech recognition accuracy by widening the beam width. However, if the sound quality is extremely poor, there is no likelihood difference between the speech recognition result candidates (hypotheses) even if the beam search width is widened. Conversely, the beam search width is narrowed or excluded from the speech recognition target. Thus, the processing speed can be improved. Accordingly, it is possible to improve the processing time efficiency while maintaining the voice recognition accuracy.
実施例1で説明した制御信号を音質レベルQTに応じて適応的に変化させる考えを、複数の音声ファイルを音声認識する音声認識装置に適用すると、複数の音声ファイルを効率良く音声認識することが可能である。 When the idea of adaptively changing the control signal described in the first embodiment according to the sound quality level Q T is applied to a voice recognition device that recognizes a plurality of voice files, the voice recognition of the plurality of voice files can be performed efficiently. Is possible.
図6にその音声認識装置200の機能構成例を示す。その動作フローを図7に示す。音声認識装置200は、音声ファイル制御部40と、音声ファイル処理部50と、音声ファイルメモリ60とを更に備える点で音声認識装置100と異なる。他の機能構成は、音声認識装置100と同じである。
FIG. 6 shows a functional configuration example of the speech recognition apparatus 200. The operation flow is shown in FIG. The voice recognition device 200 is different from the voice recognition device 100 in that it further includes a voice
音声ファイル制御部40は、外部から入力される音声ディジタル信号の音声ファイル情報(たとえば音声ファイル名)と、その音声ディジタル信号の音質レベルQTと、制御信号N(QT)を入力として音声ファイルの処理順を決定する(ステップS40、図7)。音声ファイル処理部50は、音声ファイルメモリ60に音声ディジタル信号の特徴量をフレーム単位でその音声ファイル毎に記録する(ステップS501)。また同時に制御信号も記録する。そして、音声ファイル制御部40が決定した処理順に記録した音声ディジタル信号の特徴量と制御信号とを出力する(ステップS50)。
The sound
特徴量を分析するステップS91〜その特徴量と制御信号を音声ファイル単位で音声ファイルメモリ60に記録するステップS501の処理は、入力された全ての音声ファイルが終了するまで行われる(ステップS502のN)。そして、特徴量と制御信号は、各ファイルの処理順に従ってフレーム単位で音声認識処理部92′に出力される(ステップS503)。
The process of step S91 for analyzing the feature value and the process of step S501 for recording the feature value and the control signal in the
音声認識処理部92′は、制御信号が音声ファイル処理部50から与えられる点のみが異なるだけで、その動作は音声認識装置100のものと同じである。音声認識処理部92′は、制御信号に基づいて音声認識処理を行う(ステップS92′)。音声認識処理は入力された全てのファイルが終了するまで繰り返される(ステップS36のN)動作は、制御部36が制御する。
The operation of the speech
音声ファイル制御部40は、音質レベルQTに基づいて上記処理順を決定する。その処理順を、音質レベルQTの大きい順とすると、音質の良好なファイルから順に音声認識処理部92′で音声認識処理されることになる。その結果、音質の良い順番で音声ファイルが音声認識処理されるので、複数の音声ファイルを効率良く音声認識することが出来る。
Audio
また、音声認識処理を行う計算機の台数や仕様において、全ファイルに対して音声認識処理が行えない場合には、音質レベルQTを参照することで、音質の良好な音声ファイルのみを音声認識対象とすることが出来る。 Further, the number and specifications of the computer to perform a speech recognition process, the total in the case where the speech recognition processing can not be performed on the file, by referring to the quality level Q T, the speech recognition target only good voice file quality It can be.
また、音声ファイル処理部50が音質範囲判定手段501を備え、その音質範囲判定手段501で音質レベルQTが所定値Qthより大きいか否かを判定し、所定値より小さな場合にその音声ファイルを廃棄するようにしても良い。
The voice
なお、音声ファイル処理部50は、音声ファイルメモリ60に特徴量を記録する例を説明したが、特徴量を分析する前の音声ディジタル信号を音声ファイルメモリ60に記録するようにしても良い。また、音質範囲判定手段501は、例えば、音響モデル学習データに対する音質レベルの最低値を所定値Qthとし、所定値を基準に廃棄ファイルの選別を行うようにしても良い。
Although the audio
また、学習データの音質レベルの最低値に限定せずに、学習データの音質レベルの分布が正規分布に従うとした場合の音質レベルQTの分布の平均μや標準偏差σから所定値をμ−2σと定めても良い。また、音声認識処理部92′は、一般的な音声認識装置であっても良い。その場合は、制御信号は不要となり、音声認識装置は音質の良い順番で音声認識処理を行う。
Further, without limiting to the minimum value of the sound quality level of the learning data, a predetermined value is obtained from the average μ and standard deviation σ of the sound quality level Q T distribution when the sound quality level distribution of the learning data follows a normal distribution. It may be set to 2σ. Further, the voice
図8にこの発明の音声認識装置300の機能構成例を示す。その動作フローを図9に示す。音声認識装置300は、実施例1の音声認識装置100の機能構成に更に、教師なし適応部80と、適応後音響モデルパラメータメモリ95と、第2音声認識処理部96とを備え、音声認識装置100で音声認識処理した音声認識結果を適応用ラベルとして学習した音響モデルを用いて音声認識処理を行うものである。
FIG. 8 shows a functional configuration example of the speech recognition apparatus 300 of the present invention. The operation flow is shown in FIG. The speech recognition apparatus 300 further includes an
教師なし適応部80は、音声認識処理部92′の出力する音声認識結果を適応用ラベルとして音響モデルパラメータメモリ93に記録された音響モデルを学習し、適応音響モデルを生成する(ステップS80、図9)。適応音響モデルは適応後音響モデルパラメータメモリ95に記録される。
The
第2音声認識処理部96は、適応後音響モデルパラメータメモリ95と言語モデルパラメータメモリ94とを参照して、ビーム探索アルゴリズムに基づいて音声認識結果を出力する(ステップS96)。このステップS96の第2音声認識処理過程は、実施例1の音声認識装置100の処理でも良いし、一般的な音声認識装置による処理でもかまわない。なお、教師なし適応部80に制御信号を破線で入力しているように、教師なし適応部80が制御信号の値に応じて、音声認識処理部92′の出力する音声認識結果を適応ラベルとするか否かを判断するようにしても良い。
The second speech
以上述べたように、音声認識装置300によれば、音声データの音質レベルに応じて音声認識した結果を適応用ラベルとして音響モデルを学習するので、音響モデルの精度を高めることが出来る。そして、その精度の高い音響モデルを用いた音声認識処理を行うことが可能である。また、この発明の音声認識装置100,200によれば、音声データの品質に応じて音声認識処理部の動作を制御信号によって変化させるので、音声認識処理の効率を向上させることが出来る。 As described above, according to the speech recognition apparatus 300, the acoustic model is learned using the result of speech recognition according to the sound quality level of the speech data as an adaptive label, so that the accuracy of the acoustic model can be improved. Then, it is possible to perform speech recognition processing using the highly accurate acoustic model. Further, according to the speech recognition apparatuses 100 and 200 of the present invention, the operation of the speech recognition processing unit is changed by the control signal according to the quality of the speech data, so that the efficiency of the speech recognition processing can be improved.
なお、実施例1のフレーム音質推定部10をGMMで構成する例で説明を行ったが、フレーム毎にモノフォン尤度を計算し、そのモノフォン尤度でフレーム音質を推定するようにしても良い。つまり、入力される特徴量に対して、音響モデルに属するモノフォン全てを照合し、もっとも尤度の高い最尤モノフォンで音質を評価するようにしても良い。
In addition, although the frame sound
また、上記方法及び装置において説明した処理は、記載の順に従って時系列に実行され
るのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
Further, the processes described in the above method and apparatus are not only executed in time series according to the order of description, but also may be executed in parallel or individually as required by the processing capability of the apparatus that executes the processes. Good.
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。 Further, when the processing means in the above apparatus is realized by a computer, the processing contents of functions that each apparatus should have are described by a program. Then, by executing this program on the computer, the processing means in each apparatus is realized on the computer.
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。 The program describing the processing contents can be recorded on a computer-readable recording medium. As the computer-readable recording medium, for example, any recording medium such as a magnetic recording device, an optical disk, a magneto-optical recording medium, and a semiconductor memory may be used. Specifically, for example, as a magnetic recording device, a hard disk device, a flexible disk, a magnetic tape or the like, and as an optical disk, a DVD (Digital Versatile Disc), a DVD-RAM (Random Access Memory), a CD-ROM (Compact Disc Read Only). Memory), CD-R (Recordable) / RW (ReWritable), etc., magneto-optical recording medium, MO (Magneto Optical disc), etc., semiconductor memory, EEP-ROM (Electronically Erasable and Programmable-Read Only Memory), etc. Can be used.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 The program is distributed by selling, transferring, or lending a portable recording medium such as a DVD or CD-ROM in which the program is recorded. Further, the program may be distributed by storing the program in a recording device of a server computer and transferring the program from the server computer to another computer via a network.
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Each means may be configured by executing a predetermined program on a computer, or at least a part of these processing contents may be realized by hardware.
Claims (11)
上記フレーム毎に上記音声ディジタル信号の音質を評価して、当該フレームの音質であるフレーム音質を出力するフレーム音質推定部と、
上記音声ファイルの全フレームの上記フレーム音質から、当該音声ファイルの音質である音質レベルを算出する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記制御信号に基づいて音声認識処理を行う音声認識処理部と、
を具備し、
上記フレーム音質推定部は、GMMを参照して上記フレームの音声特徴量に対応するGMM尤度を算出し、上記フレーム音質として出力し、
上記音声認識処理制御部は、上記音質レベルが所定の閾値よりも悪い時には、音声認識処理を行わせないことを示す認識対象外指示信号を含む制御信号を出力し、
上記音声認識処理部は、上記制御信号に認識対象外指示信号が含まれている場合には上記音声ファイルの音声認識処理を行わない、
ことを特徴とする音声認識装置。 A feature quantity analysis unit that analyzes voice feature quantities of a voice digital signal included in an input voice file in units of frames;
A frame sound quality estimation unit that evaluates the sound quality of the audio digital signal for each frame and outputs a frame sound quality that is the sound quality of the frame;
An average sound quality estimation unit that calculates a sound quality level that is the sound quality of the sound file from the frame sound quality of all frames of the sound file;
A speech recognition processing control unit that outputs a control signal for controlling an operation during speech recognition processing based on the sound quality level;
A speech recognition processing unit that performs speech recognition processing based on the control signal;
Comprising
The frame sound quality estimation unit calculates a GMM likelihood corresponding to the voice feature amount of the frame with reference to the GMM, and outputs the GMM likelihood as the frame sound quality.
The voice recognition processing control unit outputs a control signal including a non-recognition instruction signal indicating that voice recognition processing is not performed when the sound quality level is lower than a predetermined threshold,
The voice recognition processing unit does not perform voice recognition processing of the voice file when the control signal includes a non-recognition instruction signal.
A speech recognition apparatus characterized by that.
上記フレーム音質推定部は、上記GMMの学習データから無音を取り除いた音声GMMを利用し、音声GMMにおける上記フレームの音声特徴量に対応する尤度である音声GMM尤度を算出し、当該音声GMM尤度を上記フレーム音質として出力する、 The frame sound quality estimation unit uses a speech GMM obtained by removing silence from the GMM learning data, calculates a speech GMM likelihood that is a likelihood corresponding to a speech feature amount of the frame in the speech GMM, and the speech GMM Output the likelihood as the frame sound quality,
あるいは、 Or
上記フレームの音声特徴量を無音モデルと照合し、無音モデルにおける上記フレームの音声特徴量に対応する尤度である無音尤度を算出し、上記音声GMM尤度と上記無音尤度の中で高い方の尤度値を上記フレーム音質として出力する、 The speech feature amount of the frame is compared with the silence model, and a silence likelihood that is a likelihood corresponding to the speech feature amount of the frame in the silence model is calculated, and is higher in the speech GMM likelihood and the silence likelihood. The likelihood value of the other is output as the frame sound quality,
ことを特徴とする音声認識装置。 A speech recognition apparatus characterized by that.
更に
複数の音声ファイルを記録する音声ファイルメモリと、
上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として、上記音質レベルの高い順に音声ファイルの処理順を決定する音声ファイル制御部と、
上記音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理部と、
を具備することを特徴とする音声認識装置。 The speech recognition apparatus according to claim 1 or 2 ,
Furthermore, an audio file memory for recording a plurality of audio files,
An audio file control unit for determining the processing order of the audio file in descending order of the sound quality level, by inputting the audio file information of the audio digital signal, the sound quality level, and the control signal;
A voice file processing unit for recording the voice digital signal in the voice file memory in units of the voice file and outputting the recorded voice digital signal to the voice recognition processing unit in the processing order;
A speech recognition apparatus comprising:
上記フレーム毎に上記音声ディジタル信号の音質を評価して、当該フレームの音質であるフレーム音質を出力するフレーム音質推定部と、
上記音声ファイルの全フレームの上記フレーム音質から、当該音声ファイルの音質である音質レベルを算出する平均音質推定部と、
上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御部と、
上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理部と、
上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応部と、
上記適応音響モデルを記録する適応後音響モデルパラメータメモリと、
上記音声ディジタル信号を入力とし、上記適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理部と、
を具備し、
上記フレーム音質推定部は、GMMを参照して上記フレームの音声特徴量に対応するGMM尤度を算出し、上記フレーム音質として出力し、
上記音声認識処理制御部は、上記音質レベルが所定の閾値よりも悪い時には、音声認識処理を行わせないことを示す認識対象外指示信号を含む制御信号を出力し、
上記音声認識処理部は、上記制御信号に認識対象外指示信号が含まれている場合には上記音声ファイルの音声認識処理を行わない、
ことを特徴とする音声認識装置。 A feature quantity analysis unit that analyzes voice feature quantities of a voice digital signal included in an input voice file in units of frames;
A frame sound quality estimation unit that evaluates the sound quality of the audio digital signal for each frame and outputs a frame sound quality that is the sound quality of the frame;
An average sound quality estimation unit that calculates a sound quality level that is the sound quality of the sound file from the frame sound quality of all frames of the sound file;
A speech recognition processing control unit that outputs a control signal for controlling an operation during speech recognition processing based on the sound quality level;
A speech recognition processing unit that receives the speech feature value and the control signal as input and outputs a result of speech recognition processing based on the speech feature value as an adaptive label;
An unsupervised adaptation unit that learns an acoustic model using the adaptation label as an input and generates an adaptive acoustic model;
A post-adaptive acoustic model parameter memory for recording the adaptive acoustic model;
A second speech recognition processing unit that receives the speech digital signal and performs speech recognition processing with reference to the adaptive acoustic model recorded in the post-adaptation acoustic model parameter memory;
Comprising
The frame sound quality estimation unit calculates a GMM likelihood corresponding to the voice feature amount of the frame with reference to the GMM, and outputs the GMM likelihood as the frame sound quality.
The voice recognition processing control unit outputs a control signal including a non-recognition instruction signal indicating that voice recognition processing is not performed when the sound quality level is lower than a predetermined threshold,
The voice recognition processing unit does not perform voice recognition processing of the voice file when the control signal includes a non-recognition instruction signal.
A speech recognition apparatus characterized by that.
上記音声認識処理制御部は、上記音質レベルが上記所定の閾値よりも良い時には、音質レベルが悪いほどにビーム探索幅を大に、上記音質レベルが良いほどにビーム探索幅を小とした音声認識処理のビーム探索幅を設定する制御信号を出力することを特徴とする音声認識装置。 The speech recognition apparatus according to any one of claims 1 to 4 ,
When the sound quality level is better than the predetermined threshold, the voice recognition processing control unit recognizes the voice with the beam search width being larger as the sound quality level is worse and the beam search width being smaller as the sound quality level is better. A speech recognition apparatus that outputs a control signal for setting a beam search width of processing.
上記音声ファイル処理部は、
上記音質レベルの値が、音響モデル学習データに対する音質レベルの最低値よりも小さい場合には音声ファイルを廃棄する、あるいは、
上記音質レベルの値が、音響モデル学習データの音質レベルの分布の平均μ,標準偏差σから算出した閾値μ−2σよりも小さい場合には音声ファイルを廃棄することを特徴とする音声認識装置。 The speech recognition apparatus according to claim 3 ,
The audio file processing unit
If the sound quality level is lower than the minimum sound quality level for the acoustic model learning data , discard the audio file , or
A speech recognition apparatus, wherein a speech file is discarded when the value of the sound quality level is smaller than a threshold μ-2σ calculated from an average μ and a standard deviation σ of a sound quality level distribution of acoustic model learning data .
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価して、当該フレームの音質であるフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、上記音声ファイルの全フレームの上記フレーム音質から、当該音声ファイルの音質である音質レベルを算出する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記制御信号に基づいて音声認識処理を行う音声認識処理過程と、
を備え、
上記フレーム音質推定過程は、GMMを参照して上記フレームの音声特徴量に対応するGMM尤度を算出し、上記フレーム音質として出力し、
上記音声認識処理制御過程は、上記音質レベルが所定の閾値よりも悪い時には、音声認識処理を行わせないことを示す認識対象外指示信号を含む制御信号を出力し、
上記音声認識処理過程は、上記制御信号に認識対象外指示信号が含まれている場合には上記音声ファイルの音声認識処理を行わない、
ことを特徴とする音声認識方法。 A feature quantity analysis process in which a feature quantity analysis unit analyzes a voice feature quantity of a voice digital signal included in an input voice file in units of frames;
A frame sound quality estimation unit that evaluates the sound quality of the audio digital signal for each frame and outputs a frame sound quality that is the sound quality of the frame; and
An average sound quality estimation unit that calculates a sound quality level that is the sound quality of the sound file from the frame sound quality of all frames of the sound file;
A voice recognition process control unit for outputting a control signal for controlling an operation during the voice recognition process based on the sound quality level;
A speech recognition processing section in which the speech recognition processing unit performs speech recognition processing based on the control signal;
With
The frame sound quality estimation process calculates a GMM likelihood corresponding to the voice feature of the frame with reference to the GMM, and outputs the GMM likelihood as the frame sound quality.
The voice recognition processing control process outputs a control signal including a non-recognition instruction signal indicating that voice recognition processing is not performed when the sound quality level is lower than a predetermined threshold,
The voice recognition process does not perform voice recognition processing of the voice file when the control signal includes a non-recognition instruction signal.
A speech recognition method characterized by the above.
更に
音声ファイル制御部が、上記音声ディジタル信号の音声ファイル情報と上記音質レベルと上記制御信号とを入力として、上記音質レベルの高い順に音声ファイルの処理順を決定する音声ファイル制御過程と、
音声ファイル処理部が、音声ファイルメモリに上記音声ディジタル信号をその音声ファイル単位で記録すると共に上記処理順に上記記録した音声ディジタル信号を上記音声認識処理部に出力する音声ファイル処理過程と、
を備えることを特徴とする音声認識方法。 The speech recognition method according to claim 7 ,
And an audio file control process in which an audio file control unit determines the audio file processing order in descending order of the audio quality level by inputting the audio file information of the audio digital signal, the audio quality level, and the control signal;
A voice file processing step in which the voice file processing unit records the voice digital signal in the voice file memory in units of the voice file and outputs the recorded voice digital signal to the voice recognition processing unit in the processing order;
A speech recognition method comprising:
フレーム音質推定部が、上記フレーム毎に上記音声ディジタル信号の音質を評価して、当該フレームの音質であるフレーム音質を出力するフレーム音質推定過程と、
平均音質推定部が、上記音声ファイルの全フレームの上記フレーム音質から、当該音声ファイルの音質である音質レベルを算出する平均音質推定過程と、
音声認識処理制御部が、上記音質レベルに基づいて音声認識処理時の動作を制御する制御信号を出力する音声認識処理制御過程と、
音声認識処理部が、上記音声特徴量と上記制御信号を入力として上記音声特徴量に基づく音声認識処理の結果を適応用ラベルとして出力する音声認識処理過程と、
教師なし適応部が、上記適応用ラベルを入力として音響モデルを学習し、適応音響モデルを生成する教師なし適応過程と、
第2音声認識処理部が、上記音声ディジタル信号を入力とし、適応後音響モデルパラメータメモリに記録された適応音響モデルを参照して音声認識処理を行う第2音声認識処理過程と、
を備え、
上記フレーム音質推定過程は、GMMを参照して上記フレームの音声特徴量に対応するGMM尤度を算出し、上記フレーム音質として出力し、
上記音声認識処理制御過程は、上記音質レベルが所定の閾値よりも悪い時には、音声認識処理を行わせないことを示す認識対象外指示信号を含む制御信号を出力し、
上記音声認識処理過程は、上記制御信号に認識対象外指示信号が含まれている場合には上記音声ファイルの音声認識処理を行わない、
ことを特徴とする音声認識方法。 A feature quantity analysis process in which a feature quantity analysis unit analyzes a voice feature quantity of a voice digital signal included in an input voice file in units of frames;
A frame sound quality estimation unit that evaluates the sound quality of the audio digital signal for each frame and outputs a frame sound quality that is the sound quality of the frame; and
An average sound quality estimation unit that calculates a sound quality level that is the sound quality of the sound file from the frame sound quality of all frames of the sound file;
A voice recognition process control unit for outputting a control signal for controlling an operation during the voice recognition process based on the sound quality level;
A speech recognition processing step in which a speech recognition processing unit outputs the result of speech recognition processing based on the speech feature amount as an adaptation label by receiving the speech feature amount and the control signal;
An unsupervised adaptation unit learns an acoustic model using the adaptation label as an input and generates an adaptive acoustic model;
A second speech recognition processing section in which a second speech recognition processing unit receives the speech digital signal and performs speech recognition processing with reference to the adaptive acoustic model recorded in the post-adaptation acoustic model parameter memory;
With
The frame sound quality estimation process calculates a GMM likelihood corresponding to the voice feature of the frame with reference to the GMM, and outputs the GMM likelihood as the frame sound quality.
The voice recognition processing control process outputs a control signal including a non-recognition instruction signal indicating that voice recognition processing is not performed when the sound quality level is lower than a predetermined threshold,
The voice recognition process does not perform voice recognition processing of the voice file when the control signal includes a non-recognition instruction signal.
A speech recognition method characterized by the above.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009143173A JP4981850B2 (en) | 2009-06-16 | 2009-06-16 | Voice recognition apparatus and method, program, and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009143173A JP4981850B2 (en) | 2009-06-16 | 2009-06-16 | Voice recognition apparatus and method, program, and recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2011002494A JP2011002494A (en) | 2011-01-06 |
| JP4981850B2 true JP4981850B2 (en) | 2012-07-25 |
Family
ID=43560521
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009143173A Active JP4981850B2 (en) | 2009-06-16 | 2009-06-16 | Voice recognition apparatus and method, program, and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4981850B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9262694B2 (en) | 2011-12-16 | 2016-02-16 | Nec Corporation | Dictionary learning device, pattern matching apparatus, method for learning dictionary and storage medium |
| KR20230126123A (en) * | 2022-02-22 | 2023-08-29 | 삼성전자주식회사 | Electronic device for generating personalized automatic speech recognition model and method of the same |
Family Cites Families (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3254933B2 (en) * | 1994-10-27 | 2002-02-12 | 松下電器産業株式会社 | Voice recognition method |
| JP3428805B2 (en) * | 1996-03-25 | 2003-07-22 | Kddi株式会社 | Method and apparatus for correcting beginning of voice section for voice recognition and voice recognition method |
| JP3726448B2 (en) * | 1997-03-12 | 2005-12-14 | セイコーエプソン株式会社 | Recognition target speech detection method and apparatus |
| JP2000172291A (en) * | 1998-12-02 | 2000-06-23 | Sony Corp | Voice recognition device |
| JP2000259181A (en) * | 1999-03-10 | 2000-09-22 | Olympus Optical Co Ltd | Device and method for recognizing speech information, and recording medium where program for recognizing speech information is recorded |
| JP2000322080A (en) * | 1999-05-10 | 2000-11-24 | Mitsubishi Electric Corp | Voice recognition processing device and voice recognition processing method |
| JP2001075594A (en) * | 1999-08-31 | 2001-03-23 | Pioneer Electronic Corp | Speech recognition system |
| JP2004198832A (en) * | 2002-12-19 | 2004-07-15 | Nissan Motor Co Ltd | Voice recognition device |
| JP4829871B2 (en) * | 2007-11-21 | 2011-12-07 | 日本電信電話株式会社 | Learning data selection device, learning data selection method, program and recording medium, acoustic model creation device, acoustic model creation method, program and recording medium |
-
2009
- 2009-06-16 JP JP2009143173A patent/JP4981850B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2011002494A (en) | 2011-01-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20120130716A1 (en) | Speech recognition method for robot | |
| US8645139B2 (en) | Apparatus and method of extending pronunciation dictionary used for speech recognition | |
| US11227580B2 (en) | Speech recognition accuracy deterioration factor estimation device, speech recognition accuracy deterioration factor estimation method, and program | |
| CN101149922A (en) | Voice recognition device and voice recognition method | |
| JP6996570B2 (en) | Urgency estimation device, urgency estimation method, program | |
| US8234112B2 (en) | Apparatus and method for generating noise adaptive acoustic model for environment migration including noise adaptive discriminative adaptation method | |
| WO2018163279A1 (en) | Voice processing device, voice processing method and voice processing program | |
| JP5852550B2 (en) | Acoustic model generation apparatus, method and program thereof | |
| JP4829871B2 (en) | Learning data selection device, learning data selection method, program and recording medium, acoustic model creation device, acoustic model creation method, program and recording medium | |
| JP2018081169A (en) | Speaker attribute estimation system, learning device, estimation device, speaker attribute estimation method, and program | |
| JP4981850B2 (en) | Voice recognition apparatus and method, program, and recording medium | |
| JP5427140B2 (en) | Speech recognition method, speech recognition apparatus, and speech recognition program | |
| JP6027754B2 (en) | Adaptation device, speech recognition device, and program thereof | |
| JP2011039434A (en) | Speech recognition device and feature value normalization method therefor | |
| JP4861941B2 (en) | Transcription content confirmation method, transcription content confirmation device, computer program | |
| JP4922377B2 (en) | Speech recognition apparatus, method and program | |
| JP5538350B2 (en) | Speech recognition method, apparatus and program thereof | |
| JP5961530B2 (en) | Acoustic model generation apparatus, method and program thereof | |
| JP5113797B2 (en) | Dissimilarity utilization type discriminative learning apparatus and method, and program thereof | |
| JP5089651B2 (en) | Speech recognition device, acoustic model creation device, method thereof, program, and recording medium | |
| JP5914119B2 (en) | Acoustic model performance evaluation apparatus, method and program | |
| JP4729078B2 (en) | Voice recognition apparatus and method, program, and recording medium | |
| JP7279800B2 (en) | LEARNING APPARATUS, ESTIMATION APPARATUS, THEIR METHOD, AND PROGRAM | |
| JP5166195B2 (en) | Acoustic analysis parameter generation method and apparatus, program, and recording medium | |
| JP4843646B2 (en) | Voice recognition apparatus and method, program, and recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110712 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110719 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110720 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110914 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111212 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120117 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120314 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120410 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120420 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150427 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4981850 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |