JP3605308B2 - Voice recognition device and recording medium - Google Patents
Voice recognition device and recording medium Download PDFInfo
- Publication number
- JP3605308B2 JP3605308B2 JP05141299A JP5141299A JP3605308B2 JP 3605308 B2 JP3605308 B2 JP 3605308B2 JP 05141299 A JP05141299 A JP 05141299A JP 5141299 A JP5141299 A JP 5141299A JP 3605308 B2 JP3605308 B2 JP 3605308B2
- Authority
- JP
- Japan
- Prior art keywords
- likelihood
- frame
- calculation
- amount
- calculator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識装置及び記録媒体に関し、詳しくは、入力された音響特徴量と音響特徴量辞書との間の尤度の計算において認識精度を落とすことなく負荷を軽減できる音声認識装置及び記録媒体に関する。
【0002】
【従来の技術】
図7に、従来の一般的な音声認識装置の構成を示しており、音声の入力端子101、音響特徴量計算器102、尤度計算器103、音響特徴量辞書104、認識辞書検索器105、認識語彙辞書106、認識結果出力端子107で構成されている。
【0003】
音声信号は入力端子101から入力され、予め定められた時間長(例えば10ms)のフレームに分割され、フレーム毎に入力音声の特徴量を音響特徴量計算器102で計算する。音声認識で用いる特徴量としては、例えばパワースペクトルの形状を表現する帯域フィルターバンク出力やケプストラムパラメータなどが用いられている。
【0004】
フレーム毎に計算された入力音声の音響特徴量に対し、予め作成された音響特徴量辞書104を用いて、音響特徴量辞書104の全ての状態毎に尤度計算器103によって尤度を計算する。
ここで尤度とは、入力音声の音響特徴量が、音響特徴量辞書の各状態の音響特徴量にどれだけ似ているかを表す指標値で、音響特徴量としてケプストラムを用いた場合は、入力音声のケプストラムと音響特徴量辞書の各状態毎に保持されているケプストラムとのケプストラム距離などが用いられている。
【0005】
音響特徴量辞書104は、音声を予め定められた状態(単位)で分割し、状態毎に音響特徴量を保持している。音声の単位である状態の例としては、音素(例えば、‘a’、‘t’)や、或いは時間的に前後の音素環境を考慮した3つ組音素(例えば、‘a;k;a’、‘t;a;k’)、更に一つの音素を時間的に分割した単位を用いる方法がある。状態の数は単位の選び方によって変化し、音素を単位とした場合は数十、3つ組音素を単位に取れば数百程度の個数になる。
例えば、音響特徴量辞書が256の要素から構成されており、発声が1秒であれば10msの分析周期で分析すれば100フレームの音響特徴量が算出され、結局256×100の尤度表が計算される。
【0006】
次に、入力音声の発声が終了した時点で、認識語彙辞書106を用いて、認識辞書検索器105で発声内容を検索する。認識語彙辞書とは、認識対象となる語を前述した認識の単位で記述したものである。例えば「赤」を、上記説明の中で例示した三つ組み音素の単位で表現すると、‘−;a;k’,‘a;k;a’,‘k;a;−’と表される。ここで‘−’は、無音状態を表す。
上記で計算された各状態毎の尤度の時系列が、認識対象語彙の内、どの語がもっともらしいかを検索する手法に、隠れマルコフモデルやビタビ検索の技術が使われている(「音声・音情報のディジタル信号処理」昭晃堂,p.42−79参照)。
【0007】
以上で説明したように、従来技術の音声認識装置においては、入力信号の全てのフレームに対して尤度計算を行っており、そのため、計算量が多いという問題があった。この問題に対処する方法として、特開平2―239291号公報には、音声の音響特徴量の変化量を時間的に調べ、その動的な特徴量が多い時点或いは極大となる点のフレームに対してのみ尤度計算するようにした技術が開示されている。これによって音素境界位置の候補数を絞り込むと共に、尤度計算量を削減することを意図している。
【0008】
【発明が解決しようとする課題】
高い音声認識率を得るためには、短時間に音響特徴量が変化する破裂音などの情報を精度良く分析することと、音響特徴量辞書も音素環境を考慮して多くの状態数に分割することが望ましい。分析間隔が早くなり音響特徴量辞書の状態が多いと、尤度計算量が非常に多くなり、上記のように認識装置の実現コストが高くなるという問題が生ずる。
【0009】
この問題を解決するために提案された前記特開平2−239291号公報の技術の場合、音素の句切り目を検出することを目的とし、瞬間的に変化の大きなフレーム或いは極大点のフレームの尤度を求めているため、安定した特徴量区間での尤度が算出できないという問題がある。さらにまた、音声によっては変化量が小さかったり、極大点が現れず、音響特徴量の変化が検知できず、尤度を求めることができない。結果として上記従来技術では、変化量が小さな区間で尤度計算を省略することにより、実際の尤度からかけ離れ、音声認識精度の低下につながるという問題があった。
本発明は、このような問題に鑑みてなされたものであって、その目的とするところは、尤度計算の負荷を軽減するとともに、音声認識の精度を上げることを可能にした音声認識装置及び記録媒体を提供することにある。
【0012】
【課題を解決するための手段】
本発明の音声認識装置は、音声信号を予め定められた時間長のフレームに分割し、音声の特徴量を計算する音響特徴量計算器と、予め定められた基準に沿って音声を複数の状態に分類し、分類された状態毎に音響特徴量を保持している音響特徴量辞書と、入力された音声の音響特徴量と音響特徴量辞書の状態毎に尤度を計算する尤度計算器と、音声認識対象語を前述の状態を使って記述した認識語彙辞書と、先に計算した尤度計算結果を入力し認識語彙辞書の中から音声認識結果を計算する認識辞書検索器とを備えるものであって、音響特徴量の時間的な変化量を計算する変化量計算器と、複数のフレームに渡って前記変化量計算器で計算された変化量を蓄積する変化量メモリーと、その中から変化量の大きいものから予め定められた数のフレーム数を選択して、選択されたフレームのみ尤度計算を実行し、選択されなかったフレームに対しては、すでに計算された尤度の値を使うように制御する尤度計算フレーム選択器を備えるものである。
【0013】
これにより、フレーム内の計算量の最大値をある一定量に抑えて、実時間処理装置に適した構成とすることができる。
また、前記尤度計算器は、尤度計算を省略したフレームの区間に対し、直前に計算した尤度と次に計算する尤度の平均の値を計算出力することで、変化量が小さな区間で尤度計算を省略しながら尤度を近似解として求めることができる。
また、前記尤度計算器は、尤度計算を省略したフレームの区間に対し、直前に計算した尤度と次に計算する尤度の傾斜値を計算出力することで、変化量が小さな区間で尤度計算を省略しながら尤度を近似解として求めることができる。
【0014】
また、前記尤度計算器は、最後に尤度計算したフレームの次のフレームの尤度を計算し得られた結果をその後に続く尤度計算しないフレーム期間の尤度として出力することで、変化量が少なくなった尤度を用いて音声認識の精度を上げることが可能となる。
また、前記尤度計算器は、最後に尤度計算したフレームの次のフレーム及びその次に尤度計算するフレームの直前のフレームの尤度を計算し、その間のフレームに対し、両者の平均値又は傾斜値を計算出力することで、変化量が少なくなった尤度を用いて音声認識の精度を上げることが可能となる。
また、本発明は、コンピュータを上記音声認識装置として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【0015】
【発明の実施の形態】
以下、添付図面を参照しながら本発明の好適な実施の形態について詳細に説明する。なお、図7と同一機能のものは同一符号で示している。
図1は、本発明の音声認識装置の第1実施の形態を示している。図7の回路構成に対して、構成要素として新しく付け加わったのは、入力信号の特徴量の変化を計算する変化量計算器108と、入力信号の特徴量の変化量を元に尤度計算器の動作を制御する尤度計算制御器109である。
【0016】
音声信号は入力端子101から入力され、予め定められた時間長(例えば10ms)のフレームに分割される。フレーム毎に入力音声の特徴量を音響特徴量計算器102で計算する。特徴量としては例えばケプストラムを用いる。フレーム毎に算出された音響特徴量は、変化量計算器108と尤度計算器103に入力される。変化量計算器108は入力音声信号の特徴量変化を検出することを目的とし、例えば直前のフレームで計算された音響特徴量と、現在フレームの音響特徴量の差から変化量を算出する。入力音声信号の状態(例えば音韻)が変化するとスペクトル形状などの音響特徴量が変化し、特徴量の変化は大きい。しかし、定常的な母音区間などでは比較的安定した音響特徴量が継続し、音響特徴量の変化量は小さくなる。
【0017】
音響特徴量としてケプストラムを用いた場合、変化量としては、例えば直前のフレームのケプストラムと、現在フレームのケプストラムとのケプストラム距離を用いる。また音声認識で用いる音響特徴量として、一般に動的特徴量と呼ばれる特徴量の時間的変化の情報を用いる手法がある(音響特徴としてケプストラムを用いている場合、デルタケプストラムと呼ぶ特徴量を用いている)。この場合は変化量としては、この動的特徴量の大きさを算出しても良い。変化量計算器108で計算された特徴量の変化量は、尤度計算制御器109に入力され、予め設定した判定閾値と比較する。
【0018】
変化量計算機108で計算された特徴量の変化を尤度計算制御器109の判定閾値と比較した結果、変化量が判定閾値より大きい場合と小さい場合とに分岐する。
変化量が判定閾値より大きい場合は、入力音声信号の状態変化が大きいので、尤度計算器103に音響特徴量計算器102で計算した入力信号の特徴量に対する尤度計算を実行させる。この場合の処理は従来と同様である。
【0019】
次に、本発明の特徴となる処理の部分について述べる。変化量が判定閾値より小さい場合は、入力音声信号の状態があまり変化してないので、尤度計算結果も大きく変化しないことが予想される。この場合は尤度計算制御器109は、変化量が判定閾値より大きい場合とは異なる基準に基づいて尤度の値を求める。この基準は1個以上複数あってもよい。
【0020】
例えば、尤度計算器103に対して、現在フレームの尤度計算を行わず、直前に計算した尤度計算結果を用いるという基準を適用する。音声信号には、破裂子音のように音響特徴量の変化が早い区間と、母音定常部のようにあまり変化しない区間がある。このように音響特徴量の変化が小さい区間で、尤度計算を行わないように制御することで計算量を削減できる。
上述したように、音響特徴量の変化が大きい区間で尤度の計算を行い、音響特徴量の小さい区間では尤度計算を行わないという基準に基づいて尤度計算を行う尤度計算制御の様子を図6に示している。
【0021】
図6(A)は入力音声信号のエネルギーを表しており、図6(B)は特徴量の変化量の大きさを表している。図6(B)の点線で示している閾値が変化量の判定閾値で、変化量がこの閾値より大きいフレームでは尤度計算を行い、閾値より小さいフレームでは最近に計算した尤度の値を用いる。図6(C)に尤度計算の実行状況を示している。目盛りの間隔がフレーム長を表しており、cの印が付いたフレームは、特徴量の変化量が判定閾値より大きく、尤度計算を実行したフレームであり、cの印の付いてないフレームは、尤度の値は直前に計算した尤度を用いるフレームである。
【0022】
以降の処理は図7の従来技術で説明したものと同様で、入力音声の発声が終了した時点で、尤度計算を省略して求めた尤度表と認識語彙辞書106を用いて、認識辞書検索器105で発声内容を検索する。
図2は、本発明の音声認識装置の第2実施の形態を示している。第1実施の形態の図1に対して構成要素として新しく付け加わったのは、尤度計算制御器109の出力を入力し、変化量が小さい区間では尤度計算を間引いたフレーム間隔で計算するように制御する間引き計算制御器201のみである。第1実施の形態と異なる部分について以下に説明する。
【0023】
母音など定常的な音響特徴量が複数のフレームに渡って継続する場合、隣接するフレームの音響特徴量の変化は小さいが、複数のフレームでは変化量が蓄積して変化量が大きくなるという場合がある。この場合は、尤度計算を行わないと認識率が低下する。そこで、第2実施の形態では、間引き計算制御器201は、尤度計算制御器109の出力を入力し、変化量が大きい区間では第1実施の形態と同様の方法で尤度計算器103に尤度計算を実行させる。
【0024】
一方、尤度計算制御器109の出力の変化量が小さい区間では、処理フレーム数をカウントし、予め定められた間引きの間隔で間引いたフレームに対しては尤度計算器103で尤度計算を実行し、それ以外のフレームでは、尤度計算を行わず、直前に計算した尤度計算結果を用いるように制御する。
尤度計算制御の様子を図6(D)に示す。この例では間引き率2で制御しており、図6(C)と比べると、特徴量の変化量が判定閾値より小さい区間でも、2フレームに1回の割合で尤度計算を実行するようになっている。なお、間引き率は2に限定する必要はなく任意である。
【0025】
図3は、本発明の音声認識装置の第3実施の形態を示している。図1に対して構成要素として新しく付け加わったのは、複数フレームの特徴量の変化量を記憶する変化量メモリー301と、この変化量メモリー301から、ある選択基準で尤度計算を行うフレームを選択する尤度計算フレーム選択器302である。以下、第1および第2実施の形態と異なる部分について説明する。
第1および第2実施の形態では、全ての入力フレームではなく、ある基準を満たしたフレームに対してのみ尤度計算を実行しており、処理全体としては計算量が削減する。しかしながら実時間処理する装置においては、予め定めた処理単位で計算量を一定に抑える必要がある。
【0026】
第3実施の形態では、この課題に対処するために、予め定めた数(Mとする)のフレーム毎に処理を行い、このMフレームの中から尤度計算を実行するフレーム(N、但しN<M)を選択し、残りのフレームは最近に計算された尤度の値を用いるように制御する。
この選択の基準の例としては、変化量計算器108で計算された変化量をMフレームに渡って変化量メモリー301記憶し、尤度計算フレーム選択器302は、そのM個の変化量の中で大きいものからNフレーム選択する。
このように制御することで、Mフレーム内の計算量の最大値をある一定量に抑えられて、実時間処理装置に適した構成とすることができる。
【0027】
図4は、本発明の音声認識装置の第4実施の形態を示している。該図における平均尤度計算器601は、図1乃至図3の尤度計算器103の代用をするものである。入力音声の特徴の変化量が閾値を越えるフレームでは従来通りの尤度計算を行い、計算を行った結果を平均尤度計算器601内のバッファメモリに蓄積する。このようにして得られた直前の尤度の値をLとし、次に変化量が閾値を越え計算した尤度Nとすると、Lを計算したフレームとNを計算したフレームとの間のフレームに対し(L+N)/2の尤度を当てはめる。その他の処理は、第1〜第3実施の形態に準じる。
図6(E)に尤度計算制御の結果を示す。この結果は図6(C)に適用したもので、尤度を計算するのは図6(C)と同じとなっている。尤度計算を省略したフレームはその両端で求めた尤度の平均値になっている(図では煩雑になるのを避けるため最初の尤度無計算区間のみ記入している)。
【0028】
図5は、本発明の音声認識装置の第5実施の形態を示している。該図における傾斜尤度計算器701は図1乃至図3の尤度計算器103の代用をするものである。入力音声の特徴の変化量が閾値を越えるフレームでは従来通りの尤度計算を行い、計算を行った結果を傾斜尤度計算器701内のバッファメモリに蓄積する。このようにして得られた直前の尤度の値をLとし、次に変化量が閾値を越え計算した尤度Nとすると、Lを計算したフレームとNを計算したフレームとの間のフレームの数Pをカウントし、これらP個のフレームに対しL+(N−L)×m/(P+1) (mは1からPの整数)の傾斜尤度を当てはめる。その他の処理は、第1〜第3実施の形態に準じる。
【0029】
図6(F)に尤度計算制御の結果を示す。この結果は図6(C)に適用したもので、尤度を計算するのは図6(C)と同じとなっている。尤度計算を省略したフレームはその両端で求めた尤度の傾斜配分値になっている(図では煩雑になるのを避けるため最初の尤度無計算区間のみ記入している)。
以上の第1実施の形態〜第5実施の形態のほか、以下のような実施の形態も可能である。
【0030】
図2において、音響特徴量が閾値を越えないフレームの場合、第1実施の形態では最後に尤度計算して得られた値をこれらのフレームの尤度として用いるようにしている。音響特徴量が閾値を越えないフレームの尤度として最後に尤度計算した値の代わりに、最後に尤度計算した次のフレームの尤度を計算し、この値を用いるようにすることができる。これにより、音響特徴量が閾値を越えないフレームの尤度として特徴量の変化の大きい尤度でなく、変化量が少なく定常的になった尤度を用いることで音声認識の精度を上げることが可能となる。このようにして求めた尤度計算制御の結果を図4(G)に示している。
【0031】
さらにまた、図4または図5において、音響特徴量が閾値を越えないフレームの場合、図6(G)の実施の形態では最後に尤度計算して得られ変化量が閾値を越えなくなった最初のフレームでも尤度の計算をしているが、次に変化量が閾値を越え尤度計算する一つ前の変化量が閾値を越えないフレームでも尤度の計算をする。この間のフレームに対し、これら閾値を越えないフレームの両端で計算した尤度の平均値あるいは傾斜値を当てはめる。なお、平均尤度値あるいは傾斜尤度値は実施例4、或いは実施例5で述べた方法に基づく。このようにして求めた尤度計算制御の結果を図6(H)に示す。
【0032】
なお、本発明は上記実施の形態に限定されるものではない。
上記各実施の形態では入力音声の特徴量変化の小さい区間に対し単一の尤度計算制御基準を用いているが、例えば複数の基準を組み合わせても実施は可能である。
また、本発明は、コンピュータを上記音声認識装置として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体であってもよく、例えば、磁気テープ、CD−ROM、ICカード、RAMカード等のいかなるタイプの記録媒体であってもよい。
【0033】
【発明の効果】
以上、詳述したように、本発明によれば、音響特徴量の時間的な変化量を計算する変化量計算器と、計算された変化量を予め定められた閾値と比較し、閾値を越える場合と越えない場合で複数の基準を用いて尤度の値を計算出力する尤度計算制御器を備えたので、前記尤度計算制御器の制御により、入力音声の特徴量変化の大きい区間に対して尤度計算を実行し、変化の小さい場合は例えば、最近の計算された尤度の値を使うように制御し、あるいは、尤度計算を間引きするような制御が可能となり、認識率の劣化を小さく抑えて、計算量を削減することができる。
【0034】
また、入力音声の特徴量変化の大きい区間に対して尤度を求めるだけでなく、入力音声の特徴量変化の小さい区間或いは安定区間に対しても近似的な尤度を割り当てることができるため、一貫した入力音声の認識ができる。また、入力音声の特徴量変化の大小にかかわらず尤度を出すことができるので、音声によっては変化量が小さかったり、極大点が現れ無い場合でも尤度を求めることができる。したがって、本発明によれば、変化量が小さな区間でも尤度計算を省略しながら尤度を近似解として求めることができるため、音声認識精度を低下させることなく計算量を削減することができる。
【図面の簡単な説明】
【図1】本発明の音声認識装置の第1実施の形態を示すブロック図である。
【図2】本発明の音声認識装置の第2実施の形態を示すブロック図である。
【図3】本発明の音声認識装置の第3実施の形態を示すブロック図である。
【図4】本発明の音声認識装置の第4実施の形態を示すブロック図である。
【図5】本発明の音声認識装置の第5実施の形態を示すブロック図である。
【図6】(A)〜(H)は尤度計算制御の説明図である。
【図7】従来技術の音声認識装置の実施例を説明する図。
【符号の説明】
101 入力端子
102 音響特徴量計算器
103 尤度計算器
104 音響特徴量辞書
105 認識辞書検索器
106 認識語彙辞書
107 認識結果出力端子
108 変化量計算器
109 尤度計算制御器
201 間引き計算制御器
301 変化量メモリー
302 尤度計算フレーム選択器
601 平均尤度計算器
701 傾斜尤度計算器[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a speech recognition device and a recording medium, and more particularly, to a speech recognition device and a recording device capable of reducing a load without lowering recognition accuracy in calculating a likelihood between an input acoustic feature and an acoustic feature dictionary. Regarding the medium.
[0002]
[Prior art]
FIG. 7 shows the configuration of a conventional general speech recognition apparatus. The
[0003]
The audio signal is input from the
[0004]
Here, the likelihood is an index value indicating how similar the acoustic feature of the input voice is to the acoustic feature of each state of the acoustic feature dictionary.If the cepstrum is used as the acoustic feature, the input The cepstrum distance between the cepstrum of the speech and the cepstrum held for each state of the acoustic feature dictionary is used.
[0005]
The
For example, the acoustic feature dictionary is composed of 256 elements. If the utterance is 1 second, the analysis is performed at an analysis period of 10 ms, and the acoustic feature of 100 frames is calculated. As a result, a 256 × 100 likelihood table is obtained. Is calculated.
[0006]
Next, when the utterance of the input speech is completed, the utterance content is searched by the
Hidden Markov models and Viterbi search techniques are used to search for the most likely words in the vocabulary to be recognized based on the time series of the likelihood calculated for each state. -Digital signal processing of sound information ", Shokodo, pp. 42-79).
[0007]
As described above, in the conventional speech recognition apparatus, the likelihood calculation is performed for all frames of the input signal, and therefore, there is a problem that the calculation amount is large. As a method for coping with this problem, Japanese Patent Laid-Open No. 2-239291 discloses a method of temporally examining the amount of change in the acoustic feature of a voice, and examining the frame at the time when the dynamic feature is large or at the maximum. There is disclosed a technique in which likelihood calculation is performed only in the case. This is intended to narrow down the number of candidates for the phoneme boundary position and to reduce the likelihood calculation amount.
[0008]
[Problems to be solved by the invention]
In order to obtain a high speech recognition rate, it is necessary to accurately analyze information such as plosives whose acoustic features change in a short period of time, and to divide the acoustic feature dictionary into a large number of states in consideration of the phoneme environment. It is desirable. If the analysis interval is shortened and the state of the acoustic feature dictionary is large, the likelihood calculation amount becomes extremely large, and the problem that the realization cost of the recognition device increases as described above occurs.
[0009]
The technique disclosed in Japanese Patent Application Laid-Open No. Hei 2-239291 proposed to solve this problem aims at detecting a punctuation between phonemes, and the likelihood of a frame having a large instantaneous change or a frame at a local maximum point. Therefore, there is a problem that the likelihood in a stable feature amount section cannot be calculated. Furthermore, depending on the voice, the amount of change is small or the maximum point does not appear, the change in the acoustic feature cannot be detected, and the likelihood cannot be obtained. As a result, in the above-described related art, there is a problem in that omitting the likelihood calculation in a section where the amount of change is small greatly deviates from the actual likelihood, leading to a reduction in speech recognition accuracy.
The present invention has been made in view of such a problem, and an object of the present invention is to reduce the load of likelihood calculation and increase the accuracy of speech recognition. It is to provide a recording medium.
[0012]
[Means for Solving the Problems]
The voice recognition device of the present invention divides a voice signal into frames of a predetermined time length, calculates a voice feature value, and converts the voice into a plurality of states based on a predetermined criterion. And an acoustic feature dictionary holding acoustic features for each of the classified states, and a likelihood calculator for calculating the acoustic features of the input speech and the likelihood for each state of the acoustic features dictionary. And a recognition vocabulary dictionary that describes speech recognition target words using the above-described state, and a recognition dictionary searcher that inputs a previously calculated likelihood calculation result and calculates a speech recognition result from the recognition vocabulary dictionary A change amount calculator for calculating a temporal change amount of an acoustic feature amount; a change amount memory for storing the change amount calculated by the change amount calculator over a plurality of frames; predetermined number of off from those variation greater from Likelihood calculation frame selector that selects the number of frames and performs likelihood calculation only on the selected frames, and controls the unselected frames to use the already calculated likelihood values. It is provided with.
[0013]
As a result, the maximum value of the calculation amount in the frame can be suppressed to a certain fixed amount, and a configuration suitable for a real-time processing device can be obtained.
Further, the likelihood calculator calculates and outputs the average value of the likelihood calculated immediately before and the likelihood calculated next for the section of the frame in which the likelihood calculation is omitted, so that the change amount is small. Thus, the likelihood can be obtained as an approximate solution while omitting the calculation of the likelihood.
Further, the likelihood calculator calculates and outputs the likelihood calculated immediately before and the slope value of the likelihood to be calculated next with respect to the section of the frame where the likelihood calculation is omitted, so that the change amount is small in the section. The likelihood can be obtained as an approximate solution while omitting the calculation of the likelihood.
[0014]
Further, the likelihood calculator outputs the result obtained by calculating the likelihood of the frame next to the frame of which the last likelihood calculation was performed as the likelihood of a subsequent frame period in which the likelihood calculation is not to be performed. It is possible to improve the accuracy of speech recognition using the likelihood that the amount has decreased.
Further, the likelihood calculator calculates the likelihood of a frame next to the last frame for which the likelihood calculation is performed last and a frame immediately before the frame for which the likelihood calculation is next performed. Alternatively, by calculating and outputting the inclination value, it becomes possible to increase the accuracy of speech recognition using the likelihood that the amount of change is reduced.
Further, the present invention is a computer-readable recording medium in which a program for causing a computer to function as the voice recognition device is recorded.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. The components having the same functions as those in FIG. 7 are denoted by the same reference numerals.
FIG. 1 shows a first embodiment of the speech recognition apparatus of the present invention. In the circuit configuration of FIG. 7, newly added components are a
[0016]
The audio signal is input from the
[0017]
When the cepstrum is used as the acoustic feature amount, for example, the cepstrum distance between the cepstrum of the immediately preceding frame and the cepstrum of the current frame is used as the change amount. In addition, there is a method of using information of a temporal change of a feature amount generally referred to as a dynamic feature amount as an acoustic feature amount used in speech recognition (when a cepstrum is used as an acoustic feature, a feature called a delta cepstrum is used. There). In this case, the magnitude of the dynamic feature may be calculated as the change. The change amount of the feature amount calculated by the
[0018]
As a result of comparing the change in the feature amount calculated by the
If the change is larger than the determination threshold, the state change of the input voice signal is large, and the
[0019]
Next, a part of the processing which is a feature of the present invention will be described. If the amount of change is smaller than the determination threshold, the state of the input speech signal has not changed much, and it is expected that the likelihood calculation result will not change significantly. In this case, the
[0020]
For example, a criterion that the
As described above, the likelihood calculation control in which the likelihood calculation is performed in the section where the change in the acoustic feature amount is large and the likelihood calculation is performed based on the criterion that the likelihood calculation is not performed in the section where the acoustic feature amount is small. Is shown in FIG.
[0021]
FIG. 6A shows the energy of the input audio signal, and FIG. 6B shows the magnitude of the change in the feature amount. The threshold indicated by the dotted line in FIG. 6B is a threshold for determining the amount of change. Likelihood calculation is performed for a frame whose amount of change is larger than this threshold, and the value of the likelihood calculated recently is used for a frame smaller than the threshold. . FIG. 6C shows the execution state of the likelihood calculation. The interval between the graduations represents the frame length, and the frame marked with c is a frame in which the amount of change in the feature amount is larger than the determination threshold and the likelihood calculation has been performed, and the frame not marked with c is , The likelihood value is a frame using the likelihood calculated immediately before.
[0022]
Subsequent processing is the same as that described in the prior art of FIG. 7, and when the utterance of the input speech is completed, the likelihood table obtained by omitting the likelihood calculation and the
FIG. 2 shows a second embodiment of the speech recognition apparatus of the present invention. What is newly added as a component to FIG. 1 of the first embodiment is that the output of the
[0023]
When a steady acoustic feature such as a vowel continues over a plurality of frames, the change in the acoustic feature of an adjacent frame is small, but in a plurality of frames, the amount of change accumulates and the amount of change increases. is there. In this case, if the likelihood calculation is not performed, the recognition rate decreases. Therefore, in the second embodiment, the thinning
[0024]
On the other hand, in a section where the amount of change in the output of the
The state of likelihood calculation control is shown in FIG. In this example, the control is performed with the thinning rate of 2, so that the likelihood calculation is performed once every two frames even in a section where the amount of change in the feature amount is smaller than the determination threshold as compared with FIG. Has become. Note that the thinning rate does not need to be limited to 2 and is optional.
[0025]
FIG. 3 shows a third embodiment of the speech recognition apparatus of the present invention. A new component added to FIG. 1 is a
In the first and second embodiments, the likelihood calculation is performed only on a frame that satisfies a certain criterion, instead of all input frames, and the amount of calculation as a whole is reduced. However, in an apparatus that performs real-time processing, it is necessary to keep the amount of calculation constant in predetermined processing units.
[0026]
In the third embodiment, in order to address this problem, processing is performed for each of a predetermined number (M) of frames, and a frame (N, where N, <M) and control to use the recently calculated likelihood values for the remaining frames.
As an example of the criterion for this selection, the change amount calculated by the
By performing such control, the maximum value of the amount of calculation in the M frames can be suppressed to a certain fixed amount, and a configuration suitable for a real-time processing device can be obtained.
[0027]
FIG. 4 shows a fourth embodiment of the speech recognition apparatus of the present invention. The
FIG. 6E shows the result of the likelihood calculation control. This result is applied to FIG. 6C, and the calculation of the likelihood is the same as that of FIG. 6C. The frame for which the likelihood calculation is omitted has the average value of the likelihoods calculated at both ends thereof (only the first likelihood non-calculation section is shown in the figure to avoid complication).
[0028]
FIG. 5 shows a speech recognition apparatus according to a fifth embodiment of the present invention. The
[0029]
FIG. 6F shows the result of the likelihood calculation control. This result is applied to FIG. 6C, and the calculation of the likelihood is the same as that of FIG. 6C. Frames for which the likelihood calculation has been omitted have the likelihood gradient distribution values obtained at both ends thereof (only the first likelihood non-calculation section is shown in the figure to avoid complication).
In addition to the above-described first to fifth embodiments, the following embodiments are also possible.
[0030]
In FIG. 2, in the case of frames in which the acoustic feature amount does not exceed the threshold, in the first embodiment, a value obtained by finally calculating the likelihood is used as the likelihood of these frames. Instead of the last calculated likelihood as the likelihood of a frame whose acoustic feature value does not exceed the threshold value, the likelihood of the next frame lastly calculated may be calculated and this value may be used. . As a result, the accuracy of speech recognition can be improved by using the likelihood of a small change in the amount of feature, instead of the likelihood of a large change in the amount of feature, as the likelihood of a frame whose acoustic feature does not exceed the threshold. It becomes possible. The result of the likelihood calculation control obtained in this way is shown in FIG.
[0031]
Furthermore, in FIG. 4 or FIG. 5, in the case of the frame in which the acoustic feature amount does not exceed the threshold value, in the embodiment of FIG. Although the likelihood is calculated also in the frame of the above, the likelihood is calculated also in the frame in which the change amount exceeds the threshold value and the change amount immediately before the likelihood calculation does not exceed the threshold value. The average value or the slope value of the likelihood calculated at both ends of the frame not exceeding the threshold value is applied to the frame during this period. Note that the average likelihood value or the slope likelihood value is based on the method described in the fourth or fifth embodiment. FIG. 6H shows the result of the likelihood calculation control thus obtained.
[0032]
Note that the present invention is not limited to the above embodiment.
In each of the above embodiments, a single likelihood calculation control criterion is used for a section in which a change in the feature amount of the input speech is small. However, the present invention can be implemented by combining a plurality of criteria, for example.
Further, the present invention may be a computer-readable recording medium on which a program for causing a computer to function as the voice recognition device is recorded. For example, any of a magnetic tape, a CD-ROM, an IC card, a RAM card, etc. It may be a type of recording medium.
[0033]
【The invention's effect】
As described above in detail, according to the present invention, the change amount calculator that calculates the temporal change amount of the acoustic feature amount, the calculated change amount is compared with a predetermined threshold value, and the threshold value is exceeded. The likelihood calculation controller that calculates and outputs the likelihood value using a plurality of criteria in the case and the case where the likelihood value does not exceed is provided. The likelihood calculation is executed on the other hand, and when the change is small, for example, control is performed so as to use the latest calculated likelihood value, or control such as thinning out the likelihood calculation becomes possible. Deterioration can be kept small, and the amount of calculation can be reduced.
[0034]
In addition, not only is the likelihood calculated for a section where the change in the feature amount of the input speech is large, but also an approximate likelihood can be assigned to a section where the change in the feature amount of the input voice is small or a stable section. Consistent input speech recognition is possible. In addition, since the likelihood can be obtained regardless of the magnitude of the change in the feature amount of the input speech, the likelihood can be obtained even when the variation is small or the maximum point does not appear depending on the speech. Therefore, according to the present invention, the likelihood can be obtained as an approximate solution while omitting the likelihood calculation even in a section where the amount of change is small, so that the calculation amount can be reduced without lowering the speech recognition accuracy.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of a speech recognition device of the present invention.
FIG. 2 is a block diagram showing a second embodiment of the speech recognition apparatus of the present invention.
FIG. 3 is a block diagram showing a third embodiment of the speech recognition device of the present invention.
FIG. 4 is a block diagram showing a fourth embodiment of the speech recognition device of the present invention.
FIG. 5 is a block diagram showing a fifth embodiment of the speech recognition apparatus of the present invention.
FIGS. 6A to 6H are explanatory diagrams of likelihood calculation control.
FIG. 7 is a view for explaining an embodiment of a conventional speech recognition apparatus.
[Explanation of symbols]
101
Claims (6)
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP05141299A JP3605308B2 (en) | 1999-02-26 | 1999-02-26 | Voice recognition device and recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP05141299A JP3605308B2 (en) | 1999-02-26 | 1999-02-26 | Voice recognition device and recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2000250580A JP2000250580A (en) | 2000-09-14 |
| JP3605308B2 true JP3605308B2 (en) | 2004-12-22 |
Family
ID=12886226
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP05141299A Expired - Fee Related JP3605308B2 (en) | 1999-02-26 | 1999-02-26 | Voice recognition device and recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3605308B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4732030B2 (en) * | 2005-06-30 | 2011-07-27 | キヤノン株式会社 | Information processing apparatus and control method thereof |
-
1999
- 1999-02-26 JP JP05141299A patent/JP3605308B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2000250580A (en) | 2000-09-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US6993482B2 (en) | Method and apparatus for displaying speech recognition results | |
| US9275631B2 (en) | Speech synthesis system, speech synthesis program product, and speech synthesis method | |
| US6393398B1 (en) | Continuous speech recognizing apparatus and a recording medium thereof | |
| JP6996570B2 (en) | Urgency estimation device, urgency estimation method, program | |
| US20030216918A1 (en) | Voice recognition apparatus and voice recognition program | |
| JPWO2010128560A1 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| JP3605308B2 (en) | Voice recognition device and recording medium | |
| US6823304B2 (en) | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant | |
| US4802226A (en) | Pattern matching apparatus | |
| JP6071944B2 (en) | Speaker speed conversion system and method, and speed conversion apparatus | |
| JP5532880B2 (en) | Voice recognition device | |
| JP4759827B2 (en) | Voice segmentation apparatus and method, and control program therefor | |
| JP3148322B2 (en) | Voice recognition device | |
| JP2005265895A (en) | Segment-connected speech synthesizer and method | |
| JP2008191334A (en) | Speech synthesis method, speech synthesis program, speech synthesis device and speech synthesis system | |
| US20080228492A1 (en) | Device Control Device, Speech Recognition Device, Agent Device, Data Structure, and Device Control | |
| JP2003323196A (en) | Voice recognition system, voice recognition method, and voice recognition program | |
| JP4424023B2 (en) | Segment-connected speech synthesizer | |
| JP2000259169A (en) | Speech recognition device and its recording medium | |
| JPH06110496A (en) | Speech synthesizer | |
| JP2003345384A (en) | Method, device, and program for voice recognition | |
| JPS60198596A (en) | Syllable boundary selection system | |
| JP2003050595A (en) | Speech recognition device and method, and program | |
| JPH10143190A (en) | Voice recognition device | |
| JPH086585A (en) | Speech synthesis method and apparatus |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20031212 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040106 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040305 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040713 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040909 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040928 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041001 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071008 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081008 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081008 Year of fee payment: 4 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091008 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091008 Year of fee payment: 5 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101008 Year of fee payment: 6 |
|
| LAPS | Cancellation because of no payment of annual fees |