JP4699016B2 - Voice recognition device - Google Patents
Voice recognition device Download PDFInfo
- Publication number
- JP4699016B2 JP4699016B2 JP2004360162A JP2004360162A JP4699016B2 JP 4699016 B2 JP4699016 B2 JP 4699016B2 JP 2004360162 A JP2004360162 A JP 2004360162A JP 2004360162 A JP2004360162 A JP 2004360162A JP 4699016 B2 JP4699016 B2 JP 4699016B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- standard pattern
- speech
- unit
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は、人間が発声した音声を登録し、登録した音声と類似度が高い音声が入力された場合に認識結果を出力する音声認識装置に関するものである。 The present invention relates to a speech recognition apparatus that registers speech uttered by a human and outputs a recognition result when speech having a high similarity to the registered speech is input.
音声認識装置は、人間の声を機械が自動認識するシステムのことを言い、音声による機械の操作等において実用性が高い。従来の音声認識装置に関しては、非特許文献1や非特許文献2に記載されている。このような従来の音声認識装置では、登録した音声の音節数が少ない、母音が少ない、騒音が含まれている等、登録した音声が不適切であった場合には、登録した音声以外の音声を誤認識してしまう場合があり、また、音声を登録した条件と異なる条件で認識対象単語を発声した場合には、正確に認識できない場合がある。
The voice recognition device refers to a system in which a machine automatically recognizes a human voice, and has high practicality in operation of a machine by voice. Conventional speech recognition devices are described in
また、本願に関連する技術として、特許文献1〜特許文献5に示される技術がある。特許文献1では、音声入力実行時に得られた音節の識別結果の正誤を指示し、この音節の識別結果及び正誤の指示に基づいて各音節の出現頻度及び誤り度数を求め、求められた各音節の出現頻度及び誤り度数に関連して登録又は再登録すべき音節を決定することで、より少ない処理量で再登録を必要とする音節を効率良く見出して、再登録処理することが可能になることが記載されている。
Moreover, there exists a technique shown by patent document 1-patent document 5 as a technique relevant to this application. In
また、特許文献2では、話者の単音節の特徴を予め格納する音節辞書を備え、話者の入力音声の音声辞書への登録時に、音節辞書の単音節を組み合わせて作成した読み列と、話者の入力音声との類似度を比較し、所定のしきい値以下に類似している場合に入力音声を音声辞書に登録することにより、認識時に最も影響を及ぼす音声登録を確実に行うことが記載されている。 Patent Document 2 includes a syllable dictionary that prestores the characteristics of a speaker's single syllable, and a reading sequence created by combining single syllables of the syllable dictionary when the speaker's input speech is registered in the speech dictionary; Comparing the degree of similarity with the speaker's input voice, and registering the input voice in the voice dictionary when it is similar to a predetermined threshold value or less, ensures that the voice registration that has the most influence on recognition is performed. Is described.
さらに、特許文献3では、登録すべき語彙が入力されると、入力された語彙の音節数が所定音節数以下である場合や、入力された語彙と音節数が等しくかつ母音の配列に共通性がある既登録語彙が存在する場合には、登録適正がないと判断することにより、認識率の高い語彙辞書を作成することが記載されている。 Further, in Patent Document 3, when a vocabulary to be registered is input, the number of syllables of the input vocabulary is equal to or less than a predetermined number of syllables, or the input vocabulary and the number of syllables are equal and common to vowel arrangements. It is described that when a certain registered vocabulary exists, a vocabulary dictionary with a high recognition rate is created by determining that the registration is not appropriate.
さらに、特許文献4では、音声を収集する部分と、音声をパタンに変換する部分と、音響再生部と、話者の両耳に再生音を聞かせる器具と、音声を登録する部分とを有し、話者に特定の音を聞かせながら音声を登録することにより、騒音下でも認識率が低下しない音声登録を行うことが記載されている。 Furthermore, Patent Document 4 has a part for collecting sound, a part for converting sound into a pattern, an acoustic reproduction unit, a device for listening to reproduced sound in both ears of a speaker, and a part for registering sound. In addition, it is described that voice registration is performed so that the recognition rate does not decrease even under noise by registering voice while letting a speaker hear a specific sound.
さらに、特許文献5では、複数語を連続的に認識する場合に、音声入力及びエコーバックは複数語のまとまった単位で行い、認識語の中に誤認識が発生したとき、すなわち、話者がエコーバックに対して否定応答を行ったとき、エコーバックを一語単位で行い、それぞれの語に対して話者の確認応答入力することにより、話者は効率良く音声入力でき、まとめて入力する語数が増えても認識率が低下せず、再入力時は一度目より認識率を向上させることが記載されている。 Furthermore, in Patent Document 5, when a plurality of words are continuously recognized, voice input and echo back are performed in a unit of a plurality of words, and when a recognition error occurs in a recognized word, that is, a speaker is When a negative response is made to echo back, echo back is performed in units of words, and the speaker's confirmation response is input for each word. It is described that the recognition rate does not decrease even if the number of words increases, and that the recognition rate is improved from the first time when re-input.
従来の音声認識装置は以上のように構成されているので、登録した音声の音節数が少ない、母音が少ない、騒音が含まれている等、登録した音声が不適切であった場合には、登録した音声以外の音を誤認識してしまい認識精度が低下するという課題があった。また、音声を登録した条件と異なる条件で認識対象単語を発声した場合には、正確に認識できず認識精度が低下するという課題があった。 Since the conventional speech recognition device is configured as described above, if the registered speech is inappropriate, such as the number of syllables of the registered speech is small, the number of vowels is low, or noise is included, There was a problem that the recognition accuracy was lowered because a sound other than the registered voice was erroneously recognized. In addition, when a recognition target word is uttered under conditions different from the conditions for registering speech, there is a problem in that recognition is not possible and recognition accuracy is reduced.
この発明は上記のような課題を解決するためになされたもので、不適切な音声が登録されることを防ぐことにより、認識精度を向上させることができる音声認識装置を得ることを目的とする。また、音声登録時と音声認識時の条件が異なる場合でも、認識精度を向上させることができる音声認識装置を得ることを目的とする。 The present invention has been made to solve the above-described problems, and an object of the present invention is to provide a speech recognition device that can improve recognition accuracy by preventing inappropriate speech from being registered. . It is another object of the present invention to provide a speech recognition apparatus that can improve the recognition accuracy even when the conditions for speech registration and speech recognition are different.
この発明に係る音声認識装置は、2音節以上の登録音声を入力して全音声区間にわたる音声変化度を計算する音声変化度計算手段と、該音声変化度計算手段により計算された音声変化度を、所定音節の単語の音声変化度の平均値と比較し、入力した上記登録音声を登録するか否かを判定する音声登録判定手段と、該音声登録判定手段による判定結果が登録不可の場合に、登録音声変更要求を出力する登録音声変更要求手段と、上記音声登録判定手段による判定結果が登録可能の場合に、入力した上記登録音声により音声標準パタンを生成する音声標準パタン生成手段とを備えたものである。
The speech recognition apparatus according to the present invention includes a speech change degree calculating means for inputting a registered speech of two or more syllables and calculating a sound change degree over the whole speech section, and a sound change degree calculated by the sound change degree calculating means. A voice registration determination unit that determines whether or not to register the input registered voice by comparing with an average value of the voice change degree of a word of a predetermined syllable, and a determination result by the voice registration determination unit is unregisterable A registration voice change request means for outputting a registration voice change request; and a voice standard pattern generation means for generating a voice standard pattern from the input registered voice when the determination result by the voice registration determination means is registerable. It is a thing.
この発明により、登録音声が不適切であることが原因の誤認識を少なくすることができ、認識精度を向上させることができるという効果が得られる。 According to the present invention, it is possible to reduce misrecognition caused by improper registered speech and to improve the recognition accuracy.
以下、この発明の実施の一形態を説明する。
実施の形態1.
図1はこの発明の実施の形態1による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は音声変化度計算手段111、音声登録判定手段112、登録音声変更要求手段113、音声登録スイッチ114、音声標準パタン生成手段115及び音声標準パタン格納手段116を備え、照合手段300は音声類似度計算手段311及び音声照合判定手段312を備えている。
An embodiment of the present invention will be described below.
1 is a block diagram showing a configuration of a speech recognition apparatus according to
登録手段100において、音声変化度計算手段111は利用者が発声した登録音声11を入力して音声変化度を計算する。音声登録判定手段112は、音声変化度計算手段111により計算された音声変化度に基づき、入力された登録音声11を登録するか否かを判定する。登録音声変更要求手段113は、音声登録判定手段112による判定結果が登録不可であった場合に、利用者に登録音声変更要求12を出力する。音声登録判定手段112は判定結果が登録可能であった場合に音声登録スイッチ114を接続し、音声標準パタン生成手段115は、登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。
In the registration means 100, the voice change degree calculation means 111 inputs the registered
また、照合手段300において、音声類似度計算手段311は、利用者が発声した認識対象音声31と音声標準パタン格納手段116に格納されている音声標準パタンを入力して音声類似度を計算する。音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度が予め設定されている閾値32以上である場合に、認識結果33を出力する。
In the matching
なお、この実施の形態1では、音声変化度計算手段111、音声登録判定手段112、登録音声変更要求手段113、音声標準パタン生成手段115、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。 In the first embodiment, the voice change degree calculation means 111, the voice registration judgment means 112, the registered voice change request means 113, the voice standard pattern generation means 115, the voice similarity degree calculation means 311 and the voice collation judgment means 312 are hard-wired. However, it is also possible to create a speech recognition program that describes the processing contents of each means and allow the computer to execute the speech recognition program.
次に動作について説明する。
図2はこの発明の実施の形態1による音声認識装置の処理の流れを示すフローチャートである。まず、音声登録時には、ステップST101において、音声変化度計算手段111は利用者が発声した登録音声11を入力し、ステップST102において、音声変化度計算手段111は音声変化度を計算する。
Next, the operation will be described.
FIG. 2 is a flowchart showing the flow of processing of the speech recognition apparatus according to
ここで、登録音声11は利用者が音声を登録するために発声する単語や文の音声である。音声認識時には、登録した音声と類似度が高い発声を行った場合に認識結果33が出力される。そして、音声変化度は1発声においてどの程度音声が変化したかを示すものであり、異なった音節が多いほど音声変化度は大きい値になる。例えば、「あ」という発声よりは、「あいうえお」という発声のほうが音声変化度が大きい。抽出方法としては、例えば入力された登録音声11の信号を10msのフレーム毎に分析して抽出したスペクトル成分の変化度によって求める。音声認識では、音声のスペクトル成分を効率的に表現するものとしてケプストラムを用いる場合が多いが、このケプストラムを用いた音声変化度dは次の式(1)によって求められる。
ステップST103において、音声登録判定手段112は、音声変化度計算手段111により計算された音声変化度dを入力し、音声変化度dが予め定めた闘値THd以上か否かを判定することにより、入力された登録音声11を登録するか否かを判定する。判定方法としては、音声変化度dが予め定めた閾値THd以上の場合に登録音声11を登録可能と判定し、一方、音声変化度dが閾値THdより小さい場合に登録音声11を登録不可と判定する。閾値THdを、例えば3音節以上の単語の音声変化度dの平均としておけば、3音節以上の単語であるならば登録が可能になる。
In step ST103, the voice registration determination means 112 receives the voice change degree d calculated by the voice change degree calculation means 111, and determines whether or not the voice change degree d is equal to or greater than a predetermined battle value THd. It is determined whether or not the
上記ステップST103で、音声登録判定手段112による判定結果が登録不可であった場合には、ステップST104において、登録音声変更要求手段113は利用者に対して登録音声変更要求12を出力する。音声変化度dが小さい場合は、登録音声11の音節数が少ないと判断されているので、このような登録音声11を用いて音声標準パタンを生成して音声認識を行った場合は、情報量が少ないために誤認識が多くなる。したがって、登録音声変更要求12を出力する。音声認識装置からの要求は、例えば、「音節数の多い単語を言ってください」というメッセージを合成音によって利用者に伝え、ステップST101に戻って登録処理を繰り返す。
If the result of determination by the voice
一方、上記ステップST103で、音声登録判定手段112による判定結果が登録可能であった場合には、ステップST105において、音声登録判定手段112は音声登録スイッチ114を接続し、音声標準パタン生成手段115は登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。生成された音声標準パタンは、入力された登録音声11の特徴を効率的に表現するものであり、例えば、5〜10msのフレーム毎に分析して得られたケプストラム、ケプストラムの動的特徴量及び対数パワーの動的特徴量の時系列である。また、ケプストラム、ケプストラムの動的特徴量及び対数パワーの動的特徴量の時系列を用いて、隠れマルコフモデル(HMM:Hidden Markov Model)を学習することにより音声標準パタンを生成することもできる。隠れマルコフモデルについては、非特許文献2の5−4節に記述されているので説明は省略する。
On the other hand, in step ST103, if the determination result by the voice
音声認識時には、ステップST106において、音声類似度計算手段311は利用者が発声した認識対象音声31を入力し、ステップST107において、音声類似度計算手段311は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、認識対象音声31に対する音声類似度を計算する。ここで、認識対象音声31は音声認識装置に音声認識をさせるために利用者が発声した音声であり、音声類似度は認識対象音声31と音声認識装置に登録されている音声標準パタンがどの程度類似しているかを示す指標である。音声標準パタンが、ケプストラム、ケプストラムの動的特徴及び対数パワーの動的特徴の時系列であるならば、認識対象音声31についても同様に、ケプストラム、ケプストラムの動的特徴及び対数パワーの動的特徴の時系列を抽出し、音声類似度は例えば動的計画法によって計算可能である。動的計画法については、非特許文献2の5−3節に詳細が記されているので説明を省略する。
At the time of speech recognition, in step ST106, the speech
ステップST108において、音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度が予め定めた閾値32以上か否かを判定する。上記ステップST108で、音声類似度が予め定めた閾値32以上ある場合には、ステップST109において、音声照合判定手段312は、音声標準パタン格納手段116に格納されている音声標準パタンに対応する音声を利用者が発声したと判断して、認識結果33を出力する。一方、上記ステップST108で、音声類似度が閾値32より小さい場合には、音声照合判定手段312は認識結果33を出力せずに、ステップST106へ戻る。
In step ST108, the voice
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a plurality of standard patterns are used for the
以上のように、この実施の形態1によれば、音声変化度計算手段111は登録音声11の音声変化度を計算し、音声登録判定手段112は、計算された音声変化度が予め定めた闘値以上の場合に、入力された登録音声11を登録することにより、音節数が少ない音声の登録を防ぐことができ、登録音声11が不適切であることが原因の誤認識、すなわち音節数が少ない音声が登録されることによって生じる誤認識を少なくすることができ、認識精度を向上させることができるという効果が得られる。
As described above, according to the first embodiment, the voice change degree calculation means 111 calculates the voice change degree of the registered
実施の形態2.
図3はこの発明の実施の形態2による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は音節数抽出手段121、音声登録判定手段122、登録音声変更要求手段113、音声登録スイッチ114、音声標準パタン生成手段115及び音声標準パタン格納手段116を備え、照合手段300は音声類似度計算手段311及び音声照合判定手段312を備えている。
Embodiment 2. FIG.
FIG. 3 is a block diagram showing the configuration of a speech recognition apparatus according to Embodiment 2 of the present invention. The speech recognition apparatus includes a
登録手段100において、音節数検出手段121は利用者が発声した登録音声11を入力して音節数を抽出する。音声登録判定手段122は、音節数抽出手段121により抽出された音節数に基づき入力された登録音声11を登録するか否かを判定する。登録音声変更要求手段113は、音声登録判定手段122による判定結果が登録不可であった場合に、利用者に登録音声変更要求12を出力する。音声登録判定手段122は、判定結果が登録可能であった場合に、音声登録スイッチ114を接続し、音声標準パタン生成手段115は、登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。
In the registration means 100, the syllable number detection means 121 inputs the registered
また、照合手段300において、音声類似度計算手段311及び音声照合判定手段312の機能は、実施の形態1の図1に示すものと同じである。
In the
なお、この実施の形態2では、音節数抽出手段121、音声登録判定手段122、登録音声変更要求手段113、音声標準パタン生成手段115、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。
In the second embodiment, the syllable
次に動作について説明する。
図4はこの発明の実施の形態2による音声認識装置の処理の流れを示すフローチャートである。まず、音声登録時には、ステップST201において、音節数抽出手段121は利用者が発声した登録音声11を入力し、ステップST202において、音節数抽出手段121は音節数を抽出する。ここで、音節は日本語においては平仮名1文字に相当する音声単位である。
Next, the operation will be described.
FIG. 4 is a flowchart showing the flow of processing of the speech recognition apparatus according to Embodiment 2 of the present invention. First, at the time of voice registration, in step ST201, the syllable number extracting means 121 inputs the registered
音節数抽出手段121の処理について、音節単位の音声認識を用いた場合で説明する。音節単位の音声認識を行うために、予め音節単位の標準パタンを用意しておく。標準パタンとしては、例えば隠れマルコフモデル(HMM)を用い、多量の音声を用いてモデルパラメータを学習しておく。
The processing of the syllable
図5は音節単位の音声認識を説明する図である。音節「あ」の隠れマルコフモデルがΛa、音節「い」の隠れマルコフモデルがΛiというようにした場合には、音節単位の音声認識は図5に示すように、音節単位の隠れマルコフモデルの全接続ネットワークにしたがって登録音声11に対して類似度計算の処理を行い、最も類似度が高くなる音節の組み合わせを音節単位の認識結果として出力する。そして、出力された音節認識結果の音節数を抽出することで音節数を得る。音節単位認識結果が、例えば「おはよう」であったならば音節数は4となる。なお、図5において、黒丸はノードを示し、矢印は遷移方向を示している。
FIG. 5 is a diagram for explaining speech recognition in syllable units. When the hidden Markov model of the syllable “A” is Λa and the hidden Markov model of the syllable “I” is Λi, the speech recognition per syllable is performed as shown in FIG. A similarity calculation process is performed on the registered
ステップST203において、音声登録判定手段122は、音節数抽出手段121により抽出された音節数が予め定めた所定個数以上であるか否かを判定することにより、入力された登録音声11を登録するかどうか判定する。判定方法としては、抽出された音節数が予め定めた所定個数以上である場合には、登録音声11を登録可能と判定し、一方、抽出された音節数が予め定めた所定個数より少ない場合には、登録音声11を登録不可と判定する。例えば、所定個数を3とし、3音節以上を登録可能と判定する。
In step ST203, the speech registration determination means 122 determines whether or not to register the input registered
上記ステップST203で、音声登録判定手段122による判定結果が登録不可であった場合には、ステップST204において、登録音声変更要求手段113は利用者に対して登録音声変更要求12を出力する。音節数が少ない登録音声11を用いて音声標準パタンを生成して音声認識を行った場合は、情報量が少ないために誤認識が多くなる。したがって、登録音声変更要求12を出力する。音声認識装置からの要求は、例えば、「音節数の多い単語を言ってください」というメッセージを合成音によって利用者に伝え、ステップST201に戻って登録処理を繰り返す。
In step ST203, if the determination result by the voice
一方、上記ステップST203で、音声登録判定手段122による判定結果が登録可能であった場合は、ステップST205において、音声登録判定手段122は音声登録スイッチ114を接続し、音声標準パタン生成手段115は登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。
On the other hand, if the determination result by the voice
音声認識時のステップST206及びステップST207における音声類似度計算手段311の処理、並びにステップST208及びステップST209における音声照合判定手段312の処理は、実施の形態1の図2に示す処理と同じである。 The processing of speech similarity calculation means 311 in steps ST206 and ST207 at the time of speech recognition and the processing of speech collation determination means 312 in steps ST208 and ST209 are the same as the processing shown in FIG. 2 of the first embodiment.
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a plurality of standard patterns are used for the
以上のように、この実施の形態2によれば、音節数抽出手段121は登録音声11の音節数を抽出し、音声登録判定手段122は、抽出された音節数が所定個数以上の場合に、登録音声11を登録することにより、登録音声11の音節数が少ない音声の登録を防ぐことができ、登録音声11が不適切であることが原因の誤認識、すなわち音節数が少ない音声が登録されることによって生じる誤認識を少なくすることができ、認識精度を向上させることができるという効果が得られる。
As described above, according to the second embodiment, the syllable
実施の形態3.
図6はこの発明の実施の形態3による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は母音尤度計算手段131、音声登録判定手段132、登録音声変更要求手段113、音声登録スイッチ114、音声標準パタン生成手段115及び音声標準パタン格納手段116を備え、照合手段300は音声類似度計算手段311及び音声照合判定手段312を備えている。
Embodiment 3 FIG.
FIG. 6 is a block diagram showing the configuration of a speech recognition apparatus according to Embodiment 3 of the present invention. The speech recognition apparatus includes a
登録手段100において、母音尤度計算手段131は利用者が発声した登録音声11を入力して母音尤度を計算する。音声登録判定手段132は、母音尤度計算手段131により計算された母音尤度に基づき入力された登録音声11を登録するか否かを判定する。登録音声変更要求手段113は、音声登録判定手段132の判定結果が登録不可であった場合に、利用者に登録音声変更要求12を出力する。音声登録判定手段132は、判定結果が登録可能であった場合に、音声登録スイッチ114を接続し、音声標準パタン生成手段115は、登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。
In the registration means 100, the vowel likelihood calculation means 131 inputs the registered
また、照合手段300において、音声類似度計算手段311及び音声照合判定手段312の機能は、実施の形態1の図1に示すものと同じである。
In the
なお、この実施の形態3では、母音尤度計算手段131、音声登録判定手段132、登録音声変更要求手段113、音声標準パタン生成手段115、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。 In the third embodiment, the vowel likelihood calculation means 131, the voice registration determination means 132, the registered voice change request means 113, the voice standard pattern generation means 115, the voice similarity calculation means 311 and the voice collation determination means 312 are hard-wired. However, it is also possible to create a speech recognition program that describes the processing contents of each means and allow the computer to execute the speech recognition program.
次に動作について説明する。
図7はこの発明の実施の形態3による音声認識装置の処理の流れを示すフローチャートである。まず、音声登録時には、ステップST301において、母音尤度計算手段131は利用者が発声した登録音声11を入力し、ステップST302において、母音尤度計算手段131は母音尤度を計算する。ここで、母音とは、口腔内で妨害による噪音をたてることなく、口の中央を流れ出る持続可能な共鳴音であると、「音声学入門」小泉保、平成8年9月、東京大学書林のp.85に定義されている。日本語では、「あ(/a/)」、「い(/i/)」、「う(/u/)」、「え(/e/)」、「お/o/」が母音に相当する。
Next, the operation will be described.
FIG. 7 is a flowchart showing the flow of processing of the speech recognition apparatus according to Embodiment 3 of the present invention. First, at the time of voice registration, in step ST301, the vowel likelihood calculating means 131 inputs the registered
母音尤度の計算方法について、HMMを用いた場合で説明する。まず、各母音「あ(/a/)」、「い(/i/)」、「う(/u/)」、「え(/e/)」、「お/o/」のHMMを多量の音声を用いて作成しておく。 A method for calculating the vowel likelihood will be described using an HMM. First, a large amount of HMM for each vowel “A (/ a /)”, “I (/ i /)”, “U (/ u /)”, “E (/ e /)”, “O / o /” Create using the voice.
図8は音節単位の音声認識を説明する図である。音節「あ」の隠れマルコフモデルがΛa、音節「い」の隠れマルコフモデルがΛiというようにした場合、これらの母音HMMを図8のように接続して登録音声11に対して母音尤度の計算を行う(尤度計算の方法は非特許文献2の第5章に記載)。この求められた尤度Pをフレーム数Nで割って正規化した値P’を母音尤度計算手段131が計算する母音尤度とする。 FIG. 8 is a diagram for explaining speech recognition in syllable units. When the hidden Markov model of syllable “A” is Λa and the hidden Markov model of syllable “I” is Λi, these vowel HMMs are connected as shown in FIG. Calculation is performed (likelihood calculation method is described in Chapter 5 of Non-Patent Document 2). A value P ′ obtained by dividing the obtained likelihood P by the number N of frames and normalized is set as a vowel likelihood calculated by the vowel likelihood calculating means 131.
ステップST303において、音声登録判定手段132は、母音尤度計算手段131により計算された母音尤度P’が予め定めた閾値以上か否かを判定することにより、入力された登録音声11を登録するか否かを判定する。判定方法としては、計算された母音尤度P’が予め定めた閾値以上である場合には登録音声11を登録可能と判定し、一方、計算された母音尤度P’が予め定めた閾値より小さい場合には、登録音声11を登録不可と判定する。
In step ST303, the speech
上記ステップST303で、音声登録判定手段132による判定結果が登録不可であった場合には、ステップST304において、登録音声変更要求手段113は利用者に対して登録音声変更要求12を出力する。母音尤度P’が低い場合は、登録音声11に母音が含まれる割合が低いと判断されているので、このような登録音声11を用いて音声標準パタンを生成して音声認識を行った場合には、情報量が少ないために誤認識が多くなる。したがって、登録音声変更要求12を出力する。音声認識装置からの要求は、例えば、「母音の多い単語を言ってください」というメッセージを合成音によって利用者に伝え、ステップST301に戻って登録処理を繰り返す。
If the result of determination by the voice
一方、上記ステップST303で、音声登録判定手段132による判定結果が登録可能であった場合には、ステップST305において、音声登録判定手段132は音声登録スイッチ114を接続し、音声標準パタン生成手段115は登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。
On the other hand, if the determination result by the voice
音声認識時のステップST306及びステップST307における音声類似度計算手段311の処理、並びにステップST308及びステップST309における音声照合判定手段312の処理は、実施の形態1の図2に示すものと同じである。 The processing of speech similarity calculation means 311 in steps ST306 and ST307 at the time of speech recognition, and the processing of speech collation determination means 312 in steps ST308 and ST309 are the same as those shown in FIG. 2 of the first embodiment.
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a plurality of standard patterns are used for the
以上のように、この実施の形態3によれば、母音尤度計算手段131は登録音声11を入力して母音尤度を計算し、音声登録判定手段132は、母音尤度が予め定めた閾値以上の登録音声11を登録することにより、登録音声11の母音の比率が低い音声の登録を防ぐことができ、登録音声11が不適切であることが原因の誤認識、すなわち母音の比率が低い音声が登録されることによって生じる誤認識が少なくなり、認識精度を向上させることができるという効果が得られる。
As described above, according to the third embodiment, the vowel
実施の形態4.
図9はこの発明の実施の形態4による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は音声標準パタン生成手段115、音声標準パタン格納手段116、周囲音類似度計算手段141、音声登録判定手段142及び登録音声変更要求手段113を備え、照合手段300は音声類似度計算手段311及び音声照合判定手段312を備えている。
Embodiment 4 FIG.
FIG. 9 is a block diagram showing a configuration of a speech recognition apparatus according to Embodiment 4 of the present invention. The speech recognition apparatus includes a
登録手段100において、音声標準パタン生成手段115は、利用者が発声した登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。周囲音類似度計算手段141は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、周囲音13に対する周囲音類似度を計算する。音声登録判定手段142は、周囲音類似度計算手段141により計算された周囲音類似度が予め定めた閾値より大きいか否かを判定することにより、登録音声11を登録するか否かを判定する。登録音声変更要求手段113は、音声登録判定手段142の判定結果が登録不可であった場合に、利用者に登録音声変更要求12を出力する。
In the
また、照合手段300において、音声類似度計算手段311及び音声照合判定手段312の機能は、実施の形態1の図1に示すものと同じである。
In the
なお、この実施の形態4では、音声標準パタン生成手段115、周囲音類似度計算手段141、音声登録判定手段142、登録音声変更要求手段113、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。 In the fourth embodiment, the voice standard pattern generation means 115, the ambient sound similarity calculation means 141, the voice registration determination means 142, the registered voice change request means 113, the voice similarity calculation means 311 and the voice collation determination means 312 are provided. Although it may be configured by hardware, a voice recognition program describing the processing contents of each means may be created, and the computer may execute the voice recognition program.
次に動作について説明する。
図10はこの発明の実施の形態4による音声認識装置の処理の流れを示すフローチャートである。まず、音声登録時には、ステップST401において、音声登録パタン生成手段115は利用者が発声した登録音声11を入力し、ステップST402において、音声登録パタン生成手段115は登録音声11により音声標準パタンを生成して音声標準パタン格納手段116に格納する。
Next, the operation will be described.
FIG. 10 is a flowchart showing the flow of processing of the speech recognition apparatus according to Embodiment 4 of the present invention. First, at the time of voice registration, in step ST401, the voice registration pattern generation means 115 inputs the registered
ステップST403において、周囲音類似度計算手段141は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、周囲音13に対する周囲音類似度を計算する。ここで、周囲音は音声認識装置が設置されている場所の音である。周囲音類似度計算手段141で実行する処理は、登録音声11が発声された直後や、一定時間間隔、例えば1時間間隔で行う。
In step ST403, the ambient sound
ステップST404において、音声登録判定手段142は周囲音類似度計算手段141により計算された周囲音類似度が予め定めた閾値より大きいか否かを判定することにより、入力された登録音声11を登録するか否かを判定する。判定方法としては、周囲音類似度が予め定めた閾値以下の場合には、登録音声11を登録可能と判定し、一方、周囲音類似度が予め定めた閾値より大きい場合には、登録音声11を登録不可と判定する。
In step ST404, the voice
上記ステップST404で、音声登録判定手段142の判定結果が登録不可であった場合には、ステップST405において、登録音声変更要求手段113は利用者に対して登録音声変更要求12を出力する。上記ステップST404で、周囲音類似度計算手段141により計算された周囲音類似度が闘値より大きければ、登録音声11によって生成した音声標準パタンは、周囲音13を誤って認識してしまう可能性が高い。したがって、登録音声変更要求12を出力する。音声認識装置からの要求は、例えば、「別の単語を言ってください」というメッセージを合成音によって利用者に伝え、ステップST401に戻って登録処理を繰り返す。
If the result of determination by the voice
一方、上記ステップST404で、音声登録判定手段142による判定結果が登録可能であった場合は登録を終了する。
On the other hand, in step ST404, if the determination result by the voice
音声認識時のステップST406及びステップST407における音声類似度計算手段311の処理、並びにステップST408及びステップST409における音声照合判定手段312の処理は、実施の形態1の図2に示すものと同じである。 The processing of the speech similarity calculation means 311 in steps ST406 and ST407 at the time of speech recognition and the processing of the speech collation determination means 312 in steps ST408 and ST409 are the same as those shown in FIG. 2 of the first embodiment.
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a plurality of standard patterns are used for the
以上のように、この実施の形態4によれば、周囲音類似度計算手段141は入力された登録音声11により生成された音声標準パタンを用いて周囲音に対する周囲音類似度を計算し、音声登録判定手段142は計算された周囲音類似度が闘値以下の場合に、入力された登録音声11を登録することにより、周囲音を誤認識しやすい音声標準パタンの登録防ぐことができ、登録音声11が不適切であることが原因の誤認識、すなわち周囲音と似た音声が登録されることによって生じる誤認識が少なくすることができ、認識精度を向上させることができるという効果が得られる。
As described above, according to the fourth embodiment, the ambient sound
実施の形態5.
図11はこの発明の実施の形態5による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は音声標準パタン生成手段115、音声標準パタン格納手段116、周囲音類似度計算手段141、周囲音再生判定手段151、周囲音再生スイッチ152、周囲音再生手段153及び登録音声変更要求手段113を備え、照合手段300は音声類似度計算手段311及び音声照合判定手段312を備えている。
Embodiment 5 FIG.
FIG. 11 is a block diagram showing the structure of a speech recognition apparatus according to Embodiment 5 of the present invention. The speech recognition apparatus includes a
登録手段100において、音声標準パタン生成手段115は登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。周囲音類似度計算手段141は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、周囲音13に対して周囲音類似度を計算する。周囲音再生判定手段151は、周囲音類似度計算手段141により計算された周囲音類似度が予め定めた閾値以上の場合に周囲音を再生すると判定し、周囲音再生スイッチ152を接続する。周囲音再生手段153は、周囲音再生判定手段151による判定結果が再生であった場合に周囲音13を再生して再生音14を出力する。登録音声変更要求手段113は、再生音を聞いた利用者が騒音と判断した場合に、騒音確認15を入力して利用者に登録音声変更要求12を出力する。
In the
また、照合手段300において、音声類似度計算手段311及び音声照合判定手段312の機能は、実施の形態1の図1に示すものと同じである。
In the
なお、この実施の形態5では、音声標準パタン生成手段115、周囲音類似度計算手段141、周囲音再生判定手段151、周囲音再生手段153、登録音声変更要求手段113、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。 In the fifth embodiment, the sound standard pattern generation means 115, the ambient sound similarity calculation means 141, the ambient sound reproduction determination means 151, the ambient sound reproduction means 153, the registered sound change request means 113, and the sound similarity calculation means 311. The voice collation determination means 312 may be configured by hardware, but a voice recognition program describing the processing contents of each means may be created and the computer may execute the voice recognition program.
次に動作について説明する。
図12はこの発明の実施の形態5による音声認識装置の処理内容を示すフローチャートである。まず、音声登録時には、ステップST501において、音声標準パタン生成手段115は利用者の登録音声11を入力し、ステップST502において、音声標準パタン生成手段115は登録音声11により音声標準パタンを生成して音声標準パタン格納手段116に格納する。
Next, the operation will be described.
FIG. 12 is a flowchart showing the processing contents of the speech recognition apparatus according to Embodiment 5 of the present invention. First, at the time of voice registration, in step ST501, the voice standard pattern generation means 115 inputs the user's registered
ステップST503において、周囲音類似度計算手段141は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、周囲音13に対する周囲音類似度を計算する。
In step ST503, the ambient sound
ステップST504において、周囲音再生判定手段151は、周囲音類似度計算手段141により計算された周囲音類似度が予め定めた閾値以上か否かを判定することにより、周囲音を再生して利用者に聞かせるか否かを判定する。判定方法としては、周囲音類似度が予め定めた閾値以上の場合の場合には、周囲音を再生すると判定する。
In step ST504, the ambient sound
上記ステップST504で、周囲音を再生すると判定した場合には、ステップST505において、周囲音再生判定手段151は周囲音再生スイッチ152を接続し、周囲音再生手段153は周囲音13を入力し再生音14を出力することにより利用者に再生音14を聞かせる。
If it is determined in step ST504 that the ambient sound is to be reproduced, in step ST505, the ambient sound reproduction determination means 151 is connected to the ambient
ステップST506において、利用者は再生音14を聞き、登録した発声と異なるならば騒音であると判定し、騒音確認15という判定結果を音声認識装置に通知し、ステップST507において、登録音声変更要求手段113は騒音確認15を入力して利用者に対して登録音声変更要求12を出力する。音声認識装置からの要求は、例えば、「別の単語を言ってください」というメッセージを合成音によって利用者に伝え、ステップST501に戻って登録処理を繰り返す。このように、利用者が再生音14を聞いて騒音と判断した場合だけ登録音声変更要求12を出力するので、周囲音類似度計算手段141が周囲音類似度計算の際に、偶然に利用者が登録音声11と同一の発声をした場合に登録音声変更要求12が出力されて、誤って音声標準パタンを変更することがなくなる。
In step ST506, the user listens to the reproduced
上記ステップST504で、周囲音再生判定手段151の判定結果が再生不要と判定されるか、又は、上記ステップST506で、周囲音再生手段153から出力された再生音14が騒音ではないと判定された場合には、音声登録処理を終了する。
In step ST504, it is determined that the determination result of the ambient sound
音声認識時のステップST508及びステップST509における音声類似度計算手段311の処理、並びにステップST510及びステップST511における音声照合判定手段312の処理は、実施の形態1の図2に示すものと同じである。 The processing of speech similarity calculation means 311 in steps ST508 and ST509 at the time of speech recognition and the processing of speech collation determination means 312 in steps ST510 and ST511 are the same as those shown in FIG. 2 of the first embodiment.
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a plurality of standard patterns are used for the
以上のように、この実施の形態5によれば、周囲音類似度計算手段141は入力された登録音声11により生成された音声標準パタンを用いて周囲音に対する周囲音類似度を計算し、周囲音再生判定手段151は計算された周囲音類似度が閾値以上の場合の場合に周囲音を再生させ、周囲音が騒音であることを確認した利用者から変更された登録音声11を入力することにより、周囲音を誤認識しやすい音声標準パタンの登録防ぐことができ、登録音声11が不適切であることが原因の誤認識、すなわち周囲音と似た音声が登録されることによって生じる誤認識が少なくすることができ、認識精度を向上させることができるという効果が得られる。
As described above, according to the fifth embodiment, the ambient sound
また、この実施の形態5によれば、利用者が再生音14を聞いて騒音と判断した場合だけ登録音声変更要求12を出力するので、周囲音類似度計算手段141が周囲音類似度計算の際に、偶然に利用者が登録音声11と同一の発声をした場合に登録音声変更要求12が出力されて、誤って音声標準パタンを変更することがなくなるという効果が得られる。
Further, according to the fifth embodiment, since the registered
実施の形態6.
図13はこの発明の実施の形態6による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は音声標準パタン生成手段115、音声標準パタン格納手段116、周囲音類似度計算手段141、周囲音再生判定手段151、周囲音再生スイッチ152、周囲音再生手段153、騒音標準パタン生成手段161及び騒音標準パタン格納手段162を備え、照合手段300は音声類似度計算手段311、騒音類似度計算手段361及び音声照合判定手段362を備えている。
Embodiment 6 FIG.
FIG. 13 is a block diagram showing the structure of a speech recognition apparatus according to Embodiment 6 of the present invention. The speech recognition apparatus includes a
登録手段100において、音声標準パタン生成手段115、音声標準パタン格納手段116、周囲音類似度計算手段141、周囲音再生判定手段151、周囲音再生スイッチ152、周囲音再生手段153は、実施の形態5の図11に示すものと同じ機能を有している。騒音標準パタン生成手段161は、利用者による騒音確認15を入力し、周囲音13を入力し騒音標準パタンを生成して騒音標準パタン格納手段162に格納する。
In the registration means 100, the voice standard pattern generation means 115, the voice standard pattern storage means 116, the ambient sound similarity calculation means 141, the ambient sound reproduction determination means 151, the ambient
また、照合手段300において、音声類似度計算手段311は、利用者が発声した認識対象音声31と音声標準パタン格納手段116に格納されている音声標準パタンを入力し音声類似度を計算する。騒音類似度計算手段361は、利用者が発声した認識対象音声31と騒音標準パタン格納手段162に格納されている騒音標準パタンを入力し、騒音類似度を計算する。音声照合判定手段362は、音声類似度計算手段311により計算された音声類似度と、騒音類似度計算手段361により計算された騒音類似度を入力し、音声類似度が音声類似度閾値34以上であり、騒音類似度が騒音類似度閾値35以下ならば認識結果33を出力する。
Further, in the collating means 300, the voice similarity calculating means 311 inputs the
なお、この実施の形態6では、音声標準パタン生成手段115、周囲音類似度計算手段141、周囲音再生判定手段151、周囲音再生手段153、騒音標準パタン生成手段161、音声類似度計算手段311、騒音類似度計算手段361及び音声照合判定手段362をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。
In the sixth embodiment, the voice standard
次に動作について説明する。
図14はこの発明の実施の形態6による音声認識装置の処理の流れを示すフローチャートである。まず、音声登録時には、ステップST601において、音声標準パタン生成手段115は利用者が発声した登録音声11を入力し、ステップST602において、音声標準パタン生成手段115は登録音声11により音声標準パタンを生成して音声標準パタン格納手段116に格納する。
Next, the operation will be described.
FIG. 14 is a flowchart showing the flow of processing of the speech recognition apparatus according to Embodiment 6 of the present invention. First, at the time of voice registration, in step ST601, the voice standard pattern generation means 115 inputs the registered
ステップST603において、周囲音類似度計算手段141は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、周囲音13に対する周囲音類似度を計算する。
In step ST <b> 603, the ambient sound
ステップST604において、周囲音再生判定手段151は、周囲音類似度計算手段141により計算された周囲音類似度が予め定めた閾値以上か否かを判定することにより、周囲音13を再生して利用者に聞かせるか否かを判定する。判定方法としては、周囲音類似度が予め定めた閾値以上である場合には、周囲音を再生すると判定する。
In step ST604, the ambient sound
上記ステップST604で、周囲音を再生すると判定した場合には、ステップST605において、周囲音再生判定手段151は、周囲音再生スイッチ152を接続し、周囲音再生手段153は周囲音13を入力して再生音14を出力し、利用者に再生音14を聞かせる。
If it is determined in step ST604 that ambient sound is to be reproduced, in step ST605, the ambient sound reproduction determining means 151 is connected to the ambient
ステップST606において、利用者は再生音14を聞き、登録した発声と異なるならば騒音であると判定し、ステップST607において、騒音確認15という判定結果を音声認識装置に通知し、騒音標準パタン生成手段161は騒音確認15に基づき周囲音13を入力し騒音標準パタンを生成して騒音標準パタン格納手段162に格納する。騒音標準パタンは例えばHMMを用い、HMMのパラメータを周囲音13によって学習することで生成できる。このように、音声標準パタンと誤認識しやすい騒音を、騒音標準パタンとして登録して、認識時に騒音類似度を計算することにより、騒音を誤認識したかどうかの判定が可能となる。また、利用者が再生音14を聞いて騒音と判断した場合だけ騒音標準パタンを生成するので、周囲音類似度計算手段141が周囲音類似度を計算する際に、偶然、利用者が登録音声11と同一の発声をした場合に、誤って利用者の音声を用いて騒音標準パタンを生成することがない。
In step ST606, the user hears the reproduced
上記ステップST604で、周囲音再生判定手段151による判定結果が再生不要の場合、又は上記ステップST606で、周囲音再生手段153の出力である再生音14が騒音ではないと判定された場合には、登録処理を終了する。
When the determination result by the ambient sound
音声認識時には、ステップST608において、音声類似度計算手段311は認識対象音声31を入力し、ステップST609において、音声類似度計算手段311は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、認識対象音声31に対する音声類似度を計算する。
At the time of speech recognition, the speech
ステップST610において、騒音類似度計算手段361は、認識対象音声31を入力し、騒音標準パタン格納手段162に格納されている騒音標準パタンを用いて認識対象音声31に対する騒音類似度を計算する。
In step ST610, the noise
ステップST611において、音声照合判定手段362は、音声類似度計算手段311により計算された音声類似度と、騒音類似度計算手段361により計算された騒音類似度を入力し、音声類似度が音声類似度閾値34以上で、かつ騒音類似度が騒音類似度閾値35以下であるか否かを判断する。ステップST611で、音声類似度が音声類似度閾値34以上で、かつ騒音類似度が騒音類似度閾値35以下である場合に、ステップST612において、音声照合判定手段362は、音声標準パタン格納手段116に格納されている音声標準パタンに対応する音声を利用者が発声したと判断し、認識結果33を出力する。一方、ステップST611で、音声類似度が音声類似度閾値34より小さいか、又は騒音類似度が騒音類似度閾値35より大きい場合には、音声照合判定手段362は認識結果33を出力せず、ステップST608に戻る。
In step ST611, the speech
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成して、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、音声類似度が音声類似度閾値34以上、騒音類似度が騒音類似度閾値35以下で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described, but at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a voice using a plurality of standard patterns for the
以上のように、この実施の形態6によれば、騒音標準パタン生成手段161は音声標準パタンと誤認識しやすく騒音と判定された周囲音により騒音標準パタンを生成して登録し、音声認識時には、騒音類似度計算手段361は騒音類似度を計算し、音声照合判定手段362は計算された騒音類似度を用いて音声照合を行うことにより、騒音を誤認識したかどうかの判定が可能となり、認識精度を向上させることができるという効果が得られる。
As described above, according to the sixth embodiment, the noise standard
また、この実施の形態6によれば、利用者が再生音14を聞いて騒音と判断した場合だけ騒音標準パタンを生成するので、周囲音類似度計算手段141が周囲音類似度計算の際に、偶然、利用者が登録音声11と同一の発声をした場合に、誤って利用者の音声を用いて騒音標準パタンを生成することがなくなるので、認識精度を向上させることができるという効果が得られる。
Further, according to the sixth embodiment, since the noise standard pattern is generated only when the user hears the reproduced
実施の形態7.
図15はこの発明の実施の形態7による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は騒音標準パタン格納手段171、騒音類似度計算手段172、音声登録判定手段173、登録音声変更要求手段113、音声登録スイッチ114、音声標準パタン生成手段115及び音声標準パタン格納手段116を備え、照合手段300は音声類似度計算手段311及び音声照合判定手段312を備えている。
Embodiment 7 FIG.
FIG. 15 is a block diagram showing the configuration of a speech recognition apparatus according to Embodiment 7 of the present invention. The speech recognition apparatus includes a
登録手段100において、騒音標準パタン格納手段171は予め用意された騒音標準パタンを格納している。騒音類似度計算手段172は、登録音声11を入力し、騒音標準パタン格納手段171に格納されている騒音標準パタンを用いて、登録音声11に対する騒音類似度を計算する。音声登録判定手段173は、騒音類似度計算手段172により計算された騒音類似度が予め定めた閾値以上か否かを判定することにより、登録音声11を登録するか否かを判定する。音声登録判定手段173による判定結果が登録不可であった場合に、登録音声変更要求手段113は利用者に登録音声変更要求12を出力する。音声登録判定手段173は、判定結果が登録可能であった場合に音声登録スイッチ114を接続し、音声標準パタン生成手段115は登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。
In the
また、照合手段300において、音声類似度計算手段311及び音声照合判定手段312の機能は、実施の形態1の図1に示すものと同じである。
In the
なお、この実施の形態7では、騒音類似度計算手段172、音声登録判定手段173、登録音声変更要求手段113、音声標準パタン生成手段115、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。
In the seventh embodiment, the noise
次に動作について説明する。
図16はこの発明の実施の形態7による音声認識装置の処理の流れを示すフローチャートである。まず、音声登録時には、ステップST701において、騒音類似度計算手段172は利用者が発声した登録音声11を入力し、ステップST702において、騒音類似度計算手段172は、騒音標準パタン格納手段171に格納されている騒音標準パタンを用いて、登録音声11に対する騒音類似度を計算する。ここで、騒音標準パタンは、音声以外の騒音を入力した場合に高い類似度を出力するように作成されたものである。例えば、1状態の混合分布型HMMを用い、騒音を学習データとしてHMMの学習を行うことで生成しておく。騒音類似度の計算は、標準パタンが1状態の混合分布型HMMであるならば、上記非特許文献2の5章で説明されている方法で類似度を計算する。
Next, the operation will be described.
FIG. 16 is a flowchart showing the flow of processing of the speech recognition apparatus according to Embodiment 7 of the present invention. First, at the time of voice registration, in step ST701, the noise similarity calculation means 172 inputs the registered
ステップ703において、音声登録判定手段173は、騒音類似度計算手段172により計算された騒音類似度が予め定めた閾値以上か否かを判定することにより、登録音声11を登録するか否かを判定する。判定方法としては、騒音類似度が予め定めた閾値以上の場合には音声登録不可と判定し、一方、騒音類似度が閾値より小さい場合には音声登録可能と判定する。
In step 703, the voice
上記ステップ703で、音声登録判定手段173による判定結果が登録不可であった場合には、ステップST704において、登録音声変更要求手段113は利用者に対して登録音声変更要求12を出力する。騒音類似度計算手段172により計算された騒音類似度が闘値以上の場合には、登録音声11によって生成した音声標準パタンは騒音を誤認識してしまう可能性が高い。したがって登録音声変更要12を出力する。音声認識装置からの要求は、例えば、「別の単語を言ってください」というメッセージを合成音によって利用者に伝え、ステップST701に戻って登録処理を繰り返す。
If the determination result by the voice
一方、上記ステップ703で、音声登録判定手段173による判定結果が登録可能であった場合には、ステップST705において、音声登録判定手段173は音声登録スイッチ114を接続し、音声標準パタン生成手段115は登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。
On the other hand, if the determination result by the voice
音声認識時のステップST706及びステップST707における音声類似度計算手段311の処理、並びにステップST708及びステップST709における音声照合判定手段312の処理は、実施の形態1の図2に示すものと同じである。 The processing of speech similarity calculation means 311 in steps ST706 and ST707 during speech recognition and the processing of speech collation determination means 312 in steps ST708 and ST709 are the same as those shown in FIG. 2 of the first embodiment.
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。 Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances. It is also possible to calculate the degree and output the utterance number indicating the standard pattern having the largest voice similarity with a voice similarity of 32 or more as a recognition result.
以上のように、この実施の形態7によれば、騒音類似度計算手段172は騒音標準パタンを用いて登録音声11に対する騒音類似度を計算し、音声登録判定手段173は計算された騒音類似度を用いて登録音声11を登録するか否かを判定することにより、騒音を誤認識しやすい音声標準パタンの登録を防ぐことができ、登録音声11が不適切であることが原因の誤認識、すなわち騒音と似た音声標準パタンが登録されることによって生じる誤認識を少なくすることができ、認識精度を向上させることができるという効果が得られる。
As described above, according to the seventh embodiment, the noise
実施の形態8.
図17はこの発明の実施の形態8による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は音声標準パタン生成手段115、音声標準パタン格納手段116、別使用状態用音声標準パタン生成手段181及び別使用状態用音声標準パタン格納手段182を備え、照合手段300は音声類似度計算手段311、別使用状態音声類似度計算手段381及び音声照合判定手段382を備えている。
Embodiment 8 FIG.
FIG. 17 is a block diagram showing the configuration of a speech recognition apparatus according to Embodiment 8 of the present invention. The speech recognition apparatus includes a
登録手段100において、音声標準パタン生成手段115は登録音声11を入力し音声標準パタンを生成して音声標準パタン格納手段116に格納する。別使用状態用音声標準パタン生成手段181は、音声標準パタン格納手段116に格納されている音声標準パタンを入力し別使用状態用音声標準パタンを生成して別使用状態用音声標準パタン格納手段182に格納する。
In the
また、照合手段300において、音声類似度計算手段311は、利用者が発声した認識対象音声11と音声標準パタン格納手段116に格納されている音声標準パタンを入力し音声類似度を計算する。別使用状態音声類似度計算手段381は、利用者が発声した認識対象音声11と別使用状態用音声標準パタン格納手段182に格納されている別使用状態用音声標準パタンを入力し、別使用状態音声類似度を計算する。音声照合判定手段382は、音声類似度計算手段311により計算された音声類似度と別使用状態音声類似度計算手段381により計算された別使用状態音声類似度を入力し、音声類似度又は別使用状態音声類似度が閾値32以上であるならば認識結果33を出力する。
In the
なお、この実施の形態8では、音声標準パタン生成手段115、別使用状態用音声標準パタン生成手段181、音声類似度計算手段311、別使用状態音声類似度計算手段381及び音声照合判定手段382をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。 In the eighth embodiment, the voice standard pattern generation means 115, the separate use state voice standard pattern generation means 181, the voice similarity calculation means 311, the separate use state voice similarity calculation means 381, and the voice collation determination means 382 are provided. Although it may be configured by hardware, a voice recognition program describing the processing contents of each means may be created, and the computer may execute the voice recognition program.
次に動作について説明する。
図18はこの発明の実施の形態8による音声認識装置の処理の流れを示すフローチャートである。まず、音声登録時には、ステップST801において、音声登録パタン生成手段115は利用者が発声した登録音声11を入力し、ステップST802において、音声登録パタン生成手段115は登録音声11により音声標準パタンを生成して音声標準パタン格納手段116に格納する。
Next, the operation will be described.
FIG. 18 is a flowchart showing the flow of processing of the speech recognition apparatus according to Embodiment 8 of the present invention. First, at the time of voice registration, in step ST801, the voice registration pattern generation means 115 inputs the registered
ステップST803において、別使用状態用音声標準パタン生成手段181は、音声標準パタン格納手段116に格納されている音声標準パタンを入力し、別使用状態用音声標準パタンを生成して別使用状態用音声標準パタン格納手段182に格納する。ここで、別使用状態とは、登録音声11を入力した使用状態とは異なる状態で認識対象音声31を入力する場合である。
In step ST803, the separate use state sound standard
図19はカメラ付き携帯電話の外観を示す図である。例えば、図19に示すようなカメラ付き携帯電話に音声認識装置を適用し、音声によってカメラのシャッターを切る装置においては、一般的に登録音声11は携帯電話の表に正対してマイク孔に向かって入力されるが、撮影の際の自分撮りの場合には携帯電話の裏に正対し、マイク孔の逆向きから認識対象音声31が入力されることになり、別使用状態となる。
FIG. 19 is a diagram showing the appearance of a camera-equipped mobile phone. For example, in a device in which a voice recognition device is applied to a camera-equipped mobile phone as shown in FIG. 19 and the camera shutter is released by voice, the registered
ここで、別使用状態用音声標準パタンの生成方法について説明する。別使用状態用音声標準パタンは、登録音声11を入力する場合の入力の周波数特性と、別使用状態における入力の周波数特性の差を予め求めておき、この差を用いて音声標準パタンから生成する。
図20は音声入力の周波数特性を説明する図である。図20(a)は登録音声11を入力する場合の周波数特性、図20(b)は別使用状態における入力の周波数特性、図20(c)は図20(a)と図20(b)の周波数特性の差である。この図の例では、図20(a)の音声標準パタンから、図20(c)の周波数特性を引くことにより、図20(b)の別使用状態用音声標準パタンが生成される。
Here, a method of generating another use state voice standard pattern will be described. The different use state voice standard pattern is generated in advance from the voice standard pattern by previously obtaining the difference between the input frequency characteristic when the registered
FIG. 20 is a diagram illustrating the frequency characteristics of voice input. 20A shows the frequency characteristics when the registered
音声標準パタンを構成するものとして、フレーム毎に分析されたケプストラムがあるならば、次の式(2)によって別使用状態用音声標準パタンのケプストラムが生成される。
音声認識時には、図18のステップST804において、音声類似度計算手段311は認識対象音声11を入力し、ステップST805において、音声類似度計算手段311は音声標準パタン格納手段116に格納されている音声標準パタンを用いて、認識対象音声11に対する音声類似度を計算する。
During speech recognition, the speech similarity calculation means 311 inputs the
ステップST806において、別使用状態音声類似度計算手段381は認識対象音声31を入力し、別使用状態用音声標準パタン格納手段182に格納されている別使用状態用音声標準パタンを用いて、認識対象音声11に対する別使用状態音声類似度を計算する。
In step ST806, the different usage state voice similarity calculation means 381 inputs the
ステップST807において、音声照合判定手段382は、音声類似度計算手段311により計算された音声類似度と、別使用状態音声類似度計算手段381により計算された別使用状態音声類似度を入力し、音声類似度、別使用状態音声類似度の一方又は両方が予め定めた閾値32以上であるか否かを判定する。上記ステップST807で、音声類似度、別使用状態音声類似度の一方又は両方が予め定めた閾値32以上である場合には、ステップST808において、音声照合判定手段382は認識結果33を出力する。一方、上記ステップST807で、音声類似度、別使用状態音声類似度の両方が閾値32より小さい場合に、音声照合判定手段382は認識結果33を出力せず、ステップST804に戻る。
In step ST807, the voice
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタン及び別使用状態用音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタン及び別使用状態用音声標準パタンを用いて音声類似度及び別使用状態音声類似度を計算し、音声類似度又は別使用状態音声類似度が閾値32以上で、音声類似度又は別使用状態音声類似度が最も大きい標準パタンを示す発声番号を認識結果として出力することも可能である。 Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern and a different usage state voice standard pattern are generated for a plurality of different utterances, and at the time of voice recognition, a plurality of recognition target voices 31 are generated. The voice similarity and the different use state voice similarity are calculated using the standard pattern and the different use state voice standard pattern, and the voice similarity or the different use state voice similarity is greater than or equal to the threshold 32, and the voice similarity or the other use It is also possible to output the utterance number indicating the standard pattern having the highest state voice similarity as the recognition result.
以上のように、この実施の形態8によれば、別使用状態用音声標準パタン生成手段181は、登録音声11が入力された状態とは別使用状態の別使用状態用音声標準パタンを生成し、別使用状態音声類似度計算手段381は別使用状態用音声標準パタンを用いて認識対象音声31に対する別使用状態音声類似度を計算し、音声照合判定手段382は別使用状態音声類似度も考慮して認識結果33を出力することにより、別使用状態による周波数特性の違いによって類似度が低くなることが原因の誤認識が少なくなり、認識精度を向上させることがきるという効果が得られる。
As described above, according to the eighth embodiment, the separate usage state voice standard
実施の形態9.
図21はこの発明の実施の形態9による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は顔標準パタン生成手段191、顔標準パタン格納手段192、通常使用状態用音声標準パタン生成手段193、通常使用状態用音声標準パタン格納手段194、別使用状態用音声標準パタン生成手段195及び別使用状態用音声標準パタン格納手段196を備え、照合手段300は顔類似度計算手段391、顔判定手段392、音声標準パタン選択手段393、音声類似度計算手段311及び音声照合判定手段312を備えている。
Embodiment 9 FIG.
FIG. 21 is a block diagram showing the structure of a speech recognition apparatus according to Embodiment 9 of the present invention. The speech recognition apparatus includes a
登録手段100において、顔標準パタン生成手段191は、利用者の登録顔画像16を入力し、顔標準パタンを生成して顔標準パタン格納手段192に格納する。通常使用状態用音声標準パタン生成手段193は、利用者が発声した通常使用状態用登録音声17を入力し、通常使用状態用音声標準パタンを生成して通常使用状態用音声標準パタン格納手段194に格納する。別使用状態用音声標準パタン生成手段195は、利用者が発声した別使用状態用登録音声18を入力し、別使用状態用音声標準パタンを生成して別使用状態用音声標準パタン格納手段196に格納する。
In the
また、照合手段300において、顔類似度計算手段391は、認識対象画像36と顔標準パタン格納手段192に格納されている顔標準パタンを入力して顔類似度を計算する。顔判定手段392は、顔類似度計算手段391により計算された顔類似度が予め定めた閾値以上か否かを判定することにより、登録した利用者が写っているか否かを判定する。音声標準パタン選択手段393は、顔判定手段392による判定結果を入力し、通常使用状態用音声標準パタン格納手段194に格納されている通常使用状態用音声標準パタン、又は別使用状態用音声標準パタン格納手段196に格納されている別使用状態用音声標準パタンを音声標準パタンとして選択する。音声類似度計算手段311は、利用者が発声した認識対象音声31と、音声標準パタン選択手段393により選択された音声標準パタンを入力して、音声類似度を計算する。音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度を入力し、音声類似度が閾値32以上である場合に認識結果33を出力する。
In the
なお、この実施の形態9では、顔標準パタン生成手段191、通常使用状態用音声標準パタン生成手段193、別使用状態用音声標準パタン生成手段195、顔類似度計算手段391、顔判定手段392、音声標準パタン選択手段393、音声類似度計算手段3111及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。
In the ninth embodiment, the face standard pattern generation means 191, the normal use state sound standard pattern generation means 193, the separate use state sound standard pattern generation means 195, the face similarity calculation means 391, the face determination means 392, The voice standard
次に動作について説明する。
図22はこの発明の実施の形態9による音声認識装置の処理の流れを示すフローチャートである。ここでは、図19に示すカメラ付き携帯電話に音声認識装置を搭載した場合を例にとって説明する。まず、音声登録時には、ステップST901において、顔標準パタン生成手段191は利用者の登録顔画像16を入力し、ステップST902において、顔標準パタン生成手段191は登録顔画像16により顔標準パタンを生成して顔標準パタン格納手段192に格納する。ここで、登録顔画像16は利用者の顔をカメラを使って入力したものである。顔標準パタンは、例えば特開2000−99722号公報、人物顔認識装置及び人物顔認識方法に記載されている方法で生成可能である。
Next, the operation will be described.
FIG. 22 is a flowchart showing the flow of processing of the speech recognition apparatus according to Embodiment 9 of the present invention. Here, a case where a voice recognition device is mounted on the camera-equipped mobile phone shown in FIG. 19 will be described as an example. First, at the time of voice registration, the face standard pattern generation means 191 inputs the user's registered
ステップST903において、通常使用状態用音声標準パタン生成手段193は利用者が発声した通常使用状態用登録音声17を入力し、ステップST904において、通常使用状態用音声標準パタン生成手段193は通常使用状態用登録音声17により通常使用状態用音声標準パタンを生成して通常使用状態用音声標準パタン格納手段194に格納する。ここで、通常使用状態用登録音声17は、例えば図19に示すようなカメラ付き携帯電話に音声認識装置を搭載する場合は、携帯電話のマイク孔がある面(表面)に正対して発声する登録音声である。したがって、カメラには利用者が写っていない状態における発声である。音声認識時には、通常使用状態用音声標準パタンが、携帯電話のマイク孔がある面(表面)に正対している場合に用いる音声標準パタンとなる。
In step ST903, the normal use state voice standard pattern generation means 193 inputs the normal use state registered
ステップST905において、別使用状態用音声標準パタン生成手段195は利用者が発声した別使用状態用登録音声18を入力し、ステップST906において、別使用状態用音声標準パタン生成手段195は別使用状態用登録音声18により別使用状態用音声標準パタンを生成して別使用状態用音声標準パタン格納手段196に格納する。ここで、別使用状態用登録音声18は、通常使用状態用登録音声17とは、利用者とマイクとの位置関係が異なる場合の登録音声である。例えば図19に示すようなカメラ付き携帯電話に音声認識装置を搭載する場合は、携帯電話のマイク孔がない面(裏面)に正対して発声する登録音声である。したがって、カメラに利用者が写る状態における発声である。音声認識時には、別使用状態用音声標準パタンが携帯電話のマイク孔が無い面(裏面)に正対している場合に用いる音声標準パタンとなる。
In step ST905, the separate use state voice standard pattern generation means 195 inputs the separate use
音声認識時には、ステップST907において、顔類似度計算手段391は、認識対象画像36を入力し、ステップST908において、顔類似度計算手段391は顔標準パタン格納手段192に格納されている顔標準パタンを用いて認識対象画像36に対する顔類似度を計算する。ここで、認識対象画像36は、音声認識時にカメラから入力される画像である。顔類似度は、例えば上記特開2000−99722号公報に記載されている方法で計算する。
During speech recognition, the face
ステップST909において、顔判定手段392は、顔類似度計算手段391により計算された顔類似度が予め定めた閾値以上か否かを判定することにより、利用者がカメラに写っているか否かを判定する。上記ステップST909で、顔類似度が予め定めた閾値以上の場合には、利用者がカメラに写っていると判定し、一方、顔類似度が閾値より小さい場合には、利用者がカメラに写っていないと判定する。
In step ST909, the
上記ステップST909で、顔類似度が予め定めた閾値より小さく、利用者がカメラに写っていないと判定した場合には、ステップST910において、音声標準パタン選択手段393は通常使用状態用音声標準パタン格納手段194に格納されている通常使用状態用音声標準パタンを音声標準パタンとして選択する。一方、上記ステップST909で、顔類似度が予め定めた閾値以上で、利用者がカメラに写っていると判定した場合には、ステップST911において、音声標準パタン選択手段393は別使用状態用音声標準パタン格納手段196に格納されている別使用状態用音声標準パタンを音声標準パタンとして選択する。
If it is determined in step ST909 that the face similarity is smaller than a predetermined threshold and the user is not in the camera, the voice standard
ステップST912において、音声類似度計算手段311は認識対象音声31を入力し、ステップST913において、音声類似度計算手段311は、音声標準パタン選択手段393により選択された音声標準パタンを用いて、認識対象音声31に対する音声類似度を計算する。
In step ST912, the speech
ステップST914において、音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度が予め定めた閾値32以上か否かを判定する。上記ステップST914で、音声類似度が閾値32以上である場合には、ステップST915において、音声照合判定手段312は、通常使用状態用音声標準パタン格納手段194に格納されている通常使用状態用音声標準パタン又は別使用状態用音声標準パタン格納手段196に格納されている別使用状態用音声標準パタンに対応する音声を利用者が発声したと判断して認識結果33を出力する。一方、上記ステップST914で、音声類似度が閾値32より小さい場合には、音声照合判定手段312は認識結果33を出力せず、ステップST907に戻る。
In step ST914, the speech
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について通常使用状態用音声標準パタン及び別使用状態用音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の通常使用状態用音声標準パタン、又は別使用状態用音声標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で、最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。 Here, the case of only one utterance has been described. However, at the time of voice registration, a normal use state voice standard pattern and a separate use state voice standard pattern are respectively generated for a plurality of different utterances. The voice similarity is calculated using a plurality of normal use state voice standard patterns or different use state voice standard patterns, and the voice similarity is equal to or greater than the threshold 32 and indicates the standard pattern having the highest voice similarity. It is also possible to output the utterance number as a recognition result.
以上のように、この実施の形態9によれば、顔類似度計算手段391は認識時にカメラ画像を入力して顔類似度計算を行い、顔判定手段392は顔類似度によってカメラに利用者が写っているか否かを判定し、音声標準パタン選択手段393は、顔判定手段392の判定結果である利用者が写っているか否かにより、通常使用状態用音声標準パタン又は別使用状態用音声標準パタンを音声標準パタンとして選択し、音声類似度計算手段311は選択された音声標準パタンを用いて認識対象音声31に対する音声類似度を計算することにより、使用状態が異なることで生じる周波数特性の違いによって、音声類似度が低くなることが原因の誤認識を少なくすることができ、認識精度を向上させることがきるという効果が得られる。
As described above, according to the ninth embodiment, the face
実施の形態10.
図23はこの発明の実施の形態10による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は通常使用状態用音声標準パタン生成手段193、通常使用状態用音声標準パタン格納手段194、別使用状態用音声標準パタン生成手段195及び別使用状態用音声標準パタン格納手段196を備え、照合手段300は回転検出手段401、音声標準パタン選択手段402、音声類似度計算手段311及び音声照合判定手段312を備えている。
Embodiment 10 FIG.
FIG. 23 is a block diagram showing the structure of a speech recognition apparatus according to Embodiment 10 of the present invention. The speech recognition apparatus includes a
登録手段100において、通常使用状態用音声標準パタン生成手段193は、利用者が発声した通常使用状態用登録音声17を入力し、通常使用状態用音声標準パタンを生成して通常使用状態用音声標準パタン格納手段194に格納する。別使用状態用音声標準パタン生成手段195は、利用者が発声した別使用状態用登録音声18を入力し、別使用状態用音声標準パタンを生成して別使用状態用音声標準パタン格納手段196に格納する。
In the
また、照合手段300において、回転検出手段401は、カメラ付き携帯電話に設置されている加速度センサ37からの信号を入力し、音声認識装置が回転したか否かを検出する。音声標準パタン選択手段402は、回転検出手段401により判定された音声認識装置が回転したか否かの結果を入力し、通常使用状態用音声標準パタン格納手段194に格納されている通常使用状態用音声標準パタン又は別使用状態用音声標準パタン格納手段196に格納されている別使用状態用音声標準パタンを音声標準パタンとして選択する。音声類似度計算手段311は、利用者が発声した認識対象音声31と音声標準パタン選択手段402により選択された音声標準パタンを入力し音声類似度を計算する。音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度が閾値32以上の場合には認識結果33を出力する。
Further, in the collating means 300, the rotation detecting means 401 inputs a signal from the
なお、この実施の形態10では、通常使用状態用音声標準パタン生成手段193、別使用状態用音声標準パタン生成手段195、回転検出手段401、音声標準パタン選択手段402、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。
In the tenth embodiment, normal use state voice standard pattern generation means 193, separate use state voice standard pattern generation means 195, rotation detection means 401, voice standard pattern selection means 402, voice similarity calculation means 311 and The voice
次に動作について説明する。
図24はこの発明の実施の形態10による音声認識装置の処理の流れを示すフローチャートである。ここでは、図19に示すカメラ付き携帯電話に音声認識装置を搭載した場合を例にとって説明する。まず、音声登録時には、ステップST1001において、通常使用状態用音声標準パタン生成手段193は利用者が発声した通常使用状態用登録音声17を入力し、ステップST1002において、通常使用状態用音声標準パタン生成手段193は通常使用状態用登録音声17により通常使用状態用音声標準パタンを生成して通常使用状態用音声標準パタン格納手段194に格納する。通常使用状態用登録音声17は、例えば、図19に示すような携帯電話に音声認識装置を搭載する場合には、携帯電話のマイク孔がある面(表面)に正対して発声する登録音声である。したがって、音声認識時には、通常使用状態用音声標準パタンが、携帯電話のマイク孔がある面(表面)に正対している場合に用いる音声標準パタンとなる。
Next, the operation will be described.
FIG. 24 is a flowchart showing a process flow of the speech recognition apparatus according to the tenth embodiment of the present invention. Here, a case where a voice recognition device is mounted on the camera-equipped mobile phone shown in FIG. 19 will be described as an example. First, at the time of voice registration, in step ST1001, the normal use state voice standard pattern generation means 193 inputs the normal use
ステップST1003において、別使用状態用音声標準パタン生成手段195は、利用者が発声した別使用状態用登録音声18を入力し、ステップST1004において、別使用状態用音声標準パタン生成手段195は別使用状態用登録音声18により別使用状態用音声標準パタンを生成して別使用状態用音声標準パタン格納手段196に格納する。ここで、別使用状態用登録音声18は、通常使用状態用登録音声17とは利用者とマイクとの位置関係が異なる場合の登録音声である。例えば、図19に示すようなカメラ付き携帯電話に音声認識装置を搭載する場合は、携帯電話のマイク孔が無い面(裏面)に正対して発声する登録音声である。したがって、音声認識時には、別使用状態用音声標準パタンが、携帯電話のマイク孔が無い面(裏面)に正対している場合に用いる音声標準パタンとなる。
In step ST1003, the separate use state voice standard
音声認識時には、ステップST1005において、回転検出手段401は加速度センサ37から角度変化量を入力し、ステップST1006において、回転検出手段401は音声認識装置が回転したか否かを検出する。回転したかどうかの判定は、音声認識装置を起動した初期状態から、音声認識装置が一定角度以上回転したかどうかを判定するものである。例えば、図19のようなカメラ付き携帯電話に音声認識装置を搭載する場合で、音声認識装置の起動は表面に正対した状態で行うものとした場合には、回転角度が90度以上であるならば裏面に向かい合っている状態であるとして回転したと判定する。なお、加速度センサ37による角度変化量の検出は、例えば特許第3076124号公報に記載している方法によって可能である。
At the time of voice recognition, in step ST1005, the
上記ステップST1006で回転しないと判定された場合には、ステップST1007において、音声標準パタン選択手段402は通常使用状態用音声標準パタン格納手段194に格納されている通常使用状態用音声標準パタンを音声標準パタンとして選択する。一方、上記ステップST1006で、回転したと判定された場合には、ステップST1008において、音声標準パタン選択手段402は別使用状態用音声標準パタン格納手段196に格納されている別使用状態用音声標準パタンを音声標準パタンとして選択する。
If it is determined in step ST1006 that it does not rotate, in step ST1007, the voice standard
ステップST1009において、音声類似度計算手段311は、認識対象音声31を入力し、ステップST1010において、音声類似度計算手段311は、音声標準パタン選択手段402により選択された音声標準パタンを用いて、認識対象音声31に対する音声類似度を計算する。
In step ST1009, the speech
ステップST1011において、音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度が予め定めた閾値32以上か否かを判定する。上記ステップST1011で、音声類似度が閾値32以上と判定された場合には、ステップST1012において、音声照合判定手段312は、通常使用状態用音声標準パタン格納手段194に格納されている通常使用状態用音声標準パタン、又は別使用状態用音声標準パタン格納手段196に格納されている別使用状態用音声標準パタンに対応する音声を利用者が発声したと判断して認識結果33を出力する。一方、上記ステップST1011で、音声類似度が閾値32より小さいと判定された場合には、音声照合判定手段312は認識結果33を出力せず、ステップST1005に戻る。
In step ST1011, the voice
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について通常使用状態用音声標準パタン及び別使用状態用音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の通常使用状態用音声標準パタン又は複数の別使用状態用音声標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で、最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。 Here, the case of only one utterance has been described. However, at the time of voice registration, a normal use state voice standard pattern and a separate use state voice standard pattern are respectively generated for a plurality of different utterances. The voice similarity is calculated using a plurality of normal use state sound standard patterns or a plurality of separate use state sound standard patterns, and the standard pattern having the highest sound similarity with a sound similarity of 32 or more is calculated. It is also possible to output the indicated utterance number as a recognition result.
以上のように、この実施の形態10によれば、音声標準パタン選択手段402は、回転検出手段401により検出された音声認識装置の回転の有無に基づき、通常使用状態用音声標準パタン又は別使用状態用音声標準パタンを音声標準パタンとして選択し、音声類似度計算手段311は選択された音声標準パタンを用いて認識対象音声31に対する音声類似度を計算することにより、使用状態が異なることで生じる周波数特性の違いによって、音声類似度が低くなることが原因の誤認識を少なくすることができ、認識精度を向上させることがきるという効果が得られる。
As described above, according to the tenth embodiment, the speech standard
実施の形態11.
図25はこの発明の実施の形態11による音声認識装置の構成を示すブロック図である。この音声認識装置は登録手段100及び照合手段300を備えている。登録手段100は顔標準パタン生成手段191、顔標準パタン格納手段192、音声標準パタン生成手段115及び音声標準パタン格納手段116を備え、照合手段300は顔類似度計算手段391、顔判定手段392、マイク指向性設定手段411、音声類似度計算手段311及び音声照合判定手段312を備えている。
FIG. 25 is a block diagram showing the structure of a speech recognition apparatus according to
登録手段100において、顔標準パタン生成手段191は、利用者の登録顔画像16を入力し、顔標準パタンを生成して顔標準パタン格納手段192に格納する。音声標準パタン生成手段115は、利用者が発声した登録音声11を入力し、音声標準パタンを生成して音声標準パタン格納手段116に格納する。
In the
照合手段300において、顔類似度計算手段391は、認識対象画像36と顔標準パタン格納手段192に格納されている顔標準パタンを入力して顔類似度を計算する。顔判定手段392は、顔類似度計算手段391により計算された顔類似度が予め定めた閾値以上か否かを判定することにより、利用者がカメラに写っている否かを判定する。マイク指向性設定手段411は、顔判定手段392による判定結果を入力してマイクの指向性を設定し、設定された指向性が得られるようにマイクを駆動するための設定信号38を出力する。音声類似度計算手段311は、利用者が発声した認識対象音声31を指向性が設定されたマイクを介して入力し、音声標準パタン格納手段116に格納されている音声標準パタンを入力して音声類似度を計算する。音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度が閾値32以上である場合に認識結果33を出力する。
In the
なお、この実施の形態11では、顔標準パタン生成手段191、音声標準パタン生成手段115、顔類似度計算手段391、顔判定手段392、マイク指向性設定手段411、音声類似度計算手段311及び音声照合判定手段312をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。
In the eleventh embodiment, face standard pattern generation means 191, voice standard pattern generation means 115, face similarity calculation means 391, face determination means 392, microphone directivity setting means 411, sound similarity calculation means 311 and sound. Although the
次に動作について説明する。
図26はこの発明の実施の形態11による音声認識装置の処理の流れを示すフローチャートである。ここでは、図19に示すカメラ付き携帯電話に音声認識装置を搭載した場合を例にとり説明する。まず、音声登録時には、ステップST1101において、顔標準パタン生成手段191は、利用者の登録顔画像16を入力し、ステップST1102において、顔標準パタン生成手段191は登録顔画像16により顔標準パタンを生成して顔標準パタン格納手段192に格納する。ここで、登録顔画像16は利用者の顔をカメラを使って入力したものである。
Next, the operation will be described.
FIG. 26 is a flowchart showing the flow of processing of the speech recognition apparatus according to
ステップST1103において、音声標準パタン生成手段115は利用者が発声した登録音声11を入力する。ステップST1104において、音声標準パタン生成手段115は登録音声11により音声標準パタンを生成して音声標準パタン格納手段116に格納する。
In step ST1103, the voice standard pattern generation means 115 inputs the registered
音声認識時には、ステップST1105において、顔類似度計算手段391は認識対象画像36を入力し、ステップST1106において、顔類似度計算手段391は、顔標準パタン格納手段192に格納されている顔標準パタンを用いて、認識対象画像36に対する顔類似度を計算する。
At the time of speech recognition, the face
ステップST1107において、顔判定手段392は、顔類似度計算手段391により計算された顔類似度が予め定めた閾値以上か否かを判定することにより、利用者がカメラに写っている否かを判定する。ここでは、顔類似度が予め定めた閾値以上ならば、利用者がカメラに写っていると判定し、一方、顔類似度が閾値より小さいならば、利用者がカメラに写っていないと判定する。
In step ST1107, the
上記ステップST1107で、顔類似度が閾値以上で、利用者がカメラに写っていると判定された場合には、ステップST1108において、マイク指向性設定手段411は、カメラと同一方向に、すなわち裏面にマイク指向性を設定して、設定された指向性が得られるような設定信号38を出力する。一方、上記ステップST1107で、顔類似度が閾値より小さく、利用者がカメラに写っていないと判定された場合には、ステップST1109において、マイク指向性設定手段411は、カメラと反対方向に、すなわち表面にマイク指向性を設定して、設定された指向性が得られるような設定信号38を出力する。
If it is determined in step ST1107 that the face similarity is equal to or greater than the threshold and the user is in the camera, in step ST1108, the microphone
ここで、マイク指向性とは、ある方向の音に対して感度が強いことである。したがって感度の強い方向から認識対象音声31が入力されれば、周囲の騒音に比べてパワーが大きく入力され、信号対雑音比が大きいために高い認識率が得られる。例えば、図19のようなカメラ付き携帯電話の場合では、顔判定手段392による判定結果が、利用者が写っていると判定された場合には、カメラが向いている方向、すなわち裏面にマイク指向性を設定する。一方、顔判定手段392による判定結果が、利用者が写っていないと判定された場合には、カメラが向いていない方向、すなわち表面にマイク指向性を設定する。
Here, the microphone directivity is a high sensitivity to sound in a certain direction. Therefore, if the
ステップST1110において、音声類似度計算手段311は指向性が設定されたマイクを介して認識対象音声31を入力し、ST1111において、音声類似度計算手段311は、音声標準パタン格納手段116に格納されている音声標準パタンを用いて、認識対象音声31に対する音声類似度を計算する。
In step ST1110, the speech
ステップST1112において、音声照合判定手段312は、音声類似度計算手段311により計算された音声類似度が予め定めた閾値32以上か否かを判定する。上記ステップST1112で、音声類似度が閾値32以上と判定された場合には、ステップST1113において、音声照合判定手段312は、音声標準パタン格納手段116に格納されている音声標準パタンに対応する音声を利用者が発声したと判断し、認識結果33を出力する。一方、上記ステップST1112で、音声類似度が閾値32より小さいと判定された場合には、音声照合判定手段312は認識結果33を出力せず、ステップST1105に戻る。
In step ST1112, the speech
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の音声標準パタンを用いて音声類似度を計算し、音声類似度が閾値32以上で最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described, but at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a plurality of voice standard patterns are used for the
以上のように、この実施の形態11によれば、顔類似度計算手段391は認識対象画像36を入力して顔類似度を計算し、顔判定手段392は顔類似度によってカメラに利用者が写っているか否かを判定し、マイク指向性設定手段411は利用者が写っているか否かでマイクの指向性を設定し、音声類似度計算手段311が指向性が設定されたマイクを介して認識対象音声31を入力することにより、使用状態が異なることで生じる信号対雑音比の低下や周波数特性の違いによって、音声類似度が低くなることが原因の誤認識を少なくすることができ、認識精度を向上させることがきるという効果が得られる。
As described above, according to the eleventh embodiment, the face
実施の形態12.
図27はこの発明の実施の形態12による音声認識装置の構成を示すブロック図である。この音声認識装置は、登録手段100及び照合手段300を備え、上記実施の形態1の図1に示す音声認識装置と比較して、照合手段300において遅延処理手段421を備えている点が異なっているのみで、その他の構成は同じである。ここで、遅延処理手段421は音声照合判定手段312から出力された認識結果33を入力し、一定時間経った後に処理開始信号39を出力する。
FIG. 27 is a block diagram showing the structure of a speech recognition apparatus according to
なお、この実施の形態12では、音声変化度計算手段111、音声登録判定手段112、登録音声変更要求手段113、音声標準パタン生成手段115、音声類似度計算手段311、音声照合判定手段312及び遅延処理手段421をハードウェアで構成しても良いが、各手段の処理内容を記述した音声認識プログラムを作成し、コンピュータが当該音声認識プログラムを実行するようにしても良い。
In the twelfth embodiment, the voice change calculation means 111, the voice registration determination means 112, the registered voice change request means 113, the voice standard pattern generation means 115, the voice similarity calculation means 311, the voice collation determination means 312 and the delay. The
次に動作について説明する。
図28はこの発明の実施の形態12による音声認識装置の処理の流れを示すフローチャートである。ここでは、図19に示すカメラ付き携帯電話に音声認識装置を搭載した場合を例にとって説明する。音声登録時のステップST1201からステップST1205までの処理、及び音声認識時のステップST1206からステップST1209までの処理は、上記実施の形態1の図2に示すステップST101からステップST109までの処理と同じである。
Next, the operation will be described.
FIG. 28 is a flowchart showing the flow of processing of the speech recognition apparatus according to
ステップST1210において、遅延処理手段421は、音声照合判定手段312による認識結果33を入力して、一定時間経った後に処理開始信号39を出力する。このような処理により、発声が終了する前に次の処理への移行を防ぐことができる。したがって、カメラのシャッターを音声認識によって切るような装置で、自分を撮影する場合に、発声中の顔が写ることを防止できる。
In step ST1210, the
ここでは、1発声のみの場合について説明したが、音声登録時には、複数の異なる発声について音声標準パタンを各々生成し、音声認識時には、認識対象音声31に対して複数の標準パタンを用いて音声類似度を計算し、最も音声類似度が大きい標準パタンを示す発声番号を認識結果として出力することも可能である。
Here, the case of only one utterance has been described. However, at the time of voice registration, a voice standard pattern is generated for each of a plurality of different utterances, and at the time of voice recognition, a plurality of standard patterns are used for the
以上のように、この実施の形態12によれば、上記実施の形態1と同様の効果が得られると共に、遅延処理手段421は、音声照合判定手段312による認識結果33を入力して、一定時間経った後に処理開始信号39を出力することにより、発声中に次の処理に移行しては不具合となる場合を防ぐことができるという効果が得られる。
As described above, according to the twelfth embodiment, the same effect as in the first embodiment can be obtained, and the
この実施の形態12では、上記実施の形態1の構成に遅延処理手段421を追加しているが、上記実施の形態2から上記実施の形態11の構成に遅延処理手段421を追加しても同様の効果が得られる。 In the twelfth embodiment, the delay processing means 421 is added to the configuration of the first embodiment, but the same applies even if the delay processing means 421 is added to the configurations of the second to eleventh embodiments. The effect is obtained.
11 登録音声、12 登録音声変更要求、13 周囲音、14 再生音、15 騒音確認、16 登録顔画像、17 通常使用状態用登録音声、18 別使用状態用登録音声、31 認識対象音声、32 闘値、33 認識結果、34 音声類似度闘値、35 騒音類似度闘値、36 認識対象画像、37 加速度センサ、38 設定信号、39 処理開始信号、100 登録手段、111 音声変化度計算手段、112 音声登録判定手段、113 登録音声変更要求手段、114 音声登録スイッチ、115 音声標準パタン生成手段、116 音声標準パタン格納手段、121 音節数抽出手段、122 音声登録判定手段、131 母音尤度計算手段、132 音声登録判定手段、141 周囲音類似度計算手段、142 音声登録判定手段、151 周囲音再生判定手段、152 周囲音再生スイッチ、153 周囲音再生手段、161 騒音標準パタン生成手段、162 騒音標準パタン格納手段、171 騒音標準パタン格納手段、172 騒音類似度計算手段、173 音声登録判定手段、181 別使用状態用音声標準パタン生成手段、182 別使用状態用音声標準パタン格納手段、191 顔標準パタン生成手段、192 顔標準パタン格納手段、193 通常使用状態用音声標準パタン生成手段、194 通常使用状態用音声標準パタン格納手段、195 別使用状態用音声標準パタン生成手段、196 別使用状態用音声標準パタン格納手段、300 照合手段、311 音声類似度計算手段、312 音声照合判定手段、361 騒音類似度計算手段、362 音声照合判定手段、381 別使用状態音声類似度計算手段、382 音声照合判定手段、391 顔類似度計算手段、392 顔判定手段、393 音声標準パタン選択手段、401 回転検出手段、402 音声標準パタン選択手段、411 マイク指向性設定手段、421 遅延処理手段。 11 Registration voice, 12 Registration voice change request, 13 Ambient sound, 14 Playback sound, 15 Noise confirmation, 16 Registration face image, 17 Normal use state registration voice, 18 Separate use state registration voice, 31 Recognition target voice, 32 Fight Value, 33 recognition result, 34 voice similarity threshold, 35 noise similarity threshold, 36 recognition target image, 37 acceleration sensor, 38 setting signal, 39 processing start signal, 100 registration means, 111 voice change degree calculation means, 112 Voice registration determination means, 113 registration voice change request means, 114 voice registration switch, 115 voice standard pattern generation means, 116 voice standard pattern storage means, 121 syllable number extraction means, 122 voice registration judgment means, 131 vowel likelihood calculation means, 132 voice registration determination means, 141 ambient sound similarity calculation means, 142 voice registration determination means, 151 Ambient sound reproduction determination means, 152 Ambient sound reproduction switch, 153 Ambient sound reproduction means, 161 Noise standard pattern generation means, 162 Noise standard pattern storage means, 171 Noise standard pattern storage means, 172 Noise similarity calculation means, 173 Voice registration determination Means, 181 Voice standard pattern generation means for different use states, 182 Voice standard pattern storage means for different use states, 191 Face standard pattern generation means, 192 Face standard pattern storage means, 193 Voice standard pattern generation means for normal use states, 194 Normal use state speech standard pattern storage means, 195 Separate use state speech standard pattern generation means, 196 Separate use state speech standard pattern storage means, 300 collation means, 311 Speech similarity calculation means, 312 Speech collation determination means, 361 Noise similarity calculation means, 362 voice collation determination means, 38 Separate use state voice similarity calculation means, 382 voice collation determination means, 391 face similarity calculation means, 392 face determination means, 393 voice standard pattern selection means, 401 rotation detection means, 402 voice standard pattern selection means, 411 microphone directivity Setting means, 421 Delay processing means.
Claims (2)
該音声変化度計算手段により計算された音声変化度を、所定音節の単語の音声変化度の平均値と比較し、入力した上記登録音声を登録するか否かを判定する音声登録判定手段と、
該音声登録判定手段による判定結果が登録不可の場合に、登録音声変更要求を出力する登録音声変更要求手段と、
上記音声登録判定手段による判定結果が登録可能の場合に、入力した上記登録音声により音声標準パタンを生成する音声標準パタン生成手段とを備えた音声認識装置。 A voice change degree calculating means for inputting a registered voice of two or more syllables and calculating a voice change degree over the whole voice section ;
A voice registration determination means for comparing the voice change degree calculated by the voice change degree calculation means with an average value of the voice change degrees of words of a predetermined syllable and determining whether or not to register the input registered voice;
A registration voice change requesting means for outputting a registration voice change request when the judgment result by the voice registration judgment means is not registerable;
A speech recognition apparatus comprising speech standard pattern generation means for generating a speech standard pattern from the input registered speech when the determination result by the speech registration determination means can be registered.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004360162A JP4699016B2 (en) | 2004-12-13 | 2004-12-13 | Voice recognition device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2004360162A JP4699016B2 (en) | 2004-12-13 | 2004-12-13 | Voice recognition device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2006171111A JP2006171111A (en) | 2006-06-29 |
| JP4699016B2 true JP4699016B2 (en) | 2011-06-08 |
Family
ID=36671977
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2004360162A Expired - Fee Related JP4699016B2 (en) | 2004-12-13 | 2004-12-13 | Voice recognition device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4699016B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4807261B2 (en) * | 2007-01-09 | 2011-11-02 | ヤマハ株式会社 | Voice processing apparatus and program |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPS61177000A (en) * | 1985-01-31 | 1986-08-08 | 株式会社リコー | Audio pattern registration method |
| JPH0792993A (en) * | 1993-09-20 | 1995-04-07 | Fujitsu Ltd | Voice recognizer |
-
2004
- 2004-12-13 JP JP2004360162A patent/JP4699016B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2006171111A (en) | 2006-06-29 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11948571B2 (en) | Wakeword selection | |
| RU2439716C2 (en) | Detection of telephone answering machine by voice recognition | |
| US10402500B2 (en) | Device and method for voice translation | |
| CN106796785B (en) | Sound sample validation for generating sound detection models | |
| KR102196400B1 (en) | Determining hotword suitability | |
| US9754586B2 (en) | Methods and apparatus for use in speech recognition systems for identifying unknown words and for adding previously unknown words to vocabularies and grammars of speech recognition systems | |
| CN106233374B (en) | Keyword model generation for detecting user-defined keywords | |
| CN102428716B (en) | Hearing aid apparatus | |
| CN104217149A (en) | Biometric authentication method and equipment based on voice | |
| EP0800158B1 (en) | Word spotting | |
| US20140337024A1 (en) | Method and system for speech command detection, and information processing system | |
| JP4237713B2 (en) | Audio processing device | |
| KR102394912B1 (en) | Apparatus for managing address book using voice recognition, vehicle, system and method thereof | |
| CN106710585A (en) | Method and system for broadcasting polyphonic characters in voice interaction process | |
| KR20170141970A (en) | Electronic device and method thereof for providing translation service | |
| US20170270923A1 (en) | Voice processing device and voice processing method | |
| CN114596846B (en) | Methods, devices, electronic equipment, and storage media for speech recognition text processing. | |
| JP4004716B2 (en) | Speech pattern model learning device, speech pattern model learning method, computer readable recording medium recording speech pattern model learning program, speech recognition device, speech recognition method, and computer readable recording medium recording speech recognition program | |
| KR102414626B1 (en) | Foreign language pronunciation training and evaluation system | |
| KR101840363B1 (en) | Voice recognition apparatus and terminal device for detecting misprononced phoneme, and method for training acoustic model | |
| JP4699016B2 (en) | Voice recognition device | |
| ES2233350T3 (en) | METHODS AND APPLIANCES TO TEST THE INTEGRITY OF THE USER INTERFACE IN VOCALLY ACTIVATED DEVICES. | |
| WO2021134592A1 (en) | Speech processing method, apparatus and device, and storage medium | |
| WO2007114346A1 (en) | Speech recognition device | |
| CN113053415B (en) | Method, device, equipment and storage medium for detecting continuous reading |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070704 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20071011 |
|
| RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080722 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100406 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100420 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100608 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100817 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101012 |
|
| A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101109 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110119 |
|
| A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20110201 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110222 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110302 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4699016 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| LAPS | Cancellation because of no payment of annual fees |