JP6824554B2 - Speech recognition system - Google Patents
Speech recognition system Download PDFInfo
- Publication number
- JP6824554B2 JP6824554B2 JP2017159823A JP2017159823A JP6824554B2 JP 6824554 B2 JP6824554 B2 JP 6824554B2 JP 2017159823 A JP2017159823 A JP 2017159823A JP 2017159823 A JP2017159823 A JP 2017159823A JP 6824554 B2 JP6824554 B2 JP 6824554B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- voice
- word
- candidate
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007704 transition Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 description 42
- 230000008569 process Effects 0.000 description 34
- 238000011156 evaluation Methods 0.000 description 15
- 230000010365 information processing Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 230000007423 decrease Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Landscapes
- Navigation (AREA)
Description
本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。 The present invention relates to a voice recognition technique for recognizing a user's spoken voice.
ユーザの発話音声を認識する音声認識の技術としては、楽曲等のオーディオコンテンツの音声をスピーカから出力するオーディオ装置を備えたシステムに、マイクロフォンでピックアップしたユーザの発話音声を認識する第1の音声認識部に加え、オーディオ装置がスピーカに出力する音声の音声認識を行う第2の音声認識部を設け、第1の音声認識部が音声認識した結果と、第2の音声認識部が音声認識した結果とが一致した場合に、第1の音声認識部が音声認識した結果を無効化する技術が知られている(たとえば、特許文献1)。 As a voice recognition technology for recognizing a user's voice, a first voice recognition that recognizes a user's voice picked up by a microphone in a system equipped with an audio device that outputs the voice of audio content such as music from a speaker. In addition to the unit, a second voice recognition unit that performs voice recognition of the voice output by the audio device to the speaker is provided, and the result of voice recognition by the first voice recognition unit and the result of voice recognition by the second voice recognition unit. There is known a technique for invalidating the result of voice recognition by the first voice recognition unit when the above is the same (for example, Patent Document 1).
このような技術によれば、マイクロフォンに回りこんだオーディオ装置の出力音声に対しても行われてしまう第1の音声認識部の音声認識の結果を、ユーザの発話音声の音声認識の結果として誤認してしまうことを抑止することができる。 According to such a technique, the result of the voice recognition of the first voice recognition unit, which is also performed for the output voice of the audio device that wraps around the microphone, is misidentified as the result of the voice recognition of the user's spoken voice. It can be prevented from doing so.
また、ユーザの発話音声を認識する音声認識の技術としては、コマンドの音声認識を行うシステムにおいて、音声認識の候補となるコマンドのセットを前回音声認識したコマンドに応じて変化させながら、第1の音声認識手段で、音声認識の候補となるコマンドのセット中のコマンドの音声認識を行いつつ、第2の音声認識手段で、前回音声認識の候補であったコマンドのセット中のコマンドの音声認識を行うことにより、今回音声認識の候補となっているコマンドのセットのコマンドの音声認識に加え、ユーザが言い直した前回音声認識の候補であったコマンドのセット中のコマンドの音声認識も行う技術も知られている(たとえば、特許文献2)。 In addition, as a voice recognition technology for recognizing a user's voice, in a system that performs voice recognition of commands, the first method is to change a set of commands that are candidates for voice recognition according to the command that was previously voice-recognized. The voice recognition means performs voice recognition of the commands in the set of commands that are candidates for voice recognition, while the second voice recognition means performs voice recognition of the commands in the set of commands that were candidates for voice recognition last time. By doing so, in addition to voice recognition of the commands of the set of commands that are candidates for voice recognition this time, there is also a technology that also performs voice recognition of the commands in the set of commands that were candidates for voice recognition last time that the user rephrased. It is known (for example, Patent Document 2).
さて、各々語句や文などのワードである複数の認識候補について音声認識を行う場合、発音が類似している認識候補については誤認識が生じ易い。
そこで、本発明は、複数の認識候補について音声認識を行う際に、発音が類似している認識候補が存在する場合にも、より適正に音声認識を行えるようにすることを課題とする。
By the way, when voice recognition is performed for a plurality of recognition candidates that are words such as words and sentences, erroneous recognition is likely to occur for recognition candidates having similar pronunciations.
Therefore, an object of the present invention is to enable more appropriate voice recognition even when there are recognition candidates having similar pronunciations when performing voice recognition for a plurality of recognition candidates.
前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、入力した音声に所定レベルより良好に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、
第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを設けたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第2認識候補として登録されており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と当該ワードの抜粋部分である第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。
In order to achieve the above object, the present invention includes a microphone, a first voice recognition dictionary in which a plurality of first recognition candidates that are words are registered, and the microphone in a voice recognition system that recognizes a voice spoken by a user. The first recognition candidate that inputs the picked-up voice and detects the first recognition candidate that matches the input voice better than a predetermined level from the plurality of first recognition candidates registered in the first voice recognition dictionary as the target candidate. Voice recognition means, second voice recognition means,
A second voice recognition dictionary used by the second voice recognition means and a recognition means are provided. Here, the voice recognition system has a single or a plurality of recognition modes including a first recognition mode, and the second voice recognition dictionary used by the second voice recognition means in the first recognition mode , The word excerpt part, which is a part whose pronunciation is not common to other words of a plurality of words having a partially common pronunciation, which is registered as a first recognition candidate in the first speech recognition dictionary, is a second recognition candidate. In the first recognition mode, the second voice recognition means inputs the voice picked up by the microphone, and among the plurality of second recognition candidates registered in the second voice recognition dictionary. Therefore, a second recognition candidate that matches the input voice better than a predetermined level is detected as a target candidate, and in the first recognition mode, the recognition means is registered as the first recognition candidate in the first voice recognition dictionary. For each of the words, the first recognition candidate, which is the word, and the second recognition candidate, which is an excerpt of the word, detected as the target candidates by the first voice recognition means and the second voice recognition means. The number of words is calculated, and the word with the largest calculated number is recognized as the word spoken by the user.
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いて、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より強力に識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。 According to such a speech recognition system, the evaluation of the consistency with the spoken speech focusing only on the part whose pronunciation is different from that of other words was added to consideration by using the first speech recognition dictionary and the second speech recognition dictionary. By comprehensive evaluation, it is possible to perform speech recognition of words registered in the first speech recognition dictionary in a form of more strongly identifying a plurality of words having similar pronunciations.
また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数、各第1認識候補に各々対応する複数の第1しきい値と共に登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、対応する第1しきい値が示すレベルより良好に入力した音声に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを備えたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードが各々第2認識候補として、当該各第2認識候補に各々対応する複数の第2しきい値と共に登録されており、前記第1の認識モードにおいて、前記第2音声認識辞書に登録された各第2認識候補に対応する第2しきい値は、当該第2認識候補として登録されたワードと同じワードである第1認識候補に対応する第1しきい値より良好な整合のレベルを示しており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、対応する第2しきい値が示すレベルより良好に入力した音声に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。 Further, in order to achieve the above object, the present invention has a voice recognition system that recognizes a voice spoken by a user, a plurality of microphones, a plurality of first recognition candidates that are words, and a plurality of corresponding first recognition candidates. The first voice recognition dictionary registered together with the first threshold value and the voice picked up by the microphone are input, and the corresponding first recognition candidate is selected from the plurality of first recognition candidates registered in the first voice recognition dictionary. A second voice recognition means used by a first voice recognition means, a second voice recognition means, and a second voice recognition means that detects a first recognition candidate that matches a voice input better than a level indicated by one threshold as a target candidate. It is equipped with a voice recognition dictionary and recognition means. Here, the voice recognition system has a single or a plurality of recognition modes including a first recognition mode, and the second voice recognition dictionary used by the second voice recognition means in the first recognition mode , The same word as the plurality of words registered as the first recognition candidate in the first voice recognition dictionary is registered as the second recognition candidate together with the plurality of second threshold values corresponding to each of the second recognition candidates. In the first recognition mode, the second threshold value corresponding to each second recognition candidate registered in the second voice recognition dictionary is the same word as the word registered as the second recognition candidate. It shows a level of matching better than the first threshold value corresponding to the first recognition candidate, and in the first recognition mode, the second voice recognition means inputs the voice picked up by the microphone. , The second recognition candidate that matches the input voice better than the level indicated by the corresponding second threshold value is detected as the target candidate from the plurality of second recognition candidates registered in the second voice recognition dictionary. In the first recognition mode, the recognition means uses the first voice recognition means and the second voice recognition means for each word registered as a first recognition candidate in the first voice recognition dictionary. The number of the first recognition candidate and the second recognition candidate, which are the words detected as the target candidates, is calculated, and the word with the largest calculated number is recognized as the word spoken by the user.
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いた異なるしきい値による評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。 According to such a speech recognition system, a plurality of words having similar pronunciations can be obtained by comprehensive evaluation in consideration of evaluation by different thresholds using the first speech recognition dictionary and the second speech recognition dictionary. It is possible to perform voice recognition of words registered in the first voice recognition dictionary in a form of more accurate identification.
また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数、各第1認識候補に各々対応する複数の第1しきい値と共に登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、対応する第1しきい値が示すレベルより良好に入力した音声に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、前記第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを設けたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分と、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードとが各々第2認識候補として、当該各第2認識候補に各々対応する複数の第2しきい値と共に登録されており、前記第1の認識モードにおいて、前記第2音声認識辞書に登録された、前記第1認識候補として登録されているワードと同じワードである第2認識候補に対応する第2しきい値は、当該第2認識候補として登録されたワードと同じワードである第1認識候補に対応する第1しきい値より良好な整合のレベルを示しており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、対応する第2しきい値が示すレベルより良好に入力した音声に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と当該ワードである第2認識候補と当該ワードの抜粋部分である第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識する。 Further, in order to achieve the above object, the present invention has a voice recognition system that recognizes a voice spoken by a user, a plurality of microphones, a plurality of first recognition candidates that are words, and a plurality of corresponding first recognition candidates. The first voice recognition dictionary registered together with the first threshold value and the voice picked up by the microphone are input, and the corresponding first recognition candidate is selected from the plurality of first recognition candidates registered in the first voice recognition dictionary. The first voice recognition means, the second voice recognition means, and the second voice recognition means used by the first voice recognition means, the second voice recognition means, and the second voice recognition means, which detect the first recognition candidate that matches the input voice better than the level indicated by the threshold value as the target candidate. 2 A voice recognition dictionary and a recognition means are provided. Here, the voice recognition system has a single recognition mode including a first recognition mode, and the second voice recognition dictionary used by the second voice recognition means in the first recognition mode includes the second voice recognition dictionary. A word excerpt portion that is registered as a first recognition candidate in the first voice recognition dictionary and is a part whose pronunciation is not common to other words of a plurality of words having a partially common pronunciation, and the first voice recognition. A plurality of words registered as first recognition candidates in the dictionary and the same words are registered as second recognition candidates together with a plurality of second threshold values corresponding to each of the second recognition candidates. In the first recognition mode, the second threshold value corresponding to the second recognition candidate, which is the same word as the word registered as the first recognition candidate, registered in the second voice recognition dictionary is the second threshold value. 2 The level of matching is better than the first threshold value corresponding to the first recognition candidate, which is the same word as the word registered as the recognition candidate, and in the first recognition mode, the second voice recognition means. Inputs the voice picked up by the microphone and matches the voice input better than the level indicated by the corresponding second threshold value from among the plurality of second recognition candidates registered in the second voice recognition dictionary. The second recognition candidate is detected as a target candidate, and in the first recognition mode, the recognition means recognizes the first voice for each word registered as the first recognition candidate in the first voice recognition dictionary. The number of the first recognition candidate which is the word, the second recognition candidate which is the word, and the second recognition candidate which is an excerpt part of the word detected as the target candidate by the means and the second voice recognition means. The word that is calculated and the calculated number is the largest is recognized as the word spoken by the user.
ここで、このような音声認識システムは、前記第1の認識モードにおいて、前記認識手段が、前記算定した数が最大のワードが複数存在する場合には、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードをユーザの発話したワードとして認識するように構成してもよい。 Here, in such a voice recognition system, in the first recognition mode, when the recognition means has a plurality of words having the maximum calculated number, among the words having the maximum calculated number. The second recognition candidate, which is an excerpt of the word, may be configured to recognize the word detected as the target candidate as the word spoken by the user.
また、この場合には、音声認識システムを、前記第1の認識モードにおいて、前記認識手段が、前記算定した数が最大のワードが複数存在し、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードが複数存在する場合には、前記算定した数が最大のワードであって、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードのうちの、前記対象候補として検出された当該ワードである第1認識候補に対応する第1しきい値と、前記対象候補として検出された当該ワードである第2認識候補に対応する第2しきい値と、前記対象候補として検出された当該ワードの抜粋部分である第2認識候補に対応する第2しきい値との最小値が、最小であるワードをユーザの発話したワードとして認識するように構成してもよい。 Further, in this case, in the first recognition mode of the voice recognition system, the recognition means has a plurality of words having the maximum calculated number, and among the words having the maximum calculated number. When there are a plurality of words in which the second recognition candidate which is the excerpt part of the word is detected as the target candidate, the calculated number is the largest word and the second recognition candidate which is the excerpt part of the word. Among the words whose candidates are detected as the target candidates, the first threshold value corresponding to the first recognition candidate which is the word detected as the target candidate and the word detected as the target candidate. A word in which the minimum value between the second threshold value corresponding to the second recognition candidate and the second threshold value corresponding to the second recognition candidate, which is an excerpt portion of the word detected as the target candidate, is the minimum. May be configured to be recognized as a word spoken by the user.
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いた異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。 According to such a speech recognition system, evaluation by different thresholds using the first speech recognition dictionary and the second speech recognition dictionary, and consistency with spoken speech focusing only on the part whose pronunciation is different from other words. The speech recognition of the words registered in the first speech recognition dictionary can be performed in a form of more accurately identifying a plurality of words having similar pronunciations by the comprehensive evaluation in consideration of the evaluation of.
また、前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、ワードである第1認識候補が複数登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、入力した音声に所定レベルより良好に整合する第1認識候補を対象候補として検出する第1音声認識手段と、第2音声認識手段と、第2音声認識手段によって用いられる第2音声認識辞書と、認識手段とを備えたものである。ここで、当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第2認識候補として登録されており、前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識手段によって前記対象候補として検出された第1認識候補であるワードが複数存在する場合には、当該複数のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記第2音声認識手段によって前記対象候補として検出されたワードをユーザの発話したワードとして認識する。 Further, in order to achieve the above object, the present invention comprises a voice recognition system that recognizes a voice spoken by a user, a microphone, a first voice recognition dictionary in which a plurality of first recognition candidates that are words are registered, and the above. The voice picked up by the microphone is input, and the first recognition candidate that matches the input voice better than a predetermined level is detected as the target candidate from among the plurality of first recognition candidates registered in the first voice recognition dictionary. It includes a first voice recognition means, a second voice recognition means, a second voice recognition dictionary used by the second voice recognition means, and a recognition means. Here, the voice recognition system has a single or a plurality of recognition modes including a first recognition mode, and the second voice recognition dictionary used by the second voice recognition means in the first recognition mode , The word excerpt part, which is a part whose pronunciation is not common to other words of a plurality of words having a partially common pronunciation, which is registered as a first recognition candidate in the first speech recognition dictionary, is a second recognition candidate. In the first recognition mode, the second voice recognition means inputs the voice picked up by the microphone, and among the plurality of second recognition candidates registered in the second voice recognition dictionary. Therefore, a second recognition candidate that matches the input voice better than a predetermined level is detected as a target candidate, and in the first recognition mode, the recognition means is detected as the target candidate by the first voice recognition means. When there are a plurality of words that are the first recognition candidates, the second recognition candidate, which is an excerpt of the word, is detected as the target candidate by the second voice recognition means. Recognize the word as a word spoken by the user.
このような音声認識システムによれば、第1音声認識辞書と第2音声認識辞書を用いて、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より精度よく識別する形態で、第1音声認識辞書に登録されたワードの音声認識を行うことができる。 According to such a speech recognition system, the evaluation of the consistency with the spoken speech focusing only on the part whose pronunciation is different from that of other words was added to consideration by using the first speech recognition dictionary and the second speech recognition dictionary. By comprehensive evaluation, it is possible to perform speech recognition of words registered in the first speech recognition dictionary in a form of more accurately identifying a plurality of words having similar pronunciations.
また、以上の音声認識システムは、前記マイクロフォンを、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間中に配置し、当該音声認識システムに前記第1の認識モードと第2の認識モードを含む複数の認識モードを設け、前記第2の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書を、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードが各々第2認識候補として登録されているものとし、前記第2の認識モードにおいて、前記第2音声認識手段において、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、前記第2の認識モードにおいて、前記認識手段において、前記第2音声認識手段によって第2認識候補が前記対象候補として検出された後の所定期間中は、当該対象候補として検出された第2認識候補と同じワードである第1認識候補が前記第1音声認識手段によって前記対象候補として検出されても、当該対象候補として検出された第1認識候補であるワードをーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識手段によって前記対象候補として検出された第1認識候補であるワードをユーザの発話したワードとして認識するように構成してもよい。 Further, in the above voice recognition system, the microphone is arranged in a space where the sound output from the audio source device is emitted from the speaker to the speaker, and the voice recognition system has the first recognition mode and the first recognition mode. A plurality of recognition modes including the second recognition mode are provided, and the second voice recognition dictionary used by the second voice recognition means in the second recognition mode is registered in the first voice recognition dictionary as a first recognition candidate. It is assumed that the same words as the plurality of words are registered as the second recognition candidates, and in the second recognition mode, the voice output by the audio source device to the speaker is input in the second voice recognition means. Then, from among the plurality of second recognition candidates registered in the second voice recognition dictionary, the second recognition candidate that matches the input voice better than a predetermined level is detected as the target candidate, and the second recognition mode In the recognition means, the same word as the second recognition candidate detected as the target candidate during a predetermined period after the second recognition candidate is detected as the target candidate by the second voice recognition means. 1 Even if the recognition candidate is detected as the target candidate by the first voice recognition means, the word that is the first recognition candidate detected as the target candidate is suppressed from being recognized as the word spoken by the user. The word that is the first recognition candidate detected as the target candidate by the first voice recognition means may be configured to be recognized as the word spoken by the user.
このような音声認識システムは、当該音声認識システムに、前記第1音声認識辞書と第2音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、ユーザの音声入力を受け付ける音声入力受付手段と、前記認識モードを制御する認識モード制御手段とを設けると共に、当該音声入力受付手段に、予め定めた音声認識データが表す前記第1音声認識辞書と第2音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第1音声認識辞書と第2音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第1音声認識辞書と第2音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として1回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを設け、音声入力受付手段において、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、前記認識モード制御手段において、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第2の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードを、前記第1の認識モードと前記第2の認識モードの間で、前記前回音声入力として受け付けたワードに応じて定まる音声認識データに応じて切り替えるように構成してもよい。 Such a voice recognition system is a storage means for storing a plurality of voice recognition data representing the first voice recognition dictionary and the second voice recognition dictionary in the voice recognition system, and a voice input receiving means for receiving a user's voice input. The recognition mode control means for controlling the recognition mode is provided, and the first voice recognition dictionary and the second voice recognition dictionary represented by the predetermined voice recognition data are set in the voice input receiving means, and the recognition is performed. The standby state in which the word recognized by the means is accepted as a voice input, and the first voice recognition dictionary represented by the voice recognition data determined according to the word received as the voice input last time in the first voice recognition dictionary and the second voice recognition dictionary. While updating to the second voice recognition dictionary, a voice input sequence executing state is provided in which a sequence of receiving the word recognized by the recognition means as voice input once or a plurality of times is executed, and the voice input receiving means is in the standby state. If the word is accepted as a voice input in, the state transitions to the voice input sequence executing state, and if the execution of the sequence in the voice input sequence execution state is completed, the state transitions to the standby state, and the recognition mode control means. In the above, when the voice input receiving means is in the standby state, the second recognition mode is set as the recognition mode, and when the voice input receiving means is in the voice input sequence executing state, the recognition mode is set. , The first recognition mode and the second recognition mode may be configured to switch according to the voice recognition data determined according to the word received as the previous voice input.
または、このような音声認識システムは、当該音声認識システムに、前記第1音声認識辞書と第2音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、ユーザの音声入力を受け付ける音声入力受付手段と、前記認識モードを制御する認識モード制御手段とを設けると共に、当該音声入力受付手段に、予め定めた音声認識データが表す前記第1音声認識辞書と第2音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第1音声認識辞書と第2音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第1音声認識辞書と第2音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として1回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを設け、当該音声入力受付手段において、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、前記認識モード制御手段において、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第2の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードとして前記第1の認識モードを設定するように構成してもよい。 Alternatively, such a voice recognition system is a storage means that stores a plurality of voice recognition data representing the first voice recognition dictionary and the second voice recognition dictionary in the voice recognition system, and a voice input that receives a user's voice input. A reception means and a recognition mode control means for controlling the recognition mode are provided, and the first voice recognition dictionary and the second voice recognition dictionary represented by predetermined voice recognition data are set in the voice input reception means. The first voice recognition represented by a standby state in which a word recognized by the recognition means is accepted as a voice input and voice recognition data determined according to a word received as a voice input last time in the first voice recognition dictionary and the second voice recognition dictionary. While updating to the dictionary and the second voice recognition dictionary, a voice input sequence executing state is provided in which a sequence of receiving the word recognized by the recognition means as voice input once or multiple times is executed. If a word is accepted as a voice input in the standby state, the state transitions to the voice input sequence executing state, and if the execution of the sequence in the voice input sequence execution state is completed, the transition to the standby state is performed and the recognition In the mode control means, when the voice input receiving means is in the standby state, the second recognition mode is set as the recognition mode, and when the voice input receiving means is in the voice input sequence executing state, the second recognition mode is set. The first recognition mode may be set as the recognition mode.
また、以上の音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであってもよい。 Further, the above voice recognition system may be a voice recognition system used for voice input in an in-vehicle system mounted on an automobile.
以上のように、本発明によれば、複数の認識候補について音声認識を行う際に、発音が類似している認識候補が存在する場合にも、より適正に音声認識を行うことができる。 As described above, according to the present invention, when performing voice recognition for a plurality of recognition candidates, it is possible to perform voice recognition more appropriately even when there are recognition candidates having similar pronunciations.
以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図1に、本実施形態に係る情報処理システムの構成を示す。
図示するように、情報処理システムは、データ処理部1、辞書DB2、マイクロフォン3、音声入力部4、スピーカ5、オーディオソース6、表示装置7、GPS受信器等のその他の周辺装置8を備えている。
Hereinafter, embodiments of the present invention will be described by taking application to an information processing system mounted on an automobile as an example.
FIG. 1 shows the configuration of the information processing system according to the present embodiment.
As shown in the figure, the information processing system includes a data processing unit 1, a dictionary DB 2, a microphone 3, a voice input unit 4, a speaker 5, an audio source 6, a display device 7, and other peripheral devices 8 such as a GPS receiver. There is.
ここで、オーディオソース6は、データ処理部1の制御に従って動作する、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声をスピーカ5と、音声入力部4に出力する。また、スピーカ5は、オーディオソース6から入力した音声を車内に放射する。 Here, the audio source 6 is a device that operates under the control of the data processing unit 1 and serves as a sound source for a radio receiver, a music player, or the like, and outputs the audio of the audio content to the speaker 5 and the audio input unit 4. Further, the speaker 5 radiates the sound input from the audio source 6 into the vehicle.
また、音声入力部4は、マイクロフォン3から入力するユーザの発話音声を音声認識し認識結果をデータ処理部1に出力する
そして、データ処理部1は、音声入力部4をコマンド等の音声入力に、表示装置7を画面の表示に用いながら、各種処理を行う。
また、音声入力部4は、第1音声認識エンジン41、第1音声認識辞書42、第2音声認識エンジン43、第2音声認識辞書44、認識調整部45を備えている。
Further, the voice input unit 4 recognizes the voice of the user input from the microphone 3 and outputs the recognition result to the data processing unit 1. The data processing unit 1 uses the voice input unit 4 as a voice input such as a command. , Various processes are performed while using the display device 7 for displaying the screen.
Further, the voice input unit 4 includes a first voice recognition engine 41, a first voice recognition dictionary 42, a second voice recognition engine 43, a second voice recognition dictionary 44, and a recognition adjustment unit 45.
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部1や音声入力部4は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
次に、辞書DB2には、図2に示すように、第1階層認識データから第3階層認識データまでの複数階層の認識データが格納されている。
Here, such an information processing system may be configured by using a computer provided with a CPU, a memory, a peripheral device, or the like. In this case, the data processing unit 1 and the voice input unit 4 described above may be used. It may be realized by the CPU executing a computer program.
Next, as shown in FIG. 2, the dictionary DB 2 stores recognition data of a plurality of layers from the first layer recognition data to the third layer recognition data.
そして、各階層の認識データには、オーディオキャンセルモードと類似ワード強識別モードのいずれかが認識モードとして登録される。また、各階層の認識データには、主音声認識辞書と副音声認識辞書が登録される。
主音声認識辞書は、音声認識用の辞書であり、複数のワードのそれぞれについて、番号(No.)と、ワードと、しきい値Thが登録されている。
さて、第1階層認識データの認識モードは、オーディオキャンセルモードに設定されており、第1階層認識データの主音声認識辞書は、初期状態において音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)としきい値Thが登録されている。
Then, in the recognition data of each layer, either the audio cancel mode or the similar word strong identification mode is registered as the recognition mode. In addition, a main voice recognition dictionary and a sub voice recognition dictionary are registered in the recognition data of each layer.
The main speech recognition dictionary is a dictionary for speech recognition, and a number (No.), a word, and a threshold value Th are registered for each of a plurality of words.
By the way, the recognition mode of the first layer recognition data is set to the audio cancel mode, and the main voice recognition dictionary of the first layer recognition data is a plurality of candidates for recognition of voice recognition in the voice input unit 4 in the initial state. The word, its number (No.), and the threshold Th are registered.
そして、第2階層認識データは、第1階層認識データの主音声認識辞書に登録されている各ワードに対応して複数設けることができ、第3階層認識データは、各第2階層認識データの主音声認識辞書に登録されている各ワードに対応して複数設けることができる。すなわち辞書DB2は、各階層の認識データをノードとするツリー構造を備えている。 A plurality of second layer recognition data can be provided corresponding to each word registered in the main speech recognition dictionary of the first layer recognition data, and the third layer recognition data can be provided for each second layer recognition data. A plurality of words can be provided corresponding to each word registered in the main speech recognition dictionary. That is, the dictionary DB2 has a tree structure in which the recognition data of each layer is used as a node.
また、第2階層認識データの主音声認識辞書は、当該第2階層認識データに対応する第1階層認識データの主音声認識辞書のワードが、音声入力部4における音声認識によって認識結果として算定されたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)としきい値Thが登録されている。 Further, in the main voice recognition dictionary of the second layer recognition data, the words of the main voice recognition dictionary of the first layer recognition data corresponding to the second layer recognition data are calculated as the recognition result by the voice recognition in the voice input unit 4. Then, a plurality of words as recognition candidates for voice recognition in the voice input unit 4, their numbers (No.), and a threshold value Th are registered.
また、第3階層認識データの主音声認識辞書は、当該第3階層認識データに対応する第2階層認識データの主音声認識辞書のワードが、音声入力部4における音声認識によって認識結果として算定されたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)としきい値Thが登録されている。 Further, in the main voice recognition dictionary of the third layer recognition data, the words of the main voice recognition dictionary of the second layer recognition data corresponding to the third layer recognition data are calculated as the recognition result by the voice recognition in the voice input unit 4. Then, a plurality of words as recognition candidates for voice recognition in the voice input unit 4, their numbers (No.), and a threshold value Th are registered.
次に、第2階層認識データの各々と第3階層認識データの各々の認識モードを、オーディオキャンセルモードとするか類似ワード強識別モードとするかは、その認識データの主音声認識辞書に発音が類似する類似ワードが含まれているかどうかによって定められており、その認識データの主音声認識辞書に発音が相互に類似する複数のワードが含まれている場合に、認識モードを類似ワード強識別モードに設定し、他の場合に認識モードをオーディオキャンセルモードに設定する。 Next, whether the recognition mode of each of the second layer recognition data and each of the third layer recognition data is the audio cancel mode or the similar word strong identification mode is pronounced in the main speech recognition dictionary of the recognition data. It is determined by whether or not similar similar words are included, and when the main speech recognition dictionary of the recognition data contains multiple words with similar pronunciations, the recognition mode is set to the similar word strong identification mode. Set to, and in other cases set the recognition mode to audio cancel mode.
そして、認識モードをオーディオキャンセルモードに設定した各階層の認識データの副音声認識辞書としては、その認識データの主音声認識辞書の各ワードのしきい値Thを所定値増加させたものを登録する。すなわち、認識モードをオーディオキャンセルモードに設定した認識データの主音声認識辞書と副音声認識辞書とは、副音声認識辞書の各ワードのしきい値Thが、主音声認識辞書のものより所定値大きい点のみが異なる。 Then, as the sub-speech recognition dictionary of the recognition data of each layer in which the recognition mode is set to the audio cancel mode, a dictionary obtained by increasing the threshold value Th of each word of the main speech recognition dictionary of the recognition data by a predetermined value is registered. .. That is, in the main speech recognition dictionary and the sub speech recognition dictionary of the recognition data in which the recognition mode is set to the audio cancel mode, the threshold value Th of each word of the sub speech recognition dictionary is a predetermined value larger than that of the main speech recognition dictionary. Only the points are different.
また、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードと同じワードや、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードの他のワードと発音が類似していない部分をワードとして登録する。 Further, in the sub-speech recognition dictionary of the recognition data in which the recognition mode is set to the similar word strong identification mode, other words registered in the main speech recognition dictionary of the recognition data and registered in the main speech recognition dictionary. The same word as each word whose pronunciation is similar to, or other words of each word whose pronunciation is similar to other words registered in the main speech recognition dictionary of the recognition data. Register the part whose pronunciation is not similar to that as a word.
すなわち、たとえば、図2の第3階層認識データに示すように、主音声認識辞書に登録されている「ひとつめにいく」、「ふたつめにいく」、「みっつめにいく」、「よっつめにいく」、「いつつめにいく」との相互に発音が類似する5つのワードについては、これらの5つのワードと、各ワードの他のワードと異なる部分「ひと」、「ふた」、「みっ」、「よっ」、「いつ」をワードとして副音声認識辞書に登録する。また、同様に、主音声認識辞書に登録されている「つぎのぺーじ、「まえのぺーじ」との相互に発音が類似する2つのワードについては、これらの2つのワードの他のワードと異なる部分「つぎ」、「まえ」を副音声認識辞書に登録する。 That is, for example, as shown in the third layer recognition data of FIG. 2, "go to the first", "go to the second", "go to the second", "yotsume" registered in the main speech recognition dictionary. For the five words that have similar pronunciations to "niiku" and "izutsume niiku", these five words and the parts that differ from the other words in each word are "human", "lid", and "mi". , "Yo", and "when" are registered as words in the sub-speech recognition dictionary. Similarly, the two words whose pronunciations are similar to those of the "next page and the previous page" registered in the main speech recognition dictionary are different from the other words of these two words. Register "next" and "mae" in the secondary speech recognition dictionary.
また、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、各ワードの番号(No.)としきい値Thに加え、参照番号(ref)と部分フラグ(P)を登録する。ここで、副音声認識辞書の各ワードのしきい値Thは、そのワードと一致する、もしくは、そのワードが部分である主音声認識辞書のワードのしきい値Thより小さい値を設定する。また、副音声認識辞書の各ワードの参照番号(ref)には、そのワードと一致する、もしくは、そのワードが部分である主音声認識辞書のワードの番号(No.)を設定する。また、副音声認識辞書の各ワードの部分フラグ(P)には、そのワードが主音声認識辞書のワードの一部である場合に、その旨を示す値(Y)を設定する。 In addition, in addition to the number (No.) and threshold value Th of each word, the reference number (ref) and partial flag (P) are added to the sub-speech recognition dictionary of the recognition data in which the recognition mode is set to the similar word strong identification mode. to register. Here, the threshold value Th of each word of the sub-speech recognition dictionary is set to a value smaller than the threshold value Th of the word of the main speech recognition dictionary that matches the word or is a part of the word. Further, in the reference number (ref) of each word of the sub-speech recognition dictionary, a word number (No.) of the main speech recognition dictionary that matches the word or is a part of the word is set. Further, in the partial flag (P) of each word of the sub-speech recognition dictionary, a value (Y) indicating that the word is a part of the word of the main speech recognition dictionary is set.
以上、辞書DB2について説明した。
なお、以上では、辞書DB2に登録する認識データとして、第1階層認識データから第3階層認識データまでの3階層の認識データを設ける場合について示したが、辞書DB2に登録する認識データは、2以上の任意の数の階層の認識データとしてよい。
The dictionary DB2 has been described above.
In the above, the case where the recognition data of three layers from the first layer recognition data to the third layer recognition data is provided as the recognition data to be registered in the dictionary DB2 has been described, but the recognition data to be registered in the dictionary DB2 is 2. It may be the recognition data of any number of layers as described above.
さて、データ処理部1は、カーナビゲーション機能やミュージックプレイヤ機能などの各種機能を備えており、起動したならば、所定の情報処理(たとえば、カーナビゲーション機能により表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、ミュージックプレイヤ機能によりオーディオソース6から音楽を出力する情報処理等)の実行を開始する。
また、データ処理部1は、音声入力の受け付けに関して以下の処理を行う。
すなわち、データ処理部1は、起動したならば、音声入力設定処理を開始し、第1階層認識データを現用認識データに設定し、音声入力部4からの認識結果の入力を待つ待受状態となる。そして、待受状態において、音声入力部4から認識結果が出力されたならば、認識結果の入力を受け付けてシーケンス実行状態に遷移し、シーケンス実行状態において、入力を受け付けた認識結果のワードに応じた処理と、現用認識データの入力を受け付けた認識結果のワードに対応する、現用認識データの一つ下の階層の認識データを現用認識データに設定することによる現用認識データの切り替えとを行いながら、音声入力部4から認識結果の入力を所定回数受け付けるシーケンスを実行する。そして、当該シーケンスが終了したならば、第1階層認識データを現用認識データに設定し、待受状態に復帰する。
By the way, the data processing unit 1 is provided with various functions such as a car navigation function and a music player function, and when activated, a predetermined information processing (for example, a guide map for car navigation is displayed on the display device 7 by the car navigation function). Information processing for displaying, information processing for outputting music from the audio source 6 by the music player function, etc.) is started.
In addition, the data processing unit 1 performs the following processing regarding the reception of voice input.
That is, when the data processing unit 1 is activated, the voice input setting process is started, the first layer recognition data is set as the current recognition data, and the standby state waits for the input of the recognition result from the voice input unit 4. Become. Then, if the recognition result is output from the voice input unit 4 in the standby state, the input of the recognition result is accepted and the transition to the sequence execution state is performed, and in the sequence execution state, the input is received according to the recognition result word. While performing the processing and switching of the current recognition data by setting the recognition data in the next lower layer of the current recognition data as the current recognition data, which corresponds to the recognition result word that received the input of the current recognition data. , The sequence of receiving the input of the recognition result from the voice input unit 4 a predetermined number of times is executed. Then, when the sequence is completed, the first layer recognition data is set as the current recognition data, and the standby state is restored.
また、データ処理部1は、上述した音声入力設定処理を次のように行う。
図3に、この音声入力設定処理の手順を示す。
図示するように、音声入力設定処理においてデータ処理部1は、上述のように行われる現用認識データの設定の発生を監視する(ステップ302)。
そして、現用認識データの設定が発生したならば(ステップ302)、現用認識データの認識モードがオーディオキャンセルモードであるかどうかを調べる(ステップ304)。
Further, the data processing unit 1 performs the above-mentioned voice input setting process as follows.
FIG. 3 shows the procedure of this voice input setting process.
As shown in the figure, in the voice input setting process, the data processing unit 1 monitors the occurrence of the setting of the current recognition data performed as described above (step 302).
Then, when the setting of the current recognition data occurs (step 302), it is checked whether or not the recognition mode of the current recognition data is the audio cancel mode (step 304).
そして、認識モードがオーディオキャンセルモードであれば(ステップ304)、オーディオキャンセルモードを認識調整部45に設定し(ステップ306)、現用認識データの主音声認識辞書を第1音声認識辞書42に設定し、現用認識データの副音声認識辞書を第2音声認識辞書44に設定する(ステップ308)。 If the recognition mode is the audio cancel mode (step 304), the audio cancel mode is set in the recognition adjustment unit 45 (step 306), and the main voice recognition dictionary of the current recognition data is set in the first voice recognition dictionary 42. , The sub-speech recognition dictionary of the current recognition data is set in the second speech recognition dictionary 44 (step 308).
そして、音声認識開始を認識調整部45に指示し(ステップ310)、ステップ302の監視に戻る。
一方、現用認識データの認識モードが、オーディオキャンセルモードでなく、類似ワード強識別モードである場合には(ステップ304)、類似ワード強識別モードを認識調整部45に設定し(ステップ312)、現用認識データの主音声認識辞書を第1音声認識辞書42に設定し、現用認識データの副音声認識辞書を第2音声認識辞書44に設定する(ステップ308)。
Then, the recognition adjustment unit 45 is instructed to start voice recognition (step 310), and the process returns to the monitoring of step 302.
On the other hand, when the recognition mode of the current recognition data is not the audio cancel mode but the similar word strong identification mode (step 304), the similar word strong identification mode is set in the recognition adjustment unit 45 (step 312), and the current recognition data is used. The main speech recognition dictionary of the recognition data is set in the first speech recognition dictionary 42, and the sub speech recognition dictionary of the current recognition data is set in the second speech recognition dictionary 44 (step 308).
そして、音声認識開始を認識調整部45に指示し(ステップ310)、ステップ302の監視に戻る。
以上、データ処理部1が行う音声入力設定処理について説明した。
次に、第1音声認識エンジン41と第2音声認識エンジン43において行う音声認識の動作について説明する。
第1音声認識エンジン41と第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書に格納された各認識候補のワードのスコアを算定する。
Then, the recognition adjustment unit 45 is instructed to start voice recognition (step 310), and the process returns to the monitoring of step 302.
The voice input setting process performed by the data processing unit 1 has been described above.
Next, the operation of voice recognition performed by the first voice recognition engine 41 and the second voice recognition engine 43 will be described.
The first voice recognition engine 41 and the second voice recognition engine 43 calculate the score of each recognition candidate word stored in the voice recognition dictionary for the recognition target voice in parallel with the input of the recognition target voice.
すなわち、第1音声認識エンジン41は、認識対象音声の入力と並行して、認識対象音声に対する第1音声認識辞書42に格納されたワードのスコアを算定し、第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する第2音声認識辞書44に格納された各ワードのスコアを算定する。 That is, the first speech recognition engine 41 calculates the score of the word stored in the first speech recognition dictionary 42 for the recognition target speech in parallel with the input of the recognition target speech, and the second speech recognition engine 43 recognizes it. In parallel with the input of the target voice, the score of each word stored in the second voice recognition dictionary 44 for the recognition target voice is calculated.
なお、第1音声認識エンジン41の認識対象音声はマイクロフォン3から入力する音声である。一方、第2音声認識エンジン43については、マイクロフォン3から入力する音声とオーディオソース6から入力する音声の一方を、選択的に、第1音声認識エンジン41の認識対象音声とすることができる。 The recognition target voice of the first voice recognition engine 41 is a voice input from the microphone 3. On the other hand, with respect to the second voice recognition engine 43, one of the voice input from the microphone 3 and the voice input from the audio source 6 can be selectively used as the recognition target voice of the first voice recognition engine 41.
ここで、認識対象音声に対する音声認識辞書に登録された各ワードのスコアは、認識対象音声が表す語句と、ワードとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。 Here, the score of each word registered in the speech recognition dictionary for the recognition target voice represents a predicted value of the magnitude of the difference between the word and the phrase represented by the recognition target voice and the word, and predicts a larger difference. The more you do, the higher your score.
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合しているワードについてはスコアを所定値減少し、整合していないワードについてはスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のワードのスコアの増加値/減少値は、たとえば、当該音声区間の時間長のワードの全音声区間の時間長に対する比率を、スコアの初期値に乗じた大きさとする。 More specifically, in the calculation of the score, after setting a predetermined initial value as the score, each time the sound of each voice section of the recognition target voice (for example, the voice section for each phonetic element) is input, Whether or not the sound of the voice section matches the pronunciation of the part corresponding to the voice section of each word registered in the voice recognition dictionary is calculated, and the score is reduced by a predetermined value for the matching words. For inconsistent words, the score is increased by a predetermined value. The increase / decrease value of the word score for each voice section of the voice to be recognized is, for example, the ratio of the time length of the voice section to the time length of all voice sections multiplied by the initial value of the score. Sato.
このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図4aに、ワード「あいうあい」に対して算出されるスコアの推移を図4bに示すように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。 According to such voice recognition, when the recognition target voice is "aiueoka", the transition of the score calculated for the word "aiueo" is calculated for the word "aiueo" in FIG. 4a. As shown in FIG. 4b, while the sound of the recognition target voice that matches the word is input, the score with the word gradually decreases and the sound of the recognition target voice that does not match the word is input. While you are there, your ward score will increase over time.
すなわち、たとえば、図4aに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。 That is, for example, as shown in FIG. 4a, the recognition target voice "aiueoka", the word "aiueo", and the score gradually decrease during the period in which the recognition target voice "aiueo" sound is input, and then gradually decrease. , Increases when "ka" of the recognition target voice is input.
また、同様に、図4bに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。 Similarly, as shown in FIG. 4b, the recognition target voice "aiueoka", the word "aiai" and the score gradually decrease during the period in which the recognition target voice "ai" sound is input. After that, the period during which the recognition target voice "Eoka" is input gradually increases.
さて、第1音声認識エンジン41と第2音声認識エンジン43は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、音声認識辞書に登録されている、そのワードのしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードのヒットを検出し、ヒットしたワードの番号(No.)をヒットデータとして認識調整部45に通知する。 By the way, in the first voice recognition engine 41 and the second voice recognition engine 43, the score of the recognition target voice calculated as described above and one of the words is registered in the voice recognition dictionary of the word. When the threshold value becomes Th or less, the hit of the word whose score becomes the threshold value Th or less is detected, and the number (No.) of the hit word is notified to the recognition adjustment unit 45 as hit data.
すなわち、たとえば、図4aに示した場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、ワード「あいうえお」のヒットが検出される。 That is, for example, in the case shown in FIG. 4a, the score for the word "aiueo" is equal to or less than the threshold value Th immediately before the "e" of the recognition target voice "aiueoka" is input. , The hit of the word "aiueo" is detected.
一方、図4bに示した場合では、ワード「あいうあいお」についてのスコアがしきい値Th以下となることはないので、このワード「あいうあいお」のヒットは検出されない。
次に、音声入力部4の認識調整部45の動作について説明する。
認識調整部45は、データ処理部1から図3に示した音声入力設定処理によって音声認識開始を指示されたならば、オーディオキャンセルモードが設定されているときには、オーディオキャンセルモード認識処理を実行し、類似ワード強識別モードが設定されているときには、類似ワード強識別モード認識処理を実行する。
On the other hand, in the case shown in FIG. 4b, since the score for the word "Ai Aio" does not fall below the threshold value Th, the hit of this word "Ai Aio" is not detected.
Next, the operation of the recognition adjustment unit 45 of the voice input unit 4 will be described.
If the data processing unit 1 instructs the start of voice recognition by the voice input setting process shown in FIG. 3, the recognition adjustment unit 45 executes the audio cancel mode recognition process when the audio cancel mode is set. When the similar word strong identification mode is set, the similar word strong identification mode recognition process is executed.
まず、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明する。
図5に、この示すオーディオキャンセルモード認識処理の手順を示す。
図示するように、このオーディオキャンセルモード認識処理では、まず、第2音声認識エンジン43の認識対象音声をオーディオソース6から入力する音声に設定する(ステップ502)。
First, the audio cancel mode recognition process performed by the recognition adjustment unit 45 when the audio cancel mode is set will be described.
FIG. 5 shows the procedure of the audio cancel mode recognition process shown.
As shown in the figure, in this audio cancel mode recognition process, first, the recognition target voice of the second voice recognition engine 43 is set to the voice input from the audio source 6 (step 502).
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ504)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ506)と、タイマのタイムアウトの発生(ステップ508)とを監視する。 Then, the hit data notification is generated from the first voice recognition engine 41 (step 504), the hit data notification is generated from the second voice recognition engine 43 (step 506), and the timer timeout occurs (step 508). ) And monitor.
そして、第2音声認識エンジン43からのヒットデータの通知が発生したばらば(ステップ506)、マスクフラグをセットし(ステップ514)、第2音声認識エンジン43から通知さらたヒットデータが示す番号(No.)を調整ワード番号に設定する(ステップ516)。そして、上述のタイマを所定のタイムアウト時間を設定してスタートし(ステップ518)、ステップ504、506、508の監視に戻る。 Then, if the notification of the hit data from the second voice recognition engine 43 occurs (step 506), the mask flag is set (step 514), and the number indicated by the hit data notified from the second voice recognition engine 43 (step 514). No.) is set as the adjustment word number (step 516). Then, the timer described above is started by setting a predetermined timeout time (step 518), and the process returns to the monitoring of steps 504, 506, and 508.
一方、タイマのタイムアウトが発生したならば(ステップ508)、マスクフラグをクリアし(ステップ510)、調整ワード番号の設定をクリアする(ステップ512)。そして、ステップ504、506、508の監視に戻る。 On the other hand, when the timer time-out occurs (step 508), the mask flag is cleared (step 510), and the adjustment word number setting is cleared (step 512). Then, the process returns to the monitoring of steps 504, 506, and 508.
また、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ504)、マスクフラグがセットされているかどうを調べ(ステップ520)、マスクフラグが設定されていなければ、第1音声認識辞書の、第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ524)。そして、オーディオキャンセルモード認識処理を終了する。 Further, when the notification of the hit data from the first voice recognition engine 41 occurs (step 504), it is examined whether or not the mask flag is set (step 520), and if the mask flag is not set, the first step. 1 The word of the number (No.) indicated by the hit data from the first speech recognition engine 41 in the speech recognition dictionary is calculated as the word to be the recognition result, and the calculated recognition result is output to the data processing unit 1 (step). 524). Then, the audio cancel mode recognition process is terminated.
一方、ステップ520において、マスクフラグが設定されている場合には、第1音声認識エンジン41からのヒットデータが示す番号(No.)と調整ワード番号の一致の有無を調べ(ステップ522)、一致している場合には、そのままステップ504、506、508の監視に戻る。 On the other hand, when the mask flag is set in step 520, it is checked whether or not the number (No.) indicated by the hit data from the first voice recognition engine 41 and the adjustment word number match (step 522). If so, the process returns to the monitoring of steps 504, 506, and 508.
一方、第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードが調整ワードと一致していない場合には(ステップ522)、第1音声認識辞書の、第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ524)。そして、オーディオキャンセルモード認識処理を終了する。 On the other hand, when the word of the number (No.) indicated by the hit data from the first speech recognition engine 41 does not match the adjustment word (step 522), the first speech recognition engine 41 of the first speech recognition dictionary The word of the number (No.) indicated by the hit data from is calculated as the word to be the recognition result, and the calculated recognition result is output to the data processing unit 1 (step 524). Then, the audio cancel mode recognition process is terminated.
以上、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明した。
ここで、このようなオーディオキャンセルモード認識処理によれば、第2音声認識エンジン43がオーディオソース6から入力する音声に対してヒットを検出したワードは、その後、一定期間、第1音声認識エンジン41でヒットが検出されても認識結果とはしない。
The audio cancel mode recognition process performed by the recognition adjustment unit 45 when the audio cancel mode is set has been described above.
Here, according to such an audio cancel mode recognition process, the word for which the second voice recognition engine 43 detects a hit with respect to the voice input from the audio source 6 is subsequently the first voice recognition engine 41 for a certain period of time. Even if a hit is detected in, it is not recognized as a recognition result.
また、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されるときには、そのワードのしきい値Thは第1音声認識辞書42よりも第2音声認識辞書44の方が大きく設定されており、また、第2音声認識エンジン43に入力するオーディオソース6の音声の方が音声品質が良いので、それ以前に第2音声認識エンジン43で、そのワードのヒットが検出される。 Further, when the voice output by the audio source 6 wraps around the microphone 3 and a word hit is detected by the first voice recognition engine 41 for the voice, the threshold Th of the word is the first voice recognition. Since the second voice recognition dictionary 44 is set larger than the dictionary 42, and the voice of the audio source 6 input to the second voice recognition engine 43 has better voice quality, the second voice is set before that. The recognition engine 43 detects the hit of the word.
したがって、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されてしまった場合でも、当該ワードが認識結果としてデータ処理部1に出力されてしまうことが抑止される。 Therefore, even if the voice output by the audio source 6 wraps around the microphone 3 and a word hit is detected by the first voice recognition engine 41 for the voice, the word is recognized as a recognition result by the data processing unit. It is suppressed that it is output to 1.
次に、類似ワード強識別モードが設定されているときに認識調整部45が行う類似ワード強識別モード認識処理について説明する。
図6に、この類似ワード強識別モード認識処理の手順を示す。
図示するように、類似ワード強識別モード認識処理において認識調整部45は、まず、第2音声認識エンジン43の認識対象音声をマイクロフォン3から入力する音声に設定する(ステップ602)。
Next, the similar word strong identification mode recognition process performed by the recognition adjustment unit 45 when the similar word strong identification mode is set will be described.
FIG. 6 shows the procedure of the similar word strong identification mode recognition process.
As shown in the figure, in the similar word strong identification mode recognition process, the recognition adjustment unit 45 first sets the recognition target voice of the second voice recognition engine 43 to the voice input from the microphone 3 (step 602).
そして、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知の発生を監視する(ステップ604)。
そして、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知が発生したならば(ステップ604)、通知されたヒットデータを通知元の音声認識エンジンと対応づけて保存し(ステップ606)、所定のタイムアウト時間(たとえば、500ms)を設定したタイマをスタートする(ステップ608)。
Then, the generation of the hit data notification from the first voice recognition engine 41 or the second voice recognition engine 43 is monitored (step 604).
Then, when the notification of the hit data from the first voice recognition engine 41 or the second voice recognition engine 43 occurs (step 604), the notified hit data is saved in association with the notification source voice recognition engine (step 604). Step 606), start a timer with a predetermined timeout period (eg, 500 ms) set (step 608).
また、次に、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知の発生と(ステップ610)と、ステップ608でスタートしたタイマのタイムアウトの発生(ステップ612)とを監視する。 Next, the occurrence of hit data notification from the first voice recognition engine 41 or the second voice recognition engine 43 (step 610) and the occurrence of the timer timeout started in step 608 (step 612) are monitored. To do.
そして、第1音声認識エンジン41もしくは第2音声認識エンジン43からのヒットデータの通知が発生したならば(ステップ610)、通知されたヒットデータを通知元の音声認識エンジンと対応づけて保存し(ステップ618)、ステップ610、612に監視に戻る。 Then, when the notification of the hit data from the first voice recognition engine 41 or the second voice recognition engine 43 occurs (step 610), the notified hit data is saved in association with the notification source voice recognition engine (step 610). Step 618), return to monitoring in steps 610 and 612.
一方、タイマのタイムアウトが発生したならば(ステップ612)、保存されているヒットデータが番号(No.)を示すワードを解析し、認識結果とするワードを算定する(ステップ614)。 On the other hand, when the timer time-out occurs (step 612), the word whose stored hit data indicates the number (No.) is analyzed, and the word to be the recognition result is calculated (step 614).
ここで、ステップ614では、以下のように、認識結果とするワードを算定する。
すなわち、まず、通知元の音声認識エンジンと対応づけて保存されている各ヒットデータについて、ヒットデータが表すワードの番号(No.)と通知元の音声認識エンジンより、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードと、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードとを識別する。
Here, in step 614, the word to be the recognition result is calculated as follows.
That is, first, for each hit data stored in association with the voice recognition engine of the notification source, the word number (No.) represented by the hit data and the voice recognition engine of the notification source are used in the first voice recognition engine 41. A word registered in the first speech recognition dictionary 42 in which a hit is detected is distinguished from a word registered in the second speech recognition dictionary 44 in which a hit is detected by the second speech recognition engine 43.
そして、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードの番号(No.)の値と、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードの参照番号(ref)の値とのいずれかとして、最も多く出現する値を算定する。 Then, the value of the word number (No.) registered in the first voice recognition dictionary 42 in which the hit was detected by the first voice recognition engine 41 and the second value in which the hit was detected by the second voice recognition engine 43. The value that appears most frequently is calculated as one of the value of the reference number (ref) of the word registered in the voice recognition dictionary 44.
そして、最も多く出現する値が一つであれば、その値を番号(No.)として持つ、第1音声認識辞書42に登録されていたワードを認識結果とするワードとして算定する。
すなわち、たとえば、図2の第3階層認識データが現用認識データであり、第3階層認識データの主音声認識辞書が第1音声認識辞書42に設定されており、第3階層認識データの副音声認識辞書が第2音声認識辞書44に設定されているときに、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが番号(No.)が1の「ひとつめにいく」と番号(No.)が5の「いつつめにいく」であり、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードが参照番号(ref)が1の「ひと」と参照番号(ref)が1の「ひとつめにいく」であれば、値1の出現回数が3、値5の出現回数が1となって、値1が最も多く出現する値となるので、1を番号(No.)として持つ、第1音声認識辞書42に登録されているワード「ひとつめにいく」を認識結果とするワードとして算定する。
Then, if the value that appears most frequently is one, the word registered in the first speech recognition dictionary 42 having that value as the number (No.) is calculated as the word as the recognition result.
That is, for example, the third layer recognition data in FIG. 2 is the current recognition data, the main speech recognition dictionary of the third layer recognition data is set in the first speech recognition dictionary 42, and the sub speech of the third layer recognition data. When the recognition dictionary is set in the second speech recognition dictionary 44, the word registered in the first speech recognition dictionary 42 in which a hit is detected by the first speech recognition engine 41 has a number (No.) of 1. "I'm going to the first" and the number (No.) is 5 "I'm going to the first", and the word registered in the second speech recognition dictionary 44 where a hit was detected by the second speech recognition engine 43 is referenced. If the number (ref) is 1 for "person" and the reference number (ref) is 1, "go to the first", the number of occurrences of value 1 is 3, the number of appearances of value 5 is 1, and the value is 1. Is the value that appears most often, so the word "Ichime ni Iku" registered in the first speech recognition dictionary 42, which has 1 as the number (No.), is calculated as the recognition result.
このようにすることにより、発音が類似する複数のワードを、異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えて総合的に評価することができるようになり、この結果、発音が類似する複数のワードについても良好に音声認識できるようになる。 By doing so, multiple words with similar pronunciations are comprehensively evaluated in consideration of evaluation by different thresholds and evaluation of consistency with spoken voice focusing only on the part whose pronunciation is different from other words. As a result, it becomes possible to perform good speech recognition even for a plurality of words having similar pronunciations.
一方、最も多く出現する値が複数あれば、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードのうちに、最も多く出現する値を参照番号(ref)の値として持ち、かつ、部分フラグ(P)に値(Y)が登録されているワード、すなわち、そのワードが第1音声認識辞書42に登録されていたワードの部分である旨が設定されているワードである最多出現部分ワードが存在するかどうかを調べる。 On the other hand, if there are a plurality of values that appear most frequently, the value that appears most frequently among the words registered in the second speech recognition dictionary 44 in which a hit is detected by the second speech recognition engine 43 is referred to as a reference number (ref). ), And the value (Y) is registered in the partial flag (P), that is, the word is set to be the part of the word registered in the first speech recognition dictionary 42. Checks if the most frequently occurring partial word that is the word that is being used exists.
そして最多出現部分ワードが存在し、存在した最多出現部分ワードの参照番号(ref)が全て等しければ、存在したワードの参照番号(ref)の値を番号(No.)として持つ、第1音声認識辞書42に登録されているワードを認識結果とするワードとして算定する。 Then, if the most appearing partial word exists and the reference numbers (ref) of the most appearing partial words that existed are all equal, the first speech recognition has the value of the reference number (ref) of the existing word as the number (No.). The word registered in the dictionary 42 is calculated as the word as the recognition result.
すなわち、たとえば、図2の第3階層認識データが現用認識データであり、第3階層認識データの主音声認識辞書が第1音声認識辞書42に設定されており、第3階層認識データの副音声認識辞書が第2音声認識辞書44に設定されているときに、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが番号(No.)が1の「ひとつめにいく」と番号(No.)が2の「ふたつめにいく」と番号(No.)が5の「いつつめにいく」であり、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードが参照番号(ref)が1の「ひと」と、参照番号(ref)が5の「いつつめにいく」であれば、1と5が最も多く出現する値となるが、第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードであって参照番号(ref)として最も多く出現する値1または5を持つワードのうちで、部分フラグ(P)に値(Y)が登録されている第2音声認識辞書44のワードは参照番号(ref)が1の「ひと」のみであるので、1を番号(No.)として持つ、第1音声認識辞書42に登録されていたワード「ひとつめにいく」を認識結果とするワードとして算定する。 That is, for example, the third layer recognition data in FIG. 2 is the current recognition data, the main speech recognition dictionary of the third layer recognition data is set in the first speech recognition dictionary 42, and the sub speech of the third layer recognition data. When the recognition dictionary is set in the second speech recognition dictionary 44, the word registered in the first speech recognition dictionary 42 in which a hit is detected by the first speech recognition engine 41 has a number (No.) of 1. "Go to the first" and "Go to the second" with the number (No.) 2 and "Go to the second" with the number (No.) 5 and the hit is detected by the second voice recognition engine 43. If the words registered in the second speech recognition dictionary 44 are "person" with a reference number (ref) of 1 and "go to tsutsume" with a reference number (ref) of 5, 1 and 5 are the most. Although it is a value that appears frequently, a value 1 or 5 that is a word registered in the second speech recognition dictionary 44 in which a hit is detected by the second speech recognition engine 43 and appears most frequently as a reference number (ref) is used. Among the words that have, the word of the second speech recognition dictionary 44 in which the value (Y) is registered in the partial flag (P) is only the "person" whose reference number (ref) is 1, so 1 is the number (1). The word "first go", which is registered in the first speech recognition dictionary 42 and has as No.), is calculated as the recognition result.
このようにすることにより、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価結果をより重要視して、認識結果とするワードを算定できるようになる。 By doing so, it becomes possible to calculate the word as the recognition result by giving more importance to the evaluation result of the consistency with the uttered voice focusing only on the part whose pronunciation is different from other words.
一方、最多出現部分ワードが存在しない場合には、最も多く出現する値を番号(No.)として持つ第1音声認識辞書42に登録されているワードと、最も多く出現する値を参照番号(ref)としてもつ第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されているワードのうちの、そのワードのしきい値Thが最小であるワードを算定し、算定したワードが第1音声認識辞書42のワードであれば、そのワードを認識結果とするワードとして算定し、算定したワードが第2音声認識辞書44のワードであれば、そのワードの参照番号(ref)の値を番号(No.)として持つ、第1音声認識辞書42に登録されているワードを認識結果とするワードとして算定する。 On the other hand, when the most frequently appearing partial word does not exist, the word registered in the first speech recognition dictionary 42 having the most frequently appearing value as the number (No.) and the most frequently appearing value are referred to as reference numbers (ref). ), Among the words registered in the second speech recognition dictionary 44 in which a hit is detected by the second speech recognition engine 43, the word having the smallest threshold Th of the word is calculated and calculated. If is a word of the first speech recognition dictionary 42, the word is calculated as a word that is the recognition result, and if the calculated word is a word of the second speech recognition dictionary 44, the reference number (ref) of the word is calculated. A word registered in the first speech recognition dictionary 42 having a value as a number (No.) is calculated as a word as a recognition result.
また、最多出現部分ワードが存在し、存在した最多出現部分ワードの参照番号(ref)が全て等しいものでなければ、最多出現部分ワードの参照番号(ref)を、参照番号(ref)としてもつ第2音声認識エンジン43でヒットが検出された第2音声認識辞書44に登録されていたワードと、最多出現部分ワードの参照番号(ref)を番号(No.)として持つ第1音声認識エンジン41でヒットが検出された1音声認識辞書に登録されていたワードのうちの、そのワードのしきい値Thが最小であるワード算定し、算定したワードが第1音声認識辞書42のワードであれば、そのワードを認識結果とするワードとして算定し、算定したワードが第2音声認識辞書44のワードであれば、そのワードの参照番号(ref)の値を番号(No.)として持つ、第1音声認識辞書42に登録されているワードを認識結果とするワードとして算定する。 Further, if the most appearing partial word exists and the reference numbers (ref) of the most appearing partial words that existed are not all equal, the reference number (ref) of the most appearing partial word is used as the reference number (ref). 2 The first voice recognition engine 41 having a word registered in the second voice recognition dictionary 44 in which a hit is detected by the voice recognition engine 43 and a reference number (ref) of the most frequently appearing partial word as a number (No.). Among the words registered in the 1 speech recognition dictionary in which a hit is detected, the word having the minimum threshold Th of the word is calculated, and if the calculated word is the word of the 1st speech recognition dictionary 42, The word is calculated as a word as a recognition result, and if the calculated word is a word in the second speech recognition dictionary 44, the first speech has the value of the reference number (ref) of the word as the number (No.). The word registered in the recognition dictionary 42 is calculated as the word as the recognition result.
ただし、このステップ614は、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが一つである場合には、そのワードを認識結果とするワードとして算定し、第1音声認識エンジン41でヒットが検出された第1音声認識辞書42に登録されているワードが複数ある場合には、当該複数のワードの各々について、そのワードの番号(No.)を参照番号(ref)として持ち部分フラグ(P)に値(Y)が登録されている第2音声認識辞書44のワードのヒットが第2音声認識エンジン43で検出されているかどうかを調べ、ヒットが第2音声認識エンジン43で検出されているワードが当該複数のワードのうちに一つだけ存在する場合には、そのワードを認識結果とするワードとして算定する処理としてもよい。 However, in this step 614, when there is only one word registered in the first speech recognition dictionary 42 in which a hit is detected by the first speech recognition engine 41, that word is calculated as a word as a recognition result. Then, when there are a plurality of words registered in the first speech recognition dictionary 42 in which a hit is detected by the first speech recognition engine 41, the word number (No.) is assigned to each of the plurality of words. It is checked whether or not the hit of the word of the second speech recognition dictionary 44 in which the value (Y) is registered in the partial flag (P) as the reference number (ref) is detected by the second speech recognition engine 43, and the hit is found. When only one word detected by the second voice recognition engine 43 exists among the plurality of words, the process may be performed to calculate the word as the recognition result.
そして、算定した認識結果をデータ処理部1に出力し(ステップ616)類似ワード強識別モード認識処理を終了する。
以上、類似ワード強識別モードが設定されているときに認識調整部45が行う類似ワード強識別モード認識処理について説明した。
さて、ここで、以上のような情報処理装置の動作例を図7に示す。
まず、起動したデータ処理部1は、表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、オーディオソース6から音楽を出力する情報処理を開始する。
また、データ処理部1は、起動したならば、音声入力設定処理を開始し、第1階層認識データを現用認識データに設定することにより、図7a2に示すように第1階層認識データの主音声認識データを第1音声認識辞書42に設定し、図7a3に示すように第1階層認識データの副音声認識データを第2音声認識辞書44に設定すると共に、認識調整部45に、第1階層認識データに認識モードとして登録されているオーディオキャンセルモードを設定する。
Then, the calculated recognition result is output to the data processing unit 1 (step 616), and the similar word strong identification mode recognition process is terminated.
The similar word strong identification mode recognition process performed by the recognition adjustment unit 45 when the similar word strong identification mode is set has been described above.
Here, an operation example of the above-mentioned information processing apparatus is shown in FIG.
First, the activated data processing unit 1 starts information processing for displaying a guide map for car navigation on the display device 7 and information processing for outputting music from the audio source 6.
Further, when the data processing unit 1 is activated, the voice input setting process is started, and the first layer recognition data is set as the current recognition data, so that the main voice of the first layer recognition data is set as shown in FIG. 7a2. The recognition data is set in the first speech recognition dictionary 42, the sub-speech recognition data of the first layer recognition data is set in the second voice recognition dictionary 44 as shown in FIG. 7a3, and the recognition adjustment unit 45 is in the first layer. Set the audio cancel mode registered as the recognition mode in the recognition data.
そして、この結果、音声入力部4の認識調整部45において、オーディオキャンセルモード認識処理によって、第1音声認識辞書42に登録されたワードの音声認識が、オーディオソース6の出力音声による誤認識を第2音声認識辞書44を用いて抑止しながら行われる。 As a result, in the recognition adjustment unit 45 of the voice input unit 4, the voice recognition of the word registered in the first voice recognition dictionary 42 by the audio cancel mode recognition process causes erroneous recognition by the output voice of the audio source 6. 2 It is performed while suppressing using the voice recognition dictionary 44.
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「もくてきちせってい」を発話すると、認識調整部45により、ワード「もくてきちせってい」が認識結果として算定され、ワード「もくてきちせってい」が認識結果として音声入力部4からデータ処理部1に出力される。 Next, in this state, when the user utters the word "Mokukichisete" registered in the first speech recognition dictionary 42, the recognition adjustment unit 45 uses the word "Mokukichisete" as the recognition result. It is calculated, and the word "Mokukichisetei" is output from the voice input unit 4 to the data processing unit 1 as a recognition result.
データ処理部1は、ワード「もくてきちせってい」を認識結果として受け付けたならば、これに応答して、第1階層認識データの主音声認識辞書のワード「もくてきちせってい」に対応する第2階層認識データを、現用認識データに設定する。そして、図7b1に示すように、表示装置7の表示画面を、現用認識データに設定した第2階層認識データの主音声認識データに登録されているワードのリストを含めた画面に変更する。 If the data processing unit 1 accepts the word "Mokukichisetei" as a recognition result, it responds to this and corresponds to the word "Mokukichisete" in the main speech recognition dictionary of the first layer recognition data. The second layer recognition data to be performed is set as the current recognition data. Then, as shown in FIG. 7b1, the display screen of the display device 7 is changed to a screen including a list of words registered in the main voice recognition data of the second layer recognition data set in the current recognition data.
また、データ処理部1は、図7b2に示すように現用認識データに設定した第2階層認識データの主音声認識データを第1音声認識辞書42に設定し、図7b3に示すように現用認識データに設定した第2階層認識データの副音声認識データを第2音声認識辞書44に設定すると共に、認識調整部45に、現用認識データに設定した第2階層認識データに認識モードとして登録されているオーディオキャンセルモードを設定する。 Further, the data processing unit 1 sets the main voice recognition data of the second layer recognition data set in the current recognition data as shown in FIG. 7b2 in the first voice recognition dictionary 42, and sets the current recognition data as shown in FIG. 7b3. The sub-speech recognition data of the second layer recognition data set in is set in the second voice recognition dictionary 44, and is registered in the recognition adjustment unit 45 in the second layer recognition data set in the current recognition data as a recognition mode. Set the audio cancel mode.
そして、この結果、音声入力部4の認識調整部45において、オーディオキャンセルモード認識処理によって、第1音声認識辞書42に登録されたワードの音声認識が、オーディオソース6の出力音声による誤認識を第2音声認識辞書44を用いて抑止しながら行われる。 As a result, in the recognition adjustment unit 45 of the voice input unit 4, the voice recognition of the word registered in the first voice recognition dictionary 42 by the audio cancel mode recognition process causes erroneous recognition by the output voice of the audio source 6. 2 It is performed while suppressing using the voice recognition dictionary 44.
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「ちかくのらーめんや」を発話すると、認識調整部45により、ワード「ちかくのらーめんや」が認識結果として算定され、ワード「ちかくのらーめんや」が認識結果として音声入力部4からデータ処理部1に出力される。 Next, in this state, when the user utters the word "Chikaku no Ramenya" registered in the first speech recognition dictionary 42, the recognition adjustment unit 45 calculates the word "Chikaku no Ramenya" as the recognition result. , The word "Chikaku no Ramenya" is output from the voice input unit 4 to the data processing unit 1 as a recognition result.
データ処理部1は、ワード「ちかくのらーめんや」を認識結果として受け付けたならば、これに応答して、現用認識データに設定している第2階層認識データの主音声認識辞書のワード「ちかくのらーめんや」に対応する第3階層認識データを、現用認識データに設定する。そして、現在位置の近くのラーメン屋を、データ処理部1が備えているカーナビゲーション機能により探索し、図7c1に示すように、表示装置7の表示画面を、現用認識データに設定した第3階層認識データの主音声認識データに登録されているワードのリストを、リスト中の現用認識データに設定した第3階層認識データの主音声認識データに登録されている「ひとつめにいく」から「いつつめにいく」の5つのワードに、探索した現在位置の近くの5つのラーメン屋の表示を各々対応づけた形態で含めた画面に変更する。 When the data processing unit 1 receives the word "Chikaku no Ramenya" as the recognition result, in response to this, the data processing unit 1 responds to the word "Chikaku" in the main speech recognition dictionary of the second layer recognition data set in the current recognition data. The third layer recognition data corresponding to "Noramenya" is set as the current recognition data. Then, the ramen shop near the current position is searched by the car navigation function provided in the data processing unit 1, and as shown in FIG. 7c1, the display screen of the display device 7 is set to the current recognition data in the third layer. The list of words registered in the main speech recognition data of the recognition data is set in the current recognition data in the list. From "I go to the first" registered in the main speech recognition data of the third layer recognition data, "when Change the screen to include the display of the five ramen shops near the searched current position in the corresponding form in the five words of "Tsume ni Iku".
また、データ処理部1は、図7c2に示すように現用認識データに設定した第3階層認識データの主音声認識データを第1音声認識辞書42に設定し、図7c3に示すように現用認識データに設定した第3階層認識データの副音声認識データを第2音声認識辞書44に設定し、認識調整部45に、現用認識データに設定した第3階層認識データに認識モードとして登録されている類似ワード強識別モードを設定する。 Further, the data processing unit 1 sets the main voice recognition data of the third layer recognition data set in the current recognition data as shown in FIG. 7c2 in the first voice recognition dictionary 42, and sets the current recognition data as shown in FIG. 7c3. The sub-speech recognition data of the third layer recognition data set in is set in the second voice recognition dictionary 44, and is registered as a recognition mode in the third layer recognition data set in the current recognition data in the recognition adjustment unit 45. Set the word strong identification mode.
そして、この結果、音声入力部4の認識調整部45において、類似ワード強識別モード認識処理によって、上述のように、第1音声認識辞書42と第2音声認識辞書44を用いた異なるしきい値による評価や、他のワードと発音が異なる部分のみに着目した発話音声との整合度の評価を考慮に加えた総合的に評価によって、発音が類似する複数のワードを、より良好に識別する形態で、第1音声認識辞書42に登録されたワードの音声認識が行われる。 As a result, in the recognition adjustment unit 45 of the voice input unit 4, different thresholds using the first voice recognition dictionary 42 and the second voice recognition dictionary 44 are performed by the similar word strong identification mode recognition process as described above. A form that better identifies multiple words with similar pronunciation by comprehensive evaluation that takes into consideration the evaluation by and the evaluation of consistency with the spoken voice focusing only on the part whose pronunciation is different from other words. Then, the voice recognition of the word registered in the first voice recognition dictionary 42 is performed.
そして、この状態で、ユーザが第1音声認識辞書42に登録されているワード「ひとつめにいく」を発話すると、認識調整部45により、ワード「ひとつめにいく」が認識結果として算定され、ワード「ひとつめにいく」が認識結果として音声入力部4からデータ処理部1に出力される。 Then, in this state, when the user utters the word "first go" registered in the first speech recognition dictionary 42, the recognition adjustment unit 45 calculates the word "first go" as a recognition result. The word "first go" is output from the voice input unit 4 to the data processing unit 1 as a recognition result.
データ処理部1は、ワード「ひとつめにいく」を認識結果として受け付けたならば、ワード「ひとつめにいく」に対応づけて図7c1の画面に表したラーメン屋を目的地に設定し、データ処理部1が備えているカーナビゲーション機能において目的地までの道案内のための処理を開始する。 If the data processing unit 1 accepts the word "go to the first" as a recognition result, it sets the ramen shop shown on the screen of FIG. 7c1 as the destination in association with the word "go to the first" and data. In the car navigation function provided in the processing unit 1, processing for directions to the destination is started.
さて、以上のように類似ワード強識別モードを設定しているときには、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止は行われない。しかし、類似ワード強識別モードが設定されるのは、第1階層認識データ以外の階層の認識データが現用認識データに設定されているときであり、第1階層認識データ以外の階層の認識データが現用認識データに設定されるときは、ユーザが一連の階層的な音声入力を連続的に行っているときである。 By the way, when the similar word strong identification mode is set as described above, the suppression using the second speech recognition dictionary 44 of the erroneous recognition by the output speech of the audio source 6 is not performed. However, the similar word strong identification mode is set when the recognition data of the layer other than the first layer recognition data is set as the current recognition data, and the recognition data of the layer other than the first layer recognition data is set. When set to the active recognition data, it is when the user is continuously performing a series of hierarchical voice inputs.
したがって、類似ワード強識別モードを設定してから、ユーザの発話による音声入力が行われるまでの期間は短く、この間に、第1音声認識辞書42に設定されているワードと同じワードの音声が、オーディオソース6から出力されることは希である。 Therefore, the period from the setting of the similar word strong identification mode to the voice input by the user's utterance is short, and during this period, the voice of the same word as the word set in the first voice recognition dictionary 42 is heard. It is rarely output from the audio source 6.
したがって、第1階層認識データ以外の階層の認識データを現用認識データに設定しているときに、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止を行わなくても実用上、支障が生じることはない。 Therefore, when the recognition data of the layer other than the first layer recognition data is set as the current recognition data, it is not necessary to suppress the false recognition by the output voice of the audio source 6 by using the second voice recognition dictionary 44. Practically, there is no problem.
なお、第1階層認識データを現用認識データに設定しているときには、第1階層認識データを現用認識データに設定してからユーザの発話による音声入力が発生するまでの期間は不定であり、この間に、第1音声認識辞書42に設定されているワードと同じワードの音声がオーディオソース6から出力される可能性は小さくない。よって、第1階層認識データを現用認識データに設定しているときには、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止を行うことが重要となる。 When the first layer recognition data is set as the current recognition data, the period from when the first layer recognition data is set to the current recognition data until the voice input by the user's utterance occurs is indefinite, and during this period In addition, there is a high possibility that the voice of the same word as the word set in the first voice recognition dictionary 42 is output from the audio source 6. Therefore, when the first layer recognition data is set as the current recognition data, it is important to suppress the false recognition by the output voice of the audio source 6 by using the second voice recognition dictionary 44.
以上、本発明の実施形態について説明した。
なお、以上の実施形態では、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードに一致する語句や、当該ワードの他のワードと発音が類似していない部分をワードとして登録したが、認識モードを類似ワード強識別モードに設定した認識データの副音声認識辞書には、その認識データの主音声認識辞書に登録されている、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードに一致する語句のみを登録したり、当該主音声認識辞書に登録されている他のワードと発音が類似する各ワードの他のワードと発音が類似していない部分のみを登録するようにしてもよい。
The embodiment of the present invention has been described above.
In the above embodiment, the sub-speech recognition dictionary of the recognition data in which the recognition mode is set to the similar word strong identification mode is registered in the main speech recognition dictionary, which is registered in the main speech recognition dictionary of the recognition data. Words that match each word that has similar pronunciation to other words that are used, or parts that do not have similar pronunciation to other words in the word are registered as words, but the recognition mode is set to similar word strong identification mode. In the sub-speech recognition dictionary of the recognized data, only words and phrases that match each word whose pronunciation is similar to other words registered in the main speech recognition dictionary of the recognition data are registered. Or, only the part whose pronunciation is not similar to that of other words of each word whose pronunciation is similar to that of other words registered in the main speech recognition dictionary may be registered.
また、以上の実施形態においては、第1階層認識データ以外の各階層の認識データの認識モードを、全て類似ワード強識別モードに設定するようにしてもよい。 Further, in the above embodiment, the recognition modes of the recognition data of each layer other than the first layer recognition data may be set to the similar word strong identification mode.
1…データ処理部、2…辞書DB、3…マイクロフォン、4…音声入力部、5…スピーカ、6…オーディオソース、7…表示装置、8…周辺装置、41…第1音声認識エンジン、42…第1音声認識辞書、43…第2音声認識エンジン、44…第2音声認識辞書、45…認識調整部。 1 ... Data processing unit, 2 ... Dictionary DB, 3 ... Microphone, 4 ... Voice input unit, 5 ... Speaker, 6 ... Audio source, 7 ... Display device, 8 ... Peripheral device, 41 ... First voice recognition engine, 42 ... 1st voice recognition dictionary, 43 ... 2nd voice recognition engine, 44 ... 2nd voice recognition dictionary, 45 ... recognition adjustment unit.
Claims (10)
マイクロフォンと、
ワードである第1認識候補が複数登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、入力した音声に所定レベルより良好に整合する第1認識候補を対象候補として検出する第1音声認識手段と、
第2音声認識手段と、
第2音声認識手段によって用いられる第2音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、
前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第2認識候補として登録されており、
前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、
前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と当該ワードの抜粋部分である第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識することを特徴とする音声認識システム。 It is a voice recognition system that recognizes the voice spoken by the user.
With a microphone
A first speech recognition dictionary in which a plurality of first recognition candidates that are words are registered, and
The voice picked up by the microphone is input, and among a plurality of first recognition candidates registered in the first voice recognition dictionary, the first recognition candidate that matches the input voice better than a predetermined level is detected as a target candidate. The first voice recognition means to be
Second voice recognition means and
A second speech recognition dictionary used by the second speech recognition means,
Has a means of recognition
The speech recognition system has one or more recognition modes, including a first recognition mode.
In the second speech recognition dictionary used by the second speech recognition means in the first recognition mode, a plurality of words having partially common pronunciations registered as first recognition candidates in the first speech recognition dictionary. Each word excerpt part, which is a part whose pronunciation is not common to other words, is registered as a second recognition candidate.
In the first recognition mode, the second voice recognition means inputs the voice picked up by the microphone, and selects the input voice from a plurality of second recognition candidates registered in the second voice recognition dictionary. A second recognition candidate that matches better than a predetermined level is detected as a target candidate, and
In the first recognition mode, the recognition means is the target of each word registered as a first recognition candidate in the first speech recognition dictionary by the first speech recognition means and the second speech recognition means. Calculate the number of the first recognition candidate, which is the word, and the second recognition candidate, which is an excerpt of the word, detected as candidates, and recognize the word with the largest calculated number as the word spoken by the user. A voice recognition system featuring.
マイクロフォンと、
ワードである第1認識候補が複数、各第1認識候補に各々対応する複数の第1しきい値と共に登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、対応する第1しきい値が示すレベルより良好に入力した音声に整合する第1認識候補を対象候補として検出する第1音声認識手段と、
第2音声認識手段と、
第2音声認識手段によって用いられる第2音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、
前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードが各々第2認識候補として、当該各第2認識候補に各々対応する複数の第2しきい値と共に登録されており、
前記第1の認識モードにおいて、前記第2音声認識辞書に登録された各第2認識候補に対応する第2しきい値は、当該第2認識候補として登録されたワードと同じワードである第1認識候補に対応する第1しきい値より良好な整合のレベルを示しており、
前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、対応する第2しきい値が示すレベルより良好に入力した音声に整合する第2認識候補を対象候補として検出し、
前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識することを特徴とする音声認識システム。 It is a voice recognition system that recognizes the voice spoken by the user.
With a microphone
A plurality of first recognition candidates that are words, a first speech recognition dictionary registered with a plurality of first threshold values corresponding to each first recognition candidate, and
The voice picked up by the microphone is input, and the voice that is better than the level indicated by the corresponding first threshold value is matched from among the plurality of first recognition candidates registered in the first voice recognition dictionary. 1 First voice recognition means for detecting recognition candidates as target candidates,
Second voice recognition means and
A second speech recognition dictionary used by the second speech recognition means,
Has a means of recognition
The speech recognition system has one or more recognition modes, including a first recognition mode.
In the second voice recognition dictionary used by the second voice recognition means in the first recognition mode, the same words as the plurality of words registered as the first recognition candidates in the first voice recognition dictionary are each second. As recognition candidates, they are registered together with a plurality of second threshold values corresponding to each of the second recognition candidates.
In the first recognition mode, the second threshold value corresponding to each second recognition candidate registered in the second speech recognition dictionary is the same word as the word registered as the second recognition candidate. It shows a better level of matching than the first threshold corresponding to the recognition candidate.
In the first recognition mode, the second voice recognition means inputs the voice picked up by the microphone, and the corresponding second recognition candidate is selected from the plurality of second recognition candidates registered in the second voice recognition dictionary. The second recognition candidate that matches the input voice better than the level indicated by the threshold is detected as the target candidate.
In the first recognition mode, the recognition means is the target of each word registered as a first recognition candidate in the first speech recognition dictionary by the first speech recognition means and the second speech recognition means. A voice recognition system characterized in that the number of the first recognition candidate and the second recognition candidate, which are the words detected as candidates, is calculated, and the word with the largest calculated number is recognized as the word spoken by the user. ..
マイクロフォンと、
ワードである第1認識候補が複数、各第1認識候補に各々対応する複数の第1しきい値と共に登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、対応する第1しきい値が示すレベルより良好に入力した音声に整合する第1認識候補を対象候補として検出する第1音声認識手段と、
第2音声認識手段と、
前記第2音声認識手段によって用いられる第2音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、
前記第1の認識モードにおいて第2音声認識手段によって用いられる第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分と、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードとが各々第2認識候補として、当該各第2認識候補に各々対応する複数の第2しきい値と共に登録されており、
前記第1の認識モードにおいて、前記第2音声認識辞書に登録された、前記第1認識候補として登録されているワードと同じワードである第2認識候補に対応する第2しきい値は、当該第2認識候補として登録されたワードと同じワードである第1認識候補に対応する第1しきい値より良好な整合のレベルを示しており、
前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、対応する第2しきい値が示すレベルより良好に入力した音声に整合する第2認識候補を対象候補として検出し、
前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識辞書に第1認識候補として登録されている各ワードについて、前記第1音声認識手段と前記第2音声認識手段とによって前記対象候補として検出された、当該ワードである第1認識候補と当該ワードである第2認識候補と当該ワードの抜粋部分である第2認識候補の数を算定し、算定した数が最大のワードを、ユーザの発話したワードとして認識することを特徴とする音声認識システム。 It is a voice recognition system that recognizes the voice spoken by the user.
With a microphone
A plurality of first recognition candidates that are words, a first speech recognition dictionary registered with a plurality of first threshold values corresponding to each first recognition candidate, and
The voice picked up by the microphone is input, and the voice that is better than the level indicated by the corresponding first threshold value is matched from among the plurality of first recognition candidates registered in the first voice recognition dictionary. 1 First voice recognition means for detecting recognition candidates as target candidates,
Second voice recognition means and
The second voice recognition dictionary used by the second voice recognition means and
Has a means of recognition
The speech recognition system has one or more recognition modes, including a first recognition mode.
In the second speech recognition dictionary used by the second speech recognition means in the first recognition mode, a plurality of words having a partially common pronunciation registered as the first recognition candidate in the first speech recognition dictionary The word excerpt part, which is a part whose pronunciation is not common to other words, and the same word as a plurality of words registered as the first recognition candidate in the first speech recognition dictionary are the second recognition candidates, respectively. It is registered with a plurality of second threshold values corresponding to each second recognition candidate.
In the first recognition mode, the second threshold value corresponding to the second recognition candidate, which is the same word as the word registered as the first recognition candidate, registered in the second speech recognition dictionary is the said. It shows a better level of matching than the first threshold value corresponding to the first recognition candidate, which is the same word as the word registered as the second recognition candidate.
In the first recognition mode, the second voice recognition means inputs the voice picked up by the microphone, and the corresponding second recognition candidate is selected from the plurality of second recognition candidates registered in the second voice recognition dictionary. The second recognition candidate that matches the input voice better than the level indicated by the threshold is detected as the target candidate.
In the first recognition mode, the recognition means is the target of each word registered as a first recognition candidate in the first speech recognition dictionary by the first speech recognition means and the second speech recognition means. The number of the first recognition candidate that is the word, the second recognition candidate that is the word, and the second recognition candidate that is the excerpt part of the word that are detected as candidates is calculated, and the word with the largest calculated number is calculated. A voice recognition system characterized in that it is recognized as a word spoken by the user.
前記第1の認識モードにおいて、前記認識手段は、前記算定した数が最大のワードが複数存在する場合には、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。 The voice recognition system according to claim 3.
In the first recognition mode, when there are a plurality of words having the largest calculated number, the recognition means is a second excerpt portion of the words having the largest calculated number. A voice recognition system characterized in that a recognition candidate recognizes a word detected as the target candidate as a word spoken by a user.
前記第1の認識モードにおいて、前記認識手段は、前記算定した数が最大のワードが複数存在し、前記算定した数が最大のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードが複数存在する場合には、前記算定した数が最大のワードであって、当該ワードの抜粋部分である第2認識候補が前記対象候補として検出されたワードのうちの、前記対象候補として検出された当該ワードである第1認識候補に対応する第1しきい値と、前記対象候補として検出された当該ワードである第2認識候補に対応する第2しきい値と、前記対象候補として検出された当該ワードの抜粋部分である第2認識候補に対応する第2しきい値との最小値が、最小であるワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。 The voice recognition system according to claim 4.
In the first recognition mode, the recognition means has a plurality of words having the maximum calculated number, and among the words having the maximum calculated number, the second recognition candidate which is an excerpt portion of the word is When there are a plurality of words detected as the target candidates, the calculated number is the largest word, and the second recognition candidate, which is an excerpt part of the word, is among the words detected as the target candidates. The first threshold value corresponding to the first recognition candidate which is the word detected as the target candidate, and the second threshold value corresponding to the second recognition candidate which is the word detected as the target candidate. The feature is that the word whose minimum value with the second threshold value corresponding to the second recognition candidate, which is an excerpt portion of the word detected as the target candidate, is the smallest is recognized as the word spoken by the user. Voice recognition system.
マイクロフォンと、
ワードである第1認識候補が複数登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数の第1認識候補のうちから、入力した音声に所定レベルより良好に整合する第1認識候補を対象候補として検出する第1音声認識手段と、
第2音声認識手段と、
第2音声認識手段によって用いられる第2音声認識辞書と、
認識手段とを有し、
当該音声認識システムは、第1の認識モードを含む単一または複数の認識モードを有し、
前記第1の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている部分的に発音が共通する複数のワードの他のワードと発音が共通していない部分であるワード抜粋部分が各々第2認識候補として登録されており、
前記第1の認識モードにおいて、前記第2音声認識手段は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、
前記第1の認識モードにおいて、前記認識手段は、前記第1音声認識手段によって前記対象候補として検出された第1認識候補であるワードが複数存在する場合には、当該複数のワードのうちの、当該ワードの抜粋部分である第2認識候補が前記第2音声認識手段によって前記対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。 It is a voice recognition system that recognizes the voice spoken by the user.
With a microphone
A first speech recognition dictionary in which a plurality of first recognition candidates that are words are registered, and
The voice picked up by the microphone is input, and among a plurality of first recognition candidates registered in the first voice recognition dictionary, the first recognition candidate that matches the input voice better than a predetermined level is detected as a target candidate. The first voice recognition means to be
Second voice recognition means and
A second speech recognition dictionary used by the second speech recognition means,
Has a means of recognition
The speech recognition system has one or more recognition modes, including a first recognition mode.
In the second speech recognition dictionary used by the second speech recognition means in the first recognition mode, a plurality of words having a partially common pronunciation registered as first recognition candidates in the first speech recognition dictionary. Each word excerpt part, which is a part whose pronunciation is not common to other words, is registered as a second recognition candidate.
In the first recognition mode, the second voice recognition means inputs the voice picked up by the microphone, and selects the input voice from a plurality of second recognition candidates registered in the second voice recognition dictionary. A second recognition candidate that matches better than a predetermined level is detected as a target candidate, and
In the first recognition mode, when there are a plurality of words that are the first recognition candidates detected as the target candidates by the first voice recognition means, the recognition means among the plurality of words. A voice recognition system characterized in that a second recognition candidate, which is an excerpt portion of the word, recognizes a word detected as the target candidate by the second voice recognition means as a word spoken by a user.
前記マイクロフォンは、スピーカから、当該スピーカにオーディオソース機器から出力された音が放射される空間中に配置されており、
当該音声認識モードは前記第1の認識モードと第2の認識モードを含む複数の認識モードを有し、
前記第2の認識モードにおいて第2音声認識手段によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に第1認識候補として登録されている複数のワードと同じワードが各々第2認識候補として登録されており、
前記第2の認識モードにおいて、前記第2音声認識手段は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数の第2認識候補のうちから、入力した音声に所定レベルより良好に整合する第2認識候補を対象候補として検出し、
前記第2の認識モードにおいて、前記認識手段は、前記第2音声認識手段によって第2認識候補が前記対象候補として検出された後の所定期間中は、当該対象候補として検出された第2認識候補と同じワードである第1認識候補が前記第1音声認識手段によって前記対象候補として検出されても、当該対象候補として検出された第1認識候補であるワードをーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識手段によって前記対象候補として検出された第1認識候補であるワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。 The voice recognition system according to claim 1, 2, 3, 4, 5 or 6.
The microphone is arranged in a space where the sound output from the audio source device is radiated from the speaker to the speaker.
The voice recognition mode has a plurality of recognition modes including the first recognition mode and the second recognition mode.
In the second voice recognition dictionary used by the second voice recognition means in the second recognition mode, the same words as the plurality of words registered as the first recognition candidates in the first voice recognition dictionary are each second. It is registered as a recognition candidate and
In the second recognition mode, the second voice recognition means inputs the voice output to the speaker by the audio source device, and is selected from a plurality of second recognition candidates registered in the second voice recognition dictionary. A second recognition candidate that matches the input voice better than a predetermined level is detected as a target candidate.
In the second recognition mode, the recognition means is a second recognition candidate detected as the target candidate during a predetermined period after the second recognition candidate is detected as the target candidate by the second voice recognition means. Even if the first recognition candidate which is the same word as is detected as the target candidate by the first voice recognition means, the word which is the first recognition candidate detected as the target candidate is recognized as the word spoken by the user. A voice recognition system characterized in that a word that is a first recognition candidate detected as a target candidate by the first voice recognition means is recognized as a word spoken by a user while suppressing this.
前記第1音声認識辞書と第2音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、
ユーザの音声入力を受け付ける音声入力受付手段と、
前記認識モードを制御する認識モード制御手段とを有し、
当該音声入力受付手段は、予め定めた音声認識データが表す前記第1音声認識辞書と第2音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第1音声認識辞書と第2音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第1音声認識辞書と第2音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として1回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを有すると共に、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、
前記認識モード制御手段は、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第2の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードを、前記第1の認識モードと前記第2の認識モードの間で、前記前回音声入力として受け付けたワードに応じて定まる音声認識データに応じて切り替えることを特徴とする音声認識システム。 The voice recognition system according to claim 7.
A storage means for storing a plurality of voice recognition data representing the first voice recognition dictionary and the second voice recognition dictionary, and
Voice input receiving means that accepts user's voice input and
It has a recognition mode control means for controlling the recognition mode, and has
The voice input receiving means sets the first voice recognition dictionary and the second voice recognition dictionary represented by the predetermined voice recognition data, and receives the word recognized by the recognition means as the voice input, and the first state. The word recognized by the recognition means while updating the voice recognition dictionary and the second voice recognition dictionary to the first voice recognition dictionary and the second voice recognition dictionary represented by the voice recognition data determined according to the word received as the previous voice input. Has a voice input sequence executing state that executes a sequence that accepts the voice input once or a plurality of times, and if a word is received as a voice input in the standby state, the state transitions to the voice input sequence executing state, and the above When the execution of the sequence in the voice input sequence execution state is completed, the state transitions to the standby state.
The recognition mode control means sets the second recognition mode as the recognition mode when the voice input receiving means is in the standby state, and when the voice input receiving means is in the voice input sequence executing state. A voice recognition system characterized in that the recognition mode is switched between the first recognition mode and the second recognition mode according to voice recognition data determined according to a word received as the previous voice input. ..
前記第1音声認識辞書と第2音声認識辞書を表す複数の音声認識データを記憶した記憶手段と、
ユーザの音声入力を受け付ける音声入力受付手段と、
前記認識モードを制御する認識モード制御手段とを有し、
当該音声入力受付手段は、予め定めた音声認識データが表す前記第1音声認識辞書と第2音声認識辞書を設定し、前記認識手段が認識したワードを音声入力として受け付ける待ち受け状態と、前記第1音声認識辞書と第2音声認識辞書を前回音声入力として受け付けたワードに応じて定まる音声認識データが表す前記第1音声認識辞書と第2音声認識辞書に更新しながら、前記認識手段が認識したワードを音声入力として1回もしくは複数回受け付けるシーケンスを実行する音声入力シーケンス実行中状態とを有すると共に、前記待ち受け状態においてワードを音声入力として受け付けたならば前記音声入力シーケンス実行中状態に遷移し、前記音声入力シーケンス実行中状態における前記シーケンスの実行を終了したならば前記待ち受け状態に遷移し、
前記認識モード制御手段は、前記音声入力受付手段が前記待ち受け状態にあるときには、前記認識モードとして前記第2の認識モードを設定し、前記音声入力受付手段が前記音声入力シーケンス実行中状態にあるときには、前記認識モードとして前記第1の認識モードを設定することを特徴とする音声認識システム。 The voice recognition system according to claim 7.
A storage means for storing a plurality of voice recognition data representing the first voice recognition dictionary and the second voice recognition dictionary, and
Voice input receiving means that accepts user's voice input and
It has a recognition mode control means for controlling the recognition mode, and has
The voice input receiving means sets the first voice recognition dictionary and the second voice recognition dictionary represented by the predetermined voice recognition data, and receives the word recognized by the recognition means as the voice input, and the first state. The word recognized by the recognition means while updating the voice recognition dictionary and the second voice recognition dictionary to the first voice recognition dictionary and the second voice recognition dictionary represented by the voice recognition data determined according to the word received as the previous voice input. Has a voice input sequence executing state that executes a sequence that accepts the voice input once or a plurality of times, and if a word is received as a voice input in the standby state, the state transitions to the voice input sequence executing state, and the above When the execution of the sequence in the voice input sequence execution state is completed, the state transitions to the standby state.
The recognition mode control means sets the second recognition mode as the recognition mode when the voice input receiving means is in the standby state, and when the voice input receiving means is in the voice input sequence executing state. , A voice recognition system characterized in that the first recognition mode is set as the recognition mode.
当該音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。 The voice recognition system according to claim 1, 2, 3, 4, 5, 6, 7, 8 or 9.
The voice recognition system is a voice recognition system used for voice input in an in-vehicle system mounted on an automobile.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017159823A JP6824554B2 (en) | 2017-08-22 | 2017-08-22 | Speech recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017159823A JP6824554B2 (en) | 2017-08-22 | 2017-08-22 | Speech recognition system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019039965A JP2019039965A (en) | 2019-03-14 |
| JP6824554B2 true JP6824554B2 (en) | 2021-02-03 |
Family
ID=65725720
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017159823A Active JP6824554B2 (en) | 2017-08-22 | 2017-08-22 | Speech recognition system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6824554B2 (en) |
Family Cites Families (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JPH096387A (en) * | 1995-06-19 | 1997-01-10 | Matsushita Electric Ind Co Ltd | Voice recognition device |
| JP2005091709A (en) * | 2003-09-17 | 2005-04-07 | Renesas Technology Corp | Speech recognition device |
| JP5200712B2 (en) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | Speech recognition apparatus, speech recognition method, and computer program |
| JP5293478B2 (en) * | 2009-07-17 | 2013-09-18 | 富士通株式会社 | Threshold management program for speech recognition, threshold management method for speech recognition, speech recognition apparatus |
| JP2011170087A (en) * | 2010-02-18 | 2011-09-01 | Fujitsu Ltd | Voice recognition apparatus |
| CN104956436B (en) * | 2012-12-28 | 2018-05-29 | 株式会社索思未来 | Equipment and audio recognition method with speech identifying function |
| JP6276513B2 (en) * | 2013-04-12 | 2018-02-07 | 株式会社レイトロン | Speech recognition apparatus and speech recognition program |
-
2017
- 2017-08-22 JP JP2017159823A patent/JP6824554B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019039965A (en) | 2019-03-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11037574B2 (en) | Speaker recognition and speaker change detection | |
| JP3920097B2 (en) | Voice recognition device for in-vehicle equipment | |
| KR100586286B1 (en) | How to improve oral and command distinction | |
| US20160189715A1 (en) | Speech recognition device and method | |
| JP2020012954A (en) | Information processing apparatus, information processing method and program | |
| US20080262843A1 (en) | Speech recognition apparatus and method | |
| US12067978B2 (en) | Methods and systems for confusion reduction for compressed acoustic models | |
| JP2008097082A (en) | Spoken dialogue device | |
| KR20180063341A (en) | A speech recognition device, a speech emphasis device, a speech recognition method, a speech enhancement method, and a navigation system | |
| EP3654329B1 (en) | In-vehicle device and speech recognition method | |
| JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| JP2018116206A (en) | Speech recognition apparatus, speech recognition method, and speech recognition system | |
| JP4056711B2 (en) | Voice recognition device | |
| JP6824554B2 (en) | Speech recognition system | |
| JP6716968B2 (en) | Speech recognition device, speech recognition program | |
| CN112863496B (en) | Voice endpoint detection method and device | |
| JP4770374B2 (en) | Voice recognition device | |
| JP6852029B2 (en) | Word detection system, word detection method and word detection program | |
| JP6912985B2 (en) | Speech recognition system and computer program | |
| JP2006208486A (en) | Voice input device | |
| JP2020091435A (en) | Voice recognition system, notification method of voice recognition system, program, and mobile body mounted apparatus | |
| JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
| JP4951422B2 (en) | Speech recognition apparatus and speech recognition method | |
| JP6966374B2 (en) | Speech recognition system and computer program | |
| JP7592496B2 (en) | Voice response device, voice response method, and voice response program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200306 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201210 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210107 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6824554 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |