JP6912985B2 - Speech recognition system and computer program - Google Patents
Speech recognition system and computer program Download PDFInfo
- Publication number
- JP6912985B2 JP6912985B2 JP2017176219A JP2017176219A JP6912985B2 JP 6912985 B2 JP6912985 B2 JP 6912985B2 JP 2017176219 A JP2017176219 A JP 2017176219A JP 2017176219 A JP2017176219 A JP 2017176219A JP 6912985 B2 JP6912985 B2 JP 6912985B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- recognition
- word
- voice recognition
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004590 computer program Methods 0.000 title claims description 18
- 238000000034 method Methods 0.000 claims description 225
- 230000008569 process Effects 0.000 claims description 215
- 230000006870 function Effects 0.000 claims description 8
- 230000010365 information processing Effects 0.000 description 13
- 238000012544 monitoring process Methods 0.000 description 8
- 230000007423 decrease Effects 0.000 description 5
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Images
Landscapes
- Navigation (AREA)
Description
本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。 The present invention relates to a voice recognition technique for recognizing a user's spoken voice.
ユーザの発話音声を認識する音声認識の技術としては、楽曲等のオーディオコンテンツの音声をスピーカから出力するオーディオ装置を備えたシステムに、マイクロフォンでピックアップしたユーザの発話音声を認識する第1の音声認識部に加え、オーディオ装置がスピーカに出力する音声の音声認識を行う第2の音声認識部を設け、第1の音声認識部が音声認識した結果と、第2の音声認識部が音声認識した結果とが一致した場合に、第1の音声認識部が音声認識した結果を無効化する技術が知られている(たとえば、特許文献1)。 As a voice recognition technology for recognizing a user's voice, a first voice recognition that recognizes a user's voice picked up by a microphone in a system equipped with an audio device that outputs the voice of audio content such as music from a speaker. In addition to the unit, a second voice recognition unit that performs voice recognition of the voice output from the audio device to the speaker is provided, and the result of voice recognition by the first voice recognition unit and the result of voice recognition by the second voice recognition unit. There is known a technique for invalidating the result of voice recognition by the first voice recognition unit when the above is the same (for example, Patent Document 1).
このような第1の技術によれば、マイクロフォンに回りこんだオーディオ装置の出力音声に対しても行われてしまう第1の音声認識部の音声認識結果を、ユーザの発話音声の音声認識結果として誤認してしまうことを抑止することができる。 According to such a first technique, the voice recognition result of the first voice recognition unit, which is also performed for the output voice of the audio device that wraps around the microphone, is used as the voice recognition result of the user's uttered voice. It is possible to prevent misidentification.
また、ユーザの発話音声を認識する音声認識の技術としては、音声入力の候補となるコマンドのセットが前回入力されたコマンドによって変化するシステムにおいて、第1の音声認識部で今回音声入力の候補となるコマンドのセット中のコマンドの音声認識を行いつつ、第2の音声認識部で前回音声入力の候補であったコマンドのセット中のコマンドの音声認識を行うことにより、ユーザのコマンドの言い直しを受け付ける技術も知られている(たとえば、特許文献2)。 In addition, as a voice recognition technology for recognizing a user's voice, in a system in which a set of commands that are candidates for voice input changes depending on a command input last time, the first voice recognition unit is used as a candidate for voice input this time. While performing voice recognition of the command in the set of commands, the second voice recognition unit performs voice recognition of the command in the set of commands that was a candidate for voice input last time, so that the user's command can be rephrased. Accepting techniques are also known (for example, Patent Document 2).
さて、コマンドの音声入力を行うシステムにおいては、各時点において多くのコマンドの音声入力を受け付けることができることが好ましい。特に、ユーザにとって緊急を要する処理の実行を要求するコマンドの音声入力は任意の時点において受け付けることができることが好ましい。 By the way, in a system for voice input of commands, it is preferable to be able to accept voice input of many commands at each time point. In particular, it is preferable that the voice input of a command requesting the execution of an urgent process for the user can be accepted at any time.
しかし、一般的に音声認識部において実用的に音声認識できるコマンドの数には限りがある。
一方で、第1の音声認識部と第2の音声認識部との二つの音声認識部を備えたシステムにおいて、上述した特許文献1の技術のように第1の音声認識部と第2の音声認識部において、異なるコマンドのセット中のコマンドの音声認識を行えば、各時点において、一つの音声認識部のみを用いる場合に比べ多くのコマンドの音声入力を受け付けることができるようになるが、このようにすると、上述した特許文献2の技術を適用して、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンドを誤認識してしまうことを防止することができなくなってしまう。
However, in general, the number of commands that can be practically recognized by a voice recognition unit is limited.
On the other hand, in a system including two voice recognition units, a first voice recognition unit and a second voice recognition unit, the first voice recognition unit and the second voice recognition unit are used as in the technique of
そこで、本発明は、第1の音声認識部と第2の音声認識部との二つの音声認識部を備えた音声認識システムにおいて、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンド等のワードを誤認してしまうことを抑制しつつ、音声入力を受け付けることのできるワードの数を可及的に増大することを課題とする。 Therefore, according to the present invention, in a voice recognition system including two voice recognition units, a first voice recognition unit and a second voice recognition unit, a command or the like can be used for the output voice of an audio device that wraps around the microphone. The challenge is to increase the number of words that can accept voice input as much as possible while suppressing misidentification of words.
前記課題達成のために、本発明は、スピーカから、当該スピーカにオーディオソース機器から出力された音声が放射される空間の中で発話された音声を認識する音声認識システムに、マイクロフォンと、ワードが複数登録された第1音声認識辞書と、前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第1音声認識部と、第2音声認識部と、第2音声認識部によって用いられる第2音声認識辞書と、ユーザの発話したワードを認識する認識部と、第1の認識モードと第2の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部とを備えたものである。ここで、前記第1の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、前記第1の認識モードにおいて、前記第2音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、前記第1の認識モードにおいて、前記認識部は、前記第2音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第1音声認識部によって前記対象候補として検出されても、当該前記第1音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識する。また、第2の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、前記第2の認識モードにおいて、前記第2音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、前記第2の認識モードにおいて、前記認識部は、前記第1音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第2音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識する。
In order to achieve the above object, the present invention provides a voice recognition system that recognizes a voice uttered in a space in which the voice output from an audio source device is radiated from the speaker to the speaker, and a microphone and a word are used. A plurality of registered first speech recognition dictionaries and voices picked up by the microphone are input, and a word matching the input voice is detected as a target candidate from a plurality of words registered in the first voice recognition dictionary. A first voice recognition unit, a second voice recognition unit, a second voice recognition dictionary used by the second voice recognition unit, a recognition unit that recognizes a word spoken by a user, a first recognition mode, and a second. It is provided with a voice input receiving unit that accepts voice input of a word recognized by the recognition unit while selectively setting the recognition mode of. Here, in the second voice recognition dictionary used by the second voice recognition unit in the first recognition mode, the same plurality of words as the plurality of words registered in the first voice recognition dictionary are registered. In the first recognition mode, the second voice recognition unit inputs the voice output to the speaker by the audio source device, and inputs from a plurality of words registered in the second voice recognition dictionary. A word matching the voice is detected as a target candidate, and in the first recognition mode, the recognition unit serves as the target candidate during a predetermined period after the target candidate is detected by the second voice recognition unit. Even if the same word as the detected word is detected as the target candidate by the first voice recognition unit, the word detected as the target candidate by the first voice recognition unit is recognized as the word spoken by the user. While suppressing it, the word detected as the target candidate by the first voice recognition unit is recognized as the word spoken by the user. In addition, the second speech recognition dictionary used by the second speech recognition unit in the second recognition mode includes a plurality of words registered in the first speech recognition dictionary and a plurality of words that are at least partially different from the plurality of words registered in the first speech recognition dictionary. It is registered, and in the second recognition mode, the second voice recognition unit inputs the voice picked up by the microphone and inputs from a plurality of words registered in the second voice recognition dictionary. A word matching the voice is detected as a target candidate, and in the second recognition mode, the recognition unit detects the target candidate as the target candidate when the target candidate is detected by the first voice recognition unit. Is recognized as a word spoken by the user, and when the target candidate is detected by the second voice recognition unit, the word detected as the target candidate is recognized as the word spoken by the user.
以上のような音声認識システムによれば、第2音声認識辞書を用いてオーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識を抑止した形態で音声認識を行う第1の認識モードと、第2音声認識辞書を第1音声認識辞書と並列に用いて音声認識を行う第2の認識モードとを備えているので、オーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識が生じ易い状況下では第1の認識モードを設定して音声認識を行い、オーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識が生じ難い状況下では第2の認識モードを設定して、音声認識可能なワードの数を拡大することができる。したがって、オーディオソース機器の出力音声による第1音声認識辞書に登録されたワードの誤認識を効果的に抑制しつつ、音声入力を受け付けることのできるワードの数を増大することができる。 According to the above-mentioned voice recognition system, the second voice recognition dictionary is used to perform voice recognition in a form that suppresses erroneous recognition of words registered in the first voice recognition dictionary by the output voice of the audio source device. Since it has a recognition mode of 2 and a second recognition mode in which the second voice recognition dictionary is used in parallel with the first voice recognition dictionary to perform voice recognition, it can be used as the first voice recognition dictionary based on the output voice of the audio source device. In a situation where erroneous recognition of registered words is likely to occur, the first recognition mode is set to perform voice recognition, and erroneous recognition of words registered in the first voice recognition dictionary by the output voice of the audio source device is unlikely to occur. Under circumstances, a second recognition mode can be set to increase the number of words that can be voice recognized. Therefore, it is possible to increase the number of words that can accept voice input while effectively suppressing erroneous recognition of words registered in the first voice recognition dictionary by the output voice of the audio source device.
より具体的には、たとえば、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始するように構成してもよい。ここで、前記シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記シーケンス実行処理を終了したならば前記待受処理を開始し、前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行う。 More specifically, for example, in such a voice recognition system, the first recognition mode is set as the recognition mode in the voice input reception unit, and the standby voice recognition dictionary is a predetermined voice recognition dictionary. Is set in the first voice recognition dictionary and the second voice recognition dictionary, the standby process for accepting the voice input of the word recognized by the recognition unit is performed, and the voice input of the word is received by the standby process. The sequence execution process in which the word that receives the voice input is set as the first layer word may be started. Here, in the sequence execution process, the second recognition mode is set as the recognition mode, and at each time point, one of the first voice recognition dictionary and the second voice recognition dictionary is the standby voice recognition dictionary. While using the first speech recognition dictionary and the second speech recognition dictionary so that the sub-speech recognition dictionary is set to and the other is the main speech recognition dictionary, a speech recognition dictionary determined according to the first layer word is set. While updating the main voice recognition dictionary to a voice recognition dictionary determined according to the words registered in the main voice recognition dictionary that received the voice input, the main voice recognition dictionary was registered in the main voice recognition dictionary recognized by the recognition unit. This is a process of executing a sequence in which a word voice input is accepted once or a plurality of times. Further, the voice input receiving unit starts the standby process when the sequence execution process is completed, and during the execution of the sequence execution process, the voice input of the word registered in the standby voice recognition dictionary is performed. Is accepted, at least one of the start of the sequence execution process in which the word that received the voice input is set as the first layer word and the start of other processes associated with the word that received the voice input are performed. ..
または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始するように構成してもよい。ここで、当該シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力として受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記シーケンス実行処理を終了したならば前記待受処理を開始する。 Alternatively, in such a voice recognition system, the first recognition mode is set as the recognition mode in the voice input receiving unit, and the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is used for the first voice recognition. It is set in the dictionary and the second voice recognition dictionary, and the standby process for accepting the voice input of the word recognized by the recognition unit is performed. If the voice input of the word is accepted by the standby process, the voice input is accepted. It may be configured to start the sequence execution process in which the word is the first layer word. Here, in the sequence execution process, the first voice recognition dictionary and the first voice recognition dictionary in which the second recognition mode is set as the recognition mode and different voice recognition dictionaries are set according to the first layer word are set. 2 A process of executing a sequence of accepting voice input of a word recognized by the recognition unit once or a plurality of times while updating the voice recognition dictionary to different voice recognition dictionaries determined according to the words received as voice input. Is. Further, the voice input receiving unit starts the standby process when the sequence execution process is completed.
または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始するように構成してもよい。ここで、前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、前記第2シーケンス実行処理を終了したならば前記待受処理を開始し、前記第2シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行う。 Alternatively, in such a voice recognition system, the first recognition mode is set as the recognition mode in the voice input receiving unit, and the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is used for the first voice recognition. It is set in the dictionary and the second voice recognition dictionary, and the standby process for accepting the voice input of the word recognized by the recognition unit is performed, and the voice output from the audio source device is emitted from the speaker by the standby process. If the voice input of the word is accepted while the voice input is being performed, the first sequence execution process in which the word for which the voice input is accepted is set as the first layer word is started, and the audio source is transmitted from the speaker by the standby process. If the voice input of a word is accepted when the voice output from the device is not radiated, the second sequence execution process in which the word receiving the voice input is set as the first layer word is configured to start. You may. Here, in the first sequence execution process, the first speech recognition dictionary and the second speech recognition dictionary in which the first recognition mode is set as the recognition mode and the same speech recognition dictionary determined according to the first layer word is set. It is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the voice recognition dictionary to the same voice recognition dictionary determined according to the word that received the voice input. In the second sequence execution process, the second recognition mode is set as the recognition mode, and at each time point, one of the first voice recognition dictionary and the second voice recognition dictionary uses the standby voice recognition dictionary. While using the first speech recognition dictionary and the second speech recognition dictionary so that the set sub-speech recognition dictionary and the other become the main speech recognition dictionary, a speech recognition dictionary determined according to the first layer word was set. While updating the main voice recognition dictionary to a voice recognition dictionary determined according to the words registered in the main voice recognition dictionary that received voice input, the words registered in the main voice recognition dictionary recognized by the recognition unit. This is a process of executing a sequence in which the voice input of the above is accepted once or a plurality of times. Further, the voice input receiving unit starts the standby process when the first sequence execution process is completed, and starts the standby process when the second sequence execution process is completed, and the second sequence execution process is completed. If the voice input of the word registered in the standby voice recognition dictionary is accepted during the execution of the sequence execution process, the start of the sequence execution process in which the word receiving the voice input is set as the first layer word. , At least one of the start of other processing associated with the word that received the voice input.
または、このような音声認識システムは、前記音声入力受付部において、前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始するように構成してもよい。ここで、前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理である。また、前記音声入力受付部は、前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、前記第2シーケンス実行処理を終了したならば前記待受処理を開始する。 Alternatively, in such a voice recognition system, the first recognition mode is set as the recognition mode in the voice input receiving unit, and the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is used for the first voice recognition. It is set in the dictionary and the second voice recognition dictionary, and the standby process for accepting the voice input of the word recognized by the recognition unit is performed, and the voice output from the audio source device is emitted from the speaker by the standby process. If the voice input of the word is accepted while the voice input is being performed, the first sequence execution process in which the word for which the voice input is accepted is set as the first layer word is started, and the audio source is transmitted from the speaker by the standby process. If the voice input of a word is accepted when the voice output from the device is not radiated, the second sequence execution process in which the word receiving the voice input is set as the first layer word is configured to start. You may. Here, in the first sequence execution process, the first speech recognition dictionary and the second speech recognition dictionary in which the first recognition mode is set as the recognition mode and the same speech recognition dictionary determined according to the first layer word is set. It is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the voice recognition dictionary to the same voice recognition dictionary determined according to the word that received the voice input. In the second sequence execution process, the first speech recognition dictionary and the second speech recognition dictionary in which the second recognition mode is set as the recognition mode and different speech recognition dictionaries are set according to the first layer word are set. In the process of updating the voice recognition dictionary to different voice recognition dictionaries determined according to the word that received the voice input, and executing a sequence that accepts the voice input of the word recognized by the recognition unit once or multiple times. be. Further, the voice input receiving unit starts the standby process when the first sequence execution process is completed, and starts the standby process when the second sequence execution process is completed.
または、以上の音声認識システムでは、前記音声入力受付部において、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第1の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第2の認識モードに設定するように構成してもよい。 Alternatively, in the above voice recognition system, the voice input receiving unit sets the recognition mode to the first recognition mode when the voice output from the audio source device is emitted from the speaker, and the voice recognition mode is set to the first recognition mode. The recognition mode may be set to the second recognition mode when the sound output from the audio source device is not emitted from the speaker.
ここで、以上のような音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであってよい。 Here, the voice recognition system as described above may be a voice recognition system used for voice input in an in-vehicle system mounted on an automobile.
以上のように、本発明によれば、第1の音声認識部と第2の音声認識部との二つの音声認識部を備えた音声認識システムにおいて、マイクロフォンに回りこんだオーディオ装置の出力音声に対してコマンド等のワードを誤認してしまうことを抑制しつつ、音声入力を受け付けることのできるワードの数を可及的に増大することができる。 As described above, according to the present invention, in a voice recognition system including two voice recognition units, a first voice recognition unit and a second voice recognition unit, the output voice of the audio device that wraps around the microphone can be obtained. On the other hand, it is possible to increase the number of words that can accept voice input as much as possible while suppressing misidentification of words such as commands.
以下、本発明の実施形態を、自動車に搭載される情報処理システムへの適用を例にとり説明する。
図1に、本実施形態に係る情報処理システムの構成を示す。
図示するように、情報処理システムは、データ処理部1、辞書DB2、マイクロフォン3、音声入力部4、スピーカ5、ラジオ受信器やミュージックプレイヤ等のオーディオソース6、表示装置7、複数のカメラ8、GPS受信器等のその他の周辺装置9を備えている。
Hereinafter, embodiments of the present invention will be described by taking application to an information processing system mounted on an automobile as an example.
FIG. 1 shows the configuration of the information processing system according to the present embodiment.
As shown in the figure, the information processing system includes a
ここで、音声入力部4は、マイクロフォン3から入力するユーザの発話音声を音声認識し認識結果をデータ出力部に出力する。
また、オーディオソース6は、データ処理部1の制御に従って動作する、ラジオ受信器やミュージックプレイヤなどの音源となる装置であり、オーディオコンテンツの音声を、スピーカ5と、音声入力部4に出力する。また、スピーカ5は、オーディオソース6から入力した音声を車内に放射する。
Here, the
Further, the
また、複数のカメラ8は、自動車の前方を撮影するフロントカメラや、自動車の後方を撮影するバックカメラや、自動車の側方を撮影するサイドカメラ等である。
そして、データ処理部1は、音声入力部4をコマンド等の音声入力に、表示装置7を画面の表示に用いながら、各種処理を行うことができる。
また、音声入力部4は、第1音声認識エンジン41、第1音声認識辞書42、第2音声認識エンジン43、第2音声認識辞書44、認識調整部45を備えている。
ここで、このような情報処理システムは、CPUやメモリや周辺デバイスなどを備えたコンピュータを用いて構成されるものであってよく、この場合、上述したデータ処理部1や音声入力部4は、CPUがコンピュータプログラムを実行することにより実現されるものであってよい。
Further, the plurality of
Then, the
Further, the
Here, such an information processing system may be configured by using a computer provided with a CPU, a memory, a peripheral device, or the like. In this case, the
次に、辞書DB2には、図2に示すように、第1階層認識データから第3階層認識データまでの複数階層の認識データが格納されている。
各階層の認識データは、音声認識に用いられる音声認識辞書を著すものであり、複数のワードのそれぞれについて、番号(No.)とワードとが登録されている。
また、第2階層認識データは、第1階層認識データに登録されている各ワードに対応して複数設けることができ、第3階層認識データは、各第2階層認識データに登録されている各ワードに対応して複数設けることができる。すなわち、辞書DB2は、各階層の認識データをノードとするツリー構造を備えている。
Next, as shown in FIG. 2, the
The recognition data of each layer is written by a voice recognition dictionary used for voice recognition, and a number (No.) and a word are registered for each of a plurality of words.
Further, a plurality of second layer recognition data can be provided corresponding to each word registered in the first layer recognition data, and the third layer recognition data is each registered in each second layer recognition data. Multiple pieces can be provided corresponding to the word. That is, the dictionary DB2 has a tree structure in which the recognition data of each layer is used as a node.
そして、第2階層認識データには、当該第2階層認識データに対応する第1階層認識データのワードが、音声入力部4における音声認識によって認識結果とされたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)とが登録されている。
Then, in the second layer recognition data, when the word of the first layer recognition data corresponding to the second layer recognition data is recognized as the recognition result by the voice recognition in the
また、第3階層認識データには、当該第3階層認識データに対応する第2階層認識データのワードが、音声入力部4における音声認識によって認識結果とされたときに、次に、音声入力部4における音声認識の認識候補とする複数のワードとその番号(No.)とが登録されている。
Further, in the third layer recognition data, when the word of the second layer recognition data corresponding to the third layer recognition data is recognized as the recognition result by the voice recognition in the
以上、辞書DB2について説明した。
なお、以上では、辞書DB2に登録する認識データとして、第1階層認識データから第3階層認識データまでの3階層の認識データを設ける場合について示したが、辞書DB2に登録する階層認識データは、2以上の任意の数の階層の認識データとしてよい。
The dictionary DB2 has been described above.
In the above, the case where the recognition data of three layers from the first layer recognition data to the third layer recognition data is provided as the recognition data to be registered in the dictionary DB2 has been described, but the layer recognition data to be registered in the dictionary DB2 is. It may be recognition data of any number of layers of 2 or more.
さて、データ処理部1は、カーナビゲーション機能やミュージックプレイヤ機能などの各種機能を備えており、起動したならば、所定の情報処理(たとえば、カーナビゲーション機能により表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、ミュージックプレイヤ機能によりオーディオソース6から音楽を出力する情報処理)の実行を開始する 。
By the way, the
また、データ処理部1は、起動したならば、図3に示す音声入力制御処理を開始する。
図示するように、音声入力制御処理では、後述する音声入力設定処理を開始した上で(ステップ302)、待受処理を開始する(ステップ304)。
ここで、待受処理では、第1階層認識データを現用認識データに設定し、音声入力部4から現用認識データのワードが認識結果として入力するのを待って、認識結果のワードの入力を受け付ける。
Further, when the
As shown in the figure, in the voice input control process, after starting the voice input setting process described later (step 302), the standby process is started (step 304).
Here, in the standby process, the first layer recognition data is set as the current recognition data, the word of the current recognition data is input from the
また、音声入力部4は、第1階層認識データに登録されているワードと現用認識データに設定された認識データに登録されているワードのうちから、ユーザが発話したワードを認識し、認識したワードを認識結果としてデータ処理部1に出力する。ここで、このような音声入力部4の認識を実現する動作の詳細については後述する。
Further, the
そして、データ処理部1は、待受処理によって、認識結果として入力した現用認識データに設定している第1階層認識データのワードの入力を受け付けたならば(ステップ306)、入力を受け付けた認識結果のワードに応じた処理を行う(ステップ308)。また、認識結果の第1階層認識データのワードに対応する第2階層認識データが存在するかどうかを調べ(ステップ310)、存在する場合には、待受処理が実行中であれば(ステップ312)、待受処理を終了した上で(ステップ320)、認識結果の第1階層認識データのワードを第1階層ワードとするシーケンス実行処理を開始する(ステップ314)。
Then, if the
一方、認識結果の第1階層認識データのワードに対応する第2階層認識データが存在しない場合には(ステップ310)、待受処理を継続したまま、ステップ306に戻って、待受処理による次の認識結果の入力の受け付けの発生を待つ。 On the other hand, when the second layer recognition data corresponding to the word of the first layer recognition data of the recognition result does not exist (step 310), the process returns to step 306 while the standby process is continued, and the next step is performed by the standby process. Wait for the reception of the input of the recognition result of.
ここで、ステップ314で開始したシーケンス実行処理では、第1階層認識データの第1階層ワードに対応する第2階層認識データを現用認識データに設定した上で、現用認識データのワードの認識結果としての入力の所定回数の受け付けを、各回の認識結果の受け付け毎に、入力を受け付けた認識結果のワードに応じた処理と、認識結果のワードに対応する現用認識データの一つ下の階層の認識データの現用認識データへの設定、すなわち、現用認識データの更新とを行いながら実行するシーケンスを実行する。
Here, in the sequence execution process started in
そして、シーケンス実行処理を開始したならば(ステップ314)、音声入力部4からの第1階層認識データのワードの認識結果としての入力の発生(ステップ316)と、シーケンス実行処理の終了の発生(ステップ318)を監視する。
Then, when the sequence execution process is started (step 314), the input from the
そして、シーケンス実行処理の実行中に、第1階層認識データのワードの認識結果としての入力が発生した場合には(ステップ316)、シーケンス実行処理を終了し(ステップ322)、ステップ308に戻って、第1階層認識データが現用認識データである待受処理において、認識結果のワードの入力として、当該第1階層認識データのワードの入力を受け付けた場合と同様の動作を行う。 Then, when the input as the recognition result of the word of the first layer recognition data occurs during the execution of the sequence execution process (step 316), the sequence execution process is terminated (step 322), and the process returns to step 308. In the standby process in which the first layer recognition data is the current recognition data, the same operation as when the input of the word of the first layer recognition data is accepted is performed as the input of the word of the recognition result.
すなわち、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードに応じた処理を行うと共に(ステップ308)、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードに対応する第2階層認識データが存在すれば(ステップ310)、シーケンス実行処理の実行中に入力を受け付けた認識結果の第1階層認識データのワードを第1階層ワードとするシーケンス実行処理を開始する(ステップ314)。 That is, while performing processing according to the word of the first layer recognition data of the recognition result that received the input during the execution of the sequence execution process (step 308), the recognition result that received the input during the execution of the sequence execution process is the first. If the second layer recognition data corresponding to the word of the first layer recognition data exists (step 310), the word of the first layer recognition data of the recognition result that received the input during the execution of the sequence execution process is referred to as the first layer word. The sequence execution process to be performed is started (step 314).
一方、シーケンス実行処理の終了が発生した場合には(ステップ318)、ステップ304に戻って、待受処理を再開する。
以上、データ処理部1が起動時に開始する音声入力制御処理について説明した。
次に、データ処理部1は、音声入力制御処理のステップ302で開始する音声入力設定処理を次のように行う。
図4に、この音声入力設定処理の手順を示す。
図示するように、音声入力設定処理においてデータ処理部1は、上述した待受処理やシーケンス実行処理による現用認識データの設定の発生を監視する(ステップ402)。
そして、現用認識データの設定が発生したならば(ステップ402)、現用認識データの認識モードが第1階層認識データであるかどうかを判定する(ステップ404)。
そして、現用認識データが第1階層認識データであれば(ステップ404)、現用認識データである第1階層認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ406)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ408)。
On the other hand, when the end of the sequence execution process occurs (step 318), the process returns to step 304 and the standby process is restarted.
The voice input control process that the
Next, the
FIG. 4 shows the procedure of this voice input setting process.
As shown in the figure, in the voice input setting process, the
Then, when the setting of the current recognition data occurs (step 402), it is determined whether or not the recognition mode of the current recognition data is the first layer recognition data (step 404).
Then, if the current recognition data is the first layer recognition data (step 404), the first layer recognition data which is the current recognition data is set in the first
そして、音声認識開始を認識調整部45に指示し(ステップ410)、ステップ402の監視に戻る。
一方、現用認識データが1階層認識データでなければ(ステップ404)、現用認識データを第1音声認識辞書42に設定し(ステップ412)、認識モードとして並列モードを認識調整部45に設定する(ステップ414)。なお、ステップ414では、第2音声認識辞書44は更新されず、この結果、第2音声認識辞書44は第1階層認識データのまま維持される。
Then, the
On the other hand, if the current recognition data is not one-layer recognition data (step 404), the current recognition data is set in the first speech recognition dictionary 42 (step 412), and the parallel mode is set in the
そして、音声認識開始を認識調整部45に指示し(ステップ410)、ステップ402の監視に戻る。
以上、データ処理部1が行う音声入力設定処理について説明した。
次に、第1音声認識エンジン41と第2音声認識エンジン43で行う音声認識の動作について説明する。
第1音声認識エンジン41と第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する音声認識辞書に格納された各認識候補のワードのスコアを算定する。
Then, the
The voice input setting process performed by the
Next, the operation of voice recognition performed by the first
The first
すなわち、第1音声認識エンジン41は、認識対象音声の入力と並行して、認識対象音声に対する第1音声認識辞書42に格納されたワードのスコアを算定し、第2音声認識エンジン43は、認識対象音声の入力と並行して、認識対象音声に対する第2音声認識辞書44に格納された各ワードのスコアを算定する。
That is, the first
なお、第1音声認識エンジン41の認識対象音声はマイクロフォン3から入力する音声である。一方、第2音声認識エンジン43については、選択的に、マイクロフォン3から入力する音声とオーディオソース6から入力する音声の一方を、第2音声認識エンジン43の認識対象音声とすることができる。
The recognition target voice of the first
ここで、認識対象音声に対する音声認識辞書に登録された各ワードのスコアは、認識対象音声が表す語句と、ワードとの相違の大きさの予測値を表すものであり、より大きい相違を予測しているときほど、スコアはより大きくなる。 Here, the score of each word registered in the speech recognition dictionary for the speech to be recognized represents a predicted value of the magnitude of the difference between the word and the phrase represented by the speech to be recognized and the word, and predicts a larger difference. The more you do, the higher your score.
より具体的には、スコアの算定は、予め定めておいた初期値をスコアとして設定した上で、認識対象音声の各音声区間(たとえば、音素毎の音声区間)の音が入力する度に、当該音声区間の音と、音声認識辞書に登録されている各ワードの当該音声区間に対応する部分の発音との整合の有無を算定し、整合していればスコアを所定値減少し、整合していなければスコアを所定値増加することにより行う。なお、認識対象音声の音声区間毎のスコアの増加値/減少値は、たとえば、当該音声区間のワードの全音声区間に対する比率を、スコアの初期値に乗じた大きさとする。 More specifically, in the calculation of the score, after setting a predetermined initial value as the score, each time the sound of each voice section of the recognition target voice (for example, the voice section for each phonetic element) is input, Whether or not the sound of the voice section matches the pronunciation of the part corresponding to the voice section of each word registered in the voice recognition dictionary is calculated, and if they match, the score is reduced by a predetermined value and matched. If not, the score is increased by a predetermined value. The increase / decrease value of the score for each voice section of the voice to be recognized is, for example, the magnitude obtained by multiplying the ratio of the words in the voice section to the total voice section by the initial value of the score.
このような音声認識によれば、認識対象音声が「あいうえおか」であるときに、ワード「あいうえお」に対して算出されるスコアの推移を図5aに示し、ワード「あいうあい」に対して算出されるスコアの推移を図5bに示したように、ワードと一致する認識対象音声の音が入力されている間は、ワードとのスコアは順次減少しワードと一致しない認識対象音声の音が入力されている間はワードのスコアは順次増加する。 According to such voice recognition, when the recognition target voice is "aiueoka", the transition of the score calculated for the word "aiueo" is shown in FIG. 5a, and it is calculated for the word "aiueoka". As shown in FIG. 5b, the score with the word gradually decreases and the sound of the recognition target voice that does not match the word is input while the sound of the recognition target voice that matches the word is input. The ward score will gradually increase while it is being played.
すなわち、たとえば、図5aに示したように、認識対象音声「あいうえおか」と、ワード「あいうえお」とスコアは、認識対象音声の「あいうえお」の音が入力されている期間は順次減少し、その後、認識対象音声の「か」が入力されると増加する。 That is, for example, as shown in FIG. 5a, the recognition target voice "aiueoka", the word "aiueo", and the score gradually decrease during the period in which the recognition target voice "aiueo" sound is input, and then gradually decrease. , Increases when the "ka" of the recognition target voice is input.
また、同様に、図5bに示したように、認識対象音声「あいうえおか」と、ワード「あいうあい」とスコアは、認識対象音声の「あいう」の音が入力されている期間は順次減少し、その後の、認識対象音声の「えおか」が入力されている期間は順次増加する。 Similarly, as shown in FIG. 5b, the recognition target voice "aiueoka", the word "aiai", and the score gradually decrease during the period in which the recognition target voice "ai" sound is input. After that, the period during which the recognition target voice "Eoka" is input gradually increases.
さて、第1音声認識エンジン41と第2音声認識エンジン43は、以上のようにして算出される認識対象音声といずれかのワードとのスコアが、予め設定されたしきい値Th以下となったならば、当該スコアがしきい値Th以下となったワードのヒットを検出し、ヒットしたワードの番号(No.)をヒットデータとして認識調整部45に通知する。
By the way, in the first
すなわち、たとえば、図5aに示した場合では、ワード「あいうえお」についてのスコアは、認識対象音声の「あいうえおか」の「え」が入力される直前にしきい値Th以下となるので、この時点で、ワード「あいうえお」のヒットが検出される。 That is, for example, in the case shown in FIG. 5a, the score for the word "aiueo" is equal to or less than the threshold value Th immediately before the "e" of the recognition target voice "aiueoka" is input. , The hit of the word "aiueo" is detected.
一方、図5bに示した場合では、ワード「あいうあいお」についてのスコアがしきい値Th以下となることはないので、このワード「あいうあいお」のヒットは検出されない。
次に、音声入力部4の認識調整部45の動作について説明する。
認識調整部45は、データ処理部1から図4に示した音声入力設定処理によって音声認識開始を指示されたならば、オーディオキャンセルモードが設定されているときには、オーディオキャンセルモード認識処理を実行し、並列認識モードが設定されているときには、並列認識モード認識処理を実行する。
On the other hand, in the case shown in FIG. 5b, since the score for the word "Ai Aio" does not fall below the threshold value Th, the hit of this word "Ai Aio" is not detected.
Next, the operation of the
If the
まず、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明する。
図6に、この示すオーディオキャンセルモード認識処理の手順を示す。
図示するように、このオーディオキャンセルモード認識処理では、予め定めた値Th1を第1音声認識エンジン41に上述したしきい値Thとして設定し、予め定めた値Th2を第2音声認識エンジン43に上述したしきい値Thを設定する(ステップ602)。ここで、Th1、Th2としては、Th2>Th1となる値を用いる。
First, the audio cancel mode recognition process performed by the
FIG. 6 shows the procedure of the audio cancel mode recognition process shown.
As shown in the figure, in this audio cancel mode recognition process, a predetermined value Th1 is set in the first
そして、次に、第2音声認識エンジン43の認識対象音声をオーディオソース6から入力する音声に設定する(ステップ604)。
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ606)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ608)と、タイマのタイムアウトの発生(ステップ610)とを監視する。
Then, next, the recognition target voice of the second
Then, the hit data notification is generated from the first voice recognition engine 41 (step 606), the hit data notification is generated from the second voice recognition engine 43 (step 608), and the timer timeout occurs (step 610). ) And monitor.
そして、第2音声認識エンジン43からのヒットデータの通知が発生したばらば(ステップ608)、マスクフラグをセットし(ステップ616)、第2音声認識エンジン43から通知さらたヒットデータが示す番号(No.)を調整ワード番号に設定する(ステップ618)。そして、上述のタイマを所定のタイムアウト時間を設定してスタートし(ステップ620)、ステップ606、608、610の監視に戻る。
Then, if the notification of the hit data from the second
一方、タイマのタイムアウトが発生したならば(ステップ610)、マスクフラグをクリアし(ステップ612)、調整ワード番号をクリアする(ステップ614)。そして、ステップ606、608、610の監視に戻る。
On the other hand, when the timer time-out occurs (step 610), the mask flag is cleared (step 612) and the adjustment word number is cleared (step 614). Then, the process returns to the monitoring of
また、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ606)、マスクフラグがセットされているかどうを調べ(ステップ622)、マスクフラグがセットされていなければ、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ626)。そして、オーディオキャンセルモード認識処理を終了する。
Further, when the notification of the hit data from the first
一方、ステップ622において、マスクフラグがセットされている場合には、第1音声認識エンジン41からのヒットデータが示す番号(No.)がワードが調整ワード番号と一致しているかどうかを調べ(ステップ624)、一致している場合には、そのままステップ606、608、610の監視に戻る。
On the other hand, in
一方、第1音声認識エンジン41からのヒットデータが示す番号(No.)が調整ワード番号と一致していない場合には(ステップ624)、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ626)。そして、オーディオキャンセルモード認識処理を終了する。
On the other hand, when the number (No.) indicated by the hit data from the first
以上、オーディオキャンセルモードが設定されているときに認識調整部45が行うオーディオキャンセルモード認識処理について説明した。
ここで、このようなオーディオキャンセルモード認識処理によれば、第2音声認識エンジン43がオーディオソース6から入力する音声に対してヒットを検出したワードは、その後、一定期間、第1音声認識エンジン41でヒットが検出されても認識結果とはしない。
The audio cancel mode recognition process performed by the
Here, according to such an audio cancel mode recognition process, the word for which the second
また、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されるときには、そのワードのしきい値Thは第1音声認識エンジン41よりも第2音声認識エンジン43の方が大きく設定されており、また、第2音声認識エンジン43に入力するオーディオソース6の音声の方が音声品質が良いので、それ以前に第2音声認識エンジン43で、そのワードのヒットが検出される。
Further, when the voice output by the
したがって、オーディオソース6が出力した音声がマイクロフォン3に回りこんで、当該音声に対して第1音声認識エンジン41でワードのヒットが検出されてしまった場合でも、当該ワードが認識結果としてデータ処理部1に出力されてしまうことが抑止される。
Therefore, even if the voice output by the
次に、並列認識モードが設定されているときに認識調整部45が行う並列認識モード認識処理について説明する。
図7に、この並列認識モード認識処理の手順を示す。
図示するように、この並列認識モード認識処理では、上述した値Th1を第1音声認識エンジン41と第2音声認識エンジン43の双方にしきい値Thとして設定する(ステップ702)。
Next, the parallel recognition mode recognition process performed by the
FIG. 7 shows the procedure of this parallel recognition mode recognition process.
As shown in the figure, in this parallel recognition mode recognition process, the above-mentioned value Th1 is set as the threshold value Th in both the first
また、第2音声認識エンジン43の認識対象音声をマイクロフォン3から入力する音声に設定する(ステップ704)。
そして、第1音声認識エンジン41からのヒットデータの通知の発生(ステップ706)と、第2音声認識エンジン43からのヒットデータの通知の発生(ステップ708)とを監視する。
Further, the recognition target voice of the second
Then, the generation of the hit data notification from the first voice recognition engine 41 (step 706) and the generation of the hit data notification from the second voice recognition engine 43 (step 708) are monitored.
そして、第1音声認識エンジン41からのヒットデータの通知が発生した場合には(ステップ706)、第1音声認識辞書42の第1音声認識エンジン41からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ710)。そして、並列認識モード認識処理を終了する。
Then, when the notification of the hit data from the first
一方、第2音声認識エンジン43からのヒットデータの通知が発生した場合には(ステップ708)、第2音声認識辞書44の第2音声認識エンジン43からのヒットデータが示す番号(No.)のワードを、認識結果とするワードとして算定し、算定した認識結果をデータ処理部1に出力する(ステップ712)。そして、並列認識モード認識処理を終了する。
On the other hand, when the notification of the hit data from the second
以上、並列認識モードが設定されているときに認識調整部45が行う並列認識モード認識処理について説明した。
このような並列認識モード認識処理によれば、第1音声認識辞書42に登録された各ワードと第2音声認識辞書44に登録されたワードの双方について音声認識を行うことができるようになる。
The parallel recognition mode recognition process performed by the
According to such a parallel recognition mode recognition process, it becomes possible to perform voice recognition for both the words registered in the first
さて、ここで、以上のような情報処理装置の動作例を図8に示す。
起動したデータ処理部1は、表示装置7にカーナビゲーション用の案内地図を表示する情報処理や、オーディオソース6から音楽を出力する情報処理を開始する。
また、データ処理部1は、起動したならば、音声入力設定処理を開始し、第1階層認識データを現用認識データに設定することにより、図8a2、図8a3に示すように第1階層認識データを第1音声認識辞書42と第2音声認識辞書44の双方に設定し、認識調整部45にオーディオキャンセルモードを設定する。
Here, an operation example of the above information processing apparatus is shown in FIG.
The activated
Further, when the
そして、この結果、音声入力部4の認識調整部45において、オーディオキャンセルモード認識処理によって、第1音声認識辞書42に登録されたワードの音声認識が、オーディオソース6の出力音声による誤認識を第2音声認識辞書44を用いて抑止しながら行われる。
As a result, in the
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「もくてきちせってい」を発話すると、認識調整部45により、ワード「もくてきちせってい」が認識結果として算定され、ワード「もくてきちせってい」が認識結果として音声入力部4からデータ処理部1に出力される。
Next, in this state, when the user utters the word "Mokukichisete" registered in the first
データ処理部1は、ワード「もくてきちせってい」を認識結果として受け付けたならば、これに応答して、第1階層認識データのワード「もくてきちせってい」に対応する第2階層認識データを、現用認識データに設定する。そして、図8b1に示すように、表示装置7の表示画面を、現用認識データに設定した第2階層認識データに登録されているワードのリストを含めた画面に変更する。
When the
また、データ処理部1は、図8b2に示すように現用認識データに設定した第2階層認識データを第1音声認識辞書42に設定する。一方、図8b3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
Further, the
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第2階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
As a result, the
次に、この状態において、ユーザが第1音声認識辞書42に登録されているワード「ちかくのらーめんや」を発話すると、認識調整部45により、ワード「ちかくのらーめんや」が認識結果として算定され、ワード「ちかくのらーめんや」が認識結果として音声入力部4からデータ処理部1に出力される。
Next, in this state, when the user utters the word "Chikaku no Ramenya" registered in the first
データ処理部1は、ワード「ちかくのらーめんや」を認識結果として受け付けたならば、これに応答して、現用認識データに設定している第2階層認識データのワード「ちかくのらーめんや」に対応する第3階層認識データを、現用認識データに設定する。そして、現在位置の近くのラーメン屋を、データ処理部1が備えているカーナビゲーション機能により探索し、図8c1に示すように、表示装置7の表示画面を、現用認識データに設定した第3階層認識データに登録されているワードのリストを、リスト中の現用認識データに設定した第3階層認識データに登録されている「ひとつめにいく」から「いつつめにいく」の5つのワードに、探索した現在位置の近くの5つのラーメン屋の表示を各々対応づけた形態で含めた画面に変更する。
When the
また、データ処理部1は、図8c2に示すように現用認識データに設定した第3階層認識データを第1音声認識辞書42に設定する。一方、図8c3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
Further, the
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第3階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
As a result, the
そして、この状態で、ユーザが第1音声認識辞書42に登録されているワード「ひとつめにいく」を発話すると、認識調整部45により、ワード「ひとつめにいく」が認識結果として算定され、ワード「ひとつめにいく」が認識結果として音声入力部4からデータ処理部1に出力される。そして、データ処理部1は、ワード「ひとつめにいく」を認識結果として受け付けたならば、ワード「ひとつめにいく」に対応づけて図8c1の画面に表したラーメン屋を目的地に設定し、データ処理部1が備えているカーナビゲーション機能において目的地までの道案内のための処理を開始する。
Then, in this state, when the user utters the word "first go" registered in the first
一方、図8b1、b2、b3の第2階層認識データが第1音声認識辞書42に設定されている状態において、ユーザが第2音声認識辞書44に登録されている第1階層認識データのワード「ばっくかめら」を発話すると、認識調整部45により、ワード「ばっくかめら」が認識結果として算定され、ワード「ばっくかめら」が認識結果として音声入力部4からデータ処理部1に出力される。
On the other hand, in a state where the second layer recognition data of FIGS. 8b1, b2, b3 is set in the first
ここで、本実施形態に係るデータ処理部1は、「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ8で撮影した画像を表示装置7に表示する処理を行うものであるとする。
Here, the
この場合、データ処理部1は、ワード「ばっくかめら」を認識結果として受け付けたならば、第1階層認識データのワード「ばっくかめら」に対応する第2階層認識データを、現用認識データに設定する。
In this case, if the
また、データ処理部1は、図9d1に示すように、カメラ8の一つとして備えたバックカメラで撮影した自動車後方の画像を、現用認識データに設定した第2階層認識データに登録されているワードのリストと共に表示する。なお、図9a1、a2、a3は図8a1、a2、a3と同じものであり、図9b1、b2、b3は、図8b1、b2、b3と同じものである。
Further, as shown in FIG. 9d1, the
また、データ処理部1は、図9d2に示すように現用認識データに設定した第2階層認識データを第1音声認識辞書42に設定する。一方、図9d3に示すように、第2音声認識辞書44は、第1階層認識データのまま維持される。そして、データ処理部1は、認識調整部45に、並列認識モードを設定する。
Further, the
そして、この結果、音声入力部4の認識調整部45において並列認識モード認識処理によって、第1音声認識辞書42に登録された第2階層認識データのワードと第2音声認識辞書44に登録された第1階層認識データのワードの双方の音声認識が行われる。
As a result, the
さて、以上のように並列認識モードを設定しているときには、オーディオソース6の出力音声による誤認識の抑止は行われない。しかし、並列認識モードが設定されるのは、第1階層認識データ以外の階層の階層認識データが現用認識データに設定されているときであり、第1階層認識データ以外の階層の階層認識データが現用認識データに設定されるときは、データ処理部1が上述したシーケンス実行処理を行っており、ユーザが一連の階層的な音声入力を連続的に行っているときである。
By the way, when the parallel recognition mode is set as described above, the false recognition by the output voice of the
したがって、並列認識モードを設定してから、ユーザの発話による音声入力が行われるまでの期間は短く、この間に、第1音声認識辞書42や第2音声認識辞書44に設定されているワードと同じワードの音声が、オーディオソース6から出力されることは希である。
Therefore, the period from the setting of the parallel recognition mode to the voice input by the user's utterance is short, and during this period, it is the same as the word set in the first
したがって、第1階層認識データ以外の階層の階層認識データを現用認識データに設定しているときに、オーディオソース6の出力音声による誤認識の抑止を行わなくても実用上、支障が生じることはない。
Therefore, when the layer recognition data of the layer other than the first layer recognition data is set as the working recognition data, there may be a practical problem even if the false recognition by the output voice of the
なお、第1階層認識データを現用認識データに設定しているときには、データ処理部1は上述した待受処理を行っている状態にあり、第1階層認識データを現用認識データに設定してからユーザの発話による音声入力が発生するまでの期間は不定となる。したがって、この間に、第1音声認識辞書42に設定されているワードと同じワードの音声がオーディオソース6から出力される可能性は小さくないので、オーディオソース6の出力音声による誤認識の第2音声認識辞書44を用いた抑止を行うことが必要となる。
When the first layer recognition data is set as the current recognition data, the
一方、以上のように第2音声認識辞書44を第1階層認識データに維持したまま、第1音声認識辞書42を更新して、並列認識モードを設定することにより、音声認識したワードに応じて次回認識する候補とするワードを更新しつつ、第1階層認識データのワードを常時音声認識できるようになる。
On the other hand, while maintaining the second
また、ユーザにとって緊急を要する処理の実行を要求するコマンドを表すワードは、第1階層認識データに登録されることが多い。
たとえば、本実施形態に係るデータ処理部1は、上述のように「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードが認識結果として入力したときに対応するカメラ8で撮影した画像を表示装置7に表示する処理を行うものであり、第1階層認識データに登録されている、これらの「ふろんとかめら」や「さいどかめら」や「ばっくかめら」といったワードは、ユーザが周囲状況確認のためにカメラ8の撮影画像の表示を指示するコマンドのワードであるので、緊急を要する処理の実行を要求するコマンドを表すワードに該当する。
In addition, a word representing a command requesting execution of an urgent process for the user is often registered in the first layer recognition data.
For example, the
したがって、本実施形態によれば、ユーザにとって緊急を要する処理の実行を要求するコマンドの音声入力を、任意の時点において受け付けることができるようになる。
以上、本発明の実施形態について説明した。
ところで、以上の実施形態は、図4に示した音声入力設定処理に代えて、図10に示す音声入力設定処理を行うようにしてもよい。
すなわち、この音声入力設定処理では、データ処理部1は、現用認識データの設定の発生を監視する(ステップ1002)。
そして、現用認識データの設定が発生したならば(ステップ1002)、現用認識データの認識モードが第1階層認識データであるかどうかを調べる(ステップ1004)。
そして、現用認識データが第1階層認識データであれば(ステップ1004)、現用認識データである第1階層認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ1006)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ1008)。
Therefore, according to the present embodiment, it becomes possible to accept the voice input of the command requesting the execution of the processing that is urgent for the user at an arbitrary time point.
The embodiment of the present invention has been described above.
By the way, in the above embodiment, the voice input setting process shown in FIG. 10 may be performed instead of the voice input setting process shown in FIG.
That is, in this voice input setting process, the
Then, when the setting of the current recognition data occurs (step 1002), it is checked whether or not the recognition mode of the current recognition data is the first layer recognition data (step 1004).
Then, if the current recognition data is the first layer recognition data (step 1004), the first layer recognition data which is the current recognition data is set in the first
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
一方、現用認識データが1階層認識データでなければ、現在、データ処理部1が、オーディオソース6からスピーカ5に音声を出力させているかどうかを調べる(ステップ1012)。
Then, the
On the other hand, if the current recognition data is not the one-layer recognition data, it is examined whether or not the
そして、オーディオソース6からスピーカ5に音声を出力させていれば(ステップ1012)、現用認識データを第1音声認識辞書42と第2音声認識辞書44に設定し、(ステップ1006)、認識モードとしてオーディオキャンセルモードを認識調整部45に設定する(ステップ1008)。
Then, if the voice is output from the
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
また、オーディオソース6からスピーカ5に音声を出力させていなければ(ステップ1012)、現用認識データを第1音声認識辞書42に設定し、第1階層認識データを第2音声認識辞書44に設定し、(ステップ1014)、認識モードとして並列認識モードを認識調整部45に設定する(ステップ1016)。
Then, the
If no voice is output from the
そして、音声認識開始を認識調整部45に指示し(ステップ1010)、ステップ1002の監視に戻る。
このような音声入力設定処理によれば、オーディオソース6からスピーカ5に音声が出力されているときにはオーディオソース6の出力音声による誤認識を行いつつ、オーディオソース6からスピーカ5に音声を出力させていないとき、すなわち、オーディオソース6の出力音声による誤認識が生じないときには、音声認識できるワードの数を拡大することができる。
Then, the
According to such an audio input setting process, when the audio is output from the
また、以上の実施形態では、並列認識モードのときに第1階層認識データを第2音声認識辞書44として維持するようにしたが、並列認識モードのときに、第1音声認識辞書42と同様に第2音声認識辞書44の内容を切り替えるようにしてもよい。
Further, in the above embodiment, the first layer recognition data is maintained as the second
すなわち、たとえば、図11に示すように、第1階層認識データ以外の各階層の認識データには、相互に異なるワードのセットを登録した主認識データと副認識データとを含めておき、図4に示した音声入力設定処理のステップ412や図10に示した音声入力設定処理のステップ1014において、現用認識データの主認識データを第1音声認識辞書42に設定し、現用認識データの副認識データを第2音声認識辞書44に設定するようにしてもよい。
That is, for example, as shown in FIG. 11, the recognition data of each layer other than the first layer recognition data includes the main recognition data and the sub-recognition data in which different sets of words are registered, and FIG. In
このようにすることにより、並列認識モード認識処理によって音声認識できるワードを、より柔軟に設定することができるようになる。 By doing so, it becomes possible to more flexibly set the words that can be voice-recognized by the parallel recognition mode recognition process.
1…データ処理部、2…辞書DB、3…マイクロフォン、4…音声入力部、5…スピーカ、6…オーディオソース、7…表示装置、8…カメラ、9…周辺装置、41…第1音声認識エンジン、42…第1音声認識辞書、43…第2音声認識エンジン、44…第2音声認識辞書、45…認識調整部。 1 ... Data processing unit, 2 ... Dictionary DB, 3 ... Microphone, 4 ... Voice input unit, 5 ... Speaker, 6 ... Audio source, 7 ... Display device, 8 ... Camera, 9 ... Peripheral device, 41 ... First voice recognition Engine, 42 ... 1st voice recognition dictionary, 43 ... 2nd voice recognition engine, 44 ... 2nd voice recognition dictionary, 45 ... recognition adjustment unit.
Claims (14)
マイクロフォンと、
ワードが複数登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第1音声認識部と、
第2音声認識部と、
第2音声認識部によって用いられる第2音声認識辞書と、
ユーザの発話したワードを認識する認識部と、
第1の認識モードと第2の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部とを有し、
前記第1の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、
前記第1の認識モードにおいて、前記第2音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第1の認識モードにおいて、前記認識部は、前記第2音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第1音声認識部によって前記対象候補として検出されても、当該前記第1音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識し、
第2の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、
前記第2の認識モードにおいて、前記第2音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第2の認識モードにおいて、前記認識部は、前記第1音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第2音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とする音声認識システム。 It is a voice recognition system that recognizes the voice uttered in the space where the voice output from the audio source device is radiated from the speaker to the speaker.
With a microphone
The first speech recognition dictionary in which multiple words are registered, and
A first voice recognition unit that inputs a voice picked up by the microphone and detects a word matching the input voice as a target candidate from a plurality of words registered in the first voice recognition dictionary.
The second voice recognition unit and
The second voice recognition dictionary used by the second voice recognition unit,
A recognition unit that recognizes words spoken by the user,
It has a voice input receiving unit that receives voice input of a word recognized by the recognition unit while selectively setting a first recognition mode and a second recognition mode.
In the second voice recognition dictionary used by the second voice recognition unit in the first recognition mode, the same plurality of words as the plurality of words registered in the first voice recognition dictionary are registered.
In the first recognition mode, the second voice recognition unit inputs the voice output to the speaker by the audio source device, and the input voice is selected from a plurality of words registered in the second voice recognition dictionary. Detects words that match the target as target candidates,
In the first recognition mode, the recognition unit recognizes the same words as the words detected as the target candidates during the predetermined period after the target candidate is detected by the second voice recognition unit. Even if the target is detected by the unit, the target is prevented from being recognized as a word spoken by the user by the first voice recognition unit. Recognize the word detected as a candidate as the word spoken by the user and
In the second voice recognition dictionary used by the second voice recognition unit in the second recognition mode, a plurality of words registered in the first voice recognition dictionary and a plurality of words that are at least partially different from the plurality of words are registered. And
In the second recognition mode, the second voice recognition unit inputs the voice picked up by the microphone, and among a plurality of words registered in the second voice recognition dictionary, a word matching the input voice. Is detected as a target candidate,
In the second recognition mode, when the target candidate is detected by the first voice recognition unit, the recognition unit recognizes the word detected as the target candidate as the word spoken by the user, and the second recognition unit. (2) A voice recognition system characterized in that when the target candidate is detected by the voice recognition unit, the word detected as the target candidate is recognized as the word spoken by the user.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
前記シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始し、
前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とする音声認識システム。 The voice recognition system according to claim 1.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
When the voice input of the word is accepted by the standby process, the sequence execution process in which the word for which the voice input is accepted is set as the first layer word is started.
In the sequence execution process, the second recognition mode is set as the recognition mode, and at each time point, one of the first voice recognition dictionary and the second voice recognition dictionary sets the standby voice recognition dictionary. While using the first speech recognition dictionary and the second speech recognition dictionary so that the sub-speech recognition dictionary and the other become the main speech recognition dictionary, the main speech recognition dictionary determined according to the first layer word is set. While updating the voice recognition dictionary to a voice recognition dictionary determined according to the words registered in the main voice recognition dictionary that received voice input, the voice of the words registered in the main voice recognition dictionary recognized by the recognition unit. It is a process to execute a sequence that accepts input once or multiple times.
When the sequence execution process is completed, the standby process is started, and the standby process is started.
If the voice input of the word registered in the standby voice recognition dictionary is accepted during the execution of the sequence execution process, the sequence execution process in which the word receiving the voice input is set as the first layer word is started. A voice recognition system, characterized in that it performs at least one of the above and the start of other processing associated with the word that has received the voice input.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
当該シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力として受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とする音声認識システム。 The voice recognition system according to claim 1.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
When the voice input of the word is accepted by the standby process, the sequence execution process in which the word for which the voice input is accepted is set as the first layer word is started.
In the sequence execution process, the first voice recognition dictionary and the second voice recognition are set by setting the second recognition mode as the recognition mode and setting different voice recognition dictionaries determined according to the first layer word. It is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the dictionary to a different voice recognition dictionary determined according to the word received as the voice input.
A voice recognition system characterized in that the standby process is started when the sequence execution process is completed.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とする音声認識システム。 The voice recognition system according to claim 1.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
If the voice input of a word is accepted when the voice output from the audio source device is radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The first sequence execution process is started,
If the voice input of a word is accepted when the voice output from the audio source device is not radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The second sequence execution process is started,
In the first sequence execution process, the first voice recognition mode and the second voice recognition dictionary in which the first recognition mode is set as the recognition mode and the same voice recognition dictionary determined according to the first layer word is set are set. Is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the same voice recognition dictionary determined according to the word that received the voice input.
In the second sequence execution process, the second recognition mode is set as the recognition mode, and at each time point, one of the first voice recognition dictionary and the second voice recognition dictionary uses the standby voice recognition dictionary. While using the first speech recognition dictionary and the second speech recognition dictionary so that the set sub-speech recognition dictionary and the other become the main speech recognition dictionary, a speech recognition dictionary determined according to the first layer word was set. While updating the main voice recognition dictionary to a voice recognition dictionary determined according to the words registered in the main voice recognition dictionary that received voice input, the words registered in the main voice recognition dictionary recognized by the recognition unit. It is a process to execute a sequence that accepts the voice input of
When the first sequence execution process is completed, the standby process is started, and the standby process is started.
When the second sequence execution process is completed, the standby process is started, and the standby process is started.
If the voice input of the word registered in the standby voice recognition dictionary is received during the execution of the second sequence execution process, the word receiving the voice input is set as the first layer word. A voice recognition system, characterized in that it starts at least one of the start of processing and the start of other processing associated with the word that received the voice input.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とする音声認識システム。 The voice recognition system according to claim 1.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
If the voice input of a word is accepted when the voice output from the audio source device is radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The first sequence execution process is started,
If the voice input of a word is accepted when the voice output from the audio source device is not radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The second sequence execution process is started,
In the first sequence execution process, the first voice recognition mode and the second voice recognition dictionary in which the first recognition mode is set as the recognition mode and the same voice recognition dictionary determined according to the first layer word is set are set. Is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the same voice recognition dictionary determined according to the word that received the voice input.
In the second sequence execution process, the first voice recognition dictionary and the second voice recognition dictionary in which the second recognition mode is set as the recognition mode and different voice recognition dictionaries are set according to the first layer word are set. In the process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or multiple times while updating the voice recognition dictionary to a different voice recognition dictionary determined according to the word that received the voice input. can be,
When the first sequence execution process is completed, the standby process is started, and the standby process is started.
A voice recognition system characterized in that the standby process is started when the second sequence execution process is completed.
前記音声入力受付部は、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第1の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第2の認識モードに設定することを特徴とする音声認識システム。 The voice recognition system according to claim 1.
The voice input receiving unit sets the recognition mode to the first recognition mode when the voice output from the audio source device is emitted from the speaker, and is output from the audio source device from the speaker. A voice recognition system characterized in that the recognition mode is set to the second recognition mode when no sound is emitted.
当該音声認識システムは、自動車に搭載された車載システムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。 The voice recognition system according to claim 1, 2, 3, 4, 5 or 6.
The voice recognition system is a voice recognition system used for voice input in an in-vehicle system mounted on an automobile.
当該コンピュータプログラムは、前記コンピュータを、
ワードが複数登録された第1音声認識辞書と、
前記マイクロフォンがピックアップした音声を入力し、前記第1音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出する第1音声認識部と、
第2音声認識部と、
第2音声認識部によって用いられる第2音声認識辞書と、
ユーザの発話したワードを認識する認識部と、
第1の認識モードと第2の認識モードとを選択的に設定しながら、前記認識部が認識したワードの音声入力を受け付ける音声入力受付部として機能させるコンピュータプログラムであって、
前記第1の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと同じ複数のワードが登録されており、
前記第1の認識モードにおいて、前記第2音声認識部は、前記オーディオソース機器がスピーカに出力する音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第1の認識モードにおいて、前記認識部は、前記第2音声認識部によって前記対象候補が検出された後の所定期間中、当該対象候補として検出されたワードと同じワードが前記第1音声認識部によって前記対象候補として検出されても、当該前記第1音声認識部によって対象候補として検出されたワードをユーザの発話したワードとして認識することを抑止しつつ、前記第1音声認識部によって前記対象候補として検出されたワードをユーザの発話したワードとして認識し、
第2の認識モードにおいて第2音声認識部によって用いられる前記第2音声認識辞書には、前記第1音声認識辞書に登録されている複数のワードと、少なくとも部分的に異なる複数のワードが登録されており、
前記第2の認識モードにおいて、前記第2音声認識部は、前記マイクロフォンがピックアップした音声を入力し、前記第2音声認識辞書に登録された複数のワードのうちから、入力した音声に整合するワードを対象候補として検出し、
前記第2の認識モードにおいて、前記認識部は、前記第1音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識し、前記第2音声認識部によって前記対象候補が検出された場合には当該対象候補として検出されたワードをユーザの発話したワードとして認識することを特徴とするコンピュータプログラム。 A computer program that is read and executed by a computer equipped with a microphone placed in a space where the sound output from the audio source device is radiated from the speaker.
The computer program uses the computer,
The first speech recognition dictionary in which multiple words are registered, and
A first voice recognition unit that inputs a voice picked up by the microphone and detects a word matching the input voice as a target candidate from a plurality of words registered in the first voice recognition dictionary.
The second voice recognition unit and
The second voice recognition dictionary used by the second voice recognition unit,
A recognition unit that recognizes words spoken by the user,
A computer program that functions as a voice input receiving unit that receives voice input of a word recognized by the recognition unit while selectively setting a first recognition mode and a second recognition mode.
In the second voice recognition dictionary used by the second voice recognition unit in the first recognition mode, the same plurality of words as the plurality of words registered in the first voice recognition dictionary are registered.
In the first recognition mode, the second voice recognition unit inputs the voice output to the speaker by the audio source device, and the input voice is selected from a plurality of words registered in the second voice recognition dictionary. Detects words that match the target as target candidates,
In the first recognition mode, the recognition unit recognizes the same words as the words detected as the target candidates during the predetermined period after the target candidate is detected by the second voice recognition unit. Even if the target is detected by the unit, the target is prevented from being recognized as a word spoken by the user by the first voice recognition unit. Recognize the word detected as a candidate as the word spoken by the user and
In the second voice recognition dictionary used by the second voice recognition unit in the second recognition mode, a plurality of words registered in the first voice recognition dictionary and a plurality of words that are at least partially different from the plurality of words are registered. And
In the second recognition mode, the second voice recognition unit inputs the voice picked up by the microphone, and among a plurality of words registered in the second voice recognition dictionary, a word matching the input voice. Is detected as a target candidate,
In the second recognition mode, when the target candidate is detected by the first voice recognition unit, the recognition unit recognizes the word detected as the target candidate as the word spoken by the user, and the second recognition unit. (2) A computer program characterized in that when the target candidate is detected by the voice recognition unit, the word detected as the target candidate is recognized as the word spoken by the user.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
前記シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始し、
前記シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とするコンピュータプログラム。 The computer program according to claim 8.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
When the voice input of the word is accepted by the standby process, the sequence execution process in which the word for which the voice input is accepted is set as the first layer word is started.
In the sequence execution process, the second recognition mode is set as the recognition mode, and at each time point, one of the first voice recognition dictionary and the second voice recognition dictionary sets the standby voice recognition dictionary. While using the first speech recognition dictionary and the second speech recognition dictionary so that the sub-speech recognition dictionary and the other become the main speech recognition dictionary, the main speech recognition dictionary determined according to the first layer word is set. While updating the voice recognition dictionary to a voice recognition dictionary determined according to the words registered in the main voice recognition dictionary that received voice input, the voice of the words registered in the main voice recognition dictionary recognized by the recognition unit. It is a process to execute a sequence that accepts input once or multiple times.
When the sequence execution process is completed, the standby process is started, and the standby process is started.
If the voice input of the word registered in the standby voice recognition dictionary is accepted during the execution of the sequence execution process, the sequence execution process in which the word receiving the voice input is set as the first layer word is started. A computer program characterized by performing at least one of the operation and the start of other processing associated with the word that received the voice input.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によってワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとするシーケンス実行処理を開始し、
当該シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力として受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とするコンピュータプログラム。 The computer program according to claim 8.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
When the voice input of the word is accepted by the standby process, the sequence execution process in which the word for which the voice input is accepted is set as the first layer word is started.
In the sequence execution process, the first voice recognition dictionary and the second voice recognition are set by setting the second recognition mode as the recognition mode and setting different voice recognition dictionaries determined according to the first layer word. It is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the dictionary to a different voice recognition dictionary determined according to the word received as the voice input.
A computer program characterized in that the standby process is started when the sequence execution process is completed.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、各時点において、前記第1音声認識辞書と前記第2音声認識辞書の一方が、前記待受用音声認識辞書を設定した副音声認識辞書となり、他方が主音声認識辞書となるように前記第1音声認識辞書と前記第2音声認識辞書を用いつつ、前記第1階層ワードに応じて定まる音声認識辞書を設定した前記主音声認識辞書を、音声入力を受け付けた前記主音声認識辞書に登録されたワードに応じて定まる音声認識辞書に更新しながら、前記認識部が認識した前記主音声認識辞書に登録されたワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理の実行中に、前記待受用音声認識辞書に登録されているワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする前記シーケンス実行処理の開始と、当該音声入力を受け付けたワードに関連づけられた他の処理の開始との少なくとも一方を行うことを特徴とするコンピュータプログラム。 The computer program according to claim 8.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
If the voice input of a word is accepted when the voice output from the audio source device is radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The first sequence execution process is started,
If the voice input of a word is accepted when the voice output from the audio source device is not radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The second sequence execution process is started,
In the first sequence execution process, the first voice recognition mode and the second voice recognition dictionary in which the first recognition mode is set as the recognition mode and the same voice recognition dictionary determined according to the first layer word is set are set. Is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the same voice recognition dictionary determined according to the word that received the voice input.
In the second sequence execution process, the second recognition mode is set as the recognition mode, and at each time point, one of the first voice recognition dictionary and the second voice recognition dictionary uses the standby voice recognition dictionary. While using the first speech recognition dictionary and the second speech recognition dictionary so that the set sub-speech recognition dictionary and the other become the main speech recognition dictionary, a speech recognition dictionary determined according to the first layer word was set. While updating the main voice recognition dictionary to a voice recognition dictionary determined according to the words registered in the main voice recognition dictionary that received voice input, the words registered in the main voice recognition dictionary recognized by the recognition unit. It is a process to execute a sequence that accepts the voice input of
When the first sequence execution process is completed, the standby process is started, and the standby process is started.
When the second sequence execution process is completed, the standby process is started, and the standby process is started.
If the voice input of the word registered in the standby voice recognition dictionary is received during the execution of the second sequence execution process, the word receiving the voice input is set as the first layer word. A computer program characterized in that it starts at least one of the start of the other processing associated with the word that received the voice input.
前記音声入力受付部は、
前記認識モードとして前記第1の認識モードを設定し、予め定めた音声認識辞書である待受用音声認識辞書を前記第1音声認識辞書と第2音声認識辞書に設定し、前記認識部が認識したワードの音声入力を受け付ける待受処理を行い、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第1シーケンス実行処理を開始し、
前記待受処理によって、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに、ワードの音声入力を受け付けたならば、当該音声入力を受け付けたワードを第1階層ワードとする第2シーケンス実行処理を開始し、
前記第1シーケンス実行処理は、前記認識モードとして前記第1の認識モードを設定し、前記第1階層ワードに応じて定まる同じ音声認識辞書を設定した第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる同じ音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第2シーケンス実行処理は、前記認識モードとして前記第2の認識モードを設定し、前記第1階層ワードに応じて定まる相互に異なる音声認識辞書を設定した前記第1音声認識辞書と前記第2音声認識辞書とを、音声入力を受け付けたワードに応じて定まる相互に異なる音声認識辞書に更新しながら、前記認識部が認識したワードの音声入力を1回もしくは複数回受け付けるシーケンスを実行する処理であり、
前記第1シーケンス実行処理を終了したならば前記待受処理を開始し、
前記第2シーケンス実行処理を終了したならば前記待受処理を開始することを特徴とするコンピュータプログラム。 The computer program according to claim 8.
The voice input reception unit is
The first recognition mode is set as the recognition mode, the standby voice recognition dictionary, which is a predetermined voice recognition dictionary, is set in the first voice recognition dictionary and the second voice recognition dictionary, and the recognition unit recognizes them. Performs standby processing to accept voice input of words,
If the voice input of a word is accepted when the voice output from the audio source device is radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The first sequence execution process is started,
If the voice input of a word is accepted when the voice output from the audio source device is not radiated from the speaker by the standby process, the word that has received the voice input is set as the first layer word. The second sequence execution process is started,
In the first sequence execution process, the first voice recognition mode and the second voice recognition dictionary in which the first recognition mode is set as the recognition mode and the same voice recognition dictionary determined according to the first layer word is set are set. Is a process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or a plurality of times while updating the same voice recognition dictionary determined according to the word that received the voice input.
In the second sequence execution process, the first voice recognition dictionary and the second voice recognition dictionary in which the second recognition mode is set as the recognition mode and different voice recognition dictionaries are set according to the first layer word are set. In the process of executing a sequence of accepting the voice input of the word recognized by the recognition unit once or multiple times while updating the voice recognition dictionary to a different voice recognition dictionary determined according to the word that received the voice input. can be,
When the first sequence execution process is completed, the standby process is started, and the standby process is started.
A computer program characterized in that the standby process is started when the second sequence execution process is completed.
前記音声入力受付部は、前記スピーカから前記オーディオソース機器から出力された音声が放射されているときに前記認識モードを前記第1の認識モードに設定し、前記スピーカから前記オーディオソース機器から出力された音声が放射されていないときに前記認識モードを前記第2の認識モードに設定することを特徴とするコンピュータプログラム。 The computer program according to claim 8.
The audio input receiving unit sets the recognition mode to the first recognition mode when the sound output from the audio source device is emitted from the speaker, and is output from the audio source device from the speaker. A computer program characterized in that the recognition mode is set to the second recognition mode when no sound is emitted.
前記コンピュータは、自動車に搭載されたコンピュータであることを特徴とするコンピュータプログラム。 The computer program according to claim 8, 9, 10, 11, 12 or 13.
The computer is a computer program characterized in that it is a computer mounted on an automobile.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017176219A JP6912985B2 (en) | 2017-09-13 | 2017-09-13 | Speech recognition system and computer program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017176219A JP6912985B2 (en) | 2017-09-13 | 2017-09-13 | Speech recognition system and computer program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019053143A JP2019053143A (en) | 2019-04-04 |
| JP6912985B2 true JP6912985B2 (en) | 2021-08-04 |
Family
ID=66014879
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017176219A Active JP6912985B2 (en) | 2017-09-13 | 2017-09-13 | Speech recognition system and computer program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6912985B2 (en) |
Family Cites Families (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2602342Y2 (en) * | 1993-09-30 | 2000-01-11 | 日本コロムビア株式会社 | Audio equipment |
| JPH0969038A (en) * | 1995-08-31 | 1997-03-11 | Canon Inc | Audio output device |
| JP3700533B2 (en) * | 2000-04-19 | 2005-09-28 | 株式会社デンソー | Speech recognition apparatus and processing system |
| JPWO2011016129A1 (en) * | 2009-08-07 | 2013-01-10 | パイオニア株式会社 | Speech recognition apparatus, speech recognition method, and speech recognition program |
| JP5637131B2 (en) * | 2011-12-26 | 2014-12-10 | 株式会社デンソー | Voice recognition device |
| CN104956436B (en) * | 2012-12-28 | 2018-05-29 | 株式会社索思未来 | Equipment and audio recognition method with speech identifying function |
-
2017
- 2017-09-13 JP JP2017176219A patent/JP6912985B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019053143A (en) | 2019-04-04 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US20250149043A1 (en) | Performing speech recognition using a set of words with descriptions in terms of components smaller than the words | |
| US12387715B2 (en) | Learning offline voice commands based on usage of online voice commands | |
| US9159319B1 (en) | Keyword spotting with competitor models | |
| JP6024675B2 (en) | Voice recognition terminal device, voice recognition system, and voice recognition method | |
| KR102443087B1 (en) | Electronic device and its voice recognition method | |
| JP6844472B2 (en) | Information processing device | |
| EP3654329B1 (en) | In-vehicle device and speech recognition method | |
| JP5996152B2 (en) | Speech recognition system and speech recognition method | |
| JP2010078877A (en) | Speech recognition device, speech recognition method, and speech recognition program | |
| JP6459330B2 (en) | Speech recognition apparatus, speech recognition method, and speech recognition program | |
| JP2018116206A (en) | Speech recognition apparatus, speech recognition method, and speech recognition system | |
| JP6912985B2 (en) | Speech recognition system and computer program | |
| JP4056711B2 (en) | Voice recognition device | |
| US10629197B2 (en) | Voice processing system and voice processing method for predicting and executing an ask-again request corresponding to a received request | |
| JP6716968B2 (en) | Speech recognition device, speech recognition program | |
| JP6824554B2 (en) | Speech recognition system | |
| JP6966374B2 (en) | Speech recognition system and computer program | |
| JP2006208486A (en) | Voice input device | |
| JP4951422B2 (en) | Speech recognition apparatus and speech recognition method | |
| JP2020091435A (en) | Voice recognition system, notification method of voice recognition system, program, and mobile body mounted apparatus | |
| JP6999236B2 (en) | Speech recognition system | |
| KR20190030970A (en) | Apparatus for converting voice to text | |
| KR101610152B1 (en) | Voice recognition system and method of the same | |
| JP2019045532A (en) | Voice recognition device, on-vehicle system and computer program | |
| KR20190093268A (en) | Method for controlling device and device thereof |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200626 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210520 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210525 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210616 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210709 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6912985 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |