JP6996944B2 - Speech recognition system - Google Patents
Speech recognition system Download PDFInfo
- Publication number
- JP6996944B2 JP6996944B2 JP2017214359A JP2017214359A JP6996944B2 JP 6996944 B2 JP6996944 B2 JP 6996944B2 JP 2017214359 A JP2017214359 A JP 2017214359A JP 2017214359 A JP2017214359 A JP 2017214359A JP 6996944 B2 JP6996944 B2 JP 6996944B2
- Authority
- JP
- Japan
- Prior art keywords
- voice recognition
- voice
- command
- mode
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims description 35
- 238000004891 communication Methods 0.000 claims description 10
- 230000010365 information processing Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Landscapes
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- User Interface Of Digital Computer (AREA)
Description
本発明は、ユーザの発話音声を認識する音声認識の技術に関するものである。 The present invention relates to a voice recognition technique for recognizing a user's spoken voice.
ユーザの発話音声を認識する音声認識の技術としては、ユーザの音声認識開始指示操作を必要とすることなく、常時、ユーザの発話音声を認識する技術が知られている(たとえば、特許文献1)。 As a voice recognition technique for recognizing a user's uttered voice, a technique for constantly recognizing a user's uttered voice without requiring a user's voice recognition start instruction operation is known (for example, Patent Document 1). ..
また、ユーザの発話音声を認識する音声認識の技術としては、端末において、自身が備えた音声認識装置によってユーザの発話音声の音声認識を行うと共に、外部の音声認識サーバを用いたユーザの発話音声の音声認識を行い、いずれか一方の音声認識よって得られた音声認識結果を利用する技術が知られている(たとえば、特許文献2、3)。
In addition, as a voice recognition technology for recognizing a user's voice, the terminal recognizes the user's voice by a voice recognition device provided by the terminal and also recognizes the user's voice by using an external voice recognition server. There is known a technique for performing voice recognition in the above and using the voice recognition result obtained by either voice recognition (for example,
端末において、自身が備えた音声認識装置によるユーザの発話音声の音声認識と、外部の音声認識サーバを用いたユーザの発話音声の音声認識とを、異なる機能のコマンド入力に使用する場合、並行して双方の音声認識を行うことは、ユーザが発話音声によって入力したコマンドが、ユーザがコマンドの入力を意図した機能と異なる機能に対するコマンドとして入力されてしまう可能性が生じるため適切ではない。 When using the voice recognition of the user's spoken voice by the voice recognition device provided by the terminal and the voice recognition of the user's spoken voice by using an external voice recognition server for command input of different functions, they are performed in parallel. It is not appropriate to perform both voice recognition because the command input by the user by the spoken voice may be input as a command for a function different from the function intended by the user to input the command.
そこで、自身が備えた音声認識装置によるユーザの発話音声の音声認識と、外部の音声認識サーバを用いたユーザの発話音声の音声認識とは、選択的に切り替えて行うことが望ましい。 Therefore, it is desirable to selectively switch between the voice recognition of the user's spoken voice by the voice recognition device provided by the user and the voice recognition of the user's spoken voice by using the external voice recognition server.
一方で、自身が備えた音声認識装置による音声認識をユーザの音声認識開始指示操作を必要とすることなく常時行うようにした場合において、自身が備えた音声認識装置によるユーザの発話音声の音声認識と、外部の音声認識サーバを用いたユーザの発話音声の音声認識とを、選択的に切り替えて行うようにすると次のような問題が生じる。 On the other hand, when the voice recognition by the voice recognition device provided by the user is always performed without requiring the user's voice recognition start instruction operation, the voice recognition of the user's spoken voice by the voice recognition device provided by the user is performed. And, if the voice recognition of the user's spoken voice using an external voice recognition server is selectively switched, the following problems occur.
すなわち、この場合には、自身が備えた音声認識装置による音声認識のみをユーザの音声認識開始指示操作を必要とすることなく常時行う第1のモードと、外部の音声認識サーバのみを用いたユーザの発話音声の音声認識行う第2のモードを設け、通常は、第1のモードで音声認識を行い、ユーザの操作に応じて、一時的に、第2のモードで音声認識を行い、音声認識を終了したならば、第1のモードに復帰することが考えられるが、このようにすると、第2のモードの期間中に、自身が備えた音声認識装置による音声認識をコマンドの入力に用いる機能に対して緊急を要するコマンドを入力する必要が生じた場合でも、第1のモードによる音声認識の音声認識開始指示操作が存在しないために、第2のモードから第1のモードに強制的に切り替えることができず、当該緊急を要するコマンドの入力が行えなくなってしまう。 That is, in this case, the first mode in which only the voice recognition by the voice recognition device provided by the user is always performed without requiring the user's voice recognition start instruction operation, and the user using only the external voice recognition server. A second mode is provided for voice recognition of the spoken voice of the above, and normally, voice recognition is performed in the first mode, and voice recognition is temporarily performed in the second mode according to the user's operation, and voice recognition is performed. When is finished, it is conceivable to return to the first mode, but if this is done, the function of using the voice recognition by the voice recognition device provided by itself for inputting the command during the period of the second mode. Even if it becomes necessary to input an urgent command for, the second mode is forcibly switched to the first mode because there is no voice recognition start instruction operation for voice recognition by the first mode. This makes it impossible to enter the urgent command.
一方で、第2のモードの期間中も、自身が備えた音声認識装置による音声認識を行うものとすれば、上述のように、ユーザが発話音声によって入力したコマンドが、ユーザがコマンドの入力を意図した機能と異なる機能に対するコマンドとして入力されてしまうことがある。 On the other hand, if voice recognition is performed by the voice recognition device provided by the user even during the period of the second mode, as described above, the command input by the user by the spoken voice is input by the user. It may be entered as a command for a function that is different from the intended function.
そこで、本発明は、音声認識をユーザの音声認識開始指示操作を必要とすることなく常時行う第1の音声認識手段と、第2の音声認識手段とを、異なる機能に対する入力に用いる音声認識システムにおいて、各機能に対する誤入力の抑制しつつ、常時、第1の音声認識手段の音声認識を用いた緊急を要する入力を行えるようにすることを課題とする。 Therefore, the present invention is a voice recognition system in which a first voice recognition means and a second voice recognition means, which constantly perform voice recognition without requiring a user's voice recognition start instruction operation, are used for input to different functions. In the present invention, it is an object of the present invention to be able to perform urgent input using the voice recognition of the first voice recognition means at all times while suppressing erroneous input for each function.
前記課題達成のために、本発明は、ユーザの発話した音声を音声認識する音声認識システムに、マイクロフォンと、前記マイクロフォンで収音した音声が表すコマンドの常時の音声認識を行う第1の音声認識手段と、入力したコマンドが実行を命令する処理を実行する第1の機能部と、前記マイクロフォンで収音した音声を音声認識する音声認識動作を行う第2の音声認識手段と、前記第2の音声認識装置の音声認識結果を処理する第2の機能部と、前記第1の音声認識手段が音声認識するコマンドのうちの一部のコマンドを優先コマンドとして登録した優先コマンド記憶手段と、音声認識動作制御手段と設けたものである。ここで、当該音声認識動作制御手段は、音声認識モードとして備えた第1の音声認識モードと第2の音声認識モードとの間の切り替えを制御すると共に、前記音声認識モードが前記第1の音声認識モードであるときに、前記第2の音声認識手段の前記音声認識動作を停止すると共に、第1の音声認識手段が音声認識したコマンドを前記第1の機能部に入力し、前記音声認識モードが前記第2の音声認識モードであるときに、前記第2の音声認識手段に前記音声認識動作を実行させると共に、前記第1の音声認識手段が音声認識したコマンドが、前記優先コマンド記憶手段に登録された優先コマンドである場合にのみ、当該第1の音声認識手段が音声認識したコマンドを前記第1の機能部に入力する。 In order to achieve the above object, the present invention is a first voice recognition in which a voice recognition system that recognizes a voice spoken by a user is constantly voice-recognized with a microphone and a command represented by the voice picked up by the microphone. The means, a first functional unit that executes a process in which an input command commands execution, a second voice recognition means that performs a voice recognition operation that recognizes the voice picked up by the microphone, and the second voice recognition means. A second functional unit that processes the voice recognition result of the voice recognition device, a priority command storage means that registers some commands among the commands that the first voice recognition means recognizes as voice recognition means, and voice recognition. It is provided as an operation control means. Here, the voice recognition operation control means controls switching between the first voice recognition mode and the second voice recognition mode provided as the voice recognition mode, and the voice recognition mode is the first voice. In the recognition mode, the voice recognition operation of the second voice recognition means is stopped, and the command recognized by the first voice recognition means is input to the first function unit to perform the voice recognition mode. Is the second voice recognition mode, the second voice recognition means is made to execute the voice recognition operation, and the command recognized by the first voice recognition means is used as the priority command storage means. Only when it is a registered priority command, the command recognized by the first voice recognition means is input to the first function unit.
ここで、このような音声認識システムは、前記音声認識動作制御手段において、前記第1の音声認識モードにあるときに、ユーザからの所定の入力が発生したときに、前記音声認識モードを前記第2の音声認識モードに切り替え、前記第2の音声認識モードにあるときに、前記第2の音声認識手段の前記音声認識動作が完了したときに、前記音声認識モードを前記第1の音声認識モードに切り替えるように構成してもよい。 Here, such a voice recognition system sets the voice recognition mode to the first voice recognition mode when a predetermined input from the user is generated while the voice recognition operation control means is in the first voice recognition mode. When the voice recognition operation of the second voice recognition means is completed while switching to the voice recognition mode of 2 and in the second voice recognition mode, the voice recognition mode is changed to the first voice recognition mode. It may be configured to switch to.
また、このような音声認識システムは、前記第2の音声認識手段を、前記音声認識動作として、音声認識サービスを提供する外部の音声認識サーバに通信を介して接続し、接続した音声認識サーバの音声認識サービスを利用して、前記マイクロフォンで収音した音声の音声認識を行うものとしてもよい。 Further, in such a voice recognition system, the second voice recognition means is connected to an external voice recognition server that provides a voice recognition service as the voice recognition operation via communication, and the connected voice recognition server. The voice recognition service may be used to perform voice recognition of the voice picked up by the microphone.
また、このような音声認識システムは、当該音声認識システムは、自動車に搭載されたシステムにおいて音声入力に用いられる音声認識システムであってよい。
また、このような音声認識システムを、自動車に搭載された車載システムと、当該車載システムと選択的に接続されるポータブル装置とより構成し、前記車載システムに、前記マイクロフォンと前記第1の音声認識手段と前記第1の機能部と前記優先コマンド記憶手段と前記音声認識動作制御手段とを設け、前記ポータブル装置に、前記第2の音声認識手段と前記第2の機能部を設け、前記音声認識動作制御手段において、前記音声認識モードが前記第2の音声認識モードにあるときに、前記マイクロフォンで収音した音声を前記車載システムから前記ポータブル装置に転送し、前記第2の音声認識手段において、前記車載システムから前記ポータブル装置に転送された音声を音声認識する音声認識動作を行うように構成してもよい。
Further, in such a voice recognition system, the voice recognition system may be a voice recognition system used for voice input in a system mounted on an automobile.
Further, such a voice recognition system is composed of an in-vehicle system mounted on an automobile and a portable device selectively connected to the in-vehicle system, and the in-vehicle system includes the microphone and the first voice recognition. The means, the first functional unit, the priority command storage means, and the voice recognition operation control means are provided, and the portable device is provided with the second voice recognition means and the second functional unit, and the voice recognition is performed. In the operation control means, when the voice recognition mode is in the second voice recognition mode, the voice picked up by the microphone is transferred from the in-vehicle system to the portable device, and the second voice recognition means. It may be configured to perform a voice recognition operation for recognizing the voice transferred from the in-vehicle system to the portable device.
また、以上の各音声認識システムは、前記優先コマンド記憶手段を、前記第1の音声認識手段が音声認識するコマンドのうちの、当該コマンドが実行を命令する処理が前記自動車の安全確保に関わる処理であるコマンドが、少なくとも、優先コマンドとして登録されているものとしてもよい。 Further, in each of the above voice recognition systems, among the commands for voice recognition of the priority command storage means by the first voice recognition means, the processing in which the command commands execution is related to ensuring the safety of the automobile. It may be assumed that the command is at least registered as a preferred command.
また、以上の各音声認識システムは、前記優先コマンド記憶手段を、前記第1の音声認識手段が音声認識するコマンドのうちの、当該コマンドを表す音声を音声認識した音声認識結果に対する有意な処理が当該時点において前記第2の機能部に規定されていないコマンドが、少なくとも優先コマンドとして登録されているものとしてもよい。 Further, in each of the above voice recognition systems, the priority command storage means is subjected to significant processing for the voice recognition result of voice recognition of the voice representing the command among the commands for voice recognition by the first voice recognition means. A command not specified in the second functional unit at that time may be registered as at least a priority command.
以上のような音声認識システムによれば、第1の音声認識モードで、第1の音声認識手段による第1の機能部へのコマンド入力を行っているときには、2の音声認識手段による音声認識は停止すると共に、第2の音声認識モードで、第2の音声認識手段による第2の機能部への音声入力を行っているときには、基本的には、常時の音声認識を行う第1の音声認識手段の音声認識を用いた第1の機能部へのコマンドの入力を停止する。 According to the voice recognition system as described above, in the first voice recognition mode, when the command is input to the first functional unit by the first voice recognition means, the voice recognition by the second voice recognition means is performed. When the voice is stopped and the voice is input to the second functional unit by the second voice recognition means in the second voice recognition mode, basically, the first voice recognition that constantly performs voice recognition is performed. Stops inputting commands to the first functional unit using the voice recognition of the means.
よって、ユーザが第1の機能部にコマンドを入力するために発話した音声を、第2の機能部に音声入力してしまったり、ユーザが第2の機能部に音声入力するために発話した音声を、第1の機能部へのコマンド入力の音声と誤認識して第1の機能部へコマンドを誤入力してしまうことは抑制される。 Therefore, the voice spoken by the user to input a command to the first function unit may be voice-input to the second function unit, or the voice spoken by the user to input voice to the second function unit. Is erroneously recognized as the voice of the command input to the first functional unit, and the erroneous input of the command to the first functional unit is suppressed.
一方で、第2の音声認識手段による第2の機能部への音声入力を行っているときでも、第1の音声認識手段の音声認識によって、優先コマンド記憶手段に登録された優先コマンドが認識された場合には、これを第1の機能部へ入力させる。 On the other hand, even when the voice is input to the second functional unit by the second voice recognition means, the priority command registered in the priority command storage means is recognized by the voice recognition of the first voice recognition means. If so, this is input to the first functional unit.
したがって、前記自動車の安全確保に関わる処理の実行を命令するコマンド等の緊急性のある処理の実行を命令するコマンドを優先コマンドとして優先コマンド記憶手段に登録しておくことにより、常時、第1の音声認識手段の音声認識を用いた緊急性のある処理の実行を命令するコマンドの第1の機能部への入力を行えるようになる。 Therefore, by registering a command for instructing the execution of an urgent process such as a command for instructing the execution of the process related to ensuring the safety of the automobile as a priority command in the priority command storage means, the first command is always performed. It becomes possible to input a command for instructing the execution of an urgent process using the voice recognition of the voice recognition means to the first functional unit.
また、コマンドを表す音声を音声認識した音声認識結果に対する有意な処理が当該時点において前記第2の機能部に規定されていない第1の機能部のコマンド、すなわち、第2の機能部に当該コマンドを表す音声が音声入力されてしまっても差し障りのないコマンドを優先コマンドとして優先コマンド記憶手段に登録しておくことにより、これらのコマンドについて、常時、第1の音声認識手段の音声認識を用いたコマンドの第1の機能部への入力を行えるようになる。 Further, the command of the first functional unit, that is, the command of the second functional unit, whose significant processing for the voice recognition result of voice-recognizing the voice representing the command is not specified in the second functional unit at that time. By registering commands that do not hinder the voice input of the above as priority commands in the priority command storage means, the voice recognition of the first voice recognition means is always used for these commands. You will be able to input commands to the first functional part.
以上のように、本発明によれば、音声認識をユーザの音声認識開始指示操作を必要とすることなく常時行う第1の音声認識手段と、第2の音声認識手段とを、異なる機能に対する入力に用いる音声認識システムにおいて、各機能に対する誤入力の抑制しつつ、常時、第1の音声認識手段の音声認識を用いた緊急を要する入力を行えるようにすることができる。 As described above, according to the present invention, the first voice recognition means and the second voice recognition means, which constantly perform voice recognition without requiring the user's voice recognition start instruction operation, are input to different functions. In the voice recognition system used for the above, it is possible to always perform urgent input using the voice recognition of the first voice recognition means while suppressing erroneous input for each function.
以下、本発明の実施形態を、自動車において利用される情報処理システムへの適用を例にとり説明する。
図1に情報処理システムの構成を示す。
図示するように、情報処理システムは、自動車に搭載される車載システム1と、車載システム1に選択的に接続されるポータブル装置2とを備えている。
ここで、ポータブル装置2は、たとえば、スマートフォンやタブレット装置などのユーザによって携帯可能な装置である。また、ポータブル装置2は移動通信を介して外部の音声認識サーバ3に接続し、音声認識サーバ3の音声認識サービスを利用して、車載システム1から転送された音声の音声認識を行い、音声認識の結果を、ポータブル装置2に対する音声入力として受け入れ、音声入力に応じた動作を行う機能を備えている。
Hereinafter, embodiments of the present invention will be described by taking as an example an application to an information processing system used in an automobile.
FIG. 1 shows the configuration of the information processing system.
As shown in the figure, the information processing system includes an in-vehicle system 1 mounted on an automobile and a
Here, the
次に、車載システム1は、マイクロフォン101、音声認識装置102、音声認識辞書103、音声認識結果フィルタ部104、優先ワードテーブル105、外部音声認識制御部106、トークスイッチ107、ポータブル装置2と通信を行う通信インタフェース108、データ処理装置109、ディスプレイや自動車周辺を撮影するカメラやAV装置や空調装置等の各種の周辺装置110を備えている。
Next, the in-vehicle system 1 communicates with the
そして、音声認識辞書103には、データ処理装置109のコマンドを表すワードの音声認識用のデータが登録されている。そして、音声認識装置102は音声認識辞書103を用いて、マイクロフォン101から入力するユーザの発話音声がデータ処理装置109のコマンドを表す音声である場合に、当該コマンドを音声認識し、音声認識結果として音声認識結果フィルタ部104に出力する動作を、ユーザの音声認識開始指示操作をトリガとすることなく常時行う。
Then, in the
次に、優先ワードテーブル105には、音声認識辞書103に音声認識用のデータが登録されているワードが表すコマンドのうちの、緊急に処理する必要のあるコマンドと、ポータブル装置2に対する音声入力に現れることがないコマンドが登録されている。そして、音声認識結果フィルタ部104は、優先ワードテーブル105を用いて、後に詳述する音声認識結果フィルタ処理を行って、音声認識装置102が認識した音声認識結果のうちの、所定の条件を満たす音声認識結果のみをデータ処理装置109に出力する。
Next, in the priority word table 105, among the commands represented by the words whose voice recognition data is registered in the
なお、緊急に処理する必要のあるコマンドとは、たとえば、自動車の安全確保に関わる処理の実行をデータ処理装置109に命令するコマンドであり、たとえば、データ処理装置109に、自動車の後方を撮影するカメラで撮影した画像のディスプレイへの表示を指示するコマンド「バックカメラ」等を、緊急に処理する必要のあるコマンドとすることができる。
The command that needs to be processed urgently is, for example, a command that instructs the
また、ポータブル装置2に対する音声入力に現れることがないコマンドとしては、たとえば、当該時点においてポータブル装置2が音声入力をポータブル装置2に対するコマンドの入力に用いている場合には、音声認識辞書103に音声認識用のデータが登録されているワードが表すコマンドのうちの、ポータブル装置2が対応していないコマンドとすることができる。
Further, as a command that does not appear in the voice input to the
また、音声認識辞書103に音声認識用のデータが登録されているワードが表すコマンドのうちの、ポータブル装置2に対する音声入力に、常識的におよそ現れそうもないコマンドも、ポータブル装置2に対する音声入力に現れることがないコマンドとしてよい。
Further, among the commands represented by the words in which the data for voice recognition is registered in the
ここで、このようなポータブル装置2に対する音声入力に現れることがないコマンドとしては、たとえば、データ処理装置109に空調装置の風量の増加処理の実行を指示するコマンド「風量アップ」等がある。
Here, as a command that does not appear in the voice input to such a
そして、データ処理装置109は、音声認識結果フィルタ部104から出力されたコマンドに応じた処理を行う。
また、外部音声認識制御部106は、後に詳述する外部音声認識制御処理を行って、マイクロフォン101から入力するユーザの発話音声を、通信インタフェース108を介してポータブル装置2に転送し、ポータブル装置2に、上述した音声認識サーバ3の音声認識サービスを利用した音声認識を行わせる。
Then, the
Further, the external voice
以下、この外部音声認識制御部106が行う外部音声認識制御処理について説明する。
図2に、外部音声認識制御処理の手順を示す。
図示するように、外部音声認識制御処理において、外部音声認識制御部106は、トークスイッチ107がユーザによってオン操作されるのを監視し(ステップ202)、オン操作されたならば外部音声認識モードを設定する(ステップ204)。
Hereinafter, the external voice recognition control process performed by the external voice
FIG. 2 shows the procedure of the external voice recognition control process.
As shown in the figure, in the external voice recognition control process, the external voice
そして、通信インタフェース108を介してポータブル装置2に音声認識開始コマンドを発行し(ステップ206)、マイクロフォン101から入力するユーザの発話音声の通信インタフェース108を介したポータブル装置2への転送を開始する(ステップ208)。
Then, a voice recognition start command is issued to the
ここで、ポータブル装置2は、車載システム1から音声認識開始コマンドを受信したならば、車載システム1から転送される、所定時間長以上の無音区間の開始点を終了点とする一連の音声の、音声認識サーバ3の音声認識サービスを利用した音声認識を行う音声認識処理を開始する。
Here, when the
次に、外部音声認識制御部106は、ユーザの発話音声の通信インタフェース108を介したポータブル装置2への転送を開始したならば(ステップ208)、音声認識結果フィルタ部104からの外部音声認識停止コマンドの受信(ステップ210)の発生と、通信インタフェース108を介したポータブル装置2からの音声認識終了通知の受信(ステップ212)の発生を監視する。
Next, if the external voice
ここで、ポータブル装置2は、上述した音声認識処理が終了したならば、音声認識終了通知を車載装置に出力する。
そして、外部音声認識制御部106は、音声認識結果フィルタ部104からの外部音声認識停止コマンドの受信(ステップ210)と、ポータブル装置2からの音声認識終了通知の受信(ステップ212)とのいずれかが発生したならば、マイクロフォン101から入力するユーザの発話音声の通信インタフェース108を介したポータブル装置2への転送を停止し(ステップ214)、外部音声認識モードを解除する(ステップ216)。
Here, the
Then, the external voice
そして、ステップ202からの処理に戻る。
以上、外部音声認識制御部106が行う外部音声認識制御処理について説明した。
次に、音声認識結果フィルタ部104が行う上述の音声認識結果フィルタ処理について説明する。
図3に、音声認識結果フィルタ処理の手順を示す。
図示するように、音声認識結果フィルタ部104は音声認識結果フィルタ処理において、音声認識装置102からの音声認識結果の入力を待ち(ステップ302)、音声認識結果が入力したならば、外部音声認識制御部106によって外部音声認識モードが設定されているかどうかを調べる(ステップ304)。
Then, the process returns to the process from
The external voice recognition control process performed by the external voice
Next, the above-mentioned voice recognition result filter processing performed by the voice recognition
FIG. 3 shows a procedure for voice recognition result filtering.
As shown in the figure, the voice recognition
そして、外部音声認識モードが設定されていなければ(ステップ304)、入力した音声認識結果をデータ処理装置109に出力し(ステップ310)、ステップ302からの処理に戻る。
If the external voice recognition mode is not set (step 304), the input voice recognition result is output to the data processing device 109 (step 310), and the process returns to the process from
一方、外部音声認識モードが設定されている場合には(ステップ304)、入力した音声認識結果が優先ワードテーブル105に登録されているコマンドであるかどうかを調べる(ステップ306)。 On the other hand, when the external voice recognition mode is set (step 304), it is checked whether the input voice recognition result is a command registered in the priority word table 105 (step 306).
そして、入力した音声認識結果が優先ワードテーブル105に登録されているコマンドでなければ(ステップ306)、受信した音声認識結果を廃棄し、そのままステップ302からの処理に戻る。
If the input voice recognition result is not a command registered in the priority word table 105 (step 306), the received voice recognition result is discarded and the process returns to the process from
一方、そして、受信した音声認識結果が優先ワードテーブル105に登録されているコマンドであれば(ステップ306)、外部音声認識制御部106に外部音声認識停止コマンドを送信した上で(ステップ308)、受信した音声認識結果をデータ処理装置109に出力し(ステップ310)、ステップ302からの処理に戻る。
On the other hand, if the received voice recognition result is a command registered in the priority word table 105 (step 306), the external voice recognition stop command is transmitted to the external voice recognition control unit 106 (step 308). The received voice recognition result is output to the data processing device 109 (step 310), and the process returns to the process from
以上、音声認識結果フィルタ部104が行う音声認識結果フィルタ処理について説明した。
ここで、以上のような外部音声認識制御処理と音声認識結果フィルタ処理による音声認識の動作の例を図4に示す。
図示するように、通常、マイクロフォン101から入力したユーザの発話した音声は、音声認識装置102に送られ(401)、音声認識装置102において音声認識され、音声認識結果が音声認識結果フィルタ部104に送られる(402)。そして、音声認識結果フィルタ部104は、受け取った音声認識結果をデータ処理装置109に出力する(403)。
The voice recognition result filter processing performed by the voice recognition
Here, FIG. 4 shows an example of the operation of voice recognition by the above-mentioned external voice recognition control processing and voice recognition result filter processing.
As shown in the figure, normally, the voice spoken by the user input from the
一方、ユーザがポータブル装置2への音声入力を行うためにトークスイッチ107のオン操作を行うと(411)、外部音声認識制御部106は、外部音声認識モードを設定する(412)。
On the other hand, when the user turns on the
そして、その後、優先ワードテーブル105に登録されたコマンドを表すワードではないワードをユーザが発話すると、その音声(非登録ワード音声)は、マイクロフォン101から音声認識装置102と、外部音声認識制御部106に送られる(413)。
Then, when the user utters a word that is not a word representing the command registered in the priority word table 105, the voice (unregistered word voice) is transmitted from the
音声認識装置102は、受け取った音声を音声認識し、音声認識結果を音声認識結果フィルタ部104に送る(414)。音声認識結果フィルタ部104は、受け取った音声認識結果が優先ワードテーブル105に登録されたコマンドではないので、音声認識結果をデータ処理装置109に出力せずに廃棄する。
The
一方、外部音声認識制御部106は、受け取った音声をポータブル装置2に転送し(415)、ポータブル装置2は転送された音声を音声認識サーバ3に送信する(416)。
そして、その後、ポータブル装置2が、送信した(416)音声の音声認識結果を音声認識サーバ3から受けとる前に、優先ワードテーブル105に登録されたコマンドを表すワードをユーザが発話すると、その音声(登録ワード音声)は、マイクロフォン101から音声認識装置102と、外部音声認識制御部106に送られる(417)。
On the other hand, the external voice
Then, after that, before the
音声認識装置102は、受け取った音声を音声認識し、音声認識結果を音声認識結果フィルタ部104に送る(418)。音声認識結果フィルタ部104は、受け取った音声認識結果が優先ワードテーブル105に登録されたコマンドであるので、外部音声認識停止コマンドを外部音声認識制御部106に発行する(419)と共に、音声認識結果をデータ処理装置109に出力する(420)。
The
一方、外部音声認識制御部106は、受け取った音声をポータブル装置2に転送する(421)。ここでは、ポータブル装置2は、音声認識サーバ3からの、音声認識結果待ちの状態にある期間は、転送された音声を無視するように構成されているものとし、ポータブル装置2に転送された(421)音声は、音声認識サーバ3に送信されずに廃棄されるものとする。
On the other hand, the external voice
また、外部音声認識制御部106は、外部音声認識停止コマンドを受け取ったならば(419)、外部音声認識モードを解除する(422)。
一方、ポータブル装置2が送信した(416)音声の音声認識結果が音声認識サーバ3からポータブル装置2に応答されると(423)、ポータブル装置2において、当該音声認識結果の処理が行われる。
Further, when the external voice
On the other hand, when the voice recognition result of the (416) voice transmitted by the
また、ポータブル装置2の音声認識処理が終了し、ポータブル装置2から外部音声認識制御部106に音声認識終了が通知される(424)。
以上、外部音声認識制御処理と音声認識結果フィルタ処理による音声認識の動作の例を示した。
ここで、図4に示した例と異なり、ユーザがトークスイッチ107をオン操作した直後や、ユーザがトークスイッチ107をオン操作し優先ワードテーブル105に登録されたコマンドを表すワードではないワードを途中まで発話した後に、優先ワードテーブル105に登録されたコマンドを表すワードを発話した場合も、当該ワードの発話を音声認識装置102で認識した認識結果が音声認識結果フィルタ部104を介して、データ処理装置109に出力されることとなる。
なお、これらの場合、優先ワードテーブル105に登録されたコマンドを表すワードの発話音声が外部音声認識制御部106からポータブル装置2に転送され、ポータブル装置2において当該音声に対する音声認識サーバ3を用いた音声認識が行われる不都合が生じることがあるが、ユーザが発話した音声が緊急に処理する必要のあるコマンドを表すものであれば、当該コマンドのデータ処理装置109への入力を当該不都合より優先すべきであり、ユーザが発話した音声がポータブル装置2に対する音声入力に現れることがないコマンドを表すものであれば、ポータブル装置2において、音声認識結果に基づいて不慮の動作が行われることはない。
Further, the voice recognition process of the
The above is an example of the operation of voice recognition by the external voice recognition control processing and the voice recognition result filter processing.
Here, unlike the example shown in FIG. 4, immediately after the user turns on the
In these cases, the spoken voice of the word representing the command registered in the priority word table 105 is transferred from the external voice
以上、本発明の実施形態について説明した。
本実施形態によれば、通常は、ポータブル装置2による音声認識サーバ3を用いたユーザの発話音声の音声入力を停止した状態で、音声認識装置102による常時のユーザの発話音声の音声認識と音声認識結果のコマンドのデータ処理装置109への入力が行われるが、ユーザがポータブル装置2への音声入力を行うためにトークスイッチ107のオン操作を行うと、ポータブル装置2による音声認識サーバ3を用いたユーザの発話音声の音声入力が開始される。
The embodiment of the present invention has been described above.
According to the present embodiment, normally, the
そして、ポータブル装置2による音声認識サーバ3を用いたユーザの発話音声の音声入力が行われている期間中は、基本的には、音声認識装置102によるユーザの発話音声の音声認識結果のコマンドのデータ処理装置109への入力は停止する。
Then, during the period during which the voice input of the user's spoken voice is performed using the voice recognition server 3 by the
よって、ユーザがデータ処理装置109にコマンドを入力するために発話した音声を、ポータブル装置2に音声入力してしまったり、ユーザがポータブル装置2に音声入力するために発話した音声を、データ処理装置109へのコマンド入力の音声と誤認識してデータ処理装置109へコマンドを誤入力してしまうことは抑制される。
Therefore, the voice spoken by the user to input a command to the
一方で、ポータブル装置2による音声認識サーバ3を用いたユーザの発話音声の音声入力が行われている期間中であっても、優先ワードテーブル105に登録されている緊急を要する処理の実行を要求するコマンドや、ポータブル装置2に対する音声入力に現れることがないコマンドを表すワードをユーザが発話した場合だけは、音声認識装置102によって認識された当該コマンドがデータ処理装置109に入力する。
On the other hand, even during the period during which the voice input of the user's spoken voice using the voice recognition server 3 by the
よって、本実施形態によれば、データ処理装置109に対するコマンドの誤入力やポータブル装置2に対する誤音声入力を抑制しつつ、常時、データ処理装置109に対する緊急を要する処理の実行を要求するコマンドの音声入力を行うことができるようになる。また、ポータブル装置2に対する音声入力に現れることがないコマンドについても、常時、データ処理装置109に対する音声入力を行うことができるようになる。
Therefore, according to the present embodiment, while suppressing erroneous input of a command to the
なお、以上の実施形態では、トークスイッチ107のオン操作を、ポータブル装置2に音声認識を行わせるトリガとしたが、このトリガは、トークスイッチ107のオン操作以外のものであってもよい。すなわち、このトリガは、ポータブル装置2への音声入力の開始を指示するコマンドの音声入力等であってもよい。なお、この場合、ポータブル装置2への音声入力の開始を指示するコマンドの音声入力の発生は、音声認識装置102において、ユーザの発話音声中の当該コマンドを表すワードを音声認識することにより検出する。
In the above embodiment, the on operation of the
また、以上の実施形態は、マイクロフォン101から入力する発話音声の音声認識サーバ3を用いた音声認識を行うポータブル装置2に代えて、マイクロフォン101から入力する発話音声の音声認識サーバ3を用いた音声認識を行うポータブル装置2ではない装置や、音声認識サーバ3を用いずに自身が備えた音声認識機能を用いてマイクロフォン101から入力する発話音声の音声認識を行う任意の装置を備えた場合にも、ポータブル装置2を当該備えた装置に置換することにより同様に適用することができる。
Further, in the above embodiment, the voice using the voice recognition server 3 for the spoken voice input from the
1…車載システム、2…ポータブル装置、3…音声認識サーバ、101…マイクロフォン、102…音声認識装置、103…音声認識辞書、104…音声認識結果フィルタ部、105…優先ワードテーブル、106…外部音声認識制御部、107…トークスイッチ、108…通信インタフェース、109…データ処理装置、110…周辺装置。 1 ... In-vehicle system, 2 ... Portable device, 3 ... Voice recognition server, 101 ... Microphone, 102 ... Voice recognition device, 103 ... Voice recognition dictionary, 104 ... Voice recognition result filter unit, 105 ... Priority word table, 106 ... External voice Recognition control unit, 107 ... talk switch, 108 ... communication interface, 109 ... data processing device, 110 ... peripheral device.
Claims (7)
マイクロフォンと、
前記マイクロフォンで収音した音声が表すコマンドの常時の音声認識を行う第1の音声認識手段と、
入力したコマンドが実行を命令する処理を実行する第1の機能部と、
前記マイクロフォンで収音した音声を音声認識する音声認識動作を行う第2の音声認識手段と、
前記第2の音声認識手段の音声認識結果を処理する第2の機能部と、
前記第1の音声認識手段が音声認識するコマンドのうちの一部のコマンドを優先コマンドとして登録した優先コマンド記憶手段と、
音声認識動作制御手段とを有し、
当該音声認識動作制御手段は、
音声認識モードとして備えた第1の音声認識モードと第2の音声認識モードとの間の切り替えを制御すると共に、
前記音声認識モードが前記第1の音声認識モードであるときに、前記第2の音声認識手段の前記音声認識動作を停止すると共に、第1の音声認識手段が音声認識したコマンドを前記第1の機能部に入力し、
前記音声認識モードが前記第2の音声認識モードであるときに、前記第2の音声認識手段に前記音声認識動作を実行させると共に、前記第1の音声認識手段が音声認識したコマンドが、前記優先コマンド記憶手段に登録された優先コマンドである場合にのみ、当該第1の音声認識手段が音声認識したコマンドを前記第1の機能部に入力することを特徴とする音声認識システム。 It is a voice recognition system that recognizes the voice spoken by the user.
With a microphone
A first voice recognition means for constantly recognizing a command represented by a voice picked up by the microphone, and a first voice recognition means.
The first functional part that executes the process in which the input command commands execution, and
A second voice recognition means that performs a voice recognition operation that recognizes the voice picked up by the microphone, and
A second functional unit that processes the voice recognition result of the second voice recognition means , and
The priority command storage means in which some of the commands recognized by the first voice recognition means are registered as priority commands, and the priority command storage means.
It has a voice recognition operation control means and
The voice recognition operation control means is
While controlling the switching between the first voice recognition mode and the second voice recognition mode provided as the voice recognition mode,
When the voice recognition mode is the first voice recognition mode, the voice recognition operation of the second voice recognition means is stopped, and the command that the first voice recognition means recognizes by voice is the first. Enter in the function part,
When the voice recognition mode is the second voice recognition mode, the command that causes the second voice recognition means to execute the voice recognition operation and the first voice recognition means recognizes the voice is given priority. A voice recognition system characterized in that a command recognized by the first voice recognition means is input to the first functional unit only when the priority command is registered in the command storage means.
前記音声認識動作制御手段は、前記第1の音声認識モードにあるときに、ユーザからの所定の入力が発生したときに、前記音声認識モードを前記第2の音声認識モードに切り替え、前記第2の音声認識モードにあるときに、前記第2の音声認識手段の前記音声認識動作が完了したときに、前記音声認識モードを前記第1の音声認識モードに切り替えることを特徴とする音声認識システム。 The voice recognition system according to claim 1.
The voice recognition operation control means switches the voice recognition mode to the second voice recognition mode when a predetermined input from the user occurs while in the first voice recognition mode, and the second voice recognition mode. A voice recognition system comprising switching the voice recognition mode to the first voice recognition mode when the voice recognition operation of the second voice recognition means is completed while in the voice recognition mode.
前記第2の音声認識手段は、前記音声認識動作として、音声認識サービスを提供する外部の音声認識サーバに通信を介して接続し、接続した音声認識サーバの音声認識サービスを利用して、前記マイクロフォンで収音した音声の音声認識を行うことを特徴とする音声認識システム。 The voice recognition system according to claim 1 or 2.
As the voice recognition operation, the second voice recognition means connects to an external voice recognition server that provides a voice recognition service via communication, and uses the voice recognition service of the connected voice recognition server to use the microphone. A voice recognition system characterized by performing voice recognition of the voice picked up by.
当該音声認識システムは、自動車に搭載されたシステムにおいて音声入力に用いられる音声認識システムであることを特徴とする音声認識システム。 The voice recognition system according to claim 1, 2 or 3.
The voice recognition system is a voice recognition system characterized by being a voice recognition system used for voice input in a system mounted on an automobile.
自動車に搭載された車載システムと、当該車載システムと選択的に接続されるポータブル装置を有し、
前記車載システムは、前記マイクロフォンと前記第1の音声認識手段と前記第1の機能部と前記優先コマンド記憶手段と前記音声認識動作制御手段とを有し
前記ポータブル装置は、前記第2の音声認識手段と前記第2の機能部を有し、
前記音声認識動作制御手段は、前記音声認識モードが前記第2の音声認識モードにあるときに、前記マイクロフォンで収音した音声を前記車載システムから前記ポータブル装置に転送し、
前記第2の音声認識手段は、前記車載システムから前記ポータブル装置に転送された音声を音声認識する音声認識動作を行うことを特徴とする音声認識システム。 The voice recognition system according to claim 1, 2 or 3.
It has an in-vehicle system mounted on an automobile and a portable device selectively connected to the in-vehicle system.
The in-vehicle system includes the microphone, the first voice recognition means, the first functional unit, the priority command storage means, and the voice recognition operation control means, and the portable device includes the second voice recognition. It has means and the second functional unit, and has
The voice recognition operation control means transfers the voice picked up by the microphone from the in-vehicle system to the portable device when the voice recognition mode is in the second voice recognition mode.
The second voice recognition means is a voice recognition system characterized by performing a voice recognition operation for voice recognition of voice transferred from the vehicle-mounted system to the portable device.
前記優先コマンド記憶手段には、前記第1の音声認識手段が音声認識するコマンドのうちの、当該コマンドが実行を命令する処理が前記自動車の安全確保に関わる処理であるコマンドが、少なくとも、優先コマンドとして登録されていることを特徴とする音声認識システム。 The voice recognition system according to claim 4 or 5 .
The priority command storage means includes at least a priority command among the commands for voice recognition by the first voice recognition means, in which the process in which the command commands execution is a process related to ensuring the safety of the vehicle. A speech recognition system characterized by being registered as.
前記優先コマンド記憶手段には、前記第1の音声認識手段が音声認識するコマンドのうちの、当該コマンドを表す音声を音声認識した音声認識結果に対する有意な処理が当該時点において前記第2の機能部に規定されていないコマンドが、少なくとも優先コマンドとして登録されていることを特徴とする音声認識システム。 The voice recognition system according to claim 1, 2, 3, 4, 5 or 6.
In the priority command storage means, among the commands for which the first voice recognition means recognizes the voice, significant processing for the voice recognition result of voice recognition of the voice representing the command is performed in the second functional unit at that time. A speech recognition system characterized in that commands not specified in are registered as at least priority commands.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017214359A JP6996944B2 (en) | 2017-11-07 | 2017-11-07 | Speech recognition system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2017214359A JP6996944B2 (en) | 2017-11-07 | 2017-11-07 | Speech recognition system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2019086643A JP2019086643A (en) | 2019-06-06 |
| JP6996944B2 true JP6996944B2 (en) | 2022-01-17 |
Family
ID=66762889
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017214359A Active JP6996944B2 (en) | 2017-11-07 | 2017-11-07 | Speech recognition system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6996944B2 (en) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014068788A1 (en) | 2012-11-05 | 2014-05-08 | 三菱電機株式会社 | Speech recognition device |
-
2017
- 2017-11-07 JP JP2017214359A patent/JP6996944B2/en active Active
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2014068788A1 (en) | 2012-11-05 | 2014-05-08 | 三菱電機株式会社 | Speech recognition device |
| US20150279363A1 (en) | 2012-11-05 | 2015-10-01 | Mitsubishi Electric Corporation | Voice recognition device |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2019086643A (en) | 2019-06-06 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US9824685B2 (en) | Handsfree device with continuous keyword recognition | |
| CN109804429B (en) | Multimodal Conversation in Motor Vehicles | |
| EP1493993A1 (en) | Method and device for controlling a speech dialog system | |
| JP6531776B2 (en) | Speech dialogue system and speech dialogue method | |
| US20140214414A1 (en) | Dynamic audio processing parameters with automatic speech recognition | |
| JP4703688B2 (en) | Utterance right adjustment system and utterable equipment | |
| KR102331793B1 (en) | Use structured audio output to detect playback and/or adapt to unaligned playback on wireless speakers | |
| US20160080861A1 (en) | Dynamic microphone switching | |
| CN102582523A (en) | Interior rearview mirror with voice recognition function and voice recognition method | |
| US20210233516A1 (en) | Agent system, agent server, and computer readable recording medium | |
| JP2017138536A (en) | Voice processing device | |
| KR101724748B1 (en) | Speech recognition apparatus for vehicle | |
| CN106537491A (en) | Motor vehicle device operation with operating correction | |
| CN111557030A (en) | Method, device and computer-readable storage medium with instructions for processing a speech input, motor vehicle with speech processing and user terminal | |
| KR101217521B1 (en) | Method for providing text/voice conversion for car avn | |
| JP2008309864A (en) | Voice recognition device and voice recognition method | |
| JP6996944B2 (en) | Speech recognition system | |
| JP2018116206A (en) | Speech recognition apparatus, speech recognition method, and speech recognition system | |
| JP2018116130A (en) | In-vehicle voice processing unit and in-vehicle voice processing method | |
| CN109951764B (en) | Vehicle-mounted sound output device, sound output device, sound output method and medium | |
| WO2014141574A1 (en) | Voice control system, voice control method, program for voice control, and program for voice output with noise canceling | |
| US20210233538A1 (en) | Agent system, terminal device, and computer readable recording medium | |
| JP2020060730A (en) | Voice recognition device | |
| JP2012037820A (en) | Voice recognition apparatus, voice recognition apparatus for picking, and voice recognition method | |
| US20020183049A1 (en) | On-vehicle communication device and a method for communicating on-vehicle |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200827 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210709 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211012 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211214 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211216 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6996944 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |