JP3755941B2 - Spoken dialogue apparatus and dialogue method - Google Patents
Spoken dialogue apparatus and dialogue method Download PDFInfo
- Publication number
- JP3755941B2 JP3755941B2 JP29589696A JP29589696A JP3755941B2 JP 3755941 B2 JP3755941 B2 JP 3755941B2 JP 29589696 A JP29589696 A JP 29589696A JP 29589696 A JP29589696 A JP 29589696A JP 3755941 B2 JP3755941 B2 JP 3755941B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- speech recognition
- control unit
- unit
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【0001】
【発明の属する技術分野】
本発明は、音声認識技術と音声合成技術を用いた音声対話装置及び対話方法に関するものである。
【0002】
【従来の技術】
人との音声対話が可能な装置において、選択しようとするある目的の項目を含む集団に含まれている項目の数が音声認識部の処理能力を超えるような場合、目的の項目名を音声入力する前に、予め目的の項目を含む部分集団を表す言葉を入力して、検索の対象をその集団に特定し、音声認識の対象となる単語数を絞ることが必要である。
【0003】
例えば、音声対話機能を備えたカーナビゲーション装置において実現されている音声対話を用いた目的地設定のための項目検索機能を用いてゴルフ場を検索する場合、検索の対象となるゴルフ場の項目数の総和が日本全国で2000施設あり、また音声認識部の最大処理能力が100単語であるとすると、日本全国のゴルフ場名を音声認識対象として一度に検索することは不可能である。
【0004】
そこで、県毎にカテゴリ分けした場合、各県毎の施設数が100以内になるとすると、使用者に対し目的のゴルフ場名を入力させる前に県名を入力させ、音声認識対象を県毎に絞り込んでから目的の施設名を発声させることにより、全項目数が音声認識部の最大処理能力を超える場合でも、その全項目の中から目的の施設名を検索することが可能となる。
【0005】
従来、このような音声対話装置としては、例えば、図7及び図8に示すようなものがあった。図7は従来の音声対話装置の構成を示すブロック図、図8は図7に示す音声対話装置による音声対話の流れを示すフローチャートである。
【0006】
まず、図7を参照して、従来の音声対話装置の構成について説明する。図7において、303は音声信号を入力し、入力音声信号を分析して特徴パラメータを求める音響分析部、304は対話制御部305の指令により入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識部、305は音声対話を制御する対話制御部、306は使用者の操作及び音声認識の結果に基づいた音声対話の流れの情報を格納する対話制御用情報格納部である。
【0007】
また、307は音声認識に用いられる辞書を格納する音声認識辞書格納部、308は対話制御部305の指令により音声認識辞書格納部307に格納されている辞書から音声認識に用いる辞書を選択する辞書選択部、309は対話制御部305の指令により、メッセージ辞書格納部310に格納されているメッセージの中から使用者に対して音声により提示すべきメッセージを選択するメッセージ選択部、310は使用者に対して提示するメッセージを格納するメッセージ辞書格納部である。
【0008】
次に、図7及び図8を参照して、上記従来の音声対話装置の動作について説明する。なお、以下に示す対話の流れは図8を参照し、音声認識の対話に使用する辞書の内容は図4乃至図6を参照する。図4は音声対話装置において検索項目のジャンルを音声認識するための音声認識辞書の内容を示す図、図5は音声対話装置においてゴルフ場のある県名を音声認識するための音声認識辞書の内容を示す図、図6は音声対話装置において静岡県のゴルフ場を音声認識するための音声認識辞書の内容を示す図である。
【0009】
まず、ユーザーの指示により音声対話が開始されると、対話制御部305は辞書選択部308に対し検索のジャンルを表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部308は音声認識辞書格納部307から図4に示すような、検索のジャンルを表す言葉で構成された音声認識辞書の作成を行う。
【0010】
次に、対話制御部305はメッセージ選択部309に対し、使用者に対して施設の種類を表す言葉の発声を促すメッセージを出力することを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310から「施設の種類をどうぞ」というメッセージを選択して使用者に音声で提示する。
【0011】
次に、対話制御部305は音声認識部304に対し、辞書選択部308が作成した辞書を用いて音声認識を実行することを指令する。先の「施設の種類をどうぞ」というメッセージを聞いた使用者は検索したいジャンルを表す言葉、この場合「ゴルフ場」を発声して音声対話装置に音声信号を入力する。入力された音声信号は音響分析部303において特徴パラメータが求められ、音声認識部304で認識される。
【0012】
認識結果として、「ゴルフ場」が検索のジャンルとして選ばれる。この結果を対話制御部305が記憶する。次に、対話制御部305は辞書選択部308に検索の対象の県名を表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部308は音声認識辞書格納部307から図5に示すような、検索の対象の県名を表す言葉で構成された音声認識辞書の作成を行う。
【0013】
次に、対話制御部305はメッセージ選択部309に対し、使用者に対して検索の対象の県名を表す言葉の発声をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310から
「ゴルフ場のある県名をどうぞ」というメッセージを選択し、使用者に音声で提示する。
【0014】
次に、対話制御部305は、音声認識部304に対し、辞書選択部308が作成した辞書を用いて音声認識を実行することを指令すると、「ゴルフ場のある県名をどうぞ」というメッセージを聞いた使用者は検索の対象となる県を表す言葉、この場合「静岡県」を発声して音声対話装置に入力する。入力された音声信号は音響分析部303で特徴パラメータが求められ、音声認識部304で認識され、認識の結果として静岡県」が検索対象の県名して選ばれる。
【0015】
この結果を対話制御部305が記憶する。対話制御部305は先の音声認識の結果の「静岡県」と、その前に行われた音声認識の結果である「ゴルフ場」とを組み合わせ、辞書選択部308に対し、静岡県のゴルフ場の名称で構成された辞書の作成を指令する。この指令により、辞書選択部308は音声認識辞書格納部307から図6に示すような、静岡県のゴルフ場の名称で構成された音声認識辞書の作成を行う。
【0016】
次に、対話制御部305はメッセージ選択部309に対し、使用者に対して検索の対象である静岡県のゴルフ場の名称を表す言葉の発声をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310から 「ゴルフ場の名称をどうぞ」というメッセージを選択し、使用者に音声で提示する。
【0017】
次に、対話制御部305は、音声認識部304に対し、辞書選択部308が作成した辞書を用いて音声認識を実行することを指令すると、「ゴルフ場の名称をどうぞ」というメッセージを聞いた使用者は検索の対象となるゴルフ場の名称を表す言葉、この場合「○○カントリークラブ」を発声して音声対話装置に入力する。入力された音声信号は音響分析部303で特徴パラメータが求められ、音声認識部304で認識され、認識の結果として○○カントリークラブ」が選ばれ、検索対象が確定する。
【0018】
次に、対話制御部305はメッセージ選択部309に対し、確定した検索対象「○○カントリークラブ」をユーザーに提示することをを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310に格納されている内容と「○○カントリークラブ」とを組み合わせ、「○○カントリークラブ付近の地図を表示します。」というメッセージを作成して使用者に対し音声で提示する。そして、その地図が表示される。以上の動作により、図8に示した対話の流れは完了する。
【0019】
【発明が解決しようとする課題】
しかしながら、上記の従来広く用いられている音声認識装置では、複数の入力を蓄積する手段を持たないため、先に入力した言葉によって、次に実施すべき音声認識の対象を絞り込むことにより目的の項目を検索するという方法が採られるため、上記のようなゴルフ場の検索の例では、その対話の流れが図8に示すようなものに固定されてしまうことになる。
【0020】
一般に、音声対話装置の分野では、音声対話装置の使用者に対し違和感とかストレスを与えない、自然な音声対話を提供することが要求されている。上記の例では、ゴルフ場の名称が使用者の入力する情報の主体であり、県名は補足情報である。そのため、図8に示されるように、補足情報を先に入力させ、主体となる情報をあとから入力させると、逆の場合に比べ、主体となる情報を先に入力することができないので、使用者に対し違和感を与えがちになるという問題があった。
【0021】
本発明は、上記従来の問題を解決するためになされたもので、音声認識部の性能限界により認識語彙数が限定されることから、まず補足情報を先に入力させ認識語彙数を絞り込んだ後に、主体となる情報を入力させるという対話の流れにせざるを得ないような場合でも、同一性能の音声認識部を用いて、主体となる情報を先に入力した後に補足情報を入力するという対話の流れを実現することができ、発声順序を変更して目的の項目を検索しうる音声対話装置及び対話方法を提供することを目的とする。
【0022】
【課題を解決するための手段】
本発明による音声対話装置及び対話方法は、入力された音声信号を入力音声信号の形でまたは入力音声信号を分析した結果の特徴パラメータの形で蓄積する蓄積手段を設け、音声信号を入力した順序を入れ替えて音声認識することにより、後で発声した言葉の音声認識結果から、前に発声した言葉に対する音声認識の対象を絞るようにしたものである。
【0023】
本発明によれば、同一性能の音声認識部を用いて、主体となる情報を先に入力(発声)した後に補足情報を入力した場合でも、後で発声した言葉の音声認識結果から前に発声した言葉に対する音声認識の対象を絞ることができるようにしたことにより、使用者に対し違和感を与えない音声対話装置及び対話方法が得られる。
【0024】
【発明の実施の形態】
本発明の請求項1に記載の発明は、対話制御部の指令により入力音声信号を蓄積するかまたは分析するか、蓄積した入力音声信号を分析するかの切り換えを行う入力音声制御手段と、対話制御部の指令により入力音声信号を蓄積する入力音声蓄積手段と、入力された音声信号を分析して特徴パラメータを求める音響分析手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、音声対話を制御する対話制御部と、対話制御部の指令により格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、入力した音声信号を入力音声蓄積手段に蓄積し、入力音声信号の順序を入れ替えて音声認識するようにしたものであり、入力した音声信号の順序を入れ替えて音声認識することにより、発声順序を変更して目的の項目を検索しうる音声対話装置が得られるという作用を有する。
【0025】
本発明の請求項2に記載の発明は、入力された音声信号を分析してその特徴パラメータを求める音響分析手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータを蓄積するかまたは音声認識するか、蓄積していた特徴パラメータを音声認識するかの切り換えを行うパラメータ制御手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータを蓄積するパラメータ蓄積手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、音声対話を制御する対話制御部と、対話制御部の指令によりメッセージ辞書格納手段に格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、入力した音声信号を分析して得られた特徴パラメータをパラメータ蓄積手段に蓄積し、特徴パラメータの順序を入れ替えて音声認識するようにしたものであり、入力した音声信号の特徴パラメータの順序を入れ替えて音声認識することにより、発声順序を変更して目的の項目を検索しうる音声対話装置が得られるという作用を有する。
【0026】
本発明の請求項3に記載の発明は、対話による音声信号を入力し、入力した音声信号を分析して特徴パラメータを求め、前記入力した音声信号かまたは該音声信号から求められた特徴パラメータを蓄積し、制御手段の制御による対話の流れに従い格納されているメッセージから提示すべきメッセージを選択して提示し、前記蓄積した音声信号かまたは特徴パラメータの順序を前記対話の流れとは異なるように入れ換え音声認識辞書と照合して音声認識を行うようにしたものであり、入力した音声信号かまたは音声信号の特徴パラメータの順序を入れ替えて音声認識することにより、発声順序を変更して目的の項目を検索しうる音声対話方法が得られるという作用を有する。
【0027】
以下、添付図面、図1乃至図6に基づき、本発明の実施の形態を詳細に説明する。図1は本発明の第1の実施の形態における音声対話装置の構成を示すブロック図、図2は本発明の第2の実施の形態における音声対話装置の構成を示すブロック図、図3は図1及び図2に示す音声対話装置による音声対話の流れを示すフローチャートを示す図、図4は音声対話装置において検索項目のジャンルを音声認識するための音声認識辞書の内容を示す図、図5は音声対話装置においてゴルフ場のある県名を音声認識するための音声認識辞書の内容を示す図、図6は音声対話装置において静岡県のゴルフ場を音声認識するための音声認識辞書の内容を示す図である。
【0028】
(実施の形態1)
まず、図1を参照して、本発明の第1の実施の形態における音声対話装置の構成について詳細に説明する。図1において、101は対話制御部105の指令により入力音声信号を蓄積するか、入力音声信号を分析するか、または蓄積した入力音声信号を分析するかの切り換えを行う入力音声制御部、102は対話制御部105の指令により入力音声信号を蓄積する入力音声蓄積部である。
【0029】
また、103は入力された音声信号を分析して特徴パラメータを求める音響分析部、104は対話制御部105の指令により、入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識部、105は音声対話を制御する対話制御部、106は使用者の操作とか音声認識の結果に従って決まる音声対話の流れに対する情報を格納する対話制御用情報格納部、107は音声認識に用いられる辞書を格納する音声認識辞書格納部である。
【0030】
また、108は対話制御部105の指令により、音声認識辞書格納部107に格納されている辞書から音声認識に用いる辞書を選択する辞書選択部、109は対話制御部105の指令により、メッセージ辞書格納部110に格納されているメッセージの中から使用者に対して提示すべきメッセージを選択するメッセージ選択部、110は使用者に対して音声で提示するメッセージを格納するメッセージ辞書格納部である。
【0031】
尚、入力音声制御部101、入力音声蓄積部102、音響分析部103、音声認識部104、対話制御部105及びメッセージ選択部109はそれぞれ入力音声制御手段、入力音声蓄積手段、音響分析手段、音声認識手段、対話制御手段及びメッセージ選択手段に対応する。
【0032】
次に、図1及び図3乃至図6を参照して、本発明の第1の実施の形態における音声対話装置の動作について、図3に示す対話の流れを例に詳細に説明する。
まず、ユーザーの指示により音声対話が開始されると、対話制御部105は辞書選択部108に対し検索のジャンルを表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部108は音声認識辞書格納部107から図4に示すような、検索のジャンルを表す言葉で構成された音声認識辞書の作成を行う。
【0033】
次に、対話制御部105はメッセージ選択部109に対し、使用者に対して施設の種類を表す言葉の発声を促すメッセージを出力することを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110から「どのジャンルを検索しますか?」というメッセージを選択し、使用者に音声で提示する。(尚、使用者に対するこの提示は音声によるほか、表示装置に対する表示をも併用することもできる、以下同じ)。
【0034】
次に、対話制御部105は、音声認識部104に対し辞書選択部108が作成した辞書を用いて音声認識を実行することを指令するとともに、入力音声制御部101に対し、入力音声信号を音響分析部へ出力することを指令する。先の「どのジャンルを検索しますか?」というメッセージを聞いた使用者は検索を希望するジャンルを表す言葉、この場合「ゴルフ場」を発声して音声対話装置に入力する。入力された音声信号は、入力音声制御部101を経由し、音響分析部103においてその特徴パラメータが求められ、音声認識部104で認識される。
【0035】
認識結果として、「ゴルフ場」が検索のジャンルとして選ばれる。対話制御部105はこの結果を記憶する。次に、対話制御部105は、メッセージ選択部109に対し先の音声認識の結果である「ゴルフ場」の名称の発声を使用者に対して促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110から「何というゴルフ場ですか?」というメッセージを選択して使用者に音声で提示する。
【0036】
次に、対話制御部105は、入力音声制御部101及び入力音声蓄積部102に対し、入力した入力音声信号を蓄積することを指令する。入力音声制御部101は、この指令により入力した音声信号を音声蓄積部102に出力し、入力音声蓄積部102は入力音声信号の蓄積を開始する。
【0037】
また、先に提示された「何というゴルフ場ですか?」というメッセージを聞いた使用者は検索を希望するゴルフ場を表す言葉、この場合「○○カントリークラブ」を発声し、音声対話装置に入力する。入力された音声である「○○カントリークラブ」は入力音声制御部101を経由して、入力音声蓄積部102に蓄積される。
【0038】
この蓄積が終了すると、対話制御部105は辞書選択部108に対し検索の対象とする県名を表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部108は音声認識辞書格納部107から図5に示すような、検索対象の県名を表す言葉で構成された音声認識辞書の作成を行う。
【0039】
次に、対話制御部105はメッセージ選択部109に対し、使用者に対して検索の対象の県名を表す言葉の発声を促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110から「どの県にありますか?」というメッセージを選択し、使用者に音声で提示する。
【0040】
次に、対話制御部105は、音声認識部104に対し、辞書選択部108が作成した辞書を用いて音声認識を実行することを指令するとともに、入力音声制御部101に対し、入力音声信号を音響分析部103へ出力することを指令する。先の「どの県にありますか?」というメッセージを聞いた使用者は検索の対象となる県を表す言葉、この場合「静岡県」を発声し、音声対話装置に入力する。入力された音声信号「静岡県」は入力音声制御部101を経由して、音響分析部103で特徴パラメータが求められ、音声認識部104で認識され、その認識結果として、「静岡県」が検索対象の県名して選ばれる。
【0041】
対話制御部105は、その結果を記憶するとともに、音声認識の結果の「静岡県」と、その前に行われた音声認識の結果である「ゴルフ場」とを組み合わせて、辞書選択部108に対し、静岡県のゴルフ場の名称で構成された辞書の作成を指令する。この指令により、辞書選択部108は音声認識辞書格納部107から図6に示すような、静岡県のゴルフ場の名称で構成された音声認識辞書の作成を行う。
【0042】
次に、対話制御部105は、入力音声制御部101及び入力音声蓄積部102に対し、先に蓄積した使用者の発声である「○○カントリークラブ」の音声信号を音響分析部103に出力することを指令する。この指令により音声蓄積部102は蓄積された音声信号を入力音声制御部101に出力し、入力音声制御部101は音響分析部103に対してその入力音声信号の出力を開始する。この音声信号が、音響分析部103で分析されてその特徴パラメータが求められ、音声認識部104で認識される。その認識結果から、図6に示すような「○○カントリークラブ」が選ばれて検索対象が確定する。
【0043】
次に、対話制御部105はメッセージ選択部109に対し、確定した検索対象「○○カントリークラブ」をユーザーに対し音声で提示することをを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110に格納されている内容と「○○カントリークラブ」を組み合わせ、「○○カントリークラブ付近の地図を表示します。」というメッセージを作成して使用者に対し音声で提示する。そして、その地図が表示される。以上の動作により、図3に示した対話の流れが完了する。
【0044】
(実施の形態2)
次に、図2を参照して、本発明の第2の実施の形態における音声対話装置の構成について詳細に説明する。図2において、201は入力された音声信号を分析してその特徴パラメータを求める音響分析部、202は、対話制御部205の指令により、入力音声信号を分析した結果得られた特徴パラメータを蓄積するか、入力音声信号を分析した結果得られた特徴パラメータを音声認識するか、または蓄積していた特徴パラメータを音声認識するかの切り換えを行うパラメータ制御部である。
【0045】
また、203は対話制御部205の指令により、入力音声信号を分析して得られた特徴パラメータを蓄積するパラメータ蓄積部、204は対話制御部205の指令により、入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識部、205は音声対話を制御する対話制御部、206は使用者の操作とか音声認識の結果に従って行われる音声対話の流れの情報を格納する対話制御用情報格納部、207は音声認識に用いられる辞書を格納する音声認識辞書格納部である。
【0046】
また、208は対話制御部の指令により、音声認識辞書格納部に格納されている辞書から、音声認識に用いる辞書を選択する辞書選択部、209は対話制御部の指令により、メッセージ辞書格納部に格納されているメッセージの中から使用者に対して提示すべきメッセージを選択するメッセージ選択部、210は使用者に対して提示するメッセージを格納するメッセージ辞書格納部である。
【0047】
尚、音響分析部201、パラメータ制御部202、パラメータ蓄積部203、音声認識部204、対話制御部205及びメッセージ選択部209はそれぞれ音響分析手段、パラメータ制御手段、パラメータ蓄積手段、音声認識手段、対話制御手段及びメッセージ選択手段に対応する。
【0048】
次に、図2及び図3乃至図6を参照して、本発明の第2の実施の形態における音声対話装置の動作について、図3に示す対話の流れを例に詳細に説明する。
まず、ユーザーの指示により音声対話が開始されると、対話制御部205は、辞書選択部208に対し検索のジャンルを表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部208は音声認識辞書格納部207から図4に示すような、検索のジャンルを表す言葉で構成された音声認識辞書の作成を行う。
【0049】
次に、対話制御部205はメッセージ選択部209に対し、使用者に対して施設の種類を表す言葉の発声を促すメッセージを出力することを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210から「どのジャンルを検索しますか?」というメッセージを選択し、使用者に対し音声で提示する。
【0050】
そこで、対話制御部205は、音声認識部204に対し、辞書選択部208が作成した辞書を用いて音声認識を実行することを指令するとともに、パラメータ制御部202に対し、音響分析部201において入力音声信号を分析した結果得られた特徴パラメータを音声認識部204へ出力することを指令する。先の「どのジャンルを検索しますか?」というメッセージを聞いた使用者は検索を希望するジャンルを表す言葉、この場合「ゴルフ場」を発声して音声対話装置に入力する。
【0051】
入力された音声信号「ゴルフ場」は、音響分析部201で分析されて特徴パラメータに変換され、パラメータ制御部202を経由し、音響分析部201で求めた特徴パラメータが音声認識部204で認識される。認識結果として、「ゴルフ場」が検索のジャンルとして選ばれる。この結果は対話制御部205に記憶される。次に、対話制御部205はメッセージ選択部209に対し、先の音声認識の結果であるゴルフ場の名称の発声を使用者に対して促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210から「何というゴルフ場ですか?」というメッセージを選択して、使用者に音声で提示する。
【0052】
次に、対話制御部205はパラメータ制御部202とパラメータ蓄積部203に対し、音響分析部201において、入力音声信号を分析した結果得られた特徴パラメータの蓄積を指令する。この指令により、パラメータ制御部202は入力された音声信号をパラメータ蓄積部203に出力し、入力パラメータ蓄積部203は入力音声信号を分析して得られた特徴パラメータの蓄積を開始する。
【0053】
また、先に提示された「何というゴルフ場ですか?」というメッセージを聞いた使用者は検索を希望するゴルフ場を表す言葉、この場合は「○○カントリークラブ」を発声して音声対話装置に入力する。入力された音声信号「○○カントリークラブ」は音響分析部201において分析されて特徴パラメータに変換され、パラメータ制御部202を経由して、パラメータ蓄積部203に蓄積される。
【0054】
この蓄積が終了すると、対話制御部205は辞書選択部208に対し検索の対象の県名を表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部208は音声認識辞書格納部207から図5に示すような、検索の対象の県名を表す言葉で構成された音声認識辞書の作成を行う。
【0055】
次に、対話制御部205はメッセージ選択部209に対し、使用者に対して検索の対象の県名を表す言葉の発声を促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210から「どの県にありますか?」というメッセージを選択して、使用者に音声で提示する。
【0056】
次に、対話制御部205は、音声認識部204に対し、辞書選択部208が作成した辞書を用いて音声認識を実行することを指令するとともに、パラメータ制御部202に対し、入力音声信号を音響分析部201で分析して得られた特徴パラメータを音声認識部204へ出力することを指令する。
【0057】
先の「どの県にありますか?」というメッセージを聞いた使用者は検索の対象となる県を表す言葉、この場合は「静岡県」を発声し、音声対話装置に入力する。入力された音声信号「静岡県」は音響分析部201で分析されて特徴パラメータに変換され、パラメータ制御部202を経由して、音響分析部201で求められた特徴パラメータが音声認識部204で認識される。
【0058】
認識結果として、「静岡県」が検索対象の県名して選ばれる。この結果は対話制御部205に記憶される。対話制御部205は先の音声認識の結果の「静岡県」と、その前に行われた音声認識の結果である「ゴルフ場」とを組み合わせ、辞書選択部208に対し、静岡県のゴルフ場の名称で構成された辞書の作成を指令する。この指令により、辞書選択部208は音声認識辞書格納部207から図6に示すような、静岡県のゴルフ場の名称で構成された音声認識辞書の作成を行う。
【0059】
次に、対話制御部205は、パラメータ制御部202及びパラメータ蓄積部203に対し、先に蓄積した使用者の発声による「○○カントリークラブ」の特徴パラメータを音声認識部204へ出力することを指令する。この指令により、パラメータ蓄積部203は、蓄積された特徴パラメータをパラメータ制御部202に出力し、パラメータ制御部202はその特徴パラメータの音声認識部204に対する出力を開始する。この特徴パラメータは、音声認識部204で認識され、その認識の結果として、「○○カントリークラブ」が選ばれて検索対象が確定する。
【0060】
次に、対話制御部205はメッセージ選択部209に対し、確定した検索対象「○○カントリークラブ」をユーザーに提示することをを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210に格納されている内容と「○○カントリークラブ」を組み合わせ、「○○カントリークラブ付近の地図を表示します。」というメッセージを作成して使用者に対し音声で提示する。そして、その地図が表示される。以上の動作により、図3に示した対話の流れが完了する。
【0061】
【発明の効果】
本発明は、以上のように構成し、特に、入力音声信号を一時蓄積する入力音声蓄積部かまたは入力音声信号を分析した結果の特徴パラメータを一時蓄積するパラメータ蓄積部を備え、後から発声した言葉の音声認識結果から、前に発声した言葉に対する認識対象の語彙を絞って音声認識できるようにしたことにより、同じ性能の音声認識部を用いて、主体となる情報を先に入力した後補足情報を入力するという対話の流れを実現することができ、発声順序を変更して目的の項目を検索しうる、使用者に対してより使い易い音声対話装置及び対話方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声対話装置の構成を示すブロック図
【図2】本発明の第2の実施の形態における音声対話装置の構成を示すブロック図
【図3】図1及び図2に示す音声対話装置による音声対話の流れを示すフローチャートを示す図
【図4】音声対話装置において検索項目のジャンルを音声認識するための音声認識辞書の内容を示す図
【図5】音声対話装置においてゴルフ場のある県名を音声認識するための音声認識辞書の内容を示す図
【図6】音声対話装置において静岡県のゴルフ場を音声認識するための音声認識辞書の内容を示す図
【図7】従来の音声対話装置の構成を示すブロック図
【図8】図7に示す音声対話装置による音声対話の流れを示すフローチャート
【符号の説明】
101 入力音声制御部
102 入力音声蓄積部
103 音響分析部
104 音声認識部
105 対話制御部
106 対話制御用情報格納部
107 音声認識辞書格納部
108 辞書選択部
109 メッセージ選択部
110 メッセージ辞書格納部
201 音響分析部
202 パラメータ制御部
203 パラメータ蓄積部
204 音声認識部
205 対話制御部
206 対話制御用情報格納部
207 音声認識辞書格納部
208 辞書選択部
209 メッセージ選択部
210 メッセージ辞書格納部
303 音響分析部
304 音声認識部
305 対話制御部
306 対話制御用情報格納部
307 音声認識辞書格納部
308 辞書選択部
309 メッセージ選択部
310 メッセージ辞書格納部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice dialogue apparatus and a dialogue method using voice recognition technology and voice synthesis technology.
[0002]
[Prior art]
If the number of items included in the group including the target item to be selected exceeds the processing capacity of the voice recognition unit in a device capable of voice interaction with humans, the target item name is input by voice. Before doing so, it is necessary to input words representing a subgroup including the target item in advance, specify the search target as the group, and narrow down the number of words to be subjected to speech recognition.
[0003]
For example, when searching for a golf course using an item search function for setting a destination using a voice dialog realized in a car navigation device having a voice dialog function, the number of golf course items to be searched If there are 2000 facilities throughout Japan and the maximum processing capacity of the speech recognition unit is 100 words, it is impossible to search golf course names all over Japan as speech recognition targets at once.
[0004]
Therefore, when categorizing by prefecture, if the number of facilities in each prefecture is within 100, let the user input the name of the prefecture before inputting the target golf course name, and set the speech recognition target for each prefecture. By making the target facility name uttered after narrowing down, even if the total number of items exceeds the maximum processing capacity of the voice recognition unit, the target facility name can be searched from all the items.
[0005]
Conventionally, as such a voice interactive apparatus, there have been those shown in FIGS. 7 and 8, for example. FIG. 7 is a block diagram showing the configuration of a conventional voice dialogue apparatus, and FIG. 8 is a flowchart showing the flow of voice dialogue by the voice dialogue apparatus shown in FIG.
[0006]
First, with reference to FIG. 7, the configuration of a conventional voice interactive apparatus will be described. In FIG. 7, 303 is an acoustic analysis unit that inputs a speech signal and analyzes the input speech signal to obtain a feature parameter, and 304 is a feature parameter and speech obtained by analyzing the input speech signal according to a command from the dialogue control unit 305. A speech recognition unit that performs speech recognition by collating with a recognition dictionary, 305 is a dialogue control unit that controls voice dialogues, and 306 is a dialogue that stores information on the flow of voice dialogues based on user operations and the results of voice recognition. It is a control information storage unit.
[0007]
Reference numeral 307 denotes a speech recognition dictionary storage unit that stores a dictionary used for speech recognition. Reference numeral 308 denotes a dictionary that selects a dictionary used for speech recognition from the dictionary stored in the speech recognition dictionary storage unit 307 in response to an instruction from the dialog control unit 305. A
[0008]
Next, with reference to FIGS. 7 and 8, the operation of the conventional voice interaction apparatus will be described. Note that the flow of the dialogue shown below refers to FIG. 8, and the contents of the dictionary used for the speech recognition dialogue refer to FIG. 4 to FIG. FIG. 4 is a diagram showing the contents of a voice recognition dictionary for voice recognition of the genre of the search item in the voice dialogue device, and FIG. 5 is the contents of the voice recognition dictionary for voice recognition of a prefecture name with a golf course in the voice dialogue device. FIG. 6 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a golf course in Shizuoka Prefecture in a voice dialogue apparatus.
[0009]
First, when a voice dialogue is started by a user instruction, the dialogue control unit 305 instructs the dictionary selection unit 308 to create a dictionary composed of words representing the genre of search. In response to this command, the dictionary selection unit 308 creates a speech recognition dictionary composed of words representing the genre of search as shown in FIG. 4 from the speech recognition dictionary storage unit 307.
[0010]
Next, the dialogue control unit 305 instructs the
[0011]
Next, the dialogue control unit 305 instructs the voice recognition unit 304 to execute voice recognition using the dictionary created by the dictionary selection unit 308. The user who has heard the message “please select the type of facility” speaks a word representing the genre to be searched for, in this case “golf course”, and inputs a voice signal to the voice interactive apparatus. A characteristic parameter of the input voice signal is obtained by the acoustic analysis unit 303 and recognized by the voice recognition unit 304.
[0012]
As a recognition result, “golf course” is selected as a search genre. The dialogue control unit 305 stores this result. Next, the dialogue control unit 305 instructs the dictionary selection unit 308 to create a dictionary composed of words representing prefecture names to be searched. In response to this command, the dictionary selection unit 308 creates a speech recognition dictionary composed of words representing prefecture names to be searched as shown in FIG. 5 from the speech recognition dictionary storage unit 307.
[0013]
Next, the dialogue control unit 305 instructs the
Select the message “Please enter the name of the prefecture where the golf course is located” and present it to the user by voice.
[0014]
Next, when the dialogue control unit 305 instructs the voice recognition unit 304 to execute voice recognition using the dictionary created by the dictionary selection unit 308, a message “Please enter the name of a prefecture with a golf course” is displayed. The user who has heard speaks a word representing the prefecture to be searched, in this case “Shizuoka Prefecture”, and inputs it to the voice interactive apparatus. A characteristic parameter is obtained from the input speech signal by the acoustic analysis unit 303 and recognized by the speech recognition unit 304. As a result of the recognition, “Shizuoka Prefecture” is selected as a search target prefecture name.
[0015]
The dialogue control unit 305 stores this result. The dialogue control unit 305 combines “Shizuoka Prefecture” as the result of the previous speech recognition with “Golf course” as the result of the speech recognition performed before that, Directs the creation of a dictionary composed of names. In response to this command, the dictionary selection unit 308 creates a speech recognition dictionary composed of names of golf courses in Shizuoka Prefecture as shown in FIG. 6 from the speech recognition dictionary storage unit 307.
[0016]
Next, the dialogue control unit 305 instructs the
[0017]
Next, when the dialogue control unit 305 instructs the voice recognition unit 304 to execute voice recognition using the dictionary created by the dictionary selection unit 308, the dialogue control unit 305 heard a message “Please name golf course”. The user utters a word representing the name of the golf course to be searched, in this case “XX country club”, and inputs it to the voice interactive apparatus. A characteristic parameter is obtained from the input voice signal by the acoustic analysis unit 303 and recognized by the voice recognition unit 304. As a result of recognition, “XX country club” is selected, and a search target is determined.
[0018]
Next, the dialogue control unit 305 instructs the
[0019]
[Problems to be solved by the invention]
However, since the above-described widely used speech recognition apparatuses do not have a means for storing a plurality of inputs, the target items can be reduced by narrowing down the target of speech recognition to be performed next by words that have been input first. Therefore, in the example of golf course search as described above, the flow of the dialogue is fixed as shown in FIG.
[0020]
In general, in the field of voice interactive devices, it is required to provide a natural voice dialogue that does not give a sense of discomfort or stress to the user of the voice interactive device. In the above example, the name of the golf course is the main body of information input by the user, and the prefecture name is supplementary information. Therefore, as shown in FIG. 8, if supplementary information is input first and main information is input later, the main information cannot be input first as compared to the reverse case. There was a problem that people tend to feel uncomfortable.
[0021]
The present invention has been made to solve the above-described conventional problems, and since the number of recognized vocabulary is limited by the performance limit of the speech recognition unit, first, after supplemental information is first input and the number of recognized vocabulary is narrowed down Even if there is no choice but to have the flow of dialogue to input the main information, the dialogue of inputting supplementary information after inputting the main information first using the voice recognition unit with the same performance. It is an object of the present invention to provide a voice dialogue apparatus and a dialogue method that can realize a flow and can search a target item by changing the utterance order.
[0022]
[Means for Solving the Problems]
The voice dialogue apparatus and the dialogue method according to the present invention are provided with accumulation means for accumulating the inputted voice signal in the form of the input voice signal or in the form of the characteristic parameter as a result of analyzing the input voice signal, and the order in which the voice signals are inputted. By recognizing and replacing the speech, the speech recognition target for the previously uttered word is narrowed down from the speech recognition result of the word uttered later.
[0023]
According to the present invention, even when supplementary information is input after first inputting (speaking) main information using a speech recognition unit having the same performance, the speech is uttered before from the speech recognition result of the words uttered later. By making it possible to narrow down the target of speech recognition for a given word, a speech dialogue apparatus and a dialogue method that do not give the user a sense of incongruity can be obtained.
[0024]
DETAILED DESCRIPTION OF THE INVENTION
According to the first aspect of the present invention, there is provided an input voice control means for switching whether to accumulate or analyze an input voice signal or to analyze an accumulated input voice signal according to a command from a dialogue control unit, Obtained by analyzing the input voice signal according to the command of the dialogue control unit, the input voice storage means for storing the input voice signal according to the command of the control unit, the acoustic analysis means for analyzing the input voice signal and obtaining the characteristic parameter A voice recognition means for performing voice recognition by collating the feature parameter with the voice recognition dictionary, a dialogue control unit for controlling the voice dialogue, and a message stored in response to a command from the dialogue control unit to the user. Consists of message selection means for selecting and outputting a message to be presented, storing the input voice signal in the input voice storage means, and recognizing the voice by changing the order of the input voice signals Is obtained by the so that, with the effect that by speech recognition out of sequence of the input speech signal, the speech dialogue system is obtained that can find the desired item by changing the utterance order.
[0025]
According to a second aspect of the present invention, an acoustic analysis means for analyzing an input voice signal and obtaining a characteristic parameter thereof, and a characteristic parameter obtained by analyzing the input voice signal according to a command from the dialogue control unit are provided. Parameter control means for switching between accumulation, voice recognition, or voice recognition of the accumulated feature parameter, and the feature parameter obtained by analyzing the input voice signal according to a command from the dialogue control unit A parameter accumulating unit, a voice recognition unit that performs voice recognition by comparing a feature parameter obtained by analyzing an input voice signal according to a command from the dialog control unit and a voice recognition dictionary, and a dialog control unit that controls the voice dialogue; The message to be presented to the user is selected and output from the messages stored in the message dictionary storage means according to the command of the dialogue control unit. Comprising the sage selection means, the feature parameters obtained by analyzing the input voice signal are stored in the parameter storage means, the voice is recognized by changing the order of the feature parameters, By recognizing the voice by changing the order of the feature parameters, there is an effect that a voice dialogue apparatus capable of searching for a target item by changing the utterance order is obtained.
[0026]
According to a third aspect of the present invention, an audio signal by dialogue is input, the input audio signal is analyzed to obtain a characteristic parameter, and the input audio signal or the characteristic parameter obtained from the audio signal is obtained. A message to be presented is selected from the stored messages according to the flow of dialogue under the control of the control means, and the order of the accumulated audio signal or feature parameter is different from that of the dialogue flow The speech recognition is performed by collating with the replacement speech recognition dictionary, and the target item can be changed by changing the order of speech by recognizing the speech by changing the order of the input speech signal or the feature parameters of the speech signal. It is possible to obtain a voice dialogue method that can search for
[0027]
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and FIGS. FIG. 1 is a block diagram showing the configuration of a voice interactive apparatus according to the first embodiment of the present invention, FIG. 2 is a block diagram showing the configuration of the voice interactive apparatus according to the second embodiment of the present invention, and FIG. FIG. 4 is a flowchart showing the flow of a voice dialogue by the voice dialogue apparatus shown in FIG. 1 and FIG. 2, FIG. 4 is a diagram showing the contents of a voice recognition dictionary for voice recognition of the genre of a search item in the voice dialogue apparatus, and FIG. FIG. 6 shows the contents of a voice recognition dictionary for voice recognition of a prefecture name with a golf course in the voice dialogue device. FIG. 6 shows the contents of the voice recognition dictionary for voice recognition of a golf course in Shizuoka prefecture in the voice dialogue device. FIG.
[0028]
(Embodiment 1)
First, with reference to FIG. 1, the configuration of the voice interactive apparatus according to the first embodiment of the present invention will be described in detail. In FIG. 1, 101 is an input voice control unit that switches between storing an input voice signal, analyzing an input voice signal, or analyzing a stored input voice signal in response to a command from the
[0029]
Also, 103 is an acoustic analysis unit that analyzes the input speech signal to obtain a feature parameter, and 104 is a collation between the feature parameter obtained by analyzing the input speech signal and the speech recognition dictionary according to a command from the
[0030]
Further, 108 is a dictionary selection unit that selects a dictionary to be used for speech recognition from a dictionary stored in the speech recognition
[0031]
The input
[0032]
Next, with reference to FIG. 1 and FIGS. 3 to 6, the operation of the voice interaction apparatus according to the first embodiment of the present invention will be described in detail with reference to the flow of the conversation shown in FIG.
First, when a voice dialogue is started in response to a user instruction, the
[0033]
Next, the
[0034]
Next, the
[0035]
As a recognition result, “golf course” is selected as a search genre. The
[0036]
Next, the
[0037]
In addition, the user who heard the message “What is the golf course?” Presented earlier utters a word indicating the golf course that the user wishes to search, in this case “XX Country Club”, and sends it to the voice interaction device. input. The input sound “XX country club” is stored in the input
[0038]
When the accumulation is completed, the
[0039]
Next, the
[0040]
Next, the
[0041]
The
[0042]
Next, the
[0043]
Next, the
[0044]
(Embodiment 2)
Next, with reference to FIG. 2, the configuration of the voice interactive apparatus according to the second embodiment of the present invention will be described in detail. In FIG. 2, 201 is an acoustic analysis unit that analyzes an input voice signal and obtains a feature parameter thereof, and 202 stores a feature parameter obtained as a result of analyzing the input voice signal in response to a command from the
[0045]
[0046]
208 is a dictionary selection unit that selects a dictionary to be used for speech recognition from a dictionary stored in the speech recognition dictionary storage unit according to a command from the dialog control unit, and 209 is a message dictionary storage unit that receives a command from the dialog control unit. A message selection unit 210 for selecting a message to be presented to the user from stored messages, and a message dictionary storage unit 210 for storing a message to be presented to the user.
[0047]
The
[0048]
Next, with reference to FIG. 2 and FIGS. 3 to 6, the operation of the voice interaction apparatus according to the second embodiment of the present invention will be described in detail with reference to the flow of interaction shown in FIG.
First, when a voice dialogue is started in accordance with a user instruction, the
[0049]
Next, the
[0050]
Therefore, the
[0051]
The input voice signal “golf course” is analyzed by the
[0052]
Next, the
[0053]
In addition, the user who heard the message “What is the golf course?” Presented earlier speaks the golf course that the user wishes to search for, in this case, “○ Country Club” and speaks a voice dialogue device. To enter. The input audio signal “XX country club” is analyzed by the
[0054]
When the accumulation is completed, the
[0055]
Next, the
[0056]
Next, the
[0057]
The user who heard the previous message “Where is it?” Utters a word representing the prefecture to be searched, in this case “Shizuoka Prefecture”, and inputs it to the voice interaction device. The input speech signal “Shizuoka Prefecture” is analyzed by the
[0058]
As a recognition result, “Shizuoka Prefecture” is selected as the name of the search target prefecture. This result is stored in the
[0059]
Next, the
[0060]
Next, the
[0061]
【The invention's effect】
The present invention is configured as described above, and particularly includes an input voice storage unit that temporarily stores an input voice signal or a parameter storage unit that temporarily stores characteristic parameters obtained as a result of analyzing the input voice signal, and uttered later. The speech recognition result of the word is used to narrow down the recognition target vocabulary for the previously uttered word, so that it can be recognized by using the speech recognition unit with the same performance before supplementing the main information. A dialogue flow of inputting information can be realized, and a voice dialogue device and a dialogue method that are easier to use for a user can be provided, which can search a target item by changing the utterance order.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a voice interaction apparatus according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a voice interaction apparatus according to a second embodiment of the present invention.
FIG. 3 is a flowchart showing the flow of a voice dialogue by the voice dialogue apparatus shown in FIGS. 1 and 2;
FIG. 4 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a genre of a search item in a voice dialogue apparatus.
FIG. 5 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a prefecture name with a golf course in a voice dialogue apparatus.
FIG. 6 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a golf course in Shizuoka Prefecture in a voice dialogue apparatus.
FIG. 7 is a block diagram showing a configuration of a conventional voice interaction apparatus
FIG. 8 is a flowchart showing the flow of a voice dialogue by the voice dialogue apparatus shown in FIG.
[Explanation of symbols]
101 Input voice control unit
102 Input voice storage unit
103 Acoustic analysis unit
104 Voice recognition unit
105 Dialogue control unit
106 Dialog control information storage unit
107 voice recognition dictionary storage
108 Dictionary selector
109 Message selector
110 Message dictionary storage
201 Acoustic analysis unit
202 Parameter control unit
203 Parameter storage unit
204 Voice recognition unit
205 Dialogue control unit
206 Dialogue control information storage
207 Voice recognition dictionary storage
208 Dictionary selection part
209 Message selector
210 Message dictionary storage
303 Acoustic analysis unit
304 Voice recognition unit
305 Dialogue control unit
306 Dialogue control information storage unit
307 Voice recognition dictionary storage
308 Dictionary selection part
309 Message selector
310 Message dictionary storage
Claims (2)
対話制御部が入力音声信号を蓄積することを指令することにより入力音声信号を蓄積する入力音声蓄積手段と、
入力された音声信号を分析して特徴パラメータを求める音響分析手段と、
対話制御部が音声認識の実行を指令することにより入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、
対話制御部が指定する辞書を音声認識格納手段から取り出し音声認識手段に渡す辞書選択部と、
予め決められた順序で音声認識辞書の選択を指令しユーザーに対するメッセージを提示し音声認識の実行を指令しさらに音声認識の結果得られた認識結果に基づき、次の音声認識に関しても同様の動作を行う音声対話を制御する対話制御部と、
対話制御部の指令により格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、
先に発声された音声信号を前記入力音声蓄積手段に蓄積しておき、前記音響分析手段及び前記音声認識手段により後から発声された音声信号の認識を行い、得られた音声認識結果を、蓄積されている前記先に発声された音声信号に対して認識を行う際の、音声認識対象の絞り込みに利用することにより、入力音声信号の順序を入れ替えて音声認識することを特徴とする音声対話装置。Whether the dialog control unit stores or analyzes the input voice signal by commanding whether to store or analyze the input voice signal or to analyze the stored input voice signal, or to analyze the stored input voice signal Input voice control means for switching,
Input voice storage means for storing the input voice signal by instructing the dialog control unit to store the input voice signal;
An acoustic analysis means for analyzing the input speech signal to obtain a characteristic parameter;
A speech recognition means for performing speech recognition by collating a feature parameter obtained by analyzing an input speech signal by instructing execution of speech recognition by a dialog control unit and a speech recognition dictionary;
A dictionary selection unit that takes out the dictionary designated by the dialogue control unit from the speech recognition storage unit and passes it to the speech recognition unit ;
The same operation is performed for the next speech recognition based on the recognition result obtained by instructing selection of the speech recognition dictionary in a predetermined order, presenting a message to the user and instructing execution of speech recognition, and further by speech recognition. A dialogue control unit for controlling a voice dialogue to be performed;
A message selection means for selecting and outputting a message to be presented to the user from among the messages stored by commands of the dialogue control unit;
The voice signal previously uttered is accumulated in the input voice accumulation means, the voice signal uttered later is recognized by the acoustic analysis means and the voice recognition means, and the obtained voice recognition result is accumulated. A spoken dialogue apparatus characterized by recognizing a voice by changing the order of input voice signals by using it for narrowing down a voice recognition target when recognizing the previously voiced voice signal. .
対話制御部が分析された特徴パラメータを蓄積するかまたは蓄積された特徴パラメータを音声認識手段へ出力するかを指令することにより分析された特徴パラメータを蓄積するか蓄積された特徴パラメータを音声認識手段へ出力するかの切り換えを行う入力パラメータ制御手段と、
対話制御部が特徴パラメータを蓄積することを指令することにより特徴パラメータを蓄積するパラメータ蓄積手段と、
対話制御部が音声認識の実行を指令することにより入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、
対話制御部が指定する辞書を音声認識格納手段から取り出し音声認識手段に渡す辞書選択部と、
予め決められた順序で音声認識辞書の選択を指令しユーザーに対して質問などのメッセージを提示し音声認識の実行を指令しさらに音声認識の結果得られた認識結果に基づき、次の音声認識に関しても同様の動作を行う音声対話を制御する対話制御部と、
対話制御部の指令により格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、
先に発声された音声信号を分析して得られた特徴パラメータを、前記パラメータ蓄積手段に蓄積しておき、前記音声認識手段により後から発声された音声信号の特徴パラメータの認識を行い、得られた音声認識結果を、蓄積されている先に発声された音声信号の前記特徴パラメータに対して認識を行う際の、音声認識対象の絞り込みに利用することにより、入力音声信号の順序を入れ替えて音声認識することを特徴とする音声対話装置。Acoustic analysis means for analyzing the input speech signal and obtaining its characteristic parameters;
The dialogue control unit stores the analyzed feature parameter or outputs the stored feature parameter to the voice recognition unit, and stores the analyzed feature parameter or the stored feature parameter as a voice recognition unit. Input parameter control means for switching whether to output to,
Parameter storage means for storing feature parameters by instructing the dialog control unit to store feature parameters;
A speech recognition means for performing speech recognition by collating a feature parameter obtained by analyzing an input speech signal by instructing execution of speech recognition by a dialog control unit and a speech recognition dictionary;
A dictionary selection unit that takes out the dictionary designated by the dialogue control unit from the speech recognition storage unit and passes it to the speech recognition unit ;
Instructs the user to select a speech recognition dictionary in a predetermined order, presents a message such as a question to the user, instructs the user to execute speech recognition, and further determines the next speech recognition based on the recognition result obtained as a result of speech recognition. Has a dialogue control unit for controlling a voice dialogue that performs the same operation,
A message selection means for selecting and outputting a message to be presented to the user from among the messages stored by commands of the dialogue control unit;
A feature parameter obtained by analyzing a speech signal uttered earlier is stored in the parameter storage means, and a feature parameter of a speech signal uttered later is recognized by the speech recognition means. The voice recognition result is used to narrow down the voice recognition target when the feature parameter of the voice signal uttered earlier is recognized, thereby changing the order of the input voice signals. A voice interactive apparatus characterized by recognizing .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP29589696A JP3755941B2 (en) | 1996-10-18 | 1996-10-18 | Spoken dialogue apparatus and dialogue method |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP29589696A JP3755941B2 (en) | 1996-10-18 | 1996-10-18 | Spoken dialogue apparatus and dialogue method |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPH10124087A JPH10124087A (en) | 1998-05-15 |
| JP3755941B2 true JP3755941B2 (en) | 2006-03-15 |
Family
ID=17826564
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP29589696A Expired - Fee Related JP3755941B2 (en) | 1996-10-18 | 1996-10-18 | Spoken dialogue apparatus and dialogue method |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP3755941B2 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6556970B1 (en) | 1999-01-28 | 2003-04-29 | Denso Corporation | Apparatus for determining appropriate series of words carrying information to be recognized |
| JP4832097B2 (en) * | 2006-02-13 | 2011-12-07 | 富士通テン株式会社 | Spoken dialogue system |
-
1996
- 1996-10-18 JP JP29589696A patent/JP3755941B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JPH10124087A (en) | 1998-05-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4260788B2 (en) | Voice recognition device controller | |
| JP4270611B2 (en) | Input system | |
| US6975986B2 (en) | Voice spelling in an audio-only interface | |
| US6961706B2 (en) | Speech recognition method and apparatus | |
| JP3278222B2 (en) | Information processing method and apparatus | |
| JP2004510239A (en) | How to improve dictation and command distinction | |
| JP2002304190A (en) | Method for generating pronunciation change form and method for speech recognition | |
| JP2003515177A (en) | Natural language interface control system | |
| JP4104313B2 (en) | Voice recognition device, program, and navigation system | |
| JP2006201749A (en) | Voice selection device and selection method | |
| US20040098259A1 (en) | Method for recognition verbal utterances by a non-mother tongue speaker in a speech processing system | |
| JPH09311692A (en) | Voice input control device | |
| JP3378595B2 (en) | Spoken dialogue system and dialogue progress control method thereof | |
| JP4056711B2 (en) | Voice recognition device | |
| JP3755941B2 (en) | Spoken dialogue apparatus and dialogue method | |
| JP3830124B2 (en) | Voice recognition device | |
| JP3576511B2 (en) | Voice interaction device | |
| JP3682958B2 (en) | Search device, search method and database for compound nouns input by speech | |
| JP2001042887A (en) | How to train an automatic speech recognizer | |
| Georgila et al. | A speech-based human-computer interaction system for automating directory assistance services | |
| JP3846896B2 (en) | Search device, search method and database for compound nouns input by speech | |
| JP2001147134A (en) | Navigation device | |
| JPH0854894A (en) | Voice processing device | |
| JP2006133296A (en) | Spoken dialogue device | |
| JPH06261126A (en) | Operator support type voice interactive device |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050602 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20050726 |
|
| RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20050804 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20050922 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051018 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051102 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20051206 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20051220 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100106 Year of fee payment: 4 |
|
| LAPS | Cancellation because of no payment of annual fees |