Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP3755941B2 - Spoken dialogue apparatus and dialogue method - Google Patents
[go: Go Back, main page]

JP3755941B2 - Spoken dialogue apparatus and dialogue method - Google Patents

Spoken dialogue apparatus and dialogue method Download PDF

Info

Publication number
JP3755941B2
JP3755941B2 JP29589696A JP29589696A JP3755941B2 JP 3755941 B2 JP3755941 B2 JP 3755941B2 JP 29589696 A JP29589696 A JP 29589696A JP 29589696 A JP29589696 A JP 29589696A JP 3755941 B2 JP3755941 B2 JP 3755941B2
Authority
JP
Japan
Prior art keywords
voice
speech recognition
control unit
unit
dialogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP29589696A
Other languages
Japanese (ja)
Other versions
JPH10124087A (en
Inventor
和也 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP29589696A priority Critical patent/JP3755941B2/en
Publication of JPH10124087A publication Critical patent/JPH10124087A/en
Application granted granted Critical
Publication of JP3755941B2 publication Critical patent/JP3755941B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識技術と音声合成技術を用いた音声対話装置及び対話方法に関するものである。
【0002】
【従来の技術】
人との音声対話が可能な装置において、選択しようとするある目的の項目を含む集団に含まれている項目の数が音声認識部の処理能力を超えるような場合、目的の項目名を音声入力する前に、予め目的の項目を含む部分集団を表す言葉を入力して、検索の対象をその集団に特定し、音声認識の対象となる単語数を絞ることが必要である。
【0003】
例えば、音声対話機能を備えたカーナビゲーション装置において実現されている音声対話を用いた目的地設定のための項目検索機能を用いてゴルフ場を検索する場合、検索の対象となるゴルフ場の項目数の総和が日本全国で2000施設あり、また音声認識部の最大処理能力が100単語であるとすると、日本全国のゴルフ場名を音声認識対象として一度に検索することは不可能である。
【0004】
そこで、県毎にカテゴリ分けした場合、各県毎の施設数が100以内になるとすると、使用者に対し目的のゴルフ場名を入力させる前に県名を入力させ、音声認識対象を県毎に絞り込んでから目的の施設名を発声させることにより、全項目数が音声認識部の最大処理能力を超える場合でも、その全項目の中から目的の施設名を検索することが可能となる。
【0005】
従来、このような音声対話装置としては、例えば、図7及び図8に示すようなものがあった。図7は従来の音声対話装置の構成を示すブロック図、図8は図7に示す音声対話装置による音声対話の流れを示すフローチャートである。
【0006】
まず、図7を参照して、従来の音声対話装置の構成について説明する。図7において、303は音声信号を入力し、入力音声信号を分析して特徴パラメータを求める音響分析部、304は対話制御部305の指令により入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識部、305は音声対話を制御する対話制御部、306は使用者の操作及び音声認識の結果に基づいた音声対話の流れの情報を格納する対話制御用情報格納部である。
【0007】
また、307は音声認識に用いられる辞書を格納する音声認識辞書格納部、308は対話制御部305の指令により音声認識辞書格納部307に格納されている辞書から音声認識に用いる辞書を選択する辞書選択部、309は対話制御部305の指令により、メッセージ辞書格納部310に格納されているメッセージの中から使用者に対して音声により提示すべきメッセージを選択するメッセージ選択部、310は使用者に対して提示するメッセージを格納するメッセージ辞書格納部である。
【0008】
次に、図7及び図8を参照して、上記従来の音声対話装置の動作について説明する。なお、以下に示す対話の流れは図8を参照し、音声認識の対話に使用する辞書の内容は図4乃至図6を参照する。図4は音声対話装置において検索項目のジャンルを音声認識するための音声認識辞書の内容を示す図、図5は音声対話装置においてゴルフ場のある県名を音声認識するための音声認識辞書の内容を示す図、図6は音声対話装置において静岡県のゴルフ場を音声認識するための音声認識辞書の内容を示す図である。
【0009】
まず、ユーザーの指示により音声対話が開始されると、対話制御部305は辞書選択部308に対し検索のジャンルを表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部308は音声認識辞書格納部307から図4に示すような、検索のジャンルを表す言葉で構成された音声認識辞書の作成を行う。
【0010】
次に、対話制御部305はメッセージ選択部309に対し、使用者に対して施設の種類を表す言葉の発声を促すメッセージを出力することを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310から「施設の種類をどうぞ」というメッセージを選択して使用者に音声で提示する。
【0011】
次に、対話制御部305は音声認識部304に対し、辞書選択部308が作成した辞書を用いて音声認識を実行することを指令する。先の「施設の種類をどうぞ」というメッセージを聞いた使用者は検索したいジャンルを表す言葉、この場合「ゴルフ場」を発声して音声対話装置に音声信号を入力する。入力された音声信号は音響分析部303において特徴パラメータが求められ、音声認識部304で認識される。
【0012】
認識結果として、「ゴルフ場」が検索のジャンルとして選ばれる。この結果を対話制御部305が記憶する。次に、対話制御部305は辞書選択部308に検索の対象の県名を表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部308は音声認識辞書格納部307から図5に示すような、検索の対象の県名を表す言葉で構成された音声認識辞書の作成を行う。
【0013】
次に、対話制御部305はメッセージ選択部309に対し、使用者に対して検索の対象の県名を表す言葉の発声をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310から
「ゴルフ場のある県名をどうぞ」というメッセージを選択し、使用者に音声で提示する。
【0014】
次に、対話制御部305は、音声認識部304に対し、辞書選択部308が作成した辞書を用いて音声認識を実行することを指令すると、「ゴルフ場のある県名をどうぞ」というメッセージを聞いた使用者は検索の対象となる県を表す言葉、この場合「静岡県」を発声して音声対話装置に入力する。入力された音声信号は音響分析部303で特徴パラメータが求められ、音声認識部304で認識され、認識の結果として静岡県」が検索対象の県名して選ばれる。
【0015】
この結果を対話制御部305が記憶する。対話制御部305は先の音声認識の結果の「静岡県」と、その前に行われた音声認識の結果である「ゴルフ場」とを組み合わせ、辞書選択部308に対し、静岡県のゴルフ場の名称で構成された辞書の作成を指令する。この指令により、辞書選択部308は音声認識辞書格納部307から図6に示すような、静岡県のゴルフ場の名称で構成された音声認識辞書の作成を行う。
【0016】
次に、対話制御部305はメッセージ選択部309に対し、使用者に対して検索の対象である静岡県のゴルフ場の名称を表す言葉の発声をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310から 「ゴルフ場の名称をどうぞ」というメッセージを選択し、使用者に音声で提示する。
【0017】
次に、対話制御部305は、音声認識部304に対し、辞書選択部308が作成した辞書を用いて音声認識を実行することを指令すると、「ゴルフ場の名称をどうぞ」というメッセージを聞いた使用者は検索の対象となるゴルフ場の名称を表す言葉、この場合「○○カントリークラブ」を発声して音声対話装置に入力する。入力された音声信号は音響分析部303で特徴パラメータが求められ、音声認識部304で認識され、認識の結果として○○カントリークラブ」が選ばれ、検索対象が確定する。
【0018】
次に、対話制御部305はメッセージ選択部309に対し、確定した検索対象「○○カントリークラブ」をユーザーに提示することをを指令する。この指令に対し、メッセージ選択部309はメッセージ辞書格納部310に格納されている内容と「○○カントリークラブ」とを組み合わせ、「○○カントリークラブ付近の地図を表示します。」というメッセージを作成して使用者に対し音声で提示する。そして、その地図が表示される。以上の動作により、図8に示した対話の流れは完了する。
【0019】
【発明が解決しようとする課題】
しかしながら、上記の従来広く用いられている音声認識装置では、複数の入力を蓄積する手段を持たないため、先に入力した言葉によって、次に実施すべき音声認識の対象を絞り込むことにより目的の項目を検索するという方法が採られるため、上記のようなゴルフ場の検索の例では、その対話の流れが図8に示すようなものに固定されてしまうことになる。
【0020】
一般に、音声対話装置の分野では、音声対話装置の使用者に対し違和感とかストレスを与えない、自然な音声対話を提供することが要求されている。上記の例では、ゴルフ場の名称が使用者の入力する情報の主体であり、県名は補足情報である。そのため、図8に示されるように、補足情報を先に入力させ、主体となる情報をあとから入力させると、逆の場合に比べ、主体となる情報を先に入力することができないので、使用者に対し違和感を与えがちになるという問題があった。
【0021】
本発明は、上記従来の問題を解決するためになされたもので、音声認識部の性能限界により認識語彙数が限定されることから、まず補足情報を先に入力させ認識語彙数を絞り込んだ後に、主体となる情報を入力させるという対話の流れにせざるを得ないような場合でも、同一性能の音声認識部を用いて、主体となる情報を先に入力した後に補足情報を入力するという対話の流れを実現することができ、発声順序を変更して目的の項目を検索しうる音声対話装置及び対話方法を提供することを目的とする。
【0022】
【課題を解決するための手段】
本発明による音声対話装置及び対話方法は、入力された音声信号を入力音声信号の形でまたは入力音声信号を分析した結果の特徴パラメータの形で蓄積する蓄積手段を設け、音声信号を入力した順序を入れ替えて音声認識することにより、後で発声した言葉の音声認識結果から、前に発声した言葉に対する音声認識の対象を絞るようにしたものである。
【0023】
本発明によれば、同一性能の音声認識部を用いて、主体となる情報を先に入力(発声)した後に補足情報を入力した場合でも、後で発声した言葉の音声認識結果から前に発声した言葉に対する音声認識の対象を絞ることができるようにしたことにより、使用者に対し違和感を与えない音声対話装置及び対話方法が得られる。
【0024】
【発明の実施の形態】
本発明の請求項1に記載の発明は、対話制御部の指令により入力音声信号を蓄積するかまたは分析するか、蓄積した入力音声信号を分析するかの切り換えを行う入力音声制御手段と、対話制御部の指令により入力音声信号を蓄積する入力音声蓄積手段と、入力された音声信号を分析して特徴パラメータを求める音響分析手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、音声対話を制御する対話制御部と、対話制御部の指令により格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、入力した音声信号を入力音声蓄積手段に蓄積し、入力音声信号の順序を入れ替えて音声認識するようにしたものであり、入力した音声信号の順序を入れ替えて音声認識することにより、発声順序を変更して目的の項目を検索しうる音声対話装置が得られるという作用を有する。
【0025】
本発明の請求項2に記載の発明は、入力された音声信号を分析してその特徴パラメータを求める音響分析手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータを蓄積するかまたは音声認識するか、蓄積していた特徴パラメータを音声認識するかの切り換えを行うパラメータ制御手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータを蓄積するパラメータ蓄積手段と、対話制御部の指令により入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、音声対話を制御する対話制御部と、対話制御部の指令によりメッセージ辞書格納手段に格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、入力した音声信号を分析して得られた特徴パラメータをパラメータ蓄積手段に蓄積し、特徴パラメータの順序を入れ替えて音声認識するようにしたものであり、入力した音声信号の特徴パラメータの順序を入れ替えて音声認識することにより、発声順序を変更して目的の項目を検索しうる音声対話装置が得られるという作用を有する。
【0026】
本発明の請求項3に記載の発明は、対話による音声信号を入力し、入力した音声信号を分析して特徴パラメータを求め、前記入力した音声信号かまたは該音声信号から求められた特徴パラメータを蓄積し、制御手段の制御による対話の流れに従い格納されているメッセージから提示すべきメッセージを選択して提示し、前記蓄積した音声信号かまたは特徴パラメータの順序を前記対話の流れとは異なるように入れ換え音声認識辞書と照合して音声認識を行うようにしたものであり、入力した音声信号かまたは音声信号の特徴パラメータの順序を入れ替えて音声認識することにより、発声順序を変更して目的の項目を検索しうる音声対話方法が得られるという作用を有する。
【0027】
以下、添付図面、図1乃至図6に基づき、本発明の実施の形態を詳細に説明する。図1は本発明の第1の実施の形態における音声対話装置の構成を示すブロック図、図2は本発明の第2の実施の形態における音声対話装置の構成を示すブロック図、図3は図1及び図2に示す音声対話装置による音声対話の流れを示すフローチャートを示す図、図4は音声対話装置において検索項目のジャンルを音声認識するための音声認識辞書の内容を示す図、図5は音声対話装置においてゴルフ場のある県名を音声認識するための音声認識辞書の内容を示す図、図6は音声対話装置において静岡県のゴルフ場を音声認識するための音声認識辞書の内容を示す図である。
【0028】
(実施の形態1)
まず、図1を参照して、本発明の第1の実施の形態における音声対話装置の構成について詳細に説明する。図1において、101は対話制御部105の指令により入力音声信号を蓄積するか、入力音声信号を分析するか、または蓄積した入力音声信号を分析するかの切り換えを行う入力音声制御部、102は対話制御部105の指令により入力音声信号を蓄積する入力音声蓄積部である。
【0029】
また、103は入力された音声信号を分析して特徴パラメータを求める音響分析部、104は対話制御部105の指令により、入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識部、105は音声対話を制御する対話制御部、106は使用者の操作とか音声認識の結果に従って決まる音声対話の流れに対する情報を格納する対話制御用情報格納部、107は音声認識に用いられる辞書を格納する音声認識辞書格納部である。
【0030】
また、108は対話制御部105の指令により、音声認識辞書格納部107に格納されている辞書から音声認識に用いる辞書を選択する辞書選択部、109は対話制御部105の指令により、メッセージ辞書格納部110に格納されているメッセージの中から使用者に対して提示すべきメッセージを選択するメッセージ選択部、110は使用者に対して音声で提示するメッセージを格納するメッセージ辞書格納部である。
【0031】
尚、入力音声制御部101、入力音声蓄積部102、音響分析部103、音声認識部104、対話制御部105及びメッセージ選択部109はそれぞれ入力音声制御手段、入力音声蓄積手段、音響分析手段、音声認識手段、対話制御手段及びメッセージ選択手段に対応する。
【0032】
次に、図1及び図3乃至図6を参照して、本発明の第1の実施の形態における音声対話装置の動作について、図3に示す対話の流れを例に詳細に説明する。
まず、ユーザーの指示により音声対話が開始されると、対話制御部105は辞書選択部108に対し検索のジャンルを表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部108は音声認識辞書格納部107から図4に示すような、検索のジャンルを表す言葉で構成された音声認識辞書の作成を行う。
【0033】
次に、対話制御部105はメッセージ選択部109に対し、使用者に対して施設の種類を表す言葉の発声を促すメッセージを出力することを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110から「どのジャンルを検索しますか?」というメッセージを選択し、使用者に音声で提示する。(尚、使用者に対するこの提示は音声によるほか、表示装置に対する表示をも併用することもできる、以下同じ)。
【0034】
次に、対話制御部105は、音声認識部104に対し辞書選択部108が作成した辞書を用いて音声認識を実行することを指令するとともに、入力音声制御部101に対し、入力音声信号を音響分析部へ出力することを指令する。先の「どのジャンルを検索しますか?」というメッセージを聞いた使用者は検索を希望するジャンルを表す言葉、この場合「ゴルフ場」を発声して音声対話装置に入力する。入力された音声信号は、入力音声制御部101を経由し、音響分析部103においてその特徴パラメータが求められ、音声認識部104で認識される。
【0035】
認識結果として、「ゴルフ場」が検索のジャンルとして選ばれる。対話制御部105はこの結果を記憶する。次に、対話制御部105は、メッセージ選択部109に対し先の音声認識の結果である「ゴルフ場」の名称の発声を使用者に対して促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110から「何というゴルフ場ですか?」というメッセージを選択して使用者に音声で提示する。
【0036】
次に、対話制御部105は、入力音声制御部101及び入力音声蓄積部102に対し、入力した入力音声信号を蓄積することを指令する。入力音声制御部101は、この指令により入力した音声信号を音声蓄積部102に出力し、入力音声蓄積部102は入力音声信号の蓄積を開始する。
【0037】
また、先に提示された「何というゴルフ場ですか?」というメッセージを聞いた使用者は検索を希望するゴルフ場を表す言葉、この場合「○○カントリークラブ」を発声し、音声対話装置に入力する。入力された音声である「○○カントリークラブ」は入力音声制御部101を経由して、入力音声蓄積部102に蓄積される。
【0038】
この蓄積が終了すると、対話制御部105は辞書選択部108に対し検索の対象とする県名を表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部108は音声認識辞書格納部107から図5に示すような、検索対象の県名を表す言葉で構成された音声認識辞書の作成を行う。
【0039】
次に、対話制御部105はメッセージ選択部109に対し、使用者に対して検索の対象の県名を表す言葉の発声を促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110から「どの県にありますか?」というメッセージを選択し、使用者に音声で提示する。
【0040】
次に、対話制御部105は、音声認識部104に対し、辞書選択部108が作成した辞書を用いて音声認識を実行することを指令するとともに、入力音声制御部101に対し、入力音声信号を音響分析部103へ出力することを指令する。先の「どの県にありますか?」というメッセージを聞いた使用者は検索の対象となる県を表す言葉、この場合「静岡県」を発声し、音声対話装置に入力する。入力された音声信号「静岡県」は入力音声制御部101を経由して、音響分析部103で特徴パラメータが求められ、音声認識部104で認識され、その認識結果として、「静岡県」が検索対象の県名して選ばれる。
【0041】
対話制御部105は、その結果を記憶するとともに、音声認識の結果の「静岡県」と、その前に行われた音声認識の結果である「ゴルフ場」とを組み合わせて、辞書選択部108に対し、静岡県のゴルフ場の名称で構成された辞書の作成を指令する。この指令により、辞書選択部108は音声認識辞書格納部107から図6に示すような、静岡県のゴルフ場の名称で構成された音声認識辞書の作成を行う。
【0042】
次に、対話制御部105は、入力音声制御部101及び入力音声蓄積部102に対し、先に蓄積した使用者の発声である「○○カントリークラブ」の音声信号を音響分析部103に出力することを指令する。この指令により音声蓄積部102は蓄積された音声信号を入力音声制御部101に出力し、入力音声制御部101は音響分析部103に対してその入力音声信号の出力を開始する。この音声信号が、音響分析部103で分析されてその特徴パラメータが求められ、音声認識部104で認識される。その認識結果から、図6に示すような「○○カントリークラブ」が選ばれて検索対象が確定する。
【0043】
次に、対話制御部105はメッセージ選択部109に対し、確定した検索対象「○○カントリークラブ」をユーザーに対し音声で提示することをを指令する。この指令に対し、メッセージ選択部109はメッセージ辞書格納部110に格納されている内容と「○○カントリークラブ」を組み合わせ、「○○カントリークラブ付近の地図を表示します。」というメッセージを作成して使用者に対し音声で提示する。そして、その地図が表示される。以上の動作により、図3に示した対話の流れが完了する。
【0044】
(実施の形態2)
次に、図2を参照して、本発明の第2の実施の形態における音声対話装置の構成について詳細に説明する。図2において、201は入力された音声信号を分析してその特徴パラメータを求める音響分析部、202は、対話制御部205の指令により、入力音声信号を分析した結果得られた特徴パラメータを蓄積するか、入力音声信号を分析した結果得られた特徴パラメータを音声認識するか、または蓄積していた特徴パラメータを音声認識するかの切り換えを行うパラメータ制御部である。
【0045】
また、203は対話制御部205の指令により、入力音声信号を分析して得られた特徴パラメータを蓄積するパラメータ蓄積部、204は対話制御部205の指令により、入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識部、205は音声対話を制御する対話制御部、206は使用者の操作とか音声認識の結果に従って行われる音声対話の流れの情報を格納する対話制御用情報格納部、207は音声認識に用いられる辞書を格納する音声認識辞書格納部である。
【0046】
また、208は対話制御部の指令により、音声認識辞書格納部に格納されている辞書から、音声認識に用いる辞書を選択する辞書選択部、209は対話制御部の指令により、メッセージ辞書格納部に格納されているメッセージの中から使用者に対して提示すべきメッセージを選択するメッセージ選択部、210は使用者に対して提示するメッセージを格納するメッセージ辞書格納部である。
【0047】
尚、音響分析部201、パラメータ制御部202、パラメータ蓄積部203、音声認識部204、対話制御部205及びメッセージ選択部209はそれぞれ音響分析手段、パラメータ制御手段、パラメータ蓄積手段、音声認識手段、対話制御手段及びメッセージ選択手段に対応する。
【0048】
次に、図2及び図3乃至図6を参照して、本発明の第2の実施の形態における音声対話装置の動作について、図3に示す対話の流れを例に詳細に説明する。
まず、ユーザーの指示により音声対話が開始されると、対話制御部205は、辞書選択部208に対し検索のジャンルを表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部208は音声認識辞書格納部207から図4に示すような、検索のジャンルを表す言葉で構成された音声認識辞書の作成を行う。
【0049】
次に、対話制御部205はメッセージ選択部209に対し、使用者に対して施設の種類を表す言葉の発声を促すメッセージを出力することを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210から「どのジャンルを検索しますか?」というメッセージを選択し、使用者に対し音声で提示する。
【0050】
そこで、対話制御部205は、音声認識部204に対し、辞書選択部208が作成した辞書を用いて音声認識を実行することを指令するとともに、パラメータ制御部202に対し、音響分析部201において入力音声信号を分析した結果得られた特徴パラメータを音声認識部204へ出力することを指令する。先の「どのジャンルを検索しますか?」というメッセージを聞いた使用者は検索を希望するジャンルを表す言葉、この場合「ゴルフ場」を発声して音声対話装置に入力する。
【0051】
入力された音声信号「ゴルフ場」は、音響分析部201で分析されて特徴パラメータに変換され、パラメータ制御部202を経由し、音響分析部201で求めた特徴パラメータが音声認識部204で認識される。認識結果として、「ゴルフ場」が検索のジャンルとして選ばれる。この結果は対話制御部205に記憶される。次に、対話制御部205はメッセージ選択部209に対し、先の音声認識の結果であるゴルフ場の名称の発声を使用者に対して促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210から「何というゴルフ場ですか?」というメッセージを選択して、使用者に音声で提示する。
【0052】
次に、対話制御部205はパラメータ制御部202とパラメータ蓄積部203に対し、音響分析部201において、入力音声信号を分析した結果得られた特徴パラメータの蓄積を指令する。この指令により、パラメータ制御部202は入力された音声信号をパラメータ蓄積部203に出力し、入力パラメータ蓄積部203は入力音声信号を分析して得られた特徴パラメータの蓄積を開始する。
【0053】
また、先に提示された「何というゴルフ場ですか?」というメッセージを聞いた使用者は検索を希望するゴルフ場を表す言葉、この場合は「○○カントリークラブ」を発声して音声対話装置に入力する。入力された音声信号「○○カントリークラブ」は音響分析部201において分析されて特徴パラメータに変換され、パラメータ制御部202を経由して、パラメータ蓄積部203に蓄積される。
【0054】
この蓄積が終了すると、対話制御部205は辞書選択部208に対し検索の対象の県名を表す言葉で構成された辞書の作成を指令する。この指令により、辞書選択部208は音声認識辞書格納部207から図5に示すような、検索の対象の県名を表す言葉で構成された音声認識辞書の作成を行う。
【0055】
次に、対話制御部205はメッセージ選択部209に対し、使用者に対して検索の対象の県名を表す言葉の発声を促す言葉をメッセージとして出力することを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210から「どの県にありますか?」というメッセージを選択して、使用者に音声で提示する。
【0056】
次に、対話制御部205は、音声認識部204に対し、辞書選択部208が作成した辞書を用いて音声認識を実行することを指令するとともに、パラメータ制御部202に対し、入力音声信号を音響分析部201で分析して得られた特徴パラメータを音声認識部204へ出力することを指令する。
【0057】
先の「どの県にありますか?」というメッセージを聞いた使用者は検索の対象となる県を表す言葉、この場合は「静岡県」を発声し、音声対話装置に入力する。入力された音声信号「静岡県」は音響分析部201で分析されて特徴パラメータに変換され、パラメータ制御部202を経由して、音響分析部201で求められた特徴パラメータが音声認識部204で認識される。
【0058】
認識結果として、「静岡県」が検索対象の県名して選ばれる。この結果は対話制御部205に記憶される。対話制御部205は先の音声認識の結果の「静岡県」と、その前に行われた音声認識の結果である「ゴルフ場」とを組み合わせ、辞書選択部208に対し、静岡県のゴルフ場の名称で構成された辞書の作成を指令する。この指令により、辞書選択部208は音声認識辞書格納部207から図6に示すような、静岡県のゴルフ場の名称で構成された音声認識辞書の作成を行う。
【0059】
次に、対話制御部205は、パラメータ制御部202及びパラメータ蓄積部203に対し、先に蓄積した使用者の発声による「○○カントリークラブ」の特徴パラメータを音声認識部204へ出力することを指令する。この指令により、パラメータ蓄積部203は、蓄積された特徴パラメータをパラメータ制御部202に出力し、パラメータ制御部202はその特徴パラメータの音声認識部204に対する出力を開始する。この特徴パラメータは、音声認識部204で認識され、その認識の結果として、「○○カントリークラブ」が選ばれて検索対象が確定する。
【0060】
次に、対話制御部205はメッセージ選択部209に対し、確定した検索対象「○○カントリークラブ」をユーザーに提示することをを指令する。この指令に対し、メッセージ選択部209はメッセージ辞書格納部210に格納されている内容と「○○カントリークラブ」を組み合わせ、「○○カントリークラブ付近の地図を表示します。」というメッセージを作成して使用者に対し音声で提示する。そして、その地図が表示される。以上の動作により、図3に示した対話の流れが完了する。
【0061】
【発明の効果】
本発明は、以上のように構成し、特に、入力音声信号を一時蓄積する入力音声蓄積部かまたは入力音声信号を分析した結果の特徴パラメータを一時蓄積するパラメータ蓄積部を備え、後から発声した言葉の音声認識結果から、前に発声した言葉に対する認識対象の語彙を絞って音声認識できるようにしたことにより、同じ性能の音声認識部を用いて、主体となる情報を先に入力した後補足情報を入力するという対話の流れを実現することができ、発声順序を変更して目的の項目を検索しうる、使用者に対してより使い易い音声対話装置及び対話方法を提供することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態における音声対話装置の構成を示すブロック図
【図2】本発明の第2の実施の形態における音声対話装置の構成を示すブロック図
【図3】図1及び図2に示す音声対話装置による音声対話の流れを示すフローチャートを示す図
【図4】音声対話装置において検索項目のジャンルを音声認識するための音声認識辞書の内容を示す図
【図5】音声対話装置においてゴルフ場のある県名を音声認識するための音声認識辞書の内容を示す図
【図6】音声対話装置において静岡県のゴルフ場を音声認識するための音声認識辞書の内容を示す図
【図7】従来の音声対話装置の構成を示すブロック図
【図8】図7に示す音声対話装置による音声対話の流れを示すフローチャート
【符号の説明】
101 入力音声制御部
102 入力音声蓄積部
103 音響分析部
104 音声認識部
105 対話制御部
106 対話制御用情報格納部
107 音声認識辞書格納部
108 辞書選択部
109 メッセージ選択部
110 メッセージ辞書格納部
201 音響分析部
202 パラメータ制御部
203 パラメータ蓄積部
204 音声認識部
205 対話制御部
206 対話制御用情報格納部
207 音声認識辞書格納部
208 辞書選択部
209 メッセージ選択部
210 メッセージ辞書格納部
303 音響分析部
304 音声認識部
305 対話制御部
306 対話制御用情報格納部
307 音声認識辞書格納部
308 辞書選択部
309 メッセージ選択部
310 メッセージ辞書格納部
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice dialogue apparatus and a dialogue method using voice recognition technology and voice synthesis technology.
[0002]
[Prior art]
If the number of items included in the group including the target item to be selected exceeds the processing capacity of the voice recognition unit in a device capable of voice interaction with humans, the target item name is input by voice. Before doing so, it is necessary to input words representing a subgroup including the target item in advance, specify the search target as the group, and narrow down the number of words to be subjected to speech recognition.
[0003]
For example, when searching for a golf course using an item search function for setting a destination using a voice dialog realized in a car navigation device having a voice dialog function, the number of golf course items to be searched If there are 2000 facilities throughout Japan and the maximum processing capacity of the speech recognition unit is 100 words, it is impossible to search golf course names all over Japan as speech recognition targets at once.
[0004]
Therefore, when categorizing by prefecture, if the number of facilities in each prefecture is within 100, let the user input the name of the prefecture before inputting the target golf course name, and set the speech recognition target for each prefecture. By making the target facility name uttered after narrowing down, even if the total number of items exceeds the maximum processing capacity of the voice recognition unit, the target facility name can be searched from all the items.
[0005]
Conventionally, as such a voice interactive apparatus, there have been those shown in FIGS. 7 and 8, for example. FIG. 7 is a block diagram showing the configuration of a conventional voice dialogue apparatus, and FIG. 8 is a flowchart showing the flow of voice dialogue by the voice dialogue apparatus shown in FIG.
[0006]
First, with reference to FIG. 7, the configuration of a conventional voice interactive apparatus will be described. In FIG. 7, 303 is an acoustic analysis unit that inputs a speech signal and analyzes the input speech signal to obtain a feature parameter, and 304 is a feature parameter and speech obtained by analyzing the input speech signal according to a command from the dialogue control unit 305. A speech recognition unit that performs speech recognition by collating with a recognition dictionary, 305 is a dialogue control unit that controls voice dialogues, and 306 is a dialogue that stores information on the flow of voice dialogues based on user operations and the results of voice recognition. It is a control information storage unit.
[0007]
Reference numeral 307 denotes a speech recognition dictionary storage unit that stores a dictionary used for speech recognition. Reference numeral 308 denotes a dictionary that selects a dictionary used for speech recognition from the dictionary stored in the speech recognition dictionary storage unit 307 in response to an instruction from the dialog control unit 305. A selection unit 309 is a message selection unit that selects a message to be presented to the user by voice from messages stored in the message dictionary storage unit 310 according to an instruction from the dialogue control unit 305. It is a message dictionary storage unit for storing messages to be presented.
[0008]
Next, with reference to FIGS. 7 and 8, the operation of the conventional voice interaction apparatus will be described. Note that the flow of the dialogue shown below refers to FIG. 8, and the contents of the dictionary used for the speech recognition dialogue refer to FIG. 4 to FIG. FIG. 4 is a diagram showing the contents of a voice recognition dictionary for voice recognition of the genre of the search item in the voice dialogue device, and FIG. 5 is the contents of the voice recognition dictionary for voice recognition of a prefecture name with a golf course in the voice dialogue device. FIG. 6 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a golf course in Shizuoka Prefecture in a voice dialogue apparatus.
[0009]
First, when a voice dialogue is started by a user instruction, the dialogue control unit 305 instructs the dictionary selection unit 308 to create a dictionary composed of words representing the genre of search. In response to this command, the dictionary selection unit 308 creates a speech recognition dictionary composed of words representing the genre of search as shown in FIG. 4 from the speech recognition dictionary storage unit 307.
[0010]
Next, the dialogue control unit 305 instructs the message selection unit 309 to output a message that prompts the user to speak a word representing the type of facility. In response to this instruction, the message selection unit 309 selects a message “please type of facility” from the message dictionary storage unit 310 and presents it to the user by voice.
[0011]
Next, the dialogue control unit 305 instructs the voice recognition unit 304 to execute voice recognition using the dictionary created by the dictionary selection unit 308. The user who has heard the message “please select the type of facility” speaks a word representing the genre to be searched for, in this case “golf course”, and inputs a voice signal to the voice interactive apparatus. A characteristic parameter of the input voice signal is obtained by the acoustic analysis unit 303 and recognized by the voice recognition unit 304.
[0012]
As a recognition result, “golf course” is selected as a search genre. The dialogue control unit 305 stores this result. Next, the dialogue control unit 305 instructs the dictionary selection unit 308 to create a dictionary composed of words representing prefecture names to be searched. In response to this command, the dictionary selection unit 308 creates a speech recognition dictionary composed of words representing prefecture names to be searched as shown in FIG. 5 from the speech recognition dictionary storage unit 307.
[0013]
Next, the dialogue control unit 305 instructs the message selection unit 309 to output a utterance of a word representing the name of the prefecture to be searched as a message to the user. In response to this command, the message selection unit 309 reads from the message dictionary storage unit 310.
Select the message “Please enter the name of the prefecture where the golf course is located” and present it to the user by voice.
[0014]
Next, when the dialogue control unit 305 instructs the voice recognition unit 304 to execute voice recognition using the dictionary created by the dictionary selection unit 308, a message “Please enter the name of a prefecture with a golf course” is displayed. The user who has heard speaks a word representing the prefecture to be searched, in this case “Shizuoka Prefecture”, and inputs it to the voice interactive apparatus. A characteristic parameter is obtained from the input speech signal by the acoustic analysis unit 303 and recognized by the speech recognition unit 304. As a result of the recognition, “Shizuoka Prefecture” is selected as a search target prefecture name.
[0015]
The dialogue control unit 305 stores this result. The dialogue control unit 305 combines “Shizuoka Prefecture” as the result of the previous speech recognition with “Golf course” as the result of the speech recognition performed before that, Directs the creation of a dictionary composed of names. In response to this command, the dictionary selection unit 308 creates a speech recognition dictionary composed of names of golf courses in Shizuoka Prefecture as shown in FIG. 6 from the speech recognition dictionary storage unit 307.
[0016]
Next, the dialogue control unit 305 instructs the message selection unit 309 to output a utterance of a word representing the name of the golf course in Shizuoka Prefecture as a search target to the user as a message. In response to this command, the message selection unit 309 selects the message “Please name the golf course” from the message dictionary storage unit 310 and presents it to the user by voice.
[0017]
Next, when the dialogue control unit 305 instructs the voice recognition unit 304 to execute voice recognition using the dictionary created by the dictionary selection unit 308, the dialogue control unit 305 heard a message “Please name golf course”. The user utters a word representing the name of the golf course to be searched, in this case “XX country club”, and inputs it to the voice interactive apparatus. A characteristic parameter is obtained from the input voice signal by the acoustic analysis unit 303 and recognized by the voice recognition unit 304. As a result of recognition, “XX country club” is selected, and a search target is determined.
[0018]
Next, the dialogue control unit 305 instructs the message selection unit 309 to present the confirmed search target “XX country club” to the user. In response to this command, the message selection unit 309 combines the content stored in the message dictionary storage unit 310 with “XX country club” and creates a message “Displays a map near the XX country club.” And present it to the user by voice. Then, the map is displayed. With the above operation, the dialog flow shown in FIG. 8 is completed.
[0019]
[Problems to be solved by the invention]
However, since the above-described widely used speech recognition apparatuses do not have a means for storing a plurality of inputs, the target items can be reduced by narrowing down the target of speech recognition to be performed next by words that have been input first. Therefore, in the example of golf course search as described above, the flow of the dialogue is fixed as shown in FIG.
[0020]
In general, in the field of voice interactive devices, it is required to provide a natural voice dialogue that does not give a sense of discomfort or stress to the user of the voice interactive device. In the above example, the name of the golf course is the main body of information input by the user, and the prefecture name is supplementary information. Therefore, as shown in FIG. 8, if supplementary information is input first and main information is input later, the main information cannot be input first as compared to the reverse case. There was a problem that people tend to feel uncomfortable.
[0021]
The present invention has been made to solve the above-described conventional problems, and since the number of recognized vocabulary is limited by the performance limit of the speech recognition unit, first, after supplemental information is first input and the number of recognized vocabulary is narrowed down Even if there is no choice but to have the flow of dialogue to input the main information, the dialogue of inputting supplementary information after inputting the main information first using the voice recognition unit with the same performance. It is an object of the present invention to provide a voice dialogue apparatus and a dialogue method that can realize a flow and can search a target item by changing the utterance order.
[0022]
[Means for Solving the Problems]
The voice dialogue apparatus and the dialogue method according to the present invention are provided with accumulation means for accumulating the inputted voice signal in the form of the input voice signal or in the form of the characteristic parameter as a result of analyzing the input voice signal, and the order in which the voice signals are inputted. By recognizing and replacing the speech, the speech recognition target for the previously uttered word is narrowed down from the speech recognition result of the word uttered later.
[0023]
According to the present invention, even when supplementary information is input after first inputting (speaking) main information using a speech recognition unit having the same performance, the speech is uttered before from the speech recognition result of the words uttered later. By making it possible to narrow down the target of speech recognition for a given word, a speech dialogue apparatus and a dialogue method that do not give the user a sense of incongruity can be obtained.
[0024]
DETAILED DESCRIPTION OF THE INVENTION
According to the first aspect of the present invention, there is provided an input voice control means for switching whether to accumulate or analyze an input voice signal or to analyze an accumulated input voice signal according to a command from a dialogue control unit, Obtained by analyzing the input voice signal according to the command of the dialogue control unit, the input voice storage means for storing the input voice signal according to the command of the control unit, the acoustic analysis means for analyzing the input voice signal and obtaining the characteristic parameter A voice recognition means for performing voice recognition by collating the feature parameter with the voice recognition dictionary, a dialogue control unit for controlling the voice dialogue, and a message stored in response to a command from the dialogue control unit to the user. Consists of message selection means for selecting and outputting a message to be presented, storing the input voice signal in the input voice storage means, and recognizing the voice by changing the order of the input voice signals Is obtained by the so that, with the effect that by speech recognition out of sequence of the input speech signal, the speech dialogue system is obtained that can find the desired item by changing the utterance order.
[0025]
According to a second aspect of the present invention, an acoustic analysis means for analyzing an input voice signal and obtaining a characteristic parameter thereof, and a characteristic parameter obtained by analyzing the input voice signal according to a command from the dialogue control unit are provided. Parameter control means for switching between accumulation, voice recognition, or voice recognition of the accumulated feature parameter, and the feature parameter obtained by analyzing the input voice signal according to a command from the dialogue control unit A parameter accumulating unit, a voice recognition unit that performs voice recognition by comparing a feature parameter obtained by analyzing an input voice signal according to a command from the dialog control unit and a voice recognition dictionary, and a dialog control unit that controls the voice dialogue; The message to be presented to the user is selected and output from the messages stored in the message dictionary storage means according to the command of the dialogue control unit. Comprising the sage selection means, the feature parameters obtained by analyzing the input voice signal are stored in the parameter storage means, the voice is recognized by changing the order of the feature parameters, By recognizing the voice by changing the order of the feature parameters, there is an effect that a voice dialogue apparatus capable of searching for a target item by changing the utterance order is obtained.
[0026]
According to a third aspect of the present invention, an audio signal by dialogue is input, the input audio signal is analyzed to obtain a characteristic parameter, and the input audio signal or the characteristic parameter obtained from the audio signal is obtained. A message to be presented is selected from the stored messages according to the flow of dialogue under the control of the control means, and the order of the accumulated audio signal or feature parameter is different from that of the dialogue flow The speech recognition is performed by collating with the replacement speech recognition dictionary, and the target item can be changed by changing the order of speech by recognizing the speech by changing the order of the input speech signal or the feature parameters of the speech signal. It is possible to obtain a voice dialogue method that can search for
[0027]
Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings and FIGS. FIG. 1 is a block diagram showing the configuration of a voice interactive apparatus according to the first embodiment of the present invention, FIG. 2 is a block diagram showing the configuration of the voice interactive apparatus according to the second embodiment of the present invention, and FIG. FIG. 4 is a flowchart showing the flow of a voice dialogue by the voice dialogue apparatus shown in FIG. 1 and FIG. 2, FIG. 4 is a diagram showing the contents of a voice recognition dictionary for voice recognition of the genre of a search item in the voice dialogue apparatus, and FIG. FIG. 6 shows the contents of a voice recognition dictionary for voice recognition of a prefecture name with a golf course in the voice dialogue device. FIG. 6 shows the contents of the voice recognition dictionary for voice recognition of a golf course in Shizuoka prefecture in the voice dialogue device. FIG.
[0028]
(Embodiment 1)
First, with reference to FIG. 1, the configuration of the voice interactive apparatus according to the first embodiment of the present invention will be described in detail. In FIG. 1, 101 is an input voice control unit that switches between storing an input voice signal, analyzing an input voice signal, or analyzing a stored input voice signal in response to a command from the dialogue control unit 105. This is an input voice accumulation unit that accumulates an input voice signal according to a command from the dialogue control unit 105.
[0029]
Also, 103 is an acoustic analysis unit that analyzes the input speech signal to obtain a feature parameter, and 104 is a collation between the feature parameter obtained by analyzing the input speech signal and the speech recognition dictionary according to a command from the dialogue control unit 105. A voice recognition unit that performs voice recognition, a dialogue control unit 105 that controls voice dialogue, and a dialogue control information storage unit 106 that stores information on the flow of the voice dialogue determined according to the user's operation or the result of voice recognition, A voice recognition dictionary storage unit 107 stores a dictionary used for voice recognition.
[0030]
Further, 108 is a dictionary selection unit that selects a dictionary to be used for speech recognition from a dictionary stored in the speech recognition dictionary storage unit 107 according to a command from the dialog control unit 105, and 109 is a message dictionary stored according to a command from the dialog control unit 105. A message selection unit for selecting a message to be presented to the user from among messages stored in the unit 110, and a message dictionary storage unit for storing a message to be presented to the user by voice.
[0031]
The input voice control unit 101, the input voice storage unit 102, the acoustic analysis unit 103, the voice recognition unit 104, the dialog control unit 105, and the message selection unit 109 are respectively input voice control means, input voice storage means, acoustic analysis means, and voice. It corresponds to a recognition unit, a dialogue control unit, and a message selection unit.
[0032]
Next, with reference to FIG. 1 and FIGS. 3 to 6, the operation of the voice interaction apparatus according to the first embodiment of the present invention will be described in detail with reference to the flow of the conversation shown in FIG.
First, when a voice dialogue is started in response to a user instruction, the dialogue control unit 105 instructs the dictionary selection unit 108 to create a dictionary composed of words representing the genre of search. In response to this command, the dictionary selection unit 108 creates a speech recognition dictionary composed of words representing the genre of search as shown in FIG. 4 from the speech recognition dictionary storage unit 107.
[0033]
Next, the dialogue control unit 105 instructs the message selection unit 109 to output a message that prompts the user to speak a word representing the type of facility. In response to this command, the message selection unit 109 selects a message “Which genre should be searched?” From the message dictionary storage unit 110 and presents it to the user by voice. (Note that this presentation to the user can be made by voice and can also be displayed on the display device, the same applies hereinafter).
[0034]
Next, the dialogue control unit 105 instructs the voice recognition unit 104 to execute voice recognition using the dictionary created by the dictionary selection unit 108, and transmits an input voice signal to the input voice control unit 101. Command to output to the analysis unit. The user who has heard the message “Which genre do you want to search?” Utters a word representing the genre that the user wants to search, in this case “golf course”, and inputs it to the voice interaction device. The input voice signal passes through the input voice control unit 101, the acoustic analysis unit 103 obtains its characteristic parameter, and is recognized by the voice recognition unit 104.
[0035]
As a recognition result, “golf course” is selected as a search genre. The dialogue control unit 105 stores this result. Next, the dialogue control unit 105 instructs the message selection unit 109 to output a message prompting the user to speak the name “golf course”, which is the result of the previous voice recognition. In response to this command, the message selection unit 109 selects a message “What is a golf course?” From the message dictionary storage unit 110 and presents it to the user by voice.
[0036]
Next, the dialogue control unit 105 instructs the input voice control unit 101 and the input voice storage unit 102 to store the input voice signal that has been input. The input voice control unit 101 outputs the voice signal input in accordance with this command to the voice storage unit 102, and the input voice storage unit 102 starts storing the input voice signal.
[0037]
In addition, the user who heard the message “What is the golf course?” Presented earlier utters a word indicating the golf course that the user wishes to search, in this case “XX Country Club”, and sends it to the voice interaction device. input. The input sound “XX country club” is stored in the input sound storage unit 102 via the input sound control unit 101.
[0038]
When the accumulation is completed, the dialogue control unit 105 instructs the dictionary selection unit 108 to create a dictionary composed of words representing prefecture names to be searched. In response to this command, the dictionary selection unit 108 creates a speech recognition dictionary composed of words representing prefecture names to be searched as shown in FIG. 5 from the speech recognition dictionary storage unit 107.
[0039]
Next, the dialogue control unit 105 instructs the message selection unit 109 to output a message that prompts the user to speak a word representing the name of the prefecture to be searched. In response to this command, the message selection unit 109 selects a message “in which prefecture is it?” From the message dictionary storage unit 110 and presents it to the user by voice.
[0040]
Next, the dialogue control unit 105 instructs the voice recognition unit 104 to execute voice recognition using the dictionary created by the dictionary selection unit 108 and sends an input voice signal to the input voice control unit 101. Command to output to the acoustic analysis unit 103. The user who heard the previous message “Where is it?” Speaks a word representing the prefecture to be searched, in this case “Shizuoka Prefecture”, and inputs it to the voice interaction device. The input speech signal “Shizuoka Prefecture” is obtained by the acoustic analysis unit 103 via the input speech control unit 101, the characteristic parameter is obtained and recognized by the speech recognition unit 104, and “Shizuoka Prefecture” is searched as the recognition result. It is chosen as the target prefecture name.
[0041]
The dialogue control unit 105 stores the result, and combines the result of speech recognition “Shizuoka Prefecture” with the result of speech recognition performed before that, “golf course”, in the dictionary selection unit 108. On the other hand, it instructs the creation of a dictionary composed of the names of golf courses in Shizuoka Prefecture. In response to this command, the dictionary selection unit 108 creates a speech recognition dictionary composed of names of golf courses in Shizuoka Prefecture as shown in FIG. 6 from the speech recognition dictionary storage unit 107.
[0042]
Next, the dialogue control unit 105 outputs, to the acoustic analysis unit 103, the voice signal of “XX country club” that is the user's utterance that has been previously accumulated, to the input voice control unit 101 and the input voice storage unit 102. Command that. In response to this instruction, the voice accumulation unit 102 outputs the accumulated voice signal to the input voice control unit 101, and the input voice control unit 101 starts outputting the input voice signal to the acoustic analysis unit 103. The sound signal is analyzed by the sound analysis unit 103 to obtain a feature parameter, and is recognized by the sound recognition unit 104. From the recognition result, “XX country club” as shown in FIG. 6 is selected and the search target is determined.
[0043]
Next, the dialogue control unit 105 instructs the message selection unit 109 to present the confirmed search target “XX country club” to the user by voice. In response to this command, the message selection unit 109 combines the content stored in the message dictionary storage unit 110 with “XX country club” and creates a message “Displays a map near the XX country club.” To the user by voice. Then, the map is displayed. With the above operation, the dialog flow shown in FIG. 3 is completed.
[0044]
(Embodiment 2)
Next, with reference to FIG. 2, the configuration of the voice interactive apparatus according to the second embodiment of the present invention will be described in detail. In FIG. 2, 201 is an acoustic analysis unit that analyzes an input voice signal and obtains a feature parameter thereof, and 202 stores a feature parameter obtained as a result of analyzing the input voice signal in response to a command from the dialogue control unit 205. Or a parameter control unit that performs switching between voice recognition of a feature parameter obtained as a result of analyzing an input voice signal or voice recognition of an accumulated feature parameter.
[0045]
Reference numeral 203 denotes a parameter accumulating unit that accumulates feature parameters obtained by analyzing the input voice signal according to a command from the dialogue control unit 205, and 204 denotes a result obtained by analyzing the input voice signal according to a command from the dialogue control unit 205. A speech recognition unit that performs speech recognition by comparing the feature parameter and the speech recognition dictionary; 205, a dialog control unit that controls speech interaction; and 206, a flow of speech interaction performed according to a user operation or a result of speech recognition An information storage unit for dialog control that stores information, 207 is a voice recognition dictionary storage unit that stores a dictionary used for voice recognition.
[0046]
208 is a dictionary selection unit that selects a dictionary to be used for speech recognition from a dictionary stored in the speech recognition dictionary storage unit according to a command from the dialog control unit, and 209 is a message dictionary storage unit that receives a command from the dialog control unit. A message selection unit 210 for selecting a message to be presented to the user from stored messages, and a message dictionary storage unit 210 for storing a message to be presented to the user.
[0047]
The acoustic analysis unit 201, parameter control unit 202, parameter storage unit 203, speech recognition unit 204, dialogue control unit 205, and message selection unit 209 are respectively an acoustic analysis unit, parameter control unit, parameter storage unit, voice recognition unit, dialogue unit. Corresponds to control means and message selection means.
[0048]
Next, with reference to FIG. 2 and FIGS. 3 to 6, the operation of the voice interaction apparatus according to the second embodiment of the present invention will be described in detail with reference to the flow of interaction shown in FIG.
First, when a voice dialogue is started in accordance with a user instruction, the dialogue control unit 205 instructs the dictionary selection unit 208 to create a dictionary composed of words representing a search genre. In response to this command, the dictionary selection unit 208 creates a speech recognition dictionary composed of words representing the genre of search as shown in FIG. 4 from the speech recognition dictionary storage unit 207.
[0049]
Next, the dialogue control unit 205 instructs the message selection unit 209 to output a message that prompts the user to speak a word indicating the type of facility. In response to this command, the message selection unit 209 selects a message “Which genre is to be searched” from the message dictionary storage unit 210 and presents it to the user by voice.
[0050]
Therefore, the dialogue control unit 205 instructs the voice recognition unit 204 to execute voice recognition using the dictionary created by the dictionary selection unit 208 and inputs to the parameter control unit 202 in the acoustic analysis unit 201. It instructs to output to the speech recognition unit 204 a feature parameter obtained as a result of analyzing the speech signal. The user who has heard the message “Which genre do you want to search?” Utters a word representing the genre that the user wants to search, in this case “golf course”, and inputs it to the voice interaction device.
[0051]
The input voice signal “golf course” is analyzed by the acoustic analysis unit 201 and converted into a characteristic parameter, and the characteristic parameter obtained by the acoustic analysis unit 201 is recognized by the voice recognition unit 204 via the parameter control unit 202. The As a recognition result, “golf course” is selected as a search genre. This result is stored in the dialogue control unit 205. Next, the dialogue control unit 205 instructs the message selection unit 209 to output a message that prompts the user to speak the name of the golf course, which is the result of the previous speech recognition. In response to this command, the message selection unit 209 selects a message “What is a golf course?” From the message dictionary storage unit 210 and presents it to the user by voice.
[0052]
Next, the dialogue control unit 205 instructs the parameter control unit 202 and the parameter storage unit 203 to store characteristic parameters obtained as a result of analyzing the input voice signal in the acoustic analysis unit 201. In response to this command, the parameter control unit 202 outputs the input voice signal to the parameter storage unit 203, and the input parameter storage unit 203 starts storing feature parameters obtained by analyzing the input voice signal.
[0053]
In addition, the user who heard the message “What is the golf course?” Presented earlier speaks the golf course that the user wishes to search for, in this case, “○ Country Club” and speaks a voice dialogue device. To enter. The input audio signal “XX country club” is analyzed by the acoustic analysis unit 201, converted into a characteristic parameter, and stored in the parameter storage unit 203 via the parameter control unit 202.
[0054]
When the accumulation is completed, the dialogue control unit 205 instructs the dictionary selection unit 208 to create a dictionary composed of words representing prefecture names to be searched. In response to this instruction, the dictionary selection unit 208 creates a speech recognition dictionary composed of words representing prefecture names to be searched as shown in FIG. 5 from the speech recognition dictionary storage unit 207.
[0055]
Next, the dialogue control unit 205 instructs the message selection unit 209 to output a message that prompts the user to speak a word representing the name of the prefecture to be searched. In response to this command, the message selection unit 209 selects a message “in which prefecture is it?” From the message dictionary storage unit 210 and presents it to the user by voice.
[0056]
Next, the dialogue control unit 205 instructs the voice recognition unit 204 to execute voice recognition using the dictionary created by the dictionary selection unit 208, and transmits an input voice signal to the parameter control unit 202 as an acoustic signal. It instructs to output the characteristic parameter obtained by the analysis by the analysis unit 201 to the voice recognition unit 204.
[0057]
The user who heard the previous message “Where is it?” Utters a word representing the prefecture to be searched, in this case “Shizuoka Prefecture”, and inputs it to the voice interaction device. The input speech signal “Shizuoka Prefecture” is analyzed by the acoustic analysis unit 201 and converted into feature parameters, and the feature parameters obtained by the acoustic analysis unit 201 are recognized by the speech recognition unit 204 via the parameter control unit 202. Is done.
[0058]
As a recognition result, “Shizuoka Prefecture” is selected as the name of the search target prefecture. This result is stored in the dialogue control unit 205. The dialogue control unit 205 combines “Shizuoka Prefecture” as the result of the previous speech recognition with “Golf course” as the result of the speech recognition performed before that, and the dictionary selection unit 208 is informed about the golf course in Shizuoka Prefecture. Directs the creation of a dictionary composed of names. In response to this instruction, the dictionary selection unit 208 creates a speech recognition dictionary composed of names of golf courses in Shizuoka Prefecture as shown in FIG. 6 from the speech recognition dictionary storage unit 207.
[0059]
Next, the dialogue control unit 205 instructs the parameter control unit 202 and the parameter storage unit 203 to output to the voice recognition unit 204 the characteristic parameter of “XX country club” based on the voice of the user stored previously. To do. In response to this command, the parameter storage unit 203 outputs the stored feature parameters to the parameter control unit 202, and the parameter control unit 202 starts outputting the feature parameters to the voice recognition unit 204. This feature parameter is recognized by the voice recognition unit 204, and as a result of the recognition, “XX country club” is selected and the search target is determined.
[0060]
Next, the dialogue control unit 205 instructs the message selection unit 209 to present the confirmed search target “XX country club” to the user. In response to this command, the message selection unit 209 combines the content stored in the message dictionary storage unit 210 with “XX country club” and creates a message “Displays a map near the XX country club.” To the user by voice. Then, the map is displayed. With the above operation, the dialog flow shown in FIG. 3 is completed.
[0061]
【The invention's effect】
The present invention is configured as described above, and particularly includes an input voice storage unit that temporarily stores an input voice signal or a parameter storage unit that temporarily stores characteristic parameters obtained as a result of analyzing the input voice signal, and uttered later. The speech recognition result of the word is used to narrow down the recognition target vocabulary for the previously uttered word, so that it can be recognized by using the speech recognition unit with the same performance before supplementing the main information. A dialogue flow of inputting information can be realized, and a voice dialogue device and a dialogue method that are easier to use for a user can be provided, which can search a target item by changing the utterance order.
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a voice interaction apparatus according to a first embodiment of the present invention.
FIG. 2 is a block diagram showing a configuration of a voice interaction apparatus according to a second embodiment of the present invention.
FIG. 3 is a flowchart showing the flow of a voice dialogue by the voice dialogue apparatus shown in FIGS. 1 and 2;
FIG. 4 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a genre of a search item in a voice dialogue apparatus.
FIG. 5 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a prefecture name with a golf course in a voice dialogue apparatus.
FIG. 6 is a diagram showing the contents of a voice recognition dictionary for voice recognition of a golf course in Shizuoka Prefecture in a voice dialogue apparatus.
FIG. 7 is a block diagram showing a configuration of a conventional voice interaction apparatus
FIG. 8 is a flowchart showing the flow of a voice dialogue by the voice dialogue apparatus shown in FIG.
[Explanation of symbols]
101 Input voice control unit
102 Input voice storage unit
103 Acoustic analysis unit
104 Voice recognition unit
105 Dialogue control unit
106 Dialog control information storage unit
107 voice recognition dictionary storage
108 Dictionary selector
109 Message selector
110 Message dictionary storage
201 Acoustic analysis unit
202 Parameter control unit
203 Parameter storage unit
204 Voice recognition unit
205 Dialogue control unit
206 Dialogue control information storage
207 Voice recognition dictionary storage
208 Dictionary selection part
209 Message selector
210 Message dictionary storage
303 Acoustic analysis unit
304 Voice recognition unit
305 Dialogue control unit
306 Dialogue control information storage unit
307 Voice recognition dictionary storage
308 Dictionary selection part
309 Message selector
310 Message dictionary storage

Claims (2)

対話制御部が入力音声信号を蓄積するか分析するかまたは蓄積した入力音声信号を分析するかを指令することにより入力音声信号を蓄積するか分析するかまたは蓄積した入力音声信号を分析するかの切り換えを行う入力音声制御手段と、
対話制御部が入力音声信号を蓄積することを指令することにより入力音声信号を蓄積する入力音声蓄積手段と、
入力された音声信号を分析して特徴パラメータを求める音響分析手段と、
対話制御部が音声認識の実行を指令することにより入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、
対話制御部が指定する辞書を音声認識格納手段から取り出し音声認識手段に渡す辞書選択部と、
予め決められた順序で音声認識辞書の選択を指令しユーザーに対するメッセージを提示し音声認識の実行を指令しさらに音声認識の結果得られた認識結果に基づき、次の音声認識に関しても同様の動作を行う音声対話を制御する対話制御部と、
対話制御部の指令により格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、
先に発声された音声信号を前記入力音声蓄積手段に蓄積しておき、前記音響分析手段及び前記音声認識手段により後から発声された音声信号の認識を行い、得られた音声認識結果を、蓄積されている前記先に発声された音声信号に対して認識を行う際の、音声認識対象の絞り込みに利用することにより、入力音声信号の順序を入れ替えて音声認識することを特徴とする音声対話装置。
Whether the dialog control unit stores or analyzes the input voice signal by commanding whether to store or analyze the input voice signal or to analyze the stored input voice signal, or to analyze the stored input voice signal Input voice control means for switching,
Input voice storage means for storing the input voice signal by instructing the dialog control unit to store the input voice signal;
An acoustic analysis means for analyzing the input speech signal to obtain a characteristic parameter;
A speech recognition means for performing speech recognition by collating a feature parameter obtained by analyzing an input speech signal by instructing execution of speech recognition by a dialog control unit and a speech recognition dictionary;
A dictionary selection unit that takes out the dictionary designated by the dialogue control unit from the speech recognition storage unit and passes it to the speech recognition unit ;
The same operation is performed for the next speech recognition based on the recognition result obtained by instructing selection of the speech recognition dictionary in a predetermined order, presenting a message to the user and instructing execution of speech recognition, and further by speech recognition. A dialogue control unit for controlling a voice dialogue to be performed;
A message selection means for selecting and outputting a message to be presented to the user from among the messages stored by commands of the dialogue control unit;
The voice signal previously uttered is accumulated in the input voice accumulation means, the voice signal uttered later is recognized by the acoustic analysis means and the voice recognition means, and the obtained voice recognition result is accumulated. A spoken dialogue apparatus characterized by recognizing a voice by changing the order of input voice signals by using it for narrowing down a voice recognition target when recognizing the previously voiced voice signal. .
入力された音声信号を分析してその特徴パラメータを求める音響分析手段と、
対話制御部が分析された特徴パラメータを蓄積するかまたは蓄積された特徴パラメータを音声認識手段へ出力するかを指令することにより分析された特徴パラメータを蓄積するか蓄積された特徴パラメータを音声認識手段へ出力するかの切り換えを行う入力パラメータ制御手段と、
対話制御部が特徴パラメータを蓄積することを指令することにより特徴パラメータを蓄積するパラメータ蓄積手段と、
対話制御部が音声認識の実行を指令することにより入力音声信号を分析して得られた特徴パラメータと音声認識辞書とを照合して音声認識を行う音声認識手段と、
対話制御部が指定する辞書を音声認識格納手段から取り出し音声認識手段に渡す辞書選択部と、
予め決められた順序で音声認識辞書の選択を指令しユーザーに対して質問などのメッセージを提示し音声認識の実行を指令しさらに音声認識の結果得られた認識結果に基づき、次の音声認識に関しても同様の動作を行う音声対話を制御する対話制御部と、
対話制御部の指令により格納されているメッセージの中から使用者に対して提示すべきメッセージを選択して出力するメッセージ選択手段とからなり、
先に発声された音声信号を分析して得られた特徴パラメータを、前記パラメータ蓄積手段に蓄積しておき、前記音声認識手段により後から発声された音声信号の特徴パラメータの認識を行い、得られた音声認識結果を、蓄積されている先に発声された音声信号の前記特徴パラメータに対して認識を行う際の、音声認識対象の絞り込みに利用することにより、入力音声信号の順序を入れ替えて音声認識することを特徴とする音声対話装置。
Acoustic analysis means for analyzing the input speech signal and obtaining its characteristic parameters;
The dialogue control unit stores the analyzed feature parameter or outputs the stored feature parameter to the voice recognition unit, and stores the analyzed feature parameter or the stored feature parameter as a voice recognition unit. Input parameter control means for switching whether to output to,
Parameter storage means for storing feature parameters by instructing the dialog control unit to store feature parameters;
A speech recognition means for performing speech recognition by collating a feature parameter obtained by analyzing an input speech signal by instructing execution of speech recognition by a dialog control unit and a speech recognition dictionary;
A dictionary selection unit that takes out the dictionary designated by the dialogue control unit from the speech recognition storage unit and passes it to the speech recognition unit ;
Instructs the user to select a speech recognition dictionary in a predetermined order, presents a message such as a question to the user, instructs the user to execute speech recognition, and further determines the next speech recognition based on the recognition result obtained as a result of speech recognition. Has a dialogue control unit for controlling a voice dialogue that performs the same operation,
A message selection means for selecting and outputting a message to be presented to the user from among the messages stored by commands of the dialogue control unit;
A feature parameter obtained by analyzing a speech signal uttered earlier is stored in the parameter storage means, and a feature parameter of a speech signal uttered later is recognized by the speech recognition means. The voice recognition result is used to narrow down the voice recognition target when the feature parameter of the voice signal uttered earlier is recognized, thereby changing the order of the input voice signals. A voice interactive apparatus characterized by recognizing .
JP29589696A 1996-10-18 1996-10-18 Spoken dialogue apparatus and dialogue method Expired - Fee Related JP3755941B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP29589696A JP3755941B2 (en) 1996-10-18 1996-10-18 Spoken dialogue apparatus and dialogue method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP29589696A JP3755941B2 (en) 1996-10-18 1996-10-18 Spoken dialogue apparatus and dialogue method

Publications (2)

Publication Number Publication Date
JPH10124087A JPH10124087A (en) 1998-05-15
JP3755941B2 true JP3755941B2 (en) 2006-03-15

Family

ID=17826564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP29589696A Expired - Fee Related JP3755941B2 (en) 1996-10-18 1996-10-18 Spoken dialogue apparatus and dialogue method

Country Status (1)

Country Link
JP (1) JP3755941B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6556970B1 (en) 1999-01-28 2003-04-29 Denso Corporation Apparatus for determining appropriate series of words carrying information to be recognized
JP4832097B2 (en) * 2006-02-13 2011-12-07 富士通テン株式会社 Spoken dialogue system

Also Published As

Publication number Publication date
JPH10124087A (en) 1998-05-15

Similar Documents

Publication Publication Date Title
JP4260788B2 (en) Voice recognition device controller
JP4270611B2 (en) Input system
US6975986B2 (en) Voice spelling in an audio-only interface
US6961706B2 (en) Speech recognition method and apparatus
JP3278222B2 (en) Information processing method and apparatus
JP2004510239A (en) How to improve dictation and command distinction
JP2002304190A (en) Method for generating pronunciation change form and method for speech recognition
JP2003515177A (en) Natural language interface control system
JP4104313B2 (en) Voice recognition device, program, and navigation system
JP2006201749A (en) Voice selection device and selection method
US20040098259A1 (en) Method for recognition verbal utterances by a non-mother tongue speaker in a speech processing system
JPH09311692A (en) Voice input control device
JP3378595B2 (en) Spoken dialogue system and dialogue progress control method thereof
JP4056711B2 (en) Voice recognition device
JP3755941B2 (en) Spoken dialogue apparatus and dialogue method
JP3830124B2 (en) Voice recognition device
JP3576511B2 (en) Voice interaction device
JP3682958B2 (en) Search device, search method and database for compound nouns input by speech
JP2001042887A (en) How to train an automatic speech recognizer
Georgila et al. A speech-based human-computer interaction system for automating directory assistance services
JP3846896B2 (en) Search device, search method and database for compound nouns input by speech
JP2001147134A (en) Navigation device
JPH0854894A (en) Voice processing device
JP2006133296A (en) Spoken dialogue device
JPH06261126A (en) Operator support type voice interactive device

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20050602

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20050804

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050922

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20051206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20051220

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100106

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees