JP6495015B2 - Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device - Google Patents
Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device Download PDFInfo
- Publication number
- JP6495015B2 JP6495015B2 JP2015002569A JP2015002569A JP6495015B2 JP 6495015 B2 JP6495015 B2 JP 6495015B2 JP 2015002569 A JP2015002569 A JP 2015002569A JP 2015002569 A JP2015002569 A JP 2015002569A JP 6495015 B2 JP6495015 B2 JP 6495015B2
- Authority
- JP
- Japan
- Prior art keywords
- response
- unit
- voice
- correction
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、ユーザの発話に対して応答する音声対話装置を制御するための音声対話制御装置に関する。 The present invention relates to a voice dialogue control device for controlling a voice dialogue device that responds to a user's utterance.
ユーザの発話に対して音声や動作で応答することで、ユーザと対話する音声対話装置(ロボット)が、従来から広く研究されている。ここで、ユーザと音声対話装置の対話においては、ユーザが発話してから、音声対話装置が当該発話の内容に応じた応答をするまでにある程度の時間を要する。この時間に音声対話装置が何も動作しないと、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じる可能性がある。この問題に対する解決策として、例えば、下記の特許文献1には、サーバからの回答を受信するまでの待機時間を予測して、必要であれば待機時間を埋める動作(場つなぎ動作)を実行する技術が開示されている。
2. Description of the Related Art Conventionally, a speech dialogue apparatus (robot) that interacts with a user by responding to the user's utterance with voice or motion has been widely studied. Here, in the dialogue between the user and the voice interactive device, a certain amount of time is required from when the user speaks until the voice interactive device responds according to the content of the speech. If the voice interaction device does not operate at this time, the user may feel stress in communication with the voice interaction device. As a solution to this problem, for example, in
しかしながら、上記の特許文献1および2に記載の技術では、場つなぎ動作の実行の有無に関わらず、ユーザが同じ内容の音声を発した場合の応答は画一的である。例えば「今日の天気は何?」というユーザの質問に対してすぐに応答した場合と、場つなぎ動作を実行した後で(時間を要して)応答した場合とで、同じ「晴れだよ」という応答を実行している。つまり、従来の技術では、応答までに時間を要したなどの通常と異なる応答をすべき状況で、音声対話装置は画一的な応答しかできないという問題があった。
However, with the technologies described in
本発明は、上記の問題に鑑みてなされたものであり、その目的は、応答を修正すべき状況で応答を修正することで、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させる音声対話制御装置などを提供することにある。 The present invention has been made in view of the above problems, and an object of the present invention is to improve the flexibility of communication between a user and a voice interaction device by correcting the response in a situation where the response should be corrected. It is to provide a control device and the like.
上記の課題を解決するために、本発明の一態様に係る音声対話制御装置は、音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成部と、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定部と、上記判定部が、上記修正条件が満たされたと判定したとき、上記応答生成部が生成した上記応答を修正した修正応答を生成する修正部と、上記修正部が生成した上記修正応答を上記音声対話装置に実行させる応答実行部と、を備える。 In order to solve the above-described problem, a voice interaction control device according to one aspect of the present invention acquires a response, a response generation unit that generates a response to a voice uttered by a user, and that is executed by the voice interaction device. The determination unit for determining whether or not the correction condition for determining whether or not the response needs to be corrected is satisfied during the standby time until the response can be output, and the determination unit satisfies the correction condition. A correction unit that generates a correction response that corrects the response generated by the response generation unit, and a response execution unit that causes the voice interaction device to execute the correction response generated by the correction unit. Prepare.
また、上記の課題を解決するために、本発明の一態様に係る音声対話制御装置の制御方法は、音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成ステップと、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定ステップと、上記判定ステップにて、上記修正条件が満たされたと判定したとき、上記応答生成ステップにて生成した上記応答を修正した修正応答を生成する修正ステップと、上記修正ステップにて生成した上記修正応答を上記音声対話装置に実行させる応答実行ステップと、を含む。 In order to solve the above-described problem, a control method for a voice interaction control device according to an aspect of the present invention includes a response generation step of generating a response to a voice uttered by a user, executed by the voice interaction device; A determination step for determining whether or not a correction condition for determining whether or not the response needs to be corrected is satisfied in a waiting time from when the voice is acquired until the response can be output. When it is determined that the correction condition is satisfied, a correction step for correcting the response generated in the response generation step is generated, and the correction response generated in the correction step is sent to the voice interaction device. A response execution step to be executed.
本発明の一態様によれば、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させるという効果を奏する。 According to one aspect of the present invention, there is an effect that the flexibility of communication between the user and the voice interaction apparatus is improved.
〔実施形態1〕
本発明の一実施形態(実施形態1)について図1から図4に基づいて説明すると以下のとおりである。
An embodiment (Embodiment 1) of the present invention will be described below with reference to FIGS.
まず、図1に基づいて、本実施形態に係る音声対話装置10について説明する。図1は、本実施形態に係る音声対話装置10の構成を示すブロック図である。
First, the voice
音声対話装置10は、ユーザの発話に対して音声や動作で応答することで、ユーザと対話する装置である。なお、音声対話装置10の具体例としては人型ロボットが挙げられるが、これに限定されるものではない。例えば、音声対話装置10の他の具体例として、スマートフォンなどの音声対話機能付きの携帯端末や、音声対話機能付きのカーナビゲーションシステムなどが挙げられる。図1に示すように、音声対話装置10は、音声対話制御装置を制御部1として備えている。なお、音声対話装置10と音声対話制御装置とは別体であってもよい。また、音声対話装置10は、上記制御部1(音声対話制御装置)の他に、音声入力部2、通信部3、音声出力部4、駆動部5、および記憶部6を備えている。
The
音声入力部2はユーザが発した音声を取得するいわゆるマイクである。音声入力部2は、取得した音声を音声データに変換し、後述する音声認識部13に出力する(図1においてはd2で示している)。また、音声入力部2は、音声を取得した旨を後述する待機時間計測部11に通知する(図1においてはd1で示している)。通信部3は音声対話装置10が外部機器と通信を行う。具体的には、通信部3は、後述する応答生成部14によって制御されて、外部機器から応答生成に必要なデータを受信する。例えば通信部3は、天気予報に関するデータを管理する天気予報サーバ(不図示)から、明日の天気に関するデータを取得し、応答生成部14に出力する。音声出力部4は音声を出力するいわゆるスピーカである。具体的には、音声出力部4は、ユーザが発した音声に対する応答としての音声を出力する。駆動部5は音声対話装置10(人型ロボット)における頭部や脚部などの可動部位を駆動させるものであり、例えばサーボモータである。なお、サーボモータ以外のアクチュエータを用いてもよい。具体的には、駆動部5は、ユーザが発した音声に対する応答としての動作を、可動部位を駆動させることで音声対話装置10に行わせる。なお、音声対話装置10がスマートフォンなどの可動部位を有しない装置である場合、駆動部5は省略されてもよい。記憶部6は、音声対話装置10にて使用される各種データを記憶する。記憶部6は少なくとも、応答修正テーブル61を記憶している。なお、応答修正テーブル61の詳細については後述する。
The
制御部1は、音声対話装置10が備える各部を統括制御する。制御部1は、待機時間計測部11、応答修正部12、音声認識部13、応答生成部14、および応答実行部15を含んでいる。
The
待機時間計測部11は、ユーザが発した音声を取得してから、当該音声に対する応答を生成するまでの待機時間を計測する。具体的には、待機時間計測部11は音声入力部2から音声を取得した旨を通知されると、タイマ(不図示)による時間の計測を開始する。また、待機時間計測部11は、応答生成部14から応答情報の生成が完了した旨の通知を受けると、タイマによる時間の計測を終了する。そして、計測した時間Taを応答修正部12に出力する。
The standby
応答修正部12は、応答生成部14が生成した応答情報を修正して修正応答を生成する。応答修正部12は、修正要否判定部21(判定部)および修正実行部22(修正部)を含む。
The
修正要否判定部21は、ユーザが発した音声を取得してから、当該音声に対する応答が出力可能になるまでの待機時間に応答の修正要否を判定するための修正条件が満たされたか否かを判定する。具体的には、修正要否判定部21は、待機時間計測部11から受け取った時間(待機時間計測部11が計測した時間)が、所定の値より大きいか否かを判定する。そして、判定結果を修正実行部22に出力する。なお、所定の値は、応答情報の生成が長引いたと判断されるような時間の値(例えば3秒など)である。
Whether or not the correction
修正実行部22は、上記修正条件が満たされたと判定されたとき、応答生成部14が生成した応答情報を修正する。具体的には、修正実行部22は、修正要否判定部21から受け取った判定結果が、待機時間計測部11から受け取った時間が所定の値より大きいことを示しているとき、記憶部6に記憶されている応答修正テーブル61を用いて、応答生成部14から受け取った応答情報を修正する。
The
ここで、図2を参照して、応答修正テーブル61の詳細について説明する。図2は、記憶部6に記憶されている応答修正テーブル61のデータ構造およびデータ例を示す図である。なお、図2に示す応答修正テーブル61は一例であり、データ構造およびデータ例を図2の例に限定するものではない。応答修正テーブル61は、応答情報の生成に要した時間、すなわち待機時間を示す情報(時間情報、以降、待機時間と称する)と、応答情報に付加する付加応答の内容(修正内容)を示す情報(修正内容情報、以降、付加応答情報)とを対応付けたテーブルである。つまり、応答修正テーブル61は、待機時間計測部11が計測した時間に応じて、異なる付加応答情報が対応付けられたテーブルである。なお、「待機時間」のカラムには、「4〜7秒」などの時間の範囲を示す情報が格納されてもよい。
Here, the details of the response correction table 61 will be described with reference to FIG. FIG. 2 is a diagram illustrating a data structure and a data example of the response correction table 61 stored in the
より具体的には、修正実行部22は、応答修正テーブル61を参照して、待機時間計測部11から受け取った時間と合致する(対応する)待機時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、受け取った応答情報に付加することで、応答情報を修正する。例えば、「晴れだよ」と発話する応答を示す応答情報(音声データ)を受け取っており、また、受け取った時間が5秒である場合、修正実行部22は、図2に示すNo.1またはNo.2の付加応答情報のいずれかを応答情報を修正するための付加応答情報として決定する。このように、対応付けられた待機時間が合致する付加応答情報が複数ある場合、修正実行部22は、ランダムに1つを選択すればよい。なおここでは、No.1の付加応答情報が選択されたものとする。修正実行部22は、「晴れだよ」と発話するための音声データを「お待たせ。晴れだよ」と発話する音声データに修正する。そして、修正実行部22は、修正した応答情報(上記の例の場合、音声データ)を応答実行部15に出力する。なお、受け取った時間と「待機時間」のカラムに格納された時間とが完全に合致しなくてもよく、格納された待機時間を含む所定の範囲内に、受け取った時間が含まれているときに、当該待機時間に対応付けられた付加応答情報を応答情報に付加してもよい。
More specifically, the
一方、修正実行部22は、修正要否判定部21から受け取った判定結果が、待機時間が所定の値以下であることを示しているとき、応答生成部14から受け取った応答情報を修正せず、そのまま応答実行部15に出力する。
On the other hand, the
音声認識部13は、音声入力部2から受け取った音声データについて、音声認識処理を行う。なお、音声認識処理については既存の技術を利用することができる。音声認識部13は、受け取った音声データの音声認識結果を応答生成部14に出力する。
The
応答生成部14は、ユーザが発した音声に対する応答を示す応答情報を生成する。この応答には、音声の出力、音声対話装置10の可動部位の動作、並びに、音声の出力および可動部位の動作の3種類がある。応答生成部14による応答情報の生成には既存の技術を利用することができる。例えば、記憶部6に認識した音声データの内容と応答内容とを対応付けたテーブル(不図示)を格納しておき、当該テーブルを参照することで応答情報を生成してもよい。また、応答生成部14は、応答情報の生成に、明日の天気の情報などの外部データを用いる必要がある場合、通信部3を制御して当該データを取得する。応答生成部14は、生成した応答情報(音声出力用の音声データや、可動部位を動作させるためのアクションデータなど)を応答修正部12(修正実行部22)に出力する(図1においてはd4で示している)。また、応答生成部14は、応答情報の生成が完了した旨を待機時間計測部11に通知する(図1においてはd3で示している)。
The
応答実行部15は、応答生成部14が生成し、必要に応じて応答修正部12が修正した応答情報に応じて応答を実行する。具体的には、応答実行部15は、応答修正部12(修正実行部22)から応答情報を受け取り、当該応答情報が示す動作を音声対話装置10に実行させる。例えば、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10の可動部位を動作させたりする。
The
次に、図3に基づいて、制御部1が実行する応答実行処理の流れについて説明する。図3は、制御部1が実行する応答実行処理の流れの一例を示すフローチャートである。
Next, based on FIG. 3, the flow of response execution processing executed by the
まず、音声入力部2は音声の入力を待機している(S1)。音声入力部2は、ユーザが発した音声を取得すると(S1でYES)、取得した音声を音声データに変換し、当該音声データを音声認識部13に出力する。また、音声入力部2は、音声を取得した旨を待機時間計測部11に通知する。
First, the
続いて待機時間計測部11は、音声を取得した旨の通知を受けると、時間の計測を開始する(S2)。また、音声認識部13は受け取った音声データについて音声認識処理を行う(S3)。音声認識部13は、音声認識結果を応答生成部14に出力する。続いて、応答生成部14は、受け取った音声認識結果に応じて、応答情報を生成する(S4、応答生成ステップ)。そして、応答生成部14は、応答情報を生成した旨を待機時間計測部11に通知する。また、応答生成部14は、生成した応答情報を修正実行部22に出力する。続いて、待機時間計測部11は、応答生成部14からの通知を受けると、時間の計測を終了する(S5)。そして、計測結果(計測した時間Ta)を修正要否判定部21に出力する。
Subsequently, when receiving the notification that the voice has been acquired, the standby
修正要否判定部21は、待機時間計測部11から受け取った時間Taが所定の値より大きいか否かを判定する(S6、判定ステップ)。そして、修正要否判定部21は、判定結果を修正実行部22に出力する。
The correction
時間Taが所定の値より大きいと判定された場合(S6でYES)、修正実行部22は当該判定結果を受け取ると、時間Taに応じた付加応答を特定し、応答情報を修正する(S7、修正ステップ)。具体的には、修正実行部22は、記憶部6に記憶されている応答修正テーブル61を参照して、受け取った時間Taと合致する待機時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、応答生成部14から受け取った応答情報に付加することで、応答情報を修正する。そして、修正実行部22は、修正した応答情報を応答実行部15に出力する。
If the time T a is determined to be greater than the predetermined value (YES in S6), the
これに対して、時間Taが所定の値以下であると判定された場合(S6でNO)、修正実行部22は当該判定結果を受け取ると、応答生成部14から受け取った応答情報を修正することなく、応答実行部15に出力する。つまり、上述したステップS7の処理が省略される。
In contrast, if the time T a is determined to be equal to or less than the predetermined value (NO at S6),
最後に、応答実行部15は音声対話装置10に応答を実行させる(S8、応答実行ステップ)。具体的には、応答実行部15は、受け取った応答情報に応じて、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10の可動部位を動作させたりする。以上で、応答実行処理は終了する。
Finally, the
〔実施形態2〕
本発明の他の実施形態(実施形態2)について、図4〜図7に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
[Embodiment 2]
The following will describe another embodiment (Embodiment 2) of the present invention with reference to FIGS. For convenience of explanation, members having the same functions as those described in the embodiment are given the same reference numerals, and descriptions thereof are omitted.
本実施形態では、待機時間計測部11から受け取った時間と「待機時間」のカラムに格納された待機時間とが合致する付加応答情報を特定する前に、音声入力部2から入力された音声(音声データ)の属性と、付加応答情報の属性とが合致する付加応答情報を特定する例について説明する。
In the present embodiment, the voice input from the
まず、図4に基づいて、本実施形態に係る音声対話装置10aについて説明する。図4は、本実施形態に係る音声対話装置10aの構成を示すブロック図である。音声対話装置10aは、実施形態1に係る音声対話装置10と比較して、制御部1に代えて制御部1aを備え、記憶部6に代えて記憶部6aを備えている。本実施形態では、制御部1aは、実施形態1に係る制御部1と比較して、応答修正部12に代えて応答修正部12aを含み、音声認識部13に代えて音声認識部13a(音声属性特定部)を含む。また、記憶部6aは、実施形態1に係る記憶部6と比較して、応答修正テーブル61に代えて応答修正テーブル61aを記憶している。また、記憶部6aは新たに呼びかけ属性テーブル62を記憶している。
First, the voice
音声認識部13aは、音声入力部2から受け取った音声データについて、音声認識処理を行い、音声認識結果を応答生成部14に出力する(図4においてはd5で示している)。また、音声認識部13aは音声データに属性を付与する。具体的には、音声認識部13aは、音声認識を行った後、記憶部6aに記憶されている呼びかけ属性テーブル62を参照する。
The
ここで、図5を参照して、呼びかけ属性テーブル62の詳細について説明する。図5は記憶部6aに記憶されている呼びかけ属性テーブルのデータ構造およびデータ例を示す図である。なお、図5に示す呼びかけ属性テーブル62は一例であり、データ構造およびデータ例を図5の例に限定するものではない。呼びかけ属性テーブル62は、図5の(a)に示すように、音声認識結果と呼びかけ属性とを対応付けたテーブルである。換言すれば、呼びかけ属性テーブル62は、音声認識結果に基づいて音声データの呼びかけ属性を特定するためのテーブルである。「呼びかけ」のカラムには、音声認識結果、すなわちユーザが発した音声をテキストデータにした情報が格納されている。また、「呼びかけ属性」のカラムには、当該音声の内容のカテゴリを示す呼びかけ属性(音声属性)が格納されている。音声認識部13aは、音声認識結果を用いて呼びかけ属性テーブル62を参照し、音声データの呼びかけ属性を特定する。そして、特定した呼びかけ属性を修正実行部22aに出力する(図4においてはd6で示している)。例えば、音声認識の結果、音声データが「今日の天気はなに?」であった場合、音声認識部13aは、当該音声データの呼びかけ属性として、「質問」および「天気」を修正実行部22aに出力する。
Here, the details of the call attribute table 62 will be described with reference to FIG. FIG. 5 is a diagram showing a data structure and a data example of a call attribute table stored in the
なお、呼びかけ属性テーブル62は図5の(b)に示すようなものであってもよい。つまり、「呼びかけ」のカラムにはユーザが発した音声の中に含まれるキーワードが格納されており、キーワードそれぞれに呼びかけ属性が対応付けられているものであってもよい。この場合、音声認識部13aは音声データに含まれるキーワードに対応付けられている呼びかけ属性をすべて特定し、特定した呼びかけ属性を修正実行部22aに出力する。
The call attribute table 62 may be as shown in FIG. That is, a keyword included in the voice uttered by the user is stored in the “calling” column, and a calling attribute may be associated with each keyword. In this case, the
応答修正部12aは、応答生成部14が生成した応答情報を修正する。応答修正部12aは、修正要否判定部21および修正実行部22aを含む。なお、修正要否判定部21については、実施形態1にて既に説明したため、ここでの説明を省略する。
The
修正実行部22aは、応答生成部14が生成した応答情報を修正する。具体的には、修正実行部22aは、修正要否判定部21から受け取った判定結果が、待機時間計測部11から受け取った時間が所定の値より大きいことを示しているとき、記憶部6に記憶されている応答修正テーブル61aを用いて、応答を修正する。
The
ここで、図6を参照して、応答修正テーブル61aの詳細について説明する。図6は、記憶部6aに記憶されている応答修正テーブル61aのデータ構造およびデータ例を示す図である。応答修正テーブル61aでは、待機時間と付加応答情報とに、さらに付加応答情報が示す付加応答の内容のカテゴリを示す付加応答属性が対応付けられている。「付加応答属性」のカラムには、上述した付加応答属性が格納されている。「質問」という付加応答属性は、当該付加応答属性に対応付けられた付加応答情報が示す付加応答が、質問に対する回答を示す応答への付加に適していることを示す。また、「全て」という付加応答属性は、当該付加応答属性に対応付けられた付加応答情報が示す付加応答が、応答の内容を問わず、全ての応答への付加に適していることを示す。
Here, the details of the response correction table 61a will be described with reference to FIG. FIG. 6 is a diagram illustrating a data structure and a data example of the response correction table 61a stored in the
より具体的には、修正実行部22aは、修正要否判定部21から受け取った判定結果が、待機時間計測部11から受け取った時間が所定の値より大きいことを示しているとき、まず、音声認識部13aから受け取った呼びかけ属性と合致する付加応答属性を、応答修正テーブル61aから特定する。なお、修正実行部22aは「全て」の他に、呼びかけ属性と合致する付加応答属性がある場合は、当該付加応答属性と対応付けられた付加応答情報のみを特定する。そして、修正実行部22aは、特定した付加応答属性に対応付けられた付加応答情報の中から、待機時間計測部11から受け取った時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、受け取った応答情報に付加することで、応答情報を修正する。
More specifically, when the determination result received from the correction
例えば、応答生成部14から「晴れだよ」と発話する応答を示す応答情報(音声データ)を受け取っており、音声認識部13aから、「質問」および「天気」という呼びかけ属性を受け取っており、また、受け取った時間が5秒である場合、修正実行部22aは、まず受け取った「質問」という呼びかけ属性と合致するNo.1およびNo.3の付加応答情報を特定する。そして、受け取った時間と、付加応答情報に対応付けられた応答生成処理時間とが合致する、No.1の付加応答情報を、応答情報を修正するための付加応答情報として決定する。そして、修正実行部22aは、「晴れだよ」と発話するための音声データを「お待たせ。晴れだよ」と発話する音声データに修正する。なお、上述した例では、複数の呼びかけ属性を受け取っている場合は、当該呼びかけ属性の少なくとも1つと合致する付加応答属性が対応付けられている付加応答情報を特定していたが、これに限定されず、複数の呼びかけ属性と完全に合致する付加応答属性が対応付けられている付加応答情報を特定してもよい。
For example, response information (voice data) indicating a response to utter “It's sunny” is received from the
次に、図7に基づいて、制御部1aが実行する応答実行処理の流れについて説明する。図7は、制御部1aが実行する応答実行処理の流れの一例を示すフローチャートである。なおここでは、実施形態1にて説明した応答実行処理と異なる点のみを説明する。具体的には、ステップS11からステップS13、ステップS15からステップS17、およびステップS20についてはそれぞれ、図3のフローチャートのステップS1からステップS3、ステップS4からステップS6、およびステップS8と同様であるためここでの説明を省略する。 Next, the flow of response execution processing executed by the control unit 1a will be described with reference to FIG. FIG. 7 is a flowchart showing an example of a response execution process executed by the control unit 1a. Here, only differences from the response execution process described in the first embodiment will be described. Specifically, Step S11 to Step S13, Step S15 to Step S17, and Step S20 are the same as Step S1 to Step S3, Step S4 to Step S6, and Step S8 in the flowchart of FIG. The description in is omitted.
音声認識部13aは、音声認識処理を行った後、認識した音声の呼びかけ属性を特定する(S14)。具体的には、音声認識部13aは、音声認識結果を用いて呼びかけ属性テーブル62を参照し、音声データの呼びかけ属性を特定する。そして、特定した呼びかけ属性を修正実行部22aに出力する。
After performing the voice recognition process, the
時間Taが所定の値より大きいと判定された場合(S17でYES)、修正実行部22は当該判定結果を受け取ると、音声認識部13aから受け取った呼びかけ属性と一致する付加応答属性と対応付けられた付加応答情報を特定する(S18)。具体的には、修正実行部22は記憶部6に記憶されている応答修正テーブル61aを参照して、呼びかけ属性と一致する付加応答属性と対応付けられた付加応答情報を特定する。そして、特定した付加応答情報の中から、時間Taに応じた付加応答情報をさらに特定し、応答を修正する(S19)。そして、修正実行部22は、修正した応答情報を応答実行部15に出力する。
If the time T a is determined to be greater than the predetermined value (YES in S17), the
なお、時間Taが所定の値以下であると判定された場合(S17でNO)、修正実行部22は当該判定結果を受け取ると、応答生成部14から受け取った応答情報を修正することなく、応答実行部15に出力する。つまり、ステップS18およびステップS19の処理が省略される。
Incidentally, if the time T a is determined to be equal to or less than the predetermined value (NO in S17), the
また本実施形態では、音声認識部13aが、音声入力部2から受け取った音声データの呼びかけ属性を特定する例を説明した。これに対して、応答生成部14a(不図示)が、生成した応答情報の応答属性を特定してもよい。具体的には、記憶部6aには呼びかけ属性テーブル62に代えて、応答情報と応答属性とを対応付けたテーブルである応答属性テーブル62a(不図示)が記憶されており、応答生成部14aは、生成した応答情報を用いて、応答属性テーブル62aから応答属性を特定する。そして、生成した応答情報と特定した応答属性とを対応付けて、修正実行部22aに出力する。
In the present embodiment, the example has been described in which the
〔実施形態3〕
本発明のさらに別の実施形態(実施形態3)について、図8〜図11に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。
[Embodiment 3]
The following will describe still another embodiment (Embodiment 3) of the present invention with reference to FIGS. For convenience of explanation, members having the same functions as those described in the embodiment are given the same reference numerals, and descriptions thereof are omitted.
上述した実施形態1および2では、待機時間計測部11が計測した時間が、所定の値より大きいか否かを判定することで、応答を修正するか否かを決定していた。一方本実施形態では、待機時間、すなわちユーザが発した音声を取得してから、当該音声に対する応答を生成するまでの時間中に、上記音声対話装置に音声の出力および動作の少なくとも一方を行わせると決定したか否か(または実際に行わせたか否か)を判定することで、応答を修正するか否かを決定する例について説明する。
In the first and second embodiments described above, it is determined whether or not the response is to be corrected by determining whether or not the time measured by the standby
まず、図8に基づいて、本実施形態に係る音声対話装置10bについて説明する。図8は、本実施形態に係る音声対話装置10bの構成を示すブロック図である。音声対話装置10bは、実施形態1に係る音声対話装置10と比較して、制御部1に代えて制御部1bを備え、音声入力部2に代えて音声入力部2bを備え、記憶部6に代えて記憶部6bを備えている。本実施形態では、制御部1bは、実施形態1に係る制御部1と比較して、待機時間計測部11を含まない。また、応答修正部12に代えて応答修正部12bを含む。さらに、新たに待機時間予測部16および場つなぎ動作制御部17を含む。また、記憶部6bは、実施形態1に係る記憶部6と比較して、新たに場つなぎ動作テーブル63を記憶している。
First, the voice interactive apparatus 10b according to the present embodiment will be described with reference to FIG. FIG. 8 is a block diagram showing the configuration of the voice interaction apparatus 10b according to the present embodiment. Compared with the
音声入力部2bは、取得した音声を音声データに変換し、後述する音声認識部13に出力する(図8においてはd8で示している)。また音声入力部2は当該音声データのサイズ(データ量)および時間(発話時間)の少なくとも一方(以降、音声付属情報と称する)を、待機時間予測部16に出力する(図8においてはd7で示している)。
The
待機時間予測部16は、音声対話装置10bがユーザの発した音声を取得してから、当該音声に対する応答が出力可能となるまでの待機時間Tbを予測する。具体的には、まず待機時間予測部16は音声入力部2から音声付属情報を受け取ると、当該音声データのサイズ(データ量)を用いて待機時間を予測する。より詳細には、待機時間予測部16は、「待機時間Tb=α×データ量(αは単位データ量あたりに要する待機時間であり、所定の値である)」という計算式を用いて、予測待機時間Tbを算出する。待機時間予測部16は、予測(算出)した予測待機時間Tbを後述する場つなぎ動作決定部71および修正実行部22bに出力する。なお、待機時間予測部16は、音声データの時間(ユーザの発話時間)を用いて待機時間を予測してもよい。具体的には、待機時間予測部16は、「待機時間Tb=β×発話時間(βは単位発話時間あたりに要する待機時間であり、所定の値である)」という計算式を用いて、予測待機時間Tbを算出してもよい。また、音声データのデータ量および発話時間の両方を用いて、待機時間を予測(算出)してもよい。データ量から算出した予測待機時間と発話時間から算出した予測待機時間とが異なる場合、より長い(または短い)方の予測待機時間を採用してもよいし、2つの予測待機時間の平均値を算出し、算出した平均待機時間を場つなぎ動作決定部71に出力してもよい。
Waiting
場つなぎ動作制御部17は、場つなぎ動作の決定および実行を行う。場つなぎ動作制御部17は、場つなぎ動作決定部71および場つなぎ動作実行部72を含む。
The field connection
場つなぎ動作決定部71は、待機時間予測部16が予測した予測待機時間Tbに基づいて、音声対話装置10が実行する場つなぎ動作を決定するものである。ここで、場つなぎ動作とは、ユーザが発した音声を取得してから、当該音声に対する応答が出力可能となるまでの時間(待機時間)中に、音声対話装置10に実行させる動作である。具体的には、場つなぎ動作決定部71は、記憶部6に記憶されている場つなぎ動作テーブル63を用いて、待機時間予測部16が予測した予測待機時間Tbと、待機時間中に音声対話装置10bに実行させる場つなぎ動作に要する場つなぎ動作時間とに応じて、場つなぎ動作を決定する。
If connecting operation determining unit 71, based on the standby time predicting section predicts the waiting
ここで、図9を参照して、場つなぎ動作テーブル63の詳細について説明する。図9は、記憶部6bに記憶されている場つなぎ動作テーブル63のデータ構造およびデータ例を示す図である。なお、図9に示す場つなぎ動作テーブル63は一例であり、データ構造およびデータ例を図9の例に限定するものではない。場つなぎ動作テーブル63は、場つなぎ動作を示す情報と、当該場つなぎ動作に要する時間である場つなぎ動作時間とを対応付けたテーブルである。「場つなぎ動作」のカラムには、音声対話装置10が実行可能な動作を示す複数の動作候補の情報(以下、場つなぎ動作情報と称する)が格納される。「種別」のカラムには、各場つなぎ動作が音声を出力するものであるか(図9では「音声」で示されている)、音声対話装置10bの可動部位を動作させるものであるか(図9では「身振り」で示されている)、またはその両方を実行するものであるか(図9では「音声+身振り」で示されている)を示す情報が格納される。「場つなぎ動作時間」のカラムには、上記場つなぎ動作時間が格納されている。
Here, with reference to FIG. 9, the details of the joining operation table 63 will be described. FIG. 9 is a diagram illustrating a data structure and a data example of the joining operation table 63 stored in the storage unit 6b. 9 is merely an example, and the data structure and the data example are not limited to the example in FIG. The field connection operation table 63 is a table in which information indicating a field connection operation is associated with a field connection operation time which is a time required for the field connection operation. Stored in the “place-joining action” column is information on a plurality of action candidates (hereinafter referred to as place-joining action information) indicating actions that can be executed by the
より具体的には、場つなぎ動作決定部71は、受け取った予測待機時間Tbから、場つなぎ動作テーブル63の各場つなぎ動作時間を減算して、各場つなぎ動作情報における減算値Tcを算出する。なお、cは場つなぎ動作テーブル63における「No.」に格納されている数字である。続いて、場つなぎ動作決定部71は、算出した減算値Tcのそれぞれについて、0以上かつ、場つなぎ動作を音声対話装置10bが実行してから応答の生成が完了するまでに、音声対話装置10bが動作しない時間として許容できる時間を示す第1許容時間X以下となるか否か(0≦Tc≦Xを満たす場つなぎ動作情報があるか否か)を判定する。第1許容時間Xは予め設定されている値であり、例えばX=2であれば、場つなぎ動作が完了してから応答の生成が完了するまでの時間として許容できる時間が2秒であるということである。 More specifically, the field joint operation determining unit 71, the predicted waiting time T b received, by subtracting the respective field connecting operation time field joint operation table 63, a subtraction value T c of each spot joining operation information calculate. In addition, c is a number stored in “No.” in the field connection operation table 63. Subsequently, the field connection operation determination unit 71 sets the calculated subtraction value T c to 0 or more, and after the voice interaction apparatus 10b executes the field connection operation until the generation of the response is completed. It is determined whether or not 10b is equal to or shorter than a first allowable time X indicating a time that is allowable as a time during which no operation is performed (whether there is connection operation information that satisfies 0 ≦ T c ≦ X). The first allowable time X is a preset value. For example, if X = 2, the allowable time from the completion of the splicing operation until the generation of the response is 2 seconds. That is.
0≦Tc≦Xを満たす場つなぎ動作情報がある場合、場つなぎ動作決定部71は、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる場つなぎ動作として決定し、当該場つなぎ動作情報を場つなぎ動作実行部72に出力する。例えば予測待機時間Tbが2秒であり、第1許容時間X=1である場合、図9に示すNo.2およびNo.3の場つなぎ動作情報が0≦Tc≦Xを満たす。よって、場つなぎ動作決定部71は、No.2またはNo.3の場つなぎ動作情報を読み出し、場つなぎ動作実行部72に出力する。
When there is field connection operation information satisfying 0 ≦ T c ≦ X, the field connection operation determination unit 71 determines the field connection operation indicated by the field connection operation information as a field connection operation to be executed by the voice interaction apparatus 10b, and The field connection operation information is output to the field connection
なお、0≦Tc≦Xを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10bが動作を実行しない時間をより短くするために、減算値Tcの値がより小さい場つなぎ動作情報を選択することが好ましい。つまり上記の例の場合、減算値Tcが0となるNo.3の場つなぎ動作情報を選択することが好ましい。また、減算値Tcの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。 In addition, when there are a plurality of field connection operation information satisfying 0 ≦ T c ≦ X, the field connection operation information with a smaller value of the subtraction value T c is used in order to shorten the time during which the voice interaction device 10b does not execute the operation. Is preferably selected. In other words, in the case of the above example, subtraction value T c is 0 No. It is preferable to select the operation information for connecting the three. In addition, when there are a plurality of field connection operation information having the same value of the subtraction value Tc , one of the field connection operation information may be selected at random.
一方、0≦Tc≦Xを満たす場つなぎ動作情報が無い場合、場つなぎ動作決定部71は、減算値Tcの正負の符号を変更した値である符号変更値−Tcそれぞれについて、0以上かつ、応答の生成が完了してから音声対話装置10bの場つなぎ動作が完了するまでの時間として許容できる時間を示す第2許容時間Y以下となるか否か(0≦−Tc≦Yを満たす場つなぎ動作情報があるか否か)を判定する。第2許容時間Yは予め設定されている値であり、例えば、Y=2であれば、応答の生成が完了してから、場つなぎ動作が完了するまでの時間として許容できる時間が2秒であるということである。なお、場つなぎ動作決定部71は、各場つなぎ動作時間から受け取った予測待機時間Tbを減算することで符号変換値−Tcを算出してもよい。 On the other hand, when there is no field joining operation information that satisfies 0 ≦ T c ≦ X, the field joining operation determining unit 71 sets 0 for each of the sign change values −T c that are values obtained by changing the sign of the subtraction value T c. Whether or not it is equal to or shorter than the second permissible time Y indicating the time that is acceptable as the time from the completion of the response generation to the completion of the connection operation of the voice interactive device 10b (0 ≦ −T c ≦ Y) It is determined whether or not there is connection operation information that satisfies the above condition. The second allowable time Y is a preset value. For example, if Y = 2, the allowable time from the completion of response generation to the completion of the splicing operation is 2 seconds. That is. Incidentally, the field joint operation determining unit 71 may calculate the code conversion value -T c by subtracting the predicted waiting time T b which is received from the field connecting operation time.
0≦−Tc≦Yを満たす場つなぎ動作情報がある場合、場つなぎ動作決定部71は、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる場つなぎ動作として決定し、当該場つなぎ動作情報を場つなぎ動作実行部72に出力する。例えば予測待機時間Tbが1秒であり、第2許容時間Y=1である場合、図9に示すNo.2およびNo.3の場つなぎ動作情報が0≦−Tc≦Yを満たす。そのため、場つなぎ動作決定部71は、No.2またはNo.3の場つなぎ動作情報を読み出し、場つなぎ動作実行部72に出力する。
When there is field connection operation information satisfying 0 ≦ −T c ≦ Y, the field connection operation determination unit 71 determines a field connection operation indicated by the field connection operation information as a field connection operation to be executed by the voice interaction apparatus 10b. The field connection operation information is output to the field connection
なお、0≦−Tc≦Yを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10bが動作を実行しない時間をより短くするために、符号変換値−Tcがより小さい場つなぎ動作情報を選択することが好ましい。つまり上記の例の場合、符号変換値−Tcが0となるNo.2の場つなぎ動作情報を選択することが好ましい。 In addition, when there are a plurality of field connection operation information satisfying 0 ≦ −T c ≦ Y, a field connection operation with a smaller code conversion value −T c is performed in order to shorten the time during which the voice interactive device 10b does not execute the operation. It is preferable to select information. In other words, in the case of the above example, the code conversion value −T c becomes 0. It is preferable to select the operation information for connecting the two points.
また、符号変換値−Tcの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。 Also, if the value of the code conversion value -T c there are multiple same field joint operation information, a field joint operation information may be selected in a single random from those.
なお、第1許容時間Xおよび第2許容時間Yの少なくとも一方において、すべての場つなぎ動作情報に対して同じ値が設定されてもよいし、場つなぎ動作情報ごとに異なる値が設定されてもよい。また、第1許容時間Xおよび第2許容時間Yの少なくとも一方は、音声データのデータ量および発話時間の少なくとも一方に応じて設定されてもよい。つまり場つなぎ動作決定部71は、待機時間予測部16から受け取った音声データのデータ量または発話時間に基づいて、第1許容時間Xおよび第2許容時間Yの少なくとも一方を決定する。
Note that, in at least one of the first allowable time X and the second allowable time Y, the same value may be set for all the joining motion information, or different values may be set for each joining motion information. Good. Further, at least one of the first allowable time X and the second allowable time Y may be set according to at least one of the amount of audio data and the speech time. In other words, the field connection operation determination unit 71 determines at least one of the first allowable time X and the second allowable time Y based on the data amount or speech time of the audio data received from the standby
一方、0≦−Tc≦Yを満たす場つなぎ動作情報が無い場合、場つなぎ動作決定部71は、複数の場つなぎ動作情報を選択する。具体的には、場つなぎ動作決定部71は、場つなぎ動作時間≦待機時間を満たす場つなぎ動作情報のうち、場つなぎ動作時間が最も長い場つなぎ動作情報を1つ選択する。そして、予測待機時間Tbから、選択した場つなぎ動作情報に対応付けられた場つなぎ動作時間を減算した値(残時間)を算出し、場つなぎ動作時間≦残時間を満たす場つなぎ動作情報をさらに選択する。そして、場つなぎ動作決定部71は、選択した複数の場つなぎ動作情報に対応付けられた場つなぎ動作時間を合計した合計値を算出し、0≦予測待機時間Tb−合計値≦Xまたは0≦−(予測待機時間Tb−合計値)≦Yを満たすか否かを判定する。いずれか一方を満たす場合、複数の場つなぎ動作情報を「No.」のカラムの数字と対応付けて場つなぎ動作実行部72に出力する。
On the other hand, when there is no field connection operation information that satisfies 0 ≦ −T c ≦ Y, the field connection operation determination unit 71 selects a plurality of field connection operation information. Specifically, the field connection operation determination unit 71 selects one field connection operation information having the longest field connection operation time among the field connection operation information satisfying the field connection operation time ≦ the standby time. Then, from the predicted waiting time T b, calculates a subtracted value (remaining time) the field connecting operation time associated with the selected field joint operation information, the field joint operation information satisfying a field joint operation time ≦ remaining time Select further. Then, the field connection operation determination unit 71 calculates a total value obtained by summing the field connection operation times associated with the selected plurality of field connection operation information, and 0 ≦ predicted standby time T b −total value ≦ X or 0 It is determined whether or not ≦ − (predicted waiting time T b −total value) ≦ Y is satisfied. If either one is satisfied, a plurality of field connection operation information is output to the field connection
一方、いずれも満たさない場合、予測待機時間Tbから合計値を減算した値を算出し、場つなぎ動作時間≦当該算出した値を満たす場つなぎ動作情報をさらに選択する。そして、場つなぎ動作決定部71は、選択した複数の場つなぎ動作情報に対応付けられた場つなぎ動作時間を合計した合計値を算出し、0≦予測待機時間Tb−合計値≦Xまたは0≦−(予測待機時間Tb−合計値)≦Yを満たすか否かを判定する。場つなぎ動作決定部71は、これらの処理を0≦予測待機時間Tb−合計値≦Xまたは0≦−(予測待機時間Tb−合計値)≦Yのいずれか一方を満たすようになるまで繰り返す。 On the other hand, it is not satisfied either, calculates a value obtained by subtracting the sum from the prediction waiting time T b, further selects a field joint operation information satisfying the value calculated field joint operation time ≦ the. Then, the field connection operation determination unit 71 calculates a total value obtained by summing the field connection operation times associated with the selected plurality of field connection operation information, and 0 ≦ predicted standby time T b −total value ≦ X or 0 It is determined whether or not ≦ − (predicted waiting time T b −total value) ≦ Y is satisfied. The field connection operation determination unit 71 performs these processes until either 0 ≦ predicted standby time T b −total value ≦ X or 0 ≦ − (predicted standby time T b −total value) ≦ Y is satisfied. repeat.
なお、0≦Tc≦Xまたは0≦−Tc≦Yを満たす場つなぎ動作情報が複数ある場合は、音声対話装置10bが動作を実行しない時間をより短くするために、Tcまたは−Tcの値がより小さい場つなぎ動作情報を選択することが好ましい。なお、Tcまたは−Tcの値が同じ場つなぎ動作情報が複数ある場合は、それらの中から場つなぎ動作情報を1つランダムに選択してもよい。 In addition, when there are a plurality of connection operation information satisfying 0 ≦ T c ≦ X or 0 ≦ −T c ≦ Y, in order to shorten the time during which the voice interactive apparatus 10b does not execute an operation, T c or −T It is preferable to select the joining operation information when the value of c is smaller. Incidentally, if the value of T c or -T c there are multiple same field joint operation information, a field joint operation information may be selected in a single random from those.
場つなぎ動作実行部72は、場つなぎ動作決定部71が決定した場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる。具体的には、場つなぎ動作実行部72は、場つなぎ動作決定部71から場つなぎ動作情報を受け取ると、当該場つなぎ動作情報が示す場つなぎ動作を音声対話装置10bに実行させる。例えば、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10bの可動部位を動作させたりする。場つなぎ動作実行部72は、場つなぎ動作の実行が完了すると、その旨を応答実行部15に通知する。また、場つなぎ動作実行部72は、場つなぎ動作決定部71から複数の場つなぎ動作情報を受け取った場合、複数の場つなぎ動作の動作順序をランダムに決定する。そして、決定した動作順序で音声対話装置10に場つなぎ動作を実行させる。なお、記憶部6bに動作順序を規定する情報を格納しておき、当該情報が示す動作順序に基づいて動作順序を決定してもよいし、動作順序を場つなぎ動作に対応付けられている「No.」の数字が若い順としてもよい。なお、場つなぎ動作制御部17は、音声対話装置10bに実行させる場つなぎ動作を示す場つなぎ動作情報を、修正要否判定部21bに出力する。これは、場つなぎ動作決定部71が音声対話装置10bに実行させる場つなぎ動作を示す場つなぎ動作情報を決定した時点で行ってもよいし、場つなぎ動作実行部72が音声対話装置10bに場つなぎ動作を実行させてから行ってもよい。なお、後述するフローチャートでは、場つなぎ動作実行部72が音声対話装置10bに場つなぎ動作を実行させてから、場つなぎ動作情報を修正要否判定部21bに出力するものとして説明する。
The field connection
応答修正部12bは、応答生成部14が生成した応答情報を修正する。応答修正部12bは、修正要否判定部21bおよび修正実行部22bを含む。
The
修正要否判定部21bは、ユーザが発した音声を取得してから、当該音声に対する応答が出力可能になるまでの待機時間に応答の修正要否を判定するための修正条件が満たされたか否かを判定する。具体的には、修正要否判定部21bは、場つなぎ動作決定部71から受け取った場つなぎ動作情報が、音声対話装置10bに音声の出力および動作の少なくとも一方を行わせる場つなぎ動作を示しているか否かを判定する。より具体的には、修正要否判定部21bは、図9に示す場つなぎ動作情報のうち、受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であるか、またはその他の場つなぎ動作情報であるかを判定する。そして、判定結果を修正実行部22bに出力する。
Whether or not the correction necessity determination unit 21b has acquired the voice uttered by the user and whether or not the correction condition for determining whether or not the response needs to be corrected is satisfied during the waiting time until the response to the voice can be output is satisfied. Determine whether. Specifically, the correction necessity determination unit 21b indicates a field connection operation in which the field connection operation information received from the field connection operation determination unit 71 causes the voice interaction apparatus 10b to perform at least one of voice output and operation. It is determined whether or not. More specifically, the correction necessity determination unit 21b determines that the received connection operation information among the connection operation information illustrated in FIG. It is determined whether the operation information is one field connection operation information or the other field connection operation information. Then, the determination result is output to the
修正実行部22bは、上記修正条件が満たされたと判定されたとき、応答生成部14が生成した応答情報を修正する。具体的には、修正実行部22bは、修正要否判定部21bから受け取った判定結果が、修正要否判定部21bが受け取った場つなぎ動作情報がNo.1以外の場つなぎ動作情報であることを示しているとき、応答修正テーブル61を参照して、待機時間予測部16から受け取った予測待機時間Tbに対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、受け取った応答情報に付加することで、応答情報を修正する。そして、修正実行部22bは、修正した応答情報を応答実行部15に出力する。
When it is determined that the correction condition is satisfied, the
一方、修正実行部22bは、修正要否判定部21bから受け取った判定結果が、修正要否判定部21bが受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であることを示しているとき、応答生成部14から受け取った応答情報を修正せず、そのまま応答実行部15に出力する。
On the other hand, the
次に、図10に基づいて、制御部1bが実行する応答実行処理の流れについて説明する。図10は、制御部1bが実行する応答実行処理の流れの一例を示すフローチャートである。
Next, based on FIG. 10, the flow of response execution processing executed by the
まず、音声入力部2は音声の入力を待機している(S21)。音声入力部2は、ユーザが発した音声を取得すると(S21でYES)、取得した音声を音声データに変換し、当該音声データを音声認識部13に出力し、また当該音声データの音声付属情報を待機時間予測部16に出力する。
First, the
続いて待機時間予測部16は待機時間を予測する(S22)。具体的には、待機時間予測部16は、音声データを受け取ると、当該音声データのデータ量および発話時間の少なくとも一方を用いて、予測待機時間Tbを算出する。待機時間予測部16は予測した待機時間を場つなぎ動作制御部17(場つなぎ動作決定部71)および修正実行部22bに出力する。続いて場つなぎ動作決定部71は、場つなぎ動作決定処理を行う(S23)。なお、場つなぎ動作決定処理の詳細については後述する。場つなぎ動作決定部71は、音声対話装置10bに実行させると決定した場つなぎ動作を示す場つなぎ動作情報を、場つなぎ動作実行部72に出力する。そして、場つなぎ動作実行部72は、受け取った場つなぎ動作情報に応じて、音声対話装置10bに場つなぎ動作を実行させる(S24)。場つなぎ動作実行部72は、場つなぎ動作の実行が完了すると、その旨を修正実行部22bに通知する。
Subsequently, the standby
一方、音声認識部13は音声認識処理を行う(S25)。具体的には、音声認識部13は、音声データを受け取ると、当該音声データについて音声認識処理を行い、音声認識結果を応答生成部14に出力する。続いて応答生成部14は応答情報を生成する(S26)。具体的には、応答生成部14は、受け取った音声認識結果に応じた応答情報を生成し、修正実行部22bに出力する。
On the other hand, the
なお、図10に示すように、ステップS22、S23、S24の処理と、ステップS25、S26の処理とは並列に行われる。つまり、応答修正部12bは、応答情報および場つなぎ動作の実行が完了した旨の通知のいずれか一方のみを受け取った場合、もう一方を受け取るまで待機する。そして、応答修正部12b(修正要否判定部21b)は、上記通知と応答情報とを受け取ると、場つなぎ動作として発話および動作の少なくとも一方を実行させたか否かを判定する(S27)。具体的には、修正要否判定部21bは、図9に示す場つなぎ動作情報のうち、受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であるか、またはその他の場つなぎ動作情報であるかを判定する。そして、判定結果を修正実行部22bに出力する。
As shown in FIG. 10, the processes in steps S22, S23, and S24 and the processes in steps S25 and S26 are performed in parallel. That is, when only one of the response information and the notification that the execution of the joining operation has been completed is received, the
修正要否判定部21bが受け取った場つなぎ動作情報がNo.1以外の場つなぎ動作情報であると判定された場合(S27でYES)、修正実行部22bは当該判定結果を受け取ると、待機時間予測部16から受け取った予測待機時間Tbに応じた付加応答を特定し、応答情報を修正する(S28)。具体的には、修正実行部22bは、記憶部6に記憶されている応答修正テーブル61を参照して、受け取った予測待機時間Tbと合致する待機時間に対応付けられた付加応答情報を特定する。そして、特定した付加応答情報を読み出し、応答生成部14から受け取った応答情報に付加することで、応答情報を修正する。そして、修正実行部22bは、修正した応答情報を応答実行部15に出力する。
The connection operation information received by the correction necessity determination unit 21b is No. If it is determined that the field joint operation information other than 1 (YES at S27), the
これに対して、修正要否判定部21bが受け取った場つなぎ動作情報がNo.1の場つなぎ動作情報であると判定された場合(S27でNO)、修正実行部22bは当該判定結果を受け取ると、応答生成部14から受け取った応答情報を修正することなく、応答実行部15に出力する。つまり、上述したステップS28の処理が省略される。
On the other hand, the connection operation information received by the correction necessity determination unit 21b is No. When it is determined that the information is the connection operation information of No. 1 (NO in S27), when the
最後に、応答実行部15は音声対話装置10bに応答を実行させる(S29)。具体的には、応答実行部15は、受け取った応答情報に応じて、音声出力部4を制御して音声を出力させたり、駆動部5を制御して音声対話装置10bの可動部位を動作させたりする。以上で、応答実行処理は終了する。
Finally, the
続いて、図11に基づいて、場つなぎ動作決定部71が実行する場つなぎ動作決定処理の流れについて説明する。図11は、図10のフローチャートにおける場つなぎ動作決定処理の流れの一例を示すフローチャートである。なお、図11のフローチャートにおいて、場つなぎ動作テーブル63に含まれる場つなぎ動作情報には、一般的に想定される待機時間程度の場つなぎ動作時間が対応付けられているものとする。 Next, the flow of the field connection operation determination process executed by the field connection operation determination unit 71 will be described with reference to FIG. FIG. 11 is a flowchart showing an example of the flow of the jointing operation determination process in the flowchart of FIG. In the flowchart of FIG. 11, it is assumed that the field connection operation information included in the field connection operation table 63 is associated with a field connection operation time that is generally equal to a standby time.
まず、場つなぎ動作決定部71は、待機時間予測部16が予測した予測待機時間Tbを受け取ると、場つなぎ動作テーブル63を読み出し、予測待機時間Tbから各場つなぎ動作時間を減算した減算値Tcを算出する(S31)。続いて、場つなぎ動作決定部71は、算出した減算値Tcおよび第1許容時間Xを用いて場つなぎ動作テーブル63を参照し、0≦Tc≦Xを満たす場つなぎ動作情報があるか否かを判定する(S32)。
First, the field joint operation determining unit 71 receives the prediction waiting time T b which waiting
0≦Tc≦Xを満たす場つなぎ動作情報がある場合(S32でYES)、場つなぎ動作決定部71は、当該場つなぎ動作情報のうちの1つが示す場つなぎ動作を、音声対話装置10bが実行する場つなぎ動作に決定する(S33)。具体的には、0≦Tc≦Xを満たす場つなぎ動作情報のうち、Tcの値がより小さい場つなぎ動作情報を選択する。そして、場つなぎ動作決定部71は、選択した場つなぎ動作情報を場つなぎ動作実行部72に出力する。
When there is field connection operation information satisfying 0 ≦ T c ≦ X (YES in S32), the field connection operation determination unit 71 indicates the field connection operation indicated by one of the field connection operation information by the voice interactive device 10b. It is determined to perform the joining operation when performing (S33). Specifically, the field connection operation information having a smaller value of T c is selected from the field connection operation information satisfying 0 ≦ T c ≦ X. Then, the field connection operation determination unit 71 outputs the selected field connection operation information to the field connection
一方、0≦Tc≦Xを満たす場つなぎ動作情報が無い場合(S32でNO)、場つなぎ動作決定部71は、減算値Tcから符号変更値−Tcを算出し、符号変更値−Tcおよび第2許容時間Yを用いて場つなぎ動作テーブル63を参照し、0≦−Tc≦Yを満たす場つなぎ動作情報があるか否かを判定する(S34)。 On the other hand, when there is no field joining operation information that satisfies 0 ≦ T c ≦ X (NO in S32), the field joining operation determining unit 71 calculates the sign change value −T c from the subtraction value T c, and the sign change value− By using Tc and the second permissible time Y, it is determined whether or not there is connection operation information satisfying 0 ≦ −T c ≦ Y by referring to the connection operation table 63 (S34).
0≦−Tc≦Yを満たす場つなぎ動作情報がある場合(S34でYES)、場つなぎ動作決定部71は、当該場つなぎ動作情報のうちの1つが示す場つなぎ動作を、音声対話装置10bが実行する場つなぎ動作に決定する(S35)。具体的には、0≦−Tc≦Yを満たす場つなぎ動作情報のうち、−Tcの値がより小さい場つなぎ動作情報を選択する。 If there is field connection operation information satisfying 0 ≦ −T c ≦ Y (YES in S34), the field connection operation determination unit 71 displays the field connection operation indicated by one of the field connection operation information as the voice interactive device 10b. Is determined to be connected (S35). Specifically, among the field connection operation information satisfying 0 ≦ −T c ≦ Y, the field connection operation information having a smaller value of −T c is selected.
一方、0≦−Tc≦Yを満たす場つなぎ動作情報が無い場合(S34でNO)、複数の場つなぎ動作を組み合わせて、音声対話装置10が実行する場つなぎ動作を示す場つなぎ動作情報とする(S36)。なおこの場合、場つなぎ動作実行部72は、受け取った複数の場つなぎ動作情報の動作順序を決定する。以上で、場つなぎ動作決定処理は終了する。
On the other hand, when there is no field connection operation information satisfying 0 ≦ −T c ≦ Y (NO in S34), the field connection operation information indicating the field connection operation executed by the voice
なお、本実施形態では、第1許容時間Xおよび第2許容時間Yの両方を用いた判定を行ったが、第1許容時間Xまたは第2許容時間Yのいずれか一方のみを用いた判定を行ってもよい。 In the present embodiment, the determination using both the first allowable time X and the second allowable time Y is performed. However, the determination using only one of the first allowable time X and the second allowable time Y is performed. You may go.
また、本実施形態では、0≦−Tc≦Yを満たす場つなぎ動作情報が無い場合、複数の場つなぎ動作情報を組み合わせることで、0≦−Tc≦Yを満たす場つなぎ動作情報としていたが、場つなぎ動作情報に対応付けられた場つなぎ動作時間を変更することで、0≦Tc≦Xまたは0≦−Tc≦Yを満たす場つなぎ動作情報としてもよい。 Further, in the present embodiment, 0 ≦ -T c ≦ Y when no field joint operation information satisfying take, by combining a plurality of field joint operation information, was a place connecting operation information satisfying 0 ≦ -T c ≦ Y However, it is good also as field joint operation information which satisfy | fills 0 <= Tc <= X or 0 <=- Tc <= Y by changing the field joint operation time matched with the field joint motion information.
また、待機時間予測部16が予測した予測待機時間Tbよりも応答情報の生成に時間がかかった場合、待機時間予測部16は、音声認識部13が行った音声認識結果を用いて、再度予測待機時間Tbを算出してもよい。そして、新たな予測待機時間が以前の予測待機時間よりも長くなる場合、場つなぎ動作決定部71は、再度場つなぎ動作の決定を行ってもよい。
Also, if the standby
また、待機時間予測部16が予測した予測待機時間Tbよりも早く応答情報の生成が完了した場合であって、場つなぎ動作決定部71が複数の場つなぎ動作を選択している場合、場つなぎ動作実行部72は、その時点以降に行う場つなぎ動作の実行をキャンセルしてもよい。また、待機時間予測部16が予測した予測待機時間Tbよりも早く応答情報の生成が完了した場合、場つなぎ動作実行部72は実行する場つなぎ動作の場つなぎ動作時間を早めてもよい。
Further, in a case where the generation of early response information than the predicted waiting time T b which waiting
また、本実施形態では、場つなぎ動作決定部71は、条件を満たす場つなぎ動作情報が複数ある場合、減算値Tc(または符号変更値−Tc)の値がより小さいものを選択していたが、この例に限定されるものではない。例えば、場つなぎ動作テーブル63に、各場つなぎ動作を最後に実行した日時を示す履歴情報を格納するカラムがあり、条件を満たす場つなぎ動作情報が複数ある場合は、当該履歴情報がより古い日時を示しているものを選択してもよい。 Further, in the present embodiment, the field joining operation determination unit 71 selects the smaller subtraction value T c (or sign change value −T c ) when there are a plurality of field joining operation information that satisfy the conditions. However, it is not limited to this example. For example, if there is a column that stores history information indicating the date and time when each place-joining operation was last executed in the place-joining operation table 63, and there are multiple pieces of place-joint action information that satisfy the condition, the date and time when the history information is older May be selected.
また、場つなぎ動作決定部71が決定した場つなぎ動作の種別が「音声」である場合、決定した場つなぎ動作より場つなぎ動作時間が短く、かつ種別が「身振り」である場つなぎ動作情報を選択し、2つの場つなぎ動作情報を組み合わせて場つなぎ動作実行部72に出力してもよい。同様に、決定した場つなぎ動作の種別が「身振り」である場合は、決定した場つなぎ動作より場つなぎ動作時間が短く、かつ種別が「音声」である場つなぎ動作情報を選択し、2つの場つなぎ動作情報を組み合わせて場つなぎ動作実行部72に出力してもよい。例えば、図9に示すNo.7の場つなぎ動作情報が示す場つなぎ動作(種別:身振り、「起き上がる」動作を行う)を、音声対話装置10bが実行する場つなぎ動作と決定した場合、場つなぎ動作決定部71は、例えば図9に示すNo.4の場つなぎ動作情報が示す場つなぎ動作(種別:音声、「ちょっと待ってね」と発話する)を音声対話装置10bが実行する場つなぎ動作としてさらに決定し、これらの場つなぎ動作情報を場つなぎ動作実行部72に出力する。場つなぎ動作実行部72は、この情報を受けて、音声対話装置10bに「『ちょっと待ってね』と発話しながら『起き上がる』動作」を実行させる。これにより、場つなぎ動作のバリエーションが増え、ユーザを飽きさせないようにすることができる。
In addition, when the type of the field transition operation determined by the field transition operation determination unit 71 is “speech”, the field transition operation information in which the field transition operation time is shorter than the determined field transition operation and the type is “gesture” is displayed. It is also possible to select and combine the two pieces of joining operation information and output them to the joining
また、本実施形態では、待機時間予測部16が予測した予測待機時間Tbと、応答修正テーブル61に含まれる時間とが合致するという条件のみで付加応答情報を特定していたが、この例に限定されるものではない。例えば、修正実行部22bは、音声対話装置に実行させると決定した場つなぎ動作のカテゴリを示す場つなぎ動作属性と、実施形態2にて説明した付加応答属性とが合致する付加応答情報を選択し、選択した付加応答情報の中から、予測待機時間Tbと応答修正テーブル61に含まれる時間とが合致する付加応答情報を特定してもよい。
Also, in the present embodiment, the predicted waiting time T b which waiting
この場合、場つなぎ動作テーブル63に含まれる場つなぎ動作情報には、各場つなぎ動作の内容のカテゴリを示す場つなぎ動作属性が対応付けられており、また、記憶部6bには応答修正テーブル61に代えて、実施形態2にて説明した応答修正テーブル61aが記憶されている。場つなぎ動作決定部71は、音声対話装置に実行させると決定した場つなぎ動作の場つなぎ動作属性を特定し、修正実行部22bに出力する。修正実行部22bは、受け取った場つなぎ動作属性と合致する付加応答属性と対応付けられた付加応答情報を選択し、さらにその中から、予測待機時間Tbと応答修正テーブル61aに含まれる時間とが合致する付加応答情報を特定する。
In this case, the field connection operation information included in the field connection operation table 63 is associated with the field connection operation attribute indicating the category of the content of each field connection operation, and the response correction table 61 is stored in the
〔変形例〕
上述した実施形態1では、ユーザが発した音声の音声認識、および当該音声に対する応答情報の生成は、いずれも音声対話制御装置(制御部1)にて行っていたが、これらの処理は音声対話装置10と通信可能な外部装置(外部サーバ、不図示)が行ってもよい。つまり、音声対話装置10は、音声を取得すると音声データに変換し、通信部3を介して当該音声データを外部装置に送信する。外部装置は、音声認識および応答情報の生成を行い、応答情報を音声対話装置10に送信する。なお、この変形例は実施形態2および3にも適用可能である。
[Modification]
In
また、上述した実施形態1において、制御部1は、待機時間計測部11に代えて待機時間予測部16を含み、待機時間を計測する代わりに待機時間を予測してもよい。なおこの変形例は実施形態2にも適用可能である。
In the first embodiment described above, the
また、上述した実施形態1では、応答情報を応答修正テーブル61に格納された付加応答情報を用いて修正していたが、応答情報の修正はこの例に限定されない。例えば、音声に含まれる言葉の少なくとも一部を修正応答に含めてもよい。具体的には、修正実行部22は、音声認識部13が認識した音声データの少なくとも一部を切り出したり、編集または要約したりしたものを付加応答情報として用いることで応答情報を修正してもよい。例えば、ユーザが発した音声、すなわち音声認識部13が認識した音声データが「今日の天気はなに?」であったとき、修正実行部22は、音声認識部13から音声認識結果を受け取り、「今日の天気は」を切り出す。そして、修正実行部22は、応答生成部14から受け取った「晴れだよ」という音声データ(応答情報)に対して、「今日の天気は」という音声データを付加して、「今日の天気は晴れだよ」という応答情報を生成する。なお、この変形例は実施形態2および3にも適用可能である。
Moreover, in
また修正条件は、上述した各実施形態の例に限定されるものではない。例えば、外部装置との通信ができなくなったときや、音声対話装置に備えられたセンサ(不図示)が取得した情報が所定の条件を満たしているときに、応答を修正してもよい。また、応答の修正は応答情報に付加応答情報を付加することに限定されない。例えば、応答情報の内容を変更してもよい。また、付加応答情報が示す内容は、応答情報が示す応答の前に実行されてもよいし、当該応答の後に実行されてもよい。 Further, the correction condition is not limited to the example of each embodiment described above. For example, the response may be corrected when communication with an external device becomes impossible or when information acquired by a sensor (not shown) provided in the voice interaction device satisfies a predetermined condition. Further, the modification of the response is not limited to adding the additional response information to the response information. For example, the content of the response information may be changed. The content indicated by the additional response information may be executed before the response indicated by the response information, or may be executed after the response.
〔ソフトウェアによる実現例〕
音声対話装置10、10a、10bそれぞれの音声対話制御装置、すなわち制御部1、1a、1bは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。
[Example of software implementation]
The voice interaction control devices of the
後者の場合、音声対話装置10は、各機能を実現するソフトウェアであるプログラムの命令を実行するCPU、上記プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
In the latter case, the
〔まとめ〕
本発明の態様1に係る音声対話制御装置(制御部1)は、音声対話装置(10)が実行する、ユーザが発した音声に対する応答を生成する応答生成部(14)と、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定部(修正要否判定部21)と、上記判定部が、上記修正条件が満たされたと判定したとき、上記応答生成部が生成した上記応答を修正した修正応答を生成する修正部(修正実行部22)と、上記修正部が生成した上記修正応答を上記音声対話装置に実行させる応答実行部(15)と、を備える。
[Summary]
The voice dialogue control device (control unit 1) according to the first aspect of the present invention acquires the above-mentioned voice and the response generation unit (14) that generates a response to the voice uttered by the user, which is executed by the voice dialogue device (10). A determination unit (correction necessity determination unit 21) for determining whether or not a correction condition for determining whether or not the response needs to be corrected is satisfied during a waiting time until the response can be output; When the determination unit determines that the correction condition is satisfied, a correction unit (correction execution unit 22) that generates a correction response that corrects the response generated by the response generation unit, and the correction unit that generates the correction response. A response execution unit (15) for causing the voice interaction device to execute a correction response.
上記の構成によれば、音声を取得してから応答が出力可能になるまでに、修正条件が満たされたとき、応答を修正するので、応答を修正すべき状況で応答を修正することができる。例えば、応答が出力可能になるまでに時間を要したとき、そのことを当該応答にて表現する(時間を要したことを詫びる音声を追加で出力する)ことができる。よって、ユーザと音声対話装置とのコミュニケーションの柔軟性を向上させることができる。 According to the above configuration, since the response is corrected when the correction condition is satisfied from when the voice is acquired until the response can be output, the response can be corrected in a situation where the response should be corrected. . For example, when a time is required until a response can be output, this can be expressed by the response (additional audio that apologizes for the time required) can be output. Therefore, the flexibility of communication between the user and the voice interaction device can be improved.
本発明の態様2に係る音声対話制御装置は、上記態様1において、上記待機時間を計測する待機時間計測部(11)をさらに備え、上記判定部は、上記待機時間計測部が計測した待機時間が所定の時間を超えるとき、上記修正条件が満たされたと判定してもよい。
The voice interaction control device according to
上記の構成によれば、待機時間を計測して、計測した待機時間が所定の時間を超えるとき、修正条件が満たされたと判定するので、応答が出力可能になるまでに時間を要したことを正確に判定することができる。これにより、応答が出力可能になるまでに時間を要したとき、そのことを当該応答にて表現することができる。 According to the above configuration, the standby time is measured, and when the measured standby time exceeds a predetermined time, it is determined that the correction condition is satisfied, so that it takes time until the response can be output. It can be determined accurately. Thereby, when it takes time until the response can be output, this can be expressed by the response.
本発明の態様3に係る音声対話制御装置は、上記態様2において、上記修正部は、上記待機時間に対応する時間情報に対応付けられた、上記応答の修正内容を示す修正内容情報を用いて、上記応答を修正してもよい。
In the voice interaction control device according to
上記の構成によれば、待機時間に対応する時間情報に対応付けられた修正内容情報を用いて応答を修正するので、待機時間の長さに応じた応答の修正を行うことができる。例えば、待機時間が長時間となった場合は、長時間考えていたことを示すような音声を追加で出力する。つまり、待機時間の長さに応じた応答をすることができるので、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。 According to said structure, since a response is corrected using the correction content information matched with the time information corresponding to standby time, the response according to the length of standby time can be corrected. For example, when the standby time becomes long, an additional sound indicating that the user has been thinking for a long time is output. That is, since it is possible to respond according to the length of the waiting time, it is possible to prevent the user from feeling stress in communication with the voice interactive apparatus.
本発明の態様4に係る音声対話制御装置は、上記態様1において、上記待機時間を予測する待機時間予測部(16)をさらに備え、上記判定部は、上記待機時間予測部が予測した予測待機時間が所定の時間を超えるとき、修正条件が満たされたと判定してもよい。
The voice interaction control device according to
上記の構成によれば、待機時間を予測して、予測した待機時間が所定の時間を超えるとき、修正条件が満たされたと判定するので、応答が出力可能になるまでに時間を要したことを正確に判定することができる。これにより、応答が出力可能になるまでに時間を要したとき、そのことを当該応答にて表現することができる。 According to the above configuration, the standby time is predicted, and when the predicted standby time exceeds a predetermined time, it is determined that the correction condition is satisfied, so that it takes time until the response can be output. It can be determined accurately. Thereby, when it takes time until the response can be output, this can be expressed by the response.
本発明の態様5に係る音声対話制御装置は、上記態様4において、上記修正部は、上記予測待機時間に対応する時間情報に対応付けられた、上記応答の修正内容を示す修正内容情報を用いて、上記応答を修正してもよい。
In the voice interaction control device according to
上記の構成によれば、予測待機時間に対応する時間情報に対応付けられた修正内容情報を用いて応答を修正するので、予測した待機時間の長さに応じた応答の修正を行うことができる。例えば、予測した待機時間が長時間となった場合は、長時間考えていたことを示すような音声を追加で出力する。つまり、予測した待機時間の長さに応じた応答をすることができるので、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。 According to said structure, since a response is corrected using the correction content information matched with the time information corresponding to prediction waiting time, the response according to the length of the estimated waiting time can be corrected. . For example, when the predicted standby time is long, an additional sound indicating that the user has been thinking for a long time is output. That is, since a response according to the predicted length of the standby time can be made, it is possible to prevent the user from feeling stress in communication with the voice interactive apparatus.
本発明の態様6に係る音声対話制御装置は、上記態様3または5において、上記音声の内容のカテゴリを示す音声属性を特定する音声属性特定部(音声認識部13)をさらに備え、上記修正内容情報には、上記修正内容のカテゴリを示す応答属性がさらに対応付けられており、上記修正部は、上記音声属性特定部が特定した上記音声属性に対応する上記応答属性に対応付けられた上記修正内容情報を用いて、上記応答を修正してもよい。
The voice conversation control device according to
上記の構成によれば、待機時間または予測待機時間に対応する時間情報に対応付けられ、かつ音声属性に対応する応答属性に対応付けられた修正内容情報を用いて応答を修正するので、音声対話装置が、ユーザが発した音声に対して、より適切な修正を施した応答を行うことができる。 According to the above configuration, the response is corrected using the correction content information associated with the time information corresponding to the standby time or the predicted standby time and associated with the response attribute corresponding to the voice attribute. The device can make a response with a more appropriate modification to the voice uttered by the user.
本発明の態様7に係る音声対話制御装置は、上記態様1において、上記待機時間に上記音声対話装置に実行させる場つなぎ動作を決定する場つなぎ動作決定部(71)をさらに備え、上記判定部は、上記場つなぎ動作決定部が、上記場つなぎ動作として上記音声対話装置に音声の出力および身振りの少なくとも一方を行わせることを決定したとき、上記修正条件が満たされたと判定してもよい。
The voice interaction control device according to
場つなぎ動作は、音声を取得してから応答が出力可能になるまでの待機時間を埋める動作であるので、当該動作として音声の出力および動作の少なくとも一方を音声対話装置が実行するということは、応答の生成に時間を要するということである。ここで、上記の構成によれば、場つなぎ動作として音声の出力および身振りの少なくとも一方を音声対話装置に行わせるとき、修正条件が満たされたと判定するので、応答の生成に時間を要したことを正確に判定することができる。 Since the connection operation is an operation that fills the waiting time from when the voice is acquired until the response can be output, the voice interaction device executes at least one of the voice output and the operation as the operation. It takes time to generate a response. Here, according to the above configuration, when the voice interaction device performs at least one of voice output and gesture as the connecting operation, it is determined that the correction condition is satisfied, and thus it takes time to generate a response. Can be accurately determined.
本発明の態様8に係る音声対話制御装置は、上記態様7において、上記待機時間を予測する待機時間予測部をさらに備え、上記修正部は、上記待機時間予測部が予測した予測待機時間に対応する時間情報に対応付けられた、上記応答の修正内容を示す修正内容情報を用いて、上記応答を修正してもよい。
The voice interaction control device according to
上記の構成によれば、予測待機時間に対応する時間情報に対応付けられた修正内容情報を用いて応答を修正するので、予測した待機時間の長さに応じた応答の修正を行うことができる。つまり、予測した待機時間の長さに応じた応答をすることができるので、ユーザが音声対話装置とのコミュニケーションにおいてストレスを感じることを防ぐことができる。 According to said structure, since a response is corrected using the correction content information matched with the time information corresponding to prediction waiting time, the response according to the length of the estimated waiting time can be corrected. . That is, since a response according to the predicted length of the standby time can be made, it is possible to prevent the user from feeling stress in communication with the voice interactive apparatus.
本発明の態様9に係る音声対話制御装置は、上記態様8において、上記修正内容情報には、上記修正内容のカテゴリを示す応答属性がさらに対応付けられており、上記場つなぎ動作決定部は、決定した上記場つなぎ動作のカテゴリを示す場つなぎ動作属性を特定し、上記修正部は、上記場つなぎ動作決定部が特定した上記場つなぎ動作属性に対応する上記応答属性に対応付けられた上記修正内容情報を用いて、上記応答を修正してもよい。
In the voice interaction control device according to
上記の構成によれば、待機時間に対応する時間情報に対応付けられ、かつ場つなぎ動作属性に対応する応答属性に対応付けられた修正内容情報を用いて応答を修正するので、音声対話装置が、実行した場つなぎ動作に合った修正を施した応答を行うことができる。 According to the above configuration, since the response is corrected using the correction content information that is associated with the time information corresponding to the standby time and is associated with the response attribute corresponding to the jumping operation attribute, the voice interactive apparatus is , It is possible to make a response with corrections suitable for the connecting operation performed.
本発明の態様10に係る音声対話制御装置は、上記態様1から9のいずれかにおいて、上記修正部は、上記音声に含まれる言葉の少なくとも一部を上記修正応答に含めてもよい。
In the voice interaction control device according to
ユーザが発した音声を取得してから応答を生成するまでに時間を要した場合、当該音声がどのような内容であったかを応答に含めることが望ましい。そこで上記の構成によれば、音声に含まれる言葉の少なくとも一部を修正応答に含める。これにより、ユーザと音声対話装置とのコミュニケーションを円滑に進めることができる。なお、音声に含まれる言葉の少なくとも一部を修正応答に含めるとは、例えば、「今日の天気はなに?」という音声に対する応答である「晴れだよ」を、音声の一部を用いて「今日の天気は晴れだよ」と修正することである。また、音声を編集した内容、すなわち、音声に含まれる言葉の一部を切り出し、再構成したものを用いて応答を修正してもよい。例えば、「今日の天気はなに?」という音声データから「今日」と「は」という言葉を切り出し、「今日は」という音声データを再構成し、「晴れだよ」という応答を「今日は晴れだよ」と修正してもよい。 When it takes time until a response is generated after acquiring the voice uttered by the user, it is desirable to include the content of the voice in the response. So, according to said structure, at least one part of the word contained in an audio | voice is included in a correction response. As a result, communication between the user and the voice interactive apparatus can be smoothly advanced. Note that including at least a part of the words included in the voice in the correction response means, for example, “sunny weather”, which is a response to the voice “What is the weather today?” “Today's weather is sunny” is to correct. Further, the response may be corrected by using a content obtained by editing the voice, that is, a part of a word included in the voice and reconstructed. For example, the words “Today” and “Ha” are extracted from the voice data “What is the weather today?”, The voice data “Today is” is reconstructed, and the response “It ’s sunny” It's fine. "
本発明の態様11に係る音声対話制御装置の制御方法は、音声対話装置が実行する、ユーザが発した音声に対する応答を生成する応答生成ステップと、上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定ステップと、上記判定ステップにて、上記修正条件が満たされたと判定したとき、上記応答生成ステップにて生成した上記応答を修正した修正応答を生成する修正ステップと、上記修正ステップにて生成した上記修正応答を上記音声対話装置に実行させる応答実行ステップと、を含む。この制御方法によれば、態様1に係る音声対話制御装置と同様の作用効果を有する。
The control method of the voice interaction control device according to
本発明の態様12に係る音声対話装置は、上記態様1から10のいずれかに係る音声対話制御装置を備えてもよい。上記の構成によれば、この音声対話装置は、ユーザとのコミュニケーションの柔軟性を向上させることができる。
The voice interaction apparatus according to
本発明の各態様に係る音声対話制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記音声対話制御装置が備える各部(ソフトウェア要素)として動作させることにより上記音声対話制御装置をコンピュータにて実現させる音声対話制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。 The voice conversation control device according to each aspect of the present invention may be realized by a computer. In this case, the voice conversation control device is operated by causing the computer to operate as each unit (software element) included in the voice dialogue control device. The control program of the voice interaction control device that realizes the above in a computer and a computer-readable recording medium on which the control program is recorded also fall within the scope of the present invention.
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。 The present invention is not limited to the above-described embodiments, and various modifications are possible within the scope shown in the claims, and embodiments obtained by appropriately combining technical means disclosed in different embodiments. Is also included in the technical scope of the present invention. Furthermore, a new technical feature can be formed by combining the technical means disclosed in each embodiment.
本発明は、ユーザの発話に対して応答する音声対話装置を制御するための音声対話制御装置に利用することができる。 INDUSTRIAL APPLICABILITY The present invention can be used for a voice dialogue control device for controlling a voice dialogue device that responds to a user's utterance.
1、1a、1b 制御部(音声対話制御装置)、10、10a、10b 音声対話装置、11 待機時間計測部、13 音声認識部(音声属性特定部)、14 応答生成部、15 応答実行部、16 待機時間予測部、21、21b 修正要否判定部(判定部)、22、22a、22b 修正実行部(修正部)、71 場つなぎ動作決定部、S4 応答生成ステップ、S6 判定ステップ、S7 修正ステップ、S8 応答実行ステップ 1, 1a, 1b control unit (voice dialogue control device), 10, 10a, 10b voice dialogue device, 11 standby time measurement unit, 13 voice recognition unit (voice attribute identification unit), 14 response generation unit, 15 response execution unit, 16 standby time prediction unit, 21, 21b correction necessity determination unit (determination unit), 22, 22a, 22b correction execution unit (correction unit), 71 spot connection operation determination unit, S4 response generation step, S6 determination step, S7 correction Step, S8 Response execution step
Claims (4)
上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定部と、
上記判定部が、上記修正条件が満たされたと判定したとき、上記応答生成部が生成した上記応答を修正した修正応答を生成する修正部と、
上記修正部が生成した上記修正応答を上記音声対話装置に実行させる応答実行部と、
上記待機時間を予測する待機時間予測部と、を備え、
上記判定部は、上記待機時間予測部が予測した予測待機時間が所定の時間を超えるとき、上記修正条件が満たされたと判定することを特徴とする音声対話制御装置。 A response generation unit that generates a response to the voice uttered by the user, executed by the voice interaction device;
A determination unit that determines whether or not a correction condition for determining whether or not the response needs to be corrected is satisfied in a waiting time from when the voice is acquired until the response can be output;
When the determination unit determines that the correction condition is satisfied, a correction unit that generates a correction response that corrects the response generated by the response generation unit;
A response execution unit that causes the voice interaction device to execute the correction response generated by the correction unit;
A standby time prediction unit for predicting the standby time ,
The determination unit, when the predicted waiting time the standby time predicting section predicts exceeds a predetermined time, speech dialog control device which is characterized that you determined the adjustment conditions are satisfied.
上記音声を取得してから上記応答が出力可能になるまでの待機時間に、上記応答の修正要否を判定するための修正条件が満たされたか否かを判定する判定ステップと、
上記判定ステップにて、上記修正条件が満たされたと判定したとき、上記応答生成ステップにて生成した上記応答を修正した修正応答を生成する修正ステップと、
上記修正ステップにて生成した上記修正応答を上記音声対話装置に実行させる応答実行ステップと、
上記待機時間を予測するステップと、を含み、
上記判定ステップでは、上記待機時間を予測するステップにて予測された予測待機時間が所定の時間を超えるとき、上記修正条件が満たされたと判定することを特徴とする音声対話制御装置の制御方法。 A response generation step for generating a response to the voice uttered by the user, executed by the voice interaction device;
A determination step of determining whether or not a correction condition for determining whether or not the response needs to be corrected is satisfied in a waiting time from when the voice is acquired until the response can be output;
A correction step for generating a correction response in which the response generated in the response generation step is corrected when it is determined in the determination step that the correction condition is satisfied;
A response execution step for causing the voice interaction apparatus to execute the correction response generated in the correction step;
And the step of predicting the above-mentioned waiting time, only including,
In the determination step, the control method of the spoken dialogue control apparatus, wherein the correction condition is determined to be satisfied when the predicted standby time predicted in the step of predicting the standby time exceeds a predetermined time .
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015002569A JP6495015B2 (en) | 2015-01-08 | 2015-01-08 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015002569A JP6495015B2 (en) | 2015-01-08 | 2015-01-08 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2016126294A JP2016126294A (en) | 2016-07-11 |
| JP6495015B2 true JP6495015B2 (en) | 2019-04-03 |
Family
ID=56359414
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2015002569A Expired - Fee Related JP6495015B2 (en) | 2015-01-08 | 2015-01-08 | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP6495015B2 (en) |
Families Citing this family (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6729424B2 (en) * | 2017-01-30 | 2020-07-22 | 富士通株式会社 | Equipment, output device, output method, and output program |
| US11151997B2 (en) * | 2017-03-10 | 2021-10-19 | Nippon Telegraph And Telephone Corporation | Dialog system, dialog method, dialog apparatus and program |
| WO2021006620A1 (en) * | 2019-07-08 | 2021-01-14 | Samsung Electronics Co., Ltd. | Method and system for processing a dialog between an electronic device and a user |
| US12190872B2 (en) | 2021-08-10 | 2025-01-07 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
| KR20230023456A (en) * | 2021-08-10 | 2023-02-17 | 삼성전자주식회사 | Electronic apparatus and controlling method thereof |
| KR20230105254A (en) * | 2022-01-03 | 2023-07-11 | 삼성전자주식회사 | Electronic device and method for controlling electronic device |
| CN115565535B (en) * | 2022-09-21 | 2024-04-12 | 南京浮点智算数字科技有限公司 | Intelligent voice customer service system |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP4522878B2 (en) * | 2005-02-04 | 2010-08-11 | シャープ株式会社 | Information processing apparatus and electronic program display apparatus |
| JP2013026779A (en) * | 2011-07-20 | 2013-02-04 | Panasonic Corp | Communication terminal and communication method |
| JP5753869B2 (en) * | 2013-03-26 | 2015-07-22 | 富士ソフト株式会社 | Speech recognition terminal and speech recognition method using computer terminal |
-
2015
- 2015-01-08 JP JP2015002569A patent/JP6495015B2/en not_active Expired - Fee Related
Also Published As
| Publication number | Publication date |
|---|---|
| JP2016126294A (en) | 2016-07-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP6495015B2 (en) | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device | |
| JP6495014B2 (en) | Spoken dialogue control device, control method of spoken dialogue control device, and spoken dialogue device | |
| CN110299153B (en) | Sound zone detection device, sound zone detection method, and recording medium | |
| JP5195405B2 (en) | Response generating apparatus and program | |
| JP5753869B2 (en) | Speech recognition terminal and speech recognition method using computer terminal | |
| JP6052610B2 (en) | Information communication terminal and interactive method thereof | |
| JP2012037619A (en) | Speaker-adaptation device, speaker-adaptation method and program for speaker-adaptation | |
| US20140142947A1 (en) | Sound Rate Modification | |
| JP5758713B2 (en) | Speech synthesis apparatus, navigation apparatus, and speech synthesis method | |
| WO2015098306A1 (en) | Response control device and control program | |
| WO2010013371A1 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
| CN107342085A (en) | Method of speech processing and device | |
| JP5431282B2 (en) | Spoken dialogue apparatus, method and program | |
| KR102836970B1 (en) | Electronic device and Method for controlling the electronic device thereof | |
| JP2019045831A (en) | Voice processing apparatus, method and program | |
| WO2021009962A1 (en) | Interaction device | |
| JP2018097029A (en) | Voice recognition device and voice recognition method | |
| JP2024539599A (en) | Fusion of acoustic and textual representations in an automatic speech recognition system implemented as an RNN-T | |
| JP2018128575A (en) | End-of-speech determination device, end-of-speech determination method, and program | |
| JP4798039B2 (en) | Spoken dialogue apparatus and method | |
| KR20230055070A (en) | Electronic apparatus and control method thereof | |
| JP2009104047A (en) | Information processing method and information processing apparatus | |
| WO2017051627A1 (en) | Speech production apparatus and speech production method | |
| CA2590739A1 (en) | Method and apparatus for voice message editing | |
| JPWO2017159207A1 (en) | Process execution device, process execution device control method, and control program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170925 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180927 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181009 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181128 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190306 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6495015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| LAPS | Cancellation because of no payment of annual fees |