JP6645779B2

JP6645779B2 - 対話装置および対話プログラム

Info

Publication number: JP6645779B2
Application number: JP2015179490A
Authority: JP
Inventors: 択磨松村; 哲溝口
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2015-09-11
Filing date: 2015-09-11
Publication date: 2020-02-14
Anticipated expiration: 2035-09-11
Also published as: JP2017054064A

Description

本発明は、対話装置および対話プログラムに関する。

従来の対話装置は、ユーザの音声を認識することによって、ユーザの意図を把握し、ユーザとの対話を行う（たとえば下記特許文献１参照）。

特開２００２−１８２８９６号公報

ユーザの音声認識のみで対話を行う従来の対話装置では、ユーザの意図を対話装置が正確に把握できない場合がある。たとえば、ユーザが或る山の高さを対話装置に質問しようとする場合を想定する。ユーザが山に関する知識、たとえば山の名称「Ａ」を知っているのであれば、ユーザは、山の名称を発音できる。このため、ユーザが「Ａの高さは？」といった質問の音声を発すれば、質問の内容が音声のみで明確であるので、対話装置は、ユーザの意図を把握し、対話を行うことができる。一方、ユーザが山の名称を知らない場合、ユーザは山の名称を発音できない。このため、ユーザは、音声のみでは、山の高さを質問するための適切な音声を発することができない。その場合、対話装置は、ユーザの意図を把握できず、対話を行うことができない。

本発明は、上記問題点に鑑みてなされたものであり、ユーザの意図をより適切に把握することが可能な対話装置および対話プログラムを提供することを目的とする。

本発明の一態様に係る対話装置は、ユーザとの対話を行うための対話装置であって、ユーザの音声を取得する音声取得手段と、画像を取得する画像取得手段と、音声取得手段によって取得されたユーザの音声に基づいて、画像取得手段によって取得された画像に含まれる対象物を特定する特定手段と、を備える。

また、本発明の一態様に係る対話プログラムは、ユーザとの対話を行うための対話装置に設けられたコンピュータを、ユーザの音声を取得する音声取得手段と、画像を取得する画像取得手段と、音声取得手段によって取得されたユーザの音声に基づいて、画像取得手段によって取得された画像に含まれる対象物を特定する特定手段、として機能させる。

上記の対話装置または対話プログラムによれば、音声取得手段によって取得されたユーザの音声に基づいて、画像取得手段によって取得された画像に含まれる対象物が特定される。これにより、たとえば、ユーザが対象物に関する知識を有していない場合でも、その対象物が画像に含まれているものであることを意図（指定）する音声を発すれば、その音声に基づいて、ユーザの意図している対象物が特定される。よって、対話において、ユーザの意図をより適切に把握することができる。

対話装置は、音声取得手段によって取得されたユーザの音声を認識するための認識モードを実行する認識手段、をさらに備え、特定手段は、対象物の名称を特定し、認識モードは、音声取得手段によって取得されたユーザの音声を認識する第１の認識モードと、音声取得手段によって取得されたユーザの音声と、特定手段によって特定された対象物の名称とに基づいて、ユーザの音声を認識する第２の認識モードと、を含んでもよい。第１の認識モードが実行されると、ユーザの音声を認識することによって、従来の対話装置と同様に、ユーザとの対話が行われる。これに対し、第２の認識モードが実行されると、ユーザの音声と特定された対象物の名称とに基づいてユーザの音声が認識され、ユーザとの対話が行われる。このような第２の認識モードを実行することによって、ユーザの意図をより適切に把握しつつ、ユーザとの対話を行うことができる。

特定手段は、音声取得手段によって取得されたユーザの音声の一部に置き換えることが可能な対象物の名称を特定し、第２の認識モードでは、音声取得手段によって取得されたユーザの音声に対応するデータの一部が、特定手段によって特定された対象物の名称に対応するデータに置き換えられた後に、当該置き換えられたデータに基づいてユーザの音声が認識されてもよい。これにより、たとえば対象物の名称の候補が複数存在する場合でも、その中から、ユーザの音声の一部に置き換えることが可能な対象物の名称、すなわち文脈（会話の流れ）に適した対象物の名称が特定される。このように特定された対象物の名称に対応するデータを、ユーザの音声に対応するデータの一部に置き換えた後に音声認識を行うことで、会話の流れに沿って、ユーザの意図をより適切に把握することができる。

認識手段は、第１の認識モードを実行しているときに、音声取得手段によって取得されたユーザの音声に所定の音声が含まれることを認識すると、実行する認識モードを、第１の認識モードから第２の認識モードに切り替えてもよい。たとえば所定の音声を、対象物が画像に含まれているものであることを意味する音声に設定しておくことで、適切なタイミングで第２の認識モードを実行し、ユーザの意図をより適切に把握することができるようになる。

特定手段は、画像における対象物の位置情報と、音声取得手段によって取得されたユーザの音声とに基づいて、対象物を特定してもよい。これにより、画像に複数の対象物が含まれる場合でも、ユーザの音声に基づいて、ユーザの意図している対象物を特定することができる。

対話装置は、画像を出力する出力手段、をさらに備え、画像取得手段は、出力手段によって出力されている画像を取得してもよい。これにより、たとえば出力手段によって出力される画像、映像を話題として対話装置とユーザとの対話が行われるような場合でも、上記説明したように、ユーザの意図している対象物を特定し、ユーザの意図をより適切に把握することができる。

本発明によれば、ユーザの意図をより適切に把握することが可能になる。

対話装置の機能ブロックを示す図である。記憶部１４０に記憶されるデータテーブルの一例を示す図である。対話装置のハードウェア構成を示す図である。対話プログラムの構成を示す図である。対話装置において実行される処理の一例を示す第１のフローチャートである。対話装置において実行される処理の一例を示す第２のフローチャートである。変形例に係る対話装置の機能ブロックを示す図である。

以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。

実施形態に係る対話装置は、ユーザと対話を行う装置である。対話装置は、たとえばスマートフォンのような移動体端末装置、あるいは据え置き型の端末として実現されてもよいし、人間の外形形状を模したロボットとして実現されてもよい。

図１は、実施形態に係る対話装置の機能ブロックを示す図である。図１に示されるように、対話装置１００は、入力部１１０と、出力部１２０と、制御部１３０と、記憶部１４０と、通信部１５０とを含む。

入力部１１０および出力部１２０は、対話装置１００の外部、主にユーザとの間で情報をやり取りするための部分（入出力インタフェース）である。入力部１１０は、ユーザの音声を含む対話装置１００の周囲の音声（以下、単に「周囲音声」という場合もある）の入力を受け付け、また、ユーザを含む対話装置１００の周囲の画像、映像（以下、単に「周囲画像」という場合もある）の入力を受け付ける。出力部１２０は、種々の画像、映像を出力し、また、種々の音声を出力する。

具体的に、入力部１１０は、集音部１１１と、撮像部１１２とを含む。集音部１１１は、周囲音声の入力を受け付ける部分である。集音部１１１は、たとえばマイクで構成される。集音部１１１は、たとえば指向性を有するように、複数のマイクが配列されたマイクアレイで構成されてもよい。撮像部１１２は、周囲画像の入力を受け付ける部分である。撮像部１１２は、たとえばカメラで構成される。撮像部１１２は、対象物との距離を把握できるように、たとえば複数のカメラで構成される。なお、入力部１１０は、たとえば、ユーザが対話装置１００を操作するための操作ボタンなどの要素をさらに含んでもよい。

出力部１２０は、発音部１２１と、表示部１２２とを含む。発音部１２１は、音声を出力する部分である。発音部１２１は、たとえばスピーカで構成される。発音部１２１は、たとえば指向性を有するように、複数のスピーカが配列されたアレイスピーカで構成されてもよい。表示部１２２は、画像、映像を出力する部分（出力手段）である。表示部１２２は、たとえばディスプレイで構成される。ディスプレイはタッチパネルで構成されてもよく、その場合、タッチパネルは、ユーザが対話装置１００を操作するための要素としても機能する。

また、表示部１２２は、インターネットなどの通信網を介して配信されたり、あるいはテレビ放送として受信されたりする、画像、映像といったコンテンツを表示する。表示部１２２によって表示されるそれらの画像、映像を話題として、対話装置１００とユーザとの対話が行われてもよい。

制御部１３０は、対話装置１００の各要素を制御することによって、対話装置１００の全体制御を行う部分である。制御部１３０は、音声取得部１３１と、画像取得部１３２と、音声認識部１３３と、画像認識部１３４と、特定部１３５とを含む。

音声取得部１３１は、入力部１１０の集音部１１１に入力された周囲音声を取得する部分である。すなわち、音声取得部１３１および集音部１１１は、周囲音声を取得する音声取得手段として機能する。以下、とくに説明がない限り、音声取得手段を単に音声取得部１３１と称して説明する。

画像取得部１３２は、入力部１１０の撮像部１１２に入力された周囲画像を取得する部分である。すなわち、画像取得部１３２および撮像部１１２は、周囲画像を取得する画像取得手段として機能する。以下、とくに説明がない限り、画像取得手段を画像取得部１３２と称して説明する。

また、画像取得部１３２は、上述の表示部１２２によって表示される種々の画像、映像を、周囲画像として取得する。すなわち、画像取得部１３２は、撮像部１１２によって出力されている画像を取得する部分でもある。

音声認識部１３３は、周囲音声、とくにユーザの音声を認識するための音声認識処理を実行する部分（認識手段）である。音声認識部１３３は、音声取得部１３１によって取得された周囲音声に対して、音声認識処理を実行する。音声認識処理はたとえば、予め用意された音響モデル、言語モデルを用いた手法を含む、種々の手法によって実現される。言語モデルは、種々の専門分野に対応できるように、専門辞書の言語を含むモデルであってもよい。

音声認識部１３３によって実行される音声認識処理は、ユーザの音声の波形を解析し、その発声内容を、結果データとして出力する処理を含む。結果データは、ユーザの音声に対応するデータであり、たとえば文字列のデータ（テキストデータ）とされる。

音声認識処理においては、第１の認識モードおよび第２の認識モードが実行される。第１の認識モードでは、音声取得部１３１によって取得されたユーザの音声がそのまま認識される。これに対し、第２の認識モードでは、音声取得部１３１によって取得されたユーザの音声と、後述の特定部１３５によって特定された対象物の名称とに基づいて、ユーザの音声が認識される。より具体的に、第２の認識モードでは、音声取得部１３１によって取得されたユーザの音声に対応するデータ（テキストデータなど）の一部が、特定部１３５によって特定された対象物の名称に対応するデータ（テキストデータなど）に置き換えられた後に、当該置き換えられたデータに基づいてユーザの音声が認識（解読）される。

画像認識部１３４は、画像取得部１３２によって取得された周囲画像を認識するための部分である。画像認識部１３４は、音声取得部１３１によって取得された周囲画像に対して、画像認識処理を実行する。画像認識処理の手法は、一般的に用いられる画像認識処理の手法であればよく、とくに限定されるものではないが、たとえばｏｐｅｎＣＶ（Open Source Computer Vision Library）など、種々の手法が用いられる。

また、画像認識部１３４は、画像取得部１３２によって取得された周囲画像に含まれる対象物について、撮像部１１２から対象物までの距離を推定する。たとえば前述したように撮像部１１２が複数のカメラで構成される場合、画像認識部１３４は、三角測量法を用いて対象物までの距離を計測することができる。

特定部１３５は、音声取得部１３１によって取得された周囲音声、とくにユーザの音声に基づいて、画像取得部１３２によって取得された周囲画像に含まれる対象物を特定する部分（特定手段）である。対象物は、周囲画像に含まれる物のうち、ユーザが音声を用いて特定（指定）しようとしている物である。

たとえば、ユーザが或る山の高さを対話装置１００に質問しようとする際、ユーザは、山の名称「Ａ」を知らないが、その山の写真を有している（あるいはその山の写真がユーザの近くに存在している）ことが想定される。このとき、ユーザは、その写真を対話装置１００に提示するとともに「この山の高さは？」といった質問の音声を発する。すると、特定部１３５は、音声取得部１３１によって取得されたユーザの「この山の高さは？」との音声に基づいて、画像取得部１３２によって取得された写真に写っている山を、対象物として特定する。特定部１３５は、たとえば、対象物の名称、この例では山の名称「Ａ」を特定する。

具体的に、まず、特定部１３５は、ユーザの音声に含まれる指示詞（指示語）あるいは指示代名詞を特定する。上述の例では、ユーザの音声「この山の高さは？」に含まれる「この」が、指示詞として特定される。

また、特定部１３５は、特定された指示詞あるいは指示代名詞に基づいて、周囲画像に含まれる対象物の画像を特定する。上述の例では、写真に写っている山の画像が、指示詞「この」および当該指示詞に続く名詞「山」、つまり「この山」に対応する対象物の画像として特定される。

そして、特定部１３５は、特定した対象物の画像に基づいて、対象物の名称を特定する。上述の例では、写真に写っている山の名称が「Ａ」として特定される。山の名称の特定は、たとえば、後述の記憶部１４０に記憶されている種々の情報を参照することによって行われてもよいし、通信部１５０を介して対話装置１００の外部から情報を取得することによって行われてもよい。

ここで、特定部１３５は、対象物の周囲画像における位置情報と、音声取得部１３１によって取得されたユーザの音声とに基づいて、対象物を特定してもよい。上述の例では、「この」という指示詞の意味から、ユーザが意図している対象物は、周囲画像において手前、つまり、対話装置１００から近距離の位置に存在している山であることが推定できる。このように推定された位置情報（この場合は「近距離」）に基づくことで、周囲画像におけるユーザが意図している対象物が適切に特定され得る。

一方、対話装置１００から見てユーザのかなり後方の位置に山の写真が置かれている場合には、ユーザが「あの山の高さは？」といった質問の音声を発することが考えられる。その場合、「あの」という指示詞の意味から、ユーザが意図している対象物は、周囲画像において後方、つまり対話装置１００から遠距離の位置に存在している山であることが推定できる。

なお、ユーザが「その山の高さは？」といった質問の音声を発した場合には、「その」という指示詞の意味から、ユーザが意図している対象物は、対話装置１００から中距離の位置に存在している山であることが推定できる。

以上では、特定部１３５が、「この」、「その」、「あの」といった指示詞に基づいて、周囲画像に含まれる対象物の画像を特定する例について説明したが、特定部１３５は、指示詞に代えて、指示代名詞に基づいて、周囲画像に含まれる対象物の画像を特定してもよい。たとえば、上述の例において、ユーザが山の写真を示しながら「これの高さは？」といった質問の音声を発することも想定される。この場合、特定部１３５は、「これ」という指示代名詞の意味から、ユーザが意図している対象物は、周囲画像において手前、つまり、対話装置１００から近距離の位置に存在している物体であることが推定できる。このように推定された位置情報に基づいても、周囲画像におけるユーザが意図している対象物が適切に特定され得る。

記憶部１４０は、制御部１３０によって実行される処理に必要な種々の情報を記憶する部分である。記憶部１４０は、たとえば、前述の音響モデル、言語モデルを記憶する。また、記憶部１４０は、対話装置１００がユーザと対話を行うために必要な処理を対話装置１００に実行させるためのプログラム（対話プログラム）を記憶する。

また、記憶部１４０は、特定部１３５が周囲画像に含まれる対象物の名称を特定するために必要な種々の情報を記憶する。たとえば、さまざまな物体の画像および名称を記憶したデータベースが記憶部１４０に格納されており、周囲画像に含まれる対象物の画像と、当該データベースに記憶されている物体の画像とを照合することによって、対象物の名称が特定され得る。

また、記憶部１４０は、上述した特定部１３５による、指示詞あるいは指示代名詞と、対象物の周囲画像における位置情報等とを対応づけて記述するデータテーブルを記憶する。

図２は、記憶部１４０に記憶されるデータテーブルの一例を示す図である。図２に示されるように、このデータテーブルは、「キーワード」と「機器からの距離」と「キーワードに続く名詞の有無」とを対応づけて記述する。

「キーワード」は、たとえば指示代名詞あるいは指示詞である。図２では、指示代名詞として「これ」、「それ」、「あれ」が、指示詞として「この」、「その」、「あの」が例示されている。

「機器からの距離」は、各キーワード、つまり各指示代名詞あるいは各指示詞に応じて想定される、対話装置１００（より具体的には撮像部１１２）から対象物までの距離である。図２では、機器からの距離が、「近距離」、「中距離」、「遠距離」の３通りに分類されている。

たとえば、対話装置１００から対象物までの距離が第１の所定距離未満の場合には、当該距離は「近距離」に設定される。対話装置１００から対象物までの距離が第１の所定距離以上かつ第２の所定距離未満の場合には、当該距離は「中距離」に設定される。対話装置１００から対象物までの距離が第２の所定距離以上の場合には、当該距離は「遠距離」に設定される。第２の所定距離は、第１の所定距離よりも大きい。

「キーワードに続く名詞の有無」は、各キーワードが、その後ろに名詞を伴い得るキーワードであるか否かを示す。具体的に、キーワードが「これ」、「それ」、「あれ」といった指示代名詞である場合には、キーワードに続く名詞の有無は「無し」とされる。一方、キーワードが「この」、「その」、「あの」といった指示詞である場合、キーワードに続く名詞の有無は「有り」とされる。

図２に示されるデータテーブルを参照すれば、ユーザの音声に所定の音声（キーワード）が含まれる場合に、当該キーワードに基づいて、ユーザが意図している対象物に関する位置情報、つまり、対話装置１００からの距離を推定することができる。また、キーワードに続く名詞の有無を判断することによって、たとえば、キーワードに続く名詞が有る場合には、その後の名詞を参考とすることで、ユーザの意図している対象物をより適切に把握できる可能性が高まる。

再び図１に戻り、通信部１５０は、対話装置１００の外部と通信を行う部分である。通信部１５０によって、たとえば、記憶部１４０に記憶される上述の種々の情報が追加して取得され、あるいは、更新され得る。また、通信部１５０を用いてインターネットなどにアクセスすることで、周囲画像に含まれる対象物の画像から、対象物の名称を特定するための検索処理が実行されてもよい。

次に、図３を参照して、対話装置１００のハードウェア構成について説明する。図３に示されるように、対話装置１００は、物理的には、１または複数のＣＰＵ（Central Processing Unit）２１、ＲＡＭ（Random Access Memory）２２およびＲＯＭ（Read Only Memory）２３、カメラなどの撮像装置２４、データ送受信デバイスである通信モジュール２６、半導体メモリなどの補助記憶装置２７、操作盤（操作ボタンを含む）やタッチパネルなどのユーザ操作の入力を受け付ける入力装置２８、ディスプレイなどの出力装置２９、ならびにＣＤ−ＲＯＭドライブ装置などの読取装置２Ａを備えるコンピュータとして構成され得る。図１における対話装置１００の機能は、たとえば、ＣＤ−ＲＯＭなどの記憶媒体Ｍに記憶された１または複数のプログラムを読取装置２Ａにより読み取ってＲＡＭ２２などのハードウェア上に取り込むことにより、ＣＰＵ２１の制御のもとで撮像装置２４、通信モジュール２６、入力装置２８、出力装置２９を動作させるとともに、ＲＡＭ２２および補助記憶装置２７におけるデータの読み出しおよび書き込みを行うことで実現される。

また、図４には、コンピュータを対話装置１００として機能させるための対話プログラムのモジュールが示される。図４に示されるように、対話プログラムP１００は、音声取得モジュールＰ１０１、画像取得モジュールＰ１０２、音声認識モジュールＰ１０３、画像認識モジュールＰ１０４および特定モジュールＰ１０５を備えている。各モジュールによって、先に図１を参照して説明した、音声取得部１３１、画像取得部１３２、音声認識部１３３、画像認識部１３４および特定部１３５の機能が実現される。

対話プログラムは、たとえば記憶媒体に格納されて提供される。記憶媒体は、フレキシブルディスク、ＣＤ−ＲＯＭ、ＵＳＢメモリ、ＤＶＤ、半導体メモリなどであってよい。

次に、図５および図６を用いて、対話装置１００の動作（対話装置１００によって実行される対話方法）について説明する。

図５は、対話装置１００において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、対話装置１００とユーザとの対話が開始されたことに応じて実行される。なお、とくに説明がない場合、各処理は、制御部１３０によって（つまり制御部１３０に含まれるいずれの要素かを問わず）実行され得る。

まず、対話装置１００は、認識モードを第１の認識モードとして、音声認識を実行する（ステップＳ１）。具体的に、音声認識部１３３によって、第１の認識モードが実行され、ユーザとの対話が行われる。なお、次のステップＳ２，Ｓ３において実行される処理は、第１の認識モードにおいて実行される処理である。

次に、対話装置１００は、曖昧入力判定処理を実行する（ステップＳ２）。すなわち、対話装置１００は、曖昧入力が有ったか否かを判断する（ステップＳ３）。この処理は、音声認識部１３３によって実行される。たとえば、ユーザの音声に、指示詞あるいは指示代名詞などのキーワードが含まれることによって、ユーザの音声のみでは、ユーザの発話の意図が明確になっていない（曖昧となっている）場合に、曖昧入力が有ったと判断される。曖昧入力が有った場合（ステップＳ３：ＹＥＳ）、対話装置１００は、ステップＳ４に処理を進める。そうでない場合（ステップＳ３：ＮＯ）、対話装置１００は、ステップＳ１に再び処理を戻す。

なお、指示詞が含まれる場合であっても、「あの夜」、「その日」など、指示詞「あの」、「その」の後ろに続く名詞が画像、映像で表すことができないものである場合には、曖昧入力が無かったと（ステップＳ３：ＮＯ）判断されてよい。

ステップＳ４において、対話装置１００は、認識モードを第２の認識モードに切り替える。具体的に、音声認識部１３３が、音声認識処理において実行する認識モードを、第１の認識モードから第２の認識モードに切り替える。よって、後述次のステップＳ５〜Ｓ７において実行される処理は、第２の認識モードにおいて実行される処理である。

具体的に、対話装置１００は、音声認識結果より、指定距離推定処理を実行する（ステップＳ５）。この処理は、たとえば特定部１３５によって実行される。具体的に、記憶部１４０に記憶されている先に説明した図２に示されるようなデータテーブルが参照され、ユーザが意図（指定）している対話装置１００から対象物までの距離が推定される。

また、対話装置１００は、音声認識結果より、指定名詞特定処理を実行する（ステップＳ６）。この処理は、たとえば特定部１３５によって実行される。具体的に、ユーザの音声に指示詞が含まれる場合、その指示詞に続く名詞が、指定名詞として特定され、保持される。

ステップＳ５およびステップＳ６の処理が完了した後、対話装置１００は、画像認識処理を実行する（ステップＳ７）。

図６は、画像認識処理（図５のステップＳ７）において実行される処理の詳細を示すフローチャートである。

まず、対話装置１００は、画像認識・距離測定処理を実行する（ステップＳ１１）。具体的に、画像認識部１３４が、画像取得部１３２によって取得された周囲画像に含まれる物体の数（ｎ個）を特定し、各物体の画像を認識する。また、画像認識部１３４は、対話装置１００から各物体までの距離をそれぞれ計測（推定）する。

次のステップＳ１２〜Ｓ１７において、対話装置１００は、ｎ個の物体のうちのいずれの物体がユーザの意図している物体に該当する可能性が高いかを評価する。具体的に、対話装置１００は、変数ｉの初期値を０とし（ステップＳ１２）、ｉを１ずつ増加させながら（ステップＳ１６）、ｉがｎ以上になるまでの間（ステップＳ１７：ＮＯ）、ｉ番目の物体について、以下のステップＳ１３〜Ｓ１５の処理を繰り返し実行する。

まず、対話装置１００は、距離点数を算出する（ステップＳ１３）。具体的に、特定部１３５が、先のステップＳ１１において推定された対話装置１００から物体までの距離と、先のステップＳ５（図５）において推定されたユーザが意図している対話装置１００から対象物までの距離とに基づいて、距離点数を算出する。たとえば、両者の距離が近いほど、距離点数は大きくなるように算出される。

次に、対話装置１００は、指定名詞の単語を保持しているか否かを判断する（ステップＳ１４）。具体的に、先のステップＳ６（図５）において特定され保持された指示詞に続く名詞がある場合、指定名詞の単語を保持していると判断される。指定名詞の単語を保持している場合（ステップＳ１４：ＹＥＳ）、対話装置１００は、ステップＳ１５に処理を進める。そうでない場合（ステップＳ１４：ＮＯ）、対話装置１００は、ステップＳ１５をスキップして、ステップＳ１６に処理を進める。

ステップＳ１５において、対話装置１００は、画像認識した名称と保持名詞で点数を算出する（ステップＳ１５）。この処理は、特定部１３５によって実行される。たとえば、画像認識部１３４によって特定された対象物の種類（「山」など）と、指示詞に続く名詞（「山」など）とが一致している場合には、先のステップＳ１３において算出された距離点数が増加される。逆に、画像認識部１３４によって特定された対象物の名称と、指示詞に続く名詞とが一致しない場合には、距離点数が維持され、あるいは減少される。

ｎ個の物体について上述のステップＳ１３〜Ｓ１５の処理が実行された後（ステップＳ１７：ＹＥＳ）、対話装置１００は、ステップＳ１８に処理を進める。

ステップＳ１８において、対話装置１００は、総合的な点数により対象を１つに決定する。具体的に、特定部１３５が、ｎ個の物体のうち、先のステップＳ１３および／またはステップＳ１５で算出された点数が最も高い物体を、ユーザが意図（指定）している対象物として特定する。つまり、ステップＳ１８では、対話装置１００から対象物までの距離と、指示詞、指示代名詞の後ろに続く名詞の有無といった会話文脈から、ユーザの音声の一部に置き換えることができる可能性の高い対象物の名称が特定される。

なお、具体的に、指示詞、指示代名詞の後ろに続く名詞の有無といった会話文脈からは、以下のようにして、ユーザの音声の一部に置き換えることができる可能性の高い対象物の名称が特定され得る。一例として、周囲画像に或る図形が含まれており、当該図形が、或る果物を示す図形であるとともに或る会社のロゴを示す図形でもある場合を想定する。この場合、ユーザが「これ食べたい」との音声を発した場合には、「これ」という指示代名詞から、その後ろに続く名詞は存在しない。このため、当該図形は、単に果物を示す図形（画像）として認識され、当該果物の名称が、ユーザが意図している対象物の名称として特定される。これに対し、ユーザが「ここの社長は誰？」との音声を発した場合には、「ここ」という指示詞から、その後ろに続く「社長」という名詞が存在する。このため、当該図形は、単に果物を示す図形でなく、「社長」という名詞に関連し得る文言、たとえば「会社」、「企業」などを示す図形（画像）として認識され、当該会社等の名称が、ユーザが意図している対象物の名称として特定される。たとえばこのようにして、会話文脈から、ユーザの音声の一部に置き換えることができる可能性の高い対象物の名称が特定される。

その後、対話装置１００は、音声認識結果の補正処理を実行する（ステップＳ１９）。この処理は、音声認識部１３３によって実行される。具体的に、ユーザ音声に対応するデータ（テキストデータなど）に含まれる指示詞およびそれに続く名詞、あるいは指示代名詞が、先のステップＳ１８において特定された物体の名称に対応するデータに置き換えられる。そして、置き換えられたデータに基づいて、ユーザの音声が認識（内容が解読）される。

ステップＳ１９の処理が完了した後、対話装置１００は、ステップＳ１に再び処理を戻す（図５）。

次に、対話装置１００の作用効果について説明する。対話装置１００によれば、特定部１３５が、音声取得部１３１によって取得されたユーザの音声に基づいて、画像取得部１３２によって取得された周囲画像に含まれる対象物を特定する（ステップＳ７）。これにより、たとえば、ユーザが対象物に関する知識を有していない場合でも、その対象物が周囲画像に含まれているものであることを意図（指定）する音声、たとえば指示詞、指示代名詞を含む音声を発すれば、その音声に基づいて、ユーザの意図している対象物が特定される。よって、対話において、ユーザの意図をより適切に把握することができる。

具体的に、音声認識部１３３は、音声認識処理として、まず、第１の認識モードを実行し、ユーザの音声をそのまま認識する。これにより、従来の対話装置と同様にユーザとの対話が行われる（ステップＳ１，Ｓ２，Ｓ３：ＮＯ）。さらに、音声認識部１３３は、第２の認識モードを実行し、ユーザの音声と特定された対象物の名称とに基づいてユーザの音声を認識する（ステップＳ４〜Ｓ７）。第２の認識モードが実行されることによって、ユーザの意図をより適切に把握しつつ、ユーザとの対話を行うことができる。

また、特定部１３５は、音声取得部１３１によって取得されたユーザの音声の一部に置き換えることが可能な対象物の名称を特定する（ステップＳ１８）。そして、音声認識部１３３が、ユーザの音声に対応するデータの一部を、特定部１３５によって特定された対象物の名称に対応するデータに置き換えた後に、当該置き換えられたデータに基づいてユーザの音声を認識する（ステップＳ１９）。これにより、たとえば、周囲画像に複数の対象物が含まれ、ユーザが意図（指定）している対象物の名称の候補が複数存在する場合でも、その中から、ユーザの音声の一部に置き換えることが可能な対象物の名称、すなわち文脈（会話の流れ）に適した対象物の名称が特定される。このように特定された対象物の名称に対応するデータを、ユーザの音声に対応するデータの一部に置き換えた後に音声認識を行うことで、会話の流れに沿って、ユーザの意図をより適切に把握することができる。

また、音声認識部１３３は、第１の認識モードを実行しているときに、ユーザの音声に、指示詞、指示代名詞などのキーワードが含まれることを認識すると、実行する認識モードを、第１の認識モードから第２の認識モードに切替える（ステップＳ３：ＹＥＳ、ステップＳ４）。これにより、指示詞、指示代名詞に基づいて対象物の名称を特定する必要が生じた適切なタイミングで第２の認識モードを実行し、ユーザの意図をより適切に把握することができるようになる。

また、特定部１３５は、周囲画像における対象物の位置情報、より具体的には、対話装置１００から対象物までの距離と、ユーザの音声とに基づいて、対象物を特定する（ステップＳ１３〜Ｓ１５，Ｓ１８）。これにより、周囲画像に複数の対象物が含まれる場合でも、ユーザの音声に基づいて、ユーザの意図（指定）している対象物を特定することができる。

また、周囲画像は、表示部１２２によって表示されている画像、映像であってもよい。これにより、たとえば、表示部１２２によって表示されている画像、映像を話題として、ユーザとの対話を行うことができる。たとえば、ユーザとの対話中に、テレビ放送として受信された或る山の風景の映像が、表示部１２２によって表示されている場合を想定する。たとえば、ユーザが「ここはどこ？」といった音声を発した場合、「ここ」という指示代名詞に応じて、表示部１２２によって表示されている山の名称を特定することによって、ユーザの意図を適切に把握しつつ対話を行うことができる。

以上説明した対話装置１００の各機能は、たとえば、コンピュータにおいて対話プログラムが実行されることによって実現することもできる。

以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。

図７は変形例に係る対話装置の機能ブロックを示す図である。対話装置１００Ａは、サーバ２００との共同により、ユーザとの対話を行う対話システム１を構成する。この変形例では、対話システム１が本発明に係る対話装置に相当する。

図７に示されるように、サーバ２００は、制御部２３０と、記憶部２４０と、通信部２５０とを含む。

制御部２３０は、音声取得部２３１、画像取得部２３２、音声認識部２３３、画像認識部２３４および特定部２３５を含む。これらの各要素は、先に図１を参照して説明した音声取得部１３１、画像取得部１３２，音声認識部１３３、画像認識部１３４および特定部１３５と同様の機能を有する。

記憶部２４０は、先に図１を参照して説明した記憶部１４０と同様の機能を有する。すなわち、記憶部２４０は、制御部２３０によって実行される処理に必要な種々の情報を記憶する部分であり、たとえば音響モデル、言語モデル、対話プログラム、さまざまな物体の画像および名称を記憶したデータベース、図２に示されるようなデータテーブルを記憶する。

通信部２５０は、対話装置１００Ａの通信部１５０と通信する部分である。通信部２５０によって、対話装置１００Ａとサーバ２００とが通信可能となる。通信部２５０を用いてインターネットなどにアクセスすることで、周囲画像に含まれる対象物の画像から、対象物の名称を特定するための検索処理が実行されてもよい。

以上の構成により、対話システム１は、対話装置１００Ａと、サーバ２００との協働により、ユーザとの対話を可能とする。すなわち、対話システム１では、対話装置１００（図１）においてユーザとの対話を行うために実行される処理の一部（とくに制御部１３０によって実行される処理）が、サーバ２００によって実行される。したがって、対話装置１００Ａによれば、対話装置１００よりも、対話装置における処理負担を軽減することができる。

具体的に、対話装置１００Ａは、対話装置１００と比較して、制御部１３０および記憶部１４０に変えて、制御部１３０Ａ、記憶部１４０Ａを含む構成とすることができる。

制御部１３０Ａは、対話装置１００Ａの全体制御を行う部分である。ただし、制御部１３０Ａは、制御部１３０と比較して、音声取得部１３１、画像取得部１３２、音声認識部１３３、画像認識部１３４、特定部１３５を含むことが必須でなく、それによって、制御部１３０Ａの構成は、制御部１３０よりも簡素化することができる。

記憶部１４０Ａは、制御部１３０Ａによって実行される処理に必要な種々の情報を記憶する部分であるが、サーバ２００の記憶部２４０と重複するデータの記憶は、記憶部１４０Ａにおいては必須ではない。その分、記憶部１４０Ａの記憶容量を、記憶部１４０の記憶容量よりも小さくするなどして、構成を簡素化することができる。

１００，１００Ａ…対話装置、１１０…入力部、１１１…集音部（音声取得手段）、１１２…撮像部（画像取得手段）、１２０…出力部、１２１…発音部、１２２…表示部（出力手段）、１３０，１３０Ａ，２３０…制御部、１３１，２３１…音声取得部（音声取得手段）、１３２，２３２…画像取得部（画像取得手段）、１３３，２３３…音声認識部（認識手段）、１３４，２３４…画像認識部、１３５，２３５…特定部（特定手段）、１４０，１４０Ａ，２４０…記憶部、１５０，２５０…通信部。

Claims

ユーザとの対話を行うための対話装置であって、
前記ユーザの音声を取得する音声取得手段と、
画像を取得する画像取得手段と、
対象物の名称が前記ユーザに提示されていない状態で前記音声取得手段によって取得された前記ユーザの音声に基づいて、前記画像取得手段によって取得された画像に含まれる前記対象物を特定する特定手段と、
前記音声取得手段によって取得された前記ユーザの音声を認識するための認識モードを実行する認識手段と、
を備え、
前記特定手段は、前記対象物の名称を特定し、
前記認識モードは、
前記音声取得手段によって取得された前記ユーザの音声を認識する第１の認識モードと、
前記音声取得手段によって取得された前記ユーザの音声と、前記特定手段によって特定された対象物の名称とに基づいて、前記ユーザの音声を認識する第２の認識モードと、を含み、
前記特定手段は、前記音声取得手段によって取得されたユーザの音声の一部に置き換えることが可能な前記対象物の名称を特定し、
前記第２の認識モードでは、前記音声取得手段によって取得されたユーザの音声に対応するデータの一部が、前記特定手段によって特定された対象物の名称に対応するデータに置き換えられた後に、当該置き換えられたデータに基づいて前記ユーザの音声が認識される、対話装置。
前記認識手段は、前記第１の認識モードを実行しているときに、前記音声取得手段によって取得された前記ユーザの音声に所定の音声が含まれることを認識すると、実行する認識モードを、前記第１の認識モードから前記第２の認識モードに切り替える、
請求項１に記載の対話装置。
前記特定手段は、前記画像における前記対象物の位置情報と、前記音声取得手段によって取得されたユーザの音声とに基づいて、前記対象物を特定する、
請求項１または２に記載の対話装置。
画像を出力する出力手段、をさらに備え、
前記画像取得手段は、前記出力手段によって出力されている画像を取得する、
請求項１〜３のいずれか１項に記載の対話装置。