Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP6645779B2 - 対話装置および対話プログラム - Google Patents
[go: Go Back, main page]

JP6645779B2 - 対話装置および対話プログラム - Google Patents

対話装置および対話プログラム Download PDF

Info

Publication number
JP6645779B2
JP6645779B2 JP2015179490A JP2015179490A JP6645779B2 JP 6645779 B2 JP6645779 B2 JP 6645779B2 JP 2015179490 A JP2015179490 A JP 2015179490A JP 2015179490 A JP2015179490 A JP 2015179490A JP 6645779 B2 JP6645779 B2 JP 6645779B2
Authority
JP
Japan
Prior art keywords
voice
user
unit
image
interactive device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015179490A
Other languages
English (en)
Other versions
JP2017054064A (ja
Inventor
択磨 松村
択磨 松村
哲 溝口
哲 溝口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2015179490A priority Critical patent/JP6645779B2/ja
Publication of JP2017054064A publication Critical patent/JP2017054064A/ja
Application granted granted Critical
Publication of JP6645779B2 publication Critical patent/JP6645779B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)

Description

本発明は、対話装置および対話プログラムに関する。
従来の対話装置は、ユーザの音声を認識することによって、ユーザの意図を把握し、ユーザとの対話を行う(たとえば下記特許文献1参照)。
特開2002−182896号公報
ユーザの音声認識のみで対話を行う従来の対話装置では、ユーザの意図を対話装置が正確に把握できない場合がある。たとえば、ユーザが或る山の高さを対話装置に質問しようとする場合を想定する。ユーザが山に関する知識、たとえば山の名称「A」を知っているのであれば、ユーザは、山の名称を発音できる。このため、ユーザが「Aの高さは?」といった質問の音声を発すれば、質問の内容が音声のみで明確であるので、対話装置は、ユーザの意図を把握し、対話を行うことができる。一方、ユーザが山の名称を知らない場合、ユーザは山の名称を発音できない。このため、ユーザは、音声のみでは、山の高さを質問するための適切な音声を発することができない。その場合、対話装置は、ユーザの意図を把握できず、対話を行うことができない。
本発明は、上記問題点に鑑みてなされたものであり、ユーザの意図をより適切に把握することが可能な対話装置および対話プログラムを提供することを目的とする。
本発明の一態様に係る対話装置は、ユーザとの対話を行うための対話装置であって、ユーザの音声を取得する音声取得手段と、画像を取得する画像取得手段と、音声取得手段によって取得されたユーザの音声に基づいて、画像取得手段によって取得された画像に含まれる対象物を特定する特定手段と、を備える。
また、本発明の一態様に係る対話プログラムは、ユーザとの対話を行うための対話装置に設けられたコンピュータを、ユーザの音声を取得する音声取得手段と、画像を取得する画像取得手段と、音声取得手段によって取得されたユーザの音声に基づいて、画像取得手段によって取得された画像に含まれる対象物を特定する特定手段、として機能させる。
上記の対話装置または対話プログラムによれば、音声取得手段によって取得されたユーザの音声に基づいて、画像取得手段によって取得された画像に含まれる対象物が特定される。これにより、たとえば、ユーザが対象物に関する知識を有していない場合でも、その対象物が画像に含まれているものであることを意図(指定)する音声を発すれば、その音声に基づいて、ユーザの意図している対象物が特定される。よって、対話において、ユーザの意図をより適切に把握することができる。
対話装置は、音声取得手段によって取得されたユーザの音声を認識するための認識モードを実行する認識手段、をさらに備え、特定手段は、対象物の名称を特定し、認識モードは、音声取得手段によって取得されたユーザの音声を認識する第1の認識モードと、音声取得手段によって取得されたユーザの音声と、特定手段によって特定された対象物の名称とに基づいて、ユーザの音声を認識する第2の認識モードと、を含んでもよい。第1の認識モードが実行されると、ユーザの音声を認識することによって、従来の対話装置と同様に、ユーザとの対話が行われる。これに対し、第2の認識モードが実行されると、ユーザの音声と特定された対象物の名称とに基づいてユーザの音声が認識され、ユーザとの対話が行われる。このような第2の認識モードを実行することによって、ユーザの意図をより適切に把握しつつ、ユーザとの対話を行うことができる。
特定手段は、音声取得手段によって取得されたユーザの音声の一部に置き換えることが可能な対象物の名称を特定し、第2の認識モードでは、音声取得手段によって取得されたユーザの音声に対応するデータの一部が、特定手段によって特定された対象物の名称に対応するデータに置き換えられた後に、当該置き換えられたデータに基づいてユーザの音声が認識されてもよい。これにより、たとえば対象物の名称の候補が複数存在する場合でも、その中から、ユーザの音声の一部に置き換えることが可能な対象物の名称、すなわち文脈(会話の流れ)に適した対象物の名称が特定される。このように特定された対象物の名称に対応するデータを、ユーザの音声に対応するデータの一部に置き換えた後に音声認識を行うことで、会話の流れに沿って、ユーザの意図をより適切に把握することができる。
認識手段は、第1の認識モードを実行しているときに、音声取得手段によって取得されたユーザの音声に所定の音声が含まれることを認識すると、実行する認識モードを、第1の認識モードから第2の認識モードに切り替えてもよい。たとえば所定の音声を、対象物が画像に含まれているものであることを意味する音声に設定しておくことで、適切なタイミングで第2の認識モードを実行し、ユーザの意図をより適切に把握することができるようになる。
特定手段は、画像における対象物の位置情報と、音声取得手段によって取得されたユーザの音声とに基づいて、対象物を特定してもよい。これにより、画像に複数の対象物が含まれる場合でも、ユーザの音声に基づいて、ユーザの意図している対象物を特定することができる。
対話装置は、画像を出力する出力手段、をさらに備え、画像取得手段は、出力手段によって出力されている画像を取得してもよい。これにより、たとえば出力手段によって出力される画像、映像を話題として対話装置とユーザとの対話が行われるような場合でも、上記説明したように、ユーザの意図している対象物を特定し、ユーザの意図をより適切に把握することができる。
本発明によれば、ユーザの意図をより適切に把握することが可能になる。
対話装置の機能ブロックを示す図である。 記憶部140に記憶されるデータテーブルの一例を示す図である。 対話装置のハードウェア構成を示す図である。 対話プログラムの構成を示す図である。 対話装置において実行される処理の一例を示す第1のフローチャートである。 対話装置において実行される処理の一例を示す第2のフローチャートである。 変形例に係る対話装置の機能ブロックを示す図である。
以下、本発明の実施形態について、図面を参照しながら説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明は省略する。
実施形態に係る対話装置は、ユーザと対話を行う装置である。対話装置は、たとえばスマートフォンのような移動体端末装置、あるいは据え置き型の端末として実現されてもよいし、人間の外形形状を模したロボットとして実現されてもよい。
図1は、実施形態に係る対話装置の機能ブロックを示す図である。図1に示されるように、対話装置100は、入力部110と、出力部120と、制御部130と、記憶部140と、通信部150とを含む。
入力部110および出力部120は、対話装置100の外部、主にユーザとの間で情報をやり取りするための部分(入出力インタフェース)である。入力部110は、ユーザの音声を含む対話装置100の周囲の音声(以下、単に「周囲音声」という場合もある)の入力を受け付け、また、ユーザを含む対話装置100の周囲の画像、映像(以下、単に「周囲画像」という場合もある)の入力を受け付ける。出力部120は、種々の画像、映像を出力し、また、種々の音声を出力する。
具体的に、入力部110は、集音部111と、撮像部112とを含む。集音部111は、周囲音声の入力を受け付ける部分である。集音部111は、たとえばマイクで構成される。集音部111は、たとえば指向性を有するように、複数のマイクが配列されたマイクアレイで構成されてもよい。撮像部112は、周囲画像の入力を受け付ける部分である。撮像部112は、たとえばカメラで構成される。撮像部112は、対象物との距離を把握できるように、たとえば複数のカメラで構成される。なお、入力部110は、たとえば、ユーザが対話装置100を操作するための操作ボタンなどの要素をさらに含んでもよい。
出力部120は、発音部121と、表示部122とを含む。発音部121は、音声を出力する部分である。発音部121は、たとえばスピーカで構成される。発音部121は、たとえば指向性を有するように、複数のスピーカが配列されたアレイスピーカで構成されてもよい。表示部122は、画像、映像を出力する部分(出力手段)である。表示部122は、たとえばディスプレイで構成される。ディスプレイはタッチパネルで構成されてもよく、その場合、タッチパネルは、ユーザが対話装置100を操作するための要素としても機能する。
また、表示部122は、インターネットなどの通信網を介して配信されたり、あるいはテレビ放送として受信されたりする、画像、映像といったコンテンツを表示する。表示部122によって表示されるそれらの画像、映像を話題として、対話装置100とユーザとの対話が行われてもよい。
制御部130は、対話装置100の各要素を制御することによって、対話装置100の全体制御を行う部分である。制御部130は、音声取得部131と、画像取得部132と、音声認識部133と、画像認識部134と、特定部135とを含む。
音声取得部131は、入力部110の集音部111に入力された周囲音声を取得する部分である。すなわち、音声取得部131および集音部111は、周囲音声を取得する音声取得手段として機能する。以下、とくに説明がない限り、音声取得手段を単に音声取得部131と称して説明する。
画像取得部132は、入力部110の撮像部112に入力された周囲画像を取得する部分である。すなわち、画像取得部132および撮像部112は、周囲画像を取得する画像取得手段として機能する。以下、とくに説明がない限り、画像取得手段を画像取得部132と称して説明する。
また、画像取得部132は、上述の表示部122によって表示される種々の画像、映像を、周囲画像として取得する。すなわち、画像取得部132は、撮像部112によって出力されている画像を取得する部分でもある。
音声認識部133は、周囲音声、とくにユーザの音声を認識するための音声認識処理を実行する部分(認識手段)である。音声認識部133は、音声取得部131によって取得された周囲音声に対して、音声認識処理を実行する。音声認識処理はたとえば、予め用意された音響モデル、言語モデルを用いた手法を含む、種々の手法によって実現される。言語モデルは、種々の専門分野に対応できるように、専門辞書の言語を含むモデルであってもよい。
音声認識部133によって実行される音声認識処理は、ユーザの音声の波形を解析し、その発声内容を、結果データとして出力する処理を含む。結果データは、ユーザの音声に対応するデータであり、たとえば文字列のデータ(テキストデータ)とされる。
音声認識処理においては、第1の認識モードおよび第2の認識モードが実行される。第1の認識モードでは、音声取得部131によって取得されたユーザの音声がそのまま認識される。これに対し、第2の認識モードでは、音声取得部131によって取得されたユーザの音声と、後述の特定部135によって特定された対象物の名称とに基づいて、ユーザの音声が認識される。より具体的に、第2の認識モードでは、音声取得部131によって取得されたユーザの音声に対応するデータ(テキストデータなど)の一部が、特定部135によって特定された対象物の名称に対応するデータ(テキストデータなど)に置き換えられた後に、当該置き換えられたデータに基づいてユーザの音声が認識(解読)される。
画像認識部134は、画像取得部132によって取得された周囲画像を認識するための部分である。画像認識部134は、音声取得部131によって取得された周囲画像に対して、画像認識処理を実行する。画像認識処理の手法は、一般的に用いられる画像認識処理の手法であればよく、とくに限定されるものではないが、たとえばopenCV(Open Source Computer Vision Library)など、種々の手法が用いられる。
また、画像認識部134は、画像取得部132によって取得された周囲画像に含まれる対象物について、撮像部112から対象物までの距離を推定する。たとえば前述したように撮像部112が複数のカメラで構成される場合、画像認識部134は、三角測量法を用いて対象物までの距離を計測することができる。
特定部135は、音声取得部131によって取得された周囲音声、とくにユーザの音声に基づいて、画像取得部132によって取得された周囲画像に含まれる対象物を特定する部分(特定手段)である。対象物は、周囲画像に含まれる物のうち、ユーザが音声を用いて特定(指定)しようとしている物である。
たとえば、ユーザが或る山の高さを対話装置100に質問しようとする際、ユーザは、山の名称「A」を知らないが、その山の写真を有している(あるいはその山の写真がユーザの近くに存在している)ことが想定される。このとき、ユーザは、その写真を対話装置100に提示するとともに「この山の高さは?」といった質問の音声を発する。すると、特定部135は、音声取得部131によって取得されたユーザの「この山の高さは?」との音声に基づいて、画像取得部132によって取得された写真に写っている山を、対象物として特定する。特定部135は、たとえば、対象物の名称、この例では山の名称「A」を特定する。
具体的に、まず、特定部135は、ユーザの音声に含まれる指示詞(指示語)あるいは指示代名詞を特定する。上述の例では、ユーザの音声「この山の高さは?」に含まれる「この」が、指示詞として特定される。
また、特定部135は、特定された指示詞あるいは指示代名詞に基づいて、周囲画像に含まれる対象物の画像を特定する。上述の例では、写真に写っている山の画像が、指示詞「この」および当該指示詞に続く名詞「山」、つまり「この山」に対応する対象物の画像として特定される。
そして、特定部135は、特定した対象物の画像に基づいて、対象物の名称を特定する。上述の例では、写真に写っている山の名称が「A」として特定される。山の名称の特定は、たとえば、後述の記憶部140に記憶されている種々の情報を参照することによって行われてもよいし、通信部150を介して対話装置100の外部から情報を取得することによって行われてもよい。
ここで、特定部135は、対象物の周囲画像における位置情報と、音声取得部131によって取得されたユーザの音声とに基づいて、対象物を特定してもよい。上述の例では、「この」という指示詞の意味から、ユーザが意図している対象物は、周囲画像において手前、つまり、対話装置100から近距離の位置に存在している山であることが推定できる。このように推定された位置情報(この場合は「近距離」)に基づくことで、周囲画像におけるユーザが意図している対象物が適切に特定され得る。
一方、対話装置100から見てユーザのかなり後方の位置に山の写真が置かれている場合には、ユーザが「あの山の高さは?」といった質問の音声を発することが考えられる。その場合、「あの」という指示詞の意味から、ユーザが意図している対象物は、周囲画像において後方、つまり対話装置100から遠距離の位置に存在している山であることが推定できる。
なお、ユーザが「その山の高さは?」といった質問の音声を発した場合には、「その」という指示詞の意味から、ユーザが意図している対象物は、対話装置100から中距離の位置に存在している山であることが推定できる。
以上では、特定部135が、「この」、「その」、「あの」といった指示詞に基づいて、周囲画像に含まれる対象物の画像を特定する例について説明したが、特定部135は、指示詞に代えて、指示代名詞に基づいて、周囲画像に含まれる対象物の画像を特定してもよい。たとえば、上述の例において、ユーザが山の写真を示しながら「これの高さは?」といった質問の音声を発することも想定される。この場合、特定部135は、「これ」という指示代名詞の意味から、ユーザが意図している対象物は、周囲画像において手前、つまり、対話装置100から近距離の位置に存在している物体であることが推定できる。このように推定された位置情報に基づいても、周囲画像におけるユーザが意図している対象物が適切に特定され得る。
記憶部140は、制御部130によって実行される処理に必要な種々の情報を記憶する部分である。記憶部140は、たとえば、前述の音響モデル、言語モデルを記憶する。また、記憶部140は、対話装置100がユーザと対話を行うために必要な処理を対話装置100に実行させるためのプログラム(対話プログラム)を記憶する。
また、記憶部140は、特定部135が周囲画像に含まれる対象物の名称を特定するために必要な種々の情報を記憶する。たとえば、さまざまな物体の画像および名称を記憶したデータベースが記憶部140に格納されており、周囲画像に含まれる対象物の画像と、当該データベースに記憶されている物体の画像とを照合することによって、対象物の名称が特定され得る。
また、記憶部140は、上述した特定部135による、指示詞あるいは指示代名詞と、対象物の周囲画像における位置情報等とを対応づけて記述するデータテーブルを記憶する。
図2は、記憶部140に記憶されるデータテーブルの一例を示す図である。図2に示されるように、このデータテーブルは、「キーワード」と「機器からの距離」と「キーワードに続く名詞の有無」とを対応づけて記述する。
「キーワード」は、たとえば指示代名詞あるいは指示詞である。図2では、指示代名詞として「これ」、「それ」、「あれ」が、指示詞として「この」、「その」、「あの」が例示されている。
「機器からの距離」は、各キーワード、つまり各指示代名詞あるいは各指示詞に応じて想定される、対話装置100(より具体的には撮像部112)から対象物までの距離である。図2では、機器からの距離が、「近距離」、「中距離」、「遠距離」の3通りに分類されている。
たとえば、対話装置100から対象物までの距離が第1の所定距離未満の場合には、当該距離は「近距離」に設定される。対話装置100から対象物までの距離が第1の所定距離以上かつ第2の所定距離未満の場合には、当該距離は「中距離」に設定される。対話装置100から対象物までの距離が第2の所定距離以上の場合には、当該距離は「遠距離」に設定される。第2の所定距離は、第1の所定距離よりも大きい。
「キーワードに続く名詞の有無」は、各キーワードが、その後ろに名詞を伴い得るキーワードであるか否かを示す。具体的に、キーワードが「これ」、「それ」、「あれ」といった指示代名詞である場合には、キーワードに続く名詞の有無は「無し」とされる。一方、キーワードが「この」、「その」、「あの」といった指示詞である場合、キーワードに続く名詞の有無は「有り」とされる。
図2に示されるデータテーブルを参照すれば、ユーザの音声に所定の音声(キーワード)が含まれる場合に、当該キーワードに基づいて、ユーザが意図している対象物に関する位置情報、つまり、対話装置100からの距離を推定することができる。また、キーワードに続く名詞の有無を判断することによって、たとえば、キーワードに続く名詞が有る場合には、その後の名詞を参考とすることで、ユーザの意図している対象物をより適切に把握できる可能性が高まる。
再び図1に戻り、通信部150は、対話装置100の外部と通信を行う部分である。通信部150によって、たとえば、記憶部140に記憶される上述の種々の情報が追加して取得され、あるいは、更新され得る。また、通信部150を用いてインターネットなどにアクセスすることで、周囲画像に含まれる対象物の画像から、対象物の名称を特定するための検索処理が実行されてもよい。
次に、図3を参照して、対話装置100のハードウェア構成について説明する。図3に示されるように、対話装置100は、物理的には、1または複数のCPU(Central Processing Unit)21、RAM(Random Access Memory)22およびROM(Read Only Memory)23、カメラなどの撮像装置24、データ送受信デバイスである通信モジュール26、半導体メモリなどの補助記憶装置27、操作盤(操作ボタンを含む)やタッチパネルなどのユーザ操作の入力を受け付ける入力装置28、ディスプレイなどの出力装置29、ならびにCD−ROMドライブ装置などの読取装置2Aを備えるコンピュータとして構成され得る。図1における対話装置100の機能は、たとえば、CD−ROMなどの記憶媒体Mに記憶された1または複数のプログラムを読取装置2Aにより読み取ってRAM22などのハードウェア上に取り込むことにより、CPU21の制御のもとで撮像装置24、通信モジュール26、入力装置28、出力装置29を動作させるとともに、RAM22および補助記憶装置27におけるデータの読み出しおよび書き込みを行うことで実現される。
また、図4には、コンピュータを対話装置100として機能させるための対話プログラムのモジュールが示される。図4に示されるように、対話プログラムP100は、音声取得モジュールP101、画像取得モジュールP102、音声認識モジュールP103、画像認識モジュールP104および特定モジュールP105を備えている。各モジュールによって、先に図1を参照して説明した、音声取得部131、画像取得部132、音声認識部133、画像認識部134および特定部135の機能が実現される。
対話プログラムは、たとえば記憶媒体に格納されて提供される。記憶媒体は、フレキシブルディスク、CD−ROM、USBメモリ、DVD、半導体メモリなどであってよい。
次に、図5および図6を用いて、対話装置100の動作(対話装置100によって実行される対話方法)について説明する。
図5は、対話装置100において実行される処理の一例を示すフローチャートである。このフローチャートの処理は、対話装置100とユーザとの対話が開始されたことに応じて実行される。なお、とくに説明がない場合、各処理は、制御部130によって(つまり制御部130に含まれるいずれの要素かを問わず)実行され得る。
まず、対話装置100は、認識モードを第1の認識モードとして、音声認識を実行する(ステップS1)。具体的に、音声認識部133によって、第1の認識モードが実行され、ユーザとの対話が行われる。なお、次のステップS2,S3において実行される処理は、第1の認識モードにおいて実行される処理である。
次に、対話装置100は、曖昧入力判定処理を実行する(ステップS2)。すなわち、対話装置100は、曖昧入力が有ったか否かを判断する(ステップS3)。この処理は、音声認識部133によって実行される。たとえば、ユーザの音声に、指示詞あるいは指示代名詞などのキーワードが含まれることによって、ユーザの音声のみでは、ユーザの発話の意図が明確になっていない(曖昧となっている)場合に、曖昧入力が有ったと判断される。曖昧入力が有った場合(ステップS3:YES)、対話装置100は、ステップS4に処理を進める。そうでない場合(ステップS3:NO)、対話装置100は、ステップS1に再び処理を戻す。
なお、指示詞が含まれる場合であっても、「あの夜」、「その日」など、指示詞「あの」、「その」の後ろに続く名詞が画像、映像で表すことができないものである場合には、曖昧入力が無かったと(ステップS3:NO)判断されてよい。
ステップS4において、対話装置100は、認識モードを第2の認識モードに切り替える。具体的に、音声認識部133が、音声認識処理において実行する認識モードを、第1の認識モードから第2の認識モードに切り替える。よって、後述次のステップS5〜S7において実行される処理は、第2の認識モードにおいて実行される処理である。
具体的に、対話装置100は、音声認識結果より、指定距離推定処理を実行する(ステップS5)。この処理は、たとえば特定部135によって実行される。具体的に、記憶部140に記憶されている先に説明した図2に示されるようなデータテーブルが参照され、ユーザが意図(指定)している対話装置100から対象物までの距離が推定される。
また、対話装置100は、音声認識結果より、指定名詞特定処理を実行する(ステップS6)。この処理は、たとえば特定部135によって実行される。具体的に、ユーザの音声に指示詞が含まれる場合、その指示詞に続く名詞が、指定名詞として特定され、保持される。
ステップS5およびステップS6の処理が完了した後、対話装置100は、画像認識処理を実行する(ステップS7)。
図6は、画像認識処理(図5のステップS7)において実行される処理の詳細を示すフローチャートである。
まず、対話装置100は、画像認識・距離測定処理を実行する(ステップS11)。具体的に、画像認識部134が、画像取得部132によって取得された周囲画像に含まれる物体の数(n個)を特定し、各物体の画像を認識する。また、画像認識部134は、対話装置100から各物体までの距離をそれぞれ計測(推定)する。
次のステップS12〜S17において、対話装置100は、n個の物体のうちのいずれの物体がユーザの意図している物体に該当する可能性が高いかを評価する。具体的に、対話装置100は、変数iの初期値を0とし(ステップS12)、iを1ずつ増加させながら(ステップS16)、iがn以上になるまでの間(ステップS17:NO)、i番目の物体について、以下のステップS13〜S15の処理を繰り返し実行する。
まず、対話装置100は、距離点数を算出する(ステップS13)。具体的に、特定部135が、先のステップS11において推定された対話装置100から物体までの距離と、先のステップS5(図5)において推定されたユーザが意図している対話装置100から対象物までの距離とに基づいて、距離点数を算出する。たとえば、両者の距離が近いほど、距離点数は大きくなるように算出される。
次に、対話装置100は、指定名詞の単語を保持しているか否かを判断する(ステップS14)。具体的に、先のステップS6(図5)において特定され保持された指示詞に続く名詞がある場合、指定名詞の単語を保持していると判断される。指定名詞の単語を保持している場合(ステップS14:YES)、対話装置100は、ステップS15に処理を進める。そうでない場合(ステップS14:NO)、対話装置100は、ステップS15をスキップして、ステップS16に処理を進める。
ステップS15において、対話装置100は、画像認識した名称と保持名詞で点数を算出する(ステップS15)。この処理は、特定部135によって実行される。たとえば、画像認識部134によって特定された対象物の種類(「山」など)と、指示詞に続く名詞(「山」など)とが一致している場合には、先のステップS13において算出された距離点数が増加される。逆に、画像認識部134によって特定された対象物の名称と、指示詞に続く名詞とが一致しない場合には、距離点数が維持され、あるいは減少される。
n個の物体について上述のステップS13〜S15の処理が実行された後(ステップS17:YES)、対話装置100は、ステップS18に処理を進める。
ステップS18において、対話装置100は、総合的な点数により対象を1つに決定する。具体的に、特定部135が、n個の物体のうち、先のステップS13および/またはステップS15で算出された点数が最も高い物体を、ユーザが意図(指定)している対象物として特定する。つまり、ステップS18では、対話装置100から対象物までの距離と、指示詞、指示代名詞の後ろに続く名詞の有無といった会話文脈から、ユーザの音声の一部に置き換えることができる可能性の高い対象物の名称が特定される。
なお、具体的に、指示詞、指示代名詞の後ろに続く名詞の有無といった会話文脈からは、以下のようにして、ユーザの音声の一部に置き換えることができる可能性の高い対象物の名称が特定され得る。一例として、周囲画像に或る図形が含まれており、当該図形が、或る果物を示す図形であるとともに或る会社のロゴを示す図形でもある場合を想定する。この場合、ユーザが「これ食べたい」との音声を発した場合には、「これ」という指示代名詞から、その後ろに続く名詞は存在しない。このため、当該図形は、単に果物を示す図形(画像)として認識され、当該果物の名称が、ユーザが意図している対象物の名称として特定される。これに対し、ユーザが「ここの社長は誰?」との音声を発した場合には、「ここ」という指示詞から、その後ろに続く「社長」という名詞が存在する。このため、当該図形は、単に果物を示す図形でなく、「社長」という名詞に関連し得る文言、たとえば「会社」、「企業」などを示す図形(画像)として認識され、当該会社等の名称が、ユーザが意図している対象物の名称として特定される。たとえばこのようにして、会話文脈から、ユーザの音声の一部に置き換えることができる可能性の高い対象物の名称が特定される。
その後、対話装置100は、音声認識結果の補正処理を実行する(ステップS19)。この処理は、音声認識部133によって実行される。具体的に、ユーザ音声に対応するデータ(テキストデータなど)に含まれる指示詞およびそれに続く名詞、あるいは指示代名詞が、先のステップS18において特定された物体の名称に対応するデータに置き換えられる。そして、置き換えられたデータに基づいて、ユーザの音声が認識(内容が解読)される。
ステップS19の処理が完了した後、対話装置100は、ステップS1に再び処理を戻す(図5)。
次に、対話装置100の作用効果について説明する。対話装置100によれば、特定部135が、音声取得部131によって取得されたユーザの音声に基づいて、画像取得部132によって取得された周囲画像に含まれる対象物を特定する(ステップS7)。これにより、たとえば、ユーザが対象物に関する知識を有していない場合でも、その対象物が周囲画像に含まれているものであることを意図(指定)する音声、たとえば指示詞、指示代名詞を含む音声を発すれば、その音声に基づいて、ユーザの意図している対象物が特定される。よって、対話において、ユーザの意図をより適切に把握することができる。
具体的に、音声認識部133は、音声認識処理として、まず、第1の認識モードを実行し、ユーザの音声をそのまま認識する。これにより、従来の対話装置と同様にユーザとの対話が行われる(ステップS1,S2,S3:NO)。さらに、音声認識部133は、第2の認識モードを実行し、ユーザの音声と特定された対象物の名称とに基づいてユーザの音声を認識する(ステップS4〜S7)。第2の認識モードが実行されることによって、ユーザの意図をより適切に把握しつつ、ユーザとの対話を行うことができる。
また、特定部135は、音声取得部131によって取得されたユーザの音声の一部に置き換えることが可能な対象物の名称を特定する(ステップS18)。そして、音声認識部133が、ユーザの音声に対応するデータの一部を、特定部135によって特定された対象物の名称に対応するデータに置き換えた後に、当該置き換えられたデータに基づいてユーザの音声を認識する(ステップS19)。これにより、たとえば、周囲画像に複数の対象物が含まれ、ユーザが意図(指定)している対象物の名称の候補が複数存在する場合でも、その中から、ユーザの音声の一部に置き換えることが可能な対象物の名称、すなわち文脈(会話の流れ)に適した対象物の名称が特定される。このように特定された対象物の名称に対応するデータを、ユーザの音声に対応するデータの一部に置き換えた後に音声認識を行うことで、会話の流れに沿って、ユーザの意図をより適切に把握することができる。
また、音声認識部133は、第1の認識モードを実行しているときに、ユーザの音声に、指示詞、指示代名詞などのキーワードが含まれることを認識すると、実行する認識モードを、第1の認識モードから第2の認識モードに切替える(ステップS3:YES、ステップS4)。これにより、指示詞、指示代名詞に基づいて対象物の名称を特定する必要が生じた適切なタイミングで第2の認識モードを実行し、ユーザの意図をより適切に把握することができるようになる。
また、特定部135は、周囲画像における対象物の位置情報、より具体的には、対話装置100から対象物までの距離と、ユーザの音声とに基づいて、対象物を特定する(ステップS13〜S15,S18)。これにより、周囲画像に複数の対象物が含まれる場合でも、ユーザの音声に基づいて、ユーザの意図(指定)している対象物を特定することができる。
また、周囲画像は、表示部122によって表示されている画像、映像であってもよい。これにより、たとえば、表示部122によって表示されている画像、映像を話題として、ユーザとの対話を行うことができる。たとえば、ユーザとの対話中に、テレビ放送として受信された或る山の風景の映像が、表示部122によって表示されている場合を想定する。たとえば、ユーザが「ここはどこ?」といった音声を発した場合、「ここ」という指示代名詞に応じて、表示部122によって表示されている山の名称を特定することによって、ユーザの意図を適切に把握しつつ対話を行うことができる。
以上説明した対話装置100の各機能は、たとえば、コンピュータにおいて対話プログラムが実行されることによって実現することもできる。
以上、本発明の一実施形態について説明したが、本発明は、上記実施形態に限定されるものではない。
図7は変形例に係る対話装置の機能ブロックを示す図である。対話装置100Aは、サーバ200との共同により、ユーザとの対話を行う対話システム1を構成する。この変形例では、対話システム1が本発明に係る対話装置に相当する。
図7に示されるように、サーバ200は、制御部230と、記憶部240と、通信部250とを含む。
制御部230は、音声取得部231、画像取得部232、音声認識部233、画像認識部234および特定部235を含む。これらの各要素は、先に図1を参照して説明した音声取得部131、画像取得部132,音声認識部133、画像認識部134および特定部135と同様の機能を有する。
記憶部240は、先に図1を参照して説明した記憶部140と同様の機能を有する。すなわち、記憶部240は、制御部230によって実行される処理に必要な種々の情報を記憶する部分であり、たとえば音響モデル、言語モデル、対話プログラム、さまざまな物体の画像および名称を記憶したデータベース、図2に示されるようなデータテーブルを記憶する。
通信部250は、対話装置100Aの通信部150と通信する部分である。通信部250によって、対話装置100Aとサーバ200とが通信可能となる。通信部250を用いてインターネットなどにアクセスすることで、周囲画像に含まれる対象物の画像から、対象物の名称を特定するための検索処理が実行されてもよい。
以上の構成により、対話システム1は、対話装置100Aと、サーバ200との協働により、ユーザとの対話を可能とする。すなわち、対話システム1では、対話装置100(図1)においてユーザとの対話を行うために実行される処理の一部(とくに制御部130によって実行される処理)が、サーバ200によって実行される。したがって、対話装置100Aによれば、対話装置100よりも、対話装置における処理負担を軽減することができる。
具体的に、対話装置100Aは、対話装置100と比較して、制御部130および記憶部140に変えて、制御部130A、記憶部140Aを含む構成とすることができる。
制御部130Aは、対話装置100Aの全体制御を行う部分である。ただし、制御部130Aは、制御部130と比較して、音声取得部131、画像取得部132、音声認識部133、画像認識部134、特定部135を含むことが必須でなく、それによって、制御部130Aの構成は、制御部130よりも簡素化することができる。
記憶部140Aは、制御部130Aによって実行される処理に必要な種々の情報を記憶する部分であるが、サーバ200の記憶部240と重複するデータの記憶は、記憶部140Aにおいては必須ではない。その分、記憶部140Aの記憶容量を、記憶部140の記憶容量よりも小さくするなどして、構成を簡素化することができる。
100,100A…対話装置、110…入力部、111…集音部(音声取得手段)、112…撮像部(画像取得手段)、120…出力部、121…発音部、122…表示部(出力手段)、130,130A,230…制御部、131,231…音声取得部(音声取得手段)、132,232…画像取得部(画像取得手段)、133,233…音声認識部(認識手段)、134,234…画像認識部、135,235…特定部(特定手段)、140,140A,240…記憶部、150,250…通信部。

Claims (4)

  1. ユーザとの対話を行うための対話装置であって、
    前記ユーザの音声を取得する音声取得手段と、
    画像を取得する画像取得手段と、
    対象物の名称が前記ユーザに提示されていない状態で前記音声取得手段によって取得された前記ユーザの音声に基づいて、前記画像取得手段によって取得された画像に含まれる前記対象物を特定する特定手段と、
    前記音声取得手段によって取得された前記ユーザの音声を認識するための認識モードを実行する認識手段と、
    を備え、
    前記特定手段は、前記対象物の名称を特定し、
    前記認識モードは、
    前記音声取得手段によって取得された前記ユーザの音声を認識する第1の認識モードと、
    前記音声取得手段によって取得された前記ユーザの音声と、前記特定手段によって特定された対象物の名称とに基づいて、前記ユーザの音声を認識する第2の認識モードと、を含み、
    前記特定手段は、前記音声取得手段によって取得されたユーザの音声の一部に置き換えることが可能な前記対象物の名称を特定し、
    前記第2の認識モードでは、前記音声取得手段によって取得されたユーザの音声に対応するデータの一部が、前記特定手段によって特定された対象物の名称に対応するデータに置き換えられた後に、当該置き換えられたデータに基づいて前記ユーザの音声が認識される、対話装置。
  2. 前記認識手段は、前記第1の認識モードを実行しているときに、前記音声取得手段によって取得された前記ユーザの音声に所定の音声が含まれることを認識すると、実行する認識モードを、前記第1の認識モードから前記第2の認識モードに切り替える、
    請求項に記載の対話装置。
  3. 前記特定手段は、前記画像における前記対象物の位置情報と、前記音声取得手段によって取得されたユーザの音声とに基づいて、前記対象物を特定する、
    請求項1または2に記載の対話装置。
  4. 画像を出力する出力手段、をさらに備え、
    前記画像取得手段は、前記出力手段によって出力されている画像を取得する、
    請求項1〜3のいずれか1項に記載の対話装置。
JP2015179490A 2015-09-11 2015-09-11 対話装置および対話プログラム Expired - Fee Related JP6645779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015179490A JP6645779B2 (ja) 2015-09-11 2015-09-11 対話装置および対話プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015179490A JP6645779B2 (ja) 2015-09-11 2015-09-11 対話装置および対話プログラム

Publications (2)

Publication Number Publication Date
JP2017054064A JP2017054064A (ja) 2017-03-16
JP6645779B2 true JP6645779B2 (ja) 2020-02-14

Family

ID=58320790

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015179490A Expired - Fee Related JP6645779B2 (ja) 2015-09-11 2015-09-11 対話装置および対話プログラム

Country Status (1)

Country Link
JP (1) JP6645779B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11221823B2 (en) 2017-05-22 2022-01-11 Samsung Electronics Co., Ltd. System and method for context-based interaction for electronic devices
JP7068923B2 (ja) * 2018-05-21 2022-05-17 東芝テック株式会社 音声処理装置及び音声処理方法
EP3812231B1 (en) 2018-06-19 2024-10-23 Nissan Motor Co., Ltd. Travel information processing device and processing method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3286339B2 (ja) * 1992-03-25 2002-05-27 株式会社リコー ウインドウ画面制御装置
JPH08263657A (ja) * 1995-03-20 1996-10-11 Omron Corp 物体説明装置
JP2000137160A (ja) * 1998-11-04 2000-05-16 Canon Inc 撮像装置、方法及びコンピュータ読み取り可能な記憶媒体
JP2003022178A (ja) * 2001-07-05 2003-01-24 Hitachi Information Systems Ltd ポインタ位置情報の音声出力システム,音声出力方法及び音声出力プログラム
JP2003329463A (ja) * 2002-05-10 2003-11-19 Matsushita Electric Ind Co Ltd 対象物案内装置およびその方法
JP2004096627A (ja) * 2002-09-03 2004-03-25 Matsushita Electric Ind Co Ltd 携帯端末装置と認識対象物案内システムおよび方法
JP2009026158A (ja) * 2007-07-20 2009-02-05 Oki Electric Ind Co Ltd 対象物指定装置、対象物指定方法およびコンピュータプログラム
JP5316453B2 (ja) * 2010-03-24 2013-10-16 ブラザー工業株式会社 ヘッドマウントディスプレイおよびプログラム
KR102009316B1 (ko) * 2013-01-07 2019-08-09 삼성전자주식회사 대화형 서버, 디스플레이 장치 및 그 제어 방법
JP2015153324A (ja) * 2014-02-18 2015-08-24 株式会社Nttドコモ 情報検索装置、情報検索方法及び情報検索プログラム

Also Published As

Publication number Publication date
JP2017054064A (ja) 2017-03-16

Similar Documents

Publication Publication Date Title
CN112088315B (zh) 多模式语音定位
JP6463825B2 (ja) 多重話者音声認識修正システム
US12455877B1 (en) Identifying user content
US20210104238A1 (en) Voice enablement and disablement of speech processing functionality
KR102561712B1 (ko) 음성 인식 장치 및 그 동작 방법
US11881209B2 (en) Electronic device and control method
US20190341053A1 (en) Multi-modal speech attribution among n speakers
US11556302B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
CN102903362A (zh) 集成的本地和基于云的语音识别
US11475878B2 (en) Electronic device and operating method thereof
US12413440B2 (en) Output device selection
US20230176813A1 (en) Graphical interface for speech-enabled processing
US12190877B1 (en) Device arbitration for speech processing
JP6645779B2 (ja) 対話装置および対話プログラム
US12001808B2 (en) Method and apparatus for providing interpretation situation information to one or more devices based on an accumulated delay among three devices in three different languages
US11488607B2 (en) Electronic apparatus and control method thereof for adjusting voice recognition recognition accuracy
US10770094B2 (en) Routing audio streams based on semantically generated result sets
CN114467141A (zh) 语音处理方法、装置、设备以及存储介质
JP2017182275A (ja) 情報処理装置、情報処理方法、及びプログラム
US12537004B2 (en) Voice recognition device having barge-in function and method thereof
WO2020240958A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US12614543B1 (en) Systems and methods for on-device spoken language understanding
KR20250096753A (ko) 인공지능 기기 및 그 동작 방법
Sundar Who Spoke What And Where? A Latent Variable Framework For Acoustic Scene Analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190319

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190723

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200109

R150 Certificate of patent or registration of utility model

Ref document number: 6645779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees