Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP4465730B2 - Dialogue device - Google Patents
[go: Go Back, main page]

JP4465730B2 - Dialogue device - Google Patents

Dialogue device Download PDF

Info

Publication number
JP4465730B2
JP4465730B2 JP01166299A JP1166299A JP4465730B2 JP 4465730 B2 JP4465730 B2 JP 4465730B2 JP 01166299 A JP01166299 A JP 01166299A JP 1166299 A JP1166299 A JP 1166299A JP 4465730 B2 JP4465730 B2 JP 4465730B2
Authority
JP
Japan
Prior art keywords
information
response
user
emotion
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP01166299A
Other languages
Japanese (ja)
Other versions
JP2000207214A (en
Inventor
つきみ 若林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP01166299A priority Critical patent/JP4465730B2/en
Publication of JP2000207214A publication Critical patent/JP2000207214A/en
Application granted granted Critical
Publication of JP4465730B2 publication Critical patent/JP4465730B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は対話装置に係り、特にユーザとコンピュータが音声あるいは表情等を通じて対話する対話装置に関する。
【0002】
【従来の技術】
従来より、ユーザの感情に応じてコンピュータ側の応答を制御する対話装置が知られている(特開平8−339446号公報)。この従来の対話装置は、ユーザの行動或いは動作に応じる複数の入力手段と、入力手段から入力された入力信号の特徴を抽出する特徴抽出手段と、特徴抽出手段により抽出された複数の信号特徴から前記ユーザの感情を判定する感情判定手段と、感情判定手段により判定された感情に基づき、コンピュータの応答内容を生成する応答生成手段とから構成されている。
【0003】
この従来の対話装置によれば、ユーザの感情に応じてコンピュータ側から応答するように制御することができるので、より親しみの持てる対話装置を提供できる。
【0004】
【発明が解決しようとする課題】
しかるに、上記の従来の対話装置では、予め格納された特徴データによるユーザの感情判定のみに基づいてコンピュータが応答生成するに止まり、対話の内容を反映した応答特徴とならない。また、感情の原因や、適切な応答の仕方は、ユーザにより、また、その時々の状況により一定ではないが、上記の従来の対話装置では表面的な入力信号の特徴で判定した感情によってのみ応答を決定するため、これらの状況に対応して適切な応答をするには至っていない。
【0005】
本発明は以上の点に鑑みなされたもので、ユーザの感情を判定しこれによって応答生成するのみでなく、各ユーザの個人情報やその時々の状況、対話の内容に応じて適切な応答を行い得る対話装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明は上記の目的を達成するため、ーザの発する音声に関する情報と、ユーザを撮影した映像に関する情報と、ユーザ操作によって生成される文字情報とのうち少なくともいずれか一つを入力情報として入力する入力手段と、入力情報の特徴を抽出する特徴抽出手段と、入情報のうち、言語情報が含まれている入力情報を解析し、意味構造を抽出する入力文解析手段と、一般的な知識・常識に関するデータを格納している知識情報記憶手段と、分散環境にある所望の最新情報を提供する情報サーバを選択・接続して所望の情報を取得する情報検索・通信手段と、ユーザの個人情報を格納している個人情報格納手段と、人間に任意の感情を起こさせる事柄と、その事柄によって人間に起きることが推論される感情とを関連付ける推論規則を格納している感情推論規則格納手段と、複数の応答パターンを保持する応答パターン格納手段と、入力文解析手段により解析された入力情報の意味構造が、明示的に情報を要求している内容であった場合、その要求された情報と、ユーザの個人情報と、一般的な知識・常識に関するデータとに基づいて、情報検索・通信手段を介して情報サーバから要求に対する返信情報を取得し、この取得された返信情報によって起きると予想されるユーザの感情を、返信情報とユーザの個人情報と、感情推論規則とに基づいて推定し、この推定された感情に合致する応答パターンを、複数の応答パターンのうちから選択し、この選択された応答パターンを用いて、ユーザへの応答文の意味構造を作成する対話処理手段と、対話処理手段により作成された意味構造に基づいて応答文を生成する応答文生成手段と、複数の応答パターンに対応した複数の応答特徴を格納している応答特徴格納手段と、対話処理手段により選択された応答パターンに対応した応答特徴を応答特徴格納手段から取得し、この取得された応答特徴と応答文とに基づいて、応答内容を生成する応答生成手段と、応答生成手段で生成した応答内容を出力する出力手段とを有することを特徴とする。
【0007】
また、上記の目的を達成するため、本発明は、ユーザの発する音声に関する情報と、ユーザを撮影した映像に関する情報と、ユーザ操作によって生成される文字情報とのうち少なくともいずれか一つを入力情報として入力する入力手段と、入力情報の特徴を抽出する特徴抽出手段と、特徴抽出手段により抽出された特徴と、予め格納されている感情判定用データとからユーザの感情を判定する感情判定手段と、入力情報のうち、言語情報が含まれている入力情報を解析し、意味構造を抽出する入力文解析手段と、一般的な知識・常識に関するデータを格納している知識情報記憶手段と、分散環境にある所望の最新情報を提供する情報サーバを選択・接続して所望の情報を取得する情報検索・通信手段と、ユーザの嗜好に関する情報を含む個人情報を格納している個人情報格納手段と、人間に任意の感情を起こさせる事柄と、その事柄によって人間に起きることが推論される感情とを関連付ける推論規則を格納している感情推論規則格納手段と、複数の応答パターンを保持する応答パターン格納手段と、入力文解析手段により解析された入力情報の意味構造が、明示的に情報を要求していない内容であった場合、ユーザの個人情報のうちの少なくとも嗜好に関する情報と、一般的な知識・常識に関するデータ及び情報検索・通信手段を介して情報サーバから取得した返信情報のうちの少なくとも一方の情報に基づいて、感情判定手段で判定された感情をユーザが起こした原因を特定するとともに、この特定された原因に基づいて、次にユーザに起こさせるべき感情を推定し、この推定された感情に合致する応答パターンを、複数の応答パターンのうちから選択し、この選択された応答パターンを用いて、ユーザへの応答文の意味構造を作成する対話処理手段と、対話処理手段により作成された意味構造に基づいて応答文を生成する応答文生成手段と、複数の応答パターンに対応した複数の応答特徴を格納している応答特徴格納手段と、対話処理手段により選択された応答パターンに対応した応答特徴を応答特徴格納手段から取得し、この取得された応答特徴と応答文とに基づいて、応答内容を生成する応答生成手段と、応答生成手段で生成した応答内容を出力する出力手段とを有することを特徴とする。
【0008】
【発明の実施の形態】
次に本発明の実施の形態について、図面と共に説明する。図1は本発明になる対話装置の一実施の形態のブロック図を示す。同図に示すように、この実施の形態は、音声、顔画像等ユーザからの複数の入力に対応する入力手段1と、各入力手段1の入力信号から特徴抽出する特徴抽出手段2と、各入力信号の感情に対応する特徴を格納する感情特徴格納手段3と、感情特徴格納手段3の格納データを元にユーザの入力から得られる信号の特徴からユーザの感情を判定する感情判定手段4と、感情に応じた応答を作成するための出力データを格納する応答特徴格納手段5と、応答内容を生成する応答生成手段6と、生成されたデータを出力する出力手段7は従来の対話装置と同様の構成とされている。
【0009】
本実施の形態ではこれら従来装置の構成に加え、入力手段1から入力された言葉情報を解析し意味構造を抽出する入力文解析手段8と、ユーザの個人情報を格納する個人情報格納手段9と、話題に関連する情報を検索・取得するための情報サーバ10及び情報検索・通信手段11並びに知識ベース12からなる情報取得手段13と、客観的事柄とユーザの感情を関連付ける推論規則を格納する感情推論規則格納手段14と、コンピュータの応答パターンのインデックスを保持する応答パターン格納手段15と、対話の履歴を格納する対話履歴格納手段16と、入力の意味構造とユーザの感情と情報取得手段13から取得した関連情報と個人情報と感情推論規則を参照して適切な応答パターンを選択し、応答文の意味構造を作成する対話処理手段17と、意味構造から出力の言葉を生成する出力文生成手段18からなる構成を追加したものである。
【0010】
個人情報格納手段9には個人プロファイル9aが格納されている。別の実施の形態で示すようにスケジュール情報9bを格納することもできる。本実施の形態で示す対話装置の用途としては、スケジュール管理、情報検索・収集等、秘書的役割を果たすものや各種情報適用装置が挙げられるが、これら以外の用途に用いることもできる。
【0011】
入力手段1は、音声、顔画像、手話等、ユーザからの複数の入力に対応した、複数の入力手段を備えることができる。特徴抽出手段2は、各入力手段1の入力信号から特徴を抽出する。この特徴としては、顔画像の表情に関連する特徴、声のピッチ等が挙げられる。感情特徴格納手段3には、感情を判定するためのデータとして各入力信号の感情に対応する特徴を格納する。感情判定手段4は感情特徴格納手段3のデータを基にユーザの入力から得られる入力信号の特徴からユーザの感情を判定する。
【0012】
入力文解析手段8は、ユーザの入力の内、音声による発話、キーボードやペンによる文字入力、手話入力等、言葉として入力される情報を解析し、入力意味構造を作成する。会話中省略されている部分は対話履歴格納手段16を参照し文脈から補って作成する。
【0013】
個人情報格納手段9には、対話の過程で得られる個人情報をユーザ毎に蓄積する。個人プロファイル9aには、ユーザのプロファイルを蓄積する。氏名・住所・年令・性別・家族構成・所属・身分等の他、趣味・嗜好に関する情報も対話を通じ蓄積される。
【0014】
感情推論規則格納手段14には、感情に関する因果関係の推論規則が格納されている。推論規則は、例えば図2に示すように、好きな物・人が利益を得る(成功する)という条件で推論される感情「喜び」(パターン1)、好きな物・人が損失を被る(失敗する)という条件で推論される感情「落胆」(パターン2)、嫌いな物・人が利益を得る(成功する)という条件で推論される感情「怒り」(パターン3)、嫌いな物・人が損失を被る(失敗する)という条件で推論される感情「満足」(パターン4)がある。感情の振幅や嗜好の程度は個人差があるが、これらは個人プロファイル9a中の情報を用いる。ある事象が条件に当てはまる程度は知識ベース12中の情報を参照して評価する。
【0015】
知識ベース12は一般的な知識・常識に関するデータベースである。情報サーバ10は分散環境にあり情報を提供するサーバである。目的により複数の情報サーバ10を利用することが考えられる。この情報サーバ10としては、特定分野のデータベースや音楽・映像等のマルチメディア情報、ニュース・天気予報等の最新情報供給が挙げられる。情報検索・通信手段11は、対話処理手段17からの検索依頼を受けて情報サーバ10を選択・接続して情報を検索・取得する。
【0016】
応答パターン格納手段15ではコンピュータの応答パターンを格納する。応答パターンは、応答内容、言葉遣い、各種応答特徴のインデックスを選択できる。対話履歴格納手段16では、ユーザとコンピュータの対話の履歴を蓄積する手段であり、これはユーザの話し言葉の中で省略が用いられた場合でも、対話の履歴を参照して意味を補い適切な入力意味構造を作成するために必要である。また、対話履歴格納手段16は、対話の流れを踏まえて次の応答を作成するために対話処理手段17によって参照される。
【0017】
対話処理手段17は、入力意味構造及び感情判定を基に応答出力の意味構造、応答パターンを決定し、応答のために必要な情報を取り出す。入力意味構造が明示的に情報を要求していれば、知識ベース12、情報サーバ10、個人情報格納手段9を参照し、情報を取得する。取得した情報を感情推論規則に当てはめ、個人プロファイル9a中の個人の嗜好と合わせてこの情報によるユーザの感情を推定する。この予想されるユーザの感情、及び、現在のユーザの感情を基に適切な応答パターンを選択し、出力意味構造を作成する。
【0018】
入力意味構造が明示的な情報要求でない場合、入力意味構造がユーザの個人情報を示していれば、対話処理手段17は個人情報格納手段9にその個人情報を格納する。入力意味構造と感情判定を基に個人プロファイル9aと感情推論規則を用い、必要に応じて知識ベース12又は情報サーバ10から関連する情報を取得してユーザの感情の原因を推定する。対話処理手段17は、個人プロファイル9a中の個人の嗜好と感情推論規則から、これらの取得した情報によるユーザの感情を推定し、出力する情報及び応答パターンを選択し、出力意味構造を作成する。
【0019】
出力文生成手段18は、対話処理手段17から得た出力意味構造を基に、応答文を生成する。応答文は、テキスト、音声、手話等の内、ユーザの希望する方法で表現される。応答特徴格納手段5には、応答パターンに応じた応答の特徴データが格納されている。応答の特徴は応答画面のキャラクターの表情や身振り、応答音声のトーン等が挙げられる。応答生成手段6は、指定された応答パターンに基づき応答特徴格納手段5より応答特徴のデータを取り出し応答出力を生成する。出力手段7はモニタ画面・スピーカ等に応答を出力する。
【0020】
次に、本発明の実施の形態による応答生成の簡単な例をプロ野球情報を話題とする場合を挙げて説明する。実際の感情分類や推論規則はより細分化されており複雑となるが、説明のため、簡単な例を挙げる。感情推論規則格納手段14には図2に示した推論規則が格納されている。ユーザAの個人プロファイル9aには図3のようにユーザの嗜好(この例では好きなプロ野球の球団名と好きな選手名)が格納されているとする。
【0021】
知識ベース12には野球に関する一般的知識、半ば固定的な知識が格納される。情報サーバ10にはその日の試合結果、ハイライトシーン等最新の情報が随時更新されている。選手登録や試合日程等の情報は必要に応じて情報サーバ10より取り出し知識ベース12を更新する。
【0022】
ユーザAが対話装置に対し「今日の試合結果は?」と尋ねた場合、コンピュータは情報サーバ10より試合結果を取得する。「横浜5−1巨人」という結果が得られた場合、「ユーザの好きなチームが敗れた」事を判断し、図2に示した推論パターン2に合致するので、対話処理手段17はユーザは落胆すると予想し(ユーザの感情を推定し)、予想した感情に応じて出力する情報及び応答パターンを選択し、出力意味構造を作成し、指定された応答パターンに基づき応答特徴格納手段5より応答特徴のデータを取り出し応答生成手段6により応答出力を生成させ、出力手段7によりモニタ画面・スピーカ等に応答を出力する。応答パターンとしては「残念ながら負けてしまいました。」と残念そうに答える、というパターンが選択される。
【0023】
一方、ユーザAが「あー、また負けた」といった場合、音声・表情等からユーザの感情は落胆していると判定されたとする。この場合、情報サーバ10から試合結果を取得し、個人プロファイル9aを参照すると、ユーザの落胆の原因は「好きなチームが敗れた」ということで推論パターン2に合致する。コンピュータの対話処理手段17は応答パターンとしてユーザが喜びそうな即ち推論パターン1に合致する情報を探し、応答生成手段6により応答を作成させる。この場合、「でも、松井は本塁打トップです。」等と努めて明るく答えるパターンが選択される。
【0024】
このように、この実施の形態によれば、各ユーザの個人情報を蓄積し、蓄積された情報と知識ベース12、情報サーバ10からの情報から、感情推論規則を用いて、各ユーザの嗜好やその時々の状況、話題に応じて感情の原因を推し量り、コンピュータの応答に対するユーザの感情を予測して、適切な応答を作成することができる。
【0025】
次に、本発明の他の実施の形態について説明する。この他の実施の形態では、個人情報格納手段9に個人プロファイル9aに加え、スケジュール情報9bを格納するようにしたものである。スケジュール情報9bにはユーザのスケジュールを蓄積する。ユーザとの対話において入力意味構造がユーザのスケジュールを示していれば、スケジュール情報9bに情報を格納する。入力意味構造と感情判定を基に個人プロファイル9aと感情推論規則を用い、必要に応じて知識ベース12又は情報サーバ10から関連する情報を取り出して、ユーザの感情の原因を推定する際に、スケジュール情報9bからユーザのスケジュールもまた参照し、感情の原因を推定する。この場合は、各ユーザの嗜好やその時々の状況、話題だけでなく、スケジュールにも応じて感情の原因を推し量り、コンピュータの応答に対するユーザの感情を予測して、適切な応答を作成することができる。
【0026】
【発明の効果】
以上説明したように、本発明によれば、ユーザの感情を入力手段からの入力情報に基づいて判定すると共に、各ユーザの個人情報を蓄積し、蓄積された情報と情報取得手段からの情報とから、感情推論規則を用いて、各ユーザの嗜好やその時々の状況、話題に応じて感情の原因を推し量り、応答に対するユーザの感情を予測して、適切な応答を作成して出力するようにしたため、ユーザの感情だけでなく、その感情の原因である各ユーザの嗜好やその時々の状況、話題に応じてユーザ毎に適応した最適な対話ができ、従来に比べて親しみ易い対話を行うことができる。
【図面の簡単な説明】
【図1】 本発明の一実施の形態のブロック図である。
【図2】 推論規則の例を示す図である。
【図3】 個人プロファイルの例を示す図である。
【符号の説明】
1 入力手段
2 特徴抽出手段
3 感情特徴格納手段
4 感情判定手段
5 応答特徴格納手段
6 応答生成手段
7 出力手段
8 入力文解析手段
9 個人情報格納手段
9a 個人プロファイル
9b スケジュール情報
10 情報サーバ
11 情報検索・通信手段
12 知識ベース
13 情報取得手段
14 感情推論規則格納手段
15 応答パターン格納手段
16 対話履歴格納手段
17 対話処理手段
18 出力文生成手段
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an interactive apparatus, and more particularly to an interactive apparatus in which a user and a computer interact through voice or facial expressions.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, an interactive device that controls a response on the computer side according to a user's emotion is known (Japanese Patent Laid-Open No. 8-339446). This conventional dialogue apparatus is composed of a plurality of input means corresponding to a user's action or action, a feature extraction means for extracting features of an input signal input from the input means, and a plurality of signal features extracted by the feature extraction means. It comprises emotion determination means for determining the user's emotion and response generation means for generating response contents of the computer based on the emotion determined by the emotion determination means.
[0003]
According to this conventional dialogue apparatus, since it can be controlled to respond from the computer side according to the user's emotion, a more familiar dialogue apparatus can be provided.
[0004]
[Problems to be solved by the invention]
However, in the above-described conventional interactive device, the computer only generates a response based only on the user's emotion determination based on the pre-stored feature data, and does not have a response feature reflecting the content of the dialog. In addition, the cause of emotion and the way of appropriate response are not constant depending on the user and the situation at the time. However, in the above-described conventional interactive device, the response is made only by the emotion determined by the characteristics of the superficial input signal. Therefore, it has not been able to respond appropriately to these situations.
[0005]
The present invention has been made in view of the above points. In addition to determining a user's emotion and generating a response, the present invention performs an appropriate response according to the personal information of each user, the situation at that time, and the content of the dialogue. An object is to provide an interactive device to obtain.
[0006]
[Means for Solving the Problems]
Since the present invention is to achieve the above object, the information about the voice generated by the User chromatography The, information about images captured user as input information at least one of the character information generated by a user operation input means for inputting a feature extraction means for extracting features of the input information, among the input information, an input sentence analyzing means for analyzing the input information includes language information, extracts a semantic structure, generally Knowledge information storage means for storing data relating to various knowledge and common sense, information retrieval / communication means for acquiring desired information by selecting and connecting an information server that provides desired latest information in a distributed environment, and a user and personal information storage unit that stores personal information the, the matter to humans causing any emotional inference rule to associate the emotion to occur in humans by the matter is inferred And emotional inference rule storing means that stores a response pattern storage means for holding a plurality of response patterns, the semantic structure of the input Chikarajo report analyzed by the input sentence analyzing unit, requesting explicitly Information If there is content, the response information for the request is obtained from the information server via the information search / communication means based on the requested information, the user's personal information, and general knowledge / common sense data. and, the user's emotions are expected to occur by the acquired reply information, and personal information of the reply information and the user, the response pattern was estimated based on the emotional inference rule, matching this estimated emotions selects from among the plurality of response patterns, using the selected response pattern, and interaction means for creating a semantic structure of a response sentence to the user, created by interaction means A response sentence generation means for generating an answering sentence based on taste structure, a response characteristic storage means for storing a plurality of response characteristics corresponding to a plurality of response patterns, corresponding to the response pattern selected by interaction means Response features are acquired from the response feature storage means , and based on the acquired response features and response sentence , response generation means for generating response contents, and output means for outputting the response contents generated by the response generation means It is characterized by having .
[0007]
In order to achieve the above object, the present invention provides at least one of information related to a user's voice, information related to a video image of a user, and character information generated by a user operation as input information. As input means, feature extraction means for extracting features of the input information, features extracted by the feature extraction means, and emotion determination means for determining a user's emotion from pre-stored emotion determination data , Input sentence analysis means for analyzing input information including linguistic information and extracting semantic structures, knowledge information storage means for storing data related to general knowledge and common sense, and distributed and desired information server to provide the latest information selection and connection to acquire desired information information retrieval and communication means in the environment, individuals containing information about the preference of the user Personal information storage means for storing information, emotion inference rule storage means for storing inference rules that associate a matter that causes human beings with arbitrary emotions, and emotions that are inferred to occur in humans due to such matters If the semantic structure of the input information analyzed by the response pattern storage means that holds a plurality of response patterns and the input sentence analysis means is content that does not explicitly request information , and information on at least preferences out, based on at least one of the information in the reply information acquired from the information server via the data and information retrieval and communication means on general knowledge and common sense, determined by emotion determination means The cause of the user's feelings is identified, and based on the identified cause, the emotions to be caused next by the user are estimated. A dialogue processing unit that selects a response pattern that matches the sent emotion from a plurality of response patterns and creates a semantic structure of a response sentence to the user using the selected response pattern; Response sentence generation means for generating a response sentence based on the created semantic structure, response feature storage means for storing a plurality of response features corresponding to a plurality of response patterns, and a response pattern selected by the dialogue processing means Is obtained from the response feature storage means, and based on the obtained response feature and response sentence, the response generation means for generating the response content, and the output for outputting the response content generated by the response generation means Means.
[0008]
DETAILED DESCRIPTION OF THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings. FIG. 1 shows a block diagram of an embodiment of an interactive apparatus according to the present invention. As shown in the figure, this embodiment includes an input unit 1 corresponding to a plurality of inputs from a user such as a voice and a face image, a feature extraction unit 2 that extracts features from input signals of each input unit 1, Emotion feature storage means 3 for storing features corresponding to the emotion of the input signal, emotion determination means 4 for determining the user's emotion from the features of the signal obtained from the user's input based on the data stored in the emotion feature storage means 3 The response feature storage means 5 for storing output data for creating a response according to emotion, the response generation means 6 for generating response contents, and the output means 7 for outputting the generated data are the same as the conventional dialogue apparatus. It is set as the same structure.
[0009]
In the present embodiment, in addition to the configuration of these conventional devices, an input sentence analysis unit 8 that analyzes word information input from the input unit 1 and extracts a semantic structure, a personal information storage unit 9 that stores user personal information, The information server 10 and the information retrieval / communication means 11 for retrieving / acquiring information related to the topic, the information obtaining means 13 comprising the knowledge base 12, and the emotion for storing the inference rules for associating the objective matter with the user's emotion From the inference rule storage means 14, the response pattern storage means 15 that holds the index of the response pattern of the computer, the dialog history storage means 16 that stores the history of the dialog, the semantic structure of the input, the user's emotion, and the information acquisition means 13 An interactive processing method that selects the appropriate response pattern by referring to the acquired related information, personal information, and emotion inference rules, and creates the semantic structure of the response sentence. 17, with the addition of a structure consisting of the output sentence generating means 18 for generating a word output from the semantic structure.
[0010]
The personal information storage means 9 stores a personal profile 9a. As shown in another embodiment, the schedule information 9b can also be stored. Applications of the interactive apparatus shown in the present embodiment include those that play secretary roles such as schedule management, information retrieval / collection, and various information application apparatuses, but can also be used for other applications.
[0011]
The input unit 1 can include a plurality of input units corresponding to a plurality of inputs from the user such as voice, face image, sign language, and the like. The feature extraction unit 2 extracts a feature from the input signal of each input unit 1. Examples of this feature include features related to facial expression of facial images, voice pitch, and the like. The emotion feature storage means 3 stores a feature corresponding to the emotion of each input signal as data for determining the emotion. The emotion determination unit 4 determines the user's emotion from the features of the input signal obtained from the user's input based on the data of the emotion feature storage unit 3.
[0012]
The input sentence analysis means 8 analyzes information input as words, such as speech utterances, character input with a keyboard or pen, and sign language input, and creates an input semantic structure. The part omitted during the conversation is created by referring to the dialog history storage means 16 and supplementing from the context.
[0013]
The personal information storage means 9 stores personal information obtained in the course of dialogue for each user. The user profile is stored in the personal profile 9a. In addition to name, address, age, gender, family composition, affiliation, and status, information on hobbies and preferences is also accumulated through dialogue.
[0014]
The emotion inference rule storage means 14 stores inference rules for causal relations related to emotions. For example, as shown in FIG. 2, the inference rule is an emotion “joy” (pattern 1) inferred on the condition that a favorite object / person gains (success), and the favorite object / person suffers a loss ( Emotion “disappointment” inferred under the condition of “failure” (Pattern 2), disliked feelings “Anger” (pattern 3) inferred that the person gains profit (success) (pattern 3) There is an emotion “satisfaction” (pattern 4) inferred on the condition that a person suffers a loss (fails). The amplitude of emotion and the degree of preference vary among individuals, but these use information in the personal profile 9a. The degree to which a certain event meets a condition is evaluated with reference to information in the knowledge base 12.
[0015]
The knowledge base 12 is a database relating to general knowledge and common sense. The information server 10 is a server that provides information in a distributed environment. It is conceivable to use a plurality of information servers 10 depending on the purpose. Examples of the information server 10 include a database in a specific field, multimedia information such as music / video, and the latest information supply such as news / weather forecast. The information search / communication means 11 receives and receives a search request from the dialog processing means 17 to select / connect the information server 10 to search / acquire information.
[0016]
The response pattern storage means 15 stores the response pattern of the computer. As the response pattern, response contents, wording, and indexes of various response features can be selected. The dialogue history storage means 16 is a means for accumulating the history of dialogue between the user and the computer, and even if abbreviations are used in the spoken language of the user, an appropriate input is made with reference to the dialogue history to supplement the meaning. Required to create a semantic structure. The dialogue history storage means 16 is referred to by the dialogue processing means 17 in order to create the next response based on the flow of the dialogue.
[0017]
The dialog processing means 17 determines the semantic structure and response pattern of the response output based on the input semantic structure and emotion determination, and extracts information necessary for the response. If the input semantic structure explicitly requests information, the information is acquired by referring to the knowledge base 12, the information server 10, and the personal information storage means 9. The acquired information is applied to the emotion inference rule, and the user's emotion based on this information is estimated together with the personal preference in the personal profile 9a. An appropriate response pattern is selected based on this expected user emotion and the current user emotion, and an output semantic structure is created.
[0018]
If the input semantic structure is not an explicit information request, if the input semantic structure indicates the user's personal information, the dialogue processing means 17 stores the personal information in the personal information storage means 9. Based on the input semantic structure and emotion determination, the personal profile 9a and emotion inference rules are used to obtain relevant information from the knowledge base 12 or the information server 10 as necessary to estimate the cause of the user's emotion. The dialogue processing means 17 estimates the user's emotions based on the acquired information and the response inference rules from the personal preferences and emotion inference rules in the personal profile 9a, selects the output information and response pattern, and creates an output semantic structure.
[0019]
The output sentence generation unit 18 generates a response sentence based on the output semantic structure obtained from the dialogue processing unit 17. The response sentence is expressed by a method desired by the user among text, voice, sign language, and the like. The response feature storage means 5 stores response feature data corresponding to the response pattern. The characteristics of the response include the character's facial expression and gestures on the response screen, and the tone of the response voice. The response generation unit 6 extracts response feature data from the response feature storage unit 5 based on the designated response pattern, and generates a response output. The output means 7 outputs a response to a monitor screen / speaker or the like.
[0020]
Next, a simple example of response generation according to the embodiment of the present invention will be described with reference to professional baseball information. Actual emotion classifications and inference rules are more fragmented and complicated, but a simple example is given for explanation. The emotion inference rule storage means 14 stores the inference rules shown in FIG. It is assumed that the personal profile 9a of the user A stores the user's preferences (in this example, a favorite professional baseball team name and a favorite player name) as shown in FIG.
[0021]
The knowledge base 12 stores general knowledge about baseball and semi-fixed knowledge. The information server 10 is updated with the latest information such as the game results and highlight scenes of the day. Information such as player registration and game schedule is retrieved from the information server 10 as necessary, and the knowledge base 12 is updated.
[0022]
When the user A asks the dialog device “What is today's game result?”, The computer acquires the game result from the information server 10. When the result of “Yokohama 5-1 Giant” is obtained, it is determined that “the user's favorite team has been lost” and matches the inference pattern 2 shown in FIG. Expected to be discouraged (estimates the user's emotion), selects information and response pattern to be output according to the predicted emotion, creates an output semantic structure, and responds from the response feature storage means 5 based on the specified response pattern The characteristic data is taken out and a response output is generated by the response generation means 6, and the response is output to the monitor screen / speaker by the output means 7. As the response pattern, a pattern of unfortunately answering “Sorry I lost.” Is selected.
[0023]
On the other hand, when the user A “has lost again”, it is assumed that the user's emotion is determined to be discouraged from the voice / expression. In this case, when the game result is acquired from the information server 10 and the personal profile 9a is referred to, the cause of the discouragement of the user matches the inference pattern 2 because the favorite team has lost. The interaction processing means 17 of the computer searches the information that matches the inference pattern 1 that the user seems to be happy with as a response pattern, and causes the response generation means 6 to create a response. In this case, “But Matsui is the top player in the home run” is selected, and a pattern that answers brightly is selected.
[0024]
As described above, according to this embodiment, personal information of each user is accumulated, and from the accumulated information and information from the knowledge base 12 and the information server 10, each user's preference or An appropriate response can be created by estimating the cause of the emotion according to the situation and topic at that time and predicting the user's emotion to the response of the computer.
[0025]
Next, another embodiment of the present invention will be described. In another embodiment, the personal information storage means 9 stores schedule information 9b in addition to the personal profile 9a. The schedule information 9b stores the user's schedule. If the input semantic structure indicates the user's schedule in the dialog with the user, the information is stored in the schedule information 9b. When estimating the cause of the user's emotion by using the personal profile 9a and emotion inference rules based on the input semantic structure and emotion judgment, and extracting relevant information from the knowledge base 12 or the information server 10 as necessary. The user's schedule is also referred to from the information 9b, and the cause of the emotion is estimated. In this case, the cause of the emotion is estimated not only according to each user's preference, the situation and topic, but also the schedule, and the user's emotion to the computer response is predicted to create an appropriate response. Can do.
[0026]
【The invention's effect】
As described above, according to the present invention, the user's emotion is determined based on the input information from the input means, the personal information of each user is accumulated, the accumulated information, the information from the information acquisition means, From the above, use the reasoning rules to estimate the cause of emotion according to each user's preference, occasional situation and topic, predict the user's emotion to the response, and create and output an appropriate response As a result, not only the user's emotion but also the user's preference, the situation at the time, the topic, and the topic that are the cause of the emotion, the optimum dialogue can be adapted to each user, and the dialogue is more familiar than before. be able to.
[Brief description of the drawings]
FIG. 1 is a block diagram of an embodiment of the present invention.
FIG. 2 is a diagram illustrating an example of an inference rule.
FIG. 3 is a diagram showing an example of a personal profile.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 Input means 2 Feature extraction means 3 Emotion feature storage means 4 Emotion determination means 5 Response feature storage means 6 Response generation means 7 Output means 8 Input sentence analysis means 9 Personal information storage means 9a Personal profile 9b Schedule information 10 Information server 11 Information retrieval Communication means 12 Knowledge base 13 Information acquisition means 14 Emotion reasoning rule storage means 15 Response pattern storage means 16 Dialog history storage means 17 Dialog processing means 18 Output sentence generation means

Claims (2)

ユーザの発する音声に関する情報と、ユーザを撮影した映像に関する情報と、ユーザ操作によって生成される文字情報とのうち少なくともいずれか一つを入力情報として入力する入力手段と、
前記入力情報の特徴を抽出する特徴抽出手段と、
前記入力情報のうち、言語情報が含まれている入力情報を解析し、意味構造を抽出する入力文解析手段と、
一般的な知識・常識に関するデータを格納している知識情報記憶手段と、
分散環境にある所望の最新情報を提供する情報サーバを選択・接続して所望の情報を取得する情報検索・通信手段と、
ユーザの個人情報を格納している個人情報格納手段と、
人間に任意の感情を起こさせる事柄と、その事柄によって人間に起きることが推論される感情とを関連付ける推論規則を格納している感情推論規則格納手段と、
複数の応答パターンを保持する応答パターン格納手段と、
前記入力文解析手段により解析された入力情報の意味構造が、明示的に情報を要求している内容であった場合、
その要求された情報と、前記ユーザの個人情報と、前記一般的な知識・常識に関するデータとに基づいて、前記情報検索・通信手段を介して前記情報サーバから前記要求に対する返信情報を取得し、
この取得された返信情報によって起きると予想される前記ユーザの感情を、前記返信情報と前記ユーザの個人情報と、前記感情推論規則とに基づいて推定し、
この推定された感情に合致する応答パターンを、前記複数の応答パターンのうちから選択し、この選択された応答パターンを用いて、前記ユーザへの応答文の意味構造を作成する対話処理手段と、
前記対話処理手段により作成された意味構造に基づいて前記応答文を生成する応答文生成手段と、
前記複数の応答パターンに対応した複数の応答特徴を格納している応答特徴格納手段と、
前記対話処理手段により選択された応答パターンに対応した応答特徴を前記応答特徴格納手段から取得し、この取得された応答特徴と前記応答文とに基づいて、応答内容を生成する応答生成手段と、
前記応答生成手段で生成した応答内容を出力する出力手段と
を有することを特徴とする対話装置。
An input means for inputting as input information at least one of information related to a voice uttered by the user, information related to a video obtained by photographing the user, and character information generated by a user operation;
Feature extraction means for extracting features of the input information;
Among the input information, input sentence analysis means for analyzing input information including language information and extracting a semantic structure;
Knowledge information storage means for storing data relating to general knowledge and common sense;
An information search / communication means for selecting / connecting an information server that provides the desired latest information in a distributed environment and acquiring the desired information; and
Personal information storage means for storing user personal information;
An emotion inference rule storage means for storing an inference rule that associates an event that causes a human being with any emotion and an emotion that is inferred to occur in the human by the event;
Response pattern storage means for holding a plurality of response patterns;
When the semantic structure of the input information analyzed by the input sentence analyzing means is the content explicitly requesting information,
Based on the requested information, the personal information of the user, and the data related to the general knowledge / common sense, obtain reply information to the request from the information server via the information search / communication means,
Estimating the user's emotions expected to occur with the acquired reply information based on the reply information, the user's personal information, and the emotion inference rules,
A dialogue processing means for selecting a response pattern matching the estimated emotion from the plurality of response patterns, and using the selected response pattern to create a semantic structure of a response sentence to the user;
Response sentence generation means for generating the response sentence based on the semantic structure created by the dialogue processing means;
Response feature storage means for storing a plurality of response features corresponding to the plurality of response patterns;
A response generation unit that acquires a response feature corresponding to the response pattern selected by the dialog processing unit from the response feature storage unit, and generates response content based on the acquired response feature and the response sentence;
And an output means for outputting the response content generated by the response generation means.
ユーザの発する音声に関する情報と、ユーザを撮影した映像に関する情報と、ユーザ操作によって生成される文字情報とのうち少なくともいずれか一つを入力情報として入力する入力手段と、
前記入力情報の特徴を抽出する特徴抽出手段と、
前記特徴抽出手段により抽出された特徴と、予め格納されている感情判定用データとから前記ユーザの感情を判定する感情判定手段と、
前記入力情報のうち、言語情報が含まれている入力情報を解析し、意味構造を抽出する入力文解析手段と、
一般的な知識・常識に関するデータを格納している知識情報記憶手段と、
分散環境にある所望の最新情報を提供する情報サーバを選択・接続して所望の情報を取得する情報検索・通信手段と、
ユーザの嗜好に関する情報を含む個人情報を格納している個人情報格納手段と、
人間に任意の感情を起こさせる事柄と、その事柄によって人間に起きることが推論される感情とを関連付ける推論規則を格納している感情推論規則格納手段と、
複数の応答パターンを保持する応答パターン格納手段と、
前記入力文解析手段により解析された入力情報の意味構造が、明示的に情報を要求していない内容であった場合、
前記ユーザの個人情報のうちの少なくとも前記嗜好に関する情報と、前記一般的な知識・常識に関するデータ及び前記情報検索・通信手段を介して前記情報サーバから取得した返信情報のうちの少なくとも一方の情報に基づいて、前記感情判定手段で判定された感情をユーザが起こした原因を特定するとともに、この特定された原因に基づいて、次にユーザに起こさせるべき感情を推定し、この推定された感情に合致する応答パターンを、前記複数の応答パターンのうちから選択し、この選択された応答パターンを用いて、前記ユーザへの応答文の意味構造を作成する対話処理手段と、
前記対話処理手段により作成された意味構造に基づいて前記応答文を生成する応答文生成手段と、
前記複数の応答パターンに対応した複数の応答特徴を格納している応答特徴格納手段と、
前記対話処理手段により選択された応答パターンに対応した応答特徴を前記応答特徴格納手段から取得し、この取得された応答特徴と前記応答文とに基づいて、応答内容を生成する応答生成手段と、
前記応答生成手段で生成した応答内容を出力する出力手段と
を有することを特徴とする対話装置。
An input means for inputting as input information at least one of information related to a voice uttered by the user, information related to a video obtained by photographing the user, and character information generated by a user operation;
Feature extraction means for extracting features of the input information;
Emotion determination means for determining the emotion of the user from the features extracted by the feature extraction means and pre-stored emotion determination data;
Among the input information, input sentence analysis means for analyzing input information including language information and extracting a semantic structure;
Knowledge information storage means for storing data relating to general knowledge and common sense;
An information search / communication means for selecting / connecting an information server that provides the desired latest information in a distributed environment and acquiring the desired information; and
Personal information storage means for storing personal information including information relating to user preferences ;
An emotion inference rule storage means for storing an inference rule that associates an event that causes a human being with any emotion and an emotion that is inferred to occur in the human by the event;
Response pattern storage means for holding a plurality of response patterns;
When the semantic structure of the input information analyzed by the input sentence analysis means is content that does not explicitly request information,
At least the information about the preference, at least one of the information in the reply information acquired from the information server via the data and the information retrieval and communication means for said common knowledge and common sense of the personal information of the user based on the bets, as well as identify the cause that the user has caused the determined emotion in the emotion determining means, based on the identified cause, then estimates the emotion to cause the user is the estimated A dialogue processing means for selecting a response pattern that matches an emotion from the plurality of response patterns, and using the selected response pattern to create a semantic structure of a response sentence to the user;
Response sentence generation means for generating the response sentence based on the semantic structure created by the dialogue processing means;
Response feature storage means for storing a plurality of response features corresponding to the plurality of response patterns;
A response generation unit that acquires a response feature corresponding to the response pattern selected by the dialog processing unit from the response feature storage unit, and generates response content based on the acquired response feature and the response sentence;
And an output means for outputting the response content generated by the response generation means.
JP01166299A 1999-01-20 1999-01-20 Dialogue device Expired - Lifetime JP4465730B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01166299A JP4465730B2 (en) 1999-01-20 1999-01-20 Dialogue device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01166299A JP4465730B2 (en) 1999-01-20 1999-01-20 Dialogue device

Publications (2)

Publication Number Publication Date
JP2000207214A JP2000207214A (en) 2000-07-28
JP4465730B2 true JP4465730B2 (en) 2010-05-19

Family

ID=11784205

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01166299A Expired - Lifetime JP4465730B2 (en) 1999-01-20 1999-01-20 Dialogue device

Country Status (1)

Country Link
JP (1) JP4465730B2 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002108929A (en) * 2000-10-04 2002-04-12 Up Coming:Kk System and method for retrieving related information, and computer readable recording medium
JP4525712B2 (en) * 2002-12-11 2010-08-18 ソニー株式会社 Information processing apparatus and method, program, and recording medium
JP4354299B2 (en) * 2004-02-27 2009-10-28 富士通株式会社 Case search program, case search method, and case search device
JP4508757B2 (en) * 2004-07-16 2010-07-21 富士通株式会社 Response generation program, response generation method, and response generation apparatus
JP4794846B2 (en) * 2004-10-27 2011-10-19 キヤノン株式会社 Estimation apparatus and estimation method
JP2010129033A (en) * 2008-12-01 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> Interactive mental state learning device and method thereof, interactive control device and method thereof, program and recording medium
US9786299B2 (en) * 2014-12-04 2017-10-10 Microsoft Technology Licensing, Llc Emotion type classification for interactive dialog system
JP6859959B2 (en) * 2016-01-28 2021-04-14 ソニー株式会社 Communication system and communication control method, as well as programs
US11595331B2 (en) 2016-01-28 2023-02-28 Sony Group Corporation Communication system and communication control method
JP6852520B2 (en) * 2017-03-31 2021-03-31 大日本印刷株式会社 Information processing equipment, information processing methods and programs
WO2019098185A1 (en) * 2017-11-16 2019-05-23 株式会社Nttドコモ Dialog text generation system and dialog text generation program
JP6882975B2 (en) * 2017-11-30 2021-06-02 Kddi株式会社 Dialogue scenario generator, program and method that can determine the context from the dialogue log group
JP7014646B2 (en) * 2018-03-14 2022-02-01 Kddi株式会社 Response device, response method, response program and response system
US12027161B2 (en) * 2018-05-01 2024-07-02 Ntt Docomo, Inc. Dialogue device
CN118692450A (en) * 2024-06-19 2024-09-24 北京百度网讯科技有限公司 Question and answer processing method, device, equipment, storage medium and program product

Also Published As

Publication number Publication date
JP2000207214A (en) 2000-07-28

Similar Documents

Publication Publication Date Title
Rana et al. Emotion based hate speech detection using multimodal learning
JP4465730B2 (en) Dialogue device
US8935163B2 (en) Automatic conversation system and conversation scenario editing device
CN112334892B (en) Selectively generating extended responses for guiding continuation of a human-machine conversation
US5918222A (en) Information disclosing apparatus and multi-modal information input/output system
CN104778945B (en) The system and method for responding to natural language speech utterance
EP1332491B1 (en) User interface for the administration of an external database
KR101634086B1 (en) Method and computer system of analyzing communication situation based on emotion information
US20080240379A1 (en) Automatic retrieval and presentation of information relevant to the context of a user&#39;s conversation
JP4965322B2 (en) User support method, user support device, and user support program
US20080235018A1 (en) Method and System for Determing the Topic of a Conversation and Locating and Presenting Related Content
CN106484093A (en) Dialogue control device, dialog control method
CN107832286A (en) Intelligent interactive method, equipment and storage medium
CN107818781A (en) Intelligent interactive method, equipment and storage medium
KR20020067591A (en) Self-updating user interface/entertainment device that simulates personal interaction
KR20020067592A (en) User interface/entertainment device that simulates personal interaction and responds to user&#39;s mental state and/or personality
CN107797984A (en) Intelligent interactive method, equipment and storage medium
Mustaquim Automatic speech recognition-an approach for designing inclusive games
Kim et al. Acquisition and use of long-term memory for personalized dialog systems
CN119884644A (en) Digital person control method, device, equipment and storage medium
WO2003085550A1 (en) Conversation control system and conversation control method
JP2020154378A (en) Self-interaction devices, chatbots, and robots
Tseng et al. Approaching Human Performance in Behavior Estimation in Couples Therapy Using Deep Sentence Embeddings.
US20150127593A1 (en) Platform to Acquire and Represent Human Behavior and Physical Traits to Achieve Digital Eternity
KR20200122916A (en) Dialogue system and method for controlling the same

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060110

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090127

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090317

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090407

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090528

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

EXPY Cancellation because of completion of term