JP4811059B2 - Agent device - Google Patents
Agent device Download PDFInfo
- Publication number
- JP4811059B2 JP4811059B2 JP2006061251A JP2006061251A JP4811059B2 JP 4811059 B2 JP4811059 B2 JP 4811059B2 JP 2006061251 A JP2006061251 A JP 2006061251A JP 2006061251 A JP2006061251 A JP 2006061251A JP 4811059 B2 JP4811059 B2 JP 4811059B2
- Authority
- JP
- Japan
- Prior art keywords
- agent
- input
- voice
- data
- output
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
Description
本発明は、使用状況によりエージェントの対応を変化させるエージェント装置に関する。 The present invention relates to an agent device that changes an agent's correspondence according to usage conditions.
従来から、パーソナルコンピュータ、カーナビゲーションシステム、携帯電話機やPDA(Personal Digital Assistants)を始めとするモバイル機器及びVCRやDVDプレーヤ等のAV(Audio Visual)機器等の様々な電気・電子機器において、画像表示装置に擬人化したエージェントの画像を表示させたり、音声出力装置からエージェントの音声出力を行ったりして各種機器の操作案内、経路案内、電子メールの送受信等を行わせるエージェント機能に関する開発や研究が行われている。 Conventionally, image display in various electric and electronic devices such as personal computers, car navigation systems, mobile phones, mobile devices such as PDA (Personal Digital Assistants), and AV (Audio Visual) devices such as VCRs and DVD players. Development and research on agent functions to display anthropomorphic agent images on the device, or perform agent voice output from the voice output device to perform operation guidance of various devices, route guidance, e-mail transmission and reception, etc. Has been done.
近年では、情報技術の飛躍的な発達に伴いエージェント機能もより一層の発達を遂げ、より人間的な自然な対応を行うエージェント技術も開発されている。例えば、特許文献1には、カーナビゲーションシステムにおけるエージェント装置であって、車両に設けた各種のセンサ等から送信される検出信号に基づいて車両の状況を把握し、この状況の種類や程度によってエージェントに発声させる音声の高さ、強さ、音質、長さ等を自動的に変更する発明が開示されている。 In recent years, with the rapid development of information technology, the agent function has also been further developed, and agent technology has been developed that provides a more natural human response. For example, Patent Document 1 discloses an agent device in a car navigation system, which grasps a vehicle situation based on detection signals transmitted from various sensors provided in the vehicle, and determines the agent according to the type and degree of the situation. An invention for automatically changing the height, strength, sound quality, length, etc. of the voice to be uttered is disclosed.
また、特許文献2には、ユーザの音声を認識する音声認識手段を備え、この音声認識手段で認識した音声の強さや時間とともに変化するユーザの感情を自律的に判断してその場に適切な行動を自動的に実行するエージェントインターフェースに関する発明が開示されている。
ところで、特許文献1や特許文献2に開示されるように、エージェントの行動をユーザの気分やその場の状況に応じてユーザに対して好適な行動に変化させるためのエージェント技術の発明はなされているが、より積極的に、ユーザに対して反発的な行動を行うエージェント機能に関する発明はあまりなされていないのが現状である。
By the way, as disclosed in Patent Document 1 and
反発的な対応を実行させることにより、画一的となりがちなエージェントの対応をより表現豊にすることができる。エージェント自身がより人間的になり、ユーザにとって更に親近感が沸く存在とすることができる。 By executing the repulsive response, the agent's response, which tends to be uniform, can be made more expressive. The agent itself can become more human and the user can be more familiar.
本発明は、上記課題を解決するためになされたものであり、その目的とするところは、
エージェントに反発的な行動を実行させることでエージェントにより親近感を抱かせ、もってエージェント機能をより好適なものにすることにある。
The present invention has been made in order to solve the above-mentioned problems, and its object is as follows.
It is to make the agent function more suitable by making the agent execute repulsive behavior to make the agent feel closer.
上記課題を解決するために、請求項1に記載の発明は、擬人化されたエージェントの状態を示す複数の画像データを表示する表示手段と、
前記画像データ、及び謝意を内容とする特定の音声データを含む複数の音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを合成する音声合成手段と、
前記音声合成手段により合成された前記音声データを出力する音声出力手段と、
外部からの指示を入力する入力手段と、
前記入力手段により入力された指示のうち音声データを認識する音声認識手段と、
前記音声認識手段に入力された音声データを検出する検出手段と、
前記検出手段により前記音声データが検出されてから次の音声データが検出されるまで計時を行う計時手段と、
前記計時手段による計時が所定の時間を超過するか否かを判定する判定手段と、
前記判定手段により所定の時間を超過すると判定された場合に、外部に対して、前記入力手段による入力を促す音声データを前記音声合成手段により合成させて前記音声出力手段により出力させる制御手段と、を備え、
前記制御手段は、前記入力手段による入力を促す音声データの出力後、更に前記判定手段により所定の時間を超過すると判定された場合に、前記音声出力手段からの音声データの出力を一時的に停止させ、
前記音声出力手段からの音声データの出力が一時的に停止された後、前記音声認識手段により前記音声データが認識された場合に、前記音声認識手段により認識された前記音声データと前記記憶手段に記憶された前記特定の音声データとを比較して一致するか否かを判定し、
前記音声認識手段により認識された前記音声データが前記特定の音声データと一致すると判定した場合に、前記一時的に停止させた前記音声出力手段からの音声データの出力を再開させることを特徴とする。
In order to solve the above-described problem, the invention according to claim 1 includes a display unit that displays a plurality of image data indicating the state of an anthropomorphic agent;
Storage means for storing a plurality of audio data including the image data and specific audio data including gratitude ;
Voice synthesis means for synthesizing voice data stored in the storage means;
Voice output means for outputting the voice data synthesized by the voice synthesis means;
An input means for inputting an external instruction;
Voice recognition means for recognizing voice data among instructions input by the input means ;
Detection means for detecting a speech data input before Symbol speech recognition means,
Timing means for performing timed the audio data from being detected by the detection means to the next audio data is detected,
Determining means for determining whether or not the time measured by the time measuring means exceeds a predetermined time;
Wherein when it is determined to exceed the predetermined time by the judging means, the external control means to further outputs audio data to prompt an input by said input means to said audio output means by synthesized by the voice synthesis section and, with a,
The control means temporarily stops outputting the audio data from the audio output means when the determination means determines that a predetermined time is exceeded after the output of the audio data prompting the input by the input means. Let
After the output of the voice data from the voice output unit is temporarily stopped, when the voice data is recognized by the voice recognition unit, the voice data recognized by the voice recognition unit and the storage unit Compare with the stored specific audio data to determine whether they match,
If the voice data recognized by the voice recognition unit determines that matches the particular voice data, and wherein Rukoto restarts the output of the audio data from the temporarily stopped the voice output unit To do.
請求項2に記載の発明は、請求項1に記載のエージェント装置であって、
前記制御手段は、
前記判定手段により所定の時間を超過すると判定された場合に、前記入力手段による入力を促す画像データを前記表示手段に更に表示させることを特徴とする。
The invention according to
The control means includes
Wherein when it is determined to exceed the predetermined time by the judging means, characterized in that to further display the image data for prompting an input by the input means on the display means.
請求項3に記載の発明は、請求項1に記載のエージェント装置であって、
前記制御手段は、
前記判定手段により所定の時間を超過すると判定された場合に、前記入力手段による入力を促す音声データを前記音声出力手段により出力させることに代えて、前記入力手段による入力を促す画像データを前記表示手段に表示させることを特徴とする。
The invention according to claim 3 is the agent device according to claim 1 ,
The control means includes
If it is determined to exceed the predetermined time by the determination means, the image data of the voice data urging input by said input means in place of the Rukoto is more output to the audio output means, prompting the user to input by said input means characterized in that that presents on the display means.
請求項4に記載の発明は、請求項2又は3に記載のエージェント装置であって、
前記入力手段による入力を促す画像データは、前記擬人化されたエージェントのヒマ又は退屈な態様を示したものであることを特徴とする。
The invention according to claim 4 is the agent device according to
The image data that prompts the input by the input means is one that shows a cast or boring aspect of the anthropomorphic agent.
本発明によれば、検出手段により入力された音声データを検出してから、次の音声データを検出するまでの時間を計時する計時手段を備え、判定手段によりこの時間が所定の時間を超過すると判定する場合に、音声出力手段からエージェントとの対話を促す音声を出力することができる。例えば、ヒマな状態や退屈な状態である旨の音声を出力してユーザに対して反発的な演出を行うことで、画一的となりがちなエージェントの対応に意外性を持たせることができ、エージェントとの対話に対してユーザにより関心を抱かせ、エージェント機能をより好適なものとすることができる。
特に、画像表示手段を更に備え、エージェントがヒマな状態や退屈な状態である画像も表示させることで、エージェントに対するユーザの関心をより強く抱かせることができる。
According to the present invention, it is provided with time measuring means for measuring the time from detection of the voice data input by the detection means until detection of the next voice data, and when this time exceeds a predetermined time by the determination means. In the determination, a voice prompting a dialogue with the agent can be outputted from the voice output means. For example, by producing a repulsive presentation to the user by outputting a voice indicating that it is in a timeless or boring state, it is possible to make the response of agents that tend to be uniform, surprisingly, The user can be more interested in the interaction with the agent, and the agent function can be made more suitable.
In particular, the image display means is further provided to display an image in which the agent is in a tedious state or a boring state, whereby the user can be more interested in the agent.
次に、図を用いて本発明を実施するための最良の形態について説明する。
本発明におけるエージェント装置は、電気・電子機器の駆動状態を検出できさえすれば、種々の電子機器に適用することができる。例えば、携帯電話機を始めとする各種のモバイル機器、カーナビゲーションシステム及びデスクトップパーソナルコンピュータ等の種々の電子機器に適用することができる。なお、電気・電子機器の駆動状態とは、例えば、リモコン装置、キーボード又はマウス等のユーザ自身の操作により入力信号を送信する各種の入力装置(ユーザインターフェース)からの入力信号を検出する場合や、電子機器の外部環境の変化を検出することのできる各種のセンサ(例えば、電子機器の駆動により発生する熱を検出する温度センサ)等により入力信号を検出できる場合を含む意味である。即ち、これらインターフェースや各種センサを操作することにより、電気・電子機器が使用されている状態を検出できればよい。本実施の形態では、本発明のエージェント装置を携帯電話機に適用した例を説明する。
Next, the best mode for carrying out the present invention will be described with reference to the drawings.
The agent device according to the present invention can be applied to various electronic devices as long as the driving state of the electrical / electronic device can be detected. For example, the present invention can be applied to various mobile devices such as mobile phones, various electronic devices such as car navigation systems and desktop personal computers. The driving state of the electric / electronic device is, for example, when detecting input signals from various input devices (user interfaces) that transmit input signals by user's own operation such as a remote control device, a keyboard or a mouse, This means that the input signal can be detected by various sensors (for example, a temperature sensor that detects heat generated by driving the electronic device) that can detect a change in the external environment of the electronic device. That is, it is only necessary to detect the state in which the electric / electronic device is used by operating these interfaces and various sensors. In this embodiment, an example in which the agent device of the present invention is applied to a mobile phone will be described.
図1のブロック図に、本発明を適用した携帯電話機100の機能的な構成を示す。携帯電話機100は、携帯電話機制御部20、通信/通話機能部21、表示部22、入力部23、エージェントCPU1、RAM2、記憶部3、DSP(Digital Signal Processor)4、マイク5、音源IC6、スピーカ7及び時計回路8から構成され、これらがバス9により電気・電子的に接続されている。
なお、エージェントCPU1を携帯電話機制御部20と一体に構成することも当然に可能であるが、簡単のため両者を分けて構成している。
The functional configuration of a
Of course, the agent CPU 1 can be configured integrally with the mobile
携帯電話機制御部20は、CPU、ROM及びRAM等から構成され、予め記憶されたオペレーションプログラムや音声通話プログラム及びメール送受信プログラム等のアプリケーションプログラムの指示に従い携帯電話機100の全体制御を行うものである。表示部22の表示制御も行うものであり、エージェントCPU1から送信されるエージェントの画像データを受信して表示部22に表示させる制御も行う。更に、電話番号や文字の入力を行う各種のキーから構成される入力部23からの入力信号をエージェントCPU1に送信する制御も行うようになっている。
The mobile
エージェントCPU1は、記憶部3に格納されたオペレーションプログラム及びエージェントプログラム10を読み出し、ワークエリアとしてのRAM2に展開し、これらプログラムとの協働によりエージェント機能の制御統括を行うものである。より具体的には、オペレーションプログラム及びエージェントプログラム10の指示に従い、後述する「エージェント機能一時停止処理」を行う。
The agent CPU 1 reads the operation program and the
「エージェント機能一時停止処理」とは、携帯電話機100が使用されていない時間を計時し、この使用されていない時間に応じて表示部22に表示するエージェントの画像やスピーカ7を介して出力するエージェントの音声を通じて携帯電話機100の使用を催促し、その後、このような催促にも関わらず携帯電話機100が使用されない状態が続くと、エージェント機能を一時的に停止する処理である。また、エージェント機能を一時的に停止した後は、ユーザに対し所定の行動を要求し、この要求が満たされるとエージェント機能を復帰する処理も含むものである。
The “agent function suspension process” is an agent that measures the time when the
記憶部3には、エージェント機能を司るオペレーションプログラム、エージェントプログラム10、画像データ11、音声データ12、入力音声サンプルデータ13等の各種プログラムやデータが格納される。
The storage unit 3 stores various programs and data such as an operation program that performs an agent function, an
エージェントプログラム10は、エージェントCPU1との協働により「エージェント機能一時停止処理」を行うアプリケーションプログラムである。エージェントプログラム10には、エージェントCPU1が、携帯電話機100が使用されていない時間を判別する際に基準とする閾値時間データが格納されている。より具体的には、エージェントCPU1は、入力部23を介して入力される入力信号の検出をトリガとして図示しないカウンタにより時間を計時する。エージェントCPU1は、次に入力信号を検出するまで計時を行い、この計時した時間が閾値時間データを超過か否かを監視して、超過する場合に、表示部22やスピーカ7にエージェントの画像データ及び/又は音声データを出力するようになっている。本実施の形態では、例として第1から第3までの3つの閾値時間データが格納されている。
The
画像データ11としては、擬人化したエージェントがヒマな状態や退屈な状態であることを内容とした画像データが記憶されている。図2(a)〜(d)に画像データ11の例を示す。図2(a)は、エージェント機能が通常に作動している場合(即ち、携帯電話機100が頻繁に使用されている場合)に表示部22に表示させるエージェントの画像を表している。画像は静止画でもよいが、ユーザにより親近感を抱かせるために動画であることが好ましい。携帯電話機100が普通に使用されているときには、従来からのエージェントと同様に、笑ったり、微笑んだりする表情を表示するようになっている。
As the
図2(b)は、エージェントがあくびをしている画像を表したものである。携帯電話機100が余り使用されていないときに、ヒマをもてあますエージェントの画像を表示させることで、携帯電話機100の現実の使用状況とエージェントの画像とを観念的に連鎖させることが可能となる。
FIG. 2B shows an image of an agent yawning. When the
図2(c)は、エージェントが寝ている画像を表したものである。上述の図2(b)に表したのと同様に、エージェントの画像を携帯電話機100の現実の使用状況と観念的に連鎖させることが可能となる。更に、一般に「あくび」という動作と「寝る」という動作とでは、ヒマな状態や退屈な状態を表現する上で「寝る」という動作の方がヒマな状態や退屈な状態の程度をより顕著に表現するものである。従って、携帯電話機100がより長時間使用されていない場合に、図2(c)に示すような画像を表示することにより、携帯電話機100がより長時間使用されていないという現実の使用状況とエージェントの画像とを更に観念的に連鎖させることが可能となる。
FIG. 2C shows an image of the agent sleeping. Similarly to the case shown in FIG. 2B described above, the agent image can be ideally linked with the actual usage status of the
図2(d)は、エージェントが「家出」、「逃亡」、「行方不明」又は「消滅」等した画像を表したものである。上述の図2(b)及び図2(c)と同様に、エージェントの画像を携帯電話機100の現実の使用状況と観念的に連鎖させることが可能となる。特に、「家出」、「逃亡」、「行方不明」又は「消滅」等の行動は、相手に対して愛想が尽くという感情を想起させる行動である。従って、エージェントの表現として人間的な反発を演出することができ、ユーザのエージェントに対する関心をより強く引くことができる。
FIG. 2D shows an image in which the agent “runs away”, “runaway”, “missing” or “disappears”. Similar to FIGS. 2B and 2C described above, the image of the agent can be conceptually linked to the actual usage status of the
音声データ12としては、エージェントがヒマな状態や退屈な状態であることを内容とした音声データが記憶されている。このような音声を発声させることで、ユーザに対して携帯電話機100の使用を促すことができる。図3に音声データ12の一例を示す。音声データ12は、『あ〜ぁ・・・ヒマだなぁ〜・・・』、『おーい!遊んでよぉー!!』等のエージェントがヒマな状態あるいは退屈な状態にあることを内容とする。「エージェント機能一時停止処理」において、エージェントCPU1は、プログラムの指示に従い音声合成処理を行い、このようなヒマな状態や退屈な状態をスピーカ7から出力させるようになっている。音声合成処理では、エージェントCPU1は、単語の波形を表すデータである音片データと音素を構成するための波形を表す音素データに基づいて、図3に示すようなエージェントの台詞を読み上げる音声データを合成する。合成の手法は録音編集方式や規則合成方式(Rule−Based synthesis)を使用できる。録音方式は、予め人により読み上げられた単語単位の音声をデータベース化し、それらをつなぎあわせて出力する方式である。規則合成方式は、音韻(子音や母音)や仮名のような比較的小さな単位をつなぎ合わせて出力する方式である。
As the
入力音声サンプルデータ13は、「エージェント機能一時停止処理」でエージェント機能を一時停止させた後に復帰(再開)させる際のトリガとなる特定言語をデジタル音声化したものである。エージェントCPU1は、マイク5及びDSP4を介して入力されたユーザからの音声データを取得すると、この入力音声サンプルデータ13に格納されるサンプル音声データとの比較を行い、一致又は所定の閾値(割合)を超えるほどに一致するサンプル音声データの検索を行う。その結果、一致(又は所定の閾値を超えるほどに一致)するサンプル音声データを検出することで、入力された音声が特定の言語であることを認識し、エージェント機能を復帰させるようになっている。
入力音声サンプルデータ13としては、ユーザからエージェントに対する謝罪を内容とする特定の言語の音声データが記憶されている。図4に、入力音声サンプルデータの一例を示す。『ごめんなさい』、『お願い!帰ってきて!』、『私が悪かった』等の謝罪を内容とするものや、『いや〜電車が遅れちゃってさぁ』、『ここのところ残業続きでさぁ』等の言い訳を内容とするものをパターン化(分類)して格納している。
The input
As the input
DSP4は、ユーザからマイク5を介して入力されたアナログ音声から図示しないA/D変換器を介して所定の周期でサンプリングを行い、デジタル音声データを生成する音声処理装置である。生成された音声データは、エージェントCPU1により、入力音声サンプルデータとの比較が行われ、両データが一致する又は所定の閾値以上に一致する場合に音声として認識される。
マイク5は、ユーザ等からの音声を取得しアナログ信号としてDSP4に出力するものである。なお、携帯電話機100の送話部(不図示)をマイク5として兼用する構成としてもよい。
The DSP 4 is an audio processing device that samples digital audio from a user via a microphone 5 at a predetermined cycle via an A / D converter (not shown) and generates digital audio data. The generated voice data is compared with the input voice sample data by the agent CPU 1 and is recognized as voice when both data match or match a predetermined threshold value or more.
The microphone 5 acquires sound from a user or the like and outputs it to the DSP 4 as an analog signal. Note that a transmitter (not shown) of the
音源IC6は、エージェントCPU1から送信される音声データからアナログ音声データを生成する集積回路である。生成されたアナログ音声データはスピーカ7から出力される。本実施の形態では、エージェントCPU1、音声IC及びスピーカ7が、音声出力手段として機能する。
The sound source IC 6 is an integrated circuit that generates analog audio data from the audio data transmitted from the agent CPU 1. The generated analog audio data is output from the
時計回路8は、水晶振動子等の素子から構成され、エージェントCPU1に一定周期で信号を出力する。エージェントCPU1は、この信号を受信しつづけることで計時を行うことができる。本実施の形態では、エージェントCPU1と時計回路8が計時手段として機能する。
The
表示部22は、画像データ11に基づいて擬人化されたエージェントの画像や携帯電話機100の通話機能等に備わる各種の画像を表示するものである。
The
次に、図5に示すフロー図を用いて、携帯電話機100の動作について説明する。以下の処理を直接的に行うのは図示しないプロセッサ等である場合もあるが、簡単のために、エージェントCPU1がプログラムの指示によって行うものとして説明を行う。
なお、携帯電話機100を使用していない時間を検出するための基準となる、上述の閾値時間データとしては、第1閾値時間データが「2時間」、第2閾値データが「10時間」、第3閾値時間データを「36時間」とする。
Next, the operation of the
Note that, as the above-described threshold time data serving as a reference for detecting the time when the
ステップS101で、エージェントCPU1は、入力部23から送信される入力信号を、携帯電話機制御部20を介して検出する。各種のキーから構成される入力部23から入力信号が送信されるということは、ユーザが携帯電話機100を実際に使用している状態である。
ステップS102で、エージェントCPU1は、ステップS101で入力信号を検出したことをトリガとして、時計回路8から送信される信号に基づいて計時を開始する。
In step S <b> 101, the agent CPU 1 detects an input signal transmitted from the
In step S <b> 102, the agent CPU 1 starts measuring time based on the signal transmitted from the
ステップS103で、エージェントCPU1は、携帯電話機制御部20を介して受信する入力部23からの入力信号を監視し、ステップS102で計時を開始した後に、更に入力信号を検出するか否かの判断を行う。エージェントCPU1は、更に入力信号を検出しないと判断する場合、ステップS104に進む(ステップS103:NO)。逆に、エージェントCPU1は、入力信号を検出すると判断する場合、ステップS102に戻り、それまで計時していたカウンタをリセットして再び計時を開始する(ステップS103:YES)。
In step S103, the agent CPU 1 monitors the input signal from the
ステップS104で、エージェントCPU1は、ステップS102で計時を開始してからの経過時間と、予めエージェントプログラム10に記憶されている第1閾値時間データ(2時間)との比較を行い、経過時間がこの第1閾値時間データを超えるか否かの判断を行う。エージェントCPU1は、経過時間が第1閾値時間データを超過すると判断する場合、ステップS105に進む(ステップS104:YES)。逆に、エージェントCPU1は、経過時間が第1閾値時間データを超過しないと判断する場合、ステップS103に戻る(ステップS104:NO)。
In step S104, the agent CPU 1 compares the elapsed time from the start of time measurement in step S102 with the first threshold time data (2 hours) stored in the
ステップS105で、エージェントCPU1は、記憶部3に記憶された音声データ12から所定の音声データを合成して音源ICに送信し、スピーカ7を介して音声(例えば、『あ〜ぁ・・・ヒマだなー・・・』)を出力する。
In step S105, the agent CPU 1 synthesizes predetermined audio data from the
ステップS106で、エージェントCPU1は、携帯電話機制御部20を介して入力部23から入力される入力信号を再び監視し、この入力信号を検出するか否かの判断を行う。エージェントCPU1は、入力信号を検出すると判断する場合、ステップS102戻り、カウンタをリセットして再度計時を開始する。逆に、エージェントCPU1は、入力信号を検出しない場合、予めエージェントプログラム10に記憶されている第2閾値時間データ(10時間)との比較を行い、経過時間がこの第2閾値時間データを超えるか否かの判断を行う。エージェントCPU1は、経過時間が第2閾値時間データを超過すると判断する場合、ステップS108に進む(ステップS107:YES)。逆に、エージェントCPU1は、経過時間が第2閾値時間データを超過しないと判断する場合、ステップS106に戻る(ステップS107:NO)。
In step S106, the agent CPU 1 monitors the input signal input from the
ステップS108で、エージェントCPU1は、記憶部3に記憶された画像データ11(例えば、図2(b)又は(c)の画像データ)を読み込み、表示部22に擬人化されたエージェントの画像を表示する。
In step S108, the agent CPU 1 reads the image data 11 (for example, the image data of FIG. 2B or 2C) stored in the storage unit 3, and displays the anthropomorphized agent image on the
ステップS109で、エージェントCPU1は、携帯電話機制御部20を介して入力部23から入力される入力信号を再度監視し、入力信号を検出するか否かの判断を行う。エージェントCPU1は、入力信号を検出しない場合、ステップS110に進む(ステップS109:NO)。逆に、エージェントCPU1は、入力信号を検出する場合、ステップS102に戻り、それまで計時していたカウンタをリセットして再び計時を開始する(ステップS109:YES)。
In step S109, the agent CPU 1 again monitors the input signal input from the
ステップS110で、エージェントCPU1は、ステップS102で計時を開始してからの経過時間と、予めエージェントプログラム10に記憶されている第3閾値時間データ(36時間)との比較を行い、経過時間がこの第3閾値時間データを超えるか否かの判断を行う。エージェントCPU1は、経過時間が第3閾値時間データを超過すると判断する場合、ステップS111に進む(ステップS110:YES)。逆に、エージェントCPU1は、経過時間が第3閾値時間データを超過しないと判断する場合、ステップS109に戻る(ステップS110:NO)。
In step S110, the agent CPU 1 compares the elapsed time from the start of timing in step S102 with the third threshold time data (36 hours) stored in the
ステップS111で、エージェントCPU1は、記憶部3に記憶された画像データ11(図2(d)の画像データ)を読み込み、表示部22に画像を表示する。
In step S111, the agent CPU 1 reads the image data 11 (image data in FIG. 2D) stored in the storage unit 3, and displays the image on the
ステップS112で、エージェントCPU1は、入力部23から所定時間内に連続して入力信号を検出するか否かを判断する。エージェントCPU1が、連続して入力信号を検出しない場合、連続信号を検出するまで待機状態となる(ステップS112:NO)。即ち、エージェントCPU1は、入力信号を連続して検出するまではステップS111で表示した画像(図2(d))を表示し続ける。これにより、エージェントが「家出」等をすると所定条件を満たすまで帰ってこないというユーザに対して反発的な態度を振舞うという演出を行うことができる。
逆に、エージェントCPU1は、入力部23から所定時間内に連続して入力信号を検出する場合、ステップS113に進む(ステップS112:YES)。
In step S112, the agent CPU 1 determines whether or not to continuously detect an input signal from the
Conversely, if the agent CPU 1 detects an input signal continuously from the
ステップS113で、エージェントCPU1は、マイク5を介して入力される音声から入力音声サンプルデータ13に一致(又は、所定の閾値以上に一致)する音声を認識するか否かの判断を行う。即ち、入力音声サンプルデータ13として謝罪の言葉が記憶されているため、ユーザはマイク5を介してエージェントに対して所定の謝罪の言葉を音声入力する必要がある。これにより、エージェントが「家出」等をすると所定条件を満たすまで帰ってこないというエージェントがユーザに対して反発的な態度を振舞うという演出を更に効果的に行うことができる。
また、このステップS113の判断がNOである場合、即ちエージェントCPU1が謝罪の言葉を認識しない場合、ステップS112に戻るように構成している。このように構成することにより、エージェントが「家出」等をすると所定条件を2つ満たすまで帰ってこないという、ユーザに対してより反発的な態度を振舞うという演出を更に効果的に行うことができる。
In step S113, the agent CPU 1 determines whether or not a voice that matches the input voice sample data 13 (or matches a predetermined threshold or more) is recognized from the voice input through the microphone 5. That is, since a word of apology is stored as the input
If the determination in step S113 is NO, that is, if the agent CPU1 does not recognize an apology, the process returns to step S112. By configuring in this way, when the agent “runs away” or the like, it is possible to more effectively perform an effect of acting a more repulsive attitude toward the user that the agent does not return until two predetermined conditions are satisfied. .
ステップS114で、エージェントCPU1は、エージェント機能の一時停止機能を解除し、通常の処理状態に復帰する。即ち、表示部22に図2(a)に示す画像を表示し、携帯電話機100の各種処理におけるエージェント機能を実行する。
In step S114, the agent CPU 1 cancels the temporary stop function of the agent function and returns to the normal processing state. That is, the image shown in FIG. 2A is displayed on the
このように、本発明を適用した携帯電話機100によれば、入力部23を介してユーザから入力される入力信号を検出してから、次の入力信号を検出するまでの経過時間が所定の閾値時間を超過するか否かを判断し、超過する場合に、エージェントがヒマな状態や退屈な状態である画像を表示させたり、ヒマな状態や退屈な状態である旨の音声を出力させたりしてユーザに対して反発的になるという演出を行うことができる。これにより一層人間的な動作を行うエージェント機能を実現することができる。
As described above, according to the
また、携帯電話機100は、現実に携帯電話機100を使用していない時間に基づいて、エージェントにヒマな状態や退屈な状態等のユーザに対して反抗的な画像を表示したり音声を出力したりするようになっている。従って、携帯電話機100の不使用時間とエージェントの動作とが観念的に連鎖し、あたかも携帯電話機100自体に人間的な意思があるかのように見せるエージェント機能本来の演出効果を更に効果的に行うことができる。
In addition, the
また、携帯電話機100は、携帯電話機100の不使用の時間に基づいて(最終的に)エージェントに「家出」をさせる画像を表示するようになっている。この「家出」という極めて人間的な動作を行わせることにより、ユーザに対してエージェントから愛想を尽かされたかのような感情を想起させることができる。これによりエージェントに対する意外性を向上させることができ、エージェントとのコミュケーションに対する関心を高めることができる。
In addition, the
また、携帯電話機100は、エージェントに「家出」をさせた後は、入力部23からの入力信号を所定間隔で連続して検出し且つユーザからの謝罪の言葉を認識するまではエージェント機能の一時機能停止状態に陥る。一時機能停止状態を解除するために、ユーザに対してこのような実際の人間同士で生ずるような行為を要求するように構成することで、エージェントとユーザとの関係がより対等なものに近づけることができるという効果がある。
In addition, after causing the agent to “run away”, the
以上、本発明を実施するための最良の形態について説明したが、本発明は上記種々の例に限定されるものではない。特に、上述の例では、ユーザに対する反発的な画像データ及び音声データとして、ヒマな状態あるいは退屈な状態を内容とするものについて説明したが、怒った状態、不機嫌な状態、無視する状態、我儘な状態、悲しむ状態、いじける状態等、およそユーザに対して反発的な感情を想起させる状態を適用することも当然に可能である。
同様に、エージェント機能が一時機能停止状態に陥ってから通常の機能状態に復帰させるために、ダイヤルキー等の連続押しと謝罪の言葉の入力とを要求する構成としているが、この例に限ったものではない。例えば、図4に示すように、謝罪の言葉に変えて言い訳の言葉を入力する構成としてもよいし、ダイヤルキーの長押し、謝罪の言葉の後に言い訳の言葉を要求する構成あるいはこの逆、謝罪の言葉を所定回数連続して認識する構成等種々の形態を適用することができることは無論である。
As mentioned above, although the best form for implementing this invention was demonstrated, this invention is not limited to the said various example. In particular, in the above-described example, the repulsive image data and audio data for the user have been described as having contents of a dull state or a dull state, but an angry state, a displeased state, a neglected state, a selfish state Of course, it is possible to apply a state that reminds the user of a repulsive feeling, such as a state, a state of sadness, and a state of teasing.
Similarly, in order to return the agent function to the normal function state after falling into the temporary function stop state, it is configured to require continuous pressing of dial keys and the input of an apology word. It is not a thing. For example, as shown in FIG. 4, an excuse may be entered instead of an apology, or a dial key may be pressed and an excuse may be requested after an apology, or vice versa. Of course, it is possible to apply various forms such as a configuration for recognizing the above word continuously a predetermined number of times.
1 エージェントCPU
2 RAM
3 記憶部
4 DSP
5 マイク
6 音源IC
7 スピーカ
8 時計回路
9 バス
10 エージェントプログラム
11 画像データ
12 音声データ
13 入力音声サンプルデータ
20 携帯電話機制御部
21 通信/通話機能部
22 表示部
23 入力部
1 Agent CPU
2 RAM
3 Storage unit 4 DSP
5 Microphone 6 Sound source IC
7
Claims (4)
前記画像データ、及び謝意を内容とする特定の音声データを含む複数の音声データを記憶する記憶手段と、
前記記憶手段に記憶された音声データを合成する音声合成手段と、
前記音声合成手段により合成された前記音声データを出力する音声出力手段と、
外部からの指示を入力する入力手段と、
前記入力手段により入力された指示のうち音声データを認識する音声認識手段と、
前記音声認識手段に入力された音声データを検出する検出手段と、
前記検出手段により前記音声データが検出されてから次の音声データが検出されるまで計時を行う計時手段と、
前記計時手段による計時が所定の時間を超過するか否かを判定する判定手段と、
前記判定手段により所定の時間を超過すると判定された場合に、外部に対して、前記入力手段による入力を促す音声データを前記音声合成手段により合成させて前記音声出力手段により出力させる制御手段と、を備え、
前記制御手段は、前記入力手段による入力を促す音声データの出力後、更に前記判定手段により所定の時間を超過すると判定された場合に、前記音声出力手段からの音声データの出力を一時的に停止させ、
前記音声出力手段からの音声データの出力が一時的に停止された後、前記音声認識手段により前記音声データが認識された場合に、前記音声認識手段により認識された前記音声データと前記記憶手段に記憶された前記特定の音声データとを比較して一致するか否かを判定し、
前記音声認識手段により認識された前記音声データが前記特定の音声データと一致すると判定した場合に、前記一時的に停止させた前記音声出力手段からの音声データの出力を再開させることを特徴とするエージェント装置。 Display means for displaying a plurality of image data indicating the state of the anthropomorphic agent;
Storage means for storing a plurality of audio data including the image data and specific audio data including gratitude ;
Voice synthesis means for synthesizing voice data stored in the storage means;
Voice output means for outputting the voice data synthesized by the voice synthesis means;
An input means for inputting an external instruction;
Voice recognition means for recognizing voice data among instructions input by the input means ;
Detection means for detecting a speech data input before Symbol speech recognition means,
Timing means for performing timed the audio data from being detected by the detection means to the next audio data is detected,
Determining means for determining whether or not the time measured by the time measuring means exceeds a predetermined time;
Wherein when it is determined to exceed the predetermined time by the judging means, the external control means to further outputs audio data to prompt an input by said input means to said audio output means by synthesized by the voice synthesis section and, with a,
The control means temporarily stops outputting the audio data from the audio output means when the determination means determines that a predetermined time is exceeded after the output of the audio data prompting the input by the input means. Let
After the output of the voice data from the voice output unit is temporarily stopped, when the voice data is recognized by the voice recognition unit, the voice data recognized by the voice recognition unit and the storage unit Compare with the stored specific audio data to determine whether they match,
If the voice data recognized by the voice recognition unit determines that matches the particular voice data, and wherein Rukoto restarts the output of the audio data from the temporarily stopped the voice output unit Agent device to perform.
前記制御手段は、
前記判定手段により所定の時間を超過すると判定された場合に、前記入力手段による入力を促す画像データを前記表示手段に更に表示させることを特徴とするエージェント装置。 The agent device according to claim 1 ,
The control means includes
Wherein when it is determined to exceed the predetermined time by the judging means, the agent device, characterized in that to further display the image data for prompting an input by the input means on the display means.
前記制御手段は、
前記判定手段により所定の時間を超過すると判定された場合に、前記入力手段による入力を促す音声データを前記音声出力手段により出力させることに代えて、前記入力手段による入力を促す画像データを前記表示手段に表示させることを特徴とするエージェント装置。 The agent device according to claim 1 ,
The control means includes
If it is determined to exceed the predetermined time by the determination means, the image data of the voice data urging input by said input means in place of the Rukoto is more output to the audio output means, prompting the user to input by said input means the agent device for causing displayed in said display means.
前記入力手段による入力を促す画像データは、前記擬人化されたエージェントのヒマ又は退屈な態様を示したものであることを特徴とするエージェント装置。 The agent device according to claim 2 or 3 , wherein
The agent device characterized in that the image data that prompts input by the input means shows a cast or boring aspect of the personified agent.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006061251A JP4811059B2 (en) | 2006-03-07 | 2006-03-07 | Agent device |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006061251A JP4811059B2 (en) | 2006-03-07 | 2006-03-07 | Agent device |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2007241535A JP2007241535A (en) | 2007-09-20 |
| JP4811059B2 true JP4811059B2 (en) | 2011-11-09 |
Family
ID=38587035
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006061251A Expired - Lifetime JP4811059B2 (en) | 2006-03-07 | 2006-03-07 | Agent device |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP4811059B2 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| DE102008028512A1 (en) | 2008-06-16 | 2009-12-17 | Audi Ag | Communication system and method for displaying information in a communication |
| US10176252B2 (en) | 2012-12-04 | 2019-01-08 | Ntt Docomo, Inc. | Information-processing device, server device, interaction system, and program |
| JP6915829B2 (en) * | 2016-09-09 | 2021-08-04 | 米澤 朋子 | Familiar ambient agent systems and programs |
| JP2019120839A (en) * | 2018-01-09 | 2019-07-22 | トヨタ自動車株式会社 | Voice output device, method for voice output, and voice output program |
| JP2019124977A (en) | 2018-01-11 | 2019-07-25 | トヨタ自動車株式会社 | On-board voice output device, voice output control method, and voice output control program |
Family Cites Families (8)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP3873386B2 (en) * | 1997-07-22 | 2007-01-24 | 株式会社エクォス・リサーチ | Agent device |
| JP3125006B2 (en) * | 1998-04-07 | 2001-01-15 | コナミ株式会社 | Character image display control method and apparatus, recording medium |
| JP2000176177A (en) * | 1999-01-01 | 2000-06-27 | Casio Comput Co Ltd | Wrist-mounted electronic game device and wrist-mounted electronic game system |
| JP3818422B2 (en) * | 2000-02-08 | 2006-09-06 | 本田技研工業株式会社 | Vehicle communication device |
| JP4207350B2 (en) * | 2000-02-21 | 2009-01-14 | 株式会社エクォス・リサーチ | Information output device |
| JP2002117220A (en) * | 2000-10-10 | 2002-04-19 | Namco Ltd | Information processing system, terminal device, and information storage medium |
| JP5019145B2 (en) * | 2001-09-28 | 2012-09-05 | 株式会社エクォス・リサーチ | Driver information collection device |
| JP2005122549A (en) * | 2003-10-17 | 2005-05-12 | Aruze Corp | Conversation control device and conversation control method |
-
2006
- 2006-03-07 JP JP2006061251A patent/JP4811059B2/en not_active Expired - Lifetime
Also Published As
| Publication number | Publication date |
|---|---|
| JP2007241535A (en) | 2007-09-20 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7379752B2 (en) | Voice trigger for digital assistant | |
| US10832674B2 (en) | Voice data processing method and electronic device supporting the same | |
| KR101617665B1 (en) | Automatically adapting user interfaces for hands-free interaction | |
| CN111919248B (en) | System for processing user's voice and control method thereof | |
| US10553209B2 (en) | Systems and methods for hands-free notification summaries | |
| US10496753B2 (en) | Automatically adapting user interfaces for hands-free interaction | |
| JP6585733B2 (en) | Information processing device | |
| WO2019198299A1 (en) | Information processing device and information processing method | |
| KR20200099380A (en) | Method for providing speech recognition serivce and electronic device thereof | |
| JP4811059B2 (en) | Agent device | |
| JP6657048B2 (en) | Processing result abnormality detection device, processing result abnormality detection program, processing result abnormality detection method, and moving object | |
| CN112219235A (en) | System comprising an electronic device for processing a user's speech and a method for controlling speech recognition on an electronic device | |
| US20210082427A1 (en) | Information processing apparatus and information processing method | |
| JP3846500B2 (en) | Speech recognition dialogue apparatus and speech recognition dialogue processing method | |
| JP2002169582A (en) | Speech synthesis device and control method thereof, computer readable memory | |
| JP2006313287A (en) | Spoken dialogue device | |
| JP2024010831A (en) | Information processing device, information processing method and program | |
| CN119479661A (en) | Voice dialogue method, device, terminal equipment and storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090220 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110128 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110411 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110726 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110808 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 4811059 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140902 Year of fee payment: 3 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140902 Year of fee payment: 3 |
|
| S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140902 Year of fee payment: 3 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |