JP5055486B2 - Remote operation android utterance control system - Google Patents
Remote operation android utterance control system Download PDFInfo
- Publication number
- JP5055486B2 JP5055486B2 JP2006197112A JP2006197112A JP5055486B2 JP 5055486 B2 JP5055486 B2 JP 5055486B2 JP 2006197112 A JP2006197112 A JP 2006197112A JP 2006197112 A JP2006197112 A JP 2006197112A JP 5055486 B2 JP5055486 B2 JP 5055486B2
- Authority
- JP
- Japan
- Prior art keywords
- android
- voice
- lip shape
- lip
- delay
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
この発明は遠隔操作アンドロイドの発話動作制御システムに関し、特にたとえば、操作者の発話音声に基づいてアンドロイドの発話時の口唇動作を制御するシステムに関する。 The present invention relates to a remote operation android utterance operation control system, and more particularly to a system for controlling the lip movement of an android utterance based on an utterance voice of an operator, for example.
一般に、音声合成に用いる音素情報を利用して口唇形状を出力する手法は有効であるが、音素情報が無い場合には、発話音声の音響特徴から口唇形状を推定する必要が生じる。発話音声のみを元に人の口唇の動きを再現する技術は、たとえば非特許文献1−4で提案されている。音声のみから口唇の形状を推定する手法は、音響特徴抽出と、音響特徴から口唇形状へのマッピングの2ステップに分けられる。音声信号から抽出される音響特徴としては、LPC(linear predictive coding)−Cepstral係数、MFCC(Mel-Frequency Cepstral Coefficients)係数、LSP(Line Spectrum Pair)係数などが挙げられる。音響特徴から口唇形状へのマッピング手法としては、線形回帰分析、ニューラル・ネットワーク、HMM(Hidden Markov Model)、KNN(K-Nearest Neighbor)などが挙げられる。上記の手法では、音声と口唇形状の画像的な情報との1対1のマッピングが定期のフレームごとに行われる。
しかしながら、音響特徴と口唇の形状との間には非線形な関係が存在することから、的確に動作するものは未だ存在しない。実物のロボットまたはアンドロイド(人間に酷似した姿形を有し、また、人間に酷似した動作を行うロボット)の制御においては、アクチュエータの応答は動作によって変わってしまう。たとえば、口を開く動作は、閉じる動作に比べて遅い。そのため、上記関連技術のように1フレームごとに音響特徴とターゲットとした口唇形状との1対1のマッピングをするのは困難となる。 However, since there is a non-linear relationship between the acoustic features and the shape of the lips, there is still nothing that works properly. In the control of a real robot or an android (a robot having a form resembling that of a human and performing a movement resembling a human), the response of the actuator varies depending on the operation. For example, the opening operation is slower than the closing operation. Therefore, it is difficult to perform one-to-one mapping between the acoustic features and the target lip shape for each frame as in the related art.
また、以下のような問題も存在する。発声においては、口唇や舌等の形が定まってから空気が通ることで音が発せられる。無声破裂音(/p/,/t/,/k/)などでは、音に先立って口唇や舌の形が定まっている。したがって、音を元に口唇等を動かしたのでは、自然でない動作になってしまう。つまり、音を元に口唇を主とした顔面動作の制御を行う過程には、必然的に遅延が伴う。 There are also the following problems. In utterance, a sound is produced by the passage of air after the shape of the lips, tongue, etc. is determined. In the case of silent plosives (/ p /, / t /, / k /), the shape of the lips and tongue is determined prior to the sound. Therefore, moving the lips based on the sound results in an unnatural operation. In other words, the process of controlling the facial motion mainly based on the lips based on the sound inevitably involves a delay.
また、アンドロイドの顔面は、人の顔面とは動き方が異なる。これは、人の顔面筋肉と同様にアクチュエータを内在させることが現状の技術では不可能であるためである。また、反応速度等も異なるため、人とまったく同一の動きをさせることはできない。一般には、人では可能であってもアンドロイドでは不可能な動きが数多く存在する。 Also, the face of an Android moves differently than a human face. This is because it is impossible with the current technology to incorporate an actuator in the same way as a human facial muscle. In addition, since the reaction speed and the like are different, it is impossible to make the person move exactly the same. In general, there are many movements that are possible with humans but not with Android.
それゆえに、この発明の主たる目的は、アンドロイドにおいて操作者の音声に適合した口唇動作を行うことができる、遠隔操作アンドロイドの発話動作制御システムを提供することである。 Therefore, a main object of the present invention is to provide a speech operation control system for a remotely operated android that can perform a lip motion adapted to the voice of the operator in the android.
請求項1の発明は、操作者によって遠隔操作されるアンドロイドの発話動作を操作者の発話音声に応じて制御するためのシステムであって、操作者の発する音声の音声データを取得する音声取得手段、取得した音声データの音響特徴から当該音声データを発音するための口唇形状を非線形モデルを用いて推定する口唇形状推定手段、口唇形状を形成するための動作指令を発行してから当該口唇形状が形成されるまでにかかる時間情報を示す動作遅延を推定する動作遅延推定手段、音声データの再生を、音声データを取得してから、動作遅延推定手段が推定する最大動作遅延の値よりも大きい値の再生遅延時間経過後に開始する音声再生手段、音声再生手段による再生開始タイミングを基準として、当該再生開始タイミングより前でかつ動作遅延に基づいて動作指令の発行タイミングを設定する動作指令設定手段、および動作指令設定手段によって設定された発行タイミングに従って各動作指令を発行する動作指令発行手段を備える、システムである。
The invention of
請求項1の発明では、システム(10:後述する実施例で相当する参照符号。以下同じ。)は、遠隔操作されるアンドロイド(12)の発話動作、すなわち発話時の口唇を主とした顔面動作を、操作者の発話音声に応じて制御するためのものである。システムは、たとえば、遠隔操作端末(20)とアンドロイドの制御装置(14)を含み、以下のような各手段を備えている。操作者の発話した音声は、音声取得手段(24、70、74、78、S3)によって取得される。音声再生手段(70、80、48、S7、S9)は、取得された音声を一定時間の遅延のもとに再生する。口唇形状推定手段(70、S5、S21−S27)は、取得された音声の音響特徴から口唇形状を非線形モデルを用いて推定する。たとえば、音響特徴としてはMFCC係数が適用され、当該音響特徴が高い変動量を示す時点の前後所定時間の音響特徴を用いて、口唇形状の推定が行われる。また、音声信号と口唇形状との間には非線形な関係が存在するため、ニューラル・ネットワークのような非線形モデルが使用される。動作遅延推定手段(70、S31)は、口唇形状を形成するための動作指令を発行してから実際にアンドロイドのアクチュエータ(40)が駆動して顔面において当該口唇形状が形成されるまでにかかる時間情報を示す動作遅延を推定する。動作指令設定手段(70、S37)は、推定された動作遅延に基づいて、一定遅延で再生される発話音声の再生開始タイミングを基準として、当該動作指令の発行タイミングを設定する。具体的には、或る音声を発する際に形成される口唇形状のための動作指令の発行タイミングは、動作遅延を考慮して、当該形状に対応する音声が出力されるタイミングよりも早められる。動作指令発行手段(70、S39)は、設定された発行タイミングに従って、各動作指令を発行する。 In the first aspect of the invention, the system (10: reference numeral corresponding to an embodiment to be described later, the same applies hereinafter) is a speech operation of an Android (12) that is remotely operated, that is, a facial operation mainly using a lip during speech. Is controlled according to the voice of the operator. The system includes, for example, a remote control terminal (20) and an android control device (14), and includes the following means. The voice uttered by the operator is acquired by the voice acquisition means (24, 70, 74, 78, S3). The sound reproduction means (70, 80, 48, S7, S9) reproduces the acquired sound with a certain time delay. The lip shape estimation means (70, S5, S21-S27) estimates the lip shape from the acquired acoustic features using a nonlinear model. For example, the MFCC coefficient is applied as the acoustic feature, and the lip shape is estimated using the acoustic feature for a predetermined time before and after the time point when the acoustic feature exhibits a high fluctuation amount. Further, since there is a non-linear relationship between the audio signal and the lip shape, a non-linear model such as a neural network is used. The operation delay estimation means (70, S31) takes time from when the operation command for forming the lip shape is issued until the android actuator (40) is actually driven to form the lip shape on the face. Estimate informational operational delay. The operation command setting means (70, S37) sets the issuance timing of the operation command based on the estimated operation delay with reference to the reproduction start timing of the uttered voice reproduced with a certain delay. Specifically, the operation command issuance timing for the lip shape formed when a certain sound is produced is earlier than the timing at which the sound corresponding to the shape is output in consideration of the operation delay. The operation command issuing means (70, S39) issues each operation command in accordance with the set issue timing.
したがって、請求項1の発明によれば、アンドロイドのアクチュエータが駆動されてその顔面において実際に口唇形状が形成されてから、当該口唇形状に対応する音声が出力されることとなる。このように、遠隔操作アンドロイドにおいて、操作者の音声に適合した口唇動作を実現することができる。 Therefore, according to the first aspect of the present invention, after the android actuator is driven and a lip shape is actually formed on the face, sound corresponding to the lip shape is output. As described above, in the remotely operated android, it is possible to realize the lip movement adapted to the voice of the operator.
請求項2の発明は、口唇形状推定手段は、音響特徴の変動量が閾値を超えたかどうか判断する判断手段、および判断手段によって音響特徴の変動量が閾値を超えたと判断したときその時点の前後の音声データを抽出する抽出手段を含み、抽出した音声データに基づいて口唇形状を推定する、請求項1記載のシステムである。
請求項3の発明は、口唇形状推定手段によって推定された所定時間の区間の口唇形状の時系列に基づいて当該区間を通じた動作の簡略化を含む最適化を行う最適化手段をさらに備える、請求項1または2記載のシステムである。
請求項4の発明は、最適化手段による最適化を行った後、最適化した動作に基づいて動作遅延を再度推定する再推定手段をさらに備える、請求項3記載のシステムである。
The invention of claim 2 is characterized in that the lip shape estimation means determines whether or not the variation amount of the acoustic feature exceeds the threshold value, and before and after the time point when the determination means determines that the variation amount of the acoustic feature exceeds the threshold value. 2. The system according to
The invention of
The invention according to claim 4 is the system according to
請求項3の発明では、最適化手段(70、S35)は、所定区間の口唇形状の時系列に基づいて、当該区間における動作の再構成が行われて、当該区間を通じた動作の最適化が行われる。所定区間は、たとえば、複数の音素や単語単位が含まれる程度の時間に設定される。具体的には、当該区間を通して、動作の簡略化、重要音素のみでの提示、動作量の相対化、動作速度の変換などのような変換が試みられる。そして、最適化された口唇動作に含まれる各動作の指令の発行タイミングが設定されて、当該最適化された口唇動作が提示されることとなる。したがって、口唇動作をより自然に見せることや、動作をより素早く行うことなどが可能になる。
In the invention of
この発明によれば、発話音声の再生開始タイミングを基準として、動作指令発行から当該口唇形状を形成するまでにかかる動作遅延を考慮してアクチュエータの動作指令を発行するようにしたので、操作者の発話音声に適合した口唇動作を行うことができる。 According to the present invention, the actuator operation command is issued in consideration of the operation delay from the operation command issuance until the lip shape is formed on the basis of the reproduction start timing of the utterance voice. It is possible to perform the lip movement suitable for the uttered voice.
この発明の上述の目的,その他の目的,特徴および利点は、図面を参照して行う以下の実施例の詳細な説明から一層明らかとなろう。 The above object, other objects, features and advantages of the present invention will become more apparent from the following detailed description of embodiments with reference to the drawings.
図1を参照して、この実施例のアンドロイド制御システム(以下、単に「システム」という。)10は、アンドロイド12を含む。アンドロイド12は、人間に酷似した姿形(外観など)を有する人型ロボットであり、人間に酷似した動作(振り、振る舞い、発話)を行う。アンドロイド12は、制御装置14に接続され、この制御装置14には、環境センサ16が接続される。
Referring to FIG. 1, an Android control system (hereinafter simply referred to as “system”) 10 of this embodiment includes an Android 12. The android 12 is a humanoid robot having a form (appearance or the like) that closely resembles a human, and performs an action (shake, behave, or speak) that resembles a human. The android 12 is connected to a
また、制御装置14は、インターネットや電話通信回線のようなネットワーク18を介して遠隔操作端末20に接続される。遠隔操作端末20は、PC或いはPDAのような汎用のコンピュータであり、この遠隔操作端末20には、スピーカ22、マイク24およびモニタ26が接続される。図示は省略するが、当然のことながら、遠隔操作端末20には、キーボードおよびコンピュータマウスのような入力装置が含まれる。また、遠隔操作端末20の動作を制御するためのプログラムおよびデータは、その図示しないメモリに記憶されており、図示しないCPUによって遠隔操作端末20の全体的な動作が制御される。
The
図2は、アンドロイド12、制御装置14および環境センサ16の電気的な構成を示すブロック図である。この図2を参照して、アンドロイド12は複数のアクチュエータ(たとえば、エアアクチュエータ)40を含み、各アクチュエータ40は、制御装置14(14b)の制御ボード(アクチュエータ制御ボード)98に接続される。アクチュエータ40は、アンドロイド12の身体動作を提示するために設けられる。いくつかのアクチュエータ40はアンドロイド12の口唇を主とした顔面動作を行うために用いられる。たとえば、上顎、下顎、上唇、下唇、口の左右の側面(頬)などの動きのためのアクチュエータ40がそれぞれ設けられる。また、他のアクチュエータ40は、アンドロイド12の各関節や眼および腹部などその他の部位または部分を動かすために用いられる。ただし、簡単のため、この実施例では、コンプレッサは省略してある。
FIG. 2 is a block diagram showing an electrical configuration of the android 12, the
また、アンドロイド12は、触覚センサ42、眼カメラ44、衝突センサ46、スピーカ48およびマイク50を含む。この触覚センサ42、眼カメラ44および衝突センサ46は、制御装置14(14b)のセンサ入出力ボード100に接続される。
The android 12 includes a
触覚センサ42ないし皮膚センサは、たとえばタッチセンサであり、アンドロイド12の触覚の一部を構成する。つまり、触覚センサ42は、人間や他の物体等がアンドロイド12に触れたか否かを検出するために用いられる。触覚センサ42からの出力(検出データ)は、センサ入出力ボード100を介してMPU90に与えられる。MPU90は、触覚センサ42からの検出データを第1コンピュータ14aのCPU70に送信する。したがって、CPU70は、人間や他の物体等がアンドロイド12に触れたことを検出することができる。ただし、触覚センサ42としては、圧力センサを用いることもできる。かかる場合には、人間や他の物体等がアンドロイド12の肌に触れたか否かのみならず、その触れ方(強弱)を知ることができる。
The
眼カメラ44は、イメージセンサであり、アンドロイド12の視覚の一部を構成する。つまり、眼カメラ44は、アンドロイド12の眼から見た映像ないし画像を検出するために用いられる。この実施例では、眼カメラ44の撮影映像(動画ないし静止画)に対応するデータ(画像データ)は、センサ入出力ボード100を介してMPU90に与えられる。MPU90は、画像データを第1コンピュータ14aのCPU70に送信し、CPU70は、撮影映像の変化を検出するのみならず、その画像データを、ネットワーク18を介して遠隔操作端末20に送信する。そして、遠隔操作端末20は、受信した画像データをモニタ26に出力する。したがって、眼カメラ44の撮影映像がモニタ26に表示される。
The
衝突センサ46は、人間や他の物体等がアンドロイド12に衝突したか否かを判断する。衝突センサ46の出力(検出データ)は、センサ入出力ボード100を介してMPU90に与えられる。MPU90は、衝突センサ46からの検出データを第1コンピュータ14aのCPU70に送信する。したがって、CPU70は、人間や他の物体等がアンドロイド12に衝突したことを検出することができる。
The
また、スピーカ48およびマイク50は、制御装置14(14a)の音声入出力ボード80に接続される。スピーカ48は、アンドロイド12が発話を行う際に音声を出力する。遠隔操作端末20の操作者ないしオペレータ(以下、「遠隔オペレータ」という。)が直接発話を行う場合、当該音声が出力される。具体的には、遠隔オペレータがマイク24を通して発話すると、対応する音声データが遠隔操作端末20からネットワーク18を介して制御装置14a(CPU70)に与えられる。そして、CPU70は、その音声データを、音声入出力ボード80を介してスピーカ48から出力する。なお、予めプログラミングされた所定の動作を行う場合には、スピーカ48からは合成音声が出力される。
The
マイク50は、音センサであり、アンドロイド12の聴覚の一部を構成する。このマイク50は、指向性を有し、主として、アンドロイド12と対話(コミュニケーション)する人間(ユーザ)の音声を検出するために用いられる。
The
制御装置14は、第1コンピュータ14aおよび第2コンピュータ14bによって構成される。たとえば、第1コンピュータ14aがメインのコンピュータであり、第2コンピュータ14bがサブのコンピュータである。なお、この実施例では、制御装置14を2台のコンピュータ(14a,14b)で構成するようにしてあるが、処理能力が高ければ、1台のコンピュータで構成することもできる。
The
第1コンピュータ14aは、CPU70を含み、CPU70には内部バス72を介してメモリ74、通信ボード76、LANボード78、音声入出力ボード80およびセンサ入出力ボード82が接続される。メモリ74は、たとえば、ハードディスク装置(HDD)のような主記憶装置、ROMおよびRAMを含む。詳細な説明は省略するが、このメモリ74には、制御装置14の全体の動作を制御するためのプログラムおよびデータが記憶されており、特にたとえば、アンドロイド12の動作についてのコマンド名に対応して、そのコマンド名が示す動作を実行するための制御情報が記憶されている。
The
ここで、動作とは、振り、振る舞いのような身体動作および発話動作をいう。したがって、この実施例では、制御情報は、アクチュエータ40を駆動制御するための制御データのみならず、必要に応じて、発話内容についての合成音声の音声データを含む。ただし、身体動作には、自然の動作(無意識動作)も含まれる。無意識動作の代表的な例としては、瞬きや呼吸が該当する。また、このような生理的な動作のみならず、人間の癖による動作も無意識動作に含まれる。たとえば、癖による動作としては、たとえば、髪の毛を触る動作、顔を触る動作や爪を噛む動作などが該当する。
Here, the movement refers to a body movement such as swinging and behavior and a speech movement. Therefore, in this embodiment, the control information includes not only the control data for driving and controlling the
このような動作は、アンドロイド12が外部(環境)からの刺激に対応して実行されたり、遠隔オペレータからの命令(遠隔操作命令)に従って実行されたりする。
Such an operation is executed by the
図2に戻って、通信ボード76は、他のコンピュータ(この実施例では、第2コンピュータ14b)とデータ通信するためのインターフェイスである。たとえば、通信ボード76は、後述する第2コンピュータ14bの通信ボード96と、RS232Cのようなケーブル(図示せず)を用いて接続される。LANボード78は、ネットワーク18を介して他のコンピュータ(この実施例では、遠隔操作端末20)とデータ通信するためのインターフェイスである。この実施例では、LANボード78は、LANケーブル(図示せず)を用いて接続される。
Returning to FIG. 2, the
なお、この実施例では、各コンピュータがケーブルを用いた有線のネットワークを構成するように説明してあるが、これに限定される必要はなく、無線のネットワークを構成するようにしてもよく、有線と無線とが混在するネットワークを構成するようにしてもよい。 In this embodiment, each computer is described as configuring a wired network using a cable. However, the present invention is not limited to this, and a wireless network may be configured. And a wireless network may be configured.
音声入出力ボード80は、音声を入力および出力するためのインターフェイスであり、上述したように、アンドロイド12のスピーカ48およびマイク50が接続される。この音声入出力ボード80は、CPU70によって与えられた音声データを音声信号に変換して、スピーカ48に出力する。また、音声入出力ボード80は、マイク50を通して入力された音声信号を音声データに変換して、CPU70に与える。
The voice input /
なお、詳細な説明は省略するが、制御装置14aは、音声認識機能を備える。したがって、たとえば、人間がアンドロイド12に対して発話した内容はマイク50を通して入力されると、CPU70は、DPマッチングや隠れマルコフ法により、人間の発話内容を音声認識するのである。ただし、音声認識用の辞書データはメモリ74に記憶されているものとする。
Although a detailed description is omitted, the
センサ入出力ボード82は、各種センサからの出力をCPU70に与え、制御データを各種センサに出力するためのインターフェイスである。この実施例では、センサ入出力ボード82には、環境センサ16が接続され、環境センサ16は、全方位カメラ60、PTZカメラ62およびフロアセンサ64を含む。
The sensor input /
全方位カメラ60は、アンドロイド12が配置される部屋ないし場所(区画)に設置され、当該部屋ないし場所の全体(360度)を撮影することができる。全方位カメラ60の撮影映像に対応する画像データは、CPU70に与えられる。CPU70は、画像データに基づいて撮影映像の変化を検出するのみならず、その画像データを遠隔操作端末20に送信する。遠隔操作端末20は、受信した画像データをモニタ26に出力する。したがって、全方位カメラ60の撮影映像がモニタ26に表示される。
The
PTZカメラ62は、オペレータの指示に従って、パン(Pan)、チルト(Tilt)およびズーム(Zoom)の各々を制御(調整)することができるカメラである。たとえば、遠隔オペレータが、パン、チルト、ズームの指示を入力すると、対応する制御信号(コマンド)が遠隔操作端末20からネットワーク18を介して第1コンピュータ14aに与えられる。すると、第1コンピュータ14aのCPU70は、そのコマンドに従ってPTZカメラ62を駆動制御する。PTZカメラ62の撮影映像に対応する画像データもまた、CPU70に与えられる。CPU70は、画像データに基づいて撮影映像の変化を検出するのみならず、その画像データを遠隔操作端末20に送信する。遠隔操作端末20は、受信した画像データをモニタ26に出力する。したがって、PTZカメラ62の撮影映像もモニタ26に表示される。
The
なお、この実施例では、眼カメラ44,全方位カメラ60およびPTZカメラ62の撮影画像が、遠隔操作端末20に接続されるモニタ26に画面を分割されて表示される。したがって、遠隔オペレータはモニタ26を見て、アンドロイド12の視線の映像やアンドロイド12の周囲の状況を知ることができる。
In this embodiment, the captured images of the
フロアセンサ64ないし床圧力センサは、図示は省略するが、多数の検出素子(感圧センサ)を含み、この多数の検出素子はアンドロイド12が配置される部屋ないし場所の床に埋め込まれる(敷き詰められる)。したがって、フロアセンサ64からの出力に基づいて、アンドロイド12の周囲に人間が存在するか否か、存在する人間の人数、アンドロイド12から見た人間の方向、アンドロイド12と人間との距離などを知ることができる。
Although not shown, the
第2コンピュータ14bは、MPU90を含み、MPU90には、内部バス92を介して、メモリ94、通信ボード96、制御ボード98およびセンサ入出力ボード100が接続される。
The
メモリ94は、HDD、ROMおよびRAMを含み、メモリ94には、制御装置14bの動作を制御するためのプログラムおよびデータが記憶されている。通信ボード96は、他のコンピュータ(この実施例では、第1コンピュータ14a)とデータ通信するためのインターフェイスである。制御ボード98は、制御対象としての複数のアクチュエータ40を制御するための制御データを出力するとともに、各アクチュエータ40からの角度情報(回転角度,曲げ角度)を入力するためのインターフェイスである。したがって、MPU90は複数のアクチュエータ40をフィードバック制御することができる。ただし、MPU90は、第1コンピュータ14aのCPU70からの動作指令(制御データ)に従って各アクチュエータ40を駆動制御する。
The
センサ入出力ボード100は、各種センサからの出力をMPU90に与え、MPU90からの制御データを各種センサに出力するためのインターフェイスである。このセンサ入出力ボード100には、上述したように、触覚センサ42、眼カメラ44および衝突センサ46が接続される。
The sensor input /
なお、この実施例では、アンドロイド12とは別に制御装置14を設けるようにしてあるが、制御装置14を含めてアンドロイドと呼んでもよい。さらには、環境センサ16も含めてアンドロイドと呼んでもよい。
In this embodiment, the
また、アンドロイド12の遠隔地にオペレータが存在することを想定して制御装置14と遠隔操作端末20とをネットワーク18を介して接続しているが、オペレータがアンドロイド12の存在する場所やその近傍に存在するような場合には、遠隔操作端末20をネットワーク18を介さずに制御装置14に直接接続することも可能である。
In addition, the
アンドロイド12は、或る会社や或るイベント会場などに配置され、人間の代役として働くことができる。たとえば、アンドロイド12は、会社やイベント会場の受付や案内役として機能し、訪問者に応対する。アンドロイド12は、アンドロイド12や環境センサ16のセンサ群(42、44、46、50、60、62、64)によって検出される外部刺激に応じて所定の対応動作を実行する。状況に応じてアンドロイド12が実行すべき(実行可能な)動作、すなわちCPU70が指示するべき制御情報は予め決定されており、その内容はメモリ74に記憶されている。
The
ただし、センサ群の反応に応じた対応動作がメモリ74に記憶されていない場合や外部からの刺激を認識できない場合などのように、アンドロイド12が刺激に対して対応動作を実行することができない場合には、アンドロイド12は遠隔オペレータを呼び出す。つまり、制御装置14(CPU70)は、アンドロイド12が対応できない旨の情報を遠隔操作端末20に通知する。たとえば、アンドロイド12が人間の質問(発話内容)を理解(音声認識)できない場合には、呼び出された遠隔オペレータが人間の質問を理解し、遠隔操作によって、アンドロイド12の動作を制御する。
However, when the corresponding action according to the sensor group response is not stored in the
また、上述したように、眼カメラ44、全方位カメラ60およびPTZカメラ62の撮影映像が遠隔操作端末20のモニタ26に表示されるため、遠隔オペレータは、その撮影映像等によりアンドロイド12が存在する近傍、周囲およびアンドロイド12と対話する人間の様子を知ることができる。したがって、遠隔オペレータは、アンドロイド12(制御装置14)からの呼び出しが無くても、必要に応じて遠隔操作し、アンドロイド12に命令動作を実行させることもできる。
Further, as described above, since the captured images of the
遠隔オペレータは、所定の合成音声の出力を指示する代わりに、マイク24に発話することによって、自身の発話音声をアンドロイド12のスピーカ48から出力して、人間と直接対話することができる。つまり、遠隔オペレータが発話すると、マイク24で検出された音声入力に対応する音声データが取得され、当該音声データが遠隔操作端末20からネットワーク18を介して制御装置14に与えられ、アンドロイド12のスピーカ48から出力される。
Instead of instructing the output of the predetermined synthesized voice, the remote operator can speak directly to the person by outputting his / her voice from the
なお、アンドロイド12と対話する人間が発話したときには、その音声はアンドロイド12のマイク50を通して入力され、対応する音声データが制御装置14からネットワーク18を介して遠隔操作端末20に送信され、スピーカ22から出力される。
When a person interacting with the
アンドロイド12は、人間に酷似した姿形を有して人間の動作に酷似した動作を行うロボットであるから、遠隔オペレータの発話音声を出力する際に、たとえば口を動かさなかったり単に音声に関係なく口を動かしたりするだけでは人間に強い違和感を与えてしまう。したがって、このアンドロイド12では、出力される遠隔オペレータの発話音声に合わせてその口唇を主とした顔面を動作させる。
Since the
このシステム10の動作を図3および図4に示すフロー図を参照しながら説明する。図3には、制御装置14の発話処理の動作の一例が示される。制御装置14aのCPU70は、この発話処理を一定時間ごとに繰り返し実行する。
The operation of the
図3のステップS1では、音声データを受信したか否かを判断する。遠隔オペレータが発話したとき、遠隔操作端末20からマイク24で取得された発話音声の音声データが送信されてくるので、この音声データをネットワーク18を介して受信したか否かが判断される。なお、遠隔操作端末20は、発話音声を所定のサンプリングレート(たとえば8kHz)で音声データとして取得し、取得した音声データを所定のパケット長(たとえば20ms)で一定時間ごとに送信する。
In step S1 of FIG. 3, it is determined whether audio data has been received. When the remote operator speaks, the voice data of the utterance voice acquired by the
ステップS1で“YES”であれば、ステップS3で、音声記憶処理を開始する。音声記憶処理はCPU70によって他の処理と並列的に実行される。この音声記憶処理によって、受信される音声データが順次メモリ74に記憶される。音声記憶処理は、発話音声が検出されなくなって音声データが受信されなくなったときに終了される。
If “YES” in the step S1, the voice storing process is started in a step S3. The voice storage process is executed by the
続いて、ステップS5で、口唇動作制御処理を開始する。口唇動作制御処理はCPU70によって他の処理と並列的に実行される。この口唇動作制御処理では、取得された発話音声の解析が行われて、当該音声に基づいて口唇動作が制御される。口唇動作制御処理の動作の一例は後述する図4に示される。
Subsequently, in step S5, the lip movement control process is started. The lip movement control process is executed by the
ステップS7では、音声取得から一定時間経過したか否かを判断する。この実施例では、取得した発話音声を一定量の遅延のもとに再生するようにしているので、この判定によって、音声データの取得(受信)から一定時間の経過を待つ。 In step S7, it is determined whether or not a predetermined time has elapsed since the voice acquisition. In this embodiment, since the acquired uttered voice is reproduced with a certain amount of delay, the determination waits for a certain period of time from the acquisition (reception) of the voice data.
ステップS7で“YES”であれば、ステップS9で、音声再生処理を開始する。音声再生処理はCPU70によって他の処理と並列的に実行される。この音声再生処理では、取得された音声データがメモリ74から読み出されて音声入出力ボード80に与えられ、これによって、アンドロイド12のスピーカ48から当該音声が出力される。音声再生処理は、取得した音声データをすべて再生し終わったときに終了される。
If “YES” in the step S7, the sound reproduction process is started in a step S9. The audio reproduction process is executed by the
なお、ステップS1で“NO”の場合、つまり、発話が行われていないときには、そのまま図3の発話処理を終了する。 If “NO” in the step S1, that is, if the utterance is not performed, the utterance process of FIG. 3 is ended as it is.
ステップS5で開始される口唇動作制御処理の動作の一例を図4を参照して説明する。まず、ステップS21で、音響特徴の変動量を抽出する。 An example of the operation of the lip motion control process started in step S5 will be described with reference to FIG. First, in step S21, the fluctuation amount of the acoustic feature is extracted.
アンドロイド12のような物体の場合、画像のようにフレームごとに口唇形状を制御することは困難である。従って、まず、遠隔オペレータの音声の周波数やケプストラムの解析を行い、音響特徴の変動が高い位置を検出する。音響特徴の変動量は、たとえば、ある時刻における前後所定時間(たとえば20ms程度)のフレームのパラメータ(たとえばMFCC)の平均二乗誤差として算出される。なお、音声信号から取得する音響特徴としては、LPC−Cepstral係数、MFCC係数、LSP係数、フォルマント周波数、およびF0(基本周波数)、RMS(Root Mean Square)などが挙げられる。フォルマント周波数と口唇形状には、母音の場合、直感的な関係があるが、精度のよい自動検出は難しいので、この実施例では、音声認識で多く使用されるMFCC係数を用いる。
In the case of an object such as
次に、ステップS23で、この変動量(MFCC平均二乗誤差など)が閾値を超えたか否かを判断する。実験によって、音素の変化を表す程度に、この変動量に閾値を設定しておく。閾値を超えた変動量のピーク位置がアンドロイド12の動作指令発行時点を決める際の基礎となる。
Next, in step S23, it is determined whether or not the fluctuation amount (MFCC mean square error or the like) exceeds a threshold value. By experiment, a threshold value is set for this variation so as to represent a change in phonemes. The peak position of the fluctuation amount exceeding the threshold is the basis for determining the operation command issuance time point of the
ステップS23で“NO”の場合、処理はステップS21へ戻り、次の時刻を基点とする音声データについて処理を繰り返す。 If “NO” in the step S23, the process returns to the step S21, and the process is repeated for the audio data having the next time as a base point.
一方、ステップS23で“YES”の場合、ステップS25で、音響特徴の高い変動量が検出された時点の前後所定時間(たとえば100ms程度)の音声から音響特徴(たとえばMFCC)を抽出し、ステップS27で、非線形モデルを用いて口唇形状の推定を行う。推定の手法として、線形回帰分析、ニューラル・ネットワーク、HMM、KNNなどが挙げられる。また、一度音素情報を認識して、その音素における口唇形状をマッピングする手法があるが、音素認識の精度はあまり高くないので、音響特徴から口唇形状の直接マッピングの方が効率がよいと考えられる。また、音響特徴と口唇形状の間には非線形な関係があるので、ニューラル・ネットワークのような非線形なモデルを用いる。なお、そのためには、予め収録したビデオデータまたはモーションキャプチャによる口唇形状のデータベースによってモデル学習を行っておき、メモリ74にモデル学習による非線形マッピングのための情報を記憶しておく。
On the other hand, if “YES” in the step S23, an acoustic feature (for example, MFCC) is extracted from a sound for a predetermined time (for example, about 100 ms) before and after the time when a high variation amount of the acoustic feature is detected in a step S25, and the step S27. Then, the lip shape is estimated using a non-linear model. Examples of the estimation method include linear regression analysis, neural network, HMM, and KNN. In addition, there is a method of recognizing phoneme information once and mapping the lip shape in the phoneme, but since the accuracy of phoneme recognition is not so high, direct mapping of the lip shape is considered to be more efficient from the acoustic features . In addition, since there is a non-linear relationship between acoustic features and lip shape, a non-linear model such as a neural network is used. For this purpose, model learning is performed by using prerecorded video data or a lip shape database by motion capture, and information for nonlinear mapping by model learning is stored in the
続いて、ステップS29で、推定された口唇形状を形成するための制御情報を設定し、ステップS31で動作遅延を推定する。具体的には、アンドロイド12のアクチュエータ40の制御情報に関しては、アクチュエータ制御の静的特徴と動的特徴を考慮する。つまり、静的特徴としては、特定の口唇形状に近づけるためのアンドロイド12のアクチュエータ40の制御情報を予め手動的に取得しておき、口唇形状と制御情報とを対応付けたデータベースをメモリ74に記憶しておく。また、動的特徴としては、特定の形状をターゲットとして口唇を動かした際に、指令を発行した時点からアンドロイド12が実際にターゲットの形状に辿りつくまでにかかる時間(これを動作遅延と呼ぶ。)を実験により取得しておき、制御情報(口唇形状)と動作遅延とを対応付けたデータベースをメモリ74に記憶しておく。後述のステップS37では、この動作遅延の情報を基に、音声と同期を取るために、動作指令を送る時点が早められたり遅くされたりする。
Subsequently, control information for forming the estimated lip shape is set in step S29, and an operation delay is estimated in step S31. Specifically, regarding the control information of the
なお、この動作遅延の情報を基にして、音声再生開始までの遅延時間が決められる。つまり、上述のように、この実施例では、音声は常に一定遅延で再生されるようにするので、この再生遅延時間を、最大の動作遅延の値よりも大きい値に設定しておく。 Note that the delay time until the start of audio reproduction is determined based on the information on the operation delay. That is, as described above, in this embodiment, since the sound is always reproduced with a constant delay, the reproduction delay time is set to a value larger than the maximum operation delay value.
ステップS33では、所定時間の推定を行ったか否かを判断する。この実施例では、音響特徴を抽出した範囲よりも広い範囲、たとえば複数の音素や単語単位で、口唇動作の再構成をすることを想定しているので、このステップS33の判定を行う。ステップS33で“NO”の場合、ステップS21に戻って処理を繰り返す。 In step S33, it is determined whether or not a predetermined time has been estimated. In this embodiment, since it is assumed that the lip movement is reconstructed in a range wider than the range from which the acoustic features are extracted, for example, a plurality of phonemes or words, the determination in step S33 is performed. If “NO” in the step S33, the process returns to the step S21 to repeat the process.
ステップS33で“YES”であれば、ステップS35で、上述の所定時間の区間を通じた口唇動作の最適化処理を行う。つまり、比較的短い期間の音声に関して、ステップS21やステップS25の処理を行い、これらの音声を束ねたより長い区間を通じて動作の最適化を試みる。推定された口唇形状は完全にはアンドロイド12では再現できない場合もあるため、推定された口唇形状の時系列を元に、この口唇動作の変換を行う。たとえば、以下のような変換が考えられる。
(a)動作の簡略化:一部の部位のみを動かす。動作に応じて使用される部位が異なり、また、音や動作によって特に強調されるべき部位が異なるので、省略可能な部位の動作は省略する。たとえば、音や動作に応じて、顎の関節、唇の前後方向の動き、または口の側面の動きなど、最も特徴的な動きのみになるように変換する。
(b)重要音素のみでの提示:イントネーションなどを考慮し、音素系列のうち強調され目立つ動作のみを行う。たとえば、韻律特徴(ピッチや強さなど)を用いて、ピッチが高く、パワーが強く、長めに発声された音節を強調されたものとみなす。
(c)動作量の相対化:動きの存在だけを提示し、動きの量は追随させないようにする。たとえば、指定されたアクチュエータ40の動きの大きさを元々の指定通りに設定するのではなく、より少ない動きで同等な効果が得られると判断される場合には、少しだけの動きに留めるように動作量を変更する。これによって、より自然な動作を見せることができ、素早く動作を行うことができる。また、動きを目立たせるため、時間的に連続する同じ部位の動作を抑制または増幅する。たとえば、動作の大きさを1−5段階で表す(5=大きい)場合、単一のアクチュエータ40について、3→5→3という動作系列が実行されるが「3」の部分はそれほど重要ではないとき、1→3→1や0→3→0などに置き換える。相対的な動きの度合いのみが、見る者には重要であることが多いため、このような置換を実行しても、同じように見せることが可能になる。このように、前後の動作も含めて一定期間の動作に抑制または増幅を施すことによって、動作を素早く行うことが可能になるとともに、場合によっては、より強調したい部分を見せるなど、より強い効果を見る者に与えることができる。
(d)動作速度の変換:特定の音声が発せられる時点で、口唇形状はその最大変化を示している方がより自然に見えるため、素早くその目的形状を形成する。
If “YES” in the step S33, the lip movement optimizing process is performed in the above-described predetermined time section in a step S35. That is, with respect to the voice of a relatively short period, the processing of step S21 and step S25 is performed, and the optimization of the operation is attempted through a longer section in which these voices are bundled. Since the estimated lip shape may not be completely reproduced by the
(A) Simplification of operation: Move only some parts. The parts to be used differ depending on the operation, and the parts to be particularly emphasized differ depending on the sound and the action, and therefore the operations of the parts that can be omitted are omitted. For example, conversion is performed so that only the most characteristic movements such as the chin joint, the movement of the lips in the front-rear direction, or the movement of the side of the mouth are performed according to the sound and movement.
(B) Presentation with only important phonemes: Considering intonation and the like, only the highlighted and conspicuous actions are performed. For example, using prosodic features (pitch, strength, etc.), syllables with a high pitch, strong power, and long utterances are considered emphasized.
(C) Relativity of motion amount: Only the presence of motion is presented and the amount of motion is not allowed to follow. For example, instead of setting the magnitude of the movement of the designated
(D) Conversion of motion speed: When a specific voice is emitted, the lip shape looks more natural when it shows its maximum change, so it quickly forms its target shape.
なお、この最適化処理では、遅延なども考慮して、可能な限り簡素な動作に変換するようにするのが望ましいが、より自然に見せるためには多からず少なからぬ口唇動作が必要であり、実験によってパラメータを適宜に設定する。なお、発話された音声によっては最適化が行われない場合もあり得る。 In this optimization process, it is desirable to convert the operation to the simplest possible, taking into account delays, etc., but in order to make it appear more natural, not a few lip movements are necessary. The parameters are appropriately set by experiment. Note that optimization may not be performed depending on the spoken voice.
また、必要に応じて、ステップS35では、最適化を行った後に、ステップS31の各動作の動作遅延の推定をやり直して、最適化された動作に適切な遅延を取得するようにしてよい。特に動作の増幅が行われる場合、動作遅延の再推定は必要である。また、動作の抑制や速度変換が行われる場合には、動作遅延の再推定によって、特定形状への動作完了から当該音声の発話までをより素早くまたはより適切なタイミングで行うことができる。 If necessary, in step S35, after performing optimization, the operation delay of each operation in step S31 may be reestimated to obtain an appropriate delay for the optimized operation. Especially when the operation is amplified, it is necessary to re-estimate the operation delay. In addition, when motion suppression or speed conversion is performed, from the completion of the motion to the specific shape to the speech of the speech can be performed more quickly or at a more appropriate timing by re-estimating the motion delay.
なお、他の実施例では、ステップS31の処理は、ステップS35の後に実行するようにしてもよい。また、その他の実施例では、ステップS33およびステップS35の処理は省略されてもよい。つまり、推定された口唇形状をそのまま提示するようにしてもよい。 In another embodiment, the process of step S31 may be executed after step S35. In other embodiments, the processes of step S33 and step S35 may be omitted. That is, the estimated lip shape may be presented as it is.
続いて、ステップS37で、動作遅延に基づいて、音声再生開始タイミングを基準として、各動作指令の発行タイミングを設定する。つまり、特定の口唇形状を形成するための動作指令の発行タイミングは、当該音声との同期をとるために、当該推定遅延に基づいて音声再生開始タイミングを基準として設定される。基本的には、動作指令の発行タイミングは、当該口唇形状に対応する音声の再生時点よりも早められる。発話を終えて口を閉じる動作の場合はこの限りではなく、遅くされる場合もあり得る。 Subsequently, in step S37, the issuance timing of each operation command is set based on the operation delay with reference to the audio reproduction start timing. That is, the operation command issuance timing for forming a specific lip shape is set based on the audio reproduction start timing based on the estimated delay in order to synchronize with the audio. Basically, the operation command issuance timing is earlier than the playback time of the sound corresponding to the lip shape. This is not the case when the mouth is closed and the mouth is closed, and it may be delayed.
そして、ステップS39で、動作指令発行処理を開始する。動作指令発行処理はCPU70によって他の処理と並列的に実行される。この動作指令発行処理では、各動作指令の発行タイミングになったと判断されたときに、当該動作指令が発行される。具体的には、CPU70は、アクチュエータ制御情報を含む動作指令を通信ボード76に出力して制御装置14bのMPU90に与える。これに応じて、MPU90は制御ボード98に制御情報を与え、これによって、制御情報において指定されたアクチュエータ40が駆動され、アンドロイド12の顔面において、制御情報に対応する口唇形状が形成されることとなる。上述のように、発行タイミングには各口唇形状を形成する際の動作遅延が考慮されているので、当該口唇形状が実際にアンドロイド12の顔面において形成されてから、当該口唇形状に対応する音声が出力される。また、音声の出力が終わってから当該音声に対応する口唇形状が変えられる。なお、動作指令発行処理は、すべての動作指令の発行が完了したと判断されたときに終了される。
In step S39, the operation command issuing process is started. The operation command issuing process is executed by the
ステップS41では、未処理の音声データが残っているか否かを判断し、“YES”であれば、ステップS21に戻って処理を繰り返す。このようにして、アンドロイド12においては、遠隔オペレータの発話音声が当該音声に適合した口唇動作を伴って出力される。一方、ステップS41で“NO”であれば、この口唇動作制御処理を終了する。 In step S41, it is determined whether or not unprocessed audio data remains. If “YES”, the process returns to step S21 to repeat the process. In this way, in the android 12, the utterance voice of the remote operator is output with the lip movement adapted to the voice. On the other hand, if “NO” in the step S41, the lip movement control process is ended.
この実施例によれば、遠隔オペレータの発話音声の音響特徴から非線形モデルを用いて口唇形状を推定し、発話音声の再生開始タイミングを基準として当該口唇形状を形成するまでにかかる動作遅延を考慮してアクチュエータ40の動作指令の発行タイミングを設定するようにしたので、アンドロイド12において遠隔オペレータの発話音声に適合させた口唇動作を実現することができる。したがって、アンドロイド12の応対する人間に対して違和感を与えることなく、自然な対話を行うことができる。
According to this embodiment, the lip shape is estimated using the nonlinear model from the acoustic characteristics of the utterance voice of the remote operator, and the operation delay required until the lip shape is formed with reference to the reproduction start timing of the utterance voice is considered. Thus, the issuance timing of the operation command of the
なお、上述の実施例では、制御装置14で発話処理を実行する場合を説明したが、他の実施例では、遠隔操作端末20が発話処理を実行して、制御装置14に対して動作指令を送信するようにしてもよい。つまり、たとえば、図3において、ステップS1でマイク24で音声を検出したか否かを判定する。さらにステップS7で音声の取得(検出)から一定時間経過したことが判定されたときには、ステップS9で音声データを含む再生指示を制御装置14に対して送信する。制御装置14では、この再生指示の受信に応じて、当該音声を出力する。また、遠隔操作端末20では、図4のステップS39で開始される動作指令発行処理で、制御装置14に対して制御情報を含む各動作指令を送信する。制御装置14では、この動作指令の受信に応じて、当該動作指令に含まれる制御情報に従ってアクチュエータ40を制御する。
In the above embodiment, the case where the utterance process is executed by the
また、上述の各実施例では、遠隔オペレータの発話音声のみに基づいて、口唇形状を推定するようにしているが、他の実施例では、発話音声と画像処理とを組み合わせて口唇形状を推定するようにしてもよい。つまり、遠隔操作端末20にカメラを設けて、発話する遠隔オペレータの顔を撮影し、当該撮影画像に画像処理を施すことによって、口唇形状を検出する。そして、発話音声から推定した口唇形状と撮影画像から推定した口唇形状とに基づいて、最終的な口唇形状の推定を行う。これによって、口唇形状の推定の精度を高めることができる。あるいは、その他の実施例では、発話音声とモーションキャプチャとを組み合わせて口唇形状を推定するようにしてもよい。つまり、遠隔操作端末20にモーションキャプチャシステムを組み合わせる。具体的には、遠隔オペレータの顔面の適宜な位置にマーカを取り付けるとともに、複数のカメラを設ける。そして、発話する遠隔オペレータの顔を撮影し、当該撮影画像に基づいて当該マーカの3次元位置を計測して、各マーカの位置に基づいて口唇形状を検出する。そして、発話音声から推定した口唇形状と3次元位置から推定した口唇形状とに基づいて、最終的な口唇形状の推定を行う。これによっても、口唇形状の推定の精度をよくすることができる。
In each of the above-described embodiments, the lip shape is estimated based only on the utterance voice of the remote operator. In other embodiments, the lip shape is estimated by combining the utterance voice and image processing. You may do it. That is, the
10 …アンドロイド制御システム
12 …アンドロイド
14 …制御装置
20 …遠隔操作端末
22,48 …スピーカ
24,50 …マイク
40 …アクチュエータ
70 …CPU
74,94 …メモリ
80 …音声入出力ボード
90 …MPU
98 …制御ボード
DESCRIPTION OF
74, 94 ...
98… Control board
Claims (4)
前記操作者の発する音声の音声データを取得する音声取得手段、
取得した音声データの音響特徴から当該音声データを発音するための口唇形状を非線形モデルを用いて推定する口唇形状推定手段、
前記口唇形状を形成するための動作指令を発行してから当該口唇形状が形成されるまでにかかる時間情報を示す動作遅延を推定する動作遅延推定手段、
音声データの再生を、前記音声データを取得してから、動作遅延推定手段が推定する最大動作遅延の値よりも大きい値の再生遅延時間経過後に開始する音声再生手段、
前記音声再生手段による再生開始タイミングを基準として、当該再生開始タイミングより前でかつ前記動作遅延に基づいて前記動作指令の発行タイミングを設定する動作指令設定手段、および
前記動作指令設定手段によって設定された発行タイミングに従って各動作指令を発行する動作指令発行手段を備える、システム。 A system for controlling an utterance operation of an Android remotely operated by an operator according to the utterance voice of the operator,
Voice acquisition means for acquiring voice data of the voice emitted by the operator;
Lip shape estimating means for estimating a lip shape for generating the voice data from the acoustic features of the acquired voice data using a non-linear model;
An operation delay estimating means for estimating an operation delay indicating time information taken from when an operation command for forming the lip shape is issued until the lip shape is formed;
Audio reproduction means for starting reproduction of audio data after the acquisition of the audio data and after the elapse of a reproduction delay time value larger than the value of the maximum operation delay estimated by the operation delay estimation means;
The operation command setting means for setting the issue timing of the operation command before the reproduction start timing and based on the operation delay with reference to the reproduction start timing by the audio reproduction means, and set by the operation command setting means A system comprising operation command issuing means for issuing each operation command according to an issue timing.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006197112A JP5055486B2 (en) | 2006-07-19 | 2006-07-19 | Remote operation android utterance control system |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2006197112A JP5055486B2 (en) | 2006-07-19 | 2006-07-19 | Remote operation android utterance control system |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2008026485A JP2008026485A (en) | 2008-02-07 |
| JP5055486B2 true JP5055486B2 (en) | 2012-10-24 |
Family
ID=39117197
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2006197112A Active JP5055486B2 (en) | 2006-07-19 | 2006-07-19 | Remote operation android utterance control system |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5055486B2 (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103744503A (en) * | 2014-01-08 | 2014-04-23 | 广州市久邦数码科技有限公司 | Method and system for prohibiting automatic running of applications after boot |
Families Citing this family (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN102012832B (en) * | 2010-12-14 | 2013-06-19 | Tcl集团股份有限公司 | Method and device for accelerating starting Android system |
| JP6267846B2 (en) * | 2016-03-31 | 2018-01-24 | Cocoro Sb株式会社 | Customer service control system, customer service system and program |
| CN106570461A (en) * | 2016-10-21 | 2017-04-19 | 哈尔滨工业大学深圳研究生院 | Video frame image extraction method and system based on lip movement identification |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2003248841A (en) * | 2001-12-20 | 2003-09-05 | Matsushita Electric Ind Co Ltd | Virtual video intercom |
| JP3930389B2 (en) * | 2002-07-08 | 2007-06-13 | 三菱重工業株式会社 | Motion program generation device and robot during robot utterance |
| JP2005266671A (en) * | 2004-03-22 | 2005-09-29 | Yamaha Corp | Robot and voice reproduction method |
| JP4026621B2 (en) * | 2004-06-22 | 2007-12-26 | セイコーエプソン株式会社 | Communication support system, communication terminal, operation control data storage terminal, terminal program, and communication support method |
-
2006
- 2006-07-19 JP JP2006197112A patent/JP5055486B2/en active Active
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN103744503A (en) * | 2014-01-08 | 2014-04-23 | 广州市久邦数码科技有限公司 | Method and system for prohibiting automatic running of applications after boot |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2008026485A (en) | 2008-02-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4296714B2 (en) | Robot control apparatus, robot control method, recording medium, and program | |
| Ishi et al. | Evaluation of formant-based lip motion generation in tele-operated humanoid robots | |
| JP2002268699A (en) | Speech synthesis apparatus, speech synthesis method, program and recording medium | |
| JP6583815B2 (en) | Android robot control system, apparatus, program and method | |
| JP3895758B2 (en) | Speech synthesizer | |
| JP4667082B2 (en) | Speech recognition method | |
| JP2001188779A (en) | Information processing apparatus and method, and recording medium | |
| WO2002082423A1 (en) | Word sequence output device | |
| JP5055486B2 (en) | Remote operation android utterance control system | |
| Ishi et al. | Speech-driven lip motion generation for tele-operated humanoid robots | |
| JP4599606B2 (en) | Head motion learning device, head motion synthesis device, and computer program for automatic head motion generation | |
| JP4011844B2 (en) | Translation apparatus, translation method and medium | |
| JP6701483B2 (en) | Control system, device, program and method for android robot | |
| JP2002268663A (en) | Speech synthesis apparatus, speech synthesis method, program and recording medium | |
| JP4381404B2 (en) | Speech synthesis system, speech synthesis method, speech synthesis program | |
| Ishi et al. | Evaluation of a formant-based speech-driven lip motion generation. | |
| JP4656354B2 (en) | Audio processing apparatus, audio processing method, and recording medium | |
| Rajavel et al. | Optimum integration weight for decision fusion audio–visual speech recognition | |
| JP2001188783A (en) | Device and method for processing information and recording medium | |
| JP5750636B2 (en) | Lip movement parameter generation device and computer program | |
| JP2004139049A (en) | Speaker normalization method and speech recognition device using the same | |
| JP7616290B2 (en) | Robot, response method and program | |
| JPH04359299A (en) | Image deformation method based on voice signal | |
| JP4735965B2 (en) | Remote communication system | |
| JP4742415B2 (en) | Robot control apparatus, robot control method, and recording medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090617 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111227 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120224 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120313 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120510 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120529 |
|
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120601 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150810 Year of fee payment: 3 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 5055486 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |