JP7446178B2 - Behavior control device, behavior control method, and program - Google Patents
Behavior control device, behavior control method, and program Download PDFInfo
- Publication number
- JP7446178B2 JP7446178B2 JP2020132962A JP2020132962A JP7446178B2 JP 7446178 B2 JP7446178 B2 JP 7446178B2 JP 2020132962 A JP2020132962 A JP 2020132962A JP 2020132962 A JP2020132962 A JP 2020132962A JP 7446178 B2 JP7446178 B2 JP 7446178B2
- Authority
- JP
- Japan
- Prior art keywords
- agent
- reward
- action
- learning
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Manipulator (AREA)
Description
本発明は、行動制御装置、行動制御方法、およびプログラムに関する。 The present invention relates to a behavior control device, a behavior control method, and a program.
今日、スマートスピーカーやコミュニケーションロボットの開発が進められている。このようなシステムでは、指示に応じて、照明をオン状態またはオフ状態にする、カレンダーにアクセスする、メールを読む、予定を設定するなどの機能に焦点を当てられている。このようなシステムでは、指示の入力が、例えばタッチパネルによる選択、音声による定められているコマンド等に限られており、人との関係を構築することが困難である。 Today, smart speakers and communication robots are being developed. Such systems focus on functions such as turning lights on or off, accessing calendars, reading email, and setting appointments based on commands. In such a system, the input of instructions is limited to, for example, selection using a touch panel or predetermined voice commands, making it difficult to build relationships with people.
このため、人との関係を持てるシステムが望まれている。例えば特許文献1には、コンパニオンデバイスと人と対話に対して、人をデバイスとの対話や操作に関わらせるシステムが提案されている。特許文献1に記載の技術では、コンパニオンデバイスが、利用者との発話や行動を検出して、移動、グラフィック、音、光、芳香を通して表現し、親交的存在を提供する。
For this reason, a system that allows for relationships with people is desired. For example,
そして、ロボットは、人間が住んでいる環境で動作するため、ロボットがより有用になるためには、ロボットと人間とが自然な相互作用を介して一般の人から素早く学習できることが求められている。人間の評価フィードバックからの強化学習は、技術者以外の人がロボットに仕事を教えるのを容易にすることができる。デモンストレーションからの学習は、評価的フィードバックよりも高速な学習につながることが多い。 And since robots operate in environments where humans live, in order for robots to become more useful, they need to be able to quickly learn from ordinary people through natural interactions between robots and humans. . Reinforcement learning from human evaluation feedback can make it easier for non-technical people to teach robots to do tasks. Learning from demonstration often leads to faster learning than evaluative feedback.
しかしながら、従来の人間の評価フィードバックからの学習では、ロボットが試行錯誤しながら学習するため、ロボットの学習が危険であったり、コストが高くなったりする可能性がある。また、従来のロボットのデモンストレーションからの学習では,訓練者の性能に制限があるのに対し,人間の報酬からの学習では,一般的に訓練者の性能を上回ることがある。このため、従来の技術では、ロボットと人間との相互作用を介しての学習が困難であった。 However, in conventional learning based on human evaluation feedback, the robot learns through trial and error, which can make the robot's learning dangerous and expensive. Furthermore, while learning from conventional robot demonstrations limits the trainee's performance, learning from human rewards can generally exceed the trainee's performance. For this reason, with conventional technology, it has been difficult to learn through interaction between robots and humans.
本発明は、上記の問題点に鑑みてなされたものであって、装置と人間との相互作用を介して自律的に学習することができる行動制御装置、行動制御方法、およびプログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and provides a behavior control device, a behavior control method, and a program that can autonomously learn through interaction between the device and a human. With the goal.
(1)上記目的を達成するため、本発明の一態様に係る行動制御装置は、デモンストレーションされた結果に基づいて、逆強化学習によって報酬関数を生成する学習部と、前記報酬関数と、人と環境からフィードバックされた情報に基づいて、行動を選択するエージェントと、を備える。 (1) In order to achieve the above object, a behavior control device according to one aspect of the present invention includes a learning unit that generates a reward function by inverse reinforcement learning based on a demonstrated result, a learning unit that generates a reward function, and a human An agent that selects an action based on information fed back from the environment.
(2)また、本発明の一態様に係る行動制御装置において、前記エージェントは、行動の修正を前記学習部によって学習された報酬関数によって行い、前記人と環境からフィードバックされた情報に基づいて、予測報酬モデルを学習するようにしてもよい。 (2) Furthermore, in the behavior control device according to one aspect of the present invention, the agent corrects the behavior using a reward function learned by the learning unit, and based on information fed back from the person and the environment, A predictive reward model may be learned.
(3)また、本発明の一態様に係る行動制御装置において、前記エージェントは、報酬学習管理部と、割当評価部と、行動選択部と、を備え、前記割当評価部は、前記人からのフィードバックと前記環境からのフィードバックに基づいて、前回選択した行動の確率を算出し、状態と行動と前回選択した行動の確率と教師付き学習サンプルとし、前記報酬学習管理部は、前記学習部が生成した前記報酬関数を取得し、前記割当評価部が出力する前記教師付き学習サンプルを取得し、前記予測報酬モデルを学習して、学習された前記予測報酬モデルを用いて前記報酬関数を更新し、前記行動選択部は、前記人と前記環境からフィードバックされた情報と、前記報酬学習管理部によって、前記行動を選択するようにしてもよい。 (3) Furthermore, in the behavior control device according to one aspect of the present invention, the agent includes a reward learning management unit, an allocation evaluation unit, and a behavior selection unit, and the allocation evaluation unit is configured to receive information from the person. Based on the feedback and feedback from the environment, the probability of the previously selected action is calculated, and the state, action, probability of the previously selected action, and supervised learning sample are calculated, and the reward learning management unit calculates the probability of the previously selected action, and the reward learning management unit calculates the probability of the previously selected action obtaining the supervised learning sample output by the allocation evaluation unit, learning the predictive reward model, and updating the reward function using the learned predictive reward model; The behavior selection unit may select the behavior based on information fed back from the person and the environment and the reward learning management unit.
(4)また、本発明の一態様に係る行動制御装置において、前記エージェントは、自装置の現在の向きにおいて、人の音声方向、人の顔の向き、人の体の向き、当該自装置の向きで表される環境の状態を推定し、最も報酬予測値が大きな報酬関数を持つ行動を選択することで、当該自装置が注目する人物に顔を向ける行動を選択するようにしてもよい。 (4) In the behavior control device according to one aspect of the present invention, the agent may detect the direction of the person's voice, the direction of the person's face, the direction of the person's body, and the direction of the person's body in the current orientation of the device. By estimating the state of the environment represented by the orientation and selecting the action with the reward function with the largest predicted reward value, the action in which the device turns its face toward the person of interest may be selected.
(5)また、本発明の一態様に係る行動制御装置において、前記報酬学習管理部は、計算された確率h^と、状態-行動ペアを教師付き学習サンプルとして使用し、最小二乗の勾配に基づいて、次式を用いてパラメータを更新することでインタラクション体験で受け取る人の報酬の期待値を近似した関数R^H(s,a)を学習し、
(6)上記目的を達成するため、本発明の一態様に係る行動制御方法は、学習部が、デモンストレーションされた結果に基づいて、逆強化学習によって報酬関数を生成し、エージェントが、前記報酬関数と、人と環境からフィードバックされた情報に基づいて、行動を選択する。 (6) In order to achieve the above object, in the behavior control method according to one aspect of the present invention, the learning unit generates a reward function by inverse reinforcement learning based on the demonstrated result, and the agent generates a reward function using the reward function. and choose actions based on information fed back from people and the environment.
(7)上記目的を達成するため、本発明の一態様に係るプログラムは、コンピュータに、デモンストレーションされた結果に基づいて、逆強化学習によって報酬関数を生成させ、生成された前記報酬関数と、人と環境からフィードバックされた情報に基づいて、行動を選択させる。 (7) In order to achieve the above object, a program according to one aspect of the present invention causes a computer to generate a reward function by inverse reinforcement learning based on the demonstrated result, and combines the generated reward function with a human and the behavior is selected based on information fed back from the environment.
(1)~(7)によれば、装置と人間との相互作用を介して自律的に学習することができる。(1)~(7)によれば、ロボットが人間によって提供されるデモンストレーションと評価フィードバックから学ぶことを可能にし、最適な動作を得るために必要な人間の評価の数、特に間違いの数(期待されていない行動)を減らすことができる。 According to (1) to (7), autonomous learning is possible through interaction between the device and a human. According to (1) to (7), the robot can learn from the demonstration and evaluation feedback provided by humans, and the number of human evaluations needed to obtain optimal behavior, especially the number of errors (expected). actions that are not performed) can be reduced.
以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の説明に用いる図面では、各部材を認識可能な大きさとするため、各部材の縮尺を適宜変更している。 Embodiments of the present invention will be described below with reference to the drawings. Note that in the drawings used in the following explanation, the scale of each member is changed as appropriate in order to make each member a recognizable size.
<概要>
図1は、本実施形態に係るロボット1による自律的な学習方法の概略を示す図である。なお、以下の実施形態では、ロボット1が、自律的に人間の顔向きを学習して、学習した結果に基づいて行動する例を説明する。ロボット1は、後述するように、例えば前面に撮影部とマイクロホンアレイである収音部を備えている。ロボット1は、撮影部と収音部とが取得した情報を状態として、人間の顔、音声、体の向きを検出する。ロボット1は、その状態を基に学習モデルを用いて行動する。利用者は、ロボット1の顔の向きを観察し、報酬(評価フィードバック)とデモンストレーション(顔の向き、発話、表情等)を提供して、望ましい行動を教える。
<Summary>
FIG. 1 is a diagram schematically showing an autonomous learning method by a
図1の例では、ロボット1が利用者に対して「どこを見たらいいか?」と発話する。人間Huは、ロボット1の発話に応じて、見る方向に顔を向ける等のデモンストレーションを行う。ロボット1は、人間Huの行動を観察する。学習モデルは、人間Huの顔、音声、体の向きを検出し、検出された結果をロボット1の発話に対する行動として学習する。また、学習モデルは、検出された行動を入力として、動作を出力する。ロボット1は、学習モデルが出力する動作指示に応じて、例えばロボット1の顔の向きを変える。この動作を、学習モデルは、さらに学習する。なお、以下の例では、行動制御装置をロボット1に適用する例を説明するが、適用対象は、ロボット1に限らない。
In the example of FIG. 1, the
<ロボット1の構成例>
次に、ロボット1の構成例を説明する。
図2は、本実施形態に係るロボット1の構成例を示すブロック図である。図2のように、ロボット1は、操作部101、撮影部102、センサ103、収音部104、行動制御装置100、記憶部106、データベース107、表示部111、スピーカー112、アクチュエータ113、およびロボットセンサ115を備えている。
<Configuration example of
Next, a configuration example of the
FIG. 2 is a block diagram showing a configuration example of the
行動制御装置100は、認知部105(認知手段)、およびエージェント300を備える。
エージェント300は、学習部301(逆強化学習部)、報酬学習管理部302、割当評価部303、および行動選択部304を備えている。
行動選択部304は、画像生成部3041、音声生成部3042、駆動部3043、および出力部3044を備えている。
The
The
The
<ロボット1の機能、動作>
次に、ロボット1の各機能部の機能、動作について、図2を参照して説明する。
<Function and operation of
Next, the functions and operations of each functional section of the
操作部101は、例えばキーボードである。操作部101は、利用者によって操作された操作結果を検出し、検出した操作結果を認知部105に出力する。
The
撮影部102は、例えばCMOS(Complementary Metal Oxide Semiconductor;相補性金属酸化膜半導体)撮影素子、またはCCD(Charge Coupled Device;電荷結合素子)撮影素子等である。撮影部102は、撮影した画像(静止画、連続した静止画、動画)を認知部105に出力する。なお、ロボット1は、撮影部102を複数備えていてもよい。この場合、撮影部102は、例えばロボット1の筐体の前方と後方に取り付けられていてもよい。
The
センサ103は、例えば、後述するように利用者のジェスチャー等の動きを検出するモーションセンサである。センサ103は、検出した検出値を認知部105に出力する。
The
収音部104は、例えば複数のマイクロホンで構成されるマイクロホンアレイである。収音部104は、複数のマイクロホンが収音した音響信号を認知部105に出力する。なお、収音部104は、マイクロホンが収音した音響信号それぞれを、同じサンプリング信号でサンプリングされて、アナログ信号からデジタル信号に変換した後、認知部105に出力するようにしてもよい。
The
ロボットセンサ115は、ロボット1の頭部や筐体の傾きを検出するジャイロセンサ、ロボット1の頭部や筐体の動きを検出する加速度センサ等である。ロボットセンサ115は、検出した検出値を認知部105に出力する。
The
記憶部106は、例えば、認知部105が認識すべき項目、認識の際に用いられる各種値(しきい値、定数)、認識を行うためのアルゴリズム等を記憶する。
The
データベース107は、例えば、音声認識の際に用いられる言語モデルデータベースと音響モデルデータベースと対話コーパスデータベースと音響特徴量、画像認識の際に用いられる比較用画像データベースと画像特徴量、等を格納する。なお、各データ、特徴量については後述する。なお、データベース107は、クラウド上に置かれていてもよく、ネットワークを介して接続されていてもよい。
The
認知部105は、撮影された画像から利用者の顔の画像を抽出し、周知の手法を用いて利用者の表情を認知することで、利用者の感情を認識する。認知部105は、センサ103によって取得された検出値に基づいて、周知の手法を用いて利用者の動きをトラッキングすることで、利用者のジェスチャーを認識する。認知部105は、操作結果に基づいて、操作された内容を認識する。認知部105は、収音された音響信号から利用者の音声信号に対して音声認識処理を行うことで、利用者の音声方向の認識を行う。認知部105は、ロボットセンサ115が検出した検出値に基づいて、ロボット1の各部の向きや状態等を検出する。認知部105は、取得された情報に基づいて、後述するように利用者の音声の向き。利用者の顔の向き、利用者の体の向き、およびロボット1の顔の向きを検出する。認知部105は、検出、認知、認識した結果の情報をエージェント300に出力する。
The
エージェント300は、認知部105から検出、認知、認識した結果の情報を取得する。エージェント300は、生成された報酬関数と、取得した情報(人と環境からフィードバックされた情報)を用いてエージェントを生成し、生成したエージェントを用いて行動(発話、仕草、画像出力、出力)を生成する。また、エージェント300は、行動の修正を学習部301によって学習された報酬関数によって行い、人と環境からフィードバックされた情報に基づいて、予測報酬モデルを学習する。エージェント300は、自装置の現在の向きにおいて、人の音声方向、人の顔の向き、人の体の向き、当該自装置の向きで表される環境の状態を推定し、最も報酬予測値が大きな報酬関数を持つ行動を選択することで、当該自装置が注目する人物に顔(頭部)を向ける行動を選択する。なお、以下の説明において、エージェントが選択する行動は、利用者が期待する方向にロボットの顔を向ける行動であるが、選択する行動はこれに限らない。
The
学習部301は、認知部105が出力する検出、認知、認識した結果の情報を用いて学習しエージェントを生成する。また、学習部301は、デモンストレーションされた結果に基づいて、逆強化学習によって報酬関数を生成する。なお、学習方法については後述する。
The
報酬学習管理部302は、学習部301が生成した報酬関数を取得し、割当評価部303が出力する教師付き学習サンプルを取得し、予測報酬モデルを学習して、学習された予測報酬モデルを用いて報酬関数を更新する。
The reward
割当評価部303は、人からのフィードバックと環境からのフィードバックに基づいて、前回選択した行動の確率を算出し、状態と行動と前回選択した行動の確率と教師付き学習サンプルとする。
The
行動選択部304は、人と環境からフィードバックされた情報と、報酬学習管理部302によって、行動を選択する。選択される行動は、画像出力、音声出力、頭部または筐体の駆動等のうつ少なくとも1つの行動である。なお、実施形態では、ロボット1の顔(頭部)の向きを変える行動を例に説明する。
The
画像生成部3041は、学習された結果と、取得された情報とに基づいて、表示部111に表示させる出力画像(静止画、連続した静止画、または動画)を生成し、生成した出力画像を表示部111に表示させる。
The
音声生成部3042は、学習された結果と、取得された情報とに基づいて、スピーカー112に出力させる出力音声信号を生成し、生成した出力音声信号をスピーカー112に出力させる。
The
駆動部3043は、学習された結果と、取得された情報とに基づいて、アクチュエータ113を駆動するための駆動信号を生成し、生成した駆動信号でアクチュエータ113を駆動する。
The
出力部3044は、学習された結果と、取得された情報とに基づいて、例えば指示等を生成し、生成した指示を外部装置2に出力する。外部装置2は、例えばパーソナルコンピュータ、ゲーム装置、タブレット端末等である。
The
表示部111は、液晶画像表示装置、または有機EL(Electro Luminescence)画像表示装置等である。表示部111は、画像生成部3041が出力する出力画像を表示する。
The
スピーカー112は、音声生成部3042が出力する出力音声信号を出力する。
The
アクチュエータ113は、駆動部3043が出力する駆動信号に応じて動作部を駆動する。
The
<ロボット1の外形例>
次に、ロボット1の外形例を説明する。
図3は、本実施形態に係るロボット1の外形例を示す図である。図3の正面図g101、側面図g102の例では、ロボット1は3つの表示部111(111a、111b、111c)を備えている。また図3の例では、撮影部102aは表示部111aの上部に取り付けられ、撮影部102bは表示部111bの上部に取り付けられている。表示部111a、111bは、人の目に相当し、かつ画像情報を提示する。スピーカー112は、筐体120の人の口に相当する画像を表示する表示部111cの近傍に取り付けられている。収音部104は、筐体120に取り付けられている。
<Example of external shape of
Next, an example of the external shape of the
FIG. 3 is a diagram showing an example of the external shape of the
また、ロボット1は、ブーム121を備える。ブーム121は、筐体120に可動部131を介して可動可能に取り付けられている。ブーム121には、水平バー122が可動部132を介して回転可能に取り付けられている。
また、水平バー122には、表示部111aが可動部133を介して回転可能に取り付けられ、表示部111bが可動部134を介して回転可能に取り付けられている。
なお、図3に示したロボット1の外形は一例であり、これに限らない。例えば、ロボット1は、二足歩行型ロボットであってもよい。
The
Furthermore, the
Note that the outer shape of the
<ロボットと人間との顔角度>
ここで、ロボットと利用者との顔角度について説明する。
図4は、ロボット1と利用者との顔角度の定義を説明するための図である。
実施形態で用いる状態表現は、4つの特徴量から構成される。4つの特徴量は、利用者Huの音声方向、利用者Huの顔の向き、利用者Huの体の向き、およびロボット1の顔の向きである。
<Face angle between robot and human>
Here, the face angle between the robot and the user will be explained.
FIG. 4 is a diagram for explaining the definition of the face angle between the
The state expression used in the embodiment is composed of four feature quantities. The four feature quantities are user Hu's voice direction, user Hu's face direction, user Hu's body direction, and
符号g151が示す領域の図は、利用者Huの音声方向を説明するための図である。第1の特徴量は、利用者Huの音声方向αa(角度範囲は[-π,π])である。利用者Huの音声方向αaは、ロボット1の正面方向αに対する利用者Huの音声方向aの角度である。なお、音声方向は、例えば音声認識処理によって検出する。
The diagram of the area indicated by the symbol g151 is a diagram for explaining the voice direction of the user Hu. The first feature amount is the user Hu's voice direction α a (angular range is [-π, π]). The user Hu's voice direction α a is the angle of the user Hu's voice direction a with respect to the front direction α of the
符号g161が示す領域の図は、利用者Huの顔の向きを説明するための図である。第2の特徴量は、利用者Huの顔の向きαf(角度範囲は[-π,π])である。利用者Huの顔の向きαfは、ロボット1の正面方向αに対する利用者Huの顔の向きfの角度である。なお、利用者Huの顔の向きは、例えば画像処理によって検出する。この特徴量は、利用者Huの音声方向の特徴を補強するために使用される。
The diagram of the area indicated by the symbol g161 is a diagram for explaining the direction of the user Hu's face. The second feature amount is the orientation α f of the user Hu's face (the angular range is [-π, π]). The user Hu's face direction α f is the angle of the user Hu's face direction f with respect to the front direction α of the
符号g171が示す領域の図は、利用者Huの体の向きを説明するための図である。第3の特徴量は、利用者Huの顔の向きαb(角度範囲は[-π,π])である。利用者Huの体の向きαbは、ロボット1の正面方向αに対する利用者Huの体の向きbの角度である。なお、利用者Huの顔の向きは、例えば画像処理によって検出する。この特徴量は、利用者Huの音声方向や顔の方向の特徴量を補完するために使用される。
The diagram of the area indicated by the symbol g171 is a diagram for explaining the orientation of the user Hu's body. The third feature amount is the orientation α b of the user Hu's face (the angular range is [-π, π]). The user Hu's body orientation α b is the angle of the user Hu's body orientation b with respect to the front direction α of the
符号g181が示す領域の図は、ロボット1の顔の向きを説明するための図である。第4の特徴量は、ロボット1の顔の向きθc(角度範囲は[-π,π])である。ロボット1の顔の向きθcは、ロボット1の顔の向きから人物の位置方向までの角度である。ロボット1の顔の向きθcは、動作指示に基づいて行動制御装置100が取得する。
The diagram of the area indicated by the symbol g181 is a diagram for explaining the direction of the face of the
ロボット1の行動は、ロボット1が実行しうる角度コマンドのリストとすることができる。実施形態では、図5のように、ロボット1の顔の向きの行動が傾くためのアクションセット[-φa,0,φa]を使用する。なお、φaは、次数の小さな正の角度である。図5は、本実施形態に係るロボット1のアクションセットを説明するための図である。
The actions of the
ロボット1がφaコマンドを選択した場合は、ロボット1が現在の顔の向きから角度φa分を左側に移動させることを意味する。ロボット1が-φaコマンドを選択した場合は、ロボット1が現在の顔の向きから角度ψa分を右側に移動させることを意味する。ロボット1が0コマンドを選択した場合は、ロボット1が現在の顔の向きにとどまることを意味する。
When the
このロボット1の顔の動きに対する利用者の評価フィードバックについて説明する。本実施形態では、ロボット1が利用者Huの評価フィードバックから学習している間に、利用者Huはロボット1の行動の評価を音声で返信として伝え、それを数値の報酬値にマッピングする。
The user's evaluation feedback regarding the facial movements of the
ここで、実施形態で用いるフィードバックのセットを定義する。実施形態では、“かなり良い”、“良い”、“悪い”、“かなり悪い”というフィードバックを定義し、それぞれ+2、+1、-1、-2にマッピングする。例えば、利用者Huがロボット1の選択した行動が正しいと思った場合、利用者Huは「良い」と答え、これは+1にマッピングされる。また、ロボット1が選択した動作がより高品質であると利用者Huが考えている場合、利用者Huは「かなり良い」と答え、これは+2にマッピングされる。
Here, we define a set of feedback used in the embodiment. In the embodiment, feedbacks such as "fairly good", "good", "bad", and "fairly bad" are defined and mapped to +2, +1, -1, and -2, respectively. For example, if the user Hu thinks that the action selected by the
<対話型強化学習>
まず、対話型強化学習の概略を説明する。
標準的な強化学習では、エージェントが環境と相互作用して、逐次的な意思決定タスクの実行方法を学習する。この逐次決定タスクは、マルコフ決定プロセスとしてモデル化され、{S,A,T,R,γ}と呼ばれる。SとAは、それぞれ可能な状態と行動の集合である。Tは遷移関数T:S×A×S→R(実数全体の集合)であり、状態stと行動のもとで状態st+1に遷移する確率を与える。γは、将来受け取る報酬の現在価値を決定するもので、割引率と呼ばれる。Rは、報酬関数であり、T:S×A×S→R(実数全体の集合)である。報酬は、st,atとst+1の関数、またはst,atのみの関数である。エージェントの学習には、通常2つの関連する値関数がある。
<Interactive reinforcement learning>
First, an overview of interactive reinforcement learning will be explained.
In standard reinforcement learning, an agent interacts with its environment to learn how to perform sequential decision-making tasks. This sequential decision task is modeled as a Markov decision process and is called {S, A, T, R, γ}. S and A are sets of possible states and actions, respectively. T is a transition function T: S×A×S→R (set of all real numbers), which gives the probability of transitioning to state s t+1 under state s t and action. γ determines the present value of future rewards and is called the discount rate. R is a reward function and is T:S×A×S→R (set of all real numbers). The reward is a function of s t , at and s t +1 or only s t , at. For agent learning, there are typically two relevant value functions.
第1の値関数は、状態値関数Vπ(s)であり、次式(1)のように政策πの下でのエージェントの初期状態sにのみ関連している。 The first value function is the state value function V π (s), which is related only to the initial state s of the agent under the policy π as shown in equation (1) below.
第2の値関数は、状態・行動ペアの値Qπ(s,a)と呼ばれる行動・値関数であり、次式(2)の状態sで行動aをとった後の期待リターンである。 The second value function is an action/value function called the state/action pair value Q π (s, a), and is the expected return after taking action a in state s in the following equation (2).
対話型強化学習は、標準的な強化学習の変形である。対話型強化学習では、報酬信号が世界の状態とエージェントの行動に基づくだけでなく、人間のトレーナー(以下、単にトレーナーという)とのリアルタイムの相互作用にも依存する。この場合、トレーナーは、明確な目標状態を提供することによって報酬信号の値を変化させるか、または連続的なプロセスで連続的に対話することができる。対話型強化学習では、図6のように、エージェントがある状態で行動を起こすたびに、トレーナーは、トレーナーの経験に基づいて、選択された行動の質をエージェントに伝える評価フィードバックを提供する。図6は、対話型強化学習のフレームワークを説明するための図である。 Interactive reinforcement learning is a variation of standard reinforcement learning. In interactive reinforcement learning, the reward signal is not only based on the state of the world and the agent's actions, but also on real-time interaction with a human trainer. In this case, the trainer can change the value of the reward signal by providing a clear goal state, or interact continuously in a continuous process. In interactive reinforcement learning, as shown in Figure 6, each time an agent performs an action in a state, the trainer provides evaluation feedback that tells the agent the quality of the selected action based on the trainer's experience. FIG. 6 is a diagram for explaining the framework of interactive reinforcement learning.
<学習フレームワーク>
これに対して、本実施形態では、TAMER(Training an Agent Manually via Evaluative Reinforcement)フレームワークを元にしたエージェントを使用する。TAMERフレームワークは、人間の報酬を直接モデル化することで近視眼的(myopically)に学習するアプローチである。ここで、「近視眼的」とは、エージェントが即時報酬のみを考慮に入れること、すなわち、割引係数γを0に設定することを意味する。
<Learning framework>
In contrast, this embodiment uses an agent based on the TAMER (Training an Agent Manually via Evaluative Reinforcement) framework. The TAMER framework is an approach that myopically learns by directly modeling human rewards. Here, "myopic" means that the agent only takes immediate rewards into account, ie, sets the discount factor γ to zero.
図7のように、学習メカニズムは、人間、環境、TAMERエージェントの相互作用である。そして、TAMERフレームワークでは、人間の教師がエージェントの行動を観察し、その質の評価に基づいて報酬を与える。
まず、図7を用いて、学習フレームワークの概略を説明する。図7は、本実施形態に係るIRL-TAMERフレームワークの概略を示す図である。本実施形態で用いるIRL-TAMERは、人間の実演から逆強化学習(IRL;Inverse Reinforcement Learning)によって学習し、人間の報酬からTAMERで学習する。IRL-TAMERは、図7のように2つのアルゴリズムから構成されており、以下の順に実行される。
As shown in Figure 7, the learning mechanism is the interaction of humans, the environment, and the TAMER agent. In the TAMER framework, a human teacher observes the agent's behavior and rewards it based on its quality assessment.
First, an outline of the learning framework will be explained using FIG. 7. FIG. 7 is a diagram schematically showing the IRL-TAMER framework according to this embodiment. IRL-TAMER used in this embodiment learns from human performance using inverse reinforcement learning (IRL), and learns from human rewards using TAMER. IRL-TAMER consists of two algorithms as shown in FIG. 7, and is executed in the following order.
・手順1:IRLは、訓練者によって提供されたデモンストレーションから報酬関数を学習する(左側のブロック201)。手順1では、デモンステーションからの逆強化学習を行う。なお、このブロックの処理は、学習部301が行う。
- Step 1: The IRL learns the reward function from the demonstration provided by the trainer (block 201 on the left). In
・手順2:TAMERは人間の評価フィードバックから予測報酬モデルを学習する(右側のブロック311)。手順2では、TAMERエージェントが評価フィードバックから学習する。なお、このブロック311の処理は、エージェント300が行う。
- Step 2: TAMER learns a predictive reward model from human rating feedback (block 311 on the right). In
<手順1;IRLアルゴリズム>
次に、手順1のアルゴリズムについて説明する。
人間の教師は、状態と行動のペアのシーケンスのデモンストレーションを行う。状態と行動のペアは、{(s0,a0),…,(sn,an)}を含む。ここで、(s0,a0)は、開始時の状態と行動を示す。(sn,an)は、終了時の状態と行動を示す。なお、ロボット1に対して動作を行うのは、トレーナーとは異なる他の人である。そして、ロボット1は、実演を記録する。ここで,状態sは、上述した4つの特徴量(人の音声方向αa、顔の向きαf、体の向きαb、ロボットの顔の向きθc)を特徴変数で表す。また、アクションは、アクションセット[-φa,0,φa]の中の1つである。
<
Next, the algorithm of
A human teacher demonstrates a sequence of state-action pairs. The state and action pairs include {(s 0 , a 0 ), ..., (s n , a n )}. Here, (s 0 , a 0 ) indicates the state and behavior at the beginning. (s n , a n ) indicates the state and action at the end. Note that the person who performs the motion on the
IRLアルゴリズム211によって、記録されたデモンストレーションは、逆強化学習モジュールに報酬関数R=ω・φ(s)(212)として与えられる。ここでωは、パラメータ重みベクトルであり、φ(s)はIRLの状態上の基底特徴のベクトルである。
The
デモンストレーションからIRLアルゴリズム211を介して学習した報酬関数Rは、TAMERの報酬関数RHの重みベクトルwの初期化に使用される。これにより、人間の評価フィードバックhを用いて、訓練者がロボット1の動作を微調整することができる。
The reward function R learned from the demonstration via the
<手順2;TAMERエージェントの学習アルゴリズム>
次に、手順2のTAMERエージェントの学習アルゴリズムについて説明する。図7のようにエージェント300は、報酬学習管理部302、割当評価部303、および行動選択部304を含む。
<
Next, the learning algorithm of the TAMER agent in
まず、TAMERを用いたエージェント300(以下、TAMERエージェント300ともいう)の処理の概略を説明する。
TAMERエージェント300は、ロボット1の現在の顔の向きθcにおいて、人(人間Hu)の音声方向αa、人の顔の向きαf、人の体の向きαb、ロボットの顔の向きθcで表される環境の状態sを推定する。そして、TAMERエージェント300は、行動選択部304を用いて報酬関数RH(s,a)を持つ行動a(角度指令)を選択する。
なお、行動選択部304は、人間の報酬予測値が最も大きいアクションを選択することで、ロボット1の即時行動による人間Huの報酬を最大化する。
First, an outline of the processing of the agent 300 (hereinafter also referred to as TAMER agent 300) using TAMER will be explained.
The
Note that the
トレーナー(人間Hu)は、ロボット1の状態sと選択された動作φaを観察し(環境312)、その品質を評価してフィードバックする。割当評価部303は、このようにフィードバックされた評価hを取得する。
The trainer (human Hu) observes the state s of the
割当評価部303は、トレーナーから与えられた評価フィードバックhを受け取り、前回選択した行動の確率(クレジット)hを計算する。割当評価部303は、ロボット1の行動を評価して報酬を与えることに起因する人間の報酬の時間的な遅れに対処するために使用される。割当評価部303は、人の報酬の予測モデルR^Hを学習され、{S,A,T,R^H,γ}として指定されたMDP(マルコフ決定過程)内でエージェントに報酬を提供する。
The
具体的には、割当評価部303は、インタラクション体験で受け取る人の報酬の期待値を近似した関数R^H(s,a)を、次式(3)を用いて学習する。なお、Sは環境中の状態の集合であり、Aはエージェント300が実行できる行動の集合である。
Specifically, the
式(3)において、ここで、ω→=(ω0,…,ωm-1)Tは列パラメータベクトルであり、φi(x→)を基底関数とするφ(x→)=(φ0(x→),…,φm-1(x→))Tであり、mはi=0,…,m-1でありパラメータの総数である。 In equation (3), here, ω → = (ω 0 , ..., ω m-1 ) T is a column parameter vector, and φ (x → ) = (φ 0 (x → ), ..., φ m-1 (x → )) T , where m is i=0, ..., m-1 and is the total number of parameters.
TAMERエージェント300は、人間ユーザの報酬関数を学習し、argmaxaR^H(s,a)により人間の報酬を最大化しようとする。TAMERエージェントでは、最適な政策は人間ユーザによって定義される。
人間の報酬から学ぶ他の手法と比較して、TAMERには、以下のような3つの工夫がある。
The
Compared to other methods of learning from human rewards, TAMER has the following three features.
I.TAMERでは、人間の評価の遅れに対応するために、単位の割り当てを行っている。
II.TAMERエージェントは、人間の報酬モデル(R^H)を学習する。
III.各時間ステップにおいて、TAMERエージェントは、将来の状態への影響を考慮せずに、最大の報酬を直接引き出すと予測される行動(argmaxaR^H(s,a))を選択する。
I. In TAMER, units are assigned to accommodate delays in human evaluation.
II. The TAMER agent learns a human reward model (R^H).
III. At each time step, the TAMER agent chooses the action (argmaxaR^ H (s,a)) that is predicted to directly derive the maximum reward, without considering the effects on future states.
具体的には、人間がエージェントの行動を観察するとき、人間の脳は対応するフィードバック信号を出すために一定の反応時間を必要とする。しかし、この間、エージェントは、すでに新しい探索を開始している可能性があり、人間のフィードバックに多少の遅れを生じさせる。この問題を解決するために、エージェントは、サンプル毎の状態行動ペアのラベルに貢献する複数の最近の状態行動ペアに、それぞれの人間の報酬信号を分配する必要がある。TAMERでは、確立された回帰アルゴリズムRH:S×A→Rを用いて、仮想的な人間の報酬関数をシミュレートしている。なお、TAMERフレームワークには、人間の報酬関数を近似するための特定のモデルや教師付き学習アルゴリズムは含まれておらず、すべての決定が例えば設計者によって行われる。また、AMERフレームワークでは、状態-行動サンプルのラベルは。すべて人間の報酬で構成されている。さらに、状態sの下で行動選択が行われるとき、TAMERエージェントは戦略a=argmaxaR^H(s,a)を直接採用する。このような近視眼的学習は、割引係数γ=0で強化学習を行うことに相当する。 Specifically, when a human observes an agent's behavior, the human brain requires a certain reaction time to issue a corresponding feedback signal. However, during this time, the agent may have already started a new exploration, causing some delay in human feedback. To solve this problem, the agent needs to distribute each human reward signal to multiple recent state-action pairs that contribute to the label of the state-action pair for each sample. TAMER uses the established regression algorithm R H :S×A→R to simulate a hypothetical human reward function. Note that the TAMER framework does not include any specific models or supervised learning algorithms for approximating the human reward function; all decisions are made, for example, by the designer. Also, in the AMER framework, the label for a state-behavior sample is . Everything is made up of human rewards. Furthermore, when an action selection is made under state s, the TAMER agent directly adopts the strategy a=argmaxaR^ H (s, a). Such myopic learning corresponds to performing reinforcement learning with a discount coefficient γ=0.
TAMERのフレームワークでは、エージェントの役割が本質的にやや不特定である。それは、測定することができないタスクのパフォーマンスを最大化するように、人間の報酬から学習しなければならないからである。
このため、実施形態では、エージェントがトレーナーの報酬のモデルを学習し、そのモデルが予測する行動が最も多くの報酬に直結することを選択することで、エージェントがその役割を最もよく果たすという仮説を立てた。
In the TAMER framework, the role of agents is somewhat unspecified in nature. That's because it must learn from human rewards to maximize performance on tasks that cannot be measured.
To this end, embodiments hypothesize that the agent will best fulfill its role by learning a model of the trainer's rewards and selecting the behavior that the model predicts will lead to the most rewards. erected.
報酬学習管理部302は、計算された確率h^、状態表現s、選択された行動aを1つの教師付き学習サンプル(s,a,h^)として取得し、教師付き学習アルゴリズムで報酬関数RH(s,a)を学習する。報酬学習管理部302は、RH(s,a)を(s,a,h^)で更新する。
報酬学習管理部302は、エージェント300の行動を評価してそれを提供することに起因する人の報酬の時間遅れに対処するための信用付与器である。TAMERでは、教師のフィードバック遅延の確率を推定するために確率密度関数f(t)を定義している。確率密度関数f(t)は、フィードバックが任意の特定の時間間隔内に発生する確率を提供し、単一の報酬信号が単一のタイムステップを対象としている確率(クレジット)を計算するために使用される。現在の時間ステップtでは、各前の時間ステップt-kの確率は次式(4)のように計算される。
The reward
The reward
なお、人間が複数の報酬を与える場合、各前回のタイムステップ(状態-行動ペア)のラベルh^は、式(4)を用いて各人の報酬で計算された全ての確率の総和である。
報酬学習管理部302は、h^と状態-行動ペアを教師付き学習サンプルとして使用し、最小二乗の勾配に基づいて、式(5)、式(6)のようにパラメータを更新することでR^H(s,a)を学習する。なお、式(5)、式(6)において、ここで、αは学習率であり、δtは時間差誤差である。
Note that when humans give multiple rewards, the label h^ of each previous time step (state-action pair) is the sum of all probabilities calculated for each person's reward using equation (4). .
The reward
なお、式(5)、式(6)において、hは、任意の時間ステップtでエージェントが受け取った人間の報酬ラベルである。 Note that in equations (5) and (6), h is the human reward label received by the agent at any time step t.
行動選択部304は、更新された報酬関数RH(s,a)を用いて、別の行動(提案角度指令)φaを選択する。人間によるデモンストレーションと計画を介して生成された軌跡は、状態・動作ペア{(s0,a0),…,(sn,an)}のシーケンスで構成されており、これらは逆RLアルゴリズムに供給される。エージェント300は,人の報酬関数を学習し、argmaxaR^H(s,a)によって人間の報酬を最大化するロボット1の行動を、例えば次式(7)または次式(8)を用いて選択する。
The
エージェント300は、ロボット1が最適な行動を学習するまで,行動をとり、報酬を検出し、予測報酬関数モデルを更新して新しいサイクルを開始する。なお、選択される行動は、例えば期待されるロボット1の顔の向きである。これによって、ロボット1が注目する人Huに顔を向けることができる。
The
<処理アルゴリズム>
次に、エージェントが行う処理アルゴリズム例を説明する。図8は、本実施形態に係るエージェントが行う処理アルゴリズム例を示す図である。
<Processing algorithm>
Next, an example of a processing algorithm performed by the agent will be explained. FIG. 8 is a diagram illustrating an example of a processing algorithm performed by an agent according to this embodiment.
・手順1:エージェント300は、報酬関数R、人の報酬関数R^H、行動価値関数Q(s,a)または状態価値関数V(s)を初期化する。
- Procedure 1: The
・手順2:人間がデモンストレーションを行う。エージェント300は、行われたデモンストレーションを取得、記録する。
・Step 2: A human performs a demonstration. The
・手順4、手順5:エージェント300は、デモを記録し、計画を介して軌道を生成し、逆RLを介して報酬関数Rを最適化する。人間によるデモンストレーションと計画を介して生成された軌跡は、状態・動作ペア{(s0,a0),…,(sn,an)}のシーケンスで構成されており、これらは逆RLアルゴリズムに供給される。
-
・手順6:エージェント300は、デモンストレーションから逆RL(強化学習)を介して学習された報酬関数Rを、TAMERにおける人間の報酬関数R^Hの種付けに使用する。
- Step 6: The
・手順8:訓練者は、人間の評価フィードバックを提供することで、エージェント300の方針を修正することができる。エージェント300は、人の報酬hを受け取ったか否か判別する。
- Step 8: The trainer can modify the agent's 300 policy by providing human evaluation feedback. The
・手順9、手順10:エージェント300は、例えば、人間の報酬を受け取った場合、受け取った報酬を、人の報酬関数R^Hを更新するために使用する。
- Steps 9 and 10: For example, when the
・手順11、手順12、手順13:エージェント300は、報酬関数Rを持つ1つの動作を選択して実行する。
-
・手順14:エージェント300は、訓練者がエージェント300の行動に満足するまで繰り返す。
- Step 14: The
<人間のソーシャルフィードバックからの対話型RLのためのフレームワーク>
以下の例では、利用者が操作部を操作して明示的なフィードバック信号を用いてエージェントを訓練するのではなく、顔の表情やジェスチャーのような人間の社会的な信号を、エージェントと人間のユーザとの間の相互作用のプロセスに提供する。
これにより、本実施形態によれば、エージェントの訓練経験のない利用者が、複雑な訓練ルールを学習することなく、エージェントの行動の好みに基づいてエージェントを訓練することができる。また、本実施形態によれば、利用者の期待に応じたフィードバックを行うことができるようにするためのアプローチを提供できる。
<Framework for interactive RL from human social feedback>
In the example below, rather than having the user manipulate controls to train the agent using explicit feedback signals, human social signals, such as facial expressions and gestures, can be used to communicate between the agent and the human. Provide to the process of interaction between users.
As a result, according to the present embodiment, a user who has no experience in agent training can train an agent based on the agent's behavioral preferences without learning complicated training rules. Furthermore, according to the present embodiment, it is possible to provide an approach that allows feedback to be provided in accordance with the user's expectations.
図9は、本実施形態に係る人間のソーシャルフィードバックからの対話型RLのためのフレームワークを示す図である。図9のように、人間のソーシャルフィードバックは、2つの方法で訓練する。
第1の方法は、顔のフィードバックを用いてエージェントを訓練する方法である。もう第2の方法は、キーボードによるフィードバックの代わりにジェスチャーフィードバックを直接導入する方法である。
FIG. 9 is a diagram illustrating a framework for interactive RL from human social feedback according to this embodiment. As shown in Figure 9, human social feedback is trained in two ways.
The first method is to train the agent using facial feedback. The second method is to directly introduce gesture feedback instead of keyboard feedback.
エージェント300は、顔やジェスチャーの信号から人間Huの報酬を学習し、最適なポリシーを得る。本実施形態では、撮影部102でリアルタイムの顔認識を実現するモジュール401、モーションセンサでオンラインジェスチャー認識を実現するモジュール403、および異なるプロセス間のソケット通信で人間のフィードバックを報酬信号にマッピングするモジュール(401~403、エージェント300)を含み、機能の異なる複数のモジュールを含んでいる。本実施形態では、感情エージェントを構成するTAMERエージェントに、リアルタイム顔認識を導入した。さらに、本実施形態では、オンラインジェスチャー認識モジュールをTAMER Agentと組み合わせることで、ジェスチャーエージェントを実現する。なお、モーションセンサは、例えば手と指をトラッキングするセンサである。
The
まず、リアルタイム感情認識について説明する。
顔の表情は、表情筋の1つ以上の動きや状態の結果である。これらの動きは、観察者の個人の感情を表現している。そして、表情は、非言語コミュニケーションの一形態である。表情は、人間同士の社会的な情報を表現する主な手段であり、通常は感情を伝えるために使用される。本実施形態では、リアルタイム感情認識を設計するために、例えば図10のような畳み込みニュートラルネットワーク(CNN)フレームワークを用いる。図10は、リアルタイム感情分類のためのCNNモデルを示す図である。図10のフレームワークは、取得された画像501に対して、4つの残差深度分離可能な畳み込みを持つ、完全畳み込みニューラルネットワークである。各畳み込みには、バッチ正規化演算(502、503、504、505、506、509)とReLU活性化関数が接続される。最後の層(507、510、511)では、グローバル平均プーリングとソフトマックス活性化関数を適用して予測値を生成する。
First, real-time emotion recognition will be explained.
Facial expressions are the result of the movement or state of one or more facial muscles. These movements express the observer's personal emotions. And facial expressions are a form of nonverbal communication. Facial expressions are the main means of expressing social information between humans and are usually used to convey emotions. In this embodiment, a convolutional neutral network (CNN) framework as shown in FIG. 10, for example, is used to design real-time emotion recognition. FIG. 10 is a diagram showing a CNN model for real-time emotion classification. The framework of FIG. 10 is a fully convolutional neural network with four residual depth-separable convolutions for the acquired
本実施形態の顔認識モジュールでは、例えば、「嬉しい」、「悲しい」、「怒っている」、「怖い」、「驚いている」、「中性」および「嫌悪感」の7つの感情を認識できる。また、実験では、「幸せ(ポジティブ)」感情と「不幸(ネガティブ)」感情とに分類した。実施形態では、「怒り」「悲しみ」「恐れ」を、「不幸」感情としてラベル付けした。そして、実験では、利用者が、エージェント300の行動を直接観察し、「幸せ」と「不幸」の表現で好みを伝えるようにした。なお、「幸せ(ポジティブ)」な表情は、例えば微笑んでいる表情であり、「不幸(ネガティブ)」な表情は、例えば怒っている表情である。
The face recognition module of this embodiment recognizes, for example, seven emotions: "happy," "sad," "angry," "scared," "surprised," "neutral," and "disgusted." can. In addition, in the experiment, emotions were classified into "happy (positive)" emotions and "unhappy (negative)" emotions. In the embodiment, "anger," "sadness," and "fear" are labeled as "unhappy" emotions. In the experiment, users directly observed the behavior of
なお、本実施形態では、エージェントの状態や行動ごとに報酬信号を連続的に与えるのではなく、トレーナーが必要と感じたときに、トレーナーの判断でフィードバックを与えることができるようにした。
なお、実験では、表情認識は連続的であるため、エージェントと同じ速度でモジュールが動作しやすいように、表情をつかむ間隔を2秒に設定して、顔のフィードバックを抽出した。また、実験では、ユーザがフィードバックを提供したくない場合は、ユーザは「中立」または撮影部102が撮影できないところにいて、エージェントがフィードバックを受け取らないようにした。
In this embodiment, instead of continuously giving reward signals for each agent's state or action, feedback can be given at the trainer's discretion when the trainer feels it is necessary.
In the experiment, since facial expression recognition is continuous, the interval between capturing facial expressions was set to 2 seconds to make it easier for the module to operate at the same speed as the agent, and facial feedback was extracted. In addition, in the experiment, if the user did not want to provide feedback, the user was "neutral" or in a place where the
次に、オンラインジェスチャー認識について説明する。
ジェスチャーは、日常生活の中での自然なコミュニケーションの方法であり、例えば聴覚障害者や言語障害者の間でよく使われます。人間とコンピュータの相互作用の観点から、コミュニケーション言語としてのジェスチャーは、サービスロボットを利用した言語障害のあるユーザ、専用の入力デバイスを使用することが不便な水中作業、言語コミュニケーションに大きな干渉を与えるノイズの多い環境など、非常に幅広い応用が可能である。
実施形態では、モーションセンサを用いて3種類のジェスチャーを認識する。
Next, online gesture recognition will be explained.
Gestures are a natural way of communicating in everyday life, and are often used, for example, by people who are deaf or have speech disabilities. From the perspective of human-computer interaction, gestures as a communicative language are useful for users with speech impairments using service robots, underwater work where it is inconvenient to use dedicated input devices, and noise that greatly interferes with verbal communication. It has a very wide range of applications, such as environments with many environments.
In the embodiment, three types of gestures are recognized using a motion sensor.
第1のモデルは「簡易ジェスチャー検出入力(Easy Gesture Play Input)」で、1つのニュートラル状態と5つの基本ジェスチャーを検出し、簡単な信号処理でラベル付けを行う。ニュートラル状態は、「Yes」であり、例えば静止した親指を上げることで表した。実施形態において基本的なジェスチャーは、「No」(例えば親指を下に倒す)、「Great」(例えば親指を上に跳ね上げる)、「Stop」(手を振る)、「Left swipe」(例えば左に大きく振る)、「Right swipe」(例えば右に大きく振る)の5つである。 The first model is "Easy Gesture Play Input," which detects one neutral state and five basic gestures and labels them using simple signal processing. The neutral state is "Yes" and is represented by, for example, a stationary thumb raised. In the embodiment, basic gestures include "No" (e.g. thumbs down), "Great" (e.g. thumbs flipped up), "Stop" (waving hand), and "Left swipe" (e.g. "Right swipe" (for example, swing sharply to the right).
第2のモデルは、機械学習アルゴリズムを使用してジェスチャー活動を認識して分類して、ロボット1上での反応を誘発する(例えば、テレプレゼンスやソーシャルロボット)。 The second model uses machine learning algorithms to recognize and classify gestural activity to trigger a response on the robot 1 (eg, telepresence or social robot).
第3のモデルは、超音波の原理に基づいてジェスチャー動作をロボットにマッピングするキネティック特徴マッピング制御入力(Kinematic Feature Mapping Control Input)である。 The third model is a Kinematic Feature Mapping Control Input that maps gesture movements to the robot based on ultrasound principles.
実験では、第1のモデルを用いて予め行ったジェスチャー認識の実験に基づいて、ポジティブなフィードバックを提供するために“Great”を選択し、エージェントへのネガティブなフィードバックを表現するために“Stop”を選択するようにした。図11は、リアルタイムジェスチャー認識のビジュアル表示例を示す図である。図11の符号g201は“Great”のジェスチャー例を示し、図11の符号g202は“Stop”のジェスチャー例を示している。 In the experiment, based on the gesture recognition experiment conducted in advance using the first model, "Great" was selected to provide positive feedback, and "Stop" was selected to express negative feedback to the agent. I made it possible to select. FIG. 11 is a diagram illustrating a visual display example of real-time gesture recognition. Reference numeral g201 in FIG. 11 indicates an example of a "Great" gesture, and reference numeral g202 in FIG. 11 indicates an example of a "Stop" gesture.
次に、実施形態で用いたソケット通信について説明する。
実験では、TAMERエージェントをJava(登録商標)スクリプトで動作させ、リアルタイム表情認識モジュールとオンラインジェスチャー認識モジュールはPython(登録商標)で実装した。なお、実装は、他のプロミング言語やスクリプトを用いてもよい。
Next, socket communication used in the embodiment will be explained.
In the experiment, the TAMER agent was operated using Java (registered trademark) script, and the real-time facial expression recognition module and online gesture recognition module were implemented using Python (registered trademark). Note that the implementation may use other programming languages or scripts.
実験では、2つのプロセス間で安全かつ信頼性の高いデータ転送を実現するために、図12に示すTCP通信機構に対するソケット方式を採用した。図12は、リアルタイム感情認識モジュールとリアルタイムジェスチャー認識からTAMERエージェントが受信するフィードバック信号の模式図である。図12を参照して、実験で用いたソケット通信の概略を説明する。
データ送信の過程では、エージェントはサーバ側であり、リアルタイム認識モジュールは通信中のクライアントである。クライアントは、認識した結果を全てサーバに遅滞なく渡すが、サーバは選択的にデータを受信する。実験では、2秒ごとにクライアントの出力ストリームからデータを受信して読み出すようにサーバを設定した。
In the experiment, the socket method for the TCP communication mechanism shown in FIG. 12 was adopted in order to achieve safe and reliable data transfer between two processes. FIG. 12 is a schematic diagram of feedback signals received by the TAMER agent from the real-time emotion recognition module and real-time gesture recognition. An outline of the socket communication used in the experiment will be explained with reference to FIG.
In the process of data transmission, the agent is the server side, and the real-time recognition module is the communicating client. The client passes all recognized results to the server without delay, but the server selectively receives data. In the experiment, the server was configured to receive and read data from the client's output stream every two seconds.
<実験>
次に、本実施形態のエージェントを用いて実験を行った結果例を説明する。
実験では、人間(例えばユーザ)が、現在の環境でロボット1が行った行動を観察する。そして、ユーザは、ロボット1のエージェントが選択した動作にユーザが同意した場合、ポジティブなフィードバックを与え、選択された行動が期待にそぐわないとユーザが考えた場合、ネガティブなフィードバックを与える。ユーザは、予め定義されたキーパッドフィードバックと比較して、異なる表情またはジェスチャーを報酬信号として提供することにより、エージェントを訓練した。
<Experiment>
Next, an example of the results of an experiment using the agent of this embodiment will be described.
In the experiment, a human (for example, a user) observes the actions performed by the
実験では、3つのフィードバックをTAMERエージェントに学習させた。
1つ目は、比較例であり、キーボードからの明示的なフィードバックを用いて学習するキーボードエージェントである。2つ目は、表情を用いて学習する感情エージェントである。3つ目は、ジェスチャーを使ってフィードバックを提供するジェスチャーエージェントである。
実験では、3つのエージェントに対して、2つの強化学習ベンチマークタスク(LoopMazeとTetris(登録商標))を用いてテストを行った。また、実験では、各エージェントに対して各タスクで10回の訓練を行った。なお、実験結果は、10回の試行で収集したデータの平均値である。
In the experiment, the TAMER agent was trained with three types of feedback.
The first, a comparative example, is a keyboard agent that learns using explicit feedback from the keyboard. The second is an emotional agent that learns using facial expressions. The third is a gesture agent that provides feedback using gestures.
In the experiment, three agents were tested using two reinforcement learning benchmark tasks (LoopMaze and Tetris (registered trademark)). In addition, in the experiment, each agent was trained 10 times for each task. Note that the experimental results are the average value of data collected in 10 trials.
キーボードエージェントについては、人間がエージェントの動作を観察し、指定されたキーボードキーを押すことでフィードバックを行った。実験では、vキーを押すと報酬が+1となり、nキーを押すと報酬が-1となり、キーを何度もクリックすることで報酬の値を重ね合わせることができるようにした。 For the keyboard agent, humans observed the agent's actions and provided feedback by pressing designated keyboard keys. In the experiment, pressing the v key increased the reward by +1, pressing the n key decreased the reward by -1, and the reward values could be stacked by clicking the key many times.
感情エージェントでは、最初の2つのエピソードで人間がエージェントの性能を観察し、キーボードからのフィードバックで第一のポリシーを学習するように訓練した。実験では、3つ目のエピソードから、表情のフィードバックを学習モデルに導入した。エージェントによって選択された行動が期待通りのものであれば、人間は笑顔の表情を見せることになり、エージェントにポジティブなフィードバック信号を出力する。エージェントが選択した行動が不満足な場合、人間は、怒りや恐怖、悲しみなどの感情を表現することで、エージェントにネガティブなフィードバック信号を出力する。なお、感情エージェントは、表現から学習して、初期のポリシーをさらに調整する。 For the emotional agent, humans observed the agent's performance during the first two episodes and trained it to learn the first policy using keyboard feedback. In the experiment, facial feedback was introduced into the learning model starting from the third episode. If the action selected by the agent is as expected, the human will show a smiling face and output a positive feedback signal to the agent. If the agent's chosen action is unsatisfactory, humans output negative feedback signals to the agent by expressing emotions such as anger, fear, and sadness. Note that the emotional agent learns from the expressions to further adjust the initial policy.
ジェスチャーエージェントは、人間がエージェントの行動を観察し、2種類のジェスチャー(“Great”と“Stop”)でフィードバックを行うようにした。エージェントが選択した行動が期待通りであれば、人間は、親指を立ててバウンスさせ、“Great”と表現するようにした。エージェントが選択した行動が不適切だと思ったとき、人間、は手を振り、エージェントへの否定的なフィードバック信号として“Stop”と表現するようにした。 In the gesture agent, a human observes the agent's actions and provides feedback using two types of gestures (“Great” and “Stop”). If the action selected by the agent was as expected, the human would give a thumbs up and bounce to express "Great". When humans thought that the agent's chosen action was inappropriate, they would wave their hands and say "Stop" as a negative feedback signal to the agent.
[LoopMaze]
迷路ゲームであるLoopMazeを用いて実験では、エージェントがゴールに25回(つまり25エピソード)到達した時点でトレーニングセッションを停止し、各エピソードの最大トレーニング時間ステップを2000に設定した。図13は、LoopMazeタスクのスクリーンショットを示す図である。図13において、符号g311とg312は壁を表し、符号g321はエージェントを表し、符号g322はエージェントの移動方向を示す。
[LoopMaze]
In an experiment using the maze game LoopMaze, the training session was stopped when the agent reached the
LoopMazeのタスクは、30の状態を含んでいる。タスクにおいて、各状態のエージェントは、上下左右に移動することができ、ある状態で選択されたアクションがエージェントに壁にぶつかった場合、移動は発生しない。エージェントの目標は、開始状態g301からゴール状態g302へと導く最適な政策をできるだけ早く学習することである。開始状態からゴール状態への最短経路は19のアクションを必要とする。LoopMazeでエージェントが利用できる行動は、目標状態と最後に選択されたアクションからの相対的な位置に依存する。 The LoopMaze task includes 30 states. In a task, an agent in each state can move up, down, left, or right, and if an action selected in a certain state causes the agent to hit a wall, no movement will occur. The agent's goal is to learn as quickly as possible the optimal policy that leads from the starting state g301 to the goal state g302. The shortest path from the starting state to the goal state requires 19 actions. The actions available to an agent in LoopMaze depend on the target state and its position relative to the last selected action.
[Tetris]
落ち物パズルであるTetrisでは、2200の状態があり、隣接する4つのブロックを一度に選択してテトリスのピースを形成する。アクションセットには、下、左、右、回転の4つの選択肢がある。テトリスのピースが一列に並ぶと、その一列を埋めているブロックは自動的に排除される。Tetrisのタスクでは、落ちてくるブロックを一列に並べて、常に行数を消していき、最終的にゲームを無期限に走らせるのがベストな方針である。このため、制限内は、エージェントが1つのエピソードでクリアできる行数が多いほど、このポリシーの性能が高いということになる。
[Tetris]
In Tetris, a falling object puzzle, there are 2,200 states, and four adjacent blocks are selected at once to form a Tetris piece. The action set has four options: down, left, right, and rotation. When Tetris pieces line up in a row, the blocks filling that row are automatically eliminated. For Tetris tasks, the best policy is to line up the falling blocks in a line, constantly clearing out rows, and eventually letting the game run indefinitely. Therefore, within the limits, the more rows an agent can clear in one episode, the better the performance of this policy.
Tetrisを用いて実験では、20エピソードの訓練を行った。1つのエピソードでは、時間ステップの上限数を10000とし、1回の訓練が終了するまで新たなエピソードが開始されるようにした。実験では、キーボードエージェントと感情エージェントの性能を比較するために、各エピソードにおける実行時間ステップ数と総フィードバック量の平均と分散を分析した。図14は、Tetrisタスクのスクリーンショットを示す図である。 In the experiment, 20 episodes of training were performed using Tetris. In one episode, the upper limit number of time steps was set to 10,000, and a new episode was started until one training session was completed. In the experiment, in order to compare the performance of the keyboard agent and the emotional agent, we analyzed the mean and variance of the number of execution time steps and the total amount of feedback in each episode. FIG. 14 is a diagram showing a screenshot of a Tetris task.
Tetrisタスクでは、任意のテトリスピースが落ちている時間、人間が前回ステップのTetrisピースの配置についてフィードバック(ポジティブまたはネガティブ)を与えるようにした。また、落ちてくるブロックが完全に落ちると四角い部分が黒くなりますが、この時に与えられたフィードバックが最も効果的に働くようにした。 In the Tetris task, the human provided feedback (positive or negative) about the placement of Tetris pieces in the previous step while any Tetris pieces were falling. Also, when a falling block completely falls, the square part turns black, but we have made sure that the feedback given at this time works most effectively.
[実験結果]
まず、LoopMazeタスクとTetrisタスクの両方において、顔のフィードバックとジェスチャーフィードバックからの学習の実験結果を説明する。
感情フィードバックのないエージェントでは、利用者の好みは、キーボードのキーを押すという報酬のプロセスを通してしか実現できない。これに対し、本実施形態によれば、正しい行動を選択したときには単純に嬉しそうな表情を、予想外の行動を選択したときには悲しそうな表情や怒っているような表情を見せることで、利用者は自分の感情を伝えることができる。顔の表情で好みを表現するだけで満足のいくエージェントを得ることができ、利用者の認知的負担(例えば発話等)を大幅に軽減することができる。なお、実験では、キーボードフィードバックで初期のポリシーを取得し、その後、表情フィードバックを導入して形成されたポリシーを改善し、最終的に最適なポリシーを取得するようにエージェントを訓練した。このように実験を行った理由は、実験に用いた表情のエージェントの認識率が66%であり、安定したポリシーを学習できなかったためである。
なお、LoopMazeでは、2つのエージェント(キーボードエージェントと感情エージェント)の学習性能を、エージェントが実行する時間ステップ数と人間のトレーナーが提供するフィードバックの総数の2つの指標で評価する。
[Experimental result]
First, we will explain the experimental results of learning from facial feedback and gesture feedback in both the LoopMaze task and the Tetris task.
In an agent without emotional feedback, a user's preferences can only be realized through the reward process of pressing a keyboard key. In contrast, according to the present embodiment, when the correct action is selected, the user simply appears happy, and when the unexpected action is selected, the user appears sad or angry. people can express their feelings. A satisfied agent can be obtained simply by expressing preferences through facial expressions, and the cognitive burden on the user (for example, speaking) can be significantly reduced. In the experiment, the agent was trained to obtain an initial policy using keyboard feedback, then improve the formed policy by introducing facial feedback, and finally obtain the optimal policy. The reason for conducting the experiment in this way is that the facial expression recognition rate of the agent used in the experiment was 66%, and a stable policy could not be learned.
Note that in LoopMaze, the learning performance of two agents (keyboard agent and emotion agent) is evaluated using two indicators: the number of time steps performed by the agent and the total number of feedback provided by the human trainer.
図15は、LoopMazeタスクに対する実験結果であり、キーボードエージェントと感情エージェントによる各エピソードにおける総時間ステップ数とフィードバックを受けた回数を示す図である。
なお、各プロットは、10回の独立した実行から得られたデータを平均化して作成され、各実行は25エピソードで構成されている。この実験では、2つのエージェントの学習性能を、エージェントが実行する時間ステップ数と、人間のトレーナーが提供するフィードバックの総数の二つの指標で評価した。得られる結果は、学習が進むにつれて,初期状態から目標状態に至るまでの時間ステップ数を徐々に減らし、フィードバックを受ける回数を少なくすることが望ましい。なお、エージェントが完璧な場合は、人間が生成した報酬を与えずに、1エピソードあたり20回の時間ステップで目標状態に到達する。
FIG. 15 is an experimental result for the LoopMaze task, and is a diagram showing the total number of time steps and the number of times feedback was received in each episode by the keyboard agent and emotional agent.
Note that each plot was created by averaging data obtained from 10 independent runs, with each run consisting of 25 episodes. In this experiment, we evaluated the learning performance of the two agents using two metrics: the number of time steps performed by the agents and the total number of feedback provided by the human trainer. As for the results obtained, as learning progresses, it is desirable to gradually reduce the number of time steps from the initial state to the target state and to reduce the number of times feedback is received. Note that if the agent is perfect, it will reach the goal state in 20 time steps per episode without giving any human-generated rewards.
グラフg401は、LoopMazeタスクの1エピソードを完了するために、キーボードエージェントと感情エージェントによる各エピソードにおける総時間ステップ数を示す図である。グラフg411は、開始状態からゴール状態へのナビゲートに成功したときに、キーボードエージェントと感情エージェントによる各エピソードにおけるフィードバックを受けた回数を示す図である。グラフg401とグラフg411において横軸はエピソード数であり、符号g401のグラフにおいて縦軸は総時間ステップ数(回)であり、グラフg411おいて縦軸はフィードバックを受けた回数(回)である。また、符号g402はキーボードエージェントの実験結果を示し、符号g403は感情エージェントの実験結果を示し、符号g404は平均値の標準誤差である。 Graph g401 is a diagram showing the total number of time steps in each episode by the keyboard agent and emotional agent to complete one episode of the LoopMaze task. Graph g411 is a diagram showing the number of times feedback is received in each episode from the keyboard agent and emotional agent when the user successfully navigates from the start state to the goal state. In graph g401 and graph g411, the horizontal axis is the number of episodes, in the graph g401, the vertical axis is the total number of time steps (times), and in graph g411, the vertical axis is the number of times (times) feedback was received. Furthermore, symbol g402 indicates the experimental results for the keyboard agent, symbol g403 indicates the experimental results for the emotion agent, and symbol g404 indicates the standard error of the mean value.
図15のように、表情フィードバックが導入された初期段階では、目標状態に到達するまでの時間ステップ数とフィードバック量がわずかに増加していた。しかし、3~4回の学習を経て、感情エージェントの時間ステップ数とフィードバック量は、キーボードエージェントのそれと基本的には一致し、両エージェントともにほぼ最適なポリシーを学習している。図15のように、学習期間の後、感情エージェントは、キーボードエージェントと似たような、またはより良いポリシーを学習することができた。 As shown in FIG. 15, at the initial stage when facial expression feedback was introduced, the number of time steps to reach the target state and the amount of feedback slightly increased. However, after three or four training sessions, the number of time steps and amount of feedback for the emotion agent basically match those for the keyboard agent, and both agents have learned almost optimal policies. As shown in Figure 15, after the learning period, the emotional agent was able to learn similar or better policies than the keyboard agent.
図16は、Tetrisタスクに対する実験結果であり、キーボードエージェントと感情エージェントによる総時間ステップ数、フィードバックを受けた数、クリアした行数を示す図である。
Tetrisタスクでは、エージェントが4つの小さな正方形のランダムな組み合わせで生成され、それぞれの組み合わせの時間や確率も不確定である。このタスクでは、エージェントが優秀であればあるほど、実行時間が長くなり、より多くの状態やアクションを経験することができる。人間の訓練の下で、エージェントは最終的にTetrisのピースの全行を排除することを学習し、ゲームをプレイし続けることができる。このため、このタスクに対して期待されることは、人間のフィードバックの減少を必要としながら、時間のステップ数と排除されたテトリスのラインの数が徐々に増加していることである。また、実験では、最初の2つのエピソードでキーボードフィードバックによるエージェントの訓練を行い、3つ目のエピソードで顔のフィードバックを導入し、合計20エピソードの訓練を行った。実験では、2つのエージェント(キーボードエージェントと感情エージェント)の学習性能を3つの指標で評価する。3つの評価は、エージェントの実行時間のステップ数、受け取ったフィードバックの数、エピソード内で排除されたテトリスの行の数である。
FIG. 16 shows the experimental results for the Tetris task, showing the total number of time steps, the number of feedback received, and the number of cleared lines by the keyboard agent and emotional agent.
In the Tetris task, agents are generated using random combinations of four small squares, and the time and probability of each combination are uncertain. The better the agent is at this task, the longer it will run and the more states and actions it can experience. Under human training, the agent can eventually learn to eliminate entire rows of Tetris pieces and continue playing the game. Therefore, the expectation for this task is that the number of time steps and the number of Tetris lines eliminated gradually increases while requiring a reduction in human feedback. In addition, in the experiment, the agent was trained using keyboard feedback in the first two episodes, and facial feedback was introduced in the third episode, for a total of 20 episodes of training. In the experiment, we evaluate the learning performance of two agents (keyboard agent and emotion agent) using three indicators. The three measures are the number of steps in the agent's execution time, the number of feedback received, and the number of Tetris lines eliminated within the episode.
グラフg451は、実験の各エピソードにおいて、キーボードエージェントと感情エージェントによる各エピソードにおける時間ステップ数を示す図である。グラフg461は、実験の各エピソードにおいて、キーボードエージェントと感情エージェントによる各エピソードにおけるフィードバックを受けた回数を示す図である。グラフg471は、実験の各エピソードにおいて、キーボードエージェントと感情エージェントによる各エピソードにおけるリアした行数を示す図である。
符号g451、g461およびg471のグラフにおいて横軸はエピソード数であり、符号g451のグラフにおいて縦軸は時間ステップ数(回)であり、符号g461のグラフにおいて縦軸はフィードバックを受けた回数(回)であり、符号g471のグラフにおいて縦軸はクリアした行数(行)である。
Graph g451 is a diagram showing the number of time steps in each episode by the keyboard agent and the emotional agent in each episode of the experiment. Graph g461 is a diagram showing the number of times feedback was received in each episode from the keyboard agent and the emotional agent in each episode of the experiment. Graph g471 is a diagram showing the number of lines read by the keyboard agent and emotion agent in each episode of the experiment.
In the graphs with symbols g451, g461, and g471, the horizontal axis is the number of episodes, in the graph with symbol g451, the vertical axis is the number of time steps (times), and in the graph with symbol g461, the vertical axis is the number of times feedback was received (times). In the graph with symbol g471, the vertical axis is the number of cleared lines (rows).
図16のように、最初の2つのエピソードでは、時間ステップ数、フィードバックの受信数、ラインクリア数は、感情エージェントとキーボードエージェントの間でほぼ同じで、ゲーム内で数十行をクリアできる妥当なポリシーを獲得していた。4エピソードの訓練後の7エピソード以降、感情エージェントの時間ステップ数とクリアしたライン数は、フィードバックの数が若干増えたが、キーボードエージェントと同等であった。 As shown in Figure 16, in the first two episodes, the number of time steps, the number of feedback received, and the number of line clears are almost the same between the emotion agent and the keyboard agent, which is a reasonable number that can clear dozens of lines in the game. acquired the policy. After 7 episodes of training after 4 episodes of training, the number of time steps and the number of cleared lines of the emotional agent were similar to those of the keyboard agent, although the number of feedbacks increased slightly.
次に、LoopMaze課題とTetris課題において、キーボードエージェントとジェスチャーエージェントの学習性能を比較した。
図17は、LoopMazeタスクに対する実験結果であり、キーボードエージェントとジェスチャーエージェントによる各エピソードにおける時間ステップ数とフィードバックを受けた回数を示す図である。
グラフg501は、LoopMazeタスクの1つのエピソードを終了するために、キーボードエージェントとジェスチャーエージェントによる各エピソードにおける時間ステップ数を示す図である。グラフg511は、各エピソードでキーボードエージェントとジェスチャーエージェントによる各エピソードにおけるフィードバックを受けた回数を示す図である。グラフg501とグラフg511において横軸はエピソード数であり、グラフg501において縦軸は時間ステップ数(回)であり、グラフg511において縦軸はフィードバックを受けた回数(回)である。また、符号g502はキーボードエージェントの実験結果を示し、符号g503はジェスチャーエージェントの実験結果を示し、符号g504は平均値の標準誤差である。
Next, we compared the learning performance of the keyboard agent and gesture agent in the LoopMaze task and Tetris task.
FIG. 17 is an experimental result for the LoopMaze task, and is a diagram showing the number of time steps and the number of times feedback was received in each episode by the keyboard agent and gesture agent.
Graph g501 is a diagram showing the number of time steps in each episode by the keyboard agent and gesture agent to finish one episode of the LoopMaze task. A graph g511 is a diagram showing the number of times feedback is received in each episode by the keyboard agent and the gesture agent. In the graph g501 and the graph g511, the horizontal axis is the number of episodes, the vertical axis in the graph g501 is the number of time steps (times), and the vertical axis in the graph g511 is the number of times (times) feedback is received. Further, symbol g502 indicates the experimental result of the keyboard agent, symbol g503 indicates the experimental result of the gesture agent, and symbol g504 indicates the standard error of the mean value.
この実験では、独立した実験を10ラウンド実施し、各ラウンドで20エピソードを実行した。顔のフィードバックからの学習と同様に、LoopMazeタスクでは、時間ステップ数と人間のユーザから提供されたフィードバックの総数がエージェントのパフォーマンスの指標となる。ジェスチャーフィードバックにより、訓練時にエージェントが受け取るフィードバックの数を減らすことができると期待される。 In this experiment, 10 independent rounds of experiments were conducted, with 20 episodes running in each round. Similar to learning from facial feedback, in the LoopMaze task, the number of time steps and the total number of feedback provided by the human user are indicators of the agent's performance. Gesture feedback is expected to reduce the amount of feedback an agent receives during training.
図17のように、最初の3つのエピソードでは、ジェスチャーエージェントの方がキーボードエージェントよりも多くの時間ステップを経験する必要がある。しかし、ジェスチャーエージェントは、フィードバックを受ける量がキーボードエージェントに比べて著しく少ない。3回のエピソードトレーニングの後、両方のエージェントは最高のポリシーを取得した。 As shown in Figure 17, in the first three episodes, the gesture agent needs to experience more time steps than the keyboard agent. However, gesture agents receive significantly less feedback than keyboard agents. After three episodes of training, both agents obtained the best policy.
次に、テトリスタスクにおいて、ジェスチャーエージェントとキーボードエージェントのテトリスタスクにおける学習性能を比較した。ここでは、顔のフィードバックからの学習と同じ3つの指標、すなわち、エージェントの実行時間のステップ数、受け取ったフィードバックの数、エピソード内で排除されたテトリスの行の数で、2つのエージェントの学習性能を評価した。 Next, we compared the learning performance of gesture agents and keyboard agents in the Tetris task. Here, we evaluate the learning performance of the two agents using the same three metrics as for learning from facial feedback: the number of steps in the agent's execution time, the number of feedback received, and the number of Tetris rows eliminated within an episode. was evaluated.
図18は、Tetrisタスクに対する実験結果であり、キーボードエージェントとジェスチャーエージェントによる時間ステップ数、フィードバックを受けた数、クリアした行数を示す図である。なお、実験では、10個の独立したラウンドを繰り返し、各ラウンドで20個のエピソードを実行し、時間ステップ数、受け取った総フィードバックの数、排除されたテトリスの行の数で測定された各エピソードのパフォーマンスを平均化した。 FIG. 18 is an experimental result for the Tetris task, and is a diagram showing the number of time steps, the number of feedback received, and the number of cleared lines by the keyboard agent and gesture agent. Note that in the experiment, we repeated 10 independent rounds, running 20 episodes in each round, and each episode measured by the number of time steps, the number of total feedback received, and the number of Tetris lines eliminated. performance was averaged.
グラフg551は、テトリスタスクの各エピソードにおいて、キーボードエージェントとジェスチャーエージェントによる各エピソードにおける時間ステップ数を示す図である。グラフg561は、各エピソードにおいて、キーボードエージェントとジェスチャーエージェントによる各エピソードにおけるフィードバックを受けた回数を示す図である。グラフg571は、各エピソードにおいて、キーボードエージェントとジェスチャーエージェントによる各エピソードにおけるリアした行数を示す図である。
符号g551、g561およびg571のグラフにおいて横軸はエピソード数であり、符号g551のグラフにおいて縦軸は時間ステップ数(回)であり、符号g561のグラフにおいて縦軸はフィードバックを受けた回数(回)であり、符号g571のグラフにおいて縦軸はクリアした行数(行)である。
Graph g551 is a diagram showing the number of time steps in each episode by the keyboard agent and gesture agent in each episode of the Tetris task. Graph g561 is a diagram showing the number of times feedback is received in each episode by the keyboard agent and the gesture agent. Graph g571 is a diagram showing the number of lines read in each episode by the keyboard agent and gesture agent.
In the graphs with symbols g551, g561, and g571, the horizontal axis is the number of episodes, in the graph with symbol g551, the vertical axis is the number of time steps (times), and in the graph with symbol g561, the vertical axis is the number of times feedback was received (times). In the graph with symbol g571, the vertical axis is the number of cleared lines (rows).
図18のように、最初の4つエピソードで、ジェスチャーエージェントは、キーボードエージェントよりもジェスチャーフィードバックの受け取る数がはるかに少ない状態で、時間ステップ数がわずかに少なく、各エピソードで行数がわずかに少なくクリアされている。その後もジェスチャーエージェントは、キーボードエージェントよりもフィードバックを受ける量が少なくなった。9エピソード以後、両エージェントの学習性能はかなり近く、学習したポリシーを調整するために必要なフィードバックの回数も同等であった。 As shown in Figure 18, in the first four episodes, the gesture agent received much less gesture feedback than the keyboard agent, took slightly fewer time steps, and received slightly fewer lines in each episode. It has been cleared. Even after that, the gesture agent received less feedback than the keyboard agent. After nine episodes, the learning performance of both agents was quite similar, and the number of feedbacks required to adjust the learned policy was also comparable.
このことから、エージェントは、事前に定義されたキーストロークがなくても、ジェスチャーから人間の意図をよく理解することができ、限られた、あるいはそれよりも少ない数のフィードバックから学習して、情報を正確に取り込むことができる。すなわち、本実施形態を用いた実験によれば、人間のソーシャルシグナルを用いることで、人間のフィードバックが少ない(十分な認識精度がある)エージェントの学習効率を効果的に向上させることができることが確認できた。そして、実験結果のようにジェスチャーフィードバックから学習するエージェントは、キーボードのフィードバックから学習するエージェントと同じような性能を、受け取るフィードバックの量をはるかに少なくして得ることができる。また、実験結果のように顔のフィードバックから学習した場合、キーボードによるフィードバックから学習した場合と同様の性能を得ることができることを示している。 This means that agents can better understand human intent from gestures, even without predefined keystrokes, and can learn from limited or fewer feedback to provide information. can be captured accurately. In other words, according to experiments using this embodiment, it was confirmed that by using human social signals, it is possible to effectively improve the learning efficiency of an agent that requires little human feedback (sufficient recognition accuracy). did it. And, as shown in our experiments, agents that learn from gesture feedback can achieve similar performance to agents that learn from keyboard feedback, but receive much less feedback. Furthermore, the experimental results show that when learning from facial feedback, it is possible to obtain performance similar to learning from keyboard feedback.
また、以上の実験結果より、人間のソーシャルシグナル(例えば顔の表情、ジェスチャー)を用いることで、人間のフィードバックが少ない(十分な認識精度がある)エージェントの学習効率を効果的に向上させる。これにより、利用者が事前に学習方法を学習する必要がなくなり、利用者の認知的負担や作業負荷を軽減することができる。これにより、本実施形態によれば、人間が事前に訓練方法を学習する必要がないので、一般の人が自分の好みに応じたタスクの実行方法をエージェントに訓練させる自然な方法を提供することができる。 Additionally, the above experimental results show that using human social signals (e.g., facial expressions, gestures) effectively improves the learning efficiency of agents with little human feedback (with sufficient recognition accuracy). This eliminates the need for the user to learn the learning method in advance, and can reduce the user's cognitive burden and workload. As a result, according to the present embodiment, there is no need for humans to learn training methods in advance, thereby providing a natural method for ordinary people to train agents on how to perform tasks according to their preferences. Can be done.
なお、上述した実験結果では、エージェントの一例として感情エージェントとジェスチャーエージェントを用いる例を説明したが、これに限らない。エージェントは、他の人間のソーシャルシグナルを用いてもよい。エージェントは、例えば音声による感情を用いた音声感情エージェントであってもよい。 Note that in the above-mentioned experimental results, an example in which an emotional agent and a gesture agent are used as an example of the agent is explained, but the present invention is not limited to this. Agents may also use other humans' social signals. The agent may be, for example, a voice emotion agent that uses voice emotions.
以上のように、本実施形態では、ロボットは、IRLを介して人間のデモンストレーションから学習し、次にTAMERを介して人間の報酬から学習する。このIRL-TAMERでは、以下のI、IIの順番に実行される2つのアルゴリズムで構成される。
I.IRLは、人間のトレーナーが提供するデモンストレーションから報酬関数を学習し、
II.TAMERは、人間の評価フィードバックから予測報酬モデルを学習する。
なお、人間によるデモンストレーションによるフィードバックは、画像による人間の表情認知、人間のジェスチャーの認知等である。
As described above, in this embodiment, the robot learns from human demonstrations via IRL and then from human rewards via TAMER. This IRL-TAMER consists of two algorithms that are executed in the following order: I and II.
I. IRL learns the reward function from demonstrations provided by human trainers,
II. TAMER learns predictive reward models from human rating feedback.
Note that the feedback provided by human demonstrations includes recognition of human facial expressions through images, recognition of human gestures, and the like.
これにより、本実施形態によれば、人間(例えば利用者、訓練者)が提供するデモンストレーションと評価フィードバックの両方からロボットの自律的な行動学習を可能にすることができる。
この結果、本実施形態によれば、ロボットが人間によって提供されるデモンストレーションと評価フィードバックから学ぶことを可能にし、最適な動作を得るために必要な人間の評価の数、特に間違いの数(期待されていない行動)を減らすことができる。
As a result, according to the present embodiment, it is possible to enable the robot to autonomously learn behavior from both demonstrations and evaluation feedback provided by humans (for example, users, trainers).
As a result, the present embodiment allows the robot to learn from the demonstration and evaluation feedback provided by the human, and the number of human evaluations required to obtain optimal behavior, in particular the number of errors (expected behavior) can be reduced.
なお、実施形態ではロボット1を例に説明したが、エージェント等は、他の装置、例えば車載のナビゲーション装置、スマートフォン、タブレット端末等にも適用可能である。例えばスマートフォンに適用する場合は、スマートフォンの表示部上に、例えば図3のようなロボット1の静止画を表示させるようにしてもよい。または、スマートフォンの表示部上に、ロボット1の仕草をアニメーションで表示させるようにしてもよい。
Note that although the embodiment has been described using the
なお、本発明における行動制御装置100の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより行動制御装置100が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
Note that a program for realizing all or part of the functions of the
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 Further, the program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in a transmission medium. Here, the "transmission medium" that transmits the program refers to a medium that has a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line. Moreover, the above-mentioned program may be for realizing a part of the above-mentioned functions. Furthermore, it may be a so-called difference file (difference program) that can realize the above-described functions in combination with a program already recorded in the computer system.
以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。 Although the mode for implementing the present invention has been described above using embodiments, the present invention is not limited to these embodiments in any way, and various modifications and substitutions can be made without departing from the gist of the present invention. can be added.
1…ロボット、101…操作部、102…撮影部、103…センサ、104…収音部、100…行動制御装置、106…記憶部、107…データベース、111…表示部、112…スピーカー、113…アクチュエータ、115…ロボットセンサ、105…認知部、300…エージェント、301…学習部、302…報酬学習管理部、303…割当評価部、304…行動選択部、3041…画像生成部、3042…音声生成部、3043…駆動部、3044…出力部、211…IRLアルゴリズム
DESCRIPTION OF
Claims (7)
エージェントにおける前記重みベクトルを初期値として使用した報酬関数を持つ行動を選択し、トレーナーによって自装置の状態と選択された行動が評価された結果がフィードバックされた前記評価を用いて前回選択した行動の確率を計算し、インタラクション体験で受け取る人の報酬値の近似された期待値を学習し、前記人の報酬関数を最大化するように学習し、学習した結果に基づいて、前記人の報酬予測値が最も大きい行動を選択するエージェントと、
を備える行動制御装置。 The demonstrated results of the sequence of pairs of states and actions of the trainer are given as a reward function to an inverse reinforcement learning module by an inverse reinforcement learning algorithm; a learning section that learns a reward function;
The agent selects an action that has a reward function using the weight vector as an initial value, and the trainer evaluates the state of the self-apparatus and the selected action. Calculate the probability, learn the approximate expected value of the reward value of the person receiving the interaction experience, learn to maximize the reward function of the person, and based on the learned result, calculate the predicted reward value of the person An agent that selects the action with the largest
A behavior control device comprising:
前記行動の修正を前記学習部によって学習された報酬関数によって行い、
前記トレーナーからのフィードバックされた情報に基づいて、予測報酬モデルを学習する、
請求項1に記載の行動制御装置。 The agent is
modifying the behavior using a reward function learned by the learning unit;
learning a predictive reward model based on feedback information from the trainer ;
The behavior control device according to claim 1.
前記割当評価部は、前記トレーナーからのフィードバックに基づいて、前回選択した行動の確率を算出し、状態と行動と前回選択した行動の確率と教師付き学習サンプルとし、
前記報酬学習管理部は、前記学習部が生成した前記報酬関数を取得し、前記割当評価部が出力する前記教師付き学習サンプルを取得し、前記予測報酬モデルを学習して、学習された前記予測報酬モデルを用いて前記報酬関数を更新し、
前記行動選択部は、前記トレーナーからフィードバックされた情報と、前記報酬学習管理部によって、前記行動を選択する、
請求項2に記載の行動制御装置。 The agent includes a reward learning management section, an allocation evaluation section, and an action selection section,
The assignment evaluation unit calculates the probability of the previously selected action based on the feedback from the trainer , and sets the state, the action, the probability of the previously selected action, and a supervised learning sample;
The reward learning management unit acquires the reward function generated by the learning unit, acquires the supervised learning sample output by the allocation evaluation unit, learns the predictive reward model, and calculates the learned prediction. updating the reward function using a reward model;
The behavior selection unit selects the behavior based on information fed back from the trainer and the reward learning management unit.
The behavior control device according to claim 2.
自装置の現在の向きにおいて、人の音声方向、人の顔の向き、人の体の向き、当該自装置の向きで表される環境の状態を推定し、最も報酬予測値が大きな報酬関数を持つ行動を選択することで、当該自装置が注目する人物に顔を向ける行動を選択する、
請求項1から請求項3のいずれか1項に記載の行動制御装置。 The agent is
Estimates the state of the environment expressed by the direction of the person's voice, the direction of the person's face, the orientation of the person's body, and the orientation of the device in the current orientation of the device, and selects a reward function with the largest predicted reward value. By selecting an action to hold, the device selects an action to turn its face toward the person of interest.
The behavior control device according to any one of claims 1 to 3.
δtは時間差誤差であり次式である、
δ t is the time difference error and is the following formula,
エージェントが、前記エージェントにおける前記重みベクトルを初期値として使用した報酬関数を持つ行動を選択し、トレーナーによって自装置の状態と選択された行動が評価された結果がフィードバックされた前記評価を用いて前回選択した行動の確率を計算し、インタラクション体験で受け取る人の報酬値の近似された期待値を学習し、前記人の報酬関数を最大化するように学習し、学習した結果に基づいて、前記人の報酬予測値が最も大きい行動を選択する、
行動制御方法。 a learning unit, wherein the demonstrated result of the sequence of pairs of states and actions of the trainer is given as a reward function to the inverse reinforcement learning module by an inverse reinforcement learning algorithm; learning the reward function including a weight vector ;
The agent selects an action that has a reward function using the weight vector in the agent as an initial value, and uses the previous evaluation to which the trainer evaluates the state of the self-apparatus and the selected action as feedback. calculates the probability of the selected action, learns the approximate expected value of the reward value of the recipient in the interaction experience, learns to maximize the reward function of said person, and based on the learned result, select the action with the highest predicted reward value ,
Behavioral control methods.
トレーナーの状態と行動のペアのシーケンスのデモンストレーションされた結果を逆強化学習アルゴリズムによって逆強化学習モジュールに報酬関数として与えられ、前記デモンストレーションされた結果から前記逆強化学習アルゴリズムを介して重みベクトルを含む前記報酬関数を学習させ、
エージェントにおける前記重みベクトルを初期値として使用した報酬関数を持つ行動を選択し、トレーナーによって自装置の状態と選択された行動が評価された結果がフィードバックされた前記評価を用いて前回選択した行動の確率を計算し、インタラクション体験で受け取る人の報酬値の近似された期待値を学習し、前記人の報酬関数を最大化するように学習し、学習した結果に基づいて、前記人の報酬予測値が最も大きい行動を選択させる、
プログラム。 to the computer,
The demonstrated result of the sequence of trainer state and action pairs is given as a reward function to the inverse reinforcement learning module by an inverse reinforcement learning algorithm, and the demonstrated result is passed through the inverse reinforcement learning algorithm from the demonstrated result to the inverse reinforcement learning module. Learn the reward function ,
The agent selects an action that has a reward function using the weight vector as an initial value, and the trainer evaluates the state of the self-apparatus and the selected action. Calculate the probability, learn the approximate expected value of the reward value of the person receiving the interaction experience, learn to maximize the reward function of the person, and based on the learned result, calculate the predicted reward value of the person Let them choose the action with the largest
program.
Priority Applications (4)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020132962A JP7446178B2 (en) | 2020-08-05 | 2020-08-05 | Behavior control device, behavior control method, and program |
| US17/923,921 US12397438B2 (en) | 2020-06-24 | 2021-06-22 | Behavior control device, behavior control method, and program |
| EP21829758.8A EP4144425A4 (en) | 2020-06-24 | 2021-06-22 | BEHAVIOR CONTROL DEVICE, BEHAVIOR CONTROL METHOD AND PROGRAM |
| PCT/JP2021/023545 WO2021261474A1 (en) | 2020-06-24 | 2021-06-22 | Behavior control device, behavior control method, and program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020132962A JP7446178B2 (en) | 2020-08-05 | 2020-08-05 | Behavior control device, behavior control method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022029599A JP2022029599A (en) | 2022-02-18 |
| JP7446178B2 true JP7446178B2 (en) | 2024-03-08 |
Family
ID=80325061
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020132962A Active JP7446178B2 (en) | 2020-06-24 | 2020-08-05 | Behavior control device, behavior control method, and program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7446178B2 (en) |
Families Citing this family (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US12544919B2 (en) | 2021-08-10 | 2026-02-10 | Honda Motor Co., Ltd. | Learning device, learning method, and program |
| JP7546811B2 (en) * | 2022-03-22 | 2024-09-06 | 三菱電機株式会社 | Human-cooperative agent device, system, multi-agent learning method, and program |
| CN115826751A (en) * | 2022-11-29 | 2023-03-21 | 中国传媒大学 | Human-computer hybrid intelligent multi-modal authoring system |
| JP7838491B2 (en) | 2023-01-10 | 2026-04-01 | トヨタ自動車株式会社 | Mobile device |
| JP7775406B2 (en) * | 2023-09-19 | 2025-11-25 | ソフトバンクグループ株式会社 | system |
| WO2025115886A1 (en) * | 2023-11-27 | 2025-06-05 | avatarin株式会社 | System, program, and information processing method |
Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013225192A (en) | 2012-04-20 | 2013-10-31 | Nippon Telegr & Teleph Corp <Ntt> | Reward function estimation apparatus, reward function estimation method and program |
| JP2018030185A (en) | 2016-08-23 | 2018-03-01 | ファナック株式会社 | A machine learning device, a robot system, and a machine learning method for learning movements of a robot in which a person and a robot work together |
| JP2019521449A (en) | 2016-03-31 | 2019-07-25 | ジボ インコーポレイテッド | Persistent Companion Device Configuration and Deployment Platform |
-
2020
- 2020-08-05 JP JP2020132962A patent/JP7446178B2/en active Active
Patent Citations (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2013225192A (en) | 2012-04-20 | 2013-10-31 | Nippon Telegr & Teleph Corp <Ntt> | Reward function estimation apparatus, reward function estimation method and program |
| JP2019521449A (en) | 2016-03-31 | 2019-07-25 | ジボ インコーポレイテッド | Persistent Companion Device Configuration and Deployment Platform |
| JP2018030185A (en) | 2016-08-23 | 2018-03-01 | ファナック株式会社 | A machine learning device, a robot system, and a machine learning method for learning movements of a robot in which a person and a robot work together |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022029599A (en) | 2022-02-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7446178B2 (en) | Behavior control device, behavior control method, and program | |
| US12397438B2 (en) | Behavior control device, behavior control method, and program | |
| US8571714B2 (en) | Robot with automatic selection of task-specific representations for imitation learning | |
| JP6517762B2 (en) | A robot system that learns the motion of a robot that a human and a robot work together | |
| CN115551681A (en) | Train and/or utilize machine learning models for use in natural language-based robotic control | |
| US11833691B2 (en) | Hybrid robotic motion planning system using machine learning and parametric trajectories | |
| US6980889B2 (en) | Information processing apparatus and method, program storage medium, and program | |
| JP2005199403A (en) | Emotion recognition apparatus and method, robot apparatus emotion recognition method, robot apparatus learning method, and robot apparatus | |
| Mousas | Performance-driven dance motion control of a virtual partner character | |
| CN120095830B (en) | Robot control method, computer device, and computer-readable storage medium | |
| JP2021192141A (en) | Learning equipment, learning methods, and learning programs | |
| JP2009140454A (en) | Data processing apparatus, data processing method, and program | |
| Wu et al. | Retargeting human facial expression to human-like robotic face through neural network surrogate-based optimization | |
| US20250345932A1 (en) | Learning physics-based interactions from demonstration | |
| JP7548970B2 (en) | Doppelganger remote robot system | |
| Taliaronak et al. | Advancing humanoid robots for social integration: Evaluating trustworthiness through a social cognitive framework | |
| EP4578604A1 (en) | Proactive robot using theory of mind, multi-agent simulation, and emotion-aware planning | |
| WO2025165642A1 (en) | Fast and slow adaptation for language model predictive control and/or guidance | |
| Rohith et al. | Systematic Review of Mobile Robot Control by Using Human-Robot Interaction | |
| Brady et al. | Teaching Arm and Head Gestures to a Humanoid Robot through Interactive Demonstration and Spoken Instruction | |
| Wang et al. | Reinforcement Learning based End-to-End Control of Bimanual Robotic Coordination | |
| Abdelrahman | Incorporating contextual knowledge into human-robot collaborative task execution | |
| Chandran et al. | Recognition System for Enhancing Communication in Specially Abled | |
| Stavrou | Transfer learning exploiting demonstrations in a human-robot interactive game | |
| WO2026044213A1 (en) | Generative models for simulation of interactive environments |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221128 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231010 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231206 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240213 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240227 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7446178 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |