JP7417015B2 - Gesture shape learning device, gesture shape estimation device, methods thereof, and programs - Google Patents
Gesture shape learning device, gesture shape estimation device, methods thereof, and programs Download PDFInfo
- Publication number
- JP7417015B2 JP7417015B2 JP2020086507A JP2020086507A JP7417015B2 JP 7417015 B2 JP7417015 B2 JP 7417015B2 JP 2020086507 A JP2020086507 A JP 2020086507A JP 2020086507 A JP2020086507 A JP 2020086507A JP 7417015 B2 JP7417015 B2 JP 7417015B2
- Authority
- JP
- Japan
- Prior art keywords
- gesture
- shape
- gesture shape
- image
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
特許法第30条第2項適用 (1)▲1▼ウェブサイト掲載日 2019年10月14日 ▲2▼ウェブサイトのアドレス ICMI2019 Conference Program ウェブサイト https://icmi.acm.org/2019/index.php?id=program (2)▲1▼ウェブサイト掲載日 2019年10月14日 ▲2▼ウェブサイトのアドレス ICMI2019 ウェブサイト https://dl.acm.org/citation.cfm?id=3353736 (3)▲1▼開催日 2019年10月14日~2019年10月18日(公知日:2019年10月15日) ▲2▼集会名、開催場所 ICMI 2019 Conference GRAND DUSHULAKE(中国 蘇州 工■■区■月街299号)Application of Article 30,
この発明は、単語に対して適切な形状の図像的ジェスチャを付与する技術に関する。 The present invention relates to a technique for adding appropriately shaped iconographic gestures to words.
発話において、具体物のイメージを表現するハンドジェスチャ(以下、「ジェスチャ」とも呼ぶ)を図像的ジェスチャという。非特許文献1には、単語を基に検索されたウェブ上の画像を収集し、その単語に対する3種類の形状をその画像のSIFT特徴量から推定する推定器を決定木学習手法によって構築する技術が記載されている。
In speech, hand gestures (hereinafter also referred to as "gestures") that express images of concrete objects are called iconographic gestures. Non-Patent
しかしながら、非特許文献1に記載の従来技術では、推定精度が高くないという課題があった。
However, the conventional technique described in Non-Patent
この発明の目的は、単語に対して適切な形状の図像的ジェスチャを高精度に推定することである。 An object of the present invention is to estimate an iconographic gesture having an appropriate shape for a word with high accuracy.
上記の課題を解決するために、この発明の第一の態様のジェスチャ形状学習装置は、ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられた学習データを記憶する学習データ記憶部と、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを、学習データを用いて学習するジェスチャ形状学習部と、を含む。 In order to solve the above problems, a gesture shape learning device according to a first aspect of the present invention stores learning data in which a plurality of images corresponding to a certain word are associated with a gesture shape corresponding to the word. A learning data storage unit, and a gesture shape learning unit that uses the learning data to learn a gesture shape determination model that receives as input a feature amount consisting of color information of each pixel extracted from an image and estimates a gesture shape corresponding to that image. and, including.
この発明の第二の態様のジェスチャ形状学習装置は、ある単語に対応する複数の画像と、その単語に対応するジェスチャ形状とが関連付けられた学習データを記憶する学習データ記憶部と、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを、学習データを用いて学習する基本形状学習部と、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを、学習データを用いて学習する縦横比学習部と、を含む。 A gesture shape learning device according to a second aspect of the present invention includes a learning data storage unit that stores learning data in which a plurality of images corresponding to a certain word are associated with a gesture shape corresponding to the word; A basic shape learning unit that uses learning data to learn a basic shape determination model that estimates the basic shape of the gesture shape corresponding to the image by inputting feature quantities consisting of color information of each pixel extracted from the image. The image forming apparatus includes an aspect ratio learning unit that uses learning data to learn an aspect ratio determination model that receives a feature amount consisting of color information of each pixel as input and estimates the aspect ratio of a gesture shape corresponding to the image.
この発明の第三の態様のジェスチャ形状推定装置は、第一の態様のジェスチャ形状学習装置により学習したジェスチャ形状決定モデルを記憶するモデル記憶部と、入力画像から抽出した各画素の色情報からなる特徴量をジェスチャ形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状を推定するジェスチャ形状推定部と、を含む。 A gesture shape estimating device according to a third aspect of the present invention includes a model storage unit that stores the gesture shape determination model learned by the gesture shape learning device according to the first aspect, and color information of each pixel extracted from an input image. The gesture shape estimation unit inputs the feature amount into the gesture shape determination model and estimates the gesture shape corresponding to the input image.
この発明の第四の態様のジェスチャ形状推定装置は、第二の態様のジェスチャ形状学習装置により学習した基本形状決定モデルおよび縦横比決定モデルを記憶するモデル記憶部と、入力画像から抽出した各画素の色情報からなる特徴量を基本形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状の基本形状を推定する基本形状推定部と、入力画像から抽出した各画素の色情報からなる特徴量を縦横比決定モデルへ入力して、その入力画像に対応するジェスチャ形状の縦横比を推定する縦横比推定部と、基本形状および縦横比から入力画像に対応するジェスチャ形状を決定するジェスチャ形状決定部と、を含む。 A gesture shape estimating device according to a fourth aspect of the present invention includes a model storage unit that stores a basic shape determining model and an aspect ratio determining model learned by the gesture shape learning device according to the second aspect, and each pixel extracted from an input image. A basic shape estimator that inputs feature quantities consisting of color information into a basic shape determination model to estimate the basic shape of a gesture shape corresponding to the input image, and a feature consisting of color information of each pixel extracted from the input image. an aspect ratio estimation unit that inputs the amount into an aspect ratio determination model to estimate the aspect ratio of a gesture shape corresponding to the input image; and a gesture shape determination unit that determines the gesture shape corresponding to the input image from the basic shape and aspect ratio. including.
この発明によれば、単語に対して適切な形状の図像的ジェスチャを高精度に推定することができる。特に、ジェスチャ形状の基本形状とその基本形状における縦横比とを二段階で推定することで、より高精度にジェスチャ形状を推定することが可能となる。 According to the present invention, an iconographic gesture having an appropriate shape for a word can be estimated with high accuracy. In particular, by estimating the basic shape of the gesture shape and the aspect ratio of the basic shape in two stages, it is possible to estimate the gesture shape with higher accuracy.
以下、この発明の実施の形態について詳細に説明する。なお、図面中において同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。 Embodiments of the present invention will be described in detail below. Note that in the drawings, components having the same functions are designated by the same numbers, and redundant explanation will be omitted.
この発明では、ジェスチャ形状を推定するための入力情報(特徴量)として、画像の各画素のRGB情報を利用する。入力情報からジェスチャ形状を推定する推定器として、深層学習技術を利用する。また、推定器を構築する際に、特徴量からジェスチャ形状を一段階で推定する形態と、ジェスチャ形状の基本形状とその基本形状における縦横比とを二段階で推定する形態とを説明する。一段階の推定であっても従来技術より高精度にジェスチャ形状を推定することが可能であるが、二段階の推定であればより高精度にジェスチャ形状を推定することが可能となる。 In this invention, RGB information of each pixel of an image is used as input information (feature amount) for estimating a gesture shape. Deep learning technology is used as an estimator that estimates gesture shapes from input information. Furthermore, when constructing an estimator, a mode in which a gesture shape is estimated from the feature amount in one step, and a mode in which the basic shape of the gesture shape and the aspect ratio of the basic shape are estimated in two steps will be explained. Even with one-stage estimation, it is possible to estimate the gesture shape with higher precision than in the prior art, but with two-stage estimation, it is possible to estimate the gesture shape with higher precision.
[第一実施形態]
第一実施形態は、画像の特徴量からジェスチャ形状を一段階で推定するジェスチャ形状決定モデルを学習するジェスチャ形状学習装置1と、ジェスチャ形状学習装置1により学習されたジェスチャ形状決定モデルを用いて入力画像からジェスチャ形状を推定するジェスチャ形状推定装置2とからなる。
[First embodiment]
The first embodiment uses a gesture
<ジェスチャ形状学習装置1>
第一実施形態のジェスチャ形状学習装置1は、図1に例示するように、単語辞書記憶部110、物体画像記憶部120、画像サイズ変換部11、学習データ生成部12、学習データ記憶部130、ジェスチャ形状学習部13、およびモデル記憶部140を備える。このジェスチャ形状学習装置1が、図2に例示する各ステップの処理を行うことにより第一実施形態のジェスチャ形状学習方法が実現される。
<Gesture
As illustrated in FIG. 1, the gesture
ジェスチャ形状学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ジェスチャ形状学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ジェスチャ形状学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。ジェスチャ形状学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ジェスチャ形状学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。 The gesture shape learning device is, for example, a special computer configured by loading a special program into a publicly known or dedicated computer that has a central processing unit (CPU), a main memory (RAM), etc. It is a very good device. The gesture shape learning device executes each process under the control of, for example, a central processing unit. The data input to the gesture shape learning device and the data obtained through each process are stored, for example, in the main memory, and the data stored in the main memory is read out to the central processing unit as necessary. Used for other processing. Each processing unit of the gesture shape learning device may be configured at least in part by hardware such as an integrated circuit. Each storage unit included in the gesture shape learning device includes, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device constituted by a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, or It can be configured with middleware such as relational databases and key-value stores.
図2を参照して、第一実施形態のジェスチャ形状学習装置1が実行するジェスチャ形状学習方法の処理手続きを説明する。
With reference to FIG. 2, the processing procedure of the gesture shape learning method executed by the gesture
ステップS110において、ジェスチャ形状学習装置1は、単語辞書データベースを構築し、その単語辞書データベースを単語辞書記憶部110へ記憶する。単語辞書データベースは、予め定めた複数の単語に、その単語に対応するジェスチャ形状の情報を関連付けたものである。複数の単語は、例えば、辞書等から抽出した1000個程度の物体の名称を表す単語(以下、「物体名称単語」とも呼ぶ)である。ジェスチャ形状は、例えば、「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「正三角形」「横長三角」「縦長三角」「波形」「線形」「横長ひし形」「縦長ひし形」「不明」の14種類から選択する。以下では、14種類のジェスチャ形状のうち、選択される数が少ないものを統合して、「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類を用いるものとする。ただし、ジェスチャ形状の選択肢は上記に限定されず、利用環境に応じて任意に設定すればよい。各単語とジェスチャ形状との関連付けは、複数のアノテーターが人手で行うものとする。
In step S110, the gesture
ステップS120において、ジェスチャ形状学習装置1は、物体画像データベースを構築し、その物体画像データベースを物体画像記憶部120へ記憶する。物体画像データベースは、単語辞書データベースに含まれる各単語に、その単語に対応する複数の画像を関連付けたものである。複数の画像は、例えば、各単語を検索語としてインターネットで画像検索し、検索結果から適当な画像を10枚程度ダウンロードして収集すればよい。
In step S120, the gesture
ステップS11において、画像サイズ変換部11は、物体画像データベースに含まれる各画像を、それらを使用する機械学習手法に応じて適切な画像サイズに変換する。例えば、224×224ピクセルのRGB画像等に変換すればよい。
In step S11, the image
ステップS12において、学習データ生成部12は、画像サイズ変換部11により変換された画像に対して、その画像に対応するジェスチャ形状を教師データとして付与し、学習データを生成する。画像に対応するジェスチャ形状は、物体画像データベース中でその画像に関連付けられた単語を取得し、単語辞書データベース中でその単語に関連付けられたジェスチャ形状を取得すればよい。学習データ生成部12は、生成した学習データを学習データ記憶部130へ記憶する。
In step S12, the learning
ステップS13において、ジェスチャ形状学習部13は、学習データ記憶部130へ記憶された学習データを用いて、画像から抽出した特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを学習する。ジェスチャ形状決定モデルは、ニューラルネットワークを利用して構築される。図3にジェスチャ形状決定モデルの具体的な構成例を示す。ジェスチャ形状決定モデルの入力(図3のInput 1, Input 2, …, Input n)は、単語に対するn枚(例えば10枚)の各画像に対応する。まず、入力の各画像(224×224ピクセルのRGB 3チャネルの画像)に対して、深層学習を用いた学習済みのVGG-16モデルを適用し、4096次元の特徴量を得る(図3のVGG-16)。次に、n枚の画像から得られたn個の4096次元の特徴量から4096次元の平均ベクトルを算出する(図3のAverage)。このようにしてn枚の画像から得られた4096次元の平均ベクトルを入力とし、各画像に対応するジェスチャ形状を出力するジェスチャ形状決定モデルを構築する。なおこのとき、必ずしもInput1~nと対となる各VGG-16は必要ではなく、図3のAverageにおいて、n個のinputの特徴量抽出結果(VGG-16)を加算し平均をとる構成であってもよい。また、VGG-16の利用は一例であって、画像を入力として特徴量を抽出するような他の一般的なモデルを利用してもよい。同様に取得される次元数もモデルに合わせて任意のものでよい。学習手法として、全結合の2層からなるニューラルネットワークの出力をSoftmax関数に適用することにより、7種類のジェスチャ形状を表すラベルの尤度を計算する。1層目のニューラルネットワーク(図3のFC1)は、全結合のニューラルネットワークである。FC1は、活性化関数として例えばRelu関数を用い、出力として128次元のベクトルを得る。2層目のニューラルネットワーク(図3のFC2)は、FC1の出力ベクトルを入力として、Softmax関数により7種類のジェスチャ形状に対応する各ラベルの尤度を計算する。このニューラルネットワークを用いた機械学習の結果として、ジェスチャ形状決定モデルを得る。ジェスチャ形状学習部13は、学習済みのジェスチャ形状決定モデルをモデル記憶部140へ記憶する。
In step S13, the gesture
<ジェスチャ形状推定装置2>
第一実施形態のジェスチャ形状推定装置2は、図4に例示するように、モデル記憶部140、画像サイズ変換部21、およびジェスチャ形状推定部22を備える。このジェスチャ形状推定装置2が、図5に例示する各ステップの処理を行うことにより第一実施形態のジェスチャ形状推定方法が実現される。
<Gesture
The gesture shape
ジェスチャ形状推定装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。ジェスチャ形状推定装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。ジェスチャ形状推定装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。ジェスチャ形状推定装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。ジェスチャ形状推定装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。 The gesture shape estimation device is, for example, a special computer configured by loading a special program into a publicly known or dedicated computer having a central processing unit (CPU), a main memory (RAM), etc. It is a very good device. The gesture shape estimation device executes each process under the control of a central processing unit, for example. The data input to the gesture shape estimation device and the data obtained through each process are stored, for example, in the main memory, and the data stored in the main memory is read out to the central processing unit as necessary. Used for other processing. Each processing unit of the gesture shape estimation device may be configured at least in part by hardware such as an integrated circuit. Each storage unit included in the gesture shape estimation device includes, for example, a main storage device such as a RAM (Random Access Memory), an auxiliary storage device configured with a semiconductor memory element such as a hard disk, an optical disk, or a flash memory, or It can be configured with middleware such as relational databases and key-value stores.
図5を参照して、第一実施形態のジェスチャ形状推定装置2が実行するジェスチャ形状推定方法の処理手続きを説明する。
With reference to FIG. 5, the processing procedure of the gesture shape estimation method executed by the gesture
モデル記憶部140には、ジェスチャ形状学習装置1により学習されたジェスチャ形状決定モデルが記憶されている。
The
ジェスチャ形状推定装置2には、推定対象とする物体名称単語に対応するn枚の画像が入力される。これらの画像は、例えば、物体画像データベースを構築する際と同様に、インターネット上からダウンロードして収集したものでもよいし、その他の手法により収集したものでもよい。
The gesture shape
ステップS21において、画像サイズ変換部21は、各入力画像を、モデル適用に適した画像サイズに変換する。すなわち、画像サイズ変換部21は、ジェスチャ形状学習装置1の画像サイズ変換部11と同様にして、入力画像のサイズを変換する。
In step S21, the
ステップS22において、ジェスチャ形状推定部22は、画像サイズ変換部21により変換されたn枚の入力画像を、モデル記憶部140に記憶されているジェスチャ形状決定モデルに入力し、入力画像に対応するジェスチャ形状を推定する。具体的には、まず、各入力画像に対して、学習済みのVGG-16を適用し、4096次元の特徴量を得る。次に、各入力画像から得られた4096次元の特徴量から4096次元の平均ベクトルを算出する。この4096次元の平均ベクトルを学習済みのニューラルネットワークに入力し、7種類のジェスチャ形状を表すラベルの尤度を出力結果として得る。そして、出力結果の尤度が最大となるジェスチャ形状を、推定対象とした物体名称単語に対応するジェスチャ形状として出力する。
In step S22, the gesture
[第二実施形態]
第二実施形態は、画像の特徴量からジェスチャ形状を二段階で推定するジェスチャ形状決定モデルを学習するジェスチャ形状学習装置3と、ジェスチャ形状学習装置3により学習されたジェスチャ形状決定モデルを用いて入力画像からジェスチャ形状を推定するジェスチャ形状推定装置4とからなる。二段階の推定では、まずジェスチャ形状の基本形状を推定し、次にその基本形状における縦横比を推定する。最終的に推定したいジェスチャ形状が、第一実施形態で例示したように「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類であるとすれば、基本形状を「円」「四角」「線形」の3種類とし、縦横比を「横長」「縦長」「均等」の3種類とすればよい。最終的に出力されるジェスチャ形状は、基本形状と縦横比の組み合わせにより決定する。例えば、基本形状の推定結果が「円」であり、縦横比の推定結果が「横長」であれば、出力されるジェスチャ形状は「横長楕円」となる。以下、第一実施形態との相違点を中心に説明する。
[Second embodiment]
The second embodiment uses a gesture
<ジェスチャ形状学習装置3>
第二実施形態のジェスチャ形状学習装置3は、図6に例示するように、ジェスチャ形状学習部13が基本形状学習部131および縦横比学習部132を備える点が、第一実施形態のジェスチャ形状学習装置1と異なる。このジェスチャ形状学習装置3が、図7に例示する各ステップの処理を行うことにより第二実施形態のジェスチャ形状学習方法が実現される。
<Gesture
The gesture
ステップS131において、基本形状学習部131は、学習データ記憶部130へ記憶された学習データを用いて、画像から抽出した特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを学習する。基本形状決定モデルの構造は、図3に示した第一実施形態のジェスチャ形状決定モデルと同様である。第一実施形態では、学習データのジェスチャ形状を「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類としたが、これらのジェスチャ形状のうち「円」「横長楕円」「縦長楕円」を「円」に、「正方形」「横長四角」「縦長四角」を「四角」に変換して学習を行う。基本形状学習部131は、学習済みの基本形状決定モデルをモデル記憶部140へ記憶する。
In step S131, the basic
ステップS132において、縦横比学習部132は、学習データ記憶部130へ記憶された学習データを用いて、画像から抽出した特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを学習する。縦横比決定モデルの構造は、図3に示した第一実施形態のジェスチャ形状決定モデルと同様である。第一実施形態では、学習データのジェスチャ形状を「円」「横長楕円」「縦長楕円」「正方形」「横長四角」「縦長四角」「線形」の7種類としたが、これらのジェスチャ形状のうち「円」「正方形」を「均等」に、「横長楕円」「横長四角」を「横長」に、「縦長楕円」「縦長四角」を「縦長」に変換して学習を行う。縦横比学習部132は、学習済みの縦横比決定モデルをモデル記憶部140へ記憶する。
In step S132, the aspect
<ジェスチャ形状推定装置4>
第二実施形態のジェスチャ形状推定装置4は、図8に例示するように、ジェスチャ形状推定部22が基本形状推定部221、縦横比推定部222、およびジェスチャ形状決定部223を備える点が、第一実施形態のジェスチャ形状推定装置2と異なる。このジェスチャ形状推定装置4が、図9に例示する各ステップの処理を行うことにより第二実施形態のジェスチャ形状推定方法が実現される。
<Gesture
The gesture
ステップS221において、基本形状推定部221は、画像サイズ変換部21により変換されたn枚の入力画像を、モデル記憶部140に記憶されている基本形状決定モデルに入力し、入力画像に対応するジェスチャ形状の基本形状を推定する。基本形状推定部221は、基本形状決定モデルの出力結果の尤度が最大となる基本形状を、ジェスチャ形状の基本形状としてジェスチャ形状決定部223へ出力する。
In step S221, the basic shape estimation unit 221 inputs the n input images converted by the image
なお、基本形状推定部221が推定したジェスチャ形状の基本形状が、例えば「線形」のように縦横比の別が存在しない形状である場合、以降の処理は実行せず、その基本形状を推定対象とした物体名称単語に対応するジェスチャ形状として出力する。 Note that if the basic shape of the gesture shape estimated by the basic shape estimation unit 221 is a shape that does not have a different aspect ratio, such as a "linear" shape, the subsequent processing is not performed and the basic shape is used as the estimation target. Output as a gesture shape corresponding to the object name word.
ステップS222において、縦横比推定部222は、画像サイズ変換部21により変換されたn枚の入力画像を、モデル記憶部140に記憶されている縦横比決定モデルに入力し、入力画像に対応するジェスチャ形状の縦横比を推定する。縦横比推定部222は、縦横比決定モデルの出力結果の尤度が最大となる縦横比を、ジェスチャ形状の縦横比としてジェスチャ形状決定部223へ出力する。
In step S222, the aspect
ステップS223において、ジェスチャ形状決定部223は、ジェスチャ形状決定部223が出力する基本形状と、縦横比推定部222が出力する縦横比とからジェスチャ形状を決定し、推定対象とした物体名称単語に対応するジェスチャ形状として出力する。
In step S223, the gesture
[第三実施形態]
第三実施形態では、第一実施形態もしくは第二実施形態のジェスチャ形状推定技術を、モーションラベル生成技術と組み合わせる。モーションラベル生成技術とは、発話を文字起こしした発話テキストから、発話内容に合わせた全身のモーションのラベルを生成する技術である(例えば、参考文献1、2参照)。
[Third embodiment]
In the third embodiment, the gesture shape estimation technology of the first embodiment or the second embodiment is combined with the motion label generation technology. The motion label generation technology is a technology that generates a label for the motion of the whole body that matches the content of the utterance from the utterance text obtained by transcribing the utterance (for example, see
〔参考文献1〕国際公開第2019/160104号
〔参考文献2〕Ryo Ishii, Taichi Katayama, Ryuichiro Higashinaka, and Junji Tomita, "Generating Body Motions using Spoken Language in Dialogue," Proceedings of the 18th International Conference on Intelligent Virtual Agents (IVA '18), pp. 87-92, 2018.
[Reference 1] International Publication No. 2019/160104 [Reference 2] Ryo Ishii, Taichi Katayama, Ryuichiro Higashinaka, and Junji Tomita, "Generating Body Motions using Spoken Language in Dialogue," Proceedings of the 18th International Conference on Intelligent Virtual Agents (IVA '18), pp. 87-92, 2018.
モーションラベル生成技術では、発話テキストを入力として、発話テキストの文節ごとにどのようなハンドジェスチャを行うかを表す情報を生成する。例えば参考文献1、2に記載された技術では、文節ごとに図像的ジェスチャを行うか否かのラベルを出力する。第三実施形態では、このラベルが出力された際に、そのラベルが出力された文節および前後の文節に含まれる単語を用いて、第一実施形態もしくは第二実施形態のジェスチャ形状推定を実施することで、どのような形状のジェスチャを生成するかをより詳細に推定する。以下、第一実施形態および第二実施形態との相違点を中心に説明する。
Motion label generation technology takes spoken text as input and generates information indicating what kind of hand gesture to perform for each clause of the spoken text. For example, in the techniques described in
<ジェスチャ形状推定装置5>
第三実施形態のジェスチャ形状推定装置5は、図10に例示するように、第一実施形態と同様に、モデル記憶部140、画像サイズ変換部21、およびジェスチャ形状推定部22を備え、さらに、モーションラベル生成部31および入力画像生成部32を備える。このジェスチャ形状推定装置5が、図11に例示する各ステップの処理を行うことにより第三実施形態のジェスチャ形状推定方法が実現される。
<Gesture
As illustrated in FIG. 10, the gesture
ステップS31において、モーションラベル生成部31は、入力された発話テキストから、文節ごとにジェスチャを行うか否かを表すモーションラベルを生成する。モーションラベル生成部31は、ジェスチャを行うことを表すモーションラベルが生成されたら、入力画像生成部32へその旨を通知する。
In step S31, the motion
ステップS32において、入力画像生成部32は、ジェスチャを行う旨を表すモーションラベルが生成された文節およびその前後の文節に含まれる単語について、その単語に対応するn枚の画像を収集する。画像の収集は、例えば、ジェスチャ形状学習装置で用いた物体画像データベースからその単語に対応する画像を取得してもよいし、物体画像データベースを生成する際に行ったようにその単語を検索語としてインターネットで画像検索してダウンロードしてもよい。入力画像生成部32は、収集したn枚の画像を、入力画像として画像サイズ変換部21へ入力する。
In step S32, the input image generation unit 32 collects n images corresponding to the phrase included in the phrase and the phrases before and after the phrase for which a motion label indicating performing a gesture has been generated. Images may be collected, for example, by acquiring images corresponding to the word from the object image database used in the gesture shape learning device, or by using the word as a search term, as was done when generating the object image database. You can also search for images on the Internet and download them. The input image generation unit 32 inputs the collected n images to the image
ステップS21において、画像サイズ変換部21は、第一実施形態と同様に、各入力画像をモデル適用に適した画像サイズに変換し、ジェスチャ形状推定部22へ入力する。
In step S21, the
ステップS22において、ジェスチャ形状推定部22は、第一実施形態と同様に、n枚の入力画像からジェスチャ形状を推定する。
In step S22, the gesture
第三実施形態では、第一実施形態のジェスチャ形状推定装置2をモーションラベル生成技術と組み合わせる構成を説明したが、第二実施形態のジェスチャ形状推定装置4と組み合わせるように構成してもよい。この場合、ジェスチャ形状推定装置5は、ジェスチャ形状推定部22が基本形状推定部221、縦横比推定部222、およびジェスチャ形状決定部223を備えるように構成すればよい。
In the third embodiment, a configuration has been described in which the gesture
従来のモーションラベル生成技術では図像的ジェスチャの具体的な形状までを推定することはできなかった。第三実施形態のジェスチャ形状推定技術を用いればより詳細なジェスチャ形状を推定することが可能となる。 Conventional motion label generation techniques have not been able to estimate the specific shape of iconographic gestures. If the gesture shape estimation technique of the third embodiment is used, it becomes possible to estimate a more detailed gesture shape.
以上、この発明の実施の形態について説明したが、具体的な構成は、これらの実施の形態に限られるものではなく、この発明の趣旨を逸脱しない範囲で適宜設計の変更等があっても、この発明に含まれることはいうまでもない。実施の形態において説明した各種の処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。 Although the embodiments of this invention have been described above, the specific configuration is not limited to these embodiments, and even if the design is changed as appropriate without departing from the spirit of this invention, Needless to say, it is included in this invention. The various processes described in the embodiments are not only executed in chronological order according to the order described, but also may be executed in parallel or individually depending on the processing capacity of the device that executes the processes or as necessary.
[プログラム、記録媒体]
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図12に示すコンピュータの記憶部1020に読み込ませ、制御部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
[Program, recording medium]
When the various processing functions of each device described in the above embodiments are realized by a computer, the processing contents of the functions that each device should have are described by a program. By loading this program into the
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。 A program describing the contents of this process can be recorded on a computer-readable recording medium. The computer-readable recording medium may be of any type, such as a magnetic recording device, an optical disk, a magneto-optical recording medium, or a semiconductor memory.
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。 Further, this program is distributed by, for example, selling, transferring, lending, etc. portable recording media such as DVDs and CD-ROMs on which the program is recorded. Furthermore, this program may be distributed by storing the program in the storage device of the server computer and transferring the program from the server computer to another computer via a network.
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。 A computer that executes such a program, for example, first stores a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. When executing a process, this computer reads a program stored in its own storage device and executes a process according to the read program. In addition, as another form of execution of this program, the computer may directly read the program from a portable recording medium and execute processing according to the program, and furthermore, the program may be transferred to this computer from the server computer. The process may be executed in accordance with the received program each time. In addition, the above-mentioned processing is executed by a so-called ASP (Application Service Provider) type service, which does not transfer programs from the server computer to this computer, but only realizes processing functions by issuing execution instructions and obtaining results. You can also use it as Note that the program in this embodiment includes information that is used for processing by an electronic computer and that is similar to a program (data that is not a direct command to the computer but has a property that defines the processing of the computer, etc.).
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。 Further, in this embodiment, the present apparatus is configured by executing a predetermined program on a computer, but at least a part of these processing contents may be realized by hardware.
Claims (11)
画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを、前記学習データを用いて学習するジェスチャ形状学習部と、
を含むジェスチャ形状学習装置。 Using a database in which a plurality of images corresponding to a certain word are associated with gesture shapes corresponding to the word, the gesture shapes corresponding to the images are assigned as training data, and the generated learning data is stored. a learning data storage unit;
a gesture shape learning unit that uses the learning data to learn a gesture shape determination model that receives as input a feature amount consisting of color information of each pixel extracted from the image and estimates a gesture shape corresponding to the image;
A gesture shape learning device including:
画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを、前記学習データを用いて学習する基本形状学習部と、
画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを、前記学習データを用いて学習する縦横比学習部と、
を含むジェスチャ形状学習装置。 Using a database in which a plurality of images corresponding to a certain word are associated with gesture shapes corresponding to the word, the gesture shapes corresponding to the images are assigned as training data, and the generated learning data is stored. a learning data storage unit;
a basic shape learning unit that uses the training data to learn a basic shape determination model that receives as input a feature amount consisting of color information of each pixel extracted from the image and estimates a basic shape of a gesture shape corresponding to the image;
an aspect ratio learning unit that uses the learning data to learn an aspect ratio determination model that receives as input a feature amount consisting of color information of each pixel extracted from the image and estimates the aspect ratio of a gesture shape corresponding to the image;
A gesture shape learning device including:
入力画像から抽出した各画素の色情報からなる特徴量を前記ジェスチャ形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状を推定するジェスチャ形状推定部と、
を含むジェスチャ形状推定装置。 a model storage unit that stores a gesture shape determination model learned by the gesture shape learning device according to claim 1;
a gesture shape estimation unit that inputs a feature amount consisting of color information of each pixel extracted from the input image to the gesture shape determination model and estimates a gesture shape corresponding to the input image;
A gesture shape estimation device including:
入力画像から抽出した各画素の色情報からなる特徴量を前記基本形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状の基本形状を推定する基本形状推定部と、
入力画像から抽出した各画素の色情報からなる特徴量を前記縦横比決定モデルへ入力して、その入力画像に対応するジェスチャ形状の縦横比を推定する縦横比推定部と、
前記基本形状および前記縦横比から前記入力画像に対応するジェスチャ形状を決定するジェスチャ形状決定部と、
を含むジェスチャ形状推定装置。 a model storage unit that stores the basic shape determination model and the aspect ratio determination model learned by the gesture shape learning device according to claim 2;
a basic shape estimating unit that inputs a feature amount consisting of color information of each pixel extracted from the input image to the basic shape determination model to estimate the basic shape of a gesture shape corresponding to the input image;
an aspect ratio estimating unit that inputs feature quantities consisting of color information of each pixel extracted from the input image to the aspect ratio determination model to estimate the aspect ratio of the gesture shape corresponding to the input image;
a gesture shape determination unit that determines a gesture shape corresponding to the input image from the basic shape and the aspect ratio;
A gesture shape estimation device including:
発話テキストからジェスチャを行う文節を表すモーションラベルを生成するモーションラベル生成部と、
前記モーションラベルが生成された前記文節近傍の単語に対応する画像を前記入力画像として取得する入力画像生成部と、
をさらに含むジェスチャ形状推定装置。 The gesture estimation device according to claim 3 or 4,
a motion label generation unit that generates a motion label representing a phrase to perform a gesture from the uttered text;
an input image generation unit that obtains, as the input image, an image corresponding to a word near the phrase for which the motion label has been generated;
A gesture shape estimation device further comprising:
ジェスチャ形状学習部が、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状を推定するジェスチャ形状決定モデルを、前記学習データを用いて学習する、
ジェスチャ形状学習方法。 Using a database in which a plurality of images corresponding to a certain word and gesture shapes corresponding to the word are associated with the learning data storage unit, the gesture shape corresponding to the image is given as training data, and the generated image is generated. learning data is stored.
A gesture shape learning unit receives as input a feature amount consisting of color information of each pixel extracted from an image, and learns a gesture shape determination model for estimating a gesture shape corresponding to the image using the learning data,
Gesture shape learning method.
基本形状学習部が、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の基本形状を推定する基本形状決定モデルを、前記学習データを用いて学習し、
縦横比学習部が、画像から抽出した各画素の色情報からなる特徴量を入力とし、その画像に対応するジェスチャ形状の縦横比を推定する縦横比決定モデルを、前記学習データを用いて学習する、
ジェスチャ形状学習方法。 Using a database in which a plurality of images corresponding to a certain word and gesture shapes corresponding to the word are associated with the learning data storage unit, the gesture shape corresponding to the image is given as training data, and the generated image is generated. learning data is stored.
The basic shape learning unit receives as input the feature amount consisting of color information of each pixel extracted from the image, and uses the learning data to learn a basic shape determination model that estimates the basic shape of the gesture shape corresponding to the image. ,
The aspect ratio learning unit receives as input the feature amount consisting of color information of each pixel extracted from the image, and learns an aspect ratio determination model for estimating the aspect ratio of the gesture shape corresponding to the image using the learning data. ,
Gesture shape learning method.
ジェスチャ形状推定部が、入力画像から抽出した各画素の色情報からなる特徴量を前記ジェスチャ形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状を推定する、
ジェスチャ形状推定方法。 A gesture shape determination model learned by the gesture shape learning method according to claim 6 is stored in the model storage unit,
a gesture shape estimation unit inputs a feature amount consisting of color information of each pixel extracted from the input image to the gesture shape determination model, and estimates a gesture shape corresponding to the input image;
Gesture shape estimation method.
基本形状推定部が、入力画像から抽出した各画素の色情報からなる特徴量を前記基本形状決定モデルへ入力して、その入力画像に対応するジェスチャ形状の基本形状を推定し、
縦横比推定部が、入力画像から抽出した各画素の色情報からなる特徴量を前記縦横比決定モデルへ入力して、その入力画像に対応するジェスチャ形状の縦横比を推定し、
ジェスチャ形状決定部が、前記基本形状および前記縦横比から前記入力画像に対応するジェスチャ形状を決定する、
ジェスチャ形状推定方法。 A basic shape determining model and an aspect ratio determining model learned by the gesture shape learning device according to claim 7 are stored in the model storage unit,
a basic shape estimating unit inputs a feature amount consisting of color information of each pixel extracted from the input image to the basic shape determination model, and estimates a basic shape of a gesture shape corresponding to the input image,
an aspect ratio estimating unit inputs a feature amount consisting of color information of each pixel extracted from an input image to the aspect ratio determination model, and estimates an aspect ratio of a gesture shape corresponding to the input image;
a gesture shape determination unit determines a gesture shape corresponding to the input image from the basic shape and the aspect ratio;
Gesture shape estimation method.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020086507A JP7417015B2 (en) | 2020-05-18 | 2020-05-18 | Gesture shape learning device, gesture shape estimation device, methods thereof, and programs |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2020086507A JP7417015B2 (en) | 2020-05-18 | 2020-05-18 | Gesture shape learning device, gesture shape estimation device, methods thereof, and programs |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021182179A JP2021182179A (en) | 2021-11-25 |
| JP7417015B2 true JP7417015B2 (en) | 2024-01-18 |
Family
ID=78607074
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020086507A Active JP7417015B2 (en) | 2020-05-18 | 2020-05-18 | Gesture shape learning device, gesture shape estimation device, methods thereof, and programs |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7417015B2 (en) |
-
2020
- 2020-05-18 JP JP2020086507A patent/JP7417015B2/en active Active
Non-Patent Citations (3)
| Title |
|---|
| 寺川晃司外6名,テーブルトップインタフェースを用いたバルーンアートのシミュレーション,ヒューマンインタフェース学会 研究報告集 2010,Vol.12 No.8,日本,ヒューマンインターフェース学会,2010年10月14日,p37-42 |
| 浦正広 外4名,バルーンアートの構造解析と難易度評価手法の提案,芸術科学会論文誌,第8巻第4号,日本,一般社団法人 芸術科学会,2009年12月15日,p143-150,https://www.art-science.org/journal/v8n4/v8n4pp143/artsci-v8n4pp143.pdf |
| 門野友城外2名,画像データに基づく図像的ジェスチャの自動生成,2016年度 人工知能学会全国大会(第30回)論文集 2D4-2,日本,一般社団法人人工知能学会,2016年06月06日 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2021182179A (en) | 2021-11-25 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US12242811B2 (en) | Conversation graph navigation with language model | |
| CN108920622B (en) | Intention recognition training method, training device and recognition device | |
| CN109670050B (en) | Entity relationship prediction method and device | |
| WO2019200923A1 (en) | Pinyin-based semantic recognition method and device and human-machine conversation system | |
| CN111090727A (en) | Language conversion processing method, device and dialect voice interaction system | |
| CN112633007B (en) | A semantic understanding model construction method and device, semantic understanding method and device | |
| CN114638195B (en) | Multi-task learning-based ground detection method | |
| CN111814496A (en) | Text processing method, device, equipment and storage medium | |
| CN113190669A (en) | Intelligent dialogue method, device, terminal and storage medium | |
| JP5612720B1 (en) | Dialog control learning apparatus, dialog control apparatus, method and program thereof | |
| JP7593413B2 (en) | SOUND DESCRIPTION GENERATION METHOD, SOUND DESCRIPTION GENERATION DEVICE, AND PROGRAM | |
| CN110489730B (en) | Text processing method, device, terminal and storage medium | |
| CN114444609B (en) | Data processing method, device, electronic equipment and computer readable storage medium | |
| JP7417015B2 (en) | Gesture shape learning device, gesture shape estimation device, methods thereof, and programs | |
| Mendonça et al. | Onception: Active learning with expert advice for real world machine translation | |
| CN117235251A (en) | A text emotion classification method, device and electronic equipment | |
| CN110413745A (en) | Selection represents the method for text, determines the method and device of typical problem | |
| JP6605997B2 (en) | Learning device, learning method and program | |
| US20260018168A1 (en) | Utterance data generating device, dialogue device and generation model creating method | |
| JP6389776B2 (en) | Language identification model learning device, language identification device, language identification method, and program | |
| CN116186219A (en) | Man-machine dialogue interaction method, system and storage medium | |
| CN116501835A (en) | Retrieval enhancement method and device for non-knowledge-intensive tasks | |
| JP5755603B2 (en) | Language model creation device, language model creation method, program | |
| JP5610304B2 (en) | Model parameter array device, method and program thereof | |
| CN113902471A (en) | Marketing strategy updating method and device and computer readable storage medium |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20200518 |
|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200519 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220914 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230726 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230808 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230914 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231205 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231207 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7417015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |