JP7623619B2 - Learning device, estimation device, learning method, estimation method, and program - Google Patents
Learning device, estimation device, learning method, estimation method, and program Download PDFInfo
- Publication number
- JP7623619B2 JP7623619B2 JP2023565771A JP2023565771A JP7623619B2 JP 7623619 B2 JP7623619 B2 JP 7623619B2 JP 2023565771 A JP2023565771 A JP 2023565771A JP 2023565771 A JP2023565771 A JP 2023565771A JP 7623619 B2 JP7623619 B2 JP 7623619B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- encoder
- attribute
- decoder
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Description
本発明は、学習装置、推定装置、学習方法、推定方法及びプログラムに関する。 The present invention relates to a learning device, an estimation device, a learning method, an estimation method and a program.
近年のセンシング技術と機械学習技術の発展に伴い、多種多様な対象を機械によって実世界を認識する取り組みがなされている。例えば一般的なRGBカメラによる映像情報からは人の行動や周辺環境又は物体の認識が可能である。マルチスペクトルカメラを用いることで物体の素材解析などより詳細な情報の認識が可能になりつつある。さらに映像のみならず、音声情報から人の会話内容や感情の認識などが可能である。 With the recent development of sensing technology and machine learning technology, efforts are being made to use machines to recognize a wide variety of objects in the real world. For example, it is possible to recognize human behavior, the surrounding environment, and objects from video information obtained with a general RGB camera. By using a multispectral camera, it is becoming possible to recognize more detailed information, such as analyzing the material of an object. Furthermore, in addition to video, it is possible to recognize the content of people's conversations and emotions from audio information.
このように種々のセンサ情報、モーダル情報を活用するための機械学習技術の開発が盛んに取り組まれている。例えば非特許文献1では、画像とそれを説明するテキストが与えられ、画像特徴とテキスト特徴の関連性を直接学習することで、任意の画像に対して説明文を付与することを可能にしている。一方非特許文献2では、オートエンコーダ用いて複数のモーダルに共通する新たな特徴表現を学習することで、単一の特徴表現で複数のモーダルにおけるタスクを解くことを可能にしている。
In this way, active efforts are being made to develop machine learning technologies that utilize various sensor information and modal information. For example, in Non-Patent Document 1, an image and a text describing it are given, and by directly learning the relationship between image features and text features, it becomes possible to assign a description to any image. Meanwhile, in Non-Patent
しかしながら、これら先行技術は、学習データ一つ一つにすべてのモーダル情報が付与されていることが前提となる。例えばモーダルが画像と言語であった場合、ある画像とその説明文は同一のインスタンスを表現してなければならず、画像のみ、又は、テキストのみのデータは学習データになりえない。すなわち互いに紐づいた画像のデータと言語のデータとが存在しなければ学習の実行ができない。However, these prior art techniques are based on the premise that all modal information is attached to each piece of training data. For example, if the modals are images and language, an image and its description must represent the same instance, and data consisting of only images or only text cannot become training data. In other words, learning cannot be carried out unless image data and language data that are linked to each other exist.
ところで、解析の精度は、紐づいたデータに共通する情報を取得する精度が高いほど高い。そのため、高精度な認識を実現するには複数のモーダル情報が紐づいたデータを大量に用いて、紐づいたデータに共通する情報を取得する精度を高める必要がある。しかしながら、複数のモーダル情報が紐づいたデータを大量に用意することは非常に困難である。そのため、上記先行技術文献等の従来の技術では、複数種類のデータに共通する情報の推定に要する労力が大きい場合があった。 Meanwhile, the accuracy of analysis is higher the more accurately the information common to the linked data is acquired. Therefore, to achieve highly accurate recognition, it is necessary to use a large amount of data linked with multiple modal information to increase the accuracy of acquiring the information common to the linked data. However, it is very difficult to prepare a large amount of data linked with multiple modal information. Therefore, with conventional techniques such as those described in the above prior art documents, it was sometimes necessary to make a large effort to estimate information common to multiple types of data.
上記事情に鑑み、本発明は、複数種類のデータに共通する情報の推定に要する労力を軽減する技術を提供することを目的としている。In view of the above circumstances, the present invention aims to provide a technology that reduces the effort required to estimate information common to multiple types of data.
本発明の一態様は、入力されたデータの特徴量を取得する第1エンコーダと、入力されたデータの特徴量を取得する第2エンコーダと、入力されたデータをデコードする第1デコーダと、入力されたデータをデコードする第2デコーダと、を備えるニューラルネットワークであるマルチモーダルネットワークと、入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部と、を備える学習装置である。One aspect of the present invention is a learning device that includes a multimodal network, which is a neural network including a first encoder that acquires features of input data, a second encoder that acquires features of the input data, a first decoder that decodes the input data, and a second decoder that decodes the input data; and a network control unit that updates the multimodal network using a cross self-consistency loss that indicates the difference between a self-consistent result, which is a result of input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder, and the data, and a common loss that indicates the difference between a result of the first encoder encoding data indicating a first attribute of a main subject, which is a person, living thing, thing, intangible object, or event having multiple attributes, and a result of the second encoder encoding data indicating a second attribute of the main subject that is different from the first attribute.
本発明の一態様は、推定対象の第1の属性を示す第1種対象データと、前記推定対象の有する属性のうちの前記第1の属性とは異なる第2の属性を示す第2種対象データとを取得するデータ取得部と、入力されたデータの特徴量を取得する第1エンコーダと、入力されたデータの特徴量を取得する第2エンコーダと、入力されたデータをデコードする第1デコーダと、入力されたデータをデコードする第2デコーダと、を備えるニューラルネットワークであるマルチモーダルネットワークと、入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部と、を備える学習装置が得た学習済みの前記マルチモーダルネットワークの実行する処理を、前記第1種対象データ及び前記第2種対象データに対して実行する推定部と、を備える推定装置である。One aspect of the present invention is a multimodal network that is a neural network including a data acquisition unit that acquires first type target data indicating a first attribute of an estimation target and second type target data indicating a second attribute different from the first attribute among the attributes of the estimation target, a first encoder that acquires features of input data, a second encoder that acquires features of the input data, a first decoder that decodes the input data, and a second decoder that decodes the input data; and a self-agnosing function that is a result of input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder. and an estimation unit that performs processing performed by the trained multimodal network obtained by a learning device comprising: a network control unit that updates the multimodal network using a cross self-consistency loss that indicates the difference between a contradiction result and the data, and a common loss that indicates the difference between a result of the first encoder encoding data indicating a first attribute of a main object which is a person, a living thing, an object, an intangible object, or an event having multiple attributes, and a result of the second encoder encoding data indicating a second attribute which is an attribute of the main object and different from the first attribute, on the first type of target data and the second type of target data.
本発明の一態様は、入力されたデータの特徴量を取得する第1エンコーダと、入力されたデータの特徴量を取得する第2エンコーダと、入力されたデータをデコードする第1デコーダと、入力されたデータをデコードする第2デコーダと、を備えるニューラルネットワークであるマルチモーダルネットワークを実行するネットワーク実行ステップと、入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部ステップと、を有する学習方法である。One aspect of the present invention is a learning method comprising: a network execution step of executing a multimodal network, which is a neural network including a first encoder that acquires features of input data, a second encoder that acquires features of the input data, a first decoder that decodes the input data, and a second decoder that decodes the input data; and a network control step of updating the multimodal network using a cross self-consistency loss indicating the difference between a self-consistent result, which is a result of input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder, and the data; and a common loss indicating the difference between a result of the first encoder encoding data indicating a first attribute of a main subject, which is a person, living thing, thing, intangible object, or event having multiple attributes, and a result of the second encoder encoding data indicating a second attribute of the main subject that is different from the first attribute.
本発明の一態様は、推定対象の第1の属性を示す第1種対象データと、前記推定対象の有する属性のうちの前記第1の属性とは異なる第2の属性を示す第2種対象データとを取得するデータ取得ステップと、入力されたデータの特徴量を取得する第1エンコーダと、入力されたデータの特徴量を取得する第2エンコーダと、入力されたデータをデコードする第1デコーダと、入力されたデータをデコードする第2デコーダと、を備えるニューラルネットワークであるマルチモーダルネットワークと、入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部と、を備える学習装置が得た学習済みの前記マルチモーダルネットワークの実行する処理を、前記第1種対象データ及び前記第2種対象データに対して実行する推定ステップと、を有する推定方法である。One aspect of the present invention is a multimodal network that is a neural network including a data acquisition step of acquiring first type target data indicating a first attribute of an estimation target and second type target data indicating a second attribute different from the first attribute among the attributes of the estimation target, a first encoder that acquires features of input data, a second encoder that acquires features of the input data, a first decoder that decodes the input data, and a second decoder that decodes the input data, and a self-agnosing function that is a result of the input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder. and an estimation step of executing, on the first type target data and the second type target data, a process executed by the trained multimodal network obtained by a learning device including: a network control unit that updates the multimodal network using a cross self-consistency loss that indicates the difference between a contradiction result and the data, and a common loss that indicates the difference between a result of the first encoder encoding data indicating a first attribute of a main target which is a person, a living thing, an object, an intangible object, or an event having multiple attributes, and a result of the second encoder encoding data indicating a second attribute which is an attribute of the main target and different from the first attribute.
本発明の一態様は、上記の学習装置としてコンピュータを機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as the above-mentioned learning device.
本発明の一態様は、上記の推定装置としてコンピュータを機能させるためのプログラムである。 One aspect of the present invention is a program for causing a computer to function as the above-mentioned estimation device.
本発明により、複数種類のデータに共通する情報の推定に要する労力を軽減することが可能となる。 The present invention makes it possible to reduce the effort required to estimate information common to multiple types of data.
(実施形態)
図1から図4を用いて、実施形態の学習装置1の概要を説明する。学習装置1は、2種類のデータに共通する情報を推定する数理モデル(以下「マルチモーダル推定モデル」という。)を機械学習による学習により更新する。
(Embodiment)
An overview of a learning device 1 according to an embodiment will be described with reference to Figures 1 to 4. The learning device 1 updates a mathematical model (hereinafter referred to as a "multimodal estimation model") that estimates information common to two types of data through machine learning learning.
マルチモーダル推定モデルは2種類のデータに共通する情報を推定するため、2種類のデータが同一の対象の異なる属性を示す場合には、推定の対象は2種類のデータが属性を示す対象である。同一の対象の属性を示す2種類のデータのうちの一方を第1種データといい、2種類のデータのうちの他方を第2種データという。すなわち、第1種データと第2種データとは、同一の対象に関する互いに異なる属性の情報である。 Since the multimodal estimation model estimates information common to two types of data, when the two types of data indicate different attributes of the same object, the object to be estimated is the object whose attributes the two types of data indicate. One of the two types of data indicating the attributes of the same object is called the first type of data, and the other of the two types of data is called the second type of data. In other words, the first type of data and the second type of data are information on different attributes related to the same object.
以下、第1種データ及び第2種データが属性を示す対象を、主対象という。主対象は、複数の属性を有せばどのような、人、生物、もの、無形物又は事象であってもよい。すなわち、主対象は、複数の属性を有する人であってもよいし、複数の属性を有する生物であってもよいし、複数の属性を有するものであってもよいし、複数の属性を有する無形物であってもよいし、複数の属性を有する事象であってもよい。 Hereinafter, the object whose attributes the first type data and the second type data indicate will be referred to as the main object. The main object may be any person, living thing, thing, intangible object, or event, so long as it has multiple attributes. In other words, the main object may be a person with multiple attributes, a living thing with multiple attributes, an object with multiple attributes, an intangible object with multiple attributes, or an event with multiple attributes.
上述したようにマルチモーダル推定モデルは2種類のデータが同一の対象の異なる属性を示す場合にその対象を推定するため、主対象はマルチモーダル推定モデルの推定の対象の一例である。また、第1種データは主対象の第1の属性を示し、第2種データは主対象の第2の属性を示す。第2の属性(以下「第2属性」という。)は、主対象が有する属性のうち第1の属性(以下「第1属性」という。)と異なる属性である。As described above, the multimodal estimation model estimates an object when two types of data indicate different attributes of the same object, so the main object is an example of an object to be estimated by the multimodal estimation model. Furthermore, the first type of data indicates a first attribute of the main object, and the second type of data indicates a second attribute of the main object. The second attribute (hereinafter referred to as the "second attribute") is an attribute that is different from the first attribute (hereinafter referred to as the "first attribute") among the attributes possessed by the main object.
例えば第1種データが対象の形状を示す場合に、第2種データはその対象の名称を示す。すなわち第1属性が形状であるに、第2属性は例えば名称である。このように、第1種データと第2種データとの種類の違いは具体的には、示す属性の違いである。For example, if the first type of data indicates the shape of an object, the second type of data indicates the name of that object. In other words, while the first attribute is the shape, the second attribute is, for example, the name. In this way, the difference in type between the first type of data and the second type of data is specifically the difference in the attributes they indicate.
なお、数理モデルは、実行される条件と順番と(以下「実行規則」という。)が予め定められた1又は複数の処理を含む集合である。学習とは、機械学習の方法による数理モデルの更新を意味する。数理モデルの更新とは、数理モデルにおけるパラメータの値を好適に調整することを意味する。また、数理モデルの実行とは、数理モデルが含む各処理を実行規則にしたがって実行すること意味する。A mathematical model is a set including one or more processes whose execution conditions and order (hereinafter referred to as "execution rules") are predetermined. Learning means updating the mathematical model using machine learning methods. Updating the mathematical model means appropriately adjusting the parameter values in the mathematical model. Executing a mathematical model means executing each process included in the mathematical model in accordance with the execution rules.
学習による数理モデルの更新は、学習に関する所定の終了条件(以下「学習終了条件」という。)が満たされるまで行われる。学習終了条件は、例えば所定の回数の学習が行われた、という条件である。The mathematical model is updated through learning until a predetermined termination condition for learning (hereinafter referred to as the "learning termination condition") is satisfied. The learning termination condition is, for example, a condition that a predetermined number of learning rounds have been performed.
学習装置1は、2つのエンコーダと2つのデコーダとを備え、学習により各エンコーダと各デコーダとの処理の内容を学習終了条件が満たされるまで更新する。学習装置1の備える2つのエンコーダと2つのデコーダとを含むニューラルネットワークは、マルチモーダル推定モデルを表現するニューラルネットワークである。したがって、各エンコーダと各デコーダとの処理の内容の更新が、マルチモーダル推定モデルの更新である。The learning device 1 includes two encoders and two decoders, and updates the processing content of each encoder and each decoder through learning until a learning termination condition is satisfied. The neural network including the two encoders and two decoders included in the learning device 1 is a neural network that represents a multimodal estimation model. Therefore, updating the processing content of each encoder and each decoder is an update of the multimodal estimation model.
なおニューラルネットワークは、数理モデルを表現する電子回路、電気回路、光回路、集積回路等の回路である。ニューラルネットワークを更新するとは、ニューラルネットワークを表現する数理モデルの有するパラメータの値を更新することを意味する。 A neural network is a circuit such as an electronic circuit, an electrical circuit, an optical circuit, or an integrated circuit that represents a mathematical model. Updating a neural network means updating the values of the parameters of the mathematical model that represents the neural network.
図1は、実施形態の学習装置1の概要を説明する第1の説明図である。図2は、実施形態の学習装置1の概要を説明する第2の説明図である。図3は、実施形態の学習装置1の概要を説明する第3の説明図である。図4は、実施形態の学習装置1の概要を説明する第4の説明図である。 Figure 1 is a first explanatory diagram illustrating an overview of the learning device 1 of the embodiment. Figure 2 is a second explanatory diagram illustrating an overview of the learning device 1 of the embodiment. Figure 3 is a third explanatory diagram illustrating an overview of the learning device 1 of the embodiment. Figure 4 is a fourth explanatory diagram illustrating an overview of the learning device 1 of the embodiment.
学習装置1は、第1エンコーダ101、第2エンコーダ102、第1デコーダ103及び第2デコーダ104を備える。第1エンコーダ101、第2エンコーダ102、第1デコーダ103及び第2デコーダ104を含むニューラルネットワーク(以下「マルチモーダルネットワーク」という。)は、マルチモーダル推定モデルを表現するニューラルネットワークの一例である。したがって、マルチモーダルネットワークの更新とは、マルチモーダル推定モデルの更新を意味する。The learning device 1 includes a
第1エンコーダ101、第2エンコーダ102、第1デコーダ103及び第2デコーダ104はそれぞれ、学習により更新されるニューラルネットワークである。マルチモーダルネットワークの学習では第1エンコーダ101、第2エンコーダ102、第1デコーダ103及び第2デコーダ104がそれぞれ更新される。学習では、第1エンコーダ101の出力と第2エンコーダ102の出力との違いを小さくするように第1エンコーダ101、第2エンコーダ102、第1デコーダ103及び第2デコーダ104それぞれの更新が行われる。The
第1エンコーダ101は、入力されたデータの特徴量を取得する。以下、第1エンコーダ101が取得した特徴量を第1特徴量という。第1エンコーダには、例えば第1種データ(001)が入力される。したがって、第1エンコーダ101は、例えば第1種データの第1特徴量を取得する。The
第1エンコーダ101には、第3種データが入力されてもよい。第3種データは、主対象とは異なる人、生物、もの、無形物又は事象(以下「副対象」という。)について第1属性と第2属性とのいずれか一方の属性を示す。副対象は、複数の属性を有してもよいし有さなくてもよい。A third type of data may be input to the
第1エンコーダ101に第3種データが入力されることで、第1エンコーダ101は第3種データの第1特徴量を取得する。図3の例では、第1エンコーダ101に入力されるデータの一例として第1種データを示しているが、図3において第1エンコーダ101には第1種データに限らず第3種データが入力されてもよい。When the third type data is input to the
第2エンコーダ102は、入力されたデータの特徴量を取得する。以下、第2エンコーダ102が取得した特徴量を第2特徴量という。第2エンコーダには、例えば第2種データ(002)が入力される。したがって、第2エンコーダ102は、例えば第2種データの第2特徴量を取得する。The
第2エンコーダ102には、第3種データが入力されてもよい。第2エンコーダ102に第3種データが入力されることで、第2エンコーダ102は第3種データの第2特徴量を取得する。図4の例では、第2エンコーダ102に入力されるデータの一例として第2種データを示しているが、図4において第2エンコーダ102には第2種データに限らず第3種データが入力されてもよい。A third type of data may be input to the
第1デコーダ103は、入力されたデータをデコードする。以下、第1デコーダ103によるデコードの結果を第1デコード結果という。第1デコーダ103は、例えば図1に示すように、第1特徴量をデコードする。以下、第1デコーダ103が第1特徴量をデコードした結果を、第1特徴量の第1デコード結果という。第1デコーダ103は、例えば図2又は図3に示すように、第2特徴量をデコードする。以下、第1デコーダ103が第2特徴量をデコードした結果を、第2特徴量の第1デコード結果という。The
第2デコーダ104は、入力されたデータをデコードする。以下、第2デコーダ104によるデコードの結果を第2デコード結果という。第2デコーダ104は、例えば図1に示すように、第2特徴量をデコードする。以下、第2デコーダ104が第2特徴量をデコードした結果を、第2特徴量の第2デコード結果という。第2デコーダ104は、例えば図2又は図4に示すように、第1特徴量をデコードする。以下、第2デコーダ104が第1特徴量をデコードした結果を、第1特徴量の第2デコード結果という。The
第2エンコーダ102は、例えば図3に示すように、第1特徴量の第2デコード結果を取得する。第1エンコーダ101は、例えば図4に示すように、第2特徴量の第1デコード結果を取得する。The
学習装置1は、学習データとして第1種データと第2種データとの組が入力される場合には、損失関数として紐づき損失関数を用いた学習を行う。学習装置1は、第1種データ、第2種データ又は第3種データのいずれか一種のみが学習データとして入力される場合には、損失関数として非紐づき損失関数を用いた学習を行う。なお、学習データは、学習装置1による学習に用いられるデータである。なお、学習では、損失関数の示す違いが小さくなるように学習が行われる。 When a pair of first and second type data is input as the learning data, the learning device 1 performs learning using a linked loss function as the loss function. When only one of the first, second, or third type data is input as the learning data, the learning device 1 performs learning using a non-linked loss function as the loss function. The learning data is data used for learning by the learning device 1. The learning is performed so that the difference indicated by the loss function becomes small.
<紐づき損失関数について>
紐づき損失関数は、再構成損失と、共通損失と、交差再構成損失と、を含む。再構成損失は、第1副再構成損失と第2副再構成損失とを含む。第1副再構成損失は、第1種データと、第1種第1特徴量の第1デコード結果と、の違いを示す。第1種第1特徴量は、第1種データの第1特徴量である。第2副再構成損失は、第2種データと、第2種第2特徴量の第2デコード結果と、の違いを示す。
<About the linking loss function>
The linking loss function includes a reconstruction loss, a common loss, and a cross reconstruction loss. The reconstruction loss includes a first sub-reconstruction loss and a second sub-reconstruction loss. The first sub-reconstruction loss indicates a difference between the first type data and a first decoding result of the first type first feature. The first type first feature is a first feature of the first type data. The second sub-reconstruction loss indicates a difference between the second type data and a second decoding result of the second type second feature.
再構成損失は、例えば以下の式(1)で表される。 The reconstruction loss is expressed, for example, by the following equation (1):
d1は第1種データを示す。d2は第2種データを示す。E1は第1エンコーダ101によるエンコードの処理を示す。E2は第2エンコーダ102によるエンコードの処理を示す。D1は第1デコーダ103によるデコードの処理を示す。D2は第2デコーダ104によるデコードの処理を示す。式(1)の右辺の第1項が第1副再構成損失の一例である。式(2)の右辺の第2項が第2副再構成損失の一例である。
d1 indicates first type data. d2 indicates second type data. E1 indicates encoding processing by the
式(1)は、第1エンコーダ101と第1デコーダ103とによって構成されるオートエンコーダと、第2エンコーダ102と第2デコーダ104とによって構成されるオートエンコーダと、の各出力が各オートエンコーダに入力されたデータとの違いを示す。したがって、再構成損失を小さくするように学習が行われれば、入力されたデータと出力との違いが小さくなるように各オートエンコーダが更新される。Equation (1) shows the difference between the output of the autoencoder composed of the
以下、第1エンコーダ101と第1デコーダ103とによって構成されるオートエンコーダを第1オートエンコーダという。以下、第2エンコーダ102と第2デコーダ104とによって構成されるオートエンコーダを第2オートエンコーダという。Hereinafter, the autoencoder composed of the
共通損失は、第1特徴量と第2特徴量との違いを示す。共通損失は、例えば以下の式(2)で表される。 The common loss indicates the difference between the first feature and the second feature. The common loss is expressed, for example, by the following equation (2):
式(2)は、第1オートエンコーダの中間表現(すなわち、第1特徴量)と、第2オートエンコーダの中間表現(すなわち、第2特徴量)との違いを示す。したがって、共通損失を小さくするように学習が行われれば、第1特徴量と第2特徴量との違いが小さくなるように第1オートエンコーダと第2オートエンコーダとが更新される。Equation (2) shows the difference between the intermediate representation of the first autoencoder (i.e., the first feature) and the intermediate representation of the second autoencoder (i.e., the second feature). Therefore, if learning is performed to reduce the common loss, the first autoencoder and the second autoencoder are updated so that the difference between the first feature and the second feature is reduced.
その結果、共通損失を小さくする学習により、示す属性の異なる第1種データと第2種データとに共通する情報をマルチモーダル推定モデルが推定する精度が高まる。上述したように、第1種データと第2種データとはどちらも主対象について属性を示す情報である。そのため、マルチモーダル推定モデルが第1種データと第2種データとに共通する情報を推定する精度が高まるほど、マルチモーダル推定モデルは主対象をより高い精度で推定することが可能になる。As a result, by learning to reduce the common loss, the accuracy with which the multimodal estimation model estimates information common to the first type of data and the second type of data, which indicate different attributes, increases. As described above, both the first type of data and the second type of data are information indicating attributes of the main object. Therefore, the higher the accuracy with which the multimodal estimation model estimates information common to the first type of data and the second type of data, the more accurately the multimodal estimation model can estimate the main object.
交差再構成損失は、第1副交差再構成損失と第2副交差再構成損失とを含む。第1副交差再構成損失は、第1種データと、第2種第2特徴量の第1デコード結果と、の違いを示す。第2副交差再構成損失は、第2種データと、第1種第1特徴量の第2デコード結果と、の違いを示す。The cross reconstruction loss includes a first sub-cross reconstruction loss and a second sub-cross reconstruction loss. The first sub-cross reconstruction loss indicates the difference between the first type data and the first decoding result of the second type second feature. The second sub-cross reconstruction loss indicates the difference between the second type data and the second decoding result of the first type first feature.
交差再構成損失は、例えば以下の式(3)で表される。 The cross reconstruction loss is expressed, for example, by the following equation (3):
式(3)の右辺の第1項が第1副交差再構成損失の一例である。式(3)の右辺の第2項が第2副交差再構成損失の一例である。 The first term on the right side of equation (3) is an example of the first sub-crossing reconstruction loss. The second term on the right side of equation (3) is an example of the second sub-crossing reconstruction loss.
第1種データと第2種データとはどちらも主対象に関するデータであるので、学習が進めば第1種第1特徴量と第2種第2特徴量とは略同一であるはずになるはずである。第1種第1特徴量と第2種第2特徴量とが略同一であるならば、第1種第1特徴量のデコードを第1デコーダ103に代えて第2デコーダ104で実行したとしても、第1種第1特徴量の第2デコード結果は第1データに略同一であるはずである。
Because both the first type data and the second type data are data related to the main subject, the first type first feature and the second type second feature should be substantially identical as learning progresses. If the first type first feature and the second type second feature are substantially identical, even if the decoding of the first type first feature is performed by the
また、第1種第1特徴量と第2種第2特徴量とが略同一であるならば、第2種第2特徴量のデコードを第2デコーダ104に代えて第1デコーダ103で実行したとしても、第2種第2特徴量の第1デコード結果は第2データに略同一であるはずである。したがって、交差再構成損失が大きい場合には、マルチモーダル推定モデルの推定の精度が良くないことを意味する。そのため、交差再構成損失を小さくするように学習が行われることで、マルチモーダル推定モデルの推定の精度が高まる。
Furthermore, if the first type first feature and the second type second feature are substantially identical, even if the decoding of the second type second feature is performed by the
このように、紐づき損失関数は、第i副再構成損失と、共通損失と、第i副交差再構成損失と、を含む。なお、iは1又は2である。より具体的には、紐づき損失関数は、第1再構成損失(003)と、第2再構成損失(004)と、共通損失(005)と、第1交差再構成損失(006)と、第2交差再構成損失(007)とを含む。 Thus, the linking loss function includes the i-th sub-reconstruction loss, the common loss, and the i-th sub-cross reconstruction loss, where i is 1 or 2. More specifically, the linking loss function includes the first reconstruction loss (003), the second reconstruction loss (004), the common loss (005), the first cross reconstruction loss (006), and the second cross reconstruction loss (007).
第i副再構成損失は、第i種データと、第i種第i特徴量の第iデコード結果と、の違いを示す。第i種第i特徴量は、第i種データの第i特徴量である。第i副交差再構成損失は、第i種データと、第j種第j特徴量の第iデコード結果と、の違いを示す。なお、jは1又は2であり、jとiとは互いに異なる値を示す。すなわち、iが1の場合にはjは2であり、iが2の場合にはjは1である。 The i-th sub-reconstruction loss indicates the difference between the i-th type data and the i-th decoded result of the i-th type, i-th feature. The i-th type, i-th feature is the i-th feature of the i-th type data. The i-th sub-reconstruction loss indicates the difference between the i-th type data and the i-th decoded result of the j-th type, j-th feature. Note that j is 1 or 2, and j and i are different values. That is, when i is 1, j is 2, and when i is 2, j is 1.
<非紐づき損失関数について>
非紐づき損失関数は、交差自己無撞着損失を含む。交差自己無撞着損失は、第1副交差自己無撞着損失と第2副交差自己無撞着損失とを含む。
<About unlinked loss functions>
The unlinked loss function includes a crossover self-consistent loss, which includes a first sub-crossover self-consistent loss and a second sub-crossover self-consistent loss.
第1副交差自己無撞着損失は、第1エンコーダ101に入力されたデータ(以下「第1入力データ」という。)と、第1入力データの第1交差自己無撞着データと、の違いを示す。第1交差自己無撞着データは、第2交差デコード結果の第2特徴量を第1デコーダ103がデコードした結果である。第2交差デコード結果は、第1入力データの第1特徴量を第2デコーダ104がデコードした結果である。The first cross self-consistent loss indicates the difference between the data input to the first encoder 101 (hereinafter referred to as "first input data") and the first cross self-consistent data of the first input data. The first cross self-consistent data is the result of the
第2副交差自己無撞着損失は、第2エンコーダ102に入力されたデータ(以下「第2入力データ」という。)と、第2入力データの第2交差自己無撞着データと、の違いを示す。第2交差自己無撞着データは、第1交差デコード結果の第1特徴量を第2デコーダ104がデコードした結果である。第1交差デコード結果は、第2入力データの第2特徴量を第1デコーダ103がデコードした結果である。The second cross self-consistent loss indicates the difference between the data input to the second encoder 102 (hereinafter referred to as "second input data") and the second cross self-consistent data of the second input data. The second cross self-consistent data is the result of the
なお、第1入力データは、第1属性を示すデータであればどのようなものであってもよく、第1種データであってもよいし、副対象の第1属性を示す第3種データであってもよい。また、第2入力データは、第2属性を示すデータであればどのようなものであってもよく、第2種データであってもよいし、副対象の第2属性を示す第3種データであってもよい。すなわち、第i入力データは、第i属性を示すデータであればどのようなものであってもよい。 The first input data may be any type of data indicating the first attribute, and may be first type data or third type data indicating the first attribute of the secondary object. The second input data may be any type of data indicating the second attribute, and may be second type data or third type data indicating the second attribute of the secondary object. In other words, the i-th input data may be any type of data indicating the i-th attribute.
このように交差自己無撞着損失は第i副交差自己無撞着損失を含む。第i副交差自己無撞着損失は、第iエンコーダに入力されたデータである第i入力データと、第i入力データの第i交差自己無撞着データと、の違いを示す。第i交差自己無撞着データは、第j交差デコード結果の第j特徴量を第iデコーダがデコードした結果である。第j交差デコード結果は、第i入力データの第i特徴量を第jデコーダがデコードした結果である。 In this way, the cross self-consistency loss includes the i-th sub-cross self-consistency loss. The i-th sub-cross self-consistency loss indicates the difference between the i-th input data, which is the data input to the i-th encoder, and the i-th cross self-consistent data of the i-th input data. The i-th cross self-consistent data is the result of the j-th feature of the j-th cross decoding result being decoded by the i-th decoder. The j-th cross decoding result is the result of the i-th feature of the i-th input data being decoded by the j-th decoder.
なお、第iエンコーダは、i=1の場合には第1エンコーダ101を意味し、i=2の場合には第2エンコーダ102を意味する。第jエンコーダは、j=1の場合には第1エンコーダ101を意味し、j=2の場合には第2エンコーダ102を意味する。なお、第iデコーダは、i=1の場合には第1デコーダ103を意味し、i=2の場合には第2デコーダ104を意味する。第jデコーダは、j=1の場合には第1デコーダ103を意味し、j=2の場合には第2デコーダ104を意味する。
Note that the i-th encoder means the
交差自己無撞着損失は、例えば以下の式(4)で表される。 The cross self-consistency loss is expressed, for example, by the following equation (4).
式(4)の右辺の第1項が第1副交差自己無撞着損失の一例である。式(4)の右辺の第2項が第2副交差自己無撞着損失の一例である。 The first term on the right-hand side of equation (4) is an example of the first sub-crossing self-consistent loss. The second term on the right-hand side of equation (4) is an example of the second sub-crossing self-consistent loss.
なお、第i入力データが第iエンコーダに入力される場合の第j交差自己無撞着損失の値は0である。すなわち、第1入力データがマルチモーダル推定モデルに入力される場合には式(4)の右辺の第2項の値は0であり、第2入力データがマルチモーダル推定モデルに入力される場合には式(4)の右辺の第1項の値は0である。 Note that the value of the jth cross self-consistency loss when the ith input data is input to the ith encoder is 0. That is, when the first input data is input to the multimodal estimation model, the value of the second term on the right side of equation (4) is 0, and when the second input data is input to the multimodal estimation model, the value of the first term on the right side of equation (4) is 0.
図1及び図2の例では、第1種データと第2種データとの組がマルチモーダルネットワークに入力されていた。しかしながら、必ずしもユーザが第1種データと第2種データとの両方を用意できない場合もある。さらには、ユーザは、第1属性又は第2属性のいずれか一方を示すデータではあるものの主対象のデータではない、というデータを用意する場合もある。このような場合であっても、推定の精度が高まるようにマルチモーダルネットワークを更新することを可能にするのが、交差自己無撞着損失である。In the examples of Figures 1 and 2, a pair of first and second types of data was input to the multimodal network. However, there are cases where the user is not necessarily able to prepare both the first and second types of data. Furthermore, there are cases where the user prepares data that indicates either the first attribute or the second attribute, but is not the data of the main subject. Even in such cases, the cross self-consistent loss makes it possible to update the multimodal network so as to improve the accuracy of the estimation.
式(4)が示すように交差自己無撞着損失は、マルチモーダルネットワークに入力された1つのデータ(以下「単入力データ」という。)の自己無撞着結果と、短入力データとの違いを示す。第1入力データと第2入力データとのそれぞれは、単入力データの一例である。以下、単入力データとして第1入力データを例に交差自己無撞着損失を用いることの効果を説明する。As shown in equation (4), the cross self-consistency loss indicates the difference between the self-consistency result of one piece of data (hereinafter referred to as "single-input data") input to a multimodal network and short-input data. The first input data and the second input data are each an example of single-input data. Below, we explain the effect of using the cross self-consistency loss using the first input data as an example of single-input data.
<交差自己無撞着損失の奏する効果>
自己無撞着結果は、単入力データが、第1エンコーダ101、第2エンコーダ102、第1デコーダ103及び第2デコーダ104で変換された結果である。マルチモーダル推定モデルの推定の精度が高まれば第1特徴量と第2特徴量とは略同一になるはずであり、第1特徴量と第2特徴量とは略同一であるならば、第1特徴量の第2デコード結果の第2特徴量も略同一のはずである。その結果、第1入力データの第1特徴量から得られた第2デコード結果の第2特徴量を第1デコーダ103でデコードした結果は、第1入力データに略同一であるはずである。したがって、交差自己無撞着損失を小さくするように学習が行われることで、マルチモーダル推定モデル(すなわちマルチモーダルネットワーク)は、推定の精度が高まるように更新される。
<Effects of cross self-consistent losses>
The self-consistent result is a result of the single input data being converted by the
このように非紐づき損失関数は、交差自己無撞着損失を含む。より具体的には、非紐づき損失関数は、第1副交差自己無撞着損失(008)と、第2副交差自己無撞着損失(009)とを含む。図3又は図4が示すように、非紐づき損失関数は、第1種データ、第2種データ又は第3種データのいずれか1つが得られれば値が得られる。したがって、非紐づき損失関数を用いることで、第1種データと第2種データとの2種類のデータを用いることなくマルチモーダル推定モデルの更新が可能である。In this way, the unlinked loss function includes a cross-self-consistent loss. More specifically, the unlinked loss function includes a first sub-cross-self-consistent loss (008) and a second sub-cross-self-consistent loss (009). As shown in FIG. 3 or FIG. 4, the unlinked loss function can obtain a value if any one of the first type data, the second type data, or the third type data is obtained. Therefore, by using the unlinked loss function, it is possible to update the multimodal estimation model without using two types of data, the first type data and the second type data.
ここまで説明してきたように、学習装置1は、第1種データと第2種データとの組が入力される場合には紐づき損失関数を用いてマルチモーダルネットワークの更新が可能である。また、学習装置1は、第1種データ、第2種データ又は第3種データのいずれか一種のみが入力される場合であっても非紐づき損失関数を用いることでマルチモーダルネットワークの更新が可能である。As described above, the learning device 1 can update the multimodal network using a linked loss function when a pair of first type data and second type data is input. Also, the learning device 1 can update the multimodal network by using a non-linked loss function even when only one of the first type data, second type data, and third type data is input.
したがって学習装置1は、複数回の学習のうちの一部の学習において第1種データ、第2種データ又は第3種データのいずれか1つだけを用いた学習を行ったとしても、マルチモーダルネットワークを推定の精度が高まるように更新することが可能である。複数回の学習における他の一部の学習においては、第1種データと第2種データとの組を用いた学習が行われることで、学習装置1はマルチモーダルネットワークを推定の精度が高まるように更新する。Therefore, even if the learning device 1 performs learning using only one of the first type data, the second type data, or the third type data in some of the multiple learnings, it is possible to update the multimodal network to improve the accuracy of estimation. In other parts of the multiple learnings, learning is performed using a pair of the first type data and the second type data, and the learning device 1 updates the multimodal network to improve the accuracy of estimation.
図5は、実施形態における学習装置1のハードウェア構成の一例を示す図である。学習装置1は、バスで接続されたCPU(Central Processing Unit)等のプロセッサ91とメモリ92とを備える制御部11を備え、プログラムを実行する。学習装置1は、プログラムの実行によって制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。
Figure 5 is a diagram showing an example of the hardware configuration of the learning device 1 in an embodiment. The learning device 1 has a
より具体的には、学習装置1は、プロセッサ91が記憶部14に記憶されているプログラムを読み出し、読み出したプログラムをメモリ92に記憶させる。プロセッサ91が、メモリ92に記憶させたプログラムを実行することによって、学習装置1は、制御部11、入力部12、通信部13、記憶部14及び出力部15を備える装置として機能する。More specifically, in the learning device 1, the
制御部11は、学習装置1が備える各種機能部の動作を制御する。制御部11は、例えばマルチモーダル推定モデルの学習を行う。The
入力部12は、例えばマウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部12は、これらの入力装置を学習装置1に接続するインタフェースを含んで構成されてもよい。The
通信部13は、学習装置1を外部装置に接続するためのインタフェースを含んで構成される。通信部13は、有線又は無線を介して外部装置と通信する。外部装置は、例えば第1属性を示す第3種データの送信元の装置である。通信部13は、第1属性を示す第3種データの送信元の装置との通信によって、第1属性を示す第3種データを取得する。外部装置は、例えば第2属性を示す第3種データの送信元の装置である。通信部13は、第2属性を示す第3種データの送信元の装置との通信によって、第2属性を示す第3種データを取得する。The
外部装置は、例えば第1種データの送信元の装置である。通信部13は、第1種データの送信元の装置との通信によって、第1種データを取得する。外部装置は、例えば第2種データの送信元の装置である。通信部13は、第2種データの送信元の装置との通信によって、第2種データを取得する。
The external device is, for example, a device that transmits the first type of data. The
記憶部14は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部14は、学習装置1に関する各種情報を記憶する。記憶部14は、例えば制御部11が実行する処理の結果生じた各種情報を記憶する。The
出力部15は、例えばCRT(Cathode Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro-Luminescence)ディスプレイ等の表示装置を含んで構成される。出力部15は、これらの表示装置を学習装置1に接続するインタフェースを含んで構成されてもよい。The
図6は、実施形態の学習装置1が備える制御部11の機能構成の一例を示す図である。制御部11は、データ取得部111、データ入力部112、学習部113、通信制御部114、記憶制御部115及び出力制御部116を備える。6 is a diagram showing an example of the functional configuration of the
データ取得部111は、通信部13に入力されたデータを取得する。データ取得部111の取得するデータの候補は、具体的には、第1種データ、第2種データ及び第3種データである。The
データ入力部112は、データ取得部111の取得したデータを、各データが示す属性に応じた出力先に出力する。データ入力部112は、例えばデータ取得部111の取得した第1種データを第1エンコーダ101に出力する。データ入力部112は、例えばデータ取得部111の取得した第2種データを第2エンコーダ102に出力する。データ入力部112は、例えばデータ取得部111の取得した第3種データであって第1属性を示す第3種データを第1エンコーダ101に出力する。The
データ入力部112は、例えばデータ取得部111の取得した第3種データであって第2属性を示す第3種データを第2エンコーダ102に出力する。第1種データ、第2種データ、第3種データの各データは、各データの示す属性を示す情報を有する。属性を示す情報は、予め定められた規則で属性を示す情報であればどのような情報であってもよい。属性を示す情報は、例えばデータの形式の違いで属性の違いを表現する情報である。データの形式の違いは、例えば画像データとテキストデータ等のデータの形式の違いである。The
このように、各データの示す属性は、属性を示す情報によって示されている。したがって、データ入力部112は、各データの属性を、属性を示す情報の違いに基づいて判定することができる。その結果、データ入力部112は、データ取得部111の取得したデータを、各データが示す属性に応じた出力先に出力することができる。なお、各データの属性を示す情報は、入力部12又は通信部13にユーザが入力してもよい。In this way, the attributes indicated by each piece of data are indicated by the information indicating the attributes. Therefore, the
学習部113は、マルチモーダルネットワーク131とネットワーク制御部132とを備える。マルチモーダルネットワーク131は、マルチモーダルネットワークである。したがって、マルチモーダルネットワーク131は、マルチモーダル推定モデルを表現するニューラルネットワークである。そのため、マルチモーダルネットワーク131は、第1エンコーダ101、第2エンコーダ102、第1デコーダ103及び第2デコーダ104を備える。The
ネットワーク制御部132は、マルチモーダルネットワーク131が得た結果に基づき、マルチモーダルネットワーク131を更新する。より具体的には、ネットワーク制御部132は、マルチモーダルネットワーク131が得た結果と、マルチモーダルネットワーク131に入力されたデータと、に基づき、マルチモーダルネットワーク131を更新する。The
ネットワーク制御部132は、例えばデータ取得部111の取得したデータが第1種データと第2種データとの組である場合には、紐づき損失関数を用い、マルチモーダルネットワーク131が得た結果に基づき、マルチモーダルネットワーク131を更新する。
For example, when the data acquired by the
ネットワーク制御部132は、例えばデータ取得部111の取得したデータが第1種データと第2種データとの組では無い場合には、非紐づき損失関数を用い、マルチモーダルネットワーク131が得た結果に基づき、マルチモーダルネットワーク131を更新する。
For example, when the data acquired by the
通信制御部114は通信部13の動作を制御する。記憶制御部115は記憶部14の動作を制御する。出力制御部116は出力部15の動作を制御する。
The
図7は、実施形態における学習装置1が実行する処理の流れの一例を示すフローチャートである。データ取得部111がデータを取得する(ステップS101)。次に、データ入力部112がデータ取得部111の取得したデータを、各データの示す属性に応じた入力先にデータを入力する(ステップS102)。入力先は、具体的には、第1エンコーダ101又は第2エンコーダ102である。
Figure 7 is a flowchart showing an example of the flow of processing executed by the learning device 1 in an embodiment. The
次にマルチモーダルネットワーク131が、ステップS102で入力されたデータに対してマルチモーダル推定モデルを実行する(ステップS103)。次にネットワーク制御部132が、マルチモーダル推定モデルの実行の結果に基づき、マルチモーダル推定モデルを更新する(ステップS104)。より具体的にはネットワーク制御部132は、マルチモーダル推定モデルの実行の結果に基づき、データ取得部111の取得したデータに応じて紐づき損失関数又は非紐づき損失関数のいずれか一方を用いて、マルチモーダル推定モデルを更新する。Next, the
次にネットワーク制御部132は、学習終了条件が満たされたか否かを判定する(ステップS105)。学習終了条件が満たされた場合(ステップS105:YES)、処理が終了する。一方、学習終了条件が満たされない場合(ステップS105:NO)、ステップS101の処理に戻る。Next, the
このようにして得られた学習済みのマルチモーダル推定モデルは、図8に示す推定装置2等の推定対象の第1属性のデータと推定対象の第2属性のデータとの組に基づいて推定対象を推定する装置で用いられる。なお、学習済みのマルチモーダル推定モデルとは、学習終了条件が満たされた時点のマルチモーダル推定モデルである。以下、推定装置2の推定対象を注目対象という。以下、注目対象の第1属性のデータの第1種対象データという。以下、注目対象の第2属性のデータの第2種対象データという。注目対象は、主対象と異なる対象であってもよい。The trained multimodal estimation model obtained in this manner is used in a device that estimates an estimation target based on a pair of data on the first attribute of the estimation target and data on the second attribute of the estimation target, such as the
図8は、実施形態の推定装置2のハードウェア構成の一例を示す図である。推定装置2は、第1種対象データと第2種対象データとの組を取得し、学習済みのマルチモーダル推定モデルを用いて、取得した第1種対象データと第2種対象データとが示す注目対象を推定する。
Figure 8 is a diagram illustrating an example of a hardware configuration of the
推定装置2は、バスで接続されたCPU等のプロセッサ93とメモリ94とを備える制御部21を備え、プログラムを実行する。推定装置2は、プログラムの実行によって制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。The
より具体的には、推定装置2は、プロセッサ93が記憶部24に記憶されているプログラムを読み出し、読み出したプログラムをメモリ94に記憶させる。プロセッサ93が、メモリ94に記憶させたプログラムを実行することによって、推定装置2は、制御部21、入力部22、通信部23、記憶部24及び出力部25を備える装置として機能する。More specifically, in the
制御部21は、推定装置2が備える各種機能部の動作を制御する。制御部21は、例えば学習済みのマルチモーダル推定モデルを実行する。The
入力部22は、例えばマウスやキーボード、タッチパネル等の入力装置を含んで構成される。入力部22は、これらの入力装置を推定装置2に接続するインタフェースを含んで構成されてもよい。The
通信部23は、推定装置2を外部装置に接続するためのインタフェースを含んで構成される。通信部23は、有線又は無線を介して外部装置と通信する。外部装置は例えば、第1種対象データと第2種対象データとの組の送信元の装置である。通信部23は、第1種対象データと第2種対象データとの組の送信元の装置との通信によって、第1種対象データと第2種対象データとの組を取得する。外部装置は、例えば学習装置1である。通信部23は、学習装置1との通信によって、学習済みのマルチモーダル推定モデルを取得する。The
記憶部24は、磁気ハードディスク装置や半導体記憶装置などのコンピュータ読み出し可能な記憶媒体装置を用いて構成される。記憶部24は、推定装置2に関する各種情報を記憶する。記憶部24は、例えば制御部21が実行する処理の結果生じた各種情報を記憶する。The
出力部25は、例えばCRTディスプレイや液晶ディスプレイ、有機ELディスプレイ等の表示装置を含んで構成される。出力部25は、これらの表示装置を推定装置2に接続するインタフェースを含んで構成されてもよい。The
図9は、実施形態の推定装置2が備える制御部21の機能構成の一例を示す図である。制御部21は、データ取得部211、推定部212、通信制御部213、記憶制御部214及び出力制御部215を備える。9 is a diagram showing an example of the functional configuration of the
データ取得部211は、通信部23に入力された、第1種対象データと第2種対象データとの組のデータを取得する。推定部212は、学習済みのマルチモーダル推定モデルを、データ取得部211の取得したデータに対して実行する。すなわち、推定部212は、データ取得部211の取得した第1種対象データ及び第2種対象データに対して、学習済みのマルチモーダルネットワークによる注目対象の推定の処理を実行する。通信制御部213は通信部23の動作を制御する。記憶制御部214は記憶部24の動作を制御する。出力制御部215は出力部25の動作を制御する。The data acquisition unit 211 acquires a set of data consisting of the first type of target data and the second type of target data input to the
図10は、実施形態の推定装置2が実行する処理の流れの一例を示すフローチャートである。データ取得部211が、第1種対象データと第2種対象データとの組のデータを取得する(ステップS201)。次に、推定部212が、ステップS201で取得されたデータに対して学習済みのマルチモーダル推定モデルを実行する(ステップS202)。すなわち、推定部212が、ステップS201で取得された第1種対象データ及び第2種対象データに対して学習済みのマルチモーダルネットワークの実行する処理を実行する。学習済みのマルチモーダルネットワークの実行する処理とは、具体的には、注目対象の推定の処理である。
Figure 10 is a flowchart showing an example of the flow of processing executed by the
ステップS201で取得されたデータに対する学習済みのマルチモーダル推定モデルの実行により、注目対象が推定される。ステップS202の次に、出力制御部215が出力部25の動作を制御して、出力部25に、推定部212の推定の結果を出力させる(ステップS203)。The target object is estimated by executing the trained multimodal estimation model on the data acquired in step S201. After step S202, the
このように構成された学習装置1は、複数種類のデータに共通する情報を推定する数理モデルの推定の精度を高めるように学習を行う。学習装置1において、複数種類のデータに共通する情報は、具体的には、主対象である。そして、学習装置1は、紐づき損失関数を用いた学習だけでなく、非紐づき損失関数を用いた学習の実行も可能である。The learning device 1 configured in this manner performs learning so as to improve the accuracy of estimation of a mathematical model that estimates information common to multiple types of data. In the learning device 1, the information common to multiple types of data is specifically the main target. The learning device 1 is capable of performing learning using not only a linked loss function, but also a non-linked loss function.
そのため、第1種データと第2種データとの組のような紐づいた情報が存在する場合だけでなく、一方のみが存在する場合や、第3種データのみが存在する場合であっても学習装置1は学習を行うことが可能である。そのため、学習装置1は、紐づいた情報が存在する場合しか学習を行えない技術で得られる数理モデルよりも、少ない労力で、複数種類のデータに共通する情報を推定する数理モデルを得ることができる。すなわち、学習装置1は、複数種類のデータに共通する情報の推定に要する労力を軽減することができる。 Therefore, the learning device 1 can perform learning not only when linked information such as a pair of first type data and second type data exists, but also when only one of them exists, or when only third type data exists. Therefore, the learning device 1 can obtain a mathematical model that estimates information common to multiple types of data with less effort than a mathematical model obtained by a technology that can perform learning only when linked information exists. In other words, the learning device 1 can reduce the effort required to estimate information common to multiple types of data.
また、このように構成された推定装置2は、学習装置1の得た学習済みの数理モデルを用いて推定対象を推定する。そのため、推定装置2は、複数種類のデータに共通する情報の推定に要する労力を軽減することができる。Furthermore, the
(変形例)
なお、学習装置1による非紐づき損失関数を用いた学習では、第1種データ又は第2種データよりも、第3種データを用いた学習が行われることが望ましい。なぜなら、主対象だけでなく副対象についても学習を行うことで過学習の発生を抑制することができるからである。
(Modification)
In addition, in the learning using the unlinked loss function by the learning device 1, it is preferable to perform learning using the third type data rather than the first type data or the second type data, because the occurrence of overlearning can be suppressed by performing learning not only on the main object but also on the secondary object.
なお、非紐づき損失関数は、第i交差自己無撞着損失に加えて、さらに第i再構成損失を含んでもよい。上述したように学習データが第iエンコーダに入力される場合の第j交差自己無撞着損失の値は0である。また、学習データが第iエンコーダに入力される場合の第j交差自己無撞着損失の値も0である。非紐づき損失関数がさらに第i再構成損失も含む場合、第i再構成損失を含まない場合よりも、学習済みのマルチモーダル推定モデルの推定の精度は高い。 Note that the unlinked loss function may further include the i-th reconstruction loss in addition to the i-th cross self-consistent loss. As described above, the value of the j-th cross self-consistent loss is 0 when training data is input to the i-th encoder. Also, the value of the j-th cross self-consistent loss is 0 when training data is input to the i-th encoder. When the unlinked loss function further includes the i-th reconstruction loss, the estimation accuracy of the trained multimodal estimation model is higher than when it does not include the i-th reconstruction loss.
なお、学習装置1と推定装置2とは、必ずしも異なる装置として実装される必要は無い。学習装置1と推定装置2とは、例えば両者の機能を併せ持つ1つの装置又はシステムとして実装されてもよい。
Note that the learning device 1 and the
また、学習装置1と推定装置2とのそれぞれが備える各機能部は、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。
In addition, each functional unit of the learning device 1 and the
なお、学習装置1及び推定装置2のそれぞれは、ネットワークを介して通信可能に接続された複数台の情報処理装置を用いて実装されてもよい。なお、学習装置1及び推定装置2のそれぞれの各機能の全て又は一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。プログラムは、コンピュータ読み取り可能な記録媒体に記録されてもよい。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。プログラムは、電気通信回線を介して送信されてもよい。Each of the learning device 1 and the
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The above describes in detail an embodiment of the present invention with reference to the drawings, but the specific configuration is not limited to this embodiment and also includes designs that do not deviate from the gist of the present invention.
1…学習装置、 2…推定装置、 101…第1エンコーダ、 102…第2エンコーダ、 103…第1デコーダ、 104…第2デコーダ、 11…制御部、 12…入力部、 13…通信部、 14…記憶部、 15…出力部、 111…データ取得部、 112…データ入力部、 113…学習部、 131…マルチモーダルネットワーク、 132…ネットワーク制御部、 114…通信制御部、 115…記憶制御部、 116…出力制御部、 21…制御部、 22…入力部、 23…通信部、 24…記憶部、 25…出力部、 211…データ取得部、 212…推定部、 213…通信制御部、 214…記憶制御部、 215…出力制御部、 91、93…プロセッサ、 92、94…メモリ1...Learning device, 2...Estimation device, 101...First encoder, 102...Second encoder, 103...First decoder, 104...Second decoder, 11...Control unit, 12...Input unit, 13...Communication unit, 14...Memory unit, 15...Output unit, 111...Data acquisition unit, 112...Data input unit, 113...Learning unit, 131...Multimodal network, 132...Network control unit, 114...Communication control unit, 115...Memory control unit, 116...Output control unit, 21...Control unit, 22...Input unit, 23...Communication unit, 24...Memory unit, 25...Output unit, 211...Data acquisition unit, 212...Estimation unit, 213...Communication control unit, 214...Memory control unit, 215...Output control unit, 91, 93...Processor, 92, 94...Memory
Claims (8)
入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部と、
を備える学習装置。 a multimodal network that is a neural network including a first encoder that acquires a feature amount of input data, a second encoder that acquires a feature amount of the input data, a first decoder that decodes the input data, and a second decoder that decodes the input data;
a network control unit that updates the multimodal network using a cross self-consistency loss that indicates the difference between a self-consistency result, which is a result of input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder, and the data, and a common loss that indicates the difference between a result of the first encoder encoding data indicating a first attribute of a main object, which is a person, a living thing, an object, an intangible object, or an event having multiple attributes, and a result of the second encoder encoding data indicating a second attribute of the main object that is different from the first attribute;
A learning device comprising:
請求項1に記載の学習装置。 the network control unit updates the multimodal network using the self-consistency result of the third type of data, which is data indicating either a first attribute or a second attribute of a person, a living thing, an object, an intangible object, or an event different from the main object;
The learning device according to claim 1 .
請求項1又は2に記載の学習装置。 The network control unit updates the multimodal network based on a first secondary reconstruction loss indicating a difference between a result of decoding by the first decoder of a result of encoding by the first encoder of first type data, the first type data being data indicating the first attribute of the main object, and the first type data, and a second secondary reconstruction loss indicating a difference between a result of decoding by the second decoder of a result of encoding by the second encoder of second type data, the second type data being data indicating the second attribute of the main object, and the second type data.
The learning device according to claim 1 or 2.
入力されたデータの特徴量を取得する第1エンコーダと、入力されたデータの特徴量を取得する第2エンコーダと、入力されたデータをデコードする第1デコーダと、入力されたデータをデコードする第2デコーダと、を備えるニューラルネットワークであるマルチモーダルネットワークと、入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部と、を備える学習装置が得た学習済みの前記マルチモーダルネットワークの実行する処理を、前記第1種対象データ及び前記第2種対象データに対して実行する推定部と、
を備える推定装置。 a data acquisition unit that acquires first type target data indicating a first attribute of an estimation target and second type target data indicating a second attribute, which is different from the first attribute, among attributes of the estimation target;
a multimodal network which is a neural network including a first encoder which acquires a feature amount of input data, a second encoder which acquires a feature amount of the input data, a first decoder which decodes the input data, and a second decoder which decodes the input data; and a network control unit which updates the multimodal network using a cross self-consistency loss which indicates a difference between a self-consistency result which is a result of input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder and the input data, and a common loss which indicates a difference between a result of encoding data by the first encoder which indicates a first attribute of a main object which is a person, a living thing, an object, an intangible object, or an event having a plurality of attributes, and a result of encoding data by the second encoder which indicates a second attribute which is an attribute of the main object and which is different from the first attribute;
An estimation device comprising:
入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部ステップと、
を有する学習方法。 a network execution step of executing a multimodal network, which is a neural network including a first encoder for acquiring a feature amount of input data, a second encoder for acquiring a feature amount of the input data, a first decoder for decoding the input data, and a second decoder for decoding the input data;
a network control unit step of updating the multimodal network using a cross self-consistency loss indicating the difference between a self-consistency result, which is a result of input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder, and the data, and a common loss indicating the difference between a result of the first encoder encoding data indicating a first attribute of a main object, which is a person, a living thing, an object, an intangible object, or an event having a plurality of attributes, and a result of the second encoder encoding data indicating a second attribute of the main object, which is different from the first attribute;
A learning method that has
入力されたデータの特徴量を取得する第1エンコーダと、入力されたデータの特徴量を取得する第2エンコーダと、入力されたデータをデコードする第1デコーダと、入力されたデータをデコードする第2デコーダと、を備えるニューラルネットワークであるマルチモーダルネットワークと、入力されたデータが前記第1エンコーダ、前記第2エンコーダ、前記第1デコーダ及び前記第2デコーダによって変換された結果である自己無撞着結果と前記データとの違いを示す交差自己無撞着損失と、複数の属性を有する人、生物、もの、無形物又は事象である主対象の第1の属性を示すデータを前記第1エンコーダがエンコードした結果と前記主対象の有する属性であって前記第1の属性とは異なる第2の属性を示すデータを前記第2エンコーダがエンコードした結果との違いを示す共通損失と、を用いて前記マルチモーダルネットワークの更新を行うネットワーク制御部と、を備える学習装置が得た学習済みの前記マルチモーダルネットワークの実行する処理を、前記第1種対象データ及び前記第2種対象データに対して実行する推定ステップと、
を有する推定方法。 a data acquisition step of acquiring first type target data indicating a first attribute of an estimation target and second type target data indicating a second attribute, which is different from the first attribute, among attributes of the estimation target;
an estimation step of executing, on the first type target data and the second type target data, a process executed by the trained multimodal network obtained by a learning device including: a multimodal network which is a neural network including a first encoder which acquires a feature amount of input data, a second encoder which acquires a feature amount of the input data, a first decoder which decodes the input data, and a second decoder which decodes the input data; and a network control unit which updates the multimodal network using a cross self-consistency loss which indicates a difference between a self-consistency result which is a result of input data being converted by the first encoder, the second encoder, the first decoder, and the second decoder and the input data, and a common loss which indicates a difference between a result of encoding data by the first encoder which indicates a first attribute of a main object which is a person, a living thing, an object, an intangible object, or an event having a plurality of attributes, and a result of encoding data by the second encoder which indicates a second attribute which is an attribute of the main object and which is different from the first attribute;
The estimation method has the following structure:
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2021/045084 WO2023105673A1 (en) | 2021-12-08 | 2021-12-08 | Learning device, estimation device, learning method, estimation method, and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2023105673A1 JPWO2023105673A1 (en) | 2023-06-15 |
| JP7623619B2 true JP7623619B2 (en) | 2025-01-29 |
Family
ID=86729938
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023565771A Active JP7623619B2 (en) | 2021-12-08 | 2021-12-08 | Learning device, estimation device, learning method, estimation method, and program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7623619B2 (en) |
| WO (1) | WO2023105673A1 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP7744546B1 (en) * | 2025-04-18 | 2025-09-25 | 株式会社ビデオリサーチ | Data prediction system and predictive model building system |
Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019056957A (en) | 2017-09-19 | 2019-04-11 | キヤノン株式会社 | Information processing apparatus, information processing method, computer program and storage medium |
| WO2019221985A1 (en) | 2018-05-14 | 2019-11-21 | Quantum-Si Incorporated | Systems and methods for unifying statistical models for different data modalities |
| JP2020052915A (en) | 2018-09-28 | 2020-04-02 | 日本電信電話株式会社 | Data processing device, data processing method, and program |
| JP2020135424A (en) | 2019-02-20 | 2020-08-31 | Kddi株式会社 | Information processor, information processing method, and program |
| JP2021076913A (en) | 2019-11-05 | 2021-05-20 | 株式会社日立製作所 | Computer and learning method of model |
-
2021
- 2021-12-08 WO PCT/JP2021/045084 patent/WO2023105673A1/en not_active Ceased
- 2021-12-08 JP JP2023565771A patent/JP7623619B2/en active Active
Patent Citations (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019056957A (en) | 2017-09-19 | 2019-04-11 | キヤノン株式会社 | Information processing apparatus, information processing method, computer program and storage medium |
| WO2019221985A1 (en) | 2018-05-14 | 2019-11-21 | Quantum-Si Incorporated | Systems and methods for unifying statistical models for different data modalities |
| JP2020052915A (en) | 2018-09-28 | 2020-04-02 | 日本電信電話株式会社 | Data processing device, data processing method, and program |
| JP2020135424A (en) | 2019-02-20 | 2020-08-31 | Kddi株式会社 | Information processor, information processing method, and program |
| JP2021076913A (en) | 2019-11-05 | 2021-05-20 | 株式会社日立製作所 | Computer and learning method of model |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2023105673A1 (en) | 2023-06-15 |
| WO2023105673A1 (en) | 2023-06-15 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN109815459A (en) | Generate the target summary for being adjusted to the content of text of target audience's vocabulary | |
| KR102398529B1 (en) | Bilingual corpora screening method and apparatus, and storage medium | |
| CN114511472A (en) | Visual positioning method, device, equipment and medium | |
| CN112734873B (en) | Image attribute editing methods, devices, equipment and media for adversarial generative networks | |
| CN115081615A (en) | Neural network training method, data processing method and equipment | |
| CN119359850B (en) | Image generation method, device, electronic equipment and storage medium | |
| CN114600196A (en) | Domain-Specific Human Model Collaborative Annotation Tool | |
| WO2019102797A1 (en) | Neural network learning method, learning device, learned model, and program | |
| CN117633516B (en) | Multimodal sarcasm detection method, device, computer equipment and storage medium | |
| CN113254804A (en) | Social relationship recommendation method and system based on user attributes and behavior characteristics | |
| CN116861092B (en) | Recommendation method, device and equipment based on deep learning model | |
| CN120319449A (en) | A medical image processing method and system based on artificial intelligence | |
| CN112799658A (en) | Model training method, model training platform, electronic device, and storage medium | |
| CN114972910A (en) | Image-text recognition model training method and device, electronic equipment and storage medium | |
| WO2024159819A1 (en) | Training method, layout analysis method, quality assessment method, and apparatuses, device, and medium | |
| CN116541507A (en) | Visual question-answering method and system based on dynamic semantic graph neural network | |
| CN119831058A (en) | AI dialogue system based on multimode input | |
| JP7623619B2 (en) | Learning device, estimation device, learning method, estimation method, and program | |
| CN117744632A (en) | Method, device, equipment and medium for constructing vulnerability information keyword extraction model | |
| CN112966592A (en) | Hand key point detection method, device, equipment and medium | |
| CN117252161A (en) | A domain-specific approach to model training and text generation | |
| CN114783601B (en) | Physiological data analysis method and device, electronic equipment and storage medium | |
| WO2021095213A1 (en) | Learning method, learning program, and learning device | |
| CN121033587A (en) | Visual language model training methods, devices, electronic equipment and storage media | |
| CN120804353A (en) | Training method, image recommending method, device, equipment and medium for image processing model |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240405 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20241217 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241230 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7623619 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |