JP7655446B2 - Analysis device and program - Google Patents
Analysis device and program Download PDFInfo
- Publication number
- JP7655446B2 JP7655446B2 JP2024507219A JP2024507219A JP7655446B2 JP 7655446 B2 JP7655446 B2 JP 7655446B2 JP 2024507219 A JP2024507219 A JP 2024507219A JP 2024507219 A JP2024507219 A JP 2024507219A JP 7655446 B2 JP7655446 B2 JP 7655446B2
- Authority
- JP
- Japan
- Prior art keywords
- parameter
- analysis device
- function
- reg
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Complex Calculations (AREA)
Description
本開示は、解析装置及びプログラムに関する。 The present disclosure relates to an analysis device and a program.
ニューラルネットワークは、例えば、回帰問題、分類問題、データ生成、データ分布推定等に幅広く応用されている。近年では、ニューラルネットワークの連続化に関する研究も行われており(例えば、非特許文献1や非特許文献2等)、様々な応用や理論解析に適用されている。非特許文献1に記載されているNeural ODE(Ordinary Differential Equations)では、入力から出力までの変換を連続的な力学系とみなし、連続的な微分方程式に対する解法を利用している。この手法は、層方向(横方向)の連続化といえる。また、非特許文献2に記載されている積分表現理論では、各層における変換を連続化し、積分作用素を用いて表すことで、調和解析の理論を利用してニューラルネットワークの理論解析を行っている。この手法は、ユニット方向(縦方向)の連続化といえる。これらのような連続化によって、微分や積分等といった連続的な関数に対する操作を利用できるようになり、性能向上や理論解析の精緻化が進んだといえる。Neural networks are widely used in, for example, regression problems, classification problems, data generation, data distribution estimation, etc. In recent years, research on continuity of neural networks has also been conducted (for example, Non-Patent Document 1 and Non-Patent
一方で、C*環やHilbert C*-moduleといった数学的な概念をデータ解析に応用する研究が行われており(例えば、非特許文献3等)、データ解析に必要な基礎的な性質が示されている。 Meanwhile, research is being conducted into the application of mathematical concepts such as C * -algebras and Hilbert C * -modules to data analysis (for example, Non-Patent Document 3, etc.), and basic properties necessary for data analysis have been shown.
しかしながら、ニューラルネットワークの連続化に関する既存研究は1つのモデルを対象としていた。一方で、近年では、アンサンブル学習やメタ学習等といった複数のモデルを同時に学習したり、複数のモデルに共通する特徴量を学習したりする手法が注目されている。このため、複数のモデルを対象として、それら複数のモデルに関連する学習を効率的に行う手法が必要になると考えられる。However, existing research on continuity of neural networks has focused on a single model. Meanwhile, in recent years, methods such as ensemble learning and meta-learning that simultaneously train multiple models or learn features common to multiple models have been attracting attention. For this reason, it is believed that a method that targets multiple models and efficiently performs learning related to these multiple models is required.
本開示は、上記の点に鑑みてなされたもので、複数のモデルに関連する学習を効率的に行う技術を提供する。 The present disclosure has been made in consideration of the above points and provides a technology for efficiently performing learning related to multiple models.
本開示の一態様による解析装置は、コンパクト空間Z上の連続関数全体の空間Aに値を取る複数の要素で構成されるパラメータθを持つニューラルネットワークモデルをfとして、前記ニューラルネットワークモデルfの学習データを入力するように構成されている入力部と、前記学習データを用いて、所定の損失関数Lが含まれる関数Lregを最小化する前記パラメータθを学習するように構成されているパラメータ最適化部と、を有する。 An analysis device according to one aspect of the present disclosure includes an input unit configured to input training data for a neural network model f having a parameter θ composed of a plurality of elements that take values in a space A of all continuous functions in a compact space Z, and a parameter optimization unit configured to learn the parameter θ that minimizes a function L reg including a predetermined loss function L, using the training data.
複数のモデルに関連する学習を効率的に行う技術が提供される。 A technique is provided for efficiently performing learning related to multiple models.
以下、本発明の一実施形態について説明する。以下では、複数のモデルを連続的につなぎ合わせることで、それら複数のモデルに関連する学習を効率的に行うことができる解析装置10について説明する。このとき、複数のモデルを連続的に表現するために、C*環やHilbert C*-module等の数学的な概念を利用する。
An embodiment of the present invention will be described below. In the following, an
本実施形態に係る解析装置10によれば、複数のモデルに関連する学習(つまり、複数のモデル間で相互作用しながらの学習)を効率的に行うことが可能になり、その結果、連続性のあるデータの解析を効率的に行うことができるようになる。
According to the
<理論的構成>
本実施形態の理論的構成について説明する。
<Theoretical Framework>
The theoretical configuration of this embodiment will be described.
≪モデル及びそのパラメータの設定≫
コンパクト空間Z上の連続関数全体の空間をAとする。任意の可換なC*環は、このような空間Aと同型となることに留意する。パラメータ(重み)がAに値を取るような、隠れ層がK層のニューラルネットワークモデルを考える。
<Model and parameter settings>
Let A be the space of all continuous functions on a compact space Z. Note that any commutative C * -algebra is isomorphic to such a space A. Consider a neural network model with K hidden layers whose parameters (weights) take values in A.
ニューラルネットワークモデルの各層の次元を表す自然数をN0,・・・,NK+1とする。ただし、N0は入力層の次元、NK+1は出力層の次元である。 The natural numbers representing the dimensions of each layer of the neural network model are denoted as N 0 , ..., N K+1 , where N 0 is the dimension of the input layer, and N K+1 is the dimension of the output layer.
i=1,・・・,K+1に対して、Ni-1×Ni行列であって、かつ、各成分がAに値を持つものをWiとする。また、AN_iからAN_iへの変換をσiとする。ただし、「N_i」は「Ni」を表す。σiは活性化関数に相当し、非線形な変換とすることで、ニューラルネットワーク全体の変換に非線形性が生じる。 For i=1, ..., K+1, let W i be an N i-1 ×N i matrix with each component having a value in A. Also, let σ i be the transformation from A N_i to A N_i , where "N_i" represents "N i ". σ i corresponds to the activation function, and by making it a nonlinear transformation, nonlinearity occurs in the transformation of the entire neural network.
このとき、AN_0のベクトルを入力、AN_(K+1)のベクトルを出力する以下の式(1)に示すようなニューラルネットワークを考える。ただし、「N_0」は「N0」、「N_(K+1)」は「NK+1」をそれぞれ表す。 In this case, consider a neural network as shown in the following formula (1) that inputs a vector A N — 0 and outputs a vector A N — (K+1) , where "N_0" represents "N 0 " and "N_(K+1)" represents "N K+1 ".
σiを固定し、パラメータθに依存した損失関数Lを設定した上で、学習データが与えられたときに、その損失関数Lを最小化することにより最適なfを求める。損失関数Lは、パラメータθをAの元に写すような写像とする。Aに値を持つ(関数値の)パラメータを考えることは、複数のモデルを連続的につなぎ合わせていることに相当する。学習データには、ニューラルネットワークfへの入力を表すサンプルが少なくとも含まれる。また、教師あり学習により最適なfを求める場合、学習データには、サンプルに対する教師(つまり、そのサンプルを入力したときのニューラルネットワークfの出力の正解例)も含まれる。なお、教師は分類タスク等においてはラベル等とも呼ばれる。 When training data is given, the optimal f is obtained by minimizing the loss function L after fixing σ i and setting a loss function L that depends on the parameter θ. The loss function L is a mapping that maps the parameter θ to the element A. Considering a parameter (function value) that has a value in A is equivalent to continuously connecting multiple models. The training data includes at least a sample that represents the input to the neural network f. In addition, when the optimal f is obtained by supervised learning, the training data also includes a teacher for the sample (i.e., a correct example of the output of the neural network f when the sample is input). Note that the teacher is also called a label, etc. in classification tasks, etc.
≪損失関数の設定≫
連続化した複数のモデルの間で相互作用しながら学習が行われるようにするため、通常の損失関数L(例えば、平均二乗誤差やクロスエントロピー誤差等)に正則化項を加えたLregを最小化する。Zが有限測度空間であるとき、以下の式(2)に示すようにLregを定義する。
<Loss function setting>
In order to perform learning while interacting between multiple continuous models, Lreg , which is a regularization term added to a normal loss function L (e.g., mean square error, cross entropy error, etc.), is minimized. When Z is a finite measure space, Lreg is defined as shown in the following formula (2).
≪損失関数の最小化≫
勾配法を用いて損失関数Lの最小化を行うことを考える。写像L:AN→Aとパラメータθ∈ANに対して、LのθでのA値の勾配∇θLを以下のように定義する。
<Minimization of the loss function>
Consider minimizing the loss function L using a gradient method. For a mapping L: A N →A and a parameter θ∈A N , the gradient ∇ θ L of the A value of L at θ is defined as follows:
「あるξ∈ANが存在し、任意のδ∈ANと任意のz∈Zに対して、 "There exists a ξ∈A N such that for every δ∈A N and every z∈Z,
例えば、あるF:RN×Z×→R(ただし、Rは実数全体を表す。)により、L(θ)(z)=F(θ(z),z)と表せるとき、各z∈Zを通常の勾配∇θ(z)F(・,z)に対応させる写像が連続であれば、この写像はA値の勾配∇θLである。
For example, for some F: R N × Z × → R (where R represents the set of real numbers), if L(θ)(z) = F(θ(z), z), then if the mapping that maps each z∈Z to the ordinary gradient ∇ θ(z) F(·,z) is continuous, then this mapping is the A-valued gradient ∇ θ L.
このとき、上記の式(2)で定義したLreg(θ)の勾配は以下の式(3)のように計算できる。 In this case, the gradient of L reg (θ) defined by the above formula (2) can be calculated as shown in the following formula (3).
∇θLregを用いて、以下の式(4)に示すような勾配法のスキームを構成する。 Using ∇ θ L reg , a gradient method scheme is constructed as shown in the following equation (4).
ここで、実際には、Aの元(関数)そのものをコンピュータ上で扱うことはできないため、例えば、次のように計算を行う。ANの有限次元部分空間Vと、Vへの写像P:AN→Vをとり、∇θLをP(∇θL)に置き換える。また、ハイパーパラメータλとηtは定数関数として選ぶ。Pは、例えば、適当な点z1,・・・,zm∈Zにおける回帰等により定める。また、Zはコンパクトであるため、列 Here, since it is actually impossible to handle the elements (functions) of A themselves on a computer, the calculation is performed, for example, as follows. Take a finite-dimensional subspace V of A N and a mapping P:A N →V onto V, and replace ∇ θ L with P(∇ θ L). Also, the hyperparameters λ and η t are selected as constant functions. P is determined, for example, by regression at suitable points z 1 , ..., z m ∈ Z. Also, since Z is compact, the sequence
<解析装置10のハードウェア構成例>
本実施形態に係る解析装置10のハードウェア構成例を図1に示す。図1に示すように、本実施形態に係る解析装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続されている。
<Example of Hardware Configuration of
An example of a hardware configuration of an
入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、解析装置10は、例えば、入力装置101と表示装置102の少なくとも一方を有していなくてもよい。The
外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。解析装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。記録媒体103aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。The external I/
通信I/F104は、解析装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージ装置(記憶装置)である。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置である。The communication I/
本実施形態に係る解析装置10は、図1に示すハードウェア構成を有することにより、後述するパラメータ最適化処理を実現することができる。なお、図1に示すハードウェア構成は一例であって、解析装置10のハードウェア構成はこれに限られるものではない。例えば、解析装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。The
<解析装置10の機能構成例>
本実施形態に係る解析装置10の機能構成例を図2に示す。図2に示すように、本実施形態に係る解析装置10は、データ入力部201と、パラメータ最適化部202と、出力計算部203と、データ出力部204とを有する。これら各部は、例えば、解析装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。また、本実施形態に係る解析装置10は、記憶部205を有する。記憶部205は、例えば、補助記憶装置107等により実現される。なお、記憶部205は、例えば、解析装置10と通信ネットワークを介して接続される記憶装置等により実現されてもよい。
<Example of functional configuration of
An example of the functional configuration of the
データ入力部201は、解析装置10に与えられた学習データを入力する。パラメータ最適化部202は、データ入力部201によって入力された学習データを用いて、式(3)及び式(4)によりパラメータθを更新する。出力計算部203は、パラメータ最適化部202が式(3)により勾配∇θLregを計算する際に、学習データに含まれるサンプルを入力としたときのfの出力を計算する。データ出力部204は、パラメータ最適化部202によって更新されたパラメータθを出力する。記憶部205は、各種情報(例えば、学習データ、パラメータθ、ハイパーパラメータλ及びηt等)を記憶する。
The
<パラメータ最適化処理の流れ>
本実施形態に係るパラメータ最適化処理の流れについて、図3を参照しながら説明する。ここで、以下、Mを十分大きい自然数、εを十分小さい正の実数であるものとする。
<Parameter optimization process flow>
The flow of the parameter optimization process according to this embodiment will be described with reference to Fig. 3. Hereinafter, M is assumed to be a sufficiently large natural number, and ε is assumed to be a sufficiently small positive real number.
データ入力部201は、与えられた学習データ(一般に、多数の学習データ)を入力する(ステップS101)。The
パラメータ最適化部202は、t=0と初期化すると共に、パラメータθt=θ0を初期化する(ステップS102)。なお、パラメータ最適化部202は、例えば、乱数等によりパラメータθ0を初期化すればよい。
The
パラメータ最適化部202は、t<M又は||L(θt)||>εであるか否かを判定する(ステップS103)。パラメータ最適化部202は、t<M又は||L(θt)||>εであると判定された場合はステップS104に進み、そうでない場合(つまり、t≧Mかつ||L(θt)||≦εである場合)はステップS107に進む。
The
パラメータ最適化部202は、式(3)により勾配∇θLregを計算する(ステップS104)。このとき、パラメータ最適化部202は、式(3)中の∇θLをP(∇θL)に置き換えた上で式(3)を計算する。また、パラメータ最適化部202が式(3)を計算する際には、学習データに含まれるサンプルを入力としたときのfの出力を出力計算部203により計算することで、P(∇θL)を計算する。
The
次に、パラメータ最適化部202は、式(4)によりパラメータθt+1を更新する(ステップS105)。
Next, the
次に、パラメータ最適化部202は、t←t+1と更新する(ステップS106)。Next, the
データ出力部204は、パラメータθtを出力する(ステップS107)。なお、データ出力部204は、予め決められた任意の出力先(例えば、記憶部205、他のプログラム、通信ネットワークを介して接続される他の機器等)に当該パラメータθtを出力すればよい。これにより、最適なパラメータθ=θtが得られ、その結果、このパラメータを持つ最適なf=fθが得られる。
The
<応用例>
以下、本実施形態に係る解析装置10の応用例について説明する。
<Application Examples>
Application examples of the
≪応用例1:Normalizing flowを用いた密度推定≫
Zをコンパクトな確率空間とし、DをZ上の確率測度とする。また、Ωを確率空間とし、Z×Ω上の確率変数Xで、RN_0(ただし、Rは実数全体、「N_0」は「N0」を表す。)に値を取るものを考える。任意のω∈Ωに対して、X(・,ω)は連続とする。
<Application Example 1: Density estimation using normalizing flow>
Let Z be a compact probability space and D be a probability measure on Z. Also, let Ω be a probability space, and consider a random variable X on Z×Ω that takes values in R N_0 (where R is the set of real numbers and "N_0" represents "N 0 "). For any ω∈Ω, let X(.,ω) be continuous.
このとき、任意のz∈Zに対して、確率変数X(z,・)が正規分布に従うならば、確率変数In this case, if the random variable X(z, ) follows a normal distribution for any z∈Z, then the random variable
学習データとして与えられたサンプルをx1,・・・,xn∈RN_0とする。損失関数Lについては、尤度最大化の考えに基づいて、 Let x 1 , ..., x n ∈ R N_0 be samples given as training data. The loss function L is defined based on the idea of maximizing the likelihood as follows:
≪応用例2:Few-shot学習≫
Few-shot学習は、少ないサンプルからモデルを学習するための方法である。Few-shot学習の精度を上げるための方法として、メタ学習がある、メタ学習では、複数のタスクに対する学習データを用いて予めメタモデルを学習することで、タスク間に共通の特徴量を学習する。この特徴量を用いることにより、新しいタスクに対するサンプル数が少ない場合であっても、その新しいタスクに対するモデルを効率的に学習でき、精度が向上する。例えば、参考文献1で提案されている方法では、メタモデルとして、タスクを低次元空間での表現に写す写像Zと、低次元空間での表現をモデルのパラメータに変換する写像Θを学習する。このようなメタモデルと、図3に示すパラメータ最適化処理とを組み合わせることで、Few-shot学習の精度を更に向上させることができる。
<Application Example 2: Few-shot learning>
Few-shot learning is a method for learning a model from a small number of samples. As a method for improving the accuracy of Few-shot learning, there is meta-learning. In meta-learning, a meta-model is learned in advance using learning data for a plurality of tasks, thereby learning features common between tasks. By using this feature, even if the number of samples for a new task is small, a model for the new task can be efficiently learned, improving accuracy. For example, in the method proposed in Reference 1, a mapping Z that maps a task to an expression in a low-dimensional space and a mapping Θ that converts the expression in the low-dimensional space into the parameters of the model are learned as meta-models. By combining such a meta-model with the parameter optimization process shown in FIG. 3, the accuracy of Few-shot learning can be further improved.
一例として、分類問題を考える。サンプルをx1,・・・,xn∈RN_0とする。また、サンプルxiに対するラベルをyi∈RN_(K+1)とする。更に、xiに値を取る定数関数をXi、yiに値を取る定数関数をYiとする。このとき、サンプルxi∈RN_0とそのラベルyi∈RN_(K+1)に対して、定数関数Xiを定数関数Yiに変換する写像となるように、上記の式(1)で定義したf=fθを学習する。 Consider a classification problem as an example. Let the samples be x 1 , ..., x n ∈ R N_0 . Let the label for sample x i be y i ∈ R N_(K+1) . Let X i be a constant function that takes a value for x i , and Y i be a constant function that takes a value for y i . In this case, for sample x i ∈ R N_0 and its label y i ∈ R N_(K+1) , f = f θ defined in the above formula (1) is learned so as to become a mapping that converts the constant function X i into a constant function Y i .
メタモデルにおけるZとΘを予め学習させておき、新たなタスクに対する低次元空間での表現znewを得る。znewの近傍をZとし、新たなタスクに対するモデルのパラメータの初期値θ0を、ΘをZへ制限した写像として設定する。損失関数Lについては、クロスエントロピー誤差 Z and Θ in the meta-model are trained in advance to obtain a representation z new in a low-dimensional space for a new task. The neighborhood of z new is set as Z, and the initial value θ 0 of the model parameters for the new task is set as a mapping that restricts Θ to Z. The loss function L is the cross-entropy error
<評価結果>
以下、本実施形態に係る解析装置10を評価した結果について説明する。
<Evaluation Results>
The results of evaluation of the
図4の左図及び右図にそれぞれ示すような2種類の100個のサンプルが与えられたものとする。このとき、2種類の100個のサンプルがそれぞれ従う分布の密度関数を応用例1で説明した方法により推定した。Suppose we are given two types of 100 samples, as shown in the left and right figures of Figure 4. In this case, the density functions of the distributions that each of the two types of 100 samples follows are estimated using the method described in Application Example 1.
Z=[-4,4]×[-4,4]とし、 Let Z = [-4, 4] x [-4, 4],
また、確率変数X(z,・)が従う正規分布は、平均z、標準偏差1の正規分布とした。 In addition, the random variable X(z,・) follows a normal distribution with mean z and standard deviation 1.
このとき、図4の左図に示すサンプルが与えられたときに、応用例1で説明した方法により密度関数を推定した結果を図5の左図に、i=1,・・・,9に対して平均zi、標準偏差1の正規分布を用いた9個のモデルを別々に学習し、それらの出力を平均した結果を図5の右図にそれぞれ示す。同様に、図4の右図に示すサンプルが与えられたときに、応用例1で説明した方法により密度関数を推定した結果を図6の左図に、i=1,・・・,9に対して平均zi、標準偏差1の正規分布を用いた9個のモデルを別々に学習し、それらの出力を平均した結果を図6の右図にそれぞれ示す。ここで、図5及び図6の右図に示す結果を得た方法は、応用例1で説明した方法において、式(2)におけるλとカーネルリッジ回帰のハイパーパラメータμをどちらも零にした場合に相当する。 In this case, when the sample shown in the left diagram of FIG. 4 is given, the result of estimating the density function by the method described in Application Example 1 is shown in the left diagram of FIG. 5, and the result of separately learning nine models using normal distributions with mean z i and standard deviation 1 for i = 1, ..., 9 and averaging their outputs is shown in the right diagram of FIG. 5. Similarly, when the sample shown in the right diagram of FIG. 4 is given, the result of estimating the density function by the method described in Application Example 1 is shown in the left diagram of FIG. 6, and the result of separately learning nine models using normal distributions with mean z i and standard deviation 1 for i = 1, ..., 9 and averaging their outputs is shown in the right diagram of FIG. 6. Here, the method of obtaining the results shown in the right diagrams of FIG. 5 and FIG. 6 corresponds to the case where both λ and the hyperparameter μ of the kernel ridge regression in Equation (2) are set to zero in the method described in Application Example 1.
図5及び図6の左図と右図を比較すると、左図の方が右図のよりも密度関数を滑らかに推定できていることがわかる。これは、本実施形態に係る解析装置10では、複数のモデルを連続的につなぎ合わせ、関数としての連続的な性質を利用しているためである。
Comparing the left and right diagrams in Figures 5 and 6, it can be seen that the density function can be estimated more smoothly in the left diagram than in the right diagram. This is because the
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。The present invention is not limited to the specifically disclosed embodiments above, and various modifications, variations, and combinations with known technologies are possible without departing from the scope of the claims.
[参考文献]
参考文献1:Rusu, A. A., Rao, D., Sygnowski, J., Vinyals, O., Pascanu, R., Osindero, S., and Hadsell, R. Meta-learning with latent embedding optimization. In Proceedings of the 7th International Conference on Learning Representations (ICLR), 2019.
[References]
Reference 1: Rusu, AA, Rao, D., Sygnowski, J., Vinyals, O., Pascanu, R., Osindero, S., and Hadsell, R. Meta-learning with latent embedding optimization. In Proceedings of the 7th International Conference on Learning Representations (ICLR), 2019.
10 解析装置
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 データ入力部
202 パラメータ最適化部
203 出力計算部
204 データ出力部
205 記憶部
10
103a Recording medium 104 Communication I/F
105 RAM
106 ROM
107
Claims (5)
前記学習データを用いて、所定の損失関数Lが含まれる関数Lregを最小化する前記パラメータθを学習するように構成されているパラメータ最適化部と、
を有する解析装置。 An input unit configured to input learning data for a neural network model f, the neural network model having a parameter θ composed of a plurality of elements whose values are in a space A of all continuous functions in a compact space Z;
A parameter optimization unit configured to learn the parameter θ that minimizes a function L reg including a predetermined loss function L using the learning data;
An analysis device having the above configuration.
前記パラメータθの要素数をN、ANの有限次元部分空間をVとして、所定の写像P:AN→Vを用いて、前記パラメータθに関する前記損失関数Lの勾配∇θLの代わりにP(∇θL)を計算することで、前記パラメータθに関する前記関数Lregの勾配∇θLregを計算し、
前記勾配∇θLregを用いて、前記パラメータθを更新することで、前記パラメータθを学習するように構成されている、請求項1又は2に記載の解析装置。 The parameter optimization unit is
A gradient ∇ θ L reg of the function L reg with respect to the parameter θ is calculated by calculating P(∇ θ L) instead of the gradient ∇ θ L of the loss function L with respect to the parameter θ using a predetermined mapping P:A N → V, where N is the number of elements of the parameter θ and V is a finite-dimensional subspace of A N ;
The analysis device according to claim 1 , wherein the parameter θ is learned by updating the parameter θ using the gradient ∇ θ L reg .
前記学習データを用いて、所定の損失関数Lが含まれる関数Lregを最小化する前記パラメータθを学習するパラメータ最適化手順と、
をコンピュータに実行させるプログラム。 An input step of inputting learning data for a neural network model f having a parameter θ composed of a plurality of elements whose values are in a space A of all continuous functions in a compact space Z;
a parameter optimization procedure for learning the parameter θ that minimizes a function L reg including a predetermined loss function L using the learning data;
A program that causes a computer to execute the following.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| PCT/JP2022/011365 WO2023175681A1 (en) | 2022-03-14 | 2022-03-14 | Analysis device and program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2023175681A1 JPWO2023175681A1 (en) | 2023-09-21 |
| JP7655446B2 true JP7655446B2 (en) | 2025-04-02 |
Family
ID=88022480
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024507219A Active JP7655446B2 (en) | 2022-03-14 | 2022-03-14 | Analysis device and program |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7655446B2 (en) |
| WO (1) | WO2023175681A1 (en) |
Families Citing this family (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2025158546A1 (en) * | 2024-01-23 | 2025-07-31 | Ntt株式会社 | Training device, training method, and program |
| WO2025173077A1 (en) * | 2024-02-13 | 2025-08-21 | Ntt株式会社 | Learning device, learning method, and program |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019159769A (en) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | Search program, search method, and search device |
-
2022
- 2022-03-14 WO PCT/JP2022/011365 patent/WO2023175681A1/en not_active Ceased
- 2022-03-14 JP JP2024507219A patent/JP7655446B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2019159769A (en) | 2018-03-13 | 2019-09-19 | 富士通株式会社 | Search program, search method, and search device |
Non-Patent Citations (2)
| Title |
|---|
| ZHU, Jiaming, et al.,Sufficient Condition for the Existence of the Compact Set in the RBF Neural Network Control,IEEE Transactions on Neural Networks and Learning Systems,2017年06月20日,Vol.29 No.7,pp.3277-3282,[online] [検索日:2022.05.18] <URL: https://ieeexplore.ieee.org/document/7954022> |
| 福水健次,ニューロ多様体の特異構造と無限の局所自由度,数理科学,日本,株式会社サイエンス社,2005年03月01日,第43巻,第3号,pp.16-22 |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2023175681A1 (en) | 2023-09-21 |
| WO2023175681A1 (en) | 2023-09-21 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| WO2019160003A1 (en) | Model learning device, model learning method, and program | |
| JP7655446B2 (en) | Analysis device and program | |
| Herzog et al. | Data-driven modeling and prediction of complex spatio-temporal dynamics in excitable media | |
| Kalita et al. | A survey on SVM hyper-parameters optimization techniques | |
| JPWO2019198814A1 (en) | Neural network system, neural network method, program | |
| Chen et al. | Addressing information asymmetry: Deep temporal causality discovery for mixed time series | |
| CN114819295B (en) | Data analysis and prediction method, device, server, storage medium and program product | |
| Cox et al. | Sparse Bayesian estimation of parameters in linear-Gaussian state-space models | |
| Zeng et al. | Enhancing stock index prediction: A hybrid LSTM-PSO model for improved forecasting accuracy | |
| Fang et al. | A reduced order finite element-informed surrogate model for approximating global high-fidelity simulation | |
| Farrell-Maupin et al. | Adaptive selection and validation of models of complex systems in the presence of uncertainty | |
| JP7476977B2 (en) | Prediction method, prediction device, and program | |
| Dietrich et al. | Scientific machine learning | |
| JP2019095894A (en) | Estimating device, learning device, learned model, estimation method, learning method, and program | |
| Geiger et al. | A comprehensive comparison of lexicase-based selection methods for symbolic regression problems | |
| JP7420244B2 (en) | Learning device, learning method, estimation device, estimation method and program | |
| Berikov et al. | Semi-supervised regression using cluster ensemble and low-rank co-association matrix decomposition under uncertainties | |
| Zhu et al. | A hybrid model for nonlinear regression with missing data using quasilinear kernel | |
| Rahman et al. | A comprehensive analysis of optimizers in message passing neural networks for molecular property prediction task | |
| JP7118882B2 (en) | Variable transformation device, latent parameter learning device, latent parameter generation device, methods and programs thereof | |
| US12450495B2 (en) | Neural capacitance: neural network selection via edge dynamics | |
| Durumeric et al. | Explaining classifiers to understand coarse-grained models | |
| JP7163977B2 (en) | Estimation device, learning device, method thereof, and program | |
| JP7457325B2 (en) | Optimization device, evaluation device, their method, and program | |
| Warner et al. | X-ELM: A Fast Explainability Approach for Extreme Learning Machines |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240619 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20240701 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250218 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250303 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7655446 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |