Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7655446B2 - Analysis device and program - Google Patents
[go: Go Back, main page]

JP7655446B2 - Analysis device and program - Google Patents

Analysis device and program Download PDF

Info

Publication number
JP7655446B2
JP7655446B2 JP2024507219A JP2024507219A JP7655446B2 JP 7655446 B2 JP7655446 B2 JP 7655446B2 JP 2024507219 A JP2024507219 A JP 2024507219A JP 2024507219 A JP2024507219 A JP 2024507219A JP 7655446 B2 JP7655446 B2 JP 7655446B2
Authority
JP
Japan
Prior art keywords
parameter
analysis device
function
reg
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024507219A
Other languages
Japanese (ja)
Other versions
JPWO2023175681A1 (en
Inventor
悠香 橋本
ショウ オウ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Inc
NTT Inc USA
Original Assignee
Nippon Telegraph and Telephone Corp
NTT Inc USA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp, NTT Inc USA filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2023175681A1 publication Critical patent/JPWO2023175681A1/ja
Application granted granted Critical
Publication of JP7655446B2 publication Critical patent/JP7655446B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Complex Calculations (AREA)

Description

本開示は、解析装置及びプログラムに関する。 The present disclosure relates to an analysis device and a program.

ニューラルネットワークは、例えば、回帰問題、分類問題、データ生成、データ分布推定等に幅広く応用されている。近年では、ニューラルネットワークの連続化に関する研究も行われており(例えば、非特許文献1や非特許文献2等)、様々な応用や理論解析に適用されている。非特許文献1に記載されているNeural ODE(Ordinary Differential Equations)では、入力から出力までの変換を連続的な力学系とみなし、連続的な微分方程式に対する解法を利用している。この手法は、層方向(横方向)の連続化といえる。また、非特許文献2に記載されている積分表現理論では、各層における変換を連続化し、積分作用素を用いて表すことで、調和解析の理論を利用してニューラルネットワークの理論解析を行っている。この手法は、ユニット方向(縦方向)の連続化といえる。これらのような連続化によって、微分や積分等といった連続的な関数に対する操作を利用できるようになり、性能向上や理論解析の精緻化が進んだといえる。Neural networks are widely used in, for example, regression problems, classification problems, data generation, data distribution estimation, etc. In recent years, research on continuity of neural networks has also been conducted (for example, Non-Patent Document 1 and Non-Patent Document 2, etc.), and they are applied to various applications and theoretical analyses. In the Neural ODE (Ordinary Differential Equations) described in Non-Patent Document 1, the transformation from input to output is regarded as a continuous dynamical system, and a solution method for continuous differential equations is used. This method can be said to be continuity in the layer direction (horizontal direction). In addition, in the integral representation theory described in Non-Patent Document 2, the transformation in each layer is made continuous and expressed using an integral operator, and theoretical analysis of neural networks is performed using the theory of harmonic analysis. This method can be said to be continuity in the unit direction (vertical direction). Such continuity makes it possible to use operations on continuous functions such as differentiation and integration, and it can be said that performance has improved and theoretical analysis has become more sophisticated.

一方で、C環やHilbert C-moduleといった数学的な概念をデータ解析に応用する研究が行われており(例えば、非特許文献3等)、データ解析に必要な基礎的な性質が示されている。 Meanwhile, research is being conducted into the application of mathematical concepts such as C * -algebras and Hilbert C * -modules to data analysis (for example, Non-Patent Document 3, etc.), and basic properties necessary for data analysis have been shown.

Chen, R. T. Q., Rubanova, Y., Bettencourt, J., and Duvenaud, D. K. Neural ordinary differential equations. In Proceedings of the Advances in Neural Information Processing Systems 31 (NeurIPS), 2018.Chen, R. T. Q., Rubanova, Y., Bettencourt, J., and Duvenaud, D. K. Neural ordinary differential equations. In Proceedings of the Advances in Neural Information Processing Systems 31 (NeurIPS), 2018. Sonoda, S. and Murata, N. Neural network with unbounded activation functions is universal approximator. Applied and Computational Harmonic Analysis, 43(2):233-268, 2017.Sonoda, S. and Murata, N. Neural network with unbounded activation functions is universal approximator. Applied and Computational Harmonic Analysis, 43(2):233-268, 2017. Hashimoto, Y., Ishikawa, I., Ikeda, M., Komura, F., Katsura, T., and Kawahara, Y. Reproducing kernel Hilbert C*-module and kernel mean embeddings. Journal of Machine Learning Research, 22(267):1-56, 2021.Hashimoto, Y., Ishikawa, I., Ikeda, M., Komura, F., Katsura, T., and Kawahara, Y. Reproducing kernel Hilbert C*-module and kernel mean embeddings. Journal of Machine Learning Research, 22(267):1-56, 2021.

しかしながら、ニューラルネットワークの連続化に関する既存研究は1つのモデルを対象としていた。一方で、近年では、アンサンブル学習やメタ学習等といった複数のモデルを同時に学習したり、複数のモデルに共通する特徴量を学習したりする手法が注目されている。このため、複数のモデルを対象として、それら複数のモデルに関連する学習を効率的に行う手法が必要になると考えられる。However, existing research on continuity of neural networks has focused on a single model. Meanwhile, in recent years, methods such as ensemble learning and meta-learning that simultaneously train multiple models or learn features common to multiple models have been attracting attention. For this reason, it is believed that a method that targets multiple models and efficiently performs learning related to these multiple models is required.

本開示は、上記の点に鑑みてなされたもので、複数のモデルに関連する学習を効率的に行う技術を提供する。 The present disclosure has been made in consideration of the above points and provides a technology for efficiently performing learning related to multiple models.

本開示の一態様による解析装置は、コンパクト空間Z上の連続関数全体の空間Aに値を取る複数の要素で構成されるパラメータθを持つニューラルネットワークモデルをfとして、前記ニューラルネットワークモデルfの学習データを入力するように構成されている入力部と、前記学習データを用いて、所定の損失関数Lが含まれる関数Lregを最小化する前記パラメータθを学習するように構成されているパラメータ最適化部と、を有する。 An analysis device according to one aspect of the present disclosure includes an input unit configured to input training data for a neural network model f having a parameter θ composed of a plurality of elements that take values in a space A of all continuous functions in a compact space Z, and a parameter optimization unit configured to learn the parameter θ that minimizes a function L reg including a predetermined loss function L, using the training data.

複数のモデルに関連する学習を効率的に行う技術が提供される。 A technique is provided for efficiently performing learning related to multiple models.

本実施形態に係る解析装置のハードウェア構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of a hardware configuration of an analysis device according to the present embodiment. 本実施形態に係る解析装置の機能構成の一例を示す図である。FIG. 2 is a diagram illustrating an example of a functional configuration of an analysis device according to the present embodiment. 本実施形態に係るパラメータ最適化処理の一例を示すフローチャートである。10 is a flowchart illustrating an example of a parameter optimization process according to the present embodiment. サンプルの一例を示す図である。FIG. 13 is a diagram showing an example of a sample. 密度関数の推定結果の一例を示す図(その1)である。FIG. 13 is a diagram showing an example of an estimation result of a density function (part 1). 密度関数の推定結果の一例を示す図(その2)である。FIG. 13 is a diagram (part 2) showing an example of an estimation result of a density function.

以下、本発明の一実施形態について説明する。以下では、複数のモデルを連続的につなぎ合わせることで、それら複数のモデルに関連する学習を効率的に行うことができる解析装置10について説明する。このとき、複数のモデルを連続的に表現するために、C環やHilbert C-module等の数学的な概念を利用する。 An embodiment of the present invention will be described below. In the following, an analysis device 10 capable of efficiently performing learning related to a plurality of models by continuously connecting the plurality of models will be described. In this case, mathematical concepts such as C * -algebras and Hilbert C * -modules are used to continuously express the plurality of models.

本実施形態に係る解析装置10によれば、複数のモデルに関連する学習(つまり、複数のモデル間で相互作用しながらの学習)を効率的に行うことが可能になり、その結果、連続性のあるデータの解析を効率的に行うことができるようになる。 According to the analysis device 10 of this embodiment, it becomes possible to efficiently perform learning related to multiple models (i.e., learning while interacting between multiple models), and as a result, it becomes possible to efficiently analyze continuous data.

<理論的構成>
本実施形態の理論的構成について説明する。
<Theoretical Framework>
The theoretical configuration of this embodiment will be described.

≪モデル及びそのパラメータの設定≫
コンパクト空間Z上の連続関数全体の空間をAとする。任意の可換なC環は、このような空間Aと同型となることに留意する。パラメータ(重み)がAに値を取るような、隠れ層がK層のニューラルネットワークモデルを考える。
<Model and parameter settings>
Let A be the space of all continuous functions on a compact space Z. Note that any commutative C * -algebra is isomorphic to such a space A. Consider a neural network model with K hidden layers whose parameters (weights) take values in A.

ニューラルネットワークモデルの各層の次元を表す自然数をN,・・・,NK+1とする。ただし、Nは入力層の次元、NK+1は出力層の次元である。 The natural numbers representing the dimensions of each layer of the neural network model are denoted as N 0 , ..., N K+1 , where N 0 is the dimension of the input layer, and N K+1 is the dimension of the output layer.

i=1,・・・,K+1に対して、Ni-1×N行列であって、かつ、各成分がAに値を持つものをWとする。また、AN_iからAN_iへの変換をσとする。ただし、「N_i」は「N」を表す。σは活性化関数に相当し、非線形な変換とすることで、ニューラルネットワーク全体の変換に非線形性が生じる。 For i=1, ..., K+1, let W i be an N i-1 ×N i matrix with each component having a value in A. Also, let σ i be the transformation from A N_i to A N_i , where "N_i" represents "N i ". σ i corresponds to the activation function, and by making it a nonlinear transformation, nonlinearity occurs in the transformation of the entire neural network.

このとき、AN_0のベクトルを入力、AN_(K+1)のベクトルを出力する以下の式(1)に示すようなニューラルネットワークを考える。ただし、「N_0」は「N」、「N_(K+1)」は「NK+1」をそれぞれ表す。 In this case, consider a neural network as shown in the following formula (1) that inputs a vector A N — 0 and outputs a vector A N — (K+1) , where "N_0" represents "N 0 " and "N_(K+1)" represents "N K+1 ".

Figure 0007655446000001
,・・・,WK+1のすべての成分を並べたベクトルをθ∈Aとおく。ただし、N=N+・・・+NK+1である。以下では、fがパラメータθを持つことを明示する場合はfθと表す。Aは、Hilbert空間を拡張した概念であるHilbert C-moduleと呼ばれる空間である。Hilbert C-moduleでは、Aに値を持つ内積が定義される。[a,・・・,a]∈Aと[b,・・・,b]∈Aに対して、Aでの内積は、
Figure 0007655446000001
Let θ∈A N be the vector in which all components of W 1 , ..., W K+1 are arranged. Here, N = N 0 N 1 + ... + N K N K+1 . In the following, when it is explicitly stated that f has a parameter θ, it will be expressed as f θ . A N is a space called the Hilbert C * -module, which is a concept that extends Hilbert space. In the Hilbert C * -module, an inner product with a value in A is defined. For [a 1 , ..., a N ]∈A N and [b 1 , ..., b N ]∈A N , the inner product in A N is:

Figure 0007655446000002
により定義される。
Figure 0007655446000002
It is defined by:

σを固定し、パラメータθに依存した損失関数Lを設定した上で、学習データが与えられたときに、その損失関数Lを最小化することにより最適なfを求める。損失関数Lは、パラメータθをAの元に写すような写像とする。Aに値を持つ(関数値の)パラメータを考えることは、複数のモデルを連続的につなぎ合わせていることに相当する。学習データには、ニューラルネットワークfへの入力を表すサンプルが少なくとも含まれる。また、教師あり学習により最適なfを求める場合、学習データには、サンプルに対する教師(つまり、そのサンプルを入力したときのニューラルネットワークfの出力の正解例)も含まれる。なお、教師は分類タスク等においてはラベル等とも呼ばれる。 When training data is given, the optimal f is obtained by minimizing the loss function L after fixing σ i and setting a loss function L that depends on the parameter θ. The loss function L is a mapping that maps the parameter θ to the element A. Considering a parameter (function value) that has a value in A is equivalent to continuously connecting multiple models. The training data includes at least a sample that represents the input to the neural network f. In addition, when the optimal f is obtained by supervised learning, the training data also includes a teacher for the sample (i.e., a correct example of the output of the neural network f when the sample is input). Note that the teacher is also called a label, etc. in classification tasks, etc.

≪損失関数の設定≫
連続化した複数のモデルの間で相互作用しながら学習が行われるようにするため、通常の損失関数L(例えば、平均二乗誤差やクロスエントロピー誤差等)に正則化項を加えたLregを最小化する。Zが有限測度空間であるとき、以下の式(2)に示すようにLregを定義する。
<Loss function setting>
In order to perform learning while interacting between multiple continuous models, Lreg , which is a regularization term added to a normal loss function L (e.g., mean square error, cross entropy error, etc.), is minimized. When Z is a finite measure space, Lreg is defined as shown in the following formula (2).

Figure 0007655446000003
ただし、λ∈Aは正則化項の重みを表すハイパーパラメータである。
Figure 0007655446000003
Here, λ∈A is a hyperparameter representing the weight of the regularization term.

≪損失関数の最小化≫
勾配法を用いて損失関数Lの最小化を行うことを考える。写像L:A→Aとパラメータθ∈Aに対して、LのθでのA値の勾配∇θLを以下のように定義する。
<Minimization of the loss function>
Consider minimizing the loss function L using a gradient method. For a mapping L: A N →A and a parameter θ∈A N , the gradient ∇ θ L of the A value of L at θ is defined as follows:

「あるξ∈Aが存在し、任意のδ∈Aと任意のz∈Zに対して、 "There exists a ξ∈A N such that for every δ∈A N and every z∈Z,

Figure 0007655446000004
を満たすとき、∇θL=ξと定める。」
例えば、あるF:R×Z×→R(ただし、Rは実数全体を表す。)により、L(θ)(z)=F(θ(z),z)と表せるとき、各z∈Zを通常の勾配∇θ(z)F(・,z)に対応させる写像が連続であれば、この写像はA値の勾配∇θLである。
Figure 0007655446000004
When this is satisfied, we define ∇ θ L = ξ.
For example, for some F: R N × Z × → R (where R represents the set of real numbers), if L(θ)(z) = F(θ(z), z), then if the mapping that maps each z∈Z to the ordinary gradient ∇ θ(z) F(·,z) is continuous, then this mapping is the A-valued gradient ∇ θ L.

このとき、上記の式(2)で定義したLreg(θ)の勾配は以下の式(3)のように計算できる。 In this case, the gradient of L reg (θ) defined by the above formula (2) can be calculated as shown in the following formula (3).

Figure 0007655446000005
ただし、λ'はAのベクトルで、要素がすべてλであるものとする。
Figure 0007655446000005
Here, λ' is a vector of A N , and all elements are λ.

θregを用いて、以下の式(4)に示すような勾配法のスキームを構成する。 Using ∇ θ L reg , a gradient method scheme is constructed as shown in the following equation (4).

Figure 0007655446000006
ただし、θ∈Aである。また、η∈Aは学習率を表すハイパーパラメータである。なお、上記の式(4)は右辺で左辺を更新することを表す。
Figure 0007655446000006
Here, θ 0 ∈ A N. Also, η t ∈ A is a hyperparameter representing a learning rate. Note that the right side of the above formula (4) indicates that the left side is updated by the right side.

ここで、実際には、Aの元(関数)そのものをコンピュータ上で扱うことはできないため、例えば、次のように計算を行う。Aの有限次元部分空間Vと、Vへの写像P:A→Vをとり、∇θLをP(∇θL)に置き換える。また、ハイパーパラメータλとηは定数関数として選ぶ。Pは、例えば、適当な点z,・・・,z∈Zにおける回帰等により定める。また、Zはコンパクトであるため、列 Here, since it is actually impossible to handle the elements (functions) of A themselves on a computer, the calculation is performed, for example, as follows. Take a finite-dimensional subspace V of A N and a mapping P:A N →V onto V, and replace ∇ θ L with P(∇ θ L). Also, the hyperparameters λ and η t are selected as constant functions. P is determined, for example, by regression at suitable points z 1 , ..., z m ∈ Z. Also, since Z is compact, the sequence

Figure 0007655446000007
がtに関して一様にLipschitz連続であれば、
Figure 0007655446000007
If is uniformly Lipschitz continuous in t, then

Figure 0007655446000008
が各点収束するならば一様収束することが示せる。そこで、Vとしては、Lipschitz連続関数を基底として持つ有限次元の部分空間等を考える。
Figure 0007655446000008
It can be shown that if converges at each point, then it converges uniformly. Therefore, as V, a finite-dimensional subspace having a Lipschitz continuous function as a basis is considered.

<解析装置10のハードウェア構成例>
本実施形態に係る解析装置10のハードウェア構成例を図1に示す。図1に示すように、本実施形態に係る解析装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続されている。
<Example of Hardware Configuration of Analysis Device 10>
An example of a hardware configuration of an analysis device 10 according to this embodiment is shown in Fig. 1. As shown in Fig. 1, the analysis device 10 according to this embodiment includes an input device 101, a display device 102, an external I/F 103, a communication I/F 104, a RAM (Random Access Memory) 105, a ROM (Read Only Memory) 106, an auxiliary storage device 107, and a processor 108. Each of these pieces of hardware is connected to each other via a bus 109 so as to be able to communicate with each other.

入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、解析装置10は、例えば、入力装置101と表示装置102の少なくとも一方を有していなくてもよい。The input device 101 is, for example, a keyboard, a mouse, a touch panel, a physical button, etc. The display device 102 is, for example, a display, a display panel, etc. Note that the analysis device 10 does not have to have at least one of the input device 101 and the display device 102, for example.

外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。解析装置10は、外部I/F103を介して、記録媒体103aの読み取りや書き込み等を行うことができる。記録媒体103aとしては、例えば、フレキシブルディスク、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。The external I/F 103 is an interface with an external device such as a recording medium 103a. The analysis device 10 can read and write data from and to the recording medium 103a via the external I/F 103. Examples of the recording medium 103a include a flexible disk, a CD (Compact Disc), a DVD (Digital Versatile Disk), a SD memory card (Secure Digital memory card), and a USB (Universal Serial Bus) memory card.

通信I/F104は、解析装置10を通信ネットワークに接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)やSSD(Solid State Drive)等のストレージ装置(記憶装置)である。プロセッサ108は、例えば、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等の演算装置である。The communication I/F 104 is an interface for connecting the analysis device 10 to a communication network. The RAM 105 is a volatile semiconductor memory (storage device) that temporarily stores programs and data. The ROM 106 is a non-volatile semiconductor memory (storage device) that can store programs and data even when the power is turned off. The auxiliary storage device 107 is a storage device (storage device) such as a hard disk drive (HDD) or a solid state drive (SSD). The processor 108 is an arithmetic device such as a central processing unit (CPU) or a graphics processing unit (GPU).

本実施形態に係る解析装置10は、図1に示すハードウェア構成を有することにより、後述するパラメータ最適化処理を実現することができる。なお、図1に示すハードウェア構成は一例であって、解析装置10のハードウェア構成はこれに限られるものではない。例えば、解析装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェア以外の様々なハードウェアを有していてもよい。The analysis device 10 according to this embodiment has the hardware configuration shown in Fig. 1, and is therefore capable of implementing the parameter optimization process described below. Note that the hardware configuration shown in Fig. 1 is merely an example, and the hardware configuration of the analysis device 10 is not limited thereto. For example, the analysis device 10 may have multiple auxiliary storage devices 107 and multiple processors 108, or may have various other hardware besides the hardware shown in the figure.

<解析装置10の機能構成例>
本実施形態に係る解析装置10の機能構成例を図2に示す。図2に示すように、本実施形態に係る解析装置10は、データ入力部201と、パラメータ最適化部202と、出力計算部203と、データ出力部204とを有する。これら各部は、例えば、解析装置10にインストールされた1以上のプログラムが、プロセッサ108に実行させる処理により実現される。また、本実施形態に係る解析装置10は、記憶部205を有する。記憶部205は、例えば、補助記憶装置107等により実現される。なお、記憶部205は、例えば、解析装置10と通信ネットワークを介して接続される記憶装置等により実現されてもよい。
<Example of functional configuration of analysis device 10>
An example of the functional configuration of the analysis device 10 according to this embodiment is shown in Fig. 2. As shown in Fig. 2, the analysis device 10 according to this embodiment has a data input unit 201, a parameter optimization unit 202, an output calculation unit 203, and a data output unit 204. Each of these units is realized, for example, by a process in which one or more programs installed in the analysis device 10 are executed by the processor 108. The analysis device 10 according to this embodiment also has a storage unit 205. The storage unit 205 is realized, for example, by the auxiliary storage device 107 or the like. Note that the storage unit 205 may be realized, for example, by a storage device connected to the analysis device 10 via a communication network.

データ入力部201は、解析装置10に与えられた学習データを入力する。パラメータ最適化部202は、データ入力部201によって入力された学習データを用いて、式(3)及び式(4)によりパラメータθを更新する。出力計算部203は、パラメータ最適化部202が式(3)により勾配∇θregを計算する際に、学習データに含まれるサンプルを入力としたときのfの出力を計算する。データ出力部204は、パラメータ最適化部202によって更新されたパラメータθを出力する。記憶部205は、各種情報(例えば、学習データ、パラメータθ、ハイパーパラメータλ及びη等)を記憶する。 The data input unit 201 inputs learning data provided to the analysis device 10. The parameter optimization unit 202 updates the parameter θ according to equations (3) and (4) using the learning data input by the data input unit 201. The output calculation unit 203 calculates the output of f when a sample included in the learning data is input, when the parameter optimization unit 202 calculates the gradient ∇ θ L reg according to equation (3). The data output unit 204 outputs the parameter θ updated by the parameter optimization unit 202. The storage unit 205 stores various information (e.g., learning data, parameter θ, hyperparameters λ and η t , etc.).

<パラメータ最適化処理の流れ>
本実施形態に係るパラメータ最適化処理の流れについて、図3を参照しながら説明する。ここで、以下、Mを十分大きい自然数、εを十分小さい正の実数であるものとする。
<Parameter optimization process flow>
The flow of the parameter optimization process according to this embodiment will be described with reference to Fig. 3. Hereinafter, M is assumed to be a sufficiently large natural number, and ε is assumed to be a sufficiently small positive real number.

データ入力部201は、与えられた学習データ(一般に、多数の学習データ)を入力する(ステップS101)。The data input unit 201 inputs given learning data (generally a large number of learning data) (step S101).

パラメータ最適化部202は、t=0と初期化すると共に、パラメータθ=θを初期化する(ステップS102)。なお、パラメータ最適化部202は、例えば、乱数等によりパラメータθを初期化すればよい。 The parameter optimization unit 202 initializes t=0 and also initializes the parameter θ t0 (step S102). Note that the parameter optimization unit 202 may initialize the parameter θ 0 using, for example, a random number.

パラメータ最適化部202は、t<M又は||L(θ)||>εであるか否かを判定する(ステップS103)。パラメータ最適化部202は、t<M又は||L(θ)||>εであると判定された場合はステップS104に進み、そうでない場合(つまり、t≧Mかつ||L(θ)||≦εである場合)はステップS107に進む。 The parameter optimization unit 202 judges whether t<M or ∥L( θt )∥>ε (step S103). If it is judged that t<M or ∥L( θt )∥>ε, the parameter optimization unit 202 proceeds to step S104, and if not (i.e., t≧M and ∥L( θt )∥≦ε), the parameter optimization unit 202 proceeds to step S107.

パラメータ最適化部202は、式(3)により勾配∇θregを計算する(ステップS104)。このとき、パラメータ最適化部202は、式(3)中の∇θLをP(∇θL)に置き換えた上で式(3)を計算する。また、パラメータ最適化部202が式(3)を計算する際には、学習データに含まれるサンプルを入力としたときのfの出力を出力計算部203により計算することで、P(∇θL)を計算する。 The parameter optimization unit 202 calculates the gradient ∇ θ L reg by equation (3) (step S104). At this time, the parameter optimization unit 202 calculates equation (3) after replacing ∇ θ L in equation (3) with P(∇ θ L). In addition, when the parameter optimization unit 202 calculates equation (3), the output calculation unit 203 calculates the output of f when a sample included in the learning data is input, thereby calculating P(∇ θ L).

次に、パラメータ最適化部202は、式(4)によりパラメータθt+1を更新する(ステップS105)。 Next, the parameter optimization unit 202 updates the parameter θ t+1 by equation (4) (step S105).

次に、パラメータ最適化部202は、t←t+1と更新する(ステップS106)。Next, the parameter optimization unit 202 updates t ← t + 1 (step S106).

データ出力部204は、パラメータθを出力する(ステップS107)。なお、データ出力部204は、予め決められた任意の出力先(例えば、記憶部205、他のプログラム、通信ネットワークを介して接続される他の機器等)に当該パラメータθを出力すればよい。これにより、最適なパラメータθ=θが得られ、その結果、このパラメータを持つ最適なf=fθが得られる。 The data output unit 204 outputs the parameter θt (step S107). The data output unit 204 may output the parameter θt to any predetermined output destination (for example, the storage unit 205, another program, another device connected via a communication network, etc.). This provides an optimal parameter θ= θt , and as a result, an optimal f= having this parameter is obtained.

<応用例>
以下、本実施形態に係る解析装置10の応用例について説明する。
<Application Examples>
Application examples of the analysis device 10 according to this embodiment will be described below.

≪応用例1:Normalizing flowを用いた密度推定≫
Zをコンパクトな確率空間とし、DをZ上の確率測度とする。また、Ωを確率空間とし、Z×Ω上の確率変数Xで、RN_0(ただし、Rは実数全体、「N_0」は「N」を表す。)に値を取るものを考える。任意のω∈Ωに対して、X(・,ω)は連続とする。
<Application Example 1: Density estimation using normalizing flow>
Let Z be a compact probability space and D be a probability measure on Z. Also, let Ω be a probability space, and consider a random variable X on Z×Ω that takes values in R N_0 (where R is the set of real numbers and "N_0" represents "N 0 "). For any ω∈Ω, let X(.,ω) be continuous.

このとき、任意のz∈Zに対して、確率変数X(z,・)が正規分布に従うならば、確率変数In this case, if the random variable X(z, ) follows a normal distribution for any z∈Z, then the random variable

Figure 0007655446000009
が、学習データとして与えられたサンプルの分布に従うように上記の式(1)で定義したf=fθを学習する。以下、上記の数9に示す確率変数の分布の密度関数をpdata θ,zと表す。
Figure 0007655446000009
f = defined in the above formula (1) is learned so that it follows the distribution of the sample given as the learning data. Hereinafter, the density function of the distribution of the random variable shown in the above formula 9 is represented as p data θ,z .

学習データとして与えられたサンプルをx,・・・,x∈RN_0とする。損失関数Lについては、尤度最大化の考えに基づいて、 Let x 1 , ..., x nR N_0 be samples given as training data. The loss function L is defined based on the idea of maximizing the likelihood as follows:

Figure 0007655446000010
とする。このLに対して、図3に示すパラメータ最適化処理によりパラメータθの最適化を行う。fθの入力と出力はそれぞれAN_0のベクトルとAN_(K+1)のベクトルであるが、入力は値がxの定数関数とする。出力については、推定が正しければpdata θ,zはzに依存しないはずである。そこで、例えば、出力として得られるZ上の関数を、Z上でDを用いて積分する等して最終的な出力として密度関数を得る。
Figure 0007655446000010
For this L, the parameter θ is optimized by the parameter optimization process shown in FIG. 3. The input and output of are the vector A N_0 and the vector A N_(K+1) , respectively, but the input is a constant function whose value is x i . As for the output, if the estimation is correct, p data θ,z should not depend on z. Therefore, for example, the function on Z obtained as the output is integrated on Z using D to obtain a density function as the final output.

≪応用例2:Few-shot学習≫
Few-shot学習は、少ないサンプルからモデルを学習するための方法である。Few-shot学習の精度を上げるための方法として、メタ学習がある、メタ学習では、複数のタスクに対する学習データを用いて予めメタモデルを学習することで、タスク間に共通の特徴量を学習する。この特徴量を用いることにより、新しいタスクに対するサンプル数が少ない場合であっても、その新しいタスクに対するモデルを効率的に学習でき、精度が向上する。例えば、参考文献1で提案されている方法では、メタモデルとして、タスクを低次元空間での表現に写す写像Zと、低次元空間での表現をモデルのパラメータに変換する写像Θを学習する。このようなメタモデルと、図3に示すパラメータ最適化処理とを組み合わせることで、Few-shot学習の精度を更に向上させることができる。
<Application Example 2: Few-shot learning>
Few-shot learning is a method for learning a model from a small number of samples. As a method for improving the accuracy of Few-shot learning, there is meta-learning. In meta-learning, a meta-model is learned in advance using learning data for a plurality of tasks, thereby learning features common between tasks. By using this feature, even if the number of samples for a new task is small, a model for the new task can be efficiently learned, improving accuracy. For example, in the method proposed in Reference 1, a mapping Z that maps a task to an expression in a low-dimensional space and a mapping Θ that converts the expression in the low-dimensional space into the parameters of the model are learned as meta-models. By combining such a meta-model with the parameter optimization process shown in FIG. 3, the accuracy of Few-shot learning can be further improved.

一例として、分類問題を考える。サンプルをx,・・・,x∈RN_0とする。また、サンプルxに対するラベルをy∈RN_(K+1)とする。更に、xに値を取る定数関数をX、yに値を取る定数関数をYとする。このとき、サンプルx∈RN_0とそのラベルy∈RN_(K+1)に対して、定数関数Xを定数関数Yに変換する写像となるように、上記の式(1)で定義したf=fθを学習する。 Consider a classification problem as an example. Let the samples be x 1 , ..., x nR N_0 . Let the label for sample x i be y iR N_(K+1) . Let X i be a constant function that takes a value for x i , and Y i be a constant function that takes a value for y i . In this case, for sample x iR N_0 and its label y iR N_(K+1) , f = f θ defined in the above formula (1) is learned so as to become a mapping that converts the constant function X i into a constant function Y i .

メタモデルにおけるZとΘを予め学習させておき、新たなタスクに対する低次元空間での表現znewを得る。znewの近傍をZとし、新たなタスクに対するモデルのパラメータの初期値θを、ΘをZへ制限した写像として設定する。損失関数Lについては、クロスエントロピー誤差 Z and Θ in the meta-model are trained in advance to obtain a representation z new in a low-dimensional space for a new task. The neighborhood of z new is set as Z, and the initial value θ 0 of the model parameters for the new task is set as a mapping that restricts Θ to Z. The loss function L is the cross-entropy error

Figure 0007655446000011
を用いる。ただし、〈・,・〉は、AでのAに値を持つ内積である。
Figure 0007655446000011
where 〈·,·〉 is the A-valued inner product in A N.

<評価結果>
以下、本実施形態に係る解析装置10を評価した結果について説明する。
<Evaluation Results>
The results of evaluation of the analysis device 10 according to this embodiment will be described below.

図4の左図及び右図にそれぞれ示すような2種類の100個のサンプルが与えられたものとする。このとき、2種類の100個のサンプルがそれぞれ従う分布の密度関数を応用例1で説明した方法により推定した。Suppose we are given two types of 100 samples, as shown in the left and right figures of Figure 4. In this case, the density functions of the distributions that each of the two types of 100 samples follows are estimated using the method described in Application Example 1.

Z=[-4,4]×[-4,4]とし、 Let Z = [-4, 4] x [-4, 4],

Figure 0007655446000012
とおき、Aの有限次元部分空間VをSpan{v,・・・,vとおいた。また、Pは、v,・・・,vによるカーネルリッジ回帰とした。つまり、(i,j)成分が
Figure 0007655446000012
Let V be the finite-dimensional subspace of A N as Span {v 1 , ..., v 9 } N. P is a kernel ridge regression with v 1 , ..., v 9. In other words, the (i, j) component is

Figure 0007655446000013
であるような行列をGとしたとき、θ=[θ,・・・,θに対するP(θ)の第i成分は、[v,・・・,v](G+μI)-1[θ(z),・・・,θ(z)]により計算される。ここで、μ≧0はハイパーパラメータ、Iは単位行列である。
Figure 0007655446000013
If G is a matrix such that θ=[θ 1 , ..., θ N ] T , the i-th component of P(θ) for θ=[θ 1 , ..., θ N ] T is calculated by [v 1 , ..., v 9 ](G+μI) −1i (z 1 ), ..., θ i (z 9 )] T, where μ≧0 is a hyperparameter and I is an identity matrix.

また、確率変数X(z,・)が従う正規分布は、平均z、標準偏差1の正規分布とした。 In addition, the random variable X(z,・) follows a normal distribution with mean z and standard deviation 1.

このとき、図4の左図に示すサンプルが与えられたときに、応用例1で説明した方法により密度関数を推定した結果を図5の左図に、i=1,・・・,9に対して平均z、標準偏差1の正規分布を用いた9個のモデルを別々に学習し、それらの出力を平均した結果を図5の右図にそれぞれ示す。同様に、図4の右図に示すサンプルが与えられたときに、応用例1で説明した方法により密度関数を推定した結果を図6の左図に、i=1,・・・,9に対して平均z、標準偏差1の正規分布を用いた9個のモデルを別々に学習し、それらの出力を平均した結果を図6の右図にそれぞれ示す。ここで、図5及び図6の右図に示す結果を得た方法は、応用例1で説明した方法において、式(2)におけるλとカーネルリッジ回帰のハイパーパラメータμをどちらも零にした場合に相当する。 In this case, when the sample shown in the left diagram of FIG. 4 is given, the result of estimating the density function by the method described in Application Example 1 is shown in the left diagram of FIG. 5, and the result of separately learning nine models using normal distributions with mean z i and standard deviation 1 for i = 1, ..., 9 and averaging their outputs is shown in the right diagram of FIG. 5. Similarly, when the sample shown in the right diagram of FIG. 4 is given, the result of estimating the density function by the method described in Application Example 1 is shown in the left diagram of FIG. 6, and the result of separately learning nine models using normal distributions with mean z i and standard deviation 1 for i = 1, ..., 9 and averaging their outputs is shown in the right diagram of FIG. 6. Here, the method of obtaining the results shown in the right diagrams of FIG. 5 and FIG. 6 corresponds to the case where both λ and the hyperparameter μ of the kernel ridge regression in Equation (2) are set to zero in the method described in Application Example 1.

図5及び図6の左図と右図を比較すると、左図の方が右図のよりも密度関数を滑らかに推定できていることがわかる。これは、本実施形態に係る解析装置10では、複数のモデルを連続的につなぎ合わせ、関数としての連続的な性質を利用しているためである。 Comparing the left and right diagrams in Figures 5 and 6, it can be seen that the density function can be estimated more smoothly in the left diagram than in the right diagram. This is because the analysis device 10 according to this embodiment continuously connects multiple models and utilizes the continuous nature of the function.

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。The present invention is not limited to the specifically disclosed embodiments above, and various modifications, variations, and combinations with known technologies are possible without departing from the scope of the claims.

[参考文献]
参考文献1:Rusu, A. A., Rao, D., Sygnowski, J., Vinyals, O., Pascanu, R., Osindero, S., and Hadsell, R. Meta-learning with latent embedding optimization. In Proceedings of the 7th International Conference on Learning Representations (ICLR), 2019.
[References]
Reference 1: Rusu, AA, Rao, D., Sygnowski, J., Vinyals, O., Pascanu, R., Osindero, S., and Hadsell, R. Meta-learning with latent embedding optimization. In Proceedings of the 7th International Conference on Learning Representations (ICLR), 2019.

10 解析装置
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 データ入力部
202 パラメータ最適化部
203 出力計算部
204 データ出力部
205 記憶部
10 Analysis device 101 Input device 102 Display device 103 External I/F
103a Recording medium 104 Communication I/F
105 RAM
106 ROM
107 Auxiliary storage device 108 Processor 109 Bus 201 Data input section 202 Parameter optimization section 203 Output calculation section 204 Data output section 205 Storage section

Claims (5)

コンパクト空間Z上の連続関数全体の空間Aに値を取る複数の要素で構成されるパラメータθを持つニューラルネットワークモデルをfとして、前記ニューラルネットワークモデルfの学習データを入力するように構成されている入力部と、
前記学習データを用いて、所定の損失関数Lが含まれる関数Lregを最小化する前記パラメータθを学習するように構成されているパラメータ最適化部と、
を有する解析装置。
An input unit configured to input learning data for a neural network model f, the neural network model having a parameter θ composed of a plurality of elements whose values are in a space A of all continuous functions in a compact space Z;
A parameter optimization unit configured to learn the parameter θ that minimizes a function L reg including a predetermined loss function L using the learning data;
An analysis device having the above configuration.
前記関数Lregは、前記パラメータθをAの元に写すような写像で表され、かつ、前記損失関数LのZ上における積分で表される正則化項が含まれる、請求項1に記載の解析装置。 The analysis device according to claim 1 , wherein the function L reg is expressed by a mapping that maps the parameter θ to an element of A, and includes a regularization term that is expressed by an integral of the loss function L over Z. 前記パラメータ最適化部は、
前記パラメータθの要素数をN、Aの有限次元部分空間をVとして、所定の写像P:A→Vを用いて、前記パラメータθに関する前記損失関数Lの勾配∇θLの代わりにP(∇θL)を計算することで、前記パラメータθに関する前記関数Lregの勾配∇θregを計算し、
前記勾配∇θregを用いて、前記パラメータθを更新することで、前記パラメータθを学習するように構成されている、請求項1又は2に記載の解析装置。
The parameter optimization unit is
A gradient ∇ θ L reg of the function L reg with respect to the parameter θ is calculated by calculating P(∇ θ L) instead of the gradient ∇ θ L of the loss function L with respect to the parameter θ using a predetermined mapping P:A N V, where N is the number of elements of the parameter θ and V is a finite-dimensional subspace of A N ;
The analysis device according to claim 1 , wherein the parameter θ is learned by updating the parameter θ using the gradient ∇ θ L reg .
前記写像Pは、カーネルリッジ回帰を含む回帰により定められる写像である、請求項3に記載の解析装置。 The analysis device of claim 3, wherein the mapping P is a mapping determined by regression including kernel ridge regression. コンパクト空間Z上の連続関数全体の空間Aに値を取る複数の要素で構成されるパラメータθを持つニューラルネットワークモデルをfとして、前記ニューラルネットワークモデルfの学習データを入力する入力手順と、
前記学習データを用いて、所定の損失関数Lが含まれる関数Lregを最小化する前記パラメータθを学習するパラメータ最適化手順と、
をコンピュータに実行させるプログラム。
An input step of inputting learning data for a neural network model f having a parameter θ composed of a plurality of elements whose values are in a space A of all continuous functions in a compact space Z;
a parameter optimization procedure for learning the parameter θ that minimizes a function L reg including a predetermined loss function L using the learning data;
A program that causes a computer to execute the following.
JP2024507219A 2022-03-14 2022-03-14 Analysis device and program Active JP7655446B2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/011365 WO2023175681A1 (en) 2022-03-14 2022-03-14 Analysis device and program

Publications (2)

Publication Number Publication Date
JPWO2023175681A1 JPWO2023175681A1 (en) 2023-09-21
JP7655446B2 true JP7655446B2 (en) 2025-04-02

Family

ID=88022480

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024507219A Active JP7655446B2 (en) 2022-03-14 2022-03-14 Analysis device and program

Country Status (2)

Country Link
JP (1) JP7655446B2 (en)
WO (1) WO2023175681A1 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2025158546A1 (en) * 2024-01-23 2025-07-31 Ntt株式会社 Training device, training method, and program
WO2025173077A1 (en) * 2024-02-13 2025-08-21 Ntt株式会社 Learning device, learning method, and program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159769A (en) 2018-03-13 2019-09-19 富士通株式会社 Search program, search method, and search device

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019159769A (en) 2018-03-13 2019-09-19 富士通株式会社 Search program, search method, and search device

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHU, Jiaming, et al.,Sufficient Condition for the Existence of the Compact Set in the RBF Neural Network Control,IEEE Transactions on Neural Networks and Learning Systems,2017年06月20日,Vol.29 No.7,pp.3277-3282,[online] [検索日:2022.05.18] <URL: https://ieeexplore.ieee.org/document/7954022>
福水健次,ニューロ多様体の特異構造と無限の局所自由度,数理科学,日本,株式会社サイエンス社,2005年03月01日,第43巻,第3号,pp.16-22

Also Published As

Publication number Publication date
JPWO2023175681A1 (en) 2023-09-21
WO2023175681A1 (en) 2023-09-21

Similar Documents

Publication Publication Date Title
WO2019160003A1 (en) Model learning device, model learning method, and program
JP7655446B2 (en) Analysis device and program
Herzog et al. Data-driven modeling and prediction of complex spatio-temporal dynamics in excitable media
Kalita et al. A survey on SVM hyper-parameters optimization techniques
JPWO2019198814A1 (en) Neural network system, neural network method, program
Chen et al. Addressing information asymmetry: Deep temporal causality discovery for mixed time series
CN114819295B (en) Data analysis and prediction method, device, server, storage medium and program product
Cox et al. Sparse Bayesian estimation of parameters in linear-Gaussian state-space models
Zeng et al. Enhancing stock index prediction: A hybrid LSTM-PSO model for improved forecasting accuracy
Fang et al. A reduced order finite element-informed surrogate model for approximating global high-fidelity simulation
Farrell-Maupin et al. Adaptive selection and validation of models of complex systems in the presence of uncertainty
JP7476977B2 (en) Prediction method, prediction device, and program
Dietrich et al. Scientific machine learning
JP2019095894A (en) Estimating device, learning device, learned model, estimation method, learning method, and program
Geiger et al. A comprehensive comparison of lexicase-based selection methods for symbolic regression problems
JP7420244B2 (en) Learning device, learning method, estimation device, estimation method and program
Berikov et al. Semi-supervised regression using cluster ensemble and low-rank co-association matrix decomposition under uncertainties
Zhu et al. A hybrid model for nonlinear regression with missing data using quasilinear kernel
Rahman et al. A comprehensive analysis of optimizers in message passing neural networks for molecular property prediction task
JP7118882B2 (en) Variable transformation device, latent parameter learning device, latent parameter generation device, methods and programs thereof
US12450495B2 (en) Neural capacitance: neural network selection via edge dynamics
Durumeric et al. Explaining classifiers to understand coarse-grained models
JP7163977B2 (en) Estimation device, learning device, method thereof, and program
JP7457325B2 (en) Optimization device, evaluation device, their method, and program
Warner et al. X-ELM: A Fast Explainability Approach for Extreme Learning Machines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240619

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20240701

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250303

R150 Certificate of patent or registration of utility model

Ref document number: 7655446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350