Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7655779B2 - 学習モデル更新装置及び学習モデル更新方法 - Google Patents
[go: Go Back, main page]

JP7655779B2 - 学習モデル更新装置及び学習モデル更新方法 - Google Patents

学習モデル更新装置及び学習モデル更新方法 Download PDF

Info

Publication number
JP7655779B2
JP7655779B2 JP2021086450A JP2021086450A JP7655779B2 JP 7655779 B2 JP7655779 B2 JP 7655779B2 JP 2021086450 A JP2021086450 A JP 2021086450A JP 2021086450 A JP2021086450 A JP 2021086450A JP 7655779 B2 JP7655779 B2 JP 7655779B2
Authority
JP
Japan
Prior art keywords
learning model
image data
learning
query
negative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021086450A
Other languages
English (en)
Other versions
JP2022179162A (ja
Inventor
敦 廣池
全 孔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2021086450A priority Critical patent/JP7655779B2/ja
Publication of JP2022179162A publication Critical patent/JP2022179162A/ja
Application granted granted Critical
Publication of JP7655779B2 publication Critical patent/JP7655779B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習モデル更新装置及び学習モデル更新方法に関する。
各種記憶装置の容量の大規模化、計算機演算性能の向上、ネットワーク上の転送速度の高速化等により、各種業務において、大量の電子的履歴情報の蓄積が可能となった。情報の内容としても、従来の書誌的情報だけではなく、映像、画像等の多様なメディア情報を蓄積することが可能となった。
このような背景から、これらの電子的履歴情報を利活用するための情報処理技術へのニーズが高まっている。例えば、特許、商標、意匠の審査業務では、出願された文献、関連する図像、審査業務に関連し付与された書誌情報等の多様な情報が業務の履歴情報として蓄積される。これらの履歴情報を活用することによって、審査業務の効率化、出願に関わる作業の効率化が実現できれば、産業分野の発展に大きく寄与することとなる。
画像に対して、任意個数のキーワードと共に保存された業務情報は、しばしば存在する。また、業務上取得された画像に対して、それに付与するべきキーワードを自動で付与するような要望も多い。
データに対して複数個のラベルが付与された学習データは、マルチラベルの学習データと呼ばれる。マルチラベル学習データを対象とする深層型ニューラルネットワークの学習では、Cross-Entropy Lossを用いる方法が一般的である。この方法では、ラベルの「異なり数」分の出力値を出すネットワークを構成する。しかし、キーワード付与では、事前に付与されるキーワードの異なり数を想定することが困難な場合も多い。また、想定する異なり数が極端に大きい場合、ネットワークモデルの構成上、および、処理の実行上、課題が発生する。
一方、深層型ニューラルネットワークの学習方式の1つであるtripletネットワーク学習では、同一のラベルを持つデータ間では距離が小さく、異なるレベルを持つデータ間では距離が大きくなるような特徴量ベクトルを出力するようにニューラルネットワークを学習する。
図1に、tripletの概念を図示した。tripletネットワーク学習では、着目するデータ(アンカー)111と同一のレベルを持つデータを正事例112、異なるレベルを持つデータを負事例113とし、アンカー、正事例、負事例の3者から構成されるtriplet110を作る。
tripletを構成する各データは、同一の重みを持つニューラルネットワークモデル120に入力され、ニューラルネットワークモデル120を構成するニューラルネットワークは、それぞれのデータに対応した特徴量ベクトル130を出力する。
なお、図1ではニューラルネットワークモデル120としてCNN(Convolutional Neural Network:畳み込みニューラルネットワーク)を例示しているが、ニューラルネットワークモデル120としてCNNに限定する意図はなく、既知のニューラルネットワークモデルが適用可能である。本明細書全体を通しても、ネットワークモデルは既知のものが好適に適用可能である。
次に、アンカー111・正事例112間の特徴量空間上での距離D 140、および、アンカー111・負事例113間の特徴量空間上での距離D 150が計算される。学習の目的関数であるloss関数は、tripletごと算出されるこの2つの距離の差の総和として定義される。非特許文献1では、このtripletネットワーク学習を顔画像による個人認証を行うための特徴量の学習に適用している。
ある学習セットが与えられた時、tripletは無数に存在する。非特許文献2は、類似ベクトル検索処理を適用することによって、効率的な学習を実現するtripletを選択する方式について論じている。
Schroff, Florian, Dmitry Kalenichenko, James Philbin. "Facenet: A unified embedding for face recognition and clustering", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2015) 池浦 康充、岡本 光一、加嶋 亮平、廣池 敦:IoTデータ向けマルチモーダル深層学習基盤,日立評論,102-3,119-123(2020)
上述したtripletネットワーク学習は、特徴量ベクトルの取得するための方法として有効であるが、各データに対して単一のラベルが付与された場合に適用できる方法である。一方、マルチラベルの学習データの場合、アンカーとなるデータと他のデータとの間で正事例・負事例の関係が一義的には定義できないため、tripletを構成することが出来ない。
本発明は上記の課題に鑑みてなされたもので、その目的は、マルチラベルの学習データを対象としたtripletネットワーク学習を可能とする学習モデル更新装置及び学習モデル更新方法を提供することにある。
上記課題を解決すべく、本発明の一つの観点に従う学習モデル更新装置は、複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置であって、学習モデルに対する学習データとして受け入れた複数の画像データから選択された1の画像データであるクエリと、クエリとして選択された画像データと異なる複数の画像データとの間のラベル類似度を算出するラベル類似度算出部と、ラベル類似度の算出の際に用いられた複数の画像データのうち、ラベル類似度のギャップが所定の条件を満たす画像データの組を正事例及び負事例の組として選択する選択処理部と、選択された正事例と負事例の組に基づき学習モデルを更新するモデル更新処理部とを備えることを特徴とする。
本発明によれば、マルチラベルの学習データを対象としたtripletネットワーク学習を可能とする学習モデル更新装置及び学習モデル更新方法を実現することができる。
一般的なtripletネットワーク学習の模式図である。 実施例1に係る学習モデル更新装置の構成図である。 実施例1に係る学習モデル更新装置の処理のフローである。 実施例1に係る学習モデル更新装置のtriplet集合生成処理のフローである。 実施例1に係る学習モデル更新装置における検索結果ごとのtriplet生成処理の説明図である。 実施例1に係る学習モデル更新装置における検索結果ごとのtriplet生成処理のフローである。 実施例2に係る学習モデル更新装置の構成図である。 実施例2に係る学習モデル更新装置の処理のフローである。 実施例2に係る学習モデル更新装置におけるtriplet集合生成処理のフローである。 実施例2に係る学習モデル更新装置におけるアンカーごとのtriplet生成処理のフローである。 実施例1または実施例2により更新されたネットワークモデルを用いた検索装置の構成図である。
以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。
なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。
また、以下の説明では、情報の一例として「xxxデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「xxxデータ」を「xxxテーブル」と言うことができる。さらに、「xxxデータ」を単に「xxx」と言うこともある。そして、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしても良い。
なお、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ(例えばCPU(Central Processing Unit))によって実行されることで、定められた処理を、適宜に記憶資源(例えばメモリ)及び/又は通信インターフェースデバイス(例えばポート)を用いながら行うため、処理の主語がプログラムとされても良い。プログラムを主語として説明された処理は、プロセッサ或いはそのプロセッサを有する計算機が行う処理としても良い。
本実施形態の学習モデル更新装置は、一例として以下のような構成を有する。
マルチラベルの学習データにおいて、各データに付与されたラベルに基づき、データ間のラベル類似度を定義する。あるデータをアンカーとして考えた時に、アンカーとのラベル類似度の差(ギャップ)が最大となるデータの組、ないしは、ラベル類似度の差(ギャップ)が一定の値以上となるデータの組の集合を抽出する。各データの組の中で、アンカーとのラベル類似度が高いものを正事例の候補、低いものを負事例の候補とし、抽出された正事例候補・負事例候補の組から、アンカーとの特徴量ベクトル空間中での距離が小さい順に必要な個数を選択し、tripletの集合を構成する。
学習データ中の各データをアンカーとして上記処理を実行することによって、学習対象であるtripletの全体集合を構成する。構成されたtripletの全体集合に対して、loss関数を定義し、その最小化によって、特徴量ベクトル抽出のための学習を行う。
本実施例は、本実施例の技術と類似ベクトル検索技術を併用して効率的な学習を実現するものである。
図2は、本実施例の構成図である。
本実施例の学習モデル更新装置210は、マルチラベル情報が付与された画像データの集合を学習データ220として受け付ける。通常の運用では、深層型ニューラルネットワークの学習を行うにあたって、完全にネットワークの重みはランダムな状態から開始することは稀である。事前に他の学習課題で学習済みのネットワークモデル230を学習の初期状態として与えることによって、学習の効率化を行う。
学習モデル更新装置210の内部では、推論処理部211において、学習過程におけるその時点のネットワークモデルの状態を用いて学習データの特徴ベクトルの抽出を行う。類似ベクトル検索処理部212では、推論処理部211により抽出された特徴量ベクトルの集合を対象とした類似ベクトル検索を行う。
triplet集合生成処理部213では、類似ベクトル検索処理部212による類似ベクトル検索処理の結果に基づいて、学習に用いるtripletの集合を構成する。より詳細には、triplet集合生成処理部213のラベル類似度算出部213aは、学習データ220である複数の画像データから選択された1の画像データであるクエリと、クエリとして選択された画像データと異なる複数の画像データとの間のラベル類似度を算出し、選択処理部213bは、ラベル類似度の算出の際に用いられた複数の画像データのうち、ラベル類似度のギャップが所定の条件を満たす画像データの組を正事例及び負事例の組として選択する。
モデル更新処理部214では、triplet集合生成処理部213により構成された学習用tripletの集合を用いてネットワークモデルの更新処理を行う。更新されたネットワークモデル240の状態は、モデル保存処理部215において、必要に応じて外部の記憶媒体に保存される。
図3に、学習モデル更新装置210の処理の流れを示す。
学習モデル更新装置210では、先ず、学習データおよびネットワークモデルの初期状態を取得する(301)。続く推論処理(302)で、学習データの特徴量ベクトルを抽出する。
次のクラスタリング処理(303)は、triplet集合生成処理(304)において行う類似ベクトル検索を高速に実行するための前処理である。クラスタリングを用いた類似ベクトル検索については、上述の非特許文献2等で論じられている。続くtriplet集合生成処理(304)については後述する。
triplet集合生成処理(304)で取得されたtripletの集合から、一定の基準に基づき、実際に学習に用いる学習用tripletの選択(305)を行う。本基準の内容については、後述する。学習用tripletは、tripletを要素とする順序付けられた配列である。このようにして取得された学習用tripletによって、ネットワークモデルの更新(306)を行う。次回行われる推論処理(302)では、この更新されたネットワークモデルを用いることとなる。
本実施例では、推論処理(302)からネットワークモデルの更新(306)に至るまでの処理を学習の1周期とする。学習終了の判定処理(307)では、通常、この周期の数が事前に設定された最大周期数に達した場合、学習を終了するが、他の評価基準に基づいて学習を終了してもよい。
図4に、triplet集合生成処理(304)における処理の流れを示す。
先ず、triplet集合の要素を空にする(401)。次に、学習データ中のデータを1つクエリとして選択し(402)、そのクエリの特徴量ベクトルと類似した特徴量ベクトルを持つデータを検索し(403)、検索結果を取得する(404)。取得された検索結果に用いて、次の検索結果ごとのtriplet生成処理(405)を行う。本処理の内容については、後述する。
次に、取得された検索結果ごとのtriplet集合を本処理のtriplet集合に追加する(406)。402から406までの処理は、通常、全ての学習データをクエリとして行われるが、計算量の制限等の要請により、クエリとするデータの件数に上限を設ける場合もある。この場合は、学習データ中から無作為に選択された一定個数のデータをクエリとする、等の方法が取られる。
次に、検索結果ごとのtriplet生成処理(405)の詳細な内容について説明する。
先ず、マルチラベルが付与された場合のラベル類似度を以下のように定義する。
Figure 0007655779000001
ここで、qは、クエリとして選択されたデータ、xは、検索結果中の任意のデータ、Qはクエリqに付与されたレベルの集合、Xは検索結果中のデータxに付与されたラベルの集合である。また、式(1)左辺の分母は、QとXの和集合の要素数、分子は、QとXの積集合の要素数である。qとxとのラベル類似度s(q,x)は、両者のラベルが完全に一致した場合1、共通するラベルが全く存在しない場合0となる。
次に、検索結果中の異なる2つのデータから構成されるデータの組(x,y)間に対して、クエリqとのラベル類似度の差(ギャップ)g(q,x,y)を次式のように定義する。
Figure 0007655779000002
上式の値の範囲は、-1~1となる。
図5は、検索結果中のラベル類似度の推移を模式的に示したものである。
図5の横軸は検索結果中の順位、縦軸は各検索結果のラベル類似度である。特徴量ベクトル空間上での類似度と、ラベル類似度が高い相関関係にあれば、ラベル類似度は、検索順位の増大に従い、単調に減少すると想定される。しかし、実際には、両者の食い違いが発生し、検索順位が低いデータが高いラベル類似度を示したり、検索順位が高いデータが低いラベル類似度を示したりする。
そこで、式(2)のラベル類似度のギャップの概念を用いる。ある検索順位のデータに着目した時、そのデータよりも順位が低いデータとそのデータとの間のラベル類似度のギャップを算出する。式(2)の変数名に従えば、より低い順位のデータがx、着目したデータがyに対応する。
本実施例では、検索結果中のデータの組について、このラベル類似度のギャップが最大となる組を抽出し、各組を構成するデータの中で順位が低い方をtripletを構成するための正事例の候補、順位が高い方を負事例の候補とする。
なお、ある検索結果が与えられた時、このギャップの値が最大となる組は、通常、複数存在する。ギャップ、および、その元となるラベル類似度は、0~1の間の値をとる実数として定義されているが、式(1)から明らかなように、ラベル類似度は、各データに付与されたラベルの個数等のそれほど大きくない整数値の組合せで定義されている。結果としてギャップの値は、連続的な値として分布するものではなく、多数の離散的な値をとるものとして分布する。
従って、最大値を与える組は、一意に決まることはなく、通常は、多数発生する。また、ギャップが最大となる組の内、同一の負事例候補を共有する組が複数存在する場合には、正事例候補の順位が高い方の組、すなわち、検索順位の隔たりが小さい方の組を選択する。
上述の方法により抽出された正事例候補・負事例候補の組の集合中から、負事例候補の検索順位が高い方から事前に指定された個数の組を選択し、クエリと各組と組合わせることによって、triplet集合を構成する。正事例候補・負事例候補の組の数が、指摘された個数に満たない場合は、全ての正事例候補・負事例候補の組を用いてtriplet集合を構成する。なお、最大ギャップ値が、事前に指定された閾値より小さい場合は、tripletの構成を行わない。すなわち、この場合、生成されるtripletの集合は空集合となる。
図6に、上述した検索結果ごとのtriplet集合生成処理(405)の処理の流れを示す。
先ず、クエリと検索結果中のデータ間でのラベル類似度を算出する(601)。次に、ラベル類似度のギャップが最大となる検索結果の組を正事例候補・負事例候補の組として抽出する(602)。次に、抽出された正事例候補・負事例候補の組から、負事例候補の検索順位が高い方からN件を選択する(603)。最後に、クエリと選択された正事例候補・負事例候補の組を組み合わせることによって、N個のtripletを構成する(604)。
生成された各tripletに対して、次式のような値(tripletごとのloss関数)を定義する。
Figure 0007655779000003
ここで、qは、クエリの特徴量ベクトル、xは正事例の特徴量ベクトル、yは負事例の特徴量ベクトルである。本実施例では、クエリからの特徴量ベクトル空間上での距離が負事例よりも正事例の方が大きいものを選択してtripletを構成しているため、上式の値は、非負となる。
図3の学習用tripletの選択(305)では、triplet集合生成処理(304)によって取得されたtriplet集合を、式(3)の値が小さい順にソートする。triplet集合の要素数が指定された件数よりも大きい場合は、下位のtriplet、すなわち、式(3)の値が相対的に大きいtripletは切り捨てられる。
図3のネットワークモデルの更新(306)では、次式のloss関数が減少するように最適化が行われる。
Figure 0007655779000004
ここで、iは学習用tripleの配列の添え字、qはi番目のtripletのクエリの特徴量ベクトル、xはi番目のtripletの正事例の特徴量ベクトル、yはi番目のtripletの負事例の特徴量ベクトルである。また、bは、2乗距離の差の下限で、あるtripletの正事例、負事例間での2乗距離の差がbを下回る場合、そのtripletは最適化計算の対象から除外される。
本実施例では、全ての学習用tripletについて、一度に最適化を行うわけではない。多くの深層型ニューラルネットワークの学習と同様に、学習用tripletの配列全体をミニ・バッチと言われる小さい配列に分割し、ミニ・バッチ単位で、逐次的にネットワークの更新を行う。
従って、ある周期での最初の状態で、式(3)のtripletごとのloss関数が非負の条件を満たしていたとしても、更新の過程でのネットワークの状態の変動により、正事例・負事例間の2乗距離の差が負の値となる場合が出てくる。式(4)のbは、負の極端に大きな値に基づきネットワークの更新を行った場合、数値計算上の不安定化により、学習が失敗してしまうことを避けるためのものである。かかる観点から、式(4)のbの値は適切なスカラー値として事前に設定される。
また、ネットワークの更新(306)処理は、処理(305)でソートされた順序で行われる。従って、式(3)の値が小さいtripletを用いた学習が優先されることになる。tripletごとのloss関数が小さいtripletを先に学習することは、特徴量空間の補正がより小規模で足りると想定されるtriplet、すなわち、学習するのが容易と想定されるtripletから優先して処理することを意味する。これは、より安定性の高い学習過程を実現するための方策である。
なお、図6で説明した検索結果ごとのtriplet集合生成処理では、ラベル間類似度のギャップが最大となる正事例候補・負事例候補の組として抽出しているが、ギャップの値が一定閾値以上である全ての組を抽出してもよい。また、抽出された正事例候補・負事例候補の組から、負事例候補の順位が高い組を優先させて選択しているが、式(3)のtripletごとのloss関数が小さくなる組を優先させて選択してもよいし、無作為に選択してもよい。また、図3の学習用tripletの選択(305)では、ラベル類似度のギャップが大きいものを優先して選択してもよいし、無作為に選択してもよい。
また、式(1)のラベル類似度の定義方法において、他の定義を採用してもよい。例えば、次式は、式(1)と同様、集合演算を用いた別の定義方法である。
Figure 0007655779000005
更に、マルチラベルが付与された表現形式として、存在するラベルの総数を次元とするベクトルを想定し、あるデータに対して付与されている場合は1、付与させていない場合は0として、ベクトルの形式で表現する方法もある。この場合は、ベクトル間の内積、ないしは、ベクトル間の距離からラベル類似度を定義することができる。
以上詳細に説明したように、本実施例によれば、マルチラベルの学習データを対象としたtripletネットワーク学習を可能とする学習モデル更新装置210及び学習モデル更新方法を実現することができる。
本実施例では、類似ベクトル検索を伴わない学習処理について説明する。
図7は、本実施例の構成図である。
本実施例を構成する各処理部は、図2に示した実施例1の対応する処理部と同様の機能を提供するものが多い。
学習モデル更新装置710は、マルチラベル情報が付与された画像データの集合を学習データ720として受け取る。また、必要な場合は、事前に他の学習課題で学習済みのネットワークモデル730を学習の初期状態として受け取る。
学習モデル更新装置710の内部では、triplet集合生成処理部711において学習に用いるtripletの集合を生成し、モデル更新処理部712において生成された学習用tripletの集合を用いたネットワークモデルの更新処理を行う。更新されたネットワークモデル740の状態は、モデル保存処理部713において必要に応じて外部の記憶媒体に保存される。
図8に、学習モデル更新装置710の処理の流れを示す。
学習モデル更新装置710では、先ず、学習データおよびネットワークモデルの初期状態を取得する(801)。次に、全学習データ間において式(1)のラベル類似度を算出し、その値を保持する(802)。
次に、本実施例におけるtriplet集合生成処理(803)を行う。本処理の内容については後述する。triplet集合生成処理(803)で取得されたtripletの集合から、一定の基準に基づき、実際に学習に用いる学習用tripletの選択(804)を行う。本基準の内容については、後述する。学習用tripletは、tripletを要素とする順序付けられた配列である。このようにして取得された学習用tripletによって、ネットワークモデルの更新(805)を行う。
本実施例では、triplet集合生成処理(803)からネットワークモデルの更新(805)に至るまでの処理を学習の1周期とする。学習終了の判定処理(806)では、通常、この周期の数が事前に設定された最大周期数に達した場合、学習を終了するが、他の評価基準に基づいて学習を終了してもよい。
図9に、triplet集合生成処理(803)における処理の流れを示す。
先ず、triplet集合の要素を空にする(901)。次に、学習データ中のデータを1つアンカーとして選択する(902)。このアンカーとして選択されたデータに基づき、アンカーごとのtriplet生成処理(903)を行う。本処理の内容については、後述する。
次に、取得されたアンカーごとのtriplet集合を本処理のtriplet集合に追加する(904)。(902)から(904)までの処理は、通常、全ての学習データをアンカーとして選択して行われるが、計算量の制限等の要請により、アンカーとするデータの件数に上限を設ける場合もある。この場合は、学習データ中から無作為に選択された一定個数のデータをアンカーとして用いる。
図10に、アンカーごとのtriplet生成処理(903)の処理の流れを示す。
先ず、本処理中に一時的に保持されるデータである、正事例候補・負事例候補の組の集合Sを空にする(1001)。次に、アンカーaを除く学習データの中から、データの組(x,y)を無作為に選択する(1002)。続いて、aとx、aとy、それぞれの間のラベル類似度より、式(2)のラベル類似度のギャップg(a,x,y)を算出する(1003)。ここで、式(2)のクエリqに対応するものが、本実施例ではアンカーaとなる。ギャップg(a,x,y)が予め定義された閾値以上であったなら、集合Sに(x,y)を追加する(1005)。
(1002)から(1005)に至る処理は、一定の終了条件に達するまで繰り返し実行される(1006)。本実施例では、集合Sの要素数が予め定義された個数に達した場合、あるいは、実行された回数が予め定義された最大数に達した場合、本繰り返し処理を終了する。
次に、このようにして抽出された正事例候補・負事例候補の組の集合Sを、ラベル類似度のギャップが大きい順序にソートし、上位となる組を選択する(1007)。この際の選択数には上限があり、それを超えたもの、すなわち、ラベル類似度のギャップが相対的に小さい組は切り捨てられる。このようにして選択された正事例候補・負事例候補の組から、tripletの集合を構成する(1008)。
本実施例のtriplet集合生成処理(803)で生成されるtripletは、実施例1の場合とは異なり、正事例・負事例の選択に関する特徴量ベクトル空間上での制約を設けていない。従って、式(3)のtripletごとのloss関数は、負の値となる場合もある。学習用tripletの選択(804)では、生成されたtripletの集合を式(3)のtripletごとのloss関数の絶対値が小さい順にソートし、上位一定個数のtripletを最終的に学習に用いるtripletとして選択する。また、それに続くネットワークモデルの更新(805)では、ソートされた順序に従い、各tripletを用いたモデルの更新を行う。
従って、本実施例によっても、上述の実施例1と同様の効果を得ることができる。
本実施例では、実施例1、2の学習モデル更新装置210、710により更新されたネットワークモデル240、740を用いて類似する画像データを検索する検索装置1100について説明する。
図11は、実施例1または実施例2により更新されたネットワークモデル240、740を用いた検索装置1100の構成図である。
検索装置1100の画像入力部1101に、クエリ(検索対象)である画像データが入力されると、特徴量算出部1102は入力された画像データの特徴量を算出する。次いで、検索部1103は、算出された特徴量をネットワークモデル240、740に入力し、検索結果である、クエリに類似する(と判断された)画像データを入手する。そして、検索結果表示部1104は、検索部1103により得られた検索結果である画像データを図略のディスプレイ等の表示装置を用いて表示する。
なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。
また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD-ROM、DVD-ROM、ハードディスク、SSD(Solid State Drive)、光ディスク、光磁気ディスク、CD-R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)、Python等の広範囲のプログラムまたはスクリプト言語で実装できる。
さらに、各実施例の機能を実現するソフトウェアのプログラムコードのすべてまたは一部は、予め機械学習システムのストレージに格納されていてもよいし、必要に応じて、ネットワークに接続された他の装置の非一時的記憶装置から、または機械学習システムが備える図略の外部I/Fを介して、非一時的な記憶媒体からストレージに格納されてもよい。
さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段またはCD-RW、CD-R等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。
上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており
、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に
接続されていてもよい。
(付記1)
複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置であって、
前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された1の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出するラベル類似度算出部と、
前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択する選択処理部と、
前記選択された正事例と負事例の組に基づき前記学習モデルを更新するモデル更新処理部と、
を備えることを特徴とする学習モデル更新装置。
(付記2)
前記所定の条件は前記ギャップが最大であることを特徴とする(付記1)に記載の学習モデル更新装置。
(付記3)
前記所定の条件は前記ギャップが予め定められた所定の閾値以上であることを特徴とする(付記1)に記載の学習モデル更新装置。
(付記4)
前記学習モデルに基づき、前記クエリに対する複数の前記正事例と複数の前記負事例のそれぞれについて類似ベクトル検索を行い、前記クエリに対する類似ベクトル検索結果の順位を算出する類似ベクトル検索処理部を有し、
前記選択処理部は、前記所定の条件と前記順位に基づき前記正事例及び前記負事例の組を選択する
ことを特徴とする(付記2)または(付記3)に記載の学習モデル更新装置。
(付記5)
前記選択処理部は、前記ラベル類似度の前記ギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補して抽出し、前記順位が高い順に所定の順位までに入る前記負事例を特定し、抽出された前記複数の組の候補のうち特定された前記負事例が含まれる前記正事例と前記負事例との組を選択する
ことを特徴とする(付記4)に記載の学習モデル更新装置。
(付記6)
前記選択処理部は、前記ラベル類似度のギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補して抽出し、抽出された前記複数の組の候補のうちtripletのloss関数が最も小さい前記正事例及び前記負事例の組を選択する
ことを特徴とする(付記4)に記載の学習モデル更新装置。
(付記7)
前記tripletのloss関数は、前記クエリの前記特徴量ベクトルと前記正事例の前記特徴量ベクトルとの間の距離、及び前記クエリの前記特徴量ベクトルと前記負事例の前記特徴量ベクトルとの間の距離の2乗和誤差に基づいて算出されることを特徴とする(付記6)に記載の学習モデル更新装置。
(付記8)
前記ラベル類似度は、前記クエリに付与された前記ラベルの集合及び前記クエリとして選択された前記画像データと異なる複数の前記画像データに付与された前記ラベルの集合の和集合の要素数及び積集合の要素数に基づいて算出されることを特徴とする(付記1)に記載の学習モデル更新装置。
(付記9)
複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置による学習モデル更新方法であって、
前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された1の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出し、
前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択し、
前記選択された正事例と負事例の組に基づき前記学習モデルを更新することを特徴とする学習モデル更新装置による学習モデル更新方法。
110…triplet 111…アンカー 112…正事例 113…負事例 120…深層型ニューラルネットワーク 130…特徴量ベクトル 140…正事例とアンカーとの距離 150…負事例とアンカーとの距離 210、710…学習モデル更新装置 211…推論部 212…類似ベクトル検索処理部 213、711…triplet集合生成処理部 213a…ラベル類似度算出部 213b…選択処理部 214、712…モデル更新処理部 215、713…モデル保存処理部 220…学習データ 230、240、730、740…ネットワークモデル

Claims (9)

  1. 複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置であって、
    前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された1の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出するラベル類似度算出部と、
    前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択する選択処理部と、
    前記選択された正事例と負事例の組に基づき前記学習モデルを更新するモデル更新処理部と、
    を備えることを特徴とする学習モデル更新装置。
  2. 前記所定の条件は前記ギャップが最大であることを特徴とする請求項1に記載の学習モデル更新装置。
  3. 前記所定の条件は前記ギャップが予め定められた所定の閾値以上であることを特徴とする請求項1に記載の学習モデル更新装置。
  4. 前記クエリの前記画像特徴量ベクトルと類似した前記画像特徴量ベクトルを持つ前記画像データを検索し、前記クエリに対する類似ベクトル検索結果を取得し、前記クエリに対する前記類似ベクトル検索結果の順位を算出する類似ベクトル検索処理部を有し、
    前記選択処理部は、前記所定の条件と前記順位に基づき前記正事例及び前記負事例の組を選択する
    ことを特徴とする請求項2または3に記載の学習モデル更新装置。
  5. 前記選択処理部は、前記ラベル類似度の前記ギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補して抽出し、前記順位が高い順に、事前に指定された個数の前記負事例を特定し、抽出された前記複数の組の候補のうち特定された前記負事例が含まれる前記正事例と前記負事例との組を選択する
    ことを特徴とする請求項4に記載の学習モデル更新装置。
  6. 前記選択処理部は、前記ラベル類似度のギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補して抽出し、抽出された前記複数の組の候補のうちtripletのloss関数が小さくなる組の候補を優先させて、前記正事例及び前記負事例の組として選択する
    ことを特徴とする請求項4に記載の学習モデル更新装置。
  7. 前記tripletのloss関数は、前記クエリの前記特徴量ベクトルと前記正事例の前記特徴量ベクトルとの間の距離、及び前記クエリの前記特徴量ベクトルと前記負事例の前記特徴量ベクトルとの間の距離の2乗和誤差に基づいて算出されることを特徴とする請求項6に記載の学習モデル更新装置。
  8. 前記ラベル類似度は、前記クエリに付与された前記ラベルの集合及び前記クエリとして選択された前記画像データと異なる複数の前記画像データに付与された前記ラベルの集合の和集合の要素数及び積集合の要素数に基づいて算出される
    ことを特徴とする請求項1に記載の学習モデル更新装置。
  9. 複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置による学習モデル更新方法であって、
    前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された1の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出し、
    前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択し、
    前記選択された正事例と負事例の組に基づき前記学習モデルを更新する
    ことを特徴とする学習モデル更新装置による学習モデル更新方法。
JP2021086450A 2021-05-21 2021-05-21 学習モデル更新装置及び学習モデル更新方法 Active JP7655779B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021086450A JP7655779B2 (ja) 2021-05-21 2021-05-21 学習モデル更新装置及び学習モデル更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2021086450A JP7655779B2 (ja) 2021-05-21 2021-05-21 学習モデル更新装置及び学習モデル更新方法

Publications (2)

Publication Number Publication Date
JP2022179162A JP2022179162A (ja) 2022-12-02
JP7655779B2 true JP7655779B2 (ja) 2025-04-02

Family

ID=84239105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021086450A Active JP7655779B2 (ja) 2021-05-21 2021-05-21 学習モデル更新装置及び学習モデル更新方法

Country Status (1)

Country Link
JP (1) JP7655779B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP2019528506A (ja) 2017-04-20 2019-10-10 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 学習ベースのグループタグ付けのためのシステムおよび方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018106662A (ja) 2016-12-22 2018-07-05 キヤノン株式会社 情報処理装置、情報処理方法、プログラム
JP2019528506A (ja) 2017-04-20 2019-10-10 ベイジン ディディ インフィニティ テクノロジー アンド ディベロップメント カンパニー リミティッド 学習ベースのグループタグ付けのためのシステムおよび方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
池浦 康充,IoTデータ向けマルチモーダル深層学習基盤,日立評論 ,日本,日立評論社,2020年07月20日,第102巻 第3号 ,P.119-123

Also Published As

Publication number Publication date
JP2022179162A (ja) 2022-12-02

Similar Documents

Publication Publication Date Title
JP5749279B2 (ja) アイテム関連付けのための結合埋込
US10387430B2 (en) Geometry-directed active question selection for question answering systems
US20240127575A1 (en) Artificial intelligence system with iterative two-phase active learning
US11755671B2 (en) Projecting queries into a content item embedding space
WO2022247092A1 (en) Methods and systems for congestion prediction in logic synthesis using graph neural networks
JPWO2013129580A1 (ja) 近似最近傍探索装置、近似最近傍探索方法およびそのプログラム
KR20230122872A (ko) 심층 신경망을 위한 전이 학습 시스템 및 방법
CN116932730A (zh) 基于多叉树和大规模语言模型的文档问答方法及相关设备
CN114021541A (zh) 演示文稿生成方法、装置、设备及存储介质
JP6004015B2 (ja) 学習方法、情報処理装置および学習プログラム
US20090094177A1 (en) Method for efficient machine-learning classification of multiple text categories
CN113918807A (zh) 数据推荐方法、装置、计算设备及计算机可读存储介质
CN117390285A (zh) 基于节点关系的兴趣点推荐方法、装置、设备及介质
KR102813612B1 (ko) 신경망 구조 설계를 위한 프루닝 방법 및 이를 위한 컴퓨팅 장치
JP7655779B2 (ja) 学習モデル更新装置及び学習モデル更新方法
JP7556269B2 (ja) 推論プログラム及び推論方法
JP2010033214A (ja) 規則学習方法、プログラム及び装置
Figueredo et al. An immune-inspired instance selection mechanism for supervised classification
KR20250126434A (ko) 분류기 학습 장치 및 방법
JP2020140674A (ja) 回答選択装置及びプログラム
Machado et al. GP-based generative adversarial models
JP7801180B2 (ja) 計算機システム及びトリプレットの生成方法
JP2023544560A (ja) 文字認識における制約条件を強制するためのシステムおよび方法
CN113449752A (zh) 一种基于森林算法的特征选择方法、装置及系统
US20240095244A1 (en) Method and information processing device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240222

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20241223

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20250107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20250214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250304

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250321

R150 Certificate of patent or registration of utility model

Ref document number: 7655779

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150