JP7655779B2

JP7655779B2 - 学習モデル更新装置及び学習モデル更新方法

Info

Publication number: JP7655779B2
Application number: JP2021086450A
Authority: JP
Inventors: 敦廣池; 全孔
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-05-21
Filing date: 2021-05-21
Publication date: 2025-04-02
Anticipated expiration: 2041-05-21
Also published as: JP2022179162A

Description

本発明は、学習モデル更新装置及び学習モデル更新方法に関する。

各種記憶装置の容量の大規模化、計算機演算性能の向上、ネットワーク上の転送速度の高速化等により、各種業務において、大量の電子的履歴情報の蓄積が可能となった。情報の内容としても、従来の書誌的情報だけではなく、映像、画像等の多様なメディア情報を蓄積することが可能となった。

このような背景から、これらの電子的履歴情報を利活用するための情報処理技術へのニーズが高まっている。例えば、特許、商標、意匠の審査業務では、出願された文献、関連する図像、審査業務に関連し付与された書誌情報等の多様な情報が業務の履歴情報として蓄積される。これらの履歴情報を活用することによって、審査業務の効率化、出願に関わる作業の効率化が実現できれば、産業分野の発展に大きく寄与することとなる。

画像に対して、任意個数のキーワードと共に保存された業務情報は、しばしば存在する。また、業務上取得された画像に対して、それに付与するべきキーワードを自動で付与するような要望も多い。

データに対して複数個のラベルが付与された学習データは、マルチラベルの学習データと呼ばれる。マルチラベル学習データを対象とする深層型ニューラルネットワークの学習では、Cross-Entropy Lossを用いる方法が一般的である。この方法では、ラベルの「異なり数」分の出力値を出すネットワークを構成する。しかし、キーワード付与では、事前に付与されるキーワードの異なり数を想定することが困難な場合も多い。また、想定する異なり数が極端に大きい場合、ネットワークモデルの構成上、および、処理の実行上、課題が発生する。

一方、深層型ニューラルネットワークの学習方式の１つであるtripletネットワーク学習では、同一のラベルを持つデータ間では距離が小さく、異なるレベルを持つデータ間では距離が大きくなるような特徴量ベクトルを出力するようにニューラルネットワークを学習する。

図１に、tripletの概念を図示した。tripletネットワーク学習では、着目するデータ（アンカー）１１１と同一のレベルを持つデータを正事例１１２、異なるレベルを持つデータを負事例１１３とし、アンカー、正事例、負事例の３者から構成されるtriplet１１０を作る。

tripletを構成する各データは、同一の重みを持つニューラルネットワークモデル１２０に入力され、ニューラルネットワークモデル１２０を構成するニューラルネットワークは、それぞれのデータに対応した特徴量ベクトル１３０を出力する。

なお、図１ではニューラルネットワークモデル１２０としてＣＮＮ（Convolutional Neural Network：畳み込みニューラルネットワーク）を例示しているが、ニューラルネットワークモデル１２０としてＣＮＮに限定する意図はなく、既知のニューラルネットワークモデルが適用可能である。本明細書全体を通しても、ネットワークモデルは既知のものが好適に適用可能である。

次に、アンカー１１１・正事例１１２間の特徴量空間上での距離Ｄ_＋１４０、および、アンカー１１１・負事例１１３間の特徴量空間上での距離Ｄ_－１５０が計算される。学習の目的関数であるloss関数は、tripletごと算出されるこの２つの距離の差の総和として定義される。非特許文献１では、このtripletネットワーク学習を顔画像による個人認証を行うための特徴量の学習に適用している。

ある学習セットが与えられた時、tripletは無数に存在する。非特許文献２は、類似ベクトル検索処理を適用することによって、効率的な学習を実現するtripletを選択する方式について論じている。

Schroff, Florian, Dmitry Kalenichenko, James Philbin. "Facenet: A unified embedding for face recognition and clustering", Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, (2015) 池浦康充、岡本光一、加嶋亮平、廣池敦：IoTデータ向けマルチモーダル深層学習基盤,日立評論,102-3,119-123（2020）

上述したtripletネットワーク学習は、特徴量ベクトルの取得するための方法として有効であるが、各データに対して単一のラベルが付与された場合に適用できる方法である。一方、マルチラベルの学習データの場合、アンカーとなるデータと他のデータとの間で正事例・負事例の関係が一義的には定義できないため、tripletを構成することが出来ない。

本発明は上記の課題に鑑みてなされたもので、その目的は、マルチラベルの学習データを対象としたtripletネットワーク学習を可能とする学習モデル更新装置及び学習モデル更新方法を提供することにある。

上記課題を解決すべく、本発明の一つの観点に従う学習モデル更新装置は、複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置であって、学習モデルに対する学習データとして受け入れた複数の画像データから選択された１の画像データであるクエリと、クエリとして選択された画像データと異なる複数の画像データとの間のラベル類似度を算出するラベル類似度算出部と、ラベル類似度の算出の際に用いられた複数の画像データのうち、ラベル類似度のギャップが所定の条件を満たす画像データの組を正事例及び負事例の組として選択する選択処理部と、選択された正事例と負事例の組に基づき学習モデルを更新するモデル更新処理部とを備えることを特徴とする。

本発明によれば、マルチラベルの学習データを対象としたtripletネットワーク学習を可能とする学習モデル更新装置及び学習モデル更新方法を実現することができる。

一般的なtripletネットワーク学習の模式図である。実施例１に係る学習モデル更新装置の構成図である。実施例１に係る学習モデル更新装置の処理のフローである。実施例１に係る学習モデル更新装置のtriplet集合生成処理のフローである。実施例１に係る学習モデル更新装置における検索結果ごとのtriplet生成処理の説明図である。実施例１に係る学習モデル更新装置における検索結果ごとのtriplet生成処理のフローである。実施例２に係る学習モデル更新装置の構成図である。実施例２に係る学習モデル更新装置の処理のフローである。実施例２に係る学習モデル更新装置におけるtriplet集合生成処理のフローである。実施例２に係る学習モデル更新装置におけるアンカーごとのtriplet生成処理のフローである。実施例１または実施例２により更新されたネットワークモデルを用いた検索装置の構成図である。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。

また、以下の説明では、情報の一例として「ｘｘｘデータ」といった表現を用いる場合があるが、情報のデータ構造はどのようなものでもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ｘｘｘデータ」を「ｘｘｘテーブル」と言うことができる。さらに、「ｘｘｘデータ」を単に「ｘｘｘ」と言うこともある。そして、以下の説明において、各情報の構成は一例であり、情報を分割して保持したり、結合して保持したりしても良い。

なお、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（Central Processing Unit））によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又は通信インターフェースデバイス（例えばポート）を用いながら行うため、処理の主語がプログラムとされても良い。プログラムを主語として説明された処理は、プロセッサ或いはそのプロセッサを有する計算機が行う処理としても良い。

本実施形態の学習モデル更新装置は、一例として以下のような構成を有する。

マルチラベルの学習データにおいて、各データに付与されたラベルに基づき、データ間のラベル類似度を定義する。あるデータをアンカーとして考えた時に、アンカーとのラベル類似度の差（ギャップ）が最大となるデータの組、ないしは、ラベル類似度の差（ギャップ）が一定の値以上となるデータの組の集合を抽出する。各データの組の中で、アンカーとのラベル類似度が高いものを正事例の候補、低いものを負事例の候補とし、抽出された正事例候補・負事例候補の組から、アンカーとの特徴量ベクトル空間中での距離が小さい順に必要な個数を選択し、tripletの集合を構成する。

学習データ中の各データをアンカーとして上記処理を実行することによって、学習対象であるtripletの全体集合を構成する。構成されたtripletの全体集合に対して、loss関数を定義し、その最小化によって、特徴量ベクトル抽出のための学習を行う。

本実施例は、本実施例の技術と類似ベクトル検索技術を併用して効率的な学習を実現するものである。

図２は、本実施例の構成図である。

本実施例の学習モデル更新装置２１０は、マルチラベル情報が付与された画像データの集合を学習データ２２０として受け付ける。通常の運用では、深層型ニューラルネットワークの学習を行うにあたって、完全にネットワークの重みはランダムな状態から開始することは稀である。事前に他の学習課題で学習済みのネットワークモデル２３０を学習の初期状態として与えることによって、学習の効率化を行う。

学習モデル更新装置２１０の内部では、推論処理部２１１において、学習過程におけるその時点のネットワークモデルの状態を用いて学習データの特徴ベクトルの抽出を行う。類似ベクトル検索処理部２１２では、推論処理部２１１により抽出された特徴量ベクトルの集合を対象とした類似ベクトル検索を行う。

triplet集合生成処理部２１３では、類似ベクトル検索処理部２１２による類似ベクトル検索処理の結果に基づいて、学習に用いるtripletの集合を構成する。より詳細には、triplet集合生成処理部２１３のラベル類似度算出部２１３ａは、学習データ２２０である複数の画像データから選択された１の画像データであるクエリと、クエリとして選択された画像データと異なる複数の画像データとの間のラベル類似度を算出し、選択処理部２１３ｂは、ラベル類似度の算出の際に用いられた複数の画像データのうち、ラベル類似度のギャップが所定の条件を満たす画像データの組を正事例及び負事例の組として選択する。

モデル更新処理部２１４では、triplet集合生成処理部２１３により構成された学習用tripletの集合を用いてネットワークモデルの更新処理を行う。更新されたネットワークモデル２４０の状態は、モデル保存処理部２１５において、必要に応じて外部の記憶媒体に保存される。

図３に、学習モデル更新装置２１０の処理の流れを示す。

学習モデル更新装置２１０では、先ず、学習データおよびネットワークモデルの初期状態を取得する（３０１）。続く推論処理（３０２）で、学習データの特徴量ベクトルを抽出する。

次のクラスタリング処理（３０３）は、triplet集合生成処理（３０４）において行う類似ベクトル検索を高速に実行するための前処理である。クラスタリングを用いた類似ベクトル検索については、上述の非特許文献２等で論じられている。続くtriplet集合生成処理（３０４）については後述する。

triplet集合生成処理（３０４）で取得されたtripletの集合から、一定の基準に基づき、実際に学習に用いる学習用tripletの選択（３０５）を行う。本基準の内容については、後述する。学習用tripletは、tripletを要素とする順序付けられた配列である。このようにして取得された学習用tripletによって、ネットワークモデルの更新（３０６）を行う。次回行われる推論処理（３０２）では、この更新されたネットワークモデルを用いることとなる。

本実施例では、推論処理（３０２）からネットワークモデルの更新（３０６）に至るまでの処理を学習の１周期とする。学習終了の判定処理（３０７）では、通常、この周期の数が事前に設定された最大周期数に達した場合、学習を終了するが、他の評価基準に基づいて学習を終了してもよい。

図４に、triplet集合生成処理（３０４）における処理の流れを示す。

先ず、triplet集合の要素を空にする（４０１）。次に、学習データ中のデータを１つクエリとして選択し（４０２）、そのクエリの特徴量ベクトルと類似した特徴量ベクトルを持つデータを検索し（４０３）、検索結果を取得する（４０４）。取得された検索結果に用いて、次の検索結果ごとのtriplet生成処理（４０５）を行う。本処理の内容については、後述する。

次に、取得された検索結果ごとのtriplet集合を本処理のtriplet集合に追加する（４０６）。４０２から４０６までの処理は、通常、全ての学習データをクエリとして行われるが、計算量の制限等の要請により、クエリとするデータの件数に上限を設ける場合もある。この場合は、学習データ中から無作為に選択された一定個数のデータをクエリとする、等の方法が取られる。

次に、検索結果ごとのtriplet生成処理（４０５）の詳細な内容について説明する。

先ず、マルチラベルが付与された場合のラベル類似度を以下のように定義する。

ここで、ｑは、クエリとして選択されたデータ、ｘは、検索結果中の任意のデータ、Ｑはクエリｑに付与されたレベルの集合、Ｘは検索結果中のデータｘに付与されたラベルの集合である。また、式（１）左辺の分母は、ＱとＸの和集合の要素数、分子は、ＱとＸの積集合の要素数である。ｑとｘとのラベル類似度ｓ（ｑ，ｘ）は、両者のラベルが完全に一致した場合１、共通するラベルが全く存在しない場合０となる。

次に、検索結果中の異なる２つのデータから構成されるデータの組（ｘ，ｙ）間に対して、クエリｑとのラベル類似度の差（ギャップ）ｇ（ｑ，ｘ，ｙ）を次式のように定義する。

上式の値の範囲は、－１～１となる。

図５は、検索結果中のラベル類似度の推移を模式的に示したものである。

図５の横軸は検索結果中の順位、縦軸は各検索結果のラベル類似度である。特徴量ベクトル空間上での類似度と、ラベル類似度が高い相関関係にあれば、ラベル類似度は、検索順位の増大に従い、単調に減少すると想定される。しかし、実際には、両者の食い違いが発生し、検索順位が低いデータが高いラベル類似度を示したり、検索順位が高いデータが低いラベル類似度を示したりする。

そこで、式（２）のラベル類似度のギャップの概念を用いる。ある検索順位のデータに着目した時、そのデータよりも順位が低いデータとそのデータとの間のラベル類似度のギャップを算出する。式（２）の変数名に従えば、より低い順位のデータがｘ、着目したデータがｙに対応する。

本実施例では、検索結果中のデータの組について、このラベル類似度のギャップが最大となる組を抽出し、各組を構成するデータの中で順位が低い方をtripletを構成するための正事例の候補、順位が高い方を負事例の候補とする。

なお、ある検索結果が与えられた時、このギャップの値が最大となる組は、通常、複数存在する。ギャップ、および、その元となるラベル類似度は、０～１の間の値をとる実数として定義されているが、式（１）から明らかなように、ラベル類似度は、各データに付与されたラベルの個数等のそれほど大きくない整数値の組合せで定義されている。結果としてギャップの値は、連続的な値として分布するものではなく、多数の離散的な値をとるものとして分布する。

従って、最大値を与える組は、一意に決まることはなく、通常は、多数発生する。また、ギャップが最大となる組の内、同一の負事例候補を共有する組が複数存在する場合には、正事例候補の順位が高い方の組、すなわち、検索順位の隔たりが小さい方の組を選択する。

上述の方法により抽出された正事例候補・負事例候補の組の集合中から、負事例候補の検索順位が高い方から事前に指定された個数の組を選択し、クエリと各組と組合わせることによって、triplet集合を構成する。正事例候補・負事例候補の組の数が、指摘された個数に満たない場合は、全ての正事例候補・負事例候補の組を用いてtriplet集合を構成する。なお、最大ギャップ値が、事前に指定された閾値より小さい場合は、tripletの構成を行わない。すなわち、この場合、生成されるtripletの集合は空集合となる。

図６に、上述した検索結果ごとのtriplet集合生成処理（４０５）の処理の流れを示す。

先ず、クエリと検索結果中のデータ間でのラベル類似度を算出する（６０１）。次に、ラベル類似度のギャップが最大となる検索結果の組を正事例候補・負事例候補の組として抽出する（６０２）。次に、抽出された正事例候補・負事例候補の組から、負事例候補の検索順位が高い方からＮ件を選択する（６０３）。最後に、クエリと選択された正事例候補・負事例候補の組を組み合わせることによって、Ｎ個のtripletを構成する（６０４）。

生成された各tripletに対して、次式のような値（tripletごとのloss関数）を定義する。

ここで、ｑは、クエリの特徴量ベクトル、ｘは正事例の特徴量ベクトル、ｙは負事例の特徴量ベクトルである。本実施例では、クエリからの特徴量ベクトル空間上での距離が負事例よりも正事例の方が大きいものを選択してtripletを構成しているため、上式の値は、非負となる。

図３の学習用tripletの選択（３０５）では、triplet集合生成処理（３０４）によって取得されたtriplet集合を、式（３）の値が小さい順にソートする。triplet集合の要素数が指定された件数よりも大きい場合は、下位のtriplet、すなわち、式（３）の値が相対的に大きいtripletは切り捨てられる。

図３のネットワークモデルの更新（３０６）では、次式のloss関数が減少するように最適化が行われる。

ここで、ｉは学習用tripleの配列の添え字、ｑ_ｉはｉ番目のtripletのクエリの特徴量ベクトル、ｘ_ｉはｉ番目のtripletの正事例の特徴量ベクトル、ｙ_ｉはｉ番目のtripletの負事例の特徴量ベクトルである。また、ｂは、２乗距離の差の下限で、あるtripletの正事例、負事例間での２乗距離の差がｂを下回る場合、そのtripletは最適化計算の対象から除外される。

本実施例では、全ての学習用tripletについて、一度に最適化を行うわけではない。多くの深層型ニューラルネットワークの学習と同様に、学習用tripletの配列全体をミニ・バッチと言われる小さい配列に分割し、ミニ・バッチ単位で、逐次的にネットワークの更新を行う。

従って、ある周期での最初の状態で、式（３）のtripletごとのloss関数が非負の条件を満たしていたとしても、更新の過程でのネットワークの状態の変動により、正事例・負事例間の２乗距離の差が負の値となる場合が出てくる。式（４）のｂは、負の極端に大きな値に基づきネットワークの更新を行った場合、数値計算上の不安定化により、学習が失敗してしまうことを避けるためのものである。かかる観点から、式（４）のｂの値は適切なスカラー値として事前に設定される。

また、ネットワークの更新（３０６）処理は、処理（３０５）でソートされた順序で行われる。従って、式（３）の値が小さいtripletを用いた学習が優先されることになる。tripletごとのloss関数が小さいtripletを先に学習することは、特徴量空間の補正がより小規模で足りると想定されるtriplet、すなわち、学習するのが容易と想定されるtripletから優先して処理することを意味する。これは、より安定性の高い学習過程を実現するための方策である。

なお、図６で説明した検索結果ごとのtriplet集合生成処理では、ラベル間類似度のギャップが最大となる正事例候補・負事例候補の組として抽出しているが、ギャップの値が一定閾値以上である全ての組を抽出してもよい。また、抽出された正事例候補・負事例候補の組から、負事例候補の順位が高い組を優先させて選択しているが、式（３）のtripletごとのloss関数が小さくなる組を優先させて選択してもよいし、無作為に選択してもよい。また、図３の学習用tripletの選択（３０５）では、ラベル類似度のギャップが大きいものを優先して選択してもよいし、無作為に選択してもよい。

また、式（１）のラベル類似度の定義方法において、他の定義を採用してもよい。例えば、次式は、式（１）と同様、集合演算を用いた別の定義方法である。

更に、マルチラベルが付与された表現形式として、存在するラベルの総数を次元とするベクトルを想定し、あるデータに対して付与されている場合は１、付与させていない場合は０として、ベクトルの形式で表現する方法もある。この場合は、ベクトル間の内積、ないしは、ベクトル間の距離からラベル類似度を定義することができる。

以上詳細に説明したように、本実施例によれば、マルチラベルの学習データを対象としたtripletネットワーク学習を可能とする学習モデル更新装置２１０及び学習モデル更新方法を実現することができる。

本実施例では、類似ベクトル検索を伴わない学習処理について説明する。

図７は、本実施例の構成図である。

本実施例を構成する各処理部は、図２に示した実施例１の対応する処理部と同様の機能を提供するものが多い。

学習モデル更新装置７１０は、マルチラベル情報が付与された画像データの集合を学習データ７２０として受け取る。また、必要な場合は、事前に他の学習課題で学習済みのネットワークモデル７３０を学習の初期状態として受け取る。

学習モデル更新装置７１０の内部では、triplet集合生成処理部７１１において学習に用いるtripletの集合を生成し、モデル更新処理部７１２において生成された学習用tripletの集合を用いたネットワークモデルの更新処理を行う。更新されたネットワークモデル７４０の状態は、モデル保存処理部７１３において必要に応じて外部の記憶媒体に保存される。

図８に、学習モデル更新装置７１０の処理の流れを示す。

学習モデル更新装置７１０では、先ず、学習データおよびネットワークモデルの初期状態を取得する（８０１）。次に、全学習データ間において式（１）のラベル類似度を算出し、その値を保持する（８０２）。

次に、本実施例におけるtriplet集合生成処理（８０３）を行う。本処理の内容については後述する。triplet集合生成処理（８０３）で取得されたtripletの集合から、一定の基準に基づき、実際に学習に用いる学習用tripletの選択（８０４）を行う。本基準の内容については、後述する。学習用tripletは、tripletを要素とする順序付けられた配列である。このようにして取得された学習用tripletによって、ネットワークモデルの更新（８０５）を行う。

本実施例では、triplet集合生成処理（８０３）からネットワークモデルの更新（８０５）に至るまでの処理を学習の１周期とする。学習終了の判定処理（８０６）では、通常、この周期の数が事前に設定された最大周期数に達した場合、学習を終了するが、他の評価基準に基づいて学習を終了してもよい。

図９に、triplet集合生成処理（８０３）における処理の流れを示す。

先ず、triplet集合の要素を空にする（９０１）。次に、学習データ中のデータを１つアンカーとして選択する（９０２）。このアンカーとして選択されたデータに基づき、アンカーごとのtriplet生成処理（９０３）を行う。本処理の内容については、後述する。

次に、取得されたアンカーごとのtriplet集合を本処理のtriplet集合に追加する（９０４）。（９０２）から（９０４）までの処理は、通常、全ての学習データをアンカーとして選択して行われるが、計算量の制限等の要請により、アンカーとするデータの件数に上限を設ける場合もある。この場合は、学習データ中から無作為に選択された一定個数のデータをアンカーとして用いる。

図１０に、アンカーごとのtriplet生成処理（９０３）の処理の流れを示す。

先ず、本処理中に一時的に保持されるデータである、正事例候補・負事例候補の組の集合Ｓを空にする（１００１）。次に、アンカーａを除く学習データの中から、データの組（ｘ，ｙ）を無作為に選択する（１００２）。続いて、ａとｘ、ａとｙ、それぞれの間のラベル類似度より、式（２）のラベル類似度のギャップｇ（ａ，ｘ，ｙ）を算出する（１００３）。ここで、式（２）のクエリｑに対応するものが、本実施例ではアンカーａとなる。ギャップｇ（ａ，ｘ，ｙ）が予め定義された閾値以上であったなら、集合Ｓに（ｘ，ｙ）を追加する（１００５）。

（１００２）から（１００５）に至る処理は、一定の終了条件に達するまで繰り返し実行される（１００６）。本実施例では、集合Ｓの要素数が予め定義された個数に達した場合、あるいは、実行された回数が予め定義された最大数に達した場合、本繰り返し処理を終了する。

次に、このようにして抽出された正事例候補・負事例候補の組の集合Ｓを、ラベル類似度のギャップが大きい順序にソートし、上位となる組を選択する（１００７）。この際の選択数には上限があり、それを超えたもの、すなわち、ラベル類似度のギャップが相対的に小さい組は切り捨てられる。このようにして選択された正事例候補・負事例候補の組から、tripletの集合を構成する（１００８）。

本実施例のtriplet集合生成処理（８０３）で生成されるtripletは、実施例１の場合とは異なり、正事例・負事例の選択に関する特徴量ベクトル空間上での制約を設けていない。従って、式（３）のtripletごとのloss関数は、負の値となる場合もある。学習用tripletの選択（８０４）では、生成されたtripletの集合を式（３）のtripletごとのloss関数の絶対値が小さい順にソートし、上位一定個数のtripletを最終的に学習に用いるtripletとして選択する。また、それに続くネットワークモデルの更新（８０５）では、ソートされた順序に従い、各tripletを用いたモデルの更新を行う。

従って、本実施例によっても、上述の実施例１と同様の効果を得ることができる。

本実施例では、実施例１、２の学習モデル更新装置２１０、７１０により更新されたネットワークモデル２４０、７４０を用いて類似する画像データを検索する検索装置１１００について説明する。

図１１は、実施例１または実施例２により更新されたネットワークモデル２４０、７４０を用いた検索装置１１００の構成図である。

検索装置１１００の画像入力部１１０１に、クエリ（検索対象）である画像データが入力されると、特徴量算出部１１０２は入力された画像データの特徴量を算出する。次いで、検索部１１０３は、算出された特徴量をネットワークモデル２４０、７４０に入力し、検索結果である、クエリに類似する（と判断された）画像データを入手する。そして、検索結果表示部１１０４は、検索部１１０３により得られた検索結果である画像データを図略のディスプレイ等の表示装置を用いて表示する。

なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部または全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（Solid State Drive）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ等の広範囲のプログラムまたはスクリプト言語で実装できる。

さらに、各実施例の機能を実現するソフトウェアのプログラムコードのすべてまたは一部は、予め機械学習システムのストレージに格納されていてもよいし、必要に応じて、ネットワークに接続された他の装置の非一時的記憶装置から、または機械学習システムが備える図略の外部Ｉ／Ｆを介して、非一時的な記憶媒体からストレージに格納されてもよい。

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段またはＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており
、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に
接続されていてもよい。
(付記1)
複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置であって、
前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された１の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出するラベル類似度算出部と、
前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択する選択処理部と、
前記選択された正事例と負事例の組に基づき前記学習モデルを更新するモデル更新処理部と、
を備えることを特徴とする学習モデル更新装置。
(付記2)
前記所定の条件は前記ギャップが最大であることを特徴とする(付記1)に記載の学習モデル更新装置。
(付記3)
前記所定の条件は前記ギャップが予め定められた所定の閾値以上であることを特徴とする(付記1)に記載の学習モデル更新装置。
(付記4)
前記学習モデルに基づき、前記クエリに対する複数の前記正事例と複数の前記負事例のそれぞれについて類似ベクトル検索を行い、前記クエリに対する類似ベクトル検索結果の順位を算出する類似ベクトル検索処理部を有し、
前記選択処理部は、前記所定の条件と前記順位に基づき前記正事例及び前記負事例の組を選択する
ことを特徴とする(付記2)または(付記3)に記載の学習モデル更新装置。
(付記5)
前記選択処理部は、前記ラベル類似度の前記ギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補して抽出し、前記順位が高い順に所定の順位までに入る前記負事例を特定し、抽出された前記複数の組の候補のうち特定された前記負事例が含まれる前記正事例と前記負事例との組を選択する
ことを特徴とする(付記4)に記載の学習モデル更新装置。
(付記6)
前記選択処理部は、前記ラベル類似度のギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補して抽出し、抽出された前記複数の組の候補のうちtripletのloss関数が最も小さい前記正事例及び前記負事例の組を選択する
ことを特徴とする(付記4)に記載の学習モデル更新装置。
(付記7)
前記tripletのloss関数は、前記クエリの前記特徴量ベクトルと前記正事例の前記特徴量ベクトルとの間の距離、及び前記クエリの前記特徴量ベクトルと前記負事例の前記特徴量ベクトルとの間の距離の２乗和誤差に基づいて算出されることを特徴とする(付記6)に記載の学習モデル更新装置。
(付記8)
前記ラベル類似度は、前記クエリに付与された前記ラベルの集合及び前記クエリとして選択された前記画像データと異なる複数の前記画像データに付与された前記ラベルの集合の和集合の要素数及び積集合の要素数に基づいて算出されることを特徴とする(付記1)に記載の学習モデル更新装置。
(付記9)
複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置による学習モデル更新方法であって、
前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された１の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出し、
前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択し、
前記選択された正事例と負事例の組に基づき前記学習モデルを更新することを特徴とする学習モデル更新装置による学習モデル更新方法。

１１０…triplet １１１…アンカー１１２…正事例１１３…負事例１２０…深層型ニューラルネットワーク１３０…特徴量ベクトル１４０…正事例とアンカーとの距離１５０…負事例とアンカーとの距離２１０、７１０…学習モデル更新装置２１１…推論部２１２…類似ベクトル検索処理部２１３、７１１…triplet集合生成処理部２１３ａ…ラベル類似度算出部２１３ｂ…選択処理部２１４、７１２…モデル更新処理部２１５、７１３…モデル保存処理部２２０…学習データ２３０、２４０、７３０、７４０…ネットワークモデル

Claims

複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置であって、
前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された１の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出するラベル類似度算出部と、
前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択する選択処理部と、
前記選択された正事例と負事例の組に基づき前記学習モデルを更新するモデル更新処理部と、
を備えることを特徴とする学習モデル更新装置。
前記所定の条件は前記ギャップが最大であることを特徴とする請求項１に記載の学習モデル更新装置。
前記所定の条件は前記ギャップが予め定められた所定の閾値以上であることを特徴とする請求項１に記載の学習モデル更新装置。
前記クエリの前記画像特徴量ベクトルと類似した前記画像特徴量ベクトルを持つ前記画像データを検索し、前記クエリに対する類似ベクトル検索結果を取得し、前記クエリに対する前記類似ベクトル検索結果中の順位を算出する類似ベクトル検索処理部を有し、
前記選択処理部は、前記所定の条件と前記順位に基づき前記正事例及び前記負事例の組を選択する
ことを特徴とする請求項２または３に記載の学習モデル更新装置。
前記選択処理部は、前記ラベル類似度の前記ギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補として抽出し、前記順位が高い順に、事前に指定された個数の前記負事例を特定し、抽出された前記複数の組の候補のうち特定された前記負事例が含まれる前記正事例と前記負事例との組を選択する
ことを特徴とする請求項４に記載の学習モデル更新装置。
前記選択処理部は、前記ラベル類似度のギャップが所定の条件を満たす前記正事例及び前記負事例の複数の組を候補として抽出し、抽出された前記複数の組の候補のうちtripletのloss関数が小さくなる組の候補を優先させて、前記正事例及び前記負事例の組として選択する
ことを特徴とする請求項４に記載の学習モデル更新装置。
前記tripletのloss関数は、前記クエリの前記特徴量ベクトルと前記正事例の前記特徴量ベクトルとの間の距離、及び前記クエリの前記特徴量ベクトルと前記負事例の前記特徴量ベクトルとの間の距離の２乗和誤差に基づいて算出されることを特徴とする請求項６に記載の学習モデル更新装置。
前記ラベル類似度は、前記クエリに付与された前記ラベルの集合及び前記クエリとして選択された前記画像データと異なる複数の前記画像データに付与された前記ラベルの集合の和集合の要素数及び積集合の要素数に基づいて算出される
ことを特徴とする請求項１に記載の学習モデル更新装置。
複数のラベルが付与された画像データの画像特徴量ベクトルを算出する学習モデルを受け入れ、この学習モデルを更新する学習モデル更新装置による学習モデル更新方法であって、
前記学習モデルに対する学習データとして受け入れた複数の前記画像データから選択された１の前記画像データであるクエリと、前記クエリとして選択された前記画像データと異なる複数の前記画像データとの間のラベル類似度を算出し、
前記ラベル類似度の算出の際に用いられた前記複数の前記画像データのうち、前記ラベル類似度のギャップが所定の条件を満たす前記画像データの組を正事例及び負事例の組として選択し、
前記選択された正事例と負事例の組に基づき前記学習モデルを更新する
ことを特徴とする学習モデル更新装置による学習モデル更新方法。