JP7635170B2

JP7635170B2 - 画像処理装置、学習装置、推論装置、および画像処理方法

Info

Publication number: JP7635170B2
Application number: JP2022019857A
Authority: JP
Inventors: 孝井田; 利幸小野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-02-10
Filing date: 2022-02-10
Publication date: 2025-02-25
Anticipated expiration: 2042-02-10
Also published as: US12277751B2; JP2023117247A; US20230252762A1

Description

本発明の実施形態は、画像処理装置、学習装置、推論装置、および画像処理方法に関する。

製造工場における製造品の撮影画像を用いた外観検査や、Ｘ線透視画像やＣＴ画像などの医用画像を用いた医療診断などにおいて、異常の有無の認識にニューラルネットワークを用いると、他の画像処理を用いるよりも一般的に高い認識精度が得られることが知られている。また、このような外観検査や医療診断においては、認識対象画像の全体に対して異常が写っているのはごく一部分であることが多い。そのため、認識対象画像を複数の処理画像に分割して、分割した複数の処理画像をそれぞれ個別にニューラルネットワークで処理する技術が知られている。この技術を用いることにより、個別のニューラルネットワークの処理量は、認識対象画像をそのまま処理する場合の処理量よりも少なくできる。

ところで、上記技術におけるニューラルネットワークの学習には、理想的には、複数の処理画像それぞれに異常の有無を正解値として教示する手法が望ましい。しかし、この手法では、認識対象画像に対して異常の有無を教示するよりも、分割する処理画像の数に比例して正解値のデータを作成する手間が多くかかるという問題がある。この問題に対して、複数の処理画像を個別にニューラルネットワークで処理して得られる各出力の最大値を求め、この最大値から得られる異常の有無の推定値に対して、分割前の認識対象画像における異常の有無を正解値として教示することによって個別ニューラルネットワークを学習する技術が知られている。

上記技術で用いられているニューラルネットワークの学習過程では、複数の処理画像のそれぞれをニューラルネットワークで処理し、各々の処理過程における変換画像の画素値やニューラルネットワークのその時点の重みパラメータなどの処理過程データを全てメモリに保持している。そして、ニューラルネットワークの出力として得られる推定値の正解値に対する誤差と、学習に寄与する処理過程データを用いて、逆伝播の処理によりニューラルネットワークの重みパラメータを更新した後、全ての処理過程データを解放する構成である。

しかしながら、上記構成では、逆伝播の処理を行うまでの間に、全ての処理過程データを保持する必要があるため、メモリ容量を低減できないという問題があった。

ＭａｘｉｍｉｌｉａｎＩｌｓｅ，外２名，"Ａｔｔｅｎｔｉｏｎ－ｂａｓｅｄＤｅｅｐＭｕｌｔｉｐｌｅＩｎｓｔａｎｃｅＬｅａｒｎｉｎｇ"，Ｖｏｌｕｍｅ８０：ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，（スウェーデン），２０１８，ＰＭＬＲ８０：２１２７－２１３６．

本発明が解決しようとする課題は、ニューラルネットワークを用いた画像処理に必要なメモリ容量を低減することができる画像処理装置、学習装置、推論装置、および方法を提供することである。

一実施形態に係る画像処理装置は、特徴量抽出部と、メモリと、最大特徴量選択部と、最適化部とを備える。特徴量抽出部は、入力画像に基づくＮ個（Ｎ≧３）の処理画像について、ニューラルネットワークを用いた特徴量抽出処理を行うことによってＮ個の特徴量を生成する。メモリは、特徴量抽出処理の過程で発生する処理過程データを保持する。最大特徴量選択部は、Ｎ個の特徴量のうちの２個以上Ｎ－１個以下であるＭ個の組み合わせで２回以上の比較を行うことによって最大特徴量を選択する。最適化部は、２回以上の比較毎に、選択されなかったＭ－１個以下の特徴量に対応するＭ－１個以下の処理過程データをメモリから解放させる。

第１の実施形態に係る画像処理装置を含む学習装置の構成を例示するブロック図。入力画像を切り出すことによって３つの処理画像に分割する例を示す説明図。図１の画像処理装置の詳細な構成を例示するブロック図。入力画像を切り出すことによって４つの処理画像に分割する例を示す説明図。入力画像を重複して切り出すことによって４つの処理画像に分割する例を示す説明図。図３の画像処理装置における特徴量抽出部および最大特徴量選択部の他の第１の構成例を示すブロック図。第１の実施形態に係る画像処理装置の動作を例示するフローチャート。図３の画像処理装置における特徴量抽出部および最大特徴量選択部の他の第２の構成例を示すブロック図。入力画像を縮小することによって２つの処理画像を生成する例を示す説明図。入力画像に対する２回の畳み込み処理における変換画像、中間画像、および受容野を例示する説明図。図１の画像処理装置の他の構成例を示すブロック図。第１の実施形態に係る画像処理装置の他の動作を例示するフローチャート。図６の画像処理装置における特徴量抽出部および最大特徴量選択部の他の第３の構成例を示すブロック図。入力画像に対する畳み込み処理における複数の変換画像、中間画像、および受容野を例示する説明図。畳み込み処理の処理単位毎に分割した中間画像。複数のチャンネルを有する中間画像とチャンネル毎の特徴量との関係を例示する説明図。第２の実施形態に係る画像処理装置を含む推論装置の構成を例示するブロック図。畳み込み処理済みの部分画像とメモリに保持される部分画像データとの関係を例示する説明図。メモリから解放される部分画像データを例示する説明図。メモリに保持される新たな部分画像データを例示する説明図。部分画像から生成された補間中間画像。一実施形態に係るコンピュータのハードウェア構成を例示するブロック図。

以下、図面を参照しながら、画像処理装置を含む学習装置および推論装置に関する実施形態について詳細に説明する。

（第１の実施形態）
第１の実施形態では、画像に認識対象の物体が含まれているか否かを認識するニューラルネットワークを学習することについて説明される。上記の物体は、例えば、外観検査における製造品のひびや汚れ、或いは医療診断における腫瘍や内出血した血管などを想定する。

図１は、第１の実施形態に係る画像処理装置１１０を含む学習装置１００の構成を例示するブロック図である。学習装置１００は、画像処理装置１１０（画像処理部）と、誤差算出部１２０と、学習部１３０とを備える。画像処理装置１１０は、特徴量抽出部１１１と、メモリ１１２と、最大特徴量選択部１１３と、最適化部１１４とを備える。

なお、学習装置１００は、ニューラルネットワークの学習に必要な入力画像と、この入力画像に対応する正解ラベル（正解値）とを組とした学習データセットを取得する取得部を備えてもよい。また、学習装置１００は、各部を制御するための制御部を備えてもよい。

特徴量抽出部１１１は、他の装置（図示せず）から入力画像を受け取る。特徴量抽出部１１１は、入力画像に基づくＮ個（Ｎ≧３）の処理画像について、ニューラルネットワークを用いた特徴量抽出処理を行うことによってＮ個の特徴量を生成する。特徴量抽出部１１１は、特徴量抽出処理の過程で発生する処理過程データをメモリ１１２へと出力し、Ｎ個の特徴量を最大特徴量選択部１１３へと出力する。

具体的には、特徴量抽出部１１１は、Ｎ個の処理画像それぞれに対してシーケンシャルに特徴量抽出処理を行う。即ち、特徴量抽出部１１１は、第１の処理画像に対する処理が終了した後、後続する第２の処理画像に対する処理を行い、これを第Ｎの処理画像まで繰り返す。また、特徴量抽出部１１１は、処理画像に対する特徴量抽出処理が行われる度に、処理過程データをメモリ１１２へと出力し、特徴量を最大特徴量選択部１１３へと出力する。

上記の特徴量抽出処理は、畳み込み処理、活性化処理、全結合処理、およびプーリング処理などを含む。具体的には、特徴量抽出部１１１は、処理画像に対して畳み込み処理および活性化処理などの変換を行った後、全結合処理やプーリング処理などによりスカラー値に変換することによって特徴量を生成する。言い換えると、特徴量抽出部１１１は、処理画像を入力すると特徴量を出力するようなニューラルネットワークによって構成される。また、特徴量抽出部１１１は、Ｎ個の処理画像それぞれに対応するＮ個のニューラルネットワークを有する。尚、Ｎ個のニューラルネットワークのそれぞれは、個別ニューラルネットワークと呼ばれてもよい。

なお、特徴量抽出処理は、特徴量を生成する直前に最終活性化処理を行ってもよい。この最終活性化処理は、例えばシグモイド関数を適用することによって「０」から「１」までの値に変換する処理である。特徴量抽出処理において最終活性化処理が行われない場合、後述する最大特徴量選択部１１３において最大特徴量が選択された後から、誤差算出部１２０において誤差算出処理が行われるまでの間で、任意のユニットにおいて最終活性化処理が行われるものとする。また、任意のユニットとして、最終活性化処理を行う活性化部を、最大特徴量選択部１１３と誤差算出部１２０との間に設けてもよい。

上記の処理過程データは、例えば、変換後の処理画像（変換画像または中間画像）の画素値などのデータ値、変換時の処理に設定されていた重みパラメータの値、および変換時の処理に設定されていたシフトパラメータの値である。この処理過程データは、後述するニューラルネットワークの学習時に利用されるため、学習に必要なデータに言い換えられてもよい。

更に、特徴量抽出部１１１は、入力画像に基づいてＮ個の処理画像を生成してもよい。例えば、特徴量抽出部１１１は、入力画像の一部を切り出すことによってＮ個の処理画像を生成する。入力画像とＮ個の処理画像との関係について、図２を用いて説明する。

図２は、入力画像２００を切り出すことによって３つの処理画像２１０から２３０までに分割する例を示す説明図である。特徴量抽出部１１１は、入力画像２００を所定のサイズで切り出すことによって３つの処理画像２１０から２３０までを生成する。３つの処理画像２１０から２３０までは、それぞれ等しいサイズでもよいし、異なるサイズでもよい。

なお、入力画像を切り出す処理は、入力画像から特定の領域を選択する処理に言い換えられてもよい。即ち、特徴量抽出部１１１は、入力画像のうちのそれぞれ異なる領域を選択することによってＮ個の処理画像を生成する。

メモリ１１２は、特徴量抽出部１１１から処理過程データを入力しこれを保持する。また、メモリ１１２は、最適化部１１４から解放指示情報を入力する。メモリ１１２は、解放指示情報に従って、保持している複数の処理過程データのうちの不要な処理過程データ（以降、不要データと称する）を解放する。メモリ１１２は、他の各部における処理画像に関する一連の処理が終了した後、最終的に保持している処理過程データ、即ち最大特徴量に関する処理過程データを学習部１３０へと出力する。

具体的には、メモリ１１２は、特徴量抽出部１１１からシーケンシャルに入力される処理過程データを保持しつつ、同様に最適化部１１４からシーケンシャルに入力される解放指示情報に従って、不要データを解放する。このような動作により、メモリ１１２は、常に不要データを解放するため、全ての処理過程データを保持する必要がなくなる。

上記の不要データは、後述する選択処理において、選択されなかった特徴量に対応する処理過程データである。選択されなかった特徴量はニューラルネットワークの学習時に考慮されないため、不要データは、ニューラルネットワークの学習に寄与しない処理過程データであると言える。

最大特徴量選択部１１３は、特徴量抽出部１１１からＮ個の特徴量を入力する。最大特徴量選択部１１３は、Ｎ個の特徴量のうちの２個以上Ｎ－１個以下であるＭ個の組み合わせで２回以上の比較を行うことによって最大特徴量を選択する。最大特徴量選択部１１３は、選択処理により選択されなかった特徴量に関する非選択情報を生成して最適化部１１４へと出力し、最大特徴量を誤差算出部１２０へと出力する。

具体的には、最大特徴量選択部１１３は、特徴量抽出部１１１からシーケンシャルに特徴量を入力し、入力された特徴量が選択処理に必要な個数（上記のＭ個）となった後、選択処理を行い、最も大きい特徴量を選択する。その後、最大特徴量選択部１１３は、再び特徴量抽出部１１１からシーケンシャルに特徴量を入力し、入力された特徴量が再び選択処理に必要な個数となった後、選択処理を行い、以降これを繰り返す。

選択処理によって選択された特徴量は、後続する選択処理がある場合には、後続する選択処理において再度用いられ、後続する選択処理がない場合には、最大特徴量として誤差算出部１２０へと出力される。また、最大特徴量選択部１１３は、選択処理が行われる度に、非選択情報を生成して最適化部１１４へと出力する。

なお、最大特徴量選択部１１３は、２回以上の比較において、組み合わせの個数が異なる比較を含んでもよい。例えば、全部で２回の比較を行う場合、最大特徴量選択部１１３は、１回目の比較において３つの特徴量を比較し、後続する２回目の比較において２つの特徴量を比較してもよい。

最適化部１１４は、最大特徴量選択部１１３から非選択情報を入力する。最適化部１１４は、非選択情報に基づいて解放指示情報を生成し、メモリ１１２へと出力する。解放指示情報は、メモリ１１２に保持されている不要データを解放させるための情報である。換言すると、最適化部１１４は、最大特徴量選択部１１３における２回以上の比較毎（即ち、最大特徴量を選択するための比較毎）に、選択されなかったＭ－１個以下の特徴量に対応するＭ－１個以下の処理過程データをメモリから解放させる。

誤差算出部１２０は、最大特徴量選択部１１３から最大特徴量を入力し、他の装置から入力画像に対応する正解値（正解特徴量）を入力する。誤差算出部１２０は、最大特徴量と正解特徴量とに基づいて誤差値を算出する。誤差算出部１２０は、誤差値を学習部１３０へと出力する。

具体的には、誤差算出部１２０は、最大特徴量と正解特徴量とを比較し、バイナリクロスエントロピーなどに代表される誤差値を算出する。正解特徴量は、例えば、入力画像に認識対象の物体が含まれていれば「１」、含まれていなければ「０」とする値である。

学習部１３０は、メモリ１１２から最大特徴量に関する処理過程データを入力し、誤差算出部１２０から誤差値を入力する。学習部１３０は、最大特徴量に関する処理過程データと誤差値とに基づいて特徴量抽出部１１１を構成しているニューラルネットワークを学習する。

具体的には、学習部１３０は、最大特徴量に関する処理過程データと誤差値とを用いて、誤差逆伝播法により最大特徴量が抽出された個別ニューラルネットワークを学習する。この誤差逆伝播法による学習は、入力画像を入力してから最大特徴量を得るまでの順方向処理におけるデータの繋がりを逆方向にたどることによって、個別ニューラルネットワークにおける種々の処理に設定されていた重みパラメータの値およびシフトパラメータの値を順次更新することによって行われる。このことから、選択されなかった特徴量に対応する個別ニューラルネットワークは、データの繋がりが途中で途切れてしまっているため、学習対象にはならない。即ち、選択されなかった特徴量に関する処理過程データは、最大特徴量が抽出された個別ニューラルネットワークの学習には寄与しないものである。

以上、第１の実施形態に係る画像処理装置１１０を含む学習装置１００の構成について説明した。次に、画像処理装置１１０の詳細な構成について、図３を用いて説明する。尚、図３の画像処理装置１１０では、図２に示すような３つの処理画像を用いることを想定する。

図３は、画像処理装置１１０の詳細な構成を例示するブロック図である。図３の特徴量抽出部１１１は、処理画像生成部３１０と、第１の抽出部３２０－１と、第２の抽出部３２０－２と、第３の抽出部３２０－３とを備える。図３の最大特徴量選択部１１３は、第１の選択部３３０－１と、第２の選択部３３０－２とを備える。

処理画像生成部３１０は、入力画像に基づいて３つの処理画像を生成する。処理画像生成部３１０は、３つの処理画像のうちの第１の処理画像を第１の抽出部３２０－１へと出力し、第２の処理画像を第２の抽出部３２０－２へと出力し、第３の処理画像を第３の抽出部３２０－３へと出力する。

第１の抽出部３２０－１は、処理画像生成部３１０から第１の処理画像を入力する。第１の抽出部３２０－１は、第１の処理画像について、特徴量抽出処理に相当する第１の抽出処理を行うことによって第１の特徴量を生成する。第１の抽出部３２０－１は、第１の特徴量を第１の選択部３３０－１へと出力し、第１の抽出処理の過程で発生する第１の処理過程データをメモリ１１２へと出力する。

第１の特徴量が抽出された後、メモリ１１２は、第１の抽出部３２０－１から第１の処理過程データを入力し、これを保持する。この時点において、メモリ１１２は、１つの処理過程データを保持している。

第２の抽出部３２０－２は、処理画像生成部３１０から第２の処理画像を入力する。第２の抽出部３２０－２は、第２の処理画像について、特徴量抽出処理に相当する第２の抽出処理を行うことによって第２の特徴量を生成する。第２の抽出部３２０－２は、第２の特徴量を第１の選択部３３０－１へと出力し、第２の抽出処理の過程で発生する第２の処理過程データをメモリ１１２へと出力する。

第２の特徴量が抽出された後、メモリ１１２は、第２の抽出部３２０－２から第２の処理過程データを入力し、これを保持する。この時点において、メモリ１１２は、２つの処理過程データを保持している。

第１の選択部３３０－１は、第１の抽出部３２０－１から第１の特徴量を入力し、第２の抽出部３２０－２から第２の特徴量を入力する。第１の選択部３３０－１は、第１の特徴量と第２の特徴量とを比較することによって大きい方を第１の選択特徴量として選択する。第１の選択部３３０－１は、選択されなかった特徴量に関する第１の非選択情報を生成して最適化部１１４へと出力し、第１の選択特徴量を第２の選択部３３０－２へと出力する。

第１の非選択情報が生成された後、最適化部１１４は、第１の選択部３３０－１から第１の非選択情報を入力する。最適化部１１４は、第１の非選択情報に基づいて第１の解放指示情報を生成し、メモリ１１２へと出力する。

第１の解放指示情報が生成された後、メモリ１１２は、第１の解放指示情報を入力する。メモリ１１２は、第１の解放指示情報に従って、保持している２つの処理過程データのうちの不要データを解放する。この時点において、メモリ１１２は、１つの処理過程データを保持している。

第３の抽出部３２０－３は、処理画像生成部３１０から第３の処理画像を入力する。第３の抽出部３２０－３は、第３の処理画像について、特徴量抽出処理に相当する第３の抽出処理を行うことによって第３の特徴量を生成する。第３の抽出部３２０－３は、第３の特徴量を第２の選択部３３０－２へと出力し、第３の抽出処理の過程で発生する第３の処理過程データをメモリ１１２へと出力する。

なお、第３の抽出部３２０－３における特徴量抽出処理は、第３の処理過程データをメモリ１１２へ出力する際に、メモリ１１２に１つの処理過程データしか保持されていないタイミングで行われる。または、第３の抽出部３２０－３における特徴量抽出処理は、メモリ１１２において１つの処理過程データを保持している状態で行われる。

第３の特徴量が抽出された後、メモリ１１２は、第３の抽出部３２０－３から第３の処理過程データを入力し、これを保持する。この時点において、メモリ１１２は、２つの処理過程データを保持している。

第２の選択部３３０－２は、第１の選択部３３０－１から第１の選択特徴量を入力し、第３の抽出部３２０－３から第３の特徴量を入力する。第２の選択部３３０－２は、第１の選択特徴量と第３の選択特徴量とを比較することによって大きい方を第２の選択特徴量として選択する。第２の選択部３３０－２は、選択されなかった特徴量に関する第２の非選択情報を生成して最適化部１１４へと出力し、第２の選択特徴量を最大特徴量として誤差算出部１２０へと出力する。

第２の非選択情報が生成された後、最適化部１１４は、第２の選択部３３０－２から第２の非選択情報を入力する。最適化部１１４は、第２の非選択情報に基づいて第２の解放指示情報を生成し、メモリ１１２へと出力する。

第２の解放指示情報が生成された後、メモリ１１２は、第２の解放指示情報を入力する。メモリ１１２は、第２の解放指示情報に従って、保持している２つの処理過程データのうちの不要データを解放する。この時点において、メモリ１１２は、最大特徴量に関する処理過程データのみを保持している。そして、メモリ１１２は、最大特徴量に関する処理過程データを学習部１３０へと出力する。

図３の構成を概括すると、メモリ１１２は、第１の選択部３３０－１または第２の選択部３３０－２において選択処理の対象となっている２つの特徴量にそれぞれ対応する２つの処理過程データのみを保持する。即ち、メモリ１１２は、２つの処理過程データを上限として保持する。特徴量抽出部１１１では合計で３つの処理過程データが発生するが、メモリ１１２は、選択処理毎に不要データを解放するため、３つの処理過程データを全て保持する必要がなく、メモリ容量を削減することができる。

以上、入力画像から生成された３つの処理画像を用いた処理の例を述べた。以下では、入力画像から４つの処理画像を生成する例について、図４を用いて説明する。

図４は、入力画像４００を切り出すことによって４つの処理画像４１０から４４０までに分割する例を示す説明図である。特徴量抽出部１１１は、入力画像４００を所定のサイズで切り出すことによって４つの処理画像４１０から４４０までを生成する。

図４では、入力画像４００を単純に分割することによって４つの処理画像４１０から４４０までを生成した。しかし、認識対象の物体が隣接する処理画像の境界付近に存在すると、認識対象の物体が境界で分断されてしまう可能性がある。そこで、複数の処理画像同士を重複するように切り出すことについて、図５を用いて説明する。

図５は、入力画像５００を重複して切り出すことによって４つの処理画像５１０から５４０までに分割する例を示す説明図である。特徴量抽出部１１１は、入力画像５００を、複数の処理画像同士が重複するように切り出すことによって４つの処理画像５１０から５４０までを生成する。

図５では、入力画像５００の左上頂点を含む処理画像５１０と、右上頂点を含む処理画像５２０と、左下頂点を含む処理画像５３０と、右下頂点を含む処理画像５４０とが示されている。これら４つの処理画像５１０から５４０までは、それぞれ一部の領域が重複している。このように、複数の処理画像が重複していることにより、一方の処理画像において認識対象の物体が分断されてしまったとしても、他方の処理画像において認識対象の物体が分断されないようにすることができる。よって、画像処理装置１１０は、認識対象の非検出を防ぐことができる。

以上、入力画像から４つの処理画像を生成する例を述べた。しかし、分割する処理画像の数は３、或いは４に限らない。以下では、分割する処理画像をＮ個まで拡張した場合の画像処理装置の構成例について、図６を用いて説明する。

図６は、図３の画像処理装置１１０における特徴量抽出部１１１および最大特徴量選択部１１３の他の第１の構成例を示すブロック図である。第１の構成例は、図３で示した３つの処理画像を用いた処理をＮ個の処理画像を用いた処理まで拡張させたものである。よって、図６では、特徴量抽出部１１１を特徴量抽出部１１１Ａとし、最大特徴量選択部１１３を最大特徴量選択部１１３Ａとして説明する。尚、図６では、画像処理装置１１０におけるメモリ１１２および最適化部１１４の図示を省略している。

特徴量抽出部１１１Ａは、処理画像生成部６１０と、第１の抽出部６２０－１から第Ｎの抽出部６２０－Ｎまでとを備える。最大特徴量選択部１１３Ａは、第１の選択部６３０－１から第Ｌの選択部６３０－Ｌまでを備える。ここで、ＬはＮ－１である。

処理画像生成部６１０は、入力画像に基づいてＮ個の処理画像を生成する。処理画像生成部６１０は、Ｎ個の処理画像のそれぞれを第１の抽出部６１０－１から第Ｎの抽出部６１０－Ｎまでへと出力する。

第１の抽出部６２０－１、第２の抽出部６２０－２、第１の選択部６３０－１、第３の抽出部６２０－３、および第２の選択部６３０－２は、図３の第１の抽出部３２０－１、第２の抽出部３２０－２、第１の選択部３３０－１、第３の抽出部３２０－３、および第２の選択部６３０－２と同様の処理であるため説明を省略する。

第４の抽出部６２０－４および第３の選択部６３０－３は、第３の抽出部６２０－３および第２の選択部６３０－２と略同様の処理である。尚、以降の抽出部および選択部についても同様である。

図６の構成を概括すると、第２の選択部６３０－２以降の選択部は、直前の選択部において選択された選択特徴量と、未選択の特徴量との２つの特徴量を順次比較する構成である。また、第３の抽出部６２０－３以降の抽出部は、処理過程データをメモリ１１２へ出力する際に、メモリ１１２に１つの処理過程データしか保持されていないタイミングで行われる。または、第３の抽出部６２０－３以降の抽出部における特徴量抽出処理は、メモリ１１２において１つの処理過程データを保持している状態で行われる。即ち、処理画像がＮ個まで拡張されたとしても、メモリ１１２には、２つの処理過程データを上限として保持するだけでよい。

以上、分割する処理画像をＮ個まで拡張した場合の画像処理装置の構成例について説明した。次に、Ｎ個の処理画像を用いた第１の実施形態に係る画像処理装置１１０の動作について、図７を用いて説明する。

図７は、第１の実施形態に係る画像処理装置の動作を例示するフローチャートである。図７のフローチャートは、１つの入力画像についての最大特徴量選択処理の一連の流れを示している。また、図７のフローチャートは、図６で示したような、選択部において２つの特徴量を比較する構成を前提としている。以降では、図１および図６の各部を参照して説明する。

（ステップＳＴ７０１）
画像処理装置１１０が入力画像を取得すると、処理画像生成部６１０は、入力画像に基づくＮ個（Ｎ≧３）の処理画像を生成する。

（ステップＳＴ７０２）
第１の抽出部６２０－１は、第１の処理画像について第１の抽出処理を行うことによって第１の特徴量を生成する。

（ステップＳＴ７０３）
メモリ１１２は、第１の抽出処理の過程で発生する第１の処理過程データを保持する。

（ステップＳＴ７０４）
第２の抽出部６２０－２は、第２の処理画像について第２の抽出処理を行うことによって第２の特徴量を生成する。

（ステップＳＴ７０５）
メモリ１１２は、第２の抽出処理の過程で発生する第２の処理過程データを保持する。この時、メモリ１１２は、２つの処理過程データを保持している。

（ステップＳＴ７０６）
第１の選択部６３０－１は、第１の特徴量と第２の特徴量とを比較することによって大きい方を第１の選択特徴量として選択する。

（ステップＳＴ７０７）
最適化部１１４は、第１の特徴量と第２の特徴量との比較において選択されなかった特徴量に対応する処理過程データをメモリ１１２から解放させる。これにより、メモリ１１２は、１つの処理過程データを保持する。

（ステップＳＴ７０８）
画像処理装置１１０は、変数ｉおよび変数ｊを定義し、それぞれ３および１を代入する。

（ステップＳＴ７０９）
第ｉの抽出部６２０－ｉは、第ｉの処理画像について第ｉの抽出処理を行うことによって第ｉの特徴量を生成する。

（ステップＳＴ７１０）
メモリ１１２は、第ｉの抽出処理の過程で発生する第ｉの処理過程データを保持する。この時、メモリ１１２は、２つの処理過程データを保持している。

（ステップＳＴ７１１）
第（ｉ－１）の選択部６３０－（ｉ－１）は、第ｊの選択特徴量と第ｉの特徴量とを比較することによって大きい方を第（ｊ＋１）の選択特徴量として選択する。

（ステップＳＴ７１２）
最適化部１１４は、第ｊの選択特徴量と第ｉの特徴量との比較において選択されなかった特徴量に対応する処理過程データをメモリ１１２から解放させる。これにより、メモリ１１２は、１つの処理過程データだけを保持する。

（ステップＳＴ７１３）
画像処理装置１１０は、変数ｉがＮであるか否かを判定する。変数ｉがＮではない場合、処理はステップＳＴ７１４へ進む。他方、変数ｉがＮである場合、画像処理装置１１０は、直前の選択処理において選択された選択特徴量を最大特徴量として誤差算出部１２０へと出力し、最大特徴量に関する処理過程データを学習部１３０へと出力し、処理は終了する。

（ステップＳＴ７１４）
画像処理装置１１０は、変数iおよび変数ｊにそれぞれ１を加算する。ステップＳＴ７１４の処理の後、処理はステップＳＴ７０９へ戻る。

以上、Ｎ個の処理画像を用いた第１の実施形態に係る画像処理装置１１０の動作について説明した。上記までは、選択部において２つの特徴量を比較する構成について述べた。しかし、比較する特徴量の数は２に限らない。以下では、選択部において３つの特徴量を比較する例について、図８を用いて説明する。尚、図８の説明の際、比較対象として、選択部において２つの特徴量を比較する構成である図６を参照する。

図８は、図３の画像処理装置における特徴量抽出部および最大特徴量選択部の他の第２の構成例を示すブロック図である。第２の構成例は、図３または図６で示した選択部における２つの特徴量の比較を３つの特徴量の比較に拡張させたものである。よって、図８では、特徴量抽出部１１１を特徴量抽出部１１１Ｂとし、最大特徴量選択部１１３を最大特徴量選択部１１３Ｂとして説明する。尚、図８では、画像処理装置１１０におけるメモリ１１２および最適化部１１４の図示を省略している。

特徴量抽出部１１１Ｂは、処理画像生成部８１０と、第１の抽出部８２０－１から第Ｎの抽出部８２０－Ｎまでとを備える。最大特徴量選択部１１３Ｂは、第１の選択部８３０－１から第Ｌの選択部８３０－Ｌまでを備える。ここで、Ｌは（Ｎ－１）／２である。

前述の通り、図８と図６との違いは、選択部において比較する特徴量の数である。具体的には、図８の第１の選択部８３０－１は、第１の抽出部８２０－１から第１の特徴量を入力し、第２の抽出部８２０－２から第２の特徴量を入力し、第３の抽出部８２０－３から第３の特徴量を入力する。そして、第１の選択部８３０－１は、第１の特徴量から第３の特徴量までの３つの特徴量を比較することによって最も大きい特徴量を第１の選択特徴量として選択する。

また、図８では、メモリ１１２が保持する処理過程データの数も異なる。例えば、第１の選択部８３０－１において３つの特徴量を比較することから、第３の特徴量が抽出された時点において、メモリ１１２は、３つの処理過程データを保持している。

第１の選択部８３０－１において第１の選択特徴量が選択されると、メモリ１１２は、保持している３つの処理過程データのうちの不要データ（ここでは、選択されなかった２つの特徴量に対応する２つの処理過程データ）を解放する。この時点において、メモリ１１２は、１つの処理過程データを保持している。

次いで、第４の抽出部８２０－４において第４の特徴量が抽出され、第５の抽出部８２０－５において第５の特徴量が抽出されることによって、メモリ１１２は、再び３つの処理過程データを保持する状態となる。

更に、第２の選択部８３０－２は、第１の選択部８３０－１から第１の選択特徴量を入力し、第４の抽出部８２０－４から第４の特徴量を入力し、第５の抽出部８２０－５から第５の特徴量を入力する。そして、第２の選択部８３０－２は、第１の選択特徴量と第４の特徴量と第５の特徴量との３つの特徴量を比較することによって最も大きい特徴量を第２の選択特徴量として選択する。

第２の選択特徴量が選択されると、メモリ１１２は、保持している３つの処理過程データのうちの不要データを解放する。この時点において、メモリ１１２は、再び１つの処理過程データのみを保持する状態となる。

図８の構成を概括すると、第２の選択部８３０－２以降の選択部は、直前の選択部において選択された選択特徴量と、未選択の２つの特徴量との３つの特徴量を順次比較する構成である。また、第４の抽出部８２０－４以降の抽出部は、処理過程データをメモリ１１２へ出力する際に、メモリ１１２に多くとも２つの処理過程データを保持している状態で行われる。即ち、メモリ１１２は、３つの処理過程データを上限として保持する。

なお、図８では、画像処理装置１１０は、選択部において３つの特徴量を比較する構成の例を示したがこれに限らない。例えば、画像処理装置１１０は、選択部において４つ以上の特徴量を比較する構成でもよい。

以上のように、メモリ１１２に保持する処理過程データの上限と選択部において比較する特徴量の数とを一致させることによって、処理画像の個数に関わらず、メモリ１１２には、選択部において比較する特徴量の数と同数の処理過程データを上限として保持するだけでよい。

さらに、図８の構成では、第１の抽出部８２０－１、第２の抽出部８２０－２、および第３の抽出部８２０－３のそれぞれの抽出処理を並列して行ってよい。その後、第１の選択部８３０－１による選択処理が完了し、メモリ１１２から不要データが削除された後、第４の抽出部８２０－４および第５の抽出部８２０－５のそれぞれの抽出処理も並列して行ってよく、以降も同様である。よって、図８の構成によれば、抽出処理が並列して行えることにより、画像処理装置１１０は、図６の構成に比べて全体の処理時間を短縮することができる。

図８における抽出処理の並列化は、選択部において比較する特徴量の数が増えたとしても同様である。例えば、画像処理装置１１０は、選択部においてＭ個の特徴量を比較する場合、第１の選択処理で用いられるＭ個の特徴量に係る抽出処理を並列して行い、第２の選択処理以降で用いられるＭ－１個の特徴量に係る抽出処理を並列して行ってよい。換言すると、画像処理装置１１０は、選択部へ入力される抽出処理を経た直後の特徴量が複数ある場合、これら複数の特徴量を同時に生成してよい。

（処理画像の他の実施例）
上記では、入力画像を分割することによって複数の処理画像を生成する例について説明した。しかし、複数の処理画像は、入力画像の分割に限らない。以下では、入力画像を縮小することによって複数の処理画像を生成する例について、図９を用いて説明する。

図９は、入力画像９００を縮小することによって２つの処理画像９１０および９２０を生成する例を示す説明図である。特徴量抽出部１１１は、縮小処理によって入力画像９００を縮小させることによって縮小率の異なる２つの処理画像９１０および９２０を生成する。例えば、特徴量抽出部１１１は、入力画像９００を１／２に縮小することによって処理画像９１０を生成し、入力画像９００を１／４に縮小することによって処理画像９２０を生成する。尚、画像処理装置１１０の処理可能な画像サイズを満たす場合、入力画像９００は、処理画像として用いてよい。

上記の縮小処理は、例えばバイリニアおよびバイキュービックなどの固定フィルタを用いてニューラルネットワークの処理とは別に行われてもよいし、上記固定フィルタを畳み込みフィルタとしてニューラルネットワークの一部として行われてもよい。後者の場合、畳み込みフィルタのパラメータを新たに学習する必要があるため、ニューラルネットワーク全体の学習速度が低下するものの、前者の場合に比べて、認識精度を向上させることが期待できる。

次に、図９のような縮小率の異なる処理画像を用いることのメリットについて説明する。以下では、２つの観点について説明する。

１つ目の観点は、縮小画像自体を学習することのメリットである。例えば、画像処理装置１１０を用いた推論時において、学習時とは異なる大きさの認識対象の物体が入力画像に含まれている場合、縮小画像を用いていない複数の処理画像を用いて学習したニューラルネットワークは、その物体を認識できない可能性がある。

一方、図９のような縮小率の異なる処理画像を用いた場合、例えば、処理画像としての入力画像９００では物体をサイズＡで学習し、処理画像９１０では物体をサイズＡ／２で学習し、処理画像９２０では物体をサイズＡ／４で学習することとなる。このとき、個別ニューラルネットワークのパラメータを共有していれば、画像処理装置１１０は、上記の何れのサイズの物体であっても認識させることができる。

更に、処理画像としての入力画像９００にサイズ２Ａの物体が写っていた場合であっても、処理画像９１０においてはサイズＡに縮小されることから、画像処理装置１１０は、サイズ２Ａの物体も認識させることができる。このことは、処理画像としての入力画像９００にサイズ４Ａの物体写っていた場合でも同様である。

よって、画像処理装置１１０は、縮小率の異なる処理画像を用いた学習および推論において個別ニューラルネットワークのパラメータを共有させることにより、推論時において学習時とは異なる大きさの認識対象の物体を認識させることができる。

２つ目の観点は、個別ニューラルネットワークに畳み込み処理を含めることのメリットである。そのために、まずニューラルネットワークによる畳み込み処理における受容野の概念について、図１０を用いて説明する。

図１０は、入力画像１０１０に対する２回の畳み込み処理における変換画像１０２０、中間画像１０３０、および受容野を例示する説明図である。図１０では、入力画像１０１０に対して３×３画素の畳み込み処理を行って変換画像１０２０を生成し、変換画像１０２０に対しても同様に３×３画素の畳み込み処理を行って中間画像１０３０を生成する例が示されている。なお活性化処理などの図示は省略している。ここで、受容野とは、中間画像１０３０の１画素（例えば、画素１０３１）に影響を与える、変換画像１０２０の画素範囲１０２１および入力画像１０１０の画素範囲１０１１のことである。図１０では、画素範囲１０２１は３×３画素であり、画素範囲１０１１は５×５画素である例が示されている。画素１０３１は、受容野である画素範囲１０２１および画素範囲１０１１のみに依存するため、この受容野以外の画素値がいくら変化しても影響はない。

なお、入力画像１０１０の受容野（画素範囲１０１１）は、中間画像１０３０のサイズ、および畳み込み処理のカーネル（例えば、３×３画素）が変わらない場合、変換画像を生成する畳み込み処理を増やすほど、即ち、畳み込み層の数を増やすほどその画素範囲が広くなる。

以上を踏まえて、図９のような縮小率の異なる処理画像それぞれについての畳み込み処理について考える。まず、３つの個別ニューラルネットワークは、いずれも複数の畳み込み層で構成される。また、これら複数の畳み込み層において、最後に畳み込み処理された変換画像を中間画像と呼ぶこととする。画像処理装置１１０は、中間画像に対して全結合処理やグローバルプーリング処理を適用して特徴量を生成する。

上記のように構成されたニューラルネットワークは、一般的に、中間画像までの処理において入力画像の特徴量の抽出を行い、その後の処理（上記の全結合処理およびグローバルプーリング処理）において特徴量を用いた識別を行う。従って、中間画像の各画素には、認識対象の物体の特徴が十分に反映されていることが望ましい。しかし、例えば、学習時よりも大きな物体が入力画像に含まれていると、入力画像の受容野よりも物体が大きくなってしまい、認識対象の物体の特徴が中間画像において十分に反映されないことがある。このことに対して、畳み込み層を増やすことにより入力画像の受容野の領域を広くすることが考えられるが、畳み込み層を増やした分だけ処理量が増えるという問題がある。

一方、縮小画像を用いてニューラルネットワークを学習することにより、複数の個別ニューラルネットワークの構造が同じであれば、それぞれの個別ニューラルネットワークにおいて入力画像に対する受容野の大きさは変わらない。よって、画像処理装置１１０は、学習時よりも大きな物体が入力画像に含まれていたとしても、いずれかの個別ニューラルネットワークにおいて認識対象の物体を認識させることができる。

また、先に述べたように、画像の縮小に用いる畳み込みフィルタのパラメータも個別ニューラルネットワークに学習させる場合、入力画像とは異なった様相の縮小画像になることがある。よって、画像処理装置１１０は、個別ニューラルネットワークのパラメータを異ならせて、画像の縮小率毎に個別ニューラルネットワークのパラメータを最適化させることが望ましい。

上記を概括すると、画像処理装置１１０は、入力画像を縮小した複数の処理画像を用いることにより、学習時に想定していた認識対象の物体のサイズとは異なるサイズの物体であっても認識することができる。

さらに、処理画像のサイズが小さくなれば処理過程データの容量も少なくすることができる。よって、画像処理装置１１０は、縮小率が最も高い処理画像から特徴量抽出処理を行うことによって、メモリ１１２に保持するデータの容量を低減することができる。

（最大特徴量選択部の他の構成例）
上記では、最大特徴量選択部における各々の選択部において、異なる選択部からの出力同士を比較する構成は例示していなかった。以下では、異なる選択部からの出力同士を比較する選択部を含む最大特徴量選択部の構成について、図１１を用いて説明する。尚、図１１では、説明を簡略化するため、４つの処理画像を用いることを想定する。

図１１は、図１の画像処理装置１１０の他の構成例を示すブロック図である。他の構成例は、異なる選択部からの出力同士を比較する構成を含むものである。よって、図１１では、特徴量抽出部１１１、メモリ１１２、最大特徴量選択部１１３、および最適化部１１４をそれぞれ特徴量抽出部１１１Ｃ、メモリ１１２Ｃ、最大特徴量選択部１１３Ｃ、および最適化部１１４Ｃとして説明する。

特徴量抽出部１１１Ｃは、処理画像生成部１１１０と、第１の抽出部１１２０－１から第４の抽出部１１２０－４までとを備える。最大特徴量選択部１１３Ｃは、第１の選択部１１３０－１から第３の選択部１１３０－３までを備える。

処理画像生成部１１１０は、入力画像に基づいて４つの処理画像を生成する。処理画像生成部１１１０は、４つの処理画像のうちの第１の処理画像を第１の抽出部１１２０－１へと出力し、第２の処理画像を第２の抽出部１１２０－２へと出力し、第３の処理画像を第３の抽出部１１２０－３へと出力し、第４の処理画像を第４の抽出部１１２０－４へと出力する。

第１の抽出部１１２０－１は、処理画像生成部１１１０から第１の処理画像を入力する。第１の抽出部１１２０－１は、第１の処理画像について、特徴量抽出処理に相当する第１の抽出処理を行うことによって第１の特徴量を生成する。第１の抽出部１１２０－１は、第１の特徴量を第１の選択部１１３０－１へと出力し、第１の抽出処理の過程で発生する第１の処理過程データをメモリ１１２Ｃへと出力する。

第１の特徴量が抽出された後、メモリ１１２Ｃは、第１の抽出部１１２０－１から第１の処理過程データを入力し、これを保持する。この時点において、メモリ１１２Ｃは、１つの処理過程データを保持している。

第２の抽出部１１２０－２は、処理画像生成部１１１０から第２の処理画像を入力する。第２の抽出部１１２０－２は、第２の処理画像について、特徴量抽出処理に相当する第２の抽出処理を行うことによって第２の特徴量を生成する。第２の抽出部１１２０－２は、第２の特徴量を第１の選択部１１３０－１へと出力し、第２の抽出処理の過程で発生する第２の処理過程データをメモリ１１２Ｃへと出力する。

なお、第２の抽出部１１２０－２における第２の抽出処理は、第１の抽出部１１２０－１における第１の抽出処理と同じタイミングで行われてよい。

第２の特徴量が抽出された後、メモリ１１２Ｃは、第２の抽出部１１２０－２から第２の処理過程データを入力し、これを保持する。この時点において、メモリ１１２Ｃは、２つの処理過程データを保持している。

第１の選択部１１３０－１は、第１の抽出部１１２０－１から第１の特徴量を入力し、第２の抽出部１１２０－２から第２の特徴量を入力する。第１の選択部１１３０－１は、第１の特徴量と第２の特徴量とを比較することによって大きい方を第１の選択特徴量として選択する。第１の選択部１１３０－１は、選択されなかった特徴量に関する第１の非選択情報を生成して最適化部１１４Ｃへと出力し、第１の選択特徴量を第３の選択部１１３０－３へと出力する。

第１の非選択情報が生成された後、最適化部１１４Ｃは、第１の選択部１１３０－１から第１の非選択情報を入力する。最適化部１１４Ｃは、第１の非選択情報に基づいて第１の解放指示情報を生成し、メモリ１１２Ｃへと出力する。

第１の解放指示情報が生成された後、メモリ１１２Ｃは、第１の解放指示情報を入力する。メモリ１１２Ｃは、第１の解放指示情報に従って、保持している２つの処理過程データのうちの不要データを解放する。この時点において、メモリ１１２Ｃは１つの処理過程データを保持している。

第３の抽出部１１２０－３は、処理画像生成部１１１０から第３の処理画像を入力する。第３の抽出部１１２０－３は、第３の処理画像について、特徴量抽出処理に相当する第３の抽出処理を行うことによって第３の特徴量を生成する。第３の抽出部１１２０－３は、第３の特徴量を第２の選択部１１３０－２へと出力し、第３の抽出処理の過程で発生する第３の処理過程データをメモリ１１２Ｃへと出力する。

なお、第３の抽出部１１２０－３における特徴量抽出処理は、第３の処理過程データをメモリ１１２Ｃへ出力する際に、メモリ１１２Ｃに１つの処理過程データしか保持されていないタイミングで行われる。または、第３の抽出部１１２０－３における特徴量抽出処理は、メモリ１１２Ｃにおいて１つの処理過程データを保持している状態で行われる。

第３の特徴量が抽出された後、メモリ１１２Ｃは、第３の抽出部１１２０－３から第３の処理過程データを入力し、これを保持する。この時点において、メモリ１１２Ｃは、２つの処理過程データを保持している。

第４の抽出部１１２０－４は、処理画像生成部１１１０から第４の処理画像を入力する。第４の抽出部１１２０－４は、第４の処理画像について、特徴量抽出処理に相当する第４の抽出処理を行うことによって第４の特徴量を生成する。第４の抽出部１１２０－４は、第４の特徴量を第２の選択部１１３０－２へと出力し、第４の抽出処理の過程で発生する第４の処理過程データをメモリ１１２Ｃへと出力する。

なお、第４の抽出部１１２０－４における第４の抽出処理は、第３の抽出部１１２０－３における第３の抽出処理と同じタイミングで行われてよい。

第４の特徴量が抽出された後、メモリ１１２Ｃは、第４の抽出部１１２０－４から第４の処理過程データを入力し、これを保持する。この時点において、メモリ１１２Ｃは、３つの処理過程データを保持している。

図１１の構成を概括すると、図６のように選択部において２つの特徴量を比較する構成の組み合わせではあるものの、異なる選択部からの出力（即ち、２つの選択特徴量）同士を比較する構成が含まれる。これにより、メモリ１１２Ｃには３つの処理過程データを保持することとなるが、特徴量抽出部１１１Ｃは、２つの抽出部によって同時に抽出処理を行うことができる。即ち、特徴量抽出部１１１Ｃは、４つの特徴量を２つの特徴量毎に生成することができる。

更に、Ｎ個の処理画像について複数の特徴量の比較をする選択部まで拡張させると、特徴量抽出部１１１Ｃは、Ｎ個の特徴量を複数の特徴量毎に生成することができる。これにより、画像処理装置１１０は、従来よりもメモリの使用量を低減しつつ、特徴量抽出処理のスループットを向上させることができる。

以上、異なる選択部からの出力同士を比較する選択部を含む最大特徴量選択部の構成について説明した。次に、このような構成を有する画像処理装置１１０の動作について、図１２を用いて説明する。

図１２は、第１の実施形態に係る画像処理装置１１０の他の動作を例示するフローチャートである。図１２のフローチャートは、１つの入力画像についての最大特徴量選択処理の一連の流れを示している。また、図１２のフローチャートは、図１１で示したような、選択部において２つの選択特徴量の比較も含む構成を前提とし、処理画像の数をＮ個まで拡張させている。以降では、図１および図１１の各部を参照して説明する。

（ステップＳＴ１２０１）
画像処理装置１１０が入力画像を取得すると、処理画像生成部１１１０は、入力画像に基づくＮ個（Ｎ≧４）の処理画像を生成する。

（ステップＳＴ１２０２）
ステップＳＴ１２０２の処理は、図７のステップＳＴ７０２からステップＳＴ７０７までの処理と同様である。具体的には、第１の抽出部１１２０－１は、第１の処理画像について第１の抽出処理を行うことによって第１の特徴量を生成する。メモリ１１２Ｃは、第１の抽出処理の過程で発生する第１の処理過程データを保持する。第２の抽出部１１２０－２は、第２の処理画像について第２の抽出処理を行うことによって第２の特徴量を生成する。メモリ１１２Ｃは、第２の抽出処理の過程で発生する第２の処理過程データを保持する。第１の選択部１１３０－１は、第１の特徴量と第２の特徴量とを比較することによって大きい方を第１の選択特徴量として選択する。最適化部１１４Ｃは、第１の特徴量と第２の特徴量との比較において選択されなかった特徴量に対応する処理過程データをメモリ１１２Ｃから解放させる。

（ステップＳＴ１２０３）
画像処理装置１１０は、変数ｉおよび変数ｊを定義し、それぞれ３および２を代入する。

（ステップＳＴ１２０４）
第ｉの抽出部６２０－ｉは、第ｉの処理画像について第ｉの抽出処理を行うことによって第ｉの特徴量を生成する。

（ステップＳＴ１２０５）
メモリ１１２Ｃは、第ｉの抽出処理の過程で発生する第ｉの処理過程データを保持する。この時、メモリ１１２Ｃは、２つの処理過程データを保持している。

（ステップＳＴ１２０６）
第（ｉ＋１）の抽出部６２０－（ｉ＋１）は、第（ｉ＋１）の処理画像について第（ｉ＋１）の抽出処理を行うことによって第（ｉ＋１）の特徴量を生成する。

（ステップＳＴ１２０７）
メモリ１１２Ｃは、第（ｉ＋１）の抽出処理の過程で発生する第（ｉ＋１）の処理過程データを保持する。この時、メモリ１１２Ｃは、３つの処理過程データを保持している。

（ステップＳＴ１２０８）
第（ｉ－１）の選択部１１３０－（ｉ－１）は、第ｉの特徴量と第（ｉ＋１）の特徴量とを比較することによって大きい方を第ｊの選択特徴量として選択する。

（ステップＳＴ１２０９）
最適化部１１４Ｃは、第ｉの特徴量と第（ｉ＋１）の特徴量との比較において選択されなかった特徴量に対応する処理過程データをメモリ１１２Ｃから解放させる。これにより、メモリ１１２Ｃは、２つの処理過程データを保持する。

（ステップＳＴ１２１０）
第ｉの選択部１１３０－ｉは、第（ｊ－１）の選択特徴量と第ｊの選択特徴量とを比較することによって大きい方を第（ｊ＋１）の選択特徴量として選択する。

（ステップＳＴ１２１１）
最適化部１１４Ｃは、第（ｊ－１）の選択特徴量と第ｊの選択特徴量との比較において選択されなかった特徴量に対応する処理過程データをメモリ１１２Ｃから解放させる。これにより、メモリ１１２Ｃは、１つの処理過程データだけを保持する。

（ステップＳＴ１２１２）
画像処理装置１１０は、変数ｉがＮ－１であるか否かを判定する。変数ｉがＮ－１ではない場合、処理はステップＳＴ１２１３へ進む。他方、変数ｉがＮ－１である場合、画像処理装置１１０は、直前の選択処理において選択された選択特徴量を最大特徴量として誤差算出部１２０へと出力し、最大特徴量に関する処理過程データを学習部１３０へと出力し、処理は終了する。

（ステップＳＴ１２１３）
画像処理装置１１０は、変数ｉおよび変数ｊにそれぞれ２を加算する。ステップＳＴ１２１３の後、処理はステップＳＴ１２０４へ戻る。

なお、ステップＳＴ１２０４およびステップＳＴ１２０６の処理は、それぞれ同じタイミングで行われてもよい。

（特徴量抽出部の他の実施例）
上記では、入力画像を基準とした複数の処理画像を用いて、複数の処理画像のそれぞれについて特徴量抽出処理を行う構成であった。換言すると、上記の構成は、複数の処理画像それぞれについて個別ニューラルネットワークを用いていた。以下では、入力画像に対して１つのニューラルネットワークを用いた処理を行いつつも、従来よりもメモリ容量を低減可能な構成について、図１３から図１５までを用いて説明する。

図１３は、図６の画像処理装置１１０における特徴量抽出部１１１Ａおよび最大特徴量選択部１１３Ａの他の第３の構成例を示すブロック図である。第３の構成例は、図６で示したＮ個の特徴量を用いた処理をベースとして、Ｎ個の処理画像についての取り扱いを変更させたものである。よって、図１３では、特徴量抽出部１１１Ａを特徴量抽出部１１１Ｄとし、最大特徴量選択部１１３Ａを最大特徴量選択部１１３Ｄとして説明する。尚、図１３では、画像処理装置１１０におけるメモリ１１２および最適化部１１４の図示を省略している。

特徴量抽出部１１１Ｄは、畳み込み処理部１３１０を備える。最大特徴量選択部１１３Ｄは、第１の選択部１３２０－１から第Ｌの選択部１３２０－Ｌまでを備える。ここで、ＬはＮ－１である。

畳み込み処理部１３１０は、特徴量抽出処理としての畳み込み処理を行うことによって入力画像から中間画像を生成し、中間画像を縦横１画素以上のＮ個のブロックに分解し、Ｎ個のブロックのそれぞれについてＮ個の特徴量を生成する。この時、畳み込み処理部１３１０は、畳み込み処理を入力画像全体に対して一度には行わずに、特定の領域単位で行う。特定の領域とは、中間画像におけるブロックに影響を与える入力画像における領域を示す。以下では、入力画像および中間画像の関係について図１４を用いて説明する。

図１４は、入力画像１４１０に対する畳み込み処理における複数の変換画像１４２０、中間画像１４３０、および受容野１４４０を例示する説明図である。通常、畳み込み処理によって、入力画像１４１０から変換画像１４２０を生成し、畳み込み処理を繰り返すことによって最後に生成される変換画像である中間画像１４３０が生成される。この時、中間画像１４３０におけるブロック１４３１は、変換画像１４２０における領域および入力画像１４１０における領域と対応関係（受容野１４４０）がある。中間画像の例として図１５を用いて説明する。

図１５は、畳み込み処理の処理単位毎に分割した中間画像１５００である。図１５では、縦横を４×６のブロックに分割した中間画像１５００の例が示されている。分割された各ブロックは、上述した特定の領域に相当する。即ち、畳み込み処理部１３１０は、通常の畳み込み処理によって生成される中間画像１５００を、特定のブロック毎に生成する。これにより、畳み込み処理部１３１０は、複数の処理画像をそれぞれ個別ニューラルネットワークで行っていた処理と同等の処理を、１つのニューラルネットワークで行うことができる。

具体的には、畳み込み処理部１３１０は、中間画像１５００におけるブロック１５１０の受容野に基づいて入力画像の領域を特定し、これを第１の処理画像とみなして特徴量抽出処理を行う。ブロック１５１０に後続するブロック１５２０は第２の処理画像に対応し、更に後続するブロック１５３０は第３の処理画像に対応する。そして、畳み込み処理部１３１０は、最後のブロック１５４０に対応する第２４の処理画像の特徴量抽出処理を行った後、入力画像に対する処理を終了する。

なお、上記で説明した図１３の特徴量抽出部１１１Ｄは、特徴量の抽出方法が他の特徴量抽出部と異なるだけであり、以降の最大特徴量選択部１１３Ｄによる処理は、例えば図６の最大特徴量選択部１１３Ａと同様の処理を行えばよい。

また、入力画像に対する中間画像および受容野の関係は、任意に設定可能である。例えば、中間画像の隣接するブロックのそれぞれについて、入力画像の領域を重複するような受容野を設定することにより、図５で説明したような処理画像とみなして特徴量抽出処理を行うことができる。

（入力画像の他の実施例）
上記では、１チャンネルの入力画像（例えば、白黒画像）を想定して説明した。しかし、入力画像はＲＧＢのカラー画像でもよい。入力画像をカラー画像とした場合、画像処理装置１１０は、一つの入力画像を、Ｒｅｄ成分、Ｇｒｅｅｎ成分、およびＢｌｕｅ成分の縦横の画素数が同じ３枚の画像、いわゆる３チャンネルの画像として扱う。この場合、画像処理装置１１０は、３×３画素×３チャンネルなどの３次元のカーネルを用いる。また、画像処理装置１１０は、特徴量抽出処理において、２チャンネル以上の変換処理を行ってもよい。ニューラルネットワークを用いた画像認識処理においては、一般的に変換画像のチャンネル数を多くするほど認識精度が高くなることが知られている。よって、本実施形態においても、必要に応じてチャンネル数を設定すればよい。

（特徴量の他の実施例）
上記では、特徴量は、スカラー値として生成されることを想定して説明した。しかし、特徴量は複数の要素を有するベクトルでもよい。例えば、ひびと汚れなど種類が異なる物体を区別して、それらを同時に認識する場合、画像処理装置１１０は、認識対象の物体の種類の数と同じ数の次元のベクトルを特徴量として生成する。

具体的には、画像処理装置１１０は、個別ニューラルネットワークにおける最後の処理で全結合を行う場合には、全結合の出力のチャンネル数を認識する種類の数に合わせ、それらを並べて特徴量とする。または、画像処理装置１１０は、個別ニューラルネットワークにおける最後の処理で平均値プーリングや最大値プーリングを行う場合には、中間画像のチャンネル数を認識する種類の数に合わせておき、チャンネルごとにプーリングした値を並べて特徴量のベクトルとする。複数のチャンネルを有する中間画像とそれぞれの特徴量とについて、図１６を用いて説明する。

図１６は、複数のチャンネルを有する中間画像とチャンネル毎の特徴量との関係を例示する説明図である。図１６では、４つのチャンネル１６１０から１６４０までを有する中間画像が示されている。画像処理装置１１０は、この中間画像について、チャンネル１６１０に対応する個別特徴量１６１１、チャンネル１６２０に対応する個別特徴量１６２１、チャンネル１６３０に対応する個別特徴量１６３１、およびチャンネル１６４０に対応する個別特徴量１６４１を並べたベクトルとして特徴量を生成する。

次に、特徴量がベクトルの場合の選択部、最適化部、および誤差算出部における処理について説明する。以降の説明では、特徴量が２つの要素を有するベクトルの場合について説明する。例えば、選択部は、２つの特徴量を比較する際、それぞれの特徴量のベクトルの要素毎に比較を行い、要素毎の大きい方を選択したベクトルを選択特徴量として出力する。この時、最適化部は、ベクトルの各要素がいずれも選択されなかった特徴量に関する処理過程データをメモリから解放させる。また、誤差算出部は、最大特徴量の各要素と、ベクトルの要素毎にそれぞれ対応する正解特徴量とに基づいてベクトルで表される誤差値を算出する。

以上のように、特徴量をベクトルにすることで、種類が異なる物体を区別して、同時に認識することが可能になる。また、この場合においても、画像処理装置１１０は、従来のように全ての処理過程データをメモリに保持する必要はなく、メモリの容量を少なくすることができる。

なお、個別ニューラルネットワークにおいて、各チャンネルを独立に、互いのデータ値が他に影響しない構成にした場合は、選択部における要素ごとの比較において、２つの特徴量のうちの選択されなかった要素に関する処理過程データをメモリから解放させる。これにより、メモリ容量をさらに削減することができる。

以上説明したように、第１の実施形態に係る画像処理装置は、入力画像に基づくＮ個（Ｎ≧３）の処理画像について、ニューラルネットワークを用いた特徴量抽出処理を行うことによってＮ個の特徴量を生成し、特徴量抽出処理の過程で発生する処理過程データをメモリに保持し、Ｎ個の特徴量のうちの２個以上Ｎ－１個以下であるＭ個の組み合わせで２回以上の比較を行うことによって最大特徴量を選択し、２回以上の比較毎に、選択されなかったＭ－１個以下の特徴量に対応するＭ－１個以下の処理過程データをメモリから解放させる。

従って、第１の実施形態に係る画像処理装置は、入力画像における最大特徴量を抽出するまでの過程において、不要な処理過程データをメモリから随時解放することができるため、ニューラルネットワークを用いた画像処理に必要なメモリ容量を低減することができる。

また、第１の実施形態に係る画像処理装置を含む学習装置は、最大特徴量と入力画像に対応する正解特徴量とに基づいて誤差値を算出し、メモリが最終的に保持している最大特徴量に関する処理過程データと誤差値とに基づいてニューラルネットワークを学習する。

従って、上記学習装置は、ニューラルネットワークの学習時において必要なメモリ容量を低減することができる。

（第２の実施形態）
第１の実施形態では、画像処理装置を含む学習装置について説明した。他方、第２の実施形態では、画像処理装置を含む推論装置について説明する。第２の実施形態に係る画像処理装置の構成は、第１の実施形態に係る画像処理装置の構成と略同様である。一方で、第２の実施形態に係る画像処理装置は、メモリに保持される処理過程データの種類が第１の実施形態に係る画像処理装置と異なる。

図１７は、第２の実施形態に係る画像処理装置１７１０を含む推論装置１７００の構成を例示するブロック図である。推論装置１７００は、画像処理装置１７１０（画像処理部）と、出力部１７２０とを備える。画像処理装置１７１０は、特徴量抽出部１７１１と、メモリ１７１２と、最大特徴量選択部１７１３と、最適化部１７１４とを備える。

なお、推論装置１７００は、ニューラルネットワークによる推論に用いる入力画像を取得する取得部を備えてもよい。また、推論装置１７００は、各部を制御するための制御部を備えてもよい。

特徴量抽出部１７１１、メモリ１７１２、最大特徴量選択部１７１３、および最適化部１７１４は、例えば図１の特徴量抽出部１１１、メモリ１１２、最大特徴量選択部１１３、および最適化部１１４と略同様の構成であるため重複する説明を省略する。

メモリ１７１２は、最大特徴量に関する処理過程データを出力部１７２０へと出力する点において、図１のメモリ１１２と異なる。最大特徴量選択部１７１３は、最大特徴量を出力部１７２０へと出力する点において、図１の最大特徴量選択部１１３と異なる。

出力部１７２０は、最大特徴量選択部１７１３から最大特徴量を入力し、メモリ１７１２から最大特徴量に関する処理過程データを入力する。出力部１７２０は、最大特徴量に基づいて推論結果を生成し、他の装置へと出力する。推論結果は、例えば、入力画像において認識対象の物体が存在しているか否かを表す情報である。

具体的には、出力部１７２０は、最大特徴量としきい値とを比較することによって推論結果を生成する。例えば、出力部１７２０は、最大特徴量がしきい値以下の場合、入力画像において認識対象の物体が存在していないことを表す推論結果を出力し、最大特徴量がしきい値よりも大きい場合、入力画像において認識対象の物体が存在していることを表す推論結果を出力する。尚、最大特徴量が「０」から「１」までの値で表されている場合、しきい値は例えば「０．５」である。

次に、画像処理装置１７１０が扱う処理過程データの種類について説明する。第２の実施形態における処理過程データは、例えば、中間画像の一部である。この処理過程データは、後述する推論結果を提示する際に利用されるため、推論結果の提示に必要なデータに言い換えられてもよい。尚、第２の実施形態における処理過程データは、更に処理画像を含んでもよい。

中間画像を保持しておく意義として、最大特徴量に対応する中間画像は、入力画像における物体位置に対応し、その画素値が大きくなることが知られている。このことは、例えば、非特許文献「微小オブジェクト検出のためのニューラルネットワーク」（ビジョン技術の実利用ワークショップ, IS1-03, pp.32-37, Dec. 2020.）に示されている。よって、メモリに中間画像を保持しておくことにより、推論結果を提示する際に、中間画像において画素値が大きくなった部分を示した入力画像を併せて表示させることができる。この表示により、ユーザは、認識結果を目視で確認できるため、ニューラルネットワークの説明性を向上させることができる。

次に、処理過程データとしての中間画像と、メモリに記憶される中間画像のうちの部分画像との関係について図１８から図２０までを用いて説明する。

図１８は、畳み込み処理済みの部分画像とメモリに保持される部分画像データとの関係を例示する説明図である。図１８では、中間画像１８００のうち、最初の２つの部分画像１８１０および１８２０に対して特徴量抽出処理を行った後の状態が示されている。この例では、部分画像１８２０は、認識対象の物体を含み、物体の位置する画素値が大きくなっている。この時、メモリ１７１２には、部分画像１８１０に対応する部分画像データ１８１１と、部分画像１８２０に対応する部分画像データ１８２１とが保持されている。その後、最大特徴量選択部１７１３は、選択処理によって部分画像１８２０に対応する特徴量を選択したものとする。

図１９は、メモリから解放される部分画像データを例示する説明図である。図１９では、選択処理によって選択された部分画像１８２０のみが示されている。この時、メモリ１７１２には、部分画像データ１８２１のみが保持され、選択処理によって選択されなかった部分画像１８１０に対応する部分画像データ１８１１を解放したことによる空き領域１９００ができている。その後、特徴量抽出部１７１１は、新たな部分画像に対して特徴量抽出処理を行うものとする。

図２０は、メモリに保持される新たな部分画像データを例示する説明図である。図２０では、中間画像１８００のうち、部分画像１８２０に後続する部分画像１８３０に対して特徴量抽出処理を行った後の状態が示されている。この時、メモリ１７１２には、部分画像データ１８１１と、部分画像１８３０に対応する部分画像データ１８３１とが保持されている。

以降、画像処理装置１７１０は、中間画像１８００のうちの他の部分画像についても、メモリ１７１２への部分画像データの保持と解放とを繰り返しながら処理を進める。そして、画像処理装置１７１０は、最終的にメモリ１７１２に保持されている部分画像データを処理過程データとして出力部１７２０へと出力する。

なお、出力部１７２０は、部分画像データを含む処理過程データと入力画像とに基づいて合成画像を生成してもよい。合成画像は、例えば、ブレンド合成により入力画像に写っている認識対象の物体の画素を強調させた画像である。換言すると、合成画像は、入力画像に推論結果を可視化して反映させたものである。この時、出力部１７２０は、メモリ１７１２に保持されていない部分画像データを補間することによって補間中間画像を生成してもよい。補間中間画像について図２１を用いて説明する。

図２１は、部分画像１８２０から生成された補間中間画像２１００である。出力部１７２０は、部分画像１８２０以外の領域２１１０に対して、例えばゼロパディングを行うことによって補間中間画像２１００を生成する。これにより、入力画像に対応する中間画像を復元することができるため、出力部１７２０は、合成することができる。尚、部分画像および補間中間画像は、推論結果の内容を表すものとみなせることから、推論結果を可視化した推論画像と呼ばれてもよい。

（最大特徴量選択部の他の構成例）
第１の実施形態で述べた学習装置と異なり、推論装置におけるメモリは、所定の条件を満たすことにより、選択されなかった特徴量に関する処理過程データを保持してもよい。所定の条件とは、特徴量がしきい値以上の場合である。具体的には、最大特徴量選択部１７１３の各々の選択部は、選択されなかった特徴量に対してしきい値との比較処理を行う。そして、最大特徴量選択部１７１３は、選択されなかった特徴量がしきい値以上の場合に、その特徴量に関する非選択情報を生成しない。これにより、メモリ１７１２に複数の処理過程データが保持されることから、推論装置１７００は、入力画像に認識対象の物体が複数含まれる場合に対応することができる。この場合、推論装置１７００は、最大特徴量としきい値以上の特徴量とに基づいて推論結果を出力してもよい。

以上説明したように、第２の実施形態に係る画像処理装置は、第１の実施形態に係る画像処理装置と同様に、入力画像に基づくＮ個（Ｎ≧３）の処理画像について、ニューラルネットワークを用いた特徴量抽出処理を行うことによってＮ個の特徴量を生成し、特徴量抽出処理の過程で発生する処理過程データをメモリに保持し、Ｎ個の特徴量のうちの２個以上Ｎ－１個以下であるＭ個の組み合わせで２回以上の比較を行うことによって最大特徴量を選択し、２回以上の比較毎に、選択されなかったＭ－１個以下の特徴量に対応するＭ－１個以下の処理過程データをメモリから解放させる。

従って、第２の実施形態に係る画像処理装置は、第１の実施形態に係る画像処理装置と同様の効果が見込める。

また、第２の実施形態に係る画像処理装置を含む推論装置は、最大特徴量に基づいて入力画像において認識対象の物体が存在しているか否かを表す推論結果を出力する。更に、上記推論装置は、画像処理装置における２回以上の比較毎に、Ｍ個の特徴量それぞれとしきい値とを更に比較し、２回以上の比較毎に、選択されなかったＭ－１個以下の特徴量のうち、しきい値以上の特徴量に対応する処理過程データをメモリから解放させない。更に、上記推論装置は、最大特徴量としきい値以上の特徴量とに基づいて推論結果を出力する。更に、上記推論装置は、処理過程データが推論結果を可視化した推論画像とした場合、更に、入力画像と推論画像とに基づいて入力画像に写っている認識対象の物体の画素を強調させた画像を出力する。

従って、上記推論装置は、ニューラルネットワークを用いた推論時において必要なメモリ容量を低減することができる。

（ハードウェア構成）
図２２は、一実施形態に係るコンピュータ２２００のハードウェア構成を例示するブロック図である。コンピュータ２２００は、ハードウェアとして、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２２１０、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２２２０、プログラムメモリ２２３０、補助記憶装置２２４０、入出力インタフェース２２５０を備える。ＣＰＵ２２１０は、バス２２６０を介して、ＲＡＭ２２２０、プログラムメモリ２２３０、補助記憶装置２２４０、および入出力インタフェース２２５０と通信する。

ＣＰＵ２２１０は、汎用プロセッサの一例である。ＲＡＭ２２２０は、ワーキングメモリとしてＣＰＵ２２１０に使用される。ＲＡＭ２２２０は、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性メモリを含む。プログラムメモリ２２３０は、最大特徴量選択処理に関するプログラム（最大特徴量選択プログラム）などを含む種々のプログラムを記憶する。プログラムメモリ２２３０として、例えば、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、補助記憶装置２２４０の一部、またはその組み合わせが使用される。補助記憶装置２２４０は、データを非一時的に記憶する。補助記憶装置２２４０は、ＨＤＤまたはＳＳＤなどの不揮発性メモリを含む。

入出力インタフェース２２５０は、他のデバイスと接続するためのインタフェースである。入出力インタフェース２２５０は、例えば、他の装置との接続に使用される。

プログラムメモリ２２３０に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム（コンピュータ実行可能命令）は、ＣＰＵ２２１０により実行されると、ＣＰＵ２２１０に所定の処理を実行させる。例えば、最大特徴量選択プログラムなどは、ＣＰＵ２２１０により実行されると、ＣＰＵ２２１０に図１、３、６、８、１１、１３、および１７の各部に関して説明された一連の処理を実行させる。

プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ２２００に提供されてよい。この場合、例えば、コンピュータ２２００は、記憶媒体からデータを読み出すドライブ（図示せず）をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、ＤＶＤ－Ｒなど）、光磁気ディスク（ＭＯなど）、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ２２００が入出力インタフェース２２５０を使用してサーバからプログラムをダウンロードするようにしてもよい。

実施形態において説明される処理は、ＣＰＵ２２１０などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの専用ハードウェアプロセッサにより行われてもよい。処理回路（処理部）という語は、少なくとも一つの汎用ハードウェアプロセッサ、少なくとも一つの専用ハードウェアプロセッサ、または少なくとも一つの汎用ハードウェアプロセッサと少なくとも一つの専用ハードウェアプロセッサとの組み合わせを含む。図２２に示す例では、ＣＰＵ２２１０、ＲＡＭ２２２０、およびプログラムメモリ２２３０が処理回路に相当する。

よって、以上の各実施形態によれば、ニューラルネットワークを用いた画像処理に必要なメモリ容量を低減することができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１００…学習装置、１１０…画像処理装置、１１１…特徴量抽出部、１１２…メモリ、１１３…最大特徴量選択部、１１４…最適化部、１２０…誤差算出部、１３０…学習部、２００，４００，５００，９００，１０１０，１４１０…入力画像、２１０，２２０，２３０，４１０，４２０，４３０，４４０，５１０，５２０，５３０，５４０，９１０，９２０…処理画像、１０１１，１０２１…画素範囲、１０２０，１４２０…変換画像、１０３０，１４３０，１５００，１８００…中間画像、１０３１…画素、１４３１，１５１０，１５２０，１５３０，１５４０…ブロック、１４４０…受容野、１６１０，１６２０，１６３０，１６４０…チャンネル、１６１１，１６２１，１６３１，１６４１…個別特徴量、１７００…推論装置、１７１０…画像処理装置、１７１１…特徴量抽出部、１７１２…メモリ、１７１３…最大特徴量選択部、１７１４…最適化部、１７２０…出力部、１８１０，１８２０，１８３０…部分画像、１８１１，１８２１，１８３１…部分画像データ、１９００…領域、２１００…補間中間画像、２１１０…領域、２２００…コンピュータ、２２３０…プログラムメモリ、２２４０…補助記憶装置、２２５０…入出力インタフェース、２２６０…バス。

Claims

入力画像に基づくＮ個（Ｎ≧３）の処理画像について、ニューラルネットワークを用いた特徴量抽出処理を行うことによってＮ個の特徴量を生成する特徴量抽出部と、
前記特徴量抽出処理の過程で発生する処理過程データを保持するメモリと、
前記Ｎ個の特徴量のうちの２個以上Ｎ－１個以下であるＭ個の組み合わせで２回以上の比較を行うことによって最大特徴量を選択する最大特徴量選択部と、
前記２回以上の比較毎に、選択されなかったＭ－１個以下の特徴量に対応するＭ－１個以下の処理過程データを前記メモリから解放させる最適化部と
を具備する、画像処理装置。
前記特徴量抽出部は、前記入力画像の一部を切り出すことによって前記Ｎ個の処理画像を生成する、
請求項１に記載の画像処理装置。
前記特徴量抽出部は、前記Ｎ個の特徴量を生成する際に、同じパラメータの前記ニューラルネットワークを用いて前記特徴量抽出処理を行う、
請求項１または請求項２に記載の画像処理装置。
前記特徴量抽出部は、前記入力画像を縮小させることによって縮小率の異なる前記Ｎ個の処理画像を生成する、
請求項１に記載の画像処理装置。
前記特徴量抽出部は、前記Ｎ個の特徴量を生成する際に、それぞれ異なるパラメータの前記ニューラルネットワークを用いて前記特徴量抽出処理を行う、
請求項４に記載の画像処理装置。
前記Ｎ個の処理画像は、前記入力画像に対して畳み込み処理を行って生成されうる中間画像を縦横１画素以上のＮ個のブロックに分解した前記Ｎ個のブロックにそれぞれ対応する前記入力画像におけるＮ個の領域に相当し、
前記特徴量抽出処理は、前記畳み込み処理であり、
前記特徴量抽出部は、前記Ｎ個の領域について、前記畳み込み処理を行うことによって前記Ｎ個のブロックのそれぞれに対応する前記Ｎ個の特徴量を生成する、
請求項１に記載の画像処理装置。
前記特徴量抽出部は、前記Ｎ個のブロックのそれぞれについて、加算、平均、または最大値を選択することによって前記Ｎ個の特徴量を生成する、
請求項６に記載の画像処理装置。
前記Ｎ個の特徴量のそれぞれは、複数の要素を持つベクトルである、
請求項１から請求項５までのいずれか一項に記載の画像処理装置。
前記最大特徴量選択部は、前記２回以上の比較のそれぞれにおいて、前記複数の要素毎に比較を行うことによって大きい要素を選択し、
前記最大特徴量は、前記Ｎ個の特徴量のうちの最も大きい要素を組み合わせたベクトルに相当する、
請求項８に記載の画像処理装置。
前記最適化部は、更に、前記最大特徴量を選択するための比較毎に、選択されなかった要素に対応する処理過程データを前記メモリから解放させる、
請求項９に記載の画像処理装置。
前記特徴量抽出部は、前記Ｎ個の特徴量をそれぞれシーケンシャルに、または複数の特徴量毎に生成する、
請求項１から請求項１０までのいずれか一項に記載の画像処理装置。
前記メモリは、Ｍ個の特徴量に対応するＭ個の処理過程データを上限として保持する、
請求項１から請求項１１までのいずれか一項に記載の画像処理装置。
前記最大特徴量選択部は、前記２回以上の比較において、前記Ｍ個の組み合わせの個数が異なる比較を含む、
請求項１から請求項１２までのいずれか一項に記載の画像処理装置。
前記Ｎ個の処理画像は、第１の処理画像と、第２の処理画像と、第３の処理画像とを含み、
前記特徴量抽出処理は、第１の抽出処理と、第２の抽出処理と、第３の抽出処理とを含み、
前記Ｎ個の特徴量は、第１の特徴量と、第２の特徴量と、第３の特徴量とを含み、
前記特徴量抽出部は、第１の抽出部と、第２の抽出部と、第３の抽出部とを含み、
前記最大特徴量選択部は、第１の選択部と、第２の選択部とを含み、
前記第１の抽出部は、前記第１の処理画像について前記第１の抽出処理を行うことによって前記第１の特徴量を生成し、
前記メモリは、前記第１の抽出処理の過程で発生する第１の処理過程データを保持し、
前記第２の抽出部は、前記第２の処理画像について前記第２の抽出処理を行うことによって前記第２の特徴量を生成し、
前記メモリは、前記第２の抽出処理の過程で発生する第２の処理過程データを保持し、
前記第１の選択部は、前記第１の特徴量と前記第２の特徴量とを比較することによって大きい方を第１の選択特徴量として選択し、
前記最適化部は、前記第１の選択部による選択において、選択されなかった特徴量に対応する処理過程データを前記メモリから解放させ、
前記第３の抽出部は、前記第３の処理画像について前記第３の抽出処理を行うことによって前記第３の特徴量を生成し、
前記メモリは、前記第３の抽出処理の過程で発生する第３の処理過程データを保持し、
前記第２の選択部は、前記第１の選択特徴量と前記第３の特徴量とを比較することによって大きい方を第２の選択特徴量として選択し、
前記最適化部は、前記第２の選択部による選択において、選択されなかった特徴量に対応する処理過程データを前記メモリから解放させる、
請求項１に記載の画像処理装置。
前記Ｎは４以上であり、
前記Ｎ個の処理画像は、第１の処理画像と、第２の処理画像と、第３の処理画像と、第４の処理画像とを含み、
前記特徴量抽出処理は、第１の抽出処理と、第２の抽出処理と、第３の抽出処理と、第４の抽出処理とを含み、
前記Ｎ個の特徴量は、第１の特徴量と、第２の特徴量と、第３の特徴量と、第４の特徴量とを含み、
前記特徴量抽出部は、第１の抽出部と、第２の抽出部と、第３の抽出部と、第４の抽出部とを含み、
前記最大特徴量選択部は、第１の選択部と、第２の選択部と、第３の選択部とを含み、
前記第１の抽出部は、前記第１の処理画像について前記第１の抽出処理を行うことによって前記第１の特徴量を生成し、
前記メモリは、前記第１の抽出処理の過程で発生する第１の処理過程データを保持し、
前記第２の抽出部は、前記第２の処理画像について前記第２の抽出処理を行うことによって前記第２の特徴量を生成し、
前記メモリは、前記第２の抽出処理の過程で発生する第２の処理過程データを保持し、
前記第１の選択部は、前記第１の特徴量と前記第２の特徴量とを比較することによって大きい方を第１の選択特徴量として選択し、
前記最適化部は、前記第１の選択部による選択において、選択されなかった特徴量に対応する処理過程データを前記メモリから解放させ、
前記第３の抽出部は、前記第３の処理画像について前記第３の抽出処理を行うことによって前記第３の特徴量を生成し、
前記メモリは、前記第３の抽出処理の過程で発生する第３の処理過程データを保持し、
前記第４の抽出部は、前記第４の処理画像について前記第４の抽出処理を行うことによって前記第４の特徴量を生成し、
前記メモリは、前記第４の抽出処理の過程で発生する第４の処理過程データを保持し、
前記第２の選択部は、前記第３の特徴量と前記第４の特徴量とを比較することによって大きい方を第２の選択特徴量として選択し、
前記最適化部は、前記第２の選択部による選択において、選択されなかった特徴量に対応する処理過程データを前記メモリから解放させ、
前記第３の選択部は、前記第１の選択特徴量と前記第２の選択特徴量とを比較することによって大きい方を第３の選択特徴量として選択し、
前記最適化部は、前記第３の選択部による選択において、選択されなかった特徴量に対応する処理過程データを前記メモリから解放させる、
請求項１に記載の画像処理装置。
請求項１から請求項１５までのいずれか一項に記載の画像処理装置と、
前記最大特徴量と前記入力画像に対応する正解特徴量とに基づいて誤差値を算出する誤差算出部と、
前記メモリが最終的に保持している前記最大特徴量に関する処理過程データと前記誤差値とに基づいて前記ニューラルネットワークを学習する学習部と
を具備する、学習装置。
請求項１から請求項１５までのいずれか一項に記載の画像処理装置と、
前記最大特徴量に基づいて前記入力画像において認識対象の物体が存在しているか否かを表す推論結果を出力する出力部と
を具備する、推論装置。
前記最大特徴量選択部は、前記２回以上の比較毎に、前記Ｍ個の特徴量それぞれとしきい値とを更に比較し、
前記最適化部は、前記２回以上の比較毎に、前記選択されなかったＭ－１個以下の特徴量うち、前記しきい値以上の特徴量に対応する処理過程データを前記メモリから解放させない、
請求項１７に記載の推論装置。
前記出力部は、前記最大特徴量と前記しきい値以上の特徴量とに基づいて前記推論結果を出力する、
請求項１８に記載の推論装置。
前記処理過程データは、前記推論結果を可視化した推論画像であり、
前記出力部は、更に、前記入力画像と前記推論画像とに基づいて前記入力画像に写っている前記認識対象の物体の画素を強調させた画像を出力する、
請求項１７から請求項１９までのいずれか一項に記載の推論装置。
入力画像に基づくＮ個（Ｎ≧３）の処理画像について、ニューラルネットワークを用いた特徴量抽出処理を行うことによってＮ個の特徴量を生成することと、
前記特徴量抽出処理の過程で発生する処理過程データをメモリに保持することと、
前記Ｎ個の特徴量のうちの２個以上Ｎ－１個以下であるＭ個の組み合わせで２回以上の比較を行うことによって最大特徴量を選択することと、
前記２回以上の比較毎に、選択されなかったＭ－１個以下の特徴量に対応するＭ－１個以下の処理過程データを前記メモリから解放させることと
を具備する、画像処理方法。