JP7542802B2 - Image recognition device using neural network and program used in the image recognition device - Google Patents
Image recognition device using neural network and program used in the image recognition device Download PDFInfo
- Publication number
- JP7542802B2 JP7542802B2 JP2020104577A JP2020104577A JP7542802B2 JP 7542802 B2 JP7542802 B2 JP 7542802B2 JP 2020104577 A JP2020104577 A JP 2020104577A JP 2020104577 A JP2020104577 A JP 2020104577A JP 7542802 B2 JP7542802 B2 JP 7542802B2
- Authority
- JP
- Japan
- Prior art keywords
- map
- attention
- unit
- image
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
特許法第30条第2項適用 http://mprg.jp/research/abn_j 令和1年6月20日、令和1年7月掲載 http://cvim.ipsj.or.jp/MIRU2019/ (「第22回 画像の認識・理解シンポジウム(MIRU2019)」のウェブサイト) 令和1年7月掲載 第22回 画像の認識・理解シンポジウム(MIRU2019) オーラルセッションOS2A-5、グランキューブ大阪(大阪府立国際会議場) 令和1年7月31日Patent Act Article 30,
本発明は、ニューラルネットワークを用いた画像認識装置およびトレーニング装置に関するものである。 The present invention relates to an image recognition device and a training device that use a neural network.
従来、CNN(Convolutional Neural Network)等のニューラルネットワークを用いた画像認識技術において、ニューラルネットワークによる推論時における注視領域を表現したアテンションマップを生成する技術が知られている(例えば、非特許文献1、2参照)。
Conventionally, in image recognition technology using neural networks such as CNN (Convolutional Neural Network), a technology is known that generates an attention map that represents the gaze area during inference by the neural network (see, for example, Non-Patent
しかし、発明者の検討によれば、ある画像についてニューラルネットワークが認識結果とアテンションマップを生成したとき、認識結果とアテンションマップ中の注視領域とが一致しない場合がある。例えば、認識結果が「笑顔」であるにもかかわらず注視領域が頭髪である場合、認識結果とアテンションマップ中の注視領域とが一致していない。認識結果とアテンションマップ中の注視領域とに不一致が有れば、それは画像認識自体の誤りにも繋がる問題である。そして、現状では、この不一致を修正する術はない。 However, according to the inventor's research, when a neural network generates a recognition result and an attention map for a certain image, there are cases where the recognition result does not match the gaze area in the attention map. For example, if the recognition result is a "smile" but the gaze area is hair, the recognition result does not match the gaze area in the attention map. If there is a mismatch between the recognition result and the gaze area in the attention map, it is a problem that can lead to errors in the image recognition itself. And currently, there is no way to correct this mismatch.
本開示は上記点に鑑み、アテンションマップを出力するニューラルネットワークを用いた画像認識技術において、ニューラルネットワークの認識機能または学習に人の知見を取り入れることを目的とする。 In view of the above, the present disclosure aims to incorporate human knowledge into the recognition function or learning of a neural network in an image recognition technology that uses a neural network that outputs an attention map.
本開示の1つの観点によれば、画像認識装置は、ニューラルネットワーク(10)に画像(51)を入力する入力部(120)と、入力された前記画像の特徴を含む特徴マップ(52)と入力された前記画像の注視領域を表現するアテンションマップ(53)とを、前記ニューラルネットワークが生成したとき、生成された前記アテンションマップに対して、人の修正操作に応じた修正を行うマップ修正部(140)と、修正された前記アテンションマップと前記特徴マップとが合成された合成マップ(54)および前記画像に基づいて前記ニューラルネットワーク(10)が前記画像の認識結果を生成したとき、生成された前記認識結果を出力する出力部(160)と、を備える。また、他の観点によれば、プログラムが画像認識装置を機能させる。 According to one aspect of the present disclosure, an image recognition device includes an input unit (120) for inputting an image (51) to a neural network (10), a feature map (52) including features of the input image and an attention map (53) expressing a gaze area of the input image , a map correction unit (140) for correcting the generated attention map in response to a correction operation by a person when the neural network generates the feature map (52) including features of the input image and an attention map (53) expressing a gaze area of the input image, and an output unit (160) for outputting the generated recognition result when the neural network (10) generates a recognition result of the image based on a synthesis map (54) in which the corrected attention map and the feature map are synthesized and the image. According to another aspect, a program causes the image recognition device to function.
このように、人の知見を利用してアテンションマップ53が修正されることで、認知部14が人の意図した領域を重視する。その結果、人の意図に沿った画像認識をすることができる。またこのとき、ニューラルネットワーク10のパラメータは変更されていない。つまり、ニューラルネットワーク10の再学習を必要とせず、人の意図した認識結果を得ることができる。 In this way, by using human knowledge to modify the attention map 53, the recognition unit 14 places emphasis on the area intended by the human. As a result, image recognition can be performed in line with the human's intention. Furthermore, at this time, the parameters of the neural network 10 are not changed. In other words, there is no need to re-learn the neural network 10, and the recognition results intended by the human can be obtained.
なお、各構成要素等に付された括弧付きの参照符号は、その構成要素等と後述する実施形態に記載の具体的な構成要素等との対応関係の一例を示すものである。 The reference symbols in parentheses attached to each component indicate an example of the correspondence between the component and the specific components described in the embodiments described below.
(第1実施形態)
以下、第1実施形態について説明する。本実施形態に係る画像認識装置1は、図1に示すように、操作装置2、表示装置3、メモリ4、処理部5を備えている。
First Embodiment
Hereinafter, a first embodiment will be described. An
操作装置2は、人の操作を受け付け、受け付けた操作に応じた信号を処理部5に出力する装置である。操作装置2は、例えば、マウス、キーボード、タッチパネル等であってもよい。表示装置3は、映像を人に表示する装置である。
The
メモリ4は、書き換え可能な揮発性記憶媒体であるRAM、書き換え不可能な不揮発性記憶媒体であるROM、書き換え可能な不揮発性記憶媒体であるフラッシュメモリを含む。RAM、ROM、フラッシュメモリは、非遷移的実体的記憶媒体である。フラッシュメモリには、学習済みのニューラルネットワーク10のデータがあらかじめ記録されている。
The
処理部5は、ROMまたはフラッシュメモリに記憶された不図示のプログラムを実行し、その実行の際にRAMを作業領域として用いることで、後述する種々の処理を実現する。
The
ここで、ニューラルネットワーク10について説明する。ニューラルネットワーク10は、図3に示すように、特徴抽出部11、アテンション部12、合成部13、認知部14を含んだ、ディープニューラルネットワークである。 Here, we will explain the neural network 10. As shown in FIG. 3, the neural network 10 is a deep neural network that includes a feature extraction unit 11, an attention unit 12, a synthesis unit 13, and a recognition unit 14.
ニューラルネットワーク10は、入力画像51が入力されると、アテンションマップ53を生成する。アテンションマップ53は、ニューラルネットワーク10の推論時の注視領域を表現するデータである。つまり、アテンションマップ53は、ニューラルネットワーク10の推論時において、入力画像51のどの領域が重視されているかを説明する視覚的説明用のデータである。 When an input image 51 is input, the neural network 10 generates an attention map 53. The attention map 53 is data that represents the area of attention during inference by the neural network 10. In other words, the attention map 53 is visual explanatory data that explains which area of the input image 51 is emphasized during inference by the neural network 10.
またニューラルネットワーク10は、入力画像51およびアテンションマップ53に基づいて入力画像51の分類結果を出力する。入力画像51の分類結果とは、画像の認識対象に相当する複数のクラス(例えば、ダルメシアン、ザリガニ、フィンチ、カエル等)にそれぞれ対応する複数の尤度である。ここでは、クラスの数をKとする。 The neural network 10 also outputs a classification result for the input image 51 based on the input image 51 and the attention map 53. The classification result for the input image 51 is a number of likelihoods corresponding to a number of classes (e.g., dalmatian, crayfish, finch, frog, etc.) that correspond to the recognition target of the image. Here, the number of classes is K.
特徴抽出部11は、複数の層を有するニューラルネットワークである。これら複数の層は、複数の畳み込み層を少なくとも含む。更にこれら複数の層は、更に複数の残差ブロックの構成要素となっていてもよいし、複数のプーリング層等を有していてもよい。そして特徴抽出部11は、入力された入力画像51の情報をこれら複数の層に伝播させることで、特徴マップ52を生成する。 The feature extraction unit 11 is a neural network having multiple layers. These multiple layers include at least multiple convolutional layers. Furthermore, these multiple layers may be components of multiple residual blocks, or may have multiple pooling layers, etc. Then, the feature extraction unit 11 generates a feature map 52 by propagating information of the input image 51 that has been input to these multiple layers.
特徴マップ52は、K個のクラスにそれぞれ対応するK個の解像度h×wのマップである。h、wは、任意の整数である。したがって、特徴マップ52のチャンネル数はKである。特徴マップ52の解像度は、入力画像51の解像度と同じであってもよいし、入力画像51の解像度よりも低くてもよい。 The feature map 52 is a map with K resolutions h×w, each of which corresponds to one of the K classes. h and w are any integers. Thus, the number of channels in the feature map 52 is K. The resolution of the feature map 52 may be the same as the resolution of the input image 51, or may be lower than the resolution of the input image 51.
特徴抽出部11は、ベースラインモデルのうち入力層から始まり最初の全結合層よりも前の部分によって構成されていてもよい。ベースラインモデルとしては、複数の畳み込み層を有し、ニューラルネットワーク10と同じ種類の複数のクラスの尤度を生成するものが選ばれる。例えば、ベースラインモデルとしては、非特許文献3に示すVGGNetが用いられてもよいし、非特許文献4に示すResNetが用いられてもよいし、他のCNN(Convolutional Neural Network)が用いられてもよい。
The feature extraction unit 11 may be configured by a portion of the baseline model starting from the input layer and preceding the first fully connected layer. As the baseline model, one that has multiple convolutional layers and generates the same types of multiple class likelihoods as the neural network 10 is selected. For example, as the baseline model, the VGGNet shown in Non-Patent
アテンション部12は、特徴抽出部11によって生成された特徴マップ52からアテンションマップ53を生成する。アテンション部12は、複数の層を有するニューラルネットワークである。これら複数の層は、図3に示すように、1つ以上の畳み込み層または1つ以上の残差ブロックを有する第1部分12a、第1部分の後段におけるK×1×1畳み込み層12bを有する。ここで、L、a、bを任意の自然数とすると、L×a×b畳み込み層は、L個のチャネルの各々でa×bのカーネルを用いた畳み込み層を意味する。 The attention unit 12 generates an attention map 53 from the feature map 52 generated by the feature extraction unit 11. The attention unit 12 is a neural network having multiple layers. As shown in FIG. 3, these multiple layers include a first part 12a having one or more convolutional layers or one or more residual blocks, and a K×1×1 convolutional layer 12b at the rear of the first part. Here, if L, a, and b are any natural numbers, an L×a×b convolutional layer means a convolutional layer using an a×b kernel in each of the L channels.
そしてアテンション部12は、畳み込み層12bの後段において分岐する2つのK×1×1畳み込み層12cと1×1×1畳み込み層12eを有する。そしてアテンション部12は、畳み込み層12cの後段におけるGAP(Global Average Pooling)層12dを有する。
The attention unit 12 has two K×1×1
アテンション部12に入力された特徴マップ52の情報が、第1部分12a、畳み込み層12b、畳み込み層12c、GAP層12dを伝播し、GAP層12dの出力がSoftmax関数に入力されることで、ニューラルネットワーク10と同じ種類の複数のクラスの尤度が分類結果として生成される。分類結果は、認識結果の一種である。 The information of the feature map 52 input to the attention unit 12 propagates through the first part 12a, the convolution layer 12b, the convolution layer 12c, and the GAP layer 12d, and the output of the GAP layer 12d is input to the Softmax function, generating the likelihood of multiple classes of the same type as the neural network 10 as classification results. The classification results are a type of recognition result.
また、アテンション部12に入力された特徴マップ52の情報が、第1部分12a、畳み込み層12b、畳み込み層12eに伝播されることで、アテンションマップ53が生成される。全結合層ではなく畳み込み層12bを介してアテンションマップ53が生成されることで、注視領域の情報が局所化されたままでアテンションマップ53に伝播される。また、1×1×1畳み込み層12eを介することで、すべてのクラスに対応した注視領域の重み付き総和として1チャンネルのアテンションマップ53が生成される。畳み込み層12eのカーネルの各値は、すべて1でもよいし、それ以外でもよい。 In addition, the information of the feature map 52 input to the attention unit 12 is propagated to the first part 12a, the convolutional layer 12b, and the convolutional layer 12e to generate the attention map 53. By generating the attention map 53 via the convolutional layer 12b rather than the fully connected layer, the information of the attention area is propagated to the attention map 53 while remaining localized. In addition, by passing through the 1x1x1 convolutional layer 12e, a one-channel attention map 53 is generated as a weighted sum of the attention areas corresponding to all classes. The kernel values of the convolutional layer 12e may all be 1, or may be other values.
特徴マップ52の各マップの解像度とアテンションマップ53の解像度は同じである。そうなるよう、アテンション部12は構成されている。アテンションマップ53は、注視領域に該当する画素には比較的高い画素値が与えられ、注視領域に該当しない画素には注視領域と比べて低い画素値が与えられる。アテンションマップ53の各画素値が取り得る値は、2値でもよいし、256段階の値でもよい。ある画素の画素値が高いほど、その画素の位置における注目度が高い。 The resolution of each map in the feature map 52 is the same as that of the attention map 53. The attention unit 12 is configured so that this is the case. In the attention map 53, pixels that fall within the attention area are given relatively high pixel values, and pixels that do not fall within the attention area are given lower pixel values than those within the attention area. The possible values of each pixel in the attention map 53 may be binary or may be a value in 256 levels. The higher the pixel value of a pixel, the higher the attention level at that pixel's position.
合成部13は、特徴マップ52とアテンションマップ53との合成を行う。具体的には、特徴マップ52におけるK個のチャネルの各々における解像度h×wのマップに対し、アテンションマップ53が乗算される。アテンションマップ53と解像度h×wのマップとの乗算は、同じ位置座標の画素同士で行われる。なお、合成は、上記のように乗算であってもよいし、加算であってもよいし、加算と乗算の組み合わせから成る演算であってもよい。この合成によって、合成マップ54が得られる。合成マップ54のチャネル数と解像度は、特徴マップ52と同じである。 The synthesis unit 13 synthesizes the feature map 52 and the attention map 53. Specifically, the attention map 53 is multiplied by a map of resolution h×w in each of the K channels in the feature map 52. The attention map 53 is multiplied by the map of resolution h×w between pixels at the same position coordinates. Note that the synthesis may be multiplication as described above, addition, or a calculation consisting of a combination of addition and multiplication. A synthesis map 54 is obtained by this synthesis. The number of channels and resolution of the synthesis map 54 are the same as those of the feature map 52.
認知部14は、合成マップ54に基づいて各クラスの尤度を出力する。認知部14は、複数の層を有するニューラルネットワークである。これら複数の層は、複数の畳み込み層を少なくとも含む。また、これら複数の層は、全結合層およびGAP層のうち一方または両方を含む。更にこれら複数の層は、更に複数の残差ブロックの構成要素となっていてもよいし、複数のプーリング層を有していてもよい。認知部14は、入力された合成マップ54の情報をこれら複数の層に伝播させることで、各クラスの尤度を分類結果として出力する。分類結果は、認識結果でもある。認知部14は、上述のベースラインモデルのうち、アテンション部12で利用された部分のすぐ後段から出力層までの部分によって構成されていてもよい。 The cognition unit 14 outputs the likelihood of each class based on the composite map 54. The cognition unit 14 is a neural network having multiple layers. These multiple layers include at least multiple convolution layers. In addition, these multiple layers include one or both of a fully connected layer and a GAP layer. Furthermore, these multiple layers may be components of multiple residual blocks or may have multiple pooling layers. The cognition unit 14 outputs the likelihood of each class as a classification result by propagating the information of the input composite map 54 to these multiple layers. The classification result is also a recognition result. The cognition unit 14 may be configured from the part of the above-mentioned baseline model immediately following the part used in the attention unit 12 to the output layer.
なお、ニューラルネットワーク10、特徴抽出部11、アテンション部12、合成部13、認知部14が行うと上で説明した機能は、実際には、処理部5が当該ニューラルネットワーク10の構造およびパラメータに従った処理を行うことで実現される。
The functions described above as being performed by the neural network 10, feature extraction unit 11, attention unit 12, synthesis unit 13, and recognition unit 14 are actually realized by the
特徴抽出部11、アテンション部12、合成部13は、上記のような機能が実現するよう、あらかじめ教師有り学習で誤差逆伝播法によって学習されている。学習においては、学習誤差(損失関数ともいう)Lとして、L=Latt+Lperが用いられる。ここで、Lattは、アテンション部12が出力する分類結果に関する学習誤差であり、Lperは、認知部14が出力する分類結果に関する学習誤差である。LattおよびLperは、それぞれの分類結果に対してSoftmax関数とクロスエントロピーの組み合わせを適用することで算出されてもよい。特徴抽出部11は、誤差逆伝播法においてアテンション部12と認知部14の勾配を通り抜けることで学習される。 The feature extraction unit 11, attention unit 12, and synthesis unit 13 are trained in advance by backpropagation learning with a supervised method so as to realize the above-mentioned functions. In the training, L = Latt + Lper is used as the training error (also called a loss function) L. Here, Latt is the training error regarding the classification result output by the attention unit 12, and Lper is the training error regarding the classification result output by the recognition unit 14. Latt and Lper may be calculated by applying a combination of the Softmax function and cross entropy to each classification result. The feature extraction unit 11 is trained by passing through the gradients of the attention unit 12 and the recognition unit 14 in the backpropagation method.
以下、このように構成された学習済みのニューラルネットワーク10を用いた処理部5の画像分類処理について説明する。
The following describes the image classification process performed by the
処理部5は、人による操作装置2に対する実行開始操作等の所定の条件が満たされると、メモリ4に記録された所定のプログラムに規定された図4に示す処理を開始する。この処理において処理部5は、まずステップ110で、ニューラルネットワーク10をメモリ4から読み出す。
When a predetermined condition is satisfied, such as a human performing an operation to start execution on the
続いてステップ120で、入力画像51を取得し、この入力画像51をニューラルネットワーク10に対して入力する。入力画像51は、あらかじめメモリ4に記録されている複数の画像のうちから人の操作装置2に対する操作等によって選択された画像であってもよいし、不図示の通信ネットワークを介して他の装置から受信した画像であってもよい。
Next, in step 120, an input image 51 is acquired and input to the neural network 10. The input image 51 may be an image selected from a plurality of images previously recorded in the
ニューラルネットワーク10に入力画像51が入力されると、ニューラルネットワーク10は、上述の通り、特徴抽出部11が入力画像51から特徴マップ52および分類結果を生成し、アテンション部12が特徴マップ52からアテンションマップ53を生成する。 When an input image 51 is input to the neural network 10, as described above, the feature extraction unit 11 of the neural network 10 generates a feature map 52 and a classification result from the input image 51, and the attention unit 12 generates an attention map 53 from the feature map 52.
処理部5は、ステップ120に続くステップ130で、このように生成されたアテンションマップ53を取得する。すなわちニューラルネットワーク10によってメモリ4内に生成されたアテンションマップ53をメモリ4内の他の領域にコピーまたは移動する。
In step 130, which follows step 120, the
続いてステップ140で、処理部5は、取得された(すなわち、コピー先または移動先の)アテンションマップ53を、人の操作装置2に対する修正操作に基づいて、修正する。これにより、人の知見によってアテンションマップ53が修正される。
Next, in step 140, the
具体的には、処理部5は、修正前のアテンションマップ53およびポインタを表示装置3に表示させる。ポインタは、表示装置3に表示されたアテンションマップ53の表示範囲内を操作装置2に対する人の操作に応じて移動する画像である。人は、操作装置2に対して所定の修正操作(例えば、消去操作、追加操作等)を行うことで、表示されたアテンションマップ53中のポインタと重なる位置範囲の値を修正する。
Specifically, the
なおこの際、処理部5は、図5に示すように、入力画像51をアテンションマップ53に透過的に位置を合わせて重ねて、表示装置3に表示させた状態で、上記修正操作に応じた修正をアテンションマップ53に反映させてもよい。この際、入力画像51とアテンションマップ53の解像度が異なる場合は、処理部5は、入力画像51の解像度をアテンションマップ53と一致するよう下げた上で、アテンションマップ53に透過的に重ねる。
At this time, the
図5においては、ダルメシアンがサッカーボールを咥えている入力画像51が、アテンションマップ53に透過的に重ねられている。 In Figure 5, an input image 51 of a Dalmatian holding a soccer ball is transparently overlaid on an attention map 53.
このアテンションマップ53では、注視領域がサッカーボールの領域にある。このままアテンションマップ53が合成部13に入力され、そのアテンションマップ53と特徴マップ52の合成結果である合成マップ54が認知部14の最初の層に入力された場合、認知部14が生成する分類結果としては、サッカーボールの尤度が最も高くなる。つまり、ニューラルネットワーク10は、入力画像51をサッカーボールの画像であると認識する。 In this attention map 53, the gaze area is in the soccer ball area. If attention map 53 is input as is to synthesis unit 13, and synthesis map 54, which is the result of synthesizing attention map 53 and feature map 52, is input to the first layer of recognition unit 14, the classification result generated by recognition unit 14 will have the highest likelihood of being a soccer ball. In other words, neural network 10 recognizes input image 51 as an image of a soccer ball.
しかし、画像認識装置1を使う人は、入力画像51をダルメシアンの画像として認識して欲しいと考えていた場合、このアテンションマップ53では注視領域がダルメシアンのいる領域であるべきである。
However, if a person using the
そこでこのような場合、人が、操作装置2を用いて、アテンションマップ53中の注視領域を修正する。具体的には、まず、人が、操作装置2を用いて、アテンションマップ53中の注視領域を消去する。例えば、人が、操作装置2の所定の消去ボタンを押しながら、ポインタを移動させてアテンションマップ53中の注視領域全体を走査する。これにより、処理部5は、消去ボタンを押しながらポインタで走査された領域におけるアテンションマップ53の画素値を下げて、図6に示すように、注視領域とならない画素値とする。
In such a case, therefore, the person uses the
そしてその後、人は、操作装置2を用いて、アテンションマップ53中の新たに注視領域としたい領域を設定する。例えば、人が、操作装置2の所定の追加ボタンを押しながら、ポインタを移動させてアテンションマップ53中の注視領域としたい領域全体を走査する。これにより、処理部5は、追加ボタンを押しながらポインタで走査された領域におけるアテンションマップ53の画素値を上げて、図7に示すように、注視領域となる画素値とする。図7の例では、人によって指定された新たな注視領域は、ダルメシアンの顔部分である。
Then, the person uses the
このように、入力画像51がアテンションマップ53に重ねられて表示装置3に表示されることで、人は、入力画像51のどの部分を注視領域とすべきかを判断できる場合は、その知見を効率よく利用して、アテンションマップ53中の注視領域を容易に指定できる。このようなステップ140の処理により、ステップ130で取得されたアテンションマップ53がメモリ4中で修正される。
In this way, by displaying the input image 51 on the
続いて処理部5はステップ150で、直前のステップ140で修正されたアテンションマップ53を、合成部13に入力する。すると、合成部13は、特徴マップ52とアテンションマップ53を上述の通り合成して合成マップ54を生成して認知部14の最初の層に入力する。合成マップ54が入力された認知部14は、上述の通り合成マップ54に基づいて分類結果を生成する。この分類結果においては、ダルメシアンの尤度が最も高くなる。つまり、ニューラルネットワーク10は、入力画像51をダルメシアンの画像であると認識する。
Next, in step 150, the
処理部5は、ステップ150に続くステップ160で、このようにして認知部14が生成した分類結果を取得して出力する。出力先は、不図示の通信ネットワークを介した他の装置であってもよいし、メモリ4であってもよいし、表示装置3であってもよい。
In step 160 following step 150, the
このように、人の知見を利用してアテンションマップ53が修正されることで、認知部14が人の意図した領域により高い重み付けがされる。その結果、人の意図に沿った画像認識をすることができる。つまり、人の知見に基づいて手動で修正されたアテンションマップを用いることで認識結果の調整が可能となる。 In this way, by using human knowledge to modify the attention map 53, the recognition unit 14 assigns a higher weight to areas intended by the human. As a result, image recognition can be performed in line with the human's intention. In other words, by using an attention map that has been manually modified based on human knowledge, it becomes possible to adjust the recognition results.
またこのとき、ニューラルネットワーク10のパラメータは変更されていない。つまり、ニューラルネットワーク10の再学習を必要とせず、人の意図した認識結果を得ることができる。 In addition, at this time, the parameters of the neural network 10 are not changed. In other words, there is no need to re-train the neural network 10, and the recognition results intended by the person can be obtained.
例えば、眼底画像が入力画像51としてニューラルネットワーク10に入力されたときに、医師が自分の経験に基づく知見を用いてアテンションマップ53の注視領域を修正することで、眼の疾患のグレードをクラスとして識別がより正確になる。このように、例えば医用画像診断において、本実施形態の機能は有用である。 For example, when a fundus image is input to the neural network 10 as the input image 51, a doctor can use knowledge based on his or her own experience to modify the gaze area of the attention map 53, thereby making it possible to more accurately identify the grade of eye disease as a class. In this way, the function of this embodiment is useful, for example, in medical image diagnosis.
以上説明した通り、画像認識装置1の処理部5は、図8に示すように、入力画像51が入力されたニューラルネットワーク10によって生成されたアテンションマップ53に対して、人の修正操作に応じた修正を行う(ステップ140)。そして処理部5は、修正されたアテンションマップ53および入力画像51に基づいてニューラルネットワーク10が生成した入力画像51の認識結果を出力する(ステップ160)。
As described above, the
このように、人の知見を利用してアテンションマップ53が修正されることで、認知部14が人の意図した領域を重視する。その結果、人の意図に沿った画像認識をすることができる。またこのとき、ニューラルネットワーク10のパラメータは変更されていない。つまり、ニューラルネットワーク10の再学習を必要とせず、人の意図した認識結果を得ることができる。 In this way, by using human knowledge to modify the attention map 53, the recognition unit 14 places emphasis on the area intended by the human. As a result, image recognition can be performed in line with the human's intention. Furthermore, at this time, the parameters of the neural network 10 are not changed. In other words, there is no need to re-learn the neural network 10, and the recognition results intended by the human can be obtained.
また、アテンションマップ53を生成するために画像の情報が伝播する経路と、認識結果を生成するために画像の情報が伝播する経路とが、一部(すなわち特徴抽出部11)において共有されて、他の部分(すなわちアテンション部12と認知部14)で分離されている。そして、合成部13により、その分離部分の認知部14の側に、修正後のアテンションマップ53が反映された合成マップ54が入力される。このように、修正後のアテンションマップ53に基づいた合成マップ54の入力箇所が、ニューラルネットワーク10の構造に適したものになっていることで、修正されたアテンションマップ53による認識結果の改善度合いが向上する。 In addition, the path along which image information is propagated to generate attention map 53 and the path along which image information is propagated to generate recognition results are shared in one part (i.e., feature extraction unit 11) and separated in other parts (i.e., attention unit 12 and recognition unit 14). Then, synthesis unit 13 inputs composite map 54 reflecting the corrected attention map 53 to the recognition unit 14 side of the separated part. In this way, the input point of composite map 54 based on corrected attention map 53 is suited to the structure of neural network 10, thereby improving the degree of improvement in recognition results by corrected attention map 53.
また、処理部5は、入力画像51をアテンションマップ53に透過的に重ねて表示装置3に表示させた状態で、人の修正操作に応じた修正をアテンションマップ53に反映させる。人は、入力画像51のどの部分を注視領域とすべきかを、その入力画像51を見ることで比較的容易に判断できる。したがって、入力画像51がアテンションマップ53に重ねられて表示装置3に表示されることで、人は、自分の知見を視覚的に効率よく利用して、アテンションマップ53中の注視領域を容易に指定できる。
Furthermore, the
なお、本実施形態では、処理部5が、ステップ120を実行することで入力部として機能し、ステップ140を実行することでマップ修正部として機能し、ステップ160を実行することで出力部として機能する。
In this embodiment, the
(第2実施形態)
次に第2実施形態について説明する。本実施形態では、人の修正操作に応じた修正されたアテンションマップに基づいて、ニューラルネットワーク10の重み、バイアス等の学習パラメータが補正される。すなわち、修正されたアテンションマップに基づいてニューラルネットワーク10が再学習される。
Second Embodiment
Next, a second embodiment will be described. In this embodiment, learning parameters such as weights and biases of the neural network 10 are corrected based on the attention map corrected according to a human correction operation. That is, the neural network 10 is re-learned based on the corrected attention map.
本実施形態のハードウェア構成は、第1実施形態において図1に示したものと同じである。また、メモリ4に記憶されている学習済みのニューラルネットワーク10の構成についても、第1実施形態と同じである。なお、本実施形態の画像認識装置1は、トレーニング装置に対応する。
The hardware configuration of this embodiment is the same as that shown in FIG. 1 in the first embodiment. The configuration of the trained neural network 10 stored in the
本実施形態第1実施形態と異なる点の1つは、処理部5が図4の処理を実行するのではなく、その代わりに、アテンションマップ53を修正せずに、入力画像51に対応する分類結果をニューラルネットワーク10に生成させることである。
One of the differences between this embodiment and the first embodiment is that the
すなわち、処理部5は、まず、第1実施形態と同様、ニューラルネットワーク10をメモリ4から読み出し、続いて、入力画像51を取得し、この入力画像51をニューラルネットワーク10に対して入力する。
That is, the
するとニューラルネットワーク10においては、第1実施形態と同様に特徴抽出部11およびアテンション部12が機能することで、アテンション部12によってアテンションマップ53および分類結果が生成される。このアテンションマップ53は人の修正操作を受けることなく、すなわち修正されることなく、合成部13に入力される。合成部13は、特徴マップ52と人の修正操作を受けなかったアテンションマップ53とを合成することで、合成マップ54を生成する。認知部14は、この合成マップ54に基づいて、第1実施形態と同様に分類結果を生成する。処理部5は、この分類結果を第1実施形態と同様に取得して出力する。
In the neural network 10, the feature extraction unit 11 and attention unit 12 function in the same manner as in the first embodiment, and the attention unit 12 generates an attention map 53 and a classification result. This attention map 53 is input to the synthesis unit 13 without being modified by a human. The synthesis unit 13 generates a composite map 54 by combining the feature map 52 and the attention map 53 that has not been modified by a human. The recognition unit 14 generates a classification result based on this composite map 54 in the same manner as in the first embodiment. The
そして、処理部5は、上記のようにニューラルネットワーク10を用いて入力画像51からその入力画像51の分類結果を取得する処理に加え、ニューラルネットワーク10を再学習させるため、図9に示す処理を実行する。この再学習によって、ニューラルネットワーク10はファインチューニングされる。
Then, in addition to the process of acquiring the classification result of the input image 51 from the input image 51 using the neural network 10 as described above, the
処理部5は、操作装置2に対して人による所定の再学習開始操作が行われたことに基づいて、図9の処理を開始する。この処理において、処理部5は、再学習用のデータセットを用いる。再学習用のデータセットは、学習用画像と教師ラベルからなるグループを複数個(10個でも100個でも10万個でもよい)有している。
The
学習用画像は、入力画像51のように特徴抽出部11に入力されるデータである。教師ラベルは、同じグループの学習用画像が特徴抽出部11に入力されたときにアテンション部12および認知部14から出力される分類結果の正解値とされるデータである。 The learning image is data input to the feature extraction unit 11, such as the input image 51. The teacher label is data that is considered to be the correct answer value of the classification result output from the attention unit 12 and the recognition unit 14 when learning images of the same group are input to the feature extraction unit 11.
再学習用のデータセットは、あらかじめ生成されてメモリ4の不揮発性記憶媒体に記録されていてもよいし、不図示の通信ネットワークを介してデータサーバから取得されてもよい。また、再学習用のデータセットの学習用画像および教師ラベルとしては、ニューラルネットワーク10の初期の学習時に用いられた学習用データセットと同じものが流用されてもよいし、当該学習用データセットと異なるものであってもよい。
The re-learning dataset may be generated in advance and recorded in a non-volatile storage medium of
処理部5は、図9の処理において、まず、ステップ210、220のループ処理を、再学習用データセットに含まれるグループ毎に、実行する。処理部5は、ループ処理の各回において、まずステップ210で、対象となるグループ中の学習用画像を特徴抽出部11に入力する。続いてステップ220で、入力された学習用画像に基づいてアテンション部12が生成したアテンションマップ53および分類結果、ならびに、学習用画像に基づいて認知部14が生成した分類結果を取得してメモリ4に記録する。
In the process of FIG. 9, the
なお、入力された学習用画像に基づいてニューラルネットワーク10がアテンションマップ53および2種類の分類結果を出力する方法は、学習用画像を入力画像51に置き換えた上述の方法と同等である。ステップ220の後、1回分のループ処理が終了する。 The method by which the neural network 10 outputs the attention map 53 and the two types of classification results based on the input learning images is the same as the above-mentioned method in which the learning images are replaced with the input images 51. After step 220, one loop of processing is completed.
グループの数だけループ処理が終了すると、処理部5の処理はステップ230に進む。この時点で、すべての再学習用データセット中の各グループに対して、アテンション部12が生成したアテンションマップ53および分類結果、および、認知部14が生成した分類結果が、対応付けられて、メモリ4に記録されている。
When the loop processing has been completed for the number of groups, the
処理部5は、ステップ230では、複数のグループのうち、誤認識が発生したグループを抽出する。誤認識が発生したとして抽出されるのは、認知部14が出力した分類結果において尤度が最も高いクラスと、教師ラベルが示すクラス(すなわち、教師ラベルにおいて尤度が最も高いクラス)とが一致しなかったグループである。あるいは、アテンション部12が出力した分類結果において尤度が最も高いクラスと、教師ラベルが示すクラスとが一致しなかったグループが、誤認識が発生したとして抽出されてもよい。またあるいは、それらの両方が抽出されてもよい。抽出されるグループは、殆どの場合複数である。
In step 230, the
続いてステップ240では、直前のステップ230で抽出したグループの各々に対応してメモリ4に記録されているアテンションマップ53を、人の知見に基づいて修正する。具体的には、図4のステップ140と同様の処理により、操作装置2に対する人の修正操作に基づいて、当該アテンションマップ53を修正する。そして処理部5は、修正後のアテンションマップ53を、当該グループに属する教師アテンションマップとして、メモリ4に保存する。
Next, in step 240, the attention map 53 recorded in the
このように作成される教師アテンションマップは、同じグループの学習用画像が特徴抽出部11に入力されたときにアテンション部12から出力されるアテンションマップ53の正解値とされるデータである。この処理により、教師アテンションマップは、再学習用データセットに追加される。 The teacher attention map created in this way is data that is considered to be the correct answer value of the attention map 53 output from the attention unit 12 when learning images of the same group are input to the feature extraction unit 11. Through this process, the teacher attention map is added to the re-learning dataset.
続いて処理部5は、ステップ250で、今回の図9の処理で取得した2種類の分類結果、アテンションマップ53、および再学習用データセットに基づいて、ニューラルネットワーク10を再学習させる。上述の通り、再学習用データセットには、教師アテンションマップ、教師ラベルが含まれる。
Next, in step 250, the
具体的には、図10に示すように、3つの学習誤差Latt、Lper、Lmapの和から成る量L=Latt+Lper+Lmapを学習誤差として、誤差逆伝播法により、アテンション部12および認知部14の重み、バイアス等の学習パラメータが更新される。図10においては、認知部14の出力層14bと、認知部14の出力層14bよりも前段の部分14aとが表されている。なお、本実施形態では、特徴抽出部11の重み、バイアス等の学習パラメータは更新されない。 Specifically, as shown in FIG. 10, the learning error is determined by the sum of three learning errors Latt, Lper, and Lmap, that is, L=Latt+Lper+Lmap, and the learning parameters such as weights and biases of the attention unit 12 and the recognition unit 14 are updated by the error backpropagation method. In FIG. 10, the output layer 14b of the recognition unit 14 and the part 14a preceding the output layer 14b of the recognition unit 14 are shown. Note that in this embodiment, the learning parameters such as weights and biases of the feature extraction unit 11 are not updated.
ここで、Lattは、学習用画像61がニューラルネットワーク10に入力されたときにアテンション部12が出力する分類結果と、当該学習用画像61と同じグループに属する教師ラベル60との間の、誤差を示す量である。 Here, Latt is an amount indicating the error between the classification result output by the attention unit 12 when a training image 61 is input to the neural network 10 and the teacher label 60 that belongs to the same group as the training image 61.
また、Lperは、学習用画像61がニューラルネットワーク10に入力されたときに特徴抽出部11が出力する分類結果と、当該学習用画像61と同じグループに属する教師ラベル60との間の、誤差を示す量である。 In addition, Lper is an amount indicating the error between the classification result output by the feature extraction unit 11 when the training image 61 is input to the neural network 10 and the teacher label 60 that belongs to the same group as the training image 61.
また、Lmapは、学習用画像61がニューラルネットワーク10に入力されたときにアテンション部12が出力するアテンションマップ53と、当該学習用画像61と同じグループに属する教師ラベル60との間の、誤差を示す量である。 In addition, Lmap is an amount indicating the error between the attention map 53 output by the attention unit 12 when a learning image 61 is input to the neural network 10 and the teacher label 60 that belongs to the same group as the learning image 61.
学習誤差Lmapとしては、以下の式のようにL2ノルム誤差が採用されてもよいし、他の形態の誤差が採用されてもよい。
Lmap=γ×||M’-M||2
ここで、Mは学習用画像61がニューラルネットワーク10に入力されたときにアテンション部12が出力するアテンションマップ53の値を示す。M’は、学習用画像61と同じグループに対応する修正後のアテンションマップの値を示す。これら2つのアテンションマップの要素毎に誤差を求めることで,人の知見に近いアテンションマップを出力するようアテンション部12が学習される。
As the learning error Lmap, an L2 norm error may be adopted as shown in the following formula, or another form of error may be adopted.
Lmap=γ×||M'-M|| 2
Here, M indicates the value of the attention map 53 output by the attention unit 12 when the learning image 61 is input to the neural network 10. M' indicates the value of the corrected attention map corresponding to the same group as the learning image 61. By calculating the error for each element of these two attention maps, the attention unit 12 is trained to output an attention map close to human knowledge.
ここで、γは学習誤差Lmapを調整する係数である。LmapはLatt、Lperと比べて誤差の値が大きい。そのため、γをLmapに乗算することで、3つの学習誤差Lmap、Latt、Lperの大きさを調整することができる。ステップ250の後、図9の処理が終了し、再学習されたニューラルネットワーク10がメモリ4に記録される。
Here, γ is a coefficient that adjusts the learning error Lmap. Lmap has a larger error value than Latt and Lper. Therefore, by multiplying Lmap by γ, the magnitudes of the three learning errors Lmap, Latt, and Lper can be adjusted. After step 250, the process of FIG. 9 ends, and the retrained neural network 10 is recorded in
このように、人の知見に基づいて修正されたアテンションマップに基づいてニューラルネットワーク10のファインチューニングが行われることで、ニューラルネットワーク10による画像認識機能が向上する。つまり、処理部5がファインチューニング後のニューラルネットワーク10に種々の入力画像51を入力したときに認知部14が生成する認識結果の正解率が向上する。
In this way, fine-tuning the neural network 10 based on the attention map modified based on human knowledge improves the image recognition function of the neural network 10. In other words, the accuracy rate of the recognition results generated by the recognition unit 14 when the
以上説明した通り、処理部5は、再学習用のデータセットを用いて、ニューラルネットワーク10を再学習させる(ステップ250)。そして、再学習用のデータセットは、複数の教師アテンションマップを含む。
As described above, the
このように、アテンションマップを生成するニューラルネットワーク10を再学習するときに、アテンションマップの正解値とされる教師アテンションマップが使用される。教師アテンションマップは、人の知見に基づいて作成されたものなので、このようにすることで、ニューラルネットワーク10の学習に人の知見を取り入れることが可能となる。 In this way, when retraining the neural network 10 that generates the attention map, the teacher attention map, which is regarded as the correct value of the attention map, is used. Since the teacher attention map is created based on human knowledge, this makes it possible to incorporate human knowledge into the learning of the neural network 10.
また、処理部5は、ニューラルネットワーク10に複数の学習用画像を入力することによって複数の学習用画像にそれぞれ対応した複数のアテンションマップを取得する(ステップ210、220)。そして処理部5は、人の修正操作に応じてそれら複数のアテンションマップを修正して教師アテンションマップとする(ステップ240)。
The
このように、ニューラルネットワーク10が生成したアテンションマップに対して人がした修正操作に基づいて、教師アテンションマップを生成することができる。したがって、より直接的に、ニューラルネットワーク10の学習に人の知見を取り入れることが可能となる。しかも、ゼロから教師アテンションマップを作成する場合に比べて、修正操作が簡単である。 In this way, a teacher attention map can be generated based on human correction operations made to the attention map generated by the neural network 10. This makes it possible to more directly incorporate human knowledge into the learning of the neural network 10. Moreover, the correction operations are simpler than when creating a teacher attention map from scratch.
また、再学習用のデータセットに含まれる複数の教師アテンションマップは、再学習の前にニューラルネットワーク10によって誤認識された学習用画像のみである。このように、誤認識された学習用画像に対応する教師アテンションマップを多く再学習に用いることで、より高い効率で再学習を行うことができる。これは、誤認識された学習用画像を入力として生成されたアテンションマップは、それ自体も誤りが多い可能性が高いからである。 The multiple teacher attention maps included in the re-learning dataset are only those training images that were misrecognized by the neural network 10 before re-learning. In this way, by using many teacher attention maps corresponding to misrecognized training images for re-learning, re-learning can be performed more efficiently. This is because the attention map generated using misrecognized training images as input is likely to be itself erroneous.
また、ニューラルネットワーク10は、入力画像51およびアテンションマップ53に基づいて入力画像51の認識結果を生成する。このように、入力画像51のみならずアテンションマップ53も画像認識のための情報としてフィードバックするようなニューラルネットワーク10においては、入力画像51の認識結果とアテンションマップ53との間の関連性が強い。したがって、そのようなニューラルネットワーク10においては、教師アテンションマップを用いた再学習の効果が、入力画像51の認識結果の向上に寄与する度合いが、高い。 Furthermore, neural network 10 generates a recognition result for input image 51 based on input image 51 and attention map 53. In this way, in a neural network 10 in which not only input image 51 but also attention map 53 are fed back as information for image recognition, there is a strong correlation between the recognition result for input image 51 and attention map 53. Therefore, in such a neural network 10, the effect of re-learning using the teacher attention map contributes to a high degree to which the recognition result for input image 51 is improved.
また、処理部5は、特徴抽出部11を再学習させずにアテンション部12を再学習させる。このように、ニューラルネットワーク10のうちでもアテンションマップ53の生成に強く関係する部分が再学習されることにより、効率の高いニューラルネットワーク10のファインチューニングが実現する。
The
なお、本実施形態では、処理部5が、ステップ205を実行することで読出部として機能し、ステップ250を実行することでトレーニング部として機能し、ステップ210、220を実行することで取得部として機能し、ステップ240を実行することでマップ修正部として機能する。
In this embodiment, the
(他の実施形態)
なお、本発明は上記した実施形態に限定されるものではなく、適宜変更が可能である。また、上記各実施形態は、互いに無関係なものではなく、組み合わせが明らかに不可な場合を除き、適宜組み合わせが可能である。また、上記各実施形態において、実施形態を構成する要素は、特に必須であると明示した場合および原理的に明らかに必須であると考えられる場合等を除き、必ずしも必須のものではない。また、上記各実施形態において、実施形態の構成要素の個数、数値、量、範囲等の数値が言及されている場合、特に必須であると明示した場合および原理的に明らかに特定の数に限定される場合等を除き、その特定の数に限定されるものではない。また、ある量について複数個の値が例示されている場合、特に別記した場合および原理的に明らかに不可能な場合を除き、それら複数個の値の間の値を採用することも可能である。
Other Embodiments
The present invention is not limited to the above-mentioned embodiment, and can be modified as appropriate. The above-mentioned embodiments are not unrelated to each other, and can be combined as appropriate, except when the combination is clearly impossible. In each of the above-mentioned embodiments, the elements constituting the embodiment are not necessarily essential, except when it is specifically stated that they are essential or when it is clearly considered essential in principle. In each of the above-mentioned embodiments, when the numbers, values, amounts, ranges, etc. of the components of the embodiment are mentioned, they are not limited to the specific numbers, except when it is specifically stated that they are essential or when it is clearly limited to a specific number in principle. In addition, when multiple values are exemplified for a certain amount, it is also possible to adopt a value between those multiple values, except when it is specifically stated otherwise or when it is clearly impossible in principle.
また、本発明は、上記各実施形態に対する以下のような変形例および均等範囲の変形例も許容される。なお、以下の変形例は、それぞれ独立に、上記実施形態に適用および不適用を選択できる。すなわち、以下の変形例のうち任意の組み合わせを、上記実施形態に適用することができる。 The present invention also allows for the following modifications and modifications within an equivalent scope to each of the above embodiments. Note that each of the following modifications can be independently applied or not applied to the above embodiments. In other words, any combination of the following modifications can be applied to the above embodiments.
(変形例1)
画像認識装置1は、第1実施形態の機能(すなわち、人の知見に基づいて修正されたアテンションマップを用いた画像認識)と第2実施形態の機能(すなわち、人の知見に基づいて修正されたアテンションマップを用いた再学習)の両方の機能を有していてもよい。
(Variation 1)
The
(変形例2)
上記実施形態では、アテンション部12および認知部14が出力する認識結果の一例として、分類結果が上げられている。しかし、アテンション部12および認知部14が出力する認識結果は、分類結果に限らず、回帰による結果でもよい。つまり、ニューラルネットワーク10が行う画像の認識は、分類でもよいし、回帰でもよい。
(Variation 2)
In the above embodiment, a classification result is given as an example of the recognition result output by the attention unit 12 and the recognition unit 14. However, the recognition result output by the attention unit 12 and the recognition unit 14 is not limited to a classification result and may be a result by regression. In other words, the image recognition performed by the neural network 10 may be classification or regression.
(変形例3)
上記第1実施形態では、ニューラルネットワーク10は、特徴抽出部11、アテンション部12、合成部13、認知部14を有している。しかし、人の知見に基づいて修正されたアテンションマップを用いた画像認識を実現するためのニューラルネットワークは、このような構成のものに限られない。すなわち、入力された画像に基づいてアテンションマップを生成し、当該画像とアテンションマップに基づいて画像の認識結果を生成するニューラルネットワークであれば、アテンションマップが修正されることで画像の認識機能が向上し得る。
(Variation 3)
In the first embodiment, the neural network 10 has a feature extraction unit 11, an attention unit 12, a synthesis unit 13, and a recognition unit 14. However, the neural network for realizing image recognition using an attention map corrected based on human knowledge is not limited to such a configuration. In other words, if the neural network generates an attention map based on an input image and generates an image recognition result based on the input image and the attention map, the image recognition function can be improved by correcting the attention map.
(変形例4)
上記第2実施形態では、ニューラルネットワーク10は、特徴抽出部11、アテンション部12、合成部13、認知部14を有している。しかし、人の知見に基づいて修正されてもよい。しかし、人の知見に基づいて修正されたアテンションマップを用いた再学習を実現するためのニューラルネットワークは、このような構成のものに限られない。すなわち、入力された画像に基づいてアテンションマップおよび画像の認識結果を生成するニューラルネットワークであれば、修正されたアテンションマップを用いて再学習することで画像の認識機能が向上し得る。例えば、非特許文献2に記載されたCAM(Class Activation Mapping)のようなニューラルネットワークが、人の知見に基づいて修正されたアテンションマップを用いて再学習されてもよい。
(Variation 4)
In the second embodiment, the neural network 10 has a feature extraction unit 11, an attention unit 12, a synthesis unit 13, and a recognition unit 14. However, it may be modified based on human knowledge. However, the neural network for realizing re-learning using the attention map modified based on human knowledge is not limited to such a configuration. That is, if the neural network generates an attention map and an image recognition result based on an input image, the image recognition function can be improved by re-learning using the modified attention map. For example, a neural network such as CAM (Class Activation Mapping) described in
(変形例5)
上記第1実施形態では、処理部5は、入力画像51をアテンションマップ53に透過的に重ねて、表示装置3に表示させた状態で、人の修正操作に応じた修正をアテンションマップに反映させている。しかし、必ずしもこのようにしなくてもよい。例えば、処理部5は、入力画像51とアテンションマップ53を重ならずに並べて表示装置3に表示させた状態で、人の修正操作に応じた修正をアテンションマップに反映させてもよい。また例えば、処理部5は、アテンションマップ53を表示装置3に表示させて入力画像51を表示装置3に表示させない状態で、人の修正操作に応じた修正をアテンションマップに反映させてもよい。
(Variation 5)
In the first embodiment, the
(変形例6)
上記第1、2実施形態では、アテンションマップの修正方法として、アテンション部12によって生成されたアテンションマップ中の一部の画素の値のみを変更し、残りの画素の値は変更しない方法が示されている。つまり、アテンション部12によって生成されたアテンションマップに変更を加える方法が示されている。
(Variation 6)
In the first and second embodiments, as a method for correcting the attention map, a method is shown in which only the values of some pixels in the attention map generated by the attention unit 12 are changed and the values of the remaining pixels are not changed. In other words, a method is shown in which a change is made to the attention map generated by the attention unit 12.
しかし、アテンションマップの修正方法は、必ずしもこのような方法に限られない。例えば、画像がニューラルネットワーク10に入力されたときにアテンション部12によって出力されたアテンションマップとは別に、新たなアテンションマップがゼロから作成されてもよい。この場合、第1実施形態では、この新たなアテンションマップが合成部13に入力され、第2実施形態では、この新たなアテンションマップが教師アテンションマップになる。 However, the method of correcting the attention map is not necessarily limited to this method. For example, a new attention map may be created from scratch in addition to the attention map output by the attention unit 12 when an image is input to the neural network 10. In this case, in the first embodiment, this new attention map is input to the synthesis unit 13, and in the second embodiment, this new attention map becomes the teacher attention map.
新たなアテンションマップの作成方法としては、例えば、以下のような方法がある。まず、人が、ニューラルネットワーク10に入力された画像を見て注視領域の位置範囲を決める。そして人が、その決めた注視領域の位置範囲を反映する新たなアテンションマップを、コンピュータを操作して作成してもよい。このコンピュータは、画像認識装置1であってもよいし、他の装置であってもよい。
For example, a method for creating a new attention map is as follows. First, a person looks at the image input to the neural network 10 and determines the position range of the gaze area. The person may then operate a computer to create a new attention map that reflects the determined position range of the gaze area. This computer may be the
(変形例7)
上記第2実施形態では、再学習に使用される教師アテンションマップは、再学習の前にニューラルネットワーク10によって誤認識された学習用画像に対応する教師アテンションマップのみである。しかし、再学習に使用される教師アテンションマップに、再学習の前にニューラルネットワーク10によって正しく認識された学習用画像に対応する教師アテンションマップが含まれていてもよい。
(Variation 7)
In the above second embodiment, the teacher attention map used for re-learning is only the teacher attention map corresponding to the training image erroneously recognized by the neural network 10 before re-learning. However, the teacher attention map used for re-learning may include the teacher attention map corresponding to the training image correctly recognized by the neural network 10 before re-learning.
その場合も、誤認識された学習用画像に対応する教師アテンションマップの数が、正しく認識された学習用画像に対応する教師アテンションマップよりも多ければ、再学習の高効率化を行うことができる。 Even in this case, if the number of teacher attention maps corresponding to misrecognized training images is greater than the number of teacher attention maps corresponding to correctly recognized training images, re-learning can be performed with high efficiency.
あるいは、誤認識された学習用画像に対応する教師アテンションマップの数が、正しく認識された学習用画像に対応する教師アテンションマップより少なくてもよい。 Alternatively, the number of teacher attention maps corresponding to misrecognized training images may be fewer than the number of teacher attention maps corresponding to correctly recognized training images.
(変形例8)
上記実施形態では、ニューラルネットワーク10の再学習においては、特徴抽出部11は再学習されず、アテンション部12、認知部14のみが再学習される。ニューラルネットワーク10の再学習は、この形態に限られない。例えば、特徴抽出部11、認知部14が再学習されず、アテンション部12のみが再学習されてもよい。また例えば、特徴抽出部11のみが再学習され、アテンション部12、認知部14が再学習されなくてもよい。また例えば、特徴抽出部11、認知部14が再学習され、アテンション部12が再学習されなくてもよい。
(Variation 8)
In the above embodiment, when re-learning the neural network 10, the feature extraction unit 11 is not re-learned, and only the attention unit 12 and the recognition unit 14 are re-learned. Re-learning of the neural network 10 is not limited to this form. For example, the feature extraction unit 11 and the recognition unit 14 may not be re-learned, and only the attention unit 12 may be re-learned. Alternatively, for example, only the feature extraction unit 11 may be re-learned, and the attention unit 12 and the recognition unit 14 may not be re-learned. Alternatively, for example, the feature extraction unit 11 and the recognition unit 14 may be re-learned, and the attention unit 12 may not be re-learned.
また、特徴抽出部11、アテンション部12、認知部14が再学習される形態も許容される。この場合は、ニューラルネットワーク10の再学習はファインチューニングではない。 It is also permissible for the feature extraction unit 11, attention unit 12, and recognition unit 14 to be retrained. In this case, the retraining of the neural network 10 is not fine tuning.
(変形例9)
上記実施形態では、再学習は、Lmap、Latt、Lperの3つの学習誤差を用いて誤差逆伝播法を用いて行われている。しかし、Lmap、Latt、Lperのすべてを用いなくてもよい。例えば、Lmapのみを用いてもよい。
(Variation 9)
In the above embodiment, the re-learning is performed by using the error backpropagation method using three learning errors, Lmap, Latt, and Lper. However, it is not necessary to use all of Lmap, Latt, and Lper. For example, only Lmap may be used.
1…画像認識装置、2…操作装置、3…表示装置、4…メモリ、5…処理部、10…ニューラルネットワーク、11…特徴抽出部、12…アテンション部、13…合成部、14…認知部、51…入力画像、52…特徴マップ、53…アテンションマップ、54…合成マップ、60…教師ラベル、61…学習用画像 1...image recognition device, 2...operation device, 3...display device, 4...memory, 5...processing unit, 10...neural network, 11...feature extraction unit, 12...attention unit, 13...synthesis unit, 14...recognition unit, 51...input image, 52...feature map, 53...attention map, 54...synthesis map, 60...teacher label, 61...learning image
Claims (4)
入力された前記画像の特徴を含む特徴マップ(52)と入力された前記画像の注視領域を表現するアテンションマップ(53)とを、前記ニューラルネットワークが生成したとき、生成された前記アテンションマップに対して、人の修正操作に応じた修正を行うマップ修正部(140)と、
修正された前記アテンションマップと前記特徴マップとが合成された合成マップ(54)および前記画像に基づいて前記ニューラルネットワーク(10)が前記画像の認識結果を生成したとき、生成された前記認識結果を出力する出力部(160)と、を備えた画像認識装置。 an input unit (120) for inputting an image (51) to the neural network (10);
a map correction unit (140) that corrects the generated attention map in response to a correction operation by a person when the neural network generates a feature map (52) including features of the input image and an attention map (53) expressing a gaze area of the input image;
An image recognition device comprising : a composite map (54) in which the corrected attention map and the feature map are combined ; and an output unit (160) that outputs the generated recognition result when the neural network (10) generates a recognition result for the image based on the image.
前記特徴抽出部は、複数の畳み込み層を含むと共に前記画像の情報を前記複数の畳み込み層を伝播させることで前記特徴マップ(52)を生成し、
前記アテンション部は、前記特徴マップに基づいて前記アテンションマップを生成し、
前記合成部は、前記特徴マップと修正された前記アテンションマップを合成して前記合成マップを生成し、
前記認知部は、前記合成マップに基づいて前記認識結果を生成する、請求項1に記載の画像認識装置。 The neural network includes a feature extraction unit (11), an attention unit (12), a synthesis unit (13), and a recognition unit (14),
The feature extraction unit includes a plurality of convolution layers, and generates the feature map (52) by propagating information of the image through the plurality of convolution layers;
The attention unit generates the attention map based on the feature map;
The synthesis unit synthesizes the feature map and the modified attention map to generate the synthesis map ;
The image recognition device according to claim 1 , wherein the recognition unit generates the recognition result based on the composite map.
ニューラルネットワーク(10)に前記画像を入力する入力部(120)、
入力された前記画像の特徴を含む特徴マップ(52)と入力された前記画像の注視領域を表現するアテンションマップ(53)とを、前記ニューラルネットワークが生成したとき、生成された前記アテンションマップに対して、人の修正操作に応じた修正を行うマップ修正部(140)、および
修正された前記アテンションマップと前記特徴マップとが合成された合成マップ(54)および前記画像に基づいて前記ニューラルネットワーク(10)が前記画像の認識結果を生成したとき、生成された前記認識結果を出力する出力部(160)として、前記画像認識装置を機能させるプログラム。 A program used in an image recognition device that outputs a recognition result of an input image (51),
An input unit (120) for inputting the image into the neural network (10);
A program that causes the image recognition device to function as a map correction unit (140 ) that, when the neural network generates a feature map (52) including features of the input image and an attention map (53) expressing the gaze area of the input image, corrects the generated attention map in response to a human correction operation, and an output unit (160) that outputs the generated recognition result when the neural network (10) generates a recognition result of the image based on a composite map (54) in which the corrected attention map and the feature map are combined and the image.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2024069188A JP7691686B2 (en) | 2019-07-25 | 2024-04-22 | Neural network training device, program for use in the training device, and method for creating a neural network |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2019137317 | 2019-07-25 | ||
| JP2019137317 | 2019-07-25 |
Related Child Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024069188A Division JP7691686B2 (en) | 2019-07-25 | 2024-04-22 | Neural network training device, program for use in the training device, and method for creating a neural network |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2021022368A JP2021022368A (en) | 2021-02-18 |
| JP7542802B2 true JP7542802B2 (en) | 2024-09-02 |
Family
ID=74573789
Family Applications (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2020104577A Active JP7542802B2 (en) | 2019-07-25 | 2020-06-17 | Image recognition device using neural network and program used in the image recognition device |
| JP2024069188A Active JP7691686B2 (en) | 2019-07-25 | 2024-04-22 | Neural network training device, program for use in the training device, and method for creating a neural network |
Family Applications After (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2024069188A Active JP7691686B2 (en) | 2019-07-25 | 2024-04-22 | Neural network training device, program for use in the training device, and method for creating a neural network |
Country Status (1)
| Country | Link |
|---|---|
| JP (2) | JP7542802B2 (en) |
Families Citing this family (17)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2022185432A1 (en) * | 2021-03-03 | 2022-09-09 | Heroz株式会社 | Image recognition learning system, image recognition learning method, image recognition learning program, image recognition machine learning unit, and image recognition system |
| CN112990046B (en) * | 2021-03-25 | 2023-08-04 | 北京百度网讯科技有限公司 | Difference information acquisition method, related device and computer program product |
| US12087096B2 (en) | 2021-03-31 | 2024-09-10 | Samsung Electronics Co., Ltd. | Method and apparatus with biometric spoofing consideration |
| CN112949841B (en) * | 2021-05-13 | 2022-08-16 | 德鲁动力科技(成都)有限公司 | Attention-based pedestrian re-identification method of CNN neural network |
| CN115393246B (en) * | 2021-05-19 | 2026-02-13 | 佳能医疗系统株式会社 | Image segmentation systems and image segmentation methods |
| EP4099225A1 (en) * | 2021-05-31 | 2022-12-07 | Siemens Aktiengesellschaft | Method for training a classifier and system for classifying blocks |
| JP7830035B2 (en) * | 2021-06-08 | 2026-03-16 | キヤノン株式会社 | Image processing device, image processing method, and program |
| JP7779025B2 (en) * | 2021-06-11 | 2025-12-03 | 大日本印刷株式会社 | Information processing device and information processing system |
| JP7843989B2 (en) * | 2021-09-21 | 2026-04-13 | 学校法人帝京大学 | Medical image diagnostic support device, medical image diagnostic support method, and program |
| KR102781018B1 (en) * | 2021-09-23 | 2025-03-12 | 연세대학교 산학협력단 | Cam-based weakly supervised learning object localization device and method |
| JP7387703B2 (en) * | 2021-12-24 | 2023-11-28 | 株式会社アイレップ | Device, method and program for predicting gaze area of advertising video |
| JP7631246B2 (en) | 2022-01-25 | 2025-02-18 | 株式会社東芝 | Recognition device, recognition method, and program |
| JP7361999B1 (en) * | 2022-02-04 | 2023-10-16 | 三菱電機株式会社 | Machine learning device, machine learning system, machine learning method, and machine learning program |
| CN114549874B (en) * | 2022-03-02 | 2024-03-08 | 北京百度网讯科技有限公司 | Multi-objective image-text matching model training method, image-text retrieval method and device |
| CN116030078B (en) * | 2023-03-29 | 2023-06-30 | 之江实验室 | Attention-combined lung lobe segmentation method and system under multitask learning framework |
| US20250118062A1 (en) * | 2023-10-06 | 2025-04-10 | GE Precision Healthcare LLC | Explainable visual attention for deep learning |
| WO2025249319A1 (en) * | 2024-05-30 | 2025-12-04 | パナソニックIpマネジメント株式会社 | Inventory management method, program, and inventory management system |
Family Cites Families (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US10322510B2 (en) | 2017-03-03 | 2019-06-18 | Futurewei Technologies, Inc. | Fine-grained object recognition in robotic systems |
| CN113498323B (en) | 2019-02-26 | 2024-08-13 | 富士胶片株式会社 | Medical image processing device, processor device, endoscope system, medical image processing method, and recording medium |
-
2020
- 2020-06-17 JP JP2020104577A patent/JP7542802B2/en active Active
-
2024
- 2024-04-22 JP JP2024069188A patent/JP7691686B2/en active Active
Non-Patent Citations (1)
| Title |
|---|
| FUKUI, Hiroshi et al.,Attention Branch Network: Learning of Attention Mechanism for Visual Explanation,arXiv [online],2019年04月10日, [retrieved on 2024.02.29], https://arxiv.org/abs/1812.10025 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2024091853A (en) | 2024-07-05 |
| JP7691686B2 (en) | 2025-06-12 |
| JP2021022368A (en) | 2021-02-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7691686B2 (en) | Neural network training device, program for use in the training device, and method for creating a neural network | |
| US12373695B2 (en) | Auto-regressive neural network systems with a soft attention mechanism using support data patches | |
| EP3757937B1 (en) | Image recognition method, storage medium and computer device | |
| US9953425B2 (en) | Learning image categorization using related attributes | |
| US9536293B2 (en) | Image assessment using deep convolutional neural networks | |
| US9501724B1 (en) | Font recognition and font similarity learning using a deep neural network | |
| US20230419721A1 (en) | Electronic device for improving quality of image and method for improving quality of image by using same | |
| JP7732299B2 (en) | Learning device, learning method, and program | |
| JP2022161564A (en) | A system for training machine learning models to recognize characters in text images | |
| CN116823851B (en) | Unsupervised domain adaptive OCT image segmentation method and system based on feature reconstruction | |
| CN108171649A (en) | A kind of image stylizing method for keeping focus information | |
| CN113538254A (en) | Image restoration method and device, electronic equipment and computer readable storage medium | |
| CN120147605B (en) | Infrared-visible light combined target detection method | |
| CN116778566A (en) | A classification model training method and fundus image classification method | |
| US20200250813A1 (en) | Saliency mapping of imagery during artificially intelligent image classification | |
| CN117576260A (en) | Pose generation method based on diffusion model and ControlNet | |
| US20250328997A1 (en) | Proxy-guided image editing | |
| Jain | Generative Adversarial Networks: A Review of Developments and Diverse Applications | |
| CN119941925A (en) | Text-driven face editing method based on multimodal fusion | |
| Huang et al. | Co-seg: An image segmentation framework against label corruption | |
| JP2023173180A (en) | machine learning device | |
| JP2021111076A (en) | Diagnostic devices, diagnostic systems, and programs that use AI | |
| JP2025012529A (en) | Image recognition device and image recognition method | |
| US20250285230A1 (en) | Conditional and marginal model based frame generation | |
| US20240290022A1 (en) | Automatic avatar generation using semi-supervised machine learning |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A80 | Written request to apply exceptions to lack of novelty of invention |
Free format text: JAPANESE INTERMEDIATE CODE: A80 Effective date: 20200710 |
|
| AA64 | Notification of invalidation of claim of internal priority (with term) |
Free format text: JAPANESE INTERMEDIATE CODE: A241764 Effective date: 20200825 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200902 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230601 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240304 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240312 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240422 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240604 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240724 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240806 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240808 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7542802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |