JP7549841B2 - Image processing device, image recognition device, image processing program, and image recognition program - Google Patents
Image processing device, image recognition device, image processing program, and image recognition program Download PDFInfo
- Publication number
- JP7549841B2 JP7549841B2 JP2021054053A JP2021054053A JP7549841B2 JP 7549841 B2 JP7549841 B2 JP 7549841B2 JP 2021054053 A JP2021054053 A JP 2021054053A JP 2021054053 A JP2021054053 A JP 2021054053A JP 7549841 B2 JP7549841 B2 JP 7549841B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- image processing
- processing device
- blocks
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Description
本発明は、画像処理装置、画像認識装置、画像処理プログラム、及び画像認識プログラムに関し、例えば、学習した対象を画像認識するものに関する。 The present invention relates to an image processing device, an image recognition device, an image processing program, and an image recognition program, for example, for image recognition of a learned object.
自動車の自動運転技術の需要拡大にともなって、歩行者や車両を画像認識により検出する研究が盛んに行われている。
このような技術に、特許文献1に示したGMM-MRCoHOG特徴量を用いるものがある。この技術は、同一画像の異なる解像度間における輝度勾配方向の共起の頻度分布を連続値にて特徴空間に写像するものであって、先行技術であるHOG(Histograms of Oriented Gradients)特徴量、CoHOG(Co-occurrence Histograms of Oriented Gradients)特徴量、MRCoHOG(Multiple Resolution Co-occurence. Histograms of Oriented Gradients)特徴量などを用いた画像認識手法に比べて非常に頑健性の高い識別能力を誇っている。
As demand for self-driving technology grows, research is being actively conducted into detecting pedestrians and vehicles using image recognition.
One such technique uses the GMM-MRCoHOG feature described in
より詳細には、HOG特徴量、CoHOG特徴量、MRCoHOG特徴量は、何れも、量子化した方向(一般的には8方向)に対応するビンに各画素の輝度勾配方向を投票することにより、その頻度分布をヒストグラムで表すものであり、HOG特徴量では、各画素の輝度勾配方向を投票し、CoHOG特徴量では、2つの画素による輝度勾配方向の共起を投票し、MRCoHOG特徴量では、異なる解像度間での画素における輝度勾配方向の共起を投票する。
これらに対し、GMM-MRCoHOG特徴量では、GMM(Gaussian Mixture Model:混合ガウスモデル)を用いることにより、輝度勾配方向を連続値にて状態空間に配置することにより、共起の頻度分布を多峰性の確率密度関数によって表す。前3者は、状態空間を固定したビンにて形成するのに対し、GMM-MRCoHOG特徴量では、状態空間を自律的に形成することができる。
More specifically, the HOG feature, CoHOG feature, and MRCoHOG feature all represent the frequency distribution of the intensity gradient direction of each pixel in a histogram by voting the intensity gradient direction of each pixel into a bin corresponding to a quantized direction (generally eight directions). In the HOG feature, the intensity gradient direction of each pixel is voted, in the CoHOG feature, the co-occurrence of intensity gradient directions of two pixels is voted, and in the MRCoHOG feature, the co-occurrence of intensity gradient directions at pixels across different resolutions is voted.
In contrast to these, the GMM-MRCoHOG feature uses a Gaussian Mixture Model (GMM) to arrange the luminance gradient direction in a state space as continuous values, thereby expressing the frequency distribution of co-occurrences by a multi-peak probability density function. While the first three form a state space with fixed bins, the GMM-MRCoHOG feature can form a state space autonomously.
ところで、GMM-MRCoHOG特徴量を用いた画像認識では、認識の対象となる画像を複数のブロックに区分して、ブロックごとに最適化した個別の異なる基底関数を用いており、メモリ容量やCPUの演算能力などの多くの計算リソースを必要とするという問題があった。
特に計算リソースが限られているFPGA(Field Programmable Gate Array)などに実装する場合、計算リソースの節約は極めて重要である。
Incidentally, in image recognition using GMM-MRCoHOG features, an image to be recognized is divided into a plurality of blocks, and a different basis function optimized for each block is used, which poses a problem of requiring a large amount of computational resources, such as memory capacity and CPU computing power.
In particular, when implementing the technology in a field programmable gate array (FPGA) or the like, where the computing resources are limited, saving computing resources is extremely important.
本発明は、輝度勾配方向を用いた画像認識で計算リソースを節約することを目的とする。 The present invention aims to save computational resources in image recognition using brightness gradient orientation.
(1)請求項1に記載の発明では、画像認識学習用の画像を取得する画像取得手段と、前記取得した画像を複数のブロックに区分する区分手段と、輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得手段と、前記取得したブロックごとの頻度分布を統合して1の頻度分布に統一する統一手段と、前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成手段と、を具備したことを特徴とする画像処理装置を提供する。
(2)請求項2に記載の発明では、前記統一手段が、前記複数のブロックにおける頻度分布を重畳することにより前記統合を行うことを特徴とする請求項1に記載の画像処理装置を提供する。
(3)請求項3に記載の発明では、前記統一手段が、前記取得したブロックごとの頻度分布に基づいてサンプルを発生させ、当該発生させたサンプルを前記複数のブロックに渡って足し合わせることにより、前記複数のブロックにおける頻度分布を重畳することを特徴とする請求項2に記載の画像処理装置を提供する。
(4)請求項4に記載の発明では、前記頻度分布取得手段が、同一画像の異なる解像度間における輝度勾配方向の共起の頻度分布を取得することを特徴とする請求項1、請求項2、又は請求項3に記載の画像処理装置を提供する。
(5)請求項5に記載の発明では、前記画像取得手段が、複数の画像を取得し、前記統一手段が、前記複数の画像のブロックごとの頻度分布を1の頻度分布に統一することを特徴とする請求項1から請求項4までのうちの何れか1の請求項に記載の画像処理装置を提供する。
(6)請求項6に記載の発明では、前記画像取得手段が、認識対象が写った認識対象画像と、認識対象が写っていない非認識対象画像を取得し、前記頻度分布取得手段が、前記認識対象画像と前記非認識対象画像の対応するブロックにおける輝度勾配方向の頻度分布の差異に基づいて、当該ブロックにおける頻度分布を取得することを特徴とする請求項1から請求項5までのうちの何れか1の請求項に記載の画像処理装置を提供する。
(7)請求項7に記載の発明では、前記基底関数は混合ガウスモデルによる確率密度関数であって、尤度と混合数の兼ね合いから適当な混合数を決定する決定手段を具備したことを特徴とする請求項1から請求項6までのうちの何れか1の請求項に記載の画像処理装置を提供する。
(8)請求項8に記載の発明では、前記複数のブロックには、頻度分布を統合する際の重み付けが設定されており、前記統一手段は、当該重み付けに従って、前記複数のブロックごとの頻度分布を統合することを特徴とする請求項1から請求項7までのうちの何れか1の請求項に記載の画像処理装置を提供する。
(9)請求項9に記載の発明では、請求項1から請求項8までのうちの何れか1の請求項に記載の基底関数を取得する基底関数取得手段と、画像認識に係る画像を取得する画像取得手段と、前記取得した画像をブロックに区分する区分手段と、前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得手段と、前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定手段と、を具備したことを特徴とする画像認識装置を提供する。
(10)請求項10に記載の発明では、画像認識学習用の画像を取得する画像取得機能と、前記取得した画像を複数のブロックに区分する区分機能と、輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得機能と、前記取得したブロックごとの頻度分布を統合して1の頻度分布に統一する統一機能と、前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成機能と、をコンピュータで実現する画像処理プログラムを提供する。
(11)請求項11に記載の発明では、請求項1から請求項8までのうちの何れか1の請求項に記載の基底関数を取得する基底関数取得機能と、画像認識に係る画像を取得する画像取得機能と、前記取得した画像をブロックに区分する区分機能と、前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得機能と、前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定機能と、をコンピュータで実現する画像認識プログラムを提供する。
(1) The invention described in
(2) In the invention as set forth in
(3) The invention described in
(4) In the invention described in claim 4, there is provided the image processing device described in
(5) The invention described in
(6) The invention described in claim 6 provides an image processing device according to any one of
(7) In the invention described in claim 7, there is provided an image processing device described in any one of
(8) In the invention described in
(9) The invention described in claim 9 provides an image recognition device comprising: a basis function acquisition means for acquiring a basis function described in any one of
(10) The invention described in
(11) The invention described in
複数のブロックに対して統一した基底関数を用いることにより、計算リソースを節約することができる。 By using a unified basis function for multiple blocks, computational resources can be saved.
(1)実施形態の概要
全ブロックの状態空間について統一したGMM-MRCoHOG特徴量を採用することにより、各ブロックに渡って基底関数を統一する。これにより、ハードウェア化に向けて、計算リソースの使用を大幅に削減することができる。
具体的には,各ブロックで学習に用いるポジティブ画像とネガティブ画像それぞれの輝度勾配方向の頻度分布をカーネル密度推定により確率密度分布で近似する。
次に,ポジティブ画像とネガティブ画像で特徴的な部分に着目し、JS情報量に基づく尺度を用いて累積分布関数を算出する。そして、逆関数法により全ブロックの累積分布関数から一定のサンプルを共通の特徴空間に生成し、EMアルゴリズムを用いて混合ガウス分布で近似する。近似の際には、赤池情報基準により、適当な混合数を自動決定する。
(1) Overview of the embodiment By adopting a unified GMM-MRCoHOG feature for the state space of all blocks, the basis functions are unified across each block. This allows for a significant reduction in the use of computational resources, in preparation for hardware implementation.
Specifically, the frequency distribution of the brightness gradient direction of each positive and negative image used for learning in each block is approximated by a probability density distribution using kernel density estimation.
Next, focusing on characteristic parts of the positive and negative images, the cumulative distribution function is calculated using a measure based on the JS information amount. A certain number of samples are then generated in a common feature space from the cumulative distribution functions of all blocks using the inverse function method, and approximated with a mixed Gaussian distribution using the EM algorithm. During the approximation, an appropriate number of mixtures is automatically determined using the Akaike information criterion.
(2)実施形態の詳細
図1は、画像処理装置8のハードウェア的な構成の一例を示した図である。
画像処理装置8は、CPU81、ROM82、RAM83、記憶装置84、記憶媒体駆動装置85、入力部86、及び出力部87などがバスラインで接続されて構成されている。
CPU81は、中央処理装置であって、記憶装置84が記憶する画像処理プログラムに従って動作し、学習用画像から画像認識に用いる基底関数を生成する処理を行う。
(2) Details of the embodiment FIG. 1 is a diagram showing an example of a hardware configuration of an
The
The
ROM82は、読み出し専用のメモリであって、CPU81を動作させるための基本的なプログラムやパラメータを記憶している。
RAM83は、読み書きが可能なメモリであって、CPU81が画像処理を行う際のワーキングメモリを提供する。
The
The
記憶装置84は、ハードディスクなどの大容量の記憶媒体を用いて構成されており、画像処理プログラムや学習用画像(学習画像データ)などを記憶している。
画像処理プログラムは、CPU81に画像処理機能を発揮させるプログラムである。
The
The image processing program is a program that causes the
記憶媒体駆動装置85は、例えば、半導体記憶装置やハードディスクなどの外付けの記憶媒体を駆動する装置である。
CPU81は、記憶媒体から学習画像データを読み込むことができる。
入力部86は、操作担当者からの入力を受け付けるキーボード、マウスなどの入力デバイスを備えており、各種プログラムやデータの読み込みや、操作担当者からの操作を受け付ける。
出力部87は、操作担当者に各種の情報を提示するディスプレイ、プリンタなどの出力デバイスを備えており、画像処理の操作画面、及び、画像処理結果を出力する。
The storage
The
The
The
このほかに、画像処理装置8は、通信ネットワークと接続する通信制御部や外部機器と接続するためのインターフェースなどを備えており、外部のサーバから学習画像データをダウンロードすることもできる。
In addition, the
画像処理装置8は、画像処理プログラムを実行することにより、図2から図4までの各図に示した工程に従って、GMM-MRCoHOG特徴量を用いた画像認識に用いる基底関数を生成する。以下、これについて説明する。
なお、GMM-MRCoHOG特徴量を用いた画像認識は、本願発明者らが開発した技術であって、極めて高い認識精度を誇っている。
The
Image recognition using GMM-MRCoHOG features is a technology developed by the present inventors and boasts extremely high recognition accuracy.
本実施形態では、図2(a)(d)に示したように、画像認識対象(歩行者とする)が様々な姿態で写ったポジティブ画像10と、歩行者を除いて背景となる様々な景色が写ったネガティブ画像20との間のJS(Jensen-Shannon)情報量を用いて基底関数を作成する。
JS情報量を用いると、より頑健に画像認識を行うことができることは、本願発明者らが見出したものである。
In this embodiment, as shown in FIGS. 2(a) and 2(d), a basis function is created using the JS (Jensen-Shannon) divergence between a
The inventors of the present application have found that use of the JS divergence enables more robust image recognition.
図では、ポジティブ画像10とネガティブ画像20をそれぞれ一枚ずつ示してあるが、画像処理装置8は、2万枚程度のポジティブ画像10とネガティブ画像20を学習して基底関数を作成する。
このように、画像処理装置8は、認識対象が写った認識対象画像(ポジティブ画像10)と、認識対象が写っていない非認識対象画像(ネガティブ画像20)で構成された、複数の画像認識学習用の画像を取得する画像取得手段を備えている。
In the figure, one
In this way, the
まず、画像処理装置8は、ポジティブ画像10を複数の同じ正方形のブロック11a、11b、11c、・・・に区分する。ここでは、一例として歩行者の形状に合わせて水平方向の3個、鉛直方向に6個の計18個のブロック11に区分する。
このように、画像処理装置8は、画像を複数のブロックに区分する区分手段を備えている。
そして、画像処理装置8は、各ブロック11における各画素の輝度勾配方向の共起の頻度分布を、図2(b)に示したブロック11ごとの特徴空間13a、13b、13c、・・・に写像する。
First, the
Thus, the
Then, the
輝度勾配方向は、例えば、当該画素の位置における低輝度から高輝度に向かう方向である。以下、勾配方向と略記することにする。
また、勾配方向を写像した空間、及び、これから派生する空間(後のサンプリングによる空間など)は、画像の特徴を抽出した空間であるため、特徴空間と呼ぶことにする。
ブロック11a、11b、11c、・・・や特徴空間13a、13b、13c、・・・を特に区別しない場合は、それぞれ、単にブロック11や特徴空間13と記すことにし、他の同様な構成要素についても同様とする。
The luminance gradient direction is, for example, the direction from low luminance to high luminance at the position of the pixel in question, and will hereinafter be abbreviated to gradient direction.
Furthermore, the space onto which the gradient direction is mapped and the space derived therefrom (such as the space obtained by subsequent sampling) are spaces into which image features are extracted, and therefore will be referred to as feature spaces.
When there is no need to distinguish between the
図5は、勾配方向の特徴空間13への写像を説明するための図である。
画像処理装置8は、図5(a)に示したように、ポジティブ画像10の解像度を変換して、ポジティブ画像10から、画像サイズの異なる高解像度画像15、中解像度画像16、低解像度画像17を生成する。
ポジティブ画像10の解像度が適当な場合は、ポジティブ画像10をそのまま高解像度画像15として使用する。画像処理装置8は、上記各解像度の画像に対して以下の処理をブロックごとに行う。
FIG. 5 is a diagram for explaining mapping of gradient directions onto the feature space 13. In FIG.
As shown in FIG. 5A, the
If the resolution of the
まず、画像処理装置8は、高解像度画像15、中解像度画像16、低解像度画像17のそれぞれの画素について勾配方向を計算する。勾配方向の角度は、0°~360°の連続値である。36方向など、量子化した値を用いることも可能である。
First, the
画像処理装置8は、勾配方向を算出すると、ブロック11aにおいて、基準とする画素(以下、注目画素)と、これから離れた位置にある画素(以下、オフセット画素)の勾配方向の共起を次のようにして取得する。
After calculating the gradient direction, the
まず、画像処理装置8は、図5(b)に示したように、高解像度画像15に注目画素5を設定し、高解像度画像15で注目画素5からオフセット距離1(即ち、高解像度において隣接する)にあるオフセット画素1a~1dに着目する。
なお、画素n個分の距離をオフセット距離nと呼ぶことにする。
First, as shown in FIG. 5(b), the
The distance of n pixels is referred to as the offset distance n.
そして、画像処理装置8は、注目画素5とオフセット画素1a~オフセット画素1dとの各勾配方向の共起(勾配方向の組合せ)を取得し、これに対応する点をデータ点51、51、・・・として、図5(c)に示すブロック11a用の特徴空間13aにプロットする。
Then, the
例えば、図5(b)において、注目画素5とオフセット画素1aの共起をプロットする場合、注目画素5の勾配方向が26°で、オフセット画素1aの勾配方向が135°であったとすると、画像処理装置8は、特徴空間13aの横軸が26°で縦軸が135°である位置にデータ点51をプロットする。
同様にして、画像処理装置8は、注目画素5とオフセット画素1b~1dとの共起を取得して特徴空間13aにプロットする。なお、注目画素5の上及び左にある画素との共起を取得しないのは、注目画素5を右側に順次移動しながら共起を取得していくので、既に前の段階で取得してプロットしてあるためである。
For example, in FIG. 5(b), when plotting the co-occurrence of the pixel of
Similarly, the
次に、画像処理装置8は、オフセット距離2に位置する中解像度画像16のオフセット画素2a~2dについて、同様に注目画素5との勾配方向の共起を取得して特徴空間13aにプロットし、更に、オフセット距離3に位置する低解像度画像15のオフセット画素3a~3dについて、同様に注目画素5との勾配方向の共起を取得して特徴空間13aにプロットする。
Next, the
画像処理装置8は、このようにして、高解像度から低解像度に渡るオフセット距離1~3のオフセット画素との勾配方向の共起をプロットすると、注目画素5をブロック11a内で順次移動しながら(注目画素5を中解像度画像16、低解像度画像17にも移動する)同様の処理を行って、ブロック11aについての特徴空間13aを完成させる。
In this way, the
なお、注目画素5の移動はブロック11a内で行うが、オフセット画素については、ブロック11aを超える場合でも選択する。また、ブロック11aの端部で隣接するオフセット画素がないものについては適当な方法により処理する。
同様にして、画像処理装置8は、ブロック11b、11c、・・・についても特徴空間13b、13c、・・・にデータ点をプロットしていく。これにより、勾配方向の共起の頻度分布をデータ点の粗密によって表した、ブロック11ごとの特徴空間13を得ることができる。
Although the movement of the pixel of
In the same manner, the
このように、画像処理装置8は、同一画像の異なる解像度間における輝度勾配方向の共起の頻度分布を区分したブロックごとに取得する頻度分布取得手段を備えており、解像度の違う複数の画像間の勾配方向の共起分布を連続値のまま特徴空間13に写像する。
図2に戻り、画像処理装置8は、図2(e)に示したように、ネガティブ画像20についても、ブロック11a、11b、11c、・・・に対応する特徴空間23a、23b、23c、・・・を作成する。
In this way, the
Returning to FIG. 2, the
次に、画像処理装置8は、図2(c)に示したように、特徴空間13にプロットしたポジティブデータ(特徴空間13上のデータ点)から確率密度関数fp(x)をブロック11ごとに生成する。図では、密度の高低を等高線で模式的に表している。
画像処理装置8は、同様にして、図2(f)に示したように、特徴空間23にプロットしたネガティブデータ(特徴空間23上のデータ点)から確率密度関数fn(x)を生成する。
Next, as shown in Fig. 2(c), the
Similarly, the
fp(x)とfn(x)は、図7(a)の式(3)で示したガウス型の関数をカーネル密度関数として、それぞれ、式(1)、(2)で表される。
nはデータ数である。Xi(p)、Xi(n)は、それぞれポジティブデータ、ネガティブデータであり、それぞれ2次元のベクトル量である。xは、特徴空間上の点であり、2次元のベクトル量である。
fp(x) and fn(x) are expressed by equations (1) and (2), respectively, with the Gaussian function shown in equation (3) in FIG. 7A being the kernel density function.
n is the number of data. Xi(p) and Xi(n) are positive data and negative data, respectively, and are two-dimensional vector quantities. x is a point in the feature space and is a two-dimensional vector quantity.
なお、図では上下付き文字を示してあるが、文字コード誤変換を避けるため、通常の文字で記載する。他の式も同様とする。また、ベクトル量は太字で表すところ、誤変換防止のため、これも通常の文字で記載する。
hは、バンド幅であって、分布の広がり程度をどのくらいにするか、といったような量を規定するパラメータである。これには適当な値を設定する。
Although the figures show superscript characters, they will be written in normal characters to avoid misconversion of character codes. The same applies to other equations. Also, vector quantities are written in bold, but they will also be written in normal characters to prevent misconversion.
h is a bandwidth, which is a parameter that defines the amount of spread of the distribution, etc. An appropriate value is set for this.
fp(x)、fn(x)は、それぞれ、ポジティブ画像10、ネガティブ画像20における勾配方向の共起の生起確率を表している。
このように、画像処理装置8は、ポジティブデータとネガティブデータの勾配方向の共起を連続値のまま特徴空間に投票し、投票したデータ点をカーネル密度関数推定によって確率密度関数に近似する。
fp(x) and fn(x) represent the probability of co-occurrence of gradient directions in the
In this way, the
次に、画像処理装置8は、図3(a)に示したように、ポジティブ画像10上とネガティブ画像20上でブロックの位置が対応する特徴空間(特徴空間13aと特徴空間23aなど)を組み合わせて、それぞれのfp(x)とfn(x)から図3(b)に示したように、JS情報量33を組ごとに生成する。
このようにして、画像処理装置8は、特徴空間13aと特徴空間23aの組からJS情報量33aを生成し、特徴空間13bと特徴空間23bの組からJS情報量33bを生成し、といったようにJS情報量33をブロック11ごとに生成する。
Next, the
In this way, the
JS情報量は、図7(b)の式(5)のJ(fp(x):fn(x))で表される。
J(fp(x):fn(x))は、式(4)で示したKL(Kullback-Leibler)情報量が対称性を持つように式(6)を用いて定義したものである。
JS情報量は、2つの確率分布の距離を計量する計量空間を構成し、これを用いることにより、xに対するfp(x)とfn(x)の類似度を算出することができる。
The JS information amount is expressed as J(fp(x):fn(x)) in equation (5) of FIG.
J(fp(x):fn(x)) is defined using equation (6) so that the KL (Kullback-Leibler) information amount shown in equation (4) has symmetry.
The JS divergence constitutes a metric space that measures the distance between two probability distributions, and by using this, the similarity between fp(x) and fn(x) for x can be calculated.
J(fp(x):fn(x))は、fp(x)とfn(x)の形状が異なるほど(類似していないほど)絶対値が大きくなる。このため、JS情報量によりfp(x)とfn(x)の何れか一方に特徴的な部分を表現することができる。
このような何れか一方に生起確率が偏っている、fp(x)とfn(x)の差異の箇所が情報として有用であり(偏っていない箇所は、歩行者であるか背景であるか判断が困難)、画像処理装置8は、当該差異の大きい領域の情報をJS情報量により抽出する。
このように、画像処理装置8が備える頻度分布取得手段は、認識対象画像と非認識対象画像の対応するブロックにおける輝度勾配方向の頻度分布の差異に基づいて、当該ブロックにおける頻度分布を取得する。
The absolute value of J(fp(x):fn(x)) increases as the shapes of fp(x) and fn(x) differ (are less similar). Therefore, the JS information amount can express the characteristic parts of either fp(x) or fn(x).
Areas where there is a difference between fp(x) and fn(x), where the occurrence probability is biased towards one side, are useful information (areas where there is no bias are difficult to determine whether they are pedestrians or background), and the
In this way, the frequency distribution acquisition means included in the
次に、画像処理装置8は、図3(c)に示したように、ブロック11ごとのJ(fp(x):fn(x))に対して、それぞれの累積分布関数を用いた逆関数法によりサンプリングして、ブロック11ごとにサンプル(特徴空間上の点)を発生させる。
このようにして、JS情報量33a、33b、・・・から、ブロック11a、11b、・・・ごとにサンプルを発生させた特徴空間35a、35b、・・・を生成する。
このように、画像処理装置8は、ブロックごとの頻度分布に基づいてサンプルを発生させる。
Next, as shown in FIG. 3( c), the
In this manner,
In this way, the
J(fp(x):fn(x))は、ポジティブデータとネガティブデータの何れか一方に偏っているため、逆関数法を用いたサンプリングにより生起確率が偏っている箇所に集中して多数のサンプルを生成させることができる。
カーネル密度推定を用いてJ(fp(x):fn(x))を求めると、基底となる式(3)のガウス分布の数がデータ数に依存するため、パラメータ数が非常に多くなっているが、これをサンプリングによって削減することができる。
Since J(fp(x):fn(x)) is biased toward either positive or negative data, sampling using the inverse function method can generate a large number of samples that are concentrated in areas where the occurrence probability is biased.
When J(fp(x):fn(x)) is calculated using kernel density estimation, the number of Gaussian distributions in the underlying equation (3) depends on the number of data, resulting in a very large number of parameters. However, this can be reduced by sampling.
なお、上の説明では、単一のポジティブ画像10から特徴空間13をブロックごとに生成しているが、画像処理装置8は、多数の学習用のポジティブ画像10から取得した特徴空間13をブロックごとに重畳して、ブロックごとの特徴空間13を作成する。
例えば、1枚目のポジティブ画像10から作成した特徴空間13a1、2枚目のポジティブ画像10から作成した特徴空間13a2、・・・・を足し合わせて特徴空間13aを作成し、同様に特徴空間13b1、13b2・・を足し合わせて特徴空間13bを作成する。ネガティブ画像20についても同様である。
In the above explanation, the feature space 13 is generated for each block from a single
For example, the feature space 13a1 created from the first
画像処理装置8は、図4(a)に示したように、ブロック11ごとのサンプリングデータによる特徴空間35を生成した後、図4(b)に示したように、これら特徴空間35a、35b、・・・のサンプルを全て足し合わせることによって統合し、これによって勾配方向の頻度分布がサンプルの粗密によって表された、統一した特徴空間36を生成する。
このように、画像処理装置8は、ブロックごとの頻度分布を重畳することにより統合して1の頻度分布に統一する統一手段を備えており、当該統一手段は、発生させたサンプルを複数のブロックに渡って足し合わせることにより、複数のブロックにおける頻度分布を重畳している。
更に、画像処理装置8は、多数の学習画像について、頻度分布を1つに統合するため、当該統一手段は、複数の画像のブロックごとの頻度分布を1の頻度分布に統一している。
As shown in FIG. 4(a), the
In this way, the
Furthermore, since the
変形例として、ブロック11に重み付けを設定しておき、当該ブロック11に対応する特徴空間35のサンプルを当該重み付けに従って加算するように構成することもできる。
例えば、重みの小さいブロック11については、サンプル1つにつき1つ加算し、重みの大きいブロック11については、サンプル1つにつき3つ加算するなどする。
これにより、重要度の低いブロック11(歩行者の写りにくい4隅のブロックなど)の重み付けを小さく設定し、重要度の高いブロック11の重み付けを高く設定することができる。
当該変形例では、複数のブロックに、頻度分布を統合する際の重み付けが設定されており、画像処理装置8が備える統一手段は、当該重み付けに従って、複数のブロックごとの頻度分布を統合する。
As a modified example, a weighting may be set for each
For example, for
This allows the weighting of
In this modified example, weighting is set for a plurality of blocks when integrating frequency distributions, and the unifying means included in the
画像処理装置8は、このように統一した特徴空間36を生成すると、図4(c)に示したように、c-AIC(後述する)を用いて混合数を決定し、更に、EMアルゴリズム(EステップとMステップを繰り返すことによりGMMの数式を探索する手法)によってGMMによる状態空間を生成し、これを基底関数37に設定する。
ここで、状態空間とは、ヒストグラムやGMMなどで特徴量の境界や配置が決定した空間を意味する。
このように、画像処理装置8は、統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成手段を備えている。
従来は、特徴空間35a、35b、・・・ごとにGMMを生成してブロック11ごとに基底関数を生成していたが、これに対し、本実施形態の画像処理装置8は、特徴空間36から全ブロック11に共通の基底関数37を生成するところが新規な点である。
After generating the
Here, the state space refers to a space in which the boundaries and arrangement of features are determined by a histogram, GMM, or the like.
In this manner, the
Conventionally, a GMM was generated for each
GMMは、ガウス分布を線形に重ね合わせて任意の分布を近似するモデルであり、式(11)で表される。kは混合数(重ね合わせるガウス分布の数)、Nは、平均がμkで分散共分散がΣkであるk番目のガウス分布の確率密度関数、θは混合数kの混合正規分布のパラメータである。
αjは、重ね合わせるガウス分布の重みを表す混合係数であって、足すと合計が1になる正の実数である。
GMMは、積分すると1になるように規格化されており、GMMによって特徴空間36のサンプルの分布を多峰性の確率密度関数p(x|θ)で近似することができる。
The GMM is a model that approximates an arbitrary distribution by linearly superimposing Gaussian distributions, and is expressed by Equation (11), where k is the mixture number (the number of Gaussian distributions to be superimposed), N is the probability density function of the k-th Gaussian distribution with mean μk and variance-covariance Σk, and θ is the parameter of the mixed normal distribution with the mixture number k.
αj is a mixing coefficient representing the weight of the Gaussian distributions to be overlapped, and is a positive real number whose sum is 1 when added.
The GMM is normalized so that its integration becomes 1, and the distribution of samples in the
GMMでは、混合数kを指定すると、対象となる分布をk個のクラスタにクラスタリングし、その上ガウス分布を配置する。
このように、GMMによる最適な状態空間を構成するためには混合数の決定が必要であるが、混合数は増やしすぎるとモデルの汎化能力が低下すると共に計算コストが増加するという問題がある。
そこで、画像処理装置8は、GMMを生成する前に、赤池情報基準(AIC)に基づいた尺度によって混合数を自動決定した。
In GMM, when the mixture number k is specified, the target distribution is clustered into k clusters and a Gaussian distribution is placed on top of them.
Thus, in order to construct an optimal state space using a GMM, it is necessary to determine the number of mixtures. However, if the number of mixtures is increased too much, the generalization ability of the model decreases and the calculation cost increases, which is a problem.
Therefore, before generating the GMM, the
図6は、赤池情報基準を説明するための図である。
赤池情報基準には、AIC(Akaike’s Information Criterion)と、これを用いたc-AIC(correction of AIC)がある。
ここで、AICは、統計的モデルの良さを評価する基準であり、汎化能力に優れたモデルであるほど小さな値となる。
一方、c-AICは、AICを少ないサンプルでも適応可能にしたものである。
図6(a)に示したように、AICは、単調減少するモデルのフィット度合いと単調増加するパラメータ数の和で表される。そして、AIC値が最小のモデルが、ペナルティとモデルの複雑さのバランスがとれ、汎化能力に優れたモデルとなる。
FIG. 6 is a diagram for explaining the Akaike information criterion.
The Akaike's information criterion includes AIC (Akai's Information Criterion) and c-AIC (correction of AIC) which uses AIC.
Here, AIC is a standard for evaluating the quality of a statistical model, and the more excellent the generalization ability of a model, the smaller its value.
On the other hand, c-AIC is a version of AIC that can be applied to a small number of samples.
As shown in Fig. 6(a), AIC is expressed as the sum of the monotonically decreasing degree of fit of the model and the monotonically increasing number of parameters. A model with the smallest AIC value has a good balance between penalty and model complexity and is a model with excellent generalization ability.
本実施形態では、AICを図7(c)の式(7)で定義した。
nはサンプル数、kは混合数、pは、GMMからのサンプルxiの生起確率、θk(ハットを省略)は、混合数kで構成されたGMMのパラメータである。
tkは、式(8)で表される。ここで、dはサンプルデータの次元数である。
In this embodiment, the AIC is defined by equation (7) in FIG.
n is the number of samples, k is the number of mixtures, p is the occurrence probability of sample xi from the GMM, and θk (hat omitted) is a parameter of the GMM configured with the number of mixtures k.
tk is expressed by the following equation (8): where d is the number of dimensions of the sample data.
ところで、AICは、大規模な標本サイズを前提としており、サンプル数が少ない場合にはパラメータ数を過大に見積もる傾向がある。
そこで、本実施形態では、サンプル数が少ない場合にモデルのシンプルさを高評価する、式(9)で表されたc-AICに従って混合数を決定した。
However, AIC assumes a large sample size and tends to overestimate the number of parameters when the number of samples is small.
Therefore, in this embodiment, the number of mixtures is determined according to c-AIC expressed by equation (9), which highly evaluates the simplicity of the model when the number of samples is small.
式(9)では、第1項を負の対数尤度によって構成し、モデルが複雑になるほど単調減少すると想定した。
また、第2項は、パラメータ数によるペナルティ項であり、単調増加する。
本実施形態では、いくつかの混合数に対してc-AIC値を計算して曲線近似し、これによる近似値から混合数を決定した。
曲線による近似値を用いることにより、学習データのばらつきに影響されずに、最もc-AICが低い混合数を決定することができる。
In equation (9), the first term is constructed by the negative log-likelihood, which is assumed to monotonically decrease as the model becomes more complex.
The second term is a penalty term depending on the number of parameters, and increases monotonically.
In this embodiment, the c-AIC values were calculated for several mixture numbers and curve approximation was performed, and the mixture number was determined from the approximated value obtained.
By using a curve approximation, the number of mixtures with the lowest c-AIC can be determined without being affected by the variability of the training data.
このようにして適当な混合数を探索したところ図6(b)のようになった。
このグラフの横軸は混合数を表しており、縦軸は負の対数尤度を示している。負の対数尤度が小さいほど(即ち、尤度が大きくなり)よいモデルであることを示している。
グラフにプロットした探査値は、c-AICの計算値であり、推定値は、探査値から求めた近似曲線上の点である。
グラフに示したように、混合数15程度以上では、負の対数尤度がほぼ一定となっており、15程度まで混合数を下げることが可能と思われる。
このように、画像処理装置8は、基底関数を混合ガウスモデルによる確率密度関数で生成し、尤度と混合数の兼ね合いから適当な混合数を決定する決定手段を備えている。
When an appropriate number of mixtures was searched for in this way, the result was as shown in FIG.
The horizontal axis of this graph represents the number of mixtures, and the vertical axis represents the negative log-likelihood. The smaller the negative log-likelihood (i.e., the larger the likelihood), the better the model.
The searched values plotted on the graph are the calculated values of c-AIC, and the estimated values are the points on the approximation curve obtained from the searched values.
As shown in the graph, when the number of mixtures is about 15 or more, the negative log-likelihood is almost constant, and it seems possible to reduce the number of mixtures to about 15.
In this way, the
図8は、画像処理装置8が行う基底関数生成処理を説明するためのフローチャートである。
CPU81は、記憶装置84からポジティブ画像10を1枚読み込み、RAM83に入力して記憶する(ステップ10)。
次に、CPU81は、ポジティブ画像10をブロック11に区分し、ブロックごとに勾配方向の共起を特徴空間13にプロットしてRAM83に記憶する(ステップ15)。
CPU81は、以上のポジティブ画像10に対するプログラム処理を基底関数生成に必要な枚数だけ行う。
次に、CPU81は、RAM83に記憶した多数の特徴空間13を、ブロック11ごとに重畳することにより、ブロック11ごとのfp(x)を生成してRAM83に記憶する(ステップ25)。
FIG. 8 is a flowchart for explaining the basis function generation process performed by the
The
Next, the
The
Next, the
次に、CPU81は、記憶装置84に記憶してあるネガティブ画像20に対しても、RAM83への入力(ステップ35)、特徴空間23へのプロット(ステップ40)を必要な枚数分だけ行い、そして、ブロック11ごとのfn(x)を生成してRAM83に記憶する(ステップ50)。
Next, the
次に、CPU81は、RAM83に記憶したfp(x)とfn(x)を用いてブロック11ごとのJS情報量を生成してRAM83に記憶する(ステップ55)。
次に、CPU81は、RAM83に記憶したJS情報量に基づいてサンプリングを行いブロック11ごとのサンプルによる特徴空間35を生成してRAM83に記憶する(ステップ60)。
Next, the
Next, the
次に、CPU81は、RAM83に記憶したブロック11ごとの特徴空間35を足し合わせることにより統合し、これによって統一した特徴空間36を生成してRAM83に記憶する(ステップ65)。
次に、CPU81は、RAM83に記憶した特徴空間36に対して、c-AICを用いて混合数を決定し、更に、EMアルゴリズムを用いて当該混合数に基づくGMMを生成する(ステップ70)。
そして、CPU81は、当該GMMをRAM83に記憶して、画像認識に用いる基底関数37に設定する(ステップ75)。
Next, the
Next, the
Then, the
次に、基底関数37を用いた画像の特徴の抽出方法について説明する。
図示しないが、画像認識装置9は、画像処理装置8と同様のハードウェア構成を有しており、画像認識プログラム、認識対象の画像、及び画像処理装置8が生成した基底関数37などを記憶した記憶装置94、画像認識プログラムに従って画像認識するCPU91、及び、これにワーキングメモリを提供するRAM93などを備えている。
Next, a method for extracting image features using the basis functions 37 will be described.
Although not shown in the figure, the image recognition device 9 has a hardware configuration similar to that of the
画像認識装置9は、次のように、画像の基底関数37に対する負担率を当該画像の特徴量として算出する。
負担率λjは、図7(d)の式(10)で表され、zは潜在パラメータ(j番目の成分が1で他が0となるk次元のベクトル量)である。
負担率λjは、データ点の分布xがj番目のガウス分布から生成される確率を表している。
各zについて計算するとλjによるk次元のベクトルが得られるが、画像認識装置9は、これを特徴量とする。データ点xがポジティブ画像10とネガティブ画像20の何れにも類似していない場合は0ベクトルに近づく。
このような原理に基づき、画像認識装置9は、次のようにして画像から特徴量を抽出する。
The image recognition device 9 calculates the burden rate of the image with respect to the
The burden rate λj is expressed by equation (10) in FIG. 7(d), where z is a latent parameter (a k-dimensional vector quantity in which the j-th component is 1 and the others are 0).
The contribution rate λ j represents the probability that the distribution of data points x is generated from the j-th Gaussian distribution.
When the calculation is performed for each z, a k-dimensional vector by λj is obtained, which is used as a feature by the image recognition device 9. If the data point x is not similar to either the
Based on this principle, the image recognition device 9 extracts features from an image in the following manner.
図9は、画像認識方法を説明するための図である。
以下の処理は、CPU91が画像認識プログラムに従って行うものである。
図9(a)に示したように、画像認識装置9は、画像認識対象である画像40をRAM93に読み込み、その上に識別フィルタ41aで矩形領域を設定する。
このように、画像認識装置9は、画像認識に係る画像を取得する画像取得手段を備えている。
そして、画像認識装置9は、識別フィルタ41aによって抽出した画像を、例えば、ポジティブ画像10やネガティブ画像20と同じ3×6個のブロック11a、11b、・・・に区分する。
このように、画像認識装置9は、取得した画像をブロックに区分する区分手段を備えている。
FIG. 9 is a diagram for explaining the image recognition method.
The following process is performed by the CPU 91 in accordance with the image recognition program.
As shown in FIG. 9A, the image recognition device 9 reads an
In this manner, the image recognition device 9 includes an image acquisition means for acquiring an image related to image recognition.
Then, the image recognition device 9 divides the image extracted by the
Thus, the image recognition device 9 includes a division means for dividing the acquired image into blocks.
次いで、画像認識装置9は、ブロック11ごとに高中低の解像度に渡って勾配方向の共起を特徴空間13にプロットする。
そして、画像認識装置9は、記憶装置94から基底関数37を読み出して、その基底関数37に対する各ブロック11の負担率を図7(d)の式(10)によって計算する。
このように、画像認識装置9は、画像処理装置8が生成した基底関数を取得する基底関数取得手段と、区分した各ブロックに対して当該基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得手段を備えている。
The image recognition device 9 then plots the co-occurrence of gradient directions across high, medium and low resolutions for each
Then, the image recognition device 9 reads out the
In this way, the image recognition device 9 is equipped with a basis function acquisition means for acquiring the basis function generated by the
画像認識装置9は、このようにして算出した負担率による特徴量を用いて識別フィルタ41内の画像に歩行者が写っているか否かを判断し、判断結果をRAM93に記憶する。
これは各種の方法が考えられ、例えば、ブロック11ごとに判定してそれを総合判定してもよいし、あるいは、各ブロック11の負担率を統合して全体として判定してもよい。
The image recognition device 9 uses the feature amount based on the load ratio calculated in this manner to determine whether or not a pedestrian is captured in the image in the discrimination filter 41 , and stores the determination result in the RAM 93 .
This can be achieved in various ways. For example, a judgment may be made for each
判定は、例えば、SVM(サポートベクターマシン)やAdaBoostなどの識別器に正規化した特徴量を入力して行うことができる。
画像認識装置9は、このようにして識別フィルタ41a内の画像を判定すると、識別フィルタ41を1ブロックずつシフトしながら画像40を走査し、同様の判定を行っていく。
このように、画像認識装置9は、各ブロックから取得した特徴量を用いて画像に所定の画像認識対象が写っているか否かを判定する判定手段を備えている。
The determination can be performed, for example, by inputting normalized features into a classifier such as an SVM (support vector machine) or AdaBoost.
After the image recognition device 9 has determined the image in the
In this manner, the image recognition device 9 includes a determination means for determining whether or not a predetermined image recognition target is included in an image using the feature amount acquired from each block.
画像認識装置9は、全ブロック11で統一した最適なGMMによる状態空間を作成し、各ブロック11に同一の基底関数37を適用するため、各ブロック11同士の状態空間に互換性がある。
これにより、識別フィルタ41を移動させても一度計算したブロック11は特徴量の引き継ぎが可能となり、画像中の識別フィルタ41をスライドさせても、その都度特徴量を計算し直す必要が無くなる。
The image recognition device 9 creates a state space by an optimal GMM that is unified for all
This makes it possible for the
例えば、図9(a)の識別フィルタ41aと識別フィルタ41bでは、ブロック11Aが共通である。
従来は、識別フィルタ41ごとのブロック11ごとに基底関数を設定していたため、図9(b)上図に示したように、同じブロック11Aであるにもかかわらず、特徴量を再度計算していた。
For example, the
Conventionally, a basis function is set for each
これに対し、画像認識装置9は、同じ基底関数37を使用するため、図9(b)下図に示したように、識別フィルタ41a、41bで、ブロック11Aの特徴量が同じ値になるため、先に計算した特徴量を引き継ぐことができる。これにより計算リソースを大幅に節約することができる。
In contrast, the image recognition device 9 uses the
このように、従来手法では、各ブロックで使用する基底関数が異なるため、隣接した矩形領域の特徴量を計算する際、重複した領域があるにも関わらず、全ての領域で特徴量の計算を再度行う必要があり、計算コストが高くなっていたが、共通の基底関数37を採用することにより、これらの問題を解決することができる。
As described above, in conventional methods, because different basis functions are used for each block, when calculating the features of adjacent rectangular regions, the feature calculations must be performed again for all regions, even though there are overlapping regions, resulting in high calculation costs. However, by adopting a
更に、GMMを用いない従来方式では、図9(c)上図のように、ブロック11ごとに設定した2次元ヒストグラムに、例えば、8方向に量子化した勾配方向のペアを投票していた。ヒストグラムのビンは、認識対象にかかわらず設定したため、画像の特徴が現れないビンにも投票していた。
これに対し、GMMによって状態空間を生成する方式では、図9(c)下図のように、画像の特徴が現れる領域に対して自律的に確率密度の高い領域が形成されるため、領域45のように、特徴の現れない領域に対する処理を行わずに済む。これにより、計算コストを低減することができる。
Furthermore, in the conventional method that does not use GMM, as shown in the upper diagram of Fig. 9(c), for example, pairs of gradient directions quantized into eight directions are voted for in a two-dimensional histogram set for each
In contrast, in the method of generating a state space by GMM, as shown in the lower diagram of Fig. 9(c), a region with high probability density is formed autonomously in the region where image features appear, so there is no need to process regions where features do not appear, such as
更に、従来は、ブロック11ごとに基底関数を設定していたため、例えば、基底関数を3×6のブロック11で生成した場合は、識別フィルタも3×6にする必要があった。
これに対し、本実施形態の方式では、基底関数37が共通なため、識別フィルタを、例えば、3×5にするなど、ブロック単位で変形して設計することも可能な場合がある。これにより、識別フィルタ作成側のシステムと識別フィルタ使用側のシステムの結合を従来よりも疎とすることができる。
Furthermore, conventionally, a basis function is set for each
In contrast to this, in the method of this embodiment, since the
図10は、画像処理装置8が生成した基底関数37を用いて画像認識を行った結果を表したグラフである。
図10(a)、(b)、(c)は、c-AIC値に基づき、それぞれ混合数k=45、32、15とした場合のROC(Receiver Operating Characteristic)曲線であって、横軸は誤検出率、縦軸は正検出率を示している。
FIG. 10 is a graph showing the results of image recognition using the basis functions 37 generated by the
10(a), (b), and (c) are ROC (Receiver Operating Characteristic) curves based on the c-AIC value when the mixture number k is 45, 32, and 15, respectively, where the horizontal axis indicates the false positive rate and the vertical axis indicates the true positive rate.
太線は基底関数を基底関数37に統一した画像認識装置9によるGMM-MRCoHOG特徴量の場合、破線はブロック11ごとに異なる基底関数を用いた従来のGMM-MRCoHOG特徴量を用いた場合、細線はヒストグラムを用いたMRCoHOG特徴量の場合を示しており、曲線が左上の隅に寄るほどよい精度であることを示している。
The thick line shows the GMM-MRCoHOG features obtained by the image recognition device 9 with the basis function unified to
グラフに示したように、k=45では、基底関数を統一したGMM-MRCoHOG特徴量を用いた場合は、従来のGMM-MRCoHOG特徴量を用いた場合に比べて認識精度が若干劣るが、従来のMRCoHOG特徴量を用いた場合に比べて高い認識精度を誇っており、十分に実用に耐えることができる。
k=32、15では、基底関数を統一したGMM-MRCoHOG特徴量を用いた場合は、k=45の場合よりも若干認識精度が劣るが、従来のMRCoHOG特徴量を用いた場合に比べて高い認識精度を誇っており、十分に実用に耐えることができる。
As shown in the graph, when k=45, the recognition accuracy is slightly lower when the GMM-MRCoHOG features with unified basis functions are used than when the conventional GMM-MRCoHOG features are used, but it is still higher in recognition accuracy than when the conventional MRCoHOG features are used, and is fully practical.
When k=32 and 15, the recognition accuracy is slightly lower when the GMM-MRCoHOG features with a unified basis function are used than when k=45. However, the recognition accuracy is higher than when the conventional MRCoHOG features are used, and the recognition accuracy is sufficient for practical use.
以上、本実施形態について説明したが、各種の変形が可能である。
例えば、本実施形態では、ポジティブ画像とネガティブ画像を用いたが、基底関数の作成は、ポジティブ画像だけで行うことも可能である。
また、本実施形態では、確率分布間の計量にJS情報量を用いたが、他の計量を用いることも可能である。
Although the present embodiment has been described above, various modifications are possible.
For example, in this embodiment, positive and negative images are used, but the basis functions can also be created using only positive images.
In addition, in this embodiment, the JS divergence is used as a metric between probability distributions, but other metrics can also be used.
以上に説明したように、本実施形態によれば、各ブロックで使用する基底関数を一つに統一することでメモリの使用量を大幅に低減することができる。
また、基底関数が各ブロックで共通なため、隣接した矩形領域の特徴量を計算する際においても、既に計算した特徴量を活用でき、計算コストの削減が可能となる。
また、基底関数を統一することで精度低下が懸念されるが、赤池情報量規準に基づく尺度を用いて混合数を自動決定することにより、計算リソースの使用を抑制したまま精度を保つことができる。より精度を上げたい場合は、混合数を増加させればよい。
これにより、FPGAや小型コンピュータ、あるいは、GPGPU(General-purpose computing on graphics processing units)などの高機能な演算処理を有しない機器に高い識別能力を維持したまま搭載することができる。
As described above, according to this embodiment, the amount of memory used can be significantly reduced by unifying the basis functions used in each block into one.
In addition, since the basis functions are common to each block, when calculating the features of adjacent rectangular regions, the features that have already been calculated can be used, making it possible to reduce calculation costs.
Although there is concern that the accuracy may decrease due to the unification of basis functions, it is possible to maintain accuracy while suppressing the use of computational resources by automatically determining the number of mixtures using a measure based on the Akaike Information Criterion. If you want to improve accuracy further, you can simply increase the number of mixtures.
This allows the device to be installed in devices that do not have high-performance arithmetic processing, such as FPGAs, small computers, or general-purpose computing on graphics processing units (GPGPUs), while maintaining high discrimination capabilities.
5 注目画素
8 画像処理装置
10 ポジティブ画像
11 ブロック
13、23、35、36 特徴空間
15 高解像度画像
16 中解像度画像
17 低解像度画像
20 ネガティブ画像
33 JS情報量
37 基底関数
40 画像
41 識別フィルタ
45 領域
81 CPU
82 ROM
83 RAM
84 記憶装置
85 記憶媒体駆動装置
86 入力部
87 出力部
5 Pixel of
82 ROM
83 RAM
84
Claims (11)
前記取得した画像を複数のブロックに区分する区分手段と、
輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得手段と、
前記取得したブロックごとの頻度分布を統合して1の頻度分布に統一する統一手段と、
前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成手段と、
を具備したことを特徴とする画像処理装置。 An image acquisition means for acquiring images for image recognition training;
A partitioning means for partitioning the acquired image into a plurality of blocks;
a frequency distribution acquiring means for acquiring a frequency distribution of co-occurrence of luminance gradient directions for each of the divided blocks;
a unifying means for unifying the acquired frequency distributions for each block into a single frequency distribution;
a basis function generating means for generating a basis function serving as a criterion for image recognition based on the unified frequency distribution;
13. An image processing device comprising:
ことを特徴とする請求項1に記載の画像処理装置。 the unifying means performs the unification by superimposing the frequency distributions in the plurality of blocks.
2. The image processing device according to claim 1,
ことを特徴とする請求項2に記載の画像処理装置。 the unifying means generates a sample based on the acquired frequency distribution for each block, and adds up the generated samples across the plurality of blocks, thereby superimposing the frequency distributions in the plurality of blocks.
3. The image processing device according to claim 2.
ことを特徴とする請求項1、請求項2、又は請求項3に記載の画像処理装置。 the frequency distribution acquisition means acquires a frequency distribution of co-occurrence of brightness gradient directions between different resolutions of the same image;
4. The image processing device according to claim 1, 2 or 3.
前記統一手段は、前記複数の画像のブロックごとの頻度分布を1の頻度分布に統一する、
ことを特徴とする請求項1から請求項4までのうちの何れか1の請求項に記載の画像処理装置。 The image acquisition means acquires a plurality of images;
the unifying means unifies frequency distributions for each block of the plurality of images into a single frequency distribution.
5. The image processing device according to claim 1, wherein the image processing device further comprises: a first input unit;
前記頻度分布取得手段は、前記認識対象画像と前記非認識対象画像の対応するブロックにおける輝度勾配方向の頻度分布の差異に基づいて、当該ブロックにおける頻度分布を取得することを特徴とする、
請求項1から請求項5までのうちの何れか1の請求項に記載の画像処理装置。 The image acquisition means acquires a recognition target image including a recognition target and a non-recognition target image including no recognition target,
the frequency distribution acquisition means acquires a frequency distribution in a corresponding block based on a difference between a frequency distribution of a luminance gradient direction in the corresponding block of the recognition target image and the non-recognition target image,
6. An image processing device according to any one of claims 1 to 5.
ことを特徴とする請求項1から請求項6までのうちの何れか1の請求項に記載の画像処理装置。 The basis function is a probability density function based on a Gaussian mixture model, and a determination means is provided for determining an appropriate number of mixtures based on a balance between likelihood and number of mixtures.
7. The image processing device according to claim 1, wherein the image processing device further comprises: a first input section;
ことを特徴とする請求項1から請求項7までのうちの何れか1の請求項に記載の画像処理装置。 a weighting factor is set for each of the plurality of blocks when integrating the frequency distributions, and the unifying means integrates the frequency distributions of each of the plurality of blocks in accordance with the weighting factor;
8. The image processing device according to claim 1, wherein the image processing device further comprises:
画像認識に係る画像を取得する画像取得手段と、
前記取得した画像をブロックに区分する区分手段と、
前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得手段と、
前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定手段と、
を具備したことを特徴とする画像認識装置。 A basis function acquisition means for acquiring the basis function according to any one of claims 1 to 8;
An image acquisition means for acquiring an image related to image recognition;
A partitioning means for partitioning the acquired image into blocks;
a feature acquisition means for applying the acquired basis function to each of the divided blocks and acquiring a feature for the basis function;
a determining means for determining whether or not a predetermined image recognition target is included in the acquired image by using the feature amount acquired from each block;
An image recognition device comprising:
前記取得した画像を複数のブロックに区分する区分機能と、
輝度勾配方向の共起の頻度分布を前記区分したブロックごとに取得する頻度分布取得機能と、
前記取得したブロックごとの頻度分布を統合して1の頻度分布に統一する統一機能と、
前記統一した頻度分布に基づいて画像認識の基準となる基底関数を生成する基底関数生成機能と、
をコンピュータで実現する画像処理プログラム。 An image acquisition function to acquire images for image recognition training;
A segmentation function for segmenting the acquired image into a plurality of blocks;
a frequency distribution acquisition function for acquiring a frequency distribution of co-occurrence of luminance gradient directions for each of the divided blocks;
A unification function for unifying the frequency distributions for each block obtained by integrating them into a single frequency distribution;
a basis function generating function for generating a basis function serving as a criterion for image recognition based on the unified frequency distribution;
An image processing program that realizes this on a computer.
画像認識に係る画像を取得する画像取得機能と、
前記取得した画像をブロックに区分する区分機能と、
前記区分した各ブロックに対して前記取得した基底関数を適用し、当該基底関数に対する特徴量を取得する特徴量取得機能と、
前記各ブロックから取得した特徴量を用いて前記取得した画像に所定の画像認識対象が写っているか否かを判定する判定機能と、
をコンピュータで実現する画像認識プログラム。 A basis function acquisition function for acquiring the basis function according to any one of claims 1 to 8;
An image acquisition function for acquiring an image related to image recognition;
A segmentation function for segmenting the acquired image into blocks;
a feature acquisition function that applies the acquired basis function to each of the divided blocks and acquires a feature for the basis function;
a determination function for determining whether or not a predetermined image recognition target is included in the acquired image by using the feature amount acquired from each block; and
An image recognition program that realizes this on a computer.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021054053A JP7549841B2 (en) | 2021-03-26 | 2021-03-26 | Image processing device, image recognition device, image processing program, and image recognition program |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021054053A JP7549841B2 (en) | 2021-03-26 | 2021-03-26 | Image processing device, image recognition device, image processing program, and image recognition program |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2022151129A JP2022151129A (en) | 2022-10-07 |
| JP7549841B2 true JP7549841B2 (en) | 2024-09-12 |
Family
ID=83465204
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021054053A Active JP7549841B2 (en) | 2021-03-26 | 2021-03-26 | Image processing device, image recognition device, image processing program, and image recognition program |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP7549841B2 (en) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018124963A (en) | 2017-01-31 | 2018-08-09 | 株式会社エクォス・リサーチ | Image processing apparatus, image recognition apparatus, image processing program, and image recognition program |
-
2021
- 2021-03-26 JP JP2021054053A patent/JP7549841B2/en active Active
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2018124963A (en) | 2017-01-31 | 2018-08-09 | 株式会社エクォス・リサーチ | Image processing apparatus, image recognition apparatus, image processing program, and image recognition program |
Non-Patent Citations (2)
| Title |
|---|
| Sowmiya D. et al.,"Human detection in public environment using GHOG: Gaussian of mixtures & Histogram of Oriented Gradients",2013 Fifth International Conference on Advanced Computing (ICoAC),IEEE,2013年,pp.263-267,[検索日 2024.8.2], インターネット:<URL:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=6921961&tag=1>,DOI: 10.1109/ICoAC.2013.6921961 |
| 道下裕也 外5名,歩行者検出における混合正規分布を用いた状態空間の自律構成法,電気学会論文誌C,一般社団法人電気学会,2018年09月01日,第138巻 第9号,pp.1100~1107 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2022151129A (en) | 2022-10-07 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN112506342B (en) | Man-machine interaction method and system based on dynamic gesture recognition | |
| EP3333768B1 (en) | Method and apparatus for detecting target | |
| CN111462120B (en) | Defect detection method, device, medium and equipment based on semantic segmentation model | |
| CN109918969B (en) | Face detection method and device, computer device and computer readable storage medium | |
| US7995055B1 (en) | Classifying objects in a scene | |
| US7756296B2 (en) | Method for tracking objects in videos using forward and backward tracking | |
| US8675974B2 (en) | Image processing apparatus and image processing method | |
| WO2016054779A1 (en) | Spatial pyramid pooling networks for image processing | |
| JP6351240B2 (en) | Image processing apparatus, image processing method, and program | |
| CN110765860A (en) | Tumble determination method, tumble determination device, computer apparatus, and storage medium | |
| CN113361495A (en) | Face image similarity calculation method, device, equipment and storage medium | |
| JP6393230B2 (en) | Object detection method and image search system | |
| Luotamo et al. | Multiscale cloud detection in remote sensing images using a dual convolutional neural network | |
| CN118429388B (en) | Visual tracking method and device based on image processing | |
| JP2018022360A (en) | Image analysis device, image analysis method and program | |
| WO2021010342A1 (en) | Action recognition device, action recognition method, and action recognition program | |
| CN115984583B (en) | Data processing method, apparatus, computer device, storage medium, and program product | |
| US20240062527A1 (en) | Training device and training method | |
| Wang et al. | Salient object detection by robust foreground and background seed selection | |
| CN115512207A (en) | Single-stage target detection method based on multipath feature fusion and high-order loss sensing sampling | |
| JP7549841B2 (en) | Image processing device, image recognition device, image processing program, and image recognition program | |
| CN119992238A (en) | Hyperspectral target detection and recognition method and system based on semantic and spatial-spectral feature fusion | |
| CN113963178A (en) | Method, device, equipment and medium for detecting infrared dim and small target under ground-air background | |
| JP2022129792A (en) | Area conversion apparatus, area conversion method, and area conversion system | |
| Hassan et al. | Salient object detection based on CNN fusion of two types of saliency models |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20210728 |
|
| RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20231020 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20231108 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240722 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240809 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240822 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7549841 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |