JP6124566B2

JP6124566B2 - 画像認識方法および画像認識装置

Info

Publication number: JP6124566B2
Application number: JP2012260886A
Authority: JP
Inventors: 修一榎田; 俊朗江島; 雄大市野; 央出口; 智之堀内; 寿之河野
Original assignee: Kyushu Institute of Technology NUC; Yaskawa Electric Corp
Current assignee: Kyushu Institute of Technology NUC; Yaskawa Electric Corp
Priority date: 2012-11-29
Filing date: 2012-11-29
Publication date: 2017-05-10
Anticipated expiration: 2032-11-29
Also published as: JP2014106856A

Description

この発明は、画像認識方法および画像認識装置に関する。

従来、予め登録された登録画像から識別器を作成し、作成された識別器を用いて入力された新規画像の属性を判定して、画像を認識する画像認識方法が知られている（たとえば、特許文献１参照）。上記特許文献１では、予め登録された登録画像（たとえばワークの画像）を部分画像に分解し、部分画像上の任意の２点の輝度差が特徴量として抽出され、登録画像が学習される。そして、学習された登録画像（部分画像）と、入力された新規画像（たとえばワークの画像）の部分画像とのマッチングに基づいて、新規画像の認識（たとえばワークの位置や姿勢の認識）が行われるように構成されている。なお、特徴量として部分画像上の任意の２点の輝度差を用いる場合、この特徴量が部分画像の回転に対して不変でないため、予め登録された登録画像に、光軸（ワークを撮影するレンズに垂直な軸）周りにワークを回転させた画像を含めておく必要がある。

特開２０１１−２２９９１号公報

しかしながら、上記特許文献１に記載の画像認識方法では、ワークの位置や姿勢を求めるために、光軸周りにワークを回転させた画像（所定の角度毎に回転させたワークの画像）が必要になるため、その分、予め登録された登録画像の数が増大し、入力された新規画像の認識（登録画像と新規画像とのマッチング）に時間がかかるという問題点がある。

この発明は、上記のような課題を解決するためになされたものであり、この発明の１つの目的は、画像の認識に時間がかかるのを抑制することが可能な画像認識方法および画像認識装置を提供することである。

上記目的を達成するために、第１の局面による画像認識方法は、学習画像に対して複数の特徴点を抽出するステップと、抽出された特徴点に対して、回転不変な特徴量を用いて特徴量を算出するステップと、算出された学習画像の特徴点の特徴量に基づいて、特徴点の属性を判定するための識別器を作成するステップと、推定画像に対して複数の特徴点を抽出するステップと、識別器を用いて抽出された推定画像の複数の特徴点の属性を集約して推定対象の位置を判定して、推定画像を認識するステップとを備える。

この第１の局面による画像認識方法では、上記のように、抽出された特徴点に対して、回転不変な特徴量を用いて特徴量を算出するステップを備えることによって、回転不変でない特徴量を用いて特徴点の特徴量が抽出される場合と異なり、所定の角度毎に回転した学習画像を学習する必要がない。すなわち、回転不変でない特徴量に基づいて、特徴点の属性を判定するための識別器を作成する場合と比べて、より少ない学習画像から識別器を作成することができるので、識別器を用いて推定画像の特徴点の属性を判定する際に、推定画像の特徴点とマッチングされる学習画像の特徴点の数を少なくすることができ、その分、計算量を少なくすることができる。その結果、画像の認識に時間がかかるのを抑制することができる。

第２の局面による画像認識装置は、学習画像に対して複数の特徴点を抽出する第１特徴点抽出手段と、抽出された特徴点に対して、回転不変な特徴量を用いて特徴量を算出する特徴量算出手段と、算出された学習画像の特徴点の特徴量に基づいて、特徴点の属性を判定するための識別器を作成する識別器作成手段と、推定画像に対して複数の特徴点を抽出する第２特徴点抽出手段と、識別器を用いて抽出された推定画像の複数の特徴点の属性を集約して推定対象の位置を判定して、推定画像を認識する認識手段とを備える。

この第２の局面による画像認識装置では、上記のように、抽出された特徴点に対して、回転不変な特徴量を用いて特徴量を算出する特徴量算出手段を備えることによって、回転不変でない特徴量を用いて特徴点の特徴量が抽出される場合と異なり、所定の角度毎に回転した学習画像を学習する必要がない。すなわち、回転不変でない特徴量に基づいて、特徴点の属性を判定するための識別器を作成する場合と比べて、より少ない学習画像から識別器を作成することができるので、識別器を用いて推定画像の特徴点の属性を判定する際に、推定画像の特徴点とマッチングされる学習画像の特徴点の数を少なくすることができ、その分、計算量を少なくすることができる。その結果、画像の認識に時間がかかるのを抑制することが可能な画像認識装置を提供することができる。

上記のように構成することによって、画像の認識に時間がかかるのを抑制することができる。

本発明の一実施形態によるロボットシステムの全体図である。本発明の一実施形態によるロボットシステムのブロック図である。本発明の一実施形態による画像認識方法の学習時のフロー図である。本発明の一実施形態による画像認識方法の分類木の概念図である。本発明の一実施形態による画像認識方法の推定時のフロー図である。本発明の一実施形態による画像認識方法の推定時の概念図である。本発明の一実施形態による画像認識方法を用いて行った実験１におけるワークの斜視図である。本発明の一実施形態による画像認識方法を用いて行った実験１における学習画像を示す図である。本発明の一実施形態による画像認識方法を用いて行った実験１における推定シーン（バラ積みされたワーク）を示す図である。本発明の一実施形態による画像認識方法を用いて行った実験１における推定時の投票面（投票結果）を示す図である。本発明の一実施形態による画像認識方法を用いて行った実験２におけるワークの斜視図である。本発明の一実施形態による画像認識方法を用いて行った実験２における学習画像（ワークの表面）を示す図である。本発明の一実施形態による画像認識方法を用いて行った実験２における学習画像（ワークの裏面）を示す図である。本発明の一実施形態による画像認識方法を用いて行った実験２における推定シーン（バラ積みされたワーク）を示す図である。本発明の一実施形態による画像認識方法を用いて行った実験２におけるワークの表面の推定時の投票面（投票結果）を示す図である。本発明の一実施形態による画像認識方法を用いて行った実験２におけるワークの裏面の推定時の投票面（投票結果）を示す図である。

以下、本実施形態を図面に基づいて説明する。

まず、図１および図２を参照して、本実施形態によるロボットシステム１００の構成について説明する。

図１および図２に示すように、ロボットシステム１００には、ロボット１と、ロボットコントローラ２と、センサユニット（画像センサユニット）３とが設けられている。なお、センサユニット３は、本発明の「画像認識装置」の一例である。

図１に示すように、ロボット１は、基台１１と、基台１１に取り付けられるロボットアーム１２と、ロボットアーム１２の先端に取り付けられるエンドエフェクタ１３とを備えている。ロボットアーム１２は、６自由度を有して構成されている。ロボットアーム１２は、複数のアーム構造体を有しており、ロボット１の設置面に対して垂直な回転軸Ａ１まわりにアーム構造体１２ａが基台１１に対して回転可能に連結されている。アーム構造体１２ｂは、回転軸Ａ１に対して垂直な回転軸Ａ２まわりに回転可能にアーム構造体１２ａに連結されている。アーム構造体１２ｃは、回転軸Ａ２に対して平行な回転軸Ａ３まわりに回転可能にアーム構造体１２ｂに連結されている。アーム構造体１２ｄは、回転軸Ａ３に対して垂直な回転軸Ａ４まわりに回転可能にアーム構造体１２ｃに連結されている。アーム構造体１２ｅは、回転軸Ａ４に対して垂直な回転軸Ａ５まわりに回転可能にアーム構造体１２ｄに連結されている。アーム構造体１２ｆは、回転軸Ａ５に対して垂直な回転軸Ａ６まわりに回転可能にアーム構造体１２ｅに連結されている。なお、ここでいう「平行」「垂直」は、厳密な意味の「平行」および「垂直」だけでなく、「平行」および「垂直」から少しずれているものも含む広い意味である。各回転軸Ａ１〜Ａ６にはそれぞれサーボモータ（関節）が設けられており、各サーボモータは、それぞれの回転位置を検出するエンコーダを有している。各サーボモータは、ロボットコントローラ２に接続されており、ロボットコントローラ２の指令に基づいて各サーボモータが動作するように構成されている。

図２に示すように、センサユニット３には、２次元画像を撮影するカメラ３１と、レーザスキャナ３２とが設けられている。また、センサユニット３の内部には、画像処理部３４およびメモリ３５を含むセンサコントローラ３３が設けられている。また、センサユニット３は、レーザスキャナ３２から、バラ積みされたワーク２００（推定対象、図１参照）にレーザ光を照射するとともに、ワーク２００から反射される光をカメラ３１により撮影することにより、ワーク２００の３次元形状を計測するように構成されている。また、センサユニット３は、ワーク２００の３次元形状を計測（ワーク２００までの距離や、ワーク２００の詳細な位置および姿勢の推定）することが可能である一方、本実施形態では、詳細な位置や姿勢の推定の前に、カメラ３１により撮影された２次元画像に基づいて、ワーク２００（および後述するワーク２０１、図１１参照）の概略の位置の推定が、画像処理部３４により、行われるように構成されている。なお、画像処理部３４は、「第１特徴点抽出手段」、「特徴量算出手段」、「識別器作成手段」、「第２特徴点抽出手段」および「認識手段」の一例である。また、ワーク２００および２０１は、「推定対象」の一例である。以下では、本実施形態による画像認識方法（ワーク２００および２０１の概略位置の推定方法）について説明する。

（ＤｏＧに基づく回転不変な特徴量）
まず、画像認識方法において用いられる回転不変な特徴量について説明する。本実施形態では、回転不変な特徴量としてＤｏＧ（Ｄｉｆｆｅｒｅｎｃｅ−ｏｆ−Ｇａｕｓｓｉａｎ）が用いられる。以下に、ＤｏＧ（ＤｏＧ値）について説明する。まず、任意の特徴点（ｘ，ｙ）において、学習画像Ｉ（ｘ，ｙ）に対して、下記の式（１）に示すガウス関数Ｇ（ｕ，ｖ，σ）を畳み込むことにより、下記の式（２）に示す平滑化画像Ｌ（ｘ，ｙ，σ）が生成される。

次に、２つの平滑化パラメータσ_ｉおよびσ_ｊにより得れた２つの平滑化画像の差分画像Ｄ^{（ｉ，ｊ）}（ｘ，ｙ）が下記の式（３）により生成される。

そして、上記の式（３）により、σ_ｉ，σ_ｊ∈[σ_１，σ_２，．．．，σ_ｍ]の範囲の∀σ_ｉ∀σ_ｊ（σ_ｉ＜σ_ｊ）において、Ｄ^{（ｉ，ｊ）}（ｘ，ｙ）が求められて、下記の式（４）に示される特徴ベクトルＶ（ｘ，ｙ）の要素とされる。

上記の式（４）に示される特徴ベクトルＶは、ＤｏＧ（ＤｏＧ値）を要素としている。本実施形態では、ＤｏＧは、学習画像および推定シーン（推定画像）における範囲の異なる２つの同心円状の領域のそれぞれの輝度値の合算値の差（上記σ_ｉおよびσ_ｊより得れた２つの平滑化画像の差分）であるので、回転不変な特徴量である。なお、特徴ベクトルＶ（ＤｏＧ）は、マザーウェーブレット関数（有限の長波形）を用いたウェーブレット特徴量（周波数解析）に似た特徴量である。ウェーブレット特徴量は、解像度と方位とを要素とする一方、ＤｏＧは、方位の要素を有しない。しかしながら、特徴ベクトルＶ（ＤｏＧ）は、解像度（サイズ）に関して、多くのバリエーション（様々なσについてのＤ）を有する。このため、下記の特徴ベクトルＶの次元数削減の手法を用いることにより、推定対象に適切なサイズの特徴量を選択することが可能となる。

（特徴ベクトルＶの次元数削減）
上記の式（４）に示される特徴ベクトルＶは、多くのＤｏＧ（次元数）を有することにより、特徴ベクトルＶの分離能力が向上する。しかしながら、推定対象の推定時（認識時）のＤｏＧの生成に多くの時間が割かれたり、無駄になる（特徴が似ている）ＤｏＧが生成される可能性がある。そこで、本実施形態では、ＤｏＧ（ＤｏＧ値）を要素とする複数のベクトル（後述するｆ）を生成し、複数のベクトルの間のハミング距離に基づいて、互いに相関の低いＤｏＧ値を選択する（特徴ベクトルＶの次元を削減する）とともに、選択したＤｏＧ値に基づいて識別器を作成するように構成されている。以下に、特徴ベクトルＶの次元数削減手法について詳細に説明する。

まず、特徴ベクトルＶを求める上で、最適な要素Ｄを選択するために、全ての特徴点（学習画像上のｎ点）における分類性能を比較する必要がある。あるσ_ｉ，σ_ｊにおいて、（ｘ，ｙ）∈[（ｘ_１，ｙ_１），（ｘ_２，ｙ_２），．．．，（ｘ_ｎ，ｙ_ｎ）]の範囲の∀（ｘ，ｙ）に対するＤ^{（ｉ，ｊ）}（ｘ，ｙ）を要素とするベクトルｆ^{（ｉ，ｊ）}が、下記の式（５）により新たに定義される。

なお、上記の式（５）において、ｄ^{（ｉ，ｊ）}（ｘ，ｙ）は、上記の式（６）により、Ｄ^{（ｉ，ｊ）}（ｘ，ｙ）を２値化したものである。また、上記の式（６）において、Ｄ_ｍｅｄ ^{（ｉ，ｊ）}は、上記の式（７）により求められる中央値である。なお、ｆ^{（ｉ，ｊ）}は、複数生成される。ここで、ｆ^{（ｉ，ｊ）}の要素であるＤは、実数値である。そこで、ｆ^{（ｉ，ｊ）}の要素であるＤの中央値を閾値として、各要素Ｄがこの閾値よりも大きいか否かによって、各要素Ｄを「０」または「１」に２値化する。これにより、ｆ^{（ｉ，ｊ）}内のｂｉｔに「０」と「１」とが等しく存在するようになり、この２値化された要素は、ｎ点の特徴点を２つに分類する上で、適切な情報となる。

次に、最適なｆ^{（ｉ，ｊ）}の集合であるＦを決定するアルゴリズムについて説明する。まず、集合Ｆの最初の要素ｆ_１（ｔ＝１）が、全てのｆ^{（ｉ，ｊ）}の中からランダムに選択される。その後、ｔが、２≦ｔ≦Ｔ_ｍａｘを満たす間、以下の処理が逐次的に行われる。具体的には、ｔ番目のｆ_ｔを選択する際には、集合Ｆに含まれない全てのｆ^{（ｉ，ｊ）}について、下記の式（８）に示されるＨ^{（ｉ，ｊ）}が算出される。

ここで、上記の式（８）内の関数ω_Ｈ（ｆ^{（ｉ，ｊ）}，ｆ^{（ｋ，ｌ）}）は、下記の式（９）で表される。

ここで、ｄ_Ｈ（ｆ^{（ｉ，ｊ）}，ｆ^{（ｋ，ｌ）}）は、ｆ^{（ｉ，ｊ）}とｆ^{（ｋ，ｌ）}との間のハミング距離を表す。なお、ハミング距離とは、ｆ^{（ｉ，ｊ）}の要素（「０」または「１」）とｆ^{（ｋ，ｌ）}の要素（「０」または「１」）との間の異なった要素の数を意味する。そして、全てのＨ^{（ｉ，ｊ）}の中で、最小値であったＨ^{（ｉ，ｊ）}の算出元であるｆ^{（ｉ，ｊ）}（最小値であったＨ^{（ｉ，ｊ）}に対応するｆ^{（ｉ，ｊ）}）が集合Ｆの要素として追加される。

上記のアルゴリズムは、未選択の要素Ｄを有するｆの中で、選択された要素Ｄの群との相関が最も低い要素Ｄを有するｆを、ｔがＴ_ｍａｘになるまで集合Ｆに逐次追加していく手法である。選択されたｆの各々が異なる情報を有するＤにより構成されるため、選択されたｆ（Ｄ）は、無駄のない特徴量となる（同じような特徴を有する特徴量が削減される）と考えられる。

（アンサンブル分類木を用いた推定対象の概略位置推定）
次に、図３〜図６を参照して、アンサンブル分類木を用いた推定対象（認識対象）の概略位置の推定について説明する。

（学習時）
まず、学習時について説明する。本実施形態では、図３のステップＳ１に示すように、学習画像に対してランダムに特徴点が抽出される。そして、ステップＳ２において、各々の特徴点において上記の式（４）を用いて回転不変な特徴量であるＤｏＧ（ＤｏＧ値）を用いた特徴量（特徴ベクトルＶ）が算出される。次に、ステップＳ３において、上記の式（５）〜（９）を用いて、特徴ベクトルＶの次元数削減が行われる。そして、ステップＳ４において、生成された特徴量（特徴ベクトルＶ、選択したＤｏＧ）を分類基準として、分類木が作成される。分類木の作成手順を以下に説明する。

図４に示すように、まず、ノード（２分木の節点）に格納されている全ての特徴点について、各要素（特徴ベクトルＶの要素）ごとの中央値を閾値として、２値化が行われる。すなわち、特徴ベクトルＶ（下記の式（１０）参照）の要素（ｖ（ＤｏＧ）、式（１０）参照）について、各要素が閾値よりも大きいか否かによって、各要素が「０」または「１」に２値化（特徴ベクトルＶ_ｂｉｎ、下記の式（１１）参照）される。

次に、任意の距離ｄが生成されるとともに、任意の距離ｄと、２値化された特徴ベクトルＶ_ｂｉｎ（上記の式（１１）参照）とのハミング距離ｄ_Ｈ（Ｖ_ｂｉｎ（ｘ_ｉ，ｙ_ｉ），ｄ）が算出される。そして、算出されたハミング距離ｄ_Ｈ（Ｖ_ｂｉｎ（ｘ_ｉ，ｙ_ｉ），ｄ）と、子ノードの要素数が均等に分類できる閾値ｄ_ｔｈとの大小比較により、特徴ベクトルＶ_ｂｉｎの分類が行われる。以上の処理が再帰的に行われることにより、分類木が作成される。また、特徴点の抽出（ステップＳ１）が、分類木の作成時において毎回行われることにより、本実施形態では、独立性のある分類木が複数作成される。これらの複数の分類木は、アンサンブル分類木と呼ばれる。そして、作成されたアンサンブル分類木を用いることにより、後述する推定対象の位置が推定される。なお、アンサンブル分類木は、本発明の「識別器」の一例である。

（推定時）
本実施形態では、図５に示すように、ステップＳ１１において、推定シーン（推定画像）において、全探査が行われて、特徴点が抽出（図６参照）される。すなわち、推定シーンにおいて、たとえばラスタスキャンが行われるとともに、スキャンされた各点において、特徴ベクトルＶ（上記の式（４）参照）が算出される。次に、ステップＳ１２において、学習時に作成されたアンサンブル分類木を用いることにより、ステップＳ１１において、抽出された推定シーンの特徴点の特徴量と類似した学習画像の特徴点が、対応点として求められる（ステップＳ１１において抽出された特徴点の属性が判定される、図６参照）。

次に、ステップ１３において、本実施形態では、図６に示すように、対応点（属性）に対応する投票面（（ｘ，ｙ）平面）上の位置に、投票が行われる。なお、特徴量であるＤｏＧは、回転不変な特徴量であるので、推定シーン中の推定対象の方向を一意に定めることはできない。このため、投票は、投票面に円状に行われる。その結果、投票面に投票が集まっている所（多く投票された場所）に、推定対象（認識対象）が存在していると判断（推定）することが可能となる。

次に、図７〜図１６を参照して、本実施形態による画像認識方法の有効性を確認するために行った、バラ積みされた状態のワーク２００および２０１に対して、ワーク２００および２０１の概略の中心位置を推定する実験について説明する。

（実験１）
実験１では、図７に示すように、３つの孔２００ａを有する平板状のワーク２００に対して、ワーク２００の概略の中心位置を推定する実験を行った。以下に、学習時の条件について説明する。なお、この条件は、以下に説明する実験２においても同様である。

学習時では、３次元のＣＡＤデータに基づいて作成された仮想環境でのワーク２００の画像が学習画像として用いられた。図８に示すように、本実施形態では、学習画像は、１つのワーク２００を平面上に置いた画像からなる。また、学習画像（および推定シーン、図９参照）は、２次元画像からなる。また、１つの分類木の作成に用いられる学習画像上の特徴点数を、３００とした。また、分類木の本数は、１６本とした。また、推定時では、２５６×２５６ｐｉｘｅｌｓの推定シーンに対して、１ｐｉｘｅｌごとの全探索は行わずに、４ｐｉｘｅｌｓごとに特徴点を抽出（特徴量を算出）した。すなわち、本実施形態（実験１および２）では、推定シーンの特徴点は、推定シーンの局所画像からなる。

図９は、推定時に用いられたバラ積みされたワーク２００の画像である。なお、図９における番号１〜５は、図１０に示す投票結果に基づいて、ワーク２００の中心位置と推定された場所を示している。また、図１０には、アンサンブル分類木によって判定された特徴点の属性に基づいて、投票面上に投票された結果が示されている。具体的には、アンサンブル分類木によって判定された推定シーンの局所画像の属性に基づいて、ワーク２００の中心位置が存在すると考えられる位置が投票面上に円状に投票された結果（局所画像ごとの属性に基づく投票の結果）が、等高線によって示されている。図１０における数字は、等高線の高さを示している。また、投票面の極大値に対応する位置が、ワーク２００の中心位置と推定された。そして、図９では、投票面の極大値に対応する位置が、投票面の極大値の大きさ順（投票順位順）に順位付けられて、上位第１位〜第５位（番号１〜５）まで記載されている。

図９に示すように、投票順位の上位の結果（番号１〜４）は、概ねワーク２００の実際の中心位置を正確に推定していることが確認された。すなわち、本実施形態の画像認識方法は、高い精度を有することが確認された。ワーク２００は、平らな面を多く有しているので、バラ積みされた状態でもワーク２００の姿勢の可能性が限定される（姿勢のバリエーションが比較的少ない）ことや、３つの孔２００ａを含むという特異な特徴を有していることから、高い精度で推定することができたと考えられる。一方、ワーク２００がバラ積みされた面に対して傾いた姿勢を有している場合には、このような姿勢が未学習であるため、推定された中心位置が実際の中心位置とずれる場合があることが確認された。

（実験２）
実験２では、図１１に示すように、６つの孔２０１ａを有する平板状のワーク２０１に対して、ワーク２０１の概略の中心位置を推定する実験を行った。なお、ワーク２０１は、図１２および図１３に示すように、表面と裏面とで、形状が異なる。具体的には、ワーク２０１の表面は、周期的な凹凸形状を有している一方、裏面は、平らな面を有している。

実験２では、図１２および図１３に示すように、平面上に置いたワーク２０１の表面の画像と、裏面の画像とが学習画像として用いられた。

図１４は、推定時に用いられたバラ積みされたワーク２０１の画像である。なお、図１４における番号１〜３は、図１５および図１６に示す投票結果に基づいて、ワーク２０１の中心位置と推定された場所を示している。なお、投票面は、図１５および図１６に示すように、ワーク２０１の表面と、裏面とでそれぞれ用意された。そして、ワーク２０１の表面の学習画像（図１２参照）に基づいてアンサンブル分類木が作成された。また、作成されたアンサンブル分類木によって判定された推定シーンの局所画像の属性に基づいて、ワーク２０１の表面の中心位置が存在すると考えられる位置が投票面（図１５参照）上に円状に投票された。同様に、ワーク２０１の裏面の学習画像（図１３参照）に基づいてアンサンブル分類木が作成された。また、作成されたアンサンブル分類木によって判定された推定シーンの局所画像の属性に基づいて、ワーク２０１の裏面の中心位置が存在すると考えられる位置が投票面（図１６参照）上に円状に投票された。そして、図１４では、ワーク２０１の表面および裏面のそれぞれについて、投票面の極大値に対応する位置が、投票面の極大値の大きさ順（投票順位順）に順位付けられて、上位第１位〜第３位（番号１〜３）まで記載されている。

図１４に示すように、概ねワーク２０１の実際の中心位置が正確に推定されていることが確認された。すなわち、本実施形態の画像認識方法は、表面および裏面の形状が異なるワーク２０１についても、高い精度を有することが確認された。ワーク２０１もワーク２００と同様に、平らな面を多く有しているので、バラ積みされた状態でもワーク２０１の姿勢の可能性が限定されることや、６つの孔２０１ａおよび周期的な凹凸を含むという特異な特徴を有していることから、高い精度で推定することができたと考えられる

本実施形態では、上記のように、抽出された特徴点に対して、回転不変な特徴量であるＤｏＧを用いて特徴量を算出することによって、回転不変でない特徴量を用いて特徴点の特徴量が抽出される場合と異なり、所定の角度毎に回転した学習画像を学習する必要がない。すなわち、回転不変でない特徴量に基づいて、特徴点の属性を判定するためのアンサンブル分類木を作成する場合と比べて、より少ない学習画像からアンサンブル分類木を作成することができるので、アンサンブル分類木を用いて推定シーンの特徴点の属性を判定する際に、推定画像の特徴点とマッチングされる学習画像の特徴点の数を少なくすることができ、その分、計算量を少なくすることができる。その結果、画像（推定対象）の認識（推定）に時間がかかるのを抑制することができる。

また、本実施形態では、上記のように、回転不変な特徴量として、学習画像の特徴点に対して、ガウス関数を畳み込むことにより複数の平滑化画像を生成するとともに、生成された複数の平滑化画像のうちの２つの平滑化画像の差分であるＤｏＧ値を用いる。これにより、容易に、学習画像から抽出された特徴点に対して回転不変な特徴量を算出することができる。

また、本実施形態では、上記のように、ＤｏＧ値を、特徴点における範囲の異なる２つの同心円状の領域のそれぞれの輝度値の合算値の差として算出する。これにより、２つの同心円状の領域のそれぞれの輝度値は、回転不変な値であるので、学習画像から抽出された特徴点に対して回転不変な特徴量を算出することができる。

また、本実施形態では、上記のように、複数のＤｏＧ値のうち、互いに相関の低いＤｏＧ値を選択するとともに、選択したＤｏＧ値に基づいて、識別器を作成する。これにより、全てのＤｏＧ値を用いて識別器を作成する場合と異なり、識別器を用いて推定シーンの特徴点の属性を判定する際の計算量をより少なくすることができる。その結果、画像の認識に時間がかかるのをより抑制することができる。

また、本実施形態では、上記のように、ＤｏＧ値を要素とする複数のベクトルｆを生成し、複数のベクトルｆの間のハミング距離に基づいて、互いに相関の低いＤｏＧ値を選択するとともに、選択したＤｏＧ値に基づいてアンサンブル分類木を作成する。これにより、互いに相関の低いＤｏＧ値が選択されるので、特徴ベクトルＶの次元数を効果的に削減することができる。

また、本実施形態では、上記のように、回転不変な特徴量を用いて算出された学習画像の特徴点の特徴量から、特徴点の属性を判定するための分類木を複数有するアンサンブル分類木を作成する。これにより、１つの分類木の判別性能（精度）が比較的低い場合でも、分類木を複数有するアンサンブル分類木により、特徴点の属性の判定性能を高めることができる。

また、本実施形態では、上記のように、アンサンブル分類木により判定された特徴点の属性に基づいて、投票面に円状に投票することによって、推定対象の位置を推定する。これにより、特徴点の特徴量を回転不変な特徴量であるＤｏＧを用いて算出した場合でも、投票を投票面に円状に行って、投票面に投票が集まっている所に推定対象が存在していると判断することにより、容易に、推定対象（ワーク２００および２０１の中心位置）を推定することができる。

また、本実施形態では、上記のように、推定シーンは、バラ積みされた複数のワーク２００および２０１の画像であり、アンサンブル分類木を用いて判定された特徴点の属性に基づいて、投票面に円状に投票することによって、バラ積みされた複数のワーク２００および２０１の中心位置を推定する。これにより、回転不変な特徴量（ＤｏＧ）に基づいて作成されたアンサンブル分類木により、バラ積みされた複数のワーク２００および２０１の中心位置を迅速に推定することができる。

また、本実施形態では、上記のように、学習画像を、１つのワーク２００の画像から構成する。これにより、所定の角度毎に回転させたワークの学習画像を複数用意して、複数の学習画像からアンサンブル分類木を作成する場合と異なり、推定対象の推定（認識）に時間がかかるのを抑制することができる。

また、本実施形態では、上記のように、学習画像および推定シーンを、２次元画像から構成する。これにより、学習画像および推定シーンを３次元画像から構成する場合と異なり、アンサンブル分類木の作成および推定対象の推定を迅速に行うことができる。

また、本実施形態では、上記のように、推定シーンの特徴点を、推定シーンの局所画像から構成する。これにより、推定シーンの全ての点（ｐｉｘｅｌ）において、特徴点の特徴量を算出する場合と異なり、推定対象の認識を迅速に行うことができる。

なお、今回開示された実施形態は、すべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した実施形態の説明ではなく特許請求の範囲によって示され、さらに特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれる。

たとえば、上記実施形態では、回転不変な特徴量としてＤｏＧ（ＤｏＧ値）を用いる例を示したが、回転不変な特徴量としてＤｏＧ以外の特徴量を用いてもよい。たとえば、推定対象の中心から推定対象のエッジ（輪郭）までの距離を光軸周りに所定の角度間隔で算出するとともに、得られた結果を周波数解析することにより得られる特徴量を、回転不変な特徴量として用いてもよい。

また、上記実施形態では、互いに相関の低いＤｏＧ（ＤｏＧ値）を選択することにより、特徴ベクトルＶの次元を削減する例を示したが、特徴ベクトルＶの次元を削減しなくてもよい。

また、上記実施形態では、特徴点における範囲の異なる２つの同心円状の領域のそれぞれの輝度値の合算値の差をＤｏＧ値とする例を示したが、たとえば、輝度値の平均値の差をＤｏＧ値としてもよい。

また、上記実施形態では、識別器としてアンサンブル分類木を用いる例を示したが、アンサンブル分類木以外の識別器（たとえば、１つの分類木や、サポートベクターマシン（ＳＶＭ）など）を用いてもよい。

また、上記実施形態では、バラ積みされた複数のワークの画像から、ワークの中心位置を推定する例を示したが、バラ積みされた複数のワーク以外の推定対象（写真の中の人物や、航空写真中の所定の建物など）を推定することも可能である。

また、上記実施形態では、平面上に載置された１つのワークの画像（１つのワークの表面と裏面との画像）を学習画像として用いる例を示したが、たとえば、平面上に載置されたワークの画像に加えて、載置面に対して傾斜した状態のワークの画像や、ワークの側面の画像を学習画像として用いてもよい。これにより、様々な姿勢でバラ積みされた複数のワークの推定を精度よく行うことが可能となる。

また、上記実施形態では、センサユニットの画像処理部により、ワークの概略位置の推定が行われる例を示したが、センサユニットの画像処理部以外の部分（たとえば、ロボットコントローラや、別途設けられたパーソナルコンピュータ（ＰＣ））によって、ワークの概略位置の推定を行ってもよい。

また、上記実施形態では、ロボットシステムに、上記した画像認識方法を用いる例を示したが、ロボットシステム以外のシステムに上記した画像認識方法を用いてもよい。

３センサユニット（画像認識装置）
３４画像処理部（第１特徴点抽出手段、特徴量算出手段、識別器作成手段、第２特徴点抽出手段、認識手段）
２００、２０１ワーク（推定対象）

Claims

学習画像に対して複数の特徴点を抽出するステップと、
前記抽出された特徴点に対して、回転不変な特徴量を用いて特徴量を算出するステップと、
算出された前記学習画像の特徴点の特徴量に基づいて、前記特徴点の属性を判定するための識別器を作成するステップと、
推定画像に対して複数の特徴点を抽出するステップと、
前記識別器を用いて前記抽出された推定画像の複数の特徴点の属性を集約して推定対象の位置を判定して、前記推定画像を認識するステップとを備える、画像認識方法。
前記回転不変な特徴量は、前記学習画像の特徴点に対して、ガウス関数を畳み込むことにより複数の平滑化画像を生成するとともに、生成された前記複数の平滑化画像のうちの２つの平滑化画像の差分であるＤｏＧ（Ｄｉｆｆｅｒｅｎｃｅ−ｏｆ−Ｇａｕｓｓｉａｎ）値を含む、請求項１に記載の画像認識方法。
前記ＤｏＧ値は、前記特徴点における範囲の異なる２つの同心円状の領域のそれぞれの輝度値の合算値の差である、請求項２に記載の画像認識方法。
前記ＤｏＧ値は、複数のＤｏＧ値を含み、
前記特徴点の属性を判定するための識別器を作成するステップは、前記複数のＤｏＧ値のうち、互いに相関の低いＤｏＧ値を選択するとともに、選択した前記ＤｏＧ値に基づいて、前記識別器を作成するステップを含む、請求項２または３に記載の画像認識方法。
前記選択したＤｏＧ値に基づいて前記識別器を作成するステップは、前記ＤｏＧ値を要素とする複数のベクトルを生成し、前記複数のベクトルの間のハミング距離に基づいて、互いに相関の低いＤｏＧ値を選択するとともに、選択した前記ＤｏＧ値に基づいて前記識別器を作成するステップを含む、請求項４に記載の画像認識方法。
前記特徴点の属性を判定するための識別器を作成するステップは、前記回転不変な特徴量を用いて算出された前記学習画像の特徴点の特徴量から、前記特徴点の属性を判定するための分類木を複数有するアンサンブル分類木を作成するステップを含む、請求項１〜５のいずれか１項に記載の画像認識方法。
前記識別器を用いて前記抽出された学習画像の特徴点の属性を判定して、前記推定画像を認識するステップは、前記識別器に判定された前記特徴点の属性に基づいて、投票面に円状に投票することによって、推定対象の位置を推定するステップを含む、請求項１〜６のいずれか１項に記載の画像認識方法。
前記推定画像は、バラ積みされた複数のワークの画像を含み、
前記推定画像の位置を推定するステップは、前記識別器を用いて判定された前記特徴点の属性に基づいて、投票面に円状に投票することによって、前記バラ積みされた複数のワークの中心位置を推定するステップを含む、請求項７に記載の画像認識方法。
前記学習画像は、１つの前記ワークの画像からなる、請求項８に記載の画像認識方法。
前記学習画像および前記推定画像は、２次元画像からなる、請求項１〜９のいずれか１項に記載の画像認識方法。
前記推定画像の特徴点は、前記推定画像の局所画像からなる、請求項１〜１０のいずれか１項に記載の画像認識方法。
学習画像に対して複数の特徴点を抽出する第１特徴点抽出手段と、
前記抽出された特徴点に対して、回転不変な特徴量を用いて特徴量を算出する特徴量算出手段と、
算出された前記学習画像の特徴点の特徴量に基づいて、前記特徴点の属性を判定するための識別器を作成する識別器作成手段と、
推定画像に対して複数の特徴点を抽出する第２特徴点抽出手段と、
前記識別器を用いて前記抽出された推定画像の複数の特徴点の属性を集約して推定対象の位置を判定して、前記推定画像を認識する認識手段とを備える、画像認識装置。