Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7658939B2 - Comparison image search device, method and program - Google Patents
[go: Go Back, main page]

JP7658939B2 - Comparison image search device, method and program - Google Patents

Comparison image search device, method and program Download PDF

Info

Publication number
JP7658939B2
JP7658939B2 JP2022124812A JP2022124812A JP7658939B2 JP 7658939 B2 JP7658939 B2 JP 7658939B2 JP 2022124812 A JP2022124812 A JP 2022124812A JP 2022124812 A JP2022124812 A JP 2022124812A JP 7658939 B2 JP7658939 B2 JP 7658939B2
Authority
JP
Japan
Prior art keywords
image
comparison
images
comparison image
orientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022124812A
Other languages
Japanese (ja)
Other versions
JP2024021747A (en
Inventor
洋平 花岡
賢史 小森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2022124812A priority Critical patent/JP7658939B2/en
Publication of JP2024021747A publication Critical patent/JP2024021747A/en
Application granted granted Critical
Publication of JP7658939B2 publication Critical patent/JP7658939B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像に基づくカメラの姿勢推定において用いるのに適した比較用画像を検索する比較用画像検索装置、方法及びプログラムに関する。 The present invention relates to a comparison image search device, method, and program for searching for comparison images suitable for use in image-based camera pose estimation.

画像に基づくカメラの姿勢推定は、VPS(Visual Positioning System)と呼ばれ、ロボティクスや拡張現実など、様々な分野におけるコア技術として利用されている。特許文献1では、三次元点群地図と、後から撮影したクエリ画像をマッチングし、地図中におけるクエリ画像の姿勢を推定するVPSに関する技術が開示されている。特許文献2では、三次元点群地図の代わりに、汎用的な三次元メッシュ地図を用いてクエリ画像の姿勢を推定するために、三次元メッシュ地図におけるクエリ画像のおおよそのカメラ姿勢を推定し、推定したおおよそのカメラ姿勢をもとに三次元メッシュから二次元の比較用画像をレンダリングし、比較用画像とクエリ画像をマッチングする技術が開示されている。 Camera pose estimation based on images is called VPS (Visual Positioning System), and is used as a core technology in various fields such as robotics and augmented reality. Patent Document 1 discloses a technology related to VPS that matches a 3D point cloud map with a query image captured later and estimates the posture of the query image in the map. Patent Document 2 discloses a technology that estimates the approximate camera posture of the query image in the 3D mesh map, renders a 2D comparison image from the 3D mesh based on the estimated approximate camera posture, and matches the comparison image with the query image in order to estimate the posture of the query image using a general-purpose 3D mesh map instead of a 3D point cloud map.

特開2021-174285号公報Patent Publication No. 2021-174285 特願2022-063059号Patent Application No. 2022-063059

クエリ画像とデータベースに蓄積された画像を比較する際に、データベースから比較に適した画像を抽出する必要がある。しかしながら、画像の類似度から抽出する方法では、その精度が不十分であった。特許文献2では、さらに、GPS(全地球測位システム)情報や地磁気センサーを利用することも想定しているが、使用可能な場所が限られる。 When comparing a query image with images stored in a database, it is necessary to extract images suitable for comparison from the database. However, the accuracy of methods for extracting images based on the similarity of the images is insufficient. Patent Document 2 also assumes the use of GPS (Global Positioning System) information and geomagnetic sensors, but these can only be used in limited locations.

前記従来技術の課題に鑑み、本発明は、画像に基づくカメラの姿勢推定において用いるのに適した比較用画像を検索することのできる比較用画像検索装置、方法及びプログラムを提供することを目的とする。 In view of the problems with the conventional technology, the present invention aims to provide a comparison image search device, method, and program capable of searching for comparison images suitable for use in image-based camera pose estimation.

上記目的を達成するため、本発明は、比較用画像検索装置であって、三次元地図から1つ以上のカメラ位置姿勢において予めレンダリングされて得られている画像、及び/又は、前記三次元地図の対象となる実世界で1つ以上のカメラ位置姿勢において予め撮影されて得られている画像を含むリファレンス用画像集合から選択される各回の比較用画像集合と、クエリ画像との間で画像マッチングを行うことにより、前記クエリ画像の前記三次元地図におけるカメラ位置姿勢を各回のものとして推定することを繰り返し、当該繰り返す各回において、前回のものとして推定したカメラ位置姿勢に基づいて、前記リファレンス用画像集合から選択される今回の比較用画像集合と、前記クエリ画像との間で画像マッチングを行うことにより、前記クエリ画像の前記三次元地図におけるカメラ位置姿勢を今回のものとして推定することを収束判定が得られるまで繰り返し、前記収束判定が得られた回で用いた比較用画像集合を出力することを特徴とする。また前記装置に対応する方法及びプログラムであることを特徴とする。 To achieve the above object, the present invention is a comparison image search device that repeatedly estimates the camera position and orientation of the query image in the three-dimensional map for each round by performing image matching between a comparison image set for each round selected from a reference image set including images obtained by rendering in advance from a three-dimensional map at one or more camera positions and/or images taken in advance at one or more camera positions and orientations in the real world that is the subject of the three-dimensional map, and repeats the process of estimating the camera position and orientation of the query image in the three-dimensional map for each round by performing image matching between the current comparison image set selected from the reference image set and the query image based on the camera position and orientation estimated in the previous round until a convergence determination is obtained, and outputs the comparison image set used in the round for which the convergence determination is obtained. Also, the present invention is characterized by a method and a program corresponding to the device.

本発明によれば、収束判定が得られるまで繰り返し処理でカメラ位置姿勢を更新して推定し、この際、このカメラ位置姿勢に基づいてリファレンス用画像集合から選択された比較用画像集合を更新して利用することで、最終的にクエリ画像と比較すべき画像集合として適切なものを出力することができる。 According to the present invention, the camera position and orientation are updated and estimated through repeated processing until a convergence judgment is obtained, and at this time, a comparison image set selected from a reference image set based on this camera position and orientation is updated and used, thereby finally outputting an appropriate image set to be compared with the query image.

実施形態に係る比較用画像検索装置の機能ブロック図である。1 is a functional block diagram of a comparison image search device according to an embodiment. 実施形態に係る比較用画像検索装置の動作のフローチャートである1 is a flowchart of an operation of a comparison image search device according to an embodiment. 三次元地図からの比較用画像のレンダリングを模式的に表した図である。FIG. 13 is a schematic representation of the rendering of a comparison image from a three-dimensional map. 複数の比較用画像のレンダリングを行うことで比較用画像集合が得られることの模式図である。FIG. 13 is a schematic diagram illustrating the rendering of multiple comparison images to obtain a comparison image set. 推定カメラ姿勢の模式図である。FIG. 13 is a schematic diagram of an estimated camera pose. 画像マッチング部で得られた対応点ペアをもとに、推定カメラ姿勢を算出するまでの各処理を模式的に表した図である。10 is a diagram illustrating each process up to calculation of an estimated camera posture based on corresponding point pairs obtained by an image matching unit. FIG. 収束判定の結果がNGだったときの状態を模式的に示した図である。FIG. 13 is a schematic diagram showing a state when the result of convergence determination is NG. 三次元地図の三次元座標と比較用画像の二次元座標の対応点ペアを求める手法を模式的に示した図である。10 is a diagram illustrating a method for determining a pair of corresponding points between three-dimensional coordinates of a three-dimensional map and two-dimensional coordinates of a comparison image. 最適な比較用画像の選択手法(5-1)を模式的に示した図である。FIG. 5 is a diagram illustrating a method (5-1) for selecting an optimal comparison image. 最適な比較用画像の選択手法(5-2)を模式的に示した図である。FIG. 5 is a diagram illustrating a method (5-2) for selecting an optimal comparison image. 最適な比較用画像の選択手法(5-4)を模式的に示した図である。FIG. 5 is a diagram illustrating a method (5-4) for selecting an optimal comparison image. 二次元座標(uj,vj)と(width,height)の関係の例を示す図である。FIG. 13 is a diagram showing an example of the relationship between two-dimensional coordinates (u j , v j ) and (width, height). 一般的なコンピュータ装置におけるハードウェア構成の例を示す図である。FIG. 1 is a diagram illustrating an example of a hardware configuration of a general computer device.

図1は、実施形態に係る三次元地図との画像マッチングにおける最適な比較用画像検索装置10の機能ブロック図である。比較用画像検索装置10は、比較用画像レンダリング部11と、初回比較用画像選択部12と、画像マッチング部13と、推定カメラ姿勢算出部14と、最適比較用画像選択部15と、収束判定部16と、を備える。 Figure 1 is a functional block diagram of an optimal comparison image search device 10 for image matching with a 3D map according to an embodiment. The comparison image search device 10 includes a comparison image rendering unit 11, an initial comparison image selection unit 12, an image matching unit 13, an estimated camera posture calculation unit 14, an optimal comparison image selection unit 15, and a convergence determination unit 16.

図2は、実施形態に係る比較用画像検索装置10の動作のフローチャートである。以下、図2の各ステップを説明しながら、図1の比較用画像検索装置10の各機能部の動作の詳細について説明する。 Figure 2 is a flowchart of the operation of the comparison image search device 10 according to the embodiment. Below, the details of the operation of each functional unit of the comparison image search device 10 in Figure 1 will be explained while explaining each step in Figure 2.

なお、図2のフローに関して、ステップS3~S7の処理をステップS7での収束判定が成立するまで繰り返すという構造を取る。この繰り返し回数をN(N=1が初回で、繰り返しによりN=1,2,3,…と回数Nが増える)として参照し、図2のフローの説明における現在の繰り返し回数を任意のNとして、1つ前の過去のN-1回目や、1つ後の未来のN+1回目と区別して説明する。ここで、ステップS1,S2は、N=1の初回のみに属するステップとなる。 The flow in Figure 2 has a structure in which the processes in steps S3 to S7 are repeated until the convergence test in step S7 is satisfied. This number of repetitions is referred to as N (N=1 is the first repetition, and N increases with each repetition as N=1, 2, 3, ...), and the current number of repetitions in the explanation of the flow in Figure 2 is an arbitrary N, and will be explained separately from the previous N-1th iteration and the future N+1th iteration. Here, steps S1 and S2 belong only to the first N=1 iteration.

(1)ステップS1…比較用画像レンダリング部11
ステップS1では、比較用画像レンダリング部11が、リファレンス画像のデータベース全体を構築する処理として多数のm枚の比較用画像集合PS={P(i)|i=1,2,…,m}(リファレンス画像集合PS)をレンダリングしてから、ステップS2へと進む。
(1) Step S1...Comparison image rendering unit 11
In step S1, the comparison image rendering unit 11 renders a set of m comparison images PS={P(i)|i=1, 2, ..., m} (reference image set PS) as a process of constructing an entire database of reference images, and then proceeds to step S2.

具体的に、比較用画像レンダリング部11は、入力データとして予め用意しておく三次元地図Mから、複数の比較用画像PSをレンダリングする。レンダリングされた比較用画像PSは、後述する初回比較用画像選択部12に出力され、クエリ画像との画像マッチングに利用される。また、レンダリングされた比較用画像PSは、後述する最適比較用画像選択部15に出力され、選択される比較用画像の候補となる。 Specifically, the comparison image rendering unit 11 renders multiple comparison images PS from a three-dimensional map M that is prepared in advance as input data. The rendered comparison images PS are output to an initial comparison image selection unit 12, which will be described later, and are used for image matching with the query image. The rendered comparison images PS are also output to an optimal comparison image selection unit 15, which will be described later, and become candidates for the comparison images to be selected.

図3に、三次元地図Mからの比較用画像P(i)のレンダリングを模式的に表した図を示す。比較用画像集合PSに属する比較用画像P(i)(i=1,2,…,m)の各々につき、三次元地図Mの世界座標における外部パラメータEX(i)(カメラの位置姿勢に対応)と、内部パラメータIN(i)とを与えることにより、三次元CG(コンピュータグラフィックス)における既存手法を用いて比較用画像P(i)の各々をレンダリングすることができる。なお、三次元地図Mには地図を構成する構造物について、例えばポリゴン頂点座標とポリゴンのテクスチャを用意しておくことで、当該レンダリングが可能となる。 Figure 3 shows a schematic diagram of the rendering of a comparison image P(i) from a 3D map M. For each comparison image P(i) (i = 1, 2, ..., m) belonging to the comparison image set PS, it is possible to render each comparison image P(i) using existing techniques in 3D CG (computer graphics) by providing external parameters EX(i) (corresponding to the camera position and orientation) and internal parameters IN(i) in the world coordinates of the 3D map M. This rendering is possible by preparing, for example, polygon vertex coordinates and polygon textures for the structures that make up the map in the 3D map M.

こうして、図4に示すように、比較用画像集合PSに属する全ての比較用画像P(i)についてそれぞれレンダリングを行うことで、複数m枚で構成される比較用画像集合PSを得ることができる。(なお、図4では模式例として、比較用画像集合PSの一部である比較用画像P(1)~P(13)を示している。) In this way, as shown in Figure 4, by rendering each of the comparison images P(i) belonging to the comparison image set PS, a comparison image set PS consisting of multiple m images can be obtained. (Note that Figure 4 shows comparison images P(1) to P(13), which are part of the comparison image set PS, as a schematic example.)

外部パラメータEX(i)で与えられるレンダリング位置は、クエリ画像Qが撮影されると想定される地表高や、構造物のない空間(実世界における道路などの空間)にランダムに決めてよい。(比較用画像集合PSと照合することでクエリ画像Qの位置姿勢が推定可能なように、三次元地図Mが定義されている空間範囲内において網羅的に、外部パラメータEX(i)の各々を設定しておけばよい。)内部パラメータIN(i)は、所定の設定の中からランダムに選んだものを用いてもよいし、クエリ画像Qの内部パラメータと同じものを全ての比較用画像P(i)(i=1,2,…,m)に対して用いるようにしてもよい。 The rendering position given by the external parameters EX(i) may be randomly determined at the ground level where the query image Q is assumed to be captured, or in a space without structures (such as a road in the real world). (Each of the external parameters EX(i) may be set comprehensively within the spatial range in which the 3D map M is defined, so that the position and orientation of the query image Q can be estimated by matching it with the set of comparison images PS.) The internal parameters IN(i) may be randomly selected from a predetermined setting, or the same internal parameters as those of the query image Q may be used for all comparison images P(i) (i=1, 2, ..., m).

また、比較用画像集合PSを構成するレンダリング画像の全部又は一部に関して、比較用画像レンダリング部11でレンダリングして生成したレンダリング画像を用いることに代えて、三次元地図Mの生成時に使用する実写真(三次元地図Mの作成される対象である街角等の実世界で撮影された実写真)を用いるようにしてもよい。また、リファレンス画像データベースとしての比較用画像集合PSについては、比較用画像検索装置10での内部処理として比較用画像レンダリング部11の処理を実行することに代えて、予め、三次元地図Mに対応する比較用画像集合PSを外部サーバ等で用意しておき、この外部サーバから比較用画像集合PSを比較用画像検索装置10で読み込む(初回比較用画像選択部12及び最適比較用画像選択部15で読み込む)ようにすることで、比較用画像レンダリング部11の処理を省略するようにしてもよい。 In addition, for all or part of the rendering images constituting the comparison image set PS, instead of using rendering images generated by rendering in the comparison image rendering unit 11, real photographs used when generating the 3D map M (real photographs taken in the real world, such as a street corner, which is the subject of the 3D map M) may be used. In addition, for the comparison image set PS as a reference image database, instead of executing the processing of the comparison image rendering unit 11 as internal processing in the comparison image retrieval device 10, the comparison image set PS corresponding to the 3D map M may be prepared in advance on an external server or the like, and the comparison image set PS may be read from this external server by the comparison image retrieval device 10 (read by the initial comparison image selection unit 12 and the optimal comparison image selection unit 15), thereby omitting the processing of the comparison image rendering unit 11.

(2)ステップS2…初回比較用画像選択部12
ステップS2では、初回比較用画像選択部12が、N=1の初回用の比較用画像集合PS[1]を、比較用画像レンダリング部11で得た比較用画像集合PSから選択して、(すなわち、PS[1]⊂PSとなるものとして選択して、)ステップS3へと進む。
(2) Step S2: First comparison image selection unit 12
In step S2, the initial comparison image selection unit 12 selects the initial comparison image set PS[1] for N=1 from the comparison image set PS obtained by the comparison image rendering unit 11 (i.e., selects it as PS[1] ⊂ PS), and proceeds to step S3.

具体的に、初期比較用画像選択部12は、初期比較用画像レンダリング部11でレンダリングした複数の比較用画像(比較用画像集合PS全体)の中から、後述する画像マッチング部13(N=1の初回)でのクエリ画像Qとの画像マッチングに適した比較用画像を選択して集合PS[1]を得る。選択した比較用画像は、N=1の初回の処理のために、後述する画像マッチング部13に出力する。ここで、選択する比較用画像は、1個のみ選択してもよいし、複数個を選択してもよい。 Specifically, the initial comparison image selection unit 12 selects comparison images suitable for image matching with the query image Q in the image matching unit 13 (first time for N=1), described later, from among the multiple comparison images (the entire comparison image set PS) rendered by the initial comparison image rendering unit 11, to obtain a set PS[1]. The selected comparison images are output to the image matching unit 13, described later, for the first processing for N=1. Here, only one comparison image may be selected, or multiple comparison images may be selected.

(3)ステップS3…画像マッチング部13
ステップS3では、画像マッチング部13が、当該繰り返し回数Nに対応する比較用画像集合PS[N]とクエリ画像Qとを画像マッチングして対応点ペアを得てから、ステップS4へと進む。
(3) Step S3...Image matching unit 13
In step S3, the image matching unit 13 performs image matching between the set of comparison images PS[N] corresponding to the number of repetitions N and the query image Q to obtain corresponding point pairs, and then the process proceeds to step S4.

具体的に、画像マッチング部13は、N=1の初回においては初期比較用画像選択部12で選択された比較用画像集合PS[1]と、クエリ画像Qとを画像マッチングし、N≧2の2回目以降においては、後述する最適比較用画像選択部15で選択された比較用画像集合PS[N]と、クエリ画像Qとを画像マッチングする。 Specifically, the image matching unit 13 performs image matching between the comparison image set PS[1] selected by the initial comparison image selection unit 12 and the query image Q the first time N=1, and from the second time onwards when N≧2, performs image matching between the comparison image set PS[N] selected by the optimal comparison image selection unit 15 (described later) and the query image Q.

回数Nに応じてマッチング対象集合PS[N]が上記のように異なるが、画像マッチング処理自体は回数Nに依らず共通であり、クエリ画像Qの二次元座標と比較用画像P(i)∈PS[N]の二次元座標の対応点ペアを求める。得られた対応点ペアは、後述する推定カメラ姿勢算出部14に出力する。画像マッチングは、非特許文献1に記載の技術や、前掲の特許文献2に記載の技術を利用してもよい。
[非特許文献1] 「Wang, Qianqian, et al. "Learning feature descriptors using camera pose supervision." European Conference on Computer Vision. Springer, Cham, 2020.」
As described above, the matching target set PS[N] differs depending on the number of times N, but the image matching process itself is common regardless of the number of times N, and a corresponding point pair between the two-dimensional coordinates of the query image Q and the two-dimensional coordinates of the comparison image P(i)∈PS[N] is obtained. The obtained corresponding point pair is output to an estimated camera posture calculation unit 14, which will be described later. For image matching, the technology described in Non-Patent Document 1 or the technology described in Patent Document 2, mentioned above, may be used.
[Non-patent Document 1] "Wang, Qianqian, et al. "Learning feature descriptors using camera pose supervision." European Conference on Computer Vision. Springer, Cham, 2020."

なお、複数個の比較用画像が入力された場合は、1個のクエリ画像に対して、各比較用画像それぞれと画像マッチングを行い、その結果を後述の推定カメラ姿勢算出部14に出力する。例えば、5個の比較用画像がある場合、5回分の画像マッチングを行い、5回分の対応点ペアを後述の推定カメラ姿勢推定部14に出力する。ただし、画像マッチングを複数回行った結果得られた複数回分の対応点ペアを、1回分の結果として集約して、後述の推定カメラ姿勢推定部14に出力してもよい。 When multiple comparison images are input, image matching is performed with each comparison image against one query image, and the results are output to the estimated camera posture calculation unit 14 described below. For example, when there are five comparison images, image matching is performed five times, and corresponding point pairs for five times are output to the estimated camera posture estimation unit 14 described below. However, corresponding point pairs obtained as a result of performing image matching multiple times may be aggregated as the result of one time and output to the estimated camera posture estimation unit 14 described below.

(4)ステップS4…推定カメラ姿勢算出部14
ステップS4では、推定カメラ姿勢算出部14が、画像マッチング部13での結果(対応点ペア)からクエリ画像Qの推定カメラ姿勢を算出して、ステップS5へと進む。
(4) Step S4... Estimated camera attitude calculation unit 14
In step S4, the estimated camera posture calculation unit 14 calculates an estimated camera posture of the query image Q from the result (corresponding point pair) in the image matching unit 13, and the process proceeds to step S5.

具体的に、推定カメラ姿勢算出部14は、画像マッチング部13で得られたクエリ画像PSと比較用画像P(i)∈PS[N]の対応点ペアをもとに、三次元地図Mの三次元座標とクエリ画像の二次元座標の対応点ペアを求め、これを用いてクエリ画像Qの推定カメラ姿勢を算出する。前記画像マッチング部13から、複数回分の画像マッチングの結果が入力された場合は、その回数分の推定カメラ姿勢の算出を行い、より良いカメラ姿勢(最善と判定される1つのカメラ姿勢)を1つ推定カメラ姿勢として採用する。より良いカメラ姿勢の判定方法は、例えば、カメラ姿勢を推定した際に、非特許文献4(後述)に記載のRansac(ランダムサンプル投票)を適用し、算出したインライアの数が多い方としてもよい。 Specifically, the estimated camera pose calculation unit 14 obtains corresponding point pairs between the three-dimensional coordinates of the three-dimensional map M and the two-dimensional coordinates of the query image based on the corresponding point pairs between the query image PS and the comparison image P(i)∈PS[N] obtained by the image matching unit 13, and uses them to calculate the estimated camera pose of the query image Q. When the results of multiple image matching operations are input from the image matching unit 13, the estimated camera poses are calculated for the multiple operations, and the better camera pose (the camera pose determined to be the best) is adopted as the estimated camera pose. The method of determining the better camera pose may be, for example, to apply Ransac (random sample voting) described in Non-Patent Document 4 (described later) when estimating the camera pose, and use the one with the largest number of calculated inliers.

こうして、画像マッチング部13では、単一結果に統合した画像マッチング結果または複数回分の画像マッチング結果を得ることができるが、いずれの場合も、推定カメラ姿勢算出部14では、当該N回目の結果として、1つの外部パラメータEX[N]に対応する1つの推定カメラ姿勢を得ることができる。 In this way, the image matching unit 13 can obtain image matching results integrated into a single result or image matching results from multiple iterations, but in either case, the estimated camera pose calculation unit 14 can obtain one estimated camera pose corresponding to one external parameter EX[N] as the Nth result.

算出したクエリ画像Qの推定カメラ姿勢は、後述する最適比較用画像選択部15に出力し、初期比較用画像レンダリング部11でレンダリングした複数の比較用画像PSの中から、最適な比較用画像(次回のN+1回目用の比較用画像集合PS[N+1])を選択するために利用される。クエリ画像Qの推定カメラ姿勢は、まず三次元地図Mの三次元座標とクエリ画像の二次元座標の対応点ペアを算出し、その後、非特許文献2に記載の技術であるPnP(Perspective-n-Point)問題を解くことで求める。
[非特許文献2]:「Lepetit, Vincent, Francesc Moreno-Noguer, and Pascal Fua. "Epnp: An accurate o (n) solution to the pnp problem." International journal of computer vision 81.2 (2009): 155.」
The calculated estimated camera pose of the query image Q is output to an optimum comparison image selection unit 15, which will be described later, and is used to select an optimum comparison image (a set of comparison images PS[N+1] for the next N+1th iteration) from among the multiple comparison images PS rendered by the initial comparison image rendering unit 11. The estimated camera pose of the query image Q is found by first calculating a corresponding point pair between the three-dimensional coordinates of the three-dimensional map M and the two-dimensional coordinates of the query image, and then solving a PnP (Perspective-n-Point) problem, which is a technique described in Non-Patent Document 2.
[Non-Patent Document 2]: "Lepetit, Vincent, Francesc Moreno-Noguer, and Pascal Fua. "Epnp: An accurate o (n) solution to the pnp problem." International journal of computer vision 81.2 (2009): 155."

図5に、算出したクエリ画像Qの推定カメラ姿勢を模式的に表した図を示すように、レンダリングに関して説明した図3と同様に、当該N回目の推定カメラ姿勢を、三次元地図Mが定義される世界座標内におけるカメラの位置姿勢である外部パラメータEX[N]として推定することができる。 Figure 5 shows a schematic diagram of the estimated camera pose of the calculated query image Q. As in Figure 3, which explains rendering, the Nth estimated camera pose can be estimated as an external parameter EX[N], which is the position and pose of the camera in the world coordinate system in which the 3D map M is defined.

なお、三次元地図の三次元座標とクエリ画像の二次元座標の対応点ペアは、比較用画像の二次元座標とクエリ画像の二次元座標の対応点ペアと、三次元地図の三次元座標と比較用画像の二次元座標の対応点ペアをもとに、比較用画像の二次元座標を経由して求めることができる。 The corresponding point pairs of the 3D coordinates of the 3D map and the 2D coordinates of the query image can be found via the 2D coordinates of the comparison image based on the corresponding point pairs of the 2D coordinates of the comparison image and the 2D coordinates of the query image, and the corresponding point pairs of the 3D coordinates of the 3D map and the 2D coordinates of the comparison image.

図6に、画像マッチング部13で得られた対応点ペアをもとに、推定カメラ姿勢を算出するまでの各処理p1~p4を模式的に表した図を示す。処理p1が画像マッチング部13の結果であり、この処理p1の結果(比較用画像P(i)の二次元座標とクエリ画像Qの二次元座標の対応点ペア)に対し、処理p2に示されるように、対応点ペアのうち比較用画像P(i)の二次元座標は、元の三次元地図Mを参照することで対応する三次元座標が定まる。従って、処理p1,p2の結果を照合して、処理p3に示されるように、対応点ペアのうちクエリ画像Qの二次元座標に対応する三次元座標が定まる。これにより、処理p4に示されるPnP問題を解くことで、クエリ画像Qのカメラ姿勢が推定できる。 Figure 6 shows a schematic diagram of each process p1 to p4 up to the calculation of the estimated camera pose based on the corresponding point pairs obtained by the image matching unit 13. Process p1 is the result of the image matching unit 13, and for the result of this process p1 (corresponding point pairs of the two-dimensional coordinates of the comparison image P(i) and the two-dimensional coordinates of the query image Q), as shown in process p2, the two-dimensional coordinates of the comparison image P(i) among the corresponding point pairs are determined as corresponding three-dimensional coordinates by referring to the original three-dimensional map M. Therefore, by comparing the results of processes p1 and p2, the three-dimensional coordinates of the corresponding point pairs that correspond to the two-dimensional coordinates of the query image Q are determined as shown in process p3. This allows the camera pose of the query image Q to be estimated by solving the PnP problem shown in process p4.

(5)ステップS5…最適比較用画像選択部15
ステップS5では、最適比較用画像選択部15が、次回(N+1回目)に向けた最適な比較用画像集合PS[N+1]を選択してから、ステップS6へと進む。
(5) Step S5... Optimal Comparison Image Selection Unit 15
In step S5, optimal comparison image selection unit 15 selects an optimal set of comparison images PS[N+1] for the next time (N+1th time), and then the process proceeds to step S6.

具体的に、最適比較用画像選択部15は、推定カメラ姿勢算出部14で推定したクエリ画像Qの推定カメラ姿勢(外部パラメータEX[N]として推定した今回の推定カメラ姿勢)をもとに、比較用画像レンダリング部11でレンダリングした複数の比較用画像(比較用画像集合PS)の中から、次回N+1回目に向けた最適な比較用画像の集合PS[N+1]を選択する。選択された最適な比較用画像集合PS[N+1]は、後述する収束判定部16に出力し、収束判定に利用する。(なお、収束判定の結果、今回のN回目で処理を終了するのではなく、次のN+1回目の処理も繰り返すこととなった場合、今回のN回目で得た集合PS[N+1]が、次のN+1回目のステップS3での画像マッチング部13でのクエリ画像Qとのマッチング処理の対象として利用されることとなる。) Specifically, the optimal comparison image selection unit 15 selects an optimal set of comparison images PS[N+1] for the next N+1th iteration from among the multiple comparison images (comparison image set PS) rendered by the comparison image rendering unit 11 based on the estimated camera pose of the query image Q estimated by the estimated camera pose calculation unit 14 (the current estimated camera pose estimated as the external parameter EX[N]). The selected optimal comparison image set PS[N+1] is output to the convergence determination unit 16, which will be described later, and used for convergence determination. (Note that if the result of the convergence determination is that the process is not to be terminated in the current Nth iteration but is to be repeated for the next N+1th iteration, the set PS[N+1] obtained in the current Nth iteration will be used as the target for matching with the query image Q in the image matching unit 13 in step S3 of the next N+1th iteration.)

比較用画像の集合PS[N+1]として選択する比較用画像は、1個を選択してもよいし、複数個を選択してもよい。なお、最適比較用画像選択部15の処理の詳細については、実施例としてさらに後述する。 The comparison image set PS[N+1] may be selected as one or more comparison images. Details of the processing performed by the optimal comparison image selection unit 15 will be described later as an embodiment.

(6)ステップS6,S7,S8…収束判定部16
ステップS6では、収束判定部16が収束判定を行ってからステップS7へと進む。ステップS7では、ステップS6の判定結果が収束成立であればステップS8へ進み、収束不成立であればステップS3に戻り、次のN+1回目の処理として、以上のステップS3以降の処理を繰り返す。ステップS8では、比較用画像検索装置10における検索結果として比較用画像PS[N+1](PS[N]でもよい)を出力して、図2のフローを終了する。
(6) Steps S6, S7, S8...Convergence determination unit 16
In step S6, the convergence determination unit 16 performs a convergence determination, and then the process proceeds to step S7. In step S7, if the determination result in step S6 is convergence, the process proceeds to step S8, and if the determination result in step S6 is convergence, the process returns to step S3, and the above-mentioned processes from step S3 onwards are repeated as the next (N+1)th process. In step S8, the comparison image PS[N+1] (or PS[N]) is output as the search result in the comparison image search device 10, and the flow in FIG. 2 ends.

具体的に、収束判定部16では、最適比較用画像選択部15で選択された比較用画像集合PS[N+1]に対して収束判定を行う。収束判定の結果、OK(収束した判定)の場合は、選択されている最新の比較用画像集合PS[N+1]を出力する。NG(収束していない判定)の場合は、「ステップS6→S7→S3」と進み、機能ブロック構成においては、画像マッチング部13に戻り、選択されている最新の比較用画像PS[N+1]を(今回N+1回目のものとして)用いて再度、画像マッチングを行ったうえで推定カメラ姿勢算出部14においてクエリ画像Qの推定カメラ姿勢を算出する。その後、推定カメラ姿勢算出部14で算出されるクエリ画像の推定カメラ姿勢(外部パラメータEX[N+1])をもとに、最適比較用画像選択部15で比較用画像の再選択が行われ、再度、収束判定部16に比較用画像集合PS[(N+1)+1]=PS[N+2]が出力される。 Specifically, the convergence judgment unit 16 performs a convergence judgment on the comparison image set PS[N+1] selected by the optimal comparison image selection unit 15. If the convergence judgment result is OK (converged judgment), the latest selected comparison image set PS[N+1] is output. If the convergence judgment result is NG (not converged judgment), the process proceeds to "steps S6 → S7 → S3", and in the functional block configuration, the process returns to the image matching unit 13, and image matching is performed again using the latest selected comparison image PS[N+1] (as the N+1th time), and the estimated camera posture calculation unit 14 calculates the estimated camera posture of the query image Q. After that, the optimal comparison image selection unit 15 reselects a comparison image based on the estimated camera posture (external parameter EX[N+1]) of the query image calculated by the estimated camera posture calculation unit 14, and the comparison image set PS[(N+1)+1]=PS[N+2] is output again to the convergence judgment unit 16.

図2のフロー構造に関しても前述した通り、このサイクルは、収束判定部16の判定結果がOKとなるまで繰り返される。収束判定は、最新(N回目)の比較用画像PS[N+1]と、直前(N-1回目)に選択された比較用画像PS[N]が同じと判定される場合、収束したと判定してよい。同じことの判定は、画像集合PS[N+1],PS[N]の重複割合(同一画像が存在する割合)が閾値以上であることによって判定してよい。 As described above with regard to the flow structure of FIG. 2, this cycle is repeated until the convergence determination unit 16 determines that the result is OK. Convergence may be determined when the most recent (Nth) comparison image PS[N+1] is determined to be the same as the comparison image PS[N] selected immediately before (N-1th). Identicality may be determined by whether the overlap rate (rate at which identical images exist) of the image sets PS[N+1] and PS[N] is equal to or greater than a threshold value.

あるいは、最新(N回目)のクエリ画像Qの推定カメラ位置姿勢(外部パラメータEX[N])と、直前(N-1回目)のクエリ画像Qの推定カメラ姿勢の位置姿勢(外部パラメータEX[N-1])との変化が閾値以内であった場合、収束したと判定してもよい。閾値は、位置に関して例えば1mなど自由に設定してよい。ただし、N=1回目の場合は、直前(N-1回目)の結果が存在しないため、必ずNGと判定され、画像マッチング部13に分岐する。(なお、位置姿勢による収束判定ではなく、集合PS[N+1],PS[N]の重複割合等による収束判定の場合、偶然により、N=1の初回で収束判定が得られることもありうる。)なお、変化の閾値判定に関して、推定カメラ位置姿勢は位置要素(並進成分)と姿勢要素(回転要素)で構成されるが、位置要素と姿勢要素の両方の変化を閾値判定の対象として用いてもよいし、いずれか片方のみ(例えば位置のみ)の変化を閾値判定の対象として用いてもよい。 Alternatively, it may be determined that convergence has occurred if the change between the estimated camera position and orientation (external parameters EX[N]) of the latest (Nth) query image Q and the position and orientation (external parameters EX[N-1]) of the estimated camera orientation of the previous (N-1th) query image Q is within a threshold. The threshold may be set freely, for example, to 1 m for the position. However, in the case of N=1, since there is no previous (N-1th) result, it is always determined as NG and branched to the image matching unit 13. (Note that in the case of convergence determination based on the overlap ratio of sets PS[N+1], PS[N] rather than the position and orientation, it is possible that the convergence determination is obtained by chance at the first time of N=1.) Note that, regarding the threshold determination of the change, the estimated camera position and orientation are composed of a position element (translation component) and a posture element (rotation element), but the changes of both the position element and the posture element may be used as the target of the threshold determination, or only one of them (for example, only the position) may be used as the target of the threshold determination.

図7は、収束判定の結果がNGだったときの状態を模式的に示した図であり、今回のN回目の比較用画像集合PS[N+1]と、前回のN-1回目の比較用画像集合PS[N]とが一致しないと判定されることから、収束していないと判定されている。 Figure 7 is a schematic diagram showing the state when the result of the convergence judgment is NG. It is determined that convergence has not occurred because it is determined that the current Nth comparison image set PS[N+1] does not match the previous N-1th comparison image set PS[N].

以上、図2の各ステップを説明しながら、図1の各機能ブロックについて説明した。以下ではさらに、図1の各機能ブロックの処理の実施例について説明する。 Above, we have explained each step in Figure 2 and each functional block in Figure 1. Below, we will further explain an example of the processing of each functional block in Figure 1.

(2)初回比較用画像選択部12での比較用画像集合PSの選択には、
(2-1)非特許文献3に記載のImage Retrievalの技術を利用してもよいし、
(2-2)前掲の非特許文献1に記載の技術や特許文献2に記載の技術で画像マッチングを行った際に、非特許文献4に記載のRansac(ランダムサンプル投票)を適用し、算出した外れ値(アウトライア)以外の値(インライア)の数が多い比較用画像を選択してもよいし、
(2-3)前掲の非特許文献1に記載の技術や特許文献2に記載の技術で画像マッチング行った後に、さらに非特許文献2の技術を用いてクエリ画像のカメラ姿勢を推定した際に、非特許文献4に記載のRansacを適用し、算出したインライアの数が多い比較用画像を選択してもよい。
[非特許文献3]:「Revaud, J., Almazan, J., Rezende, R. S., & Souza, C. R. D. (2019). Learning with average precision: Training image retrieval with a listwise loss. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 5107-5116).」
[非特許文献4]:「M. A. Fischler and R. C. Bolles, ``Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography,'' Communications of the ACM 24(6):381-395 (1981)」
(2) The initial comparison image selection unit 12 selects the comparison image set PS as follows:
(2-1) You may use the Image Retrieval technology described in Non-Patent Document 3,
(2-2) When performing image matching using the technique described in Non-Patent Document 1 or the technique described in Patent Document 2, the Ransac (random sample voting) described in Non-Patent Document 4 may be applied to select a comparison image having a large number of values (inliers) other than the calculated outliers, or
(2-3) After performing image matching using the technology described in Non-Patent Document 1 or the technology described in Patent Document 2, the camera posture of the query image may be estimated using the technology described in Non-Patent Document 2. Then, Ransac described in Non-Patent Document 4 may be applied to select a comparison image with a large number of calculated inliers.
[Non-Patent Document 3]: "Revaud, J., Almazan, J., Rezende, RS, & Souza, CRD (2019). Learning with average precision: Training image retrieval with a listwise loss. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 5107-5116)."
[Non-Patent Document 4]: "MA Fischler and RC Bolles, ``Random Sample Consensus: A Paradigm for Model Fitting with Applications to Image Analysis and Automated Cartography,'' Communications of the ACM 24(6):381-395 (1981).''

(4)推定カメラ姿勢算出部14での三次元地図Mの三次元座標と比較用画像P(i)の二次元座標の対応点ペアを求める際には、
(4-1)図8に示すように、比較用画像P(i)のカメラ姿勢の位置Pos(i)(比較用画像レンダリング部11でのレンダリングの際の、並進成分及び回転成分で構成される外部パラメータEX(i)において並進成分として与えられており、レンダリング画像ではなく実写画像の場合も同様の外部パラメータEX(i)を撮影時に予め紐づけて取得しておけばよい)と、比較用画像P(i)の二次元座標とを結ぶ直線を延長した先で、三次元地図M(における構造物)と交差する点から求めてもよいし、
(4-2)画像マッチングに特許文献2に記載の手法を用いる場合は、比較用画像P(i)のカメラ姿勢をもとに、三次元地図の三次元座標を比較用画像上の二次元座標に変換することで求めてもよい。
(4) When the estimated camera attitude calculation unit 14 obtains a pair of corresponding points between the three-dimensional coordinates of the three-dimensional map M and the two-dimensional coordinates of the comparison image P(i),
(4-1) As shown in FIG. 8, the camera attitude position Pos(i) of the comparison image P(i) (given as a translation component in the external parameters EX(i) consisting of translation components and rotation components during rendering in the comparison image rendering unit 11, and in the case of an actual image rather than a rendered image, similar external parameters EX(i) may be associated and acquired in advance at the time of shooting) and the two-dimensional coordinates of the comparison image P(i), and the extension of the straight line connecting the position Pos(i) of the camera attitude of the comparison image P(i) and the two-dimensional coordinates of the comparison image P(i) may be obtained from the point of intersection with the three-dimensional map M (a structure therein);
(4-2) When the method described in Patent Document 2 is used for image matching, the three-dimensional coordinates of the three-dimensional map may be converted into two-dimensional coordinates on the comparison image P(i) based on the camera attitude of the comparison image P(i).

(5)最適比較用画像選択部15での最適な比較用画像(集合PS[N+1])の選択手法について、種々の実施例を以下に説明する。
(5-1)例えば、図9に示すように、クエリ画像Qの推定カメラ姿勢の位置(外部パラメータEX[N]の並進成分)から近い範囲R内に位置する比較用画像を選択してもよい。クエリ画像Qの推定姿勢の三次元地図における座標(XQ,YQ,ZQ)は、クエリ画像Qの推定カメラ姿勢(回転行列RQと並進ベクトルtQ)を用いて、
(5) Various embodiments of the method for selecting the optimal comparison image (set PS[N+1]) in the optimal comparison image selection unit 15 will be described below.
(5-1) For example, as shown in Fig. 9, a comparison image located within a range R close to the position of the estimated camera pose of the query image Q (the translation component of the external parameter EX[N]) may be selected. The coordinates ( XQ , YQ , ZQ ) of the estimated pose of the query image Q in the 3D map can be calculated using the estimated camera pose of the query image Q (rotation matrix RQ and translation vector tQ ) as follows:

Figure 0007658939000001
Figure 0007658939000001

と表せる。
比較用画像P(i)のカメラ姿勢の三次元地図における座標(Xi,Yi,Zi)は、比較用画像レンダリング部11で比較用画像をレンダリングした際に使用した値(実写画像であれば撮影時に予め紐づけられている値)を利用する。クエリ画像Qの推定姿勢の座標(XQ,YQ,ZQ)と、比較用画像P(i)のカメラ姿勢の座標(Xi,Yi,Zi)の2点間の距離dlを求め、距離dlがより小さい場合に、距離が近いと判定してもよい。また、比較用画像(集合PS[N+1])を選択する個数は、dlが一番小さい1個選択してもよいし、距離dlが小さい方から複数個を選択してもよい。
This can be expressed as:
The coordinates (Xi , Yi , Zi ) of the camera posture of the comparison image P(i) in the three-dimensional map are the values used when the comparison image is rendered by the comparison image rendering unit 11 (values that are linked in advance at the time of shooting in the case of a real-life image). The distance dl between the two points of the coordinates ( XQ , YQ , ZQ ) of the estimated posture of the query image Q and the coordinates ( Xi , Yi , Zi ) of the camera posture of the comparison image P(i) may be calculated, and if the distance dl is smaller, it may be determined that the distance is closer. In addition, the number of comparison images (set PS[N+1]) to be selected may be one with the smallest dl , or multiple images with the smallest distance dl may be selected.

(5-2)例えば、図10に示すように、クエリ画像Qの推定カメラ姿勢の回転(外部パラメータEX[N]の回転成分)が、比較用画像のカメラ姿勢の回転と類似している比較用画像を選択してもよい。カメラの姿勢の回転が類似していることの判定は、クエリ画像Qの推定カメラ姿勢のクォータニオン表現における回転角θQと、比較用画像P(i)のカメラ姿勢のクォータニオン表現における回転角θiの差分dθを取り、差分dθがより小さい場合に類似していると判定してもよい。また、比較用画像(集合PS[N+1])を選択する個数は、dθが一番小さい1個選択してもよいし、d_θが小さい方から複数個を選択してもよい。 (5-2) For example, as shown in FIG. 10, a comparison image may be selected in which the rotation of the estimated camera pose of a query image Q (the rotation component of the external parameter EX[N]) is similar to the rotation of the camera pose of a comparison image. The determination of whether the rotation of the camera poses is similar may be performed by taking a difference d θ between a rotation angle θ Q in the quaternion representation of the estimated camera pose of the query image Q and a rotation angle θ i in the quaternion representation of the camera pose of the comparison image P(i), and determining that the difference d θ is smaller. In addition, the number of comparison images (set PS[N+1]) to be selected may be one with the smallest d θ , or multiple images with the smallest d_θ may be selected.

(5-3)例えば、(5-1)の方法で求めたクエリ画像の推定姿勢の位置と比較用画像の姿勢の位置の距離dlと、(5-2)の方法で求めたクエリ画像の姿勢のクォータニオン表現における回転角と比較用画像の姿勢のクォータニオン表現における回転角の差分dθを用いて、加重平均 (5-3) For example, a weighted average is calculated using the distance d l between the position of the estimated posture of the query image obtained by the method of (5-1) and the position of the posture of the comparison image, and the difference d θ between the rotation angle in the quaternion representation of the posture of the query image obtained by the method of (5-2) and the rotation angle in the quaternion representation of the posture of the comparison image.

Figure 0007658939000002
Figure 0007658939000002

が小さい比較用画像を選択してもよい。ここで、wlおよびwθは、調整可能なパラメータであり、wlを小さくすれば、dlの影響が大きくなるため、よりクエリ画像の位置に近い位置にある比較用画像が選択されやすくなり、wθを小さくすれば、dθの影響が大きくなるため、よりクエリ画像の回転角との差分が小さい比較用画像が選択されやすくなる。また、比較用画像(集合PS[N+1])を選択する個数は、Wが一番小さい1個選択してもよいし、dθが小さい方から複数個を選択してもよい。 A comparison image with a small rotation angle may be selected. Here, w l and w θ are adjustable parameters, and by reducing w l , the influence of d l increases, so that a comparison image located closer to the position of the query image is more likely to be selected, and by reducing w θ , the influence of d θ increases, so that a comparison image with a smaller difference from the rotation angle of the query image is more likely to be selected. In addition, the number of comparison images (set PS[N+1]) to be selected may be one with the smallest W, or multiple images with the smallest d θ may be selected.

(5-4)例えば、図11に示すように、クエリ画像Qの推定カメラ姿勢の視野V内に、比較用画像のカメラ姿勢が存在している場合、その比較用画像を選択してもよい。以下の式(3),(4)を同時に満たす場合、クエリ画像Qの推定姿勢(外部パラメータEX[N]として推定した姿勢)を使ったレンダリング画像内(すなわち、視野V内)に、比較用画像P(j)∈PS[N+1]のカメラ姿勢が存在していると判定してもよい。(すなわち、式(3),(4)のいずれかが成立しない場合、この比較用画像P(j)については、「P(j)∈PS[N+1]」ではないものと判定される。)
0≦uj≦width …(3)
0≦vj≦height …(4)
(5-4) For example, as shown in FIG. 11, if the camera pose of a comparison image exists within the field of view V of the estimated camera pose of a query image Q, that comparison image may be selected. If the following expressions (3) and (4) are satisfied simultaneously, it may be determined that the camera pose of a comparison image P(j)∈PS[N+1] exists within a rendering image (i.e., within the field of view V) using the estimated pose of the query image Q (pose estimated as the external parameter EX[N]). (In other words, if either expression (3) or (4) does not hold, it is determined that the comparison image P(j) is not "P(j)∈PS[N+1]".)
0≦ uj ≦width …(3)
0≦ vj ≦height …(4)

ただし、(width,height)は、クエリ画像Qの画像サイズにおける幅及び高さであり、(uj,vj)は、クエリ画像Qのカメラ座標系における、比較用画像P(j)(PS[N+1]に属するか否かを判定される各候補画像P(j))のカメラ姿勢の位置である。二次元座標(uj,vj)と(width,height)の関係の例を、図12に示す。(uj,vj)は、透視投影行列P(クエリ画像Qの内部パラメータの情報に相当する行列P)を用いて、候補としての比較用画像P(j)のカメラ姿勢の三次元地図Mにおける座標(Xj,Yj,Zj)から変換することができる。 where (width, height) are the width and height in the image size of the query image Q, and (u j , v j ) are the position of the camera pose of the comparison image P(j) (each candidate image P(j) to be determined as to whether it belongs to PS[N+1]) in the camera coordinate system of the query image Q. An example of the relationship between the two-dimensional coordinates (u j , v j ) and (width, height) is shown in FIG. 12. (u j , v j ) can be converted from the coordinates (X j , Y j , Z j ) in the three-dimensional map M of the camera pose of the comparison image P(j) as a candidate, using the perspective projection matrix P (matrix P equivalent to information on the internal parameters of the query image Q) .

Figure 0007658939000003
Figure 0007658939000003

ただし、投影行列Pは、比較用画像をレンダリングした際のカメラの回転行列R、並進ベクトルt、内部パラメータKを用いて、
P=K[R t] …(6)
と表せる。クエリ画像の推定カメラ姿勢の視野内に、1つも比較用画像のカメラ姿勢が存在しない場合は、(5-1)、または(5-2)、または(5-3)の方法のいずれかを用いて、比較用画像を選択してもよい。
However, the projection matrix P is calculated by using the camera rotation matrix R, translation vector t, and internal parameters K when rendering the comparison image.
P = K[R t] …(6)
If no camera pose of a comparison image is present within the field of view of the estimated camera pose of the query image, a comparison image may be selected using any of the methods (5-1), (5-2), or (5-3).

以上、本発明の各実施形態や実施例によれば、クエリ画像の推定カメラ姿勢の算出と、最適な比較用画像の選択を繰り返すことで、画像マッチングに適した比較用画像を選択できることで、GPSや地磁気センサーが利用できない場所においても、事前に用意した複数の候補の中から最適な比較用画像を選択することができる。繰り返し処理については以上の説明通りであるが、一実施形態では例えば以下のような結果となることがありうる。
●N=1(初回)で、リファレンス用画像集合PSから比較用画像集合PS[1]を選択し、集合PS[1]から推定カメラ姿勢EX[1]を推定し、次回N=2に向けた比較用画像集合PS[2]をリファレンス用画像集合PSから選択し、集合PS[1],PS[2]の重複が小さいことから収束していないものと判定する。
●N=2で、集合PS[2]から推定カメラ姿勢EX[2]を推定し、次回N=3に向けた比較用画像集合PS[3]をリファレンス用画像集合PSから選択し、集合PS[2],PS[3]の重複が大きいことから収束しているものと判定し、結果としてPS[3]を出力する。(なお、結果としてPS[N+1](この例ではPS[3])ではなくPS[N](この例ではPS[2])を出力してもよい。)
As described above, according to each embodiment and example of the present invention, by repeatedly calculating the estimated camera attitude of the query image and selecting the optimal comparison image, it is possible to select a comparison image suitable for image matching, and therefore it is possible to select the optimal comparison image from multiple candidates prepared in advance even in a location where a GPS or a geomagnetic sensor cannot be used. The repeated processing is as described above, but in one embodiment, for example, the following result may be obtained.
●At N=1 (first time), a comparison image set PS[1] is selected from the reference image set PS, an estimated camera pose EX[1] is estimated from the set PS[1], and a comparison image set PS[2] for the next time N=2 is selected from the reference image set PS. Since there is little overlap between the sets PS[1] and PS[2], it is determined that convergence has not occurred.
●At N=2, estimate the estimated camera pose EX[2] from the set PS[2], select a comparison image set PS[3] for the next N=3 from the reference image set PS, and determine that convergence has occurred since there is a large overlap between the sets PS[2] and PS[3], and output PS[3] as the result. (Note that it is also possible to output PS[N] (PS[2] in this example) instead of PS[N+1] (PS[3] in this example) as the result.)

特に、最初に用意しておくリファレンス用画像集合PSが密であって多数の画像に渡るものである場合(例えば、各画像P(i)の位置姿勢に相当する外部パラメータEX(i)の間隔が、1cm間隔/3軸の回転をすべて1°間隔などといったように密であり、結果として画像集合PSの構成画像数も多数に渡るような場合)にはより顕著に、本発明の各実施形態や実施例による繰り返しによりPS[1]→PS[2]→PS[3]→…と各回N=1,2,3,…で選択される比較用画像集合PS[N]が変化して行くことにより、より適切な比較用画像集合PS[N]が選択されるようになり、最終的には適切な集合PS[N]に収束することが期待される。 In particular, when the reference image set PS prepared initially is dense and spans a large number of images (for example, when the intervals of the external parameters EX(i) corresponding to the position and orientation of each image P(i) are dense, such as 1 cm intervals and 1° intervals for all three axis rotations, resulting in a large number of images constituting the image set PS), it is expected that a more appropriate comparison image set PS[N] will be selected, as the comparison image set PS[N] selected changes each time N=1, 2, 3, ... from PS[1] → PS[2] → PS[3] → ... through the repetition of each embodiment or example of the present invention, and ultimately convergence to an appropriate set PS[N] will occur.

以下、種々の補足例、代替例、追加例等について説明する。 Below, we explain various supplementary, alternative, and additional examples.

<1> 本実施形態の比較用画像検索装置10は、VPS等の要素技術として、GPS等を使用しない状況においても、ロボットの自己位置推定精度の向上に寄与することができる。これにより遠隔ロボットの利便性が向上され、遠隔の現場へと指導者等が移動することを必須とせず、ユーザ移動に必要となるエネルギー資源を節約することで二酸化炭素排出量を抑制できることから、国連が主導する持続可能な開発目標(SDGs)の目標13「気候変動とその影響に立ち向かうため、緊急対策を取る」に貢献することが可能となる。 <1> The comparative image search device 10 of this embodiment can contribute to improving the accuracy of self-location estimation of a robot as an elemental technology of VPS, etc., even in situations where GPS, etc. are not used. This improves the convenience of remote robots, does not require leaders to travel to remote sites, and reduces carbon dioxide emissions by saving energy resources required for user movement, making it possible to contribute to Goal 13 of the United Nations-led Sustainable Development Goals (SDGs) "Take urgent action to combat climate change and its impacts."

(14) 図13は、一般的なコンピュータ装置70におけるハードウェア構成の例を示す図である。比較用画像検索装置10は、このような構成を有する1台以上のコンピュータ装置70として実現可能である。なお、2台以上のコンピュータ装置70で比較用画像検索装置10を実現する場合、ネットワーク経由で処理に必要な情報の送受を行うようにしてよい。コンピュータ装置70は、所定命令を実行するCPU(中央演算装置)71、CPU71の実行命令の一部又は全部をCPU71に代わって又はCPU71と連携して実行する専用プロセッサとしてのGPU(グラフィックス演算装置)72、CPU71(及びGPU72)にワークエリアを提供する主記憶装置としてのRAM73、補助記憶装置としてのROM74、通信インタフェース75、ディスプレイ76、マウス、キーボード、タッチパネル等によりユーザ入力を受け付ける入力インタフェース77、カメラ78と、これらの間でデータを授受するためのバスBSと、を備える。 (14) FIG. 13 is a diagram showing an example of the hardware configuration of a general computer device 70. The comparison image search device 10 can be realized as one or more computer devices 70 having such a configuration. When the comparison image search device 10 is realized by two or more computer devices 70, information required for processing may be sent and received via a network. The computer device 70 includes a CPU (Central Processing Unit) 71 that executes predetermined instructions, a GPU (Graphics Processing Unit) 72 as a dedicated processor that executes some or all of the execution instructions of the CPU 71 in place of the CPU 71 or in cooperation with the CPU 71, a RAM 73 as a main memory device that provides a work area for the CPU 71 (and the GPU 72), a ROM 74 as an auxiliary memory device, a communication interface 75, a display 76, an input interface 77 that accepts user input via a mouse, keyboard, touch panel, etc., a camera 78, and a bus BS for transmitting and receiving data between them.

比較用画像検索装置10の各機能部は、各部の機能に対応する所定のプログラムをROM74から読み込んで実行するCPU71及び/又はGPU72によって実現することができる。なお、CPU71及びGPU72は共に、演算装置(プロセッサ)の一種である。ここで、表示関連の処理が行われる場合にはさらに、ディスプレイ76が連動して動作し、データ送受信に関する通信関連の処理が行われる場合にはさらに通信インタフェース75が連動して動作する。比較用画像検索装置10による処理結果等はディスプレイ76で表示して出力してよい。 Each functional unit of the comparison image search device 10 can be realized by a CPU 71 and/or a GPU 72 that reads from a ROM 74 a predetermined program corresponding to the function of each unit and executes it. Both the CPU 71 and the GPU 72 are a type of computing device (processor). Here, when display-related processing is performed, the display 76 also operates in conjunction, and when communication-related processing related to data transmission and reception is performed, the communication interface 75 also operates in conjunction. Processing results by the comparison image search device 10 may be displayed and output on the display 76.

10…比較用画像検索装置、11…比較用画像レンダリング部、12…初回比較用画像選択部、13…画像マッチング部、14…推定カメラ姿勢算出部、15…最適比較用画像選択部、16…収束判定部 10...Comparison image search device, 11...Comparison image rendering unit, 12...Initial comparison image selection unit, 13...Image matching unit, 14...Estimated camera posture calculation unit, 15...Optimal comparison image selection unit, 16...Convergence judgment unit

Claims (9)

三次元地図から1つ以上のカメラ位置姿勢において予めレンダリングされて得られている画像、及び/又は、前記三次元地図の対象となる実世界で1つ以上のカメラ位置姿勢において予め撮影されて得られている画像を含むリファレンス用画像集合から選択される各回の比較用画像集合と、クエリ画像との間で画像マッチングを行うことにより、前記クエリ画像の前記三次元地図におけるカメラ位置姿勢を各回のものとして推定することを繰り返し、
当該繰り返す各回において、前回のものとして推定したカメラ位置姿勢に基づいて、前記リファレンス用画像集合から選択される今回の比較用画像集合と、前記クエリ画像との間で画像マッチングを行うことにより、前記クエリ画像の前記三次元地図におけるカメラ位置姿勢を今回のものとして推定することを収束判定が得られるまで繰り返し、
前記収束判定が得られた回で用いた比較用画像集合を出力することを特徴とする比較用画像検索装置。
by performing image matching between a query image and a comparison image set for each round selected from a reference image set including images obtained by rendering in advance from a 3D map at one or more camera positions and/or images obtained by photographing in advance at one or more camera positions and/or in the real world that is the subject of the 3D map, estimating the camera position and orientation of the query image in the 3D map for each round repeatedly;
In each iteration, image matching is performed between the current set of comparison images selected from the set of reference images and the query image based on the camera position and orientation estimated as the previous one, thereby estimating the current camera position and orientation of the query image in the 3D map until a convergence determination is obtained;
a comparison image search device that outputs a set of comparison images used in the round in which the convergence judgment was obtained.
今回の比較用画像集合と、前回の比較用画像集合と、の変化が小さいと判定される場合に、前記収束判定が得られたものとすることを特徴とする請求項1に記載の比較用画像検索装置。 The comparison image search device according to claim 1, characterized in that the convergence judgment is obtained when it is judged that there is little change between the current comparison image set and the previous comparison image set. 今回のものとして推定されたカメラ位置姿勢における位置及び/または姿勢と、前回のものとして推定されたカメラ位置姿勢における位置及び/または姿勢と、の変化が小さいと判定される場合に、前記収束判定が得られたものとすることを特徴とする請求項1に記載の比較用画像検索装置。 The comparative image search device according to claim 1, characterized in that the convergence judgment is obtained when it is judged that there is little change between the position and/or orientation in the camera position and orientation estimated for the current time and the position and/or orientation in the camera position and orientation estimated for the previous time. 前回のものとして推定したカメラ位置姿勢の位置に、位置が近いと判定されるものを、前記リファレンス用画像集合の中から選択することで、今回の比較用画像集合を決定することを特徴とする請求項1に記載の比較用画像検索装置。 The comparison image search device according to claim 1, characterized in that the current set of comparison images is determined by selecting from the reference image set those images that are determined to be close to the camera position and orientation estimated for the previous image. 前回のものとして推定したカメラ位置姿勢の姿勢に、姿勢が近いと判定されるものを、前記リファレンス用画像集合の中から選択することで、今回の比較用画像集合を決定することを特徴とする請求項1に記載の比較用画像検索装置。 The comparison image search device according to claim 1, characterized in that the current set of comparison images is determined by selecting from the reference image set those images whose pose is determined to be close to the pose of the camera position and pose estimated as the previous one. 前回のものとして推定したカメラ位置姿勢に、位置姿勢が近いと判定されるものを、前記リファレンス用画像集合の中から選択することで、今回の比較用画像集合を決定することを特徴とする請求項1に記載の比較用画像検索装置。 The comparison image search device according to claim 1, characterized in that the current set of comparison images is determined by selecting from the reference image set those whose position and orientation are determined to be close to the camera position and orientation estimated as the previous image. 前回のものとして推定したカメラ位置姿勢におけるカメラ視野内に、位置があると判定されるものを、前記リファレンス用画像集合の中から選択することで、今回の比較用画像集合を決定することを特徴とする請求項1に記載の比較用画像検索装置。 The comparison image search device according to claim 1, characterized in that the current set of comparison images is determined by selecting from the reference image set those images that are determined to be located within the camera field of view at the camera position and orientation estimated as the previous one. 三次元地図から1つ以上のカメラ位置姿勢において予めレンダリングされて得られている画像、及び/又は、前記三次元地図の対象となる実世界で1つ以上のカメラ位置姿勢において予め撮影されて得られている画像を含むリファレンス用画像集合から選択される各回の比較用画像集合と、クエリ画像との間で画像マッチングを行うことにより、前記クエリ画像の前記三次元地図におけるカメラ位置姿勢を各回のものとして推定することを繰り返し、
当該繰り返す各回において、前回のものとして推定したカメラ位置姿勢に基づいて、前記リファレンス用画像集合から選択される今回の比較用画像集合と、前記クエリ画像との間で画像マッチングを行うことにより、前記クエリ画像の前記三次元地図におけるカメラ位置姿勢を今回のものとして推定することを収束判定が得られるまで繰り返し、
前記収束判定が得られた回で用いた比較用画像集合を出力することを特徴とすることを特徴とする比較用画像検索方法。
by performing image matching between a query image and a comparison image set for each round selected from a reference image set including images obtained by rendering in advance from a 3D map at one or more camera positions and/or images obtained by photographing in advance at one or more camera positions and/or in the real world that is the subject of the 3D map, estimating the camera position and orientation of the query image in the 3D map for each round repeatedly;
In each iteration, image matching is performed between the current set of comparison images selected from the set of reference images and the query image based on the camera position and orientation estimated as the previous one, thereby estimating the current camera position and orientation of the query image in the 3D map until a convergence determination is obtained;
A comparison image retrieval method comprising: outputting a set of comparison images used in the round in which the convergence judgment was obtained.
コンピュータを請求項1ないし7のいずれかに記載の比較用画像検索装置として機能させることを特徴とするプログラム。 A program that causes a computer to function as a comparative image search device according to any one of claims 1 to 7.
JP2022124812A 2022-08-04 2022-08-04 Comparison image search device, method and program Active JP7658939B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022124812A JP7658939B2 (en) 2022-08-04 2022-08-04 Comparison image search device, method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022124812A JP7658939B2 (en) 2022-08-04 2022-08-04 Comparison image search device, method and program

Publications (2)

Publication Number Publication Date
JP2024021747A JP2024021747A (en) 2024-02-16
JP7658939B2 true JP7658939B2 (en) 2025-04-08

Family

ID=89855514

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022124812A Active JP7658939B2 (en) 2022-08-04 2022-08-04 Comparison image search device, method and program

Country Status (1)

Country Link
JP (1) JP7658939B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182523A (en) 2012-03-02 2013-09-12 Hitachi Plant Technologies Ltd Image processing device, image processing system, and image processing method
JP2022533309A (en) 2019-05-21 2022-07-22 マイクロソフト テクノロジー ライセンシング,エルエルシー Image-based localization

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013182523A (en) 2012-03-02 2013-09-12 Hitachi Plant Technologies Ltd Image processing device, image processing system, and image processing method
JP2022533309A (en) 2019-05-21 2022-07-22 マイクロソフト テクノロジー ライセンシング,エルエルシー Image-based localization

Also Published As

Publication number Publication date
JP2024021747A (en) 2024-02-16

Similar Documents

Publication Publication Date Title
CN102054164B (en) Image processing device, image processing method and program
JP5920352B2 (en) Information processing apparatus, information processing method, and program
CN111968165B (en) Dynamic human body three-dimensional model completion method, device, equipment and medium
CN113048980B (en) Pose optimization method and device, electronic equipment and storage medium
JP2022539422A (en) METHOD AND APPARATUS FOR CONSTRUCTING SIGNS MAP BASED ON VISUAL SIGNS
CN113361365B (en) Positioning method and device, equipment and storage medium
Triebel et al. Improving simultaneous mapping and localization in 3d using global constraints
CN113052907A (en) Positioning method of mobile robot in dynamic environment
WO2022247286A1 (en) Positioning method, apparatus, device, and storage medium
US20210304411A1 (en) Map construction method, apparatus, storage medium and electronic device
CN110490933A (en) Non-linear state space Central Difference Filter method based on single point R ANSAC
Mehralian et al. EKFPnP: extended Kalman filter for camera pose estimation in a sequence of images
CN120635207A (en) System for positioning method of panoramic camera in point cloud map
CN113902828A (en) Construction method of indoor two-dimensional semantic map with corner as key feature
JP7658939B2 (en) Comparison image search device, method and program
JP2009186287A (en) Plane parameter estimation device, plane parameter estimation method, and plane parameter estimation program
CN119048718B (en) A method and electronic device for augmented reality three-dimensional registration
JP7748921B2 (en) Comparison image generating device, method, and program
CN116205788B (en) Three-dimensional feature map acquisition method, image processing method and related device
CN120147521A (en) Image generation method and device
CN114842059B (en) House point cloud registration method and device, electronic device and readable storage medium
KR20240155417A (en) Apparatus and method of localizing user pose in three-dimensional space
CN115131407A (en) Robot target tracking method, device and equipment for digital simulation environment
Fu et al. Enhanced iteration closest point is based on stochastic differential evolution algorithm and random sampling
CN119672081B (en) A three-dimensional model registration method and system based on hybrid framework

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20250319

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250327

R150 Certificate of patent or registration of utility model

Ref document number: 7658939

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150