JP7794866B2

JP7794866B2 - 新たな現実世界オブジェクトに関する注釈付けされたオブジェクト・モデルを作成するための方法およびシステム

Info

Publication number: JP7794866B2
Application number: JP2024028378A
Authority: JP
Inventors: フランツィウス，マティアス; ワン，チョウ; チン，ユフェン
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2023-03-31
Filing date: 2024-02-28
Publication date: 2026-01-06
Anticipated expiration: 2044-02-28
Also published as: US12243181B2; JP2024146778A; US20240331321A1

Description

本発明は、ロボット・システムのために現実世界オブジェクトについての知識を提供する分野に関し、具体的には、家事支援ロボット等などの自律型ロボットに関する行動計画のために使用されることが可能である注釈付けされたオブジェクト・モデルを作成することに関する。

近年においては、家庭用ロボットなどの自律型デバイスを含む支援システムがますます普及するようになった。そのようなシステムは、所望のタスクを遂行するために必要である行動計画を容易にするために、それらのシステムが稼働することを意図されている環境の妥当な理解を必要とする。残念ながら、これは、ロボットの環境において潜在的に存在する可能性があるオブジェクトの定義を提供することを必要とする。なぜならロボットそのものは、ある特定のタスクを実行する際にロボットの環境において重要である可能性があるあらゆる詳細を自動的に学習することがまだ可能ではないからである。環境の深い「理解」は、ロボットにとって不可欠であり、確立されなければならず、その後に任意のタスクが、必要なありとあらゆるステップを教えることなくロボットによって達成されることが可能である。それゆえに、ロボットの所望のタスクを達成するために行動計画にとって必要とされる特性をロボットの環境におけるすべての潜在的なオブジェクトに関して定義することは、多大な労力を必要とする。現在、この情報は、ロボットの知識ベースに新たなオブジェクトを付加することの必要性を認識しているシステムのオペレータによって大部分が入力されており、それによってロボットはその後、この新たに付加されたオブジェクトを含む環境において自律的に動作することが可能である。オブジェクトの付加自体は、容易に行われることが可能であるが、それぞれのオブジェクトが有するすべての特性を、その他のオブジェクトに対する関係または可能な関係さえ含めて付加することは、これがゼロから開始される必要がある場合には、より困難で時間がかかる。しかしながら、これらの特性は、ロボットの環境についてのロボットの理解を改善するために必要であり、それによってロボット（またはゴム・システム）の計画モジュールは、そのようなオブジェクトに作用すること、またはそのようなオブジェクトを使用することが可能である。

そのため、オブジェクトまたはオブジェクトの部分に関する特性を入力するために使用されるシステムが、新たなオブジェクトに関するオブジェクト・モデルに注釈付けするために入力されることを必要とされる情報のうちの少なくともいくらかを自動的に生成することが可能であるならば、望ましいであろう。システムによって生成されるそのような注釈（オブジェクトまたはその特定の部分に関連付けられている特性）は、次いで好ましくは、システムのオペレータによって訂正および調整されるべきである。注釈のそのような訂正および調整は、オブジェクトが有する可能性がある特性についてのすべての詳細をオペレータによって直接入力することよりもはるかに速い。

本発明による方法およびシステムは、現実世界オブジェクトの注釈付けされたオブジェクト・モデルを対話様式で作成するプロセスを支援するのに適している。このシステムは、新たなオブジェクトの注釈付けされていないオブジェクト・モデルに関して、オペレータによって補正、確認、または却下されることが可能である特性を予測する。さらにオペレータは、さらなる特性を付加することも可能である。最初に、初期オブジェクト・モデルが提供され、その初期オブジェクト・モデルは、新たな、まだ知られていない現実世界オブジェクトの注釈付けされたオブジェクト・モデルを作成するための基礎である。それゆえに、新たなオブジェクトの特性は、新たなオブジェクトのジオメトリを定義する初期オブジェクト・モデルに付加されなければならない。この初期オブジェクト・モデルに基づいて、オブジェクト特性の予測がシステムによって提供される。オブジェクト特性のこの予測は次いで、初期オブジェクト・モデルに基づくオブジェクトの表示において視覚化される。

オブジェクト特性は、オブジェクトの表示とともに視覚化され、それによって特性とオブジェクトまたはその特定の部分との間における関連付けが、オペレータにとって明確になる。オブジェクトの予測された（提案された）特性を付加、削除、または調整するために、オペレータは次いで、選択情報を入力することが可能であり、その選択情報は、ユーザによって行われたジェスチャー、ユーザの指し示す操作、ユーザの音声入力、またはユーザの視線を受け取る知覚デバイスを使用してシステムによって入手される。「ジェスチャー」は、たとえば、人差し指を使用して何かを具体的に指し示すことを含む、オペレータの身体の部分の何らかの動きとして理解されることが可能である。そのようなジェスチャーは、知覚デバイスとして使用されるカメラによって観察されることが可能である。代替として、または補助的な入力として、ユーザの視線が識別および分析されることが可能である。さらに、指し示す操作が、知覚デバイスとしてのコンピュータ・マウスから入手されることが可能である。音声入力に関しては、マイクロフォンが知覚デバイスであることが可能である。この入力された選択情報に基づいて、選択情報に対応するオブジェクトの部位が特定される。選択情報を入力するさまざまな方法が組み合わされることも可能であるということに留意されたい。

システムは次いで、オブジェクトの識別されたエリアに関する特性情報を受け取る。システムによって受け取られる特性情報は、たとえば音声入力を使用して、オペレータによって提供されることが可能であり、オブジェクトまたはその部分のカテゴリーまたは任意の種類の特性を含むことが可能である。音声入力は、オブジェクトの識別されたエリアに注釈として付加されることになるさらなる情報だけでなく、最初に予測された特性の削除も含むことが可能である。オブジェクトの特性が補正、削除、または付加された後に、結果として生じる注釈付けされたオブジェクト・モデルは、たとえばロボット・システムのための世界知識を含むデータベースに格納される。

本発明の好ましい実施形態による構成要素を含むシステム概観を示す図である。新たな注釈付けされたオブジェクト・モデルを作成するための支援された注釈を記述する簡略化されたフローチャートである。注釈付けされることになるオブジェクトの表示の視覚化と、初期オブジェクト・モデルを改善するためのプロセスとの例を示す図である。注釈付けされたオブジェクト・モデルが作成されることになるオブジェクトに関する注釈を予測する例示的な方法を示す図である。初期オブジェクト・モデルに関する特性を予測するための例を示す図である。予測されたオブジェクト特性を適合させるプロセスの例示的な詳細を示す図である。

以降では、添付の図面を参照しながら本発明の実施形態がさらに詳細に記述されることになる。しかしながら、本発明を実現するための詳細および構造要素に入る前に、方法およびシステムを要約することと、新たなオブジェクト・モデルが注釈付けされる必要がある場合に本発明が有するそれぞれの利点を説明することとによって本発明の一般的な理解が改善されることになる。

主な利点として、本発明は、オブジェクト・モデルに注釈付けする対話式の方法を提供し、それによって、必要とされる労力および作業負荷が、一般に知られている手順に比較して低減される。本発明によれば、システムは、オペレータに提示される特性を予測する。それゆえにオペレータは、「暫定的に」注釈付けされたオブジェクト・モデルを提供され、それによってオペレータは、必要な範囲でのみ特性を迅速に適合させることが可能になる。対話式の注釈は、オブジェクト・モデルに対する注釈が生成、削除、または適合されることになるオブジェクトの部分またはエリアを直観的に選択することを可能にする。オブジェクトの関連する部分または部位のこの直観的な選択は、必要とされる注釈プロセスのための主観的な労力を著しく低減する。特に、オブジェクトの部分または部位の直観的な選択が、オペレータのジェスチャーまたは一般に動作および動き、たとえば、オペレータの手または視線から特定され、オブジェクトのこの部分または部位に関連付けられている注釈（特性）の適合が、オペレータからの音声入力を使用して実行される場合においては、新たなオブジェクトに関する注釈は、かなり迅速に、かつミスを犯す確率が低減された状態で作成されることが可能である。

本明細書において記述されている、新たなオブジェクトに注釈付けするための手順およびシステムは、たとえばキーボードまたはマウスを介した情報の入力を使用する一般に知られているシステムと組み合わされることが可能である。システムに情報を入力するそのような補助的な方法は、オブジェクトに関する注釈を調整するために情報を入力する好ましい方法である音声認識がオペレータによる音声入力の誤った解釈のためにエラーを引き起こす場合において特に有利である。

初期オブジェクト・モデルに基づき、予測されたオブジェクト特性とともに表示されるオブジェクトの表示は、拡張現実ディスプレイ・デバイスまたは仮想現実ディスプレイ・デバイスを使用することが好ましい。表示をオペレータに提示するためにその他のタイプのディスプレイが使用されることも可能であり、それによってオペレータは、選択情報を入力すること、および注釈についての調整を実行することが可能であるが、拡張現実デバイス（ＡＲ）または仮想現実デバイス（ＶＲ）を使用することが好ましい。そのようなＡＲまたはＶＲデバイスを使用することによって、オペレータは、ＡＲまたはＶＲディスプレイ・デバイス上に表されるオブジェクト全体の部分または部位と、それぞれの予測された特性との間における関連付けを容易に認識することが可能である。たとえば、表示は、特性とともに視覚化されることが可能であり、その場合においては、特性は、それらの特性が属する部分に対して近い空間的関係で表示される。その関係は、矢印または接続線を使用することによって示されることさえ可能である。オブジェクトの外観に直接関係する特性は、オブジェクトそのものの表示において直接表示されることが可能である。たとえば、「色」という特性を反映する色は、オブジェクトの表示をレンダリングするために使用されることが可能である。やはり、これによって、関連付けられている特性をオペレータが適合させるための容易で直観的な方法が可能になる。具体的には、そのような特性の補正がリアルタイムで表示されることが可能である。なぜなら、オペレータが新たなオブジェクトの表示の表面を選択し、新たな色情報を入力した場合においては、予測された色を使用する表示は、新たに入力された色情報を使用する表示によって置き換えられることが可能であるからである。そのため、特定のエリアの、またはオブジェクト全体でさえの１つの特性としての色の変化がすぐに視覚化されるようになり、それゆえにオペレータは、正しい特性がオブジェクトまたはその部分に現在関連付けられているということを直接認識することが可能である。色は一例にすぎず、表示において視覚化されることが可能である特性のいかなる改正に関しても同じことが有効であるということは明らかである。

注釈付けされたオブジェクト・モデルが作成されることになる新たなオブジェクトがシステムの環境において存在している場合においては、カメラを使用して、その新たなオブジェクトの画像を取り込むこと、またはそのオブジェクトの３Ｄスキャンを行うことが可能であり、それによってオブジェクト特性のオーバーレイが、拡張現実を使用して表示されることが可能である。３Ｄスキャン用の取り込まれた画像は、初期オブジェクト・モデルを自動的に生成するために使用されることも可能である。しかしながら、新たなオブジェクトが実際に存在していること、または画像を撮影すること、またはオブジェクトのスキャンを行うこと、または新たなオブジェクトの画像がカメラによって撮影されることが可能であることは、絶対に必要であるとは限らない。むしろ、新たなオブジェクトの（まだ注釈付けされていない）オブジェクト・モデルのみが知られていて、そのオブジェクト・モデルに基づいて仮想現実を使用して表示が提供されることも可能である。

上述されているように、新たなオブジェクトの部分、部位、またはエリアの選択は、オペレータの、特にオペレータが自分の手で行うジェスチャーの知覚から特定される。しかしながら、その知覚は、オペレータの目の動きを追跡することを含むことも可能であり、それにより、オペレータによって焦点を合わされているオブジェクトの表面上の場所が特定されることが可能である。それゆえに、選択情報を取得するためにジェスチャーを分析することに加えて、アイ・トラッカーから受け取った情報によって、分析され得る情報を補足することも可能である。

１つの代替実施形態によれば、アイ・トラッカーから受け取った情報は、少なくとも、オペレータによって選択されたオブジェクトの一部分を特定するために、オペレータの手によって行われたジェスチャーの知覚の代わりになることさえ可能である。いずれにせよ、知覚された情報は、オペレータによって入力されるコマンドによって補完されることが可能である。たとえば、操作知覚に基づいて、まずはオブジェクトの表面上の場所を定義する選択情報が必要とされる。オペレータが、たとえば、指先でオブジェクト（仮想オブジェクトまたは現実世界オブジェクト）の特定のポイントにタッチした場合においては、そのタッチ場所が選択情報として解釈される。拡張現実の場合、そのような接触は、オペレータの指先と現実世界オブジェクトとの接触である可能性があるが、仮想現実ディスプレイが使用される場合においては、指先とオブジェクトの表示との間における接触ポイントは、オペレータの手と仮想オブジェクトとの間における衝突を計算することによって特定されることも可能であるということに留意されたい。接触の位置が特定されると、引き続いての注釈の入力または補正が有効となる部位が定義されなければならない。オペレータによって行われるいかなるさらなる指示も伴わずに、その部位は、事前に定義されたサイズを有する識別された場所の周囲の部位と考えられることが可能である。その事前に定義されたサイズは、接触の場所の周囲に特定されるデフォルトのエリアを定義するために使用されることが可能である。しかしながら、たとえばエリアまたは部位のサイズを調整することによって、選択情報を強化するために、さらなる入力コマンドが使用されることが可能である。

さらに、特定された接触場所に応じて、選択情報に基づくオブジェクトの特定の部位の識別のためのデフォルトは異なることが可能であり、たとえば、予測された特性として、オブジェクトのセグメント化が新たなオブジェクトの表示にオーバーレイされる場合においては、オブジェクトのセグメントを視覚化するために使用される、識別されたセグメントの外側の境界を示すフレームに接触することは、オブジェクトのセグメント全体、ひいてはオブジェクトの一部分を選択することと解釈されることが可能である。これは、図面を参照しながら注釈の適合の例が説明される際に、より明確になるであろう。しかしながら、一般的な情報として、オペレータによって指定される特定の場所は、この場所が指定される方法（手のジェスチャー、目の動き、．．．）とは無関係に、選択情報に対応するエリアの識別のために使用される複数のデフォルト設定のうちの１つを使用するためのトリガーとしての役割を果たすことが可能である。

オペレータによって入力される選択情報は、情報の複数の異なる部分を含む場合さえあり、たとえば、オブジェクトの一部分の特性は、その部分とオブジェクトの別の部分との可能な相互作用を定義する場合がある。たとえば、ボトルのキャップは、ボトルの開口端上に付けられ得る。対してコルクは、ボトルの開口端内に挿入され得る。ある部分と別の部分との潜在的な関係を定義するそのような特性が、本発明を使用して定義されることも可能である。そのような場合においては、選択情報は、少なくとも第１の情報および第２の情報を含むことが可能である。第１の情報は第１の部分を定義し、第２の情報は第２の部分を定義し、それによって、これらの２つの部分の間における関係は次いで、たとえば、第１の選択情報に基づいて識別された第１の部分に関連付けられている特性として定義されることが可能である。選択情報のそのような入力は、分割されることさえ可能である。たとえば、第１の選択情報がシステムに入力されることが可能であり、関連付けられることになる（「上に置かれることが可能である」）特性が続き、その後に第２の選択情報が付加されて、これらの２つの部分の間における注釈付けされた関係が完成される。明らかに、選択情報は、２つよりも多い部分を含む場合さえある。

選択情報を入力する際にオペレータを支援するためには、オブジェクトの表示を提供するために仮想現実が使用される場合においてオペレータの手とオブジェクトの表示との間における接触または衝突についてのフィードバックをシステムが提供するならば有利である。これは、たとえば、オペレータがオブジェクトの表示に「接触した」ということを示す刺激を提供するアクチュエータを備えたリストバンドまたは手袋を使用して達成されることが可能である。そのようなフィードバックは、オペレータによる自然なジェスチャーを使用して選択情報を入力するという直観的な性質をさらにいっそう改善するであろう。接触は、オブジェクトとオペレータの手との間における計算された衝突から特定されることが可能である。オブジェクト・モデルおよびオペレータの手を記述するために、たとえばポイント・クラウドを使用する衝突のそのような計算は、当技術分野において知られている。

上述されているように、オペレータの動作および動きの知覚は、新たなオブジェクトのそれぞれの部分またはエリア（部位）に注釈付けするために、オペレータによって示されたオブジェクトの場所を特定するために使用される。しかしながら、オペレータのジェスチャーの知覚は、注釈手順の開始ポイント、すなわち初期オブジェクト・モデルを改善するために使用されることさえ可能である。たとえば、注釈が適合されることになるオブジェクトを表すために使用される初期オブジェクト・モデルは、ジェスチャーを使用して精緻化されることが可能である。オブジェクト・モデルを形成する、および表示を作成するために使用されるメッシュ（三角形メッシュ、多角形メッシュ）、ポイント・クラウド、．．．は、オペレータからの知覚されたジェスチャーを使用して訂正されることが可能である。このようにして、初期オブジェクト・モデルは、所望の新たなオブジェクトにさらに近くなるように調整および精緻化されることが可能である。新たなオブジェクトの画像を取り込むためにカメラが使用される場合においては、メッシュ、ポイント・クラウド．．．を使用したオブジェクトの表示のオーバーレイがオペレータに提示されることが可能であり、オペレータは次いで、オブジェクトの真の形状をより忠実に反映するために、メッシュの特定の部分（ポイント・クラウドのポイント、．．．）を直接識別して、特定のエリアを拡張すること、またはエリアを削除することが可能である。初期オブジェクト・モデルのそのような適合は、すぐに視覚化されることが可能であり、それによって、初期オブジェクト・モデルと現実世界モデルとの間における類似性にユーザが満足した後に、注釈を付加、訂正、または削除するプロセスがユーザによって開始される。

原則として、オブジェクト特性の予測は、複数の異なる方法で実行されることが可能である。１つの可能性は、新たなオブジェクトにさらに忠実に対応するために精緻化されていた可能性がある初期オブジェクト・モデルから開始して、オブジェクト全体またはその部分に関する特性を特定するためにオブジェクト・モデリング・データを分析するアルゴリズムをモデルに適用することである。そのようなアルゴリズム、たとえば、いわゆる部分検出器は、初期モデルそのものに対して直接実行されることが可能であり、または新たなオブジェクトと既に注釈付けされているオブジェクトとの間における類似性が識別されることが可能である場合には、その他のオブジェクトに関して知られている特性を特定するためにデータベースから取り出された情報を考慮に入れることが可能である。そのような類似性は、オブジェクト全体、または、オブジェクト全体のセグメントもしくは部分として識別されているオブジェクトの部分に関係する場合がある。

代替として、オブジェクトまたはその部分の特性の予測は、モーフィング・プロセスの結果であり得る。モーフィングによって、既に注釈付けされているテンプレート・オブジェクト・モデルが、新たなオブジェクトのジオメトリまたは形状を定義する初期オブジェクト・モデル上にモーフィングされる。モーフィング・プロセスにおいては、モデルの特定のノードまたはポイントに関連付けられている注釈が保持され、ひいては、新たなオブジェクトを表すモーフィング結果へ移される。そのため、モーフィング・プロセスの結果は、モーフィング・プロセスによってテンプレート・オブジェクト・モデルから移される予測された特性で既に注釈付けされている初期オブジェクト・モデルである。これらの注釈は次いで、上で説明されているようにオペレータによって補足、削除、または調整されることが可能である予測された特性として使用される。

図１は、注釈付けされた新たなオブジェクト・モデルを作成するためのシステム１に関するシステム概観を提示している。システム１は、出力デバイス、好ましくは拡張現実または仮想現実ディスプレイ出力デバイス３に接続されているプロセッサ２を含む。プロセッサ２は、注釈付けされることになるオブジェクトの表示ならびにそのオブジェクトの予測された特性を視覚化するために出力デバイス３に供給される信号を生成する。その表示は、データ・ストレージ４、たとえば内部または外部メモリに格納されているデータベースから取り出されることが可能である初期オブジェクト・モデルに基づく。注釈付けされる新たなオブジェクト・モデルが注釈付けされた後に、プロセッサ２は、新たに作成された注釈付けされたオブジェクト・モデルをデータ・ストレージにおけるデータベースに格納するように構成されることも可能である。それゆえに、関連付けられている注釈を含む新たなオブジェクト・モデルは、将来の注釈付けプロセスにとって利用可能となり、たとえば、改善された開始ポイントとしての役割を果たすであろう。

説明されている方法を実行するために使用されるソフトウェアは、モジュラー構造を有することが可能であり、それによって、たとえば、部分検出器、操作、モーフィングなどが、複数の異なるソフトウェア・モジュールで実現され、それらのソフトウェア・モジュールのそれぞれは、プロセッサ２上で実行される。しかしながらプロセッサ２は、一例として与えられているにすぎず、計算全体は、計算を共同で実行する複数のプロセッサによって実行されることが可能である。これは、クラウド計算を含むことさえ可能である。

プロセッサ２はさらに、カメラ５に接続されている。カメラ５は、オブジェクトの画像を取り込むように、またはオブジェクトのスキャンを提供するように構成されて、注釈付けされたオブジェクト・モデルが作成されることになるオブジェクトの３次元形状を特定することを可能にする。カメラ５によって取り込まれた画像の画像データは、プロセッサ２に供給され、それによって、分析アルゴリズムがその画像データに対して実行されることと、たとえば初期オブジェクト・モデルを自動的に作成することとが可能である。さらに、その画像データは、注釈付けされることになるオブジェクトの表示を生成するために出力デバイス３に供給されることが可能である信号を用意するために処理されることが可能である。

さらにプロセッサ２は、オペレータの、特にオペレータが行うジェスチャーまたはオペレータの視線の観察を可能にする知覚デバイス６に接続されている。知覚デバイス６はそれゆえに、手の画像を取り込むためのカメラ７を含むことが可能であり、それによって、オペレータが自分の手を使用することによって実行されるタッチするジェスチャー、スライドさせる動きなどが特定されることが可能である。カメラ７は、オペレータの手から画像を取り込み、それぞれの画像データをプロセッサ２に提供する。プロセッサ２は、供給されたデータを分析するように構成されており、ひいてはオペレータの手の姿勢および動きを計算する。これによってシステムは、オペレータがオブジェクトにタッチしたもしくは操作したかどうかを認識すること、現実世界オブジェクトがオペレータによって使用される場合、注釈が適合されることになる場所を識別すること、または仮想現実出力デバイス３によって提示された仮想オブジェクトが注釈付けされることになる場合においては、対応する場所を計算することが可能である。そのような場合においては、オペレータの手をモデル化するポイント・クラウドまたはメッシュと、注釈付けされることになるオブジェクトを表すモデルとの間における衝突が計算されることが可能である。オペレータの手は、１つの直観的な例として与えられているにすぎないということに留意されたい。

加えて、知覚デバイスは、アイ・トラッカー８を含むことが可能である。オペレータの目の動きの知覚によって、注釈付けされることになるオブジェクトのどの場所をオペレータが見ているかを結論付けることが可能になる。この情報は、知覚デバイス６によってプロセッサ２に提供されるデータからプロセッサ２によって特定される。それゆえに、アイ・トラッカー８によって取得された情報に基づいて、オペレータにとって関心のあるエリアを識別することが可能である。この情報は次いで、カメラ７から受け取った入力に基づくジェスチャーの特定から特定された場所を補足するために使用されることが可能である。しかしながら、オペレータによってオブジェクトのどのエリアが注釈付けされることになるかを特定するために、アイ・トラッカー８から受け取った情報を使用することも可能である。アイ・トラッカー８から受け取った情報、ならびにオペレータの手のジェスチャーおよび動きを観察しているカメラ７から受け取った情報は、選択情報である。なぜなら、それらの情報は、オペレータによる（仮想の）タッチに対応するオブジェクトの場所、またはオペレータが見ている場所を特定するために分析されることが可能である情報を含むからである。この選択情報に基づいて、プロセッサ２は、手とオブジェクトとの間における衝突の場所、またはオペレータが見た場所を計算することによって、選択情報に対応するオブジェクトの部位を識別する。カメラ５およびカメラ７は、同じ構成要素であることが可能であり、本発明の説明のためにのみ、カメラ５とカメラ７との間が区別されているということに留意されたい。

選択情報に対応する部位は、次いで出力デバイス３を使用して視覚化される。これは、たとえば、図６の左の部分に示されているように、出力デバイス３によって注釈付けされることになるオブジェクトの表示において衝突場所またはオペレータが見た場所を強調表示することによって達成されることが可能である。

知覚デバイス６はさらに、マイクロフォン９を含むことが可能である。マイクロフォン９を使用して、オペレータからの音声コマンドが取得され、それぞれの信号がプロセッサ２へ提出される。音声コマンドは、オペレータによってシステム１に命令するために使用されることが可能である。これらの命令は、注釈の付加、注釈の削除、または注釈の調整を含むことが可能であるが、新たなオブジェクト上の場所を定義するために使用されるジェスチャーに関するシステムの理解を改善するために使用される強化情報も含むことが可能である。一例は、オペレータの知覚されたジェスチャーからプロセッサ２によって識別された特定の場所に対応することになるオブジェクトの部位がその寸法に関して調整されることが可能であるということであり得る。オペレータの指と、注釈付けされることになるオブジェクトとの間における計算された接触ポイントの周囲の部位を識別するデフォルト設定から開始して、オペレータは、特定された接触ポイントを取り囲む識別されたエリアのサイズを増加または減少させるために音声コマンドを使用することが可能である。

図２は、新たな、まだ知られていないオブジェクトに関するオブジェクト・モデルに注釈付けするための方法ステップを示す簡略化されたフローチャートを示している。ステップＳ１において、新たなオブジェクトが識別される。新たなオブジェクトの識別は、カメラ５によって取り込まれた画像から開始されることが可能であり、その画像に基づいて適切なオブジェクト・モデルが、たとえばデータベースから選択されるか、または新たなオブジェクトの３Ｄスキャンを使用して生成される。選択は、プロセッサ２によってデータベースにおける既知のオブジェクト・モデルを検索して、これらのオブジェクト・モデルを新たなオブジェクトの形状およびジオメトリと比較することによって実行されることが可能である。そして新たなオブジェクトとの最も高い類似性を有するモデルが選択されることが可能であり、それによってステップＳ２において、初期オブジェクト・モデルが提供されることが可能である。代替として、オブジェクト・モデルの識別は、注釈付けされることになるオブジェクトとの高い度合いの類似性を有するオブジェクト・モデルを識別するために自分個人の理解および考察を使用するオペレータの入力に基づいて実行されることも可能である。

「オブジェクト・モデル」という用語は、オブジェクトの形状を記述することができるデータとして理解されることが可能である。オブジェクト・モデルは、ポイント・クラウド、三角形メッシュ、または多角形メッシュであることが可能である。初期オブジェクト・モデルが提供されると、この初期オブジェクト・モデルは、注釈付けされたオブジェクト・モデルが作成されることになるオブジェクトにさらに忠実に対応するためにステップＳ３において調整および精緻化されることが可能である。初期オブジェクト・モデルのこの調整は、オペレータ入力を使用して実行されることが可能である。たとえば、初期オブジェクト・モデルに基づく表示の視覚化において、オペレータは、オブジェクト・モデルのノードまたはポイントを選択して、それらをシフトまたは削除することが可能であり、それによって、調整された初期オブジェクト・モデルに基づいた結果として生じる表示は、新たなオブジェクトの形状をよりよく反映する。初期オブジェクト・モデルのそのような調整および精緻化が実行される場合において、以降の説明では、調整／精緻化された初期オブジェクト・モデルに言及する。

初期オブジェクト・モデルが新たなオブジェクトに対して満足できるように調整された後に、ステップＳ４においてオブジェクト特性の予測が実行される。この予測は、部分検出器を使用して特定の特性を、たとえばさまざまなセグメントをオブジェクト・モデルから計算するアルゴリズムを使用して表示に基づいて直接実行されることが可能である。そのような特性予測を実行するためのアルゴリズムが当技術分野において存在しており、当業者なら、特定のオブジェクト特性の予測のための妥当なアルゴリズムを容易に選択するであろう。部分検出器は、既存のデータベースからの注釈付けされたオブジェクト・モデル上でトレーニングされることが可能であり、または過去における対話式のオブジェクト注釈の結果であることが可能である。オペレータの反応（示唆されたセグメント化の受け入れまたは示唆の拒否）から学習するために、部分検出器は、オペレータの入力に適合されることが可能である。代替として、初期オブジェクト・モデルに類似していて、注釈が既に利用可能である別のオブジェクト・モデルがデータベースから選択されて、テンプレート・オブジェクト・モデルとして使用されることが可能である。このテンプレート・オブジェクト・モデルは次いで、テンプレート・モデルを初期オブジェクト・モデルへと変換するためにモーフィングされる。この変換は、テンプレート・オブジェクト・モデルから初期オブジェクト・モデルへ注釈情報を移すことによって初期オブジェクト・モデルに関する特性を予測するために使用される。これは、セグメント化またはその他の注釈を、たとえば最も近いモデルの頂点または面へ移すことによって達成されることが可能である。初期オブジェクト・モデルの結果として生じる注釈は次いで、オペレータの入力に基づいて注釈を適合させるための開始ポイントとして使用される。

オブジェクト特性に関する例は、部分の指定、オブジェクト全体のセグメント化によってオブジェクトのさまざまな部分を定義すること、把持可能、配置可能、取り外し可能などのようなアフォーダンス、オブジェクト部分間における関係、たとえば色のような外観特性、および、たとえば木材、鋼鉄、ガラスなどのような材料特性を含む。オブジェクト部分間における関係は、同じオブジェクトに限定されず、複数のオブジェクトに対する関係を含むことも可能であるということに留意されたい。そのような関係の例は、「中に配置されることが可能である」、「上に置かれることが可能である」、「中に収まる」、．．．である。

その後、ステップＳ５において、予測された特性（注釈）が、オブジェクトそのものの表示とともに視覚化される。視覚化は、ある特定の特性が表示されるオブジェクトの場所が、それぞれの特性が有効である一部分またはその部分の１つのエリアまたはオブジェクト全体に対応するように実行される。たとえば、オブジェクトが、キャップを含むボトルの特定のタイプである場合においては、そのキャップに関連した特性が、近い空間的関係で表示され、それによってオペレータは、この関連付けを直接認識することが可能である。視覚化によってオペレータに提供されることになる特性が非常に多くあるので空間的関係が曖昧になる可能性がある場合においては、接続線またはその他の補助手段、たとえばカラー・コードの使用が付加されることが可能である。カラー・コードは、たとえば、ある特定の部分（たとえばボトルのキャップ）と、ボトルのキャップに加えてリストアップされる特性とを同一に扱うために同じ色を使用することが可能である。そしてボトルの本体、およびボトルの本体に加えてリストアップされる特性に関しては、別の色が使用されることが可能である。

初期オブジェクト・モデルの表示と、予測された特性との視覚化に基づいて、オペレータは次いで、表示の、ひいては、表されているオブジェクトの特定の部分または場所を選択することを開始する。オペレータがオブジェクトの部位の選択を実行する際に用いる選択情報のそのような入力に基づいて、その選択情報に対応する部位がプロセッサ２によって特定される。オペレータによって入力された選択情報に対応する部位が特定されると、オペレータは、オブジェクトのこの特定された部位に関する特性を付加、削除、または調整することを開始することが可能である。その部位は、注釈付けされることになるオブジェクトの一部分の全体であり得るということに留意されたい。一般にボトルを形成するキャップおよび本体を使用する例に関連して、オペレータによってタッチされている場所は、オブジェクトの特定の部分を示すために使用される表示されているフレームに対応し得る。セグメントは、たとえばキャップであり得、オペレータによってタッチされている場所が、キャップに対応するセグメントを示すフレームのポイントであると特定された場合には、システムは、その部分全体に関連する特性が適合されることになると理解する。ユーザによって入力された選択情報に対応する部位の識別が、ステップＳ７において実行される。

仮想現実出力デバイス３が使用される場合においては、仮想オブジェクトとの識別された接触についてオペレータに知らせるフィードバックが、たとえば複数のアクチュエータを備えた手袋またはリストバンドを使用して、ステップＳ８において提供される。複数のアクチュエータを備えた手袋およびリストバンドは両方とも、オペレータの手または手首を刺激することを可能にし、それによって、その時点でオペレータが、注釈付けされることになるオブジェクトと衝突して選択情報をプロセッサ２に提出したということが直観的に認識可能である。

オペレータによって選択情報を入力することによって選択される、オブジェクトの、またはオブジェクトを表すオブジェクト・モデルのエリアが識別されると、オペレータは、注釈（オブジェクト特性）を要望どおりに適合させる。そのため、システム１は、ステップＳ９において所望の適合についての情報を取得する。好ましくは、オペレータからの音声情報を受け取るためにマイクロフォン９が使用され、そのような音声入力に基づいて、プロセッサ２は、オペレータによって実行されることを意図されている適合を特定する。そのような適合は、注釈／特性の付加、予測された注釈／特性の削除を、そして調整も含むことが可能である。オブジェクトの部位の識別を可能にするいかなる音声入力も、オブジェクトのこの特定の部位または部分に関連付けられている特性の適合に関連していると考えられる。異なる機能をトリガーするためにキーワードが使用される場合においてのみ、オブジェクトの識別されたエリアの注釈／特性を適合させるプロセスが終了される。そのようなキーワードは、たとえば「注釈を終了する」であり得る。そのようなキーワードを使用してオペレータによって注釈の適合が終了された後には、たとえば、注釈／特性のさらなる適合は意図されていないと結論付けられることが可能であり、作成された注釈付けされたオブジェクト・モデルは次いで、ステップＳ１２において上述されているようにデータベースに格納される。それゆえにステップＳ１０において、オペレータからのさらなる入力が予期されるか否かが決定される。その決定は、たとえば特定の期間にわたってさらなる音声入力が認識されることが可能ではない場合のタイムアウトに基づくことも可能である。

さらなる入力がオペレータによって行われる場合においては、手順は、既に適合されている特性を使用して、更新された視覚化に基づいて再びステップＳ５を進める。それゆえに、いかなる時点においても、オペレータは、その時点でのオブジェクト・モデルにとって利用可能であるすべての情報を提供される。

図３は、注釈付けされることになるモデルに関する特性の予測のための開始ポイントとして使用されることが可能であるオブジェクト・モデルを対話式に識別するプロセスを示している。新たなオブジェクトの画像がカメラによって取り込まれ、適切な開始ポイントである可能性があるオブジェクト・モデルが、たとえばデータベースにおいて類似性に基づいて検索される。システムは、オブジェクトタイプを識別することを試み、それぞれの示唆を行う。示されている例においては、システムは、その新たなオブジェクトが花瓶であるということを提案している。音声入力を使用して、オペレータは、そのオブジェクトがボトルであるということをシステムに知らせることによって、その提案を訂正している。示されている例においては、システムは、ポイント・クラウドを提案しており、それは、図３ａにおいて示されているようにユーザによって補正されることが可能である。その補正は、エッジ面上のポイント・クラウドの外れ値の除去を含むことが可能である。この補正は、スキャニング段階中に実行されることが好ましく、スキャニング段階においてカメラ５は、適切なカテゴリーを識別してそれをオペレータに示唆するためにオブジェクトの画像を撮影する。

図３ｂにおいて示されているオブジェクトを取り囲むフレームは、その単一のセグメントがシステム１によって識別されてボトルの表示のオーバーレイとして提示されているということを示している。

図４は、上述されているように、システムによって提案されてオペレータによって確認されたカテゴリーにある、またはオペレータによって直接識別されたカテゴリーからのものである既知のオブジェクトをモーフィングすることを使用する特性予測のプロセスを示している。既に注釈付けされている既知のオブジェクト・モデル（テンプレート・オブジェクト・モデル）から開始して、そのテンプレート・オブジェクト・モデルのポイント・クラウドが、まだ注釈付けされていない初期オブジェクト・モデルのポイント・クラウド上にモーフィングされる。モーフィングは、それらの２つのポイント・クラウドの大まかな位置合わせから開始する。位置合わせによって著しい誤差、たとえば、テンプレート・オブジェクト・モデルを初期オブジェクト・モデルに対して逆さまに並べることが生じる場合においては、オペレータは、初期オブジェクト・モデルとのさらに良好な一致を求めてテンプレート・オブジェクト・モデルを回転させることが可能である。

既知のオブジェクトに関して作成されて、ひいてはテンプレート・オブジェクト・モデルに含まれた注釈は、モーフィング・プロセス中に保持され、それによってこれらの注釈は、ローカル・ジオメトリに結び付けられる。それゆえに、モーフィング・プロセスの終了時に、新たなオブジェクトの初期オブジェクト・モデルは、対応する注釈／特性を対応するローカル・ジオメトリに引き継ぐ。これらの引き継がれた特性は次いで、新たなオブジェクトに関する予測された特性として提示されると考えられる。上で説明されたように、新たなオブジェクトに関する注釈付けされたオブジェクト・モデルを最終的に作成するために、これらの予測された特性に対して付加、削除、または調整が実行されることが可能である。既知のオブジェクトおよびその注釈付けされたオブジェクト・モデルから開始して、テンプレート・モデルを新たな、知られていないオブジェクトの初期オブジェクト・モデル上にモーフィングし、それによって注釈を引き継ぐ、なぜなら、それらの注釈はローカル・ジオメトリに関連付けられているからである、という原理が図４において示されている。

図５は、対話式の注釈プロセスの別の詳細を示している。図３に関して説明されているように、オペレータは、新たなオブジェクトのカテゴリーを確認または訂正し、システムは次いで、このカテゴリーに属する複数の異なるオブジェクトの提案を、利用可能である場合には行うことが可能である。示されている実施形態においては、注釈を予測するための開始ポイントとしての役割を果たすことが可能であるボトル用の２つの異なるオブジェクト・モデルが提示されている。

システムは、最初に例１を提案する。この提案は、拡張現実出力デバイス３を使用して直接視覚化される。オペレータがむしろ同じカテゴリーの第２のオブジェクト・モデルを選びたい場合においては、オペレータは、さらなる注釈に関する開始ポイントとして例２に切り替えるようシステムに強いるための音声コマンドを使用する。それゆえにこの場合においては、オペレータは、「例２を選んで」と入力する。図５の右側で見て取ることができるように、システムは、既知のオブジェクト・モデルに関する第２の例へすぐに切り替え、上で説明されているようにこの第２のオブジェクト・モデルが初期オブジェクト・モデル上にモーフィングされていることに基づく表示を表示し、それによって注釈は、予測された特性として初期オブジェクト・モデルへ移される。

図６は、カメラ７によって知覚されてプロセッサ２によって分析されるユーザのジェスチャーが、新たなオブジェクトの予測された特性を改正するために音声入力と組み合わせてどのように使用されるかを示している。図６の左下側では、選ばれたモデルの予測された特性に基づいて、ボトルの本体に属すると識別されたオブジェクトのエリアにオペレータがタッチしているということを見て取ることができる。予測された部分「本体」および「キャップ」は、ボトルの表示の対応する部位と近い空間的関係で表示されている。しかしながらオペレータは、このエリアを「キャップ」の部分に属するように変更したい。それゆえに、選択情報を入力するために、オペレータは、誤って本体として識別されたエリアの割り当てにタッチし、音声コマンド（「それはキャップだ」）を使用してこれを補正する。システムは次いで、セグメント化を自動的に適合させて、オペレータによって入力された選択情報から特定された識別されたエリアに従ってボトルの２つの部分、すなわち「本体」および「キャップ」を識別する。セグメントは、図６の上側部分において示されているようにシステムによって識別される。入力された選択情報から特定された場所は、白丸によって示されている。図６の中央において見て取ることができるように、これは依然として、誤ったセグメント化をもたらす可能性がある。図６の右下部分において示されているさらなる入力は、システムの誤った解釈の補正を可能にする。オペレータによって行われるスライドさせるジェスチャーは、そのスライドさせるジェスチャーが横切る領域全体が、入力される注釈のためのものとみなされることになるということを示すために使用される。このジェスチャーは、音声入力を使用することによって強化されることさえ可能である。この場合においては、「キャップを拡張して」という音声コマンドは、スライドさせる動きによって定義されたエリアが今度はすべてキャップの部分になるということを明確にする。

代替として、提案されたセグメント化を調整するために、図６の上側部分において示されているセグメントを示すフレームがオペレータによって直接シフトされることも可能である。

示されている実施形態においては、単一の視点のみが示されている。しかしながら、その視点においては、重要であって注釈を必要とするオブジェクトのいくつかの部位が遮蔽されている可能性がある。そのため、オペレータは、その他の部位を見えるようにするためにオブジェクトの表示を操作することが可能である。その操作は、観点を変更することだけでなく、表示をズームすることも含むことが可能である。

新たな現実世界オブジェクトに関する注釈付けされたオブジェクト・モデルを作成するための上述の方法は、ロボット・システムを動作させる前に実行される必要はない。この方法はまた、テレロボット・システムにおける適用にとって特に有利である。これによって、テレロボット・システムのオペレータは、システムが使用中である間に新たなオブジェクト（それらの特性を含む）をシステムに学習させることが可能である。そのような状況において適切な選択情報を確保するために、ロボットは、所望の注釈（注釈の削除を含む）を提供する目的でテレオペレータが指し示したい新たなオブジェクトの場所の制御を可能にするためにレーザーポインタを使用することが可能である。さらに、上で選択情報の入力が説明されたオペレータの手の代わりにロボットのアームが使用されることが可能である。

１システム
２プロセッサ
３拡張現実または仮想現実ディスプレイ出力デバイス
４データ・ストレージ
５カメラ
６知覚デバイス
７カメラ
８アイ・トラッカー
９マイクロフォン

Claims

現実世界オブジェクトの注釈付けされたオブジェクト・モデルを作成するための方法であって、
注釈付けされたオブジェクト・モデルが作成されることになるオブジェクトに関する初期オブジェクト・モデルを提供する方法ステップと、
前記初期オブジェクト・モデルに関して予測された前記オブジェクトの特性を、テンプレート・モデルを前記初期オブジェクト・モデル上にモーフィングすること、および前記テンプレート・モデルに関して知られている特性を前記予測された特性として前記初期オブジェクト・モデルに引き継ぐこと、によって生成することで、前記オブジェクトの特性を予測する方法ステップと、
前記初期オブジェクト・モデルに基づいて前記オブジェクトの表示を視覚化する方法ステップであって、前記オブジェクトの前記予測された特性が、前記表示に関連付けられて表示される、方法ステップと、
ユーザ知覚デバイスによって知覚されたユーザのジェスチャー、ユーザの指し示す操作、ユーザの音声入力、およびユーザの視線のうちの少なくとも１つに基づいて選択情報を入手する方法ステップと、
前記選択情報に対応する前記オブジェクトの部位を特定する方法ステップと、
ユーザ入力から特性情報を受け取る方法ステップと、
前記入力された特性情報を前記オブジェクトの前記対応する部位に関連付ける方法ステップと、を含む方法。
前記表示が、拡張現実（ＡＲ、ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）ディスプレイまたは仮想現実（ＶＲ、ＶｉｒｔｕａｌＲｅａｌｉｔｙ）ディスプレイを使用して視覚化される、
請求項１に記載の方法。
前記選択情報が、オペレータによって入力されたコマンドによって強化される、
請求項１に記載の方法。
前記選択情報が、少なくとも第１の選択情報および第２の選択情報を含み、前記特性情報が、前記少なくとも第１および第２の選択情報に対応する前記オブジェクトの前記部位間における関係、または前記部位に共通する特性を定義する、
請求項１に記載の方法。
前記オブジェクトの前記部位の前記特定が、ジェスチャーのタイプ、前記オブジェクトの前記表示と知覚されたオペレータの手との間における衝突の位置、および前記表示された表示上の指し示されている位置のうちの少なくとも１つに依存する、
請求項１に記載の方法。
前記オブジェクトの前記表示と前記知覚されたオペレータの手との間における衝突が特定された場合、フィードバックがオペレータに提供される、
請求項５に記載の方法。
前記予測された特性が、少なくとも、前記オブジェクトの部分を定義するセグメントの定義を含む、
請求項１に記載の方法。
前記予測された特性が、少なくともセグメントの定義を含み、前記オブジェクトの前記セグメントが、前記オブジェクトの前記表示の上のオーバーレイとして視覚化される、
請求項１に記載の方法。
前記オブジェクトの前記予測された特性の前記関連付けられている表示が、それぞれの予測された特性を、前記オブジェクトの前記特性が予測される前記オブジェクトのそれぞれの部位に対する空間的関係で表示し、前記オブジェクトの前記表示が、前記オブジェクトの前記関連付けられている予測された特性とともに、オペレータから受け取った操作入力に従って操作される、
請求項１に記載の方法。
知覚されたオペレータ入力に基づいて、前記初期オブジェクト・モデルが適合され、前記表示された表示が、それに従って更新される、
請求項１に記載の方法。
前記初期オブジェクト・モデルが、データベース情報、および注釈付けされたオブジェクト・モデル・プロセスの作成中におけるオペレータからの以前に受け取った情報のうちの少なくとも１つに基づいて前記オブジェクトの自動化されたセグメント化のためにオブジェクト部分検出器によって分析される、
請求項１に記載の方法。
現実世界オブジェクトの注釈付けされたオブジェクト・モデルを作成するためのシステムであって、プロセッサ、出力デバイス、およびオペレータ知覚デバイスを含み、前記プロセッサが、注釈付けされたオブジェクト・モデルが作成されることになるオブジェクトに関する初期オブジェクト・モデルを提供されるように、前記初期オブジェクト・モデルに関して予測された前記オブジェクトの特性を、テンプレート・モデルを前記初期オブジェクト・モデル上にモーフィングすること、および前記テンプレート・モデルに関して知られている特性を前記予測された特性として前記初期オブジェクト・モデルに引き継ぐこと、によって生成することで、前記オブジェクトの特性を予測するように、前記出力デバイスを制御して、前記初期オブジェクト・モデルに基づいて前記オブジェクトの表示を視覚化するように構成され、前記オブジェクトの前記予測された特性が、前記表示に関連付けられて表示される、視覚化することを行うように、前記オペレータ知覚デバイスによって知覚されたユーザのジェスチャー、ユーザの指し示す操作、ユーザの音声入力、およびユーザの視線のうちの少なくとも１つに基づいて前記オペレータ知覚デバイスによって入手された選択情報に対応する前記オブジェクトの部位を特定するように、ならびにオペレータによって入力された特性情報を前記オブジェクトの前記対応する部位に関連付けるように構成されている、システム。
前記出力デバイスが、拡張現実（ＡＲ、ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）または仮想現実（ＶＲ、ＶｉｒｔｕａｌＲｅａｌｉｔｙ）ディスプレイを含む、請求項１２に記載のシステム。
前記オペレータ知覚デバイスが、少なくとも、オペレータの動きを知覚するためのカメラを含む、請求項１２に記載のシステム。
前記オペレータ知覚デバイスが、少なくともマイクロフォンを含む、請求項１２に記載のシステム。
前記システムが、前記オブジェクトの前記視覚化された提示との特定された接触について前記オペレータに知らせるためのフィードバック・デバイスを含む、請求項１２に記載のシステム。
前記プロセッサが、データベースに接続されており、前記プロセッサが、前記注釈付けされたオブジェクト・モデルを前記データベースに格納するように構成されている、請求項１２に記載のシステム。