JP7280452B2 - 縮尺図と3次元モデルを用いた機械学習ベースのオブジェクト識別 - Google Patents
縮尺図と3次元モデルを用いた機械学習ベースのオブジェクト識別 Download PDFInfo
- Publication number
- JP7280452B2 JP7280452B2 JP2022573324A JP2022573324A JP7280452B2 JP 7280452 B2 JP7280452 B2 JP 7280452B2 JP 2022573324 A JP2022573324 A JP 2022573324A JP 2022573324 A JP2022573324 A JP 2022573324A JP 7280452 B2 JP7280452 B2 JP 7280452B2
- Authority
- JP
- Japan
- Prior art keywords
- objects
- model
- environment
- identified
- annotated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three-dimensional [3D] modelling for computer graphics
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01S—RADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
- G01S17/00—Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
- G01S17/88—Lidar systems specially adapted for specific applications
- G01S17/89—Lidar systems specially adapted for specific applications for mapping or imaging
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three-dimensional [3D] modelling for computer graphics
- G06T17/05—Geographic models
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating three-dimensional [3D] models or images for computer graphics
- G06T19/20—Editing of three-dimensional [3D] images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional [3D] objects
- G06V20/647—Three-dimensional [3D] objects by matching two-dimensional images to three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/04—Architectural design, interior design
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2004—Aligning objects, relative positioning of parts
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Remote Sensing (AREA)
- Medical Informatics (AREA)
- Electromagnetism (AREA)
- Architecture (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Radar, Positioning & Navigation (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- User Interface Of Digital Computer (AREA)
Description
本出願は、2020年5月29日に出願された米国仮出願第63/032,452号の利益を主張するものであり、その全体が参照により本明細書に組み込まれる。
空間索引システムは、環境内にあると予測されるオブジェクトの位置で注釈付けされた環境の縮尺図を受信する。オブジェクトはオブジェクトタイプに関連付けられ、空間索引システムは、縮尺図から環境内にあると予測されるオブジェクトのそれぞれに関連付けられたオブジェクトの位置およびタイプを決定する。空間索引システムはまた、オブジェクトタイプのそれぞれに対して環境内にあると予測されるオブジェクトの合計数量を決定する。空間索引システムはまた、ビデオキャプチャシステムがカメラパスに沿って環境内を移動するときに、ビデオキャプチャシステムによってキャプチャされたウォークスルービデオを受信する。ウォークスルービデオは、所与の時間における環境のコンディションを描写する画像フレームのシーケンスを含む。
I.概要
空間索引システムは、入力として物理環境の注釈付き縮尺図を受信し、物理世界におけるオブジェクトの予測される量を決定する。ユーザは、ユーザが環境内を移動するにつれて、物理世界における環境の画像またはビデオをキャプチャし、物理世界のコンディションを記録し得る。画像データは、単眼カメラまたはステレオカメラを使用してキャプチャされ得、個々の写真として、またはビデオからの画像のシーケンスとしてキャプチャされ得、従来のまたは360度カメラを使用してキャプチャされ得る。物理的な世界の環境の縮尺図(例えば、フロアプラン)は、その環境内にあると予測されるオブジェクトの位置とサイズを使用して、人が手動で注釈を、または機械学習モデルが自動的に注釈を、付け得る。注釈付き縮尺図は、環境内にあると予測されるオブジェクトの位置およびオブジェクトタイプを提供し、画像データは、所与の時間に環境内における実際のオブジェクトの位置およびオブジェクトタイプを提供する。注釈付き縮尺図からの予測されるオブジェクトと画像データからのオブジェクトとの比較に基づいて、ユーザは、画像データから識別されたオブジェクトが予測されるオブジェクトから逸脱していると決定し得る。空間索引システムは、異なるオブジェクトタイプについて、予測されるオブジェクトの量と画像データから識別されたオブジェクトの量との間の差を決定し得る。この差は、オブジェクトの予測された量に対して、検出された量の経時的な変化を追跡するために使用され得る。
図1は、一実施形態による空間索引システムのためのシステム環境100を示す。図1に示す実施形態では、システム環境100は、ビデオキャプチャシステム110と、ネットワーク120と、空間索引システム130と、クライアントデバイス160とを含む。単一のビデオキャプチャシステム110および単一のクライアントデバイス160が図1に示されているが、いくつかの実施形態では、空間索引システムは、複数のビデオキャプチャシステム110および複数のクライアントデバイス160と相互作用する。
図2Aは、一実施形態による、図1に示す空間索引システム130のカメラパスモジュール132のブロック図を示す。カメラパスモジュール132は、ビデオキャプチャシステム110によってキャプチャされた入力データ(例えば、360度のフレーム212のシーケンス、モーションデータ214、および位置データ223)を受信し、カメラパス226を生成する。図2Aに示される実施形態では、カメラパスモジュール132は、同時ローカライゼーションおよびマッピング(SLAM)モジュール216、モーション処理モジュール220、および、パス生成および位置合わせモジュール224を含む。
図2Bは、一実施形態による、図1に示される空間索引システム130のモデル生成モジュール138のブロック図を示す。モデル生成モジュール138は、カメラパスモジュール132によって生成されたカメラパス226を、ビデオキャプチャシステム110によってキャプチャされた360度フレーム212のシーケンス、環境のフロアプラン257、および360度カメラ254に関する情報と共に受信する。モデル生成モジュール138の出力は、環境の3Dモデル266である。図示された実施形態では、モデル生成モジュール138は、ルート生成モジュール252、ルートフィルタリングモジュール258、およびフレーム抽出モジュール262を含む。
図2Cは、一実施形態による、注釈付き3Dモデル280とフロアプラン257との比較を示すブロック図を示す。注釈付き3Dモデル生成モジュール146は、モデル生成モジュール138によって生成された3Dモデル266と、ビデオキャプチャシステム110によってキャプチャされたウォークスルービデオの360度フレーム212とを入力として受信する。注釈付き3Dモデル生成モジュール146は、オブジェクト識別子モジュール274と、3Dモデル注釈モジュール278とを含み、注釈付き3Dモデル280を出力する。オブジェクト識別子モジュール274は、360度のフレーム212内でキャプチャされたオブジェクトを識別する。オブジェクト識別子モジュール274は、オブジェクトタイプおよび入力画像フレーム内にあるオブジェクトの位置を識別するように構成された、ニューラルネットワーク分類器、最近傍分類器、または他のタイプのモデルなどの機械学習モデルであり得る。オブジェクト識別子モジュール274はまた、画像内のオブジェクトのタイプおよび位置を識別するために、オブジェクト検出、セマンティックセグメンテーションなどを実行し得る。オブジェクト識別子モジュール274はオブジェクトが検出された領域を識別する分類済み画像フレーム276を出力し、各領域はオブジェクトタイプに関連付けられている。
図3A乃至図3Eは、一実施形態による、モデル視覚化モジュールによって提供されるモデル視覚化インターフェースの部分を示す。図1で上述したように、モデル視覚化インターフェースは、ユーザが、環境の3Dモデル内の対応する位置で、キャプチャされた画像のそれぞれを見ることを可能にする。
図4A乃至図4Eは、一実施形態による、進捗状況視覚化モジュールによって提供される進捗状況の視覚化インターフェースを示す。図4A乃至図4Eは、上記からの総合契約会社の例を続ける。建設現場でプロジェクトの作業が行われているとき、ユーザは、建設現場のウォークスルービデオをキャプチャし、それを空間索引システム130に提供して、追跡されているオブジェクトタイプに対してどの程度の進捗状況であるかを決定する。ユーザは、ウォークスルービデオを定期的(例えば、毎日、毎週)にキャプチャし、時間の経過に伴う建設の進捗状況の分析を要求し得る。空間索引システム130は、決定された建設の進捗状況を視覚化インターフェース400でユーザに提示する。
本明細書に記載される方法およびシステムはまた建設以外の環境で使用できる。物理的世界におけるオブジェクトの自動的なカウントおよび測定は、様々な実世界の使用ケースに適用できる中核的な機能である。例えば、この方法は盗難検出に適用して、ゲストがチェックアウトした後にホテルの部屋で予測されるオブジェクトの存在および量を監視できる。ゲストがホテルの部屋をチェックアウトした後、ホテルの保守作業員は、ホテルの部屋のウォークスルービデオをキャプチャし、空間索引システムを使用して、ウォークスルービデオでキャプチャされたオブジェクトが予測される量と一致するかどうかを決定し得る。別の例では、本方法を倉庫または店舗の在庫を追跡するために使用して、倉庫または店舗などの施設を維持および管理する。作業者またはロボットは、ウォークスルービデオを定期的にキャプチャし、空間索引システムを使用して倉庫または店舗内にあるオブジェクトタイプの数量を決定し得る。決定された数量が予想数量と異なる場合、空間索引システムは、在庫管理のためにその差にフラグを立て得る。
上述したように、視覚化インターフェースは、環境のフロアプラン内の各フレームの位置を表示する2Dオーバーヘッドビューマップを提供できる。オーバーヘッドビューに表示されることに加えて、環境のフロアプランはまた、各フレームの位置を決定する空間インデックスプロセスの一部として使用できる。
図6は、一実施形態による、力まかせ探索を使用してフロアプランと結合されたカメラパスを生成するための方法600を示すフローチャートである。他の実施形態では、方法600は、追加の、より少ない、または異なるステップを含み得、図6に示されるステップは、異なる順序で実行され得る。
図7Aは、一実施形態による、フロアプランのグリッドマップを使用して結合されたカメラパスを生成するための例示的な方法700を示すフローチャートである。他の実施形態では、方法700は、追加の、より少ない、または異なるステップを含み得、図7Aに示されるステップは、異なる順序で実行され得る。
図8は、一実施形態による、ウォークスルービデオを使用した進捗状況の追跡方法の例を示すフローチャートである。空間索引システムは、建物の一部分のフロアプランにアクセスし(810)、フロアプランは、建物の一部分内の1つまたは複数の予測されるオブジェクトの位置を識別する。追跡される複数のオブジェクトタイプの各オブジェクトタイプに対して、空間索引システムは、アクセスされたフロアプランに基づいて、建物内のそのオブジェクトタイプの1つまたは複数の予測されるオブジェクトを決定する(820)。空間索引システムは、カメラシステムから複数の画像フレームを含むビデオを受信し、カメラシステムが建物の一部を通って移動するにつれてビデオがキャプチャされる(830)。空間索引システムは、複数の画像フレーム内の1つまたは複数のオブジェクトを識別し(840)、1つまたは複数のオブジェクトのそれぞれは、オブジェクトタイプおよびオブジェクトが配置されている建物の一部の位置に関連付けられている。空間索引システムは、複数の画像フレームから建物の一部の3Dモデルを生成する(850)。1つまたは複数の識別されたオブジェクトのそれぞれに対して、空間索引システムは、識別されたオブジェクトを含むように、識別されたオブジェクトが配置される建物の一部内の位置に対応する3Dモデルの領域を修正する(860)。各オブジェクトタイプに対して、空間索引システムは、修正された3Dモデルおよびアクセスされたフロアプランに基づいて、識別されたオブジェクトが建物の部分内の位置に存在する確率を決定する(870)。各オブジェクトタイプに対して、空間索引システムは、1つまたは複数の予測されるオブジェクトと、所定の閾値より大きい確率に関連付けられた1つまたは複数の識別されたオブジェクトとの間の差を決定する(880)。各オブジェクトタイプに対して、空間索引システムは、決定された差を提示するためにインターフェースを修正する(890)。
図9は、本明細書に記載する実施形態が実装され得るコンピュータシステム900を示すブロック図である。例えば、図1のコンテキストでは、ビデオキャプチャシステム110、空間索引システム130、およびクライアントデバイス160は、図9に記載するように、コンピュータシステム900を使用して実施され得る。ビデオキャプチャシステム110、空間索引システム130、またはクライアントデバイス160はまた、図9に記載するように、複数のコンピュータシステム900の組み合わせを使用して実施され得る。コンピュータシステム900は、例えば、ラップトップコンピュータ、デスクトップコンピュータ、タブレットコンピュータ、またはスマートフォンであり得る。
本明細書中で使用される場合、1つまたは複数の要素が後に続く「含む」という用語は、1つまたは複数の追加の要素の存在を排除しない。「または」という用語は、排他的な「または」ではなく、非排他的な「または」として解釈されるべきである(例えば、「AまたはB」は、「A」、「B」、または「AおよびB」を指し得る)。冠詞「a」または「an」は、単一のインスタンスが明確に指定されていない限り、以下の要素の1つまたは複数のインスタンスを指す。
Claims (20)
- 建物の一部のフロアプランにアクセスすることであって、前記フロアプランは、前記建物の前記一部内の1つまたは複数の予測されるオブジェクトの位置を識別し、前記1つまたは複数の予測されるオブジェクトは、1つまたは複数のオブジェクトタイプに関連付けられている、ことと、
各オブジェクトタイプについて、前記アクセスされたフロアプランに基づいて、前記建物の前記一部における前記オブジェクトタイプの1つまたは複数の予測されるオブジェクトを決定することと、
カメラシステムから、前記カメラシステムが前記建物の前記一部を通って移動されるときにキャプチャされる複数の画像フレームを含むビデオを受信することと、
前記複数の画像フレーム内の1つまたは複数のオブジェクトを識別することであって、前記1つまたは複数のオブジェクトのそれぞれが、オブジェクトタイプおよび前記オブジェクトが配置されている前記建物の前記一部内の位置に関連付けられている、ことと、
前記複数の画像フレームから前記建物の前記一部の3次元(3D)モデルを生成することと、
前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトを含むように前記3Dモデルの領域を修正することであって、前記領域は、前記識別されたオブジェクトが配置された前記建物の前記一部内の前記位置に対応する、ことと、
前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記修正された3Dモデルおよび前記アクセスされたフロアプランに基づいて、前記建物の前記一部内の前記位置に位置する確率を決定することと、
各オブジェクトタイプについて、前記1つまたは複数の予測されるオブジェクトの数と、所定の閾値より大きい確率に関連付けられた1つまたは複数の識別されたオブジェクトの数との間のカウント差を決定することと、
ユーザに表示されるインターフェースを修正して、各オブジェクトタイプに対して、前記決定されたカウント差を提示することと、
を含む、方法。 - 前記3Dモデルが、lidarシステムによってキャプチャされた3D情報に基づいて生成される、請求項1に記載の方法。
- 前記フロアプランは、少なくとも1つの前記オブジェクトタイプに関連付けられた前記1つまたは複数の予測されるオブジェクトの寸法で注釈付けされている、請求項2に記載の方法。
- 前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記位置に位置する確率を決定することは、前記識別されたオブジェクトが前記位置に位置する1つまたは複数の事前に決定された確率にさらに基づいている、請求項1に記載の方法。
- 前記複数の画像フレーム内の前記1つまたは複数のオブジェクトを識別することは、
各画像フレームについて、
前記画像フレームに機械学習モデルを適用することであって、前記機械学習モデルは、前記画像フレーム内でキャプチャされた前記オブジェクトに関連付けられた前記位置および前記オブジェクトタイプを決定し、前記決定された位置およびオブジェクトタイプに基づいて前記画像フレーム内のピクセルを分類するように構成される、こと、
をさらに含む、請求項1に記載の方法。 - 前記機械学習モデルは、トレーニング環境のトレーニング画像フレームを含むトレーニングデータセットに基づいてトレーニングされ、前記トレーニング画像フレームは、前記トレーニング画像フレーム内でキャプチャされた1つまたは複数のオブジェクトおよび前記1つまたは複数のオブジェクトに関連付けられたオブジェクトタイプの位置に注釈付けされている、請求項5に記載の方法。
- 前記機械学習モデルは、オブジェクトの検出およびセマンティックセグメンテーションに基づいて、前記オブジェクトに関連付けられた前記位置およびオブジェクトタイプを決定する、請求項5に記載の方法。
- 前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記3Dモデルの領域を修正することは、
前記画像フレーム内の前記分類されたピクセルを前記3Dモデル内の対応する点に投影すること、
をさらに含む、請求項5に記載の方法。 - 前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記位置に位置する確率を決定することは、
機械学習モデルを前記修正された3Dモデルおよび前記アクセスされたフロアプランに適用することであって、前記機械学習モデルは、
前記識別されたオブジェクトと同じオブジェクトタイプおよび同じ位置に関連付けられた予測されるオブジェクトを識別し、
前記予測されるオブジェクトを含む前記アクセスされたフロアプランの領域と、前記識別されたオブジェクトを含む前記3Dモデルの前記領域との間の重複を決定する
ように構成されている、ことと、
前記重複に基づいて、前記識別されたオブジェクトが前記位置に位置する前記確率を決定する、
をさらに含む、請求項1に記載の方法。 - 前記機械学習モデルは、トレーニング環境の注釈付き3Dモデルおよび前記トレーニング環境の注釈付きフロアプランを含むトレーニングデータセットに基づいてトレーニングされる、請求項9に記載の方法。
- 前記機械学習モデルは、トレーニング環境の注釈なし3Dモデル、前記トレーニング環境の注釈付きフロアプラン、および前記トレーニング環境の1つまたは複数の画像フレームを含むトレーニングデータセットに基づいてトレーニングされる、請求項9に記載の方法。
- 各オブジェクトタイプについて、前記1つまたは複数の予測されるオブジェクトの総量と、前記所定の閾値よりも大きい確率に関連付けられた前記1つまたは複数の識別されたオブジェクトの総量と、を比較することと、
各オブジェクトタイプについて、前記1つまたは複数の予測されるオブジェクトの前記総量と、前記所定の閾値よりも大きい確率に関連付けられた前記1つまたは複数の識別されたオブジェクトの前記総量との前記比較を提示することと、
をさらに含む請求項1に記載の方法。 - 前記1つまたは複数の予測されるオブジェクトの前記総量と、前記所定の閾値よりも大きい確率に関連付けられた前記1つまたは複数の識別されたオブジェクトの前記総量との比較の変化が、時間の関数として提示される、請求項12に記載の方法。
- 環境の注釈付き縮尺図にアクセスすることであって、前記注釈付き縮尺図は、前記環境内の1つまたは複数の予測されるオブジェクトの位置を識別し、前記1つまたは複数の予測されるオブジェクトは、1つまたは複数のオブジェクトタイプに関連付けられている、ことと、
各オブジェクトタイプについて、前記注釈付き縮尺図に基づいて1つまたは複数の予測されるオブジェクトを決定することと、
カメラシステムから、複数の画像フレームを含むビデオを受信することと、
前記複数の画像フレームに基づいて前記環境の3次元(3D)モデルを生成することと、
前記3Dモデル内の1つまたは複数のオブジェクトを識別することであって、前記1つまたは複数の識別されたオブジェクトのそれぞれは前記環境内の位置に対応する前記3Dモデルの領域に関連付けられている、ことと、
前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記環境内の前記位置に位置する確率を決定することと、
各オブジェクトタイプについて、前記1つまたは複数の予測されるオブジェクトの数と、所定の閾値より大きい確率に関連付けられた1つまたは複数の識別されたオブジェクトの数との間のカウント差を決定することと、
インターフェースを修正して、オブジェクトタイプごとに、前記カウント差を提示することと、
を含む方法。 - 前記環境が建設の最中の建物であり、前記予測されるオブジェクトが、前記建設の完了後に前記建物内で予測されるオブジェクトである、請求項14に記載の方法。
- 前記環境がホテルの部屋であり、前記1つまたは複数の予測されるオブジェクトが、ゲストが前記ホテルの部屋からチェックアウトした後に前記ホテルの部屋で予測されるオブジェクトである、請求項14に記載の方法。
- 前記環境はストアであり、前記1つまたは複数の予測されるオブジェクトは、前記ストアの在庫の製品である、請求項14に記載の方法。
- 前記注釈付き縮尺図は、少なくとも1つのオブジェクトタイプに関連付けられた前記1つまたは複数の予測されるオブジェクトの寸法を含む、請求項14に記載の方法。
- 前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記位置に位置する確率を決定することは、
機械学習モデルを前記3Dモデルおよび前記注釈付き縮尺図に適用することであって、前記機械学習モデルは、
前記識別されたオブジェクトと同じオブジェクトタイプおよび同じ位置に関連付けられた予測されるオブジェクトを識別し、
前記予測されるオブジェクトの寸法と、前記識別されたオブジェクトを含む前記3Dモデルの前記領域の寸法との間の重複を決定することと、
前記重複に基づいて、前記識別されたオブジェクトが前記位置に位置する前記確率を決定するように構成されている、ことと
をさらに含む、請求項14に記載の方法。 - 実行可能な命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令はハードウェアプロセッサによって実行されると、前記ハードウェアプロセッサに、
環境の注釈付き縮尺図にアクセスすることであって、前記注釈付き縮尺図は、前記環境内の1つまたは複数の予測されるオブジェクトの位置を識別し、前記1つまたは複数の予測されるオブジェクトは、1つまたは複数のオブジェクトタイプに関連付けられている、ことと、
各オブジェクトタイプについて、前記注釈付き縮尺図に基づいて1つまたは複数の予測されるオブジェクトを決定することと、
カメラシステムから、複数の画像フレームを含むビデオを受信することと、
前記複数の画像フレームに基づいて前記環境の3次元(3D)モデルを生成することと、
前記3Dモデル内の1つまたは複数のオブジェクトを識別することであって、前記1つまたは複数の識別されたオブジェクトのそれぞれは前記環境内の位置に対応する前記3Dモデルの領域に関連付けられている、ことと、
前記1つまたは複数の識別されたオブジェクトのそれぞれについて、前記識別されたオブジェクトが前記環境内の前記位置に位置する確率を決定することと、
各オブジェクトタイプについて、前記1つまたは複数の予測されるオブジェクトの数と、所定の閾値より大きい確率に関連付けられた1つまたは複数の識別されたオブジェクトの数との間のカウント差を決定することと、
インターフェースを修正して、オブジェクトタイプごとに、前記カウント差を提示することと、
を含むステップを実行させる、非一時的コンピュータ可読記憶媒体。
Applications Claiming Priority (5)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202063032452P | 2020-05-29 | 2020-05-29 | |
| US63/032,452 | 2020-05-29 | ||
| US17/225,802 | 2021-04-08 | ||
| US17/225,802 US11436812B2 (en) | 2020-05-29 | 2021-04-08 | Machine learning based object identification using scaled diagram and three-dimensional model |
| PCT/US2021/028026 WO2021242439A1 (en) | 2020-05-29 | 2021-04-19 | Machine learning based object identification using scaled diagram and three-dimensional model |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2023519641A JP2023519641A (ja) | 2023-05-11 |
| JP7280452B2 true JP7280452B2 (ja) | 2023-05-23 |
Family
ID=78705292
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2022573324A Active JP7280452B2 (ja) | 2020-05-29 | 2021-04-19 | 縮尺図と3次元モデルを用いた機械学習ベースのオブジェクト識別 |
Country Status (5)
| Country | Link |
|---|---|
| US (4) | US11436812B2 (ja) |
| EP (1) | EP4136576A4 (ja) |
| JP (1) | JP7280452B2 (ja) |
| CN (1) | CN115699098B (ja) |
| WO (1) | WO2021242439A1 (ja) |
Families Citing this family (24)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US11468208B2 (en) * | 2019-06-06 | 2022-10-11 | Bluebeam, Inc. | Methods and systems for establishing a linkage between a three-dimensional electronic design file and a two-dimensional design document |
| CN111565301B (zh) * | 2020-05-25 | 2021-09-14 | 珠海格力电器股份有限公司 | 室内监控方法、装置、系统、存储介质及摄像装置 |
| KR102198172B1 (ko) * | 2020-08-06 | 2021-01-04 | (주)한스타일엔지니어링 | 촬영 정보 관리 방법 및 촬영 정보 관리 방법을 실행시키는 프로그램이 설치된 작업자 단말기 |
| US12541625B1 (en) * | 2020-09-17 | 2026-02-03 | Schnackel Engineers, Inc. | Efficient routing of systems through building structures |
| WO2022081717A1 (en) * | 2020-10-13 | 2022-04-21 | Flyreel, Inc. | Generating measurements of physical structures and environments through automated analysis of sensor data |
| US12573100B2 (en) * | 2021-03-31 | 2026-03-10 | Snap Inc. | User-defined contextual spaces |
| US20250061651A1 (en) * | 2021-12-09 | 2025-02-20 | Sony Group Corporation | Information processing device, information processing method, and program |
| US20230196304A1 (en) * | 2021-12-17 | 2023-06-22 | Ford Global Technologies, Llc | Nonvehicle based repair and maintenance identification by vehicle |
| US20230324922A1 (en) * | 2022-04-08 | 2023-10-12 | Lana Graf | Autonomous Robotic Platform |
| US20230324557A1 (en) * | 2022-04-08 | 2023-10-12 | Faro Technologies, Inc. | Laser scanner for verifying positioning of components of assemblies |
| DE102022203605A1 (de) * | 2022-04-11 | 2023-10-12 | Robert Bosch Gesellschaft mit beschränkter Haftung | Verfahren für ein Detektionsgerät; Detektionsgerät |
| TWI814408B (zh) * | 2022-05-30 | 2023-09-01 | 友通資訊股份有限公司 | 定位系統及定位方法 |
| US12333431B2 (en) * | 2022-12-09 | 2025-06-17 | Lemon Inc. | Multi-dimensional generative framework for video generation |
| TWI819925B (zh) | 2022-12-19 | 2023-10-21 | 緯創資通股份有限公司 | 物件偵測裝置和方法 |
| EP4728481A1 (en) | 2023-06-14 | 2026-04-22 | Check&Visit | A method and system for predicting a data representation of a 3d scene |
| US12518407B2 (en) * | 2023-09-13 | 2026-01-06 | Samsung Electronics Co., Ltd. | Aligning image data and map data |
| US12412004B2 (en) | 2023-11-03 | 2025-09-09 | Dalux Aps | Method for tracking construction site progress |
| US12182960B1 (en) | 2023-11-03 | 2024-12-31 | Dalux Aps | Transferring data between 3D and 2D domains |
| WO2025093092A1 (en) | 2023-11-03 | 2025-05-08 | Dalux Aps | Monitoring progress of object construction |
| US11972536B1 (en) * | 2023-11-03 | 2024-04-30 | Dalux Aps | Monitoring progress of object construction |
| AU2024200714B2 (en) * | 2023-11-14 | 2026-03-26 | MFTB Holdco, Inc. | Automated generation and use of building videos based on analysis of building floor plan information |
| US20250209742A1 (en) * | 2023-12-21 | 2025-06-26 | Fnv Ip B.V. | Systems and methods for emergency response mapping and visualization in three dimensions using orthographic projection information |
| US20260051129A1 (en) * | 2024-08-15 | 2026-02-19 | Adeia Guides Inc. | Systems and methods for enhancing interactive content creation and presentation for extended reality devices using single-camera technology |
| CN120852652B (zh) * | 2025-07-08 | 2026-02-24 | 鼎耀宏科技(广东)有限公司 | 施工建筑巡检方法和装置 |
Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2007310572A (ja) | 2006-05-17 | 2007-11-29 | Toyota Motor Corp | 認識装置および認識方法 |
| JP2009507295A (ja) | 2005-09-02 | 2009-02-19 | インテリヴィド コーポレイション | 対象追跡と警報 |
| US20180012125A1 (en) | 2016-07-09 | 2018-01-11 | Doxel, Inc. | Monitoring construction of a structure |
| US20190005719A1 (en) | 2017-06-29 | 2019-01-03 | Open Space Labs, Inc. | Automated spatial indexing of images based on floorplan features |
| JP2019149148A (ja) | 2017-12-28 | 2019-09-05 | ダッソー システムズDassault Systemes | ピクセルワイズ分類器による2dフロアプランのセマンティックセグメンテーション |
| JP2020038657A (ja) | 2018-09-05 | 2020-03-12 | 楽天株式会社 | 人工知能を用いるコンピュータ実施方法、aiシステム、及びプログラム |
Family Cites Families (26)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8207964B1 (en) | 2008-02-22 | 2012-06-26 | Meadow William D | Methods and apparatus for generating three-dimensional image data models |
| US20070092110A1 (en) * | 2004-11-08 | 2007-04-26 | Li-Qun Xu | Object tracking within video images |
| US8611673B2 (en) | 2006-09-14 | 2013-12-17 | Parham Aarabi | Method, system and computer program for interactive spatial link-based image searching, sorting and/or displaying |
| US8270767B2 (en) | 2008-04-16 | 2012-09-18 | Johnson Controls Technology Company | Systems and methods for providing immersive displays of video camera information from a plurality of cameras |
| WO2009154484A2 (en) | 2008-06-20 | 2009-12-23 | Business Intelligence Solutions Safe B.V. | Methods, apparatus and systems for data visualization and related applications |
| US8711206B2 (en) | 2011-01-31 | 2014-04-29 | Microsoft Corporation | Mobile camera localization using depth maps |
| US8570320B2 (en) * | 2011-01-31 | 2013-10-29 | Microsoft Corporation | Using a three-dimensional environment model in gameplay |
| US9443353B2 (en) * | 2011-12-01 | 2016-09-13 | Qualcomm Incorporated | Methods and systems for capturing and moving 3D models and true-scale metadata of real world objects |
| US9324190B2 (en) * | 2012-02-24 | 2016-04-26 | Matterport, Inc. | Capturing and aligning three-dimensional scenes |
| US10139985B2 (en) | 2012-06-22 | 2018-11-27 | Matterport, Inc. | Defining, displaying and interacting with tags in a three-dimensional model |
| US9721046B2 (en) | 2013-03-15 | 2017-08-01 | Aditazz, Inc. | System and method for realizing a building system that involves computer based matching of form to function |
| US9888215B2 (en) | 2013-04-26 | 2018-02-06 | University Of Washington | Indoor scene capture system |
| US10127721B2 (en) | 2013-07-25 | 2018-11-13 | Hover Inc. | Method and system for displaying and navigating an optimal multi-dimensional building model |
| US9990760B2 (en) | 2013-09-03 | 2018-06-05 | 3Ditize Sl | Generating a 3D interactive immersive experience from a 2D static image |
| US10002640B2 (en) | 2014-02-28 | 2018-06-19 | Microsoft Technology Licensing, Llc | Hyper-lapse video through time-lapse and stabilization |
| CN106663411A (zh) | 2014-11-16 | 2017-05-10 | 易欧耐特感知公司 | 用于增强现实准备、处理和应用的系统和方法 |
| DK3275204T3 (da) | 2015-03-24 | 2020-09-21 | Carrier Corp | System og fremgangsmåde til indsamling og analysering af flerdimensionel bygningsinformation |
| JP6350374B2 (ja) | 2015-04-17 | 2018-07-04 | トヨタ自動車株式会社 | 路面検出装置 |
| WO2017011793A1 (en) | 2015-07-16 | 2017-01-19 | Google Inc. | Camera pose estimation for mobile devices |
| US10163271B1 (en) | 2016-04-04 | 2018-12-25 | Occipital, Inc. | System for multimedia spatial annotation, visualization, and recommendation |
| GB2554633B (en) * | 2016-06-24 | 2020-01-22 | Imperial College Sci Tech & Medicine | Detecting objects in video data |
| US10346723B2 (en) * | 2016-11-01 | 2019-07-09 | Snap Inc. | Neural network for object detection in images |
| FR3067496B1 (fr) * | 2017-06-12 | 2021-04-30 | Inst Mines Telecom | Procede d'apprentissage de descripteurs pour la detection et la localisation d'objets dans une video |
| US10792557B1 (en) * | 2018-03-16 | 2020-10-06 | Gemiini Educational Systems, Inc. | Memory puzzle system |
| US10657691B2 (en) * | 2018-03-27 | 2020-05-19 | Faro Technologies, Inc. | System and method of automatic room segmentation for two-dimensional floorplan annotation |
| CN113424131B (zh) * | 2018-11-12 | 2025-11-04 | 开放空间实验室公司 | 图像到视频的自动空间索引 |
-
2021
- 2021-04-08 US US17/225,802 patent/US11436812B2/en active Active
- 2021-04-19 EP EP21812782.7A patent/EP4136576A4/en active Pending
- 2021-04-19 CN CN202180037564.0A patent/CN115699098B/zh active Active
- 2021-04-19 WO PCT/US2021/028026 patent/WO2021242439A1/en not_active Ceased
- 2021-04-19 JP JP2022573324A patent/JP7280452B2/ja active Active
-
2022
- 2022-07-27 US US17/875,388 patent/US11734882B2/en active Active
-
2023
- 2023-06-30 US US18/346,012 patent/US12045936B2/en active Active
-
2024
- 2024-06-26 US US18/754,477 patent/US20240346756A1/en active Pending
Patent Citations (6)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009507295A (ja) | 2005-09-02 | 2009-02-19 | インテリヴィド コーポレイション | 対象追跡と警報 |
| JP2007310572A (ja) | 2006-05-17 | 2007-11-29 | Toyota Motor Corp | 認識装置および認識方法 |
| US20180012125A1 (en) | 2016-07-09 | 2018-01-11 | Doxel, Inc. | Monitoring construction of a structure |
| US20190005719A1 (en) | 2017-06-29 | 2019-01-03 | Open Space Labs, Inc. | Automated spatial indexing of images based on floorplan features |
| JP2019149148A (ja) | 2017-12-28 | 2019-09-05 | ダッソー システムズDassault Systemes | ピクセルワイズ分類器による2dフロアプランのセマンティックセグメンテーション |
| JP2020038657A (ja) | 2018-09-05 | 2020-03-12 | 楽天株式会社 | 人工知能を用いるコンピュータ実施方法、aiシステム、及びプログラム |
Also Published As
| Publication number | Publication date |
|---|---|
| WO2021242439A1 (en) | 2021-12-02 |
| EP4136576A1 (en) | 2023-02-22 |
| US20230351684A1 (en) | 2023-11-02 |
| US20210375062A1 (en) | 2021-12-02 |
| US11436812B2 (en) | 2022-09-06 |
| CN115699098B (zh) | 2024-10-18 |
| US11734882B2 (en) | 2023-08-22 |
| US20240346756A1 (en) | 2024-10-17 |
| CN115699098A (zh) | 2023-02-03 |
| JP2023519641A (ja) | 2023-05-11 |
| US12045936B2 (en) | 2024-07-23 |
| US20220375183A1 (en) | 2022-11-24 |
| EP4136576A4 (en) | 2024-05-08 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7280452B2 (ja) | 縮尺図と3次元モデルを用いた機械学習ベースのオブジェクト識別 | |
| US12056816B2 (en) | Automated spatial indexing of images based on floorplan features | |
| JP7280450B2 (ja) | ウォークスルービデオの画像検索 | |
| US12266166B2 (en) | Automated spatial indexing of images to video |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221128 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221128 |
|
| A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20221128 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230511 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7280452 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |