Deprecated: The each() function is deprecated. This message will be suppressed on further calls in /home/zhenxiangba/zhenxiangba.com/public_html/phproxy-improved-master/index.php on line 456
JP7657308B2 - Method, apparatus and system for generating a three-dimensional model of a scene - Patents.com - Google Patents
[go: Go Back, main page]

JP7657308B2 - Method, apparatus and system for generating a three-dimensional model of a scene - Patents.com - Google Patents

Method, apparatus and system for generating a three-dimensional model of a scene - Patents.com Download PDF

Info

Publication number
JP7657308B2
JP7657308B2 JP2023548990A JP2023548990A JP7657308B2 JP 7657308 B2 JP7657308 B2 JP 7657308B2 JP 2023548990 A JP2023548990 A JP 2023548990A JP 2023548990 A JP2023548990 A JP 2023548990A JP 7657308 B2 JP7657308 B2 JP 7657308B2
Authority
JP
Japan
Prior art keywords
data
depth
scene
model
imaging means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023548990A
Other languages
Japanese (ja)
Other versions
JP2023546739A (en
Inventor
シャンユー チェン,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beike Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Publication of JP2023546739A publication Critical patent/JP2023546739A/en
Application granted granted Critical
Publication of JP7657308B2 publication Critical patent/JP7657308B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from three-dimensional [3D] object models, e.g. computer-generated stereoscopic image signals
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three-dimensional [3D] modelling for computer graphics
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three-dimensional [3D] modelling for computer graphics
    • G06T17/05Geographic models
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating three-dimensional [3D] models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/271Image signal generators wherein the generated image signals comprise depth maps or disparity maps
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/04Architectural design, interior design

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Remote Sensing (AREA)
  • Processing Or Creating Images (AREA)
  • Length Measuring Devices By Optical Means (AREA)
  • Image Analysis (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)

Description

本開示は、3次元(3D)再構成技術の分野に関し、より具体的には、VRデータを生成する画像処理に関する。 The present disclosure relates to the field of three-dimensional (3D) reconstruction techniques, and more specifically, to image processing to generate VR data.

[関連出願の相互参照]
本願は、2020年10月29日に出願された中国特許出願第202011180650.0号の優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
CROSS-REFERENCE TO RELATED APPLICATIONS
This application claims priority to Chinese Patent Application No. 202011180650.0, filed on October 29, 2020, the entire contents of which are incorporated herein by reference.

[背景技術]
3D再構成とは、3Dオブジェクトのコンピュータ表現と処理に適した数学的モデルを確立する手法である。コンピュータでは、確立された3Dモデルにより、3Dオブジェクトの処理、操作、および分析を実現できる。3D再構成技術は、コンピュータで客観的な世界を表現するVR環境を構成するための重要な手法である。一般に、3D再構成は、画像取得、カメラ校正、特徴抽出、ステレオマッチング、および3D再構成などのステップを含み得る。
[Background Art]
3D reconstruction is a method of establishing a mathematical model suitable for computer representation and processing of a 3D object. In a computer, the established 3D model can realize processing, manipulation, and analysis of the 3D object. 3D reconstruction technology is an important method for constructing a VR environment that represents an objective world in a computer. In general, 3D reconstruction may include steps such as image acquisition, camera calibration, feature extraction, stereo matching, and 3D reconstruction.

従来の3D再構成技術は、通常、3Dモデリングにするために、深度カメラまたはLIDAR (light Detection and ranging)システムのいずれを使用する。深度カメラは、高解像度の深度データを提供することができる。しかし、深度カメラにより取得られる深度データの精度は、深度カメラとシーン内のオブジェクトとの間の距離に大きく依存するため、深度カメラの高精度の深度データ範囲は制限されている。さらに、深度カメラの被写界距離は、通常、そのパワーや解像度によって制限されている。一方、LIDARシステムにより取得られる深度データの精度は高く、広い深度範囲で比較的安定しているため、LIDARシステムは広い深度範囲で高精度の深度データを提供する。しかし、LIDARシステムにより取得られる深度データの解像度は低い。そのため、3Dモデル化のために生成される点群は比較的疎なものとなり、小さなオブジェクト(水道管、ペンなど)を十分な詳細でモデル化することは困難である。 Conventional 3D reconstruction techniques usually use either a depth camera or a LIDAR (light detection and ranging) system for 3D modeling. A depth camera can provide high-resolution depth data. However, the accuracy of the depth data acquired by a depth camera is highly dependent on the distance between the depth camera and objects in the scene, so the high-precision depth data range of the depth camera is limited. In addition, the field distance of a depth camera is usually limited by its power and resolution. On the other hand, the accuracy of the depth data acquired by a LIDAR system is high and relatively stable in a wide depth range, so the LIDAR system provides high-precision depth data in a wide depth range. However, the resolution of the depth data acquired by a LIDAR system is low. Therefore, the point cloud generated for 3D modeling is relatively sparse, and it is difficult to model small objects (such as water pipes, pens, etc.) with sufficient details.

そのため、広いシーンの検出範囲の広さ、生成される3Dモデルの精度、解像度を考慮した確実な3D再構成ソリューションの提供が求められている。 Therefore, there is a need to provide a reliable 3D reconstruction solution that takes into account the wide detection range of a wide scene, the accuracy of the generated 3D model, and the resolution.

シーンの3Dモデルを生成するための方法、コンピュータ可読媒体、システム、および装置が開示される。3Dモデルに対して一貫して高い精度を有する高解像度深度画像が生成できるように、撮像手段および走査手段により取得される深度データは、結合される。 A method, computer-readable medium, system, and apparatus are disclosed for generating a 3D model of a scene. Depth data acquired by the imaging means and the scanning means are combined such that a high-resolution depth image having a consistent high accuracy can be generated for the 3D model.

いくつかの実施形態では、シーンの3Dモデルを生成する方法が提供される。この方法は、3Dモデリングシステムにおける撮像手段が第1の深度データを取得することと、3Dモデリングシステムにおける走査手段が第2の深度データを取得することと、3Dモデリングシステムが色データを受信することと、前記色データ、前記第1の深度データ、前記第2の深度データに基づいて、前記シーンの3Dモデルを生成することと、前記3Dモデリングシステムにおいて前記シーンの3Dモデルを表示させることと、を含む。前記第1の深度データは、深度画像における複数のフレームの画素を含む。前記第2の深度データは、複数の画像フレームの深度データ点を含む。 In some embodiments, a method of generating a 3D model of a scene is provided. The method includes: an imaging means in a 3D modeling system acquiring first depth data; a scanning means in the 3D modeling system acquiring second depth data; a 3D modeling system receiving color data; generating a 3D model of the scene based on the color data, the first depth data, and the second depth data; and displaying the 3D model of the scene in the 3D modeling system. The first depth data includes pixels of a plurality of frames in a depth image. The second depth data includes depth data points of a plurality of image frames.

いくつかの実施形態では、第1の深度データにおける前記深度画像の各々は第1のデータであり、第2の深度データにおける前記画像フレームの各々は第2のデータである。前記方法は、さらに、複数のデータペアを決定し、複数のデータペアに基づいて、前記第1の深度データと前記第2の深度データとの間の位置関係を決定することと、を含む。複数のデータペアの各々は、前記第1のデータおよび対応する前記第2のデータを含む。前記データペアにおける前記第1のデータおよび対応する前記第2のデータは、同様の目標オブジェクトを含む。 In some embodiments, each of the depth images in the first depth data is first data, and each of the image frames in the second depth data is second data. The method further includes determining a plurality of data pairs and determining a positional relationship between the first depth data and the second depth data based on the plurality of data pairs. Each of the plurality of data pairs includes the first data and the corresponding second data. The first data and the corresponding second data in the data pairs include similar target objects.

いくつかの実施形態では、前記第1のデータの各々には、前記撮像手段の姿勢情報を示す第1の外部パラメータが付けされる。前記第2のデータの各々には、前記走査手段の姿勢情報を示す第2の外部パラメータが付けされる。前記方法は、さらに、前記第1の外部パラメータに基づいて、前記第1のデータに関連する第1の姿勢を決定することと、前記第2の外部パラメータに基づいて、前記第2のデータに関連する第2の姿勢を決定することと、前記第1の姿勢と前記第2の姿勢が同様であることに応じて、前記第1のデータ及び前記第2のデータを含む前記データペアを決定することと、を含む。 In some embodiments, each of the first data is provided with a first external parameter indicating attitude information of the imaging means. Each of the second data is provided with a second external parameter indicating attitude information of the scanning means. The method further includes determining a first attitude associated with the first data based on the first external parameter, determining a second attitude associated with the second data based on the second external parameter, and determining the data pair including the first data and the second data in response to the first attitude and the second attitude being similar.

いくつかの実施形態では、前記第1の外部パラメータと前記第2の外部パラメータは、前記3Dモデリングシステムにおける同一の姿勢センサから出力される。 In some embodiments, the first external parameter and the second external parameter are output from the same orientation sensor in the 3D modeling system.

いくつかの実施形態では、前記第1のデータの各々には、前記撮像手段により前記第1のデータが取得された定時を示す第1のタイムスタンプが付けされる。前記第2のデータの各々には、前記走査手段により前記第2のデータが取得された定時を示す第2のタイムスタンプが付けされる。前記データペアにおける前記第1のデータと対応する前記第2のデータは、閾値よりも小さい時間間隔を有する。 In some embodiments, each of the first data is provided with a first time stamp indicating the fixed time when the first data was acquired by the imaging means. Each of the second data is provided with a second time stamp indicating the fixed time when the second data was acquired by the scanning means. The first data and the corresponding second data in the data pair have a time interval that is less than a threshold value.

いくつかの実施形態では、前記データペアにおける前記第1のデータおよび対応する前記第2のデータは、1つ以上の同様のオブジェクトで識別される。 In some embodiments, the first data and the corresponding second data in the data pair are identified with one or more similar objects.

いくつかの実施形態では、前記方法は、さらに、深度閾値を決定することと、前記1つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第1の深度データにおける前記1つ以上のデータ点を削除することと、を含む。 In some embodiments, the method further includes determining a depth threshold and removing the one or more data points in the first depth data in response to the depth value of the one or more data points being greater than the depth threshold.

いくつかの実施形態では、前記方法は、さらに、生成された前記シーンの3Dモデルにおいて、解像度閾値未満の1つ以上の画像領域を識別することと、前記3Dモデリングシステムにおける前記撮像手段が、複数の深度画像を含む第1の充填データを取得することと、生成された前記シーンの3Dモデルに、前記第1の充填データを補充して、新たなシーンの3Dモデルを生成することと、を含む。 In some embodiments, the method further includes identifying one or more image regions in the generated 3D model of the scene that are below a resolution threshold; the imaging means in the 3D modeling system acquiring first fill data comprising a plurality of depth images; and supplementing the generated 3D model of the scene with the first fill data to generate a new 3D model of the scene.

いくつかの実施形態では、前記方法は、さらに、生成された前記シーンの3Dモデルにおいて、十分な前記深度データ点を持たない1つ以上の画像領域を識別することと、前記3Dモデリングシステムにおける前記走査手段が、前記複数の画像フレームの深度データ点を含む第2の充填データを取得することと、生成された前記シーンの3Dモデルに前記第2の充填データを補充して、新たなシーンの3Dモデルを生成することと、を含む。 In some embodiments, the method further includes identifying one or more image regions in the generated 3D model of the scene that do not have sufficient depth data points, the scanning means in the 3D modeling system acquiring second fill data including depth data points of the plurality of image frames, and supplementing the generated 3D model of the scene with the second fill data to generate a new 3D model of the scene.

いくつかの実施形態では、前記撮像手段は、第1のフレームレートで前記複数の深度画像を取得する。前記走査手段は、第2のフレームレートで前記複数の画像フレームを取得する。 In some embodiments, the imaging means acquires the plurality of depth images at a first frame rate. The scanning means acquires the plurality of image frames at a second frame rate.

いくつかの実施形態では、前記3Dモデリングシステムは、取得された前記深度データに基づいて、前記シーンの3Dモデルをリアルタイムで表示するディスプレイを含む。 In some embodiments, the 3D modeling system includes a display that displays a 3D model of the scene in real time based on the acquired depth data.

いくつかの実施形態では、シーンの3Dモデルを生成するためのシステムが提供される。前記システムは、撮像手段、走査手段、1つ以上のプロセッサを備える。前記撮像手段は、第1の深度データを取得するように構成される。前記第1の深度データは、複数のフレームの深度画像の画素を含む。前記走査手段は、第2の深度データを取得するように構成される。前記第2の深度データは、複数の画像フレームの深度データ点を含む。前記1つ以上のプロセッサは、前記撮像手段からの前記第1の深度データ、前記走査手段からの前記第2の深度データ、色データを取得し、前記第1の深度データ、前記第2の深度データ、前記色データに基づいて、前記シーンの3Dモデルを生成し、生成された前記シーンの3Dモデルを出力するように構成される。前記色データは、複数の色画像の画素を含む。 In some embodiments, a system for generating a 3D model of a scene is provided. The system comprises an imaging means, a scanning means, and one or more processors. The imaging means is configured to acquire first depth data. The first depth data comprises pixels of depth images of a plurality of frames. The scanning means is configured to acquire second depth data. The second depth data comprises depth data points of a plurality of image frames. The one or more processors are configured to acquire the first depth data from the imaging means, the second depth data from the scanning means, and color data, generate a 3D model of the scene based on the first depth data, the second depth data, and the color data, and output the generated 3D model of the scene. The color data comprises pixels of a plurality of color images.

いくつかの実施形態では、前記第1の深度データにおける深度画像の各々は、第1のデータである。前記第2の深度データにおける画像フレームの各々は、第2のデータである。前記3Dモデリングシステムにおける前記1つ以上のプロセッサは、さらに、複数のデータペアを決定し、前記複数のデータペアに基づいて前記第1の深度データと前記第2の深度データとの間の位置関係を決定するように構成される。前記複数のデータペアの各々は、前記第1のデータおよび対応する前記第2のデータを含む。前記第1のデータおよび対応する前記第2のデータは、同様の目標オブジェクトを含む。 In some embodiments, each of the depth images in the first depth data is first data. Each of the image frames in the second depth data is second data. The one or more processors in the 3D modeling system are further configured to determine a plurality of data pairs and determine a positional relationship between the first depth data and the second depth data based on the plurality of data pairs. Each of the plurality of data pairs includes the first data and the corresponding second data. The first data and the corresponding second data include similar target objects.

いくつかの実施形態では、前記3Dモデリングシステムは、さらに、1つ以上の姿勢センサを備える。前記1つ以上の姿勢センサは、前記3Dモデリングシステムにおける前記撮像手段および前記走査手段の姿勢情報を示す外部パラメータを出力するように構成される。前記撮像手段により取得された前記第1のデータの各々には、前記撮像手段の姿勢情報を示す第1の外部パラメータが付けされる。前記走査手段により取得られた前記第2のデータの各々には、前記走査手段の姿勢情報を示す第2の外部パラメータが付けされる。前記3Dモデリングシステムにおける前記1つ以上のプロセッサは、さらに、前記第1の外部パラメータに基づいて、前記第1のデータに関連する第1の姿勢を決定し、前記第2の外部パラメータに基づいて、前記第2のデータに関連する第2の姿勢を決定し、前記第1の姿勢と前記第2の姿勢が同様であることに応じて、前記第1のデータと前記第2のデータを含むデータペアを決定するように構成される。 In some embodiments, the 3D modeling system further includes one or more attitude sensors. The one or more attitude sensors are configured to output external parameters indicative of attitude information of the imaging means and the scanning means in the 3D modeling system. Each of the first data acquired by the imaging means is assigned a first external parameter indicative of attitude information of the imaging means. Each of the second data acquired by the scanning means is assigned a second external parameter indicative of attitude information of the scanning means. The one or more processors in the 3D modeling system are further configured to determine a first attitude associated with the first data based on the first external parameter, determine a second attitude associated with the second data based on the second external parameter, and determine a data pair including the first data and the second data in response to the first attitude and the second attitude being similar.

いくつかの実施形態では、前記第1のデータの各々には、前記撮像手段により前記第1のデータが取得された定時を示す第1のタイムスタンプが付けされる。前記第2のデータの各々には、前記走査手段により前記第2のデータが取得された定時を示す第2のタイムスタンプが付けされる。前記データペアにおける前記第1のデータと対応する前記第2のデータは、閾値よりも小さい時間間隔を有する。 In some embodiments, each of the first data is provided with a first time stamp indicating the fixed time when the first data was acquired by the imaging means. Each of the second data is provided with a second time stamp indicating the fixed time when the second data was acquired by the scanning means. The first data and the corresponding second data in the data pair have a time interval that is less than a threshold value.

いくつかの実施形態では、前記データペアにおける前記第1のデータおよび対応する前記第2のデータは、1つ以上の同様のオブジェクトで識別される。 In some embodiments, the first data and the corresponding second data in the data pair are identified with one or more similar objects.

いくつかの実施形態では、前記3Dモデリングシステムにおける前記1つ以上のプロセッサは、さらに、深度閾値を決定し、前記1つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第1の深度データにおける前記1つ以上のデータ点を削除するように構成される。 In some embodiments, the one or more processors in the 3D modeling system are further configured to determine a depth threshold and, in response to the depth value of the one or more data points being greater than the depth threshold, remove the one or more data points in the first depth data.

いくつかの実施形態では、前記3Dモデリングシステムにおける前記1つ以上のプロセッサは、さらに、生成された前記シーンの3Dモデルにおいて、解像度閾値未満の1つ以上の画像領域を識別し、前記撮像手段から第1の充填データを受信し、生成された前記シーンの3Dモデルに前記第1の充填データを補充して、新たなシーンの3Dモデルを生成するように構成される。前記第1の充填データは、複数の深度画像の画素を含む。 In some embodiments, the one or more processors in the 3D modeling system are further configured to identify one or more image regions in the generated 3D model of the scene that are below a resolution threshold, receive first fill data from the imaging means, and supplement the generated 3D model of the scene with the first fill data to generate a new 3D model of the scene. The first fill data includes pixels of a plurality of depth images.

いくつかの実施形態では、前記3Dモデリングシステムにおける前記1つ以上のプロセッサは、さらに、生成された前記シーンの3Dモデルにおいて、十分な前記深度データ点を持たない1つ以上の画像領域を識別し、前記走査手段から第2の充填データを受信し、生成された前記シーンの3Dモデルに第2の充填データを補充して、新たなシーンの3Dモデルを生成するように構成される。前記第2の充填データは、複数の画像フレームの深度データ点を含む。 In some embodiments, the one or more processors in the 3D modeling system are further configured to identify one or more image regions in the generated 3D model of the scene that do not have sufficient depth data points, receive second fill data from the scanning means, and supplement the generated 3D model of the scene with the second fill data to generate a new 3D model of the scene. The second fill data includes depth data points of a plurality of image frames.

いくつかの実施形態では、非揮発性なコンピュータ可読媒体が提供される。非揮発性なコンピュータ可読媒体は、コンピュータ実行可能命令を記憶しており、この命令が1つ以上のプロセッサによって実行されると、プロセッサは、3Dモデリングシステムにおける撮像手段が第1の深度データを取得することと、前記3Dモデリングシステムにおける走査手段が第2の深度データを取得することと、前記3Dモデリングシステムが色データを受信し、前記第1のセット深度データ、前記第2の深度データ、前記色データに基づいて、シーンの3Dモデルを生成することと、前記シーンの3Dモデルを表示させることと、を容易に実現する。前記第1の深度データは、複数のフレームの深度画像の画素を含む。前記第2の深度データは、複数の画像フレームの深度データ点を含む。 In some embodiments, a non-volatile computer readable medium is provided. The non-volatile computer readable medium stores computer executable instructions that, when executed by one or more processors, facilitate the processors: capturing an image in a 3D modeling system to acquire first depth data; scanning a scan in the 3D modeling system to acquire second depth data; receiving color data from the 3D modeling system; generating a 3D model of a scene based on the first set of depth data, the second depth data, and the color data; and displaying the 3D model of the scene. The first depth data includes pixels of depth images of a plurality of frames. The second depth data includes depth data points of a plurality of image frames.

本発明の技術は、例示的な図に基づいて以下でさらに詳細に説明されるが、実施例に限定されない。本明細書に記載および/または例示されたすべての特徴は、単独で使用することも、異なる組み合わせで組み合わせることができる。様々な例の特徴および利点は、以下を示す添付図面を参照して以下の詳細な説明を読むことによって明らかになるであろう。
図1は、1つ以上の実施形態による例示的な3D仮想現実(VR)環境を示す。 図2は、1つ以上の実施形態による例示的なコンピュータシステムのブロック図を示す。 図3は、1つ以上の実施形態によるシーンの3Dモデルを生成するための工程を示す。 図4は、1つ以上の実施形態によるシーンの3Dモデルを生成するアプリケーションシナリオを示す。 図3は、1つ以上の実施形態によるシーンの3Dモデルを生成するための工程を示す。 図3は、1つ以上の実施形態によるシーンの3Dモデルを生成するための工程を示す。 図7は、1つ以上の実施形態によるシーンの3Dモデルを生成するためのシステムを示す。
The technology of the present invention will be described in more detail below based on the exemplary figures, but not limited to the examples. All features described and/or illustrated herein can be used alone or combined in different combinations. The features and advantages of the various examples will become clear by reading the following detailed description with reference to the attached drawings, which show:
FIG. 1 illustrates an exemplary 3D virtual reality (VR) environment in accordance with one or more embodiments. FIG. 2 illustrates a block diagram of an exemplary computer system in accordance with one or more embodiments. FIG. 3 illustrates a process for generating a 3D model of a scene in accordance with one or more embodiments. FIG. 4 illustrates an application scenario for generating a 3D model of a scene in accordance with one or more embodiments. FIG. 3 illustrates a process for generating a 3D model of a scene in accordance with one or more embodiments. FIG. 3 illustrates a process for generating a 3D model of a scene in accordance with one or more embodiments. FIG. 7 illustrates a system for generating a 3D model of a scene in accordance with one or more embodiments.

本明細書で説明する本開示は、シーンの3Dモデルを生成するための技術を提供する。深度情報は、撮像手段および走査手段を使用して取得される。深度カメラなどの撮像手段は、閾値未満の深度データを取得するように構成される。撮像手段により取得された深度データには、高解像度の深度データが含まれているため、3Dモデルの詳細が提供される。LIDARシステムなどの走査手段は、3Dモデルにおいて遠くのオブジェクトを高精度で生成できるように、広範囲の撮影距離で一貫した精度で深度データを取得するように構成されている。撮像手段および走査手段により取得された深度データ点は、深度データ点間の位置関係に基づいて結合される。一部の例では、位置関係は、撮像手段や走査手段などのデータ取得装置の姿勢情報に基づいて決定される。他の例では、位置関係は、深度データ点の複数の画像および/またはフレームに存在する多数の目標オブジェクトを識別することによって決定される。加えて、及び/又は代替的に、3Dモデルにおいてデータ点は、色撮像手段により提供される色情報に従ってレンダリングされる。このようにして、深度と色の両方の情報を含む3Dモデルが生成される。 The disclosure described herein provides techniques for generating a 3D model of a scene. Depth information is acquired using an imaging means and a scanning means. The imaging means, such as a depth camera, is configured to acquire depth data below a threshold. The depth data acquired by the imaging means includes high resolution depth data, thereby providing detail in the 3D model. The scanning means, such as a LIDAR system, is configured to acquire depth data with consistent accuracy over a wide range of shooting distances, such that distant objects can be generated with high accuracy in the 3D model. The depth data points acquired by the imaging means and the scanning means are combined based on a positional relationship between the depth data points. In some examples, the positional relationship is determined based on pose information of a data acquisition device, such as the imaging means or the scanning means. In other examples, the positional relationship is determined by identifying multiple target objects present in multiple images and/or frames of depth data points. Additionally and/or alternatively, the data points in the 3D model are rendered according to color information provided by a color imaging means. In this manner, a 3D model is generated that includes both depth and color information.

本明細書で提供される技術を適用することにより、高解像度および高精度の3Dモデルを生成することができ、シミュレートVRアプリケーションのユーザ体験を向上させることができる。 By applying the techniques provided herein, high resolution and accuracy 3D models can be generated, enhancing the user experience of simulated VR applications.

図1は、いくつかの実施形態による例示的な3DVR環境100を示す。図1に示されるように、3DVR環境100は、アパートや家の床などの住宅ユニットをシミュレートまたは表現することができる。3DVR環境100は、任意の屋内空間または環境のVR表現を含み得ることに留意されたい。図1を参照すると、3DVR環境100は、110、120、130、140、150、および160などの1つ以上の機能空間を含み得る。本明細書で使用されるように、機能空間とは、所定の機能に関連する閉鎖または部分的に閉鎖された空間を指す。場合によっては、機能空間が部屋に対応し得る。例えば、機能空間110は第1の寝室に対応し、機能空間130は第2の寝室に対応し得る。一部の例では、機能空間は、部屋内または部屋に隣接する囲まれた空間または部分的に囲まれた空間に対応し得る。例えば、機能空間140はクローゼットに対応し得る。他の例では、機能空間は、所定の目的のために一般的に使用される領域に対応し得る。例えば、機能空間120はキッチンエリアに対応し、機能空間150はダイニングエリアに対応し、機能空間160はリビングルームに対応し得る。機能空間120、150、160は、同じ部屋(例えば、閉鎖された領域)を共有することができるが、それらの機能は異なるため、異なる機能空間として考慮され得る。 FIG. 1 illustrates an exemplary 3DVR environment 100 according to some embodiments. As illustrated in FIG. 1, the 3DVR environment 100 may simulate or represent a residential unit, such as an apartment or a floor of a house. It should be noted that the 3DVR environment 100 may include a VR representation of any indoor space or environment. With reference to FIG. 1, the 3DVR environment 100 may include one or more functional spaces, such as 110, 120, 130, 140, 150, and 160. As used herein, a functional space refers to an enclosed or partially enclosed space associated with a given function. In some cases, a functional space may correspond to a room. For example, the functional space 110 may correspond to a first bedroom, and the functional space 130 may correspond to a second bedroom. In some examples, a functional space may correspond to an enclosed or partially enclosed space within or adjacent to a room. For example, the functional space 140 may correspond to a closet. In other examples, a functional space may correspond to an area commonly used for a given purpose. For example, functional space 120 may correspond to a kitchen area, functional space 150 may correspond to a dining area, and functional space 160 may correspond to a living room. Functional spaces 120, 150, and 160 may share the same room (e.g., an enclosed area), but may be considered different functional spaces because their functions are different.

図2は、本明細書に開示される様々な機能を実装するように構成された例示的なコンピュータシステム200のブロック図である。例えば、コンピュータシステム200は、VR環境100を作成または再構成するためのサーバーとして構成され得る。他の例では、コンピュータシステム200は、VR環境100を表示または強化するための端末装置として構成され得る。図2に示すように、コンピュータシステム200は、プロセッサ210、通信インターフェース220、メモリ/ストレージ230、およびディスプレイ240を含み得る。メモリ/ストレージ230は、プロセッサ210によって実行されると、プロセッサ210に本明細書に開示される様々な動作を実行させることができるコンピュータ可読命令を格納するように構成され得る。メモリ230は、揮発性または非揮発性、磁気、半導体ベース、テープベース、光学、取り外し可能、非取り外し可能、または他のタイプの記憶デバイス、または有形のコンピュータ可読媒体など、任意の非揮発性なタイプの大容量ストレージであり得る。読み取り専用メモリ(ROM)、フラッシュメモリ、ダイナミックランダムアクセスメモリ(RAM)、および/またはスタティックRAMを含むが、これらに限定されない媒体。 2 is a block diagram of an exemplary computer system 200 configured to implement various functions disclosed herein. For example, the computer system 200 may be configured as a server for creating or reconstructing the VR environment 100. In another example, the computer system 200 may be configured as a terminal device for displaying or enhancing the VR environment 100. As shown in FIG. 2, the computer system 200 may include a processor 210, a communication interface 220, a memory/storage 230, and a display 240. The memory/storage 230 may be configured to store computer-readable instructions that, when executed by the processor 210, cause the processor 210 to perform various operations disclosed herein. The memory 230 may be any non-volatile type of mass storage, such as a volatile or non-volatile, magnetic, semiconductor-based, tape-based, optical, removable, non-removable, or other type of storage device, or tangible computer-readable medium, including, but not limited to, read-only memory (ROM), flash memory, dynamic random access memory (RAM), and/or static RAM.

プロセッサ210は、メモリ230に格納された命令に従って動作を実行するように構成され得る。プロセッサ210は、任意の適切なタイプの汎用または専用マイクロプロセッサ、デジタル信号プロセッサ、マイクロコントローラなどを含み得る。一部の例では、プロセッサ210は、本明細書で開示される1つ以上の所定の動作を実行するために専用の別個のプロセッサモジュールとして構成され得る。他の例では、プロセッサ210は、本明細書で開示される1つ以上の所定の操作に無関係な他の操作を実行できるために共有プロセッサモジュールとして構成され得る。 Processor 210 may be configured to perform operations according to instructions stored in memory 230. Processor 210 may include any suitable type of general purpose or special purpose microprocessor, digital signal processor, microcontroller, etc. In some examples, processor 210 may be configured as a separate processor module dedicated to performing one or more predetermined operations disclosed herein. In other examples, processor 210 may be configured as a shared processor module to be able to perform other operations unrelated to one or more predetermined operations disclosed herein.

通信インターフェース220は、コンピュータシステム200と他のデバイスまたはシステムとの間で情報を通信するように構成され得る。例えば、通信インターフェース220は、データ通信接続を提供するために、統合サービスデジタルネットワーク(ISDN)カード、ケーブルモデム、衛星モデム、またはモデムを含み得る。他の例として、通信インターフェース220は、互換性のあるLANへのデータ通信接続を提供するために、ローカルエリアネットワーク(LAN)カードを含み得る。別の例として、通信インターフェース220は、光ファイバネットワークアダプタ、10Gイーサネットアダプタ(イーサネットは登録商標)などの高速ネットワークアダプタを含み得る。無線リンクは、通信インターフェース220によって実装することもできる。このような実装では、通信インターフェース220は、ネットワークを介して、様々なタイプの情報を表すデジタルデータストリームを運ぶ電気信号、電磁気信号または光信号を送受信することができる。ネットワークは、典型的に、セルラ通信ネットワーク、無線ローカルエリアネットワーク(WLAN)、ワイドエリアネットワーク(WAN)などを含み得る。 The communication interface 220 may be configured to communicate information between the computer system 200 and other devices or systems. For example, the communication interface 220 may include an integrated services digital network (ISDN) card, a cable modem, a satellite modem, or a modem to provide a data communication connection. As another example, the communication interface 220 may include a local area network (LAN) card to provide a data communication connection to a compatible LAN. As another example, the communication interface 220 may include a high-speed network adapter, such as a fiber optic network adapter, a 10G Ethernet adapter (Ethernet is a registered trademark), or the like. A wireless link may also be implemented by the communication interface 220. In such an implementation, the communication interface 220 may send and receive electrical, electromagnetic, or optical signals carrying digital data streams representing various types of information over the network. The network may typically include a cellular communication network, a wireless local area network (WLAN), a wide area network (WAN), or the like.

通信インターフェース220は、キーボード、マウス、タッチパッド、タッチスクリーン、マイク、カメラ、バイオセンサなどの様々なI/Oデバイスを含み得る。ユーザは、通信インターフェース220を介して端末装置にデータを入力することができる。 The communication interface 220 may include various I/O devices such as a keyboard, mouse, touchpad, touchscreen, microphone, camera, biosensor, etc. A user can input data into the terminal device via the communication interface 220.

ディスプレイ240は、コンピュータシステム200の一部として統合されてもよいし、コンピュータシステム200に通信可能に結合された別個のデバイスとして提供されてもよい。ディスプレイ240は、液晶ディスプレイ(LCD)、発光ダイオードディスプレイ(LED)、プラズマディスプレイ、または任意の他のタイプのディスプレイなどのディスプレイデバイスを含み、ユーザ入力およびデータ描写のためにディスプレイ上に提示されるグラフィカルユーザインターフェース(GUI)を提供してもよい。いくつかの実施形態では、ディスプレイデバイス240は、VRゴーグル、VRメガネ、または没入型VR体験を提供する他の同様のデバイスを含み得る。例えば、VR環境100は、ディスプレイ240上に表示され得る。いくつかの実施形態では、ディスプレイ240は、通信インターフェース220の一部として統合され得る。 The display 240 may be integrated as part of the computer system 200 or may be provided as a separate device communicatively coupled to the computer system 200. The display 240 may include a display device such as a liquid crystal display (LCD), a light emitting diode display (LED), a plasma display, or any other type of display, and may provide a graphical user interface (GUI) presented on the display for user input and data representation. In some embodiments, the display device 240 may include VR goggles, VR glasses, or other similar devices that provide an immersive VR experience. For example, the VR environment 100 may be displayed on the display 240. In some embodiments, the display 240 may be integrated as part of the communication interface 220.

図3は、1つ以上の実施形態によるシーンの3Dモデルを生成するための例示的な工程300である。工程300は、図2に示すメモリ230に格納されたコンピュータ実行可能命令に従って、3Dモデリングシステムおよび/またはデバイス200によって実行され得る。3Dモデリングシステムは、撮像手段、走査手段、および/または1つ以上の姿勢センサを含み得る。3Dモデリングシステムは、撮像手段および/または走査手段のような1つ以上の手段を位置決め・再位置決めのために、加えておよび/または代替的に、3Dモデリングシステムは、1つ以上のプラットフォーム、モータ、アクチュエータをさらに含み得る。例えば、3Dモデリングシステムは、撮像手段を走査手段とは別に回転および/または移動させるための1つ以上のプラットフォーム、モータ、および/またはアクチュエータを含み得る。一部の例では、3Dモデリングシステムは、画像に関連する色データを取得するように構成された色撮像手段(例えば、カラーカメラ)を含み得る。他の例では、3Dモデリングシステムは、3Dモデリングシステムとは別の外部色撮像手段から色データを取得することができる。 3 is an exemplary process 300 for generating a 3D model of a scene according to one or more embodiments. Process 300 may be performed by the 3D modeling system and/or device 200 according to computer-executable instructions stored in memory 230 shown in FIG. 2. The 3D modeling system may include an imaging means, a scanning means, and/or one or more orientation sensors. Additionally and/or alternatively, the 3D modeling system may further include one or more platforms, motors, actuators for positioning and repositioning one or more means, such as the imaging means and/or the scanning means. For example, the 3D modeling system may include one or more platforms, motors, and/or actuators for rotating and/or moving the imaging means separately from the scanning means. In some examples, the 3D modeling system may include a color imaging means (e.g., a color camera) configured to acquire color data associated with the image. In other examples, the 3D modeling system may acquire color data from an external color imaging means separate from the 3D modeling system.

撮像手段は、深度カメラであってもよく、シーンの深度画像を撮像するように構成され得る。シーンの各深度画像は、複数の画素からなり、各画素は、深度値を含む。深度値は、1つ以上の画素によって描かれる代表オブジェクトと撮像手段の位置との間の距離を表し得る。走査手段(例えば、LIDARデバイス)は、シーンを走査して、複数の深度値を示す複数の深度データ点を収集するように構成され得る。1つ以上の姿勢センサは、複数の外部パラメータを出力するように構成され得る。外部パラメータは、撮像手段および走査手段に関連する位置および回転情報を含む。例えば、外部パラメータは、3×3回転行列および3×1並進ベクトルを含む姿勢行列を含み得る。一部の変形例では、撮像手段は、複数の画像(例えば、5つの画像)を撮像してもよく、姿勢センサは、画像に対する1つ以上の姿勢行列を決定し得る。例えば、撮像手段は、複数の画像を撮像する際に(例えば、同じ位置に)静止していてもよく、姿勢センサは、複数の画像について単一の姿勢行列を取得・決定してもよい。姿勢行列は、この位置における撮像手段に関連する回転(例えば、ピッチ、ヨー、ロール)および/または並進(例えば、x、y、z位置値)の値を示し得る。一部の例では、複数の画像を取得する際に、撮像手段は異なる位置にある場合がある。姿勢センサは、これらの画像のそれぞれを取得する際に、撮像手段の回転および/または並進の値を示す姿勢行列を取得・決定することができる。 The imaging means may be a depth camera and may be configured to capture depth images of the scene. Each depth image of the scene consists of a number of pixels, each pixel including a depth value. The depth value may represent a distance between a representative object depicted by one or more pixels and the position of the imaging means. The scanning means (e.g., a LIDAR device) may be configured to scan the scene to collect a number of depth data points indicating a number of depth values. The one or more orientation sensors may be configured to output a number of extrinsic parameters. The extrinsic parameters include position and rotation information related to the imaging means and the scanning means. For example, the extrinsic parameters may include an orientation matrix including a 3×3 rotation matrix and a 3×1 translation vector. In some variations, the imaging means may capture a number of images (e.g., five images), and the orientation sensor may determine one or more orientation matrices for the images. For example, the imaging means may be stationary (e.g., at the same position) when capturing the multiple images, and the orientation sensor may obtain and determine a single orientation matrix for the multiple images. The orientation matrix may indicate rotational (e.g., pitch, yaw, roll) and/or translational (e.g., x, y, z positional values) values associated with the imaging means at this position. In some examples, the imaging means may be at different positions when acquiring multiple images. The orientation sensor may obtain and determine an orientation matrix that indicates the rotational and/or translational values of the imaging means when acquiring each of these images.

外部パラメータは、ローカリゼーションのために、および/または撮像手段および走査手段からの画像の位置情報を同じ3D座標平面内にあるように計算するために使用され得る。別の言い方をすれば、撮像手段は第1の画像を撮像し、走査手段は第2の画像を取得する。姿勢センサからの外部パラメータは、これらの2つの手段からの第1および第2の画像が同じ座標面にあるように位置合わせするために使用されてもよい。3Dモデリングシステムは、さらに、取得されたデータを処理するデバイス200を含み、および/またはデータ処理のために取得されたデータをデバイス200に送信するインターフェースを含み得る。しかしながら、工程300は、任意の適切な環境で実行されてもよく、以下のブロックのいずれかが任意の適切な順序で実行されてもよいことが認識されるであろう。 The extrinsic parameters may be used for localization and/or to calculate the position information of the images from the imaging means and the scanning means to be in the same 3D coordinate plane. In other words, the imaging means captures a first image and the scanning means acquires a second image. The extrinsic parameters from the attitude sensor may be used to align the first and second images from these two means to be in the same coordinate plane. The 3D modeling system may further include a device 200 for processing the acquired data and/or an interface for transmitting the acquired data to the device 200 for data processing. However, it will be appreciated that the process 300 may be performed in any suitable environment and any of the following blocks may be performed in any suitable order.

ブロック310において、3Dモデリングシステムは、第1の深度データを取得する。具体的には、3Dモデリングシステムの撮像手段は、シーンの複数の深度画像を撮像する。撮像手段は、1つ以上のカメラであってもよく、および/またはそれを含んでもよく、前記カメラは、ステレオカメラ、構造化光カメラ、飛行時間(TOF)カメラ、および/または他のタイプの深度カメラを含むが、これらに限定されるわけではない。撮像手段により撮像された各深度画像は、複数の画素を含む。各画素は、撮影位置(例えば、画像を取得するときの撮像手段の位置)における撮像手段とシーン内のスポットとの間の距離を示す深度値を含む深度データ点に関連付けられる。第1の深度データは、撮像手段により撮像された深度画像の画素を含む。 In block 310, the 3D modeling system acquires first depth data. In particular, an imaging means of the 3D modeling system captures a plurality of depth images of the scene. The imaging means may be and/or may include one or more cameras, including but not limited to stereo cameras, structured light cameras, time-of-flight (TOF) cameras, and/or other types of depth cameras. Each depth image captured by the imaging means includes a plurality of pixels. Each pixel is associated with a depth data point that includes a depth value indicating a distance between the imaging means at a capture position (e.g., the position of the imaging means when the image is captured) and a spot in the scene. The first depth data includes pixels of the depth image captured by the imaging means.

シーンは、1つ以上のオブジェクトおよび/または撮像領域の画像あってよく、前述のシーンは、任意のタイプ/数のオブジェクトおよび/または撮像領域を含む任意のタイプのシーンであってよい。例えば、シーンは、家の屋内シーンまたは家の屋外シーンであってよい。一部の例では、シーン内のオブジェクトの少なくとも一部(例えば、蛇口および/またはドアハンドル)を2回撮像することができる。例えば、撮像されるシーンは、部分シーンA、部分シーンB、部分シーンCを含み得る。各部分シーンのサイズは、撮像手段の視野である。撮像手段は、各部分シーンの2つの深度画像を撮像することができる。加えて、及び/又は代替的に、部分シーンAおよび部分シーンBが共通のオブジェクトを含む場合、撮像手段は、部分シーンAについて1つの深度画像を、部分シーンBについて1つの深度画像を撮像することができる。この場合、前記共通のオブジェクトは、2つの深度画像において、2回撮像される。 A scene may be an image of one or more objects and/or imaging areas, and said scene may be any type of scene including any type/number of objects and/or imaging areas. For example, the scene may be an indoor scene of a house or an outdoor scene of a house. In some examples, at least some of the objects in the scene (e.g., a faucet and/or a door handle) may be imaged twice. For example, the imaged scene may include partial scene A, partial scene B, and partial scene C. The size of each partial scene is the field of view of the imaging means. The imaging means may capture two depth images of each partial scene. Additionally and/or alternatively, if partial scene A and partial scene B include a common object, the imaging means may capture one depth image for partial scene A and one depth image for partial scene B. In this case, the common object is imaged twice in the two depth images.

一部の例では、撮像手段は、シーンの複数の深度画像を撮像するために、部分シーンについて撮像された複数の深度画像がシーン全体をカバーし得るように、異なる姿勢(例えば、位置および/または撮影角度)で配置され得る。撮像手段は、異なる姿勢で配置されるように移動または回転され得る。例えば、撮像手段はプラットフォーム上に配置されてもよい。プラットフォームは、予め設定された運動軌跡に従って移動するように構成され得る。撮像手段は、撮像手段が予め設定された距離(例えば、0.2m)だけ移動するたびに深度画像を撮像することができる。一部の変形例では、プラットフォームは、予め設定されたオブジェクトの周りを回転するように構成されることがある。撮像手段は、撮像手段が予め設定された角度(例えば、10度)移動するたびに深度画像を撮像することができる。さらに、プラットフォームは、予め設定された運動軌跡に従って移動しながら、予め設定されたオブジェクトの周りを回転するように構成され得る。換言すれば、撮像手段が予め設定された距離および/または予め設定された角度だけ回転/移動するときに、撮像手段は深度画像を撮像することができる。 In some examples, the imaging means may be positioned in different poses (e.g., positions and/or shooting angles) to capture multiple depth images of a scene, such that the multiple depth images captured for a partial scene may cover the entire scene. The imaging means may be moved or rotated to be positioned in different poses. For example, the imaging means may be positioned on a platform. The platform may be configured to move according to a preset motion trajectory. The imaging means may capture a depth image every time the imaging means moves a preset distance (e.g., 0.2 m). In some variations, the platform may be configured to rotate around a preset object. The imaging means may capture a depth image every time the imaging means moves a preset angle (e.g., 10 degrees). Furthermore, the platform may be configured to rotate around a preset object while moving according to a preset motion trajectory. In other words, the imaging means may capture a depth image when the imaging means rotates/moves a preset distance and/or a preset angle.

一部の例では、3Dモデリングシステムは、シーンの複数の深度画像を撮像する工程中または工程後に、キーポイント検出を実行することができる。例えば、3Dモデリングシステムは、部分シーンについて撮像手段により取得された1つ以上の深度画像に対してキーポイント検出を実行して、取得された深度画像内の1つ以上の目標オブジェクトおよび/または1つ以上の画像領域を識別して、識別された目標オブジェクトが、1つ以上の原因(例えば、低解像度および/または欠落/不完全なデータ点)で、補充用の深度データを必要とするかどうかを判断する。例えば、シーンは目標オブジェクト(例えば、ドアハンドル)を含むことがあり、3Dモデリングシステムはシーンの1つ以上の深度画像を撮像することができる。各深度画像は、部分的なシーンであってもよい(例えば、目標オブジェクトを含み、シーン全体の一部を示してもよい)。換言すれば、3Dモデリングシステムは、目標オブジェクトの第1の深度画像を撮像するよう撮像手段に指示し、次に、目標オブジェクトを含む次の深度画像を撮像するように撮像手段に指示するようになる。加えて、及び/又は代替的に、3Dモデリングシステムは、キーポイント検出結果に基づいて(例えば、低解像度および/またはデータ点の欠落に基づいて)、シーン内の目標オブジェクトが補充用の深度データを必要とすると判断する。例えば、3Dモデリングシステムは、目標オブジェクトの解像度が所定の閾値を下回っているため、補充用の深度データが必要であると判断する。この場合、3Dモデリングシステムのプロセッサは、目標オブジェクトの画像を撮像できる所定の場所に移動するように撮像手段に指示する。次いで、プロセッサは、部分シーンの深度画像を撮像して、目標オブジェクトに関する補充用の深度データを提供するように撮像手段に指示する。目標オブジェクトは、所定のオブジェクトであってもよい(例えば、ユーザは、目標オブジェクトを指定するユーザ入力を提供してもよい)。加えて、および/または代替として、目標オブジェクトは、予め設定された条件を満たすオブジェクトであってもよい(例えば、目標オブジェクトは、画像内の所定の体積または領域よりも小さいものである)。 In some examples, the 3D modeling system may perform keypoint detection during or after capturing multiple depth images of a scene. For example, the 3D modeling system may perform keypoint detection on one or more depth images captured by the imaging means of a partial scene to identify one or more target objects and/or one or more image regions in the captured depth images and determine whether the identified target objects require additional depth data due to one or more causes (e.g., low resolution and/or missing/incomplete data points). For example, a scene may include a target object (e.g., a door handle), and the 3D modeling system may capture one or more depth images of the scene. Each depth image may be a partial scene (e.g., may include a target object and show a portion of the entire scene). In other words, the 3D modeling system may instruct the imaging means to capture a first depth image of the target object, and then instruct the imaging means to capture a next depth image including the target object. Additionally and/or alternatively, the 3D modeling system may determine that a target object in the scene requires additional depth data based on keypoint detection results (e.g., based on low resolution and/or missing data points). For example, the 3D modeling system may determine that additional depth data is required because the resolution of the target object is below a predetermined threshold. In this case, the processor of the 3D modeling system instructs the imaging means to move to a predetermined location where an image of the target object can be captured. The processor then instructs the imaging means to capture depth images of the partial scene to provide additional depth data for the target object. The target object may be a predetermined object (e.g., a user may provide user input specifying the target object). Additionally and/or alternatively, the target object may be an object that satisfies a predefined condition (e.g., the target object is smaller than a predetermined volume or area in the image).

ブロック320において、3Dモデリングシステムは、シーンの第2の深度データを取得する。具体的には、3Dモデリングシステムの走査手段がシーンを走査して、複数の深度データ点を収集する。各深度データ点には、走査手段とシーン内のスポットとの間の距離を示す深度値が含まれる。一部の例では、走査手段は、レーザーなどのエネルギー源を利用して領域を走査し、走査された領域内のオブジェクトからの跳ね返りによって生じる反射エネルギーを検出するLIDARシステムであってもよい。 At block 320, the 3D modeling system obtains second depth data of the scene. Specifically, a scanning means of the 3D modeling system scans the scene to collect a plurality of depth data points. Each depth data point includes a depth value indicating the distance between the scanning means and a spot in the scene. In some examples, the scanning means may be a LIDAR system that utilizes an energy source, such as a laser, to scan an area and detect reflected energy resulting from bouncing off objects in the scanned area.

ブロック310と同様に、3Dモデリングシステムは、シーンを走査する工程中または工程後にキーポイント検出を実行してもよい。例えば、3Dモデリングシステムは、部分シーンについて走査手段により取得された深度データ点の1つ以上のフレームに対してキーポイント検出を実行して、取得されたフレーム内の1つ以上の目標オブジェクトおよび/または1つ以上の画像領域を識別して、識別された目標オブジェクトが、1つ以上の原因(例えば、低解像度および/または欠落/不完全なデータ点)で、補充用の深度データを必要とするかどうかを判断する。3Dモデリングシステムのプロセッサは、キーポイント検出結果に基づいて(例えば、低解像度および/またはデータ点の欠落に基づいて)、所定の領域を走査して目標オブジェクトの補充用の深度データを提供するように走査手段に指示する。 Similar to block 310, the 3D modeling system may perform keypoint detection during or after scanning the scene. For example, the 3D modeling system may perform keypoint detection on one or more frames of depth data points acquired by the scanning means for the sub-scene to identify one or more target objects and/or one or more image regions in the acquired frames and determine whether the identified target objects require supplemental depth data for one or more reasons (e.g., low resolution and/or missing/incomplete data points). Based on the keypoint detection results (e.g., based on low resolution and/or missing data points), the processor of the 3D modeling system instructs the scanning means to scan a predetermined region to provide supplemental depth data for the target objects.

一部の例では、撮像手段と走査手段との間の相対位置は固定されている。また、相対位置は、固定されない場合もある。撮像手段と走査手段との間の相対位置は、相対位置が固定されていない場合、深度データ取得工程中に動的に決定され得る。この場合、3Dモデリングシステムは、撮像手段および/または走査手段の位置および回転情報を示す外部パラメータを出力する1つ以上の姿勢センサを含み得る。一部の変形例では、3Dモデリングシステムは、撮像手段と走査手段の両方について単一の姿勢センサを含み得る。他の変形例では、3Dモデリングシステムは、撮像手段用の姿勢センサと、走査手段用の別個の姿勢センサとを含み得る。 In some examples, the relative position between the imaging means and the scanning means is fixed. In other cases, the relative position is not fixed. The relative position between the imaging means and the scanning means may be dynamically determined during the depth data acquisition process if the relative position is not fixed. In this case, the 3D modeling system may include one or more attitude sensors that output external parameters indicative of position and rotation information of the imaging means and/or the scanning means. In some variations, the 3D modeling system may include a single attitude sensor for both the imaging means and the scanning means. In other variations, the 3D modeling system may include an attitude sensor for the imaging means and a separate attitude sensor for the scanning means.

ブロック330において、3Dモデリングシステムは、色データ、第1の深度データ、第2の深度データに基づいて、シーンの3Dモデルを生成する。一部の変形例では、色データは、色撮像手段(例えば、カラーカメラ)を使用して撮像されたシーンの画像に基づいて取得される。一部の例では、3Dモデリングシステムには、色データを取得するための色撮像手段が含まれる。他の例では、色撮像手段により撮像された色データのセットは、3Dモデリングシステムに送信される。色撮像手段により取得されたシーンの画像は、赤緑青(RGB)画像、グレースケール画像、および/または黒/白画像であってもよく、および/またはそれらを含んでもよい。色データは、色画像の画素に基づいて形成される(例えば、色データは、RGB値、グレースケール値、および/または輝度値を含んでもよい)。3Dモデリングシステムは、シーンの3Dモデルを生成するために、受け取った色データおよび深度データを処理するように構成されたプロセッサを含み得る。 At block 330, the 3D modeling system generates a 3D model of the scene based on the color data, the first depth data, and the second depth data. In some variations, the color data is obtained based on an image of the scene captured using a color imaging means (e.g., a color camera). In some examples, the 3D modeling system includes a color imaging means for obtaining the color data. In other examples, a set of color data captured by the color imaging means is transmitted to the 3D modeling system. The image of the scene captured by the color imaging means may be and/or may include a red-green-blue (RGB) image, a grayscale image, and/or a black/white image. The color data is formed based on pixels of the color image (e.g., the color data may include RGB values, grayscale values, and/or luminance values). The 3D modeling system may include a processor configured to process the received color data and depth data to generate a 3D model of the scene.

一部の例では、3Dモデリングシステムは、撮像手段および走査手段に対応する姿勢情報を利用して、撮像手段からの第1のセットの深度データと、走査手段からの第2のセットの深度データとを組み合わせることができる。3Dモデリングシステムのプロセッサは、撮像手段および走査手段の位置および回転情報を含む外部パラメータを姿勢センサから取得することができる。プロセッサは、外部パラメータに基づいて、同じ3D座標平面における撮像手段および/または走査手段の位置、回転、および/または撮影角度を決定および/または計算することができる。例えば、撮像手段は、シーンの複数の深度画像を取得する。各深度画像は、深度画像を撮像した定時の撮像手段の姿勢を示す外部パラメータに関連付けられる。計算された撮像手段の姿勢情報に基づいて、撮像手段により撮像された深度画像間の位置関係が決定される。このように、撮像手段により撮像された深度画像は、決定された位置関係に基づいて結合され得る。加えて、及び/又は代替的に、走査手段により取得された深度データ点は、走査手段の姿勢情報から決定された位置関係に基づいて結合され得る。加えて、及び/又は代替的に、撮像手段により取得された深度画像と走査手段により取得された深度データ点は、撮像手段および走査手段の姿勢情報から決定された位置関係に基づいて結合され得る。このようにして、第1の深度データと第2の深度データを組み合わせて、シーンの完全な深度画像を生成することができる。加えて、及び/又は代替的に、色撮像手段により撮像された各色画像は、色撮像手段の姿勢情報を示す外部パラメータに関連付けられてもよい。同様に、色画像間の位置関係に基づいて色画像を結合され得る。加えて、及び/又は代替的に、色画像によって形成された色データは、データ取得手段の姿勢情報から決定された位置関係に基づいて、シーン内の深度データ点と位置合わせされ得る。したがって、深度および色情報の両方を含む3Dモデルを生成することができる。 In some examples, the 3D modeling system can combine a first set of depth data from the imaging means and a second set of depth data from the scanning means using pose information corresponding to the imaging means and the scanning means. The processor of the 3D modeling system can obtain external parameters including position and rotation information of the imaging means and the scanning means from the pose sensor. The processor can determine and/or calculate the position, rotation, and/or shooting angle of the imaging means and/or the scanning means in the same 3D coordinate plane based on the external parameters. For example, the imaging means obtains multiple depth images of a scene. Each depth image is associated with an external parameter indicating the pose of the imaging means at the time when the depth image was obtained. Based on the calculated pose information of the imaging means, a positional relationship between the depth images obtained by the imaging means is determined. In this way, the depth images obtained by the imaging means can be combined based on the determined positional relationship. Additionally and/or alternatively, the depth data points obtained by the scanning means can be combined based on the positional relationship determined from the pose information of the scanning means. Additionally and/or alternatively, the depth images acquired by the imaging means and the depth data points acquired by the scanning means may be combined based on a positional relationship determined from the orientation information of the imaging means and the scanning means. In this way, the first depth data and the second depth data can be combined to generate a complete depth image of the scene. Additionally and/or alternatively, each color image captured by the color imaging means may be associated with an external parameter indicating the orientation information of the color imaging means. Similarly, the color images may be combined based on a positional relationship between the color images. Additionally and/or alternatively, the color data formed by the color images may be aligned with the depth data points in the scene based on a positional relationship determined from the orientation information of the data acquisition means. Thus, a 3D model including both depth and color information may be generated.

一部の変形例では、3Dモデリングシステムは、キーポイント検出の結果に基づいて(例えば、識別された1つ以上の目標オブジェクトに基づいて)、色データ、第1の深度データ、第2の深度データを組み合わせることができる。例えば、3Dモデリングシステムは、第1の深度データにおける深度画像のそれぞれに対してキーポイント検出を実行して、複数の目標オブジェクトを識別することができる。目標オブジェクトは、深度画像において識別された目標オブジェクトを位置合わせすることによって深度画像を結合できるように、撮像手段からの少なくとも2つの深度画像によって捕捉される。走査手段からの第2の深度データは、複数のフレームを含む。3Dモデリングシステムは、走査手段により取得された各フレームに対してキーポイント検出を実行して、対象オブジェクトの数を特定することができる。同様に、走査手段により取得された深度データ点は、識別された目標オブジェクトをフレーム内で位置合わせることによって結合することができる。加えて、及び/又は代替的に、第1の深度データおよび第2の深度データは、第1の深度データおよび第2の深度データの両方に存在する識別された目標オブジェクトを位置合わせすることによって、組み合わせることができる。加えて、及び/又は代替的に、3Dモデリングシステムは、色データにおける色画像に対してキーポイント検出を実行して、多数の目標オブジェクトを識別することができる。このよう、色データは、深度データおよび色データの両方に存在する識別された目標オブジェクトに基づいて、深度データと位置合わせされ得る。したがって、3Dモデリングシステムは、シーンの3Dモデルを生成するように、シーン内の目標オブジェクトの数を揃えることによって、色データ、第1の深度データ、第2の深度データを組み合わせることができる。 In some variations, the 3D modeling system can combine the color data, the first depth data, and the second depth data based on the results of the keypoint detection (e.g., based on one or more identified target objects). For example, the 3D modeling system can perform keypoint detection on each of the depth images in the first depth data to identify multiple target objects. The target objects are captured by at least two depth images from the imaging means such that the depth images can be combined by aligning the identified target objects in the depth images. The second depth data from the scanning means includes multiple frames. The 3D modeling system can perform keypoint detection on each frame acquired by the scanning means to identify the number of target objects. Similarly, the depth data points acquired by the scanning means can be combined by aligning the identified target objects in the frames. Additionally and/or alternatively, the first depth data and the second depth data can be combined by aligning the identified target objects present in both the first depth data and the second depth data. Additionally and/or alternatively, the 3D modeling system may perform keypoint detection on the color image in the color data to identify multiple target objects. In this manner, the color data may be aligned with the depth data based on the identified target objects present in both the depth data and the color data. Thus, the 3D modeling system may combine the color data, the first depth data, and the second depth data by aligning the number of target objects in the scene to generate a 3D model of the scene.

3Dモデリングシステムは、3Dモデルを生成した後、3Dモデルをディスプレイに出力する。3Dモデルは、VRアプリケーションに利用できる。 After generating the 3D model, the 3D modeling system outputs the 3D model to a display. The 3D model can be used for VR applications.

図4は、1つ以上の実施形態によるシーン400の3Dモデルを生成する例示的なアプリケーションである。3Dモデリングシステム402は、撮像手段404および走査手段406を備える。3Dモデリングシステム402の撮像手段404は、シーン400の複数の深度画像を撮像して、第1の深度データを形成する。深度画像は、少なくとも1つのオブジェクトを含む部分シーン408を含み得る。例えば、部分シーン408は電気スタンドを含む。一部の例では、撮像手段404により撮像された少なくとも2つの深度画像は、部分シーン408を含む。走査手段406は、シーン400を走査して複数の深度データ点を収集し、第2の深度データを形成する。その後、3Dモデリングシステム402は、色データ、第1の深度データ、第2の深度データに基づいて、シーンの3Dモデルを生成する。 4 is an exemplary application for generating a 3D model of a scene 400 according to one or more embodiments. The 3D modeling system 402 includes an imaging means 404 and a scanning means 406. The imaging means 404 of the 3D modeling system 402 captures a plurality of depth images of the scene 400 to form a first depth data. The depth images may include a partial scene 408 including at least one object. For example, the partial scene 408 includes a desk lamp. In some examples, at least two depth images captured by the imaging means 404 include the partial scene 408. The scanning means 406 scans the scene 400 to collect a plurality of depth data points to form a second depth data. The 3D modeling system 402 then generates a 3D model of the scene based on the color data, the first depth data, and the second depth data.

本明細書で説明するシーンの3Dモデルを生成するための方法、システム、および装置は、シーン内のオブジェクトの広範囲の距離に対して一貫した高精度でシーンの高解像度3Dモデルを生成することができる。シーンの高品質3Dモデルは、深度カメラなどの撮像手段から取得された深度データと、LIDARシステムなどの走査手段から取得された深度データを組み合わせることによって生成される。 The methods, systems, and apparatus for generating a 3D model of a scene described herein can generate a high-resolution 3D model of a scene with consistent accuracy for a wide range of distances of objects in the scene. A high-quality 3D model of a scene is generated by combining depth data obtained from an imaging means, such as a depth camera, and depth data obtained from a scanning means, such as a LIDAR system.

深度カメラは、高解像度と高フレームレートの利点を有する。したがって、深度カメラは、シーン内の小さなオブジェクトの詳細を撮像できる。しかし、深度カメラは、その出力または解像度によって制限される可能性があるため、通常、比較的近い撮影距離で使用される。ほとんどの深度カメラの撮影距離は、0.2~8mで、最大撮影距離は通常10m以内である。また、深度カメラが取得するデプスデータの精度は、撮影距離に大きく依存する。例えば、深度カメラが構造化光カメラである例では、構造化光カメラの最高精度は、0.5~3mの撮影範囲内でmmのレベルに達することができる。しかし、3~5mの撮影範囲内では、構造化光カメラの精度は数十mmに低下する。撮影距離が5mを超えると、構造化光カメラの精度が0.5mを下回ることがある。一方、LIDARシステムなどの走査手段は、通常、深度カメラよりも著しく長い検出距離を持つ。例えば、市販のLIDARシステムの測距距離は、10m、30m、100m、300m、またはそれ以上である。さらに、検出範囲内でのLIDARシステムの精度は、一貫性が高く、非常に正確であることが知られている。しかし、LIDARシステムは、通常、深度カメラのように集中的なデータ点を提供できず、シーン内の小さなオブジェクトの詳細を提供することはできない。 Depth cameras have the advantage of high resolution and high frame rate. Thus, depth cameras can capture details of small objects in a scene. However, depth cameras are usually used at relatively close shooting distances because they may be limited by their output or resolution. Most depth cameras have a shooting distance of 0.2 to 8 m, and the maximum shooting distance is usually within 10 m. In addition, the accuracy of the depth data acquired by the depth camera depends greatly on the shooting distance. For example, in an example where the depth camera is a structured light camera, the highest accuracy of the structured light camera can reach the level of mm within a shooting range of 0.5 to 3 m. However, within a shooting range of 3 to 5 m, the accuracy of the structured light camera decreases to tens of mm. When the shooting distance exceeds 5 m, the accuracy of the structured light camera may fall below 0.5 m. On the other hand, scanning means such as LIDAR systems usually have a significantly longer detection distance than depth cameras. For example, commercially available LIDAR systems have ranging distances of 10 m, 30 m, 100 m, 300 m, or even more. Furthermore, the accuracy of LIDAR systems within their detection range is known to be consistent and highly accurate. However, LIDAR systems typically cannot provide focused data points like depth cameras, and cannot provide details of small objects in a scene.

本開示は、シーン内で一貫した高精度で細かい詳細を備えた小さなオブジェクトおよび遠くのオブジェクトをモデル化することを保証するように、撮像手段および走査手段からの深度データを組み合わせるための方法、システム、および装置を提供する。 The present disclosure provides methods, systems, and apparatus for combining depth data from imaging and scanning means to ensure consistent modeling of small and distant objects with high accuracy and fine detail within a scene.

図3のブロック310に戻って参照すると、3Dモデリングシステムは、所定の解像度閾値に従って第1の深度データを取得するように構成される。3Dモデリングシステムの撮像手段は、最初に、異なる位置に移動し回転しながら、シーンの複数の深度画像を撮像する。3Dモデリングシステムのプロセッサは、撮像手段により撮像された深度画像を処理し、深度画像の画素を組み合わせることによって、シーンの全体的な深度画像を取得する。その後、3Dモデリングシステムのプロセッサは、所定の解像度閾値未満の解像度を有するシーン内の1つ以上の画像領域を識別し、1つ以上の画像領域について補充の深度画像を撮像するように撮像手段に指示する。各画像領域は、深度画像で撮像された部分シーンに含まれ得る。例えば、一部の変形例では、撮像手段は、目標数の深度画像を撮像するように指示されてもよい。部分シーンで撮像された深度画像の数は、部分シーンの複雑さに基づいて決定され得る。部分シーンが複雑になればなるほど、その部分シーンで撮像する深度画像の数が多くなる。撮像手段により撮像された初期の深度画像に、1つ以上の画像領域に対する補充の深度画像を補足することによって、1つ以上の画像領域の解像度は、所定の解像度閾値を上回るように改善されることができる。したがって、撮像手段により撮像された深度画像の画素を含む結果として得られる第1の深度データは、解像度要件を満たすために画像領域に十分な深度データ点を提供することができる。 Referring back to block 310 of FIG. 3, the 3D modeling system is configured to acquire first depth data according to a predetermined resolution threshold. The imaging means of the 3D modeling system first captures multiple depth images of the scene while moving and rotating to different positions. The processor of the 3D modeling system processes the depth images captured by the imaging means and acquires an overall depth image of the scene by combining pixels of the depth images. The processor of the 3D modeling system then identifies one or more image regions in the scene having a resolution below the predetermined resolution threshold and instructs the imaging means to capture supplemental depth images for the one or more image regions. Each image region may be included in a partial scene captured in the depth image. For example, in some variations, the imaging means may be instructed to capture a target number of depth images. The number of depth images captured of the partial scene may be determined based on the complexity of the partial scene. The more complex the partial scene, the more depth images are captured of the partial scene. By supplementing the initial depth image captured by the imaging means with a supplementary depth image for one or more image regions, the resolution of the one or more image regions can be improved above a predetermined resolution threshold. Thus, the resulting first depth data including pixels of the depth image captured by the imaging means can provide sufficient depth data points for the image regions to meet the resolution requirements.

一部の例では、3Dモデリングシステムは、目標精度に従って、所定の深度閾値に基づいて第1の深度データを取得することができる。例えば、撮像手段は、0.3mから2.3mの距離の間のデータ点/オブジェクトを正確に撮像するために使用され、0.3mから2.3mの距離の間の深度値の最大誤差は、0.5cmであってもよい。したがって、深度閾値は2.3mであってもよく、2.3mより大きい値を示す深度データ値は、3Dモデリングシステムによって、目標精度を満たしていない可能性があるというフラグが付けられる。加えて、および/または代替として、ユーザは、画像がどれだけ正確であってほしいかに基づいて深度閾値を設定することができる。換言すれば、第1の深度データは、所定の深度閾値に従って調整され得る。例えば、深度閾値より大きい深度値を有する各データ点は、第1の深度データから削除され得る。深度閾値は、3Dモデリングシステムにおける撮像手段の精度に基づいて決定され得る。撮像手段の精度は、撮像手段を校正することによって、または製造業者により提供される関連パラメータから取得する。校正は、目標オブジェクトから離れた複数の撮影距離に撮像手段を配置して、各撮影距離で複数の深度画像を取得することによって実行されてもよい。例えば、撮像手段は、0.3mから4mの撮影範囲を有し、撮影距離は、所定の増分(例えば、0.1m)で0.3mから4mの間で設定されてもよい。深度画像の画素に含まれる深度値は、異なる撮影距離での撮像手段の精度を校正できるように、撮像手段と目標オブジェクトとの間の実際の距離と比較され得る。例えば、撮影距離が0.3mの場合、深度値の誤差は0.3cmであり、撮影距離が0.8mの場合、深度値の誤差は0.2cmであり、撮影距離が1.3mの場合、深度値の誤差は0.1cmであり、撮影距離が1.8mの場合、深度値の誤差は0.3cmであり、撮影距離が2.3mの場合、深度値の誤差は0.5cmであり、撮影距離が2.8mの場合、深度値の誤差は1cmであり、撮影距離が3.3mの場合、深度値の誤差は5cmであり、撮影距離が3.8mの場合、深度値の誤差は10cmであってもよい。この例では、目標精度を0.5cmとした場合、深度閾値は2.3mと定義し得る。 In some examples, the 3D modeling system may obtain the first depth data based on a predefined depth threshold according to a target accuracy. For example, the imaging means may be used to accurately image data points/objects between a distance of 0.3 m and 2.3 m, and the maximum error of the depth value between a distance of 0.3 m and 2.3 m may be 0.5 cm. Thus, the depth threshold may be 2.3 m, and depth data values indicating values greater than 2.3 m are flagged by the 3D modeling system as possibly not meeting the target accuracy. Additionally and/or alternatively, the user may set the depth threshold based on how accurate he or she wants the image to be. In other words, the first depth data may be adjusted according to the predefined depth threshold. For example, each data point having a depth value greater than the depth threshold may be removed from the first depth data. The depth threshold may be determined based on the accuracy of the imaging means in the 3D modeling system. The accuracy of the imaging means may be obtained by calibrating the imaging means or from relevant parameters provided by the manufacturer. Calibration may be performed by placing the imaging means at multiple shooting distances away from the target object and acquiring multiple depth images at each shooting distance. For example, the imaging means may have a shooting range of 0.3 m to 4 m, and the shooting distances may be set between 0.3 m and 4 m in predetermined increments (e.g., 0.1 m). The depth values contained in the pixels of the depth images may be compared with the actual distance between the imaging means and the target object so that the accuracy of the imaging means at different shooting distances can be calibrated. For example, when the shooting distance is 0.3 m, the error in the depth value is 0.3 cm; when the shooting distance is 0.8 m, the error in the depth value is 0.2 cm; when the shooting distance is 1.3 m, the error in the depth value is 0.1 cm; when the shooting distance is 1.8 m, the error in the depth value is 0.3 cm; when the shooting distance is 2.3 m, the error in the depth value is 0.5 cm; when the shooting distance is 2.8 m, the error in the depth value is 1 cm; when the shooting distance is 3.3 m, the error in the depth value is 5 cm; and when the shooting distance is 3.8 m, the error in the depth value may be 10 cm. In this example, if the target accuracy is 0.5 cm, the depth threshold may be defined as 2.3 m.

深度閾値は、3Dモデルを生成するための精度および/または解像度の要件に応じて、データ処理中に変更してもよい。例えば、より高い精度要件のために、より小さな深度閾値が決定されてもよく、その結果、第1の深度データ内のデータ点が少なくなり、深度画像の解像度が犠牲になることがある。他の例では、深度閾値が大きいほど、第1の深度データに含まれるデータ点が多くなり、深度画像の解像度が高くなる。しかし、この場合は、精度要件を緩和する必要がある。加えて、及び/又は代替的に、深度閾値は、第2の深度データの調整に適用されてもよい。例えば、深度データ点が深度閾値よりも小さい深度値を有する場合、第2の深度データ内の深度データ点を削除してもよい。 The depth threshold may be changed during data processing depending on the accuracy and/or resolution requirements for generating the 3D model. For example, for higher accuracy requirements, a smaller depth threshold may be determined, resulting in fewer data points in the first depth data and sacrificing the resolution of the depth image. In another example, the larger the depth threshold, the more data points are included in the first depth data and the higher the resolution of the depth image. However, in this case the accuracy requirement needs to be relaxed. Additionally and/or alternatively, the depth threshold may be applied to adjust the second depth data. For example, a depth data point in the second depth data may be removed if the depth data point has a depth value smaller than the depth threshold.

一部の例では、3Dモデリングシステムのプロセッサは、処理速度の向上および計算複雑性の低減で改善されるように、図3のブロック330で説明されたデータ処理を行って、第1の深度データを処理して、第1の深度データにおける深度データ点の数を減らしてもよい。データ処理は、ダウンサンプリングおよびフィルタリングのうちの少なくとも1つを含む。一部の例では、ダウンサンプリングの工程は、深度画像の重なり合う画素をマージすることによって実行され得る。例えば、シーン内の同じ撮影スポットに関連する重なり合う画素は、重なり合う画素の深度値を平均化することによって、1つの深度データ点にマージされる。このような複数のデータ点を1つのデータ点にマージする工程は、繰り返しサンプリングの結果を平均化する工程に相当し、ガウス分布に従ってデータ点のジッタリングによって引き起こされる誤差を低減することができる。さらに、フィルタリングの工程は、フィルタリングアルゴリズムを適用することによって飛跡などの予想外の深度データ点を削除するために実行され得る。データ点の数を減らすための同様のデータ処理は、図3のブロック320で説明したように、3Dモデリングシステムにおける走査手段により取得された第2の深度データに適用することができる。 In some examples, the processor of the 3D modeling system may process the first depth data to reduce the number of depth data points in the first depth data by performing the data processing described in block 330 of FIG. 3 to improve processing speed and reduce computational complexity. The data processing includes at least one of downsampling and filtering. In some examples, the downsampling step may be performed by merging overlapping pixels of the depth image. For example, overlapping pixels related to the same shooting spot in the scene are merged into one depth data point by averaging the depth values of the overlapping pixels. Such a merging of multiple data points into one data point corresponds to averaging the results of repeated sampling and can reduce errors caused by jittering of the data points according to a Gaussian distribution. Furthermore, a filtering step may be performed to remove unexpected depth data points such as tracks by applying a filtering algorithm. Similar data processing to reduce the number of data points may be applied to the second depth data acquired by the scanning means in the 3D modeling system as described in block 320 of FIG. 3.

一部の例では、3Dモデリングシステムは、ブロック330の後、生成された3Dモデルが、所定の解像度閾値に達することができない1つ以上の画像領域を含むと決定することができる。例えば、1つ以上の画像領域は、シーン内の十分なデータ点で生成されていないオブジェクトを含む場合がある。3Dモデリングシステムのプロセッサは、1つ以上の画像領域について補充の深度画像を撮像するように、撮像手段に指示する。一部の例では、撮像手段は、1つ以上の画像領域についてより豊富な深度データを取得できるように、移動および/または回転させて、1つ以上の画像領域のそれぞれについて複数の撮影角度から深度画像を撮像する。撮像手段により撮像された補充深度画像の画素は、第1の充填データを形成し得る。3Dモデリングシステムのプロセッサは、新たなシーンの3Dモデルを生成するために、生成された3Dモデルに第1の充填データを補足して、局所的な詳細の洗練の程度を改善することができる。 In some examples, the 3D modeling system may determine after block 330 that the generated 3D model includes one or more image regions that fail to reach a predetermined resolution threshold. For example, one or more image regions may include objects that have not been generated with enough data points in the scene. The processor of the 3D modeling system instructs the imaging means to capture supplemental depth images for the one or more image regions. In some examples, the imaging means moves and/or rotates to capture depth images from multiple shooting angles for each of the one or more image regions so that richer depth data can be obtained for the one or more image regions. The pixels of the supplemental depth images captured by the imaging means may form first fill data. The processor of the 3D modeling system may supplement the generated 3D model with the first fill data to improve the degree of refinement of local details in order to generate a 3D model of the new scene.

一部の例では、3Dモデリングシステムは、取得された深度データに基づいて3Dモデルをリアルタイムで表示することができる。3Dモデルの表示は、ブロック310および320などの前述のデータ取得工程、ブロック330などのデータ処理工程、および/またはより多くの深度画像を撮像することによって新たな3Dモデルを生成する工程中に利用可能である。ユーザは、3Dモデルのリアルタイム表示に基づいて、提示された3Dモデルが精度、解像度、および/または完全性の要件を満たすかどうかを判断することができる。例えば、ユーザは、補充用の深度データが必要かどうか、および補充用の深度データを取得するために、3Dモデリングシステムにおける撮像手段と走査手段のどちらを使用すべきかを決定することができる。 In some examples, the 3D modeling system can display a 3D model in real time based on the acquired depth data. The display of the 3D model is available during the aforementioned data acquisition steps, such as blocks 310 and 320, data processing steps, such as block 330, and/or the step of generating a new 3D model by capturing more depth images. Based on the real-time display of the 3D model, the user can determine whether the presented 3D model meets the accuracy, resolution, and/or completeness requirements. For example, the user can determine whether supplemental depth data is needed and whether an imaging means or a scanning means in the 3D modeling system should be used to capture the supplemental depth data.

図5は、1つ以上の実施形態によるシーンの3Dモデルを生成するための例示的な工程500である。工程500は、図2に示されるメモリ230に格納されたコンピュータ実行可能命令に従って、前述の3Dモデリングシステムおよび/またはデバイス200によって実行され得る。しかしながら、工程500は、任意の適切な環境で実行されてもよく、以下のブロックのいずれかが任意の適切な順序で実行されてもよいことが認識されるであろう。工程300と比較して、工程500は、複数のデータペアを決定し、それらのデータペアを使用して、撮像手段および走査手段からの第1および第2の深度データを組み合わせる追加のブロックを含み得る。 5 is an exemplary process 500 for generating a 3D model of a scene according to one or more embodiments. Process 500 may be performed by the aforementioned 3D modeling system and/or device 200 according to computer-executable instructions stored in memory 230 shown in FIG. 2. However, it will be appreciated that process 500 may be performed in any suitable environment and any of the following blocks may be performed in any suitable order. Compared to process 300, process 500 may include an additional block of determining a plurality of data pairs and using the data pairs to combine the first and second depth data from the imaging means and the scanning means.

ブロック510において、3Dモデリングシステムは、第1の深度データを取得する。ブロック510は、上述のブロック310と同様であり得る。加えて、及び/又は代替的に、3Dモデリングシステムの撮像手段は、深度画像を第1のフレームレート(例えば、撮像手段によって捕捉される毎秒の深度画像の数)で捕捉することができる。各フレームは、複数の画素を含む。第1の深度データは、撮像手段により取得された複数のフレームを含む。第1セットの深度データにおける深さ映像の各フレームは、第1データとして定義される。 In block 510, the 3D modeling system acquires first depth data. Block 510 may be similar to block 310 described above. Additionally and/or alternatively, the imaging means of the 3D modeling system may capture depth images at a first frame rate (e.g., the number of depth images per second captured by the imaging means). Each frame includes a number of pixels. The first depth data includes a number of frames acquired by the imaging means. Each frame of the depth image in the first set of depth data is defined as first data.

ブロック520において、3Dモデリングシステムは、第2の深度データを取得する。ブロック520は、上述のブロック320と同様であり得る。さらに、3Dモデリングシステムの走査手段は、第2のフレームレートで深度データ点を収集することができる。各フレームは、走査手段により収集された複数の深度データ点を含み、第2のフレームレートは、秒あたり走査手段により収集されたデータ点の数を示す。第2の深度データは、走査手段により収集された深度データ点の複数のフレームを含む。第2の深度データにおける各フレームは、第2のデータとして定義され得る。 In block 520, the 3D modeling system acquires second depth data. Block 520 may be similar to block 320 described above. Additionally, the scanning means of the 3D modeling system may collect depth data points at a second frame rate. Each frame includes a plurality of depth data points collected by the scanning means, the second frame rate indicating the number of data points collected by the scanning means per second. The second depth data includes a plurality of frames of depth data points collected by the scanning means. Each frame in the second depth data may be defined as second data.

ブロック530において、3Dモデリングシステムは、複数のデータペアを決定し、複数のデータペアの各々は、第1のデータおよび対応する第2のデータを含む。例えば、深度画像のフレームである第1のデータは、部分シーンに含まれる画像領域について撮像されるものである。画像領域は、シーン内のオブジェクトであってもよい。対応する第2のデータは、同じ画像領域を含む部分シーンを走査することによって取得られるフレームとして決定されてもよい。なお、第1のデータによって取得された部分シーンと第2のデータによって取得された部分シーンは同様であっても異なっていてもよい。 At block 530, the 3D modeling system determines a number of data pairs, each of the number of data pairs including a first data and a corresponding second data. For example, the first data, which may be a frame of a depth image, is captured for an image region included in the partial scene. The image region may be an object within the scene. The corresponding second data may be determined as a frame acquired by scanning the partial scene including the same image region. Note that the partial scene captured by the first data and the partial scene captured by the second data may be similar or different.

一部の例では、3Dモデリングシステムにおける撮像手段および走査手段は、プラットフォーム上に統合されてもよく、走査手段に対する撮像手段の相対位置が固定されてもよい。その例では、プラットフォームは、プラットフォームの位置および回転情報などの姿勢情報を示す外部パラメータを提供する姿勢センサとさらに統合されてもよい。第1のデータである撮像手段により取得された深度画像の各フレームが、深度画像のフレームを撮像した定時に姿勢センサにより提供された外部パラメータが付けされるように、プラットフォーム、撮像手段、走査手段、姿勢センサの間で通信接続が確立されてもよい。深度画像のフレームを撮像した定時は、深度画像のフレームに関連付けられたタイムスタンプとして、撮像手段によって付けされてもよい。さらに、姿勢センサから出力された外部パラメータは、姿勢センサにより生成されたタイムスタンプが付けされてもよく、タイムスタンプは、姿勢センサにより外部パラメータが生成された定時を示す。タイムスタンプ情報に基づいて、3Dモデリングシステムは、外部パラメータのタイムスタンプと撮像された画像のタイムスタンプとの間の時間間隔が所定の閾値より小さいことによって、深度画像のフレームに付けされる外部パラメータを決定してもよい。同様に、走査手段により取得された深度データ点の各フレームは、深度データ点のフレームを走査した定時に姿勢センサにより提供される外部パラメータが付けされ得る。走査手段により取得された深度データ点のフレームは、走査手段により生成された、深度データ点のフレームを生成する定時を示すタイムスタンプが付けされる。3Dモデリングシステムは、タイムスタンプ情報に基づいて、時間間隔が所定の閾値よりも小さい場合に、走査手段により走査された深度データ点のフレームに付けされる外部パラメータを決定してもよい。 In some examples, the imaging means and the scanning means in the 3D modeling system may be integrated on a platform, and the relative position of the imaging means with respect to the scanning means may be fixed. In that example, the platform may be further integrated with an attitude sensor that provides extrinsic parameters indicative of attitude information, such as the position and rotation information of the platform. A communication connection may be established between the platform, the imaging means, the scanning means, and the attitude sensor, such that each frame of the depth image acquired by the imaging means, which is the first data, is tagged with the extrinsic parameters provided by the attitude sensor at the fixed time when the frame of the depth image was captured. The fixed time when the frame of the depth image was captured may be tagged by the imaging means as a timestamp associated with the frame of the depth image. Furthermore, the extrinsic parameters output from the attitude sensor may be tagged with a timestamp generated by the attitude sensor, the timestamp indicating the fixed time when the extrinsic parameters were generated by the attitude sensor. Based on the timestamp information, the 3D modeling system may determine the extrinsic parameters to be tagged to the frame of the depth image by a time interval between the timestamp of the extrinsic parameters and the timestamp of the captured image being less than a predetermined threshold. Similarly, each frame of depth data points acquired by the scanning means may be annotated with extrinsic parameters provided by the orientation sensor at the time the frame of depth data points was scanned. The frames of depth data points acquired by the scanning means are annotated with a timestamp indicating the time generated by the scanning means to generate the frame of depth data points. The 3D modeling system may determine, based on the timestamp information, the extrinsic parameters to be annotated with the frame of depth data points scanned by the scanning means when the time interval is less than a predefined threshold.

一部の例では、プラットフォームは、データ取得のために異なる位置に移動・回転する場合がある。プラットフォームがデータ取得のための位置の1つに移動・回転されると、深度画像の1つ以上のフレームを撮像するように撮像手段に指示され、深度データ点の1つ以上のフレームを走査するように走査手段に指示され、プラットフォームの現在の位置と回転を示す外部パラメータを出力するように姿勢センサに指示されてもよい。この位置で撮像手段により撮像された深度画像の1つ以上のフレームは、第1のデータを形成し得る。第1のデータには、この位置で姿勢センサから出力された外部パラメータが付けされる。加えて、及び/又は代替的に、この位置で走査手段により走査された深度データ点の1つ以上のフレームは、第2のデータを形成し得る。第2のデータには、この位置の姿勢センサから出力された外部パラメータが付けされる。3Dモデリングシステムは、この位置で取得された第1のデータが同じ位置で取得された第2のデータに対応していると判断し得る。プラットフォームを移動・回転させて異なる撮影位置で上記のデータ取得処理を繰り返すことによって、第1データ及び対応する第2データを含む複数のデータペアを取得することができる。一部の例では、プラットフォームをシーン内のある位置に固定し、360度回転させて、シーン全体のデータ取得を実行してもよい。一部の例では、プラットフォームは、ユーザによって手持ちまたは配置されてもよく、データ取得は、ユーザの動きに従って実行されてもよい。一部の例では、プラットフォームは、ロボットや自動運転車などの移動体に配置されてもよい。プラットフォームの運動軌跡は、本開示において限定されるべきではないことが理解されよう。一部の例では、プラットフォームは、色画像装置とさらに統合されてもよい。同様に、色撮像手段により撮像された画像は、姿勢センサから出力された外部パラメータが付けされてもよい。 In some examples, the platform may be moved and rotated to different positions for data acquisition. Once the platform is moved and rotated to one of the positions for data acquisition, the imaging means may be instructed to capture one or more frames of depth images, the scanning means may be instructed to scan one or more frames of depth data points, and the orientation sensor may be instructed to output extrinsic parameters indicative of the current position and rotation of the platform. The one or more frames of depth images captured by the imaging means at this position may form first data. The first data is annotated with the extrinsic parameters output from the orientation sensor at this position. Additionally and/or alternatively, the one or more frames of depth data points scanned by the scanning means at this position may form second data. The second data is annotated with the extrinsic parameters output from the orientation sensor at this position. The 3D modeling system may determine that the first data acquired at this position corresponds to the second data acquired at the same position. By moving and rotating the platform and repeating the data acquisition process described above at different capture positions, multiple data pairs including the first data and the corresponding second data may be acquired. In some examples, the platform may be fixed at a position in the scene and rotated 360 degrees to perform data acquisition of the entire scene. In some examples, the platform may be hand-held or placed by a user, and data acquisition may be performed according to the user's movement. In some examples, the platform may be placed on a moving object such as a robot or an autonomous vehicle. It will be understood that the motion trajectory of the platform should not be limited in this disclosure. In some examples, the platform may be further integrated with a color imager. Similarly, the image captured by the color imager may be annotated with extrinsic parameters output from the orientation sensor.

姿勢センサは、慣性測定ユニット(IMU)、LIDARシステムにおける同時定位およびマッピング(SLAM)ユニット、およびカラーカメラにおける視覚慣性オドメトリ(VIO)ユニットのうちの少なくとも1つであってもよい。3Dモデリングシステムにおけるプラットフォームは、1つ以上の姿勢センサを含み得る。撮像手段、走査手段、および任意に色撮像手段のそれぞれは、別個の姿勢センサを含み得る。第1のデータ、第2のデータ、色撮像手段により撮像された画像に付けされた外部パラメータは、複数の姿勢センサから出力された外部パラメータの組み合わせであってもよい。一部の例では、外部パラメータは、IMUとSLAMユニットの両方から出力されるものである。一部の例では、外部パラメータは、IMUユニットとVIOユニットの両方から出力されるものである。一部の例では、外部パラメータは、IMU、SLAMユニット、VIOユニットから出力されるものである。あるいは、撮像手段および走査手段の外部パラメータのそれぞれは、撮像手段および走査手段の校正を通じて取得することができる。第1のデータ、第2のデータ、色撮像手段により撮像された画像に付けされた外部パラメータを使用して、同じ3D座標平面上でのデータ取得装置の姿勢を計算・決定することができる。 The attitude sensor may be at least one of an inertial measurement unit (IMU), a simultaneous localization and mapping (SLAM) unit in a LIDAR system, and a visual inertial odometry (VIO) unit in a color camera. The platform in the 3D modeling system may include one or more attitude sensors. Each of the imaging means, the scanning means, and optionally the color imaging means may include a separate attitude sensor. The extrinsic parameters attached to the first data, the second data, and the image captured by the color imaging means may be a combination of extrinsic parameters output from multiple attitude sensors. In some examples, the extrinsic parameters are output from both the IMU and the SLAM unit. In some examples, the extrinsic parameters are output from both the IMU unit and the VIO unit. In some examples, the extrinsic parameters are output from the IMU, the SLAM unit, and the VIO unit. Alternatively, each of the extrinsic parameters of the imaging means and the scanning means can be obtained through calibration of the imaging means and the scanning means. The pose of the data acquisition device on the same 3D coordinate plane can be calculated and determined using the external parameters attached to the first data, the second data, and the image captured by the color imaging means.

一部の例では、3Dモデリングシステムは、予め設定された時間間隔閾値に従ってデータペアを決定してもよい。例えば、データペアに含まれる第1のデータおよび対応する第2のデータは、予め設定された時間間隔閾値を下回る時間間隔内で取得されてもよい。第1のデータと第2のデータとの間の時間間隔が閾値未満であることに基づいて、第1のデータおよび対応する第2のデータは、同じ部分シーンの深度データ点を含み得る。このように、3Dモデリングシステムは、現在の時間間隔閾値に依存して、複数のデータペアを決定してもよく、データペアのそれぞれは、第1のデータおよび対応する第2のデータを含む。 In some examples, the 3D modeling system may determine the data pairs according to a preset time interval threshold. For example, the first data and the corresponding second data included in the data pair may be acquired within a time interval below the preset time interval threshold. Based on the time interval between the first data and the second data being less than the threshold, the first data and the corresponding second data may include depth data points of the same partial scene. In this manner, the 3D modeling system may determine multiple data pairs, each of which includes the first data and the corresponding second data, depending on the current time interval threshold.

一部の例では、3Dモデリングシステムは、第1のデータおよび第2のデータに対して実行されたキーポイント検出に基づいて、データペアを決定してもよい。3Dモデリングシステムは、第1のデータおよび第2のデータに対してキーポイント検出を実行することによって、第1のデータおよび対応する第2のデータ内の同じ画像領域を識別してもよい。画像領域の識別は、多数の特徴点に基づいて行われてもよい。特徴点は、ユーザによって事前定義され得る。例えば、一部の変形例では、特徴点は、グレースケールの劇的な変化を有する画像内で識別された画素、つまりエッジでの交点、および/または目標オブジェクトで識別された画素であってもよい。3Dモデリングシステムは、キーポイント検出結果に依存して、データペアを決定するために、第2のデータにも含まれる画像領域を第1のデータが含むと決定し得る。したがって、3Dモデリングシステムは、複数のデータペアを決定することができる。 In some examples, the 3D modeling system may determine the data pairs based on keypoint detection performed on the first data and the second data. The 3D modeling system may identify the same image regions in the first data and the corresponding second data by performing keypoint detection on the first data and the second data. The identification of the image regions may be based on a number of feature points. The feature points may be predefined by a user. For example, in some variations, the feature points may be pixels identified in the image that have a dramatic change in grayscale, i.e., intersections at edges, and/or pixels identified at the target object. The 3D modeling system may determine that the first data includes image regions that are also included in the second data in order to determine the data pairs, depending on the keypoint detection results. Thus, the 3D modeling system may determine multiple data pairs.

ブロック540において、3Dモデリングシステムは、第1の深度データと第2の深度データを組み合わせて、複数のデータペアに基づいて組合深度データを生成する。具体的には、データペアごとに、第1データ及び対応する第2データを組み合わせる。 At block 540, the 3D modeling system combines the first depth data and the second depth data to generate combined depth data based on the plurality of data pairs. Specifically, for each data pair, the first data and the corresponding second data are combined.

例えば、3Dモデリングシステムは、姿勢センサからの特徴点/目標オブジェクト、姿勢情報、および/または外部パラメータを使用して、第1および第2の深度データを組み合わせることができる。例えば、3Dモデリングシステムは、同じまたは実質的に同じ姿勢情報を有する(例えば、並進・回転ベクトルが実質的に同じである)第1の深度データおよび第2の深度データを決定してもよい。3Dモデリングシステムは、第1および第2の深度データを同様の姿勢情報と組み合わせて、組合深度データを生成してもよい。加えて、及び/又は代替的に、3Dモデリングシステムは、複数の画像/フレームを通して示される1つ以上の特徴点および/または目標オブジェクトを決定してもよい。3Dモデリングシステムは、特徴点および/または目標オブジェクトに関連付けられた第1および第2の深度データを決定し、次に、特徴点および/または目標オブジェクトに関連付けられた第1および第2の深度データを組み合わせて、組合深度データを生成してもよい。加えて、及び/又は代替的に、3Dモデリングシステムは、外部パラメータを使用して、同じ座標平面を有する組合深度データを生成してもよい(例えば、第1および第2の深度データを同じ座標平面に転置し、次に、同じ座標平面内の座標に基づいて、第1および第2の深度データを組み合わせる)。 For example, the 3D modeling system may combine the first and second depth data using feature points/target objects, pose information, and/or external parameters from a pose sensor. For example, the 3D modeling system may determine first and second depth data having the same or substantially the same pose information (e.g., translation and rotation vectors are substantially the same). The 3D modeling system may combine the first and second depth data with similar pose information to generate combined depth data. Additionally and/or alternatively, the 3D modeling system may determine one or more feature points and/or target objects shown through multiple images/frames. The 3D modeling system may determine first and second depth data associated with the feature points and/or target objects, and then combine the first and second depth data associated with the feature points and/or target objects to generate combined depth data. Additionally and/or alternatively, the 3D modeling system may use external parameters to generate combined depth data having the same coordinate plane (e.g., transposing the first and second depth data into the same coordinate plane and then combining the first and second depth data based on coordinates in the same coordinate plane).

ブロック550において、3Dモデリングシステムは、色データおよび組合深度データに基づいて、シーンの3Dモデルを生成する。生成された3Dモデルにおいて、データ点の各々は、深度値と色値を備える。組合深度データは、撮像手段により取得された深度画像のフレーム、または走査手段によって走査された深度データ点のフレームを含む。各フレームには、部分シーンが含まれる。一部の例では、フレームに含まれる部分シーンは、部分シーン間の位置関係に従って結合され得る。部分シーン間の位置関係は、予め設計されてもよい。例えば、撮像手段および走査手段を搭載するプラットフォームの運動軌跡を予め設定されてもよい。部分シーン間の位置関係は、プラットフォームの予め設定された運動軌跡に基づいて決定されてもよい。同様に、色データにおける部分シーンは、色データを形成する色画像を取得するために使用される色撮像手段の所定の運動軌跡に基づいて組み合わせることができる。あるいは、部分シーン間の位置関係は、データ取得工程中に、取得されたデータのフレームが付けされた外部パラメータ、または異なるフレームにおける識別された画像領域のいずれかに基づいて、動的に決定されてもよい。 In block 550, the 3D modeling system generates a 3D model of the scene based on the color data and the combined depth data. In the generated 3D model, each of the data points comprises a depth value and a color value. The combined depth data includes frames of depth images acquired by the imaging means or frames of depth data points scanned by the scanning means. Each frame includes a partial scene. In some examples, the partial scenes included in the frame may be combined according to the positional relationship between the partial scenes. The positional relationship between the partial scenes may be designed in advance. For example, the motion trajectory of the platform carrying the imaging means and the scanning means may be preset. The positional relationship between the partial scenes may be determined based on the preset motion trajectory of the platform. Similarly, the partial scenes in the color data can be combined based on a predetermined motion trajectory of the color imaging means used to acquire the color images forming the color data. Alternatively, the positional relationship between the partial scenes may be dynamically determined during the data acquisition process, based on either external parameters to which the frames of acquired data are attached, or on identified image areas in different frames.

一部の例では、3Dモデルにおいてデータ点の深度値は、前述のデータ処理ステップ中に同じ座標平面に転置される組合深度データに基づいて決定される。同様に、色データは、色画像を撮像している間の色撮像手段の位置および回転を示す外部パラメータに基づいて、同じ座標平面上に転置され得る。したがって、3Dモデルにおいてデータ点の各々は、3Dモデルにおいてデータ点と同じ座標にあると決定された色データ点に含まれるカラー値に従ってレンダリングされる。 In some examples, the depth value of a data point in the 3D model is determined based on the combined depth data that is transposed onto the same coordinate plane during the aforementioned data processing steps. Similarly, the color data may be transposed onto the same coordinate plane based on external parameters that indicate the position and rotation of the color imaging means while capturing the color image. Thus, each of the data points in the 3D model is rendered according to the color value contained in the color data point that is determined to be at the same coordinate as the data point in the 3D model.

一部の例では、3Dモデリングシステムは、組合深度データと色データの両方に存在する識別された1つ以上の画像領域を位置合わせすることによって、生成された3Dモデルにおいてデータ点の深度値と色値を決定する。 In some examples, the 3D modeling system determines depth and color values of data points in the generated 3D model by aligning one or more identified image regions that are present in both the combined depth data and color data.

図6は、1つ以上の実施形態によるシーンの3Dモデルを生成するための例示的な工程600である。工程600は、図2に示されるメモリ230に格納されたコンピュータ実行可能命令に従って、前述の3Dモデリングシステムおよび/またはデバイス200によって実行され得る。しかしながら、工程600は、任意の適切な環境で実行されてもよく、以下のブロックのいずれかが任意の適切な順序で実行されてもよいことが認識されるであろう。工程300と比較すると、工程600は、取得された第1/第2の深度データの元データ内の解像度の欠如および/または不完全なデータを決定し、その後、取得された深度データの元データを新たな深度データで補充する追加のブロックを含み得る。 Figure 6 is an exemplary process 600 for generating a 3D model of a scene according to one or more embodiments. Process 600 may be performed by the aforementioned 3D modeling system and/or device 200 according to computer-executable instructions stored in memory 230 shown in Figure 2. However, it will be appreciated that process 600 may be performed in any suitable environment and any of the following blocks may be performed in any suitable order. Compared to process 300, process 600 may include an additional block of determining lack of resolution and/or incomplete data in the original data of the acquired first/second depth data, and then supplementing the original data of the acquired depth data with new depth data.

ブロック610において、3Dモデリングシステムは、第1の深度データを取得する。ブロック610は、上述のブロック310と同様であり得る。 In block 610, the 3D modeling system obtains first depth data. Block 610 may be similar to block 310 described above.

ブロック620において、3Dモデリングシステムは、第2の深度データを取得する。ブロック620は、上述のブロック320と同様であり得る。 In block 620, the 3D modeling system obtains second depth data. Block 620 may be similar to block 320 described above.

ブロック630において、3Dモデリングシステムは、色データ、第1の深度データ、第2の深度データに基づいて、シーンの3Dモデルを生成する。ブロック630は、上述のブロック330と同様であり得る。 In block 630, the 3D modeling system generates a 3D model of the scene based on the color data, the first depth data, and the second depth data. Block 630 may be similar to block 330 described above.

ブロック640において、3Dモデリングシステムのプロセッサは、シーンの3Dモデルにおいて1つ以上の画像領域が十分なデータ点を有していないと判断することに応じて(例えば、モデル化に失敗したシーンの一部、および/または低解像度および/または欠落/不完全なデータに基づいて)、第2の充填データを取得するよう走査デバイスに指示する。3Dモデリングシステムのプロセッサは、1つ以上の画像領域について補充用の深度データ点を走査するように、走査手段に指示する。一部の例では、走査手段を移動および/または回転させて、1つ以上の画像領域を含む部分シーンを走査する。1つ以上の画像領域を走査することによって取得られた深度データ点は、第2の充填データを形成し得る。 At block 640, in response to determining that one or more image regions do not have sufficient data points in the 3D model of the scene (e.g., based on a portion of the scene that was not successfully modeled and/or low resolution and/or missing/incomplete data), the processor of the 3D modeling system directs the scanning device to acquire second fill data. The processor of the 3D modeling system directs the scanning means to scan the one or more image regions for fill depth data points. In some examples, the scanning means is moved and/or rotated to scan the sub-scene that includes the one or more image regions. The depth data points acquired by scanning the one or more image regions may form the second fill data.

ブロック650において、3Dモデリングシステムのプロセッサは、生成されたシーンの3Dモデルに第2の充填データを補足し、新たなシーンの3Dモデルを生成して、生成されたシーンの3Dモデルの完全性を改善する。 At block 650, the processor of the 3D modeling system supplements the generated 3D model of the scene with second fill data to generate a new 3D model of the scene, improving the completeness of the generated 3D model of the scene.

前述の開示された工程は、図7に示されるように、3Dモデリングシステム700によって実行され得る。これは、1つ以上の実施形態に従う。3Dモデリングシステム700は、撮像手段710、走査手段720、1つ以上の姿勢センサ730、1つ以上の3Dモデリングプロセッサ740、メモリ750およびディスプレイ760などの複数の構成要素を備える。 The above disclosed steps may be performed by a 3D modeling system 700, as shown in FIG. 7, according to one or more embodiments. The 3D modeling system 700 includes multiple components, such as an imaging means 710, a scanning means 720, one or more orientation sensors 730, one or more 3D modeling processors 740, a memory 750, and a display 760.

撮像手段710は、シーンの複数の深度画像を撮像するように構成され得る。撮像手段710は、シーンの深度画像を第1のフレームレートで撮像するように設定され得る。各深度画像は複数の画素を含み、画素は、撮像手段とシーン内の複数の撮影スポットとの間の距離を示す深度値を含む。さらに、各深度画像には、深度画像を撮像した定時を示すタイムスタンプが付けされてもよい。撮像手段710は、シーンの撮像された深度画像を第1の深度データまたは第1の充填データとして、3Dモデリングプロセッサ740に出力する。 The imaging means 710 may be configured to capture a number of depth images of the scene. The imaging means 710 may be set to capture the depth images of the scene at a first frame rate. Each depth image includes a number of pixels, the pixels including depth values indicative of distances between the imaging means and a number of capture spots in the scene. Additionally, each depth image may be time-stamped to indicate the exact time at which the depth image was captured. The imaging means 710 outputs the captured depth images of the scene to the 3D modeling processor 740 as first depth data or first fill data.

走査手段720は、シーンの複数の深度データ点を走査するように構成され得る。走査手段720は、第2のフレームレートでシーンの深度データ点を取得するように設定され得る。各フレームは、複数の深度データ点を含み、深度データ点は、走査手段720とシーン内の複数のスポットとの間の距離を示す深度値を含む。さらに、深度データ点の各フレームには、フレームを取得した定時を示すタイムスタンプが付けされてもよい。走査手段720は、取得された深度データ点を第2の深度データまたは第2の充填データとして、3Dモデリングプロセッサ740に出力する。 The scanning means 720 may be configured to scan a plurality of depth data points of the scene. The scanning means 720 may be set to acquire depth data points of the scene at a second frame rate. Each frame includes a plurality of depth data points, the depth data points including depth values indicating distances between the scanning means 720 and a plurality of spots in the scene. Additionally, each frame of depth data points may be time-stamped to indicate the exact time the frame was acquired. The scanning means 720 outputs the acquired depth data points to the 3D modeling processor 740 as second depth data or second fill data.

姿勢センサ730は、取得された深度データに対する外部パラメータを決定および/または出力するように構成され得る。外部パラメータは、姿勢センサ730が埋め込まれた手段の位置および回転などの姿勢情報を含む。姿勢センサ730により生成された外部パラメータには、外部パラメータを生成した定時を示すタイムスタンプが付けされてもよい。撮像手段710および走査手段720などのデータ取得手段には、それぞれ姿勢センサ730が組み込まれてもよい。あるいは、1つの姿勢センサ730が、取得された深度データのフレームに対して後で決定される外部パラメータを出力してもよい。姿勢センサ730は、3Dモデリングプロセッサ740が、タイムスタンプによって示される時間間隔に基づいて、取得されたデータのフレームに付けされた外部パラメータを決定できるように、タイムスタンプが付けされた外部パラメータを3Dモデリングプロセッサ740に出力してもよい。 The attitude sensor 730 may be configured to determine and/or output extrinsic parameters for the acquired depth data. The extrinsic parameters include attitude information such as the position and rotation of the means in which the attitude sensor 730 is embedded. The extrinsic parameters generated by the attitude sensor 730 may be time-stamped to indicate the time at which the extrinsic parameters were generated. The data acquisition means such as the imaging means 710 and the scanning means 720 may each be incorporated with an attitude sensor 730. Alternatively, one attitude sensor 730 may output extrinsic parameters that are subsequently determined for the acquired frames of depth data. The attitude sensor 730 may output the time-stamped extrinsic parameters to the 3D modeling processor 740 so that the 3D modeling processor 740 can determine the extrinsic parameters attached to the acquired frames of data based on the time interval indicated by the time stamp.

3Dモデリングプロセッサ740は、メモリ750に格納されたコンピュータ実行可能命令に基づいて前述の工程を実行するように構成され得る。一部の例では、3Dモデリングプロセッサ740は、外部色画像装置から色データを受信する。一部の例では、3Dモデリングプロセッサ740は、3Dモデリングシステム700における色撮像手段から色データを受信する。 The 3D modeling processor 740 may be configured to perform the aforementioned steps based on computer-executable instructions stored in memory 750. In some examples, the 3D modeling processor 740 receives color data from an external color image device. In some examples, the 3D modeling processor 740 receives color data from a color imaging means in the 3D modeling system 700.

ディスプレイ760は、3Dモデリング工程740により生成される3Dモデルを表示するように構成され得る。一部の例では、ディスプレイ760は、データ取得工程中にシーンのリアルタイム3Dモデルを表示するようにさらに構成され得る。 The display 760 may be configured to display the 3D model generated by the 3D modeling process 740. In some examples, the display 760 may be further configured to display a real-time 3D model of the scene during the data acquisition process.

本明細書で説明する技術は、プロセッサベースの命令実行マシン、システム、装置、またはデバイスによって、またはこれらに関連して使用するためのコンピュータ可読媒体に格納された実行可能命令で具現化できる。いくつかの実施形態では、データを格納するために様々なタイプのコンピュータ可読媒体を含めることができることを当業者は理解するであろう。本明細書で使用される場合、「コンピュータ可読媒体」は、命令実行マシン、システム、装置、またはデバイスが、コンピュータ可読媒体から命令を読み取り(またはフェッチ)、説明した実施形態を実施するための命令を実行することができるように、コンピュータプログラムの実行可能命令を記憶するための任意の適切な媒体の1つまたは複数を含む。適切な記憶形式には、電子、磁気、光学、および電磁形式のうちの1つ以上が含まれる。従来の例のコンピュータ可読媒体の非網羅的なリストには、ポータブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、フラッシュメモリ装置、及び、ポータブルコンパクトディスク(CD)、ポータブルデジタル映像ディスク(DVD)などの光学記憶装置、などがある。 The techniques described herein may be embodied in executable instructions stored on a computer-readable medium for use by or in connection with a processor-based instruction-executing machine, system, apparatus, or device. Those skilled in the art will appreciate that various types of computer-readable media may be included for storing data in some embodiments. As used herein, a "computer-readable medium" includes one or more of any suitable medium for storing executable instructions of a computer program such that an instruction-executing machine, system, apparatus, or device can read (or fetch) the instructions from the computer-readable medium and execute the instructions to implement the described embodiments. Suitable storage formats include one or more of electronic, magnetic, optical, and electromagnetic formats. A non-exhaustive list of conventional example computer-readable media includes portable computer diskettes, random access memory (RAM), read-only memory (ROM), erasable programmable read-only memory (EPROM), flash memory devices, and optical storage devices such as portable compact disks (CDs), portable digital video disks (DVDs), and the like.

添付の図に図示された構成要素の配置は説明のためのものであり、他の配置も可能であることを理解されたい。例えば、本明細書に記載された要素の1つ以上は、全体または一部が電子ハードウェア部品として実現され得る。他の要素は、ソフトウェア、ハードウェア、またはソフトウェアとハードウェアの組み合わせで実装することができる。さらに、これらの他の要素の一部または全部を組み合わせてもよく、一部を完全に省略してもよく、本明細書に記載の機能を実現しながら追加のコンポーネントを追加してもよい。したがって、本明細書に記載の主題は、多くの異なるバリエーションで具現化することができ、そのようなバリエーションはすべて、特許請求の範囲内にあると考えられる。 It should be understood that the arrangements of components depicted in the accompanying figures are illustrative and that other arrangements are possible. For example, one or more of the elements described herein may be realized in whole or in part as electronic hardware components. Other elements may be implemented in software, hardware, or a combination of software and hardware. Moreover, some or all of these other elements may be combined, some may be omitted entirely, or additional components may be added while still achieving the functionality described herein. Thus, the subject matter described herein may be embodied in many different variations, and all such variations are believed to be within the scope of the claims.

本明細書に記載される主題の理解を容易にするために、多くの態様は、動作のシーケンスの観点から説明される。様々な動作は、特殊な回路または回路によって、1つ以上のプロセッサによって実行されるプログラム命令によって、または両方の組み合わせによって実行され得ることは、当業者によって認識されるであろう。本明細書における一連の動作の説明は、その一連の動作を行うために記述された特定の順序に従わなければならないことを意味することを意図していない。本明細書に記載される全ての方法は、本明細書で特に示されない限り、または文脈によって明らかに矛盾しない限り、任意の適切な順序で実行され得る。 To facilitate understanding of the subject matter described herein, many aspects are described in terms of a sequence of operations. Those skilled in the art will recognize that various operations may be performed by specialized circuitry or circuits, by program instructions executed by one or more processors, or by a combination of both. The description of a sequence of operations herein is not intended to imply that the particular order described must be followed to perform the sequence of operations. All methods described herein may be performed in any suitable order unless otherwise indicated herein or clearly contradicted by context.

主題を説明する文脈における(特に、以下の請求項の文脈における)用語「一つ」および「1つ」および「前記」ならびに同様の参照の使用は、本明細書において別様に示されるか、または文脈によって明らかに矛盾しない限り、単数および複数の両方をカバーするように解釈されるものとされる。用語「少なくとも1つ」の後に1つ以上の項目のリスト(例えば、「AおよびBの少なくとも1つ」)が続く使用は、本明細書において別段の指示があるか、または文脈によって明らかに矛盾しない限り、リストされた項目(AまたはB)から選択された1つの項目、またはリストされた項目(AおよびB)の2以上の任意の組み合わせを意味すると解釈される。さらに、求める保護範囲は、その均等物とともに以下に記載される請求項によって定義されるため、前述の説明は、例示の目的のみのためであり、制限の目的ではありえない。本明細書で提供される任意のおよびすべての例、または例文(例えば、「など」)の使用は、単に主題をより良く説明することを意図しており、別途請求されない限り、主題の範囲に制限を提起するものでない。特許請求の範囲及び書面の説明の両方において、ある結果をもたらすための条件を示す用語「に基づいて」及び他の同様のフレーズの使用は、その結果をもたらす他の条件を排除することを意図していない。本明細書のいかなる文言も、請求項に記載された発明の実施に不可欠なものとして、請求項に記載されていない要素を示すものと解釈されるべきではない。



The use of the terms "a,""an," and "said," and similar references in the context of describing the subject matter (particularly in the context of the claims below) shall be interpreted to cover both the singular and the plural, unless otherwise indicated herein or clearly contradicted by context. The use of the term "at least one" followed by a list of one or more items (e.g., "at least one of A and B") shall be interpreted to mean one item selected from the listed items (A or B), or any combination of two or more of the listed items (A and B), unless otherwise indicated herein or clearly contradicted by context. Moreover, the foregoing description is for illustrative purposes only, and not for limiting purposes, since the scope of protection sought is defined by the claims set forth below, together with their equivalents. The use of any and all examples or example phrases (e.g., "such as") provided herein is intended merely to better describe the subject matter, and does not pose any limitation on the scope of the subject matter, unless otherwise claimed. In both the claims and the written description, the use of the term "based on" and other similar phrases indicating conditions for producing a certain result is not intended to exclude other conditions for producing that result. No language in the specification should be construed as indicating any non-claimed element as essential to the practice of the claimed invention.



Claims (19)

シーンの3Dモデルを生成する方法であって、
撮像手段を含む3Dモデリングシステムが、複数のフレームの深度画像の画素を含む第1の深度データを取得することと、
走査手段を含む前記3Dモデリングシステムが、複数のフレームの画像の深度データ点を含む第2の深度データを取得することと、
深度閾値を決定することと、
前記第1の深度データにおける1つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第1の深度データにおける前記1つ以上のデータ点を削除することと、
前記3Dモデリングシステムが、複数の色画像の画素を含む前記シーンの色データを受信することと、
前記3Dモデリングシステムが、前記色データ、前記第1の深度データ、前記第2の深度データに基づいて、前記シーンの3Dモデルを生成することと、
前記シーンの3Dモデルを表示させることと、含む方法。
1. A method for generating a 3D model of a scene, comprising:
a 3D modeling system including an imaging means acquiring first depth data including pixels of a plurality of frames of depth images;
said 3D modeling system including a scanning means acquiring second depth data including depth data points of a plurality of frames of images;
determining a depth threshold;
removing one or more data points in the first depth data in response to a depth value of the one or more data points in the first depth data being greater than the depth threshold;
receiving, by the 3D modeling system, color data for the scene including a plurality of color image pixels;
generating a 3D model of the scene based on the color data, the first depth data, and the second depth data,
displaying a 3D model of the scene.
前記第1の深度データにおける前記深度画像の各々は第1のデータであり、前記第2の深度データにおける画像フレームの各々は第2のデータであり、
前記方法は、さらに、
複数のデータペアを決定し、前記複数のデータペアの各々が、前記第1のデータおよび対応する前記第2のデータを含み、前記第1のデータおよび対応する前記第2のデータが同様の目標オブジェクトを含むことと、
前記複数のデータペアに基づいて、前記第1の深度データと前記第2の深度データとの間の位置関係を決定することと、を更に含む
請求項1に記載の方法。
each of the depth images in the first depth data is first data and each of the image frames in the second depth data is second data;
The method further comprises:
determining a plurality of data pairs, each of the plurality of data pairs including the first data and the corresponding second data, the first data and the corresponding second data including similar target objects;
The method of claim 1 , further comprising: determining a positional relationship between the first depth data and the second depth data based on the plurality of data pairs.
前記第1のデータの各々には、前記撮像手段の姿勢情報を示す第1の外部パラメータが関連付けされ、前記第2のデータの各々には、前記走査手段の姿勢情報を示す第2の外部パラメータが関連付けされ、前記姿勢情報は、位置及び回転情報を示し、前記複数のデータペアを決定することは、
前記第1の外部パラメータに基づいて、前記第1のデータに関連する前記3Dモデリングシステムの第1の姿勢を決定することと、
前記第2の外部パラメータに基づいて、前記第2のデータに関連する前記3Dモデリングシステムの第2の姿勢を決定することと、
前記第1の姿勢および前記第2の姿勢が同じであることに応じて、前記第1のデータおよび前記第2のデータを含むデータペアを決定することと、を含む、
請求項2に記載の方法。
Each of the first data is associated with a first external parameter indicating posture information of the imaging means, and each of the second data is associated with a second external parameter indicating posture information of the scanning means, the posture information indicating position and rotation information, and determining the plurality of data pairs includes:
determining a first pose of the 3D modeling system associated with the first datum based on the first extrinsic parameters;
determining a second pose of the 3D modeling system relative to the second data based on the second extrinsic parameters; and
determining a data pair including the first data and the second data in response to the first pose and the second pose being the same ;
The method of claim 2.
前記第1の外部パラメータおよび前記第2の外部パラメータは、前記3Dモデリングシステムにおける同じ姿勢センサから出力される、
請求項3に記載の方法。
the first external parameter and the second external parameter are output from a same attitude sensor in the 3D modeling system;
The method according to claim 3.
前記第1のデータの各々には、前記撮像手段により前記第1のデータが取得された定時を示す第1のタイムスタンプが関連付けされ、前記第2のデータの各々には、前記走査手段により前記第2のデータが取得された定時を示す第2のタイムスタンプが関連付けされ、前記データペアにおける前記第1のデータと対応する前記第2のデータは、閾値よりも小さい時間間隔を有する、
請求項2に記載の方法。
a first time stamp indicating a fixed time when the first data was acquired by the imaging means is associated with each of the first data, a second time stamp indicating a fixed time when the second data was acquired by the scanning means is associated with each of the second data, and the first data and the corresponding second data in the data pair have a time interval smaller than a threshold value.
The method of claim 2.
前記データペアにおける前記第1のデータおよび対応する前記第2のデータは、1つ以上の同様のオブジェクトで識別される、
請求項2に記載の方法。
the first data and the corresponding second data in the data pair are identified with one or more similar objects;
The method of claim 2.
生成された前記シーンの3Dモデルにおいて、解像度閾値未満の1つ以上の画像領域を識別することと、
前記撮像手段を含む前記3Dモデリングシステムが、複数の深度画像の画素を含む第1の充填データを取得することと、
生成された前記シーンの3Dモデルに、前記第1の充填データを補充して、新たなシーンの3Dモデルを生成することと、更に含む、
請求項1に記載の方法。
identifying one or more image regions in the generated 3D model of the scene that are below a resolution threshold;
said 3D modeling system including said imaging means acquiring first fill data including pixels of a plurality of depth images;
supplementing the generated 3D model of the scene with the first fill data to generate a new 3D model of the scene.
The method of claim 1.
生成された前記シーンの3Dモデルにおいて、十分な前記深度データ点を持たない1つ以上の画像領域を識別することと、
前記走査手段を含む前記3Dモデリングシステムが、複数の画像フレームの深度データ点を含む第2の充填データを取得することと、
生成された前記シーンの3Dモデルに、第2の充填データを補充して、新たなシーンの3Dモデルを生成することと、さらに含む、
請求項1に記載の方法。
identifying one or more image regions in the generated 3D model of the scene that do not have enough of the depth data points;
said 3D modeling system including said scanning means acquiring second fill data including depth data points of a plurality of image frames;
supplementing the generated 3D model of the scene with second fill data to generate a new 3D model of the scene.
The method of claim 1.
前記撮像手段は、第1のフレームレートで前記複数の深度画像を取得し、前記走査手段は、第2のフレームレートで前記複数の画像フレームを取得する、
請求項1に記載の方法。
the imaging means acquiring the plurality of depth images at a first frame rate, and the scanning means acquiring the plurality of image frames at a second frame rate.
The method of claim 1.
前記3Dモデリングシステムは、取得された前記深度データに基づいて、前記シーンの3Dモデルをリアルタイムで表示するディスプレイを含む、
請求項1に記載の方法。
the 3D modeling system including a display for displaying in real time a 3D model of the scene based on the acquired depth data;
The method of claim 1.
シーンの3Dモデルを生成するためのシステムであって、
複数のフレームの深度画像の画素を含む第1の深度データを取得するように構成される撮像手段と、
複数の画像フレームの深度データ点を含む第2の深度データを取得するように構成される走査手段と、
1つ以上のプロセッサと、を含み、
前記1つ以上のプロセッサは、
前記撮像手段からの第1の深度データ、前記走査手段からの第2の深度データ、複数の色画像の画素を含む色データを取得し、
深度閾値を決定し、
前記第1の深度データにおける前記1つ以上のデータ点の深度値が前記深度閾値よりも大きいことに応じて、前記第1の深度データにおける前記1つ以上のデータ点を削除し、
前記色データ、前記第1の深度データ、前記第2の深度データに基づいて、前記シーンの3Dモデルを生成し、
生成された前記シーンの3Dモデルを出力する、ように構成される、
システム。
1. A system for generating a 3D model of a scene, comprising:
an imaging means configured to acquire first depth data comprising pixels of a depth image of a plurality of frames;
a scanning means configured to acquire second depth data comprising depth data points of a plurality of image frames;
one or more processors;
The one or more processors:
acquiring first depth data from said imaging means, second depth data from said scanning means, and color data including a plurality of color image pixels;
determining a depth threshold;
removing one or more data points in the first depth data in response to a depth value of the one or more data points in the first depth data being greater than the depth threshold;
generating a 3D model of the scene based on the color data, the first depth data and the second depth data;
outputting the generated 3D model of the scene.
system.
前記第1の深度データにおける前記深度画像の各々は、第1のデータであり、前記第2の深度データにおける画像フレームの各々は、第2のデータであり、
前記1つ以上のプロセッサは、さらに、
複数のデータペアを決定し、前記複数のデータペアの各々は、前記第1のデータおよび対応する前記第2のデータを含み、前記第1のデータおよび対応する前記第2のデータは、同様の目標オブジェクトを含み、
前記複数のデータペアに基づいて、前記第1の深度データと前記第2の深度データとの間の位置関係を決定するように構成される、
請求項11に記載のシステム。
each of the depth images in the first depth data is first data, and each of the image frames in the second depth data is second data;
The one or more processors further include:
determining a plurality of data pairs, each of the plurality of data pairs including the first data and the corresponding second data, the first data and the corresponding second data including similar target objects;
and configured to determine a positional relationship between the first depth data and the second depth data based on the plurality of data pairs.
The system of claim 11.
前記システムは、さらに、前記システムにおける前記撮像手段および前記走査手段の姿勢情報を示す外部パラメータを出力するように構成される1つ以上の姿勢センサを含み、
前記第1のデータの各々には、前記撮像手段の姿勢情報を示す第1の外部パラメータが関連付けされ、前記第2のデータの各々には、前記走査手段の姿勢情報を示す第2の外部パラメータが関連付けされ、
前記姿勢情報は、位置及び回転情報を示し、
前記1つ以上のプロセッサは、さらに、
前記第1の外部パラメータに基づいて、前記第1のデータに関連する前記システムの第1の姿勢を決定し、
前記第2の外部パラメータに基づいて、前記第2のデータに関連する前記システムの第2の姿勢を決定し、
前記第1の姿勢と前記第2の姿勢が同じであることに応じて、前記第1のデータと前記第2のデータを含むデータペアを決定するように構成される、
請求項12に記載のシステム。
The system further comprises one or more attitude sensors configured to output external parameters indicative of attitude information of the imaging means and the scanning means in the system;
a first external parameter indicating posture information of the imaging means is associated with each of the first data, and a second external parameter indicating posture information of the scanning means is associated with each of the second data,
The attitude information indicates position and rotation information,
The one or more processors further include:
determining a first attitude of the system associated with the first data based on the first external parameters;
determining a second attitude of the system associated with the second data based on the second external parameters;
and determining a data pair including the first data and the second data in response to the first orientation and the second orientation being the same .
The system of claim 12.
前記第1のデータの各々には、前記撮像手段により前記第1のデータが取得された定時を示す第1のタイムスタンプが関連付けされ、前記第2のデータの各々には、前記走査手段により前記第2のデータが取得された定時を示す第2のタイムスタンプが関連付けされ、
前記データペアにおける前記第1のデータと対応する前記第2のデータは、閾値よりも小さい時間間隔を有する、
請求項12に記載のシステム。
A first time stamp indicating a fixed time when the first data was acquired by the imaging means is associated with each of the first data, and a second time stamp indicating a fixed time when the second data was acquired by the scanning means is associated with each of the second data,
the first data and the corresponding second data in the data pair have a time interval that is less than a threshold value;
The system of claim 12.
前記データペアにおける前記第1のデータおよび対応する前記第2のデータは、1つ以上の同様のオブジェクトで識別される、
請求項12に記載のシステム。
the first data and the corresponding second data in the data pair are identified with one or more similar objects;
The system of claim 12.
前記1つ以上のプロセッサは、さらに、
生成された前記シーンの3Dモデルにおいて、解像度閾値未満の1つ以上の画像領域を識別し、
前記撮像手段から複数の深度画像の画素を含む第1の充填データを受信し、
生成された前記シーンの3Dモデルに前記第1の充填データを補充して、新たなシーンの3Dモデルを生成するように構成される、
請求項15に記載のシステム。
The one or more processors further include:
identifying one or more image regions in the generated 3D model of the scene that are below a resolution threshold;
receiving first fill data comprising pixels of a plurality of depth images from said imaging means;
- configured to fill the generated 3D model of the scene with the first filling data to generate a new 3D model of the scene.
The system of claim 15.
前記1つ以上のプロセッサは、さらに、
生成された前記シーンの3Dモデルにおいて、十分な深度データ点を持たない1つ以上の画像領域を識別し、
前記走査手段から複数の画像フレームの深度データ点を含む第2の充填データを受信し、
生成された前記シーンの3Dモデルに前記第2の充填データを補充して、新たなシーンの3Dモデルを生成するように構成される、
請求項12に記載のシステム。
The one or more processors further include:
identifying one or more image regions in the generated 3D model of the scene that do not have sufficient depth data points;
receiving second fill data from said scanning means, said fill data including depth data points for a plurality of image frames;
- configured to fill the generated 3D model of the scene with the second filling data to generate a new 3D model of the scene.
The system of claim 12.
コンピュータ実行可能命令が記憶されている非揮発性なコンピュータ可読媒体であって、
前記コンピュータ実行可能命令は、1つ以上のプロセッサによって実行されると、請求項1~10のいずれか一項に記載の方法を前記1つ以上のプロセッサに実行させる、
コンピュータ可読媒体。
A non-volatile computer readable medium having computer executable instructions stored thereon, comprising:
The computer executable instructions, when executed by one or more processors, cause the one or more processors to perform the method of any one of claims 1 to 10.
Computer-readable medium.
撮像デバイス、走査デバイス、及び一つ以上のプロセッサを有する3Dモデリングシステムによって実行するためのコンピュータプログラムであって、
前記コンピュータプログラムは、前記一つ以上のプロセッサによって実行されると、前記3Dモデリングシステムに、請求項1~10のいずれか一項に記載の方法を実行させる、
コンピュータプログラム。
1. A computer program for execution by a 3D modeling system having an imaging device, a scanning device, and one or more processors, comprising:
The computer program, when executed by the one or more processors, causes the 3D modeling system to perform the method of any one of claims 1 to 10.
Computer program.
JP2023548990A 2020-10-29 2021-08-24 Method, apparatus and system for generating a three-dimensional model of a scene - Patents.com Active JP7657308B2 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011180650.0A CN112312113B (en) 2020-10-29 2020-10-29 Method, device and system for generating three-dimensional model
CN202011180650.0 2020-10-29
PCT/CN2021/114241 WO2022088881A1 (en) 2020-10-29 2021-08-24 Method, apparatus and system for generating a three-dimensional model of a scene

Publications (2)

Publication Number Publication Date
JP2023546739A JP2023546739A (en) 2023-11-07
JP7657308B2 true JP7657308B2 (en) 2025-04-04

Family

ID=74331621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023548990A Active JP7657308B2 (en) 2020-10-29 2021-08-24 Method, apparatus and system for generating a three-dimensional model of a scene - Patents.com

Country Status (4)

Country Link
US (1) US11989827B2 (en)
JP (1) JP7657308B2 (en)
CN (1) CN112312113B (en)
WO (1) WO2022088881A1 (en)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112312113B (en) * 2020-10-29 2022-07-15 贝壳技术有限公司 Method, device and system for generating three-dimensional model
CN112967381B (en) * 2021-03-05 2024-01-16 北京百度网讯科技有限公司 Three-dimensional reconstruction methods, equipment and media
CN112927281B (en) * 2021-04-06 2024-07-02 Oppo广东移动通信有限公司 Depth detection method, depth detection device, storage medium and electronic equipment
CN114332379A (en) * 2021-12-31 2022-04-12 北京有竹居网络技术有限公司 Three-dimensional model construction method and device and mobile terminal
EP4210013A1 (en) * 2022-01-06 2023-07-12 Leica Geosystems AG Time-of-flight based 3d surveillance system with flexible surveillance zone definition functionality
CN115512242B (en) * 2022-07-22 2023-05-30 北京微视威信息科技有限公司 Scene change detection method and flight device
CN116109764A (en) * 2022-12-23 2023-05-12 湖南快乐阳光互动娱乐传媒有限公司 Face reconstruction method and system

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120050480A1 (en) 2010-08-27 2012-03-01 Nambi Seshadri Method and system for generating three-dimensional video utilizing a monoscopic camera
WO2014171418A1 (en) 2013-04-19 2014-10-23 凸版印刷株式会社 Three-dimensional shape measurement device, three-dimensional shape measurement method, and three-dimensional shape measurement program
JP2018515825A (en) 2015-02-24 2018-06-14 ハイプヴイアール LIDAR stereo fusion live-action 3D model virtual reality video
JP2019109219A (en) 2017-10-27 2019-07-04 バイドゥ ユーエスエー エルエルシーBaidu USA LLC Three-dimensional lidar system for autonomous vehicle using dichroic mirror

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101666854B1 (en) * 2010-06-14 2016-10-17 삼성전자주식회사 Apparatus and method for depth unfolding based on multiple depth images
KR20120105169A (en) * 2011-03-15 2012-09-25 삼성전자주식회사 Method of operating a three-dimensional image sensor including a plurality of depth pixels
US9053571B2 (en) * 2011-06-06 2015-06-09 Microsoft Corporation Generating computer models of 3D objects
US10848731B2 (en) * 2012-02-24 2020-11-24 Matterport, Inc. Capturing and aligning panoramic image and depth data
RU2012145349A (en) * 2012-10-24 2014-05-10 ЭлЭсАй Корпорейшн METHOD AND DEVICE FOR PROCESSING IMAGES FOR REMOVING DEPTH ARTIFacts
US9424650B2 (en) * 2013-06-12 2016-08-23 Disney Enterprises, Inc. Sensor fusion for depth estimation
CN104113702B (en) * 2014-07-25 2018-09-04 北京智谷睿拓技术服务有限公司 Flash control method and control device, image-pickup method and harvester
CN104159099B (en) * 2014-08-29 2016-02-03 杭州道玄影视科技有限公司 The method to set up of binocular stereo camera during a kind of 3D three-dimensional film makes
JP2018506797A (en) * 2015-02-12 2018-03-08 ネクストブイアール・インコーポレイテッド Method and apparatus for making environmental measurements and / or for using such measurements
US9818232B2 (en) * 2015-08-26 2017-11-14 Adobe Systems Incorporated Color-based depth smoothing of scanned 3D model to enhance geometry in 3D printing
WO2017091927A1 (en) * 2015-11-30 2017-06-08 华为技术有限公司 Image processing method and dual-camera system
WO2017146202A1 (en) * 2016-02-25 2017-08-31 大日本印刷株式会社 Three-dimensional shape data and texture information generation system, photographing control program, and three-dimensional shape data and texture information generation method
US10306203B1 (en) * 2016-06-23 2019-05-28 Amazon Technologies, Inc. Adaptive depth sensing of scenes by targeted light projections
GB2554633B (en) * 2016-06-24 2020-01-22 Imperial College Sci Tech & Medicine Detecting objects in video data
JP6838994B2 (en) * 2017-02-22 2021-03-03 キヤノン株式会社 Imaging device, control method and program of imaging device
CN108510537B (en) * 2017-02-28 2020-06-12 深圳市掌网科技股份有限公司 3D modeling method and device
CN108986223A (en) * 2017-05-31 2018-12-11 上海拆名晃信息科技有限公司 A kind of method and apparatus of 3 D scene rebuilding
CN109479088A (en) * 2017-06-02 2019-03-15 深圳市大疆创新科技有限公司 System and method for multi-target tracking and autofocusing based on deep machine learning and lidar
CN107483845B (en) * 2017-07-31 2019-09-06 Oppo广东移动通信有限公司 Photographing method and device
CN107493412B (en) * 2017-08-09 2019-09-13 Oppo广东移动通信有限公司 Image processing system and method
CN107610084B (en) * 2017-09-30 2020-09-01 驭势科技(北京)有限公司 Method and equipment for carrying out information fusion on depth image and laser point cloud image
US10529086B2 (en) * 2017-11-22 2020-01-07 Futurewei Technologies, Inc. Three-dimensional (3D) reconstructions of dynamic scenes using a reconfigurable hybrid imaging system
CN107995434A (en) * 2017-11-30 2018-05-04 广东欧珀移动通信有限公司 Image acquisition method, electronic device, and computer-readable storage medium
CN107966693B (en) * 2017-12-05 2021-08-13 成都合纵连横数字科技有限公司 Vehicle-mounted laser radar simulation method based on depth rendering
CN108234984A (en) * 2018-03-15 2018-06-29 百度在线网络技术(北京)有限公司 Binocular depth camera system and depth image generation method
CN108492364B (en) * 2018-03-27 2022-09-20 百度在线网络技术(北京)有限公司 Method and apparatus for generating image generation model
CN108549088B (en) * 2018-04-27 2020-10-02 科沃斯商用机器人有限公司 Positioning method, device and system based on robot and storage medium
CN109035309B (en) * 2018-07-20 2022-09-27 清华大学苏州汽车研究院(吴江) Stereoscopic vision-based pose registration method between binocular camera and laser radar
CN110895833B (en) * 2018-09-13 2025-02-21 北京京东尚科信息技术有限公司 A method and device for three-dimensional modeling of indoor scenes
CN109274957A (en) * 2018-10-31 2019-01-25 维沃移动通信有限公司 Deep image capturing method and mobile terminal
CN109741405B (en) * 2019-01-21 2021-02-02 同济大学 Depth information acquisition system based on dual structured light RGB-D camera
CN111741283A (en) * 2019-03-25 2020-10-02 华为技术有限公司 Apparatus and method for image processing
CN110233963A (en) * 2019-05-06 2019-09-13 深圳市华芯技研科技有限公司 A kind of binocular camera spacing adjusting method and device
CN110163968B (en) * 2019-05-28 2020-08-25 山东大学 RGBD camera large three-dimensional scene construction method and system
WO2020258297A1 (en) * 2019-06-28 2020-12-30 深圳市大疆创新科技有限公司 Image semantic segmentation method, movable platform, and storage medium
CN110428372B (en) * 2019-07-08 2021-12-10 佳木斯市奥义智能科技有限公司 Depth data and 2D laser data fusion method and device and storage medium
CN110599546A (en) * 2019-08-28 2019-12-20 贝壳技术有限公司 Method, system, device and storage medium for acquiring three-dimensional space data
CN110874852A (en) * 2019-11-06 2020-03-10 Oppo广东移动通信有限公司 Method for determining depth image, image processor and storage medium
CN110842940A (en) * 2019-11-19 2020-02-28 广东博智林机器人有限公司 Building surveying robot multi-sensor fusion three-dimensional modeling method and system
WO2021113408A1 (en) * 2019-12-03 2021-06-10 Augustus Intelligence Inc. Synthesizing images from 3d models
CN111178138B (en) * 2019-12-04 2021-01-12 国电南瑞科技股份有限公司 Distribution network wire operating point detection method and device based on laser point cloud and binocular vision
CN111239729B (en) * 2020-01-17 2022-04-05 西安交通大学 ToF depth sensor with fusion speckle and flood projection and its ranging method
CN111415388B (en) * 2020-03-17 2023-10-24 Oppo广东移动通信有限公司 Visual positioning method and terminal
CN111526282A (en) * 2020-03-26 2020-08-11 香港光云科技有限公司 Method and device for shooting with adjustable depth of field based on flight time
US20210327119A1 (en) * 2020-04-17 2021-10-21 Occipital, Inc. System for Generating a Three-Dimensional Scene Reconstructions
CN111524194B (en) * 2020-04-24 2023-07-21 江苏盛海智能科技有限公司 A positioning method and terminal based on fusion of lidar and binocular vision
CN112312113B (en) * 2020-10-29 2022-07-15 贝壳技术有限公司 Method, device and system for generating three-dimensional model

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120050480A1 (en) 2010-08-27 2012-03-01 Nambi Seshadri Method and system for generating three-dimensional video utilizing a monoscopic camera
WO2014171418A1 (en) 2013-04-19 2014-10-23 凸版印刷株式会社 Three-dimensional shape measurement device, three-dimensional shape measurement method, and three-dimensional shape measurement program
JP2018515825A (en) 2015-02-24 2018-06-14 ハイプヴイアール LIDAR stereo fusion live-action 3D model virtual reality video
JP2019109219A (en) 2017-10-27 2019-07-04 バイドゥ ユーエスエー エルエルシーBaidu USA LLC Three-dimensional lidar system for autonomous vehicle using dichroic mirror

Also Published As

Publication number Publication date
CN112312113A (en) 2021-02-02
US20220139030A1 (en) 2022-05-05
JP2023546739A (en) 2023-11-07
CN112312113B (en) 2022-07-15
US11989827B2 (en) 2024-05-21
WO2022088881A1 (en) 2022-05-05

Similar Documents

Publication Publication Date Title
JP7657308B2 (en) Method, apparatus and system for generating a three-dimensional model of a scene - Patents.com
CN110568447B (en) Visual positioning method, device and computer readable medium
US9965870B2 (en) Camera calibration method using a calibration target
US9697607B2 (en) Method of estimating imaging device parameters
JP4245963B2 (en) Method and system for calibrating multiple cameras using a calibration object
CN102369413B (en) A method for determining the relative position of a first and a second imaging device and devices therefore
US20030012410A1 (en) Tracking and pose estimation for augmented reality using real features
JP2014529727A (en) Automatic scene calibration
JP2016537901A (en) Light field processing method
CN107155341A (en) 3 D scanning system and framework
Frahm et al. Markerless augmented reality with light source estimation for direct illumination
CN114766042A (en) Target detection method, device, terminal equipment and medium
JP6541920B1 (en) INFORMATION PROCESSING APPARATUS, PROGRAM, AND INFORMATION PROCESSING METHOD
CN119497877A (en) Determine camera control points for virtual production
Kahn Reducing the gap between Augmented Reality and 3D modeling with real-time depth imaging
Dias et al. Automatic registration of laser reflectance and colour intensity images for 3D reconstruction
CN112422848B (en) Video stitching method based on depth map and color map
Placitelli et al. Low-cost augmented reality systems via 3D point cloud sensors
CN115830135B (en) An image processing method, apparatus and electronic device
CN113763544B (en) Image determination method, device, electronic device and computer readable storage medium
JP2005031044A (en) Three-dimensional error measuring device
CN117115434A (en) Data dividing apparatus and method
CN116368350A (en) Motion Capture Calibration Using Target
CN120525966B (en) Camera calibration method, device and related equipment
US12518407B2 (en) Aligning image data and map data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230424

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240524

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20241205

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20241224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250325

R150 Certificate of patent or registration of utility model

Ref document number: 7657308

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150