JP7789798B2 - Multi-view Neural Human Prediction with an Implicit Differentiable Renderer for Facial Expression, Body Pose Shape, and Clothing Performance Capture - Google Patents
Multi-view Neural Human Prediction with an Implicit Differentiable Renderer for Facial Expression, Body Pose Shape, and Clothing Performance CaptureInfo
- Publication number
- JP7789798B2 JP7789798B2 JP2023556536A JP2023556536A JP7789798B2 JP 7789798 B2 JP7789798 B2 JP 7789798B2 JP 2023556536 A JP2023556536 A JP 2023556536A JP 2023556536 A JP2023556536 A JP 2023556536A JP 7789798 B2 JP7789798 B2 JP 7789798B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- human
- view
- mesh
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T13/00—Animation
- G06T13/20—Three-dimensional [3D] animation
- G06T13/40—Three-dimensional [3D] animation of characters, e.g. humans, animals or virtual beings
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—Three-dimensional [3D] image rendering
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three-dimensional [3D] modelling for computer graphics
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three-dimensional [3D] modelling for computer graphics
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
- G06T17/205—Re-meshing
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/50—Depth or shape recovery
- G06T7/55—Depth or shape recovery from multiple images
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/467—Encoded features or binary features, e.g. local binary patterns [LBP]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/766—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using regression, e.g. by projecting features on hyperplanes
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/16—Cloth
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Geometry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Image Analysis (AREA)
- Processing Or Creating Images (AREA)
- Image Processing (AREA)
Description
〔関連出願との相互参照〕
本出願は、2021年11月16日に出願された「顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測(MULTIVIEW NEURAL HUMAN PREDICTION USING IMPLICIT DIFFERENTIABLE RENDER FOR FACIAL EXPRESSION, BODY POSE SHAPE AND CLOTHES PERFORMANCE CAPTURE)」という名称の米国仮特許出願シリアル番号第63/279,916号、及び2021年3月31日に出願された「顔表情、身体ポーズ形状及び衣服変位のための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測(MULTIVIEW NEURAL HUMAN PREDICTION USING IMPLICIT DIFFERENTIABLE RENDER FOR FACIAL EXPRESSION, BODY POSE SHAPE AND CLOTHES DISPLACEMENT)」という名称の米国仮特許出願シリアル番号第63/168,467号の米国特許法第119条に基づく優先権の利益を主張するものであり、これらの両文献はその全体が全ての目的で引用により本明細書に組み入れる。
CROSS-REFERENCE TO RELATED APPLICATIONS
This application is related to the publication entitled "Multiview Neural Human Prediction Using Implicit Differentiable Renderer for Facial Expression, Body Pose Shape, and Clothing Performance Capture," filed on November 16, 2021. No. 63/279,916, filed March 31, 2021, entitled "Multiview Neural Human Prediction Using Implicit Differentiable Renderer for Facial Expression, Body Pose Shape, and Clothing Displacement," and U.S. Provisional Patent Application Serial No. 63/279,916, filed March 31, 2021, entitled "Multiview Neural Human Prediction Using Implicit Differentiable Renderer for Facial Expression, Body Pose Shape, and Clothing Displacement." This application claims the benefit of priority under 35 U.S.C. §119 of U.S. Provisional Patent Application Serial No. 63/168,467, entitled "DISPLACEMENT," both of which are incorporated herein by reference in their entireties for all purposes.
本発明は、娯楽産業のための3次元コンピュータビジョン及びグラフィックスに関する。具体的には、本発明は、映画、TV、音楽及びゲームコンテンツ制作のための3次元コンピュータビジョン及びグラフィックスを取得して処理することに関する。 The present invention relates to 3D computer vision and graphics for the entertainment industry. Specifically, the present invention relates to acquiring and processing 3D computer vision and graphics for film, TV, music, and gaming content production.
例えばFacebook FrankMocapなどの従来のシステムは、単一画像から裸体の形状及びポーズのみを予測する。このようなシステムは、衣服表面を予測することができない。このようなシステムは2D画像変換法であり、マルチビュー入力に対処することができない。 Conventional systems, such as Facebook FrankMocap, only predict the shape and pose of a nude body from a single image. They cannot predict clothing surfaces. These systems are 2D image transformation methods and cannot handle multi-view input.
暗黙的パーツネットワーク(Implicit Part Network)は、スキャン又は再構成された点群から身体及び衣服の両方を予測するが、3Dスキャンを必要とし、入力としてのRGB画像にも、顔表情及び外観にも対処することができない。また、暗黙的パーツネットワークは、ボクセルを身体又は衣服として識別するラベルのみを予測した後に人間事前モデル(human prior model)を明示的にフィットさせ、低速である。Neural Body及びAnimatable NeRFは、ニューラル輝度場(Neural Radiance Field:NeRF)を使用して、顔表情を含まない衣服人体(clothes human body)を予測する。しかしながら、これらは低解像度に制限される高密度の潜在コードボリューム(dense latent code volume)の作成を必要とし、従って人体形状が粗くなってしまう。また、これらは、メッシュ頂点の対応関係を含まないボリュメトリックな人体モデルしか復元することができない。 Implicit part networks predict both the body and clothes from scanned or reconstructed point clouds, but they require 3D scans and cannot handle RGB images as input, nor facial expression and appearance. Implicit part networks also explicitly fit a human prior model after predicting only labels that identify voxels as body or clothes, making them slow. Neural Body and Animatable NeRF use neural radiance fields (NeRFs) to predict clothes human bodies without facial expression. However, these require the creation of dense latent code volumes, which are limited to low resolution, resulting in coarse body shapes. Furthermore, these methods can only reconstruct volumetric human models that do not include mesh vertex correspondences.
マルチビューニューラル人間予測(Multiview neural human prediction)が、カメラ校正を与えられたマルチビュー画像セットから、骨格、体形、並びに衣服の変位及び外観を含む3D人間モデルを予測することを含む。 Multiview neural human prediction involves predicting a 3D human model, including bone structure, body shape, and clothing displacement and appearance, from a set of multiview images given camera calibration.
1つの態様では、ニューラルネットワークが、異なるビューからの単一画像又は複数画像であることができる入力画像セットを受け取って、層状3D人間モデル(layered 3D human model)を予測する。画像セットは、N×w×h×cのサイズの4Dテンソルを含み、ここで、Nはビューの数であり、wは画像の幅であり、hは画像の高さであり、cは画像のチャネルである。画像セットのためのカメラ情報は既知である。出力モデルは、内側から外側に向かって、予測されたポーズの骨格、顔表情を含む予測された形状の裸の3D身体(例えば、ブレンドシェイプ(blendshapes)及び関節回転によってパラメータ化されたSMPL-Xモデル)、及び入力画像から推測される衣服変位及び外観RGB色の3D場という3つの層を含む。裸の3D人体メッシュを衣服変位場(clothes displacement field)に従って変形させることによって着衣姿の人体メッシュ(clothed body mesh)が取得される。 In one aspect, a neural network receives an input image set, which can be a single image or multiple images from different views, and predicts a layered 3D human model. The image set contains a 4D tensor of size Nxwxhxc, where N is the number of views, w is the image width, h is the image height, and c is the image channel. The camera information for the image set is known. The output model contains three layers, from inside to outside: a skeleton with a predicted pose; a naked 3D body with a predicted shape including facial expression (e.g., an SMPL-X model parameterized by blendshapes and joint rotations); and a 3D field of clothing displacement and appearance RGB color inferred from the input images. A clothed body mesh is obtained by deforming a naked 3D body mesh according to the clothes displacement field.
別の態様では、ニューラルネットワークが、入力画像セットを特徴に符号化するマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)、特徴を人間パラメータに回帰させる人間メッシュ復元多層パーセプトロン(human mesh recovery multilayer perceptron:HMR MLP)、及びMVS-3DCNNを微調整してクエリ3D光線(3D位置及び方向)をRGBカラー及び衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(neural radiance field multilayer perceptron:NeRF MLP)という3つのサブネットワークで構成される。 In another aspect, the neural network is composed of three sub-networks: a multi-view stereo 3D convolutional neural network (MVS-3DCNN) that encodes the input image set into features; a human mesh recovery multilayer perceptron (HMR MLP) that regresses the features onto human parameters; and a neural radiance field multilayer perceptron (NeRF MLP) that fine-tunes the MVS-3DCNN to decode query 3D rays (3D position and orientation) into RGB color and clothing-body displacement.
別の態様では、テスト/推論モードにおいて、層状3D人間モデルの予測が、訓練データ内のカメラのビュー範囲内で、明示的な数値最適化を伴わずに、小さな入力セットについて、装置に依存せず、完全に自動であり、リアルタイムである。訓練済みニューラルネットワークを用いて予測する際には、MVS-3DCNNが、マルチビュー画像セットを入力として受け取り、正面ビューを基準ビューとして選択し、特徴量を抽出する。HMR MLPは、全ての特徴量を人間のポーズ、形状、顔表情パラメータに回帰させる。SMPL-Xモデルは、パラメータに従って人間の裸体メッシュを生成する。その後、裸体メッシュは、バウンディングボックス内の占有フィールドに変換される。訓練済みNeRF MLPは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する。カメラビュー(入力ビューと同じビュー、又はいずれかの新規ビュー)の全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観をRGB画像としてレンダリングすることができる。サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、SMPL-Xモデルと同じ頂点対応のSMPL-X+Dなどの着衣姿の人体メッシュを取得することができる。 In another aspect, in test/inference mode, prediction of a layered 3D human model is device-independent, fully automatic, and real-time for a small input set within the view range of the cameras in the training data, without explicit numerical optimization. When predicting using a trained neural network, the MVS-3DCNN receives a multi-view image set as input, selects a frontal view as the reference view, and extracts features. The HMR MLP regresses all features onto human pose, shape, and facial expression parameters. The SMPL-X model generates a human nude body mesh according to the parameters. The nude body mesh is then converted into an occupancy field within a bounding box. The trained NeRF MLP generates RGB colors and 3D displacement vectors representing the nude body surface for any 3D point near the body mesh associated with the ray direction from each center of view. By querying all rays cast from all pixels in a camera view (either the same view as the input view or any new view), the appearance of a clothed human body can be rendered as an RGB image. By deforming the nude body using 3D displacement vectors from the sampled points, a clothed human body mesh such as SMPL-X+D can be obtained with the same vertex correspondence as the SMPL-X model.
別の態様では、ニューラルネットワークの訓練が、教師あり及び自己教師ありという2つの事例を含む。教師ありの事例では、例えばH36Mデータセットなどの、既知の人間パラメータを有するラベル付きデータセットが与えられる。グランドトゥルース(GT)のパラメータ及び形状を、CNN回帰されたパラメータ及び形状と比較する。その差分を形状損失として計算する。一方で、入力画像セット内のサンプリングされた画素から光線を投じ、NeRF MLPが光線をレンダリングして、パラメータを裸体の密度及び3D衣服変位の関数である色及び密度に回帰させる。色損失は、サンプリングされた画素色とレンダリングされた色との差分の合計によって計算される。一方で、モーションキャプチャデータセットなどの、GT人間パラメータが未知である既存のデータセットでは、自己教師あり/自己改善訓練(self-improving training)が利用される。各訓練反復では、MVS 3DCNNからパラメータを回帰させた後に、これらをSMPLifyXなどの最適化ベースの人間予測アルゴリズムに送り、明示的数値最適化法(explicit numerical optimization approaches)によって最適化する。最適化されたパラメータは、CNN回帰されたパラメータと比較されて形状損失になる。残りのステップは教師あり訓練と同じであるが、自己改善訓練は教師ありの事例よりも多くのエポック及び長い時間を要する。全体的なニューラルネットワークの訓練は、形状損失及び色損失の両方を最小化するAdamなどの並列最適化アルゴリズムによって実行され、最適化されたネットワークの重みが出力される。 In another aspect, neural network training includes two cases: supervised and self-supervised. In the supervised case, a labeled dataset with known human parameters, such as the H36M dataset, is given. The ground truth (GT) parameters and shape are compared with the CNN-regressed parameters and shape. The difference is calculated as the shape loss. On the other hand, rays are cast from sampled pixels in the input image set, and NeRF MLP renders the rays to regress the parameters to color and density, which are functions of nude body density and 3D clothing displacement. The color loss is calculated by summing the difference between the sampled pixel color and the rendered color. On the other hand, for existing datasets where GT human parameters are unknown, such as motion capture datasets, self-supervised/self-improving training is used. In each training iteration, parameters are regressed from the MVS 3DCNN, then fed into an optimization-based human predictive algorithm such as SMPLifyX and optimized using explicit numerical optimization approaches. The optimized parameters are compared to the CNN regressed parameters to obtain the shape loss. The remaining steps are the same as supervised training, but self-improvement training requires more epochs and longer time than supervised training. Overall neural network training is performed using a parallel optimization algorithm such as Adam, which minimizes both the shape loss and color loss, and the optimized network weights are output.
ニューラル人間予測が、画像セット(単一の画像又はマルチビュー画像)から骨格のポーズ、体形、並びに衣服の変位及び外観を含む3D人間モデルを予測することを含む。ニューラル人間予測の実施形態は、ニューラルネットワークの使用方法について説明する。マルチビューニューラル人間予測は、単一画像ベースのモーションキャプチャ(mocap)及び人間リフティング(human lifting)を品質及びロバスト性において上回り、メモリコストの高いまばらな点群を入力として受け取って低速で実行する暗黙的パーツネットワークなどの身体衣服予測ネットワークのアーキテクチャを単純化し、3Dボリューム全体を符号化するNeural Bodyなどの潜在コードベースのネットワークの解像度制限を回避する。 Neural human prediction involves predicting a 3D human model, including skeletal pose, body shape, and clothing displacement and appearance, from a set of images (single or multi-view images). An embodiment of neural human prediction describes the use of neural networks. Multi-view neural human prediction surpasses single-image-based motion capture (mocap) and human lifting in quality and robustness, simplifies the architecture of body-clothes prediction networks such as implicit part networks, which take sparse point clouds as input and run slowly, and avoids the resolution limitations of latent code-based networks such as Neural Body, which encode the entire 3D volume.
図1は、いくつかの実施形態によるニューラル人間予測のフローチャートである。ステップ100において、被写体の周囲で撮影された写真セットなどの、入力画像セットI、単一画像、又はマルチビュー画像を入力として取得する。入力Iは、N×w×h×cのサイズの4Dテンソルとして表され、Nはビューの数であり、w、h、cはそれぞれ画像幅、画像高さ及び画像チャンネルである。カメラは既に校正済みであり、従ってカメラ情報(例えば、カメラパラメータ)は全て既知である。画像前処理として、Detectron2及びimage Grab-Cutなどの既存の手法を使用して被写体のバウンディングボックス及び前景マスクを抽出する。画像はバウンディングボックスによって切り取られ、同じアスペクト比でw×hのサイズにズームされる。画像境界は黒で塗りつぶされる。 Figure 1 is a flowchart of neural human prediction according to some embodiments. In step 100, an input image set I, a single image, or multi-view images, such as a set of photographs taken around a subject, is obtained as input. The input I is represented as a 4D tensor of size Nxwxhxc, where N is the number of views, and w, h, and c are the image width, image height, and image channel, respectively. The camera has already been calibrated, so all camera information (e.g., camera parameters) is known. For image preprocessing, a bounding box of the subject and a foreground mask are extracted using existing techniques such as Detectron2 and Image Grab-Cut. The image is cropped by the bounding box and zoomed to a size of wxh with the same aspect ratio. The image border is filled with black.
ニューラルネットワーク(MVS-PERF)102は、入力画像セットを特徴に符号化するマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)104、特徴を人間パラメータに回帰させる人間メッシュ復元多層パーセプトロン(HMR MLP)106、及びMVS-3DCNNを微調整してクエリ3D光線(3D位置及び方向)をRGBカラー及び衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(NeRF MLP)108という3つのコンポーネントで構成される。 The neural network (MVS-PERF) 102 consists of three components: a multi-view stereo 3D convolutional neural network (MVS-3DCNN) 104 that encodes the input image set into features; a human mesh reconstruction multi-layer perceptron (HMR MLP) 106 that regresses the features onto human parameters; and a neural luminance field multi-layer perceptron (NeRF MLP) 108 that fine-tunes the MVS-3DCNN to decode query 3D rays (3D position and orientation) into RGB color and clothing-body displacement.
ステップ104において、深層2D CNNが各ビューから画像特徴を抽出する。各畳み込み層の後には、最後の層を除いてバッチ正規化(BN)層及び整流化線形ユニット(rectified linear unit:ReLU)が続く。2つのダウンサンプリング層も配置される。2D CNNの出力は、w/4×h/4×32のサイズの特徴マップである。 In step 104, a deep 2D CNN extracts image features from each view. Each convolutional layer, except the last, is followed by a batch normalization (BN) layer and a rectified linear unit (ReLU). Two downsampling layers are also deployed. The output of the 2D CNN is a feature map of size w/4 x h/4 x 32.
その後、あるビューを基準ビューとして選択し、その視錐台(view frustum)を透視投影及び近遠面(near far planes)に従って被写体の作業空間全体をカバーするように設定する。この錐台を、近い面及び遠い面の両方に平行なd個の深度面によって近くから遠くにサンプリングする。全ての特徴マップを各深度面に変換してブレンドする。i=1、2、...、Nであるいずれかのビューiについて、(1をインデックスとする)基準ビューに対する3×3のホモグラフィ画像ワーピング行列(homography image warping matrix)が以下の数式によって与えられる。
Then, a view is selected as the reference view, and its view frustum is set to cover the entire workspace of the subject according to the perspective projection and near-far planes. This frustum is sampled from near to far with d depth planes parallel to both the near and far planes. All feature maps are transformed to each depth plane and blended. For any view i, i = 1, 2, ..., N, the 3x3 homography image warping matrix for the reference view (indexed from 1) is given by the following formula:
ここで、K,[R,t]はカメラの固有パラメータ及び外部パラメータを表し、zは深度面から基準ビューのカメラ中心までの距離であり、nは深度面の法線方向である。 Here, K, [R, t] represent the intrinsic and extrinsic parameters of the camera, z is the distance from the depth plane to the camera center of the reference view, and n is the normal direction to the depth plane.
全ての画像が深度面にワープされた後に、全ての特徴の分散
によって座標(u,v,z)におけるコストを決定する。
は、全てのビューの平均特徴値である。
コストボリュームのサイズは、d×w/4×h/4である。
After all images are warped to the depth plane, the variance of all features
The cost at coordinates (u, v, z) is determined by:
is the average feature value of all views.
The size of the cost volume is d×w/4×h/4.
ステップ106において、人間メッシュ復元多層パーセプトロン(HMR MLP)が、フラット化層(flatten layer)及びドロップアウト層(dropout layer)によって分離された3層の線形回帰を含む。HMR MLPは、MVS 3DCNNからの特徴量を人体パラメータθreg114に回帰させる。 In step 106, a human mesh reconstruction multi-layer perceptron (HMR MLP) contains three layers of linear regression separated by flatten and dropout layers. The HMR MLP regresses the features from the MVS 3DCNN onto the body parameters θ reg 114.
人体パラメータθregは、SMPL-Xなどの人体パラメトリックモデルを3D裸体メッシュ202に操作することができる。通常、SMPL-X表現θregは、骨格ポーズ(各関節の3次元回転角)、身長及び体重などの体形を制御するボディブレンドシェイプパラメータ、並びに顔表情を制御するフェイシャルブレンドシェイプパラメータを含む。θregは、ブレンドシェイプパラメータを使用してTポーズメッシュを構築し、これを線形スキニングモデルの骨格ポーズによってポーズメッシュに変形させる。 The human body parameters θ reg can manipulate a human body parametric model such as SMPL-X into a 3D nude body mesh 202. Typically, the SMPL-X representation θ reg includes a skeleton pose (3D rotation angle of each joint), body blendshape parameters that control body shape such as height and weight, and facial blendshape parameters that control facial expression. θ reg uses the blendshape parameters to construct a T-pose mesh, which is then deformed into a pose mesh by the skeleton pose of a linear skinning model.
一方では、ステップ108において、コストボリュームがニューラル輝度場(NeRF)などの微分可能なレンダリングMLPに送られる。NeRF MLPは、3D位置x及び方向φによって表されるクエリ光線を4チャンネルカラーRGBσにマッピングする関数Mとしてc(x、φ)=M(x、φ、f;Γ)のように定式化される。fは、錐台MVS 3DCNN104のコストボリュームからNeRFボリュームへの特徴マップであり、Γは、NeRF MLPネットワークの重みであり、σは、3Dポイントがメッシュ内に存在する場合の確率の占有密度を表す。裸体の占有密度場σbは、錐台104のメッシュ202(図2)を変換することによって直接取得することができる。また、着衣姿の身体の密度場σは、3次元変位ベクトル場Dと特徴量マップfとの関数:σ(D、f)として表すことができる。3次元変位ベクトル場D116は、着衣姿の身体表面204上の点が裸体表面上の点とどのように関連しているかを表す。NeRF MLPを訓練すると、変位ベクトル場Dも最適化される。 Meanwhile, in step 108, the cost volume is sent to a differentiable rendering MLP, such as a neural luminance field (NeRF). The NeRF MLP is formulated as c(x, φ) = M(x, φ, f; Γ), where M is a function that maps a query ray, represented by a 3D position x and direction φ, to a four-channel color RGB σ. f is the feature map from the cost volume to the NeRF volume in the frustum MVS 3DCNN 104, Γ is the weight of the NeRF MLP network, and σ represents the occupancy density of the probability that a 3D point exists within the mesh. The occupancy density field σb for a nude body can be directly obtained by transforming the mesh 202 (Figure 2) of the frustum 104. The density field σ for a clothed body can be expressed as σ(D, f), a function of the 3D displacement vector field D and the feature map f. The 3D displacement vector field D116 represents how points on the clothed body surface 204 relate to points on the nude body surface. Training the NeRF MLP also optimizes the displacement vector field D.
図2は、いくつかの実施形態による、全てのネットワークMVS 3DCNN、HMR MLP及びNeRF MLPの重みが訓練されて固定された、テンソル表記によって表される前方予測のワークフローである。透視投影画像からの画素の全ての光線200を問い合わせることによって、外観画像112がレンダリングされる。いくつかの実施形態では、3D人間予測110が実装される。人体の近くのサンプリングされた点を問い合わせることによって、変位フィールドD116が取得される。着衣姿の出力メッシュがテンプレートと同じトポロジーを有する人間パフォーマンスキャプチャタスクでは、各頂点に補間変位ベクトル(interpolated displacement vector)を追加することによって、裸体メッシュVb202を着衣姿の身体メッシュVc204に変形することができる。 2 illustrates a workflow for forward prediction represented by tensor notation, where the weights of all networks (MVS 3DCNN, HMR MLP, and NeRF MLP) are trained and fixed, according to some embodiments. An appearance image 112 is rendered by querying all rays 200 of pixels from a perspective projection image. In some embodiments, 3D human prediction 110 is implemented. A displacement field D116 is obtained by querying sampled points near the human body. For human performance capture tasks, where the clothed output mesh has the same topology as the template, a nude body mesh Vb 202 can be deformed into a clothed body mesh Vc 204 by adding an interpolated displacement vector to each vertex.
図3は、いくつかの実施形態による、スーパービジョンを用いてネットワークを訓練するワークフローである。Human3.6Mなどの教師あり訓練データセットは、画像入力I100だけでなく、グランドトゥルース人間パラメータθgt300及び裸体メッシュVb、gt302も含み、通常、これらはセンサ又は既存の手法によって取得される。この事例では、予測される裸体とグランドトゥルースとの差分を合計することによって、形状損失304が直接取得される。
ここで、Jは裸体の関節であり、Πは各カメラビューの3D点の透視投影を表す。ネットワークを効果的に訓練するために、各訓練ステップでは、全てのビューがMVS 3DCNNの基準ビューとして順番に選択される。
3 illustrates a workflow for training a network with supervision, according to some embodiments. A supervised training dataset, such as Human3.6M, includes not only image inputs I100 but also ground truth human parameters θ gt 300 and a nude body mesh V b,gt 302, typically acquired by sensors or existing techniques. In this case, the shape loss 304 is obtained directly by summing the differences between the predicted nude body and the ground truth.
where J is the joint of the bare body and Π represents the perspective projection of the 3D points in each camera view. To train the network effectively, in each training step, all views are selected in turn as reference views for the MVS 3DCNN.
一方で、典型的には画像顕著性(image saliency)に比例する不均一なサンプリング戦略を使用して、入力画像セット100から光線306がサンプリングされる。高顕著性領域では多くの光線がサンプリングされ、平坦領域又は背景領域からは少ない光線がサンプリングされる。これらの光線は、MVS 3DCNN104からの特徴マップと共にNeRF MLP106に送られ、NeRF MLP106がサンプルの外観RGBσ色308をレンダリングする。入力画像内のサンプリングされた色とレンダリングされた色308との全ての差分を合計することによって色損失310が計算される。 Meanwhile, rays 306 are sampled from the input image set 100 using a non-uniform sampling strategy that is typically proportional to image saliency. More rays are sampled in high-saliency regions and fewer rays are sampled from flat or background regions. These rays, along with the feature map from the MVS 3DCNN 104, are sent to the NeRF MLP 106, which renders the sample's appearance RGBσ color 308. The color loss 310 is calculated by summing all the differences between the sampled colors in the input image and the rendered color 308.
Adamなどの並列化された確率的最適化アルゴリズム(parallelized stochastic optimization algorithm)を適用して、形状損失及び色損失の両方を最小化することによって全てのネットワークMVS 3DCNN、HMR MLP、NeRF MLPの重みを訓練する。 We apply a parallelized stochastic optimization algorithm such as Adam to train the weights of all networks (MVS 3DCNN, HMR MLP, NeRF MLP) by minimizing both shape and color losses.
図4は、いくつかの実施形態による、自己改善戦略においてネットワークを訓練するワークフローである。この事例では、訓練データセットが、注釈又は人間グランドトゥルースパラメータを含まない人間画像のみを提供する。入力セット100内の各画像について、回帰されたパラメータθreg114を初期推測として選択することにより、SMPLifyXアルゴリズムなどの最適化ベースの予測400を適用する。最適化ベースの予測は、最初に各画像上の人間の2Dキーポイントを検出し、非線形最適化を適用して3D人間にフィットさせる。
これらの2Dキーポイントに(θopt402によってパラメータ化された)メッシュVb,opt404を適用する。
4 illustrates a workflow for training a network in a self-improvement strategy, according to some embodiments. In this case, the training dataset provides only human images without annotations or human ground truth parameters. For each image in the input set 100, we apply an optimization-based prediction 400, such as the SMPLifyX algorithm, by selecting the regressed parameters θ reg 114 as an initial guess. The optimization-based prediction first detects 2D human keypoints on each image and applies nonlinear optimization to fit a 3D human.
A mesh V b,opt 404 (parameterized by θ opt 402 ) is applied to these 2D keypoints.
ここで、Kは、キーポイントの検出された2D位置を示し、合計は全ての対応するキーポイント及び全てのビューを引き継ぐ。 Here, K denotes the detected 2D position of the keypoint, and the sum is over all corresponding keypoints and all views.
非線形最小二乗最適化は数値的に遅く、フィッティング精度は初期推測θregに依存するが、信頼度は高い。十分なフィッティングの反復後には、θoptがグランドトゥルースに近くなる。従って、自己改善訓練ワークフローは、以下に要約するようにθoptをグランドトゥルースに向けて効率的に改善することができる。
自己改善訓練ワークフロー:
以下を実行
MVS-3DCNNからθregを計算し、入力IからHMR MLPを計算
θregを初期推測、Iを入力として、SMPLifyXからθoptを計算
Iから光線をサンプリングし、NeRF MLPからサンプリングされた色cを計算
ShapeLoss及びColorLossを計算
ShapeLoss及びColorLossを最小化することによってMVS 3DCNN、HMR MLP及びNeRF MLPのネットワークの重みを更新
全ての訓練データについて重みが収束するまで反復
Nonlinear least-squares optimization is numerically slow, and the fitting accuracy depends on the initial guess θreg , but it is highly reliable. After enough fitting iterations, θopt approaches the ground truth. Therefore, a self-improvement training workflow can efficiently improve θopt toward the ground truth, as summarized below.
Self-improvement training workflow:
Do the following: Calculate θ reg from MVS-3DCNN and calculate HMR MLP from input I Calculate θ opt from SMPLifyX using θ reg as the initial guess and I as input Sample rays from I and calculate sampled color c from NeRF MLP Calculate ShapeLoss and ColorLoss Update the network weights of MVS 3DCNN, HMR MLP, and NeRF MLP by minimizing ShapeLoss and ColorLoss Iterate on all training data until the weights converge
図5に、いくつかの実施形態による、各ビューのMVS 3DCNNのNeRF MLPへのアライメントを示す。 Figure 5 shows the alignment of MVS 3DCNN to NeRF MLP for each view, according to some embodiments.
動作時には、例えばゲームスタジオにおけるマーカーレスモーションキャプチャ、又は人間3D表面再構成RGBカメラセットアップなどの、商業的及び/又は個人的マーカーレスパフォーマンスキャプチャ用途においてニューラル人間予測を直接適用することができる。マルチビューニューラル人間予測の実施形態の他の用途は、いずれかの拡張と組み合わせることができるリアルタイムバックボーン技術として、例えば深度センシングの入力、3Dモデリング、又は新規アニメーションを作成するための出力の使用を組み合わせることができる。マルチビューニューラル人間予測は、ゲーム用途、VR/AR用途、及びいずれかのリアルタイムヒューマンインタラクション用途において適用することもできる。マルチビューニューラル人間予測は、使用するハードウェア(例えば、GPUプロセッサの速度及びGPUメモリのサイズ)に応じて、予測のために少量のビューを処理する際にはリアルタイムとし、より多くのビュー(例えば、20)の場合には近リアルタイム処理及び予測を実装することができる。 In operation, neural human prediction can be directly applied in commercial and/or personal markerless performance capture applications, such as markerless motion capture in game studios or human 3D surface reconstruction RGB camera setups. Other applications of multi-view neural human prediction embodiments can combine, for example, depth sensing input, 3D modeling, or using the output to create novel animations as a real-time backbone technology that can be combined with any extensions. Multi-view neural human prediction can also be applied in gaming applications, VR/AR applications, and any real-time human interaction applications. Depending on the hardware used (e.g., GPU processor speed and GPU memory size), multi-view neural human prediction can be real-time when processing a small number of views for prediction, or can implement near-real-time processing and prediction for a larger number of views (e.g., 20).
本明細書で説明した方法は、いずれかのコンピュータ装置上に実装することができる。好適なコンピュータ装置の例としては、パーソナルコンピュータ、ラップトップコンピュータ、コンピュータワークステーション、サーバ、メインフレームコンピュータ、ハンドヘルドコンピュータ、携帯情報端末、セルラ/携帯電話機、スマート家電、ゲーム機、デジタルカメラ、デジタルカムコーダ、カメラ付き電話機、スマートホン、ポータブル音楽プレーヤ、タブレットコンピュータ、モバイル装置、ビデオプレーヤ、ビデオディスクライタ/プレーヤ(DVDライタ/プレーヤ、高精細ディスクライタ/プレーヤ、超高精細ディスクライタ/プレーヤなど)、テレビ、家庭用エンターテイメントシステム、拡張現実装置、仮想現実装置、スマートジュエリ(例えば、スマートウォッチ)、車両(例えば、自動走行車両)、又はその他のいずれかの好適なコンピュータ装置が挙げられる。 The methods described herein may be implemented on any computing device. Examples of suitable computing devices include a personal computer, a laptop computer, a computer workstation, a server, a mainframe computer, a handheld computer, a personal digital assistant, a cellular/mobile phone, a smart appliance, a gaming console, a digital camera, a digital camcorder, a camera phone, a smartphone, a portable music player, a tablet computer, a mobile device, a video player, a video disc writer/player (such as a DVD writer/player, a high-definition disc writer/player, or an ultra-high-definition disc writer/player), a television, a home entertainment system, an augmented reality device, a virtual reality device, smart jewelry (e.g., a smart watch), a vehicle (e.g., an autonomous vehicle), or any other suitable computing device.
顔表情、身体ポーズ形状及び衣服パフォーマンスキャプチャのための暗黙的微分可能レンダラーを用いたマルチビューニューラル人間予測のいくつかの実施形態
1.装置の非一時的なものにプログラムされた方法であって、
画像セットを入力として取得することと、
ニューラルネットワークを使用して画像セットを処理することと、
を含み、処理は、
画像セットを1又は2以上の特徴に符号化することと、
特徴を人間パラメータに回帰させることと、
ニューラルネットワークを微調整することと、
クエリ3D光線を、画像セットに基づくRGBカラー及び衣服-身体変位に復号することと、
を含む、方法。
Some embodiments of multi-view neural human prediction using an implicit differentiable renderer for facial expression, body pose shape, and clothing performance capture: 1. A method programmed into a non-transient device, comprising:
Taking as input a set of images;
Processing the image set using a neural network;
and the processing comprises:
encoding the set of images into one or more features;
Regressing features onto human parameters;
Fine-tuning the neural network and
Decoding the query 3D ray into RGB color and clothes-body displacement based on the image set;
A method comprising:
2.画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、条項1の方法。 2. The method of clause 1, wherein the image set comprises a 4D tensor of size Nxwxhxc, where N is the number of views, w is the image width, h is the image height, and c is the image channel.
3.ニューラルネットワークは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項1の方法。 3. The method of clause 1, in which the neural network selects a frontal view from the image set as a reference view and extracts features.
4.ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項3の方法。 4. The neural network regresses all features onto human pose, shape, and facial expression parameters, a method described in clause 3.
5.ニューラルネットワークは、パラメータに従って人間の裸体メッシュを生成する、条項4の方法。 5. The method of clause 4, wherein the neural network generates a nude human body mesh according to the parameters.
6.裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項5の方法。 6. The nude mesh is converted to an occupancy field within a bounding box, as in clause 5.
7.ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、条項6の方法。 7. The method of clause 6, wherein the neural network generates an RGB color and a 3D displacement vector representing the surface of the nude body for any 3D point near the body mesh associated with a ray direction from each center of view.
8.カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項7の方法。 8. The method of clause 7, wherein the appearance of the clothed human body is rendered as an RGB image by querying all rays cast from all pixels in the camera view, and the clothed body mesh is obtained by deforming the nude body using 3D displacement vectors from the sampled points.
9.ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、条項1の方法。 9. The method of clause 1, wherein the neural network is implemented in a supervised mode or a self-supervised mode.
10.アプリケーションを記憶するように構成された非一時的メモリと、
アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、アプリケーションは、
画像セットを入力として取得し、
ニューラルネットワークを使用して画像セットを処理する、ように構成され、処理は、
画像セットを1又は2以上の特徴に符号化することと、
特徴を人間パラメータに回帰させることと、
ニューラルネットワークを微調整することと、
クエリ3D光線を、画像セットに基づくRGBカラー及び衣服-身体変位に復号することと、
を含む、装置。
10. A non-transitory memory configured to store an application;
a processor configured to process the application;
an application comprising:
It takes a set of images as input,
and processing the set of images using a neural network, the processing comprising:
encoding the set of images into one or more features;
Regressing features onto human parameters;
Fine-tuning the neural network and
Decoding the query 3D ray into RGB color and clothes-body displacement based on the image set;
1. An apparatus comprising:
11.画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、条項10の装置。 11. The apparatus of clause 10, wherein the image set comprises a 4D tensor of size Nxwxhxc, where N is the number of views, w is the image width, h is the image height, and c is the image channel.
12.ニューラルネットワークは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項10の装置。 12. The apparatus of clause 10, wherein the neural network selects a frontal view from the image set as a reference view and extracts features.
13.ニューラルネットワークは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項12の装置。 13. The neural network is the device of clause 12 that regresses all features onto human pose, shape, and facial expression parameters.
14.ニューラルネットワークは、パラメータに従って人間の裸体メッシュを生成する、条項13の装置。 14. The apparatus of clause 13, wherein the neural network generates a nude human body mesh according to the parameters.
15.裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項14の装置。 15. The apparatus of clause 14, wherein the nude mesh is converted into an occupancy field within a bounding box.
16.ニューラルネットワークは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、条項15の装置。 16. The apparatus of clause 15, wherein the neural network generates an RGB color and a 3D displacement vector representing the surface of the nude body for any 3D point near the body mesh associated with a ray direction from each center of view.
17.カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項16の装置。 17. The apparatus of clause 16, wherein the appearance of the clothed human body is rendered as an RGB image by querying all rays cast from all pixels in the camera view, and a clothed body mesh is obtained by deforming the nude body using 3D displacement vectors from the sampled points.
18.ニューラルネットワークは、教師ありモード又は自己教師ありモードで実装される、条項10の装置。 18. The apparatus of clause 10, wherein the neural network is implemented in a supervised mode or a self-supervised mode.
19.アプリケーションを記憶するように構成された非一時的メモリと、
アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、アプリケーションは、
入力画像を特徴に符号化するように構成されたマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)と、
特徴を人間パラメータに回帰させるように構成された人間メッシュ復元多層パーセプトロン(HMR MLP)と、
MVS-3DCNNを微調整するように構成され、クエリ3D光線(3D位置及び方向)をRGBカラー及び衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(NeRF MLP)と、
を含む、装置。
19. A non-transitory memory configured to store an application;
a processor configured to process the application;
an application comprising:
a multi-view stereo 3D convolutional neural network (MVS-3DCNN) configured to encode an input image into features;
a human mesh reconstruction multi-layer perceptron (HMR MLP) configured to regress features onto human parameters;
A Neural Luminance Field Multilayer Perceptron (NeRF MLP) configured to fine-tune the MVS-3DCNN and decode the query 3D ray (3D position and orientation) into RGB color and clothes-body displacement;
1. An apparatus comprising:
20.画像セットは、サイズN×w×h×cの4Dテンソルを含み、ここで、Nはビューの数、wは画像の幅、hは画像の高さ、cは画像のチャネルである、条項19の装置。 20. The apparatus of clause 19, wherein the image set comprises a 4D tensor of size Nxwxhxc, where N is the number of views, w is the image width, h is the image height, and c is the image channel.
21.MVS-3DCNNは、画像セットから正面ビューを基準ビューとして選択し、特徴量を抽出する、条項20の装置。 21. The MVS-3DCNN is the apparatus of clause 20, which selects a frontal view from the image set as a reference view and extracts features.
22.HMR MLPは、全ての特徴量を人間のポーズ、形状、表情パラメータに回帰させる、条項21の装置。 22. HMR MLP is the device of Clause 21 that regresses all features onto human pose, shape, and facial expression parameters.
23.パラメータに従って人間の裸体メッシュを生成するように構成されたモデルをさらに備える、条項22の装置。 23. The apparatus of clause 22, further comprising a model configured to generate a nude human body mesh according to the parameters.
24.裸体メッシュは、バウンディングボックス内の占有フィールドに変換される、条項23の装置。 24. The apparatus of clause 23, wherein the nude mesh is converted into an occupancy field within a bounding box.
25.NeRF MLPは、ビューの各中心からの光線方向に関連する身体メッシュの近くのいずれかの3D点について、RGBカラーと、裸体の表面を示す3D変位ベクトルとを生成する、条項24の装置。 25. The apparatus of clause 24, wherein the NeRF MLP generates an RGB color and a 3D displacement vector representing the surface of the nude body for any 3D point near the body mesh associated with a ray direction from each center of view.
26.カメラビューの全ての画素から放たれる全ての光線を問い合わせることにより、着衣姿の人体の外観がRGB画像としてレンダリングされ、サンプリングされた点から3D変位ベクトルを使用して裸体を変形させることにより、着衣姿の身体メッシュが取得される、条項25の装置。 26. The apparatus of clause 25, wherein the appearance of a clothed human body is rendered as an RGB image by querying all rays cast from all pixels in the camera view, and a clothed body mesh is obtained by deforming the nude body using 3D displacement vectors from the sampled points.
本発明の構成及び動作の原理を容易に理解できるように、詳細を含む特定の実施形態に関して本発明を説明した。本明細書におけるこのような特定の実施形態及びこれらの実施形態の詳細についての言及は、本明細書に添付する特許請求の範囲を限定することを意図したものではない。当業者には、特許請求の範囲によって定められる本発明の趣旨及び範囲から逸脱することなく、例示のために選択した実施形態において他の様々な修正を行えることが容易に明らかになるであろう。 The present invention has been described in terms of specific embodiments containing details to facilitate an understanding of the principles of construction and operation of the invention. Reference herein to such specific embodiments and details of these embodiments is not intended to limit the scope of the claims appended hereto. It will be readily apparent to those skilled in the art that various other modifications can be made in the embodiments chosen for illustration without departing from the spirit and scope of the invention as defined by the claims.
100 画像入力I
102 ニューラルネットワーク(MVS-PERF)
104 マルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)
106 人間メッシュ復元多層パーセプトロン(HMR MLP)
108 ニューラル輝度場多層パーセプトロン(NeRF MLP)
110 3D人間予測
112 外観画像
114 人体パラメータθreg
116 3次元変位ベクトル場D
100 Image Input I
102 Neural Network (MVS-PERF)
104 Multi-view stereo 3D convolutional neural network (MVS-3DCNN)
106 Human Mesh Reconstruction Multilayer Perceptron (HMR MLP)
108 Neural Luminance Field Multilayer Perceptron (NeRF MLP)
110 3D human prediction 112 Appearance image 114 Human body parameters θ reg
116 Three-dimensional displacement vector field D
Claims (17)
画像セットを入力として取得することと、
ニューラルネットワークを使用して前記画像セットを処理することと、
を含み、前記処理は、
前記画像セットをマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)に入力することで1又は2以上の特徴に符号化することと、
前記特徴を人間メッシュ復元多層パーセプトロン(HMR MLP)に入力することで人体の体形を制御するパラメータを含む人体パラメータに回帰させることと、
前記ニューラルネットワークを微調整することと、
3D位置及び方向によって表されるクエリ3D光線をニューラル輝度場多層パーセプトロン(NeRF MLP)に入力することで、前記画像セットに基づくRGBカラー、及び、着衣前の身体表面上の点に対する着衣後の身体表面上の点の変位を示す衣服-身体変位に復号することと、
を含む、
ことを特徴とする方法。 1. A method programmed into a non-transient device, comprising:
Taking as input a set of images;
processing the set of images using a neural network;
wherein the process comprises:
encoding the set of images into one or more features by inputting the set into a multi-view stereo 3D convolutional neural network (MVS-3DCNN) ;
inputting the features into a human mesh reconstruction multi-layer perceptron (HMR MLP) to regress the human body parameters, including parameters controlling the shape of the human body;
fine-tuning the neural network;
inputting a query 3D ray represented by a 3D position and orientation into a neural luminance field multi-layer perceptron (NeRF MLP) to decode the 3D ray into an RGB color based on the image set and a clothing-body displacement indicating the displacement of a point on the body surface after clothing relative to the point on the body surface before clothing is worn;
Including,
A method characterized by:
請求項1に記載の方法。 The image set comprises a 4D tensor of size Nxwxhxc, where N is the number of views, w is the image width, h is the image height, and c is the image channel.
The method of claim 1.
請求項1に記載の方法。 The neural network selects a front view from the image set as a reference view and extracts features.
The method of claim 1.
請求項3に記載の方法。 The neural network regresses all features onto human pose, shape, and facial expression parameters.
The method of claim 3.
請求項4に記載の方法。 the neural network generates a nude human body mesh according to the human body parameters;
The method of claim 4.
請求項5に記載の方法。 The nude mesh is converted into an occupancy field within a bounding box.
The method of claim 5.
請求項6に記載の方法。 the neural network generates, for any 3D point near the body mesh associated with a ray direction from each center of view, the RGB color and a 3D displacement vector representing the surface of the nude body;
The method of claim 6.
請求項7に記載の方法。 The appearance of the clothed human body is rendered as an RGB image by querying all rays cast from all pixels in the camera view, and the clothed body mesh is obtained by deforming the nude body using the 3D displacement vectors from the sampled points.
The method of claim 7.
請求項1に記載の方法。 The neural network is implemented in a supervised or self-supervised mode.
The method of claim 1.
前記アプリケーションを処理するように構成されたプロセッサと、
を備えた装置であって、前記アプリケーションは、
入力画像を特徴に符号化するように構成されたマルチビューステレオ3D畳み込みニューラルネットワーク(MVS-3DCNN)と、
前記特徴を人体の体形を制御するパラメータを含む人体パラメータに回帰させるように構成された人間メッシュ復元多層パーセプトロン(HMR MLP)と、
前記MVS-3DCNNを微調整するように構成され、3D位置及び方向によって表されるクエリ3D光線(3D位置及び方向)をRGBカラー、及び、着衣前の身体表面上の点に対する着衣後の身体表面上の点の変位を示す衣服-身体変位に復号するニューラル輝度場多層パーセプトロン(NeRF MLP)と、
を含む、
ことを特徴とする装置。 a non-transitory memory configured to store an application;
a processor configured to process the application;
and wherein the application comprises:
a multi-view stereo 3D convolutional neural network (MVS-3DCNN) configured to encode an input image into features;
a human mesh reconstruction multi-layer perceptron (HMR MLP) configured to regress the features to human body parameters, including parameters controlling the shape of the human body;
a Neural Luminance Field Multilayer Perceptron (NeRF MLP) configured to fine-tune the MVS-3DCNN and decode a query 3D ray (3D position and orientation) represented by a 3D position and orientation into an RGB color and a clothes-body displacement indicating the displacement of a point on the body surface after wearing the clothes relative to the point on the body surface before wearing the clothes;
Including,
An apparatus characterized in that
請求項10に記載の装置。 The input image comprises a 4D tensor of size Nxwxhxc, where N is the number of views, w is the image width, h is the image height, and c is the image channel.
11. The apparatus of claim 10 .
請求項11に記載の装置。 The MVS-3DCNN selects a front view from the input image as a reference view and extracts features.
12. The apparatus of claim 11 .
請求項12に記載の装置。 The HMR MLP regresses all features onto human pose, shape, and facial expression parameters.
13. The apparatus of claim 12 .
請求項13に記載の装置。 further comprising a model configured to generate a nude human body mesh according to the parameters;
14. The apparatus of claim 13 .
請求項14に記載の装置。 The nude mesh is converted into an occupancy field within a bounding box.
15. The apparatus of claim 14 .
請求項15に記載の装置。 The NeRF MLP generates, for any 3D point near the body mesh associated with a ray direction from each center of view, the RGB color and a 3D displacement vector representing the surface of the nude body.
16. The apparatus of claim 15 .
請求項16に記載の装置。 The appearance of the clothed human body is rendered as an RGB image by querying all rays cast from all pixels in the camera view, and the clothed body mesh is obtained by deforming the nude body using the 3D displacement vectors from the sampled points.
17. The apparatus of claim 16 .
Applications Claiming Priority (7)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US202163168467P | 2021-03-31 | 2021-03-31 | |
| US63/168,467 | 2021-03-31 | ||
| US202163279916P | 2021-11-16 | 2021-11-16 | |
| US63/279,916 | 2021-11-16 | ||
| US17/701,991 | 2022-03-23 | ||
| US17/701,991 US11961266B2 (en) | 2021-03-31 | 2022-03-23 | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture |
| PCT/IB2022/053034 WO2022208440A1 (en) | 2021-03-31 | 2022-03-31 | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2024510230A JP2024510230A (en) | 2024-03-06 |
| JP7789798B2 true JP7789798B2 (en) | 2025-12-22 |
Family
ID=81328451
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2023556536A Active JP7789798B2 (en) | 2021-03-31 | 2022-03-31 | Multi-view Neural Human Prediction with an Implicit Differentiable Renderer for Facial Expression, Body Pose Shape, and Clothing Performance Capture |
Country Status (5)
| Country | Link |
|---|---|
| EP (1) | EP4292059A1 (en) |
| JP (1) | JP7789798B2 (en) |
| KR (1) | KR20230150867A (en) |
| CN (1) | CN116134491A (en) |
| WO (1) | WO2022208440A1 (en) |
Families Citing this family (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN116758202A (en) * | 2023-03-14 | 2023-09-15 | 中国科学院深圳先进技术研究院 | Human hand image synthesis method, device, electronic equipment and storage medium |
| CN116824092B (en) * | 2023-08-28 | 2023-12-19 | 深圳星坊科技有限公司 | Three-dimensional model generation method, three-dimensional model generation device, computer equipment and storage medium |
| CN117238420A (en) * | 2023-11-14 | 2023-12-15 | 太原理工大学 | A method and device for predicting mechanical properties of ultra-thin strips |
| CN118587332B (en) * | 2024-05-22 | 2025-03-11 | 西南交通大学 | A human body mesh reconstruction method based on pose transformation |
| CN119478246B (en) * | 2024-11-26 | 2025-10-17 | 华中科技大学 | Lunar soil test piece in-situ three-dimensional reconstruction method based on improved neural radiation field algorithm |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190371080A1 (en) | 2018-06-05 | 2019-12-05 | Cristian SMINCHISESCU | Image processing method, system and device |
| CN112465955A (en) | 2020-12-10 | 2021-03-09 | 浙江大学 | Dynamic human body three-dimensional reconstruction and visual angle synthesis method |
Family Cites Families (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US6891535B2 (en) * | 2001-03-16 | 2005-05-10 | Mitsubishi Electric Research Labs, Inc. | System and method for modeling graphics objects |
| US10679046B1 (en) * | 2016-11-29 | 2020-06-09 | MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. | Machine learning systems and methods of estimating body shape from images |
| GB201703129D0 (en) * | 2017-02-27 | 2017-04-12 | Metail Ltd | Quibbler |
| EP3745352B1 (en) * | 2019-05-31 | 2023-01-18 | presize GmbH | Methods and systems for determining body measurements and providing clothing size recommendations |
-
2022
- 2022-03-31 CN CN202280006134.7A patent/CN116134491A/en active Pending
- 2022-03-31 JP JP2023556536A patent/JP7789798B2/en active Active
- 2022-03-31 KR KR1020237033483A patent/KR20230150867A/en active Pending
- 2022-03-31 WO PCT/IB2022/053034 patent/WO2022208440A1/en not_active Ceased
- 2022-03-31 EP EP22715732.8A patent/EP4292059A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20190371080A1 (en) | 2018-06-05 | 2019-12-05 | Cristian SMINCHISESCU | Image processing method, system and device |
| CN112465955A (en) | 2020-12-10 | 2021-03-09 | 浙江大学 | Dynamic human body three-dimensional reconstruction and visual angle synthesis method |
Non-Patent Citations (6)
| Title |
|---|
| Fuyang Huang; Ailing Zeng; Minhao Liu; Qiuxia Lai; Qiang Xu,DeepFuse: An IMU-Aware Network for Real-Time 3D Human Pose Estimation from Multi-View Image,2020 IEEE Winter Conference on Applications of Computer Vision (WACV),米国,IEEE,2020年03月01日,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9093526 |
| Hanbyul Joo, Tomas Simon, Yaser Sheikh,Total Capture: A 3D Deformation Model for Tracking Faces, Hands, and Bodies,ArXiv,米国,Cornell University,2018年01月05日,https://arxiv.org/pdf/1801.01615 |
| Keze Wang; Liang Lin; Chenhan Jiang; Chen Qian; Pengxu Wei,3D Human Pose Machines with Self-Supervised Learning,IEEE Transactions on Pattern Analysis and Machine Intelligence,米国,IEEE,2019年01月13日,Volume: 42, Issue: 5,https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8611195 |
| Sida Peng, Yuanqing Zhang, Yinghao Xu, Qianqian Wang, Qing Shuai, Hujun Bao, Xiaowei Zhou,Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans,ArXiv,米国,Cornell University,2021年03月29日,https://arxiv.org/pdf/2012.15838 |
| Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, Yaser Sheikh,OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields,ArXiv,米国,Cornell University,2019年05月30日,https://arxiv.org/pdf/1812.08008 |
| 佐々木 翔大,延原 章平,西野 恒,単眼映像からの着せ替え可能な人体モデルの復元,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM) 2023-CVIM-234 [online],日本,情報処理学会,2023年05月11日 |
Also Published As
| Publication number | Publication date |
|---|---|
| JP2024510230A (en) | 2024-03-06 |
| WO2022208440A1 (en) | 2022-10-06 |
| EP4292059A1 (en) | 2023-12-20 |
| CN116134491A (en) | 2023-05-16 |
| KR20230150867A (en) | 2023-10-31 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11961266B2 (en) | Multiview neural human prediction using implicit differentiable renderer for facial expression, body pose shape and clothes performance capture | |
| JP7789798B2 (en) | Multi-view Neural Human Prediction with an Implicit Differentiable Renderer for Facial Expression, Body Pose Shape, and Clothing Performance Capture | |
| Mihajlovic et al. | KeypointNeRF: Generalizing image-based volumetric avatars using relative spatial encoding of keypoints | |
| EP4238062B1 (en) | Point-based modeling of human clothing | |
| CN113762147B (en) | Facial expression migration method and device, electronic equipment and storage medium | |
| CN111325794A (en) | Visual simultaneous localization and map construction method based on depth convolution self-encoder | |
| CN108876814B (en) | A method for generating pose flow images | |
| CN114581571B (en) | Monocular human body reconstruction method and device based on IMU and forward deformation field | |
| CN113850900B (en) | Method and system for recovering depth map based on image and geometric clues in 3D reconstruction | |
| CN117557714A (en) | Three-dimensional reconstruction method, electronic device and readable storage medium | |
| EP4150577A1 (en) | Learning articulated shape reconstruction from imagery | |
| CN114996814A (en) | Furniture design system based on deep learning and three-dimensional reconstruction | |
| CN113538682A (en) | Model training method, head reconstruction method, electronic device, and storage medium | |
| CN116758202A (en) | Human hand image synthesis method, device, electronic equipment and storage medium | |
| CN118781276A (en) | Camera tracking mapping method, device and storage medium based on hybrid coding | |
| CN118552615A (en) | A few-view neural radiation field optimization method and system based on object pose probe | |
| CN117911609A (en) | Three-dimensional hand modeling method based on nerve radiation field | |
| CN119991937B (en) | A single-view 3D human body reconstruction method based on Gaussian surface elements | |
| CN119784951A (en) | A method and system for 3D human body reconstruction based on neural radiation field considering motion capture enhancement and importance sampling | |
| CN118115671B (en) | Dynamic perception nerve radiation field modeling method and system guided by optical flow | |
| KR102921515B1 (en) | method for reconstructing three dimension model of dynamic scene | |
| CN121526936B (en) | A method, apparatus, device, and readable storage medium for volumetric video reconstruction. | |
| Kong et al. | Spatio-Temporal Decoupled Neural Radiance Fields for High Fidelity Dynamic View Synthesis | |
| Alldieck et al. | Reconstructing 3D Human Avatars from Monocular Images | |
| Hu et al. | Depth Estimation of Monocular VR Scenes based on Improved Attention Combined with Deep Neural Network Models |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230913 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240724 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240902 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20241128 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20250203 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250228 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250602 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20250902 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20251029 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20251110 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20251210 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7789798 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |