[논문 Summary] Nerfies (2021 ICCV) "Nerfies: Deformable Neural Radiance Fields"

논문 정보

Citation : 2024.01.27 토요일 기준 871회

저자

Keunhong Park, Utkarsh Sinha, Jonathan T. Barron, Sofien Bouaziz, Dan B Goldman, Steven M. Seitz, Ricardo Martin-Brualla

- University of Washington, Google Research

논문 링크

논문 Summary

Abstract

핸드폰을 사용해서 찍은 사진이나 비디오를 활용하여 사실적인 defromable scene을 재구성할 수 있는 방법 제안.

deformable scene (변형할 수 있는 장면)
→ 장면 속 객체나 요소, 환경과 같은 것들이 유연하게 형태가 변형되거나 조절될 수 있음을 나타낸다.

NeRF를 확장하여 deformation field를 만뜰 때 local minima에 빠지는 문제가 있어 coarse-to-fine optimization 방법으로 보다 강건한 최적화가 가능하게 한다.

여기에 기하학적 처리와 물리적 시뮬레이션의 원리를 적용하는 elastic regularization을 deformation field에 제안하여 더 강건하게 한다.

결과적으로 임의의 viewpoint에서도 사실적인 객체 rendering 결과를 확인할 수 있는 방법을 제안.

1. Introduction

고품질 3D human scanning은 엄격히 통제된 특화된 lab에서만 진행될 수 있었지만, 저자들은 휴대폰 카메라로 사실적인 모델을 만드는 방법에 대한 동기로 시작했다.

휴대폰을 통해 사람을 모델링할 때 2가지 어려움이 존재한다.

1) nonrigidity (유연성이라고 해석되지만 여기서는 고정되지 않는 불안정성정도로 해석 가능. 이는 휴대폰을 움직일 때, 객체가 고정되지 않음을 표현하기 위한 단어. 아무리 움직이지 않으려고 해도 작은 떨림이 발생하게 되기 때문.)

2) 머리, 안경, 귀걸이 같은 물질의 재구성에 대한 어려움

여기에 저자들은 free-viewpoint 시각화가 가능한 높은 신뢰도를 가지는 3D 재구성 모델을 NeRF를 통해 제안하고, nerfies(NeRF + Selfies)라 명명한다.

NeRF의 radiance field와 같이 deformation field를 MLP를 통해 표현하지만, 엄격한 제한없이 사용하면 왜곡이나 overfitting이 발생한다.

이에 elastic energy formation을 도입하지만, 여기서는 간단한 regularization 방식을 도입한다.

또한, deformation field 최적화 robust를 위해서 새로운 coarse-to-fine optimization scheme를 제안한다.( positional encoding)

Summary

1) an extension to NeRF to handle non-rigidly deforming objects that optimizes a deformation field per observation

2) rigidity priors suitable for deformation fields defined by neural networks

3) a coarse-to-fine regularization approach that modulates the capacity of the deformation field to model high frequencies during optimization

4) a system to reconstruct free-viewpoint selfies from casual mobile phone captures.

2. Related work

Non-Rigid Reconstruction

Domain-Specific Modeling

Coordinate-based Models

Concurrent Work

3. Deformable ENeural Radiance Fields

3.1 Neural Radiance Fields

(생략 : NeRF 설명)

서로 다른 카메라로부터 교차하는 2개의 ryas는 반드시 동일 color를 산출해야한다는 사실에 기반한 NeRF 훈련 절차가 필요하지만, 실제로는 정적이지 않은 많은 scene때문에 어렵다.

3.2 Neural Deformation Fields

정적이지 않는 장면들의 한계를 극복하기 위해 NeRF를 확장하여 활용.

직접적으로 ray를 쏘는 방식 대신 장면의 표준 template를 사용한다. 표준 template는 장면에 대한 상대적 구조와 appearance를 포함한다. 기존방식 DynamicFusion & Neural Volumes는 deformation을 mesh point와 voxel grid에 각각 정의했지만, 여기서는 MLP로 모델링함.

방식은 간단.

n장의 관찰된 frame에 대해서 observation-to-canonical deformation 수행

즉, 미리 학습한 i번째 프레임별 latent deformation code $w_i$를 조건으로 하는 $T$ mapping을 통해 observation-space coordinate $x$ → canonical-space coordinate로 변환한다.

다만, translation field에서의 포인트들의 회전은 각 포이트별 다른 translation이 필요

Ratation

Translation

3.3 Elastic Regularization

deformation field는 최적화를 어렵게 하는 모호성을 추가한다. 이런 모호성은 제한이 덜한 최적화 문제를 야기하고 결국 설득력이 부족한 결과나 artifact가 생성된다.

고로 설득력있는 해결을 위한 prior 도입이 필요하다.

보통 geometry processing과 physics simulation에서 유연한 deformation을 모델링하기 위해서 elestic enegy를 사용한다.

- 여기서 elestic energy는 rigid motion에서의 local deformation 미분을 측정하는 방법을 의미.

저자들도 여기에서 영감을 받아 연속적인 deformation field의 맥락 속에서 비슷한 개념을 적용

Elastic Energy

위에서 언급한 Deformation Field $T$에 있어 한 점 $x$에서의 Jacobian $J_T(x)$는 변환에 있어 최선의 선형 근사를 나타낸다.

그러므로 저자들은 $J_T$를 통해 deformation의 local 행동 제어를 진행한다.

다만, 다른 방식들과 달리 MLP의 자동 미분을 통해 $J_T$를 직접적으로 계산한다.

이때, penalize를 위해 SVD ($\mathbf{J}_T = \mathbf{U} \boldsymbol{\Sigma}\mathbf{V}^T $)를 통해 closet rotaion으로부터의 미분을 penalize $\parallel \mathbf{J}_T - \mathbf{V} \mathbf{U}^T \parallel_F^2$

여기서 저자들은 $ \mathbf{J}_T $의 singular value를 사용하기로 하였는데 log를 취한 singular value는 수축과 확장에 있어 비슷한효과를 낸다고 보았기 때문이고 성능 역시 좋게 나타났다.