아이공의 AI 공부 도전기

[논문 Summary] NeRF-W (2021 CVPR) "NeRF in the Wild : Neural Radiance Fields for Unconstrained Photo Collections"

 

     

 

논문 정보

Citation : 2024.01.14 일요일 기준 922회

저자

Ricardo Martin-Brualla, Noha Radwan, Mehdi S. M. Sajjadi, Jonathan T. Barron, Alexey Dosovitskiy, Daniel Duckworth

Google Research

논문 링크

Official

https://openaccess.thecvf.com/content/CVPR2021/papers/Martin-Brualla_NeRF_in_the_Wild_Neural_Radiance_Fields_for_Unconstrained_Photo_CVPR_2021_paper.pdf

 

Arxiv

https://arxiv.org/abs/2008.02268

 

공식 Github

https://nerf-w.github.io/

 

NeRF in the Wild

Appearance Embedding Interpolation NeRF-W captures lighting and photometric post-processing in a low-dimensional latent embedding space. Interpolating between two embeddings smoothly captures variation in appearance without affecting 3D geometry. Sorry, yo

nerf-w.github.io

 

 

논문 Summary

Abstract

 

 

 

0. 설명 시작 전 Overview

 

NeRF + 실사 이미지를 활용한 3D Reconstruction 가능을 보여준 논문

정적인 상태를 고집하는 NeRF의 확장판.

이미지별 조명/대기 상태에 대한 적용 및 방해물/이동 물체에 대한 제거를 위한 transient를 위한 방법론 제시

 

1. Introduction

 

  

다양한 각도에서 촬영된 이미지가 적은 상태에서도 새로운 시점의 장면을 합성하는 것은 어려운 일이다.

최근 neural rendering 기술로 Neural Radiance Fields(NeRF) 접근법이 도입되었고 상당한 진전을 보였다.

그러나 NeRF는 상당히 제한된 조건 설정이 있는데 장면은 매우 짧은 frame 시간동안 이뤄지며 그 장면 내부의 내용은 static이어야만 한다.

만약 그렇지 않다면 (e.g. 물건, 객체가 움직이거나 다양한 빛이 들어오는 경우) 상당히 저하된 성능을 보인다.

이는 실제 적용에 매우 큰 난관이다.

 

NeRF에서 세상이 기하학적으로, 물질적으로, 광학적으로 static이라는 가정은 매우 가혹할 정도의 큰 제약조건.

이에 NeRF는 동일한 위치와 방향에서 완벽하게 동일한 2명의 사진작가가 요구되지만, 실제로는 불가능하다.

동일한 위치일지라도 사람이 움직이고 구조물이 움직이고 날씨가 바뀐다. 설령 가능하더라도 카메라의 상황에 따른 노출 color correction, tone-mapping등이 달라진다.

순진하게 야외 사진집 곧바로 NeRF에 적용한다면, ghosting, oversmoothing, artifact와 같은 영향으로 부정확한 재구성 결과를 마주할 수 있다.

 

이 문제를 다루기 위해 엄격한 일관성 가정을 완화할 수 있는 NeRF의 확장 모델인 NeRF-W를 제시한다.

1) 빛, 날씨와 같은 이미지별 apperance variation을 저차원 잠재 공간에 모델링한다.

활용 framework : Generative Latent Optimization

(Optimizing the latent space of generative networks.(ICML 2018) : GAN 기반 속성에 대한 disentangle factor 관한 논문)

이를 통해 각 입력 이미지 appearance embedding 최적화하여 NeRF-W에 다양한 환경에 대한 유연성을 줌으로써 appearance 제어가 가능. Figure 1 (b)

 

2) 공유되고 이미지 독립저인 요소들의 결합으로 장면을 모델링하여 장면 구성 내용에 대한 비지도 분해가 가능하게 한다.

이를 위해 a secondary volumetric radiance field를 data-dependent uncertainty field와 결합하여 사용하여 transient element를 모델하는 방식을 채택한다.

 

잘 묘사되고 신뢰도가 높은 rending을 생성하고 부드러운 appearance interpolation, temporal consistency가 잘 묘사되게 한다.

 

2. Related work

 

Novel View Synthesis: Structure-from-Motion, bundle adjustment Photo Tourism etc

Neural Rendering: NRW(Neural Rendering in the Wild), NeRF etc

 

3. Background

NeRF에 대한 간단 요약 정리

volumetric rendering

 

 model 구조

 

 

Coarse & fine model을 통한 optimization loss  

 

 

 

4. NeRF in the Wild

 

인터넷 상에서의 사진들은 NeRF가 가진 가정에 위반되는 2가지 현상을 가지고 있다.

 

1) Photometric variation

시간대, 대기 상황에 따라 광원에 크게 영향을 받으며 이는 과장된 환경에서의 광도 불일치를 초래할 수 있다.

 

2) Transient objects

실시계에서의 landmark에서 촬영된 사진에 있어 물체/사람의 이동이나 방해받는 것 없이 독립적으로 놓여있을 가능성이 매우 낮습니다.

 

이에 NeRF를 확장하여 이미지에 독립적인 모습과 광원의 다양성을 허용하는 NeRF-W 모델에 대해 설명.

 

 

4.1. Latent Appearance Modeling

NeRF에서의 다양한 조광과 photometric 후처리를 적용하기 위해서 Generative Latent Optimization (GLO) 접근법을 채택.

이를 통해 appearance embedding vector $l_i^{(\alpha)}$ 도출

 

이때 eq 1에서의 image-independent radiance $c(t)$를 image-dependent radiance $c_i(t)$로 교체한다.

 이를 통해 특정 장면에서 방출되는 radiance를 다양화할 수 있도록 모델에 자유도를 준다.

 

 

요약 : 3D 구조적 변형 없이 다양한 조명이나 환경에 대한 것을 위한 modeling part 

4.2. Transient Objects

Transient 현상을 해결하기 위한 2가지 결정

 

1) color-emitting MLP를 지정하고 transient head를 추가한다. 

이를 통해 각 훈련 이미지에 걸친 다양한 밀도와 색에 대한 표현이 가능하게 한다.

 

2) 설정한 transient head에서 uncertainty 영역을 추가하여 reconstruction loss 기반 믿지 못하는 pixel을 무시하도록 모델을 훈련시킨다. 

각 pixel의 color는 maximize likelihood 관점에서 모델링을 진행.

2가지 모델 component는 NeRF-W로 하여금 static과 transient 현상을 분리하도록 만들어준다.

 

 eq 6 volume rendering 식에서 기존 static density, radiance에 transient density, radiance 를 추가하여 새로운 식 구성

 

 

Bayesian learning framework를 통해 uncertainty 모델링

 

 

 예측된 variance $\hat{\beta_i}(r)$는 transient density에 따른 alpha-compositing을 통한 색에 유사하게 render

 

 

Loss

첫 번째 term은 $C_i(r)$의 (shifted) negative log likelihood

$\beta$가 크면 transient object의 중요도를 약화시킴.

 

두 번째 term 너무 beta가 커지지 못하게 막음

 

세 번째 term transient density 의 L1 regularization

transient density가 커지지 않도록 함.

 

 

test에서는 transient와 uncertainty field 생략하고 오직 color와 density만 render

 

4.3. Optimization

Official Video 아래 비디오 링크 참조

 

 

동시에 coarse/fine optimization

 

 

5. Experiments

 

Phototourism dataset에서 6개의 landamark 선택

(Trevi Fountain / Sacre Coeur / four novel scenes / the Brandenburg Gate / Taj Mahal /

Prague Old Town Square / Hagia Sophia)

 

Baselines:

 

NRW / NeRF / NeRF-A (appearance only, transient 생략) / NeRF-U(uncertainty only, appearance 생략) / NeRF-W

 

Optimization:

TF2 Keras

COLMAP 사용

300000 steps, batch size 2048, 8 V100 GPUs, Adam, 2일 학습

 

Evaluation:

PSNR, MS-SSIM, LPIPS(Alex)

 

Results:

 

 

Controllable Appearance:

 

 

View-Consistency

 

more-view consistent, less flickering

 

 

Limitations:

 

 

잘 보지못한 곳/비스듬한 각도에서의 성능 저하.

camera calibration error, blurry

 

Reference

 

도움이 되는 YouTube 1. Official

https://youtu.be/mRAKVQj5LRA?si=6eo803dShgN0Qq_w

 

도움이 되는 YouTube 2. 가짜연구소 (22.10.06)

https://youtu.be/yXjVZ0tBNO8?si=SG13XNWHsbZ9lqCK

 

 

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading