아이공의 AI 공부 도전기

PR-108 "Large Scale GAN Training for High Fidelity Natural Image Synthesis" BigGAN Review (2019 ICLR)(GAN)

Figure 1

 

     

1. Citations & Abstract 읽기

Citations : 2021.12.19 기준 2408회

저자

Andrew Brock - Heriot-Watt University, Jeff Donahue - DeepMind, Karen Simonyan - DeepMind

1저자가 구글에 인턴일 때 작성된 논문

Abstract

생성 이미지 모델에서 최근의 발전은 성공적으로 고해상도를 생성할 수 있음에도 불구하고 , ImageNet과 같은 복잡한 데이터 세트들에서의 다양한 샘플은 여전히 달성하기 어려운 목표로 남아 있다. 이를 위해, 우리는 지금까지 시도된 큰 규모의 GAN 모델을 훈련하고 큰 크기에 특화된 불안정성을 연구했다. 우리는 generator에 직교 정규화를 적용함으로써 간단한 "truncation trick"을 수정가능하게 한다는 것을 발견했다. 이 기법은 Generator의 입력의 분산을 감소시킴으로써 샘플의 높은 신뢰도와 다양성을 trade-off할 수 있도록 미세한 조정이 가능하게 한다. 우리들의 수정안은 class 조건부 이미지 합성에서 최신 결과를 수립할 수 있는 모델로 이끌었다. ImageNet 128x128 해상도를 학습시킬 때, 우리들의 모델 (BigGAN)은 166.5 IS, 7.4 FID를 달성하여 이전 최고 IS 52.52, FID 18.65보다 향상시켰다.

 

elusive 찾기[규정하기/달성하기] 힘든

render (어떤 상태가 되게) 만들다[하다] (=make)

amendable 수정[개정]할 수 있는

2. 발표 정리

 

https://youtu.be/1f0faOeqDQ0

PR-109 Young Seok Kim 발표 영상 2018.10.14

 

공식 논문 링크

https://openreview.net/pdf?id=B1xsqj09Fm 

https://arxiv.org/abs/1809.11096

 

Large Scale GAN Training for High Fidelity Natural Image Synthesis

Despite recent progress in generative image modeling, successfully generating high-resolution, diverse samples from complex datasets such as ImageNet remains an elusive goal. To this end, we train Generative Adversarial Networks at the largest scale yet at

arxiv.org

 

Presentation Slide

없음

Contents

 

GAN - NIPS 2014 - PR-001

InfoGAN - NIPS 2016 - PR-022

cGAN - PR-051

SNGAN (Spectral Normalization) - ICLR 2018 - PR-087

 

Motivation

Resolution을 키워서 GAN을 안정적으로 학습시킨 경우는 Progressive GAN 외 없음.

 

Contribution

We demonstrate that GANs benefit dramatically from scaling, and train models with two to four times as many parameters and eight times the batch size compared to prior art. We introduce two simple, general architectural changes that improve scalability, and modify a regularization scheme to improve conditioning, demonstrably boosting performance.

 

As a side effect of our modifications, our models become amenable to the “truncation trick,” a simple sampling technique that allows explicit, fine-grained control of the tradeoff between sample variety and fidelity.

 

We discover instabilities specific to large scale GANs, and characterize them empirically. Leveraging insights from this analysis, we demonstrate that a combination of novel and existing techniques can reduce these instabilities, but complete training stability can only be achieved at a dramatic cost to performance.

 

- 2가지 구조적 변화와 정규화 수정

- Truncation trick의 사용

- 모든 조합을 통해 안정성 확보

 

(핵심이 없고 여러 기법들을 적용한 논문이라는 점이 아쉬웠다고 발표자께서 말씀하심)

 

Core Methods

1) Shared Embedding

2) Hierarchical Latent Space

3) Truncation Trick

4) Orthogonal Regularization

 

 

1) Shared Embedding

FiLM - AAAI 2018

계산량, 메모리 사용이 감소, 훈련 속도 향상

 

2) Hierarchical Latent Space

Noise vector z를 쪼개서 사용

 

3) Truncation Trick

Truncation threshold를 줄임으로써 전반적인 샘플 다양성은 줄어드는 반면 샘플의 질은 향상됨을 보임.

Trade-off : Variety & Quality

(b) truncation trick이 적용 불가능한 경우가 있어 이를 가능하기 하기위해 Orthogonal Regularization을 사용

 

 

4) Orthogonal Regularization

 

 

Spectral Normalization

Eq (2) eq : 모든 singular vector가 1로 제한되기 때문에 좋지 않은 방식

이에 본 논문에서는 Eq (3)처럼 진행함

다만, 논리적 설명 부족. 다양한 것을 해봤고 이게 잘 되더라.의 전개가 아쉬움.

 

Orthogonal Regularization Eq (3) 를 통해 truncation trick이 가능하게 함.

 

Inception Score (IS)

 

$$IS = exp (\mathbb{E}_{x \sim p_g} D_{KL}(p)(y|x) || p(y)))$$

높을수록 좋은 것

 

Salimans, Tim et al. "Improved Techniques for Training GANs" NIPS (2016)

https://papers.nips.cc/paper/2016/hash/8a3363abe792db2d8761d6403605aeb7-Abstract.html

 

Improved Techniques for Training GANs

Requests for name changes in the electronic proceedings will be accepted with no questions asked. However name changes may cause bibliographic tracking issues. Authors are asked to consider this carefully and discuss it with their co-authors prior to reque

papers.nips.cc

Frechet Inception Distance (FID)

 

실제 sample과 생성된 sample들간 통계학적 분석을 진행함으로써 IS보다 향상된 지표적 

$$FID =|| \mu_r - \mu_g||^2 + Tr (\sum_r + \sum_g - 2 (\sum_r \sum_g)^{1/2})$$

낮을수록 좋은 것

 

Spectral Normalization Review

 

Results

SAGAN(Self-Attention GAN)이 기준

 

Batch Norm만 높여도 성능이 좋아짐.

Google이니까 가능한 Batch Norm 숫자.... 2048...

 

class leakage : 한 클래스의 특성이 다른 클래스에서도 나타나는 현상

 

(a) 잘된 것

(b) 잘 안 된 것

 

Interpolation 결과

Nearest Neighbor로 근처의 feature space 상 결과를 얻어냄

 

JFT-300M : 구글 내부 데이터 세트

ImageNet은 채널을 늘린다고 해도 어떤 임계점에서는 고정적이지만 JFT-300M을 활용한 실험에서 채널을 늘릴수록 FID, IS가 좋아짐.

 

 

참조

 

GitHub

https://github.com/ajbrock/BigGAN-PyTorch

 

GitHub - ajbrock/BigGAN-PyTorch: The author's officially unofficial PyTorch BigGAN implementation.

The author's officially unofficial PyTorch BigGAN implementation. - GitHub - ajbrock/BigGAN-PyTorch: The author's officially unofficial PyTorch BigGAN implementation.

github.com

https://github.com/Janspiry/Image-Super-Resolution-via-Iterative-Refinement

 

GitHub - Janspiry/Image-Super-Resolution-via-Iterative-Refinement: Unoffical implementation about Image Super-Resolution via Ite

Unoffical implementation about Image Super-Resolution via Iterative Refinement by Pytorch - GitHub - Janspiry/Image-Super-Resolution-via-Iterative-Refinement: Unoffical implementation about Image S...

github.com

 

 

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading