Andrew Brock - Heriot-Watt University, Jeff Donahue - DeepMind, Karen Simonyan - DeepMind
1저자가 구글에 인턴일 때 작성된 논문
생성 이미지 모델에서 최근의 발전은 성공적으로 고해상도를 생성할 수 있음에도 불구하고 , ImageNet과 같은 복잡한 데이터 세트들에서의 다양한 샘플은 여전히 달성하기 어려운 목표로 남아 있다. 이를 위해, 우리는 지금까지 시도된 큰 규모의 GAN 모델을 훈련하고 큰 크기에 특화된 불안정성을 연구했다. 우리는 generator에 직교 정규화를 적용함으로써 간단한 "truncation trick"을 수정가능하게 한다는 것을 발견했다. 이 기법은 Generator의 입력의 분산을 감소시킴으로써 샘플의 높은 신뢰도와 다양성을 trade-off할 수 있도록 미세한 조정이 가능하게 한다. 우리들의 수정안은 class 조건부 이미지 합성에서 최신 결과를 수립할 수 있는 모델로 이끌었다. ImageNet 128x128 해상도를 학습시킬 때, 우리들의 모델 (BigGAN)은 166.5 IS, 7.4 FID를 달성하여 이전 최고 IS 52.52, FID 18.65보다 향상시켰다.
elusive 찾기[규정하기/달성하기] 힘든
render (어떤 상태가 되게) 만들다[하다] (=make)
amendable 수정[개정]할 수 있는
https://openreview.net/pdf?id=B1xsqj09Fm
https://arxiv.org/abs/1809.11096
없음
GAN - NIPS 2014 - PR-001
InfoGAN - NIPS 2016 - PR-022
cGAN - PR-051
SNGAN (Spectral Normalization) - ICLR 2018 - PR-087
Motivation
Resolution을 키워서 GAN을 안정적으로 학습시킨 경우는 Progressive GAN 외 없음.
Contribution
We demonstrate that GANs benefit dramatically from scaling, and train models with two to four times as many parameters and eight times the batch size compared to prior art. We introduce two simple, general architectural changes that improve scalability, and modify a regularization scheme to improve conditioning, demonstrably boosting performance.
As a side effect of our modifications, our models become amenable to the “truncation trick,” a simple sampling technique that allows explicit, fine-grained control of the tradeoff between sample variety and fidelity.
We discover instabilities specific to large scale GANs, and characterize them empirically. Leveraging insights from this analysis, we demonstrate that a combination of novel and existing techniques can reduce these instabilities, but complete training stability can only be achieved at a dramatic cost to performance.
- 2가지 구조적 변화와 정규화 수정
- Truncation trick의 사용
- 모든 조합을 통해 안정성 확보
(핵심이 없고 여러 기법들을 적용한 논문이라는 점이 아쉬웠다고 발표자께서 말씀하심)
Core Methods
1) Shared Embedding
2) Hierarchical Latent Space
3) Truncation Trick
4) Orthogonal Regularization
1) Shared Embedding
FiLM - AAAI 2018
계산량, 메모리 사용이 감소, 훈련 속도 향상
2) Hierarchical Latent Space
Noise vector z를 쪼개서 사용
3) Truncation Trick
Truncation threshold를 줄임으로써 전반적인 샘플 다양성은 줄어드는 반면 샘플의 질은 향상됨을 보임.
Trade-off : Variety & Quality
(b) truncation trick이 적용 불가능한 경우가 있어 이를 가능하기 하기위해 Orthogonal Regularization을 사용
4) Orthogonal Regularization
Spectral Normalization
Eq (2) eq : 모든 singular vector가 1로 제한되기 때문에 좋지 않은 방식
이에 본 논문에서는 Eq (3)처럼 진행함
다만, 논리적 설명 부족. 다양한 것을 해봤고 이게 잘 되더라.의 전개가 아쉬움.
Orthogonal Regularization Eq (3) 를 통해 truncation trick이 가능하게 함.
Inception Score (IS)
$$IS = exp (\mathbb{E}_{x \sim p_g} D_{KL}(p)(y|x) || p(y)))$$
높을수록 좋은 것
Salimans, Tim et al. "Improved Techniques for Training GANs" NIPS (2016)
https://papers.nips.cc/paper/2016/hash/8a3363abe792db2d8761d6403605aeb7-Abstract.html
Frechet Inception Distance (FID)
실제 sample과 생성된 sample들간 통계학적 분석을 진행함으로써 IS보다 향상된 지표적
$$FID =|| \mu_r - \mu_g||^2 + Tr (\sum_r + \sum_g - 2 (\sum_r \sum_g)^{1/2})$$
낮을수록 좋은 것
Spectral Normalization Review
Results
SAGAN(Self-Attention GAN)이 기준
Batch Norm만 높여도 성능이 좋아짐.
Google이니까 가능한 Batch Norm 숫자.... 2048...
class leakage : 한 클래스의 특성이 다른 클래스에서도 나타나는 현상
(a) 잘된 것
(b) 잘 안 된 것
Interpolation 결과
Nearest Neighbor로 근처의 feature space 상 결과를 얻어냄
JFT-300M : 구글 내부 데이터 세트
ImageNet은 채널을 늘린다고 해도 어떤 임계점에서는 고정적이지만 JFT-300M을 활용한 실험에서 채널을 늘릴수록 FID, IS가 좋아짐.
https://github.com/ajbrock/BigGAN-PyTorch
https://github.com/Janspiry/Image-Super-Resolution-via-Iterative-Refinement