StyleGAN 논문 Full Reading - A Style-Based Generator Architecture for Generative Adversarial Networks

Abstract

우리는 style transfer 문헌에서 빌린 GAN을 위한 generator 대체구조를 제안한다. 새로운 구조는 생성된 이미지에서의 고차원 속성(예: 사람 얼굴을 훈련할 경우 모습이나 특성)과 확률론적 변화(예: 주근깨, 머리카락)의 비지도 분리를 자동으로 학습할 뿐 아니라 합성에 있어 직관적이고 구체적인 규모를 가능하게 한다.

새로운 generator는 전통적인 분포 질적 지표 관점에서 SOTA를 향상시키고 분명하게 더 나은 interpolation 속성을 이끌며, latent factor의 변동성을 더 잘 풀어헤친다(disentangle). 보간법적 질과 풀어해침의 양을 늘리기 위해 우리는 두 가지 새로운 자동화된 방법을 제안하는데 이는 모든 generator 구조에 적용이 가능하다. 마지막으로 우리는 새롭고 다양하며 고품질의 사람 얼굴 데이터 세트를 제안한다.

1. Introduction

최근 다양한 GAN의 방법들을 활용한 이미지의 해상도와 질이 빠르게 향상되었다. (ProgressiveGAN, SNGAN, BigGAN) 이미지 합성 과정과 관련한 다양한 측면에서의 이해를 위한 노력들이 있음에도 불구하고 generator들은 여전히 black block로 작동한다. 또한 잠재 공간(latent space)의 특성도 이해하지 못하고 흔히 증면된 잠재 공간 보간법(interpolation)은 다른 generator들과 비교할 수 있는 정량적 방법을 제공하지 않는다.

Progressive Growing of GANs for Improved Quality, Stability, and Variation

https://arxiv.org/abs/1710.10196

Spectral Normalization for Generative Adversarial Networks

https://arxiv.org/abs/1802.05957

Large Scale GAN Training for High Fidelity Natural Image Synthesis

https://arxiv.org/abs/1809.11096

style transfer 문헌들에서 영감을 얻어 이미지 합성 절차를 제어하기 위한 새로운 방법을 노출하는 방식으로 generator 구조를 재설계한다. 우리들의 generator는 학습된 상수 입력에서 시작하여 잠재 코드를 기초로 하는 각 conv layer 이미지의 스타일을 조정함으로써 다른 스케일에서 이미지 특징들의 강도를 직접 제어한다. 네트워크에 직접적으로 주입되는 소음과 결합한 이 구조의 변화는 생성된 확률적 변화(예: 주근깨, 머리카락)로부터 고레벨 속성(예 : 자세, 정체성)을 자동적이고 비지도 분리를 이끌며 직관적인 스케일별 합성과 보간 작동을 가능하게 한다. 우리는 discriminator나 loss function을 어떠한 방식으로도 수정하지 않으며 우리들의 작업은 GAN loss function, 정규화, hyperparameter들에 대한 진행 중인 논의에 직교한다.(직교...?)

우리들의 generator는 입력 잠재 코드(latent code)를 중간 잠재 공간(latent space)에 내장하는데 이는 네트워크에서 변화 요인들이 어떻게 표현되는지에 대한 심오한 영향을 미친다. 입력 latent space는 반드시 훈련 데이터의 확률 밀도를 따라야하는데 우리는 이것이 피할수 없는 얽힘(entangle)의 정도를 이끈다고 주장한다. 우리들의 중간 latent space는 이런 제약으로부터 자유롭기 때문에 풀어짐(disentangle)이 허락된다. 잠재 공간풀기의 정도 측정을 위한 이전 방법들은 우리들의 경우에 직접적으로 적용할 수 없기 때문에 우리는 generator의 이러한 측면을 정량화하기 위한 두 가지 새롭고 자동화된 metric-지각 경로 길이(perceptual path length)와 선형 분리성(linear separability)-을 제안한다. 이 측정방법들을 사용하여 우리는 전통적인 generator 구조에 비해 우리들의 generator가 다른 변화 요인들에 있어 더 선형적이고 덜 얽힌 표현을 인정한다.

마지막으로, 우리는 기존 고해상도 데이터세트(Appendix A)보다 더 좋은 품질을 제공하고 상당히 넓은 변화를 다루는 새로운 인간 얼굴 데이터 세트(Flickr-Faces-HQ, FFHQ)를 제시한다. 우리는 이 데이터 세트를 우리들의 소스 코드와 pre-trained된 네트워크들을 따라 공개적으로 사용할 수 있게 하였다. 같이 첨부된 비디오는 같은 링크에서 찾을 수 있다.

https://github.com/NVlabs/stylegan

2. Style-based generator

위 Figure 1(a)에서 확인할 수 있듯이 전통적으로 latent code는 generator input layer 즉, feed-forward network의 첫 layer에 제공된다. 우리는 input layer 모두를 생략하고 대신 학습된 상수에서부터 시작하도록 디자인하는 것으로부터 출발한다. (Figure 1(b) 우측) input latent space $\mathcal{Z}$ 안에 있는 latent code $z$를 고려할 때, 비선형 mapping 네트워크 $f:\mathcal{Z} \to \mathcal{W}$는 $w \in \mathcal{W}$를 먼저 생성한다. (Figure 1(b) 좌측)

단순화를 위해 우리는 양 space들의 차원을 512로 설정하고 mapping $f$는 Section 4.1에서 분석할 결정인 8계층 MLP를 사용하여 구현한다. 그런다음 learned affine transformation은 $w$를 합성 네트워크(Synthesis network) $g$의 각 conv layer 이후 Adaptive Instance Normalization (AdaIN)를 제어를 위한 style $y=(y_s,y_b)$ 에 특화한다. AdaIN operation은 아래와 같이 정의된다.

각 feature map $x_i$는 개별적으로 정규화한 다음 style $y$로부터 상응하는 scalar 스케일 요소를 사용하여 크기를 변화시키고 편향시킨다. 결국 $y$의 차원성은 해당 layer feature map의 2배다. (scaled, biased 때문에 2배인가?)

style transfer과 우리들의 접근 방식을 비교했을 때 우리는 이미지 예시 대신 vector $w$로부터 공간적으로 불변한 style $y$를 계산한다. 비슷한 네트워크 구조들이 이미 style transfer feed-forward, 비지도 이미지 변환(image-to-image translation) 그리고 도메인 혼합에 이미 사용되고 있기 때문에 $y$에 대해 style이라는 용어를 재사용하기로 했다. 조금 더 일반적인 feature 변환과 비교했을 때 AdaIN는 그 효율성과 알찬 표현 때문에 특히나 우리들의 목적에 잘 맞는다.

마지막으로 우리는 explicit noise input을 도입함으로써 확률적 세부사항(stochastic detail)을 생성하기 위한 직접적인 수단을 가진 generator를 제공한다. 이것들은 관련성이 없는 Gaussian noise로 구성된 단일 채널 이미지들이며 우리는 합성 네트워크의 각 layer에 전용 noise 이미지(dedicated noise image)를 제공한다. noise 이미지는 Figure 1(b)에서 묘사한 것과 같이 학습된 feature scaling factor들을 사용하는 모든 feature map에 broadcasting한 다음 상응하는 conv 결과에 더한다. noise input을 추가하는 것이 의미하는 바는 Section 3.2, 3.3에서 논의한다.

2.1. Quality of generated images

generator의 속성을 연구하기 전에, 우리는 경험적으로 재설계(redesign)가 이미지의 품질을 떨어뜨리지 않고 오히려 상당히 향상시킨다는 것을 실험적으로 증명한다.

Table 1은 다양한 CelebA-HQ와 우리들의 새로운 FFHQ dataset(부록 A)에서 다양한 Generator 구성들의 FID를 제공한다. 다른 데이터 세트들에 대한 결과는 Appendix E에서 제공한다. 우리들의 기본 구성 (A)는 Karras 외 연구진이 설정한 Progressive GAN이고 우리는 달리 명시된 경우를 제외하고 네트워크와 모든 hyperparameter들을 이어받는다. 우리는 먼저 bilinear up/downsampling 작업과 긴 훈련, 조정된 hyperparameter들을 사용함으로써 향상된 baseline (B)로 바꾼다. 자세한 훈련 설정과 hyperparameter들은 보충자료에 포함되어져 있다. 그런 다음 우리는 mapping network와 AdaIN 구조를 추가함으로써 새로운 baseline (C)를 더 향상시켰으며 latent code를 첫 conv layer에 넣는 것으로부터 네트워크는 더 이상 이로움을 얻지 못한다는 놀라운 관찰을 한다. 따라서 우리는 기존의 입력 계층(input layer)을 제거하고 학습된 4x4x512 constant tensor로부터 이미지 합성을 시작함으로써 구조를 단순화시켰다. (D). 우리는 합성 네트워크가 AdaIN에 의해 제어되는 스타일들을 통해서만 입력을 받음에도 불구하고 상당히 유의미한 결과가 생성될 수 있다는 것이 매우 주목할만하다는 것을 발견한다.

마지막으로 우리는 결과를 더 향상시키는 noise input (E)와 이웃 스타일과 상관관계가 적고 생성된 이미지에 대해 더 섬세한 제어가 가능하게하는 새로운 혼합 정규화 (F)를 도입한다. (Section 3.1)

우리는 우리들의 방법을 2가지 다른 loss function을 사용하여 평가한다. CelebA-HQ의 경우 우리는 WGAN-GP에 의존한 반면 FFHQ는 구성 A에서 WGAN-GP를 사용하고 구성 B-F에는 R1 정규화와 함께 비포화 손실(nonsaturating loss)을 사용한다. 우리는 해당 선택들이 최고의 결과들을 가져다 줌을 발견했다. 우리들의 기여에서는 loss function을 수정하지 않는다.

우리는 style-based generator (E)가 전통적인 generator (B) 대비 상당히 크게 FID를 개선하며 병렬 작업으로 수행된 대규모 ImageNet 측정을 진행했을 때 대략 20%정도 향상됨을 관찰했다.

Figure 2는 우리들의 generator를 사용함으로써 FFHQ 데이터 세트로부터 생성된 새로운 이미지들의 정돈되지 않은 집합을 보여준다. FID에서 확인할 수 있는 평균 품질은 높고 심지어 안경, 모자와 같은 악세서리들이 성공적으로 합성된다. 해당 그림을 통해 우리는 truncation trick이라 불리는 것을 사용함으로써 $\mathcal{W}$의 극단적인 영역으로부터의 sampling을 피할 수 있었다. - Appendix B는 trick이 $\mathcal{Z}$ 대신 $\mathcal{W}$에서 어떻게 수행될 수 있는지를 설명한다. 우리들의 generator는 high resolution 세부사항에 영향을 미치지 않도록 low resolution에만 선택적으로 truncation을 적용할 수 있다는 점을 유의하자.

본 논문에서의 모든 FID들은 truncation trick 없이 계산되어지고 우리는 Figure 2와 video의 묘사적 목적을 위해서로만 사용한다. 모든 이미지들은 $1024^2$ 해상도로 생성된다.

2.2 Prior art

GAN 구조에서 대다수의 작업들은 다수의 discriminator들, multiresolution discrimination 또는 self-attention을 사용함으로써 discriminator를 향상시키는 것에 초점이 맞춰오고 있다. generator측에서의 작업은 주로 입력 잠재 공간 (input latent space)의 정확한 분포나 Gaussian mixture model, clustering, 또는 볼록성(convexity) 장려를 통한 input latent space를 구성하는 곳에서 초점을 맞추고 있다.

최근 조건부 generator는 별도의 내장 네트워크를 통해 클래스 식별자를 generator의 많은 layer에 공급하지만 latent는 입력 layer를 통해 제공되어진다. 몇몇 저자들은 잠재 코드의 일부를 다수의 generator layer에 공급하는 것을 고려해왔다. 병렬 작업으로 Chen 외 연구진은 우리들의 작업과 유사하게 AdaIN을 사용하여 generator를 자가 변조하지만 중간 잠재 공간 (latent space) 이나 노이즈 입력값에 대해서는 고려하지 않는다.

3. Properties of the style-based generator

우리들의 generator 구조는 스타일로의 크기별 수정을 통해 이미지 합성을 제어할 수 있다. 우리는 학습된 분포로부터 각 스타일을 추출할 수 있는 방법으로의 mapping network와 affine transformation과 스타일들의 집합을 기반으로 새로운 이미지를 생성하는 방법으로서의 합성 네트워크(synthesis network)를 볼 수 있다. 각 스타일의 결과들은 네트워크에 국한된다. 즉, 스타일들의 특정 부분 집합을 수정하는 것은 이미지의 특정 측면에서만 영향을 미칠 것으로 예상할 수 있다.

이 localization의 이유를 보기 위해, 어떻게 AdaIN 연산 (Eq 1)이 처음에 0 평균, 단위 분산으로 각 채널을 정규화한 다음 스타일을 기반으로 scale 및 bias를 적용하는지 고려해보자. 새로운 채널별 통계는 스타일에 따라 차후의 convolution 연산에서 상대적으로 중요한 feature들을 수정하지만 그들은 정규화 때문에 원본 통계에 의존하지 않는다. 따라서 각 스타일은 다음 AdaIN 연산에 의해 재정의되어지기 이전에 오로지 하나의 convolution을 제어한다.

=> AdaIN을 통해 각 스타일에 대한 정의를 진행할 수 있으며 이는 스타일에 대한 특정 부분 집합을 수정하는 것이 가능하다.

3.1. Style mixing

style들을 알아내는 것을 더 장려하기 위해, 우리는 훈련동안 하나의 잠재 코드 대신 무작위 두 개의 잠재 코드를 사용하여 주어진 비율의 이미지를 생성하는 혼합 정규화 (mixing regularization)를 사용한다. 그러한 이미지를 생성할 때, 우리는 합성 네트워크에서 무작위로 선택된 지점들에서 단순히 하나의 잠재코드에서 다른 코드로 전환한다. (style mixing이라고 언급하는 작업) 구체적으로 말하면, 우리는 mapping network를 통해 두 개의 잠재 코드 $z_1, z_2$을 실행하고 상응하는 $w_1, w_2$가 스타일을 제어하도록 함으로써 $w_1$이 크로스오버 포인트(crossover point) 앞에, w2가 뒤에 적용되도록 한다. 이 정규화 기술은 네트워크가 인접한 스타일이 상관되어 있다고 가정하는 것을 방지합니다.

Table 2는 훈련동안 mixing regularization을 가능하게하는 것이 test 시간에 다수의 latent가 섞이는 시나리오에서 개선된 FID가 가르킴에 따라 localization을 어떤 식으로 상당히 개선하는지를 보여준다.

Figure 3 (맨 위에 존재하는 그림)은 두 잠재 코드를 다양한 크기로 섞음으로써 합성된 이미지의 예를 보인다. 우리는 스타일의 각 하위 집합이 이미지의 유의미한 높은 수준 속성들을 제어한다는 것을 보일 수 있다.

3.2. Stochastic variation

사람 초상화에는 머리카락의 정확한 위치, 까칠한 수염(stubble), 주근깨, 피부 모공 등 확률적이라 간주될 수 있는 많은 측면들이 있다. 이것들 중에는 정확한 분포를 따르는 한 이미지에 대한 우리들의 인식에 영향을 미치지 않고 무작위화할 수 있다.

=> 분포를 따른다는 가정 하에 무작위로 선택될 수 있는 다양한 것들이 존재한다.

전통적인 generator가 어떻게 stochastic variation을 실행할 수 있는지 고려해보자. 네트워크의 유일한 입력이 input layer를 통과하는 것을 고려할 때, 네트워크는 필요할 때마다 이전 activation로부터 공간적으로 변화하는 의사 난수를 생성하는 방법을 발명할 필요가 있다. 이는 네트워크의 수용력(capacity)을 소모하고 생성된 신호의 주기성을 숨기는 것이 어려우며, 생성된 이미지의 흔히 볼 수 있는 반복적인 패턴에서 증명되듯 항상 성공적이지 않다. 우리들의 아키텍처는 각 convolution 이후에 픽셀마다 노이즈를 추가함으로써 이런 문제를 완전히 피한다.

Figure 4는 다른 노이즈 실현을 가진 generator를 사용하여 생성된 동일한 기본 이미지의 확률적 실현을 보여준다. 우리는 노이즈가 오로지 확률적인 측면에만 영향을 미치고 전반적인 구성과 identity과 같은 높은 수준의 측면은 온점함을 볼 수 있다.

Figure 5는 layer들의 다른 하위 집합에 확률적 변동 (stochastic variation)을 적용하는 효과를 더 보여준다. 이러한 효과는 애니메이션에서 가장 잘 나타나기 때문에 한 layer의 노이즈 입력을 변경이 일치하는 크기에서 확률적 변동 (stochastic variation)을 어떻게 이끄는 지를 시연하기 위한 동봉된 비디오를 참조하세요.

우리는 노이즈의 효과가 네트워크에서 매우 지역적으로 나타난다는 흥미로운 것을 발견했다. 우리는 generator의 어느 시점에 가능한 빨리 새로운 내용을 도입해야한다는 압력이 있고 우리들의 네트워크가 확률적 변동 (stochastic variation)을 생성하는 가장 쉬운 길은 제공된 노이즈에 의존하는 것이라고 가정한다.

새로운 노이즈 집합은 모든 layer에서 가능하기에 activation 이전으로부터 확률적 변동 (stochastic variation)을 생성하는 것은 우대되지 않으므로 국부적 효과만을 이끈다.

3.3 Separation of global effects from stochasticity

수반되는 비디오뿐 아니라 이전 section들은 스타일에 대한 변화가 전역적 효과 (포즈 변경, 정체성 등)를 가지는 반면, noise는 중요치 않은 stochastic variation (다르게 빗질한 머리, 수염 등)에만 영향을 준다는 것을 보여준다. 이 관찰은 공간적으로 불변의 통계 (Gram matrix, 채널별 평균, 분산 etc)가 이미지의 스타일을 안정적으로 인코딩하는 반면 공간적으로 다양한 특징들은 특정 객체를 인코딩하는 것이 확립된 style transfer 문헌들과 일치한다.

우리들의 style-based generator에서, 스타일은 전체 이미지에 영향을 끼친다. 왜냐하면 모든 feature map들이 동일한 값으로 크기가 조정되고 편향되었기 때문이다. 따라서, 포즈, 조명 또는 배경 스타일과 같은 전역적 효과는 일관성 있게 제어될 수 있다. 한편, noise는 독립적으로 각 픽셀에 더해지고 stochastic variation을 제어하는데 이상적이다. 네트워크가 노이즈를 이용하여 포즈를 제어하려 시도하면, 공간적으로 일관되지않은 결정이 발생하여 discriminator에 의해 처벌받게 된다. 그러므로 네트워크는 분명한 지침 없이 전역적, 지역적 채널들을 적절히 사용하도록 배운다.

inconsequential 중요치 않은, 하찮은

be in line with ~와 일치하다

coherent 일관성 있는

4. Disentanglement studies

Disentanglement(얽힘이 없는 상태)에 대해 다양한 정의들이 존재하지만 공통적인 목표는 선형 부분공간으로 구성된 잠재 공간이며, 각 공간은 하나의 변동(variation) 요인을 제어한다. 그러나 $\mathcal{Z}$에서 각 요소들의 조합의 표본 확률은 훈련 데이터의 확률 밀도와 일치할 필요가 있다.

Figure 6에서 설명하듯, 이것은 요소들이 일반적인 데이터 세트들과 입력 잠재 분포들로 완전히 분리되는 것을 못하게 막는다. (훈련 데이터의 분포와 일치할 필요성이 있는데 그렇게 못하게 되는 figure 6 (b)의 상태를 설명하는 설명인 듯)

우리들의 generator 구조의 주된 장점은 중간 latent space $\mathcal{W}$가 고정된 분포에 따라 샘플링을 지원할 필요가 없다는 것이다. 이 샘플링 밀도는 학습된 조각별 연속 mapping $f(z)$에 의해 유도된다. 이 mapping은 "unwarp" (비틀리지 않은) $\mathcal{W}$에 조정할 수 있음으로 하여 변동 요인이 더 선형적이게 한다. 우리는 generator가 그렇게 하도록 압력을 가함으로써 entangled 표현 기반 보다 disentangled 표현 기반한 사실적인 이미지 생성이 더 쉽게한다. 우리는 비지도 학습 즉, 변동 요인들을 미리 알 수 없는 경우에서 덜 얽힌 $\mathcal{W}$를 산출하는 훈련을 기대한다.

불행히도 disentanglement 정량화에서 최근 제안된 척도들은 입력 이미지를 잠재 코드로 매핑할 수 있는 encoder network를 요구한다. 이 척도들은 우리들의 기저 GAN이 그러한 encoder가 없기 때문에 우리들의 목적에 부합하지 않는다. 이 목적으로 추가 네트워크를 추가하는 것이 가능하지만 우리는 실제 해결책의 일부가 아닌 구성 요소에 대한 노력을 회피하고 싶다. 이를 위해 우리는 disentanglement 정량화의 두 새로운 방법을 설명한다. 두 방법 모두 encoder나 알려진 variation 변동 요인이 필요하지 않고 모든 이미지 데이터 세트 및 generator에 대해 계산할 수 있다.

preclude (~로 하여금 ~하지) 못하게 하다, (~가 ~하는 것을) 불가능하게 하다

posit (주장·논의의 근거로 삼기 위해 무엇을) 사실로 상정하다[받아들이다] (=postulate)

4.1. Perceptual path length

Laine에 의해 알려진 바와 같이, 잠재 공간 벡터의 보간 interpolation은 놀랍게도 이미지에서 비선형적 변화를 산출할 수 있다. 예를 들어, 종점 endpoint 없는 feature들은 선형 보간 경로의 중간에서 나타날 수 있다. 이는 잠재 공간이 엉켜있고 변동 요인이 적절히 분리되지 않았다는 신호이다. 이 효과를 정량화하기 위해, 우리는 잠재공간에서 우리가 보간법을 수행할 때 이미지가 얼마나 급격한 변화를 겪는지 측정할 수 있다. 직관적으로 덜 휘어진 잠재 공간은 많이 휜 잠재 공간보다 지각적으로 부드러운 전환을 초래해야 한다.

우리들의 척도 기준으로, 우리는 인간 지각적 유사성 판단이 일치하도록 가중치가 알맞는 두 VGG16 embedding 사이의 가중 차이로 계산되는 지각 기반 쌍 이미지 거리를 사용한다. 만약 우리가 잠재 공간 보간 경로를 선형 부분segment으로 세분한다면, 우리는 이미지 거리 척도에 의해 보고된 것처럼 이 분할 경로의 총 지각 길이를 각 부분에 대한 지각적 차이의 합으로 정의할 수 있다. 지각 경로 길이 (Perceptual path length)에 대한 자연스러운 정의는 무한히 정제된 세분화 하에서 이 합의 한계이나 실제로는 우리는 $\epsilon=10^{-4}$ 작은 세분화 epsilon을 사용하여 추정한다. 모든 가능한 종점들에 걸쳐 잠재 공간 $\mathcal{Z}$의 평균 지각 경로 길이는 다음과 같다.

$$ l_{\mathcal{Z}} = \mathbb{E} [\frac{1}{\epsilon^2} d(G(slerp(z_1, z_2;t)), G(slerp(z_1, z_2;t+\epsilon)))] $$

$z_1, z_2 ~ P(z), t~ U(0,1)$, $G$는 generator (style-based network를 위한 $g \circ f$) 그리고 $d$는 결과 이미지들 간 지각적 거리를 평가한다. 여기서 slerp는 구면 보간을 나타내며 이는 우리들의 정규화된 입력 잠재 공간에서 가장 적절한 방법이다. 배경 대신 얼굴 특징에 집중하기 위해 우리는 쌍 이미지 척도를 평가하기 전에 오직 얼굴만을 포함하도록 생성된 이미지를 자른다. 척도 $d$

quadratic 이차이기에 우리는 $\epsilon^2$로 나눈다. 우리는 100,000개의 샘플을 취하여 기댓값을 계산한다.

$\mathcal{W}$ 공간에서의 평균 지각 경로 길이 (average perceptual path length 계산도 유사항 방식으로 수행됩니다.

$$ l_{\mathcal{W}} = \mathbb{E} [\frac{1}{\epsilon^2} d(g(lerp(f(z_1), f(z_2);t)), g(lerp(f(z_1), f(z_2);t+\epsilon)))] $$

유일한 차이는 $\mathcal{W}$ 공간에서 보간법이 이뤄진다는 것 뿐이다. $\mathcal{W}$ 안에서의 벡터들은 어떤 방식에서도 정규화가 되지 않기 때문에 우리는 선형 보간법 (linear interpolation) (lerp)을 사용한다.

Table 3은 이 full-path length가 노이즈 입력을 포함하는 우리들의 style-based generator가 잠재적으로 짧다는 것을 보여주며 이는 $\mathcal{W}$가 $\mathcal{Z}$보다 지각적으로 더 선형적임을 나타낸다. 그러나 이 측정은 사실 약간 입력 잠재 공간 $\mathcal{Z}$에 편향되었다. 만약 $\mathcal{W}$가 실제로 $\mathcal{Z}$의 엉키지 않고 disentangle평탄한 매핑이라면, 심지어 입력 manifold로부터 맵핑된 점들 사이에서도 입력 manifold에는 없는 영역을 포함했어야만 한다. - 그럼에 따라 generator에 의해 나쁘게 재구성되어져야만한다.- 반면, 입력 잠재 공간 $\mathcal{Z}$ 는 정의에 의해 그런 영역이 존재하지 않는다. 따라서 만약 우리가 우리들의 경로 종단점 (path endpoint)에 대해 제한한다면 i.e. $t \in {0,1}$, $l_\mathcal{Z}$가 영향을 받지 않는 동안 더 작은 $l_\mathcal{W}$를 얻어야만 하도록 기대한다. 이것은 실제로 우리가 Table 3에서 관찰한 것이다.

Table 4는 어떻게 path length들이 mapping 네트워크의 영향을 받는지를 보여준다. 우리는 전통적인 것과 style-based generator 모두 mapping network를 가지는 것이 이득이 되고, 추가 깊이는 일반적으로 FID 뿐 아니라 perceptual path length 또한 향상시킴을 알 수 있다. 전통적인 generator에서 $l_\mathcal{W}$가 향상되는 동안 $l_\mathcal{Z}$는 상당히 악화되는 것은 입력 잠재공간이 사실은 GAN에서 임의로 엉킨 것이라는 우리들의 주장을 설명하는 것이라 흥미롭다.

4.2 Linear separability

잠재 공간이 충분히 disentangled 엉키지 않았다면, 개별 변동 요소(factors of variation)에 일관되게 상응하는 방향 벡터들을 찾을 수 있는 것이 가능해야 한다. 우리는 각 집합이 이미지의 특정 이진 속성에 해당하도록 선형 초평면 (linear hyperplane)을 통해 잠재 공간 포인트들을 두 분명한 집합으로 얼마나 잘 분리되어질 수 있는지를 측정하는 효과를 정량화하는 또 다른 척도를 제안한다.

생성된 이미지들에 라벨을 붙이기 위해, 우리는 남성과 여성의 얼굴을 구별하는 것과 같은 여러 이진 속성에 대한 보조 분류 네트워크를 훈련한다. 우리의 테스트에서 분류기는 우리가 사용하는 discriminator와 동일한 구조를 가지고 원본 CelebA 데이터 세트에서 가능한 40가지 속성을 유지하는 CelebA-HQ 데이터세트를 사용하여 훈련했다. 하나의 속성의 분리 가능성 (separability)를 측정하기 위해 우리는 $z~P(z)$로 20만개의 이미지를 생성하고 보조 분류 네트워크를 사용하여 그들을 분류한다. 그런다음 그들은 분류기 신뢰도에 따라 샘플들을 정렬하고 가장 신뢰도가 낮은 반을 제거하여 잠재 공간 벡터들로 레이블된 10만개를 산출한다.

auxiliary 보조의

각 속성에 대해 우리는 기존 $z$와 스타일 기반 $w$ 잠재 공간 점을 기반으로 라벨을 예측하기 위해 선형 SVM에 맞추고 이 평면으로 점들을 분류한다. 그런다음 우리는 SVM에 의해 예측된 클래스 X와 사전에 훈련된 분류기에 의해 결정된 클래스 Y를 활용하는 조건부 entropy H(H|X)를 계산한다. 이것은 초평면의 어느 쪽에 놓였는지를 알고 있다는 것을 고려했을 때, 샘플의 실제 클래스를 결정하는데 얼마나 많은 추가 정보가 요구되는지를 말한다. 낮은 값은 상응하는 변동 요인에 대해 일관된 잠재 공간 방향을 제시한다.

$i$가 40개의 속성들을 나타낼 때 우리는 $exp(\sum_i H (Y_i|X_i))$라는 최종 separability 점수를 계산한다. inception score와 유사하게 지수화는 선형 도메인에서 로그로부터 값을 가져와 비교하기 쉽게 한다.

Table 3과 4는 $\mathcal{W}$가 $\mathcal{Z}$보다 일관되게 더 잘 분리한다는 것을 보여주며 덜 엉킨 표현을 제시한다.

더 나아가, mapping network의 깊이를 증가시키는 것은 $\mathcal{W}$에서 이미지의 질과 분리 가능성 모두를 향상시키며 이는 합성 네트워크가 내제적으로 엉키지 않은 입력 표현을 설호한다는 가설과 일치한다. 흥미롭게도 기존 generator의 앞에 mapping network를 추가하는 것은 $\mathcal{Z}$의 separability가 심각하게 손실되지만 중간 잠재 공간 $\mathcal{W}$의 상황이 향상되고 FID도 개선된다. 이는 훈련 데이터 분포를 따를 필요가 없는 중간 잠재 공간을 도입할 때 기존 generator 구조에서도 더 잘 작동한다는 것을 보여준다.

be in line with ~와 일치하다

5. Conclusion

우리들의 결과와 Chen외 연구진에 의한 병렬 작업을 바탕으로 보았을 때 전통적인 GAN generator 구조는 style-based 설계보다 모든 측면에서 열악하다는 것이 분명하다. 이것은 확립된 품질 지표 측면에서 사실이고 우리는 중간 잠재 공간의 선형성뿐 아니라 높은 수준의 속성과 확률적 효과의 분리에 대한 우리들의 조사가 GAN 합성의 이해와 제어 가능성을 향상시키는데 생산적임을 증명할 것이라 믿는다.

우리는 우리들의 average path leength metric이 훈련 동안 regularizer로써 쉽게 사용될 수 있고 아마 몇몇 linear separability metirc의 일부 변형에 대해서도 같은 역할을 할 수 있다는 것에 주목한다. 일반적으로 우리는 훈련동안 중간 잠재 공간을 직접 형성하는 방법들이 향후 작업을 위한 흥미있는 방법을 제공할 것이라 기대한다.

A. The FFHQ dataset

B. Truncation trick in W

C. Hyperparameters and training details

D. Training convergence

E. Other datasets