[논문 Summary] StarGAN v2 (2020 CVPR) "StarGAN v2: Diverse Image Synthesis for Multiple Domains"

논문 정보

Citation : 2022.06.18 금요일 기준 18670회

저자

Yunjey Choi, Youngjung Uh - Clova AI Research, NAVER Corp,

Jaejun Yoo - EPFL

Jung-Woo Ha - Clova AI Research, NAVER Corp

논문 링크

Official

https://openaccess.thecvf.com/content_CVPR_2020/papers/Choi_StarGAN_v2_Diverse_Image_Synthesis_for_Multiple_Domains_CVPR_2020_paper.pdf

Arxiv

https://arxiv.org/abs/1912.01865

StarGAN v2: Diverse Image Synthesis for Multiple Domains

A good image-to-image translation model should learn a mapping between different visual domains while satisfying the following properties: 1) diversity of generated images and 2) scalability over multiple domains. Existing methods address either of the iss

arxiv.org

논문 Summary

Abstract

0. 설명 시작 전 Overview

Image-to-Image Translation 분야에 있어 Diversity와 Scalability를 만족하는 StarGAN v2를 제안한다.

baseline이자 전작인 StarGAN 모델을 기반으로 모델의 수정을 진행한다.

특정 label보다 style code를 활용하는 모델 구조로의 변경 (StyleGAN의 영향을 받음.)

mapping network(random Gaussian noise -> style code) 도입

style encoder(reference image -> style code) 도입

style code를 활용하여 다양한 이미지 생성

이를 통해 이미지의 시각적 질과 Diversity(다양성), Scalability(확장성)의 우수성을 충족한다.

더불어 AFHQ 데이터 세트를 제안한다.

1. Introduction

Image-to-Image Translation 목적: 서로 다룬 도메인들간의 mapping을 학습하는 것

여기서 domain이란 특정 카테고리 범주에 속하는 이미지들의 집합을 의미한다.

이때 각 이미지는 독특한 외관을 가지는 style을 가진다.

Image-to-Image Translation 이상: 각각의 도메인에서 다양한 스타일을 고려한 이미지를 합성할 수 있다.

Image-to-Image Translation 현실 : 임의의 도메인과 스타일을 손쉽게 바꾸는 것은 어렵고 복잡하다.

특히, 2개 도메인에 대한 mapping을 시도하는 것은 도메인이 증가할 때 확장성이 부족하다.

k개의 domain이 있다면 k(k-1) generator가 필요하다.

이에 scalability의 해소를 위해 단일 generator로 다수의 domain을 mapping할 수 있게 하는 StarGAN(2018 CVPR)이 제안되었다.

StarGAN summary

https://aigong.tistory.com/395

[논문 Summary] StarGAN (2018 CVPR) "StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translati

[논문 Summary] StarGAN (2018 CVPR) "StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation" 목차 논문 정보 Citation : 2022.04.11 월요일 기준 2402회 저..

aigong.tistory.com

StarGAN 문제점 : 그러나 StarGAN은 각 도메인마다 deterministic mapping을 학습하기에 데이터 분포의 multi-modal 특성을 포착하지 못한다. 이 제한은 각 도메인마다의 predetermined label에 기인한다.

이에 다수의 도메인에 대하여 다양한 이미지를 생성할 수 있는 scalable 접근법인 StarGAN v2를 제안한다.

1) domain label 대신 domain specific style code로 교체

2) mapping network(random Gaussian noise -> style code) 도입

3) style encoder(reference image -> style code) 도입

4) 단일 generator를 통해 다수의 도메인에 대한 다양한 이미지 합성

2. StarGAN v2

2.1 Proposed framework

$\mathcal{X}, \mathcal{Y}$ : 이미지 집합, 가능한 도메인

Generator (Figure 2 (a))

$x$ : input image

$s$ : domain-specific style code, mapping network $F$ 혹은 style encoder $E$로부터 획득

$G(x,s)$ : output image

Adaptive instance normalization (AdaIN)을 사용하여 $s$를 Generator에 주입

Mapping network (Figure 2 (b))

$z$ : latent code

$y$ : domain

$F$ : mapping network, MLP로 구성되고, 다양한 style code 출력 결과를 획득

$s=F_y (z)$ : domain $y$에 상응하는 mapping network $F$에 latent code $z$를 적용했을 때의 style code $s$

이로써 F에 대해 모든 도메인들에 대한 style 표현을 효율적이고 효과적으로 학습할 수 있도록 한다.

Style encoder (Figure 2 (c))

$E$ : Style encoder, 다른 reference 이미지를 사용하여 다양한 style code를 생성

$s=E_y (z)$ : domain $y$에 상응하는 Style encoder $E$에 input image $x$를 적용했을 때의 style code $s$

이로써 $G$는 reference 이미지 $x$의 스타일 $s$를 반영하는 출력 이미지를 합성

Discriminator (Figure 2 (d))

multi-task discriminator로 다수의 출력 결과로 구성된다. 각 출력은 binary classification으로 이미지 x가 domain y에 해당하는 실제 이미지인지 가짜 이미지인지를 판단한다.

2.2 Training objectives

Adversarial objective

1) 훈련 시, latnet code $z \in \mathcal{Z}$과 target domain $y \in \mathcal{Y}$를 랜덤하게 샘플한다.

2) mapping entwork $F$로부터 target style code $\tilde{s}=F_{\tilde{y}} (z)$를 생성한다.

3) generator $G$에 이미지와 style $x, \tilde{s}$를 입력으로 넣고 target domain $y$에 맞는 이미지를 생성한다.

target domain $y$에 해당하는 실제 이미지와 생성된 이미지 간의 adversarial loss를 구한다.

Style reconstruction

generator $G$에서 생성된 이미지를 Style encoder $E$에 넣어 뽑아낸 style code와 초기 Mapping network $F$에서 얻어낸 style 간의 차이를 구하는 style reconstruction loss를 구한다.

test time때 학습된 encoder E는 Generator로 하여금 reference 이미지의 style을 반영해서 입력 이미지를 변환하도록 도와준다.

Style diversification

다양한 이미지 생성을 위해 동일 target domain에 대한 랜덤 latent code $z_1, z_2$를 F의 입력으로 사용하여 style code 2개를 뽑는다. 그리고 이 둘에 대한 생성된 이미지 간의 차이를 구함으로써 Generator $G$가 다양한 이미지를 생성하도록 한다.