Patrick Esser, Robin Rombach, Bj¨orn Ommer - Heidelberg Collaboratory for Image Processing, IWR, Heidelberg University, Germany
Arxiv
https://arxiv.org/abs/2012.09841
Transformer를 활용한 Image Synthesis는 한계점이 분명해 보임.
CNN은 Inductive Bias를 통해 상대적 학습량이 줄어듬
Transformer는 많은 데이터 사용으로 인해 복잡도가 높아짐.
Patch -> Reshape -> vectorization
CNN을 통한 vectorization
Language에서의 input은 discrete vector sequence
embedding을 위해 사용하는 lookup table 방법
Image input이 Encoder를 통해 vectorization이 진행됨.
입력 이미지보다 16배 작은 height, width를 가지는 $\hat{z}$를 구성
Lookup Table과 같은 Codebook $\mathcal{Z}$ : N개의 code sample
codebook과 L2 loss를 통해 차이가 작은 것들을 기반으로 quantization을 진행하여 $z_q$를 획득
vector quantization
quantization된 $z_q$를 Decoder G에 넣어 Image Generation을 진행함.
Reconstruction loss인 L2 Loss
sg : stop-gradient operation
$\lambda$ : Decoder의 마지막 layer L에 대한 gradient 값을 분모와 분자에 대해 구함.
Unconditional Generation vs Conditional Generation
log likelihood maximize = softmax logit loss
다음이 나올 예측을 위한 방안
인접한 patch들 간의 attention 계산을 통해 다음 값을 찾아냄
연산량이 늘어날 것 없이 이미지 합성이 가능
condition : class, segmentation map, edge information etc
고화질의 이미지 데이터 생성 또한 가능
https://github.com/CompVis/taming-transformers
https://compvis.github.io/taming-transformers/