Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby - Google Research, Brain Team
https://openreview.net/forum?id=YicbFdNTTy
Arxiv
https://arxiv.org/abs/2010.11929
https://drive.google.com/file/d/1YMV35XBQwDVEpv31hFmTR8gEFHL3GIUr/view
Transformers & Vision
NLP Task를 기반으로 시작된 Transformer
Computer Vision에서의 Transformer의 다양한 시도
( 각각의 section별 설명은 생략)
Transformer Encoder는 NLP에서 사용하는 모습을 그대로 따라가는 형식
NLP에서는 1D sequence token을 입력으로 사용하지만 Vision에서는 2D 이미지를 사용함.
이를 다루기 위해 각 이미지를 16x16 사이즈의 패치들을 활용
ex) 256x256 image -> 16x16 patch 256개
ViT Experiment
ViT 실험을 위한 데이터 세트
가장 기본이 되는 것은 ImageNet 이미지 데이터 세트
다양한 모델 변형을 설정
대다수의 데이터 세트에 있어 제안된 모델이 가장 좋은 성과를 보임
이전 SOTA인 BiT 대비 좋은 성능을 보임.
데이터 세트가 커질수록 ViT의 성능이 월등히 좋아짐
ViT Embedding filter와 position embedding의 visualize 결과
Further Study
Self-supervision & Detection & Segmentation
https://github.com/google-research/vision_transformer