VIT 관련 자료들 (근본들)
- [github] google research : https://github.com/google-research/vision_transformer
- [paper] AN IMAGE IS WORTH 16X16 WORDS:
TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE <- 이친구가 vit 최초 논문
- [paper] MLP-Mixer: An all-MLP Architecture for Vision
Abstract
- Transformer 는 NLP 분야의 사실상 표준임
- 하지만 Vision 분야에서는 여전히 CNN 혹은 CNN 기반의 변형된 architecture를 사용하고 있다.
- pure transformer applied directly to
sequences of image patches
- Vision 분야에서는 Image patch 형태로 transformer에 응용 할 수 있음을 밝힘
Introduction
NLP에서의 Transformer 연구 흐름을 말하고있다.
- Transformer는 Self-attention 기반의 architecture임
- 일반적으로 대량의 데이터로 학습된 pretrained model을 만들고, 이를 기반으로 fine tuning 하여 다른 task를 풀고있음
- Transformer는 기존 CNN기반의 모델에 비하여 computational efficiency and scalability 를 가지고 있음.
하지만 Vision에서는 transformer 안쓰고 있음
- 여전히 CNN 기반의 architecture를 사용하고 있음
- 여러 변형된 형태의 CNN architecture가 있지만, 특수한 architecture의 경우 여러 가속 방법 (tensorrt 등)을 이용 할 수 없는 경우가 많아 여전히
Resnet
기반의 모델을 많이사용하고 있음
우리는 Transformer를 vision 분야에 적용시켜보려함