VIT 관련 자료들 (근본들)

[github] google research : https://github.com/google-research/vision_transformer
[paper] AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE <- 이친구가 vit 최초 논문
[paper] MLP-Mixer: An all-MLP Architecture for Vision

Abstract

Transformer 는 NLP 분야의 사실상 표준임
하지만 Vision 분야에서는 여전히 CNN 혹은 CNN 기반의 변형된 architecture를 사용하고 있다.
pure transformer applied directly to sequences of image patches
- Vision 분야에서는 Image patch 형태로 transformer에 응용 할 수 있음을 밝힘

Introduction

NLP에서의 Transformer 연구 흐름을 말하고있다.

Transformer는 Self-attention 기반의 architecture임
일반적으로 대량의 데이터로 학습된 pretrained model을 만들고, 이를 기반으로 fine tuning 하여 다른 task를 풀고있음
Transformer는 기존 CNN기반의 모델에 비하여 computational efficiency and scalability 를 가지고 있음.

하지만 Vision에서는 transformer 안쓰고 있음

여전히 CNN 기반의 architecture를 사용하고 있음
여러 변형된 형태의 CNN architecture가 있지만, 특수한 architecture의 경우 여러 가속 방법 (tensorrt 등)을 이용 할 수 없는 경우가 많아 여전히 Resnet 기반의 모델을 많이사용하고 있음

우리는 Transformer를 vision 분야에 적용시켜보려함