An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

AI 논문 공부

ViT 논문 리뷰 (AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)

ViT 논문을 읽기 전, Attention Is All You Need와 같은 transformer 구조에 관한 논문을 읽고 오시는 걸 추천드립니다. 0. Abstract 그동안 NLP분야에선 transformer 구조가 굉장히 지배적인 standard 였습니다 사실, vision 분야에서의 응용은 잘 되지 않았습니다. 하지만! 새로 등장한 Vision Transformer는 기존의 다른 CNN들에 비해 계산량은 상당히 적으면서도 성능은 좋았습니다 CNN 구조 대부분을 Transformer로 대체했다는 특징이 존재합니다. 단, 많은 데이터를 pre-train해야한다는 제약이자 단점이 존재합니다. 1. Introduction - self-Attention을 적용하려는 시도가 많았지만 현대의 하드웨어 가속기..

beomseok99
'An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale' 태그의 글 목록