ViT 논문을 읽기 전, Attention Is All You Need와 같은 transformer 구조에 관한 논문을 읽고 오시는 걸 추천드립니다. 0. Abstract 그동안 NLP분야에선 transformer 구조가 굉장히 지배적인 standard 였습니다 사실, vision 분야에서의 응용은 잘 되지 않았습니다. 하지만! 새로 등장한 Vision Transformer는 기존의 다른 CNN들에 비해 계산량은 상당히 적으면서도 성능은 좋았습니다 CNN 구조 대부분을 Transformer로 대체했다는 특징이 존재합니다. 단, 많은 데이터를 pre-train해야한다는 제약이자 단점이 존재합니다. 1. Introduction - self-Attention을 적용하려는 시도가 많았지만 현대의 하드웨어 가속기..
목차 0. Abstract 1. Introduction 2. Encoder and Decoder Stacks 3. Attention 4. Why Self-Attention 5. Result Abstract 등장 배경? 이전 방식들 ( RNN, LSTM, GRU ) 등등은 인코더-디코더 기반의 sequential한 모델입니다. (sequential 하다는 것은 모델이 입력을 순차적으로 받고, 연산 또한 이전 결과의 입력을 받아야 한다는 특징을 가지는 것을 의미) 즉, 내부에 RNN, CNN을 사용하는 구조입니다. 연구진들은 RNN, CNN 없이 오직 ‘Attention’ 기법만을 이용한 Transformer 제안하였습니다. 이것이 바로 이번에 다룰 내용입니다. Transformer의 이점으로는 기존 모델 ..
목차 0. Abstract 1. Introduction 2. Unified Detection 3. Network Design 4. Loss 5. Limitations of YOLO 6. Result Abstract - 2-stage Detector : localization과 classification 두 과정을 거쳐 객체를 Detection 함 장점 : 정확도 단점 : 느린 속도 - 1-stage Detecor : 논문에서는 두 과정을 한번에 처리하는 방법을 제시하여 fps(초당 처리하는 frame 수)를 더욱 빠르게 하였다고 함 Introduction - YOLO v1은 localization과 classification을 하나의 문제로 정의하여 network가 동시에 두 task를 수행하도록 설계함..
목차 overall fine-tuning R-CNN Fast R-CNN Faster R-CNN 1. overall R-CNN, Fast R-CNN, Faster R-CNN의 전체적인 모습이다. 함께 살펴보도록 하자! 2. fine-tuning 기존에 학습되어있는 모델은 1000개의 클래스를 분류하는 모델이라고 치고, 우리는 21개의 클래스만 필요하다고 해보자 이때 맨 아래 그림처럼 마지막 output fc layer삭제하고, 원하는 형태의 layer로 바꿔준 뒤, 내 데이터로 파라미터를 학습하는 것! 3. R-CNN •두가지 핵심 아이디어 (2-stage Detector) region proposals로 object 위치를 알아내고, 이를 CNN에 입력하여 class를 분류 Larger data set으..