2020년 Facebook AI에서 ECCV에 발표한 논문이다. Abstract - NMS, anchor box 등을 삭제하여 복잡한 detection pipeline을 간소화하였습니다. - ‘bipartite matching’ 을 사용했습니다. 자세한 설명은 뒤에서 하도록 하겠습니다. - object detection을 direct set prediction으로 생각했다고 합니다. 아래 그림과 같습니다. - set안에는 class 정보와 bounding box에 대한 정보가 존재합니다. Introduction - 기존 방식은 많은 바운딩 박스를 만들어, 그것들의 subset을 추리고, 그 다음에 subset을 regression(refine)하는 방식으로 진행하였습니다. - 이때 사용되는 NMS이나 a..
목차 0. Abstract 1. Introduction 2. Encoder and Decoder Stacks 3. Attention 4. Why Self-Attention 5. Result Abstract 등장 배경? 이전 방식들 ( RNN, LSTM, GRU ) 등등은 인코더-디코더 기반의 sequential한 모델입니다. (sequential 하다는 것은 모델이 입력을 순차적으로 받고, 연산 또한 이전 결과의 입력을 받아야 한다는 특징을 가지는 것을 의미) 즉, 내부에 RNN, CNN을 사용하는 구조입니다. 연구진들은 RNN, CNN 없이 오직 ‘Attention’ 기법만을 이용한 Transformer 제안하였습니다. 이것이 바로 이번에 다룰 내용입니다. Transformer의 이점으로는 기존 모델 ..
cnn과 다르게 주어지는 입력 자체가 sequential하다는 특징을 가진다. sequential data란? 말, 동영상, 연속적인 모션 등등을 말한다. 그렇다면 이러한 데이터가 처리하기 어려운 이유는? 받아 들여야하는 입력의 차원을 알 수 없다! -> 그래서 CNN을 사용할 수 없다.(입력의 차원을 모르기 때문에) -> 말을 할 때, 듣는 사람은 그 말이 언제 끝날지를 모른다는 것을 생각하면 이해할 수 있을 것이다. 1. sequential model naive sequential model (가장 기본적인 모델) -> 어떤 입력이 들어왔을 때, 다음엔 어떤 입력이 들어올 지 예측하는 모델 -> 입력이 쌓일수록 고려해야할 과거의 데이터들이 계속 증가함 -> fix the past timespan ..