AI 논문 공부
Attention Is All You Need(2017) 논문 리뷰
목차 0. Abstract 1. Introduction 2. Encoder and Decoder Stacks 3. Attention 4. Why Self-Attention 5. Result Abstract 등장 배경? 이전 방식들 ( RNN, LSTM, GRU ) 등등은 인코더-디코더 기반의 sequential한 모델입니다. (sequential 하다는 것은 모델이 입력을 순차적으로 받고, 연산 또한 이전 결과의 입력을 받아야 한다는 특징을 가지는 것을 의미) 즉, 내부에 RNN, CNN을 사용하는 구조입니다. 연구진들은 RNN, CNN 없이 오직 ‘Attention’ 기법만을 이용한 Transformer 제안하였습니다. 이것이 바로 이번에 다룰 내용입니다. Transformer의 이점으로는 기존 모델 ..