'리뷰' 태그의 글 목록 (2 Page)

DETR : End-to-End Object Detection with Transformers 논문 리뷰

2023.04.07

2020년 Facebook AI에서 ECCV에 발표한 논문이다. Abstract - NMS, anchor box 등을 삭제하여 복잡한 detection pipeline을 간소화하였습니다. - ‘bipartite matching’ 을 사용했습니다. 자세한 설명은 뒤에서 하도록 하겠습니다. - object detection을 direct set prediction으로 생각했다고 합니다. 아래 그림과 같습니다. - set안에는 class 정보와 bounding box에 대한 정보가 존재합니다. Introduction - 기존 방식은 많은 바운딩 박스를 만들어, 그것들의 subset을 추리고, 그 다음에 subset을 regression(refine)하는 방식으로 진행하였습니다. - 이때 사용되는 NMS이나 a..

AI 논문 공부

ViT 논문 리뷰 (AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)

2023.03.27

ViT 논문을 읽기 전, Attention Is All You Need와 같은 transformer 구조에 관한 논문을 읽고 오시는 걸 추천드립니다. 0. Abstract 그동안 NLP분야에선 transformer 구조가 굉장히 지배적인 standard 였습니다 사실, vision 분야에서의 응용은 잘 되지 않았습니다. 하지만! 새로 등장한 Vision Transformer는 기존의 다른 CNN들에 비해 계산량은 상당히 적으면서도 성능은 좋았습니다 CNN 구조 대부분을 Transformer로 대체했다는 특징이 존재합니다. 단, 많은 데이터를 pre-train해야한다는 제약이자 단점이 존재합니다. 1. Introduction - self-Attention을 적용하려는 시도가 많았지만 현대의 하드웨어 가속기..

AI 논문 공부

Attention Is All You Need(2017) 논문 리뷰

2023.03.16

목차 0. Abstract 1. Introduction 2. Encoder and Decoder Stacks 3. Attention 4. Why Self-Attention 5. Result Abstract 등장 배경? 이전 방식들 ( RNN, LSTM, GRU ) 등등은 인코더-디코더 기반의 sequential한 모델입니다. (sequential 하다는 것은 모델이 입력을 순차적으로 받고, 연산 또한 이전 결과의 입력을 받아야 한다는 특징을 가지는 것을 의미) 즉, 내부에 RNN, CNN을 사용하는 구조입니다. 연구진들은 RNN, CNN 없이 오직 ‘Attention’ 기법만을 이용한 Transformer 제안하였습니다. 이것이 바로 이번에 다룰 내용입니다. Transformer의 이점으로는 기존 모델 ..

AI 논문 공부

R-CNN, Fast R-CNN, Faster R-CNN 논문 리뷰

2023.01.27

목차 overall fine-tuning R-CNN Fast R-CNN Faster R-CNN 1. overall R-CNN, Fast R-CNN, Faster R-CNN의 전체적인 모습이다. 함께 살펴보도록 하자! 2. fine-tuning 기존에 학습되어있는 모델은 1000개의 클래스를 분류하는 모델이라고 치고, 우리는 21개의 클래스만 필요하다고 해보자 이때 맨 아래 그림처럼 마지막 output fc layer삭제하고, 원하는 형태의 layer로 바꿔준 뒤, 내 데이터로 파라미터를 학습하는 것! 3. R-CNN •두가지 핵심 아이디어 (2-stage Detector) region proposals로 object 위치를 알아내고, 이를 CNN에 입력하여 class를 분류 Larger data set으..

AI 논문 공부

GoogleNet 논문 리뷰

2022.12.30

GoogleNet(Going deeper with convolutions) 1. Introduction 연산을 하는데 소모되는 자원의 사용 효율 개선 -> 네트워크의 depth와 width를 늘려도 연산량이 증가되지 않고 유지됨을 의미 이처럼 하기 위해, Hebbian principle과 multi-scale processing을 적용 이 구조를 googleNet 이라 하며 Inception이라고 부름 - AlexNet에 비해 파라미터가 12배나 적음에도 불구하고 훨씬 더 정확함 - 모바일이나 임베디드 환경에 적용할 수 있도록 유연한 구조를 가지게끔 하였음 - 추론 시에 합곱 연산 횟수를 15억번 이하로 지정하여 현실에서도 적절히 사용되게끔 설계 함 GoogLeNet의 코드네임인 Inception이란 이..

DETR : End-to-End Object Detection with Transformers 논문 리뷰

ViT 논문 리뷰 (AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE)

Attention Is All You Need(2017) 논문 리뷰

R-CNN, Fast R-CNN, Faster R-CNN 논문 리뷰

GoogleNet 논문 리뷰

티스토리툴바