AI

AI 논문 공부

DETR : End-to-End Object Detection with Transformers 논문 리뷰

2020년 Facebook AI에서 ECCV에 발표한 논문이다. Abstract - NMS, anchor box 등을 삭제하여 복잡한 detection pipeline을 간소화하였습니다. - ‘bipartite matching’ 을 사용했습니다. 자세한 설명은 뒤에서 하도록 하겠습니다. - object detection을 direct set prediction으로 생각했다고 합니다. 아래 그림과 같습니다. - set안에는 class 정보와 bounding box에 대한 정보가 존재합니다. Introduction - 기존 방식은 많은 바운딩 박스를 만들어, 그것들의 subset을 추리고, 그 다음에 subset을 regression(refine)하는 방식으로 진행하였습니다. - 이때 사용되는 NMS이나 a..

AI 논문 공부

You Only Look Once:Unified, Real-Time Object Detection (YOLO) 논문 리뷰

목차 0. Abstract 1. Introduction 2. Unified Detection 3. Network Design 4. Loss 5. Limitations of YOLO 6. Result Abstract - 2-stage Detector : localization과 classification 두 과정을 거쳐 객체를 Detection 함 장점 : 정확도 단점 : 느린 속도 - 1-stage Detecor : 논문에서는 두 과정을 한번에 처리하는 방법을 제시하여 fps(초당 처리하는 frame 수)를 더욱 빠르게 하였다고 함 Introduction - YOLO v1은 localization과 classification을 하나의 문제로 정의하여 network가 동시에 두 task를 수행하도록 설계함..

AI 논문 공부

FPN : Feature Pyramid Net 논문 리뷰

목차 0. Abstract 1. Feature Pyramid 2. Pyramid 3. FPN 4. Bottom-Up pathway 5. Top-Down pathway and Lateral connections 6. Application 7. Experiments and Conclusion Abstract 등장 배경? - 다양한 크기의 객체 인식 필요 - 기존 방식은 많은 메모리와 엄청난 양의 연산을 통해 이루어짐 => 여러 방면에서 상당히 비효율적 - 이를 개선하고자 나타난 방식이 FPN (기존 방식은 아래에서 소개하도록 하겠습니다) Feature Pyramid - 기존 방식 (a) : input image의 크기를 다양하게 resize하고 네트워크에 입력하는 방법 장점 : 다양한 크기의 객체를 포착하는..

AI 논문 공부

Deformable Convolutional Network (DCN) 논문 리뷰

목차 0. Abstract 1. Introduction 2. Deformable Convolution 3. Deformable ROI pooling 4. Performance 0. Abstract •기존 CNN 방식의 문제 = 필터의 크기가 고정 •고정 방식이 문제인 이유? sliding window 방식으로 convolution을 진행할 때 이미지의 특징과 상관없이 동일한 연산 수행 => 해당 논문에선 입력 이미지의 특성에 따라 필터의 모양이 유기적으로 변형 •아이디어? offset을 학습하여 적용 = flexible한 layer = filter size 를 학습하여 object 크기에 맞게 변화하도록 하는 것 1. Introduction 어떤 한 이미지 뿐만 아니라 회전한 이미지, 반전된 이미지 등 ..

AI 논문 공부

GoogleNet 논문 리뷰

GoogleNet(Going deeper with convolutions) 1. Introduction 연산을 하는데 소모되는 자원의 사용 효율 개선 -> 네트워크의 depth와 width를 늘려도 연산량이 증가되지 않고 유지됨을 의미 이처럼 하기 위해, Hebbian principle과 multi-scale processing을 적용 이 구조를 googleNet 이라 하며 Inception이라고 부름 - AlexNet에 비해 파라미터가 12배나 적음에도 불구하고 훨씬 더 정확함 - 모바일이나 임베디드 환경에 적용할 수 있도록 유연한 구조를 가지게끔 하였음 - 추론 시에 합곱 연산 횟수를 15억번 이하로 지정하여 현실에서도 적절히 사용되게끔 설계 함 GoogLeNet의 코드네임인 Inception이란 이..

AI 논문 공부

vggNet 논문 리뷰

개략적 설명 : 컨볼루션 네트워크 구조의 깊이에 따른 인식 결과를 설명하는 논문, 더 좋은 정확도를 얻기위해 AlexNet를 향상하기 위한 시도의 결과라고 할 수 있다. 목차 0. Abstraction and Introduction 1. ConvNet Configurations Architecture 2. 학습 3. Test 4. Result 0. Abstraction and Introduction - CNN 모델 - 네트워크의 깊이가 모델이 좋은 성능을 보이는 데 중요한 역할을 한다는 것을 보임 - VGGNet의 필터 크기는 3x3 - stride 1, zero padding 1의 Conv 레이어 - 필터 크기 2x2 (no padding)의 Max-pool을 Pooling 레이어로 사용 - 매우 많은..

beomseok99
'AI' 태그의 글 목록