2020년 Facebook AI에서 ECCV에 발표한 논문이다. Abstract - NMS, anchor box 등을 삭제하여 복잡한 detection pipeline을 간소화하였습니다. - ‘bipartite matching’ 을 사용했습니다. 자세한 설명은 뒤에서 하도록 하겠습니다. - object detection을 direct set prediction으로 생각했다고 합니다. 아래 그림과 같습니다. - set안에는 class 정보와 bounding box에 대한 정보가 존재합니다. Introduction - 기존 방식은 많은 바운딩 박스를 만들어, 그것들의 subset을 추리고, 그 다음에 subset을 regression(refine)하는 방식으로 진행하였습니다. - 이때 사용되는 NMS이나 a..
목차 0. Abstract 1. Introduction 2. Unified Detection 3. Network Design 4. Loss 5. Limitations of YOLO 6. Result Abstract - 2-stage Detector : localization과 classification 두 과정을 거쳐 객체를 Detection 함 장점 : 정확도 단점 : 느린 속도 - 1-stage Detecor : 논문에서는 두 과정을 한번에 처리하는 방법을 제시하여 fps(초당 처리하는 frame 수)를 더욱 빠르게 하였다고 함 Introduction - YOLO v1은 localization과 classification을 하나의 문제로 정의하여 network가 동시에 두 task를 수행하도록 설계함..
목차 0. Abstract 1. Feature Pyramid 2. Pyramid 3. FPN 4. Bottom-Up pathway 5. Top-Down pathway and Lateral connections 6. Application 7. Experiments and Conclusion Abstract 등장 배경? - 다양한 크기의 객체 인식 필요 - 기존 방식은 많은 메모리와 엄청난 양의 연산을 통해 이루어짐 => 여러 방면에서 상당히 비효율적 - 이를 개선하고자 나타난 방식이 FPN (기존 방식은 아래에서 소개하도록 하겠습니다) Feature Pyramid - 기존 방식 (a) : input image의 크기를 다양하게 resize하고 네트워크에 입력하는 방법 장점 : 다양한 크기의 객체를 포착하는..
목차 0. Abstract 1. Introduction 2. Deformable Convolution 3. Deformable ROI pooling 4. Performance 0. Abstract •기존 CNN 방식의 문제 = 필터의 크기가 고정 •고정 방식이 문제인 이유? sliding window 방식으로 convolution을 진행할 때 이미지의 특징과 상관없이 동일한 연산 수행 => 해당 논문에선 입력 이미지의 특성에 따라 필터의 모양이 유기적으로 변형 •아이디어? offset을 학습하여 적용 = flexible한 layer = filter size 를 학습하여 object 크기에 맞게 변화하도록 하는 것 1. Introduction 어떤 한 이미지 뿐만 아니라 회전한 이미지, 반전된 이미지 등 ..
GoogleNet(Going deeper with convolutions) 1. Introduction 연산을 하는데 소모되는 자원의 사용 효율 개선 -> 네트워크의 depth와 width를 늘려도 연산량이 증가되지 않고 유지됨을 의미 이처럼 하기 위해, Hebbian principle과 multi-scale processing을 적용 이 구조를 googleNet 이라 하며 Inception이라고 부름 - AlexNet에 비해 파라미터가 12배나 적음에도 불구하고 훨씬 더 정확함 - 모바일이나 임베디드 환경에 적용할 수 있도록 유연한 구조를 가지게끔 하였음 - 추론 시에 합곱 연산 횟수를 15억번 이하로 지정하여 현실에서도 적절히 사용되게끔 설계 함 GoogLeNet의 코드네임인 Inception이란 이..
개략적 설명 : 컨볼루션 네트워크 구조의 깊이에 따른 인식 결과를 설명하는 논문, 더 좋은 정확도를 얻기위해 AlexNet를 향상하기 위한 시도의 결과라고 할 수 있다. 목차 0. Abstraction and Introduction 1. ConvNet Configurations Architecture 2. 학습 3. Test 4. Result 0. Abstraction and Introduction - CNN 모델 - 네트워크의 깊이가 모델이 좋은 성능을 보이는 데 중요한 역할을 한다는 것을 보임 - VGGNet의 필터 크기는 3x3 - stride 1, zero padding 1의 Conv 레이어 - 필터 크기 2x2 (no padding)의 Max-pool을 Pooling 레이어로 사용 - 매우 많은..