Abstact - 간단한 구조의 Decoder - multi-scale feature - Positional Encoding X 1.Introduction - Transformer가 vision task에 쓰이며 발생하는 문제는? => output이 single scale의 낮은 resolution feature + large image에 대해 높은 계산량 - Encoder, Decoder 모두 redesign => hierachical Transformer Encoder (no positional encoding) + 간단한 Decoder (All MLP, 계산량 감소) + 효율적이고 정확 positional encoding이 사라짐에 따라 학습에 사용되지 않은 이미지 사이즈를 테스트 시 interpo..
Semantic Segmentation - 픽셀 기반으로 이미지를 분할하여 구분 0.Short Summary - 넓은 범위의 이미지 픽셀로부터 의미정보를 추출하고 의미정보를 기반으로 각 픽셀마다 객체를 분류하는 U 모양의 아키텍처 - 서로 근접한 객체 경계를 잘 구분하도록 학습하기 위한 Weighted Loss 1.Introduction - 생물학 분야의 영상 처리에선 Localization이 포함된 Classification이 필요 - FCN (fully-convolution layer) - Context(의미정보)를 얻기 위한 Contractinig Path - Localization(각 픽셀이 어떤 객체에 속하는지)을 위해 Resolution을 키우는 Expanding Path = 점진적으로 넓은 ..
EfficientNet의 후속작인 EfficientDet에 대해 리뷰하겠습니다. 혹시 EfficientNet을 읽어보지 않으셨거나, 기억이 안나시면 제 블로그에 있으니 찾아보시는 걸 추천 드립니다. 0.Abstact - SOTA detectors become too expensive - model efficiency becomes more important - both accuracy and efficiency 논문의 저자들은 SOTA 모델이 너무 비싸다, 모델의 efficiency 역시 중요하다. 정확도와 효율성 모두 잡은 모델은 없을까 고민하다가 EfficientDet을 고안해냈다. 1. Introduction - Question : Is it possible to build a detection a..
-1. Before start 모델의 크기를 크게 만드는 3가지 방법 1. depth 증가 2. width 증가 (= filter 개수 증가) 3. 고해상도 이미지 사용 기존에는 3가지 방법을 수동으로 조절하였기에, 최적을 찾지 못하였다. EfficientNet은 이 3가지의 최적의 조합을 AutoML을 통해 찾아내고, 수식으로 만든 논문이다. 조합을 효율적으로 만들 수 있도록 하는 compound scaling 방법을 제안하며, NAS 구조 수정을 통해 더 작은 크기의 모델로도 SOTA를 달성한 논문이다. 일반적으로 모델을 scaling하는 방법이란, b,c,d방법을 적절히 조절하는 것을 의미한다. 0.Abstract - 한정된 자원으로 최대의 효율 - compound coefficient 방법 - 더..
Introduction - DETR의 후속작이다. - 느린 수렴(Convergence)과 작은 물체에 대한 낮은 성능에 대한 대안 - multi scale feature 사용 - deformable attention module 사용 Attention weight가 uniform하게 초기화되고 나서, 의미있는 위치에 focus 시키기 위해 학습하는 시간이 매우 길다. (uniform이란, 평균이 0이고 분산이 1인 분포) ex) key가 160개라면, 1/160으로 시작해서 gradient도 매우 작은 상태, query가 주어졌을 때 key는 이미지의 다른 모든 pixel이 되기 때문에 학습이 오래 걸림 + 작은 객체를 detection은 주로 high resolution feature map에서 이뤄지..
이번 리뷰 논문은 Yolo v3입니다. 이미 워낙 유명한 Yolo 라서 그저 참고용으로만 봐주시길 바랍니다. 논문 시작에 앞서, IOU와 mAP에 대해 설명하겠습니다. IOU & mAP - IOU : 쉽게 말해서, 내가 예측한 박스가 정답 박스와 얼마나 유사한지를 측정하는 metric 입니다. - mAP : 위 IOU를 평가하는 metric이 mAP 입니다. Introduction - Tech Report : 논문의 저자들은 v3는 논문이 아니라, Tech Report라고 합니다. 엄청 super interesting 한 것은 아니고, 작은 변화들을 모아 더 나은 모델로 발전시켰다고 합니다. - Better, Not Faster, Stronger(?) : v2보다 모델이 무거워져서 더 빨라지진 않았으나 ..