목차 0. Abstract 1. Feature Pyramid 2. Pyramid 3. FPN 4. Bottom-Up pathway 5. Top-Down pathway and Lateral connections 6. Application 7. Experiments and Conclusion Abstract 등장 배경? - 다양한 크기의 객체 인식 필요 - 기존 방식은 많은 메모리와 엄청난 양의 연산을 통해 이루어짐 => 여러 방면에서 상당히 비효율적 - 이를 개선하고자 나타난 방식이 FPN (기존 방식은 아래에서 소개하도록 하겠습니다) Feature Pyramid - 기존 방식 (a) : input image의 크기를 다양하게 resize하고 네트워크에 입력하는 방법 장점 : 다양한 크기의 객체를 포착하는..
목차 0. Abstract 1. Introduction 2. Deformable Convolution 3. Deformable ROI pooling 4. Performance 0. Abstract •기존 CNN 방식의 문제 = 필터의 크기가 고정 •고정 방식이 문제인 이유? sliding window 방식으로 convolution을 진행할 때 이미지의 특징과 상관없이 동일한 연산 수행 => 해당 논문에선 입력 이미지의 특성에 따라 필터의 모양이 유기적으로 변형 •아이디어? offset을 학습하여 적용 = flexible한 layer = filter size 를 학습하여 object 크기에 맞게 변화하도록 하는 것 1. Introduction 어떤 한 이미지 뿐만 아니라 회전한 이미지, 반전된 이미지 등 ..
GoogleNet(Going deeper with convolutions) 1. Introduction 연산을 하는데 소모되는 자원의 사용 효율 개선 -> 네트워크의 depth와 width를 늘려도 연산량이 증가되지 않고 유지됨을 의미 이처럼 하기 위해, Hebbian principle과 multi-scale processing을 적용 이 구조를 googleNet 이라 하며 Inception이라고 부름 - AlexNet에 비해 파라미터가 12배나 적음에도 불구하고 훨씬 더 정확함 - 모바일이나 임베디드 환경에 적용할 수 있도록 유연한 구조를 가지게끔 하였음 - 추론 시에 합곱 연산 횟수를 15억번 이하로 지정하여 현실에서도 적절히 사용되게끔 설계 함 GoogLeNet의 코드네임인 Inception이란 이..
개략적 설명 : 컨볼루션 네트워크 구조의 깊이에 따른 인식 결과를 설명하는 논문, 더 좋은 정확도를 얻기위해 AlexNet를 향상하기 위한 시도의 결과라고 할 수 있다. 목차 0. Abstraction and Introduction 1. ConvNet Configurations Architecture 2. 학습 3. Test 4. Result 0. Abstraction and Introduction - CNN 모델 - 네트워크의 깊이가 모델이 좋은 성능을 보이는 데 중요한 역할을 한다는 것을 보임 - VGGNet의 필터 크기는 3x3 - stride 1, zero padding 1의 Conv 레이어 - 필터 크기 2x2 (no padding)의 Max-pool을 Pooling 레이어로 사용 - 매우 많은..
Convolution 연산 이해하기 MLP와 달리, 커널(고정된 가중치 값)을 입력벡터 상에서 움직여가면서 선형모델과 합성함수가 적용되는 구조 입력벡터 x를 모두 사용하는 것이 아니라, 커널 V의 사이즈 K만큼만 활용한다. -> 그래서 움직여가면서' 라는 표현을 사용 이 연산 역시도 선형변환에 속한다고 한다. 커널은 위 그림에서의 i와 상관없이 고정되므로, 파라미터 사이즈를 굉장히 많이 줄일 수 있다는 장점이 존재! 수학적 의미 신호를 커널을 이용해 국소적으로 증폭 또는 감소시켜서 정보를 추출 또는 필터링 하는 것 continuous할 때는 적분을 이용하고, discrete할 때는 급수로 표현한다. 하지만, 적용되는 방식은 동일하다. 즉, 두개의 함수 f와 g가 있을 때, 각각 z를 움직여가면서 ..
convolution 작동 방법 3 x 3필터를 7 x 7이미지에 적용하면, 5 x 5짜리 아웃풋이 나온다. =도장을 찍어서 매칭되는 좌표의 값을 곱한 뒤 하나로 더하면 됨! 주로 3차원의 RGB 이미지를 다룬다. 위 사진에서 차원이 하나 더 추가된 것을 알 수 있다. 필터를 한번 거치고 나면, 비선형 activation function 적용이 필요하다!(ex. ReLU) CNN은 convolution layer, pooling layer, fully-connected layer로 이루어져 있다. - convolution and pooling layer는 feature extraction의 역할을 함 (=이미지에서 유용한 정보를 뽑아주는 것) - full-connenced layer는 decisi..