AI 논문 공부

Deformable Convolutional Network (DCN) 논문 리뷰

beomseok99 2023. 1. 13. 00:16
728x90

목차

0. Abstract

1. Introduction

2. Deformable Convolution

3. Deformable ROI pooling

4. Performance

 

0. Abstract

기존 CNN 방식의 문제 = 필터의 크기가 고정
고정 방식이 문제인 이유? sliding window 방식으로 convolution을 진행할 때 이미지의 특징과 상관없이 동일한 연산 수행
=> 해당 논문에선 입력 이미지의 특성에 따라 필터의 모양이 유기적으로 변형
아이디어? offset을 학습하여 적용 = flexiblelayer = filter size 학습하여 object 크기에 맞게 변화하도록 하는 것
 

1. Introduction

어떤 한 이미지 뿐만 아니라 회전한 이미지, 반전된 이미지 등 수많은 변형된 이미지들 또한 같은 레이블임
변형된 이미지들을 network가 판단하기 위해서는 2가지 문제점
    -> 레이블이 같은 원본 이미지를 알아야 함
    -> 특징을 추출하는 것이 어렵다 = 사람이 알려줘야함

 

위를 해결하기 위한 두가지 방법 제안
    1. Deformable convolution
    2. Deformable ROI Pooling
 

2. Deformable Convolution

convolution에서 사용하는 sampling grid2D offset을 더한다는 아이디어에서 출발
(a) : 기존의 convolution에서 값을 추출하는 영역
(b), (c), (d) : (a)offset을 더해 푸른 점들처럼 다양한 패턴으로 변형시켜 사용 (= deformable convolution으로 값을 추출하는 영역)

 

3x3 deformable convolution

deformable convolution 을 나타낸 그림

그림을 보면 input feature map에서 2 branch로 나뉘진다. 1 branch는 offset을 계산하는 conv layer이고, 또 다른 branch는 offset 정보를 받아 conv 연산을 수행해 output feature map을 생성한다.

즉,  conv layer로 offset을 계산한 뒤에, 이 offset 정보를 추가하여 conv 연산을 수행합니다.

오른쪽이 기존 특징 추출 수식, 왼쪽은 deformable convolution에서 사용하는 수식

델타 P는 추가된 offset을 의미한다.

offset이 추가 되어 좀 더 넓은 범위의 grid 영역에서 특징을 추출합니다. 이 때 문제는 offset은 실수이기 때문에 해당 픽셀값을 찾을 수 없다는 것이고, 문제는 쌍선형 보간법을 통해 계산합니다. (쌍선형 보간법에 대해서는 구글링..)

 

위 그림에서 초록색 layer는 각 input2D offset학습하기 위한 추가적인 layer이고, offset은 학습 가능하다!
 

3x3 deformable convolution의 예 (1)

해당 activation 물체에 맞게 필터가 조정되며, 해당 물체에만 잘 fitting 되는 모습을 볼 수 있다!

3x3 deformable convolution의 예 (2)

붉은 점 : deformable convolution filter에서 학습한 offset을 반영 

초록색 사각형 : filter의 output 위치

일정하게 샘플링 패턴이 고정되어 있지 않고, object에 대해서는 receptive field가 더 커진 것을 확인할 수 있습니다.

마지막 1~3 layerdeformable convolution으로 변경해서 사용한다.
 

3. Deformable ROI pooling

전개 논리는 Deformable conv와 동일하다.

(RoI Pooling 이란 Fast RCNN에서 원하는 위치(regions)의 feature를 max pooling 하여 고정된 크기로 만들기 위한 layer)

 

수식 (위쪽이 스탠다드, 아래쪽이 deformable)

Deformable conv와 다른 점

- offset 값을 convolution이 아닌, fully-connected 연산을 통해 구함

- 쌍선형 보간법 적용은 동일

 

deformable RoI pooling을 사용했을 때,  RoI에 해당하는 붉은 사각형의 모양이 object 형태에 따라 다양한 형태로 변형되는 것을 볼 수 있다.

 

4. Performance

성능 향상을 확인할 수 있다.

결론

객체의 크기와 receptive field가 상관관계가 있다

배경이나 큰 물체의 경우에 넓은 범위의 receptive field가 필요하다

728x90