AI 공부 도전기

PR-110 "An Analysis of Scale Invariance in Object Detection - SNIP" Review (2018 CVPR)(Object Detection)

 

 

     

 

 

1. Citations & Abstract 읽기

Citations : 2021.12.20 기준 339회

저자

Bharat Singh, Larry S. Davis - University of Maryland, College Park

Abstract

극단적 규모 변화에서 물체를 인식하고 감지하기 위한 다른 기법에 대한 분석이 제시된다. 검출기의 크기 특유 그리고 크기 불변 설계는 입력 데이터의 다른 구성과 함께 그것들을 훈련하여 비교한다. ImageNet에서 작은 객체들을 분류하기 위해 서로 다른 네트워크 구조의 성능을 평가함으로써 우리는 CNN이 크기의 변화에 강건하지 않음을 보인다. 이 분석을 기반으로, 우리는 이미지 피라미드의 같은 크기에서 검출기의 훈련과 테스트할 것을 제안한다. 작은 객체와 큰 객체가 더 작은 크기와 큰 크기에서 구별하기 어렵기 때문에, 우리는 Scale Normalization for Image Pyramids (SNIP)라는 새로운 훈련 방식을 제안한다. 이는 이미지 스케일 함수로써 크기가 다른 객체의 gradient를 선택적으로 역전파할 수 있다. COCO 데이터세트에서, 우리들의 단일 모델의 성능은 45.7%이고 3개 네트워크의 앙상블은 mAP 48.3%를 얻는다. 우리는 상용 ImageNet-1000 사전 훈련 모델들을 사용하고 오직 bounding box supervision (관리)로만 훈련한다. 우리들의 제안안은 COCO 2017 challenge에서 최우수 학생 출품작을 수상했다.

 

off-the-shelf 재고품의, 출하 대기의; 기성품인

 

 

2. 발표 정리

https://youtu.be/nimHWHxjBJ8

 

공식 논문 링크

https://openaccess.thecvf.com/content_cvpr_2018/papers/Singh_An_Analysis_of_CVPR_2018_paper.pdf

 

Presentation Slide

https://www.slideshare.net/jaewonlee79/pr110-an-analysis-of-scale-invariance-in-object-detection-snip

 

PR-110: An Analysis of Scale Invariance in Object Detection – SNIP

paper : https://arxiv.org/abs/1711.08189 youtube : https://youtu.be/nimHWHxjBJ8

www.slideshare.net

 

Contents

 

Reference Object Detection

PR-002 Deformable Convolutional Networks (2017)

PR-012 Faster R-CNN

PR-016 YOLO

PR-023 YOLO9000

PR-033 PVANet

PR-057 Mask R-CNN

PR-084 MegDet (CVPR 2018)

 

Motivation

 

 

왜 Image Classification (ImageNet)보다 Object Detection (MSCOCO)이 어려울까?

1) 객체가 너무 작다

2) scale variation이 크다

3) domain shift가 크다

 

발표자료 slide 7

작은 객체에 대한 성능이 모든 모델에 걸쳐 좋지 못함을 확인할 수 있음

 

CNN

초기 low level feature (Edge, texture 등)을 먼저 뽑고

이후 high level feature을 추출

 

layer가 깊어질수록 작은 객체에 대한 high level feature을 뽑기가 어렵다.  resolution

 

발표자료 slide 9

shallow network 혹은 layer을 활용하는 방안들

 

 

발표자료 slide 12

 

훈련 단계에서 upscale해서 학습을 진행. mAP 성능 향상

테스트 단계에서도 upscale해서 활용

 

CNN은 upsampling에 강건하냐?

 

No, CNN은 Upsampling에 Robust 강건하지 않다.

그렇다면 대안이 있을까?

 

다양한 네트워크를 만드는 것은 어떨까

 

FT = finetuning

 

Maximize Variation in Data or Minimize Variation in Scale?

 

Maximize Variation in Data (데이터를 키우는 것)

Minimize Variation in Scale (CNN이 Scale에 강건하지 않으므로 최소화하는 것을 제안)

 

Pretrained classification network 224x224

Original 640x480

Inference 1400x2000

 

3) Image Pyramid는 Data Augmentation 효과가 있음. 작은 이미지에 대해서는 너무 작은 객체가 나타남. 학습이 잘 되지 않는다.

학습시 Data variation 최대화도 중요하나 Object Scale도 매우 중요하다. 

 

Scale Variation을 줄이기 위해 Scale Normalization을 진행하는 것을 제안.

작게 upsampling한 이미지에 대해서는 큰 객체를. 크게 upsampling한 큰 이미지에 대해서는 작은 객체만을 확인

이것이 Scale Variation을 줄이는 본 논문의 제안 방법

 

 

특정 범위 내의 사각형만 골라내는 것. 

backpropagation할 때도 채택된 것만 역전파 진행.

 

발표자료 slide 33

scale에 상관없이 모든 객체들에 대한 처리를 진행하면 문제가 됨

발표자료 slide 34

적당한 크기의 객체만을 선별하여 활용

Scale Normalization

가장 큰 문제점 : 2.5x slower per epoch

 

SNIPER 제안

https://proceedings.neurips.cc/paper/2018/file/166cee72e93a992007a89b39eb29628b-Paper.pdf

 

참조

공식 GitHub

http://bit.ly/2yXVg4c

 

GitHub - bharatsingh430/snip: Scale Normalization for Image Pyramids

Scale Normalization for Image Pyramids. Contribute to bharatsingh430/snip development by creating an account on GitHub.

github.com

 

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading