Bharat Singh, Larry S. Davis - University of Maryland, College Park
극단적 규모 변화에서 물체를 인식하고 감지하기 위한 다른 기법에 대한 분석이 제시된다. 검출기의 크기 특유 그리고 크기 불변 설계는 입력 데이터의 다른 구성과 함께 그것들을 훈련하여 비교한다. ImageNet에서 작은 객체들을 분류하기 위해 서로 다른 네트워크 구조의 성능을 평가함으로써 우리는 CNN이 크기의 변화에 강건하지 않음을 보인다. 이 분석을 기반으로, 우리는 이미지 피라미드의 같은 크기에서 검출기의 훈련과 테스트할 것을 제안한다. 작은 객체와 큰 객체가 더 작은 크기와 큰 크기에서 구별하기 어렵기 때문에, 우리는 Scale Normalization for Image Pyramids (SNIP)라는 새로운 훈련 방식을 제안한다. 이는 이미지 스케일 함수로써 크기가 다른 객체의 gradient를 선택적으로 역전파할 수 있다. COCO 데이터세트에서, 우리들의 단일 모델의 성능은 45.7%이고 3개 네트워크의 앙상블은 mAP 48.3%를 얻는다. 우리는 상용 ImageNet-1000 사전 훈련 모델들을 사용하고 오직 bounding box supervision (관리)로만 훈련한다. 우리들의 제안안은 COCO 2017 challenge에서 최우수 학생 출품작을 수상했다.
off-the-shelf 재고품의, 출하 대기의; 기성품인
https://openaccess.thecvf.com/content_cvpr_2018/papers/Singh_An_Analysis_of_CVPR_2018_paper.pdf
Reference Object Detection
PR-002 Deformable Convolutional Networks (2017)
PR-012 Faster R-CNN
PR-016 YOLO
PR-023 YOLO9000
PR-033 PVANet
PR-057 Mask R-CNN
PR-084 MegDet (CVPR 2018)
Motivation
왜 Image Classification (ImageNet)보다 Object Detection (MSCOCO)이 어려울까?
1) 객체가 너무 작다
2) scale variation이 크다
3) domain shift가 크다
작은 객체에 대한 성능이 모든 모델에 걸쳐 좋지 못함을 확인할 수 있음
CNN
초기 low level feature (Edge, texture 등)을 먼저 뽑고
이후 high level feature을 추출
layer가 깊어질수록 작은 객체에 대한 high level feature을 뽑기가 어렵다. resolution
shallow network 혹은 layer을 활용하는 방안들
훈련 단계에서 upscale해서 학습을 진행. mAP 성능 향상
테스트 단계에서도 upscale해서 활용
CNN은 upsampling에 강건하냐?
No, CNN은 Upsampling에 Robust 강건하지 않다.
그렇다면 대안이 있을까?
다양한 네트워크를 만드는 것은 어떨까
Maximize Variation in Data or Minimize Variation in Scale?
Maximize Variation in Data (데이터를 키우는 것)
Minimize Variation in Scale (CNN이 Scale에 강건하지 않으므로 최소화하는 것을 제안)
Pretrained classification network 224x224
Original 640x480
Inference 1400x2000
3) Image Pyramid는 Data Augmentation 효과가 있음. 작은 이미지에 대해서는 너무 작은 객체가 나타남. 학습이 잘 되지 않는다.
학습시 Data variation 최대화도 중요하나 Object Scale도 매우 중요하다.
Scale Variation을 줄이기 위해 Scale Normalization을 진행하는 것을 제안.
작게 upsampling한 이미지에 대해서는 큰 객체를. 크게 upsampling한 큰 이미지에 대해서는 작은 객체만을 확인
이것이 Scale Variation을 줄이는 본 논문의 제안 방법
특정 범위 내의 사각형만 골라내는 것.
backpropagation할 때도 채택된 것만 역전파 진행.
scale에 상관없이 모든 객체들에 대한 처리를 진행하면 문제가 됨
적당한 크기의 객체만을 선별하여 활용
Scale Normalization
가장 큰 문제점 : 2.5x slower per epoch
SNIPER 제안
https://proceedings.neurips.cc/paper/2018/file/166cee72e93a992007a89b39eb29628b-Paper.pdf