LPIPS - 1801. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric) Summary
관련 URL 주소
arxiv 링크
2018 CVPR 공식 논문 링크
공식 코드
github.com/richzhang/PerceptualSimilarity
저자
Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, Oliver Wang
Abstract
지각적 유사성과 관련해서 인간은 빠르게 평가하지만 이를 측정하는 metric은 복잡하다.
가장 많이 사용하는 PSNR, SSIM과 같은 지표는 너무 단순하고 얕은 함수로써 인간의 지각에 대한 미묘한 차이를 설명하는데 실패한다.
이에 perceptual loss와 관련한 분석을 통해 해당 loss의 성공에 대해 알아보려한다.
결과적으로 지각적 유사성은 깊은 시각적 표현을 공유하는 신생 특성임을 제안한다.
Motivation
컴퓨터 비전의 시각적 패턴 분석은 간단해보이지만 아직도 개방된 문제이다. 시각적 패턴은 매우 고차원적이고 상관성이 높으며 시각적 유사성은 주관적이기에 인간의 시각적 지각 능력을 모방하는 것이 컴퓨터 비전에서의 목표이다.
ex) 이미지 압축 : 픽셀 차가 존재하나 사람의 눈에는 차이를 거의 느끼지 못함
L2 loss인 Euclidean distance와 관련된 PSNR은 pixel 간 독립성을 가정하기 때문에 이미지와 같이 구조화된 결과를 평가하기에는 충분하지 않다.
ex) blur 흐릿함은 큰 지각적 loss 그러나 작은 l2를 가진다.
우리가 원하는 것은 인간의 판단과 일치하는 방식으로 두 개의 이미지가 어마나 유사한지 측정하는 "perceptual distance" 지각적 거리이다.
ex) SSIM, MSSIM, FSIM, HDR-VDP
인간의 유사성 판단 기준 3가지
1) 고차원 이미지 구조에 의존적(high-order image structure)
2) 맥락 의존적(context dependent)
3) distance metric으로 구성된 것이 아닐 수 있다.
ex) 2)의 핵심은 유사성의 감각이 많이 다를 수 있다.
빨간 원은 빨간 사각형에 가까울까 파란 원에 가까울가
이는 문맥에 따라 달라지기에 다루기 어려운 부분이다.
high-level image classification task로 학습된 깊은 conv network는 광범위한 representation space에서 매우 유용하다.
ex) VGG features -> Neural Style transfer, Image Supreresolution, Conditional Image Synthesis
해당 방법들은 VGG feature space에서 preceptual loss라는 distance로 측정하여 활용한다.
우리들의 결과는 아래 가설과 일치한다.
=> Perceptual Similarity는 세상의 중요한 구조에 대해 예측하도록 조율된 시각적 표현의 결과이다.
Contribution
1) 484k human judgment를 포함한 large-scale, high varied, perceptual similarity 데이터세트를 소개
2) 다양한 목적으로 학습된 deep feature들이 low-level perceptual similarity를 잘 모델링 한다.
3) network architecture만으로는 성능 설명이 불가능하고 성능이 낮다.
4) 자신들의 데이터로 pre-train된 네트워크로부터 feature response를 "calibrating"함으로써 성능 향상이 가능하다.
제시한 데이터 세트의 경우 질적 평가보다 지각적 유사성에 더 초점을 맞춰 구성했다.
2. Berkeley-Adobe Perceptual Patch Similarity(BAPPS) Dataset
데이터에 대해서는 2 접근법이 사용
1) A Two Alternative Forced Choice(2AFC) test : 2개의 왜곡된 것들 중 reference와 가장 비슷한 것을 묻는 test
2) A Just Noticeable Difference(JND) test : 하나의 reference, 하나의 왜곡된 이미지에서 얻은 2 패치들이 같은지 다른지를 묻는 test
2.1 Distortions
Table 2 왼쪽 전통적인 방식의 왜곡뿐 아니라 Table 2 오른쪽과 같은 DNN에서 왜곡이 가능한 것들의 simulate를 진행함.
Super-Resolution, Frame interpolation, Video deblurring, Colorization을 통한 sampling을 진행함
2.2 Psychophysical Similarity Measurements
5. Conclusion
우리들의 결과는 도전적인 시각적 예측과 모델링 작업을 해결하기 위해 훈련된 네트워크가 결국 지각적 판단과 많은 상관이 있는 세계의 표현을 학습한다는 것을 나타냅니다.
이는 표현학습, self-supervised, unsupervised, neuroscience에서도 비슷한 이야기를 확인할 수 있습니다.
classification과 detection에서 feature set이 강할수록 모델의 지각적 유사성 판단 또한 더 강해집니다.
these results suggest that a good feature is a good feature
semantic 업무에 좋은 feature는 self-supervised, upsupervised 뿐 아니라 인간 지각적 행동의 좋은 모델에서도 좋은 것을 확인할 수 있습니다.