AI 공부 도전기

Super Resolution Using Segmentation-Prior Self-Attention Generative Adversarial Network 요약

 

 

     

 

저자 이름 : Yuxin Zhang, Zuquan Zheng, Roland Hu

 

https://arxiv.org/abs/2003.03489

 

정리

SPSAGAN 모델 특징 1. Segmentation-Prior과 feature attention 모듈 사용

=> 같은 segmentation 안에서의 texture 강조 역할을 할 뿐 아니라 먼 거리의 feature들 간의 관계에 집중할 수 있게 한다.

 

SPSAGAN 모델 특징 2. RRSB(Residual-in-Residual Sparse Block) 사용

=> Densenet을 사용하는 RRDB와 달리 조금 더 가벼운 skip-connection을 통해 더 좋은 성능을 보이고 계산량을 줄인다.

 

 

3. The Proposed Method

ESRGAN - 2018 ECCVW 우승

SFTGAN

Wang, X., Yu, K., Dong, C., Loy, C.C.: Recovering realistic texture in image super-resolution by deep spatial feature transform. In: The IEEE Conference on Computer Vision and Pattern Recognition (2018)

 

SFTGAN에서 소개한 조건부 normalization을 통한 semantic probability map을 활용하여 모델을 구성한다. 또한 SRGAN과 ESRGAN을 backbone으로 삼아 모델을 구성한다. 다만 이 때 RRDB 대신 더 적은 skip connection을 활용하는 RRSB로 더 좋은 성능을 보인다. 마지막으로 SPSA(Segmentation-Prior Self-Attention) layer를 활용하여 segmentation과 feature attention 간의 영향력에 균형을 맞춥니다.

 

SPSA

3.1 Segmentation-prior Self-Attention (SPSA)

 

$x \in \mathbb{R}^{C \times N}$, C는 Channel, N은 단일 channel에서의 모든 pixel의 숫자

아래 feature map은 일반적인 self attention과 같다.

다만 다른 점은 Condition이라는 y 부분에 segmentation에 대한 attention map을 구한다는 점이고 이를 weight를 통해 element-wise sum을 진행한다.

segmentation attention map에 대한 weight는 $w_{j,i}^{seg}$로 표기하고 feature attention map에 대한 weight를 $1- w_{j,i}^{seg}$와 같이 나타낸 이유는 크게 4가지로 다음과 같다.

 

1) $\beta^{seg}$와 $\beta^{fea}$가 비슷할 때

5번 식에 의하면 해당 사안에서 $ w_{j,i}^{seg}$는 0에 가까울 것이다.

$$\left |\beta^{seg}-\beta^{fea}  \right | \approx 0,\ w_{j,i}^{seg}\approx 0,\ w_{j,i}^{fea} = 1- w_{j,i}^{seg}\approx 1$$

 

2) $\beta^{seg}$는 작고 $\beta^{fea}$는 클 때

두 지역에 대한 색과 질감이 비슷하나 다른 카테고리에 속할 때 segmentation의 다른 카테고리의 방해를 덜 강조하기 위한 가이드를 함(즉, $w_{j,i}^{seg}$를 높혀 강조시킴)

 

3) $\beta^{seg}$는 크고 $\beta^{fea}$는 작을 때(드문 케이스)

같은 카테고리로써 feature가 비슷하다. 설령 발생하더라도 $w_{j,i}^{seg}$ 강조가 도움이 됨

 

4) $w_{j,i}^{seg}$는 [0,1] 범주로 weighted sum 조합을 이뤄냄

 

cf)

segmentation-prior knowledge를 계산하기 위해 COCO dataset으로 pretrain된 semantic segmentation network[28]을 넣고 ADE dataset으로 fine-tune 한다. 이후 segment outdoor scene을 훈련 시킨다.

 

 

3.2 Residual-in-Residual Sparse Block(RRSB)

 

ESRGAN에서부터 사용된 RRDB 구조에서 Dense connection은 많은 계산량을 요구하고 불필요할지 모른다. Pruning(가지치기)를 통한 개선구조인 RRSB를 제안한다.

 

4. Experiments

 

Training Dataset : random crop 96x96 HR images, 24x24 LR images(scaling factor x4)

Batch size는 모두 16 동일 

 

Step 1. SPSA 모듈 없이 L1 loss를 활용하여 Pretrain PSNR-oriented model 사용

learning rate $2 \times 10^{-4}$이고 learning rate decay는 $ 2 \times 10^5$ iteration마다 2배씩 감소 

DIV2K(800개), Flickr2K(2650개) dataset으로 pre-training

 

Step 2. SPSAGAN

Adam을 사용, self-attention module에서는 learning rate $5 \times 10^{-4}$ 나머지에서는 $1 \times 10^{-4}$ learning rate decay는 100k iteration마다 2배씩 감소

OST(10,324개) training dataset 활용하나 OST의 경우 하나의 이미지당 하나의 카테고리만을 포함하고 있기 때문에 여러 카테고리들 간의 관계 분석이 불가능하다. 이에 Eq 4로부터 카테고리의 관계를 attention으로 학습을 진행하고 DIV2K를 활용함, OST와 DIV2K data 샘플의 비율은 10:1

 

4.1 Self-Attention Mechanism 

attention map은 공간적으로 지역적 픽셀보다 먼 거리의 픽셀에 집중하는 경향이 있다.

feature attention은 비슷한 색, 질감 지역에 집중하는 경향이 있다. 반면 segmentation attention은 카테고리에 따른 간섭을 하는 경향이 있다.

 

4.2 Comparison with the State-of-the-art

 

 BSD100 test dataset에서 확인할 수 있듯 자신들의 모델 SPSAGAN이 좋은 PI 지표를 보인다. 그러나 항상 우수한 것은 아니다

개인적인 생각 : 지표적으로 좋다고 판단하기 어려운 부분이 있다. 문제점으로 지적될 수 있음

지표적으로는 아쉬움이 남지만 더 생생한 texture과 디테일에서 우수함을 강조한다.

해당 Figure 8 역시 더 의존할만한 결과를 확인할 수 있다.

4.4 Ablation Study

 Ablation Study의 결과를 ESRGAN을 baseline으로 하여 Feature Attention(Self-Attention), Segmentation Attention, RRSB의 순서대로 추가함으로써 얻을 수 있는 더 좋은 결과에 대한 기술을 위 Figure 11에 설명했다.

결과적으로 모든 것들을 다 사용했을 때 가장 좋은 결과를 보였다는 결론을 보인다.

Table만 봤을 때 RRSB를 사용하는 것이 더 좋은 PI를 가지는 것을 확인할 수 있었다.

 

5. 결론

Self-Attention을 통해 receptive field를 확장한다.

segmentation prior을 통해 같은 구역에서의 attention을 강조하도록 제약한다.

skip connection을 적게 쓰는 구조를 제안한다.

성능이 좋았다.

 

끝!!!

 

개인적인 생각

SFTGAN에서 더 발전된 형태의 논문으로 Segmentation을 활용함과 동시에 이를 conditional Attention으로 활용한다. 더욱이 Attention Module을 Segmentation Prior을 하는 weight를 줌으로써 중요한 combined attention map을 구성한다. 또한 RRSB라는 모듈을 활용함으로써 계산의 효율성을 제공한다. 

물론 위 제안들은 효율적일 수도 있다는 것임을 생각할 수 있으면서도 Figure에서 SFTGAN에 대한 비교뿐 아니라 다른 모델에 대한 비교가 부족하다는 점, metric에서 우월성을 보이지 못했다는 점, 그리고 다양한 test dataset에 대한 metric 비교가 없었다는 점이 아쉬웠다.

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading