아이공의 AI 공부 도전기

Image Processing 2장 Digital Image Fundamentals

 

     

 

시작에 앞서 해당 내용은 Digital Image Processing 3판 영문판을 기반으로 작성되었음을 알려드립니다.

 

Rafael C. Gonzalez, Richard E. Woods - Digital Image Processing (2008, Prentice Hall)

Human Visual System

Human Eye Structure

 

디지털화된 이미지를 이해함에 있어 우리의 시각을 이해하는 일은 매우 중요합니다. 이에 따라 저는 Image Processing에 공부하기 이전 사람의 눈에 대해 간략하게 알아볼까 합니다.

 

Textbook Figure 2.2

 

우선 사람의 눈은 크게 4개의 막으로 구성되어 있습니다.

Cornea(각막), Sclera(공막), Choroid(맥락막), Retina(망막)

그리고 제가 가장 중점적으로 살펴볼 것은 바로 Retina 망막입니다.

Retina에는 2가지 Receptor 수용체가 존재합니다.

중학교? 고등학교 생물시간에 배우는 Cone(원추세포)와 Rod(간상세포)입니다.

 

1) Cone 원추세포

 

Cone 원추세포는 오직 Fovea(중심와)라고 하는 부분에만 존재하며 각 눈에 6~7백만개 이상 존재합니다. 유일하게 이 부분에서 Color 색을 판단할 수 있습니다. 이 범주를 벗어나는 시각에서는 우리는 색을 판별하기 어렵습니다.

 

2) Rod 간상세포

 

Rod 간상세포는 Retina 전체에 걸쳐 존재하고, 7천5백만~1억5천만개 이상 존재하며 밝기에 민감한 특성을 가집니다.

 

Textbook Figure 2.2

위 그림에서 확인할 수 있듯 Fovea(중심와)에 존재하는 0도에 해당하는 부분에 Cone이 다량 존재하는 것을 확인할 수 있고 전체에 걸친 망막에 Rod가 존재하는 것을 확인할 수 있습니다.

 

그렇다면 아래의 질문에 한 번 답변을 해보시는 것은 어떨까요

Q. 횡단보도를 건너기 위해 여러분은 보도 앞에 서 있습니다. 정면에는 빨간색 등이 켜있습니다. 이때 오른쪽에서 고양이가 갑자기 튀어나오는 순간 여러분은 고개를 휙 돌렸고 그 순간 신호등은 녹색으로 바뀌었습니다. 과연 여러분은 고개를 돌리는 순간 신호등이 녹색으로 변화했다는 것을 알 수 있었을까요?

 

정답은 정말 약간의 각도까지는 색의 변화를 원추세포에 의해 감지할 수 있었겠으나 크게 고개를 돌려 눈의 각도가 크게 변하는 상황에서는 색의 변화를 감지하지 못할 것입니다. 다만 어두울지는 판단할 수 있겠지요.

Brightness Adaptation 밝기 적응

 

Textbook Figure 2.4

아무리 우리 눈이 큰 범주의 빛을 인지할 수 있을지라도 단번에 넓은 밝음 범주를 인지하지는 못합니다. 마치 여러분이 갑작스럽게 어두운 공간에 갔을 때 아무것도 보이지 않다가 서서히 물체의 형상을 인지할 수 있는 때가 존재할 때처럼 적응의 시간이 필요합니다. 우리는 여기서 이것을 Brightness Adaptation이라고 합니다. 위 이미지에서 확인할 수 있는 것처럼 우리의 Adaptation range는 넓지만 Scotopic(암순응)에서 빛의 강도 범주가 다른 것을 확인할 수 있고 이는 Photopic(명순응)에서의 범주 또한 같습니다. 이와 같이 우리의 눈은 단번에 인지하는 것이 아니라 전반적인 감각도를 변화시킴으로써 넓은 범주의 빛을 인지합니다.

Mach Bands

 

Textbook Figure 2.7

 

사람의 시각 시스템은 서로 다른 밝기 값을 가지는 경계선을 약화시키는 효과를 발휘합니다. 때문에 위 이미지와 같이 원래 존재하는 각 pixel별 intensity와는 다르게 끝이 특출나게 크거나 작게 나오는 부분이 있은 후 픽셀 별 intensity를 인지합니다.

Simultaneous Contrast

 

Textbook Figure 2.8

일반적으로 Contrast라 함은 max-min의 범주를 이야기합니다. 사람은 두 색의 정도차에 따라 밝기를 다양하게 인식합니다. 위에서 보이시는 바와 같은 가운데 회색은 같은 밝기를 가졌습니다. 그러나 왼쪽 검은색 배경의 회색 네모는 밝아보이고 오른쪽 밝은 회색 계통 배경의 회색 네모는 약간 어두워보입니다. 이 때문에 사람은 착각을 합니다.

Illusion

 

Textbook Figure 2.9

이 또한 마찬가지입니다. 사람은 시각적으로 무언가 있다고 느껴지기도하고 같은 길이지만 더 길어보이기도하고 평행하지만 기울어져 보이기도 합니다.

Electromagnetic Spectrum

 

Textbook Figure 2.10

EM Spectrum에는 다양한 파장별 빛이 존재합니다. 파장의 길이가 짧은 순서부터 차례로 말하면 다음과 같습니다.

 

Gamma ray - X ray - Ultraviolet(자외선) - Visible Spectrum(가시광선) - Infrared(적외선) - Microwave - Radio wave

 

우리 인간이 인지할 수 있는 가시광선은 보라색부터 빨간색 순으로 파장이 길어지는 색을 인지할 수 있습니다. 우리는 여기서 파장이 길다는 것은 주파수와 에너지에 반비례하다는 것을 알 수 있습니다. 사실 이는 이미 식이 존재합니다. ($\lambda f=c$, $E=hf$)

 

chromatic light(color light)를 측정하는 3 요소 : Radiance, Luminance(Intensity, [Lumens]), Brightness

 

Image Digitalization

Sensor

이제까지 인간의 눈에 대해 배워보았습니다. 눈의 구조, 인간의 시각적 착시 현상과 각종 현상, 우리가 인지할 수 있는 빛의 파장까지 배웠죠. 그렇게다면 이제부터는 이것을 이미지화하기 위한 것을 보도록 하겠습니다. 다들 아시는 것과 같이 우리가 컴퓨터로 보는 이미지는 pixel로 이루어져 있습니다. 심지어 TV, OTT 서비스로 제공하는 동영상도 모두 pixel로 이루어져 있습니다. 이것을 우리는 Digitalization이라고 부릅니다. 물론 그 과정에 대해 사진기를 토대로 배워보도록 하겠습니다. 

 

Textbook Figure 2.12

위에서 보이는 바와 같이 각 부분별로 Image Sensor가 존재하고 이에 대한 Energy 즉, 빛을 받으면 해당 빛에 대한 Filter가 Photon마다의 voltage 강도에 따라 변화시켜줍니다. 이를 광원과 함께 보여준 그림이 아래와 같습니다.

 

Textbook Figure 2.15

광원이 있고 이를 물체가 반사하여 Imaging System에 전송해줍니다. 이를 Image 평면이 강도에 맞게 디지털화시키는 것이 위 그림입니다. 저 이미지 평면이 촘촘할수록 더 섬세한 이미지 디지털화가 될 수 있다는 것을 상상하실 수 있으실까요

 

Textbook Figure 2.16

Sampling을 통한 Intensity 값을 Quantization으로 Digitalization하는 그림을 확인할 수 있습니다. 더 많은 샘플 더 촘촘한 Quantization은 더 좋은 화질의 그림을 확인할 수 있습니다.

Image Formation Equation

이와 관련하여 Image Formation 식이 다음과 같이 존재합니다.

 

$$f(x,y)=i(x,y)r(x,y)+n(x,y)$$

$0 <f(x,y)<\infty$는 관찰된 이미지로 에너지에 비례한 광원 Intensity에 따라 디지털화된 결과입니다. 바로 우리가 보는 결과인 샘입니다.

$0<i(x,y)<\infty$는 광원입니다. Illumination에 대한 값으로 광원에 많은 의존이 됩니다.

$0<r(x,y)<1$는 reflectance 반사와 관련한 것으로 물체 본연의 반사 정도를 의미합니다. 0은 완전 흡수를 1은 완전 반사를 의미합니다.

n(x, y)는 noise를 의미합니다.

 

이미 눈치채신 분도 계실지 모르겠지만 보통 Image plane은 matrix 형태로 받아들이기 때문에 이와 관련한 디지털 이미지 표현은 선형대수를 많이 요구합니다. 

Image Spatial Resolution

 

dpi : dots per inch

보통 dpi라 함은 inch당 pixel의 개수를 의미하고 숫자가 높으면 높을수록 많은 pixel를 1inch당 보유할 수 있다는 것을 의미합니다. 위 그림은 그것의 전형적인 예로 왼쪽 위 1250dpi는 가장 높은 dpi를 보임으로써 오른쪽 아래 낮은 dpi의 image보다 훨씬 좋은 resolution임을 확인할 수 있습니다. 즉, 높은 dpi를 보유할 수 있는 이미지 digitalization이 중요하다는 것을 알 수 있습니다.

Adjacency

이 부분은 번외로 adjacency와 관련한 gray-scale binary image의 정의입니다. 크게 3개로 나눠지는데 그것은 아래와 같습니다.

 

1) 4-adjacency : 2 pixel p와 q가 1일 때 q가 $N_4(p)$의 집합에 속한다면 4-adjacent 하다

2) 8-adjacency : 2 pixel p와 q가 1일 때 q가 $N_8(p)$의 집합에 속한다면 8-adjacent 하다

3) m-adjacency : 2 pixel p와 q가 1일 때 아래와 같은 조건일 때 m-adjacent 하다

 a) q는 $N_4(p)$ 이거나

 b) q는 $N_D(p)$이고 $N_4(p) \cap N_4(q)$ 어떠한 픽셀이 존재하지 않아야 한다.

2장 결론

사실 더 많은 부분이 있으나 제가 소개해드릴 내용은 크게 2가지만 소개드렸습니다. 하나는 인간의 눈에 대한 이해이고 또 하나는 Digitalization에 대한 부분입니다. 앞으로 이 내용을 바탕으로 우리는 Digitalization을 진행할 것이고 이를 통한 더 깊은 이해를 도모하고자 합니다.

도움이 되셨기를 바랍니다.

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading