아이공의 AI 공부 도전기

Mutual Information(Information Gain, KL-Divergence)

Information Theory에서 Entropy는 measure 즉 정보량을 측정하는 도구로

"Entropy가 높다는 것 = Uncertainty가 높다는 것 = Information 양이 많다는 것"을 의미합니다.


Entropy ↑ = Uncertainty ↑ = amount of Information ↑


이런 배경속에서 Mutual Information(MI)는 2개의 R.V.(Random Variable)들 간의 상호의존성(mutual dependence)을 확인하는 지표입니다. 다른 말로 Information Gain, KL-Divergence이라고도 알려져 있습니다. 정확히는 KL-Divergence와는 다릅니다.


이에 대한 수식으로 나타내면 다음과 같습니다.

(H는 Entropy를 의미합니다.)



1) Discrete Distribution

2) Continous Distribution



상호 의존성을 나타낸다고 하니 그럼 독립일 때는 어떨까요?

독립일 경우 각 Random Variable들의 joint probability는 독립성질에 의거하여 아래와 같이 될 것입니다.



Discrete하다고 가정하고 추가로 더 설명하면 

(앞으로의 모든 설명은 Discrete한 상태임을 가정하고 설명)


독립일 경우 Mutual Information은 0이 됨을 알 수 있습니다.

Mutual Information 성질 1. Nonnegativity


Wikipedia에서는 Jensens's inequality를 정의에서 사용하면 위 결과값을 얻어낼 수 있다고 합니다. 

참조자료 2번의 풀이를 보이면 다음과 같습니다.

를 의미하면 우리가 원하는 성질을 도출하는 것을 의미합니다.


Inequality를 활용한 z>0일 때 

 성질을 이용할 것입니다.

이 부등호를 그림으로 그려보면 아래와 같은데요.


항상 ln(z)가 크다는 것을 알 수 있습니다.(파란색 : ln(z), 주황색 : 1-1/z)

그렇다면 이렇게 부등호가 성립한다면 ln(z)는 0보다 크거나 같음을 알 수 있겠죠? 


아래 MI에서 log 안의 값을 z라고 놓고 풀어보면 아래와 같은 식이 나옵니다.




이 부분에 대해서 헷갈리실 수 있는데

 

이기 때문에 2번째 항에서 0~1 사이의 확률을 어떻게 곱을 해도 1보다 작음을 알 수 있고 이를 통해 우리는 항상 0보다 큼을 알 수 있습니다.


결과적으로 MI는 항상 0보다 크다는 사실을 알 수 있습니다.


Mutual Information 성질 2. Symmetry 대칭성

()

대칭성은 간단하게도 위 식의 식 전개 순서에 따라 보면 이해하실 수 있습니다.


그러나 수식적으로 이해해보겠다 하신다면 Wikipedia에서 써있는 아래 그림을 참조하시길 바랍니다. conditional distribution의 정의에 따라 차근히 따라가다보면 이해할 수 있다는 것을 확인할 수 있습니다.


이와 관련한 Wikipedia의 그림이 2개가 있는데 그 중 아래이 그림이 이해하기 쉬울 것으로 생각됩니다.


https://en.wikipedia.org/wiki/Mutual_informationhttps://en.wikipedia.org/wiki/Mutual_information

보이시는 바와 같이 서로의 dependency를 가지는 MI 즉 I(x,y)가 공통적으로 가지는 부분이고 그 외의 값들은 정의에 의거하여 만들어진 그림입니다.

조금 이해가 쉬우실지 모르겠네요.

Mutual Information과 Kullback-Leibler Divergence의 관계


KL Divergence의 식은 다음과 같습니다.


우리는 앞에서 Mutual Information을 다음과 같이 정의한 적이 있습니다.

Kullback-Leibler Divergence은 Symmetry하지 않기 때문에 거리라고 이야기하기에는 무리가 있습니다만 그래도 ML에서는 그런식으로 이해하는 편이 쉽게 이해합니다.

그러나 위 식으로는 이해하기 어려운 부분이 있기 때문에 약간 식을 변형하면 다음과 같이 변할 수 있습니다.


즉, 이런 식이 됩니다.

이것을 해석하면 Y라는 given condition이 주어졌을 때 P(X|Y)와 P(X)간의 거리를 구한 것의 평균이라고 말할 수 있습니다. 조금 더 식에 대한 이해가 와닿지 않은가요? 저 식을 P(Y|X)와 P(Y)로 반대로 적용해서 풀어쓰면 반대의 해석이 되고 즉 Symmetry임을 보일 수도 있습니다.


여기까지 전부 알 필요는 없지만 대략적인 Mutual Information에 대한 내용을 살펴보았습니다. 이 내용들 뿐 아니라 MI에서 Given condition을 주어졌을 때의 경우도 Wikipedia에 있으니 필요하신 분은 살펴보시길 바랍니다.


맛보기 : 


참조 Reference 

1. https://en.wikipedia.org/wiki/Mutual_information

2. http://www.math.ucsd.edu/~lrothsch/information.pdf

공유하기

facebook twitter kakaoTalk kakaostory naver band
loading