본 내용은 Edwith의 컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석을 요약 정리한 내용으로 DGIST 박상현 교수님과 Edwith, STAR-MOOC에 그 저작권이 있음을 미리 공지합니다.
URL : https://www.edwith.org/medical-20200327/lecture/63144/
연관성이 있는 feature를 추출할 수 있다면 overfitting 문제를 완화할 수 있을 것입니다. distribution 간 유사도를 계산해주는 방법 Entropy
정보량에 대한 식 (Amout of information) : -log(p(x))
확률이 1에 가까우면 0, 0에 가까우면 무한대(정보량이 많다)
Entropy 정보량의 기댓값 : 불확실성이 높을수록 Entropy가 커집니다.
Join entropy (둘 간의 Entropy를 구하는 방법)
단, 독립일 경우 H(X)+H(Y) = H(X, Y)
Mutual information I(X;Y) = H(X) + H(Y) - H(X,Y)
상호의존성(두 변수 간 관련성)이 높다면 값이 커지는 반면
독립이라면 0이 됩니다.
Decision Tree는 상관 관계가 있는 feature들 간 selection을 Entropy를 통해 구하는 ML 방법입니다.
ex) P(Normal) = 1/2, P(AD) = 1/2
H(S) = -(1/2*log(1/2) + 1/2*log(1/2)) = log2
P(Normal|Feature 1 < 8) = 1, P(AD|Feature 1 < 8) = 0
P(Normal|Feature 1 >= 8) = 1/5, P(AD|Feature 1 >= 8) = 4/5
H(f1) = -0*log(0) - -(1/5*log(1/5) + 4/5*log(4/5))
이렇게 분기를 나눠가며 Tree 구조를 구성
Feature와 Class 간의 관계를 생각
Minimum-redundancy-maximum-relevance feature selection
I(feature, class)에서 높은 것이 상호의존성이 높은 것이고 이는 classification하는데 좋은 feature를 의미합니다.
D(S,c)를 통해 좋은 feature selection
I(Feature1, Feature2)가 낮은 것은 feature들간 상호의존성이 낮은 것을 의미하고 이는 class를 유추할 수 있는 서로 다른 feature selection이 목표입니다.
R(S)를 통해 상호 의존성이 적은 feature selection
mRMR = max[D(S,c) - R(S)]
R(S)는 작아야 좋으므로 minimize를 위해 -를 사용합니다.
mRMR을 통해 선택된 feature들로 classification을 하면 overfitting을 줄일 수 있습니다.