컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 3-4 Advanced CNNs(LeNet, AlexNet, VGG)

본 내용은 Edwith의 컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석을 요약 정리한 내용으로 DGIST 박상현 교수님과 Edwith, STAR-MOOC에 그 저작권이 있음을 미리 공지합니다.

Convolutional Neural Networks

LeNet-5, AlexNet, VGG

ResNet, Inception, DenseNet

padding 없이 conv 사용(사이즈가 줄어들음)

Average Pooling을 사용했었습니다.

Feature map size가 줄어들기 때문에 Channel을 늘려줬습니다.

LeCun et al., 1998. Gradient-based learning applied to document recognition

227x227x3을 input으로 넣기 때문에 stride를 크게 하여 사이즈를 줄였습니다.

Max Pooling을 사용

Activation Function을 ReLU를 처음으로 사용함

Krizhevsky et al., 2012. ImageNet classification with deep convolutional neural networks

3x3 conv를 2번 통과시키는 것은 5x5를 통과시키는 것에 비해 parameter 수를 줄이는 효과를 보여 줍니다.

ex) input 3채널에 대하여 계산

3x3x3 * 2번 = 54, 54+1(bias) = 55 parameters

5x5x3 = 75, 75+1(bias) = 76 parameters

Max Pooling, ReLU activation function 사용

16개의 conv 사용

VGG-19 또한 존재하나 성능 향상이 크지 않았기에 VGG16을 일반적으로 이야기함.

Simonyan & Zisserman 2015. Very deep convolutional networks for large-scale image recognition

일반적인 구조 : CNN, Pooling layer의 혼용 이후 FC, Softmax 구조

이 구조의 단점은 FC에서 parameter 수가 많다는 것입니다.

상당한 memory cost, overfitting 문제를 야기할 수 있습니다.