아이공의 AI 공부 도전기

컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석 3-4 Advanced CNNs(LeNet, AlexNet, VGG)

본 내용은 Edwith의 컴퓨터비전, 머신러닝, 딥러닝을 이용한 의료영상분석을 요약 정리한 내용으로 DGIST 박상현 교수님과 Edwith, STAR-MOOC에 그 저작권이 있음을 미리 공지합니다.


URL : https://www.edwith.org/medical-20200327/lecture/63134/

Convolutional Neural Networks

LeNet-5, AlexNet, VGG

ResNet, Inception, DenseNet


LeNet-5

padding 없이 conv 사용(사이즈가 줄어들음)

Average Pooling을 사용했었습니다.

Feature map size가 줄어들기 때문에 Channel을 늘려줬습니다.



LeCun et al., 1998. Gradient-based learning applied to document recognition

http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf

AlexNet

227x227x3을 input으로 넣기 때문에 stride를 크게 하여 사이즈를 줄였습니다.

Max Pooling을 사용

Activation Function을 ReLU를 처음으로 사용함


Krizhevsky et al., 2012. ImageNet classification with deep convolutional neural networks

http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf


VGG-16

3x3 conv를 2번 통과시키는 것은 5x5를 통과시키는 것에 비해 parameter 수를 줄이는 효과를 보여 줍니다.
ex) input 3채널에 대하여 계산
3x3x3 * 2번 = 54, 54+1(bias) = 55 parameters
5x5x3 = 75, 75+1(bias) = 76 parameters
Max Pooling, ReLU activation function 사용
16개의 conv 사용

VGG-19 또한 존재하나 성능 향상이 크지 않았기에 VGG16을 일반적으로 이야기함.

Simonyan & Zisserman 2015. Very deep convolutional networks for large-scale image recognition


일반적인 구조 : CNN, Pooling layer의 혼용 이후 FC, Softmax 구조


이 구조의 단점은 FC에서 parameter 수가 많다는 것입니다.
상당한 memory cost, overfitting 문제를 야기할 수 있습니다.


공유하기

facebook twitter kakaoTalk kakaostory naver band
loading