유명한 CNN구조 AlexNet, VGGNet, GoogleNet, ResNet 복습 재활
1. AlexNet
이미지넷 대회 스케일에서는 간단한 구조(layer가 별로 없음)
연산량은 간단한 편인데 성능은 최하위
그런데 model의 memory size가 큰 편임
2. VGGNet
3*3 Convolutional layer로만 구성했다
그런데 연산이 매우 느리면서도 model의 memory size가 매우 크다는 것이 특징
근데 많이쓰는데..?
3. GoogleNet
inception module과 auxiliary classifier를 사용함
그 뒤로 다양한 변형(exception 등)이 나왔고
그 중 inception v4는 ResNet 152보다 성능도 좋고 memory size도 적으며 연산도 빨라
4. ResNet
layer는 152개로 가장 많은데도 VGG보다 연산은 빠르면서 memory size도 적절하다
그러나 GoogleNet의 inception 계열 network보다는 모델이 크고 느리다
5. 결론
GoogleNet 계열이 AlexNet, ResNet, VGG 등보다 효율적이다
그러나 auxiliary classifier같은 학습트릭이 복잡하며 inception block 같은 수평확장 구조를 구현하기는 쉽지 않다
그래서 대중적으로는 VGG나 ResNet을 주로 사용한다고 한다.
이유는 정말 간단하게 구현할 수 있어서 그리고 성능도 나쁘지 않아
VGG나 ResNet을 feature map을 뽑는 backbone CNN으로 사용하고
이 feature map으로 classification이나 object detection, semantic segmentation등 다양한 task에 활용한다
classification+regression이 object detection
pixel-level classification이 semantic segmentation
'딥러닝 > Computer Vision' 카테고리의 다른 글
Deeplab에 사용된 핵심 아이디어 살펴보기 (0) | 2023.05.14 |
---|---|
U-Net의 핵심 아이디어 파악하기 (0) | 2023.05.14 |
convolution위치를 변형시키는 deformable convolution (0) | 2023.05.11 |
computer vision의 한 획을 그은 ResNet의 아이디어 복습하기 (0) | 2023.05.09 |
visual attention + visual & sound modeling 기본 개념 배우기 (0) | 2023.03.02 |