Loading...
2023. 5. 15. 00:19

single shot multibox detector 간단하게 다시 살펴보기

1. motivation YOLO는 단 1번의 과정으로 모든 prediction을 해서 localization 정확도가 떨어진다 속도가 빠른데 Faster R-CNN보다 성능이 떨어지는 것은 분명 아쉬운 점인데 더 잘할 수 있는 방법이 없을까? 2. 구조 최종적으로 1번만 prediction하는 것이 아니라 각 중간 layer마다 나오는 feature map 크기를 고려하여 적절한 크기의 bounding box를 중간 단계마다 모두 가져오는 방식 이미지의 object scale은 전부 다르다. 그래서 서로 다른 크기의 중간 layer의 feature map에 맞는 적절한 크기의 bounding box를 전부 고려하여 multi scale의 object에 더욱 잘 대응하고자 함 1,2,3,4,5,6 각각에..

2023. 5. 14. 23:49

Deeplab에 사용된 핵심 아이디어 살펴보기

1. introduction semantic segmentation 모델인데 conditional random field나 atrous convolution 등 특별한 기술을 사용함 2. conditional random field 일반적인 Neural network는 의외로 semantic segmentation 결과로 경계를 잡지 못하는 흐릿한 결과를 출력함 왜냐면 segmentation output과 input사이 feedback을 하기 어려워서 그렇다 (segmentation map이 ground truth로 있는 경우는 드무니까) 그래서 pixel을 node로 봐서 연결한 그래프를 형성하고 이것을 최적화 잘하여 이미지에서 경계선을 일단 찾고자함 그래서 일단 얻은 rough한 출력 map에 inp..

2023. 5. 14. 02:07

U-Net의 핵심 아이디어 파악하기

1. introduction input 이미지와 비슷한 사이즈의 출력을 가지는 모델? 지금 대부분 일부분 classification하는 모델의 기원 fully convolutional network의 기본적인 특징을 가지면서 낮은 layer의 feature와 높은 layer의 feature를 더욱 잘 융합하는 방법으로 skip connection 방법을 활용 2. 구조 contracting path와 expanding path의 결합으로 U자형처럼 생겼다 2-1) contracting path 3*3 convolution과 ReLU를 반복적으로 통과하고 maxpooling을 통과하여 해상도크기를 절반 낮추고 채널 수를 2배로 높이면서 receptive field를 높여간다 최종적으로 이미지의 전체적인 정..

2023. 5. 12. 00:35

유명한 CNN구조 AlexNet, VGGNet, GoogleNet, ResNet 복습 재활

1. AlexNet 이미지넷 대회 스케일에서는 간단한 구조(layer가 별로 없음) 연산량은 간단한 편인데 성능은 최하위 그런데 model의 memory size가 큰 편임 2. VGGNet 3*3 Convolutional layer로만 구성했다 그런데 연산이 매우 느리면서도 model의 memory size가 매우 크다는 것이 특징 근데 많이쓰는데..? 3. GoogleNet inception module과 auxiliary classifier를 사용함 그 뒤로 다양한 변형(exception 등)이 나왔고 그 중 inception v4는 ResNet 152보다 성능도 좋고 memory size도 적으며 연산도 빨라 4. ResNet layer는 152개로 가장 많은데도 VGG보다 연산은 빠르면서 mem..

2023. 5. 11. 02:28

convolution위치를 변형시키는 deformable convolution

1. motivation 자동차나 물건같은 것은 따로 따로 움직이는 형태가 없는데 사람이나 동물들은 팔, 다리가 상대적으로 위치를 변경하면서 움직일 수 있다 해당 이미지의 회전된 이미지, 반전된 이미지같은 변형된 이미지도 여전히 원본과 label은 같다 이미지에서 large object나 small object 등 여러가지가 있는데 고정된 크기의 convolution filter을 사용하는 것이 효과적인가? 그래서 filter의 크기를 유동적으로 변경시키는 deformable convolution 방법이 등장하였다 2. idea offset field를 학습시키기 위한 convolution layer와 feature map을 뽑는 convolution layer 2개가 존재한다 offset field를 ..

2023. 5. 9. 02:16

computer vision의 한 획을 그은 ResNet의 아이디어 복습하기

1. introduction 최초로 100개 이상 layer를 쌓으면서도 성능이 더 좋아진다는 것을 보임 ImageNet에서 처음으로 인간 level의 성능을 뛰어넘고 1등 classification뿐만 아니라 localization, object detection, segmentation 전부 1등 CVPR best paper 수상 layer의 depth가 성능에 대단히 중요하다는 것을 보였다. 많은 연구자들이 좌절한 부분이었는데 도대체 이것이 어떻게 가능했을까 2. degradation problem 기존 network에서 20 layer와 56 layer의 학습 성능을 비교함 기존에는 layer가 증가하면 model parameter가 증가하여 overfitting에 취약할 것이라고 생각했다 무슨 ..