Loading...
2023. 6. 20. 02:35

CNN visualization2 - layer activation & class visualization

1. layer activation mid level feature와 high level feature를 분석하는 방법 모델의 layer의 activation map을 분석하여 layer가 어디에 집중하고 있는지를 파악하고자 했다 1-1) idea 분석하고자하는 특정 CNN layer의 채널을 선택 예시로 conv5 layer의 256개 채널중 14번째 채널을 선택 convolutional layer의 채널은 이미지를 받으면 그 이미지에 대해서 hidden node들이 얼마나 반응하는지 계산한 activation map을 출력한다 이미지를 넣어서 선택한 layer의 채널의 activation map을 저장 maximum activation value의 receptive field에 해당하는 input i..

2023. 6. 17. 01:48

object detection 모델인 RetinaNet과 DETR(DEtection TRansformer) 핵심 아이디어

1. RetinaNet 구조 backbone인 ResNet에서 feature를 뽑아감 low level feature와 high level feature를 모두 활용하기 위한 3단? Feature pyramid network 활용 심지어 multi scale object detection에 더욱 잘 대응하기 위해 각 단계에서 모두 detection을 사용 각 단계에서 2가지 branch로 들어가는데 각각 object classification과 box regression을 수행한다 ResNet에서 feature를 뽑아가면서 마지막 단계의 feature부터 low level feature를 다시 합쳐나간다 합쳐나가는건 concat이 아니라 더하기 심지어 각 단계에서 모두 object classificati..

2023. 5. 15. 00:19

single shot multibox detector 간단하게 다시 살펴보기

1. motivation YOLO는 단 1번의 과정으로 모든 prediction을 해서 localization 정확도가 떨어진다 속도가 빠른데 Faster R-CNN보다 성능이 떨어지는 것은 분명 아쉬운 점인데 더 잘할 수 있는 방법이 없을까? 2. 구조 최종적으로 1번만 prediction하는 것이 아니라 각 중간 layer마다 나오는 feature map 크기를 고려하여 적절한 크기의 bounding box를 중간 단계마다 모두 가져오는 방식 이미지의 object scale은 전부 다르다. 그래서 서로 다른 크기의 중간 layer의 feature map에 맞는 적절한 크기의 bounding box를 전부 고려하여 multi scale의 object에 더욱 잘 대응하고자 함 1,2,3,4,5,6 각각에..

2023. 5. 14. 23:49

Deeplab에 사용된 핵심 아이디어 살펴보기

1. introduction semantic segmentation 모델인데 conditional random field나 atrous convolution 등 특별한 기술을 사용함 2. conditional random field 일반적인 Neural network는 의외로 semantic segmentation 결과로 경계를 잡지 못하는 흐릿한 결과를 출력함 왜냐면 segmentation output과 input사이 feedback을 하기 어려워서 그렇다 (segmentation map이 ground truth로 있는 경우는 드무니까) 그래서 pixel을 node로 봐서 연결한 그래프를 형성하고 이것을 최적화 잘하여 이미지에서 경계선을 일단 찾고자함 그래서 일단 얻은 rough한 출력 map에 inp..

2023. 5. 14. 02:07

U-Net의 핵심 아이디어 파악하기

1. introduction input 이미지와 비슷한 사이즈의 출력을 가지는 모델? 지금 대부분 일부분 classification하는 모델의 기원 fully convolutional network의 기본적인 특징을 가지면서 낮은 layer의 feature와 높은 layer의 feature를 더욱 잘 융합하는 방법으로 skip connection 방법을 활용 2. 구조 contracting path와 expanding path의 결합으로 U자형처럼 생겼다 2-1) contracting path 3*3 convolution과 ReLU를 반복적으로 통과하고 maxpooling을 통과하여 해상도크기를 절반 낮추고 채널 수를 2배로 높이면서 receptive field를 높여간다 최종적으로 이미지의 전체적인 정..

2023. 5. 9. 02:16

computer vision의 한 획을 그은 ResNet의 아이디어 복습하기

1. introduction 최초로 100개 이상 layer를 쌓으면서도 성능이 더 좋아진다는 것을 보임 ImageNet에서 처음으로 인간 level의 성능을 뛰어넘고 1등 classification뿐만 아니라 localization, object detection, segmentation 전부 1등 CVPR best paper 수상 layer의 depth가 성능에 대단히 중요하다는 것을 보였다. 많은 연구자들이 좌절한 부분이었는데 도대체 이것이 어떻게 가능했을까 2. degradation problem 기존 network에서 20 layer와 56 layer의 학습 성능을 비교함 기존에는 layer가 증가하면 model parameter가 증가하여 overfitting에 취약할 것이라고 생각했다 무슨 ..