Loading...
2023. 6. 21. 02:08

CNN visualization3 - occlusion map & backpropagation saliency map

1. occlusion map 1-1) motivation 이제부터는 모형이 특정 입력을 어떻게 바라보고 출력을 내는지 알아볼 것 saliency test라는 것은 각 이미지의 class를 판정하기 위해 모델이 중요하게 생각하는 부분들을 알아보는 과정 1-2) occlusion map 주어진 코끼리 이미지에서 occlusion patch라는 것으로 가려서 모델에 넣어줌 동일한 코끼리 이미지를 서로 다른 occlusion patch로 가렸을 때 각각이 코끼리라고 분류할 조건부 확률을 구해본다면 당연하지만 코끼리로 판단하는데 중요한 부분을 가릴수록 코끼리라고 할 확률이 떨어진다 occlusion patch로 어디를 가리느냐에 따라 score가 다르다. 중요한 부분을 가리면 score가 급격하게 떨어지고 큰 ..

2023. 6. 18. 01:46

Nearest neighbor search vs. t-sne를 이용한 차원 축소 기법

1. Nearest neighbor search - idea high level에서 나온 feature에 대한 분석 여러가지 이미지 데이터를 주고 데이터 베이스에 저장된 데이터중 이들과 가장 비슷한 데이터를 유사도에 따라 정렬 왼쪽이 input으로 준 이미지 데이터이고 오른쪽이 유사한 정도에 따라 정렬한 결과 이 결과를 잘 살펴보면 코끼리 같은 경우 코끼리라는 의미로 비슷한 이미지들이 clustering되어있는 것을 확인 가능 이 모형이 이미지의 의미를 잘 파악했구나로 생각 가능하다 비슷한 이미지 검색을 어떻게 했을지 생각해본다면 단순하게 두 이미지 사이에서 대응하는 pixel별로 거리가 가까운 걸 고를수있는데 그렇게 한 경우 마지막 줄에 주어진 개 이미지의 경우 포즈가 거의 비슷한 개만 출력해야하는데 ..

2023. 6. 18. 01:18

CNN visualization1 - First filter visualization

1. CNN visualization의 기본 CNN은 단순히 학습가능한 convolution layer와 nonlinear activation의 연속으로 이루어진 연산기 학습을 잘하면 인간 성능 이상으로 좋은 성능을 보이기도 하는데 도대체 왜 잘되는 걸까? 단순히 학습을 하니까? 학습을 통해 convolution filter은 도대체 무엇을 배우길래 잘하는 걸까? 혹은 어떤 경우는 쉽게 안되는 경우도 많고 성능도 잘 안나오는 경우도 많은데 그것은 왜 안되는걸까? CNN이라는 건 입력이 주어지면 출력이 나오는 black box같은 기계로 생각할 수 있다 왜 안되는지 알고자 그 안을 뜯어보면 복잡한 가중치와 복잡한 연결들로 이루어져 사람이 이해하기가 어렵다 만약 CNN안에서 무슨 일이 일어나는지 사람이 이해..

2023. 5. 12. 00:35

유명한 CNN구조 AlexNet, VGGNet, GoogleNet, ResNet 복습 재활

1. AlexNet 이미지넷 대회 스케일에서는 간단한 구조(layer가 별로 없음) 연산량은 간단한 편인데 성능은 최하위 그런데 model의 memory size가 큰 편임 2. VGGNet 3*3 Convolutional layer로만 구성했다 그런데 연산이 매우 느리면서도 model의 memory size가 매우 크다는 것이 특징 근데 많이쓰는데..? 3. GoogleNet inception module과 auxiliary classifier를 사용함 그 뒤로 다양한 변형(exception 등)이 나왔고 그 중 inception v4는 ResNet 152보다 성능도 좋고 memory size도 적으며 연산도 빨라 4. ResNet layer는 152개로 가장 많은데도 VGG보다 연산은 빠르면서 mem..

2023. 5. 11. 02:28

convolution위치를 변형시키는 deformable convolution

1. motivation 자동차나 물건같은 것은 따로 따로 움직이는 형태가 없는데 사람이나 동물들은 팔, 다리가 상대적으로 위치를 변경하면서 움직일 수 있다 해당 이미지의 회전된 이미지, 반전된 이미지같은 변형된 이미지도 여전히 원본과 label은 같다 이미지에서 large object나 small object 등 여러가지가 있는데 고정된 크기의 convolution filter을 사용하는 것이 효과적인가? 그래서 filter의 크기를 유동적으로 변경시키는 deformable convolution 방법이 등장하였다 2. idea offset field를 학습시키기 위한 convolution layer와 feature map을 뽑는 convolution layer 2개가 존재한다 offset field를 ..

2023. 5. 4. 02:28

pretrained model & transfer learning에 대해 제대로 이해하기

0. computer vision은 왜 발전했을까 YOLO는 실시간으로 object detection을 가능하게 만들었다 길, 사람, 자동차 등을 segmentation하여 더욱 수준 높은 self driving을 구현하려고 노력하고 있다 이것은 어떻게 가능했을까? ImageNet이라는 대형 dataset이 등장한 것이 엄청난 영향력을 행사했다고 말할 수 있다 고도화된 알고리즘이나 모델이 아닌 약 1400만개의 image와 20000개의 category를 보유한 단순한 대용량의 대형 dataset 실생활에서 발견할 수 있는 다양한 variance들을 다 충족할 수 있는 엄청 큰 대형 dataset 그래서 획기적인 알고리즘 개발이 물론 중요하지만 ImageNet에 검증을 못하면 그런 알고리즘도 실생활에 쓸..