Loading...
2022. 5. 5. 01:29

object detection을 위한 R-CNN과 Fast R-CNN의 원리

1. R-CNN motivation 2012 AlexNet이 image classification에서 큰 성공을 거두면서 이것을 바로 object detection에 응용해보았다 AlexNet처럼 object detection의 전통적인 방법에 비해 압도적인 성능차이를 보이면서 혜성같이 등장 2. R-CNN 구조 먼저 주어진 이미지에서 selective search법으로 물체 후보 bounding box인 region proposal을 2000개 정도 구함 각 region proposal을 모두 잘라 patch로 만든다. pre-train한 CNN에 region proposal patch를 넣는다 CNN의 마지막 단은 fully connected layer인 SVM classifier를 붙여서 CNN을 ..

2022. 5. 3. 19:15

object detection이란 무엇인가?

1. motivation semantic segmentation에서는 서로 다른 물체더라도 같은 class로 구분하는 한계가 있었다 최근에는 이런 서로 다른 물체도 구분하는 instance segmentation, panoptic segmentation 등이 등장했다 어떻게 가능할까? 서로 다른 물체를 구분하기 위해 필요한 기술이 object detection이라는 object를 탐지하는 기술이다 단순한 semantic segmentation보다 더욱 구체적으로 이미지를 인식하게 도와준다. 2. object detection이란? classification과 bounding box를 동시에 추정하는 문제 구체적으로 이미지 내 특정 object를 bounding box로 위치를 특정하고 해당 박스내 물체의..

2022. 5. 2. 21:15

fully convolutional network와 비슷했던 hypercolumn

FCN은 end-to-end구조로 학습이 가능하며 GPU 병렬처리도 가능하여 빠른 학습이 가능 end-to-end로 학습한다는 것은 model이 해당 task에 대해 분할하는 것이 아니라 한번에 학습한다는 것으로 성능도 보통 올라감 심지어 fully convolutional network는 low level, high level을 모두 고려하여 더욱 정교하게 (경계선도 잘 구별할정도로) semantic segmentation을 수행함 비슷한 시기에 semantic segmentation용으로 hypercolumn이라는 구조가 등장했다 저자가 같은 학교 다니면서 1*1 fully convolutional layer도 설명했고 layer를 융합하는 것도 설명했고 아무튼 비슷하다는 점에서 약간 뭐 그런게 있는..

2022. 4. 28. 21:36

Fully convolutional layer에서 사용하는 layer fusion의 원리

1. motivation 사실 아무리 upsampling을 적용해서 크기를 키웠다고 잃어버린 정보를 되살리는 것은 쉬운 일은 아니다 convolution의 각 layer의 의미를 살펴본다면 하위 layer에서는 feature map 크기가 커지지만 상대적으로 receptive field가 작고 작은 차이에도 민감하게 반응함 상위 layer로 갈수록 feature map 크기가 감소하지만 receptive field가 커져서 전체적이고 pixel이 가지는 의미론적인 정보를 파악함 낮은 layer에서는 작은 영역을 보면서 상위 layer에서는 넓게 바라본다(receptive field를 그린건가?) 그런데 semantic segmentation에서는 무엇이 필요한가? 둘 다 필요하다 이미지의 전체적인 면을 ..

2022. 4. 26. 02:21

fully convolutional network에서 Upsampling이란 무엇인가 + interpolation 기본

1. motivation fully connected layer를 1*1 convolution layer로 대체하여 여러번 쌓으면 필연적으로 input size가 줄어들면서 정보들이 압축된다 단 1pixel의 classification의 결론을 내리기 위해 더욱 넓은 영역을 참조할 수 있다(receptive field가 크다)는 좋은 점은 있다. receptive field는 커지지만 output이 너무 작아진다 그래서 이 너무 작아진 output을 크게 만들기 위해 upsampling 기법을 사용한다 그런데 여기서 의문을 가질 수 있는 것은 그러면 중간에 stride나 pooling등을 제거하거나 convolutional layer 등을 일부 제거하면 조금 더 고해상도 output을 얻겠지만 recep..

2022. 4. 20. 10:00

fully convolutional network는 어떻게 임의의 input size에서 동작하게 만들었을까?

1. 어떻게 하면 임의의 size에도 동작할 수 있을까? 기존 네트워크의 마지막 단인 fully connected layer 대신에 1*1 convolutional layer로 구성하여 가능하게 만들었다 기존 네트워크의 경우는 마지막이 fully connected layer로 linear layer니까 vector 형태로 나와서 class에 대한 확률분포를 구해주기에 적절했다면 fully convolutional network는 convolutional layer이므로 activation map을 출력하여 각 pixel에 속하는 classification 결과를 알 수 있게 해준다. 2. 1*1 convolution layer의 성질 기존 네트워크의 문제점은 output이 하나의 벡터로 나와 이미지 ma..