Loading...
2023. 6. 18. 01:46

Nearest neighbor search vs. t-sne를 이용한 차원 축소 기법

1. Nearest neighbor search - idea high level에서 나온 feature에 대한 분석 여러가지 이미지 데이터를 주고 데이터 베이스에 저장된 데이터중 이들과 가장 비슷한 데이터를 유사도에 따라 정렬 왼쪽이 input으로 준 이미지 데이터이고 오른쪽이 유사한 정도에 따라 정렬한 결과 이 결과를 잘 살펴보면 코끼리 같은 경우 코끼리라는 의미로 비슷한 이미지들이 clustering되어있는 것을 확인 가능 이 모형이 이미지의 의미를 잘 파악했구나로 생각 가능하다 비슷한 이미지 검색을 어떻게 했을지 생각해본다면 단순하게 두 이미지 사이에서 대응하는 pixel별로 거리가 가까운 걸 고를수있는데 그렇게 한 경우 마지막 줄에 주어진 개 이미지의 경우 포즈가 거의 비슷한 개만 출력해야하는데 ..

2023. 6. 18. 01:18

CNN visualization1 - First filter visualization

1. CNN visualization의 기본 CNN은 단순히 학습가능한 convolution layer와 nonlinear activation의 연속으로 이루어진 연산기 학습을 잘하면 인간 성능 이상으로 좋은 성능을 보이기도 하는데 도대체 왜 잘되는 걸까? 단순히 학습을 하니까? 학습을 통해 convolution filter은 도대체 무엇을 배우길래 잘하는 걸까? 혹은 어떤 경우는 쉽게 안되는 경우도 많고 성능도 잘 안나오는 경우도 많은데 그것은 왜 안되는걸까? CNN이라는 건 입력이 주어지면 출력이 나오는 black box같은 기계로 생각할 수 있다 왜 안되는지 알고자 그 안을 뜯어보면 복잡한 가중치와 복잡한 연결들로 이루어져 사람이 이해하기가 어렵다 만약 CNN안에서 무슨 일이 일어나는지 사람이 이해..

2023. 6. 17. 01:48

object detection 모델인 RetinaNet과 DETR(DEtection TRansformer) 핵심 아이디어

1. RetinaNet 구조 backbone인 ResNet에서 feature를 뽑아감 low level feature와 high level feature를 모두 활용하기 위한 3단? Feature pyramid network 활용 심지어 multi scale object detection에 더욱 잘 대응하기 위해 각 단계에서 모두 detection을 사용 각 단계에서 2가지 branch로 들어가는데 각각 object classification과 box regression을 수행한다 ResNet에서 feature를 뽑아가면서 마지막 단계의 feature부터 low level feature를 다시 합쳐나간다 합쳐나가는건 concat이 아니라 더하기 심지어 각 단계에서 모두 object classificati..

2023. 5. 15. 00:19

single shot multibox detector 간단하게 다시 살펴보기

1. motivation YOLO는 단 1번의 과정으로 모든 prediction을 해서 localization 정확도가 떨어진다 속도가 빠른데 Faster R-CNN보다 성능이 떨어지는 것은 분명 아쉬운 점인데 더 잘할 수 있는 방법이 없을까? 2. 구조 최종적으로 1번만 prediction하는 것이 아니라 각 중간 layer마다 나오는 feature map 크기를 고려하여 적절한 크기의 bounding box를 중간 단계마다 모두 가져오는 방식 이미지의 object scale은 전부 다르다. 그래서 서로 다른 크기의 중간 layer의 feature map에 맞는 적절한 크기의 bounding box를 전부 고려하여 multi scale의 object에 더욱 잘 대응하고자 함 1,2,3,4,5,6 각각에..

2023. 5. 11. 02:28

convolution위치를 변형시키는 deformable convolution

1. motivation 자동차나 물건같은 것은 따로 따로 움직이는 형태가 없는데 사람이나 동물들은 팔, 다리가 상대적으로 위치를 변경하면서 움직일 수 있다 해당 이미지의 회전된 이미지, 반전된 이미지같은 변형된 이미지도 여전히 원본과 label은 같다 이미지에서 large object나 small object 등 여러가지가 있는데 고정된 크기의 convolution filter을 사용하는 것이 효과적인가? 그래서 filter의 크기를 유동적으로 변경시키는 deformable convolution 방법이 등장하였다 2. idea offset field를 학습시키기 위한 convolution layer와 feature map을 뽑는 convolution layer 2개가 존재한다 offset field를 ..

2023. 4. 28. 01:07

data preprocessing 기본 개념 제대로 이해하기

1. data preprocessing의 중요성 1-1) introduction 디스크 안에 단순히 파일로 존재하는 데이터(Vanilla data)는 그대로 모델에 쓰기에는 추가적으로 무언가 할 것이 많음 명확히 정의한 문제들을 바탕으로 ‘다양하고 일반화시킬 수 있는 여러 작업들이 병행된’, 그러면서 ‘문제 해결을 위해 나올 수 있는 여러 가능성이나 주제를 적용시킨’ “모델을 위한 dataset”으로 변환이 필요함 이런 모델을 위한 dataset으로 변환을 하고 나서 model training을 진행함 “일반적으로 쓸 수 있는” 데이터를 하나 하나씩 뱉어낼 수 있는 기능을 구현한다면 모델 학습에 무리가 없을 것 dataset 구축의 기본기를 잘 갖춰나야 앞으로 나올 음성, 시계열, 텍스트 등등 엄청 큰 ..