Loading...
2023. 6. 18. 01:18

CNN visualization1 - First filter visualization

1. CNN visualization의 기본 CNN은 단순히 학습가능한 convolution layer와 nonlinear activation의 연속으로 이루어진 연산기 학습을 잘하면 인간 성능 이상으로 좋은 성능을 보이기도 하는데 도대체 왜 잘되는 걸까? 단순히 학습을 하니까? 학습을 통해 convolution filter은 도대체 무엇을 배우길래 잘하는 걸까? 혹은 어떤 경우는 쉽게 안되는 경우도 많고 성능도 잘 안나오는 경우도 많은데 그것은 왜 안되는걸까? CNN이라는 건 입력이 주어지면 출력이 나오는 black box같은 기계로 생각할 수 있다 왜 안되는지 알고자 그 안을 뜯어보면 복잡한 가중치와 복잡한 연결들로 이루어져 사람이 이해하기가 어렵다 만약 CNN안에서 무슨 일이 일어나는지 사람이 이해..

2023. 6. 17. 01:48

object detection 모델인 RetinaNet과 DETR(DEtection TRansformer) 핵심 아이디어

1. RetinaNet 구조 backbone인 ResNet에서 feature를 뽑아감 low level feature와 high level feature를 모두 활용하기 위한 3단? Feature pyramid network 활용 심지어 multi scale object detection에 더욱 잘 대응하기 위해 각 단계에서 모두 detection을 사용 각 단계에서 2가지 branch로 들어가는데 각각 object classification과 box regression을 수행한다 ResNet에서 feature를 뽑아가면서 마지막 단계의 feature부터 low level feature를 다시 합쳐나간다 합쳐나가는건 concat이 아니라 더하기 심지어 각 단계에서 모두 object classificati..

2023. 6. 7. 17:42

neural network를 training 하기 전에 input을 normalization해야하는 이유

1. normalization 신경망의 훈련을 빠르게 하기 위해 필요한 input normalization 다음과 같이 2차원의 입력데이터가 존재할때 주어진 데이터의 평균을 빼고, 표준편차를 나누는 방법으로 normalization할 수 있다. 데이터에 평균을 빼서 얻은 새로운 값의 평균은 0이 되고 위 그림에서 $x_{1}$이 $x_{2}$보다 분산이 더 큰 특징이 있다. 표준편차를 나눠서 얻은 새로운 값의 분산은 1로 되어 $x_{1}$과 $x_{2}$의 산포가 동일해진다. $$Z = \frac{X-\mu}{\sigma}$$ $$\mu = \frac{1}{m}\sum_{i = 1}^{m} X_{i}$$ $$X = X - \mu$$ 새로 얻은 X의 평균은 0이므로, 분산은 다음과 같이 구할 수 있다. ..

2023. 6. 2. 04:32

자연어 처리 기술의 또 다른 혁명 - ChatGPT 시대 우리는 무엇을 해야하는가 -

1. ChatGPT의 빛과 어둠 1) 마이크로소프트 빌게이츠 "ChatGPT는 인터넷, PC정도로 중요한 발견이다" 2) 만들어진지 5일만에 100만 유저 달성 3) 이탈리아, ChatGPT의 개인정보 유출문제로 차단 4) 일론머스크, "멈출 수 없는 AI 레이스를 6개월만 쉬어가자" 5) 구글에 "ChatGPT"가 무엇인지 검색하면, 너무 많은 검색 결과를 주지만 ChatGPT한테 물어보면 검색 + 요약 + 설명을 깔끔하게 한번에 해 6) 하지만 아주 간단한 설명도 틀리게 말하는 경우가 많다 2. ChatGPT 이전의 시대 1) RNN - 자연어 처리 모델의 시초 1997년 개발 이후 2010년대까지 꾸준히 사용 한번에 한 단어만 모델에 넣을 수 있어서 병렬화가 불가능하여 학습시간이 매우 오래걸린다는 ..

2023. 5. 15. 00:19

single shot multibox detector 간단하게 다시 살펴보기

1. motivation YOLO는 단 1번의 과정으로 모든 prediction을 해서 localization 정확도가 떨어진다 속도가 빠른데 Faster R-CNN보다 성능이 떨어지는 것은 분명 아쉬운 점인데 더 잘할 수 있는 방법이 없을까? 2. 구조 최종적으로 1번만 prediction하는 것이 아니라 각 중간 layer마다 나오는 feature map 크기를 고려하여 적절한 크기의 bounding box를 중간 단계마다 모두 가져오는 방식 이미지의 object scale은 전부 다르다. 그래서 서로 다른 크기의 중간 layer의 feature map에 맞는 적절한 크기의 bounding box를 전부 고려하여 multi scale의 object에 더욱 잘 대응하고자 함 1,2,3,4,5,6 각각에..

2023. 5. 14. 23:49

Deeplab에 사용된 핵심 아이디어 살펴보기

1. introduction semantic segmentation 모델인데 conditional random field나 atrous convolution 등 특별한 기술을 사용함 2. conditional random field 일반적인 Neural network는 의외로 semantic segmentation 결과로 경계를 잡지 못하는 흐릿한 결과를 출력함 왜냐면 segmentation output과 input사이 feedback을 하기 어려워서 그렇다 (segmentation map이 ground truth로 있는 경우는 드무니까) 그래서 pixel을 node로 봐서 연결한 그래프를 형성하고 이것을 최적화 잘하여 이미지에서 경계선을 일단 찾고자함 그래서 일단 얻은 rough한 출력 map에 inp..