Loading...
2023. 6. 21. 02:08

CNN visualization3 - occlusion map & backpropagation saliency map

1. occlusion map 1-1) motivation 이제부터는 모형이 특정 입력을 어떻게 바라보고 출력을 내는지 알아볼 것 saliency test라는 것은 각 이미지의 class를 판정하기 위해 모델이 중요하게 생각하는 부분들을 알아보는 과정 1-2) occlusion map 주어진 코끼리 이미지에서 occlusion patch라는 것으로 가려서 모델에 넣어줌 동일한 코끼리 이미지를 서로 다른 occlusion patch로 가렸을 때 각각이 코끼리라고 분류할 조건부 확률을 구해본다면 당연하지만 코끼리로 판단하는데 중요한 부분을 가릴수록 코끼리라고 할 확률이 떨어진다 occlusion patch로 어디를 가리느냐에 따라 score가 다르다. 중요한 부분을 가리면 score가 급격하게 떨어지고 큰 ..

2023. 5. 12. 00:35

유명한 CNN구조 AlexNet, VGGNet, GoogleNet, ResNet 복습 재활

1. AlexNet 이미지넷 대회 스케일에서는 간단한 구조(layer가 별로 없음) 연산량은 간단한 편인데 성능은 최하위 그런데 model의 memory size가 큰 편임 2. VGGNet 3*3 Convolutional layer로만 구성했다 그런데 연산이 매우 느리면서도 model의 memory size가 매우 크다는 것이 특징 근데 많이쓰는데..? 3. GoogleNet inception module과 auxiliary classifier를 사용함 그 뒤로 다양한 변형(exception 등)이 나왔고 그 중 inception v4는 ResNet 152보다 성능도 좋고 memory size도 적으며 연산도 빨라 4. ResNet layer는 152개로 가장 많은데도 VGG보다 연산은 빠르면서 mem..

2023. 5. 11. 02:28

convolution위치를 변형시키는 deformable convolution

1. motivation 자동차나 물건같은 것은 따로 따로 움직이는 형태가 없는데 사람이나 동물들은 팔, 다리가 상대적으로 위치를 변경하면서 움직일 수 있다 해당 이미지의 회전된 이미지, 반전된 이미지같은 변형된 이미지도 여전히 원본과 label은 같다 이미지에서 large object나 small object 등 여러가지가 있는데 고정된 크기의 convolution filter을 사용하는 것이 효과적인가? 그래서 filter의 크기를 유동적으로 변경시키는 deformable convolution 방법이 등장하였다 2. idea offset field를 학습시키기 위한 convolution layer와 feature map을 뽑는 convolution layer 2개가 존재한다 offset field를 ..

2023. 2. 27. 01:37

컴퓨터 비전 기본 개념 복기하기

1. 시각 지각능력이 왜 중요한가 인간이 처리하는 대부분의 데이터는 오감을 통해 들어온다. 오감 = 센서 이로부터 취득한 데이터를 뇌에서 프로세싱하여 정보로 사용함 오감중 가장 많은 정보량을 차지하는 것은 시각이다 인간의 75%정보는 눈으로부터 들어옴 귀에 이어폰을 꽂고 돌아다니는건 불편하지 않지만, 눈을 감고 돌아다니면 상당히 불편함을 느낌 2. 인간이 세상을 인식하는 방법 시각적 세상이 주어질때, 눈을 통해 세상을 인지하고 그렇게 받은 신호를 뇌에 보내서 이를 기반으로 정보 해석 3. 컴퓨터가 세상을 인식하는 방법 사람의 눈 = 카메라, 사람의 뇌 = GPU, AI, 알고리즘 시스템 카메라로 촬영된 시각 데이터를 GPU에 올려서 알고리즘을 이용해 프로세싱을 하고 understanding이 이루어지면서..

2022. 10. 12. 02:07

비전공자도 이해할 수 있는 AI지식14 -동물의 눈까지 갖춘 자율주행차-

1. 클러스터링, 도로 사진을 판별한 최초의 기법 스탠리가 우승한 2005년만 해도 카메라로 측정한 도로 사진을 제대로 판별할 수 있는 기술은 턱없이 부족했습니다. 그래서 당시 스탠리가 택한 방법은 머신러닝 기법 중 하나인 클러스터링이었습니다. 클러스터링이란, 비슷한 개체끼리 하나의 군집으로 묶는 기법을 말하는데, 당시 스탠리는 도로 사진을 하나의 군집으로 처리하고 비슷한 색상의 사진을 같은 도로로 판별하는 기법을 사용했습니다. 즉 주행 중인 바닥면의 사진을 카메라로 촬영하고 이 색상과 비슷한 색상이라면 이곳을 도로로 간주하는 것이죠. 만약 사막을 달리는 중이라면, 회색과 갈색이 섞인 색상의 묶음을 도로로 보는 겁니다. 이렇게 스탠리는 지속적으로 사진을 촬영하면서 색상을 비교했습니다. 여전히 회색과 갈색..

2022. 5. 10. 21:32

YOLO(You only look once)의 원리 알아보기

1. motivation R-CNN family는 Region proposal을 하고 각각 detection하는 2단계 구조(two-stage detector) 그러나 때로는 정확도를 조금 포기하더라도 real time detection 개념으로 매우 빠르게 실시간에 detection하는 것이 필요할 때가 있다 ROI pooling을 제거하여 single stage로 detection이 가능한 모형들이 등장했다 2. YOLO 먼저 input 이미지를 S*S grid로 나눈다 각각의 grid cell에 대해 B개의 bounding box를 고려한다 각 box에 대한 중앙점의 좌표와 너비,높이 (x,y,w,h) 4개의 위치 모수 그리고 object를 포함하는지 안하는지 confidence score를 계산 ..