'컴퓨터비전' 태그의 글 목록 (4 Page)

유명한 CNN구조 AlexNet, VGGNet, GoogleNet, ResNet 복습 재활

1. AlexNet 이미지넷 대회 스케일에서는 간단한 구조(layer가 별로 없음) 연산량은 간단한 편인데 성능은 최하위 그런데 model의 memory size가 큰 편임 2. VGGNet 3*3 Convolutional layer로만 구성했다 그런데 연산이 매우 느리면서도 model의 memory size가 매우 크다는 것이 특징 근데 많이쓰는데..? 3. GoogleNet inception module과 auxiliary classifier를 사용함 그 뒤로 다양한 변형(exception 등)이 나왔고 그 중 inception v4는 ResNet 152보다 성능도 좋고 memory size도 적으며 연산도 빨라 4. ResNet layer는 152개로 가장 많은데도 VGG보다 연산은 빠르면서 mem..

format_list_bulleted Computer Vision
· 2023. 5. 12.
textsms

convolution위치를 변형시키는 deformable convolution

1. motivation 자동차나 물건같은 것은 따로 따로 움직이는 형태가 없는데 사람이나 동물들은 팔, 다리가 상대적으로 위치를 변경하면서 움직일 수 있다 해당 이미지의 회전된 이미지, 반전된 이미지같은 변형된 이미지도 여전히 원본과 label은 같다 이미지에서 large object나 small object 등 여러가지가 있는데 고정된 크기의 convolution filter을 사용하는 것이 효과적인가? 그래서 filter의 크기를 유동적으로 변경시키는 deformable convolution 방법이 등장하였다 2. idea offset field를 학습시키기 위한 convolution layer와 feature map을 뽑는 convolution layer 2개가 존재한다 offset field를 ..

format_list_bulleted Computer Vision
· 2023. 5. 11.
textsms

컴퓨터 비전 기본 개념 복기하기

1. 시각 지각능력이 왜 중요한가 인간이 처리하는 대부분의 데이터는 오감을 통해 들어온다. 오감 = 센서 이로부터 취득한 데이터를 뇌에서 프로세싱하여 정보로 사용함 오감중 가장 많은 정보량을 차지하는 것은 시각이다 인간의 75%정보는 눈으로부터 들어옴 귀에 이어폰을 꽂고 돌아다니는건 불편하지 않지만, 눈을 감고 돌아다니면 상당히 불편함을 느낌 2. 인간이 세상을 인식하는 방법 시각적 세상이 주어질때, 눈을 통해 세상을 인지하고 그렇게 받은 신호를 뇌에 보내서 이를 기반으로 정보 해석 3. 컴퓨터가 세상을 인식하는 방법 사람의 눈 = 카메라, 사람의 뇌 = GPU, AI, 알고리즘 시스템 카메라로 촬영된 시각 데이터를 GPU에 올려서 알고리즘을 이용해 프로세싱을 하고 understanding이 이루어지면서..

format_list_bulleted Computer Vision
· 2023. 2. 27.
textsms

비전공자도 이해할 수 있는 AI지식14 -동물의 눈까지 갖춘 자율주행차-

1. 클러스터링, 도로 사진을 판별한 최초의 기법 스탠리가 우승한 2005년만 해도 카메라로 측정한 도로 사진을 제대로 판별할 수 있는 기술은 턱없이 부족했습니다. 그래서 당시 스탠리가 택한 방법은 머신러닝 기법 중 하나인 클러스터링이었습니다. 클러스터링이란, 비슷한 개체끼리 하나의 군집으로 묶는 기법을 말하는데, 당시 스탠리는 도로 사진을 하나의 군집으로 처리하고 비슷한 색상의 사진을 같은 도로로 판별하는 기법을 사용했습니다. 즉 주행 중인 바닥면의 사진을 카메라로 촬영하고 이 색상과 비슷한 색상이라면 이곳을 도로로 간주하는 것이죠. 만약 사막을 달리는 중이라면, 회색과 갈색이 섞인 색상의 묶음을 도로로 보는 겁니다. 이렇게 스탠리는 지속적으로 사진을 촬영하면서 색상을 비교했습니다. 여전히 회색과 갈색..

format_list_bulleted 비전공자도 이해할 수 있는 AI지식
· 2022. 10. 12.
textsms

YOLO(You only look once)의 원리 알아보기

1. motivation R-CNN family는 Region proposal을 하고 각각 detection하는 2단계 구조(two-stage detector) 그러나 때로는 정확도를 조금 포기하더라도 real time detection 개념으로 매우 빠르게 실시간에 detection하는 것이 필요할 때가 있다 ROI pooling을 제거하여 single stage로 detection이 가능한 모형들이 등장했다 2. YOLO 먼저 input 이미지를 S*S grid로 나눈다 각각의 grid cell에 대해 B개의 bounding box를 고려한다 각 box에 대한 중앙점의 좌표와 너비,높이 (x,y,w,h) 4개의 위치 모수 그리고 object를 포함하는지 안하는지 confidence score를 계산 ..

format_list_bulleted Computer Vision
· 2022. 5. 10.
textsms

R-CNN 계열의 network 원리 요약

1. 학습관점 R-CNN은 오직 마지막 단의 SVM classifier만 학습 가능 Fast R-CNN은 첫 feature map을 뽑는 CNN도 학습이 가능 Faster R-CNN은 region proposal network로 모든 과정이 학습 가능 R-CNN에 언급 한번 안한 box regression이 있다는 것이 특이한데 실제로 가능하다고 한다 2. input size 관점 R-CNN은 CNN을 2000번 돌리며 CNN에 들어가는 input size는 고정되어있다 Fast R-CNN 이후는 ROI pooling을 이용하여 CNN의 input size를 임의로 해도 동작하도록 만들었다 3. region proposal 관점 Fast R-CNN까지 region proposal로 selective se..

format_list_bulleted Computer Vision
· 2022. 5. 10.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

유명한 CNN구조 AlexNet, VGGNet, GoogleNet, ResNet 복습 재활

convolution위치를 변형시키는 deformable convolution

컴퓨터 비전 기본 개념 복기하기

비전공자도 이해할 수 있는 AI지식14 -동물의 눈까지 갖춘 자율주행차-

YOLO(You only look once)의 원리 알아보기

R-CNN 계열의 network 원리 요약

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역