Loading...
2023. 2. 27. 01:37

컴퓨터 비전 기본 개념 복기하기

1. 시각 지각능력이 왜 중요한가 인간이 처리하는 대부분의 데이터는 오감을 통해 들어온다. 오감 = 센서 이로부터 취득한 데이터를 뇌에서 프로세싱하여 정보로 사용함 오감중 가장 많은 정보량을 차지하는 것은 시각이다 인간의 75%정보는 눈으로부터 들어옴 귀에 이어폰을 꽂고 돌아다니는건 불편하지 않지만, 눈을 감고 돌아다니면 상당히 불편함을 느낌 2. 인간이 세상을 인식하는 방법 시각적 세상이 주어질때, 눈을 통해 세상을 인지하고 그렇게 받은 신호를 뇌에 보내서 이를 기반으로 정보 해석 3. 컴퓨터가 세상을 인식하는 방법 사람의 눈 = 카메라, 사람의 뇌 = GPU, AI, 알고리즘 시스템 카메라로 촬영된 시각 데이터를 GPU에 올려서 알고리즘을 이용해 프로세싱을 하고 understanding이 이루어지면서..

2022. 12. 18. 03:24

CNN(Convolutional neural network) 기본 개념 되돌아보기

1. CNN 등장 CNN(Convolutional neural network)은 이미지나 영상을 다루는 컴퓨터 비전에서 가장 대표적으로 사용되는 인공신경망 1980년대 얀 르쿤(Yann LeCun)이 우편번호와 수표의 숫자 필기체를 인식하는 LeNet이라는 모델을 개발하면서 처음 소개 알고리즘이 성공적으로 동작했으나, 10개의 숫자도 학습하는데 3일이나 걸렸음 30년이 지난 후, 과적합과 학습 시간 문제를 해결하면서 지금은 이미지 분류는 기본이고 얼굴 인식, 자율주행같은 어려운 과제인 객체 인식에서도 효과적으로 CNN이 사용 2. 정형데이터와 이미지데이터의 차이? 정형데이터는 데이터베이스 시스템의 테이블과 같이 고정된 칼럼(column)과 개체(observation)의 관계로 구성 이미지는 사람의 눈으로..

2022. 2. 4. 22:15

convolution 연산의 stride와 padding

1. stride filter가 매 스텝 convolution할 때마다 다음회에 얼마나 이동할지 2차원의 경우 stride는 2차원이다, (옆으로 얼마나 이동할지 * 아래로 얼마나 이동할지) 2. padding 일반적으로 input, output은 convolution 연산으로 크기가 서로 달라짐 보통은 output이 input보다 차원이 줄어든다 보통 convolution을 하면 input의 가장자리 빨간색 부분의 정보가 짤린다 그렇지만 input의 모든 정보를 가져오는게 좋지 않겠는가 그래서 input과 output의 크기가 동일했으면 하는 마음이 있다 가장자리 주변에 padding을 하여 모든 정보를 가져오도록 만든다 stride=1인 경우 적절한 크기의 패딩을 사용하면 반드시 input과 outp..