Loading...
2023. 3. 2. 01:29

visual attention + visual & sound modeling 기본 개념 배우기

1. show attend and tell 입력 이미지가 주어졌을때 CNN 모델로 feature를 추출 vector로 만드는 것이 아니라, 14*14의 spatial 정보를 가지는 feature map으로 추출 그리고 feature map과 LSTM의 interaction으로 서로 feedback을 통해 attention할 위치를 추론함 각각 어디를 봐야할지 집중할 위치를 찾아 매 순간마다 단어 단위로 text를 생성 2. visual attention 사람이 이미지를 바라볼때, 전반적인 내용을 한번에 뇌에 담지는 못한다 사람은 이미지를 볼때 한곳에 시선이 오래보고있지 않고 시선을 빠르게 움직이면서 물체를 스캔하는 형태로 물체 인지를 한다. 눈을 훑어보고, 코를 보고 입을 보고 전체적인 모습을 보면서 이..

2023. 2. 27. 01:37

컴퓨터 비전 기본 개념 복기하기

1. 시각 지각능력이 왜 중요한가 인간이 처리하는 대부분의 데이터는 오감을 통해 들어온다. 오감 = 센서 이로부터 취득한 데이터를 뇌에서 프로세싱하여 정보로 사용함 오감중 가장 많은 정보량을 차지하는 것은 시각이다 인간의 75%정보는 눈으로부터 들어옴 귀에 이어폰을 꽂고 돌아다니는건 불편하지 않지만, 눈을 감고 돌아다니면 상당히 불편함을 느낌 2. 인간이 세상을 인식하는 방법 시각적 세상이 주어질때, 눈을 통해 세상을 인지하고 그렇게 받은 신호를 뇌에 보내서 이를 기반으로 정보 해석 3. 컴퓨터가 세상을 인식하는 방법 사람의 눈 = 카메라, 사람의 뇌 = GPU, AI, 알고리즘 시스템 카메라로 촬영된 시각 데이터를 GPU에 올려서 알고리즘을 이용해 프로세싱을 하고 understanding이 이루어지면서..

2023. 1. 8. 21:22

물체 감지(object detection) 개념 돌아보기

1. 개요 물체 감지는 한 장의 사진에 포함된 여러 물체에 대해 영역과 이름을 확인하는 작업 이미지의 어디에 무엇이 비치는지 알 수 있다 그림은 물체 감지 결과이다. 왼쪽 그림을 보면 이미지 내에 사람과 말이 있는 것을 알 수 있다. 오른쪽 그림에 사람과 말에 각각 테두리가 표시되어있다. 물체의 위치를 나타내는 테두리를 bounding box(BBox)라고 한다. 테두리의 왼쪽 상단에는 라벨명이 나오고, person:1.00, horse:1.00이 표시되어있다. 라벨명은 감지된 클래스를 보여준다. 사람은 사람으로, 말은 말로 감지되었다. 라벨명 후반의 숫자 1.00,...은 신뢰도(confidence)이다. 신뢰도 수치가 높을수록(최대 1.00) 얼마나 명확하게 감지했는지 알 수 있다. 2. 입력과 출력..

2022. 12. 20. 22:13

GAN(Generative Adversarial Network) 기본 개념 되돌아보기

1. GAN의 특징 인공지능에서 데이터 생성이라는 새로운 분야를 선보이며 등장 GAN의 목적은 갖고 있는 데이터를 모방해서 새로운 데이터를 만드는 것이며, 두 개의 네트워크가 서로 목표를 달성하기 위해 적대적으로 겨루는 구조 2. GAN의 구조 GAN을 처음 제안한 이안 굿펠로우는 GAN을 경찰과 위조지폐범의 관계로 설명하였다. GAN은 위 그림처럼 생성모델 Generator와 분류모델 Discriminator가 겨루는 네트워크로 generator는 위조지폐범, discriminator는 경찰에 비유된다. 위조지폐범의 목적은 경찰을 속이기 위해 최대한 진짜 지폐와 유사한 가짜 지폐를 생성하는 것이고 경찰은 위조지폐범이 만든 가짜 지폐와 진짜 지폐를 잘 분류하는 것을 목적으로 한다. 만약 위조지폐범의 수법..

2022. 12. 18. 03:24

CNN(Convolutional neural network) 기본 개념 되돌아보기

1. CNN 등장 CNN(Convolutional neural network)은 이미지나 영상을 다루는 컴퓨터 비전에서 가장 대표적으로 사용되는 인공신경망 1980년대 얀 르쿤(Yann LeCun)이 우편번호와 수표의 숫자 필기체를 인식하는 LeNet이라는 모델을 개발하면서 처음 소개 알고리즘이 성공적으로 동작했으나, 10개의 숫자도 학습하는데 3일이나 걸렸음 30년이 지난 후, 과적합과 학습 시간 문제를 해결하면서 지금은 이미지 분류는 기본이고 얼굴 인식, 자율주행같은 어려운 과제인 객체 인식에서도 효과적으로 CNN이 사용 2. 정형데이터와 이미지데이터의 차이? 정형데이터는 데이터베이스 시스템의 테이블과 같이 고정된 칼럼(column)과 개체(observation)의 관계로 구성 이미지는 사람의 눈으로..

2022. 10. 31. 15:17

panoptic segmentation을 위한 UPSNet의 아이디어

1. panoptic segmentation 기존 instance segmentation이 이미지의 배경에는 관심이 없어서 배경에 특별히 관심이 있는 경우에는 오히려 semantic segmentation이 유리했다 근데 문제는 배경에도 관심이 있으면서 서로 다른 물체를 구분하고 싶은 경우도 있을 수 있다. semantic segmentation은 같은 클래스의 서로 다른 물체를 구분하지 못한다. panoptic segmentation은 배경 정보도 구분하며 같은 클래스더라도 서로 다른 물체라면 구분하는 더욱 진화된 기술이다. 2. UPSNet 2-1) 기본구조 feature pyramid network로부터 고해상도 feature map을 뽑는다 semantic head와 instance head로 들..