Computer vision이란?

1. Computer vision이란?

사진이나 비디오 등 영상정보로부터 장면의 본질인 3D 모델을 구하는 기술을 Graphics라고 한다.

반대로 3D 모델, 어떤 물체의 본질을 가지고 있을 때 이것을 영상이나 비디오로 만드는 기술을 Computer vision이라고 한다.

computer vision을 inverse graphics라고도 부른다

가장 먼저 딥러닝 기술에 의해 paradigm shift가 일어난 분야가 computer vision

2. AI란 무엇인가?

사람의 지능을 컴퓨터 시스템으로 구현한 것

지능의 범위가 도대체 무엇?

‘사고하고 인과관계를 분석하는 것 외에도 시각이나 소리에 관한 지각능력, 이해에 관련된 내용도 포함한다

옥스포드에서 정의한 AI는 인간 지능의 범위를 시각 인지능력부터 소리 인지, 사고, 언어간의 번역 등을 포함

3. 사람은 지능을 어떻게 배우는가?

인공지능을 도대체 어떻게 구현할까? 사람을 본뜬 것이니까 사람이 지능을 배우는 방식을 생각해보면 좋다.

지능이 거의 없는 상태의 유아기에서 정말 아무것도 모를 때 세상과 상호작용을 어떻게 하는지 배우기 시작한다

동화책을 보면서(시각) 엄마가 읽어주는 소리를(청각) 동시에 들으면서 배움

어떤 물체를 만지면서(촉각) 맛을 보고(미각) 무슨 물체인지 파악하면서 감각을 익힌다

이처럼 사람은 지능이 없을 때부터 오감을 적극적으로 활용하면서 세상과 상호작용을 한다

그 때 얻어지는 관찰들로 어떤 인과관계를 이해하면서 사고능력을 키우기 시작한다

그래서 지능을 구현하기 위한 첫번째 step은 지각능력(perception)을 구현하는 것

4. 사람의 지각능력(perception)이란?

지각능력이란 어떤 input으로부터 정보를 파악하여 output을 내는 것이다.

인공지능은 사람이 활용하기 위한 것이므로 결국엔 input과 output은 사람이 이해하기 쉬운 것이어야 한다.

앞에서 오감을 사용하여 세상과 상호작용을 통해 학습한다고 했는데 오감만 사용하느냐? 그렇지도 않다.

구체적으로 설명할 수 없는 정말 다양한 감각들을 모두 활용하면서

social perception이라 부르는 제 3의 감각까지도 활용하는 multi-modal learning을 한다고 할 수 있다.

오감은 기본이고 얼굴 표정을 보면서 사람의 마음을 읽고 악수를 통해 말로 설명할 수 없는 끈끈함을 느끼고

음성도 당시의 제스처나 톤에 의해 설득력까지 느낄 수 있다

인공지능을 구현하는데 도입부인 perception이 불안정하면 사고능력도 불안정하다고 할 수 있다.

그래서 이것이 가장 먼저 잘 구현되어야한다.

우리 스스로도 어떠한 감각들을 사용하여 perception을 하며 상호작용을 하는지 명확히 설명할 수 없어

기계로 이것을 구현하는 것은 쉬운 문제가 아니고 여전히 연구중이다.

5. 시각 능력이 가장 중요하다

사람은 사고과정에서 다른 오감에 비해 압도적으로 시각에 의존한다

논란은 있어도 뇌에서 처리하는 정보중 50%이상은 시각정보라고 한다

5-1) 사람이 시각으로 정보를 이해하는 과정?

사람이 세상을 바라보면서 수정체에 바라본 물체의 상이 맺히고 그 자극을 뇌에 전달하면 뇌에서 시각정보를 해석

5-2) 컴퓨터가 정보를 이해하는 과정이란?

카메라로 세상의 한 장면을 찍어 이미지 영상을 생성하고

구현해놓은 알고리즘으로 GPU에 올려 연산을 수행

장면을 분석한 결과를 깔끔한 자료구조로 출력함

컴퓨터가 출력한 ‘자료구조’는 그냥 문자가 아니고 컴퓨터가 다루기 쉬우면서도

사람도 적당히 해석이 가능하다는 특징을 갖는다

인공지능에서는 ‘자료구조’를 representation이라고 부른다

6. 컴퓨터 비전(computer vision)이란?

위와 같이 분석한 representation으로부터 어떤 장면에 해당하는 이미지나 3d를 재구현하는 기법을

rendering 혹은 통틀어서 computer graphics라고 부른다.

computer vision은 이 graphics가 하는 일을 반대로 하는 것이다.

실제 3d로부터 분석 정보인 representation을 만들어내는 기술이라고 보면 된다.

computer vision이 rendering의 반대과정이라고해서 inverse rendering이라고도 부른다

728x90

'딥러닝 > Computer Vision' 카테고리의 다른 글

VGGNet는 왜 3*3 convolution을 사용했을까? (0)	2022.02.07
AlexNet의 핵심 아이디어 (0)	2022.02.06
CNN(Convolutional Neural Network)은 왜 등장했을까? (0)	2022.01.31
image classification 문제 이해하기 (0)	2022.01.27
Computer Vision을 어떻게 구현할까? (0)	2022.01.23