인공지능 개론1 2023년 최신판

1. 인공지능의 시대

 

1-1)ChatGPT

 

자연어 기반 대화형 AI

 

매우 뛰어난 성능으로 MBA 시험도 통과할 정도

 

https://www.nbcnews.com/tech/tech-news/chatgpt-passes-mba-exam-wharton-professor-rcna67036

 

ChatGPT passes MBA exam given by a Wharton professor

The bot’s performance on the test has “important implications for business school education," wrote Christian Terwiesch, a professor at the University of Pennsylvania’s Wharton School.

www.nbcnews.com

 

 

 

1-2) AlphaStar

 

딥마인드에서 월드클래스 랭커보다 더 뛰어난 실력의 AI를 선보이다

 

https://www.deepmind.com/blog/alphastar-mastering-the-real-time-strategy-game-starcraft-ii

 

AlphaStar: Mastering the real-time strategy game StarCraft II

Games have been used for decades as an important way to test and evaluate the performance of artificial intelligence systems. As capabilities have increased, the research community has sought games with increasing complexity that capture different elements

www.deepmind.com

 

 

세계 최고 플레이어를 5대0으로 이겼다는 소리가 있네

 

 

미니맵도 보나보다.. ㅋㅋ

 

https://ychai.uk/notes/2019/07/21/RL/DRL/Decipher-AlphaStar-on-StarCraft-II/

 

Deciphering AlphaStar on StarCraft II

On 19 December 2018, AlphaStar has decisively beaten human player MaNa with 5-0 on StarCraft II, one of the most challenging Real-Time-Strategy (RTS) games. 2019-07-23 slides2019-11-12 slides

ychai.uk

 

 

1-3) 자율주행

 

논란은 많지만.. 주목할만한 AI를 이용한 기술 중 하나

 

https://www.tesla.com/autopilot

 

Autopilot

All new Tesla vehicles are equipped with the hardware needed for Autopilot and Full Self-Driving capability features, designed to improve functionality over time.

www.tesla.com

 

 

 

학문적인 의미로만 남아있던 AI기술이 실용적인 분야에 뛰어난 성능을 보이면서

 

산업계 전반에 걸쳐 성공사례가 점점 늘어나는중

 

그러면서 분야를 가리지 않고 인공지능 기술을 이용하면서 산업계 퀄리티를 점점 높여가는중

 

알게모르게 우리의 주변 많은 부분에서 인공지능 기술이 사용되는중

 

스타크래프트는 실시간 전략 시뮬레이션으로 상당히 효율적인 의사결정이 필요하다

 

일상의 회사경영에서 상당한 의사결정이 필요한데, AI가 이러한 의사결정을 자동으로, 효율적으로, 사람보다 실수없이 해준다면?

 

이처럼 AI는 앞으로 점점 주목받는중

 

직장이 없어진다는 위기감도 있지만, 우리는 사람이 할 수 있는 창의적인 부분에 몰두해야할 것이다

 

 

2. 인공지능이란?

 

인공지능의 창시자 중 한명인 Marvin Minsky

 

"사람이 한다면, 지능을 써야만 하는 것들을 처리하는 기계를 만드는 과학"

 

기계지능을 다루는 컴퓨터 공학 분야

 

 

인간과 같은 인지 능력을 구현하는 것을 목표로 한다.

 

"추론, 문제해결, 계획, 이해, 학습 그리고 패턴을 인식하는 것들"

 

하지만 사람같은 능력을 가지는 AI를 만들면 만족할까? 그렇지는 않다

 

사람을 뛰어넘는 super human intelligence를 만들고자 하는 사람들도 분명 있다

 

 

3. 인공지능과 프로그래밍의 다른점은?

 

인공지능의 학습 방법중 하나인 기계학습은..

 

데이터와 출력쌍을 많이 제공하면, 컴퓨터가 둘 사이의 관계를 알아서 분석해서

 

그 사이의 관계를 프로그램으로 만들어 주는 것이 기계학습

 

프로그래밍은?

 

사람이 데이터를 보고 어떻게 분석해야할지 맥락을 파악하여, 프로그램을 사람이 직접 작성하여 컴퓨터가 의도된 출력이 나오도록 하는 것

 

 

 

 

4. 지도학습과 비지도학습

 

기계학습을 크게 2가지로 분류할 수 있다

 

지도학습은 supervised learning으로 "가르쳐 주는 것"

 

어떤 데이터가 "강아지"라고 가르쳐주고 그 데이터를 보면 "강아지"가 나오도록 하고자 함

 

하지만 다른 데이터는 "강아지가 아니다"라고 가르쳐주고, 그러한 데이터는 "강아지가 아니다"라고 나오도록 한다

 

입력과 정답을 계속 알려주는 학습방법이 지도학습

 

 

반면 비지도학습은 데이터를 잔뜩 모았지만, 해당 데이터에 대한 정답은 따로 마련하지 않는다

 

데이터들만 보아서 데이터들 사이의 명확한 관계성을 도출하고자 하는 것을 비지도 학습이라고 한다

 

말 그대로 지도를 하지 않는다. 정답을 주지 않고 데이터만 잔뜩 주는 형태

 

그리고 데이터들 안에 깔려있는 underline pattern을 파악하는 것

 

쉽게 생각할 수 있는 것이 clustering(그룹화)

 

강아지, 고양이, 새 등을 모아 비슷한 것들끼리 모아보라한다면..?

 

출력을 기대하지 않아서, task가 지도학습에 비해 명료하지 않다

 

그래서 최종단에 쓰이기보다는 데이터 사이언스에 주로 쓰인다. 데이터로부터 인사이트를 얻고자 할때

 

대부분의 서비스나 task는 명료하기 때문에 출력이 명확한 지도학습 방법으로 접근하게 된다

 

 

5. 인공지능의 역사

 

5-1) 퍼셉트론(Rosenblatt, 1958)

 

1950년대 Rosenblatt이라는 사람이 퍼셉트론을 발표

 

기존에도 인공신경망의 개념이 존재했지만, 실제로 구현하여 가능하다는 것을 최초로 보이다

 

https://en.wikipedia.org/wiki/Perceptron

 

위 사진은 실제 구현체라고 함

 

데이터와 데이터 사이 연결성을 신경 형태로 모델링 되어서 데이터를 보내면, 나온 출력값이 어떤 threshold를 넘냐 아니냐를 판단하는 기계

 

그러한 연결성 = 가중치를 실제 진공관으로 연결해서 만들었다고 함

 

 

 

 

광센서를 이용해 해당 그림이 세모인지 네모인지 a인지 b인지 c인지 실제로 판단하는 모습을 보여줬다고함

 

 

perceptron은 사람의 뉴런을 본따서 모델링하여 만든 것이다.

 

input signal이 올때 수용체를 따라 신호가 변환되어 오는데, 종말단에 오면 output signal을 보내준다.

 

근데 모든 신호를 보내는 것이 아니고 신호의 세기가 어떤 threshold를 넘어가면 output signal로 만들어 보내준다

 

 

 

이를 간단한 수학적 모델로 만들어보면..

 

 

 

input이 x1, x2, x3이고 각각 가중치가 W1,W2,W3이면...  각각을 곱해 x1W1, x2W2, x3W3로 만들고  이들을 합해서 

 

x1W1+x2W2+x3W3로 출력

 

근데 그냥 출력하는 것이 아니라 이 합이 어떤 threshold를 넘느냐 아니냐로 판단해서 0아니면 1로 출력

 

0이면 신호를 넘기지 않고 1이면 신호를 넘겨주는..

 

이것이 바로 비선형성(non-linearity)

 

근데 선형결합 x1W1+x2W2+x3W3이 평면위에 표현해보면 직선의 방정식

 

 

 

개와 고양이를 구분하는데 개를 나타내는 데이터 x와 구분선과의 내적이 어떤 기준치보다 크면 1이고 아니면 0이고...

 

1이면 개고 0이면 고양이고 이렇게 구분하는

 

5-2) perceptron이 한계를 보이다

 

위에서 설명한 perceptron은 단 하나의 single layer

 

이런 single layer의 선형결합 sum(wx)는 직선, 평면의 방정식만 표현가능하다

 

근데 이런 경우 풀수없는 문제가 존재하는데

 

 

 

첫번째와 두번째는 어떻게 직선을 그으면 검정색, 하얀색을 완벽하게 구분하는데

 

세번째 그림에서 어떠한 직선을 긋더라도 검은색과 하얀색을 완벽하게 구분할 수 없었다

 

세번째 그림의 문제를 XOR문제라고 부름

 

single layer만으로는 이러한 XOR 문제를 풀 수 없다고 1969년에 지적했다.

 

하지만 이미 다들 알고있었던 한계점이었다고함

 

이게 뉴스를 타면서 AI가 허구였다는, 발전이 불가능하다는, 암흑기 시작

 

이게 1950년부터 2012년 AlexNet의 압도적인 성공 이전까지 이어짐

 

5-3) multi-layer perceptron

 

XOR문제를 해결하기 위해서는 perceptron을 여러개 만들어 쌓으면 된다

 

이렇게 쌓으면서 non-linear curve도 표현할 수 있음

 

그러면서 조금 더 general한 decision boundary를 표현할 수 있다

 

이런 multi-layer perceptron이 크면 클수록 대부분의 데이터에 대해 명백한 관계선을 만들 수 있다는 것을 보였다

 

 

 

5-4) convolution neural network

 

이미지 처리에 자주 쓰이는 convolution neural network

 

1989년에 처음 만들어짐

 

Yann Lecun이 우편물 이미지를 보고 우편번호를 분류하는 task를 convolution neural newtork를 이용하여 

 

학습시킨 성공사례를 보여줌

 

neural network의 첫 성공사례

 

 

 

convolution filter가 input iamge를 sliding window로 따라가면서 각 영역에서 얻은 feature를 map으로 만들어서

 

이를 여러 layer로 쌓아 최종 결론을 내리는 형태

 

 

2012년 layer가 조금 더 쌓였고, 구조는 이와 비슷한 AlexNet이 등장

 

엄청난 인용수 116047

 

압도적인 인기

 

인터넷의 발달로 어마어마한 데이터를 사용가능하게 되었고 CPU가 아니라 게임에서 사용가능한 GPU를 엔비디아에서 풀기 시작

 

과학계산 분야에 GPU를 사용하여 엄청난 연산 능력 향상을 이뤄냄

 

알고리즘은 약간 변화하였고, 데이터+연산능력의 엄청난 향상과 우연히 잘 맞아 AlexNet이 2012 ImageNet에서 압도적인 격차로 1등

 

 

기존 모델은 사람이 이미지를 보면서 어떠한 feature가 중요할지 손으로 디자인하여 만든 모델

 

 

6. 기계학습 패러다임 변화

 

기존의 머신러닝은 입력으로부터 중요한 특징을 추출할때 사람이 본다

 

입력으로부터 사람이 어떤 부분에선 선이 중요하고.. 어떤 부분에선 원이 중요하고... 어떤 부분에선 곡선이 중요하고...

 

이러한 특징을 분류기에 넘겨줘서 출력이 나오도록 학습

 

특징 추출이 사람에게 의존함

 

 

딥러닝의 시대에선 neural network를 깊게 쌓아가기 시작함

 

이제 입력을 모델에 주면 바로 출력이 나오도록, 입력과 출력 사이 학습 가능한 모든 관계를 모델이 알아서 하도록

 

뒷단은 분류역할을 하고, 앞단은 사람이 하는 특징 추출을 수행함

 

입력의 어떤 특징이 출력을 올바르게 내는데 중요할지 자동으로 결정함

 

이게 엄청난 센세이셔널

 

입력과 해당하는 출력을 주면 딥러닝 모델이, 사람이 간과할 수 있었던 특징도 잘 찾아낸다는 것이 대단했다

 

어떤게 중요한지 사람이 전부 나열하는데는 분명한 한계가 있었지만 딥러닝 모델은 그냥 데이터만 많이 주면 알아서 찾아낸다는 것

 

 

 

7. 모델에게 무엇을 가르쳐야하는가?

 

기계학습 방법, 데이터 리소스, 인공지능 모델들,... 인공지능에 대한 기본 재료들이 모였는데 그러면 모델에게 무엇을 가르쳐야하는가?

 

사람은 태어나면서 어떤것부터 학습을 하는지 생각을 해본다면

 

아기가 처음 태어나서 눈도 안보이고 팔도 못움직이고,.. 소리 들었을때 무슨 소리인지도 모르고...

 

제일 처음 학습하는게 감각, 지각능력

 

감각은 모델에게 입력이다. 어떤 물체에 대한 입력이 되어야 세상에 대해 이해를 할 수 있음

 

그리고 세상을 이해해야 상호작용을 할 수 있고 해당하는 출력을 낼 수 있음

 

그러면서 어드밴스드한 학습을 할 수 있게됨

 

 

 

 

아기는 눈으로 물체를 보고, 혀로 맛을 보고 코로 냄새를 맡아보고.. 이를 통해 세상에 대해 학습을 한다

 

8. 지각능력은 왜 중요한가?

 

입력과 출력

 

사람은 자연스럽게 지각능력을 통해 상호작용하면서 학습을 하게 됨

 

하나의 감각만이 아닌 오감을 통해 이들의 관계성으로 학습

 

 

하지만 단순히 오감에만 머무르는 것이 아니고 사회적 감각(social perception)이라고 불리는 것들도 있다

 

얼굴 표정에서 나오는 시각정보

 

단순히 손을 마주쳤을때의 느낌과 악수했을때의 느낌은 다르다

 

강한 어조의 연설은 어떤 사람의 마음을 울리기도 한다

 

이러한 얼굴표정, 어투 등 모두 보면서 이들의 상호관계성을 통해 여러 정보를 수집하게 된다

 

이러한 사람의 지각능력을 multi-modal이라고 부름

 

 

기계가 세상을 인식하는 방법인 기계 지각 능력을 개발하는 것 조차도 여전히 활발한 연구분야

 

여러가지 센서( = 감각)를 통해 얻은 데이터 타입으로부터 하나의 결론을 도출하는 것이 중요

 

 

9. 최신 연구 동향

 

9-1) multi-modality

 

사람의 매우 중요한 능력 중 언어적인 능력이 있다. 동물과 구분짓는 능력임

 

언어와 영상(이미지, video..등등)사이 관계를 이어주는 연구

 

최근 연구는 이렇게 서로 다른 modal(언어, 영상,...)들의 관계를 이어주는 multi-modality를 연구하는 것이 대세

 

여기서 나오는 재미있는 특성으로 인해 media creation

 

text가 주어지면 이미지를 생성하거나, 고퀄리티의 비디오를 만들어내거나 심지어 3d아바타도 만든다네..

 

text-to-image

 

 

https://textual-inversion.github.io/

 

An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion

Text-to-image models suffer from biases inherited from the training data. Rather than learning a new concept, we can find new embeddings for 'biased' concepts. These are found using small datasets, so we can easily curate the data and ensure a fairer repre

textual-inversion.github.io

 

 

text-to-video

 

 

https://imagen.research.google/video/

 

Imagen Video

High Definition Video Generation with Diffusion Models

imagen.research.google

 

 

text-to-3d

 

https://arxiv.org/pdf/2206.04382.pdf

 

 

 

3d모델이 엄청난 퀄리티는 아니지만, text만으로 이정도로 만들어낸다면 디자이너들에게 좋은 시작 포인트가 될 수 있을 것 같다

 

대량생산부터, 창의력을 자극할 수 있는 초기 단계가 될 수 있다

 

창작의 고통으로부터 해방

 

text-to-audio

 

text로부터 오디오를 생성함

 

text는 text대로 따로 연구해서 대화를 하는 AI

 

이를 발화시켜 캐릭터처럼 만드는 text-to-audio를 접목시켜 만드는 AI가 text를 자연스러운 말로 바꿔주는 AI가 된다

 

메타버스 아바타, 소리 기반의 talking head

 

virtual human

 

대화형 기반으로 자연스럽게 서비스하고자 하는

 

9-2) 

 

자연어처리의 발전으로 시작 문장만 주면 자연스럽게 글을 쓰는데

 

글을 주면 사람이 말을 하는건지 기계가 말을하는건지 구별이 안갈 정도의 대화형

 

최근 나온 Text-to-Audio가 아니라 애초에 audio 상태에서 대화하는 AI인 textless NLP

 

https://ai.facebook.com/blog/textless-nlp-generating-expressive-speech-from-raw-audio/

 

 

 

9-3)

 

벽 뒤를 뛰어넘어 보는 인지능력으로 

 

 

VR, AR이 글래스로 인해 얼굴이 어떻게 되는지 안보이는데

 

이를 추론해서 직접 보여주는

 

 

 

육안으로는 보이지 않는 얼굴의 떨림을 증폭시켜 보여준다고?

 

TAGS.

Comments