비전공자도 이해할 수 있는 AI지식 -인간보다 말을 잘하는 기계의 등장-

1. 괴물같은 언어 인공지능의 등장

 

2015년 인류 전체에 이익이 되는 범용 인공지능을 목표로 비영리 인공지능연구소 오픈 AI가 발족합니다.

 

 

 

여기에는 전 세계 최고의 인공지능 연구자들이 모여들었습니다.

 

설립자들 또한 일론 머스크, 실리콘 밸리 투자 회사 Y컴비네이터 회장 샘 올트먼, AlexNet과 기계번역, 알파고 개발에 참여한 일리야 수츠케버 등이 참여한 드림팀이었습니다.

 

2019년에는 마이크로소프트가 1조원을 투자하기로 결정해 화제가 되기도 했죠.

 

이러한 투자에 힘입어 AI에는 놀라운 결과물이 쏟아졌습니다.

 

그중에서도 대표적인 것이 언어 생성 모델인 GPT(generative pretrained transformer)입니다.

 

GPT는 6장에서 소개했던 기계번역 모델인 트랜스포머에서 디코더만 가져와 응용한 것입니다.

 

그렇다면 GPT는 어떻게 언어 모델을 구축할까요?

 

 

2. GPT가 언어를 공부하는 방법

 

앞서 Word2Vec이 학습하는 방식을 설명한 바 있습니다. 이는 빈칸에 들어갈 단어가 무엇인지 맞추도록 학습합니다.

 

GPT 언어 모델은 문장 안에서 다음 단어가 무엇이 나올지 맞추도록 학습합니다.

 

다음 단어를 ___

 

 

다음 단어를 떠올_____

 

 

다음 단어를 떠올리면 된다.

 

 

 

이렇게 차례로 다음에 오는 단어를 하나씩 맞춥니다.

 

엄청나게 많은 문장을 보면서 컴퓨터가 스스로 학습합니다.

 

오답을 골라냈다면 감점을 주고, 정답과의 차이를 보정하여 다시 맞추면서 점점 더 높은 점수를 향해 갑니다.

 

개발자는 정답 문장을 일일이 만드는 대신 그저 수많은 문장을 모으기만 하면 됩니다.

 

매번 강조하지만 자동으로 학습할 수 있다는 건 엄청난 장점이죠.

 

이것이 바로 '언어 모델'(language model)이라고 부르는 전통적인 모델링 방식이며, 문장의 생성에 최적화 되었다고 하여 '언어 생성 모델'이라고도 합니다.

 

 

3. 인간을 위협할 인공지능이 등장했다

 

언어 모델을 이용하면 이처럼 다음 단어를 예측해서 문장을 생성해낼 수 있습니다.

 

그래서 언어 모델을 잘 만들어두기만 한다면 심지어 소설로 쓰게 할 수 있죠.

 

사실 GPT가 처음 세상에 공개됐을 때만 해도 그리 주목을 받지는 못했습니다.

 

이미 비슷한 언어 모델을 많이 나와있었고, 이에 비해 두드러진 성능을 보여주진 못했거든요.

 

그러나 이내 GPT-2가 공개되면서 상황은 역전됩니다.

 

모델 매개변수 학습 데이터 크기 발표
GPT  1억 1700만개 미공개 2018년 6월
GPT-2 15억개 40GB(웹페이지 800만개) 2019년 2월
GPT-3 1750억개 570GB(원본 45TB) 2020년 6월

 

 

무엇보다 가장 큰 차이는 모델의 크기였습니다.

 

별다른 주목을 받지 못했던 GPT에 비해 GPT-2는 10배 이상 컸습니다.

 

웹 페이지 800만개를 수집하여 학습했고, 학습 데이터의 용량은 40GB에 달했습니다.

 

매개변수의 수는 무려 15억개나 있었는데, 모델의 변화를 조절할 수 있는 스위치가 무려 15억개나 달려있는 셈이죠.

 

트랜스포머의 디코더를 사용한다는 알고리즘 자체는 큰 변화가 없었지만, 이처럼 모델의 크기를 키우고, 데이터를 늘리자 깜짝 놀랄만한 일이 일어났습니다.

 

마치 사람이 글을 직접 쓴 것처럼 성능이 너무 좋아서 위험할 정도가 되어버린 거죠.

 

이 때문에 스팸, 가짜뉴스 등을 쏟아낼 우려가 있었고, 오픈 AI는 회사명에 드러낸 방향성과 달리 이 모델을 공개하지 않기로 결정합니다.

 

https://m.blog.naver.com/with_msip/221510352055

 

4. 인류가 만들어낸 모든 언어를 암기하다

 

이듬해 공개된 GPT-3는 더욱 놀라웠습니다. 인간을 위협할 정도라고 했던 GPT-2보다 100배나 더 큰 모델이었거든요.

 

GPT-3가 학습한 원본 데이터는 무려 45TB에 달합니다.

 

이 엄청난 데이터에서 잘못된 데이터를 추리고 추려서 알짜배기만 정제한 것만 해도 570GB에 달했고, 이를 모두 학습에 이용했습니다.

 

게다가 모델의 크기가 너무 크기 때문에 한번 학습하는 데만도 무려 120억원이 넘는 비용이 들었다고 합니다??? 진짜로??

 

성능은 당연히 놀랍습니다.

 

단순히 다음에 나올 단어를 예측하는 모델일 뿐이라고 여길 수도 있지만, 인류가 그동안 축적한 수많은 문장을 대부분 암기하고 있다는 건 그 자체로 대단한 잠재력을 갖고 있는 것이죠.

 

GPT-3는 사람과의 대화는 물론, 어떤 질문에도 답하며, 소설을 쓰거나, 영어를 프랑스어로 번역해내기도 합니다.

 

어떤 웹 사이트를 설명하면 그 사이트를 직접 만들고, 구현 원리를 설명하면 코딩을 하기도, 파워포인트 발표 자료를 만들기도 합니다.

 

이는 GPT-3가 단순히 문장만 학습한 게 아니라 인터넷에 있는 방대한 데이터를 거의 모조리 학습했기 때문에 가능합니다.

 

인터넷 어딘가에는 영어를 프랑스어로 번역한 문장이 있을 테고, 수많은 소설도 있습니다.

 

구현 원리를 설명하고 이를 따라 코딩을 한 문장도 있겠죠.

 

http://www.aitimes.com/news/articleView.html?idxno=142591

 

이런 방대한 데이터를 학습하며 GPT-3는 문장을 넘어 데이터의 생성 원리를 이해하게 된 것입니다.

 

물론 좀 더 정확히는 데이터의 구조를 암기하고, 생성할 확률을 정교하게 게산한 것이지만,

 

GPT-3는 마치 인간의 언어를 완전히 이해하거나 과거를 추억하는 듯한 패턴도 보여주었습니다. 

 

이 모든 게 엄청난 크기의 모델과 방대한 데이터로 인한 효과였죠.

 

 

5. 오픈AI, GPT-3를 유료로 제공하다

 

오픈 AI는 GPT-3를 유료 API로 제공하기로 결정했고, 소스코드에 접근할 권한은 마이크로소프트에 독점적으로 부여합니다.

 

앞서 마이크로소프트는 오픈AI에 1조 원을 투자했다고 얘기한 바 있죠.

 

그래서인지 두 회사는 서로에게만 API을 제공하는 등 매우 긴밀하게 협업하고 있습니다.

 

이러한 오픈 AI의 비공개 정책에 포토샵을 예로 들며, 이를 비판하는 목소리도 나옵니다.

 

"포토샵이 등장한 지 30년이 지났고, 이제는 고등학생이 사용할 정도로 대중적인 기술이 되어 누구나 사진을 조작할 수 있지만, 이로 인해 우리 사회가 혼란에 빠지진 않습니다. 왜냐하면 모두가 포토샵에 대해 너무 잘 알고 있기 때문이죠."

 

이전 모델인 GPT-2조차 공개하지 않겠다던 오픈 AI는 2019년 11월 결국 GPT-2 전체 모델을 공개합니다.

 

GPT-2가 세상에 나오면 스팸과 가짜뉴스를 양산해 사회가 혼란에 빠질 것이라는 우려와는 달리 공개 이후에 아무런 일도 일어나지 않았죠.

 

그리고 2020년 9월부터는 조용히 GPT-3의 유료 서비스를 개시합니다.

 

처음에는 대기 줄까지 세웠지만, 이제는 비용만 지불하면 누구나 이용 가능합니다.

 

그리고 비영리로 운영하던 오픈AI는 제한적 영리추구 법인을 별도로 설립합니다.

 

 

6. 하이퍼클로바, 국내에서 만든 괴물 언어 모델

 

GPT-2와 GPT-3의 연이은 성공에 힘입어 국내에서도 언어 생성 모델을 구축하려는 시도가 잇따르고 있습니다.

 

대표적으로 네이버에서 구축한 하이퍼클로바(Hyperclova)가 있죠.

 

 

하이퍼클로바는 GPT-3보다도 더 많은 2040억 개의 매개변수를 채택하고 GPT-3보다 6500배 더 많은 한국어 데이터를 학습했습니다.

 

영어가 학습 데이터의 대부분을 차지하는 GPT-3와 달리, 하이퍼클로바의 학습 데이터는 한국어 비중이 97%에 달합니다.

 

네이버는 한국 기업 답게 한국어에 최적화한 언어 모델을 구축했고,

 

GPT-3의 쓰임새가 다양한 것처럼 하이퍼클로바도 국내 서비스의 다양한 분야에 쓰일 채비를 하고 있습니다.

 

 

7. 인공지능이 인간처럼 과거를 기억하다

 

다시 GPT-2가 등장했던 몇 년 전으로 잠깐 돌아가볼게요.

 

당시 GPT-2를 이용한 언어 생성 모델이 가능성을 보여준 후 그 근간이 되는 트랜스포머 모델을 기반으로 다양한 챗봇이 등장하기 시작합니다.

 

마치 인간의 두뇌처럼 엄청나게 큰 용량에 세상에 있는 거의 모든 텍스트를 읽어들여 학습하고, 이를 통해 인간처럼 대화문을 생성해내는 진정한 언어 생성 모델 챗봇이죠.

 

대표적으로 GPT-2 공개 직후에 등장한 구글 미나가 있습니다.

 

http://www.aitimes.com/news/articleView.html?idxno=125303

 

 

마치 우리말처럼 익숙해보이지만, 'Multi-turn open-domain chatbot trained end-to-end on data'이라는 뜻을 지닌 영어 이름입니다.

 

그대로 해석하면 '데이터를 엔드투엔드 방식으로 학습한 멀티 턴(여러 번의 대화) 자유 주제 챗봇'이란 뜻이죠.

 

말 그대로 엄청나게 많은 문장을 그대로 학습하여 무슨 주제든 얘기할 수 있는 열린 챗봇입니다.

 

GPT-2 직후에 나온 챗봇이라, GPT-2의 15억 개와 비슷한 26억 개의 매개변수를 사용했고,

 

인터넷에 공개된 텍스트 데이터를 341GB정도 끌어모아 학습했습니다.

 

당연히 사람과 구분이 힘들 정도로 좋은 성능을 보여주었죠.

 

바로 직후인 2020년 4월에 페이스북에서 공개한 블렌더 봇은 더 큰 모델입니다.

 

https://ai.facebook.com/blog/blender-bot-2-an-open-source-chatbot-that-builds-long-term-memory-and-searches-the-internet/

 

 

94억 개의 매개변수와 15억 건의 대화를 학습했다고 밝힙니다.

 

아마도 미나를 의식해서인 듯 구체적인 양은 밝히지 않았지만 약 2배 정도 더 많은 데이터를 학습했을 것으로 추정합니다.

 

원래 챗봇은 조금만 대화가 길어져도 딴소리를 하는 경우가 많지만, 블렌더 봇처럼 거대한 모델은 마치 과거를 기억하는 인간처럼 대답할 수 있습니다.

 

여기에 더해 블렌더 봇은 인격과 지식, 공감의 특성을 생성하고 조합해 훨씬 더 폭넓은 대화를 이끌어나갑니다.

 

이외에도 응답의 품질을 높이기 위해 응답의 최소 길이를 제한하고, 검색과 생성을 적절히 조합하여 훨씬 더 고품질의 응답을 만들어냅니다.

 

뒤이어 나온 블렌더 봇 2.0 모델은 검색을 본격적으로 활용해 최신 정보를 대화에 반영하고, 대화의 맥락을 이어나가기 위해 별도의 메모리에 대화 내역을 저장해두기도 하죠.

 

페이스북의 블렌더 봇과 구글의 미나를 비교 평가한 적이 있습니다.

 

그 결과 사용자의 67%는 미나보다 블렌더 봇이 더 인간처럼 보인다고 대답했고, 75%는 미나보다 블렌더 봇과 더 오랫동안 얘기하고 싶다고 응답했습니다.

 

여러 특성을 조합한 훨씬 더 큰 모델이자 응답의 품질에 신경을 많이 쓴 블렌더 봇이 좀 더 친근하게 느껴진다는 얘기였죠.

 

이처럼 챗봇은 언어 생성 모델을 탑재하고, 엄청나게 많은 텍스트를 학습하면서 거대한 기계가 마치 사람의 대화를 흉내내는 듯한 방식으로 진화하고 있습니다.

 

 

 

 

Week 29 - 드디어 인간을 끝장낼 AI가 나왔다? GPT! (jiho-ml.com)

 

Week 29 - 드디어 인간을 끝장낼 AI가 나왔다? GPT!

아래 답변은 사람이 아니라 AI 모델이 자동으로 생성한 글입니다. (영어에서 한국어로 번역) Q : 40 대 초반에 노안이있었습니다. 어떻게해야합니까? A : 예전에는 신문을 읽는 것과 같이 좀 더 가

jiho-ml.com

 

 

TAGS.

Comments