비전공자도 이해할 수 있는 AI지식 -인간의 언어를 정복하기 어려운 이유-

1. 구글 번역, 갑자기 품질이 좋아지다?

 

2016년 겨울, <뉴욕 타임스>에 "위대한 인공지능, 깨어나다"라는 흥미로운 제목의 기사가 올라왔습니다.

 

이 기사는 진정한 인공지능의 시대가 열렸다는 놀라운 내용을 담고 있었습니다.

 

발단은 이렇습니다.

 

2016년 11월 초 어느 금요일 늦은 밤, 온라인으로 강의를 준비하던 도쿄대학교의 레키모토 준이치 교수는 구글 번역의 품질이 갑자기 엄청나게 좋아졌다는 사실을 깨닫습니다.

 

호기심에 그는 한밤중에 잠도 잊은 채 구글 번역을 실험합니다. 

 

먼저 <위대한 개츠비>에서 문장을 뽑아 무라카미 하루키가 일본어로 번역한 문장과 구글이 번역한 문장의 품질을 비교했습니다.

 

무라카미 하루키의 번역에서는 하루키의 문체가 느껴졌습니다.

 

오히려 구글이 번역한 문장이 훨씬 더 직관적이고 이해하기가 쉬웠습니다.

 

불과 하루 전만 해도 구글의 영어-일본어 번역은 제대로 읽기도 어려울 정도로 엉망이었는데, 갑자기 번역 품질이 획기적으로 개선된 거죠.

 

일본 트위터에서 이 사건이 회자되었고, 그 다음 날 트위터 트렌드 1위는 "구글 번역"이 차지했습니다.

 

구글 번역이 도입한 기술은 바로 인공 신경망이었습니다.

 

 

2. 정말 어려운 인간의 언어

 

인공 신경망이 도대체 어떤 역할을 했길래 번역 품질이 하루 아침에 좋아졌을까요?

 

그 과정을 하나씩 따라가보겠습니다.

 

먼저 인간의 언어가 정말 어려운데, 그 이유를 크게 3가지를 들 수 있습니다.

 

1) 역사와 유행에 따라 무작위로 생겨나는 규칙

 

먼저 규칙이 너무 많습니다. 인간의 언어를 몇가지 규칙만으로 설명하기란 사실상 불가능합니다.

 

왜냐하면 인간의 언어는 신조어가 생겨나면서 계속 확장하기 때문이죠.

 

언어의 기원을 설명하는 이론도 너무 많아서 1866년 파리언어학회는 이 주제에 관한 토론을 아예 금지시켜버릴 정도였습니다.

 

언어는 살아 움직이는 생명체처럼 끊임없이 진화합니다.

 

예컨대 100년 전에 한반도에 살던 사람이 눈앞에 나타나도 그와 대화를 이어가기가 힘들지도 모릅니다.

 

왜냐하면 100년 동안 우리말은 달라졌기 때문이죠.

 

인간의 언어는 어떤 특정한 규칙을 따라 과학적인 방식으로 발전하지 않습니다. 

 

세월을 거친 흔적이 인간의 언어에 고스란히 반영되죠.

 

그 예는 스탠퍼드대학교 댄 주래프스키 교수가 쓴 책 <음식의 언어>에도 잘 나와있습니다.

 

음식에 붙여진 이름은 어떤 규칙에 따라 지은 게 아니라 음식의 역사를 따라 자연스럽게 생겨난 경우가 많다는 거죠.

 

"케첩"을 예로 들어보면, 케첩이란 이름은 어느 나라에서 지었을까요?

 

영국 아니면 프랑스나 독일에서 건너온 이름일까요? 아닙니다. 놀랍게도 이 이름은 중국에서 태어났습니다..? 정말?

 

생선으로 만든 소스를 의미하는 "규즙"의 중국어 발음이 "꿰짭"이고 이것이 영어권 나라로 넘어와 케첩이 된 것입니다.

 

"담배"라는 이름은 어디서 왔을까요? 중국어나 일본어일까요?

 

놀랍게도 "담배"는 포르투갈어에서 왔습니다. 포르투갈어인 "tabaco"를 일본에서 담바고로 불렀고, 이것이 우리나라로 넘어와 담파고, 담바 등으로 부르다가 "담배"가 표준어가 되었습니다.

 

이처럼 사물의 이름은 일정한 패턴을 따라 생겨나지 않습니다.

 

전혀 예상치도 못한 나라나 언어에서 파생하기도 하죠. 역사와 유행에 따라서도 생겨납니다.

 

인간은 경험으로 이런 언어의 패턴을 어렴풋이 이해하고 있는 것이지, 사실상 인간도 언어의 모든 규칙을 이해하기는 어렵습니다.

 

우리가 영어를 아무리 공부해도 실력이 잘 늘지 않는 것도 비슷한 이유 때문이죠.

 

 

2) 수많은 오류

 

모든 사람이 말을 문법에 맞게 하면 좋겠지만, 사실 일상적인 대화에는 엄청나게 오류가 많습니다.

 

그럼에도 대화가 가능한 것은 우리의 뇌가 웬만한 오류를 보정하고 이해하기 때문입니다.

 

분명히 문법에 어긋난 문장인데, 우리는 아무렇지 않게 받아들이는 거죠

 

"캠릿브지대학교의 연결구과에 따르면, 한 단어 안에서 글자가 어떤 순서로 배되열어 있는가 하것는은 중하요지 않고, 첫째번와 마지막 글자가 올바른 위치에 있것는이 중하요다고 한다."

 

이상한 점을 눈치채셨나요? 얼핏 보면 이상한 점을 잘 눈치채지 못할 정도로, 우리의 뇌는 이런 오류에 잘 대처합니다.

 

인간의 두뇌는 정말 대단합니다. 하지만 과연 기계도 이런 오류투성이 문장을 이해할 수 있을까요?

 

 

3) 언어의 모호성

 

같은 발음을 지닌 단어가 여러 뜻을 갖는 경우가 있습니다. 우리 말 중에는 대표적으로 "배"가 있죠.

 

"배가 크다"라고 한다면, 여기서 "배"는 무엇을 의미할까요? "먹는 배"일까요? "타는 배"일까요?

 

단어만 봐서는 정확한 의미를 이해할 수 없습니다.

 

앞뒤 문장과 전체적인 맥락을 살펴봐야 비로소 "배"가 정확히 어떤 의미인지 알 수 있죠.

 

어떤 단어는 한두 가지를 넘어 수십 가지 뜻이 있습니다.

 

영어에서 "had"를 들 수 있겠습니다. "had"는 그 뜻이 엄청나게 많습니다.

 

I had a delicious breakfast with my best friend here.

 

이 문장을 예전의 번역기들은 이렇게 번역했습니다.

 

"나는 맛있는 아침과 여기서 나의 최고의 친구와 가졌다."

 

단어를 하나씩 대입하면 틀린 부분 없이 번역된 듯 보여도, 문장 전체를 읽어보면 전혀 말이 되지 않는 문장이죠.

 

자연스러운 한국어 문장이 아닙니다. 

 

이 문장은 다음과 같이 번역해야 합니다.

 

"나는 여기서 가장 친한 친구와 맛있는 아침을 먹었다."

 

사실 영어-한국어 번역은 수십 년간 연구해도 그 결과가 신통치 않았습니다. 

 

이처럼 간단한 문장에서도 알 수 있듯, 우리말과 영어는 문법이나 어순이 완전히 다를뿐더러 "had"같은 영어 단어가 너무나 다양한 의미로 사용되기 때문입니다.

 

"had"는 주로 "가졌다"는 의미로 쓰이지만, "breakfast"와 함께할때는, "먹었다"는 의미로 주로 쓰입니다.

 

이런 변수가 한두개가 아닙니다. 'had'의 사전적 의미는 무려 30가지가 넘습니다.

 

함께 나오는 단어가 무엇이냐에 따라 제각각 다른 의미를 지니는 거죠.

 

네이버 영한사전에서 'had'가 갖는 의미를 몇개만 더 살펴봅시다.

 

I had a delicious breakfast with my best friend here.

나는 여기서 가장 친한 친구와 맛있는 아침을 먹었다.

 

She had some friends with her.

그녀는 친구 몇 명과 함께 있었다.

 

You've had your hair cut.

너 머리 깎았구나.

 

He had a new car.

그는 새 승용차를 한 대 갖고 있었다.

 

I went to a few parties and had a good time.

나는 몇 군데 파티에 가서 즐거운 시간을 보냈다.

 

'had'의 의미를 일부만 나열해도 이 정도입니다.

 

이렇게 많은 규칙을 일일이 정의해서 매번 상황에 맞춰 번역하는게 쉬울까요?

 

놀랍게도 초기에는 이러한 규칙을 다 분석해냈습니다. 분석한 것에 if-then 규칙을 모두 입력했죠.

 

이렇게 만든 번역기가 좋은 결과를 만들 수 있었을까요?

 

이제 기계번역의 역사를 차례대로 살펴보겠습니다.

 

 

3. 기계번역의 시작

 

인간이 사용하는 언어를 컴퓨터를 사용해 다른 언어로 번역해내는 일을 기계번역(machine translation)이라고 합니다.

 

 

'기계번역'이라는 용어는 1949년부터 논문에 등장했고, 당시에도 큰 주목을 받았습니다.

 

1950년대부터는 MIT를 비롯한 여러 대학에서 본격적으로 기계번역을 연구하기 시작했고,

 

1945년에는 조지타운대학교와 IBM이 공동으로 러시아어를 영어로 번역하는 공개 시연회를 진행합니다.

 

물론 당시에는 여느 인공지능 기술이 그랬듯, 5년 정도 이내에는 인공지능 기술이 번역 분야를 정복할 수 있을 것으로 기대했습니다.

 

그러나 잘 알다시피 인공지능 기술은 쉽사리 나아가지 못했고, 번역에도 제대로 적용되지 못했습니다.

 

기계번역 연구는 이내 암흑기에 빠져들며, 상용화하지 못한 채 여러 대학 연구실의 연구 주제로만 남게 되었습니다.

 

TAGS.

Comments