비전공자도 이해할 수 있는 AI지식 -외국어를 공부안해도 되는 시대는 올 수 있을까-

1. 언어의 규칙을 파악하고자 하다

 

지금까지 살펴본 내용을 정리해보겠습니다. 기계번역은 오래전 등장해 큰 관심을 받았지만, 뚜렷한 성과로 이어지지 못하면서, 오랜 침체기에 빠져있었습니다.

 

구글이 통계에 기반한 기계번역 서비스를 출시한 것은 2006년이었지만, 당시만 해도 그리 좋은 결과를 보여주진 못했습니다.

 

시스트란이 1968년부터 시도했던 규칙 기반과 큰 차이가 없었죠.

 

특히 영어-한국어 번역처럼 언어 구조가 많이 다른 경우에는 형편없는 결과를 보여주었습니다.

 

그나마 어순이 서로 비슷한 일본어-한국어 번역에서 규칙 기반으로 어느 정도 품질을 보장할 수 있었습니다만 이런 경우는 일부에 불과했죠.

 

우리가 학창 시절에 언어를 배울 때의 기억을 떠올려봅니다. 

 

먼저 명사, 동사, 형용사 등을 구분하는 법을 배우면서 언어의 특징과 구조를 분류하고 체계화했습니다.

 

예를 들어 형용사는 명사의 모양이나 크기, 색깔 등을 표현하면서 명사의 의미를 좀 더 명확하게 합니다.

 

'둥근 사과'라는 구문을 보면 형용사 '둥근'이 사과의 모양을 구체화합니다.

 

초기에는 기계가 언어를 이해하는 방식도 이와 비슷했습니다.

 

언어를 분류하고 규칙을 정의하는 데 바빴죠. 하지만 이런 접근 방식으로는 언어의 온갖 예외와 진화를 따라가기가 어렵습니다.

 

특별한 규칙 없이도 문장 내에서 멀리 떨어진 단어나 문맥을 참조해야 하는 경우가 있으며, 한 단어가 다양한 뜻으로 쓰이기도 합니다.

 

'나는 학교에 갑니다'라는 단순한 의미조차도 수십, 수백 가지로 표현할 수 있습니다.

 

- 내가 학교에 갑니다.

- 저는 학교에 가요!

- 나는 학교에 갑니다.

- 나는 학교를 가지요...

- 나는 학교를 가요~.

 

물론 어떻게든 규칙을 정리해나갈 수는 있을 것이고 초기의 규칙 기반 기계번역이 수십 년 동안 해온 일도 바로 이것이었습니다.

 

그러나 끊임없이 변형되고 확장하는 언어를 형식적으로 분석하는 데는 명백한 한계가 존재했기에, 컴퓨터를 이용한 자연어 처리 연구는 수십 년 동안이나 지지부진했습니다.

 

2. 인공지능이 기계번역의 돌파구가 되다

 

그러나 신경망을 도입하면서 마침내 혁신적인 돌파구가 열렸죠.

 

이제 기계번역에 더 이상 규칙을 입력하지 않습니다.

 

비슷한 문장에서 규칙을 스스로 학습합니다. 규칙 기반과 학습 기반의 차이는 앞서 살펴본 딥 블루와 알파고의 차이와도 비슷합니다.

 

딥 블루는 규칙에 기반해 정답을 계산했습니다. 하지만 알파고는 데이터에서 규칙을 찾아내 훨씬 더 복잡한 문제를 스스로 해결해냈습니다.

 

신경망 기계번역 또한 수많은 문장을 보며 스스로 규칙을 학습하고 언어를 이해하죠. 

 

번역이라는 복잡한 문제를 데이터를 통해 스스로 해결하는 겁니다. 

 

성능을 높이는 데 필요한 것은 보다 많은 데이터, 보다 많은 문장 뿐입니다. 나머지는 모두 기계가 스스로 학습합니다.

 

신경망 기반 모델은 끊임없이 발전합니다.

 

단순히 문장 전체를 학습하는 수준을 넘어 중요한 단어에 주목하는 어텐션이라는 개념도 고안합니다.

 

그리고 어텐션만으로 만든 모델, 트랜스포머가 등장하면서 연구는 더욱 활발해집니다. 

 

이 무렵 2년간의 연구 성과는 지난 20년간의 연구 성과를 능가했다는 얘기까지 나올 정도죠. 

 

마침내 어텐션으로 품질을 높인 신경망 기반 기계번역 서비스가 정식으로 세상에 모습을 드러냅니다. 

 

그리고 2016년 겨울에는 이 장의 맨 처음에서 살펴본 것처럼 <뉴욕 타임스>가 이를 대서특필하면서 세상의 주목을 받게 되죠.

 

3. 일류기업들이 앞다퉈 번역 서비스를 내놓다

 

2004년 무렵 구글은 처음으로 번역 서비스를 제공했습니다.

 

이때만 해도 직접 번역 엔진을 만들지 않고 시스트란의 제품을 사용했죠.

 

그러나 2006년에 통계 기반의 기계번역 서비스를 출시한 후부터는 직접 개발하면서 꾸준히 번역기의 성능을 높였습니다.

 

무엇보다 검색 서비스를 운영하며 엄청나게 많은 데이터를 수집한 구글은 이를 이용해 고품질의 번역 서비스를 단기간 내에 개발할 수 있었죠.

 

통계 기반을 도입하고부터는 문장이 많을수록 정교하게 확률을 계산할 수 있기 때문에 빅데이터 플랫폼을 갖추고 있는 구글에게 매우 유리했습니다.

 

구글은 유엔과 유럽의회의 회의록을 활용했습니다.

 

유럽의회에만 10년동안 23개 언어로 번역된 13억 7000만 단어의 데이터가 있었기 때문에 좋은 번역 엔진을 만들기에 충분했죠.

 

게다가 대용량 자료를 저장하고 처리하는 일은 구글의 장기였습니다.

 

4장에서 살펴봤듯이, 구글은 검색엔진을 구축하면서 수백 조 개의 문서를 색인하는 등 대용량 데이터를 처리하는 데 풍부한 노하우가 있었죠.

 

이즈음부터 앞서 나가기 시작한 구글은 2016년 인공 신경망 기반 번역 서비스를 출시하고, 현재는 무려 109개 언어의 번역을 지원하는 세계 최대 규모의 번역 서비스로 장했습니다.

 

2016년에 공개한 이용 통계를 보면 전 세계 사용자 수가 5억 명 이상이며, 매일 1000억 개 이상의 단어를 번역하고 있습니다.

 

인공 신경망이 기계번역에서 좋은 성과를 내자 국내 IT 기업들도 빠르게 도입하여 번역 서비스를 출시합니다.

 

2017년에는 카카오가 챗봇 형태로 카카오 i 번역 서비스를 선보였습니다. 원래 카카오는 번역 서비스를 출시할 계획이 없었습니다.

 

그런데 검색엔진 개발 팀장을 맡고 있던 한 개발자가 사이드 프로젝트로 주말마다 신경망 기반 기계번역을 만들었습니다.

 

이 개발자는 <영한 기계번역을 위한 효율적인 알고리즘에 관한 연구>라는 논문으로 석사학위를 받은 인물이었죠.

 

SNU Open Repository and Archive: 영한 기계 번역을 위한 효율적인 알고리즘에 관한 연구

 

SNU Open Repository and Archive: 영한 기계 번역을 위한 효율적인 알고리즘에 관한 연구

영한 기계 번역을 위한 효율적인 알고리즘에 관한 연구 Items in S-Space are protected by copyright, with all rights reserved, unless otherwise indicated.

s-space.snu.ac.kr

 

그러나 당시만 해도 기계번역은 상업적으로 쓰일 만큼 품질이 좋지 않았고 연구실의 연구 주제를 넘어서기는 힘들었습니다.

 

그래서 학위를 취득한 후에는 기계번역 연구를 그만두었고 검색엔진을 개발하는 개발자로 일을 했던 거죠.

 

그러다 신경망 기반 기계번역을 접하게 되고, 놀라운 성능에 감동받아 회사 업무와는 별개로 주말마다 기계번역 연구를 시작합니다.

 

마침내 구글 번역 못지않은 신경망 기반의 영어-한국어 번역 서비스를 완성했고, 카카오는 이를 정식 서비스로 출시하죠.

 

주말에 하던 개인 연구를 중심으로 팀이 결성되고, 당연히 그는 이 팀의 팀장을 맡게 됩니다.

 

네이버는 신경망이 등장하기 이전에도 파파고라는 이름으로 오랫동안 번역 서비스를 해왔습니다.

 

파파고는 에스페란토어로 '앵무새'라는 뜻이죠. 처음에는 통계 기반 기계번역이었습니다.

 

어순이 비슷한 일본어-한국어 번역에서는 그럭저럭 나쁘지 않은 품질을 보여주었죠.

 

그러나 영어-한국어 번역은 여전히 어려운 문제였습니다. 그러다 신경망 기반 기계번역에 대한 연구를 접하고, 논문을 기반으로 빠르게 구현을 시작합니다.

 

마침내 신경망을 적용한 번역 서비스를 출시했을 때는 심지어 구글보다도 몇 달 더 빨랐죠.

 

이렇게 파파고는 신경망 기반 영어-한국어 기계번역 서비스를 세계 최초로 출시합니다.

 

이후 파파고를 개발한 핵심 인력들은 현대자동차에서 자동차 도메인에 적합하도록 모델을 개선하여 신경망 기반의 번역 서비스를 출시합니다.

 

파파고의 아버지라 불리던 김준석 상무가 가장 먼저 합류했고, 이후 파파고의 모델을 개발하던 핵심 개발자 이성민 책임 연구원이 합류하여 현대자동차 이름으로 번역 서비스를 출시합니다.

 

이들은 자동차 도메인에 적합하도록 모델을 개선했을 뿐만 아니라 실시간으로 GPU 활용을 높이는 방식으로 성능을 올려 더 좋은 번역 서비스를 만들어냈습니다.

 

사내 공문서, 결재함 등의 서식을 모두 실시간으로 번역할 뿐만 아니라 HTML, 오피스 파일까지 번역하고 주변에 있는 사람들과 대화방을 개설하여 실시간 번역으로 다국어 채팅까지 할 수 있는 앱을 만들었습니다.

 

지금은 외국인 임원이 많은 현대자동차그룹에서 그룹사 내의 한국인 직원과 외국인 임원들이 모두 함께 사용하는 실시간 번역 서비스가 되었죠.

 

"주님께서 내려오시어 사람이 세운 도시와 탑을 보고 말씀하셨다. "보라, 저들은 한겨레이고 언어도 하나이다. 이것은 이들이 하려는 일의 시작일뿐, 이후 이들이 하고자 하는 일을 막을 수 없으리로다. 자, 우리가 내려가 그들의 언어를 혼잡하게 하여 서로 알아듣지 못하게 하자." 그리하여 주님께서 그들을 온 지면에 흩으셨으니 그들이 도시를 건설하기 그쳤더라. 그러므로 그 이름을 바벨이라 하니, 주님께서 거기서 온 땅의 언어를 혼잡하게 하셨음이니라." <창세기 11:5~9>

 

성경에 따르면 인간이 천국에 닿기 위해 탑을 쌓았는데, 그 오만함에 분노한 신이 인간의 말을 여럿으로 나누고 사람들을 땅 여기저기에 흩어버렸다고 합니다.

 

서로의 말을 알아들을  수 없게 된 인간들은 더 이상 탑을 쌓지 못했고, 그 탑에는 바벨이라는 이름을 붙였죠.

 

인간이 다양한 언어를 갖게 된 바벨탑 신화입니다.

 

실제로 전 세계 언어는 7000여종이나 된다고 하니 당시 신은 어마어마한 형벌을 내린 셈입니다.

 

게다가 바벨이란 이름은 히브리어로 "혼돈"을 의미합니다.

 

바벨탑으로 인해 인간은 서로 다른 언어를 갖게 되어 혼돈이 생기고 말았으니, '혼돈의 탑'이라는 의미 또한 매우 적절한 거 같네요.

 

기계번역이란 용어가 등장한지도 벌써 70년이 넘었습니다.

 

과연 언제쯤이면 기계번역이 언어로 인한 혼돈을 사라지게 할 수 있을까요?

 

오랜 침체기에 빠져 있던 기계번역은, 인공 신경망을 만나면서 마침내 돌파구를 열었습니다. 

 

딥러닝의 가장 성공적인 사례를 하나만 꼽으라면 단연 기계번역이라고 해도 과언이 아니죠.

 

고품질의 기계번역은 점점 언어의 장벽을 무너뜨리고 있습니다.

 

기술의 발전이 드디어 신의 형벌마저 깨트릴 준비를 하고 있는 셈이죠.

 

바벨탑으로 혼돈에 빠졌던 인류는 이제 '언어 통일의 시대'에 한 발짝 성큼 다가섰습니다.

 

과연 인간은 신의 형벌을 극복할 수 있을까요?

 

 

TAGS.

Comments