transformer은 NLP의 트렌드를 어떻게 바꾸었을까

1. 기계번역의 연구 트렌드

 

 

1-1) translation based on rule

 

기계번역 문제는 연구자들이 수십년간 노력했던 분야로

 

딥러닝 이전에는 전문가들이 직접 언어간 문장구조를 고려한 rule 기반 번역을 수행했다.

 

I love this movie라는 영어 문장을 나는 이 영화를 사랑한다.로 번역하기 위해서는

 

먼저 I , love, this, movie 단어별로 번역을 수행했다.

 

영어와 한글의 문법은 다르기 때문에 한글의 문법을 고려한 어순배열을 수행해야했다.

 

그러나 다양한 언어의 수많은 변수들을 일일이 고려하기에는 너무나 어렵다.

 

 

1-2) translation in RNN

 

RNN이라는 딥러닝 기술의 등장은 이러한 고민을 해결했다.

 

언어학적 rule없이 단지 (영어 원문, 번역문)의 쌍으로 된 학습데이터를 모델에게 학습만 시키면 RNN이 번역을 잘 수행했고 오히려 rule 기반 번역보다 성능이 좋았다.

 

I love this movie에서 각각의 단어 I, love, this, movie 의 word embedding을 수행한 벡터 a1,a2,a3,a4를 이용.

 

그러면 문장은 이러한 벡터들이 특정한 순서로 주어지는 sequence data

 

그러나 순서를 다르게하면 뜻이 달라진다는 것을 모델이 인식할 수 있어야한다.

 

this movie love I (a3,a4,a2,a1) 로 제시되면 뜻이 완전히 달라지잖아.

 

RNN은 이러한 순서정보를 처리하는데 특화된 자연어처리의 핵심모델

 

LSTM, GRU가 자주 활용되고 있다. GRU는 LSTM에서 구조를 간단히하여 계산속도를 빠르게 하였다.

 

 

 

1-3) 2017, 구글 attention is all you need 발표

 

그러다가 구글이 attention is all you need라는 논문을 발표하면서 기존 RNN 기반의 자연어 처리 모델에서

 

self attention 구조를 적용한 transformer를 제안하면서 기존의 모델을 완전히 대체하는 새로운 모델이 등장하게 되었다.

 

지금의 대부분 NLP 모델은 이 transformer의 구조를 기반으로 하고 있다.

 

원래는 기계번역을 위해 제안되었지만, 자연어 처리 분야 뿐만아니라 영상처리, 시계열예측, 신물질, 신약개발 등 다양한 곳에서 활약하고 있다.

 

 

 

2. transformer은 NLP의 트렌드를 어떻게 바꾸었을까

 

transformer 이전에는 NLP task별로 특화된 딥러닝 모형들이 존재했다.

 

그러나 이제는 transformer의 핵심 모듈인 self attention 모듈을 단순히 쌓아나가 모델 크기를 키워나가거나

 

이 모델을 self supervised training이라고 부르는, 별도 label이 필요하지 않은 대규모 text data를 사전학습한 대형모델 BERT, GPT-3 등이 등장했다.

 

이 사전학습한 대형모델을 큰 구조의 변화 없이도 원하는 task에 대한 transfer learning를 적용할 시

 

기존 task에 특화된 모델보다 성능이 향상되었다. 즉 범용인공지능기술이 탄생한 것.

 

그러나 이 모델을 학습하기 위해서는 대규모의 데이터, GPU resource가 필요함

 

테슬라의 일론 머스크가 만든 비영리 인공지능 연구기관 openAI의 GPT-3는 학습하는데 드는 전기세만 수십억이라고 함

 

자연어 처리를 주도하는 곳은 구글, 페이스북, openAI같은 막강한 자본력이 뒷받침된 소수

 

 

 

3. self supervised learning의 직관적인 설명

 

입력 문장 중 일부를 가려 그것을 맞추도록 학습하는 것

 

I study math라는 문장에서 study를 가린 I ***** math를 제시한다고 해보자.

 

?에 들어갈 단어는?

앞뒤 문맥 I와 math를 보고 ?에 들어갈 단어를 맞춰봐라.

 

사람이 해도 study를 정확히 맞추기는 어렵지만

 

‘문법적으로 가운데 들어갈 단어는 동사이며 math를 목적어로 취하는 것에

 

의미적으로 어울리는 동사가 들어가야할 것’이라는 정보를 파악할 수 있다.

 

이러한 숨겨진 문법적, 의미론적 지식을 model이 학습하게 만들고자 하는 것.

TAGS.

Comments