text-to-text format 방법론 간단하게

1. motivation

 

GPT-2로 closed question answering의 가능성을 본 이후로 등장한 방법론

 

closed question answering는 generation MRC와 유사하다.

 

단, 둘의 차이라면 전자는 지문없이 질문만 들어간다

 

closed question answering도 BART같은 seq-to-seq transformer기반의 모델을 사용함

 

text-to-text format은 그 이름처럼 모든 종류의 NLP task를 text에서 text로 mapping하는 방식으로 치환하겠다는 방법론

 

input text 앞에 task에 대한 설명을 붙여준다.

 

그러면 모델이 처음 보는 task더라도 가지고 있는 언어 지식만으로 task를 이해하여 수행한 output을 출력할 수 있도록 만든다

 

 

2. idea

 

input을 text로 받아 새로운 output text를 생성하는 방식

 

다양한 NLP text processing 문제를 text-to-text로 치환

 

input에 task-specific prefix를 생성하여 task에 알맞은 output을 출력하도록 유도함

 

원래는 task-specific한 모델을 만들어야 가능했지만 대량의 사전 언어지식을 학습한 하나의 모델로 모든 task가 가능하다는 것이 특징

 

text-to-text format 예시

 

 

위 그림에서 초록색 부분을 보면 “translate English to German: That is good.”을 input으로 주었는데

 

input으로 That is good만 주는 것이 아니라 해줬으면 하는 task를 나타내는 translate English to German을 같이 줌으로써

 

모델이 가지고 있는 사전지식만으로 “translate English to German”을 이해하여 That is good을 독일어로 번역해준다

 

빨간색의 cola sentence의 cola는 the Corpus of linguistic acceptability라는 뜻으로 문장이 문법적으로 받아들일만한지 아닌지를 검사하는 task

 

모델은 내재한 사전지식만으로 task의 설명을 이해하고 문장에 문법적 오류가 있는지 없는지를 검사함

 

마지막 파란색의 summarize는 주어진 문장을 다 읽고 문장을 요약하여 출력을 내는 task

 

위와 같이 다양한 종류의 text processing problem을 task에 대한 설명이 첨가된 input, output으로 변형하여 동일한 input, output 형식으로 모든 task를 통일하였다

 

모든 다양한 문제를 하나의 모델에서 학습할 수 있고 새로운 문제를 유저가 임의로 정의를 하여 output을 낼수도 있다.

 

 

 

3. model overview

 

BART와 유사하면서도 BART같은 종류의 모델의 상위호환이다.

 

BART같은 generation model을 써서 text-to-text format으로 학습시킨다면 좋은 성능이 나올것임

 

text-to-text format model overview

 

 

위 그림을 보면 input에 task에 대한 설명이 들어가고? output도 text인데

 

extractive question answering처럼 특정한 position을 내보내는 것이 아니라 fully generated text를 내보내고 있다.

 

training loss도 단어 하나하나씩 접근해서 계산을 했다고?

 

TAGS.

Comments