text-to-text format 방법론 간단하게
1. motivation
GPT-2로 closed question answering의 가능성을 본 이후로 등장한 방법론
closed question answering는 generation MRC와 유사하다.
단, 둘의 차이라면 전자는 지문없이 질문만 들어간다
closed question answering도 BART같은 seq-to-seq transformer기반의 모델을 사용함
text-to-text format은 그 이름처럼 모든 종류의 NLP task를 text에서 text로 mapping하는 방식으로 치환하겠다는 방법론
input text 앞에 task에 대한 설명을 붙여준다.
그러면 모델이 처음 보는 task더라도 가지고 있는 언어 지식만으로 task를 이해하여 수행한 output을 출력할 수 있도록 만든다
2. idea
input을 text로 받아 새로운 output text를 생성하는 방식
다양한 NLP text processing 문제를 text-to-text로 치환
input에 task-specific prefix를 생성하여 task에 알맞은 output을 출력하도록 유도함
원래는 task-specific한 모델을 만들어야 가능했지만 대량의 사전 언어지식을 학습한 하나의 모델로 모든 task가 가능하다는 것이 특징
위 그림에서 초록색 부분을 보면 “translate English to German: That is good.”을 input으로 주었는데
input으로 That is good만 주는 것이 아니라 해줬으면 하는 task를 나타내는 translate English to German을 같이 줌으로써
모델이 가지고 있는 사전지식만으로 “translate English to German”을 이해하여 That is good을 독일어로 번역해준다
빨간색의 cola sentence의 cola는 the Corpus of linguistic acceptability라는 뜻으로 문장이 문법적으로 받아들일만한지 아닌지를 검사하는 task
모델은 내재한 사전지식만으로 task의 설명을 이해하고 문장에 문법적 오류가 있는지 없는지를 검사함
마지막 파란색의 summarize는 주어진 문장을 다 읽고 문장을 요약하여 출력을 내는 task
위와 같이 다양한 종류의 text processing problem을 task에 대한 설명이 첨가된 input, output으로 변형하여 동일한 input, output 형식으로 모든 task를 통일하였다
모든 다양한 문제를 하나의 모델에서 학습할 수 있고 새로운 문제를 유저가 임의로 정의를 하여 output을 낼수도 있다.
3. model overview
BART와 유사하면서도 BART같은 종류의 모델의 상위호환이다.
BART같은 generation model을 써서 text-to-text format으로 학습시킨다면 좋은 성능이 나올것임
위 그림을 보면 input에 task에 대한 설명이 들어가고? output도 text인데
extractive question answering처럼 특정한 position을 내보내는 것이 아니라 fully generated text를 내보내고 있다.
training loss도 단어 하나하나씩 접근해서 계산을 했다고?
'딥러닝 > NLP' 카테고리의 다른 글
transformer 간단요약1 - transformer의 핵심 아이디어, 무엇을 이해해야하는가 (0) | 2024.04.16 |
---|---|
T5 모델 간단하게 알아보기 (0) | 2024.04.07 |
RNN을 개선한 LSTM(Long short term memory) (0) | 2023.07.27 |
RNN의 특별한 학습방법 Backpropagation through time 이해해보기 (0) | 2023.07.12 |
RNN의 여러가지 유형(one to one, one to many, many to one, many to many) 되돌아보기 (0) | 2023.07.11 |