1. BERT의 transfer learning pre-training으로 masked language modeling과 next sentence prediction을 동시에 수행한다. pre-training한 BERT는 down stream task를 위해 적절하게 초기화된 가중치를 갖고 이를 바탕으로 여러 task를 수행 2. sentence pair classification & single sentence classification sentence pair classification은 entailment prediction을 생각할 수 있을 것 같고 single sentence classification은 sentiment classification을 생각할 수 있을듯? sentence pair ..
1. pre-trained model은 왜 의미있을까? pre-training과정에서 수행한 up-stream task의 data는 별도의 label이 필요하지 않은 데이터라는 것이 하나의 강점이다. ------------------------------------------------------------------------------------------------------------------------------- 다음 단어를 맞추는 것이 label이 없다고? GPT-1이 수행한 다음 단어를 예측하는 pre-training task는 input sequence와 output sequence가 동일한 task이다. 쉽게 말해 input sequence를 차례대로 읽어들여 input sequenc..
1. 기본적인 특징 GPT-1에서 발전된 형태 ‘Just a really big transformer’ 특별한 구조 변경없이 transformer self attention block을 더욱 쌓아올려 모델 크기를 키웠다 pre-train task로 주어진 text의 다음 단어를 맞추는 language modeling “language model은 model의 구조나 parameter를 변경하지 않고도 zero shot setting에서 downstream task를 수행할 수 있다.” 정확히 말하면 훈련 시 다양한 스킬이나 패턴을 인식하는 방법을 학습함으로써 추론 시 downstream task에 빠르게 적응하도록 하는 방법이다. GPT-2에서는 이러한 방법을 "in-context learning" 방식..
1. NLP의 최신 트렌드 transformer와 self-attention block은 NLP분야에서 범용적인 encoder,decoder로 역할을 수행하며 좋은 성능을 보였다. 처음 제안된 transformer의 self-attention block은 6개였는데 이제는 12개,24개,... 그 이상으로 더욱 쌓아올려 model을 구성한다. 이렇게 쌓은 모델을 self-supervised learning라는 framework하에 대규모의 train data로 pre-train하여 다양한 NLP task등에 transfer learning로 fine-tuning하는 형태로 활용하는 거대한 모형 BERT,GPT,ELECTRA,ALBERT 등이 등장했다. 이런 거대한 모형의 self-supervised le..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.