1. trend GPT,BERT,ELECTRA 등의 괴물 모델은 size를 키우면서 압도적인 성능을 냈지만 pre-training 시키는데만 많은 계산량, GPU resource 등이 너무 많이 필요하다. 그래서 일반인들이 다양한 연구나 현업에서 사용하기에는 쉽지 않다. 기존의 큰 모델의 성능을 거의 유지하면서도 계산속도나 메모리 사용량에서 개선시키는데 초점을 두어 경량화 연구가 진행되고 있다. 심지어 소형 device 휴대폰에도 모델을 돌릴 수있게 만든다고???? 2. knowledge distillation https://arxiv.org/pdf/1503.02531.pdf https://light-tree.tistory.com/196 딥러닝 용어 정리, Knowledge distillation 설명과..
1. introduction A Lite BERT, 가벼워진 BERT 그동안 NLP 모델들은 대규모의 parameter를 가지는 괴물 모델로 발전해왔다. 그것이 정말로 좋은가? 많은 경우에 메모리 사용량은 한정되어있고 대규모 모델은 학습속도가 매우 느리며 시간도 엄청 필요하다. 특별한 방법으로 성능의 큰 하락없이, 오히려 더 좋아지면서 model의 size를 줄이고 학습시간을 빠르게하는 방법을 제시했다. 2. Factorized embedding parameterization self-attention block은 residual connection을 수행하는데 input과 output을 더해야한다는 점이 특징이다. 이것은 input과 output의 size가 동일해야 가능하다. 이 output hidd..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.