1. 경량화란? switch transformer model은 거대하기로 유명한 GPT-3 parameter의 9.14배인 1600000000000개(1.6조) text description으로부터 image를 생성하는 DALL-E는 GPT-3 parameter의 0.068배인 12000000000개(120억) 성능을 높이려면 parameter 수를 늘려야한다고는 하지만 너무 심한 수준으로 끝을 모르고 증가하는 요즘 추세 거대기업이 아닌 일반 사람이 이런 모델을 돌리는 것은 사실상 불가능한 수준 무겁고 큰 performance가 좋은 모델에서 performance를 약간 손해보더라도 model size를 줄여 원래 모델보다 좋진 못하겠지만 어느정도 쓸 수는 있을 충분히 작은 모델을 만들고자하는 기술 경량..
1. basic idea 이미 학습을 완료한 teacher model의 지식을 더 작은 student model에게 주입하는 것이 목적 큰 모델에서 작은 모델로 지식을 전달하여 모델 압축에 유용하게 쓴다 최근에는 teacher model의 출력을 unlabeled data의 pseudo-label로 자동생성하는 방식으로 활용함 2. unsupervised learning label이 존재하지 않는 동일한 input을 이미 학습한 teacher model과 학습이 안된 student model에 넣어 각각 output을 출력 같은 입력에 대해 서로 다른 출력을 내놓을 것인데 둘의 차이를 구해주는 KL divergence loss를 구한다 이 loss를 최소화하는 방향으로 backpropagation에 의해..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.