1. introduction pruning을 모두 관통하는 핵심은 결국 덜 중요한 weight를 제거하는 것 어떻게 제거하느냐에 따라 그 방법이 매우 많음 수 많은 pruning의 극히 일부분…. 앞으로도 쏟아져 나올 것인데 당연히 다 알 수는 없는 부분 global magnitude pruning은 network의 모든 곳에서 절댓값이 가장 낮은 weight를 제거 layerwise magnitude pruning은 각 layer에서 절댓값이 가장 낮은 weight를 제거함 global gradient magnitude pruning은 input의 batch에 의해 계산된 gradient로부터 weight와 gradient의 곱의 절댓값이 가장 낮은 weight를 제거함 layerwise gradien..
1. NLP의 최신 트렌드 transformer와 self-attention block은 NLP분야에서 범용적인 encoder,decoder로 역할을 수행하며 좋은 성능을 보였다. 처음 제안된 transformer의 self-attention block은 6개였는데 이제는 12개,24개,... 그 이상으로 더욱 쌓아올려 model을 구성한다. 이렇게 쌓은 모델을 self-supervised learning라는 framework하에 대규모의 train data로 pre-train하여 다양한 NLP task등에 transfer learning로 fine-tuning하는 형태로 활용하는 거대한 모형 BERT,GPT,ELECTRA,ALBERT 등이 등장했다. 이런 거대한 모형의 self-supervised le..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.