1. introduction 이미 학습된 network에서 중요도가 낮은 parameter를 제거하여 model의 size를 줄이고자 하는 작업 parameter의 중요도를 어떻게 정의해야 좋은지 생각해보는 것이 주요 연구 과제 weight의 L2 norm이 크면 기여도가 높은 parameter? gradient가 크면 중요도가 높은 weight? 혹은 둘을 합쳐서 평가할 수도 있고 또 다른 metric을 생각해볼 수도 있다 학습된 parameter의 일부가 제거된 모습 2. structured pruning parameter를 그룹 단위로 pruning하는 기법들을 모두 일컫는 말 그룹이라는 것은 channel단위일수도 있고 filter 단위나 layer 단위일수도 있음 필요없는 (0에..
1. introduction pruning을 모두 관통하는 핵심은 결국 덜 중요한 weight를 제거하는 것 어떻게 제거하느냐에 따라 그 방법이 매우 많음 수 많은 pruning의 극히 일부분…. 앞으로도 쏟아져 나올 것인데 당연히 다 알 수는 없는 부분 global magnitude pruning은 network의 모든 곳에서 절댓값이 가장 낮은 weight를 제거 layerwise magnitude pruning은 각 layer에서 절댓값이 가장 낮은 weight를 제거함 global gradient magnitude pruning은 input의 batch에 의해 계산된 gradient로부터 weight와 gradient의 곱의 절댓값이 가장 낮은 weight를 제거함 layerwise gradien..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.