1. introduction 이미 학습된 network에서 중요도가 낮은 parameter를 제거하여 model의 size를 줄이고자 하는 작업 parameter의 중요도를 어떻게 정의해야 좋은지 생각해보는 것이 주요 연구 과제 weight의 L2 norm이 크면 기여도가 높은 parameter? gradient가 크면 중요도가 높은 weight? 혹은 둘을 합쳐서 평가할 수도 있고 또 다른 metric을 생각해볼 수도 있다 학습된 parameter의 일부가 제거된 모습 2. structured pruning parameter를 그룹 단위로 pruning하는 기법들을 모두 일컫는 말 그룹이라는 것은 channel단위일수도 있고 filter 단위나 layer 단위일수도 있음 필요없는 (0에..
1. overview MobileNetV1은 depthwise separable convolution을 사용해 계산량을 줄이고 MobileNetV2는 inverted Residual block을 통해 계산량을 줄이고 MobileNetV3는 MobileNetV2에 Squeeze and excite를 사용해 계산량을 줄였다고함 2. MobileNetV2 ReLU6는 min(max(x,0),6)으로 ReLU에서 상한선을 6으로 고정한 함수 MobileNet 시리즈는 ReLU함수로 ReLU6를 사용 MobileNetV1과 MobileNetV2(stride=1, stride=2 version)의 기본 구조 비교 MobileNetV1은 depthwise convolution을 수행하고 pointwise co..
1. introduction research의 트렌드를 바꿔버린 혁명적인 가설로 한번 제기된 이후 후속논문이 지금까지도 나오고 있음 첫 network인 A를 parameter initialization을 하고 적당히 training을 하여 91%의 정확도를 얻었다고 하자. 이후 training된 network를 pruning하여 B를 얻었다고 한다. 이 때 B의 현재 parameter에서 mask로 가려지지 않은 부분을 A의 첫 initialization된 parameter로 reset한 다음에 정확히 A와 동일한 training방법을 사용하여 reset한 B를 training하면 91%에 가까운 정확도를 얻을 수 있는 그런 network B가 존재할 수 있다는 뜻이다. 이런 network B를 lott..
1. problem solving large model이라는 initial state 데이터가 아닌 model이 input 적절한 경량화 기술을 통해 problem solving을 하여 compressed model을 얻는 과정이 model compression 적절한 경량화 기술은 pruning, quantization, knowledge distillation, filter decomposition 등을 의미 model compression의 decision problem solving 그림 2. optimization problem large neural network가 주어질 때 pruning, quantization, knowledge distillation, filter decompositio..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.