Loading...

quantization의 종류들 구체적으로 살펴보기(quantization aware, post training ... )

1. how much quantization을 얼마나 했느냐에 따라 32bit가 full precision이라면 절반씩 줄여나가는 16bit quantization, 8bit, 4bit, 2bit, 1bit quantization   mixed precision으로 quantization하는 기법은 hardware-oriented compression(혹은 hardware-aware compression)에 사용된다고 함 무슨 말이냐면 hardware 친화적인 compression, 사용하는 hardware에 맞춘 compression 구체적으로 아주 미세한 layer 단위에서 어떤 layer는 3bit, 어떤 layer는 5bit quantization을 하는 등 layer 단위로 섞어서 다른 quan..

hardware optimization이 일어나는 원리 locality of reference

1. hardware specific optimization deep learning model의 compile과정에서 backend단에서 target hardware에 맞춰가는 optimization을 위해 여러가지 방법들이 사용 hardware intrinsic mapping, memory allocation & fetching, loop oriented optimization techniques, parallelization 등등   loop oriented optimization technique는 직관적으로 이해하기 쉬운데 loop fusion은 겹치는 loop를 하나로 합치는 것일테고 reordering은 loop 순서를 바꾸는 것일테고 unrolling은 loop를 풀어서 하나하나 실행되게 ..

lottery ticket을 찾는 방법들로 제안된 방법들 살펴보기

1. iterative magnitude pruning 최초 논문에서 제안한 lottery ticket를 찾는 방법 초기 W0로 parameter initialization을 수행하고 T번 training을 수행 이 때 magnitude pruning을 수행하여 mask m1을 찾는 것임 magnitude는 weight의 크기를 기준으로 적은 크기를 가지는 weight를 제거함 그러면 이제 이게 lottery ticket인지 확인하기 위해 초기 W0에 mask m1을 씌운 뒤 T번 training을 시켜 검증을 하는거지 아니라면 다른 pruning을 수행하여 mask m2를 얻고 위 과정을 계속 반복해서 lottery ticket를 찾겠다 이거임    2. iterative magnitude prunin..

neural network에서의 low rank approximation은 무엇이 있는가

1. filter decomposition network의 filter를 decomposition하여 계산량을 줄이면서 decomposition하기 전의 결과에 approximation시키는 방법 depthwise separable convolution은 depthwise convolution을 수행하고 pointwise convolution을 수행하여 일반적인 convolution보다 계산량을 줄이고 원래 일반적인 convolution의 결과에 거의 approximation할 수 있다.. (같지 않나 아닌감)   2. low rank tensor approximation 이미 학습된 network의 filter가 차원이 너무 높아 계산비용이 너무 많이 드는 경우 하지만 input을 받아 output을 ..

2024. 10. 1. 22:38

가장 좋은 augmentation을 찾기 위한 시도들 - AutoML, Rand augmentation

1. issue  task나 dataset 종류에 따라서 잘 되는 augmentation이 다르고 적용해야하는 강도나 크기도 달라  숫자를 인식해야하는 MNIST 데이터셋의 경우 9라는 이미지를 180도 회전한 이미지로 바꾸면 6으로 인식되는데  label은 여전히 9라고 하는데 누가봐도 6으로 보이니 성능이 저하될 수 있음 capacity가 작은 모델에 학습이 어려운 augmentation을 적용하면 오히려 부담을 느껴 성능이 저하됨  2. AutoAugment 그렇다면 컴퓨터의 힘을 빌려 AutoML을 통해 task와 데이터에 최적화된 augmentation을 찾아보자   데이터로부터 data augmentation의 policy를 학습하는 모델을 만드는것 모델로부터 데이터의 특징을 잘 살려주는 au..

2024. 9. 26. 22:56

hinton의 knowledge distillation이후에 발명된 knowledge distillation들 알아보기

1. introduction 기본적으로 알고있는 hinton의 최초 distillation이 baseline knowledge distillation  teacher를 여러명 두겠다는 ensemble of teacher   triplet network를 이용한 distillation   조교 선생님도 두겠다는 teacher assistant knowledge distillation  logit이 classification에서만 사용된다는 태생적인 한계 때문에 logit 말고도 다른 것에서도 지식을 배울 수 있다면? classification 문제 말고도 분명 다른 문제에서도 지식이라는 것이 있을 것임  그래서 예를 들어 최종 layer 말고 중간 layer에서 knowledge를 뽑는 feature di..