딥러닝 경량화의 quantization 개념 소개
neural network의 weight나 activation을 연속적으로 정밀하게 미세한 값으로 표현하는 것보다 정밀도가 떨어지더라도 sparse하게 드문드문 떨어지는 덩어리 quantization으로 표현 1. 왜 하는가? 가장 중요한 부분은 training을 더 빠르게 하기위함보다는 inference 과정에서 속도를 빠르게 하고 싶어서 quantization을 하는 것 model size가 작아짐 32bit의 $2^{32}$에서 16bit로 $2^{16}$으로 8bit에서 $2^{8}$로 절반씩 표현능력과 size가 감소하나 그만큼 메모리양을 절약할 수 있음 저장된 데이터를 얼마나 읽어올 수 있는지 memory bandwidth의 필요량을 줄일 수 있다? 이게 무슨 말인지 생각해봤는데 큰 siz..