Loading...
2024. 8. 16. 20:24

network quantization 간단하게

1. motivation 일반적으로 float32로 network 연산과정이 표현되나 그것보다 작은 크기의 데이터 타입인 float16 half precision이나 int8 fixed point로 mapping하여 연산을 수행하는 것  2. 예시   1번처럼 float32의 matrix들을 int8로 quantization mapping하여 표현을함 matrix를 계산한 결과가 2번임 2번을 다시 float32로 dequantization하면 3번이 됨 실제 quantization하지 않고 계산한 4번과 비교하면 어느정도 오차가 있는데 이것을 quantization error라고 부름 경험적으로 quantization error에 대해 robust하게 network가 잘 작동한다는 사실이 알려져서 보편..

2024. 8. 15. 20:27

knowledge distillation 간단하게

이미 학습된 큰 규모의 teacher network가 있다면 작은 student network 학습시 teacher network의 지식을 전달하여 학습을 시키자.  1. 일반적인 방법 주어진 input x를 pretrained teacher model과 student model에 넣어서 output을 낸다 teacher model의 경우 softmax(T=t)를 사용하여 soft label을 내놓고 student model은 softmax(T=1)의 hard label과 softmax(T=t)의 soft label을 모두 내놓는다   A부분에서는 student model의 hard prediction을 이용하여 ground truth와의 cross entropy를 이용한 일반적인 training이 이루..

2024. 8. 14. 22:08

Efficient Architecture design이란

1. motivation 효율적인 architecture를 디자인하여 큰 모델 못지 않은 성능을 내는 모듈을 만들고자 하는 것이 efficient architecture design 최근 trend는 사람이 디자인하는 것보다 AutoML이나 Neural Architecture Search같은 컴퓨터가 optimization으로 모델을 찾게 만듦  2. 필요성 매일 다양한 특성을 가지는 module들이 쏟아져나오고 있음 이 module들은 특징이 다양함.  parameter가 적은데 성능은 좋다든지 성능만 좋고 parameter는 너무 많다든지 연산량이 적은데 성능이 떨어진다든지    왼쪽 그림은 연산횟수에 따른 정확도 비교. 원의 크기는 model의 parameter 오른쪽 그림은 model의 param..

2024. 8. 14. 20:10

왜 경량화인가? 딥러닝 모델의 경량화가 필요한 이유

1. motivation 머신러닝과 딥러닝은 이제 거의 모든 분야에서 활용되고 있음 자율주행자동차, entertainment, healthcare, NLP, text, speech, image, audio 등등 다양한 application   2. on device AI  smartphone, smartwatch, IoT device 등에 자체적으로 머신러닝이나 딥러닝 어플리케이션이 올라가 inference를 수행함  이미 object detection, translation 등이 on device에서 수행가능한 딥러닝 어플리케이션들 그러나 올려야하는 어플리케이션이 power(battery) usage가 적어야하고 RAM memory usage가 적어야하고 storage가 적어야하고 computing p..

2024. 7. 10. 01:53

딥러닝 경량화의 quantization 개념 소개

neural network의 weight나 activation을 연속적으로 정밀하게 미세한 값으로 표현하는 것보다  정밀도가 떨어지더라도 sparse하게 드문드문 떨어지는 덩어리 quantization으로 표현  1. 왜 하는가? 가장 중요한 부분은 training을 더 빠르게 하기위함보다는 inference 과정에서 속도를 빠르게 하고 싶어서 quantization을 하는 것 model size가 작아짐 32bit의 $2^{32}$에서 16bit로 $2^{16}$으로 8bit에서 $2^{8}$로 절반씩 표현능력과 size가 감소하나 그만큼 메모리양을 절약할 수 있음 저장된 데이터를 얼마나 읽어올 수 있는지 memory bandwidth의 필요량을 줄일 수 있다? 이게 무슨 말인지 생각해봤는데 큰 siz..

2022. 12. 31. 01:57

값싼 비용으로 최대 효율을 낼 수 있을까 - lottery ticket hypothesis

1. introduction research의 트렌드를 바꿔버린 혁명적인 가설로 한번 제기된 이후 후속논문이 지금까지도 나오고 있음 첫 network인 A를 parameter initialization을 하고 적당히 training을 하여 91%의 정확도를 얻었다고 하자. 이후 training된 network를 pruning하여 B를 얻었다고 한다. 이 때 B의 현재 parameter에서 mask로 가려지지 않은 부분을 A의 첫 initialization된 parameter로 reset한 다음에 정확히 A와 동일한 training방법을 사용하여 reset한 B를 training하면 91%에 가까운 정확도를 얻을 수 있는 그런 network B가 존재할 수 있다는 뜻이다. 이런 network B를 lott..