Loading...
2022. 10. 27. 17:52

BERT를 가볍게 만드려는 시도 - ALBERT 모델 공부하기

1. introduction A Lite BERT, 가벼워진 BERT 그동안 NLP 모델들은 대규모의 parameter를 가지는 괴물 모델로 발전해왔다. 그것이 정말로 좋은가? 많은 경우에 메모리 사용량은 한정되어있고 대규모 모델은 학습속도가 매우 느리며 시간도 엄청 필요하다. 특별한 방법으로 성능의 큰 하락없이, 오히려 더 좋아지면서 model의 size를 줄이고 학습시간을 빠르게하는 방법을 제시했다. 2. Factorized embedding parameterization self-attention block은 residual connection을 수행하는데 input과 output을 더해야한다는 점이 특징이다. 이것은 input과 output의 size가 동일해야 가능하다. 이 output hidd..

2022. 3. 20. 08:55

NAS(Neural Architecture Search) 기법에 대해 알아보기

1. NAS에 대한 오해 model의 일반적인 설계 방식은 model 구조인 architecture를 설계하고 그 위에 hyperparameter를 설정하고 그 위에 데이터를 넣어 train하면서 parameter를 tuning하여 model을 완성하여 사용 이제 가장 밑단의 architecture를 어떤 것을 써야할지 고민이다. 딥러닝이 상식처럼 알려져있지만 딥러닝이 아닌 architecture도 많고 SqueezeNet, ResNet, VGGNet 등등 여러가지가 많다 architecture는 사람이 직접 손으로 만드는 방법도 있지만 automatic하게 찾아내는 방법도 있다. ResNet의 residual block은 기계가 만든 것이 아니라 사람이 창의적으로 만드는 것 Neural architec..

2022. 3. 5. 21:44

model compression에서 고려되는 특이한 제약조건들

1. CO2 emission model을 줄일 때 고려할 cost로 재밌는 것이 CO2 emission NAS 1번 train할 때 626155파운드(약 284톤)의 CO2 발생 그냥 생각없이 자원 많으니까 performance 올리겠다고 모델 돌리다가 엄청난 양의 CO2 발생 별거 아닌 양이면 무시하겠지만 284톤이면 무시할만한 양은 아니니 고려해야할 중요한 constraint transformer도 CO2 엄청 나온다고 했던것 같은데 아닌가??? 2. model size 모델 크기를 줄이려는 compression에서 size는 당연히 고려해야할 중요한 사항이다. compression으로 줄였다고 생각했지만 output으로 나온 model의 size가 생각보다 커버리면 문제가 있음 앱스토어에 150mb..

2022. 3. 4. 19:20

model compression이란 무엇인가?

1. problem solving large model이라는 initial state 데이터가 아닌 model이 input 적절한 경량화 기술을 통해 problem solving을 하여 compressed model을 얻는 과정이 model compression 적절한 경량화 기술은 pruning, quantization, knowledge distillation, filter decomposition 등을 의미 model compression의 decision problem solving 그림 2. optimization problem large neural network가 주어질 때 pruning, quantization, knowledge distillation, filter decompositio..