1. 서론 AI 경량화는 사실 세간의 인식에 비해 쉽다 기저에 깔려있는 이론은 어렵지만 적용하기에는 매우 쉽다 현재 AI모델은 더 큰 모델, 더 큰 파라미터로 더 좋은 성능을 내는 것이 트렌드 NLP 뿐만이 아니라 CV도 마찬가지 하지만 문제는 서비스 응답 목표치에 비해 AI모델의 추론 속도가 매우 느리다는거 경량화를 통해 AI모델의 아키텍처는 그대로, 정확도 손실은 거의 없게 그런데 추론 속도를 4배 더 빠르게 할수 있다면? Clova의 LaRva 모델은 1배치당 평균 175.87ms인데 경량화를 통해 4배 더 빠른 43.86ms를 달성했다고함 이 정도면 서빙하고도 남는 수준 경량화 기법의 계통 pruning과 low rank 기법이 주로 연구되고 있고(2023.10 기준) know..
1. introduction 기본적으로 알고있는 hinton의 최초 distillation이 baseline knowledge distillation teacher를 여러명 두겠다는 ensemble of teacher triplet network를 이용한 distillation 조교 선생님도 두겠다는 teacher assistant knowledge distillation logit이 classification에서만 사용된다는 태생적인 한계 때문에 logit 말고도 다른 것에서도 지식을 배울 수 있다면? classification 문제 말고도 분명 다른 문제에서도 지식이라는 것이 있을 것임 그래서 예를 들어 최종 layer 말고 중간 layer에서 knowledge를 뽑는 feature di..
1. background “model training과 deployment 단계에서 필요한 parameter는 다르다” 애벌레가 번데기가 되려면 다양한 환경에서 에너지와 영양소를 잘 흡수할 수 있어야함 그러나 번데기에서 나비로 어른이 될 때는 이와는 매우 다른 traveling, reproduction에 대한 요구사항이 필요함 이 때는 영양소를 흡수하는데 주력하기보다는 몸도 가볍고 생식도 잘하도록 최적화되어야함 머신러닝도 이와 마찬가지임 training 단계와 deployment 단계에서 필요로하는 요구사항이 완전히 다르다는 것임 training단계에서는 애벌레가 번데기가 되기위해 에너지를 잘 흡수하던것 처럼 주어진 대용량의 데이터로부터 구조와 지식을 잘 흡수해야함 deployment 단계에서..
1. trend GPT,BERT,ELECTRA 등의 괴물 모델은 size를 키우면서 압도적인 성능을 냈지만 pre-training 시키는데만 많은 계산량, GPU resource 등이 너무 많이 필요하다. 그래서 일반인들이 다양한 연구나 현업에서 사용하기에는 쉽지 않다. 기존의 큰 모델의 성능을 거의 유지하면서도 계산속도나 메모리 사용량에서 개선시키는데 초점을 두어 경량화 연구가 진행되고 있다. 심지어 소형 device 휴대폰에도 모델을 돌릴 수있게 만든다고???? 2. knowledge distillation https://arxiv.org/pdf/1503.02531.pdf https://light-tree.tistory.com/196 딥러닝 용어 정리, Knowledge distillation 설명과..
1. semi-supervised learning supervised learning은 label된 데이터를 사용해야한다. 그러나 label된 데이터는 대규모로 구축하는데는 비용이 너무 많이 든다 반면 unsupervised learning에서 활용하는 label이 필요없는 unlabel 데이터는 온라인상에서 무궁무진하게 아주 쉽게 수집하여 활용할 수 있다는 장점이 있다. 사실 대부분의 유용한 task는 supervised learning인데 unlabel된 데이터를 활용할 방법이 있지 않을까? unlabel된 데이터와 label된 데이터를 모두 사용하여 학습하는 방식이 semi-supervised learning이다. 1-1) semi-supervised learning using knowledge d..
1. basic idea 이미 학습을 완료한 teacher model의 지식을 더 작은 student model에게 주입하는 것이 목적 큰 모델에서 작은 모델로 지식을 전달하여 모델 압축에 유용하게 쓴다 최근에는 teacher model의 출력을 unlabeled data의 pseudo-label로 자동생성하는 방식으로 활용함 2. unsupervised learning label이 존재하지 않는 동일한 input을 이미 학습한 teacher model과 학습이 안된 student model에 넣어 각각 output을 출력 같은 입력에 대해 서로 다른 출력을 내놓을 것인데 둘의 차이를 구해주는 KL divergence loss를 구한다 이 loss를 최소화하는 방향으로 backpropagation에 의해..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.