knowledge distillation 간단하게
이미 학습된 큰 규모의 teacher network가 있다면 작은 student network 학습시 teacher network의 지식을 전달하여 학습을 시키자. 1. 일반적인 방법 주어진 input x를 pretrained teacher model과 student model에 넣어서 output을 낸다 teacher model의 경우 softmax(T=t)를 사용하여 soft label을 내놓고 student model은 softmax(T=1)의 hard label과 softmax(T=t)의 soft label을 모두 내놓는다 A부분에서는 student model의 hard prediction을 이용하여 ground truth와의 cross entropy를 이용한 일반적인 training이 이루..