Loading...
2024. 9. 26. 22:56

hinton의 knowledge distillation이후에 발명된 knowledge distillation들 알아보기

1. introduction 기본적으로 알고있는 hinton의 최초 distillation이 baseline knowledge distillation  teacher를 여러명 두겠다는 ensemble of teacher   triplet network를 이용한 distillation   조교 선생님도 두겠다는 teacher assistant knowledge distillation  logit이 classification에서만 사용된다는 태생적인 한계 때문에 logit 말고도 다른 것에서도 지식을 배울 수 있다면? classification 문제 말고도 분명 다른 문제에서도 지식이라는 것이 있을 것임  그래서 예를 들어 최종 layer 말고 중간 layer에서 knowledge를 뽑는 feature di..

2024. 9. 24. 20:30

knowledge distillation 자세하게

1. background  “model training과 deployment 단계에서 필요한 parameter는 다르다”  애벌레가 번데기가 되려면 다양한 환경에서 에너지와 영양소를 잘 흡수할 수 있어야함 그러나 번데기에서 나비로 어른이 될 때는 이와는 매우 다른 traveling, reproduction에 대한 요구사항이 필요함 이 때는 영양소를 흡수하는데 주력하기보다는 몸도 가볍고 생식도 잘하도록 최적화되어야함 머신러닝도 이와 마찬가지임  training 단계와 deployment 단계에서 필요로하는 요구사항이 완전히 다르다는 것임  training단계에서는 애벌레가 번데기가 되기위해 에너지를 잘 흡수하던것 처럼 주어진 대용량의 데이터로부터 구조와 지식을 잘 흡수해야함   deployment 단계에서..

2024. 9. 23. 22:10

컴퓨터 비전에서 사용하는 기본적인 data augmentation 2

1. overview  기존 데이터에 변화를 가해 추가로 데이터를 확보하는 방법 데이터가 적거나 imbalance된 상황에서 효과적으로 활용가능  적절한 변환을 하더라도 이미지 데이터의 불변하는 성질을 모델에 전달하여 robust하게 만든다  예를 들어 강아지 이미지는 회전을 하더라도 늘리더라도 일부분만 보이더라도 여전히 강아지 이미지임   어떻게 변환을 하더라도 이미지가 나타내는것은 사자임에는 변함없다  그러나 데이터 종류마다 augmentation의 종류나 특성이 달라질 것이다.  정형데이터는 정형데이터만의 augmentation이 있고  음성데이터는 음성데이터만의 augmentation이 있고  이미지 데이터는 이미지 데이터만의 augmenation이 있어 2. 경량화 관점에서 augmentatio..

2024. 9. 14. 22:18

triplet loss 개념 알아보기

sound source localization의 unsupervised learning에서 설명한 방식이 사실 triplet loss를 이용한 것이다. metric learning의 일종 기준이 되는 image data에 대응하는 audio data를 positive data라고 하고 (fv,fs+)라고 표시하자. 반대로 image data에 대응하지 않는 데이터는 negative data라고 하고 (fv,fs-)라고 표시한다. 위에서 fv는 지금 동일한 기준 데이터임   직관적으로 fv와 fs+ 는 서로 대응하는 관계니까 거리가 가까워야하고 fv와 fs-는 서로 대응하지 않으니까 거리가 멀어야한다.  공간상에 positive data는 가깝게 negative data는 멀게 분리하여 배치하는 것이 tr..

2024. 9. 10. 22:38

visual and audio cross modal reasoning2 - speech separation, lip move generation

1. speech separation 구조 영상에서 어떤 인물이 말한건지 분리해내는 task   N명의 얼굴이 영상에 등장한다고 하면 일정한 frame(여기서는 75 frame?)의 이미지를 network에 넣어 face embedding vector를 각각 뽑아낸다   dilated convolution를 사용한거랑 shared weight 특징이 보인다 영상의 audio waveform을 (noisy input) spectrogram으로 바꾸고 network에 넣어 speech feature를 뽑는다    STFT는 아마 short time fourier transform이고 dilated convolution을 사용했다고 한다 두 stream에서 뽑은 face feature와 speech featu..

2024. 9. 9. 22:00

visual and audio cross modal reasoning1 - sound source localization

1. sound source localization 소리가 이미지의 어디 부분에서 나는 소리인지 detection하여 heatmap으로 출력시키는 문제 image modal과 sound modal이 서로 reference하여 결론을 내리는 referencing model 소리의 context를 파악하여 image 내 object와 match하는 문제 여러 마이크에서 나오는 소리라면 위치를 찾는건 사실 큰 의미 없는데 하나의 마이크에서 여러 소리가 나오면 소리의 근원을 detection하는 것은 의미 있을 수 있다.    2. 구조 audio network에서는 sound embedding vector를 사용했지만 image network에서는 채널 공간정보가 남은 feature map을 사용    ima..