visual and audio matching modality - SoundNet

1. sound tagging sound를 통해 해당 장면들이 beach인지 classroom인지 어떤 장면인지 알아내는 문제  비디오 프레임과 소리를 받아 무슨 장면인지 tag를 구하는 문제    2. SoundNet 1) 구조 unlabeled video에는 RGB frame과 sound가 혼합되어있음   RGB frame을 object detection과 scene detection을 하는 pretrain된 두 visual recognition network(ImageNet CNN 계열)에 넣는다.  visual network는 fix되어 학습되지 않는다.  waveform을 CNN계열에 집어 넣어 feature를 뽑는다.  마지막 단에서 2개의 head로 분리되는데 하나는 scene recogni..