1. sound source localization 소리가 이미지의 어디 부분에서 나는 소리인지 detection하여 heatmap으로 출력시키는 문제 image modal과 sound modal이 서로 reference하여 결론을 내리는 referencing model 소리의 context를 파악하여 image 내 object와 match하는 문제 여러 마이크에서 나오는 소리라면 위치를 찾는건 사실 큰 의미 없는데 하나의 마이크에서 여러 소리가 나오면 소리의 근원을 detection하는 것은 의미 있을 수 있다. 2. 구조 audio network에서는 sound embedding vector를 사용했지만 image network에서는 채널 공간정보가 남은 feature map을 사용 ima..
1. sound representation 기본적으로 sound data는 1d signal waveform으로 주어짐 waveform에서 점을 임의로 뽑아 다음과 같이 1d tensor로 만듦 시간축에 따른 waveform을 그대로 사용하기는 어려워서 주파수 축에 옮기기 위해 Fourier transform을 이용 근데 그냥 전부 옮기는 것이 아니고 시간에 따른 변화를 파악하기 위해 굉장히 짧은 구간에서 변형시키는 short time Fourier transform을 사용 시간에 따른 변화를 구할려면 sliding window방식으로 구간을 옮겨가면서 변화시켜야함 짧은 구간인 A(20~25로 hyperparameter)에서 가운데 부분을 강조시키면서 boundary는 약하게 만들어서 spectrum으로..