Loading...
2023. 7. 5. 23:14

컴퓨터로 sound data를 표현하는 방법들에 대하여(Fourier transform, spectrogram, melspectrogram, MFCC)

1. sound representation 기본적으로 sound data는 1d signal waveform으로 주어짐 waveform에서 점을 임의로 뽑아 다음과 같이 1d tensor로 만듦 시간축에 따른 waveform을 그대로 사용하기는 어려워서 주파수 축에 옮기기 위해 Fourier transform을 이용 근데 그냥 전부 옮기는 것이 아니고 시간에 따른 변화를 파악하기 위해 굉장히 짧은 구간에서 변형시키는 short time Fourier transform을 사용 시간에 따른 변화를 구할려면 sliding window방식으로 구간을 옮겨가면서 변화시켜야함 짧은 구간인 A(20~25로 hyperparameter)에서 가운데 부분을 강조시키면서 boundary는 약하게 만들어서 spectrum으로..

2023. 3. 2. 01:29

visual attention + visual & sound modeling 기본 개념 배우기

1. show attend and tell 입력 이미지가 주어졌을때 CNN 모델로 feature를 추출 vector로 만드는 것이 아니라, 14*14의 spatial 정보를 가지는 feature map으로 추출 그리고 feature map과 LSTM의 interaction으로 서로 feedback을 통해 attention할 위치를 추론함 각각 어디를 봐야할지 집중할 위치를 찾아 매 순간마다 단어 단위로 text를 생성 2. visual attention 사람이 이미지를 바라볼때, 전반적인 내용을 한번에 뇌에 담지는 못한다 사람은 이미지를 볼때 한곳에 시선이 오래보고있지 않고 시선을 빠르게 움직이면서 물체를 스캔하는 형태로 물체 인지를 한다. 눈을 훑어보고, 코를 보고 입을 보고 전체적인 모습을 보면서 이..