sound source localization의 unsupervised learning에서 설명한 방식이 사실 triplet loss를 이용한 것이다. metric learning의 일종 기준이 되는 image data에 대응하는 audio data를 positive data라고 하고 (fv,fs+)라고 표시하자. 반대로 image data에 대응하지 않는 데이터는 negative data라고 하고 (fv,fs-)라고 표시한다. 위에서 fv는 지금 동일한 기준 데이터임 직관적으로 fv와 fs+ 는 서로 대응하는 관계니까 거리가 가까워야하고 fv와 fs-는 서로 대응하지 않으니까 거리가 멀어야한다. 공간상에 positive data는 가깝게 negative data는 멀게 분리하여 배치하는 것이 tr..
1. sound source localization 소리가 이미지의 어디 부분에서 나는 소리인지 detection하여 heatmap으로 출력시키는 문제 image modal과 sound modal이 서로 reference하여 결론을 내리는 referencing model 소리의 context를 파악하여 image 내 object와 match하는 문제 여러 마이크에서 나오는 소리라면 위치를 찾는건 사실 큰 의미 없는데 하나의 마이크에서 여러 소리가 나오면 소리의 근원을 detection하는 것은 의미 있을 수 있다. 2. 구조 audio network에서는 sound embedding vector를 사용했지만 image network에서는 채널 공간정보가 남은 feature map을 사용 ima..
1. character embedding character level의 경우 아스키코드로 0~255사이 값으로 mapping하여 코딩하는 경우 있지만 machine learning 관점에서는 오히려 사용하기 까다로울수 있다?? 몰랐는데 CNN을 이용하여 character embedding을 하는 경우도 많은 것 같음 underestimate가 과소평가하다라는 뜻인데 misunderestimate는 실제 없는 단어지만 mis와 underestimate의 합성어로 잘못 과소평가하다라는 뜻으로 추측할 수 있음 이런 인간의 언어 능력을 흉내내기 위해 character embedding을 연구하고 있다고는 함 2. word embedding 근데 보통은 word level에서 embedding하는 경우가 많다 오..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.