1. sound tagging sound를 통해 해당 장면들이 beach인지 classroom인지 어떤 장면인지 알아내는 문제 비디오 프레임과 소리를 받아 무슨 장면인지 tag를 구하는 문제 2. SoundNet 1) 구조 unlabeled video에는 RGB frame과 sound가 혼합되어있음 RGB frame을 object detection과 scene detection을 하는 pretrain된 두 visual recognition network(ImageNet CNN 계열)에 넣는다. visual network는 fix되어 학습되지 않는다. waveform을 CNN계열에 집어 넣어 feature를 뽑는다. 마지막 단에서 2개의 head로 분리되는데 하나는 scene recogni..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.