1. speech separation 구조 영상에서 어떤 인물이 말한건지 분리해내는 task N명의 얼굴이 영상에 등장한다고 하면 일정한 frame(여기서는 75 frame?)의 이미지를 network에 넣어 face embedding vector를 각각 뽑아낸다 dilated convolution를 사용한거랑 shared weight 특징이 보인다 영상의 audio waveform을 (noisy input) spectrogram으로 바꾸고 network에 넣어 speech feature를 뽑는다 STFT는 아마 short time fourier transform이고 dilated convolution을 사용했다고 한다 두 stream에서 뽑은 face feature와 speech featu..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.