'딥러닝' 태그의 글 목록 (3 Page)

triplet loss 개념 알아보기

sound source localization의 unsupervised learning에서 설명한 방식이 사실 triplet loss를 이용한 것이다. metric learning의 일종 기준이 되는 image data에 대응하는 audio data를 positive data라고 하고 (fv,fs+)라고 표시하자. 반대로 image data에 대응하지 않는 데이터는 negative data라고 하고 (fv,fs-)라고 표시한다. 위에서 fv는 지금 동일한 기준 데이터임 직관적으로 fv와 fs+ 는 서로 대응하는 관계니까 거리가 가까워야하고 fv와 fs-는 서로 대응하지 않으니까 거리가 멀어야한다. 공간상에 positive data는 가깝게 negative data는 멀게 분리하여 배치하는 것이 tr..

format_list_bulleted Computer Vision
· 2024. 9. 14.
textsms

visual and audio cross modal reasoning2 - speech separation, lip move generation

1. speech separation 구조 영상에서 어떤 인물이 말한건지 분리해내는 task N명의 얼굴이 영상에 등장한다고 하면 일정한 frame(여기서는 75 frame?)의 이미지를 network에 넣어 face embedding vector를 각각 뽑아낸다 dilated convolution를 사용한거랑 shared weight 특징이 보인다 영상의 audio waveform을 (noisy input) spectrogram으로 바꾸고 network에 넣어 speech feature를 뽑는다 STFT는 아마 short time fourier transform이고 dilated convolution을 사용했다고 한다 두 stream에서 뽑은 face feature와 speech featu..

format_list_bulleted Computer Vision
· 2024. 9. 10.
textsms

visual and audio cross modal reasoning1 - sound source localization

1. sound source localization 소리가 이미지의 어디 부분에서 나는 소리인지 detection하여 heatmap으로 출력시키는 문제 image modal과 sound modal이 서로 reference하여 결론을 내리는 referencing model 소리의 context를 파악하여 image 내 object와 match하는 문제 여러 마이크에서 나오는 소리라면 위치를 찾는건 사실 큰 의미 없는데 하나의 마이크에서 여러 소리가 나오면 소리의 근원을 detection하는 것은 의미 있을 수 있다. 2. 구조 audio network에서는 sound embedding vector를 사용했지만 image network에서는 채널 공간정보가 남은 feature map을 사용 ima..

format_list_bulleted Computer Vision
· 2024. 9. 9.
textsms

activation function quantization에 대하여

1. introduction weight뿐만 아니라 activation에도 quantization을 적용할 수 있다 심지어 activation과 weight에 서로 다른 quantization을 적용할 수 있다 activation끼리도 서로 다른 quantization 적용이 가능하고 weight끼리도 서로 다른 quantization 적용이 가능하다 위 그림을 보면 weight에 모두 8bit로 quantization을 하고 activation 3개에는 모두 다른 16bit, 8bit, 3bit quantization을 하고 있다 2. problem activation function을 quantization하면 문제점은 계단함수가 되어 모든 구간에서 미분이 안된다는 문제점이 있다 forward ..

format_list_bulleted light weight modeling
· 2024. 9. 5.
textsms

군집을 찾는 알고리즘2 - Louvain algorithm

주어진 그래프의 개별 정점에서부터 점점 군집을 병합해가는 상향식 알고리즘 1. first phase - modularity optimization 처음 주어진 상태에서는 개별 node 1개씩이 하나의 군집이라고 생각 특정 node i를 그것의 이웃(neighbor)인 j에 병합시키면서 modularity의 변화량을 계산함 원래 상태의 modularity와 이웃인 j에 병합시킨 뒤 modularity의 차이를 계산한다. 병합시키면 군집이 생기니까 modularity는 최소한 감소하지는 않음 이 때 최대로 modularity가 증가하는 이웃 j가 있을 것인데 그곳에 i를 포함시킨다. 증가하는 경우가 없다면 어떠한 곳에도 포함시키지 않는다. 다시 다른 node v를 선택하여 위 과정을 반복, 모든 node에..

format_list_bulleted Graph
· 2024. 9. 4.
textsms

mixed precision training 자세히 공부하기

1. bit와 byte 1bit는 2가지 경우를 표현하는 정보의 단위로 0 아니면 1을 표현한다 1byte는 8bit와 같으며 몇가지를 표현할 수 있을까? 1bit가 2가지를 표현하므로 $2^{8}$ 가지를 표현할 수 있다 보통 자주 언급되는 bit가 정수를 어디까지 표현할 수 있을까?? 1bit가 0 아니면 1을 표현하므로 0부터 $2^{1} - 1$ 까지 표현한다고 말한다 2bit는 $2^{2}$ 가지를 표현하므로 0,1,2,3의 4가지를 생각하여 0부터 $2^{2} - 1$ 까지 표현한다고 말한다 비슷하게 1byte=8bit는 0부터 $2^{8} - 1$ 까지 음이 아닌 정수를 표현할 수 있다 음수를 포함하겠다면? 0부터 255까지 256가지를 절반으로 나눠서 128가지씩 나눠가져서 –128부터 127까..

format_list_bulleted light weight modeling
· 2024. 9. 4.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

triplet loss 개념 알아보기

visual and audio cross modal reasoning2 - speech separation, lip move generation

visual and audio cross modal reasoning1 - sound source localization

activation function quantization에 대하여

군집을 찾는 알고리즘2 - Louvain algorithm

mixed precision training 자세히 공부하기

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역