'컴퓨터비전' 태그의 글 목록

컴퓨터 비전에서 사용하는 기본적인 data augmentation 2

1. overview 기존 데이터에 변화를 가해 추가로 데이터를 확보하는 방법 데이터가 적거나 imbalance된 상황에서 효과적으로 활용가능 적절한 변환을 하더라도 이미지 데이터의 불변하는 성질을 모델에 전달하여 robust하게 만든다 예를 들어 강아지 이미지는 회전을 하더라도 늘리더라도 일부분만 보이더라도 여전히 강아지 이미지임 어떻게 변환을 하더라도 이미지가 나타내는것은 사자임에는 변함없다 그러나 데이터 종류마다 augmentation의 종류나 특성이 달라질 것이다. 정형데이터는 정형데이터만의 augmentation이 있고 음성데이터는 음성데이터만의 augmentation이 있고 이미지 데이터는 이미지 데이터만의 augmenation이 있어 2. 경량화 관점에서 augmentatio..

format_list_bulleted Computer Vision
· 2024. 9. 23.
textsms

triplet loss 개념 알아보기

sound source localization의 unsupervised learning에서 설명한 방식이 사실 triplet loss를 이용한 것이다. metric learning의 일종 기준이 되는 image data에 대응하는 audio data를 positive data라고 하고 (fv,fs+)라고 표시하자. 반대로 image data에 대응하지 않는 데이터는 negative data라고 하고 (fv,fs-)라고 표시한다. 위에서 fv는 지금 동일한 기준 데이터임 직관적으로 fv와 fs+ 는 서로 대응하는 관계니까 거리가 가까워야하고 fv와 fs-는 서로 대응하지 않으니까 거리가 멀어야한다. 공간상에 positive data는 가깝게 negative data는 멀게 분리하여 배치하는 것이 tr..

format_list_bulleted Computer Vision
· 2024. 9. 14.
textsms

visual and audio cross modal reasoning2 - speech separation, lip move generation

1. speech separation 구조 영상에서 어떤 인물이 말한건지 분리해내는 task N명의 얼굴이 영상에 등장한다고 하면 일정한 frame(여기서는 75 frame?)의 이미지를 network에 넣어 face embedding vector를 각각 뽑아낸다 dilated convolution를 사용한거랑 shared weight 특징이 보인다 영상의 audio waveform을 (noisy input) spectrogram으로 바꾸고 network에 넣어 speech feature를 뽑는다 STFT는 아마 short time fourier transform이고 dilated convolution을 사용했다고 한다 두 stream에서 뽑은 face feature와 speech featu..

format_list_bulleted Computer Vision
· 2024. 9. 10.
textsms

visual and audio cross modal reasoning1 - sound source localization

1. sound source localization 소리가 이미지의 어디 부분에서 나는 소리인지 detection하여 heatmap으로 출력시키는 문제 image modal과 sound modal이 서로 reference하여 결론을 내리는 referencing model 소리의 context를 파악하여 image 내 object와 match하는 문제 여러 마이크에서 나오는 소리라면 위치를 찾는건 사실 큰 의미 없는데 하나의 마이크에서 여러 소리가 나오면 소리의 근원을 detection하는 것은 의미 있을 수 있다. 2. 구조 audio network에서는 sound embedding vector를 사용했지만 image network에서는 채널 공간정보가 남은 feature map을 사용 ima..

format_list_bulleted Computer Vision
· 2024. 9. 9.
textsms

3D task를 위한 dataset과 3d task

1. 3d dataset 3d를 표현하는 방법을 알았으니 데이터로 만들 수 있다면 3d를 이해하는 모형을 만들 수 있을 것 1) ShapeNet 51300개의 3d 모델이 55 category로 구성된 엄청난 large scale의 데이터 가상으로 사람들이 디자인한 high quality synthetic object 2) PartNet ShapeNet의 개선 버전?으로 fine-grained dataset 하나의 3d object의 구성부분인 detail들이 annotation된 dataset 26671개의 3d model의 573585개의 part instance로 구성 part 뿐만 아니라 part의 구성요소도 색깔이 달라서 segmentation으로 굉장히 유용할 것 3) SceneNe..

format_list_bulleted Computer Vision
· 2024. 7. 8.
textsms

pooling은 왜 사용하는가?

이미지 사이즈를 줄이거나 fully connected 연산을 대체하기 위해 사용함 (average pooling) input을 filter에 의해 convolution 연산을 하고 pooling을 통해 이미지 사이즈를 줄인 output을 얻는 것이 기본적인 CNN 이미지에 있는 pixel 정보를 압축하면서 이미지 사이즈를 줄인다. max pooling, average pooling 등 여러가지가 있다. 다음은 4*4이미지에서 2*2 max pooling을 적용한 모습 다음은 4*4이미지에서 2*2 average pooling을 적용한 모습 pooling을 사용한 기본적인 CNN 구조

format_list_bulleted Computer Vision
· 2024. 4. 23.
textsms

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

컴퓨터 비전에서 사용하는 기본적인 data augmentation 2

triplet loss 개념 알아보기

visual and audio cross modal reasoning2 - speech separation, lip move generation

visual and audio cross modal reasoning1 - sound source localization

3D task를 위한 dataset과 3d task

pooling은 왜 사용하는가?

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역