Loading...
2024. 5. 8. 22:57

3D 이해하기2 - 3D를 표현하는 방법

1. 2d image 2d image는 image의 각 pixel value가 2d array에 저장됨 RGB 이미지인 경우는 3 channel의 array가 존재하여 각 채널에 R,G,B의 pixel value가 저장   이미지의 부분에 대응하는 pixel값이 저장 컬러 이미지면 3 channel로 구성  2. 3d representation 3d 표현은 2d image와는 다르게 유일하지 않다  1) multi-view image 3d 물체를 여러 각도에서 사진 찍어서 각각을 전부 보관함    2) volumetric(voxel) 2d 이미지 표현법과 가장 비슷한 방법? 3d space의 물체를 적절하게 grid로 나눠서 해당 grid에 3d 물체가 차지하면 1 아니면 0의 binary로 표현?   ..

2024. 5. 8. 01:26

3D 이해하기 - 우리는 세상을 어떻게 관찰하는가?

1. importance 우리는 3D 세상에서 살고 있다 앞으로 만들 AI agent나 AI robot은 사람들에게 도움을 주기 위해서 3D 세계를 활보해야한다. AI가 3D 세상을 이해하게 만들기 위해서, 실제 세계와 interaction할 수 있는 AI를 만들기 위해서, 3D를 잘 이해하는 것은 중요하다.  2. AR/VR application 게임부터 광고, 군사훈련까지 현실에서 경험하기 어려운 것을 3D 가상세계에서 경험하게 만들어줌   3. 3D printing 3D 공간을 잘 이해하면 3D printing으로 효율적으로 3D 제품을 만들어내고 심지어 건물도 지을 수 있다고?    4. medical application 우리 몸의 구성 성분은 전부 3D로 구성되어 있다 뇌의 뉴런활동을 시각화 ..

2024. 5. 2. 00:19

visual and audio matching modality - SoundNet

1. sound tagging sound를 통해 해당 장면들이 beach인지 classroom인지 어떤 장면인지 알아내는 문제  비디오 프레임과 소리를 받아 무슨 장면인지 tag를 구하는 문제    2. SoundNet 1) 구조 unlabeled video에는 RGB frame과 sound가 혼합되어있음   RGB frame을 object detection과 scene detection을 하는 pretrain된 두 visual recognition network(ImageNet CNN 계열)에 넣는다.  visual network는 fix되어 학습되지 않는다.  waveform을 CNN계열에 집어 넣어 feature를 뽑는다.  마지막 단에서 2개의 head로 분리되는데 하나는 scene recogni..

2024. 4. 11. 03:17

pretrained된 computer vision 모델에서 마지막 linear layer는 제거하고 feature만 뽑는법

예를 들어 resnet model에 대해 pretrained된 모델을 불러오고 import torchvision.models as models resnet = models.resnet152(pretrained=True) resnet.children()하면 resnet의 모듈을 불러올수 있다 마지막에 Linear() classifier layer가 있는데 얘를 제거하면 된다 modules = list(resnet.children())[:-1] # fully connected layer의 가장 마지막 layer 제거 이렇게 제거된 모듈을 nn.Sequential()로 sequential한 모델을 만들면 된다 import torch import torch.nn as nn import torchvision.mo..

2024. 4. 6. 03:40

image data 특징 간단하게

1. image 시각적인 인식을 표현한, 혹은 묘사한 인공물(artifact) 시각적인 인식이라는 것은 컴퓨터는 어떻게 표현하는가? 컴퓨터가 이미지를 이해하는 방식을 알고 있어야 이미지를 넣어 모델링하고 분류하는 class를 만들 수 있을 것 2. pixel 이미지를 표현하는 최소단위 Red, Green, Blue의 값이 어느정도 있느냐에 따라 pixel이 가지는 정보, 색깔이 표현 pixel이 많이 모여 하나의 이미지를 이룬다 3. image 저장 방식 width, height, channel 차원의 각 pixel의 R,G,B 값의 array 형태로 저장 channel은 R,G,B 3개 뿐만 아니라 그 이상 4개인 경우도 있다 R,G,B는 0~255까지 dtype = uint8은 unsigned int..

2024. 4. 2. 00:09

test time augmentation

test time에서 augmentation을 하는 방법 test set도 사실은 서로 다른 여러가지 환경에서 관찰 될 수 있다는 사실에 기반 하나의 똑같은 test set에 여러 다른 augmentation을 적용한 상태에서 동일한 답을 낼 수 있다면 확실하게 예측을 자신할 수 있을 것 test set에서 나타날 수 있는 여러 variance를 고려하겠다는 것 test image에 augmentation을 적용한 여러 이미지 aug1, aug2, aug3,....을 만들고 이 이미지들 test image, aug1, aug2, aug3, ....에 prediction을 하면 pred1, pred2, pred3, pred4,...가 나오고 이들을 ensemble하여 얻은 값을 test image에 대한 ..