Loading...
2024. 5. 8. 22:57

3D 이해하기2 - 3D를 표현하는 방법

1. 2d image 2d image는 image의 각 pixel value가 2d array에 저장됨 RGB 이미지인 경우는 3 channel의 array가 존재하여 각 채널에 R,G,B의 pixel value가 저장   이미지의 부분에 대응하는 pixel값이 저장 컬러 이미지면 3 channel로 구성  2. 3d representation 3d 표현은 2d image와는 다르게 유일하지 않다  1) multi-view image 3d 물체를 여러 각도에서 사진 찍어서 각각을 전부 보관함    2) volumetric(voxel) 2d 이미지 표현법과 가장 비슷한 방법? 3d space의 물체를 적절하게 grid로 나눠서 해당 grid에 3d 물체가 차지하면 1 아니면 0의 binary로 표현?   ..

2024. 5. 8. 01:26

3D 이해하기 - 우리는 세상을 어떻게 관찰하는가?

1. importance 우리는 3D 세상에서 살고 있다 앞으로 만들 AI agent나 AI robot은 사람들에게 도움을 주기 위해서 3D 세계를 활보해야한다. AI가 3D 세상을 이해하게 만들기 위해서, 실제 세계와 interaction할 수 있는 AI를 만들기 위해서, 3D를 잘 이해하는 것은 중요하다.  2. AR/VR application 게임부터 광고, 군사훈련까지 현실에서 경험하기 어려운 것을 3D 가상세계에서 경험하게 만들어줌   3. 3D printing 3D 공간을 잘 이해하면 3D printing으로 효율적으로 3D 제품을 만들어내고 심지어 건물도 지을 수 있다고?    4. medical application 우리 몸의 구성 성분은 전부 3D로 구성되어 있다 뇌의 뉴런활동을 시각화 ..

2024. 5. 2. 00:19

visual and audio matching modality - SoundNet

1. sound tagging sound를 통해 해당 장면들이 beach인지 classroom인지 어떤 장면인지 알아내는 문제  비디오 프레임과 소리를 받아 무슨 장면인지 tag를 구하는 문제    2. SoundNet 1) 구조 unlabeled video에는 RGB frame과 sound가 혼합되어있음   RGB frame을 object detection과 scene detection을 하는 pretrain된 두 visual recognition network(ImageNet CNN 계열)에 넣는다.  visual network는 fix되어 학습되지 않는다.  waveform을 CNN계열에 집어 넣어 feature를 뽑는다.  마지막 단에서 2개의 head로 분리되는데 하나는 scene recogni..

2024. 4. 23. 23:15

pooling은 왜 사용하는가?

이미지 사이즈를 줄이거나 fully connected 연산을 대체하기 위해 사용함 (average pooling) input을 filter에 의해 convolution 연산을 하고 pooling을 통해 이미지 사이즈를 줄인 output을 얻는 것이 기본적인 CNN 이미지에 있는 pixel 정보를 압축하면서 이미지 사이즈를 줄인다. max pooling, average pooling 등 여러가지가 있다. 다음은 4*4이미지에서 2*2 max pooling을 적용한 모습 다음은 4*4이미지에서 2*2 average pooling을 적용한 모습 pooling을 사용한 기본적인 CNN 구조

2024. 4. 22. 23:24

gray image의 channel은 1이 아니다

그냥 channel이 1이면 gray image이고 channel이 3이면 color image다 라고 생각해왔는데... 파이썬으로 gray image를 불렀을때 channel이 3인데 gray로 나오는 것 보고 갑자기 궁금증이 생겼다 핵심은 image의 channel이 3이면 각각 R,G,B pixel의 value값을 나타내는데, 이들이 합쳐져서 color image가 나온다. 그런데 R,G,B pixel의 value가 모두 동일하면 gray image가 나온다 먼저 color image를 보면 Image.open으로 열어서 torchvision.transforms.ToTensor()로 tensor로 바꾸면 from PIL import Image from torchvision import dataset..

2024. 4. 17. 23:13

object detection task, SPP Net, R-CNN, YOLO 간단하게 알아보기

1. Detection 이미지 안에서 원하는 물체에 대한 bounding box를 찾는 문제 가장 먼저 나온 해법으로 R-CNN이 있다 이미지 안에서 Selective search? 등으로 2000개 정도 region을 추출함. 적절하게 동일한 크기로 바꾸고 deeplearning(AlexNet)을 이용하여 feature map을 각각 추출함 그러면 각각에 대하여 svm등으로 무엇인지 분류하면 되겠지 2. SPP Net 처음 나온 R-CNN은 딱 보면 문제가 많았다. 예를 들면 2000개 Bounding box 찾는것도 일이고 , 1개의 input 이미지에 대해 2000개 각각을 deep learning하니까 2000번 돌려야 1개의 input 이미지에 대해 결과를 얻는다는 사실에 2000번 돌리는 것도..