Loading...
2024. 4. 15. 22:43

간단하게 살펴보는 여러가지 GAN

GAN은 그 아이디어가 나온 뒤로 1~2년만에 급격하게 후속논문이 등장했다 그런데 DALL-E가 transformer로 엄청난 generation을 했는데 generation 문제에서 GAN이 정답이 아닐 수 있다는 것이다 1. DCGAN 이미지를 discriminator할 때는 Convolution해가면서 마지막에 generating할 때는 deconvolution으로 생성했다는 것 같다 2. Info-GAN Generation에 class 정보도 집어넣으면서 특정 class에 집중할 수 있게 해준다는거?? 3. Text2Image 문장이 주어지면 그것에 맞는 이미지를 생성한다 4. Puzzle-GAN 이미지의 subpatch를 넣으면 원래 이미지를 복원한다 5. CycleGAN 두 이미지간 domai..

2024. 4. 6. 03:40

image data 특징 간단하게

1. image 시각적인 인식을 표현한, 혹은 묘사한 인공물(artifact) 시각적인 인식이라는 것은 컴퓨터는 어떻게 표현하는가? 컴퓨터가 이미지를 이해하는 방식을 알고 있어야 이미지를 넣어 모델링하고 분류하는 class를 만들 수 있을 것 2. pixel 이미지를 표현하는 최소단위 Red, Green, Blue의 값이 어느정도 있느냐에 따라 pixel이 가지는 정보, 색깔이 표현 pixel이 많이 모여 하나의 이미지를 이룬다 3. image 저장 방식 width, height, channel 차원의 각 pixel의 R,G,B 값의 array 형태로 저장 channel은 R,G,B 3개 뿐만 아니라 그 이상 4개인 경우도 있다 R,G,B는 0~255까지 dtype = uint8은 unsigned int..

2024. 4. 2. 00:09

test time augmentation

test time에서 augmentation을 하는 방법 test set도 사실은 서로 다른 여러가지 환경에서 관찰 될 수 있다는 사실에 기반 하나의 똑같은 test set에 여러 다른 augmentation을 적용한 상태에서 동일한 답을 낼 수 있다면 확실하게 예측을 자신할 수 있을 것 test set에서 나타날 수 있는 여러 variance를 고려하겠다는 것 test image에 augmentation을 적용한 여러 이미지 aug1, aug2, aug3,....을 만들고 이 이미지들 test image, aug1, aug2, aug3, ....에 prediction을 하면 pred1, pred2, pred3, pred4,...가 나오고 이들을 ensemble하여 얻은 값을 test image에 대한 ..

2023. 7. 5. 03:00

multimodal learning2 - show, attend and tell, visual question answering -

1. visual and text cross modal translation 1-1) motivation 대표적으로 image captioning image(CNN)에서 text sequence(RNN)로 변환하는 문제 이미지가 주어지면 이미지를 가장 잘 설명하는 text description을 생성하는 문제 1-2) show and tell image captioning의 시초격인 모델 ImageNet에서 pre-train한 CNN을 이용하여 image를 encoding함 image encoding vector를 LSTM의 초기 vector로 사용 start token을 넣어 word를 생성 token을 넣기 전에 fully connected layer에 넣은 다음에 LSTM module에 넣는다 예측..

2023. 7. 3. 02:14

multimodal learning1 - image and text joint embedding

1. character embedding character level의 경우 아스키코드로 0~255사이 값으로 mapping하여 코딩하는 경우 있지만 machine learning 관점에서는 오히려 사용하기 까다로울수 있다?? 몰랐는데 CNN을 이용하여 character embedding을 하는 경우도 많은 것 같음 underestimate가 과소평가하다라는 뜻인데 misunderestimate는 실제 없는 단어지만 mis와 underestimate의 합성어로 잘못 과소평가하다라는 뜻으로 추측할 수 있음 이런 인간의 언어 능력을 흉내내기 위해 character embedding을 연구하고 있다고는 함 2. word embedding 근데 보통은 word level에서 embedding하는 경우가 많다 오..

2023. 7. 3. 01:50

multimodal learning의 기본 개념, 왜 어려운 문제인가?

1. motivation 다양한 타입, 형태, 특성을 가지는 데이터를 특별한 제한없이 모두 사용하여 모델을 학습시키는 방법 지금까지는 이미지 하나만을 사용해서 모델을 학습시켜왔지만 사실 사람들은 눈으로 보면서(이미지) 귀로 동시에 듣기(소리)도 하며  맛을 보기 전에도 코로 냄새를 맡는 등 자연스럽게 multimodal을 사용하는 것이 기본이다.  그 외에도 사람들은 social perception, 3D world의 depth perception등 느끼지는 못하지만  실제로는 사용하고 있는 다양한 감각들을 모두 사용하여 학습을 한다.  2. 어려운 점 다양한 형태의 데이터를 사용하여 학습을 하고자하는데 여러 타입의 데이터를 표현하는 방법이 모두 다르다는 것이 문제다.   오디오는 1d signal wa..