Loading...
2024. 1. 26. 03:25

Diffusion 모델의 기본 개념 아주 간단하게 알아보기

1. 목적 다음과 같은 이미지 데이터들로부터, 더욱 많은 캐릭터 이미지를 획득 이들을 훈련 데이터로 사용하여, 훈련 데이터에 포함되어 있지 않은 다른 캐릭터를 얻고자함 이를 diffusion model을 학습시켜 생성할 수 있다. 2. 과정 이런 데이터들을 신경망에 어떻게 학습시켜야할까? 생성하고자하는 '캐릭터'가 무엇인지 전반적인 개념에 대해 학습시킨다. 이러한 '개념'은 머리 색상, 벨트 여부, 몸 윤곽선 등등이 될 수 있다. 이러한 개념을 강조하기 위해 데이터에 noise를 추가할 수 있다. 이를 noising process라고 부른다. 마치 물에 잉크를 떨어뜨리면, 처음에는 잉크가 어디 떨어졌는지 알 수 있는데 시간이 지나면서 잉크가 확산(diffusion)하여 잉크가 어디에 떨어졌는지 알 수 없..

2024. 1. 13. 02:35

Regularization에 대해 꼭 생각해봐야하는 점(L2 regularization, dropout의 단점, early stopping의 단점, data augmentation의 단점)

모델이 validation set에 성능을 내지 못할때, training data에 overfitting이 되었을때 데이터를 더 많이 얻는 것은 좋은 방법이지만 항상 그럴 수는 없다. 그럴때 시도하면 좋은 것이 regularization L2 regularization은 가중치 W의 L2 norm, L1 regularization은 가중치 W의 L1 norm을 더해주는데... 1. 여기서 하나 bias도 parameter인데 왜 가중치 W 항만 더해주는것인가? 모델의 거의 모든 parameter가 W에 집중되어 있기 때문에 bias를 더할수도 있지만 계산비용 대비 거의 차이가 없다고 한다 2. L2 regularization을 일반적으로 많이 사용한다. L1 regularization을 사용하면 가중치 ..

2023. 7. 5. 03:00

multimodal learning2 - show, attend and tell, visual question answering -

1. visual and text cross modal translation 1-1) motivation 대표적으로 image captioning image(CNN)에서 text sequence(RNN)로 변환하는 문제 이미지가 주어지면 이미지를 가장 잘 설명하는 text description을 생성하는 문제 1-2) show and tell image captioning의 시초격인 모델 ImageNet에서 pre-train한 CNN을 이용하여 image를 encoding함 image encoding vector를 LSTM의 초기 vector로 사용 start token을 넣어 word를 생성 token을 넣기 전에 fully connected layer에 넣은 다음에 LSTM module에 넣는다 예측..

2023. 7. 3. 02:14

multimodal learning1 - image and text joint embedding

1. character embedding character level의 경우 아스키코드로 0~255사이 값으로 mapping하여 코딩하는 경우 있지만 machine learning 관점에서는 오히려 사용하기 까다로울수 있다?? 몰랐는데 CNN을 이용하여 character embedding을 하는 경우도 많은 것 같음 underestimate가 과소평가하다라는 뜻인데 misunderestimate는 실제 없는 단어지만 mis와 underestimate의 합성어로 잘못 과소평가하다라는 뜻으로 추측할 수 있음 이런 인간의 언어 능력을 흉내내기 위해 character embedding을 연구하고 있다고는 함 2. word embedding 근데 보통은 word level에서 embedding하는 경우가 많다 오..

2023. 7. 3. 01:50

multimodal learning의 기본 개념, 왜 어려운 문제인가?

1. motivation 다양한 타입, 형태, 특성을 가지는 데이터를 특별한 제한없이 모두 사용하여 모델을 학습시키는 방법 지금까지는 이미지 하나만을 사용해서 모델을 학습시켜왔지만 사실 사람들은 눈으로 보면서(이미지) 귀로 동시에 듣기(소리)도 하며  맛을 보기 전에도 코로 냄새를 맡는 등 자연스럽게 multimodal을 사용하는 것이 기본이다.  그 외에도 사람들은 social perception, 3D world의 depth perception등 느끼지는 못하지만  실제로는 사용하고 있는 다양한 감각들을 모두 사용하여 학습을 한다.  2. 어려운 점 다양한 형태의 데이터를 사용하여 학습을 하고자하는데 여러 타입의 데이터를 표현하는 방법이 모두 다르다는 것이 문제다.   오디오는 1d signal wa..

2023. 7. 1. 03:26

GAN loss의 단점을 극복하기 위한 Perceptual loss

1. motivation CycleGAN이 unsupervised data set으로 학습할 수 있다는 가능성을 보여주었고 심지어 더 쉬운 MAE loss나 MSE loss를 사용한 학습 방법이 있는데 supervised data set을 이용한 conditional GAN(Pix2Pix)을 주로 사용하는 이유는.... 선명한 이미지를 얻을 수 있다는 장점이 있기 때문임 그러나 conditional GAN은 학습이 대단히 어렵다. discriminator와 generator의 alternating training이라는 구현이 어려우면서 실제로 원하는대로 잘 안되는 단점이 크다. GAN을 안쓰고는 선명한 이미지를 얻을 수 있는 방법은 없을까? 2. perceptual loss vs. GAN loss GAN..