Loading...
2023. 7. 3. 02:14

multimodal learning1 - image and text joint embedding

1. character embedding character level의 경우 아스키코드로 0~255사이 값으로 mapping하여 코딩하는 경우 있지만 machine learning 관점에서는 오히려 사용하기 까다로울수 있다?? 몰랐는데 CNN을 이용하여 character embedding을 하는 경우도 많은 것 같음 underestimate가 과소평가하다라는 뜻인데 misunderestimate는 실제 없는 단어지만 mis와 underestimate의 합성어로 잘못 과소평가하다라는 뜻으로 추측할 수 있음 이런 인간의 언어 능력을 흉내내기 위해 character embedding을 연구하고 있다고는 함 2. word embedding 근데 보통은 word level에서 embedding하는 경우가 많다 오..

2023. 7. 3. 01:50

multimodal learning의 기본 개념, 왜 어려운 문제인가?

1. motivation 다양한 타입, 형태, 특성을 가지는 데이터를 특별한 제한없이 모두 사용하여 모델을 학습시키는 방법 지금까지는 이미지 하나만을 사용해서 모델을 학습시켜왔지만 사실 사람들은 눈으로 보면서(이미지) 귀로 동시에 듣기(소리)도 하며  맛을 보기 전에도 코로 냄새를 맡는 등 자연스럽게 multimodal을 사용하는 것이 기본이다.  그 외에도 사람들은 social perception, 3D world의 depth perception등 느끼지는 못하지만  실제로는 사용하고 있는 다양한 감각들을 모두 사용하여 학습을 한다.  2. 어려운 점 다양한 형태의 데이터를 사용하여 학습을 하고자하는데 여러 타입의 데이터를 표현하는 방법이 모두 다르다는 것이 문제다.   오디오는 1d signal wa..

2023. 7. 1. 03:26

GAN loss의 단점을 극복하기 위한 Perceptual loss

1. motivation CycleGAN이 unsupervised data set으로 학습할 수 있다는 가능성을 보여주었고 심지어 더 쉬운 MAE loss나 MSE loss를 사용한 학습 방법이 있는데 supervised data set을 이용한 conditional GAN(Pix2Pix)을 주로 사용하는 이유는.... 선명한 이미지를 얻을 수 있다는 장점이 있기 때문임 그러나 conditional GAN은 학습이 대단히 어렵다. discriminator와 generator의 alternating training이라는 구현이 어려우면서 실제로 원하는대로 잘 안되는 단점이 크다. GAN을 안쓰고는 선명한 이미지를 얻을 수 있는 방법은 없을까? 2. perceptual loss vs. GAN loss GAN..

2023. 6. 30. 02:31

서로 관련없는 이미지로 바꿔버리는 CycleGAN의 핵심 아이디어

1. motivation Pix2Pix에서는 pairwise data로 x에 대한 ground truth인 y가 필요한 supervised learning 문제는 항상 이런 pairwise data를 얻는 것이 쉽지가 않다. 사실상 불가능한 경우도 많다 그래서 서로 무관한 X라는 style의 image dataset과 Y라는 style의 image dataset을 활용하는 방법은 없을까? 직접적인 대응관계가 없는 X,Y 사이에서 image translation이 가능하도록 만든 것이 CycleGAN이다. pairwise data가 필요하다는 제약사항을 뛰어넘으면서 응용범위가 늘어났다 2. CycleGAN loss X에서 Y를 생성하는 GAN loss와 Y에서 X를 생성하는 GAN loss와 Cycle c..

2023. 6. 29. 02:46

image to image translation의 기본 모델인 Pix2Pix이 GAN의 약점 mode collapse를 어떻게 해결했는가

1. image translation 하나의 이미지 스타일을 다른 이미지 스타일로 변화시키는 문제 흑백사진을 컬러사진으로 바꾸고 낮 사진을 밤사진으로 바꾸거나 스케치 사진을 실제 이미지 사진으로 바꾸는 단순한 문제부터 semantic segmentation 이미지를 일반 이미지로 바꾸거나 일반 인공위성 사진으로부터 지도를 출력하는 문제 등 다양하다 앞에서 다룬 super resolution도 하나의 예시 2. GAN loss의 치명적인 문제점 - mode collapse 앞에서 MAE loss는 평균적인 blurry한 이미지를 출력해준다며 안좋다고 했고 GAN loss가 실제 이미지에 가까운 사진을 출력해준다며 극찬을 했는데 실제로 GAN이 대단하다는 이미지 때문에 생각하기 어려운데 GAN은 사실 치명적..

2023. 6. 29. 02:10

image to image translation - super resolution, colorization, style transfer - 의 개념 이해하기

1. motivation 한 image를 다른 image로 바꾸는 것이라고 생각하면 된다 저해상도 image를 고해상도 image로 바꾸는 super resolution 흑백사진을 컬러사진으로 바꾸는 colorization image의 style을 바꾸는 style transfer 다음은 input image를 Van Gogh, Monet 스타일 등으로 바꾼 예시 다음은 전혀 다른 느낌의 게임 테마를 만드는 예시 디자이너, 게임감독 비용을 감소시키며 디자이너들에게 영감을 주는 용도로도 활용될 수 있다 2. super resolution 저해상도 이미지를 고해상도 이미지로 출력하는 문제 conditional GAN의 대표적인 예시 GAN을 이야기해서 GAN으로만 풀 수 있는 거 아니냐고 물을 수 있겠지만 ..