Loading...
2023. 7. 3. 02:14

multimodal learning1 - image and text joint embedding

1. character embedding character level의 경우 아스키코드로 0~255사이 값으로 mapping하여 코딩하는 경우 있지만 machine learning 관점에서는 오히려 사용하기 까다로울수 있다?? 몰랐는데 CNN을 이용하여 character embedding을 하는 경우도 많은 것 같음 underestimate가 과소평가하다라는 뜻인데 misunderestimate는 실제 없는 단어지만 mis와 underestimate의 합성어로 잘못 과소평가하다라는 뜻으로 추측할 수 있음 이런 인간의 언어 능력을 흉내내기 위해 character embedding을 연구하고 있다고는 함 2. word embedding 근데 보통은 word level에서 embedding하는 경우가 많다 오..

2023. 2. 27. 03:48

text data를 다루는 NLP + computer vision과의 활용 - image captioning 기본 배우기1

1. multi-modal learning 서로 다른 타입의 데이터를 같이 활용하는 학습 방법 이미지와 텍스트나 사운드를 같이 활용해서 학습할 수 있을까? 데이터라 하면 사람의 오감에서 얻는 정보나 social perception으로 불리는 사회적 감각에 의한 정보..(눈치) 3d sensor에서 얻은 정보나.. 예를 들어 text 하나의 데이터만 다루는 형태는 unimodal 이미지와 audio를 같이 활용한 학습이라면 multimodal 형태 2. multi-modal learning은 왜 어려운가 지금까지 배운 방식으로 image데이터라면 CNN에 넣어서 학습하고 text라면 RNN에 넣어서 학습해서 합치면 그만 아닌가? 일단 데이터마다 컴퓨터가 이해할 수 있도록 표현하는 방식이 다르다. 1) 소리..