Loading...
2023. 2. 27. 03:48

text data를 다루는 NLP + computer vision과의 활용 - image captioning 기본 배우기1

1. multi-modal learning 서로 다른 타입의 데이터를 같이 활용하는 학습 방법 이미지와 텍스트나 사운드를 같이 활용해서 학습할 수 있을까? 데이터라 하면 사람의 오감에서 얻는 정보나 social perception으로 불리는 사회적 감각에 의한 정보..(눈치) 3d sensor에서 얻은 정보나.. 예를 들어 text 하나의 데이터만 다루는 형태는 unimodal 이미지와 audio를 같이 활용한 학습이라면 multimodal 형태 2. multi-modal learning은 왜 어려운가 지금까지 배운 방식으로 image데이터라면 CNN에 넣어서 학습하고 text라면 RNN에 넣어서 학습해서 합치면 그만 아닌가? 일단 데이터마다 컴퓨터가 이해할 수 있도록 표현하는 방식이 다르다. 1) 소리..

2022. 2. 11. 21:27

text를 embedding시키는 Word2Vec의 성질 이해하기

1. 시각적으로 알아보는 Word2Vec layer의 기본 구성 8개의 단어를 5차원 embedding vector로 만들고 싶다. random하게 초기화시킨 가중치는 여기서 가로 한줄한줄이 단어 세로 한줄한줄은 차원 수백번 학습시키고나서 얻은 가중치는 apple과 orange는 의미상 비슷하다는 것을 알고 있다. 실제 embedding결과도 비슷한 색을 보이고 있다는 것 juice, milk, water도 색이 비슷하다는 것이 보인다. 실제로 이들도 의미상 비슷하다. 고차원의 벡터는 눈으로 확인이 불가능하다. PCA를 통해 2차원으로 축소시켜 시각화한 그림은 의미상 비슷한 벡터들이 모여있긴하다 W1과 W2중 무엇을 embedding vector로 써도 상관없지만 통상적으로는 W1을 embedding v..