hidden vector의 차원은 hyperparameter이다. 여기서는 2차원이라고 가정해보자. 3차원의 입력벡터 Xt가 들어가고 2차원의 hidden state vector인 ht−1이 RNN의 입력으로 들어간다고 해보자. 처음에는 Xt와 ht−1이 concatenation되어 hidden layer에 fully connected 된다. 당연하지만 ht−1이 2차원이기때문에 ht를 뽑아내는 layer의 차원도 2차원이다. hidden layer의 선형변환 W와 입력벡터의 곱 WX에 nonlinear activation인 tanh(WX)로 ht가 뽑힌다. Vanilla RNN이 실제로 tanh()를 activate function으로 썼다..
1. visual and text cross modal translation 1-1) motivation 대표적으로 image captioning image(CNN)에서 text sequence(RNN)로 변환하는 문제 이미지가 주어지면 이미지를 가장 잘 설명하는 text description을 생성하는 문제 1-2) show and tell image captioning의 시초격인 모델 ImageNet에서 pre-train한 CNN을 이용하여 image를 encoding함 image encoding vector를 LSTM의 초기 vector로 사용 start token을 넣어 word를 생성 token을 넣기 전에 fully connected layer에 넣은 다음에 LSTM module에 넣는다 예측..
1. character embedding character level의 경우 아스키코드로 0~255사이 값으로 mapping하여 코딩하는 경우 있지만 machine learning 관점에서는 오히려 사용하기 까다로울수 있다?? 몰랐는데 CNN을 이용하여 character embedding을 하는 경우도 많은 것 같음 underestimate가 과소평가하다라는 뜻인데 misunderestimate는 실제 없는 단어지만 mis와 underestimate의 합성어로 잘못 과소평가하다라는 뜻으로 추측할 수 있음 이런 인간의 언어 능력을 흉내내기 위해 character embedding을 연구하고 있다고는 함 2. word embedding 근데 보통은 word level에서 embedding하는 경우가 많다 오..
1. motivation 다양한 타입, 형태, 특성을 가지는 데이터를 특별한 제한없이 모두 사용하여 모델을 학습시키는 방법 지금까지는 이미지 하나만을 사용해서 모델을 학습시켜왔지만 사실 사람들은 눈으로 보면서(이미지) 귀로 동시에 듣기(소리)도 하며 맛을 보기 전에도 코로 냄새를 맡는 등 자연스럽게 multimodal을 사용하는 것이 기본이다. 그 외에도 사람들은 social perception, 3D world의 depth perception등 느끼지는 못하지만 실제로는 사용하고 있는 다양한 감각들을 모두 사용하여 학습을 한다. 2. 어려운 점 다양한 형태의 데이터를 사용하여 학습을 하고자하는데 여러 타입의 데이터를 표현하는 방법이 모두 다르다는 것이 문제다. 오디오는 1d signal wa..
내 블로그 - 관리자 홈 전환 |
Q
Q
|
---|---|
새 글 쓰기 |
W
W
|
글 수정 (권한 있는 경우) |
E
E
|
---|---|
댓글 영역으로 이동 |
C
C
|
이 페이지의 URL 복사 |
S
S
|
---|---|
맨 위로 이동 |
T
T
|
티스토리 홈 이동 |
H
H
|
단축키 안내 |
Shift + /
⇧ + /
|
* 단축키는 한글/영문 대소문자로 이용 가능하며, 티스토리 기본 도메인에서만 동작합니다.