Loading...
2022. 2. 15. 18:36

RNN(Recurrent Neural Network)이란 무엇인가?

MLP의 경우 현재 시점의 정보만 가지고 입출력을 하므로 과거 정보를 다루기 어렵다. MLP는 오직 현재 시점의 입력만 사용한다 과거의 정보를 사용하고 싶다면? 이전 잠재변수 $H_{t-1}$로부터 정보를 받는 새로운 가중치 행렬을 만든다 위와 같은 경우 가중치 행렬이 1층 레이어에서 $W_{X}^{(1)}$,$W_{H}^{(1)}$, 2층 레이어에서 $W^{(2)}$로 총 3개 있음 특히 이들 가중치 행렬은 시간 t와는 무관하게 모든 시점에서 공유된다 혹은 재귀적으로 입력이 반복된다고 해서 이렇게 표현하기도 한다 현재 입력 X에 대해 추가적으로 A에서 이전의 출력정보가 같이 들어가서 H로 나오는 구조 이런 재귀적 구조를 시간순으로 풀어버리면 오른쪽 그림처럼 입력이 매우 많은 fully connected..

2022. 2. 14. 20:19

다양한 sequential model들

1. naive sequence model 조건부확률을 이용한 모델링 과거 정보가 얼마나 들어올지 모르기 때문에 사실상 사용하기 어렵다 과거 정보는 input data이고 이것을 이용하여 현재 시점의 데이터를 예측 2. autoregressive model 과거정보가 얼마나 들어올지 모르는 어려움을 해소하는 가장 쉬운 방법은 고정된 길이의 과거 자료만 사용하는 자기회귀모형(autoregressive model) 3. Markov model 자기회귀모형의 일종으로 AR(1)을 Markov model이라고 한다. 오직 바로 이전 시점의 데이터만 현재 시점에 영향을 미치는 경우에 사용 결합확률분포의 표현이 쉬워지지만 현실적으로 절대 말이 안되는 AR(1) 모형 많은 과거 정보를 버릴 수 밖에 없다. 4. La..

2022. 2. 11. 21:10

sequence 데이터를 모델링하는 방법

1. sequence data 사건의 발생 순서에 따라 순차적으로 들어오는 데이터 말소리, 문자열, 주가, 비디오, 시계열, 동작(motion) 데이터 독립이고 서로 동등한 분포를 따르지 않는다(iid가 아니다.) 데이터의 순서를 바꾸면 확률분포가 바뀐다. 과거의 정보나 앞뒤의 맥락을 이용하지 않으면 미래를 예측하는 것이 어렵다. 순서에 관한 정보를 어떻게 반영해야할지 어려워 다루기 어려운 데이터이다. 심지어 입력의 차원이 어디까지 될지를 모른다. 바꿔말하면 sequence data를 다룬 모델은 입력의 차원이 다르더라도 동작할 수 있는 모델이어야한다. 2. 조건부확률을 이용한 모델링 sequence data는 이전에 발생한 정보를 이용하므로 이전 사건이 발생했다는 가정하에 현재 데이터가 발생할 확률을 ..

2022. 2. 9. 19:14

transfer learning이란 무엇일까?

1. motivation 지금까지 보지 못한 새로운 인공지능을 만들어야한다고 할 때 데이터부터 준비해야할 것이다. 기본적으로 인공지능은 어마어마한 데이터가 필요한데 입력데이터만 단순히 모으는 것이 아니라 데이터의 label도 필요함 이런 것은 단기간에 모으기 쉽지 않고 비용도 많이 나오고 외주업체에 맡겨도 사람이 하는 일이라 원하는 형태의 데이터보다는 질이 낮은 데이터가 얻어짐 만약 원하는 task와 연관된 어떤 task에 대해 미리 학습한 모델을 이용할 수 있다면? 적은 데이터로도 좋은 성능을 낼 수 있지 않을까? 2. definition 기존에 미리 학습시켜놓은 사전 지식으로 연관된 새로운 task에 적은 노력으로 높은 성능에 도달하겠다는 것이 목적 쉽고 경제적이며 어느 정도의 성능도 보장한다 직관적..

2022. 1. 28. 09:32

transformer은 NLP의 트렌드를 어떻게 바꾸었을까

1. 기계번역의 연구 트렌드 1-1) translation based on rule 기계번역 문제는 연구자들이 수십년간 노력했던 분야로 딥러닝 이전에는 전문가들이 직접 언어간 문장구조를 고려한 rule 기반 번역을 수행했다. I love this movie라는 영어 문장을 나는 이 영화를 사랑한다.로 번역하기 위해서는 먼저 I , love, this, movie 단어별로 번역을 수행했다. 영어와 한글의 문법은 다르기 때문에 한글의 문법을 고려한 어순배열을 수행해야했다. 그러나 다양한 언어의 수많은 변수들을 일일이 고려하기에는 너무나 어렵다. 1-2) translation in RNN RNN이라는 딥러닝 기술의 등장은 이러한 고민을 해결했다. 언어학적 rule없이 단지 (영어 원문, 번역문)의 쌍으로 된 ..