sequence 데이터를 모델링하는 방법

1. sequence data

 

사건의 발생 순서에 따라 순차적으로 들어오는 데이터

 

말소리, 문자열, 주가, 비디오, 시계열, 동작(motion) 데이터

 

독립이고 서로 동등한 분포를 따르지 않는다(iid가 아니다.)

 

데이터의 순서를 바꾸면 확률분포가 바뀐다.

 

과거의 정보나 앞뒤의 맥락을 이용하지 않으면 미래를 예측하는 것이 어렵다.

 

순서에 관한 정보를 어떻게 반영해야할지 어려워 다루기 어려운 데이터이다.

 

심지어 입력의 차원이 어디까지 될지를 모른다.

 

바꿔말하면 sequence data를 다룬 모델은 입력의 차원이 다르더라도 동작할 수 있는 모델이어야한다.

 

 

2. 조건부확률을 이용한 모델링

 

sequence data는 이전에 발생한 정보를 이용하므로

 

이전 사건이 발생했다는 가정하에 현재 데이터가 발생할 확률을 다루는 조건부확률로 모델링할 수 있다.

 

조건부확률의 분해성질을 이용하면 sequence 데이터의 결합확률분포는

 

 

과거시점의 데이터들이 발생했다는 가정하에 현재시점의 분포는 조건부확률을 이용하면

 

 

그런데 모든 과거의 자료를 이용하는가? 그렇지도 않다

 

예를 들면 30년 기업의 주가를 예측하는데 창설시점인 30년전 데이터를 쓸 일은 없다.

 

비교적 최신 정보를 쓰고싶지

 

책을 읽는데 100페이지에 나온 단어의 의미를 알아보기 위해 1페이지부터 넘겨서 다시 보지는 않잖아

 

이래서 몇개의 과거 정보는 없애는 경우도 많다.

 

다시 말해 과거의 정보는 가변적으로 다룰 수 있어야 한다

 

TAGS.

Comments