Loading...
2022. 2. 15. 18:54

Word2Vec의 2가지 형태 - CBOW와 skip-gram 모델

1. CBOW(continuous bag of words) Word2Vec의 첫번째 방법으로 주변의 단어를 가지고 중심단어를 예측하는 과정이다. ‘I am going to school’이라는 문장에서 window size=2라면 중심단어는 going이고 주변단어는 I,am, to, school CBOW는 주변단어를 모두 써서 중심단어 하나를 예측하는 것 CBOW의 중간에 SUM과정이 있는데 input vector들의 평균을 구하는 과정으로 skip gram과 차이점이다. 근데 논문에서 처음 제시한 모형은 sum을 구하는 것이라고 한다. 그런데 큰 차이는 없는것같다. 그냥 sum보다 평균이 안정적인 느낌이라 변했다고 생각이 든다 -------------------------------------------..

2022. 2. 15. 18:36

RNN(Recurrent Neural Network)이란 무엇인가?

MLP의 경우 현재 시점의 정보만 가지고 입출력을 하므로 과거 정보를 다루기 어렵다. MLP는 오직 현재 시점의 입력만 사용한다 과거의 정보를 사용하고 싶다면? 이전 잠재변수 $H_{t-1}$로부터 정보를 받는 새로운 가중치 행렬을 만든다 위와 같은 경우 가중치 행렬이 1층 레이어에서 $W_{X}^{(1)}$,$W_{H}^{(1)}$, 2층 레이어에서 $W^{(2)}$로 총 3개 있음 특히 이들 가중치 행렬은 시간 t와는 무관하게 모든 시점에서 공유된다 혹은 재귀적으로 입력이 반복된다고 해서 이렇게 표현하기도 한다 현재 입력 X에 대해 추가적으로 A에서 이전의 출력정보가 같이 들어가서 H로 나오는 구조 이런 재귀적 구조를 시간순으로 풀어버리면 오른쪽 그림처럼 입력이 매우 많은 fully connected..

2022. 2. 14. 20:19

다양한 sequential model들

1. naive sequence model 조건부확률을 이용한 모델링 과거 정보가 얼마나 들어올지 모르기 때문에 사실상 사용하기 어렵다 과거 정보는 input data이고 이것을 이용하여 현재 시점의 데이터를 예측 2. autoregressive model 과거정보가 얼마나 들어올지 모르는 어려움을 해소하는 가장 쉬운 방법은 고정된 길이의 과거 자료만 사용하는 자기회귀모형(autoregressive model) 3. Markov model 자기회귀모형의 일종으로 AR(1)을 Markov model이라고 한다. 오직 바로 이전 시점의 데이터만 현재 시점에 영향을 미치는 경우에 사용 결합확률분포의 표현이 쉬워지지만 현실적으로 절대 말이 안되는 AR(1) 모형 많은 과거 정보를 버릴 수 밖에 없다. 4. La..

2022. 2. 13. 21:45

그래프의 path, distance, diameter 그리고 작은 세상 효과(small world effect) 이해하기

1. path 두 node u와 v사이 path란 다음 두 조건을 모두 만족하는 순열이다. u에서 시작해서 v로 끝난다. 부분순열에서 연속된 두 node는 link되어 있다. 왕복하는 1,4,3,4,6,8도 1에서 8까지 path인데 1에서 시작해서 8로 끝나고 어느 두 연속된 node도 link되어 있어서 그렇다. 5에서 6은 끊어져있으니 1,3,4,5,6,8은 path가 아니다. 2. the length of path 해당 path에 존재하는 모든 link의 길이를 말한다. 1,4,6,8에는 3개의 link가 존재하므로 길이는 3 물론 link 1개의 길이가 1일때 그렇다 3. distance 두 node u와 v사이 distance는 모든 path중 최단경로의 길이 u와 v사이 모든 path를 구해..

2022. 2. 13. 21:15

가장 좋은 data augmentation이 있을까?(random augmentation)

1. random augmentation  하나의 train dataset에서도 여러가지 수많은 augmentation 방법을 사용할 수 있는데 사람의 욕심은 어떠한 augmentation 방법을 써야 가장 좋은 성능을 낼 수 있을지 찾고 싶음 그래서 가능한 후보 augmentation 기법 K개를 선정함  예를 들어 위와 같은 augmentation 기법만 사용하겠다고 후보군을 만들었고 그런데 여기서 연산량을 더욱 줄이고 싶어서 이 후보들 중 random하게 augmentation의 기법 N개를 선정하고 선정한 N개의 모든 augmentation 기법의 강도를 M이라고 하자. 이 때 개별 augmentation 기법 별로 서로 다른 강도를 적용하는 것이 아니고  모든 augmentation 기법 강도를..

2022. 2. 12. 19:25

data augmentation은 왜 사용해야할까?

1. train data의 문제점 neural network는 데이터를 컴퓨터만 이해할 수 있는 지식의 형태로 녹여넣는 모델 데이터를 통해 패턴을 분석하고자하는 것인데 모델이 데이터를 편식하지 않고 전부 가져가면 가장 좋다 그러나 실제 세상의 데이터들은 bias가 많다 우리가 train data로 얻은 이미지들은 사람이 카메라로 찍은 이미지들이다. 사람이 카메라로 찍었다는 것은 당시 유행?에 따라 사람들이 보기 좋게 찍은 bias된 이미지 그러나 실제 세상은 사람들이 보기 좋게 찍은 구도 말고도 여러가지 많다 실제 test time에서는 어떤 image가 들어올지 모른다 이 말이야 train data는 실제 real data 분포에서 아주 극히 일부 sampling된 데이터라고 볼 수 있다 이게 왜 문제..