Loading...
2021. 10. 29. 16:49

boosting에 대하여

boosting에 대한 알고리즘 설명이 2가지 정도 있습니다. 주어진 training data set이 있다고 생각해봅시다. 여기서 random하게 sampling하여 sample dataset을 구성합니다. sampling을 하는 과정을 boosting round라고 부릅니다. boosting round에서 구성한 sample dataset을 이용하여 하나의 model A를 학습시킵니다. (처음 가지고 있던 train set으로 학습시키는게 아니고 sampling한 것으로 학습시킴) 이 학습시킨 model A를 가지고 있던 training data set 전체에 대해서 validation을 수행합니다. 일부 뽑은 sample set으로 validation을 하는 것이 아니라 전체 train data s..

2021. 10. 28. 19:48

random forest 모형

bagging방식에서 bootstrap sampling을 한 data set에 적합시키는 model이 decision tree이면 random forest 알고리즘이 됩니다. 그 이름이 forest인데 여러개의 tree들이 모이면 forest가 된다는 점에서 상당히 어울리는 이름이라고 할 수 있습니다. 몇가지 핵심 아이디어를 나열해보면 다음과 같습니다. bootstrap에 기반하므로 tree를 학습시키는 데이터는 동일한 데이터 row가 포함될 수 있습니다. 다음으로 데이터로부터 decision tree를 성장시킬 때 feature에 대해 information gain이 가장 큰 feature를 선택하여 성장시켰는데 random forest는 데이터의 모든 feature의 information gain을 ..

2021. 10. 28. 19:42

선형대수학 기본 용어 -초보자편 2-

1. order(dimension) m개의 행과 n개의 열을 가지는 행렬 $A$의 order은 $m \times n$을 말합니다. 다른 말로 행렬의 dimension이라고도 부릅니다. dimension은 행렬의 원소의 수와도 관련되어 있습니다. dimension이 $m \times n$인 행렬 $A$의 원소의 수는 $mn$개 있습니다. 2. 행렬의 기본연산 2-1) 행렬의 덧셈이나 뺄셈은 두 행렬의 대응하는 원소의 덧셈이나 뺄셈으로 정의됩니다. 이로부터 덧셈은 두 행렬의 dimension이 동일해야 가능합니다. 수학적으로 $$A _{mn} +B _{mn} = \left \{ a _{ij} +b _{ij} \right \}$$ 2-2) 행렬의 scalar 곱은 행렬의 모든 원소에 해당 scalar를 곱하면..

2021. 10. 27. 18:24

bagging이란?

1. bootstrap sampling 1-1) 주어진 하나의 data set에서 매 회 일부를 random sampling하여 여러 개의 data set을 구성하는 방법입니다. 예를 들어 100개의 data가 존재하는 하나의 data set이 있을 때 5번 30개씩 random dampling한다면 30개, 30개, 30개, 30개, 30개씩 데이터가 존재하는 총 5개의 dataset을 얻게 됩니다. 통계학적으로는 단 1set로 통계량을 추정하면 불확실하게 추정할 수 있는데 여러 set로 통계량을 추정하면 더욱 확실하게 추정할 수 있는 효과를 가집니다. 딥러닝에서는 데이터가 충분하지 않더라도 여러 데이터 set을 활용할 수 있으므로 ensemble효과를 가집니다. 1-2) 보통 여기까지는 다들 알고있지..

2021. 10. 27. 18:05

선형대수학 기본 용어 -초보자편 1-

1. matrix 정의 1-1) 위키피디아에서는 행렬을 행과 열에 수나 기호 수식 등을 나열한 직사각형의 배열이라고 정의하고 있습니다. 예를 들어 $\begin{pmatrix} 1 & 9& -13\\ 20 & 5& 16 \end{pmatrix}$ 1-2) m개의 행과 n개의 열을 가지는 행렬 A는 수학적으로 $A _{mn} = \left \{ a _{ij} \right \}$라고 표현합니다. 여기서 $a _{ij}$는 행렬 A의 $i$번째 행에 있고 동시에 $j$번째 열에 위치하는 원소를 의미합니다. 명백하게 행과 열의 수를 알 수 있다면 $A = \left \{ a _{ij} \right \}$으로 행,열의 수를 생략하기도 합니다. $a _{ij} $는 간혹 $A[i,j]$나 $A _{i,j}$등등으로..

2021. 10. 10. 13:44

정보이론의 기초3 -KL divergence란?-

1. KL divergence에 대하여 The Kullback–Leibler divergence (or information divergence, information gain, or relative entropy)은 두 확률분포를 비교하기 위한 방법이다. 데이터의 진짜 확률분포(true distribution)을 P라 하고 데이터가 따를 것 같다고 생각하는 우리가 예측한 확률분포 모형이 Q라한다면 Q에 대한 P의 The Kullback–Leibler divergence은 $$D _{KL} (P||Q)=E(log \frac{P}{Q} ) _{P} = \sum _{x \subset P} ^{} P(x)log \frac{P(x)}{Q(x)}= \sum _{x \subset P} ^{} P(x)logP(x)-..