Loading...
2021. 10. 27. 18:24

bagging이란?

1. bootstrap sampling 1-1) 주어진 하나의 data set에서 매 회 일부를 random sampling하여 여러 개의 data set을 구성하는 방법입니다. 예를 들어 100개의 data가 존재하는 하나의 data set이 있을 때 5번 30개씩 random dampling한다면 30개, 30개, 30개, 30개, 30개씩 데이터가 존재하는 총 5개의 dataset을 얻게 됩니다. 통계학적으로는 단 1set로 통계량을 추정하면 불확실하게 추정할 수 있는데 여러 set로 통계량을 추정하면 더욱 확실하게 추정할 수 있는 효과를 가집니다. 딥러닝에서는 데이터가 충분하지 않더라도 여러 데이터 set을 활용할 수 있으므로 ensemble효과를 가집니다. 1-2) 보통 여기까지는 다들 알고있지..

2021. 10. 27. 18:05

선형대수학 기본 용어 -초보자편 1-

1. matrix 정의 1-1) 위키피디아에서는 행렬을 행과 열에 수나 기호 수식 등을 나열한 직사각형의 배열이라고 정의하고 있습니다. 예를 들어 $\begin{pmatrix} 1 & 9& -13\\ 20 & 5& 16 \end{pmatrix}$ 1-2) m개의 행과 n개의 열을 가지는 행렬 A는 수학적으로 $A _{mn} = \left \{ a _{ij} \right \}$라고 표현합니다. 여기서 $a _{ij}$는 행렬 A의 $i$번째 행에 있고 동시에 $j$번째 열에 위치하는 원소를 의미합니다. 명백하게 행과 열의 수를 알 수 있다면 $A = \left \{ a _{ij} \right \}$으로 행,열의 수를 생략하기도 합니다. $a _{ij} $는 간혹 $A[i,j]$나 $A _{i,j}$등등으로..

2021. 10. 10. 13:44

정보이론의 기초3 -KL divergence란?-

1. KL divergence에 대하여 The Kullback–Leibler divergence (or information divergence, information gain, or relative entropy)은 두 확률분포를 비교하기 위한 방법이다. 데이터의 진짜 확률분포(true distribution)을 P라 하고 데이터가 따를 것 같다고 생각하는 우리가 예측한 확률분포 모형이 Q라한다면 Q에 대한 P의 The Kullback–Leibler divergence은 $$D _{KL} (P||Q)=E(log \frac{P}{Q} ) _{P} = \sum _{x \subset P} ^{} P(x)log \frac{P(x)}{Q(x)}= \sum _{x \subset P} ^{} P(x)logP(x)-..

2021. 10. 9. 17:32

정보이론의 기초2 -entropy란?-

1. Entropy는 무엇인가 self information이 하나의 사건에 대한 정보량이면 Entropy는 전체 확률분포가 가지는 정보량이라고 볼 수 있다. 확률변수 $M$의 Entropy는 $M$이 가질 수 있는 모든 사건의 평균적인 정보량으로 $M$의 정보량의 기댓값이다. $$H(M)=E(I(M))= \sum _{m} ^{} I(M)P(M=m)=- \sum _{m} ^{} P(M=m)logP(M=m)=-E(log(P(M))$$ 확률분포가 가지는 불확실성의 측도이고 확률분포가 가지는 모든 정보량이다. 2. 예시로 알아보는 Entropy 기계 X는 A, B, C, D를 각각 0.25의 확률로 출력 반면, 기계 Y는 A : 0.5, B: 0.125, C: 0.125, D: 0.25의 확률로 출력한다고 가..

정보이론의 기초1 -정보량이란?-

1. 정보이론의 핵심 아이디어 잘 일어나지 않는 사건은 자주 발생하는 사건보다 정보량이 많다. 예를 들어보면 ‘아침에 해가 뜬다’는 정보는 누군가에게 알려줄 필요가 없을 정도로 정보 가치가 없다. 그렇지만 ‘오늘은 4시에 피어세션을 시작한다.’는 정보는 꼭 알아야한다는 측면에서 정보량이 많다고 말할 수 있다. 기본적으로 자주 발생하는 사건은 낮은 정보량을 가진다. 100퍼센트 발생이 보장된 사건은 내용에 무관하게 전혀 정보가 없다 덜 자주 발생하는 사건은 더 높은 정보량을 가진다 독립인 사건은 추가적인 정보량을 가진다. 동전을 던져 앞면이 두 번 나오는 사건에 대한 정보량은 동전을 던져 앞면이 한번 나오는 사건보다 정보량이 두배 많다 2. Shannon의 self information 확률변수 M이 어떤..

2021. 10. 6. 19:45

p-value에 대한 오해

1. 문제 제기 빅데이터분석기사, ADsP를 공부하면서 p-value에 대한 정의가 이상한 것 같아서 이번 기회에 정리를 해볼려고 한다. 2. p-value에 대한 오해 2-1) p-value가 관측된 검정통계량이 귀무가설을 지지하는 방향으로 관찰될 확률? 2-2) p-value는 제1종오류를 일으킬 확률? 3. p-value의 정의 위키피디아에서 ‘In null hypothesis significance testing, the p-value is the probability of obtaining test results at least as extreme as the results actually observed, under the assumption that the null hypothesis is ..